医疗行业大数据平台技术路线及日常运维难点解决方案-

医疗行业大数据平台技术路线及日常运维难点解决方案1、大数据在医疗行业的发展趋势据有关机构统计数据，最近几年全球数据产生量迅猛增长。到2020年全球数据产生量达到50.5ZB，同比增长23%。在数据储量不断增长的推动下，大数据产业也将构建出多层多样的市场格局，具有广阔发展空间。未来两年里，大数据市场将呈现稳步发展的态势，增速保持在14%左右。近年来，随着云计算、大数据、物联网、移动互联网、人工智能等新兴技术不断涌现和成熟，加速了传统医疗行业与这些新兴技术的融合，其中以健康医疗大数据为代表的医疗新业态，不断的激发着医疗行业的发展。在过去几年，健康医疗大数据应用市场规模快速增长，从2014年的6.06亿元猛增到2018年的56.3亿元，年复合增长率达到74.6%。其中，数据整合管理市场规模为29.7亿元，占比为52.8%。下图是医疗行业大数据应用的领域：医疗大数据的潜在价值巨大，其应用有助于提高医疗服务质量、减少资源浪费、优化资源配置、控制骗保行为、改善自我健康管理等。2、大数据在医疗行业的应用场景目前，医疗大数据的应用场景主要包括临床决策支持、健康及慢病管理、支付和定价、医药研収、医疗管理等，服务对象涵盖居民、医疗服务机构、科研机构、医疗保险机构、公共健康管理部门等。由于大数据在医疗管理、医疗研究等领域具有独特优势，越来越多医疗相关单位与大数据企业、医疗信息化公司合作，同时高等医学类院校也纷纷成立大数据研究院，尤其是2018年4月，某大学健康医疗大数据国家研究院在京成立，标志着医疗大数据在高校和医院联合研究方面走上了新的高度。医疗行业在大数据世界中占比达30%以上，每年以48%的速度增长，是增速最快的行业之一，从2009年到2020年医疗数据增长了44倍，医疗行业数据呈PB级增长，一个三甲医院每年的医疗影像数据将增加数十TB,根据估算，一个中等城市50年累计的医疗数据量将达到10PB级。3、医疗行业建设大数据项目取得的收益医院数据，包括门诊收费、电子病历、检验检查数据和医学影像数据等，医疗机构健康医疗数据的互联互通和标准化入库，未来将逐步接入医疗保险数据、基因测序数据、健康智能设备数据和第三方健康管理机构数据等。医院建设大数据项目可提供众多人群的精准医疗数据服务，为临床决策与科研、基因测序、新药研发和健康管理等提供海量存储及大数据分析能力。大数据极大提高了临床决策的科学性大数据将极大提高医疗决策，特别是临床决策的科学性，主要包括用药分析、药品不良反应、疾病并发症、治疗疗效相关性分析、制定个性化治疗方案等，大数据分析技术将使临床决策支持系统更智能，通过挖掘医疗文献数据建立医疗专家数据库，从而给医生提出诊疗建议，提醒医生防止潜在的错误，减少和降低医疗事故率。大数据能更好的服务于患者大数据通过全面分析病人特征数据和疗效数据，然后比较多种干预措施的有效性，可以找到针对特定病人的最佳治疗途径。研究表明，对同一病人来说，医疗服务提供方不同，医疗护理方法和效果不同，成本上也存在很大差异。将有可能减少过度治疗，以及治疗不足。 *大数据创新医疗行业需求开发随着微博、微信、电商平台等媒介在PC端和移动端的创新和发展，公众分享信息变得更加便捷自由，而公众分享信息的主动性促使了网络评论这一形式的发展。微博、微信评论版上成千上亿的网络评论形成了交互性大数据，其中蕴藏了巨大的医疗行业需求开发价值，值得管理者重视。作为医疗行业，如果能对网上医疗行业的评论数据进行收集，建立网评大数据库，然后再利用分词、聚类、情感分析了解消费者的消费行为、价值取向、评论中体现的新消费需求，以此来改进和创新产品，制订合理的价格及提高服务质量，从中获取更大的收益，只要医疗行业企业平时善于积累和运用自动化工具收集、挖掘、统计和分析这些数据，为我所用，都会有效地帮助自己提高市场竞争力和收益能力，赢得良好的效益。4、医疗行业建设大数据项目面临的风险与应对措施医疗数据安全关系到患者隐私、技术研发等重要、敏感领域，一旦发生数据泄露将对患者群体、社会稳定乃至国家安全造成严重影响。因此，做好医疗数据的安全防护与治理至关重要。1、临床研究数据安全风险。临床研究数据一般是指由医院、学术研究机构和医疗企业发起的，主要用于药物、医疗器械、医疗诊断的科学研究，所涉及的基本人口学资料、诊断信息、病例及患者报告等数据信息。参与临床研究的医患及有关信息，在通过专线、互联网线路等途径进行传输时，或是在医疗机构进行存储和使用等过程中，都面临着诸多数据安全风险。另外还存在远程医疗数据安全和医疗中心数据安全问题，针对这些问题需要从多方面进行管控：1) 包括医疗健康大数据在使用的过程中，涉及到个人隐私数据的分析利用、流通等都应受到严格管控，无论从个人角度还是使用者角度，都需要获得授权许可。2) 构建以患者为中心的医疗数据安全防护体系。现有的隐私安全防护，大多只是注重脱敏和匿名保护，不是全方位体系。需要加强构建以患者为中心的个人医疗信息风险评估和防护体系，覆盖信息录入、个人隐私管理、加密存储、访问控制等多个环节。3) 加强个人信息保护立法。一方面，公民要有充分认知，应当学会对自身隐私的保护。另一方面，对违法行为要有足够的惩治，打击个人信息的不当泄露和非法利用。2、医疗数据标准化建设是医疗大数据建设的基础工作，为了使大数据建设更好的满足临床业务和为患者服务的需求，实现数据统一的标准化和规范化。医疗数据标准化建设过程中遇到以下风险和难点内容，分享给大家： 1)数据标准化涉及多个应用系统，协调接口改造进度和接口质量把控难度大，需要协调好院方确认改造的接口双方签字后执行。 2)数据标准化以消息方系统为建设起点，收集各消息方系统对数据标准化需求，先建立数据基本集和预留部分扩充字段，避免接口改造反复修改，提高接口稳定性； 3)数据标准化确认业务流程，通知相关科室维护数据要求，给出必填字段及业务流程，以免维护数据错误或空缺而影响消息系统数据问题；5、医疗行业建设大数据项目技术路线的选择大数据系统最基本的组件是处理框架，处理框架和处理引擎负责对数据系统中的数据进行计算，依据所要处理的数据类型和数据状态分类，一些系统可以用批处理方式处理数据，一些系统可以用流方式处理连续不断流入系统的数据，另外还有一些系统可以同时处理这两类数据。下面是流处理与批处理的对比图：Apache Hadoop是一种专用于批处理的处理框架。Apache Hadoop及其MapReduce处理引擎最适合处理对时间要求不高的非常大规模数据集。通过非常低成本的组件即可搭建完整功能的Hadoop集群，使得这一廉价且高效的处理技术可以灵活应用在很多案例中。Apache Storm是一种侧重于极低延迟的流处理框架，也许是要求近实时处理的工作负载的最佳选择。该技术可处理非常大量的数据，通过比其他解决方案更低的延迟提供结果。Apache Samza是一种与Apache Kafka消息系统紧密绑定的流处理框架。虽然Kafka可用于很多流处理系统，但按照设计，Samza可以更好地发挥Kafka独特的架构优势和保障。该技术可通过Kafka提供容错、缓冲，以及状态存储。Apache Flink是一种可以处理批处理任务的流处理框架。该技术可将批处理数据视作具备有限边界的数据流，借此将批处理任务作为流处理的子集加以处理。Flink是一个新兴的项目存在一定的局限性。Apache Spark是一种包含流处理能力的下一代批处理框架。与Hadoop的MapReduce引擎基于各种相同原则开发而来的Spark主要侧重于通过完善的内存计算和处理优化机制加快批处理工作负载的运行速度。Spark是多样化工作负载处理任务的最佳选择。Spark批处理能力以更高内存占用为代价提供了无与伦比的速度优势。对于重视吞吐率而非延迟的工作负载，则比较适合使用Spark Streaming作为流处理解决方案。经过对几种大数据处理框架和处理引擎的比较，结合医院现有应用系统的建设情况和数据量的规模以及数据类型的复杂度（医疗数据包括结构化和非结构化还有半结构化数据，数据类型多种多样，有的数据适合批处理，而有的数据适合流处理），所以选用开源大数据架构的Apache Spark建设医院大数据分析平台。上面是Hadoop和Spark的处理性能对比图，从图中可以看出排序100TB的数据（1万亿条数据），Spark只用了Hadoop所用1/10的计算资源，耗时只有Hadoop的1/3。Hadoop的处理引擎MapReduce只提供两个操作Map和Reduce，表达力欠缺；一个Job只有Map和Reduce两个阶段无法满足复杂的计算需要，Job之间的依赖关系是由开发者自己管理的；ReduceTask需要等待所有MapTask都完成后才可以开始，时延高只适用Batch数据处理，对于交互式数据处理，实时数据处理的支持不够。因此MapReduce效率相对较低，所以我们选择更有效率，速度更快的内存级计算的Spark来构建医疗大数据分析平台。Spark的优势不仅体现在性能提升上的，Spark框架为批处理，交互式，流式，机器学习，图计算提供了统一的数据处理平台，这相对于使用Hadoop有很大优势。提到Spark不得说一下RDD，RDD（Resilient Distributed Dataset），RDD就是一个不可变的带分区的记录集合，RDD也是Spark中的编程模型。Spark提供了RDD上的两类操作，转换和动作。转换是用来定义一个新的RDD包括map, flatMap, filter等，动作是返回一个结果包括collect, reduce等。Spark基于RDD的抽象，实现数据处理逻辑的代码非常简短；提供很多转换和动作，很多基本操作如Join，GroupBy已经在RDD转换和动作中实现；一个Job可以包含RDD的多个转换操作，在调度时可以生成多个阶段（Stage），而且如果多个map操作的RDD的分区不变，是可以放在同一个Task中进行；中间结果放在内存中，内存放不下了会写入本地磁盘；通过将流拆成小的batch提供Discretized Stream处理流数据。医疗行业数据量非常大，每日增量数据也很大，数据类型复杂，选择通用性更强、运算效率更高的Spark架构来构建医疗大数据分析平台，可以更好的服务于医疗行业、服务于患者。6、医疗行业建设大数据项目的技术难点与解决办法本项目以卫健委给出的医院信息化建设的要求和相关数据模型为基础，结合医院的业务流程对现有业务进行梳理，确定业务中的问题形成总体设计；制定数据标准、接口标准、消息标准、文档标准和服务标准；根据总体设计和标准规范同步进行大数据平台实施。本项目基于患者就诊过程建立模型，该模型是从患者入院到出院过程中所产生的相关数据，主要包括患者的检查信息，图像序列表的生成，系统图像记录，患者特征数据、病种数据、治疗方案与费用数据、治疗状态数据及在该过程中产生的管理类数据。1) 患者特征数据：患者特征数据主要有现病史、检查检验类数据。涵盖了疾病的主要症状、体征、发病过程、检查、诊断、治疗及既往疾病信息、不良嗜好甚至职业。2) 病种数据：即患者疾病的诊断结果，一般有第一诊断、第二诊断、第三诊断等。目前使用ICD-10进行疾病的分类与编码。3) 治疗方案与费用数据:根据诊断结果为患者提供的治疗方案与费用数据主要包括药品、检查、检验、手术、护理、治疗6大类，此外费用数据还有材料费、床位费、护理费、换药费用等。4) 治疗状态数据:治疗状态数据即患者出院时的治疗结论，一般分为治愈、好转、未愈、死亡4类。5) 管理类数据:除患者就医过程产生的服务于医院管理的数据外，还包括医院运营和管理系统中的数据，如物资系统、财务系统、绩效考核系统等产生的数据。医疗大数据分析平台由数据获取、数据整合，数据加工和数