医疗大数据生命周期

在阿斯克医疗大数据方法论中,把医疗数据的生命周期分成下图的四个象限:

第一象限:数据采集 在数据采集阶段,医院通常会使用关系型数据库(例如Oracle,DB2,MySQL……),其核心诉求是要保障数据的完整性和一致性,确保数据不会因为软硬件故障而遭到损失。此外,随着互联网流量的引入,数据的联机处理量级和效率也成为一个重要的考量。一些医院为提升联机事务的处理效率,引入分布式数据库以满足互联网流量下高并发访问的需求。

第二象限:数据整理 每个医院有很多不同的业务系统,这些系统会采用相对独立的数据库来存储和处理不同的业务数据。通常系统使用的关系型数据设计容量有限,需要定期把历史数据清理到中心数据仓库,从而确保联机交易处理的快速高效。中心数据仓库是为了存储各个独立系统的历史全量数据,同时汇集各个系统的数据,因而在设计上会采用分布式可扩展的技术架构,通过例如Hadoop, Spark等技术保证可以用低廉的成本,对整个集群容量和处理能力进行无缝扩展。

第三象限:数据分析 用户需要利用数据资产创造价值。首先,来自各个分立系统的历史全量数据可以进行关联查询,通过批量处理构建不同维度的数据分析表,驱动BI和报表展示。然后,基于全量数据的探索式分析,可以对各个系统的数据执行相关性分析,依赖先进的机器学习算法发掘新的商业规则,并利用数据规律影响指导决策。

第四象限:数据决策 在第三象限通过批量数据处理构建的数据立方体、维度表和层级表,需要传递到关系型数据库,从而驱动报表展示,生成决策视图。进行决策支持的数据立方体、维表数据库又称为数据集市,BI应用和数据驱动的应用可以直接从数据集市获取数据进行业务分析,也可以在维表基础上进行二次数据汇集,形成更高层次的业务聚合。

医疗大数据平台架构及运行模式

阿斯克医疗大数据平台方案采用传统的关系型数据库与大数据平台的混合设计,整体基础数据平台构成包括联机事务库,数据整合交换,大数据平台,数据集市,探索分析,数据驱动应用这六个部分:

联机事务库

联机事务库是企业已构建的在线生产业务系统,例如交易系统、网站、ERP、仓储管理、生产工艺流程管理等所采用的数据库,以及互联网业务扩展将要构建的系统所采用的数据库。联机事务库主要面对的是实时事务处理,目前主要由商业或开源关系型数据库构成。今后,为了满足互联网流量下高并发业务需求,可根据需求引入分布式数据库与云数据库。

大数据平台

大数据平台由大数据技术组件构成,包括Hadoop,Spark, Hive, Hbase, Kylin等,可根据需求进行剪裁、定制和扩充。大数据平台从联机事务库获取数据,是联机事务库的全量数据集。同时大数据平台也可以从第三方获取数据,例如导入征信数据、舆情数据等,与联机事务数据进行相关性分析。

数据集市

数据集市是在大数据平台所存储的基础事实数据之上,进行多维度立方体汇总后的数据,它是由大数据平台事实表(Fact Table)进行批量处理后的结果,目的是加速数据驱动的BI统计报表和相关应用的数据展现效率。

数据驱动应用

数据驱动应用包括由BI报表,企业诚信查询,企业经营分析,券商执业质量评估,知识库主题构建等不同业务系统,他们的特点是需要由大量数据来驱动业务展示或决策。这些应用不直接对接大数据平台,因为大数据平台所存储的事实数据颗粒度太细,需要进行批量汇总之后才可以使用。因而,数据驱动应用层由数据集市提供数据支撑。对于新的业务系统,需要配合与之对应的维度表,由预先汇集的维度统计数据驱动业务系统。

探索分析

探索分析是大数据的灵魂,也是发掘数据价值进行业务拓展的重要方向。探索分析通过机器学习算法,对全量数据构建特征集进行相关性分析,从而发现商业规律,提前预判,提高服务质量。常用的分析算法包括有决策树,随机森林等成熟的算法,也可以基于已有算法开发适合企业数据自身特点的新算法。

医疗大数据的应用前景

为常见疾病临床诊疗提供参考

利用大数据技术在对海量医疗数据进行挖掘分析的基础上,能够提供重复检验检查提示、治疗安全警示、药物过敏警示、疗效评估、智能分析诊疗方案、预测病情进展等一系列智能的人机互动应用,为临床医师提供科学决策参考,提高临床诊疗水平,形成“源于临床、回归临床”的临床决策支持系统。通过对在患者档案方面的大数据分析,可以确定哪些人是某类疾病的易感人群,使其尽早接受预防性干预。这些方法也可帮助患者选择恰当的治疗方案。此外,临床决策支持系统还可使医生从耗时过长的简单咨询工作中解脱出来,提高其诊疗效率。

为医院精细化管理提供依据

医院精细化管理以规范化为前提,系统化为保证,数据化为标准,信息化为手段,把服务者的焦点专注到满足被服务者需求上,以获得更高效率、更多效益和更强竞争力。通过大数据分析平台对医院门诊量、手术量、入/出院病人数、床位使用率、床位周转率、设备使用率、设备折旧率、疾病谱、患者分布区域、财务收支等数据分析。将当前数据与同期数据、前期数据进行对比分析。对当地类似条件同行医院数据的对比分析,找出不断提高医院经济运行质量的成因和差距,抓住自身工作的薄弱环节,切实采取改进措施。

为个体化医疗提供平台

个体化医疗是以每位患者的大量信息为基础,通过综合分析挖掘每位患者病理学、生理学等方面的特点,进一步制定出适合每位患者的独特、最佳治疗和预防方案,提高治疗的针对性,从而取得最优疗效。个体化医疗需要综合分析每位患者的各方面信息,同时要求有处理这种“大数据”的方法及能力。分析患者各项详细的检查信息及诊断信息,便于个体化治疗策略的制定,从而得到较好疗效。技术的发展使现代医学常规收集的患者信息量非常巨大,分析信息的能力也有极大提升,使个体化医疗成为可能。

为临床科研提供资料

海量数据的出现催生一种新的科研模式,即面对海量数据,科研人员只需从中直接查找或挖掘所需信息、知识和智慧,甚至无需直接接触需研究的对象。2007年,已故的图灵奖得主吉姆•格雷(Jim Gray)在最后一次演讲中描绘了数据密集型科学研究的“第四范式”(The Fourth Paradigm),将大数据科研从第三范式(计算科学)中分离出来单独作为一种科研范式,认为“第四范式”可能是唯一解决我们面临的某些最棘手的全球性挑战的系统性方法。在科研过程中,大数据的利用、开发和整理,可以颠覆以往很多研究结果,带来意想不到的效益。

阿斯克医疗大数据集成平台建设目标

在互联网时代来临的大背景下,阿斯克致力为医院“大数据+”转型提供数据平台最佳整体解决方案。