完整机器学习/数据挖掘面试题可以点击这里获取:完整资料下载地址

为贯彻落实《中共中央国务院关于深化医药卫生体制改革的意见》的文件精神,卫生部先后在2010,2011发布了关于电子病历系统的规范和通知文件,包括印发《电子病历基本规范(试行)》的通知,关于开展电子病历试点工作的通知,印发《电子病历系统功能规范(试行)》的通知,关于推进以电子病历为核心的医院信息化建设试点工作的通知等。一系列的政策使电子病历的实施得到普及。随着电子病历数据量的急剧增长,电子病历数据库已经积累了海量的数据,形成医疗大数据。如何从海量的数据中挖掘出有价值的信息已经成为电子病历系统研究的热点问题。电子病历数据挖掘即是在“大数据”的形势下发展起来的。

电子病历中的数据类型繁多,由药房数据、实验室数据、影像信息和临床叙述文本信息四大类,包含病人的基本信息、病历资料、病程记录、实验室检查数据、影像信息、出院资料等。电子病历数据具有多样性、不完整性、动态性及文本叙述性。这些特征都不利于计算机直接对其进行挖掘分析,只有结构化的电子病历数据才便于利用数据挖掘的方法与技术对其进行资源开采。

一、电子病历数据挖掘的定义

电子病历挖掘旨在提取电子病历数据库中有用的医疗信息并挖掘隐含在其中的医学诊断规则和模式,从而为疾病诊断和治疗提供科学准确的辅助决策(1)。电子病历数据库中收集的是大量病人的真实数据,数据量大,从这些数据集中挖掘疾病发生关系和疾病发展规律,开展流行病学研究以及循证医学研究,将对医学研究和临床医学实践产生巨大的影响。

二、电子病历数据挖掘的常用方法与应用

电子病历数据挖掘的常用方法有:人工神经网络、粗糙集理论、决策树、进化计算。

1. 人工神经网络

人工神经网络是近年来颇受关注的一种算法,它为解决复杂的问题提供了一种相对有效且简单的方法。人工神经网络方法模拟人脑神经元结构,通过训练来学习非线性预测模型,可以完成分类、聚类、关联规则挖掘等多种数据挖掘任务。人工神经网络具有很强的自组织性和容错性,在电子病历挖掘中得到广泛的应用。目前可以通过人工神经网络能够找出服用抗精神药物与心肌炎和心肌病发作的关系(2)和动态检测病人的麻醉深度和控制麻醉药物的用量(3)等。

2. 粗糙集理论

近年来,粗糙集理论得到了迅速的发展和完善,是一种用于处理不确定性和含糊性知识的软计算方法,利用粗糙集中的属性约简和规则约简理论来对数据进行客观而有效的处理,从而更迅速地获得有用信息。粗糙集理论可用于肺癌的诊断,预测脊髓损伤病人的下床活动时间和检测癌病变的不同阶段等。

3. 决策树

决策树是一种用树枝状展现数据受各变量影响情况的分析预测模型,根据对目标变量产生效应的不同而制定分类规则的一种方法。它首先通过一批已知的训练数据建立一颗决策树,然后采用已建好的决策树对数据进行预测,决策树的建立过程是数据规则的生成过程,因此这种方法实现了数据规则的可视化,其输出结果容易理解,精确度较好,效率较高,因而在电子病历挖掘常用。决策树在自动诊断心脏SPECT影像和诊断心肌灌注的知识发现系统中有较好地应用。

4. 进化算法

进化算法是由生物进化规律而演化出的一种搜索和优化的计算方法,它包括遗传算法、进化规划、进化策略和遗传编程。进化算法通过随机选择、交叉和变异等过程,使群体进化到搜索空间中越来越好的区域。在医学数据挖掘中,采用遗传编程可对胸痛症状疾病进行诊断,运用进化算法可对脊柱的侧凸进行分类。

三、电子病历数据挖掘的研究与应用

电子病历发展到一定阶段后,电子病历数据挖掘的兴起就迫在眉睫了。电子病历挖掘在数字化医院系统中已经有了一定的应用,比如:发现各种疾病之间内在联系、病情估计与疾病分类、临床用药的指导和影像数据自动分析等方面。

邓薇薇(4)等人采用关联分类算法构造了医学图像分类器,用已知类型的图像训练分类器挖掘满足约束条件的关联规则,然后利用发现的关联规则对未知类型的医学图像进行分类以判断脑肿瘤的良恶性。Sun J.等人将临床知识与电子病历数据相结合,通过建模方法设计了心力衰竭发生的风险因素预测的模型,并成功预测了心力衰竭的发生(5)。但由于电子病历数据挖掘涉及面广,技术难度大,因此,在挖掘过程中,临床医生和计算机工程师需要通力合作,共同参与这个过程,这样才能取得良好的数据挖掘效果。虽然,电子病历数据挖掘已经有了一定的应用,但是还没有一个完整的真正可以实用的研究成果。国内外在电子病历数据挖掘领域,主要进行着理论算法和方法的研究,但随着理论研究的深入和实践的摸索,电子病历挖掘在疾病诊断和治疗、医学教学与科研以及医院的管理等方面将会发挥更大的作用。

四、电子病历数据挖掘的挑战

电子病历数据挖掘的前景是可观的,但其存在的技术难题也是显著的。主要有以下难题:1)电子病历数据来自现实中的真实病人信息,数据量很大,数据的完整性、一致性和正确性都很难保证,如何将数据加工成数据挖掘算法可接收的数据形式是一个问题。电子病历中许多数据以自由文本形式存在,而非计算机可直接处理的数据格式,发展电子病历文本挖掘技术亦是电子病历数据挖掘领域的一个研究热点。2)电子病历中的数据涉及医学领域的专业知识,如何运用这些医学知识提高数据挖掘算法的效率,并对挖掘结果进行解释?3)电子病历数据挖掘系统是将专家的诊断经验转化为规则和知识库,系统中输入患者的症状,再做出相应的诊断,从而减少医生的主观判断失误,但是知识库中的诊断标准时根据某些专家的经验来制定的,缺乏客观性和普遍性。因此如何构建知识库,使用何种推理机制是电子病历挖掘系统中的瓶颈问题。4)电子病历系统中的图像挖掘的一直是研究的一个难点,而病人的大量信息是存在图像中,如何快速、有效地自动提取电子病历图像中的特征值以及如何选择更合适、更先进的电子病历图像挖掘方法是目前迫切需要解决的问题。

由于电子病历系统中医学信息自身具有的特殊性和复杂性,与常规数据挖掘相比,电子病历挖掘在挖掘对象的广泛性、挖掘算法的高效性和鲁棒性、提供知识或决策的准确性方面有着更高的要求,要设计出完全符合当前医疗行业统一标准(HL7)的电子病历挖掘系统,需要从事智能信息处理、计算机、应用数学的科研人员与医院信息管理人员、医学专家等多方面人员共同进行进一步的研究。

1. Kononenko I. Machine learning for medical diagnosis: history, state of the art and perspective. Artif Intell Med. 2001;23(1):89-109.

2. Coulter DM, Bate A, Meyboom RH, Lindquist M, Edwards IR. Antipsychotic drugs and heart muscle disorder in international pharmacovigilance: data mining study. BMJ. 2001;322(7296):1207-9.

3. Vefghi L, Linkens DA. Dynamic monitoring and control of patient anaesthetic and dose levels: time-delay, moving-average neural networks, and principal components analysis. Comput Methods Programs Biomed. 1999;59(2):91-106.

4. 邓薇薇, 卢延鑫. 基于关联分类算法的医学图像数据挖掘. 国际医学寄生虫病杂志. 2012;39(3):174-7.

5. Sun J, Hu J, Luo D, Markatou M, Wang F, Edabollahi S, et al. Combining knowledge and data driven insights for identifying risk factors using electronic health records. AMIA Annual Symposium proceedings / AMIA Symposium AMIA Symposium. 2012;2012:901-10.