案例背景

某大学医学研究所以临床重大疾病机制、药品研发为主要研究方向,是集科学研究、社会服务等功能为一体的重要基础研究、临床研究、应用转化基地及综合科研机构。


科研工作是某大学医学研究所的主要任务,目前,该研究所针对某慢性病进行学术科研,从全国各医院采集某一病种病例 8000 万条数据,前期通过自研进行数据清洗和整合,再进行科研活动,但效果不佳,问题主要集中在:


1、 数据清洗效率低下


目前科研管理平台的数据导入方式是通过人工采集、人工整理及人工导入,耗时费力效率低、成本高,无法保证数据准确性,且不能满足未来平台大数据接入的需求。


2、 数据维度巨大,传统存储方式难以满足


面对日益增多的患病数据及上千的数据维度,研究所目前所采用的传统存储方式已经难以实现存储及高效的检索任务,亟待通过大数据平台建设,实现海量医疗数据的汇集、治理、共享与分析。


3、 缺少模块化、傻瓜式算法平台支持科研数据的深度挖掘


目前,研究所对于需要深度挖掘的数据缺乏统一的算法平台进行技术支撑,往往需要通过自己撰写代码的方式进行科研活动,门槛较高,效率低下,也无法实现研究项目的团队协作。


因此,研究所希望通过构建统一的医学大数据研究平台,满足信息化、标准化、数据化、人工智能等需求,打造集计算机科学、生物科学、基础和临床医学等各学科于一体的“产学研用”协同创新平台。



解决方案

1.数据治理平台


通过星环Transwarp Data Studio的数据资产定义、资产目录建立、数据溯源、数据全程监控及资产评估改进工具,实现数据资产的全生命管理:


  • 外部数据的高效接入:采用规范的数据治理方法,开发跟外部系统的接口;在外部系统难以接口或者外部数据没有系统等情况下,采用部分人工方式接入;

  •  自动化的数据处理工具:数据清洗、加工等使用星环TDS数据治理工具高效实现;

  • 高质高效的数据治理体系:逐步建立包括架构、工具、方法、规范、团队等等数据治理体系,保证数据治理的高质量和高效率;

  • 极致的综合查询效率:将众多标准术语划分为多张表供前后台查询分析,编写灵活入库程序使得各种结构不一致的数据规整化入库,优化入库效率,将“高频快”的页面操作数据和历史分析数据分开,在保证实时同步的情况下实现高效综合查询。

2.医疗大数据共享平台


通过星环Transwarp Data Hub构建分布式的医疗大数据平台,实现各类数据源的统一接入及高效稳定的查询分析:


  • 支持离线、实时等各类数据源的接入方式:在离线数据抽取方面,包括支持从Oracle数据库、MySQL数据库、RESTAPI等数据提供端的数据源;在实时数据抽取方面,包括对接OGG实时数据、CANAL实时数据等接入的方式;

  • 确保医疗数据的一致性:从源系统至大数据平台各个环节的数据流转过程中每个流转环节涉及数据一致性校验,一致性校验分离线数据和实时数据两类。通过校验离线数据与实时数据,确保在每个环节都保持数据一致;

  • 基于大数据平台的业务稳定支撑:通过大数据平台,处理和开发各类业务系统数据,包括离线批量数据处理、实时数据处理、高性能数据查询等,使各类数据的处理与查询性能能够满足业务的需求。

     

【案例】星环科技助力研究所构建医学大数据研究平台_java


实施成效

1.规范化管理科研数据


星环科技帮助医学研究所建立医学大数据研究平台,从数据采集、接入、清洗、存储、数据质量提升、数据资产积累提供一站式平台工具,实现医疗数据的汇集和共享。为科研业务管理人员实现底层数据支撑及算法结果展示,为医生及管理者提供院长驾驶舱,含数据接入大屏、数据治理大屏及患病分析大屏,实时显示数据接入总量、数据质量提升进度及患病统计数据等。


2.流程化管理科研数据


数据共享平台通过业务规则配置,帮助业务人员根据最新数据自动生成每日必须的人群明细数据及课题管理数据,减少手工数据梳理、清洗等处理时间。数据共享平台实现了数据入库、数据仓库管理、样本管理、数据检索、课题管理、人群管理、知识库、统计分析、可视化展示等功能,具体三大功能模块如下:


  •  数据接入模块

显示数据记录、健康体检、病案首页及电子病历等汇总指标(含数据总量、当月/年新增、环比、同比数据),并且支持接入数据地理分布图、区域数据分布、区域机构分布、数据类型占卜、数据新增时间轴、新增数据所属省份及机构排名等,帮助研究所对于接入数据的总体情况有全局了解。点击某类型数据,支持进一步下钻至机构分布、年龄分布、性别分布、数据量时间统计等维度。


  • 数据治理模块

数据治理是进行数据质量评估及数据研究分析工作开始的前提。研究所需从数百家机构的多源数据中提取所需的字段,因此需要对格式不一的各来源数据进行统一的数据治理之后才能够转化为易读取及分析的数据。


数据治理板块可显示实时的数据点接入输出累计总量、数据行/列/规则治理对比图、治理进度(如数据接入阶段、数据治理完成;数据标准化率、合法率、脱敏完成率等)及不合规数据占比等,切实反应数据治理工作的成果、质检数据工作总量、质检总体工作质量,以及数据质量的提升情况。平台还支持显示主要数据问题的分布情况,可了解到各机构数据普遍存在的问题类型,为后续工作提供警示作用及优化路径。


  • 患病分析模块

患病分析模块以归集、治理、质检后的体检数据为依据,监测各系统患病率(含呼吸系统、循环系统、消化系统等八大系统)、患病率地理位置分布、患者多维统计信息、疾病共患情况(根据医学背景,定义出与单疾病相关联的多种其他疾病,直观展现不同疾病间的共患情况)等,为研究所的临床重大疾病机制研究、药品开发创制提供数据支撑,加速研究所医疗科研成果落地,实现了医疗业务数据化到数据资产化的转变。


3.智能化应用科研数据


基于大数据平台的AI建模分析工具,实现了医疗数据的人工智能建模、研究团队项目协作及健康管理算法的积累沉淀,从而降低研究人员的医疗数据深度分析门槛,加快病学图谱的构建效率。


技术突破

本案例解决了医学行业同时注重统计分析和实时查询的疑难问题,真正把OLAP和OLTP两种完全不同的使用场景结合在了一起。


OLAP场景利用星环TDH大数据平台做为支撑,大数据量、分布式计算方面是大数据平台的优势,完美支撑了研究所在统计分析的使用场景。OLTP场景利用MySQL在处理少数据量点查的优势,实现了系统查询和修改界面的毫秒级响应。同时,修改的数据利用操作数据和历史数据分开的方案,实时把修改后的数据同步到大数据平台,保证了后续在进行统计分析时数据的完整性和正确性。


通过这两种场景的完美结合,即解决了医学行业统计分析和实时查询两种场景并存的难题,又保证了平台极佳的系统体验性。

【案例】星环科技助力研究所构建医学大数据研究平台_java_02

总地来说,基于星环TDH+TDS(分布式大数据平台+数据治理平台)一体化综合方案,为研究所构建了高性能、高可靠性、高安全性及可扩展性的医学大数据研究平台,实现了医疗数据的规范化、流程化、质量化,帮助研究所专业的医学数据分析团队高效挖掘病历样本等科研数据的价值,落地科研业务,保障科研进度的稳步推进。


案例价值
 

  • 极大提高了医疗数据处理效率;

  • 解决了大维度(3000-4000 维度)数据存储的问题;

  • 解决了算法平台使用问题;

  • 解决了科研结果快速呈现问题;

  • 提高了整体科研业务数据样本从选取到最终出成果的一体化程度及效率。