多源数据集成论文_数据集成

多源数据集成论文_结构化_02

多源数据集成方法及应用

2022年6月份我参加了XX学校数据中台建设,担任系统分析师和架构设计工作,该平台主要包含数据存储、数据集成、数据治理和数据服务等方面以及相关的数据实施。在数据集成方面主要包括关系数据库系统结构化数据(教务、人事、科研等)、以及非结构化数据(一卡通消费信息、出口防火墙日志信息,学生上网日志信息等)系统集成。本文结合作者的实践,以XX学校数据中台为例,讨论多源数据集成的策略,主要包括结构化数据、非结构化数据、根据应用场景和用户需求采用批处理定时方式集成或者实时处理集成,同时集成过来的数据根据教育部标准化要求,进行抽取、转换和加载,建设校本数据标准,根据数据分类建设主题库,提供数据接口API、提供可视化数据展示,根据建设好的数据标准,快速满足客户对于数据的展示需求。

(正文部分)

(项目概要)400-600字

随着智慧校园建设的发展,学校信息化建设已经到了新的发展阶段,进入到系统集成和业务流程重构的阶段,以满足高校双一流建设的发展需求。学校通过公开招标方式结合学校的实际情况进行数据中台建设。数据存储、数据集成和数据治理主要为了加强数据中台的数据处理能力,数据服务则主要为了支持应用和业务的进一步创新和发展。同时,数据实施服务是数据中台建设能较好地落地的基础和保障。平台建设预算200万元,建设目标为通过主机中台数据集成、数据治理、数据建模和存储、数据分析计算等数据加工处理过程,形成统一的、标准的、学校全域的、高质量的资产、进而更高效的支撑学校的核心业务:教学、科研、管理和服务。数据中台建设采用层次化构建完成,分别是原始数据层、数据治理层、数据模型层、通用分析层和数据服务层,多源数据集成作为数据中台原始数据层的重要组成部分完成原始业务系统数据抽取,转换和加载,多源数据集成支撑将各类异构数据从数据源层抽取、转换、同步到上层。主要方式为:ETL、实时采集、数据复制、流数据接入、FTP、日志采集等;

(过度内容 、把握用户需求的重要性)100-200字

数据中台中结构化数据库采用的是postgrsql关系数据库管理系统,非结构化数据采用hadoop分布式计算和存储框架完成;满足学校场景应用需求。实现湖仓一体化。对于特殊的时序数据库采用TDengine数据平台。数据集成方面根据应用场景分四种情况,分别是结构化数据批处理数据集成、结构化数据实时数据集成、非结构化数据批处理数据集成和非结构数据化实时数据集成。以上应用场景可以解决大部分智慧校园数据集成上的问题,满足学校数据中台建设中的校本数据数据治理问题。

多源数据集成主要集成数据如下表表1所示

结构化(关系数据库)

非结构化(hadoop分布式存储和计算平台)

批处理

OLAP

Kettle、datax、

Lambda

Sqoop批处理框架

教务、学工、人事、财务、科研、图书、资产

能耗数据、选课数据、日志数据

门禁安防数据、上网数据

实时计算

OLTP

数据库日志、kafaka/ RabbitMQ

触发器、第三方程序

Kafaka/ RabbitMQ

Kappa流处理框架

人事人员信息、教务学生信息,学生和教师课表信息

消费数据

数据库

Postgresql

Hadoop/doris

(采用过的手段)(1000-1500字)

(1)多源数据集成之前首选需要进行资产梳理,梳理各个业务系统和应用之间的数据关系。高校各个业务系统一般是有各职能部门采购建设和业务维护,计算、存储和网络部分由学校信息中心负责。数据资产梳理工作由学校主管信息化的校级领导负责,信息中心组织中标公司技术支撑,联系涉及到数据对接填报的各个业务部门(人事,学工,财务,科研,教务,资产,后勤,图书馆等)配合完成。每次调研和会议都要精心组织,提出调研目标,形成结构文档输出,便于下一步工作的开展,为后续工作提供支撑。业务数据集成调研目标包括:现有业务数据名称、业务开发公司、系统上线时间、数据模型结构、业务部门对抽取数据需求、数据安全需求、数据接口等;对于一些不在维保范围,没有维护公司年久的项目,可以通过数据库审计平台,监控SQL执行情况,通过获取sql,分析sql可以获取到部分有价值的数据模型结构;数据资产梳理是多源数据集成的重要组成部分,决定着项目的成败,所以要高度重视。

(2) 结构化数据批处理数据集成

学校大部分业务系统数据均采用关系数据库作为支撑,根据梳理出的数据原始资产,对结构化关系数据进行批处理数据集成,例如:科研系统项目信息、组织机构信息、学生成绩信息,教师资产信息、师生宿舍信息等。项目组通过构建OLAP联机分析处理把数据根据用户需求定时同步到数据仓库,同步方式一般包括:增量同步和全量同步。采用的数据同步工具有kettle,或者dataX 数据集成工具。数据同步工具提供了图形化的操作界面,允许定时批量抽取数据进行数据转换,然后加载数据到目标数据库。

(3) 结构化数据实时数据集成

对于结构化数据实时数据集成同步要求比较高的场景,例如:教师入学,休学,退学;教师入职、退休和离职;学生课表信息,教师课表信息等,这些因为涉及到多个业务系统对接,并且对实时性要求比较高,所以采用结构化数据实时数据集成。例如,原业务系统数据库采用的是Mysql数据库,目标数据平台采用的postgresql数据库,当mysql数据表中有数据发生变化,通过触发器把变化的是数据ID写入到一个日志表中并做未处理标记,轮询这个日志表,当出现未处理标记的记录时,程序读取ID,查询数据,转换为XML,写入到MQ消息队列topic中,并修改日志表中对应数据的状态位。目标库读取MQ消息队列topic中的消息,根据ID,更新目标表对应的数据,实现实时数据同步。

(4) 非结构化数据批处理数据集成

对于大数据量的数据,需要定时集成到hadoop数据平台,这样的场景包括能耗数据、选课数据、日志数据、门禁安防数据、上网数据等,这些数据一致的特点是数据量大,带有时间标签,主要操作为数据增加,基本不进行删除或者修改操作。数据平台结构化数据库postgresql不能很好满足场景需求。项目组采用Sqoop工具完成,实现Hadoop (Hive)与关系数据库(mysql、postgresql...)间进行数据的传递。Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出,其中主要使用了Import和Export这两个工具。从关系数据库获取元数据信息(schema、table、field、field type),把导入功能转换为只有Map的MapReduce作业,在MapReduce中有很多Map,每个Map读一片数据,进而并行的完成数据的拷贝,数据通过批处理层进入hadoop分布式存储和计算平台。Hadoop大数据平台的采用,极大的解决了海量数据的集成和计算处理工作。

(5) 非结构数据化实时数据集成

对于学生消费数据,数量大且数据集成实时性要求高的场景,采用Kappa架构,通过专注于流处理,简化了整体系统设计,降低了操作复杂性,将所有数据都作为无限的事件流引入和处理, 完成低延迟处理。Kappa架构核心组件包括流引入、流处理和输出服务。流引入: 连续引入数据并存储在事件日志中,如 Apache Kafka,作为持久、容错的存储机制。流处理: 使用事件日志中的数据,应用实时计算,并生成所需的输出,可使用技术如 Apache Kafka Streams 或 Apache Flink。输出服务:处理后的数据通过各种输出通道访问供进一步分析或使用。

(采用过的手段,效果体现在什么地方,出现的问题以及弥补的办法)300-400字

通过采用以上技术手段,多源数据集成收到了良好的效果,目前集成了学校主要的业务系统数据,集成过来的数据经过数据治理、数据建模构建完成了学校的校本数据中心,同时可以对数据进行必要的分析,根据模型算法,进行数据计算,形成人员画像。对学校管理、数据上报提供了数据支撑。由于在开源组件上进行2次迭代开发,平台安全性受到一定的挑战,面对日益提升的数据安全需求,对项目管理开发人员提出了新的要求。同时异构数据的多样化,对数据集成和分析提出了更高的要求,数据挖掘,模型构建将会成为项目的亮点,这些新的需求将会在项目2期建设中逐步完善。

(结尾)100-200字

该项目在2023年4月通过验收,正式上线运行1年来系统稳定,异构数据集成稳定运行,为学校2期项目开发打下坚实的基础。回望本次项目的成功经历, 我深刻体会到多源数据集成对于数据中台建设的重要性。在以后的项目中,我们会继续结合实际场景和用户需求,力争建设高质量的信息化项目。

参考

文件搜索引擎的搭建Elasticsearch+Fscrawler+SearchUI+Git+Nginx

多源数据集成论文_数据_03

https://zhuanlan.zhihu.com/p/640154376