一、什么是多源异构数据

解释一:
bonlog在博文《什么是多源异构数据》()中提到

在企业信息化建设过程中,由于各业务系统建设和实施数据管理系统的阶段性、技术性以及其它经济和人为因素等因素影响,导致企业在发展过程中积累了大量采用不同存储方式的业务数据,包括采用的数据管理系统也大不相同,从简单的文件数据库到复杂的网络数据库,它们构成了企业的异构数据源。

一个单位或部门的信息化工作是分阶段逐步建设的,每个时期有自己的技术特点,各业务系统会采用各自成熟的技术进行建设和管理,最终导致一个单位或部门的业务数据分散在各业务系统中,存储方式也各不相同,从简单的文件数据库到复杂的网络数据库、从关系数据库到非关系数据库、同一厂商的不同版本数据库,一个独立个体的特征信息分散在不同的信息系统中,数据的组织结构、存储格式各不相同,这就形成了多源异构数据。

二、“多规合一”数据源分析

抛开数据类别来讲数据源的来源、组织结构、存储方式是没有意义的。天津市“一张蓝图、多规合一”综合管理平台项目(简称“多规合一”项目)是天津市工程建设项目审批制度改革的一项重要任务,是落实“构建‘一张蓝图’统筹项目实施、建设‘一个系统’实施统一管理”的重要举措,是完善审批体系的技术保障。“多规合一”数据中心是“多规合一”项目的核心,它包含基础地理数据、规划控制线数据、专项规划成果、部门专业现状数据、规划核心指标数据、建设项目审批信息、建设项目储备信息7大类。这些数据分散在各委办局的业务系统中,组织结构、存储方式、坐标系统各不统一,有的甚至都不规范。下表分析了7大类数据源的组织结构、获取方式、坐标系统情况。

数据类别

数据来源单位

来源系统

数据结构

存储方式

基础地理数据

规划和自然资源局

地理国情平台

地理空间数据

地图服务

规划控制线

规划和自然资源局

文件或业务系统

地理空间数据

易智瑞文件产品或关系数据库

专项规划成果

规划和自然资源局

文件或业务系统

地理空间数据

易智瑞文件产品或地理空间数据库

部门专业现状数据

各委办局

文件或业务系统

地理空间数据

各种格式的文件产品或是地理空间数据库或是图片

规划核心指标数据

各委办局

政务信息资源共享平台

文件

文本或表格

建设项目审批信息

政务服务中心

建设项目审批管理平台

数据库

MySQL关系型数据库

建设项目储备信息

规划和自然资源局

工程建设项目策划生成系统

地理空间数据

Oracle关系型数据库

部门专业现状数据分散在各委办局,按照管理要求“多规合一”项目需要通过政务信息资源共享平台进行采集,但是由于政务信息资源共享平台对各类地理空间数据的支持程度不是很高以及网络连通性,这部分数据通过离线的方式汇集后进行统一采集。

三、多源异构数据融合技术流程

如何将多源异构的数据在数据中心进行融合,并在“多规合一”业务协同平台中进行展示、应用,这是“多规合一”项目建设面临最严峻的挑战。“多规合一”数据中心是多源异构数据融合成果存放的数据仓库,是进行大数据分析和应用的基础,第一步是数据的“抽取—转换—加载”(the Extract-Transform-Load,ETL),该环节需要将来源不同、类型不同的数据如关系数据、平面数据文件等抽取出来,然后进行清洁、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

不同结构的数据进行融合的技术流程各不相同。
1、地理空间数据融合