一、什么是元数据
元数据不是你聊天的内容也不是你的资料,更不是你在网上发布了什么消息,元数据是更底层的数据。最直接理解(元数据)的方式是活动数据:你在设备上从事活动、手机自动运行的记录。举例来说,手机元数据可能包括:来电日期与时间、通话时长、来电号码,通话位置……通过分析你不同设备的元数据,监视者能得知你昨晚入睡与今早起床的时间、每天逛了哪些地方、在哪里待了多久,以及你接触过的对象有谁,谁又与你联系过。元数据,忠实而冷酷的记录者。
一间摆满书的屋子能被称为图书馆吗?
要在图书馆中找到某本书,不能只是在图书馆中走来走去,单靠运气去找。
尽管元数据一词只有几十年的历史,然而几千年的图书馆管理员们一直在工作中使用着元数据,只不过我们先所谓的“元数据”是历史上被称为“图书目录信息”。图书目录中的信息解决了一个十分关键的问题,就是如何帮助用户在图书馆快速地、准确地找到想要的图书。
图书目录中依然延续至今的信息片段:书名、作者、主题、简介等。但如今其含有更多的信息,如出版社、出版时间、定价、条形码和上架建议等等。
有一个关于元数据的例子,元数据就像“户口本”,户口本中除了有姓名、出生日期、住址、民族等信息外,还有家庭的血缘关系,父子关系、兄弟关系等。这些信息就构成了对这个人的详细描述,那这些信息就是描述这个人的元数据。
所以元数据是什么?
元数据:描述数据的数据
元数据分类:业务元数据、技术元数据、管理元数据
业务元数据:面向业务分析人员。业务元数据是描述数据的业务含义、业务规则等。通过明确业务元数据让人们更容易理解和使用业务元数据,元数据消除了数据二义性,让人们对数据有一致的认证,避免“各说自话”,进而为数据分析和应用提供支撑。常见的业务元数据包括:业务定义、业务术语、业务规则、业务指标等
技术元数据:技术元数据是对数据的结构化,方便计算机或数据库之间对数据进行识别、存储、传输和交换。技术元数据可以服务于开发人员,让开发人员对数据的存储、结构更明确,从而为应用的开发和系统的集成奠定基础。技术元数据也可服务于业务人员,通过元数据理清数据关系,让业务人员能够更快速的找到想要的数据,进而对数据的来源去向进行分析,支持数据血缘追溯和影响分析。常见的技术元数据包括:存储位置、数据模型、数据库表、字段长度、字段类型、ETL脚本、SQL脚本、接口程序、数据关系等
管理元数据:面向IT系统运维技术人员。管理元数据描述了数据的管理属性,包括管理部门、管理责任人等,通过明确管理属性,有利于数据管理责任到部门和个人,是数据安全管理的基础。常见的管理元数据包括:数据所有者、数据质量定责、数据安全等级等。
二、元数据管理是管理些啥
元数据也是数据,同样适用数据生命周期管理。
元数据管理平台从应用层面,可以分为:元数据采集存储,元数据管理服务、元数据分析服务以及元数据访问服务。
元数据采集服务:在数据治理项目中,通常涉及到的元数据还包括:数据源的元数据,数据加工处理过程的元数据,数据仓库或数据主题库的元数据,数据应用层的元数据,数据接口服务的元数据等等。元数据采集服务提供各类适配器满足以上各类元数据的采集,并将元数据整合处理后统一存储于中央元数据仓库,实现元数据的统一管理。这个过程中,数据采集适配器十分重要,元数据采集要能够适配各种DB、各类ETL、各类DW和Report产品,同时还需要适配各类结构化或半结构化数据源。目前市场上的主流元数据产品还没有哪一家能做到“万能适配”,都需要在实际应用过程中做或多或少的定制化开发。
元模型驱动的设计与开发:通过元数据管理平台实现对应用的逻辑模型、物理模型等各类元模型管理,支撑应用的设计和开发。
元数据不是停留在纸面,作为一个查询的字典,它更大地发挥作用是在管控。通过元数据实现了全方位的日监控,做到总部级别能够看到各分子公司每天的业务系统元数据的运转。只要发现异常,总部这边会形成T+1的监控机制,当天就会发出通报,通报相关的子公司或者相关的业务单位元数据发生了变更有异常,要赶紧处理,通过这一个管控手段保障了集团信息化系统建设的一致性和版本的管控性。以前没有抓手,但是通过元数据管控我们实实在在地抓住了核心和根本
三、元数据管理的价值是什么
(一)从功能角度
1、一图在手,天下我有
通过元数据以企业全局视角对企业各业务域的数据资产进行盘点,实现企业数据资源的统一梳理和盘查,有助于发现分布在不同系统、位置的数据,让隐匿的数据显性化。数据地图包括了数据资源的基本信息,存储位置信息、数据结构信息、各数据之间关系信息,数据和人之间的关系信息,数据使用情况信息等,使数据资源信息详细、统一、透明,降低“找数据”的沟通成本,为数据的使用和大数据挖掘提供支撑。
2、追根溯源,发现数据问题本质
企业在做数据分析的时候,数据分析结果不正确,原因可能是数据分析过程出现数据问题,也可能是数据源本身就有问题,还可能是数据在加工处理过程中出现了数据问题……。通过元数据血缘分析,能够快速定位数据来源和加工处理过程,能够帮助数据分析人员快速定位数据问题。另外,通过元数据血缘关系分析,可以理解不同数据指标间的关系,分析产生指标的数据源头波动情况带来的影响。
(二)从使用对象的角度
1、对技术人员而言,元数据管理平台将分散、存储结构差异大的资源信息进行描述、定位、检索、评估、分析五大操作,以描述和分类的形式实现对信息的格式化,从而为机器处理创造了可能,大大降低了数据治理的人工成本。正因如此,元数据管理已经成为很多大型数据治理项目的基础。
2、对业务人员而言,元数据管理平台通过对业务指标、业务含义、业务规则、取数口径、影响范围等信息进行各方位管控,协助他们快速了解业务相关内容,进行数据资产的管理。
四、元数据管理的高效玩法
元数据管理的高效玩法,那就是工具化!
亿信华辰元数据管理平台,致力于处理技术元数据、业务元数据、管理元数据,帮助各行各业用户获得更多的数据洞察力,进而挖掘出隐藏在资源中的价值。
1、 全面支持各类采集适配器:平台内置丰富的适配器,全面保障各类源头的元数据自动化采集,一键采集对接,同时可支持适配器快速扩展
2、 可扩展元模型,满足不同管理需求:元数据的应用都基于元模型。亿信元数据管理平台(EsPowerMeta)中的元模型支持CWM(公共仓库元模型)规范的同时,提供了一套便捷的自定义管理接口功能,可完全自定义扩展,能够满足元数据管理快速实施的需要,可适应用户在不同时期的不同管理需要。
3、 智能获取元数据,管理维护便捷:亿信元数据管理平台(EsPowerMeta)提供了完善的元模型和元数据维护功能,采用多种方式简化元数据维护的复杂性。系统支持元数据的自动获取和时间调度管理,支持手工创建和变更元数据,并配合版本管理,能完整存储元数据整个生命周期动态和变化,方便用户跟踪业务运作的历史数据。
4、 全文搜索引擎,准确定位目标元数据:亿信元数据管理平台(EsPowerMeta)内置全文搜索引擎,让各层次用户可快速定位自己所关心的元数据。EsPowerMeta支持基于名称、基本属性、元数据间关系查找的同时,还支持全文搜索。通过多种组合条件的模糊查询,即可在整个元数据环境中随时检索所需元数据。
5、 落地全行业,全中文硬核系产品:目前国内支持全中文内核元数据管理的为数不多的产品之一,具有自主知识产权,已成功实施于多家银行和政府机构,同时适用于业务用户、技术用户和运维管理用户。
6、 图形化分析,快速理清元数据关系:亿信元数据管理平台(EsPowerMeta)提供图形化的元数据基础分析以及高级应用分析。血缘分析是指从某一实体出发,往回追溯其处理过程,直到数据源接口,可快速追溯数据来源和加工过程,影响分析可掌握元数据之间的相互影响。
五、亿信华辰元数据管理平台成功案例
佛山某区政务服务数据管理局元数据管理平台
建设内容:政务服务数据管理局基于区内各政府部门的数据进行汇总和治理,面向各部门提供统一的数据服务和应用,实现“用数据决策、用数据监管、用数据创业”的数据统筹发展运行机制。本项目通过元数据管理平台,梳理各类数据来源,实现卫计委、工商局、流管局等各政府部门的元数据自动采集,理清现有的数据流转流程和数据架构,并基于其构建一套新的数据架构,同时提供数据血缘分析、影响分析等,最后形成全区的政务数据地图。
项目价值:帮助数据管理局确定数据来源和数据架构,为后续数据标准建设,数据质量管理打下坚实的基础,并为政务资源目录、自主填报系统、教育无纸化等应用提供支撑。