1.什么是元数据
1.1.元数据简介
1.2.元数据分类
元数据 | 内容 | 内容来源 | 支撑资产管理 |
技术元数据 | 表 | mysql,ES,HIVE,clickhouse等 | 资产地图 |
作业 | ETL,DATAX,SQL,QUERY | ||
生产元数据 | 生产 | 调度系统/Yarn | 数据质量、成本治理 |
业务元数据 | 数仓分级 | 建模规范 | 资产价值,安全治理,规范治理 |
数据分级 | 业务 | ||
指标关联 | 指标系统 | ||
应用信息 | BI看板,数据报表 | ||
隐私分级 | 业务 | ||
衍生元数据 | 存储计量 | ClickHouse,ES,HDFS,MQ | 成本治理,资产价值 |
访问计量 | SQL-log | ||
血缘元数据 | 表血缘 | Flink,DATAX,ETL, | 资产地图,影响分析 |
字段血缘 | SQL-Log,HOOK |
2.为什么要做元数据治理
数据规范制定更加标准,数据质量得以提升,数据目录结构更加清晰,数据资产更加清晰,数据成本更加可控!
数据管理的核心是元数据平台的建设,以元数据支撑数据管理上层应用
3.当前元数据治理建设现状
- 元数据信息少甚至没有元数据
- 没有标准的数据接入规范以及数据开发准则,数据对外开放权限开控制难
- 数据质量差,数据异常难以监控
- 数据资产不清晰,想要数据的时候不知道有无该数据
- 数据成本估算难
元数据平台搭建应该具备的能力
4.元数据应用
4.1.数据地图: 元数据搜索与发现
- 支持表,字段,描述信息,数仓分层,数据分类,标签,部门等信息搜索
- 全域元数据的搜索
- 支持指标维度看板等信息的搜索
解决问题:数据资产管理乱,数据分级不明确,不清楚有哪些数据资产。
技术方案:无难点
4.2.数据血缘
- 数据全生命周期查看
- 数据链路异常报警
- 数据变更通知
解决问题:上下游数据异动探测,数据生命周期管控,全链路异常检测。
技术方案:Altas,SQL解析器。Flink,Hook函数
4.3.成本监控和治理
数据存储成本仪表盘
- 不同存储引擎数据存储数据量级
- 使用虚机资源消耗,如CPU,网络带宽,硬盘等
- 资源使用趋势,成本预算
解决问题:解决数据资产不清晰.存储成本不可控等问题,让数据资产家底清,底数明
技术方案:数据埋点,对接运维系统资源情况上报。
4.4.数据质量诊断
解决问题:数据成本控制,