1.什么是元数据

1.1.元数据简介

 

元数据架构表结构设计_数据库

1.2.元数据分类

元数据

内容

内容来源

支撑资产管理

技术元数据


mysql,ES,HIVE,clickhouse等

资产地图

作业

ETL,DATAX,SQL,QUERY

生产元数据

生产

调度系统/Yarn

数据质量、成本治理



业务元数据

数仓分级

建模规范




资产价值,安全治理,规范治理

数据分级

业务

指标关联

指标系统

应用信息

BI看板,数据报表

隐私分级

业务

衍生元数据

存储计量

ClickHouse,ES,HDFS,MQ

成本治理,资产价值

访问计量

SQL-log

血缘元数据

表血缘

Flink,DATAX,ETL,

资产地图,影响分析

字段血缘

SQL-Log,HOOK

2.为什么要做元数据治理

数据规范制定更加标准,数据质量得以提升,数据目录结构更加清晰,数据资产更加清晰,数据成本更加可控!

数据管理的核心是元数据平台的建设,以元数据支撑数据管理上层应用

3.当前元数据治理建设现状

  1. 元数据信息少甚至没有元数据
  2. 没有标准的数据接入规范以及数据开发准则,数据对外开放权限开控制难
  3. 数据质量差,数据异常难以监控
  4. 数据资产不清晰,想要数据的时候不知道有无该数据
  5. 数据成本估算难

元数据平台搭建应该具备的能力

元数据架构表结构设计_hive_02

4.元数据应用

4.1.数据地图: 元数据搜索与发现

  • 支持表,字段,描述信息,数仓分层,数据分类,标签,部门等信息搜索
  • 全域元数据的搜索
  • 支持指标维度看板等信息的搜索

解决问题:数据资产管理乱,数据分级不明确,不清楚有哪些数据资产。

元数据架构表结构设计_元数据_03


技术方案:无难点

4.2.数据血缘

  • 数据全生命周期查看
  • 数据链路异常报警
  • 数据变更通知

解决问题:上下游数据异动探测,数据生命周期管控,全链路异常检测。

技术方案:Altas,SQL解析器。Flink,Hook函数

元数据架构表结构设计_hive_04

4.3.成本监控和治理 

数据存储成本仪表盘

  • 不同存储引擎数据存储数据量级
  • 使用虚机资源消耗,如CPU,网络带宽,硬盘等
  • 资源使用趋势,成本预算

解决问题:解决数据资产不清晰.存储成本不可控等问题,让数据资产家底清,底数明

技术方案:数据埋点,对接运维系统资源情况上报。

元数据架构表结构设计_hive_05

4.4.数据质量诊断

解决问题:数据成本控制,

元数据架构表结构设计_元数据_06

 4.5.数据存储成本仪表盘

元数据架构表结构设计_hive_07