Data Profiling Task 是用于收集数据的Metadata的Task,在使用ETL处理数据之前,应该首先检查数据质量,对数据进行分析,这将对Table Schema的设计结构和生成ETL的方式产生不可估量的影响。

Data Profiling Task 输出XML格式的数据文件,并能通过Open Profile Viewer 查看输出结果。

一,属性配置 

1,General Tab

Data Profiling Task_数据

可以将Task产生的结构化输出保存到文件中,便于对数据质量进行深入的分析,Destination 就是输出结果保存的Path。

2,Profile Requests Tab

Data Profiling Task_数据质量_02

Profile Type 共有8个,分别是检查不同类型的数据质量,非常有用。

1,Candidate key Profile Request

  检查一列或一组列,以确定数据集用于唯一Candidate key的可能性,即check 数据列和数据列组合的唯一性。

2,Column Length Distribution Profile Request

  分析某一列的所有数据,用于确定数据列长度的分布信息

3,Column Null Ration Profile request

  检查某一列中NULL值的比例

4,Column Pattern Profile request

  将正则表达式引用到某一字符串列中,从而确定数据的通过/失败率。

5,Column Statistics Profile Request

  仅适用于数值,日期,时间类型的列,分析所有数据行,提供列值的统计信息:最大值,最小值,平均值和标准方差(列值与平均值的平均方差)

6,Column value Distribution Profile Request

  分析所有数据行,提供列值的分布信息

7,Functional Dependency Profile Request

  分析两个数据列(决定列和依赖列)之间的依赖关系

8,Value Inclusion Profile Request

  确定某一列中的所有值是否全部包含在一个单独的查询或表中,用于check 外键 关系。

二,配置Profile Request

有两种配置Profile Request的方式,第一种在General Tab中,使用 Quick Profile。

Data Profiling Task_xml_03

第二种就是在Profile Requests Tab中,逐个配置Profile Type。

 

3,查看数据质量

在General Tab中使用Open Profile Viewer 查看输出结果,分析数据质量。

在该Task执行成功之后,会将结果保存在General Task中设置的Destination 文件中,内容是XML文档。

Data Profiling Task_方差_04