java 数据库血缘分析 sql解析血缘

转载

mob64ca1412ee79 2024-07-28 22:55:24

文章标签 java 数据库血缘分析大数据面试学习数据 文章分类 Java 后端开发

3.SQL表血缘

二、实现过程

1.目标效果

2.代码实现

1.功能函数识别

2.SQL标准格式

3.解析AST树

4.最终效果：

点关注，防走丢，如有纰漏之处，请留言指教，非常感谢

前言

之前我在两篇SQLparse的开源库解析中就说过自己在寻找在python编程内可行的SQL血缘解析，JAVA去解析Hive的源码实践的话我还是打算放到后期来做，先把Python能够实现的先实现完。主要是HiveSQL的底层就是JAVA代码，怎么改写还是绕不开JAVA的。不过上篇系列我有提到过sqlparse，其实这个库用来解析血缘的话也不是不可以，但是能够实现的功能是有限的，目前我实验还行，一些较为复杂的SQL也能解析得出，算是成功达到可部署服务的水准了，但是根据SQL格式来匹配的话肯定是有些SQL格式不能完全匹配成功的，如果大家有需要血缘分析的SQL可以再次验证一下。

算是填完了之前的部分坑，目前的开发进度已经可以将SQL的表血缘分析追踪实现了，实现字段血缘的功能开发等后续将陆续上线。

一、主线任务

首先来对该项目的目标来分析一下，说到SQL血缘分析，这偏向于数据治理。

1.数据治理

数据治理（Data Governance）是组织中涉及数据使用的一整套管理行为。数据要产生价值，需要一个合理的“业务目标”，数据治理的所有活动应该围绕真实的业务目标而开展，建立数据标准、提升数据质量只是手段，而不是目标。

数据治理的本质是管理数据，因此需要加强元数据管理和主数据管理，从源头治理数据，补齐数据的相关属性和信息，比如：元数据、质量、安全、业务逻辑、血缘等，通过元数据驱动的方式管理数据生产、加工和使用。

java 数据库血缘分析 sql解析血缘_学习

数据的质量直接影响着数据的价值，并且直接影响着数据分析的结果以及我们以此做出的决策的质量。数据模型血缘与任务调度的一致性是建管一体化的关键，有助于解决数据管理与数据生产口径不一致的问题，避免出现双重管理不一致的低效管理模式。

2.血缘追踪

数据被业务场景使用时，发现数据错误，数据治理团队需要快速定位数据来源，修复数据错误。那么数据治理团队需要知道业务团队的数据来自于哪个核心库，核心库的数据又来自于哪个数据源头。我们的实践是在元数据和数据资源清单之间建立关联关系，且业务团队使用的数据项由元数据组合配置而来，这样，就建立了数据使用场景与数据源头之间的血缘关系。数据资源目录：数据资源目录一般应用于数据共享的场景，例如政府部门之间的数据共享，数据资源目录是基于业务场景和行业规范而创建，同时依托于元数据和基础库主题而实现自动化的数据申请和使用。

也就是为什么我们需要解析SQL，追踪建表索引或者引用解析。

3.SQL表血缘

那么其中最重要的就是关于各个数据库之间的数据关系了，关于建表以及插入更新操作都会使数据发生一定的改变，那么这些操作就一定是被允许的？就像原来在网上看到的某某公司程序员删库跑路，或者是一不小心删错数据导致耽误产研线等等。为了防止以上事故的出现必定要为此操作上一层保险，为每个成员设定数据操作权限。这样以来提交的SQL语句就多了一层判断。

二、实现过程

1.目标效果

首先明白一点我们要做出的东西需要呈现一个怎样的形式，其中位于行业前排的无疑是SQLFlow：

java 数据库血缘分析 sql解析血缘_java 数据库血缘分析_02

当第一次看到此图我就决定血缘追踪就应该是这个样子，能够清晰的解析出每个字段和表之间的血缘关系。以此我们设定输出的基准，我们要做的项目目标就是如此。

java 数据库血缘分析 sql解析血缘_数据_03

2.代码实现

1.功能函数识别

该功能也是必须要实现的功能，我们需要明白这个SQL主要是干什么事情的。如果是插入INSERT或者是CREATE就有血缘分析的必要，如果是SELECT的话那么做简单的SQL解析即可。有了研究sqlparse源码的成果我们调用相应的函数即可：

sql="select * from table1;insert into table select a,b,c from table2"

if __name__ == '__main__':
    table_names=[]
    #sql=get_sqlstr('read_sql.txt')
    stmt_tuple=analysis_statements(sql)
    for each_stmt in stmt_tuple:
        type_name=get_main_functionsql(each_stmt)
        print(type_name)

输出：

java 数据库血缘分析 sql解析血缘_面试_04

那么对于SELECT我们就SQL涉及到的表追溯即可：

java 数据库血缘分析 sql解析血缘_面试_05

对于CREATE和INSERT的做血缘即可：

java 数据库血缘分析 sql解析血缘_面试_06

2.SQL标准格式

对于传入的SQL我们首先要让这条语句符合标准的SQL语句格式，这样对于传输格式保持一致，兼容很有作用。一般我们都是通过文本来读入。故需要读取文本做处理：

原始文本：

java 数据库血缘分析 sql解析血缘_大数据_07

处理后：

if __name__ == '__main__':
    sql=get_sqlstr('read_sql.txt')
    print(sql)

java 数据库血缘分析 sql解析血缘_学习_08

3.解析AST树

得到的SQL无论是ANTRL还是SQLPARSE都是解析为一棵树的形式进行递归回溯。最终都要解析生产的SQL树：

sql="select * from table1;insert into table3 select a,b,c from table2"

if __name__ == '__main__':
    #sql=get_sqlstr('read_sql.txt')
    stmt_tuple=analysis_statements(sql)
    for each_stmt in stmt_tuple:
        table_names=[]
        type_name=get_main_functionsql(each_stmt)
        get_ASTTree(each_stmt)


!

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。