Spark-SQL解析

原创

davidwang456 2021-07-29 16:50:40 ©著作权

©著作权归作者所有：来自51CTO博客作者davidwang456的原创作品，请联系作者获取转载授权，否则将追究法律责任

Spark-SQL解析

如下图所示，Spark-SQL解析总体分为以下几个步骤：解析（Parser）、绑定（Analysis）、优化（Optimization）、执行（Physical）、生成RDD（RDDs）。接下来，我们先介绍解析部分，对于绑定、逻辑计划的优化、物理执行计划、生成RDD后面再专门介绍。

Spark-SQL解析_Spark-SQL

Antlr4

一、简介

最新的Spark-Sql解析模块为spark-catalyst_2.11，通过Antlr4（Another Tool for Language Recognition）框架来实现。ANTLR 是用JAVA写的语言识别工具，它用来声明语言的语法。它的语法识别分为两个阶段：

1.词法分析阶段（lexical analysis)

对应的分析程序叫做 lexer ，负责将符号（token）分组成符号类（token class or token type）

2.解析阶段

根据词法，构建出一棵分析树（parse tree）或叫语法树（syntax tree）

Spark-SQL解析_Spark-SQL_02

二、语法

以下是四则运算的例子，Math.g4

grammar Math;  //声明语法头，类似于java类的定义在运行脚本后，生成的类中自动带上这个包路径，避免了手动加入的麻烦。@header{package com.zetyun.aiops.core.math;} prog : stat+;
stat: expr NEWLINE          # printExpr    //定义规则：这是核心，表示规则，以 “:” 开始， “;” 结束， 多规则以 "|" 分隔。    | ID '=' expr NEWLINE   # assign    | NEWLINE               # blank    ;expr:  expr op=('*'|'/') expr   # MulDiv | expr op=('+'|'-') expr        # AddSub| INT                           # int| ID                            # id| '(' expr ')'                  # parens;MUL : '*' ; // assigns token name to '*' used above in grammarDIV : '/' ;ADD : '+' ;SUB : '-' ;ID : [a-zA-Z]+ ;INT : [0-9]+ ;NEWLINE:'\r'? '\n' ;WS : [ \t]+ -> skip;

字符含义() : 产生式组合?  : 产生式出现0或1次*  : 0或多次+  : 1或多次.   : 任意一个字符~  : 不出现后面的字符..  : 字符范围

三、编译

利用antlr4-maven-plugin插件即可完成自动编译。

可通过IDEA的maven插件编译，之后可在根目录\target\generated-sources\antlr4\com\hikvs\bigdata\catalyst\parser下产生以下JAVA文件：

Spark-SQL解析_Spark-SQL_03

其中MathLexer是词法分析器、MathParser是语法分析器、MathVisitor和MathBaseVisitor分别是访问者接口和访问者类。

四、遍历模式

Antlr4的遍历模式分两种：

1.Listener（观察者模式）

优点：通过节点监听，触发处理方法，用户不需要显示控制语法树的顺序，实现简单。

缺点：不能显示控制遍历语法树的顺序；没有返回值，需要使用map、栈等结构在节点间传值

2.Visitor（访问者模式）

优点：主动遍历，用户可以显示定义遍历语法树的顺序、有返回值。

比较两种模式，一般采用访问者模式，可以显示控制遍历树的顺序。访问者类的作用是用于遍历整个语法树，然后进行相关操作，用户可以自己实现访问者类来定义自己需要的功能。

public class MathVisitorTest extends MathBaseVisitor<Integer> {    Map<String, Integer> memory = new HashMap<String, Integer>();    @Override    public Integer visitPrintExpr(MathParser.PrintExprContext ctx) {        Integer value = visit(ctx.expr());         return value;     }        @Override    public Integer visitAssign(MathParser.AssignContext ctx) {        String id = ctx.ID().getText();         int value = visit(ctx.expr());         memory.put(id, value);        return value;    }
    @Override    public Integer visitBlank(MathParser.BlankContext ctx) {        return super.visitBlank(ctx);    }
    @Override    public Integer visitParens(MathParser.ParensContext ctx) {        return visit(ctx.expr());     }
    @Override    public Integer visitMulDiv(MathParser.MulDivContext ctx) {        int left = visit(ctx.expr(0));         int right = visit(ctx.expr(1));        if ( ctx.op.getType() == MathParser.MUL ) return left * right;        return left / right;     }        @Override    public Integer visitAddSub(MathParser.AddSubContext ctx) {        // TODO Auto-generatedmethod stub        int left = visit(ctx.expr(0));         int right = visit(ctx.expr(1));         if ( ctx.op.getType() == MathParser.ADD ) return left + right;        return left - right;     }
    @Override    public Integer visitId(MathParser.IdContext ctx) {        String id = ctx.ID().getText();        if ( memory.containsKey(id) ) return memory.get(id);        return 0;    }
    @Override    public Integer visitInt(MathParser.IntContext ctx) {        return Integer.valueOf(ctx.INT().getText());    }}

public class Math {    public static void main(String[] args) {        CharStream input = CharStreams.fromString("1*(6-3)/2");        MathLexer lexer = new MathLexer(input);        CommonTokenStream tokens = new CommonTokenStream(lexer);        MathParser parser = new MathParser(tokens);        ParseTree tree = parser.prog(); // parse        MathVisitorTest vt = new MathVisitorTest();        Integer r = vt.visit(tree);        System.out.println(r.toString());    }}

五、Spark-Sql之Antlr4

1.SqlBase.g4

SqlBase.g4是spark-sql的语法解析文件，所属模块为spark-catalyst，SqlBase.g4位于路径\spark-2.3\sql\catalyst\src\main\antlr4\org\apache\spark\sql\catalyst\parser\SqlBase.g4。

2.访问者-AstBuilder

整个SQL解析相关的实现如下图：

Spark-SQL解析_Spark-SQL_04

3.Spark-SQL执行入口

SparkSession .sql(sqlText: String)是暴露给用户的方法，用于执行sql文本。

逻辑计划（LogicalPlan）

一、TreeNode

TreeNode 是Catalyst的核心类，语法树的构建都是由一个个TreeNode组成。继承关系如下：

Spark-SQL解析_Spark-SQL_05

其核心方法的作用如下：

Spark-SQL解析_Spark-SQL_06

LogicalPlan是TreeNode 的子类，作为数据结构记录了对应逻辑算子树节点的基本信息和基本操作，包括输入输出和各种处理逻辑等。

二、QueryPlan

QueryPlan是LogicalPlan的直接父类，继承自TreeNode，其核心属性和方法可以分为6个部分：

1.输入输出

输入或输出属性，比如Project的output方法就返回所有查询的字段信息。

override def output: Seq[Attribute] = projectList.map(_.toAttribute)

2.基本属性

表示QueryPlan节点的一些基本信息，比如其中schema对应output输出属性的schema信息。

3.字符串

打印QueryPlan树形结构信息。

4.规范化

QueryPlan的canonicalized直接赋值为当前的QueryPlan类，sameResult方法会利用canonicalized来判断两个QueryPlan的输出结果是否相同。

5.表达式操作

比如expressions会返回改节点所有表达式的列表，另外还有遍历表达式的方法transformExpressions等。

6.约束

可以推导的一种过滤条件，比如“a>1”，可以推出a不能为null。

三、Expression

Expression是SQL语句中的表达式，是指不需要执行引擎计算，而可以直接计算或处理的节点，包括Cast操作、Porjection操作、四则运算和逻辑操作符运算等等。

四、Commond

Commond是直接运行的命令，常见的有ShowCreateTableCommand（展示表）、CreateTableCommand（创建表）、AlterTableRenameCommand（修改表名字）等

五、LeafNode

LeafNode是叶子节点，是没有子节点的LogicalPlan，常见的有UnresolvedRelation（未解析的逻辑计划），所有经过antlr4解析后的都是UnresolvedRelation，不能被计算，有未绑定的属性和数据类型。

六、UnaryNode

UnaryNode有一个子节点，常见的有Filter（过滤）、Project（投影）、Window（窗口）等

七、BinaryNode

BinaryNode有两个子节点，常见的有Join（关联）、Except（差集）、Intersect（交集）

生成未解析逻辑计划（UnResolve LogicalPlan）

通过antlr4解析后得到的抽象语法树如下图所示：

Spark-SQL解析_Spark-SQL_07

简化后的流程图为：

Spark-SQL解析_Spark-SQL_08

具体步骤如下：

（1）UnresolvedRelation：对应SQL语句的from的表名，访问FromClauseContext并递归向下访问，最终匹配到TableNameContext节点时，直接根据TableNameContext的信息生成UnresolvedRelation，构造名为from的LogicalPlan并返回。

（2）Join：对应SQL语句中的INNER JOIN语句，通过withJoinRelations最终构造Join(left, plan(join.right), joinType, condition)返回。包括左表、右表、关联类型、条件。

（3）Filter：对应SQL语句中的where语句，QuerySpecificationContext中包含了BooleanExpressionContext类型，Asbuilder会对改子树进行递归访问，此例中碰到ComparisonContext节点，生成GreaterThan表达式，然后生成expression并返回作为过滤条件，构造Filter(expression(ctx), plan)返回。

（4）Project：对应SQL语句中select对列值的选择操作，Asbuilder在访问中会获取NamedExpressionSeqContext，并对其所有子节点对应的表达式进行转换，生成Expression列表expressions，基于expressions构造Project(namedExpressions, withFilter)返回。

其中各节点中的Expression情况如下：

下表列出了构造Filter逻辑算子树节点中的condition表达式。根据ColumnReferenceContext节点信息生成UnresolvedAttribute表达式。

至此，我们知道了Spark是如何将一个SQL语句通过Antlr4生成未解析的LogicalPlan的流程，这个LogicalPlan中的表名、函数名、字段名等都是未解析的，并没有绑定任何东西。接下来会进入Analyzer（分析）阶段，完成绑定操作，具体请参考下一篇文章。