spark sql参数优化 spark sql 优化器

转载

mob64ca14101b2f 2024-06-04 08:11:06

文章标签 spark sql参数优化 sql 查询优化 spark 文章分类 Spark 大数据

Spark sql是Apache spark在即将发布的1.0版本的新特性。本文从SQL解析，分析器解析，查询优化到物理执行计划执行，结合spark core模块详细分析spark sql的实现细节。

Spark sql中，TreeNode贯穿始终，继承于TreeNode的有三类数据结构，分别为LogicalPlan，SparkPlan和Expression（LogicalPlan和SparkPlan继承于QueryPlan）。首先通过Sqlparser模块解析生成抽象语法树（AST），即未经过解析的逻辑计划，然后分析器（Anlysis）解析AST生成逻辑计划，再通过优化器（Optimizer）提供的规则（Rules）转化为优化过的逻辑计划（Optimized Plan），最后利用策略（Strategies）计算代价选择具体物理执行算子，在合适的地方加上混洗操作（Exchange）生成物理计划得以执行。

sql parser是将expression及其每个孩子构造一个operator，将operator之间连接起来。

operator是未经解析的AST中的逻辑算子表示

expression是OR--AND--Expression+Expression的表示

和每个与表属性相关的标志被解析成了UnresovledAttribute(name: String)（在Analysis中要将name解析成Attribute，通过Catalog），生成的AST树为：

base--withfilter--withprojection--withdistinct--withhaving--withorder--withlimit

第一部分（待完善）。

第二部分，Spark sql中的查询优化（optimizer），将case样例组成的偏函数当做规则遍历整棵逻辑查询树，针对于暂时存在的三类规则（Limit合并、常量折叠和过滤下推，这三类规则中同时含有若干条规则），遍历的次数分别都为100次，判断前后两次相同即停止。下面针对于每类规则及每条规则做详细分析。

查询优化规则之Limit合并

1，Limit合并

场景比较少见，例如(本文例子均采用Catalyst的DSL书写)：

testRelation.select('a).limit(10).limit(5) optimizeTo testRelation.select('a).limit(5)

做法即将limit1中的Literal和它孩子limit2中的Literal做比较，小者保留，且将limit2的孩子作为limit3的孩子，返回limit3

查询优化规则之常量折叠

1，null值传递

在逻辑层将能够确定null值的表达式计算出来，避免到物理层需要对每个元祖都计算出相同的结果，例如：

IsNull(Literal(null)) as 'c1 optimizeTo Literal(null) as 'c1

当然还有其他的情况，如Equals(Literal(null, IntegerType), 1), 首先Equals会返回一个BooleanType，其次表达式中有一个null，最终可以优化为Literal(null, BooleanType)

做法即判断是什么操作类型，然后根据操作最终用null表示

2，常量折叠

所谓常量折叠即为Literal之间能够最大限度的计算出值，例如：

a, 只有Literal

testRelation.select(Literal(2)+Literal(3) as Symbol("2+3")).where(Literal(2)>Literal(1)) optimizeTo testRelation.select(Literal(5)) as Symbol("2+3").where(Literal(true))

只有Literal的表达式直接可以计算出最终结果用Literal表示。

做法即提前调用evaluation计算出结果，虽然在逻辑层，但是不涉及attribute references还是可以完成计算

b, 在arithmetic operations中含有Literals和attribute references

testRelation.select(Literal(2)+Literal(3)+'a as Symbol("c1")) optimizeTo testRelation.select(Literal(5)+'a as Symbol("c1"))

将除了attribute references的Literal都计算出来

做法是遍历整棵树的情况下对可以直接计算出的Literal做计算

c, 在predicates中含有Literals和attribute references

与b同理，只不过由arithmetic变为了predicate

3，布尔表达式简化

因为布尔表达式针对And和Or两种操作，会在某种情况下提前短路，例如：

testRelation.where(Literal(true) || 'a > Literal(1)) optimizeTo testRelation.where(Literal(true))

做法较为简单，用case样例列举出针对于And和Or表达式的所有情况，相应情况直接输出Literal(true)、Literal(false)等。

4，filter简化

由于filter中可能出现不必要的逻辑，所以filter是可以简化的，直接看代码：

case Filter(Literal(true, BooleanType), child) => child 这条语句可以直接将filter省去，直接将filter的孩子当做孩子，因为filter此时选择率100%

5，Cast简化

此条规则还比较简单，直接上代码：

Cast(e, dataType) if e.dataType == dataType => e 当Cast需要转换的值相同的时候，直接用该值

6，还有一条查询优化规则是优化我实现的一个操作，这里就不拿出来讲了-_-||

查询优化规则之filter下推

1，filter合并

当多个filter连在一起的时候，可以用And连接谓词将他们合并（expression要给力才行），例如：

testRelation.select('a).where('a==1).where('a==2) optimizeTo testRelation.where('a==1 && 'a==2).select('a)

做法同样也是在遍历树的情况下，直接上代码：case ff @ Filter(fc, nf @ Filter(nc, grandchild)) => Filter(And(nc, fc), grandchild)

2，project相关filter下推

顾名思义，如果project作为filter的叶子节点存在，project在物理层会处理更多的数据，但是如果将project和filter的位置互换，project在物理层处理的记录条数将变少。

3-1，join相关filter下推之 f @ Filter(filterCondition, Join(left, right, joinType, joinCondition))

同上，目的即为减少join在物理层处理的记录条数，对于join的filter下推，需要分inner join和outer join来考虑。

首先，将join相关的filter分为join谓词和where谓词，首先join谓词是写在* join * on后面的谓词（即为3-1标题中的joinCondition），where谓词是写在where后面的谓词（常见情况）。

a, 对于inner join来说，做法是将所有的相关谓词，无论是join谓词还是where谓词，都下推到join的两个孩子之下。但是涉及到两个表的条件，比如T1.a>T2.b。这样的条件无法作为filter推下去，只能放在join物理算子中，但是如果是hashjoin，因为hashjoin不适用于非等值，只能将其作为一个hashjoin之后的filter。将这个filter作为hashjoin的父亲。

做法是将所有的filter操作首先都放到join的顶端，在此需要用到filter的合并操作，然后将join顶端的所有filter操作重新分类，将相关filter谓词全部下推，而将类似于T1.a=T2.b的谓词用来构造两边的joinKeys。

b,对于outer join来说，新增两个概念，nonull端和null端，分情况讨论：

b1,对于full outer join，我们什么都不用做了

b2,对于left outer join，列表如下：

	nonull端	null端
join谓词	不能下推	下推
where谓词	下推	不能下推

下面我们举个例子来说明上面的情况（以下例子未给出数据，可以自己设计数据验证）：
eg. 对于右边的两张表：T1(a int, b int) T2(b int, c int)。

若为如右查询：select * from T1 left join T2 on T1.b=T2.b where T1.b > 2。在此query中有join谓词和where谓词，利用上文列表中的规则，将where谓词下推，而不要将join谓词下推，因为join谓词涉及nonull端。

若为如右查询：select * from T1 left join T2 on T1.b=T2.b where T2.b > 2。在此query中有join谓词和where谓词，两者皆不能下推，所以乖乖的做broadcast join然后再做两个谓词过滤。

若为如右查询：select * from T1 left join T2 on T2.b > 2。将T2.b > 2直接下推没有问题。

*若为如右查询：select * from T1 left join T2 on T1.b > 2。这个不能下推，否则违反nonull端的原The table in an Outer Join that must return all rows

b3,对于right outer join，同b2。

3-2，join相关filter下推之子查询处理 f @ Join(left, right, joinType, joinCondition)

其实这条很简单，从代码可以看出，如果Join前面没有filter就优化不了吗？不是这样的，还可以只是Join，也就是没有where谓词，匹配的就是这个case了。（在此有个疑问，多层子查询能搞定吗？嵌套循环多次遍历可以解决，见代码Analyzer.scala中的case Subquery(_, child）=> child。

4，列剪枝ColumnPruning

减少不必要的Column的读取，有利于接近root节点的操作减少处理的数据量

a, Aggregation的输出属性被包含于它孩子的属性的时候，在Aggregation和它孩子中间加一个project操作，观一段代码：

eg. case a @ Aggregate(_, _, child) if (child.outputSet -- a.references).nonEmpty => a.copy(child = Project(a.references.toSeq, child))，这段代码已经相当清楚

b, Join的左孩子和右孩子可能需要剪枝，因为左孩子和右孩子的输入属性之和比做完之后的属性多，所以要向两个孩子都插入一个对应的project操作

c, 相邻的两个Project完全可以合并

d, 消除不必要的Project

第三部分，Spark sql和Spark core的结合：

spark sql逻辑计划转化为物理执行计划在QueryPlanner中有apply函数，将策略strategies用来生成物理算子，生成的时候，每个logicalPlan会生成若干个physicalPlan。（待完善）

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。