hive sql底层的执行流程 hive sql执行顺序

转载

mob6454cc6441b6 2023-07-12 19:19:43

今天思考on，where，having的执行顺序，联想到了整个sql语句的执行顺序。

sql语句的执行顺序为

(1) from
(2) on
(3) join
(4) where
(5) group by, count, sum, avg
(6) having
(7) select
(8) distinct
(9) order by
(10)limit

从这个顺序中我们可以看出所有的查询语句都是从from开始执行的，在执行过程中，每个步骤都会生成一个虚拟表，这个虚拟表将作为下一个执行步骤的输入表。

1. from后如果存在多张表，那么先取出前两张表，以行数较小的表为基础表，两张表执行笛卡尔积，生成结果表vtb1

2. 将on中的逻辑表达式将应用到vtb1上，以筛选出满足逻辑表达式的行，生成结果表vtb2
一般的sql编辑器都要求join和on搭配使用，因为如果没有on，将生成笛卡尔积。如果你就是想要笛卡尔积作为结果的话，那么on后的表达式可以写1=1这种恒等式，来绕过join，on必须搭配的限制

3. 如果使用的是outer join，那么就需要添加外部行，left outer jion将左表在第二步中过滤的行添加进来，反之将右表在第二步中过滤的行添加进来，生成虚拟表vtb3。
如果from后的表的数量大于2，那么将vtb3作为第一张表，继续重复执行前三步，得到最终的vtb3。

4. 将where中的逻辑表达式将应用到vtb3上，以筛选出满足逻辑表达式的行，生成结果表vtb4

5. 将group by后字段中的唯一的值组合成为一组，得到虚拟表vtb5。之后的count，sum，avg等聚合操作都是针对组的

6. 将having中的逻辑表达式将应用到vtb5上，以筛选出满足逻辑表达式的行，生成vtb6。(having筛选器是唯一应用到已分组数据的筛选器)

7. 将select的列从vtb6中筛选出来。生成vtb7

8. 依据distinct语句，将vtb7中相同的行移除，生成vtb8。如果使用了group by那么就无需使用distinct，因为group by的结果中所有的行都不相同

9. 按照order_by指定的列排序vtb8，生成vtb9。排序是很消耗资源的，除非对结果有顺序要求，否则建议不使用order by

10.根据top的列数返回给用户

在网上看到一张图片，可以直观的展示sql语句执行顺序，希望对大家有所帮助

hive sql底层的执行流程 hive sql执行顺序_hive sql底层的执行流程

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客