三种常见的数据库查询引擎执行模型

原创

喜欢打篮球的普通人 2023-03-07 09:11:16 博主文章分类：数据库系统原理 ©著作权

©著作权归作者所有：来自51CTO博客作者喜欢打篮球的普通人的原创作品，请联系作者获取转载授权，否则将追究法律责任

一、迭代模型/火山模型（Iterator Model）

又称 Volcano Model 或者 Pipeline Model。

该计算模型将关系代数中每一种操作抽象为一个 Operator，将整个 SQL 构建成一个 Operator 树，查询树自顶向下的调用next()接口，数据则自底向上的被拉取处理。

火山模型的这种处理方式也称为拉取执行模型(Pull Based)。
大多数关系型数据库都是使用迭代模型的，如 SQLite、MongoDB、Impala、DB2、SQLServer、Greenplum、PostgreSQL、Oracle、MySQL 等。
火山模型的优点在于：简单，每个 Operator 可以单独实现逻辑。
火山模型的缺点：查询树调用next()接口次数太多，并且一次只取一条数据，CPU 执行效率低；而 Joins, Subqueries, Order By 等操作经常会阻塞。

Materialization Model

Batch Model

向量化模型和火山模型类似，每个 operator 需要实现一个 next() 函数，但是每次调用 next() 函数会返回一批的元组（tuples），而不是一个元组，所以向量化模型也可称为批处理模型。
向量化模型是火山模型和物化模型的折衷。
向量化模型比较适合 OLAP 查询，因为其大大减少了每个 operator 的调用次数，也就简单减少了虚函数的调用。
Presto、snowflake、SQLServer、Amazon Redshift等数据库支持这种处理模式。
Spark 2.x 的 SQL 引擎开始也支持向量化执行模型
参考：「分布式技术专题」三种常见的数据库查询引擎执行模型