Photon Vectorized Engine 学习记录

关注晓楚

文章目录

Photon Hash Aggregation Vectorization
Photon 关于 Null 的考虑
Photon 关于 Selector / Active Rows 考虑

Photon Vectorized Engine 学习记录

原创

晓楚 2023-06-15 15:15:33 博主文章分类：OceanBase ©著作权

文章标签 学习数据向量化数组 文章分类 Html/CSS 前端开发

©著作权归作者所有：来自51CTO博客作者晓楚的原创作品，请联系作者获取转载授权，否则将追究法律责任

Photon Hash Aggregation Vectorization

Photon Hash Join 的向量化的要点是：使用开放地址法。步骤：

向量化计算 hash 值
基于 hash 向量化计算 bucket 下标，得到 bucket index 向量
基于 bucket index 向量中记录的下标找到 bucket，判定是否冲突，如果冲突则继续向下，直至找到正确 bucket，将正确 bucket 下标回填到 bucket index 向量中（Not So Vectorized）。下图中绿色就是解决冲突后找到的 bucket 位置。

Photon Vectorized Engine 学习记录_学习

4. 向量化计算 Aggregate 值。伪代码如下：

Photon Vectorized Engine 学习记录_数据_02

可以看到，上面几个步骤里，除了 3 里面有一些不规整的操作，其余都是非常简单的 kernel 操作。

Photon 关于 Null 的考虑

Photon 测试发现，为了处理 Null，会付出 23+% 的开销。基于如下观察：

用户很少专门给列加上 Not Null 约束
很多场景里虽然没有指明 Not Null 约束，但实际数据中 Null 很少

所以，Photo 给每一个 batch 的数据都附带了一个 has_nulls() 标记，如果这一批数据里面一个 null 都没有，那么这一批数据的计算就可以使用 NotNullKernel，性能最佳；反之，就回退到使用 WithNullKernel，付出必要的代价。

Photon Vectorized Engine 学习记录_向量化_03

注意：这里要强调 Batch，而不是全量数据。全量数据里有少许 Null，但其中大部分 Batch 里没有 Null，就能用上上述优化。

Photon 关于 Selector / Active Rows 考虑

考虑到存在 Filter，并且 Filter 可能会过滤掉大部分数据，Photon 为过滤后的数据创建了一个 Active Rows 结构，用于索引未被过滤的数据。
增加 Active Rows 概念后，后继所有数据访问都要通过 Active Rows 索引来定位，成为框架固有开销。

另一种实现思路是引入 Skip 数组，当行过滤时，Skip[i] 被设置为 1，否则为 0。访问过滤后的数据时，需要遍历整个 skip 数组。这么做的好处是（…内存好管理？），缺点是增加了不必要的判断。

赞
收藏
评论
分享
举报

上一篇：在 OceanBase 中如何套路化地分析 CPU 跑不满原因？

下一篇：如何确认你的代码被编译期SIMD向量化

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册