字节跳动火山引擎ByteHouse的hash join

关注 yzs的专栏

字节跳动火山引擎ByteHouse的hash join

原创

yzs的专栏 2022-09-14 10:03:45 ©著作权

文章标签 python hash 线性规划过滤器 aof 文章分类 后端开发

©著作权归作者所有：来自51CTO博客作者yzs的专栏的原创作品，请联系作者获取转载授权，否则将追究法律责任

带有过滤条件的hash join，首先针对左表构建hash表，然后对右表进行过滤，针对hash表中每个元组都对右表过滤后的结果进行探测，满足条件的作为join结果。当左表比较大时，构建hash表就需要较大代价。字节跳动的火山引擎Bytehouse中对hash join进行了优化。当右表过滤后结果集比较小时，将右表结果集作为过滤条件过滤左表，然后再构建hash表进行探测。如下图所示：

字节跳动火山引擎ByteHouse的hash join_线性规划

字节跳动火山引擎ByteHouse的hash join_python_02

那就有问题了，虽然看起来这个idea可以带来较大收益，但需要思考是构建全量左表hash表的代价大还是提前过滤不会命中的join数据代价大呢？也就是什么场景下，什么阈值最好有个标量值下这种Runtime filter才具有优势呢？

Bytehouse中介绍，右表过滤后结果集比较小，同时左表非常大，但根据join条件过滤后结果集很小，这种场景下才适合启动Runtime Filter。

但是，还是上面问题，针对启用条件，bytehouse是否有变量阈值控制呢？这个就不得而知了。

赞
收藏
评论
分享
举报

上一篇：innodb undo--insert undo log

下一篇：技术前刊：PostgreSQL12 COPY和bulkloading提升

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册