spark join broadcast优化

转载

mb5ff59354dd96e 2015-09-24 00:02:00

文章标签 数据 sql spark io操作历史数据 文章分类 代码人生

在大量数据中对一些字段进行关联。

举例

ipTable：需要进行关联的几千条ip数据(70k)

hist：历史数据（百亿级别）

直接join将会对所有数据进行shuffle，需要大量的io操作，相同的key会在同一个partition中进行处理，任务的并发度也收到了限制。

spark join broadcast优化_历史数据

使用broadcast将会把小表分发到每台执行节点上，因此，关联操作都在本地完成，基本就取消了shuffle的过程，运行效率大幅度提高。

spark join broadcast优化_sql_02

样本数据(2000w)性能测试对比

小表没有进行broadcast

spark join broadcast优化_历史数据_03

进行了broadcast,可以看到连shuffle过程都省略了

spark join broadcast优化_数据_04

实现代码(spark1.5)

//读取ip表
val df = ...

//如果数据小于设定的广播大小则将该表广播,默认10M
df.cache.count

//注册表
df.registerTempTable("ipTable")

//关联
sqlContext.sql("select * from (select * from ipTable)a join (select * from hist)b on a.ip = b.ip")

......

设置表广播的阈值，如果有需求且内存足够，可以将该值提高，默认10M

spark.sql.autoBroadcastJoinThreshold

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。