spark 大小表join顺序

原创

mob649e8162c013 2023-07-15 09:14:01 ©著作权

©著作权归作者所有：来自51CTO博客作者mob649e8162c013的原创作品，请联系作者获取转载授权，否则将追究法律责任

Spark大小表Join顺序

在Spark中进行表连接操作是非常常见的，而表的大小会直接影响到连接操作的性能。当一张表很大，而另一张表很小的时候，选择正确的连接顺序将会显著提高查询性能。本文将介绍如何根据表的大小选择合适的连接顺序，并给出相应的代码示例。

什么是大小表Join

在进行表连接操作时，通常会有一个大表和一个小表。大表表示包含大量数据的表，而小表则表示包含相对较少数据的表。在连接这两张表时，我们通常会把小表作为驱动表（也称为Broadcast表），将其复制到每个执行器节点上，然后分别与大表中的每一行进行连接操作。这种方式称为Broadcast Join。

Broadcast Join的好处在于，由于小表被复制到每个节点上，因此每个节点都可以独立地进行连接操作，节省了网络传输的开销。相比之下，如果采用Shuffle Hash Join或Sort Merge Join等方式，大表需要进行数据重分区和排序，导致网络传输开销较大。

选择连接顺序

正确选择表连接的顺序可以极大地提高查询性能。通常情况下，我们应该优先选择较小的表作为驱动表，并将其广播到每个执行器节点上。这样做的原因在于：

减少数据传输开销：将小表广播到每个节点上，可以避免大表的数据传输。如果大表很大，每个节点需要从网络上拉取大量数据，会导致较高的网络传输开销。
降低执行时间：将小表广播到每个节点上，可以让每个节点独立地进行连接操作，减少了串行处理的时间。

下面通过代码示例来说明选择连接顺序的重要性。

# 导入必要的库
from pyspark.sql import SparkSession

# 创建SparkSession对象
spark = SparkSession.builder.appName("Join Example").getOrCreate()

# 读取大表和小表的数据
big_table = spark.read.csv("big_table.csv", header=True, inferSchema=True)
small_table = spark.read.csv("small_table.csv", header=True, inferSchema=True)

# 将小表广播到每个节点上
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", -1)  # 禁用自动广播
spark.conf.set("spark.sql.broadcastTimeout", 3600)  # 设置广播超时时间

small_table_broadcast = spark.sparkContext.broadcast(small_table)

# 对大表和广播后的小表进行连接操作
joined_table = big_table.join(
    small_table_broadcast.value,
    on="join_key",
    how="inner"
)

# 打印连接结果
joined_table.show()

在上述代码中，我们首先读取了大表和小表的数据，并将小表广播到每个节点上。然后，我们使用join函数对大表和广播后的小表进行连接操作。最后，我们打印出连接结果。