sparksql 什么情况会用广播变量

原创

mob64ca12f15103 2024-01-28 05:51:39 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12f15103的原创作品，请联系作者获取转载授权，否则将追究法律责任

SparkSQL 广播变量的应用场景

在 SparkSQL 中，广播变量（Broadcast Variables）是一种优化技术，用于在分布式计算中降低数据传输开销。广播变量是将一个只读变量以广播的方式发送到所有的工作节点，这样每个节点都可以在本地缓存该变量，从而避免重复传输。

什么情况下使用广播变量？

当遇到以下情况时，可以考虑使用广播变量：

小数据集与大数据集的关联操作：当一个小数据集需要与大数据集进行关联操作时，如果直接使用 join 操作，会将小数据集复制到每个工作节点，导致数据传输开销较大。而使用广播变量，可以将小数据集广播到每个节点，避免数据传输开销。
频繁使用的共享数据：当一个变量在多个任务中被频繁使用时，使用广播变量可以将该变量缓存在每个节点上，避免多次传输。

下面通过一个示例来演示如何使用广播变量。

示例代码

假设有两个数据集，一个是大数据集 data，一个是小数据集 lookup。我们需要根据 lookup 中的数据对 data 进行关联操作。

首先，我们创建 SparkSession：

import org.apache.spark.sql.SparkSession

val spark = SparkSession
  .builder()
  .appName("Broadcast Variables Example")
  .getOrCreate()

然后，创建大数据集 data：

val data = spark.sparkContext.parallelize(Seq(
  ("Alice", 25),
  ("Bob", 30),
  ("Charlie", 35)
)).toDF("name", "age")

创建小数据集 lookup：

val lookup = spark.sparkContext.parallelize(Seq(
  ("Alice", "Engineer"),
  ("Bob", "Doctor")
)).toDF("name", "profession")

接下来，我们使用广播变量来对 data 和 lookup 进行关联操作：

import org.apache.spark.broadcast.Broadcast

val lookupData: Map[String, String] = lookup.rdd.map(row => (row.getAs[String]("name"), row.getAs[String]("profession"))).collectAsMap()
val lookupDataBroadcast: Broadcast[Map[String, String]] = spark.sparkContext.broadcast(lookupData)

import spark.implicits._
val result = data.map(row => {
  val name = row.getAs[String]("name")
  val age = row.getAs[Int]("age")
  val profession = lookupDataBroadcast.value.getOrElse(name, "Unknown")
  (name, age, profession)
}).toDF("name", "age", "profession")

在上述代码中，我们首先将小数据集 lookup 转换为一个以 name 为键、profession 为值的 Map。然后，将该 Map 存储在广播变量 lookupDataBroadcast 中。

接下来，我们使用 lookupDataBroadcast.value 来获取广播变量的值，即 lookup 数据集的 Map。然后，对 data 进行遍历，根据每个 name 在广播变量中查找对应的 profession，如果找不到，则返回 "Unknown"。

最后，我们将结果转换为 DataFrame，并指定列名。