sparksql 参数

原创

mob64ca12f43142 2024-04-14 06:14:12 ©著作权

文章标签 spark sql 数据处理 文章分类 Spark 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12f43142的原创作品，请联系作者获取转载授权，否则将追究法律责任

SparkSQL 参数详解

SparkSQL 是 Apache Spark 中的一个组件，它提供了一种用于处理结构化数据的高级数据处理接口。在使用 SparkSQL 进行数据处理时，我们需要了解一些常用的参数以优化查询性能和控制数据处理过程。

常用参数

1. spark.sql.shuffle.partitions

这个参数控制了在执行聚合操作或者连接操作时产生的中间分区的数量，默认值为 200。通过调整这个参数可以控制 shuffle 操作的并发度，从而提高查询性能。

```sql
-- 设置 shuffle 分区数为 100
spark.conf.set("spark.sql.shuffle.partitions", 100)


### 2. spark.sql.autoBroadcastJoinThreshold

这个参数控制了在执行 join 操作时是否自动将小表广播到所有节点，默认值为 10MB。当一个表的大小小于这个阈值时，SparkSQL 会自动将其广播到所有节点，减少网络传输开销。

```markdown
```sql
-- 设置自动广播 join 阈值为 20MB
spark.conf.set("spark.sql.autoBroadcastJoinThreshold", 20 * 1024 * 1024)


### 3. spark.sql.codegen.wholeStage

这个参数控制了是否开启整个查询计划的代码生成，默认值为 true。通过开启整个查询计划的代码生成，可以将多个操作合并成一个函数，减少函数调用开销，提高查询性能。

```markdown
```sql
-- 关闭整个查询计划的代码生成
spark.conf.set("spark.sql.codegen.wholeStage", false)


### 4. spark.sql.statistics.histogram.numBins

这个参数控制了在计算表的统计信息时直方图的 bin 数量，默认值为 100。通过调整直方图的 bin 数量，可以更精确地估计数据分布，提高查询优化器的准确性。

```markdown
```sql
-- 设置直方图的 bin 数量为 50
spark.conf.set("spark.sql.statistics.histogram.numBins", 50)


## 总结

在使用 SparkSQL 进行数据处理时，合理调整参数可以提高查询性能和优化数据处理过程。通过了解常用参数的作用和调整方法，可以更好地利用 SparkSQL 进行数据处理和分析。

```mermaid
gantt
    title SparkSQL 参数优化示例

    section 参数设置
    设置 shuffle 分区数为 100 :done, a1, 2021-10-01, 2021-10-02
    设置自动广播 join 阈值为 20MB :done, a2, 2021-10-02, 2021-10-03
    关闭整个查询计划的代码生成 :done, a3, 2021-10-03, 2021-10-04
    设置直方图的 bin 数量为 50 :done, a4, 2021-10-04, 2021-10-05

表格：

参数	默认值	作用
spark.sql.shuffle.partitions	200	控制 shuffle 并发度
spark.sql.autoBroadcastJoinThreshold	10MB	控制自动广播 join 阈值
spark.sql.codegen.wholeStage	true	控制是否开启整个查询计划的代码生成
spark.sql.statistics.histogram.numBins	100	控制直方图 bin 数量