Apache Spark 官方在 2021 年 10 月 13 日发布了 3.2.0 版本,Jira release 页面点击:​​链接​​。以下是 Release Notes,供参考: 

Sub-task

Bug

  • [ ​​SPARK-20977​​ ] - CollectionAccumulator 中的 NPE
  • [ ​​SPARK-21449​​ ] - Hive 客户端的 SessionState 未在 HiveExternalCatalog 中正确关闭
  • [ ​​SPARK-22748​​ ] - 查询错误:grouping_id() 只能与 GroupingSets/Cube/Rollup 一起使用;
  • [ ​​SPARK-22769​​ ] - 驱动程序停止时,出现错误:“找不到 CoarseGrainedScheduler”和“RpcEnv 已经停止”
  • [ ​​SPARK-23745​​ ] - 当 HiveThriftServer2 停止时删除“hive.downloaded.resources.dir”的目录
  • [ ​​SPARK-23862​​ ] - Spark ExpressionEncoder 应该支持 Scala 中的 java 枚举类型
  • [ ​​SPARK-25769​​ ] - UnresolvedAttribute.sql() 错误地转义嵌套列
  • [ ​​SPARK-26199​​ ] - 长表达式导致 mutate 失败
  • [ ​​SPARK-26836​​ ] - 如果架构发生变化,则使用 Avro 支持的 Hive 表在 Spark SQL 中切换列
  • [ ​​SPARK-27991​​ ] - ShuffleBlockFetcherIterator 在限制同时获取块的数量时应该考虑 Netty 常数因子开销
  • [ ​​SPARK-28266​​ ] - 存在 `path` serde 属性时的数据重复
  • [ ​​SPARK-28551​​ ] - 具有 LOCATION 属性的 CTAS SQL 不会检查位置路径,导致该位置下的数据丢失
  • [ ​​SPARK-31517​​ ] - SparkR::orderBy 多列降序产生错误
  • [ ​​SPARK-32041​​ ] - 在涉及 DPP、子查询的情况下,Exchange 重用将不起作用
  • [ ​​SPARK-32210​​ ] - 无法序列化大型 MapStatuses
  • [ ​​SPARK-32866​​ ] - Docker buildx 现在需要 --push
  • [ ​​SPARK-32924​​ ] - Web UI 对持续时间的排序是错误的
  • [ ​​SPARK-32975​​ ] - 在执行程序启动之前添加驱动程序准备超时的配置
  • [ ​​SPARK-33100​​ ] - 支持解析带有 c 样式注释的 sql 语句
  • [ ​​SPARK-33428​​ ] - 将 conv 函数的行为与 MySQL 的行为相匹配
  • [ ​​SPARK-33474​​​ ] - 插入具有日期类型值的日期类型分区表​​时值​​不正确
  • [ ​​SPARK-33482​​ ] - 扩展 FileScan 的 V2 数据源阻止交换重用
  • [ ​​SPARK-33546​​ ] - CREATE TABLE LIKE 应该像 CREATE TABLE 一样正确解析 hive serde
  • [ ​​SPARK-33591​​ ] - NULL 被识别为分区规范中的“空”字符串
  • [ ​​SPARK-33677​​ ] - 如果模式包含任何转义字符,则应跳过 LikeSimplification
  • [ ​​SPARK-33722​​ ] - 在 ReplaceNullWithFalseInPredicate 中处理 DELETE
  • [ ​​SPARK-33739​​ ] - 通过 S3A Magic 提交器提交的作业不报告写入的字节数
  • [ ​​SPARK-33802​​ ] - 在 spark-master-test-sbt-hadoop-3.2 Jenkins 作业中恢复 PySpark 覆盖
  • [ ​​SPARK-33813​​ ] - 使用 MS SQL 驱动程序读取空间数据类型时,JDBC 数据源失败
  • [ ​​SPARK-33819​​ ] - SingleFileEventLogFileReader/RollingEventLogFilesFileReader 应该是`package private`
  • [ ​​SPARK-33841​​ ] - 作业在高负载下从 SHS 间歇性消失
  • [ ​​SPARK-33867​​ ] - java.time.Instant 和 java.time.LocalDate 未在 org.apache.spark.sql.jdbc.JdbcDialect#compileValue 中处理
  • [ ​​SPARK-33885​​ ] - 应尊重 DDL 命令的未解析标识符的位置..
  • [ ​​SPARK-33888​​ ] - JDBC SQL TIME 类型错误地表示为 TimestampType,它应该是以毫秒为单位的物理 Int
  • [ ​​SPARK-33900​​ ] - 当只有 remotebytesread 可用时,正确显示随机读取大小/记录
  • [ ​​SPARK-33931​​ ] - 恢复 GitHub 操作
  • [ ​​SPARK-33935​​ ] - 修复 CBO 成本函数
  • [ ​​SPARK-33962​​ ] - 修复了 getRanges 中不正确的最小分区条件
  • [ ​​SPARK-33999​​ ] - 使用 JDK11 使 sbt unidoc 成功
  • [ ​​SPARK-34012​​ ] - 当迁移指南中的 conf `spark.sql.legacy.parser.haveWithWithWithoutGroupByAsWhere` 为 true 时,保持行为一致
  • [ ​​SPARK-34015​​ ] - SparkR 分区计时摘要正确报告输入时间
  • [ ​​SPARK-34032​​ ] - 添加 Kafka 委托令牌信任库和密钥库类型配置
  • [ ​​SPARK-34053​​ ] - 请减少 GitHub 操作矩阵或缩短构建时间
  • [ ​​SPARK-34084​​ ] - ALTER TABLE .. ADD PARTITION 不更新表统计信息
  • [ ​​SPARK-34087​​ ] - 当我们克隆 spark 会话时发生内存泄漏
  • [ ​​SPARK-​​ 34089 ] - MemoryConsumer 的内存模式应该尊重 MemoryManager 的内存模式
  • [ ​​SPARK-34128​​ ] - 禁止在 Spark ThriftServer 中过多记录 TTransportExceptions
  • [ ​​SPARK-34137​​​ ] - 树字符串不包含嵌套标​​量子​​查询的统计信息
  • [ ​​SPARK-34141​​ ] - ExtractGenerator 分析器应该处理惰性项目列表
  • [ ​​SPARK-34143​​ ] - 将分区添加到完全分区的 v2 表
  • [ ​​SPARK-34154​​ ] - 脆弱测试:LocalityPlacementStrategySuite.handle 大量容器和任务 (SPARK-18750)
  • [ ​​SPARK-34156​​ ] - 统一 DDL 的输出并正确传递输出属性
  • [ ​​SPARK-34167​​ ] - 阅读 Decimal(8,2) 写为 Decimal64 的镶木地板会爆炸
  • [ ​​SPARK-34180​​​ ] - 修复了​​SPARK-33888​​为 PostgresDialect 带来的回归
  • [ ​​SPARK-34197​​ ] - refreshTable() 不应使临时视图的关系缓存失效
  • [ ​​SPARK-34199​​ ] - 阻止 `count(table.*)` 以遵循 ANSI 标准和其他 SQL 引擎
  • [ ​​SPARK-34203​​ ] - 无法删除 FileSource 表空分区
  • [ ​​SPARK-34217​​ ] - 修复 Scala 2.12 发布配置文件
  • [ ​​SPARK-34225​​​ ] - 包含空格​​的 jar​​或文件路径正在生成 FileNotFoundException 异常
  • [ ​​SPARK-34227​​ ] - WindowFunctionFrame 应在准备期间清除其状态
  • [ ​​SPARK-34251​​ ] - TRUNCATE TABLE 重置非空 v1 表的统计信息
  • [ ​​SPARK-34311​​ ] - PostgresDialect 不能处理某些类型的数组
  • [ ​​SPARK-34314​​ ] - 发现的分区值错误
  • [ ​​SPARK-34318​​ ] - Dataset.colRegex 应该使用包含换行符的列名和限定符
  • [ ​​SPARK-34333​​ ] - 修复 PostgresDialect 以正确处理货币类型
  • [ ​​SPARK-34341​​ ] - aarch64 上的 ./build/mvn 错误输出
  • [ ​​SPARK-34352​​ ] - 改进 SQLQueryTestSuite 以便可以在 Windows 系统上运行
  • [ ​​SPARK-34354​​ ] - CostBasedJoinReorder 在自加入时可能会失败
  • [ ​​SPARK-34361​​​ ] - ​​K8s 上的​​动态分配会杀死正在运行的任务的执行程序
  • [ ​​SPARK-34370​​ ] - 使用“avro.schema.url”支持分区 Hive 表的 Avro 模式演变
  • [ ​​SPARK-34379​​ ] - 将 JDBC RowID 映射到 StringType 而不是 LongType
  • [ ​​SPARK-34392​​ ] - 自 Spark 3.0 以来,基于偏移量的 ZoneId 的 ID 无效
  • [ ​​SPARK-34417​​ ] - org.apache.spark.sql.DataFrameNaFunctions.fillMap(values: Seq[(String, Any)]) 因列名有一个点而失败
  • [ ​​SPARK-34436​​ ] - DPP 支持 LIKE ANY/ALL
  • [ ​​SPARK-34448​​ ] - 当数据未居中时,二元逻辑回归错误地计算截距和系数
  • [ ​​SPARK-34463​​ ] - toPandas 失败并出现错误:当启用自毁箭头时,缓冲区源数组是只读的
  • [ ​​SPARK-​​ 34472 ] - 带有 ivy 路径的 SparkContext.addJar 在带有自定义 ivySettings 文件的集群模式下失败
  • [ ​​SPARK-34473​​ ] - 在 DataFrameReader.schema(StructType) 中避免 NPE
  • [ ​​SPARK-34477​​ ] - 序列化 Avro GenericData 对象时的 Kryo NPE(GenericRecord 除外)
  • [ ​​SPARK-34490​​ ] - 如果表被删除,表可能会被解析为视图
  • [ ​​SPARK-34504​​ ] - 避免不必要的视图解析并删除 `performCheck` 标志
  • [ ​​SPARK-34506​​ ] - 添加带有常春藤坐标的 JAR 应该与 Hive 传递行为兼容
  • [ ​​SPARK-34512​​ ] - 解析 Avro 模式时禁用验证默认值
  • [ ​​SPARK-34515​​ ] - 如果在 getPartitionsByFilter 期间 InSet 包含空值,则修复 NPE
  • [ ​​SPARK-34526​​ ] - 跳过检查 FileStreamSink.hasMetadata 中的 glob 路径
  • [ ​​SPARK-34527​​ ] - 无法从 USING/NATURAL JOIN 解析重复数据删除的公共列
  • [ ​​SPARK-34534​​ ] - OneForOneBlockFetcher 中的新协议 FetchShuffleBlocks 导致数据丢失或正确性
  • [ ​​SPARK-34541​​ ] - 修复了 unregisterShuffle 时无法清理数据的问题
  • [ ​​SPARK-34545​​ ] - 将具有不同返回类型的 2 个 UDF 一起应用于 2 列时,PySpark Python UDF 返回不一致的结果
  • [ ​​SPARK-34547​​ ] - 解决使用子元数据属性作为后备
  • [ ​​SPARK-34555​​ ] - 解析 DataFrame 的元数据输出
  • [ ​​SPARK-34558​​ ] - 仓库路径应该在填充和使用之前解决
  • [ ​​SPARK-34560​​ ] - 无法加入 SHOW TABLES 的数据集
  • [ ​​SPARK-34565​​ ] - 在它们之间使用 Project 折叠窗口节点
  • [ ​​SPARK-34567​​ ] - CreateTableAsSelect 也应该有指标更新
  • [ ​​SPARK-34568​​ ] - 如果 SparkContext 被创建,enableHiveSupport 应该忽略
  • [ ​​SPARK-34579​​ ] - 修复 SQLQuerySuite 中的错误测试
  • [ ​​SPARK-34581​​ ] - 通过 BooleanSimplification 和 PushFoldableIntoBranches 优化后的 BoundAttribute 问题
  • [ ​​SPARK-34584​​ ] - 当插入具有非法分区值的分区表时,DSV2 行为与其他行为不同
  • [ ​​SPARK-34595​​ ] - DPP 支持 RLIKE
  • [ ​​SPARK-34596​​ ] - NewInstance.doGenCode 不应抛出格式错误的类名错误
  • [ ​​SPARK-34599​​ ] - INSERT INTO OVERWRITE 不支持包含点的分区列用于 DSv2
  • [ ​​SPARK-34607​​ ] - NewInstance.resolved 不应抛出格式错误的类名错误
  • [ ​​SPARK-34608​​ ] - 删除 AddJarCommand 中未使用的输出
  • [ ​​SPARK-34613​​ ] - 修复视图不捕获禁用提示配置
  • [ ​​SPARK-34624​​ ] - 从 ivy/maven 坐标中过滤非 jar 依赖项
  • [ ​​SPARK-34626​​ ] - UnresolvedAttribute.sql 可能返回不正确的 sql
  • [ ​​SPARK-34634​​ ] - 自加入脚本转换无法正确解析属性
  • [ ​​SPARK-34636​​ ] - UnresolvedAttribute、AttributeReference 和 Alias 中的 sql 方法没有正确引用限定名称。
  • [ ​​SPARK-34642​​ ] - Pyspark 线性回归文档中的类型错误
  • [ ​​SPARK-34643​​ ] - 以规范形式使用 CRAN URL
  • [ ​​SPARK-34649​​ ] - org.apache.spark.sql.DataFrameNaFunctions.replace() 因列名有一个点而失败
  • [ ​​SPARK-34674​​ ] - 在不调用 sparkContext.stop() 方法的情况下,k8s 上的 Spark 应用程序不会终止
  • [ ​​SPARK-34676​​ ] - TableCapabilityCheckSuite 不应继承 AnalysisSuite 的所有测试
  • [ ​​SPARK-34681​​ ] - 构建左侧时完全外部混洗哈希连接产生错误结果
  • [ ​​SPARK-34696​​ ] - 修复 CodegenInterpretedPlanTest 以生成正确的测试用例
  • [ ​​SPARK-34697​​ ] - 允许描述函数和显示函数解释 || (字符串连接运算符)。
  • [ ​​SPARK-34713​​ ] - CreateStruct 和 ExtractValue 分组失败分析
  • [ ​​SPARK-34719​​ ] - 如果视图查询具有重复的列名,则失败
  • [ ​​SPARK-34720​​ ] - 不正确的星形扩展逻辑 MERGE INSERT * / UPDATE *
  • [ ​​SPARK-34723​​​ ] - 整阶段​​下子​​表达式消除的正确参数类型
  • [ ​​SPARK-34724​​ ] - 使用 getClass.getMethod 而不是 getDeclaredMethod 修复解释评估
  • [ ​​SPARK-34727​​ ] - 将浮点数转换为时间戳的结果差异
  • [ ​​SPARK-34731​​ ] - 编辑属性时 EventLoggingListener 中的 ConcurrentModificationException
  • [ ​​SPARK-34732​​ ] - 驱动程序未启动时 logForFailedTest 抛出异常
  • [ ​​SPARK-34736​​ ] - Kubernetes 和 Minikube 版本升级以进行集成测试
  • [ ​​SPARK-34737​​ ] - TIMESTAMP_SECONDS 和从浮点数转换之间的差异
  • [ ​​SPARK-34743​​ ] - ExpressionEncoderSuite 应该在我们期望`array of array` 时使用 deepEquals
  • [ ​​SPARK-34747​​ ] - 将虚拟运算符添加到内置函数文档中。
  • [ ​​SPARK-34748​​ ] - 为流式写入创建分析逻辑规则
  • [ ​​SPARK-34756​​ ] - 修复 FileScan 相等性检查
  • [ ​​SPARK-34760​​ ] - 在 runBasicDataSourceExample() 中运行 JavaSQLDataSourceExample 失败并出现异常。
  • [ ​​SPARK-34763​​ ] - col()、$"<name>" 和 df("name") 应该正确处理引用的列名。
  • [ ​​SPARK-34768​​​ ] - 尊重​​Univocity 中​​的默认输入缓冲区大小
  • [ ​​SPARK-34770​​ ] - 如果数据库不存在,InMemoryCatalog.tableExists 不应失败
  • [ ​​SPARK-34772​​ ] - RebaseDateTime loadRebaseRecords 应该使用 Spark 类加载器而不是上下文
  • [ ​​SPARK-34774​​ ] - `change-scala-version.sh` 脚本没有正确替换 scala.version 属性
  • [ ​​SPARK-34776​​ ] - 某些结构操作上的催化剂错误(找不到 _gen_alias_)
  • [ ​​SPARK-34794​​ ] - DSL 中破坏的嵌套高阶函数
  • [ ​​SPARK-34796​​ ] - 使用 LIMIT 运算符和不使用 AQE 进行查询的 Codegen 编译错误
  • [ ​​SPARK-34798​​ ] - 修复不正确的连接条件
  • [ ​​SPARK-34803​​ ] - 需要某些版本的 Pandas 和 PyArrow 的 Util 方法不会通过引发的 ImportError
  • [ ​​SPARK-34811​​ ] - 像秘密和令牌一样编辑 fs.s3a.access.key
  • [ ​​SPARK-34814​​ ] - LikeSimplification 应该处理 NULL
  • [ ​​SPARK-34820​​ ] - K8s 集成测试失败(由于 libldap 安装失败)
  • [ ​​SPARK-34829​​ ] - 当它与返回引用类型的 udf 一起使用时,transform_values 返回相同的值
  • [ ​​SPARK-34832​​ ] - ExternalAppendOnlyUnsafeRowArrayBenchmark 无法使用 spark-submit 运行
  • [ ​​SPARK-34833​​ ] - 为相关子查询正确应用右填充
  • [ ​​SPARK-34834​​​ ] - ​​TransportResponseHandler 中​​存在潜在的 Netty 内存泄漏。
  • [ ​​SPARK-34842​​ ] - 更正了 TPCDS 模式中 date_dim.d_quarter_name 的类型
  • [ ​​SPARK-34845​​ ] - ProcfsMetricsGetter.computeAllMetrics 可能会在缺少某些子 pid 指标时返回部分指标
  • [ ​​SPARK-34857​​ ] - AtLeastNNonNulls 在解释中没有正确显示
  • [ ​​SPARK-34859​​ ] - 矢量化镶木地板阅读器需要在页面之间同步以获取列索引
  • [ ​​SPARK-34871​​ ] - 将检查点解析逻辑移动到规则 ResolveWriteToStream
  • [ ​​SPARK-34872​​ ] - quoteIfNeeded 应该引用包含非单词字符的名称
  • [ ​​SPARK-34874​​ ] - 恢复失败的 GA 构建的测试报告
  • [ ​​SPARK-34876​​ ] - 不可为空的聚合可以在相关子查询中返回 NULL
  • [ ​​SPARK-34882​​ ] - 如果聚合器不忽略 NULL,RewriteDistinctAggregates 可能会导致错误
  • [ ​​SPARK-34897​​ ] - 支持基于嵌套列修剪后的索引协调模式
  • [ ​​SPARK-34900​​ ] - 用户指南中用于运行基准测试的一些 `spark-submit` 命令是错误的
  • [ ​​SPARK-34909​​ ] - conv() 不能正确地将负输入转换为无符号
  • [ ​​SPARK-34926​​ ] - PartitionUtils.getPathFragment 应该处理空值
  • [ ​​SPARK-34933​​ ] - 删除 || 的描述 和 && 可以用作文档中的逻辑运算符。
  • [ ​​SPARK-34934​​ ] - 在 MetricsSystem 中注册源时出现竞争条件
  • [ ​​SPARK-34938​​ ] - 在 ExtractBenchmark 的基准测试中恢复区间情况
  • [ ​​SPARK-34939​​ ] - 无法反序列化广播地图状态时抛出获取失败异常
  • [ ​​SPARK-34948​​ ] - 将 ownerReference 添加到 executor configmap 以修复泄漏
  • [ ​​SPARK-34949​​ ] - 即使 Executor 正在关闭,Executor.reportHeartBeat 也会重新注册 blockManager
  • [ ​​SPARK-34955​​ ] - ADD JAR 命令无法添加路径中包含空格的 jar 文件
  • [ ​​SPARK-34963​​ ] - 嵌套列修剪无法从数组中提取不区分大小写的结构字段
  • [ ​​SPARK-34965​​ ] - 删除重复设置默认内存的 .sbtopts
  • [ ​​SPARK-34968​​ ] - 无法执行 python/run-tests-with-coverage cmd
  • [ ​​SPARK-34977​​​ ] - 引用至少一个路径时,LIST FILES/ ​​JARS​​ /ARCHIVES 无法正确处理多个参数。
  • [ ​​SPARK-34988​​ ] - 针对 CVE-2021-28165 升级 Jetty
  • [ ​​SPARK-35004​​ ] - 修复 MasterSuite 中“前端 reverseProxy 后可用的主/工作 Web ui”的错误断言
  • [ ​​SPARK-35009​​ ] - 避免为同一 TaskContext 的重用 python 工作线程创建多个 Monitor 线程
  • [ ​​SPARK-35014​​ ] - 无法用 AttributeReference 替换可折叠表达式
  • [ ​​SPARK-35027​​​ ] - 写入日志失败时关闭​​FileAppender 中​​的 inputStream
  • [ ​​SPARK-35079​​ ] - 使用 udf 进行转换会给出错误的结果
  • [ ​​SPARK-35080​​ ] - 具有相等谓词的相关子查询可能会返回错误的结果
  • [ ​​SPARK-35096​​ ] - 如果模式不区分大小写,foreachBatch 会抛出 ArrayIndexOutOfBoundsException
  • [ ​​SPARK-35104​​ ] - 修复当漂亮选项为 true 时 JacksonGenerator 生成的单个拆分文件中多个 JSON 记录的丑陋缩进
  • [ ​​SPARK-​​ 35106 ] - 使用动态分区覆盖时,HadoopMapReduceCommitProtocol 执行错误的重命名
  • [ ​​SPARK-35117​​ ] - UI 进度条不再突出显示正在进行的任务
  • [ ​​SPARK-35134​​ ] - setup.py 将在执行 PySpark pip 打包测试时将不同版本的 netty jar 复制到 deps/jars
  • [ ​​SPARK-35136​​ ] - LiveStage.info 的初始空值可能导致 NPE
  • [ ​​SPARK-35142​​ ] - `OneVsRest` 分类器对 `rawPrediction` 列使用了不正确的数据类型
  • [ ​​SPARK-35176​​ ] - 在不适当的类型情况下引发 TypeError 而不是 ValueError
  • [ ​​SPARK-35178​​ ] - maven 自动下载失败
  • [ ​​SPARK-35183​​ ] - CombineConcats 应该调用transformAllExpressions
  • [ ​​SPARK-35207​​ ] - hash() 和其他哈希内置函数不规范化负零
  • [ ​​SPARK-35210​​ ] - 将 Jetty 升级到 9.4.40 以修复 ERR_CONNECTION_RESET 问题
  • [ ​​SPARK-35213​​ ] - 某些 withField 模式的损坏数据帧
  • [ ​​SPARK-35226​​ ] - JDBC 数据源应该接受 refreshKrb5Config 参数
  • [ ​​SPARK-35232​​ ] - 嵌套列修剪应保留列元数据
  • [ ​​SPARK-35244​​ ] - invoke 应该抛出原始异常
  • [ ​​SPARK-35246​​ ] - 通过 UnsupportedOperationsChecker 错误地允许流式批处理相交
  • [ ​​SPARK-35266​​ ] - 修复了在不存在的目录中创建基准文件时发生的 BenchmarkBase.scala 中的错误
  • [ ​​SPARK-35278​​ ] - Invoke 应该找到参数数量正确的方法
  • [ ​​SPARK-35287​​ ] - RemoveRedundantProjects 删除非冗余项目
  • [ ​​SPARK-35288​​ ] - StaticInvoke 应该找到没有精确参数类匹配的方法
  • [ ​​SPARK-35290​​ ] - 对于某些嵌套结构,带有空填充的 unionByName 失败
  • [ ​​SPARK-35296​​ ] - Dataset.observe 因断言而失败
  • [ ​​SPARK-35302​​ ] - 基准工作流应该为新基准创建新文件
  • [ ​​SPARK-35303​​ ] - 默认启用固定线程模式
  • [ ​​SPARK-35308​​ ] - 修复了 SPARK-35266 中的一个错误,该错误会在名称错误的无效路径中创建基准文件
  • [ ​​SPARK-35319​​ ] - 将 K8s 客户端升级到 5.3.1
  • [ ​​SPARK-35321​​ ] - 由于缺少 get_all_functions Thrift API,Spark 3.x 无法与 HMS 1.2.x 及更低版本通信
  • [ ​​SPARK-35326​​ ] - 将球衣升级到 2.34
  • [ ​​SPARK-35331​​ ] - 别名后 RepartitionByExpression 中的属性变得未知
  • [ ​​SPARK-35359​​ ] - 当数据长度超过长度限制时,使用 char/varchar 数据类型插入数据将失败
  • [ ​​SPARK-35372​​ ] - 由于 StackOverflowError 导致 JDK 11 编译失败
  • [ ​​SPARK-35375​​ ] - 使用 Jinja2 < 3.0.0 作为 GA 中的 Python linter 依赖项
  • [ ​​SPARK-35381​​ ] - 修复了 R API 中嵌套 DataFrame 函数中的 lambda 变量名称问题
  • [ ​​SPARK-35382​​ ] - 修复 Python API 中嵌套 DataFrame 函数中的 lambda 变量名称问题
  • [ ​​SPARK-35391​​ ] - ExecutorAllocationListener 中的内存泄漏破坏了高负载下的动态分配
  • [ ​​SPARK-35392​​ ] - 片状测试:ml/clustering.py 上的 GaussianMixture 和 ml/feature.py 上的 Word2Vec
  • [ ​​SPARK-35393​​ ] - 在 GitHub Actions 构建中跳过了 PIP 打包测试
  • [ ​​SPARK-35412​​ ] - 修复了 groupBy 年-月/日-时间间隔的错误
  • [ ​​SPARK-35420​​ ] - 用 ToStringBuilder 替换 toStringHelper 的用法
  • [ ​​SPARK-35423​​ ] - PCA 的输出不一致
  • [ ​​SPARK-35425​​ ] - 在 spark-rm/Dockerfile 中固定 jinja2 并在版本 README.md 中添加为必需的依赖项
  • [ ​​SPARK-35454​​ ] - 将数据集转换为数据帧后,模糊自连接不会失败
  • [ ​​SPARK-35458​​ ] - ARM CI 失败:无法验证 maven sha512
  • [ ​​SPARK-35463​​ ] - 在系统上跳过检查校验和没有“shasum”
  • [ ​​SPARK-35480​​ ] - percentile_approx 函数不适用于枢轴
  • [ ​​SPARK-35482​​ ] - 应在 BasicExecutorFeatureStep 中使用区分大小写的块管理器端口密钥
  • [ ​​SPARK-35486​​ ] - 即使内存可用,触发部分自溢出的 MemoryConsumer 保留也可能失败
  • [ ​​SPARK-35489​​ ] - 将 ORC 升级到 1.6.8
  • [ ​​SPARK-35493​​ ] - spark.blockManager.port 不适用于驱动程序 pod
  • [ ​​SPARK-​​ 35512 ] - pyspark partitionBy 可能会遇到“溢出错误:无法将浮点无穷大转换为整数”
  • [ ​​SPARK-35516​​ ] - 存储 UI 选项卡存储级别工具提示更正
  • [ ​​SPARK-35527​​ ] - 修复 HiveExternalCatalogVersionsSuite 以通过 Java 11
  • [ ​​SPARK-35530​​ ] - 使用 Java 11 修复 DifferentiableLossAggregatorSuite 中的舍入错误
  • [ ​​SPARK-35543​​​ ] - ​​BlockManagerMasterEndpoint 中的​​小内存泄漏
  • [ ​​SPARK-35559​​ ] - 加速 AdaptiveQueryExecSuite 中的一项测试
  • [ ​​SPARK-35566​​​ ] - 修复​​StateStoreRestoreExec​​的输出行数
  • [ ​​SPARK-35567​​ ] - 解释成本没有显示所有节点的统计数据
  • [ ​​SPARK-35573​​ ] - 使用 R 4.1+ 使 SparkR 测试通过
  • [ ​​SPARK-35575​​ ] - 在 GitHub Actions 中恢复更新构建状态
  • [ ​​SPARK-35576​​ ] - 在 Set 命令的结果中编辑敏感信息
  • [ ​​SPARK-35581​​ ] - 将特殊字符串转换为 DATE/TIMESTAMP 会返回不一致的结果
  • [ ​​SPARK-35586​​ ] - 在 pom.xml 中为 spark.kubernetes.test.sparkTgz 设置默认值以进行 Kubernetes 集成测试
  • [ ​​SPARK-35589​​ ] - BlockManagerMasterEndpoint 在更新过程中不应忽略仅索引的 shuffle 文件
  • [ ​​SPARK-35602​​ ] - 作业因 java.io.UTFDataFormatException 崩溃:编码字符串太长
  • [ ​​SPARK-35610​​ ] - Spark 解释器中的内存泄漏
  • [ ​​SPARK-35613​​ ] - 缓存来自 SQLMetrics、JsonProtocol 和 AccumulatorV2 的常见字符串
  • [ ​​SPARK-35643​​ ] - functions.py column() 中的变量引用不明确
  • [ ​​SPARK-35652​​ ] - 不同行为加入与自加入中的 joinWith
  • [ ​​SPARK-35653​​ ] - [SQL] CatalystToExternalMap 解释路径失败,用于将案例类作为键或值的 Map
  • [ ​​SPARK-35659​​ ] - 避免向 StateStore 写入 null
  • [ ​​SPARK-35665​​ ] - 解决 CollectMetrics 中的 UnresolvedAlias
  • [ ​​SPARK-35669​​ ] - 使用过滤器下推修复 CSV 标头中的特殊字符
  • [ ​​SPARK-35673​​ ] - Spark 在子查询中出现无法识别的提示时失败
  • [ ​​SPARK-35679​​​ ] - 将有效时间戳转换​​为微秒时​​溢出
  • [ ​​SPARK-35700​​ ] - spark.sql.orc.filterPushdown 不适用于 Spark 3.1.1 的 varchar 数据类型表
  • [ ​​SPARK-35742​​ ] - Expression.semanticEquals 应该是对称的
  • [ ​​SPARK-35748​​ ] - 修复 StreamingJoinHelper 以能够处理日间时间间隔
  • [ ​​SPARK-35758​​ ] - 更新有关使用 Hadoop 为 Hadoop 2.x 和 3.x 构建 Spark 的文档
  • [ ​​SPARK-35765​​ ] - 不同的 aggs 不重复敏感
  • [ ​​SPARK-35767​​ ] - CoalesceExec 可以执行两次子计划
  • [ ​​SPARK-35783​​ ] - 在任务配置中设置读取列的列表以减少 ORC 数据的读取。
  • [ ​​SPARK-35798​​ ] - 修复 SparkPlan.sqlContext 使用
  • [ ​​SPARK-35817​​ ] - 对宽 Avro 表的查询可能很慢
  • [ ​​SPARK-35832​​ ] - 添加 LocalRootDirsTest 特性
  • [ ​​SPARK-35834​​ ] - 在可继承线程 API 中使用与 Py4J 相同的清理逻辑
  • [ ​​SPARK-35836​​ ] - 在 ShuffleBlockPusherSuite 中删除对 spark.shuffle.push.based.enabled 的引用
  • [ ​​SPARK-35841​​ ] - 如果数字总和大于 38,则将字符串转换为十进制类型不起作用
  • [ ​​SPARK-35842​​ ] - 忽略所有“.idea”目录
  • [ ​​SPARK-​​ 35845 ] - OuterReference 解析应该拒绝不明确的列名
  • [ ​​SPARK-35851​​ ] - GraphGenerators.sampleLogNormal 函数中的文档错误
  • [ ​​SPARK-35858​​ ] - SparkPlan.makeCopy 不应设置活动会话
  • [ ​​SPARK-35868​​ ] - 如果未设置,则添加 fs.s3a.downgrade.syncable.exceptions
  • [ ​​SPARK-35869​​ ] - 运行 do-release-docker.sh 时无法运行程序“python”错误
  • [ ​​SPARK-35870​​ ] - 将 Jetty 升级到 9.4.42
  • [ ​​SPARK-35876​​ ] - array_zip 意外的列名
  • [ ​​SPARK-35878​​ ] - 如果未设置且 fs.s3a.endpoint.region 为空,则添加 fs.s3a.endpoint
  • [ ​​SPARK-35879​​ ] - 修复了由 collectFetchRequests 引起的性能回归
  • [ ​​SPARK-35881​​ ] - [SQL] AQE 不支持最后查询阶段的列式执行
  • [ ​​SPARK-35885​​ ] - 使用 keyserver.ubuntu.com 作为 CRAN 的密钥服务器
  • [ ​​SPARK-35886​​ ] - 十进制类型的 Codegen 问题
  • [ ​​SPARK-35887​​ ] - 从 javac 位置查找并设置 JAVA_HOME
  • [ ​​SPARK-35898​​ ] - 使用 RowToColumnConverter 转换数组会触发断言
  • [ ​​SPARK-35905​​ ] - 修复 UT 以清理 SQLQuerySuite 中的表/视图
  • [ ​​SPARK-35909​​ ] - 修复 Spark SQL 指南中的文档错误 - 入门
  • [ ​​SPARK-35921​​ ] - 如果使用 SBT 构建,则不会编辑 config.properties 中的 ${spark.yarn.isHadoopProvided}
  • [ ​​SPARK-35935​​ ] - 表刷新时修复表失败
  • [ ​​SPARK-35950​​ ] - 无法在 executors 页面中切换 Exec Loss Reason
  • [ ​​SPARK-35955​​ ] - 修复平均值的小数溢出问题
  • [ ​​SPARK-35972​​ ] - 当在 NestedColumnAliasing 中替换 ExtractValue 时,我们应该使用 semanticEquals
  • [ ​​SPARK-35985​​ ] - 文件源 V2 在为空 readDataSchema 时忽略分区过滤器
  • [ ​​SPARK-35992​​ ] - 将 ORC 升级到 1.6.9
  • [ ​​SPARK-35994​​ ] - 从 branch-3.2 发布快照
  • [ ​​SPARK-35995​​ ] - 在 branch-3.2 上启用 GitHub Action build_and_test
  • [ ​​SPARK-36007​​ ] - 无法在 GA 中运行基准测试
  • [ ​​SPARK-36011​​ ] - 禁止基于临时视图或 UDF 更改永久视图
  • [ ​​SPARK-36012​​ ] - 显示创建表时丢失空标志信息
  • [ ​​SPARK-36020​​ ] - 检查删除冗余项目中的逻辑链接
  • [ ​​SPARK-36052​​ ] - 在 K8s 上引入 Spark 的待处理 pod 限制
  • [ ​​SPARK-36067​​ ] - YarnClusterSuite 由于 NoClassDefFoundError 失败,除非明确激活 hadoop-3.2 配置文件
  • [ ​​SPARK-36068​​ ] - 除非明确激活 hadoop-3.2 配置文件,否则在 hadoop-cloud 运行中没有测试
  • [ ​​SPARK-36079​​ ] - 基于 Null 的过滤器估计值应始终为非负值
  • [ ​​SPARK-36081​​ ] - 更新有关演员修剪字符行为变化的文档
  • [ ​​SPARK-​​ 36128 ] - CatalogFileIndex.filterPartitions 应该尊重 spark.sql.hive.metastorePartitionPruning
  • [ ​​SPARK-36129​​ ] - 将 commons-compress 升级到 1.21 以处理 CVE
  • [ ​​SPARK-36130​​ ] - 当 in.list 包含 CheckOverflow 表达式时,UnwrapCastInBinaryComparison 失败
  • [ ​​SPARK-36159​​ ] - 在 dev/test-dependencies.sh 中将“python”替换为“python3”
  • [ ​​SPARK-36193​​ ] - 恢复 SparkSubmit.runMain 不会在非 K8s 环境中停止 SparkContext
  • [ ​​SPARK-36195​​ ] - 将 MaxMetaspaceSize JVM 选项设置为 2g
  • [ ​​SPARK-36197​​ ] - 不遵守 PartitionDesc 的 InputFormat
  • [ ​​SPARK-36209​​ ] - https://spark.apache.org/docs/latest/sql-programming-guide.html 包含无效的 Python 文档链接
  • [ ​​SPARK-36210​​ ] - 在 Dataset.withColumns 中保留列插入顺序
  • [ ​​SPARK-36211​​ ] - `F.udf(...).asNonDeterministic() 的类型检查失败
  • [ ​​SPARK-36213​​ ] - 使用 PartitionSpec 规范化 DescTable 的 PartitionSpec
  • [ ​​SPARK-36225​​ ] - 引用不存在的数据集类的 python 文档字符串
  • [ ​​SPARK-36228​​ ] - 当某些 mapStatus 为 null 时跳过拆分 reducer 分区
  • [ ​​SPARK-36229​​ ] - conv() 不一致地处理具有 > 64 个无效字符的无效字符串
  • [ ​​SPARK-36242​​ ] - 在 ExternalSorter.spillMemoryIteratorToDisk 方法中将成功设置为 true 之前确保溢出文件已关闭
  • [ ​​SPARK-36244​​ ] - 将 zstd-jni 升级到 1.5.0-3 以避免有关缓冲区大小计算的错误
  • [ ​​SPARK-36246​​ ] - 带有 GHA 的 WorkerDecommissionExtendedSuite 薄片
  • [ ​​SPARK-36247​​ ] - 检查 char/varchar 的字符串长度并在 UPDATE/MERGE 命令中应用类型强制
  • [ ​​SPARK-36262​​ ] - 将 ZSTD-JNI 升级到 1.5.0-4
  • [ ​​SPARK-36268​​ ] - 将 mypy 版本的下限设置为 0.910
  • [ ​​SPARK-36273​​ ] - 相同值的比较
  • [ ​​SPARK-36275​​ ] - ResolveAggregateFunctions 应该与嵌套字段一起使用
  • [ ​​SPARK-36310​​ ] - 修复 IndexOpsMixin 中的 hasnan() 窗口函数
  • [ ​​SPARK-36315​​ ] - 如果 AQEShuffleReadRule 违反分发要求,则仅在最后阶段跳过它
  • [ ​​SPARK-36339​​ ] - aggsBuffer 应该收集地图范围内的 AggregateExpression
  • [ ​​SPARK-36352​​ ] - Spark 应该检查结果计划的输出模式名称
  • [ ​​SPARK-36354​​ ] - EventLogFileReaders 不应该在没有事件日志文件的情况下抱怨
  • [ ​​SPARK-36372​​ ] - ALTER TABLE ADD COLUMNS 应该检查 v2 命令的指定列的重复项
  • [ ​​SPARK-36379​​ ] - JSON 数组根级别的 Null 导致解析失败(w/permissive 模式)
  • [ ​​SPARK-36381​​ ] - ALTER TABLE ADD/RENAME COLUMNS 检查存在不使用 v2 命令区分大小写。
  • [ ​​SPARK-36383​​ ] - 在执行程序关闭期间抛出 NullPointerException
  • [ ​​SPARK-36389​​ ] - 在 ShuffleBlockId 中恢复接受负 mapId 的更改
  • [ ​​SPARK-36391​​ ] - 当获取块抛出 NPE 时,改进错误消息
  • [ ​​SPARK-36398​​ ] - 编辑 Spark Thrift Server 日志中的敏感信息
  • [ ​​SPARK-36400​​ ] - 在 Spark Thrift Server UI 中编辑敏感信息
  • [ ​​SPARK-36421​​ ] - 验证所有 SQL 配置以防止错误使用 ConfigEntry
  • [ ​​SPARK-36428​​ ] - 'make_timestamp' 的 'seconds' 参数应该接受整数类型
  • [ ​​SPARK-36429​​ ] - 当数据类型不受支持时,JacksonParser 应该抛出异常。
  • [ ​​SPARK-36430​​ ] - 在 AQE 中合并混洗分区时自适应地计算目标大小
  • [ ​​SPARK-36432​​ ] - 将 Jetty 版本升级到 9.4.43
  • [ ​​SPARK-36440​​ ] - Spark3 无法读取混合格式的 hive 表
  • [ ​​SPARK-36441​​ ] - 在 GA 上下载 lintr 依赖项失败
  • [ ​​SPARK-36447​​ ] - 避免使用 CTE 内联非确定性
  • [ ​​SPARK-36449​​ ] - ALTER TABLE REPLACE COLUMNS 应检查 v2 命令的指定列的重复项
  • [ ​​SPARK-36454​​ ] - 不将分区过滤器下推到 DSv2 的 ORCScan
  • [ ​​SPARK-36463​​ ] - 在会话窗口的本机支持中禁止更新模式
  • [ ​​SPARK-36464​​ ] - 修复 ChunkedByteBufferOutputStream 中用于写入超过 2GB 数据的底层大小变量初始化
  • [ ​​SPARK-36466​​ ] - 视图引用的卸载目录中的表应该正确加载
  • [ ​​SPARK-36480​​ ] - SessionWindowStateStoreSaveExec 不应根据水印过滤输入行
  • [ ​​SPARK-36483​​ ] - 修复由于 netty 依赖版本碰撞导致的间歇性测试失败
  • [ ​​SPARK-36489​​ ] - 在没有分组键的情况下聚合函数,在具有单个存储桶的表上返回多行
  • [ ​​SPARK-36500​​ ] - 任务中断时不会清除 temp_shuffle 文件
  • [ ​​SPARK-36501​​ ] - LSHModel.approxSimilarityJoin 可以生成无效的列名
  • [ ​​SPARK-36532​​ ] - CoarseGrainedExecutorBackend.onDisconnected 中的死锁
  • [ ​​SPARK-36551​​ ] - 在 Spark 发布 Dockerfile 中添加 sphinx-plotly-directive
  • [ ​​SPARK-36552​​ ] - varchar 数据类型在 hive 表和数据源表上的行为不同
  • [ ​​SPARK-36564​​ ] - LiveRDDDDistribution.toApi 抛出 NullPointerException
  • [ ​​SPARK-36574​​ ] - pushDownPredicate=false 应该防止将过滤器下推到 JDBC 数据源
  • [ ​​SPARK-36585​​ ] - 支持在 FunctionRegistry 中设置“since”版本
  • [ ​​SPARK-36590​​ ] - 应在会话 tz 中转换特殊的 timestamp_ntz 值
  • [ ​​SPARK-36594​​ ] - ORC 矢量化阅读器应正确检查最大字段数
  • [ ​​SPARK-36603​​ ] - 在 LevelDB 中使用 Wea​​kReference 而非 SoftReference 以避免保留迭代器引用
  • [ ​​SPARK-36619​​ ] - HDFSBackedStateStore 和 RocksDBStateStore 存在前缀扫描错误
  • [ ​​SPARK-36639​​ ] - 带有间隔的 SQL 序列函数在最新版本中返回意外错误
  • [ ​​SPARK-36667​​ ] - 在 StateStoreSuite/RocksDBStateStoreSuite 中正确关闭资源
  • [ ​​SPARK-36669​​ ] - 无法加载 Lz4 编解码器
  • [ ​​SPARK-36673​​ ] - 字段名称大小写不匹配的结构联合不正确
  • [ ​​SPARK-36677​​ ] - NestedColumnAliasing 将聚合函数下推到投影中
  • [ ​​SPARK-36684​​ ] - 使用 hadoop-2.7 配置文件测试 sql/core 模块时清理“无法加载文件系统”警告日志
  • [ ​​SPARK-36686​​ ] - 将 SimplifyConditionalsInPredicate 修复为空安全
  • [ ​​SPARK-36696​​ ] - spark.read.parquet 加载空数据集
  • [ ​​SPARK-36700​​ ] - 由于延迟删除 BlockManager,BlockManager 重新注册被破坏
  • [ ​​SPARK-36704​​ ] - 启动时 Java 9+ 中的 InaccessibleObjectException
  • [ ​​SPARK-36715​​ ] - 爆炸(UDF)抛出异常
  • [ ​​SPARK-36717​​ ] - 错误的变量初始化顺序可能会导致错误的行为
  • [ ​​SPARK-36722​​ ] - 考拉中的更新功能问题 - pyspark pandas。
  • [ ​​SPARK-​​ 36725 ] - 确保 HiveThriftServer2Suites 在退出时停止 Thrift JDBC 服务器
  • [ ​​SPARK-36726​​ ] - 将 Parquet 升级到 1.12.1
  • [ ​​SPARK-36732​​ ] - 将 ORC 升级到 1.6.11
  • [ ​​SPARK-36738​​ ] - 关于 Cot API 的错误描述
  • [ ​​SPARK-36740​​ ] - 集合操作符应该处理重复的 NaN
  • [ ​​SPARK-36764​​​ ] - 在​​KafkaContinuousTest 中​​修复“确保使用连续流”的竞争条件
  • [ ​​SPARK-36772​​ ] - 由于尝试 ID 不匹配,FinalizeShuffleMerge 失败并出现异常
  • [ ​​SPARK-36782​​ ] - 迁移 shuffle 块时 map-output-dispatcher 和 dispatcher-BlockManagerMaster 之间的死锁
  • [ ​​SPARK-36783​​ ] - ScanOperation 不应通过非确定性项目推送过滤器
  • [ ​​SPARK-36789​​ ] - 使用正确的常量类型作为数组函数中的空值持有者
  • [ ​​SPARK-36803​​ ] - ClassCastException:读取旧 Parquet 文件时可选的 int32 col-0 不是一个组
  • [ ​​SPARK-36806​​ ] - 在 K8s R 镜像中使用 R 4.0.4
  • [ ​​SPARK-36827​​ ] - 任务/阶段/作业数据保留在内存中导致内存泄漏
  • [ ​​SPARK-36835​​ ] - Spark 3.2.0 POM 不再“依赖减少”
  • [ ​​SPARK-36836​​ ] - bit_length 为 224 的“sha2”表达式返回不正确的结果
  • [ ​​SPARK-36856​​ ] - 通过“./build/mvn”构建可能会卡在 MacOS 上
  • [ ​​SPARK-36873​​ ] - 为 network-yarn 模块添加提供的 Guava 依赖项
  • [ ​​SPARK-36874​​ ] - 仅在正确的数据帧上检测到不明确的自联接
  • [ ​​SPARK-36892​​ ] - 启用基于推送的洗牌时禁用洗牌的批量提取
  • [ ​​SPARK-36907​​ ] - Spark 上的 Pandas API:DataFrameGroupBy.apply 在返回 Series 时引发异常。
  • [ ​​SPARK-36926​​ ] - Spark 3.2 的 TPCH Q22 中的差异
  • [ ​​SPARK-36979​​ ] - 将 RewriteLateralSubquery 规则添加到 nonExcludableRules 中
  • [ ​​SPARK-37030​​ ] - Maven 构建在 Windows 中失败!

New Feature

Story

Improvement

Test

Task

Dependency upgrade

Umbrella

Documentation