Apache Spark 官方在 2021 年 10 月 13 日发布了 3.2.0 版本,Jira release 页面点击:链接。以下是 Release Notes,供参考:
Sub-task
- [ SPARK-26164 ] - [SQL] 允许 FileFormatWriter 写入多个分区/存储桶而无需排序
- [ SPARK-26341 ] - 在 Stages 选项卡中公开阶段级别的执行程序内存指标
- [ SPARK-26346 ] - 将 parquet 升级到 1.11.1
- [ SPARK-26399 ] - 定义查询参数以支持 REST API 中所有阶段的各种过滤条件
- [ SPARK-27733 ] - 升级到 Avro 1.10.1
- [ SPARK-27793 ] - 添加 ANSI SQL 日间和年月间隔类型
- [ SPARK-28123 ] - 字符串函数:添加支持 btrim
- [ SPARK-28227 ] - Spark 不能通过聚合支持 TRANSFORM
- [ SPARK-28379 ] - 必须聚合相关的标量子查询
- [ SPARK-30186 ] - 在自适应执行中支持动态分区修剪
- [ SPARK-30789 ] - LEAD/LAG/NTH_VALUE/FIRST_VALUE/LAST_VALUE 支持 (IGNORE | RESPECT) NULL
- [ SPARK-31168 ] - 将 Scala 升级到 2.12.14
- [ SPARK-31816 ] - 为用户/开发人员创建有关 JDBC 连接提供程序的高级描述
- [ SPARK-31937 ] - 支持使用 spark noserde 模式处理数组/映射/结构类型
- [ SPARK-31946 ] - 无法在 MacOS 上注册 SIGPWR 处理程序
- [ SPARK-32106 ] - 在 sql/core 中实现脚本转换
- [ SPARK-32194 ] - 标准化 PySpark 中的异常
- [ SPARK-32577 ] - 修复了测试 in-joins.sql 中混洗哈希连接的配置值
- [ SPARK-32684 ] - 为 hive serde/default-serde 模式的空值 '\\N' 添加一个测试用例
- [ SPARK-32685 ] - 脚本转换 hive serde 默认 field.delimit 是 '\t'
- [ SPARK-32792 ] - 改进 ParquetFilters 的过滤器下推
- [ SPARK-32910 ] - 从 KafkaOffsetReader 中删除 UninterruptibleThread 使用
- [ SPARK-32917 ] - 添加对执行器的支持以在成功完成 map 任务后推送 shuffle 块
- [ SPARK-32920 ] - 在 Spark 驱动程序中添加支持,以协调给定 shuffle 的基于推送的 shuffle 中的 push/merge 阶段的最终确定和 reduce 阶段的启动
- [ SPARK-32921 ] - 扩展 MapOutputTracker 以支持在基于推送的洗牌场景中为给定的洗牌跟踪和提供有关每个合并洗牌分区的元数据
- [ SPARK-32922 ] - 添加对 ShuffleBlockFetcherIterator 的支持,以从合并的 shuffle 分区读取并在遇到故障时回退到原始 shuffle 块
- [ SPARK-32923 ] - 添加支持以正确处理不同类型的阶段重试
- [ SPARK-32968 ] - CsvToStructs 的列修剪
- [ SPARK-33229 ] - 需要支持部分 CUBE/ROLLUP/GROUPING SETS 和混合大小写
- [ SPARK-33233 ] - CUBE/ROLLUP 不能支持 UnresolvedOrdinal
- [ SPARK-33245 ] - 添加内置 UDF - GETBIT
- [ SPARK-33295 ] - 将 ORC 升级到 1.6.6
- [ SPARK-33298 ] - 向 FileCommitProtocol 引入新的 API 允许灵活的文件命名
- [ SPARK-33308 ] - 支持 CUBE(...) 和 ROLLUP(...), GROUPING SETS(...) 在解析器级别按 expr 分组
- [ SPARK-33350 ] - 添加对 DiskBlockManager 的支持以创建合并目录并获取本地 shuffle 合并数据
- [ SPARK-33443 ] - LEAD/LAG 应该支持 [ IGNORE NULLS | 尊重空值]
- [ SPARK-33541 ] - 在 catalyst/expressions 中组异常消息
- [ SPARK-33542 ] - 在 catalyst/catalog 中分组异常消息
- [ SPARK-33599 ] - 在 catalyst/analysis 中组异常消息
- [ SPARK-33600 ] - 在 execution/datasources/v2 中对异常消息进行分组
- [ SPARK-33601 ] - 在 execution/datasources 中分组异常消息
- [ SPARK-33602 ] - 在执行/数据源中对异常消息进行分组
- [ SPARK-33603 ] - 在执行/命令中对异常消息进行分组
- [ SPARK-33604 ] - 在 sql/execution 中分组异常消息
- [ SPARK-33654 ] - 将缓存表迁移到新的解析框架
- [ SPARK-33664 ] - 迁移 ALTER TABLE ... RENAME TO 到新的解析框架
- [ SPARK-33671 ] - 从 V1 表命令中删除 VIEW 检查
- [ SPARK-33673 ] - 不要将分区过滤器下推到 ParquetScan for DataSourceV2
- [ SPARK-33679 ] - 默认启用 spark.sql.adaptive.enabled true
- [ SPARK-33685 ] - 将 DROP VIEW 迁移到新的分辨率框架
- [ SPARK-33687 ] - ANALYZE 命令支持分析特定数据库中的所有表
- [ SPARK-33688 ] - 将显示表扩展到新的分辨率框架
- [ SPARK-33696 ] - 将内置 Hive 升级到 2.3.8
- [ SPARK-33703 ] - 将 MSCK 修复表迁移到新的解析框架
- [ SPARK- 33711 ] - Spark k8s Pod 生命周期管理器中的竞争条件导致关闭
- [ SPARK-33714 ] - 将 ALTER VIEW ... SET/UNSET TBLPROPERTIES 迁移到新的分辨率框架
- [ SPARK-33716 ] - 在 Pod 快照期间解除竞争条件
- [ SPARK-33723 ] - ANSI 模式:将字符串转换为日期应该在解析错误时抛出异常
- [ SPARK-33730 ] - 标准化警告类型
- [ SPARK-33751 ] - 将 ALTER VIEW ... AS 命令迁移到新的分辨率框架
- [ SPARK- 33765 ] - 将 UNCACHE TABLE 迁移到新的解析框架
- [ SPARK-33766 ] - 将 Jackson 升级到 2.11.4
- [ SPARK-33767 ] - 统一 v1 和 v2 ALTER TABLE .. DROP PARTITION 测试
- [ SPARK-33768 ] - 从 AlterTableDropPartition 中删除未使用的参数 `retainData`
- [ SPARK-33771 ] - 在 JDK 14 上测试时修复了 HourOfAmPm 的无效值
- [ SPARK-33779 ] - 数据源 V2:用于在写入时请求分发和排序的 API
- [ SPARK-33785 ] - 迁移 ALTER TABLE ... 恢复分区到新的解析框架
- [ SPARK-33787 ] - 支持通过“SupportsPartitionManagement”清除分区
- [ SPARK-33788 ] - 从 HiveExternalCatalog.dropPartitions() 抛出 NoSuchPartitionsException
- [ SPARK-33789 ] - 重构统一的 V1 和 V2 数据源测试
- [ SPARK-33794 ] - 在 ANSI 模式下接收无效输入时,next_day 函数应该抛出运行时异常
- [ SPARK-33798 ] - 添加新规则以通过 CaseWhen/If 向下推可折叠表达式
- [ SPARK-33808 ] - DataSource V2:在优化器中构建逻辑写入
- [ SPARK-33815 ] - 将 ALTER TABLE SET [SERDE|SERDEPROPERTIES] 命令迁移到新的解析框架
- [ SPARK-33838 ] - 在 DropTable 和 AlterTableDropPartition 中添加关于“PURGE”的评论
- [ SPARK-33844 ] - InsertIntoDir 失败,因为查询列名包含 ',' 导致列类型和列名大小不相等
- [ SPARK-33845 ] - 改进 SimplifyConditionals
- [ SPARK-33847 ] - 如果所有分支都是 FalseLiteral,则在 CaseWhen 中替换 None of elseValue
- [ SPARK-33848 ] - 将一元表达式推入(if / case)分支
- [ SPARK-33849 ] - 统一 v1 和 v2 DROP TABLE 测试
- [ SPARK-33856 ] - 将 ALTER TABLE ... RENAME TO PARTITION 命令迁移到新的解析框架
- [ SPARK-33858 ] - 统一 v1 和 v2 ALTER TABLE ..重命名分区测试
- [ SPARK-33859 ] - 支持 V2 ALTER TABLE .. 重命名分区
- [ SPARK-33861 ] - 简化谓词中的条件
- [ SPARK-33862 ] - 如果目标分区存在于 Hive v1 表目录中,则抛出 `PartitionAlreadyExistsException`
- [ SPARK- 33865 ] - 当 HiveDDL 时,我们也需要像 parquet 和 orc 一样检查 avro 模式
- [ SPARK-33875 ] - 为 v2 目录实现 DESCRIBE COLUMN
- [ SPARK-33878 ] - v1 Hive 目录的测试“SPARK-33305:DROP TABLE 也应该使缓存无效”失败
- [ SPARK-33881 ] - 在 v1 和 v2 测试中检查 null 和空字符串作为分区值
- [ SPARK-33882 ] - 添加矢量化 BLAS 实现
- [ SPARK-33884 ] - 用(真和假)和(假和真)简化 CaseWhenclauses
- [ SPARK-33886 ] - UnresolvedTable 应保留 SQL 文本位置
- [ SPARK-33898 ] - 在 v2 中支持 SHOW CREATE TABLE
- [ SPARK-33904 ] - 在 `saveAsTable()` 和 `insertInto()` 中识别 `spark_catalog`
- [ SPARK-33913 ] - 将 Kafka 升级到 2.8.0
- [ SPARK-33914 ] - 描述统一 v1 和 v2 测试的结构
- [ SPARK-33918 ] - UnresolvedView 应保留 SQL 文本位置
- [ SPARK-33919 ] - 统一 v1 和 v2 SHOW NAMESPACES 测试
- [ SPARK-33924 ] - v2 INSERT INTO .. PARTITION 删除分区位置
- [ SPARK-33926 ] - 改进了解析 DSv1 多部分标识符时的错误消息
- [ SPARK-33930 ] - Spark SQL 无 serde 行格式字段分隔默认为 '\u0001'
- [ SPARK-33933 ] - AQE 中意外发生广播超时
- [ SPARK-33934 ] - 支持用户定义的脚本命令包装器以获得更多用例
- [ SPARK-33950 ] - ALTER TABLE .. DROP PARTITION 不刷新缓存
- [ SPARK-33954 ] - 启用 CBO 时,某些运算符缺少 rowCount
- [ SPARK-33956 ] - 为 Range 运算符添加 rowCount
- [ SPARK-33957 ] - 将 commons-lang3 更新到 3.11
- [ SPARK-33959 ] - 改进尾部的统计估计
- [ SPARK-33965 ] - CACHE TABLE 不支持 Hive 表名中的 `spark_catalog`
- [ SPARK-33976 ] - 为 TRANSFORM 相关功能添加专用 SQL 文档页面,
- [ SPARK-33978 ] - 在 ORC 数据源中支持 ZSTD 压缩
- [ SPARK-33985 ] - 使用 clusterby/orderby/sortby 进行转换
- [ SPARK-33987 ] - v2 ALTER TABLE .. DROP PARTITION 不刷新缓存表
- [ SPARK-33996 ] - 升级 checkstyle 插件
- [ SPARK-34011 ] - ALTER TABLE .. RENAME TO PARTITION 不会刷新缓存
- [ SPARK-34026 ] - DataSource V2:注入重新分区和排序节点以满足所需的分布和排序
- [ SPARK-34027 ] - ALTER TABLE .. RECOVER PARTITIONS 不刷新缓存
- [ SPARK-34031 ] - 启用 CBO 时联合运算符缺少 rowCount
- [ SPARK-34035 ] - 重构 ScriptTransformation 以删除输入参数并将其替换为 child.output
- [ SPARK-34036 ] - 更新 ORC 数据源文档
- [ SPARK-34039 ] - [DSv2] ReplaceTable 应该使缓存无效
- [ SPARK-34048 ] - 检查对 Hive 外部目录的调用量
- [ SPARK-34049 ] - 数据源 V2:在 StreamExecution 中使用写抽象
- [ SPARK-34052 ] - 删除表后,缓存视图应变为无效
- [ SPARK-34054 ] - BlockManagerDecommissioner 清理
- [ SPARK-34055 ] - ALTER TABLE .. ADD PARTITION 不刷新缓存
- [ SPARK-34056 ] - 统一 v1 和 v2 ALTER TABLE .. RECOVER PARTITIONS 测试
- [ SPARK-34057 ] - UnresolvedTableOrView 应保留 SQL 文本位置
- [ SPARK-34060 ] - ALTER TABLE .. DROP PARTITION 在更新表统计信息时取消缓存Hive 表
- [ SPARK-34071 ] - 更改后检查缓存表的统计信息
- [ SPARK-34096 ] - 提高 nth_value 的性能,忽略偏移窗口上的空值
- [ SPARK-34110 ] - 将 ZooKeeper 升级到 3.6.2
- [ SPARK-34119 ] - 分区修剪后保留必要的统计信息
- [ SPARK-34121 ] - 启用 CBO 时,将缺少 rowCount 的运算符相交
- [ SPARK-34138 ] - 在刷新 v1 表时保持从属缓存
- [ SPARK-34139 ] - UnresolvedRelation 应保留 SQL 文本位置
- [ SPARK-34149 ] - DSv2:`ALTER TABLE .. ADD PARTITION` 不刷新表缓存
- [ SPARK-34152 ] - CreateViewStatement.child 应该是一个真正的孩子
- [ SPARK-34157 ] - 统一显示表的输出并正确传递输出属性
- [ SPARK-34161 ] - 在表更改后检查 v2 表依赖项的重新缓存
- [ SPARK-34168 ] - 在应用 AQE 规则之前,当加入是广播哈希加入时,支持 AQE 中的 DPP
- [ SPARK-34176 ] - 在 Scala 2.13 中独立测试 sql/hive 模块时 Java UT 失败
- [ SPARK-34215 ] - 截断后保持表缓存
- [ SPARK-34218 ] - 添加 Scala 2.13 打包和发布
- [ SPARK-34237 ] - 为对象哈希聚合添加更多指标(回退、溢出)
- [ SPARK-34238 ] - 统一显示分区的输出正确传递输出属性
- [ SPARK-34239 ] - 正确统一显示列的输出传递输出属性
- [ SPARK-34240 ] - 统一显示 TBLPROPERTIES 的输出正确传递输出属性
- [ SPARK-34241 ] - 将命令的生产属性设为输出
- [ SPARK-34249 ] - 添加 ANSI 隐式转换规则的文档
- [ SPARK-34253 ] - 如果没有更多输入行,对象哈希聚合不应回退
- [ SPARK-34266 ] - 更新`SessionCatalog.refreshTable()` 和`CatalogImpl.refreshTable()` 的注释
- [ SPARK-34267 ] - 从 `SessionState` 中删除 `refreshTable()`
- [ SPARK-34282 ] - 统一 v1 和 v2 TRUNCATE TABLE 测试
- [ SPARK-34289 ] - 矢量化阅读器支持列索引
- [ SPARK-34290 ] - 支持 v2 截断表
- [ SPARK-34301 ] - 在`CatalogImpl.recoverPartitions()`中使用alter table的逻辑计划
- [ SPARK-34302 ] - 将 ALTER TABLE .. CHANGE COLUMN 迁移到新的分辨率框架
- [ SPARK-34303 ] - 迁移 ALTER TABLE ... 将位置设置为新的分辨率框架
- [ SPARK-34304 ] - 在 v1 alter table 命令中删除视图检查
- [ SPARK-34312 ] - 通过“SupportsPartitionManagement”支持分区截断
- [ SPARK-34313 ] - 将 ALTER TABLE SET/UNSET TBLPROPERTIES 命令迁移到新的解析框架
- [ SPARK-34320 ] - 将 ALTER TABLE drop columns 命令迁移到新的解析框架
- [ SPARK-34323 ] - 将 zstd-jni 升级到 1.4.8-3
- [ SPARK-34334 ] - ExecutorPodsAllocator 在缩减过程中无法识别一些多余的请求
- [ SPARK-34340 ] - 支持 ZSTD JNI BufferPool
- [ SPARK-34347 ] - CatalogImpl.uncacheTable 应该在级联中对临时视图无效
- [ SPARK-34360 ] - 通过 v2 表目录支持表截断
- [ SPARK-34363 ] - 允许用户配置最大数量的远程 shuffle 块存储
- [ SPARK-34366 ] - 向 DS v2 添加公制接口
- [ SPARK-34382 ] - ANSI SQL:横向派生表(T491)
- [ SPARK-34387 ] - 添加 ZStandardBenchmark
- [ SPARK-34390 ] - 默认启用 Zstandard 缓冲池
- [ SPARK-34393 ] - 统一显示视图的输出并正确传递输出属性
- [ SPARK-34394 ] - 统一显示功能的输出并正确传递输出属性
- [ SPARK-34401 ] - 更新有关更改缓存表/视图的公共文档
- [ SPARK-34402 ] - 关于数据格式模式的组异常
- [ SPARK-34418 ] - 检查 v1 TRUNCATE TABLE 保留分区
- [ SPARK-34450 ] - 统一 v1 和 v2 ALTER TABLE ..重命名测试
- [ SPARK-34465 ] - 重命名变更表执行节点
- [ SPARK-34468 ] - 修复 v2 ALTER TABLE .. 重命名为
- [ SPARK-34469 ] - SparkContext 停止时忽略 RegisterExecutor
- [ SPARK-34475 ] - 重命名 v2 逻辑节点
- [ SPARK-34479 ] - 将 zstandard 编解码器添加到 spark.sql.avro.compression.codec
- [ SPARK-34487 ] - K8s 集成测试应使用运行时 Hadoop 版本
- [ SPARK-34488 ] - 在指定阶段的 REST API 调用中支持任务指标分布和执行器指标分布
- [ SPARK-34492 ] - 为数据源文档创建“CSV 文件”页面。
- [ SPARK-34493 ] - 为数据源文档创建“文本文件”页面。
- [ SPARK-34494 ] - 将 JSON 数据源选项从 Python 和 Scala 移动到单个页面中。
- [ SPARK-34496 ] - 将 ZSTD-JNI 升级到 1.4.8-5 以兼容 API
- [ SPARK-34498 ] - 修复 SPARK-34432 中的剩余问题
- [ SPARK-34503 ] - 默认情况下将 zstd 用于 spark.eventLog.compression.codec
- [ SPARK-34505 ] - 将 Scala 升级到 2.13.5
- [ SPARK-34507 ] - 针对 Scala 2.13 构建的 Spark 人工制品错误地依赖于 Scala 2.12
- [ SPARK-34533 ] - 在 AQE 中消除 LEFT ANTI 连接到空关系
- [ SPARK-34538 ] - Hive Metastore 支持过滤器 not-in
- [ SPARK-34543 ] - 在 V1 ALTER TABLE .. SET LOCATION 中尊重区分大小写
- [ SPARK-34546 ] - 应在分析阶段分析 AlterViewAs.query
- [ SPARK-34554 ] - 在ColumnarMap 中实现 copy() 方法
- [ SPARK-34557 ] - 排除 Avro 的传递性 zstd-jni 依赖
- [ SPARK-34559 ] - 升级到 ZSTD JNI 1.4.8-6
- [ SPARK-34561 ] - 无法从 v2 `DESCRIBE TABLE` 的数据集删除/添加列
- [ SPARK-34574 ] - Jekyll 无法为 Scala 2.13 生成 Scala API 文档
- [ SPARK-34577 ] - 无法从 v2 `DESCRIBE NAMESPACE` 的数据集删除/添加列
- [ SPARK-34593 ] - 保留广播嵌套循环连接输出分区和排序
- [ SPARK-34605 ] - 支持 java.time.Duration 作为白天时间间隔类型的外部类型
- [ SPARK-34614 ] - ANSI 模式:将字符串转换为布尔值应该在解析错误时抛出异常
- [ SPARK-34615 ] - 支持 java.time.Period 作为年月间隔类型的外部类型
- [ SPARK-34619 ] - 更新有关日间和年月间隔类型的 Spark SQL 指南
- [ SPARK-34620 ] - 代码生成广播嵌套循环连接(内部/交叉)
- [ SPARK-34621 ] - 统一 ShowCreateTableAsSerdeCommand ShowCreateTableCommand 的输出
- [ SPARK-34630 ] - 添加 pyspark.__version__ 和 pyspark.sql.Column.contains 的类型提示
- [ SPARK-34637 ] - 当广播交换可以重用时,在 AQE 中支持 DPP
- [ SPARK-34647 ] - 将 ZSTD-JNI 升级到 1.4.8-7 并使用 NoFinalizer 类
- [ SPARK-34650 ] - 从 Kafka 客户端排除 zstd-jni 传递依赖
- [ SPARK-34663 ] - 在 UDF 中测试年-月和日-时间间隔
- [ SPARK-34666 ] - 将 DayTimeIntervalType/YearMonthIntervalType 测试为有序和原子类型
- [ SPARK-34667 ] - 支持将年月间隔转换为字符串
- [ SPARK-34668 ] - 支持将白天时间间隔转换为字符串
- [ SPARK-34670 ] - 将 ZSTD-JNI 升级到 1.4.9-1
- [ SPARK-34677 ] - 支持 ANSI SQL 区间的加减
- [ SPARK-34682 ] - CustomShuffleReaderExec中“规范化计划操作”检查中的回归
- [ SPARK-34695 ] - 从微到持续时间的往返转换中溢出
- [ SPARK-34699 ] - “使用创建临时视图”应该使用 TemporaryViewRelation 来存储临时视图
- [ SPARK-34700 ] - SessionCatalog 的 createTempView/createGlobalTempView 应该接受 TemporaryViewRelation
- [ SPARK-34701 ] - 在 CreateViewCommand 中再次删除分析临时视图
- [ SPARK-34702 ] - 避免在 JoinCodegenSupport.genBuildSideVars 中生成不必要的代码
- [ SPARK-34707 ] - 代码生成广播嵌套循环连接(左外/右外)
- [ SPARK-34708 ] - 代码生成广播嵌套循环连接(左半/左反)
- [ SPARK-34711 ] - 在加入测试套件中练习代码生成启用/禁用 SHJ 的代码路径
- [ SPARK-34715 ] - 添加周期 <-> 月和持续时间 <->微秒的往返测试
- [ SPARK-34716 ] - 通过聚合函数 `sum` 支持 ANSI SQL 区间
- [ SPARK-34718 ] - 为 YearMonthIntervalType 和 DayTimeIntervalType 分配漂亮的名字
- [ SPARK-34721 ] - 将年月间隔添加到日期
- [ SPARK-34729 ] - 广播嵌套循环连接的执行速度更快(左半/反无条件)
- [ SPARK-34734 ] - 将 sbt 版本更新到 1.4.9
- [ SPARK-34739 ] - 向时间戳添加年月间隔
- [ SPARK-34741 ] - MergeIntoTable 应避免模棱两可的引用
- [ SPARK-34742 ] - ANSI 模式:如果输入超出范围,Abs 会抛出异常
- [ SPARK-34744 ] - 改进了铸造原因溢出错误的错误消息
- [ SPARK-34761 ] - 为时间戳添加一天的时间间隔
- [ SPARK-34769 ] - AnsiTypeCoercion:返回 TypeCollection 中最窄的可转换类型
- [ SPARK- 34786 ] - 将 parquet uint64 读取为十进制
- [ SPARK-34790 ] - 启用 i/o 加密时,批量获取 shuffle 块失败。
- [ SPARK-34793 ] - 禁止保存日间和年月间隔
- [ SPARK-34797 ] - 重构物流聚合器 - 支持虚拟居中
- [ SPARK-34817 ] - 读取 parquet uint8/16/32 逻辑类型
- [ SPARK-34824 ] - 用数字乘以年月间隔
- [ SPARK-34837 ] - 通过聚合函数 `avg` 支持 ANSI SQL 间隔
- [ SPARK-34840 ] - 修复了推送的合并洗牌块中的损坏情况
- [ SPARK-34841 ] - 将 ANSI 区间二进制表达式推入 (if / case) 分支
- [ SPARK-34850 ] - 用数字乘以日间时间间隔
- [ SPARK-34856 ] - ANSI 模式:允许将复杂类型转换为字符串类型
- [ SPARK-34858 ] - 具有拦截支持中心的二元逻辑回归
- [ SPARK-34860 ] - 具有拦截支持中心的多项 Logistic 回归
- [ SPARK-34862 ] - 支持 Spark ORC 向量化阅读器中的嵌套列
- [ SPARK-34868 ] - 按数字划分年月间隔
- [ SPARK-34875 ] - 按数字划分日间时间间隔
- [ SPARK-34878 ] - 测试年-月和日-时间间隔的实际大小
- [ SPARK-34879 ] - Hive 检查支持 DayTimeIntervalType 和 YearMonthIntervalType
- [ SPARK-34880 ] - 添加 Parquet ZSTD 压缩测试覆盖
- [ SPARK-34881 ] - 新 SQL 函数:TRY_CAST
- [ SPARK-34886 ] - 将 Koalas DataFrame 单元测试移植/集成到 PySpark
- [ SPARK-34887 ] - 将 Koalas 依赖项移植/集成到 PySpark 中
- [ SPARK-34888 ] - 引入 UpdatingSessionIterator 调整元素的会话信息
- [ SPARK-34889 ] - 引入 MergingSessionsIterator 直接合并属于同一会话的元素
- [ SPARK-34890 ] - 将 Koalas 主要代码移植/集成到 PySpark 中
- [ SPARK-34891 ] - 在流查询中为会话窗口引入状态存储管理器
- [ SPARK-34892 ] - 引入 MergingSortWithSessionWindowStateIterator 对输入行和状态行进行高效排序
- [ SPARK-34893 ] - 支持本机会话窗口
- [ SPARK-34896 ] - 从日期减法中返回日间时间间隔
- [ SPARK-34898 ] - 适当地发送 ExecutorMetricsUpdate EventLog
- [ SPARK-34899 ] - 如果无法合并随机分区,请使用原始计划
- [ SPARK-34903 ] - 从时间戳减法中返回日间时间间隔
- [ SPARK-34905 ] - 在 SQLQueryTestSuite 中启用 ANSI 间隔
- [ SPARK-34911 ] - 修复 monitoring.md 中的代码关闭问题
- [ SPARK-34916 ] - 支持变换函数系列中的遍历修剪
- [ SPARK-34941 ] - 为 pandas-on-Spark 启用 mypy
- [ SPARK-34947 ] - 流式写入 V2 表应使其关联的缓存无效
- [ SPARK-34952 ] - DS V2 聚合下推
- [ SPARK-34954 ] - 在 ORC 文件名中使用 zstd 编解码器名称
- [ SPARK-34959 ] - 将 SBT 升级到 1.5.0
- [ SPARK-34972 ] - 使 doctests 在 Spark 中工作。
- [ SPARK-34974 ] - 改进子查询去相关框架
- [ SPARK-34976 ] - 将 GroupingSet 重命名为 GroupingAnalytic
- [ SPARK-34981 ] - 实现 V2 功能解析和评估
- [ SPARK-34983 ] - 将包别名从 pp 重命名为 ps
- [ SPARK-34984 ] - 配置单元结果中的 ANSI 间隔格式
- [ SPARK-34986 ] - 聚合序数应该判断它是否包含 agg 函数
- [ SPARK-34995 ] - 将 Koalas 剩余代码移植/集成到 PySpark 中
- [ SPARK-34996 ] - 将考拉系列相关单元测试移植到 PySpark
- [ SPARK-34999 ] - 整合 PySpark 测试工具
- [ SPARK-35012 ] - 将 Koalas DataFrame 相关单元测试移植到 PySpark
- [ SPARK-35016 ] - 以 Hive 风格格式化 ANSI 间隔
- [ SPARK-35017 ] - 通过 Hive Thrift 服务器传输 ANSI 间隔
- [ SPARK-35018 ] - 测试通过 Hive Thrift 服务器传输年月间隔
- [ SPARK-35019 ] - 改进 pyspark.sql.* 上的类型提示
- [ SPARK-35020 ] - 在催化剂/实用程序中分组异常消息
- [ SPARK-35021 ] - 连接器/目录中的组异常消息
- [ SPARK-35024 ] - 重构 LinearSVC - 支持虚拟居中
- [ SPARK-35025 ] - 将 Parquet 数据源选项从 Python 和 Scala 移动到单个页面中。
- [ SPARK-35026 ] - 支持在 GROUPING SETS 中使用 CUBE/ROLLUP
- [ SPARK-35031 ] - 将不同框架上的考拉操作移植到 PySpark 中
- [ SPARK-35032 ] - 端口考拉索引单元测试到 PySpark
- [ SPARK-35033 ] - Port Koalas 将单元测试绘制到 PySpark
- [ SPARK-35034 ] - 将 Koalas 杂项单元测试移植到 PySpark
- [ SPARK-35035 ] - 将 Koalas 内部实现单元测试移植到 PySpark
- [ SPARK-35037 ] - 在文本中的间隔字符串之前识别符号
- [ SPARK-35039 ] - 从主代码中删除 Spark 版本相关代码。
- [ SPARK-35040 ] - 从测试代码中删除 Spark 版本相关代码。
- [ SPARK-35043 ] - 支持 AnalysisHelper 解析函数中的遍历修剪
- [ SPARK-35048 ] - 将 GitHub Actions 工作流分发到 fork 存储库以共享资源
- [ SPARK-35051 ] - 为日期添加一天时间间隔
- [ SPARK-35052 ] - 对 AttributeReference 和 Literal 等叶子表达式使用静态 treePatternBitSet
- [ SPARK-35056 ] - 在执行/流式传输中对异常消息进行分组
- [ SPARK-35057 ] - 在 hive/thriftserver 中对异常消息进行分组
- [ SPARK-35058 ] - 在 hive/client 中分组异常消息
- [ SPARK-35059 ] - 在 hive/execution 中对异常消息进行分组
- [ SPARK-35060 ] - 在 sql/types 中对异常消息进行分组
- [ SPARK-35062 ] - 在 sql/streaming 中分组异常消息
- [ SPARK-35063 ] - 在 sql/catalyst 中对异常消息进行分组
- [ SPARK-35064 ] - 在 spark/sql(催化剂)中分组异常消息
- [ SPARK-35065 ] - 在 spark/sql(核心)中分组异常消息
- [ SPARK-35068 ] - 向 HiveThriftBinaryServerSuite 添加 ANSI 间隔测试
- [ SPARK-35069 ] - 转换禁止 DISTINCT/ALL 并使错误消息清晰
- [ SPARK-35070 ] - TRANSFORM 不应该在输入表达式 seq 中支持 ALIAS
- [ SPARK-35071 ] - 在主要代码中将 Koalas重命名为 pandas-on-Spark
- [ SPARK-35075 ] - 为子查询相关规则迁移到 transformWithPruning 或 resolveWithPruning
- [ SPARK-35077 ] - 迁移到 transformWithPruning 以获取剩余的优化器规则
- [ SPARK-35078 ] - 迁移到 transformWithPruning 或 resolveWithPruning 表达式规则
- [ SPARK-35081 ] - 添加数据源选项链接到丢失的文档。
- [ SPARK-35082 ] - 在 GitHub Actions 测试中同步到最新分支时使用许可和压缩合并
- [ SPARK-35085 ] - 获取列操作应该正确处理 ANSI 间隔列
- [ SPARK-35088 ] - 通过 Sequence 表达式接受 ANSI 间隔
- [ SPARK-35090 ] - 从 ANSI 间隔中提取字段
- [ SPARK-35091 ] - 通过 date_part() 支持 ANSI 间隔
- [ SPARK-35093 ] - 交换重用的 AQE 列不匹配
- [ SPARK-35095 ] - 在流连接测试中使用 ANSI 间隔
- [ SPARK-35098 ] - 重新访问由于 Pandas非确定性返回值而被禁用的 Pandas -on-Spark 测试用例
- [ SPARK-35099 ] - 将 ANSI 间隔文字转换为 SQL 字符串
- [ SPARK-35100 ] - 重构 AFT - 支持虚拟居中
- [ SPARK-35101 ] - 在 PR 中添加 GitHub 状态检查而不是评论
- [ SPARK-35107 ] - 将单位到单位间隔文字解析为 ANSI 间隔
- [ SPARK-35110 ] - 在 WindowExecBase 中处理 ANSI 间隔
- [ SPARK-35111 ] - 将字符串转换为年月间隔
- [ SPARK-35112 ] - 将字符串转换为白天时间间隔
- [ SPARK-35113 ] - 支持哈希表达式中的 ANSI 区间
- [ SPARK-35114 ] - 测试 ANSI 间隔文字
- [ SPARK-35115 ] - 在 MutableProjectionSuite 中测试 ANSI 间隔
- [ SPARK-35116 ] - 生成的数据符合 Spark 中 DayTimeIntervalType 的精度
- [ SPARK-35120 ] - 指导用户同步分支并在他们的分叉存储库中启用 GitHub 操作
- [ SPARK-35129 ] - 从整数字段构建年-月间隔列
- [ SPARK-35130 ] - 从积分字段构建日间间隔列
- [ SPARK-35133 ] - EXPLAIN CODEGEN 不适用于 AQE
- [ SPARK-35139 ] - 支持 ANSI 间隔作为箭头列向量
- [ SPARK-35144 ] - 迁移到对象规则的 transformWithPruning 或 resolveWithPruning
- [ SPARK-35146 ] - 迁移到transformWithPruning 或resolveWithPruning 以获取finishAnalysis 中的规则
- [ SPARK-35152 ] - ANSI 模式:IntegralDivide 在溢出时抛出异常
- [ SPARK-35153 ] - 覆盖 ANSI 区间运算符的 `sql()`
- [ SPARK-35155 ] - 将规则 ID 添加到定点批次中的所有分析器规则
- [ SPARK-35159 ] - 提取 hive 格式的文档
- [ SPARK-35162 ] - 新的 SQL 函数:TRY_ADD/TRY_DIVIDE
- [ SPARK-35168 ] - mapred.reduce.tasks 应该是 shuffle.partitions 而不是adaptive.coalescePartitions.initialPartitionNum
- [ SPARK-35169 ] - 最小 ANSI 间隔除以 -1 的错误结果
- [ SPARK-35172 ] - RocksDBCheckpointMetadata的实现
- [ SPARK-35177 ] - IntervalUtils.fromYearMonthString 无法正确处理 Int.MinValue
- [ SPARK-35185 ] - 改进不同的统计估计
- [ SPARK-35187 ] - 最小间隔文字失败
- [ SPARK-35201 ] - 在 CUBE/ROLLUP 中格式化空分组集异常
- [ SPARK-35203 ] - 改进重新分区统计估计
- [ SPARK-35214 ] - OptimizeSkewedJoin 支持 ShuffledHashJoinExec
- [ SPARK-35220 ] - DayTimeIntervalType/YearMonthIntervalString 在 hive serde 和行格式分隔中显示不同
- [ SPARK-35239 ] - Coalesce shuffle 分区应该处理空输入 RDD
- [ SPARK-35243 ] - 支持 ANSI 间隔类型的柱状执行
- [ SPARK-35261 ] - 支持无状态 UDF 的静态调用
- [ SPARK-35264 ] - 支持 AQE 侧广播加入阈值
- [ SPARK-35268 ] - 将 GenJavadoc 升级到 0.17
- [ SPARK-35276 ] - 为 shuffle 写入校验和文件
- [ SPARK-35282 ] - 支持 AQE side shuffled hash join 公式
- [ SPARK-35285 ] - 在 SQL 中解析 ANSI 间隔类型
- [ SPARK-35294 ] - 迁移到 transformWithPruning 以获取催化剂/优化器下的顶级规则
- [ SPARK-35298 ] - 为优化器/Optimizer.scala中的规则迁移到 transformWithPruning
- [ SPARK-35300 ] - 在 install.rst 中标准化模块名称
- [ SPARK-35301 ] - Spark 上从 Koalas 到Pandas API 的文档迁移指南
- [ SPARK-35314 ] - 支持针对 bool IndexOpsMixin 的算术运算
- [ SPARK-35338 ] - 将算术运算分离为基于数据类型的结构
- [ SPARK-35339 ] - 改进基于数据类型的基本操作的单元测试
- [ SPARK-35340 ] - 为不受支持的基本操作标准化 TypeError 消息
- [ SPARK-35341 ] - 引入 BooleanExtensionOps
- [ SPARK-35342 ] - 引入 DecimalOps
- [ SPARK-35343 ] - 对非 ExtensionDtypes 进行基于数据类型的熊猫数据类型转换
- [ SPARK-35344 ] - 支持在 pandas-on-Spark 中创建一列 numpy 文字值
- [ SPARK-35349 ] - 为左/右外部排序合并连接添加代码生成
- [ SPARK-35350 ] - 为左半排序合并连接添加代码生成
- [ SPARK-35351 ] - 为左反排序合并连接添加代码生成
- [ SPARK-35361 ] - 提高 ApplyFunctionExpression 的性能
- [ SPARK-35363 ] - 重构排序合并连接代码生成与连接类型无关
- [ SPARK-35364 ] - 重命名现有的考拉相关代码。
- [ SPARK-35378 ] - 在 QueryExecution 中急切地执行命令而不是调用方
- [ SPARK-35388 ] - 允许 PR 源分支包含斜杠。
- [ SPARK-35389 ] - 分析器应将 progagateNull 设置为 false 以进行魔术函数调用
- [ SPARK-35390 ] - 解析 V2 函数时处理类型强制
- [ SPARK-35395 ] - 将 ORC 数据源选项从 Python 和 Scala 移动到单个页面中
- [ SPARK-35410 ] - WholeStageCodegen 子表达式消除中剩余的未使用子表达式
- [ SPARK-35417 ] - 将 SBT 升级到 1.5.2
- [ SPARK-35422 ] - 许多测试用例在 Scala 2.13 CI 中失败
- [ SPARK-35431 ] - 在 SQLQueryTestSuite 中对 collect_set 生成的元素进行排序
- [ SPARK-35433 ] - 将 CSV 数据源选项从 Python 和 Scala 移动到单个页面中。
- [ SPARK-35434 ] - 将 scalatestplus 工件升级到 3.2.9.0
- [ SPARK-35436 ] - RocksDBFileManager - 将检查点保存到 DFS
- [ SPARK-35439 ] - 在子表达式消除中,子子表达式应该比父子表达式首先出现
- [ SPARK-35449 ] - 当 CaseWhen 中的 elseValue 为空时,不应从值表达式中提取常见表达式
- [ SPARK-35450 ] - 按照 checkout-merge 方式使用最新提交的 linter 或其他工作流。
- [ SPARK-35452 ] - 介绍 ArrayOps、MapOps 和 StructOps
- [ SPARK-35453 ] - 将 Koalas 访问器移动到 pandas_on_spark 访问器
- [ SPARK-35455 ] - 增强 EliminateUnnecessaryJoin
- [ SPARK-35465 ] - 除主要模块外,启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35466 ] - 为 pyspark.pandas.data_type_ops 启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35467 ] - 为 pyspark.pandas.spark.accessors 启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35468 ] - 为 pyspark.pandas.typedef.typehints 启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35469 ] - 为 pyspark.pandas.accessors 启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35470 ] - 为 pyspark.pandas.base 启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35471 ] - 为 pyspark.pandas.frame 启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35472 ] - 为 pyspark.pandas.generic 启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35473 ] - 为 pyspark.pandas.groupby 启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35474 ] - 为 pyspark.pandas.indexing 启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35475 ] - 为 pyspark.pandas.namespace 启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35476 ] - 为 pyspark.pandas.series 启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35477 ] - 为 pyspark.pandas.utils 启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35478 ] - 为 pyspark.pandas.window 启用 disallow_untyped_defs mypy 检查。
- [ SPARK-35497 ] - 在 Pandas-on-Spark 中启用 plotly 测试
- [ SPARK-35499 ] - 在 Spark 代码上将黑色应用于Pandas API。
- [ SPARK-35505 ] - 删除在考拉中已弃用的 API。
- [ SPARK-35509 ] - 将 Python 和 Scala 中的 TEXT 数据源选项移动到单个页面中。
- [ SPARK-35510 ] - 重新启用 test_stats_on_non_numeric_columns_should_be_discarded_if_numeric_only_is_true
- [ SPARK-35521 ] - 在 build_and_test 工作流中列出 Python 3.8 安装的库
- [ SPARK-35522 ] - 为 BinaryType 引入 BinaryOps
- [ SPARK-35523 ] - 修复数据源选项页面中的默认值
- [ SPARK-35526 ] - 在 Scala 2.13 中重新清理`procedure syntax is deprecated` 编译警告
- [ SPARK-35528 ] - 在数据源选项页面添加更多选项
- [ SPARK-35532 ] - 确保 mllib 和 kafka-0-10 模块可以在 Scala 2.13 中独立进行 maven 测试
- [ SPARK-35539 ] - 恢复 to_koalas 以保持向后兼容性
- [ SPARK-35544 ] - 将树模式修剪添加到分析器规则中
- [ SPARK-35546 ] - 在启用多个应用程序尝试时启用基于推送的 shuffle 并以更好的方式管理对状态的并发访问
- [ SPARK-35548 ] - 在客户端的 BlockPushErrorHandler 中处理新尝试已启动错误消息
- [ SPARK-35560 ] - 删除嵌套子表达式中的冗余子表达式评估
- [ SPARK-35568 ] - UnsupportedOperationException: WholeStageCodegen (3) 没有实现 doExecuteBroadcast
- [ SPARK-35574 ] - 将与“过程语法”相关的编译警告转换为 Scala 2.13 中的错误
- [ SPARK-35582 ] - 删除 Python API 文档中的 # noqa。
- [ SPARK-35583 ] - 将 JDBC 数据源选项从 Python 和 Scala 移动到单个页面中
- [ SPARK-35587 ] - Koalas文档的初始移植
- [ SPARK-35588 ] - 合并 Binder 集成和快速入门笔记本
- [ SPARK-35591 ] - 在文档中将“Koalas”重命名为“Pandas APIs on Spark”
- [ SPARK-35599 ] - 介绍一种比较老熊猫数组的方法
- [ SPARK-35601 ] - 完整的算术运算符涉及 bool 文字、系列和索引
- [ SPARK-35605 ] - 将 to_pandas_on_spark 移动到 Spark DataFrame。
- [ SPARK-35606 ] - 在 build_and_test 工作流中列出 Python 3.9 安装的库
- [ SPARK-35608 ] - 支持 AQE 优化器端 transformUpWithPruning
- [ SPARK-35614 ] - 将 ExtensionDtypes 转换为基于数据类型的 Pandas
- [ SPARK-35615 ] - 使一元和比较运算符基于数据类型
- [ SPARK-35616 ] - 使 astype 基于数据类型
- [ SPARK-35619 ] - 重构线性回归 - 使 huber 支持虚拟居中
- [ SPARK-35621 ] - 将规则 id 修剪添加到 TypeCoercion 规则
- [ SPARK-35628 ] - RocksDBFileManager - 从 DFS 加载检查点
- [ SPARK-35640 ] - 重构 Parquet 矢量化阅读器以删除重复的代码路径
- [ SPARK-35642 ] - 拆分 pyspark-pandas 测试。
- [ SPARK-35644 ] - 合并内容并删除开发部分中的过时页面
- [ SPARK-35645 ] - 合并内容并删除入门部分中的过时页面
- [ SPARK-35646 ] - 合并内容并删除 API 参考部分中的过时页面
- [ SPARK-35647 ] - 合并内容并删除用户指南部分中的过时页面
- [ SPARK-35650 ] - 通过 AQE 合并小输出文件
- [ SPARK-35656 ] - 将 SBT 升级到 1.5.3
- [ SPARK-35666 ] - 添加新的 gemv 以跳过数组形状检查
- [ SPARK-35670 ] - 将 ZSTD-JNI 升级到 1.5.0-2
- [ SPARK-35671 ] - 在 ESS 中添加支持以将合并的 shuffle 块元和数据提供给执行程序
- [ SPARK-35678 ] - 添加一个通用的 softmax 函数
- [ SPARK-35680 ] - 按年月间隔类型支持字段
- [ SPARK-35695 ] - QueryExecutionListener 在持久/缓存之前没有看到任何观察到的指标
- [ SPARK-35696 ] - 优化 Spark 文档上的 Pandas API 中的代码示例。
- [ SPARK-35704 ] - 按日间间隔类型支持字段
- [ SPARK-35705 ] - 针对不同的 Pandas 版本调整 pandas-on-spark `test_groupby_multiindex_columns` 测试
- [ SPARK-35707 ] - 通过跳过边界检查来优化稀疏 GEMM
- [ SPARK-35708 ] - 为 DataTypeOps 添加 BaseTest
- [ SPARK-35725 ] - 支持 AQE 中的重新分区扩展分区
- [ SPARK-35726 ] - 按日间间隔类型的字段截断 java.time.Duration
- [ SPARK-35727 ] - 从日期减法中返回 INTERVAL DAY
- [ SPARK-35728 ] - 通过数字检查任何字段的日间时间间隔的乘除
- [ SPARK-35729 ] - 检查聚合表达式中的所有日间时间间隔类型
- [ SPARK-35730 ] - 检查 UDF 中的所有日间时间间隔类型
- [ SPARK-35731 ] - 检查箭头中的所有日间时间间隔类型
- [ SPARK-35732 ] - 从 JSON 解析 DayTimeIntervalType
- [ SPARK-35733 ] - 检查 HiveInspectors 测试中的所有日间时间间隔类型
- [ SPARK-35734 ] - 使用类型字段格式化日间时间间隔
- [ SPARK-35735 ] - 考虑演员表中的日间时间间隔字段
- [ SPARK-35736 ] - 解析 SQL 中的任何日期时间间隔类型
- [ SPARK-35737 ] - 将日间时间间隔文字解析为最紧凑的类型
- [ SPARK-35738 ] - 在带有绘图的非数字列的 DataFrame 中正确支持 y
- [ SPARK-35749 ] - 将单位列表间隔文字解析为年-月/日-时间间隔类型
- [ SPARK-35750 ] - 在文档中将“pandas APIs on Spark”重命名为“pandas API on Spark”
- [ SPARK-35759 ] - 删除 pandas-on-Spark 的 numpy 上限
- [ SPARK-35761 ] - 使用基于类型注释的 pandas_udf 或避免指定 udf 类型来抑制警告。
- [ SPARK-35768 ] - 考虑演员表中的年月间隔字段
- [ SPARK-35769 ] - 按年月间隔类型的字段截断 java.time.Period
- [ SPARK-35770 ] - 从 JSON 解析 YearMonthIntervalType
- [ SPARK-35771 ] - 使用类型字段格式化年月间隔
- [ SPARK-35772 ] - 检查 HiveInspectors 测试中的所有年-月间隔类型
- [ SPARK-35773 ] - 将年月间隔文字解析为最紧密的类型
- [ SPARK-35774 ] - 解析 SQL 中的任何年月间隔类型
- [ SPARK-35775 ] - 检查聚合表达式中的所有年月间隔类型
- [ SPARK-35776 ] - 检查箭头中的所有年月间隔类型
- [ SPARK-35777 ] - 检查 UDF 中的所有年-月间隔类型
- [ SPARK-35778 ] - 通过数字检查任何字段的年月间隔的乘除
- [ SPARK-35784 ] - RocksDB 实例的实现
- [ SPARK-35785 ] - RocksDB 实例的清理支持
- [ SPARK-35786 ] - 添加一个新的运算符来区分 AQE 是否可以安全优化
- [ SPARK-35788 ] - RocksDB 实例的指标支持
- [ SPARK-35796 ] - UT `handles k8s cluster mode` 在 MacOs >= 10.15 上失败
- [ SPARK-35806 ] - 将 `mode` 参数映射到 DataFrame.to_csv 中的 Pandas
- [ SPARK-35807 ] - 弃用 `num_files` 参数
- [ SPARK-35809 ] - 为 ps.sql 添加 `index_col` 参数。
- [ SPARK-35810 ] - 弃用 ps.broadcast API
- [ SPARK-35811 ] - 弃用 DataFrame.to_spark_io
- [ SPARK-35812 ] - 如果 `version` 和 `timestamp` 在 DataFrame.to_delta 中一起使用,则会引发错误。
- [ SPARK-35815 ] - 允许将水印的 delayThreshold 表示为 ANSI 日-时/年-月间隔文字
- [ SPARK-35818 ] - 将 SBT 升级到 1.5.4
- [ SPARK-35819 ] - 支持不同字段 YearMonthIntervalType 之间的转换
- [ SPARK-35820 ] - 支持不同 DayTimeIntervalType 之间的转换
- [ SPARK-35822 ] - Spark UI-Executor 选项卡在 IE11 中为空
- [ SPARK-35824 ] - 将 LevelDBSuite.IntKeyType 从嵌套类转换为普通类
- [ SPARK-35827 ] - 将列类型更新为年-月/日-时间间隔时显示正确的错误消息
- [ SPARK-35830 ] - 将 sbt-mima-plugin 升级到 0.9.2
- [ SPARK-35838 ] - 确保所有模块都可以在 Scala 2.13 中独立进行 maven 测试
- [ SPARK-35840 ] - 将单个字段的“apply()”添加到“YearMonthIntervalType”和“DayTimeIntervalType”
- [ SPARK-35846 ] - 引入 ParquetReadState 以在读取 Parquet 列块时跟踪各种状态
- [ SPARK-35847 ] - 在 DataTypeOps.isnull 中管理 InternalField
- [ SPARK-35849 ] - 为 DecimalOps 制作基于数据类型的 astype
- [ SPARK-35850 ] - 将 scala-maven-plugin 升级到 4.5.3
- [ SPARK-35852 ] - 改进 DateType +/- DayTimeIntervalType(DAY) 的实现
- [ SPARK-35856 ] - 将新的间隔类型测试用例从 CastSuite 移动到 CastBaseSuite
- [ SPARK-35857 ] - 复制后应保留 Cast 的 ANSI 标志
- [ SPARK-35859 ] - 清理类型提示。
- [ SPARK-35860 ] - 支持 YearMonthIntervalType/DayTimeIntervalType 的不同字段之间的向上转换
- [ SPARK-35861 ] - 在状态存储中引入“前缀匹配扫描”功能
- [ SPARK-35871 ] - Literal.create(value, dataType) 应该支持字段
- [ SPARK-35873 ] - 从 Spark 上的 Pandas API 清理版本逻辑
- [ SPARK-35874 ] - AQE Shuffle 应该在实现之前等待其子查询完成
- [ SPARK-35883 ] - 将 ALTER TABLE 重命名列命令迁移到新的解析框架
- [ SPARK-35884 ] - AQE 的解释格式
- [ SPARK-35888 ] - 在 CoalescedPartitionSpec 中添加 dataSize 字段
- [ SPARK-35901 ] - 优化 pyspark.pandas.window 中的类型提示
- [ SPARK-35924 ] - 将 Java 17 ea 构建测试添加到 GitHub 操作
- [ SPARK-35937 ] - 从时间戳中提取日期字段应该在 ANSI 模式下工作
- [ SPARK-35938 ] - 为 Python 3.6 添加弃用警告
- [ SPARK-35939 ] - 在 Spark 文档中弃用 Python 3.6
- [ SPARK-35943 ] - 引入轴类型别名。
- [ SPARK-35944 ] - 为名称或标签引入类型别名。
- [ SPARK-35961 ] - 仅当 REBALANCE_PARTITIONS_BY_NONE 没有CustomShuffleReaderExec时才使用本地随机读取器
- [ SPARK-35968 ] - 确保 AQE 分区合并中的分区不会太小
- [ SPARK-35982 ] - 允许 from_json/to_json 用于值类型为年月间隔的地图类型
- [ SPARK-35983 ] - 允许 from_json/to_json 用于值类型为日间时间间隔的地图类型
- [ SPARK-35987 ] - 复制后应保留 Sum 和 Avg 的 ANSI 标志
- [ SPARK-35988 ] - RocksDBStateStoreProvider的实现
- [ SPARK-35989 ] - 如果启用AQE,不要删除 REPARTITION_BY_NUM shuffle
- [ SPARK-35998 ] - 使 from_csv/to_csv 正确处理年月间隔
- [ SPARK-35999 ] - 使 from_csv/to_csv 正确处理日间时间间隔
- [ SPARK-36001 ] - 假设结果的索引在不同系列上的操作的测试中是无序的
- [ SPARK-36002 ] - 合并十进制系列基于数据类型的操作的测试
- [ SPARK-36006 ] - 将 ALTER TABLE ADD/RENAME COLUMNS 命令迁移到新的解析框架
- [ SPARK-36021 ] - 间隔文字中的起始字段解析不正确
- [ SPARK-36022 ] - 在提取中尊重区间字段
- [ SPARK-36023 ] - 将字符串转换为 ANSI 间隔的混淆错误
- [ SPARK-36028 ] - 允许项目在标量子查询中托管外部引用
- [ SPARK-36032 ] - 使用 inputPlan 而不是 currentPhysicalPlan 来初始化逻辑链接
- [ SPARK-36041 ] - 在编程指南中介绍 RocksDBStateStoreProvider
- [ SPARK-36049 ] - 删除代码中的 IntervalUnit
- [ SPARK-36056 ] - 在 VectorizedRleValuesReader 中结合 readBatch 和 readIntegers
- [ SPARK-36063 ] - 优化 OneRowRelation 子查询
- [ SPARK-36064 ] - 在 DataTypeOps 中更多地管理 InternalField。
- [ SPARK-36074 ] - 为 StructType.findNestedField 添加错误类
- [ SPARK-36086 ] - delta 表的情况与 parquet 不一致
- [ SPARK-36093 ] - (RemoveRedundantAliases 应保留输出模式名称)如果分区路径大小写不一致,则结果不正确
- [ SPARK-36106 ] - 重构一些查询编译错误以使用错误类
- [ SPARK-36123 ] - Parquet 矢量化阅读器不能正确跳过空值
- [ SPARK-36125 ] - 在两个 Categoricals 之间实现非相等比较运算符
- [ SPARK-36127 ] - 支持分类和标量之间的比较
- [ SPARK-36131 ] - 重构 ParquetColumnIndexSuite
- [ SPARK-36142 ] - 调整具有缺失值和布尔文字的系列之间的取幂以跟随熊猫
- [ SPARK-36143 ] - 调整缺失值的小数系列的 `astype` 以跟随熊猫
- [ SPARK-36146 ] - 在 GitHub linter 中将Python 版本从 3.6 升级到更高版本
- [ SPARK-36150 ] - 为 Scala 2.13 工件禁用 MiMa
- [ SPARK-36152 ] - 添加 Scala 2.13 每日构建和测试 GitHub Action 作业
- [ SPARK-36153 ] - 添加关于当前行为转换的 SQL 文档
- [ SPARK-36156 ] - 行格式 SERDE 应将空值处理为 `\N`
- [ SPARK-36166 ] - 在`dev/run-tests.py` 中支持 Scala 2.13 测试
- [ SPARK-36170 ] - 将带引号的区间文字(区间构造函数)更改为 ANSI 区间类型
- [ SPARK-36171 ] - 将 GenJavadoc 升级到 0.18
- [ SPARK-36172 ] - 结构化流指南文档中的文档会话窗口
- [ SPARK-36184 ] - 使用 ValidateRequirements 而不是 EnsureRequirements 跳过添加额外洗牌的 AQE 规则
- [ SPARK-36186 ] - 将 as_ordered/as_unordered 添加到 CategoricalAccessor 和 CategoricalIndex。
- [ SPARK-36188 ] - 将类别设置器添加到 CategoricalAccessor 和 CategoricalIndex。
- [ SPARK-36189 ] - 通过避免连接改进 bool、string、numeric DataTypeOps 测试
- [ SPARK-36190 ] - 通过避免连接改进其余的 DataTypeOps 测试
- [ SPARK-36202 ] - 统一架构检查 API
- [ SPARK-36206 ] - 通过校验和诊断 shuffle 数据损坏
- [ SPARK-36214 ] - 将 add_categories 添加到 CategoricalAccessor 和 CategoricalIndex。
- [ SPARK-36222 ] - 在日期的序列表达式中按天计算
- [ SPARK-36236 ] - RocksDB 状态存储:添加额外的指标以更好地观察状态存储操作
- [ SPARK-36239 ] - 从文档中删除一些 API。
- [ SPARK-36248 ] - 将 rename_categories 添加到 CategoricalAccessor 和 CategoricalIndex
- [ SPARK-36249 ] - 将 remove_categories 添加到 CategoricalAccessor 和 CategoricalIndex
- [ SPARK-36253 ] - 文档添加版本的 pandas-on-Spark 支持
- [ SPARK-36254 ] - 在 Github Actions CI 中安装 mlflow/sklearn
- [ SPARK-36255 ] - 随机推送的 FileNotFoundException 可能导致执行程序终止
- [ SPARK-36260 ] - 将 set_categories 添加到 CategoricalAccessor 和 CategoricalIndex
- [ SPARK-36261 ] - 将 remove_unused_categories 添加到 CategoricalAccessor 和 CategoricalIndex。
- [ SPARK-36264 ] - 将 reorder_categories 添加到 CategoricalAccessor 和 CategoricalIndex。
- [ SPARK-36266 ] - 重命名用于块推送操作的 shuffle RPC 中的类
- [ SPARK-36267 ] - 清理 CategoricalAccessor 和 CategoricalIndex。
- [ SPARK-36271 ] - Hive SerDe 和 V1 向 parquet/orc/avro 插入数据也需要检查架构
- [ SPARK-36274 ] - 修复无序分类的相等比较
- [ SPARK-36279 ] - 修复 lint-python 以使用 Python 3.9
- [ SPARK-36312 ] - ParquetWritter 应该检查内部字段
- [ SPARK-36318 ] - 更新关于 ANSI 间隔类型到 Java/Scala/SQL 类型映射的文档
- [ SPARK-36323 ] - 支持 TimeWindow 的 ANSI 间隔文字
- [ SPARK-36332 ] - 清理 RemoteBlockPushResolver 日志消息
- [ SPARK-36344 ] - 修复 ShuffleBlockPusher 类中的一些拼写错误。
- [ SPARK-36347 ] - 将 RocksDB 版本升级到 6.20.3
- [ SPARK-36349 ] - 禁止在基于文件的数据源中使用 ANSI 间隔
- [ SPARK-36353 ] - RemoveNoopOperators 应该保留输出模式
- [ SPARK-36368 ] - 修复 CategoricalOps.astype 以跟随 pandas 1.3
- [ SPARK-36369 ] - 修复 Index.union 以跟随 pandas 1.3
- [ SPARK-36370 ] - 避免使用在 Pandas 1.3 中删除的 SelectionMixin._builtin_table
- [ SPARK-36374 ] - 基于推送的 shuffle 文档
- [ SPARK-36378 ] - 小改动以解决一些已识别的服务器端效率低下的问题
- [ SPARK-36380 ] - 简化 ALTER TABLE ... COLUMN 的逻辑计划名称
- [ SPARK-36384 ] - 添加随机校验和的文档
- [ SPARK-36386 ] - 修复 DataFrame groupby-expanding 以跟随 pandas 1.3
- [ SPARK-36387 ] - 将 Series.astype 从日期时间修复为可空字符串
- [ SPARK-36388 ] - 修复 DataFrame groupby-rolling 以跟随 pandas 1.3
- [ SPARK-36414 ] - 在 AQE 中禁用 BroadcastQueryStageExec 超时
- [ SPARK-36415 ] - 为 try_cast/try_add/try_divide 添加文档
- [ SPARK-36423 ] - 在推送之前随机化推送请求中的区块以提高区块合并率
- [ SPARK-36431 ] - 支持 ANSI 区间与不同字段的比较
- [ SPARK-36445 ] - 用于日期时间操作的 ANSI 类型强制规则
- [ SPARK-36460 ] - 在外部拉出 NoOpMergedShuffleFileManager 内部类
- [ SPARK-36465 ] - 会话窗口中的动态间隙持续时间
- [ SPARK-36468 ] - 更新关于 ANSI 间隔文字的文档
- [ SPARK-36469 ] - 实现 Index.map
- [ SPARK-36470 ] - 实现 `CategoricalIndex.map` 和 `DatetimeIndx.map`
- [ SPARK-36497 ] - 支持间隔加/减 NULL
- [ SPARK-36499 ] - 测试间隔乘法/除法 null
- [ SPARK-36505 ] - 提高 frame.py 的测试覆盖率
- [ SPARK-36515 ] - 提高 groupby.py 的测试覆盖率。
- [ SPARK-36519 ] - 将 RocksDB 格式存储在流查询的检查点中
- [ SPARK-36521 ] - 禁止在 Interval 和 String 之间进行比较
- [ SPARK-36524 ] - 为 ANSI 间隔类型添加通用类/特征
- [ SPARK-36531 ] - 提高 data_type_ops/* 的测试覆盖率
- [ SPARK-36537 ] - 重新访问 CategoricalDtype 的禁用测试
- [ SPARK-36549 ] - 向文档添加 taskStatus 支持多个值
- [ SPARK-36595 ] - SQL API 文档中的文档窗口和 session_window 函数
- [ SPARK-36597 ] - 修复 SQL 函数文档中的问题
- [ SPARK-36606 ] - 增强了 try_add/try_divide 的文档和测试
- [ SPARK-36614 ] - Executor 丢失原因显示“worker lost”而不是“Executor decommission”
- [ SPARK-36629 ] - 将空气压缩机升级到 1.21
- [ SPARK-36636 ] - Scala 2.13 中的 SparkContextSuite 随机失败
- [ SPARK-36666 ] - [SQL] AQEShuffleReadExec 中的回归
- [ SPARK-36697 ] - 修复删除 DataFrame 的所有列
- [ SPARK-36702 ] - array_union 不应产生重复的结果
- [ SPARK-36705 ] - 当启用 IO 加密或序列化程序不可重定位时禁用基于推送的 shuffle
- [ SPARK-36712 ] - 发布的 2.13 POM 仅在 `scala-2.13` 配置文件中列出 `scala-parallel-collections`
- [ SPARK-36729 ] - 将 Netty 从 4.1.63 升级到 4.1.68
- [ SPARK-36741 ] - array_distinct 不应返回重复的 NaN
- [ SPARK-36747 ] - 当项目列表中存在相关子查询时,不要使用聚合折叠项目
- [ SPARK-36753 ] - array_except 应该处理 Double.NaN 和 Float.NaN
- [ SPARK-36755 ] - array_overlap 应该处理 Double.NaN 和 Float.NaN
- [ SPARK-36759 ] - 将 Scala 升级到 2.12.15
- [ SPARK-36762 ] - 当 Series 具有 NaN 值时修复 Series.isin
- [ SPARK-36767 ] - ArrayMin/ArrayMax/SortArray/ArraySort 添加注释和 UT
- [ SPARK- 36771 ] - 修复 Categorical Series 的 `pop`
- [ SPARK-36777 ] - 将 GitHub Actions 上的 Java 17 从 EA 移动到 LTS 版本
- [ SPARK-36780 ] - 使 dev/mima 在 Java 17 上运行
- [ SPARK-36792 ] - 插入应该处理 Double.NaN 和 Float.NaN
- [ SPARK-36807 ] - 将 ANSI 间隔类型合并为最紧密的常见类型
- [ SPARK-36818 ] - 修复通过布尔系列过滤系列
- [ SPARK-36851 ] - 负 ANSI 类型间隔文字的错误解析
Bug
- [ SPARK-20977 ] - CollectionAccumulator 中的 NPE
- [ SPARK-21449 ] - Hive 客户端的 SessionState 未在 HiveExternalCatalog 中正确关闭
- [ SPARK-22748 ] - 查询错误:grouping_id() 只能与 GroupingSets/Cube/Rollup 一起使用;
- [ SPARK-22769 ] - 驱动程序停止时,出现错误:“找不到 CoarseGrainedScheduler”和“RpcEnv 已经停止”
- [ SPARK-23745 ] - 当 HiveThriftServer2 停止时删除“hive.downloaded.resources.dir”的目录
- [ SPARK-23862 ] - Spark ExpressionEncoder 应该支持 Scala 中的 java 枚举类型
- [ SPARK-25769 ] - UnresolvedAttribute.sql() 错误地转义嵌套列
- [ SPARK-26199 ] - 长表达式导致 mutate 失败
- [ SPARK-26836 ] - 如果架构发生变化,则使用 Avro 支持的 Hive 表在 Spark SQL 中切换列
- [ SPARK-27991 ] - ShuffleBlockFetcherIterator 在限制同时获取块的数量时应该考虑 Netty 常数因子开销
- [ SPARK-28266 ] - 存在 `path` serde 属性时的数据重复
- [ SPARK-28551 ] - 具有 LOCATION 属性的 CTAS SQL 不会检查位置路径,导致该位置下的数据丢失
- [ SPARK-31517 ] - SparkR::orderBy 多列降序产生错误
- [ SPARK-32041 ] - 在涉及 DPP、子查询的情况下,Exchange 重用将不起作用
- [ SPARK-32210 ] - 无法序列化大型 MapStatuses
- [ SPARK-32866 ] - Docker buildx 现在需要 --push
- [ SPARK-32924 ] - Web UI 对持续时间的排序是错误的
- [ SPARK-32975 ] - 在执行程序启动之前添加驱动程序准备超时的配置
- [ SPARK-33100 ] - 支持解析带有 c 样式注释的 sql 语句
- [ SPARK-33428 ] - 将 conv 函数的行为与 MySQL 的行为相匹配
- [ SPARK-33474 ] - 插入具有日期类型值的日期类型分区表时值不正确
- [ SPARK-33482 ] - 扩展 FileScan 的 V2 数据源阻止交换重用
- [ SPARK-33546 ] - CREATE TABLE LIKE 应该像 CREATE TABLE 一样正确解析 hive serde
- [ SPARK-33591 ] - NULL 被识别为分区规范中的“空”字符串
- [ SPARK-33677 ] - 如果模式包含任何转义字符,则应跳过 LikeSimplification
- [ SPARK-33722 ] - 在 ReplaceNullWithFalseInPredicate 中处理 DELETE
- [ SPARK-33739 ] - 通过 S3A Magic 提交器提交的作业不报告写入的字节数
- [ SPARK-33802 ] - 在 spark-master-test-sbt-hadoop-3.2 Jenkins 作业中恢复 PySpark 覆盖
- [ SPARK-33813 ] - 使用 MS SQL 驱动程序读取空间数据类型时,JDBC 数据源失败
- [ SPARK-33819 ] - SingleFileEventLogFileReader/RollingEventLogFilesFileReader 应该是`package private`
- [ SPARK-33841 ] - 作业在高负载下从 SHS 间歇性消失
- [ SPARK-33867 ] - java.time.Instant 和 java.time.LocalDate 未在 org.apache.spark.sql.jdbc.JdbcDialect#compileValue 中处理
- [ SPARK-33885 ] - 应尊重 DDL 命令的未解析标识符的位置..
- [ SPARK-33888 ] - JDBC SQL TIME 类型错误地表示为 TimestampType,它应该是以毫秒为单位的物理 Int
- [ SPARK-33900 ] - 当只有 remotebytesread 可用时,正确显示随机读取大小/记录
- [ SPARK-33931 ] - 恢复 GitHub 操作
- [ SPARK-33935 ] - 修复 CBO 成本函数
- [ SPARK-33962 ] - 修复了 getRanges 中不正确的最小分区条件
- [ SPARK-33999 ] - 使用 JDK11 使 sbt unidoc 成功
- [ SPARK-34012 ] - 当迁移指南中的 conf `spark.sql.legacy.parser.haveWithWithWithoutGroupByAsWhere` 为 true 时,保持行为一致
- [ SPARK-34015 ] - SparkR 分区计时摘要正确报告输入时间
- [ SPARK-34032 ] - 添加 Kafka 委托令牌信任库和密钥库类型配置
- [ SPARK-34053 ] - 请减少 GitHub 操作矩阵或缩短构建时间
- [ SPARK-34084 ] - ALTER TABLE .. ADD PARTITION 不更新表统计信息
- [ SPARK-34087 ] - 当我们克隆 spark 会话时发生内存泄漏
- [ SPARK- 34089 ] - MemoryConsumer 的内存模式应该尊重 MemoryManager 的内存模式
- [ SPARK-34128 ] - 禁止在 Spark ThriftServer 中过多记录 TTransportExceptions
- [ SPARK-34137 ] - 树字符串不包含嵌套标量子查询的统计信息
- [ SPARK-34141 ] - ExtractGenerator 分析器应该处理惰性项目列表
- [ SPARK-34143 ] - 将分区添加到完全分区的 v2 表
- [ SPARK-34154 ] - 脆弱测试:LocalityPlacementStrategySuite.handle 大量容器和任务 (SPARK-18750)
- [ SPARK-34156 ] - 统一 DDL 的输出并正确传递输出属性
- [ SPARK-34167 ] - 阅读 Decimal(8,2) 写为 Decimal64 的镶木地板会爆炸
- [ SPARK-34180 ] - 修复了SPARK-33888为 PostgresDialect 带来的回归
- [ SPARK-34197 ] - refreshTable() 不应使临时视图的关系缓存失效
- [ SPARK-34199 ] - 阻止 `count(table.*)` 以遵循 ANSI 标准和其他 SQL 引擎
- [ SPARK-34203 ] - 无法删除 FileSource 表空分区
- [ SPARK-34217 ] - 修复 Scala 2.12 发布配置文件
- [ SPARK-34225 ] - 包含空格的 jar或文件路径正在生成 FileNotFoundException 异常
- [ SPARK-34227 ] - WindowFunctionFrame 应在准备期间清除其状态
- [ SPARK-34251 ] - TRUNCATE TABLE 重置非空 v1 表的统计信息
- [ SPARK-34311 ] - PostgresDialect 不能处理某些类型的数组
- [ SPARK-34314 ] - 发现的分区值错误
- [ SPARK-34318 ] - Dataset.colRegex 应该使用包含换行符的列名和限定符
- [ SPARK-34333 ] - 修复 PostgresDialect 以正确处理货币类型
- [ SPARK-34341 ] - aarch64 上的 ./build/mvn 错误输出
- [ SPARK-34352 ] - 改进 SQLQueryTestSuite 以便可以在 Windows 系统上运行
- [ SPARK-34354 ] - CostBasedJoinReorder 在自加入时可能会失败
- [ SPARK-34361 ] - K8s 上的动态分配会杀死正在运行的任务的执行程序
- [ SPARK-34370 ] - 使用“avro.schema.url”支持分区 Hive 表的 Avro 模式演变
- [ SPARK-34379 ] - 将 JDBC RowID 映射到 StringType 而不是 LongType
- [ SPARK-34392 ] - 自 Spark 3.0 以来,基于偏移量的 ZoneId 的 ID 无效
- [ SPARK-34417 ] - org.apache.spark.sql.DataFrameNaFunctions.fillMap(values: Seq[(String, Any)]) 因列名有一个点而失败
- [ SPARK-34436 ] - DPP 支持 LIKE ANY/ALL
- [ SPARK-34448 ] - 当数据未居中时,二元逻辑回归错误地计算截距和系数
- [ SPARK-34463 ] - toPandas 失败并出现错误:当启用自毁箭头时,缓冲区源数组是只读的
- [ SPARK- 34472 ] - 带有 ivy 路径的 SparkContext.addJar 在带有自定义 ivySettings 文件的集群模式下失败
- [ SPARK-34473 ] - 在 DataFrameReader.schema(StructType) 中避免 NPE
- [ SPARK-34477 ] - 序列化 Avro GenericData 对象时的 Kryo NPE(GenericRecord 除外)
- [ SPARK-34490 ] - 如果表被删除,表可能会被解析为视图
- [ SPARK-34504 ] - 避免不必要的视图解析并删除 `performCheck` 标志
- [ SPARK-34506 ] - 添加带有常春藤坐标的 JAR 应该与 Hive 传递行为兼容
- [ SPARK-34512 ] - 解析 Avro 模式时禁用验证默认值
- [ SPARK-34515 ] - 如果在 getPartitionsByFilter 期间 InSet 包含空值,则修复 NPE
- [ SPARK-34526 ] - 跳过检查 FileStreamSink.hasMetadata 中的 glob 路径
- [ SPARK-34527 ] - 无法从 USING/NATURAL JOIN 解析重复数据删除的公共列
- [ SPARK-34534 ] - OneForOneBlockFetcher 中的新协议 FetchShuffleBlocks 导致数据丢失或正确性
- [ SPARK-34541 ] - 修复了 unregisterShuffle 时无法清理数据的问题
- [ SPARK-34545 ] - 将具有不同返回类型的 2 个 UDF 一起应用于 2 列时,PySpark Python UDF 返回不一致的结果
- [ SPARK-34547 ] - 解决使用子元数据属性作为后备
- [ SPARK-34555 ] - 解析 DataFrame 的元数据输出
- [ SPARK-34558 ] - 仓库路径应该在填充和使用之前解决
- [ SPARK-34560 ] - 无法加入 SHOW TABLES 的数据集
- [ SPARK-34565 ] - 在它们之间使用 Project 折叠窗口节点
- [ SPARK-34567 ] - CreateTableAsSelect 也应该有指标更新
- [ SPARK-34568 ] - 如果 SparkContext 被创建,enableHiveSupport 应该忽略
- [ SPARK-34579 ] - 修复 SQLQuerySuite 中的错误测试
- [ SPARK-34581 ] - 通过 BooleanSimplification 和 PushFoldableIntoBranches 优化后的 BoundAttribute 问题
- [ SPARK-34584 ] - 当插入具有非法分区值的分区表时,DSV2 行为与其他行为不同
- [ SPARK-34595 ] - DPP 支持 RLIKE
- [ SPARK-34596 ] - NewInstance.doGenCode 不应抛出格式错误的类名错误
- [ SPARK-34599 ] - INSERT INTO OVERWRITE 不支持包含点的分区列用于 DSv2
- [ SPARK-34607 ] - NewInstance.resolved 不应抛出格式错误的类名错误
- [ SPARK-34608 ] - 删除 AddJarCommand 中未使用的输出
- [ SPARK-34613 ] - 修复视图不捕获禁用提示配置
- [ SPARK-34624 ] - 从 ivy/maven 坐标中过滤非 jar 依赖项
- [ SPARK-34626 ] - UnresolvedAttribute.sql 可能返回不正确的 sql
- [ SPARK-34634 ] - 自加入脚本转换无法正确解析属性
- [ SPARK-34636 ] - UnresolvedAttribute、AttributeReference 和 Alias 中的 sql 方法没有正确引用限定名称。
- [ SPARK-34642 ] - Pyspark 线性回归文档中的类型错误
- [ SPARK-34643 ] - 以规范形式使用 CRAN URL
- [ SPARK-34649 ] - org.apache.spark.sql.DataFrameNaFunctions.replace() 因列名有一个点而失败
- [ SPARK-34674 ] - 在不调用 sparkContext.stop() 方法的情况下,k8s 上的 Spark 应用程序不会终止
- [ SPARK-34676 ] - TableCapabilityCheckSuite 不应继承 AnalysisSuite 的所有测试
- [ SPARK-34681 ] - 构建左侧时完全外部混洗哈希连接产生错误结果
- [ SPARK-34696 ] - 修复 CodegenInterpretedPlanTest 以生成正确的测试用例
- [ SPARK-34697 ] - 允许描述函数和显示函数解释 || (字符串连接运算符)。
- [ SPARK-34713 ] - CreateStruct 和 ExtractValue 分组失败分析
- [ SPARK-34719 ] - 如果视图查询具有重复的列名,则失败
- [ SPARK-34720 ] - 不正确的星形扩展逻辑 MERGE INSERT * / UPDATE *
- [ SPARK-34723 ] - 整阶段下子表达式消除的正确参数类型
- [ SPARK-34724 ] - 使用 getClass.getMethod 而不是 getDeclaredMethod 修复解释评估
- [ SPARK-34727 ] - 将浮点数转换为时间戳的结果差异
- [ SPARK-34731 ] - 编辑属性时 EventLoggingListener 中的 ConcurrentModificationException
- [ SPARK-34732 ] - 驱动程序未启动时 logForFailedTest 抛出异常
- [ SPARK-34736 ] - Kubernetes 和 Minikube 版本升级以进行集成测试
- [ SPARK-34737 ] - TIMESTAMP_SECONDS 和从浮点数转换之间的差异
- [ SPARK-34743 ] - ExpressionEncoderSuite 应该在我们期望`array of array` 时使用 deepEquals
- [ SPARK-34747 ] - 将虚拟运算符添加到内置函数文档中。
- [ SPARK-34748 ] - 为流式写入创建分析逻辑规则
- [ SPARK-34756 ] - 修复 FileScan 相等性检查
- [ SPARK-34760 ] - 在 runBasicDataSourceExample() 中运行 JavaSQLDataSourceExample 失败并出现异常。
- [ SPARK-34763 ] - col()、$"<name>" 和 df("name") 应该正确处理引用的列名。
- [ SPARK-34768 ] - 尊重Univocity 中的默认输入缓冲区大小
- [ SPARK-34770 ] - 如果数据库不存在,InMemoryCatalog.tableExists 不应失败
- [ SPARK-34772 ] - RebaseDateTime loadRebaseRecords 应该使用 Spark 类加载器而不是上下文
- [ SPARK-34774 ] - `change-scala-version.sh` 脚本没有正确替换 scala.version 属性
- [ SPARK-34776 ] - 某些结构操作上的催化剂错误(找不到 _gen_alias_)
- [ SPARK-34794 ] - DSL 中破坏的嵌套高阶函数
- [ SPARK-34796 ] - 使用 LIMIT 运算符和不使用 AQE 进行查询的 Codegen 编译错误
- [ SPARK-34798 ] - 修复不正确的连接条件
- [ SPARK-34803 ] - 需要某些版本的 Pandas 和 PyArrow 的 Util 方法不会通过引发的 ImportError
- [ SPARK-34811 ] - 像秘密和令牌一样编辑 fs.s3a.access.key
- [ SPARK-34814 ] - LikeSimplification 应该处理 NULL
- [ SPARK-34820 ] - K8s 集成测试失败(由于 libldap 安装失败)
- [ SPARK-34829 ] - 当它与返回引用类型的 udf 一起使用时,transform_values 返回相同的值
- [ SPARK-34832 ] - ExternalAppendOnlyUnsafeRowArrayBenchmark 无法使用 spark-submit 运行
- [ SPARK-34833 ] - 为相关子查询正确应用右填充
- [ SPARK-34834 ] - TransportResponseHandler 中存在潜在的 Netty 内存泄漏。
- [ SPARK-34842 ] - 更正了 TPCDS 模式中 date_dim.d_quarter_name 的类型
- [ SPARK-34845 ] - ProcfsMetricsGetter.computeAllMetrics 可能会在缺少某些子 pid 指标时返回部分指标
- [ SPARK-34857 ] - AtLeastNNonNulls 在解释中没有正确显示
- [ SPARK-34859 ] - 矢量化镶木地板阅读器需要在页面之间同步以获取列索引
- [ SPARK-34871 ] - 将检查点解析逻辑移动到规则 ResolveWriteToStream
- [ SPARK-34872 ] - quoteIfNeeded 应该引用包含非单词字符的名称
- [ SPARK-34874 ] - 恢复失败的 GA 构建的测试报告
- [ SPARK-34876 ] - 不可为空的聚合可以在相关子查询中返回 NULL
- [ SPARK-34882 ] - 如果聚合器不忽略 NULL,RewriteDistinctAggregates 可能会导致错误
- [ SPARK-34897 ] - 支持基于嵌套列修剪后的索引协调模式
- [ SPARK-34900 ] - 用户指南中用于运行基准测试的一些 `spark-submit` 命令是错误的
- [ SPARK-34909 ] - conv() 不能正确地将负输入转换为无符号
- [ SPARK-34926 ] - PartitionUtils.getPathFragment 应该处理空值
- [ SPARK-34933 ] - 删除 || 的描述 和 && 可以用作文档中的逻辑运算符。
- [ SPARK-34934 ] - 在 MetricsSystem 中注册源时出现竞争条件
- [ SPARK-34938 ] - 在 ExtractBenchmark 的基准测试中恢复区间情况
- [ SPARK-34939 ] - 无法反序列化广播地图状态时抛出获取失败异常
- [ SPARK-34948 ] - 将 ownerReference 添加到 executor configmap 以修复泄漏
- [ SPARK-34949 ] - 即使 Executor 正在关闭,Executor.reportHeartBeat 也会重新注册 blockManager
- [ SPARK-34955 ] - ADD JAR 命令无法添加路径中包含空格的 jar 文件
- [ SPARK-34963 ] - 嵌套列修剪无法从数组中提取不区分大小写的结构字段
- [ SPARK-34965 ] - 删除重复设置默认内存的 .sbtopts
- [ SPARK-34968 ] - 无法执行 python/run-tests-with-coverage cmd
- [ SPARK-34977 ] - 引用至少一个路径时,LIST FILES/ JARS /ARCHIVES 无法正确处理多个参数。
- [ SPARK-34988 ] - 针对 CVE-2021-28165 升级 Jetty
- [ SPARK-35004 ] - 修复 MasterSuite 中“前端 reverseProxy 后可用的主/工作 Web ui”的错误断言
- [ SPARK-35009 ] - 避免为同一 TaskContext 的重用 python 工作线程创建多个 Monitor 线程
- [ SPARK-35014 ] - 无法用 AttributeReference 替换可折叠表达式
- [ SPARK-35027 ] - 写入日志失败时关闭FileAppender 中的 inputStream
- [ SPARK-35079 ] - 使用 udf 进行转换会给出错误的结果
- [ SPARK-35080 ] - 具有相等谓词的相关子查询可能会返回错误的结果
- [ SPARK-35096 ] - 如果模式不区分大小写,foreachBatch 会抛出 ArrayIndexOutOfBoundsException
- [ SPARK-35104 ] - 修复当漂亮选项为 true 时 JacksonGenerator 生成的单个拆分文件中多个 JSON 记录的丑陋缩进
- [ SPARK- 35106 ] - 使用动态分区覆盖时,HadoopMapReduceCommitProtocol 执行错误的重命名
- [ SPARK-35117 ] - UI 进度条不再突出显示正在进行的任务
- [ SPARK-35134 ] - setup.py 将在执行 PySpark pip 打包测试时将不同版本的 netty jar 复制到 deps/jars
- [ SPARK-35136 ] - LiveStage.info 的初始空值可能导致 NPE
- [ SPARK-35142 ] - `OneVsRest` 分类器对 `rawPrediction` 列使用了不正确的数据类型
- [ SPARK-35176 ] - 在不适当的类型情况下引发 TypeError 而不是 ValueError
- [ SPARK-35178 ] - maven 自动下载失败
- [ SPARK-35183 ] - CombineConcats 应该调用transformAllExpressions
- [ SPARK-35207 ] - hash() 和其他哈希内置函数不规范化负零
- [ SPARK-35210 ] - 将 Jetty 升级到 9.4.40 以修复 ERR_CONNECTION_RESET 问题
- [ SPARK-35213 ] - 某些 withField 模式的损坏数据帧
- [ SPARK-35226 ] - JDBC 数据源应该接受 refreshKrb5Config 参数
- [ SPARK-35232 ] - 嵌套列修剪应保留列元数据
- [ SPARK-35244 ] - invoke 应该抛出原始异常
- [ SPARK-35246 ] - 通过 UnsupportedOperationsChecker 错误地允许流式批处理相交
- [ SPARK-35266 ] - 修复了在不存在的目录中创建基准文件时发生的 BenchmarkBase.scala 中的错误
- [ SPARK-35278 ] - Invoke 应该找到参数数量正确的方法
- [ SPARK-35287 ] - RemoveRedundantProjects 删除非冗余项目
- [ SPARK-35288 ] - StaticInvoke 应该找到没有精确参数类匹配的方法
- [ SPARK-35290 ] - 对于某些嵌套结构,带有空填充的 unionByName 失败
- [ SPARK-35296 ] - Dataset.observe 因断言而失败
- [ SPARK-35302 ] - 基准工作流应该为新基准创建新文件
- [ SPARK-35303 ] - 默认启用固定线程模式
- [ SPARK-35308 ] - 修复了 SPARK-35266 中的一个错误,该错误会在名称错误的无效路径中创建基准文件
- [ SPARK-35319 ] - 将 K8s 客户端升级到 5.3.1
- [ SPARK-35321 ] - 由于缺少 get_all_functions Thrift API,Spark 3.x 无法与 HMS 1.2.x 及更低版本通信
- [ SPARK-35326 ] - 将球衣升级到 2.34
- [ SPARK-35331 ] - 别名后 RepartitionByExpression 中的属性变得未知
- [ SPARK-35359 ] - 当数据长度超过长度限制时,使用 char/varchar 数据类型插入数据将失败
- [ SPARK-35372 ] - 由于 StackOverflowError 导致 JDK 11 编译失败
- [ SPARK-35375 ] - 使用 Jinja2 < 3.0.0 作为 GA 中的 Python linter 依赖项
- [ SPARK-35381 ] - 修复了 R API 中嵌套 DataFrame 函数中的 lambda 变量名称问题
- [ SPARK-35382 ] - 修复 Python API 中嵌套 DataFrame 函数中的 lambda 变量名称问题
- [ SPARK-35391 ] - ExecutorAllocationListener 中的内存泄漏破坏了高负载下的动态分配
- [ SPARK-35392 ] - 片状测试:ml/clustering.py 上的 GaussianMixture 和 ml/feature.py 上的 Word2Vec
- [ SPARK-35393 ] - 在 GitHub Actions 构建中跳过了 PIP 打包测试
- [ SPARK-35412 ] - 修复了 groupBy 年-月/日-时间间隔的错误
- [ SPARK-35420 ] - 用 ToStringBuilder 替换 toStringHelper 的用法
- [ SPARK-35423 ] - PCA 的输出不一致
- [ SPARK-35425 ] - 在 spark-rm/Dockerfile 中固定 jinja2 并在版本 README.md 中添加为必需的依赖项
- [ SPARK-35454 ] - 将数据集转换为数据帧后,模糊自连接不会失败
- [ SPARK-35458 ] - ARM CI 失败:无法验证 maven sha512
- [ SPARK-35463 ] - 在系统上跳过检查校验和没有“shasum”
- [ SPARK-35480 ] - percentile_approx 函数不适用于枢轴
- [ SPARK-35482 ] - 应在 BasicExecutorFeatureStep 中使用区分大小写的块管理器端口密钥
- [ SPARK-35486 ] - 即使内存可用,触发部分自溢出的 MemoryConsumer 保留也可能失败
- [ SPARK-35489 ] - 将 ORC 升级到 1.6.8
- [ SPARK-35493 ] - spark.blockManager.port 不适用于驱动程序 pod
- [ SPARK- 35512 ] - pyspark partitionBy 可能会遇到“溢出错误:无法将浮点无穷大转换为整数”
- [ SPARK-35516 ] - 存储 UI 选项卡存储级别工具提示更正
- [ SPARK-35527 ] - 修复 HiveExternalCatalogVersionsSuite 以通过 Java 11
- [ SPARK-35530 ] - 使用 Java 11 修复 DifferentiableLossAggregatorSuite 中的舍入错误
- [ SPARK-35543 ] - BlockManagerMasterEndpoint 中的小内存泄漏
- [ SPARK-35559 ] - 加速 AdaptiveQueryExecSuite 中的一项测试
- [ SPARK-35566 ] - 修复StateStoreRestoreExec的输出行数
- [ SPARK-35567 ] - 解释成本没有显示所有节点的统计数据
- [ SPARK-35573 ] - 使用 R 4.1+ 使 SparkR 测试通过
- [ SPARK-35575 ] - 在 GitHub Actions 中恢复更新构建状态
- [ SPARK-35576 ] - 在 Set 命令的结果中编辑敏感信息
- [ SPARK-35581 ] - 将特殊字符串转换为 DATE/TIMESTAMP 会返回不一致的结果
- [ SPARK-35586 ] - 在 pom.xml 中为 spark.kubernetes.test.sparkTgz 设置默认值以进行 Kubernetes 集成测试
- [ SPARK-35589 ] - BlockManagerMasterEndpoint 在更新过程中不应忽略仅索引的 shuffle 文件
- [ SPARK-35602 ] - 作业因 java.io.UTFDataFormatException 崩溃:编码字符串太长
- [ SPARK-35610 ] - Spark 解释器中的内存泄漏
- [ SPARK-35613 ] - 缓存来自 SQLMetrics、JsonProtocol 和 AccumulatorV2 的常见字符串
- [ SPARK-35643 ] - functions.py column() 中的变量引用不明确
- [ SPARK-35652 ] - 不同行为加入与自加入中的 joinWith
- [ SPARK-35653 ] - [SQL] CatalystToExternalMap 解释路径失败,用于将案例类作为键或值的 Map
- [ SPARK-35659 ] - 避免向 StateStore 写入 null
- [ SPARK-35665 ] - 解决 CollectMetrics 中的 UnresolvedAlias
- [ SPARK-35669 ] - 使用过滤器下推修复 CSV 标头中的特殊字符
- [ SPARK-35673 ] - Spark 在子查询中出现无法识别的提示时失败
- [ SPARK-35679 ] - 将有效时间戳转换为微秒时溢出
- [ SPARK-35700 ] - spark.sql.orc.filterPushdown 不适用于 Spark 3.1.1 的 varchar 数据类型表
- [ SPARK-35742 ] - Expression.semanticEquals 应该是对称的
- [ SPARK-35748 ] - 修复 StreamingJoinHelper 以能够处理日间时间间隔
- [ SPARK-35758 ] - 更新有关使用 Hadoop 为 Hadoop 2.x 和 3.x 构建 Spark 的文档
- [ SPARK-35765 ] - 不同的 aggs 不重复敏感
- [ SPARK-35767 ] - CoalesceExec 可以执行两次子计划
- [ SPARK-35783 ] - 在任务配置中设置读取列的列表以减少 ORC 数据的读取。
- [ SPARK-35798 ] - 修复 SparkPlan.sqlContext 使用
- [ SPARK-35817 ] - 对宽 Avro 表的查询可能很慢
- [ SPARK-35832 ] - 添加 LocalRootDirsTest 特性
- [ SPARK-35834 ] - 在可继承线程 API 中使用与 Py4J 相同的清理逻辑
- [ SPARK-35836 ] - 在 ShuffleBlockPusherSuite 中删除对 spark.shuffle.push.based.enabled 的引用
- [ SPARK-35841 ] - 如果数字总和大于 38,则将字符串转换为十进制类型不起作用
- [ SPARK-35842 ] - 忽略所有“.idea”目录
- [ SPARK- 35845 ] - OuterReference 解析应该拒绝不明确的列名
- [ SPARK-35851 ] - GraphGenerators.sampleLogNormal 函数中的文档错误
- [ SPARK-35858 ] - SparkPlan.makeCopy 不应设置活动会话
- [ SPARK-35868 ] - 如果未设置,则添加 fs.s3a.downgrade.syncable.exceptions
- [ SPARK-35869 ] - 运行 do-release-docker.sh 时无法运行程序“python”错误
- [ SPARK-35870 ] - 将 Jetty 升级到 9.4.42
- [ SPARK-35876 ] - array_zip 意外的列名
- [ SPARK-35878 ] - 如果未设置且 fs.s3a.endpoint.region 为空,则添加 fs.s3a.endpoint
- [ SPARK-35879 ] - 修复了由 collectFetchRequests 引起的性能回归
- [ SPARK-35881 ] - [SQL] AQE 不支持最后查询阶段的列式执行
- [ SPARK-35885 ] - 使用 keyserver.ubuntu.com 作为 CRAN 的密钥服务器
- [ SPARK-35886 ] - 十进制类型的 Codegen 问题
- [ SPARK-35887 ] - 从 javac 位置查找并设置 JAVA_HOME
- [ SPARK-35898 ] - 使用 RowToColumnConverter 转换数组会触发断言
- [ SPARK-35905 ] - 修复 UT 以清理 SQLQuerySuite 中的表/视图
- [ SPARK-35909 ] - 修复 Spark SQL 指南中的文档错误 - 入门
- [ SPARK-35921 ] - 如果使用 SBT 构建,则不会编辑 config.properties 中的 ${spark.yarn.isHadoopProvided}
- [ SPARK-35935 ] - 表刷新时修复表失败
- [ SPARK-35950 ] - 无法在 executors 页面中切换 Exec Loss Reason
- [ SPARK-35955 ] - 修复平均值的小数溢出问题
- [ SPARK-35972 ] - 当在 NestedColumnAliasing 中替换 ExtractValue 时,我们应该使用 semanticEquals
- [ SPARK-35985 ] - 文件源 V2 在为空 readDataSchema 时忽略分区过滤器
- [ SPARK-35992 ] - 将 ORC 升级到 1.6.9
- [ SPARK-35994 ] - 从 branch-3.2 发布快照
- [ SPARK-35995 ] - 在 branch-3.2 上启用 GitHub Action build_and_test
- [ SPARK-36007 ] - 无法在 GA 中运行基准测试
- [ SPARK-36011 ] - 禁止基于临时视图或 UDF 更改永久视图
- [ SPARK-36012 ] - 显示创建表时丢失空标志信息
- [ SPARK-36020 ] - 检查删除冗余项目中的逻辑链接
- [ SPARK-36052 ] - 在 K8s 上引入 Spark 的待处理 pod 限制
- [ SPARK-36067 ] - YarnClusterSuite 由于 NoClassDefFoundError 失败,除非明确激活 hadoop-3.2 配置文件
- [ SPARK-36068 ] - 除非明确激活 hadoop-3.2 配置文件,否则在 hadoop-cloud 运行中没有测试
- [ SPARK-36079 ] - 基于 Null 的过滤器估计值应始终为非负值
- [ SPARK-36081 ] - 更新有关演员修剪字符行为变化的文档
- [ SPARK- 36128 ] - CatalogFileIndex.filterPartitions 应该尊重 spark.sql.hive.metastorePartitionPruning
- [ SPARK-36129 ] - 将 commons-compress 升级到 1.21 以处理 CVE
- [ SPARK-36130 ] - 当 in.list 包含 CheckOverflow 表达式时,UnwrapCastInBinaryComparison 失败
- [ SPARK-36159 ] - 在 dev/test-dependencies.sh 中将“python”替换为“python3”
- [ SPARK-36193 ] - 恢复 SparkSubmit.runMain 不会在非 K8s 环境中停止 SparkContext
- [ SPARK-36195 ] - 将 MaxMetaspaceSize JVM 选项设置为 2g
- [ SPARK-36197 ] - 不遵守 PartitionDesc 的 InputFormat
- [ SPARK-36209 ] - https://spark.apache.org/docs/latest/sql-programming-guide.html 包含无效的 Python 文档链接
- [ SPARK-36210 ] - 在 Dataset.withColumns 中保留列插入顺序
- [ SPARK-36211 ] - `F.udf(...).asNonDeterministic() 的类型检查失败
- [ SPARK-36213 ] - 使用 PartitionSpec 规范化 DescTable 的 PartitionSpec
- [ SPARK-36225 ] - 引用不存在的数据集类的 python 文档字符串
- [ SPARK-36228 ] - 当某些 mapStatus 为 null 时跳过拆分 reducer 分区
- [ SPARK-36229 ] - conv() 不一致地处理具有 > 64 个无效字符的无效字符串
- [ SPARK-36242 ] - 在 ExternalSorter.spillMemoryIteratorToDisk 方法中将成功设置为 true 之前确保溢出文件已关闭
- [ SPARK-36244 ] - 将 zstd-jni 升级到 1.5.0-3 以避免有关缓冲区大小计算的错误
- [ SPARK-36246 ] - 带有 GHA 的 WorkerDecommissionExtendedSuite 薄片
- [ SPARK-36247 ] - 检查 char/varchar 的字符串长度并在 UPDATE/MERGE 命令中应用类型强制
- [ SPARK-36262 ] - 将 ZSTD-JNI 升级到 1.5.0-4
- [ SPARK-36268 ] - 将 mypy 版本的下限设置为 0.910
- [ SPARK-36273 ] - 相同值的比较
- [ SPARK-36275 ] - ResolveAggregateFunctions 应该与嵌套字段一起使用
- [ SPARK-36310 ] - 修复 IndexOpsMixin 中的 hasnan() 窗口函数
- [ SPARK-36315 ] - 如果 AQEShuffleReadRule 违反分发要求,则仅在最后阶段跳过它
- [ SPARK-36339 ] - aggsBuffer 应该收集地图范围内的 AggregateExpression
- [ SPARK-36352 ] - Spark 应该检查结果计划的输出模式名称
- [ SPARK-36354 ] - EventLogFileReaders 不应该在没有事件日志文件的情况下抱怨
- [ SPARK-36372 ] - ALTER TABLE ADD COLUMNS 应该检查 v2 命令的指定列的重复项
- [ SPARK-36379 ] - JSON 数组根级别的 Null 导致解析失败(w/permissive 模式)
- [ SPARK-36381 ] - ALTER TABLE ADD/RENAME COLUMNS 检查存在不使用 v2 命令区分大小写。
- [ SPARK-36383 ] - 在执行程序关闭期间抛出 NullPointerException
- [ SPARK-36389 ] - 在 ShuffleBlockId 中恢复接受负 mapId 的更改
- [ SPARK-36391 ] - 当获取块抛出 NPE 时,改进错误消息
- [ SPARK-36398 ] - 编辑 Spark Thrift Server 日志中的敏感信息
- [ SPARK-36400 ] - 在 Spark Thrift Server UI 中编辑敏感信息
- [ SPARK-36421 ] - 验证所有 SQL 配置以防止错误使用 ConfigEntry
- [ SPARK-36428 ] - 'make_timestamp' 的 'seconds' 参数应该接受整数类型
- [ SPARK-36429 ] - 当数据类型不受支持时,JacksonParser 应该抛出异常。
- [ SPARK-36430 ] - 在 AQE 中合并混洗分区时自适应地计算目标大小
- [ SPARK-36432 ] - 将 Jetty 版本升级到 9.4.43
- [ SPARK-36440 ] - Spark3 无法读取混合格式的 hive 表
- [ SPARK-36441 ] - 在 GA 上下载 lintr 依赖项失败
- [ SPARK-36447 ] - 避免使用 CTE 内联非确定性
- [ SPARK-36449 ] - ALTER TABLE REPLACE COLUMNS 应检查 v2 命令的指定列的重复项
- [ SPARK-36454 ] - 不将分区过滤器下推到 DSv2 的 ORCScan
- [ SPARK-36463 ] - 在会话窗口的本机支持中禁止更新模式
- [ SPARK-36464 ] - 修复 ChunkedByteBufferOutputStream 中用于写入超过 2GB 数据的底层大小变量初始化
- [ SPARK-36466 ] - 视图引用的卸载目录中的表应该正确加载
- [ SPARK-36480 ] - SessionWindowStateStoreSaveExec 不应根据水印过滤输入行
- [ SPARK-36483 ] - 修复由于 netty 依赖版本碰撞导致的间歇性测试失败
- [ SPARK-36489 ] - 在没有分组键的情况下聚合函数,在具有单个存储桶的表上返回多行
- [ SPARK-36500 ] - 任务中断时不会清除 temp_shuffle 文件
- [ SPARK-36501 ] - LSHModel.approxSimilarityJoin 可以生成无效的列名
- [ SPARK-36532 ] - CoarseGrainedExecutorBackend.onDisconnected 中的死锁
- [ SPARK-36551 ] - 在 Spark 发布 Dockerfile 中添加 sphinx-plotly-directive
- [ SPARK-36552 ] - varchar 数据类型在 hive 表和数据源表上的行为不同
- [ SPARK-36564 ] - LiveRDDDDistribution.toApi 抛出 NullPointerException
- [ SPARK-36574 ] - pushDownPredicate=false 应该防止将过滤器下推到 JDBC 数据源
- [ SPARK-36585 ] - 支持在 FunctionRegistry 中设置“since”版本
- [ SPARK-36590 ] - 应在会话 tz 中转换特殊的 timestamp_ntz 值
- [ SPARK-36594 ] - ORC 矢量化阅读器应正确检查最大字段数
- [ SPARK-36603 ] - 在 LevelDB 中使用 WeakReference 而非 SoftReference 以避免保留迭代器引用
- [ SPARK-36619 ] - HDFSBackedStateStore 和 RocksDBStateStore 存在前缀扫描错误
- [ SPARK-36639 ] - 带有间隔的 SQL 序列函数在最新版本中返回意外错误
- [ SPARK-36667 ] - 在 StateStoreSuite/RocksDBStateStoreSuite 中正确关闭资源
- [ SPARK-36669 ] - 无法加载 Lz4 编解码器
- [ SPARK-36673 ] - 字段名称大小写不匹配的结构联合不正确
- [ SPARK-36677 ] - NestedColumnAliasing 将聚合函数下推到投影中
- [ SPARK-36684 ] - 使用 hadoop-2.7 配置文件测试 sql/core 模块时清理“无法加载文件系统”警告日志
- [ SPARK-36686 ] - 将 SimplifyConditionalsInPredicate 修复为空安全
- [ SPARK-36696 ] - spark.read.parquet 加载空数据集
- [ SPARK-36700 ] - 由于延迟删除 BlockManager,BlockManager 重新注册被破坏
- [ SPARK-36704 ] - 启动时 Java 9+ 中的 InaccessibleObjectException
- [ SPARK-36715 ] - 爆炸(UDF)抛出异常
- [ SPARK-36717 ] - 错误的变量初始化顺序可能会导致错误的行为
- [ SPARK-36722 ] - 考拉中的更新功能问题 - pyspark pandas。
- [ SPARK- 36725 ] - 确保 HiveThriftServer2Suites 在退出时停止 Thrift JDBC 服务器
- [ SPARK-36726 ] - 将 Parquet 升级到 1.12.1
- [ SPARK-36732 ] - 将 ORC 升级到 1.6.11
- [ SPARK-36738 ] - 关于 Cot API 的错误描述
- [ SPARK-36740 ] - 集合操作符应该处理重复的 NaN
- [ SPARK-36764 ] - 在KafkaContinuousTest 中修复“确保使用连续流”的竞争条件
- [ SPARK-36772 ] - 由于尝试 ID 不匹配,FinalizeShuffleMerge 失败并出现异常
- [ SPARK-36782 ] - 迁移 shuffle 块时 map-output-dispatcher 和 dispatcher-BlockManagerMaster 之间的死锁
- [ SPARK-36783 ] - ScanOperation 不应通过非确定性项目推送过滤器
- [ SPARK-36789 ] - 使用正确的常量类型作为数组函数中的空值持有者
- [ SPARK-36803 ] - ClassCastException:读取旧 Parquet 文件时可选的 int32 col-0 不是一个组
- [ SPARK-36806 ] - 在 K8s R 镜像中使用 R 4.0.4
- [ SPARK-36827 ] - 任务/阶段/作业数据保留在内存中导致内存泄漏
- [ SPARK-36835 ] - Spark 3.2.0 POM 不再“依赖减少”
- [ SPARK-36836 ] - bit_length 为 224 的“sha2”表达式返回不正确的结果
- [ SPARK-36856 ] - 通过“./build/mvn”构建可能会卡在 MacOS 上
- [ SPARK-36873 ] - 为 network-yarn 模块添加提供的 Guava 依赖项
- [ SPARK-36874 ] - 仅在正确的数据帧上检测到不明确的自联接
- [ SPARK-36892 ] - 启用基于推送的洗牌时禁用洗牌的批量提取
- [ SPARK-36907 ] - Spark 上的 Pandas API:DataFrameGroupBy.apply 在返回 Series 时引发异常。
- [ SPARK-36926 ] - Spark 3.2 的 TPCH Q22 中的差异
- [ SPARK-36979 ] - 将 RewriteLateralSubquery 规则添加到 nonExcludableRules 中
- [ SPARK-37030 ] - Maven 构建在 Windows 中失败!
New Feature
- [ SPARK-595 ] - 文档“本地集群”模式
- [ SPARK-7768 ] - 公开用户定义类型 (UDT) API
- [ SPARK-10816 ] - 基于 EventTime 的会话化(会话窗口)
- [ SPARK-21957 ] - 添加 current_user 函数
- [ SPARK-24818 ] - 确保同一阶段的所有障碍任务一起启动
- [ SPARK-33527 ] - 扩展解码功能,与主流数据库保持一致
- [ SPARK-33597 ] - 支持 REGEXP_LIKE 以与主流数据库保持一致
- [ SPARK-33662 ] - 将版本设置为 3.2.0-SNAPSHOT
- [ SPARK-33995 ] - 使年、周、小时、分钟和秒的日期时间添加更容易
- [ SPARK-34080 ] - 添加 UnivariateFeatureSelector 以弃用现有选择器
- [ SPARK-34142 ] - 在停止 SparkContext 期间支持回退存储清理
- [ SPARK-34165 ] - 向数据集#summary添加 countDistinct 选项
- [ SPARK-34246 ] - ANSI 模式下的新型强制语法规则
- [ SPARK-34316 ] - 支持 spark.kubernetes.executor.disableConfigMap
- [ SPARK-34376 ] - 支持正则表达式作为函数
- [ SPARK-34377 ] - 支持镶木地板数据源选项以控制读取中的日期时间变基
- [ SPARK-34404 ] - 支持 Avro 数据源选项以控制读取中的日期时间变基
- [ SPARK-34920 ] - 将 SQLSTATE 和 ERRORCODE 引入 SQL 异常
- [ SPARK-35028 ] - ANSI 模式:禁止按别名分组
- [ SPARK-35125 ] - 将 K8s 客户端升级到 5.3.0 以支持 K8s 1.20
- [ SPARK-35131 ] - 支持应用程序终止期间的早期驱动程序服务清理
- [ SPARK- 35380 ] - 支持从 ServiceLoader 加载 SparkSessionExtensions
- [ SPARK-35593 ] - 支持重用 PVC 上的随机数据恢复
Story
- [ SPARK-35936 ] - 弃用 Python 3.6 支持
- [ SPARK-35976 ] - 在 Spark 上的 Pandas API 中为 ExtensionDtype 调整 `astype` 方法
Improvement
- [ SPARK-22256 ] - 引入 spark.mesos.driver.memoryOverhead
- [ SPARK-26138 ] - 当条件为空时通过 InnerLike 进行下推限制
- [ SPARK-27658 ] - 用于加载函数的目录 API
- [ SPARK-28220 ] - 当父过滤器被完全按下时,加入可折叠条件不会被按下
- [ SPARK-28940 ] - 跨所有子查询级别的子查询重用
- [ SPARK-29223 ] - Kafka 源:按时间戳偏移 - 允许为“所有分区”指定时间戳
- [ SPARK-29250 ] - 升级到 Hadoop 3.3.1
- [ SPARK-29330 ] - 允许用户选择 Spark Shuffle 服务的名称
- [ SPARK-29375 ] - 跨所有子查询级别的 Exchange 重用
- [ SPARK-30027 ] - 支持 HashAggregateExec 中过滤器表达式的代码生成
- [ SPARK-30602 ] - SPIP:支持基于推送的 shuffle 以提高 shuffle 效率
- [ SPARK-31891 ] - 如果分区特定位置不再存在,`ALTER TABLE multipartIdentifier RECOVER PARTITIONS` 应该删除分区
- [ SPARK-31897 ] - 为 GenerateExec 启用代码生成
- [ SPARK-31936 ] - 在 sql/core 中实现 ScriptTransform
- [ SPARK-32161 ] - 隐藏 SparkUpgradeException 的 JVM 回溯
- [ SPARK-32320 ] - 删除可变默认参数
- [ SPARK-32384 ] - repartitionAndSortWithinPartitions避免使用相同的分区器进行洗牌
- [ SPARK-32484 ] - BroadcastExchangeExec.scala 中的日志信息不准确
- [ SPARK-32668 ] - HiveGenericUDTF 初始化 UDTF 应使用 StructObjectInspector 方法
- [ SPARK-32703 ] - 替换来自 SpecificParquetRecordReaderBase 的弃用 API 调用
- [ SPARK-32855 ] - 改进某些加入类型的 DPP 不支持广播过滤端
- [ SPARK-32864 ] - 支持 ORC 强制位置进化
- [ SPARK-32953 ] - 使用 Arrow self_destruct 降低 toPandas 中的内存使用量
- [ SPARK-32985 ] - 分离桶过滤器修剪和桶表扫描
- [ SPARK-33084 ] - 添加 jar 支持 ivy 路径
- [ SPARK-33122 ] - 删除 Optimzier 中的冗余聚合
- [ SPARK-33207 ] - 减少桶修剪后启动的任务数量
- [ SPARK-33212 ] - 升级到 Hadoop 3.2.2 并移动到 Hadoop 3.x 配置文件的着色客户端
- [ SPARK-33261 ] - 允许人们扩展 pod 功能步骤
- [ SPARK-33346 ] - 将从未改变的 var 更改为 val
- [ SPARK-33434 ] - 文档 spark.conf.isModifiable()
- [ SPARK-33489 ] - 支持 null 与 Arrow 类型的转换
- [ SPARK-33497 ] - 覆盖某些 LogicalPlan 中的 maxRows
- [ SPARK-33518 ] - 通过 GEMV 提高 ML ALS 推荐的性能
- [ SPARK-33526 ] - 添加配置以控制是否在 thriftserver 上取消调用中断任务
- [ SPARK-33532 ] - 在 SpecificParquetRecordReaderBase.initialize 方法中删除无法访问的分支
- [ SPARK-33609 ] - word2vec 减少广播大小
- [ SPARK-33617 ] - 避免为 INSERT INTO TABLE 从 VALUES 生成小文件
- [ SPARK-33651 ] - 允许 CREATE EXTERNAL TABLE with LOCATION 用于数据源表
- [ SPARK-33655 ] - Thrift 服务器:FETCH_PRIOR 不会导致从开始位置重复。
- [ SPARK-33660 ] - 更新结构化流中的 Kafka 头文件
- [ SPARK-33678 ] - 数值积聚合
- [ SPARK-33684 ] - 将 httpclient 从 4.5.6 升级到 4.5.13
- [ SPARK-33690 ] - 在 showString 中转义元字符
- [ SPARK-33700 ] - 尝试下推镶木地板的过滤器,兽人应该添加额外的“filters.nonEmpty”条件
- [ SPARK-33717 ] - 弃用 spark.launcher.childConectionTimeout
- [ SPARK-33720 ] - 仅支持使用令牌提交给 k8s
- [ SPARK-33724 ] - 允许配置退役脚本位置
- [ SPARK-33735 ] - 在 ReplaceNullWithFalseInPredicate 中处理更新
- [ SPARK-33736 ] - 在 ReplaceNullWithFalseInPredicate 中处理 MERGE
- [ SPARK-33741 ] - 添加最小阈值推测配置
- [ SPARK-33750 ] - 在 HiveExternalCatalogVersionsSuite 中使用 `hadoop-3.2` 发行版
- [ SPARK-33758 ] - 当属性不是输出的一部分时,修剪不必要的输出分区。
- [ SPARK-33763 ] - 添加指标以更好地跟踪动态分配
- [ SPARK-33769 ] - 改进sql组件处理Column类型的次日功能
- [ SPARK-33790 ] - 减少 SingleFileEventLogFileReader 中 getFileStatus 的 rpc 调用
- [ SPARK-33800 ] - 当关系未解析时删除 AnalysisException 消息中的命令名称
- [ SPARK-33801 ] - 清除“不推荐使用三引号字符串中的 Unicode 转义”编译警告
- [ SPARK-33804 ] - 清除“不推荐使用视图边界”编译警告
- [ SPARK-33806 ] - 通过可折叠表达式分发时将分区 num 限制为 1
- [ SPARK-33812 ] - 将直方图列统计信息作为表属性保存到 hive Metastore 时
- [ SPARK-33817 ] - 使用逻辑计划来缓存而不是数据帧
- [ SPARK-33827 ] - 一旦状态存储变为非活动状态,尽快卸载它
- [ SPARK-33835 ] - Refector AbstractCommandBuilder
- [ SPARK-33857 ] - 统一随机函数并使 Uuid Shuffle 支持 SQL 中的种子
- [ SPARK-33870 ] - 默认启用 spark.storage.replication.proactive
- [ SPARK-33890 ] - 改进trim/trimleft/trimright的实现
- [ SPARK-33908 ] - 重构 SparkSubmitUtils.resolveMavenCoordinates 返回参数
- [ SPARK-33909 ] - 检查 rand 函数种子在分析端是否合法
- [ SPARK-33925 ] - 删除 Utils.fetchFile 中未使用的 SecurityManager
- [ SPARK-33932 ] - 清理 KafkaOffsetReader API 文档
- [ SPARK-33936 ] - 添加连接器方法和接口时添加的版本
- [ SPARK-33937 ] - 在插入重写配置单元表时将旧分区数据移动到垃圾箱而不是删除它
- [ SPARK-33939 ] - 使 Column.named 使用 UnresolvedAlias 分配名称
- [ SPARK-33951 ] - 区分 filter 和 distinct 之间的错误
- [ SPARK-33955 ] - 将最新的偏移量添加到源进度
- [ SPARK-33964 ] - 在更多情况下组合不同的联合
- [ SPARK-33971 ] - 消除更多聚合
- [ SPARK-33983 ] - 将 cloudpickle 更新到 v1.6.0
- [ SPARK-33984 ] - 升级到 Py4J 0.10.9.1
- [ SPARK-33988 ] - 添加一个选项以在 TPCDSQueryBenchmark 中启用 CBO
- [ SPARK-33989 ] - 使用 Cast.sql 时去除自动生成的演员表
- [ SPARK-33991 ] - 修复 AllJobsPage 的枚举转换错误
- [ SPARK-33998 ] - 重构 v2CommandExec 以提供 API 来创建 InternalRow
- [ SPARK-34001 ] - 删除 DataSourceV2SQLSuite.scala 中未使用的 runShowTablesSql()
- [ SPARK-34004 ] - 将 FrameLessOffsetWindowFunction 更改为密封抽象类
- [ SPARK-34005 ] - 在任务结束时更新每个 Executor 的峰值内存指标。
- [ SPARK-34008 ] - 将德比升级到 10.14.2.0
- [ SPARK-34009 ] - 基于操作系统激活配置文件“aarch64”
- [ SPARK-34028 ] - 清除“无法访问的代码”编译警告
- [ SPARK-34029 ] - 添加 OrcEncryptionSuite 和 FakeKeyProvider
- [ SPARK-34030 ] - 在优化器中折叠 RepartitionExpression num 分区
- [ SPARK-34037 ] - 删除了内部自行处理的 Avg & Sum 的不必要向上转换
- [ SPARK-34045 ] - OneVsRestModel.transform 不应调用子模型的 setter
- [ SPARK-34046 ] - 在连接的测试用例中使用连接提示
- [ SPARK-34047 ] - 在单个分区中保存树模型
- [ SPARK-34051 ] - 支持字符串文字中的 32 位 unicode 转义
- [ SPARK-34059 ] - 使用 for/foreach 而不是 map 来确保急切地执行它
- [ SPARK-34065 ] - 仅在 GitHub Actions 的 PR 中取消重复的作业
- [ SPARK-34067 ] - PartitionPruning 将 pruningHasBenefit 函数下推到 insertPredicate 函数中以减少计算时间
- [ SPARK-34068 ] - 删除 Spark 代码中的冗余集合转换
- [ SPARK-34070 ] - 用存在替换查找和空性检查。
- [ SPARK-34074 ] - 当表大小改变时更新统计信息
- [ SPARK-34081 ] - 如果加入可以计划为广播加入,则仅在聚合上下推 LeftSemi/LeftAnti
- [ SPARK-34092 ] - 支持在特定阶段的 REST API 调用中按任务状态过滤
- [ SPARK-34093 ] - 参数 maxDepth 应该检查上限
- [ SPARK-34094 ] - 扩展 StringTranslate 以支持代码点 >= U+10000 的 unicode 字符
- [ SPARK-34099 ] - 在 `DataSourceV2Strategy` 中重构表缓存
- [ SPARK-34101 ] - 通过 SET 命令使 spark-sql CLI 可配置为打印标题的行为
- [ SPARK-34123 ] - 在 HistoryPage 中显示/呈现条目的更快方法(Spark 历史服务器摘要页面)
- [ SPARK-34129 ] - 将表名添加到 LogicalRelation.simpleString
- [ SPARK-34147 ] - 启用 CBO 时,在 TPCDSQueryBenchmark 中保持数据分区
- [ SPARK-34150 ] - 在解析别名中删除Null literal.sql
- [ SPARK-34153 ] - 从 `HiveExternalCatalog.alterPartitions()` 中删除未使用的 `getRawTable()`
- [ SPARK-34155 ] - 为 TPCDS 表添加分区列
- [ SPARK-34164 ] - 改进写入侧 varchar 检查以仅访问最后几个尾随空间
- [ SPARK-34182 ] - [AVRO] 匹配 Catalyst-to-Avro 模式时改进错误消息
- [ SPARK-34186 ] - 修复 DockerJDBCIntegrationSuites 以反映SPARK-33888的变化
- [ SPARK-34189 ] - w2v findSynonyms 优化
- [ SPARK-34206 ] - 将 Guava 缓存设置为 ExecutorPodsLifecycleManager 私有字段
- [ SPARK-34207 ] - 在“SessionCatalog”中将“isTemporaryTable”重命名为“isTempView”
- [ SPARK-34209 ] - 允许具有会话目录的多个命名空间
- [ SPARK-34220 ] - BucketedRandomProjectionLSH 变换选项
- [ SPARK-34222 ] - 增强布尔简化规则
- [ SPARK-34234 ] - 删除无效的 TreeNodeException
- [ SPARK-34245 ] - 当 Worker 无法发送 ExecutorStateChanged 时,Master 可能不会删除完成的 executor
- [ SPARK-34255 ] - DataSource V2:支持对所需分布和排序进行静态分区
- [ SPARK- 34256 ] - VectorSlicer 优化 numFeatures 检查和 toString 方法
- [ SPARK-34261 ] - 如果 create 存在临时函数,则避免副作用
- [ SPARK-34263 ] - 简化处理字符串文字中的 unicode/octal/escaped 字符的代码
- [ SPARK-34269 ] - 简化视图分辨率
- [ SPARK-34271 ] - 使用 majorMinorPatchVersion 进行 Hive 版本解析
- [ SPARK-34275 ] - 用计数替换过滤器和大小
- [ SPARK-34278 ] - 使 BlockManagerMaster 驱动程序心跳超时可配置
- [ SPARK-34283 ] - 使用“Dataset.union.distinct.union.distinct”时将所有相邻的“联合”运算符合并为一个“联合”
- [ SPARK-34284 ] - 修复了已弃用的 commons-io API 使用
- [ SPARK-34288 ] - 在 executors 页面中为 `resources` 列添加提示信息
- [ SPARK-34291 ] - LSH hashDistance 优化
- [ SPARK-34295 ] - 允许类似于 mapreduce.job.hdfs-servers.token- renewal.exclude 的选项
- [ SPARK-34297 ] - 为 KafkaMicroBatchStream 添加数据丢失和偏移范围的指标
- [ SPARK-34299 ] - 清理 ResolveSessionCatalog
- [ SPARK-34307 ] - 如果输入 rdd 具有单个分区,则 TakeOrderedAndProjectExec 避免随机播放
- [ SPARK-34308 ] - 在 printSchema 中转义元字符
- [ SPARK-34310 ] - 用 flatMap 替换地图和展平
- [ SPARK-34317 ] - 将relationTypeMismatchHint 引入UnresolvedTable 以获得更好的错误信息
- [ SPARK-34324 ] - 默认情况下,FileTable 不应在功能中列出 TRUNCATE
- [ SPARK-34325 ] - remove_shuffleBlockResolver_in_SortShuffleWriter
- [ SPARK-34335 ] - 支持通过表别名引用具有列别名的子查询
- [ SPARK-34339 ] - 在 Utils.buildLocationMetadata() 中公开截断路径的数量
- [ SPARK-34342 ] - 格式化 DateLiteral 和 TimestampLiteral toString
- [ SPARK-34343 ] - 为 PostgreSQL 中的一些非数组类型添加缺少的测试
- [ SPARK-34350 ] - 用 DateTimeTestUtils.withDefaultTimeZone 替换 OracleIntegrationSuite 中定义的 withTimeZone
- [ SPARK-34353 ] - 如果输入 rdd 有单个分区,CollectLimitExec 避免随机播放
- [ SPARK-34355 ] - 添加提交作业的日志和时间成本
- [ SPARK-34356 ] - OVR 变换修复潜在的列冲突
- [ SPARK-34357 ] - 将 JDBC SQL TIME 类型映射到 TimestampType,无论时区如何,时间部分都是固定的
- [ SPARK-34365 ] - 支持可配置的 Avro 模式字段匹配位置或按名称
- [ SPARK-34374 ] - 使用标准方法从 Map 中提取键或值。
- [ SPARK-34375 ] - 用 `Mockito.openMocks` 替换 `Mockito.initMocks`
- [ SPARK-34383 ] - 优化 SS 上的 WAL 提交阶段
- [ SPARK-34385 ] - 在 v2 Parquet 数据源中解包 SparkUpgradeException
- [ SPARK-34388 ] - 将注册的 UDF 名称传播到 ScalaUDAF 和 ScalaAggregator
- [ SPARK-34391 ] - 将 commons-io 升级到 2.8.0
- [ SPARK-34395 ] - 清理未使用的代码以简化代码
- [ SPARK-34399 ] - 将文件提交时间添加到指标并显示在 SQL 选项卡 UI 中
- [ SPARK-34408 ] - 重构 spark.udf.register 以共享相同的路径来生成 UDF 实例
- [ SPARK-34416 ] - 除了 avroSchema 还支持 avroSchemaUrl
- [ SPARK-34419 ] - 将 PartitionTransforms 从 java 移动到 Scala 目录
- [ SPARK-34420 ] - 如果非流式重复数据删除没有被聚合替换,则抛出异常
- [ SPARK-34426 ] - 当测试失败时,将驱动程序和执行程序 POD 日志添加到集成测试日志中
- [ SPARK-34428 ] - 将 sbt 版本更新到 1.4.7
- [ SPARK-34433 ] - Gemfile 和 Bundler 锁定 jekyll 版本
- [ SPARK-34434 ] - 在 SparkUpgradeException 中提及 DS rebase 选项
- [ SPARK-34451 ] - 添加日期时间变基 SQL 配置的替代方案并弃用旧配置
- [ SPARK-34454 ] - 来自旧命名空间的 SQL 配置必须是内部的
- [ SPARK-34455 ] - 弃用 spark.sql.legacy.replaceDatabricksSparkAvro.enabled
- [ SPARK-34456 ] - 从 BatchWriteHelper 中删除未使用的写入选项
- [ SPARK-34457 ] - 数据源 V2:向 SortDirection 添加默认空排序
- [ SPARK-34467 ] - 将 Zstd-jni 升级到 1.4.8-4
- [ SPARK-34474 ] - 在类似操作符的 Distinct 下删除不必要的联合
- [ SPARK-34481 ] - 重构数据帧读写器路径选项逻辑
- [ SPARK-34482 ] - 更正用于流式查询的活动 SparkSession
- [ SPARK-34486 ] - 将 kubernetes-client 升级到 4.13.2
- [ SPARK-34495 ] - 添加 DedicatedJVMTest 测试标签
- [ SPARK-34500 ] - 在示例和文档中用 $"" 替换符号文字
- [ SPARK-34502 ] - 删除连接方法中未使用的参数
- [ SPARK-34514 ] - LEFT SEMI 和 LEFT ANTI 连接的下限
- [ SPARK-34518 ] - 将 `AlterTableRecoverPartitionsCommand` 重命名为 `RepairTableCommand`
- [ SPARK-34520 ] - 删除未使用的 SecurityManager 引用
- [ SPARK-34524 ] - 简化 v2 分区命令解析
- [ SPARK-34535 ] - 清理 Orc 相关代码中未使用的符号
- [ SPARK-34539 ] - 在 scala-maven-plugin 4.x 之后 Zinc 独立服务器没用
- [ SPARK-34542 ] - 将 Parquet 升级到 1.12.0
- [ SPARK-34548 ] - 在区分和重复数据删除下从联盟中删除不必要的孩子
- [ SPARK-34553 ] - 在翻译贡献者中将 GITHUB_API_TOKEN 重命名为 GITHUB_OAUTH_KEY
- [ SPARK-34562 ] - 利用镶木地板布隆过滤器
- [ SPARK-34570 ] - 从 [Hive]SessionStateBuilder 的构造函数中删除死代码
- [ SPARK-34573 ] - SQLConf sqlConfEntries 映射具有全局锁定,不应锁定获取
- [ SPARK-34575 ] - partitionSpec 为空时通过窗口下限
- [ SPARK-34578 ] - 当 ORC 通过其他测试被旧 Hadoop 库加载时忽略 ORC 加密测试
- [ SPARK-34585 ] - 完全删除 BatchWriteHelper
- [ SPARK-34590 ] - 允许 JDWP 调试进行测试
- [ SPARK-34592 ] - 在 Web UI 中标记不确定的 RDD
- [ SPARK-34597 ] - 用 `ParquetFileReader.open 和 getFooter` 替换 `ParquetFileReader.readFooter`
- [ SPARK-34598 ] - RewritePredicateSubquery 规则不得在没有子查询的情况下更新过滤器
- [ SPARK-34603 ] - 支持 ADD ARCHIVE 和 LIST ARCHIVES 命令
- [ SPARK-34609 ] - 统一 resolveExpressionBottomUp 和 resolveExpressionTopDown
- [ SPARK-34622 ] - 通过项目下限
- [ SPARK-34627 ] - 在 UnresolvedTableValuedFunction 中使用 FunctionIdentifier
- [ SPARK-34628 ] - 如果是子最大行 <= 限制,则删除GlobalLimit运算符
- [ SPARK-34635 ] - 在 URL 中添加尾部斜杠以减少不必要的重定向
- [ SPARK-34638 ] - Spark SQL 读取不必要的嵌套字段(另一种类型的修剪案例)
- [ SPARK-34639 ] - 始终删除 Analyzer.resolveExpression 中不必要的别名
- [ SPARK-34657 ] - 将发布标签替换为散列以隐藏 Binder 中的 RC 标签
- [ SPARK-34661 ] - 在 VectorizedColumnReader 中用“LogicalTypeAnnotation”替换“OriginalType”
- [ SPARK-34665 ] - 修订 ANSI 合规性的类型强制部分
- [ SPARK-34678 ] - 添加表函数注册表
- [ SPARK-34685 ] - 升级到 Py4J 0.10.9.2
- [ SPARK-34686 ] - Py4J 0.10.9.1 已发布错误修复。我们也应该在 PySpark 中更好地升级。
- [ SPARK-34688 ] - 升级到 Py4J 0.10.9.2
- [ SPARK-34692 ] - 支持 Not(Int) 和 Not(InSet) 传播 null
- [ SPARK-34712 ] - 重构关于 hive UT 的 UT
- [ SPARK-34722 ] - 清理与 JUnit 相关的不推荐使用的 API
- [ SPARK-34728 ] - 如果从 SQLConfHelper 扩展,则删除所有 SQLConf.get
- [ SPARK-34749 ] - 简化 CreateNamedStruct
- [ SPARK-34752 ] - 将 Jetty 升级到 9.4.37 以修复 CVE-2020-27223
- [ SPARK-34758 ] - 简化 Analyzer.resolveLiteralFunction
- [ SPARK-34762 ] - 许多 PR 的 Scala 2.13 构建操作失败
- [ SPARK-34764 ] - 将执行器丢失的原因传播到 UI
- [ SPARK-34766 ] - 不要为视图捕获 maven 配置
- [ SPARK-34778 ] - 升级到 Avro 1.10.2
- [ SPARK-34779 ] - ExecutorMetricsPoller 应在 stageTCMP 中保持阶段条目,直到发生心跳
- [ SPARK-34781 ] - 使用AQE消除左半/反连接到其左子侧
- [ SPARK-34783 ] - 支持远程模板文件
- [ SPARK-34784 ] - 将 Jackson 升级到 2.12.2
- [ SPARK-34787 ] - Spark historyServer 日志中的选项变量应显示为实际值而不是 Some(XX)
- [ SPARK-34789 ] - 为使用 HTTP(S) 的集成测试引入基于 Jetty 的构造
- [ SPARK-34800 ] - 在 SessionCatalog.tableExists 中使用细粒度锁
- [ SPARK-34807 ] - 在 TransposeWindow 之后通过窗口向下推过滤器
- [ SPARK-34808 ] - 如果外连接仅在流式传输端有不同,则删除外连接
- [ SPARK-34809 ] - 默认启用 spark.hadoopRDD.ignoreEmptySplits
- [ SPARK-34810 ] - 使用最新结果更新 PostgreSQL 测试
- [ SPARK-34812 ] - RowNumberLike 和 RankLike 不应该为空
- [ SPARK-34815 ] - 更新 CSVBenchmark
- [ SPARK-34816 ] - 支持 Parquet 无符号逻辑类型
- [ SPARK-34818 ] - 重新排序用户指南中的项目
- [ SPARK-34821 ] - 为开发人员设置工作流以在他们的 fork 中运行基准测试
- [ SPARK-34828 ] - YARN Shuffle 服务:支持辅助服务名称和服务特定配置覆盖的可配置性
- [ SPARK-34843 ] - JDBCRelation columnPartition 函数不正确地确定步幅大小。由于步幅对齐,上限偏斜。
- [ SPARK-34848 ] - 在 TaskMetricsDistribution 中添加持续时间
- [ SPARK-34852 ] - 关闭 Hive 会话状态应使用 withHiveState
- [ SPARK-34853 ] - 将分区和排序移动到共同的限制特征
- [ SPARK-34854 ] - 使用 Kafka 源用例通过进度报告器报告流源的指标
- [ SPARK-34869 ] - 使用描述 pods 输出扩展 k8s“失败测试的额外日志”部分
- [ SPARK-34877 ] - 在 master 为 yarn 和部署模式为 client 的情况下添加 Spark AM Log 链接
- [ SPARK-34884 ] - 改进动态分区修剪评估
- [ SPARK-34894 ] - 使用“io.connectionTimeout”代替“spark.network.timeout”作为提示
- [ SPARK-34906 ] - 将 TreeNode 的子节点处理方法重构为专门的特征
- [ SPARK-34907 ] - 添加运行所有基准测试的主类
- [ SPARK-34908 ] - 使用函数为 char 和 varchar 添加测试用例
- [ SPARK-34915 ] - 在所有使用它们的作业中缓存 Maven、SBT 和 Scala
- [ SPARK-34919 ] - 如果分区号为 1,则将分区更改为 SinglePartition
- [ SPARK-34922 ] - 使用更好的 CBO 成本函数
- [ SPARK-34923 ] - 元数据输出不应该总是传播
- [ SPARK-34932 ] - 弃用 GROUP BY ... GROUPING SETS (...) 并提升 GROUP BY GROUPING SETS (...)
- [ SPARK-34935 ] - CREATE TABLE LIKE 应该尊重表的保留属性
- [ SPARK-34940 ] - 修复 BasicWriteTaskStatsTrackerSuite 中的次要单元测试
- [ SPARK-34944 ] - 在 TPCDS 测试中为 web_returns 和 store_returns 使用正确的数据类型
- [ SPARK-34945 ] - 修复催化剂模块的 Javadoc
- [ SPARK-34946 ] - 在聚合中阻止不支持的相关标量子查询
- [ SPARK-34950 ] - 将基准测试结果更新为由 GitHub Actions 机器创建的结果
- [ SPARK-34962 ] - MergeIntoTable 的更新和插入操作中星的显式表示
- [ SPARK-34969 ] - 将 TreeNode 的子级处理方法重构为特殊特征的后续行动 (SPARK-34906)
- [ SPARK-34973 ] - 清理矢量化 Parquet 阅读器中未使用的字段和方法
- [ SPARK-34989 ] - 提高 mapChildren 和 withNewChildren 方法的性能
- [ SPARK-35002 ] - 使用 Github Action 测试时修复 java.net.BindException
- [ SPARK-35003 ] - 提高在矢量化 Parquet 阅读器中读取 smallint 的性能
- [ SPARK-35005 ] - 如果 UTF8String concatWs 长度溢出,则改进错误消息
- [ SPARK-35013 ] - Spark 允许设置 spark.driver.cores=0
- [ SPARK-35023 ] - 删除 SBT 构建文件中不推荐使用的语法
- [ SPARK-35029 ] - 提取一种新方法来消除 `BufferReleasingInputStream` 中的重复代码
- [ SPARK-35041 ] - 修改 UTF8String 中的溢出
- [ SPARK-35044 ] - 支持通过 SET 语法检索 hadoop 配置
- [ SPARK-35045 ] - 添加一个内部选项来控制 univocity 中的输入缓冲区
- [ SPARK-35047 ] - 允许 Json 数据源将非 ascii 字符写入代码点
- [ SPARK-35049 ] - 删除 BlockStoreShuffleReader 中未使用的 MapOutputTracker
- [ SPARK-35061 ] - 将 pycodestyle 从 2.6.0 升级到 2.7.0
- [ SPARK-35074 ] - spark.jars.xxx 配置应该移动到 config/package.scala
- [ SPARK-35083 ] - 支持远程调度程序池文件
- [ SPARK-35086 ] - --verbose 没有传递给 SparkSQLCliDriver
- [ SPARK-35087 ] - stage-detail 页面的 `Aggregated Metrics`表中的某些列显示不正确。
- [ SPARK-35092 ] - 如果存储选项卡中自动生成的 rdd 名称太长,则应将其截断。
- [ SPARK-35102 ] - 使 spark.sql.hive.version 有意义且不被弃用
- [ SPARK-35103 ] - 提高类型强制规则的性能
- [ SPARK-35105 ] - 支持 ADD FILE/JAR/ARCHIVE 命令的多个路径
- [ SPARK-35109 ] - 修复了 HashedRelation 和 HashJoin 的次要异常消息
- [ SPARK-35122 ] - 迁移缓存/未缓存表以使用 AnalysisOnlyCommand
- [ SPARK-35127 ] - 当我们在不同的 stage-detail 页面之间切换时,新打开的页面中的条目可能是空白的。
- [ SPARK-35132 ] - 将 netty-all 升级到 4.1.63.Final
- [ SPARK-35135 ] - `WritablePartitionedIterator` 的重复代码实现
- [ SPARK-35138 ] - 删除 ANTLR 4.7 解决方法
- [ SPARK-35140 ] - 建立错误消息指南
- [ SPARK-35141 ] - 支持最终哈希聚合的二级映射
- [ SPARK-35143 ] - 为 spark-sql 添加默认日志配置
- [ SPARK-35145 ] - CurrentOrigin 应该支持嵌套调用
- [ SPARK-35150 ] - 使用 dev.ludovic.netlib 加速回退 BLAS
- [ SPARK-35171 ] - 将 markdown 包声明为 SparkR 包的依赖项
- [ SPARK-35175 ] - 为 JavaScript 源文件添加linter
- [ SPARK-35180 ] - 允许使用 SBT 构建 SparkR
- [ SPARK-35182 ] - 支持司机拥有的按需 PVC
- [ SPARK-35194 ] - 提高 NestingColumnAliasing 的可读性
- [ SPARK-35200 ] - 避免在 ExecutorAllocationManager 中重新计算挂起的推测任务并删除不必要的代码
- [ SPARK-35204 ] - 日期/时间戳的 CatalystTypeConverters 应该接受旧的和新的 Java 时间类
- [ SPARK-35206 ] - 提取常见的获取项目路径能力作为 SparkFunctionSuite 的函数
- [ SPARK-35209 ] - 克隆 - 日期/时间戳的 CatalystTypeConverters 应该接受旧的和新的 Java 时间类
- [ SPARK-35215 ] - 每行更新自定义指标
- [ SPARK-35223 ] - 为 IDEA 添加 IssueNavigationLink
- [ SPARK-35225 ] - EXPLAIN 命令应该处理分析计划的空输出
- [ SPARK-35227 ] - 将 Bintray 替换为 SparkSubmit 中 spark-packages 解析器的新存储库服务
- [ SPARK-35229 ] - Spark Job 网页非常慢,而时间线中有 1500 多个事件
- [ SPARK-35230 ] - 将自定义指标类移动到适当的包
- [ SPARK- 35231 ] - logical.Range 覆盖 maxRowsPerPartition
- [ SPARK-35234 ] - 阶段 failureMessage 的保留格式
- [ SPARK-35236 ] - 支持存档文件作为 CREATE FUNCTION USING 语法的资源
- [ SPARK-35240 ] - 使用 CheckpointFileManager 进行检查点操作
- [ SPARK-35254 ] - 将 SBT 升级到 1.5.1
- [ SPARK-35255 ] - 空行 Scala 代码的自动格式化。
- [ SPARK-35258 ] - 使用额外的基于块率的指标和直方图增强 ESS ExternalBlockHandler
- [ SPARK-35263 ] - 重构 ShuffleBlockFetcherIteratorSuite 以减少重复代码
- [ SPARK-35269 ] - 将 commons-lang3 更新到 3.12
- [ SPARK-35273 ] - CombineFilters 支持非确定性表达式
- [ SPARK-35277 ] - 将 snappy 升级到 1.1.8.4
- [ SPARK-35280 ] - 将 KubernetesUtils 推广到 DeveloperApi
- [ SPARK-35281 ] - 如果返回类型是原始类型,StaticInvoke 不应应用装箱
- [ SPARK-35286 ] - 用 SessionState.setCurrentSessionState 替换 SessionState.start
- [ SPARK-35292 ] - 删除 mypy.ini 中的冗余参数
- [ SPARK-35295 ] - 用 dev.ludovic.netlib:2.0 完全替换 com.github.fommil.netlib
- [ SPARK-35306 ] - 为 Github Actions 机器创建的 BLASBenchmark 添加基准测试结果
- [ SPARK-35311 ] - 将暴露的 SS UI 状态信息指标添加到文档中
- [ SPARK-35312 ] - 在 Kafka 源中引入新选项以指定每个触发器读取的最小记录数
- [ SPARK-35315 ] - 在 spark-submit 和 SBT 之间保持基准测试结果一致
- [ SPARK-35316 ] - UnwrapCastInBinaryComparison 支持 In/InSet 谓词
- [ SPARK-35323 ] - 从 LICENSE-binary 中删除未使用的库
- [ SPARK-35325 ] - 添加嵌套列 ORC 加密测试用例
- [ SPARK-35329 ] - 在 ExpandExec 中将生成的开关代码拆分成几段
- [ SPARK-35332 ] - 缓存表时不合并混洗分区
- [ SPARK-35333 ] - 如果可能,跳过 Invoke 中的对象空检查
- [ SPARK-35347 ] - 使用 MethodUtils 在 Invoke 和 StaticInvoke 中查找方法
- [ SPARK-35354 ] - 在 CoalesceBucketsInJoin 中用 ShuffledJoin 替换 BaseJoinExec 的小清理
- [ SPARK-35357 ] - 允许关闭静态 PageRank 实用程序应用的规范化
- [ SPARK-35358 ] - 设置用于发布构建的最大 Java 堆
- [ SPARK-35360 ] - Spark 在调用 RepairTableCommand 时使添加分区批量大小可配置
- [ SPARK-35362 ] - 更新列统计中的空计数以进行 UNION 统计估计
- [ SPARK-35368 ] - [SQL] 更新 RANGE 运算符统计信息估计的直方图统计信息
- [ SPARK-35373 ] - 在 build/mvn 中验证下载的工件的校验和
- [ SPARK-35377 ] - 将 JS linter 添加到 GA
- [ SPARK-35383 ] - 通过推断缺少的配置来改进 s3a 魔术提交器支持
- [ SPARK-35384 ] - 提高 InvokeLike.invoke 的性能
- [ SPARK-35387 ] - 为 Java 11 构建测试增加 JVM 的堆栈大小
- [ SPARK-35394 ] - 将 kubernetes-client.version 移动到根 pom 文件
- [ SPARK-35396 ] - 支持在 MemoryStore 和 InMemoryRelation 中手动关闭/释放条目而不是在 GC 上回复
- [ SPARK-35397 ] - 用显式异常类型替换 sys.err 用法
- [ SPARK-35400 ] - 改进相关子查询的错误消息
- [ SPARK-35402 ] - 在 HistoryServer UI 中增加 jetty 服务器的最大线程池大小
- [ SPARK-35404 ] - 在 TaskSchedulerImpl 中命名计时器
- [ SPARK-35408 ] - 改进 DataFrame.show 中的参数验证
- [ SPARK-35411 ] - TreeNode json 字符串中缺少基本信息
- [ SPARK-35416 ] - 支持 PersistentVolumeClaim 重用
- [ SPARK-35418 ] - 向函数添加句子函数。{scala,py}
- [ SPARK-35419 ] - 默认启用 spark.sql.execution.pyspark.udf.simplifiedTraceback.enabled
- [ SPARK-35421 ] - 从使用 V2Relation 的流查询中删除多余的 ProjectExec
- [ SPARK-35424 ] - 删除 ExternalBlockHandler 中的一些无用代码
- [ SPARK-35443 ] - 将 K8s 机密和配置映射标记为不可变
- [ SPARK-35445 ] - 减少 DeduplicateRelations 的执行时间
- [ SPARK-35446 ] - 覆盖 MySQLDialect 中的 getJDBCType 以将 FloatType 映射到 FLOAT
- [ SPARK-35447 ] - 在合并随机分区之前优化倾斜连接
- [ SPARK-35456 ] - 在配置条目检查错误消息中显示无效值
- [ SPARK-35462 ] - 将 Kubernetes 客户端升级到 5.4.0 以支持 K8s 1.21 模型
- [ SPARK-35479 ] - 在扫描节点中格式化 PartitionFilters IN 字符串
- [ SPARK-35487 ] - 将 dropwizard 指标升级到 4.2.0
- [ SPARK-35488 ] - 将 ASM 升级到 7.3.1
- [ SPARK-35490 ] - 将 json4s 更新为 3.7.0-M11
- [ SPARK-35492 ] - 将 Apache HttpCore 从 4.4.12 升级到 4.4.14
- [ SPARK-35498 ] - 添加一个 API“inheritable_thread_target”,它为 pyspark pin 线程模式返回一个包装的线程目标
- [ SPARK-35501 ] -为 docker集成测试添加删除拉取容器镜像的功能
- [ SPARK-35506 ] - 在 GitHub Actions 中使用 Python 3.9 运行测试
- [ SPARK-35507 ] - 将 Python 3.9 安装移动到 GitHub Actions的 docker镜像
- [ SPARK- 35513 ] - 将 joda-time 升级到 2.10.10
- [ SPARK-35537 ] - 引入一个 util 函数来检查列的底层表达式是否相同。
- [ SPARK-35541 ] - 简化 OptimizeSkewedJoin
- [ SPARK-35550 ] - 将 Jackson 升级到 2.12.3
- [ SPARK-35552 ] - 使查询阶段物化更具可读性
- [ SPARK-35556 ] - 删除关闭 HiveClient 的 SessionState
- [ SPARK-35558 ] - 避免在检索近似分位数时进行冗余计算
- [ SPARK-35565 ] - 添加忽略文件流接收器元数据目录的配置
- [ SPARK-35577 ] - 允许为docker集成测试记录容器输出
- [ SPARK-35580 ] - 支持高阶函数的子表达式消除
- [ SPARK-35585 ] - 支持通过项目/过滤器传播空关系
- [ SPARK-35604 ] - 修复 FULL OUTER 排序合并连接的条件检查
- [ SPARK-35609 ] - 添加样式规则以禁止使用与较新版本不兼容的 Guava API
- [ SPARK-35611 ] - 介绍 Kafka 数据源上开始偏移时间戳不匹配偏移的策略
- [ SPARK-35612 ] - 在 ORC 数据源中支持 LZ4 压缩
- [ SPARK-35618 ] - 解析子查询中的星号表达式
- [ SPARK-35620 ] - 删除 Python linter 中的文档构建
- [ SPARK-35629 ] - 如果`drop database` 上不存在数据库,请使用更好的异常类型
- [ SPARK-35636 ] - 不要在引用连接两侧的高阶函数中下推提取值
- [ SPARK-35638 ] - 引入 InternalField 来管理 dtypes 和 StructFields。
- [ SPARK-35639 ] - 将有关合并分区的指标添加到 AQE 中的 CustomShuffleReader
- [ SPARK-35648 ] - 在 dev/requirement.txt 中优化和添加开发所需的依赖项
- [ SPARK- 35654 ] - 允许 ShuffleDataIO 控制 DiskBlockManager.deleteFilesOnStop
- [ SPARK-35655 ] - 将 HtmlUnit 及其相关工件升级到 2.50。
- [ SPARK-35658 ] - Spark 中的文档 Parquet 加密功能
- [ SPARK-35660 ] - 将 Kubernetes 客户端升级到 5.4.1
- [ SPARK-35661 ] - 允许反序列化的堆外内存条目
- [ SPARK-35675 ] - 确保要求删除 shuffle 应尊重 PartitioningCollection
- [ SPARK- 35682 ] - 在 GitHub Actions CI 中固定 mypy 版本
- [ SPARK-35683 ] - 修复 Index.difference 以避免将“其他”收集到驱动程序端
- [ SPARK-35684 ] - 在 GitHub Actions 中提升 mypy 版本
- [ SPARK-35687 ] - PythonUDFSuite 将假设转移到其方法中
- [ SPARK-35689 ] - 为 SymmetricHashJoinStateManager 的空值检索添加日志记录
- [ SPARK-35691 ] - addFile/addJar/addDirectory 应该放置 CanonicalFile
- [ SPARK-35692 ] - 在 Kubernetes 中使用 int 替换 EXECUTOR_ID_COUNTER 的 long
- [ SPARK-35699 ] - 创建 k8s pod 失败时改进错误消息。
- [ SPARK-35701 ] - SQLConf.sqlConfEntries 和 SQLConf.staticConfKeys 上的争用
- [ SPARK-35706 ] - 考虑使 STRUCT 数据类型定义中的 ':' 可选
- [ SPARK-35710 ] - 在没有重用广播交换时支持 DPP + AQE
- [ SPARK-35712 ] - 简化 ResolveAggregateFunctions
- [ SPARK-35714 ] - 执行程序关闭期间死锁的错误修复
- [ SPARK-35747 ] - 如果 HBase/Kafka/Hive 服务未在安全集群中运行,请避免打印完整的异常堆栈跟踪
- [ SPARK-35756 ] - unionByName 也应该支持嵌套结构
- [ SPARK-35757 ] - 向 BitArray 添加按位与运算并为布隆过滤器添加相交与运算
- [ SPARK-35760 ] - 修复广播交换的最大行数检查
- [ SPARK-35763 ] - StateStoreCustomMetric 的小重构
- [ SPARK-35779 ] - 支持 v2 表的动态过滤
- [ SPARK-35791 ] - 为 NULL-aware ANTI join 正确发布正在进行的映射
- [ SPARK-35794 ] - 允许 AQE 成本评估器的自定义插件
- [ SPARK-35799 ] - 修复了 FlatMapGroupsWithStateExec 中的 allUpdatesTimeMs 度量标准
- [ SPARK-35813 ] - 在 sql-performance-tuning 文档中添加新的自适应配置
- [ SPARK-35829 ] - 清理评估子表达式并增加评估特定子表达式的灵活性
- [ SPARK-35831 ] - 在相同的 src 和 dest 上强制处理 copyFileToRemote 中的 PathOperationException
- [ SPARK-35844 ] - 将 hadoop-cloud 配置文件添加到 PUBLISH_PROFILES
- [ SPARK-35855 ] - 在非 AQE 和 AQE 规则中统一重用地图数据结构
- [ SPARK-35863 ] - 将 Ivy 升级到 2.5.0
- [ SPARK-35872 ] - 自动为 Spark 版本做一些工作
- [ SPARK-35880 ] - [SS] 跟踪流重复数据删除运算符中丢弃的重复项数
- [ SPARK-35894 ] - 引入新样式强制不导入 scala.collection.Seq/IndexedSeq
- [ SPARK-35896 ] - [SS] 在 StreamingQueryProgress 中为有状态运算符包含更细粒度的指标
- [ SPARK-35897 ] - 支持用户定义的初始状态和结构化流中的 flatMapGroupsWithState
- [ SPARK-35899 ] - 添加一个实用程序将连接器表达式转换为 Catalyst 表达式
- [ SPARK-35903 ] - 在 TPCDSQueryBenchmark 中参数化 `master`
- [ SPARK-35906 ] - 如果最大行数小于或等于 1,则删除 order
- [ SPARK-35910 ] - 根据合并块信息更新 remoteBlockBytes
- [ SPARK-35922 ] - 将 maven-shade-plugin 升级到 3.2.4
- [ SPARK-35923 ] - 使用混合的 CoalescedPartitionSpec 和 PartialReducerPartitionSpec 合并空分区
- [ SPARK-35928 ] - 将 ASM 升级到 9.1
- [ SPARK-35940 ] - 重构等效表达式以使其更高效
- [ SPARK-35946 ] - 如果 InheritableThread API 尊重 Py4J 服务器
- [ SPARK-35947 ] - 在release-build.sh 中增加 JVM 堆栈大小
- [ SPARK-35948 ] - 通过删除 Spark 2.4/Java7 部分来简化发布脚本
- [ SPARK-35958 ] - 将 SparkError.scala 重构为 SparkThrowable.java
- [ SPARK-35960 ] - sbt 测试:标签编译被破坏
- [ SPARK-35966 ] - 端口 HIVE-17952:修复许可证标头以避免悬挂 javadoc 警告
- [ SPARK-35969 ] - 使 pod 前缀更具可读性并与 K8S DNS 标签名称相符
- [ SPARK-35986 ] - 修复 pyspark.rdd.RDD.histogram 的桶参数
- [ SPARK- 35990 ] - 删除 avro-sbt 插件依赖
- [ SPARK-36003 ] - 实现整型 ps.Series/Index 的一元运算符 `invert`
- [ SPARK-36030 ] - 在写入路径支持 DS v2 指标
- [ SPARK-36051 ] - 删除指南中文档构建的自动更新
- [ SPARK-36062 ] - 尝试在 Python 工作线程崩溃时捕获故障处理程序。
- [ SPARK-36092 ] - 从 Jenkins 迁移到 GitHub Actions Codecov
- [ SPARK-36103 ] - 在 DataTypeOps.invert 中管理 InternalField
- [ SPARK-36104 ] - 在 DataTypeOps.neg/abs 中管理 InternalField
- [ SPARK-36105 ] - OptimizeLocalShuffleReader 支持在一项任务中读取多个映射器的数据
- [ SPARK-36154 ] - pyspark 文档没有提到周和季度作为 trunc 的有效格式参数
- [ SPARK-36158 ] - 月之间的 pyspark sql/functions 文档不如 Scala 版本精确
- [ SPARK-36161 ] - dropDuplicates 不输入检查参数
- [ SPARK-36164 ] - 更改 run-test.py,使其在 os.environ["APACHE_SPARK_REF"] 未定义时不会失败。
- [ SPARK-36167 ] - 重新审视更多 InternalField 管理。
- [ SPARK-36176 ] - 在 pyspark.sql.catalog 中公开 tableExists
- [ SPARK-36178 ] - 在 docs/source/reference/pyspark.sql.rst 中记录 PySpark 目录 API
- [ SPARK-36181 ] - 将 pyspark sql readwriter 文档更新到 Scala 级别
- [ SPARK-36192 ] - 针对列表的 DataTypeOps 更好的错误消息
- [ SPARK-36198 ] - 在 pyspark GHA 作业中跳过 UNIDOC 生成
- [ SPARK-36217 ] - 重命名CustomShuffleReader和 OptimizeLocalShuffleReader
- [ SPARK-36221 ] - 确保CustomShuffleReaderExec至少有一个分区
- [ SPARK-36226 ] - 改进 python 文档字符串到其他 pyspark 类的链接
- [ SPARK-36265 ] - 使用 __getitem__ 而不是 getItem 来抑制警告。
- [ SPARK-36269 ] - 修复仅将数据列设置为 Hive 列名称配置
- [ SPARK-36270 ] - 更改内存设置以启用 GA
- [ SPARK-36285 ] - 在 PySpark GHA 工作中跳过 MiMa
- [ SPARK-36288 ] - 更新 pyspark pandas 文档上的 API 使用
- [ SPARK-36314 ] - 更新会话示例以使用会话窗口的本机支持
- [ SPARK-36320 ] - 修复 Series/Index.copy() 以删除额外的列。
- [ SPARK-36331 ] - 添加 SQLSTATE 指南
- [ SPARK-36333 ] - 在需要空检查的地方重用 isnull。
- [ SPARK-36338 ] - 将分布式序列实现移动到 Scala 端
- [ SPARK-36345 ] - 将 mlflow/sklearn 添加到 GHA docker 镜像
- [ SPARK-36350 ] - 使 nanvl 与 DataTypeOps 一起工作
- [ SPARK-36365 ] - 删除与空排序相关的旧解决方法。
- [ SPARK-36393 ] - 尝试再次提高 GA 的内存和并行度
- [ SPARK-36444 ] - 从一批 PartitionPruning 中删除 OptimizeSubqueries
- [ SPARK-36455 ] - 通过 flatMapGroupsWithState 提供复杂会话窗口的示例
- [ SPARK-36482 ] - 将兽人升级到 1.6.10
- [ SPARK-36547 ] - 将 scala-maven-plugin 降级到 4.3.0
- [ SPARK-36559 ] - 允许对分布式序列索引进行列修剪(Spark 上的 Pandas API)
- [ SPARK-36567 ] - 在 CAST 中支持可折叠的特殊日期时间值
- [ SPARK-36578 ] - 次要的 UnivariateFeatureSelector API 文档改进
- [ SPARK- 36617 ] - approxQuantile 注释不一致
- [ SPARK-36631 ] - 询问用户是否要在非 Spark 脚本中下载和安装 SparkR
- [ SPARK-36637 ] - 使用不存在的命名窗口时出现错误错误消息
- [ SPARK-36685 ] - 修复错误的断言消息
- [ SPARK-36774 ] - 使用 SparkSubmitTestUtils 核心并在 SparkSubmitSuite 中使用它
- [ SPARK-36788 ] - 将非支持计划的 AQE 日志级别从警告更改为调试
- [ SPARK-36919 ] - 使 BadRecordException 可序列化
Test
- [ SPARK-24931 ] - 在 GitHub Actions 工作流程中恢复 lint-r 作业
- [ SPARK-33674 ] - 在 SBT 测试中显示 Slowpoke 通知
- [ SPARK-33852 ] - 在 HiveDDLSuite.scala 中使用 assertAnalysisError
- [ SPARK-34371 ] - 为 parquet DSv1 和 DSv2 运行日期时间变基测试
- [ SPARK-34432 ] - 为简单的可写数据源添加一个 java 实现
- [ SPARK-34508 ] - 如果网络关闭,则跳过 HiveExternalCatalogVersionsSuite
- [ SPARK-34604 ] - 片状测试:TaskContextTestsWithWorkerReuse.test_task_context_correct_with_python_worker_reuse
- [ SPARK-34610 ] - 修复了 GroupedAggPandasUDFTests 中使用的 Python UDF。
- [ SPARK-34795 ] - 在 GitHub Actions 中添加一个新作业来检查 TPC-DS 查询的输出
- [ SPARK-34951 ] - 在 GitHub Actions 中恢复 Python linter(Sphinx 构建)
- [ SPARK-34990 ] - 添加 ParquetEncryptionSuite
- [ SPARK-35192 ] - 从 databricks/spark-sql-perf 移植最小的 TPC-DS 数据生成代码
- [ SPARK-35195 ] - 将 InMemoryTable 等移动到 org.apache.spark.sql.connector.catalog
- [ SPARK-35224 ] - 片状可变投影套件
- [ SPARK-35235 ] - 将基于行的快速哈希映射添加到聚合基准测试中
- [ SPARK-35293 ] - 将更新的 dsdgen 用于 TPCDSQueryTestSuite
- [ SPARK-35327 ] - 过滤掉可能导致不稳定测试结果的 TPC-DS 查询
- [ SPARK-35385 ] - 在 TPCDS 相关测试中跳过重复查询
- [ SPARK-35413 ] - 检出 databricks/tpcds-kit 时使用最新提交的 SHA
- [ SPARK-35427 ] - 检查 Avro/Parquet 的 EXCEPTION rebase 模式
- [ SPARK-35459 ] - 将 AvroRowReaderSuite 移动到单独的文件
- [ SPARK-35483 ] -为 docker集成测试添加一个新的 GA 测试作业
- [ SPARK-35578 ] - 为 janino 错误添加测试用例
- [ SPARK-35584 ] - 增加 FallbackStorageSuite 中的超时时间
- [ SPARK-35693 ] - 为流-流连接单元测试添加计划检查
- [ SPARK-35755 ] - 在 GitHub Actions 构建中使用更高的 PyArrow
- [ SPARK-35893 ] - MySQLDialect.getCatalystType没有单元测试用例
- [ SPARK-35981 ] - 在 StatsTest.test_cov_corr_meta 中使用 check_exact=False 来放松检查精度
- [ SPARK-36033 ] - 验证 TPCDS 测试中的分区要求
- [ SPARK-36035 ] - 为旧版 Pandas 调整 `test_astype`、`test_neg`
- [ SPARK-36109 ] - 修复脆弱的 KafkaSourceStressSuite
- [ SPARK-36136 ] - 将 PruneFileSourcePartitionsSuite 移出 org.apache.spark.sql.hive
- [ SPARK-36199 ] - 将 scalatest-maven-plugin 升级到 2.0.2
- [ SPARK-36205 ] - 在 GitHub Actions 中使用 set-env 而不是 set-output
- [ SPARK-36216 ] - 增加 StreamingLinearRegressionWithTests.test_parameter_convergence 的超时时间
- [ SPARK-36251 ] - 覆盖 GitHub Actions 在测试脚本中没有 SHA 的情况下运行
- [ SPARK-36272 ] - 重新启用 SPARK-32629 ShuffledHashJoin(全外)指标
- [ SPARK-36479 ] - 提高 SQL 文件中的日期时间测试覆盖率
- [ SPARK-36670 ] - 为主要数据源添加端到端编解码器测试用例
- [ SPARK-36682 ] - 为 Hadoop 编解码器添加 Hadoop 序列文件测试
Task
- [ SPARK-33411 ] - 联合、范围和排序逻辑运算符的基数估计
- [ SPARK-34970 ] - 在解释()的输出中编辑地图类型选项
- [ SPARK-34979 ] - 无法在 aarch64 上安装 pyspark[sql](由于 pyarrow 错误)
- [ SPARK-35050 ] - 弃用 Apache Mesos 作为资源管理器
- [ SPARK-35318 ] - 视图内部属性应该隐藏用于描述表命令
- [ SPARK-35366 ] - 避免使用不推荐使用的 `buildForBatch` 和 `buildForStreaming`
- [ SPARK-35429 ] - 由于 EOL 和 CVE,删除了 commons-httpclient
- [ SPARK-35440 ] - 将语言类型添加到 UDF 的“ExpressionInfo”
- [ SPARK-35457 ] - 将 ANTLR 运行时版本更新为 4.8
- [ SPARK-35495 ] - 更改 CRAN 的 SparkR 维护者
- [ SPARK-35514 ] - 通过 release-tag.sh 自动更新 DocSearch 的版本索引
- [ SPARK-35535 ] - 新数据源 V2 API:LocalScan
- [ SPARK-35545 ] - 将SubqueryExpression的子字段拆分为外部属性和连接条件
- [ SPARK-35551 ] - 在重写横向子查询时处理 COUNT 错误
- [ SPARK-35595 ] - 在使用 LogAppender 的测试方法中支持多个记录器
- [ SPARK-35600 ] - 将 Set 命令相关的测试用例移动到单个测试套件
- [ SPARK-35617 ] - 将 GitHub Action docker 镜像更新为 20210602
- [ SPARK-35685 ] - 当存在模式不兼容的更改时提示重新创建视图
- [ SPARK-35686 ] - 创建视图时避免使用自动生成的别名
- [ SPARK-35694 ] - 增加 SBT/Maven 的默认 JVM 堆栈大小
- [ SPARK- 35766 ] - 将 CastSuite/AnsiCastSuite 分解成多个文件
- [ SPARK-35780 ] - 支持全范围的 DATE/TIMESTAMP 文字
- [ SPARK-35789 ] - 横向连接只能与子查询一起使用
- [ SPARK-35792 ] - 视图不应捕获“RelationConversions”中使用的配置
- [ SPARK-35825 ] - 增加 Maven 构建的堆和堆栈大小
- [ SPARK-35920 ] - 升级到 Chill 0.10.0
- [ SPARK-35951 ] - 在文档中添加 Avro 选项的版本
- [ SPARK-35962 ] - 弃用 8u201 之前的旧 Java 8 版本
- [ SPARK-35984 ] - 添加配置以强制使用 ShuffledHashJoin 进行测试
- [ SPARK-36025 ] - 减少DateExpressionsSuite的运行时间
- [ SPARK-36034 ] - 读取以旧模式编写的 Parquet 文件时,日期时间过滤器不正确
- [ SPARK-36224 ] - 使用“void”作为 NullType 的类型名称
- [ SPARK-36241 ] - 支持使用 void 列数据类型创建表
- [ SPARK-36286 ] - 阻止一些无效的日期时间字符串
- [ SPARK-36557 ] - 更新 Spark 构建文档中的 MAVEN_OPTS
- [ SPARK-36657 ] - 更新 `gen-sql-config-docs.py` 中的注释
Dependency upgrade
- [ SPARK-33695 ] - 将 Jackson 升级到 2.10.5 并将数据绑定到 2.10.5.1
- [ SPARK-33762 ] - 将 commons-codec 提升到最新版本。
- [ SPARK-35310 ] - 从 1.0 到 1.2 的 Bump Breeze
Umbrella
- [ SPARK-25075 ] - 针对 Scala 2.13 构建和测试 Spark
- [ SPARK-26345 ] - Parquet 支持列索引
- [ SPARK-33828 ] - SQL 自适应查询执行 QA
- [ SPARK-33910 ] - 简化/优化条件表达式
- [ SPARK-34120 ] - 改进统计估计
- [ SPARK-34338 ] - 从数据源 v2 扫描报告指标
- [ SPARK-34651 ] - 改进 ZSTD 支持
- [ SPARK-35464 ] - Spark 上的 Pandas API:启用 mypy 检查“disallow_untyped_defs”的主要代码。
- [ SPARK-36185 ] - 在 CategoricalAccessor/CategoricalIndex 中实现函数
- [ SPARK-36367 ] - 修复了跟随熊猫 >= 1.3 的行为
Documentation
- [ SPARK-33124 ] - 在内置函数的所有表达式中添加组标签
- [ SPARK-33797 ] - 更新关于状态存储和任务位置的 SS 文档
- [ SPARK-33977 ] - 为“'like any' 和'like all' 操作符添加文档”
- [ SPARK-34162 ] - 为 Python 3.9 添加 PyArrow 兼容性说明
- [ SPARK-34306 ] - 跨函数 API 使用 Snake 命名规则
- [ SPARK-34437 ] - 更新关于变基 DS 选项和 SQL 配置的 Spark SQL 指南
- [ SPARK-34466 ] - 改进 ALTER TABLE 的文档..重命名为
- [ SPARK-34491 ] - 将 Python 和 Scala 的数据源选项文档移动到一个页面中
- [ SPARK-35238 ] - 在云集成文档中添加 JindoFS SDK
- [ SPARK-35250 ] - SQL DataFrameReader unescapedQuoteHandling 参数被错误记录
- [ SPARK-35297 ] - 修改关于 executor 的注释
- [ SPARK-35369 ] - 文档 ExecutorAllocationManager 指标
- [ SPARK-35399 ] - 在执行程序失败的情况下仍然需要状态
- [ SPARK-35405 ] - 提交应用程序文档中有关 K8s 客户端模式支持的信息已过时
- [ SPARK-35438 ] - 窗口物理操作符的小文档修复
- [ SPARK-35529 ] - 为哈希聚合添加回退指标
- [ SPARK-35562 ] - 修复了集群概览和提交应用程序页面中关于 Yarn 和 Kubernetes 的地方
- [ SPARK-35603 ] - 为 R API 文档添加数据源选项链接。
- [ SPARK-35709 ] - 删除文档中 Nomad 集成的链接
- [ SPARK-35965 ] - 添加 ORC 嵌套列矢量化阅读器的文档
- [ SPARK-36040 ] - 添加对 kubernetes-client 版本的引用
- [ SPARK-36089 ] - 更新关于 CSV 文件编码自动检测的 SQL 迁移指南
- [ SPARK-36535 ] - 完善 sql 参考文档
- [ SPARK-36541 ] - pyspark 文档中使用的图像仍然使用 Koalas
- [ SPARK-36621 ] - 在 Spark 用户指南上向 Pandas API 添加 Apache 许可证标头
- [ SPARK-36739 ] - 将 Apache 许可证头添加到 python 文档的 makefiles
- [ SPARK-36775 ] - 添加 ANSI 存储分配规则的文档