2018-09-24 Apache spark又发布新版本了,看看发行说明:
sub-task
- [ SPARK-24976 ] - 允许十进制类型转换null(特定于PyArrow 0.9.0)
bug
- [ SPARK-23243 ] - 在RDD上随机广播+重新分区可能导致错误答案
- [ SPARK-23618 ] - 建立图像时,docker-image-tool.sh失败
- [ SPARK-23731 ] - FileSourceScanExec在子表达式消除中抛出NullPointerException
- [ SPARK-23732 ] - Spark Scala api Scaladoc中scala源代码的断开链接
- [ SPARK-24216 ] - Spark TypedAggregateExpression使用scala中不安全的getSimpleName
- [ SPARK-24369 ] - 具有多个不同聚合时的错误
- [ SPARK-24385 ] - Tridially -true EqualNullSafe应该像Dataset.join中的EqualTo一样处理
- [ SPARK-24415 ] - 故障时阶段页面聚合执行程序指标错误
- [ SPARK-24452 ] - long = int * int或long = int + int可能导致内存溢出。
- [ SPARK-24468 ] - 当比例为负时,DecimalType“adjustPrecisionScale”可能会失败
- [ SPARK-24495 ] - SortMergeJoin,重复键错误结果
- [ SPARK-24506 ] - Spark.ui.filters未应用于/ sqlserver / url
- [ SPARK-24530 ] - Sphinx无法正确呈现autodoc_docstring_signature(使用Python 2?)而pyspark.ml文档已被破坏
- [ SPARK-24531 ] - 由于缺少2.2.0版本,HiveExternalCatalogVersionsSuite失败
- [ SPARK-24535 ] - 修复Windows上SparkR中的java版本解析
- [ SPARK-24536 ] - 使用无意义的LIMIT查询命中AssertionError
- [ SPARK-24552 ] - 重试阶段时重复使用任务尝试次数
- [ SPARK-24578 ] - 读取远程缓存块行为更改并导致超时问题
- [ SPARK-24583 ] - InsertIntoDataSourceCommand中的架构类型错误
- [ SPARK-24588 ] - StreamingSymmetricHashJoinExec应该要求儿童使用HashClusteredPartitioning
- [ SPARK-24589 ] - OutputCommitCoordinator可能允许重复提交
- [ SPARK-24603 ] - Typo评论
- [ SPARK-24613 ] - 使用UDF的缓存无法与后续的依赖缓存匹配
- [ SPARK-24704 ] - DAG图表中的阶段顺序不正确
- [ SPARK-24739 ] - PySpark不适用于Python 3.7.0
- [ SPARK-24781 ] - 在过滤/排序中使用数据集中的引用可能不起作用。
- [ SPARK- 24809] - 在执行程序中序列化LongHashedRelation可能会导致数据错误
- [ SPARK-24813 ] - HiveExternalCatalogVersionsSuite仍然片状; 回归Apache档案
- [ SPARK-24867 ] - 将AnalysisBarrier添加到DataFrameWriter
- [ SPARK-24879 ] - 用于`partCol IN(NULL,....)的Hive分区过滤器下推中的NPE
- [ SPARK-24889 ] - dataset.unpersist()不更新存储内存统计信息
- [ SPARK-24891 ] - 修复HandleNullInputsForUDF规则
- [ SPARK-24908 ] - [R]删除空格以使得快乐
- [ SPARK-24909 ] - 当获取失败,执行程序丢失,丢失执行程序上的任务运行以及多个阶段尝试时,Spark调度程序可能会挂起
- [ SPARK-24927 ] - hadoop提供的配置文件与Snappy压缩的Parquet文件不兼容
- [ SPARK-24934 ] - 由于缺少上/下限情况,内存中分区修剪中的复杂类型和二进制类型不起作用
- [ SPARK-24948 ] - 由于权限检查,SHS错误地过滤了某些应用程序
- [ SPARK-24950 ] - scala DateTimeUtilsSuite daysToMillis和millisToDays失败w / java 8 181-b13
- [ SPARK-24957 ] - 使用codegen,十进制算术可能导致错误的值
- [ SPARK-24987 ] - Kafka缓存的消费者泄漏文件描述符
- [ SPARK-25028 ] - 如果值为null,则AnalyzePartitionCommand因NPE失败
- [ SPARK-25051 ] - 数据集的where子句给出了AnalysisException
- [ SPARK-25076 ] - 不应从已停止的SparkSession中检索SQLConf
- [ SPARK-25084 ] - 在多列上“分发”可能会导致代码问题
- [ SPARK-25114 ] - 当两个单词之间的减法可被Integer.MAX_VALUE整除时,RecordBinaryComparator可能会返回错误的结果
- [ SPARK-25124 ] - VectorSizeHint.size是错误的,打破了流媒体管道
- [ SPARK-25144 ] - 由于检测到托管内存泄漏,数据集上的不同导致异常
- [ SPARK-25164 ] - Parquet阅读器为每列构建一次完整的列列表
- [ SPARK-25205 ] - spark.network.crypto.keyFactoryIteration中的拼写错误
- [ SPARK-25231 ] - 运行大型作业并进行猜测导致执行器心跳超时在驱动程序上
- [ SPARK-25313 ] - 修复FileFormatWriter输出模式中的回归
- [ SPARK-25330 ] - 将hadoop版本升级到2.7.7后的权限问题
- [ SPARK-25357 ] - 向SparkPlanInfo添加元数据以将更多信息(如文件路径)转储到事件日志
- [ SPARK-25368 ] - 不正确的约束推断返回错误的结果
- [ SPARK-25371 ] - 没有输入列的矢量汇编程序导致不透明错误
- [ SPARK-25402 ] - BooleanSimplification中的空值处理
new feature
- [ SPARK-24542 ] - Hive UDF系列UDFXPathXXXX允许用户通过精心设计的XML来访问任意文件
story
- [ SPARK-25234 ] - SparkR ::: parallelize不能正确处理整数溢出
improvement
- [ SPARK-24455 ] - 修复TaskSchedulerImpl评论中的拼写错误
- [ SPARK-24696 ] - ColumnPruning规则无法删除额外的Project
- [ SPARK-25400 ] - 在schedulerIntegrationSuite中增加超时
test
- [ SPARK-24502 ] - 片状测试:UnsafeRowSerializerSuite
- [ SPARK-24521 ] - 修复CachedTableSuite中的无效测试
- [ SPARK-24564 ] - 为RecordBinaryComparator添加测试套件
doc
- [ SPARK-24507 ] - “Spark Streaming Programming Guide”中“数据接收中的并行度级别”部分中的描述与最近的Kafka直接应用程序无关
- [ SPARK-25273 ] - 如何安装testthat v1.0.2
参考:https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12343289