2018-09-24 Apache spark又发布新版本了,看看发行说明:

sub-task

  • [ ​​SPARK-24976​​ ] - 允许十进制类型转换null(特定于PyArrow 0.9.0)

bug

  • [ ​​SPARK-23243​​ ] - 在RDD上随机广播+重新分区可能导致错误答案
  • [ ​​SPARK-23618​​ ] - 建立图像时,docker-image-tool.sh失败
  • [ ​​SPARK-23731​​ ] - FileSourceScanExec在子表达式消除中抛出NullPointerException
  • [ ​​SPARK-23732​​ ] - Spark Scala api Scaladoc中scala源代码的断开链接
  • [ ​​SPARK-24216​​ ] - Spark TypedAggregateExpression使用scala中不安全的getSimpleName
  • [ ​​SPARK-24369​​ ] - 具有多个不同聚合时的错误
  • [ ​​SPARK-24385​​​ ] - ​​Tridially​​ -true EqualNullSafe应该像Dataset.join中的EqualTo一样处理
  • [ ​​SPARK-24415​​ ] - 故障时阶段页面聚合执行程序指标错误
  • [ ​​SPARK-24452​​ ] - long = int * int或long = int + int可能导致内存溢出。
  • [ ​​SPARK-24468​​ ] - 当比例为负时,DecimalType“adjustPrecisionScale”可能会失败
  • [ ​​SPARK-24495​​ ] - SortMergeJoin,重复键错误结果
  • [ ​​SPARK-24506​​ ] - Spark.ui.filters未应用于/ sqlserver / url
  • [ ​​SPARK-24530​​ ] - Sphinx无法正确呈现autodoc_docstring_signature(使用Python 2?)而pyspark.ml文档已被破坏
  • [ ​​SPARK-24531​​ ] - 由于缺少2.2.0版本,HiveExternalCatalogVersionsSuite失败
  • [ ​​SPARK-24535​​ ] - 修复Windows上SparkR中的java版本解析
  • [ ​​SPARK-24536​​ ] - 使用无意义的LIMIT查询命中AssertionError
  • [ ​​SPARK-24552​​ ] - 重试阶段时重复使用任务尝试次数
  • [ ​​SPARK-24578​​ ] - 读取远程缓存块行为更改并导致超时问题
  • [ ​​SPARK-24583​​ ] - InsertIntoDataSourceCommand中的架构类型错误
  • [ ​​SPARK-24588​​ ] - StreamingSymmetricHashJoinExec应该要求儿童使用HashClusteredPartitioning
  • [ ​​SPARK-24589​​ ] - OutputCommitCoordinator可能允许重复提交
  • [ ​​SPARK-24603​​ ] - Typo评论
  • [ ​​SPARK-24613​​ ] - 使用UDF的缓存无法与后续的依赖缓存匹配
  • [ ​​SPARK-24704​​ ] - DAG图表中的阶段顺序不正确
  • [ ​​SPARK-24739​​ ] - PySpark不适用于Python 3.7.0
  • [ ​​SPARK-24781​​ ] - 在过滤/排序中使用数据集中的引用可能不起作用。
  • [ ​​SPARK-​​ 24809] - 在执行程序中序列化LongHashedRelation可能会导致数据错误
  • [ ​​SPARK-24813​​ ] - HiveExternalCatalogVersionsSuite仍然片状; 回归Apache档案
  • [ ​​SPARK-24867​​ ] - 将AnalysisBarrier添加到DataFrameWriter
  • [ ​​SPARK-24879​​ ] - 用于`partCol IN(NULL,....)的Hive分区过滤器下推中的NPE
  • [ ​​SPARK-24889​​ ] - dataset.unpersist()不更新存储内存统计信息
  • [ ​​SPARK-24891​​ ] - 修复HandleNullInputsForUDF规则
  • [ ​​SPARK-24908​​ ] - [R]删除空格以使得快乐
  • [ ​​SPARK-24909​​ ] - 当获取失败,执行程序丢失,丢失执行程序上的任务运行以及多个阶段尝试时,Spark调度程序可能会挂起
  • [ ​​SPARK-24927​​ ] - hadoop提供的配置文件与Snappy压缩的Parquet文件不兼容
  • [ ​​SPARK-24934​​ ] - 由于缺少上/下限情况,内存中分区修剪中的复杂类型和二进制类型不起作用
  • [ ​​SPARK-24948​​ ] - 由于权限检查,SHS错误地过滤了某些应用程序
  • [ ​​SPARK-24950​​ ] - scala DateTimeUtilsSuite daysToMillis和millisToDays失败w / java 8 181-b13
  • [ ​​SPARK-24957​​​ ] - 使用​​codegen​​,十进制算术可能导致错误的值
  • [ ​​SPARK-24987​​ ] - Kafka缓存的消费者泄漏文件描述符
  • [ ​​SPARK-25028​​ ] - 如果值为null,则AnalyzePartitionCommand因NPE失败
  • [ ​​SPARK-25051​​ ] - 数据集的where子句给出了AnalysisException
  • [ ​​SPARK-25076​​ ] - 不应从已停止的SparkSession中检索SQLConf
  • [ ​​SPARK-25084​​ ] - 在多列上“分发”可能会导致代码问题
  • [ ​​SPARK-25114​​ ] - 当两个单词之间的减法可被Integer.MAX_VALUE整除时,RecordBinaryComparator可能会返回错误的结果
  • [ ​​SPARK-25124​​ ] - VectorSizeHint.size是错误的,打破了流媒体管道
  • [ ​​SPARK-25144​​ ] - 由于检测到托管内存泄漏,数据集上的不同导致异常
  • [ ​​SPARK-25164​​ ] - Parquet阅读器为每列构建一次完整的列列表
  • [ ​​SPARK-25205​​ ] - spark.network.crypto.keyFactoryIteration中的拼写错误
  • [ ​​SPARK-25231​​ ] - 运行大型作业并进行猜测导致执行器心跳超时在驱动程序上
  • [ ​​SPARK-25313​​ ] - 修复FileFormatWriter输出模式中的回归
  • [ ​​SPARK-25330​​ ] - 将hadoop版本升级到2.7.7后的权限问题
  • [ ​​SPARK-25357​​ ] - 向SparkPlanInfo添加元数据以将更多信息(如文件路径)转储到事件日志
  • [ ​​SPARK-25368​​ ] - 不正确的约束推断返回错误的结果
  • [ ​​SPARK-25371​​ ] - 没有输入列的矢量汇编程序导致不透明错误
  • [ ​​SPARK-25402​​ ] - BooleanSimplification中的空值处理

new feature

  • [ ​​SPARK-24542​​ ] - Hive UDF系列UDFXPathXXXX允许用户通过精心设计的XML来访问任意文件

story

improvement

test

doc

  • [ ​​SPARK-24507​​ ] - “Spark Streaming Programming Guide”中“数据接收中的并行度级别”部分中的描述与最近的Kafka直接应用程序无关
  • [ ​​SPARK-25273​​ ] - 如何安装testthat v1.0.2

 

参考:​​https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12343289​