spark union 特别注意

原创

大海之中 2019-11-21 13:58:43 博主文章分类：推荐 ©著作权

文章标签 spark union 特别注意 文章分类 Spark 大数据

©著作权归作者所有：来自51CTO博客作者大海之中的原创作品，请联系作者获取转载授权，否则将追究法律责任

今天遇到一个很诡异的问题。

表A

userid	housecode	res	ctime
u1	code1	1	1301

表B

userid	housecode	res	ctime
u2	code2		1302

表C

userid	name	type	time
u1	大海		1303

然后对表A进行处理操作

表A.createOrReplaceTempView("t1"); JavaRDD<HistoryModelExt> rdd=removeDuplicateData(t1); t1= s.createDataFrame(rdd, HistoryModelExt.class);

然后查看t1, t1.show()

u1	code1	1	1301
..	..	..	..

数据还在，然后 B union A 然后 join C(通过userid), 理论上应该是有结果的，感觉就像1+1=2 这么肯定，但是还真没有数据，非常诧异。

刚开始以为是自己程序哪里有问题，苦苦寻找，发现一切正常，最后回到 union这个方法上。

为了看清楚前因后果，我把B union A的数据打印了出来，发现了一个奇怪的事情

userid	housecode	res	ctime
u2	code2		1302
1301	code1	1	u1

当时一下子就明白为什么join 没有数据了， A的schema已经与B不一致了。原来 union函数并不是按照列名合并，而是按照位置合并。 但是在JavaRDD<HistoryModelExt> rdd=removeDuplicateData(t1); 这步之前还是一致的，为什么转成java对象后，schema就变了呢

查看源代码

  /**
   * Applies a schema to an RDD of Java Beans.
   *
   * WARNING: Since there is no guaranteed ordering for fields in a Java Bean,
   * SELECT * queries will return the columns in an undefined order.
   *
   * @since 2.0.0
   */

 def createDataFrame(rdd: RDD[_], beanClass: Class[_]): DataFrame = {
    val attributeSeq: Seq[AttributeReference] = getSchema(beanClass)
    val className = beanClass.getName
    val rowRdd = rdd.mapPartitions { iter =>
    // BeanInfo is not serializable so we must rediscover it remotely for each partition.
      SQLContext.beansToRows(iter, Utils.classForName(className), attributeSeq)
    }
    Dataset.ofRows(self, LogicalRDD(attributeSeq, rowRdd.setName(rdd.name))(self))
  }

看注释，fields的顺序是不保证的，原来如此。

这样你在union前乖乖的执行

t1.select("userId","houseCode","res","ctime");

这样顺序就又恢复了，大数据排查问题特别麻烦，感觉是一个很大的坑，希望能帮到后来人。

上一篇：spark 表关联

下一篇：flink1.9升级&alink使用

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯