Spark SQL如何实现mysql的union操作

原创

mob604756ed02fe 2021-03-16 09:25:09 ©著作权

文章标签 Java 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者mob604756ed02fe的原创作品，请联系作者获取转载授权，否则将追究法律责任

浪尖浪尖聊大数据

今天聊了聊一个小小的基础题，union和union all的区别： union all是直接连接，取到得是所有值，记录可能有重复
union 是取唯一值，记录没有重复
1、UNION 的语法如下：


[SQL 语句 1]
     UNION
		 [SQL 语句 2]

2、UNION ALL 的语法如下：


[SQL 语句 1]
     UNION ALL
[SQL 语句 2]

UNION和UNION ALL关键字都是将两个结果集合并为一个，但这两者从使用和效率上来说都有所不同。

1、对重复结果的处理：UNION在进行表链接后会筛选掉重复的记录，Union All不会去除重复记录。

2、对排序的处理：Union将会按照字段的顺序进行排序；UNION ALL只是简单的将两个结果合并后就返回。

从效率上说，UNION ALL 要比UNION快很多，所以，如果可以确认合并的两个结果集中不包含重复数据且不需要排序时的话，那么就使用UNION ALL。

实际上Spark SQL的DataSet的API是没有union all操作的，只有union操作，而且其union操作就是union all操作。此时要实现union操作，需要在union之后加上distinct操作。


sales.union(sales).show()

输出结果是有重复数据的需要将操作更改为：


sales.union(sales).distinct().show()

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯