Hive-排序方式

原创

蹦擦擦蹦 2022-06-10 19:15:09 ©著作权

文章标签 数据自定义取模 文章分类 运维

©著作权归作者所有：来自51CTO博客作者蹦擦擦蹦的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hive-排序方式

会对查询的结果做一次全局排序

所有的数据都会发送到同一个reducer进行处理，不管有多少map，也不管文件有多少block块，只会启动一个reducer，因为多个reducer无法保证全局有序

全局有序

对大量数据进行排序耗时会比较长

会根据数据量的大小启动多个reducer进行排序，会保证每个reducer内有序

执行了局部排序之后可以为全局排序提高不少效率

局部有序，如果只有一个reducer，则效果和order by一样

有些情况下，我们需要控制某个特定行应该到哪个reducer，通常是为了进行后续的聚集操作。

distribute by类似MR中partition(自定义分区)，进行分区，结合sort by使用

distribute by的分区规则是根据分区字段的hash码与reducer的个数取模，相同的分到一个区

distribute by语句要写在sort by语句之前

cluster by是distribute by和sort by的结合

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯