hive order by指定顺序 hive sort

转载

墨色天香 2023-06-19 14:33:03

文章标签 hive order 指定顺序 hive 数据字段 mapreduce 文章分类 Hive 大数据

数据:

hive order by指定顺序 hive sort_字段

1、order by 会对输入做全局排序，因此只有一个 reducer，会导致当输入规模较大时，需要较长的计算时间。
演示:

select
id,
score,
subject
from score1 order by score;

结果图:

hive order by指定顺序 hive sort_mapreduce_02

2、sort by 不是全局排序，其在数据进入 reducer 前完成排序。因此，如果用 sort by 进行排序，并且设置 mapred.reduce.tasks>1，则 sort by 只保证每个 reducer 的输出有序，不保证全局有序。

--开启reduce的个数
set mapred.reduce.tasks = 3;
--指定开启分桶
set hive.enforce.bucketing = true;
set mapreduce.job.reduces=5; //经过测试至少要开启5个才能保证得到正确结果,可能不同的数据不同的个数吧,反正我的数据这样测试是准确的

select 
id,
score,
subject 
from score1 
distribute by subject  //使相同的key到同一个reduce中去
sort by score; //对同一个reduce的结果进行排序

hive order by指定顺序 hive sort_hive order 指定顺序_03

3、distribute by(字段)根据指定字段将数据分到不同的 reducer，分发算法是 hash 散列。

--开启粪桶
set hive.enforce.bucketing = true;
set mapreduce.job.reduces=3;
select
id,
score,
subject
from score1 distribute by id;

hive order by指定顺序 hive sort_数据_04

4、Cluster by(字段) 除了具有 Distribute by 的功能外，还会对该字段进行排序。

select
id,
score,
subject
from score1 cluster by id;

hive order by指定顺序 hive sort_hive order 指定顺序_05

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Spark任务调度 spark调度模式包括

下一篇：python抓取邮件 python读取163邮件内容

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

hive order by指定顺序 hive sort

hive order by指定顺序 hive sort

51CTO博客