大数据-Hive排序

原创

wx5d0241bb88268 2022-03-04 16:40:30 博主文章分类：大数据 ©著作权

©著作权归作者所有：来自51CTO博客作者wx5d0241bb88268的原创作品，请联系作者获取转载授权，否则将追究法律责任

Order By：全局排序，一个reduce

SELECT * FROM student s LEFT JOIN score sco ON s.s_id = sco.s_id ORDER BY sco.s_score DESC;

SELECT * FROM student s LEFT JOIN score sco ON s.s_id = sco.s_id ORDER BY sco.s_score asc;

按照分数的平均值排序

select s_id ,avg(s_score) avg from score group by s_id order by avg;

按照学生id和平均成绩进行排序

select s_id ,avg(s_score) avg from score group by s_id order by s_id,avg;

Sort By：每个MapReduce内部进行排序，对全局结果集来说不是排序。

set mapreduce.job.reduces=3;

set mapreduce.job.reduces;

select * from score sort by s_score;

insert overwrite local directory '/export/servers/hivedatas/sort' select * from score sort by s_score

Distribute By：类似MR中partition，进行分区，结合sort by使用。

注意，Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。

对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。

案例实操：先按照学生id进行分区，再按照学生成绩进行排序。

set mapreduce.job.reduces=7;

insert overwrite local directory '/export/servers/hivedatas/sort' select * from score distribute by s

当distribute by和sort by字段相同时，可以使用cluster by方式。

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是倒序排序，不能指定排序规则为ASC 或者DESC。以下两种写法等价

select * from score cluster by s_id; 
select * from score distribute by s_id sort by s_id;

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯