Hive---＞DML中的四个by

原创

飝鱻? 2021-08-03 10:11:43 博主文章分类：Hive ©著作权

文章标签 大数据 hive mapreduce java 数据库 文章分类 Java 后端开发

©著作权归作者所有：来自51CTO博客作者飝鱻?的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hive--->DML中的四个by

排序

排序

全局排序(order by),只有一个Reducer

使用 ORDER BY字句排序：ASC是升序也是默认的，DESC是降序
实操案例:查询员工按照工资降序排列

select * from emp order by sal desc;

按照部门和工资升序排序

select * from emp order by deptno,sal;

每个Reduce内部排序(Sort by)

Sort by：对于大规模的的数据集order by排序的效率十分低下，在不需要全局排序是，可以使用sort by排序，sort by为每一个reducer产生一个排序文件。每个reducer内部进行排序，对全局结果集来说不是排序
设置reduce个数set mapreduce.job.reduce=3;
按照员工编号降序查看员工信息

select * from emp sort by deptno desc;

分区(Distribute by)

distribute by:在有些情况下，我们需要控制某个特定行应该到那个reduce，通常是为了进行后续的聚集操作。distribute by自居可以做这件事情。distribute by类似MR中的partition，进行分区，结合sort by使用
实操:先按照部门编号分区，再按照员工编号降序排序

set mapreduce.job.reduce=3;
insert overwrite local directory '/home/data/distribute-result'
select * from distribute by deptno sort by empno desc;

distribute by 一般和sort by一起使用

Cluster by

当distribute by和sort by字段相同时，可以使用cluster by
同时cluster by还具有排序的功能，但是只可以是升序排序的
演示:

set mapreduce.job.reduce=3;
insert overwrite local directory '/home/data/distribute-result'
select * from distribute by deptno sort by empno deptno;
//上面的可以写成
set mapreduce.job.reduce=3;
insert overwrite local directory '/home/data/distribute-result'
select * from cluster by deptno;