hive查询时显示字段名

  • 运行下面代码,查询即可看到字段名
set hive.cli.print.header=true;

HIVE库查询字段的换行符 hive 查询表字段_hadoop


HIVE库查询字段的换行符 hive 查询表字段_升序_02

  • 还可以去掉表名
set hive.resultset.use.unique.column.names=false;

HIVE库查询字段的换行符 hive 查询表字段_hive_03

全表和特定列查询

  • 查询语句语法:
SELECT [ALL | DISTINCT] select_expr, select_expr, ...
FROM table_reference
[WHERE where_condition]
[GROUP BY col_list]
[ORDER BY col_list]
[CLUSTER BY col_list
| [DISTRIBUTE BY col_list] [SORT BY col_list]
]
[LIMIT number]

基本查询

全表和特定列查询

  • 数据准备

/root/hivedata 下面创建两个文件

HIVE库查询字段的换行符 hive 查询表字段_HIVE库查询字段的换行符_04

  • dept:
10      ACCOUNTING      1700
20      RESEARCH        1800
30      SALES   1900
40      OPERATIONS      1700
  • emp:
7369    SMITH   CLERK   7902    1980-12-17      800.00          20
7499    ALLEN   SALESMAN        7698    1981-2-20       1600.00 300.00  30
7521    WARD    SALESMAN        7698    1981-2-22       1250.00 500.00  30
7566    JONES   MANAGER 7839    1981-4-2        2975.00         20
7654    MARTIN  SALESMAN        7698    1981-9-28       1250.00 1400.00 30
7698    BLAKE   MANAGER 7839    1981-5-1        2850.00         30
7782    CLARK   MANAGER 7839    1981-6-9        2450.00         10
7788    SCOTT   ANALYST 7566    1987-4-19       3000.00         20
7839    KING    PRESIDENT               1981-11-17      5000.00         10
7844    TURNER  SALESMAN        7698    1981-9-8        1500.00 0.00    30
7876    ADAMS   CLERK   7788    1987-5-23       1100.00         20
7900    JAMES   CLERK   7698    1981-12-3       950.00          30
7902    FORD    ANALYST 7566    1981-12-3       3000.00         20
7934    MILLER  CLERK   7782    1982-1-23       1300.00         10
  1. 创建部门表
create table if not exists dept(depton int,dname string,loc int)
row format delimited fields terminated by '\t';

HIVE库查询字段的换行符 hive 查询表字段_hadoop_05

  1. 创建员工表
create table if not exists emp(empno int,ename string,job string,mgr int,hiredate string,sal double,comm double,deptno int)
row format delimited fields terminated by '\t';

HIVE库查询字段的换行符 hive 查询表字段_hadoop_06

  1. 导入数据
load data local inpath '/root/hivedata/dept.txt' into table dept;
load data local inpath '/root/hivedata/emp.txt' into table emp;

HIVE库查询字段的换行符 hive 查询表字段_hive_07

HIVE库查询字段的换行符 hive 查询表字段_大数据_08

全表查询

select * from emp;

HIVE库查询字段的换行符 hive 查询表字段_HIVE库查询字段的换行符_09

选择特定列查询

select empno,ename from emp;

HIVE库查询字段的换行符 hive 查询表字段_升序_10

注意:

  • (1)SQL 语言大小写不敏感。
  • (2)SQL 可以写在一行或者多行
  • (3)关键字不能被缩写也不能分行
  • (4)各子句一般要分行写。
  • (5)使用缩进提高语句的可读性。

列别名

  • 1)重命名一个列
  • 2)便于计算
  • 3)紧跟列名,也可以在列名和别名之间加入关键字‘AS’

案例实操

  1. 查询名称和部门
select ename as name,deptno dn from emp;

HIVE库查询字段的换行符 hive 查询表字段_hadoop_11

算术运算符(常用)

运算符

描述

A+B

A 和 B 相加

A-B

A 减去 B

A/B

A 除以 B

A*B

A 和 B 相乘



  • 案例实操:查询出所有员工的薪水后加 1 显示。
select sal +1 from emp;

HIVE库查询字段的换行符 hive 查询表字段_大数据_12

常用函数

求总行数(count)

select count(*) cnt from emp;

HIVE库查询字段的换行符 hive 查询表字段_HIVE库查询字段的换行符_13

求工资的最大值(max)

select max(sal) max_sal from emp;

HIVE库查询字段的换行符 hive 查询表字段_HIVE库查询字段的换行符_14

求工资的最小值(min)

select min(sal) min_sal from emp;

HIVE库查询字段的换行符 hive 查询表字段_hive_15

求工资的总和(sum)

select sum(sal) sum_sal from emp;

HIVE库查询字段的换行符 hive 查询表字段_hive_16

求工资的平均值(avg)

select avg(sal) avg_sal from emp;

HIVE库查询字段的换行符 hive 查询表字段_hive_17

Limit 语句

  • 典型的查询会返回多行数据。LIMIT 子句用于限制返回的行数。
select * from emp limit 5;

HIVE库查询字段的换行符 hive 查询表字段_hive_18

Where 语句

  1. 使用 WHERE 子句,将不满足条件的行过滤掉
  2. WHERE 子句紧随 FROM 子句

案例实操

  • 查询出薪水大于 1000 的所有员工
select ename,sal from emp where sal > 1000;

HIVE库查询字段的换行符 hive 查询表字段_hive_19

  • 注意:where 子句中不能使用字段别名。

比较运算符(Between/In/ Is Null)

HIVE库查询字段的换行符 hive 查询表字段_hadoop_20

案例实操

  • 查询出薪水等于 5000 的所有员工
select ename,sal from emp where sal=5000;

HIVE库查询字段的换行符 hive 查询表字段_大数据_21

  • 查询工资在 500 到 1000 的员工信息
select ename,sal from emp where between 500 and 1000;

HIVE库查询字段的换行符 hive 查询表字段_大数据_22

  • 查询 comm 为空的所有员工信息
select ename,comm from emp where comm is null;

HIVE库查询字段的换行符 hive 查询表字段_HIVE库查询字段的换行符_23

  • 查询工资是 1500 或 5000 的员工信息
select ename,sal from emp where sal in (1500,5000);

HIVE库查询字段的换行符 hive 查询表字段_升序_24

逻辑运算符(And/Or/Not)

HIVE库查询字段的换行符 hive 查询表字段_升序_25

  • 查询薪水大于 1000,部门是 30
select * from emp where sal>1000 and deptno=30;

HIVE库查询字段的换行符 hive 查询表字段_HIVE库查询字段的换行符_26

  • 查询薪水大于 1000,或者部门是 30
select * from emp where sal>1000 or deptno=30;

HIVE库查询字段的换行符 hive 查询表字段_升序_27

  • 查询除了 20 部门和 30 部门以外的员工信息
select * from emp where deptno not in(20,30);

HIVE库查询字段的换行符 hive 查询表字段_HIVE库查询字段的换行符_28

分组

Group By 语句

GROUP BY 语句通常会和聚合函数一起使用,按照一个或者多个列队结果进行分组,然后对每个组执行聚合操作。

案例实操

  • 计算 emp 表每个部门的平均工资
select deptno,avg(sal) avg_sal from emp group by deptno;

HIVE库查询字段的换行符 hive 查询表字段_hadoop_29

  • 计算 emp 每个部门中每个岗位的最高薪水
select deptno,job,max(sal) max_sal from emp group by deptno,job;

HIVE库查询字段的换行符 hive 查询表字段_HIVE库查询字段的换行符_30

Having 语句

(1)where 后面不能写分组函数,而 having 后面可以使用分组函数。
(2)having 只用于 group by 分组统计语句。

  • 求每个部门的平均薪水大于 2000 的部门
select deptno,avg(sal) avg_sal from emp group by deptno having avg_sal>2000;

HIVE库查询字段的换行符 hive 查询表字段_大数据_31

Join 语句

  • 根据员工表和部门表中的部门编号相等,查询员工编号、员工名称和部门名称;
select e.empno,e.ename,d.dname from emp e join dept d on e.deptno = d.depton;

HIVE库查询字段的换行符 hive 查询表字段_hadoop_32

表的别名

(1)使用别名可以简化查询。
(2)使用表名前缀可以提高执行效率

排序

全局排序(Order By)

  • Order By:全局排序,只有一个 Reducer
  • 使用 order by 子句排序
  • asc(ascend): 升序(默认)
  • desc(descend): 降序
  • order by 子句在 select 语句的结尾

案例实操

  1. 查询员工信息按工资升序排列
select * from emp order by sal;

HIVE库查询字段的换行符 hive 查询表字段_HIVE库查询字段的换行符_33

  1. 查询员工信息按工资降序排列
select * from emp order by sal desc;

HIVE库查询字段的换行符 hive 查询表字段_大数据_34

按照别名排序

  • 按照员工薪水的 2 倍排序
select ename,sal*2 twosal from emp order by twosal;

HIVE库查询字段的换行符 hive 查询表字段_hive_35

多个列排序

  • 按照部门和工资升序排序
select ename,deptno,sal from emp order by deptno,sal;

HIVE库查询字段的换行符 hive 查询表字段_hive_36

每个 Reduce 内部排序(Sort By)

  • Sort By:对于大规模的数据集 order by 的效率非常低。在很多情况下,并不需要全局排 序,此时可以使用 sort by。
  • Sort by 为每个 reducer 产生一个排序文件。每个 Reducer 内部进行排序,对全局结果集 来说不是排序。
  • 设置 reduce 个数
set mapreduce.job.reduces=3;

HIVE库查询字段的换行符 hive 查询表字段_大数据_37

  • 查看设置 reduce 个数
set mapreduce.job.reduces;

HIVE库查询字段的换行符 hive 查询表字段_hive_38

  • 根据部门编号降序查看员工信息
select * from emp sort by deptno desc;

HIVE库查询字段的换行符 hive 查询表字段_hadoop_39

  • 将查询结果导入到文件中(按照部门编号降序排序)
insert overwrite local directory '/root/hivedata'
select * from emp sort by deptno desc;

HIVE库查询字段的换行符 hive 查询表字段_hive_40