Case具有两种格式:简单Case函数和Case搜索函数。
一:简单Case函数 (ELSE’其他’)去掉则显示空
缺点不在条件范围内显示不出来原有数值

SELECT
	CASE SPECIAL_TYPE
WHEN '1' THEN
	'06'
WHEN '2' THEN
	'07'
WHEN '3' THEN
	'02'
WHEN '4' THEN
	'04'
WHEN '5' THEN
	'05'
ELSE
	'其他'
END
FROM

二:Case搜索函数(ELSE’其他’)去掉则显示空
缺点不在条件范围内显示不出来原有数值

SELECT
	CASE
WHEN SPECIAL_TYPE = '1' THEN
	'06'
WHEN SPECIAL_TYPE = '3' THEN
	'02'
ELSE
	'其他'
END
FROM

这两种方式,可以实现相同的功能。简单Case函数的写法相对比较简洁,但是和Case搜索函数相比,功能方面会有些限制,比如写判断式。还有一个需要注意的问题,Case函数只返回第一个符合条件的值,剩下的Case部分将会被自动忽略。
– 比如说,下面这段sql,你永远无法得到“第二类”这个结果

SELECT
	CASE
WHEN SPECIAL_TYPE IN ('1', '3') THEN
	'第一类'
WHEN SPECIAL_TYPE IN ('1') THEN
	'第二类'
ELSE
	'其他'
END
FROM

下面我们来看一下,使用Case函数都能做些什么事情。

一,已知数据按照另外一种方式进行分组
分析,有如下数据:(为了看得更清楚,我并没有使用国家代码,而是直接用国家名作为主键:Primary Key)

hive 如何将多个select 结果合并出来_数据


需求:根据这个国家人口数据,统计亚洲和北美洲的人口数量。

应该得到下面这个结果:

hive 如何将多个select 结果合并出来_主键_02


解决这个问题,你会怎么做?生成一个带有洲Code的View是一个解决方法,但是这样很难动态的改变统计的方式。如果使用Case函数,SQL代码如下:

select case country
            when '中国' then '亚洲' 
            when '印度' then '亚洲' 
            when '日本' then '亚洲' 
            when '美国' then '北美洲'
            when '加拿大' then '北美洲' 
            when '墨西哥' then '北美洲' 
            else '其他' end as 洲, -- 起别名
            sum(population) as 人口 -- 起别名
from table_a 
group by
    (case country 
        when '中国' then '亚洲' 
        when '印度' then '亚洲'
        when '日本' then '亚洲' 
        when '美国' then '北美洲' 
        when '加拿大' then '北美洲' 
        when '墨西哥' then '北美洲' 
        else '其他' end);

同样的,我们也可以用这个方法来判断工资的等级,并统计每一等级的人数。
SQL代码如下:

select 
    case 
        when salary <= 500 then '1' 
        when salary > 500 and salary <= 600  then '2' 
        when salary > 600 and salary <= 800  then '3' 
        when salary > 800 and salary <= 1000 then '4' 
        else null end as salary_class, -- 起别名
    count(*)
from table_a 
group by 
    (case when salary <= 500 then '1' 
    when salary > 500 and salary <= 600  then '2' 
    when salary > 600 and salary <= 800  then '3' 
    when salary > 800 and salary <= 1000 then '4' 
    else null end);

结果显示:

hive 如何将多个select 结果合并出来_数据库_03


二,用一个SQL语句完成不同条件的分组

有如下数据:

hive 如何将多个select 结果合并出来_主键_04


按照国家和性别进行分组,得出结果如下:

hive 如何将多个select 结果合并出来_sql_05


普通情况下,用UNION(并集)也可以实现用一条语句进行查询。但是那样增加消耗(两个Select部分),而且SQL语句会比较长。下面是一个是用Case函数来完成这个功能的例子:

select country, 
        sum(case when sex='1' then population else 0 end) as 男,  --男性人口 
        sum(case when sex='2' then population else 0 end) as 女   --女性人口
from table_a
group by country;

这样我们使用Select,完成对二维表的输出形式,充分显示了Case函数的强大。

三,在Check中使用Case函数
在Check中使用Case函数在很多情况下都是非常不错的解决方法。可能有很多人根本就不用Check,那么我建议你在看过下面的例子之后也尝试一下在SQL中使用Check。
下面我们来举个例子:
公司A,这个公司有个规定,女职员的工资必须高于1000块。如果用Check和Case来表现的话,如下所示:

then 1 else 0 end  else 1 end = 1 ) 
如果单纯使用check: 
constraint check_salary check  ( sex = '2' and salary > 1000 )  女职员的条件倒是符合了,男职员就无法输入了。

四,根据条件有选择的update
例,有如下更新条件
1.工资5000以上的职员,工资减少10%
2.工资在2000到4600之间的职员,工资增加15%
很容易考虑的是选择执行两次update语句,如下所示
– 条件1

update personnel
set salary = salary * 0.9 
where salary >= 5000;

– 条件2

update personnel 
set salary = salary * 1.15 
where salary >= 2000 and salary < 4600;

但是事情没有想象得那么简单,问题:假设有个人工资5000块。首先,按照条件1,工资减少10%,变成工资4500。接下来运行第二个SQL时候,因为这个人的工资是4500在2000到4600的范围之内,需增加15%,最后这个人的工资结果是5175,不但没有减少,反而增加了。如果要是反过来执行,那么工资4600的人相反会变成减少工资。暂且不管这个规章是多么荒诞,如果想要一个sql语句实现这个功能的话,我们就需要用到Case函数。代码如下:

// 说明:库表:personnel中的每一行数据都会被更新
update personnel 
set salary = (case 
                when salary >= 5000 then salary * 0.9 
                when salary >= 2000 and salary < 4600 then salary * 1.15 
                else salary end)

这里要注意一点,最后一行的else salary是必需的,要是没有这行,不符合这两个条件的人的工资将会被写成null,那可就大事不妙了。

注意:在Case函数中Else部分的默认值是null,这点是需要注意的地方。

这种方法还可以在很多地方使用,比如说变更主键这种累活。

一般情况下,要想把两条数据的Primary key,a和b交换,需要经过临时存储,拷贝,读回数据的三个过程,要是使用Case函数的话,一切都变得简单多了。

hive 如何将多个select 结果合并出来_主键_06


假设有如上数据,需要把主键a和b相互交换。

用Case函数来实现的话,代码如下:

update sometable 
set p_key = (case 
                 when p_key = 'a' then 'b' 
                 when p_key = 'b' then 'a'
                 else p_key end)
where p_key in ('a', 'b');

同样的也可以用来交换两个unique key。
需要注意的是,如果有需要交换主键的情况发生,多半是当初对这个表的设计进行得不够到位,建议检查表的设计是否妥当。

五,两个表数据是否一致的检查
Case函数不同于DECODE函数。在Case函数中,可以使用:between, like, is null, in, exists等等。比如说使用in, exists,可以进行子查询,从而实现更多的功能。
下面具个例子来说明,有两个表:tbl_A,tbl_B,两个表中都有keyCol列。现在我们对两个表进行比较,tbl_A中的keyCol列的数据如果在tbl_B的keyCol列的数据中可以找到,返回结果’Matched’,如果没有找到,返回结果’Unmatched’。
要实现下面这个功能,可以使用下面两条语句
– 使用in的时候:

select keycol, case 
                    when keycol in (select keycol from tbl_b) then 'matched' 
                    else 'unmatched' end as label 
from tbl_a;

– 使用exists的时候:

select keycol, case 
                    when exists (select * from tbl_b where tbl_a.keycol = tbl_b.keycol) then 'matched' 
                    else 'unmatched' end as label 
from tbl_a;

使用in和exists的结果是相同的。也可以使用not in和not exists,但是这个时候要注意null的情况。

六,在Case函数中使用合计函数
假设有下面一个表:

hive 如何将多个select 结果合并出来_SQL_07


有的学生选择了同时修几门课程(100,200)也有的学生只选择了一门课程(300,400,500)。选修多门课程的学生,要选择一门课程作为主修,主修flag里面写入Y。只选择一门课程的学生,主修flag为N(实际上要是写入Y的话,就没有下面的麻烦事了,为了举例子,还请多多包含)。

现在我们要按照下面两个条件对这个表进行查询:

1,只选修一门课程的人,返回那门课程的ID

2,选修多门课程的人,返回所选的主课程ID

简单的想法就是,执行两条不同的SQL语句进行查询。

–条件1:只选择了一门课程的学生

select std_id, max(class_id) as main_class 
from studentclass 
group by std_id 
having count(*) = 1;

执行结果1:

hive 如何将多个select 结果合并出来_主键_08


–条件2:选择多门课程的学生

select std_id, class_id as main_class 
from studentclass 
where main_class_flg = 'Y';

执行结果2:

hive 如何将多个select 结果合并出来_SQL_09


如果使用Case函数,我们只要一条SQL语句就可以解决问题,具体如下所示:

select std_id, case
                  when count(*) = 1 then max(class_id)
                  else max(case 
                              when main_class_flg = 'y' then class_id 
                              else null end) 
                  end as main_class 
from studentclass 
group by std_id;

运行结果:

hive 如何将多个select 结果合并出来_主键_10


通过在Case函数中嵌套Case函数,在合计函数中使用Case函数等方法,我们可以轻松的解决这个问题。使用Case函数给我们带来了更大的自由度。

最后提醒一下使用Case函数的新手注意不要犯下面的错误:

// 错误的写法
case col_1 
        when 1 then 'right' 
        when null then 'wrong' 
end

在这个语句中when null这一行总是返回unknown,所以永远不会出现wrong的情况。因为这句实际表达的意思是:when col_1 = null,这是一个错误的用法,这个时候我们应该选择用:when col_1 is null。

七、小结
select与case结合使用最大的好处有两点:一是在显示查询结果时可以灵活的组织格式,二是有效避免了多次对同一个表或几个表的访问。
下面举个简单的例子来说明。
例如表:students(id, name ,birthday, sex, grade), – sex:男女标志(1:男,2:女),-- grade年级。要求按每个年级统计男生和女生的数量各是多少,统计结果的表头为:年级,男生数量,女生数量。如果不用select case when,为了将男女数量并列显示,统计起来非常麻烦,先确定年级信息,再根据年级取男生数和女生数,而且很容易出错。
用select case when写法如下:
结论:
1,count(1)与count(*)得到的结果一致,包含null值。
2,count(字段)不计算null值
3,count(null)结果恒为0

// 原理:count(arg)
// 对于一行来说,若括号内的参数arg的值若不是null,则count++,
// 否则对该行不予计数。
select grade, count(case 
                        when sex = 1 then 1  // 这里可以是不为null的任意数字
                        else null end) as 男生数量,
              count(case 
                        when sex = 2 then 1  // 这里可以是不为null的任意数字
                        else null end) as 女生数量
from students
group by grade;

OR

select grade, sum(case 
                      when sex = 1 then 1  // 这里只能是1
                      else 0 end) as 男生数量,
              sum(case
                      when sex = 2 then 1  // 这里只能是1
                      else 0 end) as 女生数量
from students
group by grade;

count函数:count(arg)的底层原理:
count(*)流程(于sub_select函数中)
上层的流程与代码是比较简单的,集中在 sub_select 函数中,其中 2 类函数分别对应于前面”执行框架”部分所述的 2 个步骤 – 读取、计数。先给出结论如下:
(1)读取一行:从相对顶层的 sub_select 函数经过一番调用,最终所有分支将调用到 row_search_mvcc 函数中,该函数就是用于从 InnoDB 存储引擎所存储的 B±tree 结构中读取一行到内存中的一个 buf (uchar * ) 中,待后续处理使用。
(2)计数一行: 代码层面,将会在 evaluate_join_record 函数中对所读取的行进行评估,看其是否应当计入 count 中 (即是否要count++)。
简单来说,count(arg)本身为 MySQL 的函数操作,对于一行来说,若括号内的参数arg的值若不是null,则count++,否则对该行不予计数。