Hive 实用技巧(一)

count

count(if(status=1,true,null))中count函数返回一个布尔值类型的数值,如果status=1,返回true,会计数;如果status不等于1返回null,不会计数。

count(DISTINCT if(agent_begin_time < start_time
AND unix_timestamp(t4.start_time) - unix_timestamp(t4.agent_begin_time) <= 259200
AND order_no IS NOT NULL,session_id,NULL)) AS xxx
返回的是符合要求的session id,接distinct获得绝对数量,结果可能为x+1,因为null值。

instr and substr

字符串截取函数substr(strings|express,m,[n])
strings|express 被截取的字符串或字符串表达式
m 从第m个字符开始截取
n 截取后字符串长度为n

可以使用instr函数对某个字符串进行判断,判断其是否含有指定的字符。

其语法为:
instr(sourceString,destString,start,appearPosition). instr(‘源字符串’ , ‘目标字符串’ ,‘开始位置’,‘第几次出现’)
如果start的值为负数,那么代表从右往左进行查找,但是位置数据仍然从左向右计算。
返回值为:查找到的字符串的位置。

SQL> select instr('my 2 firefly','f',-1) result from dual;
RESULT
----------
10

if

if(expr1,expr2,expr3)
如果 expr1 是TRUE (expr1 <> 0 and expr1 <> NULL),则 IF()的返回值为expr2; 否则返回值则为 expr3。IF() 的返回值为数字值或字符串值,具体情况视其所在语境而定。

时间格式转换。 ‘20191219’ <–>‘2019-12-19’

from_unixtime(unix_timestamp(dt,'yyyymmdd'),'yyyy-mm-dd')
from_unixtime(unix_timestamp(dt,'yyyy-mm-dd'),'yyyymmdd')
2019-12-19 <-> 20191219
concat(substr(dt,1,4),'-',substr(dt,5,2),'-',substr(dt,7,2)) AS v_date
         FROM table_name
regex

cast 函数

CAST (expression AS data_type)

(1).CAST()函数的参数是一个表达式,它包括用AS关键字分隔的源值和目标数据类型。以下例子用于将文本字符串’12’转换为整型:

SELECT CAST(‘12’ AS int)

(2).返回值是整型值12。如果试图将一个代表小数的字符串转换为整型值,又会出现什么情况呢?

SELECT CAST(‘12.5’ AS int)

(3).CAST()函数和CONVERT()函数都不能执行四舍五入或截断操作。由于12.5不能用int数据类型来表示,所以对这个函数调用将产生一个错误:

Server: Msg 245, Level 16, State 1, Line 1

Syntax error converting the varchar value

‘12.5’ to a column of data type int.

(4).要返回一个合法的数值,就必须使用能处理这个值的数据类型。对于这个例子,存在多个可用的数据类型。如果通过CAST()函数将这个值转换为decimal类型,需要首先定义decimal值的精度与小数位数。在本例中,精度与小数位数分别为9 与2。精度是总的数字位数,包括小数点左边和右边位数的总和。而小数位数是小数点右边的位数。这表示本例能够支持的最大的整数值是9999999,而最小的小数是0.01。

SELECT CAST(‘12.5’ AS decimal(9,2))

decimal数据类型在结果网格中将显示有效小数位: 12.50

行转列(case when)

找到一个事件发生后3天内另一个事件(头条面试)

join->过滤

数据库事务级别

http://www.zsythink.net/archives/1233/