hive explode 函数 hive自带的函数

转载

mob6454cc6c1f4a 2023-08-15 11:10:22

文章标签 hive explode 函数 hive 大数据 jar包 unix 文章分类 Hive 大数据

hive的常用内置函数

1.日期函数

返回值	函数	案例/备注
string	date_add(开始日期,需要累加的天数	select date_add(‘2020-01-08 12:13:15’,5) ==> 累加5天，返回2020-01-13
string	date_sub(开始日期，需要减去天数）	select date_sub(2020-01-08 12:13:14’,5)==>减去5天，返回2020-01-03
int	datediff(结束日期，起始日期）	select datediff(‘2020-08-06 12:13:14’,’2020-06-05 08:09:10’) ==>相差1天，忽略时分秒
string	date_format(date/timestamp/string,’yyyy’)	select (current_timestamp,’MM-dd’)==>注意这个函数只能是date／timestamp／string类型
int	unix_timestamp()	返回的是int类型，返回的是秒值，格式化这种数据使用的是from_unixtime(t,’yyyy-MM-dd’)
timestamp	current_timestamp	返回的是一个timestamp类型，返回的是带有毫秒值，格式化这种数据使用的是date_format(t,’MM-dd’)
bigint	unix_timestamp(‘yyyy-MM-dd HH:mm:ss’)	select unix_timestamp(‘2019-09-09 12:13:14’) ==>获取该时间的秒值
string	from_unixtime(unix_timestamp(),’yyyy-MM-dd HH:mm:ss’)	select from_unixtime(unix_timestamp(),’yyyy-MM’)==>通过时间戳我只想要年和月
string	to_date(‘yyyy-MM-dd HH:mm:ss’)	select to_date(‘2020-07-13 12:13:14’);==>返回的是字符串类型的时间，只有时间
int	year \month\ day \hour minute second weekofyear

2.类型转换函数

返回值	函数	案例/备注
type	cast( 1 as string)	select cast(1 as double); ===> 把1转换成double类型用于计算

3.条件函数

返回值	函数	案例/备注
T	if(条件,true,false)	条件为真，执行true，否则执行false
T	nvl(comm,0)	如果comm字段为null，执行0
T	coalesce(comm,v1,v2,v3…)	如果comm为null执行v1，如果v1为null执行v2以此类推
T	case when deptno=10 then ‘a’ else ‘b’ end	判断
T	case deptno when 10 then ‘a’ else ‘b’ end	判断
Boolean	isnull(comm)	如果comm为null，返回true
Boolean	isnotnull(comm)	如果comm不为null，返回true

4.标准函数

返回值	函数	案例/备注
string	concat(‘a’,’b’…)	select concat(‘a’,’b’,’c’) ==>abc
int	instr(‘ababab’,’ab’)	select instr(‘ababcabab’,’abc’) ====>返回子字符串的位置 3
int	length(‘aaaaaa’)	select length(‘aaaaaa’) ===>返回字符串的长度 6
int	locate(‘ab’,’ababababaab’,4)	select locate(‘abc’,’ababcccabcddab,4);===>返回子字符串的位置，从第4个位置开始
string	lower(‘AAA’)	select lower(‘AAA’)===>返回小写的字符串 aaa
string	upper(‘ssss’)	select upper(‘aaa’) ====> 返回大写的字符串AAA
string	regexp_replace(‘aa 123 bb’,’[1-9]{3}’,’w’)	select regexp_replace(‘aa 123 bb’,’[1-9]{3}’,’w’); 正则\s+ 代表的就是空白
array	split(‘aa bb cc’,’ ‘)	select split(‘a b c’, ‘ ‘); ==>产生一个字符串数组
string	substr/substring(‘aback’,1,2)	select substr(‘aback’,1,2); ==>截取子字符串，第一个字符代表1，从1开始，一共截取2个字符
string	trim(‘ aa bb ‘)	select trim(‘ aa bb cc ‘);===>只去掉前后空格
map	str_to_map(’name-zs&age-18’,’&’,’-“)	select str_to_map(’name-zs&age-18’,’&’,’-‘);====>最后产生一个map结构 {“name”:“zs”,“age”:"18”}
binary	encode(‘aaa’,’utf-8’)	select encode(‘aaa’,’utf-8’) ===> 以utf-8进行对aaa字符串进行编码

5.自定义函数

# 5.1 集成UDF
  5.2 需要编写一个方法 ，方法名必须是 evaluate 
  5.3 打包上传到linux
  5.4 在hive中加载jar包 add jar /tmp/xxxxx.jar
  5.5 创建函数 create function fun as ‘包名.类名’
  5.6 使用

# 案例演示：
public class StringToLower extends UDF {
    public Text evaluate(Text str){
        if(str == null){
            return null;
        }
        return new Text(str.toString().toLowerCase());
    }
}

# 打成jar包、虚拟机下输入以下命令
add jar /tmp/zhibo2_6-1.0-SNAPSHOT.jar;

create function string2lower as 'cn.kgc.hive.StringToLower’; 创建了一个永久函数

0: jdbc:hive2://localhost:10000> select string2lower('aaaSSSddddeeeggggAAAAAAAAAAAA');
+--------------------------------+--+
|              _c0               |
+--------------------------------+--+
| aaasssddddeeeggggaaaaaaaaaaaa  |
+--------------------------------+————————————————+


当退出hive之后，再次进入，需要重新加载jar包

（1）如果本地加载jar包，退出再次进入，需要重新加载jar包，并且重新创建函数，然后才能使用.

（2）如果是hdfs的方式加载jar包，退出再次进入，不需要重新弄加载jar包，也不需要重新创建函数，直接使用即可.
add jar hdfs://hadoop1:9000/home/zhibo2_6-1.0-SNAPSHOT.jar;
删除函数：drop funcation str2lower;

（3）直接把jar包放在 hive目录下的 auxlib目录下即可。/opt/install/hive-1.1.0-cdh5.14.2/auxlib,不需要手动加载，每次启动hive自动加载这个目录下的jar包。


临时函数与永久函数的区别？临时函数只要hive的客户端不退出，在任何数据库中都可以使用；；；永久函数，在哪个数据库中创建的，只能在哪个数据库中使用.
    
    
统计单词的个数:wordcount案例。
select word, count(word) 
    from (select explode(split('aa bb cc dd aa aa bb bb ee',' ')) word)t1 
    group by word;

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。