一,UDF函数
1,注意点:
1、类需要继承org.apache.hadoop.hive.ql.UDF
2、方法名必须是evaluate,支持重载;
3、必须要有返回类型,可以返回null,但是返回类型不能为void;
2,代码:
public class MYUDF extends UDF {
public int evaluate (int num ){
return num + 10;
}
}
3,配置:
1、首先利用maven打包,把jar包放入hive目录下的auxlib文件夹下(自己新建,如果是其他名字hive重启后会读不到,需要每次都重新add jar)
2、进入hive,添加jar包
add jar linux_jar_path//jar包绝对路径
4,创建函数:
create [temporary] function [dbname.]function_name AS class_name;
--temporary,是否创建临时函数
--dbname. 用户自定义的函数是以库为单位的,在其他库要想调用函数需要 库名.函数名 来使用
--class_name 指的是编写类的全类名
5,查看函数列表
Show functions;
6,测试使用
select udf_test(jsonStr,'rate') from tmp.xcj_udf_test;
1,UDTF函数
重点:
1、类要继承org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
2、需要重写 initialize(),process(),close()三个方法
代码:
public class MyUDTF extends GenericUDTF {
private ArrayList<String> outList = new ArrayList<>();
@Override
public StructObjectInspector initialize(StructObjectInspector argOIs) throws UDFArgumentException {
//1.定义输出数据的列名和类型(固定格式)
List<String> fieldNames = new ArrayList<>();
List<ObjectInspector> fieldOIs = new ArrayList<>();
//2.添加输出数据的列名和类型
fieldNames.add("lineToWord");
//字符串的固定格式
fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNames, fieldOIs);
}
@Override
public void process(Object[] args) throws HiveException {
//1.获取原始数据
String arg = args[0].toString();
//2.获取数据传入的第二个参数,此处为分隔符
String splitKey = args[1].toString();
//3.将原始数据按照传入的分隔符进行切分
String[] fields = arg.split(splitKey);
//4.遍历切分后的结果,并写出
for (String field : fields) {
//集合为复用的,首先清空集合
outList.clear();
/**
这里也需要把结果写进集合或数组里再输出
*/
//将每一个单词添加至集合
outList.add(field);
//将集合内容写出
forward(outList);
}
}
@Override
public void close() throws HiveException {
}
}
其他步骤相同