hive计算时间差值的函数 hive计算时间间隔

转载

架构师之光 2024-04-20 20:22:49

文章标签 hive计算时间差值的函数 hive udf hive计算网页停留时长 hive lua 文章分类 Hive 大数据

hive表结构如下：

create table pv_user_info(
session_id string, 
user_id string,
url string,
starttime bigint
);

主要就是这几个字段有用，省略其他。

实现方式：userid和sessionid分组后并按时间降序排序，降序排序后，第一行就是该用户最后一次浏览的网页。最后一行是第一次浏览的网页，第一行的starttime和第二行的starttime相减就是第二行停留时间。

这里会有几个误差
用户最后一次浏览的网页时长：因为不知道用关闭浏览器的时间，所以没办法计算，就返回一个特定的值吧，我这里返回的是0。
跨天：任务是按天统计，还没有第二天的数据，所以不考虑跨天。
连续点开多个网页：按上面的实现方式就会有误差，这是没办法的。按产生日志文件的结果看，只能用这种实现方式，除非专门写个js记录网页停留时长(不知是否可行)，那么就不需要用hive了。

具体实现：
1.要实现行与行之间的比较或算加减法hive sql是实现不了的，只有自定义函数UDF
2.定义全局变量，存上次浏览时间，sessionid，userid
3.第一次调用evaluate方法上次浏览时间肯定是空的，也就是说是用户在这一天里最后一次浏览网页的时间，直接返回0就行了。
4.再次调用evaluate方法要判断是不是同上一次调用evaluate方法是不是同一个用户同一个会话，如果是的话就相减。
5.调用evaluate方法如果和上一次调用不是一个用户，说明这个网页是另一个用户最后一次浏览网页的时间，直接返回0。

hiveUDF代码

import org.apache.hadoop.hive.ql.exec.UDF;

public class CalcUDF extends UDF {

	// 记录上一次访问信息
	private String[] lastLine = new String[2];;

	// 记录上次一次访问时间
	private Long lastTime = null;

	public Long evaluate(Long currentTime, String[] currentLine) {
		if (lastTime == null) {

			lastTime = currentTime;
			for (int i = 0; i < currentLine.length; i++) {
				lastLine[i] = currentLine[i];
			}

			return 0L;
		} else {
			// 同一个用户sessionId 和 userId 相等
			if (currentLine[0].equals(lastLine[0])&& currentLine[1].equals(lastLine[1])) {
				Long useTime = lastTime - currentTime;

				lastTime = currentTime;

				for (int i = 0; i < currentLine.length; i++) {
					lastLine[i] = currentLine[i];
				}
				return useTime;
			} else { // 另一个用户
				lastTime = currentTime;
				for (int i = 0; i < currentLine.length; i++) {
					lastLine[i] = currentLine[i];
				}
				return 0L;
			}
		}
	}
}

将代码打成jar包，上传到/home/hadoop/test/

进入hive命令行，执行：

add jar /home/hadoop/test/hiveUDF.jar; // 添加jar包 

create temporary function calc as 'com.orange.hadoop.CalcUDF';    //创建函数

//最后执行hive sql

select session_id,user_id,url,starttime, 
calc(starttime,user_id,session_id) 
from 
(select * from pv_user_info distribute by user_id,session_id sort by  user_id,session_id ,starttime desc) t;

这是我的实现方式，有没有更好的解决方案？

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。