在这一片我们将介绍如何将HDFS上的数据进行清洗得到自己想要的数据。在HDFS上我们得到的如下的信息
"http://localhost/FluxAppServer/a.jsp|a.jsp|A页面|UTF-8|341x256|24-bit|zh-cn|0|1||0.5514263453546305|http://localhost/FluxAppServer/b.jsp|Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:64.0) Gecko/20100101 Firefox/64.0|57039716907014431020|0298644254_32_1560325951992|127.0.0.1";
1.清洗目标
可以看到在HDFS上存储的数据有许多不是我们需要的字段,那么我们只要保留需要的字段即可
在会话字段有三块包含:会话编号, 会话页面数,会话时间;在一起用起来不方便,需要用下划线进行提取,所以把它进行分离,方便以后使用。
根据以上分析,我们可以发现最后保留以下字段:url urlname ref uagent uvid ssid sscoutn sstime cip
2.技术选择
数据清洗没有工具技术上的限制,什么工具技术合适就用什么工具技术:
shell——数据量不大,清洗时数据比较简单,用shell脚本)。
python、java ——数据量不大,但处理逻辑比较复杂,python脚本或Java语言。
mr ——数据量很大,