Hadoop离线安装集群搭建

转载

mob64ca1400133b 2025-07-21 15:38:16

文章标签 Hadoop离线安装集群搭建服务器 hdfs HDFS 文章分类 Hadoop 大数据

离线分析系统的结构图

Hadoop离线安装集群搭建_服务器

整个离线分析的总体架构就是使用 Flume 从 FTP 服务器上采集日志文件，并存储在 Hadoop HDFS 文件系统上，再接着用 Hadoop 的 mapreduce 清洗日志文件，最后使用 HIVE 构建数据仓库做离线分析。任务的调度使用 Shell 脚本完成，当然大家也可以尝试一些自动化的任务调度工具，比如说 AZKABAN 或者 OOZIE 等。

分析所使用的点击流日志文件主要来自Nginx的access.log日志文件，需要注意的是在这里并不是用Flume直接去生产环境上拉取nginx的日志文件，而是多设置了一层FTP服务器来缓冲所有的日志文件，然后再用Flume监听FTP服务器上指定的目录并拉取目录里的日志文件到HDFS服务器上(具体原因下面分析)。从生产环境推送日志文件到FTP服务器的操作可以通过Shell脚本配合Crontab定时器来实现。

网站点击流数据

Hadoop离线安装集群搭建_HDFS_02

一般在 WEB 系统中，用户对站点的页面的访问浏览，点击行为等一系列的数据都会记录在日志中，每一条日志记录就代表着上图中的一个数据点；而点击流数据关注的就是所有这些点连起来后的一个完整的网站浏览行为记录，可以认为是一个用户对网站的浏览 session 。比如说用户从哪一个外站进入到当前的网站，用户接下来浏览了当前网站的哪些页面，点击了哪些图片链接按钮等一系列的行为记录，这一个整体的信息就称为是该用户的点击流记录。这篇文章中设计的离线分析系统就是收集 WEB 系统中产生的这些数据日志，并清洗日志内容存储分布式的 HDFS 文件存储系统上，接着使用离线分析工具 HIVE 去统计所有用户的点击流信息。

本系统中我们采用Nginx的access.log来做点击流分析的日志文件。access.log日志文件的格式如下：

样例数据格式:

124.42.13.230 - - [18/Sep/2013:06:57:50 +0000] "GET /shoppingMall?ver=1.2.1 HTTP/1.1" 200 7200 "http://www.baidu.com.cn" "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)"

格式分析:

1、访客ip地址:124.42.13.230

2 、访客用户信息： - -

3、请求时间： [18/Sep/2013:06:57:50 +0000]

4 、请求方式：GET

5、请求的url： /shoppingMall ?ver=1.10.2

6 、请求所用协议：HTTP/1.1

7、响应码：200

8 、返回的数据流量：7200

9 、访客的来源url：http://www.baidu.com.cn

10、访客所用浏览器：Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; BTRS101170; InfoPath.2; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)

收集用户数据

      网站会通过前端 JS 代码或服务器端的后台代码收集用户浏览数据并存储在网站服务器中。一般运维人员会在离线分析系统和真实生产环境之间部署 FTP 服务器，并将生产环境上的用户数据每天定时发送到 FTP 服务器上，离线分析系统就会从 FTP 服务上采集数据而不会影响到生产环境。
       采集数据的方式有多种，一种是通过自己编写 shell 脚本或 Java 编程采集数据，但是工作量大，不方便维护，另一种就是直接使用第三方框架去进行日志的采集，一般第三方框架的健壮性，容错性和易用性都做得很好也易于维护。本文采用第三方框架 Flume 进行日志采集， Flume 是一个分布式的高效的日志采集系统，它能把分布在不同服务器上的海量日志文件数据统一收集到一个集中的存储资源中， Flume 是 Apache 的一个顶级项目，与 Hadoop 也有很好的兼容性。不过需要注意的是 Flume 并不是一个高可用的框架，这方面的优化得用户自己去维护。
        Flume 的 agent 是运行在 JVM 上的，所以各个服务器上的 JVM 环境必不可少。每一个 Flume agent 部署在一台服务器上， Flume 会收集 web server 产生的日志数据，并封装成一个个的事件发送给 Flume Agent 的 Source ， Flume Agent Source 会消费这些收集来的数据事件并放在 Flume Agent Channel ， Flume Agent Sink 会从 Channel 中收集这些采集过来的数据，要么存储在本地的文件系统中要么作为一个消费资源分发给下一个装在分布式系统中其它服务器上的 Flume 进行处理。 Flume 提供了点对点的高可用的保障，某个服务器上的 Flume Agent Channel 中的数据只有确保传输到了另一个服务器上的 Flume Agent Channel 里或者正确保存到了本地的文件存储系统中，才会被移除。

本系统中每一个 FTP 服务器以及 Hadoop 的 name node 服务器上都要部署一个 Flume Agent ； FTP 的 Flume Agent 采集 Web Server 的日志并汇总到 name node 服务器上的 Flume Agent ，最后由 hadoop name node 服务器将所有的日志数据下沉到分布式的文件存储系统 HDFS 上面。

需要注意的是Flume的Source在本文的系统中选择的是Spooling Directory Source，而没有选择ExecSpooling Directory能记录上一次读取到的位置，而Exec Source则没有，需要用户自己去处理，当重启Flume服务器的时候如果处理不好就会有重复数据的问题。当然Spooling Directory也是有缺点的，会对读取过的文件重命名，所以多架一层FTP服务器也是为了避免Flume“污染”生产环境。Spooling Directory另外一个比较大的缺点就是无法做到灵活监听某个文件夹底下所有子文件夹里的所有文件里新追加的内容。关于这些问题的解决方案也有很多，比如选择其它的日志采集工具，像logstash等。
FTP 服务器上的 Flume 配置文件如下：

时间	IP	SessionID	请求页面URL	Referal URL
2015-05-30 19:38:00	192.168.12.130	Session1	/blog/me	www.baidu.com
2015-05-30 19:39:00	192.168.12.130	Session1	/blog/me/details	www.mysite.com/blog/me
2015-05-30 19:38:00	192.168.12.40	Session2	/blog/me	www.baidu.com

SessionID	IP	访问时间	访问页面	停留时间	第几步
Session1	192.168.12.130	2016-05-30 15:17:30	/blog/me	30000	1
Session1	192.168.12.130	2016-05-30 15:18:00	/blog/me/admin	30000	2
Session1	192.168.12.130	2016-05-30 15:18:30	/home	30000	3
Session2	192.168.12.150	2016-05-30 15:16:30	/products	30000	1
Session2	192.168.12.150	2016-05-30 15:17:00	/products/details	30000	2

SessionID	访问时间	离开时间	第一次访问页面	最后一次访问的页面	访问的页面总数	IP	Referal
Session1	2016-05-30 15:17:00	2016-05-30 15:19:00	/blog/me	/blog/others	5	192.168.12.130	www.baidu.com
Session2	2016-05-30 14:17:00	2016-05-30 15:19:38	/home	/profile	10	192.168.12.140	www.178.com
Session3	2016-05-30 12:17:00	2016-05-30 15:40:00	/products	/detail	6	192.168.12.150	www.78dm.net

Hadoop离线安装集群搭建

Hadoop离线安装集群搭建

51CTO博客