大数据官方网站:
Hadoop 1.x 0.x 只有三个组件:
- Hadoop Common
- Hadoop Distributed File System (HDFS™)
- Hadoop YARN
Hadoop Common: 为核心组件 用来对其它组件的支持
Hadoop Distributed File System (HDFS™):分布式的文件系统来处理高吞吐量的应用数据
Hadoop YARN:一个用于任务提交和集群资源管理的框架
Hadoop MapReduce:一个基于YARN的并行处理海量数据集的框架
从Hadoop 2.x 版本开始 资源调度被独立出来
HDFS工作原理:
在企业中大数据集群 机器的个数一般是单数
Linux下安装Hadoop:
将Hadoop传输进来 然后进行解压
修改权限:查看Hadoop目录下的lib文件:
新建立另一个窗口在lib文件夹下解压native:
返回第一个窗口进行查看native:
配置全局变量:
切换到全局变量目录下:
新开窗口:方便知道地址
回到原来第一个窗口:
在第二个窗口里面输入:
回到第一个窗口输入:
启动Hadoop一定要先启动主节点 在启动从节点:
启动主节点:
启动从节点:
Hadoop的监控页面:
网页版集群页面:com.hadoop:50070
可以看到原始文件夹为空:
在集群上创建文件夹:
证明有新的文件夹:
上传文件到集群:
红色框指的是:Linux上的地址和文件
绿色框指的是:集群上的文件
显示如图:
查看集群文件信息和下载机群文件到Linux上:
Windows上操作HDFS文件系统
将Hadoop安装包解压到c盘根目录下 并配置环境变量:
将winutils.exe文件下载后 拖到bin目录下:
关闭集群(先关闭从节点 再关闭主节点):
切换到Hadoop进行编辑:(在第二个窗口进行)
将下列配置写到hdfs-site.xml中:
(目的是:运行其他客户端(Windows)也连接hdfs系统,(默认由于安全考虑是不允许的))
(配置的意思为授权认证关闭(默认是true,改为false))
在eclipse中创建maven工程在pom.xml中添加内容:
保存并等待下载
将集群上的文件下载到对应的文件夹中
- core-site.xml
- hdfs-site.xml
- log4j.properties
查看resources文件夹的路径:src/main/resources->Show in->System Explorer
cmd中下载文件至resources文件夹中
get /opt/modules/hadoop-2.6.0-cdh5.7.6/etc/hadoop/XXXX C:\eclipse\workspace\hdfstest\src\main\resources
创建jar 包(package)和Java执行文件 编写文件并运行:
注意:
集群刚启动的时候 有30秒的安全模式 无法进行任何操作
30秒内 老大在读取元数据 然后找小弟核对信息
如果小弟汇报的信息和老大元数据中有出入 老大就一直待在安全模式(safe mode)无法启动集群
如果汇报和元数据中一直 则集群从安全模式进入active模式
测试
在D盘根目录下新建文件(test.txt)并编辑(使用除Windows的记事本,如Sublime Text)
解除注释并编辑以下
开启进程:
保存并运行程序(稍作等待)
网页版:com.hadoop:50070