大数据官方网站:

hadoop.apache.org:

hadoop linux 自启动 linux如何启动hadoop_hadoop

hadoop linux 自启动 linux如何启动hadoop_Hadoop_02

hadoop linux 自启动 linux如何启动hadoop_xml_03


Hadoop 1.x 0.x 只有三个组件:

  • Hadoop Common
  • Hadoop Distributed File System (HDFS™)
  • Hadoop YARN

Hadoop Common: 为核心组件 用来对其它组件的支持
Hadoop Distributed File System (HDFS™):分布式的文件系统来处理高吞吐量的应用数据
Hadoop YARN:一个用于任务提交和集群资源管理的框架
Hadoop MapReduce:一个基于YARN的并行处理海量数据集的框架

从Hadoop 2.x 版本开始 资源调度被独立出来

HDFS工作原理:

在企业中大数据集群 机器的个数一般是单数

hadoop linux 自启动 linux如何启动hadoop_hadoop linux 自启动_04

Linux下安装Hadoop:

将Hadoop传输进来 然后进行解压

hadoop linux 自启动 linux如何启动hadoop_hadoop linux 自启动_05


修改权限:查看Hadoop目录下的lib文件:

hadoop linux 自启动 linux如何启动hadoop_xml_06

新建立另一个窗口在lib文件夹下解压native:

hadoop linux 自启动 linux如何启动hadoop_hadoop_07

返回第一个窗口进行查看native:

hadoop linux 自启动 linux如何启动hadoop_Hadoop_08

配置全局变量:

切换到全局变量目录下:

hadoop linux 自启动 linux如何启动hadoop_hadoop_09

hadoop linux 自启动 linux如何启动hadoop_hadoop linux 自启动_10


新开窗口:方便知道地址

hadoop linux 自启动 linux如何启动hadoop_hadoop linux 自启动_11

回到原来第一个窗口:

hadoop linux 自启动 linux如何启动hadoop_hadoop linux 自启动_12

hadoop linux 自启动 linux如何启动hadoop_hadoop_13

hadoop linux 自启动 linux如何启动hadoop_xml_14

hadoop linux 自启动 linux如何启动hadoop_Hadoop_15

hadoop linux 自启动 linux如何启动hadoop_hadoop linux 自启动_16

hadoop linux 自启动 linux如何启动hadoop_Hadoop_17

在第二个窗口里面输入:

hadoop linux 自启动 linux如何启动hadoop_xml_18


回到第一个窗口输入:

hadoop linux 自启动 linux如何启动hadoop_Hadoop_19

hadoop linux 自启动 linux如何启动hadoop_xml_20


hadoop linux 自启动 linux如何启动hadoop_Hadoop_21

hadoop linux 自启动 linux如何启动hadoop_hadoop linux 自启动_22

hadoop linux 自启动 linux如何启动hadoop_hadoop_23

hadoop linux 自启动 linux如何启动hadoop_hadoop_24


hadoop linux 自启动 linux如何启动hadoop_xml_25

启动Hadoop一定要先启动主节点 在启动从节点:

启动主节点:

hadoop linux 自启动 linux如何启动hadoop_xml_26

hadoop linux 自启动 linux如何启动hadoop_hadoop_27


启动从节点:

hadoop linux 自启动 linux如何启动hadoop_xml_28

Hadoop的监控页面:
网页版集群页面:com.hadoop:50070

hadoop linux 自启动 linux如何启动hadoop_hadoop linux 自启动_29

可以看到原始文件夹为空:

hadoop linux 自启动 linux如何启动hadoop_hadoop_30

在集群上创建文件夹:

hadoop linux 自启动 linux如何启动hadoop_Hadoop_31

证明有新的文件夹:

hadoop linux 自启动 linux如何启动hadoop_Hadoop_32

上传文件到集群:

红色框指的是:Linux上的地址和文件

绿色框指的是:集群上的文件

hadoop linux 自启动 linux如何启动hadoop_Hadoop_33


显示如图:

hadoop linux 自启动 linux如何启动hadoop_xml_34

查看集群文件信息和下载机群文件到Linux上:

hadoop linux 自启动 linux如何启动hadoop_Hadoop_35

Windows上操作HDFS文件系统

将Hadoop安装包解压到c盘根目录下 并配置环境变量:

hadoop linux 自启动 linux如何启动hadoop_hadoop linux 自启动_36

hadoop linux 自启动 linux如何启动hadoop_hadoop_37


将winutils.exe文件下载后 拖到bin目录下:

hadoop linux 自启动 linux如何启动hadoop_xml_38

关闭集群(先关闭从节点 再关闭主节点):

hadoop linux 自启动 linux如何启动hadoop_hadoop_39


切换到Hadoop进行编辑:(在第二个窗口进行)

hadoop linux 自启动 linux如何启动hadoop_hadoop linux 自启动_40

hadoop linux 自启动 linux如何启动hadoop_Hadoop_41


将下列配置写到hdfs-site.xml中:

(目的是:运行其他客户端(Windows)也连接hdfs系统,(默认由于安全考虑是不允许的))

(配置的意思为授权认证关闭(默认是true,改为false))

hadoop linux 自启动 linux如何启动hadoop_Hadoop_42

在eclipse中创建maven工程在pom.xml中添加内容:

hadoop linux 自启动 linux如何启动hadoop_hadoop linux 自启动_43

hadoop linux 自启动 linux如何启动hadoop_Hadoop_44


保存并等待下载

将集群上的文件下载到对应的文件夹中

  • core-site.xml
  • hdfs-site.xml
  • log4j.properties

hadoop linux 自启动 linux如何启动hadoop_hadoop_45

查看resources文件夹的路径:src/main/resources->Show in->System Explorer
cmd中下载文件至resources文件夹中

hadoop linux 自启动 linux如何启动hadoop_hadoop linux 自启动_46

get /opt/modules/hadoop-2.6.0-cdh5.7.6/etc/hadoop/XXXX C:\eclipse\workspace\hdfstest\src\main\resources

hadoop linux 自启动 linux如何启动hadoop_hadoop_47

创建jar 包(package)和Java执行文件 编写文件并运行:

hadoop linux 自启动 linux如何启动hadoop_hadoop linux 自启动_48

注意:
集群刚启动的时候 有30秒的安全模式 无法进行任何操作
30秒内 老大在读取元数据 然后找小弟核对信息
如果小弟汇报的信息和老大元数据中有出入 老大就一直待在安全模式(safe mode)无法启动集群
如果汇报和元数据中一直 则集群从安全模式进入active模式

测试

在D盘根目录下新建文件(test.txt)并编辑(使用除Windows的记事本,如Sublime Text)

hadoop linux 自启动 linux如何启动hadoop_xml_49

解除注释并编辑以下

hadoop linux 自启动 linux如何启动hadoop_hadoop_50

开启进程:

hadoop linux 自启动 linux如何启动hadoop_xml_51

保存并运行程序(稍作等待)

hadoop linux 自启动 linux如何启动hadoop_Hadoop_52

网页版:com.hadoop:50070

hadoop linux 自启动 linux如何启动hadoop_hadoop_53