1. Hadoop 2.0 产生背景


2. HDFS 2.x


3. HDFS 2.0 HA 高可用


4. YARN 介绍


4. MapReduce On YARN



5. Hadoop2.X HA搭建


1) Hadoop-env.sh (配置jdk)
2) core-site.xml
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://sxt</value>
        </property>
        <property>
            <name>ha.zookeeper.quorum</name>
            <value>hadoop1:2181,hadoop2:2181,hadoop3:2181</value>
        </property>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/opt/hadoop</value>
        </property>

3) hdfs-site.xml
        <property>
            <name>dfs.nameservices</name>
            <value>sxt</value>
        </property>
        <property>
             <name>dfs.ha.namenodes.sxt</name>
             <value>nn1,nn2</value>
        </property>
        <property>
            <name>dfs.namenode.rpc-address.sxt.nn1</name>
            <value>hadoop1:8020</value>
        </property>
        <property>
              <name>dfs.namenode.rpc-address.sxt.nn2</name>
              <value>hadoop2:8020</value>
        </property>
        <property>
              <name>dfs.namenode.http-address.sxt.nn1</name>
              <value>hadoop1:50070</value>
        </property>
        <property>
              <name>dfs.namenode.http-address.sxt.nn2</name>
              <value>hadoop2:50070</value>
        </property>
        <property>
              <!-- 指定namenode元数据存储在journalnode中的路径 -->
              <name>dfs.namenode.shared.edits.dir</name>                  <value>qjournal://hadoop2:8485;hadoop3:8485;hadoop4:8485/sxt</value>
        </property>
        <property>
                <!-- 指定HDFS客户端连接active namenode的java类 -->
              <name>dfs.client.failover.proxy.provider.sxt</name>
    <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
        </property>
        <property>
             <!-- 配置隔离机制为ssh 防止脑裂 -->
              <name>dfs.ha.fencing.methods</name>
              <value>sshfence</value>
        </property>
        <property>
            <!-- 指定秘钥的位置 -->
              <name>dfs.ha.fencing.ssh.private-key-files</name>
              <value>/root/.ssh/id_dsa</value>
        </property>
        <property>
             <!-- 指定journalnode日志文件存储的路径 -->
              <name>dfs.journalnode.edits.dir</name>
              <value>/opt/hadoop/data</value>
        </property>
        <property>
            <!-- 开启自动故障转移 -->
               <name>dfs.ha.automatic-failover.enabled</name>
               <value>true</value>
        </property>

4) 配置hadoop中的slaves
5) 准备zookeeper
    1. 三台zookeeper:hadoop1,hadoop2,hadoop3
    2. 编辑zoo.cfg配置文件
        1. 修改dataDir=/opt/zookeeper
        2. server.1=node01:2888:3888
        3. server.2=node02:2888:3888
        4. server.3=node03:2888:3888
    3. 在dataDir目录中创建一个myid的文件,文件内容分别为1,2,3
6) 发送其他节点服务器 环境变量配置
7) 启动三个zookeeper:./zkServer.sh start
8) 启动三个JournalNode:./hadoop-daemon.sh start journalnode
9) 在其中一个namenode上格式化:hdfs namenode -format
10) 把刚刚格式化之后的元数据拷贝到另外一个namenode上
    1.启动刚刚格式化的namenode :  hadoop-daemon.sh start namenode
    2.在没有格式化的namenode上执行:hdfs namenode -bootstrapStandby
    3.启动第二个namenode    hadoop-daemon.sh start namenode
11) 在其中一个namenode上初始化zkfc:hdfs zkfc -formatZK
12) 停止上面节点:stop-dfs.sh
13) 全面启动:start-dfs.sh
14) yarn-daemon.sh start resourcemanager  (yarn resourcemanager)
15) 有可能会出错的地方
    1.确认每台机器防火墙均关掉
    2.确认每台机器的时间是一致的
    3.确认配置文件无误,并且确认每台机器上面的配置文件一样
    4.如果还有问题想重新格式化,那么先把所有节点的进程关掉,killjava all
    5.删除之前格式化的数据目录hadoop.tmp.dir属性对应的目录,所有节点同步都删掉,别单删掉之前的一个,删掉三台JN节点中dfs.journalnode.edits.dir属性所对应的目录
    6.接上面的第6步又可以重新格式化已经启动了
    7.最终Active Namenode停掉的时候,StandBy可以自动接管!