基础文件安装及配置

  1. 上传jdk, hadoop安装包到linux
  2. 解压jdk, 配置JAVA_HOME
  3. 解压hadoop
  4. 配置HADOOP_HOME(针对全局配置就修改/etc/profile,针对当前用户就修改~/.bashrc
  5. 配置$HADOOP_HOME/etc/hadoop/目录下的5个属性文件:
  • hadoop-env.sh
    配置JAVA_HOME路径
  • core-site.xml
<configuration>
     <!--指定NameNode路径-->
     <property>
         <name>fs.defaultFS</name>
         <value>hdfs://hadoop01:9000</value>
     </property>

    <!--指定运行时临时文件路径-->  
     <property>
         <name>hadoop.tmp.dir</name>
         <value>/software/hadoop2.2/tmp</value>
     </property>
</configuration>
  • hdfs-site.xml
<configuration>
     <!--指定hdfs副本数量, 虚拟机环境下,单台机器,所以指定为1-->
     <property>
         <name>dfs.replication</name>
         <value>1</value>
     </property>
</configuration>
  • mapred-site.xml.template
<!--mv mapred-site.xml.template mapred-site.xml-->
<configuration>
     <!--mapreduce运行在yarn上-->
     <property>
         <name>mapreduce.framework.name</name>
         <value>yarn</value>
     </property>
</configuration>
  • yarn-site.xml
<configuration>
     <!--配置NodeManager获取数据的方式是shuffle-->
     <property>
         <name>yarn.nodemanager.aux-services</name>
         <value>mapreduce_shuffle</value>
     </property>
     <!--配置ResourceManager的地址-->
     <property>
         <name>yarn.resourcemanager.hostname</name>
         <value>hadoop01</value>
     </property>
</configuration>
  1. 格式化NameNode
<!--正常情况下格式化一次就行了-->
hdfs namenode -format

执行完成之后,大概在倒数第十几行的地方会提示··· has bean successfully formatted 就表示格式化成功了。

hadoop中配置linux操作系统 hadoophome配置_虚拟机

主机之间免密登录

首先查看~/.ssh/目录是否存在,如果存在则查看~/.ssh/目录下是否存在id_rsa和id_ras.pub文件,如果都存在,直接进入2, 否则转1。

  1. 生成主机秘钥
ssh-keygen -t rsa

成功执行后,默认会在~/.ssh/目录下生成id_rsa(私钥)和id_rsa.pub(公钥)两个文件。

  1. 将公钥拷贝到需要远程登录的主机上,两种方式:
    第一种:手动复制。
    将~/.ssh/id_rsa.pub里面的所有内容,追加到(末尾换行)需要免秘登陆的主机的~/.ssh/authorized_keys文件里面(没有authorized_keys文件则手工创建)。
    第二种:使用命令。
ssh_copy_id hadoop01(需要免密登录的主机名,ip也行)

当然以后有很多台主机,这样操作很麻烦,所以需要写shell脚本进行批量处理。

  1. 免密登录过程

启动hadoop

  • 启动命令
// cd $HADOOP_HOME/sbin
./start-all.sh    // 这种方式已经过时

或者是:

./start-dfs.sh && ./start-yarn.sh

启动之后,jps一下,如果启动成功,则会显示一下几个进程:

3489 ResourceManager
3870 Jps
3353 SecondaryNameNode
3103 NameNode
3191 DataNode
3583 NodeManager
  • 在浏览器测试
    在浏览器输入地址:
http://hadoop01:50070

可进入HDFS的管理界面。
输入:

http://hadoop01:8088

可进入yarn的管理界面。
地址栏主机名也可以是ip地址,要想可进行主机名方式访问,必须要在请求访问的当前主机上做好相关映射。

  • hdfs基础命令测试
    可以向hdfs里面上传或者下载数据,删除数据等等操作,测试一下是否能成功,例如上传本地数据到hdfs:
hdfs dfs -put /software/本地数据文件 /

然后查看文件是否成功上传到hdfs:

hdfs dfs -ls /

至此hadoop的基本配置完成