CentOS下Hadoop伪分布模式安装笔记
一. 前言
Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布式和分布式的,两种配置也很相似,唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器。 现在很多初学者根本不具备搭建完全分布式集群的硬件环境,大多都是在单机下进行学习和实验。 下面将我在安装期间遇到的问题和解决方法记录下来,和网友共勉。本人当时是在Linux Cent OS 6.3下搭建成功Hadoop伪分布式测试环境。
二. 环境搭建
jdk-6u13-linux-i586.bin 、hadoop-1.0.1.tar.gz。测试服务器操作系统Linux Cent OS 6.3。
1、JDK安装及Java环境变量的配置
说明:1.CentOS默认情况下,会安装OpenOffice之类的软件,这些软件需要Java的支持,所以系统默认会安装JDK的环境,若需要特定的Java环境,最好将默认的JDK彻底删除;
2.查看默认的JDK命令:java -version
3.但是如果先删除默认再装新的JDK,则与之相关的软件比如openoffice等也会随之删除,所以,应该先装新的jdk再卸系统默认自带的jdk。
***卸载系统自带原JDK的方法示例:(注意,此操作应该在新jdk安装完毕后再执行)
终端输入,查看gcj的版本号:rpm -qa|grep jdk
得到结果:
jdk-1.7.0_04-fcs.x86_64
java-1.6.0-openjdk-1.6.0.0-1.49.1.11.4.el6_3.x86_64
终端输入,卸载:yum -y remove java java-1.6.0-openjdk-1.6.0.0-1.49.1.11.4.el6_3.x86_64
等待系统自动卸载,最终终端显示 Complete,卸载完成
1.1 JDK安装
root 用户登陆,使用命令mkdir /usr/program新建目录/usr/program ,下载 JDK 安装包jdk-6u13-linux-i586.bin,将其复制到目录/usr/program下,用cd命令进入该目录,执行命令“./ jdk-6u13-linux-i586.bin”,命令运行完毕即安装完成,将在目录下生成文件夹/jdk1.6.0_13,此即为jdk被成功安装到目录:/usr/program/jdk1.6.0_13下。
1.2 java环境变量配置
root 用户登陆,命令行中执行命令“vi /etc/profile”,并加入以下内容,配置环境变量(注意/etc/profile 这个文件很重要,后面 Hadoop 的配置还会用到)。
# set java environment
export JAVA_HOME=/usr/program/jdk1.6.0_13
export JRE_HOME=/usr/program/jdk1.6.0_13/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
在vi编辑器增加以上内容后保存退出,并执行以下命令使配置生效!
#chmod +x /etc/profile ;增加执行权限
#source /etc/profile;使配置生效!
配置完毕后,在命令行中输入:java -version,如出现下列信息说明java环境安装成功。
java version "1.6.0_13"
Java(TM) SE Runtime Environment (build 1.6.0_13-b03)
Java HotSpot(TM) Server VM (build 16.3-b01, mixed mode)
2、SSH无密码验证配置
注:Hadoop 需要使用SSH 协议,namenode 将使用SSH 协议启动 namenode和datanode 进程,伪分布式模式数据节点和名称节点均是本身,所以配置 SSH localhost无密码验证登录就会方便很多。实际上,在H adoop的安装过程中,是否免密码登录是无关紧要的,但是如果不配置免密码登录,每次启动Hadoop都需要输入密码以登录到每台机器的DataNode上,考虑到一般的Hadoop集群动辄拥有数百或上千台机器,因此一般来说都会配置SSH的免密码登录!在此我们选择配置SSH为免密码登录模式!!!
配置为可以免密码登录本机:
首先查看在“当前用户”文件夹下是否存在.ssh 文件夹(注意ssh前面有“.”,这是一个隐藏文件夹)。输入命令查看此文件夹是否存在。一般来说,安装SSH时会自动在当前用户下创建这个隐藏文件夹,如果没有,可以手创建一个。
下面的配置我是在root超级用户下进行的:
[root@centos1 ~]# ls –a
发现.ssh文件夹已经存在。
接下来输入命令(注意下面命令中不是双引号,是两个单引号):
方法一:用root用户登录,在root目录下执行如下命令:ssh-keygen -t rsa
[root@mycentos ~]# ssh-keygen -t rsa
Generating public/private rsa key pair.
& 按回车默认路径 &
Created directory '/root/.ssh'. &创建/root/.ssh目录&
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
c6:7e:57:59:0a:2d:85:49:23:cc:c4:58:ff:db:5b:38 root@master
通过以上命令将在/root/.ssh/ 目录下生成id_rsa私钥和id_rsa.pub公钥。进入/root/.ssh目录在namenode节点下做如下配置:
[root@master .ssh]# cat id_rsa.pub > authorized_keys
配置完毕,可通过ssh 本机IP 测试是否需要密码登录。
方法二、或者按照如下方式配置:
生成签名文件:
[root@centos1 ~]# ssh-keygen -t dsa -P ' ' –f ~/.ssh/id_dsa
解释一下,ssh-keygen代表生成秘钥; -t(注意区分大小写)表示指定生成的秘钥类型;dsa是dsa密钥认证的意思。即秘钥类型;-P用于提供密语;-f指定生成的秘钥文件。(其中~代表当前用户文件夹,如home/wade ),这条命令会在.ssh文件夹下创建id_dsa及id_dsa.pub两个文件,这是SSH的一对私钥和秘钥,类似于锁和钥匙。
[root@centos1 ~]# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
这条命令用于把公钥加到用于认证的公钥文件中。这里的authorized_keys是用于认证的公钥文件。
至此免密码登录本机已配置完毕,可通过ssh 本机IP 测试是否需要密码登录。操作如图所示:说明配置无密码登录成功!
3、 Hadoop配置
下载 hadoop-1.0.1.tar.gz,将其拷贝到/usr/local/hadoop 目录下,然后在该目录/usr/local/hadoop下解压安装生成文件/hadoop-1.0.1(即为hadoop被安装到/usr/local/hadoop/ hadoop-1. 0.1文件夹下)。
命令如下: tar -zxvf hadoop-1.0.1.tar.gz 解压安装一步完成!
首先配置hadoop的环境变量
命令“vi /etc/profile”
#set hadoop
export HADOOP_HOME=/usr/hadoop/hadoop-1.0.1
export PATH=$HADOOP_HOME/bin:$PATH
命令:source /etc/profile 使刚配置的文件生效!
3.1 进入/usr/local/hadoop/hadoop-1.0.1/conf,配置Hadoop配置文件
3.1.1 配置hadoop-env.sh文件
打开文件命令:vi hadoop-env.sh
添加 # set java environment
export JAVA_HOME=/usr/program/jdk1.6.0_13
编辑后保存退出。
3.1.2 配置core-site.xml
[root@master conf]# vi core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000/</value> 注:9000后面的“/ ”不能少
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/hadoop-1.0.1/hadooptmp</value>
</property>
</configuration>
说明:hadoop分布式文件系统的两个重要的目录结构,一个是namenode上名字空间的存放地方,一个是datanode数据块的存放地方,还有一些其他的文件存放地方,这些存放地方都是基于hadoop.tmp.dir目录的,比如namenode的名字空间存放地方就是 ${hadoop.tmp.dir}/dfs/name, datanode数据块的存放地方就是 ${hadoop.tmp.dir}/dfs/data,所以设置好hadoop.tmp.dir目录后,其他的重要目录都是在这个目录下面,这是一个根目录。我设置的是/usr/local/hadoop/hadoop-1.0.1/hadooptmp,当然这个目录必须是存在的。
3.1.3 配置hdfs-site.xml
[root@master conf]# vi hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3.1.4 配置mapred-site.xml
[root@master conf]# vi mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
3.1.5 配置masters文件和slaves文件(一般此二文件的默认内容即为下述内容,无需重新配置)
[root@master conf]# vi masters
localhost
[root@master conf]# vi slaves
localhost
注:因为在伪分布模式下,作为master的namenode与作为slave的datanode是同一台服务器,所以配置文件中的ip是一样的。
3.1.6 主机名和IP解析配置 (这一步非常重要!!!)
[root@master ~]# vi /etc/hosts
注:因为是在伪分布模式下,所以master与slave是一台机器
3.1.7编辑主机名:
[root@master ~]# vi /etc/hostname
内容为:mycentos
[root@master ~]# vi /etc/sysconfig/network
说明:这三个位置的配置必须协调一致,Hadpoop才能正常工作!主机名的配置非常重要!
我在上面的配置中没有修改主机名,还是用的mycentos这个主机名,这样容易出错,最好还是将主机名修改为master,在配置中使127.0.0.1 master对应!
4、 Hadoop启动
4.1 进入 /usr/local/hadoop/hadoop-1.0.1/bin目录下,格式化namenode
[root@master bin]# hadoop namenode -format
4.2启动hadoop所有进程
在/usr/local/hadoop/hadoop-1. 0.1/bin 目录下,执行start-all.sh命令
启动完成后,可用[root@master bin]# jps命令查看hadoop进程是否启动完全。正常情况下应该有如下进程:如下如所示:
说明:1.secondaryname是namenode的一个备份,里面同样保存了名字空间和文件到文件块的map关系。建议运行在另外一台机器上,这样master死掉之后,还可以通过secondaryname所在的机器找回名字空间,和文件到文件块得map关系数据,恢复namenode。
2.启动之后,在/usr/local/hadoop/hadoop-1.0.1/hadooptmp 下的dfs文件夹里会生成 data目录,这里面存放的是datanode上的数据块数据,因为笔者用的是单机,所以name 和 data 都在一个机器上,如果是集群的话,namenode所在的机器上只会有name文件夹,而datanode上只会有data文件夹。
在搭建过程中,在此环节出现的问题最多,经常出现启动进程不完整的情况,要么是datanode无法正常启动,就是namenode或是TaskTracker启动异常。解决的方式如下:
1. 在Linux下关闭防火墙:使用service iptables stop命令;关闭hadoop:stop-all.sh
1) 重启后生效
开启: chkconfig iptables on
关闭: chkconfig iptables off
2) 即时生效,重启后失效
开启: service iptables start
关闭: service iptables stop
需要说明的是对于Linux下的其它服务都可以用以上命令执行开启和关闭操作。
在开启了防火墙时,做如下设置,开启相关端口,
修改/etc/sysconfig/iptables 文件,添加以下内容:
-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 80 -j ACCEPT
-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 22 -j ACCEPT
开始我使用的是service方式,但是总不好用,最后使用了chkconfig重启方式,生效!
2.再次对namenode进行格式化:在/usr/local/hadoop/hadoop-1.0.1/bin 目录下执行hadoop namenode -format命令
3.对服务器进行重启
4.查看datanode或是namenode对应的日志文件,日志文件保存在/usr/local/hadoop/hadoop-1. 0.1/logs目录下。仔细查看日志报错的原因,(上次日志报错的信息忘记了)解决方法是进入/usr/local/hadoop/hdfs/name 和usr/local/hadoop/hdfs/data目录下,将目录下的文件全部删除。
5.再次在/bin目录下用start-all.sh命令启动所有进程,通过以上的几个方法应该能解决进程启动不完全的问题了。
6.在执行hadoop相关命令时候,总是出现如下提示:
分析:经过查看hadoop-1.0.1的hadoop和hadoop-config.sh脚本,发现对于HADDP_HOME做了判断
解决方法如下:
在hadoop-env.sh ,添加一个环境变量:export HADOOP_HOME_WARN_SUPPRESS=true
4.3 查看集群状态
[root@master bin]# hadoop dfsadmin -report
4.4、在WEB页面下查看Hadoop工作情况
4.4.1打开IE浏览器输入部署Hadoop服务器的IP:http://localhost:50070;
4.4.2输入:http://localhost:50030:
5. Hadop使用(一个测试例子wordcount)
计算输入文本中词语数量的程序。WordCount在Hadoop主目录下的java程序包hadoop-examples-1.0.1.jar 中,执行步骤如下:
5.1. 首先启动hadoop所有进程:bin/start-all.sh,然在/usr/local/hadoop/hadoop-1.0.1/bin/目录下进行如下操作:
(新建目录名称,可任意命名),在test下创建文本file01、file02,分别输入数个单词。
5.2.在hdfs分布式文件系统创建目录input:bin/hadoop fs -mkdir input;
然后可以使用bin/hadoop fs -ls查看。
注:删除目录:bin/hadoop fs -rmr ***;删除文件:bin/hadoop fs -rm ***
5.3.离开hodoop的安全模式:# bin/hadoop dfsadmin –safemode leave
注:Hadoop的安全模式相关命令:#bin/hadoop dfsadmin –safemode enter/leave/get/wait
Hadoop的HDFS系统在安全模式下只能进行“读”操作!不能进行文件等的删除,创建和更新操作!
5.4.将数据从linux文件系统复制到HDFS分布式文件系统中的input文件夹中:
#bin/hadoop fs -put /usr/local/hadoop/hadoop-1.0.1/test/* input
5.5.执行例子中的WordCount:bin/hadoop jar hadoop-1.0.1-examples.jar wordcount input output
参考:
5.6.查看执行结果:bin/hadoop dfs -cat output/*
5.7.执行完毕后,可进入web界面刷新查看running job及completed job的显示。
5.8.关闭hadoop所有进程:bin/stop-all.sh。
说明:以上配置步骤本人亲自动手实践,证明是可行的!可能不是最优的配置方法,欢迎学友指正批评!
CentOS下Hadoop伪分布模式安装笔记
一. 前言
Hadoop 伪分布式模式是在单机上模拟 Hadoop 分布式,单机上的分布式并不是真正的伪分布式,而是使用线程模拟分布式。Hadoop 本身是无法区分伪分布式和分布式的,两种配置也很相似,唯一不同的地方是伪分布式是在单机器上配置,数据节点和名字节点均是一个机器。 现在很多初学者根本不具备搭建完全分布式集群的硬件环境,大多都是在单机下进行学习和实验。 下面将我在安装期间遇到的问题和解决方法记录下来,和网友共勉。本人当时是在Linux Cent OS 6.3下搭建成功Hadoop伪分布式测试环境。
二. 环境搭建
jdk-6u13-linux-i586.bin 、hadoop-1.0.1.tar.gz。测试服务器操作系统Linux Cent OS 6.3。
1、JDK安装及Java环境变量的配置
说明:1.CentOS默认情况下,会安装OpenOffice之类的软件,这些软件需要Java的支持,所以系统默认会安装JDK的环境,若需要特定的Java环境,最好将默认的JDK彻底删除;
2.查看默认的JDK命令:java -version
3.但是如果先删除默认再装新的JDK,则与之相关的软件比如openoffice等也会随之删除,所以,应该先装新的jdk再卸系统默认自带的jdk。
***卸载系统自带原JDK的方法示例:(注意,此操作应该在新jdk安装完毕后再执行)
终端输入,查看gcj的版本号:rpm -qa|grep jdk
得到结果:
jdk-1.7.0_04-fcs.x86_64
java-1.6.0-openjdk-1.6.0.0-1.49.1.11.4.el6_3.x86_64
终端输入,卸载:yum -y remove java java-1.6.0-openjdk-1.6.0.0-1.49.1.11.4.el6_3.x86_64
等待系统自动卸载,最终终端显示 Complete,卸载完成
1.1 JDK安装
root 用户登陆,使用命令mkdir /usr/program新建目录/usr/program ,下载 JDK 安装包jdk-6u13-linux-i586.bin,将其复制到目录/usr/program下,用cd命令进入该目录,执行命令“./ jdk-6u13-linux-i586.bin”,命令运行完毕即安装完成,将在目录下生成文件夹/jdk1.6.0_13,此即为jdk被成功安装到目录:/usr/program/jdk1.6.0_13下。
1.2 java环境变量配置
root 用户登陆,命令行中执行命令“vi /etc/profile”,并加入以下内容,配置环境变量(注意/etc/profile 这个文件很重要,后面 Hadoop 的配置还会用到)。
# set java environment
export JAVA_HOME=/usr/program/jdk1.6.0_13
export JRE_HOME=/usr/program/jdk1.6.0_13/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
在vi编辑器增加以上内容后保存退出,并执行以下命令使配置生效!
#chmod +x /etc/profile ;增加执行权限
#source /etc/profile;使配置生效!
配置完毕后,在命令行中输入:java -version,如出现下列信息说明java环境安装成功。
java version "1.6.0_13"
Java(TM) SE Runtime Environment (build 1.6.0_13-b03)
Java HotSpot(TM) Server VM (build 16.3-b01, mixed mode)
2、SSH无密码验证配置
注:Hadoop 需要使用SSH 协议,namenode 将使用SSH 协议启动 namenode和datanode 进程,伪分布式模式数据节点和名称节点均是本身,所以配置 SSH localhost无密码验证登录就会方便很多。实际上,在H adoop的安装过程中,是否免密码登录是无关紧要的,但是如果不配置免密码登录,每次启动Hadoop都需要输入密码以登录到每台机器的DataNode上,考虑到一般的Hadoop集群动辄拥有数百或上千台机器,因此一般来说都会配置SSH的免密码登录!在此我们选择配置SSH为免密码登录模式!!!
配置为可以免密码登录本机:
首先查看在“当前用户”文件夹下是否存在.ssh 文件夹(注意ssh前面有“.”,这是一个隐藏文件夹)。输入命令查看此文件夹是否存在。一般来说,安装SSH时会自动在当前用户下创建这个隐藏文件夹,如果没有,可以手创建一个。
下面的配置我是在root超级用户下进行的:
[root@centos1 ~]# ls –a
发现.ssh文件夹已经存在。
接下来输入命令(注意下面命令中不是双引号,是两个单引号):
方法一:用root用户登录,在root目录下执行如下命令:ssh-keygen -t rsa
[root@mycentos ~]# ssh-keygen -t rsa
Generating public/private rsa key pair.
& 按回车默认路径 &
Created directory '/root/.ssh'. &创建/root/.ssh目录&
Enter passphrase (empty for no passphrase):
Enter same passphrase again:
Your identification has been saved in /root/.ssh/id_rsa.
Your public key has been saved in /root/.ssh/id_rsa.pub.
The key fingerprint is:
c6:7e:57:59:0a:2d:85:49:23:cc:c4:58:ff:db:5b:38 root@master
通过以上命令将在/root/.ssh/ 目录下生成id_rsa私钥和id_rsa.pub公钥。进入/root/.ssh目录在namenode节点下做如下配置:
[root@master .ssh]# cat id_rsa.pub > authorized_keys
配置完毕,可通过ssh 本机IP 测试是否需要密码登录。
方法二、或者按照如下方式配置:
生成签名文件:
[root@centos1 ~]# ssh-keygen -t dsa -P ' ' –f ~/.ssh/id_dsa
解释一下,ssh-keygen代表生成秘钥; -t(注意区分大小写)表示指定生成的秘钥类型;dsa是dsa密钥认证的意思。即秘钥类型;-P用于提供密语;-f指定生成的秘钥文件。(其中~代表当前用户文件夹,如home/wade ),这条命令会在.ssh文件夹下创建id_dsa及id_dsa.pub两个文件,这是SSH的一对私钥和秘钥,类似于锁和钥匙。
[root@centos1 ~]# cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
这条命令用于把公钥加到用于认证的公钥文件中。这里的authorized_keys是用于认证的公钥文件。
至此免密码登录本机已配置完毕,可通过ssh 本机IP 测试是否需要密码登录。操作如图所示:说明配置无密码登录成功!
3、 Hadoop配置
下载 hadoop-1.0.1.tar.gz,将其拷贝到/usr/local/hadoop 目录下,然后在该目录/usr/local/hadoop下解压安装生成文件/hadoop-1.0.1(即为hadoop被安装到/usr/local/hadoop/ hadoop-1. 0.1文件夹下)。
命令如下: tar -zxvf hadoop-1.0.1.tar.gz 解压安装一步完成!
首先配置hadoop的环境变量
命令“vi /etc/profile”
#set hadoop
export HADOOP_HOME=/usr/hadoop/hadoop-1.0.1
export PATH=$HADOOP_HOME/bin:$PATH
命令:source /etc/profile 使刚配置的文件生效!
3.1 进入/usr/local/hadoop/hadoop-1.0.1/conf,配置Hadoop配置文件
3.1.1 配置hadoop-env.sh文件
打开文件命令:vi hadoop-env.sh
添加 # set java environment
export JAVA_HOME=/usr/program/jdk1.6.0_13
编辑后保存退出。
3.1.2 配置core-site.xml
[root@master conf]# vi core-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000/</value> 注:9000后面的“/ ”不能少
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/usr/local/hadoop/hadoop-1.0.1/hadooptmp</value>
</property>
</configuration>
说明:hadoop分布式文件系统的两个重要的目录结构,一个是namenode上名字空间的存放地方,一个是datanode数据块的存放地方,还有一些其他的文件存放地方,这些存放地方都是基于hadoop.tmp.dir目录的,比如namenode的名字空间存放地方就是 ${hadoop.tmp.dir}/dfs/name, datanode数据块的存放地方就是 ${hadoop.tmp.dir}/dfs/data,所以设置好hadoop.tmp.dir目录后,其他的重要目录都是在这个目录下面,这是一个根目录。我设置的是/usr/local/hadoop/hadoop-1.0.1/hadooptmp,当然这个目录必须是存在的。
3.1.3 配置hdfs-site.xml
[root@master conf]# vi hdfs-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3.1.4 配置mapred-site.xml
[root@master conf]# vi mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
3.1.5 配置masters文件和slaves文件(一般此二文件的默认内容即为下述内容,无需重新配置)
[root@master conf]# vi masters
localhost
[root@master conf]# vi slaves
localhost
注:因为在伪分布模式下,作为master的namenode与作为slave的datanode是同一台服务器,所以配置文件中的ip是一样的。
3.1.6 主机名和IP解析配置 (这一步非常重要!!!)
[root@master ~]# vi /etc/hosts
注:因为是在伪分布模式下,所以master与slave是一台机器
3.1.7编辑主机名:
[root@master ~]# vi /etc/hostname
内容为:mycentos
[root@master ~]# vi /etc/sysconfig/network
说明:这三个位置的配置必须协调一致,Hadpoop才能正常工作!主机名的配置非常重要!
我在上面的配置中没有修改主机名,还是用的mycentos这个主机名,这样容易出错,最好还是将主机名修改为master,在配置中使127.0.0.1 master对应!
4、 Hadoop启动
4.1 进入 /usr/local/hadoop/hadoop-1.0.1/bin目录下,格式化namenode
[root@master bin]# hadoop namenode -format
4.2启动hadoop所有进程
在/usr/local/hadoop/hadoop-1. 0.1/bin 目录下,执行start-all.sh命令
启动完成后,可用[root@master bin]# jps命令查看hadoop进程是否启动完全。正常情况下应该有如下进程:如下如所示:
说明:1.secondaryname是namenode的一个备份,里面同样保存了名字空间和文件到文件块的map关系。建议运行在另外一台机器上,这样master死掉之后,还可以通过secondaryname所在的机器找回名字空间,和文件到文件块得map关系数据,恢复namenode。
2.启动之后,在/usr/local/hadoop/hadoop-1.0.1/hadooptmp 下的dfs文件夹里会生成 data目录,这里面存放的是datanode上的数据块数据,因为笔者用的是单机,所以name 和 data 都在一个机器上,如果是集群的话,namenode所在的机器上只会有name文件夹,而datanode上只会有data文件夹。
在搭建过程中,在此环节出现的问题最多,经常出现启动进程不完整的情况,要么是datanode无法正常启动,就是namenode或是TaskTracker启动异常。解决的方式如下:
1. 在Linux下关闭防火墙:使用service iptables stop命令;关闭hadoop:stop-all.sh
1) 重启后生效
开启: chkconfig iptables on
关闭: chkconfig iptables off
2) 即时生效,重启后失效
开启: service iptables start
关闭: service iptables stop
需要说明的是对于Linux下的其它服务都可以用以上命令执行开启和关闭操作。
在开启了防火墙时,做如下设置,开启相关端口,
修改/etc/sysconfig/iptables 文件,添加以下内容:
-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 80 -j ACCEPT
-A RH-Firewall-1-INPUT -m state --state NEW -m tcp -p tcp --dport 22 -j ACCEPT
开始我使用的是service方式,但是总不好用,最后使用了chkconfig重启方式,生效!
2.再次对namenode进行格式化:在/usr/local/hadoop/hadoop-1.0.1/bin 目录下执行hadoop namenode -format命令
3.对服务器进行重启
4.查看datanode或是namenode对应的日志文件,日志文件保存在/usr/local/hadoop/hadoop-1. 0.1/logs目录下。仔细查看日志报错的原因,(上次日志报错的信息忘记了)解决方法是进入/usr/local/hadoop/hdfs/name 和usr/local/hadoop/hdfs/data目录下,将目录下的文件全部删除。
5.再次在/bin目录下用start-all.sh命令启动所有进程,通过以上的几个方法应该能解决进程启动不完全的问题了。
6.在执行hadoop相关命令时候,总是出现如下提示:
分析:经过查看hadoop-1.0.1的hadoop和hadoop-config.sh脚本,发现对于HADDP_HOME做了判断
解决方法如下:
在hadoop-env.sh ,添加一个环境变量:export HADOOP_HOME_WARN_SUPPRESS=true
4.3 查看集群状态
[root@master bin]# hadoop dfsadmin -report
4.4、在WEB页面下查看Hadoop工作情况
4.4.1打开IE浏览器输入部署Hadoop服务器的IP:http://localhost:50070;
4.4.2输入:http://localhost:50030:
5. Hadop使用(一个测试例子wordcount)
计算输入文本中词语数量的程序。WordCount在Hadoop主目录下的java程序包hadoop-examples-1.0.1.jar 中,执行步骤如下:
5.1. 首先启动hadoop所有进程:bin/start-all.sh,然在/usr/local/hadoop/hadoop-1.0.1/bin/目录下进行如下操作:
(新建目录名称,可任意命名),在test下创建文本file01、file02,分别输入数个单词。
5.2.在hdfs分布式文件系统创建目录input:bin/hadoop fs -mkdir input;
然后可以使用bin/hadoop fs -ls查看。
注:删除目录:bin/hadoop fs -rmr ***;删除文件:bin/hadoop fs -rm ***
5.3.离开hodoop的安全模式:# bin/hadoop dfsadmin –safemode leave
注:Hadoop的安全模式相关命令:#bin/hadoop dfsadmin –safemode enter/leave/get/wait
Hadoop的HDFS系统在安全模式下只能进行“读”操作!不能进行文件等的删除,创建和更新操作!
5.4.将数据从linux文件系统复制到HDFS分布式文件系统中的input文件夹中:
#bin/hadoop fs -put /usr/local/hadoop/hadoop-1.0.1/test/* input
5.5.执行例子中的WordCount:bin/hadoop jar hadoop-1.0.1-examples.jar wordcount input output
参考:
5.6.查看执行结果:bin/hadoop dfs -cat output/*
5.7.执行完毕后,可进入web界面刷新查看running job及completed job的显示。
5.8.关闭hadoop所有进程:bin/stop-all.sh。
说明:以上配置步骤本人亲自动手实践,证明是可行的!可能不是最优的配置方法,欢迎学友指正批评!