Hadoop下载+安装+配置


声明:此文章经过多次修改,初始为Hadoop-2.7.1版本,后改为Hadoop-2.6.0版本,文中出现的截图中有Hadoop-2.7.1请视为Hadoop-2.6.0!

1.选择Hadoop版本并下载

在Hadoop下载前请参考Hadoop和Hbase的版本匹配表,提前考虑好需要下载安装的版本。

          Hadoop version support matrix


HBase-0.92.x

HBase-0.94.x

HBase-0.96.0

HBase-0.98.0

Hadoop-0.20.205

S

X

X

X

Hadoop-0.22.x

S

X

X

X

Hadoop-1.0.0-1.0.2[a]  

S

S

X

X

Hadoop-1.0.3+

S

S

S

X

Hadoop-1.1.x

NT

S

S

X

Hadoop-0.23.x

X

S

NT

X

Hadoop-2.0.x-alpha

X

NT

X

X

Hadoop-2.1.0-beta

X

NT

S

X

Hadoop-2.2.0

X

NT[b]

S

S

Hadoop-2.x

X

NT

S

S

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

persto hive persto hive版本要求_hdfs

S = supported and tested,支持

X = not supported,不支持

NT = not tested enough.可以运行但测试不充分

 

     由于 HBase 依赖 Hadoop,它配套发布了一个Hadoop jar 文件在它的 lib 下。该套装jar仅用于独立模式。在分布式模式下,Hadoop版本必须和HBase下的版本一致。用你运行的分布式Hadoop版本jar文件替换HBase lib目录下的Hadoop jar文件,以避免版本不匹配问题。确认替换了集群中所有HBase下的jar文件。Hadoop版本不匹配问题有不同表现,但看起来都像挂掉了。

     因为要考虑到Linux系统的版本,如果是32位可以不用考虑,但如果是64位,Hadoop可能就需要将源码进行编译,以便64位的Linux系统使用。但是编译的过程将会很漫长(顺利的话1小时多些),中间可能会出现各种各样的问题。不过幸运的是,Hadoop在2.5版本以后就提供了编译后的版本下载,但是具体有没有,最好还是先到官方网站或者其他地方找一下,有没有现成的资源。本次Linux系统的版本为:CentOS7_64;综合考虑(走过太多弯路···),这里选择的版本为:Hadoop-2.6.0 + Hbase-1.1.2 + Zookeeper-3.5.1-alpha + Thrift-0.9.1 (点击直接下载

 

=======================↓ =====================

     如果需要下载最新版本的Hadoop发行版,请到官方下载地址:http://hadoop.apache.org/ (如下图):

 

persto hive persto hive版本要求_persto hive_02

 

点击“ Download Hadoop”跳到Hadoop的下载位置(如下图):

 

persto hive persto hive版本要求_hdfs_03

 

点击“Getting Started”节中的 ”(如下图):

 

persto hive persto hive版本要求_hdfs_04

 

点击“mirror site”跳转镜像下载地址,或者直接右键点击需要下载的版本的”binary“下载(如下图):

 

persto hive persto hive版本要求_persto hive_05

 

点击”Hadoop“,最终到达路径“http://apache.fayea.com/hadoop/common/“下(如下图):

 

persto hive persto hive版本要求_hadoop_06

 

选择需要下载的版本,这里演示下载的是”hadoop-2.7.1“(如下图):

 

persto hive persto hive版本要求_hadoop_07

 

点击直接下载 32位的hadoop-2.7.1

==========================↑ ↑下载其他版本 ↑  ↑==========================

 

     所有文件下载完成后,将Hadoop安装包解压并记住文件解压后的路径。这里将文件解压到/usr/hadoop文件夹下(可根据自己的实际情况决定放在什么位置),Hadoop-2.6.0解压后的路径为“/usr/hadoop/hadoop-2.6.0”(如果是其他版本的Hadoop,则解压后的路径为/usr/hadoop/hadoop-版本号”)。

在/home/hadoop目录下创建数据存放的文件夹,tmp、hdfs、hdfs/data、hdfs/name,这些文件夹在后面的配置过程中会用到。

 


 

2.配置Hadoop环境变量

      首先打开终端(如下图):

 

persto hive persto hive版本要求_hdfs_08

 

     然后在终端对话框内输入命令“vim /etc/profile”或“vi /etc/profile”或其他同效的命令(注意:其他命令和vi以及vim是有区别的)。会提示是对文件进行“编辑”还是进行其他操作,而且每个操作都有对应的按键提示(如下图),这里需要选择编辑,按“E”键(不区分大小写):

 

persto hive persto hive版本要求_hdfs_09

 

     然后将光标定位到最下方,按“i”键进行编辑(下方会提示“插入”,则可以进行编辑):

 

===================↓↓如果里面没有配置java的环境变量请先添加java的环境变量↓↓==================

export JAVA_HOME=/usr/java/jdk1.7.0_80
export PATH=$JAVA_HOME/bin:$PATH  或  export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar

 

(java的下载+安装+配置-待整理···)

===================↑↑如果里面没有配置java的环境变量请先添加java的环境变量↑↑ ==================

 

     然后输入下面几行字符(注意:后面的路径为hadoop安装的绝对路径 ):

export HADOOP_HOME=/usr/hadoop/hadoop-2.6.0

export PATH=$HADOOP_HOME/bin:$PATH 或 export PATH=$PATH:$HADOOP_HOME/bin

     保存并退出(Esc  :wq  Enter)后,使用"source /etc/profile"使设置立即生效。这句很重要!

 

==========================↓↓查询已配置的环境变量和指令说明↓↓=======================

 echo $JAVA_HOME”

     每执行一次"source /etc/profile",就会执行一次所有的“export”语句,就会在原有的环境变量里继续添加环境变量(如下图):

 

persto hive persto hive版本要求_hadoop_10

 

=========================↑↑查询已配置的环境变量和指令说明↑↑========================

 

环境变量配置完成后,使用命令:“hadoop version”测试环境变量是否配置正确。(如果出现以下格式字符说明环境变量已经配置成功)

 

persto hive persto hive版本要求_Hadoop_11

 

此时,hadoop处于独立模式,即本机模式,还没有运行守护进程,所有程序运行在单个JVM上。

 

=========================================================↓↓Hadoop配置模式分类说明↓↓=========================================================

  hadoop配置模式分类(本次配置只有一台机器,这里选择伪分布模式进行配置):

     本机模式:用于开发阶段测试调试MapReduce程序;

     伪分布模式:用于在本机上模拟一个小规模的集群,在这个集群中,这个节点既是master,也是slave;既是NameNode也是DataNode;既是JobTracker,也是TaskTracker;

     全分布模式:配置较为复杂;

=========================================================↑↑Hadoop配置模式分类说明↑↑=========================================================

 

3.配置伪分布式模式

1)配置hadoop伪分布式文件,记得使用vi或vim命令进行修改和保存退出

先进入到需要修改的配置文件所在的文件夹(也就是安装包文件夹下的 /etc/hadoop 下)

这里用到的指令为:“cd /usr/hadoop/hadoop-2.6.0/etc/hadoop”

查看该文件夹中的文件(如下图):

 

persto hive persto hive版本要求_hadoop_12

 

(1) 设置namenode主机及hadoop文件系统

 指令“vimcore-site.xml”;配置信息如下:

<configuration>  
    <property>  
        <name>fs.defaultFS</name>  
        <value>hdfs://efficient:9000/hbase</value>  
    </property>
    <property>  
        <name>hadoop.tmp.dir</name>  
        <value>/usr/hadoop/hadoop-2.6.0/tmp</value>  
    </property>
</configuration>

此配置信息可从下面一次性复制:

<configuration>
     <property>
          <name>fs.defaultFS</name>
          <value>hdfs://efficient:9000/hbase</value>
     </property>
     <property>  
          <name>hadoop.tmp.dir</name> 
          <value>/usr/hadoop/hadoop-2.6.0/tmp</value>  
     </property> 
</configuration>

上述配置说明:hadoop分布式文件系统的两个重要的目录结构,

一个是namenode名字空间的存放地方,一个是datanode数据块的存放地方,还有一些其他的文件存放地方,这些存放地方都是基于fs.defaultFS目录的,

比如:namenode的名字空间存放地方就是 ${fs.defaultFS}/dfs/name;datanode数据块的存放地方就是${fs.defaultFS}/dfs/data,

所以设置好fs.defaultFS目录后,其他的重要目录都是在这个目录下面,这是一个根目录。

 

(2) datanode上数据块的物理存储位置”、“数据块副本数目”

指令:“vimhdfs-site.xml”;配置信息如下:

<configuration>  
    <property>  
        <name>dfs.name.dir</name>  
        <value>/usr/hadoop/hadoop-2.6.0/hdfs/name</value>  
    </property>
    <property>  
        <name>dfs.data.dir</name>  
        <value>/usr/hadoop/hadoop-2.6.0/hdfs/data</value>  
    </property>
    <property>  
        <name>dfs.replication</name>  
        <value>1</value>  
    </property>  
</configuration>

此配置信息可从下面一次性复制:

<configuration> 
     <property> 
          <name>dfs.name.dir</name>  
          <value>/usr/hadoop/hadoop-2.6.0/hdfs/name</value>  
     </property>
     <property>  
          <name>dfs.data.dir</name>  
          <value>/usr/hadoop/hadoop-2.6.0/hdfs/data</value>  
     </property>
     <property>  
          <name>dfs.replication</name>  
          <value>1</value>  
     </property> 
</configuration>

说明:dfs.replication(副本个数):不配置默认为3 ,这里设置为1是因为我们这里配置的是单机伪分布式,只有一台机子,而配置值应小于datanode机器数量 。

 

 

================↓↓ 如果安装的hadoop版本低于2.0,则还需要配置第(3)项 ↓↓==============

(3) 修改mapred-site.xml,设置jobtracker主机及端口

指令:“vim mapred-site.xml”;配置信息如下:

<configuration>  
    <property>  
        <name>mapred.job.tracker</name>  
        <value>localhost:9001</value>  
        <description>jobtracker标识:端口号,不是URI</description>
    </property> 
    <property>  
        <name>mapred.job.tracker</name>  
        <value>localhost:9001</value>  
        <description>tasktracker上执行mapreduce程序时的本地目录</description>
    </property>  
    <property>  
        <name>mapred.job.tracker</name>  
        <value>localhost:9001</value>  
        <description>这个是hdfs中的目录,存储执行mr程序时的共享文件</description>
    </property>
</configuration>

这是Hadoop中MapReduce的配置文件,配置的是JobTracker的地址和端口。

需要注意的是,如果安装的是0.20之前的版本,那么只有一个配置文件,即为Hadoop-site.xml。

 

 

如果不是伪分布模式,请按照下面的配置信息进行配置(因为该配置信息尚未验证,有些地方尚未更改,如有问题请联系 willem@xcloudbiz.com ):

 

总体思路,准备主从服务器,配置主服务器可以无密码SSH登录从服务器,解压安装JDK,解压安装Hadoop,配置hdfs、mapreduce等主从关系。

1、环境,3台CentOS7,64位,Hadoop2.7需要64位Linux,CentOS7 Minimal的ISO文件只有600M,操作系统十几分钟就可以安装完成,
Master 192.168.0.182
Slave1 192.168.0.183
Slave2 192.168.0.184

 

2、SSH免密码登录,因为Hadoop需要通过SSH登录到各个节点进行操作,我用的是root用户,每台服务器都生成公钥,再合并到authorized_keys
(1)CentOS默认没有启动ssh无密登录,去掉/etc/ssh/sshd_config其中2行的注释,每台服务器都要设置,
#RSAAuthentication yes
#PubkeyAuthentication yes
(2)输入命令,ssh-keygen -t rsa,生成key,都不输入密码,一直回车,/root就会生成.ssh文件夹,每台服务器都要设置,
(3)合并公钥到authorized_keys文件,在Master服务器,进入/root/.ssh目录,通过SSH命令合并,
cat id_rsa.pub>> authorized_keys
ssh root@192.168.0.183 cat ~/.ssh/id_rsa.pub>> authorized_keys
ssh root@192.168.0.184 cat ~/.ssh/id_rsa.pub>> authorized_keys
(4)把Master服务器的authorized_keys、known_hosts复制到Slave服务器的/root/.ssh目录
(5)完成,ssh root@192.168.0.183、ssh root@192.168.0.184就不需要输入密码了

 

3、安装JDK,Hadoop2.6.0需要JDK7,由于我的CentOS是最小化安装,所以没有OpenJDK,直接解压下载的JDK并配置变量即可
(1)下载“jdk-7u80-linux-x64.gz”,放到/home/java目录下
(2)解压,输入命令,tar -zxvf jdk-7u80-linux-x64.gz
(3)编辑/etc/profile
export JAVA_HOME=/home/java/jdk1.7.0_80
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin 
(4)使配置生效,输入命令,source /etc/profile
(5)输入命令,java -version,完成

 

4、安装Hadoop2.6.0,只在Master服务器解压,再复制到Slave服务器
(1)下载“hadoop-2.6.0.tar.gz”,放到/home/hadoop目录下

(2)解压,输入命令,tar -xzvf hadoop-2.6.0.tar.gz

(3)在/usr/hadoop目录下创建数据存放的文件夹,tmp、hdfs、hdfs/data、hdfs/name

 

5、配置/usr /hadoop/hadoop-2.6.0/etc/hadoop目录下的core-site.xml

<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://192.168.0.182:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>file:/usr /hadoop/tmp</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131702</value>
    </property>
</configuration>

6、配置/usr/hadoop/hadoop-2.6.0/etc/hadoop目录下的hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/hadoop/dfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>192.168.0.182:9001</value>
    </property>
    <property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
    </property>
</configuration>

7、配置/usr/hadoop/hadoop-2.6.0/etc/hadoop目录下的mapred-site.xml

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.address</name>
        <value>192.168.0.182:10020</value>
    </property>
    <property>
        <name>mapreduce.jobhistory.webapp.address</name>
        <value>192.168.0.182:19888</value>
    </property>
</configuration>

8、配置/usr/hadoop/hadoop-2.6.0/etc/hadoop目录下的mapred-site.xml

<configuration>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
        <value>org.apache.hadoop.mapred.ShuffleHandler</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>192.168.0.182:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>192.168.0.182:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>192.168.0.182:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>192.168.0.182:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>192.168.0.182:8088</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>768</value>
    </property>
</configuration>

export JAVA_HOME=/usr/java/jdk1.7.0_80

10、配置/usr/hadoop/hadoop-2.6.0/etc/hadoop目录下的slaves,删除默认的localhost,增加2个从节点,
192.168.0.183
192.168.0.184

 

11、将配置好的Hadoop复制到各个节点对应位置上,通过scp传送,
scp -r /usr/hadoop 192.168.0.183:/home/
scp -r /usr/hadoop 192.168.0.184:/home/

 

12、在Master服务器启动hadoop,从节点会自动启动,进入/home/hadoop/hadoop-2.7.0目录
(1)初始化,输入命令,bin/hdfs namenode -format
(2)全部启动sbin/start-all.sh,也可以分开sbin/start-dfs.sh、sbin/start-yarn.sh
(3)停止的话,输入命令,sbin/stop-all.sh
(4)输入命令,jps,可以看到相关信息

 

13、Web访问,要先开放端口或者直接关闭防火墙
(1)输入命令,systemctl stop firewalld.service
(2)浏览器打开http://192.168.0.182:8088/
(3)浏览器打开http://192.168.0.182:50070/

 

14、安装完成。这只是大数据应用的开始,之后的工作就是,结合自己的情况,编写程序调用Hadoop的接口,发挥hdfs、mapreduce的作用。

 

 

2015.9.8 14:26 willem SSH配置方案(三台机器)文摘。

==============↑↑ 如果安装的hadoop版本低于2.0,则还需要配置第(3)项=============

 

 

(4) 修改hadoop-env.sh,设置JAVA_HOME

指令:“vim hadoop-env.sh”;配置信息如下:

 

export JAVA_HOME=/home/java/jdk1.7.0_80

 

hadoop-env.sh文件中本身就有JAVA_HOME这行,我们只需要把前面的注释#取消,并将路径修改为jdk的绝对路径。

同样的,将 yarn-env.sh 中jdk的路径进行修改(“vim yarn-env.sh”)。

 

 

2) 配置SSH

(1)查看SSH是否已安装:执行命令“ssh -V”;如果有版本信息则表示已安装(如下图),否则表示没有安装 :

若没有安装则执行命令“sudo apt-get install ssh”进行安装。

然后查看openssh-server是否已安装:“rpm -qa|grep openssh-server”;如果有版本信息则表示已安装,否则表示没有安装。

一般情况下,ubuntu默认安装openssh-client,但没有安装server。(本机安装的Linux版本是:CentOS 6 )

若没有安装则执行命令“ sudo apt-get install openssh-server”进行安装。

 

persto hive persto hive版本要求_hadoop_13

 

(2)基于空口令创建一个新的SSH密钥,启用无密码登录(如下图):

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

 

persto hive persto hive版本要求_persto hive_14

 

(3)测试连接是否成功(如下图):

ssh localhost

 

persto hive persto hive版本要求_Hadoop_15

 

3) 格式化HDFS文件系统以创建一个空的大文件系统(如下图):

指令:“hadoop namenode -format”

如果安装的版本高则会出现下面的错误

 

persto hive persto hive版本要求_persto hive_16

 

这是因为hadoop  命令换成了 hdfs 命令,只要把hadoop换成hdfs就可以了。

新指令:“hdfs namenode -format”

 

=================================================↓↓格式化时遇到的问题↓↓=================================================

不过在操作过程中遇到了下面的问题(如下图):

 

persto hive persto hive版本要求_persto hive_17

 

这是在配置过程中变更了jdk的位置,但是在 /etc/profile 下的环境变量配置 和 hadoop安装包里的 hadoop-env.sh 文件中的 JAVA_HOME 引用地址没有做相应的变更(要引用到 jdk1.7.0_80 这一级)。

用 hadoop version 验证引用没有问题之后,再次执行 hdfs namenode -format 命令

小结:已经确定配置好的相关文件,不要随意挪动位置,如实在对文件存放位置进行调整,则需要更改对应的配置信息;最好在安装时就考虑好文件的安装位置,以免后面增加不必要的工作量。

=================================================↑↑格式化时遇到的问题↑↑=================================================

 

执行的内容有些长,这里只截取结尾的内容展示(如下图):

 

persto hive persto hive版本要求_hdfs_18

 

4) 启动守护进程HDFS和MapReduce

值得注意的是:所有的启动脚本都在hadoop文件夹下的 sbin 中(如下图):

 

persto hive persto hive版本要求_Hadoop_19

 

所以执行在下面的命令前需要先定位到Hadoop的安装目录下(即:cd /usr/hadoop/hadoop-2.6.0)

sbin/start-dfs.sh

sbin/start-mapred.sh(hadoop-2.0及以后版本不需要执行此命令,其实也没有这命令)

 

=================================================↓↓启动服务时遇到的问题↓↓=================================================

 

直接执行的“start-dfs.sh”命令,这是方式不对造成的,最好是在“/usr/hadoop/hadoop-2.6.0”下执行“sbin/start-dfs.sh”

而不是在/usr/hadoop/hadoop-2.6.0/ sbin”下执行“start-dfs.sh” 。

 

sbin/目录下有很多启动脚本,可以根据自己的需要来启动Hadoop的守护进程。启动和停止的脚本和说明如下:

start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack

stop-all.sh 停止所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack

start-dfs.sh 启动Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode

stop-dfs.sh 停止Hadoop HDFS守护进程NameNode、SecondaryNameNode和DataNode

hadoop-daemons.sh start namenode 单独启动NameNode守护进程

hadoop-daemons.sh stop namenode 单独停止NameNode守护进程

hadoop-daemons.sh start datanode 单独启动DataNode守护进程

hadoop-daemons.sh stop datanode 单独停止DataNode守护进程

hadoop-daemons.sh start secondarynamenode 单独启动SecondaryNameNode守护进程

hadoop-daemons.sh stop secondarynamenode 单独停止SecondaryNameNode守护进程

start-mapred.sh 启动Hadoop MapReduce守护进程JobTracker和TaskTracker

stop-mapred.sh 停止Hadoop MapReduce守护进程JobTracker和TaskTracker

hadoop-daemons.sh start jobtracker 单独启动JobTracker守护进程

hadoop-daemons.sh stop jobtracker 单独停止JobTracker守护进程

hadoop-daemons.sh start tasktracker 单独启动TaskTracker守护进程

hadoop-daemons.sh stop tasktracker 单独启动TaskTracker守护进程

如果Hadoop集群是第一次启动,可以用start-all.sh。比较常用的启动方式是一个一个守护进程来启动,启动的步骤如下。

1.启动Hadoop的HDFS模块里的守护进程

HDFS里面的守护进程启动也有顺序,即:

1)启动NameNode守护进程;

2)启动DataNode守护进程;

3)启动SecondaryNameNode守护进程。

2.启动MapReduce模块里面的守护进程

MapReduce的守护进程启动也是有顺序的,即:

1)启动 JobTracker守护进程;

2)启动TaskTracker守护进程。

关闭的步骤正好相反,在这里就不描述了。

注意 正常情况下,是不使用start-all.sh和stop-all.sh来启动和停止Hadoop集群的。这样出错了不好找原因。

最好一个一个的启动守护进程 ,哪个启动失败就去看相应的log日志,这样就缩小了找错的范围。

 

=================================================↑↑启动服务时遇到的问题↑↑=================================================

 

5 查看守护进程启动情况

jps

 

如果显示如下(包含 ):

 

persto hive persto hive版本要求_hdfs_20

 

则说明hadoop伪分布模式配置成功!

 

=================================================↓↓文件配置完遇到的问题↓↓=================================================

但是实际发现是这样的,少了三个服务,多了一个服务。

至少说明配置文件有问题(如下图):

 

persto hive persto hive版本要求_hdfs_21

 

查找配置文件发现hadoop的 /etc/hadoop 下,只有 mapred-site.xml.template 配置文件,而没有 mapred-site.xml 文件

之前考虑认为这两个文件是一致,现在复制并重命名 mapred-site.xml.template 文件为 mapred-site.xml

命令行:“ cp mapred-site.xml.template mapred-site.xml”

执行后,结果如下(如下图):

 

persto hive persto hive版本要求_hadoop_22

 

然后再对 mapred-site.xml 文件进行编辑。

然后再用 start-mapred.sh 启动一下服务,结果提示“没有那个文件或目录”

到sbin下查看发现根本没有 start-mapred.sh 这一项

查阅资料才发现,Hadoop2.0及之后版本都是没用 JobTracker 和 TaskTracker 的,所以也就没有 start-mapred.sh 的必要了。

现在就还差 namenode 这一项了,查阅资料发现

hadoop默认的临时目录在/tmp目录下,这个目录在机器重启后就会删除(有的是几天不访问 就会自动清空)。

所以在core-site.xml文件里加入对临时文件夹的配置即可

 

 

然后在hadoop的安装包下,重新执行命令:“sbin/start-dfs.sh”,出现如下问题(如下图):

 

persto hive persto hive版本要求_persto hive_23

 

原因是因为官方提供的lib目录中.so文件是在32位系统下编译的,

如果是64位系统,需要自己下载源码在64位上重新编译。

此时需要确认系统信息:

可以用命令“getconf LONG_BIT”查看,
如果返回的结果是32则说明是32位,返回的结果是64则说明是64位。

此外还可以使用命令“uname -a”查看,

输出的结果中,如果有x86_64就是64位的,没有就是32位的(如下图):

 

persto hive persto hive版本要求_persto hive_24

 

经确认,电脑操作系统为64位。安装解决方案所说需要“下载源码在64位上重新编译 ”

点击下载已编译好的64位hadoop-2.7.1

至于编译方法,请查看“64位的linux装的hadoop是32位的,需要手工编译-解决方案(摘抄) ”这篇日志。

=================================================↑↑文件配置完遇到的问题↑↑=================================================

 

2015.9.15 20:52 willem 经过3天的努力取得的成果!

 

 

  

 

不积跬步,无以至千里;不积小流,无以成江海.