hadoop从裸机到完全分布的安装(ctrl + alt是让鼠标出来)

1、vmware安装省略

2、ubuntu安装省略

3、安装好ubuntu后修改root用户的密码。即执行sudo passwd输入新的密码

4、建文件夹即mkdir ,修改它的权限的话用chmod 777 或者用chmod rxw也可以(rwx值的是读写和执行权,想改那个权限的话就用chmod oug + 它们)

5、touch a.txt是创建文本文件 。echo >> xxx 往里面写内容 。echo > xxx 新的内容把之前的内容覆盖掉

6、切换在root的用户下执行:nano sudoers 进到里面。在root  ALL=(ALL:ALL) ALL下面同样增加一个ubuntu ALL=(ALL:ALL) ALL

7、想挂载文件的话选择菜单栏的虚拟机----> 选择设置 ----CD/DVD --进行挂载文件。挂载文件是在mnt的hgfs下面。要想存放这些挂载文件的话即在cd /mnt/下以sudo mkdir cdrom 创建cdrom文件、创建好后执行sudo mount /dev/cdrom /mnt/cdrom

8、cut-c N-M //切断内容  -c:按照字符数计算 n-m 从第n个到第m个 。n-:n到行尾 -m:行首到第m个,n:第n个字符

9、改变软件源成国内源即进入etc/apt下对sources.list备份后。nano sources.list把下面的软件源复制进去 :

deb http://mirrors.163.com/ubuntu/ precise main universe restricted multiverse

deb-src http://mirrors.163.com/ubuntu/ precise main universe restricted multiverse

deb http://mirrors.163.com/ubuntu/ precise-security universe main multiverse restricted

deb-src http://mirrors.163.com/ubuntu/ precise-security universe main multiverse restricted

deb http://mirrors.163.com/ubuntu/ precise-updates universe main multiverse restricted

deb http://mirrors.163.com/ubuntu/ precise-proposed universe main multiverse restricted

deb-src http://mirrors.163.com/ubuntu/ precise-proposed universe main multiverse restricted

deb http://mirrors.163.com/ubuntu/ precise-backports universe main multiverse restricted

deb-src http://mirrors.163.com/ubuntu/ precise-backports universe main multiverse restricted

deb-src http://mirrors.163.com/ubuntu/ precise-updates universe main multiverse restricted


-------------------------------------

自制软件源也可以,这样用的就是本地软件源

1、备份原来的软件源

cd /etc/apt

cp sources.list soures.lise,bak

2、冲掉sources.list文件

echo  "" > sources.list

3、挂载iso文件到/mnt/cdrom

4、

--------------------------


10、执行apt-get update 进行升级,再执行apt-get upgrade


11、安装桌面apt-get install desktop 

12、桌面安装好后就对他进行虚拟机增强。在虚拟机的菜单栏上选择重新安装虚拟机把vmwareools这个包复制到桌面,把它解压。ls有个Desktop ,cd进入Desktop里面有个vmware-tools-distrib。再cd进入vmware-tools-distrib里面有个绿色的vmware-install.pl。然后执行sudo ./vmware-install.pl


13、在usr/local下面建一个soft,把所有安装的软件都放在这里面

14、进入你挂载的目录中去找你要安装的软件即执行cd/mnt/hgfs/downloads。把你安装的软件拷贝到ubuntu所建的文件夹下对它进行解压,解压后将它移到soft文件夹中也就是存放所安装的软件的文件夹

15、在soft下给jdk做个链接即执行ln -s jdk1.8.0_65 jdk

16、配置环境变量:

1、在soft的目录编辑 sudo gedit /etc/environment配置:JAVA_HOME=/soft/jdk

PATH="/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:soft/jdk/bin"。

2、让它生效执行 source etc/environment


17、安装hadoop也是和jdk安装一样,同样给它做链接,同样给它环境变量。切换在root的用户nano /etc/enviromnt给它配置环境变量即/soft/hadoop/bin:/soft/hadoop/sbin


18、安装ssh 即执行sudo apt-get install ssh 再给它配秘钥即执行ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa。再把秘钥发到对方的认证库中即执行cat id_rsa.pub >> authorized_keys 。然后测试一下看看还需不需要秘钥登录执行ssh localhost


19、进入/soft/hadoop/etc/hadoop/目录下执行:

接下来就开始配置文件:

1、进入hadoop安装目录:cd /soft/hadoop/etc/hadoop/ 。执行gedit core-site.xml 把

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://localhost/<value>

</property>

</configuration>复制进去

2、再进入gedit hafs-site.xml 把

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

</configuration>复制进来


3、由于没有mapred-site.xml拷贝一份cp mapred-site.xml.template mapred-site.xml把

<property>

<name>mapreduce.framework.name</name>

<value>yarn</value>

<property>复制进去


4、再进入gedit yarn-site.xml把

<property>

<name>yarn.resourcemanager.hostname</name>

<value>localhost</value>

</property>

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>复制进去


5、查看配置好的文件:ls -al |grep site.xml


20、格式文件系统hdfs namenode -format


21、启动和停止进程star.dfs.sh、start.yarn.sh和stop.all.sh


22、停止所有的进程stop.all.sh配置环境变量,在soft/hadoop/etc/目录下执行mv hadoop hadoop_pseudo。接着就执行start-all.sh --config /soft/hadoop-2.7.1/etc/hadoop_pseudo。接着再执行:

 export HADOOP_CONF_DIR=/soft/hadoop/etc/hadoop_pseudo/


23、soft/hadoop/etc/下再做一个hadoop_local即执行:cp -r hadoop_pseudo hadoop_local

24、进入soft/hadoop/etc/hadoop_local里面执行nano core-site.xml里面把里面的脚本删掉。同样操作nano hdfs-site.xml,删掉里面的脚本 。再把mapred-site.xml删掉。再进入yarn里面也是同样的操作


25、同样在soft/hadoop/etc/目录下做个链接ln -s hadoop_pseudo hadoop

26、把之前的环境变量删掉soft/hadoop/etc/目录下执行export HADOOP_CONF_DIR=,接着再执行echo $HADOOP_CONF_DIR


27、创建目录,在分布式文件系统上创建目录启动所有的进程在/soft/hadoop/etc$下执行: hadoop fs -ls / 看看有没有路径再执行hadoop fs -ls /user/。 hadoop fs -ls -R /可以递归显示目录。hadoop fs -mkdir -p /user/${USER}是创建目录-p多级目录


28、搭建完全分布集群

1、安装java    // 和伪分布一样

2、创建user

3、安装hadoop

4、配置SSH

5、格式化

6、启动进程 start-dfs.sh | start-yarn.sh

7、创建目录

8、配置hadoop


29、在、etc/hosts下编辑各个虚拟机的ip映射,并且修改各个虚拟机的名字

30、在宿主机下的ssh的目录下执行scp id_rsa.pub ubuntu@s2:/home/ubuntu/.ssh/。每个克隆的虚拟机都这样执行一遍。操作完上面的步骤后逐一到各个虚拟机里,在ssh目录执行cat id_rsa.pub  known_hosts


31、把克隆的虚拟机ssh下面的东西干掉即执行:rm * 。再执行ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa。每台虚拟机都执行这个一遍(这一步和上步一样的,)

32、在第一台虚拟机里执行scp id_rsa.pub ubuntu@s2:~/.ssh/id_rsa.pub.s1。然后登陆到s2的虚拟机上,在s2虚拟机的ssh目录下执行cat id_rsa.pub.s1 >> authorizd_keys


33、在第一台的虚拟机上的soft/hadoop/etc目录下执行cp -r hadoop_pseudo hadoop_cluster。进入 cd hadoop_cluster/里面把core-site.xml里面的内容改成

<configuration>

        <property>

                <name>fs.defaultFS</name>

                <value>hdfs://s1/</value>

        </property>

</configuration>

进入hdfs-site.xml里面把里面的内容改成

<configuration>

        <property>

                <name>dfs.replication</name>

                <value>3</value>

        </property>

</configuration>


进入yarn-site.xml改成:

<configuration>

        <property>

                <name>yarn.resourcemanager.hostname</name>

                <value>s1</value>

        </property>

        <property>

                <name>yarn.nodemanager.aux-services</name>

                <value>mapreduce_shuffle</value>

        </property>

</configuration>


进入slaves 把localhost删掉。改成s2 、s3、s4

34、在s1虚拟机里面拷贝一个cp -r  hadoop——pesudo hadoop_cluster。在/soft/hadoop/etc$目录下执行 scp -r hadoop_cluster ubuntu@s2:/soft/hadoop/etc/。每个克隆的虚拟机都执行一遍


35、再执行格式化: hdfs --config /soft/hadoop/etc/hadoop_cluster namenode -format


36、启动进程:start-dfs.sh --config /soft/hadoop/etc/hadoop_cluster


完全分布完成

-------------------------------------------------