hadoop 启动数据节点 hadoop集群的进程

转载

mob64ca140dc73b 2023-11-08 18:17:02

文章标签 hadoop 启动数据节点 hadoop hdfs 元数据 文章分类 Hadoop 大数据

前言

学习大数据开发，不免要接触大数据生态圈中的各种组件，今天就让我们从基本的组件——HADOOP(apache旗下的一套开源软件平台)说起，来展开之后一系列的大数据相关组件的学习。

HADOOP组件介绍

HADOOP的核心组件有：

HDFS（分布式文件系统）

YARN（运算资源调度系统）

MAPREDUCE（分布式运算编程框架）

HADOOP集群搭建

从HADOOP的组件，我们可以看出，HADOOP集群应该是有两个集群的（hdfs集群，yarn集群），hdfs集群负责海量数据的存储，集群中的角色主要有 NameNode / DataNode；yarn集群是负责海量数据运算时资源的调度（集群中的角色主要有 ResourceManager /NodeManager）。

首先呢，要从官网下载Hadoop安装包HADOOP包，下载后解压：
tar -zxvf hadoop-2.6.5.tar.gz

然后修改配置文件，在 $HADOOP_HOME/etc/hadoop/目录下面修改 hadoop-env.sh，yarn-env.sh这两个文件（把自己的JDK路径加进去）

vi hadoop-env.sh ，vi yarn-env.sh

export JAVA_HOME=/usr/local/src/jdk1.8.0_152(自己JDK的路径)

vi slaves

slave1
slave2

vi core-site.xml

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/src/hadoop-2.8.2/tmp/</value>
</property>
</configuration>

vi hdfs-site.xml

<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/src/hadoop-2.8.2/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/src/hadoop-2.8.2/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
</configuration>

vi mapred-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

vi yarn-site.xml

<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8035</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>

<property>
<name>yarn.nodemanager.vmem-check-enabled</name>
<value>false</value>
</property>
</configuration>

配置环境变量(在主从节点上都操作哦)

vi ~/.bashrc

export HADOOP_HOME=/usr/local/src/hadoop-2.6.5(HADOOP路径)
export PATH=$PATH:$HADOOP_HOME/bin

刷新环境变量(每个节点)

source ~/.bashrc

拷贝安装包(在master上执行，)

scp -r /usr/local/src/hadoop-2.6.5 root@slave1:/usr/local/src/hadoop-2.6.5（路径改成自己的即可）

scp -r /usr/local/src/hadoop-2.6.5 root@slave2:/usr/local/src/hadoop-2.6.5

启动集群

在master上

hadoop namenode -format

./sbin/start-all.sh

然后用jps查看进程状态

master上：NameNode、ResourceManager SecondaryNameNode

slave上：NodeManager、ResourceManager

对HDFS文件系统的操作

-help
功能：输出这个命令参数手册
-ls
功能：显示目录信息
示例： hadoop fs -ls hdfs://hadoop-server01:9000/
备注：这些参数中，所有的hdfs路径都可以简写
-->hadoop fs -ls /   等同于上一条命令的效果
-mkdir
功能：在hdfs上创建目录
示例：hadoop fs -mkdir -p /aaa/bbb/cc/dd
-moveFromLocal
功能：从本地剪切粘贴到hdfs
示例：hadoop fs - moveFromLocal /home/hadoop/a.txt /aaa/bbb/cc/dd
-moveToLocal
功能：从hdfs剪切粘贴到本地
示例：hadoop fs - moveToLocal   /aaa/bbb/cc/dd /home/hadoop/a.txt
--appendToFile
功能：追加一个文件到已经存在的文件末尾
示例：hadoop fs -appendToFile ./hello.txt hdfs://hadoop-server01:9000/hello.txt
可以简写为：
Hadoop fs -appendToFile ./hello.txt /hello.txt

-cat
功能：显示文件内容
示例：hadoop fs -cat /hello.txt

-tail
功能：显示一个文件的末尾
示例：hadoop fs -tail /weblog/access_log.1
-text
功能：以字符形式打印一个文件的内容
示例：hadoop fs -text /weblog/access_log.1
-chgrp
-chmod
-chown
功能：linux文件系统中的用法一样，对文件所属权限
示例：
hadoop fs -chmod 666 /hello.txt
hadoop fs -chown someuser:somegrp   /hello.txt
-copyFromLocal
功能：从本地文件系统中拷贝文件到hdfs路径去
示例：hadoop fs -copyFromLocal ./jdk.tar.gz /aaa/
-copyToLocal
功能：从hdfs拷贝到本地
示例：hadoop fs -copyToLocal /aaa/jdk.tar.gz
-cp
功能：从hdfs的一个路径拷贝hdfs的另一个路径
示例： hadoop fs -cp /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

-mv
功能：在hdfs目录中移动文件
示例： hadoop fs -mv /aaa/jdk.tar.gz /
-get
功能：等同于copyToLocal，就是从hdfs下载文件到本地
示例：hadoop fs -get /aaa/jdk.tar.gz
-getmerge
功能：合并下载多个文件
示例：比如hdfs的目录 /aaa/下有多个文件:log.1, log.2,log.3,...
hadoop fs -getmerge /aaa/log.* ./log.sum
-put
功能：等同于copyFromLocal
示例：hadoop fs -put /aaa/jdk.tar.gz /bbb/jdk.tar.gz.2

-rm
功能：删除文件或文件夹
示例：hadoop fs -rm -r /aaa/bbb/

-rmdir
功能：删除空目录
示例：hadoop fs -rmdir   /aaa/bbb/ccc
-df
功能：统计文件系统的可用空间信息
示例：hadoop fs -df -h /

-du
功能：统计文件夹的大小信息
示例：
hadoop fs -du -s -h /aaa/*

-count
功能：统计一个指定目录下的文件节点数量
示例：hadoop fs -count /aaa/

-setrep
功能：设置hdfs中文件的副本数量
示例：hadoop fs -setrep 3 /aaa/jdk.tar.gz
<这里设置的副本数只是记录在namenode的元数据中，是否真的会有这么多副本，还得看datanode的数量>