hdfs dfs 备份 hdfs dfs cd

转载

mob6454cc6b413f 2024-03-26 05:42:57

文章标签 hdfs dfs 备份 hadoop HDFS 服务器 文章分类 架构后端开发

一　　原理阐述

1'　　DFS

　　　　分布式文件系统（即DFS，Distributed File System），指文件系统管理的物理存储资源不一定直接连接在本地节点上，而是通过计算机网络与节点相连。该系统架构于网络之上，势必会引入网络编程的复杂性，因此分布式文件系统比普通磁盘文件系统更为复杂。

2'　　HDFS

　　　　HDFS（Hadoop Distributed File System）为大数据平台其它所有组件提供了最基本的存储功能。

　　　　特征：高容错、高可靠、可扩展、高吞吐率等，为大数据存储和处理提供了强大的底层存储架构。

　　　　HDFS是一个主/从（master/slave）体系结构，从最终用户的角度来看，它就像传统的文件系统，可通过目录路径对文件执行CRUD操作。由于其分布式存储的性质，HDFS集群拥有一个NameNode和一些DataNodes，NameNode管理文件系统的元数据，DataNode存储实际的数据。

　　　　HDFS开放文件系统的命名空间以便用户以文件形式存储数据，秉承“一次写入、多次读取”的原则。客户端通过NameNode和DataNodes的交互访问文件系统，联系NameNode以获取文件的元数据，而真正的文件I/O操作是直接和DataNode进行交互的。

3‘　　适用场景

　　HDFS 提供高吞吐量应用程序数据访问功能，适合带有大型数据集的应用程序，以下是一些常用的应用场景：

　　　　　　数据密集型并行计算：数据量极大，但是计算相对简单的并行处理，如大规模Web信息搜索；

　　　　　　计算密集型并行计算：数据量相对不是很大，但是计算较为复杂的并行计算，如3D建模与渲染、气象预报和科学计算；

　　　　　　数据密集与计算密集混合型的并行计算，如3D电影的渲染。

　　HDFS在使用过程中有以下限制：

　　　　　　HDFS不适合大量小文件的存储，因NameNode将文件系统的元数据存放在内存中，因此存储的文件数目受限于NameNode的内存大小；

　　　　　　HDFS适用于高吞吐量，而不适合低时间延迟的访问；

　　　　　　流式读取的方式，不适合多用户写入一个文件（一个文件同时只能被一个客户端写），以及任意位置写入（不支持随机写）；

　　　　　　HDFS更加适合写入一次，读取多次的应用场景。

3’　　基本命令

hadoop fs -cmd args

　　　　常用命令：

hadoop fs -mkdir /user/trunk #建立目录/user/trunk

　　　　　　　　hadoop fs -ls /user #查看/user目录下的目录和文件

　　　　　　　　hadoop fs -lsr /user #递归查看/user目录下的目录和文件

　　　　　　　　hadoop fs -put test.txt /user/trunk #上传test.txt文件至/user/trunk

　　　　　　　　hadoop fs -get /user/trunk/test.txt #获取/user/trunk/test.txt文件

　　　　　　　　hadoop fs -cat /user/trunk/test.txt #查看/user/trunk/test.txt文件内容

　　　　　　　　hadoop fs -tail /user/trunk/test.txt #查看/user/trunk/test.txt文件的最后1000行

　　　　　　　　hadoop fs -rm /user/trunk/test.txt #删除/user/trunk/test.txt文件

　　　　　　　　hadoop fs -help ls #查看ls命令的帮助文档

二　　HDFS部署　　　　　　

主要步骤如下：

1．配置Hadoop的安装环境；

2．配置Hadoop的配置文件；

3．启动HDFS服务；

4．验证HDFS服务可用。

1‘　　查看是否存在hadoop安装目录　　 ls /usr/cstor/hadoop　　如果没有，利用

hdfs dfs 备份 hdfs dfs cd_HDFS

工具从本地导入hadoop安装文件。　　　　　　

hdfs dfs 备份 hdfs dfs cd_服务器_02

　　查看jdk是否存在，如果没有同上方法导入

hdfs dfs 备份 hdfs dfs cd_HDFS_03

2’　　确认集群服务器之间可SSH免密登录

3‘　　

hdfs dfs 备份 hdfs dfs cd_hadoop_04

查看hadoop_env.sh

export JAVA_HOME=${JAVA_HOME}改为jdk的目录，例如在我的电脑上是export JAVA_HOME=/usr/local/jdk1.7.0_79/

4’　　指定HDFS主节点

<configuration></configuration>标签之间修改如图所示的配置：

hdfs dfs 备份 hdfs dfs cd_HDFS_05

5‘　　拷贝该配置到集群其他子集上，首先查看你的集群所有子集

hdfs dfs 备份 hdfs dfs cd_HDFS_06

for x in `cat ~/data/2/machines` ; do echo $x ; scp -r /usr/cstor/hadoop/etc $x:/usr/cstor/hadoop ; done;

6’　　启动HDFS节点

hdfs namenode -format

slaves文件，将localhost修改为slave1~3；

HDFS；

jps

hdfs dfs 备份 hdfs dfs cd_hdfs dfs 备份_07

7‘　　hdfs配置成功后可以在client上向HDFS上传文件：

hdfs dfs 备份 hdfs dfs cd_服务器_08

三　　读写HDFS文件

1’　　配置client服务器classpath

vi /etc/profile，编辑该文件。Linux 中/etc/profile文件的改变会涉及到系统的环境，也就是有关Linux环境变量。

Classpath的目的，在于告诉Java执行环境，在哪些目录下可以找到您所要执行的Java程序(.class文件)。

　　　　　　将末尾的如下几行：

JAVA_HOME=/usr/local/jdk1.7.0_79/

export JRE_HOME=/usr/local/jdk1.7.0_79//jre

export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib

export HADOOP_HOME=/usr/cstor/hadoop

export PATH=$PATH:$HADOOP_HOME/bin

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

　　　　　　用下列行进行替换（注意路径不同自行修改）：

JAVA_HOME=/usr/local/jdk1.7.0_79/

export HADOOP_HOME=/usr/cstor/hadoop

export JRE_HOME=/usr/local/jdk1.7.0_79//jre

export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$HADOOP_HOME/share/hadoop/common/*:$HADOOP_HOME/share/hadoop/common/lib/*

export PATH=$PATH:$HADOOP_HOME/bin

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib:$HADOOP_HOME/lib/native"

source /etc/profile，使刚才的环境变量修改生效；

2’　　在client服务器编写HDFS写程序

vi WriteFile.java，编写HDFS写文件程序：

hdfs dfs 备份 hdfs dfs cd_hadoop_09

hdfs dfs 备份 hdfs dfs cd_hadoop_10

1 import org.apache.hadoop.conf.Configuration;
 2 import org.apache.hadoop.fs.FSDataOutputStream;
 3 import org.apache.hadoop.fs.FileSystem;
 4 import org.apache.hadoop.fs.Path;
 5 public class WriteFile {
 6 public static void main(String[] args)throws Exception{
 7 Configuration conf=new Configuration();
 8 FileSystem hdfs = FileSystem.get(conf); 
 9 Path dfs = new Path("/weather.txt"); 
10 FSDataOutputStream outputStream = hdfs.create(dfs); 
11 outputStream.writeUTF("nj 20161009 23\n");
12 outputStream.close();
13 }
14 }

WriteFile.java

　　　　　　（2）编译并打包HDFS写程序

javac编译刚刚编写的代码，并使用jar命令打包为hdpAction.jar

hdfs dfs 备份 hdfs dfs cd_hadoop_11

　　　　　　（3）执行HDFS写程序

hadoop jar命令执行hdpAction.jar：

hdfs dfs 备份 hdfs dfs cd_服务器_12

　　　　　　　　　　查看是否已生成weather.txt文件，若已生成，则查看文件内容是否正确：

hdfs dfs 备份 hdfs dfs cd_hadoop_13

3‘　　在client服务器编写HDFS读程序

vi ReadFile.java，编写HDFS读WriteFile.txt文件程序：　

hdfs dfs 备份 hdfs dfs cd_hadoop_09

hdfs dfs 备份 hdfs dfs cd_hadoop_10

1 import java.io.IOException;
 2  
 3 import org.apache.Hadoop.conf.Configuration;
 4 import org.apache.Hadoop.fs.FSDataInputStream;
 5 import org.apache.Hadoop.fs.FileSystem;
 6 import org.apache.Hadoop.fs.Path;
 7  
 8 public class ReadFile {
 9   public static void main(String[] args) throws IOException {
10     Configuration conf = new Configuration();
11     Path inFile = new Path("/weather.txt"); //读取WriteFile.txt文件   
12     FileSystem hdfs = FileSystem.get(conf);
13     FSDataInputStream inputStream = hdfs.open(inFile);
14     System.out.println("myfile: " + inputStream.readUTF());
15     inputStream.close();
16   }
17 }

ReadFile.java

　　　　　　（2）编译文件并打包，然后执行；

hdfs dfs 备份 hdfs dfs cd_hdfs dfs 备份_16