1)HDFS是Hadoop中用来存储文件的。

2)HDFS只能上传和下载文件,创建文件(这一步不会报错,但是内容需要是空的)写数据会报错(HDFS本身的特性)

1、HDFS 是做什么的

HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(Large Data Set)的应用处理带来了很多便利。

2、HDFS 从何而来

HDFS 源于 Google 在2003年10月份发表的GFS(Google File System) 论文。 它其实就是 GFS 的一个克隆版本

3、为什么选择 HDFS 存储数据

之所以选择 HDFS 存储数据,因为 HDFS 具有以下优点:

1、高容错性

数据自动保存多个副本。它通过增加副本的形式,提高容错性。

某一个副本丢失以后,它可以自动恢复,这是由 HDFS 内部机制实现的,我们不必关心。

  2、适合批处理

它是通过移动计算而不是移动数据。它会把数据位置暴露给计算框架。

  3、适合大数据处理

处理数据达到 GB、TB、甚至PB级别的数据。能够处理百万规模以上的文件数量,数量相当之大。

能够处理10K节点的规模。

  4、流式文件访问

一次写入,多次读取。文件一旦写入不能修改,只能追加。它能保证数据的一致性。

  5、可构建在廉价机器上

它通过多副本机制,提高可靠性。它提供了容错和恢复机制。比如某一个副本丢失,可以通过其它副本来恢复。

一、linux配置HDFS

1.进入

hdfs 上面的文件如何共享 hdfs文档_HDFS


2.vi hadoop-env.sh

(将第25行修改为如下所示)

【 Esc+:+set nu 】显示行号【Esc+:+set nonu】取消行号

export JAVA_HOME=/opt/jdk1.8.0_11

hdfs 上面的文件如何共享 hdfs文档_hdfs 上面的文件如何共享_02


4…修改core-site.xml

hdfs 上面的文件如何共享 hdfs文档_hdfs 上面的文件如何共享_03


hdfs 上面的文件如何共享 hdfs文档_HDFS_04


5.修改 vi hdfs-site.xml

hdfs 上面的文件如何共享 hdfs文档_Hadoop_05


hdfs 上面的文件如何共享 hdfs文档_Hadoop_06


6.对NameNode进行格式化:只在安装完Hadoop之后,第一次启动HDFS的时候进行格式化操作;

(这一次的操作非常危险,因为他会把原本的内容格式化,所以谨慎的再次使用。)

hdfs namenode -format
(1)格式化过程中没有报错
(2)name has been successfully formatted
(3)Exiting with status 0
(4)NameNode at hadoop/192.168.56.100
(这些都是在文本中后半截部分语句,比较难找)

7.启动HDFS

start-dfs.sh

hdfs 上面的文件如何共享 hdfs文档_hdfs_07

第一次运行可能有些不同,如果要验证是否正确打开

输入命令:jps (同志,仔细看不是jsp)

hdfs 上面的文件如何共享 hdfs文档_Hadoop_08


如果4个都有说明HDFS开启成功

//如果要停止HDFS:

stop-dfs.sh

//启动失败:NameNode、SecondaryNameNode、DataNode缺少、完全没有进程:

最简单:

拷贝一份能够启动成功的hadoop/etc目录

把Hadoop-2.7.3目录删除掉

重新解压, 将etc 目录拷贝到解压目录中

格式化namenode

重新启动

8.通过浏览器的方式访问(如果浏览器不行,请换谷歌,火狐浏览器,如果还不行的话看看前面linux防火墙有没有关闭)

192.168.56.100:50070

hdfs 上面的文件如何共享 hdfs文档_hdfs_09


9.

HDFS指令操作:HDFS文件系统的目录结构延续了Linux的目录结构,也是以 / 作为根目录

创建目录:hdfs dfs -mkdir /park01

查看: hdfs dfs -ls /

递归显示指定目录下的内容: hdfs dfs -ls -R /

将/park01/park02重命名: hdfs dfs -mv /park01/park02 /park01/park03

将/park01/park03 移动到 / : hdfs dfs -mv /park01/park03 /

删除/park100目录: hdfs dfs -rm -r /park01/park100

上传: hdfs  dfs -put 上传文件路径(本地)  目标路径(HDFS)
下载:hdfs  dfs  -get  下载文件路径(HDFS) 目标路径(本地)

二、Hadoop Windows插件配置(下一篇吧,我实在肝不动了)