hdfs cpu过高 hdfs du

转载

mob6454cc68959c 2024-04-02 19:44:40

文章标签 hdfs cpu过高 hadoop 大数据 java linux 文章分类 架构后端开发

HDFS产生的背景和定义

1.1 背景

随着数据量的增大，在一个操作系统中存不下所有的数据，那么久分配到更多的操作系统管理的磁盘中，但不方便管理和维护，迫切需要一种系统来管理多台机器上面的文件，这是分布式文件管理系统，hdfs只是分布式文件管理系统中一种；

1.2 定义

HDFS（Hadoop Distrubuted File System）,它是一个文件系统，用于存储文件，通过目录树来定位文件，其次，它是分布式的，由很多服务器联合而成，集群中的服务器有各自的角色；

HDFS的使用场景，适合一次写入，多次读出的场景，且不支持文件的修改，适合用来做数据分析；

优缺点

优点：

1.	搞容错性
  	1.	数据自动保存多个副本，它可以通过副本的形式，提高容错性；
  	2.	某个副本丢失以后，它可以自动恢复；
2.	适合处理大数据
  	1.	数据规模：能够处理数据规模达GB，TB，甚至PB级别
  	2.	文件规模：能够处理百万规模以上的文件数量，数量相当大；
3.	可用在廉价机器上，通过多副本机制，提高可靠性；

缺点：

不适合低延时的数据访问，比如毫秒级的储存数据；
无法高效的对大量的小文件进行存储；

存储文件大量小文件的话，它会占用namenode大量内存来存储文件的目录和块信息，这样不好，namenode的内存是有限的；
小文件的会导致寻址时间超过读取时间，违背了hdfs的设计目标；

不支持并发写入，文件随机修改

一个文件只能一个线程写，不允许多线程同时写入；
仅支持数据append；不支持文件的修改；

hdfs的组织架构

hdfs cpu过高 hdfs du_hdfs cpu过高

namenode—master，它是主管，管理者；

管理hdfs的名称空间
配置副本策略
管理数据块block映射信息
处理客户端读写请求

datanode，就是slave，namenode下达命令，datanode执行实际的操作

存储实际的数据块
执行数据块的读写

client 客户端

文件切分，文件上传hdfs的时候，client将文件切分成一个一个的block，然后进行上传；
于namenode交互，获取文件的位置信息；
与datanode互动，读取或写入数据
client提供一些命令，来管理hdfs，比如namenode格式化
client通过一些命令来访问hdfs，比如hdfs增删查改操作

secondary namenode，并非namenode的热备，当namenode挂掉，它并不能马上替换namenode；

辅助namenode，分担其工作量，比如定期合并fsimage，和edits，并推送给namnode；
紧急情况，辅助恢复namenode；

hdfs文件块大小

hdfs中的文件在物理上是分块存储，块的小可以通过配置参数(dfs.blocksize)来规定，默认大小在hadoop2.x版本中是128m，老版本64m；

寻址时间和传输时间，如果寻址时间为10ms，寻址时间为传输时间的1%,则为最佳时间，传输时间=10ms/0.01=1s；

块的大小配置问题

块设置太小：会增加寻址时间，
块设置太大：磁盘传输时间会明显大于定位这个块开始的时间，导致程序处理这块数据时，会非常慢；

hadoop 的shell操作

1．基本语法

bin/hadoop fs 具体命令 OR bin/hdfs dfs 具体命令

dfs是fs的实现类。

2．命令大全

[user@linux2 hadoop-2.7.2]$ bin/hadoop fs

[-appendToFile <localsrc> ... <dst>]

    [-cat [-ignoreCrc] <src> ...]

    [-checksum <src> ...]

    [-chgrp [-R] GROUP PATH...]

    [-chmod [-R] <MODE[,MODE]... | OCTALMODE> PATH...]

    [-chown [-R] [OWNER][:[GROUP]] PATH...]

    [-copyFromLocal [-f] [-p] <localsrc> ... <dst>]

    [-copyToLocal [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]

    [-count [-q] <path> ...]

    [-cp [-f] [-p] <src> ... <dst>]

    [-createSnapshot <snapshotDir> [<snapshotName>]]

    [-deleteSnapshot <snapshotDir> <snapshotName>]

    [-df [-h] [<path> ...]]

    [-du [-s] [-h] <path> ...]

    [-expunge]

    [-get [-p] [-ignoreCrc] [-crc] <src> ... <localdst>]

    [-getfacl [-R] <path>]

    [-getmerge [-nl] <src> <localdst>]

    [-help [cmd ...]]

    [-ls [-d] [-h] [-R] [<path> ...]]

    [-mkdir [-p] <path> ...]

    [-moveFromLocal <localsrc> ... <dst>]

    [-moveToLocal <src> <localdst>]

    [-mv <src> ... <dst>]

    [-put [-f] [-p] <localsrc> ... <dst>]

     [-renameSnapshot <snapshotDir> <oldName> <newName>]

    [-rm [-f] [-r|-R] [-skipTrash] <src> ...]

    [-rmdir [--ignore-fail-on-non-empty] <dir> ...]

    [-setfacl [-R] [{-b|-k} {-m|-x <acl_spec>} <path>]|[--set <acl_spec> <path>]]

    [-setrep [-R] [-w] <rep> <path> ...]

    [-stat [format] <path> ...]

    [-tail [-f] <file>]

    [-test -[defsz] <path>]

    [-text [-ignoreCrc] <src> ...]

    [-touchz <path> ...]

    [-usage [cmd ...]]

3．常用命令实操

（0）启动Hadoop集群（方便后续的测试）

[user@linux2 hadoop-2.7.2]$ sbin/start-dfs.sh

 [user@linux3 hadoop-2.7.2]$ sbin/start-yarn.sh

（1）-help：输出这个命令参数

[user@linux2 hadoop-2.7.2]$ hadoop fs -help rm

（2）-ls: 显示目录信息

[user@linux2 hadoop-2.7.2]$ hadoop fs -ls /

（3）-mkdir：在HDFS上创建目录

[user@linux2 hadoop-2.7.2]$ hadoop fs -mkdir -p /sanguo/shuguo

（4）-moveFromLocal：从本地剪切粘贴到HDFS

[user@linux2 hadoop-2.7.2]$ touch kongming.txt

  [user@linux2 hadoop-2.7.2]$ hadoop fs -moveFromLocal ./kongming.txt /sanguo/shuguo

（5）-appendToFile：追加一个文件到已经存在的文件末尾

[user@linux2 hadoop-2.7.2]$ touch liubei.txt
 [user@linux2 hadoop-2.7.2]$ vi liubei.txt

输入

[user@linux2 hadoop-2.7.2]$ hadoop fs -appendToFile liubei.txt /sanguo/shuguo/kongming.txt

（6）-cat：显示文件内容

[user@linux2 hadoop-2.7.2]$ hadoop fs -cat /sanguo/shuguo/kongming.txt

（7）-chgrp 、-chmod、-chown：Linux文件系统中的用法一样，修改文件所属权限

[user@linux2 hadoop-2.7.2]$ hadoop fs -chmod 666 /sanguo/shuguo/kongming.txt
[user@linux2 hadoop-2.7.2]$ hadoop fs -chown user:user  /sanguo/shuguo/kongming.txt

（8）-copyFromLocal：从本地文件系统中拷贝文件到HDFS路径去

[user@linux2 hadoop-2.7.2]$ hadoop fs -copyFromLocal README.txt /

（9）-copyToLocal：从HDFS拷贝到本地

[user@linux2 hadoop-2.7.2]$ hadoop fs -copyToLocal /sanguo/shuguo/kongming.txt ./

（10）-cp ：从HDFS的一个路径拷贝到HDFS的另一个路径

[user@linux2 hadoop-2.7.2]$ hadoop fs -cp /sanguo/shuguo/kongming.txt /zhuge.txt

（11）-mv：在HDFS目录中移动文件

[user@linux2 hadoop-2.7.2]$ hadoop fs -mv /zhuge.txt /sanguo/shuguo/

（12）-get：等同于copyToLocal，就是从HDFS下载文件到本地

[user@linux2 hadoop-2.7.2]$ hadoop fs -get /sanguo/shuguo/kongming.txt ./

（13）-getmerge：合并下载多个文件，比如HDFS的目录 /user/user/test下有多个文件:log.1, log.2,log.3,…

[user@linux2 hadoop-2.7.2]$ hadoop fs -getmerge /user/user/test/* ./zaiyiqi.txt

（14）-put：等同于copyFromLocal

[user@linux2 hadoop-2.7.2]$ hadoop fs -put ./zaiyiqi.txt /user/user/test/

（15）-tail：显示一个文件的末尾

[user@linux2 hadoop-2.7.2]$ hadoop fs -tail /sanguo/shuguo/kongming.txt

（16）-rm：删除文件或文件夹

[user@linux2 hadoop-2.7.2]$ hadoop fs -rm /user/user/test/jinlian2.txt

（17）-rmdir：删除空目录

[user@linux2 hadoop-2.7.2]$ hadoop fs -mkdir /test

[user@linux2 hadoop-2.7.2]$ hadoop fs -rmdir /test

（18）-du统计文件夹的大小信息

[user@linux2 hadoop-2.7.2]$ hadoop fs -du -s -h /user/user/test

				2.7 K /user/user/test

 

    [user@linux2 hadoop-2.7.2]$ hadoop fs -du -h /user/user/test

			1.3 K /user/user/test/README.txt

			15   /user/user/test/jinlian.txt

			1.4 K /user/user/test/zaiyiqi.txt

（19）-setrep：设置HDFS中文件的副本数量

[user@linux2 hadoop-2.7.2]$ hadoop fs -setrep 10 /sanguo/shuguo/kongming.txt

这里设置的副本数只是记录在NameNode的元数据中，是否真的会有这么多副本，还得看DataNode的数量。因为目前只有3台设备，最多也就3个副本，只有节点数的增加到10台时，副本数才能达到10。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：dubbo依赖引用哪个引入dubbo依赖

下一篇：element 双层导航栏 element ui 导航

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯