一、HDFS分布式文件系统概述
hdfs分布式文件系统 , 将一个大的文件拆分成多个小文件存储在多台服务器中,可以通过Hadoop web界面查看
文件系统:
二、常用命令
首先在Linux系统创建一个/usr/local/目录下创建一个data目录,以后存放上传到hdfs上的文件,这里我之前装数据库创建过就不再创建
1、创建目录 mkdir
mkdir : 创建目录
/data ; 路径 , 需要从 ”/“ 开始
hadoop dfs -mkdir /data
可以通过web界面查看创建成功
-p : 递归创建多级目录
hadoop dfs -mkdir -p /a/b/c
2、查看文件,ls 没有cd命令, 需要指绝对路径
hadoop dfs -ls /data
权限(rwx(当前用户的权限) ,r-x (当前用户组的权限) ,r-x 其他用户的权限))
3、上传文件 put
注意:hdfs分布式不能创建文件,只能上传,因为hdfs文件默认切分,创建文件不知道如何切分,个人理解
通过xftp先将要上传到hdfs上的传输到Linux里面,再从Linux上传到hdfs上
创建路径
hadoop dfs -mkdir /data/student
hadoop dfs -mkdir /data/score
hadoop dfs -mkdir /data/cource
上传文件
hadoop dfs -put students.txt /data/student
hadoop dfs -put score.txt /data/score
hadoop dfs -put cource.txt /data/cource
查看上传文件
4、下载文件 get
将hdfs文件下载到linux本地
hadoop dfs -get /data/student/students.txt
5、复制 cp
/data/a.txt :源文件或者目录
/ : 目标目录
hadoop dfs -cp /data/a.txt /
6、查看文件内容 cat , 如果数据量比较大,不能使用
hadoop dfs -cat /data/student/students.txt
注意:这个命令不常用,因为数据庞大显示在终端太多不方便查看
7、查看文件尾部内容tail
常用,因为从尾部查看文件内容,可以查到最新的更新信息
tail -f ; 一直等待查看
8、移动 mv, 物理层面文件没有移动,只是改变了元数据(目录结构)
hadoop dfs -mv /a.txt /a
8、删除文件或者目录 rmr
hadoop dfs -rmr /a/a.txt
并没有真正删除文件,只是将文件放到了回收站中,
/user/root/.Trash/Current ; 每一个用户都有一个回收站
文件永久删除:
1、回收站自动清理(之前配置环境设置过,1440秒定时删除文件)
<property>
<name>fs.trash.interval</name>
<value>1440</value>
</property>
2、手动删除回收站
Hadoop dfs -rmr /user/root/.Trash/Current
3、强制删除,-skipTrash 当需要删除的文件比较大的时候
hadoop dfs -rmr -skipTrash /a
9、帮助 -help
hadoop dfs -help rm 查看需要帮助的命令,命令前不需要加-
10、安全模式
当频繁进入Hadoop web界面,hdfs可能会进入安全模式,输入一些命令执行可能会报错
查看安全模式的开关状态
hadoop dfsadmin -safemode get
开启安全模式
hadoop dfsadmin -safemode enter
关闭安全模式
hadoop dfsadmin -safemode leave
11、查看文件的大小
hadoop dfs -du -h /data
12、查看最新日志
tail hadoop-root-namenode-master.log
查看日志文件尾部