hadoop 大数据采集 hadoop大数据实战

转载

mob64ca1402d47a 2023-10-03 11:40:22

文章标签 hadoop 大数据采集 hadoop HDFS 创建目录 文章分类 Hadoop 大数据

文章目录

一、实验目的
二、实验平台
三、实验内容和要求

（1）向 HDFS 中上传任意文本文件，如果指定的文件在 HDFS 中已经存在，由用户指定是追加到原有文件末尾还是覆盖原有的文件
（2）从 HDFS 中下载指定文件，如果本地文件与要下载的文件名称相同，则自动对下载的文件重命名
（3）将 HDFS 中指定文件的内容输出到终端中
（4）显示 HDFS 中指定的文件的读写权限、大小、创建时间、路径等信息
（5）给定 HDFS 中某一个目录，输出该目录下的所有文件的读写权限、大小、创建时间、路径等信息，如果该文件是目录，则递归输出该目录下所有文件相关信息
（6）提供一个 HDFS 内的文件的路径，对该文件进行创建和删除操作。如果文件所在目录不存在，则自动创建目录
（7）提供一个 HDFS 的目录的路径，对该目录进行创建和删除操作。创建目录时，如果目录文件所在目录不存在则自动创建相应目录；删除目录时，由用户指定当该目录不为空时是否还删除该目录；
（8）向 HDFS 中指定的文件追加内容，由用户指定内容追加到原有文件的开头或结尾；
（9）删除 HDFS 中指定的文件；
（10）删除 HDFS 中指定的目录，由用户指定目录中如果存在文件时是否删除目录；
（11）在 HDFS 中，将文件从源路径移动到目的路径。
编程实现一个类“MyFSDataInputStream”，该类继承“org.apache.hadoop.fs.FSDataInput Stream”，要求如下：实现按行读取 HDFS 中指定文件的方法“readLine()”，如果读到文件末尾，则返回空，否则返回文件一行的文本。

一、实验目的

理解 HDFS 在 Hadoop 体系结构中的角色；
熟练使用 HDFS 操作常用的 Shell 命令；
熟悉 HDFS 操作常用的 Java API。

二、实验平台

操作系统：Ubuntu 16.04
Hadoop 版本：3.1.3
JDK 版本：1.8
Java IDE：IDEA2020

三、实验内容和要求

（1）向 HDFS 中上传任意文本文件，如果指定的文件在 HDFS 中已经存在，由用户指定是追加到原有文件末尾还是覆盖原有的文件

开启hadoop服务：

hadoop 大数据采集 hadoop大数据实战_HDFS

创建两个文档用于实验

hadoop 大数据采集 hadoop大数据实战_创建目录_02

出现"hadoop：未找到命令"错误，解决方案有以下两种

hadoop 大数据采集 hadoop大数据实战_hadoop 大数据采集_03

1.在执行hadoop命令前加上“./sbin”，例如上图可以改为”./sbin/hadoop fs -cat local.txt“
2.shell命令修改环境变量 : export PATH=$PATH:/usr/local/hadoop/bin ,路径为hadoop安装路径。

上传cloud.txt文档

hadoop 大数据采集 hadoop大数据实战_hadoop_04

将local.txt内容追加到cloud.txt末尾

hadoop 大数据采集 hadoop大数据实战_hadoop 大数据采集_05

将local.txt内容覆盖到cloud.txt

hadoop fs -copyFromLocal local.txt cloud.txt

（2）从 HDFS 中下载指定文件，如果本地文件与要下载的文件名称相同，则自动对下载的文件重命名

if $(hadoop fs -test -e /usr/local/hadoop/cloud/txt);
then $(hadoop fs -copyToLocal cloud.txt ./cloud.txt);
else $(hadoop fs -copyToLocal cloud.txt ./cloud2.txt);
fi

hadoop 大数据采集 hadoop大数据实战_hadoop 大数据采集_06

（3）将 HDFS 中指定文件的内容输出到终端中

hadoop fs -cat cloud.txt

hadoop 大数据采集 hadoop大数据实战_HDFS_07

（4）显示 HDFS 中指定的文件的读写权限、大小、创建时间、路径等信息

hadoop fs -ls -h cloud.txt

hadoop 大数据采集 hadoop大数据实战_hadoop 大数据采集_08

（5）给定 HDFS 中某一个目录，输出该目录下的所有文件的读写权限、大小、创建时间、路径等信息，如果该文件是目录，则递归输出该目录下所有文件相关信息

hadoop fs -lsr -h /

hadoop 大数据采集 hadoop大数据实战_HDFS_09

（6）提供一个 HDFS 内的文件的路径，对该文件进行创建和删除操作。如果文件所在目录不存在，则自动创建目录

hadoop fs -touch /test/test.txt //所在目录不存在时，创建新的空白文件
hadoop fs -rm -R /test/test.txt //删除文件

（7）提供一个 HDFS 的目录的路径，对该目录进行创建和删除操作。创建目录时，如果目录文件所在目录不存在则自动创建相应目录；删除目录时，由用户指定当该目录不为空时是否还删除该目录；

hadoop 大数据采集 hadoop大数据实战_hadoop 大数据采集_10

hadoop fs -mkdir -p file1/file2
hadoop fs -touchz file1/file2/test.txt
hadoop fs -rm -r file1/file2

（8）向 HDFS 中指定的文件追加内容，由用户指定内容追加到原有文件的开头或结尾；

hadoop 大数据采集 hadoop大数据实战_HDFS_11

hadoop fs -appendTofile local.txt cloud.txt //将本地local.txt的内容添加到cloud.txt的末尾

（9）删除 HDFS 中指定的文件；

hadoop 大数据采集 hadoop大数据实战_HDFS_12

hadoop fs -rm ./cloud.txt //注意是删除HDFS中文件，本地的local.txt文件无法删除，会出现如图找不到此文件错误

（10）删除 HDFS 中指定的目录，由用户指定目录中如果存在文件时是否删除目录；

hadoop fs -rmr file1/file2

（11）在 HDFS 中，将文件从源路径移动到目的路径。

hadoop fs -mv /usr/local/hadoop/from.txt /usr/local/hadoop/to.txt

编程实现一个类“MyFSDataInputStream”，该类继承“org.apache.hadoop.fs.FSDataInput Stream”，要求如下：实现按行读取 HDFS 中指定文件的方法“readLine()”，如果读到文件末尾，则返回空，否则返回文件一行的文本。

public class read {
    public void read() throws Exception{
        FSDataInputStream f = fileSystem.open(new path("/usr/local/hadoop/test.txt"));
        BufferedReader re = new BufferedReader(new InputStreamReader(f,"UTF-8"));
        System.out.println(re.readLine());
        re.close();
    }
}

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：android 1s种后执行安卓执行elf

下一篇：mysql接口超长无法返回 mysql超过了连接数会怎么样

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯