HDFS的API操作

目录

  • HDFS的API操作
  • 客户端环境准备
  • 1.下载windows支持的hadoop
  • 2.配置环境变量
  • 3 在IDEA中创建一个Maven工程
  • HDFS的API实例
  • 用客户端远程创建目录
  • HDFS用客户端上传文件copyFromLocalFile
  • 参数优先级
  • HDFS用客户端下载文件copyToLocalFile
  • HDFS用客户端删除文件delete
  • HDFS用客户端更名和移动文件rename
  • HDFS用客服端查看文件详情listFiles
  • HDFS文件和文件夹判断listStatus

之前时用Shell的一写相关操作,集群内部操作。
我们希望在Windows环境对远程的集群进行一个客户端访问,现在就在Windows环境上写代码,写HDFS客户端代码,远程连接上集群,对它们进行增删改查相关操作。

java hdfs api 支持ha模式 hdfs api操作_HDFS

客户端环境准备

1.下载windows支持的hadoop

java hdfs api 支持ha模式 hdfs api操作_HDFS_02

2.配置环境变量

java hdfs api 支持ha模式 hdfs api操作_客户端_03

java hdfs api 支持ha模式 hdfs api操作_System_04

验证Hadoo环境变量是否正常,双击winutils.exe,没有报错就成功了。

3 在IDEA中创建一个Maven工程

Maven安装与配置

1.创建一个maven工程

java hdfs api 支持ha模式 hdfs api操作_HDFS_05

2.setting设置maven

java hdfs api 支持ha模式 hdfs api操作_客户端_06

3.添加相关依赖

日志(打印日志时控制级别)、单元测试、hadoop(版本号一定要和集群中的一样)

<dependencies>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>3.1.3</version>
        </dependency>
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
        </dependency>
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
            <version>1.7.30</version>
        </dependency>
    </dependencies>

java hdfs api 支持ha模式 hdfs api操作_客户端_07

4.在项目的 src/main/resources 目录下,新建一个文件,命名为“log4j.properties”,为了打印日志,添加如下代码

log4j.rootLogger=INFO, stdout   
log4j.appender.stdout=org.apache.log4j.ConsoleAppender   
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout   
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n   
log4j.appender.logfile=org.apache.log4j.FileAppender   
log4j.appender.logfile.File=target/spring.log   
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout   
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

5.在src/main/java下创建包名:com.ranan.hdfs

6.在该类下创建HdfsClient类

创建好了客户端类,接下来写代码操作远程的服务器集群

7.客户端去操作HDFS时,默认采用windows默认用户去访问HDFS,会报权限异常错误。所以在访问 HDFS 时,一定要配置用户。

org.apache.hadoop.security.AccessControlException: Permission denied: user=NINGMEI, access=WRITE, inode="/":ranan:supergroup:drwxr-xr-x

HDFS的API实例

1.获取一个客服端对象
2.执行相关的操作命令
3.关闭资源

用客户端远程创建目录

@Test
public void testmkdir() throws IOException, URISyntaxException, InterruptedException {
   //连接集群的nn内部地址
   URI uri = new URI("hdfs://hadoop102:8020");
   //创建一个配置文件
   Configuration configuration = new Configuration();
   //用户
   String user = "ranan";
   //1.获取客户端对象 FileSystem抽象类
   FileSystem fs = FileSystem.get(uri, configuration,user);
   //2.执行相关操作  创建的文件路径
   fs.mkdirs(new Path("/xiyou/huaguoshan"));
   //3.关闭资源
   fs.close();
 }

java hdfs api 支持ha模式 hdfs api操作_客户端_08

下面会频繁的初始化、获取客服端对象以及关闭资源。所以把封装起来。

//因为是测试方法,所以使用befor,after。先执行befor在执行test最后after
public class HdfsClient {
    private FileSystem fs;
    @Before
    public void init() throws URISyntaxException, IOException, InterruptedException {
        //连接集群的nn内部地址
        URI uri = new URI("hdfs://hadoop102:8020");
        //创建一个配置文件
        Configuration configuration = new Configuration();
        //用户
        String user = "ranan";
        //1.获取客户端对象 
        fs = FileSystem.get(uri, configuration,user);
    }

    @After
    public void  close() throws IOException {
        //3.关闭资源
        fs.close();
    }
    @Test
    public void testmkdir() throws IOException {

        //2.执行相关操作
        fs.mkdirs(new Path("/xiyou/huaguoshan"));

    }
}

HDFS用客户端上传文件copyFromLocalFile

java hdfs api 支持ha模式 hdfs api操作_客户端_09

@Test
public void testPut() throws IOException {
	 //2.执行相关操作
     /*
     参数1:删除原文件
     参数2:HDFS上是否允许覆盖
     参数3:原数据路径
     参数4:目的路径
     */
        fs.copyFromLocalFile(false,false,new Path("D:\\test.txt"),new Path("/"));

    }

java hdfs api 支持ha模式 hdfs api操作_客户端_10

参数优先级

优先级由低到高

hdfs-default.xml -> hdfs-site.xml -> 在项目资源目录下的配置文件 -> 代码里的配置

测试案例1

在resources下新建一个file——hdfs-site.xml

java hdfs api 支持ha模式 hdfs api操作_System_11

在hdfs-site.xml中修改副本数为1

<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration> 
  <property> 
   <name>dfs.replication</name>
    <value>1</value> 
  </property> 
</configuration>

副本数变成1了,说明 resources 资源目录下的hdfs-site.xml 优先级更高

java hdfs api 支持ha模式 hdfs api操作_System_12

测试案例2

在客户端代码中配置副本数

configuration.set("dfs.replication","2");

java hdfs api 支持ha模式 hdfs api操作_客户端_13

副本数变成2,说明代码里的配置优先级更高。

java hdfs api 支持ha模式 hdfs api操作_HDFS_14

HDFS用客户端下载文件copyToLocalFile

编写代码

@Test
public void testGet() throws IOException {
//2.执行相关操作
 /*
参数1:是否删除HDFS上的原文件
参数2:HDFS上原文件的路径
参数3:目的路径
参数4:是否开启本地文件的校验,在传输的过程中验证文件是否完整传输
*/
fs.copyToLocalFile(false,new Path("hdfs://hadoop102/test.txt"),new Path("D:"),true);
}

执行结果

java hdfs api 支持ha模式 hdfs api操作_System_15

HDFS用客户端删除文件delete

编写代码

@Test
public void testDel() throws IOException {
//2.执行相关操作
/*
参数1:HDFS上要删除的路径
参数2:是否递归删除 非空目录需要递归删除
*/
fs.delete(new Path("/xiyou"),true);
}

HDFS用客户端更名和移动文件rename

重命名代码

@Test
public void testMv() throws IOException {
//2.执行相关操作
/*
参数1:要修改的文件路径
参数2:移动的目的地,如果和原文件一个路径则修改名称
*/
fs.rename(new Path("/test.txt"),new Path("/test1.txt"));
}

java hdfs api 支持ha模式 hdfs api操作_HDFS_16

移动代码

@Test
public void testMv() throws IOException {
//2.执行相关操作
/*
参数1:要修改的文件路径
参数2:移动的目的地,如果和原文件一个路径则修改名称
*/
fs.rename(new Path("/test1.txt"),new Path("/tmp/test.txt"));
}

java hdfs api 支持ha模式 hdfs api操作_客户端_17

HDFS用客服端查看文件详情listFiles

查看文件名称、权限、长度、块信息

代码

@Test
public void fileDetail() throws IOException {
//2.执行相关操作
/*
参数1:查看文件的路径
参数2:递归
*/
	// 获取所有文件信息,返回迭代器
	 RemoteIterator<LocatedFileStatus> listFiles = fs.listFiles(new Path("/"), true);
	// 遍历文件
	while (listFiles.hasNext()) {
  	    //每个文件相关信息
   	    LocatedFileStatus fileStatus = listFiles.next();
            //每个文件的路径
            System.out.println("==========" + fileStatus.getPath() + "=========");
            //每个文件的权限
            System.out.println(fileStatus.getPermission());
            //每个文件的所有者
            System.out.println(fileStatus.getOwner());
            //所属组
            System.out.println(fileStatus.getGroup());
            //文件大小
            System.out.println(fileStatus.getLen());
            //上次修改时间
            System.out.println(fileStatus.getModificationTime());
            //副本数
            System.out.println(fileStatus.getReplication());
            //块大小
            System.out.println(fileStatus.getBlockSize());
            //文件名称
            System.out.println(fileStatus.getPath().getName());

            // 获取块信息 [0(第一块数据从哪开始读),30(第一块数据读到哪里结束),hadoop102,hadoop103,hadoop104] 每个块的存储位置
            BlockLocation[] blockLocations = fileStatus.getBlockLocations();
            System.out.println(Arrays.toString(blockLocations));

        }
}

java hdfs api 支持ha模式 hdfs api操作_HDFS_18

HDFS文件和文件夹判断listStatus

案例

循环遍历文件夹,判断该文件夹里的内容是文件还是目录

@Test
public void testFile() throws IOException {
	//2.执行相关操作
        /*
        参数1:遍历的文件夹
         */
        //得到/下的内容
        FileStatus[] listStatus = fs.listStatus(new Path("/"));
        for (FileStatus status : listStatus) {
            //getPath().getName()获得文件/目录名
            if (status.isFile()) {
                System.out.println("文件:" + status.getPath().getName());
            } else {
                System.out.println("目录:" + status.getPath().getName());
            }

    }
    }

java hdfs api 支持ha模式 hdfs api操作_System_19