一、新课讲解

由于Hadoop是使用Java语言编写的,因此可以使用Java API操作Hadoop文件系统。HDFS Shell本质上就是对Java API的应用,通过编程的形式操作HDFS,其核心是使用HDFS提供的Java API构造一个访问客户端对象,然后通过客户端对象对HDFS上的文件进行操作(增、删、改、查)。
 

(一)了解 HDFS API

1.HDFS常见类与接口

Hadoop整合了众多文件系统,HDFS只是这个文件系统的一个实例

类或接口

功能描述

org.apache.hadoop.fs.FileSystem

一个通用文件系统的抽象基类,可被分布式文件系统继承。

org.apache.hadoop.fs.FileStatus

文件状态接口,用于向客户端展示系统中文件和目录的元数据。具体包括文件大小、块大小、副本信息、所有者、修改时间等,可通过FileSystem.listStatus()方法获得具体的实例对象。

org.apache.hadoop.fs.FileDataInputStream

文件输入流,用于读取Hadoop文件。

org.apache.hadoop.fs.FileDataOutputStream

文件输出流,用于写Hadoop文件。

org.apache.hadoop.fs.Configuration

访问配置项,所有配置项的值,如果在core-site.xml中有对应的配置,则以core-site.xml为准。

org.apache.hadoop.fs.Path

路径,用于表示Hadoop文件系统中的一个文件或一个目录的路径。

org.apache.hadoop.fs.PathFilter

路径过滤器接口,通过实现方法PathFilter.accept(Path path)来判断是否接收路径path表示的文件或目录。

2.File System的常用方法

                        File Syste对象的一些方法可以对文件进行操作

方法名 

   功能描述

copyFromLocalFile(Path src, Path dst) 

   从本地磁盘复制文件到HDFS

copyToLocalFile(Path src, Path dst)  

 从HDFS复制文件到本地磁盘

mkdirs(Path f) 

   建立子目录

rename(Path src, Path dst) 

 重命名文件或文件夹

delete(Path f) 

   删除指定文件

 

(二)编写Java程序访问HDFS

1、创建Maven项目

  • 创建Maven项目 - HDFSDemo

hadoop工具类hdfs hadoop hdfs api_大数据

2、添加相关dependence

hadoop工具类hdfs hadoop hdfs api_大数据_02

<dependencies>                                    
    <dependency>                                  
        <groupId>org.apache.hadoop</groupId>      
        <artifactId>hadoop-client</artifactId>    
        <version>3.3.4</version>                  
    </dependency>                                 
    <dependency>                                  
        <groupId>junit</groupId>                  
        <artifactId>junit</artifactId>            
        <version>4.13.2</version>                 
    </dependency>                                 
</dependencies>

 进入官网/https://mvnrepository.com/

搜索Hadoop,选择3.3.4版本,复制红色边框内dependence

hadoop工具类hdfs hadoop hdfs api_hadoop工具类hdfs_03

 

hadoop工具类hdfs hadoop hdfs api_学习_04

 3、创建日志属性文件

resources目录里创建log4j.properties文件

hadoop工具类hdfs hadoop hdfs api_java_05

 log4j.rootLogger=stdout, logfile
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=target/hdfs.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%


 4、启动集群HDFS服务

执行启动服务命令:start-dfs.sh

hadoop工具类hdfs hadoop hdfs api_学习_06

 5、在HDFS上创建文件

创建net.hw.hdfs包,在包里创建CreateFileOnHDFS

hadoop工具类hdfs hadoop hdfs api_学习_07

 在HDFS上有/ied01目录,在该目录里创建hadoop.txt文件

package net.zhj.hdfs;
import org.apache.hadoop.conf.Configuration;
 import org.apache.hadoop.fs.FileSystem;
 import org.apache.hadoop.fs.Path;import java.net.URI;
/**
  * 功能:在HDFS上创建文件 */
 public class CreateFileOnHDFS {
     public static void main(String[] args) throws Exception {
         // 创建配置对象
         Configuration conf = new Configuration();
         // 定义uri字符串
         String uri = "hdfs://master:9000";
         // 创建文件系统对象
         FileSystem fs = FileSystem.get(new URI(uri), conf);
         // 创建路径对象
         Path path = new Path(uri + "/ied01/hadoop.txt");
         // 创建文件
         boolean result = fs.createNewFile(path);
         // 判断是否创建成功
         if (result) {
             System.out.println("文件[" + path + "]创建成功!");
         } else {
             System.out.println("文件[" + path + "]创建失败!");
         }
     }
 }