hadoop cp 复制文件

原创

mob649e8158ed1f 2023-07-22 11:39:56 ©著作权

文章标签 hadoop Hadoop hdfs 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者mob649e8158ed1f的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hadoop中的文件复制

简介

Hadoop是一个开源的分布式计算框架，被广泛用于处理大规模数据集。在Hadoop中，文件复制是一个常见的操作，用于将数据从一个地方复制到另一个地方。Hadoop提供了一个命令行工具hadoop cp来执行文件复制操作。本文将介绍hadoop cp的使用方法，并提供相应的代码示例。

`hadoop cp`命令

hadoop cp命令用于将文件或目录从Hadoop文件系统（HDFS）中的一个位置复制到另一个位置。其基本语法如下：

hadoop fs -cp <src> <dst>

其中，<src>表示源文件或目录的路径，<dst>表示目标路径。

示例

下面是一个使用hadoop cp命令复制文件的示例：

# 复制文件
hadoop fs -cp hdfs://localhost:9000/input/file.txt hdfs://localhost:9000/output/file.txt

上述示例中，hdfs://localhost:9000/input/file.txt是源文件的路径，hdfs://localhost:9000/output/file.txt是目标路径。

如果要复制整个目录，可以使用-r选项来递归复制。下面是一个递归复制目录的示例：

# 递归复制目录
hadoop fs -cp -r hdfs://localhost:9000/input/ hdfs://localhost:9000/output/

上述示例中，-r选项表示递归复制。hdfs://localhost:9000/input/是源目录的路径，hdfs://localhost:9000/output/是目标路径。

代码示例

除了命令行方式，我们还可以使用Hadoop的Java API来实现文件复制。下面是一个使用Java API复制文件的示例代码：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;

public class HadoopFileCopy {
    public static void main(String[] args) {
        try {
            // 创建配置对象
            Configuration conf = new Configuration();
            // 创建文件系统对象
            FileSystem fs = FileSystem.get(conf);
            
            // 源文件路径
            Path srcPath = new Path("hdfs://localhost:9000/input/file.txt");
            // 目标文件路径
            Path dstPath = new Path("hdfs://localhost:9000/output/file.txt");
            
            // 复制文件
            fs.copyFromLocalFile(srcPath, dstPath);
            
            // 关闭文件系统对象
            fs.close();
            
            System.out.println("文件复制成功！");
        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

上述示例中，我们首先创建了一个Configuration对象，并通过FileSystem.get(conf)方法获取了一个FileSystem对象。然后，我们定义了源文件路径和目标文件路径，并使用fs.copyFromLocalFile(srcPath, dstPath)方法来复制文件。最后，我们关闭了FileSystem对象，并打印了复制成功的消息。