hadoop如何执行java代码

原创

mob64ca12f6e9a0 2023-09-14 12:19:54 ©著作权

文章标签 Hadoop hadoop jar 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12f6e9a0的原创作品，请联系作者获取转载授权，否则将追究法律责任

Hadoop如何执行Java代码

Hadoop是一个开源的分布式计算框架，用于处理大规模数据集。它使用Java作为其主要编程语言，并提供了一个分布式文件系统（HDFS）和一个分布式计算框架（MapReduce）。

在Hadoop中执行Java代码需要以下几个步骤：

编写MapReduce程序：MapReduce是Hadoop的核心编程模型，用于将大规模数据集分成小块，并在集群中并行处理。编写MapReduce程序需要定义map和reduce函数，并定义输入和输出的数据格式。

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.util.*;

public class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String line = value.toString();
        StringTokenizer tokenizer = new StringTokenizer(line);
        while (tokenizer.hasMoreTokens()) {
            word.set(tokenizer.nextToken());
            context.write(word, one);
        }
    }
}

public class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get();
        }
        result.set(sum);
        context.write(key, result);
    }
}

打包和上传程序：将编写的Java代码打包成一个JAR文件，并上传到Hadoop分布式文件系统（HDFS）中。

# 打包命令
$ javac -classpath `hadoop classpath` -d output/ MyMapper.java MyReducer.java
$ jar -cvf wordcount.jar -C output/ .

# 上传命令
$ hdfs dfs -mkdir /input
$ hdfs dfs -put input.txt /input
$ hdfs dfs -mkdir /output
$ hdfs dfs -put wordcount.jar /output

运行程序：使用Hadoop的命令行工具来提交MapReduce作业，并指定输入和输出的路径。

# 运行命令
$ hadoop jar /output/wordcount.jar MyMapper /input/input.txt /output

监视作业：可以使用Hadoop的Web界面或命令行工具来监视作业的执行情况。

# 查看作业状态
$ yarn application -status <application_id>

# 查看作业日志
$ yarn logs -applicationId <application_id>

获取输出结果：作业执行完成后，可以从HDFS中获取输出文件。

# 下载输出文件
$ hdfs dfs -get /output/part-r-00000 output.txt

以上就是Hadoop执行Java代码的基本流程。下面是一个使用mermaid语法绘制的流程图：

flowchart TD
    A[编写MapReduce程序] --> B[打包和上传程序]
    B --> C[运行程序]
    C --> D[监视作业]
    D --> E[获取输出结果]

同时，下面是一个使用mermaid语法绘制的旅程图：

journey
    section 编写程序
        A[编写MapReduce程序]
    section 运行程序
        B[打包和上传程序]
        C[运行程序]
    section 监视作业
        D[监视作业]
    section 获取结果
        E[获取输出结果]