yarn如何提交mapreduce 任务

原创

mob64ca12db3721 2024-09-19 04:48:37 ©著作权

文章标签 apache hadoop Text 文章分类 Yarn 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12db3721的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用 Yarn 提交 MapReduce 任务的指南

在大数据处理领域，Apache Hadoop 是最受欢迎的框架之一。在 Hadoop 中，YARN（Yet Another Resource Negotiator）是用于资源管理和作业调度的核心组件。MapReduce 是 Hadoop 的核心数据处理模型。本文将探讨如何使用 Yarn 提交 MapReduce 任务，并提供一个实际问题解决的示例。

1. Yarn 和 MapReduce 简介

Yarn 是 Hadoop 的资源管理层，它负责将计算资源提供给各个计算任务。MapReduce 是一个编程模型，通常用于处理大量数据。在 MapReduce 中，数据处理分为两个阶段：Map 阶段和 Reduce 阶段。Map 阶段负责将输入数据转化为键值对，Reduce 阶段负责编排这些键值对并生成最终结果。

2. 实际问题场景

假设我们有一个日志文件，记录了用户的访问行为。我们想要根据这些日志计算出每个用户的访问次数。这可以通过 MapReduce 作业来实现。

2.1 数据示例

假设我们有如下的日志文件 user_logs.txt，内容如下：

user1
user2
user1
user3
user2
user1

我们希望通过 MapReduce 统计每个用户的访问次数。

3. 编写 MapReduce 程序

3.1 Mapper 类

首先需要编写 Mapper 类，负责读取日志文件并输出用户及其访问次数（初始值为 1）：

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class UserAccessMapper extends Mapper<Object, Text, Text, IntWritable> {

    private final static IntWritable one = new IntWritable(1);
    private Text user = new Text();

    @Override
    protected void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        user.set(value.toString());
        context.write(user, one);
    }
}

3.2 Reducer 类

接下来，编写 Reducer 类，聚合同一用户的访问次数：

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class UserAccessReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

    private IntWritable result = new IntWritable();

    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get();
        }
        result.set(sum);
        context.write(key, result);
    }
}

3.3 Driver 类

最后，编写 Driver 类来配置 MapReduce 作业：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class UserAccessCount {

    public static void main(String[] args) throws Exception {
        if (args.length != 2) {
            System.err.println("Usage: UserAccessCount <input path> <output path>");
            System.exit(-1);
        }

        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "user access count");
        job.setJarByClass(UserAccessCount.class);
        job.setMapperClass(UserAccessMapper.class);
        job.setReducerClass(UserAccessReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);

        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

4. 使用 Yarn 提交任务

假设我们已经将上述代码编译并打包为 Jar 文件 user_access_count.jar。接下来，我们将学习如何通过 Yarn 提交这个 MapReduce 任务。

4.1 提交命令

以下是使用 Yarn 提交 MapReduce 任务的命令：

yarn jar user_access_count.jar UserAccessCount /path/to/user_logs.txt /path/to/output

5. 使用作业监控和结果查看

5.1 监控作业状态

提交作业后，可以通过 Hadoop 的 Web UI 查看 job 的状态，一般为 http://<your-hadoop-cluster>:8088/cluster。在任务完成后，您可以查看输出目录 /path/to/output 中的结果。

5.2 输出结果

输出结果将会在输出目录下生成一个文件，文件中包含每一个用户的访问次数。例如：

user1 3
user2 2
user3 1

6. 关系图

以下是 Mapper 和 Reducer 之间的关系图，展示了它们如何工作以及数据的流动：

erDiagram
    Mapper {
        String user
        IntWritable one
    }
    Reducer {
        IntWritable result
        Text key
    }
    Mapper ||--o{ Reducer : "counts"

7. 总结

在本文中，我们讨论了如何使用 Yarn 提交 MapReduce 任务，包括编写 Mapper 和 Reducer 类以及提交作业的命令。通过示例，我们演示了如何从用户日志中统计每个用户的访问次数。掌握这些基本概念后，您可以进一步探索 Hadoop 中更多强大的功能和特性。

希望本文能帮助您更好地理解如何通过 Yarn 提交 MapReduce 任务以及其实际应用。

上一篇：android 自动执行发微信视频电话

下一篇：查看当前任务 Android

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯