hadoop yarn集群 java如何提交

原创

mob64ca12e77061 2023-08-12 19:37:20 ©著作权

文章标签 Java hadoop Hadoop 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12e77061的原创作品，请联系作者获取转载授权，否则将追究法律责任

项目方案：Hadoop YARN集群中使用Java进行任务提交

1. 项目背景

在大规模数据处理中，Hadoop是一个非常流行的分布式计算框架。其中，YARN是Hadoop的核心组件之一，用于资源调度和管理。在YARN集群中，我们可以使用Java编写任务，并通过Java代码将任务提交到集群进行并行处理。本项目旨在提供一个完整的方案，演示如何使用Java在Hadoop YARN集群中进行任务提交。

2. 方案概述

本方案涵盖以下关键步骤：

编写可执行的Java代码，用于定义和提交任务。
打包Java代码，并将其上传到Hadoop集群。
在Hadoop集群上执行Java代码。
监控和管理任务的执行状态。

3. 方案详细步骤

3.1 编写Java代码

首先，我们需要编写Java代码来定义我们要在Hadoop集群上执行的任务。以下是一个示例代码，用于计算文件中的单词数：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.util.StringTokenizer;

public class WordCount {

    public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {

        private final static IntWritable one = new IntWritable(1);
        private Text word = new Text();

        public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
            StringTokenizer itr = new StringTokenizer(value.toString());
            while (itr.hasMoreTokens()) {
                word.set(itr.nextToken());
                context.write(word, one);
            }
        }
    }

    public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
        private IntWritable result = new IntWritable();

        public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
            int sum = 0;
            for (IntWritable val : values) {
                sum += val.get();
            }
            result.set(sum);
            context.write(key, result);
        }
    }

    public static void main(String[] args) throws Exception {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "word count");
        job.setJarByClass(WordCount.class);
        job.setMapperClass(TokenizerMapper.class);
        job.setCombinerClass(IntSumReducer.class);
        job.setReducerClass(IntSumReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        FileInputFormat.addInputPath(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        System.exit(job.waitForCompletion(true) ? 0 : 1);
    }
}

3.2 打包和上传代码

使用Maven等构建工具，将Java代码打包成一个可执行的JAR文件。然后，使用Hadoop提供的命令将JAR文件上传到Hadoop集群中。

hadoop fs -put wordcount.jar /user/hadoop/

3.3 执行Java代码

使用以下命令在Hadoop集群上执行Java代码：

hadoop jar wordcount.jar WordCount /input/data.txt /output

3.4 监控和管理任务状态

Hadoop提供了丰富的命令和API，用于监控和管理任务的执行状态。以下是一些常用的命令示例：

查看任务的执行状态：

yarn application -status <application_id>

杀死正在执行的任务：

yarn application -kill <application_id>

查看任务的日志：

yarn logs -applicationId <application_id>

使用YARN REST API获取任务的状态信息：

curl http://<yarn_resource_manager>:8088/ws/v1/cluster/apps/<application_id>/state

4. 流程图

st=>start: 开始
op1=>operation: 编写Java代码
op2=>operation: 打包和上传代码
op3=>operation: 执行Java代码
op4=>operation: 监控和管理任务状态
e=>end: 完成

st->op1->op2->op3->op4

上一篇：hive sql 正则

下一篇：Android 读取文件权限

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯