yarn 调度实践

原创

mob64ca12d36217 2023-10-16 08:48:59 ©著作权

文章标签 apache hadoop 应用程序 文章分类 Yarn 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12d36217的原创作品，请联系作者获取转载授权，否则将追究法律责任

Yarn 调度实践

介绍

Yarn 是 Apache Hadoop 中的一个重要组件，用于实现大规模分布式计算的资源管理和作业调度。在本文中，我们将详细介绍 Yarn 的调度实践，并提供一些代码示例来说明如何使用 Yarn 调度作业。

Yarn 调度原理

Yarn 的调度原理是基于资源管理和作业调度两个关键组件实现的。资源管理组件负责管理集群中的计算资源，作为一个资源调度器，它负责接收来自各个应用程序的资源请求，并根据当前集群资源的可用性进行分配。作业调度组件负责将作业请求分解为任务，并将这些任务分配给可用的计算资源。

Yarn 的调度实践主要包括以下几个方面：

创建 Yarn 应用程序
定义作业和任务
提交作业请求
监控和管理作业

创建 Yarn 应用程序

首先，我们需要创建一个 Yarn 应用程序来使用 Yarn 的调度功能。在创建 Yarn 应用程序之前，我们需要确保已经安装了 Yarn，可以通过以下命令来检查：

yarn --version

如果输出了 Yarn 的版本号，表示 Yarn 已经安装成功。

接下来，我们可以使用以下代码示例来创建一个简单的 Yarn 应用程序：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.yarn.api.ApplicationConstants;
import org.apache.hadoop.yarn.api.records.ApplicationId;
import org.apache.hadoop.yarn.api.records.Resource;
import org.apache.hadoop.yarn.client.api.YarnClient;
import org.apache.hadoop.yarn.client.api.YarnClientApplication;
import org.apache.hadoop.yarn.conf.YarnConfiguration;
import org.apache.hadoop.yarn.util.Records;

public class YarnApp {

  public static void main(String[] args) throws Exception {
    Configuration conf = new YarnConfiguration();
    YarnClient yarnClient = YarnClient.createYarnClient();
    yarnClient.init(conf);
    yarnClient.start();

    YarnClientApplication app = yarnClient.createApplication();
    ApplicationId appId = app.getNewApplicationResponse().getApplicationId();

    // 设置应用的资源需求
    Resource resource = Records.newRecord(Resource.class);
    resource.setMemory(1024);
    resource.setVirtualCores(1);

    // 提交应用程序
    yarnClient.submitApplication(appId,
        appContext.getApplicationSubmissionContext());

    // 输出应用程序 ID
    System.out.println("Application ID: " + appId);
  }
}

在上面的代码示例中，我们首先创建了一个 YarnClient 实例，并初始化它。然后，我们使用 YarnClient 创建一个 YarnClientApplication 实例，并获取应用程序的 ApplicationId。接下来，我们设置了应用程序的资源需求，并通过 YarnClient 提交应用程序。

定义作业和任务

在 Yarn 中，作业是由一个或多个任务组成的，每个任务都是一个可执行的程序或脚本。任务的定义通常包括任务的类型、资源需求和任务的启动命令。

以下是一个简单的任务定义的代码示例：

<configuration>
  <property>
    <name>mapred.jobtracker.address</name>
    <value>localhost:54311</value>
  </property>
  <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
  </property>
</configuration>

在上面的代码示例中，我们使用 XML 格式定义了一个任务的配置文件，其中包含了作业跟踪器的地址和 MapReduce 框架的名称。

提交作业请求

在 Yarn 中，我们可以使用以下代码示例来提交作业请求：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class WordCount {

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf, "Word Count");
    job.setJarByClass(WordCount.class);
    job.setMapperClass(WordCountMapper.class);
    job.setReducerClass(WordCountReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.addInputPath(job, new Path(args[0]));