hadoop container 大小设置

原创

mob64ca12eea322 2024-09-18 06:41:30 ©著作权

文章标签 xml Hadoop mapreduce 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12eea322的原创作品，请联系作者获取转载授权，否则将追究法律责任

如何设置 Hadoop Container 大小

在 Hadoop 的大数据处理环境中，Container 是基础的执行单元，其大小直接影响任务的执行效率和资源的利用率。本文将详细介绍如何设置 Hadoop Container 大小，并通过流程图和序列图使整个过程更加清晰易懂。

流程概述

设置 Hadoop Container 大小的流程如下表所示：

步骤	操作	说明
1	修改 `yarn-site.xml`	配置 ResourceManager 的属性
2	修改 `mapred-site.xml`	配置 MapReduce 的属性
3	重启 Hadoop 集群	使配置生效

流程图

flowchart TD
    A[开始] --> B[修改 yarn-site.xml]
    B --> C[修改 mapred-site.xml]
    C --> D[重启 Hadoop 集群]
    D --> E[结束]

详细步骤

第一步：修改 `yarn-site.xml`

在此步骤中，我们需要修改 ResourceManager 的配置文件 yarn-site.xml，来设置 Container 的大小。

打开 yarn-site.xml 文件：
```
nano $HADOOP_CONF_DIR/yarn-site.xml
```

添加或修改以下属性：

<property>
    <name>yarn.nodemanager.resource.memory-mb</name>
    <value>2048</value> <!-- 设置每个 NodeManager 可用的内存为 2048MB -->
</property>
<property>
    <name>yarn.scheduler.maximum-allocation-mb</name>
    <value>2048</value> <!-- 设置 Scheduler 最大分配的内存为 2048MB -->
</property>
<property>
    <name>yarn.nodemanager.resource.cpu-vcores</name>
    <value>2</value> <!-- 设置每个 NodeManager 可用的 CPU 核心数为 2 -->
</property>

yarn.nodemanager.resource.memory-mb：设置每个 NodeManager 可以提供的最大内存。
yarn.scheduler.maximum-allocation-mb：设置 Scheduler 可以分配给 Container 的最大内存。
yarn.nodemanager.resource.cpu-vcores：设置每个 NodeManager 可用的 CPU 核心数。

第二步：修改 `mapred-site.xml`

在这个步骤中，我们需要修改 MapReduce 的配置文件 mapred-site.xml 来确保 Map 和 Reduce 任务使用正确的 Container 大小。

打开 mapred-site.xml 文件：
```
nano $HADOOP_CONF_DIR/mapred-site.xml
```

添加或修改以下属性：

<property>
    <name>mapreduce.map.memory.mb</name>
    <value>1024</value> <!-- 设置 Mapper 的内存为 1024MB -->
</property>
<property>
    <name>mapreduce.reduce.memory.mb</name>
    <value>1024</value> <!-- 设置 Reducer 的内存为 1024MB -->
</property>
<property>
    <name>mapreduce.map.java.opts</name>
    <value>-Xmx800m</value> <!-- 设置 Mapper JVM 的最大内存为 800MB -->
</property>
<property>
    <name>mapreduce.reduce.java.opts</name>
    <value>-Xmx800m</value> <!-- 设置 Reducer JVM 的最大内存为 800MB -->
</property>

mapreduce.map.memory.mb：设置 Mapper 占用的内存。
mapreduce.reduce.memory.mb：设置 Reducer 占用的内存。
mapreduce.map.java.opts：设置 Mapper JVM 分配的最大内存。
mapreduce.reduce.java.opts：设置 Reducer JVM 分配的最大内存。

第三步：重启 Hadoop 集群

配置完成后，需要重启 Hadoop 集群以使更改生效。可以使用以下命令：

$HADOOP_HOME/sbin/stop-all.sh   # 停止 Hadoop 集群
$HADOOP_HOME/sbin/start-all.sh  # 启动 Hadoop 集群

序列图

sequenceDiagram
    participant User
    participant Hadoop as H
    User->>H: 修改 yarn-site.xml
    H->>H: 更新 NodeManager 的内存设置
    User->>H: 修改 mapred-site.xml
    H->>H: 更新 Map 和 Reduce 的内存设置
    User->>H: 重启 Hadoop 集群
    H-->>User: 配置生效