hadoop完全分布式集群搭建全过程

原创

旋风小霸王 2024-05-16 12:04:31 ©著作权

©著作权归作者所有：来自51CTO博客作者旋风小霸王的原创作品，请联系作者获取转载授权，否则将追究法律责任

# Hadoop完全分布式集群搭建全过程

欢迎来到Hadoop世界！本文将带你一步步搭建Hadoop完全分布式集群。在开始之前，请确保你已经安装好了Java和Hadoop，并配置好了相关环境变量。

## 搭建步骤概览

下表展示了搭建Hadoop完全分布式集群的整个流程：

| 步骤 | 描述 |
|------|------|
| 1. | 配置SSH免密登录 |
| 2. | 配置Hadoop集群配置文件 |
| 3. | 格式化HDFS |
| 4. | 启动Hadoop集群 |

## 搭建步骤详解

### 步骤1：配置SSH免密登录

在Master节点和Slave节点上执行以下操作，配置相互之间的SSH免密登录：

```bash
# 生成SSH密钥，一路回车
ssh-keygen -t rsa

# 将公钥拷贝到所有节点上
ssh-copy-id -i ~/.ssh/id_rsa.pub user@hostname
```

### 步骤2：配置Hadoop集群配置文件

在Master节点上编辑Hadoop的配置文件`hadoop-env.sh`、`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-site.xml`，设置相关的环境变量和参数。同时在Slave节点上也需要编辑`core-site.xml`和`hdfs-site.xml`配置文件。

```xml

fs.defaultFS
hdfs://master:8020

dfs.replication
3

```

### 步骤3：格式化HDFS

在Master节点上执行以下命令，格式化HDFS文件系统：

```bash
hdfs namenode -format
```

### 步骤4：启动Hadoop集群

在Master节点上执行以下命令启动Hadoop集群：

```bash
start-dfs.sh # 启动HDFS
start-yarn.sh # 启动YARN
```

此时，你的Hadoop完全分布式集群已经搭建完成！可以通过Web界面查看集群状态：`http://master:50070`（HDFS）和`http://master:8088`（YARN）。

## 结语

通过以上步骤，你已经成功地搭建了Hadoop完全分布式集群，可以开始在集群上运行MapReduce程序处理大规模数据了。希望本文对你有所帮助，祝你在Hadoop的世界中探索前行！