西电分布式实验

Windows上基于Docker的Hadoop实验环境部署(单节点)

本篇是关于西电李龙海老师的分布式计算课程的实验环境部署的基本步骤和可能出现的问题。

一、Windows上安装Docker引擎

在下载之前需要在c盘留出至少10G的内存

1、在官网下载Docker,运行“Docker Desktop Installer.exe”,按照提示安装。
2、若出现提示安装“WSL2 Linux 内核更新包”,根据步骤4-下载Linux内核更新包。
3、安装成功后,双击Docker Desktop运行docker引擎。
4、如果出现docker desktop stopped或者docker desktop staring,说明docker下载错误,可以通过更换docker版本进行解决。
5、安装成功后,在docker desktop的settings界面的 “docker engine”栏目中修改配置文件,增加国内的docker镜像仓库地址。

{
  "builder": {
    "gc": {
      "defaultKeepStorage": "20GB",
      "enabled": true
    }
  },
  "experimental": false,
  "features": {
    "buildkit": true
  },
  "registry-mirrors": [
    "https://hub-mirror.c.163.com",
    "https://mirror.baidubce.com"
  ]
}

在cmd中输入

docler run hello-world

如果可以看到自动拉取镜像的过程并看到提示“Hello from Docker!”则安装成功。

二、部署Hadoop和Spark实验环境

2.1导入包含实验环境的Docker镜像

1、将压缩包hadoopsparkv2.tar和hadoopspark.zip放在A目录下(建议放在D盘),将当前工作目录切换到该目录下。
2、输入以下命令将压缩包hadoopsparkv2.tar中的Dockers镜像导入本机的docker引擎中。

docker load --input hadoopsparkv2.tar

做此步骤之前需要保证C盘有5G以上的内存,否则会出现“read-only system”的错误,如果出现了磁盘内存不够的问题,删除C盘中的docker,并清理磁盘,重新下载docker并部署。
3、将hadoopspark.zip中的内容解压到A/hadoopspark目录下。

2.2启动和关闭实验环境

1、启动实验环境:切换目录到A/hadoopspark,运行

docker-compose up -d
docker ps

2、输入以下命令通过ssh协议从本机(宿主机)远程登录到hadoopspark_singlenode虚拟机内部:

ssh -p 2222 root@localhost

输入登录密码123456

三、关于HDFS实验

输入以下命令,启动HDFS分布式文件系统

start-dfs.sh

四、关于MapReduce实验

1、输入以下命令,切换目录

cd share
cd mapreduce-demo

2、输入以下的命令

#像HDFS上传input_file.txt文件
hadoop fs -mkdir input
hadoop fs -put ./input_file.txt input
hadoop fs -cat input/input_file.txt

#运行WordCount这个MapReduce程序
hadoop jar ./target/WordCountDemo.jar com.org.xidian.MapReduceWordCountDemo input/input_file.txt output

#查看运行结果
hadoop fs -ls output
hadoop fs -cat output/part-r-00000
hadoop fs -rm -r output

3、查看输出结果

以上内容来自李龙海老师的实验资料和本人实验过程中出现的问题,欢迎大家批评指正。