Hadoop运行自带的Wordcount jar包

原创

mob64ca12e41d46 2024-10-13 06:24:40 ©著作权

文章标签 Hadoop hadoop HDFS 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者mob64ca12e41d46的原创作品，请联系作者获取转载授权，否则将追究法律责任

如何运行Hadoop自带的WordCount Jar包

Hadoop是一个开源的分布式计算框架，非常适合处理大规模数据集。在学习Hadoop时，WordCount例子是一个经典的入门项目，它展示了如何使用Hadoop MapReduce来处理文本数据。本文将详细介绍如何运行Hadoop自带的WordCount Jar包，包括每个步骤所需的代码及其说明。

整体流程

在实际运行Hadoop的WordCount示例之前，我们可以用下表概述整个流程。

步骤	描述
1	安装Hadoop
2	启动Hadoop服务
3	准备输入数据
4	运行WordCount应用
5	检查输出结果

步骤详解

步骤1：安装Hadoop

确保已经在你的机器上安装Hadoop。可以使用Apache官网提供的安装指南进行安装。安装完成后，配置好环境变量，包括HADOOP_HOME和PATH。

步骤2：启动Hadoop服务

在命令行中，使用以下命令启动Hadoop的守护进程：

$ start-dfs.sh # 启动HDFS
$ start-yarn.sh # 启动YARN

start-dfs.sh：启动分布式文件系统（HDFS）的守护进程。
start-yarn.sh：启动Yet Another Resource Negotiator（YARN）的守护进程。

步骤3：准备输入数据

你需要准备一份输入文件，比如input.txt，内容可以简单示例如下：

Hello Hadoop
Hello World

将输入文件上传到HDFS：

$ hadoop fs -mkdir /input # 创建输入目录
$ hadoop fs -put input.txt /input/ # 上传文件到HDFS

hadoop fs -mkdir /input：在HDFS中创建名为/input的目录。
hadoop fs -put input.txt /input/：将本地的input.txt文件上传到HDFS的/input目录。

步骤4：运行WordCount应用

使用以下命令来运行Hadoop自带的WordCount示例：

$ hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar wordcount /input/input.txt /output

hadoop jar：指令用于执行Jar包。
$HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-*.jar：指定了要运行的Jar包路径。
wordcount：运行的具体示例名称。
/input/input.txt：输入路径。
/output：指定了输出路径。

步骤5：检查输出结果

最后，我们需要查看WordCount的输出结果，可以使用以下命令：

$ hadoop fs -ls /output # 列出输出目录
$ hadoop fs -cat /output/part-r-00000 # 查看具体的输出文件

hadoop fs -ls /output：列出输出目录中的文件。
hadoop fs -cat /output/part-r-00000：查看生成的WordCount结果。

甘特图

接下来，我们使用Gantt图来表示整个流程的时间分配。

gantt
    title Hadoop WordCount流程
    dateFormat  YYYY-MM-DD
    section 安装Hadoop
    安装Hadoop           :done,    des1, 2023-09-01, 1d
    section 启动服务
    启动HDFS           :done,    des2, 2023-09-02, 0.5d
    启动YARN           :done,    des3, 2023-09-02, 0.5d
    section 准备输入
    准备输入数据         :done,    des4, 2023-09-02, 0.5d
    上传输入数据         :done,    des5, 2023-09-02, 0.5d
    section 运行WordCount
    运行WordCount       :done,    des6, 2023-09-03, 0.5d
    section 查看结果
    检查输出结果         :done,    des7, 2023-09-03, 0.5d

状态图

我们使用状态图来概括流程中的每个状态。以下是Hadoop WordCount的状态图。

stateDiagram
    [*] --> InstallHadoop
    InstallHadoop --> StartDFS
    StartDFS --> StartYARN
    StartYARN --> PrepareInput
    PrepareInput --> RunWordCount
    RunWordCount --> CheckOutput
    CheckOutput --> [*]