【四二学堂】测试首个mapreduce任务_linux
测试首个mapreduce任务
本文是针对hadoop单结点部署。
一、完成任务的前提条件
在win10系统中,已安装vm15。并且在虚拟机中
安装了centos8
在centos8环境中
安装了ssh
安装了rsync
安装了openjdk1.8.0
安装了hadoop2.10.0
二、运行mapreduce任务
利用hadoop发行包中的hadoop-mapreduce-examples-2.10.0.jar,来运行任务。该程序本身的一个功能是从文本文件中按用户提供的正则表达式提取内容,把提取到的内容放到指定的目录中。下面的示例是用它来分析一个文本文件,把其中的纯数字的行提取出来。
首先在hadoop-2.10.0的根目录下创建一个input的目录,目录里新建一个文本文件,名称为1.txt,其中有两行纯数字,分别为1234,5678。如下:
abc
cd
cd
ee
fd
1234
rrr
5678
操作步骤

【四二学堂】测试首个mapreduce任务_文本文件_02


【四二学堂】测试首个mapreduce任务_文本文件_03


【四二学堂】测试首个mapreduce任务_hadoop_04


【四二学堂】测试首个mapreduce任务_mapreduce_05


:wq退出

在hadoop-2.10.0的目录下,执行命令。

KaTeX parse error: Undefined control sequence: \d at position 41: …input output ‘^\̲d̲+’

【四二学堂】测试首个mapreduce任务_hadoop_06


其中,input为输入目录,output为输出目录,输入的正则表达式的作用是匹配数字。

程序不报错的话,会看到下面的内容。说明执行成功。

【四二学堂】测试首个mapreduce任务_文本文件_07


连接output目录下的文件,显示出结果。

【四二学堂】测试首个mapreduce任务_大数据_08