【四二学堂】测试首个mapreduce任务

原创

wx622c0209dfb71 2020-04-22 20:56:21 ©著作权

文章标签 hadoop linux 大数据文本文件 mapreduce 文章分类 MySQL 数据库

©著作权归作者所有：来自51CTO博客作者wx622c0209dfb71的原创作品，请联系作者获取转载授权，否则将追究法律责任

【四二学堂】测试首个mapreduce任务_linux
测试首个mapreduce任务
本文是针对hadoop单结点部署。
一、完成任务的前提条件
在win10系统中，已安装vm15。并且在虚拟机中
安装了centos8
在centos8环境中
安装了ssh
安装了rsync
安装了openjdk1.8.0
安装了hadoop2.10.0
二、运行mapreduce任务
利用hadoop发行包中的hadoop-mapreduce-examples-2.10.0.jar,来运行任务。该程序本身的一个功能是从文本文件中按用户提供的正则表达式提取内容，把提取到的内容放到指定的目录中。下面的示例是用它来分析一个文本文件，把其中的纯数字的行提取出来。
首先在hadoop-2.10.0的根目录下创建一个input的目录，目录里新建一个文本文件，名称为1.txt,其中有两行纯数字，分别为1234，5678。如下：
abc
cd
cd
ee
fd
1234
rrr
5678
操作步骤