1.将待分析的文件(不少于10000英文单词)上传到HDFS
数据集:莎士比亚《十四行诗》,数据集共有194788行数据。
数据上传到HDFS:
2.调用MapReduce对文件中各个单词出现的次数进行统计
3.将统计结果下载本地。
4.将Hadoop的搭建(可查看林子雨论坛教程的截图,可以不进行重新安装软件)
到MapReduce文件上传、上述要求的过程、以及你的分析过程和分析结果,写成一篇博客,发布在CSDN上,字数不少于1000字
题目:莎士比亚《十四行诗》词频统计
过程:
(1)hadoop集群搭建
(1)创建虚拟机
首先在浏览器中输入网址,进入ubantu虚拟机官网,根据自身电脑配置,选择相应的虚拟机镜像,进行下载。
(2)安装虚拟机
在VMware工具中,点击新建虚拟机,出现如下图所示界面。在这里,我们选择自定义配置。在自定义配置中,用户可以对虚拟机中的网络、主机名等信息进行配置。
(3)下载JDK
在Linux系统中安装JDK分为两种方式。第一种方式是在windows平台中下载JDK安装包,通过第三方传输软件将其上传至虚拟机。第二种方式是利用wget或者yum命令,进行在线下载。使用第二种下载方式需要在linux虚拟机中预先安装该组件。本次系统设计采用的是第一种下载方式,通过Fzip传输工具将JDK安装包上传至虚拟机。JDK安装包是tar文件,所以要用tar -zxvf命令对其进行解压。解压界面如下图所示。
(4)配置java环境
Hadoop是Java编码的,首先要下载jdk1.7,然后配置系统环境变量。在终端通过java -version命令查看是否配置好jdk1.7。若输入命令后出现Java的版本信息等,证明配置成功。
(5)SSH免密登录
要构建Hadoop集群,就要确保集群结点间的无密码登录。要将集群结点中的所有主机名和对应的IP地址写到每台机器的//etc/hosts目录下。在确保每台机器安装好SSH server后可以在master结点使用SSH命令连通两个worker结点。连通成功后,将公钥信息authorize走keys复制到Workerl结点和Worker2结点中。这样Master再通过SSH登录两台Worker结点时就可以不需要密码了。
(6)Hadoop文件配置
修改core-site.xml的内容。主要是将属性fs.defaultFS设置为hdfs://master:9000。并为Hadoop添加临时文件存放路径hadoop.tmp.dir。
对hdfs-site.xml内容进行修改,将其中的dfs.replication属性设置为2,并为Hadoop集群设置dfs.namenode.name.dir的路径和dfs.datanode.data.dir的路径。
修改mapred-env.sh文件,导入jdk的安装目录。
最后修改yarn-site.xml文件,将yarn.resourcemanager.hostname属性设置为Master结点的主机名mastere更改slave文件的内容,需要将Hadoop集群中的结点名称包含在里面。
(8)启动集群。
在主节点hadoop安装目录下,执行命令:start-all.sh,启动hadoop集群。第一次启动需要对namenode将进行初始化操作。
(9)将数据集文件上传到hdfs:hadoop dfs -put data.txt /
(10)执行jar包:hadoop jar /home/hadoop/wordcount.jar com.mr.part1.WordCount
(10)查看结果:hadoop dfs -cat /output/part-r-00000
![在这里插入图片描述]()