为hadoop用户安装心得 hadoop安装林子雨

转载

mob64ca140a1f7c 2024-08-02 12:01:36

文章标签 为hadoop用户安装心得 hadoop mapreduce hdfs 结点 文章分类 Hadoop 大数据

1.将待分析的文件（不少于10000英文单词）上传到HDFS

数据集：莎士比亚《十四行诗》，数据集共有194788行数据。

数据上传到HDFS:

为hadoop用户安装心得 hadoop安装林子雨_hadoop

2.调用MapReduce对文件中各个单词出现的次数进行统计

为hadoop用户安装心得 hadoop安装林子雨_hdfs_02

为hadoop用户安装心得 hadoop安装林子雨_hadoop_03

为hadoop用户安装心得 hadoop安装林子雨_hadoop_04

3.将统计结果下载本地。

为hadoop用户安装心得 hadoop安装林子雨_结点_05

为hadoop用户安装心得 hadoop安装林子雨_mapreduce_06

4.将Hadoop的搭建（可查看林子雨论坛教程的截图，可以不进行重新安装软件）
到MapReduce文件上传、上述要求的过程、以及你的分析过程和分析结果，写成一篇博客，发布在CSDN上，字数不少于1000字

题目：莎士比亚《十四行诗》词频统计
过程：
（1）hadoop集群搭建
（1）创建虚拟机
首先在浏览器中输入网址，进入ubantu虚拟机官网，根据自身电脑配置，选择相应的虚拟机镜像，进行下载。
（2）安装虚拟机
在VMware工具中，点击新建虚拟机，出现如下图所示界面。在这里，我们选择自定义配置。在自定义配置中，用户可以对虚拟机中的网络、主机名等信息进行配置。

（3）下载JDK

在Linux系统中安装JDK分为两种方式。第一种方式是在windows平台中下载JDK安装包，通过第三方传输软件将其上传至虚拟机。第二种方式是利用wget或者yum命令，进行在线下载。使用第二种下载方式需要在linux虚拟机中预先安装该组件。本次系统设计采用的是第一种下载方式，通过Fzip传输工具将JDK安装包上传至虚拟机。JDK安装包是tar文件，所以要用tar -zxvf命令对其进行解压。解压界面如下图所示。

（4）配置java环境

Hadoop是Java编码的，首先要下载jdk1.7，然后配置系统环境变量。在终端通过java -version命令查看是否配置好jdk1.7。若输入命令后出现Java的版本信息等，证明配置成功。

为hadoop用户安装心得 hadoop安装林子雨_hdfs_07

（5）SSH免密登录

要构建Hadoop集群，就要确保集群结点间的无密码登录。要将集群结点中的所有主机名和对应的IP地址写到每台机器的//etc/hosts目录下。在确保每台机器安装好SSH server后可以在master结点使用SSH命令连通两个worker结点。连通成功后，将公钥信息authorize走keys复制到Workerl结点和Worker2结点中。这样Master再通过SSH登录两台Worker结点时就可以不需要密码了。

（6）Hadoop文件配置

修改core-site.xml的内容。主要是将属性fs.defaultFS设置为hdfs://master:9000。并为Hadoop添加临时文件存放路径hadoop.tmp.dir。

为hadoop用户安装心得 hadoop安装林子雨_hadoop_08