谈到大数据,就不得不提到爬虫来抓取数据,但是抓取数据后又怎么分析数据进行数据挖掘呢?一般小量的数据是能够自己处理的,但是大到1PB,甚至1NB的数据该怎样分析呢?这样就有了Hadoop这玩意儿。

Hadoop是一个用JAVA写的平台,是一个适合大数据的分布式存储和计算的平台。 主要是分布式文件系统,简单的说,如果你服务器要做一个群集,可能需要相同配置的电脑,要NAS, 但HADOOP不需要,在不同的服务器上安装,就可以实现群集了,再将每个机器上的计算结果合并起来 再在一台机器上计算,得到最终结果。

Hadoop爬虫需要分布式吗_大数据

举个例子:实验室大佬给了小明任务一:把用爬虫爬取的图片数量计算出来,这个文件大概100M,小明几分钟就搞定了。后来实验室大佬又给了小明任务二,还是计算出爬虫爬取的图片数量,但这个文件大概有1TB。再然后,实验室大佬让小明计算一个1PB大小的文件中的图片数量。小明:(黑人问号?我电脑都TM才1TB),然后实验室大佬给小明说了个东西,叫Hadoop。小明:嘤嘤嘤(大佬说啥就是啥),然后小明就用百度大法找到了Hadoop,用了之后再也回不来了。

Hadoop爬虫需要分布式吗_Hadoop_02


那么Hadoop有啥用呢

1、大数据存储:分布式存储

2、日志处理:擅长日志分析

3、机器学习: 比如Apache Mahout项目

4、搜索引擎:hadoop + lucene实现

5、数据挖掘:目前比较流行的广告推荐,个性化广告推荐

具体请参考博文

那么提到了Hadoop就不得不提到Cloudera(CDH),Cloudera对于Hadoop的关系就如同Ubuntu之于Linux的关系,就是一个子系统。一般用VMware安装Cloudera的虚拟机即可
安装步骤:
1 . 从官网上载VMWARE VM快速安装包

https://www.cloudera.com/downloads/quickstart_vms/5-12.html

2 . 下载后的安装包,解压之后得到*。VMX文件

3.VMware Workstation 打开虚拟机 打开*.vmx文件

4.启动虚拟机

5 . 可以直接通过虚拟机界面中的浏览器的收藏夹打开HUE检查配置。默认是所有组件全部安装

6.打开CM,如果无法连接,第一次需要运行桌面上的CM试用版图标。

7.默认用户名是cloudera/cloudera

8.如果需要增加节点,按CM正常操作。