Hadoop爬虫需要分布式吗

转载

mob64ca1413c518 2024-10-01 08:19:01

谈到大数据，就不得不提到爬虫来抓取数据，但是抓取数据后又怎么分析数据进行数据挖掘呢？一般小量的数据是能够自己处理的，但是大到1PB,甚至1NB的数据该怎样分析呢？这样就有了Hadoop这玩意儿。

Hadoop是一个用JAVA写的平台，是一个适合大数据的分布式存储和计算的平台。 主要是分布式文件系统，简单的说，如果你服务器要做一个群集，可能需要相同配置的电脑，要NAS，但HADOOP不需要，在不同的服务器上安装，就可以实现群集了，再将每个机器上的计算结果合并起来再在一台机器上计算，得到最终结果。

Hadoop爬虫需要分布式吗_大数据

举个例子：实验室大佬给了小明任务一：把用爬虫爬取的图片数量计算出来，这个文件大概100M，小明几分钟就搞定了。后来实验室大佬又给了小明任务二，还是计算出爬虫爬取的图片数量，但这个文件大概有1TB。再然后，实验室大佬让小明计算一个1PB大小的文件中的图片数量。小明：（黑人问号？我电脑都TM才1TB），然后实验室大佬给小明说了个东西，叫Hadoop。小明：嘤嘤嘤（大佬说啥就是啥），然后小明就用百度大法找到了Hadoop，用了之后再也回不来了。

Hadoop爬虫需要分布式吗_Hadoop_02