基于Hadoop的网络爬虫技术爬虫和hadoop有什么关系

转载

数据挖掘者 2023-12-21 12:03:02

物联网时代会产生大量的数据,比如用户的浏览数据,用户的操作行为数据, 爬虫等第三方的数据等等,这些数据量是非常大的. 为了更好地获取数据和操作数据就有了hadoop

假如你有一个服务器,叫爬虫服务器 (分为两种一种叫通用性爬虫所有的搜索引擎都是, 一种叫聚焦型爬虫就是针对某想事情做得爬虫)

还有阿里,京东,拼多多,唯品会,苏宁商城这几个商城假如你们老板说要做一个电商平台没有数据,你就跟老板说"我来给你爬".

你就去这些商城去爬数据放进你的爬虫服务器里面,你放的越多,服务器的内存是有限的,立马就会存不下

这时候你可以买几台服务器,专门存放数据,爬一个放一个,这就是集群存储的好处但是这也是有上限的,有缺点,

假如一台服务器崩了,就会导致数据丢失, 这时候你可以将数据存放两个副本到其他机子上,解决服务器崩的问题这叫副本机制保证安全性

在集群和爬虫服务器之间专门搞一个服务器,只去记录文件存在哪台服务器, 所以这个专门的服务器和集群就叫做hadoop的第一层框架HDFS (hadoop distribut file system)数据库的管理和存储

但是你不能保证爬下来的数据都是有效的 ,所以最终目的就是对文件中的数据进行运算获取我们的有效数据.并且单台计算机算力不足,能力不够可以一台机器用来计算数据,但是这样很慢就可以多搞几台计算机这就是hadoop的第二层框架MR: MapReduce(分布式并行计算)

如果要计算的文件超过机器的能力,那么可以将文件分成多分分别交给机器处理, 但是有的机器可能不能分配到合适自己的处理的数据为了让每台计算机达到适用标准,就需要任务调度这就是hadoop的第三层框架yarn(分布式任务调度框架) Yarn 负责调度分布式任务(就是告诉每个计算器做什么任务)

做完上面的数据之后你需要做成报表反馈给你的boss

至此就是hadoop的三层框架

第一层框架 HDFS分布式文件系统存储

第二层框架 MR分布式计算

第三层框架 Yarn分布式调度

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

基于Hadoop的网络爬虫技术 爬虫和hadoop有什么关系