一丶首先需要介绍一下大数据:
物联网时代会产生大量的数据,比如用户的浏览数据,用户的操作行为数据, 爬虫等第三方的数据等等,这些数据量是非常大的. 为了更好地获取数据和操作数据就有了hadoop
二丶hadoop的作用
假如你有一个服务器,叫爬虫服务器 (分为两种 一种叫通用性爬虫 所有的搜索引擎都是, 一种叫聚焦型爬虫 就是针对某想事情做得爬虫)
还有阿里,京东,拼多多,唯品会,苏宁商城这几个商城 假如你们老板说要做一个电商平台没有数据,你就跟老板说"我来给你爬".
你就去这些商城去爬数据 放进你的爬虫服务器里面,你放的越多,服务器的内存是有限的,立马就会存不下
这时候你可以买几台服务器,专门存放数据,爬一个放一个,这就是集群存储的好处 但是这也是有上限的,有缺点,
假如一台服务器崩了,就会导致数据丢失, 这时候你可以将数据存放两个副本到其他机子上,解决服务器崩的问题 这叫副本机制保证安全性
在集群和爬虫服务器之间专门搞一个服务器,只去记录文件存在哪台服务器, 所以这个专门的服务器和集群就叫做hadoop的 第一层框架HDFS (hadoop distribut file system)数据库的管理和存储
但是你不能保证爬下来的数据都是有效的 ,所以最终目的就是对文件中的数据进行运算 获取我们的有效数据.并且单台计算机算力不足,能力不够 可以一台机器用来计算数据,但是这样很慢就可以多搞几台计算机 这就是hadoop的第二层框架MR: MapReduce(分布式并行计算)
如果要计算的文件超过机器的能力,那么可以将文件分成多分分别交给机器处理, 但是有的机器可能不能分配到合适自己的处理的数据 为了让每台计算机达到适用标准,就需要任务调度 这就是hadoop的第三层框架yarn(分布式任务调度框架) Yarn 负责调度分布式任务(就是告诉每个计算器做什么任务)
做完上面的数据之后你需要做成报表 反馈给你的boss
至此就是hadoop的三层框架
第一层框架 HDFS分布式文件系统 存储
第二层框架 MR分布式计算
第三层框架 Yarn分布式调度