大家好,我是曜耀。接下来为大家讲解hadoop的来源和简介
Hadoop最早起源于lucene下的Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
2003年、2004年谷歌发表的三篇论文为该问题提供了可行的解决方案。
——分布式文件系统(GFS),可用于处理海量网页的存储
——分布式计算框架MAPREDUCE,可用于处理海量网页的索引计算问题。
——分布式的结构化数据存储系统Bigtable,用来处理海量结构化数据。
Doug Cutting基于这三篇论文完成了相应的开源实现HDFS和MAPREDUCE,并从Nutch中剥离成为独立项目HADOOP,到2008年1月,HADOOP成为Apache顶级项目(同年,cloudera公司成立),迎来了它的快速发展期。
为什么叫Hadoop? Logo为什么是黄色的大象?
狭义上来说,Hadoop就是单独指代Hadoop这个软件(HDFS+MAPREDUCE)
广义上来说,Hadoop指代大数据的一个生态圈。
以上就是我找到的资料。
不过对于一个专门学习hadoop的我来说,hadoop是有一个非常好用的框架,当你需要对一些打的数据进行处理时,我个人认为就需要hadoop的功能了。hadoop与我来讲数据处理常用的,并且对于初学者来说也是容易理解,容易上手的。这不需要过高的学术知识和良好的代码基础。
总的来说hadoop是对海量数据进行处理,其中一大特色就是“分而治之”的朴素思想为大数据处理提供了新的方案,比如我经常用的分布式文件系统HDFS、分布式计算框架MapReduce、nosql数据库HBASE、数据仓库hive等等。
hadoop打破了传统的数据处理技术的瓶颈,列如样本容量、样本种类,是的大数据真正成为了生产力。hadoop在目前看来应用于各行各业,行业巨头也推出自己的基于hadoop的解决的方案。
对于hadoop来说,hadoop目前代表了Common、HDFS、YARN和MAPReduce模块。
Common是hadoop体系最底层的一个模板,为hadoop各个子项目提供了各个工具,就像Configuration、远程过程调用RPC、序列化机制和日志操作等,是其他模块的基础。
HDFS是hadoop的基石。HDFS是一个高度容错性的文件系统,对硬件方面要求不高。HDFS拥有提高吞吐量的数据访问,适合大规模数据集上的应用。
YARN一种资源管理协调器,是统一的资源管理和调度平台,它提拱了资源隔离和双调度器的实现。
MapReduce一种编程模型,利用函数式的思想,对数据集处理的过程为map和reduce的两个阶段。MapReduce很适合分布式计算。并且MapReduce适用于java、c++、python、PHP等多种语言。
好了,我是曜耀,下次再见。