Hadoop发展编年史

原创

zhongqi2513 2018-05-06 16:38:03 ©著作权

文章标签 Hadoop发展 Hadoop编年史 Hadoop Apache 数据 文章分类 HarmonyOS 后端开发

©著作权归作者所有：来自51CTO博客作者zhongqi2513的原创作品，请联系作者获取转载授权，否则将追究法律责任

2002年10月，Doug Cutting和Mike Cafarella创建了开源网页爬虫项目Nutch。

2003年10月，Google发表Google File System论文。

2004年7月，Doug Cutting和Mike Cafarella在Nutch中实现了类似GFS的功能，即后来HDFS的前身。

2004年10月，Google发表了MapReduce论文。

2005年2月，Mike Cafarella在Nutch中实现了MapReduce的最初版本。

2005年12月，开源搜索项目Nutch移植到新框架，使用MapReduce和NDFS(Nutch Distributed File System )来运行，在20个节点稳定运行。

2006年1月，Doug Cutting加入雅虎，Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。

2006年2月，Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。

2006年2月，Yahoo!的网格计算团队采用Hadoop。

2006年3月，Yahoo!建设了第一个Hadoop集群用于开发。

2006年4月，第一个Apache Hadoop发布。

2006年4月，在188个节点上(每个节点10GB)运行排序测试集需要47.9个小时。

2006年5月，Yahoo!建立了一个300个节点的Hadoop研究集群。

2006年5月，在500个节点上运行排序测试集需要42个小时(硬件配置比4月的更好)。

2006年11月，研究集群增加到600个节点。

2006年11月，Google发表了Bigtable论文，这最终激发了HBase的创建。

2006年12月，排序测试集在20个节点上运行1.8个小时，100个节点上运行3.3小时，500个节点上运行5.2小时，900个节点上运行7.8个小时。

2007年1月，研究集群增加到900个节点。

2007年4月，研究集群增加到两个1000个节点的集群。

2007年10月，第一个Hadoop用户组会议召开，社区贡献开始急剧上升。

2007年，百度开始使用Hadoop做离线处理。

2007年，中国移动开始在“大云”研究中使用Hadoop技术。

2008年，淘宝开始投入研究基于Hadoop的系统——云梯，并将其用于处理电子商务相关数据。

2008年1月，Hadoop成为Apache顶级项目。

2008年2月，Yahoo!运行了世界上最大的Hadoop应用，宣布其搜索引擎产品部署在一个拥有1万个内核的Hadoop集群上。

2008年4月，在900个节点上运行1TB排序测试集仅需209秒，成为世界最快。

2008年6月，Hadoop的第一个SQL框架——Hive成为了Hadoop的子项目。

2008年7月，Hadoop打破1TB数据排序基准测试记录。Yahoo!的一个Hadoop集群用209秒完成1TB数据的排序，比上一年的纪录保持者保持的297秒快了将近90秒。

2008年8月，第一个Hadoop商业化公司Cloudera成立。

2008年10月，研究集群每天装载10TB的数据。

2008年11月，Apache Pig的最初版本发布。

2009年3月，17个集群总共24000台机器。

2009 年3月，Cloudera推出世界上首个Hadoop发行版——CDH(Cloudera’s Distribution including Apache Hadoop)平台，完全由开放源码软件组成。

2009年4月，赢得每分钟排序，59秒内排序500GB(在1400个节点上)和173分钟内排序100TB数据(在3400个节点上)。

2009年5月，Yahoo的团队使用Hadoop对1 TB的数据进行排序只花了62秒时间。

2009年6月，Cloudera的工程师Tom White编写的《Hadoop权威指南》初版出版，后被誉为Hadoop圣经。

2009年7月，Hadoop Core项目更名为Hadoop Common;

2009年7月，MapReduce 和 Hadoop Distributed File System (HDFS) 成为Hadoop项目的独立子项目。

2009年7月，Avro 和 Chukwa 成为Hadoop新的子项目。

2009年8月，Hadoop创始人Doug Cutting加入Cloudera担任首席架构师。

2009年10月，首届Hadoop World大会在纽约召开。

2010年5月，Avro脱离Hadoop项目，成为Apache顶级项目。

2010年5月，HBase脱离Hadoop项目，成为Apache顶级项目。

2010年5月，IBM提供了基于Hadoop 的大数据分析软件——InfoSphere BigInsights，包括基础版和企业版。

2010年9月，Hive( Facebook) 脱离Hadoop，成为Apache顶级项目。

2010年9月，Pig脱离Hadoop，成为Apache顶级项目。

2010年-2011年，扩大的Hadoop社区忙于建立大量的新组件(Crunch，Sqoop，Flume，Oozie等)来扩展Hadoop的使用场景和可用性。

2011年1月，ZooKeeper 脱离Hadoop，成为Apache顶级项目。

2011年3月，Apache Hadoop获得Media Guardian Innovation Awards 。

2011年3月， Platform Computing 宣布在它的Symphony软件中支持Hadoop MapReduce API。

2011年5月，Mapr Technologies公司推出分布式文件系统和MapReduce引擎——MapR Distribution for Apache Hadoop。

2011年5月，HCatalog 1.0发布。该项目由Hortonworks 在2010年3月份提出，HCatalog主要用于解决数据存储、元数据的问题，主要解决HDFS的瓶颈，它提供了一个地方来存储数据的状态信息，这使得数据清理和归档工具可以很容易的进行处理。

2011年4月，SGI(Silicon Graphics International)基于SGI Rackable和CloudRack服务器产品线提供Hadoop优化的解决方案。

2011年5月，EMC为客户推出一种新的基于开源Hadoop解决方案的数据中心设备——GreenPlum HD，以助其满足客户日益增长的数据分析需求并加快利用开源数据分析软件。Greenplum是EMC在2010年7月收购的一家开源数据仓库公司。

2011年5月，在收购了Engenio之后， NetApp推出与Hadoop应用结合的产品E5400存储系统。

2011年6月，Calxeda公司发起了“开拓者行动”，一个由10家软件公司组成的团队将为基于Calxeda即将推出的ARM系统上芯片设计的服务器提供支持。并为Hadoop提供低功耗服务器技术。

2011年6月，数据集成供应商Informatica发布了其旗舰产品，产品设计初衷是处理当今事务和社会媒体所产生的海量数据，同时支持Hadoop。

2011年7月，Yahoo!和硅谷风险投资公司 Benchmark Capital创建了Hortonworks 公司，旨在让Hadoop更加可靠，并让企业用户更容易安装、管理和使用Hadoop。

2011年8月，Cloudera公布了一项有益于合作伙伴生态系统的计划——创建一个生态系统，以便硬件供应商、软件供应商以及系统集成商可以一起探索如何使用Hadoop更好的洞察数据。

2011年8月，Dell与Cloudera联合推出Hadoop解决方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100机架服务器以及Dell PowerConnect 6248以太网交换机。

2012年3月，企业必须的重要功能HDFS NameNode HA被加入Hadoop主版本。

2012年8月，另外一个重要的企业适用功能YARN成为Hadoop子项目。

2012年10月，第一个Hadoop原生MPP查询引擎Impala加入到了Hadoop生态圈。

2014年2月，Spark逐渐代替MapReduce成为Hadoop的缺省执行引擎，并成为Apache基金会顶级项目。

2015年2月，Hortonworks和Pivotal抱团提出“Open Data Platform”的倡议，受到传统企业如Microsoft、IBM等企业支持，但其它两大Hadoop厂商Cloudera和MapR拒绝参与。

2015年10月，Cloudera公布继HBase以后的第一个Hadoop原生存储替代方案——Kudu。