最近在网上看技术文章的时候不经意间看到了Hadoop,通过这篇文章介绍一下Hadoop
- Hadoop主要由HDFS、MapReduce和Hbase组成。 它是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下开发分布式程序。
简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。
Hadoop介绍 | Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。 Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高传输率(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求(requirements)这样可以流的形式访问(streaming access)文件系统中的数据。 下面列举hadoop主要的一些特点: 1 扩容能力(Scalable):能可靠地(reliably)存储和处理千兆字节(PB)数据。2 成本低(Economical):可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。3 高效率(Efficient):通过分发数据,hadoop可以在数据所在的节点上并行地(parallel)处理它们,这使得处理非常的快速。4 可靠性(Reliable):hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署(redeploy)计算任务。 |
Hadoop主要子项目 | * Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的子项目,其余内容为Hadoop Common * HDFS: Hadoop 分佈式文件系統 (Distributed File System) - HDFS (Hadoop Distributed File System) * MapReduce:并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API * HBase: 类似Google BigTable的分布式NoSQL列数据库。(HBase 和 Avro 已经于2010年5月成为顶级 Apache 项目[1]) * Hive:数据仓库工具,由Facebook贡献。 * Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。 * Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。 |
Hadoop发展历史 | Hadoop这个名字不是一个缩写,它是一个虚构的名字。该项目的创建者,Doug Cutting如此解释Hadoop的得名:"这个名字是我孩子给一头吃饱了的棕黄色大象命名的。我的命名标准就是简短,容易发音和拼写,没有太多的意义,并且不会被用于别处。小孩子是这方面的高手。Googol就是由小孩命名的。" |
Hadoop大事记 | 2004年-- 最初的版本(现在称为HDFS和MapReduce)由Doug Cutting和Mike Cafarella开始实施。 2005年12月-- Nutch移植到新的框架,Hadoop在20个节点上稳定运行。 2006年1月-- Doug Cutting加入雅虎。 2006年2月-- Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。 2006年2月-- 雅虎的网格计算团队采用Hadoop。 2006年4月-- 标准排序(10 GB每个节点)在188个节点上运行47.9个小时。 2006年5月-- 雅虎建立了一个300个节点的Hadoop研究集群。 2006年5月-- 标准排序在500个节点上运行42个小时(硬件配置比4月的更好)。 06年11月-- 研究集群增加到600个节点。 06年12月-- 标准排序在20个节点上运行1.8个小时,100个节点3.3小时,500个节点5.2小时,900个节点7.8个小时。 07年1月-- 研究集群到达900个节点。 07年4月-- 研究集群达到两个1000个节点的集群。 08年4月-- 赢得世界最快1 TB数据排序在900个节点上用时209秒。 08年10月-- 研究集群每天装载10 TB的数据。 09年3月-- 17个集群总共24 000台机器。 09年4月-- 赢得每分钟排序,59秒内排序500 GB(在1400个节点上)和173分钟内排序100 TB数据(在3400个节点上)。 |