Apache ​​Hadoop​​ 项目开发的开源软件提供了可靠、可伸缩、分布式的计算。它是Google类似技术的开源版本。使用Hadoop的公司有Yahoo!, Facebook, Twitter, IBM等。

为什么要开发这样的系统呢?“When data exists in this quantity (terabit/day or petabit/day), one of the processing limitations is that it takes a significant amount of time to move the data. Apache Hadoop has emerged to address these concerns with its unique approach of moving the work to the data and not the other way around.” 简单翻译就是,当数据量非常庞大的时候,移动数据时间也非常庞大。为了处理这个挑战,Hadoop采用将数据处理工作移动到数据处而不是反向移动的方式。

Hadoop 包括如下的子项目:

 

Hadoop的工作原理可以用下面的图简单描述:

还有很多基于Hadoop开发的项目:

如果你想进一步了解Hadoop,《Hadoop权威指南(中文版)》将是你第一选择了,它是Hadoop的开发者写的,所以相当的权威性。