hadoop:一个分布式系统基础架构,是一个能够对大量数据进行分布式处理的软件框架,是一个能够让用户轻松架构和使用的分布式计算平台。

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS(对于本文)的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。

HDFS:Hadoop分布式文件系统(Distributed File System) - HDFS (Hadoop Distributed File System)



MapReduce并行计算框架,0.20前使用 org.apache.hadoop.mapred 旧接口,0.20版本开始引入org.apache.hadoop.mapreduce的新API



HBase:类似Google BigTable的分布式NoSQL列数据库。( HBaseAvro已经于2010年5月成为顶级 Apache 项目)



Hive:数据仓库工具,由Facebook贡献。



Impala:实时数据仓库工具



Zookeeper:分布式锁设施,提供类似Google Chubby的功能,由Facebook贡献。



Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。



Pig: 大数据分析平台,为用户提供多种接口。



Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。



Sqoop:在hadoop与传统的数据库间进行数据的传递工具



 



数据分析:助力业务决策和发展的手段和工具



 



数据产品: