第四章 Hadoop体系架构

hdfs是不是数据仓库 hdfs是否属于nosql数据库_hdfs是不是数据仓库

  1. HDFS(Hadoop Distributed File System,Hadoop分布式文件系统)
  2. Hadoop体系中数据存储管理的基础
  3. 它是一个高度容错的系统,能检测和应对硬件故障,用于在低成本的通用硬件上运行
  4. 与谷歌的DFS对应
  5. MapReduce
  6. 一种计算模型,用以进行大数据量的计算
  7. Hadoop的MapReduce实现,和Common、HDFS一起,构成了Hadoop发展初期的三个组件
  8. 与谷歌MapReduce对应
  9. Hive
  10. 建立在Hadoop基础上的数据仓库架构,为数据仓库的管理提供了许多功能,包括:数据ETL(抽取、转换和加载)工具、数据存储管理和大型数据集的查询和分析能力
  11. Hive提供的是一种结构化数据的机制,定义了类似于传统关系数据库中的类SQL语言:Hive QL,通过该查询语言,数据分析人员可以很方便地运行数据分析业务
  12. HBase
  13. HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库
  14. 和传统关系数据库不同,HBase采用了BigTable的数据模型:增强的稀疏排序映射表(Key/Value),其中,键由行关键字、列关键字和时间戳构成
  15. HBase提供了对大规模数据的随机、实时读写访问,同时,HBase中保存的数据可以使用MapReduce来处理,它将数据存储和并行计算完美地结合在一起。
  16. Pig
  17. Pig运行在Hadoop上,是对大型数据集进行分析和评估的平台
  18. 简化了使用Hadoop进行数据分析的要求,提供了一个高层次的、面向领域的抽象语言:Pig Latin
  19. 通过Pig Latin,数据工程师可以将复杂且相互关联的数据分析任务编码为Pig操作上的数据流脚本,通过将该脚本转换为MapReduce任务链,在Hadoop上执行
  20. 和Hive一样,Pig降低了对大型数据集进行分析和评估的门槛
  21. Hadoop Common
  22. 从Hadoop 0.20版本开始,原来Hadoop项目的Core部分更名为Hadoop Common
  23. Common为Hadoop其他项目提供了一些常用工具,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem
  24. 它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的API
  25. ZooKeeper
  26. 作为一个分布式的服务框架,解决了分布式计算中的一致性问题
  27. 在此基础上,ZooKeeper可用于处理分布式应用中经常遇到的一些数据管理问题,如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等
  28. 与谷歌Chubby对应
  29. Avro
  30. Avro是一个数据序列化系统
  31. 类似于其他序列化机制,Avro可以将数据结构或者对象转换成便于存储和传输的格式,其设计目标是用于支持数据密集型应用,适合大规模数据的存储与交换
  32. Avro提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC和简单动态语言集成等功能
  33. Mahout
  34. Mahout起源于2008年,最初是Apache Lucent的子项目,它在极短的时间内取得了长足的发展,现在是Apache的顶级项目
  35. Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序
  36. Mahout现在已经包含了聚类、分类、推荐引擎(协同过滤)和频繁集挖掘等广泛使用的数据挖掘方法
  37. 除了算法,Mahout还包含数据的输入/输出工具、与其他存储系统(如数据库、MongoDB 或Cassandra)集成等数据挖掘支持架构