hdfs是不是数据仓库 hdfs是否属于nosql数据库

转载

mob6454cc79ab13 2023-07-14 10:46:58

文章标签 hdfs是不是数据仓库 Hadoop 数据 Pig 文章分类 数据仓库大数据

第四章 Hadoop体系架构

hdfs是不是数据仓库 hdfs是否属于nosql数据库_hdfs是不是数据仓库

HDFS（Hadoop Distributed File System，Hadoop分布式文件系统）
Hadoop体系中数据存储管理的基础
它是一个高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行
与谷歌的DFS对应
MapReduce
一种计算模型，用以进行大数据量的计算
Hadoop的MapReduce实现，和Common、HDFS一起，构成了Hadoop发展初期的三个组件
与谷歌MapReduce对应
Hive
建立在Hadoop基础上的数据仓库架构，为数据仓库的管理提供了许多功能，包括：数据ETL（抽取、转换和加载）工具、数据存储管理和大型数据集的查询和分析能力
Hive提供的是一种结构化数据的机制，定义了类似于传统关系数据库中的类SQL语言：Hive QL，通过该查询语言，数据分析人员可以很方便地运行数据分析业务
HBase
HBase是一个针对结构化数据的可伸缩、高可靠、高性能、分布式和面向列的动态模式数据库
和传统关系数据库不同，HBase采用了BigTable的数据模型：增强的稀疏排序映射表（Key/Value），其中，键由行关键字、列关键字和时间戳构成
HBase提供了对大规模数据的随机、实时读写访问，同时，HBase中保存的数据可以使用MapReduce来处理，它将数据存储和并行计算完美地结合在一起。
Pig
Pig运行在Hadoop上，是对大型数据集进行分析和评估的平台
简化了使用Hadoop进行数据分析的要求，提供了一个高层次的、面向领域的抽象语言：Pig Latin
通过Pig Latin，数据工程师可以将复杂且相互关联的数据分析任务编码为Pig操作上的数据流脚本，通过将该脚本转换为MapReduce任务链，在Hadoop上执行
和Hive一样，Pig降低了对大型数据集进行分析和评估的门槛
Hadoop Common
从Hadoop 0.20版本开始，原来Hadoop项目的Core部分更名为Hadoop Common
Common为Hadoop其他项目提供了一些常用工具，主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem
它们为在通用硬件上搭建云计算环境提供基本的服务，并为运行在该平台上的软件开发提供了所需的API
ZooKeeper
作为一个分布式的服务框架，解决了分布式计算中的一致性问题
在此基础上，ZooKeeper可用于处理分布式应用中经常遇到的一些数据管理问题，如统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等
与谷歌Chubby对应
Avro
Avro是一个数据序列化系统
类似于其他序列化机制，Avro可以将数据结构或者对象转换成便于存储和传输的格式，其设计目标是用于支持数据密集型应用，适合大规模数据的存储与交换
Avro提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC和简单动态语言集成等功能
Mahout
Mahout起源于2008年，最初是Apache Lucent的子项目，它在极短的时间内取得了长足的发展，现在是Apache的顶级项目
Mahout的主要目标是创建一些可扩展的机器学习领域经典算法的实现，旨在帮助开发人员更加方便快捷地创建智能应用程序
Mahout现在已经包含了聚类、分类、推荐引擎（协同过滤）和频繁集挖掘等广泛使用的数据挖掘方法
除了算法，Mahout还包含数据的输入/输出工具、与其他存储系统（如数据库、MongoDB 或Cassandra）集成等数据挖掘支持架构