HDFS相关

原创

muzinan110 2014-07-15 14:37:19 博主文章分类：分布式 ©著作权

文章标签 相关 Hadoop 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者muzinan110的原创作品，请联系作者获取转载授权，否则将追究法律责任

HDFS以块为单位，每写完一个block，HDFS就将其自动复制到另两台机器上（有三个副本），类似RAID1

对文件进行处理计算时，通过MapReduce并发计算框架，可以启动多个计算子任务，同事读文件的多个block，相当于实现RAID0的并发访问功能

HDFS NameNode（名字服务节点）和DataNode（数据存储节点）

NameNode在HDFS中只部署一个实例，提供元数据服务，相当于操作系统中文件分配表（FAT），管理文件名block的分配，维护整个文件系统的目录树结构，DataNode则部署在HDFS集群中其他服务器上，提供真正的数据存储服务

HDFS默认块大小为64MB

应用程序写文件时，首先访问NameNode，将DataNode磁盘空间，按照一定的负载均衡策略，分配若干数据提供client使用

当client写完一个数据块时，再复制两份存储在其他DataNode上，HDFS默认同一份数据，有三份副本

HDFS配合MapReduce等并行计算框架进行大数据处理时，在整个集群上并发读写访问所有的磁盘，无需RAID支持。

HBase 分布式数据库

Hive 数据仓库

HDFS MapReduce 分布式计算框架

作用处理海量日志

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯