HDFS是一个不错的分布式文件系统,它有很多的优点,但也存在有一些缺点。目前而言,它在以下几个方面就效率不佳:低延时访问 HDFS不太适合于那些要求低延时(数十毫秒)访问的应用程序,因为HDFS是设计用于大吞吐量数据的,这是以一定延时为代价的。HDFS是单Master的,所有的对文件的请求都要经过它,当请求多时,肯定会有延时。当前,对于那些有低延时要求的应用程序,HBase是一个更好的选择。现在
一、HDFS的基本概念1.数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。 和普通文件系统相同的是,HDFS中的文件是被分成 64M一块的数据块存储的。 不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。2.元数据节点(Namenode)和数据节点(dat
Hadoop HDFS分布式文件系统具有如下特点:1.非常适合PB级以上海量数据的存储和处理,已在Yahoo、亚马逊、Facebook、百度、淘宝等海量数据处理平台上得到了广泛验证。2.系统可以扩展性高,只需要简单添加服务器数量,即可实现存储容量和计算能力的线性增长。3.数据冗余度高,缺省每份数据在3台服务器上保留副本。4.适合/流式访问(Streaming access),即一次写入,多次读取,
Copyright © 2005-2024 51CTO.COM 版权所有 京ICP证060544号