HDFS(Hadoop Distributed File System)是 Hadoop 项目的核心子项目,是分布式计算中数据存储管理的基础,坦白说 HDFS 是一个不错的分布式文件系统,它有很多的优点,但也存在有一些缺点,包括:不适合低延迟数据访问、无法高效存储大量小文件、不支持多用户写入及任意修改文件。

Apache 软件基金会成立的时候,HDFS 就一直在想办法提高它的性能和可用性,坦白说,这也许对试点项目、非常规项目、要求不严格的大环境中比较适用,但是对于某些 Hadoop 用户来说,他们对于性能、可用性、企业级特性有较高的要求,且注重直接附加存储(DAS)架构,特别是老版本的 Hadoop 没有高性能的主节点,那么接下来 8 个产品就是代替 HDFS 的绝佳方案。


1.  Cassandra (DataStax)

  并非一个完全的文件系统,而是一个开源、NoSQL 键值(key-value)商店。这给依靠快速数据访问的 Web 应用多了一个 HDFS 选择。简单来说它把 Hadoop 融合在 Cassandra 里面,支持 Web 应用通过 Hadoop 快速访问数据, 而 Hadoop 可以快速访问流入 Cassandra 的数据。

Hadoop的平替方案 hdfs替代方案_hadoop


2.  Ceph

  Ceph 是一个开源、多管齐下的操作系统,因为其高性能并行文件系统的特性,有人甚至认为它是基于 Hadoop 环境下的 HDFS 的接班人,因为自 2010 年就有研究者在寻找这个特性。


Hadoop的平替方案 hdfs替代方案_Hadoop的平替方案_02


3.  Cleversafe:分散存储网络

  本周一 Cleversafe 宣布将融合 Hadoop 的并行编程技术和自己的分散存贮网络。其原理是通过把整个元数据分布在集群中(不是依靠单个主节点、不是依靠复制),Cleversafe 表示这比 HDFS 更快、更稳定、更具扩展性。


Hadoop的平替方案 hdfs替代方案_cassandra_03


4.  GPFS (IBM)

  IBM 一直在向高性能要求的用户销售其并行文件系统,包括世界上最快的超级电脑,2010年它推出了基于 Hadoop 的 GPFS, 并宣布 GPFS 不共享集群版本比 Hadoop 快多了,因为

  它在内核级别中运行,而不是在操作系统中运行例如 HDFS。


Hadoop的平替方案 hdfs替代方案_集群_04


5.  Isilon (EMC)

  EMC 提供 Hadoop 发行版已经一年了,但 2012 年 1 月转型为 HDFS 企业级别的新方案——Isilon 的 OneFS 文件系统。因为 Isilon 可以读取 NFS, CIFS 以及 HDFS 协议, 一个单独的 Isilon NAS 系统可以摄入、处理、分析数据。


Hadoop的平替方案 hdfs替代方案_集群_05


6.  Lustre

  HPC 存储提供商 Xyratex 增在 2011 年的一份报道中写到, 基于 Lustre 的集群会比基于 HDFS 的集群更快更便宜。


Hadoop的平替方案 hdfs替代方案_Hadoop的平替方案_06


7. MapR 文件系统

  MapR 文件系统在业内已经具有一定知名度了,不仅 MapR 宣布它自己的文件系统比 HDFS 快2-5倍(实际上有 20 倍),它还具有镜像、快照、高性能这些企业用户喜欢的特点。


Hadoop的平替方案 hdfs替代方案_Hadoop的平替方案_07


8.  NetApp Hadoop开放方案

  NetApp 重新改版了物理 Hadoop 结构:把 HDFS 放在磁盘阵列中,通过这样来达到更快、更稳定、更安全的 Hadoop 工作。

Hadoop的平替方案 hdfs替代方案_存储_08