Apache Hadoop 1.0.0 支持Kerberos认证, Apache HBase 以及用于HDFS的RESTful API
Srini Penchikala 发表于 2012年1月13日
经过六年的酝酿, 开源分布式计算及大数据存储框架 Apache Hadoop 1.0.0 最近发布了.新发布版本的核心功能包括:
安全(通过Kerberos认证协议的强认证)
Apache HBase 支持(事务日志的异步和刷新支持).即使当一个刷新或同步正在进行时也允许产生新的写操作到HDFS客户端.
包含用于Hadoop分布式文件系统(HDFS)的RESTful API的Webhdfs.webhdfs作为一个完整文件系统实现的功能用于通过HTTP访问HDFS。之前的hftp功能是一个只读的文件系统,没有提供“写”访问。
用于HBase的访问本地文件的性能增强。
新发布版本中包含的其他特性有一些性能提升、缺陷修改和功能。
InfoQ就1.0.0版本包含的功能和下一版本将包含的功能访问了Apache Hadoop 项目副主席Arun Murthy.
InfoQ:Apache Hadoop 1.0.0 在开发了六年后发布.为什么这第一版用了这么长的时间?
Arun Murthy:Apache Hadoop 已经在好几个大型企业的生产环境中使用,例如Yahoo、Facebook等等. 1.0.0命名不仅是Apache Hadoop社区的一个声明,而且这个版本确实是一个成熟的版本,是社区在可预见的未来在不同企业中兼容多种用户实例而有信心支持的东西。Apache Hadoop 已经在好几个大型企业的生产环境中使用,例如Yahoo、Facebook等等. 1.0.0命名不仅是Apache Hadoop社区的一个声明,而且这个版本确实是一个成熟的版本,是社区在可预见的未来在不同企业中兼容多种用户实例而有信心支持的东西。这将增强最终用户和企业的信心帮助其他企业采用Apache Hadoop.
InfoQ:这个版本在认证条件、访问控制和数据加密方面支持哪种类型的安全功能?
Arun:1.0.0支持强的、端到端的基于Kerberos的认证方式,用于HDFS (存储文件系统)和MapReduce (数据处理).Kerberos是在企业环境中十分受欢迎的网络认证协议.
它也为应用程序和数据提供全部层级的强访问控制.例如, 人们能保证只有一个确定的个体(或一组用户)能够使用运行程序、查看应用系统日志等等.
InfoQ:你能谈谈新版本中队性能提高做了什么吗?
Arun:有好几个增强.一个主要的例子是我们为像Apache HBase这样的应用程序所做的本地读优化,这提供了相当大的提高 (实例确认有2倍).
InfoQ:下一版本的Hadoop你计划加入什么新功能?
Arun:Apache Hadoop下一个主要版本当前在alpha阶段,预期在2012年中发布.一些主要的亮点是:
HDFS (文件系统)的高可用 - 解决这个文件系统的SPOF问题.
HDFS集合可提高文件名称系统允许的大集群的规模至少4x-5x的增长 (包含集群中的节点和名称系统).
下一代MapReduce (aka YARN)将把Hadoop从仅支持MapReduce应用变为一个通用型的、分布式计算结构,包含多种实例如MapReduce, 消息传递接口(MPI),迭代编程等等. 能够同时被相同的Hadoop集群所支持.这也允许Hadoop支持更巨大的集群(6000 - 10000 节点)和为compute fabric提供高可用支持.
Arun同时说他们认为Apache Hadoop的下一版采用了许多企业级功能,极大的提升了Hadoop,例如企业中的高可用和允许Hadoop在很多种类的用户环境中(例如下一代MR aka YARN).