自从VMware在2013年的全球用户大会上推出vSphere Big Data Extention(BDE)以来,大数据这匹骏马越来越受到大家的追捧。当然BDE主要针对是Hadoop的大数据应用,其实大数据不仅仅是Hadoop,即使只算Hadoop也还有不同的发布版本。但是无论Hadoop的哪个版本或者哪个大数据平台,都蜂拥开始追随云计算,就像好马配好鞍一样重要,那怎样的云计算平台才是大数据的好鞍呢?

运行环境平台:多租户、资源供应和管理

  在过去几个月的客户沟通中,我听到了运行大数据的多种不同平台,包括Twitter使用的Mesos、Fedex使用的虚拟化和Yahoo使用的Yarn。而不同的云计算平台特性能解决大数据应用的不同问题。比如:Yarn的目标是支持Hadoop上的非M-R应用。而Twitter使用的Mesos则可以支持混合的负载,并且会利用操作系统的虚拟化。由于企业的大数据应用场景往往是多样的,所以需要选择一种平台适合不同的应用场景,这包括:

  • 部署新的大数据应用极其简单:可以通过自动化和自助服务来完成;

  • 可以支持多种不同的负载:也就是能运行多种大数据应用,不仅仅限于Map-Reduce,还可支持一些Hadoop生态圈应用、SQL服务和其他通用应用;

  • 可靠的安全隔离:如果需要将某些敏感信息隔离,该平台有能力确保数据集和环境安全;

  • 安全的资源隔离:为了能够提供足够的资源来满足整体SLA要求,可以将吵闹的邻居隔离来确保性能;

  • 多版本支持能力:能运行多个不同版本的运行环境,满足不同用户、开发者要求;

  • 企业级的可用性:确保整个系统的强壮性,提供企业等级的可用性。

网络的挑战

  对网络而言,挑战和机遇并存。今天两层核心聚合交换网络不能跨机架提供足够的带宽。机架内的带宽应该没有问题,经常可以达到每秒几百Gbit,但机架间的带宽往往十分有限,为此往往需要优化流量到本地,也就是数据和计算完全整合的模式。幸运的是,新的网络拓扑,包括CLOS和主干加分支设计都提供了很好的解决方案。使用这些新型的网络拓扑,可以在整个集群延时基本恒定的情况下确保足够的带宽,无论是机架内还是机架间都不会有带宽问题。

存储平台的选择

  随着存储技术的不断发展,大数据的存储选择越来越丰富。当然Hadoop的HDFS处于最核心圈,但其他的存储平台也可以提供跟Hadoop类似、即插即用的兼容能力,并且提供了某些独特的价值。几个主要的存储选项如下:

  传统的SAN或者NAS:这应该算是支撑大数据应用的最佳存储选项,因为目前大量的数据中心都可以提供这样的存储选项,并且也包括了各种存储服务,例如:快照、归档、复制等;

  服务器内置磁盘构建的软件定义存储:这方面HDFS是主要的代表,其他的选项包括CEPH、Gluster和MAPR,他们都可以建立文件系统,满足大数据的应用;

  横向扩展存储方案:很多独具特色的新兴公司提供了可以替代HDFS横向扩展存储,很好解决了成本和带宽问题。比如Isilon的横向扩展存储方案,提供了3到144个节点的解决方案,可以扩展到15PB、每秒85GB吞吐能力,成为横向扩展存储的典型代表。

通过vSphere平台运行大数据

  VMware推出的BDE方案也在不断进步中,为各种不同版本的Hadoop运行提供了强大的支撑。目前BDE已经可以和vCloud Automation Center结合来提供Hadoop集群的自助创建,借助vSphere平台让最终用户可以快速自助创建应用,大数据的部署难题迎刃而解。大数据平台具有了自动化、自助服务能力,让大数据再也不是极客的专利,任何大数据应用的开发者、管理员都只需要专注自己的大数据应用本身,而无需关心底层的架构。

注:本文已经发表在《软件和信息服务》2014年8月刊上,如果想了解@云界漫步 对云计算的最新观点,请直接订阅“中国云梦”微信公众号。也可微信扫描下面的二维码,直接订阅。订阅”中国云梦“后,直接回复”20007“阅读该文。

wKiom1P1yAOxyy5qAACGFE8oO9s729.jpg