今天参加了百度技术开放日,其实今天的百度技术开放日就是推广百度的“大数据引擎”。何谓“大数据引擎”?从技术层面上讲大数据引擎就是分布式存储+大数据分析。百度有百度云以及很多基于搜索的数据分析系统。百度云解决了大规模数据存储的问题;数据分析系统解决了数据处理的问题。因此,从这点上来看,百度有了一套完整的解决大数据所面临的两大主要问题的能力。

大家知道在大数据应用的环境下,存储是一个非常难以解决的问题。传统存储的解决方案无法满足大规模数据、非结构化数据存储的问题。传统的数据库、文件系统无法满足需求,一方面无法支持大规模数据存储,不能很好的做到scale out;另一方面大数据环境下的workload和传统存储面临的环境不太一样。传统存储主要解决IOPSThroughput,特别在Primary Storage环境下,基本上都是一些随机读写请求,因此需要存储系统具有很高的IOPS性能。在大数据环境下,虽然这种workload还存在,但是很多workload变成了读多写少的形式,并且请求的顺序性更强。例如,在互联网应用中,基本上都是读请求,很少量的写请求,因此,可以采用对象存储系统可以解决上述数据存储问题。对象存储的一个特点在于非常适合那种数据块很少发生变化的应用,符合大数据的应用环境。另外,传统存储为了解决存储性能问题,采用了提高单机性能的方式,即Scale Up的方法。但是,在大数据背景下,追求的是容量的可扩展性,因此,集群架构更加适合大数据应用环境。总体而言,在大数据背景下,传统昂贵的存储系统不能满足应用需求,基于廉价server的分布式集群存储系统可以应对新的挑战。

wKiom1NZCumBcghhAAInJd2bK7Y920.jpg

本来以为今天的百度技术开放日会介绍他的大数据解决方案,但是,意料之外的是今天的开放日成了百度的宣传会。百度有成套的解决方案,与政府机构进行合作,试图解决医疗卫生、公共交通、金融保险领域的大数据问题。其实就是让医疗机构、交通部门、银行保险公司将大数据存储到百度云上面,然后再通过百度的数据分析工具得到他们所关心的内容。在这个环节中,百度就是一家云存储、云计算的服务供应商。百度的这些举措对传统的存储厂商是有影响的,一旦这种云服务***到企业、政府、医疗机构之后,其将会颠覆现有的市场秩序。

在今天的产品介绍过程中,有两点不得不提一下。一个就是百度的很多存储服务器采用了ARM处理器,这个是我比较关心的。ARM处理器以低功耗著称,而存储节点又是一个IO密集型应用,因此,在存储节点上采用ARM处理器可以很好的降低数据中心功耗。另一个是百度的计算节点大量采用GPU,采用GPU作为计算节点处理器这本身没有什么特殊之处。因为GPU是一种数据向量型处理器,具有很强的数据处理能力,但是,问题在于百度宣称一台GPU为核心的服务器性能可以抗衡100CPU为核心的服务器。1100?这个有点不可思议。另外,百度对他的集群计算系统进行了包装,称之为百度大脑,这个系统的集群规模达到了10万台以上的服务器,应该是百度未来重点宣传的东西。据说阿里也有类似的集群系统,这类集群系统是面向事务型处理的,和天河之类面向计算型的系统大不一样。

虽然在今天的百度技术开放日上没有聆听到技术大牛们的演讲,但是,也看到了百度在推他们云系统方面的力度,他们想成为大数据时代的引擎。