“你们的客户中,有多少主动提出要做大数据项目?”记者问。 

  “现在不是有多少客户提出需求的问题,而是很多用户都已经实际部署了大数据平台或应用。”一位国内数据库厂商的市场负责人指着该公司新制作的一本案例集告诉记者,“这本案例集中列举的客户都已经采用或已经测试了我们的新型数据库,用来解决大数据应用的问题,包括政府、金融、电力、税务等行业的客户。”

  在此之前,记者也与一位国外的市场分析师进行过沟通,她表示中国的大数据应用只是刚刚开始,远远没有达到普及应用的阶段。数据科学家等人才的缺乏,也是制约大数据应用的重要因素。

  与云计算一样,大数据从诞生那天开始就一直存在争论,体现在概念、技术、实现方式、商业模式等诸多方面。不过可以肯定的一点是,大数据与云计算都已经是不可逆转的趋势。

  大数据是现实需求

  为了进一步了解中国用户对大数据的接受程度以及目前的应用状况,《中国计算机报》利用“第三届计算技术大会”举办之机,选定一部分参会的行业客户进行了一次有关大数据应用情况的问卷调查。本次调查共发放了问卷320份,收回的有效问卷308份。从调查结果看,大部分的用户通过多年的信息化建设积累了大量数据,处理TB级甚至PB级的数据量对他们来说确实是一个难题。但是,对于是否现在就采用大数据的工具,用户基本分成了两派:一派对大数据持积极拥抱的态度,已经开始尝试或有计划采用相关的大数据解决方案;但另一派用户在未来12个月没有上马大数据项目的需求。

  从调查结果看(如图1),58.8%的被调查者表示,其当前的数据量已经达到了TB级,另有16.8%的用户的数据量甚至达到了PB级。将近80%的用户数据量已经达到TB级以上,这从一个角度证明了在过去几年中数据的爆炸性增长是一个事实。

  有人曾经提出过这样的问题:我们每年为企业信息化建设投入了那么多资金,最后我们得到的是什么?当然是数据。以前是集中存放在数据中心里的数据,而现在除了数据中心,还有更多的数据来自于各种各样的移动智能终端以及大量的企业分支机构。这些数据在相当长的时间内是保持“沉默”的,有人说它们是沉睡的宝藏,但也有的人说它们是一种负担。其实在大数据的概念出现前,人们已经开始用“海量”这个词来形容数据,这也是大数据“4V”特征中一个最明显的特征。但是由于技术的限制,人们不可能实时地处理和分析这些数据,用一个高效的存储平台将这些数据保存好已经占用了用户的绝大部分精力,而进一步挖掘数据的价值在以前是可遇而不可求的。

  除了数据量大这个难题以外,数据类型越来越复杂也是用户以前无法很好地处理和加工数据的一个原因。调查显示(如图2),60.5%的用户反映,其现有的数据是结构化与非结构化数据兼而有之。以前,大家习惯了用数据库来处理结构化的数据,而非结构化数据的快速增长让用户在选择新型存储和分析工具时捉襟见肘。从技术的角度看,使用一个能够同时处理结构化和非结化数据的统一存储和分析平台可以一劳永逸。

  现在一提到大数据,很多人首先想到的就是那些分析软件和工具。从我们的调查结果看,79%的用户表示更关心分析软件和工具,这也证明了这一点。不过,61.3%的用户表示会更关注存储架构,还有37.8%的用户表示会在计算平台上下更多功夫。计算、存储与分析对于大数据来说是密不可分的三个重要组成部分。

  其实,就像经济基础与上层建筑一样,分析软件好比是上层建筑,存储则是经济基础,如果没有一个坚实稳固而且高效安全的存储平台,就不可能将真实、准确的数据提供给大数据分析工具进行再加工和处理。从厂商提供的大数据解决方案来看,大多数走的还是融合的道路,就是将存储平台与大数据分析工具进行整合,为用户提供一个整合的甚至是一体化的大数据解决方案,比如华为近期就与国内数据库厂商共同推出了大数据一体机产品,包括惠普、Oracle等在内的许多国外厂商也早就发布了大数据一体机。

  由浅入深 不要急功近利

  无论是云计算还是大数据,目前都已基本度过了概念辨析的阶段,开始步入应用阶段。虽然关于大数据的定义业内还存在争论,不过这并不会影响大数据的落地。像电信、金融、互联网等领域的用户早就开始对大数据解决方案进行测试,一些先行者已经将大数据工具用于业务,对数据进行重新梳理、分析和挖掘,为企业决策提供依据,或为业务拓展、提升客户忠诚度提供帮助。

  我们的调查数据显示(如图3),57.1%的用户表示,在未来12个月内暂无部署大数据应用的计划。这一结果与我们之前预想的差不多。通过与行业用户的广泛接触,我们认为大数据目前还处于应用的初级阶段,很多用户虽然在关注大数据的技术以及行业应用进展,但是对于现在就部署大数据方案还比较谨慎。一方面他们还没有完全搞清大数据对于他们的业务发展来说到底意味着什么,能带来什么样的好处;另一方面,很多用户还忙于信息化应用的部署或底层基础架构的优化,没有精力去考虑大数据的应用。说到底,对于很多用户来说,大数据目前还属于可选顶而非必选项。只有那些业务与大数据之间关系十分密切,甚至只有通过大数据才能挖掘新的客户,铺设新渠道的客户,才会现在就转向大数据。

  调查数据显示,42.9%的被访者表示计划在未来12个月内部署大数据解决方案,这一结果其实超出了我们之前的预想。我们在调查前曾乐观地估计有计划实施大数据的行业用户最多也就有30%。调查结果显示,中国用户确实对大数据有现实的需求,他们可能会选择某一个与大数据紧密相关的点切入,然后再逐步进行更大范围的应用。很多中国用户对新技术、新趋势的追求其实并不比国外用户差,关键是如何将新技术与企业自身业务的发展相结合,让用户实实在在地感受到新技术带来的业务成果,这样才能更有效地利用技术创新去推动业务创新。

  谈到企业实施大数据项目的预算情况,预计投入资金超过500万元的用户只占被访问者总数的12.6%,其余用户的投入都在500万元以下,其中39.9%的用户用于大数据项目的投资低于50万元。这一调查结果(如图4)反映出大部分用户对大数据项目的投资比较谨慎,在大数据应用还没有在各行业广泛铺开,而企业本身又确实有需求的情况下,用户愿意小规模地进行投入,尝试性地部署大数据应用,既不影响企业现有的业务,又可以进行有益的尝试。

  有些行业用户之前可能在大数据方面已经有过一些尝试,比如使用了BI(商业智能)工具。BI与大数据之间的界限究竟在哪里,新的大数据系统是否可以和原有的BI系统兼容甚至运行在同一个平台之上?如果用户心中的这些疑虑不消除,那么大数据应用普及的速度就会减慢,甚至遭遇挫折。华为企业业务集团医疗行业系统架构师温长城告诉记者:“目前在医疗行业,大数据主要应用于区域卫生医疗。我们接触的用户基本上会在原有系统之外单独构建一个大数据平台。”

  大数据的应用也是分阶段的,用户不要急于求成。任何一项新技术从诞生到逐渐走向成熟,再到最后实现大规模应用,必然经历一个过程。新技术从诞生到趋于成熟,中间其实并不是一条陡峭的曲线,而是有一个相对平稳发展的过程,有时这个阶段可能会比较长。但是的确有一些厂商和用户总希望新技术一出现,就能马上开花结果。这种急功近利的心态不利于大数据应用的推广。我们的调查显示(如图5),63.9%的用户表示,他们目前还处于大数据的调研和测试阶段,28.6%的用户目前正努力建设一个大数据基础构架平台,2.5%的用户目前正在进行大数据分析软件的选型,7.6%的用户已经将大数据应用于业务之中。由此可见,大部分用户目前还处于大数据分析的准备阶段,对相关产品进行评估以及打造一个大数据的基础平台是用户当前最关注的工作。我们建议用户一方面要积极地关注大数据技术与应用的发展,但同时又要脚踏实地,不要期望“一夜之间建成罗马”。

  需要一个高效存储平台

  大数据到底能够解决企业业务的什么问题,带来哪些实实在在的好处呢?大数据与云计算落地面临同样的问题,那就是如何找到技术与业务的契合点,如果找不到或找不准这个契合点,那么大数据落地将是无米之炊、空中楼阁。越来越多的厂商也注意到了这个问题,在讲解大数据的技术与应用时,非常注意与行业以及应用相结合,并且将大数据的应用划分成一些典型的应用场景,让用户可以对号入座,找到自己的切入点。

  在调查中,我们归纳了一些大数据的典型应用场景,用户的选择比较平均,将大数据用于整合企业内部数据,为领导决策提供依据的占55.5%,将大数据用于整合内部与外部(客户)数据,实现360度客户视图的占52.9%,利用运营分析实现运营优化占52.1%,利用数据仓库实现IT效率和规模效益提升的占44.5%。由此看来,用户最迫切的需求还是利用大数据工具对自身业务流程进行梳理和优化,同进促进业务的发展,获得更高的收益以及提升客户满意度。也正是由于大数据能够与业务相匹配,解决企业业务发展中遇到的一些瓶颈,用户才对大数据表现出一种积极与热情。调查数据还显示,16.8%的行业用户正在利用大数据提升企业的安全性,防范犯罪。在金融领域,这种应用正变得越来越普遍。

  还有8%的用户选择了“其他”,这其实是我们最愿意看到的一个结果。用户是一切技术变革的推动者,也最善于利用新技术实现应用的创新。我们希望看到大数据在各个行业以及各种应用场景中发挥其独特的价值,形成有行业和企业特色的应用模式,并得到复制,在更广的范围内得到普及和应用。作为媒体,我们也会尽自己所能,尽力去挖掘这些大数据的新型应用,这也是我们在调查之后会着手进行的一项工作。

  上文已经提到,如果想充分发挥大数据分析工具的作用,就必须先建立一个高效的统一存储平台,正所谓磨刀不误砍柴功。那么用户是如何评价存储在大数据中的地位呢?用户希望构建一个什么样的大数据存储平台呢?从我们的调查数据看(如图6),最多的人(70.6%)选择了希望建立一个融存储、归档、分析于一体的统一的存储平台;48.7%用户表示,希望在同一平台上处理结构化和非结构化数据。面对海量的数据、复杂的数据类型时,最需要一个整合的平台,统一处理不同类型的数据,这样既可以方便、快捷地进行部署应用,又可以简化管理,鱼与熊掌兼得。

  具体到一个大数据存储平台,用户的关注点主要集中在性能和成本两方面。50.4%的用户表示,在非常关注大数据存储平台性能的同时,也希望大数据存储平台具有一个好的性价比。大数据除了量大、数据类型多等特征以外,实时处理也是大数据一个非常重要的特征,同时也是大数据区别于传统离线数据分析的一个显著特征。在很多情况下,只有实时分析的结果才会让用户受益。比如,你去逛商店时,如果能实时收到商店里的各种打折和促销信息,那么你一定会不虚此行。再比如,如果一项室外的体育赛事,如果能收到实时的天气预报,就可以更好地安排比赛。大数据存储平台的一个核心特征就是高效,一方面是高性能,另一方面是低延迟。存储硬件厂商都是在朝这样的目标努力,比如闪存被越来越多地用于存储平台,就是为了更好地实现上述目标。

  另外,开源技术也是大数据落地过程中一项不可忽视的技术。据我们的调查,78%的用户表示在大数据应用中会考虑采用开源技术。开源的Hadoop如今被认为是一个理想的大数据分析平台。如今,大数据解决方案供应商纷纷推出支持Hadoop的产品版本。过去,我们没有一个好的非结构化数据的处理平台,而Hadoop的出现填补了这一空白。不过,Hadoop本身技术架构比较复杂,企业内如果没有专业的技术人员,可能很难利用好Hadoop。很多厂商瞅准这一商机,适时推出了Hadoop的商业发行版,比如Intel、华为等。在9月3日结束的2013华为云计算大会(HCC 2013)上,华为发布了FusionInsight企业级大数据分析平台。这其实就是一款Hadoop的商业发行版。华为基于这个大数据分析平台面向金融、电信行业的客户进行了定制化开发,针对其他行业的解决方案也在紧锣密鼓的研发之中。

  除了Hadoop以外,像OpenStack等开源的框架也是厂商和用户追逐的热点。开源技术的快速发展将有力地推动大数据应用的落地。