稍具规模的互联网企业都会搭建自己的大数据平台。但更多的中小企业和初创公司,自己搭建大数据平台的成本高。拿开源软件搭建自己的大数据平台,对于中小企业来说,无论是人才储备还是服务器成本,都难以承受。别急,还有商业大数据平台供选择。

大数据解决方案提供商

Hadoop开源产品,关注大数据技术实现和产品功能。但要把Hadoop技术产品在企业真正应用,还有很多事:企业目前技术体系如何与Hadoop集成,具体如何实现?如何去做Hadoop部署、优化、维护,遇到技术问题咋办?企业需要的功能Hadoop不支持咋办?

Cloudera,最早开展商业大数据服务的公司,面向企业提供商业解决方案,即支持企业解决上面的问题。Cloudera提供技术咨询服务,为企业向大数据转型提供技术支持。同时Cloudera开发商业产品,最主要的CDH。

中小企业商业大数据平台_大数据

CDH是一个大数据集成平台,将主流大数据产品都集成到这个平台中,企业可以使用CDH一站式部署整个大数据技术栈。从架构分层角度,CDH可以分为4层:系统集成,大数据存储,统一服务,过程、分析与计算。

1.系统集成:数据库导入导出用Sqoop,日志导入导出用Flume,其他实时数据导入导出用Kafka。

2.大数据存储:文件系统用HDFS,结构化数据用Kudu,NoSQL存储用HBase,其他还有对象存储。

3.统一服务:资源管理用Yarn,安全管理用Sentry和RecordService细粒度地管理不同用户数据的访问权限。

4.过程、分析与计算:批处理计算用MapReduce、Spark、Hive、Pig,流计算用Spark Streaming,快速SQL分析用Impala,搜索服务用Solr。

Cloudera是Apache Hadoop主要代码贡献者。开源产品也需商业开发者支持,如仅就零散个人开发者,开源产品发展将很快失控。而商业公司也需参与开源产品开发,保证开源产品发展路径和商业目标一致。

还有家大数据商业服务公司HortonWorks。2018年10月,Cloudera和HortonWorks宣布合并,这样全球范围内大数据商业服务格局已定。这或许意味着大数据技术领域的创新将进入微创新阶段。

国内和Cloudera对标公司是星环科技,商业模式一样,主为政府和传统企业向大数据转型过程中提供技术支持服务。核心产品是类似CDH的TDH:

中小企业商业大数据平台_商业_02

面向企业提供解决方案是早期IT服务厂商的主要商业模式,通过产品、服务、技术支持等方式向企业收费。IBM、微软、Oracle都是基于这样的商业模式赚得盆满钵满。早期的Cloudera也是基于这样的商业模式,并很快崛起。但是技术时代的变革来的实在是太快了,幸福的日子很快就过去了。

大数据云计算服务商

Oracle、微软这样的传统IT企业主要服务对象是企业和政府,营收和利润自然也主要来自企业和政府。所以当互联网开始崛起的时候,虽然以Google为代表的互联网公司很快就在技术领域取代了微软们的领先地位,但是大家的商业模式不同,井水不犯河水,倒也相安无事。

后来,Google、亚马逊这样的互联网公司发展出云计算这样的商业模式,企业无需购买、部署自己的服务器,只需要按需购买云服务,就可以使用各种各样的计算资源,比如虚拟主机、缓存、数据库等。相比以往自建数据中心,企业可以以更低的成本、更简单的方式、更灵活的手段使用云计算。随着云计算的快速发展,阿里巴巴等互联网企业也快速跟进,侵蚀以往IT巨头的企业领域市场,让Oracle这样的IT大厂感受到前所未有的压力。

现在所有应用程序都部署在云上,数据也产生在云端,这样自然而然的,大数据也在云上处理处理即可,主流的云计算厂商都提供了大数据云计算服务。

云计算厂商将大数据平台的各项基本功能以云计算服务的方式向用户提供,例如数据导入导出、数据存储与计算、数据流计算、数据展示等,都有相应的云计算服务。我以阿里云为例,一起来看看云计算厂商的主要大数据服务。

1.数据集成:提供大数据同步服务,通过提供reader和writer插件,可以将不同数据源(文本、数据库、网络端口)的数据导入、导出。

2.E-MapReduce:集成了Hadoop、Spark、Hive等主要大数据产品,用户可以直接将自己的MapReduce、Spark程序或者Hive QL提交到E-MapReduce上执行。

3.分析性数据库AnalyticDB:提供快速低延迟的数据分析服务,类似Cloudera的Impala。

4.实时计算:基于Flink构建的流计算系统。

我们看阿里云提供的这些服务,从技术栈角度看,几乎和Cloudera的CDH一样,这是因为人们的需求就是这样,只是提供的方式不同。Cloudera通过CDH和相关的技术支持,支持企业部署自己的大数据集群和系统。而阿里云则将这些大数据产品都部署好了,使用者只要调用相关API就可以使用这些大数据服务。

阿里云将这些大数据基础服务和其他大数据应用服务整合起来,构成一个大数据产品家族,这就是阿里云的数加。数加功能体系如下。

中小企业商业大数据平台_大数据_03

大数据SaaS服务商

大数据存储和计算固然有难度和挑战,也因此有了不少解决方案提供商。但是大数据的采集、分析、展现也有一定的门槛和难度,能不能帮企业把这一部分也实现了呢?这样企业无需关注任何技术细节,甚至不需要做任何技术开发,就可以拥有大数据采集、处理、分析、展示一套完整的大数据平台。

如果说云计算厂商把大数据服务当作基础设施(基础设施即服务,IaaS)和平台(平台即服务,PaaS)提供给企业使用,那么还有一些企业,直接把大数据服务当作软件提供给企业(软件即服务,SaaS)。

像友盟、神策、百度统计,大数据SaaS服务商,你只要在系统中调用它提供的数据采集SDK,甚至不需调用,只要将它提供的SDK打包到自己的程序包,就自动采集各种数据,传输到他们大数据平台。

然后你登录他们大数据平台,各种数据统计分析报告自动生成,甚至和行业同类产品的对比数据也已经生成。只需要查看、分析这些数据,不需要做任何开发。

这类大数据SaaS厂商提供服务简单,如需精细化、定制化采集数据、分析数据,还是要自己调用接口开发。

但即使是不做进步开发,对初创互联网产品,百度统计这类大数据服务提供的数据分析也极有价值。

大数据开放平台

除了上面提到的这几类商业大数据平台,还有一类大数据商业服务,就是大数据开放平台。

这类平台并不为用户提供典型的数据处理服务,它自身就有大量的数据。比如各类政府和公共事业机构、各类金融和商业机构,它们自己存储着大量的公共数据,比如中国气象局有海量的历史天气数据、中国人民银行有大量的客户征信数据、阿里巴巴有海量的电子商务数据。

如果这些数据是公共所有的,那么使用者就可以直接提交计算请求到这些大数据开放平台上进行计算。如果这些数据涉及保密和隐私,那么如果在不涉及用户隐私的情况下,也可以计算出有意义的结果,比如使用阿里巴巴的数据可以统计出区域经济繁荣指标和排名。

还有一种风控大数据开放平台,结合用户数据和自身数据进行大数据计算。金融借贷机构将借款人信息输入风控大数据平台,大数据平台根据自己的风控模型和历史数据进行风险分析,给出风险指数。金融借贷机构根据这个风险指数决定用户贷款额度和利率等,而风控大数据平台又多获得了一个用户数据,可以进一步完善风控模型和数据库。

总结

大数据已经进入成熟期,大数据技术和应用的各种垂直领域也被逐渐细分,并有越来越多的商业公司进入,继大数据技术生态之后,大数据商业生态也逐渐成型。

对企业,大数据只是实现自己商业目标的工具,如能借助商业大数据平台,更快实现商业价值,更划算。

技术人员,利用大数据知识,做好商业大数据方案的选型,将商业解决方案更好地应用到自己所在的企业,对自己和公司都有价值。