Spark发展到今年,也已经有了十个年头了,在这十年的时间里,Spark在数据分析方面的优势得以显现,成为越来越多的企业的选择。Spark做数据分析,得益于Spark计算框架的优势,也获得了很好的竞争优势。今天我们就来聊聊Spark大数据分析的优势。
在Spark出现之前,大数据领域占绝对优势的计算框架,非Hadoop莫属,但是在一段时间的发展之后,我们发现,面对实时流数据的处理需求,Hadoop明显不能满足了。而实时流数据的处理,在大数据发展之下,存在巨大需求的。
而Spark正是在这样的背景下,开始得到发展,到2014年,Hadoop的四大商业机构均宣称全力支持Spark,今后将全面接收基于Spark编写的数据挖掘与分析算法,多家世界顶级的数据企业例如Google,Facebook等现已纷纷转向Spark框架。
这也说明,Spark做数据分析,也得到了业界的广泛认可。而在国内,Spark大数据分析同样受到重视。
以阿里巴巴为例,阿里巴巴的搜索和广告业务,早期使用的是Mahout和MapReduce来解决机器学习方面的问题,但是在效率和代码维护方面并不理想。Spark的出现,一定程度上提供了新的解决方案,淘宝技术团队使用Spark实现了多次迭代的机器学习算法和一些高计算复杂度的算法,并将其运用在推荐系统上。
此外,腾讯也是国内比较早开始应用Spark做数据分析的。基于Spark快速迭代的特性,腾讯设计了大数据精准推荐,数据+算法+系统,可支持每天上百亿的请求量。
Spark做数据分析,最大的优势就来源于速度。根据实验环境下的数据对比,同样的程序,在Spark当中,通过内存运行,可以实现比MapReduce快100被,通过磁盘运行,可以实现比MapReduce快10倍,这就是Spark的优势所在。