spark 数据分发机制 spark分析数据

转载

mob64ca140eb362 2023-08-05 11:01:50

文章标签 spark 数据分发机制大数据 spark 数据分析 Hadoop 文章分类 Spark 大数据

Spark发展到今年，也已经有了十个年头了，在这十年的时间里，Spark在数据分析方面的优势得以显现，成为越来越多的企业的选择。Spark做数据分析，得益于Spark计算框架的优势，也获得了很好的竞争优势。今天我们就来聊聊Spark大数据分析的优势。

在Spark出现之前，大数据领域占绝对优势的计算框架，非Hadoop莫属，但是在一段时间的发展之后，我们发现，面对实时流数据的处理需求，Hadoop明显不能满足了。而实时流数据的处理，在大数据发展之下，存在巨大需求的。

spark 数据分发机制 spark分析数据_大数据

而Spark正是在这样的背景下，开始得到发展，到2014年，Hadoop的四大商业机构均宣称全力支持Spark，今后将全面接收基于Spark编写的数据挖掘与分析算法，多家世界顶级的数据企业例如Google，Facebook等现已纷纷转向Spark框架。

这也说明，Spark做数据分析，也得到了业界的广泛认可。而在国内，Spark大数据分析同样受到重视。

以阿里巴巴为例，阿里巴巴的搜索和广告业务，早期使用的是Mahout和MapReduce来解决机器学习方面的问题，但是在效率和代码维护方面并不理想。Spark的出现，一定程度上提供了新的解决方案，淘宝技术团队使用Spark实现了多次迭代的机器学习算法和一些高计算复杂度的算法，并将其运用在推荐系统上。

此外，腾讯也是国内比较早开始应用Spark做数据分析的。基于Spark快速迭代的特性，腾讯设计了大数据精准推荐，数据+算法+系统，可支持每天上百亿的请求量。

Spark做数据分析，最大的优势就来源于速度。根据实验环境下的数据对比，同样的程序，在Spark当中，通过内存运行，可以实现比MapReduce快100被，通过磁盘运行，可以实现比MapReduce快10倍，这就是Spark的优势所在。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。