上次,小编给大家介绍什么是大数据以及大数据产生的五大原因!那,大数据来了,作为程序员的我们如何迎接大数据的到来?那便只有学好大数据,其中的重中之重我觉得就是Spark ,那什么是spark呢?或者说Spark是干嘛的 ...
上次,小编给大家介绍什么是大数据以及大数据产生的五大原因! 那,大数据来了,作为程序员的我们如何迎接大数据的到来? 那便只有学好大数据,其中的重中之重我觉得就是Spark ,那什么是spark呢?或者说Spark是干嘛的? 我总结出四点: 1、Spark分布式的计算框架 2、类似Hadoop生态圈中的MapReduce(分布式计算框架) 3、计算思想和MR(MapReduce简称)非常的相似,都是分而治之的思想 4、Spark比MR火 为什么Spark比MR火呢?就是因为spark的优势所在 1、Speed 速度很快 从时间上来看,Spark计算效率比MR要高100倍以上 2、使用方便 1)支持使用多门语言来编写Spark Application 2)Spark提供了80多种方法来供我们使用 3、强通用性 Spark生态圈中的组件都是基于SparkCore封装起来 庞大的生态圈并且还能无缝集成 4、强适用性 1)Spark Application可以运行在各种各样的资源调度框架上 2)Spark可以接受上百种数据源 spark的现状 |