Spark(一)

(一)Spark的优势:
Spark 是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台
大数据项目的MapReduce 引擎的使用将下降,由Apache Spark 取代
2015年6月,spark最大的集群来自于腾讯-8000个节点
(二)Spark为什么会流行:

原因(一):优秀的数据模型和计算抽象.

  • 磁盘的IO以及数据的序列化.
  • 它可以让用户的显示的中间数据结果集保存在内存中.
  • 中间数据在内存中,运行数据快、操作数据的API丰富,开发速度快.

原因(二):完善的生态圈

  • Spark Core:实现了 Spark 的基本功能,包含RDD、任务调度、内存管理、错误恢复、与存储系统交互等模块。
  • Spark SQL:是 Spark 用来操作结构化数据的程序包。通过 Spark SQL,我们可以使用 SQL操作数据。
  • Spark Streaming:是 Spark 提供的对实时数据进行流式计算的组件。提供了用来操作数据流的 API。
  • SparkMLlib:提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等,还提供了模型评估、数据导入等额外的支持功能。
  • GraphX(图计算):GraphX是Spark中用于图计算的API,性能良好,拥有丰富的功能和运算符,能在海量数据上自如地运行复杂的图算法。
  • 集群管理器:Spark 设计为可以高效地在一个计算节点到数千个计算节点之间伸缩计算。
    ★注意:
    尽管Spark相对于Hadoop而言具有较大优势,但Spark并不能完全替代Hadoop,Spark主要用于替代Hadoop中的MapReduce计算模型。存储依然可以使用HDFS,但是中间结果可以存放在内存中;调度可以使用Spark内置的,也可以使用更成熟的调度系统YARN等
    实际上,Spark已经很好地融入了Hadoop生态圈,并成为其中的重要一员,它可以借助于YARN实现资源调度管理,借助于HDFS实现分布式存储。
    此外,Hadoop可以使用廉价的、异构的机器来做分布式存储与计算,但是,Spark对硬件的要求稍高一些,对内存与CPU有一定的要求。
(三)Spark介绍:
Apache Spark是用于大规模数据处理的统一分析引擎
官网:
http://spark.apache.org
http://spark.apachecn.org

大数据 spark2和spark3区别 spark大数据方案_数据