sparkconf设置hadoop spark基于hadoop

转载

mob64ca1417736e 2023-08-08 19:43:00

文章标签 sparkconf设置hadoop SQL Hadoop 大数据 文章分类 Spark 大数据

前言: 工欲利其器,必先固其理. 勤学苦练天道酬勤

sparkconf设置hadoop spark基于hadoop_Hadoop

思考:

究竟什么是数据和大数据再探讨
大数据框架如何完成项目搭建
为什么有Hadoop？Hadoop1.x和2.x以及现在3.X变化?
为什么有产生了Spark？

Spark介绍:

Spark是一个开源的类似于Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Spark中的Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。
Spark是MapReduce的替代方案，而且兼容HDFS、Hive，可融入Hadoop的生态系统，以弥补MapReduce的不足。

Spark由来:

Spark 是加州大学伯克利分校AMP实验室（Algorithms Machines and People Lab）开发的通用大数据出来框架。Spark生态栈也称为BDAS，是伯克利AMP实验室所开发的，力图在算法（Algorithms）、机器（Machines）和人（Person）三种之间通过大规模集成来展现大数据应用的一个开源平台。AMP实验室运用大数据、云计算等各种资源以及各种灵活的技术方案，对海量数据进行分析并转化为有用的信息，让人们更好地了解世界。
发展:
Spark 是一种快速、通用、可扩展的大数据分析引擎，2009 年诞生于加州大学伯克利分校 AMPLab，2010 年开源， 2013年6月成为Apache孵化项目，2014年2月成为 Apache 顶级项目，用 Scala进行编写项目框架。

Spark的4大特点:

速度快: 支持内存计算，并且通过DAG（有向无环图）执行引擎支持无环数据流, 所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍，在硬盘中要快10倍。

sparkconf设置hadoop spark基于hadoop_Hadoop_02

2-有多种语言对应API: 支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。

sparkconf设置hadoop spark基于hadoop_Hadoop_03

3-多种框架支持

sparkconf设置hadoop spark基于hadoop_sparkconf设置hadoop_04

4-运行机制: Spark 支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。

sparkconf设置hadoop spark基于hadoop_SQL_05

Spark的模块介绍:
简介: 整个Spark 框架模块包含：Spark Coke、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib，而后四项的能力都是建立在核心引擎之上
Spark Core:

sparkconf设置hadoop spark基于hadoop_SQL_06

Spark SQL: Spark 用来操作结构化数据的程序包。通过 Spark SQL，我们可以使用 SQL操作数据。数据结构：Dataset/DataFrame = RDD + Schema

sparkconf设置hadoop spark基于hadoop_大数据_07

Spark Streaming

sparkconf设置hadoop spark基于hadoop_Hadoop_08

Spark MLlib: 提供常见的机器学习(ML)功能的程序库。包括分类、回归、聚类、协同过滤等，还提供了模型评估、数据导入等额外的支持功能。 数据结构：RDD或者DataFrame

sparkconf设置hadoop spark基于hadoop_SQL_09

Spark GraphX: Spark中用于图计算的API，性能良好，拥有丰富的功能和运算符，能在海量数据上自如地运行复杂的图算法。数据结构：RDD或者DataFrame

sparkconf设置hadoop spark基于hadoop_Hadoop_10

在Full Stack 理想的指引下，Spark 中的Spark SQL 、SparkStreaming 、MLLib 、GraphX 几大子框架和库之间可以无缝地共享数据和操作，这不仅打造了Spark 在当今大数据计算领域其他计算框架都无可匹敌的优势，而且使得Spark 正在加速成为大数据处理中心首选通用计算平台。

Structured Streaming: 数据结构：DataFrame和DataSet

Structured Streaming是建立在SparkSQL引擎之上的可伸缩和高容错的流式处理引擎，可以像操作静态数据的批量计算一样来执行流式计算。当流式数据不断的到达的过程中Spark SQL的引擎会连续不断的执行计算并更新最终结果。简而言之，Structured Streaming提供了快速、可伸缩、可容错、端到端精确的流处理。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。