spark学习之路_51CTO博客

spark学习之路

# Spark学习之路 ## 1. 引言随着大数据时代的到来，处理海量数据是一个重要的挑战。Apache Spark是一个快速、通用、可扩展的大数据处理框架，被广泛应用于各行各业。本文将介绍Spark的基本概念、特点和使用方法，并使用代码示例进行演示。 ## 2. Spark基础概念 ### 2.1 RDD（Resilient Distributed Datasets） RDD是Spa

文本文件

Streaming

数据

原创

mob649e8157aaee

2023-08-16 16:35:59

38阅读

Spark学习之路（一）Spark初识

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》一、官网介绍1、什么是Spark官网地址：http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看，Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算

Spark教程

Spark

原创

wx5c7a97e3804fd

2021-06-10 18:18:18

212阅读

Spark学习之路（十七）Spark分区

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、分区的概念二、为什么要进行分区三、Spark分区原则及方法3.1　本地模式3.2　YARN模式四、分区器正文一、分区的概念　　分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD(准确来说是作业最后一个RDD)的分区数决定。.

Spark教程

Spark

原创

wx5c7a97e3804fd

2021-06-10 18:19:22

281阅读

Spark学习之路（十七）Spark分区

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、分区的概念二、为什么要进行分区三、Spark分区原则及方法3.1　本地模式3.2　YARN模式四、分区器正文一、分区的概念　　分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD(准确来说是作业最后一个RDD)的分区数决定。.

Spark教程

大数据技术

原创

蜡笔小新v

2021-06-10 21:03:53

286阅读

Spark学习之路（一）Spark初识

spark

big data

scala

数据

mapreduce

转载

wx5caecf2ed0645

2021-11-04 16:54:28

86阅读

Spark学习之路---Spark核心概念

Spark 核心概念简介

Spark RDD

原创

AIDevROS

2015-12-05 14:41:29

550阅读

Spark学习之路（一）Spark初识

目录一、官网介绍 1、什么是Spark 二、Spark的四大特性 1、高效性

spark

big data

scala

数据

mapreduce

转载

wx5caecf2ed0645

2022-01-15 10:26:40

58阅读

Spark学习之路Spark之RDD

一、RDD的概述 1.1　什么是RDD？ RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩性。RDD允许用户在执 ...

spark

java

apache

依赖关系

数据集

转载

mb5fdb0f269f12c

2021-07-29 10:06:00

225阅读

2评论

Spark学习之路（一）Spark初识

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》一、官网介绍1、什么是Spark官网地址：http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看，Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室开发的通用内存并行计算框架，用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算

Spark教程

大数据技术

原创

蜡笔小新v

2021-06-10 21:03:05

452阅读

Spark学习之路(建议收藏)

数仓是根本，实时是趋势！

spark

sql

scala

大数据开发

机器学习

转载

wb57e7be70e3b57

2021-08-11 15:19:17

152阅读

Spark学习之路（七）Spark 运行流程

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、Spark中的基本概念二、Spark的运行流程2.1　Spark的基本运行流程三、Spark在不同集群中的运行架构3.1　Spark on Standalone运行过程3.2　Spark on YARN运行过程正文一、Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkCo..

Spark教程

Spark

原创

wx5c7a97e3804fd

2021-06-10 18:18:11

187阅读

Spark学习之路（三）Spark之RDD

目录一、RDD的概述1.1　什么是RDD？1.2　RDD的属性1.3　WordCount粗图解RDD二、RDD的创建方式2.1　通过读取文件生成的2.2　通过并行化的方式创建RDD2.3　其他方式三、RDD编程API3.1　Transformation3.2　Action3.3　Spark WordCount代码编写3.4　WordCount执行过程图四、RDD的宽依赖和窄依赖4.1　RD

Spark

原创

wx5c7a97e3804fd

2021-06-11 22:35:20

312阅读

Spark学习之路（七）Spark 运行流程

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、Spark中的基本概念二、Spark的运行流程2.1　Spark的基本运行流程三、Spark在不同集群中的运行架构3.1　Spark on Standalone运行过程3.2　Spark on YARN运行过程正文一、Spark中的基本概念（1）Application：表示你的应用程序（2）Driver：表示main()函数，创建SparkContext。由SparkCo..

Spark教程

大数据技术

原创

蜡笔小新v

2021-06-10 21:02:57

253阅读

Spark学习之路（三）Spark之RDD

目录一、RDD的概述1.1　什么是RDD？1.2　RDD的属性1.3　WordCount粗图解RDD二、RDD的创建方式2.1　通过读取文件生成的2.2　通过并行化的方式创建RDD2.3　其他方式三、RDD编程API3.1　Transformation3.2　Action3.3　Spark WordCount代码编写3.4　WordCount执行过程图四、RDD的宽依赖和窄依赖4.1　RD

Spark

转载

蜡笔小新v

2021-06-11 22:34:47

147阅读

spark学习之路 spark在线教程

Spark2.1spark-submit的使用执行SparkPi读取和写入文件：# 1. 读取和写入本地文件系统 bin/spark-submit \ --class com.atguigu.spark.WordCount \ --master spark://master:7077 \ --executor-memory 1G \ ./wordcount.jar \ file:///home/x

spark学习之路

spark

学习

scala

ide

转载

jimoshalengzhou

2023-07-07 23:28:45

46阅读

Spark学习之路 -网站地址

学习spark的://www.c

依赖关系

读取文件

并行化

原创

wx5e08c58ce3d7e

2023-05-11 13:05:15

86阅读

Spark学习之路（六）Spark Transformation和Action

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录Transformation算子基本的初始化一、map、flatMap、mapParations、mapPartitionsWithIndex1.1　map1.2　flatMap1.3　mapPartitions1.4　mapPartitionsWithIndex二、reduce、reduceByKey2.1　reduce2.2　reduceByKey三、union，join和groupBy

Spark教程

Spark

原创

wx5c7a97e3804fd

2021-06-10 18:18:13

134阅读

Spark学习之路（六）Spark Transformation和Action

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录Transformation算子基本的初始化一、map、flatMap、mapParations、mapPartitionsWithIndex1.1　map1.2　flatMap1.3　mapPartitions1.4　mapPartitionsWithIndex二、reduce、reduceByKey2.1　reduce2.2　reduceByKey三、union，join和groupBy

Spark教程

大数据技术

原创

蜡笔小新v

2021-06-10 21:02:58

125阅读

Spark学习之路--官方文档+简单

che.org/docs/...

spark

apache

html

原创

wx5e08c58ce3d7e

2023-05-11 10:20:13

207阅读

Spark学习之路（十八）SparkSQL简单使用

《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、SparkSQL的进化之路二、认识SparkSQL2.1　什么是SparkSQL?2.2　SparkSQL的作用2.3　运行原理2.4　特点2.5　SparkSession2.7　DataFrames三、RDD转换成为DataFrame3.1　方式一：通过case class创建DataFrames（反射）3.2　方式二：通过structType创建DataFrames...

Spark教程

Spark

原创

wx5c7a97e3804fd

2021-06-10 18:19:21

192阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

spark学习之路

spark学习之路

Spark学习之路（一）Spark初识

Spark学习之路（十七）Spark分区

Spark学习之路（十七）Spark分区

Spark学习之路（一）Spark初识

Spark学习之路---Spark核心概念

Spark学习之路（一）Spark初识

Spark学习之路Spark之RDD

Spark学习之路（一）Spark初识

Spark学习之路(建议收藏)

Spark学习之路（七）Spark 运行流程

Spark学习之路（三）Spark之RDD

Spark学习之路（七）Spark 运行流程

Spark学习之路（三）Spark之RDD

spark学习之路 spark在线教程

Spark学习之路 -网站地址

Spark学习之路（六）Spark Transformation和Action

Spark学习之路（六）Spark Transformation和Action

Spark学习之路--官方文档+简单

Spark学习之路（十八）SparkSQL简单使用

Spark学习之路（十八）SparkSQL简单使用

Spark学习之路（五）Spark伪分布式安装

Spark学习之路（二十三）SparkStreaming入门

Spark学习之路（二十）SparkSQL的元数据

【学习之路】编程学习之路-1

Spark学习之路（十一）SparkCore的调优之Spark内存模型

Spark学习之路（四）Spark的广播变量和累加器

51CTO博客

spark学习之路

spark学习之路

Spark学习之路 （一）Spark初识

Spark学习之路 （十七）Spark分区

Spark学习之路 （十七）Spark分区

Spark学习之路 （一）Spark初识

Spark学习之路---Spark核心概念

Spark学习之路 （一）Spark初识

Spark学习之路Spark之RDD

Spark学习之路 （一）Spark初识

Spark学习之路(建议收藏)

Spark学习之路 （七）Spark 运行流程

Spark学习之路 （三）Spark之RDD

Spark学习之路 （七）Spark 运行流程

Spark学习之路 （三）Spark之RDD

spark学习之路 spark在线教程

Spark学习之路 -网站地址

Spark学习之路 （六）Spark Transformation和Action

Spark学习之路 （六）Spark Transformation和Action

Spark学习之路--官方文档+简单

Spark学习之路 （十八）SparkSQL简单使用

Spark学习之路 （十八）SparkSQL简单使用

Spark学习之路 （五）Spark伪分布式安装

Spark学习之路 （二十三）SparkStreaming入门

Spark学习之路 （二十）SparkSQL的元数据

【学习之路】编程学习之路-1

Spark学习之路 （十一）SparkCore的调优之Spark内存模型

Spark学习之路 （四）Spark的广播变量和累加器

Spark学习之路（一）Spark初识

Spark学习之路（十七）Spark分区

Spark学习之路（十七）Spark分区

Spark学习之路（一）Spark初识

Spark学习之路（一）Spark初识

Spark学习之路（一）Spark初识

Spark学习之路（七）Spark 运行流程

Spark学习之路（三）Spark之RDD

Spark学习之路（七）Spark 运行流程

Spark学习之路（三）Spark之RDD

Spark学习之路（六）Spark Transformation和Action

Spark学习之路（六）Spark Transformation和Action

Spark学习之路（十八）SparkSQL简单使用

Spark学习之路（十八）SparkSQL简单使用

Spark学习之路（五）Spark伪分布式安装

Spark学习之路（二十三）SparkStreaming入门

Spark学习之路（二十）SparkSQL的元数据

Spark学习之路（十一）SparkCore的调优之Spark内存模型

Spark学习之路（四）Spark的广播变量和累加器