# Spark学习之路 ## 1. 引言 随着大数据时代的到来,处理海量数据是一个重要的挑战。Apache Spark是一个快速、通用、可扩展的大数据处理框架,被广泛应用于各行各业。本文将介绍Spark的基本概念、特点和使用方法,并使用代码示例进行演示。 ## 2. Spark基础概念 ### 2.1 RDD(Resilient Distributed Datasets) RDD是Spa
原创 2023-08-16 16:35:59
38阅读
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》一、官网介绍1、什么是Spark官网地址:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算
原创 2021-06-10 18:18:18
212阅读
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、分区的概念二、为什么要进行分区三、Spark分区原则及方法3.1 本地模式3.2 YARN模式四、分区器正文一、分区的概念  分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。.
原创 2021-06-10 18:19:22
281阅读
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、分区的概念二、为什么要进行分区三、Spark分区原则及方法3.1 本地模式3.2 YARN模式四、分区器正文一、分区的概念  分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。.
原创 2021-06-10 21:03:53
286阅读
转载 2021-11-04 16:54:28
86阅读
Spark 核心概念简介
原创 2015-12-05 14:41:29
550阅读
目录一、官网介绍 1、什么是Spark 二、Spark的四大特性 1、高效性
转载 2022-01-15 10:26:40
58阅读
一、RDD的概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执 ...
转载 2021-07-29 10:06:00
225阅读
2评论
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》一、官网介绍1、什么是Spark官网地址:http://spark.apache.org/Apache Spark™是用于大规模数据处理的统一分析引擎。从右侧最后一条新闻看,Spark也用于AI人工智能spark是一个实现快速通用的集群计算平台。它是由加州大学伯克利分校AMP实验室 开发的通用内存并行计算框架,用来构建大型的、低延迟的数据分析应用程序。它扩展了广泛使用的MapReduce计算
原创 2021-06-10 21:03:05
452阅读
数仓是根本,实时是趋势!
转载 2021-08-11 15:19:17
152阅读
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、Spark中的基本概念二、Spark的运行流程2.1 Spark的基本运行流程三、Spark在不同集群中的运行架构3.1 Spark on Standalone运行过程3.2 Spark on YARN运行过程正文一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkCo..
原创 2021-06-10 18:18:11
187阅读
  目录 一、RDD的概述1.1 什么是RDD?1.2 RDD的属性1.3 WordCount粗图解RDD二、RDD的创建方式2.1 通过读取文件生成的2.2 通过并行化的方式创建RDD2.3 其他方式三、RDD编程API3.1 Transformation3.2 Action3.3 Spark WordCount代码编写3.4 WordCount执行过程图四、RDD的宽依赖和窄依赖4.1 RD
原创 2021-06-11 22:35:20
312阅读
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、Spark中的基本概念二、Spark的运行流程2.1 Spark的基本运行流程三、Spark在不同集群中的运行架构3.1 Spark on Standalone运行过程3.2 Spark on YARN运行过程正文一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkCo..
原创 2021-06-10 21:02:57
253阅读
  目录 一、RDD的概述1.1 什么是RDD?1.2 RDD的属性1.3 WordCount粗图解RDD二、RDD的创建方式2.1 通过读取文件生成的2.2 通过并行化的方式创建RDD2.3 其他方式三、RDD编程API3.1 Transformation3.2 Action3.3 Spark WordCount代码编写3.4 WordCount执行过程图四、RDD的宽依赖和窄依赖4.1 RD
转载 2021-06-11 22:34:47
147阅读
Spark2.1spark-submit的使用执行SparkPi读取和写入文件:# 1. 读取和写入本地文件系统 bin/spark-submit \ --class com.atguigu.spark.WordCount \ --master spark://master:7077 \ --executor-memory 1G \ ./wordcount.jar \ file:///home/x
转载 2023-07-07 23:28:45
46阅读
学习spark的://www.c
原创 2023-05-11 13:05:15
86阅读
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录Transformation算子基本的初始化一、map、flatMap、mapParations、mapPartitionsWithIndex1.1 map1.2 flatMap1.3 mapPartitions1.4 mapPartitionsWithIndex二、reduce、reduceByKey2.1 reduce2.2 reduceByKey三、union,join和groupBy
原创 2021-06-10 18:18:13
134阅读
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录Transformation算子基本的初始化一、map、flatMap、mapParations、mapPartitionsWithIndex1.1 map1.2 flatMap1.3 mapPartitions1.4 mapPartitionsWithIndex二、reduce、reduceByKey2.1 reduce2.2 reduceByKey三、union,join和groupBy
原创 2021-06-10 21:02:58
125阅读
che.org/docs/...
原创 2023-05-11 10:20:13
207阅读
《2021年最新版大数据面试题全面开启更新》欢迎关注github《大数据成神之路》目录一、SparkSQL的进化之路二、认识SparkSQL2.1 什么是SparkSQL?2.2 SparkSQL的作用2.3 运行原理2.4 特点2.5 SparkSession2.7 DataFrames三、RDD转换成为DataFrame3.1 方式一:通过case class创建DataFrames(反射)3.2 方式二:通过structType创建DataFrames...
原创 2021-06-10 18:19:21
192阅读
  • 1
  • 2
  • 3
  • 4
  • 5