1.RDD介绍:
RDD,弹性分布式数据集,即分布式的元素集合。在spark中,对所有数据的操作不外乎是创建RDD、转化已有的RDD以及调用RDD操作进行求值。在这一切的背后,Spark会自动将RDD中的数据分发到集群中,并将操作并行化。
Spark中的RDD就是一个不可变的分布式对象集合。每个RDD都被分为多个分
转载
2024-10-22 14:47:55
8阅读
Spark常用代码 文章目录Spark常用代码1. 创建RDD方法2. 专门读取小文件wholeTextFiles3. rdd的分区数4. Transformation函数以及Action函数4.1 Transformation函数4.2 Action函数4.3 其他常见的函数5. 重分区函数6. 聚合函数6.1 基础聚合函数6.2 Key-Value类型的聚合函数6.3 join相关操作7. 搜
转载
2023-08-28 22:59:13
70阅读
在编写spark sql代码前,需要新建maven工程,将hadoop下的配置文件core-site.xml和hdfs-site.xml,以及hive中的hive-site.xml拷贝到工程的resource目录下,并在pom.xml中配置jar包信息。 pom.xml <?xml version=
转载
2021-07-28 10:28:00
605阅读
2评论
1.单例模式:确保一个类只有一个实例,并提供一个全局访问点来访问这个唯一的实例。对于单例模式,在单例类的内部创建它的唯一实例,并通过静态方法getInstance()让客户端可以使用它的唯一实例;为了防止在外部对单例类实例化,将其构造函数的可见性设置为private,在单例类内部定义一个singleton类型的静态对象作为供外部共享访问的唯一实例。/**这种单例模式示例有问题存在,下文中会做完善,
转载
2023-10-23 23:00:34
46阅读
DAGScheduler概述:是一个面向Stage层面的调度器;主要入参有:dagScheduler.runJob(rdd, cleanedFunc, partitions, callSite, allowLocal,resultHandler, localProperties.get)rdd: final RDD;cleanedFunc: 计算每个分区的函数;resultHander:
转载
2023-06-30 20:13:08
88阅读
近日常有同学来问我如何阅读代码,关于这个问题的一般性答案我特别提了一个问题并自问自答。出于提供一个实际的例子的考量,正好此前综合地阅读了 Spark 的 RPC 实现、Flink 基于 Akka 的 RPC 实现和 Actor Model 的通信模型,写成本文分享我阅读分布式计算系统 Spark 和 ...
转载
2021-10-13 10:58:00
126阅读
2评论
# 基于Spark的平台设计与实现
随着大数据时代的到来,Apache Spark作为一种快速、通用的大数据处理框架,已被广泛应用于各种场景。本文将介绍基于Spark的平台设计与实现,帮助读者更好地理解Spark的工作原理和实现方式。
## 一、什么是Apache Spark?
Apache Spark是一个开源的大数据处理框架,具有快速、易用、可扩展的特性。它支持多种数据处理任务,包括批处
原创
2024-10-19 07:13:28
138阅读
核心内容: 1、Spark中WordCount的运行原理今天又彻底研究了一下Spark中WordCount的运行原理,在运行逻辑上与Hadoop中的MapReduce有很大的相似之处,今天从数据流动的角度解析Spark的WordCount,即从数据流动的角度来分析数据在Spark中是如何被处理的。 直接分析程序:val lines:RDD[String] = sc.textFile("C:\\
转载
2024-06-30 17:37:54
185阅读
这里写自定义目录标题第一部分 使用 Scala 语言开发 Spark 应用程序一、关于 Spark二、关于 Scala三、案例分析与编程实现1、案例一:词频统计(1)思想(2)编程实现2、案例二:计算平均年龄(1) 思想(2)编程实现3、案例三:人口统计(1)思想(2)编程实现案例四:关键词频率(1)思想(2)编程实现第二部分 使用 Spark SQL 对结构化数据进行统计分析一、关于 Spar
转载
2023-08-21 18:14:05
137阅读
第一章 Spark 性能调优1.1 常规性能调优1.1.1 常规性能调优一:最优资源配置Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spa
转载
2024-07-17 15:30:54
61阅读
SparkSQL和Hive的整合,是一种比较常见的关联处理方式,SparkSQL加载Hive中的数据进行业务处理,同时将计算结果落地回Hive中。exampleidea新建项目,并把hive-site.xml,core-site.xml,hdfs-site.xml文件下载到Resources文件夹下.读取数据object HiveDemo extends App{
private val se
转载
2023-08-20 13:45:17
103阅读
spark 读取hive中的数据scala> import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.hive.HiveContext
scala> val hiveContext = new HiveContext(sc)
//hive中的feigu数据库中表stud_info
scala>
转载
2023-08-29 13:57:06
36阅读
# Spark Java:构建高效RESTful API的框架
在当今快速发展的Web开发领域,构建RESTful API已成为一种常见的需求。Spark Java是一个轻量级的框架,它提供了一种简单而高效的方式来创建RESTful服务。本文将介绍Spark Java的基本用法,并展示如何使用它来构建一个简单的API服务。
## Spark Java简介
Spark Java是一个用Java
原创
2024-07-29 10:52:15
21阅读
一、使用内置hiveps:需要注意内置hive是非常容易出现问题的1.先启动集群/opt/software/spark-2.2.0-bin-hadoop2.7/sbin/start-all.sh2.进入到spark-shell模式/opt/software/spark-2.2.0-bin-hadoop2.7/bin/spark-shell --master spark://hadoop01:707
转载
2023-09-20 06:22:43
91阅读
# Apache Spark 设计与实现指南
Apache Spark 是一个强大的分布式计算框架,广泛用于处理大数据。在本文中,我们将逐步了解如何设计与实现一个基本的 Apache Spark 应用程序。对于刚入行的小白来说,以下是整个流程的概述。
## 处理流程
下面是一张流程表,展示了实现 Apache Spark 应用程序的每个步骤:
| 步骤 | 描述
# Spark设计与实现:一个探索性之旅
Apache Spark是一个开源的大数据处理框架,以其快速的计算能力和丰富的功能而闻名。它能够处理大规模的数据集,无论是在分布式计算环境中还是在本地模式下。本文将深入探讨Spark的设计与实现,提供代码示例,并展示其中的关键概念。
## Spark架构概述
在深入代码之前,理解Spark的架构至关重要。Spark的核心组件包括:
- **Driv
原创
2024-09-05 04:58:50
54阅读
快速上手写spark代码系列:03-开始写一个spark小脚本(1) 快速上手写spark代码系列03-开始写一个spark小脚本1训练背景设置第一步准备数据集第二步读取文件第三步做字段提取生成RDD第四步合并RDD第五步过滤某些字段第六步关联用户第七步关联位置参数第八步选取字段生成新的结果第九步存储成指定文件数目第十步保存到指定位置 训练背景设置上一篇将了RDD操作的各种函数,这一节就把这些函数
转载
2023-12-09 14:38:16
71阅读
一:什么是sparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎, 由加州大学伯克利分校 AMP 实验室 (Algorithms, Machines, and People Lab) 开发,可用来构建大型的、低延迟的数据分析应用程序。Spark在2013年6月进入Apache成为孵化项目,8个月后成为Apache顶级项目,速度之快足见过人之处,Spark以其先进的设计理
转载
2023-10-16 15:13:38
118阅读
GitHub地址(https://github.com/ZTOExpress/fire)Kafka数据源(https://github.com/ZTOExpress/fire/blob/main/docs/connector/kafka.md一api使用)一、API使用使用fire框架可以很方便的消费kafka中的数据,并且支持在同一任务中消费多个kafka集群的多个topic。核心代码仅一行:s
原创
2022-07-13 18:19:58
193阅读
Spark原理与代码实例讲解Spark作为一种分布式大数据处理框架,因其高效、易用和扩展性强而广受欢迎。本文将围绕Spark的原理