scala特点面向对象的,函数式编程的,静态类型的,可扩展的,可以交互操作的idea中下载安装scala插件打开idea-->plugins-->搜索scala-->点击installed安装创建scala程序进入New Project: 选着对应的jdk和scala-sdk进行创建: 创建成功后可以看到一下目录
转载
2024-10-02 10:37:17
0阅读
# Spark的两种算子
Apache Spark是一个快速通用的大数据处理引擎,提供了丰富的API和内置的优化机制,使得用户可以轻松地进行复杂的数据处理和分析。在Spark中,算子是一种非常重要的概念,它是Spark程序中的基本操作单元。Spark的算子可以分为两种类型:Transformation和Action。本文将详细介绍这两种算子,并提供代码示例。
## Transformation
原创
2024-02-22 06:23:22
78阅读
算子:转换算子:RDD进行内部转化,不消耗资源行动算子:执行job,消耗资源,要看到执行结果必须要行动算子控制算子 转换算子map 遍历的单位是每一条记录 , 返回值是一条记录flatMap 遍历的单位也是每一条记录,但是返回值可以是多条filter 过滤算子 true为保留 false 过滤掉mapPartitions 遍历的单位是每一个分区,每一个分区的数据会一次性加载一个集合里面m
spark on mesos 有粗粒度(coarse-grained)和细粒度(fine-grained)两种运行模式,细粒度模式在spark2.0后开始弃用。细粒度模式优点spark默认运行的就是细粒度模式,这种模式支持资源的抢占,spark和其他frameworks以非常细粒度...
转载
2015-07-28 14:27:00
142阅读
2评论
spark on mesos 有粗粒度(coarse-grained)和细粒度(fine-grained)两种运行模式,细粒度模式在spark2.0后开始弃用。细粒度模式优点spark默认运行的就是细粒度模式,这种模式支持资源的抢占,spark和其他frameworks以非常细粒度...
转载
2015-07-28 14:27:00
106阅读
2评论
Spark On Yarn的优势 每个Spark executor作为一个YARN容器(container)运行。Spark可以使得多个Tasks在同一个容器(container)里面运行 1. Spark支持资源动态共享,运行于Yarn的框架都共享一个集中配置好的资源池 2. 可以很方便的利用Ya ...
转载
2021-09-08 21:38:00
1495阅读
2评论
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下两类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要 ...
转载
2021-08-13 11:48:00
566阅读
2评论
# Spark链接Kafka的两种方式
在大数据处理场景中,Apache Spark与Kafka的结合是非常常见的。Kafka作为一个高吞吐量的消息队列,能够有效地传输流数据,而Spark则提供强大的数据处理能力。本文将探讨Spark连接Kafka的两种方式:Spark Streaming与Structured Streaming,并给出代码示例。
## 一、Apache Kafka简介
A
> 这是一篇关于讲解spark的两种核心shuffle(包括
优化和未优化的hashshuffle 和 普通的和bypass的sortshuffle)
## 1-1 未经优化的HashShuffle
在executor中,每个task对应一个buffer,每个buffer中的文件个数为key的数量。即**小文件的个数=task数 * key数**
### 流程如下
从本机读取scala>
原创
2022-11-02 15:12:34
207阅读
HA高可用性:High Availability,如果有些数据丢失,或者节点挂掉;那么不能让你的实时计算程序挂了;必须做一些数据上的冗余副本,保证你的实时计算程序可以7 * 24小时的运转1、updateStateByKey、window等有状态的操作,自动进行checkpoint,必须设置checkpoint目录 checkpoint目录:容错的文件系统的目录,比如说,常用的是HDFSSpark
在 MapReduce 框架中, Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁, Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网络 I/O,因此 Shuffle 性能的高低直接影响整个程序的性能。 Spark 也有 Map 阶段和 Reduce 阶段,因此也会出现 Shuffle 。
文章都会首发在公众号【五
推荐
原创
2021-09-05 10:53:34
4010阅读
# 从Spark连接Kafka的两种API
在大数据处理中,Spark是一个非常流行的框架,而Kafka是一个高性能的分布式消息队列系统。当需要将这两者结合起来进行数据处理时,就需要使用Spark连接Kafka。在这篇文章中,我们将介绍Spark连接Kafka的两种API,以及它们的使用方法和代码示例。
## Spark连接Kafka的两种API
Spark连接Kafka有两种API,分别是
原创
2024-06-18 05:39:23
65阅读
A:她:“老公,帮我接杯水呗。” 他:“石头剪子布,谁输了谁去。” 她:“算了,我自己去吧。” B:他们坐在一起看韩剧。她起身。 他问“干吗去?” 她:“去接杯水。” 他:“你坐这看吧,我去给你接。” 女人多可怜,她对男人唯一的要求就是“疼她”。
转载
精选
2009-06-11 11:33:05
1094阅读
A:她:“老公,帮我接杯水呗。” 他:“石头剪子布,谁输了谁去。” 她:“算了,我自己去吧。” B:他们坐在一起看韩剧。她起身。 他问“干吗去?” 她:“去接杯水。” 他:“你坐这看吧,我去给你接。” 女人多可怜,她对男人唯一的要求就是“疼她
转载
精选
2009-08-09 14:41:07
640阅读
1评论
女人多可怜,她对男人唯一的要求就是“疼她”。你可以什么都没有,只要你疼她,她就有足够的勇气把自己的下半辈子交给你。
转载
精选
2009-06-11 10:05:05
1466阅读
点赞
1评论
spark不易OOM的groupby
原创
2022-07-24 00:06:37
217阅读
一、前述Spark中Standalone有两种提交模式,一个是Standalone-client模式,一个是Standalone-master模式。二、具体 1、Stand
原创
2022-12-30 16:48:46
149阅读