scala特点面向对象的,函数式编程的,静态类型的,可扩展的,可以交互操作的idea中下载安装scala插件打开idea-->plugins-->搜索scala-->点击installed安装创建scala程序进入New Project:   选着对应的jdk和scala-sdk进行创建:   创建成功后可以看到一下目录
转载 2024-10-02 10:37:17
0阅读
# Spark两种算子 Apache Spark是一个快速通用的大数据处理引擎,提供了丰富的API和内置的优化机制,使得用户可以轻松地进行复杂的数据处理和分析。在Spark中,算子是一非常重要的概念,它是Spark程序中的基本操作单元。Spark的算子可以分为两种类型:Transformation和Action。本文将详细介绍这两种算子,并提供代码示例。 ## Transformation
原创 2024-02-22 06:23:22
78阅读
算子:转换算子:RDD进行内部转化,不消耗资源行动算子:执行job,消耗资源,要看到执行结果必须要行动算子控制算子 转换算子map 遍历的单位是每一条记录 , 返回值是一条记录flatMap 遍历的单位也是每一条记录,但是返回值可以是多条filter 过滤算子 true为保留 false 过滤掉mapPartitions 遍历的单位是每一个分区,每一个分区的数据会一次性加载一个集合里面m
spark on mesos 有粗粒度(coarse-grained)和细粒度(fine-grained)两种运行模式,细粒度模式在spark2.0后开始弃用。细粒度模式优点spark默认运行的就是细粒度模式,这种模式支持资源的抢占,spark和其他frameworks以非常细粒度...
转载 2015-07-28 14:27:00
142阅读
2评论
spark on mesos 有粗粒度(coarse-grained)和细粒度(fine-grained)两种运行模式,细粒度模式在spark2.0后开始弃用。细粒度模式优点spark默认运行的就是细粒度模式,这种模式支持资源的抢占,spark和其他frameworks以非常细粒度...
转载 2015-07-28 14:27:00
106阅读
2评论
Spark On Yarn的优势 每个Spark executor作为一个YARN容器(container)运行。Spark可以使得多个Tasks在同一个容器(container)里面运行 1. Spark支持资源动态共享,运行于Yarn的框架都共享一个集中配置好的资源池 2. 可以很方便的利用Ya ...
转载 2021-09-08 21:38:00
1495阅读
2评论
Spark的算子的分类 从大方向来说,Spark 算子大致可以分为以下类: 1)Transformation 变换/转换算子:这种变换并不触发提交作业,完成作业中间过程处理。 Transformation 操作是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要 ...
转载 2021-08-13 11:48:00
566阅读
2评论
# Spark链接Kafka的两种方式 在大数据处理场景中,Apache Spark与Kafka的结合是非常常见的。Kafka作为一个高吞吐量的消息队列,能够有效地传输流数据,而Spark则提供强大的数据处理能力。本文将探讨Spark连接Kafka的两种方式:Spark Streaming与Structured Streaming,并给出代码示例。 ## 一、Apache Kafka简介 A
原创 7月前
70阅读
> 这是一篇关于讲解spark两种核心shuffle(包括 优化和未优化的hashshuffle 和 普通的和bypass的sortshuffle) ## 1-1 未经优化的HashShuffle 在executor中,每个task对应一个buffer,每个buffer中的文件个数为key的数量。即**小文件的个数=task数 * key数** ### 流程如下 ![image.png](h
原创 2021-07-01 15:47:57
920阅读
1点赞
在使用Apache Spark进行大规模数据处理时,我们常常会遇到“Spark参数有两种设置方式”的问题。这意味着用户可以通过不同的方式来调整Spark的配置参数,而这些参数配置的选择直接影响到Spark应用的性能与稳定性。本文将详细探讨这个问题,为你提供全面的解决方案和最佳实践。 --- ## 背景定位 在一次企业大数据项目中,我们需要优化Spark作业的性能。项目开始时,使用的配置仅依赖
# 实现Spark程序在YARN两种模式 ## 介绍 本文将教会一位刚入行的开发者如何在YARN上运行Spark程序,并介绍两种模式:client模式和cluster模式。这些模式可以根据需求选择不同的部署方式。 ## 流程概述 下面是实现Spark程序在YARN上运行的整体流程: | 步骤 | 描述 | | ---- | ---- | | 1 | 配置Hadoop集群和Spark环境 |
原创 2023-07-22 12:46:12
61阅读
spark读取文件的两种方式(1)从本机读取scala>
原创 2022-11-02 15:12:34
207阅读
HA高可用性:High Availability,如果有些数据丢失,或者节点挂掉;那么不能让你的实时计算程序挂了;必须做一些数据上的冗余副本,保证你的实时计算程序可以7 * 24小时的运转1、updateStateByKey、window等有状态的操作,自动进行checkpoint,必须设置checkpoint目录 checkpoint目录:容错的文件系统的目录,比如说,常用的是HDFSSpark
在 MapReduce 框架中, Shuffle 阶段是连接 Map 与 Reduce 之间的桥梁, Map 阶段通过 Shuffle 过程将数据输出到 Reduce 阶段中。由于 Shuffle 涉及磁盘的读写和网络 I/O,因此 Shuffle 性能的高低直接影响整个程序的性能。 Spark 也有 Map 阶段和 Reduce 阶段,因此也会出现 Shuffle 。 文章都会首发在公众号【五
推荐 原创 2021-09-05 10:53:34
4010阅读
# 从Spark连接Kafka的两种API 在大数据处理中,Spark是一个非常流行的框架,而Kafka是一个高性能的分布式消息队列系统。当需要将这者结合起来进行数据处理时,就需要使用Spark连接Kafka。在这篇文章中,我们将介绍Spark连接Kafka的两种API,以及它们的使用方法和代码示例。 ## Spark连接Kafka的两种API Spark连接Kafka有两种API,分别是
原创 2024-06-18 05:39:23
65阅读
A:她:“老公,帮我接杯水呗。”    他:“石头剪子布,谁输了谁去。”    她:“算了,我自己去吧。”   B:他们坐在一起看韩剧。她起身。    他问“干吗去?”    她:“去接杯水。”    他:“你坐这看吧,我去给你接。” 女人多可怜,她对男人唯一的要求就是“疼她”。
转载 精选 2009-06-11 11:33:05
1094阅读
A:她:“老公,帮我接杯水呗。”    他:“石头剪子布,谁输了谁去。”    她:“算了,我自己去吧。”   B:他们坐在一起看韩剧。她起身。    他问“干吗去?”    她:“去接杯水。”    他:“你坐这看吧,我去给你接。” 女人多可怜,她对男人唯一的要求就是“疼她
转载 精选 2009-08-09 14:41:07
640阅读
1评论
女人多可怜,她对男人唯一的要求就是“疼她”。你可以什么都没有,只要你疼她,她就有足够的勇气把自己的下半辈子交给你。
转载 精选 2009-06-11 10:05:05
1466阅读
1点赞
1评论
spark不易OOM的groupby
原创 2022-07-24 00:06:37
217阅读
一、前述Spark中Standalone有两种提交模式,一个是Standalone-client模式,一个是Standalone-master模式。二、具体        1、Stand
原创 2022-12-30 16:48:46
149阅读
  • 1
  • 2
  • 3
  • 4
  • 5