一 、为什么需要sort-based-shuffle?1.shuffle一般包含两阶段任务: 第一部分,产生shuffle数据的阶段(map阶段,额外补充,需要实现ShuffleManager中getWriter来写数据,数据可以利用BlockManager写到memory,disk,tachyon等,例如想非常快的shuffle,此时可以考虑把数据写在内存中,但是内存不稳定,建议采用MEMOR
转载
2024-07-07 13:56:21
24阅读
Spark处理字符串日期的max和min的方式
Spark处理数据存储到Hive的方式
Spark处理新增列的方式map和udf、functions
Spark处理行转列pivot的使用
Python 3.5.3
Spark1.6.2
原创
2017-12-02 22:06:17
1247阅读
点赞
cache checkpoint groupBykey和reduceByKey区别 BlockManager MapReduce过程 RDD的五大特性 RDD的依赖关系 shuffle过程 spark搭建 spark运行时 spark-client spark-cluster 资源调度和任务申请 ...
转载
2021-07-21 19:53:00
227阅读
2评论
CAN全称为“ControllerAreaNetwork”,简称CAN,是国际上应用最广泛的现场总线之一。在当前
转载
2022-08-08 17:49:51
266阅读
1.Spark集群部署及开发环境搭建。内容包括Hadoop集群、Spark集群搭建,Intellij IDEA Spark开发环境搭建, Spark Shell的使用等。2.Spark 运行原理。内容包括spark脚本文件解析、Spark 几种不同运行方式、RDD原理、宽依赖与窄依赖、Spark 任务调度等。3.Spark 编程模型,介绍Spark编程模型、对常用的transformation及a
原创
2015-10-13 10:59:32
826阅读
Spark基础 Spark优势 优秀的数据模型与丰富计算抽象 Spark 借鉴了 MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。 让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的 API 提高了开发速度。 完善的生态圈-fullstack Spark ...
转载
2021-10-13 20:01:00
418阅读
2评论
笔者曾经在本专栏分享了大量CKA&CKS考点相关的内容,由于某些原因被ju
原创
2022-08-29 10:56:03
184阅读
摘要:PMP®(项目管理专业人士认证)知识点对于项目管理人员和想要取得PMP®认证的人来说非常重要,为了让大家更好备考PMP®考试,接下来,我们说说PMP®知识点:风险管理概述。
转载
2023-11-06 02:19:44
27阅读
流媒体流媒体,又叫流式媒体,是边传边播的媒体,是多媒体的一种。边传边播是指媒体提供商在网络上传输媒体的同时,用户一边不断地接收并观看或收听被传输的媒体。“流”媒体的“流”指的是这种媒体的传输方式(流的方式),而并不是指媒体本身。流媒体分为直播和点播,被广泛运用于在线直播、视频点播、远程教育、实时视频会议等领域。流媒体协议流媒体协议包括RTP,RTCP,RTMP,MMS,HLS,HTTP-FLV等。
转载
2019-03-21 16:11:57
1138阅读
笔者曾经在本专栏分享了大量CKA&CKS考点相关的内容,由于某些原因
原创
2022-08-29 10:56:10
531阅读
# Spark重要知识点总结
## 引言
Spark是一个开源的大数据处理框架,具有高效、可扩展和易用的特点。本文旨在帮助开发者快速掌握Spark的重要知识点。我们将按照以下步骤进行讲解,并提供相应的代码示例。
## 步骤概要
| 步骤 | 内容 |
| --- | --- |
| 步骤一 | 安装和配置Spark环境 |
| 步骤二 | 创建Spark应用程序 |
| 步骤三 | Spar
原创
2023-09-05 14:27:37
86阅读
一、基础知识:1、yarn:资源调度框架2、hdfs(Hadoop Distribute File System),基于“磁盘
原创
2022-11-29 16:13:05
205阅读
Spark core面试篇02 1.cache后面能不能接其他算子,它是不是action操作? 答:cache可以接其他算子,但是接了算子之后,起不到缓存应有的效果,因为会重新触发cache。 cache不是action操作 2.reduceByKey是不是action? 答:不是,很多人都会以为是action,reduce rdd是action 3.数据本地性是在哪个环节确定的? 具体的task
转载
2023-09-29 14:03:37
102阅读
目录一、基础简介二、spark四大特点1、速度快2、易使用3、通用性强4、运行方式三、spark框架模块四、运行方式五、spark的架构角色六、总结一、基础简介 Spark是一种通用的大数据计算框架,使用了内存内运算技术。今天加米谷大数据就来简单介绍一下Spark的简史。 Spark的简史 1、2009年,Spark诞生于伯克利大学AMPLab,属于伯克利大学的研究性项目; 2、2010 年,通过
转载
2023-08-02 16:31:36
106阅读
第 1 部分 Spark 基础Spark 概述本章介绍 Spark 的一些基本认识.Spark官方地址一:什么是 SparkSpark 是一个快速(基于内存), 通用, 可扩
原创
2023-03-09 09:47:22
144阅读
集合概述 概念:对象的容器,定义了对多个对象进项操作的的常用方法。可实现数组的功能。 和数组的区别: 数组长度固定,集合长度不固定。 数组可以存储基本类型和引用类型,集合只能存储引用类型。 位置: java.util.*; Collection体系集合 Collection父接口 特点:代表一组任意 ...
转载
2021-10-26 08:42:00
85阅读
2评论
while循环while(条件表达式) //条件表达式的值应当是一个Bool类型
{
循环体;
} 条件表达式的值为“真”时,进入循环体,执行一次后再判断一次条件表达式,直到条件表达式的值为“假”时跳出循环。do...while循环do
{
循环体;
}while(条件表达式);//条件表达式的值应当是一个Bool类型do...while循环执行流程为,首先进入循环体执行一次,然后再
集合概述 概念:对象的容器,定义了对多个对象进项操作的的常用方法。可实现数组的功能。 和数组的区别: 数组长度固定,集合长度不固定。 数组可以存储基本类型和引用类型,集合只能存储引用类型。 位置: java.util.*; Collection体系集合 Collection父接口 特点:代表一组任意 ...
转载
2021-10-26 08:42:00
97阅读
2评论
原创
2023-06-05 22:05:15
76阅读
2021.7.15 缺陷报告的相关术语:错误、缺陷、故障、失效。 缺陷存在哪些特性? 答:1、群居性;缺陷往往是扎堆的。作为测试工程师,发现缺陷后需要考虑多做一些相关的测试,看看能否发现更多的缺陷。2、抗药性;如果测试时只用一种测试方法和思路,必然会有些缺陷发现不了。需要多用不同的方法和思路来进行测 ...
转载
2021-07-15 18:26:00
129阅读
2评论