1.Spark集群部署及开发环境搭建。内容包括Hadoop集群、Spark集群搭建,Intellij IDEA Spark开发环境搭建, Spark Shell的使用等。2.Spark 运行原理。内容包括spark脚本文件解析、Spark 几种不同运行方式、RDD原理、宽依赖与窄依赖、Spark 任务调度等。3.Spark 编程模型,介绍Spark编程模型、对常用的transformation及a
原创
2015-10-13 10:59:32
826阅读
Spark基础 Spark优势 优秀的数据模型与丰富计算抽象 Spark 借鉴了 MapReduce 思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。 让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的 API 提高了开发速度。 完善的生态圈-fullstack Spark ...
转载
2021-10-13 20:01:00
418阅读
2评论
Spark处理字符串日期的max和min的方式
Spark处理数据存储到Hive的方式
Spark处理新增列的方式map和udf、functions
Spark处理行转列pivot的使用
Python 3.5.3
Spark1.6.2
原创
2017-12-02 22:06:17
1247阅读
点赞
cache checkpoint groupBykey和reduceByKey区别 BlockManager MapReduce过程 RDD的五大特性 RDD的依赖关系 shuffle过程 spark搭建 spark运行时 spark-client spark-cluster 资源调度和任务申请 ...
转载
2021-07-21 19:53:00
227阅读
2评论
一 、为什么需要sort-based-shuffle?1.shuffle一般包含两阶段任务: 第一部分,产生shuffle数据的阶段(map阶段,额外补充,需要实现ShuffleManager中getWriter来写数据,数据可以利用BlockManager写到memory,disk,tachyon等,例如想非常快的shuffle,此时可以考虑把数据写在内存中,但是内存不稳定,建议采用MEMOR
转载
2024-07-07 13:56:21
24阅读
一、基础知识:1、yarn:资源调度框架2、hdfs(Hadoop Distribute File System),基于“磁盘
原创
2022-11-29 16:13:05
205阅读
# Spark重要知识点总结
## 引言
Spark是一个开源的大数据处理框架,具有高效、可扩展和易用的特点。本文旨在帮助开发者快速掌握Spark的重要知识点。我们将按照以下步骤进行讲解,并提供相应的代码示例。
## 步骤概要
| 步骤 | 内容 |
| --- | --- |
| 步骤一 | 安装和配置Spark环境 |
| 步骤二 | 创建Spark应用程序 |
| 步骤三 | Spar
原创
2023-09-05 14:27:37
86阅读
第 1 部分 Spark 基础Spark 概述本章介绍 Spark 的一些基本认识.Spark官方地址一:什么是 SparkSpark 是一个快速(基于内存), 通用, 可扩
原创
2023-03-09 09:47:22
144阅读
Spark core面试篇02 1.cache后面能不能接其他算子,它是不是action操作? 答:cache可以接其他算子,但是接了算子之后,起不到缓存应有的效果,因为会重新触发cache。 cache不是action操作 2.reduceByKey是不是action? 答:不是,很多人都会以为是action,reduce rdd是action 3.数据本地性是在哪个环节确定的? 具体的task
转载
2023-09-29 14:03:37
102阅读
目录一、基础简介二、spark四大特点1、速度快2、易使用3、通用性强4、运行方式三、spark框架模块四、运行方式五、spark的架构角色六、总结一、基础简介 Spark是一种通用的大数据计算框架,使用了内存内运算技术。今天加米谷大数据就来简单介绍一下Spark的简史。 Spark的简史 1、2009年,Spark诞生于伯克利大学AMPLab,属于伯克利大学的研究性项目; 2、2010 年,通过
转载
2023-08-02 16:31:36
106阅读
Spark SQL概述1、什么是Spark SQLSpark SQL是Spark用于结构化数据(structured
原创
2021-11-25 13:38:42
10000+阅读
本篇笔记主要说一下Spark到底是个什么东西,了解一下它的基本组成部分,了解一下基本的概念,为之后的学习做铺垫。过于细节的东西并不深究。在实际的操作过程中,才能够更加深刻的理解其内涵。1、什么是Spark?Spark是由美国加州伯克利大学的AMP实验室开发的,一款基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 说白了就是搞数据计算分析的框架,过于细节的东西在学习过程
转载
2023-08-10 12:41:47
55阅读
文章目录一、Spark作业资源的设置情况二、DataFrame/Dataset/RDD的区别及编程三、Spark中的隐式转换的作用:结合Scala来学习 一、Spark作业资源的设置情况 性能调优的王道,就是增加和分配更多的资源,性能和速度上的提升是显而易见的,基本上,在一定范围之内,增加资源与性能的提升是成正比的。写完了一个复杂的Spark作业之后,进行性能调优的时候,首先第一步,就是要调节
转载
2023-08-11 17:16:43
120阅读
Array的getLength()方法和 数组的length属性有什么不同的作用??或者说有什么区别? 感觉一样,不知道以后该如何选择就像你所说的,一个是Ar
原创
2023-05-16 00:31:48
82阅读
IT行业的工作方向1.数据存储:磁盘1)三种架构存储方式:SAN、NAS、DAS(专门将数据存储于磁盘阵列)(是共享存储架构)2)分布式存储架构(HDFS)--就是一个集群(应用)HDFS--Hadoop定义的文件分布式系统2.Linux操作系统3.数据处理:1)map-reduces的数据处理集群:它是将海量数据按照一定的方式,修改为键值关系(key-value)HDFS+map-reduces
原创
2019-07-30 19:21:22
597阅读
bin2hex二进位转成十六进位。语法: string bin2hex(string str);返回值: 字
原创
2021-07-30 15:05:58
252阅读
bin2hex二进位转成十六进位。语法: string bin2hex(string str);返回值: 字
原创
2021-07-30 15:12:12
225阅读
Java 知识点基础回顾JAVA底层知识点回顾java版本JDK&JRE&JVM变量(variable)标识符关于字符集和字节的一些知识点局部变量成员变量常量命名规范数据类型一:基本数据类型1.数值类型2.字符型3.布尔型二:引用数据类型数据类型的转换1.自动类型转换2.强制类型转换3.运算时类型自动提升的问题运算符算数运算符赋值运算符扩展赋值运算符关系运算符逻辑运算符位运算符条
转载
2024-06-23 13:41:39
46阅读
基本写法:书写格式书写格式:内部js:在html中写一对script标签,js代码写在里面
行内js:写在标签里
外部js:用script加src引入
可以在控制台调试代码声明的方法以及名规范声明变量:var声明,可以声明多个变量,并赋值,中间逗号隔开
变量赋值:变量名=值
变量名的命名规范:可以是字母,数字,下划线,$符号组成,数字不能开头
转载
2023-10-07 22:33:50
114阅读
SparkCore课堂讲义第一讲 Spark基础核心知识课程大纲课程内容学习效果掌握目标Spark简介大数据生态发展了解什么是SpvarkSpark开发环境Spark standalone掌握Spark HA掌握Spark核心概念Spark核心概念掌握Spark编程体验Spark项目创建掌握Spark项目编码掌握一、什么是Spark(一)大数据生态(二)什么是Spark1、Spark特点快的原因:
转载
2024-01-12 18:59:57
129阅读