spark笔记_51CTO博客

spark 笔记

官网 http://spark.apache.org/ 安装：http://dblab.xmu.edu.cn/blog/spark-quick-start-guide/ 教程 http://www.code123.cc/1510.html 性能对比：http://www.cnblogs.com/je

其他

原创

wx60f7f54847950

2021-07-23 11:42:37

115阅读

Spark学习笔记——Spark on YARN

Spark运行的时候，采用的是主从结构，有一个节点负责中央协调，调度各个分布式工作节点。这个中央协调节点被称为驱动器（ Driver）节点。与之对应的工作节点被称为执行器（ executor）节点。所有的 Spark 程序都遵循同样的结构：程序从输入数据创建一系列 RDD，再使用转化操作派

spark

集群管理

数据

客户端

用户程序

转载

mb5fe18e5a55d8d

2017-04-10 13:53:00

618阅读

2评论

Spark学习笔记——Spark Streaming

许多应用需要即时处理收到的数据，例如用来实时追踪页面访问统计的应用、训练机器学习模型的应用，还有自动检测异常的应用。Spark Streaming 是 Spark 为这些应用而设计的模型。它允许用户使用一套和批处理非常接近的 API 来编写流式计算应用，这样就可以大量重用批处理应用的技术甚至代码。

spark

apache

数据

批处理

hadoop

转载

mb5fe18e5a55d8d

2017-04-25 23:33:00

702阅读

2评论

spark 内核笔记

执行启动命令 jar 、wordcount sparkSubmit: yarnclient ->submitApplication-> ResourceManage bin/java 在NodeManager 启动进程，ApplicationMaster ApplicationMaster进程启动后 ...

数据

主线程

数据文件

spark

归并排序

转载

mob604756efcf97

2021-07-23 21:18:00

98阅读

2评论

【spark笔记】sparkOnYarn

###配置spark on yarn只需要配置如下参数即可。使用yarn模式的时候，不需要启动master和worker了只需要启动hdfs和yarn即可Yarn运行任务的过程：

生产环境

hdfs

原创

灰色、最淡雅的低调

2022-01-14 14:14:41

42阅读

Spark问题笔记

1、window系统上开发，使用winutil.exe报错问题在Intellij 上运行hadoop报错:Exceptionin thread "main" java.lang.UnsatisfiedLinkError:org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray(II[BI[BII

hadoop

java

apache

转载

mb61d69252a8ba9

2022-04-18 13:41:57

118阅读

Spark学习笔记

这个章节我们将下载Spark并用本地模式（local mode）在单机上运行。这个章节适合任何初学者阅读，当然包括数据科学家和工程师。你可以用Python、Java或Scala编写Spark应用，要看懂本教程中的代码你不需要精通某一种语言，但是你应该了解一种语言的基本语法。我们将尽可能用包含这三种语言版的例子（译者注：以下将主要翻译Scala版，以节约时间）。 Spark本身是用

java

原创

FusionZhu

2021-02-13 20:38:38

397阅读

spark 笔记1

#flatMapval favMovies = sc.parallelize(List("Pulp Fiction","Requiem for a dream","Aclockwork Orange"));favMovies.flatMap(movieTitle=>movieTitle.split(" ")).collect() #sampleval data = s...

spark

scala

java

重复数据

技术

原创

kq1983

2021-08-24 19:24:21

99阅读

spark 笔记1

#flatMapval favMovies = sc.parallelize(List("Pulp Fiction","Requiem for a dream","

spark

scala

java

重复数据

原创

kq1983

2022-02-18 14:51:18

53阅读

Spark Shell笔记

学习感悟(1)学习一定要敲，感觉很简单，但是也要敲一敲，不要眼高手低(2)一定要

spark

scala

big data

hdfs

原创

CBeann

2022-09-13 13:18:58

277阅读

spark学习笔记

Spark通过减少磁盘IO来达到性能的提升为了适应迭代计算，Spark将经常被

spark

python

apache

原创

我和你并没有不同

2022-06-01 05:22:48

359阅读

Spark学习笔记（一）--Spark架构

Spark架构采用了分布式计算中的Master-Slave模型。Master是对应集群中的含有Master进程的节点，Slave是集群中含有Worker进程的节点。Master作为整个集群的控制器，负责整个集群的正常运行；Worker相当于是计算节点，接收主节点命令与进行状态汇报；...

spark

有向无环图

资源管理器

执行过程

数据

转载

mb5fe559619e363

2016-03-10 11:15:00

210阅读

spark复习笔记（二）——spark sql

Spark SQL特点1、易整合整合SQL查询和Spark编程2、统一的数据访问方式使用相同方式连接不同的数据源3、继承Hive在已有的仓库上直接运行SQL或者HQL4、标准的连接方式通过JDBC或者ODBCDataFrame分布式数据容器schema 数据的结构信息(类似于desc table)支持嵌套数据类型 struct array map从API易用性，Dat...

hadoop

spark

hive

大数据

sql

原创

南瓜数据客栈

2021-08-05 13:54:23

173阅读

spark in eclipse---Spark学习笔记3

想要调试源码，还是要放到eclipse里面去。先生成eclipse项目，下载依赖包victor@victor-ubuntu:~/software/incubator-spark-0.8.1-incubating$ mvn eclipse:eclipse[INFO] Scanning for proj...

spark

eclipse

scala

maven

依赖包

转载

mob604756f145d3

2015-03-27 17:46:00

158阅读

2评论

spark学习笔记三：spark-shell

1.spark-shell 一般用来写脚本验证程序正确性；开发数据一般用集成工具idea,python等 ...

ide

python

验证程序

数据

spark

转载

mob604756e6f1ac

2021-09-08 15:54:00

217阅读

2评论

【spark笔记】共享变量

共享变量（广播变量、累加变量）Spark一个非常重要的特性就是共享变量。默认情况下，如果在一个算子的函数中使用到了某个外部的变量，那么这个变量的值会被拷贝到每个task中。广播变量：（一个worker共享）每个节点拷贝一份，更大的用处是优化性能，减少网络传输以及内存消耗。累加变量：可以让多个task共同操作一份变量，主要可以进行累加操作但是task只能对Accumulator进行累加...

共享变量

网络传输

spark

原创

灰色、最淡雅的低调

2022-01-14 14:14:54

126阅读

Spark笔记之DataFrameNaFunctions

DataFrameNaFunctions用来对DataFrame中值为null或NaN的列做处理，处理分为三种类型： drop：根据条件丢弃含有null或NaN的行 fill：根据条件使用指定值填充值为null或NaN的列，相当于设置默认值 replace：根据条件替换列值下面是针对每种处理方式的详细解释：package cc11001100.spark.dataset.DataFram...

.spark

原创

qq5a118af83de42

2021-07-27 13:44:35

222阅读

Scala写Spark笔记

学习感悟（1）配置环境最费劲（2）动手写，动手写，动手写WordCountpackage wordcountimport org.apache.spark.{SparkConf, SparkContext}/** * @author CBeann * @create 2019-08-10 18:02 */object WordCount { def main(args: Array[Str

scala

spark

big data

apache

原创

CBeann

2022-09-13 11:44:57

145阅读

spark学习笔记3

Spark 支持在集群范围内将数据集缓存至每

spark

运行模式

数据

原创

我和你并没有不同

2022-06-01 05:09:02

155阅读

Spark课堂笔记(1)

下载好压缩包，放在一个自己能找到的文件夹中，以便之后使用。

#笔记

spark

SPARK

spark集群

转载

卫斯理

2天前

377阅读

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

51CTO博客

spark笔记

spark 笔记

Spark学习笔记——Spark on YARN

Spark学习笔记——Spark Streaming

spark 内核笔记

【spark笔记】sparkOnYarn

Spark问题笔记

Spark学习笔记

spark 笔记1

spark 笔记1

Spark Shell笔记

spark学习笔记

Spark学习笔记（一）--Spark架构

spark复习笔记（二）——spark sql

spark in eclipse---Spark学习笔记3

spark学习笔记三：spark-shell

【spark笔记】共享变量

Spark笔记之DataFrameNaFunctions

Scala写Spark笔记

spark学习笔记3

Spark课堂笔记(1)

spark学习笔记总结

Spark笔记之Catalog

Spark笔记整理（十七）：Spark Shuffle过程

【spark笔记】RDD解释和Spark架构

【spark笔记】spark四大特性

spark-sql 笔记

hadoop spark学习笔记

spark学习笔记2

【Spark Streaming】Spark Day10：Spark Streaming 学习笔记

【Spark Streaming】Spark Day11：Spark Streaming 学习笔记