spark als算法 spark做什么计算

关注 lazihuman

文章目录

Spark生态架构
Spark使用模式
Spark最核心的数据结构
补充知识：
RDD的函数操作
常用的RDD操作方法
Spark的DAG概念
RDD之间的依赖关系
Spark DAG 的Stage划分

spark als算法 spark做什么计算

转载

lazihuman 2023-08-20 23:04:24

文章标签 spark als算法实时计算数据离线 文章分类 Spark 大数据

spark als算法 spark做什么计算_实时计算

Spark是一种分布式的计算框架，可以处理海量数据，目前流行的计算框架

MapReduce：适用于离线批处理，也可以用于实时计算
Storm: 用于实时计算
Spark：即可以用于离线批处理，也可以用于实时计算
Flink：主要用于实时计算

综上，我们发现MapReduce计算框架是一种高度依赖于磁盘I/O框架，而且在有些业务场景下，比如某算法（梯度下降法，逻辑回归）会多次用到前写job的结果，导致重新计算及shuffle过程

Spark计算框架是高度依赖于内存框架，而且支持将中间结果缓存，避免大量的重新计算，所以Spark框架也被称为内存计算框架

Spark生态架构

spark als算法 spark做什么计算_spark als算法_02

Spark框架设计目的：可以一栈式处理大数据所有的应用场景包括：

离线批处理
实时处理
交互式查询
算法建模

Spark使用模式

Local：本地单机模式，一般用于测试或练习
Standalone：Spark集群模式
On Yarn：Spark的资源交给Yarn来管理

Spark最核心的数据结构

RDD（Resilient Distributed Datasets）

RDD：弹性分布式数据集，初学时，可以把RDD看做是一种集合类型（Array，List类比）

RDD的特点

有容错机制，即使数据丢失是可以恢复的
有分区机制，可以并行处理RDD数据

RDD的分区机制目的：

可以分布式的计算RDD的数据集，底层可以确保分区数据的负载均衡状态

spark als算法 spark做什么计算_实时计算_03

创建RDD的方式

将一个普通的集合类型（Array或List）转为RDD
通过Spark读取外部存储文件，将文件数据转变为RDD，可以从本地磁盘读取，也可以从HDFS读取

补充知识：

sc是SparkContext的别名对象，用于操作Spark的入口对象，通过sc可以创建RDD，广播变量，此外sc用于负责job任务的分配和监控
创建RDD方法
(1) sc.parallelize(普通类型集合，分区数量)
(2) sc.makeRDD(普通类型集合，分区数量)
关于RDD分区相关的方法
(1) rdd.partitions.size：查看分区数
(2) rdd.glom.collect：查看分区数据
创建RDD的两种途径

spark als算法 spark做什么计算_实时计算_04

RDD的函数操作

spark als算法 spark做什么计算_spark als算法_05

spark als算法 spark做什么计算_spark als算法_06

常用的RDD操作方法

spark als算法 spark做什么计算_实时计算_07

Spark的DAG概念

spark als算法 spark做什么计算_spark als算法_08

spark als算法 spark做什么计算_spark als算法_09

RDD之间的依赖关系

两种：

spark als算法 spark做什么计算_实时计算_10

Spark DAG 的Stage划分

spark als算法 spark做什么计算_离线_11

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：docker run start docker run start区别

下一篇：java 业务日志 java系统业务日志设计

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册