云计算之spark的机械学习 spark是基于什么计算引擎

关注 mob64ca13fe9c58

文章目录

Spark是什么
拓展阅读 Hadoop 和 Spark 对比
Spark四大特点
Spark框架模块 - 了解

云计算之spark的机械学习 spark是基于什么计算引擎

转载

mob64ca13fe9c58 2023-12-28 23:48:07

文章标签 云计算之spark的机械学习 spark 大数据分布式 Core 文章分类 Spark 大数据

Spark是什么

官方定义: 定义：*Apache Spark是用于**大规模数据（large-scala data）**处理的**统一（unified）**分析引擎。*

分析引擎(计算引擎): 我们目前接触的引擎有:

MapReduce 分布式计算引擎
Spark 分布式内存计算引擎

计算引擎: 通用的可以执行开发人员提供的业务代码的一种框架.

云计算之spark的机械学习 spark是基于什么计算引擎_云计算之spark的机械学习

Spark框架中有一个核心的数据结构: RDD

Pandas中的数据结构是DataFrame, 多数API都是针对DF对象来进行的.

同样, Spark的数据结构是RDD对象, 多数API都是针对RDD对象来进行的

RDD对象是一个真正的分布式对象, Pandas的DataFrame则是一个单机的对象.

拓展阅读 Hadoop 和 Spark 对比

	Hadoop	Spark
类型	基础平台, 包含计算, 存储, 调度	分布式计算工具
场景	大规模数据集上的批处理	迭代计算, 交互式计算, 流计算
价格	对机器要求低, 便宜	对内存有要求, 相对较贵
编程范式	Map+Reduce, API 较为底层, 算法适应性差	RDD组成DAG有向无环图, API 较为顶层, 方便使用
数据存储结构	MapReduce中间计算结果在HDFS磁盘上, 延迟大	RDD中间运算结果在内存中 , 延迟小
运行方式	Task以进程方式维护, 任务启动慢	Task以线程方式维护, 任务启动快

Spark四大特点

速度贼快: 比MapReduce 快100倍以上( 基于内存计算 )
易于使用: API 写起来很简单, 和pandas差不多(比pandas还简单)
通用性强: 可用于离线批处理\ SQL处理\ 流计算 \ 机器学习计算\ 图计算

离线批处理(Core) SQL处理(SparkSQL)

运行方式很多: 可以运行在 YARN \ 可以独立运行(StandAlone) \ 可以运行在云平台上 \ 可以运行在容器集群上 \ 等等等.

Spark框架模块 - 了解

云计算之spark的机械学习 spark是基于什么计算引擎_Core_02

SparkCore : Spark的核心模块, 一切Spark的功能最底层由它提供
SparkSQL: Spark的结构化数据处理模块, 基于Core
SparkStreaming: Spark的流计算模块基于Core
Spark MLib: 机器学习模块. 基于Core
Spark GraphX: 图计算模块基于Core
StructuredStreaming: 结构化流, 基于SparkSQL模块

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：抖音爬虫 python 抖音网络爬虫

下一篇：jquery的validate插件不生效 jquery-validation

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册