pyspark withcolumn 更改数值 pyspark 数据类型

关注 mob6454cc749e02

文章目录

PySpark核心类说明
PySpark公共类说明。
PySpark SQL模块说明
PySpark流数据模块说明。

pyspark withcolumn 更改数值 pyspark 数据类型

转载

mob6454cc749e02 2023-07-27 20:23:38

文章标签 spark SQL 类名 文章分类 Spark 大数据

书籍<<Python在大数据平台的应用>>

更多信息请关注本书附书代码:[附书代码Github工程:https://github.com/Shadow-Hunter-X/python_practice_stepbystep

Pyspark是Apache Spark的Python应用程序编程接口(API)。Pyspark包括一组公共类、2个模块SQL模块和流数据模块；2个包Mllib和ML用于机器学习，如下图所示。pyspark核心类库](pyspark类库总结

pyspark withcolumn 更改数值 pyspark 数据类型_SQL

PySpark核心类说明

Pyspark核心类由公共类、SQL模块和流模块的6个子集类组成。这些类表示核心的Pyspark功能，如下表所示。

类型	类名
公共类	SparkContext
公共类	RDD
SQL模块	SparkSession
SQL模块	DataFrame
流数据模块	StreamingContext
流数据模块	DStream

PySpark公共类说明。

在Pyspark中有8个公共类，分别是SparkContext、RDD、Broadcast、Accumulator、 SparkConf、SparkFiles、StorageLevel和TaskContext，说明如下表所示。

类名	说明
Accumulator	一个只加操作共享变量，在任务只能增加值。
Broadcast	广播变量，可用于跨任务复用
RDD	弹性分布式数据集，Spark中基础编程抽象
SparkConf	用于Spark应用程序的参数配置
SparkContext	Spark应用程序的主要入口
SparkFiles	提供对文件操作的相关功能
StorageLevel	用于数据存储级别的设置
TaskContext	可以提供关于当前运行任务的信息

PySpark SQL模块说明

SQL模块包含了10个类，提供了类型、配置、DataFrames和许多其他功能的SQL函数和方法，具体如下表所示。

类名	说明
SparkSession	用于操作DataFrame的入口点
Column	用来表示DataFrame中的列
Row	用来表示DataFrame中的行
GroupedData	用于提供DataFrame中的汇总功能
Types	定义DataFrame中的数据类型
Functions	提供丰富常用的功能，如数学工具，日期计算，数据转换等
Window	提供窗口函数功能
DataFrame	用于创建DataFrame对象
DataFrameNaFunctions	用于处理DataFrame中的null值
DataFrameStatFunctions	用于统计汇总DataFrame中的数据

PySpark流数据模块说明。

流数据模块包含3个主要的类StreamingContext、Dstream、StreamingListener。也特别提供针对了Flume、Kafka、Kinesis流数据处理的类，但这里只对前3个类说明,如下表所示。

类名	说明
StreamingContext	用于处理Spark Streaming应用的入口
DStream	Spark Streaming的基本抽象，DStream是一个连续的数据流
StreamingListener	对Streaming数据流事件监控和处理

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：python中pyodbc修改表名称 python中修改列表名字

下一篇：python 采用全地址 python函数地址

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册