pyspark数据倾斜 pyspark改变数据类型

关注 mob6454cc6d3e23

pyspark数据倾斜 pyspark改变数据类型

转载

mob6454cc6d3e23 2023-10-16 19:49:05

文章标签 pyspark数据倾斜 spark 大数据数据 List 文章分类 Spark 大数据

RDD数据类型

RDD（Resilient Distributed DataSet）是一种弹性分布式数据集，是Spark的核心，其可以有由稳定存储中的数据通过转换（transformation）操作得到。RDD数据是一种可以并行操作的数据，它在创建的时候已经分区，且每次对RDD操作的结果可以放到高速缓存中，省去了MapReduce频繁的磁盘IO。

针对RDD数据的操作/函数有两种类型：转换（transformation）和动作（action）。

transformation类型：从一个RDD转化到另一个RDD的函数。

action类型：非RDD与RDD之间的相互转化的函数。

1. parallelize()、collect()和glom()

pyspark数据倾斜 pyspark改变数据类型_大数据

arallelize()函数将一个List列表转化为了一个RDD对象，collect()函数将这个RDD对象转化为了一个List列表。

parallelize()函数的第二个参数表示分区，默认是1，此处为2，表示将列表对应的RDD对象分为两个区。

glom()函数就是要显示出RDD对象的分区情况，可以看出分了两个区，如果没有glom()函数，则不显示分区

2. map()

参数是函数，函数应用于RDD每一个元素，返回值是新的RDD

示例一：对每个数据加1操作

pyspark数据倾斜 pyspark改变数据类型_pyspark数据倾斜_02

示例二：将每个参数转换成(x,1)形式

pyspark数据倾斜 pyspark改变数据类型_数据_03

3.flatMap()

参数是函数，函数应用于RDD每一个元素，将元素数据进行拆分，变成迭代器，返回值是新的RDD

pyspark数据倾斜 pyspark改变数据类型_数据_04

4.filter()

参数是函数，函数会过滤掉不符合条件的元素，返回值是新的RDD

示例：对每个参数加1，过滤取大于5的数据

pyspark数据倾斜 pyspark改变数据类型_spark_05

5.distinct()

没有参数，将RDD里的元素进行去重操作

pyspark数据倾斜 pyspark改变数据类型_大数据_06

6.union()

参数是RDD，生成包含两个RDD所有元素的新RDD

pyspark数据倾斜 pyspark改变数据类型_数据_07

7.intersection()

参数是RDD，求出两个RDD的共同元素

pyspark数据倾斜 pyspark改变数据类型_数据_08

8.reduce()

并行整合所有RDD数据，例如求和操作，最终只返回一个值

pyspark数据倾斜 pyspark改变数据类型_数据_09

9.reduceByKey()

reduceByKey()将Key相同的元素合并

pyspark数据倾斜 pyspark改变数据类型_spark_10

总结：reduce()和reduceByKey()的区别？

reduce()最终只返回一个值

reduceByKey()将Key相同的元素合并

reduce()将RDD转化为非RDD对象
reduceByKey()将RDD对象转化为另一个RDD对象，需要collect()函数才能输出

10.groupByKey()

将数据分组

pyspark数据倾斜 pyspark改变数据类型_spark_11

11.sortByKey(False)

降序或者正序排序

pyspark数据倾斜 pyspark改变数据类型_数据_12

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：python edge_tts 停顿 python tts 离线

下一篇：多头注意力机制pytorch代码实现 cnn注意力机制pytorch

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册