目录前言转换算子一、Value类型1. map2. mapPartitions3. mapPartitionsWithIndex4. flatMap5. glom6. groupBy7. filter8. sample9. distinct10. coalesce11. sortBy二、双Value类型1. intersection2. union3. subtract4. zip三、K-V类型
转载 2023-06-09 22:40:17
176阅读
本系列笔记主要参考《Spark权威指南2.X》,主要学习在Spark2.X中的DataFrame和DataSet等结构化API。一些Spark的基础知识,可以参考之前我断断续续的学习笔记:《Spark快速大数据分析》- Spark应用运行原理 文章目录1. 结构化API简介1.1 DataSet与DataFrame1.2 行、列、模式与Spark类型2. 结构化API执行逻辑Reference 1
转载 2023-10-29 16:48:09
84阅读
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala的略有不同,而Python API的中文资料相对很少。每次去查英文版API的说明相对比较慢,还是中文版比较容易get到所需,所以利用闲暇之余将官方文档翻译为中文版,并亲测Demo的代码。在此记录一下,希望对那些对Spark感兴趣和从事大数据开发的人员提供有价值的中文资料,对PySpark开发人员的工作和学习有所帮助。官网地
RDDRDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看
原创 2023-05-19 12:54:00
610阅读
概述1.什么是Spark?Spark是一个快速且通用的集群计算平台。扩充了流行的Mapreduce计算模型,是基于内存的计算,它的设计容纳了其他分布式系统拥有的功能,批处理,迭代式计算,交互查询和流处理,并且提供了Python,java,Scala,SQL的API和丰富的内置,而且还和其他的大数据工具整合的很好,包括hadoop,kafka等。2.发展历史诞生于2009年,加州大学
1. 模块在python中一个文件可以被看成一个独立模块,而包对应着文件夹,模块把python代码分成一些有组织的代码段,通过导入的方式实现代码重用。1.1 模块搜索路径导入模块时,是按照sys.path变量的值搜索模块,sys.path的值是包含每一个独立路径的列表,包含当前目录、python安装目录、PYTHONPATH环境变量,搜索顺序按照路径在列表中的顺序(一般当前目录优先级最高)。1 &
1. Dataframe的生成1.1 通过 toDF()函数创建Seq+toDFval someDF = Seq( (8, "bat"), (64, "mouse"), (-27, "horse") ).toDF("number", "word")注意:如果直接用toDF()而不指定列名字,那么默认列名为"_1", "_2", ... Seq.toDF()的一个弊端是列类型和nulla
转载 2024-03-04 21:22:44
35阅读
Spark RDD 常用算子解析一、转换算子 Transformation(lazy)二、动作算子 Actions(non-lazy)三、实例解析 一、转换算子 Transformation(lazy)对于转换操作,RDD的所有转换都不会直接计算结果。 Spark仅记录作用于RDD上的转换操作逻辑,当遇到动作算子( Action)时才会进行真正计算。RDD常见转换算子如下表:Transforma
转载 2023-08-11 20:38:05
63阅读
GUI 图形界面 1.wxpython Python下的GUI编程框架,与MFC的架构相似 下载地址:http://wxpython.org/download.php 2. PyQt 用于Python的QT开发 下载地址:http://www.riverbankcomputing.com/software/pyqt/download Web框架 1. Django 开源web开发框架,它鼓励...
原创 2021-07-21 11:31:40
166阅读
1.python - beautiful soup 用来解析html文件,获取内容 Beautiful Soup 提供一些简单的、python 式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用 ...
转载 2021-10-04 11:22:00
94阅读
2评论
Python是一门广泛应用于各种领域的编程语言,有许多优秀的第三方。以下是一些Python常用以及它们的用途:NumPy:提供多维数组对象、线性代数操作以及一些随机数生成函数等功能。它通常与 SciPy 和 Matplotlib 一起使用来进行科学计算和数据可视化。Pandas:提供高效的数据分析工具,包括 Series(一维)和 DataFrame(二维)数据结构,以及各种数据读取、过滤
原创 2023-06-15 10:42:59
83阅读
正则表达式 re 正则表达式常用方法 match() search() sub() findall() 时间、日期 time datetime 数据相关 math random 随机抽取整数 随机抽取字符串 文件目录相关 os pathlib 机器学习 nunpy pand
原创 2022-05-20 22:41:59
120阅读
常用APIclass pyspark.StorageLevel(useDisk, useMemory, useOffHeap, deserialized, repli
原创 2022-12-04 07:38:44
308阅读
1.Transformations转换算子Transformations类算子是一类算子(函数)叫做转换算子,如map,flatMap,reduceByKey等。Transformations算子是延迟执行,也叫懒加载执行。filter:过滤符合条件的记录数,true保留,false过滤掉。map:将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。输入一条,输出一条数据。flat
转载 2023-09-20 21:22:58
170阅读
调用osimport os常见函数:os.name()输出字符串指示正在使用的平台os.getcwd()函数得到当前工作目录,即当前Python脚本工作的目录路径os.listdir()返回指定目录下的所有文件和目录名os.remove()删除一个文件os.system()运行shell命令        >>> os.syst
原创 2023-03-08 02:09:51
230阅读
os简单介绍 os 模块提供了非常丰富的方法用来处理文件和目录 os关于目录路径的方法 1 # 获取当前路径 2 path = os.getcwd() 3 4 # 获取当前绝对路径 5 os.path.abspath(path) 6 7 # 创建一级目录 8 os.mkdir(path) 9 10
原创 2021-05-31 20:33:36
879阅读
全文共1477字,预计学习时长3分钟图1:最好用的Python(根据GitHub的Star值与Contributor值绘制而成,图标大小与commit值成正比)以下是2018年排名前15的Python(数据截止于2018年12月16日):1.TensorFlow (Contributors – 1757, Commits – 25756, Stars – 116765)TensorFlow是一
转载 2023-08-03 23:40:43
85阅读
Python提供了高效的高级数据结构,还能简单有效地面向对象编程,被用于独立、大型项目的开发。而且Python社区提供了大量的第三方模块,使用方法与标准类似,那么1.psutil是一个跨平台,能够实现获取系统运行的进程和系统利用率,主要用于系统监控、分析和系统资源及进程的管理;2.IPy,辅助IP规划;3.DNS Python,是Python实现的一个DNS工具包;4.difflib是Pyth
Transformation转换算子Value类型map映射def map[U: ClassTag](f: T => U): RDD[U]mapPartitions以分区为单位执行mapdef mapPartitions[U: ClassTag](f: Iterator[T] => Iterator[U], preservesPartitioning: Boolean = false)
转载 2021-02-03 18:38:40
234阅读
2评论
# Spark 常用函数科普 Apache Spark 是一个开源的大规模数据处理引擎,支持多种编程语言,广泛应用于大数据处理与机器学习。对于数据科学家和工程师来说,熟练掌握 Spark常用函数可以大大提高工作效率。本文将介绍一些常用Spark 函数,提供代码示例,并且展示如何通过可视化工具理解数据。 ## Spark 常用函数 ### 1. `show()` 该函数用于显示 Dat
原创 8月前
118阅读
  • 1
  • 2
  • 3
  • 4
  • 5