概述1.什么是Spark?Spark是一个快速且通用集群计算平台。扩充了流行Mapreduce计算模型,是基于内存计算,它设计容纳了其他分布式系统拥有的功能,批处理,迭代式计算,交互查询和流处理,并且提供了Python,java,Scala,SQLAPI和丰富内置库,而且还和其他大数据工具整合很好,包括hadoop,kafka等。2.发展历史诞生于2009年,加州大学
本系列笔记主要参考《Spark权威指南2.X》,主要学习在Spark2.X中DataFrame和DataSet等结构化API。一些Spark基础知识,可以参考之前我断断续续学习笔记:《Spark快速大数据分析》- Spark应用运行原理 文章目录1. 结构化API简介1.1 DataSet与DataFrame1.2 行、列、模式与Spark类型2. 结构化API执行逻辑Reference 1
转载 2023-10-29 16:48:09
84阅读
RDDRDD是Spark抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程角度来看
原创 2023-05-19 12:54:00
610阅读
(1)进入spark ./bin/spark-shell  (2)创建RDD val rdd=sc.parallelize(Array(1,2,3,4,5,6,8))  或者 val rdd1=sc.makeRDD(Array(1,2,3,4,5,6,8))  (3)map实例1. 作用:返回一个新RDD,该RDD由每一个输入元素经过func函
转载 2024-06-28 10:06:00
36阅读
定义不带参数也不带返回值函数(def :定义函数关键字  printz:方法名称) scala> def printz = print("scala hello")   定义带参数也带返回值函数(这种函数在定义时也可以不带返回值类型,scala会自动推算出。建议还是带上) scala> def minNu
转载 2024-06-06 14:00:02
28阅读
聚合函数分为两类,一种是spark内置常用聚合函数,一种是用户自定义聚合函数UDAF不带类型UDAF【较常用】继承UserDefinedAggregateFunction定义输入数据schema定义缓存数据结构聚合函数返回值数据类型定义聚合函数幂等性,一般为true初始化缓存更新缓存合并缓存计算结果import org.apache.spark.{SparkConf, SparkCon
转载 2023-08-07 21:52:57
199阅读
1. RDD操作详解启动spark-shellspark-shell --master spark://node-1:70771.1 基本转换1) map map是对RDD中每个元素都执行一个指定函数来产生一个新RDD。 任何原RDD中元素在新RDD中都有且只有一个元素与之对应。举例:scala> val a = sc.parallelize(1 to 9, 3) scala&gt
转载 2023-08-09 20:36:47
48阅读
一.内置函数聚合函数:count(),countDistinct(),avg(),max(),min() 集合函数:sort_array、explode 日期,时间函数:hour、quarter、next_day 数学函数:asin、atan、sqrt、tan、round 开窗函数:row_number 字符串函数:concat、format_number、regexp_extract 其他函数:
转载 2023-06-15 19:40:03
380阅读
RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里数据集RDD有两种操作算子:        Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记
# Spark 常用函数科普 Apache Spark 是一个开源大规模数据处理引擎,支持多种编程语言,广泛应用于大数据处理与机器学习。对于数据科学家和工程师来说,熟练掌握 Spark 常用函数可以大大提高工作效率。本文将介绍一些常用 Spark 函数,提供代码示例,并且展示如何通过可视化工具理解数据。 ## Spark 常用函数 ### 1. `show()` 该函数用于显示 Dat
原创 8月前
118阅读
DataFrame 函数 Action 操作 1、 collect() ,返回值是一个数组,返回dataframe集合所有的行 2、 collectAsList() 返回值是一个Java类型数组,返回dataframe集合所有的行 3、 count() 返回一个number类型,返回dataframe集合行数 4、 describe(col
七、RDD重要函数一、基本函数map 函数: map(f:T=>U) : RDD[T]=>RDD[U],表示将 RDD 经由某一函数 f 后,转变为另一个RDD。flatMap 函数: flatMap(f:T=>Seq[U]) : RDD[T]=>RDD[U]),表示将 RDD 经由某一函数 f 后,转变为一个新 RDD,但是与 map 不同,RDD 中
转载 2023-05-23 10:10:22
108阅读
# Spark SQL 常用函数科普 Apache Spark 是一种开源大数据处理框架,提供了强大分布式计算功能。Spark SQL 是 Spark 中用于操作结构化数据模块,它提供了许多常用函数来进行数据处理和分析。本文将介绍一些 Spark SQL 中常用函数,并给出相应代码示例。 ## 常用函数介绍 以下是一些 Spark SQL 中常用函数: 1. `select`
原创 2024-03-28 04:12:53
83阅读
一、Spark SQL发展1、spark SQL和shark  Shark,给熟悉RDBMS但又不理解MapReduce技术人员提供快速上手工具,Hive应运而生,它是当时唯一运行在Hadoop上SQL-on-Hadoop工具。但是MapReduce计算过程中大量中间磁盘落地过程消耗了大量I/O,降低运行效率,为了提高SQL-on-Hadoop效率,大量SQL-on-Hadoop
转载 2023-08-23 20:01:38
78阅读
DataFrame函数Action 操作collect() ,返回值是一个数组,返回dataframe集合所有的行collectAsList() 返回值是一个Java类型数组,返回dataframe集合所有的行count() 返回一个number类型,返回dataframe集合行数describe(cols: String*) 返回一个通过数学计算类表值(count, mean, std
转载 2023-09-21 09:16:12
247阅读
摘要:在Spark开发中,由于需要用Python实现,发现API与Scala略有不同,而Python API中文资料相对很少。每次去查英文版API说明相对比较慢,还是中文版比较容易get到所需,所以利用闲暇之余将官方文档翻译为中文版,并亲测Demo代码。在此记录一下,希望对那些对Spark感兴趣和从事大数据开发的人员提供有价值中文资料,对PySpark开发人员工作和学习有所帮助。官网地
Spark RDD 常用算子解析一、转换算子 Transformation(lazy)二、动作算子 Actions(non-lazy)三、实例解析 一、转换算子 Transformation(lazy)对于转换操作,RDD所有转换都不会直接计算结果。 Spark仅记录作用于RDD上转换操作逻辑,当遇到动作算子( Action)时才会进行真正计算。RDD常见转换算子如下表:Transforma
转载 2023-08-11 20:38:05
63阅读
Python函数常用内置函数
原创 1月前
70阅读
python内置函数1.abs(x) 返回绝对值 返回一个数绝对值。实参可以是整数或浮点数。如果实参是一个复数,返回它模。 2.all(iterable)如果 iterable 所有元素为真(或迭代器为空),返回 True def all(iterable): for element in iterable: if not element
转载 2023-11-05 11:17:50
58阅读
那些每天要翻好几次内置函数python 为我们提供了68个内置函数,真的不多函数名字用法1.abs()取绝对值2.dict()把数据转换成字典3.help()帮助4.min()取最小值5.setattr()6.all()1,如果列表中都为true,返回true;2,空列表返回true(空列表bool值是False)7.any()1,列表中任意一个值是true, 返回true2,空列表返回Fal
  • 1
  • 2
  • 3
  • 4
  • 5