spark Action 行动算子

原创

塞上江南o 2022-12-28 15:32:54 博主文章分类：Spark ©著作权

文章标签 spark 数组 apache 文章分类 OpenStack 云计算

©著作权归作者所有：来自51CTO博客作者塞上江南o的原创作品，请联系作者获取转载授权，否则将追究法律责任

spark outline

大纲目录

spark Action 行动算子简介

行动算子是触发了整个作业的执行。因为转换算子都是懒加载，并不会立即执行

reduce算子
功能：聚合（先聚合分区内数据，再聚合分区间数据）
collect算子
功能：以数组的形式返回数据集
count算子
功能：返回RDD中元素个数
first算子
功能：返回RDD中的第一个元素
take算子
功能：返回由RDD中前n个元素组成的数组
takeOrdered算子
功能：返回该RDD排序后的前n个元素组成的数组
aggregate算子
功能：将每个分区里面的元素通过分区内逻辑和初始值进行聚合，然后用分区间逻辑和初始值(zeroValue)进行操作。但分区间逻辑再次使用初始值和aggregateByKey是有区别的

spark Action 行动算子_数组

fold算子
功能：折叠操作，即aggregate的简化操作（分区内逻辑和分区间逻辑相同）
countByKey算子
功能：统计每种key的个数
foreach算子
功能：遍历RDD中的每一个元素
save相关算子

saveAsTextFile(path)保存成Text文件
saveAsSequenceFile(path) 保存成Sequencefile文件
saveAsObjectFile(path) 序列化成对象保存到文件

代码演示

package com.xcu.bigdata.spark.core.pg02_rdd.pg023_rdd_action

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}


object Spark01_Action {
  def main(args: Array[String]): Unit = {
    //创建配置文件
    val conf: SparkConf = new SparkConf().setAppName("Spark01_Action").setMaster("local[*]")
    //创建SparkContext,该对象是提交的入口
    val sc = new SparkContext(conf)
    //创建RDD
    val rdd: RDD[Int] = sc.makeRDD(List(1, 5, 3, 2, 4, 6), numSlices = 3)
    // reduce 与reduceByKey的区别是：reduceByKey是kv类型 reduce是单值类型
    val res1: Int = rdd.reduce((x: Int, y: Int) => (x + y))
    println(res1)
    println("**********************************")
    //count 获取RDD中元素的个数
    val res2: Long = rdd.count()
    println(res2)
    println("**********************************")
    //first() 返回RDD中的第一个元素
    val res3: Int = rdd.first()
    println(res3)
    println("**********************************")
    //take  返回rdd前n个元素组成的数组
    val res4: Array[Int] = rdd.take(3)
    println(res4.mkString(","))
    println("**********************************")
    //takeOrdered 获取RDD排序后前n的元素组成的数组
    val res5: Array[Int] = rdd.takeOrdered(3)
    println(res5.mkString(","))
    println("**********************************")
    // aggregate
    /*
    将每个分区里面的元素通过分区内逻辑和初始值进行聚合，然后用分区间逻辑和初始值(zeroValue)进行操作。
    注意:分区间逻辑再次使用初始值和aggregateByKey是有区别的。
    */
    val res6: Int = rdd.aggregate(10)(_ + _, _ + _)
    println(res6)
    println("**********************************")
    //countByKey  统计每种key出现的次数
    val rdd1: RDD[(Int, String)] = sc.parallelize(List((1, "a"), (1, "a"), (1, "a"), (2, "b"), (3, "c"), (3, "c")))
    val res7: collection.Map[Int, Long] = rdd1.countByKey()
    println(res7)
    //释放资源
    sc.stop()
  }
}

输出结果

21
**********************************
6
**********************************
1
**********************************
1,5,3
**********************************
1,2,3
**********************************
61
**********************************
Map(1 -> 3, 2 -> 1, 3 -> 2)

Process finished with exit code 0