spark rdd 操作手册 spark rdd groupby

转载

mob64ca1407d5aa 2023-11-16 14:14:14

文章标签 spark rdd 操作手册 spark java 大数据 apache 文章分类 Spark 大数据

一、提出任务

二、完成任务

（一）新建Maven项目

（二）添加相关依赖和构建插件

（三）创建日志属性文件

（四）创建分组排行榜单例对象

（五）本地运行程序，查看结果

（六）交互式操作查看中间结果

1、读取成绩文件得到RDD

2、利用映射算子生成二元组构成的RDD

3、按键分组得到新的二元组构成的RDD

4、按值排序，取前三

5、按指定格式输出结果

一、提出任务

分组求TopN是大数据领域常见的需求，主要是根据数据的某一列进行分组，然后将分组后的每一组数据按照指定的列进行排序，最后取每一组的前N行数据。

预备工作：启动集群的HDFS与Spark

spark rdd 操作手册 spark rdd groupby_apache

将成绩文件 - grades.txt上传到HDFS上/input目录

spark rdd 操作手册 spark rdd groupby_spark_02

实现思路：使用Spark RDD的groupByKey()算子可以对(key, value)形式的RDD按照key进行分组，key相同的元素的value将聚合到一起，形成(key, value-list)，将value-list中的元素降序排列取前N个即可。

二、完成任务

（一）新建Maven项目

设置项目信息（项目名、保存位置、组编号、项目编号）

spark rdd 操作手册 spark rdd groupby_spark rdd 操作手册_03

单击【Finish】按钮

spark rdd 操作手册 spark rdd groupby_apache_04

spark rdd 操作手册 spark rdd groupby_java_05

（二）添加相关依赖和构建插件

在pom.xml文件里添加依赖与Maven构建插件

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http:///POM/4.0.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http:///POM/4.0.0 http:///xsd/maven-4.0.0.xsd">
    <modelVersion>4.0.0</modelVersion>

    <groupId>net.hty.rdd</groupId>
    <artifactId>GradeTopN</artifactId>
    <version>1.0-SNAPSHOT</version>
    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>2.11.12</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>2.1.1</version>
        </dependency>
    </dependencies>
    <build>
        <sourceDirectory>src/main/scala</sourceDirectory>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>3.3.0</version>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                </configuration>
                <executions>
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase>
                        <goals>
                            <goal>single</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
            <plugin>
                <groupId>net.alchim31.maven</groupId>
                <artifactId>scala-maven-plugin</artifactId>
                <version>3.3.2</version>
                <executions>
                    <execution>
                        <id>scala-compile-first</id>
                        <phase>process-resources</phase>
                        <goals>
                            <goal>add-source</goal>
                            <goal>compile</goal>
                        </goals>
                    </execution>
                    <execution>
                        <id>scala-test-compile</id>
                        <phase>process-test-resources</phase>
                        <goals>
                            <goal>testCompile</goal>
                        </goals>
                    </execution>
                </executions>
            </plugin>
        </plugins>
    </build>
</project>

（三）创建日志属性文件

在资源文件夹里创建日志属性文件 - log4j.properties

spark rdd 操作手册 spark rdd groupby_spark rdd 操作手册_06

log4j.rootLogger=ERROR, stdout, logfile
 log4j.appender.stdout=org.apache.log4j.ConsoleAppender
 log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
 log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
 log4j.appender.logfile=org.apache.log4j.FileAppender
 log4j.appender.logfile.File=target/spark.log
 log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
 log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

（四）创建分组排行榜单例对象

在net.hty.rdd包里创建GradeTopN单例对象

spark rdd 操作手册 spark rdd groupby_spark_07

package net.hty.rdd

import org.apache.spark.{SparkConf, SparkContext}

object GradeTopN {
  def main(args: Array[String]): Unit = {
    // 创建Spark配置对象
    val conf = new SparkConf()
      .setAppName("GradeTopN") // 设置应用名称
      .setMaster("local[*]") // 设置主节点位置（目前本地调试）
    // 基于Spark配置对象创建Spark容器
    val sc = new SparkContext(conf);
    // 实现分组排行榜
    val top3 = sc.textFile("hdfs://master:9000/input/grades.txt")
      .map(line => {
        val fields = line.split(" ")
        (fields(0), fields(1))
      }) // 将每行成绩映射成二元组(name, grade)
      .groupByKey() // 按键分组
      .map(item => {
        val name = item._1
        val top3 = item._2.toList.sortWith(_ > _).take(3)
        (name, top3)
      }) // 值排序，取前三

    // 输出分组排行榜结果
    top3.collect.foreach(line => {
      val name = line._1
      var scores = ""
      for (score <- line._2)
        scores = scores + " " + score
      println(name + ":" + scores)
    })

    // 停止Spark容器，结束任务
    sc.stop()
  }
}

（五）本地运行程序，查看结果

在控制台查看输出结果

spark rdd 操作手册 spark rdd groupby_apache_08

（六）交互式操作查看中间结果

1、读取成绩文件得到RDD

执行命令：val lines = sc.textFile("hdfs://master:9000/input/grades.txt")

spark rdd 操作手册 spark rdd groupby_apache_09

2、利用映射算子生成二元组构成的RDD

val grades = lines.map(line => {
           val fields = line.split(" ")
           (fields(0), fields(1))
         })

执行上述代码

spark rdd 操作手册 spark rdd groupby_大数据_10

3、按键分组得到新的二元组构成的RDD

执行命令：val groupGrades = grades.groupByKey()

spark rdd 操作手册 spark rdd groupby_apache_11

4、按值排序，取前三

val top3 = groupGrades.map(item => {
           val name = item._1
           val top3 = item._2.toList.sortWith(_ > _).take(3)
           (name, top3)
         })

执行上述代码

spark rdd 操作手册 spark rdd groupby_大数据_12

5、按指定格式输出结果

top3.collect.foreach(line => {
       val name = line._1
       var scores = ""
       for (score <- line._2)
         scores = scores + " " + score
       println(name + ":" + scores)
     })

执行上述代码

spark rdd 操作手册 spark rdd groupby_java_13

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：pytorch文本分类word2veclstm pytorch lstm文本分类

下一篇：iOS开发定位权限在APP获取不了授权 app无法开启定位

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯