spark读取文件

原创

mob649e8169ec5f 2023-10-15 14:14:59 ©著作权

文章标签 读取文件 spark scala 文章分类 Spark 大数据

©著作权归作者所有：来自51CTO博客作者mob649e8169ec5f的原创作品，请联系作者获取转载授权，否则将追究法律责任

Spark读取文件流程

为了教会小白如何使用Spark读取文件，我将按照以下流程详细介绍每一步需要做什么以及需要使用的代码。

步骤概览

步骤	描述
1	创建SparkSession对象
2	使用SparkSession对象读取文件
3	对文件进行处理和转换
4	执行Spark任务并获取结果

详细步骤及代码注释

1. 创建SparkSession对象

首先，我们需要创建一个SparkSession对象，它是Spark应用程序的入口点。SparkSession封装了Spark核心功能和相关配置，可以用于创建DataFrame、执行SQL查询等操作。

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()
  .appName("ReadFilesWithSpark")
  .master("local[*]") // 使用本地模式运行，*表示利用所有可用的CPU核心
  .getOrCreate()

解释：

import org.apache.spark.sql.SparkSession：导入SparkSession类
val spark = SparkSession.builder()：创建SparkSession.Builder对象
.appName("ReadFilesWithSpark")：设置应用程序名称
.master("local[*]")：设置运行模式为本地模式，并利用所有可用的CPU核心
.getOrCreate()：获取或创建SparkSession对象

2. 使用SparkSession对象读取文件

接下来，我们使用SparkSession对象读取文件。Spark支持多种文件格式，例如CSV、JSON、Parquet等。

val filePath = "path/to/file" // 文件路径

val df = spark.read.format("csv") // 设置文件格式为CSV
  .option("header", "true") // 如果文件包含表头，设置为true
  .load(filePath) // 加载文件

解释：

val filePath = "path/to/file"：设置文件路径，可以是本地文件系统路径或HDFS路径
val df = spark.read.format("csv")：创建DataFrameReader对象，设置文件格式为CSV
.option("header", "true")：如果文件包含表头，指定表头选项为true
.load(filePath)：加载指定路径的文件并创建DataFrame对象

3. 对文件进行处理和转换

在读取文件后，我们可以根据需求对文件进行处理和转换。Spark提供了丰富的操作API，例如选择特定列、过滤数据、聚合数据等。

val filteredDF = df.filter("age > 18") // 过滤年龄大于18岁的数据

val selectedDF = filteredDF.select("name", "age") // 选择name和age列

val transformedDF = selectedDF.withColumn("age_category", when($"age" < 30, "young").otherwise("old")) // 根据年龄划分为young和old两个类别

解释：

val filteredDF = df.filter("age > 18")：过滤出年龄大于18岁的数据
val selectedDF = filteredDF.select("name", "age")：选择name和age两列
val transformedDF = selectedDF.withColumn("age_category", when($"age" < 30, "young").otherwise("old"))：根据年龄添加一个新列age_category，当age小于30时为"young"，否则为"old"

4. 执行Spark任务并获取结果

最后，我们执行Spark任务并获取结果。Spark的计算是惰性的，只有在遇到动作操作时才会执行计算。

val result = transformedDF.collect() // 将DataFrame转换成本地集合

result.foreach(println) // 打印结果

解释：

val result = transformedDF.collect()：将DataFrame转换成本地集合，可以使用collect()方法将结果获取到Driver程序中
result.foreach(println)：打印结果，可以根据需求进行进一步处理和展示

结果展示

下面是使用mermaid语法的ER图来展示整个流程的关系：

erDiagram
    SparkSession --> DataFrame : 读取文件
    DataFrame --> DataFrame : 处理和转换
    DataFrame --> Result : 执行任务并获取结果

以上就是使用Spark读取文件的整个流程，希望能对你有所帮助。

上一篇：Java date取日

下一篇：redistemplate 集合批量写入

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯