spark.read.csv(, header, schema)

原创

mob649e815f0f18 2023-07-23 08:41:55 ©著作权

文章标签 CSV spark 自定义 文章分类 Spark 大数据

©著作权归作者所有：来自51CTO博客作者mob649e815f0f18的原创作品，请联系作者获取转载授权，否则将追究法律责任

Spark中的CSV文件读取操作

Apache Spark是一个用于大规模数据处理的快速和通用的分布式计算系统。在Spark中，我们可以使用spark.read.csv()方法读取和处理CSV文件。

什么是CSV文件？

CSV（逗号分隔值）文件是一种常见的数据格式，用于将表格数据以文本形式进行存储。CSV文件中的每一行代表一个数据记录，每个字段之间使用逗号或其他分隔符进行分隔。

例如，下面是一个包含学生信息的CSV文件的示例：

id,name,age,gender
1,John,20,Male
2,Lisa,22,Female
3,Mark,21,Male

使用spark.read.csv()方法读取CSV文件

Spark提供了一个方便的方法spark.read.csv()来读取CSV文件。这个方法接受许多参数来配置读取行为，其中包括文件路径、是否包含标题行以及自定义模式等。

下面是一个使用spark.read.csv()方法读取CSV文件的示例代码：

from pyspark.sql import SparkSession

# 创建SparkSession
spark = SparkSession.builder.appName("CSV Reader").getOrCreate()

# 读取CSV文件
df = spark.read.csv("path/to/file.csv", header=True, inferSchema=True)

# 展示数据框的内容
df.show()

上述代码中，我们首先导入SparkSession，然后创建一个命名为"CSV Reader"的SparkSession对象。接下来，我们使用spark.read.csv()方法来读取CSV文件。header=True参数指示文件包含标题行，inferSchema=True参数指示Spark自动推断列的数据类型。

最后，我们使用df.show()方法来显示数据框的内容。

自定义模式

在某些情况下，CSV文件的列可能具有特定的数据类型，而自动推断的模式可能不准确。在这种情况下，我们可以使用schema参数来指定自定义模式。

下面是一个使用自定义模式的示例代码：

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, StructField, StringType, IntegerType

# 创建SparkSession
spark = SparkSession.builder.appName("CSV Reader").getOrCreate()

# 定义自定义模式
customSchema = StructType([
    StructField("id", IntegerType(), True),
    StructField("name", StringType(), True),
    StructField("age", IntegerType(), True),
    StructField("gender", StringType(), True)
])

# 读取CSV文件
df = spark.read.csv("path/to/file.csv", header=True, schema=customSchema)

# 展示数据框的内容
df.show()

在上述代码中，我们首先导入了StructType、StructField、StringType和IntegerType类来定义自定义模式。然后，我们使用customSchema变量定义了一个包含所有列的模式。最后，我们使用schema=customSchema参数将自定义模式传递给spark.read.csv()方法。