使用 PySpark 连接 MySQL 数据库

原创

mob64ca12d4a164 2023-12-26 08:30:14 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12d4a164的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用 PySpark 连接 MySQL 数据库

导言

在数据分析和机器学习领域，使用 PySpark 连接 MySQL 数据库是一个常见的任务。PySpark 是 Python 版本的 Spark，是一个分布式计算框架，可以处理大规模数据集。而 MySQL 是一个常用的关系型数据库管理系统，用于存储结构化数据。

本文将介绍如何使用 PySpark 连接 MySQL 数据库，并展示一些常见的操作示例。

安装 PySpark

首先，我们需要安装 PySpark。可以使用 pip 命令来安装：

pip install pyspark

连接 MySQL 数据库

在使用 PySpark 连接 MySQL 数据库之前，我们需要确保已经安装了 MySQL Connector。

可以使用以下命令来安装 MySQL Connector：

pip install mysql-connector-python

接下来，我们可以使用以下代码来连接 MySQL 数据库：

from pyspark.sql import SparkSession

# 创建 SparkSession 对象
spark = SparkSession.builder \
    .appName("MySQL Connection") \
    .config("spark.jars", "/path/to/mysql-connector-java.jar") \
    .getOrCreate()

# 连接 MySQL 数据库
url = "jdbc:mysql://localhost:3306/mydatabase"
properties = {
    "user": "yourusername",
    "password": "yourpassword",
    "driver": "com.mysql.jdbc.Driver"
}

# 读取 MySQL 数据库中的表
df = spark.read.jdbc(url=url, table="mytable", properties=properties)

# 显示数据
df.show()

在上面的代码中，我们首先创建了一个 SparkSession 对象。然后，通过指定 MySQL 数据库的连接 URL、用户名和密码，我们可以使用 spark.read.jdbc 方法从 MySQL 数据库中读取数据表，并将其存储在一个 DataFrame 中。最后，我们使用 df.show() 方法来显示 DataFrame 的内容。

常见的操作示例

下面我们将展示一些常见的操作示例，包括查询数据、插入数据、更新数据和删除数据。

查询数据

要查询 MySQL 数据库中的数据，可以使用 Spark SQL 的语法。以下是一个示例：

from pyspark.sql import SparkSession

# 创建 SparkSession 对象
spark = SparkSession.builder \
    .appName("MySQL Connection") \
    .config("spark.jars", "/path/to/mysql-connector-java.jar") \
    .getOrCreate()

# 连接 MySQL 数据库
url = "jdbc:mysql://localhost:3306/mydatabase"
properties = {
    "user": "yourusername",
    "password": "yourpassword",
    "driver": "com.mysql.jdbc.Driver"
}

# 查询数据
df = spark.read.jdbc(url=url, table="mytable", properties=properties)
df.createOrReplaceTempView("mytable_view")

result = spark.sql("SELECT * FROM mytable_view")
result.show()

在上面的代码中，我们首先将 DataFrame 注册为一个临时视图，然后使用 Spark SQL 的语法来查询数据。

插入数据

要将数据插入到 MySQL 数据库中，可以使用 df.write.jdbc 方法。以下是一个示例：

from pyspark.sql import SparkSession

# 创建 SparkSession 对象
spark = SparkSession.builder \
    .appName("MySQL Connection") \
    .config("spark.jars", "/path/to/mysql-connector-java.jar") \
    .getOrCreate()

# 连接 MySQL 数据库
url = "jdbc:mysql://localhost:3306/mydatabase"
properties = {
    "user": "yourusername",
    "password": "yourpassword",
    "driver": "com.mysql.jdbc.Driver"
}

# 创建 DataFrame
data = [("John", 25), ("Jane", 30), ("Tom", 35)]
df = spark.createDataFrame(data, ["name", "age"])

# 插入数据
df.write.jdbc(url=url, table="mytable", mode="overwrite", properties=properties)

在上面的代码中，我们首先创建了一个 DataFrame，并将其写入到 MySQL 数据库的指定表中。在 write.jdbc 方法中，我们可以指定插入模式（覆盖、追加等）。

更新数据

要更新 MySQL 数据库中的数据，可以使用 Spark SQL 的 UPDATE 语句。以下是一个示例：

from pyspark.sql import SparkSession

# 创建 SparkSession 对象
spark = SparkSession.builder \
    .appName("MySQL Connection") \
    .config("spark.jars", "/path/to/mysql-connector-java.jar") \
    .getOrCreate()

# 连接 MySQL 数据库
url = "jdbc:mysql://localhost:3306/mydatabase"
properties = {
    "user": "