linux pyspark下载安装

原创

mob649e8166c3a5 2023-08-20 10:41:42 ©著作权

文章标签 bash spark Java 文章分类 Spark 大数据

©著作权归作者所有：来自51CTO博客作者mob649e8166c3a5的原创作品，请联系作者获取转载授权，否则将追究法律责任

Linux 上安装和使用 PySpark

简介

PySpark 是 Apache Spark 的 Python API，它提供了一个强大的数据处理框架，使得在大规模数据集上进行分布式计算变得简单和高效。本文将介绍如何在 Linux 系统上安装和使用 PySpark。

安装 Java

由于 Spark 是基于 Java 开发的，因此在安装 PySpark 之前，我们需要先安装 Java 运行环境。

打开终端，并使用以下命令安装 Java：

sudo apt-get update
sudo apt-get install default-jdk

安装完成后，可以使用以下命令验证 Java 是否安装成功：

java -version

安装 Spark

安装完成 Java 后，我们可以开始安装 Spark。

打开终端，并使用以下命令下载 Spark 的二进制压缩包：

wget

下载完成后，使用以下命令解压缩 Spark 压缩包：

tar -xvzf spark-3.2.0-bin-hadoop3.2.tgz

解压缩完成后，可以将 Spark 移动到合适的位置（例如，/opt 目录下）：

sudo mv spark-3.2.0-bin-hadoop3.2 /opt/spark

设置环境变量，使得系统能够找到 Spark：

echo "export SPARK_HOME=/opt/spark" >> ~/.bashrc
echo "export PATH=\$PATH:\$SPARK_HOME/bin:\$SPARK_HOME/sbin" >> ~/.bashrc
source ~/.bashrc

验证 Spark 是否安装成功：

spark-shell

如果一切正常，会进入 Spark 的交互式 Shell。

安装 PySpark

安装 Spark 后，我们可以安装 PySpark。

打开终端，并使用以下命令安装 Python 以及相关依赖：

sudo apt-get install python3-pip python3-dev

安装完成后，使用以下命令安装 PySpark：

pip3 install pyspark

安装完成后，即可在 Python 中导入并使用 PySpark。

使用 PySpark

下面我们将介绍如何使用 PySpark 进行数据处理和分析。

初始化 SparkSession

在使用 PySpark 之前，我们需要创建一个 SparkSession 对象，它是我们与 Spark 集群交互的入口。

from pyspark.sql import SparkSession

# 创建 SparkSession 对象
spark = SparkSession.builder.appName("PySpark example").getOrCreate()

加载数据

PySpark 提供了多种方式加载数据，包括从文件系统、数据库以及其他数据源加载数据。这里我们以从 CSV 文件加载数据为例。

# 从 CSV 文件加载数据
df = spark.read.format("csv").option("header", "true").load("data.csv")

数据处理与分析

加载数据后，我们可以使用 PySpark 进行各种数据处理和分析操作。

# 显示数据集前几行
df.show()

# 统计数据集的行数
count = df.count()

# 计算数据集中某一列的平均值
average = df.selectExpr("avg(column_name)").collect()[0][0]

# 进行数据过滤
filtered_df = df.filter("column_name > 10")

# 进行数据分组与聚合
grouped_df = df.groupBy("column_name").agg({"column_name": "sum"})

# 保存处理后的数据集
filtered_df.write.format("csv").option("header", "true").save("filtered_data.csv")