一使用Python 运行Spark的安装

原创

wx5b46e9a3dd067 2022-11-16 19:46:48 博主文章分类：Spark+Python ©著作权

文章标签 Python Spark spark 运行测试 sql 文章分类 OpenStack 云计算

©著作权归作者所有：来自51CTO博客作者wx5b46e9a3dd067的原创作品，请联系作者获取转载授权，否则将追究法律责任

过程主要分为五步:

安装 Anaconda

用 Anaconda 安装 Jupyter notebook

用 Anaconda 安装 PySpark

运行 Jupyter notebook

运行测试代码

其中1, 2, 4很简单, 使用python的朋友们应该都是会的, 这里不再赘述

3 用 Anaconda 安装 PySpark

pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

不过这里最好使用管理员权限运行cmd, 然后再执行上面的命令

如果是MAC用户,则需要运行的是:

sudo pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

5 运行测试代码

from pyspark.sql import SparkSession
from pyspark.sql.functions import col
 
## 初始化
spark = SparkSession.builder.master("local[*]").appName("Test").getOrCreate()
## 0 + 1 + 2 + 3 + 4 
spark.range(0, 5).select(col("id").cast("double")).agg({'id': 'sum'}).show()
## 关闭
spark.stop()

我这里分开一步一步运行, 具体结果如下图所示:

一使用Python 运行Spark的安装_运行测试