过程主要分为五步:

安装 Anaconda

用 Anaconda 安装 Jupyter notebook

用 Anaconda 安装 PySpark

运行 Jupyter notebook

运行测试代码

其中1, 2, 4很简单, 使用python的朋友们应该都是会的, 这里不再赘述

3 用 Anaconda 安装 PySpark

pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

不过这里最好使用管理员权限运行cmd, 然后再执行上面的命令

如果是MAC用户,则需要运行的是:

sudo pip install -U -i https://pypi.tuna.tsinghua.edu.cn/simple pyspark

5 运行测试代码

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

## 初始化
spark = SparkSession.builder.master("local[*]").appName("Test").getOrCreate()
## 0 + 1 + 2 + 3 + 4
spark.range(0, 5).select(col("id").cast("double")).agg({'id': 'sum'}).show()
## 关闭
spark.stop()

我这里分开一步一步运行, 具体结果如下图所示:

一 使用Python 运行Spark的安装_运行测试