Spark是大数据体系的明星产品,是一款高性能的分布式内存迭代计算框架,可以处理海量规模的数据。下面就带大家来学习今天的内容!



一、框架 VS 类库

Spark基础入门-第六章:PySpark库_python

二、什么是PySpark

我们前面使用过bin/pyspark 程序, 要注意, 这个只是一个应用程序, 提供一个Python解释器执行环境来运行Spark任务 我们现在说的PySpark, 指的是Python的运行类库, 是可以在Python代码中:import pyspark

PySpark 是Spark官方提供的一个Python类库, 内置了完全的Spark API, 可以通过PySpark类库来编写Spark应用程序, 并将其提交到Spark集群中运行.

下图是PySpark类库和标准Spark框架的简单对比:

Spark基础入门-第六章:PySpark库_Python_02

三、Anaconda的安装

Anaconda是Python语言的一个发行版.

内置了非常多的数据科学相关的Python类库, 同时可以提供虚拟环境来供不同的程序使用.

本次课程基于Anaconda3来获得Python运行环境.

Anaconda的安装参考<<spark部署文档.doc>>

Spark基础入门-第六章:PySpark库_环境搭建_03

四、PySpark安装

PySpark是Python标准类库, 可以通过Python自带的pip程序进行安装或者Anaconda的库安装(conda),

在合适的虚拟环境下(课程使用pyspark这个虚拟环境), 执行如下命令即可安装:

pip install pyspark -i ​​https://pypi.tuna.tsinghua.edu.cn/simple​​或者conda install pyspark,推荐使用pip。