Spark基础入门-第六章：PySpark库

原创

黑马程序员 2023-01-12 07:28:37 ©著作权

©著作权归作者所有：来自51CTO博客作者黑马程序员的原创作品，请联系作者获取转载授权，否则将追究法律责任

Spark是大数据体系的明星产品，是一款高性能的分布式内存迭代计算框架，可以处理海量规模的数据。下面就带大家来学习今天的内容！

一、框架 VS 类库

Spark基础入门-第六章：PySpark库_python

我们前面使用过bin/pyspark 程序, 要注意, 这个只是一个应用程序, 提供一个Python解释器执行环境来运行Spark任务我们现在说的PySpark, 指的是Python的运行类库, 是可以在Python代码中:import pyspark

PySpark 是Spark官方提供的一个Python类库, 内置了完全的Spark API, 可以通过PySpark类库来编写Spark应用程序, 并将其提交到Spark集群中运行.

下图是PySpark类库和标准Spark框架的简单对比：

Spark基础入门-第六章：PySpark库_Python_02

Anaconda是Python语言的一个发行版.

内置了非常多的数据科学相关的Python类库, 同时可以提供虚拟环境来供不同的程序使用.

本次课程基于Anaconda3来获得Python运行环境.

Anaconda的安装参考<<spark部署文档.doc>>

Spark基础入门-第六章：PySpark库_环境搭建_03

PySpark是Python标准类库, 可以通过Python自带的pip程序进行安装或者Anaconda的库安装(conda)，

在合适的虚拟环境下(课程使用pyspark这个虚拟环境), 执行如下命令即可安装:

pip install pyspark -i https://pypi.tuna.tsinghua.edu.cn/simple或者conda install pyspark，推荐使用pip。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯