hadoopFIle如何使用 pyspark hadoop能用python开发吗

转载

技术博客达人 2023-08-01 15:58:44

问题背景

公司目前有两套Spark集群和一套Hadoop集群用来做数据相关的存储和计算。Hadoop的版本是2.7，Spark两套集群，一个是2.1.0版本，一个是 2.4.3版本。但是两个Spark集群安装的Python版本都是一样的，都是3.6.8

之前对大数据Spark了解不多，接手之后协助开发在提交 Python Spark任务的时候遇到问题。

最终定位是因为Python版本的问题导致的。

processing data with Spark in Python

就是使用Python语言开发Spark任务提交进行数据处理。 PySpark的版本和 Spark 本身的版本一致

关于PySpark的安装和使用详见官方文档 https://spark.apache.org/docs/latest/api/python/getting_started/install.html#python-version-supported

因为使用Python开发Spark任务，使用的Spark版本就和Python有着密切的关系，但是查找了 Spark官网没有找到明确的地方指定，什么样的Spark版本需要什么样的Python版本

网上也找到一个类似的，但是个人感觉不是很详细。

于是自己使用爬虫的方式，爬取了所有的Python版本清单和Spark清单，然后再选择 Spark对应的Python版本的时候

1、先看当前Spark版本是多少

2、从Spark版本清单中找到该版本的发布时间

3、然后去 Python的版本清单中， 按照python版本排序之后 距离Spark版本的发布时间最近的Python版本，基本就是该Spark版本需要的最新的Python版本了

但是如果是两个发布时间非常接近，那就往下一个Python版本就行。

比如 Spark 2.1.0版本是2016/12/28发布的，距离 2016/12/28 最近的Python版本是3.6.0，发布于2016-12-23，按照常理也知道，Python新版本刚发布5天，Spark发布的版本中立马就支持了，肯定不是很现实。

所以对于 Spark 2.1.0 我们应该选择 3.5.9 。

Spark版本对应的Python的最低版本

Spark版本对应的Python的最高版本

判断的依据就是上面提到的：

Python的版本清单中， **按照python版本排序之后**  距离Spark版本的发布时间最近的Python版本，基本就是该Spark版本需要的最新的Python版本了

目前确定的是：

参考：

1、https://zhuanlan.zhihu.com/p/144151332

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯