在spark上跑python脚本,需要指定python版本时,有如下做法:

方法一:

在环境变量文件 /etc/profile 中添加指定的pyspark,python的版本

export PYSPARK_PYTHON=指定的python路径

export PYSPARK_DRIVER_PYTHON=指定的python路径

保存后source一下 /etc/profile ,使之生效

方法二:

在spark-submit时增加参数 --conf spark.pyspark.python和 --conf spark.pyspark.driver.python

spark-submit \--driver-memory 5g --num-executors 5 --executor-cores 1 --executor-memory 1G--conf spark.pyspark.python=./.../bin/python--conf spark.pyspark.driver.python=./.../bin/pythonxx.py