PySpark环境搭建

  • 一、基础环境准备
  • 1、Scala环境搭建
  • 1.1 下载
  • 1.2 安装
  • 1.3 添加环境变量
  • 1.4 测试环境
  • 2、JDK环境搭建
  • 2.1 下载
  • 2.2 安装
  • 2.3 配置环境变量
  • 2.4 测试环境
  • 3、Python环境准备
  • 4、Windows环境
  • 二、Hadoop环境准备
  • 1、下载
  • 2、安装
  • 3、添加环境变量
  • 4、测试环境
  • 5、本地bin目录替换
  • 三、spark环境准备
  • 1、下载
  • 2、安装
  • 3、添加环境变量
  • 4、测试环境
  • 四、安装pyspark
  • 1、复制
  • 2、本地测试



PySpark是Python整合Spark的一个扩展包,可以使用Python进行Spark开发。而PySpark需要依赖Spark环境,Spark需要依赖Hadoop环境,而且,本地环境需要安装JDK和Scala。

一、基础环境准备

1、Scala环境搭建

1.1 下载

本文环境为2.11.8
Scala下载地址:https://www.scala-lang.org/download/all.html

1.2 安装

(1)若是下载了.msi格式的scala:
直接执行安装即可,后续环境变量可不配置,安装程序会自动配置好,直接1.4测试即可。
(2)若是下载了.zip格式的scala:
将下载好的包解压到本地环境中,比如D:\scala
还需执行1.3环境配置步骤,再执行1.4测试。

1.3 添加环境变量

新增系统变量:SCALA_HOME,值为本地scala安装路径,比如SCALA_HOME=D:\scala。

pyspark python脚本 pyspark sampleby_scala

增加Path系统变量的值,为%SCALA_HOME%\bin

pyspark python脚本 pyspark sampleby_python_02

1.4 测试环境

打开命令行窗口,输入scala,出现如下界面表示安装成功。

pyspark python脚本 pyspark sampleby_java_03

2、JDK环境搭建

2.1 下载

本文环境为jdk1.8
jdk下载地址:http://www.oracle.com/technetwork/java/javase/downloads

2.2 安装

将下载好的包解压到本地环境中,比如D:\java

2.3 配置环境变量

新增系统变量:JAVA_HOME,值为本地scala安装路径,比如JAVA_HOME=D:\java\jdk1.8.0_352

pyspark python脚本 pyspark sampleby_java_04

增加Path系统变量的值,为%JAVA_HOME%\bin

pyspark python脚本 pyspark sampleby_pyspark python脚本_05

2.4 测试环境

打开命令行窗口,输入java -version,出现如下界面表示安装成功。

pyspark python脚本 pyspark sampleby_pyspark python脚本_06

3、Python环境准备

本文环境为Anaconda,版本为python 3.7。

4、Windows环境

本文的所有环境均搭建在本地,本地系统为windows10。

二、Hadoop环境准备

1、下载

本文为hadoop-2.8.5
Hadoop下载地址:https://archive.apache.org/dist/hadoop/common/

2、安装

将下载好的包解压到本地环境中,比如D:/Hadoop/hadoop-2.8.5

3、添加环境变量

新增系统变量:HADOOP_HOME,值为本地hadoop安装路径,比如HADOOP_HOME=D:\Hadoop\hadoop-2.8.5。

pyspark python脚本 pyspark sampleby_spark_07


增加Path系统变量的值,为%HADOOP_HOME%\bin

pyspark python脚本 pyspark sampleby_spark_08

4、测试环境

命令行中输入hadoop version出现版本信息,

pyspark python脚本 pyspark sampleby_pyspark python脚本_09


表示搭建成功。

5、本地bin目录替换

因为hadoop是搭建在linux集群上的,搭建本地环境(windows)需要windows环境支持包,这里我们直接替换本地hadoop的bin文件夹。
下载地址:https://codeload.github.com/cdarlint/winutils/zip/refs/heads/master 下载对应版本替换本地/bin目录。

三、spark环境准备

1、下载

本文为spark-2.2.0-bin-hadoop2.7
spark下载地址:https://spark.apache.org/downloads.html

2、安装

解压到本地环境中,比如D:\Spark\spark-2.2.0-bin-hadoop2.7

3、添加环境变量

新增SPARK_HOME系统变量,值为本地spark安装路径。比如SPARK_HOME=D:\Spark\spark-2.2.0-bin-hadoop2.7。

pyspark python脚本 pyspark sampleby_java_10


增加Path系统变量的值,为%SPARK_HOME%\bin

pyspark python脚本 pyspark sampleby_python_11

4、测试环境

命令行中输入spark-shell,出现

pyspark python脚本 pyspark sampleby_spark_12


即表示搭建成功。

四、安装pyspark

1、复制

复制spark安装目录\python\lib中的py4j-0.10.4-src.zip和pyspark.zip包,
粘贴包并解压至Anaconda安装目录\Lib\site-package下,如果没有使用Anaconda,把Anaconda安装目录替换成Python安装目录。

2、本地测试

在cmd命令行输入python进入python环境,输入import pyspark as ps不报错即表示成功。