需要准备JDK、Spark和Anaconda。
一、JDK配置。
注意:一定要下载并安装JDK1.8开头的版本。
1.安装完成后,在此电脑上右键单击,然后在弹出的菜单上选择“属性”,会打开控制面板主页。
2.在控制面板,单击高级系统设置,会打开系统属性选项卡
3.在系统属性选项卡上,单击环境变量,会弹出环境变量设置面板。
3.在环境变量设置面板中,新建或编辑JAVA_HOME系统变量,C:\JDK18241是我的JDK安装目录。完成后点击确定返回环境变量设置页面。
4.在环境变量设置面板中,新建或编辑CLASSPATH系统变量,完成后点击确定返回环境变量设置页面,再次点击确定退出环境变量设置。
.;%JAVA_HOME%\lib;%JAVA_HOME%\lib\tools.jar
(上面这行一定要复制完整,包括最前面的.;)
5.验证JDK配置是否成功,在开始菜单上右键单击,选择运行,在运行栏上输入“cmd”,然后单击确定。
在打开的命令窗口中输入 java -version ,按回车键执行。如果看到 java version "1.8.X_XXX",说明配置成功。
二、Spark配置
1.打开Spark下载页面 http://spark.apache.org/downloads.html ,选择对应版本,本人用的2.4.5,包类型是Pre-built for Apache Hadoop 2.7 ,完成后点击Download Spark 右边的蓝色文件名称进行下载,下载后解压缩到任意文件夹。
2.用与JDK配置相同的方法进行SPARK_HOME PATH环境变量配置
三、Anaconda配置
1.打开Anaconda下载页面 https://www.anaconda.com/products/individual ,选择Python 3.7 64位版进行下载安装。
2.以管理员身份打开命令运行窗口。在开始菜单,选择Anaconda3(64-bit),然后在Anaconda Prompt(Anaconda3)右击,选择更多,点击以管理员身份运行,打开命令运行窗口。
注意:不以管理员身份运行可能会报错。
2.下载安装 pyspark。在命令运行窗口输入 conda install pyspark ,然后按回车键运行。安装成功后可通过 conda list 命令查看。
3.生成jupyter notebook配置文件。在命令运行窗口将路径切换到Anaconda3脚本目录,目录是C:\ProgramData\Anaconda3\Scripts ,然后执行配置文件生成命令 jupyter notebook --generate-config
,生成的文件在C:\Users\TAUK-GAIFEI\.jupyter 目录下。
4.修改jupyter_notebook_config.py文件,将下列代码复制到文件中,然后保存退出。
c.NotebookApp.ip = '*'
#jupyter默认打开的路径,本人是C:\Users\TAUK-GAIFEI\
c.NotebookApp.notebook_dir = u'默认打开的路径'
c.NotebookApp.port = 8106
5.打开jupyter book,新建文件进行测试,输入 from pyspark.sql import SparkSession 能成功执行就说明好了。
到此结束,谢谢观看!