1、安装Java 8环境 

快速下载地址:

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

参考安装教程:

https://www.cnblogs.com/heqiyoujing/p/9502726.html

安装成功后,在命令行中输入 java -version

出现版本信息就安装成功了哈!加油!

windows 搭建pyspark环境_spark


2、安装spark

spark官网下载: http://spark.apache.org/downloads.html

我安装的是 

spark-3.0.3-bin-hadoop2.7

下载后解压放入到一个常用软件的安装路径,不要安装到C盘哟!

3.安装findspark

!pip install findspark
import os
import findspark
os.environ['JAVA_HOME'] = 'D:\Java\jdk1.8.0_311'  # 这里的路径为java的bin目录所在路径
spark_home = "D:\spark-3.0.3-bin-hadoop2.7"  #spark路径
#python_path = "D:\Anaconda3\bin\python"  #可以不用Python路径
findspark.init(spark_home)

import pyspark 
from pyspark.sql import SparkSession

#SparkSQL的许多功能封装在SparkSession的方法接口中

spark = SparkSession.builder \
        .appName("test") \
        .config("master","local[*]") \
        .enableHiveSupport() \
        .getOrCreate()

sc = spark.sparkContext

大功告成!