1、安装Java 8环境
快速下载地址:
https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
参考安装教程:
https://www.cnblogs.com/heqiyoujing/p/9502726.html
安装成功后,在命令行中输入 java -version
出现版本信息就安装成功了哈!加油!
2、安装spark
spark官网下载: http://spark.apache.org/downloads.html
我安装的是
spark-3.0.3-bin-hadoop2.7
下载后解压放入到一个常用软件的安装路径,不要安装到C盘哟!
3.安装findspark
!pip install findspark
import os
import findspark
os.environ['JAVA_HOME'] = 'D:\Java\jdk1.8.0_311' # 这里的路径为java的bin目录所在路径
spark_home = "D:\spark-3.0.3-bin-hadoop2.7" #spark路径
#python_path = "D:\Anaconda3\bin\python" #可以不用Python路径
findspark.init(spark_home)
import pyspark
from pyspark.sql import SparkSession
#SparkSQL的许多功能封装在SparkSession的方法接口中
spark = SparkSession.builder \
.appName("test") \
.config("master","local[*]") \
.enableHiveSupport() \
.getOrCreate()
sc = spark.sparkContext
大功告成!