windows 搭建pyspark环境

原创

wx58f80ea142e51 2023-08-18 11:21:43 博主文章分类：pyspark ©著作权

文章标签 spark java html 文章分类 Hadoop 大数据

©著作权归作者所有：来自51CTO博客作者wx58f80ea142e51的原创作品，请联系作者获取转载授权，否则将追究法律责任

1、安装Java 8环境

快速下载地址：

https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

参考安装教程：

https://www.cnblogs.com/heqiyoujing/p/9502726.html

安装成功后，在命令行中输入 java -version

出现版本信息就安装成功了哈！加油！

windows 搭建pyspark环境_spark

2、安装spark

spark官网下载: http://spark.apache.org/downloads.html

我安装的是

spark-3.0.3-bin-hadoop2.7

下载后解压放入到一个常用软件的安装路径，不要安装到C盘哟！

3.安装findspark

!pip install findspark

import os
import findspark
os.environ['JAVA_HOME'] = 'D:\Java\jdk1.8.0_311'  # 这里的路径为java的bin目录所在路径
spark_home = "D:\spark-3.0.3-bin-hadoop2.7"  #spark路径
#python_path = "D:\Anaconda3\bin\python"  #可以不用Python路径
findspark.init(spark_home)

import pyspark 
from pyspark.sql import SparkSession

#SparkSQL的许多功能封装在SparkSession的方法接口中

spark = SparkSession.builder \
        .appName("test") \
        .config("master","local[*]") \
        .enableHiveSupport() \
        .getOrCreate()

sc = spark.sparkContext

大功告成！