pyspark python脚本 pyspark sampleby

转载

mob6454cc788ee7 2023-07-01 17:05:47

文章标签 pyspark python脚本 python scala spark java 文章分类 Spark 大数据

PySpark环境搭建

一、基础环境准备

1、Scala环境搭建

1.1 下载
1.2 安装
1.3 添加环境变量
1.4 测试环境

2、JDK环境搭建

2.1 下载
2.2 安装
2.3 配置环境变量
2.4 测试环境

3、Python环境准备
4、Windows环境

二、Hadoop环境准备

1、下载
2、安装
3、添加环境变量
4、测试环境
5、本地bin目录替换

三、spark环境准备

1、下载
2、安装
3、添加环境变量
4、测试环境

四、安装pyspark

1、复制
2、本地测试

PySpark是Python整合Spark的一个扩展包，可以使用Python进行Spark开发。而PySpark需要依赖Spark环境，Spark需要依赖Hadoop环境，而且，本地环境需要安装JDK和Scala。

一、基础环境准备

1、Scala环境搭建

1.1 下载

本文环境为2.11.8
Scala下载地址：https://www.scala-lang.org/download/all.html

1.2 安装

（1）若是下载了.msi格式的scala：
直接执行安装即可，后续环境变量可不配置，安装程序会自动配置好，直接1.4测试即可。
（2）若是下载了.zip格式的scala：
将下载好的包解压到本地环境中，比如D:\scala
还需执行1.3环境配置步骤，再执行1.4测试。

1.3 添加环境变量

新增系统变量：SCALA_HOME，值为本地scala安装路径，比如SCALA_HOME=D:\scala。

pyspark python脚本 pyspark sampleby_scala

增加Path系统变量的值，为%SCALA_HOME%\bin

pyspark python脚本 pyspark sampleby_python_02

1.4 测试环境

打开命令行窗口，输入scala，出现如下界面表示安装成功。

pyspark python脚本 pyspark sampleby_java_03

2、JDK环境搭建

2.1 下载

本文环境为jdk1.8
jdk下载地址：http://www.oracle.com/technetwork/java/javase/downloads

2.2 安装

将下载好的包解压到本地环境中，比如D:\java

2.3 配置环境变量

新增系统变量：JAVA_HOME，值为本地scala安装路径，比如JAVA_HOME=D:\java\jdk1.8.0_352

pyspark python脚本 pyspark sampleby_java_04

增加Path系统变量的值，为%JAVA_HOME%\bin

pyspark python脚本 pyspark sampleby_pyspark python脚本_05

2.4 测试环境

打开命令行窗口，输入java -version，出现如下界面表示安装成功。

pyspark python脚本 pyspark sampleby_pyspark python脚本_06

3、Python环境准备

本文环境为Anaconda，版本为python 3.7。

4、Windows环境

本文的所有环境均搭建在本地，本地系统为windows10。

二、Hadoop环境准备

1、下载

本文为hadoop-2.8.5
Hadoop下载地址：https://archive.apache.org/dist/hadoop/common/

2、安装

将下载好的包解压到本地环境中，比如D:/Hadoop/hadoop-2.8.5

3、添加环境变量

新增系统变量：HADOOP_HOME，值为本地hadoop安装路径，比如HADOOP_HOME=D:\Hadoop\hadoop-2.8.5。

pyspark python脚本 pyspark sampleby_spark_07

增加Path系统变量的值，为%HADOOP_HOME%\bin

pyspark python脚本 pyspark sampleby_spark_08

4、测试环境

命令行中输入hadoop version出现版本信息，

pyspark python脚本 pyspark sampleby_pyspark python脚本_09

表示搭建成功。

5、本地bin目录替换

因为hadoop是搭建在linux集群上的，搭建本地环境(windows)需要windows环境支持包，这里我们直接替换本地hadoop的bin文件夹。
下载地址：https://codeload.github.com/cdarlint/winutils/zip/refs/heads/master 下载对应版本替换本地/bin目录。

三、spark环境准备

1、下载

本文为spark-2.2.0-bin-hadoop2.7
spark下载地址：https://spark.apache.org/downloads.html

2、安装

解压到本地环境中，比如D:\Spark\spark-2.2.0-bin-hadoop2.7

3、添加环境变量

新增SPARK_HOME系统变量，值为本地spark安装路径。比如SPARK_HOME=D:\Spark\spark-2.2.0-bin-hadoop2.7。

pyspark python脚本 pyspark sampleby_java_10

增加Path系统变量的值，为%SPARK_HOME%\bin

pyspark python脚本 pyspark sampleby_python_11

4、测试环境

命令行中输入spark-shell，出现

pyspark python脚本 pyspark sampleby_spark_12

即表示搭建成功。

四、安装pyspark

1、复制

复制spark安装目录\python\lib中的py4j-0.10.4-src.zip和pyspark.zip包，
粘贴包并解压至Anaconda安装目录\Lib\site-package下，如果没有使用Anaconda，把Anaconda安装目录替换成Python安装目录。

2、本地测试

在cmd命令行输入python进入python环境，输入import pyspark as ps不报错即表示成功。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java重复登陆判断 java如何判断用户名重复

下一篇：android 单线程任务队列安卓单线程

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯