文章目录

  • 先决条件
  • 系统要求
  • 安装步骤
  • 步骤1:下载
  • 步骤2:解压缩
  • 步骤3:创建目录
  • 步骤5: 配置环境变量
  • 步骤6:Hadoop在Windows下的工具包下载
  • 步骤7:将工具包放在正确位置
  • 步骤8:安装java
  • Java安装步骤:(已安装可跳过)
  • 测试Java安装:(已安装可跳过)
  • 测试安装结果:
  • 从Windows 10系统中卸载Spark:
  • 删除系统/用户变量步骤:



Apache Spark是一个快速通用的集群计算系统。它提供了Java、Scala、Python和R语言的高级API,拥有优化了的通用图计算引擎。它还拥有丰富的其他高级工具,如:用于SQL和结构化数据处理的Spark SQL 、用于机器学习的MLlib、用于图计算的GraphX、以及用于流式批处理的Spark Streaming。


本文将介绍在 Windows 10 操作系统上安装Apache Spark的过程。


spark windows安装知乎 windows下安装spark_Java

先决条件

本指南假定您使用的是Windows 10,并且用户具有管理权限。

系统要求

  • Windows 10操作系统
  • 至少4GB 内存
  • 至少20GB 的磁盘空间

安装步骤

步骤1:下载

转到Apache Spark官方下载 页面,选择最新版本。对于包类型,选择“Pre-build for Apache Hadoop”(预编译版本)。页面如下所示:

spark windows安装知乎 windows下安装spark_Windows_02

步骤2:解压缩

下载完成后,使用WinZip、WinRAR或7-ZIP解压缩文件。

步骤3:创建目录

在用户目录下创建一个名为Spark的文件夹(如:C:\Users\Spark强烈建议:文件目录不要包含中文、空格等 ),如下所示。然后从解压缩的文件中,把所有内容复制粘贴过去。
复制粘贴到Spark目录后如下所示。

spark windows安装知乎 windows下安装spark_spark_03

  • ##步骤4:修改日志配置(可选)
转到conf文件夹并打开名为log4j.properties.template的文件。将“INFO”更改为“WARN”(“ERROR ”会使日志更少)。此步骤和下面的步骤是可选的。
删除所有文件的“.template”后缀,这样Spark才能加载这些文件。
在删除“.template”之前,所有文件如下所示。

spark windows安装知乎 windows下安装spark_spark windows安装知乎_04


删除“.template”之后,所有文件如下所示。


spark windows安装知乎 windows下安装spark_Windows_05

步骤5: 配置环境变量

转到“控制面板”->“系统和安全”->“系统”->“高级设置”->“环境变量”。
在新用户变量(或系统变量)下面添加(要添加新用户变量,请单击“用户变量”下的“新建”按钮):

spark windows安装知乎 windows下安装spark_spark windows安装知乎_06


单击“确定”。


将%SPARK_HOME%\bin添加到

PATH

变量。


spark windows安装知乎 windows下安装spark_windows_07


单击“确定”。

步骤6:Hadoop在Windows下的工具包下载

Spark运行需要依赖Hadoop。对于Hadoop 2.7,需要安装winutils.exe。
您可以在下面的页面 找到winutils.exe,请下载下来。

步骤7:将工具包放在正确位置

在C盘中创建一个名为winutils的文件夹,并在其中创建一个名为bin的文件夹。然后,将下载的winutils.exe移动到bin文件夹。 (C:\winutils\bin)

spark windows安装知乎 windows下安装spark_windows_08


添加用户(或系统)变量%HADOOP_HOME%,就像SPARK_HOME一样。


spark windows安装知乎 windows下安装spark_Java_09


spark windows安装知乎 windows下安装spark_windows_10


单击“确定”。

步骤8:安装java

要安装Apache Spark,您的计算机上需要安装Java。如果您的系统中没有安装java。请按照以下流程安装

Java安装步骤:(已安装可跳过)

  • 转到Java官网
  • 接受许可协议(Accept Licence Agreement for Java SE Development Kit 8u201)
  • 下载jdk-8u201-windows-x64.exe文件
  • 双击下载的.exe文件,您将看到如下窗口。
  • 单击“下一步”。
  • 然后将显示下面的窗口。
  • 单击“下一步”。
  • 等待运行结束,将显示下面的窗口。
  • 单击“关闭”。

测试Java安装:(已安装可跳过)

打开命令行并键入java-version,然后应该显示已安装的java版本

spark windows安装知乎 windows下安装spark_windows_11


您还应该检查一下用户变量(或系统变量)中包含的JAVA_HOME和PATH变量中的%JAVA_HOME%\bin。


  1. 执行完上述步骤后,环境变量有3个新路径(JAVA_HOME,SPARK_HOME和HADOOP_HOME)。
  2. 创建c:\tmp\hive目录。这一步对于最新版本的Spark是不必要的。当你第一次启动Spark时,它会自己创建文件夹。但是,最好自己创建一个文件夹。(C:\tmp\hive)

测试安装结果:

打开命令行(cmd),输入 spark-shell,应该得到如下结果。

spark windows安装知乎 windows下安装spark_spark windows安装知乎_12


至此我们已经在Windows系统上完成了spark的安装。让我们创建RDD和Dataframe来做一次完整的最终测试。

  1. 共有三种方法创建RDD,我们将使用其中一种。
    定义任意类型的List,然后将其并行化(parallelize)。代码如下:
val list = Array(1,2,3,4,5)
val rdd = sc.parallelize(list)

这样就创建了RDD。
2. 接下来将从RDD创建一个Dataframe。步骤如下:

import spark.implicits._
val df = rdd.toDF("id")

上面的代码将创建一个以id为列的Dataframe。
要显示Dataframe中的数据,可以使用下面的命令:

Df.show()

运行后将显示:

spark windows安装知乎 windows下安装spark_spark_13

从Windows 10系统中卸载Spark:

可以按照以下步骤在Windows 10上卸载 Spark。

  • 从系统中删除以下系统/用户变量。
  • SPARK_HOME
  • HADOOP_HOME

删除系统/用户变量步骤:

  • 进入“控制面板”->“系统和安全”->“系统”->“高级设置”->“环境变量”,找到SPARK_HOME和HADOOP_HOME,然后选择它们,然后按“删除”按钮。
  • 查找PATH变量编辑->选择%SPARK_HOME%\bin->按删除按钮
  • 选择%HADOOP_HOME%\bin->按删除按钮->确定按钮
  • 打开命令提示符输入spark-shell,然后回车(enter),然后会得到一个错误。现在我们可以确认Spark已成功从系统中卸载。