文章目录
- 先决条件
- 系统要求
- 安装步骤
- 步骤1:下载
- 步骤2:解压缩
- 步骤3:创建目录
- 步骤5: 配置环境变量
- 步骤6:Hadoop在Windows下的工具包下载
- 步骤7:将工具包放在正确位置
- 步骤8:安装java
- Java安装步骤:(已安装可跳过)
- 测试Java安装:(已安装可跳过)
- 测试安装结果:
- 从Windows 10系统中卸载Spark:
- 删除系统/用户变量步骤:
Apache Spark是一个快速通用的集群计算系统。它提供了Java、Scala、Python和R语言的高级API,拥有优化了的通用图计算引擎。它还拥有丰富的其他高级工具,如:用于SQL和结构化数据处理的Spark SQL 、用于机器学习的MLlib、用于图计算的GraphX、以及用于流式批处理的Spark Streaming。
本文将介绍在 Windows 10 操作系统上安装Apache Spark的过程。
先决条件
本指南假定您使用的是Windows 10,并且用户具有管理权限。
系统要求
- Windows 10操作系统
- 至少4GB 内存
- 至少20GB 的磁盘空间
安装步骤
步骤1:下载
转到Apache Spark官方下载 页面,选择最新版本。对于包类型,选择“Pre-build for Apache Hadoop”(预编译版本)。页面如下所示:
步骤2:解压缩
下载完成后,使用WinZip、WinRAR或7-ZIP解压缩文件。
步骤3:创建目录
在用户目录下创建一个名为Spark的文件夹(如:C:\Users\Spark,强烈建议:文件目录不要包含中文、空格等 ),如下所示。然后从解压缩的文件中,把所有内容复制粘贴过去。复制粘贴到Spark目录后如下所示。
- ##步骤4:修改日志配置(可选)
转到conf文件夹并打开名为log4j.properties.template的文件。将“INFO”更改为“WARN”(“ERROR ”会使日志更少)。此步骤和下面的步骤是可选的。删除所有文件的“.template”后缀,这样Spark才能加载这些文件。在删除“.template”之前,所有文件如下所示。删除“.template”之后,所有文件如下所示。
步骤5: 配置环境变量
转到“控制面板”->“系统和安全”->“系统”->“高级设置”->“环境变量”。在新用户变量(或系统变量)下面添加(要添加新用户变量,请单击“用户变量”下的“新建”按钮):单击“确定”。
将%SPARK_HOME%\bin添加到
PATH变量。
单击“确定”。
步骤6:Hadoop在Windows下的工具包下载
Spark运行需要依赖Hadoop。对于Hadoop 2.7,需要安装winutils.exe。
您可以在下面的页面 找到winutils.exe,请下载下来。
步骤7:将工具包放在正确位置
在C盘中创建一个名为winutils的文件夹,并在其中创建一个名为bin的文件夹。然后,将下载的winutils.exe移动到bin文件夹。 (C:\winutils\bin)添加用户(或系统)变量%HADOOP_HOME%,就像SPARK_HOME一样。
单击“确定”。
步骤8:安装java
要安装Apache Spark,您的计算机上需要安装Java。如果您的系统中没有安装java。请按照以下流程安装
Java安装步骤:(已安装可跳过)
- 转到Java官网
- 接受许可协议(Accept Licence Agreement for Java SE Development Kit 8u201)
- 下载jdk-8u201-windows-x64.exe文件
- 双击下载的.exe文件,您将看到如下窗口。
- 单击“下一步”。
- 然后将显示下面的窗口。
- 单击“下一步”。
- 等待运行结束,将显示下面的窗口。
- 单击“关闭”。
测试Java安装:(已安装可跳过)
打开命令行并键入java-version,然后应该显示已安装的java版本
您还应该检查一下用户变量(或系统变量)中包含的JAVA_HOME和PATH变量中的%JAVA_HOME%\bin。
- 执行完上述步骤后,环境变量有3个新路径(JAVA_HOME,SPARK_HOME和HADOOP_HOME)。
- 创建c:\tmp\hive目录。这一步对于最新版本的Spark是不必要的。当你第一次启动Spark时,它会自己创建文件夹。但是,最好自己创建一个文件夹。(C:\tmp\hive)
测试安装结果:
打开命令行(cmd),输入 spark-shell,应该得到如下结果。
至此我们已经在Windows系统上完成了spark的安装。让我们创建RDD和Dataframe来做一次完整的最终测试。
- 共有三种方法创建RDD,我们将使用其中一种。
定义任意类型的List,然后将其并行化(parallelize)。代码如下:
val list = Array(1,2,3,4,5)
val rdd = sc.parallelize(list)
这样就创建了RDD。
2. 接下来将从RDD创建一个Dataframe。步骤如下:
import spark.implicits._
val df = rdd.toDF("id")
上面的代码将创建一个以id为列的Dataframe。
要显示Dataframe中的数据,可以使用下面的命令:
Df.show()
运行后将显示:
从Windows 10系统中卸载Spark:
可以按照以下步骤在Windows 10上卸载 Spark。
- 从系统中删除以下系统/用户变量。
- SPARK_HOME
- HADOOP_HOME
删除系统/用户变量步骤:
- 进入“控制面板”->“系统和安全”->“系统”->“高级设置”->“环境变量”,找到SPARK_HOME和HADOOP_HOME,然后选择它们,然后按“删除”按钮。
- 查找PATH变量编辑->选择%SPARK_HOME%\bin->按删除按钮
- 选择%HADOOP_HOME%\bin->按删除按钮->确定按钮
- 打开命令提示符输入spark-shell,然后回车(enter),然后会得到一个错误。现在我们可以确认Spark已成功从系统中卸载。