spark windows安装知乎 windows下安装spark

转载

mob64ca140ac564 2023-10-10 15:55:27

文章标签 spark windows安装知乎 spark windows Windows Java 文章分类 Spark 大数据

文章目录

先决条件
系统要求
安装步骤

步骤1：下载
步骤2：解压缩
步骤3：创建目录
步骤5：配置环境变量
步骤6：Hadoop在Windows下的工具包下载
步骤7：将工具包放在正确位置
步骤8：安装java

Java安装步骤：（已安装可跳过）
测试Java安装：（已安装可跳过）

测试安装结果：
从Windows 10系统中卸载Spark：

删除系统/用户变量步骤：

Apache Spark是一个快速通用的集群计算系统。它提供了Java、Scala、Python和R语言的高级API，拥有优化了的通用图计算引擎。它还拥有丰富的其他高级工具，如：用于SQL和结构化数据处理的Spark SQL 、用于机器学习的MLlib、用于图计算的GraphX、以及用于流式批处理的Spark Streaming。

本文将介绍在 Windows 10 操作系统上安装Apache Spark的过程。

spark windows安装知乎 windows下安装spark_spark

先决条件

本指南假定您使用的是Windows 10，并且用户具有管理权限。

系统要求

Windows 10操作系统
至少4GB 内存
至少20GB 的磁盘空间

安装步骤

步骤1：下载

转到Apache Spark官方下载页面，选择最新版本。对于包类型，选择“Pre-build for Apache Hadoop”(预编译版本)。页面如下所示：

步骤2：解压缩

下载完成后，使用WinZip、WinRAR或7-ZIP解压缩文件。

步骤3：创建目录

在用户目录下创建一个名为Spark的文件夹（如：C:\Users\Spark，强烈建议：文件目录不要包含中文、空格等 ），如下所示。然后从解压缩的文件中，把所有内容复制粘贴过去。
复制粘贴到Spark目录后如下所示。

##步骤4：修改日志配置（可选）

转到conf文件夹并打开名为log4j.properties.template的文件。将“INFO”更改为“WARN”（“ERROR ”会使日志更少）。此步骤和下面的步骤是可选的。
删除所有文件的“.template”后缀，这样Spark才能加载这些文件。
在删除“.template”之前，所有文件如下所示。

删除“.template”之后，所有文件如下所示。

步骤5：配置环境变量

转到“控制面板”->“系统和安全”->“系统”->“高级设置”->“环境变量”。
在新用户变量（或系统变量）下面添加（要添加新用户变量，请单击“用户变量”下的“新建”按钮）:

单击“确定”。

将%SPARK_HOME%\bin添加到
PATH
变量。

单击“确定”。

步骤6：Hadoop在Windows下的工具包下载

Spark运行需要依赖Hadoop。对于Hadoop 2.7，需要安装winutils.exe。
您可以在下面的页面找到winutils.exe，请下载下来。

步骤7：将工具包放在正确位置

在C盘中创建一个名为winutils的文件夹，并在其中创建一个名为bin的文件夹。然后，将下载的winutils.exe移动到bin文件夹。（C:\winutils\bin）

添加用户（或系统）变量%HADOOP_HOME%，就像SPARK_HOME一样。

单击“确定”。

步骤8：安装java

要安装Apache Spark，您的计算机上需要安装Java。如果您的系统中没有安装java。请按照以下流程安装

Java安装步骤：（已安装可跳过）

转到Java官网
接受许可协议(Accept Licence Agreement for Java SE Development Kit 8u201)
下载jdk-8u201-windows-x64.exe文件
双击下载的.exe文件，您将看到如下窗口。
单击“下一步”。
然后将显示下面的窗口。
单击“下一步”。
等待运行结束，将显示下面的窗口。
单击“关闭”。

测试Java安装：（已安装可跳过）

打开命令行并键入java-version，然后应该显示已安装的java版本

spark windows安装知乎 windows下安装spark_spark_11

您还应该检查一下用户变量（或系统变量）中包含的JAVA_HOME和PATH变量中的%JAVA_HOME%\bin。

执行完上述步骤后，环境变量有3个新路径（JAVA_HOME，SPARK_HOME和HADOOP_HOME）。
创建c:\tmp\hive目录。这一步对于最新版本的Spark是不必要的。当你第一次启动Spark时，它会自己创建文件夹。但是，最好自己创建一个文件夹。（C:\tmp\hive）

测试安装结果：

打开命令行（cmd），输入 spark-shell，应该得到如下结果。

spark windows安装知乎 windows下安装spark_Windows_12

至此我们已经在Windows系统上完成了spark的安装。让我们创建RDD和Dataframe来做一次完整的最终测试。

共有三种方法创建RDD，我们将使用其中一种。
定义任意类型的List，然后将其并行化(parallelize)。代码如下：

val list = Array(1,2,3,4,5)
val rdd = sc.parallelize(list)

这样就创建了RDD。
2. 接下来将从RDD创建一个Dataframe。步骤如下：

import spark.implicits._
val df = rdd.toDF("id")

上面的代码将创建一个以id为列的Dataframe。
要显示Dataframe中的数据，可以使用下面的命令：

Df.show()

运行后将显示：

spark windows安装知乎 windows下安装spark_Windows_13

从Windows 10系统中卸载Spark：

可以按照以下步骤在Windows 10上卸载 Spark。

从系统中删除以下系统/用户变量。

SPARK_HOME
HADOOP_HOME

删除系统/用户变量步骤：

进入“控制面板”->“系统和安全”->“系统”->“高级设置”->“环境变量”，找到SPARK_HOME和HADOOP_HOME，然后选择它们，然后按“删除”按钮。
查找PATH变量编辑->选择%SPARK_HOME%\bin->按删除按钮
选择%HADOOP_HOME%\bin->按删除按钮->确定按钮
打开命令提示符输入spark-shell，然后回车（enter），然后会得到一个错误。现在我们可以确认Spark已成功从系统中卸载。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：Java二级资料磁力 java二级题库手机版

下一篇：js axios 过期时间 jsessionid 有效期

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯