SparkSession 需要pom依赖什么包 spark必须用scala吗

关注 mob6454cc72f29c

SparkSession 需要pom依赖什么包 spark必须用scala吗

转载

mob6454cc72f29c 2024-06-11 22:25:30

文章标签 shell spark 导入包 spark 数据 API 文章分类 Spark 大数据

SparkSession 需要pom依赖什么包 spark必须用scala吗_API

SparkSession 需要pom依赖什么包 spark必须用scala吗_spark_02

许多人使用Python和Sklearn开始了他们的机器学习之旅。如果您想使用大数据，则必须使用Apache Spark。可以使用Pyspark在Python中使用Spark。但是，由于Spark是用Scala编写的，因此使用Scala可以看到更好的性能。市面上有很多关于如何在计算机上启动和运行Spark的教程，所以我这里就不详细介绍了。我这里只建议快速入门的两种方法是使用docker镜像或Databricks的社区版本。让我们开始吧！

我更喜欢使用spark-shell，并启用颜色选项启动它：

SparkSession 需要pom依赖什么包 spark必须用scala吗_spark_03

这些导入将有助于在spark-shell内部进行文件导航：

SparkSession 需要pom依赖什么包 spark必须用scala吗_数据_04

接下来是我们所有的进口产品。看起来有些重复;这是因为Spark RDD-API中的一些功能尚未移植到较新的Spark Dataframe-API：

SparkSession 需要pom依赖什么包 spark必须用scala吗_shell spark 导入包_05

如果您不使用spark-shell，则可能需要以下额外的导入。 spark-shell自动创建一个spark上下文为“sc”，spark会话为“spark”。

SparkSession 需要pom依赖什么包 spark必须用scala吗_API_06

现在我们可以加载数据了。我使用哈佛EdX数据集作为例子。

(https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/26147)注意：我不会做很多特征工程，因为我想专注于在Spark中训练模型的机制。最后，我将有一个分类器，用于预测学生是否通过基于整个课程积累的数据的课程。它最好有一个好成绩！创建一个有用的模型需要对数据进行特征化，以便根据您想要进行预测时所知道的内容来训练模型。我们开始：

SparkSession 需要pom依赖什么包 spark必须用scala吗_API_07

Spark模型只需要两列：“label”和“features”。要做到这一点，首先，我们将使用select方法识别我们的标签，同时仅保留相关列(请参阅上面关于特征工程的警告)：

SparkSession 需要pom依赖什么包 spark必须用scala吗_API_08

将整个方法调用放在一组括号中可以让你任意分解行，而不会引发异常的情况。

接下来，我们将对我们的分类功能进行一些热门编码。这需要几个步骤。首先，我们必须使用StringIndexer将字符串转换为整数。然后我们必须使用OneHotEncoderEstimator来进行编码。

SparkSession 需要pom依赖什么包 spark必须用scala吗_spark_09

接下来我们检查空值。在这个数据集中，我能够通过一些相对简单的代码找到空值的数量，但是根据数据，它可能更复杂：

SparkSession 需要pom依赖什么包 spark必须用scala吗_shell spark 导入包_10

检查完列后，我决定使用该列的中值来估算以下列的空值：nevents、ndays_act、nplay_video、nchapters。我是这样做的：

SparkSession 需要pom依赖什么包 spark必须用scala吗_shell spark 导入包_11

然后我们使用VectorAssembler对象来构造我们的“特征”列。请记住，Spark模型只需要两列：“标签”和“功能”。

SparkSession 需要pom依赖什么包 spark必须用scala吗_spark_12

现在我们将数据分成训练和测试集。

SparkSession 需要pom依赖什么包 spark必须用scala吗_API_13

数据已设置好！现在我们可以创建一个模型对象(我使用的是随机森林分类器)，定义一个参数网格(我保持它的简单性，只改变树的数量)，创建一个Cross Validator对象(这里是我们设置评分指标的地方)用于训练模型)并适合模型。

警告：此代码需要一些时间才能运行！如果你有一台特别老旧/动力不足的电脑，那么就要注意了。

SparkSession 需要pom依赖什么包 spark必须用scala吗_API_14

现在我们有一个经过训练，交叉验证的模型！您可以通过键入“model。”然后按键盘上的tab键来查看模型的属性和方法(请注意单词model后的句点)。我鼓励你花一些时间来了解这个模型对象是什么以及它能做些什么。

现在是一些模型评估的时候了。这有点困难，因为评估功能仍主要存在于Spark的RDD-API中，需要一些不同的语法。让我们首先对测试数据进行预测并存储它们。

SparkSession 需要pom依赖什么包 spark必须用scala吗_数据_15

然后我们将这些结果转换为RDD。

SparkSession 需要pom依赖什么包 spark必须用scala吗_spark_16

然后我们可以创建度量对象并输出混淆矩阵。

SparkSession 需要pom依赖什么包 spark必须用scala吗_数据_17

现在我们有了一些结果！您可以使用混淆矩阵中的数字来计算各种指标。 Spark会为我们这样做并输出，但语法略显庞大：

SparkSession 需要pom依赖什么包 spark必须用scala吗_shell spark 导入包_18

我们还可以计算更复杂的指标，如AUC和AUPRC：

SparkSession 需要pom依赖什么包 spark必须用scala吗_数据_19

我们已经训练和评估了我们的分类器！我希望你看到使用Apache Spark进行机器学习比使用Sklearn或H2O这样的库要复杂一点。通过允许处理大数据，这种额外的努力会得到回报。我鼓励您使用Spark ML 库中提供的不同型号。

SparkSession 需要pom依赖什么包 spark必须用scala吗_API_20

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：查看torch的tensor放到gpu torch tensor操作

下一篇：TortoiseMerge edit怎么用 edit part

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费直播
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册