10折交叉验证R语言代码 10折交叉验证法的例题

关注 epeppanda

文章目录

什么是训练集？
什么是验证集？
什么是测试集？
如何合理的划分数据集？
交叉验证法

10折交叉验证R语言代码 10折交叉验证法的例题

转载

epeppanda 2024-06-18 15:26:03

文章标签 10折交叉验证R语言代码折交叉验证法的额外步骤交叉验证数据数据集 文章分类 R语言后端开发

10折交叉验证R语言代码 10折交叉验证法的例题_10折交叉验证R语言代码

数据在人工智能技术里是非常重要的！本篇文章将详细给大家介绍3种数据集：训练集、验证集、测试集。
同时还会介绍如何更合理的讲数据划分为3种数据集。最后给大家介绍一种充分利用有限数据的方式：交叉验证法。

先用一个不恰当的比喻来说明3种数据集之间的关系：

训练集相当于上课学知识
验证集相当于课后的的练习题，用来纠正和强化学到的知识
测试集相当于期末考试，用来最终评估学习效果

10折交叉验证R语言代码 10折交叉验证法的例题_数据_02

什么是训练集？

训练集(Training Dataset)是用来训练模型使用的。

在《这应该是全网最好的「机器学习」科普文》里我们介绍了机器学习的7个步骤，训练集(Training Dataset)主要在训练阶段使用。

10折交叉验证R语言代码 10折交叉验证法的例题_交叉验证_03

什么是验证集？

当我们的模型训练好之后，我们并不知道他的表现如何。这个时候就可以使用验证集(Validation Dataset)来看看模型在新数据(验证集和测试集是不同的数据)上的表现如何。同时通过调整超参数，让模型处于最好的状态。

10折交叉验证R语言代码 10折交叉验证法的例题_折交叉验证法的额外步骤_04

验证集有2个主要的作用：

评估模型效果，为了调整超参数而服务
调整超参数，使得模型在验证集上的效果最好

说明：

验证集不像训练集和测试集，它是非必需的。如果不需要调整超参数，就可以不使用验证集，直接用测试集来评估效果。
验证集评估出来的效果并非模型的最终效果，主要是用来调整超参数的，模型最终效果以测试集的评估结果为准。

什么是测试集？

当我们调好超参数后，就要开始「最终考试」了。我们通过测试集(Test Dataset)来做最终的评估。

10折交叉验证R语言代码 10折交叉验证法的例题_折交叉验证法的额外步骤_05

通过测试集的评估，我们会得到一些最终的评估指标，例如：准确率、精确率、召回率、F1等。

扩展阅读：《一文看懂分类模型的评估指标：准确率、精准率、召回率、F1等》

如何合理的划分数据集？

10折交叉验证R语言代码 10折交叉验证法的例题_交叉验证_06

下面的数据集划分方式主要针对「留出法」的验证方式，除此之外还有其他的交叉验证法，详情见下文——交叉验证法。

数据划分的方法并没有明确的规定，不过可以参考3个原则：

对于小规模样本集(几万量级)，常用的分配比例是 60% 训练集、20% 验证集、20% 测试集。
对于大规模样本集(百万级以上)，只要验证集和测试集的数量足够即可，例如有 100w 条数据，那么留 1w 验证集，1w 测试集即可。1000w 的数据，同样留 1w 验证集和 1w 测试集。
超参数越少，或者超参数很容易调整，那么可以减少验证集的比例，更多的分配给训练集。

交叉验证法

为什么要用交叉验证法？

假如我们教小朋友学加法：1个苹果+1个苹果=2个苹果

当我们再测试的时候，会问：1个香蕉+1个香蕉=几个香蕉？

如果小朋友知道「2个香蕉」，并且换成其他东西也没有问题，那么我们认为小朋友学习会了「1+1=2」这个知识点。

如果小朋友只知道「1个苹果+1个苹果=2个苹果」，但是换成其他东西就不会了，那么我们就不能说小朋友学会了「1+1=2」这个知识点。

评估模型是否学会了「某项技能」时，也需要用新的数据来评估，而不是用训练集里的数据来评估。这种「训练集」和「测试集」完全不同的验证方法就是交叉验证法。

3 种主流的交叉验证法

10折交叉验证R语言代码 10折交叉验证法的例题_数据集_07

留出法(Holdout cross validation)

上文提到的，按照固定比例将数据集静态的划分为训练集、验证集、测试集。的方式就是留出法。

留一法(Leave one out cross validation)

每次的测试集都只有一个样本，要进行 m 次训练和预测。这个方法用于训练的数据只比整体数据集少了一个样本，因此最接近原始样本的分布。但是训练复杂度增加了，因为模型的数量与原始数据样本数量相同。一般在数据缺乏时使用。

k 折交叉验证(k-fold cross validation)

静态的「留出法」对数据的划分方式比较敏感，有可能不同的划分方式得到了不同的模型。「k 折交叉验证」是一种动态验证的方式，这种方式可以降低数据划分带来的影响。具体步骤如下：

将数据集分为训练集和测试集，将测试集放在一边
将训练集分为 k 份
每次使用 k 份中的 1 份作为验证集，其他全部作为训练集。
通过 k 次训练后，我们得到了 k 个不同的模型。
评估 k 个模型的效果，从中挑选效果最好的超参数
使用最优的超参数，然后将 k 份数据全部作为训练集重新训练模型，得到最终模型。

10折交叉验证R语言代码 10折交叉验证法的例题_折交叉验证法的额外步骤_08

k 一般取 10 数据量小的时候，k 可以设大一点，这样训练集占整体比例就比较大，不过同时训练的模型个数也增多。数据量大的时候，k 可以设小一点。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：docker swarm的图形化界面 docker images -f

下一篇：python计算机公共基础知识 python计算机题库

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程厂商认证 IT技术 24年11月软考 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册