python划分训练集与测试集划分测试集和训练集

转载

mob6454cc6d5f87 2023-10-24 10:49:30

文章标签 python划分训练集与测试集机器学习分类算法数据集交叉验证 文章分类 Python 后端开发

一、留出法

直接将数据集D划分为两个互斥的集合，其中一个作为训练集S，另一个作为测试集T。常见做法是将2/3~4/5的样本用于训练，剩余样本用于测试。

1、要点

训练集和测试集的划分要尽可能保持数据分布的一致性，避免因数据划分过程引入额外的偏差而对最终结果造成影响。在二分类问题中即为正例和反例的的比例一致。

2、缺点

划分不同时有不同的训练/测试集，模型评估的结果也会有差别。因此，单独使用留出法得到的估计结果往往不够稳定可靠。一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果

二、交叉验证法

先将数据集D划分为k个大小相似、数据分布一致的互斥子集。然后每次用k-1个子集作为训练集，余下的那个作为测试集，这样就可获得k组训练/测试集，从而进行k’次实验，返回k个测试结果的均值。k最常用取值为10，其他有5、20。
特例：留一法。

三、自助法

对于包含m个样本的数据集D，对它进行采用产生数据集D’：有放回的从D中采集m个样本组成数据D’。

1、特点

初始数据集D中约有36.8%的样本未出现在采样数据集D’中。将D’用作训练集，D-D’用作测试集。这样实际评估的模型与期望评估的模型都有m给训练样本，仍有约1/3的没在训练集中出现的样本用于测试。这样的测试结果，也称为“包外估计”
在数据集小，难以有效划分训练/测试集是很有用；但改变了初始数据集的分布，会引入偏差。因此在初始数据集足够时，留出法和交叉验证法更常用。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。