一、留出法

直接将数据集D划分为两个互斥的集合,其中一个作为训练集S,另一个作为测试集T。常见做法是将2/3~4/5的样本用于训练,剩余样本用于测试。

1、要点

训练集和测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果造成影响。在二分类问题中即为正例和反例的的比例一致。

2、缺点

划分不同时有不同的训练/测试集,模型评估的结果也会有差别。因此,单独使用留出法得到的估计结果往往不够稳定可靠。一般采用若干次随机划分、重复进行实验评估后取平均值作为留出法的评估结果

二、交叉验证法

先将数据集D划分为k个大小相似、数据分布一致的互斥子集。然后每次用k-1个子集作为训练集,余下的那个作为测试集,这样就可获得k组训练/测试集,从而进行k’次实验,返回k个测试结果的均值。k最常用取值为10,其他有5、20。
特例:留一法。

三、自助法

对于包含m个样本的数据集D,对它进行采用产生数据集D’:有放回的从D中采集m个样本组成数据D’。

1、特点

初始数据集D中约有36.8%的样本未出现在采样数据集D’中。将D’用作训练集,D-D’用作测试集。这样实际评估的模型与期望评估的模型都有m给训练样本,仍有约1/3的没在训练集中出现的样本用于测试。这样的测试结果,也称为“包外估计”
在数据集小,难以有效划分训练/测试集是很有用;但改变了初始数据集的分布,会引入偏差。因此在初始数据集足够时,留出法和交叉验证法更常用。