在检验集上计算出的准确率或错误率可以用来比较不同分类器在相同领域上的性能,但需要检验记录的类标号必须已知。
一、保持方法(Holdout)
将被标记的原始数据划分为两个不相交的集合,分别为训练集和检验集。在训练集上归纳分类模型,在检验集上评估模型的性能。训练集和检验集的划分比例通常根据专家的判断,例如50-50,或者2/3作为训练集,1/3作为检验集。模型的准确率根据模型在检验集上的准确率估计。
局限性:
1.用于训练的被标记样本较少,因此,建立的模型不如使用所有样本建立的模型好。
2.模型可能高度依赖于训练集和检验集的构成。训练集越小,模型的方差越大;训练集太大,较小检验集给出的准确率又不太可靠。
二、随机二次抽样(Random subsampling)
多次重复保持方法来改进对分类器性能的估计。
局限性:
1.训练阶段没有利用尽可能多的数据。
2.没有控制每次记录用于训练和检验的次数,有些用于训练的记录使用的频率可能比其他记录高很多。
三、交叉检验(Cross-validation)
把数据集分为大小相同的k份,在每次运行时,选择一份作为检验集,其余作为训练集,该过程重复k次,使得每份数据都用于检验恰好一次。总误差是所有k次运行的误差之和。当k=N,其中N是数据集的大小,即为留一法(Leave-one-out),其中每个检验集只有一个记录。
优点:
1.使用尽可能多的训练记录
2.检验集之间互斥,并有效覆盖了整个数据集
留一法的缺点:
1.整个过程重复N次,计算开销很大。
2.每个检验集只有一个记录,性能估计度量的方差偏高。
四、自助法(Bootstrap)
以上方法均假设训练记录不放回抽样。在自助法中,训练记录采用有放回抽样,使其等概率地被重新抽取。可以证明,大小为N的自助样本大约包含原始数据中63%的记录,没有抽中的记录就成为检验集的一部分。
【几个概念】
准确率(Accuracy)=正确预测数/预测总数
错误率(Error rate)=错误预测数/预测总数
【参考文献】
Pang-Ning Tan等,数据挖掘导论,中国工信出版集团