1.正元组和负元组
正元组:感兴趣的类的元组
负元组:其他类的元组
比如说:
正元组可能是buys_computer=yes
负元组是buys_computer=no
2.公式
TP,TN,FP,FN,P,N分别表示真正例、真负例、假正例、假负例、正和负样本数
含意:
TP(true positive):指被分类器正确分类的正元组
TN(true negative):指被分类器正确分类的负元组
FP(false positive):被错误地标记为正元组的负元组(例如,类buys_computer=no的元组,被分类器预测为buys_computer=yes)
FN(false negative):被错误地标记为负元组的正元组
3.混淆矩阵
对角线越大,即TP+TN越大,则准确率越高
1)对于类不平衡问题,只看准确率是不行的,要结合召回率查看所关注的类是否正确标记正类。
如:
总结:尽管准确率有96.4%,但是召回率就只有30%,它正确标记所关注的类的能力还是很差
2)精度和召回率呈现逆关系(互相影响的),用F值来度量
4.其他对分类器的度量:
速度:设计产生和使用分类器的计算开销
鲁棒性:假定数据有噪声或有缺失值时分类器做出正确预测的能力。通常,鲁棒性用噪声和缺失值渐增的一系列合成数据集评估
可伸缩性:算法的可伸缩性是指该算法能不能够用来处理大量的样本。(超大型的训练集)
可解释性:设计分类器或预测器提供的理解和洞察水平。可解释性是主观的,因而很难评估。决策树和分类规则可能很容易解释,但随着他们变得更复杂,他们的可解释性也随之消失。