基础
1、假设空间:模型会将输入有一个对应的输出映射,映射集为假设空间
2、泛化误差:真实情况下模型的误差,与真实情况的偏离 就是泛化误差
3、错误率(error rate):分类错误的样本数占总样本的比例
4、“精度”(accuracy):就是1-错误率
5、误差(error ):实际预测输出和样本真实输出之间的差异
6、训练误差/经验误差(training error):学习器在训练集上的误差

7、过拟合(overfitting):在训练时把训练误差弄到了最小,某种程度上在真实规律的基础上把训练样本一些自身的“特点”也融入了进来,会导致泛化能力降低(也就是说训练样本结果很好,测试结果不一定好)。
欠拟合(underfitting):和过拟合相反,对训练样本的一般性质没学好
8、过拟合的原因:最常见的是学习能力过于强大,把很多训练样本特有的属性也学习进来了(解决这个问题挺麻烦的,无法彻底避免,只能“缓解”)
欠拟合的原因:学习能力不行(解决方案:决策树中扩展分支,神经网络学习中增加训练轮数等。)

过拟合无法解决的一个解释:当前的机器学习问题一般都是NP问题甚至更难,如果能用经验误差最小化获得最优解,那么就构造性证明了“P=NP”;如果相信“P≠NP”,过拟合就不可避免。

关于p、np问题

一、什么是pca理论

机器学习其实就是优化算法(假设选择算法)从一个假设空间中选择一个假设,而pca关心 是否 能从假设空间中学习一个好的假设

pca辨识的条件:

1、近似正确:泛化误差很小E(h)≤ϵ

2、可能正确:有一个正态分布,是一个大概率事件即可

给定一个值δ,假设h满足P(h近似正确)≥1−δ

即P(E(h)≤ϵ)≥1−δ

二、什么条件可以满足PCA可学习

根据:Hoeffding不等式

典型偏差和非典型偏差公式_PAC


泛化误差E(h)与经验误差E^(h)的定义易知E(E^(h))=E(h),经验误差的期望等于泛化误差,根据霍思丁不等式可得:

典型偏差和非典型偏差公式_过拟合_02

(1)

即是:

典型偏差和非典型偏差公式_泛化_03

(2)

可以看到只要样本数量m足够大,假设空间|H|足够小, 训练的结果基本与真实结果相同,样本数太小会导致过拟合

典型偏差和非典型偏差公式_PAC_04


只要样本数量m大于M时PAC是可学习的。