机器学习
文章目录
- 机器学习
- 一、一些概念
- 二、评估方法
- 三、调参:
一、一些概念
- 错误率(error rate):在n个样本中有a个错误数据,则
- 精度(accuracy):
%。
- 训练误差/经验误差(training error/empirical error):在训练集上的误差。
- 泛化误差(generalization error):在新样本(测试集)上的误差。
- 过拟合(overfitting):把训练集自身的特点当作了所有潜在样本都会具有的特点。过拟合是机器学习的关键障碍,过拟合是无法避免只能缓解的。
- 欠拟合(underfitting):对训练集的一般性质尚未学习好。
二、评估方法
测试集和训练集应该尽可能互斥。
“没有免费午餐”定理对评估方法同样适用。
表示:
D-数据集
S-训练集
T-测试集
1. 留出法(hand-out): 将 划分为互斥的
和
。
即:
注意:
(1) 划分时应尽可能保证数据分布的一致性,避免因数据划分引入额外的偏差(采用分层抽样法)。
(2) 单词使用留出法的结果并不可靠,应该采用若干次随机划分重复进行实验评估后取均值。
缺点:
(1) 越大,训练结果越接近
,但是
小,评估不够准确,稳定。
(2) 大一些,
的结果不接近
,降低了保真性(fidelity)。常用
~
用于
。
2. 交叉验证法(cross validation): 将 划分为
个大小相似的互斥子集。
即:
进行 次训练,每次用
个子集作为
,余下的一个子集作为
。(
折交叉验证 k-fold cross validation)。
注意:
(1) 尽可能保证数据分布的一致性。
(2) 评估结果的稳定性和保真性在很大程度上取决于值,
一般选用5、10、20。
(3) 单次不可靠,随机划分重复次,取
次
折交叉验证结果的均值。(10次10折=训练100次)

2.1. 留一法(leave-One-Out): 是
的大小,
时,得到留一法。
注意:它不受随机样本划分方式的影响。
优点:由于 接近
,所以它的评估结果比较准确。
缺点:
3. 自助法(bootstrapping): 从中多次随机可重复复制
个样本组成数据集
。(
中有一部分样本会在
中多次出现,而一部分不会出现)样本在
次采样中,不被采集到的概率是:
即:
中约有36.8%的样本未出现在
中。
实际评估模型和期望评估模型都使用m个样本,而有约
的未出现在在
中的样本用于测试——外包估计(out-of-bag estimate)。
优点:
(1) 在 较小,难以划分
时很有用。
(2) 能从 中产生多个不同的
。
缺点:
改变了 的分布,会引入估计偏差。
三、调参:
(1) 常对每个调整的参数设定一个范围和变化步长。
(2) 在模型、算法和参数选定后,用
















