机器学习



文章目录

  • 机器学习
  • 一、一些概念
  • 二、评估方法
  • 三、调参:



一、一些概念

  • 错误率(error rate):在n个样本中有a个错误数据,则偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能
  • 精度(accuracy):偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_02%。
  • 训练误差/经验误差(training error/empirical error):在训练集上的误差。
  • 泛化误差(generalization error):在新样本(测试集)上的误差。
  • 过拟合(overfitting):把训练集自身的特点当作了所有潜在样本都会具有的特点。过拟合是机器学习的关键障碍,过拟合是无法避免只能缓解的。
  • 欠拟合(underfitting):对训练集的一般性质尚未学习好。

二、评估方法

测试集和训练集应该尽可能互斥。
“没有免费午餐”定理对评估方法同样适用。

表示:
D-数据集
S-训练集
T-测试集

1. 留出法(hand-out):偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03 划分为互斥的 偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_04偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_05
即: 偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_06

偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_07
偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_08

注意:
(1) 划分时应尽可能保证数据分布的一致性,避免因数据划分引入额外的偏差(采用分层抽样法)。
(2) 单词使用留出法的结果并不可靠,应该采用若干次随机划分重复进行实验评估后取均值。

缺点:
(1) 偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_04 越大,训练结果越接近 偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03,但是 偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_05小,评估不够准确,稳定。
(2) 偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_05 大一些,偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_04 的结果不接近 偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03,降低了保真性(fidelity)。常用 偏差典型性和非典型 典型偏差和非典型偏差eac_交叉验证_15~偏差典型性和非典型 典型偏差和非典型偏差eac_过拟合_16 用于 偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_04

2. 交叉验证法(cross validation):偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03 划分为 偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_19 个大小相似的互斥子集。
即:
偏差典型性和非典型 典型偏差和非典型偏差eac_交叉验证_20

进行 偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_19 次训练,每次用 偏差典型性和非典型 典型偏差和非典型偏差eac_机器学习_22 个子集作为 偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_04,余下的一个子集作为 偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_05。(偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_19折交叉验证 k-fold cross validation)。

注意:
(1) 尽可能保证数据分布的一致性。
(2) 评估结果的稳定性和保真性在很大程度上取决于偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_19值,偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_19一般选用5、10、20。
(3) 单次不可靠,随机划分重复偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_28次,取偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_28偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_19折交叉验证结果的均值。(10次10折=训练100次)

偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_31

2.1. 留一法(leave-One-Out): 偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_32偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03 的大小,偏差典型性和非典型 典型偏差和非典型偏差eac_机器学习_34 时,得到留一法。
注意:它不受随机样本划分方式的影响。
优点:由于 偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_04 接近 偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03,所以它的评估结果比较准确。
缺点:偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_32

3. 自助法(bootstrapping):偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03中多次随机可重复复制偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_32个样本组成数据集 偏差典型性和非典型 典型偏差和非典型偏差eac_过拟合_40。(偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03 中有一部分样本会在 偏差典型性和非典型 典型偏差和非典型偏差eac_过拟合_40 中多次出现,而一部分不会出现)样本在 偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_32 次采样中,不被采集到的概率是:
偏差典型性和非典型 典型偏差和非典型偏差eac_机器学习_44即:偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03 中约有36.8%的样本未出现偏差典型性和非典型 典型偏差和非典型偏差eac_过拟合_40 中。
偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_47实际评估模型和期望评估模型都使用m个样本,而有约 偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_48 的未出现在在 偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_04 中的样本用于测试——外包估计(out-of-bag estimate)
优点:
(1) 在 偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03 较小,难以划分 偏差典型性和非典型 典型偏差和非典型偏差eac_交叉验证_51 时很有用。
(2) 能从 偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03 中产生多个不同的 偏差典型性和非典型 典型偏差和非典型偏差eac_人工智能_04
缺点:
改变了 偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03 的分布,会引入估计偏差偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03

三、调参:

(1) 常对每个调整的参数设定一个范围和变化步长。
(2) 在模型、算法和参数选定后,用 偏差典型性和非典型 典型偏差和非典型偏差eac_偏差典型性和非典型_03