ETC 非典型偏差

转载

mob64ca14106f2f 2024-09-05 13:25:23

文章标签 ETC 非典型偏差最小化方差交叉验证 文章分类 深度学习人工智能

第四周学习笔记

###1.CS229
课程地址

第九讲，经验风险最小化

主要内容

方差-偏差权衡（variance-bias trade），欠拟合与过拟合（underfitting and overfitting）
经验风险最小化（Empirical risk minimization），选择训练集上误差最小的算法
样本复杂度界（the sample complexity bounds），为了达到某个特定错误界需要多少样本

值得注意的地方

1.iid

独立同分布（Identically and definitively distributed）
######2.关于方差和偏差的严格定义
西瓜书中，对于回归模型的方差偏差定义为
$ETC 非典型偏差_ETC 非典型偏差$
$ETC 非典型偏差_交叉验证_02$
其中， $ETC 非典型偏差_最小化_03$ 是训练集
$ETC 非典型偏差_交叉验证_04$

分类问题中，目前（2015）仍然没有统一的方差偏差的定义

第十讲特征选择

#####主要内容

VC维
模型选择
交叉验证
简单保留交叉验证（simple hold out cross validation）70%-30%，
k折交叉验证（k fold cv）k=5，k=10，
留一法（Leave one out）k=m
特征选择
Forward Search
Backward Search
Filter feature selection（使用相关系数或互信息选择）

值得注意的地方

######1.最小化经验误差的合理性
我们训练的目的是为了得到一个泛化误差小的模型。
经验误差最终一致收敛到泛化误差。
对于所有试图最小化经验误差的算法，所需的训练样本大约与假设所需的参数呈线性关系（好的参数化）
######2.验证集误差
模型在验证集上的误差是对泛化误差更好的逼近

第十一讲贝叶斯统计与正则化

主要内容

贝叶斯Logistic回归，使用高斯分布作为先验分布，最终效果等价于在损失函数后增加一个正则化项，能够使得结果更加平滑，防止过拟合。
在线学习（Online learning）
如何使机器学习算法应用得很好
如何开始解决问题

#####值得注意的地方
######1.如何使机器学习算法应用更好
①偏差与方差诊断
High Variance：训练误差远小于测试误差
High Bias：两个误差都很大
②模型问题还是算法收敛问题？
比较两个模型的加权准确率 $ETC 非典型偏差_最小化_05$ 和 $ETC 非典型偏差_方差_06$ （当前目标是最大化）
case1:

ETC 非典型偏差_方差_07

说明BLR优化没有搜索到最佳的收敛点，属于优化问题

case2:

ETC 非典型偏差_最小化_08

说明BLR没有优化问题，但是满足损失函数最小却不一定使得 $ETC 非典型偏差_交叉验证_09$ 更大，属于模型问题

③即使学习算法的效果很好，也需要进行诊断，这是为了

帮助更好地理解问题
得到更好的直觉关于一些有一点没用的东西
通过诊断，了解算法的哪些特点解决了哪些问题

对于流水线组合而成的模型，可以将每个阶段更换成Ground Truth来诊断哪个阶段对最终误差的影响最大。
销蚀分析（Ablative analysis）
每次消除某个步骤看看对最终性能的影响。

######2.如何开始一个机器学习项目
Careful design
Build and fix
######3.一些经验
三分之一的时间用于诊断
做应用时，不必研究与应用相关不大的理论

第十二讲 K-means算法

#####主要内容

无监督学习（Unsupervised Learning）
K-均值算法（K-means algorithm）
密度估计（Density Estimation），异常检测（Anomaly Detection）
最大期望算法（EM Algorithm）

值得注意的地方

######1.K-means的优化
K-means的失真函数
$ETC 非典型偏差_方差_10$
一定程度上衡量了分类的效果好坏，K-means运行过程中基本是在最小化这个函数，通过交替地对每个样本的 $ETC 非典型偏差_ETC 非典型偏差_11$ 与类中心 $ETC 非典型偏差_方差_12$ 的优化，相当于使用坐标上升进行优化。
######2.EM算法和GDA的比较
GDA已知标签，EM算法未知标签，GDA假设标签服从伯努利分布，EM算法假设服从多项分布，GDA假设协方差矩阵相同，EM算法假设不同。EM算法将GDA算法中对标签的指示函数改成了对标签的估计。