第四周学习笔记
###1.CS229
课程地址
第九讲,经验风险最小化
主要内容
- 方差-偏差权衡(variance-bias trade),欠拟合与过拟合(underfitting and overfitting)
- 经验风险最小化(Empirical risk minimization),选择训练集上误差最小的算法
- 样本复杂度界(the sample complexity bounds),为了达到某个特定错误界需要多少样本
值得注意的地方
1.iid
独立同分布(Identically and definitively distributed)
######2.关于方差和偏差的严格定义
西瓜书中,对于回归模型的方差偏差定义为
其中,是训练集
分类问题中,目前(2015)仍然没有统一的方差偏差的定义
第十讲 特征选择
#####主要内容
- VC维
- 模型选择
- 交叉验证
- 简单保留交叉验证(simple hold out cross validation)70%-30%,
- k折交叉验证(k fold cv)k=5,k=10,
- 留一法(Leave one out)k=m
- 特征选择
- Forward Search
- Backward Search
- Filter feature selection(使用相关系数或互信息选择)
值得注意的地方
######1.最小化经验误差的合理性
我们训练的目的是为了得到一个泛化误差小的模型。
经验误差最终一致收敛到泛化误差。
对于所有试图最小化经验误差的算法,所需的训练样本大约与假设所需的参数呈线性关系(好的参数化)
######2.验证集误差
模型在验证集上的误差是对泛化误差更好的逼近
第十一讲 贝叶斯统计与正则化
主要内容
- 贝叶斯Logistic回归,使用高斯分布作为先验分布,最终效果等价于在损失函数后增加一个正则化项,能够使得 结果更加平滑,防止过拟合。
- 在线学习(Online learning)
- 如何使机器学习算法应用得很好
- 如何开始解决问题
#####值得注意的地方
######1.如何使机器学习算法应用更好
①偏差与方差诊断
High Variance: 训练误差远小于测试误差
High Bias:两个误差都很大
②模型问题还是算法收敛问题?
比较两个模型的加权准确率和(当前目标是最大化)
case1:
说明BLR优化没有搜索到最佳的收敛点,属于优化问题
case2:
说明BLR没有优化问题,但是满足损失函数最小却不一定使得更大,属于模型问题
③即使学习算法的效果很好,也需要进行诊断,这是为了
- 帮助更好地理解问题
- 得到更好的直觉关于一些有一点没用的东西
- 通过诊断,了解算法的哪些特点解决了哪些问题
对于流水线组合而成的模型,可以将每个阶段更换成Ground Truth来诊断哪个阶段对最终误差的影响最大。
销蚀分析(Ablative analysis)
每次消除某个步骤看看对最终性能的影响。
######2.如何开始一个机器学习项目
Careful design
Build and fix
######3.一些经验
三分之一的时间用于诊断
做应用时,不必研究与应用相关不大的理论
第十二讲 K-means算法
#####主要内容
- 无监督学习(Unsupervised Learning)
- K-均值算法(K-means algorithm)
- 密度估计(Density Estimation),异常检测(Anomaly Detection)
- 最大期望算法(EM Algorithm)
值得注意的地方
######1.K-means的优化
K-means的失真函数
一定程度上衡量了分类的效果好坏,K-means运行过程中基本是在最小化这个函数,通过交替地对每个样本的与类中心的优化,相当于使用坐标上升进行优化。
######2.EM算法和GDA的比较
GDA已知标签,EM算法未知标签,GDA假设标签服从伯努利分布,EM算法假设服从多项分布,GDA假设协方差矩阵相同,EM算法假设不同。EM算法将GDA算法中对标签的指示函数改成了对标签的估计。