第四周学习笔记

###1.CS229
课程地址

第九讲,经验风险最小化
主要内容
  • 方差-偏差权衡(variance-bias trade),欠拟合与过拟合(underfitting and overfitting)
  • 经验风险最小化(Empirical risk minimization),选择训练集上误差最小的算法
  • 样本复杂度界(the sample complexity bounds),为了达到某个特定错误界需要多少样本
值得注意的地方
1.iid

独立同分布(Identically and definitively distributed)
######2.关于方差和偏差的严格定义
西瓜书中,对于回归模型的方差偏差定义为
ETC 非典型偏差_ETC 非典型偏差
ETC 非典型偏差_交叉验证_02
其中,ETC 非典型偏差_最小化_03是训练集
ETC 非典型偏差_交叉验证_04

分类问题中,目前(2015)仍然没有统一的方差偏差的定义

第十讲 特征选择

#####主要内容

  • VC维
  • 模型选择
  • 交叉验证
  • 简单保留交叉验证(simple hold out cross validation)70%-30%,
  • k折交叉验证(k fold cv)k=5,k=10,
  • 留一法(Leave one out)k=m
  • 特征选择
  • Forward Search
  • Backward Search
  • Filter feature selection(使用相关系数或互信息选择)
值得注意的地方

######1.最小化经验误差的合理性
我们训练的目的是为了得到一个泛化误差小的模型。
经验误差最终一致收敛到泛化误差。
对于所有试图最小化经验误差的算法,所需的训练样本大约与假设所需的参数呈线性关系(好的参数化)
######2.验证集误差
模型在验证集上的误差是对泛化误差更好的逼近

第十一讲 贝叶斯统计与正则化
主要内容
  • 贝叶斯Logistic回归,使用高斯分布作为先验分布,最终效果等价于在损失函数后增加一个正则化项,能够使得 结果更加平滑,防止过拟合。
  • 在线学习(Online learning)
  • 如何使机器学习算法应用得很好
  • 如何开始解决问题

#####值得注意的地方
######1.如何使机器学习算法应用更好
①偏差与方差诊断
High Variance: 训练误差远小于测试误差
High Bias:两个误差都很大
②模型问题还是算法收敛问题?
比较两个模型的加权准确率ETC 非典型偏差_最小化_05ETC 非典型偏差_方差_06(当前目标是最大化)
case1:

ETC 非典型偏差_方差_07

说明BLR优化没有搜索到最佳的收敛点,属于优化问题

case2:

ETC 非典型偏差_最小化_08

说明BLR没有优化问题,但是满足损失函数最小却不一定使得ETC 非典型偏差_交叉验证_09更大,属于模型问题

③即使学习算法的效果很好,也需要进行诊断,这是为了

  • 帮助更好地理解问题
  • 得到更好的直觉关于一些有一点没用的东西
  • 通过诊断,了解算法的哪些特点解决了哪些问题

对于流水线组合而成的模型,可以将每个阶段更换成Ground Truth来诊断哪个阶段对最终误差的影响最大。
销蚀分析(Ablative analysis)
每次消除某个步骤看看对最终性能的影响。

######2.如何开始一个机器学习项目
Careful design
Build and fix
######3.一些经验
三分之一的时间用于诊断
做应用时,不必研究与应用相关不大的理论

第十二讲 K-means算法

#####主要内容

  • 无监督学习(Unsupervised Learning)
  • K-均值算法(K-means algorithm)
  • 密度估计(Density Estimation),异常检测(Anomaly Detection)
  • 最大期望算法(EM Algorithm)
值得注意的地方

######1.K-means的优化
K-means的失真函数
ETC 非典型偏差_方差_10
一定程度上衡量了分类的效果好坏,K-means运行过程中基本是在最小化这个函数,通过交替地对每个样本的ETC 非典型偏差_ETC 非典型偏差_11与类中心ETC 非典型偏差_方差_12的优化,相当于使用坐标上升进行优化。
######2.EM算法和GDA的比较
GDA已知标签,EM算法未知标签,GDA假设标签服从伯努利分布,EM算法假设服从多项分布,GDA假设协方差矩阵相同,EM算法假设不同。EM算法将GDA算法中对标签的指示函数改成了对标签的估计。