统计学习包括监督学习,非监督学习,半监督学习和强化学习
统计学习方法=模型+策略+算法
损失函数度量模型一次预测的好坏
风险函数度量模型平均意义下预测的好坏
原来过拟合是这个意思,每个点都对,但是线不对,所以对线上其他点就不靠谱了。
有个图就简单多了。
监督学习方法模型分为生成模型和判别模型
生成模式就是朴素贝叶斯和隐马尔科夫链,可以直接算概率
判别模式就是天天听到的决策树,向量机,k邻近法等等,寻找概率特征,可以简化学习
监督学习有几种
分类,这个比较多,逻辑回归,贝叶斯,神经网络
标注,分类的升级版,隐马尔科夫模型,条件随机场,比如标记单词词性
回归,就是函数拟合,或者叫预测,主要是线性回归和非线性回归
泛化就是指适应未知数据。
感知机:用来做分类,只能二分类。感觉就是个超平面在不停的切,用来分点。因为是线性函数所以不支持异或。
K近邻法:分类和回归。找出与x最近的k个点。k的选择非常重要,太大太小都不好,实践中往往偏小用交叉验证法来选取k。数字少的时候可以计算每个点之间距离,数字多的时候用平衡kd数来找远近。
朴素贝叶斯:学了好几遍了,老忘。所谓朴素其实是单纯naive,就是假设所有条件的概率都独立。有时候会出现概率0,所以分子分母就都加上正数,叫贝叶斯估计。如果加上各条件之间存在概率,那么就变成了贝叶斯网络。
决策树:分类和回归。其实就是个二叉树。步骤:特征选择,生成,剪枝。决策树训练的太深了容易过拟合,所以要裁剪。生成用局部最优,剪枝是全局最优。熵越大随机性就越大。里面出现了计算经验熵的log2,这段就一直没看懂过。总之计算出经验熵,然后计算出信息增益最大的特征作为最优特征,将之作为根节点的特征,然后第二大作为下一节根节点特征,直到最后的特征。这种算法容易过拟合,所以用信息增益比来排序会更好。后面还有一个CART算法生成的决策树。
逻辑回归:逻辑回归怕是我理解的最好的了,这里明白了exp的作用,线性函数的值接近正无穷,概率就接近1,线性函数接近负无穷,概率就接近0。逻辑回归默认是二分类,也有多项逻辑回归。
最大熵:认为学习模型中,熵最大的模型是最好的模型。意思就是不知道各个条件概率的情况下,假设各个概率相等。
支持向量机:似乎是面试常客,比感知机,除了分类,还能找到最好的分类,距离两边都比较远,而且还有非线性的方式。和感知机一样只能二分类。

注意H1和H2平行,而且没有点在里面,正中间是分离超平面。
后面的正定核,核函数完全看不明白。
提升方法:第一次听说。弱可学习就是比瞎蒙强点,但是可以提升成强可学习。就是做一堆弱分类器,通过某种组合变成强分类器。提升树就是根节点连接2个决策树。
EM算法:也没用听过。对于有隐变量的模型参数,先求期望然后求极大值。可以监督也可以非监督。
隐马尔科夫模型:用于标注问题,是生成模型。状态转移矩阵,用来做连续数据变化的规律很好,比如计算连续多个包的时序和长度的关系。马尔科夫链就是状态只与前一个节点有关,与其他的无关。支持监督和非监督。
条件随机场:后面基本都没听过。也是标注问题。概率无向图。作用也是标准,输入一堆随机变量,预测输出一堆随机变量。
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值!
换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
















