《统计学习方法》初学笔记

转载

angel_64 2021-09-20 17:02:44 博主文章分类：学习

文章标签 统计学习 文章分类 人工智能

统计学习包括监督学习，非监督学习，半监督学习和强化学习

统计学习方法=模型+策略+算法

损失函数度量模型一次预测的好坏

风险函数度量模型平均意义下预测的好坏

《统计学习方法》初学笔记_统计学习

原来过拟合是这个意思，每个点都对，但是线不对，所以对线上其他点就不靠谱了。

有个图就简单多了。

监督学习方法模型分为生成模型和判别模型

生成模式就是朴素贝叶斯和隐马尔科夫链，可以直接算概率

判别模式就是天天听到的决策树，向量机，k邻近法等等，寻找概率特征，可以简化学习

监督学习有几种

分类，这个比较多，逻辑回归，贝叶斯，神经网络

标注，分类的升级版，隐马尔科夫模型，条件随机场，比如标记单词词性

回归，就是函数拟合，或者叫预测，主要是线性回归和非线性回归

泛化就是指适应未知数据。

感知机：用来做分类，只能二分类。感觉就是个超平面在不停的切，用来分点。因为是线性函数所以不支持异或。

K近邻法：分类和回归。找出与x最近的k个点。k的选择非常重要，太大太小都不好，实践中往往偏小用交叉验证法来选取k。数字少的时候可以计算每个点之间距离，数字多的时候用平衡kd数来找远近。

朴素贝叶斯：学了好几遍了，老忘。所谓朴素其实是单纯naive，就是假设所有条件的概率都独立。有时候会出现概率0，所以分子分母就都加上正数，叫贝叶斯估计。如果加上各条件之间存在概率，那么就变成了贝叶斯网络。

决策树：分类和回归。其实就是个二叉树。步骤：特征选择，生成，剪枝。决策树训练的太深了容易过拟合，所以要裁剪。生成用局部最优，剪枝是全局最优。熵越大随机性就越大。里面出现了计算经验熵的log2，这段就一直没看懂过。总之计算出经验熵，然后计算出信息增益最大的特征作为最优特征，将之作为根节点的特征，然后第二大作为下一节根节点特征，直到最后的特征。这种算法容易过拟合，所以用信息增益比来排序会更好。后面还有一个CART算法生成的决策树。

逻辑回归：逻辑回归怕是我理解的最好的了，这里明白了exp的作用，线性函数的值接近正无穷，概率就接近1，线性函数接近负无穷，概率就接近0。逻辑回归默认是二分类，也有多项逻辑回归。

最大熵：认为学习模型中，熵最大的模型是最好的模型。意思就是不知道各个条件概率的情况下，假设各个概率相等。

支持向量机：似乎是面试常客，比感知机，除了分类，还能找到最好的分类，距离两边都比较远，而且还有非线性的方式。和感知机一样只能二分类。

《统计学习方法》初学笔记_统计学习_02