0、广义线性模型

y=g-1(wTx+b)
只需找一个单调可微函数即可真实标记与线性回归模型的预测值联系起来,就可得出多种狭义线性模型

1、基本形式

f(x)=wTx+b

2、对数线性回归

ln y=wTx+b

3、对数几率回归

ln (y/1-y)=wTx+b

4、线性判别分析(LDA),不搬推导过程了,这里知道Sb、Sw以及w的公式即可。

二分类问题上,通过投影,让同类的投影点尽可能接近,异类的尽可能远离;
若将数据投影到直线w上,则两类样本的中心在直线上的投影分别为wTu0wTu1
若将所有样本点投影在直线w上,则两类样本的协方差分别为wTΣ0wwTΣ1w
同类的投影点尽可能接近,可以让协方差尽可能小,即y1=wTΣ0w+wTΣ1w尽可能小;
异类的投影点尽可能远离,可以让类中心之间的距离尽可能大,即y2=||wTu0-wTu1||(2;2)尽可能大;
同时考虑二者:则目标J=y2/y1,则求得的目标尽可能大,意味着分子尽可能大,分母尽可能小。

  1. 定义“类内散度矩阵”:Sw=(x-u0)(x-u0)T+(x-u1)(x-u1)T
  2. 定义“类间散度矩阵”:Sb=(u0-u1)(u0-u1)T

则J=wTSbw/wTSww
这就是LDA欲最大化的目标,即SwSb的广义瑞利商。

如何确定w呢?

  1. w=Sw-1u0-u1

当两类数据同先验、满足高斯分布且协方差相等时,LDA可达到最优分类。

5、多分类学习

有些二分类学习方法可直接推广到多分类,但在更多情况下,我们是基于一些基本策略,利用二分类学习器来解决多分类问题。比如:拆分策略。
最经典的拆分策略有三种:“一对一(OvO)”、“一对其余(OvR)”、“多对多(MvM)”

OvO:两两分别训练成分类器,从而产生N(N-1)/2个二分类任务,最终结果可通过投票产生:即把被预测最多的类别作为最终分类结果。
OvR:将每个类作为正例,其他类作为反类,从而产生N个分类器,若有多个分类器预测为正类,则通常考虑各分类器的预测置信度,选择置信度最大的类别标记作为分类结果。
MvM:有一种常用的MvM技术叫:“纠错输出码(ECOC)”;假设类别A分到了f1、f3、f4的正例,测试样例A1通过f1~f5的预测结果为(+、-、+、+、-),则完全满足,即使错了一个,也比其他类如B类(分到了f1、f3)错两个更少,那也判定为A。

6、类别不平衡问题

当正反例样本均等(1:1)时,分类器的决策规则可以为 y/(1-y)>1 时,预测为正例。
若正反例样本的比例不平衡为(m+:m-)时,则当 y/(1-y)>m+/m- 时,即 y/(1-y)*m-/m+>1 时,预测为正例。
这是类别不平衡学习的一个基本策略:再缩放。

再缩放思想简单,但不容易操作,毕竟训练集不一定是真实样本的无偏采样,所以我们未必能将训练集的正反比例等同于真实样本集的正反比例。

因此现有技术大体上有三类做法处理不平衡的问题:

  1. 欠采样:去除一些反例使正反例数目接近
  2. 过采样:增加一些正例使正反例数目接近
  3. 阈值移动:也就是上面的再缩放策略