ML-逻辑回归推导

原创

致于数据科学家的小陈 2022-08-22 12:23:12 博主文章分类：数据建模与挖掘 ©著作权

文章标签 线性回归梯度下降 Hessian Matrix 逻辑回归 svm 文章分类 后端开发

©著作权归作者所有：来自51CTO博客作者致于数据科学家的小陈的原创作品，请联系作者获取转载授权，否则将追究法律责任

逻辑回归推导, 损失函数, 梯度推导, 证明是凸函数, 模型应用

认识

是一个经典的二元(y=0 或 y=1) 分类算法, 不是回归

输入特征还是线性回归, 输出是 [0,1] 的一个概率值, 其判别函数的形式为:

\(P(y=1|x) = \frac {1}{1+e^{-\theta ^Tx}}\)

至于为什么是这样的形式, 上篇的logist 函数推导已经说明了,不在赘述啦

\(x = [x_1, x_2, x_3...x_n]\)
\(\theta = [\theta_0, \theta_1, \theta_2...]\)
\(\theta ^T x = \theta _0 + \theta _1x_1 + \theta_2x_2 + \theta_3x_3...\)

里面的一大坨就是妥妥的线性模型呀.

判别: 当 \(P(y=1|x)\)

分类 vs 回归

对目标函数做一个推演:

\(P(y=1|x) = P= \frac {1}{1+e^{-\theta^T x}}\)

\(P(y=0|x) = 1-P = 1 - \frac {1}{1+e^{-\theta^T x}} = \frac {1+e^{-\theta^T x}-1}{1+e^{-\theta^T x}} = \frac {1}{1+e^{\theta^Tx}}\)

则两个类别概率的比值:

\(\frac {P(y=1)}{P(y=0)} = \frac {P}{1-P} = \frac { \frac {1}{1+e^{-\theta^T x}}}{ \frac {1}{1+e^{\theta^Tx}}}\)

\(=\frac {1+e^{\theta^Tx}} {1+e^{-\theta^Tx}}\)

\(=\frac {1+e^{\theta^T x}}{\frac {e^{\theta^Tx + 1}}{e^{\theta ^T}}}\)

\(=e^{\theta^T x}\)

则 log(两个类别概率的比值):

\(ln(\frac {P}{1-P}) = \theta ^Tx\)

这不就是最熟悉的线性模型了嘛, 也可以这样说:

逻辑回归, 可看作对线性模型做了一个车 "逻辑" 变换, 输出是将值映射到 [0,1], 以0.5为界, 达到分类效果

也就说, 可以用线性的方式来, 研究 logist 这样非线性的问题.

模型应用case

年龄(x1)	收入(x2)	是否买车(1,0)
20	3	0
23	7	1
31	10	1
42	13	1
50	7	0
60	5	0

模型定义为:

\(P(y=1|x, \theta) = \frac {1}{1+e^{\theta'x}}\)

求解出: \(\theta_0 = -0.04, \ \theta_1 = -0.2, \theta_2 = 0.92\)

即模型: \(P(y=1|x, \theta) = \frac {1}{1+e^{-0.04 -0.2 x_1 + 0.92x_2}}\)

预测 : 现在来了一个 22岁, 收入是 8的人, 买车的概率为: 0.23 < 0.5 即输出 0 不买 (瞎算的哈)
参数1: 年龄 -0.2 表示, 如果年龄增加 1岁, 买车和不买车的概率比值与之前降低\(e^{-0.2} =0.82\)
参数2: 收入 0.92 表示, 如果收入增加1(万), 买与不买的概率比值比之前增加\(e^{0.92} =2.58\)倍

统一形式

从上知逻辑回归是二元(0, 1) 分类嘛, 因此:

\(P(y=1|\theta, x) = \frac {1}{1+e^{-\theta'x}}\)

\(P(y=0|\theta, x) = 1- \frac {1}{1+e^{-\theta'x}} =\frac {1+e^{\theta^Tx}} {1+e^{-\theta^Tx}}\)

将上面两个式子结合起来可写为:

\(P(y|\theta, x) = [P(y=1|\theta, x)]^y + [1-P(y=y|\theta, x)]^{1-y}\)

\(\theta ^T, \ \theta'\)
y = 1 或 y= 0

目标函数(Loss)

既然是概率问题, 而优化的参数是 theta, 当然采用 极大似然 啦

即将每一个样本点都考虑进来, 概率之积最大的情况下, 对参数做优化.

\(max \ L(\theta, x) = \prod \limits _{i=i}^n P(y_i |\theta, x_i)\), 标准化后, 等价于:

\(min \ L(\theta, x) =- \prod \limits _{i=i}^n P(y_i |\theta, x_i)\)

\(L(\theta, x) = - \prod \limits _{i=1} ^n [P(y_i=1|\theta, x_i)]^y [1-P(y_i=1| \theta, x_i)]^{1-y_i}\)

对其取 log, 乘法变加法, 利于推导和能让计算机运算, 毕竟存储小数是有 "精度的嘛".

\(log[L(\theta, x)] = -\sum \limits_{i=1}^n y \ logP(y_i=1|\theta, x_i) + (1-y_i)log(1-P(y_i=1|\theta, x_i))\)

y = 0 或 1, 因此将 y 从"次方" 拿下来是合理的
目的是最优, 做log变换也是也是成立的

将其写得简洁一波.

令 \(\phi(x) = \frac {1}{1+e^{-x}} \ 即本例的 P(y=1 | x, \theta) = \frac{1}{1+e^{- \theta ^Tx}} 可写为 \phi(\theta'x)\)

则最终loss 可简写为:

\(L(\theta, x) = -\sum \limits _{i=1}^n [y_i log \phi(\theta'x_i)] +[(1-y_i)log(1- \phi(\theta'x_i))]\)

对 theta 求一阶偏导数(求解)

\(\sum\)
\(\phi(x)' = \phi(x) (1-\phi(x))\)
注意求导的链式法则哦

\(\nabla_{\theta} = (-\sum y_i \frac {\phi(\theta'x_i)(1-\phi(\theta'x_i)) x_i}{\phi(\theta'x_i)} + (1-y_i) \frac {-\phi(\theta'x_i)(1-\phi(\theta'x_i))x_i}{1- \phi(\theta' x_i)})\)

\(=-\sum (x_i[y_i-\phi(\theta' x_i) - (1-y_i)(\phi(\theta'x))])\)

\(=-\sum (x_i[y_i- y_i \phi(\theta' x_i) - \phi(\theta'x_i) + y_i \phi(\theta'x_i)])\)

\(=\sum \phi(\theta'x_i - y_i)x_i\)

其中: \(\phi(x) = \frac {1}{1+e^{-x}} \ 而 \phi(x)' = \phi(x) (1-\phi(x))\)

如需求解参数 theta, 将 \(\phi(x)\)

即: \(\sum \limits _{i=1}^n \frac {x_i}{1+e^{(y_i - \theta'x_i)}} = 0\)

...

就这样吧, 不想整了, 此处的目的主要在于能求解出 theta 的一阶偏导数的形式.

证明 loss 函数是凸函数

定义证明: \(f(ax + (1-a)y) \le af(x) + (1-a)f(y)\)
一阶展开: \(f(x + a) > f(x) + af(x)' + e_i\)
求二阶导:海塞矩阵 Hessian Matrix 是 半正定即可.

Hessian: 对多元函数求二阶偏导数构成的矩阵啦.
栗子: 二元函数 f(x, y) 的Hessian: [[二阶偏x, 偏x偏y], [偏y偏x, 偏y]], 组成2x2的矩阵
半正定: \(\forall _x \ 满足x^TAx \ge 0\)

简单证明

\( 由上L(\theta, x) = \frac {-1}{n} \sum ylog\phi(\theta^tx) + (1-y)log(1-\phi(\theta^tx)) \\ 其中 \phi(x) = \frac{1}{1+e^{-x}}, \ \phi(x)^{'} = \phi(x)(1-\phi(x)) \\ 里面是一个复合函数, 只需证明 log(\phi(theta^x))的二阶导数"\ge0" \\ 对于 F(x) = log\phi(\theta^tx) \\ F(\theta)^{'} = \frac{\phi(\theta^tx)(1-\phi(\theta^tx))}{\phi(\theta^tx)} = 1-\phi(\theta^tx) >= 0 \\ F(\theta)^{''} = (\frac{1}{1+e^{-\theta^tx}})' = \frac{e^{-\theta^tx}}{(1+e^{-\theta^tx)^2}} >= 0 \\ 因此目标函数是凸函数. \)

严格证明

已知损失函数为:

\(L(\theta, x) = -\sum \limits _{i=1}^n [y_i log \phi(\theta'x_i)] +[(1-y_i)log(1- \phi(\theta'x_i))]\)

\(\phi(x) = \frac {1}{1+e^{-x}}\), 易推得 \(\phi(x)' = \phi (x) (1-\phi(x))\)
y = 1或0

其实,只需考虑 \(f(\theta, x) = -log \phi(\theta'x)\)

先对 theta 求一阶导:

\(\nabla _\theta = -\frac {\phi(\theta' x)(1-\phi(\theta'x))}{\phi(\theta'x)}x = [\phi(\theta' x) -1]x\)

再对 theta 求二阶导:

\(\nabla^2_\theta = \nabla _\theta([\phi(\theta'x) -1]x)\)

跟 x 没有关系,看作常数, 只跟 theta 相关
注意求导的链式法则哦
x 是向量

\(=\phi(\theta'x)(1-\theta'x)xx\)

\(=\phi(\theta'x)(1-\theta'x)xx^T\)

用半正定判别式: \(z^T Az 的符号\)

\(\forall_z \ z^T \phi(\theta'x)(1-\phi(\theta'x))xx^T z\)

其中,
\(\phi(\theta'x)(1-\phi(\theta'x))\)
x, z 都是列向量

即调换下位置可为:

\(\phi(\theta'x)(1-\phi(\theta'x)) z^T xx^T z\)

\(z^Tx\ 和 xz^T 是相等的表示内积, 是个实数,\)

即可再化简为:

\(\phi(\theta'x)(1-\phi(\theta'x))( z^T x)^2\)

因为 \(\phi(x) \in [0,1]\) 所以该式子 大于或等于0 恒成立, 第二项也类似, 两个半正定的线性组合, 也是半正定, 即证海塞矩阵是半正定的, 即证 loss 是凸函数

总体感觉, 逻辑回归的推导, 相对于 SVM 还是要简单许多的呀, 都不用对偶, 直接偏导就可以了, 难度也不大, 但用处却是非常大的, 结合了线性模型, 同时, 它是凸函数, 意味着求解时, 可以通过梯度下降法来找到全局最优解 . 毕竟是我最喜欢的三个算法之一了, 另两个是 SVM 和决策树, 当然 LR已经包含了呀.

逐步将经典的ML算法都手推一遍, 才本质上来认识世界, 真的能到达

**随心所欲不逾矩呢? **

还是,

万物并作,吾以观复?

耐心和恒心, 总会获得回报的.