逻辑回归（目标函数推导）

原创

月来客栈 2021-12-28 16:41:57 博主文章分类：跟我一起机器学习 ©著作权

©著作权归作者所有：来自51CTO博客作者月来客栈的原创作品，请联系作者获取转载授权，否则将追究法律责任

跟我一起机器学习系列文章将首发于公众号：月来客栈，欢迎文末扫码关注！

0 前言

前面几篇文章笔者详细的介绍了什么是逻辑回归、如何进行多分类、以及分类任务对应的评价指标等，算是完成了前面第一个阶段的学习。但是到目前为止仍旧有一些问题没有解决，映射函数 g ( z ) g(z) g(z)长什么样？逻辑回归的目标函数怎么来的？如何自己求解实现逻辑回归？下面我们就来一一回答这三个问题。在这三个问题解决后，整个逻辑回归算法的主要内容也就算是完成了。

1 映射函数

1.1 Sigmoid函数

前面我们只是介绍了通过一个函数 g ( z ) g(z) g(z)将特征的线性组合映射 z = W x + b z=Wx+b z=Wx+b映射到区间 [ 0 , 1 ] [0,1] [0,1]中去，那么这个 g ( z ) g(z) g(z)长什么样呢？

逻辑回归（目标函数推导）_机器学习

如图所示便是 g ( z ) g(z) g(z)的函数图像，其同时也被称为sigmoid函数，其数学定义如下：

g ( z ) = 1 1 + e − z (1) g(z)=\frac{1}{1+e^{-z}}\tag{1} g(z)=1+e−z1(1)

而之所以选择sigmoid的原因在于：①连续光滑处处可导；②sigmoid函数关于点 ( 0 , 0.5 ) (0,0.5) (0,0.5)中心对称；③sigmoid函数求导简单，其求导结果为： g ′ ( z ) = g ( z ) ( 1 − g ( z ) ) g^{\prime}(z)=g(z)(1-g(z)) g′(z)=g(z)(1−g(z))。

1.2 实现

对于 g ( z ) g(z) g(z)的实现也是非常简单，一句代码就完成了：

def g(z):
    return 1 / (1 + np.exp(-z))

2 目标函数

2.1 设定概率表示

介绍完sigmoid函数下面就开始介绍逻辑回归的目标函数到底是怎么来的。

设：

P ( y = 1 ∣ x ; W , b ) = h ( x ) P ( y = 0 ∣ x ; W , b ) = 1 − h ( x ) h ( x ) = g ( z ) = g ( W T x + b ) (2) \begin{aligned} &P(y=1|x;W,b)=h(x)\\[1ex] &P(y=0|x;W,b)=1-h(x)\\[1ex] &h(x)=g(z)=g(W^Tx+b) \end{aligned}\tag{2} P(y=1∣x;W,b)=h(x)P(y=0∣x;W,b)=1−h(x)h(x)=g(z)=g(WTx+b)(2)

其中 W , x W,x W,x均为一个列向量， P ( y = 1 ∣ x ; W , b ) = h ( x ) P(y=1|x;W,b)=h(x) P(y=1∣x;W,b)=h(x)的含义为当给定参数 W , b W,b W,b时，样本 x x x属于 y = 1 y=1 y=1这个类别的概率为 h ( x ) h(x) h(x)。但是这样需要前面两个等式来衡量每一个样本所属类别的概率，为了更加方便的表示每个样本的概率，可以改写为如下形式：

p ( y ∣ x ; W , b ) = ( h ( x ) ) y ( 1 − h ( x ) ) 1 − y (3) p(y|x;W,b)=(h(x))^y(1-h(x))^{1-y}\tag{3} p(y∣x;W,b)=(h(x))y(1−h(x))1−y(3)

这样一来，不管样本 x x x属于哪个类别，都可以通过等式 ( 3 ) (3) (3)来进行概率计算。

我们知道，在机器学习中都是通过给定训练集，即 x , y x,y x,y来求得其中的未知参数 W , b W,b W,b。换句话说，对于每个给定的$x^{(i)} ，我们已经知道了其所属的类别，我们已经知道了其所属的类别，我们已经知道了其所属的类别y^{{(i)}$，即**$y}{(i)} 的这样一个分布结果我们是知道的 ∗ ∗ 。那么什么样的参数的这样一个分布结果我们是知道的**。那么什么样的参数的这样一个分布结果我们是知道的∗∗。那么什么样的参数W,b 能够使得已知的能够使得已知的能够使得已知的y^{(1)},y{(2)},\cdots,y^{{(m)}$这样一个结果最容易出现呢？即给定什么样的参数$W,b$，使得当输入$x}{(1)},x^{{(2)},\cdots,x}{(m)} 这这这m$个样本时，最能够产生已知的类别结果。

2.2 引入最大似然

上面绕来绕去说了这么些目的就只有一个，即为什么要用似然函数进行下一步的计算。由上述分析可知，为了能够使得 y ( 1 ) , y ( 2 ) , ⋯ , y ( m ) y^{(1)},y^{(2)},\cdots,y^{(m)} y(1),y(2),⋯,y(m)这样一个结果最容易出现，我们应该最大化如下似然函数：

L ( W , b ) = ∏ i = 1 m p ( y ( i ) ∣ x ( i ) ; W , b ) = ∏ i = 1 m ( h ( x ( i ) ) ) y ( i ) ( 1 − h ( x ) ) 1 − y ( i ) (4) L(W,b)=\prod_{i=1}^mp(y^{(i)}|x^{(i)};W,b)\\[2ex] =\prod_{i=1}^m(h(x^{(i)}))^{y^{(i)}}(1-h(x))^{1-y^{(i)}}\tag{4} L(W,b)=i=1∏mp(y(i)∣x(i);W,b)=i=1∏m(h(x(i)))y(i)(1−h(x))1−y(i)(4)

对等式 ( 4 ) (4) (4)两边同时取自然对数得：

l ( W , b ) = log ⁡ L ( W , b ) = ∑ i = 1 m [ y ( i ) log ⁡ h ( x ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − h ( x ( i ) ) ) ] (5) \begin{aligned} \mathcal{l}(W,b) &= \log{L}(W,b)\\[3ex] &=\sum_{i=1}^m\left[y^{(i)}\log{h(x^{(i)})+(1-y^{(i)})\log{(1-h(x^{(i)}))}}\right] \end{aligned}\tag{5} l(W,b)=logL(W,b)=i=1∑m[y(i)logh(x(i))+(1−y(i))log(1−h(x(i)))](5)

注： log ⁡ a b c d = log ⁡ a b + log ⁡ c d = b log ⁡ a + d log ⁡ c \log{a^bc^d}=\log{a^b}+\log{c^d}=b\log{a}+d\log{c} logabcd=logab+logcd=bloga+dlogc

易知，最大化函数 ( 5 ) (5) (5)等价于最小化函数 − l ( W , b ) -l(W,b) −l(W,b)，且由于 m m m为常数，故进一步等价于最小化函数 − 1 m l ( W , b ) -\frac{1}{m}l(W,b) −m1l(W,b)

由此，我们便得到了逻辑回归算法的目标函数：

J ( W , b ) = − 1 m ∑ i = 1 m [ y ( i ) log ⁡ h ( x ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − h ( x ( i ) ) ) ] (6) J(W,b) =-\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}\log{h(x^{(i)})+(1-y^{(i)})\log{(1-h(x^{(i)}))}}\right]\tag{6} J(W,b)=−m1i=1∑m[y(i)logh(x(i))+(1−y(i))log(1−h(x(i)))](6)

2.3 计算梯度

在求解线性回归中，我们首次引入并讲解了梯度下降算法，知道可以通过梯度下降算法来最小化某个目标函数。当目标函数取得（或接近）其函数最小值时，我们便得到了目标函数中对应的未知参数。由此可知，欲最小化函数 ( 6 ) (6) (6) 必须先计算得到其关于参数的梯度。故：

目标函数 J ( W , b ) J(W,b) J(W,b)对 W j W_j Wj的梯度为：

∂ J ∂ W j = − ∂ ∂ W j 1 m ∑ i = 1 m [ y ( i ) log ⁡ h ( x ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − h ( x ( i ) ) ) ] = − 1 m ∑ i = 1 m [ y ( i ) h ′ ( x ( i ) ) h ( x ( i ) ) + ( 1 − y ( i ) ) − h ′ ( x ( i ) ) 1 − h ( x ( i ) ) ] = − 1 m ∑ i = 1 m [ y ( i ) g ( z ( i ) ) ( 1 − g ( z ( i ) ) ) g ( z ( i ) ) x j ( i ) − ( 1 − y ( i ) ) g ( z ( i ) ) ( 1 − g ( z ( i ) ) ) 1 − g ( z ( i ) ) x j ( i ) ] = − 1 m ∑ i = 1 m [ y ( i ) ( 1 − g ( z ( i ) ) ) − ( 1 − y ( i ) ) g ( z ( i ) ) ] x j ( i ) = − 1 m ∑ i = 1 m [ y ( i ) − h ( x ( i ) ) ] x j ( i ) (7) \begin{aligned} \frac{\partial J}{\partial W_j}&=-\frac{\partial }{\partial W_j}\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}\log{h(x^{(i)})+(1-y^{(i)})\log{(1-h(x^{(i)}))}}\right]\\[2ex] &=-\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}\frac{h^{\prime}(x^{(i)})}{h(x^{(i)})}+(1-y^{(i)})\frac{-h^{\prime}(x^{(i)})}{1-h(x^{(i)})}\right]\\[2ex] &=-\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}\frac{g(z^{(i)})(1-g(z^{(i)}))}{g(z^{(i)})}x^{(i)}_j-(1-y^{(i)})\frac{g(z^{(i)})(1-g(z^{(i)}))}{1-g(z^{(i)})}x^{(i)}_j\right]\\[2ex] &=-\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}(1-g(z^{(i)}))-(1-y^{(i)})g(z^{(i)})\right]x^{(i)}_j\\[2ex] &=-\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}-h(x^{(i)})\right]x^{(i)}_j \end{aligned}\tag{7} ∂Wj∂J=−∂Wj∂m1i=1∑m[y(i)logh(x(i))+(1−y(i))log(1−h(x(i)))]=−m1i=1∑m[y(i)h(x(i))h′(x(i))+(1−y(i))1−h(x(i))−h′(x(i))]=−m1i=1∑m[y(i)g(z(i))g(z(i))(1−g(z(i)))xj(i)−(1−y(i))1−g(z(i))g(z(i))(1−g(z(i)))xj(i)]=−m1i=1∑m[y(i)(1−g(z(i)))−(1−y(i))g(z(i))]xj(i)=−m1i=1∑m[y(i)−h(x(i))]xj(i)(7)

目标函数 J ( W , b ) J(W,b) J(W,b)对 b b b的梯度为：

∂ J ∂ b = − ∂ ∂ b 1 m ∑ i = 1 m [ y ( i ) log ⁡ h ( x ( i ) ) + ( 1 − y ( i ) ) log ⁡ ( 1 − h ( x ( i ) ) ) ] = − 1 m ∑ i = 1 m [ y ( i ) h ′ ( x ( i ) ) h ( x ( i ) ) + ( 1 − y ( i ) ) − h ′ ( x ( i ) ) 1 − h ( x ( i ) ) ] = − 1 m ∑ i = 1 m [ y ( i ) g ( z ( i ) ) ( 1 − g ( z ( i ) ) ) g ( z ( i ) ) − ( 1 − y ( i ) ) g ( z ( i ) ) ( 1 − g ( z ( i ) ) ) 1 − g ( z ( i ) ) ] = − 1 m ∑ i = 1 m [ y ( i ) ( 1 − g ( z ( i ) ) ) − ( 1 − y ( i ) ) g ( z ( i ) ) ] = − 1 m ∑ i = 1 m [ y ( i ) − h ( x ( i ) ) ] (8) \begin{aligned} \frac{\partial J}{\partial b}&=-\frac{\partial }{\partial b}\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}\log{h(x^{(i)})+(1-y^{(i)})\log{(1-h(x^{(i)}))}}\right]\\[2ex] &=-\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}\frac{h^{\prime}(x^{(i)})}{h(x^{(i)})}+(1-y^{(i)})\frac{-h^{\prime}(x^{(i)})}{1-h(x^{(i)})}\right]\\[2ex] &=-\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}\frac{g(z^{(i)})(1-g(z^{(i)}))}{g(z^{(i)})}-(1-y^{(i)})\frac{g(z^{(i)})(1-g(z^{(i)}))}{1-g(z^{(i)})}\right]\\[2ex] &=-\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}(1-g(z^{(i)}))-(1-y^{(i)})g(z^{(i)})\right]\\[2ex] &=-\frac{1}{m}\sum_{i=1}^m\left[y^{(i)}-h(x^{(i)})\right] \end{aligned}\tag{8} ∂b∂J=−∂b∂m1i=1∑m[y(i)logh(x(i))+(1−y(i))log(1−h(x(i)))]=−m1i=1∑m[y(i)h(x(i))h′(x(i))+(1−y(i))1−h(x(i))−h′(x(i))]=−m1i=1∑m[y(i)g(z(i))g(z(i))(1−g(z(i)))−(1−y(i))1−g(z(i))g(z(i))(1−g(z(i)))]=−m1i=1∑m[y(i)(1−g(z(i)))−(1−y(i))g(z(i))]=−m1i=1∑m[y(i)−h(x(i))](8)

进一步，对公式 ( 6 ) ( 7 ) ( 8 ) (6)(7)(8) (6)(7)(8)矢量化可得：

J ( W , b ) = − 1 m n p . s u m ( y ∗ n p . l o g ( h ( x ) ) + ( 1 − y ) ∗ n p . l o g ( 1 − h ( x ) ) ) ∂ J ∂ W j = 1 m ∗ n p . m a t m u l ( X . T , ( h ( x ) − y ) ) ∂ J ∂ b = 1 m ∗ n p . s u m ( ( h ( x ) − y ) ) (9) \begin{aligned} J(W,b)&=-\frac{1}{m}np.sum(y*np.log(h(x))+(1-y)*np.log(1-h(x)))\\[2ex] \frac{\partial J}{\partial W_j}&=\frac{1}{m}*np.matmul(X.T,(h(x)-y))\\[2ex] \frac{\partial J}{\partial b}&=\frac{1}{m}*np.sum((h(x)-y))\\[2ex] \end{aligned}\tag{9} J(W,b)∂Wj∂J∂b∂J=−m1np.sum(y∗np.log(h(x))+(1−y)∗np.log(1−h(x)))=m1∗np.matmul(X.T,(h(x)−y))=m1∗np.sum((h(x)−y))(9)

3 手动实现

3.1 二分类

基本函数实现
def sigmoid(z): return 1 / (1 + np.exp(-z))def sigmoid_prime(z): return sigmoid(z) * (1 - sigmoid(z))def hypothesis(X, W, bias): z = np.matmul(X, W) + bias h_x = sigmoid(z) return h_x def prediction(X, W, bias, thre=0.5): h_x = hypothesis(X, W, bias) y_pre = (h_x > thre) * 1 return y_pre
目标函数与梯度下降
def cost_function(X, y, W, bias): m, n = X.shape h_x = hypothesis(X, W, bias) cost = np.sum(y * np.log(h_x) + (1 - y) * np.log(1 - h_x)) return -cost / m def gradient_descent(X, y, W, bias, alpha): m, n = X.shape h_x = hypothesis(X, W, bias) grad_w = (1 / m) * np.matmul(X.T, (h_x - y)) # [n,m] @ [m,1] grad_b = (1 / m) * np.sum(h_x - y) W = W - alpha * grad_w # 梯度下降 bias = bias - alpha * grad_b return W, bias
训练与结果
def train(X, y, ite=200): m, n = X.shape # 506,13 # W = np.random.randn(n, 1) W = np.random.uniform(-0.1, 0.1, n).reshape(n, 1) b = 0.1 alpha = 0.08 costs = [] for i in range(ite): J = cost_function(X, y, W, b) costs.append(J) W, b = gradient_descent(X, y, W, b, alpha) y_pre = prediction(X, W, b) print(classification_report(y, y_pre)) print('Accuracy: ', accuracy(y, y_pre)) return costs #结果 precision recall f1-score support 0 0.99 0.97 0.98 2121 0.98 0.99 0.99 357 accuracy 0.98 569
损失值

3.2 多分类

由于篇幅所限这里就只展示核心部分，其中train_binary()这个函数就是上面的train()，详细代码参见引用。

def train(x, y, iter=300):
    class_type = np.unique(y)
    costs = []
    W, b = [], []
    for c in class_type:
        label = (y == c) * 1
        tmp = train_binary(x, label, iter=iter)
        costs.append(tmp[0])
        W.append(tmp[1])
        b.append(tmp[2])
    costs = np.vstack(costs)
    costs = np.sum(costs, axis=0)
    y_pre = prediction(x, W, b)
    print(classification_report(y, y_pre))
    print('Accuracy by impleme: ', accuracy(y, y_pre))
    return costs
#结果
    precision  recall  f1-score  support
0     1.00      1.00     1.00      50
1     0.94      0.90     0.92      50
2     0.90      0.94     0.92      50
accuracy                0.96       150

4 总结

通过本篇文章的介绍，对于逻辑回归的主要内容也算到此结束了，但是还有一些提升模型性能的方法（例如数据集划分、正则化等）没有阐述，这在下一节的内容将进行介绍。

逻辑回归（目标函数推导）_评价指标_03

总结一下，如上图所示笔者首先通过一个小的示例引入了什么是分类模型，并通过在线性回归的基础上一步步的带出了什么是逻辑回归模型。然后笔者通过两篇文章介绍了逻辑回归从建模到利用开源库进行求解的过程，以及分类任务中常见的评价指标和多分类的方法等，完成了第一阶段的学习。最后，笔者通过本篇文章详细介绍了逻辑回归算法目标函的推导以及梯度的迭代公式等，还手动的实现了分类代码，进一步的完成了后面两个阶段的学习。本次内容就到此结束，感谢阅读！

青山不改，绿水长流，月来客栈见！