Softmax梯度推导

转载

mb600aa45a054a0 2021-03-18 14:12:00

文章标签 c++ 文章分类 C/C++ 后端开发

原创 lightcity 光城 2018-11-23

Softmax梯度推导

0.说在前面

今天来学习Softmax梯度推导及实现！

1.损失函数

矩阵乘法

矩阵相乘，矩阵A的一行乘以矩阵B的每一列，不用循环B矩阵乘法公式：

对于下面这个，则不用循环W矩阵，否则通常做法还得循环W矩阵的每一列！

score = np.dot(X[i],W)

损失函数

具体的描述看代码，有一点需要注意，损失函数Loss也就是cross-entropy！

在实际计算的时候，需要给分子分母同时乘以常熟C，一般C取-maxfj，目的是防止数值爆炸，所产生的导致计算机内存不足，计算不稳定！

def softmax_loss_naive(W, X, y, reg):
  loss = 0.0
  dW = np.zeros_like(W)
  num_train = X.shape[0]
  num_class = W.shape[1]
  for i in range(num_train):
      # 得到S矩阵每一行
      score = np.dot(X[i],W)
      # 防止数值爆炸，保持稳定性
      score-=max(score)
      # 分子 去指数
      score = np.exp(score)
      # 分母，S矩阵每一行求和
      softmax_sum = np.sum(score)
      # broadcast：向量除以标量
      score /= softmax_sum
      # 得到交叉熵，也就是softmax的loss
      loss -= np.log(score[y[i]])
   # 平均         
   loss/=num_train
   # 加上正则项
   loss+=reg*np.sum(W*W) 
  return loss, dW

2.梯度推导

shape查看

X为(D,N)，W为(N,C)

梯度求导推论

Softmax梯度推导_c++

这里Xi与Wj转置均是行向量!

记作(2)式：
Softmax梯度推导_c++_02
记作(3)式：
Softmax梯度推导_c++_03
pm = [0,…1…,0]是一个是一个one hot vector

梯度求导：

利用链式求导法则：记作(4)式：
Softmax梯度推导_c++_04
观察shape：

对Wj求导后shape是(1，D)，后面三个分别是(1,C)，(C,C)，(C,D)，最终是(1,D)，记作(5)式：
Softmax梯度推导_c++_05
记作(6)式：
Softmax梯度推导_c++_06
上面求导分为两种情况，记作(7)式：

Softmax梯度推导_c++_07

Si表示S矩阵中每一行数据，那Sj对Wj求导如下：

现在取X矩阵第一行[X11,X12,…..X1n]

取W矩阵第一列[W11,W21….Wn1]

X与W矩阵相乘得S矩阵，上面X第一行与W第一列相乘得到S矩阵第一个元素，记作S01，同理我们可以得到S矩阵每一行得所有元素，分别为Si1,Si2,…..,SiC。

Wj代表W矩阵得列向量，每一列为Wj，第一列W1，后面依此类推！

那么我们现在来分析一下Si对Wj求导，这里推导：

对于最上面wj代表行向量，如下面所示是W矩阵(D,C)表示：记作(8)式：
Softmax梯度推导_c++_08
回顾一下(1)式，那么W转置得矩阵(C,D)则为：记作(9)式：
Softmax梯度推导_c++_09
而X矩阵(N,D)则是：记作(10)式：
Softmax梯度推导_c++_10
而S矩阵(N,C)表示为(记作)：记作(11)式：
Softmax梯度推导_c++_11
也就是，记作(12)式：：
Softmax梯度推导_c++_12
S1表示第一行，Si表示第i行

现在回到求导，那么当Si对Wj进行求导得时候，我们从列向量表示得S矩阵(12)与原始矩阵S(11)相比较，我们知道，Si对wj求导为xi，其余全为0，得到下面结果，记作(13)式(C,D)：
Softmax梯度推导_c++_13

带入链式求导法则，得到：

Softmax梯度推导_c++_14

梯度实现

在上述交叉熵下面添加如下代码即可！

# 计算梯度
for j in range(num_class):
  if j!=y[i]:
    dw[:,j]+=score[j]*X[i]
  else:
    dw[:,j]+=(score[j]-1)*X[i]

3.作者的话

如果您觉得本公众号对您有帮助，欢迎关注本公众号，更多内容，关注本公众号深度学习系列！

上一篇：SVM梯度求导及实现

下一篇：Softmax及两层神经网络

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯