ceres 矩阵梯度

转载

mob64ca140f9cec 2024-09-13 13:56:18

文章标签 ceres 矩阵梯度反向传播矩阵乘法梯度计算计算图 文章分类 架构后端开发

🚩 前言

本节以较简单的例子来理解矩阵乘法下的反向传播过程。为了稍微形象一些，这里同样会用到计算图来进行描述。

矩阵乘法下的反向传播，其实和标量计算下的反向传播区别不大，只是我们的研究对象从标量变成了矩阵。我们需要解决的就是矩阵乘法运算下求梯度的问题，而两个矩阵的乘法又可以分解为许多标量的运算。

文章目录

🚩 前言
1. 求梯度的公式
2. “举个栗子”：两个矩阵相乘
3. 从计算图看：误差反向传播

1. 求梯度的公式

在矩阵乘法的情况下，设有一个特征矩阵为 $ceres 矩阵梯度_矩阵乘法$ ，一个权值矩阵为 $ceres 矩阵梯度_计算图_02$ ，输出： $ceres 矩阵梯度_矩阵乘法_03$ 。
如果我们要得到 $ceres 矩阵梯度_矩阵乘法_04$ 关于 $ceres 矩阵梯度_计算图_02$ 的梯度，则可以使用公式： $ceres 矩阵梯度_ceres 矩阵梯度_06$
同样的，如果求 $ceres 矩阵梯度_矩阵乘法_04$ 关于 $ceres 矩阵梯度_矩阵乘法$ 的梯度，则可以使用公式： $ceres 矩阵梯度_矩阵乘法_09$

那么，为什么上面的公式确实可以求出我们所需要的梯度呢？

2. “举个栗子”：两个矩阵相乘

我们不妨看看两个简单矩阵相乘的过程，并将目光聚焦到求关于 $ceres 矩阵梯度_计算图_02$ 的梯度

ceres 矩阵梯度_梯度计算_11

求关于 $ceres 矩阵梯度_计算图_02$ 的梯度，则我们得到的 $ceres 矩阵梯度_计算图_13$ 的形状应当是与 $ceres 矩阵梯度_计算图_02$ 相同的，即每个元素都有一个对应的梯度。我们看和 $ceres 矩阵梯度_计算图_15$ 有关的部分：

$ceres 矩阵梯度_矩阵乘法_16$
$ceres 矩阵梯度_计算图_17$
$ceres 矩阵梯度_梯度计算_18$

不难发现， $ceres 矩阵梯度_计算图_15$ 的系数有三个，那么 $ceres 矩阵梯度_计算图_15$ 的梯度就是这三个系数的和： $ceres 矩阵梯度_ceres 矩阵梯度_21$ 。

对应的系数作为梯度很好理解，可为什么是和呢？而不是平均数？又或者其它的？
我现在也没有很明白，求得的梯度为什么是它所有系数的和值，主要是对这个梯度值所代表的意义有些困惑。不过平均数其实没有什么意义，不过是给所有求得的梯度等比缩小了而已。

相应的， $ceres 矩阵梯度_计算图_02$ 第一行的元素，其梯度都是 $ceres 矩阵梯度_矩阵乘法$ 第一列的和；第二行的元素，其梯度都是 $ceres 矩阵梯度_矩阵乘法$ 第二列的和。
于是可以发现，通过公式 $ceres 矩阵梯度_ceres 矩阵梯度_06$ ，如果 $ceres 矩阵梯度_计算图_26$ 的元素值都为1，我们就恰巧能得到上面的结果。