残差网络为什么有效

原创

二进制人工智能 2022-07-16 00:29:21 ©著作权

©著作权归作者所有：来自51CTO博客作者二进制人工智能的原创作品，请联系作者获取转载授权，否则将追究法律责任

残差单元简介

残差网络（Residual Network，ResNet）由多个残差单元堆叠而成。

残差网络为什么有效_python

残差单元通过为非线性的网络层添加跳跃连接（shortcut/skip connection）的方式来提高信息的传播效率。

残差网络为什么有效_人工智能_02

它将期望的映射函数 $残差网络为什么有效_人工智能_03$ 分解为残差函数 $残差网络为什么有效_python_04$ 和恒等(identity)函数 $残差网络为什么有效_权重_05$ 。

第 $残差网络为什么有效_python_06$ 个残差单元的最终输出为：

$残差网络为什么有效_人工智能_07$

其中 $残差网络为什么有效_ide_08$ 为残差函数的参数。

将 $残差网络为什么有效_ide_09$ 替换为恒等函数。则残差单元最终输出为：

$残差网络为什么有效_人工智能_10$

通过递归，例如：

残差网络为什么有效_权重_11

可以得到任意较深的第 $残差网络为什么有效_ide_12$ 个单元和任意浅较的第 $残差网络为什么有效_机器学习_13$ 个单元关系如下：

残差网络为什么有效_机器学习_14

公式表明：

对于任意较深的第 $残差网络为什么有效_机器学习_15$ 个单元，特征 $残差网络为什么有效_python_16$ 可以表示为较浅的第 $残差网络为什么有效_机器学习_17$ 个单元的特征 $残差网络为什么有效_机器学习_18$ 加上 $残差网络为什么有效_机器学习_15$ 和 $残差网络为什么有效_机器学习_17$ 之间所有残差函数的和 $残差网络为什么有效_权重_21$ 。
对于任意第 $残差网络为什么有效_机器学习_15$ 个单元，它的输出特征 $残差网络为什么有效_机器学习_23$ ，即为之前每一层残差函数的总和加上 $残差网络为什么有效_机器学习_24$ 。

这些特性有利于残差网络的反向传播，设损失函数为 $残差网络为什么有效_python_25$ ，由链式法则求梯度：

残差网络为什么有效_机器学习_26

公式表明

梯度 $残差网络为什么有效_python_27$ 可以被分解成两个部分，其中 $残差网络为什么有效_人工智能_28$ 是通过权重层传递的；而 $残差网络为什么有效_人工智能_29$ 不涉及 $残差网络为什么有效_机器学习_17$ 到 $残差网络为什么有效_机器学习_15$ 之间任何权重层，这保证了 $残差网络为什么有效_机器学习_15$ 层的信息能够直接传回任意 $残差网络为什么有效_机器学习_17$ 浅层。
在一个小批量中梯度 $残差网络为什么有效_python_27$ 不可能出现消失的情况，因为通常 $残差网络为什么有效_python_35$ 对于一个批次的所有样本不可能都为-1，即对于一个批次 $残差网络为什么有效_权重_36$ 不可能都为0。这意味不可能出现梯度为0的情况。