残差网络为什么叫残差?

由以下公式决定:

R(x) = Output - Input = H(x) - x

倒数H'(x) = R'(x) + 1,这样梯度就不会因为链式法则而逐渐消失了。

 

Residual Network和LSTM的关系?

LSTM也可以部分解决梯度消失的问题。