RNN(Recurrent Neural Networks),被国内翻译为循环神经网络,或者递归神经网络,窃以为这两种表述都不合理,应该称为:(深度)同参时序神经网络(下文展开讲述)。
RNN公式(来自:pytorch rnn):
\begin{align} h_t &=tanh(W_{ih}x_t+b_{ih}+W_{hh}h_{(t-1)}+b_{hh}) \end{align}
这个公式体现了每层RNN的输入(input gate)计算和隐藏状态(hidden state)的计算过程,这是RNN每一层的计算公式,其中
$W_{ih}$ $W_{hh}$ 分别代表该层 计算input gate的weight参数和计算hidden state的weight参数
$b_{ih}$ $b_{hh}$代表该层对应的bias,
$h_{(t-1)}$代表上一个timestep的hidden state (对于时序序列sequence中的第一个样本,$h_{(t-1)}$ 即$h_0$可随机初始化生成)
1. $x_t$,对于第一层layer,$x_t$自然是训练样本,那第二层的${x_t}$是什么,还是训练样本? 带着这个疑问,看下文
2.每层RNN的计算过程都是公式(1),每层RNN都有且只有参数:$W_{ih}$ $W_{hh}$ $b_{ih}$ $b_{hh}$ 即每层四个参数变量(无论序列长度sequence length是多少、无论一个样本的维度dimension是多少),$x_t$和$h_{(t-1)}$是中间的计算结果,不是参数。即,一层的RNN,有4个参数变量,两层的RNN,有8个参数变量,N层的RNN有4N个参数变量。当然,每个参数变量都是参数矩阵Matrix。 知道模型的参数数量,模型的结构就基本能清楚了。所以这个注意点非常重要。
窃以为能看得更明白的,是下图5 来自知乎 Scofield
下面这个动画,是 维度为3的样本,多层RNN的计算过程。窃以为,这个视频最受启发。感谢 知乎刘大力 动画来自知乎文章(若动画看不了,请移步至该链接)
一个训练样本,有t个时刻timestep,每个时刻的样本有多个维度 dimension。动画中,t = 5,dimension = 3 。
窃以为,一层RNN模型, 共四个参数变量,$W_{ih}$ $W_{hh}$ $b_{ih}$ $b_{hh}$,不同时刻的训练样本同参(同参数变量,变量的值可以变化);序列中的样本,按照先后顺序与这四个参数变量计算,hidden state $h_{(t-1)}$来自上一时刻的计算结果,即时序依赖。 所以,一层RNN应该被称为同参时序神经网络,多层RNN应该叫:深度同参时序神经网络。这样称呼,虽然不利于传播,但易于理解。
两层的RNN模型,则是第一个时刻的训练样本先与第一层的4个参数按照公式(1)计算,计算出的hidden state $h_{(t)_{l0}}$值暂存,并传给 第二层公式(1)中的$x_t$,计算出的hidden state $h_{(t)_{l1}}$ 暂存。暂存的两个 $h_{(t)_{l0}}$和$h_{(t)_{l1}}$ 值,参与第二个时刻的计算(变为$h_{(t-1)_{l0}}$和$h_{(t-1)_{l1}}$),即分别对应第一层公式(1)和第二层的公式(1)中的$h_{(t-1)}$ 。多层RNN,以此类推。由此可见,RNN有多少层,就会有多个hidden state $h_{(t)_{lx}}$,pytorch rnn文档中输出的h_n的shape体现了这一点 。 需要注意的点是:$h_{(t)_{l}}$的值,有两个用到的地方,下一层的$x_t$ 和下一时刻的$h_{(t-1)_{l}}$ 。这一点,在网上很多RNN结构图中体现得不清楚。
看到这里,再来看下面这张结构图7(不同时刻同参、每个hidden state有两个去处):
代码验证,手写RNN与pytorch 官方RNN对比结果(一层RNN) :
import torch
from torch import nn
#network parameters
input_size = 10
hidden_size = 20
num_layers = 1 #fixed, can't change. Only one layer for this demo.
#data parameters
seq_len = 5
batch_size = 3
data_dim = input_size
#input data
data = torch.randn(seq_len, batch_size, data_dim)
#official rnn in pytorch
ornn = nn.RNN(input_size, hidden_size, num_layers)
#init hidden state
h0 = torch.randn(num_layers,batch_size,hidden_size)
#rnn implemented by myself
class MyRNN():
def __init__(self):
#keep weights and bias parameters the same with official rnn
# to make the compare with official rnn by final result
self.W_ih = torch.nn.Parameter(ornn.weight_ih_l0.T)
self.b_ih = torch.nn.Parameter(ornn.bias_ih_l0)
self.W_hh = torch.nn.Parameter(ornn.weight_hh_l0.T)
self.b_hh = torch.nn.Parameter(ornn.bias_hh_l0)
self.ht = torch.nn.Parameter(h0)
self.myoutput = []
def forward(self,x): #x shape: (seq_len,batch_size,data_dim)
for i in range(seq_len): #this line is the KEY to understand RNN. Important!
igates = torch.matmul(x[i],self.W_ih) + self.b_ih
hgates = torch.matmul(self.ht,self.W_hh) + self.b_hh
self.ht = torch.tanh(igates + hgates)#this line is the formula of RNN. Important!
return self.ht,self.myoutput
myrnn = MyRNN()
myht,myoutput = myrnn.forward(data)
official_output,official_hn = ornn(data,h0)
print ('myht:')
print (myht)
print ('official_hn:')
print (official_hn)
print ("--" * 40)
print ('myoutput:')
print (myoutput)
print ('official_output:')
print (official_output)
代码验证,手写RNN与pytorch 官方RNN对比结果(两层RNN):
import torch
from torch import nn
#network parameters
input_size = 10
hidden_size = 20
num_layers = 2
#data parameters
seq_len = 5
batch_size = 3
data_dim = input_size
data = torch.randn(seq_len, batch_size, data_dim)
#original official rnn in pytorch
ornn = nn.RNN(input_size, hidden_size, num_layers)
h0 = torch.randn(num_layers,batch_size,hidden_size)
class MyRNN():
def __init__(self):
#input_size, hidden_size
self.W_ih = torch.nn.Parameter(ornn.weight_ih_l0.T)
self.b_ih = torch.nn.Parameter(ornn.bias_ih_l0)
self.W_hh = torch.nn.Parameter(ornn.weight_hh_l0.T)
self.b_hh = torch.nn.Parameter(ornn.bias_hh_l0)
self.ht = torch.nn.Parameter(h0)
self.myoutput = []
if num_layers == 2:
self.ht = torch.nn.Parameter(h0[0])
self.ht1 = torch.nn.Parameter(h0[1])
self.W_ih_l1 = torch.nn.Parameter(ornn.weight_ih_l1.T)
self.b_ih_l1 = torch.nn.Parameter(ornn.bias_ih_l1)
self.W_hh_l1 = torch.nn.Parameter(ornn.weight_hh_l1.T)
self.b_hh_l1 = torch.nn.Parameter(ornn.bias_hh_l1)
def forward(self,x): #x: (seq_len,batch_size,data_dim)
for i in range(seq_len):
#the first layer. apply the formula
igates = torch.matmul(x[i],self.W_ih) + self.b_ih
hgates = torch.matmul(self.ht,self.W_hh) + self.b_hh #ht read from the early timestep.
self.ht = torch.tanh(igates + hgates) #ht update
if num_layers == 2:
#the second layer. apply the formula
igates = torch.matmul(self.ht,self.W_ih_l1) + self.b_ih_l1 #ht read from the the first layer. important!
hgates = torch.matmul(self.ht1,self.W_hh_l1) + self.b_hh_l1 #ht1 read from the early timestep.
self.ht1 = torch.tanh(igates + hgates) #ht1 update
ht_final_layer = [self.ht,self.ht1]
self.myoutput.append(self.ht1) #important. just ht1 ,the output of last layer.
return ht_final_layer,self.myoutput
myrnn = MyRNN()
myht,myoutput = myrnn.forward(data)
official_output,official_hn = ornn(data,h0)
print ('myht:')
print (myht)
print ('official_hn:')
print (official_hn)
print ("--" * 40)
print ('myoutput:')
print (myoutput)
print ('official_output')
结论: 通过理论和实践代码表明,RNN是同参时序神经网络(同参,亦称:权重共享),一层RNN有四个参数变量,每个timestep的样本均与这同样的四个参数变量计算。 高层依赖低一层的计算结果,当前时刻依赖前一时刻的计算结果。