LSTM单元计算

LSTM的输出使用什么激活函数_神经网络


图中虽然有3个LSTM单元,但是实际上只有一LSTM单元A,这里计算过程是假设输入的时间序列是3,则首先输入样本LSTM的输出使用什么激活函数_全连接_02,LSTM初始状态LSTM的输出使用什么激活函数_激活函数_03,LSTM的输出使用什么激活函数_神经网络_04得到LSTM的状态LSTM的输出使用什么激活函数_深度学习_05LSTM的输出使用什么激活函数_全连接_06,此时在同一个LSTM单元输入LSTM的输出使用什么激活函数_全连接_07LSTM的输出使用什么激活函数_深度学习_05LSTM的输出使用什么激活函数_全连接_06,得到LSTM的输出使用什么激活函数_全连接_10LSTM的输出使用什么激活函数_全连接_11,在同一个LSTM单元输入LSTM的输出使用什么激活函数_LSTM的输出使用什么激活函数_12LSTM的输出使用什么激活函数_全连接_10LSTM的输出使用什么激活函数_全连接_11,得到LSTM的输出使用什么激活函数_全连接_15LSTM的输出使用什么激活函数_全连接_10,此时完成了一次LSTM的forward计算,然后才开始进行反向梯度下降更新参数。

LSTM核心记忆单元是cell state,他存储着经历过的信息。

LSTM的输出使用什么激活函数_全连接_17

遗忘门

通过遗忘门控制是否保留之前的记忆C。

LSTM的输出使用什么激活函数_神经网络_18


遗忘门是以上一时刻的LSTM单元输出h和当前时刻的样本输入x拼接成为新的输入变量,经过一层全连接层计算,在激活函数sigmod函数变为值范围[0,1]的数组。

输入门

输入门控制当前时刻的样本输入x是否加入细胞状态记忆c中。

LSTM的输出使用什么激活函数_激活函数_19


输入门同样以上一个时刻LSTM神经元的输出h和当前时刻的样本x拼接成新的变量,经过一成全连接层计算和sigmod激活函数,得到[0,1]范围的门控制值。

样本信息,需要经过一层全连接层和tanh函数的处理,得到信息的样本信息。

LSTM的输出使用什么激活函数_神经网络_20


该图就是将以前的状态信息和当前新的信息进行相加,得到新的细胞状态记忆,其中用遗忘门和输入门分别控制两部分信息应该保留的多少程度。

输出门

输出门控制LSTM单元是否要输出当前的细胞状态信息c。

LSTM的输出使用什么激活函数_激活函数_21


输出门和其他门计算一样,输出的信息需要先经过tanh激活函数后再输出。

完整公式

LSTM的输出使用什么激活函数_全连接_22

多层LSTM网络

LSTM的输出使用什么激活函数_神经网络_23


多层LSTM其计算过程以与单层类似,第一层LSTM以输入的样本x和初始化的LSTM的输出使用什么激活函数_深度学习_24作为输入进行计算,之后的LSTM以上一层LSTM的输出LSTM的输出使用什么激活函数_LSTM的输出使用什么激活函数_25代替样本x,与上一时刻同层次的LSTM的LSTM的输出使用什么激活函数_深度学习_26输入进行计算。

最终,output存储了每个时刻样本x输入得到的最后一层LSTM的输出h的集合,若输入时序长度为5,隐层神经元数(门计算时全连接层的隐层神经元数)为3,则一个序列计算后,得到的output的大小就是(5,3),与LSTM层数无关。如果是batch_size=10,那么就是(10,5,3)。通常情况下我们只要最后一个时刻的输出值,即output[:,-1,:]的值。

LSTM的输出使用什么激活函数_LSTM的输出使用什么激活函数_27得到的是最后一个时刻x输入,每层LSTM输出h的集合。假设共有4层LSTM,隐层神经元个数为3,则一个序列计算后,得到的LSTM的输出使用什么激活函数_LSTM的输出使用什么激活函数_27大小就是(4,3),与序列大小无关,若batch_size=10,那么就是(10,5,3)。

这里可以看到,output[:,-1,:]与LSTM的输出使用什么激活函数_LSTM的输出使用什么激活函数_27[:,-1,:]是相等的,都是最后一个样本的最后一层LSTM的输出。

pytorch的LSTM输入输出

LSTM的输出使用什么激活函数_深度学习_30


torch.nn.LSTM(样本的输入维度,隐层神经元个数,LSTM的层数)

input(序列长度,批大小,样本输入维度)pytorch默认第0维是序列大小

输出out(序列长度,批大小,隐层神经元数);

hn大小(LSTM层数,批大小,隐层神经元个数);

cn大小(LSTM层数,批大小,隐层神经元个数);

LSTM的输出使用什么激活函数_神经网络_31