LSTM的神经元个数

1. LSTM简单介绍

输入为三个神经元的BP神经网络 输入层神经元个数_矩阵相乘


上图中间位置就是一个LSTM cell,红框框从左到右,依次是:

忘记门层: 决定从细胞状态中丢弃什么信息,通过当前时刻输入(输入为三个神经元的BP神经网络 输入层神经元个数_数据_02)和前一个时刻输出(输入为三个神经元的BP神经网络 输入层神经元个数_数据_03)决定。

细胞状态: 确定并更新新消息到当前时刻的细胞状态中。

输出门层: 基于目前的细胞状态决定该时刻的输出。

2. 简单假设样例

假设现有一个样本,Shape = (13,5),时间步是13,每个时间步的特征长度是5【我的理解就是现在有13条数据,每条数据用5个字符表示】,如下所示:
输入为三个神经元的BP神经网络 输入层神经元个数_矩阵相乘_04
使用Keras框架添加LSTM层时,我的设置是这样的keras.layers.LSTM(10),也就是我现在设定,每个时间步经过LSTM后,得到的中间隐向量是10维(意思就是5->10维),13个时间步的数据进去得到的是(13*10)的数据。
每个时间步对应神经元个数(参数个数)一样,也就是算一个LSTM中神经元个数,算一个事件步中参与的神经元个数即可,下面将对LSTM每个计算部分进行神经元分析。

3.神经元分析

3.1 忘记门层

输入为三个神经元的BP神经网络 输入层神经元个数_输入为三个神经元的BP神经网络_05

图中公式的输入为三个神经元的BP神经网络 输入层神经元个数_数据_03是上一个状态的隐向量(已设定隐向量长度为10),输入为三个神经元的BP神经网络 输入层神经元个数_矩阵相乘_07为当前状态的输入(长度为5),那么输入为三个神经元的BP神经网络 输入层神经元个数_输入为三个神经元的BP神经网络_08的长度就是10+5=15了,输入为三个神经元的BP神经网络 输入层神经元个数_激活函数_09输入为三个神经元的BP神经网络 输入层神经元个数_激活函数_10为该层的参数。
该层输出是中间隐向量的长度(10),经过输入为三个神经元的BP神经网络 输入层神经元个数_激活函数_11激活前后的长度不变,只需要考虑输入为三个神经元的BP神经网络 输入层神经元个数_激活函数_11里面的操作得到10维特征即可。
输入为三个神经元的BP神经网络 输入层神经元个数_输入为三个神经元的BP神经网络_08是(1,15)的向量,与输入为三个神经元的BP神经网络 输入层神经元个数_激活函数_09相乘得到(1,10)的向量,根据矩阵相乘规律,得到输入为三个神经元的BP神经网络 输入层神经元个数_激活函数_09是(15,10)的矩阵,得到(1,10)矩阵后,与该门层偏置相加,偏置也应该有相同的形状,即输入为三个神经元的BP神经网络 输入层神经元个数_激活函数_10也是(1,10)的矩阵。
即该层参数个数为:
输入为三个神经元的BP神经网络 输入层神经元个数_激活函数_17

3.2 细胞状态

(1)确定更新信息过程

输入为三个神经元的BP神经网络 输入层神经元个数_矩阵相乘_18


可以看到,这里公式和前面的一样,输入为三个神经元的BP神经网络 输入层神经元个数_激活函数_11输入为三个神经元的BP神经网络 输入层神经元个数_输入为三个神经元的BP神经网络_20都是激活函数,不影响参数个数。

同理这个过程的参数个数为:

输入为三个神经元的BP神经网络 输入层神经元个数_激活函数_21

(2)更新过程

输入为三个神经元的BP神经网络 输入层神经元个数_数据_22


公式中的四个值,均是前面计算得到的结果,因此该过程没有参数需要学习。

3.3 输出层

输入为三个神经元的BP神经网络 输入层神经元个数_激活函数_23


一样的公式,参数个数一样,即:

输入为三个神经元的BP神经网络 输入层神经元个数_输入为三个神经元的BP神经网络_24

3.4 总结

把上面公式总结起来,就是该LSTM的神经元个数了:
输入为三个神经元的BP神经网络 输入层神经元个数_输入为三个神经元的BP神经网络_25
一般化:假设你一个样本的特征长度为n,结果该LSTM得到的长度为m,就可以这样计算参数个数:
输入为三个神经元的BP神经网络 输入层神经元个数_矩阵相乘_26