LSTM的神经元个数
1. LSTM简单介绍
上图中间位置就是一个LSTM cell,红框框从左到右,依次是:
忘记门层: 决定从细胞状态中丢弃什么信息,通过当前时刻输入()和前一个时刻输出()决定。
细胞状态: 确定并更新新消息到当前时刻的细胞状态中。
输出门层: 基于目前的细胞状态决定该时刻的输出。
2. 简单假设样例
假设现有一个样本,Shape = (13,5),时间步是13,每个时间步的特征长度是5【我的理解就是现在有13条数据,每条数据用5个字符表示】,如下所示:
使用Keras框架添加LSTM层时,我的设置是这样的keras.layers.LSTM(10),也就是我现在设定,每个时间步经过LSTM后,得到的中间隐向量是10维(意思就是5->10维),13个时间步的数据进去得到的是(13*10)的数据。
每个时间步对应神经元个数(参数个数)一样,也就是算一个LSTM中神经元个数,算一个事件步中参与的神经元个数即可,下面将对LSTM每个计算部分进行神经元分析。
3.神经元分析
3.1 忘记门层
图中公式的是上一个状态的隐向量(已设定隐向量长度为10),为当前状态的输入(长度为5),那么的长度就是10+5=15了,和为该层的参数。
该层输出是中间隐向量的长度(10),经过激活前后的长度不变,只需要考虑里面的操作得到10维特征即可。
是(1,15)的向量,与相乘得到(1,10)的向量,根据矩阵相乘规律,得到是(15,10)的矩阵,得到(1,10)矩阵后,与该门层偏置相加,偏置也应该有相同的形状,即也是(1,10)的矩阵。
即该层参数个数为:
3.2 细胞状态
(1)确定更新信息过程
可以看到,这里公式和前面的一样,和都是激活函数,不影响参数个数。
同理这个过程的参数个数为:
(2)更新过程
公式中的四个值,均是前面计算得到的结果,因此该过程没有参数需要学习。
3.3 输出层
一样的公式,参数个数一样,即:
3.4 总结
把上面公式总结起来,就是该LSTM的神经元个数了:
一般化:假设你一个样本的特征长度为n,结果该LSTM得到的长度为m,就可以这样计算参数个数: