输入为三个神经元的BP神经网络输入层神经元个数

转载

doscommand 2023-12-14 18:53:44

文章标签 输入为三个神经元的BP神经网络数据矩阵相乘激活函数 文章分类 神经网络人工智能

LSTM的神经元个数

1. LSTM简单介绍

输入为三个神经元的BP神经网络输入层神经元个数_矩阵相乘

上图中间位置就是一个LSTM cell，红框框从左到右，依次是：

忘记门层： 决定从细胞状态中丢弃什么信息，通过当前时刻输入( $输入为三个神经元的BP神经网络输入层神经元个数_数据_02$ )和前一个时刻输出( $输入为三个神经元的BP神经网络输入层神经元个数_数据_03$ )决定。

细胞状态： 确定并更新新消息到当前时刻的细胞状态中。

输出门层： 基于目前的细胞状态决定该时刻的输出。

2. 简单假设样例

假设现有一个样本，Shape = (13,5)，时间步是13，每个时间步的特征长度是5【我的理解就是现在有13条数据，每条数据用5个字符表示】，如下所示：
$输入为三个神经元的BP神经网络输入层神经元个数_矩阵相乘_04$
使用Keras框架添加LSTM层时，我的设置是这样的keras.layers.LSTM(10)，也就是我现在设定，每个时间步经过LSTM后，得到的中间隐向量是10维（意思就是5->10维），13个时间步的数据进去得到的是(13*10)的数据。
每个时间步对应神经元个数（参数个数）一样，也就是算一个LSTM中神经元个数，算一个事件步中参与的神经元个数即可，下面将对LSTM每个计算部分进行神经元分析。

3.神经元分析

3.1 忘记门层

输入为三个神经元的BP神经网络输入层神经元个数_输入为三个神经元的BP神经网络_05

图中公式的 $输入为三个神经元的BP神经网络输入层神经元个数_数据_03$ 是上一个状态的隐向量（已设定隐向量长度为10）， $输入为三个神经元的BP神经网络输入层神经元个数_矩阵相乘_07$ 为当前状态的输入（长度为5），那么 $输入为三个神经元的BP神经网络输入层神经元个数_输入为三个神经元的BP神经网络_08$ 的长度就是10+5=15了， $输入为三个神经元的BP神经网络输入层神经元个数_激活函数_09$ 和 $输入为三个神经元的BP神经网络输入层神经元个数_激活函数_10$ 为该层的参数。
该层输出是中间隐向量的长度(10)，经过 $输入为三个神经元的BP神经网络输入层神经元个数_激活函数_11$ 激活前后的长度不变，只需要考虑 $输入为三个神经元的BP神经网络输入层神经元个数_激活函数_11$ 里面的操作得到10维特征即可。
$输入为三个神经元的BP神经网络输入层神经元个数_输入为三个神经元的BP神经网络_08$ 是(1,15)的向量，与 $输入为三个神经元的BP神经网络输入层神经元个数_激活函数_09$ 相乘得到(1,10)的向量，根据矩阵相乘规律，得到 $输入为三个神经元的BP神经网络输入层神经元个数_激活函数_09$ 是(15,10)的矩阵，得到(1,10)矩阵后，与该门层偏置相加，偏置也应该有相同的形状，即 $输入为三个神经元的BP神经网络输入层神经元个数_激活函数_10$ 也是(1,10)的矩阵。
即该层参数个数为：
$输入为三个神经元的BP神经网络输入层神经元个数_激活函数_17$

3.2 细胞状态

（1）确定更新信息过程

输入为三个神经元的BP神经网络输入层神经元个数_矩阵相乘_18

可以看到，这里公式和前面的一样， $输入为三个神经元的BP神经网络输入层神经元个数_激活函数_11$ 和 $输入为三个神经元的BP神经网络输入层神经元个数_输入为三个神经元的BP神经网络_20$ 都是激活函数，不影响参数个数。

同理这个过程的参数个数为：

$输入为三个神经元的BP神经网络输入层神经元个数_激活函数_21$

（2）更新过程

输入为三个神经元的BP神经网络输入层神经元个数_数据_22

公式中的四个值，均是前面计算得到的结果，因此该过程没有参数需要学习。

3.3 输出层

输入为三个神经元的BP神经网络输入层神经元个数_激活函数_23

一样的公式，参数个数一样，即：

$输入为三个神经元的BP神经网络输入层神经元个数_输入为三个神经元的BP神经网络_24$

3.4 总结

把上面公式总结起来，就是该LSTM的神经元个数了：
$输入为三个神经元的BP神经网络输入层神经元个数_输入为三个神经元的BP神经网络_25$
一般化：假设你一个样本的特征长度为n，结果该LSTM得到的长度为m，就可以这样计算参数个数：
$输入为三个神经元的BP神经网络输入层神经元个数_矩阵相乘_26$