单变量多步输出LSTM时间序列预测 python lstm输出一个预测值

转载

mob64ca14095513 2024-01-09 23:06:23

在使用tensorflow构建lstm网络时，在网上看了不少文章，大部分都是忽略细节，重要的地方一带而过，不重要的地方长篇大论。最近仔细看了看，决定总结一下，供大家参考，错误的地方还望指正。

我这里主要要介绍的细节，主要包括参数 num_units和sequence_length的理解，以及 tf.nn.rnn_cell.MultiRNNCell 和 tf.nn.dynamic_rnn 两个常见API的使用

（1）参数num_units的理解

先看下面一段代码

import

上面执行单层单向循环网络的代码中，构建了一个单层lstm，num_units=128 可以理解为每一个时间步骤输出结果的维度。这里的X表示一个批次的数据，样本的矩阵大小是 25 * 640 ，通过25个时间步骤展开lstm，每一个时间步骤，输入一个维度为 n=640的向量。输出的则是维度为128的向量。t 时刻

和

的shape均为(1,128)

计算这个单层lstm的神经元总数量

神经元总数量 = 4 * ((num_units + n) * num_units + num_units)
神经元总数量 = 4 * ((128 + 640) * 128 + 128)

对于 sequence_length 的理解

在进行自然语言处理时，可能每句话长度不一致，但是在我们将矩阵送入模型时，要求长度是一致的。因此不相同的时间步长要求一致，以最大步长为准。这样也就需要进行填充，但是如果仅仅完成填充，在训练的时候不把这些填充的数据去除的话，那么这些填充位置的向量也会学习到特征，进一步影响梯度的计算，因此需要使用sequence_length来指定有效长度，跳过填充的部分。

补充一点：

//

（2）多层LSTMCell ：tf.nn.rnn_cell.MultiRNNCell

大部分情况，构建的LSTM网络都会用到多层。将x输入第一层LSTM的后得到隐层状态 h，这个隐层状态就相当于第二层LSTM的输入，第二层LSTM的隐层状态又相当于第三层RNN的输入，以此类推。通过MultiRNNCell得到的cell实际也是RNNCell的子类实例，因此也有call方法。同样可以通过tf.nn.dynamic_rnn来一次运行多步。

在TensorFlow中，使用tf.nn.rnn_cell.MultiRNNCell 函数对RNNCell进行堆叠，式例代码：