循环神经网络

  • 一, 循环神经网络(Recurrent Neural Network, RNN)
  • 1、卷积神经网络与循环神经网络简单对比
  • 2、 详解 RNN
  • 2.1 循环核:
  • 2.2 循环核按时间步展开
  • 2.3循环计算层:向输出方向生长
  • 2.4 RNN 训练
  • 2.5 Tensorflow2 描述循环计算层
  • 2.6 循环计算过程之 1pre1
  • 2.7 循环过程之4pre1
  • 2.8 Embedding 编码实现预测
  • 2.9 RNN实现股票预测



本节目标:学习循环神经网络,用RNN,LSTM,GRU实现连续数据的预测(以股票为例)

一, 循环神经网络(Recurrent Neural Network, RNN)

1、卷积神经网络与循环神经网络简单对比

CNN:借助卷积核(kernel)提取特征后,送入后续网络(如全连接网络Dense)进行分类、目标检测等操作。CNN借助卷积核从空间维度提取信息,卷积核参数空间共享

RNN:借助循环核(cell)提取特征后, 送入后续网络(如全连接网络 Dense)进行预测等操作。 RNN 借助循环核从时间维度提取信息,循环核参数时间共享。

2、 详解 RNN

2.1 循环核:

pytorch循环神经网络预测温度 循环神经网络 预测_循环神经网络

循环核具有记忆力,通过不同时刻的参数共享,实现了对时间序列的信息提
取。 每个循环核有多个记忆体,对应图 1.2.1 中的多个小圆柱。 记忆体内存储着每个时刻的状态信息ℎ𝑡,这里ℎ𝑡 = tanh( xt * 𝑤𝑥ℎ + ℎ𝑡-1wℎℎ+ 𝑏ℎ)。 其中,𝑤𝑥ℎ、 wℎℎ为权重矩阵, 𝑏ℎ为偏置, 𝑥𝑡为当前时刻的输入特征, ℎ𝑡𝑡−1为记忆体上一时刻存储的状态信息, tanh 为激活函数。

当前时刻循环核的输出特征𝑦𝑡 = softmax(ℎ𝑡wℎ𝑦+ 𝑏𝑦), 其中wℎ𝑦为权重矩阵、𝑏𝑦为偏置、 softmax 为激活函数,其实就相当于一层全连接层。 我们可以设定记忆体的个数从而改变记忆容量,当记忆体个数被指定、 输入𝑥 𝑡输出𝑦t维度被指定,周围这些待训练参数的维度也就被限定了。 在前向传播时, 记忆体内存储的状态信息h𝑡𝑡在每个时刻都被刷新, 而三个参数矩阵𝑤𝑥ℎ、 wℎℎ、 𝑤ℎ𝑦和两个偏置项𝑏ℎ、𝑏𝑦自始至终都是固定不变的。 在反向传播时, 三个参数矩阵和两个偏置项由梯度下降法更新

2.2 循环核按时间步展开

将循环核按时间步展开, 就是把循环核按照时间轴方向展开,可以得到如图1.2.2 的形式。 每个时刻记忆体状态信息ℎ𝑡被刷新,记忆体周围的参数矩阵和两个偏置项是固定不变的,我们训练优化的就是这些参数矩阵。训练完成后,使用效果最好的参数矩阵执行前向传播, 然后输出预测结果。 其实这和我们人类的预测是一致的:我们脑中的记忆体每个时刻都根据当前的输入而更新; 当前的预测推理是根据我们以往的知识积累用固化下来的“参数矩阵”进行的推理判断。可以看出, 循环神经网络就是借助循环核实现时间特征提取后把提取到的信息送入全连接网络, 从而实现连续数据的预测。

pytorch循环神经网络预测温度 循环神经网络 预测_pytorch循环神经网络预测温度_02

2.3循环计算层:向输出方向生长

在 RNN 中, 每个循环核构成一层循环计算层, 循环计算层的层数是向输出方向增长的。如图 1.2.3 所示,左图的网络有一个循环核,构成了一层循环计算层;中图的网络有两个循环核,构成了两层循环计算层;右图的网络有三个循环核,构成了三层循环计算层。其中,三个网络中每个循环核中记忆体的个数可以根据我们的需求任意指定。

pytorch循环神经网络预测温度 循环神经网络 预测_pytorch循环神经网络预测温度_03

2.4 RNN 训练

得到 RNN 的前向传播结果之后,和其他神经网络类似, 我们会定义损失函数,使用反向传播梯度下降算法训练模型。 RNN 唯一的区别在于:由于它每个时刻的节点都可能有一个输出,所以 RNN 的总损失为所有时刻(或部分时刻)上的损失和。

2.5 Tensorflow2 描述循环计算层

tf.keras.layers.SimpleRNN(神经元个数, 
						activation=激活函数, 
						return_sequences=是否每个时刻输出ℎ<sub>𝑡</sub>到下一层
)
(1)神经元个数:即循环核中记忆体的个数

(2) return_sequences: 在输出序列中,返回最后时间步的输出值ℎ𝑡𝑡还是返
回全部时间步的输出。 False 返回最后时刻(图 1.2.5), True 返回全部时刻(图
1.2.4)。 当下一层依然是 RNN 层,通常为 True,反之如果后面是 Dense 层, 通常为 Fasle。

return_sequences=True 循环核每时刻会把推送ℎ𝑡到下一层

pytorch循环神经网络预测温度 循环神经网络 预测_pytorch循环神经网络预测温度_04

return_sequences=False 循环核仅仅在最后一个时刻时刻会把推送ℎ𝑡到下一层

pytorch循环神经网络预测温度 循环神经网络 预测_深度学习_05


(3)输入维度:三维张量(输入样本数,循环核世界展开步数,每个时间步输入特征个数)

pytorch循环神经网络预测温度 循环神经网络 预测_神经网络_06


如图 1.2.6 所示,左图一共要送入 RNN 层两组数据, 每组数据经过一个时间步就会得到输出结果, 每个时间步送入三个数值,则输入循环层的数据维度就是[2, 1, 3];右图输入只有一组数据, 分四个时间步送入循环层, 每个时间步送入两个数值 ,则输入循环层的数据维度就是 [1, 4, 2]。

(4)输出维度: 当 return_sequenc=True, 三维张量(输入样本数, 循环核时间展开步数,本层的神经元个数);当 return_sequenc=False,二维张量(输入样本数,本层的神经元个数)

(5) activation: ‘激活函数’(不写默认使用 tanh)
例: SimpleRNN(3, return_sequences=True), 定义了一个具有三个记忆体的
循环核, 这个循环核会在每个时间步输出ℎ𝑡

2.6 循环计算过程之 1pre1

RNN 最典型的应用就是利用历史数据预测下一时刻将发生什么,即根据以前

见过的历史规律做预测。 举一个简单的字母预测例子体会一下循环网络的计算过

程: 输入一个字母预测下一个字母—输入 a 预测出 b、 输入 b 预测出 c、 输入 c

预测出 d、 输入 d 预测出 e、 输入 e 预测出 a。计算机不认识字母,只能处理数

字。所以需要我们对字母进行编码。这里假设使用独热编码(实际中可使用其他

编码方式), 编码结果如图 1.2.7 所示

pytorch循环神经网络预测温度 循环神经网络 预测_循环神经网络_07


假设使用一层 RNN 网络, 记忆体的个数选取 3,则字母预测的网络如图 1.2.8

所示。假设输入字母 b,即输入x𝑡为[0,1,0,0,0],这时上一时刻的记忆体状态信息ℎ𝑡-1 为0,ℎ𝑡-1 = tanh( xt * 𝑤𝑥ℎ + ℎ𝑡-1wℎℎ+ 𝑏ℎ) = tanh([−2.3 0.8 1.1 ] + 0 + [ 0.5 0.3 − 0.2]) =

tanh[−1.8 1.1 0.9 ] = [−0.9 0.8 0.7],这个过程可以理解为脑中的记忆因为当前输入的事物而更新了。输出是把提取到的时间信息通过全连接进行识别预测的过程, 是整个网络的输

出层。不难知道𝑦𝑡 = softmax(ℎ𝑡wℎ𝑦+ 𝑏𝑦)= softmax([−0.7 − 0.6 2.9 0.7 −0.8] + [ 0.0 0.1 0.4 − 0.7 0.1]) = softmax([−0.7 − 0.5 3.3 0.0 − 0.7]) = [0.02 0.02 𝟎𝟎. 𝟗𝟗𝟗𝟗 0.03 0.02 ] 。 可见模型认为有 91%的可能性输出字母 c ,

所以循环网络输出了预测结果 c。

pytorch循环神经网络预测温度 循环神经网络 预测_深度学习_08


(1)用独热编码的方式实现:

按照六步法八股套路进行编码:

import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Dense, SimpleRNN
import matplotlib.pyplot as plt
import os

input_word = "abcde"
w_to_id = {'a':0, 'b':1, 'c':2, 'd':3, 'e':4} # 单词映射到数值id的词典
id_to_onehot = {0: [1., 0., 0., 0., 0.], 1: [0., 1., 0., 0., 0.], 2: [0., 0., 1., 0., 0.], 3: [0., 0., 0., 1., 0.], 4: [0., 0., 0., 0., 1.]}  # id编码为one-hot

x_train = [id_to_onehot[w_to_id['a']], id_to_onehot[w_to_id['b']], id_to_onehot[w_to_id['c']],
           id_to_onehot[w_to_id['d']], id_to_onehot[w_to_id['e']]]
y_train = [w_to_id['b'], w_to_id['c'], w_to_id['d'], w_to_id['e'], w_to_id['a']]

np.random.seed(7)
np.random.shuffle(x_train)
np.random.seed(7)
np.random.shuffle(y_train)
tf.random.set_seed(7)

# 使x_train符合SimpleRNN输入要求:[送入样本数, 循环核时间展开步数, 每个时间步输入特征个数]。
# 此处整个数据集送入,送入样本数为len(x_train);
# 输入1个字母出结果,循环核时间展开步数为1; 表示为独热码有5个输入特征,每个时间步输入特征个数为5

x_train = np.reshape(x_train, (len(x_train), 1, 5))
y_train = np.array(y_train)

model = tf.keras.Sequential([
    SimpleRNN(3),
    Dense(5, activation='softmax')
])


model.compile(optimizer = tf.keras.optimizers.Adam(0.01),
            loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
            metrics = ['sparse_categorical_accuracy']
)
checkpoint_save_path = './checkpoint/rnn_onehot_1pre1.ckpt'
if os.path.exists(checkpoint_save_path + '.index'):
    print('-------------load the model-----------------')
    model.load_weights(checkpoint_save_path)

cp_callback = tf.keras.callbacks.ModelCheckpoint(filepath = checkpoint_save_path,
                                                save_weights_only=True,
                                                save_best_only=True,
                                                # 由于fit没有给出测试集,不计算测试集准确率,根据loss,保存最优模型
                                                monitor = 'loss'
)

history = model.fit(x_train, y_train, batch_size=32, epochs=5, callbacks=[cp_callback])
model.summary()

# print(model.trainable_variables)
file = open('./weights.txt', 'w')  # 参数提取
for v in model.trainable_variables:
    file.write(str(v.name) + '\n')
    file.write(str(v.shape) + '\n')
    file.write(str(v.numpy()) + '\n')
file.close()

###############################################    show   ###############################################

# 显示训练集和验证集的acc和loss曲线
acc = history.history['sparse_categorical_accuracy']
loss = history.history['loss']

plt.subplot(1, 2, 1)
plt.plot(acc, label='Training Accuracy')
plt.title('Training Accuracy')
plt.legend()

plt.subplot(1, 2, 2)
plt.plot(loss, label='Training Loss')
plt.title('Training Loss')
plt.legend()
plt.show()

############### predict #############
preNum = int(input("input the number of test alphabet:"))

for i in range(preNum):
    alphabet1 = input("input test alphabet: ")
    alphabet = [id_to_onehot[w_to_id[alphabet1]]]
    # 使alphabet符合SimpleRNN输入要求:[送入样本数, 循环核时间展开步数, 每个时间步输入特征个数]。此处验证效果送入了1个样本,送入样本数为1;
    # 输入1个字母出结果,所以循环核时间展开步数为1; 表示为独热码有5个输入特征,每个时间步输入特征个数为5
    alphabet = np.reshape(alphabet, (1, 1, 5))
    result = model.predict([alphabet])
    pred = tf.argmax(result, axis=1)
    pred = int(pred)
    tf.print(alphabet1 + '->' + input_word[pred])

如代码所示,import相关模块生成训练用的输入特征x_train和标签y_train(输入特征a对应的标签是b、输入特征b对应的标签是c、依次类推),打乱顺序后变形成RNN输入需要的维度。

pytorch循环神经网络预测温度 循环神经网络 预测_神经网络_09


如图1.2.10所示,构建模型:一个具有3个记忆体的循环层+一层全连接->Compile->fit->summary。

pytorch循环神经网络预测温度 循环神经网络 预测_循环神经网络_10


为展示预测效果的应用程序,将其写到了这段代码的最后:首先输入要执行几次预测任务;随后等待输入一个字母,将这个字母转换为独热码形式后调整为RNN层希望的形状;然后通过predict得到预测结果,选出预测结果中最大的一个即为预测结果

pytorch循环神经网络预测温度 循环神经网络 预测_pytorch循环神经网络预测温度_11

2.7 循环过程之4pre1

用RNN实现输入连续四个字母,预测下一个字母(One hot 编码)

pytorch循环神经网络预测温度 循环神经网络 预测_神经网络_12


1pre1是输入一个字母预测下一个字母的例子,4pre1是连续输入多(这里取4)个字母预测下一个字母的例子。这里仍然使用三个记忆体,初始时刻记忆体内的记忆是0。接下来用一套训练好的参数矩阵感受循环计算的前向传播过程,在这个过程中的每个时刻参数矩阵是固定的,记忆体会在每个时刻被更新。下面以输入bcde预测a为例:

在第一个时刻,b的独热码[0,1,0,0,0]输入,记忆体根据更新公式ℎ𝑡 = tanh( 𝑥𝑡 𝑤𝑥ℎ + ℎ𝑡-1wℎℎ+ 𝑏ℎ) = tanh([−1.5 0.2 0.3] + [0.0 0.0 0.0] + [0.2 0.0 −0.1])= tanh([−1.3 0.2 0.2 ]) = [−0.9 0.2 0.2]刷新。

在第二个时刻,c的独热码[0,0,1,0,0]输入,记忆体根据更新公式ℎ𝑡 = tanh( 𝑥𝑡 𝑤𝑥ℎ + ℎ𝑡-1wℎℎ+ 𝑏ℎ) = tanh([−0.3 1.7 0.7] + [1.1 1.1 0.5] + [0.2 0.0 −0.1])= tanh([ 1.0 2.8 1.1]) = [0.8 1.0 0.8]刷新。

在第三个时刻,d的独热码[0,0,0,1,0]输入,记忆体根据更新公式ℎ𝑡 = tanh( 𝑥𝑡 𝑤𝑥ℎ + ℎ𝑡-1wℎℎ+ 𝑏ℎ) = tanh([-0.1 0.1 -0.1] + [0.6 0.4 -2.2] + [0.2 0.0 -0.1])= tanh([ 0.7 0.5 -2.4 ] = [0.6 0.5 -1.0]刷新。

在第四个时刻,e的独热码[0,0,0,0,1]输入,记忆体根据更新公式ℎ𝑡 = tanh( 𝑥𝑡 𝑤𝑥ℎ + ℎ𝑡-1wℎℎ+ 𝑏ℎ) = tanh([-1.2 -1.5 0.3] + [-1.3 -0.4 0.8] + [0.2 0.0 -0.1])= tanh([-2.3 -1.9 1.0] = [-1.0 -1.0 0.8]刷新。

输出预测通过全连接完成,由下式求得最终输出:

𝑦𝑡 = softmax(ℎ𝑡wℎ𝑦+ 𝑏𝑦)
 = softmax([3.3 1.2 0.9 0.3 −3.1]+ [−0.3 0.2 0.1 0.1 −0.3])
 = softmax ([3.0 1.4 1.0 0.4 −3.4])
 = [𝟎𝟎.𝟕𝟕𝟕 0.14 0.10 0.05 0.00 ]

说明有71%的可能是字母a。观察输出结果,模型不仅成功预测出了下一个字母是a,还可以从神经网络输出的概率发现:因为输入序列的最后一个字母是e,所以模型理应也确实认为下一个字母还是e的可能性最小,可能性最大的是a,其次分别是b、c、d

import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Dense, SimpleRNN
import matplotlib.pyplot as plt
import os
# 由于fit没有给出测试集,不计算测试集准确率,根据loss,保存最优模型
input_word = "abcde"
w_to_id = {'a':0, 'b':1, 'c':2, 'd':3, 'e':4} # 单词映射到数值id的词典
id_to_onehot = {0: [1., 0., 0., 0., 0.], 1: [0., 1., 0., 0., 0.], 2: [0., 0., 1., 0., 0.], 3: [0., 0., 0., 1., 0.], 4: [0., 0., 0., 0., 1.]}  # id编码为one-hot

x_train = [
    [id_to_onehot[w_to_id['a']], id_to_onehot[w_to_id['b']], id_to_onehot[w_to_id['c']], id_to_onehot[w_to_id['d']]],
    [id_to_onehot[w_to_id['b']], id_to_onehot[w_to_id['c']], id_to_onehot[w_to_id['d']], id_to_onehot[w_to_id['e']]],
    [id_to_onehot[w_to_id['c']], id_to_onehot[w_to_id['d']], id_to_onehot[w_to_id['e']], id_to_onehot[w_to_id['a']]],
    [id_to_onehot[w_to_id['d']], id_to_onehot[w_to_id['e']], id_to_onehot[w_to_id['a']], id_to_onehot[w_to_id['b']]],
    [id_to_onehot[w_to_id['e']], id_to_onehot[w_to_id['a']], id_to_onehot[w_to_id['b']], id_to_onehot[w_to_id['c']]],
]
y_train = [w_to_id['b'], w_to_id['c'], w_to_id['d'], w_to_id['e'], w_to_id['a']]

np.random.seed(7)
np.random.shuffle(x_train)
np.random.seed(7)
np.random.shuffle(y_train)
tf.random.set_seed(7)

# 使x_train符合SimpleRNN输入要求:[送入样本数, 循环核时间展开步数, 每个时间步输入特征个数]。
# 此处整个数据集送入,送入样本数为len(x_train);
# 输入1个字母出结果,循环核时间展开步数为1; 表示为独热码有5个输入特征,每个时间步输入特征个数为5

x_train = np.reshape(x_train, (len(x_train), 4, 5))
y_train = np.array(y_train)

model = tf.keras.Sequential([
    SimpleRNN(3),
    Dense(5, activation='softmax')
])

np.random.seed(7)
np.random.shuffle(x_train)
np.random.seed(7)
np.random.shuffle(y_train)
tf.random.set_seed(7)

# 使x_train符合SimpleRNN输入要求:[送入样本数, 循环核时间展开步数, 每个时间步输入特征个数]。
# 此处整个数据集送入,送入样本数为len(x_train);
# 输入1个字母出结果,循环核时间展开步数为1; 表示为独热码有5个输入特征,每个时间步输入特征个数为5

x_train = np.reshape(x_train, (len(x_train), 4, 5))
y_train = np.array(y_train)

model = tf.keras.Sequential([
    SimpleRNN(3),
    Dense(5, activation='softmax')
])
model.compile(optimizer = tf.keras.optimizers.Adam(0.01),
            loss = tf.keras.losses.SparseCategoricalCrossentropy(from_logits=False),
            metrics = ['sparse_categorical_accuracy']
)
checkpoint_save_path = './checkpoint/rnn_onehot_1pre1.ckpt'
if os.path.exists(checkpoint_save_path + '.index'):
    print('-------------load the model-----------------')
    model.load_weights(checkpoint_save_path)


cp_callback = tf.keras.callbacks.ModelCheckpoint(filepath = checkpoint_save_path,
                                                save_weights_only=True,
                                                save_best_only=True,
                                                # 由于fit没有给出测试集,不计算测试集准确率,根据loss,保存最优模型
                                                monitor = 'loss'
)# 由于fit没有给出测试集,不计算测试集准确率,根据loss,保存最优模


history = model.fit(x_train, y_train, batch_size=32, epochs=5, callbacks=[cp_callback])
model.summary()

# print(model.trainable_variables)
file = open('./weights.txt', 'w')  # 参数提取
for v in model.trainable_variables:
    file.write(str(v.name) + '\n')
    file.write(str(v.shape) + '\n')
    file.write(str(v.numpy()) + '\n')
file.close()

###############################################    show   ###############################################

# 显示训练集和验证集的acc和loss曲线
acc = history.history['sparse_categorical_accuracy']
loss = history.history['loss']

plt.subplot(1, 2, 1)
plt.plot(acc, label='Training Accuracy')
plt.title('Training Accuracy')
plt.legend()

plt.subplot(1, 2, 2)
plt.plot(loss, label='Training Loss')
plt.title('Training Loss')
plt.legend()
plt.show()

preNum = int(input("input the number of test alphabet: "))

for i in range(preNum):
    alphabet1 = input("input test alphabet: ")
    alphabet = [id_to_onehot[w_to_id[a]] for a in alphabet1]
    # 使alphabet符合SimpleRNN输入要求:[送入样本数, 循环核时间展开步数, 每个时间步输入特征个数]。此处验证效果送入了1个样本,送入样本数为1;
    # 输入1个字母出结果,所以循环核时间展开步数为1; 表示为独热码有5个输入特征,每个时间步输入特征个数为5
    alphabet = np.reshape(alphabet, (1, 4, 5))
    result = model.predict([alphabet])
    pred = tf.argmax(result, axis=1)
    pred = int(pred)
    tf.print(alphabet1 + '->' + input_word[pred])

pytorch循环神经网络预测温度 循环神经网络 预测_cnn_13

其中keypoint:

pytorch循环神经网络预测温度 循环神经网络 预测_pytorch循环神经网络预测温度_14

如图所示,浅蓝色框框住的区域为与p15_rnn_onehot_1pre1.py不同的地方,即x_train、y_train变成了四个字母预测一个字母的形式(输入连续的 abcd对应的标签是e、输入连续的bcde对应的标签是a、依此类推)。

pytorch循环神经网络预测温度 循环神经网络 预测_深度学习_15


如图1.2.19所示,与p15_rnn_onehot_1pre1.py不同,这里的循环核展开步数为4

pytorch循环神经网络预测温度 循环神经网络 预测_神经网络_16

2.8 Embedding 编码实现预测

  • 为什么使用Embedding?

独热码:数据量大、过于稀疏、映射之间是独立的,没有表现出关联性
Embedding:是一种单词编码方法,用低维度向量实现了编码,这种编码通过神经网络训练优化,能表达出单词间的关联性

  • Tensorflow2中的词向量空间编码层:

tf.keras.layers.Embedding(词汇表大小, 编码维度)

词汇表大小:编码一共要表示多少个单词;

编码维度:用几个数字表达一个单词;

输入维度:二维张量[送入样本数,循环核时间展开步数]

输出维度:三维张量[送入样本数,循环核时间展开步数,编码维度]

例 :tf.keras.layers.Embedding(100, 3)。对数字1-100进行编码,词汇表大小就是100 ;每个自然数用三个数字表示,编码维度就是3;
 所以Embedding层的参数是100和3。比如数字[4] embedding为 [0.25, 0.1, 0.11]。
  • Embedding实现1pre1:
    如图1.2.14所示,浅蓝色框框住的区域为与独热编码不同的地方。不同是因为需要把输入特征变成Embedding层期待的形状:第一个维度是送入样本数、第二个维度是循环核时间展开步数。

pytorch循环神经网络预测温度 循环神经网络 预测_循环神经网络_17

如图1.2.15所示,在模型部分相比于独热编码形式多了一个Embedding层对输入数据进行编码,这一层会生成一个五行两列的可训练参数矩阵,实现编码可训练。

pytorch循环神经网络预测温度 循环神经网络 预测_深度学习_18


参数提取和acc/loss可视化和p15_rnn_onehot_1pre1.py代码完全一样。在结果预测时,如图1.2.16所示,只需要将读到的输入字母直接查找表示它的ID值,然后调整为Embedding层希望的形状输入网络进行预测即可。

pytorch循环神经网络预测温度 循环神经网络 预测_cnn_19

  • 用Embedding编码的方式实现4pre1:

这次将词汇量扩充到26个(即字母从a到z)。如图1.2.22所示,首先建立一个映射表,把字母用数字表示为0到25;然后建立两个空列表,一个用于存放训练用的输入特征x_train,另一个用于存放训练用的标签y_train;接下来用for循环从数字列表中把连续4个数作为输入特征添加到x_train中,第5个数作为标签添加到y_train中,这就构建了训练用的输入特征x_train和标签y_train。

pytorch循环神经网络预测温度 循环神经网络 预测_pytorch循环神经网络预测温度_20

如图1.2.23,把输入特征变成Embedding层期待的形状才能输入网络;在sequntial搭建网络时,相比于one_hot形式增加了一层Embedding层,先对输入数据进行编码,这里的26表示词汇量是26,这里的2表示每个单词用2个数值编码,这一层会生成一个26行2列的可训练参数矩阵,实现编码可训练。随后设定具有十个记忆体的循环层和一个全连接层(输出会是 26个字母之一,所以这里是26);后边进行compile、fit、summary、参数提取和acc/loss可视化 和p21_rnn_onehot_4pre1.py代码完全一样。

pytorch循环神经网络预测温度 循环神经网络 预测_cnn_21


在验证环节,如图1.2.24所示,同样使用了for循环先输入要执行几次检测,随后等待连续输入四个字母,待输入结束后把它们转换为Embedding层希望的形状,然后输入网络进行预测,选出预测结果最大的一个。运行结果如图1.2.25所示。

pytorch循环神经网络预测温度 循环神经网络 预测_pytorch循环神经网络预测温度_22

pytorch循环神经网络预测温度 循环神经网络 预测_pytorch循环神经网络预测温度_23

2.9 RNN实现股票预测

(1)数据源
SH600519.csv是用tushare模块下载的SH600519贵州茅台的日k线数据,本次例子中只用它的C列数据(如图1.2.26所示):用连续60天的开盘价,预测第61天的开盘价。这个excel表格是使用源码p37_tushare.py(如图1.2.27)直接下载的真实数据,可以在这里写出我们需要的六位股票代码,下载需要的股票历史数据。

pytorch循环神经网络预测温度 循环神经网络 预测_深度学习_24


pytorch循环神经网络预测温度 循环神经网络 预测_pytorch循环神经网络预测温度_25


(2)代码实现

pytorch循环神经网络预测温度 循环神经网络 预测_深度学习_26


按照六步法: import相关模块读取贵州茅台日k线数据到变量maotai,把变量maotai中前2126天数据中的开盘价作为训练数据,把变量maotai中后300天数据中的开盘价作为测试数据;然后对开盘价进行归一化,使送入神经网络的数据分布在0到1之间;接下来建立空列表分别用于接收训练集输入特征、训练集标签、测试集输入特征、测试集标签;

pytorch循环神经网络预测温度 循环神经网络 预测_cnn_27


继续构造数据。用for循环遍历整个训练数据,每连续60天数据作为输入特征x_train,第61天数据作为对应的标签y_train ,一共生成2066组训练数据,然后打乱训练数据的顺序并转变为array格式继而转变为RNN输入要求的维度;同理,利用for循环遍历整个测试数据,一共生成240组测试数据,测试集不需要打乱顺序,但需转变为array格式继而转变为RNN输入要求的维度。

pytorch循环神经网络预测温度 循环神经网络 预测_pytorch循环神经网络预测温度_28


如图1.2.30所示,用sequntial搭建神经网络:第一层循环计算层记忆体设定80个,每个时间步推送h𝑡𝑡给下一层,使用0.2的Dropout;第二层循环计算层设定记忆体有100个,仅最后的时间步推送h𝑡𝑡给下一层,使用0.2的Dropout;

由于输出值是第61天的开盘价只有一个数,所以全连接Dense是1->compile配置训练方法使用adam优化器,使用均方误差损失函数。在股票预测代码中,只需观测loss,训练迭代打印的时候也只打印loss,所以这里就无需给metrics赋值->设置断点续训,fit执行训练过程->summary打印出网络结构和参数统计。

pytorch循环神经网络预测温度 循环神经网络 预测_循环神经网络_29


进行股票预测。用predict预测测试集数据,然后将预测值和真实值从归一化的数值变换到真实数值,最后用红色线画出真实值曲线 、用蓝色线画出预测值曲线

pytorch循环神经网络预测温度 循环神经网络 预测_神经网络_30

为了评价模型优劣,给出了三个评判指标:均方误差、均方根误差和平均绝对误差,这些误差越小说明预测的数值与真实值越接近。图1.2.34为loss值曲线、图1.2.35为股票预测曲线、图1.2.36为三个评价指标值。

pytorch循环神经网络预测温度 循环神经网络 预测_神经网络_31


pytorch循环神经网络预测温度 循环神经网络 预测_pytorch循环神经网络预测温度_32


pytorch循环神经网络预测温度 循环神经网络 预测_循环神经网络_33

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import numpy as np
import tensorflow as tf
from tensorflow.keras.layers import Dropout, Dense, SimpleRNN
import matplotlib.pyplot as plt
import os
import pandas as pd
from sklearn.preprocessing import MinMaxScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error
import math


maotai = pd.read_csv('./SH600519.csv')

# 前(2426-300=2126)天的开盘价作为训练集,表格从0开始计数,2:3 是提取[2:3)列,前闭后开,故提取出C列开盘价
training_set = maotai.iloc[0:2426-300, 2:3].values

# 后300天的开盘价作为测试集
test_set = maotai.iloc[2426 - 300:, 2:3].values

# 归一化
sc = MinMaxScaler(feature_range=(0, 1)) # 定义归一化:归一化到(0,1)之间
# 求得训练集的最大值,最小值这些训练集固有的属性,并在训练集上进行归一化
training_set_scaled = sc.fit_transform(training_set)
# 利用训练集的属性对测试集进行归一化
test_set = sc.transform(test_set)

x_train, y_train = [], []
x_test, y_test = [], []

# 测试集:csv表格中前2426-300=2126天数据
# 利用for循环,遍历整个训练集,提取训练集中连续60天的开盘价作为输入特征x_train,第61天的数据作为标签,for循环共构建2426-300-60=2066组数据。
for i in range(60, len(training_set_scaled)):
    x_train.append(training_set_scaled[i-60:i, 0])
    y_train.append(training_set_scaled[i, 0])

# 对训练集进行打乱
np.random.seed(7)
np.random.shuffle(x_train)
np.random.seed(7)
np.random.shuffle(y_train)
tf.random.set_seed(7)
# 将训练集由list格式变为array格式
x_train, y_train = np.array(x_train), np.array(y_train)


# 使x_train符合RNN输入要求:[送入样本数, 循环核时间展开步数, 每个时间步输入特征个数]。
# 此处整个数据集送入,送入样本数为x_train.shape[0]即2066组数据;输入60个开盘价,预测出第61天的开盘价,循环核时间展开步数为60; 
# 每个时间步送入的特征是某一天的开盘价,只有1个数据,故每个时间步输入特征个数为1
x_train = np.reshape(x_train, (x_train.shape[0], 60, 1))

# 测试集:csv表格中后300天数据
# 利用for循环,遍历整个测试集,提取测试集中连续60天的开盘价作为输入特征x_train,第61天的数据作为标签,for循环共构建300-60=240组数据。
for i in range(60, len(test_set)):
    x_test.append(test_set[i - 60:i, 0])
    y_test.append(test_set[i, 0])
# 测试集变array并reshape为符合RNN输入要求:[送入样本数, 循环核时间展开步数, 每个时间步输入特征个数]
x_test, y_test = np.array(x_test), np.array(y_test)
x_test = np.reshape(x_test, (x_test.shape[0], 60, 1))


model = tf.keras.Sequential([
    SimpleRNN(80, return_sequences=True),
    Dropout(0.2),
    SimpleRNN(100),
    Dropout(0.2),
    Dense(1)
])

model.compile(optimizer=tf.keras.optimizers.Adam(0.001),
              loss='mean_squared_error')  # 损失函数用均方误差
# 该应用只观测loss数值,不观测准确率,所以删去metrics选项,一会在每个epoch迭代显示时只显示loss值

checkpoint_save_path = "./checkpoint/rnn_stock.ckpt"

if os.path.exists(checkpoint_save_path + '.index'):
    print('-------------load the model-----------------')
    model.load_weights(checkpoint_save_path)

cp_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_save_path,
                                                 save_weights_only=True,
                                                 save_best_only=True,
                                                 monitor='val_loss')

history = model.fit(x_train, y_train, batch_size=64, epochs=50, validation_data=(x_test, y_test), validation_freq=1,
                    callbacks=[cp_callback])

model.summary()

file = open('./weights.txt', 'w')  # 参数提取
for v in model.trainable_variables:
    file.write(str(v.name) + '\n')
    file.write(str(v.shape) + '\n')
    file.write(str(v.numpy()) + '\n')
file.close()

loss = history.history['loss']
val_loss = history.history['val_loss']

plt.plot(loss, label='Training Loss')
plt.plot(val_loss, label='Validation Loss')
plt.title('Training and Validation Loss')
plt.legend()
plt.show()


################## predict ######################
# 测试集输入模型进行预测
predicted_stock_price = model.predict(x_test)
# 对预测数据还原---从(0,1)反归一化到原始范围
predicted_stock_price = sc.inverse_transform(predicted_stock_price)

# 对真实数据进行还原---从(0,1)反归一化到原始范围
real_stock_price = sc.inverse_transform(test_set[60:])

# 画出真实数据和预测数据的对比曲线
plt.plot(real_stock_price, color='red', label='MaoTai Stock Price')
plt.plot(predicted_stock_price, color='blue', label='Predicted MaoTai Stock Price')
plt.title('MaoTai Stock Price Prediction')
plt.xlabel('Time')
plt.ylabel('MaoTai Stock Price')
plt.legend()
plt.show()

##########evaluate##############
# calculate MSE 均方误差 ---> E[(预测值-真实值)^2] (预测值减真实值求平方后求均值)
mse = mean_squared_error(predicted_stock_price, real_stock_price)
# calculate RMSE 均方根误差--->sqrt[MSE]    (对均方误差开方)
rmse = math.sqrt(mean_squared_error(predicted_stock_price, real_stock_price))
# calculate MAE 平均绝对误差----->E[|预测值-真实值|](预测值减真实值求绝对值后求均值)
mae = mean_absolute_error(predicted_stock_price, real_stock_price)
print('均方误差: %.6f' %mse)
print('均方根误差: %.6f' %rmse)
print('平均绝对误差: %.6f' %mae)