DQN走迷宫

  • 1.实现最短路径走到终点
  • 2.思路
  • 2.1.强化学习(RL Reinforcement Learing)
  • 2.2.深度学习(卷积神经网络CNN)
  • 3.踩过的坑
  • 4.代码实现(python3.6 tensorflow)
  • 5.运行结果与分析


1.实现最短路径走到终点

神经网络zoo 神经网络走迷宫_神经网络


游戏场景:黑点以每步两格的速度前进,可以任意方向行走,当撞墙后死亡 并重新开始
目的:黑点通过训练,能够自动识别障碍物,并以最短路径走向终点。

2.思路

黑点行走难点是如何准确判断下一步的动作(上下左右)?而这正是强化学习想要解决的问题。应用场景中,它的状态是图片中的像素,如果图片大小是 84 * 84,batch = 4,每个像素大小在[0,255]范围内,有 256 种可能(256 个状态),那么最终 Q-Table 大小是

神经网络zoo 神经网络走迷宫_神经网络zoo_02

数据计算量是非常庞大的。这里我们采用强化学习 + 深度学习(卷积神经网络),也就是 DQN(Deep Q Network)。

卷积神经网络决策目的是预测当前状态所有行为的回报(Q-value)->目标预测值()以及参数的更新;

强化学习的目的是根据马尔科夫决策过程以及贝尔曼价值函数计算出当前状态所有行为的回报 ->目标真实值()

整张图片作为一个状态(因为黑点不关心是像素还是图片,它只关心它下一步动作的方向),4张图片就是 4 个状态,且这 4 张图片在时间上是连续的。将所有状态(States:80804)以及行为(Actions:14)作为卷积神经网络的输入值,卷积神经网络输出为当前状态的所有行为的价值(14),结构如下图

神经网络zoo 神经网络走迷宫_DQN_03

2.1.强化学习(RL Reinforcement Learing)

贝尔曼最优方程如下(当前状态所有行为价值 = 当前即时奖励 + 下一状态所有行为的价值)

神经网络zoo 神经网络走迷宫_DQN_04


代码实现

readout_j1_batch = sess.run(readout, feed_dict = {s : s_j1_batch})
            for i in range(0, len(minibatch)):
                terminal = minibatch[i][4]
                # if terminal, only equals reward
                if terminal:  # 碰到障碍物,终止
                    y_batch.append(r_batch[i])
                else: # 即时奖励 + 下一阶段回报
                    y_batch.append(r_batch[i] + GAMMA * np.max(readout_j1_batch[i]))

minibatch保存了一个batch(32)下当前状态(s_j_batch)、当前行动(a_batch)、当前状态的即时奖励(r_batch)、当前状态下一时刻的状态(s_j1_batch)。

将当前状态下一时刻的状态(s_j1_batch)作为网络模型输入参数,就能得到下一状态(相对当前状态)所有行为的价值(readout_j1_batch),然后通过贝尔曼最优方程计算得到当前状态的Q-value。

大家可能会有这样的疑问:为什么当前状态价值要通过下一个状态价值得到,常规来说都是上一状态价值来得到?

贝尔曼最优方程充分体现了尝试这一核心思想,计算下一个状态价值是为了更新当前状态价值,从而找到最优状态行为。

2.2.深度学习(卷积神经网络CNN)

获取连续帧(4)图片:复制当前帧图片 -> 堆积成4帧图片 -> 将获取到得下一帧图片替换当前第4帧,如此循环就能保证当前的batch图片是连续的。

s_t = np.stack((x_t, x_t, x_t, x_t), axis=2)
s_t1 = np.append(x_t1, s_t[:, :, :3], axis=2)

卷积神经网络模型

这里采用了3个卷积层(88432, 443264,3364*64),3个池化层,4个Relu激活函数,2个全连接层,具体如下图

神经网络zoo 神经网络走迷宫_DQN_05


注意:要注意每个卷积层的Stride,因为padding = “SAME”,与输入图片卷积后数据宽,高 = 输入图片宽,高/Stride。比如,输入图片数据与第一个卷积层(884*32)卷积后,图片数据宽,高 = (80,80)/4 = (20,20),其他层卷积依次类推。

神经网络zoo 神经网络走迷宫_DQN_06

3.踩过的坑

1.一定要弄明白深度强化学习的输入和输出。

强化学习的核心思想是尝试,深度学习的核心思想是训练。通过不断的将预测值和真实值的残差计算,不断的更新训练模型的参数,使残差值越来越小,最终收敛于一个稳定值,从而得到最佳的训练参数模型。

这里的预测值是通过深度学习得到,而真实值是通过强化学习得到,所以才有了深度强化学习的概念(DQN-Deep Q Network)。

卷积神经网络前向传播输入:4帧连续图片作为不同的状态States;

卷积神经网络前向传播输出:readout(2个不同的方向对应的价值);

卷积神经网络反向传播(通过损失函数获取损失,计算梯度,更新参数)输入:

i.y_batch(32, 2):通过强化学习得到的真实目标值[32 表示神经网络训练时每次批量处理数目,2表示Action不同方向对应的价值 ];

ii.a_batch(32, 2):每个行动的不同方向,在训练时更新步骤:初始化都为0 ->深度学习(卷积神经网络)输出readout_t(1, 2)-> 找到输出价值最大的索引 ->将a_batch中action相同索引置为1(表示最优价值的方向),达到更新得目的。

iii.s_j_batch(32, 80, 80, 4):下一个连续4帧,每一组是4帧,批量处理32组。

2.不要陷入常规的思维模式。

一般常规的思维模式是 A + B => C,这个 C 一般在计算或设计之前,在我们脑海中会计算出来,能够具体化。但是深度学习是打破这一常规思维模式的,它能够通过训练自发的学习,获取内在知识或规则。

以本节为例,在我们脑海中,总是想着下面几个问题

  1. 为什么深度学习的结果就是行为的各个方向的价值,而不是其他?

解答:这是根据真实目标值决定的,卷积神经网络的要求是最后的输出值一定要跟真实目标值大小相同。损失函数计算损失,然后更新各个网络层的参数,不停的循环,使输出无限的逼近真实值,稳定后获取模型。

  1. 在上一节强化学习时都是人为指定了方向的映射(0=up, 1=right, 2=down, 3=left),为什么深度强化学习不需要指定,它自己就能识别?

解答:当前一组帧和下一组帧之间在时间上是连续的,小鸟的每个动作在时间上也是连续的,通过深度学习后获取的模型其实已经学会了游戏的内在规则,知道在当前状态的下一步动作的方向,所以不需要我们人为指定,这正是深度学习的神奇之处。

4.代码实现(python3.6 tensorflow)

#!/usr/bin/env python
from __future__ import print_function

import tensorflow as tf
import cv2
import sys
sys.path.append("game/")
try:
    from . import wrapped_flappy_bird as game
except Exception:
    import wrapped_flappy_bird as game
import random
import numpy as np
from collections import deque
'''
先观察一段时间(OBSERVE = 1000 不能过大),
获取state(连续的4帧) => 进入训练阶段(无上限)=> action

'''
GAME = 'bird' # the name of the game being played for log files
ACTIONS = 2 # number of valid actions 往上  往下
GAMMA = 0.99 # decay rate of past observations
OBSERVE = 1000. # timesteps to observe before training
EXPLORE = 3000000. # frames over which to anneal epsilon
FINAL_EPSILON = 0.0001 # final value of epsilon 探索
INITIAL_EPSILON = 0.1 # starting value of epsilon
REPLAY_MEMORY = 50000 # number of previous transitions to remember
BATCH = 32 # size of minibatch
FRAME_PER_ACTION = 1

# GAME = 'bird' # the name of the game being played for log files
# ACTIONS = 2 # number of valid actions
# GAMMA = 0.99 # decay rate of past observations
# OBSERVE = 100000. # timesteps to observe before training
# EXPLORE = 2000000. # frames over which to anneal epsilon
# FINAL_EPSILON = 0.0001 # final value of epsilon
# INITIAL_EPSILON = 0.0001 # starting value of epsilon
# REPLAY_MEMORY = 50000 # number of previous transitions to remember
# BATCH = 32 # size of minibatch
# FRAME_PER_ACTION = 1

def weight_variable(shape):
    initial = tf.truncated_normal(shape, stddev = 0.01)
    return tf.Variable(initial)

def bias_variable(shape):
    initial = tf.constant(0.01, shape = shape)
    return tf.Variable(initial)
# padding = ‘SAME’=> new_height = new_width = W / S (结果向上取整)
# padding = ‘VALID’=> new_height = new_width = (W – F + 1) / S (结果向上取整)
def conv2d(x, W, stride):
    return tf.nn.conv2d(x, W, strides = [1, stride, stride, 1], padding = "SAME")

def max_pool_2x2(x):
    return tf.nn.max_pool(x, ksize = [1, 2, 2, 1], strides = [1, 2, 2, 1], padding = "SAME")
"""
 数据流:80 * 80 * 4
 conv1(8 * 8 * 4 * 32, Stride = 4) + pool(Stride = 2)-> 10 * 10 * 32(height = width = 80/4 = 20/2 = 10)
 conv2(4 * 4 * 32 * 64, Stride = 2) -> 5 * 5 * 64 + pool(Stride = 2)-> 3 * 3 * 64
 conv3(3 * 3 * 64 * 64, Stride = 1) -> 3 * 3 * 64 = 576
 576 在定义h_conv3_flat变量大小时需要用到,以便进行FC全连接操作
"""

def createNetwork():
    # network weights
    W_conv1 = weight_variable([8, 8, 4, 32])
    b_conv1 = bias_variable([32])

    W_conv2 = weight_variable([4, 4, 32, 64])
    b_conv2 = bias_variable([64])

    W_conv3 = weight_variable([3, 3, 64, 64])
    b_conv3 = bias_variable([64])

    W_fc1 = weight_variable([576, 512])
    b_fc1 = bias_variable([512])
    # W_fc1 = weight_variable([1600, 512])
    # b_fc1 = bias_variable([512])

    W_fc2 = weight_variable([512, ACTIONS])
    b_fc2 = bias_variable([ACTIONS])

    # input layer
    s = tf.placeholder("float", [None, 80, 80, 4])

    # hidden layers
    h_conv1 = tf.nn.relu(conv2d(s, W_conv1, 4) + b_conv1)
    h_pool1 = max_pool_2x2(h_conv1)

    h_conv2 = tf.nn.relu(conv2d(h_pool1, W_conv2, 2) + b_conv2)
    h_pool2 = max_pool_2x2(h_conv2)

    h_conv3 = tf.nn.relu(conv2d(h_conv2, W_conv3, 1) + b_conv3)
    h_pool3 = max_pool_2x2(h_conv3)

    h_pool3_flat = tf.reshape(h_pool3, [-1, 576])
    #h_conv3_flat = tf.reshape(h_conv3, [-1, 1600])

    h_fc1 = tf.nn.relu(tf.matmul(h_pool3_flat, W_fc1) + b_fc1)
    #h_fc1 = tf.nn.relu(tf.matmul(h_conv3_flat, W_fc1) + b_fc1)

    # readout layer
    readout = tf.matmul(h_fc1, W_fc2) + b_fc2

    return s, readout, h_fc1

def trainNetwork(s, readout, h_fc1, sess):
    # define the cost function
    a = tf.placeholder("float", [None, ACTIONS])
    y = tf.placeholder("float", [None])
    # reduction_indices = axis  0 : 列  1: 行
    # 因 y 是数值,而readout: 网络模型预测某个行为的回报 大小[1, 2] 需要将readout 转为数值,
    # 所以有tf.reduce_mean(tf.multiply(readout, a), axis=1) 数组乘法运算,再求均值。
    # 其实,这里readout_action = tf.reduce_mean(readout, axis=1) 直接求均值也是可以的。
    readout_action = tf.reduce_mean(tf.multiply(readout, a), axis=1)
    cost = tf.reduce_mean(tf.square(y - readout_action))
    train_step = tf.train.AdamOptimizer(1e-6).minimize(cost)

    # open up a game state to communicate with emulator
    game_state = game.GameState()
    # 创建队列保存参数
    # store the previous observations in replay memory
    D = deque()

    # printing
    a_file = open("logs_" + GAME + "/readout.txt", 'w')
    h_file = open("logs_" + GAME + "/hidden.txt", 'w')

    # get the first state by doing nothing and preprocess the image to 80x80x4
    do_nothing = np.zeros(ACTIONS)
    do_nothing[0] = 1
    x_t, r_0, terminal = game_state.frame_step(do_nothing)
    #cv2.imwrite('x_t.jpg',x_t)
    x_t = cv2.cvtColor(cv2.resize(x_t, (80, 80)), cv2.COLOR_BGR2GRAY)
    ret, x_t = cv2.threshold(x_t,1,255,cv2.THRESH_BINARY)
    s_t = np.stack((x_t, x_t, x_t, x_t), axis=2)

    # saving and loading networks
    tf.summary.FileWriter("tensorboard/", sess.graph)
    saver = tf.train.Saver()
    sess.run(tf.initialize_all_variables())
    checkpoint = tf.train.get_checkpoint_state("saved_networks")
    """
    if checkpoint and checkpoint.model_checkpoint_path:
        saver.restore(sess, checkpoint.model_checkpoint_path)
        print("Successfully loaded:", checkpoint.model_checkpoint_path)
    else:
        print("Could not find old network weights")
    """
    # start training
    epsilon = INITIAL_EPSILON
    t = 0
    while "flappy bird" != "angry bird":
        # choose an action epsilon greedily
        # 预测结果(当前状态不同行为action的回报,其实也就 往上,往下 两种行为)
        readout_t = readout.eval(feed_dict={s : [s_t]})[0]
        a_t = np.zeros([ACTIONS])
        action_index = 0
        if t % FRAME_PER_ACTION == 0:
            # 加入一些探索,比如探索一些相同回报下其他行为,可以提高模型的泛化能力。
            # 且epsilon是随着模型稳定趋势衰减的,也就是模型越稳定,探索次数越少。
            if random.random() <= epsilon:
                # 在ACTIONS范围内随机选取一个作为当前状态的即时行为
                print("----------Random Action----------")
                action_index = random.randrange(ACTIONS)
                a_t[action_index] = 1
            else:
                # 输出 奖励最大就是下一步的方向
                action_index = np.argmax(readout_t)
                a_t[action_index] = 1
        else:
            a_t[0] = 1 # do nothing

        # scale down epsilon 模型稳定,减少探索次数。
        if epsilon > FINAL_EPSILON and t > OBSERVE:
            epsilon -= (INITIAL_EPSILON - FINAL_EPSILON) / EXPLORE

        # run the selected action and observe next state and reward
        x_t1_colored, r_t, terminal = game_state.frame_step(a_t)
        # 先将尺寸设置成 80 * 80,然后转换为灰度图
        x_t1 = cv2.cvtColor(cv2.resize(x_t1_colored, (80, 80)), cv2.COLOR_BGR2GRAY)
        # x_t1 新得到图像,二值化 阈值:1
        ret, x_t1 = cv2.threshold(x_t1, 1, 255, cv2.THRESH_BINARY)
        x_t1 = np.reshape(x_t1, (80, 80, 1))
        #s_t1 = np.append(x_t1, s_t[:,:,1:], axis = 2)
        # 取之前状态的前3帧图片 + 当前得到的1帧图片
        # 每次输入都是4幅图像
        s_t1 = np.append(x_t1, s_t[:, :, :3], axis=2)

        # store the transition in D
        # s_t: 当前状态(80 * 80 * 4)
        # a_t: 即将行为 (1 * 2)
        # r_t: 即时奖励
        # s_t1: 下一状态
        # terminal: 当前行动的结果(是否碰到障碍物 True => 是 False =>否)
        # 保存参数,队列方式,超出上限,抛出最左端的元素。
        D.append((s_t, a_t, r_t, s_t1, terminal))
        if len(D) > REPLAY_MEMORY:
            D.popleft()

        # only train if done observing
        if t > OBSERVE:
            # 获取batch = 32个保存的参数集
            minibatch = random.sample(D, BATCH)
            # get the batch variables
            # 获取j时刻batch(32)个状态state
            s_j_batch = [d[0] for d in minibatch]
            # 获取batch(32)个行动action
            a_batch = [d[1] for d in minibatch]
            # 获取保存的batch(32)个奖励reward
            r_batch = [d[2] for d in minibatch]
            # 获取保存的j + 1时刻的batch(32)个状态state
            s_j1_batch = [d[3] for d in minibatch]
            # readout_j1_batch =>(32, 2)
            y_batch = []
            readout_j1_batch = sess.run(readout, feed_dict = {s : s_j1_batch})
            for i in range(0, len(minibatch)):
                terminal = minibatch[i][4]
                # if terminal, only equals reward
                if terminal:  # 碰到障碍物,终止
                    y_batch.append(r_batch[i])
                else: # 即时奖励 + 下一阶段回报
                    y_batch.append(r_batch[i] + GAMMA * np.max(readout_j1_batch[i]))
            # 根据cost -> 梯度 -> 反向传播 -> 更新参数
            # perform gradient step
            # 必须要3个参数,y, a, s 只是占位符,没有初始化
            # 在 train_step过程中,需要这3个参数作为变量传入
            train_step.run(feed_dict = {
                y : y_batch,
                a : a_batch,
                s : s_j_batch}
            )

        # update the old values
        s_t = s_t1  # state 更新
        t += 1

        # save progress every 10000 iterations
        if t % 10000 == 0:
            saver.save(sess, 'saved_networks/' + GAME + '-dqn', global_step = t)

        # print info
        state = ""
        if t <= OBSERVE:
            state = "observe"
        elif t > OBSERVE and t <= OBSERVE + EXPLORE:
            state = "explore"
        else:
            state = "train"

        print("terminal", terminal, \
              "TIMESTEP", t, "/ STATE", state, \
            "/ EPSILON", epsilon, "/ ACTION", action_index, "/ REWARD", r_t, \
            "/ Q_MAX %e" % np.max(readout_t))
        # write info to files
        '''
        if t % 10000 <= 100:
            a_file.write(",".join([str(x) for x in readout_t]) + '\n')
            h_file.write(",".join([str(x) for x in h_fc1.eval(feed_dict={s:[s_t]})[0]]) + '\n')
            cv2.imwrite("logs_tetris/frame" + str(t) + ".png", x_t1)
        '''

def playGame():
    sess = tf.InteractiveSession()
    s, readout, h_fc1 = createNetwork()
    trainNetwork(s, readout, h_fc1, sess)

def main():
    playGame()

if __name__ == "__main__":
    main()

5.运行结果与分析

TIMESTEP:表示运行次数;

STATE:当前模型运行状态(observe:观察,explore:探索,train:训练);

EPSILON:表示进入探索阶段的阈值,是逐渐减小的;

ACTION:行动方向最大价值的索引;

REWARD:即时奖励;

Q_MAX:输出行动方向的最大价值;