说到机器学习最酷的分支,非Deep learning和Reinforcement learning莫属(以下分别简称DL和RL)。这两者不仅在实际应用中表现的很酷,在机器学习理论中也有不俗的表现。深度强化学习是啥呢?简单点说就是 深度学习 + 强化学习。深度学习和强化学习都不是啥新鲜事了,但是深度强化学习在Google 的DeepMind团队的运作下,一下子变得非常红火了。这是源自 DeepMind团队在《Nature》杂志发表论文(Human-level control through deep reinforcement learning),公布玩游戏比人厉害的 AI 是如何做出来的。他们在Stella模拟机上让机器自己玩了7个Atari 2600的游戏,结果是玩的冲出美洲,走向世界,超越了物种的局限。不仅战胜了其他机器人,甚至在其中3个游戏中超越了人类游戏专家。根据他们的论文,其中的AI就是深度强化算法,而且结果比其他算法要好,当然比人也要好,同时这篇论文发表在世界级顶级杂志,引发很多人的兴趣,我当然就是很多人之一,我本来是想如何将此算法应用到公司产品中去,但是最近也没想到啥好的解决方案,那就先熟悉熟悉这种算法了,顺便记录一下。(引用了http://36kr.com/p/220012.html 与 http://www.infoq.com/cn/articles/atari-reinforcement-learning)
首先我们说说什么是强化学习吧。百度百科的定义:强化学习(reinforcement learning,又称再励学习,评价学习)是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。 一听起来挺抽象的啊!我们来举个例子简单说明下强化学习在生活中是咋样的:我们小时候看到马戏团的狗尽然可以算加减法,鸽子也会走钢丝了,就差猪也会飞了(扯远了),这是如何做到的?其实啊,拿鸽子来说,每当鸽子走到钢丝尽头或者中间某时刻(可以设计)的时候,训练人员就会给它一些奖励,这些奖励的作用是让它“知道”,鸽子啊,你刚才的动作是对的(或者是不错的,你要继续保持啊)。如此一来,鸽子无形之中就受到了暗示,我只要那样做,就有奖励(食物)吃。何乐而不为呢。如果你看懂了这段话,那么强化学习的通俗理解正是如此!这样一说大概了解了吧,强化学习本质就是告诉你什么情况下做什么决定是有利的,做什么决定是有害的,当遇到类似的情况的时候,你就根据之前的经验来做决策。
下面给个形象的图表示这个过程:
CNN + RL = Deep Q-network(深度强化学习算法DQN)。
卷积神经网络是人工神经网络的一种,已成为当前语音分析和图像识别领域的研究热点这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。一般地,CNN的基本结构包括两层,其一为特征提取层,每个神经元的输入与前一层的局部接受域相连,并提取该局部的特征。一旦该局部特征被提取后,它与其它特征间的位置关系也随之确定下来;其二是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射是一个平面,平面上所有神经元的权值相等。如下图所示,展示了一个33的卷积核在55的图像上做卷积的过程。每个卷积都是一种特征提取方式,就像一个筛子,将图像中符合条件(激活值越大越符合条件)的部分筛选出来。