多智能体强化学习(四)多智能体RL

  • 1. 问题的公式:随机博弈
  • 2. 解决随机对策
  • 2.1 基于价值的MARL方法
  • 2.2 基于策略的MARL方法
  • 2.3 纳什均衡的求解概念
  • 2.4 特殊类型的随机策略
  • 2.5 部分可观测的设置



在多智能体场景中,就像在单智能体场景中一样,每个智能体都在尝试通过试错程序来解决顺序决策问题。不同的是,环境状态的演变和每个智能体收到的奖励功能现在由所有智能体的联合行动决定(见图3)。因此,智能体不仅需要考虑环境,还需要考虑其他学习代理交互。一个涉及多个智能体的决策过程通常通过一个随机游戏来建模(沙普利,1953),也被称为马尔可夫游戏(利特曼,1994)。

1. 问题的公式:随机博弈

定义2(随机博弈)随机博弈可以看作是定义1中MDP的多人博弈扩展。因此,它也由一组关键元素定义,多智能体强化学习算法选择 多智能体模型_标量

  • N:智能体的数量,N=1退化为单智能体MDP,N>>2在本文称为多智能体情况。
  • 多智能体强化学习算法选择 多智能体模型_建模_02:所有智能体共享的环境状态集。
  • 多智能体强化学习算法选择 多智能体模型_建模_03::智能体多智能体强化学习算法选择 多智能体模型_标量_04的动作集。我们表示多智能体强化学习算法选择 多智能体模型_建模_03:=多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_06×···×多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_07
  • 多智能体强化学习算法选择 多智能体模型_标量_08:对于每个时间步骤多智能体强化学习算法选择 多智能体模型_建模_09,给定智能体的联合动作为多智能体强化学习算法选择 多智能体模型_强化学习_10,在下一个时间步骤中从状态多智能体强化学习算法选择 多智能体模型_建模_11到状态多智能体强化学习算法选择 多智能体模型_强化学习_12的转换概率。
  • 多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_13:从多智能体强化学习算法选择 多智能体模型_标量_14多智能体强化学习算法选择 多智能体模型_强化学习_15转换的第多智能体强化学习算法选择 多智能体模型_标量_04个智能体返回的奖励函数标量值。奖励的绝对值一致受多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_17为界。
  • 多智能体强化学习算法选择 多智能体模型_建模_18是表示时间值的折扣系数。

当有必要区分智能体多智能体强化学习算法选择 多智能体模型_建模_19和所有其他多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_20的对手时,我们使用多智能体强化学习算法选择 多智能体模型_决策问题_21(例如,多智能体强化学习算法选择 多智能体模型_建模_22的上标。

最终,随机博弈(SG)作为一个框架,允许在决策场景中同时从智能体进行移动。该游戏可以按顺序描述如下:在每个时间步长多智能体强化学习算法选择 多智能体模型_决策问题_23中,环境都有一个状态多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_24,并且给定多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_24,每个智能体与所有其他智能体同时执行其操作多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_26。所有智能体的联合行动使环境过渡到下一个状态多智能体强化学习算法选择 多智能体模型_建模_27;然后,环境决定了对每个智能体的即时奖励多智能体强化学习算法选择 多智能体模型_强化学习_28。正如在单智能体MDP场景中所看到的,每个智能体多智能体强化学习算法选择 多智能体模型_建模_19的目标都是解决SG。换句话说,每个智能体的目标是找到一个行为策略(或者,博弈论中的混合策略术语)。也就是说,多智能体强化学习算法选择 多智能体模型_建模_30,它可以指导智能体采取顺序行动,以便获得等式(12)中的折扣累积奖励已最大化。在这里,∆(·)是一个集合上的概率单形。在博弈论中,如果∆(·)被狄拉克测度所取代,多智能体强化学习算法选择 多智能体模型_建模_31也被称为纯策略(vs混合策略)。

多智能体强化学习算法选择 多智能体模型_建模_32


等式(12)的比较与等式(4)一起使用指出,每个智能体的最优策略不仅受到其自身策略的影响,而且也受到游戏中其他智能体的策略的影响。这种情况导致了单智能体RL和多智能体RL之间的解决方案概念上的根本差异。

2. 解决随机对策

一个SG可以看作是一系列正常形式的对策,这是一种可以在矩阵中表示的对策。以原始交叉口场景为例(见图4)。SG在时间t的快照(阶段游戏)可以表示为矩阵格式的正常形式的游戏。这些行对应于智能体多智能体强化学习算法选择 多智能体模型_标量_33的动作集多智能体强化学习算法选择 多智能体模型_建模_34,并且这些列对应于代理2的动作集多智能体强化学习算法选择 多智能体模型_决策问题_35。矩阵的值是对每个联合动作对的奖励。在这种情况下,如果两个智能体只关心最大化自己可能的奖励,而不考虑其他智能体(单智能体RL问题中的解决方案概念),并选择匆忙的动作,它们将达到相互碰撞的结果。显然,这种状态是不安全的,因此对每个智能体都是次优的,尽管每个智能体在匆忙时可能的奖励是最高的。因此,为了解决销售问题并真正最大化累积奖励,每个智能体在决定其政策时必须考虑他人采取战略行动。

不幸的是,与具有多项式可解时间的线性编程公式的MDPs相比,求解SGs通常涉及到应用牛顿方法来求解非线性程序。然而,有两种特殊的双人游戏获得折扣奖励的SGs情况是它仍然可以写成LPs(肖汉姆和莱顿-布朗,2008年,第6.2章)。内容如下:

  • 单控制器SG:如果向量多智能体强化学习算法选择 多智能体模型_标量_36中的第多智能体强化学习算法选择 多智能体模型_标量_04指数是多智能体强化学习算法选择 多智能体模型_建模_38,则确定多智能体强化学习算法选择 多智能体模型_决策问题_39
  • 可分离的奖励状态独立的过渡(SR-SIT)SG ,例如:状态和行为对奖励函数有独立的影响,而转换函数仅依赖于联合行为。

2.1 基于价值的MARL方法

等式(7)中的单智能体Q-学习更新在多智能体的情况下仍然有效。在第多智能体强化学习算法选择 多智能体模型_决策问题_23次迭代中,对于每个智能体多智能体强化学习算法选择 多智能体模型_建模_19,给定从重播缓冲区采样的转换数据多智能体强化学习算法选择 多智能体模型_决策问题_42,它只更新多智能体强化学习算法选择 多智能体模型_强化学习_43的值,并保持q函数的其他条目不变。具体来说,我们有

多智能体强化学习算法选择 多智能体模型_建模_44


与等式(7)相比,最大运算符被更改为

多智能体强化学习算法选择 多智能体模型_决策问题_45


在等式(13)中来反映这样一个事实,即每个智能体不能只考虑自己,而必须通过考虑所有智能体在多智能体强化学习算法选择 多智能体模型_标量_46的价值,以他们的q函数集表示。然后,就可以解决最优策略

多智能体强化学习算法选择 多智能体模型_建模_47


因此,我们可以进一步将评估运算符写为

多智能体强化学习算法选择 多智能体模型_标量_48


总之,多智能体强化学习算法选择 多智能体模型_建模_49在某个平衡点返回智能体最优策略的一部分(不一定对应于其最大的可能回报),而多智能体强化学习算法选择 多智能体模型_标量_50给智能体在这种平衡下我的预期长期回报,假设所有其他智能体都同意发挥相同的平衡。

2.2 基于策略的MARL方法

由于多智能体系统的组合性质,该基于价值的方法受到了维数的诅咒(有关进一步的讨论,请见第4.1节)。这一特性需要开发基于策略的函数逼近算法。具体地说,每个智能体通过更新例如神经网络的参数多智能体强化学习算法选择 多智能体模型_标量_51来学习自己的最优策略多智能体强化学习算法选择 多智能体模型_强化学习_52。让多智能体强化学习算法选择 多智能体模型_强化学习_53表示所有智能体的策略参数的集合,并让多智能体强化学习算法选择 多智能体模型_决策问题_54是联合策略。为了优化参数多智能体强化学习算法选择 多智能体模型_标量_51,可以将第2.3.2节中的策略梯度定理扩展到多智能体上下文。给定代理多智能体强化学习算法选择 多智能体模型_建模_19的目标函数多智能体强化学习算法选择 多智能体模型_决策问题_57,有:

多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_58


考虑一个具有确定性策略的连续动作集,我们将多主体确定性策略梯度(MADDPG)(Lowe等人,2017)写为

多智能体强化学习算法选择 多智能体模型_标量_59


请注意,在这两个问题中。(15)&(16),对联合策略多智能体强化学习算法选择 多智能体模型_强化学习_60的期望意味着必须遵守其他代理的策略;对于许多实际应用程序,这通常是一个强有力的假设。

2.3 纳什均衡的求解概念

博弈论在多智能体学习中扮演着重要的作用,它提供了所谓的解决方案概念,通过展示玩家最终将采用哪些策略来描述游戏的结果。MARL存在许多类型的解概念(见第4.2节),其中最著名的可能是非合作博弈论中的纳什均衡(NE)(Nash,1951)。“非合作”一词并不意味着智能体不能一直合作或必须相互争斗,它只是意味着每个智能体独立地最大化自己的奖励,智能体不能组成联盟来做出集体决定

在一个正常形式的博弈中,NE描述了联合策略轮廓的一个平衡点多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_61,其中每个智能体根据它们对其他智能体的最佳反应行事。一旦考虑了所有其他玩家的策略,最佳的反应就会为玩家产生最佳的结果。玩家多智能体强化学习算法选择 多智能体模型_建模_19多智能体强化学习算法选择 多智能体模型_强化学习_63的最佳响应是一组满足以下条件的策略。

多智能体强化学习算法选择 多智能体模型_标量_64


NE 指出,如果所有的玩家都是完全理性的,他们中没有一个会有动机偏离他们最好的反应,多智能体强化学习算法选择 多智能体模型_决策问题_65,因为其他人正在玩多智能体强化学习算法选择 多智能体模型_强化学习_66。请注意,NE是根据最佳响应来定义的,这依赖于相对的奖励值,这表明识别NE并不需要奖励的确切值。事实上,NE在玩家奖励函数的正仿射变换下是不变的。应用布鲁维尔不动点定理,纳什(1951)证明了任何具有有限作用集的博弈都始终存在混合策略NE。在驾车穿过图4中的十字路口的示例中,NE为(屈服、冲)和(冲、屈)。

对于SG,一个常用的平衡是ne的更强版本,称为马尔可夫完美NE(马斯金和Tirore,2001),定义为:

定义3(随机对策的纳什均衡)马尔可夫策略多智能体强化学习算法选择 多智能体模型_标量_67是在定义2中定义的SG的马尔可夫完美NE。

多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_68


“马尔可夫政策”是指纳什政策对于可能的历史的特定划分是可衡量的(通常指的是最后一个状态)。“完美”这个词的意思是,无论开始状态如何,平衡状态也是子博弈完美的(Selten,1965年)。考虑到SGs的顺序性质,这些假设是必要的,同时仍然保持着普遍性。此后,马尔可夫完美NE将被称为NE。对于折扣和平均奖励的SGs,始终存在混合策略NE,虽然它们可能不是唯一的。事实上,检查唯一性是NP-hard(科尼策和桑德霍尔姆,2002年)。以NE为最优性的求解概念,我们可以重写等式(14),视为:

多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_69


在上述方程中,多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_70计算agent 多智能体强化学习算法选择 多智能体模型_建模_19策略的NE,多智能体强化学习算法选择 多智能体模型_标量_72是在状态s下agent i的预期回报。等式(19)和等式(13)构成了纳什Q-学习的学习步骤(Hu等人,1998)。这个过程本质上导致了一组学习的最优策略的结果,对于遇到的每一个单阶段游戏都达到NE。在NE不是唯一的情况下,Nash-Q采用手工制作的规则进行均衡选择(例如,所有玩家都选择第一个NE)。此外,与正常的Q学习相似,在等式中定义的Nash-Q算子(20)也被证明是一个收缩映射,当NE唯一时,随机更新规则在所有状态下都收敛于NE:

多智能体强化学习算法选择 多智能体模型_建模_73


在二人general-sum博弈中寻找NE的过程可以表述为线性互补问题(LCP),然后用莱姆克豪森算法求解(沙普利,1974)。然而,拥有三名以上玩家的游戏的确切解决方案是未知的。事实上,寻找NE的过程对计算要求很高。即使在双人游戏的情况下,求解NE的复杂性也是P P AD-hard(有向图上的多项式奇偶校验参数)(陈和邓,2006;Daskalakis等人,2009);因此,在最坏的情况下,解决方案可能需要时间与游戏大小呈指数级的。这种复杂性禁止任何暴力或详尽的搜索解决方案,除非P=NP(见图5)。正如我们所期望的那样,对于一般的SGs来说,NE要困难得多,其中确定一个纯策略的NE是否存在是P SP ACE-hard。即使SG有一个有限的时间范围,计算仍然是NP-hard(科尼策和桑德霍尔姆,2008)。当提到对NE的近似方法,最著名的多项式可计算算法可以在双矩阵博弈上实现=0.3393(Tsaknakis和Spirakis,2007);它的方法是把寻找网元的问题变成一个寻找平稳点的优化问题。

多智能体强化学习算法选择 多智能体模型_标量_74


图5:不同复杂性类的景观。相关例子包括1)解决双人零和博弈中的NE,P-complete(Noumann,1928),2)在一般和博弈中求解NE的问题(PPKalakis等人,2009),3)检查NE的唯一性(Conizer和桑德霍尔姆,2002),4)检查纯策略NE是否存在于随机博弈,PSPACE-hard(科尼策尔和桑德霍尔姆,2008)和5)解决Dec-POMDP,NEXPTIME-Hard(Bern斯坦等人,2002)。

2.4 特殊类型的随机策略

要总结SGs的解决方案,可以想到“master”方程

多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_75

Bowling和Veloso(2000)首先总结了它(见表4)。第一项是指解决在每个时间步长中遇到的阶段博弈的平衡(NE)。它假设过渡和奖励功能是已知的。第二个术语是指应用RL技术(如Q-elaring)在序列决策过程中对时间结构进行建模。它假设只接受对过渡和奖励功能的观察。两者的结合给出了SGs的解决方案,智能体到达游戏中每一个步的某种类型的平衡。

多智能体强化学习算法选择 多智能体模型_强化学习_76


图6:POSGs中不同类型游戏的维恩图。SG和Dec-POMDP的交集是团队游戏。在上半段的SG中,我们有MDP⊂团队游戏⊂潜在游戏⊂相同感兴趣的游戏⊂SGs,和零和游戏⊂SGs。在Dec-POMDP的下半段,我们有MDP⊂团队游戏⊂Dec-MDP⊂Dec-POMDP,和MDP⊂POMDP⊂Dec-POMDP。关于这些游戏的详细定义,我们参考章节(3.2.4和3.2.5)。

由于用网NE作为正常形式博弈的解概念求解一般SGs在计算上具有挑战性,研究人员的目标是研究具有可处理解概念的特殊类型的SGs。在本节中,我们提供了这些特殊类型的游戏的简要总结。

定义4(随机对策的特殊类型)给定了定义2中SG的一般形式,我们有以下特殊情况:

  • 正常形式的游戏/重复游戏:|S|=1,见图4中的示例。这些游戏只有一个状态。虽然理论上没有基础,但它实际上更容易解决一个小规模SG的问题。
  • 相同利益设置:智能体共享相同的学习目标,我们表示为R。由于所有智能体都是独立处理的,每个智能体都可以安全地选择最大化自己奖励的动作。因此,单智能体RL算法可以安全地应用,并开发了一种分散的方法。有几种类型的SGs属于这一类。
  • 团队游戏/完全合作的游戏/多智能体MDP(MMDP):智能体被认为是同质的和可互换的,所以重要的是,它们共享相同的奖励功能,多智能体强化学习算法选择 多智能体模型_建模_77
  • 团队平均奖励游戏/网络多智能体MDP(M-MDP):智能体可以有不同的奖励功能,但他们有相同的目标,多智能体强化学习算法选择 多智能体模型_强化学习_78
  • 随机势博弈:智能体可以有不同的奖励函数,但它们的共同利益由共享势函数多智能体强化学习算法选择 多智能体模型_决策问题_79描述,定义为多智能体强化学习算法选择 多智能体模型_建模_80,使多智能体强化学习算法选择 多智能体模型_建模_81和以下方程式成立:这类类型的游戏保证具有纯策略NE(Mguni,2020)。此外,如果选择奖励函数作为潜在函数,潜在游戏就会退化为团队游戏。
  • 零和设置:智能体共享相反的利益并具有竞争力,每个智能体针对最坏情况进行优化。由于Neoumann(1928)提出的极大极小定理,可以在多项式时间内使用线性程序(LP)来求解。最小-最大值的概念也与机器学习中的鲁棒性有关。我们可以细分零和设置如下:
  • 双人constant-sum游戏多智能体强化学习算法选择 多智能体模型_建模_82,其中c是一个常数,通常是c=0。对于多智能体强化学习算法选择 多智能体模型_强化学习_83的情况,人们总是可以减去所有回报条目的常数c,使游戏为零和。
  • 两队的竞争性比赛:两支球队互相竞争,队号分别为多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_84多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_85。他们的奖励功能是:
    一个团队中的团队成员共享相同的目标或者

    多智能体强化学习算法选择 多智能体模型_决策问题_86
  • 调和游戏:任何正常形式的游戏都可以分解为潜在游戏和调和游戏(Candogan等人,2011)。一种调和对策(例如,岩石剪刀布)可以看作是一类具有调和性质的一般零和对策。让多智能体强化学习算法选择 多智能体模型_决策问题_87是一个联合的纯策略配置文件,并让多智能体强化学习算法选择 多智能体模型_强化学习_88是与智能体多智能体强化学习算法选择 多智能体模型_标量_89上的多智能体强化学习算法选择 多智能体模型_标量_90不同的策略集;然后,谐波性质是:
  • 线性二次(LQ)设置:过渡模型遵循线性动力学,奖励函数相对于状态和动作是二次的。与黑盒奖励功能相比,LQ游戏提供了一个简单的设置。例如,已知的演员-批评家方法可以促进收敛到零和LQ对策的NE(Al-Tamimi等人,2007)。同样,LQ设置也可细分如下:
  • 双人零和LQ游戏多智能体强化学习算法选择 多智能体模型_强化学习_91分别是状态空间和动作空间的已知成本矩阵,而矩阵多智能体强化学习算法选择 多智能体模型_决策问题_92通常是未知的。
  • 多人general-sumLQ游戏:关于双人游戏的区别在于,智能体奖励的总和不一定等于零:

2.5 部分可观测的设置

一个部分可观察的随机博弈(POSG)假设代理不能访问精确的环境状态,而只能通过观察函数观察真实状态。形式上,此方案的定义为:

定义5(部分可观测的随机对策) POSG由集合定义

多智能体强化学习算法选择 多智能体模型_标量_93

除了在定义2中定义的SG外,POSG还添加了以下术语:

  • 多智能体强化学习算法选择 多智能体模型_标量_94:每个代理的观察集。联合观测集定义为多智能体强化学习算法选择 多智能体模型_标量_95
  • 多智能体强化学习算法选择 多智能体模型_决策问题_96:观察函数多智能体强化学习算法选择 多智能体模型_标量_97表示给定动作为a∈A的观察o∈O的概率,以及来自环境过渡的新状态多智能体强化学习算法选择 多智能体模型_强化学习_12

每个代理的策略现在都会更改为多智能体强化学习算法选择 多智能体模型_建模_99

虽然添加的部分可观察性约束在许多实践中的实际应用中很常见,但理论上它加剧了解决SGs的困难。甚至在最简单的双人游戏完全合作的有限视野博弈的设置中,解决POSG是NEXP-hard(见图5),这意味着在最坏情况下解决POSG需要超指数时间(伯恩斯坦等人,2002)。然而,在部分可观察的设置下研究游戏的好处来自于算法的优势。Centralised-training-with-decentralised-execution方法(福斯特等,2017a;劳等,2017;奥利ehoek等,2016;拉希德等,2018;杨等,2020)取得了许多经验成功,与DNNs一起充满希望。

POSG是最一般的游戏类之一。POSGs的一个重要子类是分散的部分可观察的MDP(Dec-POMDP),其中所有的代理都共享相同的奖励。在形式上,此方案的定义如下:

定义6(Dec-POMDP) Dec-POMDP是定义5中定义的 特殊型 当多智能体强化学习算法选择 多智能体模型_标量_100

Dec-POMDPs通过部分可观察性条件与单代理MDPs相关,通过假设相同的奖励,它们也与随机团队博弈相关。换句话说,单代理MDPs和随机团队游戏的版本都是特定类型的Dec-POMDPs(见图6)。

多智能体强化学习算法选择 多智能体模型_多智能体强化学习算法选择_101


定义7(特殊类型的POMDPs) 以下博弈是特殊类型的Dec-POMDPs.。

  • 部分可观察到的MDP(POMDP):只有一个令人感兴趣的代理,N=1。这种情况相当于定义1中具有部分可观察性约束的单代理MDP。
  • 分散的MDP(Dec-MDP):Dec-MDP中的代理具有共同的完全可观测性。也就是说,如果所有的代理分享他们的观察结果,他们可以一致恢复Dec-MDP的状态。数学上,我们有多智能体强化学习算法选择 多智能体模型_标量_102
  • 完全合作的随机博弈:假设每个代理都有完全的可观察性,多智能体强化学习算法选择 多智能体模型_决策问题_103。定义4中的完全合作的SG是一种Dec-POMDP。