多智能体强化学习与博弈论-博弈论基础4

本篇文章主要讲的是贝叶斯博弈(Bayesian Games,也称作不完全信息博弈)和拍卖理论。不完全信息博弈在我们生活中经常出现,比如拍卖,在市场和别人讨价还价等等。

贝叶斯博弈

首先举一个贝叶斯博弈的简单例子

假设两个人在决定接下来要做什么,B代表Ballet,F代表Football。player1不知道player2希望和他选择做一样的事情,还是希望避免和他做一样的事情,假设这两种情况的概率都是1/2。这时博弈就是一个不完全信息博弈。

动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_动态贝叶斯网络 Python实践

我们使用(B,(B,F))来表示这意味着玩家 1会选择B,当处于状态1时,参与人2也会选择B(当她想要遇到参与人1时),而在状态2时,参与人2会选择F (当她想要避开玩家1时)。

假如player1选择了B,那么他的平均收益为:1/2 * 2 + 1/2 * 0 = 1

假如player1选择了F,那么他的平均收益为:1/2 * 0 + 1/2 * 1 = 1/2

说明(B,(B,F))这个策略达到了纳什均衡。

一个贝叶斯博弈包含了:

  • A set of players I;
  • A set of actions (pure strategies) for each player $ i: S_i$ ;
  • A set of types for each player 动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_人工智能_02;
  • A payoff function for each player 动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_动态贝叶斯网络 Python实践_03;
  • A (joint) probability distribution 动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_算法_04over types.

在贝叶斯博弈中,决策空间,收益函数,智能体可能的类型和概率分布都是common knowledge(所有智能体都知道)。

双寡头贝叶斯博弈

假设player1的出货量为q1,player2的出货量为q2,Q=q1+q2。市场价格为P,P=a-Q。单位商品消耗为c1,c2。player2的类型有p的概率是low,(1-p)的概率是high。即c2为动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_概率分布_05的概率为p,为动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_算法_06的概率为(1-p)。

我们可以计算出player2的收益为

动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_不完全信息_07

对其求一阶导我们可以知道动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_动态贝叶斯网络 Python实践_08时,player2有最优解。

当player2的类型为high的时候动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_动态贝叶斯网络 Python实践_09,

当player2的类型为low的时候动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_概率分布_10

我们可以进一步算出player1的收益为

动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_概率分布_11

令其一阶导=0可以得到

动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_不完全信息_12

结合①②③我们可以算出

动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_算法_13

拍卖(Auction)理论

English auctions

这种拍卖是一种拍卖价格逐渐上升的拍卖,所有人都知道其他人的出价,最终出价最高的人得到物品

Dutch Auctions

这种拍卖是一种拍卖价格逐渐降低的拍卖,一开始有一个起始价,然后逐渐降低,直到有人选择把物品买下来。

1st -price auctions

在这种拍卖中,拍卖者互相不知道对方的出价,拍卖者将自己的出价放到信封里面,出价最高的能够得到物品。

2nd -price auctions

又称作Vickrey actions。在这种拍卖中,拍卖者互相不知道对方的出价,拍卖者将自己的出价放到信封里面,出价最高的能够得到物品。购买方出的价格为在拍卖中第二高的价格。

在2nd -price auctions中存在着dominant strategy。将自己的出价设为自己能接受的最大价格就是dominant strategy。分析比较简单,只需要分类讨论不同的情况即可。

当拍卖为1st -price auctions的时候,假设有n个player,bid的策略为

动态贝叶斯网络 Python实践 动态贝叶斯博弈案例_人工智能_14

时,达到纳什均衡。

参考:

汪军老师UCL多智能体强化学习网课