多智能体强化学习与博弈论-博弈论基础4
本篇文章主要讲的是贝叶斯博弈(Bayesian Games,也称作不完全信息博弈)和拍卖理论。不完全信息博弈在我们生活中经常出现,比如拍卖,在市场和别人讨价还价等等。
贝叶斯博弈
首先举一个贝叶斯博弈的简单例子
假设两个人在决定接下来要做什么,B代表Ballet,F代表Football。player1不知道player2希望和他选择做一样的事情,还是希望避免和他做一样的事情,假设这两种情况的概率都是1/2。这时博弈就是一个不完全信息博弈。
我们使用(B,(B,F))来表示这意味着玩家 1会选择B,当处于状态1时,参与人2也会选择B(当她想要遇到参与人1时),而在状态2时,参与人2会选择F (当她想要避开玩家1时)。
假如player1选择了B,那么他的平均收益为:1/2 * 2 + 1/2 * 0 = 1
假如player1选择了F,那么他的平均收益为:1/2 * 0 + 1/2 * 1 = 1/2
说明(B,(B,F))这个策略达到了纳什均衡。
一个贝叶斯博弈包含了:
- A set of players I;
- A set of actions (pure strategies) for each player $ i: S_i$ ;
- A set of types for each player ;
- A payoff function for each player ;
- A (joint) probability distribution over types.
在贝叶斯博弈中,决策空间,收益函数,智能体可能的类型和概率分布都是common knowledge(所有智能体都知道)。
双寡头贝叶斯博弈
假设player1的出货量为q1,player2的出货量为q2,Q=q1+q2。市场价格为P,P=a-Q。单位商品消耗为c1,c2。player2的类型有p的概率是low,(1-p)的概率是high。即c2为的概率为p,为的概率为(1-p)。
我们可以计算出player2的收益为
对其求一阶导我们可以知道时,player2有最优解。
当player2的类型为high的时候,
当player2的类型为low的时候。
我们可以进一步算出player1的收益为
令其一阶导=0可以得到
结合①②③我们可以算出
拍卖(Auction)理论
English auctions
这种拍卖是一种拍卖价格逐渐上升的拍卖,所有人都知道其他人的出价,最终出价最高的人得到物品
Dutch Auctions
这种拍卖是一种拍卖价格逐渐降低的拍卖,一开始有一个起始价,然后逐渐降低,直到有人选择把物品买下来。
1st -price auctions
在这种拍卖中,拍卖者互相不知道对方的出价,拍卖者将自己的出价放到信封里面,出价最高的能够得到物品。
2nd -price auctions
又称作Vickrey actions。在这种拍卖中,拍卖者互相不知道对方的出价,拍卖者将自己的出价放到信封里面,出价最高的能够得到物品。购买方出的价格为在拍卖中第二高的价格。
在2nd -price auctions中存在着dominant strategy。将自己的出价设为自己能接受的最大价格就是dominant strategy。分析比较简单,只需要分类讨论不同的情况即可。
当拍卖为1st -price auctions的时候,假设有n个player,bid的策略为
时,达到纳什均衡。
参考:
汪军老师UCL多智能体强化学习网课