动态贝叶斯网络 Python实践动态贝叶斯博弈案例

转载

我心依旧 2024-06-09 10:19:44

文章标签 动态贝叶斯网络 Python实践人工智能算法不完全信息概率分布 文章分类 Python 后端开发

多智能体强化学习与博弈论-博弈论基础4

本篇文章主要讲的是贝叶斯博弈(Bayesian Games，也称作不完全信息博弈）和拍卖理论。不完全信息博弈在我们生活中经常出现，比如拍卖，在市场和别人讨价还价等等。

贝叶斯博弈

首先举一个贝叶斯博弈的简单例子

假设两个人在决定接下来要做什么，B代表Ballet，F代表Football。player1不知道player2希望和他选择做一样的事情，还是希望避免和他做一样的事情，假设这两种情况的概率都是1/2。这时博弈就是一个不完全信息博弈。

动态贝叶斯网络 Python实践动态贝叶斯博弈案例_动态贝叶斯网络 Python实践

我们使用(B,(B,F))来表示这意味着玩家 1会选择B，当处于状态1时，参与人2也会选择B(当她想要遇到参与人1时)，而在状态2时，参与人2会选择F (当她想要避开玩家1时）。

假如player1选择了B，那么他的平均收益为：1/2 * 2 + 1/2 * 0 = 1

假如player1选择了F，那么他的平均收益为：1/2 * 0 + 1/2 * 1 = 1/2

说明(B,(B,F))这个策略达到了纳什均衡。

一个贝叶斯博弈包含了：

A set of players I;
A set of actions (pure strategies) for each player $ i: S_i$ ;
A set of types for each player $动态贝叶斯网络 Python实践动态贝叶斯博弈案例_人工智能_02$ ;
A payoff function for each player $动态贝叶斯网络 Python实践动态贝叶斯博弈案例_动态贝叶斯网络 Python实践_03$ ;
A (joint) probability distribution $动态贝叶斯网络 Python实践动态贝叶斯博弈案例_算法_04$ over types.

在贝叶斯博弈中，决策空间，收益函数，智能体可能的类型和概率分布都是common knowledge（所有智能体都知道）。

双寡头贝叶斯博弈

假设player1的出货量为q1，player2的出货量为q2，Q=q1+q2。市场价格为P，P=a-Q。单位商品消耗为c1，c2。player2的类型有p的概率是low，（1-p）的概率是high。即c2为 $动态贝叶斯网络 Python实践动态贝叶斯博弈案例_概率分布_05$ 的概率为p，为 $动态贝叶斯网络 Python实践动态贝叶斯博弈案例_算法_06$ 的概率为（1-p）。