1. 囚徒困境(非零和博弈)

考虑一个囚徒困境的例子,来解释非零和博弈下出现的稳态:

python中帕累托最优 举例帕累托最优_最优解

纳什均衡:是指一种状态,这种状态是多个参与者在特定策略组下实现的稳定状态,此状态特点是:在该策略组下,任何人单独改变自己的策略都不会让自己变得更好,此时的策略被称为占优策略;囚徒困境中,无论对方选择什么,个人都选择背叛,这就是占优策略

帕累托最优:也是指一种状态,这种是多个参与者在特定分配方案下实现的稳定状态,此状态特点是:在该分配方案下,任何人无法通过损害别人的利益来提高自己的利益,也就是自己利益的提高必然会带来其他人的损失;囚徒困境中,当两人都选择沉默时,总体的获刑年限只有2年,此时达到了帕累托最优状态,没有其他的方案能够在不损失别人利益下来提高自己的利益

纳什均衡与帕累托最优: 纳什均衡一般出现在非合作博弈中,出发角度一般站在个体,强调的是个体足够理性,无论对方做什么动作,个体的策略都是Best-Response;而当我们谈到帕累托最优时,我们一般说分配方案,这是因为我们是站在整体角度来考虑问题的,像上帝一样分配个体资源从而达到整体最优化,是我们想要的是静态最优解;因为视角不同,帕累托最优和纳什均衡通常是矛盾的,但帕累托最优的整体利益一般要大于纳什均衡的整体利益

帕累托是最终的整体最优解吗? 不是,因为帕累托改进有一个条件:不损害别人的利益;有这样一个经典例子:一个百万富翁和一个快要饿死的乞丐,只要百万富翁拿出一点点钱就能挽救乞丐的性命,但这样做并不是帕累托改进,因为它损害了百万富翁的利益,虽然从整体上来说,花掉一点点钱来拯救一条性命可以让整体利益最大化,但这并不是帕累托最优,而是经典的功利主义,即通过资源的腾挪来实现整体最大化,而不再考虑个体的得失

python中帕累托最优 举例帕累托最优_最优解_02

2.下棋游戏(零和博弈):

囚徒困境是非零和博弈,而下棋是典型的零和博弈,这种博弈一定是非合作博弈,即一方的赢必然意味着另外一方的输,双方得失相加等于0,因此双方不存在合作和双赢的可能

纳什均衡:与非零和博弈下的纳什均衡一致

帕累托最优:在零和博弈下,任何初始的分配方案/策略组,都是帕累托最优,因为任何己方的改善必然会给对方带来损失,因此现在的状态就是最优的