Disclaimer:我是博弈论民科,以下纯属娱乐脑洞。
经典的囚徒困境
警方逮捕甲、乙两名嫌疑犯,但沒有足够证据指控二人有罪。于是警方将两人分别囚禁,并向每个人单独提出如下选择:
- 若两人中其中一个人认罪并检举对方的罪证(“背叛”),而另一个人拒不认罪,则认罪者将被释放,另一个人则判刑10年。
- 若两人都拒不认罪(“合作”),则两人都获刑1年。
- 若两人都认罪并互相检举,则两人都判刑5年。
用收益矩阵概述如下:
乙沉默(合作) | 乙认罪(背叛) | |
---|---|---|
甲沉默(合作) | 甲1年;乙1年 | 甲10年;乙0年 |
甲认罪(背叛) | 甲0年;乙10年 | 甲5年;乙5年 |
假设甲乙都是追求自身利益最大化的理性人——在这个例子中表现为“最短化自身的刑期”,则两人都会如此思考:
-
若对方沉默,我认罪则获刑0年,我沉默则获刑1年;因此,更优选择是认罪。
-
若对方认罪,我认罪则获刑5年,我沉默则获刑10年;因此,更优选择是认罪。
因此,两人都会同时选择认罪(“背叛“),各获刑5年。相比两人都沉默(“合作”)各获刑1年的情况,这显然是一个总体利益更低的选择。
所以对这个博弈论情境,一般的归纳是:个人理性往往导致集体的非理性。这种结果,又被称为“囚徒困境”。
博弈隐藏的第三方
对“囚徒博弈”这个经典的情境,在日常生活中的应用很多(如企业之间的价格竞争、行业的“内卷”化等)。
对于这个情境的引申,最常见的就是将一次博弈转为“多次博弈”,也就是一次博弈的行为(是“合作”还是“背叛”)会影响到长期的博弈行为。如果收益矩阵满足一定的条件,博弈双方会跳出“囚徒困境”的陷阱,选择合作。
这里我想到的是另一个引申的方向,也即囚徒博弈是否真是一种“集体”的非理性,或许依赖于我们怎么定义“集体”的范围和收益的参数。
如果将“集体”定义为博弈的所有参与方,那么囚徒博弈中,除了囚徒甲和乙,还有一个被省略的重要第三方,即公(警方)检(检察官)一方。
假设公检方是先手博弈的一方,作为向两个囚徒提出条件的人,能够选择的是各种情况下甲乙的“损失”(假设判刑年限被量化为损失),那么收益矩阵可以转化为:
乙沉默(合作) | 乙认罪(背叛) | |
---|---|---|
甲沉默(合作) | 甲 = -a1;乙 = -a1;公检 = b1 | 甲 = -a2;乙 = -a3;公检 = b2 |
甲认罪(背叛) | 甲 = -a3;乙 = -a2;公检 = b2 | 甲 = -a4;乙 = -a4;公检 = b3 |
这其中a1...a4,b1...b3都大于或等于零,也就是说甲乙作为被执法的一方,除非被直接释放,否则必然是净损失;而公检作为执法的一方,除非甲乙都被直接释放,否则必然是净收益(成功抓人和指控=完成业绩)。
此外,b1<b2<b3,也即甲乙中认罪的人越多,证据越多,公检方业绩完成得越漂亮,收益越大。
因此,公检方的优势策略,是设置a1...a4的值,使得甲乙必然选择双双认罪,这样公检方的收益能够最大化,即b3。
而如果要甲乙双双认罪,则需要使得a1>a3,a2>a4。也即甲方无论怎样选择,乙方的优势策略都是认罪(背叛);反之亦然。
这时候,甲乙双双认罪的整体收益 = b3 - a4x2;以此类推。只要 b3 - a4x2 的值在矩阵的四个格子里是最高的,双双认罪就并非“集体非理性”,而是“集体理性”的选择。或者说,只要甲乙双双认罪给公检方带来的收益b3足够大,双双认罪就是三方构成的“集体”的理性选择。
例1:
乙沉默(合作) | 乙认罪(背叛) | |
---|---|---|
甲沉默(合作) | 甲 = -1;乙 = -1;公检 = 1;总收益 = -1 | 甲 = -10;乙 = 0;公检 = 5;总收益 = -5 |
甲认罪(背叛) | 甲 = 0;乙 = -10;公检 = 5;总收益 = -5 | 甲 = -5;乙 = -5;公检 = 10;总收益 = 0 |
不过,如果甲乙双双认罪只能给公检方带来一点微末的好处,那么三方构成的“集体”依然会导向非最优的结果。然而作为先手玩家的公检方,总能使得自己这一方收益最大化。
例2:
乙沉默(合作) | 乙认罪(背叛) | |
---|---|---|
甲沉默(合作) | 甲 = -1;乙 = -1;公检 = 1;总收益 = -1 | 甲 = -10;乙 = 0;公检 = 2;总收益 = -8 |
甲认罪(背叛) | 甲 = 0;乙 = -10;公检 = 2;总收益 = -8 | 甲 = -5;乙 = -5;公检 = 3;总收益 = -7 |
感想
-
很多可以应用“囚徒博弈”的场景,都有隐藏的第三方,其收益在甲乙双方互相背叛时最大化。例如商家的压价竞争,有利于消费者;员工竞相加班,有利于雇主;中国人“内卷”,于是有“低人权优势”。
-
在第三方与甲乙权力平衡的情况下,没有人有先手优势,如竞争市场中商家和消费者的关系——消费者可以选择定价最便宜的商品,商家也可以选择付钱最多的消费者。这时候市场的平衡状态,往往都是使得“集体”收益最大化的。
-
在权力不平衡的情况下,第三方具有先手优势。在这种情况下,第三方会设置甲乙双方的收益参数,使得他们的选择必然导向第三方收益最大化;所谓winner制定规则,loser遵守规则是也。但是是否导向“集体”利益最大化,要看第三方收益在整体收益中所占的比例。由于winners往往是少数,所以实际情况往往更接近例2而非例1的情况。