美女的硬币游戏

这是博弈论中一个相当经典的游戏,它能为生活中的许多场景提供参照。问题的描述如下:
当你走在大街上时,有一位陌生美女上前与你搭讪,并邀请你与她玩一个硬币游戏。她说:“我们同时亮出一枚硬币的一面,或正或反。若我们亮出的都是正面,我给你$3$元;若我们亮出的都是反面,我给你$1$元;若我们亮出的不是同一面,你给我$2$元。”
那么你该不该和美女玩这个硬币游戏呢?或者说,这个游戏是公平的吗?

我们可以用一张表格简明地表示这个游戏中可能出现的各种情况,以及每种情况发生时你的盈亏,这是博弈论中相当常见的支付矩阵(Payoff Matrix)。

美女,你
3 -2
-2 1

通过上面的表格,我们可以发现,游戏总共有4种可能发生的情况。更进一步地说,如果每种情况发生的概率相等,都是$\frac{1}{4}$,那么通过概率论的知识可以算出你的收益期望值:

这么看来,游戏似乎是公平的,长期看来,你的收益是$0$元,不赚也不亏。
但是事实真的是如此吗?或者说,每种情况发生的概率真的相等吗?
在这个游戏中,我们之所以会不假思索地认为每种情况发生的概率相等,是由于各种“抛硬币游戏”带来的思维定势。但在这个例子中,双方做的并不是“各自抛一枚硬币”,而是“各自亮出一枚硬币”。换句话说,每种情况发生的概率,取决于双方的决策。
更进一步地说,双方都可以以一定的概率选择亮出硬币的正面或反面。在这里,我们假设美女亮出正面的概率为$p$,你亮出正面的概率为$q$。此时,你的收益期望值变为:

显然,当$p,q$在$0$到$1$之间任意取值时,你的收益期望值并不一定是$0$。
另一方面,我们可以发现这场游戏的本质是“零和博弈(Zero-sum Game)”,换言之,美女赢的钱就是你输的钱,你赢的钱就是美女输的钱。数学上,如果你的收益期望值是$E$,那么美女的收益期望值就是$-E$。
那么如果我们站在美女的角度来考虑问题,如果她有一种策略可以令$E<0$,则在长期看来她便可以赢走你的钱,即:

这也就是说

我们首先讨论$8p-3>0$的情况,此时上式意味着:

上式右边的$f(q) = \frac{3q-1}{8q-3}$的图像如下图所示:
不等式右边函数的图像
我们发现,它在区间$\frac{3}{8}<q<1$上是递减的,而$f(1)=\frac{2}{5}$。这意味着当$p<\frac{2}{5}$时,不等式成立。
而当$8q-3<0$时,不等式等价于

由于$f(q) = \frac{3q-1}{8q-3}$在区间$0 < q < \frac{3}{8}$上是递减的,而$f(0)=\frac{1}{3}$。这意味着当$p>\frac{1}{3}$时,上式成立。
最后,当$8q-3=0$时,我们发现:

换句话说,此时无论美女的如何,你的收益期望值都是$\frac{1}{8}$。
综上所述,当美女选择的策略为$\frac{1}{3}<p<\frac{2}{5}$时,无论你的策略如何,长期来看美女都能赢走你的钱。换句话说,美女在该游戏中是有必胜策略(Winning Strategy)的。
反过来说,你在该游戏中没有必胜策略。为了论证这一点,不妨反过来站在你的角度来考虑问题,如果你要使收益最大化,即无论美女选择的策略$p$如何,你都不能让美女有机可乘。在这种情况下,无论美女亮出正面还是反面,你的收益期望值相等。这是因为,若二者不相等,美女就可以通过改变概率$p$,来调整正面或反面出现的次数,降低你的收益期望值,此时你就无法做到“收益最大化”。
在这一思路下,当美女亮出硬币正面时,你的收益期望值为:

当美女亮出硬币反面时,你的收益期望值为:

由上述分析,再令$E_F=E_B$,可以解得$p=\frac{3}{8}$。而这个最大化的收益期望值,恰恰就是上文中计算过的:

这也就是说,即使你采取最优策略,长期来看,平均每局也要亏$-\frac{1}{8}$元钱。而如上文所述,美女其实是有必胜策略的。
事实上,以上情况也就是该游戏的混合策略纳什均衡(Mixed Strategy Nash Equilibrium, MSNE),即双方都考虑自己的收益最大化的情况下,就有$E=-\frac{1}{8}$。
美女的硬币游戏,是博弈论中相当经典的模型之一,它十分清晰地表明了在不完全信息博弈中,掌握规则的制定权是多么重要,而生活中在那些我们习以为常的表面公平的规则背后,往往也暗藏着剥削与不公。