极简博弈论丨囚徒困境与冲突艺术

本文发布于 292 天前，最后更新于 292 天前，其中的信息可能已经有所发展或是发生改变。

什么是博弈？

很小的时候我就在想，世间是否有全知全能之神，可以在任何时刻做出一个最正确的决策。后来我才知道，这种假设叫做拉普拉斯妖。
不过我们可以退一步，将决策范围缩小到围棋、象棋、五子棋、井字棋这种智力游戏中，可以预见的是，大多数人都会认同这种游戏在理论上任何棋局都必然有一个解。也许可能会发生以下滑稽的一幕“两位世界级的完全理性的象棋选手，在下了几步棋之中，一方突然认输”。根据冯诺依曼的说法，下棋算不上博弈，因为下棋是一种定义十分完善的计算，而真正的博弈并非如此，现实生活中博弈里至少包含了虚张声势、欺骗和试探等等，而博弈论恰恰是研究在有思想的、可能会骗人的对手之间的冲突的学问。这也许让博弈论听起来似乎更像是心理学的一个分支而不是数学的分支。实际上，它是数学的一个分支，因为对局双方都被认为是完全有理性的，因此博弈论认可精确的分析；更确切地说，博弈论是数理逻辑的一个分支，它研究人（并不总是理性的）之间的冲突。

“博弈”就是一种冲突的态势，在这种态势下，一个人必须做出一种选择，并且知道对方也在做出选择，所有的选择规定的某种方式将确定冲突的结果。更有甚者，像扑克游戏中那样，相互猜测必然引起无尽的推理链（例如：我预判了你预判了我的预判，所以我不这么做）。
只要有利益冲突的地方就会出现博弈，举个简单的例子。两个小孩子分一个蛋糕，如何让两个小孩子都满意？解决这个问题的最佳方法是让一个孩子切蛋糕，让另一个孩子先选。出于贪心，第一个孩子会切得很公平，而且由于是他自己切的，他不会对两块蛋糕是否一般大提出异议；第二个孩子也不可能抱怨，因为他拿的那一块是自己挑的。这个答案并不依赖于孩子的大度或者公平意识，而是由两个孩子各自的利益所驱使的。博弈论寻找的正是这类答案。博弈论只研究对赢感兴趣的、有完善的逻辑思维能力的游戏者参与的博弈。只有你相信你的对手（一个或几个）既是理性的，又是希望赢的，而你自己在玩的时候也始终憋着一股劲儿，要力争为自己取得最好的结果，这样的博弈才是博弈论分析的对象。
当然，现实中往往会有更多复杂的博弈。例如在扑克游戏中，双方所能够试探获取的信息就是不对称的。在扑克游戏中，当你手上有一副好牌时，你要高调叫牌；当你手上的牌比较差时，你应该不时地用一些唬人战术，而不是缩手缩脚地叫牌。唬人一方总比不唬人一方占便宜，因此，冯·诺依曼认为理性的打牌者必须会虚张声势。

极小极大定理与纳什均衡

冯诺依曼提出的极小极大定理认为一个人在博弈中能期盼的最好结果就是避免最坏的情况。再次以切蛋糕为例，两个孩子分蛋糕，切蛋糕的孩子知道分蛋糕的孩子一定会选走较大的那块蛋糕，那么他自己唯一能做的就是使得较小的那块蛋糕尽可能的大一些（当然也许最后两块会一样大），从而使得避免最坏的情况。极小极大定理证明，对每一个有限的二人零和博弈，都存在一个理性解，其形式或为纯策略，或为混合策略。换成猜拳游戏，根据极小极大定理最好的策略就是按照1/3的概率来出石头、剪刀、布，因为这样你的预期收益是0，无论对方给出什么对策，你都不会处于劣势。当然，也会有不少人在博弈中选择修正。例如，当你发现你的对手似乎更偏好于出剪刀时，那么你可能就会将原来的完全平均随机策略，向更倾向于出石头靠拢，但修正以后的策略就不再是最佳的了，而且可能因暴露你自己而被反过来利用。
另一位对博弈论做出巨大贡献的学者纳什则根据人们常见的马后炮分析提出了平衡点理论，也就是纳什均衡。所谓平衡点是双方都无怨无悔的结果，其分析方法如下：在博弈之后进行事后分析，轮流询问每个参与者，在对手的玩法已经确定的情况下，你是否愿意对玩法做一些变动？如果每个人都乐于接受刚才的玩法并且不再做任何变动，那么刚才的结果就是平衡点。
同样以分蛋糕为例，假如切蛋糕的孩子已经知道了，分蛋糕的孩子一定会拿走较大的那块蛋糕，那么平分这个蛋糕是否会让他后悔？显然不会，因为平分使得他至少能拿走一半。而分蛋糕的孩子同样不会后悔，因为他拿走了较大的一块（即使可能只是蛋糕的一半）。即对于任何一个结果，如果给玩家机会，某个游戏者愿意改变其策略，那么这个结果就是不稳定的，因此可以推测这不是一个理性的玩法。
在著名的博弈“囚徒困境”中，纳什均衡点策略叫做背叛。不管对方怎么做，一个游戏者最好总是选择背叛。

如果你选择了背叛，那么你可能会获得引诱回报立即释放，当然最坏也可能是获得正常回报被关3年，如果你选择合作，你的最坏结果可能是傻瓜回报被关5年。囚徒的困境的全部魅力就在于通过相互合作可以获得共同利益，这就造成了十分奇怪、令人糊涂的扭曲——两个具有“逻辑”的参与者通过选择背叛策略反而害了他们自己。

现实中的博弈

在现实中炮制囚徒的困境并不难，其主要作料是一种诱饵，这种作料使某一个人的利益更加突出。但如果每个人都使用这种作料，其后果却将是毁灭性的。遗憾的是，这种作料有着充分的供应。由于这个原因，有人从中看出了社会的基本问题——如果你愿意，可以把它叫作“邪恶问题”。历史上的诸多悲剧不是自然灾害而是人为灾害导致的，是某些个人或某些集团采取对抗共同利益的行动的结果。在新西兰，售报箱是以自助方式来运作的，读者取走一份报纸，同时丢一个硬币在集币箱里，没有任何装置可以阻止读者不付钱就取走报纸。显然，由于大家都认识到搞欺诈的后果是什么，所以极少有读者去偷报纸。但在美国，报箱不上锁是不可想象的！
当然，现实中还有涉及道德伦理的囚徒困境，例如绑架问题。如果与绑架犯合作，那么绑架将会继续发生，如果不合作，那么人质会死亡。是否满足恐怖分子或绑架者的要求做出极为痛苦的决定通常，人们情愿交付赎金，只要人质安全归来。但是，交出赎金会鼓励其他绑架者，将来会有更多的人被扣押作为人质。如果从来没有人交过赎金，也许就不会有绑架者了。再或者志愿者困境，在志愿者的困境中，必须有一个人去做一件有利于每一个人但却很琐碎的事。谁去做都一样，但是如果没有人去做，那么每一个人都将处于麻烦之中。如果每一个人都自觉自愿地把钱贡献出来用于维护道路，开设学校和邮局，以及完成其他政府职能，那就太好了。但是，许多人什么也不想付出，很少有人愿意这样去做。在每一个人都要付出的情况下，大多数人确信用于公共事务的赋税是合乎需要的。因此，政府强迫征税。

博弈的分类与引申

博弈根据不同的策略性质往往可以分为四类博弈，我们把D记作背叛，C记作合作，按照收益划分可以分为
DC> DD> CC> CD　僵局博弈
DC> CC> DD> CD　囚徒困境
DC> CC> CD> DD　胆小鬼博弈
CC> DC> DD> CD　围捕牡鹿博弈
其中僵局博弈是最复杂的一种博弈，在僵局博弈中双方都能轻易猜到对方会选择互相背叛，而互相背叛的收益是要大于相互合作的。例如两个拥有核武器的国家，提出互相销毁核武器，实际上相互背叛的收益（即不销毁核武器）要大于相互合作（双方都销毁核武器）。
当然，博弈的次数也是很有趣的话题。如果理性的参试者在第100次对弈中一定会选择背叛的话，这意味着倒数第二次是在合作和背叛中进行选择，同时也是有意义的最后一次。换句话说，在第99次对弈中你最好也选择背叛，你不必担心对手会发狂并在第100次背叛——我们已经确定他会这样做了。基础在我们的脚下崩溃了！根据上面的分析，第98次成了有可能合作的最后一次对弈。但如果这样，你可以没有任何疑虑不安在第98次背叛。从第98次出发，你在第97次也可以背叛。依此类推，第96次、第95次、第94次……直至第1次对弈，你在每一次二难博弈中都应该背叛。结论就是：反复进行多次的囚徒的困境博弈归根到底和一次性博弈没有什么不同。
在自然界中，最佳的连续博弈策略被称为“一报还一报”。一报还一报发出下列威胁：“你希望别人怎么对待你，你就应该怎么对待别人，否则，哼！”没有一个策略能发出这么复杂的威胁。当然，这个威胁是隐含在该策略本身的行为之中的，它通过重复对手最近一次的行动来发出这个威胁。威胁的用意在于“希望”对方“认识到”一报还一报在干什么。如果对方认识到了，那么他将得出结论：背叛只会伤害他自己。
最后再介绍一种拍卖中很有趣的博弈，这种博弈被称为美元拍卖。美元拍卖被发明出来时，玩法是你可以以任意的价格拍买1美元（例如1美分），此后不断加价，价高者得，但是次价高者同样需要付出代价，并且不会得到任何东西。这个游戏的圈套在于，当有人上钩之后，次价高者会为了尽可能减小损失而不断与价高者进行角逐。在现实中，这个拍卖方法被加以改进，次价高者不必再付出代价，而价高者则可以以次价高者提出的价格买走这件商品。生活中的美元拍卖博弈太多了，例如在一笔不会成交的买卖上投入更多时间，等公交时再多等几分钟，在不满意的工作中虚度时间，这些都是美元拍卖，但当我们发觉这是个圈套时，我们已经深陷其中，成了次价高者。

在无数的冲突和博弈中，我们到底该怎么做呢？总的来说，这仍然是一个无法解决的问题，也许永远也解决不了。康德的结论是，合乎道德的行为是可以被普遍化的行为。换句话说，你总要问问自己：如果每个人都这样做，将会怎么样？这就是我们为什么要借助于法律、道德，以及所有其他能促进合作的社会机制。冯·诺依曼认为，人类是否能长期生存下去，取决于我们是否能提出更好的办法，以促进比已经存在的合作更多的合作。

Year Progress

近期文章

分类

什么是博弈？

极小极大定理与纳什均衡

现实中的博弈

博弈的分类与引申

发送评论编辑评论

什么是博弈？

极小极大定理与纳什均衡

现实中的博弈

博弈的分类与引申

发送评论 编辑评论

推荐文章

发送评论编辑评论