海纳百川 :: 阅读主题 - 【博弈论漫谈】重复博奕中的行为和行为规则 by云儿

海纳百川

登录 \| 登录并检查站内短信 \| 个人设置	网站首页 \| 论坛首页 \| 博客 \| 搜索 \| 收藏夹 \| 帮助 \| 团队 \| 注册 \| RSS


	主题: 【博弈论漫谈】重复博奕中的行为和行为规则 by云儿

海纳百川首页 -> 罕见奇谈

阅读上一个主题 :: 阅读下一个主题

作者

【博弈论漫谈】重复博奕中的行为和行为规则 by云儿

秋实
[博客]
[个人文集]

游客

标题: 【博弈论漫谈】重复博奕中的行为和行为规则 by云儿 (932 reads) 时间: 2001-12-19 周三, 上午1:06

作者：Anonymous 在罕见奇谈发贴, 来自 http://www.hjclub.org

【博弈论漫谈·囚犯博弈】

重复博奕中的行为和行为规则

·云儿·

　　感谢成朴兄贴出“道德的起源”一文。我记得去年我们曾就此文有过争

论，但后来就不了了之了。现在正好用这个机会作个了结。

　　楼下“爱情故事中的‘囚犯困境’”，提供了一些背景材料。探讨囚犯

困境中合作的可能性，大致有两条途径：一是不把行为当做人的理性选择结

果，而是看成由遗传或文化决定，用自然选择来说明合作的起源，这我在

“认路与进化”提到了一点，成朴兄“道德的起源”说的更多。二是把行为

完完全全当做人的理性选择，探讨合作是否与个体理性相容。下面我想介绍

一下这后一方面的工作，侃侃博奕论中几个相关的概念和分析思路。

　　让我们用下面这张报偿表，来描述一个两个人组成的社会。其中每个人

都有两种选择，合作或欺骗。如果两个人都合作，每人各得４分，这显然优

于两个人都欺骗，各人只得２分的情形。问题是，当一人合作时，另一个人

可以从损人利己的欺骗中得到更大的好处。于是，在一次性博奕中，最符合

个体理性的选择就是欺骗，虽然这并不符合两人的共同利益。

　　　　　　　　　　　　　乙

　　　　　　　　合　作　　　　欺　骗

　　　　　·－－－－－－－－－－－－－－－·

　　合作　｜ＨＨ　４，４　｜ＨＤ　０，６　｜

甲　　　　｜－－－－－－－＋－－－－－－－｜

　　欺骗　｜ＤＨ　６，０　｜ＤＤ　２，２　｜

　　　　　·－－－－－－－－－－－－－－－·

　　这个结果并不奇怪。我们从日常经验中也知道，那些打了就跑，不在乎

有没有下次的一锤子买卖，最容易发生欺骗行为。我们要问的是，在什么条

件下，单凭个体理性，无须来自群体以外的强制和干预，也无须改变各人的

偏好，可以保证绝大多数人选择合作而不是欺骗？

　　常识的回答是重复博奕：在不断有重复交易的人中间，损人利己故意欺

骗的行为就比较少。然而博弈论却告诉我们，单只重复还不够。只要重复的

次数是有限的，比如说ｎ次，那么，无论这个ｎ有多大，一百也好，一亿也

好，每个人的最佳选择，仍然是次次都玩欺骗。

　　这一结论，有非常简明的证法，我们后面再谈。此处先来看看重复博奕

对各人可选策略的影响。一旦博奕可以重复，各人的策略，便不再限于合作

与欺骗两种。甲可以向乙提议：如果你在这次玩合作，那么下次我也玩合作；

如果这次坑我一把，那么我下次也坑你一把。也就是说，每个人可以视对方

以前选择什么行为，来决定自己作何选择。这样，每个人的可选策略集合，

便大大扩展了。

　　以两次重复博奕为例。每个人玩第一次时，有合作（Ｈ）与欺骗（Ｄ）

两种策略可选；玩第二次时，则有四种策略：

ＨＨ、永远的傻客：无论对方上次玩什么，我都选择合作；

ＤＤ、永远的恶棍：无论对方上次玩什么，我都玩欺骗；

ＨＤ、一报还一报：你上次玩什么，这次我也玩什么；你软我也软，你硬我

　　　　　　　　　也硬；

ＤＨ、欺软怕硬术：你上次玩什么，我这次偏玩跟你相反的，你硬我就软，

　　　　　　　　　你软我就硬。

　　第一次和第二次合起来，总共有２乘４等于８种组合，这就是二次重复

博奕的全部８种策略。我们不妨用三个字母来代表一种策略。比如，ＤＨＨ

策略是第一次玩欺骗（Ｄ），第二次当永远的傻客（ＨＨ）；ＨＨＤ策略则

是第一次玩合作（Ｈ），第二次玩一报还一报（ＨＤ）。

　　假如甲玩ＤＨＨ策略，乙玩ＨＤＤ策略，那么，第一次博奕时，甲玩Ｄ，

乙玩Ｈ，结果是ＤＨ，双方报偿为（６，０）；第二次博奕时，甲玩Ｈ，乙

玩Ｄ（因甲上次玩Ｄ），双方报偿是（０，６），两次平均就是（３，３）。

下面这张８ｘ８报偿矩阵，列出了八种策略的全部组合，有兴趣的不妨验证

一下。

　　　　　　　　　　　　　　　　　　　　乙

　　　　　ＨＨＨ　ＤＨＨ　ＨＤＤ　ＤＤＤ　ＨＨＤ　ＤＨＤ　ＨＤＨ　ＤＤＨ

　　　　·－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－·

　ＨＨＨ｜４，４｜２，５｜２，５｜０，６｜４，４｜２，５｜２，５｜０，６｜

　　　　｜－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－｜

　ＤＨＨ｜５，２｜３，３｜３，３｜１，４｜３，３｜３，３｜５，２｜１，４｜

　　　　｜－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－｜

　ＨＤＤ｜５，２｜３，３｜３，３｜１，４｜５，２｜３，３｜３，３｜１，４｜

　　　　｜－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－｜

　ＤＤＤ｜６，０｜４，１｜４，１＊２，２＊４，１｜２，２｜６，０｜４，１｜

甲　　　｜－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－｜

　ＨＨＤ｜４，４｜３，３｜２，５｜１，４｜４，４｜１，４｜２，５｜１。４｜

　　　　｜－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－｜

　ＤＨＤ｜５，２｜３，３｜３，３｜２，２｜４，１｜２，２｜５，２｜４，１｜

　　　　｜－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－｜

　ＨＤＨ｜５，２｜２，５｜３，３｜０，６｜５，２｜２，５｜３，３｜０，６｜

　　　　｜－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－＋－－－｜

　ＤＤＨ｜６，０｜４，１｜４，１｜１，４｜４，１｜１，４｜６，０｜３，３｜

　　　　·－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－·

　　有意思的是，在重复博奕中，个人的策略，不再是具体的行为，而是选

择一套行为规则。具体的行为，一般要通过不同行为规则的互动，才能产生。

比如，ＨＨＤ策略，遇到第一次玩欺骗的，它也玩欺骗；遇到第一次合作的，

它就玩合作。所以，在重复博奕中，个人所面临的问题，是遵循怎样的行为

规则，才最符合他的最大利益。这是与一次性博奕极不相同的地方。

　　在上面的８ｘ８矩阵中，只有一个平衡点，这就是双方都玩ＤＤＤ－－

不仅第一次玩欺骗，而且选择做永远的恶棍，才是最符合个体理性的策略。

这一点，稍稍费点功夫，也是不难验证的。

　　实际上，我们可以用逆推法证明，ｎ次重复博奕中，各方永远会选欺骗。

首先，在最后一次博奕中，因为不会再有下一次了，各方必然选择欺骗。其次，

已知各方在最后一次玩欺骗，那么在倒数第二次博奕中，各方也会玩欺骗。以

次类推下去，自然次次都是以欺骗为最优。

　　走笔至此，我们得到的结果在在指向合作的不可能，确是令人沮丧。不过，

黑暗即将过去，曙光就在眼前。下一贴将要介绍的无限重复博奕理论，专讲开

明的、眼光长远的自私自利，如何引导人们走向合作。实际上，有无穷多种符

合个体理性的行为规则，都可以达致合作。其中不仅有成朴兄热情歌颂的“善”

的策略，而且还有许多不那么“善”，甚至“恶”的策略，同样能达致合作，

往往还更有效。Ａｘｅｌｒｏｄ和Ｒｉｄｌｅｙ单单把“一报还一报”挑出来，

捧到天上去，无视行为规则的多样性，实在是过于草率了。

２０００年１０月１６日草

作者：Anonymous 在罕见奇谈发贴, 来自 http://www.hjclub.org

返回顶端

Axelrod叫兽推荐的在线游戏:人生一场好赌 -- 藏獒 - (78 Byte) 2001-12-19 周三, 上午1:23 (525 reads)

就是那家伙 -- 蓝极 - (676 Byte) 2001-12-19 周三, 上午1:58 (495 reads)

过于草率？ -- 秋实 - (1486 Byte) 2001-12-19 周三, 上午8:21 (383 reads)

呵呵，大概是 -- 秋实 - (36 Byte) 2001-12-19 周三, 上午1:27 (416 reads)

可惜没有 -- 藏獒 - (190 Byte) 2001-12-19 周三, 上午1:33 (420 reads)

唉，没功夫玩了 -- 秋实 - (214 Byte) 2001-12-19 周三, 上午8:29 (372 reads)

显示文章:

海纳百川首页 -> 罕见奇谈

所有的时间均为北京时间

您不能在本论坛发表新主题
您不能在本论坛回复主题
您不能在本论坛编辑自己的文章
您不能在本论坛删除自己的文章
您不能在本论坛发表投票
您不能在这个论坛添加附件
您不能在这个论坛下载文件

[ Page generation time: 8.972122 seconds ] :: [ 21 queries excuted ] :: [ GZIP compression enabled ]