阅读上一个主题 :: 阅读下一个主题 |
作者 |
【博弈论漫谈】重复博奕中的行为和行为规则 by云儿 |
 |
秋实 [博客] [个人文集]
游客
|
|
|
作者:Anonymous 在 罕见奇谈 发贴, 来自 http://www.hjclub.org
【博弈论漫谈·囚犯博弈】
重复博奕中的行为和行为规则
·云 儿·
感谢成朴兄贴出“道德的起源”一文。我记得去年我们曾就此文有过争
论,但后来就不了了之了。现在正好用这个机会作个了结。
楼下“爱情故事中的‘囚犯困境’”,提供了一些背景材料。探讨囚犯
困境中合作的可能性,大致有两条途径:一是不把行为当做人的理性选择结
果, 而是看成由遗传或文化决定,用自然选择来说明合作的起源, 这我在
“认路与进化”提到了一点,成朴兄“道德的起源”说的更多。二是把行为
完完全全当做人的理性选择,探讨合作是否与个体理性相容。下面我想介绍
一下这后一方面的工作,侃侃博奕论中几个相关的概念和分析思路。
让我们用下面这张报偿表,来描述一个两个人组成的社会。其中每个人
都有两种选择,合作或欺骗。如果两个人都合作,每人各得4分,这显然优
于两个人都欺骗,各人只得2分的情形。问题是,当一人合作时,另一个人
可以从损人利己的欺骗中得到更大的好处。于是,在一次性博奕中,最符合
个体理性的选择就是欺骗,虽然这并不符合两人的共同利益。
乙
合 作 欺 骗
·---------------·
合作 |HH 4,4 |HD 0,6 |
甲 |-------+-------|
欺骗 |DH 6,0 |DD 2,2 |
·---------------·
这个结果并不奇怪。我们从日常经验中也知道,那些打了就跑,不在乎
有没有下次的一锤子买卖,最容易发生欺骗行为。我们要问的是,在什么条
件下,单凭个体理性,无须来自群体以外的强制和干预,也无须改变各人的
偏好,可以保证绝大多数人选择合作而不是欺骗?
常识的回答是重复博奕:在不断有重复交易的人中间,损人利己故意欺
骗的行为就比较少。然而博弈论却告诉我们,单只重复还不够。只要重复的
次数是有限的,比如说n次,那么,无论这个n有多大,一百也好,一亿也
好,每个人的最佳选择,仍然是次次都玩欺骗。
这一结论,有非常简明的证法,我们后面再谈。此处先来看看重复博奕
对各人可选策略的影响。一旦博奕可以重复,各人的策略,便不再限于合作
与欺骗两种。甲可以向乙提议:如果你在这次玩合作,那么下次我也玩合作;
如果这次坑我一把,那么我下次也坑你一把。也就是说,每个人可以视对方
以前选择什么行为,来决定自己作何选择。这样,每个人的可选策略集合,
便大大扩展了。
以两次重复博奕为例。每个人玩第一次时,有合作(H)与欺骗(D)
两种策略可选;玩第二次时,则有四种策略:
HH、永远的傻客:无论对方上次玩什么,我都选择合作;
DD、永远的恶棍:无论对方上次玩什么,我都玩欺骗;
HD、一报还一报:你上次玩什么,这次我也玩什么;你软我也软,你硬我
也硬;
DH、欺软怕硬术:你上次玩什么,我这次偏玩跟你相反的,你硬我就软,
你软我就硬。
第一次和第二次合起来,总共有2乘4等于8种组合,这就是二次重复
博奕的全部8种策略。我们不妨用三个字母来代表一种策略。比如,DHH
策略是第一次玩欺骗(D),第二次当永远的傻客(HH);HHD策略则
是第一次玩合作(H),第二次玩一报还一报(HD)。
假如甲玩DHH策略,乙玩HDD策略,那么,第一次博奕时,甲玩D,
乙玩H,结果是DH,双方报偿为(6,0);第二次博奕时,甲玩H,乙
玩D(因甲上次玩D),双方报偿是(0,6),两次平均就是(3,3)。
下面这张8x8报偿矩阵,列出了八种策略的全部组合,有兴趣的不妨验证
一下。
乙
HHH DHH HDD DDD HHD DHD HDH DDH
·-------------------------------·
HHH|4,4|2,5|2,5|0,6|4,4|2,5|2,5|0,6|
|---+---+---+---+---+---+---+---|
DHH|5,2|3,3|3,3|1,4|3,3|3,3|5,2|1,4|
|---+---+---+---+---+---+---+---|
HDD|5,2|3,3|3,3|1,4|5,2|3,3|3,3|1,4|
|---+---+---+---+---+---+---+---|
DDD|6,0|4,1|4,1*2,2*4,1|2,2|6,0|4,1|
甲 |---+---+---+---+---+---+---+---|
HHD|4,4|3,3|2,5|1,4|4,4|1,4|2,5|1。4|
|---+---+---+---+---+---+---+---|
DHD|5,2|3,3|3,3|2,2|4,1|2,2|5,2|4,1|
|---+---+---+---+---+---+---+---|
HDH|5,2|2,5|3,3|0,6|5,2|2,5|3,3|0,6|
|---+---+---+---+---+---+---+---|
DDH|6,0|4,1|4,1|1,4|4,1|1,4|6,0|3,3|
·-------------------------------·
有意思的是,在重复博奕中,个人的策略,不再是具体的行为,而是选
择一套行为规则。具体的行为,一般要通过不同行为规则的互动,才能产生。
比如,HHD策略,遇到第一次玩欺骗的,它也玩欺骗;遇到第一次合作的,
它就玩合作。所以,在重复博奕中,个人所面临的问题,是遵循怎样的行为
规则,才最符合他的最大利益。这是与一次性博奕极不相同的地方。
在上面的8x8矩阵中,只有一个平衡点,这就是双方都玩DDD--
不仅第一次玩欺骗,而且选择做永远的恶棍,才是最符合个体理性的策略。
这一点,稍稍费点功夫,也是不难验证的。
实际上,我们可以用逆推法证明,n次重复博奕中,各方永远会选欺骗。
首先,在最后一次博奕中,因为不会再有下一次了,各方必然选择欺骗。其次,
已知各方在最后一次玩欺骗,那么在倒数第二次博奕中,各方也会玩欺骗。以
次类推下去,自然次次都是以欺骗为最优。
走笔至此,我们得到的结果在在指向合作的不可能,确是令人沮丧。不过,
黑暗即将过去,曙光就在眼前。下一贴将要介绍的无限重复博奕理论,专讲开
明的、眼光长远的自私自利,如何引导人们走向合作。实际上,有无穷多种符
合个体理性的行为规则,都可以达致合作。其中不仅有成朴兄热情歌颂的“善”
的策略,而且还有许多不那么“善”,甚至“恶”的策略,同样能达致合作,
往往还更有效。Axelrod和Ridley单单把“一报还一报”挑出来,
捧到天上去,无视行为规则的多样性,实在是过于草率了。
2000年10月16日草
作者:Anonymous 在 罕见奇谈 发贴, 来自 http://www.hjclub.org |
|
|
返回顶端 |
|
 |
- Axelrod叫兽推荐的在线游戏:人生一场好赌 -- 藏獒 - (78 Byte) 2001-12-19 周三, 上午1:23 (478 reads)
- 就是那家伙 -- 蓝极 - (676 Byte) 2001-12-19 周三, 上午1:58 (425 reads)
- 过于草率? -- 秋实 - (1486 Byte) 2001-12-19 周三, 上午8:21 (336 reads)
- 呵呵,大概是 -- 秋实 - (36 Byte) 2001-12-19 周三, 上午1:27 (368 reads)
- 可惜没有 -- 藏獒 - (190 Byte) 2001-12-19 周三, 上午1:33 (370 reads)
- 唉,没功夫玩了 -- 秋实 - (214 Byte) 2001-12-19 周三, 上午8:29 (327 reads)
|
|
|
您不能在本论坛发表新主题 您不能在本论坛回复主题 您不能在本论坛编辑自己的文章 您不能在本论坛删除自己的文章 您不能在本论坛发表投票 您不能在这个论坛添加附件 您不能在这个论坛下载文件
|
based on phpbb, All rights reserved.
|