海纳百川

登录 | 登录并检查站内短信 | 个人设置 网站首页 |  论坛首页 |  博客 |  搜索 |  收藏夹 |  帮助 |  团队  | 注册  | RSS
主题: 【博弈论漫谈】重复博奕中的行为和行为规则 by云儿
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈
阅读上一个主题 :: 阅读下一个主题  
作者 【博弈论漫谈】重复博奕中的行为和行为规则 by云儿   
秋实
[博客]
[个人文集]

游客









文章标题: 【博弈论漫谈】重复博奕中的行为和行为规则 by云儿 (805 reads)      时间: 2001-12-19 周三, 上午1:06

作者:Anonymous罕见奇谈 发贴, 来自 http://www.hjclub.org

【博弈论漫谈·囚犯博弈】



重复博奕中的行为和行为规则



·云 儿·





  感谢成朴兄贴出“道德的起源”一文。我记得去年我们曾就此文有过争

论,但后来就不了了之了。现在正好用这个机会作个了结。



  楼下“爱情故事中的‘囚犯困境’”,提供了一些背景材料。探讨囚犯

困境中合作的可能性,大致有两条途径:一是不把行为当做人的理性选择结

果, 而是看成由遗传或文化决定,用自然选择来说明合作的起源, 这我在

“认路与进化”提到了一点,成朴兄“道德的起源”说的更多。二是把行为

完完全全当做人的理性选择,探讨合作是否与个体理性相容。下面我想介绍

一下这后一方面的工作,侃侃博奕论中几个相关的概念和分析思路。



  让我们用下面这张报偿表,来描述一个两个人组成的社会。其中每个人

都有两种选择,合作或欺骗。如果两个人都合作,每人各得4分,这显然优

于两个人都欺骗,各人只得2分的情形。问题是,当一人合作时,另一个人

可以从损人利己的欺骗中得到更大的好处。于是,在一次性博奕中,最符合

个体理性的选择就是欺骗,虽然这并不符合两人的共同利益。



             乙

        合 作    欺 骗

     ·---------------·

  合作 |HH 4,4 |HD 0,6 |

甲    |-------+-------|

  欺骗 |DH 6,0 |DD 2,2 |

     ·---------------·



  这个结果并不奇怪。我们从日常经验中也知道,那些打了就跑,不在乎

有没有下次的一锤子买卖,最容易发生欺骗行为。我们要问的是,在什么条

件下,单凭个体理性,无须来自群体以外的强制和干预,也无须改变各人的

偏好,可以保证绝大多数人选择合作而不是欺骗?



  常识的回答是重复博奕:在不断有重复交易的人中间,损人利己故意欺

骗的行为就比较少。然而博弈论却告诉我们,单只重复还不够。只要重复的

次数是有限的,比如说n次,那么,无论这个n有多大,一百也好,一亿也

好,每个人的最佳选择,仍然是次次都玩欺骗。



  这一结论,有非常简明的证法,我们后面再谈。此处先来看看重复博奕

对各人可选策略的影响。一旦博奕可以重复,各人的策略,便不再限于合作

与欺骗两种。甲可以向乙提议:如果你在这次玩合作,那么下次我也玩合作;

如果这次坑我一把,那么我下次也坑你一把。也就是说,每个人可以视对方

以前选择什么行为,来决定自己作何选择。这样,每个人的可选策略集合,

便大大扩展了。



  以两次重复博奕为例。每个人玩第一次时,有合作(H)与欺骗(D)

两种策略可选;玩第二次时,则有四种策略:



HH、永远的傻客:无论对方上次玩什么,我都选择合作;

DD、永远的恶棍:无论对方上次玩什么,我都玩欺骗;

HD、一报还一报:你上次玩什么,这次我也玩什么;你软我也软,你硬我

         也硬;

DH、欺软怕硬术:你上次玩什么,我这次偏玩跟你相反的,你硬我就软,

         你软我就硬。



  第一次和第二次合起来,总共有2乘4等于8种组合,这就是二次重复

博奕的全部8种策略。我们不妨用三个字母来代表一种策略。比如,DHH

策略是第一次玩欺骗(D),第二次当永远的傻客(HH);HHD策略则

是第一次玩合作(H),第二次玩一报还一报(HD)。



  假如甲玩DHH策略,乙玩HDD策略,那么,第一次博奕时,甲玩D,

乙玩H,结果是DH,双方报偿为(6,0);第二次博奕时,甲玩H,乙

玩D(因甲上次玩D),双方报偿是(0,6),两次平均就是(3,3)。

下面这张8x8报偿矩阵,列出了八种策略的全部组合,有兴趣的不妨验证

一下。



                    乙

     HHH DHH HDD DDD HHD DHD HDH DDH

    ·-------------------------------·

 HHH|4,4|2,5|2,5|0,6|4,4|2,5|2,5|0,6|

    |---+---+---+---+---+---+---+---|

 DHH|5,2|3,3|3,3|1,4|3,3|3,3|5,2|1,4|

    |---+---+---+---+---+---+---+---|

 HDD|5,2|3,3|3,3|1,4|5,2|3,3|3,3|1,4|

    |---+---+---+---+---+---+---+---|

 DDD|6,0|4,1|4,1*2,2*4,1|2,2|6,0|4,1|

甲   |---+---+---+---+---+---+---+---|

 HHD|4,4|3,3|2,5|1,4|4,4|1,4|2,5|1。4|

    |---+---+---+---+---+---+---+---|

 DHD|5,2|3,3|3,3|2,2|4,1|2,2|5,2|4,1|

    |---+---+---+---+---+---+---+---|

 HDH|5,2|2,5|3,3|0,6|5,2|2,5|3,3|0,6|

    |---+---+---+---+---+---+---+---|

 DDH|6,0|4,1|4,1|1,4|4,1|1,4|6,0|3,3|

    ·-------------------------------·



  有意思的是,在重复博奕中,个人的策略,不再是具体的行为,而是选

择一套行为规则。具体的行为,一般要通过不同行为规则的互动,才能产生。

比如,HHD策略,遇到第一次玩欺骗的,它也玩欺骗;遇到第一次合作的,

它就玩合作。所以,在重复博奕中,个人所面临的问题,是遵循怎样的行为

规则,才最符合他的最大利益。这是与一次性博奕极不相同的地方。



  在上面的8x8矩阵中,只有一个平衡点,这就是双方都玩DDD--

不仅第一次玩欺骗,而且选择做永远的恶棍,才是最符合个体理性的策略。

这一点,稍稍费点功夫,也是不难验证的。



  实际上,我们可以用逆推法证明,n次重复博奕中,各方永远会选欺骗。

首先,在最后一次博奕中,因为不会再有下一次了,各方必然选择欺骗。其次,

已知各方在最后一次玩欺骗,那么在倒数第二次博奕中,各方也会玩欺骗。以

次类推下去,自然次次都是以欺骗为最优。



  走笔至此,我们得到的结果在在指向合作的不可能,确是令人沮丧。不过,

黑暗即将过去,曙光就在眼前。下一贴将要介绍的无限重复博奕理论,专讲开

明的、眼光长远的自私自利,如何引导人们走向合作。实际上,有无穷多种符

合个体理性的行为规则,都可以达致合作。其中不仅有成朴兄热情歌颂的“善”

的策略,而且还有许多不那么“善”,甚至“恶”的策略,同样能达致合作,

往往还更有效。Axelrod和Ridley单单把“一报还一报”挑出来,

捧到天上去,无视行为规则的多样性,实在是过于草率了。



2000年10月16日草



作者:Anonymous罕见奇谈 发贴, 来自 http://www.hjclub.org
返回顶端
显示文章:     
回复主题   printer-friendly view    海纳百川首页 -> 罕见奇谈 所有的时间均为 北京时间


 
论坛转跳:   
不能在本论坛发表新主题
不能在本论坛回复主题
不能在本论坛编辑自己的文章
不能在本论坛删除自己的文章
不能在本论坛发表投票
不能在这个论坛添加附件
不能在这个论坛下载文件


based on phpbb, All rights reserved.
[ Page generation time: 0.052427 seconds ] :: [ 23 queries excuted ] :: [ GZIP compression enabled ]