开篇:润墨网以专业的文秘视角,为您筛选了一篇阿克塞尔罗德合作进化理论的研究范文,如需获取更多写作素材,在线客服老师一对一协助。欢迎您的阅读与分享!
[摘 要]本文全面地介绍了阿克塞尔罗德的重复博弈实验的内容和结果,并简述了合作策略的鲁棒性、稳定性和初始存活性。“一报还一报”策略在三次实验中都获得了胜利,它表明优秀的策略应该具有善良性、报复性、宽容性和清晰性。实验证明即使在缺少政府权威的人群里,合作与秩序的建立也是可能的,同时,友谊与预见也并非一定需要。
[关键词]合作 囚徒困境 重复博弈
一、引言
合作在社会的发展中起着重要的作用。但是,从最简单的囚徒困境的格局来看,追求自身利益最大化的理性人无法达成合作。于是,我们必须面对这样一个问题:在什么条件下,每个具有自私动机的人能够产生合作?也就是说,人类如何能够跳出“囚徒困境”的陷阱。
从历史上看,人类从来没有间断对这一关系自身福祉的问题的思考。中国古代的儒家思想中就有“忠恕”的观点。“忠”如果表述为忠君,则说明一个强权可以带来平衡并维系一种普遍的合作;“恕”则寄托于人与人之间的宽容。而在西方思想史上,霍布斯(Hobbes)则认为“在没有一个共同的权力使大家慑服的时候,人们便处在了所谓的战争状态之下”。卢梭(Rousseau)尽管声称“自由乃是人性的产物”以及“社会契约理论”,但通过对法国大革命及一系列历史事件的观察,却可以发现,卢梭的真实主张仍然是寄托于“集体理性”这种权威来达到普遍的服从与合作(朱学勤,1991)。
那么,能否从没有集权的利己主义者中产生合作呢?
基于上述的问题意识和博弈论、行为分析的学科背景,阿克塞尔罗德(Axelrod)教授组织了两轮“囚徒困境重复博弈计算机竞赛”,同时又对其复杂性进行了探讨,其结果在社会科学及进化生物学等多个领域产生了具有冲击性的影响。在具体讨论之前,先简单介绍一下阿克塞尔罗德教授。阿克塞尔罗德获芝加哥大学数学学士(1964),耶鲁大学政治学硕士(1966)和博士(1969),现为密歇根大学政治学与公共政策教授,美国科学院院士,因博弈论和复杂性问题的研究而广为人知。
二、合作的出现与建立
(1)囚徒困境
囚徒困境(the Prisoner Dilemma)是我们熟知的经典的博弈论模型,如图1。博弈者A和B只有两种选择,要么合作,要么背叛。
图1 囚徒困境博弈模型的一般形式
(博弈者A的收益值在前面)
其中,R代表对双方合作的奖励;S代表自己合作而对方背叛时的收益,T代表对方合作而自己背叛的收益,即可认为是背叛的诱惑;P代表双方背叛时的惩罚。
对于变量的赋值要求满足T>R>P>S和R>(T+S)/2,这样可以保证博弈方不能通过轮流背叛来摆脱困境。为了便于计算,阿克塞尔罗德教授将其赋值为T=5,R=3,P=1,S=0。
根据博弈论的知识判断,在一次或者有限次的博弈中,双方都选择背叛是唯一的一个纳什均衡。那么在无限次博弈中呢,是否存在最好的策略在谋求自身利益最大化的同时达到合作?阿克塞尔罗德教授的实验就是要找到这些答案。
(2)两轮实验与生态分析的内容与结果
阿克塞尔罗德教授邀请了博弈论专家提送自认为最好的策略来参加计算机竞赛,每个策略都假设为囚徒困境中的一个博弈方,在每一步中选择合作或者背叛来应对对手以期达到收益的长期最大化。竞赛是循环进行的,每一个参赛程序都与其他程序相遇,同样,他们还要与自己和一个随机的程序相遇。每一局的支付矩阵与图一中的相同,双方合作每人3分,双方背叛没人1分,如果一人背叛一人合作,则背叛者得5分,合作者得0分。具体的计分方式为,在200次对局中,优秀成绩的基准线为600分,相当于总是合作的得分。差劣的基准线为200分,相当于双方从不合作的总得分。可以预计,大部分的得分应该在200到600之间。
第一轮竞赛中,有几个代表性的策略:
1. 一报还一报(Tit for Tat)。这是一个最简单的策略,它第一步选择合作,然后按照对方上一步的选择去做。对方合作,自己也合作;对方背叛,自己就背叛。
2. 唐宁(Downing)。如果对方似乎不对“唐宁”的行为作出反应,“唐宁”将试着背叛;如果对方背叛,“唐宁”就合作。
3. 乔斯(Joss)。这是一个狡诈的策略,它试图偶尔进行背叛而不受惩罚。
结果出乎意料,最简单的“一报还一报”策略赢得了竞赛,它的平均得分为504分。前8名的参赛者都是善良的,其他则都不是,善良者的得分在472到504之间,而不善良的平均得分为401。
作为一个善良的策略,“一报还一报”在与无论是善良或者不善良的策略相遇时,总能产生合作或者付出代价敦促对方合作。它从不主动背叛,而且事实上,它从没有战胜对手,它的成功建立在与对手共同繁荣的基础之上。
为了进一步研究,阿克塞尔罗德教授又组织了第二轮竞赛。而且第二轮的参赛者都得到了第一轮竞赛的详细报告。第二轮竞赛比第一轮更有说服力,因为不同的参赛者从前一轮竞赛中得到了不同的经验教训。
第二轮竞赛中除了“一报还一报”策略,同样有几个典型策略:
1.检验者(Tester)。专门用来欺负软骨头,如果对方报复,它就合作,而且它从不连续两次背叛。
2.镇定者(Tranquilizer)。它首先争取与对方建立合作关系,然后才偶尔尝试是否有便宜可占,而且尽量避免自己的行为太过分。
同时,在第二轮竞赛中也存在如“两报还一报”的更加宽容的策略。
结果,“一报还一报”再次赢得了竞赛。和第一轮一样,善良得到了回报。在前15名的策略中,只有一个不是善良的(位列第八)。在最后15名的策略中只有一个是善良的。一个策略的善良与否和它的竞赛得分的相关性是有意义的,其值为0.58。但是,很多善良的策略在第二轮中受到了如“检验者”和“镇定者”
的有效的剥削,尽管这两个策略自身的表现也并非突出。 从第二轮的实验来看,善良能得到好处,报复同样能得到好处。对付无缘无故的背叛者,就应该采取果断的行动予以报复。