书评:《合作的进化》
在持续的"重复囚徒困境"中应如何表现,下面是四个简单的建议:
1.不要嫉妒;
2.不要首先背叛;
3.对合作与背叛都要给以回报;
4.不要耍小聪明。
这本书是绝佳的博弈论科普教材,作者从最简单的囚徒困境模型入手,引申出了一套完整的系统理论,这才叫大师。书中得出的很多结论都是老生常谈,比如 “不要嫉妒”、“要善良”、“信誉很重要” 之类,但本书把这些看似轻浮无力的 “老人墙角下晒着太阳嘟嘟囔囔的人生哲学” 串联到了一个强大的理论体系中。解释和预测一些事情不难,但是能解释一系列的看似互不关联的事情、并把它们纳入到一个统一的理论体系中则是领域开山鼻祖才有的气魄和能力。
第二章计算机竞赛选出囚徒困境最佳策略的过程非常有趣,更精妙的是,后续引入遗传过程让各种策略在代际间持续作用,深刻地揭示了“占便宜策略”无法长久的原因:那些冤大头久而久之活不下去了,也就无便宜可占了。
第三章能从囚徒困境这一简单模型中引申出如此丰富又坚实的命题,非常有趣有又颇具启发性。“小人” 集体容易被 “善良” 小群体侵入,反之则不可行,因为 “善良” 的群体本身已经达到了利益最大化。这种不对称性科学地说明了善良的重要性,这远比任何口泛白沫的圣人说教都有力得多。
第五章中博弈理论与生物进化的结合非常有趣,行文中看到了理查德·道金斯的影子。一个善意的小群体可以在充满背叛的种群中立足成长,同时从基因层面看,利他基因也可以达到一样的效果。提升合作双方后续的相遇概率这一点在生物界中就表现为共生现象和领地意识。而当机体趋于衰老和病态时,疾病或病毒会转向“背叛”以获取更高收益,即疾病恶化。
第六章中用博弈论解释 “不要嫉妒” 的内容振聋发聩:嫉妒会引发 “背叛” 策略,进而让人走向自我毁灭。而如果认识到大多数合作并非零和博弈并转向合作策略的话,你就能获得实打实的利益。
在最后几章中,作者的见微知著从合作策略本身的分析上升到了行为规范和社会结构,通过简洁有力又强大无比的模型讨论了核战争、环境保护、外交等等领域。
这是一本值得反复读的绝佳好书,可以列入 “世界上最后一百本书” 的名单中。
原文摘录
第一章 合作的问题
今天,国家在没有集权的情况下交往。因此产生合作的必要条件就与国际政治的许多中心问题有关。最重要的就是安全困境:国家往往通过那些威胁到其他国家安全的手段来寻求自身的安全。这个问题体现在区域冲突和军备竞赛上。相关的国际关系问题还有:联盟中的竞争、关税谈判和种族冲突(如塞浦路斯)。
例如美国参议院。每个议员都力图代表他的选民的利益,这就会与其他代表不同选民的参议员发生冲突,当然这是发生在利益完全相反的情况(零和博弈)下的。然而有很多机会,两位参议员可以采取对双方都有利的行动。这些对双方都有利的行为导致了参议院内的一套复杂的行为规范或者俗规的产生。其中,最重要的是回报准则,即帮助同僚解决难题并得到回报。这包括投票交易等许多形式的对双方有利的行为。
独立于对方所用策略之外的最好的决策规则是不存在的。从这个意义上说,"囚徒困境"完全不同于一般游戏,如国际象棋。一个象棋大师可以有把握地假定对手将走让他最头疼的一步。这种假定是这类游戏的基础,因为在这里,游戏者的利益是完全对抗的。然而"囚徒困境"所表示的情形却完全不同,对策者的利益并不是完全冲突的。
假定对方采用一个被称为"永久报复"的策略,这个策略首先是采取合作直到你背叛,然后就一直以背叛来报复你。在这种情况下,你的最优策略是决不背叛。因为第一步背叛得到的好处最终将被长期的惩罚所抵消,它将使你得到长期的"惩罚"P而不是"奖励"R。
在立法机构,如美国参议院的例子中,这个命题说明,如果存在一个很大的机会使得一个议员将与另一个议员再次打交道,那么就不存在独立于其他议员所采用的策略的最优策略。
当然,把合作问题抽象为"囚徒困境"要忽略许多实际问题本身的重要特点。例如,这种完全的抽象没有考虑语言交流的可能、第三者的直接影响、一个选择的实现问题以及对方上一次选择的不确定性。
然而,不考虑这些复杂因素而作出的分析能够帮助我们弄清人们相互作用的一些微妙特征。否则这些特征在人们作出选择时容易被错综复杂的实际情况所淹没。正是现实的复杂性使得抽象的分析变得更有价值。(读者注: 这句话说得很棒。)
对竞赛数据的分析揭示了一个成功的决策规则所应有的四个特性:只要对方合作你就合作以避免不必要的冲突;面对他人的无理背叛你是可激怒的;在给挑衅以反击之后你是宽容的;行为要简单清晰,使对方能适应你的行为模式。
基于回报的合作一旦创建起来,就能防止其他不太合作的策略的侵入。因此,社会进化的齿轮是不可逆转的。(读者注: 进化是棘轮。)
第二章 "一报还一报"在计算机竞赛中的胜利
事实上,许多重要的政治、社会和经济过程的最好的模型都是以"囚徒困境"为基础的。
出乎意料的是,有一个特性可以把得分相对高的程序和得分相对低的程序区别开来,它就是善良性,即从不首先背叛。为了方便地分析这个竞赛,一个善良的规则的定义被放宽到包括那些在最后几步(如199步)之前不背叛的规则。名列前8名的参赛者(或规则)都是善良的,其他则都不是。在善良的规则和其他规则的得分之间有个很大的差距。
善良的规则在竞赛中之所以表现好在很大程度上是由于它们相互之间相处得很好,而且由于具有一定的数量使得它们能够大幅度相互提高它们的平均得分。只要对方不背叛,每个善良的规则一定是持续合作直到最后一步。如果有个背叛将会怎样呢?不同的规则的反应是很不一样的。
相反地,冠军"一报还一报"只不宽容一步,而后便完全原谅那个背叛。在一次惩罚之后,它就让过去的过去了。
这次竞赛的主要教训是认识到在双方竞争的环境下,避免反射效应是很重要的。一旦一方的背叛诱发一长串的报复和反报复,双方都要吃亏。
这个"两报还一报"(TITFORTWOTATS)规则的出色表现揭示了参赛者的一个共同错误,即预期相对于"一报还一报"更少点宽容能得到更多的好处,然而,事实上是更多点宽容才能得到更多好处。这个惊人的发现表明,即使是战略专家也没有给宽容的重要性以足够的重视。
一开始,差的和好的程序具有相同的比例。但是随着时间的推移,差的被淘汰,好的则繁荣起来。如果成功是来自与其他成功的规则相互作用的话,这个成功将孕育着更多成功。另一方面,如果一个决策规则的成功是靠占人家的便宜得到的,那么当这些被占便宜的规则消失后,剥削者赖以成功的基础就被腐蚀了,剥削者也就要遭受同样的命运。
"一报还一报"的稳定成功的原因是它综合了善良性、报复性、宽容性和淸晰性。它的善良性防止它陷入不必要的麻烦,它的报复性使对方试着背叛一次后就不敢再背叛,它的宽容性有助于重新恢复合作,它的清晰性使它容易被对方理解,从而引出长期的合作。
第三章 合作的创建
如果新来的个体在与原有的个体相遇时比两个原有的个体相遇时得分高,那么就称新来的策略可以侵入原有策略。由于原有的个体几乎占有整个群体,所以侵入的概念等价于这个变异的个体干得比群体平均要好。这就直接导出了进化方法的一个关键的概念:如果一个策略不能被其他策略侵入,这个策略就是集体稳定的。[15] 这个方法的生物学意义是基于用适应性(即生存和后代的数量)来解释博弈的收益。
如果所有人都采用一个特定的策略而有一些其他策略能在当前群体的环境中做得更好,那么迟早会有人发现这些策略的。所以只有不可侵入的策略才能使它自己持续地作为大家所采用的策略。
这意味着如果对方明显虚弱,不能活太久,那么w的观察值就会下降,"一报还一报"的回报性就不再是稳定的了。恺撒大帝曾对为什么庞培的同盟者停止与其合作解释道:"他们认为庞培的前途是没有希望的。他们按照逆境中一个人的朋友也会变成敌人"的一般规则行事
商业中最有力的道德执法者是持续的关系,即人们相信你能与客户或供应商继续做生意。当一个失败的公司失去这个自动的执法者,任何手段都将无法代替
在一个稳定的小镇或同一种族的邻里之间就容易创建互惠的规范。相反,一个访问教授就很可能受到其他教工的冷落,而他们对待固定同事并不这样。
人们会因为彼此之间存在持续的相互关系而合作。一个很有趣的实例发生在第一次世界大战的堑壕战中。在这个残酷的战争中,相互对立的人们之间发展出一个称为"自己活也让别人活"的系统。如果接到命令的话,部队就相互攻击。但是在大战役的空隙间,每一方都尽量避免太多地伤害对方,如果对方也是这样回报的话。
对于善良的策略,如果是集体稳定的,它就必须能被对方的第一个背叛所激怒。
我们设想一个系统,从一开始所有的个体就不愿合作。"总是背叛"的集体稳定性就意味着没有任何单一的个体可以指望比继续背叛和不合作做得更好。一个"小人"的世界可以阻止任何使用其他策略的个体的侵入,只要这个新来者每次都是单个的话。
一个"小人"的世界很容易被一小群"一报还一报"侵入。
很容易说明"一报还一报"是一个具有最大识别力的策略。它在第一步合作,但是一旦与"总是背叛"合作,它就将再也不与它合作。另一方面,它不间断地与其他"一报还一报"合作。因此"一报还一报"善于区别它的同类和"总是背叛",这个特性使它能以一个很小的群体侵入"小人"的世界。
"总是背叛"能够阻止任何策略的侵入,只要这些采用其他策略的个体每次都是单独前来的。但是如果它们是以小群体(即使是一个很小的群体)的形式来到,"总是背叛"就能被侵入。对于善良的策略,情况就不同了。如果一个善良的策略能够阻止其他策略的单一个体的侵入,那么它就能阻止小群体的入侵,不论它有多大。因此,善良的策略能以"小人"策略所不能的方式来保护自己。
因此,合作可以在甚至是绝对背叛的世界中出现。如果只由一些散乱的个体去努力,合作是不能创建的。因为他们没有机会彼此相遇。但是,只要具有识别能力的个体之间有即使是很小的比例彼此相遇,合作就可以从这个小群体中出现。
第四章 第一次世界大战堑壕战中的"自己活也让别人活"的系统
在残酷的第一次世界大战的堑壕战中出现的"自己活也让别人活"的系统说明了友谊对于基于回报的合作的产生并不是必要的,在合适的环境下,合作甚至可以在敌对者之间产生。
第五章 生物系统中的合作进化
如果采用某个策略的群体,不被采用其他不同策略的变异体侵入的话,这个策略就是进化稳定的。
对局者之间密切的亲缘关系使得真正的利他主义——一个个体为了另一个体的利益而牺牲自己的适应性——成为可能。当代价、利益和亲密关系使得亲属个体身上的利他基因有净收益时,真正的利他主义就能出现
基于回报的合作可以通过两个不同的机制取得立足之地。首先,是变异策略之间的亲缘关系,它使得这些变异体的基因与其他个体的成功有了利害关系。因此当从基因的限定而不是个体的眼光来看时,相互作用的收益发生了变化。第二个摆脱"总是背叛"的机制是变异策略以一个小群体的形式出现,它们互相提供了一个有意义的相互作用的比例。
当一个有机体不能识别曾与它相遇过的个体时,一个补充的机制会确保它的所有相互作用都是与同一个体进行的。这可以通过与对方保持持续的接触来实现。这种情况存在于大多数由不同的生物构成的互惠的共生现象中,例如寄居蟹和它的搭档海葵,蝉和寄生在它身上的各种微生物,以及树和它的寄生真菌等。
在那些对相同种类的不同成员只有有限的区别能力的种类中,回报性的合作可以在减少区别必要性的机制的帮助下保持稳定。领地化就是这样一个机制。"稳定的领地"这个词意味着两个非常不同的相互作用,即来自领地的相互作用的概率高而与陌生人的未来相互作用的概率低。
引起这种混乱的损伤发生在大脑的一个特定部位:双侧枕叶,并延伸到颞叶的内表面。这个局部的因和特殊的果表明,对不同面孔的识别已经是很重要的工作,使得大脑中有一小部分组织专门负责它
一方患有影响寿命的疾病就是一个降低w的可觉察的信号。因此处于伙伴关系的双方就可能变得较少合作性。同样,一方的年老也像疾病一样将导致对背叛的激励,即在将来相遇的可能性变得足够小时,争取一次性好处。
甚至在微生物水平中这个机制也在起作用。任何有机会通过传播过程蔓延到其他寄主的共生者,当与原来寄主的继续接触的可能性变小时就可能从共生转变为寄生。
考虑到其他同时传染两种或两种以上病原体或是一个病原体的两个菌株的情况,当前的理论普遍认为,如果疾病采用缓慢的双方最优的剥削方式,病人的病就是慢性的,如果疾病采用迅速而严厉的刹削方式,病人的病就是急性的。单一的传染可以指望是缓慢的过程。双重传染,就像由隐含的收益函数支配着,将立即引起突然的剥削,或者在一适当的年龄阶段发作。
第六章 如何有效地选择
在持续的"重复囚徒困境"中应如何表现,下面是四个简单的建议:
1.不要嫉妒;
2.不要首先背叛;
3.对合作与背叛都要给以回报;
4.不要耍小聪明。
生活中的大多数情况都是非零和的。一般来说,双方可以都做得很好,也可以都做得很差。
人们倾向于采用相对的标准,这个标准经常把对方的成功与自己的成功联系起来。这种标准导致了嫉妒,嫉妒又导致企图抵消对方已经得到的优势。在"囚徒困境"的形式下,抵消对方的优势只能通过背叛来实现。但是背叛导致更多的背叛和对双方的惩罚。因此嫉妒是自我毁灭。
一个更好的相对标准是把你所做的与处在相同情况下的其他人所做的做比较。对于一个给定的对方策略,你是否做得最好?其他人在这种情况下能做得更好吗?这就是检验表现是否成功的一个很好的标准。
因此在一个非零和的世界里,为了你自己做得好,你没有必要非得比对方做得更好。特别当你要和许多不同的对手打交道时更是这样。只要你自己能做得更好就让他们每个人做得和你一样或略好些。没有理由去嫉妒对方的成功。因为在长时间的"重复囚徒困境"中,其他人的成功是你自己成功的前提。
最优的宽恕水平与环境有关。特别是如果主要的危险是来自那些善于占"好说话"规则便宜的策略,那么,太多的宽恕就要付出代价。对一个给定的环境,准确的平衡是很难确定的,但是,竞赛的结果证明,对背叛类似一对一的反应可能在大多数情况下都是相当有效的。因此,对参与者的一个很好的建议是对合作和背叛都要给予回报。
这些规则的共同问题是,使用一些复杂的方法来推断对方。而这些推断常常是错误的。一部分问题是对方经常用试探性的背叛来表明它不会被引诱而合作,但是问题的关键是这些最大化规则没有考虑到它自己的行为会引起对方的变化。
非零和博弈——像"囚徒困境"——并不是这样。不像老天下雨,对方对你的行为是有反应的,也不像下棋的对手,在"囚徒困境"中的对方不应该被认为是一心想背叛你的。对方将把你的行为看作你是否回报合作的信号。因此,你自己的行为将会反射到你的身上。
换句话说,就是太多的复杂性就显得是完全杂乱无章。如果你采用一个看起来是随机的策略,那么你也就显得对对方不反应,如果你是不反应的,对方就受不到与你合作的激励。因此复杂到不可理解是非常危险的。
"一报还一报"在竞赛中得到巨大成功的原因之一是它具有很大的清晰性,即它非常容易被对方理解。当你使用"一报还一报"策略时,对方有很好的机会去理解你在干什么。你对任何背叛的一对一的反应是一个很容易被意识到的模式。而且你的未来行为是能被预测的。一旦这些情况发生了,对方能容易地发现应付"一报还一报"的最好方式就是与它合作。
在对手的任何无效行为就是你的利益的零和博弈中,隐瞒你的企图是很有用。但是在非零和情况下,如此聪明不总是有好处的。在"重复囚徒困境"中,你要从对方的合作中得到好处。诀窍在于鼓励合作,一个好的方式就是清楚地表明你愿意回报,言语在这里是有帮助的。但大家都知道行动比言语更响亮。这就是"一报还一报"之所以如此有效的原因。
第七章 如何促进合作
只要这种接触不是重复的,合作就非常困难,这就是为什么促进合作的一个重要方法,就是安排两个人再次见面,使他们能相互认识,并能回忆起对方至今是如何行为的。正是持续的接触,使基于回报的合作的稳定成为可能。促进双方合作可以从三个方面着手:使得未来相对于现在更重要些,改变对策者的四个可能的结果的收益值;教给对策者那些促进合作的准则、事实和技能。
这个结论强调了促进合作的第一方法的重要性,即增大未来的影响。有两个基本的方法来做到这一点:使相互作用更持久和使相互作用更频繁。
集中接触是使两个人更经常见面的一个方法。在协商谈判中,另一个使接触更加频繁的方法是把问题分解成若干的部分。例如,可以将军备控制和裁军条约分解成许多阶段,这样就允许双方有更多步的相遇而不只是一两个大步。这样可以使回报更有效。如果双方都知道对方的一步不合适的策略可以通过下一步的回报来补偿,那么双方对整个过程可以按所期望的进行就更有信心。
如果双方对自己识别欺骗的能力缺乏信心,那么,有许多小的步骤比只有少数大的步骤更有助于促进合作。这种促进合作的稳定的分解是通过使当前步的欺骗所得少于以后的步骤中潜在的合作的所得来实现的。
分解是一个广泛使用的原则。亨利·基辛格(HenryKissinger)为了以色列在1973年战争后从西奈撤军安排了一系列的步骤,以便和埃及致力于与以色列关系正常化的步骤相协调。在商业上,商人们喜欢一个大订单分别按每次发货时间付款,而不愿等到最后付总账。使得当前步的背叛相对于整个未来的接触过程来说不是那么有诱惑力,这是促进合作的好方法。
在"囚徒困境"的原始故事中,两个同案犯被逮捕并被分别审讯。如果他们同属一个帮派组织,那么他们知道告密是要受到惩罚的。这将降低背叛同伙的收益值,使得他们都不坦白并由于他们双方保持沉默的合作而得到较轻的徙刑。
从生物进化的遗传学观点来看,利他主义能在亲属之间维持。冒着生命危险去抢救下一代的母亲能够增加她的基因拷贝的生存机会。
回报当然不是道德的一个好的基础,但它不只是自私自利者的道德。它确实不仅帮助自己,而且帮助了别人。它是通过使剥削性策略难以生存来帮助别人。
一个伤害由另一个伤害来偿还,并且每一次报复都引起了新一轮的报复。这种伤害来回反射直到最初的暴行消失在遥远的过去中(Black-Michaud1975).这是"一报还一报"的严重问题,一个更好的策略可能是一报还十分之九报。这样既能够减弱冲突的振荡,又能提供一个激励使对方不敢尝试无缘无故的背叛。它是一个基于回报的但又比"一报还一报"多一点宽容的策略。它也是大致公平的。但是在一个自私自利的没有集权的世界里,它确实不仅促进它自己的福利,而且增加其他人的福利。(读者注: 会收敛。)
从过去的接触中识别对方并记得这些接触的一些相关特征,这种能力对合作的持续是必要的。没有这些能力,一个人就不可能使用任何形式的回报,因此也就不能鼓励对方合作。
即使在人类事务中,合作范围的限制往往是由于不能识别其他人的特征和行为而造成的,这个问题在达成国际核武器的有效控制上显得特别严重。
第八章 合作的社会结构
讨论四个能够引起有趣的社会结构形式的因素:标记、信誉、管理和领地。标记是一个人的固定特征,如能被对方观察到的性别和肤色。它能引起成见和地位层次的稳定形式。一个人的信誉是可塑的,当另一个人知道他在与其他人对局时所采用的策略时,他的信誉就产生了。信誉会带来各种现象,包括激励人们去创建恶棍的声誉和激励人们去阻止他人成为恶棍。管理是统治者与被统治者之间的一种关系。政府不能只靠威胁来统治,而必须使大多数被统治者自愿服从。因此,管理只是统治的严厉性和实施过程的问题。最后,当人们只和邻居而不是与所有其他人打交道时,领地问题就出现了。当策略在群体中传播开来时,出现了非常有趣的行为模式。
人们相处的方式经常受到一些可观察的特征——如性别、年龄、肤色和穿着风格——的影响。这些特征使人们在和陌生人打交道时期望陌生人的行为会像其他具有相同可观察特征的人的行为一样。因此,从理论上讲,这些特征使得一个人即使在双方打交道之前就能知道一些有关对方策略的有用信息。
这种激励意味着成见的稳定,甚至当成见毫无客观依据时也是这样。蓝的认为绿的是"小人",每当他们遇上一个绿的,他们的信念就得到证实。而绿的认为只有其他绿的会回报合作,他们的信念也得到证实。如果你试图打破这个观念,你将发现你的收益值下降,并且你的希望将破灭。所以如果你和人家不一样,迟早,你要回到你所被期望的角色上来。如果你的标记说你是绿的,其他人就会把你当作绿的对待。并且由于如果你像绿的那样去行动你就会得到好处,所以你将确认其他人的期望。
这种成见有两个不幸的结局:一个是明显的,另一个是微妙的。明显的结果是每一个人都做得比可能的糟,因为群体之间的双方合作能提高每一个人的得分。微妙的结果来自蓝的和绿的群体在数量上的差别,即一个数量多,一个数量少。在这种情况下,在两个群体同时受到缺乏双边合作的损害时,少数群体的成员损害更大,所以少数群体经常寻求防卫性的孤立行为就不足为奇了。
标记也会造成另一个结果,即它支持了地位等级。例如,假设每个人有一些特征,如身高、力量或皮肤光泽,这是可以观察和比较的特征。为了简单起见,假设不存在相同的值。这样,当两个人相遇时,哪个有较多的特征,哪个有较少的特征就很清楚。
一个人的信誉体现在其他人对他将采用的策略的信心上。(读者注: 兰尼斯特有债必偿。)
知道某些人的信誉能使你在作出第一次选择之前就能知道一些关于他们采用的策略的情况。
对一个人来说,有一个牢固的采用"一报还一报"的信誉是很有好处的。但这确实不是一个最好的信誉,最好的信誉是恶棍的声誉。最好的一种恶棍是具有尽可能压榨对方又不容忍对方有任何背叛的信誉的恶棍。尽可能压榨对方的方法是频繁地背叛,恰好使得对方总是合作比总是背叛只好一点点。鼓励对方合作的最好方式是让大家知道如果对方一旦背叛,你就决不会再合作。
幸运的是,创建恶棍的信誉是不容易的。要让人家知道你是恶棍,你就必须经常背叛,这就意味着你很可能激怒对方来报复你。到了你完全创建信誉时,你很可能已经陷入许多毫无益处的毅力较量中去了。
创建信誉是要通过可信的威胁来达到威慑的作用。你试图作出某个反应的许诺,实际上当偶然情况发生了,你并不想真正去这样做。美国恐吓苏联不要夺走西柏林并扬言要发动一场战争来对付这种掠夺行为。为了使这个威胁可信,美国就得创建不管短期的代价有多大它都要能确实履行这个保证的信誉。
即使是最有效的政府,也不能把公民的服从看成是理所当然的。相反,政府和被统治者之间有对策关系。这种相互作用经常是以"重复囚徒困境"形式进行的。
税收的情形是这样,其他政策的情形也是这样,即保证公民服从的关键在于政府能够并且愿意投入比当前利益多得多的资源来保持它的强硬的信誉。
在上述任何情况下,关键是要通过保持强硬的信誉来防止挑战。为了保持这个信誉,就要求用超出某个具体事件所需要的强硬手段来对付这个特殊的挑战。
在基于通过模仿而扩散的社会系统中,即使在平均意义上说不是那么出色的规则也有很大的可能取得出色的成功。这是因为偶尔的成功会赢得很多的转化。
本书中考虑的五个结构揭示了合作进化的各个不同的方面。
1.随机混合被用来作为最基本的结构。循环赛和理论上的命题说明了基于回报的合作如何能够在这种即使是最少的社会结构情况下成长起来。
2.对小群体的考察说明了合作的进化是如何开始的。小群体允许新来者至少有一个小的机会与其他新来者相遇,尽管新来者本身是原来群体的一个可忽略的部分。即使新来者绝大部分是与原来的非合作策略相遇,但采用回报的小群体的新来者能够侵入"小人"的群体。
3.当与通过它们自己相互作用的经历所得的信息相比,对策者之间拥有更多的信息时,群体的分化就发生了。如果对策者有标记指示它们的群体身份和个体的态度,成见和等级地位就会产生。如果对策者能相互观察到对方与其他个体的相互作用,它们就能创建信誉,而信誉的存在能导致一个以尽力阻止恶棍为特征的世界。
4.政府在使它的大部分公民服从方面有它自己的策略问题,这不仅是在某一特定情况下选择一个有效的策略的问题,而且还是一个如何设立标准;使得服从既对公民有吸引力又能有利于社会。
5.领地系统是考察如果对策者只和它们的邻居打交道并且模仿比它们做得更成功的邻居时,会出现什么情况。与邻居的相互作用,产生了特定策略传播的复杂模式,并且为有些做得很差的策略在某些情况下做得异常出色提供了可能。
第九章 回报的鲁棒性
进化过程不仅要求成功的东西有或多或少的增长,为了使进化更深入它还要求多样性,即尝试新的东西。
合作理论的主要结论是令人鼓舞的,它们说明即使是在一个其他人不愿合作的世界里,合作仍然可以通过一小群准备回报合作的个体来产生。分析还表明合作能发展的两个关键前提是合作要基于回报和未来的影响要足够重要以使得回报稳定。但是,基于回报的合作一旦在群体中创建,它就能保护自己不受非合作策略的侵入。
创建这些结果只需对个体和社会环境作很少的假设。个体不必是理性的,即使在对策者不知道为什么或如何做时,进化过程也能让成功的策略发展起来。对策者不需要交换信息或承诺什么,他们不需要言语,他们的行为替他们说话。同时,这里不需要假设对策者之间相互信任,回报的使用足够使背叛得不到好处。这里利他主义也是不需要的,成功的策略甚至能够从自私者那里引出合作。最后,不需要中央权威,基于回报的合作能够自我控制。
合作能从小群体开始,在善良、可激怒和某种程度的宽容的规则中逐步成长,并且一旦成为一个群体,采用这种有识别力的策略的个体就能保护自己不受侵入,总体的合作水平是在上升而不是下降。换句话说:合作的进化是不可逆转的。
一般的商业交易都是基于这样一个想法:持续的关系使得合作能在没有中央权威的帮助下得以发展,虽然法院为解决商业争端提供中央权威。但人们一般不借助这个权威。
交易的公平不是靠法律诉讼的威慑来保证,而是由双方未来交易的好处的预期来保证的。
当这个未来相互作用的预期破灭时,就需要一个外来的权威。按照麦考莱的说法,也许绝大部分吵到法院的商业合同案例都是母公司错误地中止代理商的特权。这种冲突之所以要打官司是由于一旦特权被终止,在特许者和母公司之间就不再有未来双方交易的好处的前景。合作中止了,接下来就是耗费很大的法庭诉讼战。
没有正式协定也能达到合作的潜力在另一些情况下也有它光明的一面,例如,它意味着在控制军备竞赛中的合作没有必要完全通过追求正规的谈判协定来实现。军备控制也可以心照不宣地进行。
偶尔,一个政治领导人认为不必追求与另一个大国合作,因为一个更好的计划可以使它垮台。这是一种非常危险的行为,因为对方的反应不仅是拒绝正常的合作,它还有可能在它不可挽回地被削弱之前使冲突升级。例如,日本在珍珠港的孤注一掷,就是对美国旨在使它停止在中国的侵略所采用的经济制裁的反应(Ike1967,Hosoya1968)。
日本知道美国比自己强大得多,但是制裁的累积影响使得它认定攻击比等待局势变得更危急会更好些。
合作的基础不是真正的信任,而是关系的持续性。当条件具备了,对策者能通过对双方有利的可能性的试错学习、通过对其他成功者的模仿或通过选择成功的策略剔除不成功的策略的盲目过程来达到相互的合作。从长远来说,双方创建稳定的合作模式的条件是否成熟比双方是否相互信任来得重要。
时间期望的作用对机构设计有着重要的启示。在大的组织中,如商业公司和政府官僚机构,行政官员经常每两年从一个位置调到另一个相近的位置。[50] 这就给官员一个很强的短期行为激励而不顾组织的长期利益。他们知道不久就要被调到另一个位置去,他们在前一个位置上的选择的后果在离开这个位置之后就可能不算他们的责任了。这就给两个任期快结束的官员一个相互背叛的激励。因此,快速换班的结果使得组织内部的合作降低。
由于政治领导人的更换是民主政治的必要部分,这个问题必须用其他办法来解决。这里政党是有用的,因为它们能为它们选出的成员的行为向公众负责。选民和政党的关系是长期的,这就使政党要选出不会滥用权力的候选人。
在开始这个项目时,我相信人不要太急于发怒。"囚徒困境"的计算机竞赛的结果证明了快速反应挑战确实会更好。它表明如果你对无理的背叛反应缓慢,就会有一个发出错误信号的危险。让越多的背叛继续下去而不受惩罚,就越有可能使对方得出背叛能得到好处的结论。并且,这种模式创建得越强,就越难打破它。这意味着很快被激怒比慢些好。"一报还一报"的成功说明了这一点,通过马上反应,给对方一个反馈信号,背叛是没有好处的。
反应的速度取决于发觉对方的一个特定选择所需要的时间。这个时间越短,合作就越稳定。一个快速的发现意味着相互作用的下一步就来得快,因此就增加了由系数W表示的未来的影响。
冲突的持续是由于反射作用:双方用各自新的背叛反应对方上一次的背叛。一种解决办法是找一个中央权威,通过法律条款来控制双方。不幸的是,这种方法通常是不可行的。并且即使有法律的规定,通过法院处理像保证商业合同等日常事务的费用也使人望而却步。当采用中央权威是不可能的或代价太高的时候,最好的办法是依靠一个能自我控制的策略。
在国际关系中,主要大国能够确定它们将年复一年地打交道下去,这是件好事。它们的关系不一定总是双方有利的,但它是持续的。因此,下一年的相互作用将在这一年的选择上有一个很大的影响,合作有一个很大的机会最终得到进化。
书评:《合作的进化》