囚徒困境與仁者無敵

上傳人：s*** IP屬地：天津上傳時間：2022-08-03 格式：DOCX 頁數(shù)：7 大小：20.66KB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩2頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、囚徒困境一般在入門的博弈論教科書的第一章都有介紹。甲乙同案犯，隔離審訊。如果兩個都不招，因為證據(jù)不充分，兩人都只能判1年。如果一方招了，屬立功表現(xiàn)，功罪相抵，無罪釋放；而另一方則屬抗拒從嚴，判10年。但如果兩人都招了，則各判5年。結(jié)果大家都知道：兩個人爭先恐后地招了，結(jié)結(jié)實實地各判了5年?；趥€人理性的正確選擇降低了大家的福利。道理很簡單。重要的是能夠舉一反三。其實，人們在生活中處處都有囚徒困境：幼兒園小朋友互相分享玩具（給他玩，不給他玩）；情竇初開的男女互相表白愛情（表白，不表白）；公共走廊衛(wèi)生的維持（不扔垃圾，扔垃圾）；老板與下屬的關(guān)系（信任，不信任）；商場上，生意伙伴的非正式

2、合同，或君子協(xié)定不違約，違約）；競爭對手打價格戰(zhàn)（不降價，降價）；國家間的對抗（和平，戰(zhàn)爭，等等。雖然括號內(nèi)前者都是大家想要達到的目標，自私（理性選擇）的結(jié)果卻是大家不得不接受后者。小朋友仍在自己玩自己的玩具，雖然慢慢有點厭煩；韶華已逝的男女偶然發(fā)現(xiàn)當年對方暗戀的都是自己，徒呼奈何；你扔垃圾我也扔垃圾的結(jié)果是公共走廊難以找到下足之地；怕下屬營私而事必躬親的老板喪失了業(yè)務(wù)機會；怕對方違約的商人自己也沒有做成買賣；怕競爭對手降價后獨占市場的商家們競相殺價，把一個又一個行業(yè)做爛；怕吃虧的國家之間也是永遠戰(zhàn)火綿連?？芍^ “你我誰不是囚徒，天下何處無困境！”當然，家人、熟人、朋友間，因為愛、

3、友情、倫理道德、社會規(guī)范（如面子）的存在，很多囚徒困境往往可以被克服。在這些情境里，人們并不完全是理性的經(jīng)濟人。但公司里，商場上，還有國家之間，要解決囚徒困境就沒那么容易了。本文開頭朋友慨嘆的商場殘酷，相當于在囚徒困境的選擇中，不可單方面選有利于雙方的選擇（如上例中的信任、不違約、不降價）。否則，你拿的結(jié)果是四種結(jié)果中最差的一種，賠了夫人又折兵。既然如此，仁者無敵又從何說起？妙門在于，上述囚徒困境說的都是一次性博弈One short game），一錘子買賣。如果是多次博弈，人們就有了合作的可能性，囚徒困境就有可能破解。道理很簡單?；疖囌具呝u的東西質(zhì)量差，餐館沒法吃，因為顧客多是一次性

4、的過路人；小區(qū) 里小店質(zhì)量、服務(wù)可能不錯，因為他們靠的是回頭客。店主都是為自己的利益考慮，但結(jié)果對大家都有利，所謂開明的自利（Enlightened selfishness）0連續(xù)的合作有可能成為重復(fù)的囚徒困境的均衡解，這也是博弈論上著名的“大眾定理”（Folk Theorem ）的含義。但合作的可能性不是必然性。骯臟不堪的公共宿舍走廊有的是。哪些走廊能把衛(wèi)生一直保持下去呢？博弈論的研究表明，要想使合作成為多次博弈的均衡解，博弈的一方（最好是實力更強的一方）必須主動通過可信的承諾（Credible commitment），向另一方表示合作的善意，努力把這個善意表達清楚，并傳達出去。如

5、果該困境同時涉及多個對手，則要在博弈對手中形成聲譽，并用心地維護這個聲譽。公共宿舍的居住者中必須出現(xiàn)一個帶頭人，以身作則，率先起來打掃衛(wèi)生，形成人人維護公共衛(wèi)生的風尚。但帶這個頭，說起來容易做起來卻難。做生意雙方基于信任，君子協(xié)定，握手成交，既節(jié)約時間又省下請律師的錢，大家都知道合算，然而多少書生意氣的人卻為這“君子”二字賠得吐血。但如果是重復(fù)博弈，在實力強的一方作出可信的承諾的情況下，雙方卻有可能形成長久穩(wěn)定的合作關(guān)系。近年來學術(shù)上廣泛討論的虛擬企業(yè)、網(wǎng)絡(luò)企業(yè)，就是這種企業(yè)間基于互信而建立長久合作關(guān)系的例子，如著名的“豐田生產(chǎn)方式”。再舉一個公司內(nèi)部管理的例子。大家都說求才容易留

6、才難，到處是鐵打的公司流水的雇員。老板們總是大聲疾呼他們?nèi)绾蔚厍蟛湃艨?。問問該公司?nèi)部的人，或者從該公司離開的人，你得到的往往卻是一個葉公好龍的印象：薪水待遇不比同行業(yè)高；舍不得花錢做培訓；工作上沒有信任，不能讓人放手去干；說好的分成計劃、獎勵計劃、持股計劃，轉(zhuǎn)眼成了云煙。沒有任何可信的承諾，憑什么讓人為你賣命？這里“可信的承諾”是一個很牽強的翻譯， “Credible commitment并不是什么空口諾言，而是實實在在的付出。合作之難，難在無人愿意作出這第一步的有風險的付出，難在一個仁”字。1984年Robert Axelrod出版了一本薄薄200來頁的合作的進化(The Evo

7、lution of Cooperation)，20多年來暢銷不衰，幾乎成了西方戰(zhàn)略學者、管理學者們的必讀書之一。其核心也是這個道理。Axelrod做了一個試驗。他邀請學者們?yōu)橐粋€重復(fù)囚徒困境游戲設(shè)計戰(zhàn) 略。然后把所有人設(shè)計的戰(zhàn)略輸入電腦，每個人的戰(zhàn)略分別和其余各人的戰(zhàn)略對弈，重復(fù) 200次。第一次有15個戰(zhàn)略競爭，第二次有63個戰(zhàn)略競爭。實驗的結(jié)果，總得分排在前面的戰(zhàn)略有一個共同特點：善良，即他們不主動先背叛對方。兩次都榮獲第一的是幾乎最簡單的“一報還一報”戰(zhàn)略(Tit for tat)，他不僅善良，不首先背叛對方，而且寬容，對方背叛一次他只懲罰對方一次。更為發(fā)人深省的是，每次博弈，他

8、的得分都不比對方高(最多與對方一樣高)。他的成功不是建立在別人失敗的基礎(chǔ)上，而是建立在別人成功的基礎(chǔ)之上。他沒有贏取任一場戰(zhàn)斗，卻贏得了整場戰(zhàn)爭。大智若愚，大德若缺，大贏若輸?！叭收邿o敵”不是說他戰(zhàn)勝所有的敵人，而是他根本就沒有敵人，或者說，他戰(zhàn)勝的是人類與生俱來最為兇險的敵人：自身的貪婪。研究產(chǎn)權(quán)制度和西方經(jīng)濟史的朋友們大多清楚，1688年英國限制國王收稅權(quán)和其他權(quán)力的光榮革命，對西方世界的興起意義重大。所謂，捆住國王的手”，對產(chǎn)權(quán)的普遍保障，作為一種可信的承諾，是西方資本主義發(fā)展以及西方世界興起的制度淵源。吳思在潛規(guī)則一書中描繪的中國封建王朝的歷史，則是一個反面的典型。暴力集團

9、對農(nóng) 民階層，以及封建后期新興的工商階層橫征暴斂的結(jié)果是，財富的生產(chǎn)者們都喪失了生產(chǎn)的動力。你不仁，我不義?！巴鹾顚⑾?，寧有種乎？ ”反吧！一將功成萬骨枯，歷史成了輪盤賭，每三五百年再賭一把，在輪回中走向墮落。兩千多年前用一生寫就一個“仁”字的孔夫子，念及于此，也該“獨愴然而淚下”了吧。博弈論(game theory)對人的基本假定是：人是理性的(rational，或者說自私的)，理性的人是指他在具體策略選擇時的目的是使自己的利益最大化，博弈論研究的是理性的人之間如何進行策略選擇的。納什(John Nash)編制的博弈論經(jīng)典故事”囚徒的困境”，說明了非合作博弈及其均衡解的成立，故稱

10、”納什平衡”。所有的博弈問題都會遇到三個要素。在囚徒的故事中，兩個囚徒是當事A(players)又稱參與者；當事人所做的選擇策略(strategies)是承認了殺人事實，最后兩個人均贏得(payoffs)了中間的宣判結(jié)果。如果兩個囚徒之中有一個承認殺人，另外一個抵賴，不承認殺人，那么承認者將會得到減刑處理，而抵賴者將會得到最嚴厲的死刑判決，在納什故事中兩個人都承認了犯罪事實，所以兩個囚徒得到的是中間的結(jié)果。類似的：我們也能從“自私的基因”等理論中看到“納什平衡”的體現(xiàn)。在互聯(lián)網(wǎng)這個原始叢林中：最優(yōu)策略是如何產(chǎn)生的呢？一、博弈中最優(yōu)策略的產(chǎn)生艾克斯羅德(Robert Axelrod)在

11、開始研究合作之前，設(shè)定了兩個前提：一、每個人都是自私的；二、沒有權(quán)威干預(yù)個人決策。也就是說，個人可以完全按照自己利益最大化的企圖進行決策。在此前提下，合作要研究的問題是：第一、人為什么要合作；第二、人什么時候是合作的，什么時候又是不合作的；第三、如何使別人與你合作。社會實踐中有很多合作的問題。比如國家之間的關(guān)稅報復(fù)，對他國產(chǎn)品提高關(guān)稅有利于保護本國的經(jīng)濟，但是國家之間互提關(guān)稅，產(chǎn)品價格就提高了，喪失了競爭力，損害了國際貿(mào)易的互補優(yōu)勢。在對策中，由于雙方各自追求自己利益的最大化，導致了群體利益的損害。對策論以著名的囚犯困境來描述這個問題。A和B各表示一個人，他們的選擇是完全無差異的。

12、選擇C代表合作，選擇D代表不合作。如果AB都選擇C合作，則兩人各得3分；如果一方選C，一方選D，則選C的得零分，選D的得5分；如果AB都選。，雙方各得1分。顯然，對群體來說最好的結(jié)果是雙方都選C，各得3分，共得6分。如果一方選C，一方選 D，總體得5分。如果兩人都選D，總體得2分。對策學界用這個矩陣來描述個體理性與群體理性的沖突：每個人在追求個體利益最大化時，就使群體利益受損，這就是囚徒困境。在矩陣中，對于A來說，當對方選C，他選D得5 分，選C只得3分；當對方選D，他選D得1分，選C得零分。因此，無論對方選C或D，對A來說，選D都得分最多。這是A單方面的優(yōu)超策略。而當兩個優(yōu)超策略相遇

13、，即A， B都選D時，結(jié)果是各得1分。這個結(jié)果在矩陣中并非最優(yōu)。困境就在于，每個人采取各自的優(yōu)超策略時，得出的解是穩(wěn)定的，但不是帕累托最優(yōu)的，這個結(jié)果體現(xiàn)了個體理性與群體理性的矛盾。在數(shù)學上，這個一次性決策的矩陣沒有最優(yōu)解。如果博弈進行多次，只要對策者知道博弈次數(shù)，他們在最后一次肯定采取互相背叛的策略。既然如此，前面的每一次也就沒有合作的必要，因此，在次數(shù)已知的多次博弈中，對策者沒有一次會合作。如果博弈在多人間進行，而且次數(shù)未知，對策者就會意識到，當持續(xù)地采取合作并達成默契時，對策者就能持續(xù)地各得3分，但如果持續(xù)地不合作的話，每個人就永遠得1分。這樣，合作的動機就顯現(xiàn)出來。多次對局

14、下，未來的收益應(yīng)比現(xiàn)在的收益多一個折現(xiàn)率W，W越大，表示未來的收益越重要。在多人對策持續(xù)進行下去，且W比較大，即未來充分重要時，最優(yōu)的策略是與別人采取的策略有關(guān)的。假設(shè)某人的策略是，第一次合作，以后只要對方不合作一次，他就永不合作。對這種對策者，當然合作下去是上策。假如有的人不管對方采取什么策略，他總是合作，那么總是對他采取不合作的策略得分最多。對于總是不合作的人，也只能采取不合作的策略。艾克斯羅德做了一個實驗，邀請多人來參加游戲，得分規(guī)則與前面的矩陣相同，什么時候結(jié) 束游戲是未知的。他要求每個參賽者把追求得分最多的策略寫成計算機程序，然后用單循環(huán) 賽的方式將參賽程序兩兩博弈，以找出

15、什么樣的策略得分最高。第一輪游戲有14個程序參加，再加上艾克斯羅德自己的一個隨機程序(即以50%的概率選取合作或不合作)，運轉(zhuǎn)了 300次。結(jié)果得分最高的程序是加拿大學者羅伯布寫的一報還一報 (tit for tat)。這個程序的特點是，第一次對局采用合作的策略，以后每一步都跟隨對方上一步的策略，你上一次合作，我這一次就合作，你上一次不合作，我這一次就不合作。艾克斯羅德還發(fā)現(xiàn)，得分排在前面的程序有三個特點：第一，從不首先背叛，即”善良的”；第二，對于對方的背叛行為一定要報復(fù)，不能總是合作，即”可激怒的”；第三，不能人家一次背叛，你就沒完沒了的報復(fù)，以后人家只要改為合作，你也要合作，即

16、”寬容性”。為了進一步驗證上述結(jié)論，艾氏決定邀請更多的人再做一次游戲，并把第一次的結(jié)果公開發(fā) 表。第二次征集到了 62個程序，加上他自己的隨機程序，又進行了一次競賽。結(jié)果，第一名的仍是一報還一報”。艾氏總結(jié)這次游戲的結(jié)論是：第一，”一報還一報”仍是最優(yōu)策略。第二，前面提到的三個特點仍然有效，因為63人中的前15名里，只有第8名的哈靈頓程序是”不善良的”，后15名中，只有1個總是合作的是善良的”?？杉づ院蛯捜菪砸驳玫搅?證明。此外，好的策略還必須具有的一個特點是，清晰性”，能讓對方在三、五步對局內(nèi)辨識出來，太復(fù)雜的對策不見得好?！币粓筮€一報”就有很好的清晰性，讓對方很快發(fā)現(xiàn)規(guī)律，從而

17、不得不采取合作的態(tài)度.二、合作的進行過程及規(guī)律”一報還一報”的策略在靜態(tài)的群體中得到了很好的分數(shù)，那么，在一個動態(tài)的進化的群體中，這種合作者能否產(chǎn)生、發(fā)展、生存下去呢？群體是會向合作的方向進化，還是向不合作的方向進化？如果大家開始都不合作，能否在進化過程中產(chǎn)生合作？為了回答這些疑問，艾氏用生態(tài)學的原理來分析合作的進化過程。假設(shè)對策者所組成的策略群體是一代一代進化下去的，進化的規(guī)則包括：一，試錯。人們在對待周圍環(huán)境時，起初不知道該怎么做，于是就試試這個，試試那個，哪個結(jié)果好就照哪個去做。第二，遺傳。一個人如果合作性好，他的后代的合作基因就多。第三，學習。比賽過程就是對策者相互學習的過

18、程，”一報還一報”的策略好，有的人就愿意學。按這樣的思路，艾氏設(shè)計了一個實驗，假設(shè)63個對策者中，誰在第一輪中的得分高，他在第二輪的群體中所占比例就越高，而且是他的得分的正函數(shù)。這樣，群體的結(jié)構(gòu)就會在進化過程中改變，由此可以看出群體是向什么方向進化的。實驗結(jié)果很有趣?！币粓筮€一報”原來在群體中占1/63,經(jīng)過1000代的進化，結(jié)構(gòu)穩(wěn)定下來時，它占了 24%。另外，有一些程序在進化過程中消失了。其中有一個值得研究的程序，即原來前15名中唯一的那個”不善良的”哈靈頓程序，它的對策方案是，首先合作，當發(fā)現(xiàn) 對方一直在合作，它就突然來個不合作，如果對方立刻報復(fù)它，它就恢復(fù)合作，如果對方仍然

19、合作，它就繼續(xù)背叛。這個程序一開始發(fā)展很快，但等到除了一報還一報”之外的其它程序開始消失時，它就開始下降了。因此，以合作系數(shù)來測量，群體是越來越合作的。進化實驗揭示了一個哲理：一個策略的成功應(yīng)該以對方的成功為基礎(chǔ)?！币粓筮€一報”在兩個人對策時，得分不可能超過對方，最多打個平手，但它的總分最高。它賴以生存的基礎(chǔ)是很牢固的，因為它讓對方得到了高分。哈靈頓程序就不是這樣，它得到高分時，對方必然得到低分。它的成功是建立在別人失敗的基礎(chǔ)上的，而失敗者總是要被淘汰的，當失敗者被淘汰之后，這個好占別人便宜的成功者也要被淘汰。那么，在一個極端自私者所組成的不合作者的群體中，”一報還一報”能否生存呢？艾

20、氏發(fā)現(xiàn)，在得分矩陣和未來的折現(xiàn)系數(shù)一定的情況下，可以算出，只要群體的5%或更多成員是”一報還一報”的，這些合作者就能生存，而且，只要他們的得分超過群體的總平均分，這個合作的群體就會越來越大，最后蔓延到整個群體。反之，無論不合作者在一個合作者占多數(shù)的群體中有多大比例，不合作者都是不可能自下而上的。這就說明，社會向合作進化的棘輪是不可逆轉(zhuǎn)的，群體的合作性越來越大。艾克斯羅德正是以這樣一個鼓舞人心的結(jié)論，突破了 ”囚犯困境”的研究困境。在研究中發(fā)現(xiàn)，合作的必要條件是：第一、關(guān)系要持續(xù)，一次性的或有限次的博弈中，對策者是沒有合作動機的；第二、對對方的行為要做出回報，一個永遠合作的對策者是不

21、會有人跟他合作的。那么，如何提高合作性呢？首先，要建立持久的關(guān)系，即使是愛情也需要建立婚姻契約以維持雙方的合作。（火車站的小販為什么要騙人？為什么工作中要形成小組制度？換防的時候一方總是要小小地進攻一下的，在中越前線就是這樣）第二、要增強識別對方行動的能力，如果不清楚對方是合作還是不合作，就沒法回報他了。第三、要維持聲譽，說要報復(fù)就一定要做到，人家才知道你是不好欺負的，才不敢不與你合作。第四、能夠分步完成的對局不要一次完成，以維持長久關(guān)系，比如，貿(mào)易、談判都要分步進行，以促使對方采取合作態(tài)度。第五、不要嫉妒人家的成功，”一報還一報”正是這樣的典范。第六、不要首先背叛，以免擔上罪

22、魁禍首的道德壓力。第七、不僅對背叛要回報，對合作也要作出回報。第八、不要耍小聰明，占人家便宜。艾克斯羅德在合作的進化一書結(jié)尾提出幾個結(jié)論。第一、友誼不是合作的必要條件，即使是敵人，只要滿足了關(guān)系持續(xù)，互相回報的條件，也有可能合作。比如，第一次世界大戰(zhàn) 期間，德英兩軍在戰(zhàn)壕戰(zhàn)中遇上了三個月的雨季，雙方在這三個月中達成了默契，互相不攻擊對方的糧車給養(yǎng)，到大反攻時再你死我活地打。這個例子說明，友誼不是合作的前提。第二、預(yù)見性也不是合作的前提，艾氏舉出生物界低等動物、植物之間合作的例子來說明這一點。但是，當有預(yù)見性的人類了解了合作的規(guī)律之后，合作進化的過程就會加快。這時，預(yù) 見性是有用的，學習

23、也是有用的。當游戲中考慮到隨機干擾，即對策者由于誤會而開始互相背叛的情形時，吳堅忠博士經(jīng)研究發(fā)現(xiàn)，以修正的”一報還一報”，即以一定的概率不報復(fù)對方的背叛，和”悔過的一報還一報 ”，即以一定的概率主動停止背叛。群體所有成員處理隨機環(huán)境的能力越強，”悔過的一報還一報”效果越好，”寬大的一報還一報”效果越差。三、艾克斯羅德的貢獻與局限性艾克斯羅德通過數(shù)學化和計算機化的方法研究如何突破囚徒困境，達成合作，將這項研究帶到了一個全新境界，他在數(shù)學上的證明無疑是十分雄辯和令人信服的，而且，他在計算機模擬中得出的一些結(jié)論是非常驚人的發(fā)現(xiàn)，比如，總分最高的人在每次博弈中都沒有拿到最高分。（劉邦和項羽的

24、戰(zhàn)爭）艾氏所發(fā)現(xiàn)的”一報還一報”策略，從社會學的角度可以看作是一種”互惠式利他”，這種行為的動機是個人私利，但它的結(jié)果是雙方獲利，并通過互惠式利他有可能覆蓋了范圍最廣的社會生活，人們通過送禮及回報，形成了一種社會生活的秩序，這種秩序即使在多年隔絕，語言不通的人群之間也是最易理解的東西。比如，哥倫布登上美洲大陸時，與印地安人最初的交往就開始于互贈禮物。有些看似純粹的利他行為，比如無償損贈，也通過某些間接方式，比如社會聲譽的獲得，得到了回報。研究這種行為，將對我們理解社會生活有很重要的意義。囚徒困境擴展為多人博弈時，就體現(xiàn)了一個更廣泛的問題一一”社會悖論”，或”資源悖論”。人類共有的資源是有限的，當每個人都試圖從有限的資源中多拿一點兒時，就產(chǎn)生了局部利益與整體利益的沖突。人口問題、資源危機、交通阻塞，都可以在社會悖論中得以解釋，在這些問題中，關(guān)鍵是通過研究，制定游戲規(guī)則來控制每個人的行為。艾克斯羅德的一些結(jié)論在中國古典文化道德傳統(tǒng)中可以很容易地找到對應(yīng)，”投桃報李”、” 人不犯我，我不犯人”都體現(xiàn)了tit for tat的思想。但這些東西并不是最優(yōu)的，因為”一報還一報”在充滿了隨機性的現(xiàn)實社會生活里是有缺陷

人人文庫> 全部分類> 圖紙下載 > 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

囚徒困境與仁者無敵

文檔簡介

溫馨提示

最新文檔

評論

囚徒困境與仁者無敵

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔