《行為經(jīng)濟(jì)學(xué):選擇、互動與宏觀行為》第7章有限認(rèn)知_第1頁
《行為經(jīng)濟(jì)學(xué):選擇、互動與宏觀行為》第7章有限認(rèn)知_第2頁
《行為經(jīng)濟(jì)學(xué):選擇、互動與宏觀行為》第7章有限認(rèn)知_第3頁
《行為經(jīng)濟(jì)學(xué):選擇、互動與宏觀行為》第7章有限認(rèn)知_第4頁
《行為經(jīng)濟(jì)學(xué):選擇、互動與宏觀行為》第7章有限認(rèn)知_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第7章

有限認(rèn)知

《行為經(jīng)濟(jì)學(xué):選擇、互動與宏觀行為》配套課件——引言從本章開始,我們將放松個體在給定條件下決策的假定,轉(zhuǎn)而探討人與人之間的互動問題,因此我們需要涉及一定的博弈論知識。在標(biāo)準(zhǔn)經(jīng)濟(jì)學(xué)下,分析個體間博弈過程的基本理論是解析博弈論。它構(gòu)建于三個基本假定之上:①個體具有無限的認(rèn)知能力;②博弈的均衡是瞬間達(dá)到的;③博弈中的個體只受利己動機(jī)驅(qū)使。行為經(jīng)濟(jì)學(xué)對這三條基本假定分別作了相應(yīng)的修正與拓展,所形成的新的理論體系被稱作行為博弈論。本章主要關(guān)注上述第一條假定及其修正,以及由此發(fā)展出的兩類理論。第一類理論以質(zhì)反應(yīng)均衡模型為代表;第二類理論以認(rèn)知層級模型為代表。目錄7.1標(biāo)準(zhǔn)經(jīng)濟(jì)學(xué)模型7.2行為經(jīng)濟(jì)學(xué)的修正I:有限計算7.3行為經(jīng)濟(jì)學(xué)的修正II:有限推理7.4案例分析進(jìn)一步閱讀7.1標(biāo)準(zhǔn)經(jīng)濟(jì)學(xué)模型7.1.1博弈的要素標(biāo)準(zhǔn)式表述在評介博弈的要素之前,我們先介紹一個較具代表性的博弈形式——囚徒困境博弈,它有助于我們對博弈的理解。在一個典型的囚徒困境博弈中,共涉及兩名囚徒,他們被關(guān)押在不同的審訊室,并被指控犯下了某項罪行。他們要么坦白,相當(dāng)于背叛對方,要么不坦白,相當(dāng)于與對方合作。然而,他們之間不能交流,因此他們無法獲知對方會采取什么策略。圖7-1展示了該博弈中每個人的可能策略及相應(yīng)收益,其中收益單位以監(jiān)禁年數(shù)的相反數(shù)表示,囚徒A的收益以左邊的數(shù)值表示,囚徒B的收益以右邊的數(shù)值表示。有時,圖7-1被稱作一個博弈的標(biāo)準(zhǔn)式表述,其中每個參與者被假定是同時行動的,因此所有的行動結(jié)果都可在一張表格中展示出來,這被稱為收益矩陣。標(biāo)準(zhǔn)式博弈一般共享如下核心要素,它們是:參與者:他們是彼此關(guān)聯(lián)的決策個體,其效用也是相互依賴的?,F(xiàn)實中,無論是個人、廠商、團(tuán)體、社會組織、政黨還是政府,均可看作博弈的參與者。策略:這一概念涉及兩種定義。第一種定義是指參與博弈的一整套行動計劃,它明確了在參與者可能遇到的每種情況下對可行行動的選擇;而第二種定義僅指對某一行動的選擇,比如在囚徒困境博弈中選擇“坦白”。一般來說,我們可把一套完整的行動計劃命名為“規(guī)則”,而“策略”一詞被限定于表示某一特定的選擇或行動。收益(或稱支付):這一概念是指在博弈結(jié)束時參與者的福利或得到的效用,它是由每個參與者的策略選擇所決定的。一般的假定認(rèn)為,每個參與者以最大化自身的效用或期望效用為目標(biāo)。擴(kuò)展式表述在很多情形下,參與者不是同時行動的,并且行動的順序?qū)Σ┺牡慕Y(jié)果很重要,這就需要使用所謂的擴(kuò)展式表述。擴(kuò)展式表述通常會涉及一個博弈樹,見圖7-2。該圖展示的是一個最后通牒博弈。與許多博弈一樣,最后通牒博弈也是由兩名參與者完成的,一名為提議者,另一名為回應(yīng)者。其中,提議者對一定資源提出一個分配方案,比如在10美元中出讓x美元給回應(yīng)者,自己留下10-x美元。而回應(yīng)者可以接受這一提議,也可以拒絕這一提議從而使雙方都一無所獲。在圖7-2所展示的博弈中,我們假定如果提議者A決定平分10美元,則博弈將結(jié)束,而唯一的非平分方式是(8,2),即提議者A得8美元,回應(yīng)者得2美元。博弈的擴(kuò)展式表述主要涉及四個要素:它包含各節(jié)點和各分支的完整結(jié)構(gòu),其中不存在任何封閉性循環(huán),而是從一個單一節(jié)點出發(fā)直至最終節(jié)點。節(jié)點分為決策節(jié)和終點節(jié)兩類。每個決策節(jié)都屬于某個參與者,而關(guān)于某一參與者的若干決策節(jié)的集合被稱為信息集。在每個終點節(jié)上都給出了各參與者的收益值。有時,在博弈中會存在一個外部的權(quán)威力量,被稱作“自然”,它會按一定的概率來隨機(jī)選擇某個分支。一個關(guān)于“自然”的直觀例子是,它需要決定是否降雨。7.1.2博弈的類型零和博弈與非零和博弈零和博弈是指,某一(些)參與者的收益恰好是另一(些)參與者的損失,因此所有參與者的收益或損失之和就為零。衍生品市場交易就屬于這類博弈情形,其中某一投機(jī)者之所得即為另一投資者之所失。但在現(xiàn)實中,大部分博弈情形屬于非零和博弈,即各方參與者的收益或損失之和不為零。完美信息與非完美信息在前文展示的囚徒困境博弈中,我們假定所有參與者都確切知道每種策略組合的收益結(jié)果,這被稱為完美信息情形。但在實際情形中卻經(jīng)常不是這樣,這必然會影響到策略的選擇。在某些情形中,參與者可能對他自己的收益是不確定的;在另一些情形中,他們也許知道自己的收益,但卻不確定其他參與者的收益是多少,這被稱為非完美信息。離散型策略與連續(xù)型策略離散型策略是指每個行動都是從有限數(shù)目的備擇策略中選出的。在囚徒困境博弈中,每個參與者只有“坦白”或“不坦白”兩種策略,因此屬于離散型策略情形。與之相對的是連續(xù)型策略,比如寡頭市場中的廠商,它們幾乎有無數(shù)個可以索取的價格。單擊博弈與重復(fù)博弈在商業(yè)行為中,大部分短期決策都屬于重復(fù)博弈,比如定價或廣告,在這些情形中,競爭者之間的互動是連續(xù)性的,它們可定期改變決策。對于這類博弈來說,有些也許只涉及有限的輪次,因此博弈的結(jié)束點是能夠預(yù)見的,而另一些博弈似乎會無限重復(fù)下去。另一方面,長期決策(比如投資)卻類似于單擊博弈或稱一次性博弈。雖然這種決策在未來也會再次進(jìn)行,但在兩次決策之間可能會相隔很久,并且下一次決策時所面臨的收益情況也許會發(fā)生迥然的變化,因此可將這類決策看作單擊博弈。7.1.3博弈的均衡基于前述關(guān)于博弈基本要素及類型的介紹,我們現(xiàn)在可來探討當(dāng)參與者具備無限的認(rèn)知能力時,會出現(xiàn)怎樣的博弈結(jié)果。占優(yōu)策略均衡如果給定其他參與者的可選策略的任何集合,選擇策略s1都會比選擇策略s2帶來嚴(yán)格更高的收益,則稱策略s1嚴(yán)格占優(yōu)于策略s2。換言之,如果參與者A在某種情形下?lián)碛幸粋€嚴(yán)格占優(yōu)策略,那么無論參與者B如何選擇,該策略給A帶來的收益都不少于其他策略帶來的收益。顯然,如果存在占優(yōu)策略,那么一位能進(jìn)行無限思考的參與者就總會選取它。因此,在任何涉及離散型策略的靜態(tài)博弈中,我們應(yīng)當(dāng)以尋找占優(yōu)策略作為分析的起點。對此,我們基于前文的囚徒困境博弈來介紹如何尋找占優(yōu)策略。現(xiàn)在請回顧圖7-1,對于囚徒A來說,如果囚徒B坦白,那么囚徒A選擇坦白可使他的結(jié)局更好一些,因為他們只會被判5年監(jiān)禁而不是10年;而如果囚徒B不坦白,那么囚徒A選擇坦白也可帶來更好的結(jié)局。因此,無論囚徒B選擇什么,囚徒A的最優(yōu)選擇都是坦白。這一分析邏輯對于囚徒B仍然適用。因此我們可認(rèn)為,對每個參與者而言,選擇坦白就是一個占優(yōu)策略。而當(dāng)存在多種可能的策略時,我們需要通過不斷剔除劣策略來尋找占優(yōu)策略。在上述的囚徒困境博弈中,不坦白對于每名參與者來說都是劣策略,因為他們選擇該策略在任何情形下(即無論對方選擇坦白還是不坦白)都只會帶來一個較低的或不變的收益。因此,在圖7-1所示的收益矩陣下,兩名囚徒都會選擇坦白,我們把這一策略組合稱為占優(yōu)策略均衡,因為在該均衡上,每個參與者都選擇了他的占優(yōu)策略。重復(fù)占優(yōu)策略均衡如果一名參與者沒有占優(yōu)策略,那么他將怎樣選擇?我們可在圖7-3的收益矩陣中對這一問題進(jìn)行分析,其形式與圖7-1相類似,只是修改了其中某個收益值,使得收益矩陣不再是對稱的,因為當(dāng)A坦白而B不坦白時A會被判2年監(jiān)禁。此時,雖然B的占優(yōu)策略并未改變,但A的占優(yōu)策略卻消失了。如果B坦白,A與前面一樣可通過坦白來改善處境;但如果B不坦白,A卻需要通過不坦白來改善處境。在這一情形下,如果A對B的策略持有正確的推斷,那么他就可剔除B的不坦白策略(因為這對于B來說是劣策略),并推斷B一定會選擇坦白,而A通過這種重復(fù)剔除方法就可選出一個占優(yōu)策略,即坦白。此時,所達(dá)到的均衡雖然與圖7-1所示的情形仍然一樣,但這時的均衡卻應(yīng)稱作一個重復(fù)占優(yōu)策略均衡。納什均衡現(xiàn)在,讓我們進(jìn)一步考慮,當(dāng)每個參與者都沒有占優(yōu)策略時會出現(xiàn)怎樣的結(jié)果。我們對圖7-1的囚徒困境博弈作進(jìn)一步修改,如圖7-4所示。其中,收益矩陣又變成對稱形式,但如果一名參與者坦白而另一名不坦白,則坦白者將被判處2年的監(jiān)禁。此時,均衡不再是唯一的,亦即對每名參與者來說不存在選擇某個策略的唯一趨勢。對此,我們需要涉及納什均衡的概念(Nash,1950;1951),其含義是,每名參與者都根據(jù)其他參與者的最優(yōu)反應(yīng)策略來選擇自身的最優(yōu)策略。這是一個比前述兩種均衡更具一般性的均衡概念,它不但囊括了占優(yōu)策略均衡和重復(fù)占優(yōu)策略均衡,而且還涉及那些無法應(yīng)用這兩種均衡的情形。根據(jù)圖7-4,我們可找出兩個納什均衡:如果B坦白,A通過坦白可改善自己的處境;并且給定這一最優(yōu)反應(yīng),B的最優(yōu)反應(yīng)也是坦白。如果B不坦白,A選擇不坦白也可改善自己的處境;并且給定這一最優(yōu)反應(yīng),B的最優(yōu)反應(yīng)也是不坦白。從B的角度出發(fā),也可得到相同的均衡:如果A坦白,B通過坦白可改善自己的處境;并且給定這一最優(yōu)反應(yīng),A的最優(yōu)反應(yīng)也是坦白。如果A不坦白,B選擇不坦白也可改善自己的處境;并且給定這一最優(yōu)反應(yīng),A的最優(yōu)反應(yīng)也是不坦白。綜上,兩個納什均衡分別為(坦白,坦白)和(不坦白,不坦白)?;旌喜呗跃獾侥壳盀橹?,我們所討論的均衡都只涉及純策略,其含義是,在給定情形下參與者總是以相同的方式作出反應(yīng),換言之,在每個決策節(jié)上只選出某個單一的行動。然而,在許多博弈中并不存在純策略的納什均衡,而是含有一個混合策略納什均衡,簡稱混合策略均衡。其中,混合策略是指對各種策略的選擇滿足某一概率分布,這也被稱為對可選策略的隨機(jī)化。一個涉及混合策略均衡的博弈可見圖7-6所示的網(wǎng)球賽例子(DixitandNalebuff,1991)。在該圖所示的收益矩陣中,參與者的收益用成功的概率來表示,即發(fā)球者擊敗接球者的概率以及接球者成功回球的概率。需指出的是,此處的收益矩陣不是對稱的,因為接球者在正手位要比在反手位更容易成功回球,這符合現(xiàn)實情況。因此,在圖7-6中假設(shè),如果接球者正確預(yù)測到球會發(fā)向他的正手位,那么他成功回球的概率為90%;而如果他正確預(yù)測到球會發(fā)向他的反手位,那么他回球的成功率只有60%。顯然,在該博弈中,發(fā)球者的目標(biāo)是最大化贏得發(fā)球的概率,而接球者的目標(biāo)是最大化回球的成功率。那么,我們應(yīng)當(dāng)如何推算每名參與者的最優(yōu)策略呢?假設(shè)發(fā)球者將球發(fā)到對方正手位的概率是p,發(fā)到對方反手位的概率是1-p;類似地,假設(shè)接球者移到正手位的概率是q,移到反手位的概率是1-q。于是,發(fā)球者將球發(fā)往對方正手位的期望收益為q×10%+(1-q)×70%=-q×60%+70%,發(fā)往反手位的期望收益為q×80%+(1-q)×40%=q×40%+40%。可見,當(dāng)前者大于后者時,即q<30%時,發(fā)球者發(fā)往對方正手位就是最優(yōu)策略;而當(dāng)前者小于后者時,即q>30%時,發(fā)往對方反手位就是最優(yōu)策略;而當(dāng)q=30%時,發(fā)往任何方向就是無差異的。我們在圖7-7中將這些情形繪制了出來,標(biāo)識為p(q),它表示隨q的變化發(fā)球者應(yīng)當(dāng)如何決定p,因此可看作發(fā)球者的最優(yōu)反應(yīng)函數(shù)。同樣的推導(dǎo)過程也適用于對接球者的分析:接球者移到正手位接球的期望收益是p×90%+(1-p)×20%=p×70%+20%,移到反手位接球的期望收益是p×30%+(1-p)×60%=-p×30%+60%。于是,當(dāng)前者大于后者時,即p>40%時,接球者移到正手位接球就是最優(yōu)策略;而當(dāng)前者小于后者時,即p<40%時,接球者移到反手位接球就是最優(yōu)策略;而當(dāng)p=40%時,移到任何方向接球是無差異的。這些情形也可在圖7-7中畫出,標(biāo)識為q(p),表示隨p的變化接球者應(yīng)當(dāng)如何決定自己的q,因此它是接球者的最優(yōu)反應(yīng)函數(shù)。可見,當(dāng)p(q)與q(p)相交時,即當(dāng)發(fā)球者在40%的時間里將球發(fā)往對方的正手位、接球者在30%的時間里移到正手位接球時,發(fā)球者與接球者都達(dá)到了最優(yōu)反應(yīng)點,此時任何一方都不再有進(jìn)一步調(diào)整策略的動機(jī),于是雙方達(dá)到了一個均衡狀態(tài),此即所謂的混合策略均衡,可表示為{(40%,60%),(30%,70%)}。子博弈完美納什均衡上述均衡概念都涉及的是靜態(tài)博弈情形。而在動態(tài)博弈中,我們將會面臨子博弈完美納什均衡。為了說明這一均衡的內(nèi)涵,我們利用圖7-2中的最后通牒博弈作為示例。首先我們需要了解一個新的概念即子博弈,它是指從某個單一決策節(jié)(該決策節(jié)所處的信息集中不包含其他決策節(jié))出發(fā)的直至終點節(jié)的后延博弈部分?;仡檲D7-2可知,從B的決策點出發(fā)存在一個子博弈。子博弈完美意味著如果博弈進(jìn)行到子博弈,那么參與者將選擇他們的均衡策略。子博弈完美納什均衡是針對整個博弈一種均衡,其中參與者在每個子博弈中都選擇他們的均衡策略。為了確定某個博弈的子博弈完美納什均衡,我們必須使用逆向歸納法。這意味著需要從博弈的最后一步思考并逆向推理。以圖7-2的最后通牒博弈為例,為了確定A的最優(yōu)或均衡策略,我們必須首先考慮B的情形。如果A選擇不平分,那么B就必須作出一項選擇。因為B是追求利益最大化的,故而他會接受這個不平分的結(jié)果,因為得到2單位收益總是要好于選擇拒絕而一無所獲。通過逆向推理,我們就可預(yù)料,A會由此決定選擇不平分,因為獲得8單位收益要優(yōu)于選擇平分而獲得5單位收益。于是,該博弈的子博弈完美納什均衡就是(不平分,接受|不平分)。子博弈完美納什均衡是一個比納什均衡更為嚴(yán)格的概念。在上述最后通牒博弈中,實際上存在兩個納什均衡,但只有前面所說的那個均衡是子博弈完美的。另一個納什均衡是(平分,拒絕|不平分),但卻不是子博弈完美的,因為根據(jù)解析博弈論的假定,B不會拒絕不平分的提議。7.2行為經(jīng)濟(jì)學(xué)的修正I:有限計算7.2.1異象截至目前,已有不少經(jīng)驗研究對博弈參與者達(dá)到混合策略均衡的成功率作了考察。根據(jù)已有的實驗研究可發(fā)現(xiàn),雖然在每種研究的結(jié)論中得到的結(jié)果各異,但所存在的一般規(guī)律是,博弈中的個體總是偏離混合策略均衡,雖然這種偏離并不大,但在統(tǒng)計學(xué)意義上通常是顯著的,對此可見圖7-8。圖7-8顯示,在若干實驗中,基于納什均衡推斷的各策略選擇概率(橫軸)與每次實驗中實際選擇各策略的相對頻率(縱軸)之間的對應(yīng)關(guān)系。我們發(fā)現(xiàn),在實際選擇與納什均衡預(yù)測之間有顯著的偏離,并且還存在這樣一個輕微的趨勢,即納什均衡中本應(yīng)以較低概率被選擇的策略卻被選擇得更多,而本應(yīng)以較高概率被選擇的策略卻沒有得到足夠的選擇。7.2.2質(zhì)反應(yīng)均衡模型基本描述上文已述,混合策略均衡雖然是對每個策略分配一個概率,但在本質(zhì)上仍是一種納什均衡,因為每名參與者都是在給定其他參與者的最優(yōu)概率分布下決定自己的最優(yōu)概率分布。可見,這一均衡是基于如下假定而得到的,即個體具有無限的認(rèn)知能力?,F(xiàn)在,為了能夠解釋上述異象,我們將對這一假定進(jìn)行放松,即個體在進(jìn)行最優(yōu)選擇時會出現(xiàn)計算錯誤?;谶@一假定而發(fā)展起來的一個替代性的均衡理論被稱為質(zhì)反應(yīng)均衡模型。麥凱爾維和帕爾弗雷(MckelveyandPalfrey,1995)在前人理論的基礎(chǔ)上,于研究中首次提出,參與者在博弈中會根據(jù)各策略的相對期望效用來進(jìn)行選擇,但在有限認(rèn)知的約束下,他無法確定性地計算各策略的期望效用,而是受到某種隨機(jī)誤差的干擾。他們進(jìn)一步假定,每名參與者都知道自己的選擇會受到誤差干擾,并且知道其他參與者的選擇也是在誤差干擾下進(jìn)行的,但參與者仍能達(dá)到一個他們認(rèn)為的彼此“最優(yōu)反應(yīng)”點,這是一個區(qū)別于納什均衡的“有限計算下的均衡”。此時,較好的反應(yīng)要比較差的反應(yīng)更容易被觀測到,但最好的反應(yīng)并不以概率1出現(xiàn)。麥凱爾維和帕爾弗雷發(fā)現(xiàn),基于這一思想而得到的參與者的“最優(yōu)反應(yīng)函數(shù)”與解析博弈論下的最優(yōu)反應(yīng)函數(shù)是不一樣的,而是更類似于生物學(xué)或藥理學(xué)中的一個常見統(tǒng)計模型,即質(zhì)反應(yīng)函數(shù)(詳見后文),因此他們將這種均衡命名為質(zhì)反應(yīng)均衡(根據(jù)其英文簡稱為QRE均衡)。QRE的參數(shù)化形式對于如何表達(dá)QRE,麥凱爾維和帕爾弗雷從盧斯(Luce,1959)和麥克法登(Mcfadden,1976)那里獲得啟發(fā),提出了所謂的LogitQRE。這種形式不但便于求解,而且還便于統(tǒng)計學(xué)上的處理,從而可直接用于分析和解釋實驗數(shù)據(jù)。為此,我們首先給出LogitQRE的定義,并利用它展示QRE的求解過程。具體地,在一個n人標(biāo)準(zhǔn)式博弈中,假設(shè)參與者i的可選策略有Ji個,那么他選擇第j個策略的概率滿足一個Logit形式的反應(yīng)函數(shù),可表達(dá)為:參數(shù)λ>0衡量了計算誤差的程度,在附錄中我們將說明,該值越小,計算誤差越大。進(jìn)一步地,根據(jù)(7.1)式,如果每個參與者都依據(jù)Logit反應(yīng)函數(shù)來決定選擇各策略的概率,那么相應(yīng)的QRE均衡就可表達(dá)為:兩人博弈下的LogitQRE為了直觀展示LogitQRE的求解過程,我們設(shè)計了一個兩人標(biāo)準(zhǔn)式博弈,其收益矩陣見圖7-9。這是一個具有唯一混合策略納什均衡的博弈。經(jīng)計算,該博弈的混合策略均衡為{(0.5,0.5),(0.2,0.8)}。根據(jù)LogitQRE的定義,參與者選擇的均衡點又應(yīng)該在什么位置呢?我們先看參與者A的情況。根據(jù)計算,參與者A選擇“上”的Logit反應(yīng)函數(shù)為:同樣地,我們可以寫出參與者B的Logit反應(yīng)函數(shù)為:這兩條新的反應(yīng)函數(shù)的交點就是LogitQRE所在的位置。這個基于有限計算的均衡點與納什均衡是偏離的。7.2.3對實驗數(shù)據(jù)的擬合請觀察如下博弈與相關(guān)預(yù)測結(jié)果??梢钥吹剑琎RE通過把參與者的計算誤差引入模型之中,提高了對參與者實際選擇的解釋和預(yù)測能力。而Logit均衡作為QRE的一種參數(shù)化形式,它的單參數(shù)性質(zhì)很便于在實際分析中應(yīng)用。7.2.3心理學(xué)基礎(chǔ)QRE模型的合理之處及其心理學(xué)基礎(chǔ)是什么?對此,拉波波特和布代斯庫(RapoportandBudescu,1997)提出了兩個可能的原因:一是工作記憶的有限性,二是代表性直覺推斷法。工作記憶是指一個容量有限的用來暫時保持和存儲信息的系統(tǒng),有時又被稱作短時記憶。關(guān)于代表性直覺推斷法的相關(guān)原理可回顧第5章內(nèi)容,它探討了當(dāng)個體面對難以計算客觀概率的復(fù)雜情形時,會怎樣對風(fēng)險事件進(jìn)行主觀概率賦值。由于工作記憶有限,個體用來計算策略期望效用的信息很難充分,因此會導(dǎo)致他使用代表性直覺推斷法來估測對手選取不同策略的概率分布,最終只能做出較優(yōu)的反應(yīng),這反映了一種節(jié)省認(rèn)知資源的傾向。7.3行為經(jīng)濟(jì)學(xué)的修正II:有限推理7.3.1異象在7.1節(jié)我們就已提到,具有占優(yōu)策略均衡的博弈常常是很容易求解的,尤其是那些只涉及兩種策略的兩人博弈。而在更復(fù)雜的博弈情形下,我們有時需要通過重復(fù)推理來剔除劣策略,從而達(dá)到一個占優(yōu)均衡。我們將看到,在某些情形下需要進(jìn)行多步的推理,甚至是無限步數(shù)。那么,現(xiàn)實中的個體究竟是怎樣進(jìn)行這些重復(fù)推理呢?他們在那些形式較為復(fù)雜的博弈下會推理多少步驟?在解析博弈論的強(qiáng)式假定下,個體會進(jìn)行無限次的推理,但現(xiàn)實情形仍需借助博弈實驗來考察。簡單的兩步推理博弈為了便于后文的講述,我們從一個簡單的兩步推理博弈開始(BeardandBeil,1994)。該博弈是一個兩人動態(tài)博弈,我們在圖7-14中給出了該博弈的基本形式。其中,參與者A首先行動,如果他選左,則博弈結(jié)束,他將獲得9.75美元,參與者B獲得3美元。另一方面,如果參與者A選右,則參與者B可繼續(xù)行動。如果參與者B是完全利己的,他也會選右,于是獲得5美元而不是選左獲得4.75美元。參與者B選右還可使參與者A獲得10美元,這要稍高于參與者A最初選左可獲得的9.75美元。因此,重復(fù)占優(yōu)均衡是(右,右)。然而,參與者A選右具有一定的風(fēng)險,因為如果參與者B并未選擇占優(yōu)策略,那么參與者A將只能獲得3美元。在所進(jìn)行的基準(zhǔn)實驗中,有66%的參與者A選擇了左,這表明他們普遍懷疑參與者B不會選擇占優(yōu)策略。這種懷疑最終被證明是正當(dāng)?shù)模驗楫?dāng)參與者A選右時,參與者B只在83%的時間下選擇了右。這個百分比意味著參與者A選右的期望收益僅有3×0.17+10×0.83=8.81美元,這要低于選左可得到的收益。上述的簡單實驗與許多其他后續(xù)實驗都得到了一個基本結(jié)論,即參與者傾向于認(rèn)為其他參與者不會如想象中那樣服從占優(yōu)均衡,換言之,許多參與者會懷疑對手的推理能力。但這一博弈無法反映參與者自己的推理能力,即他的實際推理步數(shù),因為無論參與者A是否相信對手會服從占優(yōu)均衡,他其實都已作了兩步推理。選美競猜博弈選美競猜博弈是一個富含啟發(fā)性的博弈,它的名稱最初來自于凱恩斯在1936年出版的《就業(yè)、利息與貨幣通論》。在書中,凱恩斯創(chuàng)造性地把股票市場投資比喻為一種報紙上的選美競猜活動,其中參與者需要在眾多照片中選出最漂亮的人臉肖像,如果哪位參與者的選擇最接近于整體參與者的平均偏好,那么獎金就將頒授給他。凱恩斯是如此描述這種情形的:“每一個參與者所要挑選的并不是他自己認(rèn)為是最漂亮的人,而是他設(shè)想的其他參與者所要挑選的人。全部參與者都以與此相同的辦法看待這個問題。這里挑選的并不是根據(jù)個人判斷力來選出的最漂亮的人,甚至也不是根據(jù)真正的平均的判斷力來選出的最漂亮的人,而是運用智力來推測一般人所推測的一般人的意見為何。在這里,我們已經(jīng)到達(dá)了推測的第三個層次?!鄙鲜銮樾慰梢杂靡环N簡單的博弈形式進(jìn)行再現(xiàn),并可用于實驗。這種博弈的標(biāo)準(zhǔn)形式是,要求一組參與者從1到100中選擇一個數(shù)字。哪位參與者選擇的數(shù)字最接近所有參與者選擇數(shù)字的平均數(shù)的某個比例P(比如P=2/3),那么誰就是勝出者。實驗的目的在于考察參與者會重復(fù)推理多少次。如果參與者的選擇是隨機(jī)的或均勻分布的,那么平均數(shù)將為50,該數(shù)字的2/3就是33,因此如果你選擇了33,說明你進(jìn)行了一步推理;第二步的推理是,如果其他參與者都使用一步推理而選擇了33,那么你的最優(yōu)選擇應(yīng)當(dāng)是33的2/3,即22;而第三步推理是,如果其他參與者都使用了兩步推理,那么你的最優(yōu)選擇應(yīng)當(dāng)是15……如此往復(fù)。我們可以看到,在上述博弈中,推理步數(shù)是可以進(jìn)行無限次的,并且每多作一次推理,最優(yōu)數(shù)字就應(yīng)當(dāng)更小,因此最終的重復(fù)占優(yōu)均衡應(yīng)為0。然而,內(nèi)格爾(Nagel,1995)在其實驗中發(fā)現(xiàn),參與者的平均選擇大約為35,并且在33和22存在兩個較高的選擇頻率。更全面的實驗是由何、凱莫勒和魏格爾特(Ho,CamererandWeigelt,1998)進(jìn)行的,他們得到的一般性結(jié)論是,參與者只會表現(xiàn)出一到兩步的推理。凱莫勒(1997)針對不同身份的受試者群體得到了類似的實驗結(jié)果,這些受試者包括:心理學(xué)本科生、經(jīng)濟(jì)學(xué)博士、證券經(jīng)理和CEO。在針對財經(jīng)雜志的讀者所展開的競猜式的現(xiàn)場實驗中使用了真實的獎金發(fā)放,而實驗結(jié)果也仍然類似,即在33和22處存在兩個頻率峰值,但參與者平均選擇的數(shù)字稍低一些,見圖7-15。根據(jù)這些實驗,我們得到兩種可能的結(jié)論:其一,人們的推理通常無法超過兩步;其二,他們也不相信其他人能做到這一點。但這兩點結(jié)論是否具有穩(wěn)健性,我們還需考察其他博弈的實驗結(jié)果。蜈蚣博弈

略,可作課后閱讀臟臉博弈

略,可作課后閱讀7.3.2認(rèn)知層級模型上文已述,人們通常是不進(jìn)行多次推理的,這不僅在于他們懷疑其他人如此行為的能力,而且在于他們常常只有有限的認(rèn)知能力。據(jù)此,研究者提出了所謂的認(rèn)知層級模型(Camerer,HoandChong,2004),以便于預(yù)測重復(fù)推理博弈中的選擇行為,并為學(xué)習(xí)模型提供初始條件。請考慮一個僅有兩人參加的博弈,分別為參與者A和參與者B。每名參與者均有兩個可選策略,分別標(biāo)識為sA1、sA2和sB1、sB2。現(xiàn)在,我們假設(shè)A可作三步推理,并且他認(rèn)為B最多只能作兩步推理,這意味著A的認(rèn)知層級要比B高一層級?,F(xiàn)進(jìn)一步假設(shè),A猜測B是c步推理者(c=0,1,2)的概率為P(c),而B在不同推理步驟下選擇策略sBi的概率又可假設(shè)為P(sBi|c),其中i=1,2。于是,A對于選擇策略sA1的期望收益為:基于(7.5)式,認(rèn)知層級模型進(jìn)一步假定,參與者A形成對策略sA1的期望收益之后,即可通過一個Logit反應(yīng)函數(shù)將這一收益映射為選擇策略sA1的概率,表示為:其中λ代表反應(yīng)敏感度。于是選擇策略sA2的概率自然為1-PA(sA1)。關(guān)于參與者B對各策略的選擇概率也可按上述的分析方法求出,當(dāng)然需預(yù)先假設(shè)他可實施的推理步數(shù),即認(rèn)知層級水平。可見,在該理論下,認(rèn)知層級是影響參與者策略選擇的重要因素。7.3.3對實驗數(shù)據(jù)的擬合上文僅是對認(rèn)知層級模型的簡單說明。在該模型的原始版本中,一般基于泊松分布來描述使用不同推理步數(shù)的參與者的概率(實際數(shù)據(jù)可用相應(yīng)的受試者占比來表示),具體形式可見7.6節(jié)的附錄,在那里,我們將泊松分布的密度函數(shù)表達(dá)為f(c|τ),其中τ表示該分布的均值和方差。可見,這種分布只涉及單一的參數(shù)τ,因此認(rèn)知層級模型形式簡單且便于應(yīng)用。為了展示這一模型的預(yù)測與擬合結(jié)果,我們在表7-2中給出了何、凱莫勒和魏格爾特(1998)所進(jìn)行的兩次選美競猜博弈實驗(比例值分別設(shè)為P=0.9和P=0.7兩種情形),其中納什均衡預(yù)測均為數(shù)字0。在表中,我們分別給出了實驗結(jié)果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論