博弈論知識點總結(jié)材料_第1頁
博弈論知識點總結(jié)材料_第2頁
博弈論知識點總結(jié)材料_第3頁
已閱讀5頁,還剩19頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、博弈論知識總結(jié)博弈論概述:1、博弈論概念:博弈論:就是研究決策主體的行為發(fā)生直接相互作用時的決策以及這種決策的均衡問題。 博弈論研究的假設(shè):1、決策主體是理性的,最大化自己的收益。2、完全理性是共同知識3、每個參與人被假定為可以對所處環(huán)境以及其他參與者的行為形成正確的信念 與預期2、和博弈有關(guān)的變量:博弈參與人:博弈中選擇行動以最大化自己受益的決策主體。行動:參與人的決策選擇戰(zhàn)略:參與人的行動規(guī)則,即事件與決策主體行動之間的映射,也是參與人行動的規(guī)則。信息:參與人在博弈中的知識, 尤其是其他決策主體的戰(zhàn)略、收益、類型(不完全信息)等的信息。完全信息:每個參與人對其他參與人的支付函數(shù)有準確的了解

2、;完美信息:在博弈過程的任何時點每個參與人都能觀察并記憶之前各局中人所選擇的行動,否則 為不完美信息。不完全信息:參與人沒有完全掌握其他參與人的特征、戰(zhàn)略空間及支付函數(shù)等信 息,即存在著有關(guān)其他參與人的不確定性因素。支付:決策主體在博弈中的收益。在博弈中支付是所有決策主題所選擇的行動的函數(shù)。從經(jīng)濟學的角度講,博弈是決策主體之間的相互作用,因此和傳統(tǒng)個人決策存在著區(qū)別:3、博弈論與傳統(tǒng)決策的區(qū)別:1、傳統(tǒng)微觀經(jīng)濟學的個人決策就是在給定市場價格、消費者收入條件下,最大化自己效用,研究工具是無差異曲線。可表示為:maxU(P,l),其中P為市場價格,I為消費者可支配收入。2、 其他消費者對個人的綜合

3、影響表示為一個參數(shù)一一市場價格,所以在市場價格既定 下,消費者效用只依賴于自己的收入和偏好,不用考慮其他消費者的影響。但是在博弈論理個人效用函數(shù)還依賴于其他決策者的選擇和效用函數(shù)。4、博弈的表示形式:戰(zhàn)略式博弈和擴展式博弈戰(zhàn)略式博弈:是博弈問題的一種規(guī)范性描述,有時亦稱標準式博弈。并且參與人同時進行選般適用于描述不需戰(zhàn)略式博弈是一種假設(shè)每個參與人僅選擇一次行動或戰(zhàn)略, 擇的決策模型,因此,從本質(zhì)上來講戰(zhàn)略式博弈是一種靜態(tài)模型,要考慮博弈進程的完全信息靜態(tài)博弈問題。1、參與人集合1 , 2,., n 2、每位參與人非空的戰(zhàn)略集Sinsii 1(S1,., S i, S n )3、每位參與人定義在

4、戰(zhàn)略組合上的效用函數(shù)Ui(s1,s2,sn).擴展式博弈:是博弈問題的一種規(guī)范性描述。與戰(zhàn)略式博弈側(cè)重博弈結(jié)果的描述相比,遇到?jīng)Q策問題時序列結(jié)構(gòu)的分析。擴展式博弈更注重對參與人在博弈過程中包含要素:1、參與人集合1 , 2,., n 2、參與人的行動順序,即每個參與人在何時行動;3、序列結(jié)構(gòu):每個參與人行動時面臨的決策問題,包括參與人行動時可供選擇的行動方案、所了解的信息;4、參與人的支付函數(shù)。比較:1、戰(zhàn)略式博弈從本質(zhì)上來講是一種靜態(tài)模型。2、擴展式博弈從本質(zhì)上來講是一種動態(tài)模型。5、博弈論分類:按決策主體的行為相互作用時,當事人能否達成一個具有約束力的協(xié)議可分為:1、合作博弈(強調(diào)團體理性

5、、團體最優(yōu)決策、效率)2、非合作博弈(強調(diào)個人理性,個人最優(yōu)決策)按參與人行動先后順序可分為:1、靜態(tài)博弈:博弈中參與人同時行動,或者雖然不是同時行動,但是在行動前不知道其他參與人所選擇的行動。2、動態(tài)博弈:參與人的行動有先后順序,后行動者獲得先行動者的行動信息。按參與人對信息的掌握程度可分為:1、完全信息:每個參與人對其他所有參與人的特征、戰(zhàn)略空間及支付函數(shù)有精確的了解,博弈開始時不存在不確定性因素。2、不完全信息:參與人沒有完全掌握其他參與人的特征、戰(zhàn)略空間及支付函數(shù)等信息,即存在著有關(guān)其他參與人的不確定性因素。按決策主體對信息的掌握程度和行動的先后順序,博弈可以分為:完全信息靜態(tài)博弈、完

6、全信息動態(tài)博弈、不完全信息靜態(tài)博弈、不完全信息動態(tài)博弈。靜態(tài)動態(tài)完全信息完全信息靜態(tài)博弈完全信息動態(tài)博弈均衡:納什均衡均衡:子博弈精煉納什均衡不完全信息不完全信息靜態(tài)博弈不完全信息動態(tài)博弈均衡:貝葉斯納什均衡均衡:精煉貝葉斯納什均衡6、根據(jù)所學這四種博弈的特點對這四種博弈做一個對比分析:類型信息和行動特點均衡均衡類型特別均衡求解方法學過的例子性質(zhì)完全信息靜態(tài)每個參與人對其納什均純戰(zhàn)略納占優(yōu)戰(zhàn)略納箭頭法Hotelli ng價格多重性和存博弈他所有參與人的衡什均衡什均衡劃線法競爭在性特征、戰(zhàn)略空間及(PNE)(DSE)庫諾特價格競爭支付函數(shù)有精確重復剔除的不斷剔除劣一般一個博弈中的了解,博弈開始占

7、有均衡戰(zhàn)略(弱劣存在參與者有多時不存在不確定(IFDE)戰(zhàn)略的剔除個行動時可以先性因素,參與人同順序會影響考慮能否剔除弱時行動或者不是均衡結(jié)果戰(zhàn)略簡化博弈同時行動但是后混合戰(zhàn)略聚點均衡支付最大化社會福利博弈行動者不知道行納什均衡法小偷-守衛(wèi)博弈動者的行動信息。(MNE)支付等值法戰(zhàn)略和行動相同。完全信在博弈開始之前子博弈子博弈精有限次重復與納什均衡連鎖店悖論1、均衡結(jié)息動態(tài)果是原博弈參與人之間的信精煉納煉納什均博弈均衡的唯一性有博弈的Nash息不存在不確定什均衡衡關(guān)均衡;性,但是參與人行無限次重復與貼現(xiàn)因子囚徒困境(冷酷2、同時在每一個動存在先后順序。博弈均衡, 亠 、/ 有關(guān)戰(zhàn)略)子博弈上構(gòu)

8、成在完全信息動態(tài)(無名氏定無限期輪流討價Nash均衡博弈中,為了表示理)還價模型參與人之間的信息掌握關(guān)系,引入一般博弈逆向歸納法斯坦科爾伯格寡了信息及的概念。求解頭競爭雇主與公會之間的競爭不完全信息靜在博弈開始之前貝葉斯貝葉斯納混合戰(zhàn)略對原混合戰(zhàn)性別戰(zhàn)1、均衡存態(tài)博弈參與人之間的信納什均什均衡(不完全信略加入少許在性息存在不確定性,衡息情況下純不確定性因2、不確定但是參與人同時戰(zhàn)略均衡的素,求極限。性體現(xiàn)為類行動或者不是同極限)型的不確定時行動但是后行性動者不知道行動一般貝葉斯Harsa nyi機制設(shè)計者的行動信息。均衡轉(zhuǎn)換不確定是參與人的了性的不確定性不完全信息動在博弈開始前參精煉貝信號傳遞

9、分離均衡根據(jù)所得信信號傳遞博弈不完全信息態(tài)博弈與人之間的信息葉斯納博弈混同均衡息修正判斷不完全信息重復動態(tài)博弈子存在不確定性,同什均衡準分離均衡概率,根據(jù)博弈與聲譽博弈精煉納時參與人行動存收益最大化Milgrom-Robe什均衡與海在先后順序。不完決策rts壟斷限價模薩尼不完全全信息動態(tài)博弈型信息靜態(tài)博過程不僅是參與弈貝葉斯均人選擇行動的過衡的結(jié)合。程,而且是參與人不斷修正信念的過程。二、四種博弈類型具體分述1、完全信息靜態(tài)博弈1.1 完全信息靜態(tài)博弈特點:每個參與人對其他所有參與人的特征、戰(zhàn)略空間及支付 函數(shù)有精確的了解,博弈開始時不存在不確定性因素,參與人同時行動或者不是同時行 動但是后行

10、動者不知道行動者的行動信息。戰(zhàn)略和行動相同。1.2 完全信靜態(tài)博弈相關(guān)概念:以新產(chǎn)品開發(fā)博弈舉例說明:參與人:參與人1和2。參與人的集合卡表示為:匸1,2,n表示所有參與人的集合,在新產(chǎn)品開發(fā)博弈中為:匸1,2行動:開發(fā)、不開發(fā)。Ai表示參與人行動的集合。新產(chǎn)品開發(fā)博弈中參與人的行動集合為A仁A2=a,b,其中a為開發(fā),b為不開發(fā)。a=a1,a2an表示參與人的行動組合。新產(chǎn)品開發(fā)博弈中為:A= (a,a ) ,(a,b),(b,a),(b,b)戰(zhàn)略:參與人的行動規(guī)則。在博弈中的戰(zhàn)略可以定義為從觀測集到行動集的映射關(guān)系,即: Si:Xi Ai。用Si=si表示參與人所有戰(zhàn)略的集合。在n人博弈中

11、,用S=(si,s2,s3,sn)表示n個參與人的戰(zhàn)略組合,它表示博弈中每個參 與人采取戰(zhàn)略si的一種博弈情形。在完全信息靜態(tài)博弈中,由于不存在決策時序上的差異,所有參與人在同一決策時點即博弈開始的那一時刻決策,因此,所有參與人面臨的決策情形都只有一種,所以,參與人的戰(zhàn)略集與行動集相同。支付:是指參與人在博弈中的所得。一般情況下也是用效用函數(shù)來表示參與人在博弈中的所得。因此,參與人的支付就可表示為一種特定博弈情形下參與人得到的確定效用水平或期望效用水平。支付一般用ui(1,2,n)表示參與人 i的支付(效用水平),支付組合u=(u1,u2,un)表示參與人在特定博弈情形下所得到的支付,其中為參

12、與人i的支付。因此,參與人i=(i=1,2,n)的支付就可表示為: ui=ui(s i,s-i).信息:是參與人所具有的有關(guān)博弈的所有知識,如有關(guān)其它參與人行動或戰(zhàn)略的知識、有關(guān)參與人支付的知識等等。在“新產(chǎn)品開發(fā)博弈”中,如果兩個企業(yè)都知道市場需求,那么這樣的博弈情形就是我們前面所提到的完全信息假設(shè);如果兩個企業(yè)中至少有一個不知道市場需求,那么這樣的博弈情形就是我們前面所提到的不完全信息假設(shè)。1.3 純戰(zhàn)略納什均衡純戰(zhàn)略:參與人在給定信息下只選擇一種特定(或確定性)的戰(zhàn)略混合戰(zhàn)略:混合戰(zhàn)略解釋了一個參與人對其他參與人所采取的行動的不確定性,它描述了參與人在給定信息下以某種概率分布隨機地選擇不

13、同的行動或戰(zhàn)略。純戰(zhàn)略納什均衡中包括:占有均衡、重復剔除劣戰(zhàn)略均衡、一般純戰(zhàn)略納什均衡等。1、占優(yōu)均衡占優(yōu)戰(zhàn)略:參與人的最優(yōu)戰(zhàn)略si *與其他參與人的選擇s-i無關(guān)。無論其他參與人選擇什么戰(zhàn)略,參與人的最優(yōu)戰(zhàn)略總是唯一的,這樣的最優(yōu)戰(zhàn)略稱之為“占優(yōu)戰(zhàn)略”。在n人博弈中,如果對于所有的其他參與人的選擇s-i,si *都是參與人i的最優(yōu)選擇Ui(S*,Sj Ui(Si,Sj則稱si *為參與人的占優(yōu)戰(zhàn)略。在n人博弈中,如果對所有參與人都存在占優(yōu)戰(zhàn)略si *,則占優(yōu)戰(zhàn)略組合si*= (si * si2*, -sn * )稱為占優(yōu)戰(zhàn)略均衡。如果所有參與人都有占優(yōu)戰(zhàn)略存在,那么占優(yōu)戰(zhàn)略均衡就是唯一 的所

14、有理性參與人可以預測到的博弈結(jié)果。2、重復剔除劣戰(zhàn)略如果在一個博弈中,參與人不存在占優(yōu)戰(zhàn)略,但是參與人i存在兩個戰(zhàn)略,其中一u/s ,s i) u(s ,sj個戰(zhàn)略叫另一個戰(zhàn)略的所得效用要大si則理性的參與人絕對不會選擇戰(zhàn)略。嚴格劣戰(zhàn)略: u(s ,s i ) Ui (Si , s i )弱劣戰(zhàn)略:若重復剔除過程一直可持續(xù)到只剩下唯一的戰(zhàn)略組合,則該戰(zhàn)略組合即為重復剔除的占優(yōu)均衡,此時該博弈是重復剔除戰(zhàn)略可解。要點:再重復剔除過程中,如果每次剔除的是嚴格劣戰(zhàn)略,均衡結(jié)果與剔除順序無關(guān);如果剔除的是弱劣戰(zhàn)略,均衡結(jié)果可能與剔除順序有關(guān)。3、一般Nash均衡Nash均衡是完全信息靜態(tài)博弈的解的概念

15、,在完全信息靜態(tài)博弈中,構(gòu)成Nash均衡的戰(zhàn)略是不可剔除的,即不存在任何一個戰(zhàn)略嚴格優(yōu)于Nash均衡戰(zhàn)略。求解納什均衡的方法劃線法、箭頭法。劃線法:1、考察參與人1的最優(yōu)戰(zhàn)略2、用上述方法找出參與人 2的最優(yōu)戰(zhàn)略3、找出最優(yōu)戰(zhàn)略組合箭頭法:1、對于每個戰(zhàn)略組合,檢查是否有參與人會偏離這個戰(zhàn)略組合2、直至找出沒有參與人會偏離的戰(zhàn)略組合純戰(zhàn)略均衡反映函數(shù):各博弈方選擇的純策略對其他博弈方純策略的反應。1.4 混合戰(zhàn)略納什均衡混合戰(zhàn)略:在博弈G B-SU1,Un中,對任一參與人i,設(shè)Si=S/,Sik,則參與人i 的一個混合戰(zhàn)略為定義在戰(zhàn)略集Si上的一個概率分布3 i=訊,,護,其中Sij (j=1

16、,k)表示參與人i選擇戰(zhàn)略 表示參與人i選擇戰(zhàn)略Sj的概率的概率,即3 j 滿足0 w 3三1,其中概率之和為1。支付:混合戰(zhàn)略的支付為各種概率下收益的加權(quán)平均。混合戰(zhàn)略納什均衡:在博弈G ,3,,Sn,U1,Un訃,混合戰(zhàn)略組合3 i=* 31*,,3n*為一個Nash均 i , ii,有Vi( i , i) v( i, i)衡。當且僅當?;旌蠎?zhàn)略Nash均衡的求解:1. 支付最大化法;2. 支付等值法;混合戰(zhàn)略均衡反映函數(shù):在混合策略的范疇內(nèi),博弈方的決策是選擇概率分布,因此,反應函數(shù)就是一方對另一方選擇的概率分布的反應。聚點均衡:在現(xiàn)實生活中,參與人可能使用某些被博弈模型抽象掉的信息來達

17、到一個“聚點”均衡。這些信息可能與社會文化習慣、參與人過去博弈的歷史有關(guān)。不同均衡概念之間的關(guān)系:占優(yōu)均衡 重復剔除劣戰(zhàn)略均衡 純戰(zhàn)略納什均衡 混合戰(zhàn)略納什均衡1.5 納什均衡的多重性與存在性存在性:每個有限戰(zhàn)略式博弈(參與人與相應的戰(zhàn)略集均為有限)必存在納什均衡,這個均衡可能是純戰(zhàn)略納什均衡,也可能是混合戰(zhàn)略納什均衡。多重性:一個博弈可能有多個均衡,博弈論并沒有一個一般的理論證明,哪一個納什均衡結(jié) 果一定能出現(xiàn)。2、完全信息動態(tài)博弈2.1 完全信息動態(tài)博弈特點:在博弈開始之前參與人之間的信息不存在不確定性,但是參 與人行動存在先后順序。在完全信息動態(tài)博弈中,為了表示參與人之間的信息掌握關(guān)系,

18、引入了信息及的概念。2.2 完全信息動態(tài)博弈有關(guān)概念:信息集:信息集Ii是參與人i決策結(jié)的一個集合,它滿足以下兩個條件:1、li中的每個決策結(jié)都是參與人 i的決策結(jié);2、當博弈到達li時,參與人i知道自己處在該信息集中的某個決策結(jié),但不知道是哪一 個。在博弈樹中,屬于同一信息集的決策結(jié)一般用虛線連接起來。結(jié):包括決策結(jié)和終點結(jié)兩類。 決策結(jié)是參與人采取行動的點時點,終點結(jié)是博弈行動路徑的終點。一個信息集可能只包含一個決策結(jié),也可能包含多個決策結(jié)。如果只包含一個決策結(jié)的信息集就是但單結(jié)信息集。如果博弈中所有信息集都是單結(jié)的則成為完美信息博弈。子博弈:是原博弈的一部分,它始于原博弈中一個單結(jié)信息集

19、中的決策結(jié)x,并由決策結(jié)x及其后續(xù)結(jié)共同組成。1、子博弈可以作為一個獨立的博弈進行分析,并且與原博弈具有相同的信息結(jié)構(gòu);2、原博弈可以作為自身的一個子博弈;2.3 不完全信息靜態(tài)博弈均衡一一子博弈精煉Nash均衡:解決Nash均衡多重性問題的一種主要方法就是精煉的方法,即在Nash均衡的基礎(chǔ)上,通過定義更加合理的博弈解并剔除不合理的均衡。子博弈精煉納什均衡的引入就是將那些包含不可置信威脅戰(zhàn)略的納什均衡從均衡中剔除,從而給出動態(tài)博弈結(jié)果的一個合理預測。即子博弈精煉納什均衡要求均衡戰(zhàn)略的行為規(guī)則在每個信息集上都是最優(yōu)的。擴展式博弈的戰(zhàn)略組合S (Sl ',Sn ),是一個子博弈精煉 Nas

20、h均衡,當且僅當滿足以下條件:1、是原博弈的Nash均衡2、在每一個子博弈上構(gòu)成 Nash均衡一個戰(zhàn)略組合是子博弈精煉Nash均衡當且僅當它對所有的子博弈 (包括原博弈)構(gòu)成Nash均衡,同時也意味著原博弈的 Nash均衡并不一定是子博弈精煉 Nash均衡,除非它 還對所有子博弈構(gòu)成 Nash均衡。2.4 不完全信息靜態(tài)博弈均衡求解一一逆推歸納法逆推歸納法是最常用的求解子博弈精煉Nash均衡的方法,其步驟為:其中r(xi)代表博弈中由最底層到博弈起點的順序,以r(X3)為最底層,則有:1、找出博弈的所有子博弈;2、按照博弈進程的“反方向”逐一求解各個子博弈,即最先求解最底層的子博弈,再求 解上

21、一層的子博弈,.,直至原博弈。由于逆推歸納法對各個子博弈逐一進行求解,因此,逆推歸納法所得到的解在各子博弈上構(gòu)成Nash均衡,即意味著逆推歸納法所得的解為子博弈精煉納什均衡2.5 完全信息動態(tài)博弈中承諾行動的均衡結(jié)果分析:承諾行動:就是在博弈開始之前參與人采取某種改變自己支付或戰(zhàn)略空間的行動,該行動使 原本不可信的威脅變得可信。但是參與人的承諾行動是有成本的,否則這種承諾就不可信。例子:要挾訴訟要挾訴訟就是指那種原告幾乎不可能勝訴而其惟一的目的是希望通過私了而得到一筆賠償?shù)脑V訟。該博弈的結(jié)果為原告選擇不指控,博弈結(jié)束。博弈的結(jié)果似乎與人們觀測到的現(xiàn)實并不相符,因為現(xiàn)實中人們常??吹礁鞣N“要挾”

22、發(fā)生。在上述模型中,“要挾”之所以沒有成功,關(guān)鍵在于原告將會起訴的威脅并不可信。要是威脅變得可信,就必須采取承諾行動(沉沒成本)。這樣參與人的威脅就會變得可信,從而使其他博弈參與人改變策略。2.6 重復博弈議題:1、將來可信的威脅或承諾如何影響到當前的行動2、在一次博弈中無法實現(xiàn)的均衡,在重復博弈中能否實現(xiàn)有限次重復博弈:對于給定的階段博弈 G,令G(T)表示G重復進行T次的有限重復博弈,并且在下一次博弈開始前,所有以前博弈的進程都可被觀測到。有限次重復博弈均衡結(jié)論:如果階段博弈 G有唯一的Nash均衡,則對任意有限的 T,重復博弈 G(T)有唯一的 子博弈精煉解,即 G的Nash均衡結(jié)果在每

23、一個階段重復進行。而且在有限次重復博弈中,如果在單階段博弈中均衡解不只有一個,則對將來行動所作的可信威脅或承諾可以影響到當前的行動。無限次重復博弈: 給定一階段博弈 G,令 G( S)表示相應的無限重復博弈,其中G將無限次的重復進行,且參與人的貼現(xiàn)率為。對每個t,之前t-1次階段博弈的結(jié)果在t階段開始進行前都可以被觀測到,每個參與人在G(a, 3)中的收益都是該參與人在無限次的階段博弈中所得收益的現(xiàn)值。無限次重復博弈的解一一無名氏定理:令G為一個n人階段博弈,令(e1,e2,en )為G的一個Nash均衡下的收益,且用(x1,x2,xn)表示G的其它任何可行收益,表示可行收益的集合。若存在Xi

24、 e,對 i,Xi X則存在貼現(xiàn)率3,使無限重復博弈G(g, 3)存在一個子博弈精煉 Nash均衡,其平均收益可達到(x1,x2,,xn)。無名氏定理的解釋:在無限次重復博弈中, 如果參與人具有足夠的耐心(只要 滿足一定的條件),那么任何滿足個人理性的可行收益向量都可以通過一個特定的子博弈精煉Nash均衡得到。影響重復博弈結(jié)果的因素:影響重復博弈結(jié)果的是重復的次數(shù)和信息的完備性。2.7 子博弈精煉 Nash均衡與Nash均衡的區(qū)別:由于子博弈精煉Nash均衡在任一決策結(jié)上都能給出最優(yōu)決策,這也使得子博弈精煉納什均衡不僅在均衡路徑(即均衡戰(zhàn)略組合所對應的路徑)上給出參與人的最優(yōu)選擇,而且在非 均

25、衡路徑(即除均衡路徑以外的其它路徑)上也能給出參與人的最優(yōu)選擇。即子博弈精煉Nash均衡不會含有參與人在博弈進程中不合理的、不可置信的行動。3、不完全信息靜態(tài)博弈3 . 1不完全信息靜態(tài)博弈特點:在博弈開始之前參與人之間的信息存在不確定性,但是參與人同時行動或者不是同時行動但是后行動者不知道行動者的行動信息。在不完全信息靜態(tài)博弈中,在博弈開始前存在關(guān)于博弈人信息的不確定性,這個不確定 像通常是博弈參與人的類型。在市場進入博弈中不完全信息表現(xiàn)為:在位者的成本類型(高成本、低成本)在斗雞博弈中不完全信息表現(xiàn)為:參與人的性格類型(強硬,軟弱)3.2海薩尼轉(zhuǎn)換由于在不完全信息靜態(tài)博弈中,參與人的類型存

26、在不確定性,所以當一個參與人并不知 道在與誰博弈時,博弈的規(guī)則是無法定義的,海薩尼提出了海薩尼轉(zhuǎn)換解決這種不確定的問題。解決方法:海薩尼指出,引入虛擬參與人一一自然,由自然先決定參與人的不同類型,將不完全信息博弈轉(zhuǎn)換為不完美信息博弈。海薩尼通過引入“虛擬”參與人,將博弈的起始點提前,從而將原博弈中參與人的事前不確定性轉(zhuǎn)變?yōu)椴┺拈_始后的不確定性。這種通過引入“虛擬”參與人來處理不完全信息博弈問題的方法稱為Harsanyi轉(zhuǎn)換。海薩尼轉(zhuǎn)換注意要點:1、海薩尼轉(zhuǎn)換規(guī)定:參與人關(guān)于“自然”選擇的推斷為共同知識。2、 “自然”的選擇。在一般的不完全信息博弈問題中,Harsanyi轉(zhuǎn)換規(guī)定“自然”選 擇的

27、是參與人的類型(type)。除了根據(jù)參與人的支付來劃分參與人的類型以外,還可以 根據(jù)參與人的行動空間,甚至根據(jù)參與人掌握信息的多少(或程度)來劃分參與人的類型。3、參與人關(guān)于“自然”選擇的推斷是基于自己類型判斷的條件概率。3.3 不完全信息靜態(tài)博弈均衡一一貝葉斯納什均衡貝葉斯博弈的定義:貝葉斯博弈包含以下五個要素:1、參與人集合 BI=1,2,,n2、參與人的類型集合 Ti,T23、 參與人關(guān)于其他參與人類型的推斷Pl(t-1 |tl),,Pn (t-1n|tn)4、 參與人類型相依的行動集A(t 1),A(tn)5、參與人類型相依的支付函數(shù)貝葉斯博弈的戰(zhàn)略:在貝葉斯博弈 G= r(Ti) ;

28、 ( Pi) ; (A (ti) ; (ui ( a (t); ti) 中,參與人i的一個戰(zhàn)略是從參與人的類型集 Ti到其行動集的一個函數(shù) si(t i);它包含了 當自然賦予i的類型為ti時,i將從可行的行動集 Ai(t i)中選擇的行動。貝葉斯博弈的時間順序:1、 “自然”選擇參與人的類型組合t=(tl,tn)2、 參與人同時選擇行動,每個參與人i從行動集Ai(ti)中選擇行動ai(ti)3、參與人i得到支付貝葉斯納什均衡:在貝葉斯博弈中,對于一個理性的參與人i,當他只知道自己的類型ti而不知道其他參與人的類型時,給定其他參與人的戰(zhàn)略s-i ,他將選擇使自己期望效用(支付)最大化的行動 a

29、i* (ti),其中ai (ti) arg max(t )vi(ai,s i;t,)ai A (ti )貝葉斯博弈納什均衡的存在性:一個有限的貝葉斯博弈一定存在貝葉斯Nash均衡。3.4貝葉斯博弈與混合戰(zhàn)略均衡(關(guān)于混合戰(zhàn)略納什均衡的一個解釋)首先,混合策略均衡不是現(xiàn)實生活的一個合理描述,人們并不是根據(jù)概率分布來選擇自己行動;海薩尼證明,在完全信息情況下的混合策略均衡可以解釋為不完全信息情況下 純策略均衡的極限?;旌喜呗缘谋举|(zhì):混合策略的本質(zhì)不在于參與人隨機的選擇行動,而在于他不能確定其他參與人將選擇什么純策略,這種不確定性可能來自于參與人不知道其他參與人的類型。海薩尼的基本思想:只要在原來的

30、博弈中加入少許不完全信息因素,使得參與人的支付函數(shù)中的收益不再 是確定的,而是和一個有范圍的不確定參數(shù)有關(guān),從而通過將混合戰(zhàn)略均衡求解轉(zhuǎn)換為貝 葉斯均衡的極限解,但是得到的純戰(zhàn)略貝葉斯均衡就與完全信息下的混合戰(zhàn)略均衡相似。結(jié)論:完全信息博弈的混合戰(zhàn)略Nash均衡可以解釋為與之密切相關(guān)、存在一點點非完全信息的純戰(zhàn)略貝葉斯Nash均衡。同時海薩尼給出了描述混合策略和純策略之間關(guān)系的一個正式的定理:混合策略均衡的純化定理。3.5 貝葉斯均衡Eg :機制設(shè)計問題機制設(shè)計問題實際上就是探討設(shè)計者如何向參與人提供激勵,以促使參與人向設(shè)計者透露其掌握的信息(說真話),從而確定對設(shè)計者有利的結(jié)果的問題。這一機

31、制對 應于一個博弈形式,設(shè)計者需要設(shè)計出一個博弈形式,讓參與人在這個博弈形式下進行博弈從而實現(xiàn)他的目標。 博弈形式不同,實現(xiàn)目標的程度也不一樣, 設(shè)計者必須選 擇對他來說是最有利的博弈形式,即最有利的機制。機制設(shè)計的基本模型:機制設(shè)計是典型的3階段不完全信息博弈,期階段如下:階段1 :機制設(shè)計者(委托人)設(shè)計一種“機制”,或者“契約”,或者“激勵方案”; 階段2 :代理人選擇接受或拒絕該機制,拒絕的代理人得到某個外生的“保留效 用”;階段3 :接受機制的代理人選擇自己的行動(或者戰(zhàn)略),實現(xiàn)一個博弈結(jié)果。機制設(shè)計模型中的有關(guān)概念 :參與約束:由于代理人在第二階段總可以選擇不接受該機制從而獲得一

32、個保留效用, 因此,代理人接受這個機制獲得的效用必須不小于拒絕這個機制時獲得的效用。激勵相容約束:這意味著,對于代理人而言,代理人真實報告自己的類型時獲得的效 用必須不小于謊報自己類型時獲得的效用??尚袡C制:滿足參與約束的機制被稱為可行機制??蓪嵤C制:滿足激勵相容約束的機制稱為可實施機制可行的可實施機制:如果一個機制既滿足參與約束,又滿足激勵相容約束。機制設(shè)計的目的:機制設(shè)計的目的就是要設(shè)計出可行的可實施機制,從而在該機制中找出最優(yōu)規(guī)則以追求最大化收益。4、不完全信息動態(tài)博弈4.1 不完全信息動態(tài)博弈特點:在博弈開始之前參與人之間的信息存在不確定性,同時參與人行動存在先后順序。 不完全信息動

33、態(tài)博弈過程不僅是參與人選擇行動的過程,而且是參與人不斷修正信念的過程。4.2 不完全信息動態(tài)博弈的有關(guān)概念類型:是指參與者的類型。在不完全信息動態(tài)博弈中自然首先選擇參與人的類型。 動態(tài)博弈:行動有先有后。所以后行動者可以觀察到先行動者的行動信息,從而可以 修正自己對于參與人的類型的信息的判斷。類型相依:參與者的行動傳遞著有關(guān)自己的類型的信息,對方可通過參與人的行動來推斷自己的最優(yōu)行動。 先行動者預測到自己的行動被后行動者利用,就會設(shè)法傳遞對自己最有利的信息。4.3 不完全信息動態(tài)博弈的納什均衡一一精煉貝葉斯均衡對應于不完全信息動態(tài)博弈的納什均衡稱為精煉貝葉斯均衡;精練貝葉斯均衡是澤爾騰不完全信

34、息動態(tài)博弈子博弈精煉納什均衡與海薩尼不完全信息靜態(tài)博弈貝葉斯均 衡的結(jié)合。1、不完全信息動態(tài)博弈均衡求解的基本思路:不完全信息動態(tài)博弈將子博弈精煉Nash均衡中“均衡精煉”的思想應用到不完全信息擴展式博弈中,但是有提前條件:1、 對每個參與人i,在其信息集上給出關(guān)于自己位于該信息集中哪一個決策結(jié)的信念(或 推斷)。2、 對參與人i的每個信息集,在給定參與人i在該信息集上的信念(或推斷)情況下,參 與人的戰(zhàn)略是對其他參與人戰(zhàn)略的一個最優(yōu)反應。與靜態(tài)博弈不同的是: 在觀測到先行動者第一階段選擇后, 后行動者可以修正對先行動者類型的先驗概率, 因為先行動者的行動可能包含其類型的信息,即行動就是類型的

35、反映,不同的行動反映不同的類型信息。參與人最初對于對手類型信息概率的判斷成為先驗概率,對于根據(jù)行動反映出得信息修正后的概率成為后驗概率。先驗概率(prior probability):修正之前的判斷;后驗概率(posterior probability):修正之后的判斷先驗概率和后驗概率的轉(zhuǎn)化是根據(jù)貝葉斯法則計算:在不完全信息動態(tài)博弈博弈均衡解的求解過程中,如果不可置信的威脅,均衡就是不合理的,所以要對均衡結(jié)果精煉,剔除那些不可置信的威脅。從而引入子博弈精練納 什均衡的概念,但是,在不完全信息動態(tài)博弈中,只有一個子博弈,不能將上述方法直接用于求不完全信息動態(tài)博弈的均衡解。合理的均衡應該是滿足: 給定每一個參與人有關(guān)其他參與人類型的后驗信念,參與人的戰(zhàn)略組合在每一個后續(xù)博弈上構(gòu)成貝葉斯均衡,我們將通過這種方式得到的納什均衡稱為精煉貝葉斯納什均衡。精煉貝葉斯均衡是貝葉斯均衡、子博弈精煉納什均衡和貝葉斯推斷的結(jié)合,精煉貝葉斯均衡要求:1、在每個信息集上,決策者必須有一個定義在屬于該信息

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論