博弈論知識點總結材料_第1頁
博弈論知識點總結材料_第2頁
博弈論知識點總結材料_第3頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、博弈論知識總結博弈論概述 :1、博弈論概念: 博弈論:就是研究決策主體的行為發(fā)生直接相互作用時的決策以及這種決策的均衡問 題。博弈論研究的假設:1、決策主體是理性的,最大化自己的收益。2、完全理性是共同知識3、每個參與人被假定為可以對所處環(huán)境以及其他參與者的行為形成正確的信念 與預期2、和博弈有關的變量: 博弈參與人:博弈中選擇行動以最大化自己受益的決策主體。行動:參與人的決策選擇戰(zhàn)略:參與人的行動規(guī)則, 即事件與決策主體行動之間的映射, 也是參與人行動的規(guī)則。 信息:參與人在博弈中的知識, 尤其是其他決策主體的戰(zhàn)略、 收益、 類型(不完全信息) 等的信息。完全信息:每個參與人對其他參與人的支

2、付函數有準確的了解;完美信息:在博 弈過程的任何時點每個參與人都能觀察并記憶之前各局中人所選擇的行動,否則 為不完美信息。不完全信息:參與人沒有完全掌握其他參與人的特征、戰(zhàn)略空間及支付函數等信 息,即存在著有關其他參與人的不確定性因素。支付:決策主體在博弈中的收益。在博弈中支付是所有決策主題所選擇的行動的函數。 從經濟學的角度講, 博弈是決策主體之間的相互作用, 因此和傳統(tǒng)個人決策存在著區(qū)別:3、博弈論與傳統(tǒng)決策的區(qū)別:1、傳統(tǒng)微觀經濟學的個人決策就是在給定市場價格、消費者收入條件下,最大化自己效用,研究工具是無差異曲線??杀硎緸椋簃axU(Pi),其中P為市場價格,I為消費者可支配收入。2、

3、其他消費者對個人的綜合影響表示為一個參數市場價格,所以在市場價格既定下,消費者效用只依賴于自己的收入和偏好,不用考慮其他消費者的影響。但是在 博弈論理個人效用函數還依賴于其他決策者的選擇和效用函數。4、博弈的表示形式 :戰(zhàn)略式博弈和擴展式博弈戰(zhàn)略式博弈 :是博弈問題的一種規(guī)性描述,有時亦稱標準式博弈。戰(zhàn)略式博弈是一種假設每個參與人僅選擇一次行動或戰(zhàn)略, 并且參與人同時進行選 擇的決策模型, 因此, 從本質上來講戰(zhàn)略式博弈是一種靜態(tài)模型, 一般適用于描述不需 要考慮博弈進程的完全信息靜態(tài)博弈問題。1、參與人集合 1, 2,.,n :2、每位參與人非空的戰(zhàn)略集Si nsi ( s1 ,., si

4、,., s n )i13、每位 參與人定 義在戰(zhàn) 略組合 上的 效用函 數Ui(s1,s2,s n).擴展式博弈 :是博弈問題的一種規(guī)性描述。與戰(zhàn)略式博弈側重博弈結果的描述相比, 擴展式博弈更注重對參與人在博弈過程中 遇到決策問題時序列結構的分析。包含要素:1 、 1, 2,.,n 參與人集合2 、 參與人的行動順序, 即每個參與 人在何時行動;3、序列結構: 每個參與人行動時面臨的決策問題,包括參與人行動時可供選擇的行動方案、所了解的信息;4 、參與人的支付函數。比較 :1 、戰(zhàn)略式博弈從本質上來講是一種靜態(tài)模型。2、擴展式博弈從本質上來講是一種動態(tài)模型。5、博弈論分類:按決策主體的行為相互

5、作用時,當事人能否達成一個具有約束力的協議可分為:1、合作博弈(強調團體理性、團體最優(yōu)決策、效率)2、非合作博弈(強調個人理性,個人最優(yōu)決策)按參與人行動先后順序可分為:1、靜態(tài)博弈:博弈中參與人同時行動,或者雖然不是同時行動,但是在行動前不知道其他參與人所選擇的行動。2、動態(tài)博弈:參與人的行動有先后順序,后行動者獲得先行動者的行動信息。按參與人對信息的掌握程度可分為:1、完全信息:每個參與人對其他所有參與人的特征、戰(zhàn)略空間及支付函數有精確的 了解,博弈開始時不存在不確定性因素。2、不完全信息:參與人沒有完全掌握其他參與人的特征、戰(zhàn)略空間及支付函數等信息,即存在著有關其他參與人的不確定性因素。

6、按決策主體對信息的掌握程度和行動的先后順序,博弈可以分為:完全信息靜態(tài)博弈、完全信息動態(tài)博弈、不完全信息靜態(tài)博弈、不完全信息動態(tài)博弈。靜態(tài)動態(tài)完全信息完全信息靜態(tài)博弈完全信息動態(tài)博弈均衡:納什均衡均衡:子博弈精煉納什均衡不完全信息不完全信息靜態(tài)博弈不完全信息動態(tài)博弈均衡:貝葉斯納什均衡均衡:精煉貝葉斯納什均衡6、根據所學這四種博弈的特點對這四種博弈做一個對比分析:類型信息和行動特點均衡均衡類型特別均衡求解方法學過的例子性質完全信 息靜態(tài) 博弈每個參與人對其 他所有參與人的 特征、戰(zhàn)略空間及 支付函數有精確納什均衡純戰(zhàn)略納什均衡(PNE)占優(yōu)戰(zhàn)略納 什均衡(DSE箭頭法劃線法Hotelling價

7、格競爭庫諾特價格競爭多重性和存在性的了解,博弈開始 時不存在不確定 性因素,參與人同 時行動或者不是 同時行動但是后 行動者不知道行 動者的行動信息。 戰(zhàn)略和行動相同。重復剔除的 占有均衡(IFDE)不斷剔除劣 戰(zhàn)略(弱劣 戰(zhàn)略的剔除 順序會影響 均衡結果一般一個博弈中 存在參與者有多 個行動時可以先 考慮能否剔除弱 戰(zhàn)略簡化博弈混合戰(zhàn)略納什均衡(MNE)聚點均衡支付最大化法支付等值法社會福利博弈小偷-守衛(wèi)博弈完全信 息動態(tài) 博弈在博弈開始之前 參與人之間的信 息不存在不確定 性,但是參與人行 動存在先后順序。在完全信息動態(tài) 博弈中,為了表示 參與人之間的信 息掌握關系,引入 了信息及的概念。

8、子博弈精煉納什均衡子博弈精煉納什均衡有限次重復博弈均衡與納什均衡 的唯一性有 關連鎖店悖論1、均衡結 果是原 博弈的Nash 均 衡;2、同時在 每一個 子博弈 上構成Nash 均 衡無限次重復 博弈均衡(無名氏定理)與貼現因子, 亠 、/有關囚徒困境(冷酷 戰(zhàn)略)無限期輪流討價 還價模型一般博弈逆向歸納法求解斯坦科爾伯格寡 頭競爭雇主與公會之間 的競爭不完全 信息靜 態(tài)博弈在博弈開始之前 參與人之間的信 息存在不確定性, 但是參與人同時 行動或者不是同 時行動但是后行 動者不知道行動 者的行動信息。不確定是參與人 的了性的不確定 性貝葉斯 納什均 衡貝葉斯納什均衡混合戰(zhàn)略(不完全信 息情況下

9、純 戰(zhàn)略均衡的 極限)對原混合戰(zhàn) 略加入少許 不確定性因 素,求極限。性別戰(zhàn)1、均衡存在 性2、不確定性 體現為類型 的不確定性一般貝葉斯均衡Harsanyi 轉換機制設計不完全信息動態(tài)博弈在博弈開始前參 與人之間的信息 存在不確定性,同 時參與人行動存 在先后順序。不完 全信息動態(tài)博弈 過程不僅是參與 人選擇行動的過 程,而且是參與人 不斷修正信念的 過程。精煉貝葉斯納什均衡信號傳遞 博弈分離均衡根據所得信 息修正判斷 概率,根據 收益最大化 決策信號傳遞博弈不完全信息重復博弈與聲譽Milgrom-Roberts壟斷限價模型不完全信息 動態(tài)博弈子 博弈精煉納 什均衡與海 薩尼不完全 信息靜態(tài)

10、博 弈貝葉斯均 衡的結合?;焱鉁史蛛x均衡二、四種博弈類型具體分述1完全信息靜態(tài)博弈1.1完全信息靜態(tài)博弈特點:每個參與人對其他所有參與人的特征、戰(zhàn)略空間及支付 函數有精確的了解,博弈開始時不存在不確定性因素,參與人同時行動或者不是同時行 動但是后行動者不知道行動者的行動信息。戰(zhàn)略和行動相同。1.2 完全信靜態(tài)博弈相關概念:以新產品開發(fā)博弈舉例說明:參與人:參與人1和2。參與人的集合卡表示為:r =1,2, -n表示所有參與人的集合,在新產品開發(fā)博弈中為:r =1,2行動:開發(fā)、不開發(fā)。Ai表示參與人行動的集合。新產品開發(fā)博弈中參與人的行動集合為A1=A2=a,b,其中a為開發(fā),b為不開發(fā)。

11、a=a1,a2an表示參與人的行動組合。新產品開發(fā)博弈中為:A= ( a,a) ,(a,b),(b,a),(b,b)戰(zhàn)略:參與人的行動規(guī)則。在博弈中的戰(zhàn)略可以定義為從觀測集到行動集的映射關系,即:Si:X Ai。用Si=si表示參與人所有戰(zhàn)略的集合。在n人博弈中,用S=(Sl,S2,S3,Sn)表示n個參與人的戰(zhàn)略組合,它表示博弈中每個參與 人采取戰(zhàn)略 si 的一種博弈情形。在完全信息靜態(tài)博弈中,由于不存在決策時序上的差異,所有參與人在同一決策時點即 博弈開始的那一時刻決策,因此,所有參與人面臨的決策情形都只有一種,所以, 參與人的戰(zhàn)略集與行動集相同。支付 :是指參與人在博弈中的所得。 一般情

12、況下也是用效用函數來表示參與人在博弈中 的所得。 因此, 參與人的支付就可表示為一種特定博弈情形下參與人得到的確定效用水平或 期望效用水平。支付一般用ui(1,2,n)表示參與人i的支付(效用水平),支付組合u=(u1,u2un) 表示參與人在特定博弈情形下所得到的支付,其中為參與人i 的支付。因此,參與人i=(i=1,2,n)的支付就可表示為:ui=ui(si ,s-i).信息 :是參與人所具有的有關博弈的所有知識,如有關其它參與人行動或戰(zhàn)略的知識、 有關參與人支付的知識等等。在“新產品開發(fā)博弈”中,如果兩個企業(yè)都知道市場需求,那 么這樣的博弈情形就是我們前面所提到的完全信息假設; 如果兩個

13、企業(yè)中至少有一個不知道 市場需求,那么這樣的博弈情形就是我們前面所提到的不完全信息假設。1.3 純戰(zhàn)略納什均衡純戰(zhàn)略 :參與人在給定信息下只選擇一種特定(或確定性)的戰(zhàn)略混合戰(zhàn)略: 混合戰(zhàn)略解釋了一個參與人對其他參與人所采取的行動的不確定性,它描述了參與人在給定信息下以某種概率分布隨機地選擇不同的行動或戰(zhàn)略。純戰(zhàn)略納什均衡中包括:占有均衡、重復剔除劣戰(zhàn)略均衡、一般純戰(zhàn)略納什均衡等。1 、占優(yōu)均衡占優(yōu)戰(zhàn)略:參與人的最優(yōu)戰(zhàn)略si *與其他參與人的選擇s無關。無論其他參與人選擇什么戰(zhàn)略,參與人的最優(yōu)戰(zhàn)略總是唯一的,這樣的最優(yōu)戰(zhàn)略稱之為“占優(yōu)戰(zhàn)略”。在n人博弈中,如果對于所有的其他參與人的選擇s-i,

14、 si *都是參與人i的最優(yōu)選擇*ui(si*,s i) ui(si,s i)則稱 si *為參與人的占優(yōu)戰(zhàn)略。在 n 人博弈中, 如果對所有參與人都存在占優(yōu)戰(zhàn)略 si *,則占優(yōu)戰(zhàn)略組合 si*=(s1 * si2*, , sn *)稱為占優(yōu)戰(zhàn)略均衡。如果所有參與人都有占優(yōu)戰(zhàn)略存在,那么占優(yōu)戰(zhàn)略均衡就是唯一 的所有理性參與人可以預測到的博弈結果。2、重復剔除劣戰(zhàn)略i 存在兩個戰(zhàn)略,其中一如果在一個博弈中,參與人不存在占優(yōu)戰(zhàn)略,但是參與人 ui(si ,s i) ui (si ,s i)個戰(zhàn)略叫另一個戰(zhàn)略的所得效用要大,則理性的參與人絕對不會選擇戰(zhàn)略。ui(si ,s i) ui(si ,s

15、i) 嚴格劣戰(zhàn)略 :u(si ,s i ) u i (si ,s i ) 弱劣戰(zhàn)略 :若重復剔除過程一直可持續(xù)到只剩下唯一的戰(zhàn)略組合,則該戰(zhàn)略組合即為重復剔除 的占優(yōu)均衡,此時該博弈是重復剔除戰(zhàn)略可解。要點:再重復剔除過程中,如果每次剔除的是嚴格劣戰(zhàn)略,均衡結果與剔除順序無 關;如果剔除的是弱劣戰(zhàn)略,均衡結果可能與剔除順序有關。3、一般 Nash 均衡Nash均衡是完全信息靜態(tài)博弈的解的概念,在完全信息靜態(tài)博弈中, 構成Nash均衡的戰(zhàn)略是不可剔除的,即不存在任何一個戰(zhàn)略嚴格優(yōu)于Nash均衡戰(zhàn)略。求解納什均衡的方法劃線法、箭頭法。劃線法 :1、考察參與人 1 的最優(yōu)戰(zhàn)略2、 用上述方法找出參與

16、人2 的最優(yōu)戰(zhàn)略3、找出最優(yōu)戰(zhàn)略組合箭頭法:1、對于每個戰(zhàn)略組合,檢查是否有參與人會偏離這個戰(zhàn)略組合2、直至找出沒有參與人會偏離的戰(zhàn)略組合純戰(zhàn)略均衡反映函數 :各博弈方選擇的純策略對其他博弈方純策略的反應。1.4 混合戰(zhàn)略納什均衡混合戰(zhàn)略:在博弈 G ;S,,Sn;Ui,山中,對任一參與人i,設Si=Si1,Sik,則參與人i的一個混合戰(zhàn)略為定義在戰(zhàn)略集Si上的一個概率分布3i= S i 1,S i k,其中S ij(j=1,k )表示參與人i選擇戰(zhàn)略 表示參與人i選擇戰(zhàn)略S"的概率的概率,即S iJ滿足OWS ij W 1,其中概率之和為 1。支付:混合戰(zhàn)略的支付為各種概率下收益的

17、加權平均?;旌蠎?zhàn)略納什均衡:在博弈G Sn;5,Un中,混合戰(zhàn)略組合S i= S 1*,S n*為一個Nash* * *均衡。當且僅當 i , i i,有vi( i, i) v( i, i )?;旌蠎?zhàn)略 Nash 均衡的求解:1. 支付最大化法;2. 支付等值法;混合戰(zhàn)略均衡反映函數: 在混合策略的疇,博弈方的決策是選擇概率分布, 因此, 反應函數 就是一方對另一方選擇的概率分布的反應。聚點均衡: 在現實生活中, 參與人可能使用某些被博弈模型抽象掉的信息來達到一個 “聚點” 均衡。這些信息可能與社會文化習慣、參與人過去博弈的歷史有關。不同均衡概念之間的關系:占優(yōu)均衡 重復剔除劣戰(zhàn)略均衡 純戰(zhàn)略

18、納什均衡 混合戰(zhàn)略納什均衡1.5 納什均衡的多重性與存在性存在性:每個有限戰(zhàn)略式博弈(參與人與相應的戰(zhàn)略集均為有限)必存在納什均衡,這個均衡可能是純戰(zhàn)略納什均衡,也可能是混合戰(zhàn)略納什均衡。多重性: 一個博弈可能有多個均衡, 博弈論并沒有一個一般的理論證明, 哪一個納什均衡結 果一定能出現。2、完全信息動態(tài)博弈2.1 完全信息動態(tài)博弈特點: 在博弈開始之前參與人之間的信息不存在不確定性,但是參 與人行動存在先后順序。在完全信息動態(tài)博弈中,為了表示參與人之間的信息掌握關系,引入了信息及的概念。2.2 完全信息動態(tài)博弈有關概念:信息集 :信息集 Ii 是參與人 i 決策結的一個集合,它滿足以下兩個條

19、件:1、 I i中的每個決策結都是參與人i的決策結;2、當博弈到達 I i 時,參與人 i 知道自己處在該信息集中的某個決策結,但不知道是哪 一個。在博弈樹中,屬于同一信息集的決策結一般用虛線連接起來。結 :包括決策結和終點結兩類。 決策結是參與人采取行動的點時點, 終點結是博弈行動路 徑的終點。一個信息集可能只包含一個決策結, 也可能包含多個決策結。 如果只包含一個決策結的信息集就是但單結信息集。如果博弈中所有信息集都是單結的則成為完美信息博弈。子博弈:是原博弈的一部分,它始于原博弈中一個單結信息集中的決策結x,并由決策結x 及其后續(xù)結共同組成。1、子博弈可以作為一個獨立的博弈進行分析,并且

20、與原博弈具有相同的信 息結構;2、原博弈可以作為自身的一個子博弈;2.3 不完全信息靜態(tài)博弈均衡子博弈精煉 Nash 均衡:解決Nash均衡多重性問題的一種主要方法就是精煉的方法,即在Nash均衡的基礎上,通過定義更加合理的博弈解并剔除不合理的均衡。子博弈精煉納什均衡的引入就是將那些包含不可置信威脅戰(zhàn)略的納什均衡從均衡中剔 除,從而給出動態(tài)博弈結果的一個合理預測。 即子博弈精煉納什均衡要求均衡戰(zhàn)略的行為規(guī) 則在每個信息集上都是最優(yōu)的。擴展式博弈的戰(zhàn)略組合s*(s;,., S:),是一個子博弈精煉 Nash均衡,當且僅當滿足以下條件:1 、是原博弈的 Nash 均衡2、在每一個子博弈上構成Nas

21、h均衡一個戰(zhàn)略組合是子博弈精煉 Nash 均衡當且僅當它對所有的子博弈 ( 包括原博弈 ) 構成 Nash 均衡,同時也意味著原博弈的 Nash 均衡并不一定是子博弈精煉 Nash 均衡,除非它還 對所有子博弈構成 Nash均衡。2.4 不完全信息靜態(tài)博弈均衡求解逆推歸納法逆推歸納法是最常用的求解子博弈精煉 Nash 均衡的方法,其步驟為:其中r (x)代表博弈中由最底層到博弈起點的順序,以r(x»為最底層,則有:1、找出博弈的所有子博弈;2、按照博弈進程的“反方向”逐一求解各個子博弈,即最先求解最底層的子博弈,再求解上一層的子博弈, ,直至原博弈。由于逆推歸納法對各個子博弈逐一進行

22、求解, 因此,逆推歸納法所得到的解在各子博弈 上構成Nash均衡,即意味著逆推歸納法所得的解為子博弈精煉納什均衡2.5 完全信息動態(tài)博弈中承諾行動的均衡結果分析:承諾行動: 就是在博弈開始之前參與人采取某種改變自己支付或戰(zhàn)略空間的行動,該行動使原本不可信的威脅變得可信。但是參與人的承諾行動是有成本的,否則這種承諾就不可信。例子 :要挾訴訟要挾訴訟就是指那種原告幾乎不可能勝訴而其惟一的目的是希望通過私了而得到一筆 賠償的訴訟。 該博弈的結果為原告選擇不指控, 博弈結束。 博弈的結果似乎與人們觀測到的 現實并不相符,因為現實中人們常??吹礁鞣N“要挾”發(fā)生。在上述模型中,“要挾”之所以沒有成功,關鍵

23、在于原告將會起訴的威脅并不可信。要是威脅變得可信, 就必須采取承諾行動 (沉沒成本) 。這樣參與人的威脅就會變得可 信,從而使其他博弈參與人改變策略。2.6 重復博弈議題:1、將來可信的威脅或承諾如何影響到當前的行動2、在一次博弈中無法實現的均衡,在重復博弈中能否實現有限次重復博弈:對于給定的階段博弈 G令G(T)表示G重復進行T次的有限重復博弈, 并且在下一次博弈開始前,所有以前博弈的進程都可被觀測到。有限次重復博弈均衡結論 :如果階段博弈 G有唯一的Nash均衡,則對任意有限的 T,重復博弈G(T)有唯一的子 博弈精煉解,即G的Nash均衡結果在每一個階段重復進行。而且在有限次重復博弈中,

24、 如果在單階段博弈中均衡解不只有一個, 則對將來行動所作 的可信威脅或承諾可以影響到當前的行動。無限次重復博弈:給定一階段博弈 G令G( 0, 3 )表示相應的無限重復博弈,其中G將無限次的重復進行,且參與人的貼現率為。對每個 t ,之前 t -1 次階段博弈的結果在 t 階段開始進行前都可以被觀測到,每個參與人在 G( 0,3 )中的收益都是該參與人在無限次的階段博弈中所得收益的現值。無限次重復博弈的解無名氏定理:令G為一個n人階段博弈,令(e1,e2,en )為G的一個Nash均衡下的收益,且用(x1,x2,xn)表示G的其它任何可行收益,表示可行收益的集合。若存在xiei, 對 i,xi

25、 X則存在貼現率3,使無限重復博弈G(0, 3 )存在一個子博弈精煉 Nash 均衡,其平均收益可達到 (x1,x2, ,xn) 。無名氏定理的解釋 :在無限次重復博弈中,如果參與人具有足夠的耐心(只要滿足一定的條件),那么任何滿足個人理性的可行收益向量都可以通過一個特定的子博弈精煉Nash均衡得到。影響重復博弈結果的因素 :影響重復博弈結果的是重復的次數和信息的完備性。2.7 子博弈精煉 Nash 均衡與 Nash 均衡的區(qū)別:由于子博弈精煉 Nash 均衡在任一決策結上都能給出最優(yōu)決策,這也使得子博弈精煉納 什均衡不僅在均衡路徑 (即均衡戰(zhàn)略組合所對應的路徑 )上給出參與人的最優(yōu)選擇, 而

26、且在非 均衡路徑 (即除均衡路徑以外的其它路徑 )上也能給出參與人的最優(yōu)選擇。即子博弈精煉 Nash均衡不會含有參與人在博弈進程中不合理的、不可置信的行動。3、不完全信息靜態(tài)博弈31 不完全信息靜態(tài)博弈特點: 在博弈開始之前參與人之間的信息存在不確定性,但是 參與人同時行動或者不是同時行動但是后行動者不知道行動者的行動信息。在不完全信息靜態(tài)博弈中, 在博弈開始前存在關于博弈人信息的不確定性, 這個不確定 像通常是博弈參與人的類型。在市場進入博弈中不完全信息表現為:在位者的成本類型(高成本、低成本) 在斗雞博弈中不完全信息表現為:參與人的性格類型(強硬,軟弱)3.2 海薩尼轉換由于在不完全信息靜

27、態(tài)博弈中, 參與人的類型存在不確定性, 所以當一個參與人并不知 道在與誰博弈時, 博弈的規(guī)則是無法定義的, 海薩尼提出了海薩尼轉換解決這種不確定的問 題。解決方法 :海薩尼指出, 引入虛擬參與人自然, 由自然先決定參與人的不同類型, 將不完 全信息博弈轉換為不完美信息博弈 。海薩尼通過引入“虛擬”參與人,將博弈的起始 點提前, 從而將原博弈中參與人的事前不確定性轉變?yōu)椴┺拈_始后的不確定性。 這種通 過引入“虛擬”參與人來處理不完全信息博弈問題的方法稱為 Harsanyi 轉換。海薩尼轉換注意要點:1、海薩尼轉換規(guī)定:參與人關于“自然”選擇的推斷為共同知識。2、“自然”的選擇。在一般的不完全信息

28、博弈問題中,Harsanyi 轉換規(guī)定“自然”選擇的是參與人的類型 (type) 。除了根據參與人的支付來劃分參與人的類型以外, 還可以 根據參與人的行動空間,甚至根據參與人掌握信息的多少 ( 或程度 ) 來劃分參與人的類 型。3、參與人關于“自然”選擇的推斷是基于自己類型判斷的條件概率。3.3 不完全信息靜態(tài)博弈均衡貝葉斯納什均衡貝葉斯博弈的定義:貝葉斯博弈包含以下五個要素:1、參與人集合Br =1,2,,n2、參與人的類型集合 Ti,,T23、參與人關于其他參與人類型的推斷P1(t -1 |t 1) , ,Pn(t -1n|t n)4、參與人類型相依的行動集A(t 1), , A(t n)

29、5、參與人類型相依的支付函數貝葉斯博弈的戰(zhàn)略:在貝葉斯博弈 G= r ;(Ti); ( Pi); (A (ti); ( ui (a (t); ti) 中,參與人i的一個戰(zhàn)略是從參與人的類型集 T到其行動集的一個函數 si(t i);它包含 了當自然賦予i的類型為ti時,i將從可行的行動集 A(t i)中選擇的行動。貝葉斯博弈的時間順序1、 “自然”選擇參與人的類型組合t=(t 1,,tn)2、 參與人同時選擇行動,每個參與人i 從行動集 Ai(t i )中選擇行動 ai(t i )3、參與人 i 得到 支付貝葉斯納什均衡 :在貝葉斯博弈中,對于一個理性的參與人 i ,當他只知道自己的類型ti而

30、不知道其他參與人的類型時,給定其他參與人的戰(zhàn)略S-i ,他將選擇使自己期望效用(支付)最大化的行動a(ti),其中ai(ti) arg ami aAix(ti)vi(ai,s i;ti)貝葉斯博弈納什均衡的存在性 :一個有限的貝葉斯博弈一定存在貝葉斯Nash均衡。3.4 貝葉斯博弈與混合戰(zhàn)略均衡(關于混合戰(zhàn)略納什均衡的一個解釋)首先,混合策略均衡不是現實生活的一個合理描述,人們并不是根據概率分布來選擇 自己行動;海薩尼證明,在完全信息情況下的混合策略均衡可以解釋為不完全信息情況下 純策略均衡的極限?;旌喜呗缘谋举|:混合策略的本質不在于參與人隨機的選擇行動,而在于他不能確定其他參與人將選擇 什么

31、純策略,這種不確定性可能來自于參與人不知道其他參與人的類型。海薩尼的基本思想:只要在原來的博弈中加入少許不完全信息因素,使得參與人的支付函數中的收益不再 是確定的,而是和一個有圍的不確定參數有關,從而通過將混合戰(zhàn)略均衡求解轉換為貝葉 斯均衡的極限解,但是得到的純戰(zhàn)略貝葉斯均衡就與完全信息下的混合戰(zhàn)略均衡相似。結論:完全信息博弈的混合戰(zhàn)略 Nash均衡可以解釋為與之密切相關、存在一點點非 完全信息的純戰(zhàn)略貝葉斯 Nash 均衡。同時海薩尼給出了描述混合策略和純策略之間關系的 一個正式的定理:混合策略均衡的純化定理。3.5 貝葉斯均衡 Eg: 機制設計問題機制設計問題實際上就是探討設計者如何向參與

32、人提供激勵,以促使參與人向設計者透露其掌握的信息(說真話) ,從而確定對設計者有利的結果的問題。這一機制對 應于一個博弈形式, 設計者需要設計出一個博弈形式, 讓參與人在這個博弈形式下進 行博弈從而實現他的目標。 博弈形式不同, 實現目標的程度也不一樣, 設計者必須選 擇對他來說是最有利的博弈形式,即最有利的機制。機制設計的基本模型:機制設計是典型的 3 階段不完全信息博弈,期階段如下:階段 1:機制設計者 (委托人 )設計一種“機制”,或者“契約”,或者“激勵方案”;階段 2:代理人選擇接受或拒絕該機制,拒絕的代理人得到某個外生的“保留效 用”;階段 3:接受機制的代理人選擇自己的行動 (或

33、者戰(zhàn)略 ) ,實現一個博弈結果。機制設計模型中的有關概念 :參與約束:由于代理人在第二階段總可以選擇不接受該機制從而獲得一個保留效用, 因此,代理人接受這個機制獲得的效用必須不小于拒絕這個機制時獲得的效用。激勵相容約束: 這意味著, 對于代理人而言, 代理人真實報告自己的類型時獲得的效 用必須不小于謊報自己類型時獲得的效用??尚袡C制:滿足參與約束的機制被稱為可行機制??蓪嵤C制:滿足激勵相容約束的機制稱為可實施機制可行的可實施機制:如果一個機制既滿足參與約束,又滿足激勵相容約束。機制設計的目的:機制設計的目的就是要設計出可行的可實施機制, 從而在該機制中找出最優(yōu)規(guī)則以追 求最大化收益。4、不完

34、全信息動態(tài)博弈4.1 不完全信息動態(tài)博弈特點: 在博弈開始之前參與人之間的信息存在不確定性,同時 參與人行動存在先后順序。 不完全信息動態(tài)博弈過程不僅是參與人選擇行動的過程, 而 且是參與人不斷修正信念的過程。4.2 不完全信息動態(tài)博弈的有關概念類型 :是指參與者的類型。在不完全信息動態(tài)博弈中自然首先選擇參與人的類型。 動態(tài)博弈:行動有先有后。所以后行動者可以觀察到先行動者的行動信息,從而可以 修正自己對于參與人的類型的信息的判斷。類型相依:參與者的行動傳遞著有關自己的類型的信息,對方可通過參與人的行動來推斷自己的最優(yōu)行動。 先行動者預測到自己的行動被后行動者利用, 就會設法傳遞對自己最有利的

35、信息。4.3 不完全信息動態(tài)博弈的納什均衡一一精煉貝葉斯均衡對應于不完全信息動態(tài)博弈的納什均衡稱為精煉貝葉斯均衡;精練貝葉斯均衡是澤爾騰不完全信息動態(tài)博弈子博弈精煉納什均衡與海薩尼不完全信息靜態(tài)博弈貝葉斯均 衡的結合。1、不完全信息動態(tài)博弈均衡求解的基本思路:不完全信息動態(tài)博弈將子博弈精煉Nash均衡中“均衡精煉”的思想應用到不完全信息擴展式博弈中,但是有提前條件:1、 對每個參與人i,在其信息集上給出關于自己位于該信息集中哪一個決策結的信念 (或推斷)。2、 對參與人i的每個信息集,在給定參與人i在該信息集上的信念(或推斷)情況下, 參與人的戰(zhàn)略是對其他參與人戰(zhàn)略的一個最優(yōu)反應。與靜態(tài)博弈不

36、同的是: 在觀測到先行動者第一階段選擇后, 后行動者可以修正對先行動者類型的先驗概率, 因為先行動者的行動可能包含其類型的信息,即行動就是類型的反映,不同的行動反映不同的類型信息。參與人最初對于對手類型信息概率的判斷成為先驗概率,對于根據行動反映出得信息修正后的概率成為后驗概率。先驗概率(prior probability):修正之前的判斷;后驗概率(posterior probability):修正之后的判斷先驗概率和后驗概率的轉化是根據貝葉斯法則計算:Pr(A|H) = FT而K 乙31型在不完全信息動態(tài)博弈博弈均衡解的求解過程中,如果不可置信的威脅,均衡就是不合理的,所以要對均衡結果精煉,剔除那些不可置信的威脅。從而引入子博弈精練納 什均衡的概念,但是,在不完全信息動態(tài)博弈中,只有一個子博弈,不能將上述方法直接用于求不完全信息動態(tài)博弈的均衡解。參與人的合理的均衡應該是滿足: 給定每一個參與人有關其他參與人類型的后驗信念,戰(zhàn)略組合在每一個后續(xù)博弈上構成貝葉斯均衡,我們將通過這種方式得到的納什均衡稱為精 煉貝葉斯納什均衡。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論