版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第三部分: 不完全信息靜態(tài)博弈第十章貝葉斯博弈與貝葉斯第十章貝葉斯博弈與貝葉斯Nash均衡均衡主要內(nèi)容:一、貝葉斯博弈二、貝葉斯Nash均衡三、貝葉斯Nash均衡的應(yīng)用四、關(guān)于混合戰(zhàn)略Nash均衡的一個(gè)解釋Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng主要內(nèi)容:一、貝葉斯博弈二、貝葉斯Nash均衡三、貝葉斯Nash均衡的應(yīng)用四、關(guān)于混合戰(zhàn)略Nash均衡的一個(gè)解釋第十章貝葉斯博弈與貝葉斯第十章貝葉斯博弈與貝葉斯Nash均衡均衡Control Science and Engineering,
2、HUST All Rights Reserved, 2007, Luo Yunfeng一、貝葉斯博弈 前面兩部分我們討論了完全信息博弈問題,但在現(xiàn)實(shí)生活中我們遇到更多的可能是不完全信息博弈問題。 Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng例如 在“新產(chǎn)品開發(fā)”博弈中,企業(yè)對(duì)市場(chǎng)的需求可能并不清楚; 在連鎖店博弈中,潛在的進(jìn)入者可能并不知道連鎖店在市場(chǎng)上的盈利情況,等等。 Control Science and Engineering, HUST All Rights Reserved,
3、 2007, Luo Yunfeng 將這種博弈開始時(shí)就存在事前不確定性的博弈問題是不完全信息博弈問題。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng例如:“斗雞博弈” 考察這樣的情形:假設(shè)參與人可能有這樣的兩種性格特征(類型)“強(qiáng)硬”(用s表示)或“軟弱”(用w表示)。 所謂“強(qiáng)硬”的參與人是指那些喜歡爭(zhēng)強(qiáng)好勝、不達(dá)目的誓不罷休的決斗者; 而“軟弱”的參與人是指那些膽小怕事、遇事希望息事寧人的決斗者。 Control Science and Engineering, HUST All R
4、ights Reserved, 2007, Luo Yunfeng 顯然,當(dāng)具有不同性格特征的決斗者相遇時(shí),所表現(xiàn)出來的博弈情形是不同的。 令U表示沖上去;D表示退下去,則每種情況下博弈情形如下圖所示。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng當(dāng)參與人都為強(qiáng)硬者時(shí) 博弈存在兩個(gè)純戰(zhàn)略Nash均衡 (U,D)和(D,U)。-4, -42, -2-2, 20, 0UD21UDControl Science and Engineering, HUST All Rights Reserved,
5、 2007, Luo Yunfeng當(dāng)參與人1為強(qiáng)硬者參與人2為軟弱者時(shí) 博弈存在唯一的Nash均衡(U, D)。 -4, -42, 0-2, 00, 1UD21UDControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng當(dāng)參與人1為軟弱者參與人2為強(qiáng)硬者時(shí) 博弈存在唯一的Nash均衡(D, U)。-4, -40, -20, 21, 0UD21UDControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng當(dāng)
6、參與人都為軟弱者時(shí) 博弈存在唯一的Nash均衡(D, D)。-4, -40, 00, 01, 1UD21UDControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng-4, -42, -2-2, 20, 0UD21UD-4, -42, 0-2, 00, 1UD21UD-4, -40, -20, 21, 0UD21UD-4, -40, 00, 01, 1UD21UD(1) 參與人都為強(qiáng)硬者(2) 參與人1為強(qiáng)硬者參與人2為軟弱者(3) 參與人1為軟弱者參與人2為強(qiáng)硬者(4) 參與人都為軟弱者Contro
7、l Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 在“斗雞博弈”中,雖然在博弈開始之前每位決斗者都了解(知道)自己的性格特征,但對(duì)對(duì)手的性格特征往往不甚了解或了解不全。 在這種情況下即使所有的決斗者都看到了上面的四個(gè)戰(zhàn)略式博弈 ,但對(duì)決斗者來講,仍存在著所謂的事前不確定性即博弈開始之前就不知道的信息。 Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 對(duì)于“強(qiáng)硬”的參與人1來講,雖然他看到了上面的戰(zhàn)略
8、式博弈,但他不知道對(duì)手是“強(qiáng)硬”的還是“軟弱”的,所以博弈開始之前他無法確定博弈是根據(jù)(1)還是(2)進(jìn)行。 這意味著“強(qiáng)硬”的參與人1面臨著事前無法確定的信息。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 同樣,“軟弱”的參與人1也會(huì)面臨類似的問題。此時(shí),“斗雞博弈”就是一個(gè)不完全信息博弈問題。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 對(duì)于不完全信息博弈問題,是不可能應(yīng)用前面
9、兩部分介紹的方法進(jìn)行求解的。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 這是因?yàn)榻o定參與人1為“強(qiáng)硬”的決斗者,如果對(duì)手是“軟弱”的,那么博弈就只存在惟一的Nash均衡(U, D),參與人1有惟一的最優(yōu)選擇“沖上去”;如果對(duì)手是“強(qiáng)硬”的,則博弈就會(huì)出現(xiàn)兩個(gè)Nash均衡(U,D)和(D,U),參與人1的最優(yōu)選擇取決于對(duì)手的選擇。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 但由于
10、參與人1不知道對(duì)手究竟是“強(qiáng)硬”的還是“軟弱”的,因此,此時(shí)的參與人1就覺得自己似乎是在與兩個(gè)決斗者進(jìn)行決斗,一個(gè)是“強(qiáng)硬”的,另一個(gè)是“軟弱”的。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 當(dāng)一個(gè)參與人并不知道在與誰博弈時(shí),博弈的規(guī)則是沒有定義的,如何處理不完全信息? Harsanyi提出了Harsanyi轉(zhuǎn)換。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 為了分析,對(duì)“斗雞博
11、弈”進(jìn)行簡(jiǎn)化。 假設(shè)參與人1是“強(qiáng)硬”的決斗者,參與人2可能是“強(qiáng)硬”的也可能是“軟弱”的,參與人1不知道但參與人2清楚,而且這一假設(shè)為所有的參與人所知道。 Control Science and Engineering, HUST All Rights Reserved, 2007, Luo YunfengHarsanyi轉(zhuǎn)換 對(duì)于簡(jiǎn)化的“斗雞博弈”,Harsanyi轉(zhuǎn)換是這樣處理的:在原博弈中引入一個(gè)“虛擬”參與人“自然”(nature,用N表示),構(gòu)造一個(gè)參與人為兩個(gè)決斗者和“自然”的三人博弈。 Control Science and Engineering, HUST All Righ
12、ts Reserved, 2007, Luo YunfengHarsanyi轉(zhuǎn)換-4,-42,-2-2,2UD0,0-4,-42,0-2,00,1N()p強(qiáng)硬(1)p軟弱220 x1x2xDDDDDUUUUU1“自然”首先行動(dòng)決定參與人2的性格特征(即選擇參與人2是“強(qiáng)硬”的還是“軟弱”的),“自然”的選擇參與人1不知道,但參與人2知道。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng在“自然”選擇后,參與人1和2再進(jìn)行“斗雞博弈”。 -4,-42,-2-2,2UD0,0-4,-42,0-2
13、,00,1N()p強(qiáng)硬(1)p軟弱220 x1x2xDDDDDUUUUU1Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng-4,-42,-2-2,2UD0,0-4,-42,0-2,00,1N()p強(qiáng)硬(1)p軟弱220 x1x2xDDDDDUUUUU1在新構(gòu)造的三人博弈中,“自然”的支付不必考慮。參與人1和2的支付由“斗雞博弈”決定。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng-4,-
14、42,-2-2,2UD0,0-4,-42,0-2,00,1N()p強(qiáng)硬(1)p軟弱220 x1x2xDDDDDUUUUU1如果“自然”選擇參與人2的性格特征是“強(qiáng)硬”的,則意味著參與人1與“強(qiáng)硬”的參與人2進(jìn)行決斗,博弈進(jìn)入決策結(jié)x1,其支付(1)決定;Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng-4,-42,-2-2,2UD0,0-4,-42,0-2,00,1N()p強(qiáng)硬(1)p軟弱220 x1x2xDDDDDUUUUU1如果“自然”選擇參與人2的性格特征是“軟弱”的,則意味著參與人1
15、與“軟弱”的參與人2進(jìn)行決斗,博弈進(jìn)入決策結(jié)x2,其支付由(2)決定。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng Harsanyi通過引入“虛擬”參與人,將博弈的起始點(diǎn)由x1(或x2)提前至x0 ,從而將原博弈中參與人的事前不確定性轉(zhuǎn)變?yōu)椴┺拈_始后的不確定性(即參與人1不知道“自然”的選擇)。這種通過引入“虛擬”參與人來處理不完全信息博弈問題的方法亦稱Harsanyi轉(zhuǎn)換。Control Science and Engineering, HUST All Rights Reserved
16、, 2007, Luo Yunfeng考察不完全信息博弈問題參與人的決策 用p1表示參與人1認(rèn)為“自然”選擇參與人2為“強(qiáng)硬”的概率,v1(U)和v1(D)分別表示參與人1認(rèn)為自己選擇行動(dòng)U和D時(shí)所能得到的期望收益;用x表示“強(qiáng)硬”的決斗者2選擇行動(dòng)U的概率。 Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 當(dāng) 即 時(shí),對(duì)參與人1來講,其最優(yōu)選擇是U(即“沖上去”)。 由于 ,所以當(dāng) 即參與人1認(rèn)為參與人2是“強(qiáng)硬”決斗者的可能性不超過1/2時(shí),就會(huì)選擇“沖上去”。 1111()42(1)
17、2(1()26v Upxxpxp1111()20 (1)0 (12()v Dpxxpxp 11( )()v Uv D11/(2)xp1x 11/2p Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 考察參與人2的選擇。用q1表示參與人2關(guān)于“參與人1關(guān)于自然選擇的推斷”的推斷,即q1表示參與人2認(rèn)為“參與人1認(rèn)為參與人2是強(qiáng)硬的”概率。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 由
18、前面的分析可知:如果 ,則參與人2認(rèn)為“U(即沖上去)是參與人1的最優(yōu)選擇”;與此同時(shí),如果 ,則參與人1的最優(yōu)選擇與參與人2的預(yù)測(cè)一致。 但是,如果 而 ,則參與人1的最優(yōu)選擇就可能與參與人2的預(yù)測(cè)不一致。11/2q 11/ 2p 11/ 2p 11/2q Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 在Harsanyi轉(zhuǎn)換中規(guī)定:參與人關(guān)于“自然”選擇的推斷為共同知識(shí)。 也就是說,兩個(gè)決斗者不僅同時(shí)一起看到了“自然”隨機(jī)選擇參與人2的性格特征,而且同時(shí)一起看到了“自然”以一定的概率分
19、布隨機(jī)選擇參與人2的性格特征。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 不完全信息博弈經(jīng)Harsanyi轉(zhuǎn)換之后得到的完全但不完美信息博弈。(x, y)表示參與人1的性格特征為x,參與人2的性格特征為y;pxy表示“自然”選擇(x, y)的概率,這里pxy為共同知識(shí)。 UDUDUD-4,-42,-2-2,20, 012UDUDUD-4,-42,0-2,00,12UDUDUD-4,-40,-20,21,01UDUDUD-4,-40,00,01,1N(s, w)0 x2x3x4x5x(s
20、, s)(w, w)(w, s)SSpSWpWSpWWp2222Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng在應(yīng)用Harsanyi轉(zhuǎn)換時(shí),需要注意以下問題: 1) “自然”的選擇。在一般的不完全信息博弈問題中,Harsanyi轉(zhuǎn)換規(guī)定“自然”選擇的是參與人的類型(type)。除了根據(jù)參與人的支付來劃分參與人的類型以外,還可以根據(jù)參與人的行動(dòng)空間,甚至根據(jù)參與人掌握信息的多少(或程度)來來劃分參與人的類型。 此外,需要注意的是,參與人的類型必須是其個(gè)人特征的一個(gè)完備描述。 Control
21、Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 用ti表示參與人i的一個(gè)特定的類型,Ti表示參與人i所有類型的集合(亦稱類型空間,type space),即 ,t=(t1,tn)表示一個(gè)所有參與人的類型組合, t-i=(t1,ti-1,tn)表示除參與人i之外其他參與人的類型組合。所以,t=(ti, t-i)。iitTControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 2) 參與人關(guān)于“自然”選擇的推斷。
22、用p(t1,tn)表示定義在參與人類型組合上的一個(gè)聯(lián)合分布密度函數(shù),Harsanyi轉(zhuǎn)換假定:對(duì)于一個(gè)給定的不完全信息博弈問題,存在一個(gè)參與人關(guān)于“自然”選擇的推斷p(t1,tn),且p(t1,tn)為共同知識(shí)。也就是說,Harsanyi轉(zhuǎn)換假定所有參與人關(guān)于“自然”行動(dòng)的信念(belief)是相同的,并且為共同知識(shí)。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 用 表示參與人i在知道自己類型為ti的情況下,關(guān)于其他參與人類型的推斷(即條件概率),則 其中, 為邊緣密度函數(shù)。()iiip
23、 tt(, )(, )( )(, )iiiiiiiiiiiitTttttp tttttpppp()ip tControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 假設(shè)pss=0.2,psw=0.3,pws=0.25,pww=0.25。 雖然決斗者1不知道決斗者2 的類型,但由于決斗者1知道自己的類型,因此他可以根據(jù)貝葉斯公式推知決斗者2的類型分布。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng
24、例如 根據(jù)貝葉斯規(guī)則,“強(qiáng)硬”的決斗者1可以推知: 決斗者2是“強(qiáng)硬”的概率為 決斗者2是“軟弱”的概率為 “軟弱”的決斗者1可以推知: 決斗者2是“強(qiáng)硬”的概率為 決斗者2是“軟弱”的概率為 1(0.2)0.40.20.3p s s1(0.3)0.60.20.3p w s1(0.25)0.50.250.25p s w1(0.25)0.50.250.25p w wControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 這里不同類型的決斗者1所形成的關(guān)于“自然”選擇的推斷是不同的,究其原因,Hars
25、anyi認(rèn)為:雖然理性的參與人在掌握同樣的信息時(shí)對(duì)同一事件會(huì)形成相同的概率推斷,但參與人各自掌握的信息不同時(shí)對(duì)同一事件就會(huì)形成不同的概率推斷。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 這說明在Harsanyi轉(zhuǎn)換中,參與人對(duì)包括自己在內(nèi)的所有參與人的類型的聯(lián)合概率推斷(分布)都是一樣的,但由于參與人掌握的私人信息不同,使得各自對(duì)其他參與人的類型的概率分布的推斷不同。Control Science and Engineering, HUST All Rights Reserved, 2
26、007, Luo Yunfeng 貝葉斯博弈(the static Bayesian game)是關(guān)于不完全信息靜態(tài)博弈的一種建模方式,也是不完全信息靜態(tài)博弈的標(biāo)準(zhǔn)式描述。 Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng貝葉斯博弈的定義貝葉斯博弈包含以下五個(gè)要素:參與人集合 ;參與人的類型集T1,T2;參與人關(guān)于其他參與人類型的推斷 , ;參與人類型相依的行動(dòng)集A(t1), A(tn);參與人類型相依的支付函數(shù) (1) , 。1,2,., n 111(),p tt()nnnp tt1122
27、11( ( ),( ),( ); )nna ta ta ttu1122( ),( ),( ); )nnnna ta ta ttuControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 參與人的推斷 來源于一個(gè)共同的參與人關(guān)于“自然”選擇的推斷p(t1,tn),且p(t1,tn)為共同知識(shí)。所以,貝葉斯博弈中參與人所具有的關(guān)于其他參與人的類型的推斷是一致的。()iiip ttControl Science and Engineering, HUST All Rights Reserved, 2007
28、, Luo Yunfeng規(guī)定貝葉斯博弈的時(shí)間順序如下:“自然”選擇參與人的類型組合t=(t1,tn),其中;參與人i觀測(cè)到“自然”關(guān)于自己類型ti的選擇;雖然參與人i觀測(cè)不到“自然”關(guān)于其他參與人類型t-i的選擇,但參與人i具有關(guān)于其他參與人類型的推斷 ;參與人同時(shí)選擇行動(dòng),每個(gè)參與人i從行動(dòng)集Ai(ti)中選擇行動(dòng)ai(ti) ;參與人i得到 。()iiip tt1122( ( ),( ),( ); )nniia ta ta ttuControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng貝葉斯博
29、弈中的戰(zhàn)略 在貝葉斯博弈 中,參與人i的一個(gè)戰(zhàn)略是從參與人的類型集Ti到其行動(dòng)集的一個(gè)函數(shù)si(ti),它包含了當(dāng)自然賦予i的類型為ti時(shí),i將從可行的行動(dòng)集Ai(ti)中選擇的行動(dòng)。;( );();( );( ( ); )iiiiiiGTpA tu a tt Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng“斗雞博弈”的貝葉斯模型 參與人為決斗者1和2; 用s表示決斗者是“強(qiáng)硬”的,w表示決斗者是“軟弱”的,所以T1=T2=s,w。 用pxy表示“自然”選擇類型組合(x,y)的概率,并假設(shè)
30、pxy為共同知識(shí),則每位決斗者i關(guān)于其對(duì)手類型的推斷pi(x|y)。 每位決斗者i關(guān)于類型相依的行動(dòng)空間Ai(x)=U,D。 每位決斗者i的支付由前面的圖決定。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng在貝葉斯博弈中參與人的戰(zhàn)略可定義為戰(zhàn)略 “強(qiáng)硬”的決斗者i選擇行動(dòng)U,“軟弱”的決斗者選擇行動(dòng)U ,即(U,U);戰(zhàn)略 “強(qiáng)硬”的決斗者選擇行動(dòng)U ,“軟弱”的決斗者選擇行動(dòng)D,即(U,D);戰(zhàn)略 “強(qiáng)硬”的決斗者選擇行動(dòng)D,“軟弱”的決斗者選擇行動(dòng)U ,即(D,U);戰(zhàn)略 “強(qiáng)硬”的決
31、斗者選擇行動(dòng)D,“軟弱”的決斗者選擇行動(dòng)D,即(D,D)。1is2is3is4isControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng主要內(nèi)容:一、貝葉斯博弈二、貝葉斯Nash均衡三、貝葉斯Nash均衡的應(yīng)用四、關(guān)于混合戰(zhàn)略Nash均衡的一個(gè)解釋第十章貝葉斯博弈與貝葉斯第十章貝葉斯博弈與貝葉斯Nash均衡均衡Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 用x表示“強(qiáng)硬”的決斗者2選擇行動(dòng)U
32、的概率,y表示決斗者1選擇行動(dòng)U的概率。 決斗者1選擇行動(dòng)U和D的期望收益分別為 和 (這里p為“自然”選擇決斗者2為“強(qiáng)硬”的概率),所以決斗者1的最優(yōu)戰(zhàn)略為:如果 ,則選擇y=1(即選擇行動(dòng)U);如果 ,則選擇y=0(即選擇行動(dòng)D);如果 ,則選擇 (即選擇任一混合戰(zhàn)略)。 1()26v Uxp1()2v Dxp 1/(2 )xp1/(2 )xp1/(2 )xp0,1yControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 考察“強(qiáng)硬”決斗者2的選擇?!皬?qiáng)硬”決斗者2選擇行動(dòng)U和D的期望收益分
33、別為 和 所以“強(qiáng)硬”決斗者2的最優(yōu)戰(zhàn)略為:如果y1/2 ,則選擇x=0(即選擇行動(dòng)D);如果y=1/2,則選擇 (即選擇任一混合戰(zhàn)略)。2()26v Uy2()2vDy 0,1xControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng不完美信息博弈存在如下兩個(gè)純戰(zhàn)略Nash均衡決斗者1選擇行動(dòng)U,“強(qiáng)硬”決斗者2選擇行動(dòng)D,“軟弱”決斗者2選擇行動(dòng)D;決斗者1選擇行動(dòng)D,“強(qiáng)硬”決斗者2選擇行動(dòng)U,“軟弱”決斗者2選擇行動(dòng)D。此外,博弈還存在一個(gè)混合戰(zhàn)略Nash均衡,即決斗者1以1/2的概率選擇行
34、動(dòng)U,“強(qiáng)硬”決斗者2以的概率1/(2p)選擇行動(dòng)U,“軟弱”決斗者2選擇行動(dòng)D。 Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 用 表示給定其他參與人的戰(zhàn)略 ,類型為ti的參與人i選擇行動(dòng)ai時(shí)的期望效用,則 其中,對(duì) , 為給定t-i時(shí)由s-i所確定的其他參與人的行動(dòng)組合( ,; )iiiiv a st111( (),(),(),()iiinsssss( ,; )() ( ,(); )iiiiiiiiiiiiiitTv a stp tt u a attiitT()iiat111111
35、()( ( ),(),(),( )iiiiiinnsts tststs tControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng “斗雞博弈”中,“強(qiáng)硬”的決斗者1關(guān)于對(duì)手類型的推斷為1()ssssswp s sppp1()swssswp w spppControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 所以,當(dāng)決斗者2的戰(zhàn)略為 (即(U,U),則“強(qiáng)硬”的決斗者1選擇行動(dòng)U和D時(shí)的期望效用分別為1
36、2s112( , )( 4)( 4)4ssswssswssswppv U s spppp 112(, )( 2)( 2)2ssswssswssswppv D s spppp Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 當(dāng)決斗者2的戰(zhàn)略為 (即(U,D),則“強(qiáng)硬”的決斗者1選擇行動(dòng)U和D時(shí)的期望效用分別為21224( , )( 4)2ssswswssssswssswssswppppv U sspppppp 2122( , )( 2)0ssswssssswssswssswpppv D s
37、spppppp 22sControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 在貝葉斯博弈中,對(duì)于一個(gè)理性的參與人i,當(dāng)他只知道自己的類型ti而不知道其他參與人的類型時(shí),給定其他參與人的戰(zhàn)略s-i ,他將選擇使自己期望效用(支付)最大化的行動(dòng) ,其中( )iia t( )( )arg max( ,; )iiiiiiiiiaA ta tv a stControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng純
38、戰(zhàn)略貝葉斯Nash均衡 貝葉斯博弈 的純戰(zhàn)略貝葉斯Nash均衡是一個(gè)類型相依的行動(dòng)組合 ,其中每個(gè)參與人在給定自己的類型ti和其他參與人的類型相依行動(dòng) 的情況下最大化自己的期望效用。 也就是,行動(dòng)組合 是一個(gè)純戰(zhàn)略貝葉斯Nash均衡,如果對(duì) ,;( );();( );( ( ); )iiiiiiGTpA tu a tt 1122( ),( ),( )nna ta ta t()iiat1122( ),( ),( )nna ta ta ti ( )( )arg max() ( ,(); )iiiiiiiiiiiiiiiaA ttTa tp tt u a attControl Science and
39、 Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng存在性結(jié)論 定理 一個(gè)有限的貝葉斯博弈一定存在貝葉斯Nash均衡。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng貝葉斯Nash均衡的求解 先以簡(jiǎn)化的“斗雞博弈”為例。 用p表示決斗者1關(guān)于決斗者2的類型的推斷。 (x,(y,z):x表示當(dāng)決斗者2選擇該方格所對(duì)應(yīng)的戰(zhàn)略時(shí),決斗者1選擇該方格所對(duì)應(yīng)的戰(zhàn)略規(guī)定的行動(dòng)所得到的期望支付;y和z分別表示當(dāng)決斗者1選擇該方格所對(duì)應(yīng)的戰(zhàn)略時(shí),
40、“強(qiáng)硬”決斗者2和“軟弱”決斗者2選擇該方格所對(duì)應(yīng)的戰(zhàn)略規(guī)定的行動(dòng)所得到的期望支付。 Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng-4, (-4,-4)2-6p, (-4,0)-2, (2, 0)-2p, (2, 1)( ,)U U21UD6p -4, (-2,-4)2, (-2,0)2p-2, (0, 0)0, (0, 1)( ,)U D( ,)D D( ,)D UControl Science and Engineering, HUST All Rights Reserved, 20
41、07, Luo Yunfeng 給定決斗者1選擇戰(zhàn)略U,“軟弱”決斗者2選擇行動(dòng)D的期望支付為0,選擇行動(dòng)U的期望支付為-4,行動(dòng)D優(yōu)于行動(dòng)U;給定決斗者1選擇戰(zhàn)略D,“軟弱”決斗者2選擇行動(dòng)D的期望支付為1,選擇行動(dòng)U的期望支付為0,所以,行動(dòng)D優(yōu)于行動(dòng)U。這意味著戰(zhàn)略和為決斗者2的劣戰(zhàn)略。 Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng2-6p, (-4,0)2, (-2,0)-2p, (2, 1)0, (0, 1)21UD( ,)U D( ,)D DControl Science a
42、nd Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 下面根據(jù)p的大小,求解博弈的純戰(zhàn)略貝葉斯 Nash均衡。 1) 假設(shè) ,無論決斗者2選擇戰(zhàn)略(U,D)還是(D,D),決斗者1的最優(yōu)行動(dòng)都是U。給定決斗者1的選擇U ,“強(qiáng)硬”決斗者2的最優(yōu)行動(dòng)為D。所以,博弈存在惟一的純戰(zhàn)略貝葉斯Nash均衡決斗者1選擇行動(dòng)U,“強(qiáng)硬”決斗者2選擇行動(dòng)D,“軟弱”決斗者2選擇行動(dòng)D。1/2p Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfen
43、g 2) 假設(shè) ,博弈存在如下兩個(gè)純戰(zhàn)略貝葉斯Nash均衡:(1) 決斗者1選擇行動(dòng)U,“強(qiáng)硬”決斗者2選擇行動(dòng)D,“軟弱”決斗者2選擇行動(dòng)D;(2) 決斗者1選擇行動(dòng)D,“強(qiáng)硬”決斗者2選擇行動(dòng)U,“軟弱”決斗者2選擇行動(dòng)D。1/2p Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng求解“斗雞博弈”的貝葉斯Nash均衡 假設(shè) “強(qiáng)硬”決斗者1關(guān)于決斗者2的類型推斷 ; “軟弱”決斗者1關(guān)于決斗者2的類型推斷 ; “強(qiáng)硬”決斗者2關(guān)于決斗者1的類型推斷 ; “軟弱”決斗者2關(guān)于決斗者1的類型
44、推斷 ;0.2,0.3,0.2,0.3ssswwswwpppp11()0.4,)0.6p s sp w s22()0.5,)0.5ps spw s22()0.5,)0.5ps wpw w11()0.4,)0.6p s wp w wControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 的含義是:x1和x2分別表示當(dāng)決斗者2選擇該方格所對(duì)應(yīng)的戰(zhàn)略時(shí),“強(qiáng)硬”決斗者1和“軟弱”決斗者1選擇該方格所對(duì)應(yīng)的戰(zhàn)略規(guī)定的行動(dòng)所得到的期望支付;y1和y2分別表示當(dāng)決斗者1選擇該方格所對(duì)應(yīng)的戰(zhàn)略時(shí),“強(qiáng)硬”決斗者
45、2和“軟弱”決斗者2選擇該方格所對(duì)應(yīng)的戰(zhàn)略規(guī)定的行動(dòng)所得到的期望支付。1212( ,),(,)x xy yControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng(-4,-4), (-4,-4)(-0.4,-1.6), (-4, 0)(-4, 0), (-1,-2)(-0.4,0.6), (-1,0.5)( ,)U U21(-1.6,-2.4), (-2,-4)(2, 0), (-2, 0)(-1.6,0.4), (-1,-2)(2, 1), (-1,0.5)( ,)U D( ,)D D( ,)D
46、U( ,)U U( ,)U D(-2,-4), (-1,-2)(-0.8,-1.6), (-1,0.5)(-2, 0), (2, 0)(-0.8,0.6), (2, 1)( ,)D U( ,)D D(-1.2,-2.4), (-1,-2)(0, 0), (-1,0.5)(-1.2,0.4), (0, 0)(0, 1), (0, 1)Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 對(duì)于“軟弱”決斗者1,無論決斗者2選擇什么戰(zhàn)略,其最優(yōu)行動(dòng)都是D。所以,戰(zhàn)略(U,U)和(D,U)為決斗者1的劣
47、戰(zhàn)略。基于同樣的原因,戰(zhàn)略(U,U)和(D,U)為決斗者2的劣戰(zhàn)略。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng(-0.4,0.6), (-1,0.5)(2, 1), (-1,0.5)(-0.8,0.6), (2, 1)(0, 1), (0, 1)21( ,)U D( ,)D D( ,)U D( ,)D DControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng對(duì)于“強(qiáng)硬”決斗者1,無論決斗者
48、2選擇什么戰(zhàn)略,其最優(yōu)行動(dòng)都是U。所以,戰(zhàn)略(D,D)為決斗者1的劣戰(zhàn)略。給定決斗者1選擇戰(zhàn)略(U,D),對(duì)于決斗者2戰(zhàn)略(D,U)和(D,D)是無差異的。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 所以,博弈存在如下兩個(gè)純戰(zhàn)略Nash均衡: “強(qiáng)硬”的決斗者1和2選擇行動(dòng)U,“軟弱”的決斗者1和2選擇行動(dòng)D;(1)“強(qiáng)硬”的決斗者1選擇行動(dòng)U,“軟弱”的決斗者1選擇行動(dòng)D;“強(qiáng)硬”的決斗者2和“軟弱”的決斗者2選擇行動(dòng)D。Control Science and Engineering
49、, HUST All Rights Reserved, 2007, Luo Yunfeng貝葉斯Nash均衡定義的另一種表示方式 在靜態(tài)貝葉斯博弈 中,戰(zhàn)略組合 是一個(gè)純戰(zhàn)略貝葉斯Nash均衡,如果對(duì) 及 ,滿足 即沒有參與人愿意改變自己的戰(zhàn)略,即使這種改變只涉及一種類型下的一個(gè)行動(dòng)。;( );();( );( ( ( ); )iiiiiiGTpA tu a t t *1( ,)nsssi *,( )iiiis ttT *111111( )( )( )( )()( )()();max,)()argiiiiiinniiiiiiiiiiiiia tA ttTs tu s tsta tsts tt
50、p ttControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 簡(jiǎn)化的“斗雞博弈”的純戰(zhàn)略貝葉斯Nash均衡為: 如果p1/2,博弈的純戰(zhàn)略貝葉斯Nash均衡為(U,(D,D); 如果p1/2 ,博弈的純戰(zhàn)略貝葉斯Nash均衡為(U,(D,D)和(D,(U,D)。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng “斗雞博弈”的純戰(zhàn)略貝葉斯Nash均衡為: (U,D),(U,D)和(U,D),(D
51、,D)。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng主要內(nèi)容:一、貝葉斯博弈二、貝葉斯Nash均衡三、貝葉斯Nash均衡的應(yīng)用四、關(guān)于混合戰(zhàn)略Nash均衡的一個(gè)解釋第十章貝葉斯博弈與貝葉斯第十章貝葉斯博弈與貝葉斯Nash均衡均衡Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng1.不完全信息古諾模型 在Cournot模型中,每一個(gè)企業(yè)對(duì)其他企業(yè)的成本和自己的成本是已知的,因而信息是完全的
52、。 然而在實(shí)際中,企業(yè)往往很難知道其他企業(yè)的成本。當(dāng)Cournot模型中至少有一個(gè)企業(yè)不知道其他企業(yè)的成本時(shí)所對(duì)應(yīng)的模型即為不完全信息的Cournot模型。 參與人類型成本函數(shù)。Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng假設(shè): 企業(yè)1的成本函數(shù)為共同知識(shí): 企業(yè)2的成本函數(shù)為私人信息: 其中, 企業(yè)1知道企業(yè)2是 的概率為p,是 的的概率是1-p,p和1-p為共同知識(shí)。1111()c qc q22222222()()lLhHc qcqcqcq22LHcc2Lc2HcControl Sc
53、ience and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng市場(chǎng)需求:12PaQQqqControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng進(jìn)一步假設(shè):1222;351,;4412LHacccpControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng企業(yè)2:2222221()()qP cqa cqqControl Science a
54、nd Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 令 則2act2221()qtqqControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng222110,1()()2qqqttq由得 :,企業(yè)2的反應(yīng)函數(shù)Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 不僅與企業(yè)1的產(chǎn)量有關(guān),而且與自己的成本有關(guān)。2qControl Scien
55、ce and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng22212221,1 5()2 4,1 3()2 4LLHHccqqccqq時(shí)時(shí)Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng企業(yè)1: 企業(yè)1不知道企業(yè)2的真實(shí)成本,因而也不知道企業(yè)2的最優(yōu)反應(yīng)是 企業(yè)將選擇使期望利潤(rùn)最大化的產(chǎn)量。22LHqq還是Control Science and Engineering, HUST All Rights Reserved, 2
56、007, Luo Yunfeng111121112112112()(1)()11(1)(1)22LHLHEp qacqqpqacqqqqqqqqControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng由最優(yōu)化一階條件得:即企業(yè)1的反應(yīng)函數(shù)。122222111(1)2221(1(1)21(1)2LHLHqqqp qpqEqControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 聯(lián)立求解兩個(gè)反應(yīng)函數(shù),得貝葉
57、斯Nash均衡為:*12213115,2424LHqqqControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng兩種均衡的比較: 企業(yè)2為低成本:221) lcc*12*211(1)21 5()2 4qqqq*1*21143111224qqControl Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng 企業(yè)2為高成本:222) Hcc*12*211(1)21 3()2 4qqqq*1*25112315624qq
58、Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng均衡比較示意圖NEBNE1/3q1 q2 企業(yè)1的反應(yīng)函數(shù)低成本的企業(yè)2的反應(yīng)函數(shù)高成本的企業(yè)2的反應(yīng)函數(shù)Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng假設(shè):111111222222135 ( ); ( )44235 ( ); ( )4412lhlhc qqc qqc qqc qq企業(yè):企業(yè):企業(yè)、 為高成本和低成本的可能性相等。共同知識(shí)共
59、同知識(shí)Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng企業(yè)1低成本類型(l )1111111111111222222()(1)()1515()()2424110(2)24llllllllHlllllHlllHEp qa cqqp qa cqqqqqqqqqqqq Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng企業(yè)1低成本類型(l )的反應(yīng)函數(shù)111220511 (1.1)844llllH
60、dEdqqqq 令,則Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng企業(yè)1高成本類型(H)111111222216(2)240311 (1.2)844HHHlHHHHlHEqqqqdEdqqqq令,則Control Science and Engineering, HUST All Rights Reserved, 2007, Luo Yunfeng企業(yè)2低成本類型(l )2221122211110(2)240511 (1.3)844llllHllllHEqqqqdEdqqqq令,則Con
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度高新技術(shù)研發(fā)中心委托運(yùn)營(yíng)管理與科技成果轉(zhuǎn)化合同4篇
- 2025年沙拖把行業(yè)深度研究分析報(bào)告
- 2025年度智能交通企業(yè)合伙人股份協(xié)議及智能交通解決方案合同
- 2025年粒度砂微粉行業(yè)深度研究分析報(bào)告
- 二零二五年度培訓(xùn)班師資質(zhì)量保障勞動(dòng)合同4篇
- 二零二五年度智能健康養(yǎng)老產(chǎn)業(yè)合作合同4篇
- 2025年高等教育機(jī)構(gòu)研究生導(dǎo)師聘用合同3篇
- 2019-2025年中國(guó)食用植物油市場(chǎng)運(yùn)行態(tài)勢(shì)及行業(yè)發(fā)展前景預(yù)測(cè)報(bào)告
- 2025年度車庫(kù)土地租賃開發(fā)合同4篇
- 2025年土地承包經(jīng)營(yíng)合作協(xié)議范本
- 醫(yī)院三基考核試題(康復(fù)理療科)
- 2024-2030年中國(guó)招標(biāo)代理行業(yè)深度分析及發(fā)展前景與發(fā)展戰(zhàn)略研究報(bào)告
- 醫(yī)師定期考核 (公共衛(wèi)生)試題庫(kù)500題(含答案)
- 基因突變和基因重組(第1課時(shí))高一下學(xué)期生物人教版(2019)必修2
- 內(nèi)科學(xué)(醫(yī)學(xué)高級(jí)):風(fēng)濕性疾病試題及答案(強(qiáng)化練習(xí))
- 音樂劇好看智慧樹知到期末考試答案2024年
- 辦公設(shè)備(電腦、一體機(jī)、投影機(jī)等)采購(gòu) 投標(biāo)方案(技術(shù)方案)
- 案卷評(píng)查培訓(xùn)課件模板
- 2024年江蘇省樣卷五年級(jí)數(shù)學(xué)上冊(cè)期末試卷及答案
- 人教版初中英語七八九全部單詞(打印版)
- 波浪理論要點(diǎn)圖解完美版
評(píng)論
0/150
提交評(píng)論