經(jīng)濟(jì)博弈論謝識(shí)予1完全信息靜態(tài)博弈.ppt_第1頁(yè)
經(jīng)濟(jì)博弈論謝識(shí)予1完全信息靜態(tài)博弈.ppt_第2頁(yè)
經(jīng)濟(jì)博弈論謝識(shí)予1完全信息靜態(tài)博弈.ppt_第3頁(yè)
經(jīng)濟(jì)博弈論謝識(shí)予1完全信息靜態(tài)博弈.ppt_第4頁(yè)
經(jīng)濟(jì)博弈論謝識(shí)予1完全信息靜態(tài)博弈.ppt_第5頁(yè)
已閱讀5頁(yè),還剩116頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

博弈論與信息經(jīng)濟(jì)學(xué) (Game Theory and Information Economics),第2章:完全信息靜態(tài)博弈 Chapter 2: Static Game of Complete Information,完全信息靜態(tài)博弈,靜態(tài)博弈(同時(shí)行動(dòng)博弈),所有參與人同時(shí)選擇行動(dòng),而且只選擇一次,“同時(shí)”是一個(gè)信息概念,而不一定與日歷上的時(shí)間一致,如,罰點(diǎn)球時(shí),守門(mén)員和對(duì)方射手必須同時(shí)決策,在博弈中,如果參與者在不知道對(duì)手如何選擇的情況下行動(dòng),該博弈就是靜態(tài)的。,完全信息靜態(tài)博弈,信息,決策需要信息,但是幾乎所有需要決策的場(chǎng)合,我們都只掌握著有限信息,這使得現(xiàn)實(shí)中往往是有限信息博弈。,完全信息:每個(gè)參與人對(duì)其他參與人的支付函數(shù)有完全的了解。,不完全信息:每個(gè)參與人對(duì)其他參與人的支付函數(shù)不完全的了解。,在位者低成本,市場(chǎng)進(jìn)入博弈,若進(jìn)入者知道在位者是高成本還是低成本完全信息,若進(jìn)入者不知道在位者是高成本還是低成本不完全信息,進(jìn)入者決定是否進(jìn)入一個(gè)新的產(chǎn)業(yè),在 位者選擇斗爭(zhēng)或默許,但不知道在位企 業(yè)的成本函數(shù)是高還是低,也不知道各 種戰(zhàn)略組合下的利潤(rùn)水平。,在位者高成本,1 完全信息靜態(tài)博弈,囚徒困境與占優(yōu)均衡 智豬博弈與重復(fù)剔除的占優(yōu)均衡 納什均衡 多重均衡與協(xié)調(diào) 納什均衡應(yīng)用舉例 混合戰(zhàn)略納什均衡 納什均衡的存在性,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,兩個(gè)小偷行竊未果被抓,隔離審訊。 “坦白從寬,抗拒從嚴(yán)”:如果兩人都 坦白則各判8年;如果一人坦白另一人 不坦白,坦白的放出去,不坦白的判10年;如果都不坦白則因證據(jù)不足各判1年 。 坦白否?,囚徒困境(Prisoners Dilemma)(塔克,1950),1 囚徒困境與占優(yōu)戰(zhàn)略均衡,囚徒 A,坦白,抵賴,坦白,抵賴,囚徒 B,基于收益矩陣的模型描述:,連續(xù)策略,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,離散型策略,另一些博弈中,在其他博弈中,每個(gè)參與者的純策略可以是 來(lái)自一個(gè)連續(xù)范圍的一個(gè)數(shù)。如廠商定價(jià),博弈中參與人只擁有有限個(gè)離散型的純戰(zhàn)略供其選擇。 如籃球比賽中的運(yùn)球、過(guò)人和投籃,離散型策略靜態(tài)博弈通常用支付表來(lái)表示 博弈的戰(zhàn)略式表述,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,占優(yōu)戰(zhàn)略/優(yōu)勢(shì)策略/上策(dominant strategy),無(wú)論其他局中人如何行動(dòng),總是(嚴(yán)格地)優(yōu)于其他戰(zhàn)略的戰(zhàn)略,稱為(嚴(yán)格)占優(yōu)戰(zhàn)略。而被(嚴(yán)格地)占優(yōu)的戰(zhàn)略稱為(嚴(yán)格)劣戰(zhàn)略。,從一方的角度看,選擇“坦白”比選擇“抵賴”好,無(wú)論他關(guān) 于對(duì)方的選擇持有何等信念。 我們就說(shuō),對(duì)于囚徒而言,“坦白”的策略是一個(gè)占優(yōu)策略, 或者說(shuō)“抵賴”的策略是一個(gè)劣策略。,以不變應(yīng)萬(wàn)變,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,參與人是理性的 囚徒A應(yīng)選擇坦白,同樣的邏輯適用于囚徒B的選擇 他也應(yīng)選擇坦白。 因而,(坦白,坦白)就是該博弈可預(yù)測(cè)的結(jié)果,也是 一個(gè)均衡(甚至是唯一的)。,占優(yōu)均衡,若所有參與人都有自己的占優(yōu)戰(zhàn)略,則由占優(yōu)戰(zhàn)略組成的戰(zhàn)略組合為占優(yōu)均衡。,占優(yōu)均衡并不常見(jiàn),因?yàn)楹芏鄷r(shí)候不存在占優(yōu)戰(zhàn)略,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,博弈雙方都遵循常規(guī)智慧選擇占優(yōu)策略,但是這種均衡結(jié)果所產(chǎn)生的支付比兩人合作、都選擇自己的劣戰(zhàn)略時(shí)要低。,兩個(gè)囚徒雙雙選擇坦白是博弈的最壞結(jié)果,“困境”,囚徒困境反映了個(gè)人理性與集體理性的沖突,反之,彼此達(dá)成合作是最好的“利己策略”,但合作必須符合黃金定律:“己所不欲,勿施于人”(前提是“人所不欲,勿施于我”)。,囚犯兩人都從利己目的出發(fā),最終導(dǎo)致結(jié)果損人不利己, 合作沒(méi)有產(chǎn)生。,“囚徒困境“是典型的非合作博弈的范例,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,現(xiàn)實(shí)生活中諸多的問(wèn)題和現(xiàn)象,都是囚徒困境問(wèn) 題的翻版。 實(shí)際上,“囚徒困境”是現(xiàn)實(shí)生活中許多現(xiàn)象的一個(gè) 抽象概括,有著廣泛而深刻的意義。,當(dāng)我們面臨需要加以解析的經(jīng)濟(jì)現(xiàn)象時(shí),首先要做的事就是看該現(xiàn)象的發(fā)生機(jī)制是否可歸于某種已知的博弈模型。如可以,就可立即知道現(xiàn)象的本質(zhì)和發(fā)生機(jī)制,并預(yù)測(cè)結(jié)果。如不能,則很可能為博弈論經(jīng)濟(jì)學(xué)做出創(chuàng)造性貢獻(xiàn)。,NE: (不提供,不提供),1 囚徒困境與占優(yōu)戰(zhàn)略均衡,公共品的理解?,集體行動(dòng)的障礙:個(gè)人最優(yōu)選擇從社會(huì)整體的角度看并不是最優(yōu)的。社會(huì)最優(yōu)結(jié)果是(提供,提供)“大家的事情反而無(wú)人管”(英國(guó)歷史學(xué)家麥考萊),公共品(public goods)的供給,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,不降價(jià),降價(jià),不降價(jià),降價(jià),B,A,價(jià)格戰(zhàn),市場(chǎng)中常見(jiàn)現(xiàn)象,如旅游、機(jī)票、家電。 中國(guó)的幾個(gè)生產(chǎn)彩電的寡頭廠商于2000年合謀成立“彩電廠家自律聯(lián)盟”以求將彩電價(jià)格維持高位。 彩電價(jià)格能維持高位嗎?,雙方合作制定較高的價(jià)格,那么都可獲得較高利潤(rùn)。但是這些聯(lián)盟處于利益驅(qū)動(dòng)的“囚徒困境”中,雙贏成為泡影。企業(yè)之間五花八門(mén)的價(jià)格聯(lián)盟總是非常短命,道理也就在于此,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,假設(shè)團(tuán)隊(duì)中10名員工,每人選擇“努力”都要承擔(dān)成本1元,同時(shí)為團(tuán)隊(duì)的預(yù)期產(chǎn)出增加2元;每人偷懶則無(wú)須付出成本,也不會(huì)增加團(tuán)隊(duì)預(yù)期產(chǎn)出。 如果其他人努力,自己偷懶可以獲得好處;若別人偷懶,則自己更應(yīng)該偷懶,因?yàn)樽约号Ω冻龀杀?元,但為團(tuán)隊(duì)增加的2元產(chǎn)出中自己得到1/10元。,團(tuán)隊(duì)生產(chǎn)中的偷懶,所以,無(wú)論其他人是否努力地工作,我自己的最優(yōu)選擇都是偷懶。偷懶是每個(gè)人的占優(yōu)戰(zhàn)略,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,“減負(fù)”之后,家長(zhǎng)們恐怕孩子學(xué)業(yè)荒廢,紛紛請(qǐng)家 教。給定其他孩子“減負(fù)”好耍,我家孩子在家苦讀,將來(lái)考 上個(gè)北大清華什么的,那些“減負(fù)”好耍的孩子只能墊底了! 給定其他孩子也在家苦讀,我家孩子則更需要加倍苦學(xué) 了,否則不就會(huì)在將來(lái)的高考中為別人墊底了嗎! 于是,當(dāng)每個(gè)家長(zhǎng)都如此盤(pán)算時(shí),孩子們卻倒了霉。,小學(xué)生減負(fù),政府“減負(fù)”政策:減少小學(xué)生的某些課時(shí)內(nèi)容和家庭 作業(yè)。但“減負(fù)”后學(xué)生反而更累了!,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,曾經(jīng)威脅世界整個(gè)甚至人類(lèi)的軍備競(jìng)賽 公共資源過(guò)度開(kāi)采/公共品供給短缺 大學(xué)擴(kuò)招、研究生擴(kuò)招、大學(xué)貸款基建 年年都有的評(píng)優(yōu)評(píng)先活動(dòng) 各種資格考試廣泛盛行 備受批評(píng)卻日益嚴(yán)重的應(yīng)試教育,現(xiàn)實(shí)生活中其他囚徒困境的例子,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,如何走出囚徒困境?,可信的(由第三方實(shí)施的)報(bào)復(fù)和懲罰,歷史上的 “人質(zhì)”或“通婚”方案,以克服信任問(wèn)題,若兩囚徒是意大利黑手黨成員,結(jié)果會(huì)如何?,人質(zhì)方案的例子:秦始皇的父親子楚,“如果每個(gè)人都相信對(duì)方不會(huì)坦白,且每個(gè)人都相信對(duì)方相信自己不會(huì)坦白,每個(gè)人都相信每個(gè)人都相信對(duì)方相信自己不會(huì)坦白”,則合作抵賴的結(jié)果會(huì)出現(xiàn)。合作的關(guān)鍵是相互的信任,以及相互信任的信任如何克服信任問(wèn)題?,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,長(zhǎng)期關(guān)系,即博弈必須重復(fù)“多次”,人們可能為了長(zhǎng)遠(yuǎn)的將來(lái)利益而犧牲眼前利益,從而達(dá)成合作。,相互忠誠(chéng)的文化或者規(guī)范:“江湖義氣”/部隊(duì)的“同生共死” 組織中團(tuán)隊(duì)生產(chǎn)面臨的囚徒困境問(wèn)題的輕重程度不同。不同的企業(yè)文化 組織克服囚徒困境的途徑之一是企業(yè)文化,電視劇亮劍,委托-代理關(guān)系中被設(shè)計(jì)的囚徒困境,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,囚徒困境對(duì)于人們來(lái)說(shuō)是糟糕的,是應(yīng)當(dāng)竭力避免的?,在一些委托-代理關(guān)系中,故意創(chuàng)造出代理人之間的囚徒困境有時(shí)對(duì)委托人有好處。這樣的囚徒困境反而促進(jìn)效率。,委托-代理關(guān)系:通常指委托人請(qǐng)代理人代理某件事情。其中 的關(guān)鍵問(wèn)題是二者利益不一致,并且委托人與代理人之間存 在信息不對(duì)稱。為此,需要設(shè)計(jì)一種制度(system)或機(jī)制 (mechanism) ,使代理人追求自己利益的同時(shí)也最大化委托 人的利益,如何設(shè)計(jì)這樣的制度就是信息經(jīng)濟(jì)學(xué)研究的問(wèn)題。,經(jīng)理與審計(jì)師之間可能合謀,隱瞞不良信息 股東解決這一問(wèn)題的一種做法是雙頭審計(jì),請(qǐng)兩位審計(jì)師進(jìn)行審計(jì),扣發(fā)給隱瞞者的部分報(bào)酬,而給堅(jiān)持如實(shí)報(bào)告問(wèn)題的審計(jì)師以更多的報(bào)酬。,審計(jì)師 A,隱瞞,實(shí)報(bào),隱瞞,實(shí)報(bào),審計(jì)師 B,如果都謊報(bào),得獎(jiǎng)金0,但分享賄金1萬(wàn),如果都誠(chéng)實(shí),則得到0,如一個(gè)誠(chéng)實(shí)一個(gè)謊報(bào),則誠(chéng)實(shí)者獎(jiǎng)勵(lì)0.6萬(wàn),對(duì)謊報(bào)者罰款1.1萬(wàn),但謊報(bào)者得到1萬(wàn)賄金,1 囚徒困境與占優(yōu)戰(zhàn)略均衡,預(yù)防審計(jì)合謀雙頭審計(jì),1 囚徒困境與占優(yōu)戰(zhàn)略均衡,假設(shè):兩供應(yīng)商成本都為6元/件,報(bào)價(jià)都為10元/件。 策略:如果二者報(bào)價(jià)都為10元/件或8.5元/件,則從每家訂購(gòu)50件;若一家報(bào)價(jià)10元/件而另一家報(bào)價(jià)8.5元/件,則從價(jià)低者訂購(gòu)100件。,利用囚徒困境壓低供應(yīng)商價(jià)格,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,一頭大豬和一只小豬生活在同一豬圈里,共用一食槽。 食槽的一端有一個(gè)開(kāi)關(guān),豬用嘴一拱,食槽的另一端會(huì)掉下包子。假定按一下會(huì)掉下8個(gè)包子,而跑去按開(kāi)關(guān)的豬會(huì)耗費(fèi)2個(gè)包子的能量。,智豬博弈(Boxed Pigs),如果小豬按開(kāi)關(guān),大豬先吃,等小豬按完跑過(guò)來(lái)時(shí),大豬 吃掉7個(gè)包子,小豬只能吃到1個(gè); 若大豬按,按完后跑過(guò)來(lái),大、小豬各吃掉4個(gè)包子; 若同時(shí)按,則大豬吃5個(gè),小豬吃3個(gè)。 如果都不去按開(kāi)關(guān),就會(huì)一起餓死。,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,按,等,小豬,“按”是小豬的劣戰(zhàn)略,理性的小豬是不會(huì)選擇按。 大豬知道小豬是理性的,意即知道小豬不會(huì)選擇“按”,小豬有占優(yōu)戰(zhàn)略“等” 但大豬無(wú)占優(yōu)戰(zhàn)略因?yàn)榇筘i戰(zhàn)略將隨小豬戰(zhàn)略改變而改變。,按,小豬,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,排除劣策略減少了博弈的規(guī)模,得到的“新”博弈有可能又有了其他的(對(duì)自己或?qū)κ值模┝觿?shì)策略,又可以被排除。,按為小豬劣戰(zhàn)略,等為大豬劣戰(zhàn)略,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,重復(fù)剔除嚴(yán)格劣戰(zhàn)略,嚴(yán)格劣戰(zhàn)略:不管其他參與人如何選擇,參與人從選擇戰(zhàn)略A得到的支付,嚴(yán)格小于選擇策略B給得到的支付 稱策略A是相對(duì)于B的“嚴(yán)格劣戰(zhàn)略”,或者稱策略A嚴(yán)格劣于策略B 稱策略B是相對(duì)于策略A的“嚴(yán)格占優(yōu)戰(zhàn)略”,或者稱策略B嚴(yán)格占優(yōu)于策略A,在求解均衡過(guò)程中,可以剔除局中人的嚴(yán)格劣戰(zhàn)略以簡(jiǎn)化博弈,因?yàn)閲?yán)格劣戰(zhàn)略肯定不會(huì)被實(shí)施。,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,“重復(fù)剔除嚴(yán)格劣戰(zhàn)略”的思路,首先找出博弈參與人的劣戰(zhàn)略(dominated strategy)(假定存在的話),把這個(gè)劣戰(zhàn)略剔除后,剩下的是一個(gè)不包含已剔除劣戰(zhàn)略的新的博弈;然后再剔除這個(gè)新的博弈中的劣戰(zhàn)略;繼續(xù)這個(gè)過(guò)程,直到?jīng)]有劣戰(zhàn)略存在。,如果剩下唯一的策略組合,那么該策略組合稱為“重復(fù)剔除的占優(yōu)均衡”,L,R,M,U,D,B,A知道B是理性的,A,B知道A是理性的,且B知道A知道B是理性的,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,剩下唯一的策略組合(U,M)重復(fù)剔除的占優(yōu)均衡,例,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,1,U,D,L,M,2,對(duì)于某些參與者而言,無(wú)論其他參與者選擇什么,如果A策略至少和B策略一樣好,而且至少在某些時(shí)候嚴(yán)格更好,就稱策略A為相對(duì)于策略B的弱占優(yōu)策略,或稱弱占優(yōu)于策略B,反之稱策略B為相對(duì)于策略B的弱劣策略,或稱弱劣于策略B,對(duì)1而言,U不是D的嚴(yán)格劣戰(zhàn)略 對(duì)2而言,L不是M的嚴(yán)格劣戰(zhàn)略,警告:逐次剔除弱劣勢(shì)策略可能去掉了某些納什均衡。,例,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,占優(yōu)戰(zhàn)略均衡與重復(fù)剔除的占優(yōu)均衡中的區(qū)別:,占優(yōu)均衡中,占優(yōu)策略嚴(yán)格優(yōu)于其他所有策略,選擇法,在用重復(fù)剔除方法尋找均衡時(shí),一個(gè)戰(zhàn)略是占優(yōu)戰(zhàn)略或劣戰(zhàn)略只是相對(duì)于另一個(gè)特定的戰(zhàn)略而言,而非相對(duì)于戰(zhàn)略空間中的其他所有戰(zhàn)略,排除法,占優(yōu)均衡僅要求每個(gè)參與人是理性的,重復(fù)剔除則要求理性是“共同知識(shí)”,對(duì)理性要求更高,參與人2,參與人1,練習(xí):用重復(fù)剔除嚴(yán)格劣戰(zhàn)略求以下博弈的均衡,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,智豬博弈背后的哲理,反映生活中的搭便車(chē)現(xiàn)象,小豬角度:自己不能努力,即使努力勞動(dòng)成果也會(huì)被大豬侵占,所以最優(yōu)選擇是等待,坐享大豬的勞動(dòng)成果,這稱為搭便車(chē)(free-riding)。,大豬角度:主觀上為了自己的利益,但客觀上為小豬帶來(lái)了好處,但“多勞不一定多得”,“看不見(jiàn)的手”的童話版,若全部博弈主體都試圖免費(fèi)搭車(chē),那么可能陷入囚徒困境,“一個(gè)和尚挑水喝,兩個(gè)和尚抬水喝,三個(gè)和尚沒(méi)水喝”,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,公司治理股份公司中,大股東較小股東更有監(jiān)督管理層的動(dòng)力。因?yàn)榇蠊蓶|可以平衡其監(jiān)督的成本收益,而小股東卻不能。因此大股東承擔(dān)監(jiān)督責(zé)任,這客觀上為小股東帶來(lái)好處。,智豬博弈舉例,哥本哈根氣候談判:氣候問(wèn)題上,發(fā)達(dá)國(guó)家是“大豬”,發(fā)展中國(guó)家是“小豬”,二者在應(yīng)對(duì)氣候問(wèn)題時(shí)的各自成本也是不相同的,發(fā)達(dá)國(guó)家付出的成本小,而發(fā)展中國(guó)家付出的成本大,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,智豬博弈給了競(jìng)爭(zhēng)中的弱者以等待為最佳策略的啟發(fā),也解釋為什么占有更多資源者必須承擔(dān)更多的義務(wù),企業(yè)員工中的搭便車(chē):“越能干越辛苦”、能者多勞,技術(shù)創(chuàng)新便車(chē)大企業(yè)花錢(qián)進(jìn)行研發(fā),而小企業(yè)等待大企業(yè)開(kāi)發(fā)出新技術(shù)新產(chǎn)品后通過(guò)模仿或創(chuàng)新成果的擴(kuò)散生產(chǎn)并出售類(lèi)似產(chǎn)品。,股市博弈散戶跟大戶,股市中大戶是“大豬”,散戶是“小豬”。大戶搜集信息進(jìn)行投資分析,而散戶只是選擇“跟大戶”。,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,如何解決搭便車(chē)問(wèn)題?,對(duì)于社會(huì)而言,小豬“搭便車(chē)”時(shí)的社會(huì)資源配置并不是最佳狀態(tài),因?yàn)樾∝i未能參與競(jìng)爭(zhēng),創(chuàng)造價(jià)值。 為使資源最有效配置,規(guī)則的設(shè)計(jì)者不愿看見(jiàn)搭便車(chē)。,基本思路:界定產(chǎn)權(quán),明確各方的責(zé)任、權(quán)力和利益。規(guī)定誰(shuí)付出勞動(dòng),誰(shuí)受益,小豬“不勞而獲”動(dòng)機(jī)將被抑制。,需要通過(guò)法律或制度來(lái)實(shí)施,如,解決企業(yè)員工偷懶,必須明確每個(gè)員工責(zé)任和任務(wù),而且對(duì)照責(zé)任和任務(wù)進(jìn)行考核、獎(jiǎng)懲,2 智豬博弈與重復(fù)剔除劣戰(zhàn)略均衡,通過(guò)激勵(lì)機(jī)制設(shè)計(jì)克服搭便車(chē)。,莫勒爾說(shuō):盡管大家同乘一條船,可一些是劃船,另一些人只是坐船。,在某些領(lǐng)域,這一問(wèn)題是沒(méi)有辦法解決的。在某些領(lǐng)域,搭便車(chē)無(wú)法完全克服。如聚餐時(shí)的AA制,C2,R1,R2,C1,C3,R3,參與人2,參與人 1,3 納什均衡,R4,例,給定1選擇R3,2能否通過(guò)選擇不是C2來(lái)提高支付呢?不能。 C2稱作是2對(duì)于1選擇R3的最優(yōu)反應(yīng)。,策略組合(R3,C2)具有這樣性質(zhì):他們的行動(dòng)都是對(duì)對(duì)方行動(dòng)的最優(yōu)反應(yīng)。,一旦各參與人作出這樣的選擇,就沒(méi)有動(dòng)機(jī)獨(dú)自改變行動(dòng)。這種狀態(tài)稱為納什均衡(Nash equilibrium),當(dāng)參與人2選擇C2時(shí),1選擇R3最優(yōu),因此1選R3是對(duì)2選擇C2的最優(yōu)反應(yīng)。,口訣:橫看右,豎看左,逐個(gè)驗(yàn)證各單元格所對(duì)應(yīng)的策略組合是否符合NE的定義可找出NE,3 納什均衡,納什均衡,博弈中的一個(gè)策略組合: 在其他人都堅(jiān)守該策略組合下的策略不變的情況下,沒(méi)有參與人可以通過(guò)改變自己的策略而得到一個(gè)更高的支付,或者說(shuō),任何人都不能通過(guò)單方面的改變行為選擇來(lái)提高自己的收益。,“僵局”,3 納什均衡,麥琪,妻子麥琪有一頭長(zhǎng)發(fā),卻沒(méi)有梳子。 丈夫有一只懷表,卻沒(méi)有表鏈。 麥琪生日那天,麥琪賣(mài)掉了長(zhǎng)發(fā)為丈夫買(mǎi)了一條表鏈,吉姆賣(mài)掉懷表為妻子買(mǎi)了一把梳子。,麥琪的禮物,3 納什均衡,如何找NE?,輪流站在每個(gè)參與人的角度思考:對(duì)于其他參與人的每一選擇,“我”的最優(yōu)選擇是什么?找出每人對(duì)其他參與人可選策略的最優(yōu)反應(yīng),最優(yōu)反應(yīng)分析,在最優(yōu)反應(yīng)戰(zhàn)略對(duì)應(yīng)的橫線上畫(huà)線,3 納什均衡,如某戰(zhàn)略組合都畫(huà)了線,那就是NE。此時(shí),各方的行為選擇都是給定對(duì)方戰(zhàn)略下的最優(yōu)反應(yīng),每一方都不能通過(guò)單方面的改變行為選擇來(lái)提高自己的收益。,設(shè)有兩個(gè)人一起玩游戲,每個(gè)人都有不同的策略,誰(shuí)都希望自己出“高招”使自己獲勝(即尋求效用的最大化),但獲勝并不完全依賴于自己的行為,還依賴于對(duì)手怎么做。,有時(shí),雙方會(huì)形成這樣一種狀態(tài):我的最好策略所依賴的條件就是你的最好策略。換言之:如果你那樣做,我這樣最好,而你“那樣”做恰恰又是你的最佳策略。,3 納什均衡,通俗地講:如果別人不動(dòng),我也不能動(dòng),網(wǎng)絡(luò)名句: 我尊重你是因?yàn)槟阕鹬匚遥阕鹬匚沂且驗(yàn)槲易鹬啬悖?我喜歡你是因?yàn)槟阆矚g我,你喜歡我是因?yàn)槲蚁矚g你; 我愛(ài)你是因?yàn)槟銗?ài)我,你愛(ài)我是因?yàn)槲覑?ài)你。 我尊重你、我喜歡你、我愛(ài)你是我對(duì)你的行為選擇的最優(yōu)反應(yīng),而你尊重我、你喜歡我、你愛(ài)我是你對(duì)我的行動(dòng)的最優(yōu)反應(yīng)。,在一個(gè)納什均衡中,每個(gè)參與人選擇她對(duì)于其他人選擇的“最優(yōu)反應(yīng)”。 但是,一個(gè)人如何對(duì)尚未發(fā)生的、或者即使已經(jīng)發(fā)生但并不知曉的事情作出反應(yīng)? 盡管如此,參與人可以通過(guò)各種方法對(duì)別人的正在采取的行動(dòng)形成一種認(rèn)識(shí)。,3 納什均衡,經(jīng)驗(yàn)和(過(guò)去的)觀察逐步形成一個(gè)對(duì)于他人行動(dòng)的較好判斷,運(yùn)用想“他人之所想”的邏輯:設(shè)想你是其他人并思考他們是怎么想的。,納什均衡:一個(gè)關(guān)于信念和選擇的體系,3 納什均衡,無(wú)論是觀察還是邏輯推導(dǎo)或其他方法,博弈參與人都獲得了其他人在同時(shí)博弈中正在選擇什么的認(rèn)識(shí)。,我們使用“信念”(belief)一詞來(lái)描述這一過(guò)程或結(jié)果。,于是我們可以從另一個(gè)等價(jià)的角度定義納什均衡:它是一個(gè)策略組合以及信念系統(tǒng),其中每個(gè)參與者有一個(gè)策略和一個(gè)信念,滿足:,給定每個(gè)參與者對(duì)于其他人策略的信念,她的策略對(duì)于自己是最好的。,每個(gè)參與者關(guān)于其他人策略的信念是正確的。,3 納什均衡,例:,3 納什均衡,納什均衡與占優(yōu)戰(zhàn)略均衡及重復(fù)剔除占優(yōu)均衡之間的關(guān)系,每個(gè)占優(yōu)戰(zhàn)略均衡、重復(fù)剔除的占優(yōu)均衡一定是納什均衡,但并非每個(gè)納什均衡都是占優(yōu)戰(zhàn)略均衡或重復(fù)剔除的占優(yōu)均衡。,納什均衡一定是在重復(fù)剔除嚴(yán)格劣戰(zhàn)略過(guò)程中沒(méi)有被剔除掉的戰(zhàn)略組合,但沒(méi)有被剔除的戰(zhàn)略組合不一定是納什均衡,除非它是唯一的。,納什均衡是完全信息靜態(tài)博弈的一般概念。,C2,R1,R2,C1,C3,R3,參與人2,參與人1,練習(xí):用劃線法求解下列博弈的納什均衡,3 納什均衡,最優(yōu)反應(yīng)分析是尋找到所有可能的納什均衡的一個(gè)全能的方法。,納什介紹,1994年Nobel 經(jīng)濟(jì)學(xué)獎(jiǎng)得主,傳記電影美麗心靈獲得4項(xiàng)OSCAR大獎(jiǎng) 納什傳奇色彩的一生:1950年在22歲獲得數(shù)學(xué)哲學(xué)博士學(xué)位,29歲結(jié)婚,第二年回到麻省理工學(xué)院,得到了終身學(xué)位; 不到30歲就已經(jīng)聞名遐邇,曾被美國(guó)著名的財(cái)富雜志推舉為同時(shí)活躍在純數(shù)學(xué)和應(yīng)用數(shù)學(xué)兩個(gè)領(lǐng)域的天才數(shù)學(xué)家中最杰出的人物、美國(guó)最耀眼的科學(xué)新星。 30歲精神分裂,被稱為“數(shù)學(xué)幽靈”,慢慢 從學(xué)術(shù)界消失 在20世紀(jì)80年代,病情有了好轉(zhuǎn),后來(lái)竟奇跡般地康復(fù)了。,納什介紹,1994年Nobel 經(jīng)濟(jì)學(xué)獎(jiǎng)得主,差不多就在這個(gè)時(shí)候,納什成為1985年經(jīng)濟(jì)學(xué)諾貝爾獎(jiǎng)候選人,但是最終沒(méi)能獲獎(jiǎng)。 接近1994年,博弈論獲獎(jiǎng)的形勢(shì)更有利,是瓜熟蒂落的時(shí)候。但納什還是什么頭銜也沒(méi)有。此時(shí)出于同一師門(mén)的納什的同學(xué)、普林斯頓著名的數(shù)理經(jīng)濟(jì)學(xué)家?guī)於靼l(fā)揮了作用:向nobel委員會(huì)申明,若因?yàn)樯眢w狀況剝奪納什當(dāng)之無(wú)愧的nobel獎(jiǎng),那“實(shí)在需要過(guò)分的勇氣”。 納什終于在1994年走上了諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)的領(lǐng)獎(jiǎng)臺(tái)。,Nash(1950,1951)兩篇關(guān)于非合作博弈的重要文章,定義了非合作博弈及其均衡解,并證明了均衡解的存在?;旧系於爽F(xiàn)代非合作博弈論的基石,4多重均衡與協(xié)調(diào),一般來(lái)說(shuō),博弈未必只有唯一均衡,一類(lèi)具有多重均衡的博弈被稱為協(xié)調(diào)博弈。 在這類(lèi)博弈中,參與人具有某些共同利益。 但是,由于獨(dú)自行動(dòng),達(dá)成共同喜歡的結(jié)果的協(xié)調(diào)行動(dòng)就成了問(wèn)題。,4 多重均衡與協(xié)調(diào),完全協(xié)調(diào)博弈,兩大學(xué)生哈里和莎莉,在圖書(shū)館相遇,相聊甚歡。當(dāng)意猶未盡之時(shí),他們得馬上趕回上課,約好4:00喝咖啡。 兩人忘記約喝咖啡地點(diǎn),兩地方可選,星巴克和本地咖啡館,兩地方在校園相反方向。兩人未換手機(jī)號(hào),無(wú)法聯(lián)系。 他們?cè)撛趺崔k?,但問(wèn)題是兩人須協(xié)調(diào)到同一行動(dòng)完全協(xié)調(diào)博弈(協(xié)調(diào)到哪個(gè)行動(dòng)無(wú)所謂),兩個(gè)NE:達(dá)成均衡對(duì)兩人都有利,4 多重均衡與協(xié)調(diào),在多重均衡的情況下,如果參與人想要成功地選擇其中一種 均衡,就需要想辦法協(xié)調(diào)他們關(guān)于對(duì)方行動(dòng)的信念。,如星巴克是大家眾所周知的活動(dòng)場(chǎng)所,哈里知道,所以哈里應(yīng)去星巴克,但僅哈里知道不夠,他還得確定莎莉知道,而且莎莉知道哈里知道,以此類(lèi)推。,多重均衡降低博弈的解釋力一方面我們不知道哪個(gè)均衡 出現(xiàn),另一方面可能出現(xiàn)真實(shí)結(jié)果與均衡結(jié)果相矛盾的情況。,也就是說(shuō),他們的預(yù)期必須收斂到聚點(diǎn)(focal point)。,4 多重均衡與協(xié)調(diào),性別戰(zhàn)博弈,兩個(gè)NE:存在共同利益參與人,但各自偏愛(ài)一個(gè)均衡。究竟哪個(gè)均衡會(huì)出現(xiàn)?,與完全協(xié)調(diào)博弈相比,協(xié)調(diào)失敗的風(fēng)險(xiǎn)更大。如何協(xié)調(diào)? 為了達(dá)到他(她)偏好的均衡,參與者可以試著表現(xiàn)強(qiáng) 硬,遵循導(dǎo)致有利均衡的策略策略性行動(dòng)。,刻畫(huà)這樣的博弈:博弈雙方雖然存在一定共同利益,但是對(duì)于具有共同利益的兩個(gè)結(jié)果存在偏好沖突。,4 多重均衡與協(xié)調(diào),性別戰(zhàn)博弈應(yīng)用:組織中上下級(jí)博弈(鐵腕上司與鷹派下屬),有些組織上級(jí)對(duì)下級(jí)非常強(qiáng)硬,被稱為鐵腕上司 有些組織里下級(jí)對(duì)上級(jí)毫不買(mǎi)賬,被稱為鷹派下屬,兩個(gè)NE 若上司強(qiáng)硬,則下屬屈從 若下屬?gòu)?qiáng)硬,則上司屈從,4 多重均衡與協(xié)調(diào),兩個(gè)不服對(duì)方的人拼賭,面對(duì)面高速駕車(chē)駕車(chē)行駛,如果誰(shuí)先把方向盤(pán)轉(zhuǎn)向而避免相撞,誰(shuí)就輸并被稱作“懦夫” (Chicken),而向前的人將被稱作“勇士” 如果兩人都向前,車(chē)毀人亡。,懦夫博弈(Chicken Game),每人都希望成勇士,對(duì)方成懦夫,同時(shí)也最不希望發(fā)生車(chē)禍 雙方都當(dāng)懦夫比只有自己當(dāng)懦夫好,4 多重均衡與協(xié)調(diào),懦夫博弈(Chicken Game),懦夫博弈刻畫(huà)的是一種騎虎難下的局面,與性別戰(zhàn)相比,參與人之間的沖突和不對(duì)等更嚴(yán)重。獲勝的收益很大,但相撞的損失也大,懦夫博弈特征:,參與人盡量避免而不是選擇一致的行動(dòng)。,真正的博弈是雙方如何達(dá)到各自偏好的均衡展開(kāi)較量,美國(guó)于1961年策動(dòng)對(duì)古巴獵灣的入侵遭到可恥的失敗,一直耿耿于懷,總想伺機(jī)對(duì)古巴進(jìn)行干涉。同時(shí),古巴同蘇聯(lián)的關(guān)系越來(lái)越密切,而美、蘇之間的磨擦卻日趨嚴(yán)重 美、蘇兩國(guó)導(dǎo)彈數(shù)量的比例是171,美國(guó)優(yōu)勢(shì)明顯,蘇聯(lián)政府對(duì)此擔(dān)憂不已。為迫使美國(guó)從土耳其和靠近蘇聯(lián)的其他地區(qū)撤除導(dǎo)彈,赫魯曉夫決定在古巴部署蘇式導(dǎo)彈,并找了堂而皇之的理由:捍衛(wèi)古巴革命成果。,古巴導(dǎo)彈危機(jī),1962年加勒比海地區(qū)發(fā)生了一場(chǎng)震驚世界的古巴導(dǎo)彈危機(jī)。這場(chǎng)危機(jī),差點(diǎn)引發(fā)一場(chǎng)核戰(zhàn)爭(zhēng),整個(gè)世界危在旦夕。最后以雙方的妥協(xié)而告終, 導(dǎo)彈危機(jī)后被稱為懦夫博弈的典型案例。,4 多重均衡與協(xié)調(diào),1962年7月蘇聯(lián)開(kāi)始向古巴運(yùn)送導(dǎo)彈。10月美偵察機(jī)發(fā)現(xiàn)了古巴境內(nèi)的導(dǎo)彈基地,肯尼迪立即向蘇聯(lián)提出強(qiáng)烈抗議,要求馬上拆除古巴境內(nèi)的導(dǎo)彈發(fā)射設(shè)施,否則將毫不猶豫消滅這些直接威脅美國(guó)安全的導(dǎo)彈設(shè)施。 蘇聯(lián)方面對(duì)此答復(fù):導(dǎo)彈基地純粹是防御性質(zhì)的。但美卻不依不饒,咬定從該基地發(fā)射的導(dǎo)彈足以摧毀美國(guó)各大城市。 10月16日肯尼迪組成了國(guó)家安全委員會(huì)執(zhí)行委員會(huì),研究如何對(duì)付蘇聯(lián)。執(zhí)委會(huì)成員們提出了眾多方案,歸納起來(lái)主要有三個(gè):一、空襲古巴導(dǎo)彈基地;二、對(duì)古巴實(shí)行封鎖;三、訴諸聯(lián)合國(guó)。 10月22日:肯尼迪發(fā)表電視演說(shuō),宣布將對(duì)古巴實(shí)行封鎖。,10月23日:蘇聯(lián)政府發(fā)表聲明,表示仍要繼續(xù)使用武器“援助”古巴,“堅(jiān)決拒絕”美國(guó)的攔截,對(duì)美的威脅“將進(jìn)行最激烈的回?fù)簟薄?10月24日:美國(guó)一支由90艘戰(zhàn)艦組成的龐大艦隊(duì),在68個(gè)空軍中隊(duì)和8艘航空母艦的護(hù)衛(wèi)下,在古巴領(lǐng)海周?chē)O(shè)置了警戒線,攔截所有駛?cè)敕怄i區(qū)的船只。在靠近古巴的美國(guó)佛羅里達(dá)州及鄰近各州集結(jié)了一支龐大的登陸部隊(duì)。在離古巴東部海岸約300千米的島上,設(shè)有巨大的導(dǎo)彈跟蹤站,監(jiān)視往古巴去的船只的一舉一動(dòng)。 10月25日:蘇聯(lián)作出了一個(gè)決定,以不攜帶武器的船只去考驗(yàn)封鎖。 10月26日:赫魯曉夫給肯尼迪寫(xiě)了封信。信中說(shuō),若美國(guó)保證不會(huì)入侵古巴、也不允許別人入侵,并且如果它撤回自己的艦隊(duì),不再搞隔離,馬上撤出古巴導(dǎo)彈。,10月27日:第2封信:重申蘇聯(lián)向古巴提供武器“只是加強(qiáng)防御能力,因?yàn)楣虐筒粨碛腥魏挝淦鳌?。赫魯曉夫建議“我們同意從古巴撤出導(dǎo)彈。但是美國(guó)需要聲明:美國(guó)方面考慮到蘇聯(lián)的安全和焦慮,將從土耳其撤出自己的這種手段”;蘇聯(lián)保證尊重土耳其領(lǐng)土和主權(quán)的不可侵犯性。 白宮立即發(fā)表聲明,指出土耳其與古巴危機(jī)毫不相干。 這兩封信既反映出蘇聯(lián)政府內(nèi)部意見(jiàn)的不一致,又使美國(guó)對(duì)蘇聯(lián)的意圖更加捉摸不定,因而使局勢(shì)又復(fù)雜化了。 此時(shí)在全世界所有的美國(guó)核部隊(duì)和常規(guī)部隊(duì)都已經(jīng)奉命準(zhǔn)備隨時(shí)行動(dòng),一支龐大的入侵部隊(duì)也聚集在佛羅里達(dá)。雙方劍拔弩張,戰(zhàn)爭(zhēng)一觸即發(fā)。 美國(guó)官方普遍估計(jì),古巴的幾個(gè)發(fā)射場(chǎng)已處于發(fā)射狀態(tài),這種情況下對(duì)導(dǎo)彈發(fā)射場(chǎng)的任何直接空襲都可能造成美國(guó)城市上空的熱核爆炸。,當(dāng)國(guó)安會(huì)在激烈辯論時(shí)候,肯尼迪靈機(jī)一動(dòng):“為什么不可以不理睬赫魯曉夫的第二封信而只回答第一封信?”他向赫魯曉夫發(fā)出了接受他10月26日“提議”的信:提出如果蘇聯(lián)把部署在古巴的武器系統(tǒng)撤出,美國(guó)同意馬上取消封鎖、“提供不進(jìn)攻古巴的保證”。 羅伯特肯尼迪會(huì)見(jiàn)蘇聯(lián)大使,要求蘇聯(lián)在48小時(shí)內(nèi)從古巴撤走導(dǎo)彈,表示“美國(guó)不能在威脅的壓力下作出撤走在土耳其的導(dǎo)彈的決定”,給自己在外交上和西方盟國(guó)內(nèi)部造成不利影響。他告訴這位大使“肯尼迪總統(tǒng)早就急切地想把這些導(dǎo)彈撤出土耳其”。 10月28日,赫魯曉夫公開(kāi)宣布下令撤離導(dǎo)彈。 其實(shí)肯尼迪并不真打算發(fā)動(dòng)一場(chǎng)戰(zhàn)爭(zhēng),他只不過(guò)是想迫使赫魯曉夫從古巴撤除導(dǎo)彈基地,所以他所做的一切都只是恫嚇。 同樣赫魯曉夫的所謂“強(qiáng)烈反應(yīng)”,也不過(guò)是色厲內(nèi)荏的把戲,他亦不敢貿(mào)然將事態(tài)一再擴(kuò)大,畢竟蘇聯(lián)的實(shí)力比美國(guó)差得太遠(yuǎn)。,一場(chǎng)戰(zhàn)爭(zhēng)危機(jī)終于過(guò)去,這場(chǎng)蘇、美之間的意志較量,最后 以蘇聯(lián)失敗落幕。,古巴導(dǎo)彈危機(jī)被稱為懦夫博弈的經(jīng)典案例。 肯尼迪可能是他的政府中最懦弱的一員,但是他明白堅(jiān)持這種立場(chǎng)才是更勇敢的。很多時(shí)候,尋求和平比發(fā)動(dòng)戰(zhàn)爭(zhēng)更需要勇氣??夏岬蠈?duì)危機(jī)的處理一直是果斷的、是不妥協(xié)的??夏岬嫌赂业您椗勺黠L(fēng)和冷靜靈活的反應(yīng)阻撓了這一計(jì)謀的實(shí)現(xiàn),為美國(guó)人贏得了勝利,還羞辱了俄國(guó)人。古巴導(dǎo)彈危機(jī)也使克里姆林宮下決心大力發(fā)展核武器,改變劣勢(shì),洗刷當(dāng)年的“懦夫的恥辱”,果真到了20世紀(jì)60年代末蘇聯(lián)趕上了美國(guó),使蘇聯(lián)在全球競(jìng)爭(zhēng)中慢慢由守勢(shì)轉(zhuǎn)為攻勢(shì)。,信息是博弈的武器,話語(yǔ)亦是博弈的策略。因?yàn)椴┺碾p方是活生生的人,就會(huì)根據(jù)對(duì)方不同策略來(lái)動(dòng)態(tài)評(píng)估局勢(shì),隨時(shí)修正、改變?cè)ǖ淖顑?yōu)策略。,4 多重均衡與協(xié)調(diào),如果他們具有某些共同的社會(huì)、文化或歷史背景,在一個(gè)存在多重均衡的協(xié)調(diào)博弈中,參與人可能能選擇一個(gè)聚點(diǎn)現(xiàn)實(shí)中參與人使用被模型抽象掉的信息達(dá)到聚點(diǎn)均衡,(50,50)是一個(gè)聚點(diǎn)均衡,平等的社會(huì)準(zhǔn)則已經(jīng)深入人心,要成為真正的聚點(diǎn),要求平等的社會(huì)準(zhǔn)則是一個(gè)共同知識(shí),即 大家都認(rèn)同,而且每人都知道大家認(rèn)同。,NE多重性極端例子:100元總獎(jiǎng)金,兩人獨(dú)立寫(xiě)下想要的數(shù)量,如金額相加不大于100,則各自得到所寫(xiě)金額的錢(qián),否則什么都得不到,如協(xié)調(diào)博弈中,星巴克是常去的活動(dòng)場(chǎng)所是共同知識(shí),多重均衡降低博弈的解釋力一方面我們不知道哪個(gè)均衡 出現(xiàn),另一方面可能出現(xiàn)真實(shí)結(jié)果與均衡結(jié)果相矛盾的情況。,4 多重均衡與協(xié)調(diào),廉價(jià)磋商:當(dāng)雙方利益一致時(shí),博弈雙方進(jìn)行直接的信息溝 通,也可實(shí)現(xiàn)多種均衡的協(xié)調(diào),如,完全協(xié)調(diào)博弈中,哈里向莎莉發(fā)條短信,如,學(xué)生上課占座;新婚夫妻家務(wù)分擔(dān)。,如果博弈重復(fù)多次,則過(guò)去歷史規(guī)定了聚點(diǎn)所在。,一旦人們得知?jiǎng)e人將做出和自己同樣的行為時(shí),通常會(huì)協(xié)調(diào) 彼此的行為,從而出現(xiàn)合作的契機(jī)。,張無(wú)忌心中一喜,內(nèi)勁立長(zhǎng),將三僧攻過(guò)來(lái)的勁力一一化解,霎時(shí)之間便成了個(gè)相持不下的局面。渡厄等雖于外界事物不聞不見(jiàn),但于雙方內(nèi)勁的消長(zhǎng)卻辨析入微,陡然察覺(jué)到對(duì)方內(nèi)勁大張,卻又不反守為攻,正是消除雙方危難的最佳時(shí)機(jī),三僧心意相通,立時(shí)內(nèi)勁微收。張無(wú)忌跟著收了一分勁力,三僧亦收一分。如此你收一分,我收一分,頃刻間雙方的勁力收盡。四人同時(shí)哈哈一笑,一齊站起。張無(wú)忌長(zhǎng)揖到地,渡厄、渡劫、渡難三僧合十還禮。四人齊聲說(shuō)道:“佩服,佩服!“,倚天屠龍記,4 多重均衡與協(xié)調(diào),4 多重均衡與協(xié)調(diào),相關(guān)均衡:參與人根據(jù)共同觀察到的信號(hào)行動(dòng),則可能出現(xiàn) 相關(guān)均衡,實(shí)現(xiàn)多種均衡的協(xié)調(diào),司機(jī)行人博弈,兩個(gè)NE,如果缺乏協(xié)調(diào),可能出現(xiàn)非均衡結(jié)果。 雙方根據(jù)觀察紅綠燈來(lái)協(xié)調(diào)行動(dòng)。,5 純策略意義下無(wú)均衡,迄今為止,所有博弈都至少存在一個(gè)NE,其中每個(gè)參與人選擇特定的策略作為其均衡策略純戰(zhàn)略均衡,但是有的博弈不存在NE。,猜硬幣博弈,這類(lèi)博弈中,關(guān)鍵不是參與人應(yīng)該做什么,而是參與人不應(yīng)該做什么。,如果某個(gè)參與人總選擇相同的行為,就會(huì)被對(duì)手利用。,最明智的選擇就是不按章法行動(dòng),以出其不意戰(zhàn)勝對(duì)手。,這一參與人隨機(jī)化其行動(dòng)的方法就是混合策略。,總結(jié),在靜態(tài)(同時(shí))博弈中,參與者在不知道其他參與者選擇的情況下制定自己的策略選擇。 這樣的博弈可以用支付矩陣表示。 納什均衡是完全信息靜態(tài)博弈中使用的解概念。 它由一組策略構(gòu)成(每個(gè)參與人對(duì)應(yīng)其中之一),以使每個(gè)參與人選擇了對(duì)其他人選擇的最優(yōu)反應(yīng)。,納什均衡也可以被理解為這樣一組策略,它使得每個(gè)參與人對(duì)于其他參與人的策略具有正確的信念,并且基于這種信念選擇最優(yōu)策略。 尋找納什均衡的辦法有,尋找占優(yōu)策略 重復(fù)剔除劣策略 逐個(gè)單元格檢查 最優(yōu)反應(yīng)分析,補(bǔ)充:納什均衡的數(shù)理描述,博弈(game) 參與人 局中人 的第 項(xiàng)戰(zhàn)略表示為 ,構(gòu)成其戰(zhàn)略空間 局中人 的收益表示為 ,為各局中人所選擇戰(zhàn)略的函數(shù) 博弈表示為,納什均衡(NE, Nash Equilibrium) 如果對(duì)任意 ,均有 那么稱戰(zhàn)略組合 為博 弈G的一個(gè)納什均衡。 也就是說(shuō),給定其他人的戰(zhàn)略選擇,任意局中人都實(shí)現(xiàn)了最大收益,或者不能通過(guò)改變自己的戰(zhàn)略提高收益。 即,在納什均衡中,每一個(gè)局中人都不能單方面改變自己的戰(zhàn)略來(lái)提高收益,從而每一個(gè)人都不會(huì)再改變戰(zhàn)略,是一個(gè)相對(duì)靜止的狀態(tài)因此稱為均衡。,補(bǔ)充:納什均衡的數(shù)理描述,諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)獲得者薩繆爾森有一句話:你可以將一只鸚鵡訓(xùn)練成一個(gè)經(jīng)濟(jì)學(xué)家,因?yàn)樗恍枰獙W(xué)習(xí)兩個(gè)詞:供給和需求。 博弈論專(zhuān)家坎多瑞引申說(shuō):要成為現(xiàn)代經(jīng)濟(jì)學(xué)家,這只鸚鵡必須再多學(xué)一個(gè)詞,就是“納什均衡”。,5 納什均衡:連續(xù)性策略的情形,制造商選擇產(chǎn)品價(jià)格 慈善家選擇慈善捐款的數(shù)量 建筑承包商選擇工程的投標(biāo)價(jià)格,在一個(gè)離散策略的博弈中,每個(gè)參與人只有少數(shù)幾個(gè) 定義明確的招術(shù)(離散的行動(dòng)集合)。 這樣的博弈可以用支付表來(lái)分析,至少在參與者人數(shù) 及其行為的個(gè)數(shù)不多時(shí)是如此。 在一個(gè)連續(xù)策略的博弈中,參與人從一個(gè)大的可能性范 圍,也即本質(zhì)上無(wú)限的集合中做出選擇。,無(wú)限博弈(infinite game),在這些情形下,支付表實(shí)際上就不能作為分析工具了。,5 納什均衡:連續(xù)性策略的情形,qi 為第i個(gè)企業(yè)的產(chǎn)量,通過(guò)選擇產(chǎn)量來(lái)追求最大利潤(rùn)(i=1,2) 價(jià)格是兩企業(yè)產(chǎn)量的函數(shù)(逆需求函數(shù)) P=P(Q=q1+q2)=8-q1-q2 生產(chǎn)無(wú)固定成本,邊際成本為c1=c2 =2,第1個(gè)企業(yè)的利潤(rùn)函數(shù)為,第2個(gè)企業(yè)的利潤(rùn)函數(shù)為,古諾(Cournot, 1838)寡頭競(jìng)爭(zhēng)模型,得出了對(duì)這個(gè)產(chǎn)量競(jìng)爭(zhēng)博弈的完整描述。,5 納什均衡:連續(xù)性策略的情形,為了求解博弈,我們需要知道:對(duì)于企業(yè)1的每一個(gè)可能的產(chǎn)量(q1),企業(yè)2的最優(yōu)反應(yīng)是什么產(chǎn)量(q2),也即,給定企業(yè)1產(chǎn)量q1 ,企業(yè)2應(yīng)選擇一個(gè)自己的產(chǎn)量q2以最大化其利潤(rùn)。,通過(guò)使用一階條件得到,因此,企業(yè)2的最優(yōu)反應(yīng)就是,反應(yīng)函數(shù)(reaction function):一方的最優(yōu)策略是另一方策略的函數(shù),類(lèi)似得到企業(yè)1的最優(yōu)反應(yīng):,5 納什均衡:連續(xù)性策略的情形,兩個(gè)反應(yīng)函數(shù)如圖所示:,兩反應(yīng)函數(shù)的交點(diǎn)就是該博弈的納什均衡點(diǎn)。,該點(diǎn)表示一組產(chǎn)量(每個(gè)企業(yè)對(duì)應(yīng)其中一個(gè)),互為對(duì)方的 最優(yōu)反應(yīng)。,5 納什均衡:連續(xù)性策略的情形,每個(gè)企業(yè)的最優(yōu)產(chǎn)量為 2 均衡利潤(rùn)為:,設(shè)想:其中一個(gè)企業(yè)增加1個(gè)單位的產(chǎn)量,另一家的最優(yōu)反應(yīng)是降低0.5個(gè)單位。 一家企業(yè)增加產(chǎn)量會(huì)導(dǎo)致另一家企業(yè)減少產(chǎn)量,從而降低其利潤(rùn),每個(gè)企業(yè)獨(dú)立地選擇其產(chǎn)量,它只考慮自己的利潤(rùn),而忽視對(duì)其他企業(yè)的負(fù)面影響。,負(fù)外部效應(yīng),與合作壟斷比較: 以兩廠商總體利益最大:各生產(chǎn) 1.5單位產(chǎn)量,各自得益為4.5,古諾競(jìng)爭(zhēng)實(shí)質(zhì)是囚徒困境博弈,石油輸出國(guó)組織成員國(guó)共同磋商制定產(chǎn)量限額以維持油價(jià)。 但一旦規(guī)定各國(guó)的生產(chǎn)限額,且按照這個(gè)限額生產(chǎn)時(shí),每個(gè)成員國(guó)都會(huì)發(fā)現(xiàn),如果其他國(guó)家都遵守限額,只有自己超產(chǎn),則自己將獲得更多的利潤(rùn),并且因?yàn)橹挥幸粐?guó)超產(chǎn)油價(jià)不會(huì)下跌太多,從而其他各國(guó)只是普遍受少量損失,因此各成員國(guó)在本位利益的驅(qū)使下,都會(huì)希望其他國(guó)家遵守限額而自己偷偷超產(chǎn),獨(dú)享更多的利益。 最終的結(jié)果是各國(guó)普遍突破限額,限產(chǎn)計(jì)劃破產(chǎn),油價(jià)嚴(yán)重下跌,各國(guó)都只能得到不是最滿意的納什均衡的利潤(rùn)。這基本上就是石油輸出國(guó)組織成員國(guó)面臨的實(shí)際情況。,古諾模型的應(yīng)用:石油輸出國(guó)組織的限額和突破,5 納什均衡:連續(xù)性策略的情形,5 納什均衡:連續(xù)性策略的情形,小鎮(zhèn)上兩餐館(1和2),分別按菜單收費(fèi)并分別設(shè)置菜單上的價(jià)格。 餐館在菜單定價(jià)的時(shí)候?qū)?duì)方價(jià)格一無(wú)所知。 假設(shè)餐館定價(jià)分別為P1和P2,為每個(gè)顧客提供服務(wù)的成本是8元,根據(jù)市場(chǎng)調(diào)查,若餐館1的定價(jià)為P1,餐館2的定價(jià)為P2,則它們各自顧客的數(shù)量Q1和Q2(百人每月)分別為 Q1=44-2 P1+ P2 Q2=44-2 P2+ P1,價(jià)格競(jìng)爭(zhēng),價(jià)格是餐館競(jìng)爭(zhēng)博弈中的策略,餐館1和2的利潤(rùn)函數(shù)分別為 B1=(P1-8)Q1= (P1-8)(44-2P1+P2) B2=(P2-8)Q2= (P2-8)(44-2P2+P1),兩個(gè)餐館的反應(yīng)函數(shù)分別為:,P2=15+0.25P1,P1=15+0.25P2,5 納什均衡:連續(xù)性策略的情形,5 納什均衡:連續(xù)性策略的情形,兩個(gè)反應(yīng)函數(shù)如圖所示:,10,10,30,兩反應(yīng)函數(shù)的交點(diǎn)就是該博弈的納什均衡點(diǎn)。,該點(diǎn)表示一組價(jià)格,其中每家餐館價(jià)格都是對(duì)另一家價(jià)格的最優(yōu)反應(yīng)。,20,20,30,NE,P1,P2,餐館1的反應(yīng)函數(shù),餐館2的反應(yīng)函數(shù),共同最優(yōu),最優(yōu)價(jià)格P1=P2=20,每月服務(wù)的顧客人數(shù)都是2400人,每個(gè)顧客身上賺取利潤(rùn)12元,利潤(rùn)總額28800元,5 納什均衡:連續(xù)性策略的情形,10,10,30,反應(yīng)函數(shù)向上傾斜,20,20,30,NE,P1,P2,餐館1的反應(yīng)函數(shù),餐館2的反應(yīng)函數(shù),共同最優(yōu),一家餐館的提價(jià)行為有助于增加另一家餐館的利潤(rùn),雙方可以通過(guò)合作提價(jià)來(lái)提高利潤(rùn)。,B1=B2=(P-8)(44-2P+P) P*=26 每家餐館利潤(rùn)為32400,6 混合策略和混合策略納什均衡,有些博弈無(wú)法找到“均衡”,猜硬幣博弈,事實(shí)上,這類(lèi)博弈沒(méi)有純策略的NE,零和博弈中,參與人之間利益直接沖突,一參與人偏好某類(lèi)行動(dòng),而其對(duì)手偏好避開(kāi)這類(lèi)行動(dòng),隨機(jī)行動(dòng)就會(huì)產(chǎn)生。,6 混合策略和混合策略納什均衡,純策略:肯定會(huì)被選擇以100%的概率被選擇的策略 純戰(zhàn)略納什均衡:各個(gè)局中人都選擇純戰(zhàn)略的納什均衡,什么是混合策略?,當(dāng)參與人選擇無(wú)規(guī)律的行動(dòng)時(shí),他們會(huì)在自己的純策略中隨機(jī)選擇,在猜硬幣博弈中,兩個(gè)參與人都在最初給定的兩個(gè)純策略之間進(jìn)行選擇。將兩個(gè)純策略的一種隨機(jī)混合稱為混合策略,混合策略是在一個(gè)完整的連續(xù)范圍內(nèi)變化,純策略是極端情形,正面被選擇的概率為p,則反面被選擇的概率為(1-p),6 混合策略和混合策略納什均衡,Q: 某個(gè)特定的混合策略組合下,參與人的支付如何計(jì)算?,猜硬幣博弈,針對(duì)A蓋住正面,B選擇混合策略(0.75正面,0.25反面)的支付為 (-1)*0.75+ (1)*0.25=-0.5 B選擇某個(gè)特定混合策略的期望支付,混合策略的支付被定義為它們的純策略的相應(yīng)支付的概率加權(quán)平均,6 混合策略和混合策略納什均衡,猜硬幣博弈,如何求解均衡?,首先假設(shè)每個(gè)參與人的混合策略如下: A以p的概率選擇正面,(1-p)的概率選擇反面 B以q的概率選擇正面,(1-q)的概率選擇反面,兩人的期望支付分別為: A:(-1)*pq+1 *p(1-q)+ 1 *(1-p)q+ (-1)*(1-p)(1-q) =2p+2q-4pq-1,B:1*pq+(-1) *p(1-q)+(-1) *(1-p)q+ 1*(1-p)(1-q) =2p+2q-4pq-1,6 混合策略和混合策略納什均衡,納什均衡的概念能夠非常容易的擴(kuò)展到混合策略的情形,納什均衡被定義為這樣一組混合策略:給定別人的混合策 略,該選擇給“我”帶來(lái)最高的收益。,換句話說(shuō),每個(gè)參與人的選擇都是對(duì)其他人混合策略的最 優(yōu)反應(yīng),猜硬幣博弈中,A選擇p作為她針對(duì)B所選的混合策略的最優(yōu)反應(yīng);B選擇q作為針對(duì)A的混合策略的最優(yōu)反應(yīng),最優(yōu)反應(yīng)法在尋找混合策略博弈中同樣適用,6 混合策略和混合策略納什均衡,A的期望支付為: 2p+2q-4pq-1=(2-4q)p+2q-1,A的最優(yōu)反應(yīng)為:,表示A對(duì)B的給定的混合策略的最優(yōu)反應(yīng) A的最優(yōu)反應(yīng)曲線,如果q1/2,選擇純策略正面,如果q=1/2,0-1之間的任何p都是最優(yōu)反應(yīng),如果q1/2,選擇純策略反面,6 混合策略和混合策略納什均衡,B的期望支付為: 2p+2q-4pq-1=(2-4p)q+2p-1,B的最優(yōu)反應(yīng)為:,表示B對(duì)A的給定的混合策略的最優(yōu)反應(yīng) B的最優(yōu)反應(yīng)曲線,如果p1/2,選擇純策略反面,如果p=1/2,0-1之間的任何q都是最優(yōu)反應(yīng),如果p1/2,選擇純策略正面,6 混合策略和混合策略納什均衡,NE,兩個(gè)反應(yīng)函數(shù)的交點(diǎn)即為混合策略NE,A曲線相交于p=0.5,q=0,5,此時(shí),每個(gè)參與人的混合選擇相對(duì)其他選擇而言都是最優(yōu)的。,6 混合策略和混合策略納什均衡,NE,A的反應(yīng)函數(shù),當(dāng)B選擇q1/2時(shí),A的最優(yōu)反應(yīng)為純策略“正面”,當(dāng)B選擇q1/2時(shí),A的最優(yōu)反應(yīng)為純策略“正面”,參與人的最優(yōu)反應(yīng)是用純策略去應(yīng)對(duì)對(duì)方的幾乎所有混合策略,只有當(dāng)B選擇q=1/2時(shí),A的最優(yōu)反應(yīng)為混合策略,6 混合策略和混合策略納什均衡,NE,A的均衡p值恰好使得B在其所有的純策略或混合策略之間無(wú)差異,B的均衡q值恰好使得A在其所有的純策略間無(wú)差異,對(duì)手無(wú)差異性質(zhì):每個(gè)參與人的均衡混合策略都使得其他參與人在她的所有策略之間無(wú)差異,博弈參與人有意地選擇變換其行動(dòng)以防止對(duì)手利用其可預(yù)測(cè)性。,6 混合策略和混合策略納什均衡,利用“對(duì)手無(wú)差異性質(zhì)”求解混合策略納什均衡,B選擇的混合策略(q,1-q)使得A在兩個(gè)純策略之間之間無(wú)差異。,B選擇的混合策略(q,1-q)使得A選擇任何一個(gè)純策略獲得相同的期望支付相等,即 (-1)*q+1*(1-q)=1*q+(-1)*(1-q) q=0.5,練習(xí):,壘球比賽博弈,擊球手,預(yù)料到曲線球,預(yù)料到快球,曲線球,快球,投手,投手與擊球手之間的目標(biāo)相互沖突 投手希望球能夠穿過(guò)擊球手,但擊球手希望能夠打到球 擊球手擊到快球的積分比擊到曲線球的積分多,1)考察該博弈是否存在純策略NE,并找出混合NE 2)畫(huà)出兩個(gè)參與人的最優(yōu)反應(yīng)曲線,p,1-p,q,1-q,6 混合策略和混合策略納什均衡,假設(shè)你在地面逃亡,而你的敵人正在空中打擊你,你可選擇躲到堅(jiān)固掩體下,也可以選擇躲到一間民房。首先想躲堅(jiān)固掩體(堅(jiān)固的地方更安全)。但是,你可能馬上意識(shí)到,你的敵人很可能猜到你躲在最堅(jiān)固地方,便集中火力攻擊你最安全地方成最危險(xiǎn)的地方;于是你決定躲民房,但你的敵人他也會(huì)想到這一層而進(jìn)攻民房,在這些博弈中,每個(gè)參與人都不要讓人猜透(給別人造成一種不確定性),因此使用一個(gè)混合策略,即在其純策略集合上定義一個(gè)概率分布。,零和博弈通常沒(méi)有純策略納什均衡。,20世紀(jì)40年代馬來(lái)西亞,英國(guó)軍隊(duì)食品卡車(chē),以免遭受游擊隊(duì)襲擊。 游擊隊(duì)能夠采取一次大規(guī)模進(jìn)攻或者采取制造一次小事故來(lái)恐嚇卡車(chē)司機(jī)以使他們不能繼續(xù)服役。 英軍也能采取集中力量護(hù)衛(wèi)或者是分散護(hù)衛(wèi),集中力量護(hù)衛(wèi)有利于反擊一次大規(guī)模的進(jìn)攻,分散護(hù)衛(wèi)有利于反擊小事故。 對(duì)于游擊隊(duì)而言,如果敵人分散護(hù)衛(wèi),一次大規(guī)模進(jìn)攻更有效;如果敵人采取集中力量護(hù)衛(wèi),小事故更有效。 該博弈只有一個(gè)混合策略均衡 并不懂博弈論的英軍指揮官是這樣決策的:每天早晨,當(dāng)護(hù)衛(wèi)開(kāi)始時(shí),他抓一片草藏在一只手中,將兩只手藏在身后讓士兵猜哪只手有草,然后根據(jù)士兵是否猜對(duì)來(lái)決定護(hù)衛(wèi)的形式。,英軍護(hù)衛(wèi),6 混合策略和混合策略納什均衡,采用混合策略的靜態(tài)博弈:非零和博弈,零和博弈中內(nèi)在的直接沖突使得隨機(jī)性行動(dòng)對(duì)參與人具有吸引力。,混合策略在博弈中讓對(duì)方保持猜疑來(lái)幫助參與人。,在非零和博弈中,參與者之間沒(méi)有明顯的利益沖突,也就沒(méi)有普遍的理由來(lái)對(duì)對(duì)手隱藏其利益所在。,因此,迷惑對(duì)手就不一定有道理。,6 混合策略和混合策略納什均衡,在同時(shí)行動(dòng)非零和博弈中,當(dāng)每個(gè)參與人選擇自己策略時(shí),由于對(duì)別人的選擇難以確定從而不確定自己的選擇出現(xiàn)混合策略。,約會(huì)博弈,參與人對(duì)對(duì)手行動(dòng)具有某種不確定性的信念,因而也就不能確定地給出自己的最優(yōu)行動(dòng)。,6 混合策略和混合策略納什均衡,哈里,星巴克,本地 咖啡館,莎莉,星巴克,本地 咖啡館,假設(shè)p表示莎莉心目中哈里選擇星巴克的概率以此表達(dá)莎莉主觀的不確定性:她認(rèn)為哈利將采用混合策略,分別以p和1-p的概率選擇兩個(gè)純策略將這個(gè)混合策略稱作哈利的混合策略,盡管目前僅僅是莎莉心目中的一個(gè)想法。,莎莉的最優(yōu)行動(dòng)是什么?,如果我選擇星巴克,期望支付為 1*p+0*(1-p)=p 如果我選擇本地咖啡店,期望支付 為0*p+2*(1-p)=2-2p,6 混合策略和混合策略納什均衡,1,1,2,p,星巴克,本地咖啡店,2/3,莎莉的支付,2-2p,p,q,莎莉的最優(yōu)反應(yīng),莎莉的支付,莎莉選擇星巴克的概率,最優(yōu)反應(yīng)為任意的q(兩純策略任意組合),0,混合策略和混合策略納什均衡,q,2/3,p=1,q=1,p=0,q=0,p=q=2/3,最優(yōu)反應(yīng)曲線交于三個(gè)點(diǎn):,p=0,q=0每個(gè)人都確定選擇本地咖啡館,且主觀上也認(rèn)為對(duì)方這么做;,p=1,q=1每個(gè)人都確定選擇星巴克,且主觀上也認(rèn)為對(duì)方這么做;,p=2/3,q=2/3每個(gè)人都選擇混合策略,都不能確定對(duì)方的選擇,并存在一個(gè)主觀上不確定的均衡上的平衡,6 混合策略和混合策略納什均衡,哈里,星巴克,本地 咖啡館,莎莉,星巴克,本地 咖啡館,2/3,1/3,2/3,1/3,混合策略均衡下兩人相遇的概率?,混合策略均衡下每個(gè)人的期望收益為2/3,小于任何一個(gè)純策略均衡(2或1),由于各自的隨機(jī)選擇是獨(dú)立的,很有可能(可能性4/9)雙方選擇不一致,導(dǎo)致低收益。,混合策略的低效率,6 混合策略和混合策略納什均衡,懦夫博弈(Chicken Game),6 混合策略和混合策略納什均衡,q,1/2,p,0,0,1/2,p=1,q=0,p=0,q=1,最優(yōu)反應(yīng)曲線交于三個(gè)點(diǎn):,p=0,q=0,p=1,q=0,p=1/2,q=1/2兩人的選擇的不確定正好使對(duì)方無(wú)差異。,p=q=1/2,混合均衡上,兩人支付為-1/2,的不確定正好使對(duì)方無(wú)差異。,6 混合策略和混合策略納什均衡,對(duì)手無(wú)差異和防止被利用,當(dāng)一個(gè)參與人選擇混合策略時(shí),對(duì)手選擇任何策略都無(wú)差異,零和博弈中,任何其他的選擇都會(huì)被對(duì)手利用以有利于她,從而對(duì)自己有損。,對(duì)手無(wú)差異性質(zhì),也就是說(shuō),零和博弈中每個(gè)參與人的均衡

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論