數(shù)據(jù)、模型與決策第九講 博弈論_第1頁
數(shù)據(jù)、模型與決策第九講 博弈論_第2頁
數(shù)據(jù)、模型與決策第九講 博弈論_第3頁
數(shù)據(jù)、模型與決策第九講 博弈論_第4頁
數(shù)據(jù)、模型與決策第九講 博弈論_第5頁
已閱讀5頁,還剩45頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)、模型與決策數(shù)據(jù)、模型與決策第九講第九講 博弈論博弈論主講:鄧旭東教授主講:鄧旭東教授教學(xué)內(nèi)容教學(xué)內(nèi)容博弈論的產(chǎn)生和發(fā)展1博弈論的基本概念與博弈的分類2博弈論的經(jīng)典模型3Nash均衡解的求解方法4合作博弈5學(xué)習(xí)目標(biāo)學(xué)習(xí)目標(biāo) 了解博弈論的產(chǎn)生和發(fā)展情況了解博弈論的產(chǎn)生和發(fā)展情況 掌握博弈及博弈論的概念、博弈論的分類掌握博弈及博弈論的概念、博弈論的分類 了解和掌握博弈論的經(jīng)典模型了解和掌握博弈論的經(jīng)典模型 掌握純策略和混合策略掌握純策略和混合策略NashNash均衡解的求解方法均衡解的求解方法 掌握聯(lián)盟博弈及夏普利值的概念,會求解兩人掌握聯(lián)盟博弈及夏普利值的概念,會求解兩人聯(lián)盟和三人聯(lián)盟情況下

2、的夏普利值聯(lián)盟和三人聯(lián)盟情況下的夏普利值 培養(yǎng)應(yīng)用博弈論于經(jīng)濟(jì)與管理實(shí)踐的意識培養(yǎng)應(yīng)用博弈論于經(jīng)濟(jì)與管理實(shí)踐的意識博弈論、納什均衡及核的概念博弈論、納什均衡及核的概念 博弈論博弈論(Game Theory)(Game Theory)是一門關(guān)于決策者在對是一門關(guān)于決策者在對決策結(jié)果沒有完全信息和互動條件下做出理性決策決策結(jié)果沒有完全信息和互動條件下做出理性決策的理論。的理論。 所謂所謂“互動互動”是指這樣一種情況,任何決策者是指這樣一種情況,任何決策者決策的結(jié)果不僅取決于其自身采取的策略,還取決決策的結(jié)果不僅取決于其自身采取的策略,還取決于其他人采取的策略。于其他人采取的策略。 納什均衡指兩人或

3、多人互動的結(jié)果:當(dāng)其他人納什均衡指兩人或多人互動的結(jié)果:當(dāng)其他人所選策略不變時,沒有任何人可以通過單方面改變所選策略不變時,沒有任何人可以通過單方面改變其策略而取得更好的結(jié)果。其策略而取得更好的結(jié)果。 核指兩個或多個聯(lián)盟互動的結(jié)果:當(dāng)其他聯(lián)盟核指兩個或多個聯(lián)盟互動的結(jié)果:當(dāng)其他聯(lián)盟的策略不變時,沒有任何聯(lián)盟可以通過單方面改變的策略不變時,沒有任何聯(lián)盟可以通過單方面改變其策略而取得對該聯(lián)盟所有成員更好的結(jié)果。其策略而取得對該聯(lián)盟所有成員更好的結(jié)果。一、博弈論的產(chǎn)生和發(fā)展一、博弈論的產(chǎn)生和發(fā)展20世紀(jì)世紀(jì)50年代年代,合作博弈發(fā)展到全盛期,非合作,合作博弈發(fā)展到全盛期,非合作博弈論也開始創(chuàng)立;博弈

4、論也開始創(chuàng)立;20世紀(jì)世紀(jì)60年代后,非合作博弈得到進(jìn)一步發(fā)展;年代后,非合作博弈得到進(jìn)一步發(fā)展;幾十年來,眾多的博弈論學(xué)者花費(fèi)了無窮的精力,幾十年來,眾多的博弈論學(xué)者花費(fèi)了無窮的精力,研究博弈論里博弈的結(jié)構(gòu),發(fā)展納什均衡點(diǎn)的定義研究博弈論里博弈的結(jié)構(gòu),發(fā)展納什均衡點(diǎn)的定義,并探討其實(shí)際應(yīng)用的可能性。,并探討其實(shí)際應(yīng)用的可能性。現(xiàn)代博弈理論誕生的標(biāo)志:現(xiàn)代博弈理論誕生的標(biāo)志:馮馮諾依曼和摩根斯坦諾依曼和摩根斯坦1944年出版的巨著年出版的巨著博弈論博弈論與經(jīng)濟(jì)行為與經(jīng)濟(jì)行為(The Theory of Games and Economic Behavior)1994年諾貝爾經(jīng)濟(jì)學(xué)獎:納什、哈薩

5、尼、澤爾騰年諾貝爾經(jīng)濟(jì)學(xué)獎:納什、哈薩尼、澤爾騰1996年諾貝爾經(jīng)濟(jì)學(xué)獎:莫里斯、維克瑞年諾貝爾經(jīng)濟(jì)學(xué)獎:莫里斯、維克瑞2001年諾貝爾經(jīng)濟(jì)學(xué)獎:阿克爾洛夫、斯彭斯、年諾貝爾經(jīng)濟(jì)學(xué)獎:阿克爾洛夫、斯彭斯、 斯蒂格利茨斯蒂格利茨2005年諾貝爾經(jīng)濟(jì)學(xué)獎:奧曼、謝林年諾貝爾經(jīng)濟(jì)學(xué)獎:奧曼、謝林博弈論的產(chǎn)生博弈論的產(chǎn)生和發(fā)展博弈論的產(chǎn)生和發(fā)展博弈論的發(fā)展1994年諾貝爾經(jīng)濟(jì)學(xué)獎年諾貝爾經(jīng)濟(jì)學(xué)獎 19941994年的諾貝爾經(jīng)濟(jì)學(xué)獎,授予了三位對博弈年的諾貝爾經(jīng)濟(jì)學(xué)獎,授予了三位對博弈論做出奠基性貢獻(xiàn)的學(xué)者,他們是美國普林斯頓大論做出奠基性貢獻(xiàn)的學(xué)者,他們是美國普林斯頓大學(xué)數(shù)學(xué)系的納什(學(xué)數(shù)學(xué)系的納什(

6、John NashJohn Nash)教授、美國伯克利)教授、美國伯克利加州大學(xué)商學(xué)院的哈薩尼(加州大學(xué)商學(xué)院的哈薩尼(John John HarsanyiHarsanyi)教授)教授和德國波恩大學(xué)經(jīng)濟(jì)學(xué)系的澤爾騰(和德國波恩大學(xué)經(jīng)濟(jì)學(xué)系的澤爾騰(ReinhardReinhard SeltenSelten)教授。納什對博弈論的貢獻(xiàn)有兩個方面)教授。納什對博弈論的貢獻(xiàn)有兩個方面:合作博弈理論中的討價還價模型,稱為納什討價合作博弈理論中的討價還價模型,稱為納什討價還價解;非合作博弈論方面,這也是他的主要貢還價解;非合作博弈論方面,這也是他的主要貢獻(xiàn)所在。納什對非合作博弈論的主要貢獻(xiàn)是他在獻(xiàn)所在。納

7、什對非合作博弈論的主要貢獻(xiàn)是他在1950年和年和1951年的兩篇論文中在非常一般的意義年的兩篇論文中在非常一般的意義上定義了非合作博弈及其均衡解,并證明了均衡解上定義了非合作博弈及其均衡解,并證明了均衡解的存在,由此奠定了非合作博弈論的基礎(chǔ)。的存在,由此奠定了非合作博弈論的基礎(chǔ)。1996年諾貝爾經(jīng)濟(jì)學(xué)獎年諾貝爾經(jīng)濟(jì)學(xué)獎 1996 1996年的諾貝爾經(jīng)濟(jì)學(xué)獎授予了英國劍橋大學(xué)的詹姆斯年的諾貝爾經(jīng)濟(jì)學(xué)獎授予了英國劍橋大學(xué)的詹姆斯莫里莫里斯(斯(James A. James A. MirrleesMirrlees)教授和美國哥倫比亞大學(xué)的威廉姆)教授和美國哥倫比亞大學(xué)的威廉姆維克維克瑞(瑞(Will

8、iam William VickreyVickrey)教授,表彰他們對信息經(jīng)濟(jì)學(xué)的貢獻(xiàn)。這兩)教授,表彰他們對信息經(jīng)濟(jì)學(xué)的貢獻(xiàn)。這兩位經(jīng)濟(jì)學(xué)家分別在位經(jīng)濟(jì)學(xué)家分別在2020世紀(jì)世紀(jì)6060年代和年代和7070年代揭示了不對稱信息對交易年代揭示了不對稱信息對交易所帶來的影響,并提出了相應(yīng)的對策。所帶來的影響,并提出了相應(yīng)的對策。 信息經(jīng)濟(jì)學(xué)是研究信息不對稱條件下交易關(guān)系和契約安排的理信息經(jīng)濟(jì)學(xué)是研究信息不對稱條件下交易關(guān)系和契約安排的理論。從本質(zhì)上講,信息經(jīng)濟(jì)學(xué)是不對稱博弈論在經(jīng)濟(jì)學(xué)上的應(yīng)用。論。從本質(zhì)上講,信息經(jīng)濟(jì)學(xué)是不對稱博弈論在經(jīng)濟(jì)學(xué)上的應(yīng)用。不對稱信息指的是某些參與人擁有另一些參與人不擁

9、有的信息。不對稱信息指的是某些參與人擁有另一些參與人不擁有的信息。 博弈論是方法論導(dǎo)向的,它研究的是給定信息結(jié)構(gòu)后,尋找最博弈論是方法論導(dǎo)向的,它研究的是給定信息結(jié)構(gòu)后,尋找最可能的均衡結(jié)果;信息經(jīng)濟(jì)學(xué)是以問題導(dǎo)向的,它研究的是給定信可能的均衡結(jié)果;信息經(jīng)濟(jì)學(xué)是以問題導(dǎo)向的,它研究的是給定信息結(jié)構(gòu)后,進(jìn)行最優(yōu)的契約安排。息結(jié)構(gòu)后,進(jìn)行最優(yōu)的契約安排。 由于信息經(jīng)濟(jì)學(xué)研究什么是不對稱信息情況下的最優(yōu)交易契約由于信息經(jīng)濟(jì)學(xué)研究什么是不對稱信息情況下的最優(yōu)交易契約,故又稱為契約理論,或機(jī)制設(shè)計(jì)理論。正因?yàn)樾畔⒉粚ΨQ,不同,故又稱為契約理論,或機(jī)制設(shè)計(jì)理論。正因?yàn)樾畔⒉粚ΨQ,不同的制度安排對應(yīng)不同的經(jīng)

10、濟(jì)效率,現(xiàn)在經(jīng)常討論的國有企業(yè)委托人的制度安排對應(yīng)不同的經(jīng)濟(jì)效率,現(xiàn)在經(jīng)常討論的國有企業(yè)委托人代理人問題、激勵機(jī)制問題、產(chǎn)權(quán)問題等,都是信息經(jīng)濟(jì)學(xué)的問代理人問題、激勵機(jī)制問題、產(chǎn)權(quán)問題等,都是信息經(jīng)濟(jì)學(xué)的問題。題。2001年諾貝爾經(jīng)濟(jì)學(xué)獎年諾貝爾經(jīng)濟(jì)學(xué)獎 20012001年的諾貝爾經(jīng)濟(jì)學(xué)獎授予了三位美國經(jīng)濟(jì)學(xué)家,他們是伯克利年的諾貝爾經(jīng)濟(jì)學(xué)獎授予了三位美國經(jīng)濟(jì)學(xué)家,他們是伯克利加州大學(xué)經(jīng)濟(jì)系的喬治加州大學(xué)經(jīng)濟(jì)系的喬治阿克爾洛夫(阿克爾洛夫(George George AkerlofAkerlof)教授、斯坦福)教授、斯坦福大學(xué)商學(xué)院的邁克爾大學(xué)商學(xué)院的邁克爾斯彭斯(斯彭斯(Michael Sp

11、enceMichael Spence)教授和哥倫比亞大學(xué))教授和哥倫比亞大學(xué)經(jīng)濟(jì)系、商學(xué)院及國際關(guān)系學(xué)院的約瑟夫經(jīng)濟(jì)系、商學(xué)院及國際關(guān)系學(xué)院的約瑟夫斯蒂格利茨(斯蒂格利茨(Joseph Joseph StiglitzStiglitz)教授。早在)教授。早在2020世紀(jì)世紀(jì)7070年代,他們就揭示了當(dāng)代信息經(jīng)濟(jì)的核年代,他們就揭示了當(dāng)代信息經(jīng)濟(jì)的核心,認(rèn)為信息是有價值的。其應(yīng)用價值對中國目前的改革也有著一定的心,認(rèn)為信息是有價值的。其應(yīng)用價值對中國目前的改革也有著一定的指導(dǎo)意義。指導(dǎo)意義。 19701970年,阿克爾洛夫?qū)鹘y(tǒng)經(jīng)濟(jì)學(xué)理論提出了挑戰(zhàn),他從分析舊車年,阿克爾洛夫?qū)鹘y(tǒng)經(jīng)濟(jì)學(xué)理論提出了

12、挑戰(zhàn),他從分析舊車市場入手,發(fā)現(xiàn)在舊車交易中,賣者顯然比買者對車輛擁有更多的信息市場入手,發(fā)現(xiàn)在舊車交易中,賣者顯然比買者對車輛擁有更多的信息,而因?yàn)檫@種信息不對稱,買車的人難以完全信任賣車人提供的信息,而因?yàn)檫@種信息不對稱,買車的人難以完全信任賣車人提供的信息,因而試圖通過低價來彌補(bǔ)其信息上的損失。由于買者出價過低,賣者又因而試圖通過低價來彌補(bǔ)其信息上的損失。由于買者出價過低,賣者又不愿提供好的產(chǎn)品,從而導(dǎo)致次貨的泛濫,其最終的結(jié)果是舊車市場的不愿提供好的產(chǎn)品,從而導(dǎo)致次貨的泛濫,其最終的結(jié)果是舊車市場的萎縮。阿克爾洛夫就此得出結(jié)論:市場放開并不能解決所有問題,信息萎縮。阿克爾洛夫就此得出結(jié)

13、論:市場放開并不能解決所有問題,信息是有價值的。斯彭斯則在是有價值的。斯彭斯則在19731973年通過剖析人才市場盛行的造假行為,指年通過剖析人才市場盛行的造假行為,指出人才市場同樣存在用人單位與應(yīng)聘者之間信息不對稱的問題,并由此出人才市場同樣存在用人單位與應(yīng)聘者之間信息不對稱的問題,并由此造成了人才市場上造成了人才市場上“劣幣劣幣”驅(qū)逐驅(qū)逐“良幣良幣”的現(xiàn)象。斯蒂格利茨則將信息的現(xiàn)象。斯蒂格利茨則將信息不對稱這一理論應(yīng)用到保險和金融市場。不對稱這一理論應(yīng)用到保險和金融市場。2001年諾貝爾經(jīng)濟(jì)學(xué)獎年諾貝爾經(jīng)濟(jì)學(xué)獎 這三個人從不同領(lǐng)域探討了信息不對稱問題,指出市這三個人從不同領(lǐng)域探討了信息不對

14、稱問題,指出市場體制需要完善、設(shè)計(jì),設(shè)計(jì)里有最優(yōu)。這是對傳統(tǒng)經(jīng)濟(jì)場體制需要完善、設(shè)計(jì),設(shè)計(jì)里有最優(yōu)。這是對傳統(tǒng)經(jīng)濟(jì)學(xué)的重大突破。學(xué)的重大突破。 Akerlof,G.(1970)”The Market for Lemons: Quality Uncertainty and Market Mechanism”,Quarterly Journal of Economics, 84: 488-599. Spence,M.(1973),),”Job Market Signaling”,Quarterly Journal of Economics,87. Rothschild,M. and Stiglit

15、z,J.(1976),),”Equilibrium in Competitive Insurance Market”, Quarterly Journal of Economics 90:629-49.2005年諾貝爾經(jīng)濟(jì)學(xué)獎年諾貝爾經(jīng)濟(jì)學(xué)獎 奧曼(奧曼(Robert J. Robert J. AumannAumann)提出了無限次的重復(fù)博弈的理論,謝林()提出了無限次的重復(fù)博弈的理論,謝林(Thomas C. SchellingThomas C. Schelling)提出了對抗?fàn)顟B(tài)下的)提出了對抗?fàn)顟B(tài)下的“可置信威脅可置信威脅”等概念,深等概念,深刻地分析了行為選擇的條件對博弈均衡結(jié)果的影響

16、??痰胤治隽诵袨檫x擇的條件對博弈均衡結(jié)果的影響。 奧曼率先提出的奧曼率先提出的“重復(fù)博弈重復(fù)博弈”分析,目前成為所有社會科學(xué)的主流分分析,目前成為所有社會科學(xué)的主流分支,并已應(yīng)用于政治沖突、灌溉系統(tǒng)、國際條約乃至公司相互勾結(jié)等各種支,并已應(yīng)用于政治沖突、灌溉系統(tǒng)、國際條約乃至公司相互勾結(jié)等各種各樣的問題。各樣的問題。 奧曼對沖突與合作策略思想的貢獻(xiàn)在于,他運(yùn)用了邏輯學(xué)和數(shù)學(xué)來理奧曼對沖突與合作策略思想的貢獻(xiàn)在于,他運(yùn)用了邏輯學(xué)和數(shù)學(xué)來理解,當(dāng)人們每天都面對相同對手或競爭者時,他們所能作出的選擇。當(dāng)策解,當(dāng)人們每天都面對相同對手或競爭者時,他們所能作出的選擇。當(dāng)策略情形大量重復(fù)出現(xiàn)時,即便個體間

17、有直接的利益沖突,達(dá)成合作的機(jī)率略情形大量重復(fù)出現(xiàn)時,即便個體間有直接的利益沖突,達(dá)成合作的機(jī)率也會上升,因?yàn)槊總€個體在未來時間內(nèi),都會與另一方反復(fù)打交道。也會上升,因?yàn)槊總€個體在未來時間內(nèi),都會與另一方反復(fù)打交道。 謝林于謝林于2020世紀(jì)世紀(jì)6060年代出版年代出版沖突的策略沖突的策略,著力闡述了在雙方處于僵,著力闡述了在雙方處于僵持時,采取一些策略性手段的重要性。這些手段包括:事先承諾、邊緣政持時,采取一些策略性手段的重要性。這些手段包括:事先承諾、邊緣政策和有威懾力的威脅。例如,通過限定你自己的選擇范圍,你就可以使對策和有威懾力的威脅。例如,通過限定你自己的選擇范圍,你就可以使對手清楚

18、地知道,你將對他們的行動作出何種反應(yīng)手清楚地知道,你將對他們的行動作出何種反應(yīng)不管他們采取什么行不管他們采取什么行動,這也就加大了他們作出讓步的可能性。動,這也就加大了他們作出讓步的可能性。 在地緣政治領(lǐng)域之外,謝林還發(fā)現(xiàn),人通常都是愿意合作的,但當(dāng)他在地緣政治領(lǐng)域之外,謝林還發(fā)現(xiàn),人通常都是愿意合作的,但當(dāng)他們在一個團(tuán)隊(duì)中完全依理性行事時,則不那么容易合作。們在一個團(tuán)隊(duì)中完全依理性行事時,則不那么容易合作。二、博弈論的基本概念與博弈的分類二、博弈論的基本概念與博弈的分類 博弈論的基本概念包括參與人、行動、信息、策略、支博弈論的基本概念包括參與人、行動、信息、策略、支付、結(jié)果和均衡。其中,參與

19、人、策略和支付是描述一付、結(jié)果和均衡。其中,參與人、策略和支付是描述一個博弈所需要的最少的要素,而行動和信息是其個博弈所需要的最少的要素,而行動和信息是其“積木積木”。參與人、行動和結(jié)果統(tǒng)稱為。參與人、行動和結(jié)果統(tǒng)稱為“博弈規(guī)則博弈規(guī)則”。博弈分。博弈分析的目的是使用博弈規(guī)則預(yù)測均衡。析的目的是使用博弈規(guī)則預(yù)測均衡。 參與人參與人是指在一個博弈中能夠選擇自己的行動方案是指在一個博弈中能夠選擇自己的行動方案從而使自身的利益最大化的決策主體,即有決策權(quán)的參從而使自身的利益最大化的決策主體,即有決策權(quán)的參加者。個人或組織團(tuán)體,參與人是理性的。加者。個人或組織團(tuán)體,參與人是理性的。 行動行動是參與人在

20、博弈的某個時點(diǎn)的決策變量。當(dāng)參是參與人在博弈的某個時點(diǎn)的決策變量。當(dāng)參與人的行動存在先后次序時,后行動者就可以通過觀察與人的行動存在先后次序時,后行動者就可以通過觀察先行動者的行動選擇來獲取信息,再決定行動方案。先行動者的行動選擇來獲取信息,再決定行動方案。 信息信息是參與人有關(guān)博弈的知識,特別是有關(guān)自然狀是參與人有關(guān)博弈的知識,特別是有關(guān)自然狀況、其他參與人的特征、偏好和行動等方面的知識。況、其他參與人的特征、偏好和行動等方面的知識?!袄硇岳硇浴笔枪餐R,各參與人的偏好也可能是共同知識是共同知識,各參與人的偏好也可能是共同知識。博弈論的基本概念博弈論的基本概念 策略策略是參與人在給定信息集

21、的情況下的行動規(guī)則,是參與人在給定信息集的情況下的行動規(guī)則,它規(guī)定了參與人在何時何種情況下選擇何種行動,是完它規(guī)定了參與人在何時何種情況下選擇何種行動,是完整的行動方案。各參與人在各自的策略集中選擇一個特整的行動方案。各參與人在各自的策略集中選擇一個特定的策略所構(gòu)成的策略組合稱為一個局勢。定的策略所構(gòu)成的策略組合稱為一個局勢。 支付支付是指在博弈論中,對應(yīng)一個確定的自然狀況,是指在博弈論中,對應(yīng)一個確定的自然狀況,參與人各選擇一個特定的策略所形成的局勢下參與人得參與人各選擇一個特定的策略所形成的局勢下參與人得到的效用。當(dāng)自然狀況不確定或參與人隨機(jī)選擇其策略到的效用。當(dāng)自然狀況不確定或參與人隨機(jī)

22、選擇其策略時,參與人關(guān)心的是期望效用。時,參與人關(guān)心的是期望效用。 結(jié)果結(jié)果是一個博弈各種可能的最終后果,如各參與人是一個博弈各種可能的最終后果,如各參與人的最優(yōu)策略、最優(yōu)策略下的效用等。的最優(yōu)策略、最優(yōu)策略下的效用等。 均衡均衡是各參與人最優(yōu)策略所形成的局勢,在該局勢是各參與人最優(yōu)策略所形成的局勢,在該局勢下,沒有參與人愿意選擇其他的策略。下,沒有參與人愿意選擇其他的策略。博弈的分類博弈的分類 通過事前交流協(xié)商達(dá)成有約束力的協(xié)議稱為合作。通過事前交流協(xié)商達(dá)成有約束力的協(xié)議稱為合作。 根據(jù)參與人之間是否存在合作,博弈可劃分為合作博弈根據(jù)參與人之間是否存在合作,博弈可劃分為合作博弈和非合作博弈。

23、和非合作博弈。 合作博弈與非合作博弈之間的區(qū)別主要在于人們的行為合作博弈與非合作博弈之間的區(qū)別主要在于人們的行為相互作用時,當(dāng)事人能否達(dá)成一個具有約束力的協(xié)議。相互作用時,當(dāng)事人能否達(dá)成一個具有約束力的協(xié)議。如果有,就是合作博弈;反之,則是非合作博弈。如果有,就是合作博弈;反之,則是非合作博弈。 合作博弈強(qiáng)調(diào)的是團(tuán)體理性,強(qiáng)調(diào)的是效率、公正、公合作博弈強(qiáng)調(diào)的是團(tuán)體理性,強(qiáng)調(diào)的是效率、公正、公平;非合作博弈強(qiáng)調(diào)的是個人理性、個人最優(yōu)決策,其平;非合作博弈強(qiáng)調(diào)的是個人理性、個人最優(yōu)決策,其結(jié)果可能是有效率的,也可能是無效率的。結(jié)果可能是有效率的,也可能是無效率的。 根據(jù)參與人行動的先后順序,博弈可

24、以劃分為靜態(tài)博弈根據(jù)參與人行動的先后順序,博弈可以劃分為靜態(tài)博弈和動態(tài)博弈。靜態(tài)博弈指的是博弈中,參與人同時選擇和動態(tài)博弈。靜態(tài)博弈指的是博弈中,參與人同時選擇行動或雖非同時但后行動者并不知道先行動者采取了什行動或雖非同時但后行動者并不知道先行動者采取了什么具體行動;動態(tài)博弈指的是參與人的行動有先后順序么具體行動;動態(tài)博弈指的是參與人的行動有先后順序,且后行動者能夠觀察到先行動者所選擇的行動。,且后行動者能夠觀察到先行動者所選擇的行動。博弈的分類博弈的分類根據(jù)參與人對博弈的整體環(huán)境(即自然狀況及其他參與人的特征根據(jù)參與人對博弈的整體環(huán)境(即自然狀況及其他參與人的特征、偏好和策略)是否有全面而準(zhǔn)

25、確的知識,博弈可劃分為完全信、偏好和策略)是否有全面而準(zhǔn)確的知識,博弈可劃分為完全信息博弈和不完全信息博弈。完全信息指的是每一個參與人對所有息博弈和不完全信息博弈。完全信息指的是每一個參與人對所有其他參與人(對手)的特征、策略空間及支付函數(shù)有全面而準(zhǔn)確其他參與人(對手)的特征、策略空間及支付函數(shù)有全面而準(zhǔn)確的知識;否則,就是不完全信息。的知識;否則,就是不完全信息。 行動順序行動順序信息信息 靜靜 態(tài)態(tài) 動動 態(tài)態(tài) 完全信息完全信息 完全信息靜態(tài)博弈;完全信息靜態(tài)博弈; 納什均衡;納什均衡; 納什(納什(19501950,19511951) 完全信息動態(tài)博弈;完全信息動態(tài)博弈; 子博弈精煉納什

26、均衡;子博弈精煉納什均衡; 澤爾騰(澤爾騰(19651965)不完全信息不完全信息 不完全信息靜態(tài)博弈;不完全信息靜態(tài)博弈; 貝葉斯納什均衡;貝葉斯納什均衡; 哈薩尼(哈薩尼(1967-19681967-1968) 不完全信息動態(tài)博弈;不完全信息動態(tài)博弈; 精煉貝葉斯納什均衡;精煉貝葉斯納什均衡; 澤爾騰(澤爾騰(19751975),), Kreps Kreps和和WilsonWilson(19821982),),F(xiàn)udenbergFudenberg和和TiroleTirole(19911991)博弈的分類博弈的分類 博弈論的討論基于兩條:博弈論的討論基于兩條:參與人都是理性參與人都是理性的,

27、他的目標(biāo)非常明確,就是使自己的效用達(dá)到的,他的目標(biāo)非常明確,就是使自己的效用達(dá)到最大;博弈論中的例子是簡單而很不實(shí)際的,最大;博弈論中的例子是簡單而很不實(shí)際的,但是它比一些具體實(shí)際的復(fù)雜的例子更能揭示實(shí)但是它比一些具體實(shí)際的復(fù)雜的例子更能揭示實(shí)質(zhì),使得很多人即使不去學(xué)習(xí)博弈論的理論,也質(zhì),使得很多人即使不去學(xué)習(xí)博弈論的理論,也能理解這些例子中提出的問題和分析的方法,這能理解這些例子中提出的問題和分析的方法,這是有指導(dǎo)意義的是有指導(dǎo)意義的。所以我們在學(xué)習(xí)博弈論的知識。所以我們在學(xué)習(xí)博弈論的知識時,要注意這些簡單而典型的例子,學(xué)習(xí)分析問時,要注意這些簡單而典型的例子,學(xué)習(xí)分析問題,提出概念,解決問

28、題的過程。題,提出概念,解決問題的過程。三、博弈論的經(jīng)典模型三、博弈論的經(jīng)典模型博弈的分類博弈的分類 乙乙 坦白坦白 抵賴抵賴 坦白坦白 甲甲 抵賴抵賴 有兩個人因?yàn)樯嫦臃缸锒徊?,被警方分別關(guān)在兩個房間內(nèi)審訊。有兩個人因?yàn)樯嫦臃缸锒徊?,被警方分別關(guān)在兩個房間內(nèi)審訊。他們面臨的情況是:如果兩個人都坦白罪行,那么將各被判處六年有他們面臨的情況是:如果兩個人都坦白罪行,那么將各被判處六年有期徒刑;如果一方坦白另一方抵賴,那么坦白者從寬,判處一年徒刑,期徒刑;如果一方坦白另一方抵賴,那么坦白者從寬,判處一年徒刑,抗拒者從嚴(yán),判處八年徒刑;如果兩個人均抵賴,則各被判處兩年徒抗拒者從嚴(yán),判處八年徒刑;

29、如果兩個人均抵賴,則各被判處兩年徒刑。刑。 這樣,兩個囚徒面臨的博弈格局如上圖所示,每個格子中左邊的這樣,兩個囚徒面臨的博弈格局如上圖所示,每個格子中左邊的數(shù)字是甲的支付(盈利或得益),右邊是乙的支付(盈利或得益)。數(shù)字是甲的支付(盈利或得益),右邊是乙的支付(盈利或得益)。1.1.囚徒困境囚徒困境(the prisoners dilemma)-6,-6-1,-8-8,-1-2,-2博弈的分類博弈的分類劃線法劃線法解囚徒困境解囚徒困境 乙乙 坦白坦白 抵賴抵賴 坦白坦白 甲甲 抵賴抵賴 (坦白,坦白):(坦白,坦白): 嚴(yán)格優(yōu)勢策略嚴(yán)格優(yōu)勢策略(抵賴,抵賴):(抵賴,抵賴): 嚴(yán)格劣勢策略嚴(yán)格

30、劣勢策略 實(shí)例思考:實(shí)例思考: 價格大戰(zhàn)、廣告大戰(zhàn)、優(yōu)惠大戰(zhàn)價格大戰(zhàn)、廣告大戰(zhàn)、優(yōu)惠大戰(zhàn) 合作:合作: “ “雙贏對局雙贏對局”1.1.囚徒困境囚徒困境(the prisoners dilemma)-6,-6-1,-8-8,-1-2,-2博弈的分類博弈的分類可口可樂可口可樂與與百事可樂百事可樂的的價格大戰(zhàn)價格大戰(zhàn) (單位:億美元)(單位:億美元) 百事可樂百事可樂 低價低價 高價高價 低價低價 可口可樂可口可樂 高價高價(低價,低價):(低價,低價): 嚴(yán)格優(yōu)勢策略嚴(yán)格優(yōu)勢策略(高價,高價):(高價,高價): 嚴(yán)格劣勢策略嚴(yán)格劣勢策略多數(shù)情形是非合作博弈多數(shù)情形是非合作博弈 卡特爾卡特爾 幾個

31、大企業(yè)聯(lián)手或勾結(jié)形成對行業(yè)的壟幾個大企業(yè)聯(lián)手或勾結(jié)形成對行業(yè)的壟斷,謀求最大利潤而結(jié)成的聯(lián)盟。斷,謀求最大利潤而結(jié)成的聯(lián)盟。 卡特爾不穩(wěn)定卡特爾不穩(wěn)定。 OPECOPEC石油輸出國組織石油輸出國組織 1.1.囚徒困境囚徒困境(the prisoners dilemma)-3,-30,-5-5,0-1,-1博弈的分類博弈的分類箭頭法箭頭法解囚徒困境解囚徒困境 乙乙 坦白坦白 抵賴抵賴 坦白坦白 甲甲 抵賴抵賴1.1.囚徒困境囚徒困境(the prisoners dilemma)-6,-6-1,-8-8,-1-2,-2博弈的分類博弈的分類 納什均衡狀態(tài)是市場力量相互作用的穩(wěn)定的結(jié)局。納什均衡狀態(tài)是

32、市場力量相互作用的穩(wěn)定的結(jié)局。 A A B B 0 1 雜貨鋪定位雜貨鋪定位:設(shè)想有一個小居民點(diǎn),居民住宅沿著一條公路均勻:設(shè)想有一個小居民點(diǎn),居民住宅沿著一條公路均勻地排開。現(xiàn)在有兩家雜貨鋪要在這個小居民點(diǎn)開張,他們賣一樣的東地排開。現(xiàn)在有兩家雜貨鋪要在這個小居民點(diǎn)開張,他們賣一樣的東西,價格也完全一樣。那么,兩家雜貨店開在什么地方好呢?西,價格也完全一樣。那么,兩家雜貨店開在什么地方好呢? 商品一樣,價格也一樣,居民到哪個雜貨鋪買東西,就看哪個雜商品一樣,價格也一樣,居民到哪個雜貨鋪買東西,就看哪個雜貨鋪離自己比較近。在雜貨鋪定位的博弈中,地盤就是市場份額,地貨鋪離自己比較近。在雜貨鋪定位

33、的博弈中,地盤就是市場份額,地盤就是經(jīng)濟(jì)利益。兩個雜貨鋪在市場競爭的位置博弈中,位于左邊的盤就是經(jīng)濟(jì)利益。兩個雜貨鋪在市場競爭的位置博弈中,位于左邊的要向右靠,位于右邊的要向左擠,最后的結(jié)局,是兩家雜貨鋪緊挨著要向右靠,位于右邊的要向左擠,最后的結(jié)局,是兩家雜貨鋪緊挨著位于中點(diǎn)位于中點(diǎn)1/21/2的位置。這就是納什均衡的位置。因?yàn)檎l要是單獨(dú)移開的位置。這就是納什均衡的位置。因?yàn)檎l要是單獨(dú)移開“一點(diǎn)一點(diǎn)”,他就會喪失,他就會喪失“半點(diǎn)半點(diǎn)”市場份額。所以誰都不想偏離中點(diǎn)的位市場份額。所以誰都不想偏離中點(diǎn)的位置。置。2.2.雜貨鋪定位博弈雜貨鋪定位博弈博弈的分類博弈的分類 海灘占位海灘占位:據(jù)說西

34、方發(fā)達(dá)國家的不少男男女女有日光浴的愛好,因?yàn)樗欣簱?jù)說西方發(fā)達(dá)國家的不少男男女女有日光浴的愛好,因?yàn)樗欣谏眢w健康。現(xiàn)在設(shè)想較長的海灘上比較均勻地散步著許多日光浴者。太陽的照于身體健康?,F(xiàn)在設(shè)想較長的海灘上比較均勻地散步著許多日光浴者。太陽的照射使人們需要補(bǔ)充水分。假如有射使人們需要補(bǔ)充水分。假如有A A與與B B兩個小販來到海灘,以同樣的價格、相同的兩個小販來到海灘,以同樣的價格、相同的質(zhì)量向日光浴者提供同一品牌的礦泉水(或啤酒)。在直線狀的海灘上他們應(yīng)當(dāng)質(zhì)量向日光浴者提供同一品牌的礦泉水(或啤酒)。在直線狀的海灘上他們應(yīng)當(dāng)如何合理地安置自己的攤位呢?如何合理地安置自己的攤位呢? 思考思

35、考:在社會經(jīng)濟(jì)領(lǐng)域內(nèi),有不少現(xiàn)象與上述雜貨鋪定位、海灘占位有著相:在社會經(jīng)濟(jì)領(lǐng)域內(nèi),有不少現(xiàn)象與上述雜貨鋪定位、海灘占位有著相似之處,從某種意義上也可以用同樣的邏輯進(jìn)行分析和闡述。似之處,從某種意義上也可以用同樣的邏輯進(jìn)行分析和闡述。 超市在商業(yè)街的布局問題超市在商業(yè)街的布局問題。如果地段的繁華等其他原因可以認(rèn)為相同的話。如果地段的繁華等其他原因可以認(rèn)為相同的話,那么,只要條件許可,超市的幾乎相依為鄰現(xiàn)象完全可以看作公正的市場競爭,那么,只要條件許可,超市的幾乎相依為鄰現(xiàn)象完全可以看作公正的市場競爭的合理結(jié)果。的合理結(jié)果。 同城航空公司航班起飛時刻確定問題同城航空公司航班起飛時刻確定問題。同一

36、城市的兩家航空公司開辟飛往。同一城市的兩家航空公司開辟飛往同一目的地的航班,常出現(xiàn)他們各自的起飛時刻被安排在幾乎同一時間的現(xiàn)象。同一目的地的航班,常出現(xiàn)他們各自的起飛時刻被安排在幾乎同一時間的現(xiàn)象。 電視臺對節(jié)目的編排問題電視臺對節(jié)目的編排問題。人們對電視節(jié)目的喜愛存在著一定的檔次差異。人們對電視節(jié)目的喜愛存在著一定的檔次差異,因此電視臺對節(jié)目的編排將直接影響到收視率。設(shè)想如果將高雅藝術(shù)節(jié)目與較,因此電視臺對節(jié)目的編排將直接影響到收視率。設(shè)想如果將高雅藝術(shù)節(jié)目與較低檔趣味的節(jié)目比作海灘的兩端,那么觀賞電視節(jié)目的觀眾就相當(dāng)于散步在海灘低檔趣味的節(jié)目比作海灘的兩端,那么觀賞電視節(jié)目的觀眾就相當(dāng)于散

37、步在海灘上的日光浴者。因此不少電視臺常將黃金播放時段的文藝節(jié)目定位于中等趣味以上的日光浴者。因此不少電視臺常將黃金播放時段的文藝節(jié)目定位于中等趣味以提高自己的收視率。此外,各電視臺中一些內(nèi)容雖然不同但情調(diào)卻差不多的娛樂提高自己的收視率。此外,各電視臺中一些內(nèi)容雖然不同但情調(diào)卻差不多的娛樂節(jié)目,常在播放時間上撞車。節(jié)目,常在播放時間上撞車。 海灘占位問題在政治學(xué)中也可以找到類似的案例海灘占位問題在政治學(xué)中也可以找到類似的案例。2.2.雜貨鋪定位博弈雜貨鋪定位博弈博弈的分類博弈的分類 女方女方 足球足球 芭蕾芭蕾 足球足球 男方男方 芭蕾芭蕾 情侶博弈與經(jīng)濟(jì)決策的關(guān)系情侶博弈與經(jīng)濟(jì)決策的關(guān)系 兩個

38、相鄰的企業(yè)都要解決各自的供水問題。如果他們各干各的,成本就會兩個相鄰的企業(yè)都要解決各自的供水問題。如果他們各干各的,成本就會比較高,效益就沒有那么好。如果兩個企業(yè)聯(lián)合起來一起投資建設(shè)共用的供水比較高,效益就沒有那么好。如果兩個企業(yè)聯(lián)合起來一起投資建設(shè)共用的供水系統(tǒng),效益就會比較好。但是在選定合作方案的時候,由于各種因素,在攜手系統(tǒng),效益就會比較好。但是在選定合作方案的時候,由于各種因素,在攜手合作的大前提下,還是可能有小算盤的考慮。你想這樣,他想那樣,這也是人合作的大前提下,還是可能有小算盤的考慮。你想這樣,他想那樣,這也是人之常情。這種合作比不合作好,但是在合作的大局下面又不免有小算盤、不免

39、之常情。這種合作比不合作好,但是在合作的大局下面又不免有小算盤、不免打小九九的對局,這就是情侶博弈。打小九九的對局,這就是情侶博弈。3.3.情侶博弈情侶博弈(Battle of sexes)2,10,0-1,-11,2博弈的分類博弈的分類 乙乙 獵鹿獵鹿 打兔打兔 獵鹿獵鹿 甲甲 打兔打兔 4 4只兔子管只兔子管4 4天,天,1 1只鹿各管只鹿各管1010天。天。 經(jīng)濟(jì)體制改革:經(jīng)濟(jì)體制改革: 蘇歐蘇歐“振蕩療法振蕩療法”或或“休克療法休克療法”,一步到位,社會損失大;中國,一步到位,社會損失大;中國“漸進(jìn)式改革漸進(jìn)式改革”、“摸著石頭過河摸著石頭過河”,社會損失小,社會損失小, 體制外體制外

40、 體制內(nèi)體制內(nèi)4.4.獵人博弈和帕累托優(yōu)勢獵人博弈和帕累托優(yōu)勢10,100,44,04,4博弈的分類博弈的分類 B B雞雞 進(jìn)進(jìn) 退退 進(jìn)進(jìn) A A雞雞 退退 兩只雞兩只雞A A和和B B過獨(dú)木橋,雙方都可以選擇進(jìn)退,如果雙方過獨(dú)木橋,雙方都可以選擇進(jìn)退,如果雙方都選擇進(jìn),則雙方就都成了落湯雞。如果一進(jìn)一退,則有一都選擇進(jìn),則雙方就都成了落湯雞。如果一進(jìn)一退,則有一方可以過橋,另一方收益為方可以過橋,另一方收益為0 0。各自的收益如上圖所示。各自的收益如上圖所示。 在這個博弈問題中,一進(jìn)一退是博弈的格局。在這個博弈問題中,一進(jìn)一退是博弈的格局。 5.5.斗雞博弈斗雞博弈-3,-32,00,20

41、,0博弈的分類博弈的分類 小豬小豬 按按 等等 按按 大豬大豬 等等 豬圈里有一大一小兩頭豬,豬圈的一端有一個豬食槽,另一端安裝豬圈里有一大一小兩頭豬,豬圈的一端有一個豬食槽,另一端安裝了一個控制豬食供應(yīng)的按鈕。按一下按鈕會有了一個控制豬食供應(yīng)的按鈕。按一下按鈕會有1010個單位的豬食進(jìn)槽,但個單位的豬食進(jìn)槽,但誰按按鈕誰就需付出相當(dāng)于誰按按鈕誰就需付出相當(dāng)于2 2個單位豬食的成本。個單位豬食的成本。 大豬先到:大豬先到: 大豬吃大豬吃9 9個,小豬吃個,小豬吃1 1個個 同時到:同時到: 大豬吃大豬吃7 7個,小豬吃個,小豬吃3 3個個 小豬先到:小豬先到: 大豬吃大豬吃6 6個,小豬吃個,

42、小豬吃4 4個個6.6.智豬博弈和搭便車行為智豬博弈和搭便車行為5,14,49,-10,0博弈的分類博弈的分類 乙乙 受賄受賄 不受賄不受賄 受賄受賄 甲甲 不受賄不受賄 實(shí)際上許多博弈問題就存在多個實(shí)際上許多博弈問題就存在多個Nash均衡解,這為預(yù)均衡解,這為預(yù)測帶來困難,引起測帶來困難,引起Nash均衡解的精煉問題。均衡解的精煉問題。 并且不是任何問題都有純策略并且不是任何問題都有純策略Nash均衡解。均衡解。7.7.串謀博弈和高薪養(yǎng)廉串謀博弈和高薪養(yǎng)廉9,90,88,07,7博弈的分類博弈的分類 守衛(wèi)守衛(wèi) 睡睡 不睡不睡 偷偷 小偷小偷 不偷不偷 一小偷欲偷竊有一守衛(wèi)看守的倉庫,如果小偷

43、去偷竊時守衛(wèi)在睡一小偷欲偷竊有一守衛(wèi)看守的倉庫,如果小偷去偷竊時守衛(wèi)在睡覺,則小偷就能得手,假設(shè)小偷得手可得價值為覺,則小偷就能得手,假設(shè)小偷得手可得價值為V V的贓物;但如果小的贓物;但如果小偷去偷竊時守衛(wèi)沒有睡覺,則小偷就要被抓住,如被抓住則要坐牢,偷去偷竊時守衛(wèi)沒有睡覺,則小偷就要被抓住,如被抓住則要坐牢,坐牢的負(fù)效用為坐牢的負(fù)效用為-P(-P(設(shè)其單位與贓物的價值相同設(shè)其單位與贓物的價值相同) ),再設(shè)守衛(wèi)睡覺而未,再設(shè)守衛(wèi)睡覺而未被偷則有被偷則有S S的正效用;睡覺遭偷則要被解雇,解雇的負(fù)效用為的正效用;睡覺遭偷則要被解雇,解雇的負(fù)效用為-D-D,其,其單位與單位與S S的單位相同。

44、如果小偷不偷,則他既無得也無失;守衛(wèi)不睡的單位相同。如果小偷不偷,則他既無得也無失;守衛(wèi)不睡則出一份力掙一份工資同樣也是既無得也無失。則出一份力掙一份工資同樣也是既無得也無失。 8.8.小偷與守衛(wèi)的博弈小偷與守衛(wèi)的博弈V,-D-P,00,S0,0圖解方法圖解方法求解求解守衛(wèi)期守衛(wèi)期 小偷期小偷期 望得益望得益 望得益望得益 (睡)(睡)S S (偷)(偷) V Pt* 小偷偷小偷偷 Pg* 守衛(wèi)睡守衛(wèi)睡 0 Pt 1 的概率的概率 0 Pg 1 的概率的概率 D -P D -P (a) (b)圖圖 小偷與守衛(wèi)的混合策略小偷與守衛(wèi)的混合策略8.8.小偷與守衛(wèi)的博弈小偷與守衛(wèi)的博弈代數(shù)方法代數(shù)方法

45、求解求解 設(shè)小偷選擇偷的概率為設(shè)小偷選擇偷的概率為p pt t,則選擇不偷的概率為,則選擇不偷的概率為1-P1-Pt t,那么守衛(wèi),那么守衛(wèi)選擇睡覺的期望支付為選擇睡覺的期望支付為E E睡睡=(-D)=(-D)P Pt tS S(1-P(1-Pt t)=S-()=S-(D+S)D+S)P Pt t 守衛(wèi)選擇不睡覺的期望支付為守衛(wèi)選擇不睡覺的期望支付為E E不睡不睡=0=0P Pt t0 0(1-P(1-Pt t)=0)=0 要達(dá)到一種均衡狀態(tài),小偷選擇偷與不偷不能讓守衛(wèi)在選擇睡覺要達(dá)到一種均衡狀態(tài),小偷選擇偷與不偷不能讓守衛(wèi)在選擇睡覺與不睡覺之間有明顯的傾向性。因此,必然有與不睡覺之間有明顯的

46、傾向性。因此,必然有E E睡睡= E= E不睡不睡于是可求得于是可求得 當(dāng)當(dāng)D D不變,而不變,而S S增加時,增加時,P Pt t會增加;而當(dāng)會增加;而當(dāng)S S不變,增加不變,增加D D時,時,P Pt t會降會降低。由此可見,加重對失職守衛(wèi)的懲罰,在長期中會起到抑制盜竊的低。由此可見,加重對失職守衛(wèi)的懲罰,在長期中會起到抑制盜竊的作用;當(dāng)對守衛(wèi)實(shí)施的懲罰不變,而提高其待遇,意味著作用;當(dāng)對守衛(wèi)實(shí)施的懲罰不變,而提高其待遇,意味著S S的增加,的增加,反而會使盜竊現(xiàn)象更為嚴(yán)重(反而會使盜竊現(xiàn)象更為嚴(yán)重(P Pt t增加)。增加)。8.8.小偷與守衛(wèi)的博弈小偷與守衛(wèi)的博弈tSpSD 設(shè)守衛(wèi)選擇

47、睡的概率為設(shè)守衛(wèi)選擇睡的概率為p pg g,則選擇不睡的概率為,則選擇不睡的概率為1-p1-pg g,那么小偷選,那么小偷選擇偷的期望支付為擇偷的期望支付為 小偷選擇不偷的期望支付為小偷選擇不偷的期望支付為 要達(dá)到一種均衡狀態(tài),守衛(wèi)選擇睡與不睡不能讓小偷在選擇偷與不要達(dá)到一種均衡狀態(tài),守衛(wèi)選擇睡與不睡不能讓小偷在選擇偷與不偷之間有明顯的傾向性。因此,必然有偷之間有明顯的傾向性。因此,必然有于是可求得于是可求得 當(dāng)當(dāng)V V不變,而不變,而P P增加時,增加時,p pg g會增加,由此可見,加重對小偷的懲罰雖會增加,由此可見,加重對小偷的懲罰雖然在短期中能抑制盜竊,但在長期中卻只能使守衛(wèi)多睡覺(然

48、在短期中能抑制盜竊,但在長期中卻只能使守衛(wèi)多睡覺(p pg g增加),增加),盜竊的情況卻不會有什么改善,反而,由于守衛(wèi)選擇睡覺的概率增加了盜竊的情況卻不會有什么改善,反而,由于守衛(wèi)選擇睡覺的概率增加了,小偷選擇偷的概率會增加,長期來看盜竊現(xiàn)象甚至?xí)鼮閲?yán)重。,小偷選擇偷的概率會增加,長期來看盜竊現(xiàn)象甚至?xí)鼮閲?yán)重。 8.8.小偷與守衛(wèi)的博弈小偷與守衛(wèi)的博弈gPpVPEE偷不偷() (1)()gggEVpPpVPpP 偷00 (1)0ggEpp 不睡 蜈蚣博弈模型是蜈蚣博弈模型是RosenthsalRosenthsal在在19811981年提出的,它是動態(tài)年提出的,它是動態(tài)博弈的例子,其模型稱

49、為擴(kuò)展型博弈模型,是用樹來對博弈博弈的例子,其模型稱為擴(kuò)展型博弈模型,是用樹來對博弈過程做結(jié)構(gòu)化處理。過程做結(jié)構(gòu)化處理。 A A A A A A A A A A A A (100,100)(100,100) D D D D D DD D D D D D (1,1) (0,3) (98,98) (97,100)(99,99) (98,101)(1,1) (0,3) (98,98) (97,100)(99,99) (98,101) 這個博弈的結(jié)果是(這個博弈的結(jié)果是(1 1,1 1)。)。 求解過程要用到逆向歸納法,即從動態(tài)博弈的最后一個求解過程要用到逆向歸納法,即從動態(tài)博弈的最后一個階段博弈方的

50、行為開始分析,逐步倒推回前一個階段相應(yīng)博階段博弈方的行為開始分析,逐步倒推回前一個階段相應(yīng)博弈方的行為選擇,一直到第一個階段的分析方法。弈方的行為選擇,一直到第一個階段的分析方法。9.9.蜈蚣博弈蜈蚣博弈1.1.重復(fù)剔除嚴(yán)格劣勢策略法重復(fù)剔除嚴(yán)格劣勢策略法 下面用一個例子說明重復(fù)剔除嚴(yán)格劣勢策略的求解方法。下面用一個例子說明重復(fù)剔除嚴(yán)格劣勢策略的求解方法。 博弈方博弈方 左左 中中 右右 上上 博弈方博弈方 下下 首先由上表可知,博弈方首先由上表可知,博弈方與與都沒有優(yōu)勢策略,所以不存在優(yōu)都沒有優(yōu)勢策略,所以不存在優(yōu)勢策略均衡解。從博弈方勢策略均衡解。從博弈方來看,其上下策略中沒有哪一個是嚴(yán)格

51、劣來看,其上下策略中沒有哪一個是嚴(yán)格劣勢策略,但從博弈方勢策略,但從博弈方來看,右策略嚴(yán)格劣于中策略,故可將右策略來看,右策略嚴(yán)格劣于中策略,故可將右策略剔除。這時就簡化為下表表示的博弈。剔除。這時就簡化為下表表示的博弈。四、四、NashNash均衡解的求解方法均衡解的求解方法1,01,30,10,40,22,0博弈方博弈方 左左 中中 上上 博弈方博弈方 下下 觀察上表的博弈又可發(fā)現(xiàn),觀察上表的博弈又可發(fā)現(xiàn),“下下”是博弈方是博弈方的嚴(yán)格劣勢策略,的嚴(yán)格劣勢策略,因此下策略可剔除,這樣又可得表如下。因此下策略可剔除,這樣又可得表如下。 博弈方博弈方2 2 左左 中中 博弈方博弈方1 1 上上

52、 觀察上表又發(fā)現(xiàn),左是博弈方觀察上表又發(fā)現(xiàn),左是博弈方的嚴(yán)格劣勢策略,剔除左策略就的嚴(yán)格劣勢策略,剔除左策略就得博弈的均衡解(上,中)。得博弈的均衡解(上,中)。純策略純策略NashNash均衡解的求解方法均衡解的求解方法1,01,30,40,21.01,3 數(shù)學(xué)上已經(jīng)證明,在數(shù)學(xué)上已經(jīng)證明,在n n人博弈人博弈G=SG=S1 1, ,S Sn n;u;u1 1,u,un n 中中,重復(fù)剔除嚴(yán)格劣勢策略最后若只剩下唯一的策略對,則此,重復(fù)剔除嚴(yán)格劣勢策略最后若只剩下唯一的策略對,則此策略對一定是純策略對一定是純NashNash均衡解;而且重復(fù)剔除嚴(yán)格劣勢策略不均衡解;而且重復(fù)剔除嚴(yán)格劣勢策略不

53、會消去會消去NashNash均衡解。由此可見,在求均衡解。由此可見,在求NashNash均衡解前,先用重均衡解前,先用重復(fù)剔除嚴(yán)格劣勢策略法,即使常常不能求出復(fù)剔除嚴(yán)格劣勢策略法,即使常常不能求出NashNash均衡解,也均衡解,也可能簡化博弈問題??赡芎喕┺膯栴}。 重復(fù)剔除嚴(yán)格劣勢策略與純策略重復(fù)剔除嚴(yán)格劣勢策略與純策略NashNash均衡解的關(guān)系均衡解的關(guān)系 2.2.劃線法劃線法 下面用同一個例子來介紹求解純策略下面用同一個例子來介紹求解純策略NashNash均衡解的劃線法。均衡解的劃線法。 博弈方博弈方 左左 中中 右右 上上 博弈方博弈方 下下 博弈方博弈方考慮,若考慮,若方取左策略

54、,自己的最大收益為方取左策略,自己的最大收益為1 1,故在,故在1 1下面劃一條下面劃一條短線;若短線;若方取中策略,自己的最大收益也為方取中策略,自己的最大收益也為1 1,故在第二列數(shù)字,故在第二列數(shù)字1 1下面劃一條下面劃一條短線;若短線;若方取右策略,自己的最大收益為方取右策略,自己的最大收益為2 2,故在,故在2 2下面劃一條短線。博弈方下面劃一條短線。博弈方也作同樣考慮,給數(shù)字也作同樣考慮,給數(shù)字3 3、數(shù)字、數(shù)字4 4下面都劃了短線。最后數(shù)對下面都劃了短線。最后數(shù)對1 1,3 3下面都有短下面都有短劃線,對應(yīng)的策略對為(上,中),這樣劃線法就求得此博弈的解。劃線,對應(yīng)的策略對為(上

55、,中),這樣劃線法就求得此博弈的解。 劃線法的思路是,每個博弈方找出在其他博弈方每一個策略或策略組合下劃線法的思路是,每個博弈方找出在其他博弈方每一個策略或策略組合下的自己的最佳收益并劃一條線,那么若某組數(shù)都被劃線,就意味著這組數(shù)中的的自己的最佳收益并劃一條線,那么若某組數(shù)都被劃線,就意味著這組數(shù)中的每一個都是在別人策略固定時自己的最佳收益,因此誰也不愿意單方面改變自每一個都是在別人策略固定時自己的最佳收益,因此誰也不愿意單方面改變自己的與此最佳收益對應(yīng)的策略,根據(jù)己的與此最佳收益對應(yīng)的策略,根據(jù)NashNash均衡解的定義,這時的策略組合就是均衡解的定義,這時的策略組合就是NashNash均

56、衡解。均衡解。劃線法劃線法1,01,30,10,40,22,0 3.3.反應(yīng)函數(shù)法反應(yīng)函數(shù)法 實(shí)際上實(shí)際上NashNash均衡解的概念也可推廣到連續(xù)策略、無限策略的博弈中。這時均衡解的概念也可推廣到連續(xù)策略、無限策略的博弈中。這時常常用反應(yīng)函數(shù)法來求常常用反應(yīng)函數(shù)法來求NashNash均衡解。均衡解。 反應(yīng)函數(shù)即一博弈方對另一博弈方每一可能策略的最佳反應(yīng)策略所構(gòu)成的反應(yīng)函數(shù)即一博弈方對另一博弈方每一可能策略的最佳反應(yīng)策略所構(gòu)成的函數(shù)。函數(shù)。 例例 設(shè)博弈雙方的策略變量分別為設(shè)博弈雙方的策略變量分別為q q1 1及及q q2 2,q q1 1及及q q2 2都在區(qū)間都在區(qū)間(0(0,20)20)

57、取值,取值,雙方同時選擇策略。雙方同時選擇策略。 博弈方博弈方1 1與與2 2的收益函數(shù)分別為的收益函數(shù)分別為u u1 1,u u2 2且且u u1 1=6q=6q1 1-q-q1 1q q2 2-q-q1 12 2u u2 2=6q=6q2 2-q-q1 1q q2 2-q-q2 22 2 博弈方博弈方1 1針對博弈方針對博弈方2 2的任一策略的任一策略q q2 2的策略選擇是求最大化問題的策略選擇是求最大化問題Max uMax u1 1=max(6q=max(6q1 1-q-q1 1q q2 2-q-q1 12 2) ) q q1 1令令u u1 1對對q q1 1的導(dǎo)數(shù)等于零,可得的導(dǎo)數(shù)

58、等于零,可得q q1 1=R=R1 1(q(q2 2)=1/2(6-q)=1/2(6-q2 2) )這就是博弈方這就是博弈方1 1對博弈方對博弈方2 2任一策略任一策略q q2 2的最佳反應(yīng),即是其反應(yīng)函數(shù)。的最佳反應(yīng),即是其反應(yīng)函數(shù)。 同樣,博弈方同樣,博弈方2 2針對博弈方針對博弈方1 1的任一策略的任一策略q q1 1的策略選擇是求解最大化問題的策略選擇是求解最大化問題Max uMax u2 2=max(6q=max(6q2 2-q-q1 1q q2 2-q-q2 22 2) ) q q2 2博弈方博弈方2 2對博弈方對博弈方1 1任一策略任一策略q q1 1的最佳反應(yīng),即反應(yīng)函數(shù)為的最

59、佳反應(yīng),即反應(yīng)函數(shù)為q q2 2=R=R2 2(q(q1 1)=1/2(6-q)=1/2(6-q1 1) ) 顯然可用坐標(biāo)平面的兩條直線表示這兩條反應(yīng)函數(shù),如圖所示。顯然可用坐標(biāo)平面的兩條直線表示這兩條反應(yīng)函數(shù),如圖所示。 反應(yīng)函數(shù)法反應(yīng)函數(shù)法 q q2 2 (0,6) (0,6) R R1 1(q(q2 2) ) (0,3) (0,3) (2,2) (2,2) 2 R 2 R2 2(q(q1 1) ) 0 2 (6,0) 0 2 (6,0) 如圖可得這兩條反應(yīng)函數(shù)直線的交點(diǎn)為如圖可得這兩條反應(yīng)函數(shù)直線的交點(diǎn)為(2(2,2)2),(2(2,2)2)即為即為NashNash均衡解均衡解,因?yàn)檫@是

60、博弈雙方共同的最佳反應(yīng)點(diǎn),因而誰也不愿意單方面離開這,因?yàn)檫@是博弈雙方共同的最佳反應(yīng)點(diǎn),因而誰也不愿意單方面離開這一點(diǎn)。當(dāng)然用求解方程組的方法也可求出此問題的一點(diǎn)。當(dāng)然用求解方程組的方法也可求出此問題的NashNash均衡解。均衡解。反應(yīng)函數(shù)法反應(yīng)函數(shù)法 在沒有純策略在沒有純策略NashNash均衡解時,可以尋找混合策略均衡解時,可以尋找混合策略NashNash均衡解。均衡解。 定義定義:對策略式博弈:對策略式博弈G=SG=S1 1,S,Sn n;u;u1 1,u,un n ,假設(shè)博弈方,假設(shè)博弈方i i的策略的策略集合為集合為S Si i=s=si1i1,s sikik ,p pikik表示

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論