博弈理論知識(shí)講義_第1頁(yè)
博弈理論知識(shí)講義_第2頁(yè)
博弈理論知識(shí)講義_第3頁(yè)
博弈理論知識(shí)講義_第4頁(yè)
博弈理論知識(shí)講義_第5頁(yè)
已閱讀5頁(yè),還剩93頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第八章 博弈論前面章節(jié)對(duì)經(jīng)濟(jì)人最優(yōu)決策的討論,是在簡(jiǎn)單環(huán)境下進(jìn)行的,沒有考慮經(jīng)濟(jì)人之間決策相互影響的問題。本章討論這個(gè)問題,建立復(fù)雜環(huán)境下的決策理論。開展這種研究的的理論叫做博弈論,也稱為對(duì)策論(Game Theory)。最近十幾年來,博弈論在經(jīng)濟(jì)學(xué)中得到了廣泛應(yīng)用,在揭示經(jīng)濟(jì)行為相互制約性質(zhì)方面取得了重大進(jìn)展。大部分經(jīng)濟(jì)行為都可視作博弈的特殊情況,比如把經(jīng)濟(jì)系統(tǒng)看成是一種博弈,把競(jìng)爭(zhēng)均衡看成是該博弈的古諾-納什均衡。博弈論的思想精髓與方法,已成為經(jīng)濟(jì)分析基礎(chǔ)的必要組成部分。第一節(jié) 博弈事例博弈是一種日?,F(xiàn)象,例如棋手下棋,雙方都要根據(jù)對(duì)方的行動(dòng)來決定自己的行動(dòng),雙方的目的都是要戰(zhàn)勝對(duì)方,互不

2、相容,互相影響,互相制約。一般來講,博弈現(xiàn)象的特征表現(xiàn)為兩個(gè)或兩個(gè)以上具有利害沖突的當(dāng)事人處于一種不相容的狀態(tài)中,一方的行動(dòng)取決于對(duì)方的行動(dòng),每個(gè)當(dāng)事人的收益都取決于所有當(dāng)事人的行動(dòng)。當(dāng)所有當(dāng)事人都拿定主意作出決策時(shí),博弈的局勢(shì)就暫時(shí)確定下來。博弈論就是研究這種不相容現(xiàn)象的一種理論,并把當(dāng)事人叫做局中人(player)。博弈論推廣了標(biāo)準(zhǔn)的一人決策理論。在每個(gè)局中人的收益都依賴于其他局中人的選擇的情況下,追求收益最大化的局中人應(yīng)該如何采取行動(dòng)?顯然,為了確定出可行的策略,每個(gè)局中人都必須考慮其他局中人面臨的問題。下面來舉例說明。例1便士匹配(Matching Pennies)(二人零和博弈)設(shè)博

3、弈中有兩個(gè)局中人甲和乙,每個(gè)局中人都有一塊硬幣,并且各自獨(dú)立安排硬幣是否正面朝上。局中人的收益情況是這樣的:如果兩個(gè)局中人同時(shí)出示硬幣正面或反面,那么甲贏得元,乙輸?shù)粼?;如果一個(gè)局中人出示硬幣正面,另一個(gè)局中人出示硬幣反面,那么甲輸?shù)粼?,乙贏得元。表1: 便士匹配博弈局勢(shì)表 乙甲正面反面正面(正,正)(正,反)反面(反,正)(反,反)對(duì)于這個(gè)博弈,每個(gè)局中人可選擇的策略都有兩種:正面朝上和反面朝上,即甲和乙的策略集合都是正面,反面。當(dāng)甲和乙都作出選擇時(shí),博弈的局勢(shì)就確定了。顯然,該博弈的局勢(shì)集合是(正面,正面),(正面,反面),(反面,正面),(反面,反面),即各種可能的局勢(shì)的全體,也稱為局勢(shì)

4、表,即表1。表2: 甲和乙的收益表 乙甲正面反面正面,反面,每個(gè)局中人的收益都取決于所有局中人的決策,也就是說,局中人的收益是博弈局勢(shì)的函數(shù)。本例中,甲的收益函數(shù)為:,;乙的收益函數(shù)為:,。局中人的收益函數(shù)也可用表格或矩陣加以表示,并稱其為收益表或收益矩陣。表2中,甲的收益列在左邊,乙的收益列在右邊。該博弈的特點(diǎn)在于每個(gè)局中人的收益都是另一個(gè)局中人的付出,即甲和乙的收益之和為零,收支發(fā)生在局內(nèi),不涉及任何局外人。這種博弈就是所謂的二人零和博弈。習(xí)慣上,人們喜歡把二人博弈的第一個(gè)局中人甲叫做“列”,第二個(gè)局中人乙叫做“行”,而且總是把列的收益寫在前面(即左邊),行的收益寫在后面(即右邊)。例2囚

5、徒難題(Prisoners Delimma)(二人變和博弈)表3: 囚徒博弈局勢(shì)表乙甲合作背叛合作(合作,合作)(合作,背叛)背叛(背叛,合作)(背叛,背叛)有兩個(gè)狂徒甲和乙因共同參與了一起犯罪活動(dòng)而被囚禁收審。他們可以選擇合作,拒絕供出任何犯罪事實(shí);也可以選擇背叛,供出對(duì)方的犯罪行徑。這就是所謂的囚徒博弈,也叫做囚徒難題。博弈的局中人甲和乙都有兩種可選擇的策略:合作與背叛。囚徒博弈的意義在于它可以解釋寡頭壟斷廠商的行為,關(guān)鍵是賦予合作與背叛具體的經(jīng)濟(jì)含義。比如在雙頭壟斷的情況下,合作可以解釋為“保持索要一個(gè)高價(jià)”,背叛可解釋為“降價(jià)以爭(zhēng)奪對(duì)手的市場(chǎng)”。右表給出了囚徒博弈的局勢(shì)表。局中人可以事

6、先討論這局博弈,但實(shí)際決策必須獨(dú)立地做出。如果甲采取合作策略,不供出乙的犯罪事實(shí),那么乙就能得到3000元的收益。同樣,如果乙采取合作策略,那么甲就能得到3000元的收益??梢?,如果甲乙雙方都采取合作策略,雙方各得3000元收益。但是,審訊者用1000元獎(jiǎng)賞來鼓勵(lì)局中人采取背叛策略。這樣,只要局中人選擇背叛,他就會(huì)得到1000元鼓勵(lì),而不管另一個(gè)局中人會(huì)采取什么策略。需要注意的是,囚徒博弈中的貨幣支付來自第三方局外人,這正是囚徒博弈同便士匹配博弈的不同之處。奧曼(Aumann)1987年對(duì)囚徒博弈給出了一個(gè)特別簡(jiǎn)單的描述:每個(gè)局中人都可以對(duì)仲裁人簡(jiǎn)單地宣告“給我1000元”或“給對(duì)方3000元

7、”。表4: 甲和乙的收益表乙甲合作背叛合作3000, 3000 0, 4000背叛4000, 01000, 1000簡(jiǎn)單分析一下就會(huì)發(fā)現(xiàn),如果一個(gè)局中人采取合作策略,而另一個(gè)局中人采取背叛策略,那么采取合作策略的局中人的收益為零,而采取背叛策略的局中人的收益為4000元(3000元收益再加上1000元的背叛鼓勵(lì))。如果雙方都采取背叛策略,則雙方的收益各為1000元。表4列出了甲乙雙方的收益情況。從收益表可以看出,甲乙雙方的收益之和不為零,而且收益和是變化的。因此,囚徒博弈是一種變和博弈。直覺上看,甲和乙都應(yīng)采取合作策略(互不供出對(duì)方的犯罪事實(shí)),各得3000元收益。但從收益表可以得出這樣的結(jié)論

8、:如果一個(gè)局中人認(rèn)為另一個(gè)局中人將合作,從而他將得到3000元收益,那么他若采取背叛策略,就將總共能獲得4000元的收益;如果他認(rèn)為另一個(gè)局中人為了得到1000元鼓勵(lì)而將背叛,那么他也就只好為了自己也取得1000元鼓勵(lì)而采取背叛策略(否則,他將一無所獲)。總之,在收益最大化動(dòng)機(jī)的驅(qū)使下,局中人的最優(yōu)選擇是背叛。這樣一來,甲乙雙方都采取背叛策略,各得1000元收益;而不是都采取合作策略,各得3000元。這是一個(gè)典型的博弈悖論,問題的關(guān)鍵在于每個(gè)局中人都有背叛的鼓勵(lì),而不管其他局中人將做什么。例3古諾博弈(雙頭壟斷:產(chǎn)量較量)法國(guó)經(jīng)濟(jì)學(xué)家古諾(Cournot)于1838年以天然礦泉井為例,首次建立

9、了簡(jiǎn)單的雙頭壟斷博弈模型,其特點(diǎn)是,壟斷廠商雙方都天真地以為對(duì)方不會(huì)改變?cè)挟a(chǎn)量水平,雙方都追求各自利潤(rùn)最大化。古諾假定:有兩個(gè)天然礦泉在一起,分別為廠商甲和乙占有;兩個(gè)礦泉都為自流井,生產(chǎn)成本為零,邊際成本也為零;甲和乙面對(duì)相同的需求曲線,采用相同的價(jià)格;雙方都以為對(duì)方的產(chǎn)量水平不會(huì)改變。在這些假設(shè)前提下,甲和乙各自獨(dú)立決定自己的產(chǎn)量水平,以求利潤(rùn)最大化。設(shè)是甲乙雙方共同面臨的反需求函數(shù)。當(dāng)甲的礦泉水產(chǎn)量為,乙的產(chǎn)量為時(shí),礦泉水的市場(chǎng)價(jià)格為,甲的利潤(rùn), 乙的利潤(rùn)為。在這個(gè)博弈中,甲乙雙方的策略都表現(xiàn)為選擇產(chǎn)量水平,局中人的收益即為廠商的利潤(rùn)。當(dāng)甲的產(chǎn)量為時(shí),乙以為甲不會(huì)改變這一產(chǎn)量,而選擇一

10、個(gè)合適的產(chǎn)量水平以使自己的利潤(rùn)達(dá)到最大。同樣,當(dāng)乙的產(chǎn)量水平為時(shí),甲以為乙不會(huì)改變這一產(chǎn)量,而選擇一個(gè)合適的產(chǎn)量水平以使自己的利潤(rùn)達(dá)到最大。為了說明這個(gè)博弈的結(jié)果,假設(shè)甲乙雙方面臨的反需求函數(shù)。用表示這局博弈中甲選擇的最優(yōu)產(chǎn)量,表示乙選擇的最優(yōu)產(chǎn)量水平,則甲乙各自的收益分別為和。由于實(shí)現(xiàn)了利潤(rùn)最大化,因此解之得:當(dāng)乙的產(chǎn)量水平為時(shí),甲決定的產(chǎn)量水平為(這是甲對(duì)乙的反應(yīng)函數(shù));當(dāng)甲的產(chǎn)量水平為時(shí),乙決定的產(chǎn)量水平為(這是乙對(duì)甲的反應(yīng)函數(shù))。其中,表示礦泉水市場(chǎng)容量(即價(jià)格為零時(shí)的礦泉水需求量)。進(jìn)一步求解可得:, 即博弈的結(jié)果是雙方最終各占據(jù)礦泉市場(chǎng)的三分之一。反應(yīng)函數(shù)說明,古諾博弈中每個(gè)局中人

11、的決策(選定的產(chǎn)量水平)不但依賴于其他局中人的決策,而且與市場(chǎng)的容量有關(guān)。例4貝特蘭博弈(雙頭壟斷:價(jià)格較量)古諾博弈模型描述了雙頭壟斷廠商之間展開的產(chǎn)量較量。實(shí)際上廠商之間的產(chǎn)量較量并不如價(jià)格較量那么普遍,寡頭之間應(yīng)該有激烈的價(jià)格競(jìng)爭(zhēng)。不論市場(chǎng)價(jià)格如何,只要某一廠商降低價(jià)格,而其他競(jìng)爭(zhēng)對(duì)手保持原價(jià)格不變,那么降價(jià)廠商就能占有全部市場(chǎng)。這就是說,我們假定消費(fèi)者只從最低價(jià)格廠商那里購(gòu)買產(chǎn)品。為此,法國(guó)經(jīng)濟(jì)學(xué)家貝特蘭(Bertrand)于1883年提出了以價(jià)格為選擇策略的貝特蘭博弈模型,反對(duì)古諾關(guān)于產(chǎn)量的博弈模型。還以礦泉水為例,在貝特蘭博弈模型中各廠商都預(yù)期對(duì)手不會(huì)改變價(jià)格,從而將自己的價(jià)格確定

12、在利潤(rùn)最大化的水平之上。這就是說,貝特蘭博弈的構(gòu)建同古諾博弈相似,所不同的是貝特蘭博弈中局中人的策略是選擇價(jià)格,而古諾博弈局中人的策略是選擇產(chǎn)量水平。貝特蘭博弈中兩個(gè)局中人甲和乙也是面臨相同的市場(chǎng)需求函數(shù),不過現(xiàn)在價(jià)格是自變量,產(chǎn)量為因變量(古諾模型正好相反)。設(shè)市場(chǎng)需求函數(shù)為, 為了分析上簡(jiǎn)單起見,進(jìn)一步設(shè)(這里,,,即與古諾模型中的市場(chǎng)需求相同)。局中人的收益仍是他所獲得的利潤(rùn)。如果甲和乙不相互勾結(jié)串通,當(dāng)乙采取了價(jià)格水平時(shí),甲認(rèn)為乙不會(huì)改變這一價(jià)格水平,從而為了占領(lǐng)市場(chǎng)而要采取低于乙的價(jià)格水平的價(jià)格,于是甲的利潤(rùn)為,乙的利潤(rùn)為零;同樣,當(dāng)甲采取了價(jià)格水平時(shí),乙認(rèn)為甲不會(huì)改變這一價(jià)格水平,

13、從而為了占領(lǐng)市場(chǎng)而要采取低于甲的價(jià)格水平的價(jià)格,于是乙的利潤(rùn)為, 甲的利潤(rùn)為零。如果甲和乙相互勾結(jié)串通起來,采取相同的價(jià)格策略,即,那么甲和乙就能索要一個(gè)壟斷價(jià)格,并且每人可收取一半的壟斷利潤(rùn)。由此可見,甲和乙的利潤(rùn)函數(shù)分別為: , 如果甲和乙勾結(jié)串通,合作起來,那么雙方就能按照最大利潤(rùn)價(jià)格獲得壟斷價(jià)格,并且各得最大利潤(rùn)的一半。這里,利潤(rùn)最大化價(jià)格是按照確定的。但是,占領(lǐng)市場(chǎng)的誘惑對(duì)每個(gè)局中人都存在,只要他稍微降價(jià),他就能獲得全部市場(chǎng)。假如甲先進(jìn)入該礦泉市場(chǎng),那么甲就按照利潤(rùn)最大化價(jià)格$P_1=Q_o/(2b)$獲取最大利潤(rùn)。 繼而乙進(jìn)入這個(gè)市場(chǎng),且乙認(rèn)為甲不會(huì)改變他的價(jià)格$P_1$,于是乙為

14、了奪取市場(chǎng)而采取低于甲的價(jià)格水平的一個(gè)價(jià)格(。由于乙奪走了市場(chǎng),甲同樣又會(huì)采取低于乙的價(jià)格水平的價(jià)格,以?shī)Z回市場(chǎng)。這樣不斷往復(fù)下去,直至最后甲乙雙方都把價(jià)格水平定為零時(shí)才可達(dá)到均衡,此時(shí)雙方的收益為零,市場(chǎng)各占一半(即甲的銷售量和乙的銷售量相等,且)。這就是甲乙雙方不合作的結(jié)果,雙方都變得更差。以上分析表明:把貝特蘭博弈與古諾博弈作比較,對(duì)同一市場(chǎng)來說,由于選擇了不同的策略集合(一個(gè)以產(chǎn)量作為策略,另一個(gè)以定價(jià)作為策略),得出了不同的博弈結(jié)果,貝特蘭博弈的均衡價(jià)格、均衡產(chǎn)量和均衡利潤(rùn)都呈完全競(jìng)爭(zhēng)狀態(tài)(超額利潤(rùn)為零),而古諾博弈的結(jié)果不是這樣;再把貝特蘭博弈同囚徒難題博弈作比較,二者具有相似的結(jié)

15、構(gòu),即局中人合作會(huì)取得最好的結(jié)果,但利益的誘惑促使他們采取不合作的行動(dòng),致使雙方博弈的結(jié)局都變得更差。貝特蘭博弈也可用囚徒博以來解釋:合作是指兩個(gè)廠商的勾結(jié),背叛是指兩個(gè)廠商獨(dú)立行動(dòng),沒有勾結(jié)。合作,可以索要一個(gè)高的壟斷價(jià)格;背叛,則導(dǎo)致市場(chǎng)價(jià)格為零,雙方利潤(rùn)為零??梢姡p方合作起來,對(duì)兩個(gè)廠商都有利,似乎應(yīng)該合作。但博弈的最終結(jié)果是雙方都采取背叛策略,導(dǎo)致誰也得不到利潤(rùn)。本節(jié)所舉的這些事例說明,寡頭壟斷廠商之間展開的競(jìng)爭(zhēng)與較量完全可以用博弈加以描述和研究。實(shí)際上,經(jīng)濟(jì)學(xué)中大部分經(jīng)濟(jì)現(xiàn)象都可以作為博弈的特殊情形進(jìn)行研究,比如歷史上解決競(jìng)爭(zhēng)均衡的存在性這一經(jīng)濟(jì)學(xué)基本問題時(shí),就把經(jīng)濟(jì)系統(tǒng)看成為一局

16、博弈。為了研究博弈,必須抓住博弈現(xiàn)象的基本要素,這些要素是:局中人、策略、收益。也就是說,博弈可以用局中人集合、策略集合和收益函數(shù)加以描述。局中人從策略集合中選擇一種策略后所獲得的效用或利益,就是局中人的收益(payoffs),也叫做得失。我們假定每一個(gè)局中人都知道他自己和別人的策略集合與收益函數(shù),這就是說,每個(gè)局中人的策略集合與收益函數(shù)為所有局中人所共知。當(dāng)然,每個(gè)局中人都知道其他局中人掌握著這些信息和知識(shí)。局中人的收益不但依賴于他自己的策略選擇,而且依賴于其他局中人的策略選擇。我們?cè)偌俣總€(gè)局中人在給定的主觀信念下會(huì)選擇收益最大化的行動(dòng),并且當(dāng)新的信息根據(jù)貝葉斯規(guī)則到來時(shí),這些信息會(huì)得到修

17、正(即根據(jù)貝葉斯全概率公式從先驗(yàn)概率計(jì)算后驗(yàn)概率)。第二節(jié) 策略博弈為了能夠正確地應(yīng)用博弈論研究經(jīng)濟(jì)問題,需要對(duì)博弈加以準(zhǔn)確地描述和定義。要定義一個(gè)博弈,需要確定三件事情:一是局中人集合(set of players),一是局中人的策略集合(set of strategies),一是局中人的收益函數(shù)(payoff function)。這三件事情中,確定策略集合是至關(guān)重要的。局中人以策略決定勝負(fù),目標(biāo)是使他的收益最大化。這種以策略定勝負(fù)的博弈,稱為策略博弈(game of strategy)。正象比較古諾博弈和貝特蘭博弈時(shí)說明的問題一樣,用博弈論研究經(jīng)濟(jì)問題時(shí),對(duì)于同一經(jīng)濟(jì)現(xiàn)象,由于選擇了不同的

18、策略集合,得到的博弈結(jié)果截然不同。用表示博弈的局中人集合,表示局中人的策略集合,表示的收益函數(shù),則就表示了一個(gè)博弈。根據(jù)局中人的多少,博弈可分為二人博弈和多人博弈。根據(jù)博弈的策略集合是否有限,博弈還又可分為有限博弈和無限博弈。例如,便士匹配和囚徒難題都是有限博弈,而古諾博弈和貝特蘭博弈都是無限博弈。還可根據(jù)所有局中人的收益總和是否固定,把博弈分為常和博弈和變和博弈。常和博弈分為零和博弈(即收益總和為零的博弈)和非零和博弈。二人零和有限博弈是所有博弈中最簡(jiǎn)單、最重要的一類,通常稱為矩陣博弈。本節(jié)以二人博弈為重點(diǎn),介紹有關(guān)策略博弈的概念與理論。一策略表與收益矩陣設(shè)二人博弈的局中人是甲和乙。甲有種可

19、選策略,策略表為;乙有種可選策略,策略表為。當(dāng)甲采取策略,乙采取策略時(shí),稱為博弈的局勢(shì),集合就是局勢(shì)集合(局勢(shì)表、局勢(shì)矩陣),即每個(gè)局中人選擇自己的策略時(shí),都要考慮對(duì)手的行動(dòng)。這樣每個(gè)局中人的收益不但與自己的選擇有關(guān),而且與對(duì)手的選擇有關(guān),收益函數(shù)是定義在局勢(shì)集合上的函數(shù),這里假定了局中人的收益是可以用實(shí)數(shù)來都來計(jì)量的。用表示局中人甲的收益函數(shù),用表示局中人乙的收益函數(shù)。由于局勢(shì)集合是有限集合,收益函數(shù)和都可用矩陣加以表示,這些矩陣就稱為收益矩陣。記,,則甲和乙的收益矩陣分別為:,當(dāng)(常數(shù))時(shí),該博弈就是常和博弈。否則,就是變和博弈。局中人的策略與收益也可用收益表加以表達(dá):表1: 博弈的收益表

20、乙的策略甲的策略,一般情況下,二人博弈可表示成。但對(duì)于二人常和博弈,則可簡(jiǎn)單地表示成,其中為收益的常數(shù)和。而矩陣博弈則可更簡(jiǎn)單地表示成,或者直接用甲的收益矩陣來表示矩陣博弈。二最小最大原理局中人的目標(biāo)是選擇使自己收益最大化的策略,我們來分析局中人如何決策。假定甲乙雙方彼此了解對(duì)方的收益表。如果甲通過間諜獲悉乙采取某種策略時(shí),甲必然會(huì)采取相應(yīng)的某種策略,以求自己的收益最大,即選擇使下式成立:但是,當(dāng)甲不知道乙會(huì)采取什么策略時(shí),如果甲是一個(gè)避險(xiǎn)者,那么他必將作最壞的打算,以求取得較好的效果。首先,甲要從收益表中找出自己的每一種策略下至少可獲得的收益(即所能獲得的最小收益),即先求解,然后從這些最小

21、收益策略中選擇出收益最大的策略,即“從最小收益中選擇最大收益”。從收益矩陣來看這個(gè)決策過程,即甲首先選出自己的收益矩陣的各行的最小值,然后從這些最小值中再選出最大值:這就是求解策略博弈的最小最大原理,其合理性表現(xiàn)為:如果甲采取按照最小最大原理確定的策略,那么不論乙采取什么策略,甲都可至少得到這個(gè)最小最大收益。由此可見,最小最大原理是能夠確保局中人收益的一種原理。今后,我們把局中人甲按照最小最大原理所確定的策略,叫做甲的穩(wěn)妥策略。對(duì)于局中人乙來說,他的決策行為和決策過程同甲是一樣的,只不過乙要依賴于收益矩陣。乙決策的最小最大原理是:乙先選出收益矩陣的各列的最小值,然后從這些最小值中選出最大值:局

22、中人乙按照最小最大原理確定的策略,稱為乙的穩(wěn)妥策略。讀者可能會(huì)問:甲先找出他的收益矩陣各列的最大值,然后再?gòu)倪@些最大值中選出最小值,不也是一種很好的決策辦法嗎?其實(shí),這種決策辦法叫做最大最小法,照此辦法做出的決策,在甲不知道乙會(huì)采取什么策略的情況下不能保證甲的最大最小收益能夠達(dá)到。原因在于最大最小法需要確定出乙的每種策略下甲的最大可能的收益。假如甲按照最大最小法選出了策略, 那么當(dāng)乙采用策略時(shí),甲可得到最大最小收益。但是,若乙采用的不是策略, 而是策略,那么甲如不重新選擇他的收益矩陣第列的最大值的話,他的最大最小收益就不一定能夠達(dá)到,這正是最大最小法同最小最大原理的區(qū)別。實(shí)際中,在甲不知道乙會(huì)

23、采取什么策略的情況下選定了自己的策略以后,乙的策略才出臺(tái),為甲也獲悉了乙的這一行動(dòng)時(shí),甲很有可能來不及調(diào)整自己原定的策略,從而給甲帶來一定的損失。因此,最大最小法在保證局中人收益方面不如最小最大原理那么保險(xiǎn)。當(dāng)甲和乙的穩(wěn)妥策略都已選定時(shí),二者結(jié)合起來能否成為博弈的結(jié)果呢?答案是未必。請(qǐng)看下面二人零和博弈的事例。例1.高度不確定的博弈考慮二人博弈,甲的策略集合,乙的策略集合,甲和乙的收益矩陣和通過博弈的收益表給出(見表2)。表2: 甲和乙的收益表乙甲4,1,2,3,對(duì)于甲來說,;對(duì)于乙來說,。這說明甲的穩(wěn)妥策略是,乙的穩(wěn)妥策略是。但是,當(dāng)甲采取時(shí),乙采取的收益小于采取的收益,因而乙要改用策略。在

24、乙改用后,甲采取策略的收益小于采取的收益,因而甲也要改用策略。而當(dāng)甲改用后,乙采用的收益小于采用的收益,于是乙又要改回到;在乙改回到后,甲也要改回到收益最大的策略。這就讓我們看到:當(dāng)甲采取時(shí),乙要采用;然后甲改用,乙隨之改用;甲再改用,乙又改用,如此不斷往復(fù)下去,博弈的結(jié)局是高度不確定的。一般來講,要想一個(gè)二人博弈具有確定的結(jié)局,必須存在這樣的局勢(shì):滿足這個(gè)條件的的局勢(shì),叫做博弈的均衡或最優(yōu)解或最優(yōu)局勢(shì),其中的和分別叫做局中人甲和乙的最優(yōu)策略或均衡策略。這個(gè)條件也就叫做博弈的均衡條件。對(duì)于二人常和博弈來說,是博弈的最優(yōu)解當(dāng)且僅當(dāng)數(shù)學(xué)中,滿足這個(gè)條件的點(diǎn)叫做函數(shù)的鞍點(diǎn)。因此,是博弈的最優(yōu)解當(dāng)且僅

25、當(dāng)是收益函數(shù)的鞍點(diǎn)。下面的定理給出了鞍點(diǎn)的判別條件。鞍點(diǎn)定理是收益函數(shù)的鞍點(diǎn)的充要條件是:證明:必要性. 設(shè)是的鞍點(diǎn),即。從可知,對(duì)一切成立,這就蘊(yùn)含著,即。注意,。這就證明了。充分性設(shè)滿足。從可知;從可知。所以,即是函數(shù)的鞍點(diǎn)。既然二人常和博弈的最優(yōu)解恰好就是收益函數(shù)的鞍點(diǎn),鞍點(diǎn)定理告訴我們,當(dāng)收益函數(shù)的鞍點(diǎn)存在時(shí),利用最小最大原理確定的博弈局勢(shì)就是二人常和博弈的最優(yōu)解。但是,當(dāng)收益矩陣不存在鞍點(diǎn)時(shí),常和博弈就沒有最優(yōu)解,博弈的結(jié)局就是高度不確定的。鑒于此,我們將有鞍點(diǎn)的常和博弈稱為嚴(yán)格確定的博弈。三反應(yīng)函數(shù)博弈的局中人總是要考慮對(duì)手的行動(dòng),然后確定自己的對(duì)策。當(dāng)乙采取了某種策略,而且被甲所

26、覺察時(shí),甲必然有所反應(yīng),要確定出相應(yīng)的對(duì)策以使自己的收益在乙選擇的情況下達(dá)到最大,即要使。甲對(duì)乙的行動(dòng)的這種反應(yīng),確定了一個(gè)從乙的策略集合到甲的策略集合的映射,即對(duì)任何,甲的反應(yīng)策略是按照來確定的。這個(gè)映射就叫做甲對(duì)乙的反應(yīng)函數(shù)。同樣的道理,可以確定出乙對(duì)甲的反應(yīng)函數(shù),即對(duì)任何,是按照來確定的。利用反應(yīng)函數(shù),我們也可以解釋博弈的結(jié)局。就象古諾博弈一樣,假如甲先采取某種策略,乙通過某種途徑獲悉了甲的這一行動(dòng),并認(rèn)為甲不會(huì)改變他的策略,于是作出反應(yīng),決定采取策略,以使自己的收益最大化。當(dāng)乙采取策略時(shí),甲掌握了這一信息,并認(rèn)為乙不會(huì)改變他的策略,于是作出反應(yīng),改變?cè)瓉淼牟呗?,決定采用,以求收益最大化

27、。這時(shí),乙再次對(duì)甲的行為作出反應(yīng),采取新策略。甲也再次對(duì)乙的行動(dòng)作出反應(yīng),采取新策略。這樣的反應(yīng)不斷下去,直到最后達(dá)到且時(shí)博弈實(shí)現(xiàn)了均衡,此時(shí)的局勢(shì)就是博弈的最優(yōu)解(均衡、最優(yōu)局勢(shì))。綜上所述,博弈的結(jié)局是實(shí)現(xiàn)均衡,并且均衡由甲乙雙方的反應(yīng)函數(shù)確定,即由方程組決定。事實(shí)上,是該方程組的解當(dāng)且僅當(dāng),而這正是博弈實(shí)現(xiàn)均衡的含義。注意,以上關(guān)于反應(yīng)函數(shù)的討論,沒有要求策略集合的有限性,即集合和可以是任何集合。下面考慮二人無限博弈的一種特殊情況:策略集合和都是實(shí)數(shù)區(qū)間。比如,本章第一節(jié)例3中古諾博弈的局中人策略集合就是區(qū)間(半直線),例4中貝特蘭博弈的局中人策略集合也是半直線。假設(shè)局中人甲和乙的收益函

28、數(shù)和可微,則甲對(duì)乙的反應(yīng)函數(shù)由方程(一階條件)決定,乙對(duì)甲的反應(yīng)函數(shù)由方程(一階條件)決定,從而博弈的最優(yōu)解就是如下方程組的解:例2二人博弈的反應(yīng)函數(shù)及最優(yōu)解設(shè)二人博弈中,甲和乙的策略集合和為,收益函數(shù)和分別如下:求偏導(dǎo)數(shù)得方程組。由此可知局中人甲和乙的反應(yīng)函數(shù)分別為,博弈的最優(yōu)解為。四策略選擇的經(jīng)濟(jì)模擬第一節(jié)中曾經(jīng)指出,描述一個(gè)博弈時(shí)策略集合的選擇至關(guān)重要。比較古諾博弈和貝特蘭博弈,雖然二者的目的都是要模擬同一經(jīng)濟(jì)現(xiàn)象雙頭壟斷,但二者的結(jié)構(gòu)卻很不同。古諾博弈中廠商的策略是選擇產(chǎn)量,廠商的收益是策略變量的連續(xù)函數(shù);而貝特蘭博弈中廠商的策略是選擇價(jià)格,廠商的收益是策略變量的非連續(xù)函數(shù)。這導(dǎo)致了相

29、當(dāng)不同的均衡,究竟哪一種是正確的呢?如果抽象地看待這個(gè)問題,那么“哪一種模型正確”這樣的提問并無什么意義。要回答這個(gè)問題,就必須看模型試圖模擬什么。不要問哪一種模型是正確的,而去問策略選擇中什么樣的考慮是切入主題的,這樣的提問可能會(huì)更加有益一些。比如,如果我們觀察OPEC公司的公告,就會(huì)發(fā)現(xiàn)OPEC企圖為每一個(gè)員工決定產(chǎn)量配額,并且允許按照世界石油市場(chǎng)價(jià)格定價(jià),這樣按照產(chǎn)量水平而不是按價(jià)格水平來模擬博弈策略,就可能更加合理。在策略選擇的經(jīng)濟(jì)模擬中還有另一方面的考慮,乃就是一旦對(duì)手的行為被觀察到,那么對(duì)手的策略應(yīng)該是被承諾的或者是難以改變的。然而到目前為止,所描述的博弈是“一次性”(one-sh

30、ot)博弈,其特點(diǎn)是一旦知道對(duì)手的行動(dòng),策略變量可以很快地進(jìn)行調(diào)整。例如,假設(shè)我為我的產(chǎn)品選擇一個(gè)價(jià)格,然后發(fā)現(xiàn)我的對(duì)手制定了一個(gè)略低一些的價(jià)格,在這種情況下我可以很快地調(diào)整我的價(jià)格。因此,盡管“一次性”博弈所描述的現(xiàn)象應(yīng)該是發(fā)生在實(shí)際生活中的現(xiàn)實(shí),但在“一次性”博弈中模擬這種能夠很快調(diào)整的策略反應(yīng)并不具有多大的意義。似乎應(yīng)該使用多階段博弈,這樣才能捕獲到策略選擇行為的所有可能的內(nèi)容。另一方面,如果我們把古諾博弈中的產(chǎn)量水平解釋成為廠商的生產(chǎn)能力,那么一定產(chǎn)量的產(chǎn)品生產(chǎn)就可能是不可撤消或不可改變的資本投資。這種情況下,廠商一旦發(fā)現(xiàn)對(duì)手的產(chǎn)量水平,而要改變廠商自己的產(chǎn)量水平,則可能是難以辦到或非

31、常昂貴的。生產(chǎn)能力或產(chǎn)量水平似乎是廠商策略的天然選擇,即使一次性博弈中也是這樣。同大部分經(jīng)濟(jì)模擬一樣,在策略選擇的經(jīng)濟(jì)模擬中,如果既要讓博弈簡(jiǎn)單明了以便分析,又要能夠說明實(shí)際策略的迭接要素,那么如何表示博弈的策略選擇,就是一項(xiàng)藝術(shù)。第三節(jié) 重復(fù)博弈到目前為止,所談?wù)摰牟┺氖且淮涡缘?。其?shí),任何博弈都可以一次一次地重復(fù)進(jìn)行,且每一次重復(fù)都不是簡(jiǎn)單地重復(fù)前一次的著法,而會(huì)考慮得比前一次更全面些,技法也會(huì)更高些。就好像棋手下棋一樣,一局結(jié)束了再開一局,前一局在某些著法上吃了虧,這一局中就會(huì)吸取教訓(xùn)而加以注意,正所謂“吃一暫,長(zhǎng)一智”。反反復(fù)復(fù)地開局,給棋手不斷積累經(jīng)驗(yàn),讓棋手的技藝越來越高。通過博弈

32、的重復(fù)進(jìn)行,局中人的經(jīng)驗(yàn)越來越豐富,這種經(jīng)驗(yàn)源于博弈歷史。實(shí)際上,重復(fù)博弈中的每一點(diǎn)處,局中人決定自己的選擇時(shí)會(huì)考慮到達(dá)該點(diǎn)之前的全部博弈歷史,比如象棋棋手在上一局中因出車慢而吃了虧,那么這一局中就會(huì)吸取前一局的教訓(xùn)而趕快把車開出來。這樣一來,重復(fù)博弈中局中人的策略空間隨著博弈被重復(fù)的次數(shù)的增加而變得越來越大,也就是說,博弈歷史越長(zhǎng),局中人的策略空間越大,可以選擇的著法越多。由于“我的對(duì)手會(huì)基于我的選擇歷史而修正他的行為,我必須在做出自己的選擇時(shí)考慮到這種影響”,所以,重復(fù)博弈的結(jié)果不絕不是一次性博弈的簡(jiǎn)單重復(fù)。例1.囚徒博弈的重復(fù)我們以囚徒博弈為例,來分析重復(fù)博弈問題。囚徒博弈中,企圖獲得“

33、(合作,合作)”解是兩個(gè)局中人的長(zhǎng)期利益所在。對(duì)于每個(gè)局中人來說,可行的做法是試著給另一個(gè)局中人發(fā)出“信號(hào)”以表明他的“善意”,并且在博弈一開始移動(dòng)就進(jìn)行合作。當(dāng)然,背叛是另一個(gè)局中人的短期利益所在。如果他不合作而采取背叛策略,那么對(duì)方就可能失去耐心而從此以后永遠(yuǎn)只實(shí)行背叛。這樣一來,背叛者就會(huì)因只看到眼前利益而喪失合作的長(zhǎng)期利益?;谶@種推理可以得到的事實(shí)是,一個(gè)局中人目前的做法將在未來將得到回應(yīng)其他局中人的未來選擇可能依賴于這個(gè)局中人當(dāng)前的選擇?,F(xiàn)在來分析一下“(合作,合作)”局勢(shì)能否成為重復(fù)囚徒博弈的一個(gè)均衡。我們分兩種情況進(jìn)行討論,一種情況是有限次重復(fù)博弈,另一種情況是無限次重復(fù)博弈。

34、先討論有限次重復(fù)博弈,為此假定每個(gè)局中人都知道博弈將重復(fù)一個(gè)固定的次數(shù)(比如重復(fù)次)。考慮最后一輪博弈實(shí)施之前局中人給予的推理,此時(shí)每個(gè)人都認(rèn)為他們?cè)谶M(jìn)行一次性博弈。由于這是最后一次移動(dòng),將來不會(huì)再有,因此均衡的標(biāo)準(zhǔn)邏輯推理便得以應(yīng)用,其結(jié)果是局中人雙方都選擇“背叛”策略。再考慮最后一次移動(dòng)之前的移動(dòng),這里似乎每個(gè)局中人都重視合作,以向?qū)Ψ桨l(fā)出他是“好人”的信號(hào),以便能在下一次以及最后一次移動(dòng)中合作。但是,我們已經(jīng)看到,最后一次移動(dòng)中雙方都將采取背叛,因此在倒數(shù)第二次的移動(dòng)中合作就沒有什么優(yōu)勢(shì)可言。采取合作是為了得到長(zhǎng)期利益,為了在將來最后一次移動(dòng)中得到回應(yīng)。然而,將來最后一次移動(dòng)中并不能得到

35、合作,雙方都背叛了,結(jié)果倒數(shù)第二次移動(dòng)中雙方也只有采取背叛。同理不斷向后歸納(backwardsinduction),結(jié)果最后一次移動(dòng)之前的所有移動(dòng)中,合作并不能帶來什么長(zhǎng)期利益,沒有什么優(yōu)點(diǎn),局中人惟有相信其他局中人將在最后一次移動(dòng)中背叛,用現(xiàn)在的善意企圖去影響未來下一次的移動(dòng)是無利可圖的。因此,在重復(fù)某一固定次數(shù)的囚徒難題重復(fù)博弈中,每一局博弈的均衡局勢(shì)都是“(背叛,背叛)”,而不是“(合作,合作)”。再來考慮博弈可無限次重復(fù)的情況。當(dāng)博弈的重復(fù)次數(shù)為無限時(shí),情況就大不相同了。此時(shí),局中人在每一個(gè)階段都知道博弈至少還要重復(fù)一次以上,因而合作大有前景,長(zhǎng)期利益在望。在這種無限次重復(fù)的囚徒博弈

36、中,每個(gè)人的策略都是一個(gè)函數(shù)序列,它表明每個(gè)局中人在每個(gè)階段是選擇合作還是選擇背叛,都是作為此階段之前博弈歷史的函數(shù)。重復(fù)博弈中,局中人的收益是各階段收益的貼現(xiàn)值之總和貼現(xiàn)和(向時(shí)刻0貼現(xiàn))。具體地說,設(shè)局中人在時(shí)刻的收益(即第局重復(fù)中的收益)為,他在重復(fù)博弈中的收益就是貼現(xiàn)和,其中為貼現(xiàn)率。只要貼現(xiàn)率不很高,囚徒博弈每一局重復(fù)的均衡局勢(shì)便都是“(合作,合作)”,每個(gè)人在各個(gè)階段都會(huì)看到合作的利益。為了說明這個(gè)事實(shí),我們采用第一節(jié)例2提供的數(shù)據(jù)。假設(shè)兩個(gè)局中人一直合作,移動(dòng)到了時(shí)刻。如果本次移動(dòng)中一個(gè)人決定背叛,那么另一個(gè)人會(huì)因本次移動(dòng)中采取合作而未得收益,從而從下次以后永遠(yuǎn)采取背叛策略,給對(duì)

37、方以懲罰。第一個(gè)背叛者從本次開始,以后只能繼續(xù)背叛(因?yàn)楹献鞯氖找鏋榱悖?,結(jié)果他雖然在本次移動(dòng)中立即得到了4000元的收益,但也以以后無限次的1000元收益這個(gè)低收益流來毀滅自己,他從背叛中得到的收益貼現(xiàn)和為元。另一方面,如果他持續(xù)合作下去,永不背叛,那么對(duì)方也不會(huì)背叛,于是他從合作中得到的收益貼現(xiàn)和為元。比較和可知,只要貼現(xiàn)率,就有。這就說明,只要貼現(xiàn)率不很高,當(dāng)一方背叛時(shí),另一方也采取背叛給其以懲罰,就能使背叛者償其苦果。由此看來,只有雙方互相合作下去。如有一方背叛,另一方就要執(zhí)行懲罰策略來使背叛者飽償苦果,因而沒有一方能夠從背叛中會(huì)有收獲。所以,在貼現(xiàn)率不很高的情況下,囚徒博弈重復(fù)的均衡

38、是局中人雙方在各階段都采取合作策略。以上論述實(shí)際上是很有力的,有一個(gè)稱為弗爾克(Folk)的著名定理支持了這一論述。該定理斷言:在重復(fù)的囚徒博弈中,任何收益如果高于局中人雙方一致背叛所能得到的收益,那么都將被作為重復(fù)博弈均衡而得到支持。上面我們還提到了懲罰策略,實(shí)際上這個(gè)策略可明確敘述成:“在當(dāng)前移動(dòng)中合作,除非其他局中人在最后移動(dòng)中背叛”。采取這個(gè)策略的理由是,如果一個(gè)局中人背叛,那么他將在收益上得到永久性懲罰。另外,上面論述中還涉及到了貼現(xiàn)率,并要求貼現(xiàn)率不很高。實(shí)際上,當(dāng)貼現(xiàn)率很高時(shí),當(dāng)前收益就是特別重要的,因?yàn)閷淼呢泿刨H值太大了,現(xiàn)在的收益要抵得上將來收益的好幾倍,因而當(dāng)事人只好顧及

39、當(dāng)前收益,力求當(dāng)前收益越多越好,而把未來長(zhǎng)遠(yuǎn)利益放在次要位置上。下面再看一個(gè)雙頭壟斷的重復(fù)博弈事例。例2維持卡特爾考慮一個(gè)簡(jiǎn)單的重復(fù)雙頭壟斷,如果兩個(gè)廠商都執(zhí)行古諾博弈均衡策略,則得到利潤(rùn);如果以共同利潤(rùn)最大化決定產(chǎn)量水平,即執(zhí)行卡特爾行動(dòng),則得到利潤(rùn)。我們知道,一次性博弈中共同利潤(rùn)最大化的產(chǎn)量不是博弈均衡,每個(gè)廠商都有激勵(lì)去傾銷額外數(shù)量的產(chǎn)品,如果他認(rèn)為其他廠商將保持產(chǎn)量不變的話。但是在重復(fù)博弈中,只要貼現(xiàn)率不太高,合作起來以使共同利潤(rùn)最大化之策略,將是重復(fù)博弈的最優(yōu)解??梢宰C明,如果這種簡(jiǎn)單的雙頭壟斷博弈是一次性的,那么每個(gè)廠商以古諾產(chǎn)量生產(chǎn)將是博弈的最優(yōu)解。但是,如果這個(gè)博弈是不斷重復(fù)的

40、,那么每個(gè)廠商都采取按照卡特爾產(chǎn)量生產(chǎn)的策略,即都選擇合作,將是雙頭壟斷重復(fù)博弈的最優(yōu)解。對(duì)不合作的適當(dāng)懲罰,是采取生產(chǎn)古諾產(chǎn)量水平這一策略??梢?,在不斷重復(fù)的雙頭壟斷博弈中,由于一次性博弈均衡這種懲罰策略的存在,局中人都將以長(zhǎng)遠(yuǎn)利益為重,來維持卡特爾。第四節(jié) 混合策略并非所有博弈都有嚴(yán)格確定的結(jié)局。進(jìn)一步,實(shí)際中博弈局中人常常希望自己的行動(dòng)隱秘不被暴露,不被對(duì)手覺察。對(duì)于這兩個(gè)問題,目前意義上的策略博弈是解決不了的。在博弈非嚴(yán)格確定或者局中人希望保守秘密的情況下,局中人的最好做法是采取混合策略,即以一定的概率采取某種策略。這樣做,甚至連局中人自己也不知道每一次行動(dòng)中究竟采取什么策略,競(jìng)爭(zhēng)對(duì)手

41、就更不得而知了。而且對(duì)于非嚴(yán)格確定的博弈來說,采用混合策略就可求得最優(yōu)解。當(dāng)一種混合策略以概率1選擇某種策略時(shí),這種策略就是前三節(jié)所談?wù)摰摹凹儭辈呗裕梢娀旌喜呗詳U(kuò)展了策略概念。一混合策略的概念我們以兩人博弈為例,來對(duì)混合策略的概念以及采取混合策略時(shí)局中人的行動(dòng)目標(biāo)進(jìn)行解釋。至于更一般的多人博弈,將在下一節(jié)中討論。設(shè)為有限二人策略博弈,其中為局中人甲的策略集合,為乙的策略集合,和分別為甲和乙的收益函數(shù)。局中人為了保持自己決策的秘密性,不再象以前那樣選擇純策略,而決定采用隨機(jī)辦法來選擇策略。也就是說,局中人對(duì)純策略的選擇由某種隨機(jī)裝置來決定,對(duì)每個(gè)純策略來說,采用它只有可能性的大小,也就是用多大

42、的概率來選擇各個(gè)純策略。這樣,對(duì)方就不可能事先知道究竟選擇哪個(gè)純策略,甚至連局中人自己也不可能事先知道,而純策略是在最后時(shí)刻借助隨機(jī)裝置選擇出來的。通過借助隨機(jī)裝置,局中人原來對(duì)純策略的選擇變成為現(xiàn)在對(duì)各個(gè)純策略的概率大小的選擇。如果還嫌借助隨機(jī)裝置給出的選擇各個(gè)純策略的概率大小具有一定的客觀性,怕被對(duì)方估計(jì)出來,局中人還可進(jìn)一步采取主觀概率分布,以使對(duì)純策略的選擇帶有真正的不確定性(參見第六章關(guān)于主觀概率的介紹)。這種以某種概率選擇的策略就是混合策略,更準(zhǔn)確地說,選擇混合策略就是選擇一個(gè)概率分布,然后按照這個(gè)分布給出的概率來選擇各個(gè)純策略。假如甲選擇策略的概率為,則向量代表著甲選擇各種純策略

43、的概率分布,實(shí)際上就表示了甲的一種混合策略。這就是說,混合策略是用概率分布來表示的,混合策略的變化完全反映為概率分布的變化。今后,我們把概率分布就稱為局中人甲的混合策略。原來的純策略可看成是這樣的一種混合策略:以概率1選擇策略,以概率0選擇其他策略。如此一來,甲的策略集合由原來的純策略集合擴(kuò)張成為混合策略集合。同樣,局中人乙的選擇集合也由原來的純策略集合擴(kuò)張成為混合策略集合。當(dāng)甲采取混合策略,乙采取混合策略時(shí),就稱為博弈的混合局勢(shì)。在采取混合策略的情況下,局中人的目標(biāo)是要使預(yù)期收益最大化。當(dāng)甲采取混合策略,乙采取混合策略時(shí),甲和乙的預(yù)期收益分別為和:這里,和都寫成行向量形式,“”為轉(zhuǎn)置運(yùn)算。甲

44、的收益函數(shù)由原來的擴(kuò)充成為,乙的收益函數(shù)由原來的擴(kuò)充成為。在策略集合和收益函數(shù)都得到擴(kuò)充以后,原來的純策略博弈就擴(kuò)充成為混合策略博弈,而且可看成是一般的二人博弈,不過這個(gè)博弈的收益函數(shù)具有雙線性性,即對(duì)于任何,及任何實(shí)數(shù),都成立:的混合局勢(shì)就是的局勢(shì)。博弈叫做純策略博弈的混合擴(kuò)充。關(guān)于混合擴(kuò)充,下述兩個(gè)事實(shí)是明顯的:(1) 博弈是常和博弈當(dāng)且僅當(dāng)混合擴(kuò)充是常和博弈。(2) 如果是常和博弈,則混合擴(kuò)充保持了原來博弈的收益和?;旌蠑U(kuò)充的最優(yōu)解(均衡),叫做原博弈的最優(yōu)混合解(混合均衡)。也即是的最優(yōu)混合解,是指且。當(dāng)是的最優(yōu)混合解時(shí),和分別叫做甲和乙的最優(yōu)混合策略??梢宰C明:(3) 純策略博弈的最

45、優(yōu)解必然是混合擴(kuò)充的最優(yōu)解。(4) 當(dāng)是常和博弈時(shí),是的最優(yōu)混合解當(dāng)且僅當(dāng)。從(4)可知,是常和博弈的最優(yōu)混合解當(dāng)切僅當(dāng)是預(yù)期收益函數(shù)的鞍點(diǎn)。應(yīng)用第二節(jié)的鞍點(diǎn)定理,我們得到常和博弈的最優(yōu)混合解的又一判別條件:(5) 設(shè)是二人常和博弈,則是的最優(yōu)混合解的充分必要條件是。二混合策略的意義有時(shí),給予混合策略一個(gè)有意義的解釋是困難的。第一節(jié)例1所述的便士匹配博弈,由于收益矩陣沒有鞍點(diǎn),因而沒有純策略意義下的最優(yōu)解。但由于硬幣出現(xiàn)正面或反面,總有一個(gè)概率分布情況,因此采取混合策略來把便士匹配博弈加以擴(kuò)充,然后尋找混合策略意義下的最優(yōu)解,這顯然是我們大家都能夠感覺得到的應(yīng)該采取的做法。然而對(duì)于象雙頭壟斷這

46、樣的一些其他經(jīng)濟(jì)利益博弈來說,采取混合策略似乎是不現(xiàn)實(shí)的。除了混合策略在一定范圍內(nèi)缺乏現(xiàn)實(shí)意義外,還有一些邏輯上的原因?qū)е聦?duì)混合策略難以解釋。我們用一個(gè)例子來說明這一點(diǎn)。例1性別博弈(Battle of the Sexes)性別博弈收益表卡夫茹達(dá)話劇足球話劇2,10,0足球0,01,2這里介紹的博弈背后隱藏的故事是一場(chǎng)“性別之戰(zhàn)”。茹達(dá)(Rhonda,女)和卡夫(Calvin,男)本周末一起歡度良宵,但他們二人的娛樂愛好不同。茹達(dá)喜歡看話劇,而卡夫喜歡看足球比賽。如果他們同時(shí)選擇看話劇,則茹達(dá)可得2個(gè)單位的效用,卡夫可得1個(gè)單位的效用;如果同時(shí)選擇看足球比賽,則他們得到的效用正好與此相反;如果

47、他們選擇不同的娛樂,則得不到任何效用。右表給出了茹達(dá)和卡夫的收益情況。我們來看一看茹達(dá)和卡夫之間這場(chǎng)“性別之戰(zhàn)”博弈的結(jié)局究竟如何。首先,讓我們尋找該博弈的所有純策略意義下的最優(yōu)解。通過對(duì)各種策略進(jìn)行逐一相互比較,不難看出“(話劇,話劇)”和“(足球,足球)”都是純策略最優(yōu)解,即茹達(dá)和卡夫選擇相同的娛樂,才是最好的做法。然后,我們來尋找混合策略意義下的最優(yōu)解。茹達(dá)的收益矩陣和卡夫的收益矩陣為:,茹達(dá)的預(yù)期收益為,卡夫的預(yù)期收益為。因此,最優(yōu)混合策略問題可歸結(jié)為如下的約束極值問題:應(yīng)用Kuhn-Tucker條件(參見第七章第八節(jié)),上述極值問題的解為,,,。這就是說,茹達(dá)以概率選擇看話劇,以概率

48、選擇看足球比賽;卡夫以概率選擇看話劇、以概率選擇看足球比賽,是性別博弈的最優(yōu)混合局勢(shì)。這個(gè)最優(yōu)解有這樣幾個(gè)特點(diǎn):第一,茹達(dá)和卡夫采取最優(yōu)混合策略的預(yù)期收益都等于2/3;第二,如果茹達(dá)采取最優(yōu)混合策略,那么不論卡夫采取什么純策略,卡夫的預(yù)期收益也都是2/3;第三,如果卡夫采取最優(yōu)混合策略,那么不論茹達(dá)采取什么純策略,她的預(yù)期收益也都是2/3。這樣一來,還有什么理由要求茹達(dá)和卡夫雙方都采取最優(yōu)混合策略呢?看來,要想人們采取混合策略,必須有一些更加令人興奮的理由。本例說明,從邏輯上講,采用混合策略沒有多少道理。盡管如此,在某些情況下這種邏輯上的毛病不會(huì)帶來嚴(yán)重問題。例如,假定有一大群人在隨機(jī)碰面并玩

49、便士匹配游戲,甲是其中一員。設(shè)最初每個(gè)人都按概率分布(1/2,1/2)執(zhí)行唯一的最優(yōu)混合策略,到最后有些人便厭倦于執(zhí)行此混合策略,而決定總是玩正面游戲或總是玩反面游戲。如果決定總出正面的人數(shù)等于決定總出反面的人數(shù),那么各個(gè)局中人的選擇問題不會(huì)有明顯變化:每個(gè)人仍然理性地以為他的對(duì)手以50的可能性出正面或反面。也就是說,雖然每個(gè)人都決定采取純策略而總是出正面或反面,但當(dāng)甲隨機(jī)碰到一個(gè)局中人時(shí),該人是出正面還是反面,甲不得而知,只能作出這樣的判斷:該人出正面的可能性為50。這等同于該人采取混合策略。對(duì)混合策略的另一種解釋是:考慮某人在一次性博弈中出正面還是反面的選擇,這個(gè)選擇被看作是依賴于一些為對(duì)

50、手所不能確定的特殊因素。比如,該人心想“正面”時(shí)就出正面,心想“反面”時(shí)就出反面。這種“心想”因素是很難為對(duì)手所把握的,一個(gè)人可以自我覺察到自己的心情,但其他人(對(duì)手) 卻難以覺察這個(gè)人的心情。因此,每個(gè)局中人都會(huì)認(rèn)為其他人對(duì)策略的選擇是隨機(jī)的。這樣,采取混合策略就是一件有意義的事情。第五節(jié) 矩陣博弈的古諾均衡前面介紹的博弈最優(yōu)解(均衡)概念,假定了局中人各自獨(dú)立行動(dòng),沒有合作。這種非合作二人博弈均衡概念,最早是由古諾提出來的,稱為古諾均衡。無合作意味著局中人之間存在著利害沖突,互相對(duì)抗,互為對(duì)手。矩陣博弈(即二人零和博弈)是對(duì)這種或?qū)範(fàn)顟B(tài)的簡(jiǎn)明刻畫,本節(jié)就下面就矩陣博弈均衡的存在性與算法問

51、題及其均衡的性質(zhì)進(jìn)行討論。一均衡的存在性收益矩陣的鞍點(diǎn)未必存在,這使得矩陣博弈的均衡未必存在。但當(dāng)采用混合策略時(shí),情況就不同了:矩陣博弈的最優(yōu)混合解總是存在的。下面用von Neumann(1937)的構(gòu)造性方法來證明這一事實(shí),構(gòu)造性方法本身蘊(yùn)含著古諾均衡的一種計(jì)算方法。矩陣博弈均衡的存在性任何矩陣博弈都有混合均衡。具體來說,設(shè)為矩陣博弈,,為的混合擴(kuò)充,則必存在滿足。本定理的證明較長(zhǎng),會(huì)令讀者感到枯燥。但證明過程給出了古諾均衡的計(jì)算方法,學(xué)習(xí)掌握這一計(jì)算方法是重要的,讀者有必要靜下心來琢磨一下。首先注意,令,則是的均衡當(dāng)且僅當(dāng)。本定理的證明將基于這一事實(shí)。另外,可以看出和具有下面三條性質(zhì):對(duì)

52、任何,都有;對(duì)任何,都有;對(duì)任何,都有。進(jìn)一步,假定收益矩陣的各行已經(jīng)過調(diào)整,使得。這個(gè)假定并不是說增加了額外的條件,而是說在安排策略集中諸策略的編號(hào)時(shí),可以讓編號(hào)滿足這個(gè)要求。以下的證明分三步走。第一步:定義基和最優(yōu)基;第二步:構(gòu)造最優(yōu)基;第三步:從最優(yōu)基得出混合擴(kuò)充的均衡。第一步:定義基和最優(yōu)基首先定義收益矩陣的增廣矩陣如下:的首行、首列叫做第0行、第0列,即首行行標(biāo)為0,首列列標(biāo)為0。用表示的第列,并令。從增廣矩陣的列中選出列,構(gòu)成一個(gè)階方陣:。如果滿足下面三個(gè)條件:(b1) 是的首列,即;(b2) 是非奇異的矩陣,即行列式;(b3) 的逆矩陣中除首行外,其余各行的第一個(gè)非零元素皆為正數(shù)

53、。則稱是一個(gè)基(base)。如此定義的基必然存在。例如,矩陣就是一個(gè)基。事實(shí)上,符合條件(b1)和(b2)是明顯的。對(duì)于條件(b3),注意的逆矩陣如下:而,故符合條件(b3)。這就證明了是基?,F(xiàn)在對(duì)于任何一個(gè)基來說,用表示的第行。則從(其中為階單位陣)知,這里當(dāng)時(shí),而當(dāng)時(shí)。這說明,可見在個(gè)內(nèi)積中,至少有個(gè)為零。如果其余個(gè)內(nèi)積均非正,那么就稱是一個(gè)最優(yōu)基(optimal base)。換句話說,基是最優(yōu)基,是指,即的首行向量與的后個(gè)列向量的內(nèi)積全非正。第二步:用迭代法構(gòu)造最優(yōu)基任意指定一個(gè)基(比如上面的基),從出發(fā)來構(gòu)造最優(yōu)基。用表示的第行,表示的第列,并檢查是否為最優(yōu)基,即檢查不等式是否對(duì)一切都

54、成立。如果是最優(yōu)基,則目的已達(dá)到。如果不是最優(yōu)基,則,此時(shí)需做下面的工作:(1) 找出一個(gè)使。若的諸列中符合這個(gè)條件的列不止一個(gè),那么就取列標(biāo)最小者。(2) 從方程解出列向量。這樣得到的列向量必然滿足且中必有正數(shù)。事實(shí)上,。假如中沒有正數(shù),那么給出,從而增廣矩陣的首列是的個(gè)列的正線性組合;然而根據(jù)的定義,不能表示成的個(gè)列的正線性組合,出現(xiàn)矛盾。矛盾的結(jié)論說明中必有正數(shù)。(3) 找出符合條件的列,這里的是指在向量之間的字典序下求最小元,字典序是從向量的第一個(gè)分量開始比較的。如此找到的列必然是唯一的,即滿足該條件的是唯一的。的唯一性保證了只要且,那么的第一個(gè)非零分量必為正數(shù)。事實(shí)上,假如符合條件的

55、不唯一,比如說和都滿足該條件且,那么根據(jù)字典序的定義可知必有,從而的行向量組線性相關(guān),這是不可能的。(4) 用替換的第列,并保持的其他列不變,得到一個(gè)階方陣。這個(gè)矩陣必然也是基。我們來證明是基,即證明滿足基的三個(gè)條件(b1)、(b2)和(b3)。首先,根據(jù)的定義,。這說明的首列未被替換,即和具有相同的首列。所以,滿足條件(b1)。其次,既然且,從行列式的性質(zhì)便可知。所以,也滿足條件(b2),即是可逆矩陣。最后檢查條件(b3),即檢查的逆矩陣各行(首行除外)的第一個(gè)非零元素是否為正數(shù)。為此,令,其中 。首先來驗(yàn)證,這里為階單位矩陣。注意,告訴我們,對(duì)一切成立。下面的驗(yàn)證過程中,這一事實(shí)將被多次應(yīng)

56、用。再注意,和僅僅在第列上有區(qū)別:;而當(dāng)時(shí),。考察的第行、第列的元素:當(dāng)時(shí),;當(dāng)時(shí),;當(dāng)時(shí),;當(dāng)時(shí),;當(dāng)時(shí),??傊?,當(dāng)時(shí),;當(dāng)時(shí),。這就證明了,即是的逆矩陣:?,F(xiàn)在來從的第1行到第行,考察各行第一個(gè)非零元素是否為正數(shù)。首先看的第行:由于,且的第一個(gè)非零元素為正數(shù),因此的第一個(gè)非零元素也為正數(shù)。再看第行:。當(dāng)時(shí),的第一個(gè)非零元素確實(shí)為正數(shù);當(dāng)時(shí),(3)已經(jīng)說明了的第一個(gè)非零元素為正數(shù)。總之,除了的首行外,其余各行的第一個(gè)非零元素都為正數(shù)。到此,條件(b3)得到驗(yàn)證。(5) 如果不是最優(yōu)基,那么對(duì)進(jìn)行類似的修正,即對(duì)重復(fù)以上步驟(1)至(4),得到一個(gè)基;如果還不是最優(yōu)基,就對(duì)重復(fù)以上步驟,得到又

57、一個(gè)基;這樣不斷做下去,必然到某一步,比如第步時(shí),得到的基就是最優(yōu)基。為什么不斷重復(fù)修正下去就能得到最優(yōu)基呢?為了說明這個(gè)問題,我們來看一下從基到基有什么改進(jìn)。注意,被吸收進(jìn)來的列滿足條件:且。被排除出去的列滿足條件:且。是因?yàn)槭蔷仃嚨牡?行、第列的元素;是因?yàn)?。如果不是最?yōu)基,那么對(duì)進(jìn)行類似于那樣的修正,得到另一個(gè)基。被排除出去,就不會(huì)把它重新吸收進(jìn)來,因?yàn)楸恍挛者M(jìn)來的列滿足,而不滿足這個(gè)條件,事實(shí)上。如果還不是最優(yōu)基,那么再次重復(fù)以上過程,得到又一個(gè)基??梢宰C明,不會(huì)把以前從基中排除出去的列重新吸收進(jìn)來。這樣不斷進(jìn)行下去,各次得到的基是互不相同的,而且每次更換基中的某列時(shí),都不會(huì)把以前各

58、次中被排除出基的列重新吸收進(jìn)來,可見迭代至多進(jìn)行次。最后一次構(gòu)造出來的基必然是最優(yōu)基。第三步:從最優(yōu)基得出混合擴(kuò)充的均衡。設(shè)為一最優(yōu)基,不妨假定。用表示的首行,表示的首列。令,并定義如下:對(duì)任何,當(dāng)時(shí),;而當(dāng)時(shí),。我們斷定:是混合擴(kuò)充的均衡。其實(shí)這一斷言基于這樣兩個(gè)事實(shí):(I)且;(II)且。實(shí)際上,和都是的首行、首列元素,因而。這樣,事實(shí)(I)和(II)就說明了是的均衡??梢姡覀冎恍枳C明事實(shí)(I)和事實(shí)(II)。事實(shí)(I)的證明:從可知。是最優(yōu)基又說明,尤其是對(duì)于,有。這就證明了。說明不會(huì)全為零。結(jié)合,我們便知不會(huì)全為零。當(dāng)時(shí),。這說明。再注意,中至少有個(gè)為零,但現(xiàn)在已知后面?zhèn)€不會(huì)全為零,

59、因而前面?zhèn)€中至少有一個(gè)為零,即必有某個(gè)滿足:且。所以,。事實(shí)(II)的證明:首先,是的第行的首元素,而第0行才是的首行。根據(jù)基的性質(zhì)(b3)可知,對(duì)一切成立,這就保證了。再注意,說明了的首行向量與的首列向量的內(nèi)積為1, 而根據(jù)增廣矩陣首行的特點(diǎn),這個(gè)內(nèi)積等于。因此,從而。的第行與的第0列的內(nèi)積為零,這個(gè)內(nèi)積等于因此。再注意,不會(huì)全是增廣矩陣的后個(gè)列向量(因?yàn)榧偃邕@樣的話,就不可逆了)。這說明的后列中必有一列不在中出現(xiàn),比方說不在中出現(xiàn),即且?,F(xiàn)在考慮的第行與的內(nèi)積,這個(gè)內(nèi)積當(dāng)然要等于零,同時(shí)按照定義又要等于:因而。結(jié)合,我們得到。到此,矩陣博弈古諾均衡的存在性得到證明。矩陣博弈均衡的簡(jiǎn)化設(shè)為矩

60、陣博弈,,為的混合擴(kuò)充,為一實(shí)數(shù)。則下面兩個(gè)條件等價(jià):(1) 是的均衡且;(2) 對(duì)一切和成立。證明:(1)(2)是顯然的。下面來證明(2)(1)。為此,假定(2)成立。注意,且。因此對(duì)任何及,都有,。對(duì)和也不例外:,從而。這說明是的均衡。(1)得證。二最優(yōu)解的性質(zhì)矩陣博弈混合均衡的存在性,保證了等式成立。今后,我們把數(shù)值叫做矩陣博弈的博弈值(value of the game),簡(jiǎn)稱的值。顯然,矩陣博弈的值是局中人甲在博弈達(dá)到均衡時(shí)的預(yù)期收益。即,若是的最優(yōu)混合解,那么。為了研究博弈值的性質(zhì),也為了計(jì)算博弈之解,需要對(duì)構(gòu)成最優(yōu)解的混合策略的性質(zhì)進(jìn)行研究。首先,如果我們能夠通過某種方法知道矩陣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論