博弈論與信息經(jīng)濟(jì)學(xué)-5.演化博弈_第1頁
博弈論與信息經(jīng)濟(jì)學(xué)-5.演化博弈_第2頁
博弈論與信息經(jīng)濟(jì)學(xué)-5.演化博弈_第3頁
博弈論與信息經(jīng)濟(jì)學(xué)-5.演化博弈_第4頁
博弈論與信息經(jīng)濟(jì)學(xué)-5.演化博弈_第5頁
已閱讀5頁,還剩39頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第5章演化博弈經(jīng)濟(jì)學(xué)與生物學(xué)經(jīng)濟(jì)學(xué)和生物學(xué)的歷史從來就交織在一起。眾所周知,CharlesDarwin的一個核心洞見就來源于ThomasMalthus(1803)。對于Darwin來說,Malthus的人口的增長率傾向于超過產(chǎn)量增長率的論證暗示著不可避免的生存之戰(zhàn),因此暗示著適者生存的自然選擇。二者研究的都是個體在給定環(huán)境下的最優(yōu)策略。它們包含的內(nèi)在邏輯相當(dāng)一致:所有生命體的行為看上去總好像設(shè)法使其基因的遺傳頻率最大化,正如企業(yè)最大化其利潤一樣。經(jīng)濟(jì)學(xué)與生物學(xué)經(jīng)濟(jì)學(xué)生物學(xué)企業(yè)物種(或個體)最優(yōu)化適應(yīng)策略基因利潤適應(yīng)性(fitness)擴(kuò)張繁殖倒閉滅絕創(chuàng)新變異

在經(jīng)典博弈論中,假設(shè)參與人具有使自己支付最大化的主觀意識與對于對手策略的最優(yōu)反應(yīng)能力,在實(shí)際中,這種假設(shè)可能是不現(xiàn)實(shí)的。譬如在“象棋”中,棋手不可能在每一步都能夠采取最優(yōu)的反應(yīng)行動。自然界中的博弈吸血蝙蝠夜間去大型哺乳動物那里吸血,有些個體偶爾會空腹而歸,此時吸飽血的個體就會吐出胃內(nèi)的血液喂給饑餓的個體,盡管它們之間并沒有直接血緣關(guān)系。吸血蝙蝠更有可能回吐血液給以前曾經(jīng)回吐過血液的蝙蝠,而騙子(拒絕分享的蝙蝠)將被蝙蝠群體記住,并且被排除在這種協(xié)作之外。自然界中的博弈白色念珠菌(Moniliaalbican或canidiaAlbicans),是一種真菌,通常存在于正常人口腔和消化道粘膜中,一般在正常機(jī)體中數(shù)量少,不引起疾病。當(dāng)機(jī)體免疫功能或一般防御力下降,則本菌大量繁殖并改變生長形式(芽生菌絲相)侵入細(xì)胞引起疾病。演化博弈論(evolutionarystablestrategy)整合了理性經(jīng)濟(jì)學(xué)與演化生物學(xué)的思想,不再將參與人模型化為超級理性的博弈方,認(rèn)為參與人通常是通過試錯的方法達(dá)到博弈均衡的,與生物演化具有共性。在演化博弈中,認(rèn)為參與人的選擇行為可以依據(jù)前人的經(jīng)驗(yàn)、學(xué)習(xí)與模仿他人行為、受遺傳因素的決定等。因而演化博弈把具有主觀選擇行為的參與人擴(kuò)展為包括動物、植物在內(nèi)的有機(jī)體,動植物參與者的支付可被理解為為某種適應(yīng)程度。把博弈論的分析與應(yīng)用從研究人類的競爭行為擴(kuò)展為研究有機(jī)體的策略互動關(guān)系。這個領(lǐng)域的開創(chuàng)性工作是由英國生物學(xué)家約翰·梅納德·史密斯(JohnMaynardSmith)和G.R.普萊斯(G.R.Price)1973年進(jìn)行的。演化博弈現(xiàn)在正逐漸被廣泛應(yīng)用于社會經(jīng)濟(jì)學(xué)領(lǐng)域。演化博弈的關(guān)注內(nèi)容演化博弈強(qiáng)調(diào)經(jīng)濟(jì)變遷過程中以個體多樣性變異機(jī)制和偏好選擇機(jī)制為代表的種群研究。它探討種群選擇的策略是否獲得最佳的收益,并消除任何小的突變?nèi)后w的擾動。演化博弈的假設(shè)條件首先我們假定群體中的參與人都是完全相同的,因此以下我們只考慮對稱博弈。其次,我們假定每個參與人只能機(jī)械地選擇某種策略(而無法改變自己的策略)。如果某種策略獲得了成功,采用這種策略的參與人將越來越多,反之如果某種策略不成功,采用這種策略的參與人就越來越少。演化穩(wěn)定策略(ESS)演化穩(wěn)定策略,是指如果占群體絕大多數(shù)的個體選擇演化穩(wěn)定策略,那么小的突變者群體就不可能侵入到這個群體?;蛘哒f,在自然選擇壓力下,突變者要么改變策略而選擇演化穩(wěn)定策略,要么退出系統(tǒng)而在進(jìn)化過程中消失。例1:囚徒困境博弈CDC2,20,3D3,01,1C代表合作,D代表背叛。合作是否是一種演化穩(wěn)定策略?分析:CDC2,20,3D3,01,1假定一個群體由合作者構(gòu)成,由于基因變異出現(xiàn)了比例為ε的背叛者。此時合作者的收益為:(1-ε)*2+ε*0=2-2ε背叛者的收益為:(1-ε)*3+ε*1=3-2ε由于背叛者的收益高于合作者的收益,背叛者不僅不會消亡,反而會越來越多。因此,合作不是一個演化穩(wěn)定策略。演化穩(wěn)定策略是什么呢?CDC2,20,3D3,01,1假定一個群體由背叛者構(gòu)成,由于基因變異出現(xiàn)了比例為ε的合作者。此時背叛者的收益為:(1-ε)*1+ε*3=1+2ε合作者的收益為:(1-ε)*0+ε*2=2ε由于合作者的收益低于背叛者的收益,合作者會逐漸消亡,因此背叛是一個演化穩(wěn)定策略。結(jié)論:嚴(yán)格劣策略不可能是演化穩(wěn)定策略。例2:ABCA2,20,00,0B0,00,01,1C0,01,10,0問題1:C是否是一個演化穩(wěn)定策略?結(jié)論:一個策略可以入侵別的策略,并不意味著它就是演化穩(wěn)定策略。問題2:C是否是一個納什均衡?結(jié)論:如果一個策略組合(S,S)不構(gòu)成納什均衡,則S不是演化穩(wěn)定策略。納什均衡與演化穩(wěn)定策略ABA1,10,0B0,00,0博弈的納什均衡(A,A)和(B,B)。B是否是一個演化穩(wěn)定策略?結(jié)論:1.納什均衡并不意味著演化穩(wěn)定策略;2.嚴(yán)格納什均衡意味著演化穩(wěn)定策略。純策略下演化穩(wěn)定策略的定義1

(MaynardSmith,1972)純策略下演化穩(wěn)定策略的定義2例3:找出ESSABA1,11,1B1,10,0U(A,A)=U(B,A)U(A,B)>U(B,B)因此A是演化穩(wěn)定策略例4:ABA10,100,0B0,01,1演化穩(wěn)定策略:A和CC是一種效率很低的狀態(tài),但社會一旦陷入了這種狀態(tài),就很難走出去。這就是所謂的“路徑依賴”路徑依賴路徑依賴(Path-Dependence),指人類社會中的技術(shù)演進(jìn)或制度變遷均有類似于物理學(xué)中的慣性,即一旦進(jìn)入某一路徑(無論是“好”還是“壞”)就可能對這種路徑產(chǎn)生依賴。一旦人們做了某種選擇,就好比走上了一條不歸之路,慣性的力量會使這一選擇不斷自我強(qiáng)化,并讓你輕易走不出去。有人將5只猴子放在一只籠子里,并在籠子中間吊上一串香蕉,只要有猴子伸手去拿香蕉,就用高壓水教訓(xùn)所有的猴子,直到?jīng)]有一只猴子再敢動手。然后用一只新猴子替換出籠子里的一只猴子,新來的猴子不知這里的“規(guī)矩”,竟又伸出上肢去拿香蕉,結(jié)果觸怒了原來籠子里的4只猴子,于是它們代替人執(zhí)行懲罰任務(wù),把新來的猴子暴打一頓,直到它服從這里的“規(guī)矩”為止。試驗(yàn)人員如此不斷地將最初經(jīng)歷過高壓水懲戒的猴子換出來,最后籠子里的猴子全是新的,但沒有一只猴子再敢去碰香蕉。起初,猴子怕受到“株連”,不允許其他猴子去碰香蕉,這是合理的。但后來人和高壓水都不再介入,而新來的猴子卻固守著“不許拿香蕉”的制度不變,這就是路徑依賴的自我強(qiáng)化效應(yīng)。路徑依賴的例子路徑依賴的例子一個廣為流傳、引人入勝的例證是:現(xiàn)代鐵路兩條鐵軌之間的標(biāo)準(zhǔn)距離是四英尺又八點(diǎn)五英寸。原來,早期的鐵路是由建電車的人所設(shè)計(jì)的,而四英尺又八點(diǎn)五英寸正是電車所用的輪距標(biāo)準(zhǔn)。那么,電車的標(biāo)準(zhǔn)又是從哪里來的呢?最先造電車的人以前是造馬車的,所以電車的標(biāo)準(zhǔn)是沿用馬車的輪距標(biāo)準(zhǔn)。馬車又為什么要用這個輪距標(biāo)準(zhǔn)呢?英國馬路轍跡的寬度是四英尺又八點(diǎn)五英寸,所以,如果馬車用其他輪距,它的輪子很快會在英國的老路上撞壞。這些轍跡又是從何而來的呢?從古羅馬人那里來的。因?yàn)檎麄€歐洲,包括英國的長途老路都是由羅馬人為它的軍隊(duì)所鋪設(shè)的,而四英尺又八點(diǎn)五英寸正是羅馬戰(zhàn)車的寬度。任何其他輪寬的戰(zhàn)車在這些路上行駛的話,輪子的壽命都不會很長??梢栽賳枺_馬人為什么以四英尺又八點(diǎn)五英寸為戰(zhàn)車的輪距寬度呢?原因很簡單,這是牽引一輛戰(zhàn)車的兩匹馬屁股的寬度。故事到此還沒有結(jié)束。美國航天飛機(jī)燃料箱的兩旁有兩個火箭推進(jìn)器,因?yàn)檫@路徑依賴些推進(jìn)器造好之后要用火車運(yùn)送,路上又要通過一些隧道,而這些隧道的寬度只比火車軌道寬一點(diǎn),因此火箭助推器的寬度是由鐵軌的寬度所決定的。所以,最后的結(jié)論是:路徑依賴導(dǎo)致了美國航天飛機(jī)火箭助推器的寬度,竟然是兩千年前便由兩匹馬屁股的寬度所決定的。成功是一種習(xí)慣人們關(guān)于習(xí)慣的一切理論都可以用“路徑依賴”來解釋。它告訴我們,要想路徑依賴的負(fù)面效應(yīng)不發(fā)生,那么在最開始的時候就要找準(zhǔn)一個正確的方向。每個人都有自己的基本思維模式,這種模式很大程度上會決定你以后的人生道路。而這種模式的基礎(chǔ),其實(shí)是早在童年時期就奠定了的。做好了你的第一次選擇,你就設(shè)定了自己的人生。路徑依賴與制度變革對組織而言,一種制度形成后,會形成某個既得利益集團(tuán),他們對現(xiàn)在的制度有強(qiáng)烈的要求,只有鞏固和強(qiáng)化現(xiàn)有制度才能保障他們繼續(xù)獲得利益,哪怕新制度對全局更有效率。對個人而言,一旦人們做出選擇以后會不斷地投入精力、金錢及各種物資,如果哪天發(fā)現(xiàn)自己選擇的道路不合適也不會輕易改變,因?yàn)檫@樣會使得自己在前期的巨大投入變得一文不值,這在經(jīng)濟(jì)學(xué)上叫“沉沒成本”。沉沒成本是路徑依賴的主要原因。獵鹿博弈獵鹿博弈源自啟蒙思想家盧梭的著作《論人類不平等的起源和基礎(chǔ)》中的一個故事。古代的村莊有兩個獵人。當(dāng)?shù)氐墨C物主要有兩種:鹿和兔子。如果一個獵人單兵作戰(zhàn),一天最多只能打到4只兔子。只有兩個一起去才能獵獲一只鹿。從填飽肚子的角度來說,4只兔子能保證一個人4天不挨餓,而一只鹿卻能讓兩個人吃上10天。改變收益矩陣的獵鹿博弈33044044另一個例子

問題1:此博弈對應(yīng)現(xiàn)實(shí)生活中的什么情況

問題2:此博弈是否存在演化穩(wěn)定策略ABA0,02,1B1,20,0混合策略下演化穩(wěn)定策略的定義找出以下博弈的混合策略ESSABA0,02,1B1,20,0(1)找出博弈的混合策略納什均衡。 由于博弈的對稱性,雙方的混合策略納什均衡必然是相同的,設(shè)為(p,1-p) 給定局中人1的策略(p,1-p) 局中人2選擇A的收益:p*0+(1-p)*2=2-2p 局中人2選擇B的收益:p*1+(1-p)*0=p 根據(jù)2-p=p,解出p=2/3(2)(2/3,1/3)是否是一個嚴(yán)格納什均衡?(3)(2/3,1/3)是否是ESS?象海豹的生存策略鷹鴿博弈HDH(v-c)/2,(v-c)/2v,0D0,vv/2,v/2博弈的演化穩(wěn)定策略是什么?當(dāng)v>c時,(H,H)是嚴(yán)格納什均衡,因此H是演化穩(wěn)定策略。當(dāng)v=c時,(H,H)是弱納什均衡,因?yàn)閁(H,D)>U(D,D),因此H是演化穩(wěn)定策略當(dāng)v<c時,不存在純策略演化穩(wěn)定策略。此時是否存在混合策略ESS?首先找出混合策略納什均衡(v/c,1-v/c),其次驗(yàn)證其是否為ESS。石頭剪刀布RSPR1,1V,00,VS0,V1,1V,0PV,00,V1,11<V<2易證,博弈中唯一的混合策略納什均衡是p=(1/3,1/3,1/3)驗(yàn)證其是否為ESS,設(shè)p‘=(p,q,1-p-q)U(p,p')=(1+V)/3U(p',p')=1U(p,p')<U(p',p')因此博弈中不存在ESS蜥蜴的生存策略動態(tài)演化復(fù)制者(replicator)能夠大致精確地復(fù)制自身的個體。例如基因、生物體或是彌母(meme)動態(tài)演化的復(fù)制者系統(tǒng)不同復(fù)制者的所占比例隨時間的變化過程,其中不同策略復(fù)制的速度與他們的收益呈正相關(guān)。復(fù)制者的策略考慮一個n人演化博弈(i=1,2,...n),博弈在每個時間點(diǎn)t上進(jìn)行(t=1,2,...).設(shè)pit為在t期中采用策略si的局中人的比例,此時si的收益為πit=πi(pt),其中p=(p1,...,pn)。不妨設(shè)π1t≤π2t≤…≤πnt假定在每個時期dt,每個個體i都以αdt的概率發(fā)現(xiàn)某個隨機(jī)個體j的收益,如果i發(fā)現(xiàn)j的收益比自己高,就以pijt的概率轉(zhuǎn)變?yōu)閖的策略。此時在t+dt期使用si策略的局中人所占比例的期望值Epit+dt為:如果個體數(shù)量很多,則Epit+dt≈pit+dt這個式子稱為復(fù)制者動態(tài)(replicatordynamic)方程復(fù)制者動態(tài)方程的應(yīng)用鷹鴿?jì)梪-1,u

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論