人工智能 16章制定簡(jiǎn)單決策_(dá)第1頁(yè)
人工智能 16章制定簡(jiǎn)單決策_(dá)第2頁(yè)
人工智能 16章制定簡(jiǎn)單決策_(dá)第3頁(yè)
人工智能 16章制定簡(jiǎn)單決策_(dá)第4頁(yè)
人工智能 16章制定簡(jiǎn)單決策_(dá)第5頁(yè)
已閱讀5頁(yè),還剩29頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

在不確定環(huán)境下結(jié)合信念與愿望Result(a):表示動(dòng)作a被執(zhí)行的輸出結(jié)果。P(Result(a)=s'/a,e)表示給定狀態(tài)e,輸出s'的概率。效用函數(shù)U(s)是一個(gè)數(shù)值,表達(dá)對(duì)某個(gè)狀態(tài)的滿意度。期望效用函數(shù)是輸出結(jié)果的加權(quán)平均效用值,其中權(quán)值是輸出結(jié)果的發(fā)生概率最大化期望效用原則認(rèn)為,理性的智能體Agent應(yīng)該能選擇能夠最大化Agent期望效用行為:

效用理論基礎(chǔ)直觀上,最大效用原則(MEU)看起來(lái)是制定決策的合理方法,但不能說(shuō)它明顯是唯一的理性方法。畢竟,為什么應(yīng)該最大化平均效用?為什么不最大化所以可能效用的加權(quán)立方和?或者為什么不嘗試最少化最壞的可能損失?為什么效用函數(shù)一定存在?

效用函數(shù)效用是從一個(gè)抽獎(jiǎng)映射到實(shí)數(shù)的函數(shù)。所有理性的Agent必須遵守關(guān)于效用的公理,也可以說(shuō)一個(gè)Agent可以擁有它喜歡的任何偏好。例如:一個(gè)Agent可能偏好在其銀行賬戶上的存款的美元數(shù)位質(zhì)數(shù),這種情況下,如果它有16美元,它將送出3美元,這肯定是不正常的,但不能說(shuō)它不理性。一個(gè)Agent可能偏好一輛有凹陷的1973福特汽車甚于一輛嶄新的奔馳汽車。效用尺度效用沒(méi)有絕對(duì)的尺度,但建立某種尺度,用這個(gè)尺度記錄和比較任何特定問(wèn)題的效用是有幫助的。我們固定“最好的可能獎(jiǎng)勵(lì)”的效用為和“最壞的可能災(zāi)難”的效用為歸一化效用使其具有和的尺度。如何根據(jù)效用尺度來(lái)確定所有抽獎(jiǎng)的效用給定一個(gè)和之間的效用尺度,通過(guò)讓Agent在S和標(biāo)準(zhǔn)抽獎(jiǎng)之間選擇,我們可以評(píng)估任何特定獎(jiǎng)勵(lì)S的效用。通過(guò)調(diào)節(jié)概率p直到Agent對(duì)S和這個(gè)標(biāo)準(zhǔn)抽獎(jiǎng)沒(méi)有偏向性。假設(shè)在歸一化效用下,S的效用是p,一旦每個(gè)獎(jiǎng)勵(lì)的效用確定了,涉及這些獎(jiǎng)勵(lì)的所有抽獎(jiǎng)的效用也確定了。QALY(質(zhì)量調(diào)整壽命年)效用的另一個(gè)尺度QALY,等價(jià)于身體健康不衰減的一年。有殘疾的病人愿意恢復(fù)到完全健康而愿意縮短預(yù)期壽命。例如:患腎病的病人對(duì)“在透析機(jī)上生活兩年”于“完全健康地生活一年”之間沒(méi)有偏向性。金錢的效用經(jīng)濟(jì)學(xué)位效用度量提供了一個(gè)明顯的候選:金錢。假設(shè)你在一個(gè)電視游戲節(jié)目中擊敗了其余競(jìng)爭(zhēng)者。主持人現(xiàn)在給你一個(gè)選擇:你可以拿走1000000美元的獎(jiǎng)金,或者你可以扔硬幣賭一次,如果硬幣正面朝上,你的結(jié)局一無(wú)所獲,但是如果硬幣正面朝下,你最終得到2500000美元。如果你像大多數(shù)人一樣,你會(huì)拒絕賭博而拿走這一百萬(wàn)。你這是不理性的嗎?假設(shè)硬幣是公正的,該賭博的期望貨幣價(jià)值(EMV)是(0.5(£0)+0.5(£2500000))=£1250000,這比原始獎(jiǎng)金一百萬(wàn)多,但并不意味著接受這一賭博是一個(gè)更好的決策,假設(shè)我們用Sn表示擁有總共n美元的財(cái)富狀態(tài),而你當(dāng)前的財(cái)富是K美元,那么,接受和拒絕賭博的兩個(gè)行動(dòng)的期望效用是:為了決定該做什么,我們需要改結(jié)果狀態(tài)分配效用。假設(shè)你給當(dāng)前的財(cái)富狀況分配一個(gè)效用值5,給定狀態(tài)分配效用值9,給狀態(tài)分配效用值8.那么,理性的行動(dòng)是拒絕賭博,但可能一個(gè)千萬(wàn)富翁可能接受此次賭博。曲線的正值部分的斜率是遞減的,那么對(duì)于任意抽獎(jiǎng)L,“面對(duì)這次抽獎(jiǎng)”的效用少于“把這次抽獎(jiǎng)的期望貨幣價(jià)值當(dāng)做確定的東西給你”的效用:有此形狀的智能體是規(guī)避風(fēng)險(xiǎn)的:它們偏好比賭博的期望貨幣價(jià)值小的確定收益。另一方面,在大多數(shù)額負(fù)財(cái)產(chǎn)的“絕望”區(qū)間,Agent的行為追求風(fēng)險(xiǎn)。一個(gè)Agent能接收的代替某次抽獎(jiǎng)的價(jià)值被稱為這次抽獎(jiǎng)的確定性等價(jià)物。研究表明大部分人會(huì)接受用40美元代替一次有一半的機(jī)會(huì)贏得100美元的賭博。期望效用與后決策失望選擇最佳行為a的理性方式是最大化期望效用:實(shí)際的期望效用:真實(shí)期望效用的估計(jì)值

假設(shè)這個(gè)估計(jì)值是無(wú)偏估計(jì),也就是說(shuō)誤差的期望值是0.樂(lè)觀者報(bào)應(yīng)

人類評(píng)價(jià)和非理性決策理論是一種規(guī)劃性理論:它描述了一個(gè)理性的Agent應(yīng)該如何行動(dòng)。另一方面,一種描述性理論,描述了實(shí)際的Agent——例如人類——真正會(huì)如何行動(dòng)。兩者是不一致的。實(shí)際表明人類“有先兆地非理性”。最有名的問(wèn)題是Allais悖論。人們?cè)趦纱纬楠?jiǎng)A和B之間選擇,然后在C和D之間選擇,它們的獎(jiǎng)勵(lì)是:A:80%的機(jī)會(huì)獲得400美元B:100%的機(jī)會(huì)獲得300美元C:20%的機(jī)會(huì)獲得4000美元D:25%的機(jī)會(huì)獲得3000美元確定性效應(yīng)Ellsberg悖論,這里,獎(jiǎng)勵(lì)是固定的,但概率是無(wú)限定的。你的工資降依賴從缸里選擇的球的顏色。有人告訴你缸里有1/3的球是紅色,剩下的2/3的球是黑色或黃色,但你不知道有多少黑球和多少黃球。你愿意選A還是B,愿意選C還是D。A:取到紅球得100美元B:取到黑球得100美元C:取到紅球或者黃球得100美元D:取到黑球或者黃球得100美元多屬性效用函數(shù)確定一座新機(jī)場(chǎng)的位置需要考慮到施工造成的破壞,土地價(jià)格,離人口中心的距離,飛機(jī)操作的噪音等等。決定允許發(fā)電廠排放什么級(jí)別的有害物時(shí),制定者必須在預(yù)防死亡和殘疾與電力帶來(lái)的好處以及減少排放帶來(lái)的經(jīng)濟(jì)負(fù)擔(dān)之間進(jìn)行權(quán)衡。類似這類問(wèn)題——其結(jié)果由兩個(gè)或者更多屬性來(lái)刻畫——是用多屬性效應(yīng)理論處理優(yōu)勢(shì)假設(shè)機(jī)場(chǎng)位置S1費(fèi)用較少,產(chǎn)生較少的噪音污染,并且比位置S2安全。那么稱S1比S2有嚴(yán)格優(yōu)勢(shì)。隨機(jī)優(yōu)勢(shì)假設(shè)我們將機(jī)場(chǎng)選址定在S1的費(fèi)用均勻分布在28億美元到48億美元之間,而選址定在S2的費(fèi)用均勻分布在30億美元到52億美元之間。圖a中畫出S1,S2分布,給定效用隨費(fèi)用減少而減少的信息。S1比S2具有隨機(jī)優(yōu)勢(shì)。累計(jì)分布:度量的是費(fèi)用少于或者等于任何給定量的概率。

也就是對(duì)原始分布進(jìn)行積分,如圖b,S1和S2的累計(jì)分布。隨機(jī)優(yōu)勢(shì)的定義:如果兩個(gè)行動(dòng)A1和A2在屬性X上導(dǎo)致概率分布p1(x)和p2(x),當(dāng)下式成立時(shí),在X上A1比A2有隨機(jī)優(yōu)勢(shì)。偏好結(jié)構(gòu)和多屬性效用Agent的效用方程:希望其中f是一個(gè)像加法這樣的簡(jiǎn)單函數(shù)。確定性的偏好偏好獨(dú)立:如果結(jié)果和之間的偏好不依賴于屬性X3的特殊值x3,則稱屬性X1和X2偏好獨(dú)立于第三個(gè)屬性X3。例如:機(jī)場(chǎng)選址,考慮三個(gè)屬性Noise,Cost和Deaths,有人可能提出Noise和Cost偏好獨(dú)立于Deaths。當(dāng)安全級(jí)別是每百萬(wàn)乘客英里死亡0.06人時(shí),我們偏好一個(gè)有20000人居住在航線上,機(jī)場(chǎng)建筑費(fèi)位40億美元的狀態(tài),甚于另一個(gè)有70000人居住在航線上,機(jī)場(chǎng)建設(shè)費(fèi)位37億美元的狀態(tài),那么當(dāng)安全級(jí)別是0.12和0.01時(shí),我們將有相同的偏好。如果屬性X1,...Xn偏好相互獨(dú)立,那么該Agent的偏好行為可以被描述為最大化函數(shù)不確定性偏好效用獨(dú)立:如果對(duì)屬性集X中的屬性的抽獎(jiǎng)之間的偏好獨(dú)立于Y中的屬性的具體指,成屬性集X效用獨(dú)立于屬性集Y。相互效用獨(dú)立:如果每個(gè)子集都效用獨(dú)立于其余的屬性。如果一個(gè)Agent的屬性滿足相互效用獨(dú)立,那么效用函數(shù)可以表示為:決策網(wǎng)絡(luò)機(jī)會(huì)節(jié)點(diǎn):(橢圓)代表隨機(jī)變量。決策節(jié)點(diǎn):(矩形)代表在節(jié)點(diǎn)上決策制定者有一個(gè)對(duì)行動(dòng)的選擇。效用節(jié)點(diǎn):(菱形)代表Agent的效用函數(shù)。信息價(jià)值假設(shè)一個(gè)石油公司想要購(gòu)買不可區(qū)分的n塊海洋開采權(quán)中的一塊,我們假設(shè)僅有一塊含有價(jià)值C美元的石油,其他塊是沒(méi)有價(jià)值的,每塊的標(biāo)價(jià)是C/n美元?,F(xiàn)假設(shè)一個(gè)地震學(xué)家為該公司提供對(duì)第三塊的調(diào)查結(jié)果,結(jié)果明確指出這塊海洋是否含有石油。該公司愿意為這個(gè)信息支付多少費(fèi)用?調(diào)查結(jié)果以1/n的概率指出第三塊海洋中含有石油,在含石油的情況下,該公司將會(huì)以C/n美元買下第三塊海洋開采權(quán),獲利C-C/n=(n-1)C/n美元。調(diào)查結(jié)果以(n-1)/n的概率指出第三塊海洋不含石油,在不含石油的情況下,該公司將買不同的另一塊,在其余中的另一塊內(nèi)發(fā)現(xiàn)石油的概率從1/n變成1/(n-1),所以該公司的期望獲利是C/(n-1)-C/n=C/n(n-1)美元。期望利潤(rùn):因此,該公司愿意為這個(gè)信息支付最多C/n美元給地震學(xué)家。一條給定信息的價(jià)值:獲得該信息之前和之后的最佳行動(dòng)的期望價(jià)值之間的差。通用公式完全信息價(jià)值(VPI)考慮只有兩個(gè)行動(dòng)a1和a2可供選擇的簡(jiǎn)單情況,兩個(gè)行動(dòng)的當(dāng)前期望效用U1和U2,信息將為行為產(chǎn)生新的期望效用和。假設(shè)a1和a2代表在冬天里穿過(guò)山區(qū)的兩條不同路徑,a1是一條路況較好的筆直的高速公路,a2是一條翻越山頂?shù)膹澢哪喟吐罚唤o定這個(gè)信息,期望效用U1明顯高于U2,獲取關(guān)于每條道路真是狀態(tài)的衛(wèi)星報(bào)告Ej是可能,這將提供關(guān)于兩條穿越途徑的新期望和。如果a1和a2的效用函數(shù)的分布情況如圖(a)。信息收集Agent的實(shí)現(xiàn)一個(gè)明智的Agent應(yīng)該按照合理的次序問(wèn)問(wèn)題,應(yīng)該避免問(wèn)無(wú)關(guān)問(wèn)題。假設(shè)對(duì)于每個(gè)可觀察到的證據(jù)變量,有一個(gè)相關(guān)的代價(jià),基于單位價(jià)值的效用,Agent請(qǐng)求得到那條最有價(jià)值的信息。決策

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論