![強(qiáng)化學(xué)習(xí)導(dǎo)論習(xí)題冊(cè)_第1頁](http://file4.renrendoc.com/view/94c509cc6fec2fa2588fc2dcaf3564b2/94c509cc6fec2fa2588fc2dcaf3564b21.gif)
![強(qiáng)化學(xué)習(xí)導(dǎo)論習(xí)題冊(cè)_第2頁](http://file4.renrendoc.com/view/94c509cc6fec2fa2588fc2dcaf3564b2/94c509cc6fec2fa2588fc2dcaf3564b22.gif)
![強(qiáng)化學(xué)習(xí)導(dǎo)論習(xí)題冊(cè)_第3頁](http://file4.renrendoc.com/view/94c509cc6fec2fa2588fc2dcaf3564b2/94c509cc6fec2fa2588fc2dcaf3564b23.gif)
![強(qiáng)化學(xué)習(xí)導(dǎo)論習(xí)題冊(cè)_第4頁](http://file4.renrendoc.com/view/94c509cc6fec2fa2588fc2dcaf3564b2/94c509cc6fec2fa2588fc2dcaf3564b24.gif)
![強(qiáng)化學(xué)習(xí)導(dǎo)論習(xí)題冊(cè)_第5頁](http://file4.renrendoc.com/view/94c509cc6fec2fa2588fc2dcaf3564b2/94c509cc6fec2fa2588fc2dcaf3564b25.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
強(qiáng)化學(xué)習(xí)導(dǎo)論習(xí)題冊(cè)一、強(qiáng)化學(xué)習(xí)相關(guān)問題.請(qǐng)列舉三個(gè)能夠用強(qiáng)化學(xué)習(xí)框架描述的例子,并確定每個(gè)例子的狀態(tài)、動(dòng)作以及相應(yīng)的回報(bào)值。請(qǐng)盡量列舉三個(gè)不同的例子,并針對(duì)其中一個(gè)例子,歸納在建模過程中的一些限制因素。答:迷宮,俄羅斯方塊等。.強(qiáng)化學(xué)習(xí)框架是否能夠用來描述所有的具有目標(biāo)導(dǎo)向的任務(wù)?如果不可以,你是否可以舉一個(gè)反例?答:可以。.駕駛問題。你可以根據(jù)油門、方向盤、剎車,也就是你身體能接觸到的機(jī)械來定義動(dòng)作?;蛘吣憧梢赃M(jìn)一步定義它們,當(dāng)車子在路上行駛時(shí),將你的動(dòng)作考慮為輪胎的扭矩。你也可以退一步定義它們,首先用你的頭腦控制你的身體,將動(dòng)作定義為通過肌肉抖動(dòng)來控制你的四肢。或者你可以定義一個(gè)高層次的動(dòng)作,比如動(dòng)作就是目的地的選擇。上述哪一個(gè)定義能夠正確描述環(huán)境與Agent之間的界限?哪一個(gè)動(dòng)作的定義比較恰當(dāng),并闡述其原因?答:第一個(gè)動(dòng)作的定義比較恰當(dāng),Agent與環(huán)境的界限是指有Agent所能絕對(duì)控制的的范圍,并不是指有關(guān)Agent所有的信息,題中將司機(jī)抽象成一個(gè)Agent,那么,由司機(jī)所能直接操作的只有油門,剎車和方向盤。.假設(shè)將平衡桿問題抽象成一個(gè)情節(jié)式任務(wù),同時(shí)也添加折扣因子來計(jì)算回報(bào)值(對(duì)于每個(gè)狀態(tài)的立即獎(jiǎng)賞,設(shè)定失敗狀態(tài)的獎(jiǎng)賞為0,其他狀態(tài)的獎(jiǎng)賞為-1)。在該情況下,每個(gè)狀態(tài)的回報(bào)函數(shù)如何設(shè)定?該回報(bào)函數(shù)與公式(3.2)有何不同?答:回報(bào)函數(shù):R=r+Yr+yKr Ykrt t+1 t+2 t+K+1 t+k+1k=0與公式(3.2)的區(qū)別就是,在任務(wù)描述中是否存在吸收狀態(tài),在公式中的體現(xiàn)就是,對(duì)立即獎(jiǎng)賞的累加是否無窮。.機(jī)器人迷宮問題。對(duì)其中的獎(jiǎng)賞做如下設(shè)定,機(jī)器人走出迷宮,獎(jiǎng)賞為+1,而在其它情況下獎(jiǎng)賞為0。這個(gè)任務(wù)看上去可以抽象成一個(gè)情節(jié)式任務(wù)(以走出迷宮作為一個(gè)情節(jié)的結(jié)束),目標(biāo)是將期望回報(bào)值最大化,如公式(3.1)所示。但是在agent學(xué)習(xí)一段時(shí)間后,你會(huì)發(fā)現(xiàn)對(duì)于Agent來說,走出迷宮的任務(wù)毫無進(jìn)展。那么,這里問題出在什么地方?如何做出改進(jìn)提高性能?答:問題出在回報(bào)值的設(shè)定上,題中設(shè)定,機(jī)器人走出迷宮的獎(jiǎng)賞為4,其他情況為0,那么,對(duì)于每個(gè)狀態(tài)來說,根據(jù)公式(3.1),每個(gè)狀態(tài)的回報(bào)值都為+1,因此對(duì)于機(jī)器人的走向沒有任何的導(dǎo)向作用。對(duì)于該問題的改進(jìn)可以使用上個(gè)問題的回報(bào)函數(shù),即添加折扣因子?;蛘?,對(duì)于回報(bào)可以按一下方式進(jìn)行設(shè)定,走出迷宮獎(jiǎng)賞為0,其他情況獎(jiǎng)賞為-1。.破損視覺系統(tǒng)問題。假設(shè)你是一個(gè)視覺系統(tǒng)。當(dāng)你第一次開機(jī)的時(shí)候,一整幅圖像涌入你的攝像頭。你能夠看到很多東西,但不是所有東西,比如你無法看到被某一物體遮擋住的東西,或者是你背后的東西。在你看到第一個(gè)場景之后,你是否可以認(rèn)為,你所接觸的環(huán)境具有馬爾科夫性,其中的狀態(tài)是馬爾科夫狀態(tài)?再假設(shè)你是一個(gè)破損的視覺系統(tǒng),你的攝像頭壞了,這種情況,你接收不到任何影像,那么在這種情況下,是否可以認(rèn)為你所接觸的環(huán)境具有馬爾科夫性,其中的狀態(tài)是馬爾科夫狀態(tài)?
答:如果一個(gè)狀態(tài)包含所有環(huán)境相關(guān)信息,我們就認(rèn)為這個(gè)狀態(tài)具有馬爾科夫性。在第一種情況下,狀態(tài)不具有馬爾科夫性,問題中也強(qiáng)調(diào),視覺系統(tǒng)無法看見遮擋住的和背后的東西,因此,該狀態(tài)不具有馬爾科夫性。在第二種情況下,可以認(rèn)為具有馬爾科夫性,你接收不到不到任何影像,你也可以認(rèn)為你說處的環(huán)境,就是你所感知的,認(rèn)為,你所知道的環(huán)境信息就是包含了所有相關(guān)信息因此,可以認(rèn)為具有馬爾科夫性。7.對(duì)于一個(gè)有限的馬爾科夫決策過程,獎(jiǎng)賞值數(shù)量有限,結(jié)合公式3.5,給出狀態(tài)轉(zhuǎn)移函數(shù)和回報(bào)函數(shù)。7.答:Pass=Pr{s答:Pass=Pr{st+1Rass=E{r|s=s,a=a,s =s'}t+1 tt+18.請(qǐng)給出動(dòng)作值函數(shù)的Bellman等式。冗。等式必須包含。兀(s,a)和Q兀(s',a')。參考回溯圖3.4及公式(3.10)。8.答:Q兀(s,a)=E{RIs=s,a=a}=E{Zykrk=09.10.=E冗{r1+YZYk9.10.=E冗{r1+YZYkrt+k+2k=0ss's'sssssss+y{Zk(s1,a'){Zykrk+2k=0+yZ兀(s1,a')Q九(s1,a')}a根據(jù)Bellman等式(3.10)可以計(jì)算每一個(gè)狀態(tài)的/冗,如圖3.5b所示。比如對(duì)于圖中0.7這個(gè)值來說,可以根據(jù)其四周的+2.3,+0.4,-0.4和+0.7這四個(gè)值計(jì)算得出。試計(jì)算圖中其他值,根據(jù)公式3.10,驗(yàn)證每個(gè)值的正確性。答:略。在例子格子世界中,到達(dá)目標(biāo)狀態(tài)設(shè)定獎(jiǎng)賞為正值,到達(dá)邊界狀態(tài)設(shè)定獎(jiǎng)賞為負(fù)值,其他狀態(tài)獎(jiǎng)賞為0。這樣的設(shè)定是否必要,或者僅僅是為了區(qū)分不同狀態(tài)的回報(bào)值?對(duì)于每個(gè)狀態(tài)的立即獎(jiǎng)賞加上常量C,每個(gè)狀態(tài)的回報(bào)值加上常量K,在不影響每個(gè)狀態(tài)回報(bào)值與立即獎(jiǎng)賞關(guān)系的前提下,試根據(jù)公式(3.2),將K用C和參數(shù)y來表示。答:設(shè)狀態(tài)的回報(bào)值為x,立即獎(jiǎng)賞為yVk(s)+K=Zk(s,a)Zpa[Ra+C+y[Vk(s1)+K]]ssss=C+Zk(s,a)Zpa[Ra+Vk(s,)]+yKsssss=C+Vk(s)+yK即:k=q().考慮在情節(jié)式任務(wù)中,對(duì)每個(gè)狀態(tài)的立即獎(jiǎng)賞加上一個(gè)常量C,比如迷宮問題。這樣對(duì)最終結(jié)果是否有影響?這種情況對(duì)于連續(xù)式任務(wù)是否有影響,比如針對(duì)上一個(gè)問題中的格子世界?給出解釋。答:,對(duì)于最終的結(jié)果沒有影響,通過學(xué)習(xí),最終是要能夠得出一組最優(yōu)策略,而對(duì)于每個(gè)狀態(tài)的具體值是多少不關(guān)注,關(guān)注的是值之間的一個(gè)差異性。.每個(gè)狀態(tài)的狀態(tài)值函數(shù)的值是由當(dāng)前狀態(tài)下的動(dòng)作值函數(shù)的值以及動(dòng)作的選擇概率說確定的。我們可以用一幅回溯圖來表示它們之間的關(guān)系:根據(jù)上圖,給出V九(s)和。兀(s,a)之間的等量關(guān)系。答:V兀(s)=Z九(s,a')0(s,a1)a'.動(dòng)作值函數(shù)的值Q-(s,a)可以被分成兩部分,期望立即獎(jiǎng)賞值,該值不依賴與策廊,和后續(xù)回報(bào)值的累加和,該值依賴于后續(xù)狀態(tài)和策略兀。我們依然用一個(gè)回溯圖來表示,根節(jié)點(diǎn)是一個(gè)動(dòng)作(狀態(tài)-動(dòng)作對(duì)),分支節(jié)點(diǎn)是可能的后續(xù)狀態(tài):茉^ W一酒航硝ooo一^可阻4根據(jù)上圖,給出Q兀(s,a)和V-(s')之間的等量關(guān)系。答:Q-(s,a)=zPa{Ra+yV-(s'))I Isssss.根據(jù)高爾夫球問題,描述最優(yōu)狀態(tài)值函數(shù)。答:對(duì)與每次球的落點(diǎn),根據(jù)動(dòng)作driver和putter所能到達(dá)的不同落點(diǎn)和每個(gè)落點(diǎn)的狀態(tài)值,確定下一個(gè)所要到達(dá)的狀態(tài),并計(jì)算每個(gè)狀態(tài)的狀態(tài)值函數(shù)的值。.根據(jù)高爾夫球問題,針對(duì)Q*(s,putter),描述最優(yōu)動(dòng)作值函數(shù)。答:Q*(s,putter)是指在狀態(tài)s下,采用動(dòng)作putter,根據(jù)所可能到達(dá)的狀態(tài),結(jié)合每個(gè)狀態(tài)所能采取的動(dòng)作,分別是putter和driver,計(jì)算Q*(s,putter).針對(duì)環(huán)保機(jī)器人,給出動(dòng)作值函數(shù)的Bellman等式。答:略。.圖3.8給出格子世界中的最優(yōu)狀態(tài)的最優(yōu)值函數(shù)的值一一24.4。利用你所了解的最優(yōu)策略的知識(shí)和公式(3.2),以數(shù)學(xué)的形式計(jì)算該值,并給出如何利用該值計(jì)算周圍三個(gè)狀態(tài)值。答:設(shè)最優(yōu)狀態(tài)的值為xx=0+0.9*(0.94x)計(jì)算得x=24.4周圍三個(gè)狀態(tài)的值都是x=0+0.9*24.4=22.0二、動(dòng)態(tài)規(guī)劃.假如冗是等概率隨機(jī)策略,試計(jì)算Q九(11,down)和Q兀(7,down).答:Q^(s,a)=工pa[Ra+yV兀(s)]sssssQ九(11,down)=0+0=0Qn(7,down)=—1+(-14)=—15.假設(shè)在表格中狀態(tài)13下方添加一新的狀態(tài)15,動(dòng)作分別是:left,up,right,down,分另ij到達(dá)狀態(tài)12,13,14和15。假設(shè)其他初始狀態(tài)的狀態(tài)轉(zhuǎn)向沒有改變。采用等概率隨機(jī)策略時(shí),V九(15)的值是多少?現(xiàn)假設(shè)狀態(tài)13的狀態(tài)轉(zhuǎn)向發(fā)生變化,即采用down時(shí)從狀態(tài)13到達(dá)狀態(tài)15,采用等概率隨機(jī)策略,V九(15)的值又是多少?答:a.V兀(15)=(-1+V兀(15)+(-1)+V兀(12)+(-1)+V兀(13)+(-1)+V兀(14))/4二(-22+(-20)+(-14)+V兀(15)+(-4))/4解得:V兀(15)=19.67氏20b.V兀(13)=(-4+V兀(12)+V兀(9)+V兀(14)+V兀(14))/4 (1)V兀(15)=((-4)+V兀(15)+V兀(12)+V兀(13)+V兀(14))/4(2)聯(lián)立公式(1)(2)解得:V兀(13)=19.9氏20V兀(15)=19.6氏20注:該題還可以這么考慮,對(duì)于狀態(tài)15來說,其實(shí)完全是等同于沒有加狀態(tài)15之前的狀態(tài)13(從它的狀態(tài)轉(zhuǎn)向和相對(duì)于吸收狀態(tài)的位置,并且當(dāng)狀態(tài)15的值為20,正好滿足最終的穩(wěn)定狀態(tài)時(shí)的值),故,其值應(yīng)該是20。.根據(jù)公式(4.3)、(4.4)和(4.5),試給出對(duì)應(yīng)的動(dòng)作值函數(shù)Q九。答:Q((s,a)=E{R|s=s,a=a}
=E{寸=E{寸ykrIs=s,a=a}k=0=E{r+yQ兀(s1,a')Is=s',a=a'}+yZ兀(s1,a')Q冗(s',a')}a+yZ兀(s1,a1)Q^(s1,a')}ka'sssssQ兀(s,a)=ZPa{Rak+1 ss' sss.(編程)根據(jù)例4.2,并改變以下條件,寫一個(gè)策略迭代的程序解決汽車租賃問題。在租賃一店,有一雇員每晚需要乘公交車回家,而且她的家離租賃二店很近。因此,她很樂意免費(fèi)將一輛車從一店開往二店。對(duì)于其他要移動(dòng)的車輛每次仍然需要花費(fèi)2美圓。另外,jack每地的停車場空間有限。假如每地每晚停放10輛以上的汽車(在汽車移動(dòng)之后),那么就需要使用第二個(gè)停車場,并且需要付額外的4美圓(不管有多少車停在那里)。這類非線性隨機(jī)問題經(jīng)常發(fā)生在現(xiàn)實(shí)生活中,除了動(dòng)態(tài)規(guī)劃方法,其他的最優(yōu)策略一般都很難解決這類問題。為了檢查所編寫的程序,可以先將原始問題所給出的答案復(fù)制下來。假如你的電腦比較慢,你可以將汽車的數(shù)量減半。答:提示:環(huán)境的搭建a.狀態(tài)的表示一一在二維平面中,利用坐標(biāo)表示狀態(tài)b.動(dòng)作的表示一一需要移動(dòng)的車的數(shù)量,區(qū)分正向和反向(假設(shè)正向?yàn)閺囊坏暌苿?dòng)到二店)c.立即獎(jiǎng)賞一一由每天租車的數(shù)量的盈利、移動(dòng)費(fèi)用及停車場費(fèi)用構(gòu)成d.狀態(tài)的遷移一一由兩個(gè)泊松分布及動(dòng)作決定e.動(dòng)作的選擇一一開始采用隨機(jī)策略(方向定為,從車多的店往車少的店移動(dòng))f.初始狀態(tài)的回報(bào)值都設(shè)為0.考慮如何利用策略迭代計(jì)算動(dòng)作值函數(shù)?參考圖4.3計(jì)算V*,試給出一個(gè)完整的算法計(jì)算Q*。答:1、初始化對(duì)于任意seS,n(s)eA(s), Q(s,九(s))eR2、策略評(píng)估RepeatA—0ForeachseSP兀(s)[R兀(s)+yssssn(sP兀(s)[R兀(s)+yssss兀(s')A—max(A,|v-Q(s,n(s))|)UntilA<0(一個(gè)極小的數(shù))3、策略改進(jìn)policy一stable—tureForeachseSb—兀(s)兀(s)-argmax工Pa[Ra+ymaxQ(s1,a')]as'ss'ss' a'Ifbw冗(s)thenpolicy一stable—falseIfpolicy一stablethenstop;elsegoto2.假如僅僅考慮£-soft策略,即在每一狀態(tài)s所選擇一動(dòng)作的概率至少是£/?4s)|。以步驟3-2-1的順序,詳細(xì)描述在圖4.3中的V*的策略迭代算法每步的變化。答:考慮動(dòng)作選擇的概率,并添加至更新公式。.考慮為什么描述賭徒問題最優(yōu)策略的曲線會(huì)如圖4.6所示?比如,當(dāng)賭徒的資金數(shù)是50美元的時(shí)候,他一次性壓上所有的資金,但是當(dāng)他的資金數(shù)是51美元的時(shí)候他卻不這么做。試說明為什么說這是一個(gè)比較好的策略?答:(1)根據(jù)問題的描述,賭徒問題的最終目標(biāo)是能夠贏取100美元,那么對(duì)于策略來說,要求該策略使得賭徒在每一個(gè)狀態(tài)下,能夠獲得盡量大的贏取概率,這里的贏取概率其實(shí)就是回報(bào)值。參考圖4.6的上圖,我們發(fā)現(xiàn),對(duì)于下圖的策略,上圖的贏取概率一直在增加,我們可以認(rèn)為這是一個(gè)比較好的策略。(2)其實(shí)判斷一個(gè)策略的好壞,-在4.2節(jié)中,我們知道,可以通過計(jì)算Q(s,a)來判斷。.(編程)編程實(shí)現(xiàn),當(dāng)p=0.25和p=0.55,得到賭徒問題的最優(yōu)策略。程序執(zhí)行后,你將很容易解釋兩個(gè)假定的最終狀態(tài),最后資金數(shù)分別是0和100,反饋值分別設(shè)定為0和1。將你的結(jié)果表示的如同圖4.6一樣。觀察你的策略是否穩(wěn)定,即。-0?答:提示:環(huán)境的搭建a.狀態(tài)的表示一一賭徒手中的資金數(shù)目b.動(dòng)作的表示——ae{1,2,,min(s,100-s)}c.立即獎(jiǎng)賞一一當(dāng)資金數(shù)達(dá)到100,獎(jiǎng)賞為1,其他為0d.狀態(tài)的遷移一一賭徒手中資金的改變e.動(dòng)作的選擇一一開始采用隨機(jī)策略(從可選動(dòng)作中隨機(jī)選擇)f.初始狀態(tài)的回報(bào)值都設(shè)為0.參考公式(4.10),試給出動(dòng)作值函數(shù)的迭代公式Qk+1(s,a)答:Q兀(s,a)=Epa{Ra+ymaxQr(s1,a')}k+1 ss'ss' ,k, as三、蒙特卡羅.考慮圖5.2中右邊的兩幅圖表,為什么值函數(shù)在尾部最后兩行突然跳高?為什么在最左邊一行值又下降了?為什么上圖中最突出的值要比下圖還要大?答:Qsum=20或21時(shí),player’spolicyissticks,此時(shí)Return=1的幾率較大,獲勝的概率較大;?dealer爆點(diǎn)的概率小,獲勝的概率大。因?yàn)锳ce即可以當(dāng)1用,又可當(dāng)11用。Q有Ace時(shí)爆點(diǎn)的概率小,獲勝的概率大。因?yàn)锳ce即可以當(dāng)1用,又可當(dāng)11用。.蒙特卡羅估計(jì)Qn值的回溯圖是什么樣的?答:如下圖?!雎逯?fàn)顟B(tài).已知策略n’下產(chǎn)生的返回值,則與(5.3)類似的蒙特卡羅對(duì)動(dòng)作值的估計(jì)計(jì)算式是什么?答:Letp(s,a)和p'(s,a)denotetheprobabilitiesofthatcompletesequencehappeninggivenpolicies冗和冗'andstartingfroms,takingactiona。En.3)R(s)“'(s'a)iQ(s,a)=———7—r—Zn乙(s,a)i=1p'(s,a)i其中,在時(shí)刻takskk+1Pakskk+1Pa
tstst+1Patstst+1k=t+1—THnf(s,a)Pk=t+1ak'k.sk.+1k=t+1s^st+1k=t+1((嚇s)isthetimeofterminationoftheithepisodeinvolvingstates.).跑道問題(編程)答:略。.修改first-visitMC策略估計(jì)(圖5.1)算法,使用2.5節(jié)中介紹的靜態(tài)平均值的增量實(shí)現(xiàn)技術(shù)。答:如下圖。初始化:n一要被估計(jì)的策略V-0無限次重復(fù):(a)使用策略n產(chǎn)生一個(gè)episode(b)對(duì)于出現(xiàn)在該episode中的每個(gè)狀態(tài)sR-伴隨s第一次發(fā)生的返回值V(s)=V(s)+」(R-V(s))n+1 nn+1n用first-visitMC算法來估計(jì)Vn(增量實(shí)現(xiàn))6.按照從(2.1)式中獲得不加權(quán)規(guī)則(2.4)式的形式,從(5.4)式中得到對(duì)平均值加權(quán)的更新規(guī)則(5.5)。答:£n+1WRV =—^=1——k_kn+1 2n+1w
TOC\o"1-5"\h\z\o"CurrentDocument"Zn^R+wRV?w+wRVW-w]+wR k^1 k k n+1 n+1 =—n n n+4—n11= -n n+4 n+4 n+4—n+4w w wn+1 n+1 n+1=V+^n^R —V]n JW n+1 nn+17.修改off-policy蒙特卡羅控制算法(圖5.7),使之能使用上面介紹的算法來遞增計(jì)算加權(quán)的平均值。答:如下圖。初始化,對(duì)于任意s S,a°A(s):Q(s,a)^任意值n一任意的一個(gè)確定的策略無限次重復(fù):(a) 選擇一個(gè)策略n'并用它產(chǎn)生片段s0,a0,r1,s1,a1,r2,-,sT-1,aT-1,rT,sT(b)(c)t(b)(c)對(duì)于在時(shí)間T或t后出現(xiàn)在片段中的每對(duì)s,a:t~t時(shí)間之后,第一次出現(xiàn)的s,a的時(shí)間,t>t對(duì)于第n個(gè)episodeif1—nElseW=w+W1Q(s,aQ(s,a)n「w^0-Q(s,a)nJ'nd) 對(duì)于每個(gè)sCS:n(s)—argmaxaQ(s,a)四、TD學(xué)習(xí).這個(gè)練習(xí)是幫助你去形成一種直覺,這種直覺是關(guān)于為什么時(shí)間差分方法比蒙特卡羅方法更有效??紤]駕車回家的例子,它是怎樣被時(shí)間差分方法和蒙特卡羅方法表述的。你能夠想象這樣一個(gè)場景,在這個(gè)場景中,時(shí)間差分更新平均優(yōu)于蒙特卡羅方法嗎?給出一個(gè)示例場景一一對(duì)過去經(jīng)驗(yàn)的描述和一個(gè)當(dāng)前狀態(tài)一一在其中你期望時(shí)間差分更新更好。提示:假設(shè)你有許多駕車回家的經(jīng)驗(yàn)。后來你搬到了一幢新樓,停車地點(diǎn)也發(fā)生了變化(但是你仍然在相同的地方進(jìn)入高速公路)。現(xiàn)在你正在學(xué)習(xí)這個(gè)新樓的預(yù)計(jì)值。在這種情況下至少是在最初時(shí),你能看到為什么時(shí)間差分更新可能更好一點(diǎn)嗎?可能這個(gè)相同類型的事件發(fā)生在初始任務(wù)。答:略.從圖6.6可以看出第一個(gè)片段僅僅導(dǎo)致V(A)的改變。通過第一個(gè)情節(jié)之后,能說明什么問題?為什么只有第一個(gè)狀態(tài)的估計(jì)改變呢?它準(zhǔn)確地改變了多少呢?答:1)在第一個(gè)情節(jié)中,Agent向左移動(dòng)一步,并到達(dá)左邊的吸收狀態(tài),情節(jié)結(jié)束2)Agent向左移動(dòng)一步,并到達(dá)左邊的吸收狀態(tài),情節(jié)結(jié)束,并沒有達(dá)到其他狀態(tài),因此其他狀態(tài)的V值沒有發(fā)生變化3)計(jì)算公式如下:V(A)=V(A)+a(R+yV(T)-V(A))=0.5+0.1*(0+0-0.5)=0.45.你認(rèn)為通過選擇不同的步長參數(shù)a,但仍然保持是一個(gè)常量的話,算法能明顯地比圖6.7中所示的效果更好嗎?為什么或者為什么不呢?答:步長參數(shù)體現(xiàn)當(dāng)前樣本對(duì)整個(gè)樣本空間的影響,a值越大,表明當(dāng)前樣本對(duì)整個(gè)樣本空間的影響越大,反之亦然。且當(dāng)a值越大時(shí),算法的收斂速度越快,同時(shí)收斂效果變差,當(dāng)a值越小時(shí),算法的收斂速度越慢,同時(shí)收斂效果變號(hào),這個(gè)通過圖6.7可以看出。.在圖6.7中,TD方法的RMS誤差似乎先減少然后又增加,特別是在高的一中。什么導(dǎo)致這個(gè)結(jié)果的發(fā)生呢?你認(rèn)為這是一直發(fā)生的呢,還是這可能是一個(gè)函數(shù)關(guān)于近似值函數(shù)怎樣初始化的問題呢?答:一直會(huì)發(fā)生,但并不是一直增加,可能在某一個(gè)時(shí)刻,曲線又出現(xiàn)下降的趨勢。當(dāng)a值越大,表明當(dāng)前樣本對(duì)整個(gè)樣本空間的影響越大,反之亦然。因此,當(dāng)a值較大,并且算法趨近于收斂時(shí),如果當(dāng)前的樣本較差,就容易使得收斂曲線發(fā)生震蕩。.我們上面所述的隨機(jī)行走任務(wù)的對(duì)a到e的所有狀態(tài)的真實(shí)值是16,26,36,46和56。至少用兩種可以計(jì)算的方式來描述。你猜哪種實(shí)際上我們已經(jīng)用過了呢?為什么?答:1)先確定V(C)的值為0.51
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中藥烏藥課件
- 2025-2030全球SCR 尿素系統(tǒng)行業(yè)調(diào)研及趨勢分析報(bào)告
- 2025年全球及中國魚塘凈水器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國汽車裸眼3D儀表行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 房屋買賣合同和房產(chǎn)證
- 環(huán)保水務(wù)項(xiàng)目投資開發(fā)合同
- 政府采購印刷合同
- 2025布料購銷合同范本
- 贊助合同協(xié)議書范文
- 20256墩自檢:現(xiàn)場委托合同(基樁低應(yīng)變) 自檢
- 醫(yī)院工程施工重難點(diǎn)分析及針對(duì)性措施
- 2025年春節(jié)安全專題培訓(xùn)(附2024年10起重特大事故案例)
- 2025年江蘇太倉水務(wù)集團(tuán)招聘筆試參考題庫含答案解析
- 遼寧省沈陽名校2025屆高三第一次模擬考試英語試卷含解析
- 《中小學(xué)校園食品安全和膳食經(jīng)費(fèi)管理工作指引》專題知識(shí)培訓(xùn)
- 2024年新疆區(qū)公務(wù)員錄用考試《行測》真題及答案解析
- 第三章-自然語言的處理(共152張課件)
- 行政事業(yè)單位國有資產(chǎn)管理辦法
- 六年級(jí)口算訓(xùn)練每日100道
- 高一生物生物必修一全冊(cè)考試題帶答題紙答案
- 北師大版五年級(jí)上冊(cè)四則混合運(yùn)算100道及答案
評(píng)論
0/150
提交評(píng)論