采用分類經(jīng)驗(yàn)回放的深度確定性策略梯度方法_第1頁(yè)
采用分類經(jīng)驗(yàn)回放的深度確定性策略梯度方法_第2頁(yè)
已閱讀5頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、采用分類經(jīng)驗(yàn)回放的深度確定性策略梯度方法強(qiáng)化學(xué)習(xí)(Reinforcement learning, RL)中, Agent采用“試錯(cuò)”的方式與環(huán)境進(jìn)行交互, 通過(guò)從環(huán)境中獲得最大化累積獎(jiǎng)賞尋求最優(yōu)策略1. RL算法根據(jù)Agent當(dāng)前所處狀態(tài)求解可執(zhí)行動(dòng)作, 因此RL適用于序貫決策問(wèn)題的求解2. 利用具有感知能力的深度學(xué)習(xí)作為RL狀態(tài)特征提取的工具, 二者結(jié)合形成的深度強(qiáng)化學(xué)習(xí)(Deep reinforcement learning, DRL)算法是目前人工智能領(lǐng)域研究的熱點(diǎn)之一3-4.在線DRL算法采用增量式方法更新網(wǎng)絡(luò)參數(shù), 通過(guò)Agent與環(huán)境交互產(chǎn)生經(jīng)驗(yàn)樣本e=(st,at,e=(st,a

2、t,rt,st+1)rt,st+1), 直接將此樣本用于訓(xùn)練網(wǎng)絡(luò)參數(shù), 在一次訓(xùn)練后立即丟棄傳入的數(shù)據(jù)5. 然而此方法存在兩個(gè)問(wèn)題: 1)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)要求滿足獨(dú)立同分布, 而強(qiáng)化學(xué)習(xí)中產(chǎn)生的數(shù)據(jù)樣本之間具有時(shí)序相關(guān)性. 2)數(shù)據(jù)樣本使用后立即丟棄, 使得數(shù)據(jù)無(wú)法重復(fù)利用. 針對(duì)以上問(wèn)題, Mnih等6采用經(jīng)驗(yàn)回放的方法, 使用經(jīng)驗(yàn)緩沖池存儲(chǔ)經(jīng)驗(yàn)樣本, 通過(guò)隨機(jī)選取經(jīng)驗(yàn)樣本進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練. 然而經(jīng)驗(yàn)回放方法中未考慮不同經(jīng)驗(yàn)樣本具有不同的重要性, 隨機(jī)選取無(wú)法充分利用對(duì)網(wǎng)絡(luò)參數(shù)更新作用更大的經(jīng)驗(yàn)樣本. Schaul等7根據(jù)經(jīng)驗(yàn)樣本的重要性程度賦予每個(gè)樣本不同的優(yōu)先級(jí), 通過(guò)頻繁選取優(yōu)先級(jí)高

3、的經(jīng)驗(yàn)樣本提高神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度. 優(yōu)先級(jí)經(jīng)驗(yàn)回放一方面增加了對(duì)經(jīng)驗(yàn)樣本賦予和更改優(yōu)先級(jí)的操作, 另一方面需要掃描經(jīng)驗(yàn)緩沖池以獲取優(yōu)先級(jí)高的經(jīng)驗(yàn)樣本, 因此增加了算法的時(shí)間復(fù)雜度. 與優(yōu)先級(jí)經(jīng)驗(yàn)回放不同, 本文提出的分類經(jīng)驗(yàn)回放方法對(duì)不同重要性程度的經(jīng)驗(yàn)樣本分類存儲(chǔ). 將此方法應(yīng)用于深度確定性策略梯度(Deep deterministic policy gradient, DDPG)算法中, 提出了采用分類經(jīng)驗(yàn)回放的深度確定性策略梯度(Deep deterministic policy gradient with classified experience replay, CER-DDPG)方法

4、. CER-DDPG采用兩種分類方式: 1)根據(jù)經(jīng)驗(yàn)樣本中的時(shí)序差分誤差(Temporal difference-error, TD-error); 2)基于立即獎(jiǎng)賞值進(jìn)行分類. 其中, TD-error代表Agent從當(dāng)前狀態(tài)能夠獲得的學(xué)習(xí)進(jìn)度, RL經(jīng)典算法Sarsa、Q-leaning均采用一步自舉的方式計(jì)算TD-error實(shí)現(xiàn)算法收斂. CER-DDPG中, 將大于TD-error平均值或立即獎(jiǎng)賞平均值的經(jīng)驗(yàn)樣本存入經(jīng)驗(yàn)緩沖池1中, 其余存入經(jīng)驗(yàn)緩沖池2中. 網(wǎng)絡(luò)訓(xùn)練時(shí)每批次從經(jīng)驗(yàn)緩沖池1中選取更多數(shù)量的樣本, 同時(shí)為保證樣本的多樣性, 從經(jīng)驗(yàn)緩沖池2中選取少量的經(jīng)驗(yàn)樣本, 以此替代優(yōu)

5、先級(jí)經(jīng)驗(yàn)回放中頻繁選取優(yōu)先級(jí)高的經(jīng)驗(yàn)樣本. 分類經(jīng)驗(yàn)回放方法具有和普通經(jīng)驗(yàn)回放方法相同的時(shí)間復(fù)雜度, 且未增加空間復(fù)雜度.本文主要貢獻(xiàn)如下:1) 采用雙經(jīng)驗(yàn)緩沖池存儲(chǔ)經(jīng)驗(yàn)樣本, 并根據(jù)經(jīng)驗(yàn)樣本中的TD-error和立即獎(jiǎng)賞值完成對(duì)樣本的分類;2) 從每個(gè)經(jīng)驗(yàn)緩沖池中選取不同數(shù)量的經(jīng)驗(yàn)樣本進(jìn)行網(wǎng)絡(luò)參數(shù)更新;3) 在具有連續(xù)動(dòng)作空間的RL任務(wù)中進(jìn)行實(shí)驗(yàn), 結(jié)果表明, 相比隨機(jī)采樣的DDPG算法, 本文提出的基于時(shí)序差分誤差樣本分類的深度確定性策略梯度方法(DDPG with temporal difference-errer classification, TDC-DDPG)和基于立即獎(jiǎng)賞樣本分類

6、的深度確定性策略梯度方法(DDPG with reward classification, RC-DDPG)能夠取得更好的實(shí)驗(yàn)效果. 并與置信區(qū)域策略優(yōu)化(Trust region policy optimization, TRPO)算法以及近端策略優(yōu)化(Proximal policy optization, PPO)算法進(jìn)行比較, 進(jìn)一步證明了本文所提出算法的有效性.1. 背景1.1 強(qiáng)化學(xué)習(xí)馬爾科夫決策過(guò)程(Markov decision process, MDP)是序貫決策的經(jīng)典形式, 其中動(dòng)作不僅影響到立即獎(jiǎng)賞, 同樣影響后續(xù)的狀態(tài)或動(dòng)作, 以及采取后續(xù)動(dòng)作所獲得的未來(lái)獎(jiǎng)賞. 因此,

7、通常使用MDP對(duì)RL問(wèn)題進(jìn)行建模, 將RL問(wèn)題定義為一個(gè)五元組(S,A,P,R,)(S,A,P,R,).SS表示狀態(tài)空間,AA表示動(dòng)作空間,P:SAS0,1P:SAS0,1表示狀態(tài)遷移概率,R:SARR:SAR為獎(jiǎng)賞函數(shù),為折扣因子8. 通過(guò)MDP可以構(gòu)建Agent與環(huán)境的交互過(guò)程, 每一離散時(shí)間步tt, Agent接收到來(lái)自環(huán)境的狀態(tài)表示stst, 在此基礎(chǔ)上執(zhí)行動(dòng)作atat. 該時(shí)間步之后, Agent收到來(lái)自環(huán)境反饋的標(biāo)量化獎(jiǎng)賞rtrt并處于下一狀態(tài)st+1st+1.Agent執(zhí)行的動(dòng)作由策略定義, 策略為狀態(tài)映射到每個(gè)動(dòng)作的概率:SP(A)SP(A). RL的目標(biāo)為求解最優(yōu)策略, 在遵

8、循策略的情況下能夠獲得最大的累積獎(jiǎng)賞Gt=Tt=tttr(st,at)Gt=t=tTttr(st,at), 其中,TT表示該情節(jié)終止時(shí)間步.狀態(tài)動(dòng)作值函數(shù)Q(s,a)Q(s,a)表示Agent在當(dāng)前狀態(tài)stst下執(zhí)行動(dòng)作atat, 遵循策略所獲得的期望累積獎(jiǎng)賞Q(s,a)=EGt|st=s,at=a(1)Q(s,a)Q(s,a)滿足具有遞歸屬性的貝爾曼方程Q(s,a)=Ert+1+Q(st+1,at+1)|st=s,at=a(2)迭代計(jì)算貝爾曼方程可實(shí)現(xiàn)值函數(shù)的收斂. 當(dāng)前時(shí)刻狀態(tài)動(dòng)作估計(jì)值函數(shù)與更好地估計(jì)rt+1+rt+1+Q(st+1,at+1)Q(st+1,at+1)之間的誤差稱為T(mén)D-

9、errort=rt+1+Q(st+1,at+1)Q(st,at)(3)通過(guò)求解狀態(tài)動(dòng)作值函數(shù)僅局限于解決具有離散動(dòng)作空間的RL問(wèn)題, 面對(duì)具有連續(xù)動(dòng)作空間的RL問(wèn)題, 策略梯度方法提供了解決問(wèn)題的方式9.1.2 深度確定性策略梯度方法RL算法分為基于值函數(shù)和基于策略兩種方法. 基于策略的方法可以解決大狀態(tài)動(dòng)作空間或連續(xù)動(dòng)作空間RL問(wèn)題10. 確定性策略梯度(Deterministic policy gradient, DPG)方法以行動(dòng)者評(píng)論家(Actor-critic, AC)算法為基礎(chǔ), 通過(guò)行動(dòng)者將狀態(tài)映射到特定動(dòng)作, 評(píng)論家利用貝爾曼方程實(shí)現(xiàn)值函數(shù)的收斂11-12.DDPG中, 使用深

10、度神經(jīng)網(wǎng)絡(luò)作為非線性函數(shù)逼近器構(gòu)造行動(dòng)者(s|)(s|)和評(píng)論家Q(s,a|Q)Q(s,a|Q)的網(wǎng)絡(luò)模型. 受到深度Q網(wǎng)絡(luò)(Deep Q-network, DQN)的啟發(fā), 設(shè)置行動(dòng)者目標(biāo)網(wǎng)絡(luò)(s|)(s|)和評(píng)論家目標(biāo)網(wǎng)絡(luò)Q(s,a|Q)Q(s,a|Q). 由于DPG中行動(dòng)者將狀態(tài)映射到確定動(dòng)作, 因此解決連續(xù)動(dòng)作空間RL任務(wù)存在缺乏探索性問(wèn)題13. DDPG算法通過(guò)添加獨(dú)立于行動(dòng)者網(wǎng)絡(luò)的探索噪聲NoiseNoise構(gòu)造具有探索性的行動(dòng)者網(wǎng)絡(luò)14(st)=(st|)+Noise(4)網(wǎng)絡(luò)模型學(xué)習(xí)時(shí), 評(píng)論家網(wǎng)絡(luò)通過(guò)最小化損失函數(shù)L(Q)L(Q)更新網(wǎng)絡(luò)參數(shù)L(Q)=Est,at,rt,st

11、+1D(ytQ(st,at|Q)2(5)其中,yt=r(st,at)+Q(st+1,(st+1|)|Q)(6)行動(dòng)者網(wǎng)絡(luò)采用蒙特卡羅方法進(jìn)行采樣以逼近期望值, 可通過(guò)鏈?zhǔn)椒▌t近似更新行動(dòng)者網(wǎng)絡(luò)參數(shù), 如式(7)所示J()=1NiaQ(s,a|Q)|s=si,a=(si)(s|)|si(7)目標(biāo)網(wǎng)絡(luò)采用“soft”更新方式, 通過(guò)緩慢跟蹤學(xué)習(xí)的網(wǎng)絡(luò)更新參數(shù)+(1)(8)“soft”更新方式使得不穩(wěn)定問(wèn)題更接近于監(jiān)督學(xué)習(xí), 雖減慢了目標(biāo)網(wǎng)絡(luò)參數(shù)更新速度, 但在學(xué)習(xí)過(guò)程中能夠獲得更好的穩(wěn)定性.DDPG同樣用到了經(jīng)驗(yàn)回放機(jī)制, 將行動(dòng)者網(wǎng)絡(luò)與環(huán)境交互產(chǎn)生的經(jīng)驗(yàn)樣本e=(st,at,rt,st+1)e=

12、(st,at,rt,st+1)存入經(jīng)驗(yàn)緩沖池中, 網(wǎng)絡(luò)訓(xùn)練時(shí)通過(guò)從經(jīng)驗(yàn)緩沖池中隨機(jī)選取每批次經(jīng)驗(yàn)樣本用于網(wǎng)絡(luò)參數(shù)的更新. 隨機(jī)選取方式未考慮不同經(jīng)驗(yàn)樣本的重要性, 如何更有效利 用緩沖池中的樣本數(shù)據(jù)成為經(jīng)驗(yàn)回放機(jī)制面臨的主要挑戰(zhàn).2. 采用分類經(jīng)驗(yàn)回放的DDPG算法本節(jié)將介紹CER-DDPG算法的思想和結(jié)構(gòu), 對(duì)采用的分類方法分析說(shuō)明, 最后描述算法流程并分析.2.1 分類經(jīng)驗(yàn)回放經(jīng)驗(yàn)回放機(jī)制在消除數(shù)據(jù)樣本之間關(guān)聯(lián)性的同時(shí)能夠提高樣本利用率. 在Agent與環(huán)境交互產(chǎn)生的經(jīng)驗(yàn)樣本中, 不同經(jīng)驗(yàn)樣本對(duì)網(wǎng)絡(luò)訓(xùn)練所起作用不同, 某些經(jīng)驗(yàn)樣本比其他經(jīng)驗(yàn)樣本更能有效地促進(jìn)網(wǎng)絡(luò)模型學(xué)習(xí). 等概率選取每一個(gè)

13、經(jīng)驗(yàn)樣本會(huì)在簡(jiǎn)單樣本上花費(fèi)較多的時(shí)間, 增加了算法訓(xùn)練時(shí)間步數(shù). 因此, 本文所提出的分類經(jīng)驗(yàn)回放方法最主要的一點(diǎn)是對(duì)不同重要性程度經(jīng)驗(yàn)樣本分類存放, 在網(wǎng)絡(luò)模型學(xué)習(xí)時(shí)分別從不同類別經(jīng)驗(yàn)樣本中選取每批次樣本數(shù)據(jù). 對(duì)于重要性程度高的經(jīng)驗(yàn)樣本, 每批次以較多數(shù)量選取, 同時(shí)為保證樣本數(shù)據(jù)多樣性, 每批次選取少量重要性程度低的經(jīng)驗(yàn)樣本.TDC-DDPG中, 使用兩個(gè)經(jīng)驗(yàn)緩沖池存放經(jīng)驗(yàn)樣本. 初始化網(wǎng)絡(luò)模型時(shí), 將兩個(gè)經(jīng)驗(yàn)緩沖池中所有樣本TD-error的平均值設(shè)置為0. 每產(chǎn)生一條新的經(jīng)驗(yàn)樣本, 首先更新所有經(jīng)驗(yàn)樣本TD-error的平均值, 再將該條樣本數(shù)據(jù)的TD-error與平均值進(jìn)行比較,

14、若該經(jīng)驗(yàn)樣本中的TD-error大于所有樣本TD-error的平均值, 則將該樣本存入經(jīng)驗(yàn)緩沖池1中, 否則存入經(jīng)驗(yàn)緩沖池2中.RC-DDPG方法根據(jù)經(jīng)驗(yàn)樣本中的立即獎(jiǎng)賞值進(jìn)行分類, 具體分類方法與TDC-DDPG方法相同. CER-DDPG算法結(jié)構(gòu)如圖1所示.圖1CER-DDPG算法結(jié)構(gòu)示意圖Fig.1CER-DDPG algorithm structure diagram圖1中, 在每一時(shí)間步tt, 行動(dòng)者網(wǎng)絡(luò)執(zhí)行動(dòng)作atat, 產(chǎn)生經(jīng)驗(yàn)樣本e=(st,at,rt,st+1)e=(st,at,rt,st+1)后, 首先對(duì)該樣本數(shù)據(jù)進(jìn)行分類, 然后再進(jìn)行存儲(chǔ)操作. 優(yōu)先級(jí)經(jīng)驗(yàn)回放中使用一個(gè)經(jīng)

15、驗(yàn)緩沖池存儲(chǔ)所有經(jīng)驗(yàn)樣本, 根據(jù)樣本不同重要性程度賦予每個(gè)樣本不同優(yōu)先級(jí), 網(wǎng)絡(luò)訓(xùn)練時(shí)掃描經(jīng)驗(yàn)緩沖池獲取經(jīng)驗(yàn)樣本, 通過(guò)更頻繁地選取優(yōu)先級(jí)高的樣本加快網(wǎng)絡(luò)模型訓(xùn)練速度. CER-DDPG方法在經(jīng)驗(yàn)樣本存儲(chǔ)前, 將其按照重要性程度分類, 減少了賦予以及更改優(yōu)先級(jí)的操作, 并且在選取每批次數(shù)據(jù)樣本時(shí)從不同經(jīng)驗(yàn)緩沖池中隨機(jī)選取, 不需要掃描經(jīng)驗(yàn)緩沖池, 能夠獲取高重要性程度經(jīng)驗(yàn)樣本的同時(shí)減少了算法時(shí)間復(fù)雜度.分類經(jīng)驗(yàn)回放中最關(guān)鍵的是經(jīng)驗(yàn)樣本分類的衡量標(biāo)準(zhǔn). 本文提出的CER-DDPG方法分別采用經(jīng)驗(yàn)樣本中的TD-error和立即獎(jiǎng)賞值對(duì)樣本進(jìn)行分類.1) TD-error經(jīng)驗(yàn)樣本分類. DDPG算法

16、中, 評(píng)論家采用時(shí)序差分誤差的形式對(duì)行動(dòng)者網(wǎng)絡(luò)做出的動(dòng)作選擇進(jìn)行評(píng)價(jià), 網(wǎng)絡(luò)參數(shù)更新時(shí)使用一步自舉的方式計(jì)算TD-error, TD-error反映了Agent從當(dāng) 前狀態(tài)經(jīng)驗(yàn)樣本中的學(xué)習(xí)進(jìn)度, 利用TD-error尤其適用于增量式DRL算法參數(shù)的更新. 因此, TDC-DDPG中根據(jù)經(jīng)驗(yàn)樣本TD-error進(jìn)行分類, 認(rèn)為T(mén)D-error大的經(jīng)驗(yàn)樣本對(duì)神經(jīng)網(wǎng)絡(luò)參數(shù)更新幅度更大, 重要性程度更高, 并將TD-error值大于平均值的經(jīng)驗(yàn)樣本存入經(jīng)驗(yàn)緩沖池1中.2)立即獎(jiǎng)賞經(jīng)驗(yàn)樣本分類. 神經(jīng)科學(xué)研究表明嚙齒動(dòng)物在清醒或睡眠期間海馬體中會(huì)重播先前經(jīng)歷的序列, 與獎(jiǎng)賞相關(guān)的序列會(huì)更頻繁地被重播15

17、-16. 受到該觀點(diǎn)啟發(fā), RC-DDPG方法中根據(jù)經(jīng)驗(yàn)樣本中的立即獎(jiǎng)賞值對(duì)樣本進(jìn)行分類, 認(rèn)為立即獎(jiǎng)賞值大的經(jīng)驗(yàn)樣本重要性程度更高, 將立即獎(jiǎng)賞值大于平均值的經(jīng)驗(yàn)樣本存入經(jīng)驗(yàn)緩沖池1中, 其余存入經(jīng)驗(yàn)緩沖池2中.2.2 算法為更有效地利用經(jīng)驗(yàn)樣本以及提高經(jīng)驗(yàn)回放機(jī)制的效率, 將對(duì)經(jīng)驗(yàn)樣本的分類方法應(yīng)用到DDPG算法中, 提出的CER-DDPG算法描述如算法1所示:算法1. 采用分類經(jīng)驗(yàn)回放的深度確定性策略梯度方法1) 初始化行動(dòng)者網(wǎng)絡(luò)(s|)(s|)和評(píng)論家網(wǎng)絡(luò)Q(s,a|Q)Q(s,a|Q), 目標(biāo)網(wǎng)絡(luò)參數(shù)和QQQQ, 經(jīng)驗(yàn)緩沖池D1D1,D2D2, 批次抽樣數(shù)量N1N1,N2N2, 折扣

18、因子, 最大情節(jié)數(shù)EE, 每情節(jié)最大時(shí)間步TmaxTmax.2)forepisode=1,Edoforepisode=1,Edo3)初始化探索噪聲NoiseNoise4)獲取初始狀態(tài)stst5)fort=1,Tmaxdofort=1,Tmaxdo6)選擇動(dòng)作at=(st|)+Noiseat=(st|)+Noise7)執(zhí)行動(dòng)作atat, 獲得立即獎(jiǎng)賞rtrt和下一狀態(tài)st+1st+18)根據(jù)經(jīng)驗(yàn)樣本ei=(st,at,rt,st+1)ei=(st,at,rt,st+1)的TD-error 或rtrt分類并存入經(jīng)驗(yàn)緩沖池D1D1或D2D2中9)從D1D1中選取N1N1個(gè)經(jīng)驗(yàn)樣本,D2D2中選取N2

19、N2個(gè)經(jīng) 驗(yàn)樣本10) 計(jì)算yi=ri+Q(st+1,(st+1|)|Q)yi=ri+Q(st+1,(st+1|)|Q)11) 通過(guò)最小化損失函數(shù)L(Q)L(Q)更新評(píng)論家網(wǎng)絡(luò)參數(shù):L(Q)=Est,at,rt,st+1(yiQ(si,ai|Q)212) 通過(guò)策略梯度方法更新行動(dòng)者網(wǎng)絡(luò):J()1NiaQ(s,a|Q)|s=si,a=(si)(s|)|si13) 更新目標(biāo)網(wǎng)絡(luò):QQ+(1)Q+(1)14)endforendfor15)endforendfor算法1中, 第3步為對(duì)行動(dòng)者網(wǎng)絡(luò)添加探索噪聲過(guò)程, 第5757步為產(chǎn)生經(jīng)驗(yàn)樣本的過(guò)程, 第8989步為經(jīng)驗(yàn)樣本的分類和獲取過(guò)程, 第1013

20、1013步為網(wǎng)絡(luò)模型學(xué)習(xí)過(guò)程.由于不同任務(wù)中Agent每一時(shí)刻獲得的立即獎(jiǎng)賞值不同, 因此產(chǎn)生的經(jīng)驗(yàn)樣本TD-error和立即獎(jiǎng)賞值存在差異, 難以采用固定數(shù)值作為分類的衡量標(biāo)準(zhǔn). CER-DDPG方法中, 使用TD-error和立即獎(jiǎng)賞平均值進(jìn)行樣本分類, 并且在產(chǎn)生經(jīng)驗(yàn)樣本過(guò)程中不斷更新TD-error和立即獎(jiǎng)賞平均值, 能夠動(dòng)態(tài)性地將不同經(jīng)驗(yàn)樣本準(zhǔn)確分類. 分類經(jīng)驗(yàn)回放方法相比普通經(jīng)驗(yàn)回放方法僅增加了O(1)O(1)的時(shí)間復(fù)雜度, 可忽略不計(jì). 優(yōu)先級(jí)經(jīng)驗(yàn)回放中根據(jù)優(yōu)先級(jí)大小頻繁選取優(yōu)先級(jí)高的經(jīng)驗(yàn)樣本, CER-DDPG方法通過(guò)每批次從經(jīng)驗(yàn)緩沖池1中選取較多樣本數(shù)量同樣能夠選取到重要性程

21、度高的樣本, 與優(yōu)先級(jí)經(jīng)驗(yàn)回放相比, CER-DDPG方法效率更高.3. 實(shí)驗(yàn)為驗(yàn)證CER-DDPG方法的有效性, 在OpenAI Gym工具包中MuJoCo環(huán)境下進(jìn)行實(shí)驗(yàn)測(cè)試. MuJoCo環(huán)境包含了一系列具有連續(xù)動(dòng)作空間的RL任務(wù), 本文分別在HalfCheetah、Ant、Humanoid、Walker、Hopper和Swimmer任務(wù)中進(jìn)行測(cè)試. 實(shí)驗(yàn)以深度確定性策略梯度(DDPG)算法作為baseline, 分別以TD-error分類的深度確定性策略梯度(TDC-DDPG)方法和立即獎(jiǎng)賞分類的深度確定性策略梯度(RC-DDPG)方法進(jìn)行對(duì)比實(shí)驗(yàn).3.1 實(shí)驗(yàn)參數(shù)設(shè)置為保證實(shí)驗(yàn)對(duì)比公平

22、性, 本文實(shí)驗(yàn)參數(shù)設(shè)置與參考文獻(xiàn)中DDPG算法一致, TRPO與PPO算法來(lái)自O(shè)penAI baselines算法集. 對(duì)行動(dòng)者網(wǎng)絡(luò)添加的噪聲均使用參數(shù)相同的Ornstein-Uhlenbeck噪聲分布, 每批次樣本數(shù)量均相等. DDPG中, 經(jīng)驗(yàn)緩沖池大小設(shè)置為1000000, 批次選取樣本數(shù)量取N=64N=64. TDC-DDPG和RC-DDPG中,D1D1和D2D2均為500000, 批次樣本數(shù)量取N1=48N1=48,N2=16N2=16. 每情節(jié)最大時(shí)間步數(shù)設(shè)置為T(mén)max=1000Tmax=1000, 時(shí)間步數(shù)超過(guò)1000時(shí)情節(jié)重新開(kāi)始. 行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)率=1104=1104, 評(píng)論

23、家網(wǎng)絡(luò)學(xué)習(xí)率Q=1103Q=1103. 折扣因子=0.99=0.99, 目標(biāo)網(wǎng)絡(luò)更新時(shí)=0.001=0.001.3.2 實(shí)驗(yàn)結(jié)果及分析圖2展示了在不同任務(wù)中3種算法的實(shí)驗(yàn)效果, 每個(gè)任務(wù)訓(xùn)練500個(gè)階段, 每階段包含2000個(gè)時(shí)間步, 通過(guò)對(duì)比每個(gè)訓(xùn)練階段獲得的平均累積獎(jiǎng)賞衡量算法優(yōu)劣.圖2實(shí)驗(yàn)效果對(duì)比圖Fig.2Comparison of experimental results如圖2所示, 在大多數(shù)任務(wù)中TDC-DDPG和RC-DDPG算法性能優(yōu)于隨機(jī)選取經(jīng)驗(yàn)樣本的DDPG算法, 說(shuō)明采用分類經(jīng)驗(yàn)回放的方法能夠選取到對(duì)網(wǎng)絡(luò)模型學(xué)習(xí)更有效的經(jīng)驗(yàn)樣本, 在相同訓(xùn)練階段內(nèi)學(xué)習(xí)到累積獎(jiǎng)賞更高的策略

24、.在HalfCheetah任務(wù)中, 通過(guò)控制雙足獵豹Agent快速奔跑獲取獎(jiǎng)賞. 在網(wǎng)絡(luò)模型訓(xùn)練的初始階段中3種算法均能夠取得較快學(xué)習(xí)速度. 而第20個(gè)訓(xùn)練階段后, DDPG算法表現(xiàn)趨于平穩(wěn), TDC-DDPG和RC-DDPG算法仍然能夠以較快的學(xué)習(xí)速度提升算法性能, 最終訓(xùn)練階段具有明顯優(yōu)勢(shì).在Humanoid和Swimmer任務(wù)中, 訓(xùn)練初始階段TDC-DDPG和RC-DDPG算法優(yōu)勢(shì)并不顯著, 隨著訓(xùn)練時(shí)間步的增加, 在訓(xùn)練階段后期算法優(yōu)勢(shì)逐漸明顯. 因?yàn)樵谶@兩個(gè)任務(wù)中, 每一時(shí)間步Agent獲得的立即獎(jiǎng)賞值在很小的范圍內(nèi)波動(dòng), 導(dǎo)致RC-DDPG方法中兩個(gè)經(jīng)驗(yàn)緩沖池中樣本類型很相近,

25、TDC-DDPG方法根據(jù)經(jīng)驗(yàn)樣本TD-error分類, 立即獎(jiǎng)賞值同樣會(huì)影響到TD-error的大小, 因此初始訓(xùn)練階段算法性能優(yōu)勢(shì)表現(xiàn)不明顯. 然而在Walker任務(wù)中, 每一時(shí)間步獲得的立即獎(jiǎng)賞值大小不均導(dǎo)致3種算法訓(xùn)練得到的實(shí)驗(yàn)結(jié)果波動(dòng)性均較大, 但本文提出方法實(shí)驗(yàn)效果更優(yōu).Hopper任務(wù)通過(guò)控制雙足機(jī)器人Agent向前跳躍獲取獎(jiǎng)賞. 由于狀態(tài)動(dòng)作空間維度低, Agent會(huì)執(zhí)行一些相似動(dòng)作導(dǎo)致經(jīng)驗(yàn)樣本相似, 因此分類經(jīng)驗(yàn)回放方法性能提升不明顯.表1展示了500個(gè)訓(xùn)練階段內(nèi)3種算法在不同任務(wù)中所取得的平均獎(jiǎng)賞值、最高獎(jiǎng)賞值以及標(biāo)準(zhǔn)差.表1連續(xù)動(dòng)作任務(wù)中實(shí)驗(yàn)數(shù)據(jù)Table1Experimental data in continuous action tasks任務(wù)名稱算法平均獎(jiǎng)賞最高獎(jiǎng)賞標(biāo)準(zhǔn)差HalfCheetahDDPG3 360.325 335.231 246.40TDC-DDPG5 349.649 220.272 368.13RC-DDPG3 979.646 553.491 580.21AntDDPG551.871 908.30307.86TDC-DDPG521.421 863.99296.91RC-DDPG772.372 971.63460.05HumanoidDDPG404.36822

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論