版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
目錄12023/11/6
引言11訓(xùn)練算法11.1
DQN算法引言(1)
深度強(qiáng)化學(xué)習(xí)將深度學(xué)習(xí)的感知能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,利用深度神經(jīng)網(wǎng)絡(luò)有效識(shí)別高維數(shù)據(jù)的能力,使得強(qiáng)化學(xué)習(xí)算法在處理高維度狀態(tài)空間任務(wù)中更加有效。2013年DeepMind團(tuán)隊(duì)首次提出了將強(qiáng)化學(xué)習(xí)中的Q學(xué)習(xí)與深度神經(jīng)網(wǎng)絡(luò)中的卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的深度Q網(wǎng)絡(luò)算法。2015年該團(tuán)隊(duì)對(duì)DQN算法進(jìn)一步完善,使得DQN模型在Atari2600的大部分游戲中能夠取得超越人類玩家水平的成績(jī)。2023/11/62引言(2)自DQN算法提出以來,深度強(qiáng)化學(xué)習(xí)逐步成為機(jī)器學(xué)習(xí)的研究熱點(diǎn),相關(guān)技術(shù)也廣泛應(yīng)用于游戲、機(jī)器人控制、自動(dòng)駕駛、自然語言處理、計(jì)算機(jī)視覺等領(lǐng)域。在網(wǎng)絡(luò)結(jié)構(gòu)和算法理論方面也出現(xiàn)了大量的研究成果。為了說明問題,選取4種典型的基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)算法——DQN、DDQN、PrioritizedDQN和DuelingDQN進(jìn)行闡述。2023/11/63目錄42023/11/6
引言11訓(xùn)練算法11.1
DQN算法11.1DQN算法(1)11.1.1核心思想DQN是一種經(jīng)典的基于值函數(shù)的深度強(qiáng)化學(xué)習(xí)算法,它將卷積神經(jīng)網(wǎng)CNN與Q-Learnig算法相結(jié)合,利用CNN對(duì)圖像的強(qiáng)大表征能力,將視頻幀數(shù)據(jù)視為強(qiáng)化學(xué)習(xí)中的狀態(tài)輸入網(wǎng)絡(luò),然后由網(wǎng)絡(luò)輸出離散的動(dòng)作值函數(shù),Agent再根據(jù)動(dòng)作值函數(shù)選擇對(duì)應(yīng)的動(dòng)作。2023/11/6511.1DQN算法(2)DQN利用CNN輸入原始圖像數(shù)據(jù),能夠在不依賴于任意特定問題的情況下,采用相同的算法模型,在問題中獲得較好的學(xué)習(xí)效果。正如在Atari游戲中,盡管各個(gè)游戲的動(dòng)作具有不同遷移效果,且需要使用不同的策略來獲得高分,但DQN可以使用相同的原始輸入、網(wǎng)絡(luò)框架和參數(shù)值,得到相應(yīng)的動(dòng)作值特征,并取得高分。2023/11/66DQN算法常用于處理Atari游戲,但又不局限于此,它可以通過修改Q網(wǎng)絡(luò)來處理不同的任務(wù)。例如:如果輸入為圖像信息,則可以通過CNN構(gòu)造Q網(wǎng)絡(luò);如果輸入為序列數(shù)據(jù),則可以通過RNN構(gòu)建Q網(wǎng)絡(luò);如果要增加歷史記憶能力,則可以通過結(jié)合CNN和長(zhǎng)短期記憶模型(LSTM)來構(gòu)建具有記憶能力的Q網(wǎng)絡(luò)。2023/11/6711.1DQN算法(3)1.模型架構(gòu)深度Q網(wǎng)絡(luò)模型架構(gòu)的輸入是距離當(dāng)前時(shí)刻最近的連續(xù)4幀預(yù)處理后的圖像。該輸入信號(hào)經(jīng)過3個(gè)卷積層和2個(gè)全連接層的非線性變換,變換成低維的、抽象的特征表達(dá),并最終在輸出層產(chǎn)生每個(gè)動(dòng)作對(duì)應(yīng)的Q值函數(shù)。2023/11/6811.1DQN算法(4)2023/11/6911.1DQN算法(5)
圖像預(yù)處理在Gym環(huán)境中,Atari游戲的原始圖像尺寸為
個(gè)像素,每個(gè)像素有128種顏色。通過圖像變換,使圖像變?yōu)?種顏色的灰度圖像;裁剪掉原始圖像中無關(guān)緊要的信息像素,使圖像尺寸裁剪為
個(gè)像素;圖像進(jìn)行下采樣,使其尺寸變?yōu)?/p>
個(gè)像素。BreakoutAsterix2023/11/61011.1DQN算法(6)
動(dòng)態(tài)信息預(yù)處理在Gym環(huán)境中,模擬器可以以60幀/秒的速度生成實(shí)時(shí)游戲畫面,每一時(shí)刻,Agent從環(huán)境模擬器中取出1幀靜態(tài)信息,單純地來處理每1幀靜態(tài)圖像很難表示出游戲的動(dòng)態(tài)信息。DQN中選取當(dāng)前時(shí)刻起的前N幀畫面(N通常設(shè)置為:
),并將這些信息結(jié)合起來作為模型的輸入,獲得某一段時(shí)間的動(dòng)態(tài)狀態(tài)信息。通過這種方式,模型可以學(xué)習(xí)到更準(zhǔn)確的動(dòng)作值函數(shù),在實(shí)驗(yàn)中N=4。2023/11/61111.1DQN算法(7)
游戲得分預(yù)處理在Atari游戲中,由于游戲種類的不同,使得其得分系統(tǒng)差別很大,有的游戲得分可以上萬,有的只能得到幾分。為了使DQN模型適用于所有的游戲,并利用同樣的模型擬合長(zhǎng)期回報(bào),DQN中將所有游戲每一輪得到的回報(bào)壓縮到
之間。雖然對(duì)游戲來說有些不合理,但這樣的處理確實(shí)更方便模型處理。2023/11/61211.1DQN算法(8)
游戲隨機(jī)開始的預(yù)處理大多數(shù)游戲的開始場(chǎng)景都是固定的,如果每個(gè)游戲從開始時(shí)就按某種策略采樣,Agent就會(huì)對(duì)很多相同的圖像幀進(jìn)行決策,這樣不利于在學(xué)習(xí)過程中探索更多的畫面。DQN中設(shè)定在游戲開始的很短的一段時(shí)間內(nèi)(如最多30個(gè)狀態(tài)),讓Agent隨機(jī)地執(zhí)行動(dòng)作,這樣可以最大程度地獲得不同的場(chǎng)景樣本,確保采樣的隨機(jī)性。2023/11/61311.1DQN算法(9)目錄142023/11/6
引言11訓(xùn)練算法11.1
DQN算法
在Atari2600中的強(qiáng)化學(xué)習(xí)11.1.2訓(xùn)練算法(1)2023/11/615
在Atari2600中的DQN方法輸入為像素類型的狀態(tài)s,s為游戲的連續(xù)4幀原始像素;輸出為關(guān)于18個(gè)游戲桿/按鈕(動(dòng)作a)的Q(s,a);
獎(jiǎng)賞為每執(zhí)行一步的得分。2023/11/61611.1.2訓(xùn)練算法(2)
訓(xùn)練算法DQN之所以能夠較好地將深度學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合,是因?yàn)樗肓?個(gè)核心技術(shù):目標(biāo)函數(shù):使用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合全連接作為動(dòng)作值函數(shù)的逼近器,實(shí)現(xiàn)端到端的效果,輸入為視頻畫面,輸出為有限數(shù)量的動(dòng)作值函數(shù);目標(biāo)網(wǎng)絡(luò):設(shè)置目標(biāo)網(wǎng)絡(luò)來單獨(dú)處理TD誤差,使得目標(biāo)值相對(duì)穩(wěn)定;經(jīng)驗(yàn)回放機(jī)制:有效解決數(shù)據(jù)間的相關(guān)性和非靜態(tài)性問題,使得網(wǎng)絡(luò)輸入的信息滿足獨(dú)立同分布的條件。2023/11/61711.1.2訓(xùn)練算法(3)
(1)使用CNN作為動(dòng)作值函數(shù)逼近器通過使用CNN輸出的近似動(dòng)作值函數(shù)來逼近真實(shí)動(dòng)作值函數(shù),即:這里使用或來近似動(dòng)作值函數(shù);同樣,使用或來近似狀態(tài)值函數(shù)。2023/11/61811.1.2訓(xùn)練算法(4)(2)監(jiān)督學(xué)習(xí)的一般方法是先確定損失函數(shù),然后求其梯度,再使用SGD等方法更新參數(shù)DQN通過Q-learning算法構(gòu)建網(wǎng)絡(luò)的損失函數(shù):
其中,為網(wǎng)絡(luò)參數(shù);為目標(biāo)Q值;
為預(yù)測(cè)Q值。在獲得損失函數(shù)后,由于在和都存在參數(shù),因此求損失函數(shù)的梯度時(shí)通常采取半梯度的方式,即:在實(shí)際應(yīng)用時(shí),通常通過小批量半梯度下降(Mini-BatchSemi-GradientDescent,
MBSGD)方法更新參數(shù),考慮抽取N個(gè)樣本作為對(duì)期望值的采樣估計(jì):對(duì)參數(shù)進(jìn)行更新:2023/11/61911.1.2訓(xùn)練算法(5)(3)目標(biāo)網(wǎng)絡(luò)
DQN的預(yù)測(cè)Q值(當(dāng)前Q值)和目標(biāo)Q值使用了相同的網(wǎng)絡(luò)模型和參數(shù),當(dāng)預(yù)測(cè)Q值增大時(shí),目標(biāo)Q值也會(huì)隨之增大。由于數(shù)據(jù)本身存在的不穩(wěn)定性,勢(shì)必造成學(xué)習(xí)過程中產(chǎn)生波動(dòng),這在一定程度上增加了模型震蕩和發(fā)散的危險(xiǎn)。目標(biāo)Q值預(yù)測(cè)Q值2023/11/62011.1.2訓(xùn)練算法(6)解決辦法:DQN算法使用兩個(gè)包含CNN的網(wǎng)絡(luò)模型進(jìn)行學(xué)習(xí):網(wǎng)絡(luò)模型代表預(yù)測(cè)Q網(wǎng)絡(luò),用于評(píng)估當(dāng)前狀態(tài)-動(dòng)作對(duì)的價(jià)值;網(wǎng)絡(luò)模型代表目標(biāo)Q網(wǎng)絡(luò),用于計(jì)算目標(biāo)值。
這樣,可以得到雙網(wǎng)絡(luò)架構(gòu)下的DQN損失函數(shù):2023/11/62111.1.2訓(xùn)練算法(7)對(duì)參數(shù)求半梯度為:雙網(wǎng)絡(luò)的結(jié)構(gòu)和初始參數(shù)都是一樣的:每經(jīng)過(在Atari游戲中,C設(shè)置為10000)輪迭代后:DQN通過引入目標(biāo)網(wǎng)絡(luò),一段時(shí)間內(nèi)目標(biāo)Q值保持不變,降低了訓(xùn)練時(shí)損失值震蕩和發(fā)散的可能性,充分保證了訓(xùn)練時(shí)間,提高了算法的穩(wěn)定性。2023/11/62211.1.2訓(xùn)練算法(8)(4)經(jīng)驗(yàn)回放機(jī)制在深度學(xué)習(xí)中,要求輸入的樣本數(shù)據(jù)滿足獨(dú)立同分布。而在強(qiáng)化學(xué)習(xí)任務(wù)中,樣本間往往是關(guān)聯(lián)的、非靜態(tài)的,如果直接使用關(guān)聯(lián)的數(shù)據(jù)進(jìn)行模型訓(xùn)練,會(huì)導(dǎo)致模型難收斂、損失值持續(xù)波動(dòng)等問題。DQN算法引入經(jīng)驗(yàn)回放機(jī)制:將每個(gè)時(shí)刻Agent與環(huán)境交互得到的經(jīng)驗(yàn)遷移樣本存儲(chǔ)到經(jīng)驗(yàn)池中,在執(zhí)行數(shù)步之后,從經(jīng)驗(yàn)池中隨機(jī)取出批量(例如32個(gè)樣本)大小的樣本,作為離散數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò),然后再采用小批量隨機(jī)半梯度下降法(MBSGD)更新網(wǎng)絡(luò)參數(shù)。2023/11/62311.1.2訓(xùn)練算法(9)(4)經(jīng)驗(yàn)回放機(jī)制(續(xù))將狀態(tài)到之間產(chǎn)生的信號(hào)或
稱為經(jīng)驗(yàn)遷移樣本。其中,T為布爾值類型,表示新的狀態(tài)是否為終止?fàn)顟B(tài)。經(jīng)驗(yàn)回放機(jī)制采用隨機(jī)采樣的方式,既提高了數(shù)據(jù)的利用率,又去除了數(shù)據(jù)間的關(guān)聯(lián)性、非靜態(tài)分布等問題,使得網(wǎng)絡(luò)模型更加穩(wěn)定和高效。2023/11/62411.1.2訓(xùn)練算法(10)2015版的DQN算法:2023/11/62511.1.2訓(xùn)練算法(11)DQN訓(xùn)練流程:2023/11/62611.1.2訓(xùn)練算法(12)DQN算法的優(yōu)缺點(diǎn):優(yōu)點(diǎn)在于算法通用性強(qiáng),是一種端到端的處理方式,可為監(jiān)督學(xué)習(xí)產(chǎn)生大量的樣本。其缺點(diǎn)在于:無法應(yīng)用于連續(xù)動(dòng)作控制,只能處理具有短時(shí)記憶的問題,無法處理需長(zhǎng)時(shí)記憶的問題,且算法不一定收斂,需要仔細(xì)調(diào)參。2023/11/62711.1.2訓(xùn)練算法(13)
DQN的穩(wěn)定問題:
基于神經(jīng)網(wǎng)絡(luò)的Q-Learning存在震蕩和不收斂:數(shù)據(jù)是序貫的,連續(xù)樣本是時(shí)間相關(guān)的,而非獨(dú)立同分布(iid.);隨著Q-值的輕微變化,策略會(huì)發(fā)生較大變化;Q-值和獎(jiǎng)賞的標(biāo)準(zhǔn)不統(tǒng)一??偨Y(jié):2023/11/62811.1.2訓(xùn)練算法(14)
穩(wěn)定DQN算法(1)經(jīng)驗(yàn)回放(ExperienceReplay):為了消除數(shù)據(jù)的相關(guān)性,利用與環(huán)境交互的經(jīng)驗(yàn)建立數(shù)據(jù)集:根據(jù)策略,采取動(dòng)作;向回放池D中存放遷移樣本(st
,at,rt+1,st+1);從D中隨機(jī)選取小批量的遷移樣本(s,a,r,s’);根據(jù)Q-網(wǎng)絡(luò)與Q-learning目標(biāo)差值優(yōu)化MSE:2023/11/62911.1.2訓(xùn)練算法(15)
穩(wěn)定DQN算法(2)固定目標(biāo)Q-網(wǎng)絡(luò):為了減少震蕩,在Q-Learning目標(biāo)中固定參數(shù):根據(jù)舊的、固定的參數(shù)w?,計(jì)算Q-Learning目標(biāo):根據(jù)Q-網(wǎng)絡(luò)與Q-learning目標(biāo)差值優(yōu)化MSE:經(jīng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于VR的沉浸式廣告體驗(yàn)-深度研究
- 2025至2031年中國(guó)打孔墊底紙行業(yè)投資前景及策略咨詢研究報(bào)告
- 容器性能分析-深度研究
- 基于機(jī)器學(xué)習(xí)的入侵檢測(cè)技術(shù)-深度研究
- 基因表達(dá)的晝夜節(jié)律調(diào)控網(wǎng)絡(luò)-深度研究
- 2025至2030年中國(guó)微機(jī)自控淬火爐數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 2025至2030年中國(guó)尼龍復(fù)合材料PA數(shù)據(jù)監(jiān)測(cè)研究報(bào)告
- 二零二四年度音樂劇演出活動(dòng)委托合同協(xié)議3篇
- 2025年中國(guó)嬰兒保溫箱市場(chǎng)調(diào)查研究報(bào)告
- 2025年度個(gè)人失業(yè)保險(xiǎn)代繳服務(wù)協(xié)議范本3篇
- 物業(yè)民法典知識(shí)培訓(xùn)課件
- 2023年初中畢業(yè)生信息技術(shù)中考知識(shí)點(diǎn)詳解
- 2024-2025學(xué)年八年級(jí)數(shù)學(xué)人教版上冊(cè)寒假作業(yè)(綜合復(fù)習(xí)能力提升篇)(含答案)
- 《萬方數(shù)據(jù)資源介紹》課件
- 醫(yī)生定期考核簡(jiǎn)易程序述職報(bào)告范文(10篇)
- 第一章-地震工程學(xué)概論
- 《中國(guó)糖尿病防治指南(2024版)》更新要點(diǎn)解讀
- 初級(jí)創(chuàng)傷救治課件
- 交通運(yùn)輸類專業(yè)生涯發(fā)展展示
- 2024年山東省公務(wù)員錄用考試《行測(cè)》試題及答案解析
- 神經(jīng)重癥氣管切開患者氣道功能康復(fù)與管理專家共識(shí)(2024)解讀
評(píng)論
0/150
提交評(píng)論