playing atari with deep reinforcement learning翻譯使用深度增強(qiáng)學(xué)習(xí)玩Atari_第1頁
playing atari with deep reinforcement learning翻譯使用深度增強(qiáng)學(xué)習(xí)玩Atari_第2頁
playing atari with deep reinforcement learning翻譯使用深度增強(qiáng)學(xué)習(xí)玩Atari_第3頁
playing atari with deep reinforcement learning翻譯使用深度增強(qiáng)學(xué)習(xí)玩Atari_第4頁
playing atari with deep reinforcement learning翻譯使用深度增強(qiáng)學(xué)習(xí)玩Atari_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

來的值函數(shù)。我們的方法應(yīng)用于Arcade學(xué)習(xí)環(huán)境中的七個(gè)Atari2600游戲,不RL應(yīng)用程序依賴于手工制作的特征,這些特征結(jié)合了線性函數(shù)或策略表示。顯然,這些系統(tǒng)的性能在很大程度上取決于特征表征的質(zhì)量。深度學(xué)習(xí)的進(jìn)展使得可以從原始感官數(shù)據(jù)中提取高級(jí)特征,導(dǎo)致計(jì)算機(jī)視覺感知器,受限機(jī)和循環(huán)神經(jīng)網(wǎng)絡(luò),并且利用了監(jiān)督和無監(jiān)督的學(xué)習(xí)。自然想到類深度學(xué)習(xí)應(yīng)用需要大量的手動(dòng)訓(xùn)練數(shù)據(jù)。另一方面,RL算法必須能夠從經(jīng)常稀疏,嘈雜和延遲的標(biāo)量信號(hào)中學(xué)習(xí)。與監(jiān)督學(xué)習(xí)中發(fā)現(xiàn)的投入和目標(biāo)之間的直接關(guān)聯(lián)相比,RL中,數(shù)據(jù)分布隨著算法學(xué)習(xí)新行為而發(fā)生變化,這對(duì)于假設(shè)固定的底層分布的深度學(xué)本文表明,卷積神經(jīng)網(wǎng)絡(luò)可以克服這些,從復(fù)雜的RL環(huán)境中的原始數(shù)據(jù)中學(xué)習(xí)成功的控制策略。該網(wǎng)絡(luò)用Q學(xué)習(xí)[26](ai0。ai0是一款具有性的RL測(cè)試,可提有度覺輸入(×0GB視頻的以為人類家設(shè)計(jì)難度大且有趣一組任我的目標(biāo)創(chuàng)建一個(gè)能成盡可能玩游戲神經(jīng)網(wǎng)網(wǎng)絡(luò)沒有提任何特于游戲信息或手工設(shè)計(jì)的視覺特征,并不適用于仿真器的內(nèi)部狀態(tài);它只是從輸入,和終端信RL1我們考慮一個(gè)與環(huán)境交互的任務(wù),在這種情況下,Atari模擬器是一系列動(dòng)作,觀察和。在每個(gè)時(shí)間段人從規(guī)定的游戲動(dòng)作集合A{1,,K}中選擇一個(gè)動(dòng)作at??赡苁请S機(jī)的。人沒有觀察到仿真器的內(nèi)部狀態(tài);xt

d

分可能取決于整個(gè)先前的動(dòng)作和觀察次序;動(dòng)作的反饋可能經(jīng)過數(shù)千個(gè)時(shí)間步驟才能收到。stx1a1x2,at1xt,并學(xué)習(xí)依賴于這些序列的游戲策略。假設(shè)仿真器中的所有序列都假設(shè):未來的回報(bào)由每個(gè)時(shí)間步長的因子γ折現(xiàn),并將時(shí)間t的未來折現(xiàn)回報(bào)定義為T tT

tt',其中T是游戲終止的時(shí)間步長

Q*(s,

saQ*(s,a)maxE[R|

s,

a,

最優(yōu)動(dòng)作值函數(shù)遵循稱為方程。這是基于以下:如果下一個(gè)時(shí)間步長的列 Q*(saa'a'最大化預(yù)期值rQ*(s',列s'Q*(s,a)s'

[rmaxQ*(s',a')|s, Q(s,a) [rmaxQ(s',a')|s,

i

s'Q

時(shí),

Q(sa;Q*(sa,在強(qiáng)化學(xué)習(xí)社區(qū)中,這通常是一個(gè)線性函數(shù)近似器,但是有時(shí)使用非線性函數(shù)近似器,如神經(jīng)網(wǎng)絡(luò)。我們參考一個(gè)神經(jīng)網(wǎng)絡(luò)函數(shù)近似器,權(quán)重θQ網(wǎng)絡(luò)。iLi(iQ網(wǎng)絡(luò),L() [(yQ(s,a;))2 s,a

E

[rmaxQ(s',

)|s,

i

(s,

ss稱為行為分布的動(dòng)作a之間的概率分布。當(dāng)優(yōu)化損失函數(shù)Li(i)時(shí),前一迭代i1的參s;開始之前是固定的。相對(duì)于權(quán)重區(qū)分損失函數(shù),我們得到以下梯度L() [rmaxQ(s', )Q(s,a;)Q(s,a;'i '

s,a();s

Q學(xué)習(xí)算法。a amaxQ(s,a;a - TD-gammon,一個(gè)通過強(qiáng)化學(xué)習(xí)和自我游戲完全學(xué)習(xí)的[24]TD-gammon使用類似于Q學(xué)習(xí)的無模型上與非策略學(xué)習(xí)[1]可能導(dǎo)致Q境;限 通過梯度時(shí)間差法進(jìn)行了部分解決。當(dāng)使用非線性函數(shù)擬合評(píng)估既定策略時(shí),這些方法被證明是收斂的[14]Q學(xué)習(xí)的受限變體來學(xué)習(xí)具有線性函數(shù)擬合的控制策略[15]。L() [(yQ(s,a;))2RPROP算法來更新Q

s,a NFQ應(yīng)用于該表示。相比之下,我們的端到端方法直接從視覺輸入端應(yīng)Q學(xué)習(xí)以前也與經(jīng)驗(yàn)warhashing來隨機(jī)地將特征投射到較低中[2]。HyperNEAT進(jìn)化架構(gòu)[8]也被應(yīng)用于Atari平臺(tái),它被用來演示(分別針對(duì)每個(gè)不同的游戲)Atari游戲中的設(shè)計(jì)算機(jī)視覺和語音識(shí)別的突破依賴于在非常大的訓(xùn)練集上高效地訓(xùn)練神經(jīng)網(wǎng)RGB圖像上,并通過使用隨機(jī)梯度更新來有效地處理訓(xùn)練數(shù)據(jù)。

20年前能夠超過最好的人類西洋雙陸棋玩家,所以自然而然地想知道,二十年的硬件改進(jìn)以及現(xiàn)代神經(jīng)網(wǎng)絡(luò)架構(gòu)和可擴(kuò)展的RL算法 的經(jīng)驗(yàn)et(s,

多劇集匯集成重播。在算法的內(nèi)循環(huán)中,從樣本池隨機(jī)提取的經(jīng)驗(yàn)樣本?D應(yīng)用于Q學(xué)習(xí)更新或小批量更新。執(zhí)行經(jīng)驗(yàn)重放后,根據(jù)-貪婪策略選擇并執(zhí)行一項(xiàng)操作。由于使用任意長度的歷史作為神經(jīng)網(wǎng)絡(luò)的輸入是的,所以我們的Q函數(shù)代替函數(shù)φ1給出了我們稱之為深度Q學(xué)習(xí)算法。這種方法比標(biāo)準(zhǔn)的Q學(xué)習(xí)具有幾個(gè)優(yōu)點(diǎn)[23]。首先,經(jīng)驗(yàn)的每一步都可能用于許;如果最大化動(dòng)作然后切換到右邊,則訓(xùn)練分配也將切換。很容易看出不必要反饋回可能出現(xiàn)且參數(shù)能會(huì)被在局部最值甚至發(fā)性的(),這激發(fā)了Q在實(shí)際當(dāng)中,我們的算法僅重放器中的最后N個(gè)經(jīng)驗(yàn)元組,并且在執(zhí)行更新時(shí)從D中隨機(jī)采樣。這種方法在某些方面是有限的因?yàn)槠骶彌_器不區(qū)分重要的轉(zhuǎn)換,并且由于有限的器大小N而由于最近的轉(zhuǎn)換而總是覆蓋。類似地,均勻采樣對(duì)于重放通過裁剪粗略捕獲區(qū)域的圖像的84×84區(qū)域獲得的。最后的裁剪階段只是因?yàn)槲覀?Q函數(shù)的輸入。QQQ值的標(biāo)量估計(jì),所以歷史和動(dòng)作已經(jīng)被一些以前的方法用作神經(jīng)網(wǎng)絡(luò)的輸入[20,12]。這種類型的架Q值,導(dǎo)致

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論