《強化學習理論與應用》深度強化學習概述_第1頁
《強化學習理論與應用》深度強化學習概述_第2頁
《強化學習理論與應用》深度強化學習概述_第3頁
《強化學習理論與應用》深度強化學習概述_第4頁
《強化學習理論與應用》深度強化學習概述_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

目錄12023/11/5

課程要求1強化學習實例

引言

強化學習方法分類強化學習概念常用的實驗環(huán)境著名學者234567對數(shù)學理論基礎的要求。

強化學習以積分學、線性代數(shù)、統(tǒng)計學、最優(yōu)化理論等數(shù)學理論為基礎,并不斷吸納生物、機械、物理等方面的學科知識。對計算機專業(yè)的要求。

強化學習課程的核心是培養(yǎng)學生分析問題和解決問題的能力;

即要兼顧理論知識(包括理論推導證明),同時培養(yǎng)學生實際編程能力(包括大數(shù)據(jù)的處理和模型算法的編寫)。具有將數(shù)學和計算機專業(yè)的內容緊密地結合在一起的能力

。

1.課程要求(1)教學要求:理論教學與實踐教學緊密相連;組織教學內容,合理分配實驗環(huán)節(jié),激發(fā)學生的學習興趣;加強學生實踐動手能力的培養(yǎng),達到知識傳授和能力培養(yǎng)的有效結合。1.課程要求(2)教學方法要求:強化學習很多算法理論性強、抽象、不易理解,單純采用文字敘述和公式推導的教學手段,教學效果并不好。在理論教學中,可以結合實例講解,注重理論聯(lián)系實際;在強化學習教學中,以“掃地機器人”應用貫穿整個教學過程;通過實例,知道算法的應用場景和方法,學習興趣和效率自然提高。1.課程要求(3)實驗要求:根據(jù)理論教學內容,結合學生的實際情況,按照由淺入深的原則安排實驗;驗證性實驗,要求學生通過實現(xiàn)相關算法,驗證教材實例的正確性。這對理解算法、掌握算法的技巧非常有益;綜合性實驗,運用圖像處理、可視化編程、深度學習、強化學習等知識,解決實際問題;實驗的難度由易到難,層層深入,有利于學生動手能力的培養(yǎng)。1.課程要求(4)教學內容研究生(54+36):

(1)環(huán)境搭建及編程(4課時);

(2)基于表格的DP、MC、TD方法

(10課時);

(3)模型學習(10課時);

(4)深度學習及PyTorch(10課時);

(5)策略梯度(6課時);

(6)深度強化學習算法(DQN、DDPG、A3C等)(14課時)。1.課程要求(5)理論:實驗=6:4理論包括:

平時作業(yè)+考試(小論文)實驗包括:本學期4個編程題目,每個題目10分。

Gym平臺;

Python+Pytorch實現(xiàn);

JupyterNotebook編寫實驗報告。1.課程要求(6)目錄82023/11/5

課程要求1強化學習實例

引言

強化學習方法分類強化學習概念常用的實驗環(huán)境著名學者234567目前機器學習領域中較熱門的兩個分支

深度學習(DeepLearning,DL)

強化學習(ReinforcementLearning,RL)深度學習的基本思想:通過堆疊多層的網(wǎng)絡結構和非線性變換,組合低層特征以實現(xiàn)對輸入數(shù)據(jù)的分級表達。強化學習并沒有提供直接的監(jiān)督信號來指導智能體(agent)的行為。2.引言(1)在強化學習中,agent是通過試錯的機制與環(huán)境進行不斷的交互,以最大化從環(huán)境中獲得的累計獎賞。深度強化學習(DeepReinforcementLearning,DRL)將具有感知能力的深度學習和具有決策能力的強化學習相結合,初步形成從輸入原始數(shù)據(jù)到輸出動作控制的完整智能系統(tǒng)。2.引言(2)深度強化學習是一種端對端(end-to-end)的感知與控制系統(tǒng),具有很強的通用性。2.引言(3)其學習過程可以描述為:

(1)在每個時刻,agent與環(huán)境交互得到一個高維度的觀察,并利用深度學習方法來感知觀察,以得到抽象、具體的狀態(tài)特征表示;

(2)基于預期回報來評價各動作的價值函數(shù),并通過某種策略將當前狀態(tài)映射為相應的動作;

(3)環(huán)境對此動作做出反應,并得到下一個觀察。通過不斷循環(huán)以上過程,最終可以得到實現(xiàn)目標的最優(yōu)策略。2.引言(4)2.引言(5)LucianBusoniuRobertBabuskaBartDeSchutterDamienErnstCRCPress2.引言(6)目錄152023/11/5

課程要求1強化學習實例

引言

強化學習方法分類強化學習概念常用的實驗環(huán)境著名學者2345673.強化學習實例(1)任務:

清潔機器人:收集易拉罐,充電。

機器人采取怎樣的行動,才能達到預期的目標。充電樁易拉罐機器人任務(1):清潔機器人問題3.強化學習實例(2)任務(2):笨鳥先飛訓練前訓練后(100萬步)3.強化學習實例(3)任務(3):AlphaGo&AlphaGoZeroAlphaGo:DL、RL、MCTreeAlphaGoZero:DRLAlphaGo’sgamewithLeeSedolandKeJie目錄192023/11/5

課程要求1強化學習實例

引言

強化學習方法分類強化學習概念常用的實驗環(huán)境著名學者2345674.強化學習概念(1)所謂強化學習,是指從環(huán)境狀態(tài)到行為映射的學習,以使系統(tǒng)行為從環(huán)境中獲得的累積獎賞(reward)最大。在強化學習中,算法來把外界環(huán)境轉化為最大化獎勵量的方式做動作,算法并沒有告訴Agent要做什么或者采取哪個動作。Agent的動作的影響不只是立即得到的獎勵,而且還影響接下來的動作和最終的累積獎賞。4.強化學習概念(2)1954年,Minsky:提出強化學習的概念和術語。1956年,Bellman:MDP的動態(tài)規(guī)劃方法。1977年,Werbos:自適應動態(tài)規(guī)劃算法。1988年,Sutton:時序差分算法。1992年,Watkins:Q-Learning算法。1994年,Rummery:Sarsa算法。2006年,Kocsis:置信上界樹算法。2009年,Kewis:反饋控制自適應動態(tài)規(guī)劃算法。2014年,Silver:確定性策略梯度算法。2015年,Googledeepmind:DQN算法。4.強化學習概念(3)強化學習是智能體(Agent)以“試錯”的方式進行學習,通過與環(huán)境進行交互獲得獎勵指導行為,目標是使智能體獲得最大的累積獎賞(回報)。機器學習可以分為三類,分別是:監(jiān)督學習無監(jiān)督學習強化學習強化學習與機器學習監(jiān)督學習監(jiān)督學習強化學習機器學習4.強化學習概念(4)強化學習與其他機器學習不同:沒有教師信號,也沒有l(wèi)abel,只有reward;反饋有延時,不是立即返回;數(shù)據(jù)是序列化的,數(shù)據(jù)與數(shù)據(jù)之間是有關聯(lián)的,而不是i.i.d的;Agent執(zhí)行的動作會影響之后的數(shù)據(jù)。4.強化學習概念(5)強化學習的模型圖:4.強化學習概念(6)強化學習的關鍵要素:強化學習的關鍵要素有:環(huán)境、獎賞、動作和狀態(tài)。有了這些要素,就可以建立一個強化學習模型;強化學習解決的問題是:針對一個具體問題,得到一個最優(yōu)策略,使得在該策略下獲得的長期回報最大;策略:在系列狀態(tài)下,采取的動作或動作概率。4.強化學習概念(7)Agent與環(huán)境的交互:交互過程更準確地表述:每一步:Agent根據(jù)策略選擇一個動作執(zhí)行,然后感知下一步狀態(tài)和立即獎賞,通過經(jīng)驗再修改自己的策略;Agent的目標:找到最優(yōu)策略,最大化長期回報。注意:在狀態(tài)Si時,執(zhí)行Ai動作,然后獲得Ri+1立即獎賞,到達Si+1狀態(tài)。4.強化學習概念(8)狀態(tài)與策略:狀態(tài)(state):

就是指當前agent所處的狀態(tài)。策略(policy):就是指agent在特定狀態(tài)下的動作依據(jù),是從state到action的映射。確定策略:某一狀態(tài)下的確定動作;隨機策略:以概率來描述,即某一狀態(tài)下執(zhí)行這一動作的概率。4.強化學習概念(9)動作與獎賞:動作(action):來自于動作空間,每個狀態(tài)通過采取動作進行狀態(tài)轉移;

執(zhí)行動作的目的是達到最大化期望獎賞,直到最終算法收斂,所得到的策略就是一系列action的序列數(shù)據(jù)。獎賞(reward):獎賞通常被記作Rt,表示第t個時間步的返回獎勵值。所有強化學習都是基于獎賞假設的。獎賞通常為一個標量。注意:回報(return)是獎賞(reward)的累積。4.強化學習概念(10)策略的種類:行為策略():用來指導個體產(chǎn)生與環(huán)境進行實際交互行為的策略;

實際采樣的策略。目標策略():用來評價狀態(tài)或行為價值的策略(或待優(yōu)化的策略)。4.強化學習概念(11)預測與控制:預測:給定某個策略,估計該策略下,每個狀態(tài)或狀態(tài)動作對的價值??刂疲赫业揭粋€最優(yōu)的策略。在RL算法中,通常都是迭代地進行先預測,再控制的過程,直到收斂。目錄312023/11/5

課程要求1強化學習實例

引言

強化學習方法分類強化學習概念常用的實驗環(huán)境著名學者2345675.強化學習方法分類(1)環(huán)境模型:理解環(huán)境或感知環(huán)境更新方式:回合更新或單步更新求解方式:基于價值或基于策略策略使用:同策略或異策略5.強化學習方法分類(2)環(huán)境模型:理解環(huán)境或感知環(huán)境Model-based:

先理解真實世界是怎樣的,并通過實驗,建立一個模型來模擬現(xiàn)實世界的反應,通過想象來預判斷下來將要發(fā)生的所有情況,并且通過計算來選擇下一步采取的策略。整個過程只需要計算即可,而不需要實際去“經(jīng)歷”。例如:DPModel-free:不依賴環(huán)境,不嘗試去理解環(huán)境,Agent會根據(jù)現(xiàn)實環(huán)境的反饋采取下一步的動作,一步一步等待真實世界的反饋,再根據(jù)反饋采取下一步的動作。需要實際去“經(jīng)歷”。例如:Q-learning,Sarsa,策略梯度5.強化學習方法分類(3)更新方式:回合更新或單步更新MC-更新:

在情節(jié)式任務中,一個情節(jié)完成后才進行更新。即episodebyepisode。例如:REINFORCE,MCTD-更新:在情節(jié)式任務或連續(xù)任務中,不需要等到情節(jié)結束,而是每一步都在更新。即stepbystep。例如:Q-learning,Sarsa,策略梯度5.強化學習方法分類(4)求解方式:基于價值或基于策略Value-based:

目標是找到狀態(tài)或狀態(tài)動作對的價值,通過價值來選擇動作,這類方法對連續(xù)動作不適用。例如:Q-learning,SarsaPolicy-based:目標是找到最優(yōu)策略,通過感知分析所處的環(huán)境,直接輸出下一步要采取的各種動作的概率,然后根據(jù)概率采取動作。這類方法對連續(xù)動作適用。例如:策略梯度,AC5.強化學習方法分類(5)策略使用:同策略或異策略on-policy:

目標策略和行為策略相同。例如:

Sarsa,Sarsa(),TRPOoff-policy:目標策略和行為策略不同。例如:Q-learning,DQN,確定策略梯度兩者的區(qū)別:更新Q值時是使用既定策略還是新的策略。5.強化學習方法分類(6)異策略的特點可以從人類給出的示教樣本或其他智能體給出的引導樣本中學習;可以重用由舊策略生成的經(jīng)驗;可以在使用一個探索性策略的同時,學習一個確定性策略;可以用一個策略進行采樣,然后同時學習多個策略。5.強化學習學習線路圖(7)目錄392023/11/5

課程要求1強化學習實例

引言

強化學習方法分類強化學習概念常用的實驗環(huán)境著名學者2345676.常用的實驗環(huán)境與其他機器學習方向一樣,強化學習也有一些經(jīng)典的實驗場景,如Mountain-Car,Cart-Pole等;由于近年來深度強化學習(DRL)的興起,各種新的更復雜的實驗場景也在不斷涌現(xiàn),出現(xiàn)一系列優(yōu)秀的平臺。常見的強化學習實驗平臺:OpenAIGym,OpenAIBaselinesMuJoCo,rllab,TORCS,PySC2目錄412023/11/5

課程要求1強化學習實例

引言

強化學習方法分類強化學習概念常用的實驗環(huán)境著名學者2345677.著名學者(1)RichardS.Sutton現(xiàn)代強化學習理論的創(chuàng)始人之一。貢獻:

時序差分學習

策略梯度方法

Dyna架構《ReinforcementLearning:AnIntroduction》個人主頁:

7.著名學者(2)吳恩達是國際上人工智能和機器學習領域最權威的學者之一。在線教育平臺Coursera的聯(lián)合創(chuàng)始人。在DL和RL兩個領域都有突出貢獻。2014年,加入百度,負責BaiduBrain計劃。7.著名學者(3)DavidSilver

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論