《深度學(xué)習(xí) 》課件 第9章-深度強(qiáng)化學(xué)習(xí)_第1頁(yè)
《深度學(xué)習(xí) 》課件 第9章-深度強(qiáng)化學(xué)習(xí)_第2頁(yè)
《深度學(xué)習(xí) 》課件 第9章-深度強(qiáng)化學(xué)習(xí)_第3頁(yè)
《深度學(xué)習(xí) 》課件 第9章-深度強(qiáng)化學(xué)習(xí)_第4頁(yè)
《深度學(xué)習(xí) 》課件 第9章-深度強(qiáng)化學(xué)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

匯報(bào)人:100871單擊此處添加文本9深度強(qiáng)化學(xué)習(xí)目錄

|

CONTENTS強(qiáng)化學(xué)習(xí)基本概念1深度價(jià)值學(xué)習(xí)2深度策略學(xué)習(xí)3模仿學(xué)習(xí)4基于人類反饋的強(qiáng)化學(xué)習(xí)5強(qiáng)化學(xué)習(xí)基本概念19.1.1強(qiáng)化學(xué)習(xí)基礎(chǔ)框架受生物的環(huán)境適應(yīng)性啟發(fā),強(qiáng)化學(xué)習(xí)是一種通過(guò)與環(huán)境交互并使用嘗試和錯(cuò)誤方法來(lái)最大化累積獎(jiǎng)勵(lì),從而學(xué)習(xí)最優(yōu)策略的技術(shù)。強(qiáng)化學(xué)習(xí)模型由五個(gè)關(guān)鍵元素構(gòu)成,包括智能體(agent)、狀態(tài)(state)、獎(jiǎng)勵(lì)(reward)、動(dòng)作(action)和環(huán)境(environment)。在強(qiáng)化學(xué)習(xí)的框架中,算法稱之為agent,

它與環(huán)境(environment)發(fā)生交互,agent從環(huán)境中獲取狀態(tài)(state),并決定要做出的動(dòng)作(action),環(huán)境會(huì)根據(jù)自身的邏輯給agent予以獎(jiǎng)勵(lì)(reward)。強(qiáng)化學(xué)習(xí)的定義強(qiáng)化學(xué)習(xí)的構(gòu)成要素9.1.1強(qiáng)化學(xué)習(xí)基礎(chǔ)框架強(qiáng)化學(xué)習(xí)的特點(diǎn):

①?gòu)?qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)可能是稀疏且合理延遲的,不要求(或要求較少)先驗(yàn)知識(shí),不要求有提供正確答案的教師;②強(qiáng)化學(xué)習(xí)是一種增量式學(xué)習(xí),可以在線使用;③強(qiáng)化學(xué)習(xí)可以應(yīng)用于不確定性環(huán)境;④強(qiáng)化學(xué)習(xí)的體系可擴(kuò)展。強(qiáng)化學(xué)習(xí)的主體是智能體(agent)和環(huán)境(environment)。agent的主要目標(biāo)是最大化未來(lái)產(chǎn)生的總獎(jiǎng)勵(lì)的可能性以適應(yīng)環(huán)境。agent根據(jù)歷史的動(dòng)作選擇,和選擇動(dòng)作之后,環(huán)境做給出的反饋和狀態(tài),決定如何選擇下一個(gè)動(dòng)作。如果某個(gè)動(dòng)作(action)已經(jīng)產(chǎn)生了積極的獎(jiǎng)勵(lì),那么該動(dòng)作將會(huì)被強(qiáng)化,否則將會(huì)被逐漸減弱。智能體與環(huán)境的交互9.1.2強(qiáng)化學(xué)習(xí)關(guān)鍵要素01策略策略根據(jù)狀態(tài)決定行動(dòng),目標(biāo)是找到使回報(bào)期望最大化的最優(yōu)策略??梢苑譃殡S機(jī)策略和確定策略:(1)隨機(jī)策略:

把狀態(tài)記作S或s,動(dòng)作記作A或a,隨機(jī)策略函數(shù)π:S×A→[0,1]是一個(gè)概率密度函數(shù):(2)確定策略:確定策略記作μ:S→A,它把狀態(tài)s作為輸入,直接輸出動(dòng)作a=μ(s),

而不是輸出概率值。對(duì)于給定的狀態(tài)s,做出的決策a是確定的,沒(méi)有隨機(jī)性。可以把確定策略看做隨機(jī)策略的一種特例,即概率全部集中在一個(gè)動(dòng)作上:02回報(bào)回報(bào)是未來(lái)獎(jiǎng)勵(lì)的總和,通常考慮折扣回報(bào)以處理未來(lái)不確定性,也叫做累計(jì)獎(jiǎng)勵(lì)(cumulativefuturereward)。強(qiáng)化學(xué)習(xí)的目標(biāo)就是尋找一個(gè)策略,使得回報(bào)的期望最大化。這個(gè)策略稱為最優(yōu)策略(optimumpolicy)。9.1.3馬爾可夫決策過(guò)程定義9.1:馬爾可夫性馬爾可夫決策過(guò)程是強(qiáng)化學(xué)習(xí)中的序列決策模型,強(qiáng)調(diào)當(dāng)前決策只基于當(dāng)前狀態(tài),常用于智能體策略優(yōu)化。設(shè)

為一隨機(jī)過(guò)程,E為其環(huán)境,若對(duì)任意的

,任意的

,隨機(jī)變量

在已知變量

之下的條件分布函數(shù)只與

有關(guān),而與

無(wú)關(guān),即條件分布函數(shù)滿足等式

,即

,此性質(zhì)稱為馬爾可夫性,亦稱無(wú)后效性或無(wú)記憶性。若

為離散型隨機(jī)變量,則馬爾可夫性亦滿足等式

。9.1.3馬爾可夫決策過(guò)程定義9.2:馬爾可夫過(guò)程若隨機(jī)過(guò)程

滿足馬爾可夫性,則稱為馬爾可夫過(guò)程。馬爾科夫決策過(guò)程(markovdecisionprocess,MDP)根據(jù)環(huán)境是否可感知的情況,可分為完全可觀測(cè)MDP和部分可觀測(cè)MDP2種。馬爾科夫決策過(guò)程是一個(gè)在環(huán)境中模擬智能體的隨機(jī)性策略與回報(bào)的數(shù)學(xué)模型,通過(guò)六元組

表示,若轉(zhuǎn)移概率函數(shù)和回報(bào)函數(shù)與決策時(shí)間無(wú)關(guān),這時(shí)的MDP稱為平穩(wěn)MDP。MDP有3種類型決策優(yōu)化目標(biāo)函數(shù):有限階段總回報(bào)目標(biāo)、無(wú)限折扣總回報(bào)目標(biāo)和平均回報(bào)目標(biāo),分別為:9.1.3馬爾可夫決策過(guò)程MDP模型由環(huán)境狀態(tài)空間、系統(tǒng)動(dòng)作空間、條件轉(zhuǎn)移概率、獎(jiǎng)勵(lì)函數(shù)、折扣因子和決策優(yōu)化目標(biāo)函數(shù)六個(gè)基本元素構(gòu)成,這些元素共同描述了智能體在環(huán)境中的決策過(guò)程。MDP模型具有無(wú)后效性、狀態(tài)轉(zhuǎn)移概率和獎(jiǎng)勵(lì)函數(shù)、折扣回報(bào)、策略、價(jià)值函數(shù)和最優(yōu)策略等特點(diǎn),這些特點(diǎn)使得MDP模型能夠有效地模擬智能體在環(huán)境中的決策過(guò)程。MDP模型在強(qiáng)化學(xué)習(xí)、控制理論、運(yùn)籌學(xué)等領(lǐng)域有廣泛應(yīng)用,是理解和設(shè)計(jì)智能決策系統(tǒng)的基礎(chǔ)工具之一,通過(guò)最大化期望累積獎(jiǎng)勵(lì)來(lái)指導(dǎo)智能體的學(xué)習(xí)和決策。MDP模型的基本元素MDP模型的特點(diǎn)MDP模型的應(yīng)用A和P共同定義了系統(tǒng)的動(dòng)作空間及狀態(tài)轉(zhuǎn)移概率,即在特定狀態(tài)下采取某一動(dòng)作后達(dá)到新?tīng)顟B(tài)的可能性。在六元組表示中,S代表有限的環(huán)境狀態(tài)空間,它是智能體決策過(guò)程中可能遇到的各種情況的集合,為系統(tǒng)提供了操作的背景和上下文。立即回報(bào)rs,a和決策優(yōu)化目標(biāo)函數(shù)J指導(dǎo)智能體評(píng)估行動(dòng)的價(jià)值,而折扣因子γ則平衡了即時(shí)與長(zhǎng)期回報(bào)之間的關(guān)系,影響策略的選擇。010203六元組表示9.1.3馬爾可夫決策過(guò)程9.1.3馬爾可夫決策過(guò)程給定一個(gè)策略,無(wú)論是確定性策略還是隨機(jī)性策略,動(dòng)作值函數(shù)

和狀態(tài)值函數(shù)

存在以下的關(guān)系:MDP對(duì)應(yīng)的值函數(shù)有狀態(tài)值函數(shù)

和狀態(tài)-動(dòng)作值函數(shù)(又稱動(dòng)作值函數(shù))

兩種,分別為:agent的最終目標(biāo)是發(fā)現(xiàn)最優(yōu)策略

,對(duì)于任意MDP,至少存在一個(gè)平穩(wěn)確定性的最優(yōu)策略,顯然,最優(yōu)策略可以不唯一。最優(yōu)策略

可以通過(guò)最優(yōu)值函數(shù)獲得,假設(shè)

對(duì)應(yīng)的最優(yōu)狀態(tài)值函數(shù)和動(dòng)作值函數(shù)分別為

,則對(duì)于任意

,

,任意

都有下式所示的關(guān)系:9.1.3馬爾可夫決策過(guò)程最優(yōu)狀態(tài)值函數(shù)

,也滿足Bellman最優(yōu)方程,定義為:類似地,對(duì)于任意的

,

最優(yōu)動(dòng)作值函數(shù)

定義為:

由此,可以得出最優(yōu)策略:9.1.3馬爾可夫決策過(guò)程POMDP簡(jiǎn)介定義:部分可觀測(cè)馬爾可夫決策過(guò)程(POMDP)是馬爾可夫決策過(guò)程(MDP)的擴(kuò)展,用于處理狀態(tài)無(wú)法完全觀測(cè)的情況。應(yīng)用:廣泛應(yīng)用于機(jī)器人導(dǎo)航、自然語(yǔ)言處理、推薦系統(tǒng)等領(lǐng)域,幫助在不確定環(huán)境中做出最優(yōu)決策。決策與挑戰(zhàn)決策依據(jù):POMDP通過(guò)部分觀測(cè)、歷史動(dòng)作和立即報(bào)酬來(lái)推斷當(dāng)前狀態(tài),并規(guī)劃下一步行動(dòng)。挑戰(zhàn):面臨狀態(tài)不確定性、歷史依賴性和策略復(fù)雜性等挑戰(zhàn),需要有效算法來(lái)處理這些復(fù)雜性以優(yōu)化決策。POMDPvsMDP模型差異:POMDP在MDP的基礎(chǔ)上增加了觀察空間,用七元組表示,而MDP直接觀測(cè)狀態(tài)。決策方式:MDP基于完全觀測(cè)的狀態(tài)進(jìn)行決策,POMDP則需要依賴歷史觀測(cè)和推斷來(lái)進(jìn)行決策,更為復(fù)雜。應(yīng)用場(chǎng)景:MDP適用于狀態(tài)完全可觀測(cè)的場(chǎng)景,POMDP適用于狀態(tài)部分可觀測(cè)的場(chǎng)景,根據(jù)實(shí)際需求選擇合適的模型。深度價(jià)值學(xué)習(xí)29.2.1DQNQ學(xué)習(xí)是一種離線策略的算法,它學(xué)習(xí)在一個(gè)狀態(tài)下采取動(dòng)作的價(jià)值,通過(guò)學(xué)習(xí)Q值來(lái)選擇如何在環(huán)境中行動(dòng)。根據(jù)Q學(xué)習(xí),智能體會(huì)采用任何策略來(lái)估算Q,從而最大化未來(lái)的獎(jiǎng)勵(lì)。可以用神經(jīng)網(wǎng)絡(luò)近似最優(yōu)動(dòng)作價(jià)值函數(shù)Q,這個(gè)神經(jīng)網(wǎng)絡(luò)稱為深度Q網(wǎng)絡(luò)(DQN):

,神經(jīng)網(wǎng)絡(luò)作為函數(shù)擬合器非常出色,該損失函數(shù)包含兩個(gè)Qs函數(shù):DQN的輸出是離散動(dòng)作空間A上的每個(gè)動(dòng)作的Q值,即給每個(gè)動(dòng)作的評(píng)分,分?jǐn)?shù)越高意味著動(dòng)作越好。

參數(shù)更新:DQN算法可以在多種Atari游戲中在線上場(chǎng)景中獲得強(qiáng)勁的表現(xiàn),并直接從像素中學(xué)習(xí)。兩個(gè)啟發(fā)式方法可用于限制不穩(wěn)定性:1.目標(biāo)Q網(wǎng)絡(luò)的參數(shù)僅在每N次迭代后更新。這可以防止不穩(wěn)定性快速傳播并最小化發(fā)散的風(fēng)險(xiǎn)。2.可使用經(jīng)驗(yàn)回放存儲(chǔ)技巧。9.2.2TD算法訓(xùn)練深度Q網(wǎng)絡(luò)最常用的算法是時(shí)間差分(temporaldifference,TD)方法,它是一種用于解決時(shí)間信度問(wèn)題的方法。TD結(jié)合了蒙特卡羅的采樣方法和動(dòng)態(tài)規(guī)劃方法的自舉(bootstrapping)方法,能直接從學(xué)習(xí)者的原始經(jīng)驗(yàn)學(xué)起。與動(dòng)態(tài)規(guī)劃方法類似,TD方法通過(guò)預(yù)測(cè)每個(gè)動(dòng)作的長(zhǎng)期結(jié)果來(lái)調(diào)整先前的動(dòng)作獎(jiǎng)勵(lì)或懲罰,即依賴于后續(xù)狀態(tài)的值函數(shù)來(lái)更新先前狀態(tài)值函數(shù),主要應(yīng)用于預(yù)測(cè)問(wèn)題。最簡(jiǎn)單的是一步算法TD(0),其迭代公式為:TD(λ)是改進(jìn)的一種方法,在TD(λ)中agent獲得立即回報(bào)后可以回溯任意步,其迭代公式為:資格跡是強(qiáng)化學(xué)習(xí)算法中的一個(gè)基本機(jī)制。通過(guò)引入資格跡,TD(λ)學(xué)習(xí)算法可以有效地實(shí)現(xiàn)在線、增量式學(xué)習(xí)。資格跡的定義方式主要分為增量式和替代式兩類。狀態(tài)的增量式資格跡的定義:狀態(tài)的替代式資格跡的定義:9.2.3噪聲DQN噪聲網(wǎng)絡(luò)將神經(jīng)網(wǎng)絡(luò)中的參數(shù)

替換為

,其中

的形狀與

完全相同。噪聲網(wǎng)絡(luò)的含義是參數(shù)

的每個(gè)元素

從均值

、標(biāo)準(zhǔn)差為

的正態(tài)分布中抽取。訓(xùn)練噪聲網(wǎng)絡(luò)的方法與訓(xùn)練標(biāo)準(zhǔn)的神經(jīng)網(wǎng)絡(luò)完全相同,都是做反向傳播計(jì)算梯度,然后用梯度更新神經(jīng)參數(shù)。噪聲網(wǎng)絡(luò)可以用于DQN。標(biāo)準(zhǔn)的DQN記作

,其中的

表示參數(shù)。把

替換成

,得到噪聲DQN,記作:

。噪聲DQN的參數(shù)數(shù)量比標(biāo)準(zhǔn)DQN多一倍。噪聲DQN訓(xùn)練的過(guò)程中,參數(shù)包含噪聲: 。訓(xùn)練的目標(biāo)是使DQN在帶有噪聲的參數(shù)下最小化TD誤差,也就是迫使DQN容忍對(duì)參數(shù)的擾動(dòng)。訓(xùn)練出的DQN具有魯棒性。深度策略學(xué)習(xí)39.3.1策略梯度基于策略的方法是直接學(xué)習(xí)策略,顯式優(yōu)化策略參數(shù),尤其適用于連續(xù)動(dòng)作空間。該方法首先需要將策略參數(shù)化。策略學(xué)習(xí)的目標(biāo)函數(shù)定義為:有了目標(biāo)函數(shù)后,將目標(biāo)函數(shù)對(duì)策略求導(dǎo),得到導(dǎo)數(shù)后,就可以用梯度上升方法來(lái)最大化這個(gè)目標(biāo)函數(shù),從而得到最優(yōu)策略。策略梯度定理提供了一個(gè)很好的目標(biāo)函數(shù)導(dǎo)數(shù)的重構(gòu)方式,使其不涉及狀態(tài)分布

的導(dǎo)數(shù),并簡(jiǎn)化了梯度

計(jì)算:策略梯度定理為各種策略梯度算法奠定了理論基礎(chǔ)。這種基本策略梯度更新沒(méi)有偏差,但方差很大。隨后提出了許多算法來(lái)降低方差,同時(shí)保持偏差不變。9.3.2REINFORCE算法REINFORCE算法的一個(gè)顯著優(yōu)點(diǎn)是它能夠直接從經(jīng)驗(yàn)中學(xué)習(xí),無(wú)需環(huán)境的動(dòng)態(tài)模型,這使得它在處理復(fù)雜環(huán)境中表現(xiàn)出色。經(jīng)驗(yàn)直接學(xué)習(xí)的優(yōu)勢(shì)蒙特卡羅策略梯度是一種強(qiáng)化學(xué)習(xí)算法,通過(guò)隨機(jī)采樣周期樣本估計(jì)回報(bào),利用這些回報(bào)更新策略參數(shù),以最大化環(huán)境期望回報(bào)。蒙特卡羅策略梯度概述該算法采用策略梯度上升方法來(lái)更新策略參數(shù),通過(guò)測(cè)量真實(shí)樣本軌跡中的回報(bào),不斷優(yōu)化策略以提高在環(huán)境中的表現(xiàn)。策略梯度上升方法9.3.3actor-critic學(xué)習(xí)在Actor-Critic方法中,Actor根據(jù)Critic提供的狀態(tài)價(jià)值信息更新策略參數(shù),而Critic則利用Actor生成的經(jīng)驗(yàn)數(shù)據(jù)更新?tīng)顟B(tài)價(jià)值的估計(jì),兩者相互協(xié)作優(yōu)化策略。Actor與Critic的協(xié)作機(jī)制Actor-Critic方法是一種強(qiáng)化學(xué)習(xí)技術(shù),通過(guò)同時(shí)學(xué)習(xí)和優(yōu)化策略和值函數(shù)來(lái)提高算法性能,其中Actor負(fù)責(zé)學(xué)習(xí)策略,Critic負(fù)責(zé)評(píng)估策略。Actor-Critic方法概述結(jié)合值函數(shù)與策略梯度,策略網(wǎng)絡(luò)(Actor)選擇動(dòng)作,價(jià)值網(wǎng)絡(luò)(Critic)評(píng)估并指導(dǎo)策略。為了減少方差并加速學(xué)習(xí)過(guò)程,Actor-Critic方法使用優(yōu)勢(shì)函數(shù)替代直接的狀態(tài)價(jià)值進(jìn)行策略更新,優(yōu)勢(shì)函數(shù)衡量動(dòng)作預(yù)期回報(bào)與狀態(tài)價(jià)值的差異,提供精確的策略梯度估計(jì)。優(yōu)勢(shì)函數(shù)在Actor-Critic中的應(yīng)用9.3.4帶基線的策略梯度方法帶基線帶策略梯度有如下定理:設(shè)b是任意的函數(shù),但是b不能依賴于A。把b作為動(dòng)作價(jià)值函數(shù) 的基線,對(duì)策略梯度沒(méi)有影響:該定理說(shuō)明b的取值不影響策略梯度的正確性。不論是讓b=0還是讓b=,對(duì)期望的結(jié)果毫無(wú)影響,期望的結(jié)果都會(huì)等于

。模仿學(xué)習(xí)49.4.1模仿學(xué)習(xí)基礎(chǔ)模仿學(xué)習(xí)在某些情況下可以非常有效,尤其是在專家演示期望的行為比指定一個(gè)能產(chǎn)生相同行為的獎(jiǎng)勵(lì)函數(shù)或直接學(xué)習(xí)策略更容易時(shí),另外也特別適用于難以定義獎(jiǎng)勵(lì)函數(shù)的場(chǎng)景。模仿學(xué)習(xí)的優(yōu)勢(shì)模仿學(xué)習(xí)是一種讓深度策略網(wǎng)絡(luò)做出的決策與人類專家相同的方法,通過(guò)向人類專家學(xué)習(xí),目標(biāo)是讓智能體的策略網(wǎng)絡(luò)盡可能地模仿專家的行為,而強(qiáng)化學(xué)習(xí)依賴環(huán)境反饋優(yōu)化策略以最大化累計(jì)獎(jiǎng)勵(lì)。模仿學(xué)習(xí)的定義模仿學(xué)習(xí)廣泛應(yīng)用于各種領(lǐng)域如自動(dòng)駕駛、機(jī)器人控制等,通過(guò)模仿專家的行為,智能體能夠快速學(xué)習(xí)和適應(yīng)新環(huán)境。模仿學(xué)習(xí)的應(yīng)用場(chǎng)景9.4.1模仿學(xué)習(xí)基礎(chǔ)——行為克隆算法行為克隆的基本流程包括從專家的演示中收集示例,將其劃分為狀態(tài)-動(dòng)作對(duì),然后應(yīng)用監(jiān)督學(xué)習(xí)并最小化損失函數(shù)。行為克隆的基本流程行為克隆通過(guò)讓智能體觀察和學(xué)習(xí)人類專家的行為,復(fù)制其決策策略,旨在訓(xùn)練出能做出與專家相同決策的策略網(wǎng)絡(luò)πθ。行為克隆的核心思想行為克隆是簡(jiǎn)單的模仿學(xué)習(xí)形式,使用監(jiān)督學(xué)習(xí)從專家數(shù)據(jù)中學(xué)習(xí)策略,但在MDP中可能因錯(cuò)誤累積導(dǎo)致失敗。行為克隆簡(jiǎn)單有效,適用于不需要長(zhǎng)期規(guī)劃的情況,但存在錯(cuò)誤累積和不能處理長(zhǎng)期規(guī)劃的問(wèn)題,可能導(dǎo)致災(zāi)難性的失敗。行為克隆的優(yōu)點(diǎn)與缺點(diǎn)9.4.1模仿學(xué)習(xí)基礎(chǔ)——直接策略學(xué)習(xí)(DPL)DPL算法首先基于初始的專家演示開(kāi)始一個(gè)初始的預(yù)測(cè)策略,然后在每次迭代中收集軌跡和反饋,最后使用這些反饋來(lái)訓(xùn)練一個(gè)新的策略。DPL算法工作流程直接策略學(xué)習(xí)是一種模仿學(xué)習(xí)方法,通過(guò)從專家那里收集演示并應(yīng)用監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)策略,然后通過(guò)詢問(wèn)專家評(píng)估推出的軌跡來(lái)獲取更多訓(xùn)練數(shù)據(jù)。直接策略學(xué)習(xí)概述直接策略學(xué)習(xí)通過(guò)迭代和反饋避免了行為克隆的問(wèn)題,但需要可交互的專家。為了使DPL算法有效地工作,利用所有以前的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練是非常重要的,這樣代理就可以看到它過(guò)去所犯的所有錯(cuò)誤,從而改進(jìn)其性能。利用所有以前的訓(xùn)練數(shù)據(jù)的重要性9.4.2逆強(qiáng)化學(xué)習(xí)在逆強(qiáng)化學(xué)習(xí)中,核心步驟之一是估計(jì)參數(shù)化的獎(jiǎng)勵(lì)函數(shù),該過(guò)程涉及從專家的示范數(shù)據(jù)中學(xué)習(xí),以使模型的行為盡可能接近專家的策略。參數(shù)化獎(jiǎng)勵(lì)函數(shù)估計(jì)逆強(qiáng)化學(xué)習(xí)是一種模仿學(xué)習(xí)方法,通過(guò)觀察專家行為來(lái)推斷獎(jiǎng)勵(lì)函數(shù),進(jìn)而利用深度強(qiáng)化學(xué)習(xí)技術(shù)尋找最優(yōu)策略,實(shí)現(xiàn)從示范到策略的轉(zhuǎn)化。逆強(qiáng)化學(xué)習(xí)概述逆強(qiáng)化學(xué)習(xí)估計(jì)專家的獎(jiǎng)勵(lì)函數(shù),然后使用強(qiáng)化學(xué)習(xí)找到最優(yōu)策略。根據(jù)是否需要環(huán)境模型,分為給定模型和無(wú)模型方法,兩者都面臨獎(jiǎng)勵(lì)函數(shù)模糊性的挑戰(zhàn)。逆強(qiáng)化學(xué)習(xí)分為給定模型方法和無(wú)模型方法兩種,前者依賴于環(huán)境動(dòng)態(tài)模型,而后者則直接從數(shù)據(jù)中學(xué)習(xí),兩者在算法實(shí)現(xiàn)和應(yīng)用場(chǎng)景上各有側(cè)重。有模型與無(wú)模型方法基于人類反饋的強(qiáng)化學(xué)習(xí)59.5基于人類反饋的強(qiáng)化學(xué)習(xí)(1)收集人類生成

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論