




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1943年,McCulloch和Pitts提出了形式神經(jīng)元,開(kāi)創(chuàng)了神經(jīng)科學(xué)理論研究2010年后興起的深度學(xué)習(xí),其神經(jīng)網(wǎng)絡(luò)算法的基石是BP算法神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史:人工神經(jīng)網(wǎng)絡(luò)簡(jiǎn)稱為神經(jīng)網(wǎng)絡(luò)或稱為連接模型。早在1943年,心理學(xué)家McCulloch和數(shù)學(xué)家Pitts合作提出了形式神經(jīng)元的數(shù)學(xué)模型,從此開(kāi)創(chuàng)了神經(jīng)科學(xué)理論研究的時(shí)代;1957年Rosenblatt提出的感知器模型,由閾值性神經(jīng)元組成,試圖模擬動(dòng)物和人腦的感知和學(xué)習(xí)能力;1986年,由Rumelhart和McCelland為首的科學(xué)家小組提出了BP神經(jīng)網(wǎng)絡(luò),這一成果標(biāo)志著神經(jīng)網(wǎng)絡(luò)的研究取得了突破性的進(jìn)展;隨著2010年后深度學(xué)習(xí)的興起,出現(xiàn)了許多深度神經(jīng)網(wǎng)絡(luò)模型及相應(yīng)的學(xué)習(xí)算法,但大多是基于梯度計(jì)算的誤差反向傳播學(xué)習(xí)算法這也是最常用的神經(jīng)網(wǎng)絡(luò)算法的基石。第一部分——第6章:背景——發(fā)展歷史一般我們可以把神經(jīng)網(wǎng)絡(luò)的發(fā)展歷史分成4個(gè)時(shí)期萌芽時(shí)期(1890-1960)第一次高潮時(shí)期(1969-1982)第二次高潮時(shí)期(1982-1986)第三次高潮時(shí)期(2000-至今)第一部分——第6章:6.1前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetwork,F(xiàn)NN)也稱為多層感知器(Mutlti-LayerPerceptron,MLP),前饋神經(jīng)網(wǎng)絡(luò)主要由一個(gè)輸入層、一個(gè)(淺層網(wǎng)絡(luò))或多個(gè)(深層網(wǎng)絡(luò),因此叫作深度學(xué)習(xí))隱藏層,和一個(gè)輸出層構(gòu)成。每個(gè)層與下一層連接。這種連接是前饋神經(jīng)網(wǎng)絡(luò)架構(gòu)的關(guān)鍵。前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)的早期形式為單層感知器(Perceptron),是FrankRosenblatt在1957年就職于Cornell航空實(shí)驗(yàn)室時(shí)所發(fā)明的一種人工神經(jīng)網(wǎng)絡(luò)。后來(lái),在單層感知器基礎(chǔ)上發(fā)展起了多層感知器(MLP),反向傳播算法常被MLP用來(lái)進(jìn)行學(xué)習(xí),在模式識(shí)別的領(lǐng)域中算是標(biāo)準(zhǔn)監(jiān)督學(xué)習(xí)算法,并在計(jì)算神經(jīng)學(xué)及并行分布式處理領(lǐng)域中,持續(xù)成為被研究的課題。MLP已被證明是一種通用的函數(shù)近似方法,可以被用來(lái)擬合復(fù)雜的函數(shù),或解決分類(lèi)問(wèn)題。MLP在80年代曾是相當(dāng)流行的機(jī)器學(xué)習(xí)方法,擁有廣泛的應(yīng)用場(chǎng)景,譬如語(yǔ)音識(shí)別、圖像識(shí)別、機(jī)器翻譯等等。1人腦神經(jīng)元結(jié)構(gòu)第一部分——第6章:6.1前饋神經(jīng)網(wǎng)絡(luò)隨著2010年后深度學(xué)習(xí)的興起,深度神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別、模式分類(lèi)、過(guò)程監(jiān)控等領(lǐng)域取得了極大的成功。與卷積神經(jīng)網(wǎng)絡(luò)等深度神經(jīng)網(wǎng)絡(luò)相比,前饋神經(jīng)網(wǎng)路需要考量的參數(shù)更少,使之成為一種頗具吸引力的深度學(xué)習(xí)結(jié)構(gòu),MLP等前饋神經(jīng)網(wǎng)絡(luò)又重新得到了關(guān)注。1然而前饋神經(jīng)網(wǎng)絡(luò)并不是從生物系統(tǒng)角度描述人腦的神經(jīng)元結(jié)構(gòu),只是對(duì)其某些結(jié)構(gòu)和功能進(jìn)行模仿和簡(jiǎn)化。網(wǎng)絡(luò)中各個(gè)神經(jīng)元之間的連接強(qiáng)度靠改變權(quán)值和閾值的大小來(lái)實(shí)現(xiàn)。權(quán)值和閾值隨著網(wǎng)絡(luò)訓(xùn)練和學(xué)習(xí)進(jìn)行調(diào)整改變,優(yōu)化各個(gè)神經(jīng)元之間的連接強(qiáng)度,從而不斷提高整個(gè)網(wǎng)絡(luò)對(duì)訓(xùn)練樣本特征的反應(yīng)靈敏度和精確度前饋神經(jīng)網(wǎng)絡(luò)模型包括輸入層、隱含層和輸出層。各相鄰層的神經(jīng)元可全連接,但相同層各神經(jīng)元之間不連接。通常所用的前饋神經(jīng)網(wǎng)絡(luò)都是三層網(wǎng)絡(luò),三層前饋神經(jīng)網(wǎng)絡(luò)是最基本的網(wǎng)絡(luò)結(jié)構(gòu),對(duì)于一般的問(wèn)題,三層網(wǎng)絡(luò)可以很好地解決問(wèn)題。Hecht-Nielsen證明有足夠多結(jié)點(diǎn)的三層神經(jīng)網(wǎng)絡(luò)可以產(chǎn)生任意復(fù)雜的映射,足以用于解決一般性的問(wèn)題。如圖所示在基于BP算法的多層感知器中,是最普遍的單隱層網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)。前饋神經(jīng)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)第一部分——第6章:6.1前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)確定神經(jīng)網(wǎng)絡(luò)的隱含層是決定神經(jīng)網(wǎng)絡(luò)建立成功與否的關(guān)鍵,目前尚未有很好的數(shù)學(xué)表達(dá)式能夠準(zhǔn)確的計(jì)算出不同網(wǎng)絡(luò)所需要的隱含層節(jié)點(diǎn)個(gè)數(shù)。隱含層的節(jié)點(diǎn)個(gè)數(shù)與輸入層的神經(jīng)元個(gè)數(shù)和輸出層節(jié)的點(diǎn)個(gè)數(shù)密切相關(guān)。若隱含層節(jié)點(diǎn)數(shù)過(guò)少,網(wǎng)絡(luò)用以解決問(wèn)題的信息量不足;若隱含層節(jié)點(diǎn)數(shù)過(guò)多,不僅網(wǎng)絡(luò)訓(xùn)練和學(xué)習(xí)的時(shí)間長(zhǎng),出現(xiàn)“過(guò)度吻合”。目前有以下3種常用于選擇隱含層數(shù)的經(jīng)驗(yàn)公式可供參考:第一部分——第6章:6.1前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)的隱含層設(shè)計(jì)隱含層設(shè)計(jì)
第一部分——第6章:6.1前饋神經(jīng)網(wǎng)絡(luò)BP算法規(guī)則求vjk的梯度:求wij的梯度:第一部分——第6章:6.1前饋神經(jīng)網(wǎng)絡(luò)訓(xùn)練理念(梯度下降)1能以任意精度逼近任何非線性函數(shù),在短時(shí)間內(nèi)學(xué)習(xí)和貯存大量輸入——輸出模式映射,而不需要知道這些映射關(guān)系的數(shù)學(xué)表達(dá)式第一部分——第6章:6.1前饋神經(jīng)網(wǎng)絡(luò)以BP神經(jīng)網(wǎng)絡(luò)為代表的的前饋神經(jīng)網(wǎng)絡(luò)的最大優(yōu)點(diǎn)在于其中,基于梯度計(jì)算的BP誤差反向傳播學(xué)習(xí)算法是后續(xù)深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的理論基石能通過(guò)訓(xùn)練樣本反向傳播調(diào)節(jié)網(wǎng)絡(luò)的權(quán)值和閥值,通過(guò)網(wǎng)絡(luò)的自學(xué)習(xí)來(lái)達(dá)到網(wǎng)絡(luò)的誤差平方和最小的目的第一部分——第6章:6.2卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)是一類(lèi)包含卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetworks),是深度學(xué)習(xí)的代表算法之一。卷積神經(jīng)網(wǎng)絡(luò)具有表征學(xué)習(xí)能力,能夠按其階層結(jié)構(gòu)對(duì)輸入信息進(jìn)行平移不變分類(lèi),因此也被稱”平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò)”。
對(duì)卷積神經(jīng)網(wǎng)絡(luò)的研究可追溯至日本學(xué)者福島邦彥提出的neocognitron模型。在其1979和1980年發(fā)表的論文中,福島仿造生物的視覺(jué)皮層設(shè)計(jì)了以“neocognitron”命名的神經(jīng)網(wǎng)絡(luò),其部分實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)中卷積層(convolutionlayer)和池化層(poolinglayer)的功能,被認(rèn)為是啟發(fā)了卷積神經(jīng)網(wǎng)絡(luò)的開(kāi)創(chuàng)性研究。
1988年,WeiZhang提出了第一個(gè)二維卷積神經(jīng)網(wǎng)絡(luò):平移不變?nèi)斯ど窠?jīng)網(wǎng)絡(luò),并將其應(yīng)用于檢測(cè)醫(yī)學(xué)影像。獨(dú)立于WeiZhang,YannLeCun在1989年同樣構(gòu)建了應(yīng)用于計(jì)算機(jī)視覺(jué)問(wèn)題的卷積神經(jīng)網(wǎng)絡(luò),即LeNet的最初版本。1LeNet包含兩個(gè)卷積層,2個(gè)全連接層,共計(jì)6萬(wàn)個(gè)學(xué)習(xí)參數(shù),且在結(jié)構(gòu)上與現(xiàn)代的卷積神經(jīng)網(wǎng)絡(luò)十分接近。LeCun對(duì)權(quán)重進(jìn)行隨機(jī)初始化后使用了隨機(jī)梯度下降進(jìn)行學(xué)習(xí),這一策略被其后的深度學(xué)習(xí)研究所保留。由于LeCun在論述其網(wǎng)絡(luò)結(jié)構(gòu)時(shí)首次使用了“卷積”一詞,“卷積神經(jīng)網(wǎng)絡(luò)”也因此得名。卷積操作局部感受野第一部分——第6章:6.2卷積神經(jīng)網(wǎng)絡(luò)CNN網(wǎng)絡(luò)概念CNN網(wǎng)絡(luò)與神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)的一種變形卷積神經(jīng)網(wǎng)絡(luò)與神經(jīng)網(wǎng)絡(luò)的主要區(qū)別就是CNN采用了卷積和子采樣過(guò)程。神經(jīng)生物學(xué)中局部感受野的提出(1962)催生了卷積的思想。卷積減少了CNN網(wǎng)絡(luò)參數(shù),子采樣減少了網(wǎng)絡(luò)參數(shù),權(quán)值共享大大減少的CNN網(wǎng)絡(luò)參數(shù)。但是CNN具備深層結(jié)構(gòu)第一部分——第6章:6.2卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)的一般結(jié)構(gòu)第一部分——第6章:6.2卷積神經(jīng)網(wǎng)絡(luò)卷積核CNN網(wǎng)絡(luò)的卷積核卷積核kernal在inputX圖中從左向右,從上至下每次移動(dòng)一個(gè)位置,對(duì)應(yīng)位置相乘求和并賦值到OutputY中的一個(gè)位置。第一部分——第6章:6.2卷積神經(jīng)網(wǎng)絡(luò)池化CNN網(wǎng)絡(luò)的池化(pooling)池化通常有兩種形式。均值池化和最大池化,池化可以看做一種特殊的卷積過(guò)程。第一部分——第6章:6.2卷積神經(jīng)網(wǎng)絡(luò)小結(jié)卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)一般由卷積層、池化層、全連接層和輸出層組成卷積層和池化層通常設(shè)置成多個(gè),挖掘輸入數(shù)據(jù)中深層次的特征,卷積核對(duì)輸入數(shù)據(jù)進(jìn)行遍歷卷積時(shí),會(huì)生成二維的特征圖;當(dāng)特征圖傳輸?shù)饺B接時(shí),需要將特征圖拉直成一維,再與全連接層連接,最后連上輸出層,形成完整的CNN模型。CNN卷積神經(jīng)網(wǎng)絡(luò)因其卷積-池化的網(wǎng)絡(luò)結(jié)構(gòu),能夠從輸入數(shù)據(jù)中提取較深層次的特征,在多個(gè)領(lǐng)域都有所應(yīng)用。一般的全連接神經(jīng)網(wǎng)絡(luò)對(duì)維數(shù)較大的樣本進(jìn)行特征提取時(shí),會(huì)產(chǎn)生很多的參數(shù),忽略數(shù)據(jù)之間的局部相關(guān)性,且易出現(xiàn)過(guò)擬合現(xiàn)象,泛化能力較差,也無(wú)法對(duì)數(shù)據(jù)自身的這種位置特性進(jìn)行學(xué)習(xí)。而CNN具有局部連接和權(quán)值共享兩大優(yōu)點(diǎn),權(quán)值共享減少了網(wǎng)絡(luò)參數(shù),而其與輸入數(shù)據(jù)的局部連接更是能夠挖掘出輸入數(shù)據(jù)的局部性特征。其結(jié)構(gòu)和流程如下:11然而對(duì)于相對(duì)較復(fù)雜的問(wèn)題,RNN便會(huì)暴露其缺陷,這歸因于激活函數(shù)。激活函數(shù)在神經(jīng)網(wǎng)絡(luò)里最多只能存在6層左右,因?yàn)樗奶荻入S著網(wǎng)絡(luò)層反向傳播逐步累乘,梯度逐漸趨向于0。而在RNN中,誤差傳遞不僅僅存在于網(wǎng)絡(luò)層與網(wǎng)絡(luò)層之間,也存在于每一層的樣本序列間,所以RNN梯度彌散現(xiàn)象更加嚴(yán)重。第一部分——第6章:6.3長(zhǎng)短期記憶網(wǎng)絡(luò)雖然前饋神經(jīng)網(wǎng)絡(luò)取得很大成功,但它無(wú)法明確模擬時(shí)間關(guān)系,并且所有數(shù)據(jù)點(diǎn)都是固定長(zhǎng)度的向量。所以就誕生了RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))。循環(huán)神經(jīng)網(wǎng)絡(luò)與其他網(wǎng)絡(luò)的不同之處在于,所以能夠持續(xù)保留信息,能夠根據(jù)之前狀態(tài)推出后面的狀態(tài)。RNN都具有一種重復(fù)神經(jīng)網(wǎng)絡(luò)模塊的鏈?zhǔn)叫问?。在?biāo)準(zhǔn)RNN中,這個(gè)重復(fù)的結(jié)構(gòu)模塊只有一個(gè)非常簡(jiǎn)單的結(jié)構(gòu),例如一個(gè)tanh層。由于RNN的網(wǎng)絡(luò)參數(shù)相比較少,傳統(tǒng)的RNN僅適用于簡(jiǎn)單的邏輯和樣本長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-ShortTermMemory,LSTM)論文首次發(fā)表于1997年,是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),為了解決一般的RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))存在的長(zhǎng)期依賴問(wèn)題,學(xué)者提出了長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM),有效地消除了RNN的梯度彌散現(xiàn)象。由于獨(dú)特的設(shè)計(jì)結(jié)構(gòu),LSTM適合于處理和預(yù)測(cè)時(shí)間序列中間隔和延遲非常長(zhǎng)的重要事件。長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)構(gòu)第一部分——第6章:6.3長(zhǎng)短期記憶網(wǎng)絡(luò)第一部分——第6章:6.3長(zhǎng)短期記憶網(wǎng)絡(luò)長(zhǎng)短期記憶網(wǎng)絡(luò)結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)通過(guò)對(duì)RNN隱含層神經(jīng)元結(jié)構(gòu)的改進(jìn),有效地解決梯度彌散的問(wèn)題。LSTM通過(guò)設(shè)計(jì)“門(mén)”結(jié)構(gòu),實(shí)現(xiàn)對(duì)之前時(shí)間步的計(jì)算結(jié)果有選擇地保留。LSTM單元中有三個(gè)門(mén),分別為輸入門(mén),遺忘門(mén)和輸出門(mén)遺忘門(mén)結(jié)構(gòu)第一部分——第6章:6.3長(zhǎng)短期記憶網(wǎng)絡(luò)長(zhǎng)短期記憶網(wǎng)絡(luò)的門(mén)控單元網(wǎng)絡(luò)結(jié)構(gòu)LSTM神經(jīng)元中遺忘門(mén)作用是對(duì)細(xì)胞狀態(tài)中的信息進(jìn)行篩選。遺忘門(mén)會(huì)將上一時(shí)間步隱藏層的輸出和當(dāng)前時(shí)刻節(jié)點(diǎn)的輸入組合,再經(jīng)過(guò)Sigmoid函數(shù)計(jì)算得到0和1之間的值并作用于上一時(shí)刻的細(xì)胞狀態(tài),來(lái)確定哪些信息是有價(jià)值的,其數(shù)學(xué)表達(dá)式如下:輸入門(mén)結(jié)構(gòu)第一部分——第6章:6.3長(zhǎng)短期記憶網(wǎng)絡(luò)長(zhǎng)短期記憶網(wǎng)絡(luò)的輸入門(mén)結(jié)構(gòu)輸入門(mén)結(jié)構(gòu)輸入門(mén)用來(lái)控制當(dāng)前隱含層細(xì)胞狀態(tài)的輸入。對(duì)輸入的信息通過(guò)一些運(yùn)算,判斷是否將輸入信息更新到當(dāng)前時(shí)刻的細(xì)胞狀態(tài)中。輸入門(mén)輸出的是Sigmoid函數(shù)在0到1之間的數(shù)值,然后作用于輸入信息,來(lái)確定是否更新細(xì)胞狀態(tài),其中1表示需要更新,0表示不需要更新。其數(shù)學(xué)表達(dá)式如下:輸出門(mén)結(jié)構(gòu)第一部分——第6章:6.3長(zhǎng)短期記憶網(wǎng)絡(luò)長(zhǎng)短期記憶網(wǎng)絡(luò)的輸出門(mén)結(jié)構(gòu)輸出門(mén)結(jié)構(gòu)輸出門(mén)用來(lái)控制當(dāng)前隱藏層節(jié)點(diǎn)的輸出,確定是否帶入到下一時(shí)間步的計(jì)算中。先利用函數(shù)Tanh對(duì)細(xì)胞狀態(tài)進(jìn)行處理,并與Sigmoid的輸出相乘。其數(shù)學(xué)表達(dá)式如下:第一部分——第6章:6.3長(zhǎng)短期記憶網(wǎng)絡(luò)小結(jié)長(zhǎng)短期記憶網(wǎng)絡(luò)解決了RNN網(wǎng)絡(luò)中的梯度彌散問(wèn)題,能學(xué)習(xí)較長(zhǎng)時(shí)間步,適合處理和預(yù)測(cè)時(shí)間序列中間隔和延遲非常長(zhǎng)的重要事件;能有效模擬時(shí)間關(guān)系并持續(xù)保留信息,能夠根據(jù)之前狀態(tài)推出之后的狀態(tài)長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),是使用RNN的一個(gè)飛躍。LSTM算法在人工智能之機(jī)器學(xué)習(xí)、翻譯語(yǔ)言、控制機(jī)器人、圖像分析、文檔摘要、語(yǔ)音識(shí)別、圖像識(shí)別、手寫(xiě)識(shí)別、控制聊天機(jī)器人、預(yù)測(cè)疾病、點(diǎn)擊率和股票、合成音樂(lè)等領(lǐng)域有著廣泛應(yīng)用。優(yōu)點(diǎn)
強(qiáng)化學(xué)習(xí)的目標(biāo)是學(xué)習(xí)一個(gè)策略,使得智能體選擇的動(dòng)作能夠獲得環(huán)境最大的回報(bào)?;貓?bào)可以用一個(gè)函數(shù)來(lái)計(jì)算,又稱為回報(bào)函數(shù)。為了衡量強(qiáng)化學(xué)習(xí)的長(zhǎng)期效果,通常用值函數(shù)(valuefunction)來(lái)代替回報(bào)函數(shù),不僅衡量動(dòng)作的即時(shí)回報(bào),還衡量從該狀態(tài)起隨后一系列可能的狀態(tài)所累積的回報(bào)。經(jīng)典的強(qiáng)化學(xué)習(xí)方法往往無(wú)法解決狀態(tài)和動(dòng)作空間維度很高的問(wèn)題,一個(gè)有效的解決方法是使用函數(shù)近似,即將值函數(shù)或者策略用一個(gè)函數(shù)來(lái)表示。常用的近似函數(shù)有線性函數(shù)、核函數(shù)、神經(jīng)網(wǎng)絡(luò)等。第一部分——第6章:6.4強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí),又稱為增強(qiáng)學(xué)習(xí)或再勵(lì)學(xué)習(xí)。強(qiáng)化學(xué)習(xí)的主體是智能體,其主要思想是智能體與環(huán)境交互和試錯(cuò),利用評(píng)價(jià)性的反饋信號(hào)實(shí)現(xiàn)決策的優(yōu)化。當(dāng)智能體的某個(gè)動(dòng)作導(dǎo)致環(huán)境正的獎(jiǎng)賞或回報(bào),即為強(qiáng)化信號(hào),則智能體以后產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)便會(huì)加強(qiáng);反之,智能體產(chǎn)生這個(gè)動(dòng)作的趨勢(shì)會(huì)減弱。強(qiáng)化學(xué)習(xí)主要有4個(gè)要素,即策略、回報(bào)、動(dòng)作和環(huán)境。第一部分——第6章:6.4強(qiáng)化學(xué)習(xí)什么是強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)介紹生物進(jìn)化過(guò)程中為適應(yīng)環(huán)境而進(jìn)行的學(xué)習(xí)有兩個(gè)特點(diǎn):一是人從來(lái)不是靜止的被動(dòng)的等待而是主動(dòng)的對(duì)環(huán)境作試探;二是環(huán)境對(duì)試探動(dòng)作產(chǎn)生的反饋是評(píng)價(jià)性的,生物根據(jù)環(huán)境的評(píng)價(jià)來(lái)調(diào)整以后的行為,是一種從環(huán)境狀態(tài)到行為映射的學(xué)習(xí)。具有以上特點(diǎn)的學(xué)習(xí)就是強(qiáng)化學(xué)習(xí)。強(qiáng)化學(xué)習(xí)(reinforcementlearning)又稱為再勵(lì)學(xué)習(xí),是指從環(huán)境狀態(tài)到行為映射的學(xué)習(xí),以使系統(tǒng)行為從環(huán)境中獲得的累積獎(jiǎng)勵(lì)值最大的一種機(jī)器學(xué)習(xí)方法,智能控制機(jī)器人及分析預(yù)測(cè)等領(lǐng)域有許多應(yīng)用。強(qiáng)化學(xué)習(xí)是一種在線的、無(wú)導(dǎo)師機(jī)器學(xué)習(xí)方法。在強(qiáng)化學(xué)習(xí)中,我們?cè)O(shè)計(jì)算法來(lái)把外界環(huán)境轉(zhuǎn)化為最大化獎(jiǎng)勵(lì)量的方式的動(dòng)作。我們并沒(méi)有直接告訴主體要做什么或者要采取哪個(gè)動(dòng)作,而是主體通過(guò)看哪個(gè)動(dòng)作得到了最多的獎(jiǎng)勵(lì)來(lái)自己發(fā)現(xiàn)。主體的動(dòng)作的影響不只是立即得到的獎(jiǎng)勵(lì),而且還影響接下來(lái)的動(dòng)作和最終的獎(jiǎng)勵(lì)1、能感知環(huán)境的狀態(tài)2、選擇動(dòng)作(可能會(huì)影響環(huán)境的狀態(tài))3、有一個(gè)目標(biāo)(與環(huán)境狀態(tài)有關(guān)的)Agent以最終目標(biāo)為導(dǎo)向,與不確定的環(huán)境之間進(jìn)行交互,在交互過(guò)程中強(qiáng)化好的動(dòng)作,獲得經(jīng)驗(yàn)第一部分——第6章:6.4強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)工作原理強(qiáng)化學(xué)習(xí)工作原理Agent(學(xué)習(xí)的主體)具有特點(diǎn)四要素之間的關(guān)系第一部分——第6章:6.4強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)基本要素除了Agent和環(huán)境之外,強(qiáng)化學(xué)習(xí)系統(tǒng)的四個(gè)主要子要素:策略(policy)、獎(jiǎng)賞函數(shù)(rewardfunction)、值函數(shù)(valuefunction)和一個(gè)可選的環(huán)境模型(model)。基本要素第一部分——第6章:6.4強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)基本要素策略策略定義了Agent在給定時(shí)間內(nèi)的行為方式。簡(jiǎn)單地說(shuō),一個(gè)策略就是從環(huán)境感知的狀態(tài)到在這些狀態(tài)中可采用動(dòng)作的一個(gè)映射,策略在某種意義上說(shuō)是強(qiáng)化學(xué)習(xí)Agent的核心獎(jiǎng)賞函數(shù)獎(jiǎng)賞函數(shù)定義了在強(qiáng)化學(xué)習(xí)問(wèn)題中的目標(biāo)。簡(jiǎn)單地說(shuō),它把環(huán)境中感知到的狀態(tài)(或狀態(tài)-動(dòng)作對(duì))映射為單獨(dú)的一個(gè)數(shù)值,即獎(jiǎng)賞(reward),表示該狀態(tài)內(nèi)在的可取程度。強(qiáng)化學(xué)習(xí)Agent的唯一目標(biāo)就是最大化在長(zhǎng)期運(yùn)行過(guò)程中收到的總獎(jiǎng)賞值函數(shù)對(duì)于一個(gè)策略,如果我們可以在一個(gè)狀態(tài)上就看到這個(gè)策略未來(lái)將會(huì)取得的累積獎(jiǎng)賞,提供這種功能的函數(shù)在強(qiáng)化學(xué)習(xí)中稱為值函數(shù)(Valuefunction)。獎(jiǎng)賞決定了環(huán)境狀態(tài)的直接、內(nèi)在的可取性,而值表示的是把可能的后續(xù)的狀態(tài)以及在這些狀態(tài)中可獲得的獎(jiǎng)賞考慮在內(nèi)的狀態(tài)的長(zhǎng)期可取性第一部分——第6章:6.4強(qiáng)化學(xué)習(xí)強(qiáng)化學(xué)習(xí)基本要素環(huán)境模型有些強(qiáng)化學(xué)習(xí)系統(tǒng)中還存在著第四個(gè)也是最后一個(gè)要素:環(huán)境模型。它模擬了環(huán)境的行為。例如,給定一個(gè)狀態(tài)和動(dòng)作,這個(gè)模型可以預(yù)測(cè)必定導(dǎo)致的下一狀態(tài)和下一獎(jiǎng)賞。強(qiáng)化信號(hào)強(qiáng)化信號(hào)可以從環(huán)境的狀態(tài)中直接獲得。例如:傳感器檢測(cè)到機(jī)器人與障礙物的距離信息小于給定值時(shí)都可看做一個(gè)失敗信號(hào)。倒立擺的角度大于一定值就可產(chǎn)生一個(gè)失敗信號(hào)。強(qiáng)化信號(hào)也可從環(huán)境的狀態(tài)信息中間接獲得,當(dāng)環(huán)境的狀態(tài)值達(dá)不到預(yù)期的要求時(shí),也可以認(rèn)為產(chǎn)生了一個(gè)失敗的強(qiáng)化信號(hào)第一部分——第6章:6.4強(qiáng)化學(xué)習(xí)DeepMind團(tuán)隊(duì)于2016年提出的深度確定性策略梯度方法即DDPG算法,解決了連續(xù)動(dòng)作空間的強(qiáng)化學(xué)習(xí)問(wèn)題。DDPG算法,全稱為深度確定性策略梯度(DeepDeterministicPolicyGradient,DDPG)算法,是一種無(wú)模型的離策略Actor-Critic強(qiáng)化學(xué)習(xí)方法,利用深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)連續(xù)動(dòng)作空間的策略,DDPG算法中,策略是參數(shù)化的,通過(guò)策略梯度方法,直接優(yōu)化深度神經(jīng)網(wǎng)絡(luò)的參數(shù)。深度強(qiáng)化學(xué)習(xí)深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)都是人工智能的重要分支,近年來(lái)最成功的函數(shù)近似方法就是使用深度神經(jīng)網(wǎng)絡(luò)作為強(qiáng)化學(xué)習(xí)的非線性近似函數(shù),將深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)相結(jié)合,即為深度強(qiáng)化學(xué)習(xí)。深度強(qiáng)化學(xué)習(xí)由DeepMind團(tuán)隊(duì)于2015年首次提出之后,將其發(fā)展并分別應(yīng)用于打敗人類(lèi)圍棋冠軍的AlphaGo和更強(qiáng)的AlphaGoZero。然而這時(shí)的深度學(xué)習(xí)技術(shù)DQN(DeepQ-Learning)依然解決的是離散動(dòng)作的問(wèn)題,無(wú)法直接應(yīng)用于權(quán)重連續(xù)的投資組合管理。第一部分——第6章:6.4強(qiáng)化學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)深度強(qiáng)化學(xué)習(xí)DDPG行為(action)可以簡(jiǎn)單分為:連續(xù)的:如賽車(chē)游戲中的方向盤(pán)角度、油門(mén)、剎車(chē)控制信號(hào),機(jī)器人的關(guān)節(jié)伺服電機(jī)控制信號(hào);離散的:如圍棋、貪吃蛇游戲。AlphaGo就是一個(gè)典型的離散行為agent。DDPG是針對(duì)連續(xù)行為的策略學(xué)習(xí)方法,全稱是DeepDeterministicPolicyGradient,是將深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)融合進(jìn)DPG的策略學(xué)習(xí)方法。相對(duì)于DPG的核心改進(jìn)是:采用卷積神經(jīng)網(wǎng)絡(luò)作為策略函數(shù)μ和Q函數(shù)的模擬,即策略網(wǎng)絡(luò)和Q網(wǎng)絡(luò);然后使用深度學(xué)習(xí)的方法來(lái)訓(xùn)練上述神經(jīng)網(wǎng)絡(luò)第一部分——第6章:6.4強(qiáng)化學(xué)習(xí)DDPG算法的結(jié)構(gòu)DDPG算法結(jié)構(gòu)DDPG算法是一種深度增強(qiáng)學(xué)習(xí)算法,使用了基于確定動(dòng)作策略的演員-評(píng)論家算法框架,并在演員部分采用了確定性策略(DPG)。該算法的核心是4個(gè)神經(jīng)網(wǎng)絡(luò),演員部分有2個(gè)神經(jīng)網(wǎng)絡(luò)(演員網(wǎng)絡(luò)u和演員網(wǎng)絡(luò)u'),評(píng)論家部分有2個(gè)神經(jīng)網(wǎng)絡(luò)(評(píng)論家網(wǎng)絡(luò)Q和評(píng)論家網(wǎng)絡(luò)Q)第一部分——第6章:6.4強(qiáng)化學(xué)習(xí)DDPG實(shí)現(xiàn)框架和算法DDPG實(shí)現(xiàn)框架實(shí)踐證明,如果只使用單個(gè)"Q神經(jīng)網(wǎng)絡(luò)"的算法,學(xué)習(xí)過(guò)程很不穩(wěn)定,因?yàn)镼網(wǎng)絡(luò)的參數(shù)在頻繁gradientupdate的同時(shí),又用于計(jì)算Q網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的gradient,基于此,DDPG分別為策略網(wǎng)絡(luò)、Q網(wǎng)絡(luò)各創(chuàng)建兩個(gè)神經(jīng)網(wǎng)絡(luò)拷貝,一個(gè)叫做online,一個(gè)叫做target:在訓(xùn)練完一個(gè)mini-batch的數(shù)據(jù)之后,通過(guò)SGA/SGD算法更新online網(wǎng)絡(luò)的參數(shù),然后再通過(guò)softupdate算法更新target網(wǎng)絡(luò)的參數(shù)。softupdate是一種runningaverage的算法:優(yōu)點(diǎn)target網(wǎng)絡(luò)參數(shù)變化小,用于在訓(xùn)練過(guò)程中計(jì)算online網(wǎng)絡(luò)的gradient,比較穩(wěn)定,訓(xùn)練易于收斂代價(jià)參數(shù)變化小,學(xué)習(xí)過(guò)程變慢。第一部分——第6章:6.5遷移學(xué)習(xí)遷移學(xué)習(xí)標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)的前提假設(shè)是訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)的分布是相同的。如果不滿足這個(gè)假設(shè),在訓(xùn)練集上學(xué)習(xí)到的模型在測(cè)試集上的表現(xiàn)會(huì)比較差。而在很多實(shí)際場(chǎng)景中,經(jīng)常碰到的問(wèn)題是由標(biāo)注數(shù)據(jù)的成本十分高,無(wú)法為一個(gè)目標(biāo)任務(wù)準(zhǔn)備足夠多相同分布的訓(xùn)練數(shù)據(jù)。因此,如果有一個(gè)相關(guān)任務(wù)已經(jīng)有了大量的訓(xùn)練數(shù)據(jù),雖然這些訓(xùn)練數(shù)據(jù)的分布和目標(biāo)任務(wù)不同,但是由于訓(xùn)練數(shù)據(jù)的規(guī)模比較大,我們假設(shè)可以從中學(xué)習(xí)某些可以泛化的知識(shí),那么這些知識(shí)對(duì)目標(biāo)任務(wù)會(huì)有一定的幫助。如何將相關(guān)任務(wù)的訓(xùn)練數(shù)據(jù)中的可泛化知識(shí)遷移到目標(biāo)任務(wù)上,就是遷移學(xué)習(xí)(TransferLearning)要解決的問(wèn)題。第一部分——第6章:6.5遷移學(xué)習(xí)遷移學(xué)習(xí)一種從以前的任務(wù)當(dāng)中去學(xué)習(xí)知識(shí),并應(yīng)用于新的任務(wù)當(dāng)中的方法目的從一個(gè)或多個(gè)源任務(wù)(sourcetasks)中抽取知識(shí)、經(jīng)驗(yàn),然后應(yīng)用于一個(gè)新目標(biāo)領(lǐng)域(targetdomain)當(dāng)中去起源自1995年以來(lái),遷移學(xué)習(xí)吸引了眾多的研究者的關(guān)注。由于深度學(xué)習(xí)需要大量的高質(zhì)量標(biāo)注數(shù)據(jù),但在某些特定領(lǐng)域中,高質(zhì)量的數(shù)據(jù)是極其有限珍貴的,傳統(tǒng)的深度學(xué)習(xí)對(duì)這類(lèi)數(shù)據(jù)并不能很好地學(xué)習(xí)遷移學(xué)習(xí)深度學(xué)習(xí)將遷移學(xué)習(xí)與深度學(xué)習(xí)相互結(jié)合很好地解決了這類(lèi)問(wèn)題,當(dāng)前深度學(xué)習(xí)中一個(gè)非常流行的策略就是將在大數(shù)據(jù)集上的預(yù)訓(xùn)練模型作為網(wǎng)絡(luò)基礎(chǔ),針對(duì)自己特定領(lǐng)域的數(shù)據(jù)集進(jìn)行網(wǎng)絡(luò)底層微調(diào)。尤其是以圖像領(lǐng)域?yàn)榇恚蟛糠诌w移學(xué)習(xí)網(wǎng)絡(luò)選擇預(yù)訓(xùn)練的ImageNet對(duì)模型進(jìn)行初始化,取得了非常好的效果。遷移學(xué)習(xí)概述隨著越來(lái)越多的機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景的出現(xiàn),而現(xiàn)有表現(xiàn)比較好的監(jiān)督學(xué)習(xí)需要大量的標(biāo)注數(shù)據(jù),標(biāo)注數(shù)據(jù)是一項(xiàng)枯燥無(wú)味且花費(fèi)巨大的任務(wù),所以遷移學(xué)習(xí)受到越來(lái)越多的關(guān)注。傳統(tǒng)機(jī)器學(xué)習(xí)(主要指監(jiān)督學(xué)習(xí))基于同分布假設(shè)、需要大量標(biāo)注數(shù)據(jù)然而實(shí)際使用過(guò)程中不同數(shù)據(jù)集可能存在一些問(wèn)題,比如數(shù)據(jù)分布差異標(biāo)注數(shù)據(jù)過(guò)期訓(xùn)練數(shù)據(jù)過(guò)期,也就是好不容易標(biāo)定的數(shù)據(jù)要被丟棄,有些應(yīng)用中數(shù)據(jù)是分布隨著時(shí)間推移會(huì)有變化如何充分利用之前標(biāo)注好的數(shù)據(jù)(廢物利用),同時(shí)又保證在新的任務(wù)上的模型精度基于這樣的問(wèn)題,所以就有了對(duì)于遷移學(xué)習(xí)的研究第一部分——第6章:6.5遷移學(xué)習(xí)遷移學(xué)習(xí)的相關(guān)概念
第一部分——第6章:6.5遷移學(xué)習(xí)遷移學(xué)習(xí)的形式定義深度學(xué)習(xí)需要大量的高質(zhì)量標(biāo)注數(shù)據(jù),Pre-training+fine-tuning是現(xiàn)在深度學(xué)習(xí)中一個(gè)非常流行的trick,尤其是以圖像領(lǐng)域?yàn)榇?,很多時(shí)候會(huì)選擇預(yù)訓(xùn)練的ImageNet對(duì)模型進(jìn)行初始化。第一部分——第6章:6.5遷移學(xué)習(xí)深度學(xué)習(xí)和遷移學(xué)習(xí)結(jié)合學(xué)習(xí)方案利用遷移學(xué)習(xí),不是從零開(kāi)始學(xué)習(xí),而是從之前解決各種問(wèn)題時(shí)學(xué)到的模式開(kāi)始。這樣我們就可以利用以前的學(xué)習(xí)成果(例如VGG19、Inception、MobileNet、ResNet),不用從零開(kāi)始訓(xùn)練一個(gè)新模型,可以從在類(lèi)似問(wèn)題中訓(xùn)練過(guò)的模型入手,我們把這些模型叫做預(yù)訓(xùn)練模型。簡(jiǎn)單來(lái)說(shuō),預(yù)訓(xùn)練模型(pre-trainedmodel)是前人為了解決類(lèi)似問(wèn)題所創(chuàng)造出來(lái)的模型第一部分——第6章:6.5遷移學(xué)習(xí)實(shí)現(xiàn)遷移學(xué)習(xí)方案三種學(xué)習(xí)手段TransferLearning:凍結(jié)預(yù)訓(xùn)練模型的全部卷積層,只訓(xùn)練自己定制的全連接層。ExtractFeatureVector:先計(jì)算出預(yù)訓(xùn)練模型的卷積層對(duì)所有訓(xùn)練和測(cè)試數(shù)據(jù)的特征向量,然后拋開(kāi)預(yù)訓(xùn)練模型,只訓(xùn)練自己定制的簡(jiǎn)配版全連接網(wǎng)絡(luò)。Fine-tuning:凍結(jié)預(yù)訓(xùn)練模型的部分卷積層(通常是靠近輸入的多數(shù)卷積層)甚至不凍結(jié)任何網(wǎng)絡(luò)層,訓(xùn)練剩下的卷積層(通常是靠近輸出的部分卷積層)和全連接層適應(yīng)小數(shù)據(jù)遷移學(xué)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年甘肅省張掖地區(qū)單招職業(yè)適應(yīng)性測(cè)試題庫(kù)學(xué)生專(zhuān)用
- 2025年湖南省長(zhǎng)沙市單招職業(yè)適應(yīng)性測(cè)試題庫(kù)及答案一套
- 2025年黑龍江交通職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)必考題
- 2025年海南經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)新版
- 2025年湖北工程職業(yè)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)帶答案
- 科技與環(huán)保并進(jìn)綠色能源技術(shù)的挑戰(zhàn)與機(jī)遇
- 2025年貴州工程職業(yè)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)必考題
- 2025年廣西物流職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)1套
- 科技創(chuàng)新在醫(yī)療領(lǐng)域的應(yīng)用及展覽解讀
- 2025年黑龍江農(nóng)墾職業(yè)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)一套
- 初三九年級(jí)下冊(cè)部編人教版歷史考試必背資料(2020最新版)
- 觀賞樹(shù)木的園林特性課件
- 當(dāng)代教育心理學(xué)(范圍)課件
- 法院卷宗范本
- XX化工有限責(zé)任公司維保方案
- 冷作工工藝與技能訓(xùn)練(第三版)教學(xué)課件匯總整本書(shū)電子教案全套教學(xué)教程完整版電子教案(最新)
- 部編版六年級(jí)下冊(cè)語(yǔ)文課堂作業(yè)本答案
- 圖解2022年新制訂全面推進(jìn)“大思政課”建設(shè)的工作方案學(xué)習(xí)解讀《全面推進(jìn)“大思政課”建設(shè)的工作方案》課件
- 家譜樹(shù)形圖模板
- 文苑小學(xué)安全管理網(wǎng)絡(luò)圖0
- 2 遺傳圖繪制
評(píng)論
0/150
提交評(píng)論