第7章-正反向傳播_第1頁
第7章-正反向傳播_第2頁
第7章-正反向傳播_第3頁
第7章-正反向傳播_第4頁
第7章-正反向傳播_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

DEEPLEARNING深度學(xué)習(xí)第七章正反向傳播概述7.1正向?qū)W習(xí)過程7.2

反向調(diào)整過程7.3反向傳播算法of412習(xí)題概述第七章正反向傳播of413深度學(xué)習(xí)的基本過程是用訓(xùn)練數(shù)據(jù)去訓(xùn)練神經(jīng)網(wǎng)絡(luò)的模型,并得到所需模型的過程,主要包括正向?qū)W習(xí)和反向調(diào)整兩個(gè)過程。正向?qū)W習(xí)就是從輸入層開始,自底向上進(jìn)行特征學(xué)習(xí),最后在輸出層輸出預(yù)測結(jié)果。反向調(diào)整就是將預(yù)測結(jié)果和標(biāo)簽進(jìn)行對(duì)比,反向調(diào)整模型參數(shù)的過程。7.1正向?qū)W習(xí)過程7.1.1正向?qū)W習(xí)過程概述of414樣本由輸入層傳入第一層layer,經(jīng)第一層每個(gè)節(jié)點(diǎn)計(jì)算,每個(gè)節(jié)點(diǎn)得到一個(gè)輸出,其輸出繼續(xù)作為下一層的輸入,向前傳播,直到輸出層輸出預(yù)測的結(jié)果。初次正向傳播會(huì)先初始化網(wǎng)絡(luò)的權(quán)值,得到的輸出值并不一定正確值。第七章正反向傳播7.1正向?qū)W習(xí)過程of4157.1.2正向傳播的流程若把深度學(xué)習(xí)的網(wǎng)絡(luò)看做一個(gè)若干層的系統(tǒng),I為輸入,O為輸出,若經(jīng)過若干變換,輸出仍能正確表達(dá)輸入,就認(rèn)為模型學(xué)到了一條正確表達(dá)輸入的規(guī)律。第七章正反向傳播7.1正向?qū)W習(xí)過程of4167.1.3正向傳播的詳細(xì)原理基本單元:神經(jīng)元深度學(xué)習(xí)網(wǎng)絡(luò)的實(shí)質(zhì)是人工神經(jīng)網(wǎng)絡(luò)發(fā)展到多隱層的狀態(tài),其基本單元仍是神經(jīng)元。第七章正反向傳播7.1正向?qū)W習(xí)過程of4177.1.3正向傳播的詳細(xì)原理以此類推,假設(shè)l-1層,共有m個(gè)神經(jīng)元,則對(duì)于l-1層的第j個(gè)神經(jīng)元有:第七章正反向傳播7.1正向?qū)W習(xí)過程of4187.1.3正向傳播的詳細(xì)原理數(shù)據(jù)輸入網(wǎng)絡(luò)

向前傳播softmax分類器

輸出每類的預(yù)測結(jié)果第七章正反向傳播7.2反向調(diào)整過程of4197.2.1反向調(diào)整概述正向傳播后,輸入獲得了一個(gè)對(duì)應(yīng)的輸出,將輸出與輸入的label相對(duì)比,計(jì)算誤差值。誤差值與各層參數(shù)相關(guān),反向傳播,將誤差分?jǐn)偟礁鲗樱拚鲗訁?shù),從而最小化誤差值,優(yōu)化模型參數(shù)。第七章正反向傳播7.2反向調(diào)整過程of41107.2.2反向傳播過程詳解反向傳播原理:對(duì)比期望輸出和實(shí)際輸出,得到代價(jià)(誤差)函數(shù)。為了最小化代價(jià)函數(shù),利用鏈?zhǔn)角髮?dǎo),將誤差向前傳,修正各層參數(shù)。鏈?zhǔn)角髮?dǎo):多元函數(shù)鏈?zhǔn)椒▌t:若在處可為微,

每個(gè)函數(shù)在點(diǎn)處可微分,則:第七章正反向傳播7.2反向調(diào)整過程of41117.2.2反向傳播過程詳解梯度下降法:梯度下降法是最常用的神經(jīng)網(wǎng)絡(luò)優(yōu)化算法。若將代價(jià)函數(shù)簡單可視化,代價(jià)函數(shù)相當(dāng)于一個(gè)崎嶇不平的盆地,有高峰也有低谷(最小值)。梯度下降的目標(biāo)是取得最小值,每次沿著最陡峭的方向(梯度方向),下降一定的距離(步長)。第七章正反向傳播7.2反向調(diào)整過程of65127.2.2反向傳播過程詳解梯度下降法:梯度下降的步長不是一直不變的,當(dāng)下降接近底部的時(shí)候,需要調(diào)整步子的大小,小心試探。當(dāng)步子太大時(shí),容易跨過最低點(diǎn),在底部來回震蕩。步子過小,下降速度會(huì)較慢。在梯度下降過程中,節(jié)點(diǎn)i和j之間連接的權(quán)重的更新如下:其中η為學(xué)習(xí)速率,用于控制步長的變化。第七章正反向傳播7.2反向調(diào)整過程of41137.2.2反向傳播過程詳解初始下降點(diǎn)也會(huì)不同,下降路線也會(huì)不同。所以梯度下降有可能會(huì)得到局部最小值,而不是全局最小值。第七章正反向傳播7.2反向調(diào)整過程of4114梯度下降的效率批量梯度下降(BatchGradientDescent):批量梯度下降中,每計(jì)算一次梯度,需要計(jì)算所有數(shù)據(jù)。優(yōu)點(diǎn)是可以更準(zhǔn)確的從正確的方向下降,缺點(diǎn)是訓(xùn)練緩慢,時(shí)間開銷大。隨機(jī)梯度下降(StochasticGradientDescent):隨機(jī)梯度下降,在每一輪迭代中,隨機(jī)優(yōu)化某一條訓(xùn)練數(shù)據(jù)的。其缺點(diǎn)是,數(shù)據(jù)的減少使其較難達(dá)到最優(yōu)解,優(yōu)點(diǎn),是速度有很大提升,且少量數(shù)據(jù)訓(xùn)練的模型效果的泛化能力更強(qiáng),在新的數(shù)據(jù)上,效果不錯(cuò)。最小批量梯度下降(Mini-BatchGradientDescent):實(shí)際使用中,現(xiàn)在更多的應(yīng)用的是最小批量梯度下降,保證速度的同時(shí),其結(jié)果也更接近最優(yōu)解。7.2.2反向傳播過程詳解第七章正反向傳播7.3反向傳播算法of4115計(jì)算圖ComputationalGraph將計(jì)算過程用圖形表示出來。這里說的圖形是數(shù)據(jù)結(jié)構(gòu)圖,通過多個(gè)節(jié)點(diǎn)和邊表示,連接節(jié)點(diǎn)的直線稱為“邊”。7.3.1計(jì)算圖第七章正反向傳播7.3反向傳播算法of4116問題1:太郎在超市買了2個(gè)100日元一個(gè)的蘋果,消費(fèi)稅是10%,請(qǐng)計(jì)算支付金額計(jì)算圖通過節(jié)點(diǎn)和箭頭表示計(jì)算過程。節(jié)點(diǎn)用○表示,○中是計(jì)算的內(nèi)容。將計(jì)算的中間結(jié)果寫在箭頭的上方,表示各個(gè)節(jié)點(diǎn)的計(jì)算結(jié)果從左向右傳遞。7.3.1.1用計(jì)算圖求解第七章正反向傳播7.3反向傳播算法of4117問題2:太郎在超市買了2個(gè)蘋果、3個(gè)橘子。其中,蘋果每個(gè)100日元,橘子每個(gè)150日元。消費(fèi)稅是10%,請(qǐng)計(jì)算支付金額。構(gòu)建了計(jì)算圖后,從左向右進(jìn)行計(jì)算。就像電路中的電流流動(dòng)一樣,計(jì)算結(jié)果從左向右傳遞。到達(dá)最右邊的計(jì)算結(jié)果后,計(jì)算過程就結(jié)束了。7.3.1.1用計(jì)算圖求解第七章正反向傳播7.3反向傳播算法of4118用計(jì)算圖解題的情況下,需要兩個(gè)步驟:構(gòu)建計(jì)算圖。在計(jì)算圖上,從左向右進(jìn)行計(jì)算“從左向右進(jìn)行計(jì)算”是一種正方向上的傳播,簡稱為正向傳播(forwardpropagation)。正向傳播是從計(jì)算圖出發(fā)點(diǎn)到結(jié)束點(diǎn)的傳播。既然有正向傳播這個(gè)名稱,當(dāng)然也可以考慮反向(就是從右向左)的傳播。這種傳播稱為傳播稱為反向傳播(backwardpropagation)7.3.1.1用計(jì)算圖求解第七章正反向傳播7.3反向傳播算法of4119計(jì)算圖的特征是可以通過傳遞“局部計(jì)算”獲得最終結(jié)果?!熬植俊边@個(gè)詞的意思是“與自己相關(guān)的某個(gè)小范圍”。局部計(jì)算是指,無論全局發(fā)生了什么,都能只根據(jù)與自己相關(guān)的信息輸出接下來的結(jié)果。7.3.1.2局部計(jì)算第七章正反向傳播7.3反向傳播算法of4120假設(shè)(經(jīng)過復(fù)雜的計(jì)算)購買的其他很多東西總共花費(fèi)4000日元。這里的重點(diǎn)是,各個(gè)節(jié)點(diǎn)處的計(jì)算都是局部計(jì)算。這意味著,例如蘋果和其他很多東西的求和運(yùn)算(4000+200→4200)并不關(guān)心4000這個(gè)數(shù)字是如何計(jì)算而來的,只要把兩個(gè)數(shù)字相加就可以了。換言之,各個(gè)節(jié)點(diǎn)處只需進(jìn)行與自己有關(guān)的計(jì)算(在這個(gè)例子中是對(duì)輸入的兩個(gè)數(shù)字進(jìn)行加法運(yùn)算),不用考慮全局。計(jì)算圖可以集中精力于局部計(jì)算。無論全局的計(jì)算有多么復(fù)雜,各個(gè)步驟所要做的就是對(duì)象節(jié)點(diǎn)的局部計(jì)算。雖然局部計(jì)算非常簡單,但是通過傳遞它的計(jì)算結(jié)果,可以獲得全局的復(fù)雜計(jì)算的結(jié)果。7.3.1.2局部計(jì)算第七章正反向傳播7.3反向傳播算法of4121優(yōu)點(diǎn)一,在于局部計(jì)算。無論全局是多么復(fù)雜的計(jì)算,都可以通過局部計(jì)算使各個(gè)節(jié)點(diǎn)致力于簡單的計(jì)算,從而簡化問題。優(yōu)點(diǎn)二,利用計(jì)算圖可以將中間的計(jì)算結(jié)果全部保存起來。使用計(jì)算圖最大的原因是:可以通過反向傳播高效計(jì)算導(dǎo)數(shù)。問題1中,假設(shè)我們想知道蘋果價(jià)格的上漲會(huì)在多大程度上影響最終的支付金額,即求“支付金額關(guān)于蘋果的價(jià)格的導(dǎo)數(shù)”。這個(gè)值可以通過計(jì)算圖的反向傳播求出來。7.3.1.3為何用計(jì)算圖解題第七章正反向傳播7.3反向傳播算法of4122計(jì)算圖解題的優(yōu)點(diǎn)如上圖所示,反向傳播使用與正方向相反的箭頭表示。反向傳播從右向左傳遞導(dǎo)數(shù)的值(1→1.1→2.2)?!爸Ц督痤~關(guān)于蘋果的價(jià)格的導(dǎo)數(shù)”的值是2.2。這意味著,如果蘋果的價(jià)格上漲1日元,最終的支付金額會(huì)增加2.2日元(嚴(yán)格地講,如果蘋果的價(jià)格增加某個(gè)微小值,則最終的支付金額將增加那個(gè)微小值的2.2倍)。“支付金額關(guān)于消費(fèi)稅的導(dǎo)數(shù)”,“支付金額關(guān)于蘋果的個(gè)數(shù)的導(dǎo)數(shù)”都可以用同樣的方式算出來。并且,計(jì)算中途求得的導(dǎo)數(shù)的結(jié)果(中間傳遞的導(dǎo)數(shù))可以被共享,從而可以高效地計(jì)算多個(gè)導(dǎo)數(shù)。計(jì)算圖的優(yōu)點(diǎn)是,可以通過正向傳播和反向傳播高效地計(jì)算各個(gè)變量的導(dǎo)數(shù)值。7.3.1.3為何用計(jì)算圖解題第七章正反向傳播7.3反向傳播算法of4123計(jì)算圖的正向傳播將計(jì)算結(jié)果正向(從左到右)傳遞,其計(jì)算過程是我們?nèi)粘=佑|的計(jì)算過程。反向傳播將局部導(dǎo)數(shù)向正方向的反方向(從右到左)傳遞。傳遞這個(gè)局部導(dǎo)數(shù)的原理基于鏈?zhǔn)椒▌t(chainrule)。7.3.2

鏈?zhǔn)椒▌t第七章正反向傳播7.3反向傳播算法of4124y

=

f

(x)

的反向傳播,沿著與正方向相反的方向,乘上局部導(dǎo)數(shù)。將信號(hào)

E

乘以節(jié)點(diǎn)的局部導(dǎo)數(shù)

,然后將結(jié)果傳遞給下一個(gè)節(jié)點(diǎn)。局部導(dǎo)數(shù)是正向傳播中

y=

f(x)的導(dǎo)數(shù),也就是

y

關(guān)于

x

的導(dǎo)數(shù)

。比如,假設(shè)

y=f(x)=x的平方,則局部導(dǎo)數(shù)為。把局部導(dǎo)數(shù)乘以上游傳過來

E,然后傳遞給前面的節(jié)點(diǎn),這就是反向傳播的計(jì)算順序。通過這樣的計(jì)算,可以高效地求出導(dǎo)數(shù)的值,這是反向傳播的要點(diǎn)。7.3.2.1計(jì)算圖的反向傳播第七章正反向傳播7.3反向傳播算法of4125復(fù)合函數(shù):由多個(gè)函數(shù)構(gòu)成的函數(shù),比如z=(x+y)的平方用復(fù)合函數(shù)表示。復(fù)合函數(shù)的導(dǎo)數(shù)的性質(zhì):如果函數(shù)由復(fù)合函數(shù)表示,則該復(fù)合函數(shù)的導(dǎo)數(shù)可以用構(gòu)成復(fù)合函數(shù)的各個(gè)函數(shù)的導(dǎo)數(shù)的乘積表示。這就是鏈?zhǔn)椒▌t的原理。7.3.2.2什么是鏈?zhǔn)椒▌t第七章正反向傳播7.3反向傳播算法of41267.3.2.3鏈?zhǔn)椒▌t和計(jì)算圖第七章正反向傳播7.3反向傳播算法加法節(jié)點(diǎn)的反向傳播:左圖是正向傳播,右圖是反向傳播。加法節(jié)點(diǎn)的反向傳播將上游的值原封不動(dòng)地輸出到下游7.3.3

簡單層的反向傳播算法7.3.3.1

加法節(jié)點(diǎn)的反向傳播第七章正反向傳播7.3反向傳播算法加法節(jié)點(diǎn)存在于某個(gè)最后輸出的計(jì)算的一部分中。反向傳播時(shí),從最右邊的輸出出發(fā),局部導(dǎo)數(shù)從節(jié)點(diǎn)向節(jié)點(diǎn)反方向傳播假設(shè)有“10+5=15”這一計(jì)算,反向傳播時(shí),從上游會(huì)傳來值1.3。7.3.3.1

加法節(jié)點(diǎn)的反向傳播第七章正反向傳播7.3反向傳播算法乘法的反向傳播會(huì)將上游的值乘以正向傳播時(shí)的輸入信號(hào)的“翻轉(zhuǎn)值”后傳遞給下游。翻轉(zhuǎn)值表示一種翻轉(zhuǎn)關(guān)系,正向傳播時(shí)信號(hào)是

x

的話,反向傳播時(shí)則是

y;正向傳播時(shí)信號(hào)是

y

的話,反向傳播時(shí)則是

x。7.3.3.2

乘法節(jié)點(diǎn)的反向傳播第七章正反向傳播7.3反向傳播算法假設(shè)有“10×5=50”這一計(jì)算,反向傳播時(shí),從上游會(huì)傳來值1.3。因?yàn)槌朔ǖ姆聪騻鞑?huì)乘以輸入信號(hào)的翻轉(zhuǎn)值,所以各自可按1.3×5=6.5、1.3×10=13計(jì)算乘法的反向傳播需要正向傳播時(shí)的輸入信號(hào)值。因此,實(shí)現(xiàn)乘法節(jié)點(diǎn)的反向傳播時(shí),要保存正向傳播的輸入信號(hào)。7.3.3.2

乘法節(jié)點(diǎn)的反向傳播第七章正反向傳播7.3反向傳播算法7.3.3.3

水果的示例第七章正反向傳播7.3反向傳播算法7.3.3.3

水果的示例第七章正反向傳播7.3反向傳播算法將計(jì)算圖的思路應(yīng)用到神經(jīng)網(wǎng)絡(luò)中。ReLU激活函數(shù)7.3.4激活函數(shù)層的反向傳播算法7.3.4.1ReLU的反向傳播算法第七章正反向傳播7.3反向傳播算法正向傳播7.3.4.2Sigmoid的反向傳播算法第七章正反向傳播7.3反向傳播算法反向傳播第一步除法反向傳播時(shí),會(huì)將上游的值乘以正向傳播的輸出的平方乘以-1后的值,再傳給下游。(下面是除法的偏導(dǎo)數(shù),再將x替換成y)第七章正反向傳播7.3.4.2Sigmoid的反向傳播算法7.3反向傳播算法反向傳播第二步“+”節(jié)點(diǎn)將上游的值原封不動(dòng)地傳給下游第七章正反向傳播7.3.4.2Sigmoid的反向傳播算法7.3反向傳播算法反向傳播第三步“exp”節(jié)點(diǎn)表示

y

=exp(x),導(dǎo)數(shù)為上游的值乘以正向傳播時(shí)的輸出(這個(gè)例子中是exp(-x))后,再傳給下游第七章正反向傳播7.3.4.2Sigmoid的反向傳播算法7.3反向傳播算法反向傳播第四步“×”節(jié)點(diǎn)將正向傳播時(shí)的值翻轉(zhuǎn)后做乘法運(yùn)算第七章正反向傳播7.3.4.2Sigmoid的反向傳播算法7.3反向傳播算法Sigmoid層的計(jì)算圖(簡潔版)第七章正反向傳播7.3.4.2Sigmoid的反向傳播算法7.3反向傳播算法簡潔版中可以進(jìn)一步整理第七章正反向傳播7.3.4.2Sigmoid的反向傳播算法7.3反向傳播算法Affine層(全鏈接層):神經(jīng)網(wǎng)絡(luò)的正向傳播中,進(jìn)行的矩陣的乘積運(yùn)算,在幾何學(xué)領(lǐng)域被稱為“仿射變換”。矩陣的乘積運(yùn)算中對(duì)應(yīng)維度的元素個(gè)數(shù)要保持一致乘積運(yùn)算用“dot”節(jié)點(diǎn)表示,Affine層的計(jì)算圖7.3.5Affine/Softmax層的反向傳播算法第七章正反向傳播7.3.5.1Affine層的反向傳播算法7.3反向傳播算法以矩陣為對(duì)象的反向傳播,按矩陣的各個(gè)元素進(jìn)行計(jì)算時(shí),步驟和以標(biāo)量為對(duì)象的計(jì)算圖相同。WT的T表示轉(zhuǎn)置。轉(zhuǎn)置操作會(huì)把

W

的元素(i,

j)換成元素(j,

i)7.3.5.1Affine層的反向傳播算法第七章正反向傳播7.3反向傳播算法變量是多維數(shù)組。反向傳播時(shí)各個(gè)變量的下方標(biāo)記了該變量的形狀7.3.5.1Affine層的反向傳播算法第七章正反向傳播7.3反向傳播算法矩陣的乘積(“dot”節(jié)點(diǎn))的反向傳播可以通過組建使矩陣對(duì)應(yīng)維度的元素個(gè)數(shù)一致的乘積運(yùn)算而推導(dǎo)出來7.3.5.1Affine層的反向傳播算法第七章正反向傳播7.3反向傳播算法批版本的Affine層之前

Affine層的輸入

X

是以單個(gè)數(shù)據(jù)為對(duì)象的。現(xiàn)在

N

個(gè)數(shù)據(jù)一起進(jìn)行正向傳播的情況,也就是批版本的Affine層。批版本的Affine層的計(jì)算圖7.3.5.1Affine層的反向傳播算法第七章正反向傳播7.3反向傳播算法批量版的Softmax-with-Loss層的反向傳播算法softmax函數(shù)會(huì)將輸入值正規(guī)化之后再輸出。手寫數(shù)字識(shí)別時(shí),采用Softmax層作為輸出層輸入圖像通過Affine層和ReLU層進(jìn)行轉(zhuǎn)換,10個(gè)輸入通過Softmax層進(jìn)行正規(guī)化。在這個(gè)例子中,“0”的得分是5.3,這個(gè)值經(jīng)過Softmax層轉(zhuǎn)換為0.008(0.8%);“2”的得分是10.1,被轉(zhuǎn)換為0.991(99.1%)7.3.5.2Softmax-with-Loss層的反向傳播算法第七章正反向傳播7.3反向傳播算法批量版的Softmax-with-Loss層的反向傳播算法交叉熵誤差(crossentropyerror)函數(shù)作為損失函數(shù)的Softmax函數(shù)稱為“Softmax-with-Loss層”。Softmax函數(shù)和交叉熵誤差的計(jì)算圖7.3.5.2Softmax-with-Loss層的反向傳播算法第七章正反向傳播7.3反向傳播算法“簡易版”的Softmax-with-Loss層的計(jì)算圖Softmax層將輸入(a1,

a2,

a3)正規(guī)化,輸出(y1,

y2,

y3)。CrossEntropyError層接收Softmax的輸出(y1,

y2,

y3)和教師標(biāo)簽(t1,

t2,

t3),從這些數(shù)據(jù)中輸出損失

L。7.3.5.2Softmax-with-Loss層的反向傳播算法第七章正反向傳播7.3反向傳播算法Softmax層的反向傳播得到了(y1-t1,

y2-t2,

y3-t3)這樣“漂亮”的結(jié)果。由于(y1,

y2,

y3)是Softmax層的輸出,(t1,

t2,

t3)是監(jiān)督數(shù)據(jù),所以(y1-t1,

y2-t2,

y3-t3)是Softmax層的輸出和教師標(biāo)簽的差分。神經(jīng)網(wǎng)絡(luò)的反向傳播會(huì)把這個(gè)差分表示的誤差傳遞給前面的層,這是神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中的重要性質(zhì)。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的目的就是通過調(diào)整權(quán)重參數(shù),使神經(jīng)網(wǎng)絡(luò)的輸出(Softmax的輸出)接近教師標(biāo)簽。因此,必須將神經(jīng)網(wǎng)絡(luò)的輸出與教師標(biāo)簽的誤差高效地傳遞給前面的層。剛剛的(y1-t1,

y2-t2,

y3-t3)正是Softmax層的輸出與教師標(biāo)簽的差,直截了當(dāng)?shù)乇硎玖水?dāng)前神經(jīng)網(wǎng)絡(luò)的輸出與教師標(biāo)簽的誤差。7.3.5.2Softmax-with-Loss層的反向傳播算法第七章正反向傳播7.3反向傳播算法例1,比如思考教師標(biāo)簽是(0,1,0),Softmax層的輸出是(0.3,0.2,0.5)的情形。因?yàn)檎_解標(biāo)簽處的概率是0.2(20%),這個(gè)時(shí)候的神經(jīng)網(wǎng)絡(luò)未能進(jìn)行正確的識(shí)別。此時(shí),Softmax層的反向傳播傳遞的是(0.3,-0.8,0.5)這樣一個(gè)大的誤差。因?yàn)檫@個(gè)大的誤差會(huì)向前面的層傳播,所以Softmax層前面的層會(huì)從這個(gè)大的誤差中學(xué)習(xí)到“大”的內(nèi)容。例2,比如思考教師標(biāo)簽是(0,1,0),Softmax層的輸出是(0.01,0.99,0)的情形(這個(gè)神經(jīng)網(wǎng)絡(luò)識(shí)別得相當(dāng)準(zhǔn)確)。此時(shí)Softmax層的反向傳播傳遞的是(0.01,-0.01,0)這樣一個(gè)小的誤差。這個(gè)小的誤差也會(huì)向前面的層傳播,因?yàn)檎`差很小,所以Softmax層前面的層學(xué)到的內(nèi)容也很“小”。7.3.5.2Softmax-with-Loss層的反向傳播算法第七章正反向傳播7.3反向傳播算法實(shí)現(xiàn):神經(jīng)網(wǎng)絡(luò)的正向傳播按照添加元素的層次順序處理反向傳播按照相反的順序處理

Affine層和ReLU層的內(nèi)部會(huì)正確處理正向傳播和反向傳播最后,以正確的順序連接各層,再按順序(或者逆序)處理各層。將神經(jīng)網(wǎng)絡(luò)的組成元素以層的方式實(shí)現(xiàn),可以輕松地構(gòu)建神經(jīng)網(wǎng)絡(luò)。這個(gè)用層進(jìn)行模塊化的實(shí)現(xiàn)具有很大優(yōu)點(diǎn)。因?yàn)橄肓硗鈽?gòu)建一個(gè)神經(jīng)網(wǎng)絡(luò)(比如5層、10層、20層……的大的神經(jīng)網(wǎng)絡(luò))時(shí),只需像組裝樂高積木那樣添加必要的層就可以了。之后,通過各個(gè)層內(nèi)部實(shí)現(xiàn)的正向傳播和反向傳播,就

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論