




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1深度學(xué)習(xí)深度學(xué)習(xí)第第6章章 深度前饋網(wǎng)絡(luò)深度前饋網(wǎng)絡(luò)2概述概述p以學(xué)習(xí)異或?yàn)槔詫W(xué)習(xí)異或?yàn)槔齪基于梯度的學(xué)習(xí)基于梯度的學(xué)習(xí)n成本函數(shù)成本函數(shù)n輸出單元輸出單元p隱藏單元隱藏單元n線性修正單元線性修正單元nSigmoid單元和雙曲正切單元單元和雙曲正切單元p設(shè)計(jì)結(jié)構(gòu)設(shè)計(jì)結(jié)構(gòu)p反向傳播算法反向傳播算法3深度前饋網(wǎng)絡(luò)深度前饋網(wǎng)絡(luò)p深度前饋網(wǎng)絡(luò)也被稱之為前饋神經(jīng)網(wǎng)或者多層感深度前饋網(wǎng)絡(luò)也被稱之為前饋神經(jīng)網(wǎng)或者多層感知機(jī)。知機(jī)。p一個(gè)前饋網(wǎng)絡(luò)定義了一個(gè)映射函數(shù)一個(gè)前饋網(wǎng)絡(luò)定義了一個(gè)映射函數(shù) y=f(x;y=f(x;),通過學(xué)習(xí)參數(shù)通過學(xué)習(xí)參數(shù),得到最接近樣本數(shù)據(jù)的函數(shù)得到最接近樣本數(shù)據(jù)的函數(shù)f*估計(jì)。
2、估計(jì)。p“前饋前饋”并不意味著網(wǎng)絡(luò)中的信號(hào)不能反傳,而并不意味著網(wǎng)絡(luò)中的信號(hào)不能反傳,而是指網(wǎng)絡(luò)拓?fù)渲胁荒艽嬖诨芈坊颦h(huán)(反饋)。是指網(wǎng)絡(luò)拓?fù)渲胁荒艽嬖诨芈坊颦h(huán)(反饋)。46.1:以學(xué)習(xí)異或?yàn)槔詫W(xué)習(xí)異或?yàn)槔齪目標(biāo):讓目標(biāo):讓 X = 0, 0, 0 , 1 ,1, 0, 1, 1 在網(wǎng)絡(luò)中獲得正確的結(jié)果。在網(wǎng)絡(luò)中獲得正確的結(jié)果。p前期準(zhǔn)備:前期準(zhǔn)備:n認(rèn)為是回歸問題認(rèn)為是回歸問題n采用均方誤差作為損失函數(shù)采用均方誤差作為損失函數(shù)n假設(shè)選擇線性模型假設(shè)選擇線性模型56.1:以學(xué)習(xí)異或?yàn)槔詫W(xué)習(xí)異或?yàn)槔齪通過求解正規(guī)方程得到通過求解正規(guī)方程得到 w=0,b=0.5p線性模型不能實(shí)現(xiàn)異或。線性模型不
3、能實(shí)現(xiàn)異或。n當(dāng)當(dāng)x1為為0時(shí),模型的輸出要隨著時(shí),模型的輸出要隨著x2的增長(zhǎng)而增長(zhǎng),當(dāng)?shù)脑鲩L(zhǎng)而增長(zhǎng),當(dāng)x1 為為1時(shí),模型輸出要隨著時(shí),模型輸出要隨著x2的增長(zhǎng)而減小。線性模型不的增長(zhǎng)而減小。線性模型不能通過能通過x1來改變來改變x2的系數(shù)!該問題是線性不可分的。的系數(shù)!該問題是線性不可分的。66.1:以學(xué)習(xí)異或?yàn)槔詫W(xué)習(xí)異或?yàn)槔齪解決方法:引入含有一個(gè)隱層的前饋網(wǎng)絡(luò)。解決方法:引入含有一個(gè)隱層的前饋網(wǎng)絡(luò)。p引入了激活函數(shù):引入了激活函數(shù):n使用線性修正單元作為激活函數(shù):使用線性修正單元作為激活函數(shù): g(z) = max0, z76.2:基于梯度的學(xué)習(xí):基于梯度的學(xué)習(xí)p對(duì)于機(jī)器學(xué)習(xí)模型,為
4、了應(yīng)用梯度下降我們必須對(duì)于機(jī)器學(xué)習(xí)模型,為了應(yīng)用梯度下降我們必須選擇一個(gè)選擇一個(gè)cost函數(shù)。函數(shù)。p深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的一個(gè)重要方面是深度神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)的一個(gè)重要方面是cost函數(shù)的函數(shù)的選擇。選擇。p大多情況下,我們使用訓(xùn)練數(shù)據(jù)和模型預(yù)測(cè)之間大多情況下,我們使用訓(xùn)練數(shù)據(jù)和模型預(yù)測(cè)之間的的cross-entropy(交叉熵)作為(交叉熵)作為cost函數(shù)。函數(shù)。 :使用最大似然學(xué)習(xí)條件分布:使用最大似然學(xué)習(xí)條件分布p大多數(shù)現(xiàn)代神經(jīng)網(wǎng)絡(luò)是用最大似然訓(xùn)練的,其大多數(shù)現(xiàn)代神經(jīng)網(wǎng)絡(luò)是用最大似然訓(xùn)練的,其cost函數(shù)為:函數(shù)為:p由于概率模型由于概率模型p不同,故不同,故cost函數(shù)是變化
5、的。函數(shù)是變化的。p很多的輸出單元包括一個(gè)很多的輸出單元包括一個(gè)exp函數(shù),這個(gè)函數(shù),這個(gè)exp函函數(shù)能夠在參數(shù)是很負(fù)值的時(shí)候飽和,而數(shù)能夠在參數(shù)是很負(fù)值的時(shí)候飽和,而log-likelihood的的log函數(shù)會(huì)抵消輸出單元的函數(shù)會(huì)抵消輸出單元的exp。 :學(xué)習(xí)條件統(tǒng)計(jì):學(xué)習(xí)條件統(tǒng)計(jì)p與其訓(xùn)練一個(gè)全概率的分布與其訓(xùn)練一個(gè)全概率的分布p(y|x;),我們更我們更想僅僅訓(xùn)練一個(gè)在輸入為想僅僅訓(xùn)練一個(gè)在輸入為x時(shí),時(shí),y的條件統(tǒng)計(jì)。的條件統(tǒng)計(jì)。n比如,我們有一個(gè)預(yù)測(cè)器比如,我們有一個(gè)預(yù)測(cè)器f(x;)想要預(yù)測(cè)想要預(yù)測(cè)y的平均的平均值。值。 p我們使用一個(gè)足夠強(qiáng)大的神經(jīng)網(wǎng)絡(luò),我們可以認(rèn)我
6、們使用一個(gè)足夠強(qiáng)大的神經(jīng)網(wǎng)絡(luò),我們可以認(rèn)為這個(gè)神經(jīng)網(wǎng)絡(luò)能夠表示任何為這個(gè)神經(jīng)網(wǎng)絡(luò)能夠表示任何f,這些函數(shù)這些函數(shù)f只受到只受到像連續(xù)性有界性這樣的特征限制。像連續(xù)性有界性這樣的特征限制。n根據(jù)上述觀點(diǎn),可以把根據(jù)上述觀點(diǎn),可以把cost函數(shù)看作是一個(gè)函數(shù)看作是一個(gè)functional(泛函泛函)而不是而不是function。nfunctional:把:把function映射為實(shí)數(shù)的映射。映射為實(shí)數(shù)的映射。:學(xué)習(xí)條件統(tǒng)計(jì):學(xué)習(xí)條件統(tǒng)計(jì)p使用變分法得到兩個(gè)結(jié)果:使用變分法得到兩個(gè)結(jié)果:p結(jié)果一:結(jié)果一:p如果我們訓(xùn)練來自真實(shí)數(shù)據(jù)產(chǎn)生的樣本分布,最如果我們訓(xùn)練來自真實(shí)數(shù)據(jù)產(chǎn)生的樣本
7、分布,最小化均方誤差函數(shù)將會(huì)給出一個(gè)函數(shù),該函數(shù)給小化均方誤差函數(shù)將會(huì)給出一個(gè)函數(shù),該函數(shù)給出了在輸入為出了在輸入為x時(shí)時(shí)y的均值。的均值。:學(xué)習(xí)條件統(tǒng)計(jì):學(xué)習(xí)條件統(tǒng)計(jì)p使用變分法得到兩個(gè)結(jié)果:使用變分法得到兩個(gè)結(jié)果:p結(jié)果二:結(jié)果二:p該函數(shù)產(chǎn)生出在輸入為該函數(shù)產(chǎn)生出在輸入為x時(shí)時(shí)y的中值。的中值。p均方誤差和平均絕對(duì)誤差使用梯度學(xué)習(xí)時(shí)會(huì)產(chǎn)生均方誤差和平均絕對(duì)誤差使用梯度學(xué)習(xí)時(shí)會(huì)產(chǎn)生很差的結(jié)果。很差的結(jié)果。126.2.2:輸出單元:輸出單元pcost函數(shù)的選擇和輸出單元聯(lián)系緊密,大多數(shù)時(shí)函數(shù)的選擇和輸出單元聯(lián)系緊密,大多數(shù)時(shí)候,我們僅僅在數(shù)據(jù)分布和模型分布之間使用候,我們僅
8、僅在數(shù)據(jù)分布和模型分布之間使用cross-entropy。n如何選擇輸出單元決定著交叉熵函數(shù)的形式。如何選擇輸出單元決定著交叉熵函數(shù)的形式。p任意類型的神經(jīng)網(wǎng)絡(luò)單元作為輸出也能作為隱藏任意類型的神經(jīng)網(wǎng)絡(luò)單元作為輸出也能作為隱藏單元。單元。p這部分,我們認(rèn)為前饋網(wǎng)提供了由這部分,我們認(rèn)為前饋網(wǎng)提供了由h=f(x;)定義的特征。輸出層的任務(wù)就是完成神經(jīng)網(wǎng)絡(luò)要定義的特征。輸出層的任務(wù)就是完成神經(jīng)網(wǎng)絡(luò)要執(zhí)行的一種轉(zhuǎn)變。執(zhí)行的一種轉(zhuǎn)變。:線性輸出單元:線性輸出單元p使用線性單元的高斯分布:使用線性單元的高斯分布:n線性單元:無閾值限制的感知器。線性單元:無閾值限制的感知器。n給定特征給
9、定特征h,一層線性輸出層單元輸出一個(gè)向量:,一層線性輸出層單元輸出一個(gè)向量:n線性單元可以輸出有條件的高斯分布的均值。線性單元可以輸出有條件的高斯分布的均值。n可以讓高斯分布的協(xié)方差成為一個(gè)輸入的函數(shù),但是可以讓高斯分布的協(xié)方差成為一個(gè)輸入的函數(shù),但是要保證讓協(xié)方差矩陣正定,線性單元難以做到。要保證讓協(xié)方差矩陣正定,線性單元難以做到。n由于線性單元的不飽和性質(zhì),使用梯度下降學(xué)習(xí)有一由于線性單元的不飽和性質(zhì),使用梯度下降學(xué)習(xí)有一定的困難。定的困難。:使用:使用sigmoid單元的伯努利分布單元的伯努利分布p很多任務(wù)要求預(yù)測(cè)很多任務(wù)要求預(yù)測(cè)y的一個(gè)二元取值,比如二分的一個(gè)二元取值
10、,比如二分類問題。類問題。p對(duì)于二項(xiàng)分布,我們只需要預(yù)測(cè)對(duì)于二項(xiàng)分布,我們只需要預(yù)測(cè) 時(shí)的時(shí)的情況。情況。p假設(shè)我們用線性單元來模擬二項(xiàng)分布:假設(shè)我們用線性單元來模擬二項(xiàng)分布:p缺陷:當(dāng)缺陷:當(dāng) 在在0,1區(qū)間外時(shí),輸出的區(qū)間外時(shí),輸出的梯度變?yōu)樘荻茸優(yōu)?。:使用:使用sigmoid單元的伯努利分布單元的伯努利分布p線性單元不能很好的滿足我們的需求。線性單元不能很好的滿足我們的需求。p可以用可以用sigmoid輸出單元結(jié)合最大似然來模擬一輸出單元結(jié)合最大似然來模擬一個(gè)二項(xiàng)分布。個(gè)二項(xiàng)分布。pSigmoid單元的輸出:?jiǎn)卧妮敵觯簄把把sigmoid單元的輸出看成兩部分:加權(quán)求
11、和(線性單元的輸出看成兩部分:加權(quán)求和(線性層)和使用激活函數(shù)輸出。層)和使用激活函數(shù)輸出。:sigmoid單元模擬伯努利分布單元模擬伯努利分布p過程:過程:n在在y和和z中,使用未歸一化的中,使用未歸一化的log概率:概率:n取對(duì)數(shù):取對(duì)數(shù):n歸一化歸一化:n得到結(jié)果:得到結(jié)果::sigmoid單元模擬伯努利分布單元模擬伯努利分布p選取最大似然函數(shù)法學(xué)習(xí)獲得選取最大似然函數(shù)法學(xué)習(xí)獲得cost function。n這樣成本函數(shù)中這樣成本函數(shù)中l(wèi)og可以化簡(jiǎn)可以化簡(jiǎn)sigmoid函數(shù)中的函數(shù)中的exp,且只有函數(shù)得到正確答案時(shí)才會(huì)飽和。且只有函數(shù)得到正確答案時(shí)
12、才會(huì)飽和。n使用均方誤差作為損失函數(shù),不管得到的是不是正確使用均方誤差作為損失函數(shù),不管得到的是不是正確答案答案cost函數(shù)都可能飽和。函數(shù)都可能飽和。p損失函數(shù):損失函數(shù)::softmax單元模擬單元模擬Multinoulli分布分布pMultinoulli分布:?jiǎn)我浑x散變量擁有有限分布:?jiǎn)我浑x散變量擁有有限K個(gè)個(gè)不同的狀態(tài)。不同的狀態(tài)。n通過向量通過向量 參數(shù)化,每一個(gè)參數(shù)化,每一個(gè)pi為第為第i個(gè)狀態(tài)概個(gè)狀態(tài)概率。最后的概率由率。最后的概率由 得到。得到。n是多項(xiàng)分布的一種特例。是多項(xiàng)分布的一種特例。psoftmax函數(shù)最通常被用來作為輸出的分類器。函數(shù)最通常被用來作為
13、輸出的分類器。p為了能夠產(chǎn)生一個(gè)為了能夠產(chǎn)生一個(gè)n個(gè)值的離散變量,我們現(xiàn)在個(gè)值的離散變量,我們現(xiàn)在需要產(chǎn)生一個(gè)向量需要產(chǎn)生一個(gè)向量, i=P(y=i|x),我們不,我們不僅要求僅要求的每個(gè)元素在的每個(gè)元素在0和和1之間,還要求之間,還要求的所的所有元素之和為有元素之和為1。:softmax單元模擬單元模擬Multinoulli分分布布p過程:過程:n使用未歸一化的使用未歸一化的log概率,其中概率,其中z由線性層產(chǎn)生:由線性層產(chǎn)生:n取對(duì)數(shù)并且歸一化:取對(duì)數(shù)并且歸一化: p選取最大似然函數(shù)法學(xué)習(xí)獲得選取最大似然函數(shù)法學(xué)習(xí)獲得cost function。 :s
14、oftmax單元模擬單元模擬Multinoulli分分布布p未正則化的最大似然模型會(huì)讓未正則化的最大似然模型會(huì)讓softmax預(yù)測(cè)在預(yù)測(cè)在訓(xùn)練集中觀察到的每一個(gè)輸出項(xiàng)的個(gè)數(shù)所占的比訓(xùn)練集中觀察到的每一個(gè)輸出項(xiàng)的個(gè)數(shù)所占的比例:例:p對(duì)于對(duì)于softmax,許多目標(biāo)函數(shù)并沒有像許多目標(biāo)函數(shù)并沒有像log-likelihood那樣好。那樣好。n不使用不使用log模型,不太容易消除模型,不太容易消除softmax函數(shù)中的指函數(shù)中的指數(shù)項(xiàng),當(dāng)指數(shù)項(xiàng)趨近于負(fù)無窮時(shí)會(huì)產(chǎn)生梯度消失現(xiàn)象。數(shù)項(xiàng),當(dāng)指數(shù)項(xiàng)趨近于負(fù)無窮時(shí)會(huì)產(chǎn)生梯度消失現(xiàn)象。p關(guān)于關(guān)于softmax 函數(shù)性質(zhì):函數(shù)性質(zhì)::soft
15、max單元模擬單元模擬Multinoullip關(guān)于關(guān)于softmax 函數(shù)性質(zhì):函數(shù)性質(zhì):n飽和性質(zhì):當(dāng)輸入中存在飽和性質(zhì):當(dāng)輸入中存在zi相對(duì)于其他輸入大得多時(shí),相對(duì)于其他輸入大得多時(shí),softmax(z)i比值接近于比值接近于1,當(dāng)輸入中存在,當(dāng)輸入中存在zi相對(duì)于相對(duì)于其他輸入小得多時(shí),其他輸入小得多時(shí), softmax(z)i比值接近于比值接近于0.p對(duì)于對(duì)于softmax中的中的z的產(chǎn)生:的產(chǎn)生:n通過之前層的加權(quán)求和得到。通過之前層的加權(quán)求和得到。n由于由于softmax輸出之和為輸出之和為1,n個(gè)輸出只需要知道個(gè)輸出只需要知道n-1個(gè)概率即可。個(gè)概率即可。p可以把可以把z中的任意
16、一維度固定。比如令中的任意一維度固定。比如令zn=0p可以利用概率之和為可以利用概率之和為1的特點(diǎn)來模擬各單元之間的特點(diǎn)來模擬各單元之間的競(jìng)爭(zhēng)。的競(jìng)爭(zhēng)。:其他輸出單元:其他輸出單元p最大似然原則對(duì)幾乎對(duì)任何種類的輸出層都提供最大似然原則對(duì)幾乎對(duì)任何種類的輸出層都提供了良好的設(shè)計(jì)了良好的設(shè)計(jì)cost函數(shù)的引導(dǎo)。函數(shù)的引導(dǎo)。p一般而言,函數(shù)一般而言,函數(shù)f的輸出并不是直接預(yù)測(cè)的輸出并不是直接預(yù)測(cè)y的值,的值,而是提供了一個(gè)帶參函數(shù)之上的而是提供了一個(gè)帶參函數(shù)之上的y的分布。的分布。p比如我們要學(xué)習(xí)對(duì)于比如我們要學(xué)習(xí)對(duì)于x,輸出,輸出y的有條件的高斯協(xié)的有條件的高斯協(xié)方差。方差。n
17、簡(jiǎn)單情況下方差是一個(gè)簡(jiǎn)單情況下方差是一個(gè)constant,可以通過得到的,可以通過得到的y和期望值之間有一個(gè)閉式表達(dá)得到。和期望值之間有一個(gè)閉式表達(dá)得到。n一個(gè)比較復(fù)雜的方法是把方差作為分布一個(gè)比較復(fù)雜的方法是把方差作為分布p(y|x)的一個(gè)的一個(gè)屬性,而且是受到屬性,而且是受到 影響的影響的,可以寫成可以寫成p(y;w(x),然后用,然后用-log模型學(xué)習(xí)方差。模型學(xué)習(xí)方差。:其他輸出單元:其他輸出單元p比如我們要學(xué)習(xí)對(duì)于比如我們要學(xué)習(xí)對(duì)于x,輸出,輸出y的有條件的高斯協(xié)的有條件的高斯協(xié)方差。方差。n在簡(jiǎn)單的情況下,標(biāo)準(zhǔn)差不取決于輸入,我們可以產(chǎn)在簡(jiǎn)單的情況下,標(biāo)準(zhǔn)差不取決
18、于輸入,我們可以產(chǎn)生新的參數(shù)生新的參數(shù)w,用,用-logp(y;w(x)模型去學(xué)習(xí)。模型去學(xué)習(xí)。p異方差模型:對(duì)于不同的異方差模型:對(duì)于不同的x值,模型可以預(yù)測(cè)在值,模型可以預(yù)測(cè)在輸出輸出y中不同的方差(?)。中不同的方差(?)。n在異方差的模型里,我們簡(jiǎn)單地讓方差成為在異方差的模型里,我們簡(jiǎn)單地讓方差成為f(x;)的的一個(gè)輸出值。一個(gè)輸出值。n更好的方法是使用精度或精度的對(duì)角矩陣而非方差,更好的方法是使用精度或精度的對(duì)角矩陣而非方差,因?yàn)槟軌蛟谔荻认陆抵斜憩F(xiàn)的很好。因?yàn)槟軌蛟谔荻认陆抵斜憩F(xiàn)的很好。n不管使用方差,標(biāo)準(zhǔn)差,還是精度,都要保證協(xié)方差不管使用方差,標(biāo)準(zhǔn)差,還是精度,都要保證協(xié)方差陣
19、正定。陣正定。:其他輸出單元:其他輸出單元pN成分的高斯混合輸出:成分的高斯混合輸出:p混合密度網(wǎng)絡(luò):使用高斯混合作為輸出的網(wǎng)絡(luò)。混合密度網(wǎng)絡(luò):使用高斯混合作為輸出的網(wǎng)絡(luò)。p : 每個(gè)成分的比例,每個(gè)成分的比例,n個(gè)不同成分的個(gè)不同成分的多項(xiàng)分布,可由多項(xiàng)分布,可由softmax得到,可以保證概率得到,可以保證概率之和為之和為1.p :第:第i個(gè)高斯成分的均值。個(gè)高斯成分的均值。p :第:第i個(gè)成分協(xié)方差陣。個(gè)成分協(xié)方差陣。2:其他輸出單元:其他輸出單元p有條件的高斯混合分布使用梯度學(xué)習(xí)可能是不穩(wěn)有條件的高斯混合分布使用梯度學(xué)習(xí)可能是不穩(wěn)定的。定的。p三個(gè)成分
20、的混和密度網(wǎng)絡(luò):三個(gè)成分的混和密度網(wǎng)絡(luò):266.3 隱藏單元隱藏單元p很難去決定什么時(shí)候去選取哪種隱藏單元,也很很難去決定什么時(shí)候去選取哪種隱藏單元,也很難事先去預(yù)測(cè)哪個(gè)單元會(huì)產(chǎn)生的效果會(huì)更好。難事先去預(yù)測(cè)哪個(gè)單元會(huì)產(chǎn)生的效果會(huì)更好。p一些隱藏單元并不是在所有的輸入點(diǎn)都是可微的。一些隱藏單元并不是在所有的輸入點(diǎn)都是可微的。n比如:比如:rectified linear函數(shù)函數(shù)g(z)=max0,z在在0點(diǎn)不是可微分的。這貌似會(huì)使點(diǎn)不是可微分的。這貌似會(huì)使rectified linear函數(shù)不能使用基于梯度的訓(xùn)練算法。而實(shí)踐中,梯度函數(shù)不能使用基于梯度的訓(xùn)練算法。而實(shí)踐中,梯度下降仍然表現(xiàn)很好。
21、下降仍然表現(xiàn)很好。p大多數(shù)隱藏單元可以被描述成接受一個(gè)輸入向量大多數(shù)隱藏單元可以被描述成接受一個(gè)輸入向量x,進(jìn)行計(jì)算,進(jìn)行計(jì)算z= , 最后計(jì)算非線性激最后計(jì)算非線性激活函數(shù)活函數(shù)g(z)的值,大多數(shù)隱藏單元之間的不同)的值,大多數(shù)隱藏單元之間的不同只是激活函數(shù)的不同。只是激活函數(shù)的不同。276.3.1 :修正線性單元以及其推廣:修正線性單元以及其推廣p修正線性單元使用的激活函數(shù):修正線性單元使用的激活函數(shù):n在在0點(diǎn)處不可導(dǎo),大于點(diǎn)處不可導(dǎo),大于0部分導(dǎo)數(shù)為部分導(dǎo)數(shù)為1,小于,小于0部分導(dǎo)部分導(dǎo)數(shù)為數(shù)為0。p優(yōu)點(diǎn):優(yōu)點(diǎn):n收斂速度較快,有可能是因?yàn)樗蔷€性的,且非飽和收斂速度較快,有可能是因
22、為它是線性的,且非飽和導(dǎo)致。導(dǎo)致。nReLU 只需要一個(gè)閾值就可以得到激活值,計(jì)算簡(jiǎn)便。只需要一個(gè)閾值就可以得到激活值,計(jì)算簡(jiǎn)便。p缺點(diǎn):缺點(diǎn):n“壞死現(xiàn)象壞死現(xiàn)象”:在:在z0時(shí)梯度為時(shí)梯度為0,這樣就導(dǎo)致這個(gè),這樣就導(dǎo)致這個(gè)神經(jīng)元有可能再也不會(huì)被任何數(shù)據(jù)激活。如果這個(gè)情神經(jīng)元有可能再也不會(huì)被任何數(shù)據(jù)激活。如果這個(gè)情況發(fā)生了,那么這個(gè)神經(jīng)元之后的梯度就永遠(yuǎn)是況發(fā)生了,那么這個(gè)神經(jīng)元之后的梯度就永遠(yuǎn)是0了。了。286.3.1 :修正線性單元以及其推廣:修正線性單元以及其推廣p由于在由于在zi小于小于0時(shí)出現(xiàn)的問題,作出如下改進(jìn):時(shí)出現(xiàn)的問題,作出如下改進(jìn):n當(dāng)當(dāng)zi小于小于0時(shí),增加一個(gè)非零比
23、例系數(shù)得到:時(shí),增加一個(gè)非零比例系數(shù)得到:n絕對(duì)值修正單元:令絕對(duì)值修正單元:令=-1有有nLeaky ReLU:讓讓成為一個(gè)非常小的值。成為一個(gè)非常小的值。nPReLU:令令成為一個(gè)可學(xué)習(xí)的參數(shù)。成為一個(gè)可學(xué)習(xí)的參數(shù)。p改進(jìn)后效果與改進(jìn)后效果與Relu單元相當(dāng)或更好些。單元相當(dāng)或更好些。296.3.1 :修正線性單元以及其推廣:修正線性單元以及其推廣pMaxout單元:?jiǎn)卧簄把把z向量分組,每組向量分組,每組k個(gè)值。個(gè)值。306.3.1 :修正線性單元以及其推廣:修正線性單元以及其推廣pMaxout單元性質(zhì):?jiǎn)卧再|(zhì):n可以學(xué)習(xí)一個(gè)分段線性,凸函數(shù)??梢詫W(xué)習(xí)一個(gè)分段線性,凸函數(shù)。n它是一個(gè)
24、可學(xué)習(xí)的激活函數(shù),因?yàn)槲覀兯且粋€(gè)可學(xué)習(xí)的激活函數(shù),因?yàn)槲覀僕參數(shù)是學(xué)習(xí)參數(shù)是學(xué)習(xí)變化的,導(dǎo)致變化的,導(dǎo)致zj也是變化的,選取的最大值也是變的。也是變化的,選取的最大值也是變的。nmaxout激活函數(shù)并不是一個(gè)固定的函數(shù),是一個(gè)固激活函數(shù)并不是一個(gè)固定的函數(shù),是一個(gè)固定的函數(shù)方程。定的函數(shù)方程。n可以把線性修正單元看成是擁有兩段的可以把線性修正單元看成是擁有兩段的maxout單元。單元。nMaxout單元會(huì)造成一定的冗余,這些冗余會(huì)一定程單元會(huì)造成一定的冗余,這些冗余會(huì)一定程度上抵制了神經(jīng)網(wǎng)絡(luò)中被稱之為度上抵制了神經(jīng)網(wǎng)絡(luò)中被稱之為“災(zāi)難性忘卻災(zāi)難性忘卻”的現(xiàn)的現(xiàn)象。象。316.3.2 : Lo
25、gistic Sigmoid and Hyperbolic Tangentp邏輯回歸邏輯回歸sigmoid激活函數(shù):激活函數(shù):p即:即:p雙區(qū)正切激活函數(shù):雙區(qū)正切激活函數(shù):p即:即:p兩者之間的關(guān)系:兩者之間的關(guān)系:326.3.2 : Logistic Sigmoid and Hyperbolic Tangentp邏輯邏輯sigmoid與雙曲正切圖像:與雙曲正切圖像:pSigmoid單元在輸入非常大或非常小時(shí)容易飽和,單元在輸入非常大或非常小時(shí)容易飽和,導(dǎo)致出現(xiàn)梯度消失情況,因此作為隱藏單元效果導(dǎo)致出現(xiàn)梯度消失情況,因此作為隱藏單元效果不好。不好。p相比之下,雙曲正切比邏輯相比之下,雙曲正切
26、比邏輯sigmoid要好一些。要好一些。336.3.3 : 其他隱藏單元其他隱藏單元p通常新的隱藏單元只有在被證明有重大的改進(jìn)的通常新的隱藏單元只有在被證明有重大的改進(jìn)的時(shí)候才被發(fā)布,否則并沒有太大的吸引力。時(shí)候才被發(fā)布,否則并沒有太大的吸引力。p考慮是否可以在隱層沒有激活函數(shù)或者使用恒等考慮是否可以在隱層沒有激活函數(shù)或者使用恒等函數(shù)分函數(shù)分f(x)=x作為激活函數(shù)?作為激活函數(shù)?n線性單元可以作為神經(jīng)網(wǎng)絡(luò)的輸出,同樣也許可以作線性單元可以作為神經(jīng)網(wǎng)絡(luò)的輸出,同樣也許可以作為隱層。為隱層。n考慮神經(jīng)網(wǎng)絡(luò)有考慮神經(jīng)網(wǎng)絡(luò)有n個(gè)輸入,個(gè)輸入,p個(gè)輸出,轉(zhuǎn)換為個(gè)輸出,轉(zhuǎn)換為 ??梢允褂脙蓚€(gè)??梢允褂脙?/p>
27、個(gè)層層替代替代它它,一層使用,一層使用權(quán)值矩陣權(quán)值矩陣U,另一層使用權(quán)值矩陣,另一層使用權(quán)值矩陣V,將,將W分解成分解成U*V的形式再去計(jì)算的形式再去計(jì)算 ,如果,如果U產(chǎn)生產(chǎn)生的輸出的輸出q很小,可以減少神經(jīng)網(wǎng)絡(luò)中的參數(shù)(很小,可以減少神經(jīng)網(wǎng)絡(luò)中的參數(shù)(U*V要要(n+p)*q個(gè)參數(shù),個(gè)參數(shù),W要要np個(gè)參數(shù)。)。個(gè)參數(shù)。)。 346.3.3 : 其他隱藏單元其他隱藏單元pSoftmax單元有時(shí)候也可以作為隱層,被當(dāng)作單元有時(shí)候也可以作為隱層,被當(dāng)作一種選擇器。一種選擇器。p徑向基函數(shù)(徑向基函數(shù)(RBF單元):?jiǎn)卧簄對(duì)于大多數(shù)對(duì)于大多數(shù)x,易飽和至,易飽和至0,很難去優(yōu)化。,很難去優(yōu)化
28、。pSoftplus單元:?jiǎn)卧?,整流線性單,整流線性單元的平滑版本,效果并沒有元的平滑版本,效果并沒有Relu好。好。pHard tanh單元單元:356.4: 結(jié)構(gòu)設(shè)計(jì)結(jié)構(gòu)設(shè)計(jì)p大多數(shù)神經(jīng)網(wǎng)絡(luò)會(huì)讓大多數(shù)神經(jīng)網(wǎng)絡(luò)會(huì)讓layers成為一個(gè)鏈?zhǔn)降慕Y(jié)構(gòu),成為一個(gè)鏈?zhǔn)降慕Y(jié)構(gòu),即當(dāng)前層的輸出是下一層的輸入。即當(dāng)前層的輸出是下一層的輸入。p在鏈?zhǔn)浇Y(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中,主要考慮神經(jīng)網(wǎng)絡(luò)的在鏈?zhǔn)浇Y(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)中,主要考慮神經(jīng)網(wǎng)絡(luò)的深度和每一層的廣度。深度和每一層的廣度。p更深次層的網(wǎng)絡(luò)可以讓每一層的單元數(shù)以及參數(shù)更深次層的網(wǎng)絡(luò)可以讓每一層的單元數(shù)以及參數(shù)變得很少,同樣可以泛化到測(cè)試集,但是不容易變得很少,同樣
29、可以泛化到測(cè)試集,但是不容易優(yōu)化。優(yōu)化。366.4.1: 萬能逼近的性質(zhì)與深度萬能逼近的性質(zhì)與深度p萬能逼近理論:有線性輸出層和至少一層隱藏層萬能逼近理論:有線性輸出層和至少一層隱藏層的前饋網(wǎng)絡(luò),可以從一個(gè)有限維空間到其他一個(gè)的前饋網(wǎng)絡(luò),可以從一個(gè)有限維空間到其他一個(gè)空間空間,逼近任意逼近任意Borel measurableBorel measurable函數(shù)。函數(shù)。n可以用前饋網(wǎng)絡(luò)逼近任意函數(shù),但是沒有指出這個(gè)神可以用前饋網(wǎng)絡(luò)逼近任意函數(shù),但是沒有指出這個(gè)神經(jīng)網(wǎng)絡(luò)有多大。經(jīng)網(wǎng)絡(luò)有多大。n如果用只含有擁有一個(gè)隱層的網(wǎng)絡(luò)來逼近函數(shù)會(huì)導(dǎo)致如果用只含有擁有一個(gè)隱層的網(wǎng)絡(luò)來逼近函數(shù)會(huì)導(dǎo)致隱藏單元個(gè)數(shù)過
30、多隱藏單元個(gè)數(shù)過多(指數(shù)級(jí)別指數(shù)級(jí)別),復(fù)雜度過高,這是難,復(fù)雜度過高,這是難以執(zhí)行的。以執(zhí)行的。n淺層的神經(jīng)網(wǎng)絡(luò)不能夠有效的解決深度的問題。淺層的神經(jīng)網(wǎng)絡(luò)不能夠有效的解決深度的問題。n深度修正網(wǎng)絡(luò)可以代表指數(shù)級(jí)的擁有一個(gè)隱層的淺層深度修正網(wǎng)絡(luò)可以代表指數(shù)級(jí)的擁有一個(gè)隱層的淺層模型。模型。376.4.1:萬能逼近的性質(zhì)與深度:萬能逼近的性質(zhì)與深度p絕對(duì)值修正網(wǎng)絡(luò)在隱藏單元?jiǎng)?chuàng)建函數(shù)鏡像過程:絕對(duì)值修正網(wǎng)絡(luò)在隱藏單元?jiǎng)?chuàng)建函數(shù)鏡像過程:n對(duì)稱軸是由單元的權(quán)重和偏置決定的超平面給出。對(duì)稱軸是由單元的權(quán)重和偏置決定的超平面給出。n一次的一次的“折疊折疊”可以減少近一半的計(jì)算量。可以減少近一半的計(jì)算量。3
31、86.4.1:萬能逼近的性質(zhì)與深度:萬能逼近的性質(zhì)與深度p深度對(duì)準(zhǔn)確率的影響:深度對(duì)準(zhǔn)確率的影響:396.4.1:萬能逼近的性質(zhì)與深度:萬能逼近的性質(zhì)與深度p參數(shù)對(duì)準(zhǔn)確率的影響:參數(shù)對(duì)準(zhǔn)確率的影響:406.4.2:其他的結(jié)構(gòu)考慮:其他的結(jié)構(gòu)考慮p結(jié)構(gòu)的設(shè)計(jì)不僅要考慮每層的廣度以及神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)不僅要考慮每層的廣度以及神經(jīng)網(wǎng)絡(luò)的深度,還要針對(duì)具體的任務(wù)進(jìn)行其他的結(jié)構(gòu)考的深度,還要針對(duì)具體的任務(wù)進(jìn)行其他的結(jié)構(gòu)考慮。慮。n比如:可以不必連接成一個(gè)鏈?zhǔn)降慕Y(jié)構(gòu),可以考慮比如:可以不必連接成一個(gè)鏈?zhǔn)降慕Y(jié)構(gòu),可以考慮“跳層跳層”的連接:從第的連接:從第i層到層到i+2的連接,這種的連接,這種“跳層跳層”的連接方便梯度從輸出層流出到接近輸入的層。的連接方便梯度從輸出層流出到接近輸入的層。p結(jié)構(gòu)設(shè)計(jì)的另一個(gè)重要的考慮因素是如何連接兩結(jié)構(gòu)設(shè)計(jì)的另一個(gè)重要的考慮因素是如何連接兩層。層。n兩層之間可以不必要全連接,可以減少參數(shù)以及復(fù)雜兩層之間可以不必要全連接,可以減少參數(shù)以及復(fù)雜度。度。416.5:反向
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 共享自習(xí)室項(xiàng)目實(shí)施方案
- 貴州省六盤水市水城區(qū)2023-2024學(xué)年高一上學(xué)期12月月考?xì)v史含解析
- 2025年開展安全生產(chǎn)月活動(dòng)實(shí)施方案 (3份)
- 江西工業(yè)貿(mào)易職業(yè)技術(shù)學(xué)院《納米材料表征方法》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣西英華國(guó)際職業(yè)學(xué)院《籃球四》2023-2024學(xué)年第二學(xué)期期末試卷
- 安徽理工大學(xué)《電工電子綜合實(shí)踐》2023-2024學(xué)年第二學(xué)期期末試卷
- 濮陽(yáng)石油化工職業(yè)技術(shù)學(xué)院《工業(yè)催化》2023-2024學(xué)年第二學(xué)期期末試卷
- 甘肅機(jī)電職業(yè)技術(shù)學(xué)院《計(jì)算機(jī)應(yīng)用綜合性設(shè)計(jì)》2023-2024學(xué)年第二學(xué)期期末試卷
- 廣東海洋大學(xué)《大數(shù)據(jù)技術(shù)開源架構(gòu)》2023-2024學(xué)年第二學(xué)期期末試卷
- 武漢科技大學(xué)《環(huán)境生態(tài)學(xué)俄》2023-2024學(xué)年第二學(xué)期期末試卷
- 《2025年CSCO卵巢癌診療指南》更新要點(diǎn)解讀
- 2024年廣東省廣州市中考數(shù)學(xué)試卷【含解析】
- 拋石擠淤方案
- 《海上浮架用抗老化高密度聚乙烯(HDPE)踏板》
- 中華民族發(fā)展史知到課后答案智慧樹章節(jié)測(cè)試答案2025年春云南大學(xué)
- 3.2依法行使權(quán)利 教案 2024-2025學(xué)年統(tǒng)編版道德與法治八年級(jí)下冊(cè)
- 2025年浙江臺(tái)州市黃巖永寧公園服務(wù)有限公司招聘筆試參考題庫(kù)附帶答案詳解
- 安全玻璃采光頂施工方案
- 消防安全知識(shí)培訓(xùn)(完整版)
- 《有效處理客戶投訴的策略與技巧:課件》
- 供應(yīng)鏈管理流程圖及說明課件
評(píng)論
0/150
提交評(píng)論