自編碼(Autoencoder)_第1頁
自編碼(Autoencoder)_第2頁
自編碼(Autoencoder)_第3頁
自編碼(Autoencoder)_第4頁
自編碼(Autoencoder)_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、大綱稀疏自編碼(Sparse Autoencoder)棧式自編碼 (Stacked Autoencoder)去噪自編碼(Denoising Autoencoder)壓縮自編碼(Contrative Autoencoder)自編碼簡介(Autoencoder)自編碼簡介(Autoencoder):輸入值:編碼函數(shù):編碼或內(nèi)部表示:解碼函數(shù):輸出,也稱“重建值”( )hf xxfg( ( )rg f x( , )L r x:損失函數(shù),用于測量重建的好 壞,目標(biāo)是最小化L的期望值。自編碼簡介(Autoencoder)自動(dòng)編碼器就是一種盡可能復(fù)現(xiàn)輸入信號(hào)的神經(jīng)網(wǎng)絡(luò);自動(dòng)編碼器必須捕捉可以代表輸入數(shù)據(jù)的

2、最重要的因素;類似 PCA,找到可以代表原信息的主要成分。Input:數(shù)據(jù)的輸入;Encoder:編碼器;Code:輸入的一個(gè)表示;Decoder:解碼器;Reconstruction: input的重建;Error: 重建數(shù)據(jù)和input的誤差。自編碼簡介(Autoencoder)幾種自編碼的共同點(diǎn)幾種自編碼的共同點(diǎn)自編碼的共同點(diǎn):是除了預(yù)防針對(duì)x簡單地學(xué)習(xí)一個(gè)恒等函數(shù)外,還包含在以下兩方面取折中。1、學(xué)習(xí)到一個(gè)針對(duì)x的表示h,x也能通過一個(gè)解碼器從h中還原;需要注意的是:這并不需要對(duì)所有x都滿足,只滿足對(duì)那些服從數(shù)據(jù)分布的x即可。(重建誤差)2、減小模型代表性的能力,使在盡可能多的輸入方向

3、上不敏感。(模型的表達(dá)能力,泛化能力?)自編碼簡介(Autoencoder)如何在重建誤差和表達(dá)能力之間取折中呢?如何在重建誤差和表達(dá)能力之間取折中呢?解決方法:區(qū)分訓(xùn)練樣本的哪些變量需要表示。學(xué)到一個(gè)數(shù)據(jù)的表示(映射,mapping),對(duì)流形的方向比較敏感,對(duì)正交于流形的方向不敏感。將在正交于流形的方向產(chǎn)生一個(gè)收縮的表示。圖中,黑色的線為流形空間,向右的綠色箭頭與流形相切,藍(lán)色的箭頭正交于流形。自編碼簡介(Autoencoder)重建誤差的概率解釋重建誤差的概率解釋log( |( ( )LP x g f x 目標(biāo)函數(shù):l 損失函數(shù)的選取取決于輸入數(shù)據(jù)的類型:如果輸入是實(shí)數(shù)值,無界值,損失函數(shù)

4、使用平方差(squared error);如果輸入時(shí)位矢量,交叉熵(cross-entropy)更適合做損失函數(shù)。什么是交叉熵?什么是交叉熵? p和q分布的交叉熵是:p分布的信息熵信息熵和p和q的DL散度散度的和。( , ) log ( )(| )pKLH p qEqH pDpql 我們可以認(rèn)為訓(xùn)練一個(gè)解碼函數(shù)等同于對(duì)條件分布P(x|h)的估計(jì);同樣的道理,可以將編碼函數(shù)理解為一個(gè)條件分布Q(h|x),而不僅僅是一個(gè)“干巴巴”的函數(shù)式子。稀疏自動(dòng)編碼器(Sparse Autoencoder )如果在AutoEncoder的基礎(chǔ)上加上L1的Regularity限制(L1主要是約束每一層中的節(jié)點(diǎn)中

5、大部分都要為0,只有少數(shù)不為0,這就是Sparse名字的來源),我們就可以得到Sparse AutoEncoder法。如上圖,其實(shí)就是限制每次得到的表達(dá)code盡量稀疏。因?yàn)橄∈璧谋磉_(dá)往往比其他的表達(dá)要有效(人腦好像也是這樣的,某個(gè)輸入只是刺激某些神經(jīng)元,其他的大部分的神經(jīng)元是受到抑制的)。稀疏自動(dòng)編碼器(Sparse Autoencoder )輸入:基礎(chǔ)知識(shí)回顧基礎(chǔ)知識(shí)回顧3,1( )()()TW biiihxf W xfW xb輸出:123,x x x激活函數(shù):1( )1exp()f zzSigmiod( )( )(1( )fzf zf zSigmoid函數(shù)曲線導(dǎo)數(shù):稀疏自動(dòng)編碼器(Spa

6、rse Autoencoder )簡單神經(jīng)網(wǎng)絡(luò)(三層,單隱藏層)簡單神經(jīng)網(wǎng)絡(luò)(三層,單隱藏層)L層第i個(gè)單元的輸入單元總的加權(quán)和表示為:( ) liz例如:所以:進(jìn)一步簡寫:稀疏自動(dòng)編碼器(Sparse Autoencoder )反向傳播算法(反向傳播算法(Backpropagation algorithm)輸入:共m個(gè)訓(xùn)練集損失函數(shù):其中,類似于加入正則化項(xiàng)(權(quán)重衰減項(xiàng),weight decay),如下式:稀疏自動(dòng)編碼器(Sparse Autoencoder )反向傳播算法(反向傳播算法(Backpropagation algorithm)首先,通過前向網(wǎng)絡(luò),計(jì)算每個(gè)神經(jīng)元的激活值(acti

7、vations),包括輸出值:其次,對(duì)于第L層的第i節(jié)點(diǎn),計(jì)算其誤差項(xiàng):對(duì)于輸出節(jié)點(diǎn),詳細(xì)推導(dǎo)步驟表示輸出層有:推導(dǎo)見下一張PPT。稀疏自動(dòng)編碼器(Sparse Autoencoder )反向傳播算法(反向傳播算法(Backpropagation algorithm)如何得來的呢?推導(dǎo)過程:對(duì)于,有:其中,表示l+1層神經(jīng)元個(gè)數(shù)詳細(xì)推導(dǎo)步驟1(1)( )( )(1)( )llsjlillljijizEEzzz1( )(1)( )()llslsjiilijljiwf zz1(1)( )()()lslljijijwfz稀疏自動(dòng)編碼器(Sparse Autoencoder )自編碼 設(shè)法學(xué)習(xí)到一個(gè)函

8、數(shù),使得:回到自編碼回到自編碼即: xx稀疏自動(dòng)編碼器(Sparse Autoencoder )為隱藏單元 j 的平均激活值如左圖,(2)11a(2)22a(2)33a一般強(qiáng)制約束jWhy? 看下文是一個(gè)稀疏參數(shù),一般取接近于0的值,比如0.05;也就是說,每個(gè)隱藏單元j的平均激活值接近于0.05。稀疏自動(dòng)編碼器(Sparse Autoencoder )該式的另外一個(gè)作用是:對(duì)j偏離我們添加一個(gè)額外的懲罰項(xiàng)來最優(yōu)化目標(biāo)函數(shù)。即:其中,KL散度公式:的程度進(jìn)行懲罰 ?左圖中,=0.2當(dāng) =0.2j時(shí),KL散度值達(dá)到最小,其值為0。當(dāng)j趨于0或1時(shí),KL散度值趨于無窮大。因此,為了使以上懲罰項(xiàng)最小

9、,必須使得:j稀疏自動(dòng)編碼器(Sparse Autoencoder )因此,全局損失函數(shù)為:哎媽,這玩意終于出來了!其中:稀疏自動(dòng)編碼器(Sparse Autoencoder )為什么能稀疏?1、減小編碼后隱藏層神經(jīng)元個(gè)數(shù)。 比如,后一層比前一層神經(jīng)元個(gè)數(shù)少。 如果激活函數(shù)不使用sigmoid函數(shù),而 使用線性函數(shù),就是PCA模型。2、隱藏層的任何一個(gè)神經(jīng)元不應(yīng)該總是高度激活 。通過設(shè)置j的值充分小,一般接近于0,比如0.01等。為使KL散度盡可能小,則:(2)1a從而使得類似于右圖中的神經(jīng)元激活值較小,處于抑制狀態(tài)。(2)2a(2)3a小稀疏自動(dòng)編碼器(Sparse Autoencoder

10、)部分代碼:初始化前向計(jì)算各神經(jīng)元的線性組合值和激活值權(quán)值懲罰項(xiàng)稀疏項(xiàng)損失函數(shù)的總表達(dá)式棧式自編碼 (Stacked Autoencoder)棧式自編碼在預(yù)訓(xùn)練(初始化)深度神經(jīng)網(wǎng)絡(luò)的權(quán)重使用較多棧式自編碼神經(jīng)網(wǎng)絡(luò)是一個(gè)由多層稀疏自編碼器組成的神經(jīng)網(wǎng)絡(luò),其前一層自編碼器的輸出作為其后一層自編碼器的輸入。采用逐層貪婪訓(xùn)練法進(jìn)行訓(xùn)練,獲取棧式自編碼神經(jīng)網(wǎng)絡(luò)參數(shù)。按照從前向后的順序執(zhí)行每一層自編碼器的編碼步驟:( )( )a()llf z(1)( ,1)( )( ,1)llllzWab是最深層隱藏單元的激活值,這個(gè)向量是對(duì)輸入值的更高階的表示。其中,( )an 作為softmax分類器的輸入特征,可

11、以網(wǎng)絡(luò)中學(xué)的特征用于分類問題。 通過將( )an棧式自編碼 (Stacked Autoencoder)具體實(shí)例具體實(shí)例訓(xùn)練一個(gè)包含兩個(gè)隱含層的棧式自編碼網(wǎng)絡(luò),用來進(jìn)行MNIST手寫數(shù)字分類。首先首先,你需要用原始輸入 訓(xùn)練第一個(gè)自編碼器,它能夠?qū)W習(xí)得到原始輸入的一階特征表示然后然后,你再用這些一階特征作為另一個(gè)稀疏自編碼器的輸入,使用它們來學(xué)習(xí)二階特征( )kx(1)kh(2)kh棧式自編碼 (Stacked Autoencoder)接下來接下來,你可以把這些二階特征作為softmax分類器的輸入,訓(xùn)練得到一個(gè)能將二階特征映射到數(shù)字標(biāo)簽的模型。最終最終,你可以將這三層結(jié)合起來構(gòu)建一個(gè)包含兩個(gè)隱

12、藏層和一個(gè)最終softmax分類器層的棧式自編碼網(wǎng)絡(luò),這個(gè)網(wǎng)絡(luò)能夠如你所愿地對(duì)MNIST數(shù)字進(jìn)行分類。棧式自編碼 (Stacked Autoencoder)棧式自編碼神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的表達(dá)能力及深度神經(jīng)網(wǎng)絡(luò)的所有優(yōu)點(diǎn)。更進(jìn)一步,它通常能夠獲取到輸入的“層次型分組”或者“部分-整體分解”結(jié)構(gòu)。自編碼器傾向于學(xué)習(xí)得到能更好地表示輸入數(shù)據(jù)的特征。舉個(gè)例子,如果網(wǎng)絡(luò)的輸入數(shù)據(jù)是圖像,網(wǎng)絡(luò)的第一層會(huì)學(xué)習(xí)如何去識(shí)別邊,第二層一般會(huì)學(xué)習(xí)如何去組合邊,從而構(gòu)成輪廓、角等。更高層會(huì)學(xué)習(xí)如何去組合更形象且有意義的特征。例如,如果輸入數(shù)據(jù)集包含人臉圖像,更高層會(huì)學(xué)習(xí)如何識(shí)別或組合眼睛、鼻子、嘴等人臉器官。本節(jié)本節(jié)小

13、結(jié)小結(jié)去噪自編碼(Denoising Autoencoder):為輸入值:通過對(duì)x隨機(jī)映射或添加噪聲而獲得xx x(x|x)Dqz( )gyy(x)f訓(xùn)練指導(dǎo)思想:最小化L (x,z)H其中,1L (x,z) = -log(1)log(1)dHkkkkkxzxz信息熵KL散度+去噪自編碼(Denoising Autoencoder)噪聲的兩個(gè)來源噪聲的兩個(gè)來源:1、來自于樣本中選擇的訓(xùn)練數(shù)據(jù)集x2、對(duì)數(shù)據(jù)集x的隨機(jī)破壞(或添加噪聲),從而獲得x 去噪自編碼(Denoising Autoencoder)流形學(xué)習(xí)觀點(diǎn)流形學(xué)習(xí)觀點(diǎn)重建干凈的數(shù)據(jù)x DAE用于從破損的x:破損處理,灰色的圈代表等概率的

14、破損C(x|x)x:圖中的紅十字,分布在低維流 形附近。DAE 訓(xùn)練最小化均方誤差:學(xué)習(xí)一個(gè)向量場(綠色的箭頭)2g( ( )f xxg( ( )f xx向量場用于估計(jì)一個(gè)梯度場(log( )Q xx(x)Q其中,是未知的數(shù)據(jù)分布去噪自編碼(Denoising Autoencoder)學(xué)習(xí)學(xué)習(xí)一個(gè)一個(gè)向量場用于估計(jì)梯度場向量場用于估計(jì)梯度場這個(gè)屬性在以下前提條件下已被證明(Alain and Bengio, 2012, 2013)g( ( )f x用于估計(jì)梯度場(log( )Q xx x是連續(xù)值,損壞(添加噪聲)和重建分布都服從高斯分布 均方誤差:2g( ( )f xx 破損處理服從以下分布:

15、2(| )( ;,)C Xx xN xxI 更準(zhǔn)確地說,(log( )Q xx2g( ( )f xx是一個(gè)相容估計(jì),即:2g( ( )(log( )f xxQ xx去噪自編碼(Denoising Autoencoder)1、圖中每個(gè)箭頭長度正比于:重建值減去自編碼的輸入矢量;2、方向:根據(jù)隱含估計(jì)的概率分布指向更高的概率值;3、注意:估計(jì)密度函數(shù)的頂峰(數(shù)據(jù)流形上)和低谷(局部最?。┫蛄繄鰹榱阒?。去噪自編碼(Denoising Autoencoder)將梯度場變成一個(gè)生成模型將梯度場變成一個(gè)生成模型 編碼-解碼對(duì)的應(yīng)用可以給我們生成一個(gè)大概的結(jié)構(gòu),如果我們考慮蒙特卡羅馬爾科夫鏈算法 (MCMC

16、),兩方面需要注意:1、從低概率結(jié)構(gòu)轉(zhuǎn)移到高概率結(jié)構(gòu)2、加入隨機(jī)性,使得鏈可到處轉(zhuǎn)移(不至于在一些概率或模型的頂峰被困住,陷入局部最優(yōu)?),并且有機(jī)會(huì)遍歷整個(gè)空間,使得概率等于潛在模型的概率從概念上的理解,我們?cè)谧鼍幋a解碼操作時(shí),需要加入噪聲,但加入多少?怎么加合適呢?(But how much and how?) 下頁將作出解釋去噪自編碼(Denoising Autoencoder)圖中,C 和P 是條件隨機(jī)的,f 和g 是確定性計(jì)算。(a)在x中加入噪聲, 產(chǎn)生x (b)使用f函數(shù)對(duì)x進(jìn)行編碼(c)使用g函數(shù)進(jìn)行解碼(d)從重建的分布中進(jìn)行采樣獲得一個(gè)新的狀態(tài) xt+1(|( ( )P X

17、g f x從估計(jì)分布中產(chǎn)生馬爾科夫鏈的步驟:答案在:Bengio et al. (2013) (Theorem 1)理論表明,自編碼 是相關(guān)的真值條件分布 的 一個(gè)相容估計(jì),然而,以上馬爾科夫鏈的平穩(wěn)分布是X 的數(shù)據(jù)生成分布 的 一個(gè)相容估計(jì)。(|)P X X去噪自編碼(Denoising Autoencoder)圖中數(shù)據(jù)(黑圈)分布在低維流形(螺旋線)的附近馬爾科夫鏈的兩個(gè)隨機(jī)步驟:x: 綠色的圓圈 代表狗的真實(shí)圖像值。 : 藍(lán)色的圓圈 代表添加噪聲后狗的圖像值。x ( | )C x x : 代表各向同性(等概率?)高斯噪聲,圖中的綠色。 ( | )C x x 1、通過 將x變換成x 2、在

18、降噪后重建的分布中 對(duì)下一個(gè)狀態(tài)進(jìn)行采樣。( | )P x x x有很多種可能,取決于 ,x 圖中,藍(lán)色的扁平形狀就是 的表示結(jié)果( | )P x x x分布在 附近的流形上。x 說明:去噪自編碼(Denoising Autoencoder)去噪自動(dòng)編碼器DA是在自動(dòng)編碼器的基礎(chǔ)上,訓(xùn)練數(shù)據(jù)加入噪聲,所以自動(dòng)編碼器必須學(xué)習(xí)去去除這種噪聲而獲得真正的沒有被噪聲污染過的輸入。 因此,這就迫使編碼器去學(xué)習(xí)輸入信號(hào)的更加魯棒的表達(dá),這也是它的泛化能力比一般編碼器強(qiáng)的原因。本節(jié)本節(jié)小結(jié)小結(jié)壓縮自編碼(Contrative Autoencoder) 好的特征表示大致有2個(gè)衡量標(biāo)準(zhǔn):1. 可以很好的重構(gòu)出輸

19、入數(shù)據(jù); 2.對(duì)輸入數(shù)據(jù)一定程度下的擾動(dòng)具有不變形。 普通的autoencoder、sparse autoencoder和stacked autoencoder主要是符合第一個(gè)標(biāo)準(zhǔn)。而deniose autoencoder和contractive autoencoder則主要體現(xiàn)在第二個(gè)。在一些分類任務(wù)中,第二個(gè)標(biāo)準(zhǔn)顯得更重要。引言引言壓縮自編碼(Contrative Autoencoder)普通自編碼:壓縮自編碼:其中,雅克比矩陣:When Sigmoid,壓縮自編碼(Contrative Autoencoder)CAE與正則化自編碼(即與正則化自編碼(即weight decay)的關(guān)系)的關(guān)系 1、當(dāng)線性編碼,并且 為恒等函數(shù)時(shí),有: 對(duì)于,fswdAECAEJJ 此時(shí),使權(quán)值W盡量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論