自編碼(Autoencoder)

上傳人：1*** IP屬地：湖北上傳時(shí)間：2021-12-21 格式：PPTX 頁數(shù)：38 大小：1.84MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩33頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、大綱稀疏自編碼（Sparse Autoencoder）棧式自編碼（Stacked Autoencoder）去噪自編碼（Denoising Autoencoder）壓縮自編碼（Contrative Autoencoder）自編碼簡介（Autoencoder）自編碼簡介（Autoencoder）：輸入值：編碼函數(shù)：編碼或內(nèi)部表示：解碼函數(shù)：輸出，也稱“重建值”( )hf xxfg( ( )rg f x( , )L r x：損失函數(shù)，用于測量重建的好壞，目標(biāo)是最小化L的期望值。自編碼簡介（Autoencoder）自動(dòng)編碼器就是一種盡可能復(fù)現(xiàn)輸入信號(hào)的神經(jīng)網(wǎng)絡(luò)；自動(dòng)編碼器必須捕捉可以代表輸入數(shù)據(jù)的

2、最重要的因素；類似 PCA，找到可以代表原信息的主要成分。Input：數(shù)據(jù)的輸入；Encoder：編碼器；Code：輸入的一個(gè)表示；Decoder：解碼器；Reconstruction: input的重建；Error: 重建數(shù)據(jù)和input的誤差。自編碼簡介（Autoencoder）幾種自編碼的共同點(diǎn)幾種自編碼的共同點(diǎn)自編碼的共同點(diǎn)：是除了預(yù)防針對(duì)x簡單地學(xué)習(xí)一個(gè)恒等函數(shù)外，還包含在以下兩方面取折中。1、學(xué)習(xí)到一個(gè)針對(duì)x的表示h，x也能通過一個(gè)解碼器從h中還原；需要注意的是：這并不需要對(duì)所有x都滿足，只滿足對(duì)那些服從數(shù)據(jù)分布的x即可。（重建誤差）2、減小模型代表性的能力，使在盡可能多的輸入方向

3、上不敏感。（模型的表達(dá)能力，泛化能力？）自編碼簡介（Autoencoder）如何在重建誤差和表達(dá)能力之間取折中呢？如何在重建誤差和表達(dá)能力之間取折中呢？解決方法：區(qū)分訓(xùn)練樣本的哪些變量需要表示。學(xué)到一個(gè)數(shù)據(jù)的表示（映射，mapping），對(duì)流形的方向比較敏感，對(duì)正交于流形的方向不敏感。將在正交于流形的方向產(chǎn)生一個(gè)收縮的表示。圖中，黑色的線為流形空間，向右的綠色箭頭與流形相切，藍(lán)色的箭頭正交于流形。自編碼簡介（Autoencoder）重建誤差的概率解釋重建誤差的概率解釋log( |( ( )LP x g f x 目標(biāo)函數(shù)：l 損失函數(shù)的選取取決于輸入數(shù)據(jù)的類型：如果輸入是實(shí)數(shù)值，無界值，損失函數(shù)

4、使用平方差（squared error）；如果輸入時(shí)位矢量，交叉熵（cross-entropy）更適合做損失函數(shù)。什么是交叉熵？什么是交叉熵？ p和q分布的交叉熵是：p分布的信息熵信息熵和p和q的DL散度散度的和。( , ) log ( )(| )pKLH p qEqH pDpql 我們可以認(rèn)為訓(xùn)練一個(gè)解碼函數(shù)等同于對(duì)條件分布P(x|h)的估計(jì)；同樣的道理，可以將編碼函數(shù)理解為一個(gè)條件分布Q(h|x),而不僅僅是一個(gè)“干巴巴”的函數(shù)式子。稀疏自動(dòng)編碼器（Sparse Autoencoder ）如果在AutoEncoder的基礎(chǔ)上加上L1的Regularity限制（L1主要是約束每一層中的節(jié)點(diǎn)中

5、大部分都要為0，只有少數(shù)不為0，這就是Sparse名字的來源），我們就可以得到Sparse AutoEncoder法。如上圖，其實(shí)就是限制每次得到的表達(dá)code盡量稀疏。因?yàn)橄∈璧谋磉_(dá)往往比其他的表達(dá)要有效（人腦好像也是這樣的，某個(gè)輸入只是刺激某些神經(jīng)元，其他的大部分的神經(jīng)元是受到抑制的）。稀疏自動(dòng)編碼器（Sparse Autoencoder ）輸入：基礎(chǔ)知識(shí)回顧基礎(chǔ)知識(shí)回顧3,1( )()()TW biiihxf W xfW xb輸出：123,x x x激活函數(shù)：1( )1exp()f zzSigmiod( )( )(1( )fzf zf zSigmoid函數(shù)曲線導(dǎo)數(shù)：稀疏自動(dòng)編碼器（Spa

6、rse Autoencoder ）簡單神經(jīng)網(wǎng)絡(luò)（三層，單隱藏層）簡單神經(jīng)網(wǎng)絡(luò)（三層，單隱藏層）L層第i個(gè)單元的輸入單元總的加權(quán)和表示為:( ) liz例如：所以：進(jìn)一步簡寫：稀疏自動(dòng)編碼器（Sparse Autoencoder ）反向傳播算法（反向傳播算法（Backpropagation algorithm）輸入：共m個(gè)訓(xùn)練集損失函數(shù)：其中，類似于加入正則化項(xiàng)（權(quán)重衰減項(xiàng)，weight decay），如下式：稀疏自動(dòng)編碼器（Sparse Autoencoder ）反向傳播算法（反向傳播算法（Backpropagation algorithm）首先，通過前向網(wǎng)絡(luò)，計(jì)算每個(gè)神經(jīng)元的激活值（acti

7、vations），包括輸出值：其次，對(duì)于第L層的第i節(jié)點(diǎn)，計(jì)算其誤差項(xiàng)：對(duì)于輸出節(jié)點(diǎn)，詳細(xì)推導(dǎo)步驟表示輸出層有：推導(dǎo)見下一張PPT。稀疏自動(dòng)編碼器（Sparse Autoencoder ）反向傳播算法（反向傳播算法（Backpropagation algorithm）如何得來的呢？推導(dǎo)過程：對(duì)于，有：其中，表示l+1層神經(jīng)元個(gè)數(shù)詳細(xì)推導(dǎo)步驟1(1)( )( )(1)( )llsjlillljijizEEzzz1( )(1)( )()llslsjiilijljiwf zz1(1)( )()()lslljijijwfz稀疏自動(dòng)編碼器（Sparse Autoencoder ）自編碼設(shè)法學(xué)習(xí)到一個(gè)函

8、數(shù)，使得：回到自編碼回到自編碼即： xx稀疏自動(dòng)編碼器（Sparse Autoencoder ）為隱藏單元 j 的平均激活值如左圖，(2)11a(2)22a(2)33a一般強(qiáng)制約束jWhy? 看下文是一個(gè)稀疏參數(shù)，一般取接近于0的值，比如0.05；也就是說，每個(gè)隱藏單元j的平均激活值接近于0.05。稀疏自動(dòng)編碼器（Sparse Autoencoder ）該式的另外一個(gè)作用是：對(duì)j偏離我們添加一個(gè)額外的懲罰項(xiàng)來最優(yōu)化目標(biāo)函數(shù)。即：其中，KL散度公式：的程度進(jìn)行懲罰？左圖中，=0.2當(dāng) =0.2j時(shí)，KL散度值達(dá)到最小，其值為0。當(dāng)j趨于0或1時(shí)，KL散度值趨于無窮大。因此，為了使以上懲罰項(xiàng)最小

9、，必須使得：j稀疏自動(dòng)編碼器（Sparse Autoencoder ）因此，全局損失函數(shù)為：哎媽，這玩意終于出來了！其中：稀疏自動(dòng)編碼器（Sparse Autoencoder ）為什么能稀疏？1、減小編碼后隱藏層神經(jīng)元個(gè)數(shù)。比如，后一層比前一層神經(jīng)元個(gè)數(shù)少。如果激活函數(shù)不使用sigmoid函數(shù)，而使用線性函數(shù)，就是PCA模型。2、隱藏層的任何一個(gè)神經(jīng)元不應(yīng)該總是高度激活。通過設(shè)置j的值充分小，一般接近于0，比如0.01等。為使KL散度盡可能小，則：(2)1a從而使得類似于右圖中的神經(jīng)元激活值較小，處于抑制狀態(tài)。(2)2a(2)3a小稀疏自動(dòng)編碼器（Sparse Autoencoder

10、）部分代碼：初始化前向計(jì)算各神經(jīng)元的線性組合值和激活值權(quán)值懲罰項(xiàng)稀疏項(xiàng)損失函數(shù)的總表達(dá)式棧式自編碼（Stacked Autoencoder）棧式自編碼在預(yù)訓(xùn)練（初始化）深度神經(jīng)網(wǎng)絡(luò)的權(quán)重使用較多棧式自編碼神經(jīng)網(wǎng)絡(luò)是一個(gè)由多層稀疏自編碼器組成的神經(jīng)網(wǎng)絡(luò)，其前一層自編碼器的輸出作為其后一層自編碼器的輸入。采用逐層貪婪訓(xùn)練法進(jìn)行訓(xùn)練，獲取棧式自編碼神經(jīng)網(wǎng)絡(luò)參數(shù)。按照從前向后的順序執(zhí)行每一層自編碼器的編碼步驟：( )( )a()llf z(1)( ,1)( )( ,1)llllzWab是最深層隱藏單元的激活值，這個(gè)向量是對(duì)輸入值的更高階的表示。其中，( )an 作為softmax分類器的輸入特征，可

11、以網(wǎng)絡(luò)中學(xué)的特征用于分類問題。通過將( )an棧式自編碼（Stacked Autoencoder）具體實(shí)例具體實(shí)例訓(xùn)練一個(gè)包含兩個(gè)隱含層的棧式自編碼網(wǎng)絡(luò)，用來進(jìn)行MNIST手寫數(shù)字分類。首先首先，你需要用原始輸入訓(xùn)練第一個(gè)自編碼器，它能夠?qū)W習(xí)得到原始輸入的一階特征表示然后然后，你再用這些一階特征作為另一個(gè)稀疏自編碼器的輸入，使用它們來學(xué)習(xí)二階特征( )kx(1)kh(2)kh棧式自編碼（Stacked Autoencoder）接下來接下來，你可以把這些二階特征作為softmax分類器的輸入，訓(xùn)練得到一個(gè)能將二階特征映射到數(shù)字標(biāo)簽的模型。最終最終，你可以將這三層結(jié)合起來構(gòu)建一個(gè)包含兩個(gè)隱

12、藏層和一個(gè)最終softmax分類器層的棧式自編碼網(wǎng)絡(luò)，這個(gè)網(wǎng)絡(luò)能夠如你所愿地對(duì)MNIST數(shù)字進(jìn)行分類。棧式自編碼（Stacked Autoencoder）棧式自編碼神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的表達(dá)能力及深度神經(jīng)網(wǎng)絡(luò)的所有優(yōu)點(diǎn)。更進(jìn)一步，它通常能夠獲取到輸入的“層次型分組”或者“部分-整體分解”結(jié)構(gòu)。自編碼器傾向于學(xué)習(xí)得到能更好地表示輸入數(shù)據(jù)的特征。舉個(gè)例子，如果網(wǎng)絡(luò)的輸入數(shù)據(jù)是圖像，網(wǎng)絡(luò)的第一層會(huì)學(xué)習(xí)如何去識(shí)別邊，第二層一般會(huì)學(xué)習(xí)如何去組合邊，從而構(gòu)成輪廓、角等。更高層會(huì)學(xué)習(xí)如何去組合更形象且有意義的特征。例如，如果輸入數(shù)據(jù)集包含人臉圖像，更高層會(huì)學(xué)習(xí)如何識(shí)別或組合眼睛、鼻子、嘴等人臉器官。本節(jié)本節(jié)小

13、結(jié)小結(jié)去噪自編碼（Denoising Autoencoder）：為輸入值：通過對(duì)x隨機(jī)映射或添加噪聲而獲得xx x(x|x)Dqz( )gyy(x)f訓(xùn)練指導(dǎo)思想：最小化L (x,z)H其中，1L (x,z) = -log(1)log(1)dHkkkkkxzxz信息熵KL散度+去噪自編碼（Denoising Autoencoder）噪聲的兩個(gè)來源噪聲的兩個(gè)來源:1、來自于樣本中選擇的訓(xùn)練數(shù)據(jù)集x2、對(duì)數(shù)據(jù)集x的隨機(jī)破壞（或添加噪聲），從而獲得x 去噪自編碼（Denoising Autoencoder）流形學(xué)習(xí)觀點(diǎn)流形學(xué)習(xí)觀點(diǎn)重建干凈的數(shù)據(jù)x DAE用于從破損的x：破損處理，灰色的圈代表等概率的

14、破損C(x|x)x：圖中的紅十字，分布在低維流形附近。DAE 訓(xùn)練最小化均方誤差：學(xué)習(xí)一個(gè)向量場（綠色的箭頭）2g( ( )f xxg( ( )f xx向量場用于估計(jì)一個(gè)梯度場(log( )Q xx(x)Q其中，是未知的數(shù)據(jù)分布去噪自編碼（Denoising Autoencoder）學(xué)習(xí)學(xué)習(xí)一個(gè)一個(gè)向量場用于估計(jì)梯度場向量場用于估計(jì)梯度場這個(gè)屬性在以下前提條件下已被證明(Alain and Bengio, 2012, 2013)g( ( )f x用于估計(jì)梯度場(log( )Q xx x是連續(xù)值，損壞（添加噪聲）和重建分布都服從高斯分布均方誤差：2g( ( )f xx 破損處理服從以下分布：

15、2(| )( ;,)C Xx xN xxI 更準(zhǔn)確地說，(log( )Q xx2g( ( )f xx是一個(gè)相容估計(jì)，即：2g( ( )(log( )f xxQ xx去噪自編碼（Denoising Autoencoder）1、圖中每個(gè)箭頭長度正比于：重建值減去自編碼的輸入矢量；2、方向：根據(jù)隱含估計(jì)的概率分布指向更高的概率值；3、注意：估計(jì)密度函數(shù)的頂峰（數(shù)據(jù)流形上）和低谷（局部最?。┫蛄繄鰹榱阒?。去噪自編碼（Denoising Autoencoder）將梯度場變成一個(gè)生成模型將梯度場變成一個(gè)生成模型編碼-解碼對(duì)的應(yīng)用可以給我們生成一個(gè)大概的結(jié)構(gòu)，如果我們考慮蒙特卡羅馬爾科夫鏈算法 (MCMC

16、)，兩方面需要注意：1、從低概率結(jié)構(gòu)轉(zhuǎn)移到高概率結(jié)構(gòu)2、加入隨機(jī)性，使得鏈可到處轉(zhuǎn)移（不至于在一些概率或模型的頂峰被困住，陷入局部最優(yōu)？），并且有機(jī)會(huì)遍歷整個(gè)空間，使得概率等于潛在模型的概率從概念上的理解，我們?cè)谧鼍幋a解碼操作時(shí)，需要加入噪聲，但加入多少？怎么加合適呢？（But how much and how?）下頁將作出解釋去噪自編碼（Denoising Autoencoder）圖中，C 和P 是條件隨機(jī)的，f 和g 是確定性計(jì)算。（a）在x中加入噪聲, 產(chǎn)生x （b）使用f函數(shù)對(duì)x進(jìn)行編碼（c）使用g函數(shù)進(jìn)行解碼（d）從重建的分布中進(jìn)行采樣獲得一個(gè)新的狀態(tài) xt+1(|( ( )P X

17、g f x從估計(jì)分布中產(chǎn)生馬爾科夫鏈的步驟：答案在：Bengio et al. (2013) (Theorem 1)理論表明，自編碼是相關(guān)的真值條件分布的一個(gè)相容估計(jì)，然而，以上馬爾科夫鏈的平穩(wěn)分布是X 的數(shù)據(jù)生成分布的一個(gè)相容估計(jì)。(|)P X X去噪自編碼（Denoising Autoencoder）圖中數(shù)據(jù)（黑圈）分布在低維流形（螺旋線）的附近馬爾科夫鏈的兩個(gè)隨機(jī)步驟：x: 綠色的圓圈代表狗的真實(shí)圖像值。 : 藍(lán)色的圓圈代表添加噪聲后狗的圖像值。x ( | )C x x : 代表各向同性（等概率？）高斯噪聲，圖中的綠色。 ( | )C x x 1、通過將x變換成x 2、在

18、降噪后重建的分布中對(duì)下一個(gè)狀態(tài)進(jìn)行采樣。( | )P x x x有很多種可能，取決于，x 圖中，藍(lán)色的扁平形狀就是的表示結(jié)果( | )P x x x分布在附近的流形上。x 說明：去噪自編碼（Denoising Autoencoder）去噪自動(dòng)編碼器DA是在自動(dòng)編碼器的基礎(chǔ)上，訓(xùn)練數(shù)據(jù)加入噪聲，所以自動(dòng)編碼器必須學(xué)習(xí)去去除這種噪聲而獲得真正的沒有被噪聲污染過的輸入。因此，這就迫使編碼器去學(xué)習(xí)輸入信號(hào)的更加魯棒的表達(dá)，這也是它的泛化能力比一般編碼器強(qiáng)的原因。本節(jié)本節(jié)小結(jié)小結(jié)壓縮自編碼（Contrative Autoencoder）好的特征表示大致有2個(gè)衡量標(biāo)準(zhǔn)：1. 可以很好的重構(gòu)出輸

19、入數(shù)據(jù); 2.對(duì)輸入數(shù)據(jù)一定程度下的擾動(dòng)具有不變形。普通的autoencoder、sparse autoencoder和stacked autoencoder主要是符合第一個(gè)標(biāo)準(zhǔn)。而deniose autoencoder和contractive autoencoder則主要體現(xiàn)在第二個(gè)。在一些分類任務(wù)中，第二個(gè)標(biāo)準(zhǔn)顯得更重要。引言引言壓縮自編碼（Contrative Autoencoder）普通自編碼：壓縮自編碼：其中，雅克比矩陣：When Sigmoid，壓縮自編碼（Contrative Autoencoder）CAE與正則化自編碼（即與正則化自編碼（即weight decay）的關(guān)系）的關(guān)系 1、當(dāng)線性編碼，并且為恒等函數(shù)時(shí)，有：對(duì)于，fswdAECAEJJ 此時(shí)，使權(quán)值W盡量

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

自編碼(Autoencoder)

文檔簡介

溫馨提示

最新文檔

評(píng)論

自編碼(Autoencoder)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔