版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、深度學(xué)習(xí)的基本理論與方法,成科揚(yáng) 2013年10月30日,1,6/23/2020,目 錄,概述 動(dòng)機(jī) 深度學(xué)習(xí)簡(jiǎn)介 深度學(xué)習(xí)的訓(xùn)練過(guò)程 深度學(xué)習(xí)的具體模型及方法 深度學(xué)習(xí)的性能比較 深度學(xué)習(xí)的應(yīng)用 展望 參考文獻(xiàn) 相關(guān)程序軟件及鏈接,2,6/23/2020,概 述,深度學(xué)習(xí):一種基于無(wú)監(jiān)督特征學(xué)習(xí)和特征層次結(jié)構(gòu)的學(xué)習(xí)方法 可能的的名稱: 深度學(xué)習(xí) 特征學(xué)習(xí) 無(wú)監(jiān)督特征學(xué)習(xí),3,6/23/2020,動(dòng) 機(jī),良好的特征表達(dá),對(duì)最終算法的準(zhǔn)確性起了非常關(guān)鍵的作用; 識(shí)別系統(tǒng)主要的計(jì)算和測(cè)試工作耗時(shí)主要集中在特征提取部分; 特征的樣式目前一般都是人工設(shè)計(jì)的,靠人工提取特征。,傳統(tǒng)的模式識(shí)別方法:,4,
2、6/23/2020,動(dòng) 機(jī)為什么要自動(dòng)學(xué)習(xí)特征,實(shí)驗(yàn):LP- Multiple Kernel Learning Gehler and Nowozin, On Feature Combination for Multiclass Object Classification, ICCV09 采用39 個(gè)不同的特征 PHOG, SIFT, V1S+, Region Cov. Etc. 在普通特征上MKL表現(xiàn) 有限 結(jié)論:特征更重要,5,6/23/2020,動(dòng) 機(jī)為什么要自動(dòng)學(xué)習(xí)特征,機(jī)器學(xué)習(xí)中,獲得好的特征是識(shí)別成功的關(guān)鍵 目前存在大量人工設(shè)計(jì)的特征,不同研究對(duì)象特征不同,特征具有多樣性,如:SIF
3、T, HOG, LBP等 手工選取特征費(fèi)時(shí)費(fèi)力,需要啟發(fā)式專業(yè)知識(shí),很大程度上靠經(jīng)驗(yàn)和運(yùn)氣 是否能自動(dòng)地學(xué)習(xí)特征?,6,6/23/2020,中層特征 中層信號(hào):,動(dòng) 機(jī)為什么要自動(dòng)學(xué)習(xí)特征,“Tokens” from Vision by D.Marr:,連續(xù),平行,連接,拐角,物體部件:,他們對(duì)于人工而言是十分困難的,那么如何學(xué)習(xí)呢?,7,6/23/2020,動(dòng) 機(jī)為什么要自動(dòng)學(xué)習(xí)特征,一般而言,特征越多,給出信息就越多,識(shí)別準(zhǔn)確性會(huì)得到提升; 但特征多,計(jì)算復(fù)雜度增加,探索的空間大,可以用來(lái)訓(xùn)練的數(shù)據(jù)在每個(gè)特征上就會(huì)稀疏。 結(jié)論:不一定特征越多越好!需要有多少個(gè)特征,需要學(xué)習(xí)確定。,8,6/
4、23/2020,動(dòng) 機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),人腦視覺(jué)機(jī)理 1981年的諾貝爾醫(yī)學(xué)獎(jiǎng)獲得者 David Hubel和TorstenWiesel發(fā)現(xiàn)了視覺(jué)系統(tǒng)的信息處理機(jī)制 發(fā)現(xiàn)了一種被稱為“方向選擇性細(xì)胞的神經(jīng)元細(xì)胞,當(dāng)瞳孔發(fā)現(xiàn)了眼前的物體的邊緣,而且這個(gè)邊緣指向某個(gè)方向時(shí),這種神經(jīng)元細(xì)胞就會(huì)活躍,9,6/23/2020,動(dòng) 機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),人腦視覺(jué)機(jī)理 人的視覺(jué)系統(tǒng)的信息處理是分級(jí)的 高層的特征是低層特征的組合,從低層到高層的特征表示越來(lái)越抽象,越來(lái)越能表現(xiàn)語(yǔ)義或者意圖 抽象層面越高,存在的可能猜測(cè)就越少,就越利于分類,10,6/23/2020,動(dòng) 機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),視覺(jué)的
5、層次性 屬性學(xué)習(xí),類別作為屬性的一種組合映射 Lampert et al. CVPR09,類別標(biāo)簽,屬性,圖像特征,11,6/23/2020,動(dòng) 機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),特征表示的粒度 具有結(jié)構(gòu)性(或者語(yǔ)義)的高層特征對(duì)于分類更有意義,12,6/23/2020,動(dòng) 機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),初級(jí)(淺層)特征表示,高層特征或圖像,往往是由一些基本結(jié)構(gòu)(淺層特征)組成的,13,6/23/2020,動(dòng) 機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),結(jié)構(gòu)性特征表示,14,6/23/2020,動(dòng) 機(jī)為什么采用層次網(wǎng)絡(luò)結(jié)構(gòu),淺層學(xué)習(xí)的局限 人工神經(jīng)網(wǎng)絡(luò)(BP算法) 雖被稱作多層感知機(jī),但實(shí)際是種只含有一層隱層節(jié)點(diǎn)的淺層模型
6、 SVM、Boosting、最大熵方法(如LR,Logistic Regression) 帶有一層隱層節(jié)點(diǎn)(如SVM、Boosting),或沒(méi)有隱層節(jié)點(diǎn)(如LR)的淺層模型 局限性:有限樣本和計(jì)算單元情況下對(duì)復(fù)雜函數(shù)的表示能力有限,針對(duì)復(fù)雜分類問(wèn)題其泛化能力受限。,15,6/23/2020,深度學(xué)習(xí),2006年,加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域的泰斗Geoffrey Hinton在科學(xué)上發(fā)表論文提出深度學(xué)習(xí)主要觀點(diǎn): 1)多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫(huà),從而有利于可視化或分類; 2)深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過(guò)“逐層初始化”(layer
7、-wise pre-training)來(lái)有效克服,逐層初始化可通過(guò)無(wú)監(jiān)督學(xué)習(xí)實(shí)現(xiàn)的。,16,6/23/2020,深度學(xué)習(xí),本質(zhì):通過(guò)構(gòu)建多隱層的模型和海量訓(xùn)練數(shù)據(jù)(可為無(wú)標(biāo)簽數(shù)據(jù)),來(lái)學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性。 “深度模型”是手段,“特征學(xué)習(xí)”是目的。 與淺層學(xué)習(xí)區(qū)別: 1)強(qiáng)調(diào)了模型結(jié)構(gòu)的深度,通常有5-10多層的隱層節(jié)點(diǎn); 2)明確突出了特征學(xué)習(xí)的重要性,通過(guò)逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使分類或預(yù)測(cè)更加容易。與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來(lái)學(xué)習(xí)特征,更能夠刻畫(huà)數(shù)據(jù)的豐富內(nèi)在信息。,17,6/23/2020,深度學(xué)習(xí),好處
8、:可通過(guò)學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示。,18,6/23/2020,深度學(xué)習(xí) vs. 神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò) : 深度學(xué)習(xí):,19,6/23/2020,深度學(xué)習(xí) vs. 神經(jīng)網(wǎng)絡(luò),相同點(diǎn):二者均采用分層結(jié)構(gòu),系統(tǒng)包括輸入層、隱層(多層)、輸出層組成的多層網(wǎng)絡(luò),只有相鄰層節(jié)點(diǎn)之間有連接,同一層以及跨層節(jié)點(diǎn)之間相互無(wú)連接,每一層可以看作是一個(gè)logistic 回歸模型。 不同點(diǎn): 神經(jīng)網(wǎng)絡(luò):采用BP算法調(diào)整參數(shù),即采用迭代算法來(lái)訓(xùn)練整個(gè)網(wǎng)絡(luò)。隨機(jī)設(shè)定初值,計(jì)算當(dāng)前網(wǎng)絡(luò)的輸出,然后根據(jù)當(dāng)前輸出和樣本真實(shí)標(biāo)簽之間的差去改變前面各層的參數(shù),直到收斂; 深度學(xué)習(xí):采用逐層
9、訓(xùn)練機(jī)制。采用該機(jī)制的原因在于如果采用BP機(jī)制,對(duì)于一個(gè)deep network(7層以上),殘差傳播到最前面的層將變得很小,出現(xiàn)所謂的gradient diffusion(梯度擴(kuò)散)。,20,6/23/2020,深度學(xué)習(xí) vs. 神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的局限性: 1)比較容易過(guò)擬合,參數(shù)比較難調(diào)整,而且需要不少技巧; 2)訓(xùn)練速度比較慢,在層次比較少(小于等于3)的情況下效果并不比其它方法更優(yōu);,21,6/23/2020,深度學(xué)習(xí)訓(xùn)練過(guò)程,不采用BP算法的原因 (1)反饋調(diào)整時(shí),梯度越來(lái)越稀疏,從頂層越往下,誤差校正信號(hào)越來(lái)越??; (2)收斂易至局部最小,由于是采用隨機(jī)值初始化,當(dāng)初值是遠(yuǎn)離最優(yōu)
10、區(qū)域時(shí)易導(dǎo)致這一情況; (3)BP算法需要有標(biāo)簽數(shù)據(jù)來(lái)訓(xùn)練,但大部分?jǐn)?shù)據(jù)是無(wú)標(biāo)簽的;,22,6/23/2020,深度學(xué)習(xí)訓(xùn)練過(guò)程,第一步:采用自下而上的無(wú)監(jiān)督學(xué)習(xí) 1)逐層構(gòu)建單層神經(jīng)元。 2)每層采用wake-sleep算法進(jìn)行調(diào)優(yōu)。每次僅調(diào)整一層,逐層調(diào)整。 這個(gè)過(guò)程可以看作是一個(gè)feature learning的過(guò)程,是和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分。,23,6/23/2020,深度學(xué)習(xí)訓(xùn)練過(guò)程,wake-sleep算法: 1)wake階段: 認(rèn)知過(guò)程,通過(guò)下層的輸入特征(Input)和向上的認(rèn)知(Encoder)權(quán)重產(chǎn)生每一層的抽象表示(Code),再通過(guò)當(dāng)前的生成(Decoder)權(quán)重
11、產(chǎn)生一個(gè)重建信息(Reconstruction),計(jì)算輸入特征和重建信息殘差,使用梯度下降修改層間的下行生成(Decoder)權(quán)重。也就是“如果現(xiàn)實(shí)跟我想象的不一樣,改變我的生成權(quán)重使得我想象的東西變得與現(xiàn)實(shí)一樣”。 2)sleep階段: 生成過(guò)程,通過(guò)上層概念(Code)和向下的生成(Decoder)權(quán)重,生成下層的狀態(tài),再利用認(rèn)知(Encoder)權(quán)重產(chǎn)生一個(gè)抽象景象。利用初始上層概念和新建抽象景象的殘差,利用梯度下降修改層間向上的認(rèn)知(Encoder)權(quán)重。也就是“如果夢(mèng)中的景象不是我腦中的相應(yīng)概念,改變我的認(rèn)知權(quán)重使得這種景象在我看來(lái)就是這個(gè)概念”。,24,6/23/2020,深度學(xué)習(xí)
12、訓(xùn)練過(guò)程,Encoder,Decoder,Input Image,Class label,e.g.,Features,Encoder,Decoder,Features,Encoder,Decoder,AutoEncoder:,25,6/23/2020,深度學(xué)習(xí)訓(xùn)練過(guò)程,第二步:自頂向下的監(jiān)督學(xué)習(xí) 這一步是在第一步學(xué)習(xí)獲得各層參數(shù)進(jìn)的基礎(chǔ)上,在最頂?shù)木幋a層添加一個(gè)分類器(例如羅杰斯特回歸、SVM等),而后通過(guò)帶標(biāo)簽數(shù)據(jù)的監(jiān)督學(xué)習(xí),利用梯度下降法去微調(diào)整個(gè)網(wǎng)絡(luò)參數(shù)。 深度學(xué)習(xí)的第一步實(shí)質(zhì)上是一個(gè)網(wǎng)絡(luò)參數(shù)初始化過(guò)程。區(qū)別于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)初值隨機(jī)初始化,深度學(xué)習(xí)模型是通過(guò)無(wú)監(jiān)督學(xué)習(xí)輸入數(shù)據(jù)的結(jié)構(gòu)得到的,
13、因而這個(gè)初值更接近全局最優(yōu),從而能夠取得更好的效果。,26,6/23/2020,深度學(xué)習(xí)的具體模型及方法,自動(dòng)編碼器( AutoEncoder ) 稀疏自動(dòng)編碼器(Sparse AutoEncoder) 降噪自動(dòng)編碼器(Denoising AutoEncoders),27,6/23/2020,深度學(xué)習(xí)的具體模型及方法,Encoder,Decoder,Input (Image/ Features),Output Features,e.g.,Feed-back / generative / top-down path,Feed-forward / bottom-up path,自動(dòng)編碼器( Aut
14、oEncoder ),28,6/23/2020,深度學(xué)習(xí)的具體模型及方法,(Wx),(WTz),(Binary) Input x,(Binary) Features z,e.g.,自動(dòng)編碼器( AutoEncoder ),Encoder filters W Sigmoid function (.),Decoder filters WT Sigmoid function (.),29,6/23/2020,深度學(xué)習(xí)的具體模型及方法,稀疏自動(dòng)編碼器(Sparse AutoEncoder),限制每次得到的表達(dá)code盡量稀疏,限制每次得到的表達(dá)code盡量稀疏,30,6/23/2020,深度學(xué)習(xí)的具體
15、模型及方法,稀疏自動(dòng)編碼器(Sparse AutoEncoder),Filters,Features,Sparse Coding,Input Patch,31,6/23/2020,深度學(xué)習(xí)的具體模型及方法,(Wx),Dz,Input Patch x,Sparse Features z,e.g.,Encoder filters W Sigmoid function (.),Decoder filters D,L1 Sparsity,Training,稀疏自動(dòng)編碼器(Sparse AutoEncoder),32,6/23/2020,深度學(xué)習(xí)的具體模型及方法,稀疏自動(dòng)編碼器(Sparse AutoE
16、ncoder) 1)Training階段:給定一系列的樣本圖片x1, x 2, ,我們需要學(xué)習(xí)得到一組基1, 2, ,也就是字典。 可使用K-SVD方法交替迭代調(diào)整a k, k,直至收斂,從而可以獲得一組可以良好表示這一系列x的字典。,33,6/23/2020,深度學(xué)習(xí)的具體模型及方法,稀疏自動(dòng)編碼器(Sparse AutoEncoder) 2)Coding階段:給定一個(gè)新的圖片x,由上面得到的字典,利用OMP算法求解一個(gè)LASSO問(wèn)題得到稀疏向量a。這個(gè)稀疏向量就是這個(gè)輸入向量x的一個(gè)稀疏表達(dá)。,34,6/23/2020,深度學(xué)習(xí)的具體模型及方法,稀疏自動(dòng)編碼器(Sparse AutoEnc
17、oder),35,6/23/2020,深度學(xué)習(xí)的具體模型及方法,降噪自動(dòng)編碼器(Denoising AutoEncoders) 在自動(dòng)編碼器的基礎(chǔ)上,對(duì)訓(xùn)練數(shù)據(jù)加入噪聲,自動(dòng)編碼器必須學(xué)習(xí)去去除這種噪聲而獲得真正的沒(méi)有被噪聲污染過(guò)的輸入。因此,這就迫使編碼器去學(xué)習(xí)輸入信號(hào)的更加魯棒的表達(dá),這也是它的泛化能力比一般編碼器強(qiáng)的原因。,36,6/23/2020,深度學(xué)習(xí)的具體模型及方法,Autoencoder (most Deep Learning methods) RBMs / DBMs Lee / Salakhutdinov Denoising autoencoders Ranzato Pred
18、ictive sparse decomposition Ranzato Decoder-only Sparse coding Yu Deconvolutional Nets Yu Encoder-only Neural nets (supervised) Ranzato,37,6/23/2020,深度學(xué)習(xí)的具體模型及方法,限制波爾茲曼機(jī)(Restricted Boltzmann Machine) 定義:假設(shè)有一個(gè)二部圖,同層節(jié)點(diǎn)之間沒(méi)有鏈接,一層是可視層,即輸入數(shù)據(jù)層(v),一層是隱藏層(h),如果假設(shè)所有的節(jié)點(diǎn)都是隨機(jī)二值( 0,1值)變量節(jié)點(diǎn),同時(shí)假設(shè)全概率分布p(v,h)滿足Boltzm
19、ann 分布,我們稱這個(gè)模型是Restricted BoltzmannMachine (RBM)。,38,6/23/2020,深度學(xué)習(xí)的具體模型及方法,限制波爾茲曼機(jī)(Restricted Boltzmann Machine) 限制波爾茲曼機(jī)(RBM)是一種深度學(xué)習(xí)模型。,39,6/23/2020,深度學(xué)習(xí)的具體模型及方法,限制波爾茲曼機(jī)(Restricted Boltzmann Machine) 定義聯(lián)合組態(tài)(jointconfiguration)能量: 這樣某個(gè)組態(tài)的聯(lián)合概率分布可以通過(guò)Boltzmann 分布和這個(gè)組態(tài)的能量來(lái)確定:,40,6/23/2020,深度學(xué)習(xí)的具體模型及方法,限
20、制波爾茲曼機(jī)(Restricted Boltzmann Machine) 給定隱層h的基礎(chǔ)上,可視層的概率確定: (可視層節(jié)點(diǎn)之間是條件獨(dú)立的) 給定可視層v的基礎(chǔ)上,隱層的概率確定:,41,6/23/2020,深度學(xué)習(xí)的具體模型及方法,限制波爾茲曼機(jī)(Restricted Boltzmann Machine) 待求問(wèn)題:給定一個(gè)滿足獨(dú)立同分布的樣本集:D=v(1), v(2), v(N),需要學(xué)習(xí)模型參數(shù)=W,a,b。 求解: 最大似然估計(jì): 我們需要選擇一個(gè)參數(shù),讓我們當(dāng)前的觀測(cè)樣本的概率最大 對(duì)最大對(duì)數(shù)似然函數(shù)求導(dǎo),即可得到L最大時(shí)對(duì)應(yīng)的參數(shù)W: 若隱藏層層數(shù)增加,可得到Deep Bol
21、tzmann Machine(DBM),42,6/23/2020,深度學(xué)習(xí)的具體模型及方法,Deep Boltzmann Machine(DBM),43,6/23/2020,深度學(xué)習(xí)的具體模型及方法,深信度網(wǎng)絡(luò)(Deep Belief Networks),Deep Belief Networks是在靠近可視層的部分使用貝葉斯信念網(wǎng)絡(luò)(即有向圖模型),而在最遠(yuǎn)離可視層的部分使用Restricted Boltzmann Machine的模型。,44,6/23/2020,深度學(xué)習(xí)的具體模型及方法,深信度網(wǎng)絡(luò)(Deep Belief Networks),45,6/23/2020,深度學(xué)習(xí)的具體模型及方
22、法,卷積波爾茲曼機(jī)(Convolutional RBM) CRBM是為識(shí)別二維圖像信息而特殊設(shè)計(jì)的一個(gè)多層感知器。,概念示范:輸入圖像通過(guò)與m個(gè)可訓(xùn)練的濾波器和可加偏置進(jìn)行卷積,在C1層產(chǎn)生m個(gè)特征映射圖,然后特征映射圖中每組的n個(gè)像素再進(jìn)行求和,加權(quán)值,加偏置,通過(guò)一個(gè)Sigmoid函數(shù)得到m個(gè)S2層的特征映射圖。這些映射圖再進(jìn)過(guò)濾波得到C3層。這個(gè)層級(jí)結(jié)構(gòu)再和S2一樣產(chǎn)生S4。最終,這些像素值被光柵化,并連接成一個(gè)向量輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),得到輸出。,46,6/23/2020,深度學(xué)習(xí)的具體模型及方法,卷積波爾茲曼機(jī)(Convolutional RBM) 權(quán)值共享,減少參數(shù)的方法: 每個(gè)神
23、經(jīng)元無(wú)需對(duì)全局圖像做感受,只需感受局部區(qū)域(Feature Map),在高層會(huì)將這些感受不同局部的神經(jīng)元綜合起來(lái)獲得全局信息。 每個(gè)神經(jīng)元參數(shù)設(shè)為相同,即權(quán)值共享,也即每個(gè)神經(jīng)元用同一個(gè)卷積核去卷積圖像。,47,6/23/2020,深度學(xué)習(xí)的具體模型及方法,卷積波爾茲曼機(jī)(Convolutional RBM) 隱層神經(jīng)元數(shù)量的確定,神經(jīng)元數(shù)量與輸入圖像大小、濾波器大小和濾波器的滑動(dòng)步長(zhǎng)有關(guān)。 例如,輸入圖像是1000 x1000像素,濾波器大小是10 x10,假設(shè)濾波器間沒(méi)有重疊,即步長(zhǎng)為10,這樣隱層的神經(jīng)元個(gè)數(shù)就是(1000 x1000 )/ (10 x10)=10000個(gè),48,6/23
24、/2020,深度學(xué)習(xí)的具體模型及方法,卷積波爾茲曼機(jī)(Convolutional RBM) 多濾波器情形,不同的顏色表示不同種類的濾波器,每層隱層神經(jīng)元的個(gè)數(shù)按濾波器種類的數(shù)量翻倍 每層隱層參數(shù)個(gè)數(shù)僅與濾波器大小、濾波器種類的多少有關(guān) 例如:隱含層的每個(gè)神經(jīng)元都連接10 x10像素圖像區(qū)域,同時(shí)有100種卷積核(濾波器)。則參數(shù)總個(gè)數(shù)為:(10 x10+1)x100=10100個(gè),49,6/23/2020,深度學(xué)習(xí)的具體模型及方法,卷積波爾茲曼機(jī)(Convolutional RBM),卷積過(guò)程:用一個(gè)可訓(xùn)練的濾波器fx去卷積一個(gè)輸入的圖像(第一階段是輸入的圖像,后面的階段就是Feature M
25、ap了),然后加一個(gè)偏置bx,得到卷積層Cx。 子采樣過(guò)程:每鄰域n個(gè)像素通過(guò)池化(pooling)步驟變?yōu)橐粋€(gè)像素,然后通過(guò)標(biāo)量Wx+1加權(quán),再增加偏置bx+1,然后通過(guò)一個(gè)sigmoid激活函數(shù),產(chǎn)生一個(gè)大概縮小n倍的特征映射圖Sx+1。,50,6/23/2020,深度學(xué)習(xí)的具體模型及方法,卷積波爾茲曼機(jī)(Convolutional RBM),CNN的關(guān)鍵技術(shù):局部感受野、權(quán)值共享、時(shí)間或空間子采樣 CNN的優(yōu)點(diǎn): 1、避免了顯式的特征抽取,而隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí); 2、同一特征映射面上的神經(jīng)元權(quán)值相同,從而網(wǎng)絡(luò)可以并行學(xué)習(xí),降低了網(wǎng)絡(luò)的復(fù)雜性; 3、采用時(shí)間或者空間的子采樣結(jié)構(gòu),可
26、以獲得某種程度的位移、尺度、形變魯棒性; 3、輸入信息和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)能很好的吻合,在語(yǔ)音識(shí)別和圖像處理方面有著獨(dú)特優(yōu)勢(shì)。,51,6/23/2020,深度學(xué)習(xí)的具體模型及方法,基于CRBM的深度學(xué)習(xí)框架,52,6/23/2020,深度學(xué)習(xí)性能比較,Deep nets VS. Boosting,53,6/23/2020,深度學(xué)習(xí)性能比較,Deep nets VS. Probabilistic Models,54,6/23/2020,深度學(xué)習(xí)性能比較,隨機(jī)文法模型 Set of production rules for objects Zhu & Mumford, Stochastic Gramma
27、r of Images, F&T 2006,自動(dòng)學(xué)習(xí),人工指定,S.C. Zhu et al.,55,6/23/2020,深度學(xué)習(xí)性能比較,基于文法模型的物體檢測(cè) -R. Girshick, P. Felzenszwalb, D. McAllester, NIPS 2011 -Learn local appearance & shape,人工指定,自動(dòng)學(xué)習(xí),56,6/23/2020,深度學(xué)習(xí)性能比較,部件和結(jié)構(gòu)模型 Defined connectivity graph Learn appearance / relative position,Felzenszwalb & Huttenloche
28、r CVPR00 ,Fischler and R. Elschlager 1973 ,人工指定,自動(dòng)學(xué)習(xí),57,6/23/2020,深度學(xué)習(xí)性能比較,基于部件與結(jié)構(gòu)的分層模型 -Fidler et al. ECCV10 -Fidler & Leonardis CVPR07,人工指定,自動(dòng)學(xué)習(xí),58,6/23/2020,深度學(xué)習(xí)性能比較,遞歸和與圖模型 -Leo Zhu, Yuanhao Chen, Alan Yuille & collaborators Recursive composition, AND/OR graph Learn # units at layer,人工指定,自動(dòng)學(xué)習(xí),59
29、,6/23/2020,深度學(xué)習(xí)性能比較,自動(dòng)編碼模型 Hinton et al. ICANN11 反卷積網(wǎng)絡(luò)模型 Zeiler et al. ICCV11 -Explicit representation of what/where,人工指定,自動(dòng)學(xué)習(xí),60,6/23/2020,深度學(xué)習(xí)性能比較,神經(jīng)網(wǎng)絡(luò) Dedicated pooling / LCN layers No separation of what/where Modality independent (e.g. speech, images),Le et al., ICML12,人工指定,自動(dòng)學(xué)習(xí),61,6/23/2020,深度學(xué)
30、習(xí)性能比較,波爾茲曼機(jī) Homogenous architecture No separation of what/where Modality independent (e.g. speech, images),Salakhutdinov & Hinton AISTATS09,人工指定,自動(dòng)學(xué)習(xí),62,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在圖像識(shí)別上的應(yīng)用,空間金字塔(Spatial Pyramids ),63,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在圖像識(shí)別上的應(yīng)用,64,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在圖像識(shí)別上的應(yīng)用,65,6/23/2020,深度學(xué)習(xí)的應(yīng)用
31、,深度學(xué)習(xí)在圖像識(shí)別上的應(yīng)用,66,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在圖像識(shí)別上的應(yīng)用,實(shí)驗(yàn)在Caltech 256數(shù)據(jù)集上,利用單特征識(shí)別,Sparse CRBM性能最優(yōu),67,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在音頻識(shí)別上的應(yīng)用,Convolutional DBN for audio,Max pooling node Detection nodes,Max pooling node Detection nodes,68,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在音頻識(shí)別上的應(yīng)用,Convolutional DBN for audio,69,6/23/2020,深度
32、學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在音頻識(shí)別上的應(yīng)用,70,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在音頻識(shí)別上的應(yīng)用,71,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在視頻識(shí)別上的應(yīng)用,SPACE-TIME DEEP BELIEF NETWORKS,72,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在視頻識(shí)別上的應(yīng)用,73,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用,74,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用,75,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用,76,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用
33、,77,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用,78,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多模態(tài)學(xué)習(xí)中的應(yīng)用,如果模態(tài)間存在著內(nèi)在的聯(lián)系,即存在shared Representation,那么理論上模型應(yīng)支持訓(xùn)練一個(gè)模態(tài),而測(cè)試另一個(gè)模態(tài)時(shí),仍能獲得好的分類性能。,79,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多任務(wù)學(xué)習(xí)中的應(yīng)用,80,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在多任務(wù)學(xué)習(xí)中的應(yīng)用 在深度學(xué)習(xí)模型中,對(duì)于相關(guān)任務(wù)的聯(lián)合學(xué)習(xí),往往會(huì)取得較好的特征表達(dá); 多任務(wù)聯(lián)合學(xué)習(xí),能夠增強(qiáng)損失函數(shù)的作用效能; 比如:?jiǎn)为?dú)進(jìn)行人臉檢測(cè)會(huì)比較難(光照、
34、遮擋等因素),但是當(dāng)人臉檢測(cè)與人臉識(shí)別這兩個(gè)相關(guān)的任務(wù)聯(lián)合學(xué)習(xí)時(shí),人臉檢測(cè)的難度反而降低了。,81,6/23/2020,深度學(xué)習(xí)的應(yīng)用,基于深度學(xué)習(xí)的遷移學(xué)習(xí)應(yīng)用,82,6/23/2020,深度學(xué)習(xí)的應(yīng)用,基于深度學(xué)習(xí)的遷移學(xué)習(xí)應(yīng)用,特征共享,83,6/23/2020,深度學(xué)習(xí)的應(yīng)用,基于深度學(xué)習(xí)的遷移學(xué)習(xí)應(yīng)用,84,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用 大尺度數(shù)據(jù)集: 樣本總數(shù)100M, 類別總數(shù)10K, 特征維度10K,85,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用,模型的并行運(yùn)算化,86,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)
35、在大尺度數(shù)據(jù)集上的應(yīng)用,分布式深度學(xué)習(xí)模型,87,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用,分布式深度學(xué)習(xí)模型,88,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)在大尺度數(shù)據(jù)集上的應(yīng)用,參數(shù)個(gè)數(shù)達(dá)到1.15 billion,若不能并行優(yōu)化參數(shù),任務(wù)無(wú)法完成!,89,6/23/2020,深度學(xué)習(xí)的應(yīng)用,深度學(xué)習(xí)的State-of-the-art,90,6/23/2020,展 望,未來(lái)需解決的問(wèn)題: 對(duì)于一個(gè)特定的框架,多少維的輸入它可以表現(xiàn)得較優(yōu)? 對(duì)捕捉短時(shí)或者長(zhǎng)時(shí)間的時(shí)間依賴,哪種架構(gòu)才是有效的? 如何對(duì)于一個(gè)給定的深度學(xué)習(xí)架構(gòu),融合多種感知的信息? 如何分辨和利用
36、學(xué)習(xí)獲得的中、高層特征語(yǔ)義知識(shí)? 有什么正確的機(jī)理可以去增強(qiáng)一個(gè)給定的深度學(xué)習(xí)架構(gòu),以改進(jìn)其魯棒性和對(duì)變形及數(shù)據(jù)丟失的不變性? 模型方面是否有其他更為有效且有理論依據(jù)的深度模型學(xué)習(xí)算法? 是否存在更有效的可并行訓(xùn)練算法?,91,6/23/2020,參考文獻(xiàn),Tutorials & Background Material Yoshua Bengio, Learning Deep Architectures for AI, Foundations and Trends in Machine Learning, 2(1), pp.1-127, 2009. LeCun, Chopra, Hadsell
37、, Ranzato, Huang: A Tutorial on Energy-Based Learning, in Bakir, G. and Hofman, T. and Scholkopf, B. and Smola, A. and Taskar, B. (Eds), Predicting Structured Data, MIT Press, 2006 Convolutional Nets LeCun, Bottou, Bengio and Haffner: Gradient-Based Learning Applied to Document Recognition, Proceedi
38、ngs of the IEEE, 86(11):2278-2324, November 1998 Jarrett, Kavukcuoglu, Ranzato, LeCun: What is the Best Multi-Stage Architecture for Object Recognition?, Proc. International Conference on Computer Vision (ICCV09), IEEE, 2009 Kavukcuoglu, Sermanet, Boureau, Gregor, Mathieu, LeCun: Learning Convolutio
39、nal Feature Hierachies for Visual Recognition, Advances in Neural Information Processing Systems (NIPS 2010), 23, 2010,92,6/23/2020,參考文獻(xiàn),Unsupervised Learning ICA with Reconstruction Cost for Efficient Overcomplete Feature Learning. Le,Karpenko, Ngiam, Ng. In NIPS 2011 Rifai, Vincent, Muller, Glorot
40、, Bengio, Contracting Auto-Encoders: Explicit invariance during feature extraction, in: Proceedings of the Twenty-eight International Conference on Machine Learning (ICML11), 2011 - Vincent, Larochelle, Lajoie, Bengio, Manzagol, Stacked Denoising Autoencoders: Learning Useful Representations in a De
41、ep Network with a Local Denoising Criterion, Journal of Machine Learning Research, 11:3371-3408, 2010. - Gregor, Szlam, LeCun: Structured Sparse Coding via Lateral Inhibition, Advances in Neural Information Processing Systems (NIPS 2011), 24, 2011 - Kavukcuoglu, Ranzato, LeCun. Fast Inference in Spa
42、rse Coding Algorithms with Applications to Object Recognition. ArXiv 1010.3467 2008 - Hinton, Krizhevsky, Wang, Transforming Auto-encoders, ICANN, 2011 Multi-modal Learning Multimodal deep learning, Ngiam, Khosla, Kim, Nam, Lee, Ng. In Proceedings of the Twenty-Eighth International Conference on Mac
43、hine Learning, 2011.,93,6/23/2020,參考文獻(xiàn),Locally Connected Nets Gregor, LeCun “Emergence of complex-like cells in a temporal product network with local receptive fields” Arxiv. 2009 Ranzato, Mnih, Hinton “Generating more realistic images using gated MRFs”NIPS 2010 Le, Ngiam, Chen, Chia, Koh, Ng “Tiled
44、 convolutional neural networks” NIPS 2010 Distributed Learning Le, Ranzato, Monga, Devin, Corrado, Chen, Dean, Ng. Building High-Level Features Using Large Scale Unsupervised Learning. International Conference of Machine Learning (ICML 2012), Edinburgh, 2012. Papers on Scene Parsing Farabet, Couprie
45、, Najman, LeCun, “Scene Parsing with Multiscale Feature Learning, Purity Trees, and Optimal Covers”, in Proc. of the International Conference on Machine Learning (ICML12), Edinburgh, Scotland, 2012. - Socher, Lin, Ng, Manning, “Parsing Natural Scenes and Natural Language with Recursive Neural Networ
46、ks”. International Conference of Machine Learning (ICML 2011) 2011.,94,6/23/2020,參考文獻(xiàn),Papers on Object Recognition - Boureau, Le Roux, Bach, Ponce, LeCun: Ask the locals: multi-way local pooling for image recognition, Proc. ICCV 2011 - Sermanet, LeCun: Traffic Sign Recognition with Multi-Scale Convo
47、lutional Networks, Proceedings of International Joint Conference on Neural Networks (IJCNN11) - Ciresan, Meier, Gambardella, Schmidhuber. Convolutional Neural Network Committees For Handwritten Character Classification. 11th International Conference on Document Analysis and Recognition (ICDAR 2011),
48、 Beijing, China. - Ciresan, Meier, Masci, Gambardella, Schmidhuber. Flexible, High Performance Convolutional Neural Networks for Image Classification. International Joint Conference on Artificial Intelligence IJCAI-2011. Papers on Action Recognition Learning hierarchical spatio-temporal features for
49、 action recognition with independent subspace analysis, Le, Zou, Yeung, Ng. CVPR 2011 Papers on Segmentation Turaga, Briggman, Helmstaedter, Denk, Seung Maximin learning of image segmentation. NIPS, 2009.,95,6/23/2020,參考文獻(xiàn),Papers on Vision for Robotics Hadsell, Sermanet, Scoffier, Erkan, Kavackuoglu, Mulle
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度曹瑞與張麗離婚協(xié)議中公司股權(quán)分割及轉(zhuǎn)讓協(xié)議3篇
- 2024美食盛宴商業(yè)合作伙伴合同版B版
- 2025年度漁業(yè)資源承包與可持續(xù)發(fā)展合同4篇
- 2025年度體育場(chǎng)館食堂承包合同范本3篇
- 2025年度生物科技研發(fā)公司部分股權(quán)出售合同3篇
- 2025年度智慧社區(qū)建設(shè)承包合同股東內(nèi)部經(jīng)營(yíng)協(xié)議4篇
- 2025年度潯購(gòu)F000353632生鮮產(chǎn)品展示冰柜采購(gòu)合同3篇
- 2025年度水產(chǎn)養(yǎng)殖蟲(chóng)害綜合防控技術(shù)合同4篇
- 職業(yè)教育培訓(xùn)需求分析課件
- 2025年幼兒園食堂承包及幼兒營(yíng)養(yǎng)餐服務(wù)合同4篇
- 火災(zāi)安全教育觀后感
- 農(nóng)村自建房屋安全協(xié)議書(shū)
- 快速康復(fù)在骨科護(hù)理中的應(yīng)用
- 國(guó)民經(jīng)濟(jì)行業(yè)分類和代碼表(電子版)
- ICU患者外出檢查的護(hù)理
- 公司收購(gòu)設(shè)備合同范例
- 廣東省潮州市2023-2024學(xué)年高二上學(xué)期語(yǔ)文期末考試試卷(含答案)
- 2024年光伏發(fā)電項(xiàng)目EPC總包合同
- 子女放棄房產(chǎn)繼承協(xié)議書(shū)
- 氧化還原反應(yīng)配平專項(xiàng)訓(xùn)練
- 試卷(完整版)python考試復(fù)習(xí)題庫(kù)復(fù)習(xí)知識(shí)點(diǎn)試卷試題
評(píng)論
0/150
提交評(píng)論