版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、2012Vol. 32 No. 52012 年第32卷第5期河北丸學(xué)學(xué)掖(令然科學(xué)版)Journal of Hebei University (Natural Science Edition)深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析李海峰】,李純果2(1 河北大學(xué)教務(wù)處,河北 保定071002;2河北大學(xué) 數(shù)學(xué)與計(jì)算機(jī)學(xué)院,河北保定071002)摘 要:Hinton等人提出的深度機(jī)器學(xué)習(xí),掀起了神經(jīng)網(wǎng)絡(luò)研究的又一個(gè)浪潮介紹了深度機(jī)器學(xué)習(xí)的 基本概念和基本思想.對(duì)于目前比較成熟的深度機(jī)器學(xué)習(xí)結(jié)構(gòu)深度置信網(wǎng)DBNs和約束Boltzmann機(jī) (RBM)的結(jié)構(gòu)和無(wú)監(jiān)督貪婪學(xué)習(xí)算法作了比較詳細(xì)的介紹和比較,并對(duì)算法
2、的改進(jìn)方向提出了有建設(shè)性的 意見,對(duì)深度機(jī)器學(xué)習(xí)的未來發(fā)展方向和目前存在的問題進(jìn)行了深刻的分析.關(guān)鍵詞:深度機(jī)器學(xué)習(xí);無(wú)監(jiān)督貪婪學(xué)習(xí)算法;DBNs;RBMs中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A文章編號(hào):1000 - 1565(2012)05 - 0538 - 07Note on deep architecture and deep learning algorithmsLI Haifeng1, LI Chunguo2(1. Department of Academic Affairs, Hebei University, Baoding 071002 China;2. College of M
3、athematics and Computer Science Hebei University, Baoding 071002, China)Abstract: Deep architectures proposed by Hinton et al stir up another study wave in neural networks. This paper introduced the idea and basic concepts in deep learning DBNs and RBMs are the advanced structures of deep learning 9
4、 whose structures and effective learning algorithm are also introduced in detail in this paper In addition, open questions in deep learning are also briefly displayed so that researchers who are interested in can devote themselves into those questions and solve themKey words: deep learning; greedy l
5、earning algorithm; DBNs; RBMs隨著電腦的普及與發(fā)展,智能化、機(jī)械化成為人們關(guān)注的熱點(diǎn)機(jī)器學(xué)習(xí)是仿照人類大腦工作的方式,讓 電腦進(jìn)行計(jì)算,學(xué)習(xí)到類似于大腦的工作方式為此,研究學(xué)者需要構(gòu)建計(jì)算機(jī)能夠運(yùn)作的模型,例如,神經(jīng) 網(wǎng)絡(luò)就是根據(jù)人類的大腦神經(jīng)的激活或抑制的信號(hào)傳輸構(gòu)建的模型門神經(jīng)網(wǎng)絡(luò)的基本組成單位就是神經(jīng) 元,神經(jīng)元的構(gòu)造方式完全模擬了人類大腦細(xì)胞的結(jié)構(gòu),如圖1 但是,顯而易見,人工神經(jīng)元只是簡(jiǎn)單的結(jié) 構(gòu)的模擬,要想達(dá)到與生物神經(jīng)元有相同的功能,還遠(yuǎn)遠(yuǎn)的不夠科研工作者就其訓(xùn)練的方式對(duì)其進(jìn)行訓(xùn)練, 試圖讓人工神經(jīng)網(wǎng)絡(luò)的運(yùn)算功能盡可能的與人類接近簡(jiǎn)單的網(wǎng)絡(luò)已經(jīng)可以進(jìn)行
6、基本的運(yùn)算,甚至有2個(gè)隱 含層的非線性神經(jīng)網(wǎng)絡(luò)已經(jīng)能夠?qū)θ我獾暮瘮?shù)進(jìn)行平滑的逼近從1943年McCulloch和Pitts提出的簡(jiǎn)單 神經(jīng)元開始,神經(jīng)網(wǎng)絡(luò)經(jīng)歷了幾度興衰神經(jīng)網(wǎng)絡(luò)已經(jīng)深入到各個(gè)領(lǐng)域,技術(shù)相對(duì)比較成熟,然而也很難再有收稿日期:2012 -04 -05基金項(xiàng)目:保定市科學(xué)技術(shù)研究與發(fā)展指導(dǎo)計(jì)劃項(xiàng)目(12ZG005);河北省高等學(xué)??茖W(xué)研究計(jì)劃項(xiàng)目(JYGH2011011) 第一作者:李海峰(1980-,男,河北唐縣人,河北大學(xué)講師,主要從事機(jī)器學(xué)習(xí)、教學(xué)信息化等研究.E-mail :lihfhbu. edu. cn第5期李海峰等:深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析 539 新突破人類完成的日
7、常生活中的各種簡(jiǎn)單的動(dòng)作,如果讓計(jì)算機(jī)來完成,就需要高度復(fù)雜的神經(jīng)網(wǎng)絡(luò)來完 成.因此,Hinton等人提出了深度學(xué)習(xí),掀起了神經(jīng)網(wǎng)絡(luò)研究的又一次浪潮.Figa 1 Structure of biological and artificial neurons第5期李海峰等:深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析 # 第5期李海峰等:深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析 # 1深度學(xué)習(xí)深度學(xué)習(xí)是為了能夠得到有助于理解圖片、聲音、文本等的數(shù)據(jù)所表述的意義而進(jìn)行的多層次的表示和 抽取的學(xué)習(xí)兇例如,給定圖2中的圖片,大腦做出的反應(yīng)是嚴(yán)許多黃色的郁金香”同樣的圖片,輸入到計(jì)算 機(jī)中,是描述圖片的最原始數(shù)據(jù),那就是用向量表示的像
8、素用簡(jiǎn)單的機(jī)器學(xué)習(xí),例如用含2個(gè)或3個(gè)隱含層 的神經(jīng)網(wǎng)絡(luò),是不可能達(dá)到與人類類似的判別決策的這就需要多層的學(xué)習(xí)器,逐層學(xué)習(xí)并把學(xué)習(xí)到的知識(shí) 傳遞給下一層,以便下層能夠得到更高級(jí)別的表述形式,期望可以得到與人類類似的結(jié)論1.1學(xué)習(xí)的深度,那么深度就是從開始結(jié)點(diǎn)到結(jié)束學(xué)習(xí)器的深度,決定于學(xué)習(xí)器的構(gòu)造假設(shè)學(xué)習(xí)器為一個(gè)有向流通結(jié)點(diǎn)(或從輸入結(jié)點(diǎn)到輸出結(jié)點(diǎn))的最長(zhǎng)路徑例如,一個(gè)支撐向量機(jī)的深度是2,是輸入經(jīng)過一個(gè)核變換到 核空間,再加上一個(gè)線性組合再如多層前傳神經(jīng)網(wǎng)絡(luò)的深度是隱含層層數(shù)加1(輸出層)如果說學(xué)習(xí)到一 次知識(shí),就是一個(gè)深度的話,那么,學(xué)習(xí)的深度是原始數(shù)據(jù)被逐層學(xué)習(xí)的次數(shù).根據(jù)學(xué)習(xí)的深度,機(jī)器
9、學(xué)習(xí)可以分為淺度學(xué)習(xí)和深度學(xué)習(xí).對(duì)于簡(jiǎn)單的計(jì)算,淺度學(xué)習(xí)可以有效地進(jìn)行 計(jì)算,例如二進(jìn)制數(shù)據(jù)的邏輯運(yùn)算顯然,如果想讓機(jī)器達(dá)到人腦的反應(yīng)效果,淺度學(xué)習(xí)是遠(yuǎn)遠(yuǎn)不夠的,必須要進(jìn)行深度的機(jī)器學(xué)習(xí),才有可能得到與人腦反應(yīng)近似的結(jié)果實(shí)際上,深度的機(jī)器學(xué)習(xí)正是模擬了人腦的 工作方式對(duì)于圖2中的圖片,先由視網(wǎng)膜接受數(shù)據(jù)信號(hào),視網(wǎng)膜通過神經(jīng)鏈接,把看到的圖片轉(zhuǎn)化成腦波信 號(hào)傳輸?shù)酱竽X中,由于大腦的不同部位處理不同的問題,信號(hào)不可能一下子就傳到相應(yīng)位,需要層層傳輸.同時(shí) 4 E3 R4 Mb. -l.dtn 亠 I IKV 入 UU K=a 宀 4X. *irz UK AAX* tm A tJL.d 度的機(jī)器學(xué)習(xí)
10、模型需要具備類似的特征,也即,深度的機(jī)器學(xué)習(xí)模型可以提取觀察對(duì)象的不同方面的特征.為此,深度的機(jī)器學(xué)習(xí)模型通常為分層結(jié)構(gòu),每一層提取數(shù)據(jù)的1個(gè)或多個(gè)不同方面的特征,并把提取出的特征作為下一層的輸入.3是一個(gè)典型的深度學(xué)習(xí)模型.第5期李海峰等:深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析 # 第5期李海峰等:深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析 543 BB2待識(shí)別的BB片F(xiàn)ig. 2 Picture for recognitiony higher level representationHigher level representation.etc.Raw input vector representationS3潭度機(jī)
11、褂學(xué)習(xí)Flge 3 Deep learning model1.2深度學(xué)習(xí)的動(dòng)機(jī)從早期的神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí),到現(xiàn)在的深度學(xué)習(xí),究其機(jī)制,都是從模擬大腦的構(gòu)架并輔以一定的學(xué)習(xí)算 法,從而使計(jì)算機(jī)的工作方式盡可能地接近人類的工作方式機(jī)器學(xué)習(xí)從僅有2層左右的學(xué)習(xí)構(gòu)架,要向有 多層的結(jié)構(gòu)發(fā)展,不僅有生物神經(jīng)元的啟示,也是對(duì)現(xiàn)有的機(jī)器學(xué)習(xí)結(jié)構(gòu)的弊端的改進(jìn).首先,人類大腦的神經(jīng)元系統(tǒng)是一個(gè)龐大的結(jié)構(gòu),由無(wú)數(shù)個(gè)神經(jīng)元共同組成,完成一定的生理功能例如, 從視網(wǎng)膜到處理視網(wǎng)膜的大腦區(qū)域,需要經(jīng)過無(wú)數(shù)層的神經(jīng)元層層傳遞視覺信息,最終到達(dá)大腦的視覺處理區(qū) 域,然后再經(jīng)過信息處理,把信息反饋到肌肉神經(jīng),或語(yǔ)言區(qū)域這個(gè)過程在
12、生物神經(jīng)元系統(tǒng)只不過是瞬間的事 情,但是,完成這個(gè)過程,是由已經(jīng)訓(xùn)練好的神經(jīng)系統(tǒng)完成的,神經(jīng)系統(tǒng)對(duì)整個(gè)過程的處理,與從出生到成人的 認(rèn)知過程是分不開的而這一切,要用電腦來完成,不是構(gòu)造簡(jiǎn)單的人工神經(jīng)元就能夠完成的,需要大規(guī)模的神 經(jīng)元組織和鏈接,并經(jīng)過來自于外界信息的不斷強(qiáng)化和訓(xùn)練故從結(jié)構(gòu)上,神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)要加深.其次,如果神經(jīng)網(wǎng)絡(luò)的層次不夠深,那么,多項(xiàng)式級(jí)的參數(shù)個(gè)數(shù)能解決的問題就有可能需要指數(shù)級(jí)的參 數(shù)個(gè)數(shù)例如,要計(jì)算呦,計(jì)算方式不同,計(jì)算復(fù)雜度會(huì)有很大的不同如果計(jì)算和的積,計(jì)算復(fù) 雜度為0(肌力;如果計(jì)算積的和,計(jì)算復(fù)雜度為0(滬).參數(shù)多的結(jié)構(gòu)不僅訓(xùn)練復(fù)雜,訓(xùn)練時(shí)間長(zhǎng),而且泛化 性能也很
13、差,也容易產(chǎn)生過擬合問題.再次,有很多學(xué)習(xí)結(jié)構(gòu)的學(xué)習(xí)算法使得到的學(xué)習(xí)器是局部估計(jì)算子例如,由核方法構(gòu)造的學(xué)習(xí)器,是由對(duì)模板的匹配度加權(quán)構(gòu)成對(duì)于這樣的問題,往往要求被擬合函數(shù)都是平 滑的,如果不平滑,該學(xué)習(xí)器就不能很好地?cái)M合數(shù)據(jù).而在實(shí)際應(yīng)用中的很多例子,往往不滿足平滑這個(gè)條 件,或者對(duì)于被擬合函數(shù)一無(wú)所知此時(shí),模板匹配方法就不再可行.最后,深度機(jī)器學(xué)習(xí)是數(shù)據(jù)分布式表示的必然結(jié)果叫分布式表示系統(tǒng)是由一組信息計(jì)算單元共同完成 的每一個(gè)概念都由不止1個(gè)信息計(jì)算單元表示,而每一個(gè)信息計(jì)算單元也參與計(jì)算不止1個(gè)概念例如,表不整數(shù)( = 1,2,,N),有2種表示方式,一種用1個(gè)N維向量廠G)表示“&)
14、=1 /=0卄廠另一種表示方式是用log2N維的向量表示,表示方式類似于二進(jìn)制.顯然,后一種表示方式更緊湊,這種表示方式就是 分布式表示分布式表示不僅可以很好地描述概念間的相似性,而且合適的分布式表示在有限的數(shù)據(jù)下能體 現(xiàn)出更好的泛化性能人類的認(rèn)知活動(dòng)包括理解和處理接受到的信息,這些信息的結(jié)構(gòu)通常很復(fù)雜因此,有 必要構(gòu)造深度結(jié)構(gòu)的學(xué)習(xí)機(jī)器去實(shí)現(xiàn)一些人類的認(rèn)知活動(dòng).由于其自身的復(fù)雜性,深度學(xué)習(xí)算法很多年都沒有新的進(jìn)展就監(jiān)督的多層神經(jīng)網(wǎng)絡(luò)來說,無(wú)論是測(cè)試精度還是訓(xùn)練精度,深度學(xué)習(xí)的結(jié)果遠(yuǎn)遠(yuǎn)不如有1個(gè)或2個(gè)隱含層的神經(jīng)網(wǎng)絡(luò)的結(jié)果直到2006年Hinton 等人提出了貪婪無(wú)監(jiān)督逐層學(xué)習(xí)算法,深度學(xué)習(xí)的
15、問題才有所突破.2深度學(xué)習(xí)的方法同機(jī)器學(xué)習(xí)方法一樣,深度機(jī)器學(xué)習(xí)方法也有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)之分不同的學(xué)習(xí)框架下建立的學(xué)習(xí)模型很是不同例如,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks簡(jiǎn)稱CNNs)就是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,而深度置信網(wǎng)(Deep Belief Nets,簡(jiǎn)稱DBNs)就是一種無(wú)監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型.2.1卷積神經(jīng)網(wǎng)絡(luò)20世紀(jì)60年代,Hubei和Wiesel在研究貓腦皮層時(shí),發(fā)現(xiàn)了一種獨(dú)特的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),可以有效地降 低反饋神經(jīng)網(wǎng)絡(luò)的復(fù)雜性,進(jìn)而提出了卷積神經(jīng)網(wǎng)絡(luò)現(xiàn)在,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)發(fā)展成一種高效的圖像識(shí) 別方法.卷積神經(jīng)網(wǎng)絡(luò)的
16、基本結(jié)構(gòu)如圖4所示卷積神經(jīng)網(wǎng)絡(luò)是一種非全連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),包含2種特殊的 結(jié)構(gòu)層:卷積層和次抽樣層卷積層由多個(gè)特征平面構(gòu)成,完成抽取特征的任務(wù)每個(gè)特征平面由神經(jīng)元構(gòu) 成,在同一個(gè)特征平面上的所有神經(jīng)元具有相同的連接權(quán)重對(duì)于每個(gè)神經(jīng)元9定義了相應(yīng)的接受域口利,只接受從其接受域傳輸?shù)男盘?hào),如圖5.同一個(gè)特征平面的神經(jīng)元的接受域具有相同的大小,故而每個(gè)神經(jīng)元 的連接矩陣相同根據(jù)卷積的數(shù)學(xué)定義,(/* * g)(x) = /(u)g(x u)du,或(/ * g)(n)= Sw/(m)g(n 加),網(wǎng)絡(luò)的卷積層應(yīng)用了卷積的離散表示設(shè)所考査層的第上個(gè)特征平面記作與前一層的連接權(quán)重矩陣 為W,偏差為於,
17、對(duì)于非線性的正切函數(shù),可以得到特征映射如下:(1)=tanA(W *x)+64), 其中和j標(biāo)注了該神經(jīng)元在特征平面上的位習(xí).INPUTfeature mapsfeature mapsfeature mapsfeature mapsOUTPUT28x28424x 24412x 12128x8124x426lx 1圖4用于圖像識(shí)別的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 Convolution network for image recognition第5期李海峰等:深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析 # 第5期李海峰等:深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析 # 圖5卷積展的接受域Fig 5 Receptive field
18、 of one neuron in a convolation layerrr每個(gè)卷積層都會(huì)緊跟1個(gè)次抽樣層輸入數(shù)據(jù)經(jīng)過卷積后,進(jìn)入高維空間,換句話說,卷積層進(jìn)行了升維 映射如果不斷地進(jìn)行升維,則不可避免地陷入維數(shù)災(zāi)難.同卷積層類似,次抽樣層的每個(gè)特征平面上的神經(jīng) 元也共享連接權(quán)重,且每個(gè)神經(jīng)元都從其接受域中接受數(shù)據(jù)卷積層的每個(gè)特征平面都對(duì)應(yīng)了次抽樣層的1 個(gè)特征平面,次抽樣層中的神經(jīng)元對(duì)其接受域中的數(shù)據(jù)進(jìn)行抽樣(例如,取大,取小,取平均值,等等),因此次 抽樣層的特征平面上的神經(jīng)元的個(gè)數(shù)往往會(huì)減半.卷積層的每一個(gè)平面都抽取了前一層某一個(gè)方面的特征每個(gè)卷積層上的每個(gè)結(jié)點(diǎn),作為特征探測(cè)器, 共同
19、抽取輸入圖像的某個(gè)特征,例如45角、反色、拉伸、翻轉(zhuǎn)、平移等圖像經(jīng)過一層卷積,就由原始空間被 影射到特征空間,在特征空間中進(jìn)行圖像的重構(gòu)卷積層的輸岀,為圖像在特征空間中重構(gòu)的坐標(biāo),作為下一 層也就是次抽樣層的輸人.LeCun從1998年開始,專注于卷積神經(jīng)網(wǎng)絡(luò)的研究,提出了 LeNet模型(如圖6),用于識(shí)別手寫和機(jī) 打字體,逐漸已經(jīng)適用識(shí)別很多類圖形問題由圖6所示,輸入層后有2組隱含層抽取輸入圖像的特征,最后 有一個(gè)全連接的隱含層完成對(duì)輸入圖像的識(shí)別.LeNet模型在識(shí)別手寫數(shù)字上達(dá)到很高的識(shí)別率,而且具有拉伸、擠壓.反轉(zhuǎn)的不變性,而且抗噪能力很強(qiáng)模型用傳統(tǒng)的BP進(jìn)行訓(xùn)練.c河北大峑學(xué)楫了自
20、帙科樂版、第32轉(zhuǎn)lnpuc layer( SI ) 4 feacure mapsconrolution layer. sub-sampling layer convolucion layer sub-sampling layer)fully connecced MLP.B9 6 LeNet 模型Fig. 6 LeNet Model2.2深度信網(wǎng)深度置信網(wǎng)(Deep Belief Networks,簡(jiǎn)稱DBNs)是另一種深度學(xué)習(xí)結(jié)構(gòu),是多個(gè)RBM的累加一個(gè)Boltzmann機(jī)是基于能量理論的概率模型,通過熱力學(xué)的能量函數(shù)定義了一個(gè)概率分布:Boltzmann分布. 設(shè)狀態(tài)隨機(jī)變量s能量函數(shù)為E
21、(x),則該狀態(tài)出現(xiàn)的概率分布密度函數(shù)為/(x)=e-/Z,其中Z = 另乂-s. 一個(gè)典型的Boltzmann機(jī)是一個(gè)無(wú)向循環(huán)圖,其能量函數(shù)定義為= bfx ch xfWh j/Uh hVh ,(2)其中工是可見變量,描述可以觀察的數(shù)據(jù)池是隱含變量,無(wú)法觀察到其實(shí)際取值和人分別是可見變量和 隱含變量的閾值;W,U,U是結(jié)點(diǎn)之間的連接權(quán)重如果對(duì)Boltzmann機(jī)加以約束條件,令其自身不與自身 連接,則得到一個(gè)有向無(wú)環(huán)圖RBM(如圖7a),其能量函數(shù)定義為EQ,h) = -bGch-HWh一個(gè)典型的置信網(wǎng)可以看成是由多個(gè)隨機(jī)變量組成的有向無(wú)環(huán)圖,也可以看成是多個(gè)RBM的累加,而 深層置信網(wǎng)就是
22、一個(gè)復(fù)雜度很高的有向無(wú)環(huán)圖.Hinton等人認(rèn)為,一個(gè)有I個(gè)隱含層的典型的DBN,可以用聯(lián)合概率分布刻畫輸入向量工和隱含向量力的關(guān)系PQ,圧,護(hù))= (11以P(“十)卩(曠2,護(hù)),其中x=A, P(/|F+2)是條件概率分布DBN學(xué)習(xí)的過程,就是學(xué)習(xí)聯(lián)合概率分布的過程而聯(lián)合概率分 布的學(xué)習(xí)是機(jī)器學(xué)習(xí)中的產(chǎn)生式學(xué)習(xí)方式.(0QOOOQORBM(OoooooO nI(0QOOOOQ) FIIoddoocj) 1000 | : tG .: 2000Irh2000 |PretrainingcRBMa. RBM模型;bDBN典型結(jié)構(gòu)心用DBN進(jìn)行圖像識(shí)別示例.圖7深度學(xué)習(xí)橫型Fig. 7 Deep
23、Learning Model # 河北大學(xué)學(xué)報(bào)(自然科學(xué)版)第32卷對(duì)于深度的機(jī)器學(xué)習(xí),由于參數(shù)變量很多,所以合適的訓(xùn)練算法直接決定了學(xué)習(xí)器的性能以往的基于 最速梯度下降的BP算法,在經(jīng)典的神經(jīng)網(wǎng)絡(luò)中被廣泛應(yīng)用,可以得到泛化性能很好的網(wǎng)絡(luò)結(jié)構(gòu),但是BP算 法對(duì)于深度學(xué)習(xí)器的訓(xùn)練卻存在一定的困難這主要是BP算法本身的約束所在首先,BP算法是監(jiān)督學(xué) 習(xí),訓(xùn)練數(shù)據(jù)必須是有類標(biāo)數(shù)據(jù)但是,實(shí)際能得到的數(shù)據(jù)大都是無(wú)類標(biāo)數(shù)據(jù)其次,BP算法不適合有很多隱 含層的學(xué)習(xí)結(jié)構(gòu),一是計(jì)算偏導(dǎo)數(shù)很困難,二是誤差需要層層逆?zhèn)鳎諗克俣群苈詈?,BP算法經(jīng)常會(huì)陷入 到局部最優(yōu)解,不能到達(dá)全局最優(yōu)解因此,Hnton等人提岀了
24、貪婪的逐層無(wú)監(jiān)督訓(xùn)練算法.貪婪無(wú)監(jiān)督學(xué)習(xí)算法的基本思想是,把一個(gè)DBN網(wǎng)絡(luò)分層,對(duì)每一層進(jìn)行無(wú)監(jiān)督學(xué)習(xí),最后對(duì)整個(gè)網(wǎng) 絡(luò)用監(jiān)督學(xué)習(xí)進(jìn)行微調(diào)把一個(gè)DBN網(wǎng)絡(luò)分層,每層都由若干計(jì)算單元(常常是幾百個(gè)或幾千個(gè))組成(如 圖7b),各自獨(dú)立計(jì)算該層接受到的數(shù)據(jù),每個(gè)層的節(jié)點(diǎn)之間沒有連接與外界環(huán)境連接的節(jié)點(diǎn)層為輸入層, 輸入層接受來自于外界的輸入,例如圖像數(shù)據(jù)第1層(即輸入層)與第2層構(gòu)成一個(gè)典型的RBM,根據(jù)無(wú)監(jiān) 督學(xué)習(xí)調(diào)節(jié)網(wǎng)絡(luò)參數(shù),使得RBM達(dá)到能量平衡然后,第1層的輸出作為第2層與第3層構(gòu)成一個(gè)新的 RBM,第1層的輸出作為外界輸入,繼續(xù)調(diào)節(jié)參數(shù),使當(dāng)前RBM結(jié)構(gòu)達(dá)到能量平衡如此進(jìn)行下去,直到最
25、后一層(如圖7c)當(dāng)完成無(wú)監(jiān)督逐層訓(xùn)練學(xué)習(xí)后,再以原始外界輸入和目標(biāo)輸出對(duì)整個(gè)網(wǎng)絡(luò)進(jìn)行有監(jiān)督學(xué) 習(xí),以最大似然函數(shù)為目標(biāo),精調(diào)網(wǎng)絡(luò)各層的參數(shù).Gibbs抽樣技術(shù)是在訓(xùn)練每個(gè)RBM時(shí)采用的有效隨機(jī)抽樣技術(shù).設(shè)需要從未知的聯(lián)合概率分布f (xi,忑)中抽取宛個(gè)樣本X,X2),由于p(工1,皿)從而對(duì)某一個(gè)變量抽取樣本時(shí),假設(shè)其他變量已知,在以其他變量為條件的概率分布下進(jìn)行抽取,直到抽取 出所有樣本換句話說,對(duì)于樣本X的第j個(gè)變量,是從分布仇坍|卻,,工爲(wèi)用才宀山7)中抽取, 直到抽取出并個(gè)樣本.在貪婪學(xué)習(xí)算法中,也采用了 Wake-Sleep算法的基本思想】.算法在覺醒階段,采用學(xué)習(xí)到的權(quán)重,按照
26、 自底朝上的順序,為下一層產(chǎn)生訓(xùn)練需要用的數(shù)據(jù),而在睡眠階段,按照自頂朝下用權(quán)重對(duì)數(shù)據(jù)進(jìn)行重建,如 表1-1貪婪學(xué)習(xí)算法實(shí)現(xiàn)步鼻Tab. 1 Implementing procedure of greedy Jayer-wise learning內(nèi)容步驟以工=臚為外界輸入,訓(xùn)練第1個(gè)RBM,達(dá)到能量平衡;用第1層學(xué)習(xí)到的輸入的聯(lián)合分布,作為第2層的RBM的輸入,繼 續(xù)訓(xùn)練;重復(fù)第2步直到最后一層,以最大似然函數(shù)為目標(biāo)函數(shù),精調(diào)網(wǎng)絡(luò)參數(shù),使網(wǎng)絡(luò)達(dá)到最優(yōu).3總結(jié)神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的一個(gè)重要分支,利用神經(jīng)網(wǎng)絡(luò)可以任意精度逼近任意光滑的曲線,這使得神 經(jīng)網(wǎng)絡(luò)成為人工智能、數(shù)據(jù)挖掘等領(lǐng)域的一個(gè)重要工
27、具本文主要是簡(jiǎn)要介紹了深度機(jī)器學(xué)習(xí)的主要思想, 以及有效的學(xué)習(xí)算法深度機(jī)器學(xué)習(xí)是神經(jīng)網(wǎng)絡(luò)又一次興起的標(biāo)志但是,深度機(jī)器學(xué)習(xí)的訓(xùn)練時(shí)間過長(zhǎng),常 常需要幾個(gè)星期的訓(xùn)練時(shí)間,如果能合并訓(xùn)練,提高訓(xùn)練速度,則會(huì)大大提高深度機(jī)器學(xué)習(xí)的實(shí)用性另外, 深度機(jī)器學(xué)習(xí)學(xué)習(xí)到的知識(shí)表示的物理意義很不明確,如果能把各層學(xué)習(xí)到的知識(shí)表示成有物理意義的知 識(shí),則會(huì)增加學(xué)習(xí)到知識(shí)的可理解性這些問題都有待解決.參考文獻(xiàn):1 HAYKIN S. Neural Networks: A comprehensive foundationM3,2nd ed. New York: Pientice-Hall, 1999.2 BENGI
28、O Y. Learning deep architectures for AIJ Foundations and Trends in Machine Learning 2009, 2(1) : 1 - 127.3 HINTON G Et MCCLELLAND J L RUMELHART D E, Distributed RepresentationsM. Cambridge: MIT Press, 1986.4 HINTON G E, OSINDERO S. A fast learning algorithm for deep belief netsJ Neural Computation,
29、2006, 18: 1527 - 1554.5 HUBEL D, WIESEL T. Receptive fields, binocular interaction and functional architecture in the cats visual cortexCJ. Journal of Physiology, 1962, 160:106 - 154.6 LECUNY, KAVUKCUOGLUK, FARABET C Convolutional networks and applications in visionZJ. International Symposium on Circuits and Systems, Paris, 2010.7 LASERSON J. From neural networks
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度旅游度假村租賃服務(wù)合同模板
- 2025年度湖南文化旅游資源開發(fā)勞動(dòng)合同
- 2025年度荒地承包合同書范本(含農(nóng)業(yè)項(xiàng)目融資及風(fēng)險(xiǎn)分擔(dān)條款)
- 2025年度知識(shí)產(chǎn)權(quán)居間服務(wù)合同范本
- 中國(guó)水產(chǎn)預(yù)制菜行業(yè)市場(chǎng)集中度、市場(chǎng)運(yùn)行態(tài)勢(shì)及未來趨勢(shì)預(yù)測(cè)報(bào)告(2025版)
- 2025年度公司定向增發(fā)項(xiàng)目對(duì)賭協(xié)議及業(yè)績(jī)承諾履行監(jiān)管合同
- 2025年度環(huán)保技術(shù)居間服務(wù)合同范本-@-1
- 2025年度住宅小區(qū)水電設(shè)備更新改造合同書
- 2025年度私募股權(quán)基金股權(quán)轉(zhuǎn)讓資金監(jiān)管合同模板
- 2025年度國(guó)際貿(mào)易投資合作法律咨詢合同
- 2024-2025學(xué)年人教新版高二(上)英語(yǔ)寒假作業(yè)(五)
- 上海高考英語(yǔ)詞匯手冊(cè)
- 2021年江蘇省淮安市淮陰中學(xué)高一政治下學(xué)期期末試題含解析
- 公共政策工具-課件
- 2022年四川省成都市成華區(qū)七年級(jí)下學(xué)期期末語(yǔ)文試卷
- 石油化工、煤化工、天然氣化工優(yōu)劣勢(shì)分析
- 10kV配網(wǎng)工程變配電(臺(tái)架變、箱變、電纜分接箱)的安裝設(shè)計(jì)施工精細(xì)化標(biāo)準(zhǔn)
- Q∕GDW 12118.3-2021 人工智能平臺(tái)架構(gòu)及技術(shù)要求 第3部分:樣本庫(kù)格式
- 客戶的分級(jí)管理培訓(xùn)(共60頁(yè)).ppt
- 廣東省義務(wù)教育階段學(xué)生轉(zhuǎn)學(xué)轉(zhuǎn)出申請(qǐng)表(樣本)
- 如何成為一個(gè)優(yōu)秀的生產(chǎn)經(jīng)理
評(píng)論
0/150
提交評(píng)論