模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第6講 人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第1頁(yè)
模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第6講 人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第2頁(yè)
模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第6講 人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第3頁(yè)
模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第6講 人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第4頁(yè)
模式識(shí)別與機(jī)器學(xué)習(xí) 課件 第6講 人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第5頁(yè)
已閱讀5頁(yè),還剩40頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

模式識(shí)別與機(jī)器學(xué)習(xí)

PatternRecognition&MachineLearning第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)本節(jié)學(xué)習(xí)目標(biāo)掌握感知機(jī)模型和學(xué)習(xí)算法掌握多層神經(jīng)網(wǎng)絡(luò)模型和誤差反向傳播訓(xùn)練算法理解深度神經(jīng)網(wǎng)絡(luò)的典型挑戰(zhàn)問(wèn)題能夠熟練運(yùn)用至少兩種常見(jiàn)的深度神經(jīng)網(wǎng)絡(luò)第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)目錄感知機(jī)多層神經(jīng)網(wǎng)絡(luò)深層神經(jīng)網(wǎng)絡(luò)常用的深度神經(jīng)網(wǎng)絡(luò)第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)感知機(jī)(perceptron)

感知機(jī)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

感知機(jī)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)感知機(jī)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)目錄感知機(jī)多層神經(jīng)網(wǎng)絡(luò)神經(jīng)元多層神經(jīng)網(wǎng)絡(luò)反向傳播算法深層神經(jīng)網(wǎng)絡(luò)常用的深度神經(jīng)網(wǎng)絡(luò)第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)神經(jīng)元

多層神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

多層神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)多層神經(jīng)網(wǎng)絡(luò)圖8?3三種激活函數(shù)的形態(tài)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)多層神經(jīng)網(wǎng)絡(luò)多層神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)反向傳播算法

多層神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

多層神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

多層神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

多層神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)多層神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)目錄感知機(jī)多層神經(jīng)網(wǎng)絡(luò)深層神經(jīng)網(wǎng)絡(luò)淺層與深度神經(jīng)網(wǎng)絡(luò)過(guò)擬合問(wèn)題局部極值問(wèn)題梯度消失問(wèn)題常用的深度神經(jīng)網(wǎng)絡(luò)第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)淺層與深度神經(jīng)網(wǎng)絡(luò)thin+tall深度神經(jīng)網(wǎng)絡(luò)fat+shortVS

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)過(guò)擬合問(wèn)題過(guò)擬合問(wèn)題是深度神經(jīng)網(wǎng)絡(luò)的主要挑戰(zhàn)之一,其主要原因是模型過(guò)于復(fù)雜或者訓(xùn)練集過(guò)少。深度神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)早停止是指在模型訓(xùn)練過(guò)程中,可通過(guò)觀察驗(yàn)證集上的預(yù)測(cè)性能來(lái)決定何時(shí)停止對(duì)參數(shù)的優(yōu)化,從而可以在產(chǎn)生過(guò)擬合之前停止訓(xùn)練。權(quán)重衰減是指為了防止得到的權(quán)重參數(shù)過(guò)大,而采取的在每步迭代中少量減少權(quán)重的方法。丟棄法是指在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,對(duì)于網(wǎng)絡(luò)中的神經(jīng)單元(包括節(jié)點(diǎn)以及與之連接的邊),按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄。深度神經(jīng)網(wǎng)絡(luò)(a)丟棄情況(b)丟棄后剩余的網(wǎng)絡(luò)結(jié)構(gòu)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)局部極值問(wèn)題隨機(jī)梯度下降使用隨機(jī)梯度下降代替批量的梯度下降,不僅使得優(yōu)化速度得以提升,而且還可以提高模型的整體性能。性能提高的主要原因是每次用于迭代的隨機(jī)梯度并非梯度的確切方向,使得模型容易跳出局部極值點(diǎn)?;趧?dòng)量的梯度下降基于動(dòng)量的梯度下降的做法是每次進(jìn)行梯度下降時(shí),在當(dāng)前梯度方向上增加歷史梯度的加權(quán)值。動(dòng)量方法能夠使得梯度更新的大小可以根據(jù)上一步的梯度進(jìn)行適當(dāng)調(diào)節(jié),增加跳出局部極值點(diǎn)的幾率。多次隨機(jī)初始化假設(shè)損失函數(shù)的曲面具有許多局部極值點(diǎn),多次隨機(jī)初始化待優(yōu)化的參數(shù)值可以增加離開(kāi)局部極值的可能性,有助于找到更好的解。深度神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)梯度消失問(wèn)題當(dāng)使用反向傳播方法求解梯度時(shí),使用sigmoid函數(shù)或者tanh函數(shù)作為激活函數(shù)的深度神經(jīng)網(wǎng)絡(luò)隨著網(wǎng)絡(luò)層數(shù)的增加,從輸出層到網(wǎng)絡(luò)最初幾層的反向傳播得到的梯度的幅度值可能會(huì)急劇增大(梯度爆炸)或減小(梯度消失)。深度神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)逐層與訓(xùn)練結(jié)合微調(diào)深度神經(jīng)網(wǎng)絡(luò)圖8?6逐層預(yù)訓(xùn)練加微調(diào)方法示意圖(黑色方框表示需要微調(diào)的結(jié)構(gòu)。)

圖8?7預(yù)訓(xùn)練網(wǎng)絡(luò)中的自編碼器結(jié)構(gòu)示意圖

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)使用合適的激活函數(shù)深度神經(jīng)網(wǎng)絡(luò)圖8?8ReLU函數(shù)圖8?9ReLU函數(shù)的變體

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)使用合適的激活函數(shù)深度神經(jīng)網(wǎng)絡(luò)圖8?10Maxout函數(shù)原理示意圖(將每層的節(jié)點(diǎn)分組,并選擇組內(nèi)最大數(shù)的作為下一層的輸入。)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)目錄感知機(jī)多層神經(jīng)網(wǎng)絡(luò)深層神經(jīng)網(wǎng)絡(luò)常用的深度神經(jīng)網(wǎng)絡(luò)自編碼網(wǎng)絡(luò)深度玻爾茲曼機(jī)深度信念網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)Transformer第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)自編碼網(wǎng)絡(luò)常用的深度神經(jīng)網(wǎng)絡(luò)圖8?11自編碼器架構(gòu)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)深度玻爾茲曼機(jī)常用的深度神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)波爾茲曼機(jī)常用的深度神經(jīng)網(wǎng)絡(luò)圖8?12玻爾茲曼機(jī)示例

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)受限波爾茲曼機(jī)常用的深度神經(jīng)網(wǎng)絡(luò)圖8?13受限玻爾茲曼機(jī)示例

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

常用的深度神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)深度波爾茲曼機(jī)常用的深度神經(jīng)網(wǎng)絡(luò)圖8?13深度玻爾茲曼機(jī)示例

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)深度信念網(wǎng)絡(luò)常用的深度神經(jīng)網(wǎng)絡(luò)圖8?14深度信念網(wǎng)絡(luò)示例

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetworks)三條性質(zhì):某些模式總是存在于局部區(qū)域相同的模式會(huì)出現(xiàn)在多個(gè)區(qū)域?qū)D像中的像素做下采樣(subsampling)不會(huì)影響物體的識(shí)別常用的深度神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)卷積層與一般的全連接層不同,不再使用權(quán)重矩陣表示所有神經(jīng)元節(jié)點(diǎn)在相鄰網(wǎng)絡(luò)層之間的一一對(duì)應(yīng)關(guān)系,而是使用多組共享參數(shù)來(lái)構(gòu)建兩個(gè)網(wǎng)絡(luò)層之間的聯(lián)系。在卷積網(wǎng)絡(luò)中,共享參數(shù)叫做卷積核。常用的深度神經(jīng)網(wǎng)絡(luò)圖8?18卷積操作的原理示意圖

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetworks,RNN)

常用的深度神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)常用的深度神經(jīng)網(wǎng)絡(luò)圖8?20使用seq2seq模型進(jìn)行機(jī)器翻譯示意圖

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

常用的深度神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)LSTM通過(guò)引入一個(gè)變量存儲(chǔ)“記憶”,增強(qiáng)了RNN把握長(zhǎng)距離關(guān)系的能力,也可以緩解梯度消失問(wèn)題。除了LSTM之外,門循環(huán)單元(gatedrecurrentunit,GRU)也是RNN的變體,它進(jìn)一步簡(jiǎn)化了LSTM的結(jié)構(gòu),能使用更少的參數(shù)達(dá)到近似的性能。常用的深度神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)TransformerTransformer是一種seq2seq模型,其核心思想是使用注意力(attention)和自注意力(self-attention)機(jī)制。注意力機(jī)制用于捕獲輸入序列和輸出序列之間的關(guān)系。自注意力機(jī)制用于捕獲文本序列內(nèi)部的依賴關(guān)系,構(gòu)建對(duì)原始文本的語(yǔ)義表示。其中的自注意力是一種特殊的注意力模型。常用的深度神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)

常用的深度神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)常用的深度神經(jīng)網(wǎng)絡(luò)圖8?22有注意力機(jī)制的seq2seq模型進(jìn)行機(jī)器翻譯的示意圖

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)自注意力所謂自注意力,是指輸入序列中的每個(gè)單詞(或字)都要和該序列中的所有單詞(或字)進(jìn)行注意力計(jì)算。好處是學(xué)習(xí)序列內(nèi)部的單詞(或字)的依賴關(guān)系,捕獲句子的內(nèi)部結(jié)構(gòu)。Transformer編碼網(wǎng)絡(luò)包含“多頭自注意力(multi-headself-attention)”子結(jié)構(gòu),用于表示多組不同的注意力分配機(jī)制。這個(gè)子結(jié)構(gòu)的實(shí)現(xiàn)方式是同時(shí)構(gòu)建多個(gè)自注意力單元,并在最后匯總。Transformer也用到了在解碼器中增加“遮蔽的多頭自注意力(maskedmulti-headself-attention)”和在輸入層增加位置編碼等技巧常用的深度神經(jīng)網(wǎng)絡(luò)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)NovikoffABJ.OnConvergenceProofsforPerceptrons[C]//ProceedingsofSymposiumonMathematicalTheoryofAutomata,Brooklyn,N.Y.:PolytechnicPress,1962:615-622.RumelhartD,HintonG,WilliamsR.LearningRepresentationsbyBack-PropagatingErrors[J].Nature,1986,323(10):533–536.NgA.SparseAutoencoder[R/OL].Stanford,CA:StanfordUniversity,2011./~socherr/sparseAutoencoder_2011new.pdf.HornikK,StinchcombeM,WhiteH.MultilayerFeedforwardNetworksAreUniversalApproximators[J].NeuralNetworks,1989,2(5):359-366.SeideF,LiG,YuD.ConversationalSpeechTranscriptionUsingContext-DependentDeepNeuralNetworks[C/OL]//TwelfthAnnualConferenceofInternationalSpeechCommunicationAssociation.2011:437-440[2020-02-28]./archive/archive_papers/interspeech_2011/i11_0437.pdf.ZeilerMD,FergusR.VisualizingandUnderstandingConvolutionalNetworks[C]//ComputerVision--ECCV2014.Switzerland:SpringerInternationalPublishing,2014:818-833.SrivastavaN,HintonG,KrizhevskyA,etal.Dropout:ASimpleWaytoPreventNeuralNetworksfromOverfitting[J].JournalofMachineLearningResearch,2014,15(1):1929-1958.AckleyDH,HintonGE,SejnowskiTJ.ALearningAlgorithmforBoltzmannMachines[J].CognitiveScience,1985,9(1):147-169.參考文獻(xiàn)

第六講人工神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)SmolenskyP.InformationProcessinginDynamicalSystems:FoundationsofHarmonyTheory[M]//ParallelDistributedProcessing:ExplorationsintheMicrostructureofCognition,Volume1:Foundations.Cambridge,MA:ABradfordBook,1986:194-281.HintonGE,OsinderoS,TehYW.AFastLearningAlgorithmforDeepBeliefNets[J].NeuralComputation,2006,18(7):1527-1554.LeCunY.GeneralizationandNetworkDesignStrategies[M]//ConnectionisminPerspective.Switzerland:Elsevier,1989,19:143-155.GoodfellowI,BengioY,CourvilleA.DeepLearning[M].Cambridge,MA:MITPre

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論