2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第1頁
2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第2頁
2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第3頁
2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第4頁
2025神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)_第5頁
已閱讀5頁,還剩205頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

神經(jīng)網(wǎng)絡(luò)與深度學(xué)習(xí)1/13/2025大綱概述機(jī)器學(xué)習(xí)概述線性模型基礎(chǔ)網(wǎng)絡(luò)模型前饋神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)優(yōu)化與正則化記憶與注意力機(jī)制無監(jiān)督學(xué)習(xí)進(jìn)階模型概率圖模型玻爾茲曼機(jī)深度信念網(wǎng)絡(luò)深度生成模型深度強(qiáng)化學(xué)習(xí)從人工智能開始讓機(jī)器具有人類的智能機(jī)器感知(計(jì)算機(jī)視覺、語音信息處理)學(xué)習(xí)(模式識別、機(jī)器學(xué)習(xí)、強(qiáng)化學(xué)習(xí))語言(自然語言處理)記憶(知識表示)決策(規(guī)劃、數(shù)據(jù)挖掘)AlanTuring如何開發(fā)一個(gè)人工智能系統(tǒng)?人工規(guī)則What’stheRule?機(jī)器學(xué)習(xí)如何開發(fā)一個(gè)人工智能系統(tǒng)?知識知道怎么做專家系統(tǒng)…不知道怎么做容易做機(jī)器學(xué)習(xí)圖像識別文本分類語音識別不容易做強(qiáng)化學(xué)習(xí)圍棋規(guī)則ABigPicture機(jī)器學(xué)習(xí)概述機(jī)器學(xué)習(xí)≈構(gòu)建一個(gè)映射函數(shù)語音識別圖像識別圍棋機(jī)器翻譯“9”“你好”“6-5”“Hello!”“你好!”(落子位置)芒果機(jī)器學(xué)習(xí)/How-do-you-explain-Machine-Learning-and-Data-Mining-to-non-Computer-Science-people如果判斷芒果是否甜蜜?芒果機(jī)器學(xué)習(xí)從市場上隨機(jī)選取的芒果樣本(訓(xùn)練數(shù)據(jù)),列出每個(gè)芒果的所有特征:如顏色,大小,形狀,產(chǎn)地,品牌以及芒果質(zhì)量(輸出變量):甜蜜,多汁,成熟度。設(shè)計(jì)一個(gè)學(xué)習(xí)算法來學(xué)習(xí)芒果的特征與輸出變量之間的相關(guān)性模型。下次從市場上買芒果時(shí),可以根據(jù)芒果(測試數(shù)據(jù))的特征,使用前面計(jì)算的模型來預(yù)測芒果的質(zhì)量。機(jī)器學(xué)習(xí)概覽獨(dú)立同分布p(x,y)機(jī)器學(xué)習(xí)的三要素

常見的機(jī)器學(xué)習(xí)類型參數(shù)學(xué)習(xí)

優(yōu)化:梯度下降法隨機(jī)梯度下降法機(jī)器學(xué)習(xí)=優(yōu)化?機(jī)器學(xué)習(xí)=優(yōu)化?過擬合:經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則很容易導(dǎo)致模型在訓(xùn)練集上錯誤率很低,但是在未知數(shù)據(jù)上錯誤率很高。NO!泛化錯誤期望風(fēng)險(xiǎn)經(jīng)驗(yàn)風(fēng)險(xiǎn)泛化錯誤

PAC學(xué)習(xí)

ProbablyApproximatelyCorrect根據(jù)大數(shù)定律,當(dāng)訓(xùn)練集大小|D|趨向無窮大時(shí),泛化錯誤趨向于0,即經(jīng)驗(yàn)風(fēng)險(xiǎn)趨近于期望風(fēng)險(xiǎn)。PAC學(xué)習(xí)近似正確,0<?<0.5可能,0<δ<0.5樣本復(fù)雜度

如何減少泛化錯誤?正則化優(yōu)化降低模型復(fù)雜度經(jīng)驗(yàn)風(fēng)險(xiǎn)最小正則化(regularization)所有損害優(yōu)化的方法都是正則化。增加優(yōu)化約束干擾優(yōu)化過程L1/L2約束、數(shù)據(jù)增強(qiáng)權(quán)重衰減、隨機(jī)梯度下降、提前停止如何選擇一個(gè)合適的模型?模型選擇擬合能力強(qiáng)的模型一般復(fù)雜度會比較高,容易過擬合。如果限制模型復(fù)雜度,降低擬合能力,可能會欠擬合。偏差與方差分解期望錯誤可以分解為模型選擇:偏差與方差集成模型:有效的降低方差的方法集成模型通過多個(gè)高方差模型的平均來降低方差。集成模型的期望錯誤大于等于所有模型的平均期望錯誤的1/M,小于等于所有模型的平均期望錯誤。線性模型線性模型應(yīng)用:圖像分類應(yīng)用:文本分類根據(jù)文本內(nèi)容來判斷文本的相應(yīng)類別+-感知器模型學(xué)習(xí)準(zhǔn)則優(yōu)化:隨機(jī)梯度下降兩類感知器算法感知器參數(shù)學(xué)習(xí)的更新過程

交叉熵?fù)p失交叉熵?fù)p失

Logistic回歸模型學(xué)習(xí)準(zhǔn)則:交叉熵優(yōu)化:梯度下降擴(kuò)展到多類Softmax函數(shù)Softmax回歸模型:學(xué)習(xí)準(zhǔn)則:交叉熵優(yōu)化:梯度下降幾種不同的線性模型對比在logistic回歸和softmax回歸中,y為類別的one-hot向量表示;在感知器和支持向量機(jī)中,y為{+1,?1}不同損失函數(shù)的對比如何處理非線性可分問題?增加非線性特征特征工程問題在實(shí)際應(yīng)用中,特征往往比分類器更重要預(yù)處理:經(jīng)過數(shù)據(jù)的預(yù)處理,如去除噪聲等。比如在文本分類中,去除停用詞等。特征提取:從原始數(shù)據(jù)中提取一些有效的特征。比如在圖像分類中,提取邊緣、尺度不變特征變換特征等。特征轉(zhuǎn)換:對特征進(jìn)行一定的加工,比如降維和升維。降維包括特征抽?。‵eatureExtraction):PCA、LDA特征選擇(FeatureSelection):互信息、TF-IDF深度學(xué)習(xí)深度學(xué)習(xí)=表示學(xué)習(xí)+淺層學(xué)習(xí)難點(diǎn):貢獻(xiàn)度分配問題深度學(xué)習(xí)的數(shù)學(xué)描述

淺層學(xué)習(xí)深度學(xué)習(xí)

如果解決貢獻(xiàn)度分配問題?偏導(dǎo)數(shù)貢獻(xiàn)度深度學(xué)習(xí)天然不是神經(jīng)網(wǎng)絡(luò),但神經(jīng)網(wǎng)絡(luò)天然是深度學(xué)習(xí)!

深度學(xué)習(xí)模型:神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)準(zhǔn)則:交叉熵?fù)p失等優(yōu)化:隨機(jī)梯度下降別人眼中的深度學(xué)習(xí)實(shí)際上的深度學(xué)習(xí)為什么現(xiàn)在才顯式威力?算法(Algorithm)場景(Business)計(jì)算(Computation)數(shù)據(jù)(Data)缺點(diǎn)參數(shù)過多影響訓(xùn)練非凸優(yōu)化問題存在局部最優(yōu)而非全局最優(yōu)解梯度消失下層參數(shù)比較難調(diào)參數(shù)解釋性差神經(jīng)網(wǎng)絡(luò)生物神經(jīng)元單個(gè)神經(jīng)細(xì)胞只有兩種狀態(tài):興奮和抑制video:structureofbrain人工神經(jīng)元人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)主要由大量的神經(jīng)元以及它們之間的有向連接構(gòu)成。因此考慮三方面:神經(jīng)元的激活規(guī)則主要是指神經(jīng)元輸入到輸出之間的映射關(guān)系,一般為非線性函數(shù)。網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)不同神經(jīng)元之間的連接關(guān)系。學(xué)習(xí)算法通過訓(xùn)練數(shù)據(jù)來學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)。人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)由神經(jīng)元模型構(gòu)成,這種由許多神經(jīng)元組成的信息處理網(wǎng)絡(luò)具有并行分布結(jié)構(gòu)。前饋神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)在前饋神經(jīng)網(wǎng)絡(luò)中,各神經(jīng)元分別屬于不同的層。整個(gè)網(wǎng)絡(luò)中無反饋,信號從輸入層向輸出層單向傳播,可用一個(gè)有向無環(huán)圖表示。通用近似定理對于具有線性輸出層和至少一個(gè)使用“擠壓”性質(zhì)的激活函數(shù)的隱藏層組成的前饋神經(jīng)網(wǎng)絡(luò),只要其隱藏層神經(jīng)元的數(shù)量足夠,它可以以任意精度來近似任何從一個(gè)定義在實(shí)數(shù)空間中的有界閉集函數(shù)。一個(gè)兩層的神經(jīng)網(wǎng)絡(luò)可以模擬任何函數(shù)。應(yīng)用到機(jī)器學(xué)習(xí)

鏈?zhǔn)椒▌t,可以自動計(jì)算!計(jì)算圖與自動微分復(fù)合函數(shù)f(x;w,b)=σ(wx+b)的計(jì)算圖鏈?zhǔn)椒▌t反向傳播算法只是自動微分的一種特殊形式。TensorFlow中的計(jì)算圖示例計(jì)算圖是一個(gè)用來描述數(shù)學(xué)計(jì)算的有向圖(有向無環(huán)圖)節(jié)點(diǎn)代表操作(Operation)邊代表Tensor常用的深度學(xué)習(xí)框架簡易和快速的原型設(shè)計(jì)自動梯度計(jì)算無縫CPU和GPU切換1定義網(wǎng)絡(luò)2損失函數(shù)3優(yōu)化深度學(xué)習(xí)的三個(gè)步驟DeepLearningissosimple……來源:李宏毅《1天搞懂深度學(xué)習(xí)》Gettingstarted:30secondstoKerasfromkeras.modelsimportSequentialfromkeras.layersimportDense,Activationfromkeras.optimizersimportSGDmodel=Sequential()model.add(Dense(output_dim=64,input_dim=100))model.add(Activation("relu"))model.add(Dense(output_dim=10))model.add(Activation("softmax"))pile(loss='categorical_crossentropy',optimizer='sgd',metrics=['accuracy'])model.fit(X_train,Y_train,nb_epoch=5,batch_size=32)loss=model.evaluate(X_test,Y_test,batch_size=32)實(shí)現(xiàn)非常簡單!優(yōu)化問題非凸優(yōu)化問題y=σ(w2σ(w1x))的損失函數(shù)梯度消失問題在每一層都要乘以該層的激活函數(shù)的導(dǎo)數(shù)激活函數(shù)有效減輕梯度消失問題!卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)全連接網(wǎng)絡(luò)權(quán)重矩陣的參數(shù)非常多卷積神經(jīng)網(wǎng)絡(luò)生物學(xué)上感受野卷積神經(jīng)網(wǎng)絡(luò)有三個(gè)結(jié)構(gòu)上的特性:局部連接權(quán)重共享卷積卷積經(jīng)常用在信號處理中,用于計(jì)算信號的延遲累積。假設(shè)一個(gè)信號發(fā)生器每個(gè)時(shí)刻t產(chǎn)生一個(gè)信號xt

,其信息的衰減率為wk

,即在k?1個(gè)時(shí)間步長后,信息為原來的wk

倍假設(shè)w1=1,w2=1/2,w3=1/4時(shí)刻t收到的信號yt

為當(dāng)前時(shí)刻產(chǎn)生的信息和以前時(shí)刻延遲信息的疊加濾波器(filter)或卷積核(convolutionkernel)一維卷積濾波器:[?1,0,1]兩維卷積二維卷積步長1,零填充0步長2,零填充0步長1,零填充1步長2,零填充1卷積作為特征提取器用卷積來代替全連接參數(shù)數(shù)量?引入多組濾波器以兩維卷積為例卷積層典型的卷積層為3維結(jié)構(gòu)匯聚層卷積層雖然可以顯著減少連接的個(gè)數(shù),但是每一個(gè)特征映射的神經(jīng)元個(gè)數(shù)并沒有顯著減少。表示學(xué)習(xí)卷積網(wǎng)絡(luò)結(jié)構(gòu)卷積網(wǎng)絡(luò)是由卷積層、子采樣層、全連接層交叉堆疊而成。趨向于小卷積、大深度趨向于全卷積典型結(jié)構(gòu)一個(gè)卷積塊為連續(xù)M個(gè)卷積層和b個(gè)匯聚層(M通常設(shè)置為2~5,b為0或1)。一個(gè)卷積網(wǎng)絡(luò)中可以堆疊N個(gè)連續(xù)的卷積塊,然后在接著K個(gè)全連接層(N的取值區(qū)間比較大,比如1~100或者更大;K一般為0~2)。轉(zhuǎn)置卷積/微步卷積低維特征映射到高維特征空洞卷積如何增加輸出單元的感受野增加卷積核的大小增加層數(shù)來實(shí)現(xiàn)在卷積之前進(jìn)行匯聚操作空洞卷積通過給卷積核插入“空洞”來變相地增加其大小。典型的卷積網(wǎng)絡(luò)LargeScaleVisualRecognitionChallengeAlexNet2012ILSVRCwinner(top5errorof16\%comparedtorunner-upwith26\%error)共有8層,其中前5層卷積層,后邊3層全連接層Inception網(wǎng)絡(luò)2014ILSVRCwinner(22層)參數(shù):GoogLeNet:4MVSAlexNet:60M錯誤率:6.7%Inceptionv1的模塊結(jié)構(gòu)卷積和最大匯聚都是等寬的。ResNet2015ILSVRCwinner(152層)錯誤率:3.57%一個(gè)簡單的殘差單元結(jié)構(gòu)文本序列的卷積模型Filter輸入卷積層Pooling層輸出卷積的應(yīng)用AlphaGo分布式系統(tǒng):1202個(gè)CPU和176塊GPU單機(jī)版:48個(gè)CPU和8塊GPU走子速度:3毫秒-2微秒MaskRCNN圖像生成DeepDream畫風(fēng)遷移對抗樣本循環(huán)神經(jīng)網(wǎng)絡(luò)前饋網(wǎng)絡(luò)的一些不足連接存在層與層之間,每層的節(jié)點(diǎn)之間是無連接的。(無循環(huán))輸入和輸出的維數(shù)都是固定的,不能任意改變。無法處理變長的序列數(shù)據(jù)。假設(shè)每次輸入都是獨(dú)立的,也就是說每次網(wǎng)絡(luò)的輸出只依賴于當(dāng)前的輸入。如何用FNN去模擬一個(gè)有限狀態(tài)自動機(jī)?循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)通過使用帶自反饋的神經(jīng)元,能夠處理任意長度的序列。循環(huán)神經(jīng)網(wǎng)絡(luò)比前饋神經(jīng)網(wǎng)絡(luò)更加符合生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)。循環(huán)神經(jīng)網(wǎng)絡(luò)已經(jīng)被廣泛應(yīng)用在語音識別、語言模型以及自然語言生成等任務(wù)上。循環(huán)神經(jīng)網(wǎng)絡(luò)簡單循環(huán)網(wǎng)絡(luò)狀態(tài)更新:RNN是圖靈完全等價(jià)的(SiegelmannandSontag,1995)FNN:模擬任何函數(shù)RNN:模擬任何程序(計(jì)算過程)。長期依賴問題循環(huán)神經(jīng)網(wǎng)絡(luò)在時(shí)間維度上非常深!梯度消失或梯度爆炸如何改進(jìn)?梯度爆炸問題權(quán)重衰減梯度截?cái)嗵荻认栴}改進(jìn)模型長期依賴問題改進(jìn)方法循環(huán)邊改為線性依賴關(guān)系增加非線性殘差網(wǎng)絡(luò)?長短時(shí)記憶神經(jīng)網(wǎng)絡(luò):LSTM堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)雙向循環(huán)神經(jīng)網(wǎng)絡(luò)循環(huán)神經(jīng)網(wǎng)絡(luò)的擴(kuò)展遞歸神經(jīng)網(wǎng)絡(luò)圖網(wǎng)絡(luò)遞歸神經(jīng)網(wǎng)絡(luò)

RecursiveNeuralNetwork遞歸神經(jīng)網(wǎng)絡(luò)實(shí)在一個(gè)有向圖無循環(huán)圖上共享一個(gè)組合函數(shù)遞歸神經(jīng)網(wǎng)絡(luò)退化為循環(huán)神經(jīng)網(wǎng)絡(luò)圖網(wǎng)絡(luò)圖網(wǎng)絡(luò)Relationalinductivebiases,deeplearning,andgraphnetworks循環(huán)網(wǎng)絡(luò)應(yīng)用序列到類別輸入:序列輸出:類別SentimentAnalysis……我覺太得好了超正面正面中性負(fù)面超負(fù)面帶著愉悅的心情看了這部電影這部電影太糟了這部電影很棒Positive(正面)Negative(負(fù)面)Positive(正面)……來源:李宏毅《1天搞懂深度學(xué)習(xí)》同步的序列到序列模式ConnectionistTemporalClassification

(CTC)[AlexGraves,ICML’06][AlexGraves,ICML’14][Ha?imSak,Interspeech’15][JieLi,Interspeech’15][AndrewSenior,ASRU’15]好φφ棒φφφφ好φφ棒φ棒φφ“好棒”“好棒棒”語音識別來源:李宏毅《1天搞懂深度學(xué)習(xí)》learning異步的序列到序列模式機(jī)器翻譯machine機(jī)習(xí)器學(xué)。來源:李宏毅《1天搞懂深度學(xué)習(xí)》看圖說話看圖說話生成LINUX內(nèi)核代碼作詩寫字把一個(gè)字母的書寫軌跡看作是一連串的點(diǎn)。一個(gè)字母的“寫法”其實(shí)是每一個(gè)點(diǎn)相對于前一個(gè)點(diǎn)的偏移量,記為(offsetx,offsety)。再增加一維取值為0或1來記錄是否應(yīng)該“提筆”。優(yōu)化與正則化返回神經(jīng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)非凸優(yōu)化問題參數(shù)初始化逃離局部最優(yōu)高維的非凸優(yōu)化鞍點(diǎn)平攤底部隨機(jī)梯度下降小批量梯度下降中,每次選取樣本數(shù)量對損失下降的影響。如何改進(jìn)?標(biāo)準(zhǔn)的(小批量)梯度下降學(xué)習(xí)率學(xué)習(xí)率衰減AdagradAdadeltaRMSprop梯度Momentum計(jì)算負(fù)梯度的“加權(quán)移動平均”作為參數(shù)的更新方向Nesterovacceleratedgradient梯度截?cái)郣eference:AnoverviewofgradientdescentoptimizationalgorithmsOptimizingtheGradientDescentAdamisbetterchoice!Adam梯度方向?qū)嶋H更新方向優(yōu)化鞍點(diǎn)超參數(shù)優(yōu)化超參數(shù)層數(shù)每層神經(jīng)元個(gè)數(shù)激活函數(shù)學(xué)習(xí)率(以及動態(tài)調(diào)整算法)正則化系數(shù)mini-batch大小優(yōu)化方法網(wǎng)格搜索隨機(jī)搜索貝葉斯優(yōu)化動態(tài)資源分配神經(jīng)架構(gòu)搜索重新思考泛化性神經(jīng)網(wǎng)絡(luò)過度參數(shù)化擬合能力強(qiáng)泛化性差ZhangC,BengioS,HardtM,etal.Understandingdeeplearningrequiresrethinkinggeneralization[J].arXivpreprintarXiv:1611.03530,2016.正則化(regularization)所有損害優(yōu)化的方法都是正則化。增加優(yōu)化約束干擾優(yōu)化過程L1/L2約束、數(shù)據(jù)增強(qiáng)權(quán)重衰減、隨機(jī)梯度下降、提前停止正則化如何提高神經(jīng)網(wǎng)絡(luò)的泛化能力增加優(yōu)化約束數(shù)據(jù)增強(qiáng)標(biāo)簽平滑L1/L2正則化干擾優(yōu)化過程提前停止earlystop權(quán)重衰減SGDDropout提前停止L2正則化Dropout集成學(xué)習(xí)的解釋原始網(wǎng)絡(luò)可以近似看作是不同子網(wǎng)絡(luò)的組合模型。貝葉斯學(xué)習(xí)的解釋參數(shù)θ為隨機(jī)向量,并且先驗(yàn)分布為q(θ)經(jīng)驗(yàn)用ReLU作為激活函數(shù)分類時(shí)用交叉熵作為損失函數(shù)SDG+mini-batch每次迭代都重新隨機(jī)排序數(shù)據(jù)預(yù)處理(標(biāo)準(zhǔn)歸一化)動態(tài)學(xué)習(xí)率(越來越小)用L1或L2正則化(跳過前幾輪)逐層歸一化dropout數(shù)據(jù)增強(qiáng)注意力與記憶機(jī)制通用近似定理由于優(yōu)化算法和計(jì)算能力的限制,神經(jīng)網(wǎng)絡(luò)在實(shí)踐中很難達(dá)到通用近似的能力。網(wǎng)絡(luò)不能太復(fù)雜(參數(shù)太多)如何提高網(wǎng)絡(luò)能力局部連接權(quán)重共享匯聚操作?外部記憶注意力大腦中的注意力人腦每個(gè)時(shí)刻接收的外界輸入信息非常多,包括來源于視覺、聽覺、觸覺的各種各樣的信息。但就視覺來說,眼睛每秒鐘都會發(fā)送千萬比特的信息給視覺神經(jīng)系統(tǒng)。人腦通過注意力來解決信息超載問題。注意力示例如何實(shí)現(xiàn)?自下而上自上而下匯聚(pooling)會聚(focus)注意力分布給定查詢q和輸入信息x1:Ns(xi,q)為注意力打分函數(shù)加性模型乘法模型注意力的變種多頭注意力Multi-HeadAttention硬注意力HardAttention結(jié)構(gòu)化注意力StructureAttention指針網(wǎng)絡(luò)PointerNetwork雙向注意力Bi-DirectionalAttention鍵值對注意力Key-ValueAttention自注意力Self/IntraAttention…如何增加網(wǎng)絡(luò)容量?以LSTM為例,網(wǎng)絡(luò)容量增加內(nèi)部記憶記憶單元

隱狀態(tài)引入外部記憶聯(lián)想記憶模型帶地址的外部記憶參數(shù)數(shù)量平方級增長外部記憶

記憶網(wǎng)絡(luò)的結(jié)構(gòu)按內(nèi)容尋址:通常利用注意力機(jī)制來完成。Multi-Hop多跳端到端記憶網(wǎng)絡(luò)Sukhbaatar,S.,Szlam,A.,Weston,J.,&Fergus,R.(2015).End-To-EndMemoryNetworks,1–11./abs/1503.08895神經(jīng)圖靈機(jī)組件控制器外部記憶讀寫操作整個(gè)架構(gòu)可微分圖片來源:/posts/279710-neural-network-neural-turing-machineGraves,A.,Wayne,G.,&Danihelka,I.(2014).NeuralTuringMachines.Arxiv,1–26./abs/1410.5401不嚴(yán)格的類比無監(jiān)督學(xué)習(xí)無監(jiān)督學(xué)習(xí)密度估計(jì)有參模型玻爾茲曼機(jī)、深度信念網(wǎng)絡(luò)、深度生成模型無參模型特征學(xué)習(xí)主成分分析稀疏編碼自編碼器聚類自編碼器最簡單的自編碼器是兩層的神經(jīng)網(wǎng)絡(luò),輸入層到隱藏層用來編碼,隱藏層到輸出層用來解碼。模型編碼器(encoder)解碼器(decoder)學(xué)習(xí)準(zhǔn)則最小化重構(gòu)錯誤概率圖模型概率圖模型概率圖模型是指一種用圖結(jié)構(gòu)來描述多元隨機(jī)變量之間條件獨(dú)立關(guān)系的概率模型。圖中的每個(gè)節(jié)點(diǎn)都對應(yīng)一個(gè)隨機(jī)變量,可以是觀察變量,隱變量或是未知參數(shù)等;每個(gè)連接表示兩個(gè)隨機(jī)變量之間具有依賴關(guān)系。概率圖模型模型表示(圖結(jié)構(gòu))有向圖

無向圖推斷給定部分變量,推斷另一部分變量的后驗(yàn)概率。(參數(shù))學(xué)習(xí)給定一組訓(xùn)練樣本,求解網(wǎng)絡(luò)參數(shù)貝葉斯網(wǎng)絡(luò)

局部馬爾可夫性質(zhì)利用圖模型的局部馬爾可夫性,我們可以對多元變量的聯(lián)合概率進(jìn)行簡化,從而降低建模的復(fù)雜度。以貝葉斯網(wǎng)絡(luò)為例,是4個(gè)局部條件概率的乘積,這樣只需要1+2+2+4=9個(gè)獨(dú)立參數(shù)。常見的有向圖模型樸素貝葉斯分類器給定一個(gè)有d維特征的樣本x和類別y,類別的后驗(yàn)概率為Sigmoid信念網(wǎng)絡(luò)Sigmoid信念網(wǎng)絡(luò)網(wǎng)絡(luò)中的變量為二值變量,取值為{0,1}。馬爾可夫隨機(jī)場馬爾可夫隨機(jī)場,也稱無向圖模型,是一類用無向圖來表示一組具有馬爾可夫性質(zhì)的隨機(jī)變量X的聯(lián)合概率分布模型。最大團(tuán)馬爾可夫網(wǎng)絡(luò)馬爾可夫網(wǎng)絡(luò)的聯(lián)合分布可以表示為其中E(Xc)為能量函數(shù),Z是配分函數(shù)。常見的無向圖模型對數(shù)線性模型勢能函數(shù)的一般定義為聯(lián)合概率p(x)的對數(shù)形式為也稱為最大熵模型條件隨機(jī)場y一般為隨機(jī)向量條件概率p(y|x)模型對比推斷(inference)推斷指在觀測到部分變量e時(shí),計(jì)算其它變量z的某個(gè)子集q的后驗(yàn)概率p(q|e)。根據(jù)貝葉斯公式有圖模型的推斷問題可以轉(zhuǎn)換為求任意一個(gè)變量子集的邊際概率分布問題。推斷方法常用的推斷方法可以分為精確推斷和近似推斷:精確推斷(ExactInference)信念傳播(BeliefPropagation,BP)算法也稱為消息傳遞(MessagePassing)算法近似推斷(ApproximateInference)環(huán)路信念傳播(LoopyBeliefPropagation,LBP)變方法(VariationalMethod)采樣法(SamplingMethod)參數(shù)學(xué)習(xí)在貝葉斯網(wǎng)絡(luò)中,所有變量x的聯(lián)合概率分布可以分解為每個(gè)隨機(jī)變量xk的局部條件概率的連乘形式。假設(shè)每個(gè)局部條件概率p(xk|xπ(k))的參數(shù)為θk,則x的對數(shù)似然函數(shù)為EM算法假設(shè)有一組變量,有部分變量是是不可觀測的,如何進(jìn)行參數(shù)估計(jì)呢?期望最大化算法Expectation-Maximum,EM算法EM算法E步M步高斯混合模型高斯混合模型(GaussianMixtureModel,GMM)是由多個(gè)高斯分布組成的模型,其密度函數(shù)為多個(gè)高斯密度函數(shù)的加權(quán)組合。高斯混合模型的參數(shù)學(xué)習(xí)概率圖模型玻爾茲曼機(jī)玻爾茲曼機(jī)(Boltzmannmachine)玻爾茲曼機(jī)是一個(gè)特殊的概率無向圖模型。每個(gè)隨機(jī)變量是二值的所有變量之間是全連接的整個(gè)能量函數(shù)定義為P(X)為玻爾茲曼分布一個(gè)有六個(gè)變量的玻爾茲曼機(jī)兩個(gè)基本問題:推斷p(h|v)參數(shù)學(xué)習(xí)W玻爾茲曼機(jī)的推斷近似采樣--Gibbs采樣模擬退火讓系統(tǒng)剛開始在一個(gè)比較高的溫度下運(yùn)行,然后逐漸降低,直到系統(tǒng)在一個(gè)比較低的溫度下達(dá)到熱平衡。當(dāng)系統(tǒng)溫度非常高T→∞時(shí),pi→0.5,即每個(gè)變量狀態(tài)的改變十分容易,每一種網(wǎng)絡(luò)狀態(tài)都是一樣的,而從很快可以達(dá)到熱平衡。當(dāng)系統(tǒng)溫度非常低T→0時(shí),如果?Ei(x\i)>0則pi→1,如果?Ei(x\i)<0則pi→0。隨機(jī)性方法變成確定性方法玻爾茲曼機(jī)的參數(shù)學(xué)習(xí)最大似然估計(jì)采用梯度上升法玻爾茲曼機(jī)的參數(shù)學(xué)習(xí)基于Gibbs采樣來進(jìn)行近似求解受限玻爾茲曼機(jī)(RestrictedBoltzmannMachines,RBM)受限玻爾茲曼機(jī)是一個(gè)二分圖結(jié)構(gòu)的無向圖模型。在受限玻爾茲曼機(jī)中,變量可以為兩組,分別為隱藏層和可見層(或輸入層)。節(jié)點(diǎn)變量的取值為0或1。和兩層的全連接神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)相同。深度信念網(wǎng)絡(luò)深度信念網(wǎng)絡(luò)(DeepBeliefNetwork,DBN)深度信念網(wǎng)絡(luò)是深度的有向的概率圖模型,其圖結(jié)構(gòu)由多層的節(jié)點(diǎn)構(gòu)成。和全連接的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)相同。頂部的兩層為一個(gè)無向圖,可以看做是一個(gè)受限玻爾茲曼機(jī)。認(rèn)知權(quán)重生成權(quán)重訓(xùn)練深度信念網(wǎng)絡(luò)-逐層訓(xùn)練逐層訓(xùn)練是能夠有效訓(xùn)練深度模型的最早的方法。深度生成模型深度生成模型深度生成模型就是利用神經(jīng)網(wǎng)絡(luò)來建模條件分布p(x|z;θ)。對抗生成式網(wǎng)絡(luò)(GenerativeAdversarialNetwork,GAN)[Goodfellowetal.,2014]變分自編碼器(VariationalAutoencoder,VAE)[KingmaandWelling,2013,Rezendeetal.,2014]。生成模型生成模型指一系列用于隨機(jī)生成可觀測數(shù)據(jù)的模型。生成數(shù)據(jù)x的過程可以分為兩步進(jìn)行:根據(jù)隱變量的先驗(yàn)分布p(z;θ)進(jìn)行采樣,得到樣本z;根據(jù)條件分布p(x|z;θ)進(jìn)行采樣,得到x。變分自編碼器EM算法回顧給定一個(gè)樣本x,其對數(shù)邊際似然logp(x|θ)可以分解為EstepMstep變分自編碼器(VAE)變分自編碼器的模型結(jié)構(gòu)可以分為兩個(gè)部分:尋找后驗(yàn)分布p(z|x;θ)的變分近似q(z|x;??);變分推斷:用簡單的分布q去近似復(fù)雜的分p(z|x;θ)在已知q(z|x;??)的情況下,估計(jì)更好的生成p(x|z;θ)。用神經(jīng)網(wǎng)絡(luò)來替代變分自編碼器模型匯總再參數(shù)化分布q(z|x,?)依賴于參數(shù)?再參數(shù)化(reparameterization)是實(shí)現(xiàn)通過隨機(jī)變量實(shí)現(xiàn)反向傳播的一種重要手段z

N(μI,σI2I)?~N(0,I)z=μI+σI⊙?,變分自編碼器的訓(xùn)練過程變分自編碼器學(xué)習(xí)到的隱變量流形生成對抗網(wǎng)絡(luò)顯式密度模型和隱式密度模型顯式密度模型顯示地構(gòu)建出樣本的密度函數(shù)p(x|θ),并通過最大似然估計(jì)來求解參數(shù);變分自編碼器、深度信念網(wǎng)絡(luò)隱式密度模型不顯示地估計(jì)出數(shù)據(jù)分布的密度函數(shù)但能生成符合數(shù)據(jù)分布pdata(x)的樣本無法用最大似然估計(jì)生成對抗網(wǎng)絡(luò)生成對抗網(wǎng)絡(luò)由一個(gè)生成網(wǎng)絡(luò)與一個(gè)判別網(wǎng)絡(luò)組成。生成網(wǎng)絡(luò)從潛在空間(latentspace)中隨機(jī)采樣作為輸入,其輸出結(jié)果需要盡量模仿訓(xùn)練集中的真實(shí)樣本。判別網(wǎng)絡(luò)的輸入則為真實(shí)樣本或生成網(wǎng)絡(luò)的輸出,其目的是將生成網(wǎng)絡(luò)的輸出從真實(shí)樣本中盡可能分辨出來。MinMaxGame生成網(wǎng)絡(luò)要盡可能地欺騙判別網(wǎng)絡(luò)。判別網(wǎng)絡(luò)將生成網(wǎng)絡(luò)生成的樣本與真實(shí)樣本中盡可能區(qū)分出來。兩個(gè)網(wǎng)絡(luò)相互對抗、不斷調(diào)整參數(shù),最終目的是使判別網(wǎng)絡(luò)無法判斷生成網(wǎng)絡(luò)的輸出結(jié)果是否真實(shí)。MinMaxGame一個(gè)具體的模型:DCGANs判別網(wǎng)絡(luò)是一個(gè)傳統(tǒng)的深度卷積網(wǎng)絡(luò),但使用了帶步長的卷積來實(shí)現(xiàn)下采樣操作,不用最大匯聚(po

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論