




版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
人工神經(jīng)網(wǎng)絡設計08卷積神經(jīng)網(wǎng)絡目錄卷積神經(jīng)網(wǎng)絡基礎01020304卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法典型卷積神經(jīng)網(wǎng)絡應用實例01卷積神經(jīng)網(wǎng)絡基礎卷積神經(jīng)網(wǎng)絡(CNN)是一類包含卷積計算且具有深度結(jié)構的前饋神經(jīng)網(wǎng)絡,以其出色的性能和廣泛的應用而聞名。
卷積神經(jīng)網(wǎng)絡概述起源與發(fā)展:CNN起源可以追溯到20世紀60年代,但直到21世紀初,隨著深度學習技術的興起,才在圖像識別和處理領域展現(xiàn)出顯著優(yōu)勢。深度學習的催化劑:CNN憑借其在圖像識別任務上的卓越性能,成為了深度學習領域的重要催化劑,推動了整個AI行業(yè)的發(fā)展。結(jié)構與優(yōu)勢:作為前饋神經(jīng)網(wǎng)絡的一種,CNN尤其在處理具有網(wǎng)格結(jié)構的數(shù)據(jù)(如圖像)時表現(xiàn)出色。3圖8-1卷積過程示意圖01卷積神經(jīng)網(wǎng)絡基礎卷積運算是卷積神經(jīng)網(wǎng)絡的核心操作。通過卷積操作,卷積神經(jīng)網(wǎng)絡能夠從輸入數(shù)據(jù)中提取特征并逐層構建更為抽象的表示。
卷積運算401卷積神經(jīng)網(wǎng)絡基礎例8-1假設有兩個連續(xù)時間函數(shù)f(t)和g(t),它們分別定義如下:f(t)=e?|t|,g(t)=δ(t?1),計算這兩個函數(shù)的卷積(f?g)(t)。
卷積運算
501卷積神經(jīng)網(wǎng)絡基礎
卷積運算離散域:卷積定義為兩個序列的逐點乘積后的求和
對于輸出序列中的每一個元素,我們都將輸入序列x[n]與卷積核w[n]進行對齊,然后將對應的元素相乘,并將所有乘積求和得到當前位置的輸出值。這個過程對所有可能的對齊方式進行,從而得到輸出序列的每一個元素。
如果將一張圖像或其他二維數(shù)據(jù)作為輸入,使用一個二維的卷積核w,則卷積運算的輸出為601卷積神經(jīng)網(wǎng)絡基礎例8-2假設有兩個離散時間序列f[n]和g[n],定義如下:f[n]={1,2,3},g[n]={4,5}。計算這兩個序列的卷積(f?g)[n]。
卷積運算
701卷積神經(jīng)網(wǎng)絡基礎與普通神經(jīng)網(wǎng)絡相比,卷積神經(jīng)網(wǎng)絡有著獨特的卷積層(ConvolutionLayer)和池化層(PoolingLayer),本小節(jié)將通過卷積層和池化層對卷積神經(jīng)網(wǎng)絡中的基本概念進行介紹。
卷積神經(jīng)網(wǎng)絡的基本概念8圖8-2卷積網(wǎng)絡結(jié)構示意圖01卷積神經(jīng)網(wǎng)絡基礎卷積層是卷積神經(jīng)網(wǎng)絡中最關鍵的一層,也是“卷積神經(jīng)網(wǎng)絡”名字的由來。卷積核是一個小的權重矩陣,整個卷積運算便是通過它來實現(xiàn)的。它在輸入數(shù)據(jù)(如圖像)上滑動,計算核與數(shù)據(jù)局部區(qū)域之間的點積,從而產(chǎn)生特征圖。卷積核像是一個過濾器,通過它可以捕捉到輸入數(shù)據(jù)中的特定模式或特征。
卷積層局部感受野指卷積核覆蓋的輸入數(shù)據(jù)的局部區(qū)域。每個卷積核只與輸入數(shù)據(jù)的一小部分相連接,有助于網(wǎng)絡有效地學習空間層次結(jié)構。權重共享在同一輸入數(shù)據(jù)的不同空間位置上進行卷積時,權重在整個數(shù)據(jù)上是共享的,大大減少了網(wǎng)絡的復雜性。步長卷積核在輸入數(shù)據(jù)上滑動的步幅。步長決定了卷積核移動的間距,從而影響到輸出特征圖的大小和計算效率。901卷積神經(jīng)網(wǎng)絡基礎例8-3假設有一個5×5的輸入矩陣,以及一個3×3的卷積核。在步長為1和2時,分別進行卷積操作。
卷積層將卷積核在輸入矩陣上按照步長進行滑動。對于每一次滑動,計算對應位置的元素相乘并求和,填入輸出矩陣R中對應位置。以第一個元素為例,R[0,0]=(1×1)+(0×2)+(0×3)+(0×6)+(1×7)+(0×8)+(0×11)+(0×12)+(1×13)=1+0+0+0+7+0?13=?5,之后的其他元素可依次得到。當步長為1時,卷積后結(jié)果的尺寸為3×3;當步長為2時,卷積結(jié)果的尺寸為2×2。10圖8-3步長為1的卷積結(jié)果圖8-4步長為2的卷積結(jié)果01卷積神經(jīng)網(wǎng)絡基礎例8-4假設有一個3×3的輸入矩陣,以及一個2×2的卷積核,在輸入矩陣周邊做1行或1列0填充步長為1,進行卷積操作。
卷積層將3×3輸入圖的4個邊界填充0后,卷積輸出的尺寸變?yōu)?×4,分辨率沒有降低。為了控制卷積輸出的尺寸,一般會使用填充操作。常見的填充方法為按0填充和重復邊界值填充。填充不僅保持了輸出尺寸,還使得卷積運算更加靈活和可控。11圖8-5一行/列0填充的卷積結(jié)果01卷積神經(jīng)網(wǎng)絡基礎卷積層中的特征圖通常由多個圖層組成。特征圖大小為C×H×W,由C個H×W大小的特征構成。C為通道數(shù),指代特征的數(shù)量或深度。通道數(shù)的大小直接影響了卷積神經(jīng)網(wǎng)絡的特征提取能力和計算復雜度。增加通道數(shù),可以增強CNN的特征提取能力,但也會增加計算復雜度。
卷積層假設輸入特征圖大小是Ci×Hi×Wi,輸出特征圖大小是Co×Ho×Wo。則每個輸出特征圖都由Ci個卷積核進行逐通道卷積,然后將結(jié)果相加,一共需要Ci×Co個卷積核,每Ci個為一組,共Co組。12圖8-6特征圖示意圖01卷積神經(jīng)網(wǎng)絡基礎池化層可以實現(xiàn)特征圖的降采樣。圖像中的相鄰像素之間很大程度上具有相似性,通過池化操作,不僅減少計算負擔,也讓網(wǎng)絡對位置變化不敏感,增強了特征的泛化能力。常見的池化方法有兩種:最大池化和平均池化。
池化層最大池化最大池化是最常用的池化操作之一。它在特征圖的局部區(qū)域內(nèi)取最大值作為該區(qū)域的代表。這種操作可以突出顯示特征圖中的顯著特征,并且對小的平移和變形具有一定的不變性。平均池化平均池化計算特征圖局部區(qū)域內(nèi)所有值的平均值。與最大池化相比,平均池化更加平滑,但可能會丟失一些特征細節(jié)。1301卷積神經(jīng)網(wǎng)絡基礎例8-5特征圖F如圖所示,使用3×3的最大池化窗口,步長為3,不使用填充,對特征圖F進行最大池化操作,并給出池化后的特征圖F′。首先,確定池化窗口,使用3×3的窗口進行最大池化;然后,遍歷特征圖,以3×3的窗口和步長為3遍歷整個特征圖F;其次,選擇最大值,在每個3×3的區(qū)域內(nèi),選擇最大的數(shù)值;最后,構建新的特征圖,將所有最大值放入新的特征圖F′,完成最大池化。
池化層14圖8-7特征圖F圖8-8最大池化結(jié)果01卷積神經(jīng)網(wǎng)絡基礎例8-6特征圖F如圖所示,使用3×3的最大池化窗口,步長為3,不使用填充,對特征圖F進行平均池化操作,并給出池化后的特征圖F′。首先,首先,確定池化窗口,使用3×3的窗口進行平均池化;
然后,遍歷特征圖,以3×3的窗口和步長為3遍歷整個特征圖F;其次,計算平均值,在每個3×3的區(qū)域內(nèi),計算所有數(shù)值的平均值;最后,構建新的特征圖,將所有平均值放入新的特征圖F′,完成平均池化。
池化層15圖8-9特征圖F圖8-10平均池化結(jié)果01卷積神經(jīng)網(wǎng)絡基礎全局池化可對整個特征圖進行池化操作,只輸出一個單一的值。全局最大池化或全局平均池化通常用于網(wǎng)絡的最后幾層,以便將空間信息壓縮成一個單一的特征值。池化層可以在一定程度上保持特征的尺度不變性。池化操作就是圖像的“resize”,平時一張狗的圖像被縮小了一倍我們還能認出這是一張狗的照片,這說明這張圖像中仍保留著狗最重要的特征,圖像壓縮時去掉的信息只是一些無關緊要的信息,而留下的信息則是具有尺度不變性的特征,是最能表達圖像的特征。
池化層1602卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法一個卷積神經(jīng)網(wǎng)絡主要由以下五部分組成·輸入層/InputLayer ·卷積層/ConvolutionLayer·池化層/PoolingLayer ·全連接層/FullConnectionLayer·輸出層/OutputLayer
卷積神經(jīng)網(wǎng)絡結(jié)構17圖8-11卷積神經(jīng)網(wǎng)絡結(jié)構圖輸入層這是網(wǎng)絡的第一層,負責接收原始數(shù)據(jù),例如圖像的像素值。輸入層的維度通常與數(shù)據(jù)的原始維度相匹配。卷積層卷積層使用一組可學習的卷積核來提取輸入數(shù)據(jù)的特征。卷積神經(jīng)網(wǎng)絡一般包含多個卷積層,一個卷積層可以有多個不同的卷積核。每個卷積核負責檢測輸入數(shù)據(jù)中的特定模式或特征。組成卷積核的每個元素類似于一個前饋神經(jīng)網(wǎng)絡的神經(jīng)元。
卷積神經(jīng)網(wǎng)絡結(jié)構1802卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法池化層池化層通常跟在卷積層之后。池化操作的目的是對特征圖進行下采樣,減少數(shù)據(jù)的空間尺寸,從而減少后續(xù)層的參數(shù)數(shù)量和計算量。這不僅提高了計算效率,還增強了網(wǎng)絡對輸入數(shù)據(jù)的小變化的魯棒性,使模型對特征的位置、大小和方向有一定程度的不變性。全連接層全連接層是卷積神經(jīng)網(wǎng)絡中的一個關鍵部分,通常位于網(wǎng)絡的末端。在這層中,每個神經(jīng)元都與前一層的所有激活值相連,形成了一個完全連接的網(wǎng)絡結(jié)構。這種連接方式與傳統(tǒng)的神經(jīng)網(wǎng)絡中的連接方式相同,因此得名“全連接層”。
卷積神經(jīng)網(wǎng)絡結(jié)構1902卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法輸出層根據(jù)任務的需求,輸出層可以是Softmax層、Sigmoid層或線性層,它們將網(wǎng)絡的內(nèi)部表示轉(zhuǎn)化為需要的輸出,如類別標簽或連續(xù)值。正是通過從輸入層到卷積層(以可學習的卷積核提取局部特征,實現(xiàn)參數(shù)共享與局部感知),再到池化層(對特征圖下采樣,減少計算量并增強平移不變性),經(jīng)全連接層整合全局信息,最終由輸出層根據(jù)任務輸出(如分類概率、回歸數(shù)值等),構建起卷積神經(jīng)網(wǎng)絡對圖像、語音等數(shù)據(jù)的高效特征提取與模式識別能力,使其成為深度學習中處理空間結(jié)構化數(shù)據(jù)的核心架構之一。
卷積神經(jīng)網(wǎng)絡結(jié)構2002卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法類比于經(jīng)典的多層感知機網(wǎng)絡反向傳播的算法,卷積神經(jīng)網(wǎng)絡同樣通過正向傳播-反向傳播的步驟來更新網(wǎng)絡,使網(wǎng)絡通過梯度下降方法來調(diào)整權重和偏置,以最小化損失函數(shù)。
卷積神經(jīng)網(wǎng)絡學習算法前向傳播:輸入數(shù)據(jù)在卷積神經(jīng)網(wǎng)絡中從輸入層開始,經(jīng)過卷積層、激活函數(shù)、池化層、全連接層,最終到達輸出層。反向傳播:使用損失函數(shù)(如交叉熵損失)來衡量網(wǎng)絡的預測輸出與真實標簽之間的差異。從輸出層開始,計算損失函數(shù)關于網(wǎng)絡中每個權重的梯度。這個過程涉及到鏈式法則,即對于每一層,需要計算損失函數(shù)對激活值的導數(shù),然后計算激活值對權重的導數(shù),通過梯度方法來調(diào)整權重和偏置。2102卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法
卷積神經(jīng)網(wǎng)絡學習算法2202卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法
卷積神經(jīng)網(wǎng)絡學習算法
2302卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法
卷積神經(jīng)網(wǎng)絡學習算法2402卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法
卷積神經(jīng)網(wǎng)絡學習算法2502卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法
卷積神經(jīng)網(wǎng)絡學習算法2602卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法
卷積神經(jīng)網(wǎng)絡學習算法2702卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法
卷積神經(jīng)網(wǎng)絡學習算法2802卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法例8-7考慮一個6×6的特征圖如圖所示,使用3×3的最大池化窗口,步長為3,不使用填充。最大池化后的特征圖如圖所示,求反向傳播梯度。假設損失函數(shù)L對F的梯度為?L/?F=[d1,d2;d3,d4],因為梯度只傳遞給正向傳播中的最大值位置,所以,d1、d2、d3和d4分別為F中15、18、33和36的梯度。
卷積神經(jīng)網(wǎng)絡學習算法29圖8-12最大池化結(jié)果圖圖8-13最大池化反向傳播結(jié)果02卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法例8-8考慮一個6×6的特征圖如圖所示,使用3×3的最大池化窗口,步長為3,不使用填充。最大池化后的特征圖如圖所示,求反向傳播梯度。假設損失函數(shù)L對F的梯度為?L/?F=[d1,d2;d3,d4],則梯度平均分配給所有輸入,分別為d1/9、d2/9、d3/9和d4/9。
卷積神經(jīng)網(wǎng)絡學習算法30圖8-14平均池化結(jié)果圖圖8-15平均池化反向傳播結(jié)果02卷積神經(jīng)網(wǎng)絡結(jié)構及其學習算法03典型卷積神經(jīng)網(wǎng)絡LeNet-5是一個經(jīng)典的深度卷積神經(jīng)網(wǎng)絡,由YannLeCun在1998年提出,旨在解決手寫數(shù)字識別問題,被認為是CNN的開創(chuàng)性工作之一。該網(wǎng)絡是第一個被廣泛應用于數(shù)字圖像識別的神經(jīng)網(wǎng)絡之一,也是深度學習領域的里程碑之一。
LeNet-5LeNet-5是一個應用于圖像分類問題的卷積神經(jīng)網(wǎng)絡,其學習目標是從一系列由32×32×1灰度圖像表示的手寫數(shù)字中識別和區(qū)分0-9。LeNet-5的隱含層由2個卷積層、2個池化層構筑和2個全連接層組成,按如下方式構建:1)
(3×3)×1×6的卷積層(步長為1,無填充),2×2均值池化(步長為2,無填充),tanh激勵函數(shù);2)(5×5)×6×16的卷積層(步長為1,無填充),2×2均值池化(步長為2,無填充),tanh激勵函數(shù);3)2個全連接層,神經(jīng)元數(shù)量為120和84。31
LeNet-5從深度學習的觀點來看,LeNet-5規(guī)模很小,但考慮YannLeCun提出時的數(shù)值計算條件,LeNet-5在該時期仍具有相當?shù)膹碗s度。LeNet-5使用雙曲正切函數(shù)作為激勵函數(shù),使用均方差作為誤差函數(shù)并對卷積操作進行了修改以減少計算開銷,這些設置在隨后的卷積神經(jīng)網(wǎng)絡算法中已被更優(yōu)化的方法取代。03典型卷積神經(jīng)網(wǎng)絡32圖8-16LeNet-5結(jié)構圖AlexNet是2012年ILSVRC圖像分類和物體識別算法的優(yōu)勝者。它的深層網(wǎng)絡結(jié)構和使用ReLU激活函數(shù)等創(chuàng)新點,顯著提高識別準確率,引發(fā)了深度學習的熱潮。
AlexNetAlexNet的隱含層由5個卷積層、3個池化層和3個全連接層組成,按如下方式構建:1)(11×11)×3×96的卷積層(步長為4,無填充,ReLU),3×3極大池化(步長為2、無填充),LRN;2)(5×5)×96×256的卷積層(步長為1,相同填充,ReLU),3×3極大池化(步長為2、無填充),LRN;3)(3×3)×256×384的卷積層(步長為1,相同填充,ReLU);4)(3×3)×384×384的卷積層(步長為1,相同填充,ReLU);5)(3×3)×384×256的卷積層(步長為1,相同填充,ReLU),3×3極大池化(步長為2、無填充);6)3個全連接層,神經(jīng)元數(shù)量為4096、4096和1000。03典型卷積神經(jīng)網(wǎng)絡33
AlexNetAlexNet在卷積層中選擇ReLU作為激勵函數(shù),使用了隨機失活,和數(shù)據(jù)增強技術,這些策略在其后的卷積神經(jīng)網(wǎng)絡中被保留和使用。AlexNet也是首個基于GPU進行學習的卷積神經(jīng)網(wǎng)絡。此外AlexNet的1-2部分使用了局部響應歸一化,在2014年后出現(xiàn)的卷積神經(jīng)網(wǎng)絡中,LRN已由分批歸一化取代。03典型卷積神經(jīng)網(wǎng)絡34圖8-17AlexNet結(jié)構圖ResNet來自微軟的人工智能團隊MicrosoftResearch,是2015年ILSVRC圖像分類和物體識別算法的優(yōu)勝者。ResNet是使用殘差塊建立的大規(guī)模卷積神經(jīng)網(wǎng)絡,其規(guī)模是AlexNet的20倍。
ResNetResNet團隊在ResNet模塊中增加了快捷連接分支,在線性轉(zhuǎn)換和非線性轉(zhuǎn)換之間尋求一個平衡。按照這個思路,他們分別構建了帶有“快捷連接”的ResNet構建塊、以及降采樣的ResNet構建塊,區(qū)降采樣構建塊的主桿分支上增加了一個1×1的卷積操作。在ResNet的原始版本中,其殘差塊由2個卷積層、1個跳躍連接、BN和激勵函數(shù)組成,ResNet的隱含層共包含16個殘差塊。03典型卷積神經(jīng)網(wǎng)絡35圖8-18殘差塊結(jié)構示意圖
其他諸多研究者在ResNet的基礎上嘗試了改進算法,包括預激活ResNet(preactivationResNet)、寬ResNet(wideResNet)、隨機深度ResNets(StochasticDepthResNets,SDR)和RiR(ResNetinResNet)等。預激活ResNet將激勵函數(shù)和BN計算置于卷積核之前以提升學習表現(xiàn)和更快的學習速度;寬ResNet使用更多通道的卷積核以提升原ResNet的寬度,并嘗試在學習中引入隨機失活等正則化技術;SDR在學習中隨機使卷積層失活并用等值函數(shù)取代以達到正則化的效果;RiR使用包含跳躍連接和
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 大班剪紙區(qū)域活動方案
- 多校經(jīng)驗交流活動方案
- 大型宣傳活動方案
- 增加公司團體活動方案
- 大隊展示活動方案
- 城市展示活動方案
- 大潤發(fā)烘焙活動方案
- 城管嚴查圣誕活動方案
- 大暑節(jié)氣農(nóng)村活動方案
- 塘廈中學生拓展活動方案
- 酒店前廳部管理制度
- 2022~2023學年廣東廣州天河區(qū)初一下學期期末語文試卷(標準版)
- 廣東省深圳市光明區(qū)2025年八年級下學期期末數(shù)學試題及答案
- 黔西南州工業(yè)投資(集團)有限公司招聘筆試題庫2025
- 建設工程總包合同EPC課件
- 初中英語跨學科項目設計心得體會
- 《斯大林格勒戰(zhàn)役》課件
- 監(jiān)控系統(tǒng)培訓資料
- 運損車輛銷售合同協(xié)議
- 給排水系統(tǒng)設施維護與保養(yǎng)標準流程
- 北京市海淀區(qū)2023-2024學年四年級下學期語文期末練習試卷(含答案)
評論
0/150
提交評論