數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用 課件 第13章 基于深度學(xué)習(xí)Faster R-CNN模型的手勢(shì)識(shí)別_第1頁
數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用 課件 第13章 基于深度學(xué)習(xí)Faster R-CNN模型的手勢(shì)識(shí)別_第2頁
數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用 課件 第13章 基于深度學(xué)習(xí)Faster R-CNN模型的手勢(shì)識(shí)別_第3頁
數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用 課件 第13章 基于深度學(xué)習(xí)Faster R-CNN模型的手勢(shì)識(shí)別_第4頁
數(shù)字圖像處理與深度學(xué)習(xí)技術(shù)應(yīng)用 課件 第13章 基于深度學(xué)習(xí)Faster R-CNN模型的手勢(shì)識(shí)別_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第13章基于深度學(xué)習(xí)FasterR-CNN模型的手勢(shì)識(shí)別目錄13.1RCNN目標(biāo)檢測(cè)與識(shí)別模型13.2邊框回歸(BoundingBoxRegression)原理13.3FasterR-CNN目標(biāo)檢測(cè)與識(shí)別模型13.3.1FasterR-CNN模型框架13.3.2基于區(qū)域提議網(wǎng)絡(luò)(RPN)的目標(biāo)檢測(cè)13.3.3基于RoI池化和分類技術(shù)的目標(biāo)識(shí)別13.4手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)13.5構(gòu)建手勢(shì)識(shí)別模型13.5.1構(gòu)建FasterR-CNN模型13.5.2FasterR-CNN識(shí)別模型訓(xùn)練13.6手勢(shì)識(shí)別模型檢驗(yàn) 13.1RCNN目標(biāo)檢測(cè)與識(shí)別模型目標(biāo)檢測(cè)目的是在圖像中識(shí)別和定位感興趣的目標(biāo),并確定它們的類別?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)算法可以分為兩類:二階算法:先生成區(qū)域候選框,再通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類和回歸修正。常見算法有RCNN、SPPNet、FastRCNN,F(xiàn)asterRCNN和RFCN等。相較之下二階算法檢測(cè)結(jié)果更精確。一階算法:不生成候選框,直接在網(wǎng)絡(luò)中提取特征來預(yù)測(cè)物體的分類和位置。常見算法有SSD、YOLO系列和RetinaNet等。相較之下一階算法檢測(cè)速度更快。R-CNN(Region-CNN)主要步驟:1.生成候選區(qū)域?qū)D像分割成小區(qū)域,然后合并包含同一物體可能性高的區(qū)域作為候選區(qū)域輸出,

實(shí)現(xiàn)步驟:步驟1在圖像上設(shè)有n個(gè)預(yù)分割的區(qū)域,表示為R={R1,R2,…,Rn}。步驟2計(jì)算每個(gè)區(qū)域與它相鄰區(qū)域的相似度,得到一個(gè)n×n的相似度矩陣。步驟3從矩陣中找出最大相似度值對(duì)應(yīng)的兩個(gè)區(qū)域,將這兩個(gè)區(qū)域合二為一,這時(shí)候圖像上還剩下n-1個(gè)區(qū)域。步驟4重復(fù)上面的過程,只需要計(jì)算新的區(qū)域與它相鄰區(qū)域的相似度,相似區(qū)域總數(shù)目最后變成了1。2.對(duì)每個(gè)候選區(qū)域用CNN進(jìn)行特征提取對(duì)每個(gè)候選區(qū)域都使用深度神經(jīng)網(wǎng)絡(luò)提取特征,并重新訓(xùn)練全連接層。在候選區(qū)域輸入訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,得到固定維度的特征圖輸出,得到特征矩陣。3.用每一類的SVM分類器對(duì)CNN的輸出特征圖進(jìn)行分類使用SVM分類器對(duì)每一個(gè)特征圖進(jìn)行分類。4.非極大值抑制剔除重疊建議框交并比(IntersectionoverUnion,IoU),即(A∩B)/(AUB),指的是A和B的重合區(qū)域面積與A和B總面積的比。IoU越大說明A和B的重合部分占比越大,即A和B越相似。步驟1將屬于同一個(gè)分類的候選區(qū)域進(jìn)行歸類。步驟2找到每一個(gè)分類的候選區(qū)域中預(yù)測(cè)概率最高的區(qū)域作為參考區(qū)域,保留該區(qū)域,并將其從候選區(qū)域列表中移除。步驟3對(duì)于列表中剩余的候選區(qū)域,計(jì)算它們與參考區(qū)域的交并比(IoU)。刪除所有IoU值高于預(yù)設(shè)閾值的候選區(qū)域。5.使用回歸器精修候選區(qū)域的位置通過SelectiveSearch算法得到的候選區(qū)域位置不一定準(zhǔn)確,用最小二乘法解決線性回歸問題。剩余的建議框進(jìn)行回歸操作,最終得到每個(gè)類別的修正后的目標(biāo)區(qū)域。圖13-3預(yù)測(cè)區(qū)域效果示意圖13.2邊框回歸(BoundingBoxRegression)原理1.多元線性回歸方程線性回歸其本質(zhì)上就是對(duì)數(shù)據(jù)進(jìn)行擬合,從大量的數(shù)據(jù)中,獲得一個(gè)方程來近似描述這些數(shù)據(jù),并用該方程對(duì)新的輸入進(jìn)行預(yù)測(cè)。t*=w0*+w1*x1+w2*x2+…+wn*xn其中,*代表x、y、w、h四個(gè)標(biāo)識(shí)之一;t*代表x和y偏移量、高度和寬度的縮放因子;x1,x2,…,xn代表樣本特征;W*為多元線性回歸方程的參數(shù),w0*為截距,w1*,w2*,…wn*為回歸系數(shù)。其中可以被看成一個(gè)結(jié)構(gòu)為(n+1,1)的列矩陣,X是一個(gè)結(jié)構(gòu)為(m,n+1)的特征矩陣。2.損失函數(shù)(1)平方和做損失函數(shù):(2)SmoothL1Loss3.多元線性回歸的參數(shù)求解(1)最小二乘法損失函數(shù)為凸函數(shù),其表達(dá)式為:(3-17)令(13-7)求導(dǎo)后一階導(dǎo)數(shù)為零,則:(2)梯度下降法對(duì)(13-7)參數(shù)求導(dǎo):將上述梯度帶入隨機(jī)梯度下降公式:13.3FasterR-CNN目標(biāo)檢測(cè)與識(shí)別模型13.3.1FasterR-CNN模型框架主要實(shí)現(xiàn)步驟:步驟1使用主干網(wǎng)絡(luò)對(duì)輸入圖像提取主干特征圖。步驟2主干特征圖具有256個(gè)通道。主干特征圖上的每個(gè)點(diǎn)經(jīng)過3×3卷積操作后,作為256維特征向量輸入RPN網(wǎng)絡(luò)的兩個(gè)分支。步驟4RPN網(wǎng)絡(luò)的一個(gè)分支輸出錨框的標(biāo)簽類型概率,另一個(gè)分支輸出錨框修正的偏移量。步驟5提議層負(fù)責(zé)在原始圖像中找到正標(biāo)簽的錨框。從大量正標(biāo)簽錨框中篩選出最可能包含目標(biāo)的錨框,作為目標(biāo)框的候選提議(Proposal),并相應(yīng)地調(diào)整這些錨框的位置。步驟6RoI池化技術(shù)用于將目標(biāo)檢測(cè)中的候選提議(Proposal)映射到特征圖上,從而得到目標(biāo)區(qū)域的特征表示。步驟7使用分類分支和回歸分支進(jìn)一步預(yù)測(cè)目標(biāo)類別和實(shí)現(xiàn)目標(biāo)位置的精確定位。圖13-4FasterR-CNN框架結(jié)構(gòu)示意圖13.3.2基于區(qū)域提議網(wǎng)絡(luò)(RPN)的目標(biāo)檢測(cè)FasterR-CNN則拋棄了傳統(tǒng)的滑動(dòng)窗口和SelectiveSearch方法,直接使用區(qū)域提議網(wǎng)絡(luò)(RegionProposalNetworks,RPN)來生成檢測(cè)框,極大提升了檢測(cè)框的生成速度。RPN網(wǎng)絡(luò)是一個(gè)全卷積網(wǎng)絡(luò),由卷積層(256維)+ReLU激勵(lì)函數(shù)+左右兩個(gè)全連接層(有1×1卷積實(shí)現(xiàn))。RPN網(wǎng)絡(luò)接收來自主干網(wǎng)絡(luò)的特征圖作為輸入,并輸出前景和背景的分類置信度,以及每個(gè)提議區(qū)域(Proposal)的中心坐標(biāo)和尺寸(寬度和高度)的回歸值。核心思想是利用滑動(dòng)窗口和錨點(diǎn)策略來生成候選框。RPN實(shí)現(xiàn)過程錨框錨框是用于目標(biāo)檢測(cè)的候選區(qū)域,它們以特征圖上的一個(gè)點(diǎn)為中心,預(yù)先設(shè)定不同尺寸和比例的矩形區(qū)域。錨框有三種尺寸和三種比例,三種尺寸分別是?。ㄋ{(lán)128)中(紅256)大(綠512),三個(gè)比例分別是1

:

1,1

:

2,2

:

1。3×3的組合總共有9種錨框。3.RPN的結(jié)構(gòu)RPN的結(jié)構(gòu)由3×3的卷積層(輸出通道數(shù)為256)+ReLU激活函數(shù)+兩個(gè)平行的1×1的卷積層(由分類層clclayer和回歸層reglayer)組成。圖13-6RPN的結(jié)構(gòu)示意圖RPN實(shí)現(xiàn)過程如下:步驟1獲取256通道的主干網(wǎng)絡(luò)提取的特征。步驟2對(duì)每一個(gè)通道以中心點(diǎn)進(jìn)行3×3卷積操作,在中心點(diǎn)處取出256通道相應(yīng)位置的特征,組成256維特征矢量。步驟3粗糙分類,獲取錨框的正標(biāo)簽與負(fù)標(biāo)簽的屬性評(píng)分。進(jìn)行1×1×18卷積操作,通過全連接層+Softmax函數(shù)獲取當(dāng)前中心點(diǎn)的9個(gè)錨框關(guān)于正標(biāo)簽和負(fù)標(biāo)簽的屬性評(píng)分。步驟4獲取錨框的偏移量和縮放因子。進(jìn)行1×1×36卷積操作,通過全連接層獲取當(dāng)前中心點(diǎn)的9個(gè)錨框相對(duì)于目標(biāo)的偏移量和縮放因子。步驟5在原圖上,找到與中心點(diǎn)對(duì)應(yīng)的點(diǎn)和錨框,取正標(biāo)簽評(píng)分高的前N個(gè)錨框,根據(jù)偏移量和縮放因子,進(jìn)行修正,獲得提議區(qū)域。步驟6將修正后的錨框區(qū)域映射回主干網(wǎng)絡(luò)(backbone)的特征圖上,以確定每個(gè)錨框?qū)?yīng)的特征圖位置。4.提議(Proposal)層提議層的主要任務(wù)是找到原圖上的錨框所對(duì)應(yīng)的特征區(qū)域。原始圖像經(jīng)過卷積層處理后生成特征圖。處理步驟如下:(1)接收來自分類層的兩個(gè)輸入:正標(biāo)簽和負(fù)標(biāo)簽錨框分類結(jié)果,以及來自回歸層的4個(gè)參數(shù)。(2)在原始圖像上生成錨框,并使用偏置量和縮放因子對(duì)所有錨框進(jìn)行邊界框回歸。(3)根據(jù)Softmax函數(shù)得分將錨框排序,提取前N個(gè)正標(biāo)簽錨框,并修正它們的位置。(4)確保所有正標(biāo)簽錨框都在圖像邊界內(nèi),防止在區(qū)域池化時(shí)超出圖像范圍。(5)剔除尺寸過小的正標(biāo)簽錨框。(6)對(duì)剩余的正標(biāo)簽錨框應(yīng)用非極大值抑制(NMS)。(7)輸出提議區(qū)域,格式為[x1,y1,x2,y2]。由于已將錨框映射回原始圖像尺度并進(jìn)行了邊界檢查,輸出的提議區(qū)域是對(duì)應(yīng)于原始M×N尺寸圖像的。11.3.3基于RoI池化和分類技術(shù)的目標(biāo)識(shí)別RoI池化層負(fù)責(zé)從RPN網(wǎng)絡(luò)生成的提議(Proposal)中提取特征圖。利用提取的候選區(qū)域特征圖,通過全連接層和Softmax函數(shù)計(jì)算每個(gè)提議屬于各個(gè)類別的概率,輸出cls_prob概率向量。同時(shí),通過邊界框回歸進(jìn)一步微調(diào)每個(gè)提議的位置,得到更精確的目標(biāo)檢測(cè)框bbox_pred。圖13-7分類結(jié)構(gòu)示意圖13.4手勢(shì)識(shí)別系統(tǒng)設(shè)計(jì)設(shè)計(jì)一個(gè)手勢(shì)識(shí)別系統(tǒng)包含三個(gè)主要部分,分別為訓(xùn)練手勢(shì)標(biāo)注、學(xué)習(xí)過程和識(shí)別過程。具體設(shè)計(jì)模式:圖13-8功能總體設(shè)計(jì)模式1.訓(xùn)練手勢(shì)標(biāo)注標(biāo)注應(yīng)該包含目標(biāo)的邊界框和類別信息。(1)邊界框信息。(x_min,y_min):左上角坐標(biāo)(x_max,y_max):右下角坐標(biāo)(2)類別信息。2.學(xué)習(xí)過程模塊學(xué)習(xí)過程模塊主要分為三個(gè)步驟,包括手勢(shì)圖像預(yù)處理、構(gòu)建訓(xùn)練集、構(gòu)建識(shí)別模型。在構(gòu)建訓(xùn)練集、搭建模型之后,對(duì)模型進(jìn)行訓(xùn)練。3.識(shí)別過程模塊識(shí)別過程模塊主要分為三個(gè)步驟,包括獲取待識(shí)別手勢(shì)圖像、手勢(shì)圖像預(yù)處理、分類決策和決策分析。4.手勢(shì)識(shí)別系統(tǒng)開發(fā)步驟(1)數(shù)據(jù)采集使用攝像頭或傳感器收集手勢(shì)數(shù)據(jù)。(2)圖像預(yù)處理包括去噪、調(diào)整圖像大小和亮度等。標(biāo)準(zhǔn)化手勢(shì)數(shù)據(jù)。(3)對(duì)采集到的手勢(shì)進(jìn)行標(biāo)記,以便訓(xùn)練模型。標(biāo)記包括手的位置和手勢(shì)類別等信息。(4)模型訓(xùn)練(5)系統(tǒng)集成(6)優(yōu)化和調(diào)試13.5構(gòu)建手勢(shì)識(shí)別模型13.5.1構(gòu)建FasterR-CNN模型1.一般步驟:(1)安裝依賴庫安裝深度學(xué)習(xí)框架,如TensorFlow或PyTorch。安裝其他必要的庫,如NumPy、Matplotlib等。(2)獲取數(shù)據(jù)集(3)預(yù)訓(xùn)練模型使用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(如ResNet、VGG等)作為FasterR-CNN的基礎(chǔ)模型。2.搭建提取主干特征的卷積神經(jīng)網(wǎng)絡(luò)在FasterR-CNN模型中使用預(yù)訓(xùn)練的VGG1616模型3.搭建檢測(cè)目標(biāo)的RPN網(wǎng)絡(luò)①選擇適當(dāng)?shù)闹鞲删W(wǎng)絡(luò),提取圖像特征。②AnchorGenerator負(fù)責(zé)生成候選錨框的尺寸和長(zhǎng)寬比。③RPN的頭部用于處理主干網(wǎng)絡(luò)輸出的特征圖,生成候選錨框和對(duì)應(yīng)的邊界框回歸信息。④RPNBlock是RPN中的一個(gè)組件,包含兩個(gè)分支。分類分支(cls_logits):該分支負(fù)責(zé)預(yù)測(cè)每個(gè)錨框是前景(目標(biāo))還是背景的概率?;貧w分支(bbox_pred):該分支負(fù)責(zé)預(yù)測(cè)每個(gè)錨框相對(duì)于其真實(shí)位置的邊界框偏移量。4.搭建RoI(RegionofInterest)池化層RoI池化用于將不同尺寸的感興趣區(qū)域映射為固定大小的特征圖,以便在后續(xù)的目標(biāo)分類和回歸任務(wù)中使用。13.5.2FasterR-CNN識(shí)別模型訓(xùn)練1.主干特征提取本節(jié)主要采用的是Caffe框架下的VGG16預(yù)訓(xùn)練模型。2.錨框貼標(biāo)簽在區(qū)域提議網(wǎng)絡(luò)(RPN)中,每個(gè)中心點(diǎn)會(huì)對(duì)應(yīng)生成k個(gè)錨框,分類層(clclayer)負(fù)責(zé)輸出每個(gè)錨框的兩個(gè)參數(shù):預(yù)測(cè)為前景的概率和損失函數(shù)。損失函數(shù)采用交叉熵?fù)p失函數(shù)。3.計(jì)算損失函數(shù)FasterR-CNN的損失函數(shù)通常包括分類損失和邊界框回歸損失。分類損失用于確定每個(gè)候選錨框中是否包含目標(biāo),而邊界框回歸損失用于精確定位目標(biāo)的位置。4.RPN生成RoIsRPN生成RoI的過程:

對(duì)于輸入的每張圖片,RPN首先利用其特征圖來計(jì)算每個(gè)位置上的錨框?qū)儆谇熬暗母怕?,以及這些錨框的位置參數(shù)。選擇那些具

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論