第8章 目標(biāo)檢測_第1頁
第8章 目標(biāo)檢測_第2頁
第8章 目標(biāo)檢測_第3頁
第8章 目標(biāo)檢測_第4頁
第8章 目標(biāo)檢測_第5頁
已閱讀5頁,還剩28頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

第八章目標(biāo)檢測前期知識儲備Preliminaryknowledgereserve在計算機視覺眾多的技術(shù)領(lǐng)域中,目標(biāo)檢測是一項非?;A(chǔ)的任務(wù),圖像分割、物體追蹤、關(guān)鍵點檢測等通常都要依賴于目標(biāo)檢測。由于每張圖像中物體數(shù)量、大小及姿態(tài)各有不同,使得物體檢測一直是一個流行但是極具挑戰(zhàn)性的任務(wù)。本視頻旨在對檢測方法的基礎(chǔ)知識進行介紹,重點介紹一階段二階段算法的流程以及不同點。知識框架Knowledgeframework學(xué)習(xí)目標(biāo)Learningaims(1)了解目標(biāo)檢測的相關(guān)概念和意義;(2)了解當(dāng)下目標(biāo)檢測方法的種類;(3)掌握目標(biāo)檢測一階段算法;(4)掌握目標(biāo)檢測二階段算法。1目標(biāo)檢測介紹基本原理在萬千世界中,人眼看到的東西大腦能夠第一時間做出判斷,但是對于機器來說,在大數(shù)據(jù)時代下識別一個物體,需要人類對機器進行足夠的認(rèn)知訓(xùn)練并使其能夠給出檢測結(jié)果。如圖所示,目標(biāo)檢測是給需要檢測的圖片內(nèi)的目標(biāo)標(biāo)注一個邊界框進行目標(biāo)定位,同時檢測出所有目標(biāo)的類別標(biāo)簽。(1)人工標(biāo)注的框(groundtruthbox,GT)在目標(biāo)檢測中,用于人工標(biāo)注數(shù)據(jù)集中目標(biāo)物體對應(yīng)的邊界框。(2)邊界框(boundingbox,bbox)指在原圖像中圈出目標(biāo)的矩形框。(3)預(yù)測框(predictionbox)模型預(yù)測出來的可能包含物體的邊界框。(4)錨框(anchor)anchor與邊界框不同,是人們假想出來的一種框,以某種規(guī)則生成一系列邊界框,經(jīng)過調(diào)參成為預(yù)測框。(5)置信度(confidence)置信度又稱可靠度,數(shù)值介于0~1,用來描述和確認(rèn)當(dāng)前檢測目標(biāo)所屬某個類別的概率。(6)非極大值抑制(Non-MaximumSuppression,NMS)非極大值抑制即去除不是最大值的結(jié)果。在目標(biāo)檢測任務(wù)中,最終目的是從一張圖片中圈出多個可能是物體的矩形框,然后對每個框分類。基本概念評價指標(biāo)交并比(IoU)020304050601表示兩個矩形框的重疊程度,即它們相交部分的面積除以它們合并部分的面積,值越大重疊越多,即檢測得越準(zhǔn)確。精確率(Precision)正確的正預(yù)測的百分比,指模型正確判斷的樣本數(shù)占實際被檢測出的比值。準(zhǔn)確度(Accuracy)在所有預(yù)測中預(yù)測正確的概率。召回率(ReCall)模型正確判斷的樣本數(shù)占應(yīng)該被檢索到的樣本總數(shù)的比值。mAP平均精度均值,目標(biāo)檢測中評價模型識別精度的重要指標(biāo)。值越大越好。F1-Score衡量二分類模型精確度的一種指標(biāo),它同時兼顧了分類模型的精確率和召回率。評價指標(biāo)(1)PASCALVOC數(shù)據(jù)集

該數(shù)據(jù)集主要用于目標(biāo)檢測和分類任務(wù)。(2)ImageNet數(shù)據(jù)集該數(shù)據(jù)集是由斯坦福大學(xué)和普林斯頓大學(xué)的科學(xué)家模擬人類的視覺識別系統(tǒng)創(chuàng)建的,其由專業(yè)的計算機視覺領(lǐng)域科研人員維護,文檔詳細(xì),應(yīng)用廣泛,現(xiàn)在幾乎成為目前深度學(xué)習(xí)圖像領(lǐng)域算法性能檢驗的“標(biāo)準(zhǔn)”數(shù)據(jù)集。(3)MSCOCO數(shù)據(jù)集首次發(fā)布于2015年,是由微軟公司開發(fā)維護的大型圖像數(shù)據(jù)集,該數(shù)據(jù)集可用于目標(biāo)檢測、語義分割、人體關(guān)鍵點檢測和字幕生成等任務(wù),包含20萬個圖像,80個類。(4)OpenImages數(shù)據(jù)集

由谷歌發(fā)布的,后期對它進行了多次更新,用于對圖像分類、目標(biāo)檢測、視覺關(guān)系檢測和實例分割等任務(wù),它由920萬張圖片組成。(5)DOTADOTA數(shù)據(jù)集常用于遙感航空圖像的檢測,包含2806張航空圖片,其中包含著不同尺度大小,不同目標(biāo)稀疏程度的多樣性圖片。常用數(shù)據(jù)集2目標(biāo)檢測方法傳統(tǒng)檢測方法傳統(tǒng)的目標(biāo)檢測方法首先通過類似窮舉的滑動窗口方式或圖像分割技術(shù)生成大量的候選區(qū)域,然后對每個候選區(qū)域提取圖像特征,并將這些特征傳遞給一個分類器用來判斷該候選區(qū)域的類別。(1)ViolaJones(VJ)檢測器

ViolaJones檢測器是P.Viola和M.Jones針對人臉檢測場景提出的。在同等的算法精度下,ViolaJones檢測器比同時期的其他算法有幾十到上百倍的速度提升。ViolaJones檢測器采用最直接的滑動窗口方法,檢測框遍歷圖像上所有的尺度和位置,查看檢測框是否包含人臉目標(biāo)。(2)HOG檢測器HOG(HistogramofOrientedGradients,梯度方向直方圖)檢測器于2005年提出,是當(dāng)時尺度特征不變性和形狀上下文的重要改進。(3)DPM檢測器DPM是一種基于組件的檢測算法,由P.Felzenszwalb于2008年提出。DPM在特征層面對經(jīng)典的HOG特征進行了擴展,也使用了滑動窗口方法,基于SVM進行分類,其核心思想是將待檢測目標(biāo)拆分成一系列部件,把檢測一個復(fù)雜目標(biāo)的問題轉(zhuǎn)換成檢測多個簡單部件的問題當(dāng)前基于深度學(xué)習(xí)的目標(biāo)檢測方法主要分為兩類:二階段算法和一階段算法。深度學(xué)習(xí)檢測方法二階段算法指的是檢測算法需要分兩步完成,先由算法生成一系列提取物體的候選區(qū)域(RegionProposal),再通過卷積神經(jīng)網(wǎng)絡(luò)進行目標(biāo)樣本分類識別,最后出結(jié)果。常見的二階段算法有:R-CNN、SPP-Net、FastR-CNN、FasterR-CNN、R-FCN等。一階段算法指的是在檢測過程中一步到位,不需要提前提取候選區(qū)域,能夠直接通過一個神經(jīng)網(wǎng)絡(luò)分析步驟檢測出輸入圖片中物體的類別和位置信息的算法。常見的一階段算法有:YOLO系列、SSD系列、RetinaNet等。3目標(biāo)檢測二階段算法R-CNN利用深度卷積神經(jīng)網(wǎng)絡(luò)進行目標(biāo)檢測的標(biāo)志性工作就是R-CNN(Region-CNN)。R-CNN首次將卷積神經(jīng)網(wǎng)絡(luò)用于目標(biāo)檢測,是典型的雙階段目標(biāo)檢測器。其包含多個組成部分,首先由傳統(tǒng)的區(qū)域搜索算法——選擇性搜索算法得到目標(biāo)候選區(qū)域,然后將候選區(qū)域送入深度卷積神經(jīng)網(wǎng)絡(luò)進行目標(biāo)的特征提取,在得到目標(biāo)的特征以后將特征輸入支持向量機進行目標(biāo)分類,最后通過邊界回歸得到更精確的目標(biāo)區(qū)域。SPP-Net(空間金字塔網(wǎng)絡(luò))檢測算法是在R-CNN的基礎(chǔ)上提出來的,SPP-Net發(fā)現(xiàn)在R-CNN當(dāng)中使用選擇性搜索方法生成的所有候選區(qū)域都要進行一次卷積運算進行圖像分類,這樣實在是太耗費時間,因此在SPP-Net當(dāng)中省略掉了生成候選區(qū)域這一步,直接將圖像做一次卷積運算。不僅如此,SPP-Net還在最后一個卷積層后,加入了金字塔池化層(SPP層),使用這種方式,可以讓網(wǎng)絡(luò)輸入任意的圖片,而且還會生成固定大小的輸出。SPP-Net受SPP-Net啟發(fā),F(xiàn)astR-CNN對前邊的網(wǎng)絡(luò)結(jié)構(gòu)進行了一定的改進,其用全連接網(wǎng)絡(luò)代替了SVM分類器,用RoI池化層代替了金字塔空間池化,這個神奇的網(wǎng)絡(luò)層可以把不同大小的輸入映射到一個固定尺度的特征向量。FastR-CNN雖然FastR-CNN的效果逐漸接近實時目標(biāo)檢測,但它的候選區(qū)域的生成仍然速度非常慢,有時測一張圖片,大部分時間不是花費在計算神經(jīng)網(wǎng)絡(luò)分類上,而是花在選擇性搜索方法提取框上。FasterR-CNN使用RPN(RegionProposalNetwork,區(qū)域候選網(wǎng)絡(luò))取代了選擇性搜索,不僅速度得到了大大提高,而且還獲得了更加精確的結(jié)果。在RPN中,通過采用anchors解決邊界框列表長度不定的問題。FasterR-CNN在FastR-CNN中利用RoIPooling解決了不同尺寸候選區(qū)域的特征提取問題,在FasterR-CNN中提出了RPN網(wǎng)絡(luò),通過共享輸入圖像的卷積特征,快速生成區(qū)域建議。分類需要特征具有平移不變性,檢測則要求對目標(biāo)的平移做出準(zhǔn)確響應(yīng)。如果把RoIPooling層的輸入直接接全連接層,會讓檢測網(wǎng)絡(luò)對位置不敏感,但是如果讓每個候選區(qū)域都通過一些卷積層又會導(dǎo)致計算量太大,時間過長。R-FCN反對使用完全連接的層,而是使用了卷積層,將FasterR-CNN和FCN結(jié)合起來,實現(xiàn)快速、更準(zhǔn)確的檢測器。R-FCN4目標(biāo)檢測一階段算法兩階段算法將目標(biāo)檢測看作一個分類問題,YOLO將檢測問題進行了重構(gòu),視其為一個回歸問題。YOLO是一階段算法的開篇之作,它并沒有真正去掉候選區(qū)域,而是將圖像調(diào)整到448×448的尺寸大小之后劃分成了7×7個網(wǎng)格,在每個網(wǎng)格區(qū)域會預(yù)測兩個邊框,所以一共會預(yù)測98個邊框,然后使用非極大值抑制(NMS)篩選邊框。R-CNN系列是先通過算法找到候選區(qū),最后對候選區(qū)進行邊框回歸,得到最終的bbox。YOLOv1則是直接對網(wǎng)格區(qū)域進行判別和回歸,一步到位的bbox。YOLO系列—YOLOv1YOLO的升級版有兩種:YOLOv2和YOLO9000。YOLOv2相比于YOLO,在繼續(xù)保持處理速度的基礎(chǔ)上,從預(yù)測更準(zhǔn)確,速度更快,識別對象更多這三個方面進行了改進,在速度和準(zhǔn)確性之間提供了一個簡單的權(quán)衡。在YOLOv1的基礎(chǔ)上提出了一種聯(lián)合訓(xùn)練的方法將目標(biāo)檢測數(shù)據(jù)集與分類數(shù)據(jù)集結(jié)合,使得YOLOv2網(wǎng)絡(luò)能夠識別9000種物體,升級為YOLO9000。聯(lián)合訓(xùn)練算法的基本思路是:同時在檢測數(shù)據(jù)集和分類數(shù)據(jù)集上訓(xùn)練物體檢測器,用檢測數(shù)據(jù)集的數(shù)據(jù)學(xué)習(xí)物體的準(zhǔn)確位置,用分類數(shù)據(jù)集的數(shù)據(jù)增加分類的類別量、提升健壯性。由聯(lián)合訓(xùn)練算法訓(xùn)練出來的YOLO9000擁有9000類的分類信息,這些分類信息學(xué)習(xí)自ImageNet分類數(shù)據(jù)集,而物體位置檢測則學(xué)習(xí)自COCO檢測數(shù)據(jù)集。YOLO系列—YOLOv2和YOLO9000YOLOv3的模型比之前的模型復(fù)雜了很多,包含Darknet-53網(wǎng)絡(luò)結(jié)構(gòu)、anchor錨框、FPN等非常優(yōu)秀的結(jié)構(gòu)??梢酝ㄟ^改變模型結(jié)構(gòu)的大小權(quán)衡速度與精度。YOLOv3的先驗檢測(PriorDetection)系統(tǒng)將分類器或定位器重新用于執(zhí)行檢測任務(wù),而那些評分較高的區(qū)域就可以視為檢測結(jié)果。Redmon等人用一個更大的Darknet-53網(wǎng)絡(luò)代替了原來的特征提取器,他們還整合了各種技術(shù),如數(shù)據(jù)增強、多尺度訓(xùn)練、批標(biāo)準(zhǔn)化等。此外,相對于其他目標(biāo)檢測方法,作者使用了完全不同的方法。首先將一個單神經(jīng)網(wǎng)絡(luò)應(yīng)用于整張圖像,該網(wǎng)絡(luò)將圖像劃分為不同的區(qū)域,因而預(yù)測每一塊區(qū)域的邊界框和概率,這些邊界框會通過預(yù)測的概率加權(quán),該模型的一個突出優(yōu)點是:在測試時會查看整個圖像,所以它的預(yù)測利用了圖像中的全局信息。YOLO系列—YOLOv3目前大多數(shù)檢測算法都需要多個GPU來訓(xùn)練模型,但YOLOv4可以在單個GPU上輕松訓(xùn)練。該算法的主要創(chuàng)新點在于提出了一種高效而強大的目標(biāo)檢測模型。它使每個人都可以使用1080Ti或2080TiGPU訓(xùn)練超快速和準(zhǔn)確的目標(biāo)檢測器。在檢測器訓(xùn)練期間,驗證了SOTA的BagofFreebies和BagofSpecials方法的影響。YOLO系列—YOLOv4YOLOv5相對于YOLOv4來說創(chuàng)新性的地方很少,YOLOv5網(wǎng)絡(luò)最小,速度最少,AP精度也最低。但如果檢測以大目標(biāo)為主,追求速度,倒也是個不錯的選擇。YOLOv5官方代碼中,給出的目標(biāo)檢測網(wǎng)絡(luò)中一共有4個版本,分別是YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x四個模型。YOLOv5s網(wǎng)絡(luò)是YOLOv5系列中深度最小,特征圖的寬度最小的網(wǎng)絡(luò),另外三種都是在此基礎(chǔ)上不斷加深,不斷加寬,對于YOLOv5,無論是v5s、v5m、v5l還是v5x,其Backbone、Neck和output一致,唯一的區(qū)別是模型的深度和寬度設(shè)置。YOLOv5網(wǎng)絡(luò)由三個主要組件組成:(1)Backbone:在不同圖像細(xì)粒度上聚合并形成圖像特征的卷積神經(jīng)網(wǎng)絡(luò)。(2)Neck:圖像網(wǎng)絡(luò)層,會經(jīng)過一系列組合將特征傳遞到預(yù)測層。(3)Output:對圖像特征進行預(yù)測,生成邊界框并預(yù)測類別。YOLO系列—YOLOv5YOLOv5網(wǎng)絡(luò)由三個主要組件組成:(1)Backbone:在不同圖像細(xì)粒度上聚合并形成圖像特征的卷積神經(jīng)網(wǎng)絡(luò)。(2)Neck:圖像網(wǎng)絡(luò)層,會經(jīng)過一系列組合將特征傳遞到預(yù)測層。(3)Output:對圖像特征進行預(yù)測,生成邊界框并預(yù)測類別。YOLO系列—YOLOv5SSD是第一個與兩階段檢測算法(如FasterR-CNN)的準(zhǔn)確性相匹配同時還能保持實時速度的一階段檢測算法。SSD借鑒了FasterR-CNN中anchor的理念,每個單元設(shè)置尺度或者長寬比不同的先驗框,預(yù)測的邊界框(Boundingboxes)是以這些先驗框為基準(zhǔn)的,在一定程度上減少訓(xùn)練難度。SSD在YOLO網(wǎng)絡(luò)的基礎(chǔ)上進行改進,首先是將原始圖像輸入一系列卷積層,經(jīng)過VGG16基礎(chǔ)網(wǎng)絡(luò)的5層卷積層之后得到38×38×512的特征圖,與YOLO不同的是,SSD網(wǎng)絡(luò)去除接下來的全連接層,將VGG中的fc6、fc7用一系列卷積層代替,得到了不同大小的特征圖,如19×19、10×10、5×5、3×3,對每一個特征圖分別進行預(yù)測。最后將所有特征圖的輸出結(jié)合到一起,就達(dá)到了同時預(yù)測一張圖片上所有默認(rèn)框的類別,SSD使用了YOLO一次運算就完成整張圖像檢測的思想。SSD系列傳統(tǒng)的SSD通過利用不同層特征做目標(biāo)檢測,但是在SSD中,不同層的特征圖都是作為分類網(wǎng)絡(luò)獨立輸入的,因此在檢測時,同一個物體也許會被不同大小的框檢測出來。另外,SSD對小尺寸的檢測效果也不是很好。深度網(wǎng)絡(luò)的效果會隨著特征圖數(shù)量的增加而更好,但是這并不代表簡單地增加特征圖數(shù)量就能有更好的效果。因此,R-SSD在原來基礎(chǔ)上做出改進,利用分類網(wǎng)絡(luò)減少了重復(fù)框的出現(xiàn),同時增加特征金字塔的特征數(shù)量來檢測更多小尺寸物體。SSD系列—R-SSD使用的低層網(wǎng)絡(luò)的特征信息預(yù)測小物體時,由于缺乏高層語義特征,導(dǎo)致SSD對于小物體的檢測效果較差。而解決這個問題的思路就是對高層語意信息和低層細(xì)節(jié)信息進行融合。DSSD采用TopDown的網(wǎng)絡(luò)結(jié)構(gòu)進行高低層特征的融合并且改進了傳統(tǒng)上采樣的結(jié)構(gòu)。DSSD使用一種通用的自上而下的融合方法,使用VGG和Resnet網(wǎng)絡(luò),以及不同大小的訓(xùn)練圖片尺寸來驗證算法的通用性。將高層的語義信息融入低層網(wǎng)絡(luò)的特征信息中,豐富預(yù)測回歸位置框和分類任務(wù)輸入的多尺度特征圖,以此來提高檢測精度。在提取出多尺度特征圖之后,DSSD提出由殘差單元組成的預(yù)測模塊,以優(yōu)化分類任務(wù)和回歸任務(wù)所需的特征圖。SSD系列—DSSDDSOD可以從0開始訓(xùn)練數(shù)據(jù),不需要預(yù)訓(xùn)練模型。其主要思想是希望模型即使從零開始學(xué)習(xí)訓(xùn)練,也能夠達(dá)到與那些微調(diào)后的預(yù)訓(xùn)練模型一樣好的效果,但那些基于區(qū)域提取的網(wǎng)絡(luò)(如FasterRCNN)從零開始訓(xùn)練無法收斂,因此選擇了SSD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論