




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
計(jì)算機(jī)視覺計(jì)算機(jī)視覺本章參考講義:《動(dòng)手學(xué)深度學(xué)習(xí)》第9章計(jì)算機(jī)視覺計(jì)算機(jī)視覺典型任務(wù)-圖像分類-定位-目標(biāo)識(shí)別-目標(biāo)檢測(cè)-語(yǔ)義分割-目標(biāo)追蹤圖像處理基本原理計(jì)算機(jī)視覺基本原理-通用策略-現(xiàn)有數(shù)據(jù)集目標(biāo)檢測(cè)原理及模型-R-CNN-F-RCNN-YOLO系列-SSD語(yǔ)義分割
計(jì)算機(jī)視覺計(jì)算機(jī)視覺典型任務(wù)-圖像分類-定位-目標(biāo)識(shí)別-目標(biāo)檢測(cè)-語(yǔ)義分割-目標(biāo)追蹤圖像處理基本原理計(jì)算機(jī)視覺基本原理-通用策略-現(xiàn)有數(shù)據(jù)集目標(biāo)檢測(cè)原理及模型-R-CNN-F-RCNN-YOLO系列-SSD語(yǔ)義分割
計(jì)算機(jī)視覺典型任務(wù)計(jì)算機(jī)視覺解決的主要問題是:給出一張二維圖像,計(jì)算機(jī)視覺系統(tǒng)必須識(shí)別出圖像中的對(duì)象及其特征,如形狀、紋理、顏色、大小、空間排列等,從而盡可能完整地描述該圖像。計(jì)算機(jī)視覺典型任務(wù)計(jì)算機(jī)視覺典型任務(wù)區(qū)分計(jì)算機(jī)視覺與其相關(guān)領(lǐng)域圖像處理圖像處理旨在處理原始圖像以應(yīng)用某種變換。其目標(biāo)通常是改進(jìn)圖像或?qū)⑵渥鳛槟稠?xiàng)特定任務(wù)的輸入,而計(jì)算機(jī)視覺的目標(biāo)是描述和解釋圖像。例如,降噪、對(duì)比度或旋轉(zhuǎn)操作這些典型的圖像處理組件可以在像素層面執(zhí)行,無需對(duì)圖像整體具備全面的了解。機(jī)器視覺機(jī)器視覺是計(jì)算機(jī)視覺用于執(zhí)行某些(生產(chǎn)線)動(dòng)作的特例。在化工行業(yè)中,機(jī)器視覺系統(tǒng)可以檢查生產(chǎn)線上的容器(是否干凈、空置、無損)或檢查成品是否恰當(dāng)封裝,從而幫助產(chǎn)品制造。計(jì)算機(jī)視覺典型任務(wù)計(jì)算機(jī)視覺計(jì)算機(jī)視覺可以解決更復(fù)雜的問題,如人臉識(shí)別、詳細(xì)的圖像分析(可幫助實(shí)現(xiàn)視覺搜索,如GoogleImages),或者生物識(shí)別方法。計(jì)算機(jī)視覺典型任務(wù)
目標(biāo)識(shí)別(objectrecognition)給定一幅圖像檢測(cè)到圖像中所有的目標(biāo)(類別受限于訓(xùn)練集中的物體類別)得到檢測(cè)到的目標(biāo)的矩形框,并對(duì)所有檢測(cè)到的矩形框進(jìn)行分類
計(jì)算機(jī)視覺典型任務(wù)目標(biāo)檢測(cè)(objectdetection)定位+分類與objectrecognition目標(biāo)類似但只有兩個(gè)類別,只需要找到目標(biāo)所在的矩形框和非目標(biāo)矩形框例如,人臉檢測(cè)(人臉為目標(biāo)、
背景為非目標(biāo))、汽車檢測(cè)(汽車為目標(biāo)、
背景為非目標(biāo))計(jì)算機(jī)視覺典型任務(wù)語(yǔ)義分割(semanticsegmentation)需要對(duì)圖像的每一個(gè)像素點(diǎn)進(jìn)行分類這里的類別為:多個(gè)目標(biāo)類別和多個(gè)非目標(biāo)類別左邊為輸入圖像,右邊為經(jīng)過語(yǔ)義分割后的輸出圖像,該模型不僅要識(shí)別出摩托車和駕駛者還要標(biāo)出每個(gè)對(duì)象的邊界。因此,與分類目的不同,相關(guān)模型要具有像素級(jí)的密集預(yù)測(cè)能力計(jì)算機(jī)視覺計(jì)算機(jī)視覺典型任務(wù)-圖像分類-定位-目標(biāo)識(shí)別-目標(biāo)檢測(cè)-語(yǔ)義分割-目標(biāo)追蹤圖像處理基本原理計(jì)算機(jī)視覺基本原理-通用策略-現(xiàn)有數(shù)據(jù)集目標(biāo)檢測(cè)原理及模型-邊界框、錨框-F-RCNN-YOLO系列-SSD語(yǔ)義分割
光學(xué)圖像LenaIKONOS衛(wèi)星光學(xué)圖像423mile高16000miles/h1m分辨率EP-3,海南陵水,01-4-4大腦斷層圖像
SIR-CSARL/r-L/g-C/bHH-HV-HVpolar沙漠中的長(zhǎng)城April10,199425kmx75km
圖像圖像處理基本原理什么是圖像?
圖像:對(duì)客觀存在的物體的某種屬性的描述。 光學(xué)圖像: 波長(zhǎng)0.38-0.8um
其他波段圖像: 伽瑪射線:0.003-0.03nm X射線:0.03-3nm
紫外線:3-300nm
紅外線:0.8-300um
微波:0.3-100cm
聲波圖: 如B超 其他: 由感興趣的物理量轉(zhuǎn)換而成,如密度分布圖。使用圖像的通常是人,人約有80%的信息由視覺獲得。
圖像處理圖像處理基本原理什么是圖像處理?
圖像處理就是對(duì)圖像信息進(jìn)行加工處理,以滿足人的視覺心理和實(shí)際應(yīng)用的要求。
例子:調(diào)整了亮度和對(duì)比度圖像處理基本原理圖像處理(增強(qiáng)、復(fù)原、編碼和壓縮)圖像輸入圖像輸出以人為最終的信息接收者,其主要目的是改善圖像的質(zhì)量。(a)圖像處理的幾個(gè)基本目的:圖像預(yù)處理(增強(qiáng)、復(fù)原)圖像分割特征提取圖像分類圖像輸入符號(hào)輸出(b)
另一類圖像處理以機(jī)器為對(duì)象,目的是使機(jī)器或計(jì)算機(jī)能自動(dòng)識(shí)別目標(biāo),稱為圖像識(shí)別。圖像處理的內(nèi)容
圖像變換
圖像編碼
圖像增強(qiáng)
圖像分割
圖像的理解和識(shí)別圖像處理圖像處理基本原理圖像變換:
如付立葉變換、沃爾什變換、離散余弦變換(DCT)等間接處理技術(shù),將空間域的處理轉(zhuǎn)換為變換域處理,不僅可減少計(jì)算量,而且可獲得更有效的處理。目前小波變換在時(shí)域和頻域中都具有良好的局部化特性,它在圖像處理中也有著廣泛而有效的應(yīng)用。圖像處理基本原理19圖像編碼壓縮:
圖像編碼壓縮技術(shù)可減少描述圖像的數(shù)據(jù)量(即比特?cái)?shù)),以便節(jié)省圖像傳輸、處理時(shí)間和減少存儲(chǔ)器容量。壓縮可以在不失真前提下獲得,也可以在允許的失真條件下進(jìn)行。編碼是壓技縮技術(shù)中最重要的方法,它在圖像處理技術(shù)中是發(fā)展最早且比較成熟的技術(shù)。圖像處理基本原理2024/11/138x8的DCT變換,64個(gè)系數(shù)中只保留6個(gè)低頻分量。圖像增強(qiáng)和復(fù)原:2024/11/1321目的是提高圖像的質(zhì)量,如去除噪聲,提高清晰度等。圖像增強(qiáng)不考慮圖像降質(zhì)的原因,突出圖像中所感興趣的部分。如強(qiáng)化圖像高頻分量,可使圖像中物體輪廓清晰,細(xì)節(jié)明顯;如強(qiáng)調(diào)低頻分量可減少圖像中噪聲影響。圖像復(fù)原要求對(duì)圖像降質(zhì)的原因有一定的了解,建立“降質(zhì)模型”,再采用某種方法,恢復(fù)或重建原來的圖像。圖像增強(qiáng)圖像處理基本原理2024/11/1322/group/dipr圖像增強(qiáng)圖像處理基本原理運(yùn)動(dòng)模糊圖像恢復(fù)圖像圖像恢復(fù)圖像處理基本原理2024/11/1324圖像分割數(shù)字圖像處理中的關(guān)鍵技術(shù)之一。將圖像中有意義的特征部分提取出來,其有意義的特征有圖像中物體的邊緣、區(qū)域等,進(jìn)一步進(jìn)行圖像識(shí)別、分析和理解的基礎(chǔ)。圖像分割圖像處理基本原理2024/11/1325
像分圖像識(shí)別數(shù)據(jù)獲取模式分割模式識(shí)別姚明ROCKETS11圖像識(shí)別DatadrivenModelbased圖像檢索圖像降噪2024/11/13282024/11/1329在安檢系統(tǒng)中的偽彩色圖像增強(qiáng)2024/11/1330PS2024/11/1331視頻監(jiān)控--世界上超級(jí)大數(shù)據(jù)生成器
補(bǔ)充:圖像處理基本原理相關(guān)圖像特征:灰度灰度分辨率圖像的頻率紋理材質(zhì)把白色與黑色之間按對(duì)數(shù)關(guān)系分為若干等級(jí),稱為灰度?;叶确譃?56階。用灰度表示的圖像稱作灰度圖。一幅完整的圖像,是由RGB三個(gè)通道組成的。三個(gè)通道的縮覽圖都是以灰度顯示的。用不同的灰度色階來表示“紅,綠,藍(lán)”在圖像中的比重。灰度圖像在黑色與白色之間還有許多級(jí)的顏色深度?;叶葓D像經(jīng)常是在單個(gè)電磁波頻譜如可見光內(nèi)測(cè)量每個(gè)像素的亮度得到的。用于顯示的灰度圖像通常用每個(gè)采樣像素8位的非線性尺度來保存,這樣可以有256級(jí)灰度。這種精度剛剛能夠避免可見的條帶失真,并且非常易于編程。在醫(yī)學(xué)圖像與遙感圖像這些技術(shù)應(yīng)用中經(jīng)常采用更多的級(jí)數(shù)以充分利用每個(gè)采樣10或12位的傳感器分辨率,并且避免計(jì)算時(shí)的近似誤差。2024/11/1334數(shù)字圖像顯示2024/11/1335數(shù)字圖像灰度表示(灰度化)f(x,y)灰度:R=G=B2024/11/1336灰度圖像紅綠藍(lán)彩色圖像彩色圖像圖像分辨率圖像分辨率是指每英寸圖像內(nèi)的像素點(diǎn)數(shù)。圖像分辨率是有單位的,叫ppi(像素每英寸)。分辨率越高,像素的點(diǎn)密度越高,圖像越逼真空間分辨率空間分辨率是指圖像可辨認(rèn)的臨界物體空間幾何長(zhǎng)度的最小極限。如果一幅圖像的尺寸為MxN,表明在成像時(shí)采集了MxN個(gè)樣本,空間分辨率是MxNpixels2024/11/1338數(shù)字圖像的空間分辨率5122561286432GMN
5125122562561281286464323216162024/11/13392024/11/1340數(shù)字圖像灰度分辨率2563282圖像灰度級(jí)2561286432168422024/11/1341數(shù)字圖像的基本特點(diǎn)(1)處理的大多是二維信息,信息量大。
256x256黑白圖像 64K byte 512x512 彩色圖像 768Kbyte 25Frame/s電視圖像約20M byte(2) 數(shù)字圖像傳輸占用的頻帶較寬。 語(yǔ)音 4KHz
電視圖像 5.6MHz
對(duì)圖像的壓縮提出了要求。2024/11/1342(3) 有很多數(shù)字圖像中象素間的相關(guān)性較大,冗余比較多,有利于壓縮。從左圖中可以看到:有大塊的區(qū)域的灰度值是相差不大的。2024/11/1343(4) 對(duì)三維景物圖像的理解一個(gè)視角的二維圖像通常是不夠的。(5) 數(shù)字圖像處理后的圖像很多情況下是給人觀察和評(píng)價(jià)的,因此受人的因素影響較大。正面還是側(cè)面?圖像頻率:灰度值變化劇烈程度的指標(biāo),是灰度在平面空間上的梯度圖像的高低頻是對(duì)圖像各個(gè)位置之間強(qiáng)度變化的一種度量方法.低頻分量:主要對(duì)整副圖像的強(qiáng)度的綜合度量.高頻分量:主要是對(duì)圖像邊緣和輪廓的度量.低頻:灰度緩慢地變化,代表著那是連續(xù)漸變的一塊區(qū)域,邊緣以內(nèi)的內(nèi)容為低頻,而邊緣內(nèi)的內(nèi)容就是圖像的大部分信息,是圖像的近似信息。高頻:就是頻率變化快.圖像邊緣的灰度值變化快,就對(duì)應(yīng)著頻率高,即高頻顯示圖像邊緣。圖像的細(xì)節(jié)處也是屬于灰度值急劇變化的區(qū)域。另外噪聲(即噪點(diǎn))也是這樣,該像素點(diǎn)灰度值明顯與正常的點(diǎn)顏色不一樣了。不同圖像灰度不同,邊界處一般會(huì)有明顯的邊緣,利用此特征可以分割圖像。邊緣=物體間的邊界?。?!目前研究者正在試圖在邊緣提取中加入高層的語(yǔ)義信息。圖像中明顯的線特征就是邊緣和細(xì)線狀要素,都可以通過邊緣檢測(cè)算法提取出來。梯度算子對(duì)邊緣有很高的響應(yīng),因此梯度算子也會(huì)叫做邊緣檢測(cè)算子圖像特征提取主要有點(diǎn)、線兩類。點(diǎn)特征在圖像配準(zhǔn)、圖像幾何校正、圖像鑲嵌、多視幾何恢復(fù)任務(wù)中起到了至關(guān)重要的作用。對(duì)于線特征,由于缺乏有效的描述方法以及連接成閉合圖形的方法,目前還沒有什么廣泛的用處。點(diǎn)特征提取算法的核心思路有三種,其代表算法分別是Harris、FAST、SUSAN。Harris角點(diǎn)檢測(cè)算法還有SIFT、SURF、KAZE三類角點(diǎn)檢測(cè)算法紋理/材質(zhì)紋理特征也是一種全局特征,它也描述了圖像或圖像區(qū)域所對(duì)應(yīng)景物的表面性質(zhì)。但紋理只是一種物體表面的特性,并不能完全反映出物體的本質(zhì)屬性,所以僅僅利用紋理特征是無法獲得高層次圖像內(nèi)容的。與顏色特征不同,紋理特征不是基于像素點(diǎn)的特征,它需要在包含多個(gè)像素點(diǎn)的區(qū)域中進(jìn)行統(tǒng)計(jì)計(jì)算。在模式匹配中,這種區(qū)域性的特征具有較大的優(yōu)越性,不會(huì)由于局部的偏差而無法匹配成功。作為一種統(tǒng)計(jì)特征,紋理特征常具有旋轉(zhuǎn)不變性,并且對(duì)于噪聲有較強(qiáng)的抵抗能力。但是,紋理特征也有其缺點(diǎn),一個(gè)很明顯的缺點(diǎn)是當(dāng)圖像的分辨率變化的時(shí)候,所計(jì)算出來的紋理可能會(huì)有較大偏差。另外,由于有可能受到光照、反射情況的影響,從2-D圖像中反映出來的紋理不一定是3-D物體表面真實(shí)的紋理。典型紋理圖像:緩慢變化和周期性重復(fù)常用紋理特征提取與描述方法分類計(jì)算機(jī)視覺計(jì)算機(jī)視覺典型任務(wù)-圖像分類-定位-目標(biāo)識(shí)別-目標(biāo)檢測(cè)-語(yǔ)義分割-目標(biāo)追蹤圖像處理基本原理計(jì)算機(jī)視覺運(yùn)行原理-通用策略-現(xiàn)有數(shù)據(jù)集目標(biāo)檢測(cè)原理及模型-R-CNN-F-RCNN-YOLO系列-SSD語(yǔ)義分割
計(jì)算機(jī)視覺運(yùn)行原理通用策略--利用CNN構(gòu)建計(jì)算機(jī)視覺模型:創(chuàng)建一個(gè)包含標(biāo)注圖像的數(shù)據(jù)集或者使用現(xiàn)有的數(shù)據(jù)集。標(biāo)注可以是圖像類別(適用于分類任務(wù))、邊界框和類別對(duì)(適用于目標(biāo)檢測(cè)問題),或者對(duì)圖像中每個(gè)感興趣對(duì)象進(jìn)行像素級(jí)分割(適用于實(shí)例分割問題)。從每張圖像中提取與待處理任務(wù)相關(guān)的特征,這是建模的重點(diǎn)。例如,用來識(shí)別人臉的特征、基于人臉標(biāo)準(zhǔn)的特征與用來識(shí)別旅游景點(diǎn)或人體器官的特征存在顯著區(qū)別。基于特征訓(xùn)練深度學(xué)習(xí)模型。訓(xùn)練意味著向機(jī)器學(xué)習(xí)模型輸入很多圖像,然后模型基于特征學(xué)習(xí)如何解決任務(wù)。使用不同于訓(xùn)練所用數(shù)據(jù)的圖像評(píng)估模型,從而測(cè)試訓(xùn)練模型的準(zhǔn)確率。計(jì)算機(jī)視覺運(yùn)行原理現(xiàn)有數(shù)據(jù)集1st,ImageNet,該數(shù)據(jù)集包含1400萬(wàn)人工標(biāo)注圖像。該數(shù)據(jù)集包含100萬(wàn)張具備邊界框標(biāo)注的圖像計(jì)算機(jī)視覺運(yùn)行原理MicrosoftCommonObjectsinContext(COCO)數(shù)據(jù)集,它包含328,000張圖像、91個(gè)對(duì)象類別,以及250萬(wàn)標(biāo)注實(shí)例。計(jì)算機(jī)視覺計(jì)算機(jī)視覺典型任務(wù)-圖像分類-定位-目標(biāo)識(shí)別-目標(biāo)檢測(cè)-語(yǔ)義分割-目標(biāo)追蹤圖像處理基本原理計(jì)算機(jī)視覺基本原理-通用策略-現(xiàn)有數(shù)據(jù)集目標(biāo)檢測(cè)原理及模型-R-CNN-R-CNN/F-RCNN-YOLO系列-SSD語(yǔ)義分割
目標(biāo)檢測(cè)原理及模型RoadMap目標(biāo)檢測(cè)原理及模型傳統(tǒng)目標(biāo)檢測(cè):三板斧選出候選區(qū)域
提取候選區(qū)域的特征
分類器分類缺點(diǎn):采取滑動(dòng)窗口的思想來解決這一問題。滑動(dòng)窗口要對(duì)整張圖遍歷,存在大量的冗余窗口,時(shí)間復(fù)雜度非常高傳統(tǒng)方法提取的特征通常是SIFT、
HOG特征,魯棒性差
基于深度學(xué)習(xí)的端到端目標(biāo)檢測(cè)主流算法:標(biāo)志:FasterR-CNNRPN(RegionProposalNetworks)網(wǎng)絡(luò)特征提取ROI池化(Regionofinterestpooling)之前:R-CNN,
區(qū)域建議(regionproposal)SPP-NET
FastRCNN,特征圖經(jīng)過ROIpooling目標(biāo)檢測(cè)原理及模型
發(fā)展軌跡目標(biāo)檢測(cè)原理及模型兩個(gè)流派:兩步(two-stage)檢測(cè)算法FasterR-CNNRFCNFPN,MaskR-CNN一步(one-stage)檢測(cè)算法SSD(SingleShotMultiBoxDetector)YOLOv1/v2/
v3
目標(biāo)檢測(cè)原理及模型SelectiveSearch相鄰區(qū)域的相似度:顏色、紋理、尺寸和空間交疊這4個(gè)參數(shù)?相似度是上一步驟的計(jì)算得到的各種相似度的加權(quán)和,重復(fù)合并為一個(gè)區(qū)域,而在這個(gè)合并過程中,得到的大大小小的區(qū)域的邊界框,都將作為侯選框目標(biāo)檢測(cè)原理及模型R-CNN流程利用區(qū)域候選(regionproposal)方法提取可能的對(duì)象。使用CNN識(shí)別每個(gè)區(qū)域中的特征。利用支持向量機(jī)(SVM)對(duì)每個(gè)區(qū)域進(jìn)行分類。目標(biāo)檢測(cè)原理及模型-SPPNet空間金字塔池化(SpatialPyramidPooling)目標(biāo)檢測(cè)原理及模型
-FasterR-CNN
算法流程目標(biāo)檢測(cè)原理及模型
-FasterR-CNN
目標(biāo)檢測(cè)原理及模型-FasterR-CNN三大關(guān)鍵:特征提取網(wǎng)絡(luò)使用一個(gè)基礎(chǔ)CNN(conv+relu+pooling層),提取一次候選圖像的特征圖。該特征圖被共享用于后續(xù)RPN(RegionProposalNetwork)層和全連接(fullyconnection)層原論文中用的backbone網(wǎng)絡(luò)是VGG-16去掉最后分類用的平均池化層和全連接層,
ResNet101等目標(biāo)檢測(cè)原理及模型-FasterR-CNN卷積網(wǎng)絡(luò)包括13個(gè)卷積層,13個(gè)激活層,4個(gè)池化層conv=3x3,padding=1,stride=1;Pooling=2x2,padding=0,stride=2;這樣做簡(jiǎn)化了計(jì)算復(fù)雜性。也就是說3x3的卷積操作后,圖像的尺寸不變;2x2的池化操作后,圖像的尺寸變?yōu)樵瓐D的0.5x0.5所以,一張MxN大小的圖像經(jīng)過VGG16計(jì)算后,特征圖像尺寸變?yōu)?M/16)x(N/16)。目標(biāo)檢測(cè)原理及模型-FasterR-CNN區(qū)域候選網(wǎng)絡(luò)(RegionProposalNetworks,RPN)經(jīng)典的檢測(cè)方法生成檢測(cè)框都非常耗時(shí),如OpenCVAdaboost使用滑動(dòng)窗口+圖像金字塔生成檢測(cè)框;或如R-CNN使用SS(SelectiveSearch)方法生成檢測(cè)框。而FasterRCNN則拋棄了傳統(tǒng)的滑動(dòng)窗口和SS方法,直接使用RPN生成檢測(cè)框,能極大提升檢測(cè)框的生成速度。目標(biāo)檢測(cè)原理及模型-FasterR-CNNRPN網(wǎng)絡(luò)實(shí)際分為2條線:上面的網(wǎng)絡(luò)分支通過softmax分類anchors預(yù)測(cè)前景(目標(biāo))和背景;下面的網(wǎng)絡(luò)分支用于計(jì)算對(duì)于anchors的邊界框回歸的偏移量,以獲得精確的目標(biāo)候選區(qū)。跟隨的Proposal層綜合前景錨點(diǎn)和邊界框回歸偏移量獲取目標(biāo)的候選區(qū),同時(shí)剔除太小和超出邊界的目標(biāo)區(qū)域。所以,RPN實(shí)際就是實(shí)現(xiàn)了目標(biāo)定位功能。目標(biāo)檢測(cè)原理及模型-FasterR-CNN9種基礎(chǔ)anchor生成:原文中生成的基礎(chǔ)anchor有3種大?。?28*128,256*256,512*512。同時(shí)每種大小的anchor有3種寬高比:2:1、1:1、1:2。所以anchor的尺寸一共有9種。FasterR-CNN中生成anchor的特征圖是C4,假設(shè)C4的尺寸是W*H像素。假設(shè)一共生成k種尺寸的anchor(k=9),那么遍歷下來C4總共生成的anchor數(shù)量為W*H*k個(gè)目標(biāo)檢測(cè)原理及模型-FasterR-CNN目標(biāo)檢測(cè)原理及模型-FasterR-CNN生成anchor:
對(duì)于特征圖上的每一個(gè)像素點(diǎn),生成一組不同尺寸和長(zhǎng)寬比的anchor;然后將每個(gè)像素點(diǎn)對(duì)應(yīng)的這組anchor映射到原(特征)圖的位置上,所有像素點(diǎn)映射回原圖的anchor即是候選區(qū)域框的備選集合。目標(biāo)檢測(cè)原理及模型-FasterR-CNNAnchor機(jī)制總結(jié):只用CNN提取一次特征,把候選區(qū)域映射到特征圖上即可找到候選區(qū)域特征目標(biāo)識(shí)別任務(wù)應(yīng)具有平移不變性和尺度不變性,傳統(tǒng)的做法是采用imagepyramid或filterpyramid,Anchor機(jī)制滿足這樣的要求且更加的cost-efficient相比較R-CNN和FastR-CNN中selectivesearch(或EdgeBoxes)的方法,避免了大量的額外運(yùn)算,且整個(gè)過程融合到一個(gè)網(wǎng)絡(luò)中,方便訓(xùn)練和測(cè)試目標(biāo)檢測(cè)原理及模型-FasterR-CNN前景/后景錨點(diǎn)預(yù)測(cè)置信度W*H*k個(gè)anchor在進(jìn)入reshape與softmax之前,先做了1x1卷積,可以看到其通道數(shù)num_output=18,也就是經(jīng)過該卷積的輸出圖像為WxHx18大小。這也就剛好對(duì)應(yīng)了featuremaps每一個(gè)點(diǎn)都有9個(gè)anchors,同時(shí)每個(gè)anchors又有可能是foreground和background,所有這些信息都保存W*H*(9*2)大小的矩陣。目標(biāo)檢測(cè)原理及模型-FasterR-CNN非極大值抑制NMS(Non-MaximumSuppression)交并比IOU(RegionofInterest)目標(biāo)檢測(cè)原理及模型-FasterR-CNN邊界框回歸(boudingboxregression)目標(biāo)檢測(cè)原理及模型-FasterR-CNN預(yù)測(cè)回歸系數(shù)(4*k)目標(biāo)檢測(cè)原理及模型-FasterR-CNNProposalLayer
負(fù)責(zé)綜合所有回歸變換量和foregroundanchors,計(jì)算出精準(zhǔn)的proposal,送入后續(xù)RoIPoolingLayer。ProposalLayer有3個(gè)輸入:fg/bganchors分類器結(jié)果rpn_cls_prob_reshape,對(duì)應(yīng)的bboxreg的變換量rpn_bbox_pred,以及im_info;另外還有參數(shù)feat_stride=16。FasterR-CNN目標(biāo)區(qū)(ROI)池化RoIPooling層負(fù)責(zé)收集proposal,并計(jì)算出proposalfeaturemaps,送入后續(xù)網(wǎng)絡(luò)。Rolpooling層有2個(gè)輸入:原始的featuremapsRPN輸出的proposalboxes(大小各不相同)即將不同尺寸的ROI特征圖最大池化到同一尺寸目標(biāo)檢測(cè)原理及模型-FasterR-CNN目標(biāo)分類(Classification)
分類部分利用已經(jīng)獲得的proposalfeaturemaps,通過fullconnection層與softmax計(jì)算每個(gè)proposal具體屬于那個(gè)類別,輸出cls_prob概率向量;同時(shí)再次利用boundingboxregression獲得每個(gè)proposal的位置偏移量bbox_pred,用于回歸更加精確的目標(biāo)檢測(cè)框。目標(biāo)檢測(cè)原理及模型-onestage目標(biāo)檢測(cè)原理及模型-YOLO
YOLO(YouOnlyLookOnce)1.Resize成448*448,圖片分割得到7*7網(wǎng)格(cell)2.CNN提取特征和預(yù)測(cè):卷積部分負(fù)責(zé)提特征,全鏈接部分負(fù)責(zé)預(yù)測(cè):a)7*7*2=98個(gè)boundingbox(bbox)的坐標(biāo)x_{center},y_{center},w,h和是否有物體的con?dence。b)7*7=49個(gè)cell所屬20個(gè)物體的概率。3.過濾bbox(通過NMS)一幅圖片分成7x7個(gè)網(wǎng)格(gridcell),某個(gè)物體的中心落在這個(gè)網(wǎng)格中此網(wǎng)格就負(fù)責(zé)預(yù)測(cè)這個(gè)物體。最后一層輸出為(7*7)*30的維度。每個(gè)1*1*30的維度對(duì)應(yīng)原圖7*7個(gè)cell中的一個(gè),1*1*30中含有類別預(yù)測(cè)和bbox坐標(biāo)預(yù)測(cè)。每個(gè)網(wǎng)格(1*1*30維度對(duì)應(yīng)原圖中的cell)要預(yù)測(cè)2個(gè)boundingbox的坐標(biāo)(x_{center},y_{center},w,h),其中:中心坐標(biāo)的x_{center},y_{center}相對(duì)于對(duì)應(yīng)的網(wǎng)格歸一化到0-1之間,w,h用圖像的width和height歸一化到0-1之間。每個(gè)boundingbox除了要回歸自身的位置之外,還要附帶預(yù)測(cè)一個(gè)confidence值。這個(gè)confidence代表了所預(yù)測(cè)的box中含有object的置信度。每個(gè)網(wǎng)格還要預(yù)測(cè)類別信息,論文中有20類。7x7的網(wǎng)格,每個(gè)網(wǎng)格要預(yù)測(cè)2個(gè)boundingbox和20個(gè)類別概率,輸出就是7x7x(5x2+20)。(通用公式:SxS個(gè)網(wǎng)格,每個(gè)網(wǎng)格要預(yù)測(cè)B個(gè)boundingbox還要預(yù)測(cè)C個(gè)categories,輸出就是SxSx(5*B+C)的一個(gè)tensor。結(jié)構(gòu)特點(diǎn)缺陷:YOLO對(duì)相互靠的很近的物體(挨在一起且中點(diǎn)都落在同一個(gè)格子上的情況),還有很小的群體檢測(cè)效果不好,這是因?yàn)橐粋€(gè)網(wǎng)格中只預(yù)測(cè)了兩個(gè)框,并且只屬于一類。測(cè)試圖像中,當(dāng)同一類物體出現(xiàn)的不常見的長(zhǎng)寬比和其他情況時(shí)泛化能力偏弱。由于損失函數(shù)的問題,定位誤差是影響檢測(cè)效果的主要原因,尤其是大小物體的處理上,還有待加強(qiáng)。目標(biāo)檢測(cè)原理及模型-SSDSSD目標(biāo)檢測(cè)方法,在速度上比之前最快的YOLO還要快,在檢測(cè)精度上可以和FasterRCNN相媲美SSD的核心是在特征圖上采用卷積核來預(yù)測(cè)一系列defaultboundingboxes的類別分?jǐn)?shù)、偏移量為了提高檢測(cè)準(zhǔn)確率,在不同尺度的特征圖上進(jìn)行預(yù)測(cè),此外,還得到具有不同aspectratio的結(jié)果這些改進(jìn)設(shè)計(jì),實(shí)現(xiàn)了end-to-end訓(xùn)練,并且,即使圖像的分辨率比較低,也能保證檢測(cè)的精度在不同的數(shù)據(jù)集,如:PASCALVOC、MSCOCO、ILSVRC,進(jìn)行了測(cè)試,并且與其他的方法進(jìn)行了對(duì)比結(jié)構(gòu)特點(diǎn)剛開始的層使用圖像分類模型中的層,稱為basenetwork,在此基礎(chǔ)上,添加一些輔助結(jié)構(gòu):Mult-scalefeaturemapfordetection在basenetwork后,添加一些卷積層,這些層的大小逐漸減小,可以進(jìn)行多尺度預(yù)測(cè)Convolutionalpredictorsfordetection每一個(gè)新添加的層,可以使用一系列的卷積核進(jìn)行預(yù)測(cè)。對(duì)于一個(gè)大小為m*n、p通道的特征層,使用3*3的卷積核進(jìn)行預(yù)測(cè),在某個(gè)位置上預(yù)測(cè)出一個(gè)值,該值可以是某一類別的得分,也可以是相對(duì)于defaultboundingboxes的偏移量,并且在圖像的每個(gè)位置都將產(chǎn)生一個(gè)值,如圖2所示。Defaultboxesandaspectratio在特征圖的每個(gè)位置預(yù)測(cè)K個(gè)box。對(duì)于每個(gè)box,預(yù)測(cè)C個(gè)類別得分,以及相對(duì)于defaultboundingbox的4個(gè)偏移值,這樣需要(C+4)*k個(gè)預(yù)測(cè)器,在m*n的特征圖上將產(chǎn)生(C+4)*k*m*n個(gè)預(yù)測(cè)值。這里,defaultboundingbox類似于FasterRCNN中anchors目標(biāo)檢測(cè)原理及模型-SSDSSD端到端網(wǎng)絡(luò)結(jié)構(gòu)與FasterR-CNN對(duì)比優(yōu)化1.HardNegativeMining:用于預(yù)測(cè)的featuremap上的每個(gè)點(diǎn)都對(duì)應(yīng)有6個(gè)不同的defaultbox,絕大部分的defaultbox都是負(fù)樣本,導(dǎo)致了正負(fù)樣本不平衡。在訓(xùn)練過程中,采用了HardNegativeMining的策略(根據(jù)confidenceloss對(duì)所有的box進(jìn)行排序,使正負(fù)例的比例保持在1:3)來平衡正負(fù)樣本的比率。這樣做能提高4%左右。2.Dataaugmentation為了模型更加魯棒,需要使用不同尺寸的輸入和形狀,作者對(duì)數(shù)據(jù)進(jìn)行了如下方式的隨機(jī)采樣:使用整張圖片使用IOU和目標(biāo)物體為0.1,0.3,0.5,0.7,0.9的patch(這些patch在原圖的大小的[0.1,1]之間,相應(yīng)的寬高比在[1/2,2]之間)隨機(jī)采取一個(gè)patch當(dāng)groundtruthbox的中心(center)在采樣的patc
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年其他未列明建筑服務(wù)項(xiàng)目立項(xiàng)申請(qǐng)報(bào)告模板
- 河南省環(huán)際大聯(lián)考“逐夢(mèng)計(jì)劃”2024-2025學(xué)年高一下學(xué)期期中考試數(shù)學(xué)試題含答案
- 權(quán)威體制下的思想突破:課件創(chuàng)作方法
- 房頂租憑合同協(xié)議書
- 扶梯受傷賠償協(xié)議書
- 樓房外墻修復(fù)協(xié)議書
- 教育培訓(xùn)項(xiàng)目協(xié)議書
- 村民征收安置協(xié)議書
- 林業(yè)案件鑒定協(xié)議書
- 核心員工培訓(xùn)協(xié)議書
- DB64-266-2018:建筑工程資料管理規(guī)程-151-200
- 《獸醫(yī)產(chǎn)科學(xué)》考試復(fù)習(xí)題庫(kù)(含答案)
- 《反對(duì)邪教主題班會(huì)》課件
- 中國(guó)的國(guó)際話語(yǔ)權(quán)
- 第04章 CIE標(biāo)準(zhǔn)色度系統(tǒng)
- JGJ120-2012建筑基坑支護(hù)技術(shù)規(guī)程-20220807013156
- 共同辦展會(huì)合作協(xié)議書范文范本
- 2024年秋新冀教版英語(yǔ)三年級(jí)上冊(cè) unit 3 lesson 3 教學(xué)課件
- 工業(yè)園區(qū)保潔合同
- 2024年網(wǎng)絡(luò)安全知識(shí)競(jìng)賽考試題庫(kù)500題(含答案)
- 電子商務(wù)專業(yè)建設(shè)與發(fā)展規(guī)劃
評(píng)論
0/150
提交評(píng)論