基于深度學(xué)習(xí)目標(biāo)檢測進(jìn)展_第1頁
基于深度學(xué)習(xí)目標(biāo)檢測進(jìn)展_第2頁
基于深度學(xué)習(xí)目標(biāo)檢測進(jìn)展_第3頁
基于深度學(xué)習(xí)目標(biāo)檢測進(jìn)展_第4頁
基于深度學(xué)習(xí)目標(biāo)檢測進(jìn)展_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

深度學(xué)習(xí)(xuéxí)綜述報(bào)時(shí)間(shíjiān):2016.11.共二十六頁深度(shēndù)學(xué)習(xí)是什么?深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。[1]深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中對(duì)模式(聲音、圖像等等)進(jìn)行建模的一種方法,它也是一種基于統(tǒng)計(jì)的概率模型。在對(duì)各種模式進(jìn)行建模之后,便可以對(duì)各種模式進(jìn)行識(shí)別(shíbié)了,例如待建模的模式是聲音的話,那么這種識(shí)別(shíbié)便可以理解為語音識(shí)別(shíbié)(RNNHinton[3]2013)。共二十六頁概念(gàiniàn)入門深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的發(fā)展神經(jīng)網(wǎng)絡(luò)(上世紀(jì)(shìjì)五六十年代)深度神經(jīng)網(wǎng)絡(luò)(Hinton[2]2006)卷積神經(jīng)網(wǎng)絡(luò)(AlexNet[1]2021)基于深度學(xué)習(xí)的目標(biāo)檢測進(jìn)展共二十六頁一、神經(jīng)網(wǎng)絡(luò)的發(fā)展(fāzhǎn)感知機(jī)的出現(xiàn)神經(jīng)網(wǎng)絡(luò)技術(shù)起源于上世紀(jì)五、六十年代,當(dāng)時(shí)叫感知機(jī)(perceptron),擁有輸入(shūrù)層、輸出層和一個(gè)隱含層。輸入(shūrù)的特征向量通過隱含層變換達(dá)到輸出層,在輸出層得到分類結(jié)果。早期感知機(jī)對(duì)于計(jì)算稍微復(fù)雜的函數(shù)其計(jì)算力顯得無能為力。多層感知機(jī)多層感知機(jī)可以擺脫早期離散傳輸函數(shù)的束縛,使用sigmoid或tanh等連續(xù)函數(shù)模擬神經(jīng)元對(duì)激勵(lì)的響應(yīng),在訓(xùn)練算法上則使用反向傳播BP算法。對(duì),這就是我們現(xiàn)在所說的神經(jīng)網(wǎng)絡(luò)(NN)!共二十六頁激活(jīhuó)函數(shù)共二十六頁構(gòu)成:由“神經(jīng)元”構(gòu)成輸入(shūrù)、偏置節(jié)點(diǎn)、激活函數(shù)、輸出這個(gè)“神經(jīng)元”是一個(gè)(yīɡè)以及截距為輸入值的運(yùn)算單元,其輸出為,其中函數(shù)為激活函數(shù)前向參數(shù)計(jì)算:共二十六頁反向傳播損失函數(shù):我們的目標(biāo)是針對(duì)參數(shù)W和b

,來求函數(shù)J(W,b)最小值梯度下降(xiàjiàng)法中每一次迭代都按照如下公式對(duì)參數(shù)是學(xué)習(xí)率共二十六頁二、卷積神經(jīng)網(wǎng)絡(luò)1、卷積神經(jīng)網(wǎng)絡(luò)共二十六頁二、卷積神經(jīng)網(wǎng)絡(luò)卷積操作(cāozuò)AlexNet[1]共二十六頁二、卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)(chuántǒng)視覺算法區(qū)別:共二十六頁二、卷積神經(jīng)網(wǎng)絡(luò)共二十六頁二、卷積神經(jīng)網(wǎng)絡(luò)主要應(yīng)用:圖像(túxiànɡ)分類共二十六頁三、基于(jīyú)深度學(xué)習(xí)的目標(biāo)檢測目標(biāo)(mùbiāo)檢測?其實(shí)剛剛的這個(gè)過程就是目標(biāo)檢測,目標(biāo)檢測就是“給定一張圖像或者視頻幀,找出其中所有目標(biāo)的位置,并給出每個(gè)目標(biāo)的具體類別”。共二十六頁傳統(tǒng)(chuántǒng)的objectproposal方法Whatmakesforeffectivedetectionproposals?[4]共二十六頁三、基于深度學(xué)習(xí)(xuéxí)的目標(biāo)檢測檢測(jiǎncè) SelectiveSearch

DL:faster-rcnn適應(yīng)不同尺度多樣化RPN+CNN共二十六頁傳統(tǒng)目標(biāo)檢測(jiǎncè)方法區(qū)域選擇

采用滑動(dòng)窗口的策略對(duì)整幅圖像進(jìn)行遍歷,而且需要設(shè)置不同的尺度,不同的長寬比。特征提取這個(gè)階段常用的特征有SIFT、HOG等分類器 SVM、

Adaboost傳統(tǒng)目標(biāo)檢測存在的兩個(gè)主要問題:一個(gè)是基于滑動(dòng)窗口的區(qū)域選擇策略沒有(méiyǒu)

針對(duì)性,時(shí)間復(fù)雜度高,窗口冗余;二是手工設(shè)計(jì)的特征對(duì)于多樣性的變化并沒有很好的魯棒性。共二十六頁三、基于(jīyú)深度學(xué)習(xí)的目標(biāo)檢測Faster-rcnn(TowardsReal-TimeObjectDetectionwithRegionProposalNetworks)[5])網(wǎng)絡(luò)結(jié)構(gòu):在regionproposal+CNN分類的這種目標(biāo)檢測框架中,regionproposal質(zhì)量好壞直接(zhíjiē)影響到目標(biāo)檢測任務(wù)的精度。共二十六頁Faster-rcnnRegionProposalNetworks(RPN)3*3滑窗對(duì)應(yīng)的每個(gè)特征區(qū)域同時(shí)預(yù)測輸入圖像3種尺度(128,256,512),3種長寬比(1:1,1:2,2:1)的regionproposal,這種映射(yìngshè)的機(jī)制稱為anchor。所以對(duì)于這個(gè)40*60的featuremap,總共有約20000(40*60*9)個(gè)anchor,也就是預(yù)測20000個(gè)regionproposal.共二十六頁Faster-rcnnRPN的核心思想是使用卷積神經(jīng)網(wǎng)絡(luò)直接產(chǎn)生regionproposal,使用的方法本質(zhì)上就是滑動(dòng)窗口。RPN的設(shè)計(jì)比較巧妙,RPN只需在最后的卷積層上滑動(dòng)一遍,因?yàn)閍nchor機(jī)制和邊框回歸(huíguī)可以得到多尺度多長寬比的regionproposal。Modify機(jī)制NMS(Non-maximumsuppression)非極大值抑制消除多余的boundingbox,找到最佳的物體檢測位置NMS共二十六頁Intersection-over-union(IOU)共二十六頁Faster-rcnn1、網(wǎng)絡(luò)結(jié)構(gòu)一覽(caffemodel)2、FasterR-CNN將一直以來分離的regionproposal和CNN分類融合(rónghé)到了一起,使用端到端的網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測,無論在速度上還是精度上都得到質(zhì)的提高提高。共二十六頁四、基于(jīyú)深度學(xué)習(xí)的目標(biāo)檢測應(yīng)用實(shí)例共二十六頁個(gè)人(gèrén)經(jīng)驗(yàn)研究生生活(shēnghuó)正確的打開方式研一:研究什么研二:研究出點(diǎn)什么研三:科研與工作共二十六頁參考文獻(xiàn)[1]KrizhevskyA,SutskeverI,HintonGE.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[J].AdvancesinNeuralInformationProcessingSystems,2012,25(2):2012.[2]HintonGE,SalakhutdinovRR.ReducingtheDimensionalityofDatawithNeuralNetworks[J].Science,2006,313(5786):504-7.[3]GravesA,MohamedAR,HintonG.Speechrecognitionwithdeeprecurrentneuralnetworks[J].2013,1(2003):6645-6649.[4]HosangJ,BenensonR,DollarP,etal.Whatmakesforeffectivedetectionproposals?[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2015,38(4):814-830.[5]RenS,HeK,GirshickR,etal.FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2016:1-1.共二十六頁Thanks共二十六頁內(nèi)容(nèiróng)總結(jié)深度學(xué)習(xí)(xuéxí)綜述。深度學(xué)習(xí)(xuéxí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論