基于深度學(xué)習(xí)目標(biāo)檢測進(jìn)展

上傳人：w*** IP屬地：湖北上傳時(shí)間：2025-01-05 格式：PPT 頁數(shù)：26 大小：18.45MB 積分：30 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩21頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

深度學(xué)習(xí)(xuéxí)綜述報(bào)時(shí)間(shíjiān):2016.11.共二十六頁深度(shēndù)學(xué)習(xí)是什么？深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。[1]深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中對(duì)模式（聲音、圖像等等）進(jìn)行建模的一種方法，它也是一種基于統(tǒng)計(jì)的概率模型。在對(duì)各種模式進(jìn)行建模之后，便可以對(duì)各種模式進(jìn)行識(shí)別(shíbié)了，例如待建模的模式是聲音的話，那么這種識(shí)別(shíbié)便可以理解為語音識(shí)別(shíbié)(RNNHinton[3]2013)。共二十六頁概念(gàiniàn)入門深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的發(fā)展神經(jīng)網(wǎng)絡(luò)（上世紀(jì)(shìjì)五六十年代）深度神經(jīng)網(wǎng)絡(luò)（Hinton[2]2006）卷積神經(jīng)網(wǎng)絡(luò)（AlexNet[1]2021）基于深度學(xué)習(xí)的目標(biāo)檢測進(jìn)展共二十六頁一、神經(jīng)網(wǎng)絡(luò)的發(fā)展(fāzhǎn)感知機(jī)的出現(xiàn)神經(jīng)網(wǎng)絡(luò)技術(shù)起源于上世紀(jì)五、六十年代，當(dāng)時(shí)叫感知機(jī)（perceptron），擁有輸入(shūrù)層、輸出層和一個(gè)隱含層。輸入(shūrù)的特征向量通過隱含層變換達(dá)到輸出層，在輸出層得到分類結(jié)果。早期感知機(jī)對(duì)于計(jì)算稍微復(fù)雜的函數(shù)其計(jì)算力顯得無能為力。多層感知機(jī)多層感知機(jī)可以擺脫早期離散傳輸函數(shù)的束縛，使用sigmoid或tanh等連續(xù)函數(shù)模擬神經(jīng)元對(duì)激勵(lì)的響應(yīng)，在訓(xùn)練算法上則使用反向傳播BP算法。對(duì)，這就是我們現(xiàn)在所說的神經(jīng)網(wǎng)絡(luò)(NN)！共二十六頁激活(jīhuó)函數(shù)共二十六頁構(gòu)成：由“神經(jīng)元”構(gòu)成輸入(shūrù)、偏置節(jié)點(diǎn)、激活函數(shù)、輸出這個(gè)“神經(jīng)元”是一個(gè)(yīɡè)以及截距為輸入值的運(yùn)算單元，其輸出為，其中函數(shù)為激活函數(shù)前向參數(shù)計(jì)算：共二十六頁反向傳播損失函數(shù)：我們的目標(biāo)是針對(duì)參數(shù)W和b

，來求函數(shù)J(W,b)最小值梯度下降(xiàjiàng)法中每一次迭代都按照如下公式對(duì)參數(shù)是學(xué)習(xí)率共二十六頁二、卷積神經(jīng)網(wǎng)絡(luò)1、卷積神經(jīng)網(wǎng)絡(luò)共二十六頁二、卷積神經(jīng)網(wǎng)絡(luò)卷積操作(cāozuò)AlexNet[1]共二十六頁二、卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)(chuántǒng)視覺算法區(qū)別：共二十六頁二、卷積神經(jīng)網(wǎng)絡(luò)共二十六頁二、卷積神經(jīng)網(wǎng)絡(luò)主要應(yīng)用：圖像(túxiànɡ)分類共二十六頁三、基于(jīyú)深度學(xué)習(xí)的目標(biāo)檢測目標(biāo)(mùbiāo)檢測？其實(shí)剛剛的這個(gè)過程就是目標(biāo)檢測，目標(biāo)檢測就是“給定一張圖像或者視頻幀，找出其中所有目標(biāo)的位置，并給出每個(gè)目標(biāo)的具體類別”。共二十六頁傳統(tǒng)(chuántǒng)的objectproposal方法Whatmakesforeffectivedetectionproposals？[4]共二十六頁三、基于深度學(xué)習(xí)(xuéxí)的目標(biāo)檢測檢測(jiǎncè) SelectiveSearch

DL:faster-rcnn適應(yīng)不同尺度多樣化RPN+CNN共二十六頁傳統(tǒng)目標(biāo)檢測(jiǎncè)方法區(qū)域選擇

采用滑動(dòng)窗口的策略對(duì)整幅圖像進(jìn)行遍歷，而且需要設(shè)置不同的尺度，不同的長寬比。特征提取這個(gè)階段常用的特征有SIFT、HOG等分類器 SVM、

Adaboost傳統(tǒng)目標(biāo)檢測存在的兩個(gè)主要問題：一個(gè)是基于滑動(dòng)窗口的區(qū)域選擇策略沒有(méiyǒu)

針對(duì)性，時(shí)間復(fù)雜度高，窗口冗余；二是手工設(shè)計(jì)的特征對(duì)于多樣性的變化并沒有很好的魯棒性。共二十六頁三、基于(jīyú)深度學(xué)習(xí)的目標(biāo)檢測Faster-rcnn(TowardsReal-TimeObjectDetectionwithRegionProposalNetworks)[5])網(wǎng)絡(luò)結(jié)構(gòu)：在regionproposal+CNN分類的這種目標(biāo)檢測框架中，regionproposal質(zhì)量好壞直接(zhíjiē)影響到目標(biāo)檢測任務(wù)的精度。共二十六頁Faster-rcnnRegionProposalNetworks(RPN)3*3滑窗對(duì)應(yīng)的每個(gè)特征區(qū)域同時(shí)預(yù)測輸入圖像3種尺度（128,256,512），3種長寬比（1:1,1:2,2:1）的regionproposal，這種映射(yìngshè)的機(jī)制稱為anchor。所以對(duì)于這個(gè)40*60的featuremap，總共有約20000(40*60*9)個(gè)anchor，也就是預(yù)測20000個(gè)regionproposal.共二十六頁Faster-rcnnRPN的核心思想是使用卷積神經(jīng)網(wǎng)絡(luò)直接產(chǎn)生regionproposal，使用的方法本質(zhì)上就是滑動(dòng)窗口。RPN的設(shè)計(jì)比較巧妙，RPN只需在最后的卷積層上滑動(dòng)一遍，因?yàn)閍nchor機(jī)制和邊框回歸(huíguī)可以得到多尺度多長寬比的regionproposal。Modify機(jī)制NMS（Non-maximumsuppression）非極大值抑制消除多余的boundingbox,找到最佳的物體檢測位置NMS共二十六頁Intersection-over-union（IOU）共二十六頁Faster-rcnn1、網(wǎng)絡(luò)結(jié)構(gòu)一覽（caffemodel）2、FasterR-CNN將一直以來分離的regionproposal和CNN分類融合(rónghé)到了一起，使用端到端的網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測，無論在速度上還是精度上都得到質(zhì)的提高提高。共二十六頁四、基于(jīyú)深度學(xué)習(xí)的目標(biāo)檢測應(yīng)用實(shí)例共二十六頁個(gè)人(gèrén)經(jīng)驗(yàn)研究生生活(shēnghuó)正確的打開方式研一：研究什么研二：研究出點(diǎn)什么研三：科研與工作共二十六頁參考文獻(xiàn)[1]KrizhevskyA,SutskeverI,HintonGE.ImageNetClassificationwithDeepConvolutionalNeuralNetworks[J].AdvancesinNeuralInformationProcessingSystems,2012,25(2):2012.[2]HintonGE,SalakhutdinovRR.ReducingtheDimensionalityofDatawithNeuralNetworks[J].Science,2006,313(5786):504-7.[3]GravesA,MohamedAR,HintonG.Speechrecognitionwithdeeprecurrentneuralnetworks[J].2013,1(2003):6645-6649.[4]HosangJ,BenensonR,DollarP,etal.Whatmakesforeffectivedetectionproposals?[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2015,38(4):814-830.[5]RenS,HeK,GirshickR,etal.FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2016:1-1.共二十六頁Thanks共二十六頁內(nèi)容(nèiróng)總結(jié)深度學(xué)習(xí)(xuéxí)綜述。深度學(xué)習(xí)(xuéxí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于深度學(xué)習(xí)目標(biāo)檢測進(jìn)展

文檔簡介

溫馨提示

最新文檔

評(píng)論

基于深度學(xué)習(xí)目標(biāo)檢測進(jìn)展

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔