行人檢測(cè)綜述報(bào)告_第1頁(yè)
行人檢測(cè)綜述報(bào)告_第2頁(yè)
行人檢測(cè)綜述報(bào)告_第3頁(yè)
行人檢測(cè)綜述報(bào)告_第4頁(yè)
行人檢測(cè)綜述報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

國(guó)防科技大學(xué)課程設(shè)計(jì) 機(jī)器視覺(jué)基于深度神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)綜述摘要:行人檢測(cè)是汽車(chē)自動(dòng)駕駛的基礎(chǔ)技術(shù)之一?;谏疃壬窠?jīng)網(wǎng)絡(luò)模型的行人檢測(cè)方法取得的效果已經(jīng)遠(yuǎn)超于使用傳統(tǒng)特征經(jīng)行識(shí)別得到的效果。仿生物視覺(jué)系統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的重要組成、在圖像、語(yǔ)音等領(lǐng)域得到了成功應(yīng)用。其局部感受野、權(quán)值共享和降采樣三個(gè)特點(diǎn)使之成為智能機(jī)器視覺(jué)領(lǐng)域的研究熱點(diǎn)。通過(guò)增加網(wǎng)絡(luò)層數(shù)所構(gòu)造的深層神經(jīng)網(wǎng)絡(luò)使機(jī)器能夠獲得抽象概念能力,在諸多領(lǐng)域都取得了巨大的成功,又掀起了神經(jīng)網(wǎng)絡(luò)研究的一個(gè)新高潮。本文回顧了神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程,綜述了其當(dāng)前研究進(jìn)展以及存在的問(wèn)題,展望了未來(lái)神經(jīng)網(wǎng)絡(luò)的發(fā)展方向。關(guān)鍵詞:行人檢測(cè);卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí)Survey of Pedestrian detection based on Deep Neural NetworkYin Guangchuan,Zhangshuai,Qi ShuaihuiAbstract:Pedestrian detection is one of the basic technologies of unmanned vehicles. The pedestrian detection method based on the deep neural network model has achieved much more effect than the traditional one. Convolutional neural network which imitates the biological vision system has made great success on image and audio, which is the important component of deep learning. Local receptive field, sharing weights and down sampling are three important characteristics of CNN which lead it to be the hotspot in the field of intelligent machine visionWith the increasing number of layers, deep neural network entitles machines the capability to capture “abstract concepts” and it has achieved great success in various fields, leading a new and advanced trend in neural network research. This paper recalls the development of neural network, summarizes the latest progress and existing problems considering neural network and points out its possible future directions. Keywords: pedestrian detection; convolutional neural network; deep learning1 引言行人兼具剛性和柔性物體的特性,外觀易受穿著、尺度、遮擋、姿態(tài)和視角等影響,使得行人檢測(cè)成為計(jì)算機(jī)視覺(jué)的研究難點(diǎn)與熱點(diǎn)。行人檢測(cè)技術(shù)由于應(yīng)用的廣泛性使其在計(jì)算機(jī)視覺(jué)領(lǐng)域成為一個(gè)重要分支,對(duì)視頻監(jiān)控、車(chē)輛輔助駕駛、智能機(jī)器人等多個(gè)領(lǐng)域提供了重要的技術(shù)支持。近幾年來(lái),深度學(xué)習(xí)在大規(guī)模圖像分類(lèi)方面取得的了重大突破,表明深度學(xué)習(xí)可以從多媒體內(nèi)容中提取具有很強(qiáng)表達(dá)能力的特征。卷積神經(jīng)網(wǎng)絡(luò) ( Convolutional NeuralNetwork,CNN)1提供了一種端到端的學(xué)習(xí)模型,模型中的參數(shù)可以通過(guò)傳統(tǒng)的梯度下降方法進(jìn)行訓(xùn)練,經(jīng)過(guò)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)W習(xí)到圖像中的特征,并且完成對(duì)圖像特征的提取和分類(lèi)。作為神經(jīng)網(wǎng)絡(luò)領(lǐng)域的一個(gè)重要研究分支,卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)在于其每一層的特征都由上一層的局部區(qū)域通過(guò)共享權(quán)值的卷積核激勵(lì)得到。這一特點(diǎn)使得卷積神經(jīng)網(wǎng)絡(luò)相比于其他神經(jīng)網(wǎng)絡(luò)方法更適合應(yīng)用于圖像特征的學(xué)習(xí)與表達(dá)。CNN 把特征提取歸入模型學(xué)習(xí),把特征學(xué)習(xí)和分類(lèi)學(xué)習(xí)有機(jī)結(jié)合起來(lái), 更有效地實(shí)現(xiàn)對(duì)圖像的識(shí)別特別是近兩年,卷積神經(jīng)網(wǎng)絡(luò)受到了更為廣泛地關(guān)注CNN 可能是機(jī)器學(xué)習(xí)領(lǐng)域近十年最成功的研究方向,因此本文擬對(duì) CNN 的發(fā)展和其在行人檢測(cè)上的研究成果進(jìn)行了介紹,并對(duì)其預(yù)期研究方向進(jìn)行展望。2 卷積神經(jīng)網(wǎng)絡(luò)的研究歷史20 世紀(jì)60年代,Hubel等2的生物學(xué)研究表明,視覺(jué)信息從視網(wǎng)膜傳遞到大腦中是通過(guò)多個(gè)層次的感受野 ( Receptive Field ) 激發(fā)完成的;1980 年,F(xiàn)ukushima3第一次提出了一個(gè)基于感受野理論模型Neocognitron。Neocognitron 是一個(gè)自組織的多層神經(jīng)網(wǎng)絡(luò)模型,每一層的響應(yīng)都由上一層的局部感受野激發(fā)得到,對(duì)于模式的識(shí)別不受位置、較小形狀變化以及尺度大小的影響。Neocognitron 采用的無(wú)監(jiān)督學(xué)習(xí)也是卷積神經(jīng)網(wǎng)絡(luò)早期研究中占據(jù)主導(dǎo)地位的學(xué)習(xí)方式。1998 年,Lecun 等提出的 LeNet- 51采用了基于梯度的反向傳播算法對(duì)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的訓(xùn)練。經(jīng)過(guò)訓(xùn)練的網(wǎng)絡(luò)通過(guò)交替連接的卷積層和下采樣層將原始圖像轉(zhuǎn)換成一系列的特征圖,最后,通過(guò)全連接的神經(jīng)網(wǎng)絡(luò)針對(duì)圖像的特征表達(dá)進(jìn)行分類(lèi)。卷積層的卷積核完成了感受野的功能,可以將低層的局部區(qū)域信息通過(guò)卷積核激發(fā)到更高的層次。LeNet- 5在手寫(xiě)字符識(shí)別領(lǐng)域的成功應(yīng)用引起了學(xué)術(shù)界對(duì)于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)注。同一時(shí)期,卷積神經(jīng)網(wǎng)絡(luò)在語(yǔ)音識(shí)別4、物體檢測(cè)5、人臉識(shí)別6等方面的研究也逐漸開(kāi)展起來(lái)。2006年,機(jī)器學(xué)習(xí)領(lǐng)域的泰斗 Hinton7指出多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能夠?qū)W習(xí)到更深刻更本質(zhì)的特征,并通過(guò)“逐層初始化”的訓(xùn)練辦法克服了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練瓶頸問(wèn)題,引領(lǐng)了深度學(xué)習(xí)的發(fā)展方向。從此,深度學(xué)習(xí)受到了各國(guó)學(xué)者的廣泛關(guān)注,谷歌、微軟、IBM、百度等擁有大數(shù)據(jù)的高科技公司相繼投入大量資源進(jìn)行 深度學(xué)習(xí)理論研究。2011年以來(lái),微軟研究院和谷歌的語(yǔ)音識(shí)別人員采用深度神經(jīng)網(wǎng)絡(luò)( deep neural network, DNN) 技術(shù),使語(yǔ)音識(shí)別有了突破性進(jìn)展,識(shí)別誤差可降低20% 30%。2012 年, Krizhevsky 等8提出的AlexNet在大型圖像數(shù)據(jù)庫(kù)ImageNet9的圖像分類(lèi)競(jìng)賽中以準(zhǔn)確度超越第二名11%的巨大優(yōu)勢(shì)奪得了冠軍,使得卷積神經(jīng)網(wǎng)絡(luò)成為了學(xué)術(shù)界的焦點(diǎn)。2014 年的大型視覺(jué)辨識(shí)挑戰(zhàn)賽( ImageNet Large Scale Visual Recognition Challenge,ILSVRC) 中,幾乎所有的參賽隊(duì)伍都采用了卷積神經(jīng)網(wǎng)絡(luò)及其變形方法。2015 年國(guó)際機(jī)器學(xué)習(xí)大會(huì)上來(lái)自工業(yè)界和學(xué)術(shù)界的各位專(zhuān)家對(duì)深度學(xué)習(xí) 展開(kāi)激烈討論,指出深度學(xué)習(xí)在人類(lèi)擅長(zhǎng)的領(lǐng)域已經(jīng)取得了令人振奮的成功, 未來(lái)的探索方向是人類(lèi)并不擅長(zhǎng)的任務(wù)、 數(shù)據(jù)集。2015 年國(guó)際計(jì)算機(jī)視覺(jué)與模式識(shí)別會(huì)議上關(guān)于 DL 和 CNN 的研究成果較往年有大幅的提升。2015 年 9 月, 微軟亞洲研究院的“深 層 殘 差 網(wǎng) 絡(luò)”( deep residual networks ) 在ILSVRC 中獲得圖像分類(lèi)、 定位以及檢測(cè)全部項(xiàng)目的冠軍,如分類(lèi)方面將錯(cuò)誤率降低至 494%, 比人眼辨識(shí)( 錯(cuò)誤率 51%) 更精確10 。在大數(shù)據(jù)時(shí)代, 各領(lǐng)域爭(zhēng)先占領(lǐng) DL 的技術(shù)制高點(diǎn),希望找出更強(qiáng)大的模型來(lái)揭示海量數(shù)據(jù)所承載的豐富信息,對(duì)未知事件更精準(zhǔn)地預(yù)測(cè)。3 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與改進(jìn)3.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Lecun 等1提出的LeNet-5模型采用了交替連接的卷積層和下采樣層對(duì)輸入圖像進(jìn)行前向傳導(dǎo),并且最終通過(guò)全連接層輸出概率分布的結(jié)構(gòu)是當(dāng)前普遍采用的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的原型。卷積神經(jīng)網(wǎng)絡(luò)是一種多層的監(jiān)督學(xué)習(xí)網(wǎng)絡(luò),有輸入層、隱含層(包括卷積層和下采樣層)和輸出層,通過(guò)誤差反傳算法優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),求解未知參數(shù),其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。圖1 卷積神經(jīng)網(wǎng)絡(luò)框架在卷積層,特征圖(Feature Map)的每一個(gè)神經(jīng)元與前一層的局部感受野相連,經(jīng)過(guò)卷積操作提取局部特征。A卷積層中有多個(gè)Feature Map,每個(gè)Feature Map 提取一種特征,在提取特征時(shí),同一個(gè)Feature Map 的神經(jīng)元共享一組權(quán)值(即卷積核),不同的Feature Map 權(quán)值不同,從而提取不同的特征,在訓(xùn)練過(guò)程中不斷地調(diào)整權(quán)值參數(shù),使特征提取朝著有利于分類(lèi)的方向進(jìn)行,卷積操作示意圖如圖2 所示,一般卷積的公式如公式1所示 (1) 其中,l 代表層數(shù),k 代表卷積核,輸入層的感受野,b 代表偏置。圖2 卷積操作示意圖在下采樣層中,輸入的Feature Map 經(jīng)過(guò)池化(Pooling)后其個(gè)數(shù)不變,大小變?yōu)樵瓉?lái)的1/n(假設(shè)池化尺寸為n)。池化操作的主要作用是減小特征圖的分辨率,降低特征維數(shù),同時(shí)在一定程度上增加網(wǎng)絡(luò)對(duì)位移、縮放、扭曲的魯棒性。池化分為最大池化和平均池化。下采樣層的形式如公式2所示: (2)其中down() 為池化函數(shù),為權(quán)重系數(shù)。LeNet- 5雖然在手寫(xiě)字符識(shí)別領(lǐng)域取得了成功,但是其存在的缺點(diǎn)也比較明顯,包括難以尋找到合適的大型訓(xùn)練集對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練以適應(yīng)更為復(fù)雜的應(yīng)用需求; 過(guò)擬合問(wèn)題使得 LeNet- 5 的泛化能力較弱;網(wǎng)絡(luò)的訓(xùn)練開(kāi)銷(xiāo)非常大,硬件性能支持的不足使得網(wǎng)絡(luò)結(jié)構(gòu)的研究非常困難。以上三大制約卷積神經(jīng)網(wǎng)絡(luò)發(fā)展的重要因素在近期的研究中取得了突破性的進(jìn)展是卷積神經(jīng)網(wǎng)絡(luò)成為一個(gè)新的研究熱點(diǎn)的重要原因。并且,近期針對(duì)卷積神經(jīng)網(wǎng)絡(luò)的深度和結(jié)構(gòu)優(yōu)化方面的研究進(jìn)一步提升了網(wǎng)絡(luò)的數(shù)據(jù)擬合能力。3 .2 卷積神經(jīng)網(wǎng)絡(luò)模型的改進(jìn)3.2.1 CNN卷積層的改進(jìn)在增加模型深度可以有效增加網(wǎng)絡(luò)性能的理論基礎(chǔ)上,Krizhevsky 等11把 CNN的卷積層數(shù)加至5層,構(gòu)成了深度卷積神經(jīng)網(wǎng)絡(luò)( deep convolutionalneural network, DCNN);zegedy等組成GoogLeNet小組構(gòu)建了22層深度網(wǎng)絡(luò)12,該網(wǎng)絡(luò)比 2012 ILSVRC獲勝者的網(wǎng)絡(luò)參數(shù)少了12倍,卻能更精確的分類(lèi)和檢測(cè),在2014 年的ILSVRC一舉奪冠。如何構(gòu)建更深網(wǎng)絡(luò)一直是CNN的研究熱點(diǎn),2015 ILSVRC的152層“深層殘差網(wǎng)絡(luò)”13采用了一個(gè)全新的“殘差學(xué)習(xí)”原則指導(dǎo)學(xué)習(xí),并重新定向了深層 CNN中的信息流,高效地解決了深層神經(jīng)網(wǎng)絡(luò)準(zhǔn)確度與層數(shù)之間的矛盾。王冠皓14提出了多級(jí)金字塔卷積神經(jīng)網(wǎng)( multi-level pyramid CNN),CNN每層先使用稀疏自編碼器預(yù)訓(xùn)練,再使用金字塔卷積神經(jīng)網(wǎng)絡(luò)對(duì)整個(gè)網(wǎng)絡(luò)訓(xùn)練,將低層的濾波權(quán)值共享到高層,保證訓(xùn)練時(shí)的卷積濾波只在小尺寸圖像上進(jìn)行,大尺度圖像只進(jìn)行一次向前傳播,加快訓(xùn)練速度。此外,Zhang在ImageNet上訓(xùn)練具有7層的快速非線性卷積神經(jīng)網(wǎng)絡(luò)15,對(duì)每層加速以達(dá)到對(duì)整個(gè)網(wǎng)絡(luò)加速的目的,速度可達(dá)到與“AlexNet”16一致的同時(shí),分類(lèi)精度也提高了4. 7%。 3.2.2 CNN 降采樣層的改進(jìn)常規(guī) DCNN 只能對(duì)尺度固定的圖像進(jìn)行處理,對(duì)尺度不同的輸入圖像需人工裁剪或拉伸之后才輸入網(wǎng)絡(luò),會(huì)造成圖像失真而影響分類(lèi)的準(zhǔn)確率。DCNN的卷積層尾端引入空間金字塔降采樣層去除固定尺度的約束,降采樣獲得與全連接層相匹配的特征。多尺度訓(xùn)練得到的空間金字塔降采樣網(wǎng)絡(luò) ( spatial pyramid poolingnetwork SPP-net )17可處理任意尺度的圖像。Rippel等18提出了頻譜池化的方法,將CNN進(jìn)行傅里葉變換來(lái)把耗時(shí)的卷積操作替換為乘積操作可加速網(wǎng)絡(luò)訓(xùn)練,通過(guò)截取信號(hào)在頻域特征表示來(lái)降低維度,不僅可以保留更多的信息,還比其它的池化方法更靈活,提高了利用傅里葉變換計(jì)算卷積效率。Zeiler等19提出了反卷積神經(jīng)網(wǎng)絡(luò)( deconvolutional networks,DN),采用非監(jiān)督方法對(duì)自然圖像自頂向下進(jìn)行卷積分解,再組合濾波器組學(xué)習(xí)到的卷積特征,獲得一個(gè)特征豐富具有魯棒性的圖像表征。但大量卷積操作也DN比自底向上的編碼模型耗時(shí),因而Zeiler在DN每層之間采用3D最大池化層,引入一組潛在開(kāi)關(guān)變量,使得模型可以根據(jù)多種輸入模式自適應(yīng)調(diào)整,構(gòu)建了由卷積稀疏編碼層和最大降采樣層交替的自適應(yīng)反卷積神經(jīng)網(wǎng)絡(luò)( adaptive deconvolutionalnetworks,ADN)20,在中間層和高層特征學(xué)習(xí)都能取得不錯(cuò)的效果。3.2.3 CNN全連接層的改進(jìn)為了克服過(guò)擬合問(wèn)題, Krizhevsky在CNN兩個(gè)全連接層采用了“Dropout” 策略20,每次迭代以0.5概率使一些隨機(jī)分布的節(jié)點(diǎn)不工作但權(quán)值保留,之后又可能參與訓(xùn)練。略可以防止某些特征僅在其它特殊特征出現(xiàn)下才產(chǎn)生作用的情況,從而有效地避免了網(wǎng)絡(luò)中特征之間的相互依賴(lài)性。孫艷豐21提出了基于改進(jìn) Fisher 準(zhǔn)則的深CNN識(shí)別算法( fisher-based convolution neural network,F(xiàn)CNN),反向傳播采用 Fisher 的約束準(zhǔn)則,加入判別準(zhǔn)則的能量函數(shù),在迭代求解權(quán)值的搜索空間受到判別條件約束影響,從全局搜索縮小到更有利于分類(lèi)的局部空間,從而使權(quán)值更快地逼近便于分類(lèi)的最優(yōu)值。Girshick等22提出基于區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Regions with CNN features,RCNN),先找興趣區(qū)域再進(jìn)行檢測(cè)和分割。由于RCNN興趣區(qū)域中心點(diǎn)的運(yùn)算量大而耗時(shí),提出fast R-CNN( FRCN),把全連接層的矩陣進(jìn)行SVD分解,速度提高了30%對(duì)于給定的圖像和目標(biāo)框方案,F(xiàn)RCN 進(jìn)行目標(biāo)檢測(cè)耗時(shí)60330 ms,忽略了在區(qū)域方案提取所需的時(shí)間( 約 1.51 s) 。無(wú)論卷積層的改進(jìn),還是降采樣層及全連接層的改進(jìn),都是針對(duì)網(wǎng)絡(luò)的學(xué)習(xí)能力及學(xué)習(xí)效率兩方面的改進(jìn)。因?yàn)?CNN 的學(xué)習(xí)能力可以通過(guò)調(diào)節(jié)網(wǎng)絡(luò)的深度來(lái)增強(qiáng),增加模型深度可以有效增加網(wǎng)絡(luò)性能。為了使 CNN 更好地模擬大腦復(fù)雜的深層次神經(jīng)網(wǎng)絡(luò),增加網(wǎng)絡(luò)深度逐漸成為一種趨勢(shì)。另外,CNN 的卷積核相當(dāng)于特征提取器,可以有效地提取輸入信號(hào)的有用信息,但是耗時(shí)是卷積操作必須重視的問(wèn)題,針對(duì)這個(gè)問(wèn)題,提出了一系列的加速方法,在一定程度上降低了訓(xùn)練和測(cè)試的時(shí)間。但整體上,與傳統(tǒng)的非神經(jīng)網(wǎng)絡(luò)方法相比,CNN 的耗時(shí)還是比較大,需要進(jìn)一步改善。如何在提高網(wǎng)絡(luò)學(xué)習(xí)能力和減少耗時(shí)之間找到一個(gè)平衡點(diǎn),依舊是 CNN 面臨的問(wèn)題。4 卷積神經(jīng)網(wǎng)絡(luò)算法在行人檢測(cè)上的應(yīng)用4.1 行人檢測(cè)現(xiàn)狀行人檢測(cè)主要分為四部分:特征提取、形變處理、遮擋處理和分類(lèi)。特征提取的應(yīng)該是行人最有判別力的特征,比較有名的特征描述子有:Haar-like、SIFT、HOG等等;其次,可變形模型應(yīng)該可以處理人體的各個(gè)部分,例如軀干、頭、腿等等。最有名的DPM(可變形部件模型)使得各部件具有連接性約束。形變處理是人體姿態(tài)的多樣性,給行人的準(zhǔn)確識(shí)別帶來(lái)了一定的困難,為克服形變帶來(lái)的難題,在深度學(xué)習(xí)的框架中加入了形變處理層,采用混合形變模型,針對(duì)卷積產(chǎn)生的部位圖生成對(duì)應(yīng)的形變特征,把部位圖與形變特征結(jié)合形成混合特征圖,用最大化函數(shù)處理混合特征,生成對(duì)應(yīng)的部位檢測(cè)。遮擋處理是運(yùn)動(dòng)目標(biāo)檢測(cè)中的一個(gè)難點(diǎn)問(wèn)題,遮擋處理的結(jié)果將直接影響運(yùn)動(dòng)目標(biāo)檢測(cè)的準(zhǔn)確性,因此,遮擋處理是行人檢測(cè)過(guò)程中極其重要的一步,在遮擋處理的過(guò)程中可視度的估計(jì)是非常關(guān)鍵的,針對(duì)例如檢測(cè)Blocks或Parts的得分以及采用線索:圖像分割、深度圖等。分類(lèi)器決定候選窗選中的為一個(gè)行人,如:SVM、boosted classifiers、隨機(jī)森林等等。在這些方法中,分類(lèi)器是由訓(xùn)練數(shù)據(jù)來(lái)調(diào)整的,但是特征是手工設(shè)計(jì)的。如果有用的信息在特征提取階段遺漏了,那么在分類(lèi)階段不可能在恢復(fù)。實(shí)際上,應(yīng)該是分類(lèi)器應(yīng)該引導(dǎo)特征的學(xué)習(xí)。用深度學(xué)習(xí)的方法將行人檢測(cè)的幾個(gè)方面進(jìn)行系統(tǒng)的聯(lián)合訓(xùn)練,避免每個(gè)步驟單一練造成的局部最優(yōu)化問(wèn)題,使得整個(gè)檢測(cè)系統(tǒng)達(dá)到全局最優(yōu)。隨著深度學(xué)習(xí)的提出以及這幾年的大熱,越來(lái)越多的研究人員將其應(yīng)用到行人檢測(cè)領(lǐng)域,例如:Pierre Sermant23等人提出了用無(wú)監(jiān)督的多特征學(xué)習(xí)法,應(yīng)用稀疏卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)圖像的所有特征,提高了檢測(cè)的準(zhǔn)確度;Ping Luo等人提出了用可切換的深度網(wǎng)絡(luò)檢測(cè)行人,將RBM模型與卷積神經(jīng)網(wǎng)絡(luò)連接在一塊,可針對(duì)圖像中不同的行人部位選擇更合適的模型,能有效的處理人體部位形變的問(wèn)題; CNN是當(dāng)前語(yǔ)音分析和圖像檢測(cè)、識(shí)別領(lǐng)域的研究熱點(diǎn),它的整個(gè)結(jié)構(gòu)更加類(lèi)似于人的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),降低了網(wǎng)絡(luò)模型的復(fù)雜度,具有權(quán)值共享性24,避免了傳統(tǒng)識(shí)別算法中復(fù)雜的數(shù)據(jù)重建過(guò)程。Wanli Ouyang等人提出了聯(lián)合深度學(xué)習(xí)(UDN)的概念,將行人檢測(cè)的幾個(gè)重要的部分進(jìn)行了聯(lián)合學(xué)習(xí),在處理大量的視頻圖像方面取得了很好的效果。聯(lián)合深度學(xué)習(xí)將行人檢測(cè)中的圖像預(yù)處理、卷積采樣、形變處理、遮擋處理和分類(lèi)幾個(gè)部分進(jìn)行結(jié)合,深度網(wǎng)絡(luò)可以將各部分放到不同的網(wǎng)絡(luò)層并使用BP進(jìn)行優(yōu)化。這種聯(lián)合性質(zhì)的深度學(xué)習(xí)算法相比于最初的深度學(xué)習(xí)算法在準(zhǔn)確性上有了大幅的提升,能學(xué)習(xí)到更多更具判別力的特征,而且可以根據(jù)行人的部分身體而推斷被遮擋行人的大體位置。4.2 行人檢測(cè)DataSets到目前為止, 行人檢測(cè)研究除提出了大量的行人檢測(cè)方法外,另一個(gè)成果是收集了多個(gè)行人數(shù)據(jù)庫(kù)以供不同方法進(jìn)行測(cè)試和比較。(1)MIT 行人數(shù)據(jù)庫(kù)25該數(shù)據(jù)庫(kù)為較早公開(kāi)的行人數(shù)據(jù)庫(kù),共924張行人圖片(ppm格式,寬高為64x128),肩到腳的距離約80象素。該數(shù)據(jù)庫(kù)只含正面和背面兩個(gè)視角,無(wú)負(fù)樣本,未區(qū)分訓(xùn)練集和測(cè)試集。Dalal等采用“HOG+SVM”,在該數(shù)據(jù)庫(kù)上的檢測(cè)準(zhǔn)確率接近100%。該庫(kù)在 2005 年以前使用較多,因圖像背景簡(jiǎn)單,目前較少被人使用。(2)INRIA 行人數(shù)據(jù)庫(kù)26是目前使用較多的靜態(tài)行人數(shù)據(jù)庫(kù),提供原始圖片及相應(yīng)的標(biāo)注文件。訓(xùn)練集有正樣本614張(包含2416個(gè)行人),負(fù)樣本1218張;測(cè)試集有正樣本288張(包含1126個(gè)行人),負(fù)樣本453張。圖片中人體大部分為站立姿勢(shì)且高度大于100個(gè)象素,部分標(biāo)注可能不正確。圖片主要來(lái)源于GRAZ-01、個(gè)人照片及google,因此圖片的清晰度較高。該庫(kù)行人所處背景復(fù)雜,人的姿態(tài)也較多,而且含有光照等環(huán)境因素的變化,更加符合實(shí)際場(chǎng)景(3)Daimer 行人數(shù)據(jù)庫(kù)的圖像來(lái)源于車(chē)載攝像機(jī),分為檢測(cè)數(shù)據(jù)集( Classification Benchmark)27,28和分類(lèi)數(shù)據(jù)集( Detection Benchmark)29,圖片均是灰度圖像。每個(gè)數(shù)據(jù)集均由 訓(xùn) 練 集 和 測(cè) 試 集 組 成。測(cè) 試 集 是 一 段 大 約27 min的視頻,其中包含完整的以及被部分遮擋的行人。數(shù)據(jù)庫(kù)中還包含 3 個(gè)輔助的非行人圖像的數(shù)據(jù)集,即這 3個(gè)附加庫(kù)只包含負(fù)樣本。該庫(kù)中大量的正樣本由較少的正樣本經(jīng)過(guò)移位和鏡像生成,所以訓(xùn)練分類(lèi)器時(shí)重要特征會(huì)出現(xiàn)在相鄰的多個(gè)位置上,從而產(chǎn)生模糊效應(yīng),分類(lèi)效果不佳。(4)Caltech 行人數(shù)據(jù)庫(kù)30是目前規(guī)模較大的行人數(shù)據(jù)庫(kù),庫(kù)中的圖像來(lái)源于車(chē)載攝像機(jī),與現(xiàn)實(shí)生活中圖像的實(shí)際遮擋頻率一致,其中包含質(zhì)量不太好的圖像,約10個(gè)小時(shí)左右,視頻的分辨率為640 x480,30幀/秒。標(biāo)注了約250,000幀(約137分鐘),350000個(gè)矩形框,2300個(gè)行人,另外還對(duì)矩形框之間的時(shí)間對(duì)應(yīng)關(guān)系及其遮擋的情況進(jìn)行標(biāo)注。數(shù)據(jù)集分為set00set10,其中set00set05為訓(xùn)練集,set06set10為測(cè)試集(標(biāo)注信息尚未公開(kāi))。該數(shù)據(jù)庫(kù)為評(píng)估已有的行人檢測(cè)器的性能提供了一個(gè)較好的平臺(tái)。(5)TUD 行人數(shù)據(jù)庫(kù)31提供圖像對(duì)以便計(jì)算光流信息,該數(shù)據(jù)集的訓(xùn)練集提供了行人的矩形框信息、分割掩膜及其各部位(腳、小腿、大腿、軀干和頭部)的大小和位置信息。主要用于評(píng)估運(yùn)動(dòng)信息在行人檢測(cè)中的作用,常用于行人檢測(cè)及跟蹤研究中。(6)NICTA 行人數(shù)據(jù)庫(kù)32是目前規(guī)模較大的靜態(tài)圖像行人數(shù)據(jù)庫(kù),包含 25 551 張單人的圖像和 5 207 張高分辨率非行人圖像,但不包含運(yùn)動(dòng)信息,數(shù)據(jù)庫(kù)中已分好訓(xùn)練集和測(cè)試集,方便不同分類(lèi)器的比較。(7)ETH 行人數(shù)據(jù)庫(kù)33是基于雙目視覺(jué)的行人數(shù)據(jù)。該數(shù)據(jù)庫(kù)采用一對(duì)車(chē)載的AVT Marlins F033C攝像頭進(jìn)行拍攝,分辨率為640 x480,幀率13-14fps,給出標(biāo)定信息和行人標(biāo)注信息,深度信息采用置信度傳播方法獲取。該數(shù)據(jù)庫(kù)主要用于多個(gè)行人的檢測(cè)與跟蹤研究。(8)CVC行人數(shù)據(jù)庫(kù)目前包含3個(gè)數(shù)據(jù)集: CVC0134,CVC0235和 CVCVirtual36。其中,CVC02 包含3個(gè)子數(shù)據(jù)集,分別針對(duì)行人檢測(cè)的 3 個(gè)不同任務(wù): 感興趣區(qū)域的產(chǎn)生、分類(lèi)和系統(tǒng)性能評(píng)估。CVCVirtual是通過(guò) HalfLife2圖像引擎產(chǎn)生的虛擬行人數(shù)據(jù)集以用于測(cè)試。該數(shù)據(jù)庫(kù)主要用于車(chē)輛輔助駕駛中的行人檢測(cè)研究。(9)USC 行人數(shù)據(jù)庫(kù)37的圖像大部分來(lái)源于監(jiān)控視頻,是一個(gè)比較小的行人數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包含三組數(shù)據(jù)集(USC-A、USC-B和USC-C),以XML格式提供標(biāo)注信息。USC-A的圖片來(lái)自于網(wǎng)絡(luò),共205張圖片,313個(gè)站立的行人,行人間不存在相互遮擋,拍攝角度為正面或者背面;USC-B的圖片主要來(lái)自于CAVIAR視頻庫(kù),包括各種視角的行人,行人之間有的相互遮擋,共54張圖片,271個(gè)行人;USC-C有100張圖片來(lái)自網(wǎng)絡(luò)的圖片,232個(gè)行人(多角度),行人之間無(wú)相互遮擋。該數(shù)據(jù)庫(kù)主要用于存在遮擋和多視角情況下的行人檢測(cè)研究。4.3 卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行行人檢測(cè)的分析利用更具深度的卷積神經(jīng)網(wǎng)絡(luò)提取復(fù)雜行人特征,完成行人檢測(cè),避免了復(fù)雜的人工特征提取和數(shù)據(jù)重建過(guò)程。卷積神經(jīng)網(wǎng)絡(luò)最早應(yīng)用于手寫(xiě)字符識(shí)別,并在Mnist 樣本集上得到了非常好的結(jié)果。其經(jīng)典結(jié)構(gòu)分為5 層,包括2 個(gè)卷積層,2 個(gè)下采樣層,卷積核大小為55。如果直接將此經(jīng)典網(wǎng)絡(luò)模型用于測(cè)試行人檢測(cè)樣本集,訓(xùn)練樣本大小為12864,發(fā)現(xiàn)網(wǎng)絡(luò)無(wú)法收斂,不能完成行人檢測(cè)的二分類(lèi)問(wèn)題。經(jīng)過(guò)分析研究,其主要原因有以下幾點(diǎn):(1)Mnist 樣本集圖像內(nèi)容相對(duì)單一,近乎于二值圖像,而行人檢測(cè)樣本集中行人姿態(tài)與圖像背景十分復(fù)雜,場(chǎng)景、光線不斷變化,復(fù)雜的圖像信息要求更深度的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提取高層的特征表達(dá),5 層結(jié)構(gòu)已經(jīng)無(wú)法完成有效的特征提取。(2)經(jīng)典網(wǎng)絡(luò)結(jié)構(gòu)中卷積核大小為55,對(duì)Mnist 樣本集圖像能夠有效提取局部特征,但相對(duì)于尺寸為12864 的圖像來(lái)說(shuō),卷積核過(guò)小,卷積的結(jié)果無(wú)法包含表達(dá)局部特征的有效信息。(3)Mnist 樣本集圖像尺寸為2828,而行人檢測(cè)樣本集圖像尺寸為12864,圖像尺寸增大導(dǎo)致隱含層輸出特征維數(shù)過(guò)高,分類(lèi)器不能根據(jù)描述能力有限的高維特征做出正確的分類(lèi)。經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)不能有效完成行人檢測(cè)任務(wù),網(wǎng)絡(luò)深度、卷積核大小、最終提取特征維數(shù)是影響結(jié)果的主要因素。因此需要針對(duì)行人檢測(cè)問(wèn)題的具體特點(diǎn),對(duì)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行重新的設(shè)計(jì)。設(shè)計(jì)過(guò)程中重點(diǎn)考慮了以下問(wèn)題。(1)卷積核的影響。卷積核是卷積神經(jīng)網(wǎng)絡(luò)模型中最具特性的部分,可以理解為生物視覺(jué)中感受野的模型化表示。它的性質(zhì)直接決定了特征提取的好壞、網(wǎng)絡(luò)收斂的速度等。卷積核的大小決定了感受野的大小,感受野過(guò)大,提取的特征超出卷積核的表達(dá)范圍,而感受野過(guò)小,則無(wú)法提取有效的局部特征。因此,卷積核大小對(duì)整個(gè)網(wǎng)絡(luò)的性能有著至關(guān)重要的影響。(2)深度的影響。相比傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)具有更深層的結(jié)構(gòu)框架。深度學(xué)習(xí)中最核心的內(nèi)容之一就是“無(wú)監(jiān)督特征學(xué)習(xí)”,這種特征學(xué)習(xí)過(guò)程正是通過(guò)具有一定深度的網(wǎng)絡(luò)結(jié)構(gòu)在逐層抽象中完成的。通過(guò)增加網(wǎng)絡(luò)的層數(shù),其特征信息表達(dá)能力逐步增強(qiáng),但層數(shù)過(guò)多也會(huì)致使網(wǎng)絡(luò)結(jié)構(gòu)過(guò)于復(fù)雜,訓(xùn)練時(shí)間增加,易出現(xiàn)過(guò)擬合現(xiàn)象。因此,選擇合適的層數(shù)對(duì)提高網(wǎng)絡(luò)訓(xùn)練效率和檢測(cè)結(jié)果有重要影響。(3)分類(lèi)器輸入特征維數(shù)的影響。在卷積神經(jīng)網(wǎng)絡(luò)中,訓(xùn)練過(guò)程采用BP 訓(xùn)練策略38,因此最后一層的分類(lèi)器本質(zhì)上是BP 分類(lèi)器,輸入維數(shù)的高低對(duì)最終結(jié)果也有影響。同時(shí),一個(gè)隱含層特征提取的好壞決定著網(wǎng)絡(luò)的總體性能,而隱含層輸出的特征維數(shù)則是影響網(wǎng)絡(luò)收斂和收斂速度的一個(gè)重要因素,在有限樣本集的情況下,過(guò)高的特征維數(shù)會(huì)產(chǎn)生冗余,無(wú)法提取有效信息,過(guò)低則無(wú)法完整表達(dá)特征。5 總結(jié)與展望本文對(duì)卷積神經(jīng)網(wǎng)絡(luò)的歷史、原理進(jìn)行了簡(jiǎn)要的介紹,卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)于行人檢測(cè)具有很好的表現(xiàn)。深度卷積神經(jīng)網(wǎng)絡(luò)在圖像處理和機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng) 用,取得了突破性的進(jìn)展,體現(xiàn)了深度CNN處理圖像數(shù)據(jù)的優(yōu)勢(shì)。目前,卷積神經(jīng)網(wǎng)絡(luò)正處于研究熱度非常高的階段,該領(lǐng)域仍然存在的一些問(wèn)題以及發(fā)展方向,包括:(1)多輸入卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造多圖像輸入的深度 CNN 具有極高的理論和應(yīng)用價(jià)值另外不同卷積層能夠代表不同層次的圖像特征信息,通過(guò)構(gòu)造不同層次的信息融合分層,可以方便地實(shí)現(xiàn)多傳感視覺(jué)系統(tǒng)像素級(jí)、特征級(jí)和決策級(jí)的信息融合。(2)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)研究還具有很大的空間。目前的研究表明,僅僅通過(guò)簡(jiǎn)單地增加網(wǎng)絡(luò)的復(fù)雜程度,會(huì)遇到一系列的瓶頸,如: 過(guò)擬合問(wèn)題,網(wǎng)絡(luò)退化問(wèn)題等。卷積神經(jīng)網(wǎng)絡(luò)性能的提升需要依靠更加合理的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。(3)卷積神經(jīng)網(wǎng)絡(luò)的參數(shù)眾多, 但是目前的相關(guān)設(shè)置大多基于經(jīng)驗(yàn)和實(shí)踐,參數(shù)的量化分析與研究是卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)有待解決的問(wèn)題。(4)卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用的擴(kuò)展。近幾年,CNN在目標(biāo)檢測(cè)、圖像識(shí)別及處理等領(lǐng)域已經(jīng)顯示了巨大的優(yōu)勢(shì)。然而,CNN 的應(yīng)用領(lǐng)域還可以大大擴(kuò)展。正如2015 年國(guó)際機(jī)器學(xué)習(xí)大會(huì)上的各國(guó)專(zhuān)家所指出,CNN應(yīng)用研究的中心未來(lái)將轉(zhuǎn)移到模式識(shí)別以外的更廣泛領(lǐng)域。參考文獻(xiàn)1 LECUN Y,BOTTOU L,BENGIO Y,et alGradient-based learningapplied to document recognitionJ/Proceedings of the IEEE,1998,86( 11) :2278-23242 HUBEL D H,WIESEL T NReceptive fields,binocular interaction, and functional architecture in the cats visual cortex J/ Journal of hysiology,1962, 160( 1) :106-1543 FUKUSHIMA KNeocognitron: a self-organizing neural networkmodel for a mechanism of pattern recognition unaffected by shift in position J/Biological Cybernetics,1980,36( 4) : 193-2024 WAIBEL A,HANAZAWA T,HINTON G,et al. Phoneme recognition using time-delay neural networks M/Readings in Speech RecognitionAmsterdam: Elsvier,1990: 393-4045 VAILLANT R,MONROCQ C,LE CUN YOriginal approach for the localization of objects in images J/IEE ProceedingsVision,Image and Signal Processing,1994,141( 4) : 245-2506 LAWRENCE S,GILES C L,TSOI A C,et alFace recognition: a convolutional neural-network approach J/IEEE Transactions on Neural Networks, 1997, 8( 1) : 981137 Hinton G E,Salakhutdinov R RReducing the dimensionality of data with neural networksJ/Science,2006,313( 5786) : 504-5078 KRIZHEVSKY A,SUTSKEVER I,HINTON G EImageNet classification with deep convolutional neural networks C /Proceedingsof Advances in Neural Information Processing SystemsCambridge,MA: MIT Press,2012: 1106 -11149 DENG J,DONG W,SOCHER R,et alImageNet: a large-scale hierarchical image database C / Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern RecognitionWashington,DC: IEEE Computer Society,2009: 248-25510 He K M,Zhang X,Ren S,et alDeep residual learning for image recognition C / Proceedings of the International Conference on Computer Vision and Pattern RecognitionLas Vegas,NevadaIEEE,2016: 770-77811 Krizhevsky A,Sutskever I,Hinton G EImagenet classification with deep convolutional neural networks C/Proceeding of 26th Annual Conference on Neural Information Processing SystemLake Tahoe,USA: MIT Press,2012: 1097-110512 Szegedy C,Liu W,Jia Y,et alGoing deeper with convolutionsC / Proceedings of International Conference on Computer Vision and Pattern ecognitionBoston,USA: IEEE Computer Society,2015: 1-913 He K M,Zhang X,en S,et alDeep residual learning for image recognition C/Proceedings of the International Conference on Computer Vision and Pattern ecognitionLas Vegas,NevadaIEEE,2016: 770-77814 王冠皓,徐軍基于多級(jí)金字塔卷積神經(jīng)網(wǎng)絡(luò)( MLPCNN) 的快速特征表示方法 J/計(jì)算機(jī)應(yīng)用研究,2015,32( 8) : 2492-249515 Zhang X,Zou J,Ming X,et alEfficient and accurate approximations of nonlinear convolutional networks C /Proceedings of the Conference on Computer Vision and Pattern Recognition Columbus, USA: IEEE,2014:1984-199216 Girshick R,Donahue J,Darrell T,et alRich feature hierarchies for accurate object detection and semantic segmentation C/Proceedings of the Conference on Computer Vision and Pattern RecognitionColumbus,USA: IEEE,2014: 580-58717 He K,Zhang X,Ren S,et alSpatial pyramid pooling in deep convolutional networks for visual recognition JIEEE Transactions on Pattern Analysis Machine Intelligence,2015,37(9) : 1904-191618 Rippel O,Snoek J,Adams R PSpectral representations for convolutional neural networks JAdvances in Neural Information Processing Systems,2015,28 (1):2440-244819 Zeiler M D,Krishnan D,Taylor G W,et alDeconvolutional networks C/Proceedings of the IEEE Conference on Computer Vision and Pattern RecognitionCalifornia,USA: IEEE,2010: 2528-253520 Zeiler M D,Krishnan D,Taylor G W, et alAdaptive deconvolutional networks for mid and high level feature learning C/Proceedings of the International Conference on Computer VisionColorado Springs,USA: IEEE,2011:2018-202521 孫艷豐,齊光磊,胡永利基于改進(jìn) Fisher 準(zhǔn)則的深度卷積神經(jīng)網(wǎng)絡(luò)識(shí)別算法 J/北京工業(yè)大學(xué)學(xué)報(bào),2015,41( 6) : 835-84122 Girshick R,Donahue J,Darrell T,et alRich feature hierarchies for accurate object detection and semantic segmentation C/Proceedings of the IEEE conference on computer vision and pattern recognition,Columbus,Ohio,USA: IEEE,2014: 580-58723 XWang,XHart,and SYahAn HOG-LBP human detector with partial occlusion handlingJ/In CVPR,2009:l,2,5.24 龔丁禧稀疏自組合時(shí)空卷積神經(jīng)網(wǎng)絡(luò)動(dòng)作識(shí)別方法及其并行化D./福建省廈門(mén):廈門(mén)大學(xué),201423 Girshick R,Girshick RFast RCNN C /Proceedings of the International Conference on Computer VisionCopenhagen,Denmark: IEEE,2015: 1440-1448.25 PAPAGEORGIOU C,POGGIO TA trainable system for object detection JInternational Journal of Computer Vision,2000,38( 1) : 153326 DALAL N,TRIGGS B Histograms of oriented gradients for human detectionJ Computer Vision and Pattern Recognition,2005 ( 1 ) :88689327 KELLER C,ENZWEILER M,GAVRILA D MA new benchmark for stereo-based pedestrian detectionC/Proc.IEEE Intelligent Vehicles SymposiumBadenBaden,Germany: IEEE Press,2011: 69169628 ENZWEILER M,EIGENSTETTER A,SCHIELE B,et al Multicue pedestrian classification with partial occlusion handling EB /OL /201305 10 . http: /ieeexplore ieee org /xpl /articleDetails jsp? tp =&arnumber = 5540111&queryText%3DMulticue + pedestrian + classification + with + partial + occlusion + handling29 ENZWEILER M,GAVRILA D M Monocular pedestrian detection: surv

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論