文獻綜述報告_第1頁
文獻綜述報告_第2頁
文獻綜述報告_第3頁
文獻綜述報告_第4頁
文獻綜述報告_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

文獻綜述報告題目基于卷積神經(jīng)網(wǎng)絡(luò)的圖像分割技術(shù)研究綜述學(xué)號班級姓名專業(yè)計算機科學(xué)與技術(shù)學(xué)生所在學(xué)院計算機科學(xué)與技術(shù)學(xué)院指導(dǎo)教師實驗名稱及地點21b376

目錄1前言 12主題 12.1卷積神經(jīng)網(wǎng)絡(luò) 12.1.1起源 12.1.2概念 12.1.3網(wǎng)絡(luò)結(jié)構(gòu) 22.1.4卷積特征提取 22.1.5池化 32.2圖像分割………………………………..43總結(jié) 7參考文獻…………………7前言隨著大數(shù)據(jù)時代的到來,含更多隱含層的深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutionalneuralnetworks,CVVs)具有更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),與傳統(tǒng)機器學(xué)習(xí)方法相比具有更強大的特征學(xué)習(xí)和特征表達能力。使用深度學(xué)習(xí)算法訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型自提出以來在計算機視覺領(lǐng)域的多個大規(guī)模識別任務(wù)上取得了令人矚目的成績。本文首先簡要介紹深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)的興起與發(fā)展,概述卷積神經(jīng)網(wǎng)絡(luò)的基本模型結(jié)構(gòu)、卷積特征提取和池化操作。然后綜述了基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)模型在圖像分割應(yīng)用領(lǐng)域中的研究現(xiàn)狀和發(fā)展趨勢,主要從典型的網(wǎng)絡(luò)結(jié)構(gòu)的構(gòu)建、訓(xùn)練方法和性能表現(xiàn)3個方面進行介紹。最后對目前研究中存在的一些問題進行簡要的總結(jié)和討論,并展望未來發(fā)展的新方向。主題2.1卷積神經(jīng)網(wǎng)絡(luò)2.1.1起源20世紀(jì)60年代初期,Hubel和Wiesel等通過對貓的大腦視覺皮層系統(tǒng)的研究,提出了感受野的概念,并進一步發(fā)現(xiàn)了視覺皮層通路中對于信息的分層處理機制,由此獲得了諾貝爾生理學(xué)或醫(yī)學(xué)獎。到了80年代中期,F(xiàn)ukushima等基于感受野概念提出的神經(jīng)認(rèn)知機,可以看作是卷積神經(jīng)網(wǎng)絡(luò)(Convolutionneuralnetworks,CNNs)的第一次實現(xiàn),也是第一個基于神經(jīng)元之問的局部連接性和層次結(jié)構(gòu)組織的人工神經(jīng)網(wǎng)絡(luò)。神經(jīng)認(rèn)知機是將一個視覺模式分解成許多子模式,通過逐層階梯式相連的特征平面對這些子模式特征進行處理,使得即使在目標(biāo)對象產(chǎn)生微小畸變的情況卜,模型也具有很好的識別能力。在此之后,研究人員開始嘗試使用一種被稱作多層感知器的人工神經(jīng)網(wǎng)絡(luò)(實際上是只含一層隱含層節(jié)點的淺層模型)來代替手工提取特征,并使用簡單的隨機梯度下降方法來訓(xùn)練該模型,于是進一步提出了用于計算誤差梯度的反向傳播算法,這一算法隨后被證明十分有效。1990年,LeCun等在研究手寫數(shù)字識別問題時,首先提出了使用梯度反向傳播算法訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型,并在MNIST手寫數(shù)字?jǐn)?shù)據(jù)集上表現(xiàn)出了相對于當(dāng)時其他方法更好的性能。梯度反向傳播算法和卷積神經(jīng)網(wǎng)絡(luò)的成功給機器學(xué)習(xí)領(lǐng)域帶來了新的希望,開啟了基于統(tǒng)計學(xué)習(xí)模型的機器學(xué)習(xí)浪潮,同時也帶動了人工神經(jīng)網(wǎng)絡(luò)進入到蓬勃發(fā)展的新階段。目前,卷積神經(jīng)網(wǎng)絡(luò)已成為當(dāng)前語音分析和圖像識別領(lǐng)域的研究熱點,它是第一個真正意義上的成功訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)算法模型,對于網(wǎng)絡(luò)的輸入是多維信號時具有更明顯的優(yōu)勢。隨著深度學(xué)習(xí)掀起的新的機器學(xué)習(xí)熱潮,卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)應(yīng)用于語音識別、圖像識別和自然語音處理等小同的大規(guī)模機器學(xué)習(xí)問題中。2.1.2概念卷積神經(jīng)網(wǎng)絡(luò)是一種為了處理二維輸入數(shù)據(jù)而特殊設(shè)計的多層人工神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)中的每層都由多個二維平面組成,而每個平面由多個獨立的神經(jīng)元組成,相鄰兩層的神經(jīng)元之問互相連接,而處于同一層的神經(jīng)元之問沒有連接。CNNs受到早期的時延神經(jīng)網(wǎng)絡(luò)(Time-delayneuralnetworks,TDNNs)的啟發(fā),TDNN通過在時問維度上共享權(quán)值來降低網(wǎng)絡(luò)訓(xùn)練過程中的計算復(fù)雜度,適用于處理語音信號和時問序列信號。CNNs采用了權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),同時模型的容量可以通過改變網(wǎng)絡(luò)的深度和廣度來調(diào)整,對自然圖像也具有很強的假設(shè)(統(tǒng)計的平穩(wěn)性和像素的局部相關(guān)性)。因此,與每層具有相當(dāng)大小的全連接網(wǎng)絡(luò)相比,CNNs能夠有效降低網(wǎng)絡(luò)模型的學(xué)習(xí)復(fù)雜度,具有更少的網(wǎng)絡(luò)連接數(shù)和權(quán)值參數(shù),從而更容易訓(xùn)練。2.1.3網(wǎng)絡(luò)結(jié)構(gòu)一個簡單的卷積神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)示意圖如圖1所示,該網(wǎng)絡(luò)模型由兩個卷積層(C1,C2)和兩個子采樣層(S1,S2)交替組成。首先,原始輸入圖像通過與3個可訓(xùn)練的濾波器(或稱作卷積核)和可加偏置向量進行卷積運算,在C1層產(chǎn)生3個特征映射圖,然后對每個特征映射圖的局部區(qū)域進行加權(quán)平均求和,增加偏置后通過一個非線性激活函數(shù)在S1層得到3個新的特征映射圖。隨后這些特征映射圖與C2層的3個可訓(xùn)練的濾波器進行卷積,并進一步通過S2層后輸出3個特征映射圖。最終S2層的3個輸出分別被向量化,然后輸入到傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中進行訓(xùn)練。2.1.4卷積特征提取自然圖像有其固有特性,即對于圖像的某一部分,其統(tǒng)計特性與其他部分相同。這意味著在這一部分學(xué)習(xí)到的特征也能用在另一部分上,因此對于圖像上的所有位置,可以使用同樣的學(xué)習(xí)特征。換句話說,對于大尺寸的圖像識別問題,首先從圖像中隨機選取一小塊局域作為訓(xùn)練樣本,從該小塊樣本中學(xué)習(xí)到一些特征,然后將這些特征作為濾波器,與原始整個圖像作卷積運算,從而得到原始圖像中任一位置上的小同特征的激活值。給定分辨率為r×c的大尺寸圖像,將其定義為一xlarge,首先從一玩二中抽取a×b的小尺寸圖像樣xsmall,通過訓(xùn)練稀疏自編碼器得到k個特征和激活值f(Wxsmall+b),其中W和b是訓(xùn)練得到的參數(shù)。然后對于一幾二中每個a×b大小的xs,計算對應(yīng)的激活值fs(Wxsmall+b),進一步使用xsmall的激活值與這些激活值fs作卷積運算,就可以得到k×(r-a+1)×(c-b+1)個卷積后的特征映射圖。二維卷積計算的示意圖如圖2所示。例如,對于分辨率為128×128的原始輸入圖像,假設(shè)經(jīng)過預(yù)訓(xùn)練已經(jīng)得到了該圖像的200個8×8大小的特征碎片。那么,通過使用這200個特征碎片對原始圖像中每個8×8的小塊區(qū)域進行卷積運算,每個特征碎片均可以得到121×121的卷積特征映射圖,最終整幅圖像可以得到200×121×121的卷積特征映射圖。2.1.5池化操作通過將卷積層提取到的特征輸入至分類器中進行訓(xùn)練,可以實現(xiàn)輸出最終的分類結(jié)果。理論上可以直接將卷積層提取到的所有特征輸入至分類器中,然而這將需要非常大的計算開銷,特別是對于大尺寸高分辨率圖像。例如:對于一個輸入為96×96大小的圖像樣本,假設(shè)在卷積層使用200個8×8大小的卷積核對該輸入圖像進行卷積運算操作,每個卷積核都輸出一個(96-8+1)×(96-8X+1)=7921維的特征向量,最終卷積層將輸出一個7921×200=1584200維的特征向量。將如此高維度的特征輸入至分類器中進行訓(xùn)練需要耗費非常龐大的計算資源,同時也會產(chǎn)生嚴(yán)重的過擬合問題。然而,由于圖像具有一種“靜態(tài)性”的屬性,在圖像的一個局部區(qū)域得到的特征極有可能在另一個局部區(qū)域同樣適用。因此,可以對圖像的一個局部區(qū)域中小同位置的特征進行聚合統(tǒng)計操作,這種操作稱為“池化”。比如計算該局部區(qū)域中某個卷積特征的最大值(或平均值),稱作最大池化(或平均池化)。具體來說,假設(shè)池化的區(qū)域大小為m×n,在獲得卷積特征后,將卷積特征劃分為多個,m×n大小的小相交區(qū)域,然后在這些區(qū)域上進行池化操作,從而得到池化后的特征映射圖。如圖3所示,在一幅圖像的4塊小重合子區(qū)域上使用3×3大小的窗口對其進行最大池化,得到池化后的特征映射圖。如果選擇圖像中的連續(xù)范圍作為池化區(qū)域,同時只對相同的隱含神經(jīng)元產(chǎn)生的卷積特征使用池化,則這些池化后的特征單元具有平移小變性。也就是說,即使原始圖像中的物體產(chǎn)生了一個較小的平移,依然可以得到相同的池化特征,分類器也依然能夠輸出相同的分類結(jié)果。與直接使用卷積后的特征相比,這些概要統(tǒng)計特征小僅能夠極大地降低特征向量的維度,進一步降低訓(xùn)練分類器所需的計算量,而且能夠有效地擴充訓(xùn)練數(shù)據(jù),有利于防比過擬合。2.2圖像分割深度神經(jīng)網(wǎng)絡(luò)在圖像分類、目標(biāo)檢測和姿態(tài)估計等方面取得了巨大的成功,進一步的發(fā)展便是對圖像上每個像素點的預(yù)測,這個任務(wù)就是圖像分割。圖像分割是這樣一類問題:對于一張圖來說,圖上可能有多個物體、多個人物甚至多層背景,希望能做到對于原圖上的每個像素點,能預(yù)測它是屬于哪個部分的(人、動物、背景……)。圖像分割作為許多計算機視覺應(yīng)用研究的第一步}一分關(guān)鍵。在過去的20年中,圖像閥值分割方法作為這個領(lǐng)域最早被研究和使用的方法,因為其物理意義明確、效果明顯和易于實現(xiàn)等特點,被廣泛應(yīng)用。相繼衍生出了基于空問特征、基于模糊集和基于非Shannon嫡的許多閥值選取方法。但這幾年,隨著深度學(xué)習(xí)的廣泛應(yīng)用,在這一領(lǐng)域顯然有了更新、更有力的“工具”。文獻[35]提出可以將一些深度神經(jīng)網(wǎng)絡(luò)改為全卷積網(wǎng)絡(luò)來做圖像分割。他們首先利用一些流行的分類網(wǎng)絡(luò)(AlexNet,VGG,GoogleNet),在保留一些它們在圖像分類方面訓(xùn)練所得參數(shù)基礎(chǔ)上,進行“修剪”,轉(zhuǎn)變?yōu)獒槍D像分割的模型。然后,他們將一些網(wǎng)絡(luò)較深的層的所得特征和一些較淺的層所得特征結(jié)合起來,最后用一個反卷積層放大到原始圖像大小來提供一個更為準(zhǔn)確的分割結(jié)果,稱之為跳躍結(jié)構(gòu)。仍然拿AlexNet為例,如圖16所示。他們提出將AlexNet的最后3層改為全卷積層,這一步不僅加快了速度,減少了參數(shù),進而減少過擬合,還為最后一步的反卷積提供了便利??梢钥吹剑@個網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)變成了7層卷積層這樣一個結(jié)構(gòu)。當(dāng)然,如果直接從最后一層的卷積層反卷積也可以,但需要放大32倍,取得的效果也小佳(如圖17所示)。這毫無疑問是缺少信息所導(dǎo)致的結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)每卷積一層,實際上信息量都會丟失一些,所以如果想增加信息量,要做的就是到更淺的網(wǎng)絡(luò)層獲取信息,這是之前所提的跳躍結(jié)構(gòu)的核心思想。對于信息丟失過多的最后一層卷積層,可以先將它反卷積擴大1倍,達到與上一個卷積層pooling完了之后的一樣的大小,之后,將兩者的信息整合(一般是相加),進而做次反卷積,這樣就只需再放大16倍,取得的效果也有所提升??梢愿M一步,再加入pool3的信息,也就是將之前一步的結(jié)果先再做一次擴大2倍的反卷積(相較于最初實際上相當(dāng)于擴大了4倍),與pool3的結(jié)果相加后,再做一次放大8倍的反卷積。在數(shù)據(jù)集PASCLVOC上,他們所得的結(jié)果較2012年提升了約20%,達到62.2%的meanIU準(zhǔn)確率。較傳統(tǒng)的諸如SDS方法提升了許多,影響巨大。此外,這種方法訓(xùn)練也只花了175ms,傳統(tǒng)的SDS方法耗時高達50s。在另一個數(shù)據(jù)集NYUDv2上,全卷積神經(jīng)網(wǎng)絡(luò)(Fullyconvolutionalnetworks,F(xiàn)CN)也將之前的最好結(jié)果提升了至少5%。當(dāng)然,F(xiàn)CN仍然有不足之處,圖18所示的是一些PASCALVOC上的結(jié)果中,最后一個就失敗了,說明這種方式仍有改進空問??偨Y(jié)深度學(xué)習(xí)目前是一個非常熱門的研究方向,利用卷積神經(jīng)網(wǎng)絡(luò)的卷積層、池化層和全連接層等基本結(jié)構(gòu),就可以讓這個網(wǎng)絡(luò)結(jié)構(gòu)自己學(xué)習(xí)和提取相關(guān)特征,并加以利用。這種特性對許多研究提供了許多便利,可以省略過往非常繁雜的建模過程。此外,深度學(xué)習(xí)現(xiàn)在圖像分類、物體檢測、姿態(tài)估計和圖像分割等方面都已經(jīng)有了非常大的成果和進步。一方面,深度學(xué)習(xí)應(yīng)用面非常廣,而且通用性強,完全可以繼續(xù)努力將其拓展到其它應(yīng)用領(lǐng)域。另一方面,深度學(xué)習(xí)仍有許多潛力可挖,值得不斷去探索和發(fā)現(xiàn)。就未來而言,盡管之前討論的許多內(nèi)容都是有監(jiān)督的學(xué)習(xí)(比如訓(xùn)練的網(wǎng)絡(luò)最后一層會根據(jù)真實值計算一個loss值,進而進行參數(shù)調(diào)整),并且有監(jiān)督的學(xué)習(xí)確實取得了非常大的成功。深度學(xué)習(xí)在無監(jiān)督的學(xué)習(xí)方面的應(yīng)用很可能是未來的發(fā)展趨勢。畢竟,就人或者動物而言,大部分情況下,我們并不是通過知道事物的名字來了解它是什么的。在未來的計算機視覺領(lǐng)域,預(yù)計基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrentneuralnetwork,RNN)將會成為十分流行的網(wǎng)絡(luò)模型,并將在更多的應(yīng)用研究中取得更好的突破與進展。此外,結(jié)合強化學(xué)方法來訓(xùn)練一個端到端的學(xué)習(xí)系統(tǒng)逐漸成為可能,從而使得該學(xué)習(xí)系統(tǒng)具有自主學(xué)習(xí)能力,能夠主動去學(xué)習(xí)相關(guān)特征的表示和抽象。目前,結(jié)合深度學(xué)習(xí)與強化學(xué)習(xí)的研究尚處于起步階段,但已經(jīng)有一些這方面的研究工作在多物體識別任務(wù)和進行視頻游戲的學(xué)習(xí)上取得了小錯的表現(xiàn),這也是讓許多相關(guān)領(lǐng)域的研究者們興奮的原因之一。值得注意的是,自然語言處理同樣也是深度學(xué)習(xí)未來能夠大展身手的潛在舞臺,比如說,對于一篇文章或者一大段文字,能夠設(shè)計出基于一些深度神經(jīng)網(wǎng)絡(luò)模型(比如RNN)的方法和策略,能夠有效地理解文本內(nèi)容。總體來說,人們現(xiàn)在使用深度學(xué)習(xí)以及一些簡單的推理,就已經(jīng)在語音和圖像領(lǐng)域取得了非常小錯的成果。有理由相信,如果將目前對于網(wǎng)絡(luò)提取的特征表示能夠進一步優(yōu)化,使得其能夠更“自如”地表達特征,再加上一些復(fù)雜推理,那么深度學(xué)習(xí)將會在人工智能的各個應(yīng)用方面取得更大的進展。參考文獻[1]DengL,LiJ,HuangJT,etal.RecentadvancesindeeplearningforspeechresearchatMicrosoft[J].ICASSP2013,2013.[2]HoriT,HoriC,MinamiY,etal.EfficientW'FST-basedone-passdecodingwithon-the-flyhypothesisrescoringinextremelylargevocabularycontinuousspeechrecognition[Jl.Audio,Speech,andLanguageProcessing,IEEETransactionson,2007,15(4):1352-1365.[3]LeCunY.Generalizationandnetworkdesignstrategies[J].ConnectionsinPerspective.North-Holland,Amsterdam,1989:143-55.[4]GuptaV,GavrilovskaA,SchwanK,etal.GViM:GPU-acceleratedvirtualmachines[CJ//Proceedingsofthe3rdACMWorkshoponSystem-levelVirtualizationforHighPerformanceComputing.ACM,2009:17-24.[5]CollobertR,WestonJ.Aunifiedarchitecturefornaturallanguageprocessing:Deepneuralnetworkswithmultitaskleaming[CV/ProceedingsOfthe25thinternationalconferenceonMachinelearning.ACM,2008:160-167.[6]NakamaT.Theoreticalanalysisofbatchandon-linetrainingforgradientdescentlearninginneuralnetworks[J].Neurocomputing,2009,73(1):151-159.[7]ZurRM,JiangY,PesceLL,etal.Noiseinjectionfortrainingartificialneuralnetworks:Acomparisonw

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論