深度學(xué)習(xí)方法在遙感圖像處理中的應(yīng)用研究分析 教育教學(xué)專業(yè)_第1頁(yè)
深度學(xué)習(xí)方法在遙感圖像處理中的應(yīng)用研究分析 教育教學(xué)專業(yè)_第2頁(yè)
深度學(xué)習(xí)方法在遙感圖像處理中的應(yīng)用研究分析 教育教學(xué)專業(yè)_第3頁(yè)
深度學(xué)習(xí)方法在遙感圖像處理中的應(yīng)用研究分析 教育教學(xué)專業(yè)_第4頁(yè)
深度學(xué)習(xí)方法在遙感圖像處理中的應(yīng)用研究分析 教育教學(xué)專業(yè)_第5頁(yè)
已閱讀5頁(yè),還剩16頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、摘 要電子紙是一種超輕、超薄的顯示屏,可以像報(bào)紙一樣折疊起來(lái),它的內(nèi)容又像PDA那樣可以根據(jù)人們需求動(dòng)態(tài)更新。用電子墨水制成的電子紙將在很大程度上改變?nèi)藗兊纳蠲婷?,尤其是?duì)廣告、報(bào)刊、圖書等行業(yè)產(chǎn)生重大影響。同時(shí),它可以節(jié)約大量的紙張和能源等工業(yè)資源,是一種“綠色”環(huán)保型的高科技產(chǎn)品,具有相當(dāng)重要的理論研究和應(yīng)用開發(fā)價(jià)值,是一項(xiàng)富有挑戰(zhàn)性的技術(shù)。關(guān)鍵詞:電子墨水;微膠囊;明膠;ABSTRACTThe electrophoretic ink, a novel flexible display material which can be called encapsulated electroph

2、oretic display, is also fabricated from a two-dimensional arrangement of discrete microcapsule containing electrophoretic composition of a dielectric fluid and particles that visually contrast with the dielectric liquid and also exhibit surface charges. Electrophoretic ink possesses the merits of fl

3、exibility, bistability, extremely low power dissipation, high contrast and reflectivity, near-lambertian viewing characteristic, etc., which result in an ink on papers appearance.Keywords: Electronic ink, Microcapsules, Gelatin, 目 錄TOC o 1-3 h u HYPERLINK l _Toc24115 摘 要 PAGEREF _Toc24115 I HYPERLIN

4、K l _Toc9488 ABSTRACT PAGEREF _Toc9488 II HYPERLINK l _Toc248 1 引言 PAGEREF _Toc248 1 HYPERLINK l _Toc1396 1.1 研究背景和意義 PAGEREF _Toc1396 1 HYPERLINK l _Toc29269 1.2 國(guó)內(nèi)外研究現(xiàn)狀 PAGEREF _Toc29269 2 HYPERLINK l _Toc13285 2 遙感圖像預(yù)處理和神經(jīng)網(wǎng)絡(luò)介紹 PAGEREF _Toc13285 4 HYPERLINK l _Toc12554 2.1 圖像預(yù)處理 PAGEREF _Toc12554

5、4 HYPERLINK l _Toc9421 2.2 神經(jīng)網(wǎng)絡(luò)理論 PAGEREF _Toc9421 4 HYPERLINK l _Toc13789 3 基于卷積神經(jīng)網(wǎng)絡(luò)遙感圖像分類算法 PAGEREF _Toc13789 6 HYPERLINK l _Toc29654 3.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型 PAGEREF _Toc29654 6 HYPERLINK l _Toc991 3.2 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練設(shè)置 PAGEREF _Toc991 8 HYPERLINK l _Toc23954 3.3 數(shù)據(jù)增強(qiáng) PAGEREF _Toc23954 10 HYPERLINK l _Toc15360 4

6、實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析 PAGEREF _Toc15360 12 HYPERLINK l _Toc848 4.1 實(shí)驗(yàn)平臺(tái)介紹 PAGEREF _Toc848 12 HYPERLINK l _Toc22020 4.2 實(shí)驗(yàn)數(shù)據(jù)集介紹 PAGEREF _Toc22020 13 HYPERLINK l _Toc12973 4.3 實(shí)驗(yàn)結(jié)果與分析 PAGEREF _Toc12973 13 HYPERLINK l _Toc29268 5 總結(jié)和展望 PAGEREF _Toc29268 151 引言1.1 研究背景和意義人類己經(jīng)進(jìn)入了數(shù)字時(shí)代,世界上每天都在產(chǎn)生著海量的數(shù)據(jù)。傳統(tǒng)的機(jī)器學(xué)習(xí)算法聚焦在特征提取

7、和分析上,主要針對(duì)小樣本訓(xùn)練集,泛化能力弱。面對(duì)量大、有效信息分散以及結(jié)構(gòu)多樣性等大數(shù)據(jù)的特點(diǎn),已經(jīng)不能很好地適應(yīng)。目前,數(shù)據(jù)生產(chǎn)和消費(fèi)需求之間的矛盾凸顯,因此,人們不得不把目光投注在智能化學(xué)習(xí)的新型算法上來(lái)。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)的一個(gè)分支,就在這樣的背景下應(yīng)運(yùn)而生。深度學(xué)習(xí)把客觀世界表示為嵌套的分層結(jié)構(gòu),通過(guò)分層結(jié)構(gòu),簡(jiǎn)單概念關(guān)聯(lián)組合能夠形成復(fù)雜的概念、具體的表示逐步抽象能夠生成更抽象的表示。深度學(xué)習(xí)因此而具備了強(qiáng)大的處理能力和靈活性。深度學(xué)習(xí)迅速發(fā)展,主要有如下促因:1、云計(jì)算、大數(shù)據(jù)等信息技術(shù)的發(fā)展,促使業(yè)界對(duì)智能化算法產(chǎn)生了迫切的、巨大的需求。需求的驅(qū)動(dòng),是深度學(xué)習(xí)快速發(fā)展的根本動(dòng)力;

8、2、云計(jì)算、大數(shù)據(jù)等技術(shù)的發(fā)展,也為深度學(xué)習(xí)提供了扎根的土壤和應(yīng)用的天然場(chǎng)景。與以往人工智能技術(shù)相比,深度學(xué)習(xí)從實(shí)驗(yàn)室到工業(yè)實(shí)踐、再到實(shí)驗(yàn)室的迭代過(guò)程更為迅速;3、以GPU為代表的硬件技術(shù)的發(fā)展,為深度學(xué)習(xí)技術(shù)提供了理論研究和實(shí)踐應(yīng)用的硬件基礎(chǔ)。硬件性能的提升和價(jià)格下降,支撐起了大規(guī)模的工業(yè)應(yīng)用。同時(shí),來(lái)自各領(lǐng)域的、眾多的個(gè)人和團(tuán)體可以廉價(jià)地參與到深度學(xué)習(xí)研究工作中,這些參與者往往極富創(chuàng)新和創(chuàng)造能力,并打著無(wú)私的分享精神。以上眾多積極因素促使深度學(xué)習(xí)形成了目前迅猛發(fā)展的勢(shì)頭,在智能領(lǐng)域里獨(dú)樹一幟。遙感專業(yè)在數(shù)據(jù)處理過(guò)程中,對(duì)學(xué)習(xí)型智能算法非常重視。機(jī)器領(lǐng)域的許多經(jīng)典的算法在遙感數(shù)據(jù)處理中得到了

9、廣泛的應(yīng)用。但總的來(lái)講,這呰算法都具有共同的局限性:適應(yīng)小樣本集、對(duì)數(shù)據(jù)特征需要繁重的分析和處理、對(duì)數(shù)據(jù)有相對(duì)嚴(yán)格的要求、學(xué)習(xí)能力弱、泛化能力有限以及嚴(yán)重依賴人工等。這些局限性造成的原因,歸根結(jié)底是因?yàn)槊總€(gè)算法都是為解決某一類問(wèn)題,甚至是為某一個(gè)問(wèn)題提出的,并不是完全針對(duì)遙感數(shù)據(jù)本質(zhì)特征的。深度學(xué)習(xí)是能夠?qū)W習(xí)到數(shù)據(jù)表示的學(xué)習(xí)型算法,能夠?qū)W到數(shù)據(jù)的本質(zhì)特征,可以極大地克服傳統(tǒng)機(jī)器學(xué)習(xí)算法在遙感數(shù)據(jù)處理領(lǐng)域的種種局限性。遙感數(shù)據(jù)本質(zhì)上具有大數(shù)據(jù)的4V特點(diǎn),從原理上來(lái)看,深度學(xué)習(xí)在處理大數(shù)據(jù)、高維數(shù)據(jù)有天然的優(yōu)勢(shì),適合遙感數(shù)據(jù)的處理。深度學(xué)習(xí)領(lǐng)域中的有一類稱之為深度卷積神經(jīng)網(wǎng)絡(luò)的模型,在圖像分類、目

10、標(biāo)檢測(cè)等方面都取得了非常好的應(yīng)用效果。遙感數(shù)據(jù)主要是遙感影像數(shù)據(jù),其處理技術(shù)與圖形圖像學(xué)有共通之處,因此,把圖像領(lǐng)域的理論和實(shí)踐借鑒到遙感影像處理中是極具可行性的。深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用在圖像分類優(yōu)勢(shì)明顯。圖像分類問(wèn)題就是判斷圖片屬于某類目標(biāo)物的概率,比如判定一個(gè)動(dòng)物圖片是何種動(dòng)物的概率。遙感影像分類不同于圖像分類,是類似于圖像語(yǔ)義分割的技術(shù)。遙感影像分類不僅要對(duì)地物進(jìn)行分類,還需要把這些地物在遙感影像中精確“分割”出來(lái),這是難點(diǎn),也是本文重點(diǎn)解決的問(wèn)題。遙感數(shù)據(jù)作為基礎(chǔ)支撐性數(shù)據(jù),在國(guó)防、國(guó)民經(jīng)濟(jì)以及其它各領(lǐng)域需求量巨大,使用率高,其作用也日趨重要。目前,遙感影像分類主要靠專業(yè)人員的處理和解譯

11、,根本無(wú)法滿足日益增長(zhǎng)的遙感數(shù)據(jù)消費(fèi)需求,因此,研究智能化數(shù)據(jù)處理技術(shù)勢(shì)在必行。DCNNs在遙感影像智能化、自動(dòng)化分類方向有著可預(yù)見潛在的、巨大的應(yīng)用價(jià)值。DCNNs模型逐步成熟,并在遙感領(lǐng)域工業(yè)化,將減少遙感影像分類對(duì)人工、尤其對(duì)專家的依賴,實(shí)現(xiàn)遙感數(shù)據(jù)成果的大規(guī)模工業(yè)化生產(chǎn),能夠最大限度地發(fā)揮遙感數(shù)據(jù)的價(jià)值,會(huì)對(duì)國(guó)防、國(guó)民經(jīng)濟(jì)和各行業(yè)起到不可估量的促進(jìn)作用。本論文期望借鑒DCNNs在圖像領(lǐng)域的理論和實(shí)踐經(jīng)驗(yàn),把DCNNs應(yīng)用到遙感影像分類。設(shè)計(jì)并研發(fā)出適合遙感影像分類的DCNNs模型,利用DCNNs模型的學(xué)習(xí)數(shù)據(jù)本質(zhì)特征表示的能力,以減少遙感影像分類工作對(duì)人工的依賴。發(fā)揮DCNNs的強(qiáng)大的

12、圖像分類技術(shù)優(yōu)勢(shì),克服其位置坐標(biāo)丟失的缺陷,達(dá)到滿足遙感影像分類精度和處理速度要求的、端到端的、智能化、自動(dòng)化處理效果。本論文所討論的“端到端”是指無(wú)需人工參與,可以實(shí)現(xiàn)從原始輸入數(shù)據(jù)到期望輸出結(jié)果的直接映射。其中無(wú)需人工參與,就是要求訓(xùn)練學(xué)習(xí)過(guò)程智能化、預(yù)測(cè)生成結(jié)果過(guò)程自動(dòng)化、智能化。1.2 國(guó)內(nèi)外研究現(xiàn)狀遙感影像分類是遙感數(shù)據(jù)處理的重要過(guò)程,是根據(jù)感興趣目標(biāo)在遙感圖像上的特征差異,判斷并標(biāo)識(shí)其類別屬性和空間分布特征(如空間位置、面積大?。┑刃畔⒌倪^(guò)程(朱文泉等,2015)。遙感光學(xué)影像中地物的特征分為光譜特征和空間特征兩大類,而空間特征又包括紋理特征、幾何特征以及拓?fù)浠蜞徑雨P(guān)系(趙忠明等,

13、2014)。微波遙感SAR數(shù)據(jù)還帶有地物的極化特征。遙感影像分類首先要對(duì)地物的這些不同特征進(jìn)行提取,然后使用合適的算法(比如邏輯回歸)對(duì)這些特征進(jìn)行處理,以得出分類結(jié)果。特征的提取是遙感影像分類數(shù)據(jù)處理過(guò)程中非常重要的步驟。比如對(duì)遙感影像的建筑物進(jìn)行分割,不同分辨率下建筑物紋理、幾何特征等表現(xiàn)足不同的。只有正確提取到這些特征,并根據(jù)這些特征的特點(diǎn)選擇算法,才能得到比較理想的分割或分類結(jié)果。有人針對(duì)不同地物在遙感在影像中的不同特征表現(xiàn)展開研究,比如宋開山等(2005)研宄大豆葉面積、及地上鮮生物量與高光譜反射率的相關(guān)分析;關(guān)紅等(2015)對(duì)鹽漬化土壤光譜特征進(jìn)行了分析和建模。也有人進(jìn)行了區(qū)域性

14、遙感影像的特征研宄,如葉慶華、陳述彭等(2007)研究近、現(xiàn)代黃河尾閭擺動(dòng)及其亞三角洲體發(fā)育的聚觀信息圖譜特征。還有在特征提取方法方面進(jìn)行研宄的,如方敏等(2016)應(yīng)用監(jiān)督近鄰重構(gòu)分析對(duì)高光譜遙感數(shù)據(jù)特征提??;孫紅巖(2016)對(duì)基于多特征融合的遙感圖像特征提取方法進(jìn)行了研宂;汪小欽等(2016)研宄了基于可見光波段無(wú)人機(jī)遙感的植被信息提収;HuZ等(2016)研宄了一種用于大型遙感圖像分層表示的二維尺度模型;SantosJ等(2014)研宄基于分層直方圖傳播的遙感圖像表示。特征提取得到了可被處理的特征數(shù)據(jù)。特征數(shù)據(jù)輸入分類器,可以被分類算法處理出分類結(jié)果。智能化遙感影像分類技術(shù)一般分為有監(jiān)

15、督的學(xué)習(xí)算法和無(wú)監(jiān)督的學(xué)習(xí)算法。聚類研究方面,GovindarajanR等(2010)研究了多目標(biāo)(M0)模糊聚類技術(shù)實(shí)現(xiàn)自動(dòng)像素分類技術(shù);ZhongY等(2013)使用基于自適應(yīng)多目標(biāo)(M0)差分的自動(dòng)模糊聚類進(jìn)行遙感影像分類;AilongMA(2014)等使用自適應(yīng)雙目標(biāo)法進(jìn)行遙感圖像聚類研究。總之,這些智能化的遙感影像分類的技術(shù),基本都是傳統(tǒng)的機(jī)器學(xué)習(xí)算法。需要對(duì)地物提取紋理、幾何等特征,對(duì)農(nóng)作物等還需要進(jìn)一步研宄地物與反射率的關(guān)系等;非監(jiān)督的方法也是需要先提取特征,然后再進(jìn)行歸類學(xué)習(xí)。所以,目前的智能化遙感影像分類技術(shù)的研宄,大都是基于特征分析和特征提取之上的,雖然在很多場(chǎng)景,取得的效

16、果非常滿意,但具有依賴特征表示,依賴人工,缺乏自動(dòng)化,泛化能力弱、容易欠擬合或過(guò)擬合等缺點(diǎn)。2 遙感圖像預(yù)處理和神經(jīng)網(wǎng)絡(luò)介紹2.1 圖像預(yù)處理預(yù)處理是遙感應(yīng)用的第一步,也是非常重要的一步。目前的技術(shù)也非常成熟,大多數(shù)的商業(yè)化軟件都具備這方面的功能。預(yù)處理的大致流程在各個(gè)行業(yè)中有點(diǎn)差異,而且注重點(diǎn)也各有不同。數(shù)據(jù)預(yù)處理的過(guò)程包括幾何精校正、配準(zhǔn)、圖像鑲嵌與裁剪、去云及陰影處理和光譜歸一化幾個(gè)環(huán)節(jié),具體流程圖如圖所示。來(lái)源:( HYPERLINK /s/blog_692920b80100ku6v.html /s/blog_692920b80100ku6v.html) - 遙感影像預(yù)處理_凱歌_新浪

17、博客圖1數(shù)據(jù)預(yù)處理一般流程各個(gè)行業(yè)應(yīng)用會(huì)有所不同,比如在精細(xì)農(nóng)業(yè)方面,在大氣校正方面要求會(huì)高點(diǎn),因?yàn)樗枰囱?;在測(cè)繪方面,對(duì)幾何校正的精度要求會(huì)很高。引起影像幾何變形一般分為兩大類:系統(tǒng)性和非系統(tǒng)性。系統(tǒng)性一般有傳感器本身引起的,有規(guī)律可循和可預(yù)測(cè)性,可以用傳感器模型來(lái)校正;非系統(tǒng)性幾何變形是不規(guī)律的,它可以是傳感器平臺(tái)本身的高度、姿態(tài)等不穩(wěn)定,也可以是地球曲率及空氣折射的變化以及地形的變化等。2.2 神經(jīng)網(wǎng)絡(luò)理論人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種算法結(jié)構(gòu),使得機(jī)器能夠?qū)W習(xí)一切,從 HYPERLINK /s?wd=%E8%AF%AD%E9%9F%B3%E5%91%BD%E4%BB%A4&tn=24

18、004469_oem_dg&rsv_dl=gh_pl_sl_csd t /chivalrousli/article/details/_blank 語(yǔ)音命令、播放列表到音樂(lè)創(chuàng)作和圖像識(shí)別。典型的 ANN 由數(shù)千個(gè)互連的人造 HYPERLINK /s?wd=%E7%A5%9E%E7%BB%8F%E5%85%83&tn=24004469_oem_dg&rsv_dl=gh_pl_sl_csd t /chivalrousli/article/details/_blank 神經(jīng)元組成,它們按順序堆疊在一起,以稱為層的形式形成數(shù)百萬(wàn)個(gè)連接。在許多情況下,層僅通過(guò)輸入和輸出與它們之前和之后的神經(jīng)元層互連。(這

19、與人類大腦中的神經(jīng)元有很大的不同,它們的互連是全方位的。)這種分層的 ANN 是今天機(jī)器學(xué)習(xí)的主要方式之一,通過(guò)饋送其大量的標(biāo)簽數(shù)據(jù),可以幫助它學(xué)習(xí)如何解讀數(shù)據(jù)(有時(shí)甚至比人類做得更好)。以圖像識(shí)別為例,它依賴于稱為卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特定類型的神經(jīng)網(wǎng)絡(luò),因?yàn)樗褂梅Q為卷積的數(shù)學(xué)過(guò)程來(lái)以非文字的方式分析圖像, 例如識(shí)別部分模糊的對(duì)象或僅從某些角度可見的對(duì)象。 在最初的卷積層中, HYPERLINK /s?wd=%E6%88%90%E5%8D%83%E4%B8%8A%E4%B8%87&tn=24004469_oem_dg&rsv_dl=gh_pl_sl_csd t /chivalrousli

20、/article/details/_blank 成千上萬(wàn)的神經(jīng)元充當(dāng)?shù)谝唤M過(guò)濾器,搜尋圖像中的每個(gè)部分和像素,找出模式(pattern)。隨著越來(lái)越多的圖像被處理,每個(gè)神經(jīng)元逐漸學(xué)習(xí)過(guò)濾特定的特征,這提高了準(zhǔn)確性。比如圖像是蘋果,一個(gè)過(guò)濾器可能專注于發(fā)現(xiàn)“紅色”這一顏色,而另一個(gè)過(guò)濾器可能會(huì)尋找圓形邊緣,另一個(gè)過(guò)濾器則會(huì)識(shí)別細(xì)細(xì)的莖。如果你要清理混亂的地下室,準(zhǔn)備在車庫(kù)搞個(gè)大銷售,你就能理解把一切按不同的主題分類是什么意思了(玩具、電子產(chǎn)品、藝術(shù)品、衣服等等)。 卷積層就是通過(guò)將圖像分解成不同的特征來(lái)做這件事的。神經(jīng)網(wǎng)絡(luò)賴以成名的絕招與早期的 AI 方法(比如 Deep Blue 中用到的)不

21、同,這些過(guò)濾器不是人工設(shè)計(jì)的。他們純粹是通過(guò)查看數(shù)據(jù)來(lái)學(xué)習(xí)和自我完善。卷積層創(chuàng)建了不同的、細(xì)分的圖像版本,每個(gè)專用于不同的過(guò)濾特征顯示其神經(jīng)元在哪里看到了紅色、莖、曲線和各種其他元素的實(shí)例(但都是部分的)。3 基于卷積神經(jīng)網(wǎng)絡(luò)遙感圖像分類算法3.1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)多層的神經(jīng)網(wǎng)絡(luò),每層由多個(gè)二維平面組成,而每個(gè)平面由多個(gè)獨(dú)立神經(jīng)元組成。網(wǎng)絡(luò)中包含一些簡(jiǎn)單元和復(fù)雜元,分別記為S-元和C-元。S-元聚合在一起組成S-面,S-面聚合在一起組成S-層,用Us表示。C-元、C-面和C-層(Us)之間存在類似的關(guān)系。網(wǎng)絡(luò)的任一中間級(jí)由S-層與C-層串接而成,而輸入級(jí)只含一層,它直接接

22、受二維視覺模式,樣本特征提取步驟已嵌入到卷積神經(jīng)網(wǎng)絡(luò)模型的互聯(lián)結(jié)構(gòu)中。一般地,Us為特征提取層,每個(gè)神經(jīng)元的輸入與前一層的局部感受野相連,并提取該局部的特征,一旦該局部特征被提取后,它與其他特征間的位置關(guān)系也隨之確定下來(lái);Uc是特征映射層,網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射為一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。此外,由于一個(gè)映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù),降低了網(wǎng)絡(luò)參數(shù)選擇的復(fù)雜度。卷積神經(jīng)網(wǎng)絡(luò)中的每一個(gè)特征提取層(S-層)都緊跟著一個(gè)用來(lái)求局部平均與二次

23、提取的計(jì)算層(C-層),這種特有的兩次特征提取結(jié)構(gòu)使網(wǎng)絡(luò)在識(shí)別時(shí)對(duì)輸入樣本有較高的畸變?nèi)萑棠芰?。網(wǎng)絡(luò)中神經(jīng)元的輸出連接值符合“最大值檢出假說(shuō)”,即在某一小區(qū)域內(nèi)存在的一個(gè)神經(jīng)元集合中,只有輸出最大的神經(jīng)元才強(qiáng)化輸出連接值。所以若神經(jīng)元近旁存在有輸出比其更強(qiáng)的神經(jīng)元時(shí),其輸出連接值將不被強(qiáng)化。根據(jù)上述假說(shuō),就限定了只有一個(gè)神經(jīng)元會(huì)發(fā)生強(qiáng)化。卷積神經(jīng)網(wǎng)絡(luò)的種元就是某S-面上最大輸出的S-元,它不僅可以使其自身強(qiáng)化,而且還控制了鄰近元的強(qiáng)化結(jié)果。因而,所有的S-元漸漸提取了幾乎所有位置上相同的特征。在卷積神經(jīng)網(wǎng)絡(luò)早期研究中占主導(dǎo)的無(wú)監(jiān)督學(xué)習(xí)中,訓(xùn)練一種模式時(shí)需花費(fèi)相當(dāng)長(zhǎng)的時(shí)間去自動(dòng)搜索一層上所有元中

24、具有最大輸出的種元,而現(xiàn)在的有監(jiān)督學(xué)習(xí)方式中,訓(xùn)練模式同它們的種元皆由教師設(shè)定。如圖2的卷積神經(jīng)網(wǎng)絡(luò)的典型結(jié)構(gòu)圖。將原始圖像直接輸入到輸入層(Uc1),原始圖像的大小決定了輸入向量的尺寸,神經(jīng)元提取圖像的局部特征,因此每個(gè)神經(jīng)元都與前一層的局部感受野相連。文中使用了4層網(wǎng)絡(luò)結(jié)構(gòu),隱層由S-層和C-層組成。每層均包含多個(gè)平面,輸入層直接映射到Us2層包含的多個(gè)平面上。每層中各平面的神經(jīng)元提取圖像中特定區(qū)域的局部特征,如邊緣特征,方向特征等,在訓(xùn)練時(shí)不斷修正S-層神經(jīng)元的權(quán)值。同一平面上的神經(jīng)元權(quán)值相同,這樣可以有相同程度的位移、旋轉(zhuǎn)不變性。S-層中每個(gè)神經(jīng)元局部輸入窗口的大小均為5x5,由于同一

25、個(gè)平面上的神經(jīng)元共享一個(gè)權(quán)值向量,所以從一個(gè)平面到下一個(gè)平面的映射可以看作是作卷積運(yùn)算,S-層可看作是模糊濾波器,起到二次特征提取的作用。隱層與隱層之間空間分辨率遞減,而每層所含的平面數(shù)遞增,這樣可用于檢測(cè)更多的特征信息。 圖2 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖3.2 卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練設(shè)置在卷積神經(jīng)網(wǎng)絡(luò)中,只有S-元間的輸入連接是可變的,而其他元的輸入連接是固定的。用Usl(kl,n)表示第l級(jí),第kl個(gè)S-面上,一個(gè)S-元的輸出,用Ucl(kl,n)表示在該級(jí)第kl個(gè)C-面上一個(gè)C-元的輸出。其中,n是一個(gè)二維坐標(biāo),代表輸入層中神經(jīng)元的感受野所在位置,在第一級(jí),感受野的面積較小,隨后隨著l的增大而增加。

26、(3.1)式(3.1)中al(v,kl-1,k)和bl(k)分別表示興奮性輸入和抑制性輸入的連接系數(shù);rl(k)控制特征提取的選擇性,其值越大,對(duì)噪音和特征畸變的容錯(cuò)性越差,它是一常量,它控制著位于每一S-層處的單個(gè)抑制子平面中每個(gè)神經(jīng)元的輸入: rl(k)的值越大,與抑制性成比例的興奮性就得越大,以便能產(chǎn)生一個(gè)非零輸出,換句話說(shuō)就是相當(dāng)好的匹配才一能激活神經(jīng)元,然而因?yàn)閞l(k)還需乘以(),所以rl值越大就能產(chǎn)生越大的輸出,相反,小的rl(k)值允許不太匹配的神經(jīng)元興奮,但它只能產(chǎn)生一個(gè)比較小的輸出;(x)為非線性函數(shù)。v是一個(gè)矢量,表示處于n感受野中的前層神經(jīng)元n的相對(duì)位置,Al確定S神

27、經(jīng)元要提取特征的大小,代表n的感受野。所以式中對(duì)v的求和也就包含了指定區(qū)域當(dāng)中所有的神經(jīng)元;外面對(duì)于勺kl-1的求和,也就包含了前一級(jí)的所有子平面,因此在分子中的求和項(xiàng)有時(shí)也被稱作興奮項(xiàng),實(shí)際上為乘積的和,輸入到n的神經(jīng)元的輸出都乘上它們相應(yīng)的權(quán)值然后再輸出到nc。 (3.2)式(3.2)表示的是指定某級(jí)(第l級(jí))、某層(S-層)、某面(第kl個(gè)S-面)、某元(向量為n處)的一個(gè)輸出。對(duì)于一個(gè)S-元的作用函數(shù)可分為兩部分,即興奮性作用函數(shù)和抑制性作用函數(shù)。興奮性作用使得膜電位上升,而抑制性作用起分流作用。興奮性作用為: (3.3) S-元與其前一級(jí)C-層的所有C-面均有連接,所連接的C-元個(gè)數(shù)

28、由該S-級(jí)的參數(shù)感受野Al唯一確定。網(wǎng)絡(luò)中另一個(gè)重要的神經(jīng)元是假設(shè)存在的抑制性神經(jīng)元V-元Uvl (n),它位于S-面上滿足以下三個(gè)條件:環(huán)元的抑制作用影響整個(gè)網(wǎng)絡(luò)的運(yùn)作;C-元與V-元間存在著固定的連接;V-元的輸出事先設(shè)為多個(gè)C-元輸出的平均值。可以用它來(lái)表示網(wǎng)絡(luò)的抑制性作用,發(fā)送一個(gè)抑制信號(hào)給Usl(kl,n)神經(jīng)元,從與Usl(kl,n)類似的元接收它的輸入連接值,并輸出: (3.4) 權(quán)cl(v)是位于V元感受野中的v處的神經(jīng)元相連的權(quán)值,不需要訓(xùn)練這些值,但它們應(yīng)隨著v的增加而單調(diào)減小。因此,選擇式3.5的歸一化權(quán)值。 (3.5) 式3.5中的歸一化常量C由式3.6給出,其中:r(

29、v)是從v處到感受野中心的歸一化距離: (3.6) C神經(jīng)元的輸出由式3.7給出: (2.7)上式中(x)為: (3.8)式中為一常量。kl是第l級(jí)中的S子平面的數(shù)量。Dl是C元的感受野。因此,它和特征的大小相對(duì)應(yīng)。dl(v)是固定興奮連接權(quán)的權(quán)值,它是v的單調(diào)遞減函數(shù)。如果第kl個(gè)S神經(jīng)元子平面從第kl-1子平面處收到信號(hào),那么jl(kl,kl-1)的值為,1否則為0。最后,S_層的Vs神經(jīng)元的輸出為 (3.9)3.3 數(shù)據(jù)增強(qiáng) 卷積神經(jīng)網(wǎng)絡(luò)CNN主要用來(lái)識(shí)別位移、縮放及其他形式扭曲不變性的二維圖形。由于CNN的特征檢測(cè)層通過(guò)訓(xùn)練數(shù)據(jù)進(jìn)行學(xué)習(xí),所以在使用CNN時(shí),避免了顯示的特征抽取,而隱式

30、地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí);再者由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以網(wǎng)絡(luò)可以并行學(xué)習(xí),這也是卷積網(wǎng)絡(luò)相對(duì)于神經(jīng)元彼此相連網(wǎng)絡(luò)的一大優(yōu)勢(shì)。卷積神經(jīng)網(wǎng)絡(luò)以其局部權(quán)值共享的特殊結(jié)構(gòu)在語(yǔ)音識(shí)別和圖像處理方面有著獨(dú)特的優(yōu)越性,其布局更接近于實(shí)際的生物神經(jīng)網(wǎng)絡(luò),權(quán)值共享降低了網(wǎng)絡(luò)的復(fù)雜性,特別是多維輸入向量的圖像可以直接輸入網(wǎng)絡(luò)這一特點(diǎn)避免了特征提取和分類過(guò)程中數(shù)據(jù)重建的復(fù)雜度。流的分類方式幾乎都是基于統(tǒng)計(jì)特征的,這就意味著在進(jìn)行分辨前必須提取某些特征。然而,顯式的特征提取并不容易,在一些應(yīng)用問(wèn)題中也并非總是可靠的。卷積神經(jīng)網(wǎng)絡(luò),它避免了顯式的特征取樣,隱式地從訓(xùn)練數(shù)據(jù)中進(jìn)行學(xué)習(xí)。這使得卷積神經(jīng)網(wǎng)絡(luò)明顯

31、有別于其他基于神經(jīng)網(wǎng)絡(luò)的分類器,通過(guò)結(jié)構(gòu)重組和減少權(quán)值將特征提取功能融合進(jìn)多層感知器。它可以直接處理灰度圖片,能夠直接用于處理基于圖像的分類。卷積網(wǎng)絡(luò)較一般神經(jīng)網(wǎng)絡(luò)在圖像處理方面有如下優(yōu)點(diǎn): a) 輸入圖像和網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)能很好的吻合;b) 特征提取和模式分類同時(shí)進(jìn)行,并同時(shí)在訓(xùn)練中產(chǎn)生;c)權(quán)重共享可以減少網(wǎng)絡(luò)的訓(xùn)練參數(shù),使神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)變得更簡(jiǎn)單, 適應(yīng)性更強(qiáng)。4 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析4.1 實(shí)驗(yàn)平臺(tái)介紹為了在解決各種實(shí)際問(wèn)題中有效地利用深度學(xué)習(xí)模型,特別是卷積神經(jīng)網(wǎng)絡(luò),現(xiàn)在已經(jīng)有很多開發(fā)平臺(tái)和工具可以選擇。比較常用的有Theano、TensorFlow、Caffe、Caffe2、CNTK、M

32、XNet、Torch、Deeplearning4J和Keras等,其中TensorFlow、Caffe2和MXNet之間的競(jìng)爭(zhēng)可能會(huì)比較激烈。目前,這些平臺(tái)和工具還沒有任何一種完善到足以解決“所有”的業(yè)務(wù)問(wèn)題,大多通過(guò)專有解決方案提供先進(jìn)的機(jī)器學(xué)習(xí)和人工智能的功能,包括手寫字符識(shí)別、圖像識(shí)別、視頻識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理和對(duì)象識(shí)別等高級(jí)功能。下面分別對(duì)主要幾個(gè)進(jìn)行簡(jiǎn)要的說(shuō)明?!?】TensorFlow支持廣泛的功能,如圖像識(shí)別、手寫字符識(shí)別、語(yǔ)音識(shí)別、預(yù)測(cè)以及自然語(yǔ)言處理,所以在2015年11月9日以Apache2.0許可開源后,谷歌立即獲得了大量的關(guān)注。TensorFlow在2017年2

33、月15日發(fā)布了1.0版本,是8個(gè)先前版本的累積,解決了很多不完整的核心功能和性能問(wèn)題。TensorFlow的編程接口包括Python和C+,并支持Java、Go、R和HaskellAPI的alpha版本接口。另外,TensorFlow支持精細(xì)的網(wǎng)格層,允許用戶構(gòu)建新的復(fù)雜層類型,允許模型的不同部分在不同的設(shè)備上并行訓(xùn)練,還可以使用C+Eigen庫(kù)在ARM架構(gòu)上編譯和優(yōu)化。經(jīng)過(guò)訓(xùn)練的TensorFlow模型可以部署在各種服務(wù)器或移動(dòng)設(shè)備上,無(wú)須實(shí)現(xiàn)單獨(dú)的解碼器或加載Python解釋器。【2】MXNet(發(fā)音為“mix-net”)是一個(gè)功能齊全、可編程和可擴(kuò)展的深度學(xué)習(xí)框架,支持各種深度學(xué)習(xí)模型(

34、比如卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)),也是目前唯一支持生成對(duì)抗網(wǎng)絡(luò)模型的深度學(xué)習(xí)框架。而且,MXNet提供了混合編程模型(命令式和聲明式)的功能、大量編程語(yǔ)言的代碼(包括Python、C+、R、Scala、Julia、Matlab和JavaScript),以及強(qiáng)大的擴(kuò)展能力(如GPU并行性和內(nèi)存鏡像、編程器開發(fā)速度和可移植性),甚至被有些人稱為世界上最好的圖像分類器。此外,MXNet與ApacheHadoopYARN(一種通用的、分布式的應(yīng)用程序管理框架)集成,使其成為TensorFlow的競(jìng)爭(zhēng)對(duì)手。特別是,亞馬遜首席技術(shù)官WernerVogels選擇公開支持MXNet,蘋果公司在

35、2016年收購(gòu)Graphlab/Dato/Turi之后也傳聞使用它。4.2 實(shí)驗(yàn)數(shù)據(jù)集介紹MNIST是一個(gè)著名的手寫數(shù)字?jǐn)?shù)據(jù)集,包括60000個(gè)訓(xùn)練樣本,10000個(gè)測(cè)試樣本。其中,每個(gè)樣本圖像的大小為2828像素,僅包含一個(gè)單一的手寫數(shù)字字符。像素的取值范圍是0,255,其中0表示黑,255表示白,中間值表示灰度級(jí)。ImageNet是一個(gè)擁有超過(guò)1500萬(wàn)幅圖像、約22000個(gè)類別的數(shù)據(jù)集,可用于大規(guī)模圖像識(shí)別、定位和檢測(cè)的研究。ImageNet2012包含1281167幅訓(xùn)練圖像和50000幅測(cè)試圖像,共有1000個(gè)類別。訓(xùn)練集中各類圖像的數(shù)目可能不同,最少為732幅,最多為1300幅。而

36、測(cè)試集中各類圖像的數(shù)目都是50幅。VOC2007(即PascalVoc2007)是一個(gè)關(guān)于物體和場(chǎng)景的圖像數(shù)據(jù)集,可以用于目標(biāo)檢測(cè)和語(yǔ)義分割任務(wù)。PascalVOC的全名是“PatternAnalysis,StatisticalModellingandComputationalLearningVisualObjectClasses”,指的是模式分析、統(tǒng)計(jì)建模、計(jì)算學(xué)習(xí)視覺物體分類。該數(shù)據(jù)集包含訓(xùn)練驗(yàn)證集文件夾trainval和測(cè)試集文件夾test,分別包含5011幅和4952幅大小不同的圖像。而且,這兩個(gè)文件夾各自又都包含5個(gè)子文件夾:JPEGImages、Annotations、ImageSets、SegmentationClass和SegmentationObject。其中,JPEGImages存放的是所有圖像,包含20個(gè)類別。Annotations存放的是xml格式的標(biāo)簽文件,每一個(gè)xml文件都對(duì)應(yīng)于JPEGImages下的一幅圖像。ImageSets存放的是具體的圖像信息,下設(shè)3個(gè)子文件夾Layout、Main和Segmentation,分別存放人體部位數(shù)據(jù)(比如head、hand、feet等)、20類圖像物體識(shí)別數(shù)據(jù),以及可用于分割的數(shù)據(jù)。SegmentationClass和SegmentationObject用

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論