基于神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究

上傳人：T*** IP屬地：湖北上傳時(shí)間：2023-10-26 格式：DOCX 頁(yè)數(shù)：48 大小：868.77KB 積分：7.99 舉報(bào) 版權(quán)申訴

基于神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究_第2頁(yè)

基于神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究_第3頁(yè)

基于神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究_第4頁(yè)

基于神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究_第5頁(yè)

已閱讀5頁(yè)，還剩43頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

PAGEPAGEIV摘要由于人臉表情的多樣性、背景的復(fù)雜性、光照的變化、姿態(tài)的差異等，人臉識(shí)別在實(shí)際應(yīng)用中仍然具有挑戰(zhàn)性。人臉作為一種生物特征，在公安、圖像搜索等領(lǐng)域也有著非常方便的應(yīng)用，具有廣闊的應(yīng)用前景。由于近年來(lái)神經(jīng)網(wǎng)絡(luò)的研究成果，神經(jīng)網(wǎng)絡(luò)再次成為當(dāng)前的研究熱點(diǎn)。卷積神經(jīng)網(wǎng)絡(luò)比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)更適合于圖像處理。人臉識(shí)別技術(shù)是利用人臉來(lái)完成身份識(shí)別和驗(yàn)證任務(wù)的。本文利用卷積神經(jīng)網(wǎng)絡(luò)在近年來(lái)深學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)，完成了人臉識(shí)別中的驗(yàn)證任務(wù)。本文主要設(shè)計(jì)了兩種完全不同的深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，一種是輕量級(jí)VGG卷積神經(jīng)網(wǎng)絡(luò)，另一種是殘差卷積神經(jīng)網(wǎng)絡(luò)，并進(jìn)行人臉識(shí)別方面實(shí)驗(yàn)和分析。實(shí)驗(yàn)結(jié)果表明，在人臉識(shí)別權(quán)威測(cè)試集LFW和YTF上獲得了99.1%和93.32%的精度，相對(duì)于主流基礎(chǔ)模型分別提高0.57%和0.52%。另外，本文統(tǒng)計(jì)了改進(jìn)模型和基礎(chǔ)模型在LFW上測(cè)試的詳細(xì)數(shù)據(jù)，探討了改進(jìn)模型在效果上獲得提升的原因。關(guān)鍵詞：人臉識(shí)別身份驗(yàn)證深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)

ABSTRACTFacerecognitionisstillchallenginginpracticalapplicationsduetothediversityoffacialexpressions,thecomplexityofbackground,thechangeofilluminationandthedifferenceofposture.Face,asabiologicalfeature,hasaveryconvenientapplicationinpublicsecurity,imagesearchandotherfields,andhasbroadapplicationprospects.Becauseoftheresearchachievementsofneuralnetworksinrecentyears,neuralnetworkshavebecomethecurrentresearchhotspotagain.Asakindofneuralnetwork,convolutionalneuralnetworkhasthreeparts:localperception,weightsharinganddownsampling,whichcaneffectivelyimprovetheperformanceoftraditionalneuralnetwork.Theresultsshowthatconvolutionalneuralnetworkismoresuitableforimageprocessingthantraditionalneuralnetwork.Facerecognitiontechnologyusesfacetocompleteidentificationandverificationtasks.Thispapercompletestheverificationtaskoffacerecognitionbyusingtheresearchhotspotofconvolutionalneuralnetworkinthefieldofdeeplearninginrecentyears.Inthispaper,twocompletelydifferentstructuresofdeepconvolutionneuralnetworkaredesigned,oneisthelightweightVGGconvolutionneuralnetwork,theotheristheresidualconvolutionneuralnetwork,andfacerecognitionexperimentsandanalysisarecarriedout.Theexperimentalresultsshowthat99.1%and93.32%accuracyareobtainedonLFWandYTF,whichareimprovedby0.57%and0.52%respectivelycomparedwiththemainstreambasicmodel.Inaddition,thispaperstatisticsthedetaileddataoftheimprovedmodelandthebasicmodeltestedonLFW,andexploresthereasonswhytheimprovedmodelhasbeenimprovedineffect.KEYWORDS：Facerecognition;Authentication;Deeplearning;Convolutionalneuralnetwork目錄第1章緒論 11.1課題研究的背景與意義 11.2國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展趨勢(shì) 2第2章相關(guān)算法概述 52.1人工神經(jīng)網(wǎng)絡(luò) 52.1.1神經(jīng)元 52.1.2神經(jīng)網(wǎng)絡(luò)模型 72.2卷積神經(jīng)網(wǎng)絡(luò) 142.2.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu) 152.2.2卷積神經(jīng)網(wǎng)絡(luò)相關(guān)改進(jìn)方法 182.2.3卷積神經(jīng)網(wǎng)絡(luò)的性能 202.3典型的網(wǎng)絡(luò)結(jié)構(gòu) 212.3.1AlexNet 212.3.2VGG-Net 222.3.3GoogLeNet 232.3.4ResNet 24第3章輕量級(jí)VGG卷積神經(jīng)網(wǎng)絡(luò) 263.1輕量級(jí)VGG 263.1.1原VGG網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)析 263.1.2輕量級(jí)VGG神經(jīng)網(wǎng)絡(luò)模型 283.2輕量級(jí)VGG模型的訓(xùn)練與實(shí)驗(yàn)分析 313.2.1圖片數(shù)據(jù)庫(kù)與預(yù)處理 313.2.2輕量級(jí)VGG網(wǎng)絡(luò)模型的訓(xùn)練與實(shí)驗(yàn)分析 323.2.2.1模型訓(xùn)練 333.2.2.2實(shí)驗(yàn)結(jié)果與分析比較 333.3本章小結(jié) 36第4章殘差卷積神經(jīng)網(wǎng)絡(luò) 374.1深層網(wǎng)絡(luò)優(yōu)化難題 374.2殘差學(xué)習(xí)（ResidualLearning） 384.3殘差卷積神經(jīng)網(wǎng)絡(luò) 394.3.1BatchNormalization 394.3.2ResidualBlock局部單元 404.4殘差卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與實(shí)驗(yàn)分析 414.4.1圖片數(shù)據(jù)與預(yù)處理 414.4.2網(wǎng)絡(luò)的訓(xùn)練 424.4.3LFW驗(yàn)證結(jié)果分析 434.5本章小結(jié) 44第5章總結(jié)與展望 45參考文獻(xiàn) 46發(fā)表論文和參加科研情況說(shuō)明 51致謝 52第1章緒論P(yáng)AGE40第1章緒論 1.1課題研究的背景與意義隨著計(jì)算機(jī)技術(shù)和信息處理技術(shù)的發(fā)展，計(jì)算機(jī)視覺(jué)逐漸成為一個(gè)備受關(guān)注的領(lǐng)域。利用計(jì)算機(jī)技術(shù)對(duì)可視化信息進(jìn)行采集、處理和響應(yīng)，具有方便、快捷、高效、便于管理和統(tǒng)計(jì)分析等優(yōu)點(diǎn)。與指紋、虹膜、DNA等其他生物特征相比，人臉特征更加突出，易于采集。它們適用于各種環(huán)境和情況下的生物特征信息采集和處理。利用計(jì)算機(jī)視覺(jué)技術(shù)對(duì)人臉信息進(jìn)行分析和處理，可以廣泛應(yīng)用于虛擬現(xiàn)實(shí)、安全監(jiān)控、醫(yī)療診斷、高級(jí)人機(jī)交互、視頻會(huì)議、基于內(nèi)容的圖像存儲(chǔ)和檢索等領(lǐng)域。具有廣闊的應(yīng)用前景和潛在的經(jīng)濟(jì)價(jià)值。因此，這一領(lǐng)域吸引了世界上許多科研機(jī)構(gòu)和研究人員，成為一個(gè)非常活躍的研究課題。人臉?lè)治霭ㄈ四樧R(shí)別、人臉跟蹤、人臉識(shí)別、人臉表情分析等。人臉識(shí)別與跟蹤是人臉信息處理的第一步。當(dāng)我們識(shí)別一個(gè)人時(shí)，首先在需要檢索的圖像場(chǎng)景中確定人臉的位置，然后檢測(cè)該位置以確定該區(qū)域是否為人臉區(qū)域，稱為人臉識(shí)別，檢測(cè)完人臉后，我們需要實(shí)時(shí)跟蹤和確定人臉區(qū)域，并保持這個(gè)區(qū)域。鎖定一個(gè)人臉區(qū)域稱為人臉跟蹤，識(shí)別和判斷被跟蹤人臉區(qū)域的任務(wù)稱為人臉識(shí)別，可以分析人臉圖像區(qū)域的表達(dá)。這個(gè)過(guò)程對(duì)人來(lái)說(shuō)很簡(jiǎn)單，但卻是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)難題因此，人臉識(shí)別與跟蹤技術(shù)是一個(gè)極具挑戰(zhàn)性的研究方向，目前所有的理論和算法都在從各個(gè)方面逼近這種識(shí)別能力。1.2國(guó)內(nèi)外研究現(xiàn)狀及發(fā)展趨勢(shì)20世紀(jì)末是人臉識(shí)別快速發(fā)展的時(shí)期?；谥鞒煞址治觯≒CA）的特征臉?lè)椒ㄒ呀?jīng)被廣泛應(yīng)用。在此階段，Belhumeur等人同時(shí)提出了基于線性判別分析（LDA）的FISHE算法。面法。在這一階段，人臉識(shí)別領(lǐng)域積累了一系列重要的理論。從1998年到2014年，人臉識(shí)別進(jìn)入了成熟階段。這一階段的主要研究目標(biāo)是解決人臉識(shí)別中光照、表情、姿態(tài)、遮擋、噪聲等外部因素引起的變化。針對(duì)這一目標(biāo)，提出了基于PCA和LDA的擴(kuò)展方法?；诹餍螌W(xué)習(xí)的人臉識(shí)別方法突破了以往人臉識(shí)別的瓶頸。流形學(xué)習(xí)得到的非線性子空間能夠更好地表達(dá)人臉的特征，掌握樣本的全局和局部信息?；诰植刻卣鞯娜四樧R(shí)別方法在這一階段取得了良好的效果。常用的局部特征方法有局部二值模式（LBP）、GABOR小波等。這種方法提取人臉細(xì)節(jié)特征，對(duì)光照、遮擋、姿態(tài)等變化不敏感，引起了眾多研究者的關(guān)注。2014年以來(lái)，深度學(xué)習(xí)開(kāi)啟了人臉識(shí)別的新時(shí)代。大量基于深度學(xué)習(xí)的人臉識(shí)別方法被提出，“大數(shù)據(jù)+深度學(xué)習(xí)”已成為人臉識(shí)別技術(shù)的主流手段。2014，臉譜網(wǎng)推出了4000張400萬(wàn)人的深臉網(wǎng)絡(luò)，在測(cè)試中達(dá)到了97.25%的準(zhǔn)確率，成為人臉識(shí)別領(lǐng)域深入學(xué)習(xí)的基礎(chǔ)。香港中文大學(xué)的研究團(tuán)隊(duì)提出了一系列基于深度學(xué)習(xí)的人臉識(shí)別方法：Deepid1、Deepid2、Deepid2+和deepid3。隨著網(wǎng)絡(luò)結(jié)構(gòu)的發(fā)展和網(wǎng)絡(luò)層次的逐步深入，Deepid3在lfw測(cè)試集中取得了99.53%的良好效果[1]。這一系列的方法采用由幾個(gè)相同的小網(wǎng)絡(luò)組成的網(wǎng)絡(luò)結(jié)構(gòu)。每個(gè)小網(wǎng)絡(luò)在對(duì)人臉圖像進(jìn)行分割后，接收一個(gè)固定大小的面片的輸入，并將每個(gè)面片學(xué)習(xí)到的特征進(jìn)行融合，得到整個(gè)人臉圖像的特征向量。2015年，Google的Facenet算法提出使用三重?fù)p失函數(shù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練，并在此算法的基礎(chǔ)上，使用2億張人臉圖像進(jìn)行訓(xùn)練，在LFW測(cè)試集上達(dá)到99.63%的準(zhǔn)確率[2]。同年，百度、騰訊、無(wú)知等擁有海量數(shù)據(jù)的大公司也提出了自己的基于深度學(xué)習(xí)算法的研究。隨著硬件平臺(tái)的發(fā)展，網(wǎng)絡(luò)模式的深度學(xué)習(xí)呈現(xiàn)出層次越來(lái)越深的趨勢(shì)。同時(shí)，由于網(wǎng)絡(luò)層次太深，在訓(xùn)練中也存在一些困難，包括訓(xùn)練收斂、訓(xùn)練耗時(shí)等。因此，提出了一系列的訓(xùn)練技術(shù)，如Google提出的BN加速機(jī)制和HE等人提出的網(wǎng)絡(luò)剪枝技術(shù)。加快網(wǎng)絡(luò)深度訓(xùn)練。從網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的角度來(lái)看，也有解決這些問(wèn)題的方法，如Resnet和Densenet網(wǎng)絡(luò)模型。同時(shí)，還存在用于人臉識(shí)別評(píng)價(jià)的數(shù)據(jù)集。深度學(xué)習(xí)給人臉識(shí)別技術(shù)帶來(lái)了飛速的發(fā)展，也終結(jié)了作為評(píng)價(jià)數(shù)據(jù)集的性能競(jìng)爭(zhēng)。近年來(lái)，人臉識(shí)別的研究逐漸集中在實(shí)際應(yīng)用場(chǎng)景上。一些更具挑戰(zhàn)性的面部評(píng)估數(shù)據(jù)集已經(jīng)發(fā)布，如ijb-a數(shù)據(jù)集、Ms-Celeb-1m、Megaface數(shù)據(jù)庫(kù)[3]。深度學(xué)習(xí)已經(jīng)成為人臉識(shí)別乃至計(jì)算機(jī)視覺(jué)領(lǐng)域的主流方法。從近年來(lái)人臉識(shí)別的發(fā)展來(lái)看，我們可以看到幾個(gè)變化：（1）主流網(wǎng)絡(luò)模式結(jié)構(gòu)正在向縱深發(fā)展。相關(guān)實(shí)驗(yàn)證明，層次越深，從網(wǎng)絡(luò)模型中提取的特征的表示能力越好。現(xiàn)代計(jì)算機(jī)計(jì)算能力的增強(qiáng)也為網(wǎng)絡(luò)的深化和復(fù)雜化提供了堅(jiān)實(shí)的平臺(tái)。（2）數(shù)據(jù)是提高深度學(xué)習(xí)成績(jī)的關(guān)鍵。學(xué)術(shù)界公布的標(biāo)注信息數(shù)據(jù)為深度學(xué)習(xí)創(chuàng)造了良好的學(xué)習(xí)資源，海量數(shù)據(jù)的使用也是目前深度學(xué)習(xí)的發(fā)展方向。（3）龐大復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)和海量的數(shù)據(jù)不僅帶來(lái)了效益，而且增加了網(wǎng)絡(luò)模型的訓(xùn)練難度和訓(xùn)練時(shí)間。如何解決網(wǎng)絡(luò)精度下降的問(wèn)題第3章輕量級(jí)VGG卷積神經(jīng)網(wǎng)絡(luò)第2章相關(guān)算法概述2.1人工神經(jīng)網(wǎng)絡(luò)人工神經(jīng)網(wǎng)絡(luò)（ann）是根據(jù)腦神經(jīng)的工作原理建立的數(shù)學(xué)模型。它由大量相互連接的節(jié)點(diǎn)組成。每個(gè)節(jié)點(diǎn)代表一個(gè)輸出函數(shù)。兩個(gè)相互連接的節(jié)點(diǎn)之間有一個(gè)權(quán)重，用于通過(guò)連接對(duì)信號(hào)進(jìn)行權(quán)重。網(wǎng)絡(luò)模型的輸出受輸出函數(shù)和權(quán)重的影響。值效果，輸出可以是函數(shù)值或邏輯表達(dá)式。2.1.1神經(jīng)元對(duì)神經(jīng)元的研究始于1904年，當(dāng)時(shí)生物學(xué)家對(duì)神經(jīng)元的組成非常熟悉。一個(gè)神經(jīng)可以有多個(gè)樹(shù)突來(lái)接收信息；一個(gè)神經(jīng)元中只有一個(gè)軸突，軸突末梢可以將信息傳遞給其他神經(jīng)元[4]。不同神經(jīng)元通過(guò)軸突與樹(shù)突相互連接并傳遞信號(hào)。在生物學(xué)中連接的位置叫“突觸”。下圖是人腦神經(jīng)元的簡(jiǎn)單說(shuō)明：圖2.1生物神經(jīng)元圖2.2：神經(jīng)元模型圖2.2是一個(gè)簡(jiǎn)單的神經(jīng)元模型，有三個(gè)輸入和一個(gè)相應(yīng)的輸出。神經(jīng)元之間的連接具有權(quán)值，在神經(jīng)元信息的傳遞中起著重要的作用。訓(xùn)練神經(jīng)元模型的目的是優(yōu)化模型中的權(quán)值，以達(dá)到最佳的預(yù)測(cè)效果。如果A是神經(jīng)元模型的輸入，W是神經(jīng)元模型的權(quán)重，則信號(hào)A通過(guò)神經(jīng)元模型的權(quán)重從神經(jīng)元的輸入變?yōu)锳*W。神經(jīng)元模型中的箭頭表示重量轉(zhuǎn)移。流程圖如圖2.3所示。圖2.3：神經(jīng)元模型[5]圖2.2的運(yùn)算過(guò)程可以用如下公式表示：（2.1）可見(jiàn)z是在輸入和權(quán)值的線性加權(quán)和疊加了一個(gè)函數(shù)g的值。在MP模型中函數(shù)g是取符號(hào)函數(shù)，函數(shù)的輸入大于0為1其他為0[6]。對(duì)圖2.3中的神經(jīng)元進(jìn)行一些改變，把sum與sgn函數(shù)結(jié)合，代表神經(jīng)元的內(nèi)部運(yùn)算，然后表明輸入輸出。神經(jīng)元可以看作是存儲(chǔ)單元可以有多個(gè)輸出，神經(jīng)元對(duì)其輸入有計(jì)算功能，并且能暫存計(jì)算結(jié)構(gòu)，然后傳遞到下一層如下圖所示。圖2.4：神經(jīng)元擴(kuò)展用神經(jīng)元模型組成網(wǎng)絡(luò)后，描述某個(gè)神經(jīng)元模型，我們用unit指代，神經(jīng)網(wǎng)絡(luò)也是有向圖模型所以可以用node表示同樣的意思。神經(jīng)元的模型有一個(gè)數(shù)據(jù)稱作樣本，樣本中有4個(gè)屬性其中3個(gè)是已知的屬性1個(gè)是未知的屬性，通過(guò)3個(gè)已知屬性求未知屬性是我們要做的。運(yùn)用神經(jīng)元的公式對(duì)已知數(shù)據(jù)進(jìn)行說(shuō)明，屬性a1，a2，a3是已知屬性，z是未知屬性，z通過(guò)公式可以得出，模型中已知屬性稱作特征，未知屬性稱作目標(biāo)[7]。特征與目標(biāo)的關(guān)系如果是線性的，那我們就能通過(guò)已知的權(quán)值w1，w2，w3計(jì)算出z的結(jié)果。2.1.2神經(jīng)網(wǎng)絡(luò)模型神經(jīng)網(wǎng)絡(luò)是由大量神經(jīng)元組成的。由大量神經(jīng)元組成的復(fù)雜神經(jīng)網(wǎng)絡(luò)具有許多與人腦相似的基本特征。神經(jīng)網(wǎng)絡(luò)是一個(gè)高度復(fù)雜的學(xué)習(xí)系統(tǒng)。該系統(tǒng)具有并行、自學(xué)習(xí)、并行存儲(chǔ)、自組織和自適應(yīng)能力，具有并行、自學(xué)習(xí)和自適應(yīng)能力。處理具有不確定性或多因素的信息處理問(wèn)題。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。神經(jīng)元與動(dòng)物神經(jīng)元相似。當(dāng)人們分析神經(jīng)系統(tǒng)時(shí)，他們會(huì)受到啟發(fā)，將動(dòng)物神經(jīng)元轉(zhuǎn)化為數(shù)學(xué)模型，可以模擬動(dòng)物神經(jīng)元。（1）單層神經(jīng)網(wǎng)絡(luò)及工作過(guò)程最早的MP模型雖然只擁有簡(jiǎn)單的機(jī)構(gòu)，rosenblatt在1958年提出兩層神經(jīng)元組成的神經(jīng)網(wǎng)絡(luò)，它叫做感知器。感知器是當(dāng)時(shí)第一個(gè)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)。rosenblatt[8]通過(guò)演示感知器模型學(xué)習(xí)識(shí)別圖像的過(guò)程引起了轟動(dòng)。許多研究者認(rèn)為人們已經(jīng)發(fā)現(xiàn)了智力的奧秘并將其投入到相關(guān)的研究中。美國(guó)軍方也在神經(jīng)網(wǎng)絡(luò)的相關(guān)研究上投入巨資，稱神經(jīng)網(wǎng)絡(luò)甚至比原子彈更重要。這可以看作是神經(jīng)網(wǎng)絡(luò)發(fā)展的第一個(gè)高潮。在MP模型中，加入神經(jīng)元節(jié)點(diǎn)代替原始輸入，稱為輸入單元。圖2.5顯示了神經(jīng)元的變化。圖2.5：?jiǎn)螌由窠?jīng)網(wǎng)絡(luò)感知器分為輸入層和輸出層。輸入單元只負(fù)責(zé)傳輸數(shù)據(jù)而不進(jìn)行計(jì)算。在輸出單元輸出之前進(jìn)行計(jì)算。從而生成計(jì)算層。包含計(jì)算的網(wǎng)絡(luò)稱為單層神經(jīng)網(wǎng)絡(luò)。我們可以根據(jù)網(wǎng)絡(luò)的層數(shù)來(lái)命名網(wǎng)絡(luò)，例如，通過(guò)命名網(wǎng)絡(luò)?！薄案兄鳌北环Q為兩層神經(jīng)網(wǎng)絡(luò)，但在本文中，我們根據(jù)計(jì)算層的數(shù)量將其命名為[9]。因此，感知器又稱為兩層神經(jīng)網(wǎng)絡(luò)。如果預(yù)測(cè)值從一個(gè)數(shù)字變?yōu)橐粋€(gè)向量，我們需要增加輸出單位，如圖2.6所示。圖2.6：?jiǎn)螌由窠?jīng)網(wǎng)絡(luò)如圖所示z1的值并沒(méi)有變化我們可以把z1的輸出結(jié)果向多個(gè)神經(jīng)元傳遞。z2的求解過(guò)程，如圖2.7所示。圖2.7：?jiǎn)螌由窠?jīng)網(wǎng)絡(luò)z2的計(jì)算過(guò)程與z1不同點(diǎn)是權(quán)值不同，z1的權(quán)值是w1，w2，w3，z2的權(quán)值是w4，w5，w6，圖2.8給出求解過(guò)程。圖2.8：?jiǎn)螌由窠?jīng)網(wǎng)絡(luò)通過(guò)觀察，我們發(fā)現(xiàn)這個(gè)公式是一個(gè)線性方程。我們可以用矩陣運(yùn)算來(lái)表示輸出公式，它可以表示為g（w*a）=z；這個(gè)公式是神經(jīng)網(wǎng)絡(luò)的矩陣運(yùn)算。感知器的權(quán)值與神經(jīng)元模型的權(quán)值不同，但它是通過(guò)訓(xùn)練獲得的。如前所述，感知器是一個(gè)可以執(zhí)行線性分類(lèi)任務(wù)的模型。我們可以通過(guò)決策邊界來(lái)觀察效果。決策劃分是在二維數(shù)據(jù)平面上加一條分界線。如果是三維數(shù)據(jù)，我們需要找到一個(gè)分割面。如果數(shù)據(jù)是n維的，我們需要n1維超平面來(lái)劃分它。圖2.9顯示了二維感知器的分界效果。圖2.9：?jiǎn)螌由窠?jīng)網(wǎng)絡(luò)的決策分界（2）兩層神經(jīng)網(wǎng)絡(luò)及其工作過(guò)程雙層神經(jīng)網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)的重要模型，因?yàn)樵谶@一時(shí)期，神經(jīng)網(wǎng)絡(luò)得到了前所未有的發(fā)展和應(yīng)用。兩層神經(jīng)網(wǎng)絡(luò)證明了minsky的問(wèn)題是不存在的。Rumelhar和Hinton的研究人員提出了神經(jīng)網(wǎng)絡(luò)的反向傳播算法，首次解決了這兩層問(wèn)題。神經(jīng)網(wǎng)絡(luò)的計(jì)算復(fù)雜性[11]。兩層神經(jīng)網(wǎng)絡(luò)增加了中間層，輸入層、輸出層、輸出層和中間層都是計(jì)算層。因此，加入了神經(jīng)網(wǎng)絡(luò)的權(quán)值矩陣。我們使用二維向量的第一維來(lái)表示神經(jīng)網(wǎng)絡(luò)一層中節(jié)點(diǎn)的排序，而第二維來(lái)表示神經(jīng)網(wǎng)絡(luò)一層，例如矩陣axy代表y層的第x節(jié)點(diǎn)。圖2.10給出了a12，a22的運(yùn)算公式。圖2.10：兩層神經(jīng)網(wǎng)絡(luò)的中間層計(jì)算計(jì)算兩層神經(jīng)網(wǎng)絡(luò)的輸出z的過(guò)程中運(yùn)用到了中間層a12，a22，具體過(guò)程如圖2.11所示。圖2.11：兩層網(wǎng)絡(luò)輸出層計(jì)算如果預(yù)測(cè)輸出結(jié)果是一個(gè)向量那么可以通過(guò)在輸出層增加節(jié)點(diǎn)改變向量的維數(shù)，用z表示網(wǎng)絡(luò)中輸出向量，W1，W2表示不同層之間的權(quán)值矩陣，得到的神經(jīng)網(wǎng)絡(luò)工作過(guò)程如下圖所示：圖2.12：兩層網(wǎng)絡(luò)的向量形式矩陣運(yùn)算的表達(dá)式可以用如下公式表示：（2.2）（2.3）通過(guò)觀察計(jì)算過(guò)程不難發(fā)現(xiàn)，運(yùn)算的表達(dá)式很簡(jiǎn)單不會(huì)因?yàn)楣?jié)點(diǎn)增多而變得復(fù)雜，神經(jīng)網(wǎng)絡(luò)的模型中有可能存在只具備存儲(chǔ)功能的點(diǎn)也叫作偏置點(diǎn)，偏置點(diǎn)是默認(rèn)存在的，值永遠(yuǎn)是1。神經(jīng)網(wǎng)絡(luò)中除了輸出層每層都含有一個(gè)偏置點(diǎn)，我們稱偏置點(diǎn)向量為b如圖2.13所示：圖2.13：帶偏置點(diǎn)的兩層網(wǎng)絡(luò)由上圖可以看出偏置點(diǎn)沒(méi)有輸入，一般情況下神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖是不會(huì)給出偏置點(diǎn)的，考慮偏執(zhí)點(diǎn)的情況下神經(jīng)網(wǎng)絡(luò)的運(yùn)算公式如下：（2.4）（2.5）在兩層神經(jīng)網(wǎng)絡(luò)中，由于sigmid函數(shù)比較光滑，所以我們用sigmoid函數(shù)代替sgn函數(shù)作為神經(jīng)網(wǎng)絡(luò)模型的激活函數(shù)。神經(jīng)網(wǎng)絡(luò)的本質(zhì)是通過(guò)激活函數(shù)和參數(shù)來(lái)擬合神經(jīng)網(wǎng)絡(luò)模型目標(biāo)與神經(jīng)網(wǎng)絡(luò)模型特征之間的函數(shù)關(guān)系。為了實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)，需要線性代數(shù)庫(kù)。理論上，兩層神經(jīng)網(wǎng)絡(luò)可以無(wú)限逼近任意連續(xù)函數(shù)，因此兩層神經(jīng)網(wǎng)絡(luò)能夠很好地處理非線性的復(fù)雜分類(lèi)任務(wù)[12]。單層神經(jīng)網(wǎng)絡(luò)的瓶頸問(wèn)題很容易用雙層神經(jīng)網(wǎng)絡(luò)來(lái)解決。目前，兩層神經(jīng)網(wǎng)絡(luò)已在人臉識(shí)別、語(yǔ)音識(shí)別、自動(dòng)駕駛、圖形識(shí)別等領(lǐng)域顯示出其應(yīng)用價(jià)值。（3）神經(jīng)網(wǎng)絡(luò)相關(guān)知識(shí)1）學(xué)習(xí)規(guī)則學(xué)習(xí)規(guī)則是修正神經(jīng)網(wǎng)絡(luò)權(quán)值和偏差的方法。有三種學(xué)習(xí)方法：監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)。在監(jiān)督學(xué)習(xí)中，當(dāng)輸入數(shù)據(jù)進(jìn)入網(wǎng)絡(luò)模型時(shí)，應(yīng)將網(wǎng)絡(luò)模型的輸出與期望目標(biāo)進(jìn)行比較，并根據(jù)學(xué)習(xí)規(guī)則調(diào)整網(wǎng)絡(luò)的權(quán)值和偏差。增強(qiáng)學(xué)習(xí)由于沒(méi)有給出相應(yīng)的輸入目標(biāo)，所以只能給出一個(gè)范圍限制。該學(xué)習(xí)規(guī)則適用于控制系統(tǒng)應(yīng)用領(lǐng)域。無(wú)監(jiān)督學(xué)習(xí)只根據(jù)輸入改變網(wǎng)絡(luò)的權(quán)值和偏差，適用于矢量量化等問(wèn)題。2）正則化只有一個(gè)隱層神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)任何非線性關(guān)系。多隱層神經(jīng)網(wǎng)絡(luò)具有較強(qiáng)的學(xué)習(xí)能力。但是，如果樣本數(shù)太少，就會(huì)出現(xiàn)過(guò)擬合問(wèn)題。為了避免過(guò)擬合問(wèn)題，可以通過(guò)正則化來(lái)減小權(quán)值的變化范圍。3）培訓(xùn)方法網(wǎng)絡(luò)模型的訓(xùn)練方法主要有四種：a.逐數(shù)據(jù)訓(xùn)練。一個(gè)接一個(gè)地將輸入數(shù)據(jù)提供給神經(jīng)網(wǎng)絡(luò)模型，然后用一個(gè)反向傳播算法對(duì)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練，直到達(dá)到理想水平才進(jìn)行下一次數(shù)據(jù)輸入。b.批量數(shù)據(jù)培訓(xùn)。所有數(shù)據(jù)一次提供給網(wǎng)絡(luò)模型。在所有數(shù)據(jù)通過(guò)網(wǎng)絡(luò)模型后，通過(guò)反向傳播算法依次調(diào)整權(quán)值c.隨機(jī)數(shù)據(jù)訓(xùn)練。與逐數(shù)據(jù)訓(xùn)練一樣，網(wǎng)絡(luò)模型一次只接受一個(gè)數(shù)據(jù)，但每個(gè)數(shù)據(jù)只向后傳播一次并更新其參數(shù)，然后替換下一個(gè)數(shù)據(jù)。小樣本培訓(xùn)。批量數(shù)據(jù)訓(xùn)練的相同點(diǎn)是，批量數(shù)據(jù)被發(fā)送到網(wǎng)絡(luò)，但不是全部，而是只有一小部分。將整個(gè)數(shù)據(jù)分成幾個(gè)小部分后，分別對(duì)每個(gè)小部分進(jìn)行批量訓(xùn)練。在上述四種訓(xùn)練方法中，逐數(shù)據(jù)訓(xùn)練和隨機(jī)數(shù)據(jù)訓(xùn)練所需的存儲(chǔ)空間較小。與批量數(shù)據(jù)訓(xùn)練和小樣本訓(xùn)練相比，逐數(shù)據(jù)訓(xùn)練具有更好的隨機(jī)跟蹤能力。然而，如果網(wǎng)絡(luò)模型的第一個(gè)數(shù)據(jù)是噪聲數(shù)據(jù)，則通過(guò)數(shù)據(jù)訓(xùn)練可以使網(wǎng)絡(luò)模型的訓(xùn)練成為可能。訓(xùn)練過(guò)程正在向錯(cuò)誤的方向發(fā)展。盡管隨機(jī)數(shù)據(jù)訓(xùn)練也有噪聲的影響，但它比逐個(gè)數(shù)據(jù)訓(xùn)練要小得多[14]。2.2卷積神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)的分類(lèi)模型相比，基于卷積神經(jīng)網(wǎng)絡(luò)的分類(lèi)模型的不同之處在于，卷積神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)是二維圖像本身，分類(lèi)結(jié)果是輸出，特征提取過(guò)程雖然可以隱藏在神經(jīng)網(wǎng)絡(luò)模型中。實(shí)現(xiàn)了超連通多層神經(jīng)網(wǎng)絡(luò)模型，但仍存在如下問(wèn)題：a.一般情況下，圖像包含的像素較多。對(duì)于全連通神經(jīng)網(wǎng)絡(luò)模型，僅100個(gè)隱含層的權(quán)值就將達(dá)到數(shù)萬(wàn)個(gè)，大大增加了神經(jīng)網(wǎng)絡(luò)模型的計(jì)算量，需要一定的樣本預(yù)防。停止導(dǎo)致網(wǎng)絡(luò)過(guò)度安裝。b.全連通多層神經(jīng)網(wǎng)絡(luò)對(duì)尺度變化或其他變形敏感。在多層神經(jīng)網(wǎng)絡(luò)中，同一類(lèi)型的兩幅圖像只要經(jīng)歷微小的位移變化，就會(huì)有很大的差別。全連通多層神經(jīng)網(wǎng)絡(luò)的輸入是整個(gè)圖像忽略了圖像的局部信息。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)權(quán)值共享、局部感知和下采樣相結(jié)合，實(shí)現(xiàn)了網(wǎng)絡(luò)模型的位移、形狀等變化的不變性。2.2.1卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)模型由輸入層、卷積層、采樣層、全連接層和輸出層組成。通常，取幾個(gè)交替的卷積層和池層，每個(gè)層與池層相連，每個(gè)池層與卷積基相連[17]。卷積神經(jīng)網(wǎng)絡(luò)的輸入是局部連通的。卷積神經(jīng)網(wǎng)絡(luò)的輸入值可以通過(guò)對(duì)局部輸入和相應(yīng)的連接權(quán)值求和并加上偏差得到。這是一個(gè)相當(dāng)于卷積的過(guò)程，因此卷積神經(jīng)網(wǎng)絡(luò)被命名為卷積神經(jīng)網(wǎng)絡(luò)。圖2.14：基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別第一個(gè)卷積層包含六個(gè)擁有28*28個(gè)神經(jīng)元的特征映射，其中的神經(jīng)元是通過(guò)5*5的卷積核提取的輸入層局部特征。（1）局部感知域傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)是通過(guò)輸入層和隱藏層的充分連接來(lái)處理數(shù)據(jù)的。如果輸入的圖像很小，這種方法是可行的，但是當(dāng)遇到較大的圖像時(shí)會(huì)變得非常耗時(shí)。卷積層通過(guò)限制輸入單元和隱藏層單元很好地解決了這些問(wèn)題。在卷積神經(jīng)網(wǎng)絡(luò)中，隱藏層中的每個(gè)單元連接輸入圖像的一小部分，而這一部分是連接的。（2）配重權(quán)重共享是一種降低計(jì)算復(fù)雜度的策略。例如，輸入的人臉圖像為32×32灰度圖像，輸出為相應(yīng)的識(shí)別結(jié)果。卷積神經(jīng)網(wǎng)絡(luò)的輸入圖像經(jīng)過(guò)多個(gè)卷積層和采樣層處理，然后通過(guò)全連接層映射到輸出目標(biāo)。卷積層和采樣層包含多個(gè)特征映射，這是一個(gè)由多個(gè)神經(jīng)元組成的平面。利用卷積核提取輸入圖像中包含的特征。例如，輸入圖像是7×7的矩陣，卷積核是3×3的矩陣，卷積運(yùn)算步驟設(shè)置為2，在輸入圖像和卷積核運(yùn)算后卷積輸出為3×3。圖2.15：卷積操作示例如圖2.15所示輸入圖像是7*7的矩陣，卷積核是3*3的矩陣，卷積操作步長(zhǎng)設(shè)為2，輸入圖像與卷積核操作過(guò)后所得卷積輸出結(jié)果為3*3矩陣。（3）池化池化操作也被稱作下采樣，池化操作的目的是減少運(yùn)算量，當(dāng)運(yùn)算量較大時(shí)很難形輸入分類(lèi)器，并且可能過(guò)擬合[19]。圖2.16：最大池化圖2.16是步長(zhǎng)為2的最大池化，池化操作對(duì)4組操作數(shù)進(jìn)行池化后得到一個(gè)具有深度不變性的矩陣。對(duì)卷積層進(jìn)行池化操作時(shí)，神經(jīng)元對(duì)應(yīng)的局部接受域也同時(shí)被池化，相當(dāng)于對(duì)神經(jīng)網(wǎng)絡(luò)模型做了第二次特征提取操作，目前比較常用的池化方法有最大值池化法、隨機(jī)池化、均值池化，最大池化是取局部接受域的最大值，均值是取局部接受域的平均值、隨機(jī)池化是通過(guò)對(duì)局部接受域取隨機(jī)值[20-22]。池化可以有效減少神經(jīng)元的數(shù)量，降低神經(jīng)網(wǎng)絡(luò)模型的計(jì)算量。（4）卷積層卷積層包含許多特征曲面，每個(gè)特征曲面由神經(jīng)網(wǎng)絡(luò)模型中的神經(jīng)元組成。特征面上的神經(jīng)元通過(guò)卷積核與卷積神經(jīng)網(wǎng)絡(luò)模型的上層連接。這是第一次提取出簡(jiǎn)單的結(jié)構(gòu)特征。例如，簡(jiǎn)單的特征如直線、邊和邊界、復(fù)雜的機(jī)構(gòu)通常由高級(jí)卷積層完成[23]。卷積層與其輸入層特征面的局部區(qū)域相連接。通過(guò)適當(dāng)?shù)暮瘮?shù)計(jì)算局部區(qū)域的加權(quán)和，得到神經(jīng)網(wǎng)絡(luò)模型的輸出值。將卷積神經(jīng)網(wǎng)絡(luò)的權(quán)值分?jǐn)偟接赏惠斎肷傻妮敵鎏卣髅嫔稀?quán)重分配可以降低模型的復(fù)雜度，便于訓(xùn)練。實(shí)踐。（5）激勵(lì)函數(shù)激發(fā)函數(shù)可以控制神經(jīng)元的正向或反向傳播。乙狀結(jié)腸是一種激發(fā)函數(shù)。因?yàn)楹瘮?shù)的值總是在0到1之間，所以我們可以根據(jù)這個(gè)值來(lái)確定網(wǎng)絡(luò)信號(hào)的強(qiáng)度。nair[24]證明了sigmoid可以顯著提高卷積神經(jīng)網(wǎng)絡(luò)的性能。因此，在確定神經(jīng)網(wǎng)絡(luò)模型的深度、卷積核的大小和特征曲面的數(shù)目時(shí)，應(yīng)綜合考慮各種因素，以達(dá)到預(yù)期的效果。不要花太多的訓(xùn)練時(shí)間。圖2.17：Sigmoid函數(shù)[25]（6）全連接層與多利神經(jīng)網(wǎng)絡(luò)類(lèi)似，它連接一個(gè)或多個(gè)完全連接的網(wǎng)絡(luò)，然后是多個(gè)連接和貧困。所有連接層中的所有神經(jīng)與層前的所有神經(jīng)完全連接。全連接在卷積神經(jīng)網(wǎng)絡(luò)模型的計(jì)算過(guò)程中集成了區(qū)分局部信息，提高了卷積神經(jīng)網(wǎng)絡(luò)的性能[26]。在計(jì)算整個(gè)連接的激勵(lì)函數(shù)后，外觀的值被傳輸?shù)酵庥^。外包可以通過(guò)更多的物流回歸進(jìn)行分類(lèi)。5。正確的分類(lèi)對(duì)于分類(lèi)任務(wù)模型是非常重要的。卷積神經(jīng)網(wǎng)絡(luò)通常采用bp算法進(jìn)行訓(xùn)練。2.2.2卷積神經(jīng)網(wǎng)絡(luò)相關(guān)改進(jìn)方法（1）網(wǎng)中網(wǎng)結(jié)構(gòu)所謂微神經(jīng)網(wǎng)絡(luò)模型是一種多神經(jīng)網(wǎng)絡(luò)模型。傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型的卷積層是線性的，而網(wǎng)絡(luò)中的網(wǎng)絡(luò)采用非線性卷積層，用多層神經(jīng)網(wǎng)絡(luò)代替廣義線性回歸模型。網(wǎng)絡(luò)中的網(wǎng)絡(luò)模型通過(guò)微神經(jīng)網(wǎng)絡(luò)得到特征曲面。與卷積層的權(quán)值分擔(dān)相似，多層神經(jīng)網(wǎng)絡(luò)對(duì)同一特征平面具有局部感知和共享特性，對(duì)同一特征平面具有相同的多層神經(jīng)網(wǎng)絡(luò)模型。多層神經(jīng)網(wǎng)絡(luò)模型采用與卷積神經(jīng)網(wǎng)絡(luò)兼容的前饋神經(jīng)網(wǎng)絡(luò)算法進(jìn)行訓(xùn)練。同時(shí)，多層神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)模型。多層神經(jīng)網(wǎng)絡(luò)可以處理更復(fù)雜的問(wèn)題，識(shí)別更抽象的特征。目前，在卷積神經(jīng)網(wǎng)絡(luò)模型中，全連接層參數(shù)過(guò)多，容易出現(xiàn)過(guò)擬合現(xiàn)象，部分參數(shù)過(guò)于依賴正則化技術(shù)。在網(wǎng)絡(luò)模型中，采用全局平均池的方法改變?cè)械娜B接層，大大降低了模型的參數(shù)。通過(guò)將多層神經(jīng)網(wǎng)絡(luò)的最后一個(gè)卷積層匯集起來(lái)，對(duì)網(wǎng)絡(luò)特征進(jìn)行平均和連接，然后傳遞到分類(lèi)層。全局平均池化的作用可以看成是一個(gè)正則化的參數(shù)，可以避免出現(xiàn)過(guò)擬合。此外這種方式是對(duì)空間信息求和所得到的所以擁有較強(qiáng)的魯棒性。Lin等[28]研究人員通過(guò)將算法在數(shù)據(jù)集SVHN和MNIST上進(jìn)行應(yīng)用，驗(yàn)證了這種算法的有效性。Xu等[29]研究人員在網(wǎng)中網(wǎng)網(wǎng)絡(luò)模型的基礎(chǔ)上提出了ML-DNN網(wǎng)絡(luò)模型，這種模型已經(jīng)被實(shí)驗(yàn)證實(shí)了具有更好的性能。（2）空間變換網(wǎng)絡(luò)盡管卷積神經(jīng)網(wǎng)絡(luò)模型已經(jīng)是非常強(qiáng)大的分類(lèi)模型，但這不代表它不會(huì)受到數(shù)據(jù)多樣性的影響。Jaderberg等[30]研究人員采用空間變換網(wǎng)絡(luò)解決網(wǎng)絡(luò)空間上數(shù)據(jù)多樣性的問(wèn)題，這種模型由三個(gè)部分構(gòu)成，本地化網(wǎng)絡(luò)模型、網(wǎng)格生成器和采樣器可以運(yùn)用到卷積層，也可以運(yùn)用到輸入層或其他層之后，不必改變?cè)械木矸e神經(jīng)網(wǎng)絡(luò)模型的內(nèi)部結(jié)構(gòu)?？臻g變換網(wǎng)絡(luò)模型的空間變換和對(duì)齊有自適應(yīng)性，使卷積神經(jīng)網(wǎng)絡(luò)模型具有一定的平移、旋轉(zhuǎn)、縮放等其他變換的不變性?？臻g變換網(wǎng)絡(luò)幾乎不會(huì)影響到卷積神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練速度。2.3典型的網(wǎng)絡(luò)結(jié)構(gòu)由LecunYan提出的LeNet[43]是卷積神經(jīng)網(wǎng)絡(luò)的開(kāi)山之作，近年來(lái)，許多研究學(xué)者基于LeNet提出了新的CNN結(jié)構(gòu)模型。其中應(yīng)用在圖像領(lǐng)域的具有代表性的模型有AlexNet[44]，VGG-Net[45]，GoogleNet[23,46-48]和ResNet[25]等，下面將對(duì)這幾種經(jīng)典的網(wǎng)絡(luò)模型進(jìn)行介紹。2.3.1AlexNet2012年由Alex等人提出的AlexNe模型在當(dāng)時(shí)以絕對(duì)的優(yōu)勢(shì)刷新了ImageNet競(jìng)賽(ImageNetLargeScaleVisualRecognitionChallenge,ILSVRC)的記錄。從結(jié)構(gòu)上來(lái)講，AlexNet是類(lèi)似于LeNet但更寬和更深的網(wǎng)絡(luò)。ReLU激活函數(shù)[49]、Dropout、數(shù)據(jù)增強(qiáng)（DataAugmentation）和LRN歸一化這些關(guān)鍵技術(shù)也是首次在AlexNet模型中應(yīng)用，同時(shí)AlexNet模型中使用了多GPU加速計(jì)算。AlexNet網(wǎng)絡(luò)結(jié)構(gòu)如圖2.18所示。圖2.18:AlexNet模型結(jié)構(gòu)2.3.2VGG-NetKaren等人提出的VGG-Net模型是2014年ImageNet競(jìng)賽中的亞軍。與AlexNet模型相比，VGG-Net使用了更深的網(wǎng)絡(luò)結(jié)構(gòu)，拋棄了LRN層。VGG-Net沿用了AlexNet數(shù)據(jù)增強(qiáng)的方法。VGG-Net較Alexnet模型層數(shù)更深，訓(xùn)練花費(fèi)的時(shí)間更長(zhǎng)，但訓(xùn)練時(shí)達(dá)到收斂需要的迭代次數(shù)要少很多。圖2.19是VGG-Net的網(wǎng)絡(luò)結(jié)構(gòu)配置情況，實(shí)驗(yàn)是為了研究網(wǎng)絡(luò)深度對(duì)模型的影響。經(jīng)過(guò)實(shí)驗(yàn)證明，LRN方法對(duì)性能提升幫助不大，但十分耗時(shí)。網(wǎng)絡(luò)層次越深，訓(xùn)練的模型效果越好。圖2.19:VGG-Net網(wǎng)絡(luò)配置第3章輕量級(jí)VGG卷積神經(jīng)網(wǎng)絡(luò)本章的主要目的是利用有限的硬件計(jì)算資源（有限的存儲(chǔ)空間和有限的圖形卡計(jì)算能力），構(gòu)造一個(gè)合理的簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)完成人臉識(shí)別任務(wù)。首先，在原有VGG網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上，詳細(xì)闡述了改進(jìn)的輕量級(jí)VGG網(wǎng)絡(luò)模型結(jié)構(gòu)。該模型主要減少了參數(shù)的個(gè)數(shù)，降低了對(duì)硬件的要求。然后，對(duì)模型結(jié)構(gòu)進(jìn)行了測(cè)試。最后，通過(guò)實(shí)驗(yàn)結(jié)果分析了該模型在人臉識(shí)別中的有效性及其識(shí)別效果。為了適應(yīng)硬件條件的限制，輕量級(jí)VGG網(wǎng)絡(luò)模型的參數(shù)更少，模型深度略微有所減少，而且該網(wǎng)絡(luò)模型在復(fù)雜人臉圖片效果不理想。針對(duì)這個(gè)問(wèn)題，增加了使用Contrastive損失函數(shù)作為目標(biāo)函數(shù)的Siamese網(wǎng)絡(luò)，降低了人臉特征向量的維度的同時(shí)，也使得整個(gè)模型框架在復(fù)雜人臉圖片的數(shù)據(jù)庫(kù)上的性能提升不少。這為提升卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別性能增加了經(jīng)驗(yàn)，啟發(fā)式的為進(jìn)一步的網(wǎng)絡(luò)性能優(yōu)化指導(dǎo)了方向。3.1輕量級(jí)VGG卷積神經(jīng)網(wǎng)絡(luò)模型VGG-Net是一個(gè)應(yīng)用在物體分類(lèi)與識(shí)別方面的神經(jīng)網(wǎng)絡(luò)，在2014年的ILSVRLocalization和classification兩個(gè)項(xiàng)目上面，分別取得了第一名和第二名，可見(jiàn)其對(duì)于圖片特征的提取能力是很優(yōu)秀的。先簡(jiǎn)要介紹原始的VGG的網(wǎng)絡(luò)模型，然后詳細(xì)介紹改進(jìn)以后的，并適用于有限硬件計(jì)算資源應(yīng)用場(chǎng)景的輕量級(jí)VGG神經(jīng)網(wǎng)絡(luò)模型。3.1.1原VGG網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)析VGG-Net的輸入是固定尺寸大小的RGB的2D圖像，接著依次通過(guò)一系列堆疊的，核大小為3×3的卷積層。每?jī)蓚€(gè)或者三個(gè)連續(xù)堆疊的卷積層，為一個(gè)網(wǎng)絡(luò)的小的單元模塊，命名為Block。每一個(gè)Block后面會(huì)接入一個(gè)Max-pooling層，用于減小輸入的尺寸大小，并保持網(wǎng)絡(luò)的平移不變性。經(jīng)過(guò)多個(gè)堆疊的Block單元后的輸出，會(huì)接入一個(gè)三層的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)，也就是三層全連接層。最后的分類(lèi)輸出是一個(gè)softmax多分類(lèi)器。圖3.4：VGG原始模型示意圖在連續(xù)疊層局部塊胞模型中，每個(gè)卷積層（conv）的核大小為3x3，核的滑動(dòng)步長(zhǎng)為1。在卷積運(yùn)算之前，需要輸入外設(shè)擴(kuò)展（填充），擴(kuò)展大小為1。該局部Block單元中的連續(xù)卷積層之間沒(méi)有Max-pooling層，只是在每個(gè)Block單元之后接一層Max-pooling層。連續(xù)堆疊的卷積層全部使用的是3×3大小的卷積核，它是能覆蓋輸入的左上、右上、左下、右下，以及上、下、左、右、中共9個(gè)方向的最小的卷積核，這樣就能對(duì)輸入進(jìn)行更為密集的卷積操作，提取更多的特征。而且通過(guò)堆疊連續(xù)的多個(gè)3×3卷積核的卷積層，能夠等效于一層卷積核為5×5，或者卷積核為7×7的卷積層。但是多個(gè)小核卷積層的堆疊，會(huì)比大維度卷積核的單個(gè)卷積層的非線性轉(zhuǎn)換效果好，具有更好的提取關(guān)鍵特征的能力。網(wǎng)絡(luò)中的每一個(gè)卷積層、全連接層后面所使用的激活函數(shù)都是ReLU，進(jìn)行非線性的映射計(jì)算。在第一個(gè)和第二個(gè)全連接層的后面還使用了dropout技術(shù)，來(lái)提高網(wǎng)絡(luò)的泛化能力，防止網(wǎng)絡(luò)的過(guò)擬合。圖3.5：不同大小卷積和與堆疊卷積3.1.2輕量級(jí)VGG神經(jīng)網(wǎng)絡(luò)模型在有限硬件計(jì)算資源的條件下，網(wǎng)絡(luò)模型的訓(xùn)練學(xué)習(xí)、識(shí)別測(cè)試階段中，不僅僅要關(guān)注網(wǎng)絡(luò)模型結(jié)構(gòu)的合理性、網(wǎng)絡(luò)收斂情況、網(wǎng)絡(luò)的分類(lèi)的正確率等等，這些直接影響網(wǎng)絡(luò)模型的特征提取效果的因素，還要考慮到網(wǎng)絡(luò)參數(shù)總數(shù)，以及內(nèi)存、顯存的使用情況等，這些對(duì)硬件計(jì)算能力和存儲(chǔ)能力的主要制約因素。原始的VGG-16網(wǎng)絡(luò)，其在訓(xùn)練階段需要保存的網(wǎng)絡(luò)參數(shù)和中間結(jié)果是很龐大的。在有限的硬件條件下，單個(gè)普通顯卡是無(wú)法滿足其對(duì)顯存容量的需求，或者能勉強(qiáng)運(yùn)行但不能充分訓(xùn)練，取得好的識(shí)別效果。出現(xiàn)上述問(wèn)題的主要原因是：VGG-16網(wǎng)絡(luò)模型的參數(shù)太多，在訓(xùn)練階段還需要保存權(quán)值（weight）和偏置（bias）的偏導(dǎo)數(shù)，以及部分中間輸出結(jié)果數(shù)據(jù)。這些數(shù)據(jù)都需要存放在GPU有限的顯存上（不考慮CPU上計(jì)算的情況，因?yàn)槠鋬?nèi)存空間充足，并可擴(kuò)充），如果使用批度（batch）樣本訓(xùn)練，這些顯存占用量就會(huì)成倍的增長(zhǎng)。通過(guò)實(shí)驗(yàn)很容易知道，單個(gè)普通4G顯存容量的GPU是無(wú)法滿足批量訓(xùn)練的顯存需求。所以，必須對(duì)VGG-16網(wǎng)絡(luò)進(jìn)行詳細(xì)的參數(shù)數(shù)量分析，根據(jù)實(shí)際有限硬件資源情況做適當(dāng)?shù)男薷?，以使其能夠適應(yīng)有限的顯存，在顯卡計(jì)算能力要求和網(wǎng)絡(luò)識(shí)別效果上選擇一個(gè)折中的方案。3.1.2.1網(wǎng)絡(luò)結(jié)構(gòu)修改對(duì)上一小結(jié)中的VGG-16網(wǎng)絡(luò)的每一層的學(xué)習(xí)參數(shù)數(shù)量進(jìn)行詳細(xì)分析、統(tǒng)計(jì)，得到表3.2。表3.2：VGG-16參數(shù)統(tǒng)計(jì)該表只統(tǒng)計(jì)每層帶參數(shù)（卷積層和全連接層、池不含參數(shù)）的學(xué)習(xí)參數(shù)總數(shù)（浮點(diǎn)型）。研究發(fā)現(xiàn)，整個(gè)網(wǎng)絡(luò)的大部分參數(shù)集中在最后三個(gè)全連接層。FC-4096這一層有4096個(gè)節(jié)點(diǎn)，但是它的參數(shù)數(shù)目占據(jù)了全部參數(shù)的70%多左右。FC-1000這一層是對(duì)應(yīng)于最后識(shí)別分類(lèi)的1000類(lèi)，必須要1000個(gè)輸出節(jié)點(diǎn)，然后輸入到softmax層，所以該層節(jié)點(diǎn)數(shù)是依數(shù)據(jù)集總類(lèi)別數(shù)而改變，其參數(shù)不定，可以不需要統(tǒng)計(jì)。從神經(jīng)網(wǎng)絡(luò)對(duì)特征逐層提取的特性來(lái)看，越靠近輸入端的卷積層，提取的都是一些點(diǎn)、線、像素梯度等元素級(jí)別的基本特征信息，越靠近輸出端的是越抽象的圖形特征。VGG網(wǎng)絡(luò)在ImageNet識(shí)別上的矚目效果，可以認(rèn)為原VGG網(wǎng)絡(luò)底層的對(duì)于圖片基礎(chǔ)特征信息提取是很充分的，保留底層的網(wǎng)絡(luò)結(jié)構(gòu)，對(duì)于神經(jīng)網(wǎng)絡(luò)的識(shí)別效果是必要的。所以主要的修改思路就是保留底層的網(wǎng)絡(luò)模型結(jié)構(gòu)，修改頂層的，尤其是靠近輸出層的全連接層的網(wǎng)絡(luò)結(jié)構(gòu)。3.1.2.2輕量級(jí)VGG模型的整體結(jié)構(gòu)事實(shí)上，卷積層是一種特殊的全連接層，權(quán)值部分共享。與全連接層相比，卷積層的學(xué)習(xí)參數(shù)要少得多。減少部分全連接層可以有效降低整個(gè)網(wǎng)絡(luò)的參數(shù)。改進(jìn)的策略是降低網(wǎng)絡(luò)后幾層的參數(shù)，主要是降低全連接層的參數(shù)。圖3.6：輕量級(jí)VGG網(wǎng)絡(luò)模型示意圖輕量級(jí)VGG神經(jīng)網(wǎng)絡(luò)模型配置參數(shù)與原VGG網(wǎng)絡(luò)中的Block1~Block4單元相比較，其中的卷積層和pooling層的配置都是完全一樣的，以保證網(wǎng)絡(luò)對(duì)基礎(chǔ)圖像特征的提取能力，也就是保持原有的底層的那些卷積核。與原始的VGG-16網(wǎng)絡(luò)在Block5區(qū)域相比，將每一層的卷積核由512增加到了600，目的是希望能夠提取更多豐富的、不同的圖像高層抽象特征。并且去掉了原來(lái)的全連接層-1和全連接層-2，這樣參數(shù)的數(shù)量可以進(jìn)一步大量的減少。輕量級(jí)VGG模型將Block5后面原始的Max-pooling層換成了一個(gè)使用均值下采樣的Pooling層（AveragePooling），這種做法在GoogleNet等一些網(wǎng)絡(luò)中也出現(xiàn)過(guò)，同樣是在最后舍棄了全連接層，直接使用了均值下采樣層。這種方法減少全連接層的參數(shù)個(gè)數(shù)的同時(shí)也對(duì)網(wǎng)絡(luò)性能沒(méi)有較大的影響，還能進(jìn)一步促使模型提取更加抽象的、更具有辨識(shí)度的特征。3.2輕量級(jí)VGG模型的訓(xùn)練與實(shí)驗(yàn)分析3.2.1圖片數(shù)據(jù)庫(kù)與預(yù)處理選擇FaceScrub人臉數(shù)據(jù)庫(kù)作為輕量級(jí)VGG網(wǎng)絡(luò)模型的訓(xùn)練集，訓(xùn)練后的模型會(huì)在LFW數(shù)據(jù)庫(kù)上面進(jìn)行測(cè)試，完成兩張圖片對(duì)是否屬于同一個(gè)人的身份認(rèn)證問(wèn)題。在對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練前，需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理，主要包括以下方面：（1）對(duì)人臉進(jìn)行裁剪。原始圖片的周?chē)刑嗟谋尘皥D案，這對(duì)人臉識(shí)別的網(wǎng)絡(luò)模型來(lái)說(shuō)，不屬于有用的數(shù)據(jù)部分，裁剪掉多余的背景部分。（2）神經(jīng)網(wǎng)絡(luò)充分訓(xùn)練需要大量的數(shù)據(jù)集，以此來(lái)學(xué)習(xí)更多的具有區(qū)分性的特征。擴(kuò)大數(shù)據(jù)集能有效提高網(wǎng)絡(luò)的識(shí)別效果和泛化能力。對(duì)訓(xùn)練集進(jìn)行擴(kuò)充，主要使用了兩個(gè)方法：一是進(jìn)行圖像左右的翻轉(zhuǎn)；二是進(jìn)行圖像中間區(qū)域的隨機(jī)裁剪。這樣做就大大增加了訓(xùn)練集的數(shù)據(jù)總量，增加了更多的差異性圖片，使得網(wǎng)絡(luò)對(duì)背景變化不敏感，具有很好的平移不變性。（3）計(jì)算訓(xùn)練數(shù)據(jù)集的均值圖像。將訓(xùn)練集的所有圖片對(duì)應(yīng)位置上的像素值相加然后取平均，得到一個(gè)均值人臉圖像。在網(wǎng)絡(luò)訓(xùn)練的時(shí)候，訓(xùn)練集和測(cè)試集都要減去該均值圖像，目的是：對(duì)輸入圖片進(jìn)行歸一化處理，將數(shù)據(jù)（圖片像素值）更加均勻的分布在整個(gè)空間中，加速網(wǎng)絡(luò)的收斂。3.2.2輕量級(jí)VGG網(wǎng)絡(luò)模型的訓(xùn)練與實(shí)驗(yàn)分析用于訓(xùn)練的FaceScrub人臉數(shù)據(jù)庫(kù)大小有限，并沒(méi)有像目前某些大型神經(jīng)網(wǎng)絡(luò)模型那樣，使用百萬(wàn)數(shù)量級(jí)的人臉圖片。海量的訓(xùn)練圖片，對(duì)于神經(jīng)網(wǎng)絡(luò)來(lái)說(shuō)，確實(shí)是能夠有效提升網(wǎng)絡(luò)模型的準(zhǔn)確率、泛化能力的。但是，自己進(jìn)行海量的人臉圖片的收集和標(biāo)簽注釋，需要耗費(fèi)大量的時(shí)間和精力。對(duì)于許多研究者來(lái)說(shuō)，是很難構(gòu)建自己的海量圖片數(shù)據(jù)庫(kù)的。使用已有的優(yōu)秀的網(wǎng)絡(luò)模型參數(shù)初始化，是可以在一定程度上，緩解因圖片數(shù)量不足導(dǎo)致的泛化性較差以及模型過(guò)擬合的問(wèn)題。改進(jìn)后的輕量級(jí)VGG網(wǎng)絡(luò)相對(duì)于原VGG-16網(wǎng)絡(luò)的16層參數(shù)層（卷積層加上全連接層），雖然減少2個(gè)參數(shù)層，但是依然算是一個(gè)相對(duì)較深的網(wǎng)絡(luò)。如果網(wǎng)絡(luò)的參數(shù)有一個(gè)比較合理的初始化，這些問(wèn)題都能在很大程度上緩解。為了避免上述問(wèn)題，能夠讓網(wǎng)絡(luò)模型能夠良好的進(jìn)行訓(xùn)練，并能獲得較為優(yōu)秀的圖片特征提取能力，初始的網(wǎng)絡(luò)參數(shù)使用的是KarenSimonyan等人公布的VGG-16的權(quán)值參數(shù)，該參數(shù)在ImgaeNet數(shù)據(jù)庫(kù)上訓(xùn)練達(dá)到了Top-5錯(cuò)誤率8%左右。我們只取其中的前面12層卷積層的參數(shù)，其余的參數(shù)層全部重新訓(xùn)練，以適應(yīng)新的人臉數(shù)據(jù)庫(kù)。使用這樣的預(yù)訓(xùn)練參數(shù)的好處就是，避免從頭開(kāi)始訓(xùn)練，減少網(wǎng)絡(luò)無(wú)法收斂的機(jī)率，并減少了網(wǎng)絡(luò)模型的訓(xùn)練時(shí)間。對(duì)于輕量級(jí)VGG神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練，一共分為三個(gè)步驟：（1）構(gòu)建網(wǎng)絡(luò)以后，使用原VGG網(wǎng)絡(luò)在ImageNet上的前幾層卷積層的參數(shù)，對(duì)新的網(wǎng)絡(luò)模型前幾層進(jìn)行參數(shù)初始化。（2）然后，將輕量級(jí)VGG網(wǎng)絡(luò)在Facescrub數(shù)據(jù)庫(kù)上進(jìn)行訓(xùn)練。隨機(jī)的將Facescrub數(shù)據(jù)庫(kù)中1/10部分?jǐn)?shù)據(jù)集作為驗(yàn)證集，剩余的為訓(xùn)練集。網(wǎng)絡(luò)模型如3.3.2所述，只是最后的一層的全連接的節(jié)點(diǎn)數(shù)等于Facescrub數(shù)據(jù)庫(kù)的圖片類(lèi)別數(shù)。網(wǎng)絡(luò)剛開(kāi)始訓(xùn)練的時(shí)候，使用的是0.001的學(xué)習(xí)率進(jìn)行學(xué)習(xí)，大約經(jīng)過(guò)10個(gè)epoch左右學(xué)習(xí)率降低1/10，一個(gè)epoch為所有訓(xùn)練樣本循環(huán)一次的時(shí)間。此時(shí)，測(cè)試集的準(zhǔn)確率大約達(dá)到了50%；然后保持學(xué)習(xí)率再學(xué)習(xí)10個(gè)epoch，然后學(xué)習(xí)率再次降低1/10。以后依次以1/10的倍率降低學(xué)習(xí)率。（3）接著，將訓(xùn)練好的輕量級(jí)VGG網(wǎng)絡(luò)作為一個(gè)人臉特征的提取器，提取LFW中所有人臉圖片的特征，用于人臉的驗(yàn)證階段（verification）。將LFW中的所有圖片，依次經(jīng)過(guò)網(wǎng)絡(luò)的前向計(jì)算，轉(zhuǎn)換為其對(duì)應(yīng)的特征值表示，也就是提取averagepooling層的輸出特征向量。使用LFW官方提供的測(cè)試集進(jìn)行測(cè)試，測(cè)試集是一系列的圖片對(duì)，圖片對(duì)有是同一個(gè)人的，也有不是同一個(gè)人的。人臉驗(yàn)證方式就是計(jì)算測(cè)試集中每一對(duì)特征向量之間的歐式距離（對(duì)應(yīng)L2范數(shù)），然后測(cè)試集分成十份，十份中的九份作為SVM的訓(xùn)練樣本，尋找區(qū)分相似與否的閾值，另外一份作為測(cè)試樣本，交替循環(huán)進(jìn)行測(cè)試，最后取平均結(jié)果。3.2.2.1模型訓(xùn)練多分類(lèi)任務(wù)的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練情況主要查看兩個(gè)指標(biāo)，一個(gè)是網(wǎng)絡(luò)的損失函數(shù)（lossfunction）的輸出值（loss值），一個(gè)是驗(yàn)證集的測(cè)試準(zhǔn)確率。loss值可以看出網(wǎng)絡(luò)是否正確收斂，一般值是隨著訓(xùn)練越來(lái)越?。欢?yàn)證集的測(cè)試準(zhǔn)確率是查看網(wǎng)絡(luò)分類(lèi)效果如何，一般是隨著訓(xùn)練進(jìn)行準(zhǔn)確率越來(lái)越高。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練需要使用合適的學(xué)習(xí)率。驗(yàn)證階段是在大約第3peoch開(kāi)始間隔執(zhí)行的，可以看到網(wǎng)絡(luò)的驗(yàn)證集準(zhǔn)確率是隨著模型的收斂在不斷上升的，驗(yàn)證了網(wǎng)絡(luò)收斂的正確性，以及網(wǎng)絡(luò)對(duì)特征提取的有效性。圖3.7：輕量級(jí)VGG網(wǎng)絡(luò)訓(xùn)練學(xué)習(xí)率的走勢(shì)圖3.2.2.2實(shí)驗(yàn)結(jié)果與分析比較將輕量級(jí)VGG網(wǎng)絡(luò)作為一個(gè)特征提取器，使用LFW數(shù)據(jù)庫(kù)進(jìn)行人臉驗(yàn)證實(shí)驗(yàn)（verification任務(wù)）。具體的步驟如下：（1）將LFW數(shù)據(jù)庫(kù)中的所有圖片通過(guò)輕量級(jí)VGG網(wǎng)絡(luò)提取到人臉特征，提取的是該模型中的averagepooling層的輸出特征向量，維度是1×1×600。（2）將這些特征向量進(jìn)行歸一化處理，例如一個(gè)樣本的特征向量，d=600。先求得這個(gè)樣本的每一維度的平方和，如公式（3.3）所示。然后每一維度除以，得到新的歸一化后的特征向量。（3.3）（3）計(jì)算一個(gè)特征向量對(duì)的歐式距離。假設(shè)兩個(gè)歸一化以后的特征向量與，d=600。按公式（3-4）求得其歐式距離dist。（3.3）（4）使用十折交叉驗(yàn)證方式，用SVM分類(lèi)器在訓(xùn)練樣本對(duì)應(yīng)的歐式距離數(shù)據(jù)集上進(jìn)行訓(xùn)練，得到同一類(lèi)樣本和不同類(lèi)樣本之間的最佳分界面，然后用測(cè)試樣本進(jìn)行測(cè)試，最后對(duì)十次實(shí)驗(yàn)結(jié)果取平均值。最終實(shí)驗(yàn)是在兩個(gè)不同處理類(lèi)型的同一數(shù)據(jù)庫(kù)上面進(jìn)行的。類(lèi)型A是LFW官方原始的數(shù)據(jù)庫(kù)中的圖片，沒(méi)有經(jīng)過(guò)嚴(yán)格的人臉對(duì)齊圖片，僅僅是對(duì)背景進(jìn)行了裁剪，比較接近自然環(huán)境；類(lèi)型B是與FaceScrub數(shù)據(jù)庫(kù)進(jìn)行相似的人臉對(duì)齊處理和部分背景的去除，如3.4.1所述。通過(guò)實(shí)驗(yàn)得到了兩者的平均結(jié)果，見(jiàn)表3-2。表3-2：類(lèi)型A和類(lèi)型B數(shù)據(jù)庫(kù)測(cè)試結(jié)果對(duì)比表中十折測(cè)試平均準(zhǔn)確率是指十折交叉驗(yàn)證的整體分類(lèi)的平均準(zhǔn)確率。有同類(lèi)、不同類(lèi)兩種不同樣本類(lèi)型。被模型預(yù)測(cè)為正的正樣本數(shù)為T(mén)P（truepositive）；預(yù)測(cè)為負(fù)的負(fù)樣本數(shù)為T(mén)N（truenegative）為正的負(fù)樣本數(shù)為FP（falsepositive）；預(yù)測(cè)為負(fù)的正樣本數(shù)為FN（falsenegative）。真正率=TP/（TP+FN）；假正率=FP/（FP+TN）。正負(fù)（同類(lèi)/不同類(lèi)）是相對(duì)而言。預(yù)測(cè)準(zhǔn)確率表示被模型預(yù)測(cè)為某類(lèi)的所有樣本中，正確的樣本所占比率。輕量級(jí)VGG網(wǎng)絡(luò)對(duì)未被處理的自然條件下的人臉圖片依然有較強(qiáng)的特征提取能力，也說(shuō)明這個(gè)網(wǎng)絡(luò)的泛化性能比較優(yōu)秀。對(duì)于經(jīng)過(guò)圖片預(yù)處理的類(lèi)型B，網(wǎng)絡(luò)識(shí)別的性能達(dá)到94%左右，這說(shuō)明了該網(wǎng)絡(luò)對(duì)于經(jīng)過(guò)和訓(xùn)練圖片庫(kù)同樣預(yù)處理的人臉圖片，能提取出更加具有辨別能力的圖片特征。圖3.14：類(lèi)型A的相似度分布可視化圖3.15：類(lèi)型B的相似度分布可視化圖3-14和3-15是測(cè)試樣本一共6000對(duì)人臉之間的歐式距離的相似值進(jìn)行可視化，same表示的是同一個(gè)人的人臉圖片對(duì)，different表示的是不同人的人臉圖片對(duì)。兩張圖對(duì)比可知，類(lèi)型B明顯要比類(lèi)型A的數(shù)據(jù)分布具有更好的區(qū)分度，直觀上的分界面更加明顯一些，而且在類(lèi)型B中的“same”樣本的相似度值的整體分布更加的靠近0.3，說(shuō)明它對(duì)同一個(gè)人的人臉圖片能夠提取出更多的共性特征。在實(shí)際測(cè)試中，通過(guò)SVM分類(lèi)器經(jīng)過(guò)十折交叉驗(yàn)證，在類(lèi)型B的分布中確實(shí)找到一個(gè)平均預(yù)測(cè)準(zhǔn)確度更高的一個(gè)分界面。3.3本章小結(jié)本章節(jié)詳細(xì)說(shuō)明了為應(yīng)對(duì)在有限硬件計(jì)算資源條件下的應(yīng)用，對(duì)VGG網(wǎng)絡(luò)的進(jìn)行改進(jìn)，得到了一個(gè)新的、有效的LightenedVGG卷積神經(jīng)網(wǎng)絡(luò)模型，且成功的應(yīng)用在人臉識(shí)別任務(wù)上。第4章殘差卷積神經(jīng)網(wǎng)絡(luò)第4章殘差卷積神經(jīng)網(wǎng)絡(luò)第三章針對(duì)原VGG模型在硬件計(jì)算資源有限的設(shè)備上應(yīng)用的不足，對(duì)原神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了改進(jìn)。并在LFW人臉庫(kù)上對(duì)改進(jìn)后的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了測(cè)試，驗(yàn)證了改進(jìn)后的網(wǎng)絡(luò)的有效性。輕量級(jí)VGG網(wǎng)絡(luò)利用Imagenet圖片庫(kù)上的預(yù)訓(xùn)練參數(shù)，避免了深度網(wǎng)絡(luò)模型中的梯度耗散和網(wǎng)絡(luò)爆炸問(wèn)題。然而，這種深度網(wǎng)絡(luò)的優(yōu)化仍然是一個(gè)眾所周知的難題。特別是當(dāng)網(wǎng)絡(luò)從新數(shù)據(jù)庫(kù)開(kāi)始訓(xùn)練時(shí)，會(huì)遇到網(wǎng)絡(luò)優(yōu)化問(wèn)題，主要是由于網(wǎng)絡(luò)參數(shù)設(shè)置不當(dāng)和網(wǎng)絡(luò)結(jié)構(gòu)不合理。在這一章中，我們構(gòu)建了一個(gè)更深層的網(wǎng)絡(luò)結(jié)構(gòu)，它仍然適用于有限的硬件計(jì)算資源。網(wǎng)絡(luò)結(jié)構(gòu)達(dá)到34層，在人臉數(shù)據(jù)庫(kù)上從頭開(kāi)始訓(xùn)練。該模型結(jié)合了深度神經(jīng)網(wǎng)絡(luò)的許多最新技術(shù)和技術(shù)，使深度模型更易于調(diào)整。4.1深層網(wǎng)絡(luò)優(yōu)化難題近年，深度學(xué)習(xí)尤其是深度卷積神經(jīng)網(wǎng)絡(luò)，在圖像識(shí)別、語(yǔ)音識(shí)別、文字翻譯等相關(guān)領(lǐng)域取得了矚目的成績(jī)，長(zhǎng)期不斷刷新最優(yōu)的記錄。隨著卷積神經(jīng)網(wǎng)絡(luò)在各種圖像識(shí)別任務(wù)上的成績(jī)不斷刷新的同時(shí)，網(wǎng)絡(luò)模型的深度也在不斷地加深，由當(dāng)初的LeNet-5的7層到GoolgeNet的上22層的神經(jīng)網(wǎng)絡(luò)，同時(shí)對(duì)計(jì)算機(jī)硬件的計(jì)算能力要求也越來(lái)越高。按照深度學(xué)習(xí)理論，相比較于一個(gè)淺層的網(wǎng)絡(luò)模型，一個(gè)更深層次的網(wǎng)絡(luò)模型在同一個(gè)數(shù)據(jù)集上進(jìn)行訓(xùn)練，只要網(wǎng)絡(luò)不遇到梯度爆炸（exploding）和梯度消散（vanishing）問(wèn)題，而且不要過(guò)擬合，那么網(wǎng)絡(luò)模型在理論上就應(yīng)該會(huì)有更好的效果。但是事實(shí)上并不是這樣，在網(wǎng)絡(luò)的深度由20增加到56層的時(shí)候，網(wǎng)絡(luò)的訓(xùn)練誤差并不是像理論上一樣會(huì)比淺層的更低。其實(shí)這是一個(gè)當(dāng)下普遍出現(xiàn)在深度學(xué)習(xí)方面的不合理的現(xiàn)象：當(dāng)更深層次的網(wǎng)絡(luò)模型能夠正常收斂，網(wǎng)絡(luò)模型的訓(xùn)練誤差能夠隨著訓(xùn)練的迭代次數(shù)快速的下降，但是當(dāng)網(wǎng)絡(luò)模型的準(zhǔn)確度達(dá)到飽和以后，網(wǎng)絡(luò)模型的準(zhǔn)確率會(huì)隨著網(wǎng)絡(luò)深度加深反而降低。這樣不太合理的現(xiàn)象，被叫做神經(jīng)網(wǎng)絡(luò)的退化問(wèn)題（degradation）。這種退化現(xiàn)象并不是因?yàn)榫W(wǎng)絡(luò)的過(guò)擬合造成的，在其它一些實(shí)驗(yàn)中也有同樣現(xiàn)象的闡述：給一個(gè)合理的網(wǎng)絡(luò)添加更多的層數(shù)會(huì)導(dǎo)致更高的訓(xùn)練誤差。導(dǎo)致這個(gè)現(xiàn)象主要原因是：隨著神經(jīng)網(wǎng)絡(luò)深度的加深，網(wǎng)絡(luò)模型的優(yōu)化問(wèn)題會(huì)變得更加困難，模型更加難以學(xué)習(xí)到使得模型性能最優(yōu)的參數(shù)。圖4.1：深層與淺層網(wǎng)絡(luò)學(xué)習(xí)走勢(shì)圖4.2殘差學(xué)習(xí)（ResidualLearning）為了解決這種更深卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化困難的問(wèn)題，微軟亞洲研究院提出了一種基于殘差學(xué)習(xí)理論的神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)。該神經(jīng)網(wǎng)絡(luò)局部模型結(jié)構(gòu)的思想是：通過(guò)調(diào)整包含學(xué)習(xí)參數(shù)（如兩層體積基）的連續(xù)多層非線性計(jì)算的參數(shù)來(lái)學(xué)習(xí)隱含的抽象映射關(guān)系（mappingfunction），但是這個(gè)隱含的映射關(guān)系并不好優(yōu)化（在較深的網(wǎng)絡(luò)中），所以轉(zhuǎn)換一種思路，可以通過(guò)優(yōu)化輸入數(shù)據(jù)與映射以后的輸出數(shù)據(jù)之間的殘差（residual），從而達(dá)到網(wǎng)絡(luò)學(xué)習(xí)抽象特征提取的能力。這個(gè)殘差（residual）越逼近于0，代表這個(gè)網(wǎng)絡(luò)提取的特征是與原始的輸入是越相近的。將這種希望學(xué)習(xí)到的隱含的映射關(guān)系表示為Hx，我們可以讓這些堆疊的非線性層來(lái)擬合另外一個(gè)映射關(guān)系（殘差）Fx，Hx，x。原始的映射就會(huì)被轉(zhuǎn)化為Fx+x。在理想情況下，如果這個(gè)映射關(guān)系能夠優(yōu)化的很理想，那么就會(huì)逐步的將這個(gè)殘差逼近于0。這樣，這個(gè)堆疊的非線性層的輸出就能最大限度的保存原來(lái)輸入的面貌，然后直接傳遞給下一層。這兩種方法都是一種很有效的圖片淺層特征表示的方法，在圖片搜索、分類(lèi)方面有著不錯(cuò)的性能。并且這種殘差的思想在部分淺層視覺(jué)和計(jì)算機(jī)圖像學(xué)方面的實(shí)驗(yàn)中，體現(xiàn)了更快的收斂速度。4.3殘差卷積神經(jīng)網(wǎng)絡(luò)在這一部分中，根據(jù)殘差理論，構(gòu)建了一個(gè)更深層次的網(wǎng)絡(luò)模型。這種網(wǎng)絡(luò)模型的思想仍然是堆疊多個(gè)單元模塊，以深化網(wǎng)絡(luò)的整體結(jié)構(gòu)。重點(diǎn)是引入最小網(wǎng)絡(luò)模型殘差塊（remidualblock）來(lái)實(shí)現(xiàn)殘差學(xué)習(xí)的思想，然后對(duì)整個(gè)模型進(jìn)行詳細(xì)的闡述。接下來(lái)，簡(jiǎn)要介紹了將在網(wǎng)絡(luò)中應(yīng)用的批量規(guī)范化新技術(shù)。4.3.1BatchNormalization在深度學(xué)習(xí)實(shí)驗(yàn)中，對(duì)實(shí)驗(yàn)數(shù)據(jù)集進(jìn)行預(yù)處理是一種非常有效的方法，如白化或zscore等，即使是最常用的減法運(yùn)算也能在一定程度上加快網(wǎng)絡(luò)的收斂速度。減去圖像的平均值可以使數(shù)據(jù)在空間的每個(gè)象限中更加隨機(jī)分布，避免了數(shù)據(jù)集中在空間的一個(gè)或幾個(gè)象限中的分布，從而在使用梯度下降算法時(shí)，隨機(jī)初始化的參數(shù)可以快速收斂。白化的目的是去除數(shù)據(jù)之間的相關(guān)性，從而去除數(shù)據(jù)中的冗余信息，使訓(xùn)練學(xué)習(xí)和數(shù)據(jù)處理更加高效。雖然白化比減去平均值能更有效地加速收斂，減少網(wǎng)絡(luò)過(guò)度擬合的可能性，但白化的計(jì)算過(guò)于耗時(shí)和耗費(fèi)空間。批度規(guī)范化（BatchNormalization，以下簡(jiǎn)稱BN）也是一種新的數(shù)據(jù)處理的方法，主要是對(duì)深度網(wǎng)絡(luò)中的每一個(gè)參數(shù)層（主要是卷積層）中的輸出數(shù)據(jù)進(jìn)行規(guī)范化處理，也就是一般對(duì)激活函數(shù)的輸入值進(jìn)行處理，使得輸出向量的各個(gè)維度的均值為0、方差為1。使用BatchNormalization主要有以下幾點(diǎn)好處：（1）對(duì)每一層的輸出進(jìn)行了規(guī)范化，能夠有效的防止參數(shù)不穩(wěn)定的變動(dòng)；參數(shù)的變化量穩(wěn)定一點(diǎn)，網(wǎng)絡(luò)的收斂也就穩(wěn)定一些。（2）BatchNormalization能夠使L2權(quán)重衰減系數(shù)降低，有效防止過(guò)擬合。4.3.2ResidualBlock局部單元ResidualBlock的模型每一個(gè)卷積層都要接一個(gè)非線性激活函數(shù)ReLU，但是ResidualBlock單元沒(méi)有Pooling層，主要是防止Pooling層的下采樣操作造成過(guò)多信息損失。取代Pooling的是一個(gè)滑動(dòng)步長(zhǎng)為2的卷積操作，以此來(lái)逐層將每層輸入的FeatureMap的尺寸大小減半。這樣就會(huì)有兩種不同的ResidualBlock單元結(jié)構(gòu)，本文中標(biāo)注為A類(lèi)型和B類(lèi)型。ResidualBlock的A類(lèi)型，該單元結(jié)構(gòu)是一個(gè)普通的單元模型，輸入輸出的FeatureMap尺寸大小并不改變。該結(jié)構(gòu)具體為：第一層是一個(gè)卷積層，卷積核的大小為3×3，核的滑動(dòng)步長(zhǎng)為1，Padding大小為1，這樣來(lái)保證輸入到輸出的FeatureMap尺寸大小不變；第二層為一個(gè)BatchNormalization層，主要是對(duì)卷積層的輸出做一個(gè)歸一化處理，來(lái)防止網(wǎng)絡(luò)過(guò)于深而發(fā)生網(wǎng)絡(luò)梯度消散的問(wèn)題；第三層為一個(gè)激活函數(shù)ReLu層，一定程度上保證了網(wǎng)絡(luò)的稀疏性，并有更好的非線性映射的效果；第四層是一個(gè)與第一層的參數(shù)配置一樣的卷積層，而且核的數(shù)量也是一樣的；第五層依然是緊跟一個(gè)BatchNormlizaton層；第六層執(zhí)行的計(jì)算是對(duì)應(yīng)位置的元素相加的矩陣運(yùn)算，這樣就實(shí)現(xiàn)了殘差理論中將要學(xué)習(xí)的特征映射轉(zhuǎn)換為F（x）+x；第七層為ReLU激活函數(shù)層，將前一層的線性求和運(yùn)算后的矩陣進(jìn)行一個(gè)非線性的操作，然后輸出的結(jié)果輸入到下一個(gè)ResidualBlock單元中。以上7層構(gòu)成了這個(gè)ResidualBlock的A類(lèi)型，對(duì)其中的參數(shù)進(jìn)行分析統(tǒng)計(jì)，忽略BatchNorm的少量參數(shù)，其具體網(wǎng)絡(luò)配置和參數(shù)統(tǒng)計(jì)情況如表4-1所示。模型，該單元的最終輸出的FeatureMap尺寸大不會(huì)減半，作用類(lèi)似于Pooling層的下采樣（Subsample）操作，起到將網(wǎng)絡(luò)中間FeatureMap尺寸維度降低，使得網(wǎng)絡(luò)提取特征逐漸抽象化的作用。該結(jié)構(gòu)具體為：第一層是一個(gè)卷積層，卷積核的大小為3×3，但是不同于A類(lèi)型結(jié)構(gòu)中的卷積層，該層卷積核的滑動(dòng)步長(zhǎng)為2，Padding（擴(kuò)充）大小依然為1，這樣來(lái)保證輸入到輸出的FeatureMap尺寸大小減半；第二層同類(lèi)型A一樣是BatchNormalizaton層；第三層緊接一個(gè)激活函數(shù)ReLu層，對(duì)前一層的輸入進(jìn)行非線性映射；第四層是依然是一個(gè)卷積層，卷積核的大小依然為3×3，但是與第一層的不一樣的是核的滑動(dòng)步長(zhǎng)為1，padding大小不變?yōu)?，保證輸入和輸出特征圖的大小不變，卷積核的數(shù)量也與第一層一樣，與類(lèi)型A中的第四層一致；第五層依然是緊跟一個(gè)BatchNormlizaton層，與類(lèi)型A中的第五層一致；第六層也是一個(gè)矩陣對(duì)應(yīng)元素相加的計(jì)算層，與類(lèi)型A中的第六層一致；第七層對(duì)第六層的輸出映射ReLU激活函數(shù)層，與類(lèi)型A中第七層一致。Mapping部分是B類(lèi)型結(jié)構(gòu)特有的一個(gè)分支結(jié)構(gòu)。Mapping分支部分包括了一個(gè)卷積層和一個(gè)BatchNormlizaton層，卷積層的卷積核1×1的，核的滑動(dòng)步長(zhǎng)為2，擴(kuò)充（padding）大小為0，作用是將輸入直接映射到一個(gè)尺寸減半的輸出特征圖（FeatureMap），并且該特征圖的大小與之前的第五層輸出的FeatureMap大小一致，這樣經(jīng)過(guò)接下來(lái)的BatchNormlizaton，將輸出FeatureMap進(jìn)行規(guī)范化處理后，能夠進(jìn)行第六層的對(duì)應(yīng)元素相加的矩陣操作，否者在輸出的FeatureMap的尺寸大小上會(huì)出現(xiàn)不一致。以上7層加上Mapping分支，共同構(gòu)成了這個(gè)ResidualBlock的B類(lèi)型。4.4殘差卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練與實(shí)驗(yàn)分析4.4.1圖片數(shù)據(jù)與預(yù)處理選擇CASIA人臉庫(kù)作為人臉庫(kù)中的訓(xùn)練集。訓(xùn)練結(jié)束后，剩余網(wǎng)絡(luò)仍將在lfw數(shù)據(jù)庫(kù)上進(jìn)行測(cè)試，完成lfw數(shù)據(jù)庫(kù)上兩張圖片的身份認(rèn)證。從表4-4可以看出，casiawebface數(shù)據(jù)庫(kù)中的圖片總數(shù)和人臉數(shù)遠(yuǎn)遠(yuǎn)超過(guò)其他兩個(gè)庫(kù)中的圖片總數(shù)和人臉數(shù)。顯然，在多分類(lèi)問(wèn)題中，使用更多的訓(xùn)練集對(duì)類(lèi)別總數(shù)進(jìn)行訓(xùn)練，可以使網(wǎng)絡(luò)學(xué)習(xí)到更多區(qū)分這些不同人臉的不同特征，從而使網(wǎng)絡(luò)具有更好的識(shí)別效果。因此，選擇具有大量類(lèi)別和樣本的casia-webface等數(shù)據(jù)庫(kù)，可以有效地提高具有隨機(jī)初始化參數(shù)（如殘差網(wǎng)絡(luò)）的深度網(wǎng)絡(luò)的性能和精度。casiawebface數(shù)據(jù)庫(kù)中的圖像預(yù)處理是將人臉對(duì)齊并轉(zhuǎn)換成灰度圖像。圖片大小不是150x150。為了增加數(shù)據(jù)庫(kù)的數(shù)量和網(wǎng)絡(luò)的泛化能力，對(duì)圖片進(jìn)行了翻轉(zhuǎn)。lfw數(shù)據(jù)庫(kù)使用類(lèi)似的處理方法。在網(wǎng)絡(luò)的實(shí)際訓(xùn)練中，整個(gè)圖片在casiawebface數(shù)據(jù)庫(kù)中的輸入并不是直接使用的，而是在圖像的中心區(qū)域附近，區(qū)域的隨機(jī)裁剪部分（randcrop），裁剪的大小是128×128，裁剪的方式如圖所示。4-7。隨機(jī)剪切不同區(qū)域后，得到更多的樣本，并且這些增加的樣本的背景和人臉位置是不同的。這樣，網(wǎng)絡(luò)模型對(duì)背景的變化和人臉位置的平移不敏感，從而提高了網(wǎng)絡(luò)的泛化性能。4.4.2網(wǎng)絡(luò)的訓(xùn)練殘差網(wǎng)絡(luò)是一個(gè)深層次的網(wǎng)絡(luò)，雖然Residual學(xué)習(xí)的思想可以讓網(wǎng)絡(luò)模型變得更加容易調(diào)優(yōu)，更加易于訓(xùn)練和收斂。但是不合理的學(xué)習(xí)參數(shù)的設(shè)置，比如學(xué)習(xí)率、網(wǎng)絡(luò)參數(shù)初始化等等，在試驗(yàn)中依然會(huì)導(dǎo)致網(wǎng)絡(luò)訓(xùn)練失敗的情況。4.4.2.1網(wǎng)絡(luò)學(xué)習(xí)率殘差網(wǎng)絡(luò)的學(xué)習(xí)率的設(shè)定，也是很重要的。過(guò)大的學(xué)習(xí)率會(huì)造成網(wǎng)絡(luò)的梯度爆炸，導(dǎo)致網(wǎng)絡(luò)崩塌；過(guò)小的會(huì)使網(wǎng)絡(luò)的收斂變慢，使訓(xùn)練時(shí)間過(guò)長(zhǎng)。通過(guò)多次試驗(yàn)，殘差網(wǎng)絡(luò)的學(xué)習(xí)率的走勢(shì)如圖4-9所示時(shí)，可以讓網(wǎng)絡(luò)很好的收斂。開(kāi)始的時(shí)候網(wǎng)絡(luò)可以使用一個(gè)較大的學(xué)習(xí)率0.01來(lái)進(jìn)行學(xué)習(xí)，大概進(jìn)行到整個(gè)網(wǎng)絡(luò)訓(xùn)練的20~30%階段的時(shí)候，將學(xué)習(xí)率降低到原來(lái)的1/10，也就是0.001。之后到達(dá)60%左右階段的時(shí)候再次下降，達(dá)到0.0001。以后網(wǎng)絡(luò)收斂逐漸達(dá)到一個(gè)平穩(wěn)狀態(tài)，學(xué)習(xí)率每隔一段時(shí)間就再次下降1/10直到網(wǎng)絡(luò)收斂停止。4.4.2.2網(wǎng)絡(luò)訓(xùn)練分析按照之前介紹的參數(shù)初始化方法和學(xué)習(xí)率的改變策略對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，得到的殘差網(wǎng)絡(luò)loss值隨訓(xùn)練迭代次數(shù)的走勢(shì)圖。從loss值的走勢(shì)圖可以看出，網(wǎng)絡(luò)最開(kāi)始的loss值很小，在9.0左右，相對(duì)于輕量級(jí)VGG網(wǎng)絡(luò)中的loss值的走勢(shì)圖，這個(gè)值相對(duì)來(lái)說(shuō)比較大，這主要是因?yàn)榫W(wǎng)絡(luò)并沒(méi)有使用預(yù)訓(xùn)練的初始化參數(shù)，而是隨機(jī)初始化而來(lái)，其參數(shù)是沒(méi)有優(yōu)化的。在訓(xùn)練的開(kāi)始幾個(gè)epoch中，網(wǎng)絡(luò)的loss值下降的很快，說(shuō)明網(wǎng)絡(luò)的收斂速度很快，網(wǎng)絡(luò)模型結(jié)構(gòu)是有效的。過(guò)程中，沒(méi)有遇到梯度消散和梯度爆炸問(wèn)題，并且相對(duì)于輕量級(jí)VGG網(wǎng)絡(luò)的開(kāi)始幾輪迭代中的收斂速度，殘差網(wǎng)絡(luò)的收斂速度更快，這些也從側(cè)面說(shuō)明了這種新的參數(shù)初始化是有效。在之后的epoch中，殘差網(wǎng)絡(luò)收斂速度也是依然很快速，逐漸隨網(wǎng)絡(luò)優(yōu)化和學(xué)習(xí)率的下降而變緩慢。最終達(dá)到比較好的效果。殘差網(wǎng)絡(luò)在Casia-WebFace數(shù)據(jù)庫(kù)上訓(xùn)練后，驗(yàn)證集的多分類(lèi)測(cè)試達(dá)到了78%左右的正確率。這個(gè)準(zhǔn)確率并不高，主要是因?yàn)镃asia-WebFace數(shù)據(jù)庫(kù)中有很多錯(cuò)誤的臟數(shù)據(jù)。受到這些錯(cuò)誤訓(xùn)練集的干擾，網(wǎng)絡(luò)模型難以在訓(xùn)練集上進(jìn)行良好的擬合，但是得益于大量的樣本種類(lèi)，網(wǎng)絡(luò)模型依然對(duì)人臉特征有了很好的提取能力。4.4.3LFW驗(yàn)證結(jié)果分析在LFW數(shù)據(jù)庫(kù)中對(duì)以上模型的有效性進(jìn)行測(cè)試與分析。殘差網(wǎng)絡(luò)主要是提取網(wǎng)絡(luò)的倒數(shù)第二層，均值下采樣層（averagepooling層）的輸出特征向量作為人臉的特征進(jìn)行分類(lèi)識(shí)別。從殘差網(wǎng)絡(luò)的配置參數(shù)可以得知，人臉的特征向量是一個(gè)512維度的特征向量。人臉圖片對(duì)的相似程度，就通過(guò)這512維的向量之間的歐式距離進(jìn)行衡量。在計(jì)算歐式距離之前，依然是將特征向量進(jìn)行歸一化，也就是每一維度除以向量所有維度數(shù)據(jù)的平方和的平方根。在LFW驗(yàn)證中依然使用了兩種數(shù)據(jù)進(jìn)行比較，類(lèi)型A使用的是LFW沒(méi)有人臉對(duì)齊，僅僅只是裁剪掉部分背景的人臉圖片；類(lèi)型B使用的LFW數(shù)據(jù)是經(jīng)過(guò)與訓(xùn)練集一樣進(jìn)行過(guò)裁剪和人臉對(duì)齊以后的圖片。4.5本章小結(jié)本章主要是引入了一個(gè)新的卷積網(wǎng)絡(luò)模型學(xué)習(xí)的思想——?dú)埐顚W(xué)習(xí)（ResidualLearning），并根據(jù)這種思想構(gòu)造了一個(gè)新的卷積神經(jīng)網(wǎng)絡(luò)，成功應(yīng)用于人臉識(shí)別任務(wù)。第5章總結(jié)與展望第5章總結(jié)與展望人臉識(shí)別技術(shù)是利用人臉來(lái)完成身份識(shí)別和驗(yàn)證任務(wù)的。由于人臉表情的多樣性、背景的復(fù)雜性、光照的變化、姿態(tài)的差異等，人臉識(shí)別在實(shí)際應(yīng)用中仍然具有挑戰(zhàn)性。人臉作為一種生物特征，在公安、圖像搜索等領(lǐng)域也有著非常方便的應(yīng)用，具有廣闊的應(yīng)用前景。本文利用卷積神經(jīng)網(wǎng)絡(luò)在近年來(lái)深學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)，完成了人臉識(shí)別中的驗(yàn)證任務(wù)。近年來(lái)，深卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了比傳統(tǒng)技術(shù)更為顯著的成就。本文設(shè)計(jì)了兩種不同結(jié)構(gòu)的深卷積神經(jīng)網(wǎng)絡(luò)。通過(guò)對(duì)人臉優(yōu)化識(shí)別問(wèn)題的研究，實(shí)現(xiàn)了一種基于卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)和塊Radon尺度變換信息增強(qiáng)的人臉識(shí)別算法。在卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)器中，利用Radon尺度變換的幾何不變性增強(qiáng)人臉的關(guān)鍵特征點(diǎn)。特征分類(lèi)用于優(yōu)化特征提取和人臉識(shí)別。實(shí)驗(yàn)表明，該方法具有較好的人臉識(shí)別精度、較高的大樣本人臉識(shí)別精度、較好的實(shí)時(shí)性和較高的應(yīng)用價(jià)值。雖然在LFW測(cè)試集中，人臉識(shí)別方法的準(zhǔn)確率分別達(dá)到了99.1%和93.32%，但與頂級(jí)的人臉識(shí)別方法相比，仍有很大的差距。由于時(shí)間有限，筆者有一些想法尚未實(shí)現(xiàn)：1。在特征融合方面，首先提取每個(gè)基本模型的卷積層，然后通過(guò)預(yù)處理和融合得到組合卷積層。最后利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。這樣不僅可以得到卷積層提取的基本特征，而且可以利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行更有效的學(xué)習(xí)。2。在本文中，只有三個(gè)開(kāi)源模型用作基本模型，只有兩個(gè)模型用作最佳模型。后續(xù)思路上，采用更基本的模型，可以整合更多模型的優(yōu)點(diǎn)，從而進(jìn)一步提高改進(jìn)模型的有效性。三。本文所使用的兩個(gè)訓(xùn)練集較小，較大的數(shù)據(jù)集對(duì)深度學(xué)習(xí)訓(xùn)練更有效。參考文獻(xiàn)[1]M.AliAkberDewan,E.Granger,G.-L.Marcialis,R.Sabourin,F.Roli.Adaptiveappearancemodeltrackingforstill-to-videofacerecognition[J].PatternRecognition,2016，49：.[2]SamikB,SukhenduD.Mutualvariationofinformationontransfer-CNNforfacerecognitionwithdegradedprobesamples[J].Neurocomputing,2018,12(04):11-18.[3]Young-JooH,WooseongK,Joon-SangP.EfficientEye-BlinkingDetectiononSmartphones:AHybridApproachBasedonDeepLearning[J].MobileInformationSystems,2018,05(11):1-8.[4]YongXu,ZhengZhang,GuangmingLu,JianYang.Approximatelysymmetricalfaceimagesforimagepreprocessinginfacerecognitionandsparserepresentationbasedclassification[J].PatternRecognition,2015，：.[5]Xiao-YuanJing,FeiWu,XiaokeZhu,XiweiDong,FeiMa,ZhiqiangLi.Multi-spectrallow-rankstructureddictionarylearningforfacerecognition[J].PatternRecognition,2016，：.[6]AbdolhosseinFathi,PendarAlirezazadeh,FardinAbdali-Mohammadi.AnewGlobal-Gabor-Zernikefeaturedescriptoranditsapplicationtofacerecognition[J].JournalofVisualCommunicationandImageRepresentation,2016，：.[7EverardoSantiagoRamírez.Optimization-basedmethodologyfortrainingsetselectiontosynthesizecompositecorrelationfiltersforfacerecognition[J].SignalProcessing:ImageCommunication,2016，：.[8]馬姍姍.基于深度學(xué)習(xí)的低畫(huà)質(zhì)人臉識(shí)別研究[D].電子科技大學(xué)，2018.[9]林勝光.面向局部遮擋的人臉識(shí)別方法研究及實(shí)現(xiàn)[D].電子科技大學(xué)，2018.[10]李自豪.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉圖像識(shí)別研究[D].鄭州大學(xué)，2018.[11]王浩,孫福明.基于人臉識(shí)別的身份識(shí)別系統(tǒng)[J].電腦知識(shí)與技術(shù),2017,13(33):211-212.[12]孫勁光，孟凡宇.基于深度神經(jīng)網(wǎng)絡(luò)的特征加權(quán)融合人臉識(shí)別方法[J].計(jì)算機(jī)應(yīng)用，2016，3602：437-443.[13]張延安,王宏玉,徐方.基于深度卷積神經(jīng)網(wǎng)絡(luò)與中心損失的人臉識(shí)別[J].科學(xué)技術(shù)與工程,2017,17(35):92-97.[14]盧宏濤，張秦川.深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)中的應(yīng)用研究綜述[J].數(shù)據(jù)采集與處理，2016，3101：1-17.[15]王飛，李強(qiáng).基于改進(jìn)的深度信念網(wǎng)絡(luò)的人臉識(shí)別算法研究[J].蘭州交通大學(xué)學(xué)報(bào)，2016，3501：42-47+58.[16]胡正平,何薇,王蒙,孫哲.Gabor調(diào)制的深度多層子空間人臉特征提取算法[J].信號(hào)處理,2017,33(03):338-345.[17]陳耀丹，王連明.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別方法[J].東北師大學(xué)報(bào)（自然科學(xué)版），2016，4802：70-76.[18]張泊平.云計(jì)算平臺(tái)下的人臉識(shí)別[J].現(xiàn)代電子技術(shù)，2016，3918：88-90+95.[19]楊鳴鳴.基于嵌入式系統(tǒng)的人臉識(shí)別算法研究及其優(yōu)化[J].微型機(jī)與應(yīng)用，2016，3519：50-52.[20]余丹，吳小俊.一種卷積神經(jīng)網(wǎng)絡(luò)和極限學(xué)習(xí)機(jī)相結(jié)合的人臉識(shí)別方法[J].數(shù)據(jù)采集與處理，2016，3105：996-1003.[21]李春利,柳振東,惠康華.基于卷積神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究[J].軟件導(dǎo)刊,2017,16(05):186-188.[22]楊巨成，劉娜，房珊珊，謝迎.基于深度學(xué)習(xí)的人臉識(shí)別方法研究綜述[J].天津科技大學(xué)學(xué)報(bào)，2016，3106：1-10.[23]楊瑞,張?jiān)苽?茍爽,支艷利.Gabor特征與深度信念網(wǎng)絡(luò)結(jié)合的人臉識(shí)別方法[J].傳感器與微系統(tǒng),2017,36(05):68-70.[24]馮建洋，諶海云.基于人工神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究[J].自動(dòng)化與儀器儀表，2017，05：24-26+29.[25]郭曉潔,陳良,沈長(zhǎng)青,劉承建.自適應(yīng)深度卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別上的應(yīng)用[J].自動(dòng)化技術(shù)與應(yīng)用,2017,36(07):72-77.[26]陳志軒，周大可，黃經(jīng)緯.基于卷積神經(jīng)網(wǎng)絡(luò)的表情不變?nèi)S人臉識(shí)別[J].電子測(cè)量技術(shù)，201

人人文庫(kù)> 全部分類(lèi)> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔