版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第頁緒論1.1課題研究的背景和意義疲勞是一個(gè)抽象的概念,是一種主觀不適感覺,但客觀上會(huì)在同等條件下,人會(huì)失去其完成原來所從事的正常活動(dòng)或工作能力。由于從事一些重復(fù)動(dòng)作次數(shù)較多的工作,導(dǎo)致身體機(jī)能下滑,從而引起一些不必要的事故。隨著汽車保有量和道路交通里程的逐年增加,大量的交通事故也在逐年增加。在全球的范圍內(nèi),疲勞駕駛是交通安全事故的重要原因之一。中國每年因?yàn)槠隈{駛發(fā)生的交通事故在2500起左右,由于目前對疲勞駕駛?cè)匀粵]有一個(gè)具體的認(rèn)定標(biāo)準(zhǔn),因而,實(shí)際上駕駛?cè)艘蚱谒鸬氖鹿时壤叩亩郲]。因此,疲勞識別的檢測系統(tǒng)在機(jī)動(dòng)車駕駛過程中的作用尤為重要。數(shù)據(jù)化和科學(xué)化的檢測方法能有效的避免事故的發(fā)生。疲勞表情是疲勞狀態(tài)的一個(gè)明顯的標(biāo)志,和正常態(tài)的表情有十分顯著的區(qū)別。所以本文課題就是使用疲勞表情識別。人體語言包括肢體語言和自然語言。人臉疲勞表情便是傳遞疲勞信息的語言之一,作為人機(jī)交互的重要基礎(chǔ)的一部分,表情識別或者是疲勞表情識別是智能信息化的體現(xiàn)。傳統(tǒng)的識別方法是提取出人臉特征進(jìn)行歸一化處理,從而進(jìn)行權(quán)重分配和分類處理,然而已經(jīng)訓(xùn)練和未訓(xùn)練的人臉識別的正確率有很大的區(qū)別,同時(shí)在實(shí)際生活中,由于環(huán)境的復(fù)雜以及人臉角度的不同等等因素,導(dǎo)致識別的準(zhǔn)確率不夠高。雖然有Gabor小波等較強(qiáng)魯棒性的特征提取方法,但是在學(xué)習(xí)訓(xùn)練方面還是不盡如人意。因此本文選擇使用深度學(xué)習(xí)的方法,利用無監(jiān)督學(xué)習(xí)的特性,自動(dòng)的獲取臉部之間的潛在的非線性的特征,不需要進(jìn)行監(jiān)督學(xué)習(xí)。深度學(xué)習(xí)在復(fù)雜數(shù)據(jù)的處理上具有極佳的效果,在文本,圖像和音頻上具有良好的運(yùn)用。然而對于深度學(xué)習(xí)的研究,目前還處于比較新的階段,本文的研究也可以為深度學(xué)習(xí)做出一點(diǎn)貢獻(xiàn)。同時(shí)也為機(jī)動(dòng)車駕駛疲勞檢測的方法提出一個(gè)途徑。1.2國內(nèi)外研究的現(xiàn)狀關(guān)于疲勞駕駛表情識別,先提及表情識別的現(xiàn)狀。人臉表情識別大多數(shù)是采用BP淺層學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行來識別。在國內(nèi)外的研究方向如下:第一種是對對圖片進(jìn)行預(yù)處理,這是該方法的一大特點(diǎn),預(yù)處理能夠提升識別的準(zhǔn)確度。提取臉部特征,采用建立模型,包括ASM,AAM等或者對圖像進(jìn)行提取,采用Gabor,彈性圖匹配法以及Fisher判別法等等。對于動(dòng)態(tài)圖片,還會(huì)使用光流法或者是特征點(diǎn)追蹤法等。然后進(jìn)行分類,采用BP神經(jīng)網(wǎng)絡(luò)或者K-最近鄰學(xué)習(xí)法等等方法[],具體的方法綜述可見文獻(xiàn)[2]。第二種是對圖像進(jìn)行簡單的預(yù)處理后,就不采用人工規(guī)則算法進(jìn)行識別,而是采用深度學(xué)習(xí)的方法,建立隱含層,實(shí)現(xiàn)無監(jiān)督學(xué)習(xí)。在解釋深度學(xué)習(xí)之前,我們需要了解什么是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,但是在很長的一段時(shí)間里,機(jī)器學(xué)習(xí)幾乎是人工智能的代名詞。而學(xué)習(xí)能力是人工智能的基本特征,人工智能的研究第一個(gè)階段是在五十年代中期就以學(xué)習(xí)機(jī)為主要內(nèi)容開始,其中的學(xué)習(xí)內(nèi)容是以建立神經(jīng)模型的學(xué)習(xí)感知裝置,著名的例子便是計(jì)算機(jī)利用學(xué)習(xí)模式戰(zhàn)勝圍棋大師從而大獲全勝。第二階段便是六十年代由參數(shù)學(xué)習(xí)改進(jìn)成符號學(xué)習(xí)[]。著名的例子有Feigenbeum(1963)的言語學(xué)習(xí)模型,Winson(1970)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng),而Waterman則發(fā)展了自適應(yīng)系統(tǒng),提出了聯(lián)想規(guī)則。第三階段就是八十年代末期開始到至今,期間產(chǎn)生了倆次浪潮,第一次浪潮是淺度學(xué)習(xí),采用人工神經(jīng)網(wǎng)絡(luò)的方向傳播算法(BP算法)。該算法能在大量數(shù)據(jù)的訓(xùn)練樣本中尋找到隱藏的規(guī)律,從而對未知的事物進(jìn)行預(yù)測。這種在統(tǒng)計(jì)的基礎(chǔ)上進(jìn)行機(jī)器學(xué)習(xí)的方法比起過去基于人工網(wǎng)絡(luò)規(guī)則的系統(tǒng)方法又明顯的優(yōu)越性,例如支撐向量機(jī)(supportvectormachines),Boosting方法等等,然而BP算法只能是含有一層的淺層模型。第二次浪潮是在互聯(lián)網(wǎng)飛速發(fā)展的情況下,對于大數(shù)據(jù)的更加復(fù)雜的分析要求逐漸提升。2006年,加拿大多倫多大學(xué)的教授Hinton和他的學(xué)生Salakhutdinov發(fā)表了一篇文章,從此開啟了深度學(xué)習(xí)的大門[]。在這篇文獻(xiàn)中,揭露了多層隱含層的優(yōu)秀的特征學(xué)習(xí)能力,通過逐層初始化來克服深度學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)的困難。模仿網(wǎng)絡(luò)模型的形式,建立各層隱含層,通過轉(zhuǎn)化到不同的特征空間來使得分類和預(yù)測更加精準(zhǔn)。人臉的疲勞表情識別在不同的環(huán)境下是極具復(fù)雜特性的,首先在駕駛座位上,由于光線強(qiáng)度的變化的原因,人臉的特征表情也隨之改變。其次,由于人類種族膚色的不同,本身的膚色差異也會(huì)干擾疲勞表情的識別,再之,由于駕駛座位的不同姿勢和角度的不同,導(dǎo)致了不同的識別難度。在實(shí)際生活中,人臉的表情識別還受到像素和拍攝圖像不清晰的影響??傊趯?shí)際生活運(yùn)用中,疲勞駕駛表情識別的研究的道路還很長遠(yuǎn)。1.3面部疲勞表情識別的設(shè)計(jì)思路和研究內(nèi)容本文研究對象是來自駕駛座位的駕駛?cè)藛T的表情,因此不失一般性,我們必須考慮到駕駛員的駕駛環(huán)境的一般情況。一方面,在駕駛過程中,駕駛員的頭部是會(huì)移動(dòng)的,因而必須考慮到不同角度和姿勢的臉部疲勞表情。另外一方面,在駕駛過程中,隨著時(shí)間的變化,天氣的變化以及建筑物的遮擋情況,光線的強(qiáng)弱是會(huì)改變的,這也必須考慮在內(nèi)。本論文的章節(jié)安排如下:緒論,首要介紹了該課題的研究背景以及社會(huì)意義,同時(shí)介紹了研究該課題所使用的方法,分析國內(nèi)外相關(guān)領(lǐng)域的研究成果。其次,介紹此課題的設(shè)計(jì)思路和設(shè)計(jì)過程中用到的方法。最后,交待整體論文的工作內(nèi)容安排。深度學(xué)習(xí),介紹了設(shè)計(jì)該課題的思路的學(xué)習(xí)方法,介紹了深度學(xué)習(xí)的基本思想和模型結(jié)構(gòu)分類,初步的了解深度學(xué)習(xí)的運(yùn)用。其中包括卷積神經(jīng)網(wǎng)絡(luò),介紹了卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和中心思想。了解卷積神經(jīng)網(wǎng)絡(luò)的流程,同時(shí)介紹卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建?;诰矸e神經(jīng)網(wǎng)絡(luò)的疲勞表情識別,介紹了在CAFFE平臺下,實(shí)現(xiàn)人臉疲勞駕駛表情識別的功能,介紹了實(shí)驗(yàn)?zāi)P徒Y(jié)構(gòu),同時(shí)將課題實(shí)驗(yàn)結(jié)果展現(xiàn)出來,將實(shí)驗(yàn)?zāi)P秃鸵阎獋鹘y(tǒng)的模型,包括手寫體模型和淺層學(xué)習(xí)模型進(jìn)行對比,得出最后的結(jié)論總結(jié)和展望,對整體設(shè)計(jì)工作進(jìn)行總結(jié)和分析,總結(jié)在這次課題中的教訓(xùn)和經(jīng)驗(yàn)??偨Y(jié)工作和展望未來的發(fā)展。深度學(xué)習(xí)2.1深度網(wǎng)絡(luò)神經(jīng)學(xué)啟發(fā)深度學(xué)習(xí)的概念來源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)是通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[]。人們在面對大量的數(shù)據(jù)時(shí)候,能夠很直觀靈巧的進(jìn)行數(shù)據(jù)采集和獲取其中重要的信息。在人機(jī)智能飛速發(fā)展的今天,人們有意于模范人體神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行高效的獲取信息和表示信息。神經(jīng)科學(xué)的專家發(fā)現(xiàn),哺乳動(dòng)物在進(jìn)行視覺信息處理時(shí)候,并沒有對視覺信息進(jìn)行預(yù)處理,而是通過一個(gè)復(fù)雜的層狀神經(jīng)網(wǎng)絡(luò),進(jìn)而獲取一個(gè)數(shù)據(jù)的展現(xiàn)的一個(gè)規(guī)則。圖2.1視覺信號處理圖換句話說,人腦并不是直接從視覺感官的投影直接進(jìn)行識別物體,而是經(jīng)過一個(gè)篩選,聚合的一個(gè)層狀網(wǎng)絡(luò)進(jìn)行識別物體。所以視覺感官的功能并不是對物體投影的重新復(fù)現(xiàn),而是對于圖像的特征處理和采集。人體的神經(jīng)系統(tǒng)的層次結(jié)構(gòu)大大降低了視覺系統(tǒng)的處理數(shù)量工作量,同時(shí)保留有大部分重要的信息。在極具潛在復(fù)雜規(guī)則圖像和音頻以及文本方面,深度學(xué)習(xí)便能模仿神經(jīng)網(wǎng)絡(luò)的特點(diǎn),獲取其本質(zhì)的特征。2.2淺層網(wǎng)絡(luò)的局限性傳統(tǒng)的機(jī)器學(xué)習(xí)網(wǎng)絡(luò),僅僅適用于單層非線性的淺層學(xué)習(xí)結(jié)構(gòu)。對于傳統(tǒng)淺層學(xué)習(xí)的模式,已經(jīng)研究的十分的深入,同時(shí)也提出了許多的模型,這些模型包括傳統(tǒng)的隱馬爾科夫模型(HMM),支持向量機(jī)(SVM),以及僅含單隱含層的多層感知器(MLP)等。這些模型的共性就是僅僅將原始的輸入轉(zhuǎn)換到特定的空間來進(jìn)行簡單的處理結(jié)構(gòu)。BP算法是經(jīng)典的梯度下降并且隨機(jī)選擇初始值的多層網(wǎng)絡(luò)計(jì)算訓(xùn)練算法,然而因?yàn)檩斎牒洼敵鲋g的非線性關(guān)系,存在能量函數(shù)使得含有多個(gè)極小的非線性空間。于是搜索的方向僅僅是使往誤差減少的方向進(jìn)行,致使經(jīng)常收斂到局部最小,網(wǎng)絡(luò)層數(shù)的增加能夠加重這種情況。因此對于BP算法來說,是不適合進(jìn)行多層網(wǎng)絡(luò)的計(jì)算。BP算法存在的問題如下[]:
(1)梯度從上而下越來越稀疏:從最頂層越往下,誤差校正信號越來越??;
(2)會(huì)收斂到局部最小值:尤其是從遠(yuǎn)離最優(yōu)區(qū)域開始的時(shí)候(這是由于隨機(jī)值初始化會(huì)導(dǎo)致這種情況的發(fā)生);
(3)一般的,我們只能用有標(biāo)簽的數(shù)據(jù)來訓(xùn)練:然而大部分的數(shù)據(jù)是沒標(biāo)簽的,而大腦可以從一開始就沒有標(biāo)簽的的數(shù)據(jù)中學(xué)習(xí);由文獻(xiàn)[6]表明,BP算法是不適用于多層隱藏層的結(jié)構(gòu)運(yùn)算。正是這原因?qū)е铝松疃葘W(xué)習(xí)的進(jìn)展緩慢,從而使大多數(shù)機(jī)器學(xué)習(xí)實(shí)驗(yàn)和信號計(jì)算從神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)移到相對容易訓(xùn)練的淺層學(xué)習(xí)結(jié)構(gòu)。當(dāng)前的多數(shù)分類,辨別回歸等學(xué)習(xí)方法總體可以概括是淺層結(jié)構(gòu)學(xué)習(xí)算法,在面對有限樣本和有限計(jì)算單元下極具良好的優(yōu)勢,但是在對復(fù)雜函數(shù)或者是復(fù)雜非線性關(guān)系表示方面,淺層結(jié)構(gòu)算法的表示能力是十分蒼白的而且受到很大的局限性的。深度學(xué)習(xí)可以通過有限的樣本,從樣本集的特征中學(xué)習(xí)到本質(zhì)的特點(diǎn),展現(xiàn)出和淺度神經(jīng)網(wǎng)絡(luò)不一樣的表示能力。在復(fù)雜函數(shù)方面的具有強(qiáng)大的表征能力。2.3深度學(xué)習(xí)基本思想實(shí)際日常生活中,人們?yōu)榱藢σ粋€(gè)對象的分類(可能是文檔、或者圖像或者音頻等),首先第一項(xiàng)必須做的事情便是如何來表達(dá)一個(gè)對象,也就是必須抽取一些特征來表示一個(gè)對象,比如在文本的處理過程中,常常用詞集合來表示一個(gè)文檔,又或者把文檔表示在向量空間中(稱之為VSM模型),然后才能提出不同的分類算法來進(jìn)行分類;又比如在圖像處理過程中,可以使用像素集合來表示某個(gè)圖像,又或者是二值化的形式來表示,特征選取得好壞對最終結(jié)果的影響非常巨大。因此,選取什么特征對于解決一個(gè)實(shí)際問題非常的重要。然而在實(shí)際應(yīng)用中,這種繁瑣的選取特征的規(guī)定方法具有一些不適用的地方,對于不同的圖像集合也許就必須采用不同的提取特征的方法,這使得在一些比較復(fù)雜的圖像上面的特征提取上面是十分的費(fèi)力的,有效的提取特征的方法很大程度上就取決于經(jīng)驗(yàn)和一定的運(yùn)氣成分。因此在現(xiàn)今對于系統(tǒng)自主學(xué)習(xí)特征的功能是存在一定的需求的。深度學(xué)習(xí)就為自主學(xué)習(xí)提供了途徑。深度學(xué)習(xí)(DeepLearning)的另外一個(gè)別名,是UnsupervisedFeatureLearning。顧名思義,Unsupervised是不需要人干預(yù)的意思。換句話說,這個(gè)過程就是不需要人為的去選取特征。它能夠?qū)崿F(xiàn)自動(dòng)學(xué)習(xí)特征的功能,因此統(tǒng)稱為DeepLearning。深度學(xué)習(xí)的最基本核心的思想是將輸入和輸出看作為等同。具體來說,就是在某種程度上假設(shè)我們有一個(gè)系統(tǒng)C,它有n層結(jié)構(gòu)(C1,...Cn),假設(shè)它的輸入是I,輸出是O,那么我們可以形象地表示為:I=>C1=>C2=>=>Cn=>O.圖2.3深度學(xué)習(xí)思想那么在這過程中,如果輸出O等于輸入I,也就是簡單的說輸入I經(jīng)過這個(gè)系統(tǒng)的一系列變化之后沒有任何的信息損失,即在任何一層Ci,變化的信息都是原有信息(即輸入I)的另外一種表示。按照這個(gè)思路,假設(shè)我們有一系列的輸入I,比如文本或者是圖像,經(jīng)過一系列的系統(tǒng)處理之后,我們調(diào)整其中的參數(shù),使得輸出還是I。從中我們便能得到每一層的特征參數(shù),即C1,C2等等。C1在上述中,我們是嚴(yán)格要求輸入是等同于輸出的。但是在實(shí)際中,輸入和輸出是不可能等同的,那么我們可以略微放松限制要求,使得輸入和輸出是盡可能在我們的預(yù)期誤差范圍內(nèi)。正是這種輸入和輸出的限制的誤差,就產(chǎn)生了深度學(xué)習(xí)的思想[]。實(shí)際上我們是將學(xué)習(xí)結(jié)構(gòu)看成是一個(gè)網(wǎng)絡(luò),使用無監(jiān)督學(xué)習(xí)對每一層進(jìn)行pre-train,然后將每一層的預(yù)訓(xùn)練結(jié)果作為下一層的輸入,層層遞進(jìn),在這過程中需要監(jiān)督學(xué)習(xí)去調(diào)整每一層的參數(shù)。直至達(dá)到模型最優(yōu)型。C12.4深度學(xué)習(xí)的基本模型結(jié)構(gòu)常見的基礎(chǔ)淺層學(xué)習(xí)的結(jié)構(gòu)基本上是“圖像語義特征加分類器”這樣的結(jié)構(gòu)來完成對圖像的分類識別。但是由于圖像本身的復(fù)雜性例如顏色,角度,灰度等等一系列的復(fù)雜部分,底層的一些視覺特征仍然和頂層的特征表示存在一些差別。深度學(xué)習(xí)便存在使用大多數(shù)情況下的良好結(jié)構(gòu)。常見的深度學(xué)習(xí)模型有AutoEncoder自動(dòng)編碼器,SparseCoding稀疏編碼,RestrictedBoltzmannMachine(簡稱RBM)受限制波爾茲曼機(jī),DeepBeliefNetworks(DBN)深信度網(wǎng)絡(luò),ConvolutionalNeuralNetworks(CNN)卷積神經(jīng)網(wǎng)絡(luò)。2.4.1自動(dòng)編碼器和稀疏編碼人工神經(jīng)網(wǎng)絡(luò)(ANN)自身便是一個(gè)層次結(jié)構(gòu)的系統(tǒng),如果將輸入I和輸出O等同,那么訓(xùn)練調(diào)整的中間層的參數(shù),便得到I的多種表示方式,即每一層都是I的表示形式。如果在原有的特征中加入這些已經(jīng)學(xué)到的中間層的權(quán)重,那么將大大提高分類的正確率。將對比之前的分類的各個(gè)算法效果更好。這便是自動(dòng)編碼(AutoEncoder)。然而自動(dòng)編碼自身帶有固有的問題,例如它只是簡單的將輸入復(fù)制重現(xiàn)到輸出上,雖然能完美的重現(xiàn)輸出,但是本質(zhì)上并沒有提取出任何有意義的特征[]。因此在此之上我們可以加一些約束條件得到新的學(xué)習(xí)方法(SparseAutoRncoder),也就是在約束每一層的大部分的結(jié)點(diǎn)都是0,少數(shù)不為0,這樣就可以得到稀疏自動(dòng)編碼器。稀疏自動(dòng)編碼思想就是上述2.3中提及的將輸入和輸出的相等的條件放寬,放松這樣的限制,然后使用線性方程中的概念,也就是讓O=W1xb1+W2xb2+...+Wnxbn,其中bi是基值,Wi是系數(shù),于是就自然的引出一個(gè)值得優(yōu)化的問題就是Min|I-O|。這些系數(shù)和基值就是輸入的另外有一種不一樣的表示方式。在學(xué)習(xí)過程中求解這些基值和系數(shù)和最優(yōu)化的問題就是SparseCoding。這方法能隱性的學(xué)習(xí)到潛在的對象的基函數(shù)和系數(shù)函數(shù)。2.4.2受限制波爾茲曼機(jī)RestrictedBoltzmannMachine受限制波爾茲曼機(jī)是實(shí)質(zhì)是有倆層結(jié)構(gòu)[]。在此我們假設(shè)有倆個(gè)部分的層次圖。層與層之間存在連接,但是每一層的節(jié)點(diǎn)之間不存在任何的連接。第一層是輸入層,第二層是隱含層。并且我們假設(shè)隱含層和輸入層的所有節(jié)點(diǎn)都是隨機(jī)的二值量節(jié)點(diǎn),即該節(jié)點(diǎn)的取值只能是0或者是1.同時(shí)假設(shè)該節(jié)點(diǎn)的分布滿足玻爾茲曼分布。也就是p(v,h)滿足Boltzmann分布(v是輸入層,h隱含層)。我們稱之為RestrictedBoltzmannMachine。圖RBM結(jié)構(gòu)圖由于該結(jié)構(gòu)是二部圖,因而在已知輸入層v的情況下,所有的隱藏節(jié)點(diǎn)之間是條件獨(dú)立的(因?yàn)楣?jié)點(diǎn)之間不存在連接),即p(h|v)=p(h1|v)…p(hn|v)。相同的道理,在已知隱含層h的情況下,v是條件分布的。所以在當(dāng)前v和h滿足波爾茲曼分布的時(shí)候,就能通過輸入v求解出隱含層h,再通過條件分布的概念,反向求解出可視層v,進(jìn)而可以調(diào)整參數(shù),將隱含層和輸入層調(diào)整至一致。這樣從另外一個(gè)方面上,隱含層便是輸入層的另外一種表示,也可以將其看成是可視層的一種特征。這同時(shí)也應(yīng)用了2.3中的DeepLearning的思想。圖RBM推導(dǎo)過程至于輸入可視層和隱含層之間的權(quán)值如何確定,這涉及到一些數(shù)學(xué)分析和概率論極大似然問題,這里就不做詳細(xì)介紹。2.4.3深信度網(wǎng)絡(luò)在2.4.2中提及到RBM網(wǎng)絡(luò)是一個(gè)簡單的層模型,然而在實(shí)際中RBM無法完美的將一些原始數(shù)據(jù)表達(dá)出來,那么需要我們使用更加多層的結(jié)構(gòu)來表達(dá)高層數(shù)據(jù)。那么可以運(yùn)用RBM的思想,將隱含層的個(gè)數(shù)增加。DeepBeliefNetworks(DBNs)深信度網(wǎng)絡(luò)是一個(gè)含有多個(gè)隱含層的概率模型,每一層從前一層的隱含單元中獲得高度相關(guān)聯(lián)的聯(lián)系。圖2.4.3RBM和DBN結(jié)構(gòu)圖2.4.3是一個(gè)深信度的網(wǎng)絡(luò)示意圖,深信度網(wǎng)絡(luò)相鄰倆層之間都能分解成一個(gè)單獨(dú)的受限玻爾茲曼機(jī),同樣層間存在連接,但層內(nèi)的單元間不存在連接。因此一個(gè)DBNs可以看成是多個(gè)RBM的累積。通過RBM的學(xué)習(xí)方法,學(xué)習(xí)到每一層的參數(shù),包括連接權(quán)值和隱含層的權(quán)值。逐層從最底層到最高層進(jìn)行訓(xùn)練,這一系列的過程稱為預(yù)訓(xùn)練,也就是pre-train。然后將原始數(shù)據(jù)輸入作為監(jiān)督數(shù)據(jù),采用極大似然的方法,對整個(gè)網(wǎng)絡(luò)進(jìn)行細(xì)致的微調(diào)。2.4.4卷積神經(jīng)網(wǎng)絡(luò)本次實(shí)驗(yàn)采用卷積神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行學(xué)習(xí)。卷積神經(jīng)網(wǎng)絡(luò)ConvolutionalNeuralNetworks是第一個(gè)真正意義上成功訓(xùn)練出多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。它利用空間關(guān)系減少了所需學(xué)習(xí)的參數(shù)數(shù)目,從而提高一般前向BP算法的訓(xùn)練性能。卷積神經(jīng)網(wǎng)絡(luò)是為了最小化數(shù)據(jù)的預(yù)處理要求而作為一個(gè)深度學(xué)習(xí)架構(gòu)提出。在卷積神經(jīng)網(wǎng)絡(luò)中,圖像的一小部分(局部感受區(qū)域)作為層級結(jié)構(gòu)的最低層的輸入,將信息依次傳輸?shù)讲煌膶?,每層通過一個(gè)數(shù)字濾波器從各個(gè)特征中獲取最顯著的一個(gè)。這個(gè)方法能夠獲取對平移、縮放或者是旋轉(zhuǎn)不變的觀測數(shù)據(jù)的顯著特征。卷積神經(jīng)網(wǎng)絡(luò)最大的顯著特點(diǎn)便是權(quán)值和感受野共享、這一特征將其要訓(xùn)練的參數(shù)大大減少,從而大幅度提高訓(xùn)練效果和速度。卷積神經(jīng)網(wǎng)絡(luò)概述卷積神經(jīng)網(wǎng)絡(luò)是近些年來發(fā)展起來的并且引起廣泛重視的一種高效識別的方法。它是十分成功的多層網(wǎng)絡(luò)算法。由于卷積神經(jīng)網(wǎng)絡(luò)的算法避免了對圖像的復(fù)雜的預(yù)處理,例如歸一化,去噪等等一系列的處理,可以直接輸入原始圖像,因而得到了廣泛的應(yīng)用和研究。卷積神經(jīng)網(wǎng)絡(luò)最大的特點(diǎn)是局域感受野,權(quán)值共享以及次抽樣。這三個(gè)方法的實(shí)現(xiàn)可以識別位移,縮放以及旋轉(zhuǎn)不變的圖像[]。感受野局域化在BP神經(jīng)網(wǎng)絡(luò)中,每一層的神經(jīng)元節(jié)點(diǎn)和線性一維的排列形式。層和層之間實(shí)現(xiàn)的是去全連接。在卷積神經(jīng)網(wǎng)絡(luò)中,層和層之間的神經(jīng)元節(jié)點(diǎn)不再是全連接,而是局部連接或者稱之為感受野局域化。感受野局域化是指卷積神經(jīng)網(wǎng)絡(luò)的相鄰的倆個(gè)層之間,每一網(wǎng)絡(luò)層的神經(jīng)元只有一部分是和上一層的一小部分的領(lǐng)域是連接在一起的,其余的部分沒有連接。通過感受野的局域化,每一個(gè)的神經(jīng)元可以提取出上一層的初級視覺特征,比如方向線段,端點(diǎn)特征[]。圖感受野局域化示意圖權(quán)值共享權(quán)值共享是減少參數(shù)訓(xùn)練的一大優(yōu)點(diǎn)。權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)能夠使卷積神經(jīng)網(wǎng)絡(luò)更類似于生物神經(jīng)網(wǎng)絡(luò),大大降低了網(wǎng)絡(luò)模型的復(fù)雜性,減少了參數(shù)權(quán)值的數(shù)量。該優(yōu)點(diǎn)在輸入圖像是多維圖像時(shí)展現(xiàn)的明顯,能夠使圖像直接作為網(wǎng)絡(luò)的輸入,不需要進(jìn)行多次處理,避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。圖權(quán)值共享示意圖最大池采樣層關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的另外一個(gè)概念便是最大池采樣層。在數(shù)據(jù)經(jīng)過卷積層時(shí),若將所提到的特征進(jìn)行分類器訓(xùn)練,那么會(huì)產(chǎn)生一個(gè)很嚴(yán)重的問題,就是會(huì)產(chǎn)生極大的計(jì)算量。比如,在對于36x36大小的圖片,在卷積層定義500個(gè)5x5大小卷積核濾波器,每一個(gè)卷積核和圖像濾波就會(huì)產(chǎn)生一個(gè)(36-5+1)x(36-5+1)維數(shù)的卷積特征圖像。從而得到32x32x500=512000維的卷積特征。這樣的規(guī)模的分類器的學(xué)習(xí)效果是十分差的,容易出現(xiàn)過擬合現(xiàn)象,得不到滿意的結(jié)果。因此在得到大量維數(shù)的卷積特征時(shí),我們必須進(jìn)行對卷積的特征的降維,因此采用最大池采樣的方法來實(shí)現(xiàn)該功能。最大池采樣顧名思義就是實(shí)現(xiàn)最大化的采樣,我們將featuremaps劃分為多個(gè)相同大小nxn的區(qū)域且不相交。將這些區(qū)域中的最大或者是平均的特征來做代表,實(shí)現(xiàn)卷積特征的降維,從而更加的容易分類。最大池采樣是特征分辨率減少的一個(gè)方法。通過采樣將上一層的featuremaps分辨率降低,減少節(jié)點(diǎn)數(shù)量。一般的,卷積后通常伴隨著是一個(gè)采樣pool層,用來減少計(jì)算時(shí)間和空間,同時(shí)保持了結(jié)構(gòu)上的基本不變性。Softmax回歸函數(shù)Softmax回歸函數(shù)是有監(jiān)督學(xué)習(xí)算法,是在邏輯回歸的延拓,目的是為了多分類的問題提供解決途徑[]。目標(biāo)訓(xùn)練的種類一般在倆種以上。研究表明,Softmax回歸在MNIST手寫體數(shù)字識別方面具有極佳的分類效果,該模型是對0-9十個(gè)數(shù)字進(jìn)行識別分類。該算法可以和深度學(xué)習(xí)結(jié)合使用。邏輯回歸中訓(xùn)練樣本是m個(gè)帶標(biāo)簽的樣本組成{(,),(),...,()},其中輸入的特征。由于邏輯回歸是為了解決二分類的方法,因此在分類標(biāo)簽中,{0,1}。在此假設(shè)函數(shù)如下:(2.1)調(diào)整θ,使得它能最小化代價(jià)函數(shù)(2.2)然而在Softmax回歸函數(shù)中,我們需要面對的是倆個(gè)以上的多種分類問題,因此{(lán)0,1,2,...,k}.對于訓(xùn)練樣本集合x,我們可以用假設(shè)函數(shù)j來對每一個(gè)類型的概率值p(y=j|x).故而假設(shè)函數(shù)要估計(jì)出一個(gè)k維的向量來表示該k個(gè)估計(jì)的概率值的,那么可以表示成(2.3)其中是模型所具有的參數(shù),是為了將概率進(jìn)行歸一化處理,使所有的概率和為1.將θ用一個(gè)kx(n+1)的矩陣表示,變?nèi)缦拢?2.4)現(xiàn)在對Softmax回歸函數(shù)進(jìn)行分析,以下的函數(shù)是邏輯回歸函數(shù)的推廣。(2.5)從上公式可以看出,Softmax回歸函數(shù)和邏輯回歸函數(shù)具有十分相似的地方,不同的是Softmax回歸函數(shù)將樣本x分類為類別j的概率為:(2.6)Softmax的代價(jià)函數(shù)的梯度公式如下:(2.7)增加了第二項(xiàng)的權(quán)重衰減項(xiàng)后,代價(jià)函數(shù)就成為一個(gè)凸函數(shù),有效的防止了在優(yōu)化過程中進(jìn)入局部收斂。通過最小化代價(jià)公式J(θ),實(shí)現(xiàn)Softmax分類模型。卷積神經(jīng)網(wǎng)絡(luò)總體結(jié)構(gòu)形式卷積神經(jīng)網(wǎng)絡(luò)的核心是卷積層和池采樣層的交互存在。該模型通過極小誤差方法來最小化損失函數(shù)。在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中,分為倆個(gè)階段。第一階段,向前傳播階段:從樣本集中取一個(gè)樣本(X,Y),將X輸入網(wǎng)絡(luò);計(jì)算相應(yīng)的實(shí)際輸出Op。在此階段,信息從輸入層經(jīng)過逐級的變換,傳送到輸出層。這個(gè)過程也是網(wǎng)絡(luò)在完成訓(xùn)練后正常運(yùn)行時(shí)執(zhí)行的過程。在此過程中,網(wǎng)絡(luò)執(zhí)行的是計(jì)算(實(shí)際上就是輸入與每層的權(quán)值矩陣相點(diǎn)乘,得到最后的輸出結(jié)果)。第二階段,向后傳播階段。算出實(shí)際輸出Op與相應(yīng)的理想輸出Yp的差。卷積神經(jīng)網(wǎng)絡(luò)通過反復(fù)的迭代運(yùn)算訓(xùn)練來提高精度,下圖是卷積神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu)圖:圖卷積神經(jīng)網(wǎng)絡(luò)框架圖一般的,卷積神經(jīng)網(wǎng)絡(luò)的前面幾層是卷積層和池采樣層交替構(gòu)成,高層是全連接層所對應(yīng)的隱含層和Softmax邏輯回歸分類器,當(dāng)然,最后的高層部分也可以使用支持向量機(jī)來對圖像進(jìn)行分類。本文的第三章所采用的卷積神經(jīng)網(wǎng)絡(luò)模型便是用Softmax邏輯回歸對人臉疲勞表情做識別。基于卷積神經(jīng)網(wǎng)絡(luò)的疲勞表情識別3.1人臉疲勞識別庫簡介本次實(shí)驗(yàn)的人臉疲勞識別的數(shù)據(jù)庫是筆者自己親自收集到的疲勞圖像,將人臉表情分成清醒,走神和疲勞三種狀態(tài)。由于自己收集的疲勞圖像的逼真程度不夠高,部分的圖像識別率甚至用自己去分辨都有些困難。故而在自己收集的基礎(chǔ)上又添加了部分從其他表情庫收集來的疲勞表情圖像。疲勞表情圖像包括從Feret,yale表情數(shù)據(jù)庫中篩選出來的,還有自己拍攝的圖像。其中訓(xùn)練樣本集為400張圖片,其中包括清醒狀態(tài)200張,走神狀態(tài)150張,疲勞狀態(tài)50張。測試樣本25張,清醒狀態(tài)10張,走神狀態(tài)8張,疲勞狀態(tài)7張。訓(xùn)練樣本和測試樣本采用不一樣的人,使得測試結(jié)果更加的準(zhǔn)確。3.2關(guān)于Caffe平臺本次課題采用Caffe平臺進(jìn)行實(shí)驗(yàn),Caffe平臺使由賈楊清博士開發(fā)研究出來的一個(gè)平臺,適用于深度學(xué)習(xí)。該平臺適用于計(jì)算構(gòu)架CNN相關(guān)算法的框架,腳步編寫方便,可塑性強(qiáng),運(yùn)算速度高效,是卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的一個(gè)優(yōu)秀的平臺。3.3表情識別深度網(wǎng)絡(luò)模型本次課題,采集到的疲勞圖像將其進(jìn)行歸一化到136x136的輸入大小。新構(gòu)建的模型共有九層,不包含輸入層。首先經(jīng)過C1卷積層,一共含有12個(gè)featuremaps,也就是有12個(gè)卷積濾波器,產(chǎn)生12個(gè)特征圖。卷積核大小為5x5。featuremaps相同層共享權(quán)值,而不同層之間權(quán)值不同,并且每個(gè)濾波器5x5=25個(gè)unit參數(shù)和一個(gè)bias參數(shù),一共12個(gè)濾波器。因而C1層共有12x(5x5+1)=312個(gè)參數(shù),共有312x132x132=30371328個(gè)節(jié)點(diǎn)。接著是經(jīng)過S2的池采樣層,經(jīng)過C1層和S2層后,特征圖像大小為66x66,特征圖中每個(gè)單元和C1層中的對應(yīng)的特征圖2x2領(lǐng)域相連接。S2的pooling層是對C1中的2x2區(qū)域內(nèi)的像素求和再加上一個(gè)偏置,然后將這個(gè)結(jié)果再做一次映射(Sigmoid等函數(shù)),因而相當(dāng)于對S1做了降維,S2中的每個(gè)點(diǎn)對應(yīng)C1中2x2的區(qū)域。區(qū)域中的四個(gè)元素首先相加,再乘以系數(shù),再加上偏差。所以此處共有12x(1+1)=24個(gè)參數(shù)。S2中的每個(gè)像素都與C1中的2x2個(gè)像素和1個(gè)偏置相連接,故有12x5x66x66=261360個(gè)節(jié)點(diǎn)。經(jīng)過C3卷積層,含有32個(gè)featuremaps,卷積大小為5x5,特征圖片大小變?yōu)?2x62。經(jīng)過S4采樣層,特征圖片大小變?yōu)?1x31,參數(shù)共有32x2=64個(gè),共有31x31x32x5=153760個(gè)連接。經(jīng)過C5卷積層,特征圖片大小為27x27,含有50個(gè)featuremaps。經(jīng)過S6采樣層,含有14x14大小的特征圖像,共有50個(gè)featuremaps然后是ip1卷積層。之所以不稱之為全連接層是因?yàn)樘卣鲌D像大小還是10x10,而不是1x1。最后的單元數(shù)是8x10x10=800個(gè)單元。ip2層有3個(gè)單元,對應(yīng)的便是三種表情狀態(tài)。最后一層便是輸出層,將得到的特征向量輸出到SoftMax邏輯回歸函數(shù)進(jìn)行識別分類。將模型改成這樣的原因在于本課題中疲勞表情的分類只有三種,因而最后一層的featuremaps的數(shù)量就從120改成50,前面的卷積核數(shù)量也相應(yīng)進(jìn)行調(diào)整。本次實(shí)驗(yàn)中,基礎(chǔ)學(xué)習(xí)率為0.01。3.4各層之間的可視化將各個(gè)層之間可視化有助增強(qiáng)對該實(shí)驗(yàn)的理解。首先我們來測試一張清醒的圖片,如下是一張典型的清醒的人臉表情圖。圖3.4.1清醒表情圖經(jīng)過各層之后,便有如下處理圖像(C5的卷積層由于模糊,故不在這里展示):圖3.4.2C1層卷積圖3.4.3C3層池采樣可以看出,該模型很好的提取出了該臉部表情的特征。最后輸出的判斷直方圖如下:圖4.5.4輸出分布直方圖可以由上判斷出直方圖大概分布在0到1之間。根據(jù)一系列的計(jì)算,可以生成判斷的概率。由下圖可知,判斷出1的概率最大(標(biāo)簽設(shè)定中1是清醒,2是走神,3是疲勞,各標(biāo)簽的比率總和為1)。圖4.5.5最終判斷折線圖3.5實(shí)驗(yàn)數(shù)據(jù)結(jié)果3.5.1訓(xùn)練次數(shù)與正確率關(guān)系表3.5.1可以看出隨著訓(xùn)練次數(shù)的增加,識別的正確率也隨之增加,最后趨于穩(wěn)定。可見該網(wǎng)絡(luò)是十分的穩(wěn)定的。訓(xùn)練次數(shù)300400500600700800900正確率70.3179.0980.1382.5483.0583.3383.33表3.5.1訓(xùn)練次數(shù)與正確率3.5.2錯(cuò)誤識別數(shù)據(jù)分析由3.5.1可知,實(shí)驗(yàn)識別率達(dá)到83.33%,但是仍然存在一部分的錯(cuò)誤數(shù)據(jù)識別。因此進(jìn)行每一張圖片的驗(yàn)證。在測試樣本中,具體情況如下表:誤識別誤識別清醒走神疲勞清醒20走神31疲勞00正確表情表3.5.2混淆數(shù)據(jù)表正確表情由上表明顯的可知,在大部分的判別失誤出現(xiàn)在走神和清醒的判別,如下圖所示,此為判別失敗的圖片:圖3.5.2錯(cuò)誤判別圖片從錯(cuò)誤圖片上來看,可以分析這些圖片的走神的同時(shí)其實(shí)混合著部分清醒的臉部特征,或者在清醒的同時(shí),眼部的位置讓該模型判斷為走神表情。在多重混合的表情特征中會(huì)出現(xiàn)失誤判斷,這也是無法避免的情況。尤其肉眼去觀察大腦也會(huì)立馬無法判斷出其單屬某個(gè)表情。3.5.3實(shí)驗(yàn)?zāi)P秃褪謱戵w模型對比本次實(shí)驗(yàn)的模型,是在著名的手寫體識別模型的基礎(chǔ)上進(jìn)行改進(jìn),改進(jìn)前和改進(jìn)后的CNN模型作為對比,增加了一層卷積層和一層池采樣層。對于疲勞人臉測試來說,改進(jìn)后的模型準(zhǔn)確率更加的高。改進(jìn)后的卷積識別模型和原手寫體模型的實(shí)驗(yàn)結(jié)果如下表:網(wǎng)絡(luò)類型手寫體模型實(shí)驗(yàn)?zāi)P妥R別率77.4383.33表3.5.3兩種網(wǎng)絡(luò)類型比較3.5.4iP1層對該卷積神經(jīng)網(wǎng)絡(luò)模型的影響實(shí)驗(yàn)中發(fā)現(xiàn)iP1層的個(gè)數(shù)是對正確率有一定的影響力。因而對其進(jìn)行定量分析。ip1層卷積核數(shù)目20151085識別正確率78.2179.0979.4383.3378.62表3.5.4ip1層卷積個(gè)數(shù)對網(wǎng)絡(luò)模型影響從表3.5.4可以得知,最后一層的網(wǎng)絡(luò)featuremaps的個(gè)數(shù)對正確率的影響是存在的。當(dāng)個(gè)數(shù)在一定范圍內(nèi)時(shí)候,正確率靠近這個(gè)值時(shí)正確率是不斷增加的。但是在遠(yuǎn)離這個(gè)值時(shí),正確率就會(huì)下降。當(dāng)然這和要訓(xùn)練分類的類別有關(guān)。最后的連接層的圖像是10x10,因而卷積核數(shù)量控制在10以內(nèi)能夠?qū)⒆詈箝L生的結(jié)點(diǎn)控制在百位數(shù)量級,從而減少函數(shù)的冗余和判斷的失誤。3.5.5與其他模型的比較在實(shí)驗(yàn)過程中,將實(shí)驗(yàn)疲勞表情卷積模型和其他的淺層學(xué)習(xí)的模型做比較。第一種模型是將臉部圖片映射到低維空間,然后使用PCA算法進(jìn)行分類,尋找測試圖片最接近的訓(xùn)練圖片[]。由于將其變成疲勞表情的識別存在難度,故而使用它的數(shù)據(jù)庫將自己的模型帶入來分辨各個(gè)表情情況。測試圖片一共31張,訓(xùn)練樣本50張。同樣的實(shí)驗(yàn)過程,第二種模型是采用Gabor小波濾波進(jìn)行表情特征提取,采用Adaboost方法進(jìn)行分類。同時(shí)對圖像進(jìn)行加噪聲和沒加噪聲倆種圖像進(jìn)行和淺度學(xué)習(xí)的做法進(jìn)行結(jié)果對比。圖3.5.5未加噪聲和加噪聲表情對比結(jié)果如下:項(xiàng)目手寫體模型PCAAdaboost實(shí)驗(yàn)?zāi)P臀醇釉肼?.7280.8160.8610.803加噪聲0.7250.7420.8070.812表3.5.5多模型比較實(shí)驗(yàn)分析:在圖片未加
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2北京2024版物業(yè)公司轉(zhuǎn)讓合同:價(jià)格、流程與標(biāo)的物
- 二零二五版自然人之間文化創(chuàng)意作品授權(quán)合同2篇
- 屋頂租賃違約金合同(2篇)
- 二零二五年度液化氣站送氣工勞動(dòng)合同書3篇
- 二零二五版本二手房買賣合同含房屋交易資金監(jiān)管條款3篇
- 二零二五年高端活動(dòng)贊助廣告發(fā)布合同模板3篇
- 二零二五年度離婚協(xié)議書起草與財(cái)務(wù)規(guī)劃服務(wù)合同3篇
- 2025年度汽車租賃行業(yè)擔(dān)保函制定與法律效力確認(rèn)合同3篇
- 二零二五年車庫購置與車位租賃及產(chǎn)權(quán)登記服務(wù)合同樣本2篇
- 二零二五年污水處理廠污水處理能力提升合同3篇
- 2024年安徽省公務(wù)員錄用考試《行測》真題及答案解析
- 山西省太原市重點(diǎn)中學(xué)2025屆物理高一第一學(xué)期期末統(tǒng)考試題含解析
- 充電樁項(xiàng)目運(yùn)營方案
- 2024年農(nóng)民職業(yè)農(nóng)業(yè)素質(zhì)技能考試題庫(附含答案)
- 高考對聯(lián)題(對聯(lián)知識、高考真題及答案、對應(yīng)練習(xí)題)
- 新版《鐵道概論》考試復(fù)習(xí)試題庫(含答案)
- 【律師承辦案件費(fèi)用清單】(計(jì)時(shí)收費(fèi))模板
- 高中物理競賽真題分類匯編 4 光學(xué) (學(xué)生版+解析版50題)
- Unit1FestivalsandCelebrations詞匯清單高中英語人教版
- 2024年上海市中考語文試題卷(含答案)
- 幼兒園美術(shù)教育研究策略國內(nèi)外
評論
0/150
提交評論