畢業(yè)論文-基于面部表情識別的駕駛員疲勞狀態(tài)檢測方法研究

上傳人：f*** IP屬地：天津上傳時(shí)間：2023-02-23 格式：DOC 頁數(shù)：30 大小：1.69MB 積分：25 舉報(bào) 版權(quán)申訴

畢業(yè)論文-基于面部表情識別的駕駛員疲勞狀態(tài)檢測方法研究_第2頁

畢業(yè)論文-基于面部表情識別的駕駛員疲勞狀態(tài)檢測方法研究_第3頁

畢業(yè)論文-基于面部表情識別的駕駛員疲勞狀態(tài)檢測方法研究_第4頁

畢業(yè)論文-基于面部表情識別的駕駛員疲勞狀態(tài)檢測方法研究_第5頁

已閱讀5頁，還剩25頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第頁緒論1.1課題研究的背景和意義疲勞是一個(gè)抽象的概念，是一種主觀不適感覺，但客觀上會(huì)在同等條件下，人會(huì)失去其完成原來所從事的正常活動(dòng)或工作能力。由于從事一些重復(fù)動(dòng)作次數(shù)較多的工作，導(dǎo)致身體機(jī)能下滑，從而引起一些不必要的事故。隨著汽車保有量和道路交通里程的逐年增加，大量的交通事故也在逐年增加。在全球的范圍內(nèi)，疲勞駕駛是交通安全事故的重要原因之一。中國每年因?yàn)槠隈{駛發(fā)生的交通事故在2500起左右，由于目前對疲勞駕駛?cè)匀粵]有一個(gè)具體的認(rèn)定標(biāo)準(zhǔn),因而,實(shí)際上駕駛?cè)艘蚱谒鸬氖鹿时壤叩亩郲]。因此，疲勞識別的檢測系統(tǒng)在機(jī)動(dòng)車駕駛過程中的作用尤為重要。數(shù)據(jù)化和科學(xué)化的檢測方法能有效的避免事故的發(fā)生。疲勞表情是疲勞狀態(tài)的一個(gè)明顯的標(biāo)志，和正常態(tài)的表情有十分顯著的區(qū)別。所以本文課題就是使用疲勞表情識別。人體語言包括肢體語言和自然語言。人臉疲勞表情便是傳遞疲勞信息的語言之一，作為人機(jī)交互的重要基礎(chǔ)的一部分，表情識別或者是疲勞表情識別是智能信息化的體現(xiàn)。傳統(tǒng)的識別方法是提取出人臉特征進(jìn)行歸一化處理，從而進(jìn)行權(quán)重分配和分類處理，然而已經(jīng)訓(xùn)練和未訓(xùn)練的人臉識別的正確率有很大的區(qū)別，同時(shí)在實(shí)際生活中，由于環(huán)境的復(fù)雜以及人臉角度的不同等等因素，導(dǎo)致識別的準(zhǔn)確率不夠高。雖然有Gabor小波等較強(qiáng)魯棒性的特征提取方法，但是在學(xué)習(xí)訓(xùn)練方面還是不盡如人意。因此本文選擇使用深度學(xué)習(xí)的方法，利用無監(jiān)督學(xué)習(xí)的特性，自動(dòng)的獲取臉部之間的潛在的非線性的特征，不需要進(jìn)行監(jiān)督學(xué)習(xí)。深度學(xué)習(xí)在復(fù)雜數(shù)據(jù)的處理上具有極佳的效果，在文本，圖像和音頻上具有良好的運(yùn)用。然而對于深度學(xué)習(xí)的研究，目前還處于比較新的階段，本文的研究也可以為深度學(xué)習(xí)做出一點(diǎn)貢獻(xiàn)。同時(shí)也為機(jī)動(dòng)車駕駛疲勞檢測的方法提出一個(gè)途徑。1.2國內(nèi)外研究的現(xiàn)狀關(guān)于疲勞駕駛表情識別，先提及表情識別的現(xiàn)狀。人臉表情識別大多數(shù)是采用BP淺層學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行來識別。在國內(nèi)外的研究方向如下：第一種是對對圖片進(jìn)行預(yù)處理，這是該方法的一大特點(diǎn)，預(yù)處理能夠提升識別的準(zhǔn)確度。提取臉部特征，采用建立模型，包括ASM，AAM等或者對圖像進(jìn)行提取，采用Gabor,彈性圖匹配法以及Fisher判別法等等。對于動(dòng)態(tài)圖片，還會(huì)使用光流法或者是特征點(diǎn)追蹤法等。然后進(jìn)行分類，采用BP神經(jīng)網(wǎng)絡(luò)或者K-最近鄰學(xué)習(xí)法等等方法[]，具體的方法綜述可見文獻(xiàn)[2]。第二種是對圖像進(jìn)行簡單的預(yù)處理后，就不采用人工規(guī)則算法進(jìn)行識別，而是采用深度學(xué)習(xí)的方法，建立隱含層，實(shí)現(xiàn)無監(jiān)督學(xué)習(xí)。在解釋深度學(xué)習(xí)之前，我們需要了解什么是機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支，但是在很長的一段時(shí)間里，機(jī)器學(xué)習(xí)幾乎是人工智能的代名詞。而學(xué)習(xí)能力是人工智能的基本特征，人工智能的研究第一個(gè)階段是在五十年代中期就以學(xué)習(xí)機(jī)為主要內(nèi)容開始，其中的學(xué)習(xí)內(nèi)容是以建立神經(jīng)模型的學(xué)習(xí)感知裝置，著名的例子便是計(jì)算機(jī)利用學(xué)習(xí)模式戰(zhàn)勝圍棋大師從而大獲全勝。第二階段便是六十年代由參數(shù)學(xué)習(xí)改進(jìn)成符號學(xué)習(xí)[]。著名的例子有Feigenbeum(1963)的言語學(xué)習(xí)模型,Winson(1970)的結(jié)構(gòu)學(xué)習(xí)系統(tǒng),而Waterman則發(fā)展了自適應(yīng)系統(tǒng)，提出了聯(lián)想規(guī)則。第三階段就是八十年代末期開始到至今，期間產(chǎn)生了倆次浪潮，第一次浪潮是淺度學(xué)習(xí)，采用人工神經(jīng)網(wǎng)絡(luò)的方向傳播算法(BP算法）。該算法能在大量數(shù)據(jù)的訓(xùn)練樣本中尋找到隱藏的規(guī)律，從而對未知的事物進(jìn)行預(yù)測。這種在統(tǒng)計(jì)的基礎(chǔ)上進(jìn)行機(jī)器學(xué)習(xí)的方法比起過去基于人工網(wǎng)絡(luò)規(guī)則的系統(tǒng)方法又明顯的優(yōu)越性，例如支撐向量機(jī)(supportvectormachines),Boosting方法等等，然而BP算法只能是含有一層的淺層模型。第二次浪潮是在互聯(lián)網(wǎng)飛速發(fā)展的情況下，對于大數(shù)據(jù)的更加復(fù)雜的分析要求逐漸提升。2006年，加拿大多倫多大學(xué)的教授Hinton和他的學(xué)生Salakhutdinov發(fā)表了一篇文章，從此開啟了深度學(xué)習(xí)的大門[]。在這篇文獻(xiàn)中，揭露了多層隱含層的優(yōu)秀的特征學(xué)習(xí)能力，通過逐層初始化來克服深度學(xué)習(xí)訓(xùn)練網(wǎng)絡(luò)的困難。模仿網(wǎng)絡(luò)模型的形式，建立各層隱含層，通過轉(zhuǎn)化到不同的特征空間來使得分類和預(yù)測更加精準(zhǔn)。人臉的疲勞表情識別在不同的環(huán)境下是極具復(fù)雜特性的，首先在駕駛座位上，由于光線強(qiáng)度的變化的原因，人臉的特征表情也隨之改變。其次，由于人類種族膚色的不同，本身的膚色差異也會(huì)干擾疲勞表情的識別，再之，由于駕駛座位的不同姿勢和角度的不同，導(dǎo)致了不同的識別難度。在實(shí)際生活中，人臉的表情識別還受到像素和拍攝圖像不清晰的影響?？傊趯?shí)際生活運(yùn)用中，疲勞駕駛表情識別的研究的道路還很長遠(yuǎn)。1.3面部疲勞表情識別的設(shè)計(jì)思路和研究內(nèi)容本文研究對象是來自駕駛座位的駕駛?cè)藛T的表情，因此不失一般性，我們必須考慮到駕駛員的駕駛環(huán)境的一般情況。一方面，在駕駛過程中，駕駛員的頭部是會(huì)移動(dòng)的，因而必須考慮到不同角度和姿勢的臉部疲勞表情。另外一方面，在駕駛過程中，隨著時(shí)間的變化，天氣的變化以及建筑物的遮擋情況，光線的強(qiáng)弱是會(huì)改變的，這也必須考慮在內(nèi)。本論文的章節(jié)安排如下：緒論，首要介紹了該課題的研究背景以及社會(huì)意義，同時(shí)介紹了研究該課題所使用的方法，分析國內(nèi)外相關(guān)領(lǐng)域的研究成果。其次，介紹此課題的設(shè)計(jì)思路和設(shè)計(jì)過程中用到的方法。最后，交待整體論文的工作內(nèi)容安排。深度學(xué)習(xí)，介紹了設(shè)計(jì)該課題的思路的學(xué)習(xí)方法，介紹了深度學(xué)習(xí)的基本思想和模型結(jié)構(gòu)分類，初步的了解深度學(xué)習(xí)的運(yùn)用。其中包括卷積神經(jīng)網(wǎng)絡(luò)，介紹了卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和中心思想。了解卷積神經(jīng)網(wǎng)絡(luò)的流程，同時(shí)介紹卷積神經(jīng)網(wǎng)絡(luò)的構(gòu)建?；诰矸e神經(jīng)網(wǎng)絡(luò)的疲勞表情識別，介紹了在CAFFE平臺下，實(shí)現(xiàn)人臉疲勞駕駛表情識別的功能，介紹了實(shí)驗(yàn)?zāi)Ｐ徒Y(jié)構(gòu)，同時(shí)將課題實(shí)驗(yàn)結(jié)果展現(xiàn)出來，將實(shí)驗(yàn)?zāi)Ｐ秃鸵阎獋鹘y(tǒng)的模型，包括手寫體模型和淺層學(xué)習(xí)模型進(jìn)行對比，得出最后的結(jié)論總結(jié)和展望，對整體設(shè)計(jì)工作進(jìn)行總結(jié)和分析，總結(jié)在這次課題中的教訓(xùn)和經(jīng)驗(yàn)?？偨Y(jié)工作和展望未來的發(fā)展。深度學(xué)習(xí)2.1深度網(wǎng)絡(luò)神經(jīng)學(xué)啟發(fā)深度學(xué)習(xí)的概念來源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)是通過組合低層特征形成更加抽象的高層表示屬性類別或特征，以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[]。人們在面對大量的數(shù)據(jù)時(shí)候，能夠很直觀靈巧的進(jìn)行數(shù)據(jù)采集和獲取其中重要的信息。在人機(jī)智能飛速發(fā)展的今天，人們有意于模范人體神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行高效的獲取信息和表示信息。神經(jīng)科學(xué)的專家發(fā)現(xiàn)，哺乳動(dòng)物在進(jìn)行視覺信息處理時(shí)候，并沒有對視覺信息進(jìn)行預(yù)處理，而是通過一個(gè)復(fù)雜的層狀神經(jīng)網(wǎng)絡(luò)，進(jìn)而獲取一個(gè)數(shù)據(jù)的展現(xiàn)的一個(gè)規(guī)則。圖2.1視覺信號處理圖換句話說，人腦并不是直接從視覺感官的投影直接進(jìn)行識別物體，而是經(jīng)過一個(gè)篩選，聚合的一個(gè)層狀網(wǎng)絡(luò)進(jìn)行識別物體。所以視覺感官的功能并不是對物體投影的重新復(fù)現(xiàn)，而是對于圖像的特征處理和采集。人體的神經(jīng)系統(tǒng)的層次結(jié)構(gòu)大大降低了視覺系統(tǒng)的處理數(shù)量工作量，同時(shí)保留有大部分重要的信息。在極具潛在復(fù)雜規(guī)則圖像和音頻以及文本方面，深度學(xué)習(xí)便能模仿神經(jīng)網(wǎng)絡(luò)的特點(diǎn)，獲取其本質(zhì)的特征。2.2淺層網(wǎng)絡(luò)的局限性傳統(tǒng)的機(jī)器學(xué)習(xí)網(wǎng)絡(luò)，僅僅適用于單層非線性的淺層學(xué)習(xí)結(jié)構(gòu)。對于傳統(tǒng)淺層學(xué)習(xí)的模式，已經(jīng)研究的十分的深入，同時(shí)也提出了許多的模型，這些模型包括傳統(tǒng)的隱馬爾科夫模型（HMM），支持向量機(jī)（SVM），以及僅含單隱含層的多層感知器（MLP）等。這些模型的共性就是僅僅將原始的輸入轉(zhuǎn)換到特定的空間來進(jìn)行簡單的處理結(jié)構(gòu)。BP算法是經(jīng)典的梯度下降并且隨機(jī)選擇初始值的多層網(wǎng)絡(luò)計(jì)算訓(xùn)練算法，然而因?yàn)檩斎牒洼敵鲋g的非線性關(guān)系，存在能量函數(shù)使得含有多個(gè)極小的非線性空間。于是搜索的方向僅僅是使往誤差減少的方向進(jìn)行，致使經(jīng)常收斂到局部最小，網(wǎng)絡(luò)層數(shù)的增加能夠加重這種情況。因此對于BP算法來說，是不適合進(jìn)行多層網(wǎng)絡(luò)的計(jì)算。BP算法存在的問題如下[]：

（1）梯度從上而下越來越稀疏：從最頂層越往下，誤差校正信號越來越??；

（2）會(huì)收斂到局部最小值：尤其是從遠(yuǎn)離最優(yōu)區(qū)域開始的時(shí)候（這是由于隨機(jī)值初始化會(huì)導(dǎo)致這種情況的發(fā)生）；

（3）一般的，我們只能用有標(biāo)簽的數(shù)據(jù)來訓(xùn)練：然而大部分的數(shù)據(jù)是沒標(biāo)簽的，而大腦可以從一開始就沒有標(biāo)簽的的數(shù)據(jù)中學(xué)習(xí)；由文獻(xiàn)[6]表明，BP算法是不適用于多層隱藏層的結(jié)構(gòu)運(yùn)算。正是這原因?qū)е铝松疃葘W(xué)習(xí)的進(jìn)展緩慢，從而使大多數(shù)機(jī)器學(xué)習(xí)實(shí)驗(yàn)和信號計(jì)算從神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)移到相對容易訓(xùn)練的淺層學(xué)習(xí)結(jié)構(gòu)。當(dāng)前的多數(shù)分類，辨別回歸等學(xué)習(xí)方法總體可以概括是淺層結(jié)構(gòu)學(xué)習(xí)算法，在面對有限樣本和有限計(jì)算單元下極具良好的優(yōu)勢，但是在對復(fù)雜函數(shù)或者是復(fù)雜非線性關(guān)系表示方面，淺層結(jié)構(gòu)算法的表示能力是十分蒼白的而且受到很大的局限性的。深度學(xué)習(xí)可以通過有限的樣本，從樣本集的特征中學(xué)習(xí)到本質(zhì)的特點(diǎn)，展現(xiàn)出和淺度神經(jīng)網(wǎng)絡(luò)不一樣的表示能力。在復(fù)雜函數(shù)方面的具有強(qiáng)大的表征能力。2.3深度學(xué)習(xí)基本思想實(shí)際日常生活中，人們?yōu)榱藢σ粋€(gè)對象的分類（可能是文檔、或者圖像或者音頻等），首先第一項(xiàng)必須做的事情便是如何來表達(dá)一個(gè)對象，也就是必須抽取一些特征來表示一個(gè)對象，比如在文本的處理過程中，常常用詞集合來表示一個(gè)文檔，又或者把文檔表示在向量空間中（稱之為VSM模型），然后才能提出不同的分類算法來進(jìn)行分類；又比如在圖像處理過程中，可以使用像素集合來表示某個(gè)圖像，又或者是二值化的形式來表示，特征選取得好壞對最終結(jié)果的影響非常巨大。因此，選取什么特征對于解決一個(gè)實(shí)際問題非常的重要。然而在實(shí)際應(yīng)用中，這種繁瑣的選取特征的規(guī)定方法具有一些不適用的地方，對于不同的圖像集合也許就必須采用不同的提取特征的方法，這使得在一些比較復(fù)雜的圖像上面的特征提取上面是十分的費(fèi)力的，有效的提取特征的方法很大程度上就取決于經(jīng)驗(yàn)和一定的運(yùn)氣成分。因此在現(xiàn)今對于系統(tǒng)自主學(xué)習(xí)特征的功能是存在一定的需求的。深度學(xué)習(xí)就為自主學(xué)習(xí)提供了途徑。深度學(xué)習(xí)（DeepLearning)的另外一個(gè)別名，是UnsupervisedFeatureLearning。顧名思義，Unsupervised是不需要人干預(yù)的意思。換句話說，這個(gè)過程就是不需要人為的去選取特征。它能夠?qū)崿F(xiàn)自動(dòng)學(xué)習(xí)特征的功能，因此統(tǒng)稱為DeepLearning。深度學(xué)習(xí)的最基本核心的思想是將輸入和輸出看作為等同。具體來說，就是在某種程度上假設(shè)我們有一個(gè)系統(tǒng)C，它有n層結(jié)構(gòu)（C1,...Cn），假設(shè)它的輸入是I，輸出是O，那么我們可以形象地表示為：I=>C1=>C2=>=>Cn=>O.圖2.3深度學(xué)習(xí)思想那么在這過程中，如果輸出O等于輸入I，也就是簡單的說輸入I經(jīng)過這個(gè)系統(tǒng)的一系列變化之后沒有任何的信息損失，即在任何一層Ci，變化的信息都是原有信息（即輸入I）的另外一種表示。按照這個(gè)思路，假設(shè)我們有一系列的輸入I，比如文本或者是圖像，經(jīng)過一系列的系統(tǒng)處理之后，我們調(diào)整其中的參數(shù)，使得輸出還是I。從中我們便能得到每一層的特征參數(shù)，即C1，C2等等。C1在上述中，我們是嚴(yán)格要求輸入是等同于輸出的。但是在實(shí)際中，輸入和輸出是不可能等同的，那么我們可以略微放松限制要求，使得輸入和輸出是盡可能在我們的預(yù)期誤差范圍內(nèi)。正是這種輸入和輸出的限制的誤差，就產(chǎn)生了深度學(xué)習(xí)的思想[]。實(shí)際上我們是將學(xué)習(xí)結(jié)構(gòu)看成是一個(gè)網(wǎng)絡(luò)，使用無監(jiān)督學(xué)習(xí)對每一層進(jìn)行pre-train，然后將每一層的預(yù)訓(xùn)練結(jié)果作為下一層的輸入，層層遞進(jìn)，在這過程中需要監(jiān)督學(xué)習(xí)去調(diào)整每一層的參數(shù)。直至達(dá)到模型最優(yōu)型。C12.4深度學(xué)習(xí)的基本模型結(jié)構(gòu)常見的基礎(chǔ)淺層學(xué)習(xí)的結(jié)構(gòu)基本上是“圖像語義特征加分類器”這樣的結(jié)構(gòu)來完成對圖像的分類識別。但是由于圖像本身的復(fù)雜性例如顏色，角度，灰度等等一系列的復(fù)雜部分，底層的一些視覺特征仍然和頂層的特征表示存在一些差別。深度學(xué)習(xí)便存在使用大多數(shù)情況下的良好結(jié)構(gòu)。常見的深度學(xué)習(xí)模型有AutoEncoder自動(dòng)編碼器，SparseCoding稀疏編碼，RestrictedBoltzmannMachine(簡稱RBM）受限制波爾茲曼機(jī)，DeepBeliefNetworks（DBN）深信度網(wǎng)絡(luò)，ConvolutionalNeuralNetworks（CNN）卷積神經(jīng)網(wǎng)絡(luò)。2.4.1自動(dòng)編碼器和稀疏編碼人工神經(jīng)網(wǎng)絡(luò)(ANN)自身便是一個(gè)層次結(jié)構(gòu)的系統(tǒng)，如果將輸入I和輸出O等同，那么訓(xùn)練調(diào)整的中間層的參數(shù)，便得到I的多種表示方式，即每一層都是I的表示形式。如果在原有的特征中加入這些已經(jīng)學(xué)到的中間層的權(quán)重，那么將大大提高分類的正確率。將對比之前的分類的各個(gè)算法效果更好。這便是自動(dòng)編碼（AutoEncoder)。然而自動(dòng)編碼自身帶有固有的問題，例如它只是簡單的將輸入復(fù)制重現(xiàn)到輸出上，雖然能完美的重現(xiàn)輸出，但是本質(zhì)上并沒有提取出任何有意義的特征[]。因此在此之上我們可以加一些約束條件得到新的學(xué)習(xí)方法（SparseAutoRncoder），也就是在約束每一層的大部分的結(jié)點(diǎn)都是0，少數(shù)不為0，這樣就可以得到稀疏自動(dòng)編碼器。稀疏自動(dòng)編碼思想就是上述2.3中提及的將輸入和輸出的相等的條件放寬，放松這樣的限制，然后使用線性方程中的概念，也就是讓O=W1xb1+W2xb2+...+Wnxbn,其中bi是基值，Wi是系數(shù)，于是就自然的引出一個(gè)值得優(yōu)化的問題就是Min|I-O|。這些系數(shù)和基值就是輸入的另外有一種不一樣的表示方式。在學(xué)習(xí)過程中求解這些基值和系數(shù)和最優(yōu)化的問題就是SparseCoding。這方法能隱性的學(xué)習(xí)到潛在的對象的基函數(shù)和系數(shù)函數(shù)。2.4.2受限制波爾茲曼機(jī)RestrictedBoltzmannMachine受限制波爾茲曼機(jī)是實(shí)質(zhì)是有倆層結(jié)構(gòu)[]。在此我們假設(shè)有倆個(gè)部分的層次圖。層與層之間存在連接，但是每一層的節(jié)點(diǎn)之間不存在任何的連接。第一層是輸入層，第二層是隱含層。并且我們假設(shè)隱含層和輸入層的所有節(jié)點(diǎn)都是隨機(jī)的二值量節(jié)點(diǎn)，即該節(jié)點(diǎn)的取值只能是0或者是1.同時(shí)假設(shè)該節(jié)點(diǎn)的分布滿足玻爾茲曼分布。也就是p(v,h)滿足Boltzmann分布(v是輸入層，h隱含層）。我們稱之為RestrictedBoltzmannMachine。圖RBM結(jié)構(gòu)圖由于該結(jié)構(gòu)是二部圖，因而在已知輸入層v的情況下，所有的隱藏節(jié)點(diǎn)之間是條件獨(dú)立的（因?yàn)楣?jié)點(diǎn)之間不存在連接），即p(h|v)=p(h1|v)…p(hn|v)。相同的道理，在已知隱含層h的情況下，v是條件分布的。所以在當(dāng)前v和h滿足波爾茲曼分布的時(shí)候，就能通過輸入v求解出隱含層h,再通過條件分布的概念，反向求解出可視層v，進(jìn)而可以調(diào)整參數(shù)，將隱含層和輸入層調(diào)整至一致。這樣從另外一個(gè)方面上，隱含層便是輸入層的另外一種表示，也可以將其看成是可視層的一種特征。這同時(shí)也應(yīng)用了2.3中的DeepLearning的思想。圖RBM推導(dǎo)過程至于輸入可視層和隱含層之間的權(quán)值如何確定，這涉及到一些數(shù)學(xué)分析和概率論極大似然問題，這里就不做詳細(xì)介紹。2.4.3深信度網(wǎng)絡(luò)在2.4.2中提及到RBM網(wǎng)絡(luò)是一個(gè)簡單的層模型，然而在實(shí)際中RBM無法完美的將一些原始數(shù)據(jù)表達(dá)出來，那么需要我們使用更加多層的結(jié)構(gòu)來表達(dá)高層數(shù)據(jù)。那么可以運(yùn)用RBM的思想，將隱含層的個(gè)數(shù)增加。DeepBeliefNetworks（DBNs）深信度網(wǎng)絡(luò)是一個(gè)含有多個(gè)隱含層的概率模型，每一層從前一層的隱含單元中獲得高度相關(guān)聯(lián)的聯(lián)系。圖2.4.3RBM和DBN結(jié)構(gòu)圖2.4.3是一個(gè)深信度的網(wǎng)絡(luò)示意圖，深信度網(wǎng)絡(luò)相鄰倆層之間都能分解成一個(gè)單獨(dú)的受限玻爾茲曼機(jī)，同樣層間存在連接，但層內(nèi)的單元間不存在連接。因此一個(gè)DBNs可以看成是多個(gè)RBM的累積。通過RBM的學(xué)習(xí)方法，學(xué)習(xí)到每一層的參數(shù)，包括連接權(quán)值和隱含層的權(quán)值。逐層從最底層到最高層進(jìn)行訓(xùn)練，這一系列的過程稱為預(yù)訓(xùn)練，也就是pre-train。然后將原始數(shù)據(jù)輸入作為監(jiān)督數(shù)據(jù)，采用極大似然的方法，對整個(gè)網(wǎng)絡(luò)進(jìn)行細(xì)致的微調(diào)。2.4.4卷積神經(jīng)網(wǎng)絡(luò)本次實(shí)驗(yàn)采用卷積神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行學(xué)習(xí)。卷積神經(jīng)網(wǎng)絡(luò)ConvolutionalNeuralNetworks是第一個(gè)真正意義上成功訓(xùn)練出多層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。它利用空間關(guān)系減少了所需學(xué)習(xí)的參數(shù)數(shù)目，從而提高一般前向BP算法的訓(xùn)練性能。卷積神經(jīng)網(wǎng)絡(luò)是為了最小化數(shù)據(jù)的預(yù)處理要求而作為一個(gè)深度學(xué)習(xí)架構(gòu)提出。在卷積神經(jīng)網(wǎng)絡(luò)中，圖像的一小部分（局部感受區(qū)域）作為層級結(jié)構(gòu)的最低層的輸入，將信息依次傳輸?shù)讲煌膶?，每層通過一個(gè)數(shù)字濾波器從各個(gè)特征中獲取最顯著的一個(gè)。這個(gè)方法能夠獲取對平移、縮放或者是旋轉(zhuǎn)不變的觀測數(shù)據(jù)的顯著特征。卷積神經(jīng)網(wǎng)絡(luò)最大的顯著特點(diǎn)便是權(quán)值和感受野共享、這一特征將其要訓(xùn)練的參數(shù)大大減少，從而大幅度提高訓(xùn)練效果和速度。卷積神經(jīng)網(wǎng)絡(luò)概述卷積神經(jīng)網(wǎng)絡(luò)是近些年來發(fā)展起來的并且引起廣泛重視的一種高效識別的方法。它是十分成功的多層網(wǎng)絡(luò)算法。由于卷積神經(jīng)網(wǎng)絡(luò)的算法避免了對圖像的復(fù)雜的預(yù)處理，例如歸一化，去噪等等一系列的處理，可以直接輸入原始圖像，因而得到了廣泛的應(yīng)用和研究。卷積神經(jīng)網(wǎng)絡(luò)最大的特點(diǎn)是局域感受野，權(quán)值共享以及次抽樣。這三個(gè)方法的實(shí)現(xiàn)可以識別位移，縮放以及旋轉(zhuǎn)不變的圖像[]。感受野局域化在BP神經(jīng)網(wǎng)絡(luò)中，每一層的神經(jīng)元節(jié)點(diǎn)和線性一維的排列形式。層和層之間實(shí)現(xiàn)的是去全連接。在卷積神經(jīng)網(wǎng)絡(luò)中，層和層之間的神經(jīng)元節(jié)點(diǎn)不再是全連接，而是局部連接或者稱之為感受野局域化。感受野局域化是指卷積神經(jīng)網(wǎng)絡(luò)的相鄰的倆個(gè)層之間，每一網(wǎng)絡(luò)層的神經(jīng)元只有一部分是和上一層的一小部分的領(lǐng)域是連接在一起的，其余的部分沒有連接。通過感受野的局域化，每一個(gè)的神經(jīng)元可以提取出上一層的初級視覺特征，比如方向線段，端點(diǎn)特征[]。圖感受野局域化示意圖權(quán)值共享權(quán)值共享是減少參數(shù)訓(xùn)練的一大優(yōu)點(diǎn)。權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)能夠使卷積神經(jīng)網(wǎng)絡(luò)更類似于生物神經(jīng)網(wǎng)絡(luò)，大大降低了網(wǎng)絡(luò)模型的復(fù)雜性，減少了參數(shù)權(quán)值的數(shù)量。該優(yōu)點(diǎn)在輸入圖像是多維圖像時(shí)展現(xiàn)的明顯，能夠使圖像直接作為網(wǎng)絡(luò)的輸入，不需要進(jìn)行多次處理，避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建過程。圖權(quán)值共享示意圖最大池采樣層關(guān)于卷積神經(jīng)網(wǎng)絡(luò)的另外一個(gè)概念便是最大池采樣層。在數(shù)據(jù)經(jīng)過卷積層時(shí)，若將所提到的特征進(jìn)行分類器訓(xùn)練，那么會(huì)產(chǎn)生一個(gè)很嚴(yán)重的問題，就是會(huì)產(chǎn)生極大的計(jì)算量。比如，在對于36x36大小的圖片，在卷積層定義500個(gè)5x5大小卷積核濾波器，每一個(gè)卷積核和圖像濾波就會(huì)產(chǎn)生一個(gè)（36-5+1）x(36-5+1）維數(shù)的卷積特征圖像。從而得到32x32x500=512000維的卷積特征。這樣的規(guī)模的分類器的學(xué)習(xí)效果是十分差的，容易出現(xiàn)過擬合現(xiàn)象，得不到滿意的結(jié)果。因此在得到大量維數(shù)的卷積特征時(shí)，我們必須進(jìn)行對卷積的特征的降維，因此采用最大池采樣的方法來實(shí)現(xiàn)該功能。最大池采樣顧名思義就是實(shí)現(xiàn)最大化的采樣，我們將featuremaps劃分為多個(gè)相同大小nxn的區(qū)域且不相交。將這些區(qū)域中的最大或者是平均的特征來做代表，實(shí)現(xiàn)卷積特征的降維，從而更加的容易分類。最大池采樣是特征分辨率減少的一個(gè)方法。通過采樣將上一層的featuremaps分辨率降低，減少節(jié)點(diǎn)數(shù)量。一般的，卷積后通常伴隨著是一個(gè)采樣pool層，用來減少計(jì)算時(shí)間和空間，同時(shí)保持了結(jié)構(gòu)上的基本不變性。Softmax回歸函數(shù)Softmax回歸函數(shù)是有監(jiān)督學(xué)習(xí)算法，是在邏輯回歸的延拓，目的是為了多分類的問題提供解決途徑[]。目標(biāo)訓(xùn)練的種類一般在倆種以上。研究表明，Softmax回歸在MNIST手寫體數(shù)字識別方面具有極佳的分類效果，該模型是對0-9十個(gè)數(shù)字進(jìn)行識別分類。該算法可以和深度學(xué)習(xí)結(jié)合使用。邏輯回歸中訓(xùn)練樣本是m個(gè)帶標(biāo)簽的樣本組成{(,),(),...,()}，其中輸入的特征。由于邏輯回歸是為了解決二分類的方法，因此在分類標(biāo)簽中，{0,1}。在此假設(shè)函數(shù)如下：(2.1)調(diào)整θ,使得它能最小化代價(jià)函數(shù)(2.2)然而在Softmax回歸函數(shù)中，我們需要面對的是倆個(gè)以上的多種分類問題，因此{(lán)0,1,2,...,k}.對于訓(xùn)練樣本集合x，我們可以用假設(shè)函數(shù)j來對每一個(gè)類型的概率值p(y=j|x).故而假設(shè)函數(shù)要估計(jì)出一個(gè)k維的向量來表示該k個(gè)估計(jì)的概率值的，那么可以表示成(2.3)其中是模型所具有的參數(shù)，是為了將概率進(jìn)行歸一化處理，使所有的概率和為1.將θ用一個(gè)kx(n+1)的矩陣表示，變?nèi)缦拢?2.4)現(xiàn)在對Softmax回歸函數(shù)進(jìn)行分析，以下的函數(shù)是邏輯回歸函數(shù)的推廣。(2.5)從上公式可以看出，Softmax回歸函數(shù)和邏輯回歸函數(shù)具有十分相似的地方，不同的是Softmax回歸函數(shù)將樣本x分類為類別j的概率為：(2.6)Softmax的代價(jià)函數(shù)的梯度公式如下：(2.7)增加了第二項(xiàng)的權(quán)重衰減項(xiàng)后，代價(jià)函數(shù)就成為一個(gè)凸函數(shù)，有效的防止了在優(yōu)化過程中進(jìn)入局部收斂。通過最小化代價(jià)公式J(θ),實(shí)現(xiàn)Softmax分類模型。卷積神經(jīng)網(wǎng)絡(luò)總體結(jié)構(gòu)形式卷積神經(jīng)網(wǎng)絡(luò)的核心是卷積層和池采樣層的交互存在。該模型通過極小誤差方法來最小化損失函數(shù)。在卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中，分為倆個(gè)階段。第一階段，向前傳播階段：從樣本集中取一個(gè)樣本(X,Y)，將X輸入網(wǎng)絡(luò)；計(jì)算相應(yīng)的實(shí)際輸出Op。在此階段，信息從輸入層經(jīng)過逐級的變換，傳送到輸出層。這個(gè)過程也是網(wǎng)絡(luò)在完成訓(xùn)練后正常運(yùn)行時(shí)執(zhí)行的過程。在此過程中，網(wǎng)絡(luò)執(zhí)行的是計(jì)算（實(shí)際上就是輸入與每層的權(quán)值矩陣相點(diǎn)乘，得到最后的輸出結(jié)果）。第二階段，向后傳播階段。算出實(shí)際輸出Op與相應(yīng)的理想輸出Yp的差。卷積神經(jīng)網(wǎng)絡(luò)通過反復(fù)的迭代運(yùn)算訓(xùn)練來提高精度，下圖是卷積神經(jīng)網(wǎng)絡(luò)的整體結(jié)構(gòu)圖：圖卷積神經(jīng)網(wǎng)絡(luò)框架圖一般的，卷積神經(jīng)網(wǎng)絡(luò)的前面幾層是卷積層和池采樣層交替構(gòu)成，高層是全連接層所對應(yīng)的隱含層和Softmax邏輯回歸分類器，當(dāng)然，最后的高層部分也可以使用支持向量機(jī)來對圖像進(jìn)行分類。本文的第三章所采用的卷積神經(jīng)網(wǎng)絡(luò)模型便是用Softmax邏輯回歸對人臉疲勞表情做識別。基于卷積神經(jīng)網(wǎng)絡(luò)的疲勞表情識別3.1人臉疲勞識別庫簡介本次實(shí)驗(yàn)的人臉疲勞識別的數(shù)據(jù)庫是筆者自己親自收集到的疲勞圖像，將人臉表情分成清醒，走神和疲勞三種狀態(tài)。由于自己收集的疲勞圖像的逼真程度不夠高，部分的圖像識別率甚至用自己去分辨都有些困難。故而在自己收集的基礎(chǔ)上又添加了部分從其他表情庫收集來的疲勞表情圖像。疲勞表情圖像包括從Feret，yale表情數(shù)據(jù)庫中篩選出來的，還有自己拍攝的圖像。其中訓(xùn)練樣本集為400張圖片，其中包括清醒狀態(tài)200張，走神狀態(tài)150張，疲勞狀態(tài)50張。測試樣本25張，清醒狀態(tài)10張，走神狀態(tài)8張，疲勞狀態(tài)7張。訓(xùn)練樣本和測試樣本采用不一樣的人，使得測試結(jié)果更加的準(zhǔn)確。3.2關(guān)于Caffe平臺本次課題采用Caffe平臺進(jìn)行實(shí)驗(yàn)，Caffe平臺使由賈楊清博士開發(fā)研究出來的一個(gè)平臺，適用于深度學(xué)習(xí)。該平臺適用于計(jì)算構(gòu)架CNN相關(guān)算法的框架，腳步編寫方便，可塑性強(qiáng)，運(yùn)算速度高效，是卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的一個(gè)優(yōu)秀的平臺。3.3表情識別深度網(wǎng)絡(luò)模型本次課題，采集到的疲勞圖像將其進(jìn)行歸一化到136x136的輸入大小。新構(gòu)建的模型共有九層，不包含輸入層。首先經(jīng)過C1卷積層，一共含有12個(gè)featuremaps，也就是有12個(gè)卷積濾波器，產(chǎn)生12個(gè)特征圖。卷積核大小為5x5。featuremaps相同層共享權(quán)值，而不同層之間權(quán)值不同,并且每個(gè)濾波器5x5=25個(gè)unit參數(shù)和一個(gè)bias參數(shù)，一共12個(gè)濾波器。因而C1層共有12x(5x5+1）=312個(gè)參數(shù)，共有312x132x132=30371328個(gè)節(jié)點(diǎn)。接著是經(jīng)過S2的池采樣層，經(jīng)過C1層和S2層后，特征圖像大小為66x66，特征圖中每個(gè)單元和C1層中的對應(yīng)的特征圖2x2領(lǐng)域相連接。S2的pooling層是對C1中的2x2區(qū)域內(nèi)的像素求和再加上一個(gè)偏置，然后將這個(gè)結(jié)果再做一次映射（Sigmoid等函數(shù)），因而相當(dāng)于對S1做了降維，S2中的每個(gè)點(diǎn)對應(yīng)C1中2x2的區(qū)域。區(qū)域中的四個(gè)元素首先相加，再乘以系數(shù)，再加上偏差。所以此處共有12x（1+1）=24個(gè)參數(shù)。S2中的每個(gè)像素都與C1中的2x2個(gè)像素和1個(gè)偏置相連接，故有12x5x66x66=261360個(gè)節(jié)點(diǎn)。經(jīng)過C3卷積層，含有32個(gè)featuremaps，卷積大小為5x5,特征圖片大小變?yōu)?2x62。經(jīng)過S4采樣層，特征圖片大小變?yōu)?1x31，參數(shù)共有32x2=64個(gè)，共有31x31x32x5=153760個(gè)連接。經(jīng)過C5卷積層，特征圖片大小為27x27,含有50個(gè)featuremaps。經(jīng)過S6采樣層，含有14x14大小的特征圖像,共有50個(gè)featuremaps然后是ip1卷積層。之所以不稱之為全連接層是因?yàn)樘卣鲌D像大小還是10x10，而不是1x1。最后的單元數(shù)是8x10x10=800個(gè)單元。ip2層有3個(gè)單元，對應(yīng)的便是三種表情狀態(tài)。最后一層便是輸出層，將得到的特征向量輸出到SoftMax邏輯回歸函數(shù)進(jìn)行識別分類。將模型改成這樣的原因在于本課題中疲勞表情的分類只有三種，因而最后一層的featuremaps的數(shù)量就從120改成50，前面的卷積核數(shù)量也相應(yīng)進(jìn)行調(diào)整。本次實(shí)驗(yàn)中，基礎(chǔ)學(xué)習(xí)率為0.01。3.4各層之間的可視化將各個(gè)層之間可視化有助增強(qiáng)對該實(shí)驗(yàn)的理解。首先我們來測試一張清醒的圖片，如下是一張典型的清醒的人臉表情圖。圖3.4.1清醒表情圖經(jīng)過各層之后，便有如下處理圖像（C5的卷積層由于模糊，故不在這里展示）：圖3.4.2C1層卷積圖3.4.3C3層池采樣可以看出，該模型很好的提取出了該臉部表情的特征。最后輸出的判斷直方圖如下：圖4.5.4輸出分布直方圖可以由上判斷出直方圖大概分布在0到1之間。根據(jù)一系列的計(jì)算，可以生成判斷的概率。由下圖可知，判斷出1的概率最大（標(biāo)簽設(shè)定中1是清醒，2是走神，3是疲勞，各標(biāo)簽的比率總和為1）。圖4.5.5最終判斷折線圖3.5實(shí)驗(yàn)數(shù)據(jù)結(jié)果3.5.1訓(xùn)練次數(shù)與正確率關(guān)系表3.5.1可以看出隨著訓(xùn)練次數(shù)的增加，識別的正確率也隨之增加，最后趨于穩(wěn)定。可見該網(wǎng)絡(luò)是十分的穩(wěn)定的。訓(xùn)練次數(shù)300400500600700800900正確率70.3179.0980.1382.5483.0583.3383.33表3.5.1訓(xùn)練次數(shù)與正確率3.5.2錯(cuò)誤識別數(shù)據(jù)分析由3.5.1可知，實(shí)驗(yàn)識別率達(dá)到83.33％，但是仍然存在一部分的錯(cuò)誤數(shù)據(jù)識別。因此進(jìn)行每一張圖片的驗(yàn)證。在測試樣本中，具體情況如下表：誤識別誤識別清醒走神疲勞清醒20走神31疲勞00正確表情表3.5.2混淆數(shù)據(jù)表正確表情由上表明顯的可知，在大部分的判別失誤出現(xiàn)在走神和清醒的判別，如下圖所示，此為判別失敗的圖片：圖3.5.2錯(cuò)誤判別圖片從錯(cuò)誤圖片上來看，可以分析這些圖片的走神的同時(shí)其實(shí)混合著部分清醒的臉部特征，或者在清醒的同時(shí)，眼部的位置讓該模型判斷為走神表情。在多重混合的表情特征中會(huì)出現(xiàn)失誤判斷，這也是無法避免的情況。尤其肉眼去觀察大腦也會(huì)立馬無法判斷出其單屬某個(gè)表情。3.5.3實(shí)驗(yàn)?zāi)Ｐ秃褪謱戵w模型對比本次實(shí)驗(yàn)的模型，是在著名的手寫體識別模型的基礎(chǔ)上進(jìn)行改進(jìn)，改進(jìn)前和改進(jìn)后的CNN模型作為對比，增加了一層卷積層和一層池采樣層。對于疲勞人臉測試來說，改進(jìn)后的模型準(zhǔn)確率更加的高。改進(jìn)后的卷積識別模型和原手寫體模型的實(shí)驗(yàn)結(jié)果如下表：網(wǎng)絡(luò)類型手寫體模型實(shí)驗(yàn)?zāi)Ｐ妥R別率77.4383.33表3.5.3兩種網(wǎng)絡(luò)類型比較3.5.4iP1層對該卷積神經(jīng)網(wǎng)絡(luò)模型的影響實(shí)驗(yàn)中發(fā)現(xiàn)iP1層的個(gè)數(shù)是對正確率有一定的影響力。因而對其進(jìn)行定量分析。ip1層卷積核數(shù)目20151085識別正確率78.2179.0979.4383.3378.62表3.5.4ip1層卷積個(gè)數(shù)對網(wǎng)絡(luò)模型影響從表3.5.4可以得知，最后一層的網(wǎng)絡(luò)featuremaps的個(gè)數(shù)對正確率的影響是存在的。當(dāng)個(gè)數(shù)在一定范圍內(nèi)時(shí)候，正確率靠近這個(gè)值時(shí)正確率是不斷增加的。但是在遠(yuǎn)離這個(gè)值時(shí)，正確率就會(huì)下降。當(dāng)然這和要訓(xùn)練分類的類別有關(guān)。最后的連接層的圖像是10x10,因而卷積核數(shù)量控制在10以內(nèi)能夠?qū)⒆詈箝L生的結(jié)點(diǎn)控制在百位數(shù)量級，從而減少函數(shù)的冗余和判斷的失誤。3.5.5與其他模型的比較在實(shí)驗(yàn)過程中，將實(shí)驗(yàn)疲勞表情卷積模型和其他的淺層學(xué)習(xí)的模型做比較。第一種模型是將臉部圖片映射到低維空間，然后使用PCA算法進(jìn)行分類，尋找測試圖片最接近的訓(xùn)練圖片[]。由于將其變成疲勞表情的識別存在難度，故而使用它的數(shù)據(jù)庫將自己的模型帶入來分辨各個(gè)表情情況。測試圖片一共31張，訓(xùn)練樣本50張。同樣的實(shí)驗(yàn)過程，第二種模型是采用Gabor小波濾波進(jìn)行表情特征提取，采用Adaboost方法進(jìn)行分類。同時(shí)對圖像進(jìn)行加噪聲和沒加噪聲倆種圖像進(jìn)行和淺度學(xué)習(xí)的做法進(jìn)行結(jié)果對比。圖3.5.5未加噪聲和加噪聲表情對比結(jié)果如下：項(xiàng)目手寫體模型PCAAdaboost實(shí)驗(yàn)?zāi)Ｐ臀醇釉肼?.7280.8160.8610.803加噪聲0.7250.7420.8070.812表3.5.5多模型比較實(shí)驗(yàn)分析：在圖片未加

人人文庫> 全部分類> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

畢業(yè)論文-基于面部表情識別的駕駛員疲勞狀態(tài)檢測方法研究

文檔簡介

溫馨提示

最新文檔

評論

畢業(yè)論文-基于面部表情識別的駕駛員疲勞狀態(tài)檢測方法研究

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔