神經(jīng)網(wǎng)絡(luò)報告_第1頁
神經(jīng)網(wǎng)絡(luò)報告_第2頁
神經(jīng)網(wǎng)絡(luò)報告_第3頁
神經(jīng)網(wǎng)絡(luò)報告_第4頁
神經(jīng)網(wǎng)絡(luò)報告_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

目錄摘要 摘要神經(jīng)網(wǎng)絡(luò)作為一門新興的信息處理科學,是對人腦若干基本特性的抽象和模擬。它是以人的人腦工作模式為基礎(chǔ),研究白適應(yīng)及非程序的信息處理方法。這種工作機制的特點表現(xiàn)為通過網(wǎng)絡(luò)中人量神經(jīng)元的作用來體現(xiàn)它白身的處理功能,從模擬人腦的結(jié)構(gòu)和單個神經(jīng)元功能出發(fā),達到模擬人腦處理信息的日的。目前,在國民經(jīng)濟和國防科技現(xiàn)代化建設(shè)中神經(jīng)網(wǎng)絡(luò)具有廣闊的應(yīng)用領(lǐng)域和發(fā)展前景,其應(yīng)用領(lǐng)域主要表現(xiàn)在信息領(lǐng)域、自動化領(lǐng)域、程領(lǐng)域和經(jīng)濟領(lǐng)域等。不可否認的是,雖然它具有廣泛的應(yīng)有領(lǐng)域,同時自身也存在著許多缺點,從而成為當今人們一直研究的熱點問題。深度學習是一個復雜的機器學習算法,在語音和圖像識別方面取得的效果,遠遠超過先前相關(guān)技術(shù)。它在搜索技術(shù),數(shù)據(jù)挖掘,機器學習,機器翻譯,自然語言處理,多媒體學習,語音,推薦和個性化技術(shù),以及其他相關(guān)領(lǐng)域都取得了很多成果。深度學習使機器模仿視聽和思考等人類的活動,解決了很多復雜的模式識別難題,使得人工智能相關(guān)技術(shù)取得了很大進步。將深度學習與各種實際應(yīng)用研究相結(jié)合也是一項很重要的工作。關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò),深度學習,圖像識別AbstracTheneuralnetworkasakindofemerginginformationprocessingscience,whichcanabstractandsimulatesomebasiccharacteristicofthehumanbrain.Itisaninformationprocessmethodthatastudyauto-adapted,thenon-procedural,takesperson'scerebrumworkingpatternasafoundation.Thecharacteristicofthiskindworkmechanismdisplaysitownprocessingfunctioninthemassiveneuronsfunctionthroughthenetwork,fromsimulatingthehumanbrainstructureandthesingleneuronfunction,achievedthegoalthatsimulatesthehumanbrainprocessinformation.Atpresent,inthenationaleconomyandmodernizationofnationaldefensescienceandtechnology,theneuralnetworkhasthebroadapplicationdomainandtheapplicationprospect,itsmainlyappliedininformation,automated,project,economicalandsoon,withoutadoubt,althoughithaswidelyapplieddomain,simultaneouslyalsohasmanyinsufficiencies,thusbecomesthehottopicwhichnowthepeoplecontinuouslystudies.Asacomplexmachinelearningalgorithms,recognitionaccuracyofdeeplearningonimageandaudioisfarbeyondtheprevioustechnologies.Deeplearninghasalsoachievedgreatsuccessinthesearchtechnology,datamining,machinelearning,machinetranslation,naturallanguageprocessing,multimedialearning,speech,recommendationandpersonalizationtechnology,etc.Ithassolvedmanycomplicatedpatternrecognitionproblem,andpromotedtheprogressoftheartificialintelligencetechnology.Itisaveryimportantworktocombinedeeplearningwithapplicationresearch.Keywords:Neuralnetwork,ConvolutionalNeuralNetworks,deeplearning,Imagerecognition1.

緒論1.1神經(jīng)網(wǎng)絡(luò)概述自從1946年第一臺計算機問世以來,計算機軟、硬件技術(shù)得到飛速發(fā)展。這些技術(shù)的發(fā)展,使計算機在工業(yè)控制的應(yīng)用中得到了普及的同時,也推動了高級過程控制、人工智能控制等復雜工業(yè)控制算法、策略的誕生、發(fā)展和完善。在過程計算機控制發(fā)展領(lǐng)域,值得一提的是預測控制技術(shù)的發(fā)展。經(jīng)典控制理論和現(xiàn)代控制理論都需要受控對象的精確數(shù)學模型,然而實際中的對象往往是多變量、高階、時變的復雜過程。預測控制是一種基于模型的先進控制技術(shù),它是20世紀70年代中后期在歐美工業(yè)領(lǐng)域內(nèi)出現(xiàn)的一類新型計算機優(yōu)化控制算法。它對模型精度的要求不高,同時卻具有較高的控制性能。由于模型形式、優(yōu)化策略和校正措施的不同,可以形成各種預測控制算法,如動態(tài)矩陣控制(DMC)、模型算法控制(MAC)、廣義預測控制(GPC)等等。20世紀80年代中期以來,人工神經(jīng)網(wǎng)絡(luò)以其獨特的優(yōu)點引起了人們的極大關(guān)注。對于控制界,神經(jīng)網(wǎng)絡(luò)的吸引力在于:能夠充分逼近復雜的非線性映射關(guān)系;能夠?qū)W習與適應(yīng)不確定系統(tǒng)的動態(tài)特性;所有定量或定性的信息都分布存儲于網(wǎng)絡(luò)的各個神經(jīng)元,所以有較強的魯棒性和容錯性;用并行分布處理方法,使得進行快速大量運算成為可能。這些特點顯示了神經(jīng)網(wǎng)絡(luò)在解決高度非線性和嚴重不確定性系統(tǒng)的建模與控制方面的巨大潛力??梢詳喽ǎ焉窠?jīng)網(wǎng)絡(luò)引入控制系統(tǒng)是控制學科發(fā)展的必然趨勢,神經(jīng)網(wǎng)絡(luò)的這些特點也使基于神經(jīng)網(wǎng)絡(luò)的預測控制算法得到迅速發(fā)展,將神經(jīng)網(wǎng)絡(luò)與預測控制相結(jié)合,為解決復雜非線性系統(tǒng)控制問題提供了新的方法。近年來,基于神經(jīng)網(wǎng)絡(luò)的預測控制在理論上及應(yīng)用上均取得很大進展,出現(xiàn)了多種實用的方法,在復雜工業(yè)過程控制中取得了許多成功的應(yīng)用。Jose等(1998)提出一種直接自適應(yīng)神經(jīng)網(wǎng)絡(luò)控制器,能夠?qū)ξ粗姆蔷€性系統(tǒng)進行預測控制,并成功地將其應(yīng)用在熱交換過程的流速與溫度控制中。Hu等(1999)設(shè)計了基于模糊神經(jīng)網(wǎng)絡(luò)模型的有約束多步預測控制,并將其應(yīng)用于燒結(jié)生產(chǎn)線的線速度控制中。陳增強和袁著祉等(2001)將神經(jīng)網(wǎng)絡(luò)自校正預測控制應(yīng)用于滌綸片基拉膜生產(chǎn)線橫向剖面這個復雜的多變量非線性系統(tǒng)上,極大地提高了產(chǎn)品的優(yōu)質(zhì)率。王樹青等(2003)將神經(jīng)網(wǎng)絡(luò)預測控制成功地應(yīng)用到水輪發(fā)電機組的轉(zhuǎn)速控制中,大大提高了系統(tǒng)的安全性。Arahal等(2004)采用并行結(jié)構(gòu)的遞歸神經(jīng)網(wǎng)絡(luò)在多組熱交換器中進行了應(yīng)用。這些成功的應(yīng)用實踐表明結(jié)合神經(jīng)網(wǎng)絡(luò)與預測控制的優(yōu)勢而形成的神經(jīng)網(wǎng)絡(luò)預測控制在工業(yè)過程中具有廣闊的應(yīng)用前景。2.神經(jīng)網(wǎng)絡(luò)的提出與發(fā)展2.1神經(jīng)網(wǎng)絡(luò)的定義人工神經(jīng)網(wǎng)絡(luò)(Artificial

Neural

Network—ANN),簡稱為“神經(jīng)網(wǎng)絡(luò)(NN)”,作為對入腦最簡單的一種抽象和模擬,是人們模仿人的大腦神經(jīng)系統(tǒng)信息處理功能的一個智能化系統(tǒng)。它的出現(xiàn)成為人們進一步了解入腦思維奧秘的有力工具。盡管它還不是大腦的完美無缺的模型,但它特有的非線性適應(yīng)性信息處理能力,可以通過學習來獲取外部的知識并存儲在網(wǎng)絡(luò)內(nèi),可以解決計算機不易處理的難題,特別是語音和圖像識別、理解、知識的處理、組合優(yōu)化計算和智能控制等~

系列本質(zhì)上非計算的問題,使之在神經(jīng)專家系統(tǒng)、模式識別、智能控制、組合優(yōu)化、預測等領(lǐng)域得到成功應(yīng)用。人工神經(jīng)網(wǎng)絡(luò)與其他傳統(tǒng)方法相結(jié)合,將推動人工智能和信息處理技術(shù)不斷發(fā)展。80年后代期,特別是在近年來,神經(jīng)網(wǎng)絡(luò)的研究取得了很大的進展,在神經(jīng)網(wǎng)絡(luò)這個涉及生物、電子、計算機、數(shù)學、物理等多種學科的新的高科技領(lǐng)域中,吸引了眾多的神經(jīng)生理學家、心理學家、數(shù)學家、計算機與信息科學以及工程師和企業(yè)家等。大量的有關(guān)神經(jīng)網(wǎng)絡(luò)機理、模型、算

法特性分析,以及在各方面應(yīng)用的研究成果層出不窮,在國際上掀起了一股人工神經(jīng)網(wǎng)絡(luò)的研究熱潮。

神經(jīng)網(wǎng)絡(luò)是由多個簡單的處理單元彼此按某種方式相互連接而形成的計算機系統(tǒng),該系統(tǒng)通過對連續(xù)或斷續(xù)式的輸入作狀態(tài)響應(yīng)而進行信息處理。雖然每個神經(jīng)元的結(jié)構(gòu)和功能十分簡單,但由大量神經(jīng)元構(gòu)成的網(wǎng)絡(luò)系統(tǒng)的行為確實豐富多彩和十分復雜。

圖2-1神經(jīng)網(wǎng)絡(luò)神經(jīng)元的非線性模型BP神經(jīng)網(wǎng)絡(luò)是基于BP算法的多層前饋網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)簡單,算法成熟,具有自學習和自適應(yīng)等優(yōu)點,并且具有非線性動力學的特點。BP算法通過輸入、輸出數(shù)據(jù)樣本集,根據(jù)誤差反向傳遞的原理,對網(wǎng)絡(luò)進行訓練,其學習過程包括信息的正想傳播過程以及誤差的反向傳播這兩個過程,對其反復訓練,連續(xù)不斷地在相對誤差函數(shù)梯度下降的方向上,對網(wǎng)絡(luò)權(quán)值和偏差的變化進行計算,逐漸逼近,目標。典型的BP神經(jīng)網(wǎng)絡(luò)由一個輸入層、至少一個隱含層和一個輸出層組成。一個典型的三層BP神經(jīng)網(wǎng)絡(luò)如下圖所示:圖2-2三層神經(jīng)網(wǎng)絡(luò)模型2.1神經(jīng)網(wǎng)絡(luò)的發(fā)展歷程

人工神經(jīng)網(wǎng)絡(luò)的研究始于20世紀40年代。半個多世紀以來,它經(jīng)歷了一條由興起到衰退,又由衰退到興盛的曲折發(fā)展過程,這一發(fā)展過程大致可以分為以下四個階段。

2.1.1初始發(fā)展階段

人工神經(jīng)系統(tǒng)的研究可以追溯到1800年Frued的前精神分析學時期,他已做了些初步工作1913年人工神經(jīng)系統(tǒng)的第一個實踐是Russell描述的水力裝置。1943年美國心理學家Warren

S

McCulloch與數(shù)學家Water

H

Pitts合作,用邏輯的數(shù)學工具研究客觀事件在形式神經(jīng)網(wǎng)絡(luò)中的描述,從此開創(chuàng)了對神經(jīng)網(wǎng)絡(luò)的理論研究。他們在分析、總結(jié)神經(jīng)元基本特性的基礎(chǔ)上,首先提出了神經(jīng)元的數(shù)學模型,簡稱胛模型。從腦科學研究來看,MP模型不愧為第一個用數(shù)理語言描述腦的信息處理過程的模型。后來MP模型經(jīng)過數(shù)學家的精心臻理和抽象,最終發(fā)展成一種有限自動機理論,再一次展現(xiàn)了MP模型的價值。此模型沿用至今,直接影響著這一領(lǐng)域研究的進展。通常認為他們的工作是神經(jīng)網(wǎng)絡(luò)領(lǐng)域研究工作的開始。

在McCulloch和Pitts之后,1949年心理學家D.0.Hebb發(fā)表了論著《行為自組織》”,首先提出了一種調(diào)整神經(jīng)網(wǎng)絡(luò)連接權(quán)值的規(guī)則。他認為,學習過程是在實觸上發(fā)生的,連接權(quán)值的調(diào)整正比于兩相連神經(jīng)元活動狀態(tài)的乘積,這就是著名的Hebb學習律。直到現(xiàn)在,Hebb學習律仍然是神經(jīng)網(wǎng)絡(luò)中的一個極為重要的學習規(guī)則。人工神經(jīng)網(wǎng)絡(luò)第一個實際應(yīng)用出現(xiàn)在1957年,F(xiàn).Rosenblatt?!碧岢隽酥母兄?Perceptron)模型和聯(lián)想學習規(guī)則。這是第一個真正的人工神經(jīng)網(wǎng)絡(luò)。這個模型由簡單的閩值神經(jīng)元構(gòu)成,初步具備了諸如并行處理、分布存儲和學習等神經(jīng)網(wǎng)絡(luò)的一些基本特性,從而確立了從系統(tǒng)角度研究神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。同時。在1960年B.Widrow和M.E.Hoff”1提出了自適應(yīng)線性元件網(wǎng)絡(luò),簡稱為Adaline(Adaptive

1inear

element),不僅在計算機上對該網(wǎng)絡(luò)進行了模擬,而且還做成了硬件。同時他們還提出了Widrow—Hoff學習算法,改進了網(wǎng)絡(luò)權(quán)值的學習速度和精度,后來這個算法被稱為LMS算法,即數(shù)學上的最速下降法,這種算法在以后的BP網(wǎng)絡(luò)及其他信號處理系統(tǒng)中得到了廣泛的應(yīng)用。

2.1.2低潮時期

但是,Rosenblatt和Widrow的網(wǎng)絡(luò)都有同樣的固有局限性。這些局限性在1969年美國麻省理工學院著名的人工智能專家M.Minsky和S.Papert共同出版的名為《感知器》”1的專著中有廣泛的論述。他們指出單層的感知器只能用于線性問題的求解,而對于像XOR(異或)這樣簡單的非線性問題卻無法求解。他們還指出,能夠求解非線性問題的網(wǎng)絡(luò),應(yīng)該是具有隱層的多層神經(jīng)網(wǎng)絡(luò),而將感知器模型擴展到多層網(wǎng)絡(luò)是否有意義,還不能從理論上得到有力的證明。Minsky的悲觀結(jié)論對當時神經(jīng)網(wǎng)絡(luò)的研究是一個沉重的打擊。由于當時計算機技術(shù)還不夠發(fā)達,VLSI尚未出現(xiàn),神經(jīng)網(wǎng)絡(luò)的應(yīng)用還沒有展開,而人工智能和專家系統(tǒng)正處于發(fā)展的高潮,從而導致很多研究者放棄了對神經(jīng)網(wǎng)絡(luò)的研究,致使在這以后的10年中,神經(jīng)網(wǎng)絡(luò)的研究進入了一個緩慢發(fā)展的低潮期。

雖然在整個20世紀70年代,對神經(jīng)網(wǎng)絡(luò)理論的研究進展緩慢,但并沒有完全停頓下來。世界上~些對神經(jīng)網(wǎng)絡(luò)拖有堅定信心和嚴肅科學態(tài)度的學者一直沒有放棄他們的努力,仍然在該領(lǐng)域開展了許多重要的工作。如1972年Teu。Kohonen”1和Jallles

Anderson”1分別獨立提出了能夠完成記憶的新型神經(jīng)網(wǎng)絡(luò),Stephen

Grossberg”1在自組織識別神經(jīng)網(wǎng)絡(luò)方面研究也十分活躍。同時也出現(xiàn)了一些新的神經(jīng)網(wǎng)絡(luò)模型,如線性神經(jīng)網(wǎng)絡(luò)模型、自組織識別神經(jīng)網(wǎng)絡(luò)模型以及將神經(jīng)元的輸出函數(shù)與統(tǒng)計力學中的玻耳茲曼分布聯(lián)系的Boltzmann機模等,都是在這個時期出現(xiàn)的。

2.1.3復興時期

在60年代,由于缺乏新思想和用于實驗的高性能計算機,曾一度動搖了人們對神經(jīng)網(wǎng)絡(luò)的研究興趣。到了80年,隨著個人計算機和工作站計算機能力的急劇增強和廣泛應(yīng)用,以及不斷引入新的概念,克服了擺在神經(jīng)網(wǎng)絡(luò)研究面前的障礙,人們對神經(jīng)網(wǎng)絡(luò)的研究熱情空前高漲。其中有兩個新概念對神經(jīng)網(wǎng)絡(luò)的復興具有極大的意義。其一是用統(tǒng)計機理解釋某些類型的遞歸網(wǎng)絡(luò)的操作,這類網(wǎng)絡(luò)可作業(yè)聯(lián)想存儲器。美國加州理工學院生物物理學家John.J.Hopfield博士在1982年的研究論文就論述了這些思想。在他所提出的Hopfield網(wǎng)絡(luò)模型中首次引入網(wǎng)絡(luò)能量的概念,并給出了網(wǎng)絡(luò)穩(wěn)定性判據(jù)。Hopfield網(wǎng)絡(luò)不僅在理論分析與綜合上均達到了相當?shù)纳疃?,最有意義的是該網(wǎng)絡(luò)很容易用集成電路實現(xiàn)。Hopfie]d網(wǎng)絡(luò)引起了許多科學家的理解與重視,也引起了半導體工業(yè)界的重視。1984年,AT&T

Bell實驗室宣布利用Hopfield理論研制成功了第一個研究神經(jīng)網(wǎng)絡(luò)芯片。盡管早期的Hopfield網(wǎng)絡(luò)還存在一些問題,但不可否認,正是由于Hopfiel

d的研究才點亮了神經(jīng)網(wǎng)絡(luò)復興的火把,從而掀起神經(jīng)網(wǎng)絡(luò)研究的熱潮。其二是在1986年D.E.Rumelhart和J.L.Mcglelland及其研究小組提出PDP(ParallclDistributed

Processing)網(wǎng)絡(luò)思想,則為神經(jīng)網(wǎng)絡(luò)研究新高潮的到來起到了推波助瀾的作用。其中最具影響力的反傳算法是David

RumeIhart和JamesMcClelland“”提出的。該算法有力地回答了60年代Minsky和Papert對神經(jīng)網(wǎng)絡(luò)的責難,已成為至今影響最大,應(yīng)用最廣的一種網(wǎng)絡(luò)學習算法。

2.1.4二十世紀80年后期以來的熱潮

20世紀80年代中期以來,神經(jīng)網(wǎng)絡(luò)的應(yīng)用研究取得很大的成績,涉及面非常廣泛。為了適應(yīng)人工神經(jīng)網(wǎng)絡(luò)的發(fā)展,1987年成立了國際神經(jīng)網(wǎng)絡(luò)學會,并于同年在美國圣地亞哥召開了第一屆國際神經(jīng)網(wǎng)絡(luò)會議。此后,神經(jīng)網(wǎng)絡(luò)技術(shù)的研究始終呈現(xiàn)出蓬勃活躍的局面,理論研究不斷深入,應(yīng)用范圍不斷擴大。尤其是進入20世紀90年代,隨著IEEE神經(jīng)網(wǎng)絡(luò)會刊的問世,各種論文專著逐年增加,在全世界范圍內(nèi)逐步形成了研究神經(jīng)網(wǎng)絡(luò)前所未有的新高潮。

從眾多神經(jīng)網(wǎng)絡(luò)的研究和應(yīng)用成果不難看出,神經(jīng)網(wǎng)絡(luò)的發(fā)展具有強大的生命力。盡管當前神經(jīng)網(wǎng)絡(luò)的智能水平不高,許多理論和應(yīng)用性問題還未得得到很好的解決,但是,隨著人們對大腦信息處理機制認識的目益深化,以及不同智能學科領(lǐng)域之間的交叉與滲透,人工神經(jīng)網(wǎng)絡(luò)必將對智能科學的發(fā)展發(fā)揮更大的作用。2.3神經(jīng)網(wǎng)絡(luò)研究的意義

神經(jīng)網(wǎng)絡(luò)是在許多學科的基礎(chǔ)上發(fā)展起來的,它的深入研究必然帶動其他學科的發(fā)展。許多現(xiàn)代科學理論的創(chuàng)導者對腦的功能和神經(jīng)網(wǎng)絡(luò)都有著強烈的興趣,并從中得到了不少啟示,創(chuàng)導或發(fā)展了許多新理。論馮-諾依曼曾談到計算機和大腦在結(jié)構(gòu)和功能上的異同,

對它們從元件特性到系統(tǒng)結(jié)構(gòu)進行了詳盡比較。McCuIIoch

和Pitts

提出的形式神經(jīng)元模型導致了有限自動機理論的發(fā)展,

是最終促成第一臺馮-諾依曼電子計算機誕生的重要因素之一。

維納的<

控制論>

一書就是專門討論動物機器的控制和通信問題的。我國著名學者錢學森在他的<

工程控論>

中,專辟章節(jié)論述生物體的調(diào)節(jié)控制和神經(jīng)網(wǎng)絡(luò)問題。因此,早在20

世紀四五十年代,神經(jīng)系統(tǒng)的功能研究已經(jīng)引起這些現(xiàn)代科學理論開拓者的興趣,并對他們各自理論的產(chǎn)生創(chuàng)立理論基礎(chǔ)。神經(jīng)生物學家也正在期待著另一次理論的飛躍,這將使他們能夠解釋已知的各種現(xiàn)象,并提出可由實驗室驗證的假說。神經(jīng)網(wǎng)絡(luò)理論的發(fā)展,推動了理論神經(jīng)科學的產(chǎn)生和發(fā)展,為計算神經(jīng)科學提供了必要的理論和模型。同時,也促進腦科學向定量精確和理論化方向發(fā)展。以神經(jīng)網(wǎng)絡(luò)研究為開端,整個學術(shù)界對計算的概念和作用有了新的認識和提高。計算并不局限于數(shù)學中,并不僅僅采用邏輯的離散的形式,而且大量的運算表現(xiàn)在對模擬量的并行計算。對于后一類計算,傳統(tǒng)的計算機無法施展其威力。神經(jīng)網(wǎng)絡(luò)的數(shù)學理論本質(zhì)上是非線性的數(shù)學理論,

因此,

現(xiàn)代非線性科學方面的進展必將推動神經(jīng)網(wǎng)絡(luò)的研究,同時,神經(jīng)網(wǎng)絡(luò)理論也會對非線性科學提出新課題。神經(jīng)網(wǎng)絡(luò)研究不僅重視系統(tǒng)的動態(tài)特性,而且強調(diào)事件和信息在系統(tǒng)內(nèi)部的表達和產(chǎn)生。神經(jīng)網(wǎng)絡(luò)在國民經(jīng)濟和國防科技現(xiàn)代化建設(shè)中具有廣闊的應(yīng)用領(lǐng)域和應(yīng)用前景。主要應(yīng)用有:語音識別、圖像識別和理解計算機視覺、智能機器人、故障機器人、故障檢測、實施語音翻譯、企業(yè)管理、市場分析、決策優(yōu)化、物資調(diào)運自適應(yīng)控制、專家系統(tǒng)、智能接口、神經(jīng)生理學、心理學和認知科學研究等等。隨著神經(jīng)網(wǎng)絡(luò)理論研究的深入以及網(wǎng)絡(luò)計算能力的不斷提高,神經(jīng)網(wǎng)絡(luò)的應(yīng)用領(lǐng)域?qū)粩鄶U大,應(yīng)用水平將會不斷提高,最終達到神經(jīng)網(wǎng)絡(luò)系統(tǒng)可用來幫人做事的目的,這也是神經(jīng)網(wǎng)絡(luò)研究的最終目標。3.神經(jīng)網(wǎng)絡(luò)的原理3.1神經(jīng)網(wǎng)絡(luò)的基本原理因為人工神經(jīng)網(wǎng)絡(luò)是模擬人和動物的神經(jīng)網(wǎng)絡(luò)的某種結(jié)構(gòu)和功能的模擬,所以要了解神經(jīng)網(wǎng)絡(luò)的工作原理,所以我們首先要了解生物神經(jīng)元。其結(jié)構(gòu)如下圖所示:圖3-1錐形細胞從上圖可看出生物神經(jīng)元它包括,細胞體:由細胞核、細胞質(zhì)與細胞膜組成;軸突:是從細胞體向外伸出的細長部分,也就是神經(jīng)纖維。軸突是神經(jīng)細胞的輸出端,通過它向外傳出神經(jīng)沖動;樹突:是細胞體向外伸出的許多較短的樹枝狀分支。它們是細胞的輸入端,接受來自其它神經(jīng)元的沖動;突觸:神經(jīng)元之間相互連接的地方,既是神經(jīng)末梢與樹突相接觸的交界面。對于從同一樹突先后傳入的神經(jīng)沖動,以及同一時間從不同樹突輸入的神經(jīng)沖動,神經(jīng)細胞均可加以綜合處理,處理的結(jié)果可使細胞膜電位升高;當膜電位升高到一閥值(約40mV),細胞進入興奮狀態(tài),產(chǎn)生神經(jīng)沖動,并由軸突輸出神經(jīng)沖動;當輸入的沖動減小,綜合處理的結(jié)果使膜電位下降,當下降到閥值時。細胞進入抑制狀態(tài),此時無神經(jīng)沖動輸出?!芭d奮”和“抑制”,神經(jīng)細胞必呈其一。突觸界面具有脈沖/電位信號轉(zhuǎn)換功能,即類似于D/A轉(zhuǎn)換功能。沿軸突和樹突傳遞的是等幅、恒寬、編碼的離散電脈沖信號。細胞中膜電位是連續(xù)的模擬量。神經(jīng)沖動信號的傳導速度在1~150m/s之間,隨纖維的粗細,髓鞘的有無而不同。神經(jīng)細胞的重要特點是具有學習功能并有遺忘和疲勞效應(yīng)。總之,隨著對生物神經(jīng)元的深入研究,揭示出神經(jīng)元不是簡單的雙穩(wěn)邏輯元件而是微型生物信息處理機制和控制機。而神經(jīng)網(wǎng)絡(luò)的基本原理也就是對生物神經(jīng)元進行盡可能的模擬,當然,以目前的理論水平,制造水平,和應(yīng)用水平,還與人腦神經(jīng)網(wǎng)絡(luò)的有著很大的差別,它只是對人腦神經(jīng)網(wǎng)絡(luò)有選擇的,單一的,簡化的構(gòu)造和性能模擬,從而形成了不同功能的,多種類型的,不同層次的神經(jīng)網(wǎng)絡(luò)模型。3.2人工神經(jīng)元模型人工神經(jīng)網(wǎng)絡(luò)是利用物理器件來模擬生物神經(jīng)網(wǎng)絡(luò)的某些結(jié)構(gòu)和功能。圖3-2是最典型的人工神經(jīng)元模型。圖3-2人工神經(jīng)元模型這個模型是1943年心理學家McCulloch和科學家W.Pitts在分析總結(jié)神經(jīng)元基本特性的基礎(chǔ)上首先提出的M-P模型,它是大多數(shù)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)。代表神經(jīng)元i與神經(jīng)元j之間的連接強度(模擬生物神經(jīng)元之間突觸連接強度),稱之為連接權(quán);代表神經(jīng)元i的活躍值,即神經(jīng)元狀態(tài);代表神經(jīng)元j的輸出,即是神經(jīng)元i的一個輸入;代表神經(jīng)元的闡值。函數(shù)f表達了神經(jīng)元的輸入輸出特性。在M-P模型中,f定義為階跳函數(shù):人工神經(jīng)網(wǎng)絡(luò)是一個并行與分布式的信息處理網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)結(jié)構(gòu)一般由許多個神經(jīng)元組成,每個神經(jīng)元由一個單一的輸出,它可以連接到許多其他的神經(jīng)元,其輸出有多個連接通路,每個連接通路對應(yīng)一個連接權(quán)系數(shù)。嚴格來說,神經(jīng)網(wǎng)絡(luò)是一個具有如下性質(zhì)的有向圖。對于每個結(jié)點有一個狀態(tài)變量;結(jié)點i到結(jié)點j有一個連接權(quán)系數(shù);對于每個結(jié)點有一個閾值;對于每個結(jié)點定義一個變換函數(shù),最常見的情形為。圖3-3表示了兩個典型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),做為前饋網(wǎng)絡(luò),右為反饋網(wǎng)絡(luò)。圖3-3典型的神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu)3.3神經(jīng)網(wǎng)絡(luò)的特點由于人工神經(jīng)網(wǎng)絡(luò)是基于生理神經(jīng)網(wǎng)絡(luò)的自適應(yīng)非線性動態(tài)系統(tǒng),因此它具有獨特的功能和特點(1)可以充分逼近任意復雜的非線性關(guān)系;(2)所有定量和定性的信息的保存為等勢分布,儲存在網(wǎng)絡(luò)內(nèi)的各神經(jīng)元上,具有很強的“魯棒性”和“容錯性”;(3)并行分布處理使得運用計算機和特定的硬件,快速進行大量的運算成為可能;(4)可學習和自適應(yīng)未知的或不確定的系統(tǒng);(5)能夠同時處理定量和定性的知識。3.4神經(jīng)網(wǎng)絡(luò)的分類目前人工神經(jīng)網(wǎng)絡(luò)的模型已經(jīng)有50多種,為了研究方便,從不同角度對它進行分類:1)按網(wǎng)絡(luò)結(jié)構(gòu)分類:分為前饋型和反饋型網(wǎng)絡(luò);2)按網(wǎng)絡(luò)的性質(zhì)分類:分為連續(xù)性、離散性、確定性和隨機性網(wǎng)絡(luò);3)按網(wǎng)絡(luò)學習方式分類:分為有導師和無導師(包括自組織學習)學習;4)按突觸連接的性質(zhì)分類:分為一階線性關(guān)聯(lián)和高階非線性關(guān)聯(lián)網(wǎng)絡(luò)。4卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)是人工神經(jīng)網(wǎng)絡(luò)的一種已成為當前語音分析和圖像識別領(lǐng)域的研究熱點,它的權(quán)值共享網(wǎng)絡(luò)結(jié)構(gòu)使之更類似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復雜度,減少了權(quán)值的數(shù)量。該優(yōu)點在網(wǎng)絡(luò)的輸入是多維圖像時表現(xiàn)的更為明顯,使圖像可以直接作為網(wǎng)絡(luò)的輸入,避免了傳統(tǒng)識別算法中復雜的特征提取和數(shù)據(jù)重建過程。卷積網(wǎng)絡(luò)是為識別二維形狀而特殊設(shè)計的一個多層感知器,這種網(wǎng)絡(luò)結(jié)構(gòu)對平移、比例縮放、傾斜或者共他形式的變形具有高度不變性。卷積神經(jīng)網(wǎng)絡(luò)本身可采用不同的神經(jīng)元和學習規(guī)則的組合形式。其中一種方法是采用M-P神經(jīng)元和BP學習規(guī)則的組合,常用于郵政編碼識別中。還有一種是先歸一化卷積神經(jīng)網(wǎng)絡(luò),然后神經(jīng)元計算出用輸入信號將權(quán)值和歸一化處理后的值,再單獨訓練每個隱層得到權(quán)值,最后獲勝的神經(jīng)元輸出活性,這個方法在處理二值數(shù)字圖像時比較可行,但沒有在大數(shù)據(jù)庫中得到驗證。第三種方法綜合前兩種方法的優(yōu)勢,即采用McCulloch-Pitts神經(jīng)元代替復雜的基于神經(jīng)認知機的神經(jīng)元。在該方法中,網(wǎng)絡(luò)的隱層和神經(jīng)認知機一樣,是一層一層訓練的,但是回避了耗時的誤差反向傳播算法。這種神經(jīng)網(wǎng)絡(luò)被稱為改進的神經(jīng)認知機。隨后神經(jīng)認知機和改進的神經(jīng)認知機作為卷積神經(jīng)網(wǎng)絡(luò)的例子,廣泛用于各種識別任務(wù)中,比如大數(shù)據(jù)庫的人臉識別和數(shù)字識別。下面詳細介紹卷積神經(jīng)網(wǎng)絡(luò)的原理、網(wǎng)絡(luò)結(jié)構(gòu)及訓練算法。4.1卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)是一個多層的神經(jīng)網(wǎng)絡(luò),每層由多個二維平面組成,而每個平面由多個獨立神經(jīng)元組成。網(wǎng)絡(luò)中包含一些簡單元和復雜元,分別記為S-元和C-元。S-元聚合在一起組成S-面,S-面聚合在一起組成S-層,用Us表示。C-元、C-面和C-層(Us)之間存在類似的關(guān)系。網(wǎng)絡(luò)的任一中間級由S-層與C-層串接而成,而輸入級只含一層,它直接接受二維視覺模式,樣本特征提取步驟已嵌入到卷積神經(jīng)網(wǎng)絡(luò)模型的互聯(lián)結(jié)構(gòu)中。一般地,Us為特征提取層,每個神經(jīng)元的輸入與前一層的局部感受野相連,并提取該局部的特征,一旦該局部特征被提取后,它與其他特征間的位置關(guān)系也隨之確定下來;Uc是特征映射層,網(wǎng)絡(luò)的每個計算層由多個特征映射組成,每個特征映射為一個平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。此外,由于一個映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個數(shù),降低了網(wǎng)絡(luò)參數(shù)選擇的復雜度。卷積神經(jīng)網(wǎng)絡(luò)中的每一個特征提取層(S-層)都緊跟著一個用來求局部平均與二次提取的計算層(C-層),這種特有的兩次特征提取結(jié)構(gòu)使網(wǎng)絡(luò)在識別時對輸入樣本有較高的畸變?nèi)萑棠芰?。網(wǎng)絡(luò)中神經(jīng)元的輸出連接值符合“最大值檢出假說”,即在某一小區(qū)域內(nèi)存在的一個神經(jīng)元集合中,只有輸出最大的神經(jīng)元才強化輸出連接值。所以若神經(jīng)元近旁存在有輸出比其更強的神經(jīng)元時,其輸出連接值將不被強化。根據(jù)上述假說,就限定了只有一個神經(jīng)元會發(fā)生強化。卷積神經(jīng)網(wǎng)絡(luò)的種元就是某S-面上最大輸出的S-元,它不僅可以使其自身強化,而且還控制了鄰近元的強化結(jié)果。因而,所有的S-元漸漸提取了幾乎所有位置上相同的特征。在卷積神經(jīng)網(wǎng)絡(luò)早期研究中占主導的無監(jiān)督學習中,訓練一種模式時需花費相當長的時間去自動搜索一層上所有元中具有最大輸出的種元,而現(xiàn)在的有監(jiān)督學習方式中,訓練模式同它們的種元皆由教師設(shè)定。

將原始圖像直接輸入到輸入層(Uc1),原始圖像的大小決定了輸入向量的尺寸,神經(jīng)元提取圖像的局部特征,因此每個神經(jīng)元都與前一層的局部感受野相連。文中使用了4層網(wǎng)絡(luò)結(jié)構(gòu),隱層由S-層和C-層組成。每層均包含多個平面,輸入層直接映射到Us2層包含的多個平面上。每層中各平面的神經(jīng)元提取圖像中特定區(qū)域的局部特征,如邊緣特征,方向特征等,在訓練時不斷修正S-層神經(jīng)元的權(quán)值。同一平面上的神經(jīng)元權(quán)值相同,這樣可以有相同程度的位移、旋轉(zhuǎn)不變性。S-層中每個神經(jīng)元局部輸入窗口的大小均為5x5,由于同一個平面上的神經(jīng)元共享一個權(quán)值向量,所以從一個平面到下一個平面的映射可以看作是作卷積運算,S-層可看作是模糊濾波器,起到二次特征提取的作用。隱層與隱層之間空間分辨率遞減,而每層所含的平面數(shù)遞增,這樣可用于檢測更多的特征信息。圖4-1卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖4.2神經(jīng)元模型在卷積神經(jīng)網(wǎng)絡(luò)中,只有S-元間的輸入連接是可變的,而其他元的輸入連接是固定的。用Usl(kl,n)表示第l級,第kl個S-面上,一個S-元的輸出,用Ucl(kl,n)表示在該級第kl個C-面上一個C-元的輸出。其中,n是一個二維坐標,代表輸入層中神經(jīng)元的感受野所在位置,在第一級,感受野的面積較小,隨后隨著l的增大而增加。(4.1)式(4.1)中al(v,kl-1,k)和bl(k)分別表示興奮性輸入和抑制性輸入的連接系數(shù);rl(k)控制特征提取的選擇性,其值越大,對噪音和特征畸變的容錯性越差,它是一常量,它控制著位于每一S-層處的單個抑制子平面中每個神經(jīng)元的輸入:rl(k)的值越大,與抑制性成比例的興奮性就得越大,以便能產(chǎn)生一個非零輸出,換句話說就是相當好的匹配才一能激活神經(jīng)元,然而因為rl(k)還需乘以φ(),所以rl值越大就能產(chǎn)生越大的輸出,相反,小的rl(k)值允許不太匹配的神經(jīng)元興奮,但它只能產(chǎn)生一個比較小的輸出;φ(x)為非線性函數(shù)。v是一個矢量,表示處于n感受野中的前層神經(jīng)元n的相對位置,Al確定S神經(jīng)元要提取特征的大小,代表n的感受野。所以式中對v的求和也就包含了指定區(qū)域當中所有的神經(jīng)元;外面對于勺kl-1的求和,也就包含了前一級的所有子平面,因此在分子中的求和項有時也被稱作興奮項,實際上為乘積的和,輸入到n的神經(jīng)元的輸出都乘上它們相應(yīng)的權(quán)值然后再輸出到nc。(4.2)式(4.2)表示的是指定某級(第l級)、某層(S-層)、某面(第kl個S-面)、某元(向量為n處)的一個輸出。對于一個S-元的作用函數(shù)可分為兩部分,即興奮性作用函數(shù)和抑制性作用函數(shù)。興奮性作用使得膜電位上升,而抑制性作用起分流作用。興奮性作用為:(4.3)S-元與其前一級C-層的所有C-面均有連接,所連接的C-元個數(shù)由該S-級的參數(shù)感受野Al唯一確定。網(wǎng)絡(luò)中另一個重要的神經(jīng)元是假設(shè)存在的抑制性神經(jīng)元V-元Uvl(n),它位于S-面上滿足以下三個條件:環(huán)元的抑制作用影響整個網(wǎng)絡(luò)的運作;C-元與V-元間存在著固定的連接;V-元的輸出事先設(shè)為多個C-元輸出的平均值??梢杂盟鼇肀硎揪W(wǎng)絡(luò)的抑制性作用,發(fā)送一個抑制信號給Usl(kl,n)神經(jīng)元,從與Usl(kl,n)類似的元接收它的輸入連接值,并輸出:(4.4)權(quán)cl(v)是位于V—元感受野中的v處的神經(jīng)元相連的權(quán)值,不需要訓練這些值,但它們應(yīng)隨著│v│的增加而單調(diào)減小。因此,選擇式4.5的歸一化權(quán)值。(4.5)式4.5中的歸一化常量C由式4.6給出,其中:r(v)是從v處到感受野中心的歸一化距離:(4.6)C神經(jīng)元的輸出由式4.7給出:(4.7)上式中ψ(x)為:(4.8)式中β為一常量。kl是第l級中的S子平面的數(shù)量。Dl是C—元的感受野。因此,它和特征的大小相對應(yīng)。dl(v)是固定興奮連接權(quán)的權(quán)值,它是│v│的單調(diào)遞減函數(shù)。如果第kl個S神經(jīng)元子平面從第kl-1子平面處收到信號,那么jl(kl,kl-1)的值為,1否則為0。最后,S_層的Vs神經(jīng)元的輸出為(4.9)圖4-2為卷積神經(jīng)網(wǎng)絡(luò)中不同神經(jīng)元之間的連接關(guān)系圖,從圖中可以很清楚地看出各種不同神經(jīng)元之間的連接關(guān)系。圖4-2卷積神經(jīng)網(wǎng)絡(luò)中不同神經(jīng)元間的連接4.3卷積網(wǎng)絡(luò)的訓練過程神經(jīng)網(wǎng)絡(luò)用于模式識別的主流是有指導學習網(wǎng)絡(luò),無指導學習網(wǎng)絡(luò)更多的是用于聚類分析。對于有指導的模式識別,由于任一樣本的類別是已知的,樣本在空間的分布不再是依據(jù)其自然分布傾向來劃分,而是要根據(jù)同類樣本在空間的分布及不同類樣本之間的分離程度找一種適當?shù)目臻g劃分方法,或者找到一個分類邊界,使得不同類樣本分別位于不同的區(qū)域內(nèi)。這就需要一個長時間且復雜的學習過程,不斷調(diào)整用以劃分樣本空間的分類邊界的位置,使盡可能少的樣本被劃分到非同類區(qū)域中。由于本文主要是檢測圖像中的人臉,所以可將樣本空間分成兩類:樣本空間和非樣本空間,因而本文所使用的學習網(wǎng)絡(luò)也是有指導的學習網(wǎng)絡(luò)。卷積網(wǎng)絡(luò)在本質(zhì)上是一種輸入到輸出的映射,它能夠?qū)W習大量的輸入與輸出之間的映射關(guān)系,而不需要任何輸入和輸出之間的精確的數(shù)學表達式,只要用已知的模式對卷積網(wǎng)絡(luò)加以訓練,網(wǎng)絡(luò)就具有輸入輸出對之間的映射能力。卷積網(wǎng)絡(luò)執(zhí)行的是有導師訓練,所以其樣本集是由形如:(輸入向量,理想輸出向量)的向量對構(gòu)成的。所有這些向量對,都應(yīng)該是來源于網(wǎng)絡(luò)即將模擬的系統(tǒng)的實際“運行”結(jié)果。它們可以是從實際運行系統(tǒng)中采集來的。在開始訓練前,所有的權(quán)都應(yīng)該用一些不同的小隨機數(shù)進行初始化。“小隨機數(shù)”用來保證網(wǎng)絡(luò)不會因權(quán)值過大而進入飽和狀態(tài),從而導致訓練失??;“不同”用來保證網(wǎng)絡(luò)可以正常地學習。實際上,如果用相同的數(shù)去初始化權(quán)矩陣,則網(wǎng)絡(luò)無能力學習。訓練算法主要包括4步,這4步被分為兩個階段:第一階段,向前傳播階段:①從樣本集中取一個樣本(X,Yp),將X輸入網(wǎng)絡(luò);②計算相應(yīng)的實際輸出Op。在此階段,信息從輸入層經(jīng)過逐級的變換,傳送到輸出層。這個過程也是網(wǎng)絡(luò)在完成訓練后正常運行時執(zhí)行的過程。在此過程中,網(wǎng)絡(luò)執(zhí)行的是由式(4.7)計算:Op=Fn(…(F2(F1(XpW(1))W(2))…)W(n))第二階段,向后傳播階段①計算實際輸出Op與相應(yīng)的理想輸出Yp的差;②按極小化誤差的方法調(diào)整權(quán)矩陣。這兩個階段的工作一般應(yīng)受到精度要求的控制,在這里,用式(4.8)計算Ep。作為網(wǎng)絡(luò)關(guān)于第p個樣本的誤差測度。而將網(wǎng)絡(luò)關(guān)于整個樣本集的誤差測度定義為:E=∑Ep。(4.8)如前所述,之所以將此階段稱為向后傳播階段,是對應(yīng)于輸入信號的正常傳播而言的。因為在開始調(diào)整神經(jīng)元的連接權(quán)時,只能求出輸出層的誤差,而其他層的誤差要通過此誤差反向逐層后推才能得到。有時候也稱之為誤差傳播階段。為了更清楚地說明本文所使用的卷積神經(jīng)網(wǎng)絡(luò)的訓練過程,首先假設(shè)輸入層、中間層和輸出層的單元數(shù)分別是N、L和M。X=(x0,x1,…,xN)是加到網(wǎng)絡(luò)的輸入矢量,H=(h0,h1,…,hL)是中間層輸出矢量,Y=(y0,y1,…,yM)是網(wǎng)絡(luò)的實際輸出矢量,并且用D=(d0,d1,…,dM)來表示訓練組中各模式的目標輸出矢量輸出單元i到隱單元j的權(quán)值是Vij,而隱單元j到輸出單元k的權(quán)值是Wjk。另外用θk和φj來分別表示輸出單元和隱含單元的閾值。于是,中間層各單元的輸出為式(4.9):(4.9)而輸出層各單元的輸出是式(4.10):(4.10)其中f(*)是激勵函數(shù)采用S型函數(shù)式(4.11):(4.11)在上述條件下,網(wǎng)絡(luò)的訓練過程如下:1)選定訓練組。從樣本集中分別隨機地選取300個樣本作為訓練組。2)將各權(quán)值Vij,Wjk和閾值φj,θk置成小的接近于0的隨機值,并初始化精度控制參數(shù)ε和學習率α。3)從訓練組中取一個輸入模式X加到網(wǎng)絡(luò),并給定它的目標輸出矢量D。4)利用式(4.9)計算出一個中間層輸出矢量H,再用式(4.10)計算出網(wǎng)絡(luò)的實際輸出矢Y。5)將輸出矢量中的元素yk與目標矢量中的元素dk進行比較,計算出M個輸出誤差項式(4.12):(4.12)對中間層的隱單元也計算出L個誤差項式(4.13):(4.13)6)依次計算出各權(quán)值的調(diào)整量式(2.14)和式(2.15):(4.14)(4.15)和閾值的調(diào)整量式(4.16)和(4.17):(4.16)(4.17)7)調(diào)整權(quán)值式(4.18)和式(4.19):(4.18)(4.19)調(diào)整閾值式(4.20)和(4.21):(4.20)(4.21)8)當k每經(jīng)歷1至M后,判斷指標是否滿足精度要求:E≤ε,其中E是總誤差函數(shù),且。如果不滿足,就返回(3),繼續(xù)迭代。如果滿足就進入下一步。9)訓練結(jié)束,將權(quán)值和閾值保存在文件中。這時可以認為各個權(quán)值已經(jīng)達穩(wěn)定,分類器形成。再一次進行訓練時,直接從文件導出權(quán)值和閾值進行訓練,不需要進行初始化。5.深度學習的發(fā)展與應(yīng)用5.1深度學習發(fā)展機器學習的發(fā)展歷程可以大致分為2個階段:淺層學習和深度學習直到近些年,大多數(shù)機器學習的方法都是利用淺層結(jié)構(gòu)來處理數(shù)據(jù),這些結(jié)構(gòu)模型最多只有1層或者2層非線性特征轉(zhuǎn)換層.典型的淺層結(jié)構(gòu)有:高斯混合模型(GMMs)、支持向量機(SVM)、邏輯回歸等等.在這些淺層模型中,最為成功的就是SVM模型,SVM使用一個淺層線性模式分離模型,當不同類別的數(shù)據(jù)向量在低維空間中無法劃分時,SVM會將它們通過核函數(shù)映射到高維空間中并尋找分類最優(yōu)超平而.到目前為止,淺層結(jié)構(gòu)己經(jīng)被證實能夠高效地解決一些在簡單情況下或者給予多重限制條件下的問題,但是當處理更多復雜的真實世界的問題時,比如涉及到自然信號的人類語音、自然聲音、自然語言和自然圖像以及視覺場景時他們的模型效果和表達能力就會受到限制,無法滿足要求。早在1974年P(guān)aulWerhos提出了反向傳播(backpropagation,BP)算法,解決了由簡單的祌經(jīng)網(wǎng)絡(luò)模型推廣到復雜的祌經(jīng)網(wǎng)絡(luò)模型中線性不可分的問題,但反向傳播算法在祌經(jīng)網(wǎng)絡(luò)的層數(shù)增加的時候參數(shù)優(yōu)化的效果無法傳遞到前層,容易使得模型最后陷入局部最優(yōu)解,也比較容易過擬合。在很長一段時間里,研究者們不知道在有著多層全連接的祌經(jīng)網(wǎng)絡(luò)上怎樣高效學習特征的深度層次結(jié)構(gòu)。2006年,Hinton提出了深度置信網(wǎng)絡(luò)(deepbe-liefnetwork,DBN),這個網(wǎng)絡(luò)可以看作是由多個受限玻爾茲曼機(restrictedboltzmannmachines,RBM)荇加而成.從結(jié)構(gòu)上來說,深度置信網(wǎng)絡(luò)與傳統(tǒng)的多層感知機區(qū)別不大,但是在有監(jiān)督學習訓練前需要先無監(jiān)督學習訓練,然后將學到的參數(shù)作為有監(jiān)督學習的初始值.正是這種學習方法的變革使得現(xiàn)在的深度結(jié)構(gòu)能夠解決以往的BP不能解決的問題。隨后深度結(jié)構(gòu)的其他算法模型被不斷地提出,并在很多數(shù)據(jù)集上刷新了之前的一些最好的記錄,例如2013年WanLi等提出的dropconnect規(guī)范網(wǎng)絡(luò),其模型在數(shù)據(jù)集CIFAR-10上的錯誤率為9.32%,低于此前最好的結(jié)果9.55%,并在SVHN上獲得了1.94%的錯誤率,低于此前最好的結(jié)果2.8%等等。5.2深度學習的應(yīng)用深度學習從2006年開始在語音識別計算機視覺圖像識別自然語言處理和信息檢索上面都取得了較好效果,在不同的數(shù)據(jù)集以及工業(yè)應(yīng)用上都表現(xiàn)出遠超以往淺層學習所能達到的最好的效果。5.2.1深度學習在語音識別領(lǐng)域研究現(xiàn)狀長期以來,語音識別系統(tǒng)大多是采用混合高斯模型(GMM)來描述每個建模單元的統(tǒng)計概率模型。由于這種模型估計簡單,方便使用大規(guī)模數(shù)據(jù)對其訓練,該模型有較好的區(qū)分度訓練算法保證了該模型能夠被很好的訓練。在很長時間內(nèi)占據(jù)了語音識別應(yīng)用領(lǐng)域主導性地位。但是這種混合高斯模型實質(zhì)上是一種淺層學習網(wǎng)絡(luò)建模,特征的狀態(tài)空間分布不能夠被充分描述。而且,使用混合高斯模型建模方式數(shù)據(jù)的特征維數(shù)通常只有幾十維,這使得特征之間的相關(guān)性不能被充分描述。最后混合高斯模型建模實質(zhì)上是一種似然概率建模方式,即使一些模式分類之間的區(qū)分性能夠通過區(qū)分度訓練模擬得到,但是效果有限。在過去幾十年中,語音識別領(lǐng)域的研究者們都把精力用在基于HMM-GMM的系統(tǒng),而忽略了原始語音數(shù)據(jù)內(nèi)部原有的結(jié)構(gòu)特征。深度神經(jīng)網(wǎng)絡(luò)DNN在2010年開始被引入處理語音識別問題,因為DNN對數(shù)據(jù)之間的相關(guān)性有較大的容忍度,使得當GMM被DNN替換時,效果明顯有了飛躍。2012年,微軟公司一個基于深度學習的語音視步頁檢索系統(tǒng)(Microsoftaudiovideoindexingservice,MAVIS)成功問世,將單詞錯誤率降低了30%(從27.4%到18.5%)。2014年IBM的沃森研宄中心的T.N.Sainath的工作結(jié)果顯示DNN比以往過去的GMM-HMM模型有8%?15%的提升,而CNN相比于一般DNN來說能對數(shù)據(jù)間強烈的相關(guān)性有更強的適應(yīng)力,同時足夠深的網(wǎng)絡(luò)還有對數(shù)據(jù)的平移不變性的特性。5.2.2深度學習在計算機視覺領(lǐng)域研究現(xiàn)狀深度學習在計算機視覺上的成功應(yīng)用,主要體現(xiàn)在對象識別和人臉識別領(lǐng)域上。過去很長一段時間,機器視覺中的對象識別一直依賴于人工設(shè)計的特征,例如尺度不變特征轉(zhuǎn)換(scaleinvariantfeaturetransform,SIFT)剛和方向梯度直方圖(histogramoforientedgradients,HOG),然而像SIFT和HOG這樣的特征只能抓取低等級的邊界信息。針對以往小規(guī)模樣本所無法表現(xiàn)的真實環(huán)境中更復雜的信息,2010年人們引入了更大的數(shù)據(jù)集,例如ImageNet數(shù)據(jù)集中有著15百萬的標記高分辨率圖像和超過2萬2千個類別.A.Krizhevsky等在2012年通過訓練一個大的深度祌經(jīng)網(wǎng)絡(luò)來對ImageNetLSVRC-2010中包含著1000個不同類別的1.2百萬個高分辨率圖像進行分類。在測試數(shù)據(jù)中,他們在top-1和top-5上的錯誤率是37.5%和17.0%,刷新了這個數(shù)據(jù)集的最好記錄。5.2.3深度學習在自然語言處理領(lǐng)域研究現(xiàn)狀自然語言處理(naturallanguageprocessing,NLP)意在將人類語言轉(zhuǎn)換到能夠容易地被計算機操作的表征的過程。大多數(shù)的研宄者將這些問題分離式考慮,例如詞性標注、分塊、命名實體識別、語義角色標注、語言模型和語義相關(guān)詞等,而沒有注重到整體性,使得自然語言處理領(lǐng)域中的進展不是很樂觀。具體來說現(xiàn)有的系統(tǒng)有3個缺陷:①它們都是淺層結(jié)構(gòu),而且分類器通常是線性的;②對于一個效果好的線性分類器來說,它們必須事先用許多人工特征來預處理;③從幾個分離的任務(wù)中進行串聯(lián)特征以至于誤差會在傳播過程中增大。2008年R.Collobert等通過將一個普通的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)用于NLP,在“學習一個語言模式”和“對語義角色標簽”任務(wù)上通過將重點關(guān)注到語義角色標簽的問題上進行了沒有人工設(shè)計特征參與的訓練,其錯誤率為14.3%的結(jié)果刷新了最好記錄。5.2.4深度學習在圖像識別領(lǐng)域研究現(xiàn)狀對于圖像的處理是深度學習算法最早嘗試應(yīng)用的領(lǐng)域。早在1989年,加拿大多倫多大學教授YannLeCun就和他的同事們一起提出了卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks)。卷積神經(jīng)網(wǎng)絡(luò)也稱為CNN,它是一種包含卷積層的深度神經(jīng)網(wǎng)絡(luò)模型。通常一個卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)包含兩個可以通過訓練產(chǎn)生的非線性卷積層,兩個固定的子采樣層和一個全連接層,隱藏層的數(shù)量一般至少在5個以上。CNN的架構(gòu)設(shè)計是受到生物學家Hubel和Wiesel的動物視覺模型啟發(fā)而發(fā)明的,尤其是模擬動物視覺皮層VI層和V2層中簡單細胞(SimpleCell)和復雜細胞(C

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論