




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
深度學(xué)習(xí)在人臉識別中的應(yīng)用優(yōu)圖祖母模型的「進化」序言——“弱弱”的人工智能說到人工智能(ArtificialIntelligence,AI)人們總是很容易和全知、全能這樣的詞聯(lián)系起來。大量關(guān)于AI的科幻電影更給人工智能蒙上一層神秘的色彩。強如《黑客帝國》、《機械公敵》中的AI要翻身做主人統(tǒng)治全人類。稍弱點的《機械姬》里EVA懂得利用美貌欺騙中二程序員,殺死主人逃出升天。最不濟也可以蠢萌蠢萌的像WALL·E能陪玩、送禮物還能談個戀愛。其實人工智能這個詞在1956年達特茅斯會議上正式誕生時,目標就是想要讓機器的行為看起來像是人所表現(xiàn)出的智能行為一樣的“強”人工智能。然而人工智能的研究是高度技術(shù)性和專業(yè)性的,各分支領(lǐng)域都是深入且各不相通的,因而涉及范圍極廣。正是這種復(fù)雜屬性,導(dǎo)致人們對人工智能的研究進程總是磕磕碰碰,反復(fù)地經(jīng)歷過分樂觀的浪潮與極度悲觀的寒冬。時至今日,想要完成全知、全能的強人工智能仍然只是一個長遠目標。雖然目前的技術(shù)水平還遠不能實現(xiàn)強人工智能,但在一些非常特定的領(lǐng)域里,弱人工智能技術(shù)正在經(jīng)歷前所未有的迅猛發(fā)展,達到或已超越人類的最高水平。例如深藍、AlphaGo分別在國際象棋和圍棋領(lǐng)域擊敗世界冠軍。例如自然語言理解、語音識別和人臉識別接近、達到甚至超越普通人的識別水平。雖然這些弱人工智能技術(shù)并不能真正地推理、理解和解決問題,但是面對特定的任務(wù)它們所給出的“判斷”看起來是具有智能的。而正是這些看似“弱弱”的人工智能技術(shù),在悄悄的改變?nèi)祟惿畹姆椒矫婷?。它們以點帶面完成越來越多的“簡單任務(wù)”,為人們提供更加簡潔、方便和安全的服務(wù)。人臉識別正是眾多“弱弱”的人工智能技術(shù)之一。通過看人的面孔識別其身份,對每一個正常的人來說都是再簡單不過的。如果強行將人臉識別的難度和下圍棋來比,應(yīng)該沒有人會覺得人臉識別更難。然而從計算機的角度來看,至少在輸入數(shù)據(jù)的復(fù)雜度上人臉識別是遠超圍棋單步走子決策的。如圖1(a)所示,一張Angelababy的圖像在計算機看來,其實就是一個數(shù)字矩陣如圖1(b)。數(shù)字矩陣的每個元素取值范圍是0-255的整數(shù)。通常人臉識別算法所需的輸入圖像至少在以上,大的可能達到。理論上不同的可能輸入共有種(每個像素的取值范圍為0-255)。而圍棋任意單步走子的可能局面上限為(每個棋盤格只能有黑子,白子,無子三種情況),遠遠小于人臉識別。無論是圍棋還是人臉識別,通過遍歷完整的輸入空間來做出最優(yōu)的決策,就計算復(fù)雜度而言都是完全無法接受的。圖1:數(shù)字化的人臉識別VS.圍棋單步?jīng)Q策其實對幾乎所有人工智能問題,如何通過更高層次的抽象來理解輸入從而更快速的做出決策都是解決問題的關(guān)鍵所在。近十年來引領(lǐng)新一波人工智能浪潮的核心技術(shù)“深度學(xué)習(xí)”描述子Gabor描述子借鑒了人類大腦的視覺皮層中對視覺信息進行預(yù)處理的過程。大腦皮層中對視覺信息加工處理的操作主要有兩種,一種是在簡單細胞中進行的線性操作,一種是在復(fù)雜細胞中進行的非線性匯聚。如圖5所示的是MIT大腦和認知科學(xué)學(xué)院人工智能實驗室的主任Poggio教授提出的一個叫HMAX[4]的類腦視覺信息處理流程:圖5:HMAX圖像信息處理過程這其中的簡單單元“S1units”和“S2units”進行了一種叫做Gabor小波濾波的操作。而復(fù)雜單元“C1units”和“C2units”進行了一種叫做MaxPooling的取局部區(qū)域最大值的操作。事實上除卻直接使用事先設(shè)定的Gabor濾波器,HMAX等價于一個四層的神經(jīng)網(wǎng)絡(luò),實際上已經(jīng)初步具備了現(xiàn)代深度模型的雛形。在深度學(xué)習(xí)誕生前的“淺”時代,人臉識別研究人員不斷改進預(yù)處理過程、使用更好的描述子,提取更有判別性的特征,這些都在慢慢的提高計算機識別人臉的能力。然而直到深度學(xué)習(xí)橫空出世前,“淺”時代的各種人臉識別方法,對人類本身所具有的人臉識別能力仍然望塵莫及。擁抱——人臉識別的“深”時代要賦予計算機完整的人臉識別能力,除了能認識人外其實還有幾步非常重要的預(yù)處理過程。如圖6所示,完整的人臉自動識別算法需要能自己從圖像里找到哪有人臉,學(xué)界稱之為人臉檢測?哪里是眼睛鼻子嘴,學(xué)界稱之為人臉特征點定位?最后才是提取前面說到的具有判別性的特征進行身份的識別,即狹義上的人臉識別。圖6:完整的自動人臉識別流程在深度學(xué)習(xí)出現(xiàn)以前關(guān)于人臉檢測、特征點定位和人臉識別這三個子任務(wù)的研究都是相對獨立的展開的。從上個世紀90年代開始到2010年左右,經(jīng)過不斷的摸索,研究人員們對每個子任務(wù)都發(fā)現(xiàn)了一些比較有效的特征與方法的組合來解決問題如圖7所示。然而由于研究人員需要根據(jù)每個子任務(wù)本身的特點設(shè)計不同的特征,選擇不同的機器學(xué)習(xí)方法,因此技術(shù)的發(fā)展相對緩慢。從2012年左右,受深度學(xué)習(xí)在整個機器視覺領(lǐng)域迅猛發(fā)展的影響,人臉識別的“深”時代正式拉開序幕。短短的四年時間里,基于深度卷積神經(jīng)網(wǎng)絡(luò)的方法不斷在這三個子任務(wù)中刷新人工智能算法的世界記錄。人臉識別“淺”時代讓人眼花繚亂的各種技術(shù)和方法仿佛一頁之間成為歷史。人臉識別研究人員,不需要在挖空心思的設(shè)計特征,也不需要擔(dān)心后面需要什么樣的學(xué)習(xí)算法。所有的經(jīng)驗的積累過程轉(zhuǎn)換為了深度神經(jīng)網(wǎng)路算法自動學(xué)習(xí)過程。這正式深度學(xué)習(xí)算法最大的優(yōu)點:自動學(xué)習(xí)對特定任務(wù)最有用的特征!圖7:人臉識別考察一個單項的“弱”人工智能技術(shù)是否成熟,達到乃至超過人類的平均水平應(yīng)該是一個比較通用的準則。說到這里不得不提一個人臉識別的標準評測數(shù)據(jù)庫LFW(LabeledFaceintheWild)數(shù)據(jù)庫。在2014年,F(xiàn)acebook使用一個叫做DeepFace的深度學(xué)習(xí)方法,第一次在LFW數(shù)據(jù)庫上接近人類的識別水平(DeepFace:97.35%VS.Human:97.53%),其結(jié)果如圖8所示:圖8:DeepFace深度學(xué)習(xí)網(wǎng)絡(luò)“Talkischeap,showmethecode”,自從DeepFace在人臉識別領(lǐng)域一戰(zhàn)成名,讓研究人員們看到了超越人類識別能力的曙光。隨著幾大開源深度學(xué)習(xí)項目(例如CAFFE,TORCH,TensorFlow)的發(fā)展壯大,基于深度學(xué)習(xí)的方法真正如雨后春筍般席卷整個人臉識別領(lǐng)域。事實也證明深度學(xué)習(xí)確實能夠做到,短短一年以后就有很多基于深度學(xué)習(xí)的方法在LFW數(shù)據(jù)庫上超過人類的識別能力,例如優(yōu)圖的人臉識別算法就在15年取得當(dāng)時世界第一的99.65%準確率。深度學(xué)習(xí)為什么如此神奇,能在短短的幾年時間里一統(tǒng)江湖呢?拋開技術(shù)細節(jié)不談,原理上來說最為關(guān)鍵的兩個因素就是:層級式抽象和端到端可學(xué)習(xí)。在回顧“淺”時代人臉識別方法歷史時曾經(jīng)介紹了基于幾何特征的方法(圖2)和基于判別性特征的方法(圖4)。下圖這些特征無疑都是針對人臉的某種抽象。由于原始圖像輸入的搜索空間巨大,只有通過恰當(dāng)?shù)某橄罂s小搜索范圍,才能最終做出合理的決策。對一個復(fù)雜的概念想要通過一層的抽象就將所有結(jié)構(gòu)梳理清楚會是很難甚至不可能的,而深度神經(jīng)網(wǎng)絡(luò)這種多層結(jié)構(gòu)給自底向上的逐級抽象提供了天然的模具。只要將足夠多的數(shù)據(jù)輸入到具有多層結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)并告知它你想要的輸出結(jié)果,網(wǎng)絡(luò)可以自動的學(xué)習(xí)中間層的抽象概念,如圖9所示,好奇的研究人員將一個能夠識別1000類物體的神經(jīng)網(wǎng)絡(luò)中的特征進行了可視化:圖9:深度神經(jīng)網(wǎng)絡(luò)特征可視化結(jié)果從圖中可以看到在深度神經(jīng)網(wǎng)絡(luò)的第一層有點類似人類科學(xué)家積累多年經(jīng)驗找到的Gabor特征。第二層學(xué)習(xí)到的是更復(fù)雜的紋理特征。第三層的特征更加復(fù)雜,已經(jīng)開始出現(xiàn)一些簡單的結(jié)構(gòu),例如車輪、蜂窩、人頭。到了第四、五層機器輸出的表現(xiàn)已經(jīng)足以讓人誤以為它具備一定的智能,能夠?qū)σ恍┟鞔_的抽象概念例如狗、花、鐘表、甚至鍵盤做出特別的響應(yīng)。研究人員們積累幾年甚至十幾年設(shè)計出來的特征例如Gabor、SIFT,其實可以通過深度神經(jīng)網(wǎng)絡(luò)自動的學(xué)習(xí)出來(如圖9中“Layer1”),甚至自動學(xué)習(xí)出它的人類“爸爸”難以言喻的更高層次抽象。從某種意義上來說,人工智能科學(xué)家就是機器的父母,需要“教”機器寶寶認識這個世界。誰都希望自己有個聰明寶寶,只用教它“知其然”,它自己慢慢總結(jié)消化然后“知其所以然”。深度神經(jīng)網(wǎng)絡(luò)就像個聰明的機器寶寶自己會學(xué)習(xí)、會抽象、會總結(jié)。端到端可學(xué)習(xí),乍一聽這個名詞可能覺得頭有點“方”,其實可以簡單理解為全局最優(yōu)。圖7中總結(jié)了在“淺”時代,人臉識別的各個子問題都需要通過兩個甚至更多個步驟來完成,而多個步驟之間完全獨立的進行優(yōu)化。這是典型貪心規(guī)則,很難達到全局最優(yōu)。事實上,受限于優(yōu)化算法深度神經(jīng)網(wǎng)絡(luò)也很難達到全局最優(yōu)解,但是它的優(yōu)化目標是全局最優(yōu)的。近幾年深度學(xué)習(xí)在各種任務(wù)上的成功經(jīng)驗,表明機器寶寶也是需要有夢想的,直接對準“遠方”的全局最優(yōu)目標進行學(xué)習(xí),即使得不到最優(yōu)解也也遠遠好過小碎步的局部貪心算法。想要達到真正的“強”人工智能,深度神經(jīng)網(wǎng)絡(luò)還有很長的路要走,星爺?shù)拿詫ι窠?jīng)寶寶同樣適用,做人沒有夢想和咸魚有什么分別。進擊——優(yōu)圖祖母模型的“進化”隨著深度神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)技術(shù)的發(fā)展,在LFW人臉數(shù)據(jù)庫上,三、四年前讓所有機器學(xué)習(xí)算法寶寶們望塵莫及的人類識別能力早已被超越。雖然優(yōu)圖也曾在LFW上取得99.65%超越人類平均水平的好成績,但是我們清楚的明白刷庫還遠遠不夠,在實際場景中的應(yīng)用更重要也更具挑戰(zhàn)性,在實踐中優(yōu)圖已經(jīng)根據(jù)落地需求對各種應(yīng)用場景和應(yīng)用類型做出了細分,以便實現(xiàn)各種場景下人臉識別任務(wù)的各個擊破。目前在落地應(yīng)用中,常見的照片場景類型有生活照,自拍照、監(jiān)控視頻、門禁閘機、西方人及其他人種照片,如圖10所示。圖10:常見人臉識別場景類型互聯(lián)網(wǎng)上有海量的人臉照片,通過搜索引擎優(yōu)圖也積累了海量帶身份標注的互聯(lián)網(wǎng)人臉數(shù)據(jù)。這部分數(shù)據(jù)無論從人數(shù),圖像數(shù)、數(shù)據(jù)多樣性上都是最好的,為優(yōu)圖人臉識別技術(shù)的研發(fā)提供了基礎(chǔ)條件。隨著人臉識別技術(shù)的日漸成熟,實際業(yè)務(wù)中涌現(xiàn)出大量新場景下的應(yīng)用需求,例如微眾銀行的核身業(yè)務(wù),會議簽到業(yè)務(wù)都涉及證件照和手機自拍照的比對,公安的監(jiān)控需要視頻監(jiān)控數(shù)據(jù)與證件照的比對。不同場景下獲取的人臉圖像存在巨大差異,如何對人臉識別模型進行快速調(diào)整,在各個不同場景下快速落地就成為一個非常具有挑戰(zhàn)性的問題。為了在日趨白熱化的市場競爭中占得先機,優(yōu)圖在三年深耕人臉識別和深度學(xué)習(xí)的基礎(chǔ)上建立了自己在場景遷移與適應(yīng)上的一整套方法論。這個方法論可以用一句話來概括:祖母模型的“進化”。這句話有兩個關(guān)鍵點。首先我們需要建立適用于一般場景的、功能強大的人臉識別模型,也就是祖母模型。其次祖母模型通過“進化”來適應(yīng)新場景下的人臉識別。建立祖母模型家族祖母模型并不特指一個深度神經(jīng)網(wǎng)絡(luò)模型,而是具有某種結(jié)構(gòu)特點的一類神經(jīng)網(wǎng)絡(luò)模型,因此更為合適的叫法應(yīng)該是祖母模型族。不同業(yè)務(wù)場景下的應(yīng)用,用戶對人臉識別的速度和精度可能有不一樣的需求。祖母模型族必須像一個兵器庫,既包含能夠快速發(fā)射的機關(guān)槍也需要殺傷力強大冷卻時間長的原子彈。圖11:深度神經(jīng)網(wǎng)絡(luò)局部結(jié)構(gòu)分類目前最為流行的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)大致可以歸為三類:1.直線型(如AlexNet,VGGNet);2.局部雙分支型(ResNet);3.局部多分支型(GoogleNet)。其中直線型網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計最為簡單,但是當(dāng)網(wǎng)絡(luò)深度超過20后這種結(jié)構(gòu)的網(wǎng)絡(luò)將變的難以優(yōu)化。局部多分支型網(wǎng)絡(luò)模型能力強,計算效率更高,但是設(shè)計也最為復(fù)雜。在建立祖母模型家族的初期,我們選擇了模型能力相對較強設(shè)計又相對簡單的局部雙分支型網(wǎng)絡(luò)ResNet來構(gòu)建優(yōu)圖人臉識別的祖母模型族。一方面ResNet本身具有強大的學(xué)習(xí)能力,是去年深度學(xué)習(xí)領(lǐng)域最新的研究進展。MSRA憑借一個152層的ResNet深度網(wǎng)絡(luò)摘取了圖像識別領(lǐng)域最具影響力的ImageNet2015競賽多個單項的第一名。另一方面ResNet設(shè)計相對簡單,一個最大的特點就是識別能力基本與神經(jīng)網(wǎng)絡(luò)深度成正比。神經(jīng)網(wǎng)絡(luò)的深度又與計算復(fù)雜度直接相關(guān),這就為訓(xùn)練不同識別精度與運行速度的多個模型從而建立祖母模型族提供了極大的方便。當(dāng)選定了祖母模型的網(wǎng)絡(luò)結(jié)構(gòu)后,我們將其在數(shù)據(jù)量最大的互聯(lián)網(wǎng)生活照數(shù)據(jù)集上訓(xùn)練,以保證祖母模型的通用人臉識別能力,圖12所示。圖12:優(yōu)圖人臉識別祖母模型在基于局部雙分支模型族建立完成后,我們也開始嘗試使用更復(fù)雜的局部多分支組件來進一步提高模型效率,豐富我們的祖母模型族。祖母模型的“進化”遷移學(xué)習(xí)是近些年來在人工智能領(lǐng)域提出的處理不同場景下識別問題的主流方法。相比于淺時代的簡單方法,深度神經(jīng)網(wǎng)絡(luò)模型具備更加優(yōu)秀的遷移學(xué)習(xí)能力。并有一套簡單有效的遷移方法,概括來說就是在復(fù)雜任務(wù)上進行基礎(chǔ)模型的預(yù)訓(xùn)練(pre-train),在特定任務(wù)上對模型進行精細化調(diào)整(fine-tune)。套用在人臉識別問題上,只需要將訓(xùn)練好的優(yōu)圖祖母模型在新場景的新數(shù)據(jù)上進行精細化調(diào)整。圖13:優(yōu)圖祖母模型的進化這種傳統(tǒng)的遷移學(xué)習(xí)方法確實能幫助祖母模型更好的完成新場景下的人臉識別任務(wù)。但這只能算特異化,無法將遷移學(xué)習(xí)中學(xué)到的新信息反饋給祖母模型。遷移之后的特異化模型只能應(yīng)用在特定場景,在原集合上的性能甚至可能會大幅下降。在沒有深度學(xué)習(xí)的“淺”時代,模型沒有同時處理多個場
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 綜合實踐課程培訓(xùn)大綱
- 醫(yī)保物價管理培訓(xùn)
- 2024-2025學(xué)年統(tǒng)編版七年級語文下冊第四單元檢測B卷(原卷+答案)
- 幼兒園小朋友齲齒護理
- 護理教學(xué)組長的競選稿
- 小學(xué)三年級數(shù)學(xué)幾百幾十加減幾百幾十同步自測習(xí)題帶答案
- 工地技能培訓(xùn)課件
- 完全性房室傳導(dǎo)阻滯的健康宣教
- 廣西壯族自治區(qū)柳州市2024年初中數(shù)學(xué)畢業(yè)考試模擬沖刺卷含解析
- 九下化學(xué)知識點:酸和堿
- 湖南省炎德英才名校聯(lián)考聯(lián)合體2024-2025學(xué)年高二下學(xué)期3月月考-數(shù)學(xué)+答案
- 蔬菜水果食材配送服務(wù)投標方案(技術(shù)方案)
- 《高效能NLP溝通技巧》課件
- 電力應(yīng)急物資儲備與管理
- 中國公民健康素養(yǎng)-基本知識與技能(2024年版)試題及答案
- 【語文】第三單元整本書閱讀《駱駝祥子》圈點、批注、做筆記課件-2024-2025學(xué)年統(tǒng)編版語文七年級下冊
- 《偉大的友誼》(配套PPT)課件
- 第四節(jié) 張益-髁突骨折
- 小企業(yè)會計準則財務(wù)報表模板
- 材料科學(xué)基礎(chǔ)晶體結(jié)構(gòu)缺陷ppt課件
- 資料員季度績效考核表.doc
評論
0/150
提交評論