深度人臉識(shí)別綜述_第1頁(yè)
深度人臉識(shí)別綜述_第2頁(yè)
深度人臉識(shí)別綜述_第3頁(yè)
深度人臉識(shí)別綜述_第4頁(yè)
深度人臉識(shí)別綜述_第5頁(yè)
已閱讀5頁(yè),還剩36頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

人臉識(shí)別綜述Pa

r

t 1 人臉識(shí)別基本概念Pa

r

t 2 Deep

Fa

cePa

r

t 3 Fa

ceN

et

Pa

r

t 4 C

en

ter

Los

sPa

r

t 5 如何搭建一個(gè)簡(jiǎn)易人臉識(shí)別系統(tǒng)目錄人臉識(shí)別基本概念人臉驗(yàn)證/人臉比對(duì)人臉1:1比對(duì)人臉識(shí)別給定兩個(gè)人臉,來(lái)判斷是否為一個(gè)人提供一個(gè)證件,然后進(jìn)行比對(duì)。應(yīng)用場(chǎng)景火車票刷臉進(jìn)站、銀行柜臺(tái)、海關(guān)、手機(jī)解鎖、酒店入住、網(wǎng)吧驗(yàn)證等。人臉識(shí)別人臉1:N比對(duì)一張待檢索的圖片,大小為N的人臉庫(kù),判斷庫(kù)中是否有目標(biāo)人物。應(yīng)用場(chǎng)景安防、公安、智能門鎖、門禁、考勤機(jī)等。LFW(

Labled Faces

in

the

Wild)

數(shù)據(jù)集被廣泛用于測(cè)試人臉驗(yàn)證算法的性能,其從數(shù)據(jù)集中選擇了6000

對(duì)人臉組成了人臉辨識(shí)圖片對(duì),其中3000

對(duì)屬于同一個(gè)人的2

張人臉照片,

3000

對(duì)屬于不同的人每人1

張人臉照片。測(cè)試過(guò)程LFW

給出一對(duì)照片,詢問(wèn)測(cè)試中的系統(tǒng)兩張照片是不是同一個(gè)人,系統(tǒng)給出“是”或“否”的答案。LFW

測(cè)試集已經(jīng)“飽和”。LFW

測(cè)試腳本通常會(huì)計(jì)算 Accuracy

,指定FAR

下的TAR

,

ERR

等指標(biāo)LFW數(shù)據(jù)集評(píng)測(cè)指標(biāo)比較主流的評(píng)測(cè)指標(biāo)是這兩種:TPR@EER(在取到等錯(cuò)率EER的情況下,正確率TPR的取值情況,TPR=TP/P)進(jìn)行評(píng)價(jià),TPR值越大算法性能越好。TPR@FAR=0.1、0.01

、0.001

...(

TPR@FAR=0.1表示在誤識(shí)率FAR=0.1時(shí),TPR的取值情況,TPR=TP/P)為了更好的理解,你需要對(duì)這幾個(gè)指標(biāo)的含義有所了解:TPR/FAR/FRR/EER真正率TPR=正確識(shí)別為正樣本數(shù)/正樣本對(duì)總數(shù)=TP/P誤識(shí)率FAR=錯(cuò)誤識(shí)別為正樣本數(shù)/負(fù)樣本對(duì)總數(shù)=

FP/N拒識(shí)率FRR=錯(cuò)誤識(shí)別為負(fù)樣本數(shù)/正樣本對(duì)總數(shù)=

FN/P等錯(cuò)率EER:FAR=FRR,即拒識(shí)率和誤識(shí)率相等TP(TruePositive): 正確判斷為本人的個(gè)數(shù)(人臉對(duì)是同一個(gè)人被系統(tǒng)判定為同一人)TN

(True

Negative):

正確判斷為非本人的個(gè)數(shù)(人臉對(duì)不是同一個(gè)人被系統(tǒng)正確判為不是同一個(gè)人)FP

(False

Positive): 錯(cuò)誤判斷為本人的個(gè)數(shù)(不是一個(gè)人但被認(rèn)證為是同一個(gè)人,即誤檢)FN

(False

Negative):

錯(cuò)誤判斷為非本人的個(gè)數(shù)(是本人但未被認(rèn)證為本人,漏檢,或者稱為誤拒)1

人臉檢測(cè)2

人臉預(yù)處理通常是人臉關(guān)鍵點(diǎn)檢測(cè)+

人臉矯正,

可跳過(guò)3

人臉表示提取有較好表達(dá)能力的特征向量4

特征比對(duì)/

匹配人臉識(shí)別基本流程更全面的流程梳理Face

Processing人臉處理方法可以分為2類one-to-many:通過(guò)數(shù)據(jù)增廣,從一張圖生成很多個(gè)有不同屬性(如姿態(tài))圖片,從單張圖片中生成許多塊或者圖片來(lái)進(jìn)行姿態(tài)變化的多樣性,保證深度網(wǎng)絡(luò)能學(xué)到姿態(tài)不變性表征。常用3D臉,或者GAN;many-to-one:從單張或多張非正臉圖片中恢復(fù)人臉圖片到規(guī)范角度;然后特征提取工作可以在約束條件下進(jìn)行,從而獲得更好的效果,學(xué)術(shù)界近年常用GAN等方法。Feature

Extraction主干網(wǎng)絡(luò)在人臉識(shí)別中使用的網(wǎng)絡(luò)結(jié)構(gòu)基本和用于分類任務(wù)的主干網(wǎng)絡(luò)的發(fā)展保持一致,下圖可以看到,人臉識(shí)別領(lǐng)域比較重要的工作中使用的主干網(wǎng)絡(luò),基本就是追隨主干網(wǎng)絡(luò)的發(fā)展,從alexnet發(fā)展到VGG、ResNet,再到Senet等。另外一部分工作,不使用單一主干網(wǎng)絡(luò)的架構(gòu),試圖通過(guò)使用多輸入或多任務(wù)的方式來(lái)提升模型特征提取的效果。Multi

networks多輸入多任務(wù)Loss函數(shù)發(fā)展時(shí)間線梳理數(shù)據(jù)集越來(lái)越多復(fù)雜的數(shù)據(jù)集被不斷的提出,可以說(shuō)數(shù)據(jù)集本身的提出,也幫助人臉識(shí)別的發(fā)展指明了方向。VGGFace2是目前能拿到的在數(shù)據(jù)規(guī)模和噪聲比例都不錯(cuò)的公開數(shù)據(jù)集。MS-Celbe-1M

值得借鑒的無(wú)監(jiān)督自動(dòng)標(biāo)注Asian-Celeb亞洲名人數(shù)據(jù)集DeepFaceD

eepF

ac

e

: Cl

osi

n

g t

h

e G

a

p t

o Hu

m

a

n

-

L

ev

el P

er

fo

r

man

c

e i

n F

ac

e V

er

i

fi

c

at

i

o

nD

eepF

ac

e

是CV

P

R

2

0

1

4

上由F

a

ce

B

ook

提出來(lái)的,

D

eepF

ac

e

基本算是C

N

N

在人臉識(shí)別的奠基之作,并將人臉識(shí)別精度接近人類水平。D

eepF

ac

e

在進(jìn)行人臉識(shí)別的過(guò)程中主要分為以下步驟:

人臉檢測(cè)3

D

對(duì)齊人臉表示(

C

N

N

特征提?。?/p>

人臉驗(yàn)證論文簡(jiǎn)介一、人臉檢測(cè)(

f

ac

e d

e

t

e

c

t

i

o

n

)D

eepF

ac

e

采用了基于檢測(cè)點(diǎn)的人臉檢測(cè)方法(

fi

du

c

i

al P

o

i

n

t D

et

ec

t

o

r

)、先選擇6

個(gè)基準(zhǔn)點(diǎn),

2

只眼睛中心、 1

個(gè)鼻子點(diǎn)、3

個(gè)嘴上的點(diǎn)。、通過(guò)L

BP

特征用SV

R

來(lái)學(xué)習(xí)得到基準(zhǔn)點(diǎn)。二、人臉對(duì)齊(

f

ac

e al

i

g

n

m

e

n

t

)在對(duì)齊方面,

D

eepF

ac

e

模型采用了3

D

對(duì)齊的方式。人臉檢測(cè)與對(duì)齊經(jīng)過(guò)3

D

對(duì)齊以后,形成的圖像都是1

5

2

×

1

5

2

的圖像,送入C

N

N

,其結(jié)果如下:

人臉表示C1

:卷積層,卷積核尺寸1

1

*

1

1

,共3

2

個(gè)卷積核M2

:池化層,最大池化3

*

3

,即s

t

r

i

de = 2C3

:卷積層,卷積核尺寸9

*

9,共1

6

個(gè)卷積核,共1

6

個(gè)卷積核。L

表示l

oca

l

,意思是卷積核的參數(shù)不共享,共1

6

個(gè)卷積核。L

表示l

oca

l

,意思是卷積核的參數(shù)不共享,共1

6

個(gè)卷積核。L

表示l

oca

l

,意思是卷積核的參數(shù)不共享L4

卷積層,卷積核尺寸9

*

9L5

卷積層,卷積核尺寸7

*

7L6

卷積層,卷積核尺寸5

*

5F7

全連接,

4

0

9

6

個(gè)神經(jīng)元F8

全連接,

4

0

3

0

個(gè)神經(jīng)元取F7

全連接輸出為人臉表示特征(由于經(jīng)過(guò)了RELU

,取值非負(fù))

人臉特征需要進(jìn)行歸一化,其歸一化的方式為:

先對(duì)每一維進(jìn)行歸一化(每一維除以該維的最大值)

再將整個(gè)向量進(jìn)行L2

正則化。歸一化的主要目的是避免光照等其他因素的影響。人臉特征的歸一化義對(duì)于最終的人臉驗(yàn)證環(huán)節(jié),論文給出了3

種方案:

1

內(nèi)積,

2

卡方加權(quán),

3siamese

網(wǎng)絡(luò)直接用向量?jī)?nèi)積來(lái)衡量相似度卡方加權(quán)卡方相似度的定加權(quán)系數(shù)wi

通過(guò)SVM

訓(xùn)練出來(lái)siamese

網(wǎng)絡(luò)最后通過(guò)全連接訓(xùn)練一個(gè)邏輯單元度量學(xué)習(xí)DeepFace實(shí)驗(yàn)結(jié)果第一個(gè)使用深度學(xué)習(xí)解決人臉識(shí)別問(wèn)題的架構(gòu),超過(guò)了前人的效果,且逼近人類水平B

ac

k

bo

n

e

網(wǎng)絡(luò)使用了多層局部卷積結(jié)構(gòu)(

L

oca

l Con

vol

u

t

i

on

),原因是希望網(wǎng)絡(luò)的不同卷積核能學(xué)習(xí)人臉不同區(qū)域的特征,但會(huì)導(dǎo)致參數(shù)量增大,要求數(shù)據(jù)量很大,回過(guò)頭去看該策略并不是十分必要。轉(zhuǎn)化為分類問(wèn)題用s

o

ft

max l

oss

訓(xùn)練來(lái)得到人臉表征一些思考:

這樣訓(xùn)練出的人臉特征真的好嗎?

人臉I(yè)D

過(guò)多怎么辦?每個(gè)類別的樣本太少如何解決?

DeepFace總結(jié)FaceNet在理想的狀況下,我們希望“

向量表示”

之間的距離就可以直接反映人臉的相似度:

D

eepF

ac

e

中,我們使用的是s

o

ft

max

損失,

s

o

ft

max

是類別間的損失,對(duì)于人臉來(lái)說(shuō),每一類就是一個(gè)人。盡管使用s

o

ft

max

損失可以區(qū)別每個(gè)人,但其本質(zhì)上沒(méi)有對(duì)每一類的向量表示之間的距離做出要求。人臉表示的理想情況Softmax訓(xùn)練潛在問(wèn)題的可視化使用CNN對(duì)MNIST進(jìn)行分類,我們?cè)O(shè)計(jì)一個(gè)特殊的卷積網(wǎng)絡(luò),讓最后一層的向量變?yōu)?維,此時(shí)可以畫出每一類對(duì)應(yīng)的2維向量表示的圖(圖中一種顏色對(duì)應(yīng)一種類別)Triplet

loss

三元組損失示意圖三元組損失直接對(duì)距離進(jìn)行優(yōu)化,因此可以解決人臉的特征表示問(wèn)題。但是在訓(xùn)練過(guò)程中,三元組的選擇非常地有技巧性。如果每次都是隨機(jī)選擇三元組,因?yàn)楹芏嗳M都不產(chǎn)生l

oss

,收斂慢,且難度過(guò)低并不能達(dá)到最好的性能。如果加入“

難例挖掘”

,即每次都選擇最難分辨率的三元組進(jìn)行訓(xùn)練,模型又往往不能正確的收斂,或者早早陷入局部極小值。對(duì)此,又提出每次都選擇那些“s

e

m

i

-

h

ar

d”

的數(shù)據(jù)進(jìn)行訓(xùn)練,難度逐步過(guò)渡,讓模型在可以收斂的同時(shí)也保持良好的性能。此外,使用三元組損失訓(xùn)練人臉模型通常還需要非常大的人臉數(shù)據(jù)集,才能取得較好的效果。難以訓(xùn)練是Facenet的最大缺點(diǎn)CenterLoss與三元組損失不同,中心損失不直接對(duì)距離進(jìn)行優(yōu)化,它保留了原有的分類模型,但又為每個(gè)類(

在人臉模型中,一個(gè)類就對(duì)應(yīng)一個(gè)人)

指定了一個(gè)類別中心。同一類的圖像對(duì)應(yīng)的特征都應(yīng)該盡量靠近自己的類別中心,不同類的類別中心盡量遠(yuǎn)離。與Tr

ip

le

t

Lo

s

s

相比,使用中心損失訓(xùn)練人臉模型不需要使用小心控制的采樣方法,而且利用較少的圖像就可以達(dá)到與三元組損失相似的效果。Center

Loss公式定義lambda效果可視化CenterLoss的Tensorflow實(shí)現(xiàn)實(shí)驗(yàn)效果如何搭建一個(gè)人臉識(shí)別系統(tǒng)這里再次給出,制作一個(gè)初步的人臉識(shí)別框架,所需要的必備環(huán)節(jié):

步驟1 人臉檢測(cè)(可以使用m

tc

n

n

給出人臉檢測(cè)框和5

點(diǎn)關(guān)鍵點(diǎn))步驟2 人臉預(yù)處理(可以只做以下簡(jiǎn)單的r

e

s

i

z

e

處理)

步驟3 人臉表示(

I

nc

e

p

t

i

onv

1 + s

o

f

tm

ax l

oss 訓(xùn)練一個(gè)特征抽取網(wǎng)絡(luò))步驟4 人臉識(shí)別(基于歐式距離/

c

os

距離的模板匹配)

以上給出的方案,其實(shí)就是fa

cen

et

的官方庫(kù)/davidsandberg/facenet目前的一個(gè)基本流程。最后,我們討論下,可以再哪些方面,對(duì)這個(gè)基礎(chǔ)版本的系統(tǒng)進(jìn)行優(yōu)化。一個(gè)簡(jiǎn)易的人臉識(shí)別框架數(shù)據(jù)是一個(gè)任務(wù)的重中之重,關(guān)于數(shù)據(jù)的問(wèn)題會(huì)有很多需要解決:

如何收集數(shù)據(jù)?如何減少數(shù)據(jù)集中的噪聲?

多數(shù)公開數(shù)據(jù)集更偏重歐洲人,那么在自己的任務(wù)上嘗試亞洲人臉數(shù)據(jù)集會(huì)不會(huì)效果更好?還是在大數(shù)據(jù)上預(yù)訓(xùn)練后,在自建小數(shù)據(jù)集上微調(diào)效果好?還是揉在一起訓(xùn)效果好?

如何在提高當(dāng)前關(guān)心人物效果的同時(shí),保證泛化能力不損失的太厲害?

潛在的優(yōu)化點(diǎn):數(shù)據(jù)集潛在的優(yōu)化點(diǎn):人臉對(duì)齊通過(guò)閱讀源碼發(fā)現(xiàn),F(xiàn)acenet項(xiàng)目中的facenet-maste

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論