




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
基于三網(wǎng)絡對抗學習的素描人臉合成方法
杜康寧,李凱旋,曹林+(1.北京信息科技大學光電測試技術(shù)及儀器教育部重點實驗室,北京100101;2.北京信息科技大學信息與通信工程學院,北京100101)0引言目前的素描人臉合成技術(shù)[1-3]主要分為兩類:數(shù)據(jù)驅(qū)動方法[4-6]和模型驅(qū)動方法[7-11]。數(shù)據(jù)驅(qū)動方法通常由圖像分塊、最近鄰選擇、權(quán)重計算和圖像塊拼接4個部分組成,數(shù)據(jù)驅(qū)動方法的主要優(yōu)點是可以很好地合成面部細節(jié)。但是這些方法在相似的圖像塊搜索中通常很耗時,從而限制了這類方法的適用性。模型驅(qū)動方法主要是以離線方式學習面部照片-素描圖像間的映射關系,主要優(yōu)點是測試階段非常快,但合成結(jié)果清晰度較低,缺少一些關鍵細節(jié)特征。顯然,目前大多數(shù)素描人臉合成技術(shù)都能合成完整且令人印象深刻的結(jié)果,但在合成結(jié)果中會丟失一些關鍵信息,導致圖像細節(jié)缺失或模糊,而且當處理的圖像與訓練圖像相差較大時很難取得良好的效果。本文的目標是合成高質(zhì)量素描人臉圖像,并解決訓練數(shù)據(jù)集不足而導致模型適用性差的問題。本文提出了一種素描人臉合成方法,該方法是將面部特征提取網(wǎng)絡、生成網(wǎng)絡及判別網(wǎng)絡相結(jié)合的三網(wǎng)絡對抗學習模型。首先,我們設計了一個通過面部照片來生成素描人臉圖像的生成網(wǎng)絡;然后,采用對抗學習的策略,設計了一個用于提升生成網(wǎng)絡性能的判別網(wǎng)絡,并對對抗損失增加控制因子,控制訓練過程,保證生成網(wǎng)絡與判別網(wǎng)絡得到充分訓練。為進一步提高生成網(wǎng)絡合成素描人臉圖像的質(zhì)量,我們又構(gòu)建一個面部特征提取網(wǎng)絡計算合成素描人臉圖像的細節(jié)誤差。在標準素描人臉數(shù)據(jù)庫中的大量實驗驗證了本文方法的良好性能,其能夠合成高質(zhì)量的素描人臉圖像。本文的主要貢獻概括如下:(1)提出了三網(wǎng)絡對抗學習的素描人臉合成方法,該方法能夠合成多種樣式、不同種族的高質(zhì)量素描人臉圖像。(2)引入一種復合損失函數(shù),將面部細節(jié)損失與對抗損失相結(jié)合,使模型更適合處理素描人臉圖像合成任務。(3)通過對原有的對抗損失函數(shù)增加控制因子,控制對抗損失對全局損失的貢獻程度,使生成網(wǎng)絡能夠得到充分訓練,提高生成網(wǎng)絡的性能。1本文算法1.1生成對抗網(wǎng)絡Goodfellow等提出生成對抗網(wǎng)絡(generativeadversarialnetworks,GAN)模型[12],引出對抗訓練學習的思想。該模型由生成網(wǎng)絡和判別網(wǎng)絡兩個相互競爭的網(wǎng)絡組成,如圖1所示。生成網(wǎng)絡通過一組隨機噪聲來生成樣本,判別網(wǎng)絡用于區(qū)分生產(chǎn)樣本是否為真實樣本。生成網(wǎng)絡G與判別網(wǎng)絡D之間的博弈是一種最小極大博弈過程,其目標函數(shù)如下圖1GAN模型結(jié)構(gòu)(1)式中:x代表真實數(shù)據(jù),z代表輸入的噪聲分布樣本,P(x)代表數(shù)據(jù)分布,P(z)代表模型分布。GAN對圖像特征有出色的感知能力,但在訓練過程中會存在模式崩潰和梯度消失等問題。GAN模型在優(yōu)化過程中,最小化目標函數(shù)等價于最小化真實分布與生成分布之間的JS(Jensen-Shannon)散度。Arjovsky等[13]討論了GAN模型在訓練過程中由JS散度所引起的問題,并提出使用Earth-Mover(又稱為Wasserstein-1)距離W(Pr,Pf)替代標準GAN模型中的JS散度,損失函數(shù)如下所示(2)式中:Pr表示真實數(shù)據(jù)的分布,Pf表示生成數(shù)據(jù)的分布。W(Pr,Pf)近似為真實數(shù)據(jù)分布和生成數(shù)據(jù)分布的Wasserstein距離,m=1-Lipschitz。為了保證判別網(wǎng)絡滿足1-Lipschitz的限制,Gulrajani等[14]在目標函數(shù)中增加一個梯度懲罰項。梯度懲罰項如下所示(3)這種方法可以提高GAN在訓練過程中的穩(wěn)定性,使生成網(wǎng)絡的選擇更加靈活,允許使用更加輕量級的卷積神經(jīng)網(wǎng)絡體系結(jié)構(gòu)。1.2素描人臉合成模型圖2素描人臉合成框架在訓練過程中,生成網(wǎng)絡與判別網(wǎng)絡同時訓練。訓練生成網(wǎng)絡生成盡可能真實的素描人臉圖像去“欺騙”判別網(wǎng)絡,判別網(wǎng)絡盡可能地區(qū)分偽素描圖像和真實素描圖像。生成網(wǎng)絡和判別網(wǎng)絡相互競爭,共同提高自身的能力。1.3網(wǎng)絡結(jié)構(gòu)1.3.1生成網(wǎng)絡結(jié)構(gòu)生成過程需保持圖像信息在網(wǎng)絡層逐漸增多的情況下,不損失位置信息與細節(jié)特征信息。傳統(tǒng)的深層卷積神經(jīng)網(wǎng)絡無法有效擴充圖像高度與寬度,并且池化層取平均池化或最大池化均會造成一定區(qū)域內(nèi)的位置信息損失。因此,本文方法采用帶有步長的卷積層來實現(xiàn)上采樣過程中圖像高度與寬度的有效擴充,且確保下采樣過程中圖像位置信息不丟失。生成網(wǎng)絡由兩個帶步長的卷積模塊、9個殘差單元以及兩個反卷積模塊組成,如圖3所示。殘差單元的結(jié)構(gòu)主要通過前向神經(jīng)網(wǎng)絡和shortcut連接實現(xiàn),由1個卷積層、1個BatchNorm層和1個ReLU激活函數(shù)組成。殘差單元的shortcut跨層連接結(jié)構(gòu),使生成網(wǎng)絡對合成的結(jié)果更加敏感,有利于捕捉人臉圖像的細節(jié)特征信息,生成逼真、清晰度高的素描人臉圖像。圖3生成網(wǎng)絡結(jié)構(gòu)1.3.2判別網(wǎng)絡結(jié)構(gòu)判別網(wǎng)絡采用了與Patch-GAN[15]相同的結(jié)構(gòu),如圖4(X3表示3組同類型的網(wǎng)絡層)所示,此判別網(wǎng)絡結(jié)構(gòu)是在局部圖像塊級別上進行驗證,避免了直接對兩張完整圖像進行驗證所造成的信息損失。相比判別網(wǎng)絡每次對整張圖像進行真?zhèn)闻袛啵疚呐袆e網(wǎng)絡一次只判斷一個N×N的圖像塊是否為真,關注圖像的局部結(jié)構(gòu),而不需要對整張圖像的像素信息進行判斷。判別網(wǎng)絡只需要學習圖像的高頻信息,從而在一定程度上減少了訓練過程中的參數(shù)量,加快運行速度,且生成的圖像細節(jié)更加完整。圖4判別網(wǎng)絡結(jié)構(gòu)1.3.3面部特征提取網(wǎng)絡本文中面部特征提取網(wǎng)絡用于對合成的素描人臉圖像與真實素描人臉圖像進行面部特征提取。面部特征提取網(wǎng)絡的結(jié)構(gòu)設計遵循VGGNet-16的架構(gòu),該架構(gòu)相對簡潔,僅通過反復堆疊3×3的卷積核和2×2的最大池化層來構(gòu)建深層卷積神經(jīng)網(wǎng)絡。此外,該架構(gòu)通過卷積核的串聯(lián)極大地減少了網(wǎng)絡參數(shù)量,并且相比使用單一卷積核構(gòu)建的網(wǎng)絡層擁有更多的非線性變換,更適合圖像面部特征提取。由于現(xiàn)有標準的素描人臉圖像數(shù)據(jù)集相對較小,使用小數(shù)據(jù)集單獨訓練面部特征提取網(wǎng)絡很難產(chǎn)生良好的性能,容易出現(xiàn)過擬合、梯度彌散等問題。因此,本文采用遷移學習的思想,使用在ImageNet數(shù)據(jù)庫中預訓練的模型參數(shù)作為本文方法中面部特征提取網(wǎng)絡的模型參數(shù)。1.4損失函數(shù)假設fr(s)和fg(p)分別表示真實圖像與生成圖像的分布,判別網(wǎng)絡的優(yōu)化目標函數(shù)如下(4)式中:D(s)表示判別網(wǎng)絡對輸入真實素描人臉圖像Si得到的概率值,G(p)表示生成網(wǎng)絡生成的光學面部圖像Pi對應的素描人臉圖像,D(G(p))表示判別網(wǎng)絡對輸入生成圖像G(p)得到的概率值。式(4)判別網(wǎng)絡優(yōu)化目標函數(shù)可轉(zhuǎn)化為求下式最優(yōu)解(5)將式(5)中積分項的函數(shù)fr(s)logD(s)+fg(s)log(1-D(s))對D(s)求導并令其值等于0,則最優(yōu)判別網(wǎng)絡表達式如下(6)對于含有N幅光學面部照片與素描人臉圖像的訓練集M={(Pi,Si),i=1,2,3,…,N},θG可通過優(yōu)化損失函數(shù)L得到,即(7)訓練時,先在固定θD的條件下利用式(7)求解θG,然后在θG固定的條件下,用式(6)優(yōu)化θD,依次類推,直至θD和θG都已收斂。損失函數(shù)L的確定對于生成網(wǎng)絡G的效果非常重要,為了確保最后有一個高質(zhì)量的素描人臉圖像效果,包括量化效果(在量化指標方面)和視覺效果(在人眼感官方面),本文所提出的復合損失函數(shù)定義如下Ltotal=αLD+βLdetail(8)式中:LD為對抗損失、Ldetail為面部細節(jié)損失,α、β分別為對應損失的預定義權(quán)重。1.4.1面部細節(jié)損失傳統(tǒng)L1損失函數(shù)是在簡單的像素空間上進行誤差計算,若直接通過L1損失函數(shù)對真實素描人臉圖像與偽素描人臉圖像進行誤差計算,則很難獲取素描人臉圖像的面部細節(jié)與紋理特征。傳統(tǒng)L1損失函數(shù)如式(9)所示(9)在本文中面部細節(jié)損失函數(shù)是計算圖像特征空間上的差異,從合成的素描人臉圖像中提取特征,并與真實素描人臉圖像中的特征進行對比。但圖像的特征并不是通過尺度不變特征變換(scaleinvariantfeaturetransform,SIFT)、ORB(orientedfastandrotatedbrief)等傳統(tǒng)特征計算方式得到,而是將圖像輸入到本文設置的面部特征提取網(wǎng)絡中得到。面部特征提取網(wǎng)絡提取的圖像特征是高層特征,忽略了圖像像素級別的低層特征,符合人類視覺感知。面部細節(jié)損失函數(shù)定義如下(10)式中:w和h表示特征圖的維度,s為真實素描人臉圖像,G(p)為生成的偽素描人臉圖像,φ(s)與φ(G(p))表示圖像經(jīng)過特征提取網(wǎng)絡輸出的特征矩陣。式(10)中φ(s)-φ(G(p))F可由下式得出(11)令[φ(s)-φ(G(p))]T·[φ(s)-φ(G(p))]為M(12)1.4.2對抗損失對抗損失來自判別網(wǎng)絡,是判別輸入為真實素描人臉圖像還是偽素描人臉圖像的損失函數(shù),其目的是為了保證生成網(wǎng)絡盡可能生成更真實的素描人臉圖像以“欺騙”判別網(wǎng)絡。傳統(tǒng)的對抗損失存在一個問題,當判別網(wǎng)絡訓練越好,生成網(wǎng)絡的梯度消失越嚴重。因此,為了在訓練時生成網(wǎng)絡具有更好的梯度表現(xiàn),按照Arjovsky等[13]的建議,通過Wasserstein距離來度量真實素描人臉圖像與偽素描人臉圖像間的距離,則對抗損失如下式所示(13)為解決模型在訓練中過早地達到平衡狀態(tài),使生成網(wǎng)絡與判別網(wǎng)絡不再優(yōu)化的問題,我們在對抗損失函數(shù)中添加一個控制因子??刂埔蜃涌梢源_保在訓練初期,對抗損失的權(quán)重相對較小,隨著訓練過程的進行,對整個模型的損失貢獻值逐步增加。這樣可以保證判別網(wǎng)絡在訓練階段充分學習偽素描圖像與真實素描圖像之間的差異,提高判別能力,改善生成網(wǎng)絡合成結(jié)果的質(zhì)量。對抗損失具體定義如下(14)式中:ω為衰減系數(shù),其值固定為0.99,n為當前迭代次數(shù),N為總的迭代次數(shù)。2實驗結(jié)果與分析本文采用香港中文大學CUFS素描人臉基準數(shù)據(jù)庫進行實驗,驗證本文方法合成素描人臉圖像的有效性。CUFS素描人臉數(shù)據(jù)庫中包含CUHK學生人臉數(shù)據(jù)庫[5](188對光學面部照片-素描人臉圖像)、AR數(shù)據(jù)庫(123對光學面部照片-素描人臉圖像)及XM2VTS數(shù)據(jù)庫(295對光學面部照片-素描人臉圖像),圖5展示了部分素描人臉數(shù)據(jù)庫中的數(shù)據(jù)(圖5(a)、圖5(b)為CUHK學生人臉數(shù)集圖像,圖5(c)、圖5(d)為AR數(shù)據(jù)集圖像,圖5(e)、圖5(f)為XM2VTS數(shù)據(jù)集圖像),表1展示了不同數(shù)據(jù)庫的數(shù)據(jù)劃分。表1數(shù)據(jù)集劃分圖5各數(shù)據(jù)庫部分數(shù)據(jù)2.1模型參數(shù)設置訓練過程中,輸入圖像尺寸為256×256像素,輸出圖像尺寸為256×256像素,批處理(batch-size)大小設置為1,模型迭代訓練500輪。本文模型選取批標準化(batchnormalization)對數(shù)據(jù)進行處理,采用Adam算法對網(wǎng)絡進行優(yōu)化。網(wǎng)絡的學習率設置為0.0002,Adam第一動量的值設為0.9,第二動量的值設為0.999,模糊因子為1*10-8。總損失函數(shù)中α的值設置為1,β的值設置為100。模型的優(yōu)化目標:使生成的偽素描人臉圖像與真實素描人臉圖像之間的差異盡可能小。模型的優(yōu)化步驟如下:首先,分批次加載光學面部照片與素描人臉圖像數(shù)據(jù),并隨機排序。然后,在每一個epoch的過程中先選取batch-size個訓練數(shù)據(jù)對判別網(wǎng)絡進行5次梯度下降優(yōu)化。最后,停止判別網(wǎng)絡的參數(shù)更新,開始訓練生成網(wǎng)絡。依次交替,直至訓練結(jié)束。2.2消融實驗為驗證本文方法改進之處的有效性,在該節(jié)中進行消融實驗研究,分別消除網(wǎng)絡架構(gòu)中的不同成分進行實驗,實驗對比結(jié)果如圖6所示。其中,圖6(a)為光學面部照片,圖6(b)為真實素描人臉圖像,圖6(c)為刪除面部特征提取網(wǎng)絡合成結(jié)果,圖6(d)為僅使用面部細節(jié)損失函數(shù)合成結(jié)果,圖6(e)為本文方法合成結(jié)果。圖6消融實驗對比結(jié)果圖6顯示了消除本文方法中的不同成分,以及變更一些損失函數(shù)后的實驗結(jié)果。從圖中可以看出當對本文方法中部分結(jié)構(gòu)進行消除或者替換時,合成素描人臉圖像的質(zhì)量大大降低,合成結(jié)果出現(xiàn)模糊、面部扭曲等問題。因此,本文方法所增加的特征提取網(wǎng)絡以及損失函數(shù)在合成素描人臉圖像的過程中起到至關重要的作用,該部分能夠極大改善合成素描人臉圖像的質(zhì)量,并具備良好的性能。2.3主觀視覺感知本文方法在香港中文大學CUFS素描人臉基準數(shù)據(jù)庫中的合成結(jié)果如圖7~圖9所示,并與傳統(tǒng)素描人臉方法中局部線性嵌入(locallylinearembedding,LLE)方法[4]、馬爾可夫隨機場(Markovrandomfield,MRF)方法[5]、馬爾可夫加權(quán)場(Markovweightfield,MWF)方法[6]和深度學習領域中的全卷積神經(jīng)網(wǎng)絡(fullyconvolutionalnetwork,F(xiàn)CN)[8]、生成對抗網(wǎng)絡(generativeadversarialnetworks,GAN)[12]模型進行了對比。圖7在CUHK人臉數(shù)據(jù)集上不同方法的素描人臉合成結(jié)果圖8在AR人臉數(shù)據(jù)集上不同方法的素描人臉合成結(jié)果圖9在XM2VTS人臉數(shù)據(jù)集上不同方法的素描人臉合成結(jié)果從圖7~圖9合成結(jié)果中可以看出,LLE方法合成的素描人臉圖像能夠基本呈現(xiàn)面部五官特征,但圖像整體過于平滑,頭發(fā)等區(qū)域有偽影出現(xiàn)。MRF方法合成的素描人臉圖像丟失一些細節(jié)特征,且面部輪廓不完整。MWF方法的合成結(jié)果擁有完整的面部輪廓,但整體清晰度較低,部分面部區(qū)域出現(xiàn)扭曲。以上傳統(tǒng)方法僅考慮像素級別的圖像相似度,因而無法很好地描述面部特征,導致合成結(jié)果出現(xiàn)模糊、面部缺失等問題。FCN方法雖然能夠合成一些面部關鍵特征(如:眼鏡等),但分辨率較低,圖像出現(xiàn)斑駁現(xiàn)象。GAN模型合成的結(jié)果相較其它方法擁有豐富的素描紋理,面部細節(jié)更完整,但缺乏一些圖像關鍵特征(如:發(fā)卡等),且圖像面部出現(xiàn)變形和噪音。本文方法合成的圖像質(zhì)量最好,不僅保持了原有圖像的面部五官特征,而且對圖像面部配飾(眼鏡等)也有很好的預測,圖像清晰度更高、更符合素描圖像的風格特征。相比CUHK與AR數(shù)據(jù)集的合成結(jié)果,在XM2VTS數(shù)據(jù)集上的合成結(jié)果更能說明本文方法合成素描人臉圖像的優(yōu)越性。其它方法應用在XM2VTS數(shù)據(jù)集中的性能較差,合成素描人臉圖像出現(xiàn)面部缺失、模糊、變形等問題。這是因為CUHK與AR數(shù)據(jù)集中的人群具有基本相同的年齡和種族,風格變化較小,而XM2VTS數(shù)據(jù)集中的人群跨越各個年齡段,擁有不同的種族,存在明顯的外觀變化。本文方法擁有良好的魯棒性,在3個數(shù)據(jù)集中都產(chǎn)生了出色的合成結(jié)果。2.4圖像客觀質(zhì)量評價在本節(jié)中,我們對實驗結(jié)果進行定量分析。由于缺少素描人臉圖
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《課間活動》(教案)2024-2025學年數(shù)學二年級上冊
- 2025年美容院會員協(xié)議模板
- 學習2025年雷鋒精神六十二周年主題活動方案 合計3份
- 2025年青海省安全員A證考試題庫
- 《游山西村》歷年中考古詩欣賞試題匯編(截至2024年)
- 全國河大音像版初中信息技術(shù)七年級下冊第一章第二節(jié)《文字素材的采集》教學設計
- 歷史-云南省師范大學附屬中學2025屆高三下學期開學考試試題和答案
- 2025年??谑袉握新殬I(yè)適應性測試題庫附答案
- 2025年度兒童游樂場主題包裝與品牌推廣合作協(xié)議書
- 2025年度個人公司資金走賬專項管理合同協(xié)議
- 2024年知識競賽-煙花爆竹安全管理知識競賽考試近5年真題附答案
- 民航基礎知識應用題庫100道及答案解析
- 2024年黑龍江省哈爾濱市中考數(shù)學試卷(附答案)
- 2025年全國計算機二級考試模擬考試題庫及答案(共280題)
- JJF(鄂) 143-2024 路面材料強度試驗儀校準規(guī)范
- 臺州事業(yè)單位筆試真題2024
- 父母房產(chǎn)繼承協(xié)議書范本
- 51個行業(yè)領域重大事故隱患判定標準和重點檢查事項匯編
- 2024年高二化學教案 選擇性必修2(配人教版)第1課時原子結(jié)構(gòu)與性質(zhì)
- 2024-2030年中國空氣閥行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 人工智能(人工智能大數(shù)據(jù)技術(shù)相關專業(yè))全套教學課件
評論
0/150
提交評論