基于感知對(duì)數(shù)面積比系數(shù)特征的說(shuō)話人確認(rèn)系統(tǒng)的噪音魯棒性研究_第1頁(yè)
基于感知對(duì)數(shù)面積比系數(shù)特征的說(shuō)話人確認(rèn)系統(tǒng)的噪音魯棒性研究_第2頁(yè)
基于感知對(duì)數(shù)面積比系數(shù)特征的說(shuō)話人確認(rèn)系統(tǒng)的噪音魯棒性研究_第3頁(yè)
基于感知對(duì)數(shù)面積比系數(shù)特征的說(shuō)話人確認(rèn)系統(tǒng)的噪音魯棒性研究_第4頁(yè)
基于感知對(duì)數(shù)面積比系數(shù)特征的說(shuō)話人確認(rèn)系統(tǒng)的噪音魯棒性研究_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于感知對(duì)數(shù)面積比系數(shù)特征的說(shuō)話人確認(rèn)系統(tǒng)的噪音魯棒性研究

現(xiàn)在,該語(yǔ)言系統(tǒng)在理想的干凈語(yǔ)言環(huán)境下取得了令人滿意的效果,但在實(shí)際應(yīng)用中,系統(tǒng)的性能將急劇下降。主要原因是說(shuō)話者周圍的環(huán)境空氣的干擾,如說(shuō)話者的情緒、健康狀況、年齡等自身因素,以及環(huán)境噪聲、設(shè)備收集、傳輸信道等外因素。這些因素不同程度上阻礙了人的識(shí)別系統(tǒng)的實(shí)用性。因此,噪音環(huán)境下說(shuō)話人識(shí)別系統(tǒng)的研究,對(duì)說(shuō)話人識(shí)別系統(tǒng)在實(shí)際環(huán)境中的應(yīng)用具有重要意義。噪音環(huán)境中說(shuō)話人識(shí)別系統(tǒng)的研究集中在3個(gè)方面:前端處理、特征處理及模型補(bǔ)償,其目的都是提高說(shuō)話人識(shí)別系統(tǒng)在噪音環(huán)境中的識(shí)別性能,使系統(tǒng)具有更好的噪音魯棒性。1)前端處理利用語(yǔ)音增強(qiáng)技術(shù)及Pandey的譜減法,來(lái)降低輸入語(yǔ)音中噪聲的干擾;2)特征處理包含對(duì)帶噪特征的處理及尋找具有魯棒性的特征參數(shù);3)對(duì)模型補(bǔ)償方法的研究集中在噪聲模型的引入和對(duì)模型打分的規(guī)整處理。傳統(tǒng)的Mel頻率倒譜系數(shù)(Melfrequencycepstralcoefficient,MFCC)由于對(duì)噪音敏感,在噪音環(huán)境下不能體現(xiàn)出很好的類間區(qū)分性,使得說(shuō)話人確認(rèn)系統(tǒng)在低信噪比時(shí)識(shí)別率急劇下降。本文從特征域入手,將感知對(duì)數(shù)面積比系數(shù)(perceptuallogarearatio,PLAR)應(yīng)用到說(shuō)話人確認(rèn)系統(tǒng)。該特征從聽覺感知原理出發(fā),運(yùn)用聽覺心理學(xué)概念表征說(shuō)話人個(gè)性信息,從語(yǔ)音學(xué)、聲學(xué)及生理學(xué)角度反映說(shuō)話人的個(gè)性特征。本文介紹了PLAR的提取過(guò)程;對(duì)PLAR的噪音魯棒性進(jìn)行了分析,研究了基于PLAR的說(shuō)話人確認(rèn)系統(tǒng)在噪音環(huán)境下的識(shí)別性能,并進(jìn)一步將PLAR和MFCC進(jìn)行特征域及分?jǐn)?shù)域的融合,對(duì)融合后系統(tǒng)的識(shí)別性能進(jìn)行實(shí)驗(yàn)分析。1plar模型的引入PLAR方法主要是通過(guò)感知線性預(yù)測(cè)(perceptuallinearprediction,PLP)模型來(lái)獲得對(duì)數(shù)面積比系數(shù)(logarearatio,LAR)。LAR參數(shù)通過(guò)線性預(yù)測(cè)系數(shù)(linearpredictivecoefficient,LPC)模型來(lái)獲得,它不僅包含了豐富的說(shuō)話人信息,同時(shí)由于對(duì)頻譜的敏感度呈線性分布,因此對(duì)于量化噪音具有更強(qiáng)的穩(wěn)定性。然而,在噪音環(huán)境中,基于LAR參數(shù)的系統(tǒng)性能會(huì)有明顯下降。為了克服LAR特征對(duì)噪音的敏感性,本文采用PLP模型替代LAR提取過(guò)程的中LPC模型,從而得到PLAR特征。該特征考慮了人類的聽覺感知行為,從3個(gè)層面反應(yīng)人類的聽覺感知機(jī)理:1)Bark頻域彎折;2)等響曲線預(yù)加重;3)強(qiáng)度到響度的轉(zhuǎn)換。圖1所示為PLAR的提取過(guò)程。PLAR參數(shù)提取過(guò)程如下:1角頻率的計(jì)算首先,對(duì)語(yǔ)音信號(hào)進(jìn)行快速Fourier變換,得到其功率譜P(ω),再按式(1)將其變換到Bark域,Ω(ω)=6ln{ω/1200π+[(ω/1200π)2+1]0.5}.(1)Ω(ω)=6ln{ω/1200π+[(ω/1200π)2+1]0.5}.(1)式中:ω為角頻率,Ω為Bark域角頻率。再將變換后的頻率譜與模擬臨界帶曲線Ψ(Ω)相卷積,從而獲得采樣值的臨界頻帶的功率譜,Θ(Ωi)=2.5∑Ω=-1.3Ρ(Ω-Ωi)Ψ(Ω).(2)Θ(Ωi)=∑Ω=?1.32.5P(Ω?Ωi)Ψ(Ω).(2)2特殊近似法采樣后的Θ[Ω(ω)]用模擬的等響曲線進(jìn)行預(yù)加重,Ξ[Ω(ω)]=E(ω)Θ[Ω(ω)].(3)Ξ[Ω(ω)]=E(ω)Θ[Ω(ω)].(3)函數(shù)E(ω)是對(duì)不同頻率的人類聽覺敏感度的近似估計(jì),本文采用了Makhoul等提出的特殊近似法,其表達(dá)式為E(ω)=(ω2+56.8×106)ω4(ω2+6.3×106)2×(ω2+0.38×109).(4)3基于相對(duì)低階的全極限模型在語(yǔ)音信號(hào)的全極點(diǎn)建模之前,需要對(duì)Ξ[Ω(ω)]的立方根的幅值進(jìn)行壓縮,從而可以利用相對(duì)低階的全極點(diǎn)模型建模,Φ(Ω)=Ξ(Ω)0.33.(5)4plp系數(shù)的獲取為了獲得PLP系數(shù),采用自回歸建模(全極點(diǎn)建模),即對(duì)Φ(Ω)進(jìn)行離散Fourier逆變換(inversediscreteFouriertransform,IDFT)得到自相關(guān)函數(shù),再用自回歸模型去逼近信號(hào)的頻譜,并使用Levinson-Durbin遞推算法,從而求得PLP系數(shù)。5剖面面積比的確定若將聲道視為由多個(gè)不同剖面面積、長(zhǎng)度相等的聲管級(jí)聯(lián)而成的系統(tǒng),則PLAR系數(shù)為相鄰兩個(gè)聲管剖面的面積比,PLAR系數(shù)與PLP系數(shù)之間的關(guān)系為ΡLARi=lg(AiAi+1)=lg(1+αi1-αi),Ap+1=1.(6)式中:Ai為第i個(gè)聲管的剖面面積;αi為第i階PLP系數(shù),αi=α(i)i,1≤i≤p.(7)其中,α(i)i為第i階PLP模型的第i個(gè)系數(shù)。2實(shí)驗(yàn)2.1訓(xùn)練語(yǔ)音、測(cè)試語(yǔ)音長(zhǎng)度實(shí)驗(yàn)所用數(shù)據(jù)來(lái)自CCB數(shù)據(jù)庫(kù)中電話信道下的語(yǔ)音,語(yǔ)音信號(hào)的采樣頻率為8kHz,采樣精度為16b,單聲道錄音。實(shí)驗(yàn)測(cè)試語(yǔ)音庫(kù)包含110個(gè)說(shuō)話人,其中男、女各55人,訓(xùn)練語(yǔ)音長(zhǎng)度為49s,測(cè)試語(yǔ)音長(zhǎng)度為15s。實(shí)驗(yàn)中的帶噪測(cè)試語(yǔ)音數(shù)據(jù)是在干凈語(yǔ)音數(shù)據(jù)上按不同信噪比疊加噪聲數(shù)據(jù)形成的,噪聲數(shù)據(jù)來(lái)自NOISEX-92噪聲數(shù)據(jù)庫(kù)。實(shí)驗(yàn)系統(tǒng)基于Gauss混合-通用背景模型(Gaussianmixturemodel-universalbackgroundmodel,GMM-UBM)。UBM和說(shuō)話人模型都是由1024個(gè)Gauss混合組成。訓(xùn)練UBM的數(shù)據(jù)來(lái)自CCB數(shù)據(jù)庫(kù)中電話信道下的語(yǔ)音,包含600個(gè)說(shuō)話人(男、女各300人),每人語(yǔ)音長(zhǎng)度為2min。2.2platio的抗噪性能本文利用不同特征在噪音環(huán)境下的類間區(qū)分度的變化,對(duì)PLAR和MFCC的噪音魯棒性進(jìn)行研究。FRatio表示特征的類間離散度與類內(nèi)離散度之比,可以被用來(lái)分析特征矢量,確定鑒別性矢量集,使其在最佳鑒別矢量方向上,模式具有最大的可分性,因此,它可以判斷不同特征矢量的類間區(qū)分度。FRatio=Μ∑i=1(ui-u)21ΝΜ∑i=1Ν∑j=1(xji-ui)2.(8)ui=1ΝΝ∑j=1xji,u=1ΜΜ∑i=1ui.(9)式中:xji為第i(i=1,2,…,M)個(gè)說(shuō)話人的第j(j=1,2,…,N)幀特征值,ui和u分別為第i個(gè)說(shuō)話人及所有說(shuō)話人的平均特征值。實(shí)驗(yàn)中對(duì)PLAR及MFCC在不同噪音環(huán)境下、不同信噪比的平均FRatio進(jìn)行了比較。首先,每一維特征在不同噪音環(huán)境、不同信噪比下的FRatio可由式(8)和(9)求得。再對(duì)20維特征的FRatio進(jìn)行平均即可得到平均FRatio。實(shí)驗(yàn)選取了4種噪音,分別為:Factoryfloor、Tank、Carinterior、White。噪音分別按不同信噪比(SNR=5dB、10dB、15dB、20dB)添加到純凈語(yǔ)音中。結(jié)果如圖2所示。從圖2可以看出,PLAR在4種噪音環(huán)境、不同信噪比下的平均FRatio高于MFCC,PLAR比MFCC具有更強(qiáng)的抗噪性能;PLAR和MFCC在噪音環(huán)境下的類間區(qū)分能力隨著信噪比的增大而增大,且對(duì)于相同噪音,呈現(xiàn)出相似的變化趨勢(shì)。2.3不同信噪比下的比較由于PLAR在噪音環(huán)境下呈現(xiàn)出較好的類間區(qū)分能力,可以結(jié)合PLAR和MFCC各自的優(yōu)勢(shì),從而使得噪音環(huán)境下的說(shuō)話人確認(rèn)系統(tǒng)取得更好的效果。如果直接將兩者進(jìn)行特征的疊加,特征的維數(shù)要增加1倍,這樣便增加了訓(xùn)練和識(shí)別時(shí)的計(jì)算量,不利于系統(tǒng)的實(shí)時(shí)性,同時(shí)會(huì)增加信息的冗余度。因此,本文提出根據(jù)噪音環(huán)境下特征參數(shù)的類間可分離性進(jìn)行PLAR和MFCC的融合。首先,統(tǒng)計(jì)在5種噪音(Factoryfloor,Tank,Carinterior,White,Destroyerpos)、不同信噪比(SNR=5dB、10dB、15dB、20dB)和純凈語(yǔ)音情況下,20維PLAR和20維MFCC每一維特征處于最大FRatio的總次數(shù);根據(jù)每一維對(duì)應(yīng)PLAR和MFCC總次數(shù)的不同進(jìn)行融合,得到新20維融合特征PLAR_MFCC。圖3所示為PLAR和MFCC每一維特征處于最大FRatio的總次數(shù)。為了研究PLAR_MFCC特征的噪音魯棒性,對(duì)融合特征及單一特征的說(shuō)話人確認(rèn)系統(tǒng)進(jìn)行識(shí)別性能的比較。噪聲數(shù)據(jù)采用Factoryfloor。不同信噪比下系統(tǒng)的等錯(cuò)誤率如表1所示。由表1可見:1)該融合方法可以有效提高說(shuō)話人確認(rèn)系統(tǒng)在噪音環(huán)境下的識(shí)別性能,但在純凈語(yǔ)音環(huán)境下系統(tǒng)的識(shí)別性能卻有所下降。這主要是由于這種融合方法根據(jù)噪音環(huán)境下的每一維特征的類間區(qū)分能力進(jìn)行特征融合,很大程度上體現(xiàn)了噪音環(huán)境下特征的特性,而忽略了純凈語(yǔ)音下特征不同維的區(qū)分度,從而使得在噪音環(huán)境下,基于融合特征的系統(tǒng)性能得到了提升,但在純凈語(yǔ)音下的系統(tǒng)性能卻呈現(xiàn)下降的趨勢(shì),該問(wèn)題有待進(jìn)一步分析解決。2)除了在純凈語(yǔ)音及信噪比為20dB的環(huán)境下,基于PLAR特征的確認(rèn)系統(tǒng)的等錯(cuò)誤率低于基于MFCC特征的系統(tǒng)外,在其他信噪比下,MFCC特征的等錯(cuò)誤率低于基于PLAR特征的系統(tǒng)。這與圖2中的結(jié)果不相符合??赡艿脑蚴?FRatio不能充分反映特征對(duì)說(shuō)話人的鑒別性,采用FRatio時(shí),特征需滿足3條假設(shè):1)類內(nèi)的特征矢量滿足Gauss分布;2)特征矢量之間統(tǒng)計(jì)不相關(guān);3)類內(nèi)方差相等。2.4計(jì)算結(jié)果及分析將PLAR系統(tǒng)和MFCC系統(tǒng)按照邏輯自回歸線性融合的方法進(jìn)行分?jǐn)?shù)域的融合,LFusion=αLΡLAR+(1-α)LΜF(xiàn)CC.(10)式中:LPLAR為PLAR系統(tǒng)的得分;LMFCC為MFCC系統(tǒng)的得分;LPLAR和LMFCC的計(jì)算同文。LFusion為融合系統(tǒng)的得分。α為融合系數(shù),它決定了融合系統(tǒng)的性能。為了獲得最佳融合系數(shù),對(duì)不同融合系數(shù)的系統(tǒng)的識(shí)別性能進(jìn)行了測(cè)試,結(jié)果見圖4??梢?當(dāng)α=0.8時(shí),系統(tǒng)的性能達(dá)到最佳。為了驗(yàn)證分?jǐn)?shù)域融合的有效性,分別對(duì)純凈語(yǔ)音及不同信噪比的語(yǔ)音下融合系統(tǒng)的等錯(cuò)誤率進(jìn)行比較,結(jié)果如表2所示??梢?對(duì)PLAR和MFCC系統(tǒng)在分?jǐn)?shù)域的融合是有效的,可以大幅度提高說(shuō)話人識(shí)別系統(tǒng)的性能,且決定最終融合系統(tǒng)的識(shí)別性能的關(guān)鍵是找到最佳融合系數(shù)。3基于特征融合的抗噪性能本文對(duì)基于PLAR的說(shuō)話人確認(rèn)系統(tǒng)的噪音魯棒性進(jìn)行了研究,并與傳統(tǒng)特征參數(shù)MFCC進(jìn)行系統(tǒng)識(shí)別性能的比較。利用FRatio對(duì)PLAR和MFCC的噪音魯棒性進(jìn)行測(cè)評(píng),結(jié)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論