




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
基于感知對數(shù)面積比系數(shù)特征的說話人確認(rèn)系統(tǒng)的噪音魯棒性研究
現(xiàn)在,該語言系統(tǒng)在理想的干凈語言環(huán)境下取得了令人滿意的效果,但在實際應(yīng)用中,系統(tǒng)的性能將急劇下降。主要原因是說話者周圍的環(huán)境空氣的干擾,如說話者的情緒、健康狀況、年齡等自身因素,以及環(huán)境噪聲、設(shè)備收集、傳輸信道等外因素。這些因素不同程度上阻礙了人的識別系統(tǒng)的實用性。因此,噪音環(huán)境下說話人識別系統(tǒng)的研究,對說話人識別系統(tǒng)在實際環(huán)境中的應(yīng)用具有重要意義。噪音環(huán)境中說話人識別系統(tǒng)的研究集中在3個方面:前端處理、特征處理及模型補償,其目的都是提高說話人識別系統(tǒng)在噪音環(huán)境中的識別性能,使系統(tǒng)具有更好的噪音魯棒性。1)前端處理利用語音增強技術(shù)及Pandey的譜減法,來降低輸入語音中噪聲的干擾;2)特征處理包含對帶噪特征的處理及尋找具有魯棒性的特征參數(shù);3)對模型補償方法的研究集中在噪聲模型的引入和對模型打分的規(guī)整處理。傳統(tǒng)的Mel頻率倒譜系數(shù)(Melfrequencycepstralcoefficient,MFCC)由于對噪音敏感,在噪音環(huán)境下不能體現(xiàn)出很好的類間區(qū)分性,使得說話人確認(rèn)系統(tǒng)在低信噪比時識別率急劇下降。本文從特征域入手,將感知對數(shù)面積比系數(shù)(perceptuallogarearatio,PLAR)應(yīng)用到說話人確認(rèn)系統(tǒng)。該特征從聽覺感知原理出發(fā),運用聽覺心理學(xué)概念表征說話人個性信息,從語音學(xué)、聲學(xué)及生理學(xué)角度反映說話人的個性特征。本文介紹了PLAR的提取過程;對PLAR的噪音魯棒性進(jìn)行了分析,研究了基于PLAR的說話人確認(rèn)系統(tǒng)在噪音環(huán)境下的識別性能,并進(jìn)一步將PLAR和MFCC進(jìn)行特征域及分?jǐn)?shù)域的融合,對融合后系統(tǒng)的識別性能進(jìn)行實驗分析。1plar模型的引入PLAR方法主要是通過感知線性預(yù)測(perceptuallinearprediction,PLP)模型來獲得對數(shù)面積比系數(shù)(logarearatio,LAR)。LAR參數(shù)通過線性預(yù)測系數(shù)(linearpredictivecoefficient,LPC)模型來獲得,它不僅包含了豐富的說話人信息,同時由于對頻譜的敏感度呈線性分布,因此對于量化噪音具有更強的穩(wěn)定性。然而,在噪音環(huán)境中,基于LAR參數(shù)的系統(tǒng)性能會有明顯下降。為了克服LAR特征對噪音的敏感性,本文采用PLP模型替代LAR提取過程的中LPC模型,從而得到PLAR特征。該特征考慮了人類的聽覺感知行為,從3個層面反應(yīng)人類的聽覺感知機理:1)Bark頻域彎折;2)等響曲線預(yù)加重;3)強度到響度的轉(zhuǎn)換。圖1所示為PLAR的提取過程。PLAR參數(shù)提取過程如下:1角頻率的計算首先,對語音信號進(jìn)行快速Fourier變換,得到其功率譜P(ω),再按式(1)將其變換到Bark域,Ω(ω)=6ln{ω/1200π+[(ω/1200π)2+1]0.5}.(1)Ω(ω)=6ln{ω/1200π+[(ω/1200π)2+1]0.5}.(1)式中:ω為角頻率,Ω為Bark域角頻率。再將變換后的頻率譜與模擬臨界帶曲線Ψ(Ω)相卷積,從而獲得采樣值的臨界頻帶的功率譜,Θ(Ωi)=2.5∑Ω=-1.3Ρ(Ω-Ωi)Ψ(Ω).(2)Θ(Ωi)=∑Ω=?1.32.5P(Ω?Ωi)Ψ(Ω).(2)2特殊近似法采樣后的Θ[Ω(ω)]用模擬的等響曲線進(jìn)行預(yù)加重,Ξ[Ω(ω)]=E(ω)Θ[Ω(ω)].(3)Ξ[Ω(ω)]=E(ω)Θ[Ω(ω)].(3)函數(shù)E(ω)是對不同頻率的人類聽覺敏感度的近似估計,本文采用了Makhoul等提出的特殊近似法,其表達(dá)式為E(ω)=(ω2+56.8×106)ω4(ω2+6.3×106)2×(ω2+0.38×109).(4)3基于相對低階的全極限模型在語音信號的全極點建模之前,需要對Ξ[Ω(ω)]的立方根的幅值進(jìn)行壓縮,從而可以利用相對低階的全極點模型建模,Φ(Ω)=Ξ(Ω)0.33.(5)4plp系數(shù)的獲取為了獲得PLP系數(shù),采用自回歸建模(全極點建模),即對Φ(Ω)進(jìn)行離散Fourier逆變換(inversediscreteFouriertransform,IDFT)得到自相關(guān)函數(shù),再用自回歸模型去逼近信號的頻譜,并使用Levinson-Durbin遞推算法,從而求得PLP系數(shù)。5剖面面積比的確定若將聲道視為由多個不同剖面面積、長度相等的聲管級聯(lián)而成的系統(tǒng),則PLAR系數(shù)為相鄰兩個聲管剖面的面積比,PLAR系數(shù)與PLP系數(shù)之間的關(guān)系為ΡLARi=lg(AiAi+1)=lg(1+αi1-αi),Ap+1=1.(6)式中:Ai為第i個聲管的剖面面積;αi為第i階PLP系數(shù),αi=α(i)i,1≤i≤p.(7)其中,α(i)i為第i階PLP模型的第i個系數(shù)。2實驗2.1訓(xùn)練語音、測試語音長度實驗所用數(shù)據(jù)來自CCB數(shù)據(jù)庫中電話信道下的語音,語音信號的采樣頻率為8kHz,采樣精度為16b,單聲道錄音。實驗測試語音庫包含110個說話人,其中男、女各55人,訓(xùn)練語音長度為49s,測試語音長度為15s。實驗中的帶噪測試語音數(shù)據(jù)是在干凈語音數(shù)據(jù)上按不同信噪比疊加噪聲數(shù)據(jù)形成的,噪聲數(shù)據(jù)來自NOISEX-92噪聲數(shù)據(jù)庫。實驗系統(tǒng)基于Gauss混合-通用背景模型(Gaussianmixturemodel-universalbackgroundmodel,GMM-UBM)。UBM和說話人模型都是由1024個Gauss混合組成。訓(xùn)練UBM的數(shù)據(jù)來自CCB數(shù)據(jù)庫中電話信道下的語音,包含600個說話人(男、女各300人),每人語音長度為2min。2.2platio的抗噪性能本文利用不同特征在噪音環(huán)境下的類間區(qū)分度的變化,對PLAR和MFCC的噪音魯棒性進(jìn)行研究。FRatio表示特征的類間離散度與類內(nèi)離散度之比,可以被用來分析特征矢量,確定鑒別性矢量集,使其在最佳鑒別矢量方向上,模式具有最大的可分性,因此,它可以判斷不同特征矢量的類間區(qū)分度。FRatio=Μ∑i=1(ui-u)21ΝΜ∑i=1Ν∑j=1(xji-ui)2.(8)ui=1ΝΝ∑j=1xji,u=1ΜΜ∑i=1ui.(9)式中:xji為第i(i=1,2,…,M)個說話人的第j(j=1,2,…,N)幀特征值,ui和u分別為第i個說話人及所有說話人的平均特征值。實驗中對PLAR及MFCC在不同噪音環(huán)境下、不同信噪比的平均FRatio進(jìn)行了比較。首先,每一維特征在不同噪音環(huán)境、不同信噪比下的FRatio可由式(8)和(9)求得。再對20維特征的FRatio進(jìn)行平均即可得到平均FRatio。實驗選取了4種噪音,分別為:Factoryfloor、Tank、Carinterior、White。噪音分別按不同信噪比(SNR=5dB、10dB、15dB、20dB)添加到純凈語音中。結(jié)果如圖2所示。從圖2可以看出,PLAR在4種噪音環(huán)境、不同信噪比下的平均FRatio高于MFCC,PLAR比MFCC具有更強的抗噪性能;PLAR和MFCC在噪音環(huán)境下的類間區(qū)分能力隨著信噪比的增大而增大,且對于相同噪音,呈現(xiàn)出相似的變化趨勢。2.3不同信噪比下的比較由于PLAR在噪音環(huán)境下呈現(xiàn)出較好的類間區(qū)分能力,可以結(jié)合PLAR和MFCC各自的優(yōu)勢,從而使得噪音環(huán)境下的說話人確認(rèn)系統(tǒng)取得更好的效果。如果直接將兩者進(jìn)行特征的疊加,特征的維數(shù)要增加1倍,這樣便增加了訓(xùn)練和識別時的計算量,不利于系統(tǒng)的實時性,同時會增加信息的冗余度。因此,本文提出根據(jù)噪音環(huán)境下特征參數(shù)的類間可分離性進(jìn)行PLAR和MFCC的融合。首先,統(tǒng)計在5種噪音(Factoryfloor,Tank,Carinterior,White,Destroyerpos)、不同信噪比(SNR=5dB、10dB、15dB、20dB)和純凈語音情況下,20維PLAR和20維MFCC每一維特征處于最大FRatio的總次數(shù);根據(jù)每一維對應(yīng)PLAR和MFCC總次數(shù)的不同進(jìn)行融合,得到新20維融合特征PLAR_MFCC。圖3所示為PLAR和MFCC每一維特征處于最大FRatio的總次數(shù)。為了研究PLAR_MFCC特征的噪音魯棒性,對融合特征及單一特征的說話人確認(rèn)系統(tǒng)進(jìn)行識別性能的比較。噪聲數(shù)據(jù)采用Factoryfloor。不同信噪比下系統(tǒng)的等錯誤率如表1所示。由表1可見:1)該融合方法可以有效提高說話人確認(rèn)系統(tǒng)在噪音環(huán)境下的識別性能,但在純凈語音環(huán)境下系統(tǒng)的識別性能卻有所下降。這主要是由于這種融合方法根據(jù)噪音環(huán)境下的每一維特征的類間區(qū)分能力進(jìn)行特征融合,很大程度上體現(xiàn)了噪音環(huán)境下特征的特性,而忽略了純凈語音下特征不同維的區(qū)分度,從而使得在噪音環(huán)境下,基于融合特征的系統(tǒng)性能得到了提升,但在純凈語音下的系統(tǒng)性能卻呈現(xiàn)下降的趨勢,該問題有待進(jìn)一步分析解決。2)除了在純凈語音及信噪比為20dB的環(huán)境下,基于PLAR特征的確認(rèn)系統(tǒng)的等錯誤率低于基于MFCC特征的系統(tǒng)外,在其他信噪比下,MFCC特征的等錯誤率低于基于PLAR特征的系統(tǒng)。這與圖2中的結(jié)果不相符合??赡艿脑蚴?FRatio不能充分反映特征對說話人的鑒別性,采用FRatio時,特征需滿足3條假設(shè):1)類內(nèi)的特征矢量滿足Gauss分布;2)特征矢量之間統(tǒng)計不相關(guān);3)類內(nèi)方差相等。2.4計算結(jié)果及分析將PLAR系統(tǒng)和MFCC系統(tǒng)按照邏輯自回歸線性融合的方法進(jìn)行分?jǐn)?shù)域的融合,LFusion=αLΡLAR+(1-α)LΜF(xiàn)CC.(10)式中:LPLAR為PLAR系統(tǒng)的得分;LMFCC為MFCC系統(tǒng)的得分;LPLAR和LMFCC的計算同文。LFusion為融合系統(tǒng)的得分。α為融合系數(shù),它決定了融合系統(tǒng)的性能。為了獲得最佳融合系數(shù),對不同融合系數(shù)的系統(tǒng)的識別性能進(jìn)行了測試,結(jié)果見圖4??梢?當(dāng)α=0.8時,系統(tǒng)的性能達(dá)到最佳。為了驗證分?jǐn)?shù)域融合的有效性,分別對純凈語音及不同信噪比的語音下融合系統(tǒng)的等錯誤率進(jìn)行比較,結(jié)果如表2所示??梢?對PLAR和MFCC系統(tǒng)在分?jǐn)?shù)域的融合是有效的,可以大幅度提高說話人識別系統(tǒng)的性能,且決定最終融合系統(tǒng)的識別性能的關(guān)鍵是找到最佳融合系數(shù)。3基于特征融合的抗噪性能本文對基于PLAR的說話人確認(rèn)系統(tǒng)的噪音魯棒性進(jìn)行了研究,并與傳統(tǒng)特征參數(shù)MFCC進(jìn)行系統(tǒng)識別性能的比較。利用FRatio對PLAR和MFCC的噪音魯棒性進(jìn)行測評,結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 庭院灌溉系統(tǒng)的雨水收集與利用效率提升技術(shù)考核試卷
- 兒童樂器教育課程開發(fā)與推廣考核試卷
- 創(chuàng)業(yè)空間品牌塑造的消費者體驗地圖構(gòu)建考核試卷
- 互聯(lián)網(wǎng)批發(fā)商家的物流配送模式選擇實戰(zhàn)策略考核試卷
- 基礎(chǔ)工程深基坑施工專家評估
- 機器學(xué)習(xí)與商品系統(tǒng)
- 會計電算化及會計信息系統(tǒng)的發(fā)展?fàn)顩r
- 歡樂大世界活動方案
- 生活適應(yīng)與校園安全
- 2025-2030年中國高導(dǎo)磁芯行業(yè)深度研究分析報告
- 宣城市宣州區(qū)“政聘企培”人才引進(jìn)筆試真題2024
- 遠(yuǎn)程胎心監(jiān)護(hù)數(shù)據(jù)解讀
- 技術(shù)異化的解放路徑-洞察及研究
- 2025年全國法醫(yī)專項技術(shù)考試試題及答案
- 2025年寧夏銀川市中考?xì)v史三模試卷(含答案)
- 口腔診所規(guī)章管理制度
- 商業(yè)地產(chǎn)項目成本控制與管理措施
- 2025年切削刀具制造行業(yè)市場分析現(xiàn)狀
- T/CGMA 033002-2020壓縮空氣站節(jié)能設(shè)計指南
- 2025江蘇安全員c證考試試題及答案
評論
0/150
提交評論