下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于感知對(duì)數(shù)面積比系數(shù)特征的說(shuō)話人確認(rèn)系統(tǒng)的噪音魯棒性研究
現(xiàn)在,該語(yǔ)言系統(tǒng)在理想的干凈語(yǔ)言環(huán)境下取得了令人滿意的效果,但在實(shí)際應(yīng)用中,系統(tǒng)的性能將急劇下降。主要原因是說(shuō)話者周圍的環(huán)境空氣的干擾,如說(shuō)話者的情緒、健康狀況、年齡等自身因素,以及環(huán)境噪聲、設(shè)備收集、傳輸信道等外因素。這些因素不同程度上阻礙了人的識(shí)別系統(tǒng)的實(shí)用性。因此,噪音環(huán)境下說(shuō)話人識(shí)別系統(tǒng)的研究,對(duì)說(shuō)話人識(shí)別系統(tǒng)在實(shí)際環(huán)境中的應(yīng)用具有重要意義。噪音環(huán)境中說(shuō)話人識(shí)別系統(tǒng)的研究集中在3個(gè)方面:前端處理、特征處理及模型補(bǔ)償,其目的都是提高說(shuō)話人識(shí)別系統(tǒng)在噪音環(huán)境中的識(shí)別性能,使系統(tǒng)具有更好的噪音魯棒性。1)前端處理利用語(yǔ)音增強(qiáng)技術(shù)及Pandey的譜減法,來(lái)降低輸入語(yǔ)音中噪聲的干擾;2)特征處理包含對(duì)帶噪特征的處理及尋找具有魯棒性的特征參數(shù);3)對(duì)模型補(bǔ)償方法的研究集中在噪聲模型的引入和對(duì)模型打分的規(guī)整處理。傳統(tǒng)的Mel頻率倒譜系數(shù)(Melfrequencycepstralcoefficient,MFCC)由于對(duì)噪音敏感,在噪音環(huán)境下不能體現(xiàn)出很好的類間區(qū)分性,使得說(shuō)話人確認(rèn)系統(tǒng)在低信噪比時(shí)識(shí)別率急劇下降。本文從特征域入手,將感知對(duì)數(shù)面積比系數(shù)(perceptuallogarearatio,PLAR)應(yīng)用到說(shuō)話人確認(rèn)系統(tǒng)。該特征從聽覺感知原理出發(fā),運(yùn)用聽覺心理學(xué)概念表征說(shuō)話人個(gè)性信息,從語(yǔ)音學(xué)、聲學(xué)及生理學(xué)角度反映說(shuō)話人的個(gè)性特征。本文介紹了PLAR的提取過(guò)程;對(duì)PLAR的噪音魯棒性進(jìn)行了分析,研究了基于PLAR的說(shuō)話人確認(rèn)系統(tǒng)在噪音環(huán)境下的識(shí)別性能,并進(jìn)一步將PLAR和MFCC進(jìn)行特征域及分?jǐn)?shù)域的融合,對(duì)融合后系統(tǒng)的識(shí)別性能進(jìn)行實(shí)驗(yàn)分析。1plar模型的引入PLAR方法主要是通過(guò)感知線性預(yù)測(cè)(perceptuallinearprediction,PLP)模型來(lái)獲得對(duì)數(shù)面積比系數(shù)(logarearatio,LAR)。LAR參數(shù)通過(guò)線性預(yù)測(cè)系數(shù)(linearpredictivecoefficient,LPC)模型來(lái)獲得,它不僅包含了豐富的說(shuō)話人信息,同時(shí)由于對(duì)頻譜的敏感度呈線性分布,因此對(duì)于量化噪音具有更強(qiáng)的穩(wěn)定性。然而,在噪音環(huán)境中,基于LAR參數(shù)的系統(tǒng)性能會(huì)有明顯下降。為了克服LAR特征對(duì)噪音的敏感性,本文采用PLP模型替代LAR提取過(guò)程的中LPC模型,從而得到PLAR特征。該特征考慮了人類的聽覺感知行為,從3個(gè)層面反應(yīng)人類的聽覺感知機(jī)理:1)Bark頻域彎折;2)等響曲線預(yù)加重;3)強(qiáng)度到響度的轉(zhuǎn)換。圖1所示為PLAR的提取過(guò)程。PLAR參數(shù)提取過(guò)程如下:1角頻率的計(jì)算首先,對(duì)語(yǔ)音信號(hào)進(jìn)行快速Fourier變換,得到其功率譜P(ω),再按式(1)將其變換到Bark域,Ω(ω)=6ln{ω/1200π+[(ω/1200π)2+1]0.5}.(1)Ω(ω)=6ln{ω/1200π+[(ω/1200π)2+1]0.5}.(1)式中:ω為角頻率,Ω為Bark域角頻率。再將變換后的頻率譜與模擬臨界帶曲線Ψ(Ω)相卷積,從而獲得采樣值的臨界頻帶的功率譜,Θ(Ωi)=2.5∑Ω=-1.3Ρ(Ω-Ωi)Ψ(Ω).(2)Θ(Ωi)=∑Ω=?1.32.5P(Ω?Ωi)Ψ(Ω).(2)2特殊近似法采樣后的Θ[Ω(ω)]用模擬的等響曲線進(jìn)行預(yù)加重,Ξ[Ω(ω)]=E(ω)Θ[Ω(ω)].(3)Ξ[Ω(ω)]=E(ω)Θ[Ω(ω)].(3)函數(shù)E(ω)是對(duì)不同頻率的人類聽覺敏感度的近似估計(jì),本文采用了Makhoul等提出的特殊近似法,其表達(dá)式為E(ω)=(ω2+56.8×106)ω4(ω2+6.3×106)2×(ω2+0.38×109).(4)3基于相對(duì)低階的全極限模型在語(yǔ)音信號(hào)的全極點(diǎn)建模之前,需要對(duì)Ξ[Ω(ω)]的立方根的幅值進(jìn)行壓縮,從而可以利用相對(duì)低階的全極點(diǎn)模型建模,Φ(Ω)=Ξ(Ω)0.33.(5)4plp系數(shù)的獲取為了獲得PLP系數(shù),采用自回歸建模(全極點(diǎn)建模),即對(duì)Φ(Ω)進(jìn)行離散Fourier逆變換(inversediscreteFouriertransform,IDFT)得到自相關(guān)函數(shù),再用自回歸模型去逼近信號(hào)的頻譜,并使用Levinson-Durbin遞推算法,從而求得PLP系數(shù)。5剖面面積比的確定若將聲道視為由多個(gè)不同剖面面積、長(zhǎng)度相等的聲管級(jí)聯(lián)而成的系統(tǒng),則PLAR系數(shù)為相鄰兩個(gè)聲管剖面的面積比,PLAR系數(shù)與PLP系數(shù)之間的關(guān)系為ΡLARi=lg(AiAi+1)=lg(1+αi1-αi),Ap+1=1.(6)式中:Ai為第i個(gè)聲管的剖面面積;αi為第i階PLP系數(shù),αi=α(i)i,1≤i≤p.(7)其中,α(i)i為第i階PLP模型的第i個(gè)系數(shù)。2實(shí)驗(yàn)2.1訓(xùn)練語(yǔ)音、測(cè)試語(yǔ)音長(zhǎng)度實(shí)驗(yàn)所用數(shù)據(jù)來(lái)自CCB數(shù)據(jù)庫(kù)中電話信道下的語(yǔ)音,語(yǔ)音信號(hào)的采樣頻率為8kHz,采樣精度為16b,單聲道錄音。實(shí)驗(yàn)測(cè)試語(yǔ)音庫(kù)包含110個(gè)說(shuō)話人,其中男、女各55人,訓(xùn)練語(yǔ)音長(zhǎng)度為49s,測(cè)試語(yǔ)音長(zhǎng)度為15s。實(shí)驗(yàn)中的帶噪測(cè)試語(yǔ)音數(shù)據(jù)是在干凈語(yǔ)音數(shù)據(jù)上按不同信噪比疊加噪聲數(shù)據(jù)形成的,噪聲數(shù)據(jù)來(lái)自NOISEX-92噪聲數(shù)據(jù)庫(kù)。實(shí)驗(yàn)系統(tǒng)基于Gauss混合-通用背景模型(Gaussianmixturemodel-universalbackgroundmodel,GMM-UBM)。UBM和說(shuō)話人模型都是由1024個(gè)Gauss混合組成。訓(xùn)練UBM的數(shù)據(jù)來(lái)自CCB數(shù)據(jù)庫(kù)中電話信道下的語(yǔ)音,包含600個(gè)說(shuō)話人(男、女各300人),每人語(yǔ)音長(zhǎng)度為2min。2.2platio的抗噪性能本文利用不同特征在噪音環(huán)境下的類間區(qū)分度的變化,對(duì)PLAR和MFCC的噪音魯棒性進(jìn)行研究。FRatio表示特征的類間離散度與類內(nèi)離散度之比,可以被用來(lái)分析特征矢量,確定鑒別性矢量集,使其在最佳鑒別矢量方向上,模式具有最大的可分性,因此,它可以判斷不同特征矢量的類間區(qū)分度。FRatio=Μ∑i=1(ui-u)21ΝΜ∑i=1Ν∑j=1(xji-ui)2.(8)ui=1ΝΝ∑j=1xji,u=1ΜΜ∑i=1ui.(9)式中:xji為第i(i=1,2,…,M)個(gè)說(shuō)話人的第j(j=1,2,…,N)幀特征值,ui和u分別為第i個(gè)說(shuō)話人及所有說(shuō)話人的平均特征值。實(shí)驗(yàn)中對(duì)PLAR及MFCC在不同噪音環(huán)境下、不同信噪比的平均FRatio進(jìn)行了比較。首先,每一維特征在不同噪音環(huán)境、不同信噪比下的FRatio可由式(8)和(9)求得。再對(duì)20維特征的FRatio進(jìn)行平均即可得到平均FRatio。實(shí)驗(yàn)選取了4種噪音,分別為:Factoryfloor、Tank、Carinterior、White。噪音分別按不同信噪比(SNR=5dB、10dB、15dB、20dB)添加到純凈語(yǔ)音中。結(jié)果如圖2所示。從圖2可以看出,PLAR在4種噪音環(huán)境、不同信噪比下的平均FRatio高于MFCC,PLAR比MFCC具有更強(qiáng)的抗噪性能;PLAR和MFCC在噪音環(huán)境下的類間區(qū)分能力隨著信噪比的增大而增大,且對(duì)于相同噪音,呈現(xiàn)出相似的變化趨勢(shì)。2.3不同信噪比下的比較由于PLAR在噪音環(huán)境下呈現(xiàn)出較好的類間區(qū)分能力,可以結(jié)合PLAR和MFCC各自的優(yōu)勢(shì),從而使得噪音環(huán)境下的說(shuō)話人確認(rèn)系統(tǒng)取得更好的效果。如果直接將兩者進(jìn)行特征的疊加,特征的維數(shù)要增加1倍,這樣便增加了訓(xùn)練和識(shí)別時(shí)的計(jì)算量,不利于系統(tǒng)的實(shí)時(shí)性,同時(shí)會(huì)增加信息的冗余度。因此,本文提出根據(jù)噪音環(huán)境下特征參數(shù)的類間可分離性進(jìn)行PLAR和MFCC的融合。首先,統(tǒng)計(jì)在5種噪音(Factoryfloor,Tank,Carinterior,White,Destroyerpos)、不同信噪比(SNR=5dB、10dB、15dB、20dB)和純凈語(yǔ)音情況下,20維PLAR和20維MFCC每一維特征處于最大FRatio的總次數(shù);根據(jù)每一維對(duì)應(yīng)PLAR和MFCC總次數(shù)的不同進(jìn)行融合,得到新20維融合特征PLAR_MFCC。圖3所示為PLAR和MFCC每一維特征處于最大FRatio的總次數(shù)。為了研究PLAR_MFCC特征的噪音魯棒性,對(duì)融合特征及單一特征的說(shuō)話人確認(rèn)系統(tǒng)進(jìn)行識(shí)別性能的比較。噪聲數(shù)據(jù)采用Factoryfloor。不同信噪比下系統(tǒng)的等錯(cuò)誤率如表1所示。由表1可見:1)該融合方法可以有效提高說(shuō)話人確認(rèn)系統(tǒng)在噪音環(huán)境下的識(shí)別性能,但在純凈語(yǔ)音環(huán)境下系統(tǒng)的識(shí)別性能卻有所下降。這主要是由于這種融合方法根據(jù)噪音環(huán)境下的每一維特征的類間區(qū)分能力進(jìn)行特征融合,很大程度上體現(xiàn)了噪音環(huán)境下特征的特性,而忽略了純凈語(yǔ)音下特征不同維的區(qū)分度,從而使得在噪音環(huán)境下,基于融合特征的系統(tǒng)性能得到了提升,但在純凈語(yǔ)音下的系統(tǒng)性能卻呈現(xiàn)下降的趨勢(shì),該問(wèn)題有待進(jìn)一步分析解決。2)除了在純凈語(yǔ)音及信噪比為20dB的環(huán)境下,基于PLAR特征的確認(rèn)系統(tǒng)的等錯(cuò)誤率低于基于MFCC特征的系統(tǒng)外,在其他信噪比下,MFCC特征的等錯(cuò)誤率低于基于PLAR特征的系統(tǒng)。這與圖2中的結(jié)果不相符合??赡艿脑蚴?FRatio不能充分反映特征對(duì)說(shuō)話人的鑒別性,采用FRatio時(shí),特征需滿足3條假設(shè):1)類內(nèi)的特征矢量滿足Gauss分布;2)特征矢量之間統(tǒng)計(jì)不相關(guān);3)類內(nèi)方差相等。2.4計(jì)算結(jié)果及分析將PLAR系統(tǒng)和MFCC系統(tǒng)按照邏輯自回歸線性融合的方法進(jìn)行分?jǐn)?shù)域的融合,LFusion=αLΡLAR+(1-α)LΜF(xiàn)CC.(10)式中:LPLAR為PLAR系統(tǒng)的得分;LMFCC為MFCC系統(tǒng)的得分;LPLAR和LMFCC的計(jì)算同文。LFusion為融合系統(tǒng)的得分。α為融合系數(shù),它決定了融合系統(tǒng)的性能。為了獲得最佳融合系數(shù),對(duì)不同融合系數(shù)的系統(tǒng)的識(shí)別性能進(jìn)行了測(cè)試,結(jié)果見圖4??梢?當(dāng)α=0.8時(shí),系統(tǒng)的性能達(dá)到最佳。為了驗(yàn)證分?jǐn)?shù)域融合的有效性,分別對(duì)純凈語(yǔ)音及不同信噪比的語(yǔ)音下融合系統(tǒng)的等錯(cuò)誤率進(jìn)行比較,結(jié)果如表2所示??梢?對(duì)PLAR和MFCC系統(tǒng)在分?jǐn)?shù)域的融合是有效的,可以大幅度提高說(shuō)話人識(shí)別系統(tǒng)的性能,且決定最終融合系統(tǒng)的識(shí)別性能的關(guān)鍵是找到最佳融合系數(shù)。3基于特征融合的抗噪性能本文對(duì)基于PLAR的說(shuō)話人確認(rèn)系統(tǒng)的噪音魯棒性進(jìn)行了研究,并與傳統(tǒng)特征參數(shù)MFCC進(jìn)行系統(tǒng)識(shí)別性能的比較。利用FRatio對(duì)PLAR和MFCC的噪音魯棒性進(jìn)行測(cè)評(píng),結(jié)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 上海辦公室裝修合作合同版B版
- 2《長(zhǎng)征勝利萬(wàn)歲》《大戰(zhàn)中的插曲》聯(lián)讀說(shuō)課稿 2024-2025學(xué)年統(tǒng)編版高中語(yǔ)文選擇性必修上冊(cè)
- 2025新春春節(jié)后企業(yè)復(fù)工環(huán)境保護(hù)合同3篇
- 專屬2024跨境貿(mào)易報(bào)關(guān)業(yè)務(wù)協(xié)議版A版
- 專業(yè)隔離房間分包工程2024協(xié)議模板版A版
- 個(gè)人物品運(yùn)輸協(xié)議:2024年合規(guī)樣本版B版
- 2024正規(guī)商鋪買賣合同附件清單及交接事宜協(xié)議2篇
- 廣東省高校畢業(yè)生求職創(chuàng)業(yè)補(bǔ)貼申請(qǐng)表
- 福建省南平市武夷山第二中學(xué)2021年高三英語(yǔ)下學(xué)期期末試題含解析
- 福建省南平市文化武術(shù)學(xué)校2020-2021學(xué)年高一數(shù)學(xué)文聯(lián)考試題含解析
- 創(chuàng)新創(chuàng)業(yè)創(chuàng)造:職場(chǎng)競(jìng)爭(zhēng)力密鑰知到章節(jié)答案智慧樹2023年上海對(duì)外經(jīng)貿(mào)大學(xué)
- 《公安機(jī)關(guān)人民警察內(nèi)務(wù)條令》
- 呼吸機(jī)常見報(bào)警及處理
- 巨力索具(河南)有限公司年生產(chǎn)10萬(wàn)噸鋼絲及5萬(wàn)噸鋼絲繩項(xiàng)目環(huán)境影響報(bào)告
- GB/T 26254-2023家用和類似用途保健按摩墊
- 蘇教版六年級(jí)數(shù)學(xué)下冊(cè)第三單元第3課《練習(xí)五》公開課課件
- 北京外國(guó)語(yǔ)大學(xué)自主招生考試綜合素質(zhì)測(cè)試面試試題答題技巧匯總
- 產(chǎn)品質(zhì)量反饋、回復(fù)單
- 煤礦塌陷治理土地復(fù)墾主要問(wèn)題和政策措施
- GB/T 26182-2022家用和類似用途保健按摩椅
- GB/T 7424.2-2002光纜總規(guī)范第2部分:光纜基本試驗(yàn)方法
評(píng)論
0/150
提交評(píng)論