一種多頻率加權的語音mfcc參數識別

上傳人：1*** IP屬地：廣東上傳時間：2023-11-07 格式：DOCX 頁數：4 大?。?9.91KB 積分：9.6 舉報 版權申訴

全文預覽已結束

 下載本文檔

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

一種多頻率加權的語音mfcc參數識別

1噪聲環(huán)境下的噪聲魯棒性在低噪聲環(huán)境下的語音中，說話者識別可以達到相當高的識別率，但噪聲的存在將顯著降低說話者識別的性能。提高說話人識別算法的噪聲魯棒性非常重要。目前常用于提高噪聲環(huán)境下語音識別性能的算法可分為3類:模型補償、語音增強和抗噪聲的語音特征。其中,模型補償是根據噪聲本身特征,對純凈語音模型參數進行修正,以補償訓練環(huán)境與工作環(huán)境之間的差異,使修正后的語音模型與帶噪語音的實際分布盡量接近。語音增強是將噪聲環(huán)境下的語音進行恢復,盡可能得到受噪聲污染前的語音。對于這2類方法在使用時有一個共同的不便,即需要具有噪聲先驗知識,而實際運用時常常不能預知噪聲種類。沒有準確的噪聲特征估計,這些方法的優(yōu)越性就沒法較好地得到體現。而抗噪聲的語音特征提取能較好地彌補這個缺陷,因為抗噪聲的特征參數不用預先知道噪聲特征,而是通過尋找一種對噪聲影響不敏感的語音特征參數來提高說話人識別性能,因此能適用于各種噪聲環(huán)境。Mel頻率倒譜系數(MFCC)是目前在說話人識別中應用最廣泛的特征參數之一,它能通過較好地模擬人耳聽覺系統(tǒng)提取語音特征,在純語音情況下它能獲得相當高的識別率。但是該參數對噪聲較敏感,在噪聲環(huán)境下性能會大大降低。本文將根據MFCC參數的特征,即Mel頻率與線性頻率的對數關系,基音同步預處理的特點以及噪聲的頻率屬性,提出高頻加權MFCC方法以提高該參數噪聲魯棒性。為驗證該方法的有效性,使用NTT語音庫進行了說話人確認實驗。2mel頻率與線性頻率的轉換人耳對不同頻率的語音有不同的感知能力,實驗發(fā)現,感知能力與線性頻率在1000Hz以下成線性關系,而1000Hz以上成對數關系,Mel頻率體現了這種感知特性。1Mel為1000Hz的音調感知程度的1/1000。線性頻率f與Mel頻率之間的轉換關系為:Mel(f)=2595log10(1+f700)(1)Μel(f)=2595log10(1+f700)(1)圖1顯示了這兩者之間關系。f為線性頻率,單位為Hz,B為Mel頻率,單位為Mel。從圖1可看出,Mel頻率實際上是在有限的頻率閾空間適當擴大低頻部分分辨率,這正是人耳接收語音信號時的感知特性,但這是以犧牲高頻部分分辨率為代價的。也就是說Mel頻率分辨率會隨著頻率的增加逐漸減小,這削弱了Mel頻率域在高頻部分不同頻率帶的頻譜差異,對其后的特征參數產生不利影響。3基音同步預處理前后語音高頻部分的頻譜距離測試由于MFCC參數是對語音頻率域上的能量進行描述,所以分析語音的頻譜距離非常重要。在文獻中,將短時語音s(n)截為語音起始點基音周期整數倍以內部分sp(n)和余下的sr(n)兩部分,并且只保留sp(n)部分作為分析幀。這樣可以使被用于提取特征的語音更穩(wěn)定,同時保留更多分析幀的語音信息。若兩段語音分別為s(n)、t(n),它們的頻譜距離為:D(S,T)=∫π?π[log|S(ω)|?log|T(ω)|]dω(2)D(S,Τ)=∫-ππ[log|S(ω)|-log|Τ(ω)|]dω(2)只保留語音中具有完整周期性部分sp(n)和tp(n),則頻譜距離為:D(Sp,Tp)=∫π?π[log|Sp(ω)|?log|Tp(ω)|]dω(3)D(Sp,Τp)=∫-ππ[log|Sp(ω)|-log|Τp(ω)|]dω(3)實際上,傳統(tǒng)的固定窗長加窗常使具有周期性的語音信號在非周期長度處被截斷,導致不同程度的諧波泄漏,使用基音同步預處理后的語音會保留更多的高頻信息,并且語音高頻部分頻譜失真能夠比低頻部分更加穩(wěn)定地減小。圖2是10名說話人(5名男性,5名女性)在使用基音同步預處理前后的頻譜距離測試實驗結果。每名說話人隨機選取一段短時語音作為s(n),另隨機選取200段短時語音作為t1(n)、t2(n)、…、t200(n)。首先計算每人未使用基音同步預處理的語音頻譜距離:D1(S,T)=∑j=1200[∫π?π(log|S(ω)|?log|Tj(ω)|)dω](4)D1(S,Τ)=∑j=1200[∫-ππ(log|S(ω)|-log|Τj(ω)|)dω](4)式中:S(ω)、Tj(ω)分別為s(n)、tj(n)的頻譜。之后計算每人使用基音同步預處理后的頻譜距離:D2(S,T)=∑j=1200[∫π?π(log|Sp(ω)|?log|Tpj(ω)|)dω](5)D2(S,Τ)=∑j=1200[∫-ππ(log|Sp(ω)|-log|Τpj(ω)|)dω](5)式中:Sp(ω)、Tpj(ω)分別為sp(n)、tpj(n)的頻譜。同時分別計算語音高頻(4000～8000Hz)與低頻部分(0～4000Hz)在使用基音同步預處理方法前后的頻譜距離,結果如圖2所示。由圖2(a)可見,對于10名說話人語音,基音同步預處理方法會明顯降低頻譜距離,即減小頻譜失真。圖2(b)說明語音高頻部分在使用該預處理方法后頻譜距離能夠穩(wěn)定降低,圖2(c)顯示10名說話人中有5名說話人語音低頻部分頻譜距離在使用該預處理方法后不僅沒有減小,反倒有增加。這一結果說明在使用基音同步預處理方法后語音頻譜距離的降低更大程度上依賴于語音高頻部分起的穩(wěn)定作用。綜上所述,基音同步預處理可為本文提出的高頻加權方法提供2項重要條件:(1)可在一定程度上避免固定窗長加窗導致的諧波泄露,從而保留更多高頻信息。(2)該預處理可使語音高頻部分頻譜失真穩(wěn)定減小。4聲壓級隨頻率的變化一般說來,噪聲在高頻部分的頻譜能量會逐漸減小,圖3顯示5種環(huán)境噪聲(飯店、辦公室、機場、休息室、公共汽車)聲壓級隨頻率的變化。從圖中可以明顯看出這5種噪聲隨著頻率的增加會不同程度地變小。即混噪語音在高頻部分被污染程度相對較小。5基音同步可變窗長加窗語音高頻加權根據以上各項情況,本文提出高頻加權MFCC參數提取方法,利用基音同步預處理方法能保留更多高頻信息這一特點,將更完整的語音高頻部分(4000～8000Hz)頻譜能量適當加強,以提高高頻部分頻率分辨率,更穩(wěn)定地減小頻譜失真,且由于噪聲隨頻率的增加聲壓級會減小這一特征,該方法能間接地使語音增強。圖4顯示了基音同步可變窗長加窗語音高頻加權MFCC參數提取流程圖。首先是對輸入語音進行基音周期檢測,可采用改進的自相關算法,根據檢測結果對原始語音進行可變窗長加窗,得到具有更加完整高頻信息的語音分幀,接下來對該語音幀進行傅里葉變換,獲得語音信號頻譜,通過Mel頻率濾波器將線性頻率能量轉換為Mel頻率能量。此時進行高頻加權,增強高頻部分能量,最后計算其倒譜,即先計算其能量的對數,再進行離散余弦變換(DCT),得到基音同步預處理高頻加權MFCC參數(PSPWMFCC)。高頻加權的具體方法為,對語音線性頻率4000～8000Hz部分能量加以權值Aef(A為經驗值,f為線性頻率,Aef>1),用來充分利用基音同步可變窗長加窗方法保留下的高頻語音,增加高頻頻率帶的頻譜差異。為確定經驗值A,進行了實驗,將A設置為1.1、1.2、…、2.0這10個取值時,分別計算10名說話人的頻譜距離和平均值,未加權時頻譜距離為161.3,進行加權后頻譜距離分布結果如圖5所示。從圖中可看出,當A取1.4時,頻譜距離取極小值。6基音同步可變窗長加窗語音高頻加權測試根據本文提出的基音同步可變窗長加窗語音高頻加權方法進行了多信噪比多高斯混合模型說話人確認實驗。在實驗中采用的是NTT語音庫語音,說話人共20名,其中男性10名,女性10名,用于訓練和測試的分別為每人10句語音。在訓練過程中,將訓練語音根據信噪比0dB、10dB、20dB、30dB、40dB用白噪聲進行加噪,對加噪語音和純語音采用本文提出方法進行MFCC參數提取并分別建立GMM模型。測試時,測試語音根據信噪比0dB、5dB、10dB用辦公室、休息室、機場等真實噪聲加噪,在計算相似度之后,進行規(guī)范化,最后得出識別率結果。圖6顯示了在辦公室、休息室及機場等噪聲環(huán)境下對基音同步可變窗長加窗語音進行高頻加權MFCC參數提取與未加權的MFCC參數提取得出的識別率(%)比較。圖中的每一個子圖表示一種噪聲環(huán)境下的識別率,子圖中數據分為3組,每組的左邊一個數據表示未對基音同步可變窗長加窗語音進行高頻加權處理的MFCC參數提取在說話人確認中的識別率,右邊一個數據為采用本文所提出的高頻加權MFCC參數提取方法后的識別率。由圖6可見,在不同噪聲環(huán)境下,測試語音信噪比為0dB、5dB、10dB時,采用本文所提出的基音同步可變窗長加窗語音高頻加權方法,都能在一定程度上提高說話人確認識別率。該結果表明該方法能增強語音的魯棒性。7高頻加權mfcc參數提取本文提出了一種基音同步可變窗長語音高頻加權MFCC參數提取方法,根據基音周期將原始語音中具有完整周期性語音作為分析幀,這在一定程度上減小了因固定窗長導致的語音諧波泄露,讓作為分析幀的短時語音能保留更多高頻信息,接下來對更加完整的語音高頻部分進行加權處理以提高Mel頻率高頻部分的分辨率,克服由于線性頻率與Mel頻率在高頻部分的對數關系而引起的頻譜差異削弱,并更穩(wěn)定地減小頻譜失真。同時,由于噪聲隨頻率的增加聲壓級會逐漸減小,該方法還可間接增強語音。高頻加權MFCC參數提取方法被運用到基于多信噪比多高斯混合模型的說

人人文庫> 全部分類> 專業(yè)文獻 > 學術論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網僅提供信息存儲空間，僅對用戶上傳內容的表現方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

一種多頻率加權的語音mfcc參數識別

文檔簡介

溫馨提示

最新文檔

評論

一種多頻率加權的語音mfcc參數識別

文檔簡介

溫馨提示

最新文檔

評論

相關文檔