基于mfcc和lpcc的說話人識(shí)別_第1頁
基于mfcc和lpcc的說話人識(shí)別_第2頁
基于mfcc和lpcc的說話人識(shí)別_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于mfcc和lpcc的說話人識(shí)別

0基于melfreque實(shí)物理的有機(jī)人機(jī)識(shí)說話者識(shí)別是指通過分析和處理說話者的聲音信號(hào)來提取相應(yīng)的特征,并建立相應(yīng)的模型,以確認(rèn)說話者的身份。目前,在說話人識(shí)別中最常用的特征參數(shù)是基于聲道的LPCC(linearpredictioncepstrumcoefficient)和基于聽覺特性的MFCC(melfrequencycepstralcoefficients)參數(shù)。說話人識(shí)別的方法可以分為3類:模版匹配法、概率模型法、人工神經(jīng)網(wǎng)絡(luò)法。在說話人識(shí)別中,最終要做出的分類數(shù)目往往不大,而神經(jīng)網(wǎng)絡(luò)已被證實(shí)了對(duì)類別數(shù)目小但分類困難的模式識(shí)別問題有很好的效果,實(shí)驗(yàn)將提取LPCC參數(shù)和MFCC參數(shù)并通過三層BP神經(jīng)網(wǎng)絡(luò)建立說話人識(shí)別系統(tǒng)來驗(yàn)證兩種參數(shù)的魯棒性和優(yōu)劣性。1回復(fù)時(shí)間模型在提取特征參數(shù)之前,所采集的信號(hào)必須經(jīng)過預(yù)處理,一般包括預(yù)加重、加窗、分幀,為減少計(jì)算量提高計(jì)算精度,在預(yù)處理后進(jìn)行端點(diǎn)檢測即利用短時(shí)平均能量和過零率的雙門限判決法得到有效語音段的起始端點(diǎn)和結(jié)束端點(diǎn)的幀數(shù)。1.1要=計(jì)1算通過線性預(yù)測(LPC)分析得到的聲道模型的系統(tǒng)函數(shù)為設(shè)其沖激響應(yīng)為,此處要=計(jì)1算的就是其倒譜<。根據(jù)倒譜的定義,有將式(1)代入式(2),并將其兩邊關(guān)于z求導(dǎo),即有因而有得到<和之間的遞推關(guān)系,從而由求出<按式(5)可直接從預(yù)測系數(shù){}求得倒譜<,令=<即得到了本文的倒譜特征的統(tǒng)一式。1.2帶通濾波器頻率輸入語音信號(hào)經(jīng)離散傅立葉變換(DFT)后得到線性頻譜X(k),轉(zhuǎn)換公式為式中:——傅立葉變換的點(diǎn)數(shù)。定義若干個(gè)帶通濾波器,0≤≤,為濾波器個(gè)數(shù),采用的濾波器為三角濾波器,其中心頻率為,每個(gè)帶通濾波器的頻率響應(yīng)為頻率響應(yīng)波形如圖1所示。Mel濾波器的中心頻率定義為每個(gè)濾波器組的輸出的對(duì)數(shù)能量為經(jīng)離散余弦變換(DCT)得到MFCC系數(shù)2提取差分特征參數(shù)這里表示第個(gè)一階差分倒譜系數(shù),為倒譜系數(shù)的維數(shù),表示一階倒數(shù)的時(shí)間差,其值取1或2,1≤≤,表示第個(gè)倒譜系數(shù)。3實(shí)驗(yàn)3.1特征變量的聚類分析一般5s的語音經(jīng)端點(diǎn)檢測后得到1000幀,如果取C1~C12共12階的MFCC參數(shù)或者LPCC參數(shù),得到的語音特征為1000×12的矩陣。如果將這么多數(shù)據(jù)直接送入神經(jīng)網(wǎng)絡(luò)訓(xùn)練計(jì)算量會(huì)非常大,因此還需要通過k均值聚類算法對(duì)特征參數(shù)做進(jìn)一步處理:將相同聚類和相同狀態(tài)的向量組合到K個(gè)向量中。MFCC參數(shù)和LPCC參數(shù)均值聚類圖如圖4、圖5所示,從圖中可以看出語音特征數(shù)據(jù)劃分成4(k取4)類,無論是MFCC參數(shù)還是LPCC參數(shù)都可以用均值聚類得到一組4×12的數(shù)據(jù),這樣再送入神經(jīng)網(wǎng)絡(luò)就合適多了。同時(shí)看出MFCC均值聚類圖變化差異大于LPCC均值聚類圖,容易將不同狀態(tài)的參數(shù)分成不同的類,有利于識(shí)別結(jié)果。3.2特征參數(shù)的訓(xùn)練過程?本實(shí)驗(yàn)是采用三層BP神經(jīng)網(wǎng)絡(luò)的說話人識(shí)別系統(tǒng)。采集的語音樣本是蘋果、香蕉、桃子、西瓜、橘子、水蜜桃等9種水果名稱。采集的語音樣本來自3男2女,每個(gè)說話人對(duì)每種水果發(fā)音30次,共采集的語音樣本為5×30×9個(gè),分別以LPCC、MFCC、LPCC+LPCC、MFCC+MFCC、L+L+L、M+M+M結(jié)構(gòu)形式的特征參數(shù)作為神經(jīng)網(wǎng)絡(luò)的輸入,5個(gè)網(wǎng)絡(luò)輸出對(duì)應(yīng)5個(gè)說話人,訓(xùn)練要求的精度為0.0001,學(xué)習(xí)率為0.01,MFCC參數(shù)和LPCC參數(shù)訓(xùn)練過程如圖6、圖7所示。從圖中可知在相同的訓(xùn)練條件下,MFCC參數(shù)訓(xùn)練速度比LPCC參數(shù)訓(xùn)練速度快,能較快達(dá)到所需誤差精度。其實(shí)驗(yàn)統(tǒng)計(jì)結(jié)果如表1所示。測試1表示識(shí)別正確次數(shù)與待識(shí)別總數(shù)之比,實(shí)時(shí)測試2和實(shí)時(shí)測試3分別表示識(shí)別樣本經(jīng)過訓(xùn)練和未經(jīng)過訓(xùn)練的識(shí)別結(jié)果。按文獻(xiàn)中提出DTW算法進(jìn)行識(shí)別,采用特征參數(shù)MFCC+MFCC在實(shí)時(shí)測試2中只得到22.2%的識(shí)別率,文獻(xiàn)將其原因解釋為只考慮一種特征參數(shù)及其差分參數(shù)引起的現(xiàn)象,其原因顯然是文獻(xiàn)中講到該算法運(yùn)算量大,主要針對(duì)孤立詞和小詞匯語音識(shí)別等不足。文章提出的方法就用均值算法減少識(shí)別參數(shù)運(yùn)算量及用神經(jīng)網(wǎng)絡(luò)適應(yīng)和調(diào)節(jié)能力提高識(shí)別率。從表中的結(jié)果可知LPCC參數(shù)的魯棒性比LPCC參數(shù)的魯棒性差,另外增加一階、二階差分參數(shù)能更好地提高識(shí)別性能。4實(shí)驗(yàn)結(jié)果及分析文中詳細(xì)介紹了反映語音倒譜特征的LPCC參數(shù)和MFCC參數(shù)的提取算法,提出了一階、二階差分參數(shù)的提取方法,將這些參數(shù)進(jìn)行組合并通過k均值算法與三層BP神經(jīng)網(wǎng)絡(luò)來進(jìn)行說話人識(shí)別的實(shí)驗(yàn)。通過實(shí)時(shí)實(shí)驗(yàn)表明該方法能對(duì)說話人識(shí)別起到很好的效果,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論