




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、目錄摘要 . - 2 - Abstract . - 2 -第一章 緒論 . - 3 -1.1 背景 . - 3 -1.2 語音特性提取的重要性 . - 3 -第二章 倒譜的相關(guān)知識 . - 4 -2.1.倒譜和復倒譜 . - 4 -2.1.1 倒譜和復倒譜的定義 . - 4 -2.1.2 倒譜和復倒譜的關(guān)系 . - 4 -2.2.倒譜的特點 . - 5 -2.3.求倒譜的算法 . - 7 -第三章 MFCC參數(shù)的提取 . - 9 -3.1.MFCC的原理 . - 9 -3.2.MFCC算法流程 .- 11 -3.3.差分特征參數(shù)的提取 .- 11 -3.4.MATLAB中的設(shè)計與實現(xiàn) .- 1
2、1 -第四章 倒譜法提取基音頻率 . - 13 -4.1.基音的相關(guān)知識 . - 13 -4.1.1.基音的周期 . - 13 -4.1.2.基音檢測的難點 . - 13 -4.2.提取基音的方法 . - 14 -4.3.倒譜分析算法的原理 . - 14 -4.4.MATLAB中的設(shè)計與實現(xiàn) . - 15 -第五章 倒譜法提取共振峰 . - 16 -5.1.共振峰的概念 . - 16 -5.2.提取共振峰的方法 . - 16 -5.3.倒譜法的原理 . - 17 -5.4.MATLAB中的設(shè)計與實現(xiàn) . - 17 -第六章 結(jié)束語 . - 20 - 附錄 . - 21 - 1 提取MFCC參數(shù)
3、的相關(guān)程序 . - 21 -1.1 mfcc.m . - 21 -1.2 enframe.m . - 21 -1.3 mel.m . - 23 - 2 提取基因和共振峰的程序 . - 25 - 致謝 . - 26 - 1 -基于倒譜的語音特性提取算法設(shè)計及其實現(xiàn)趙麗君西南大學 電子信息工程學院,重慶 400715摘要:在語音信號處理中,常用的語音特性是基于Mel頻率的倒譜系數(shù)(MFCC)以及一些語音信號的固有特征,如共振峰和基音頻率等。倒譜可以較好地將語音信號中的激勵信號和聲道響應(yīng)分離,并只需要用十幾個倒譜系數(shù)就能較好地描述語言信號的聲道響應(yīng),在語音信號處理中占有很重要的位置。本論文設(shè)計了基于
4、倒譜的語音特性參數(shù)提取算法,并在Matlab中予以實現(xiàn)。 關(guān)鍵詞:倒譜;MFCC;基音;共振峰The Design and Implementation of Cepstrum-based Algorithm in VoiceCharacteristic ExtractionZhao LijunSchool of Electronic & Information Engineering, Southwest University, Chongqing 400715, ChinaAbstract: In voice signal processing, MFCC and some inh
5、erent characteristics of voice signals, such as formants and the frequency of pitch. Cepstrum can be used to separate the excitation signal and channel response, and can represent channel response with only a dozen cepstral coefficients. As a result, it has been a very important role in voice signal
6、 processing. In this paper, the cepstrum-based algorithm to extract above-mentioned voice characteristics and its implementation in MATLAB are described in detail. Key word: Cepstrum; MFCC; pitch ; formant- 2 -第一章 緒論1.1 背景由于語言是人們在日常生活中的主要交流手段,因此語音信號處理在現(xiàn)代信息社會中占用重要地位。隨著語音信號處理技術(shù)在實際生活中的應(yīng)用的不斷發(fā)展,語音信號處理技術(shù)已
7、經(jīng)被廣泛地接受和使用。由于語音比其他形式的交互方具有更多的優(yōu)勢,因此這項技術(shù)已經(jīng)越來越貼近人們的生活。目前,語音信號處理技術(shù)處于蓬勃發(fā)展時期,不斷有新的產(chǎn)品被研制開發(fā),市場需求逐漸增加,具有良好的應(yīng)用前景。1.2 語音特性提取的重要性語音信號處理雖然包括語音通信,語音合成和語音識別等方面的內(nèi)容,但其前提和基礎(chǔ)是對語言信號進行分析。語音的壓縮與恢復是語音信號處理的關(guān)鍵技術(shù)。近年來有關(guān)這方面的研究不斷發(fā)展成熟,并形成一系列的標準。在語音信號的各種分析合成系統(tǒng)中,需要提取頻譜包絡(luò)參數(shù),推測音源參數(shù)(清濁音的判定以及濁音周期等)。只有將語音信號分析表示成其本質(zhì)特性的參數(shù),才有可能利用這些參數(shù)進行高效的
8、語音通信,才能建立用于語音合成的語音庫,也才能建立用于識別的模板或知識庫。根據(jù)所分析的參數(shù)不同,語音信號分析可分為時域,頻域,倒譜域等方法。進行語音信號分析時,最先接觸到的,也是最直觀的是它的時域波形。時域分析具有簡單直觀,清晰易懂,運算量小,物理意義明確等優(yōu)點;但更為有效的分析多是圍繞頻域進行的,因為語音中最重要的感知特性反映在其功率譜中,而相位變化只起著很小的作用1。頻譜分析具有如下優(yōu)點:時域波形較易隨外界環(huán)境變化,但語音信號的頻譜對外界環(huán)境變化具有一定的頑健性。另外,語音信號的頻譜具有非常明顯的聲學特性,利用頻域分析獲得的語音特征具有實際的物理意義。如MFCC,共振峰,基音周期等參數(shù)。倒
9、譜域是將對數(shù)功率譜進行反傅立葉變換后得到的,它可以進一步將聲道特性和激勵特性有效地分開,因此可以更好地揭示語音信號的本質(zhì)特性。本文給出語音特性的提取中基于倒譜的算法設(shè)計及其實現(xiàn)。使讀者對相關(guān)技術(shù)的基本理論,方法和基本應(yīng)用有一個系統(tǒng)的了解。- 3 -第二章 倒譜的相關(guān)知識2.1.倒譜和復倒譜2.1.1 倒譜和復倒譜的定義語音信號不是加性信號,而是卷積信號。為了能用線性系統(tǒng)對其進行處理,可以先采用卷積同態(tài)系統(tǒng)處理。經(jīng)過卷積同態(tài)系統(tǒng)后輸出的偽時序序列稱為原序列的“復倒頻譜”。它的定義式可以表示為:x(n)=IFTlnFTx(n) (2-1)倒譜或稱“倒頻譜”的定義為:c(n)=IFTln|FTx(n
10、)| (2-2) 它和復倒譜的主要區(qū)別是對序列對數(shù)幅度譜的傅立葉逆變換,它是復倒譜中的偶對稱分量。它們都將卷積運算,變?yōu)閭螘r域中的加法運算,使得信號可以運用滿足疊加性的線性系統(tǒng)進行處理。復倒譜涉及復對數(shù)運算,而倒譜只進行實數(shù)的對數(shù)運算,較復倒譜的運算量大大減少【2】。如果c1(n)和c2(n)分別是x1(n)和x2(n)的倒譜,x(n)= x1(n)*x2(n),那么x(n)的倒譜c(n)= c1(n)+c2(n)。2.1.2 倒譜和復倒譜的關(guān)系如果已知一個實序列x(n)的復倒譜x(n),那么可以由x(n)求出它的倒譜c(n)。為此首先將x(n)表示為一個偶對此序列xc(n)和一個奇對稱序列x
11、o(n)之和:x(n)=xc(n)+xo(n) 其中 xc(n)=xc(-n),xo(n)=-xo(-n) 易于證明1 xc(n)= x(n)+x(-n) (2-3) 21xo(n)= x(n)-x(-n) (2-4) 2- 4 -由于一個偶對稱序列的DTFT是一個實函數(shù),而一個奇對稱序列的DTFT是一個虛函數(shù),可得xc(n)=FReX(expjw)=F-1ln|X(expjw| (2-5) c(n)=-1F-1ln|X(expjw)| (2-6) 1c(n)=xc(n)=x(n)+x(-n) (2-7) 2這樣,由x(n)即可求得c(n)。如果設(shè) p(n)=F-1Arg|X(expjw)|
12、(2-8)那么可以同理導出:1p(n)=xo(n)=x(n)-x(-n) (2-9) 2p(n)稱為“相位倒譜”,不難看出,c(n)表現(xiàn)的是x(n)的DTFT X(expjw)的模函數(shù)的特征,p(n)表現(xiàn)的是X(expjw)相位函數(shù)的特征,而x(n)包括兩個方面的特征。只有當x(n)是一個因果最小相位序列時x(n)才是一個因果穩(wěn)定序列。x(n)應(yīng)滿足兩個條件。第一,x(n)=x(n)u(n)。第二,X(Z)=Zx(n)的零極點皆成為X(N)的極點。這樣,只有當X(Z)的零極點皆在單位圓內(nèi)時才能使X(N)的極點全在單位圓內(nèi),這樣才能保證x(n)是一個因果穩(wěn)定序列。只有當x(n)是一個反因果最大相
13、位序列時,x(n)才是一個反因果穩(wěn)定序列。它的條件與前一情況正好完全相反3。這樣,只要x(n)是因果最小相位序列或反因果最大相位序列,便可以由c(n)算出x(n)。 2.2.倒譜的特點假設(shè)所處理的語音信號是一個離散時域中的實序列x(n),由于對語音信號必須進行短時分析,x(n)的非零間隔N1,N2必然是一個有限間隔,為了便于分析與計算,一般設(shè)置N1=0,N2=N-1,這時間隔內(nèi)共有N個樣點。此時x(n)的Z變換X(Z)可以表示為如 - 5 -下形式:X(Z)=x(n)z-n=AZ-NB(1-aiz-1)(1-bjZ) (2-10)n=0i=1j=1N-1NANB其中|i|<1,|bj|&
14、lt;1。Z=i,i=1NA,是X(Z)在單位圓內(nèi)的零點。Z=1/bj,j=1NB,是X(Z)在單位圓外的零點。NA+NB=N-1。A是一個實數(shù),它可以根據(jù)下列公式計算:x(0)=NBA-bj (2-11)j=1如果x(n)是最小相位序列,那么NB=0,NA=N-1,且x(0)=A.借助與式(2-3)可以求得該序列的復倒譜x(n)。首先求X(Z)的對數(shù),得到X(Z)如下。 X(Z)=lnA+lnZ-NB+ln(1-aiZ-1)+ln1-bjZ (2-12)i=1j=1NANB此式右側(cè)第二項lnZ-NB是一個表示延遲量大小的項,它不包含有關(guān)序列x(n)特征的任何有用信息,相反,可以證明,它的存在
15、會對有用信息造成干擾。事實上,如果將間隔N1,N2的起點N1=0改變?yōu)镹1=NB,此項就消失了。如果為了方便,永遠選N1=0,那么當x(n)為非最小相位時,就需要采取措施將其消除,如果這個第二項已被消除,便對式(2-5)右側(cè)第三,四兩項和式中的每個對數(shù)在單位圓(|Z|=1)上用臺勞級數(shù)展開,就可以得到下列表達式:naln(1-aiZ-1)=-iZ-n (2-13) nn=1ln(1-biZ)=-n=1bnjnZn (2-14)這樣式(2-5)可表達為下列形式(右側(cè)第二項已去除):a-n-nX(Z)=lnA+-ZZ+-Zn (2-15) nnn=1i=1n=1j=1- 6 - NAniNBbnj
16、對照X(Z)=n=-x(n)Z+-n立即可以得到:NAan-i , n>0i=1nx(n)=lnA , n=0 (2-16) NBbnj- , n<0j=1-n由式(2-9)可以看到,x(n)隨著|n|的增大而呈減小趨勢,當各|ai|,|bj|越接近于零,其衰減速度越快【3】。1 由于c(n)=x(n)+x(-n),倒譜c(n)隨n的變化規(guī)律與x(n)大致相似,只是c(n)2是圍繞原點對稱的衰減序列,而x(n)是非對稱的。2.3.求倒譜的算法假設(shè)被處理的序列x(n)所占的間隔是0,N-1。這里所用的間隔長度N并不一定確切等于x(n)的實際長度,它可以選得比實際長度大一些。N選的大一
17、些可以達到兩個目的,第一是防止求出的c(n)中有混疊存在,第二是使它所代表的離散時域頻譜有更佳的分辨率。當N大于x(n)的實際長度是,可以在x(n)的后方添若干個零來補足所需的長度,這稱為“補零”。用DFT和IDFT實現(xiàn)的同態(tài)處理特征系統(tǒng)如下所列。特征系統(tǒng)D*: 2x(k)=x(n)exp(-jnk), k=0 (N-1) (2-17) Nn=0N-1C(k)=ln|X(k)|, k=0 (N-1) (2-18)1N-12CP(n)=C(k)exp(jnk), n=0 (N-1) (2-19) Nn=0N由此求出的CP(n)與真實的c(n)的關(guān)系是:+CP(n)=c(n+rN)RN(n) (2
18、-20)r=- 7 -它的防混疊條件是N 2maxna,nb。maxna,nb表示取|na|,|nb|中的最大值。 在語音信號處理中x(n)的實際長度一般為100 200。而N值一般選為256,512或1024,這時既有足夠高的分辨率和避免混疊的能力又具有相應(yīng)的高效FFT算法可資利用。圖2.1 MATLAB中所作的倒譜圖Figure2.1 Cepstrum Figure in MATLABrceps(y)為MATLAB提供的倒頻譜函數(shù),通過對時域信號的傅里葉變換的幅值求自然對數(shù),然后再做傅里葉逆變換。編程時可直接運用。- 8 -第三章 MFCC參數(shù)的提取3.1.MFCC的原理在語音識別和說話人
19、識別中,常用的語音特征是基于Mel頻率的倒譜系數(shù)(mel frequency cepstrum coefficient,MFCC).由于MFCC參數(shù)是將人耳的聽覺感知特征和語音的產(chǎn)生機制相結(jié)合,因此目前大多數(shù)語音識別系統(tǒng)中廣泛使用這種特征。人的耳朵具有一些特殊的功能,這些功能使得人耳能夠從嘈雜的背景噪聲中,以及各種變異情況下聽到語音信號,這是因為人的內(nèi)耳基礎(chǔ)膜對外來信號會產(chǎn)生調(diào)節(jié)作用。對不同的頻率,在相應(yīng)的臨界帶寬內(nèi)的信號會引起基礎(chǔ)膜上不同位置的振動。由此可用帶通濾波器組來模仿人耳聽覺,從而減少噪聲對語音的影響。耳蝸實質(zhì)上相當于一個濾波器組,耳蝸的濾波作用是在對數(shù)頻率尺度上進行的,在1000H
20、z以下為線性尺度,而1000Hz以上為對數(shù)尺度,這就使得人耳對低頻信號比對高頻信號更敏感。根據(jù)這一原則,研究者根據(jù)心理學實驗得到了類似于耳蝸作用的一組濾波器組,就是Mel頻率濾波器組。對頻率軸的不均勻劃分是MFCC特征的特點。將頻率變換到Mel域后,Mel帶通濾波器組的中心頻率是按照Mel頻率刻度均勻排列的【4】。設(shè)語音信號的DFT為Xa(k)=x(n)e-j2nk/N 0k<N (3-1)n=0N-1其中x(n)為輸入的語音信號,N表示傅立葉變換的點數(shù)。我們定義一個M個濾波器組,采用的濾波為三角濾波器,中心頻率為f(m),m=1,2, , .M,則三角濾波器的頻率響應(yīng)按式(3-2)定義
21、,頻率響應(yīng)波形如圖(3.1)所示。0 k<f(m-1)2(k-f(m-1)f(m-1)kf(m)(f(m+1)-f(m-1)(f(m)-f(m-1)'Hm(k)= 2(f(m+1)-k) f(m)kf(m+1)(f(m+1)-f(m-1)(f(m+1)-f(m)0 k>f(m+1)(3-2)- 9 -圖3.1 用于計算Mel倒譜的三角濾波器Figure2.1 The Triangular Filter Used to Calculate The Mel Cepstrum為便于計算,本文將式(3-2)的三角濾波器簡化為0 k<f(m-1)k-f(m-1) f(m-1)k
22、f(m)f(m)-f(m-1)'Hm(k)=f(m+1)-kf(m)kf(m+1) (3-3) f(m+1)-f(m)0 k>f(m+1)'其中Hm(k)=1。mM-1Mel濾波器的中心頻率定義為:f(m)=其中B(fh)-B(fl)N-1B(B(fl)+m) (3-4) FsM+1fh和fl分別為濾波器組的最高頻率和最低頻率, Fs為采樣頻率,單位為Hz 。-1b1125M是濾波器組的數(shù)目,N為FFT變換的點數(shù),式中B(b)=700(e每個濾波器組的輸出的對數(shù)能量為 -1)。S(m)=ln(|Xa(k)|2Hm(k) ,0m<Mk=0N-1 (3-5)經(jīng)余弦變換得
23、到MFCC系數(shù)C(n)=S(m)cos(n(m+0.5)/M) , 0n<M (3-6)m=0M-1- 10 -3.2.MFCC算法流程設(shè)某語音信號為x(n) ,則算法處理流程為1)預加重xn'=xn-kxn-1,其中k為預加重系數(shù),一般取0.95;2)加窗(hamming窗),幀長為N;3)DFT變換;4)設(shè)計一個具有 M個帶通濾波器的濾波器組,采用三角濾波器,中心頻率從0F/2間按Mel頻率分布;5) 按式 (3-5)計算每個濾波器組輸出的對數(shù)能量;6) 按式 (3-6)求得 MFCC系數(shù)。3.3.差分特征參數(shù)的提取在提取了MFCC參數(shù)后,可用式(3-7)的差分特征參數(shù)提取算
24、法提取MFCC,MFCC參數(shù)。ct+1-ct t<c -c tT-tt+1dt=(3-7) (ct+-ct-)=1其它22=1式中dt表示第t個一階差分倒譜系數(shù),T是為倒譜系數(shù)的維數(shù),表示一階導數(shù)的時間差,其值取1或2,1,ct表示第t個倒譜系數(shù)【5】。3.4.MATLAB中的設(shè)計與實現(xiàn)MATLAB中,取Mel濾波器的階數(shù)為24,fft變換的長度為256,采樣頻率為8000Hz 預加重后,對語音信號分幀(每256點分為一幀),計算每幀的MFCC參數(shù)后,求取差分系數(shù)。合并MFCC參數(shù)和一階差分MFCC參數(shù),可得到如下結(jié)果。- 11 -圖3.2 一維數(shù)組及其幅值的關(guān)系Figure3.2 Th
25、e Relationship Between One-dimensional Array and Amplitude圖3.3 維數(shù)與幅值的關(guān)系Figure3.3 The Relationship Between Dimension and AmplitudeMFCC的靜態(tài)及動態(tài)特性。- 12 -由上圖則可全面的了解第四章 倒譜法提取基音頻率4.1.基音的相關(guān)知識4.1.1.基音的周期基音是指發(fā)濁音時聲帶振動所引起的周期性,而基音周期是指聲帶振動頻率的倒數(shù)。基音周期是語音信號最重要的參數(shù)之一,提取該參數(shù)是語音信號處理中一個十分重要的問題。對于漢語這種有調(diào)語音,基音的變化模式稱為聲調(diào),它攜帶著非常
26、重要的具有辨意作用的信息,有區(qū)別意義的功能。根據(jù)加窗的短時語音幀來估計基音周期,在語音編解碼器,語音識別,說話人確認和辨認,對生理缺陷人的輔助系統(tǒng)等許多領(lǐng)域都是重要的一環(huán)。4.1.2.基音檢測的難點自進行語音信號分析研究以來,基音檢測一直是一個重點研究的課題,很多方法已被提出,然而這些方法都有它們的局限性。迄今為止,尚未找到一個完善的可以適用于不同的說話人,不同的要求和環(huán)境的基音檢測方法?;魴z測的主要難點表現(xiàn)在:1)語音信號變化十分復雜,聲門激勵的波形并不是一個完全的周期序列。在語言的頭,尾部并不具有聲帶振動那樣的周期性,對有些清濁音的過渡幀很難判定它應(yīng)屬于周期性或非周期性,從而就無法估計出
27、基因周期。2)要從語音信號中去除聲道的影響,直接取出僅與聲帶振動有關(guān)的聲源信息并非易事。而聲道共振峰有時會嚴重影響激勵信號的諧波結(jié)構(gòu)。3)在濁音段很難精確地確定每個基音周期的開始和結(jié)束位置,這不僅因為語音信號本身是準周期的,也是因為波形的峰受共振峰結(jié)構(gòu),噪聲等影響較大。4)基音周期變化范圍較大,從低音男聲的80Hz直到女孩的500Hz,這也給基音周期的檢測帶來了一定的困難。另外,濁音信號可能包含有三四十次諧波分量,而基波分量往往不是最強的分量。因為語音的第一共振峰通常在3001000Hz范圍內(nèi),這就是說,28次諧波成分往往比基波分量還強。豐富的諧波成分使語音信號的波形變的很復雜,給基音檢測帶來
28、困難,經(jīng)常發(fā)生基頻估計結(jié)果為實際基音頻率的二三次倍頻或二次分頻的情況【6】。- 13 -4.2.提取基音的方法目前基音的提取方法大致可以分為三類:1)波形估計法。直接由語音波形來估計基音周期,分析出波形上的周期峰值。包括并行處理法,數(shù)據(jù)減少法等。2)相關(guān)處理法。這種方法在語音信號處理中廣泛使用,這是因為相關(guān)處理法抗波形的相位失真能力強,另外它在硬件處理上結(jié)構(gòu)簡單。包括波形自相關(guān)法,平均振幅差分函數(shù)法(AMDF),簡化逆濾波法(SIFT)等。3)變換法。將語音信號變換到頻域或倒譜域來估計基音周期,利用同態(tài)分析方法將聲道的影響消除,得到屬于激勵部分的信息,進一步求取基音周期,比如倒譜法。雖然倒譜分
29、析算法比較復雜,但基音估計效果較好【4】。4.3.倒譜分析算法的原理對語音信號利用倒譜解卷原理,可以得出激勵序列的倒譜,它具有與基音周期相同的周期,因此可以容易且精確地求出基音周期。在發(fā)濁音時,聲門激勵是以基因周期為周期的沖激序列:x(n)=r(n-rNP)r=0M式中,M是正整數(shù);r是正整數(shù),且0rM;r是幅度因子;Np是基音周期(用樣點數(shù)表示的)。根據(jù)復倒譜的定義,可以得到x(n)的復倒譜為:x(n)=k(n-kNP)k=0其中,0=ln01Mk1Mrkk=-r=-()kr=1kr=10從上式得出的結(jié)論為:一個周期沖激的有限長度序列,其復倒譜也是一個周期沖激序列,而且長度Np不變,只是序列
30、變?yōu)闊o限長度序列【5】。同時其幅度隨著k值的增大而衰減,衰減速度比原序列要快。倒譜是復倒譜的偶對稱分量,它同樣具有與基音周期相同的周期,因而能容易且精確地求出基音周期。- 14 -4.4.MATLAB中的設(shè)計與實現(xiàn)當語音采樣率fs=10kHz時,倒譜的第一個峰值點即等于基音周期值Np,其變化范圍在25 200之間,因而應(yīng)在此范圍內(nèi)搜索峰值點。為了實現(xiàn)此搜索,語音幀數(shù)至少應(yīng)該等于200點(即等于20ms)。圖4.1 由rceps函數(shù)得到的倒譜圖Figure4.1 Cepstrum Figure from Rceps Function圖(4.1)為MATLAB中,運用rceps函數(shù)繪制的倒譜圖,在
31、圖中可以清楚的發(fā)現(xiàn)0.006s附近的峰值點即為所求點。利用以下程序段可精確求取基因頻率:Cmax Cloc=max(abs(z(25:200);T0=(Cloc+40)*dt;F0=1/T0;fprintf('Fundamental Frequency F0= %5.4fHzn',F0);所得結(jié)果為:- 15 -第五章 倒譜法提取共振峰5.1.共振峰的概念共振峰是反映聲道諧振特性的重要特征,它代表了發(fā)音信息的最直接的來源,而且人在語音感知中利用了共振峰信息。所以共振峰是語音信號處理中非常重要的特征參數(shù),已經(jīng)廣泛地用作語音識別的主要特征和語音編碼傳輸?shù)幕拘畔ⅰ9舱穹逍畔陬l
32、率包絡(luò)之中,因此共振峰參數(shù)提取的關(guān)鍵是估計自然語音頻譜包絡(luò),一般認為譜包絡(luò)中的最大值就是共振峰【7】。與基因檢測類似,共振峰估計也是表面上看起來很容易,而實際上又受很多問題困擾。這些問題包括:1)虛假峰值。在正常情況下,頻譜包絡(luò)中的極大值完全是又共振峰引起的。但在線性預測分析方法出現(xiàn)之前的頻譜包絡(luò)估計器中,出現(xiàn)虛假峰值是相當普遍的現(xiàn)象。甚至在采用線性預測方法時,也并非沒有虛假峰值。為了增加靈活性會給預測器增加23個額外的極點,有時可利用這些極點代表虛假峰值。2)共振峰合并。相鄰共振峰的頻率可能會靠的太近而難以分辨。這時會產(chǎn)生共振峰合并現(xiàn)象,而探討一種理想的能對共振峰合并進行識別的共振峰提取算法
33、存在很多實際困難。3)高音調(diào)語音。傳統(tǒng)的頻譜包絡(luò)估計方法是利用由諧波峰值提供的樣點。高音調(diào)語音(如女聲和童生)的諧波間隔比較寬,因而為頻譜包絡(luò)估值所提供的樣點比較少,所以譜包絡(luò)的估計就不夠精確。即使采用線性預測進行頻譜包絡(luò)估計也會出現(xiàn)這個問題。在這樣的語音中,線性預測包絡(luò)峰值趨向于離開真實位置,而朝著最接近的諧波峰位移動【7】。5.2.提取共振峰的方法提取共振峰的幾種常用方法包括:1)基于線性預測的共振峰求取方法。一種有效的頻譜包絡(luò)估計方法是從線性預測分析角度推導出聲道濾波器,根據(jù)這個聲道濾波器找出共振峰。雖然線性預測法也有一定的缺點,例如其頻率靈敏度與人耳不相匹配,但對于許多應(yīng)用來說,它仍然
34、是一種行之有效的方法。線性預測共振峰通常有兩種途徑可供選擇:一種途徑是利用一種標準的尋找復根的程序計算預測誤差濾波器的根,稱為求根法;另一種途徑 - 16 -是找出由預測器導出的頻譜包絡(luò)中的局部極大值,稱為選峰法。2)倒譜法。聲道響應(yīng)的倒譜衰減很快,在-25,25之外的值相當小,因此可以構(gòu)造一個相應(yīng)的倒譜濾波器,將聲道的倒譜分離,對分離出來的倒譜做相應(yīng)的反變換,就可以得到聲道函數(shù)的對數(shù)譜,對此做進一步處理即可求得所需的各個共振峰【8】。5.3.倒譜法的原理選擇最普遍的極零模式來描述聲道相應(yīng)x(n),其z變換的形式為:=1X(kpik=1(1-az)(1-bz)-1kkk=1po-1mimo(1
35、-cz)(1-dz)kkk=1 (5-1)經(jīng)過傅立葉變換,取對數(shù)和逆傅立葉變換后可以得到其復倒譜:ln|A| (n=0)nnmipickakx(n)=-n>0)(5-2) k=1nk=1nmob-npod-nk-kn>0)k=1nk=1n對于倒譜可以只考慮它的幅度特性,可以看出,它是一個衰減序列,且衰減的速度比1/|n|快。因而它比原信號x(n)更集中于原點附近,或者說它更具有短時性。5.4.MATLAB中的設(shè)計與實現(xiàn)倒譜算法運用對數(shù)運算和二次變換將基音諧波和聲道的頻譜包絡(luò)分離開來。根據(jù)其特點利用短時窗可以從語音信號倒譜c(n)中截取出h(n)。由h(n)經(jīng)DFT得到的H(K)就是
36、聲道的離散譜曲線,由于它去除了激勵引起的諧波動,因此能更精確地得到共振峰參數(shù)。- 17 -圖5.1 信號的對數(shù)頻譜圖Figure5.1 The Log Spectrum Figure of Signal圖5.2 倒譜圖Figure5.2 Cepstrum Figure圖5.3 加窗截取部分倒譜圖Figure5.3 Cepstrum Figure after Window Interception- 18 -圖5.4 頻譜包絡(luò)圖Figure5.4 Envelope Spectrum Figure圖5.5 將對數(shù)頻譜圖和包絡(luò)圖繪制在同一個圖上Figure5.5 Drawing The Log Sp
37、ectrum and Envelope in The Same FigureMATLAB中對信號做fft變換,繪制對數(shù)頻譜圖(5.1),運用MATLAB提供的倒譜函數(shù)rceps計算倒譜并繪制。對倒譜加窗后做fft變換,即得到頻譜包絡(luò)和共振峰信息。- 19 -第六章 結(jié)束語本論文介紹了倒譜以及常用的語音特性參數(shù)MFCC,基音頻率和共振峰的相關(guān)知識和原理,并設(shè)計了基于倒譜的算法,在MATLAB中編程實現(xiàn)了以上參數(shù)的提取。由于作者對相關(guān)知識了解有限以及經(jīng)驗的不足,本文中處理的語音信號均采用簡單的短時信號。各個程序雖然在MATLAB中得到了較好的效果,但在實際應(yīng)用中,會面臨很多具體的問題。需要考慮環(huán)境
38、,說話人,應(yīng)用要求等因素,去除各種影響才能取得好的分析結(jié)果。倒譜法根據(jù)對數(shù)功率譜的逆傅立葉變換,能夠分離頻譜包絡(luò)和細微結(jié)構(gòu),很精確地得到基音頻率和共振峰信息,但它的運算量比較大。當采用無噪語音時,用倒譜進行基音提取的效果是很理想的。然而當存在加性噪聲時,在對數(shù)功率譜的低電平部分會被噪聲填滿,從而掩蓋了基音諧波的周期性。這意味著倒譜的輸入不再是純凈的周期性成分,而倒譜中的基音峰值將會展寬,并受到噪聲的污染從而使倒譜檢測方法的靈敏度也隨之下降。在基音估計中還可以使用經(jīng)過中心削波或三電平削波后的自相關(guān)方法,這種方法在信噪比低的情況下可以獲得良好的性能。與基因檢測類似,共振峰估計也是表面上看起來很容易
39、,而實際上又受很多問題困擾。隨著語言處理技術(shù)的發(fā)展,越來越多的語音特征提取方法被提出和完善,相信將克服各種困難,為人們的生活提供更多便利。參考文獻:1 胡航.語音信號處理.哈爾濱:哈爾濱工業(yè)大學出版社,20002 陳永彬.語音信號處理.上海:上海交通大學出版社,19913 M.M.Sondhi.New Methods of Pitch Extraction.IEEE Trana.AU,1968;16(1):262-2664 R.W.Schafer,L.R.Rabiner.System for Automatic Formant Analysis of VoicedSpeed.J.A.S.A.,
40、1997;47(2);634-6485 王曉亞.倒譜在語音的基音和共振峰提取中的應(yīng)用.無線電工程2004(34-1)6 楊行峻 ,遲惠生.數(shù)字語音信號處理.北京:電子工業(yè)出版社 ,19957 RabinerL ,JuangB H. Fundamental of Speech Recognition.New York:Prentice Hall ,19938 Furui S.Speaker Independent Isolated Word Recognition Using Dynamic Feature of SpeechSpectrum. IEEE Trans on Acoustics,S
41、peech,Signal Processing,1986,34 (1):5259- 20 -附錄1 提取MFCC參數(shù)的相關(guān)程序1.1 mfcc.mclose all clear clcx fs=wavread('speech.wav');bank=mel(24,256,fs,0,0.4,'m');%Mel濾波器的階數(shù)為24,fft變換的長度為256,采樣頻率為8000Hz % 歸一化mel濾波器組系數(shù) bank=full(bank); bank=bank/max(bank(:); % DCT系數(shù),12*24 for k=1:12n=0:23; dctcoef(k
42、,:)=cos(2*n+1)*k*pi/(2*24); end% 歸一化倒譜提升窗口 w = 1 + 6 * sin(pi * 1:12 ./ 12); w = w/max(w); % 預加重濾波器 xx=double(x);xx=filter(1 -0.9375,1,xx); % 語音信號分幀xx=enframe(xx,256,80);%對x 256點分為一幀 % 計算每幀的MFCC參數(shù) for i=1:size(xx,1) y = xx(i,:);s = y' .* hamming(256);t = abs(fft(s);%fft快速傅立葉變換 t = t.2;c1=dctcoef
43、 * log(bank * t(1:129); c2 = c1.*w' m(i,:)=c2' end%求取差分系數(shù) dtm = zeros(size(m); for i=3:size(m,1)-2dtm(i,:) = -2*m(i-2,:) - m(i-1,:) + m(i+1,:) + 2*m(i+2,:); enddtm = dtm / 3;%合并mfcc參數(shù)和一階差分mfcc參數(shù) ccc = m dtm;%去除首尾兩幀,因為這兩幀的一階差分參數(shù)為0 ccc = ccc(3:size(m,1)-2,:); subplot(211) ccc_1=ccc(:,1);plot(ccc_1);title('MFCC'); ylabel('幅值');title('一維數(shù)組及其幅值的關(guān)系') h,w=size(ccc); A=size(ccc); subplot(212) plot(1,w,A); xlabel('維數(shù)'); ylabel('幅值');title('維數(shù)于幅值的關(guān)系')1.2 enframe.mfunction f=enframe(x,win,inc)%ENFRAME split signal up into
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 私人借款合同范本
- 建設(shè)工程合同爭議民事答辯狀
- 定制保姆照顧老人合同范本
- 企業(yè)關(guān)鍵崗位員工保密及競業(yè)禁止合同
- 短視頻制作合同合作協(xié)議范本
- 員工離職賠償合同模板
- 2025年碳化硅超細粉體項目發(fā)展計劃
- 4《機械擺鐘》教學設(shè)計-2023-2024學年科學五年級上冊教科版
- 購燈合同范本
- 承包酒席合同范本
- 2024年全國高考甲卷語文真題試卷含答案
- AQ/T 1089-2020 煤礦加固煤巖體用高分子材料(正式版)
- 幼兒園故事繪本《賣火柴的小女孩兒》課件
- DB32-T 4752-2024 一體化污水處理設(shè)備通.用技術(shù)要求
- 妊娠期高血壓疾病試題
- 醫(yī)院多重耐藥菌感染管理規(guī)范
- 《公平競爭審查條例》微課
- 《肺部疾病 案例分析-原發(fā)性肺癌》課件
- (高清版)WST 402-2024 臨床實驗室定量檢驗項目參考區(qū)間的制定
- 中英對照版-中文版-The-Dead-By-James-Joyces死者-詹姆斯-喬伊斯
- 清水河儲能電站施工方案設(shè)計
評論
0/150
提交評論