第2章語音信號處理基礎(chǔ)

上傳人：5*** IP屬地：湖北上傳時間：2021-11-11 格式：DOC 頁數(shù)：57 大小：6.36MB 積分：30 舉報 版權(quán)申訴

已閱讀5頁，還剩52頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第第 2 章章語音信號處理基礎(chǔ)語音信號處理基礎(chǔ).22.1數(shù)字信號處理基礎(chǔ).22.1.1離散時間信號與系統(tǒng).22.1.2離散Fourier變換（DFT）.42.1.3Z變換.62.1.4離散余弦變換（DCT）.82.1.5卷積和濾波.92.2語音信號產(chǎn)生模型.112.2.1語音的產(chǎn)生機(jī)理.122.2.2級聯(lián)聲管模型.142.2.3語音生成模型.192.3語音信號的時域處理.212.3.1語音信號的抽樣和量化.212.3.2語音信號的短時分析和預(yù)處理.222.3.3短時能量、短時平均幅度和短時平均過零率.232.3.3.1短時能量和短時平均幅度.242.3.3.2短時過零率.242.3.4語音的端

2、點檢測.252.3.5短時自相關(guān)函數(shù).262.3.6短時基音周期估計.272.3.6.1預(yù)處理.282.3.6.2基于求短時自相關(guān)函數(shù)的估計算法.282.3.6.3后處理.292.4語音信號的頻譜分析.292.4.1短時傅里葉變換和語譜圖.302.4.2同態(tài)信號處理的基本原理.322.4.3復(fù)倒譜和倒譜.332.4.3.1復(fù)倒譜和倒譜的定義.332.4.3.2復(fù)倒譜的性質(zhì).342.5語音信號的線性預(yù)測編碼分析.352.5.1線性預(yù)測的基本原理.362.5.1.1全極點模型.362.5.1.2線性預(yù)測方程的推導(dǎo).372.5.2線性預(yù)測方程組的解法.392.5.2.1自相關(guān)法.392.5.2.2協(xié)

3、方差法.412.5.2.3格型法（Lattice）.422.5.3線譜對參數(shù)（LSP）.442.5.3.1線譜對分析的基本原理.442.5.3.2線譜對參數(shù)的求解.462.6語音信號的矢量量化.462.6.1矢量量化的基本原理.462.6.2失真測度.482.6.2.1基于歐氏距離的失真測度.482.6.2.2基于非歐氏距離的失真測度.492.6.3量化器和碼本的設(shè)計.502.6.4量化系統(tǒng)的復(fù)雜度控制.522.6.4.1無記憶的矢量量化系統(tǒng).522.6.4.2有記憶的矢量量化系統(tǒng).542.7聽覺特性和語音感知.542.7.1聽閾與聽域.542.7.2音調(diào)（Pitch）.552.7.3響度級、

4、響度與遮掩效應(yīng).56第第 2 章章語音信號處理基礎(chǔ)語音信號處理基礎(chǔ)語音信號數(shù)字處理是研究用數(shù)字信號處理的技術(shù)對語音信號進(jìn)行處理的學(xué)科。20 世紀(jì)中葉以來，語音的研究與應(yīng)用取得了一系列重大的進(jìn)步，例如語音識別、語音合成、語音的壓縮編碼、語音的遠(yuǎn)距離傳輸?shù)鹊榷际墙⒃谡Z音信號數(shù)字處理的基礎(chǔ)上的。語音信號數(shù)字處理是一門綜合性的學(xué)科，包括計算機(jī)科學(xué)、語音學(xué)、語言學(xué)、聲學(xué)、生理學(xué)、心理學(xué)、數(shù)學(xué)等諸多領(lǐng)域的內(nèi)容。本章作為全書的基礎(chǔ)章節(jié)，將簡要的介紹以下內(nèi)容：語音的生成機(jī)理及其相應(yīng)的產(chǎn)生模型；用數(shù)字信號處理技術(shù)對語音信號進(jìn)行處理的基本方法；語音信號中常見的時域處理方法和頻譜分析方法；線性預(yù)測分析方法的基本

5、原理和方法；矢量量化技術(shù)的原理和基本算法；聽覺系統(tǒng)特性和語音感知。此外，本章的第二小節(jié)簡要的介紹了部分?jǐn)?shù)字信號處理的基礎(chǔ)供參考，有這方面知識的讀者可以跳過這一小節(jié)。限于篇幅所限，本章介紹的內(nèi)容均較為淺顯，有需要的讀者請自行查閱相應(yīng)的參考書籍。2.1數(shù)字信號處理基礎(chǔ)數(shù)字信號處理基礎(chǔ)隨著計算機(jī)技術(shù)的飛速發(fā)展，數(shù)字信號處理的技術(shù)廣泛應(yīng)用于信號處理領(lǐng)域。本節(jié)將簡要介紹數(shù)字信號處理的一些基礎(chǔ)知識，包括：離散時間信號與系統(tǒng)、離散傅立葉變換、Z 變換、離散余弦變換以及卷積和濾波的概念、計算方法和特性。由于篇幅所限，不詳盡之處請讀者查閱相關(guān)資料。2.1.1離散時間信號與系統(tǒng)按照時間函數(shù)取值的連續(xù)性與離散性可將

6、信號劃分為連續(xù)時間信號與離散時間信號。離散信號在時間上是離散的，只在某些不連續(xù)的規(guī)定瞬間給出函數(shù)值，在其它時間沒有定義。如果離散時間信號的幅值是連續(xù)的，則離散信號又叫抽樣信號；如果幅值也是離散的，這樣的信號又成為數(shù)字信號，如圖 2.1。 0.5 1.9 -1.0 -1.0 1.5 3.0 (a) 1.0 2.0 (b) 圖 2.1 離散信號（a.抽樣信號b.數(shù)字信號）通常，給出函數(shù)值得離散時刻之間的間隔是均勻的，一般以來), 2, 1, 0(),(nnx表示此序列，這里表示各函數(shù)值在序列中出現(xiàn)的序號。也可以說，一個離散信號就是一n組序列值的集合。在離散信號的分析中，常會遇到一些基本運(yùn)算，比如加

7、、乘和時)(nx延。離散信號序列和相加是指兩序列同序號的數(shù)值逐項對應(yīng)相加而構(gòu)成一個)(nx)(ny新序列)(nz(2-1), 2, 1, 0( )()()(nnynxnz類似的有相乘的定義(2-2), 2, 1, 0( )()()(nnynxnz序列時延是指原序列逐項依次延時位而生成一個新的序列m(2-3), 2, 1, 0( )()(nmnxnz如果意味著序列后移，反之，如果意味著序列前移。序列的能量定義為0m0m(2-4)nnxE2| )(|一個離散時間系統(tǒng)的示意圖如圖 2.2，其激勵信號是離散信號序列，響應(yīng)序列為)(nx，系統(tǒng)完成了兩者之間的轉(zhuǎn)換運(yùn)算。)(ny離散時間系統(tǒng))(nx)(ny

8、圖 2.2離散時間系統(tǒng)按離散時間系統(tǒng)的性能可以劃分成許多種類型，包括線性/非線性、時變/時不變等。最常見的系統(tǒng)是線性時不變系統(tǒng)，其最大特點就是均勻性和疊加性，即：若和)(1ny分別是激勵和的輸出，那么激勵（為常數(shù)）的響)(2ny)(1nx)(2nx)()(21nxnx,應(yīng)為，如圖 2.3。而時不變系統(tǒng)指的是系統(tǒng)響應(yīng)與激勵作用于系統(tǒng)的時間)()(21nyny無關(guān)，即激勵將產(chǎn)生響應(yīng)，如圖 2.4。)(tnx)(tny系統(tǒng)系統(tǒng))(1nx)(2nx)(1ny)(2ny系統(tǒng))()(21nxnx)()(21nyny圖 2.3線性系統(tǒng)的均勻性和疊加性)(nx)2(nx)(ny)2(ny圖 2.4系統(tǒng)的時不變

9、性在連續(xù)時間系統(tǒng)里，信號是時間變量的連續(xù)函數(shù)，系統(tǒng)可以用微積分方程來描述；在離散時間系統(tǒng)里，信號的變量是離散的整型值，因此系統(tǒng)的行為和性能需要用差分方程來表示。在差分方程中，構(gòu)成方程的各項包含離散變量的函數(shù)，以及此函數(shù)產(chǎn)生位移后)(nx得到的、等等。求解差分方程的方法有很多，包括迭代法、時域經(jīng)典法、) 1( nx) 1( nx卷積方法和變換域法等等，限于篇幅，請讀者自行查閱相應(yīng)的參考書籍。2.1.2 離散 Fourier 變換（DFT）法國數(shù)學(xué)家和物理學(xué)家 J.B.J.Fourier（17691830）于 1807 提出，任何一個連續(xù)周期信號可以分解為一族正弦曲線和余弦曲線。后來這個定理被擴(kuò)充

10、，也適用于離散信號和非周期信號，統(tǒng)稱為傅里葉分析。如圖 2.5，信號被分解為 9 個正弦信號和 9 個余弦信號共 18個信號的和。圖 2.5信號的傅里葉分解根據(jù)被分解信號類型的不同，相應(yīng)的傅里葉分析也有著不同的定義，如圖 2.6。圖 2.6四種傅里葉分析（1）傅里葉變換（Fourier Transform）：連續(xù)非周期信號（2）傅里葉級數(shù)（Fourier Series）：連續(xù)周期信號（3）離散時間傅里葉變換（Discrete Time Fourier Transform）：離散非周期信號（4）離散傅里葉變換（Discrete Fourier Transform）：離散周期信號限于篇幅所限，這

11、里我們著重于介紹離散傅里葉變換（DFT），因為它在數(shù)字信號處理領(lǐng)域應(yīng)用最為廣泛，圖 2.5 中的傅里葉分解就是 DFT。由于 DFT 的作用對象是離散周期信號，對于一個有限長序列，) 10( )(Nnnx我們必須進(jìn)行延拓來將其擴(kuò)展成周期信號，如圖 2.7。)(nx)(nxpnn圖 2.7有限長序列延拓成周期序列)(nx)(nxp離散傅里葉變換及其反變換的定義為DFTIDFT(2-5) 10( )(1)()() 10( )()()(102102NnekXNkXIDFTnxNkenxnxDFTkXNkNnkjNnNnkj在語音信號數(shù)字處理領(lǐng)域中，離散傅里葉變換扮演了重要的角色，完成了信號序列從時

12、域到頻域的轉(zhuǎn)化，為語音的頻域分析奠定了基礎(chǔ)。為了提高 DFT 的計算速度，J.W.Cooley 和 J.W.Tukey 于 1965 年提出了著名的快速傅里葉算法（FFT Fast Fourier Transform），極大的提高了傅里葉變換的速度，使傅里葉算法得以真正的應(yīng)用于實用場合，如今，大量的硬件已經(jīng)集成了進(jìn)行 FFT 計算的功能，而且對該算法的改進(jìn)也在不斷進(jìn)行，如 Winograd 算法和 Mason 算法。2.1.3Z 變換在離散信號與系統(tǒng)的理論研究之中，Z 變換是一種重要的數(shù)學(xué)工具，它把離散系統(tǒng)的數(shù)學(xué)模型差分方程，轉(zhuǎn)化為簡單的代數(shù)方程大大簡化了求解過程。尤其是隨著計算機(jī)技術(shù)的普及

13、和使用，變換得到了越來越廣泛的應(yīng)用。（注：本節(jié)提及的變換為雙邊ZZ變換，單邊變換的定義請讀者自行查閱相應(yīng)書籍）ZZ信號序列的變換定義為)(nxZ(2-6)nnznxzX)()(其中是復(fù)變量，如果我們選擇這些特定點的樣值，即可得到的離散傅zkNjez)/2()(nx里葉變換。因此可以說 DFT 是一種特殊的變換。具體講，在平面的單位圓上，取幅角Zz為的等間距第個點，計算其變換，就得到的第個樣值Nk /2kZ)(nxDFTk。因此，有限長序列的 DFT 可以解釋為它的變換在單位圓上的均勻抽樣。)(kXZ我們還必須注意到，要使變換有意義，所定義的級數(shù)必須收斂。保證收斂的一個充Z分條件是(2-7)n

14、nznx|)(|對應(yīng)于復(fù)平面內(nèi)的收斂域（Region of Convergence）為時該條件成立，如圖21|RzR2.8。1R2R圖 2.8變換的收斂域Z相應(yīng)的，變換的逆變換被記為Z(2-8)()(1zXZnx求逆變換的方法通常有三種：圍線積分法（留數(shù)法）、冪級數(shù)展開法（長除法）和部分Z分式展開法，讀者可以查閱相應(yīng)的參考書。同時，變換具有許多很好的性質(zhì)，下面做一簡要地介紹。Z（1）線性變換的線性特性表現(xiàn)在它的疊加性與均勻性，若Z)|( )()()|( )()(2121yyxxRzRzYnyZRzRzXnxZ則(2-9)|( )()()()(21RzRzbYzaXnbynaxZ相加后的序列的

15、收斂域一般為兩個收斂域的重疊部分，即且(2-10),max(111yxRRR ),min(222yxRRR 當(dāng)然，如果這些線性組合中某些零極點相抵消，收斂域就可能擴(kuò)大。（2）位移性若序列的變換為，則序列右移后，其變換為)(nxZ)()(zXnxZZ(2-11)()(zXzmnxZm（3）序列線性加權(quán)（域微分）z若序列的變換為，則)(nxZ)()(zXnxZ(2-12)dzzdXznnxZ)()(（4）序列指數(shù)加權(quán)（域尺度變換）z若序列的變換為，則)(nxZ)|( )()(21RzRzXnxZ(2-13)|( )()(21RzRzXnxZn為常數(shù)。（5）時域卷積定理若)|( )()()|( )(

16、)(2121yyxxRzRzYnyZRzRzXnxZ則(2-14)|( )()()()(21RzRzYzXnynxZ收斂域的定義如（2-10）。（6）域卷積定理z若)|( )()()|( )()(2121yyxxRzRzYnyZRzRzXnxZ則(2-15) )()(21)()(1C1dvvvYvzXjnynxZ或(2-16) )()(21)()(2C1dvvvzYvXjnynxZ分別為與或與收斂域重疊部分內(nèi)逆時針旋轉(zhuǎn)的圍21,CC)/(vzX)(vY)/(vzY)(vX線。而的收斂域一般為)()(nynxZ2211|yxyxRRzRR2.1.4離散余弦變換（DCT）離散余弦變換（Discr

17、ete Cosine Transform）也是一種在語音信號處理中廣泛應(yīng)用的變換方法，它有好幾種不同的定義方法來進(jìn)行周期延拓，如圖 2.9 所示。圖 2.9(a)DCT-I (b)DCT-II (c)DCT-III (d)DCT-IV 的周期延拓方法常用的一種是 DCT-II，實信號序列的 DCT-II 變換定義為)(nx)(kC(2-17)1010 )2/1(cos()()(NnNkNnknxkC其反變換為(2-18)10 )2/1(cos()(2)0()(11NnNNnkkCCnxNkDCT-II 可以從離散傅里葉（DFT）推導(dǎo)得到。假設(shè)是一個周期為的偶對稱時序列，)(nxN2滿足?？梢宰C

18、明，信號序列的離散傅里葉變換和 DCT-II)12()(nNxnx)(nx)(kX變換的關(guān)系為)(kC(2-19)10 )(2)2( )(2)(2/2/NkkCekNXkCekXNkjNkjDCT-II 的優(yōu)點在于其能量的集中，相比于 DFT，其系數(shù)主要集中在低維，這就使我們能用更少的系數(shù)來逼近原來的信號，這也是 DCT-II 被廣泛應(yīng)用的原因。2.1.5卷積和濾波由于離散信號本身就是一個不連續(xù)的序列，因此離散信號很容易分解為脈沖序列。對應(yīng)每個樣值激勵，系統(tǒng)得到對此樣值的響應(yīng)，把這些響應(yīng)疊加，便能得到此時系統(tǒng)的響應(yīng)。因此，如果能知道系統(tǒng)的單位沖激響應(yīng)，就能很好的刻畫該系統(tǒng)的響應(yīng)特性，并利用該單

19、位沖激響應(yīng)通過卷積運(yùn)算來求得系統(tǒng)對任意離散信號序列的響應(yīng)，如圖 2.10 所示。圖中，首先得到線性系統(tǒng)對單位沖激函數(shù)的響應(yīng)，刻畫了該系統(tǒng)的響應(yīng)特性，然)(n)(nh)(nh后，對任意輸入信號序列，就可以通過與的卷積求得輸出序列。)(nx)(nx)(nh)(ny圖 2.10離散信號系統(tǒng)的沖激響應(yīng)圖 2.11 給出了卷積過程的一種解釋。如圖，信號與進(jìn)行卷積得得到輸出序)(nx)(nh列。運(yùn)算可以看作是這樣進(jìn)行的：可以分解為 9 個沖激函數(shù)的線性組合，在已)(ny)(nx知系統(tǒng)的單位沖激響應(yīng)的基礎(chǔ)上，由線性系統(tǒng)的均勻性和時不變性，可以求得每個脈沖信號通過該系統(tǒng)的響應(yīng)，如圖 2.11 中的九個小圖，最

20、后，由線性系統(tǒng)的可加性，這些響應(yīng)疊加就得到系統(tǒng)對輸入的響應(yīng)。)(nx)(ny圖 2.11通過卷積求系統(tǒng)響應(yīng)從上述過程我們可以推導(dǎo)出卷積的表達(dá)式。首先，我們對輸入信號進(jìn)行分解。由于(2-20) )( 0)( )()()( )( 0)( 1)( nmnmnxmnmxnmnmmn故輸入信號可以表示為(2-21)mmnmxnx)()()(由系統(tǒng)的時不變特性和均勻可加性，的系統(tǒng)響應(yīng)為，因此系)()(mnmx)()(mnhmx統(tǒng)對的響應(yīng)為)(nx(2-22)mmnhmxny)()()(如果僅在這個點的區(qū)間取值，那么上式進(jìn)一步改寫為)(nx 1, 0NN(2-23)10)()()(Nmmnhmxny因此，兩

21、個序列和的卷積運(yùn)算就定義為)(nx)(nh(2-24)10)()()()( )()()()(Nmmmnhmxnhnxmnhmxnhnx或卷積運(yùn)算是數(shù)字信號處理的最基本運(yùn)算之一，應(yīng)該熟練掌握。卷積運(yùn)算有著許多良好的性質(zhì)，簡要的列舉在下面，證明留給讀者完成。（1）交換率(2-25)()()()(nanbnbna（2）結(jié)合律(2-26)()()()()()(ncnbnancnbna（3）分配律(2-27)()()()()()()(ncnbncnancnbna（4）轉(zhuǎn)移特性：如圖 2.12，如果，經(jīng)過某一線性變化得到新的)()()(nhnxny)(nx信號序列，那么的結(jié)果就應(yīng)該是經(jīng)過同一線性變化得到的

22、)(nx)()(nhnx)(ny信號序列。)(ny圖 2.12卷積的轉(zhuǎn)移特性卷積的一個重要用途就是濾波，所謂濾波，就是通過一定的運(yùn)算去掉信號中某些不需要的部分，比如高頻部分或者是低頻部分。濾波的過程就是原始信號和濾波器的單位沖激響應(yīng)的卷積過程，如圖 2.13，高通濾波器和低通濾波器有著各自自身的單位沖激響應(yīng)，輸入信號通過與單位沖激響應(yīng)的卷積運(yùn)算，達(dá)到了去掉信號中高頻部分或者低頻部分的目的。圖 2.13低通濾波和高通濾波2.2語音信號產(chǎn)生模型語音信號產(chǎn)生模型共振頻率是什么概念，如何產(chǎn)生？短時分析的根據(jù)是什么？語音是怎么生成的？連續(xù)過程是如何變成離散過程的？線性預(yù)測方法為什么能用在語音分析中？等等

23、問題無不與產(chǎn)生機(jī)理及數(shù)學(xué)模型有關(guān)。如何建立數(shù)學(xué)模型？用到的知識：空氣動力學(xué)、力學(xué)、聲學(xué)、電學(xué)、類比、拉普拉斯變換、傅里葉變換、Z 變換等等。重點學(xué)習(xí)思路與方法，科學(xué)思維。2.2.1語音的產(chǎn)生機(jī)理我們可以有條件地將人的發(fā)聲看作是兩個過程：1）產(chǎn)生聲源(準(zhǔn)周期氣流脈沖或白噪聲)去激勵聲道；2）聲道對聲源的調(diào)制作用。本小節(jié)中，我們將把重點放在研究：聲道是怎樣對聲源調(diào)制的，為什么不同的聲道形狀會產(chǎn)生不同的聲音。當(dāng)然這是理想化了的，但這樣簡化會有助于問題的求解，也便于以后修正。 x = 0 x =l 圖 2.14 截面均勻無損耗管道示意圖考慮到管道右端開口處只有空氣體積速度的變化，而沒有壓強(qiáng)的變化，這

24、時，可以寫出管道內(nèi)聲波的運(yùn)動方程 (2-28)ttxpCAxtxuttxuAxtxp,2其中，為在點時刻的聲壓，為在點時刻的體積速度，為空氣密度，為聲速，為puCA管道截面積。解該偏微分方程，得如下形式(2-29)CxtuCxtutxuCxtuCxtuActxpbfbf/,)/(/,其中，我們稱為正向行波，稱為反向行波。假定在處以空)/(CxtubCxtuf/0 x氣體積速度的形式施加激勵，而體積速度總可以分解成傅立葉級數(shù)。對某一個頻率分量，其體積速度激勵為(2-30) tjGeUtu, 0可以得出管道內(nèi)各處空氣體積速度的變化情況。由公式(2-29)可知，在以(2-30)式作為邊界條件的情況下

25、，解也必定是復(fù)指數(shù)形式。令 (2-31)CxtjbbCxtjffeUCxtueUCxtu/將(2-31)代入到(2-29)中，得到 (2-32)CxtjbCxtjfCxtjbCxtjfeUeUtxUeUeUACtxp/, ,將兩個邊界條件和代入上式，解得 tjGeUtu, 0 0,tlp (2-33) tjGtjGCljGbCljGfeUClCxltxueUClCxljZtxpeUUeUU/cos/cos,/cos/sin,1 10/2/2其中，為管道聲特性阻抗，。0ZACZ/0這樣，我們可以利用上式來研究一下管道始端與末端空氣體積速度的情況。在末端處，有 lx (2-34) tjGeClUt

26、lu/cos,在始端處，有0 x (2-35) tjGeUtu, 0令 (2-36) GGUUClUlU, 0/cos,的物理意義為：在處，空氣體積速度的幅值（是頻率的函數(shù)）。相當(dāng)于在, lUlx 處空氣體積速度的傅立葉變換。同理，是處空氣體積速度的傅立葉變lx , 0U0 x換。從（2-36）可解出系統(tǒng)的頻率響應(yīng)公式： (2-37)ClVlUjVa/cos1, 0,考慮到成年男子平均聲道長厘米，空氣在一個大氣壓，時的聲速為5 .17lC31，那么上式中的量scmC/35000(2-38)kfffCl310350005 .172其中，如的單位為，則的單位為。將（2-38）代入（2-37）3

27、10 ffkfHzkfKHz式得(2-39)kafjVcos1可以看出當(dāng)時，（2-39）式有極大值，相應(yīng)的共振頻率為 ,.2 , 1 , 0, 2/12nnfk(2-40) ,.2 , 1 , 0,212nnfk可見，在每間隔出現(xiàn)一個共振頻. 5 . 1 15 . 00；時，；時，KHzfnKHzfnkkKHz1率。如圖 jvKav10log20 vK (dB) 40 20 0 0 1 2 3 4 5 kf KHz 圖 2.15均勻無損聲管頻率響應(yīng)上圖表明截面均勻的無損管道用于模擬人的聲道時，嘴唇處空氣體積速度相對聲門處的增益是隨頻率變化的，第一個共振點出現(xiàn)在 0.5KHz 處，每隔 1KH

28、z 出現(xiàn)一個共振點。盡管上述的聲管是理想化的，但這個結(jié)果在以后的討論中有參考意義。考慮到管壁的振動，穿過管壁的熱傳導(dǎo)，空氣與管壁間的粘滯摩擦，以及嘴唇輻射聲波時的種種影響，均勻管道的一個聲學(xué)系統(tǒng)，其幅頻特性畫在圖 2.16。jvKav10log20 0 1 2 3 4 5 kf KHz vK dB 20 16 12 8 4 0 - 4 圖 2.16具有屈服性壁、粘滯和熱損耗的均勻無損聲管頻率響應(yīng)圖 2.16 與圖 2.15 比較，可以看出這些因素的影響造成的變化有：1）共振峰的頻率降低；2）尖峰變低寬，即共振峰降低，帶寬增加。2.2.2級聯(lián)聲管模型前一小節(jié)中，我們介紹了均勻管道的聲學(xué)特性，而在

29、人類發(fā)音時，聲道截面積不是均勻的，截面沿軸向是不斷變化的。為了簡化計算，需要用一些無損耗聲學(xué)短管級聯(lián)來逼近聲道截面積函數(shù)。圖 2.17 是用 14 節(jié)短管（每個短管自己的截面積是均勻的），來逼)(xA近原來聲道的形狀。圖 2.17用級聯(lián)聲學(xué)短管逼近聲道形狀為使問題簡化，令每個短管的長度都是相同的。短管的編號從 1 開始，自左至右編號遞il增，相應(yīng)截面積分別為，為短管總數(shù)。下面我們研究級聯(lián)無損NkkAAAAA,.,.,121，N耗管道中聲波的傳播，先來分析每個短管中的聲壓和體積速度。對第個短管，由（2-k32）式， (2-41)kkbkfkkbkfkklxCxtuCxtutxuCxtuCxt

30、uACtxp0/,/,考慮到在兩個短管交接處聲壓和體積速度不能突變，要滿足連續(xù)性約束條件。圖 2.18 畫出了第節(jié)短管與第節(jié)短管交接處的情況。設(shè)第節(jié)短管左端為 0，右端為；第k1kkkl節(jié)短管左端為 0，右端為。1k1kltukf ,tukf ,tukf1, tukf1,tukb,tukb,tukb1, tukb1,kl1kl圖 2.18兩個短管及其連接處的情況在兩管連接處連續(xù)性約束條件為 (2-42)tutlutptlpkkkkkk, 0, 0,11前面已設(shè)，則聲波通過每一個短管的時間是相同的，都是，其中。將1kkllClk/代入公式（2-41），得到klx (2-43)tututlutu

31、tuACtlpkbkfkkkbkfkkk,將公式（2-41）中的換成，且令，得到第節(jié)短管的左端情況k1k0 x1k(2-44)tututututuACtpkbkfkkbkfkk1,1,11,1,11, 0, 0將連續(xù)性約束條件(2-42)用于(2-43)和(2-44)，解出(2-45) turturtuturturtukbkkfkkbkbkkfkkf1,1,1,11其中(2-46)kkkkkAAAAr11為兩管連接處的反射系數(shù)，其值范圍為。把（2-45）表示成信號流圖（圖kr11kr2.19）將有助于說清楚式子的物理意義。 kr kr1 tukf , tukf1, kr tukb1, kr1

32、tubk 圖 2.19兩管連接處的信號流圖在圖 2.19 中正向行波分量到了交接處反射回一部分；而反向行波分量到了交接處也要反射回一部分。如果聲道是由階短管構(gòu)成，則將代之以，就可以得到個相N1, 2 , 1N1N類似的信號流圖。再按序把它們“串聯(lián)”起來，就可以用來描述整個聲道的信號流圖。從輸入和輸出考慮，上述流圖還要加上聲門和嘴唇處的情況。這時可以使用圖 2.20 所示的近似模型。聲道模型tuGGZLZ tu, 01tuL tp, 01圖 2.20聲音產(chǎn)生的近似模型圖 2.20 中，是聲帶產(chǎn)生的體積速度源，在電力聲類比時，將其視作恒流源。反映tuGGZ聲門處空氣體積速度與聲壓間的線性關(guān)系，稱之

33、為聲門的聲阻抗。是聲道入口處的tu, 01空氣體積速度，是聲道入口處的聲壓。由電路相關(guān)理論，有tp, 01(2-47)GGZtptutu/, 0, 011將和代入 2-41 式，并將所得結(jié)果代入 2-47，有1k0 x(2-48)turturtubGGGf1 ,1 ,21其中，其中為聲門的反射系數(shù)Gr(2-49)11/ACZACZrGGG類似的可以得到嘴唇處的反射系數(shù)Lr (2-50)LNLNLZACZACr/相應(yīng)的嘴唇處和聲門處的信號流圖如圖 2.21 所示。(a) (b) tuG 21Gr tuf 1 , Gr tub 1 , tuNf , tluNN, Lr Lr1 tuNb, 圖 2.

34、21(a)嘴唇處的信號流圖(b)聲門處的信號流圖下面我們研究用節(jié)短管來逼近聲道模型的系統(tǒng)沖激響應(yīng)。圖 2.22 畫出了兩節(jié)短管N與三節(jié)短管聲道模型中，正向行波與反向行波在管中運(yùn)行的情況。對于兩管模型，正向行波（用自左向右的箭頭表示）從聲門出發(fā)到達(dá)嘴唇，最快也需延遲秒；而三管模型，則2需秒。反向行波用自右向左的箭頭表示。對于管的交接處有反射的情況，從嘴唇端輸出3脈沖的延遲時間，是在（對于兩管模型）或?qū)τ谌苣Ｐ停┑幕A(chǔ)上再加上時23k2間，。不難得出節(jié)短管構(gòu)成的聲道模型，系統(tǒng)沖激響應(yīng)為, 2, 1kN(2-51)02.kkkNtath 短管 1 短管 2 延遲時間短管 1 短管 2 短管 3

35、延遲時間 2 22 22 42 62 62 23 23 23 43 63 3 圖 2.22正向行波與反向行波的運(yùn)行情況短管聲道模型系統(tǒng)頻率特性短管聲道模型系統(tǒng)頻率特性對公式(2.51)取拉普拉斯變換，得到(2-52) kNskkstGNNeadtethSUSlUSH200 ,用代入上式，得到 jS(2-53) 02 ,KkNjkGNNeaUlUH在實際應(yīng)用時，取偶數(shù)，這時上式繼續(xù)改寫為 N(2-54) 022KkNjkeaH此時滿足(2-55) 22HH說明該系統(tǒng)具有重復(fù)周期的頻率特性。根據(jù)信號處理原理，一個函數(shù)在頻域有周期2T性，在時域必是采樣的。采樣的頻率為 (2-56)ClTfk,21

36、1其中為短管長度，為聲速。前面已經(jīng)講過，成年男子聲道平均長為 17.5 厘米，聲速用klC。如果取=10，則。這時。隨著短管節(jié)數(shù)增加，采scm/35000Nms1 . 02 KHzF10樣頻率也要增加。每增加 2 節(jié)短管，采樣頻率增加。KHz2聲道的時間離散模型聲道的時間離散模型通常，時間離散系統(tǒng)以變換形式來表示。這時可將式(2-52)中的替換為。Z2SSTeeZ得到離散系統(tǒng)的傳遞函數(shù) (2-57) 02KNkkzazH上式表示輸入為單位脈沖作用下系統(tǒng)的輸出，它是間隔時間為，以加權(quán)的脈沖序列。2ka表示延遲一個采樣時間。輸出的第一個脈沖幅度為，出現(xiàn)在輸入的單位脈沖作用后1Z0a的時刻；第二個脈

37、沖幅度為，出現(xiàn)在時刻；依此類推。將圖 2.19 的兩管聲N1a2N道模型的信號流圖，擴(kuò)展為 N 節(jié)管，將其中的變量取 Z 變換，并以取代延遲。2/1z表示延遲 1/2 個采樣時間，這樣可得到圖 2.23。2/1z 21Gr Gr 11r 21z 21Z zUNf1, zUNb1, Lr zUG 11r 1r 1r kr1 kr kr Lr1 Lr1 Lr kr1 21z 21Z21z 21Z21z 21Z21z 21Z21z 21Z圖 2.23N 節(jié)短管聲道模型信號流圖利用該模型可以推得(2-58) NkkkNzGzzH121一般將上式中的去掉，認(rèn)為這個固定的延遲時間不代表聲道的特征，不管發(fā)什

38、么聲2/Nz音都有這個延遲。在研究中去掉它不會影響對問題的分析。這樣公式（2.59）就成了公式（2.58）的簡化形式 (2-59) NkkkZGZH11（2-59）式是聲道的終端模擬模型，具有全極點數(shù)字濾波器的形式，且全部極點必然落在單位圓內(nèi)。以后我們在討論問題時，就使用公式（2-59）。2.2.3語音生成模型本節(jié)開頭我們曾經(jīng)指出發(fā)聲可視為兩個過程；產(chǎn)生聲源去激勵聲道：聲道對激勵它的體積流加以調(diào)制，最后輸出聲波。激勵定性地分作兩類：1）準(zhǔn)周期脈沖串，用于激勵聲道以產(chǎn)生濁音；2）隨機(jī)噪聲，具有白噪聲性質(zhì)，用于激勵聲道以產(chǎn)生清音。羅森伯格（Rosenberg）在研究中發(fā)現(xiàn)，如果在發(fā)濁音時聲門脈

39、沖取如圖 2.24 所示的形狀，可以獲得比較好的合成語音效果。圖 2.24發(fā)濁音時的聲門脈沖圖 2.24 可以用如下公式描述 (2-60)其它0,2/cos0,/cos121)(2112111NNnNNNnNnNnng可視為一個線性系統(tǒng)在單位脈沖作用下的輸出。這一線性系統(tǒng)具有低通濾波效 ng zG應(yīng)（是的變換）。在發(fā)濁音時，可以認(rèn)為是由基因周期控制的沖激序列發(fā)生器產(chǎn) zG ng生的單位脈沖串，加至這個線性系統(tǒng)以形成一連串的。在有了上面的基礎(chǔ)之后， zG zG就可以來討論語音生成的模型了。圖 2.25 畫出了時間離散的語音生成模型。圖中有一個濁音/清音“開關(guān)”，用以改變聲道激勵的形式。 “開關(guān)

40、”向上，由準(zhǔn)周期脈沖激勵聲道，發(fā)出濁音；“開關(guān)”向下，由隨機(jī)噪聲激勵聲道，發(fā)出濁音。和分別為濁音和清音的幅度控制信號。VANA圖 2.25時間離散的語音生成模型2.3語音信號的時域處理語音信號的時域處理語音信號首先是一個時間序列，進(jìn)行語音分析時，最直觀的就是它的時域波形。時域分析直觀明了，計算簡單且運(yùn)算量?。ㄏ啾群竺鎸⒁榻B的頻譜分析和先行預(yù)測分析）。時域分析提供了最基本的也是很重要的用于語音分析的參數(shù)，廣泛用于語音的預(yù)處理、切分、分類等方面。2.3.1語音信號的抽樣和量化模擬語音信號是連續(xù)信號，無法被計算機(jī)處理。因此語音處理的第一步首先是將模擬信號轉(zhuǎn)化為數(shù)字信號，也就是常說的模數(shù)轉(zhuǎn)換（An

41、alog to Digital Conversion），這其中主要包括兩個步驟：采樣（Sampling）和量化（Quantization）。一個正常人語音的頻率一般在的范圍內(nèi)，成年男子的語音頻率較低，HzHz400040婦女和兒童的語音頻率較高。電話語音頻率范圍在左右，現(xiàn)代的語音合HzHz340060成或識別系統(tǒng)中，由于需要將語音頻率的上限提高到左右。根據(jù)尼奎斯特采樣定律KHz10（Nyquist Sampling Theorem），采樣頻率應(yīng)為原始語音頻率的 2 倍以上，考慮到濾波器性能的影響，這個閾值還應(yīng)該提高。一般說來，電話語音的采樣率為（G.711），普通KHz8語音的采樣率在

42、左右。否則，如果采樣率不滿足采樣定律，將會產(chǎn)生頻KHzKHz2015譜混疊，使信號中的高頻部分失真?？紤]到高頻噪音的存在，為了防止頻率高于二分之一采樣頻率的高頻噪音產(chǎn)頻譜混疊，通常語音信號在采樣前要進(jìn)行一次預(yù)濾波以濾掉高頻噪音。預(yù)濾波還有一個目的是避免的電源干擾，因此預(yù)濾波是一個帶通濾波期，其下Hz50截止頻率，上截止頻率根據(jù)需要定義。HzfL50Hf采樣后的語音數(shù)據(jù)要能為計算機(jī)所存儲和處理還必須進(jìn)行量化處理。量化過程中，不可避免地會引入誤差，量化后的信號與原始信號的差值稱為量化噪聲。量化噪音是一個平穩(wěn)的白噪音，在量化區(qū)間均勻分布，和原信號序列沒有什么關(guān)系。圖 2.26 給出了從采樣到量化的全

43、過程圖，并且給出量化噪聲的分布。圖 2.26采樣和量化量化時，如果采用較長的比特（Bit）數(shù)來記錄采樣數(shù)，相應(yīng)的量化級數(shù)就會較高，量化誤差也就較小。但是這是以增加存儲容量和處理時的計算量為代價的，因此根據(jù)應(yīng)用場合合理的選擇量化字長是很重要的。2.3.2語音信號的短時分析和預(yù)處理我們知道，由于人自身的發(fā)音器官的運(yùn)動，語音信號是一種典型的非平穩(wěn)信號。但是相比于聲波振動的速度，發(fā)音器官的運(yùn)動就顯得非常緩慢了。因此，工程技術(shù)人員通常認(rèn)為這樣長度的時間段中，語音信號是平穩(wěn)信號。幾乎所有的語音信號處理方msms3010法都是基于這個假設(shè)。短時分析的最基本手段是對語音加窗，即用一個有限長度的窗序列截取一段語

44、音)(nw信號來進(jìn)行分析。該窗函數(shù)可以按時間方向滑動，以便分析任一時刻附近的信號。設(shè)原始信號為，加窗運(yùn)算定義為)(ns(2-61)mwmnwmsns)()()(可以看出，加窗運(yùn)算實際上是一種卷積運(yùn)算。設(shè)窗長為，常見的窗函數(shù)有：N方窗方窗（Rectangular Window）(2-62)NnnNnnwor 0 010 1)(哈明窗哈明窗（Hamming Window）(2-63)NnnNnNnnwor 0 010 )12cos(46. 054. 0)(哈寧窗哈寧窗（Hann Window）(2-64)NnnNnNnnwor 0 010 )12cos(1 (5 . 0)(哈寧窗和哈明窗都是廣義哈

45、明窗（Generalized Hamming Window）（2-65）的特例。當(dāng)時為哈寧窗，時則為哈明窗。5 . 046. 0(2-65)NnnNnNnnwor 0 010 )12cos()1 ()(如果我們把窗函數(shù)理解成為某個濾波器的單位沖激響應(yīng)，由于窗函數(shù)一般是中間大兩頭小的光滑函數(shù)，因此該濾波器具有低通特性。不同的窗函數(shù)對應(yīng)的低通濾波器的帶寬和頻率相應(yīng)是不同的。圖 2.27 和圖 2.28 給出了上述幾種窗函數(shù)的頻率響應(yīng)特性。圖 2.27方窗的頻率響應(yīng)幅度特性圖 2.28哈寧窗和哈明窗的頻率響應(yīng)幅度特性（(a)(b)為哈寧窗,(c)(d)為哈明窗）可以看出，哈明窗和哈寧窗的主瓣（Ma

46、in lobe）寬度大約為方窗的兩倍，同時衰減比方窗快，方窗的旁瓣（Second lobe）的高度約為，哈明窗的旁瓣高度約為，哈dB13dB44寧窗的約為。哈寧窗和哈明窗的差異在于前者隨頻率增加衰減很快，而后者基本保dB31持一個常量。由于方窗的旁瓣太高，會產(chǎn)生嚴(yán)重的泄漏（Gibbs）現(xiàn)象，僅在一些特殊場合使用；哈寧窗的衰減太快，低通特性不平滑，不能做到對所有頻率“一視同仁” ；哈明窗由于其平滑的低通特性和最低的旁瓣高度而得到最為廣泛的應(yīng)用。對同一種窗函數(shù)，其主瓣寬度和窗長成反比，一般說來，窗長越長，它對信號的平滑作用越厲害，如果想反映變化快的信息，應(yīng)該縮短窗長。2.3.3短時能量、短時平均幅

47、度和短時平均過零率短時能量、短時平均幅度和短時平均過零率是語音的最基本的也是最重要的時域特征。計算簡單且運(yùn)算量小，廣泛運(yùn)用于語音信號處理的各個領(lǐng)域。2.3.3.1短時能量和短時平均幅度短時能量和短時平均幅度能量是語音的一個重要特性，比如我們知道，清音的能量較小，濁音的能量較大。對語音能量的分析主要集中在短時能量和短時平均幅度上。短時能量的定義如下，其中，是窗函數(shù)，是窗長。)(nwN(2-66)122)()()()(NnnmmnmnwmxmnwmxE上式也可以進(jìn)行改寫，以便有更好的物理含義(2-67)mmnnhnxmnhmxmnwmxE)()()()()()(2222其中定義(2-68)()(2

48、nwnh因此，我們可以將短時能量看作語音信號的平方通過一個沖激響應(yīng)為的線性濾波器后)(nh的輸出。因此，窗函數(shù)的選擇會直接決定短時能量的性質(zhì)，一方面，采用什么樣類型的窗函數(shù)；另一方面，窗長度應(yīng)該選多長。窗函數(shù)的性質(zhì)在上一小節(jié)中我們進(jìn)行了簡要的介紹，下面簡要介紹窗長選擇的重要性。我們知道，如果窗長太長，平滑作用將很明顯，那么對應(yīng)的短時能量曲線也隨時間變化緩慢，不能體現(xiàn)語音的變化；反之，如果窗長太短，短時能量將隨時間劇烈變化，我們就無法得到平滑的能量函數(shù)。通常認(rèn)為，窗長的選擇應(yīng)該包含 17 個基因周期，但是男女老少的基因周期差異太大，折衷的選擇是選取的ms3010時間作為窗長。由于計算能量時對語音

49、信號取平方運(yùn)算，因此短時能量對高電平信號很敏感。為此采用另一種度量方法，稱作短時平均幅度，其定義如下(2-69)(| )(|)(| )(|nwnxmnwmxMmn但是，在清音和濁音的區(qū)別上，短時幅度的電平差不如短時能量明顯。2.3.3.2短時過零率短時過零率顧名思義，過零就是指時域波形穿過坐標(biāo)軸，表現(xiàn)在離散信號序列上就是相鄰兩個采樣值異號。單位時間內(nèi)過零發(fā)生的次數(shù)稱作短時過零率，其定義如下(2-70)(|)1(sgn)(sgn| )(|)1(sgn)(sgn|nwnxnxmnwnxnxZmn其中，是取符號函數(shù)，它和窗函數(shù)的定義如下sgnx)(nw(2-71)therwise 010 2/1 0

50、 x10 x1sgnoNnNw(n)x由定義可以看出，短時過零率對噪音的存在非常敏感，如果背景中有反復(fù)穿越坐標(biāo)軸的隨機(jī)噪聲，那么會產(chǎn)生大量的“虛假”的過零，影響計算結(jié)果。為了提高過零率計算的魯棒性，除了對原始信號進(jìn)行帶通濾波，一種有效的方法是修正過零率的定義，加入門限的定義，如圖 2.29 所示。門限值 T 門限值-T 圖 2.29門限過零率如圖 2.29，設(shè)一個門限值，將過零的定義修正為穿越正負(fù)門限，帶門限的過零率計算|T公式為(2-72)(|) 1(sgn)(sgn| | ) 1(sgn)(sgn|nwTnxTnxTnxTnxZmn這樣，噪音信號的振蕩只要不超過門限間的區(qū)域，就不會對真實

51、的過零率產(chǎn)生影響。一般說來，短時過零率的最主要用處是用于分辨清音和濁音、有聲與無聲。我們將在下一小節(jié)“語音的端點檢測”中進(jìn)行詳細(xì)介紹。2.3.4語音的端點檢測在許多語音信號的處理中，比如語音識別，我們常常需要判斷輸入信號中那些部分是語音，那些部分不是語音，以供后續(xù)處理使用。有時，對于已經(jīng)判定為語音的部分還需要區(qū)分清音和濁音，這些問題歸結(jié)起來稱為“有聲/無聲”或“濁音/清音/無聲”的判定。漢語中，由于音節(jié)末尾基本上都是濁音，簡單的通過短時能量就能取得很好的效果；相比之下，音節(jié)起始處會有清聲母、塞音、塞擦音，它們很難和環(huán)境噪音相區(qū)別。下面介紹一種被稱作為“雙門限法”的端點檢測算法，利用的聲學(xué)參數(shù)為

52、短時平均幅度和短時過零率（也可以利用短時能量和短時過零率）如圖 2.30 所示。 HM LM 1N 2N 1N 2N 1N nZ minZ n nM n 圖 2.30雙門限法進(jìn)行端點檢測首先利用短時平均幅度定位語音的大致位置。做法為：1）根據(jù)大量統(tǒng)計經(jīng)驗，確定一個較高的閾值，的值一般定得比較大，這樣我們能夠肯定短時平均幅度大于HMHM的部分一定是語音段，而且很有可能是濁音。2）分別沿向兩端搜索，如HM21NN21NN果短時平均幅度仍然能夠保證大于某個閾值，我們?nèi)匀豢梢哉J(rèn)為這一部分還是LM21NN語音段。第二步的目標(biāo)就是較為準(zhǔn)確的確定語音的起始點，主要是將清音和無聲段分開。此時，短時平均幅度不再

53、起作用，因為兩者的能量都很小，唯一的區(qū)別是清音的過零率遠(yuǎn)遠(yuǎn)高于無聲段。為此，確定一個過零率的閾值，從向兩端搜索搜索，如果短時minZ21NN過零率突然低于該閾值的三倍，那么這點這被認(rèn)為是語音的起始點。但是需要注意的1N是，這種向前搜索還有時間上的限制，一般向前搜索最多不超過，也就是一幀語音ms25的長度。圖 2.31語音“七八九”的端點檢測圖 2.31 給出了用雙門限法對語音“七八九”進(jìn)行端點檢測的結(jié)果。2.3.5短時自相關(guān)函數(shù)相關(guān)分析是一種常用的時域波形分析方法，對于確定性離散信號，能量有限，)(nx其自相關(guān)函數(shù)定義為(2-73)mkmxmxkR)()()(如果是隨機(jī)或者周期性的離散信號，不

54、是能量有限的，那么其自相關(guān)函數(shù)的定義為)(nx(2-74)NNmNkmxmxNkR)()(121lim)(由自相關(guān)函數(shù)的定義可以看出其所具有的一些性質(zhì)：1）自相關(guān)函數(shù)是偶函數(shù)，滿足；2）時函數(shù)取得最大值，此時，對于確定性信號，自相關(guān)函數(shù)的取)()(kRkR0k值就是該信號的能量，對于隨機(jī)信號或者周期信號，自相關(guān)函數(shù)的取值是該信號的平均功率；3）如果原序列是周期為的周期信號，那么自相關(guān)函數(shù)也是周期為的周期函數(shù)，TT即。)()(kTRkR短時自相關(guān)函數(shù)的定義為(2-75)mnkmnwkmxmnwmxkR)()()()()(上式的物理意義為：首先用窗函數(shù)選擇要處理的語音，然后將窗選結(jié)果帶入 2-73

55、式得到上式。利用自相關(guān)函數(shù)是偶函數(shù)的性質(zhì)，有(2-76)mnnkmnwkmxmnwmxkRkR)()()()()()(如果定義，上式變形為)()()(knwnwnhk(2-77)()()()()()()(nhknxnxmnhkmxmxkRkmkn即為序列通過單位沖激響應(yīng)為的濾波器后的輸出，如圖 2.32。)()(knxnx)(nhk )(nhk 延遲 k )(knx )(nx )(kRn 圖 2.32自相關(guān)函數(shù)的方框圖表示自相關(guān)函數(shù)可以用來估計基音周期。2.3.6短時基音周期估計我們知道，濁音是一種準(zhǔn)周期信號，我們稱濁音的周期為基音周期。短時基音周期的估計也稱作基音檢測（Pitch Dete

56、ction）。2.3.6.1預(yù)處理預(yù)處理由于聲道的共振峰特性會對基音周期造成干擾，為了較為準(zhǔn)確的估計基音周期，我們需要隊原始信號進(jìn)行預(yù)處理。預(yù)處理的途徑有兩條：1）用一個帶通為的帶通Hz90060濾波器隊原始語音進(jìn)行濾波，之所以上截止頻率取，是因為既可以去掉大部分共振Hz900峰的影響，又可以為頻率低于以下的基音保留一兩次諧波；2）對原始語音進(jìn)行中Hz450心削波，中心削波函數(shù)為(2-78)LLLCnxLnxCnxCnxLnxnC)( )(| )(| 0)( )()(其中中心削波電平約為最大信號幅度的，圖 2.33 為中心削波的示意圖。LC%70%60 LC LC x )(xC 圖 2.33

57、中心削波示意圖2.3.6.2基于求短時自相關(guān)函數(shù)的估計算法基于求短時自相關(guān)函數(shù)的估計算法由短時自相關(guān)函數(shù)的定義可知，對于準(zhǔn)周期信號，短時自相關(guān)函數(shù)在基音周期的各個整數(shù)倍點上有很大的峰值。如果我們能求得第一最大峰值點并計算其與零點的距離，該距離就是估計出來的基音周期，如圖 2.34。 T )(kRn k 圖 2.34自相關(guān)法估計基音周期實際計算中，除了要對語音進(jìn)行預(yù)處理以外，計算自相關(guān)函數(shù)時所采用的窗長也是很重要的影響因子。一般認(rèn)為，窗長應(yīng)該至少大于兩個基音周期才能有較好的預(yù)測效果，語音的基音周期最長的大約為（語音的頻率下限約為），因此計算自相關(guān)時的窗ms20Hz50長應(yīng)大于為宜。ms402.

58、3.6.3后處理后處理沒有任何一種預(yù)測方法能夠準(zhǔn)確的計算出所有的基音周期。往往大部分的點是比較準(zhǔn)確的，但是也有一部分的“野點” （通常偏離到標(biāo)準(zhǔn)值的 2 倍或者一半），為此我們需要對預(yù)測結(jié)果進(jìn)行平滑處理。常用的平滑算法有中值平滑、線性平滑和組合平滑。中值平滑中值平滑對于被平滑的點，我們在其兩側(cè)各找個點，連同其自身共個點進(jìn)行排序，M12M序列中間的那個點的值作為該點新的取值。中值平滑能去掉少量的野點，同時也不會破壞基音曲線間的跳躍。線性平滑線性平滑平滑的方法是對周圍的點進(jìn)行線性加權(quán)，設(shè)為平滑前的序列，現(xiàn)在準(zhǔn)備平滑第個Ti點，那么(2-79)4/ ) 1(2/ )(4/ ) 1()(iTiTi

59、TiT組合平滑組合平滑先對原始結(jié)果進(jìn)行一次中值平滑，然后對第一次平滑結(jié)果再進(jìn)行線性平滑。 (a) 語音“你好”的基音周期估計（不做后處理） (b) 語音“你好”的基音周期估計（中值平滑） (c) 語音“你好”的基音周期估計（線性平滑） (d) 語音“你好”的基音周期估計（組合平滑）圖 2.35語音“你好”的基音周期估計2.4語音信號的頻譜分析語音信號的頻譜分析大量的實驗表明，人類感知語音的過程和語音本身的頻譜特性關(guān)系密切。人類本身的聽覺對語音的頻譜特性更為敏感。兩段時域上相差很大的語音如果具有類似的頻譜特性，人類在感知它們時的感覺也是相似的。語音信號的頻譜具有非常明顯的語言聲學(xué)意義，能反應(yīng)一

60、些非常重要的語音特征，比如共振峰頻率和帶寬等。因此，對語音信號進(jìn)行頻譜分析是現(xiàn)代的數(shù)字語音信號處理的重要方法之一。2.4.1短時傅里葉變換和語譜圖我們知道，由于語音信號是一種典型的非平穩(wěn)信號，因此適用于平穩(wěn)隨機(jī)信號、周期信號的標(biāo)準(zhǔn)傅里葉變換不能直接用于語音信號的處理。但是，根據(jù)上一節(jié)所提到的短時分析的方法，我們認(rèn)為這樣長度的語音信號是平穩(wěn)信號，可以對這一段信號做msms3010傅里葉變換，稱作短時傅里葉變換。短時傅里葉變換的定義如下(2-80)mmjjnemnwmxeX)()()(其中是窗函數(shù)。既是的函數(shù)，也是的函數(shù)，相應(yīng)的，對短時傅里葉變)(nw)(jneXn換也就存在兩方面的解釋。一方面，

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

第2章語音信號處理基礎(chǔ)

文檔簡介

溫馨提示

最新文檔

評論

第2章語音信號處理基礎(chǔ)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔