語音信號的短時分析技術(shù)_第1頁
語音信號的短時分析技術(shù)_第2頁
語音信號的短時分析技術(shù)_第3頁
語音信號的短時分析技術(shù)_第4頁
語音信號的短時分析技術(shù)_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、v常用的短時分析技術(shù)有:短時能量短時平均幅度短時過零率短時自相關(guān)函數(shù)短時平均幅度差函數(shù)短時頻譜短時功率譜預濾波v預濾波的目的防止混疊干擾抑制50Hz的電源干擾預濾波實際上是一個帶通濾波器,其上下截止頻率分別為fH和fL 。對于絕大多數(shù)語音編碼器而言,要求fH=3400Hz, fL=60100Hz, fs=8KHz.對于語音識別系統(tǒng)而言,用于電話用戶時要求技術(shù)指標與語音編碼器相同,如果對于更高的要求場合,則fH=4500Hz或8000Hz, fL=60Hz, fs=10KHz或20KHz幀和加窗的概念v短時分析將語音流分為一段一段來處理,每一段稱為一“幀”;v幀長:1030ms,20ms常見;(

2、幀率)幀移:01/2幀長,幀與幀之間的平滑過渡;v為了減小語音幀的截斷效應(yīng),需要加窗處理;)()()(nwnsnsw10, 1)(Nnnw10),12cos(46. 054. 0)(NnNnnw10),12cos(1 (5 . 0)(NnNnnw矩形窗HammingHannv不同的窗口選擇(形狀、長度),將決定短時平均能量的性質(zhì)。什么樣的窗口,其短時平均能量才能更好的反映語音信號的振幅變化哪?v首先是窗口的形狀,窗口有多種形狀,他們都是中心對稱的。v其次是窗口的長度,無論什么形狀的窗口,窗口序列的長度N將起決定性的作用。N選得太大,濾波器的通帶變窄,波形的振幅變化細節(jié)就看不出來,反之,如果N太

3、小,則濾波器的通帶變寬,信號得不到足夠的平均。v所謂窗口長度的長短,都是相對于語音信號的基調(diào)周期而言的。通常認為在一個語音幀內(nèi),應(yīng)含有17個基調(diào)周期為好。可是人的語音的基調(diào)周期值是變化的,從女性小孩的2ms到老年男子的14ms(即基調(diào)頻率為500Hz至70Hz),所以N的選擇是比較困難的。通常折衷的選擇N為100200點為宜。若采用頻率為10KHz,則相當于每幀的長度(即窗口序列的長度)約為1020ms為宜。若采樣頻率為8KHz,200點相當于25ms,40幀/s;120點相當于15ms,66幀/s.窗函數(shù)及其比較三種窗函數(shù)都有低通特性,通過分析三種窗的頻率響應(yīng)幅度特性可以發(fā)現(xiàn):矩形窗的主瓣寬

4、度最小,旁瓣高度最高,會導致泄漏現(xiàn)象,哈明窗的主瓣最寬,旁瓣高度最低,可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性,應(yīng)用更廣泛。v窗口的形狀和長度對分析影響很大,不同的分析方法對窗函數(shù)的要求不盡一樣;10203040506000.81SamplesAmplitudeTime domain00.8-100-80-60-40-2002040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domainHamming10203040506000.81SamplesAmplitude

5、Time domain00.8-150-100-50050Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domain10203040506000.81SamplesAmplitudeTime domain00.8-20-10010203040Normalized Frequency ( rad/sample)Magnitude (dB)Frequency domainHann矩形窗語音信號的短時能量(語音信號強度的度量參數(shù))v如果窗的起點是n=0,短時能量為v如果窗的起點

6、為n=m,短時能量為:)(1020nSENnw)(12mnSEmNmnwm不同窗口寬度的短時能量函數(shù)示意圖短時平均能量的主要用途可以從語音中區(qū)別出濁音來,因為濁音時短時平均能量的值要比清音時短時平均能量的值大很多;可以用來區(qū)別聲母和韻母的分界、無聲和有聲的分界等最為一種超音段信息,用于語音識別中。語音信號的短時平均幅度v如果窗的起點是n=0,短時平均幅度為v如果窗的起點為n=m,短時平均幅度為:1)(mNmnwmmnSM100)(NnwnSMv短時過零率v波形穿過橫軸(零電平)的次數(shù)|)1(sgn)(sgn|210nsnsZww短時過零可以看作信號頻率的簡單度量0, 10, 1)sgn(xxx

7、語音信號的短時過零率Zv過零就是指信號通過零值。過零率就是每秒內(nèi)信號值通過零值的次數(shù)。v對于離散時間序列,過零則是指序列取樣值改變符號,過零率則是每個樣本的改變符號的次數(shù)。對于語音信號,則是指在一幀語音中語音信號波形穿過橫軸(零電平)的次數(shù)??梢杂孟噜弮蓚€取樣改變符號的次數(shù)來計算。v如果窗的起點是n=0,短時過零率Z為100)1()(21NnwwnSSgnnSSgnZ將Z應(yīng)用于語音信號分析中v發(fā)濁音時,聲帶振動,因而聲門激勵是以此音調(diào)頻率為基頻來使聲道共振;盡管有若干個共振峰,但其能量的分布集中于低于3KHz的頻率范圍內(nèi)。v發(fā)清音時聲帶不振動,聲道某部分阻塞產(chǎn)生類白噪聲激勵,通過聲道后其能量集

8、中在比濁音時更高的頻率范圍內(nèi)。v濁音時能量集中于較低頻率段內(nèi),具有較低的過零率,而清音時能量集中于較高頻率段內(nèi),具有較高的過零率。濁音和清音情況下典型的平均過零率的直方圖。直方圖的分布形狀與高斯分布很吻合,而且濁音時的短時平均過零率的均值為14過零/10ms,清音時短時過零率的均值為47過零/10ms。注意到濁音和清音有一個交疊區(qū)域,此時很難分清是濁音還是清音,盡管如此,平均過零率仍可以粗略的判斷清音和濁音。v短時平均能量和短時平均過零率兩個參數(shù),也都可以用于語音識別中。主要用于識別無聲段和語音段的起點和終點的位置。v在背景噪聲比較小的時候用平均能量來識別比較有效,在背景噪聲比較大的時候用平均

9、過零率來識別比較有效,但是通常情況是兩個參數(shù)聯(lián)合進行識別。vE、M、Z的條件概率密度函數(shù)濁音、清音、無聲的短時特性S(無聲)U(清音)V(濁音)三種情況下短時平均幅度的條件概率密度的示意圖。可以看出,濁音的短時平均幅度最大,無聲的短時平均幅度最小。清音的短時過零率最大,無聲居中,濁音的短時過零率最小。語音有聲和無聲v在許多語音處理技術(shù)中需要判斷一段輸入信號中哪些是語音段,哪些是無聲段(只有背景噪聲)v在語音識別中正確的決定所要識別語音的起點、終點對于提高識別率往往是重要的。v對于數(shù)字移動通信的手持機編譯碼器,在較長的無聲段應(yīng)降低發(fā)射功率以節(jié)約其電池的消耗。語音有聲和無聲v對于已經(jīng)判定為語音段的

10、部分,尚需決定其清音或濁音,無論對于語音識別還是低速語音編譯碼器這都是很重要的。這些問題可以概括為無聲/有聲判決以及更細致的S/U/V判決。v能夠?qū)崿F(xiàn)這些判決的依據(jù)在于不同性質(zhì)的語音的各種短時參數(shù)具有不同的概率密度函數(shù)以及相鄰的若干幀語音應(yīng)具有一致的語音特性,它們不會在 S、U、V之間跳來跳去。判斷語音信號的起點和終點v在獨立詞(字)語音識別系統(tǒng)中需正確判定每一個輸入語音的起點和終點,利用短時平均幅度和短時過零率可以做到這一點。v首先,可根據(jù)濁語音情況下短時平均幅度M的概率密度函數(shù)P(M/V)確定一個閾值參數(shù)MH, MH的值定得比較高。當一幀輸入信號的M值超過MH時,就可以十分肯定該幀語音信號

11、不是無聲,而有相當大的可能性是濁音。判斷語音信號的起點和終點v根據(jù)MH可判定輸入語音中的前后兩個點N1和N2, N1和N2之間肯定是語音段,但是語音的精確起點、終點還要在N1之前和N2之后仔細查找。為此在設(shè)置一個低閾值參數(shù)ML ,由N1向前找,當短時平均幅度M由大到小減至ML時可以確定點N1 。類似由N2向后找,可以確定N2 。在N1和N2之間仍能肯定是語音段。判斷語音信號的起點和終點v由N1向前和N2向后繼續(xù)用短時過零率Z進行搜索。根據(jù)無聲情況下短時過零率Z的均值,設(shè)置一個參數(shù)Z0,如果由N1向前搜索時Z始終大于Z0的3倍,則認為這些信號仍屬于語音段,直至Z突然下降到低于3Z0值時,這時可以

12、確定語音的精確起點(為了保證可靠,由N1 向前搜索時間不超過25ms)。對終點做同樣的處理。采取這一算法的原因在于, N1以前可能是一段清輔音段(如f,s),它的能量相當弱,依靠能量不可能把他們與無聲段區(qū)別開,而他們的過零率明顯高于無聲,因而能用這個參數(shù)來精確的判斷二者的分割點,也就是語音真正的起點。判斷語音信號的起點和終點v另一種判斷的方法是如果能夠求出S、U、V三種情況下短時平均幅度M和短時過零率Z的條件聯(lián)合概率密度函數(shù)P(M、 Z/S), P(M、Z/U), P(M、Z/V),那么就可以采用統(tǒng)計學中的最大似然算法,根據(jù)一幀信號的M和Z值來判斷它的S/U/V。就是計算后驗概率:vP(X/M

13、,Z)=P(M,Z/X)P(X)/P(M,Z)v其中,X=S或U或V。后驗概率最大者即作為判決結(jié)果。v事實上,僅依靠M和Z兩個參數(shù)還是不夠的,通常要選擇更多的參數(shù),如相關(guān)函數(shù)等。v短時自相關(guān)函數(shù)10)()()(kNnwwwknsnskR1、是偶函數(shù);2、s(n)是周期的,那么R(k)也是周期的;3、可用于基音周期估計和線性預測分析;語音信號的短時自相關(guān)函數(shù)假設(shè) 一段加窗語音信號,非零區(qū)間為n=0N-1, 的自相關(guān)函數(shù)稱為語音信號的短時自相關(guān)函數(shù),)(nsw 1, 1)()()()()(10NNllnSnSlnSnSlRnlNnwwwww可以證明,自相關(guān)函數(shù)是偶函數(shù),且在l=0處取得最大值,且值

14、為短時能量)(nswv修正的自相關(guān)函數(shù)KkknsnskRNnwww0, )()()(10)()()(nwnsnswKNnnw10, 1)(短時自相關(guān)函數(shù)的特點濁音是周期信號,濁音的短時自相關(guān)函數(shù)也呈現(xiàn)明顯的周期性,自相關(guān)函數(shù)的周期就是濁音信號的周期。清音接近于隨機噪聲,請音的短時自相關(guān)函數(shù)不具有周期性,且隨著l的增大迅速減小。根據(jù)這個性質(zhì)可以判斷一個語音信號是清音還是濁音,還可以判斷濁音的基音周期。語音信號的短時頻譜)(nsw的離散時域付里葉變換)(exp( jwSw稱為語音信號的短時頻譜10)exp()()(exp(NnwwjwnnsjwS2)(exp(jwSw稱為語音信號的短時功率譜語音信

15、號的短時頻譜窗函數(shù)w(n)語音信號S(n)加窗語音信號Sw(n)DTFTS(exp(jw)DTFTW(exp(jw)DTFTSw(exp(jw)計算短時頻譜一般采用哈明窗)(exp()(exp()(exp(jwWjwSjwSw)()()(nwnsnswv短時平均幅度差函數(shù)(AMDF)Average Magnitude Difference FunctionRoss等人于1974年提出的 10| )()(|)(lNnwwwnslnslD050100150200250300350-4000-20000200040006000Voiced Frame. The pitch is about 42.0

16、5010015020025030035002468x 105AMDF Fun050100150200250300350400450-4000-2000020004000(a) A Voiced Speech Segment05010015020025030035040045002468x 105(b) AMDF for the Speech Segment( + local minima )050100150200250300350400450-2000020004000A: Speech Segment05010015020025000.511.522.5x 105B: Modified A

17、MDF( + local minima )短時基音周期估計v基于短時自相關(guān)函數(shù)的基音周期估計最大峰與基音周期不一致,要求幀長大于兩個基音周期;受共振峰的干擾,可以采取濾波或中心消波預處理。v基于短時AMDF的基音周期估計需進行谷值點清晰度檢查、比較復雜的閾值判決;預處理可以改善效果;對幅度變化比較敏感?;诙虝r自相關(guān)函數(shù)的基音周期估計方法v短時自相關(guān)函數(shù)在基音周期的各個整數(shù)倍點上取得最大值,只要能找到第一最大峰值點的位置并計算它與l=0點的間隔,便能估計出基音周期。v實際上,第一最大峰值點的位置有時不能與基音周期相吻合。因此很多時候并不是計算l=0點的距離作為基音周期。產(chǎn)生這種情況的原因:與窗

18、的選取長度有關(guān),窗口過長或過短都會導致不一致。通常認為窗長至少應(yīng)大于兩個基音周期,語音信號中最長的基音周期約為20ms,因此在基音周期估計時窗長應(yīng)選的大于40ms。與聲道特性的影響有,有時窗長足夠長,但是第一最大值與基音周期仍不一致,這是主要由聲道的共振峰特性造成的干擾。(1、60900Hz的帶通濾波器濾波,并用濾波信號的自相關(guān)函數(shù)進行基音周期的估計; 2、對語音信號進行非線性變換后求自相關(guān)函數(shù),一種有效的非線性變換是中心削波,削波后基音周期的峰起更尖銳) 語音信號的短時平均幅度差函數(shù)(AMDF)為了求基音周期,還可以采用短時平均幅度差函數(shù)10)()()(lNnwwwnslnslr對于周期語音信號,其短時平均幅度差函數(shù)也是周期性的。在估計基音周期時,不論計算短時自相關(guān)函數(shù)還是短時平均幅度差函數(shù),一般都采用矩形窗基于短時平均幅度差函數(shù)的基音周期估計方法的特點v基音周期的谷點銳度比峰點的銳度要尖銳,估計的精度更高v計算短時平均幅度差函數(shù)不用乘法,計算量小v可以通過對語音信號進行譜平滑(去除共振峰的影響)和中心削波處理來改善基音周期估計的效果v短時平均幅度差函數(shù)對于語音信號的快速變化比較敏感。對基音周期軌跡的平滑v中值濾波 平滑點附近左右各取L個點,將2L+1個點按大小排列,取隊列中間值作為平滑器的輸出v線性濾波 通過一個低通濾波器v組合平滑 可以將兩個

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論