語音信號處理課程設(shè)計資料上傳分析_第1頁
語音信號處理課程設(shè)計資料上傳分析_第2頁
語音信號處理課程設(shè)計資料上傳分析_第3頁
語音信號處理課程設(shè)計資料上傳分析_第4頁
語音信號處理課程設(shè)計資料上傳分析_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、語音信號辦理課程設(shè)計資料上傳分析語音信號辦理課程設(shè)計資料上傳分析23/23語音信號辦理課程設(shè)計資料上傳分析講義課程設(shè)計目的:深入認(rèn)識專業(yè)課程知識的應(yīng)用,增強實踐訓(xùn)練內(nèi)容簡介:步驟:查閱資料,認(rèn)識相關(guān)基本理論知識運轉(zhuǎn)調(diào)試程序,實現(xiàn)設(shè)計要求,并理解程序運轉(zhuǎn)結(jié)果撰寫課程設(shè)計報告基于MATLAB的語音信號時域、頻域特色分析語音信號辦理是研究用數(shù)字信號辦理技術(shù)和語音學(xué)知識對語音信號進行辦理的新興的學(xué)科,是當(dāng)前發(fā)展最為迅速的信息科學(xué)研究領(lǐng)域的核心技術(shù)之一。經(jīng)過語音傳達(dá)信息是人類最重要、最有效、最常用和最方便的交換信息形式。同時,語言也是人與機器之間進行通訊的重要工具,它是一種理想的人機通訊方式,因此可為信

2、息辦理系統(tǒng)建立優(yōu)異的人機交互環(huán)境,進一步推進計算機和其余智能機器的應(yīng)用,提升社會的信息化程度。語音信號辦理是一門新興的學(xué)科,同時又是綜合性的多學(xué)科領(lǐng)域和涉及面很廣的交織學(xué)科。固然從事這一領(lǐng)域研究的人員主要來自信號與信息辦理及計算機應(yīng)用等學(xué)科,但是它與語音學(xué)、語言學(xué)、聲學(xué)、認(rèn)知科學(xué)、生理學(xué)、心理學(xué)等好多學(xué)科也有特別親近的聯(lián)系。課程設(shè)計內(nèi)容內(nèi)容歸納:1、基于MATLAB的語音信號時域特色分析經(jīng)過學(xué)習(xí)、資料查閱,自己設(shè)計程序,給出某一語音信號的短時過零率、短時能量、短時自相關(guān)特色的分析結(jié)果,并分析語音信號的基音周期。2、基于MATLAB的語音信號頻域特色分析經(jīng)過學(xué)習(xí)、資料查閱,自己設(shè)計程序,給出某一

3、語音信號的短時譜、倒譜、語譜圖的分析結(jié)果,并語音信號的基音周期或共振峰。3、基于MATLAB的語音信號的LPC分析經(jīng)過學(xué)習(xí)、資料查閱,自己設(shè)計程序,給出某一語音信號的LPC分析結(jié)果,并分析語音信號的基音周期和共振峰。1、基于MATLAB的語音信號時域特色分析一、目的語音信號是一種非安穩(wěn)的時變信號,它攜帶著各種信息。在語音編碼、語音合成、語音鑒別和語音增強等語音辦理中無一例外需要提取語音中包括的各種信息。語音信號分析的目的就在與方便有效的提取并表示語音信號所攜帶的信息。語音信號分析可以分為時域和變換域等辦理方法,此中時域分析是最簡單的方法,直接對語音信號的時域波形進行分析,提取的特色參數(shù)主要有語

4、音的短時能量,短時均勻過零率,短時自相關(guān)函數(shù)等。本設(shè)計內(nèi)容要求掌握時域特色分析原理,并利用已學(xué)知識,編寫程序求解語音信號的短時過零率、短時能量、短時自相關(guān)特色,分析結(jié)果,并能掌握借助時域分析方法所求得的參數(shù)分析語音信號的基音周期及共振峰。1二、原理1.窗口的選擇經(jīng)過對發(fā)聲機理的認(rèn)識,語音信號可以以為是短時安穩(wěn)的。在550ms的范圍內(nèi),語音頻譜特征和一些物理特征參數(shù)基本保持不變。我們將每個短時的語音稱為一個分析幀。一般幀長取1030ms。我們采納一個長度有限的窗函數(shù)來截取語音信號形成分析幀。平常會采納矩形窗和漢明窗。圖1.1給出了這兩種窗函數(shù)在幀長N=50時的時域波形。)n(w2矩形窗1hanm

5、ing窗1.80.91.60.81.40.71.20.6)1n0.5(0.8w0.40.60.30.40.20.20.10204060020406000samplesample圖1.1矩形窗和Hamming窗的時域波形矩形窗的定義:一個N點的矩形窗函數(shù)定義為以下w(n)1,0nN0,其余hamming窗的定義:一個N點的hamming窗函數(shù)定義為以下0.540.46cos(2nw(n)=),0nNN10,其余這兩種窗函數(shù)都有低通特征,經(jīng)過分析這兩種窗的頻率響應(yīng)幅度特征可以發(fā)現(xiàn)(如圖1.2):矩形窗的主瓣寬度?。?*pi/N),擁有較高的頻率分辨率,旁瓣峰值大(-13.3dB),會以致泄漏現(xiàn)象;

6、漢明窗的主瓣寬8*pi/N,旁瓣峰值低(-42.7dB),可以有效的戰(zhàn)勝泄漏現(xiàn)象,擁有更光滑的低通特征。所以在語音頻譜分析經(jīng)常使用漢明窗,在計算短時能量和均勻幅度時平常用矩形窗。表1.1比較了這兩種窗函數(shù)的主瓣寬度和旁瓣峰值。2矩形窗頻率響應(yīng)0-20Bd/度-40幅-60-8000.10.20.30.40.50.60.70.80.91歸一化頻率(f/fs)Hamming窗頻率響應(yīng)0Bd/度-50幅-10000.10.20.30.40.50.60.70.80.91歸一化頻率(f/fs)圖1.2矩形窗和Hamming窗的頻率響應(yīng)表1.1矩形窗和hamming窗的主瓣寬度和旁瓣峰值窗函數(shù)主瓣寬度旁瓣

7、峰值矩形窗4*pi/N13.3dBhamming8*pi/N42.7dB2.短時能量因為語音信號的能量隨時間變化,清音和濁音之間的能量差異相當(dāng)明顯。所以對語音的短時能量進行分析,可以描繪語音的這類特色變化狀況。定義短時能量為:nEnx(m)w(nm)2x(m)w(nm)2mmnN1,此中N為窗長特別地,當(dāng)采納矩形窗時,可簡化為:Enx2(m)m圖1.3和圖1.4給出了不一樣矩形窗和hamming窗長的短時能量函數(shù),我們發(fā)現(xiàn):在用短時能量反響語音信號的幅度變化時,不一樣的窗函數(shù)以及相應(yīng)窗的長短均有影響。hamming窗的成效比矩形窗略好。但是,窗的長短影響起決定性作用。窗過大(N很大),等效于很

8、窄的低通濾波器,不可以反響幅度En的變化;窗過?。∟很小),短時能量隨時間急巨變化,不可以獲取光滑的能量函數(shù)。在11.025kHz左右的采樣頻率下,N選為100200比較適合。短時能量函數(shù)的應(yīng)用:1)可用于區(qū)分清音段與濁音段。En值大對應(yīng)于濁音段,En值小對應(yīng)于清音段。2)可用于區(qū)分濁音變成清音或清音變成濁音的時間(依據(jù)En值的變化趨勢)。3)對高信噪比的語音信號,也可以用來區(qū)分有無語音(語音信號的開始點或停止點)。無信號(或僅有噪聲能量)時,En值很小,有語音信號時,能量明顯增大。311度度0幅幅0樣-1樣-1采采020004000600080001000012000140001600018

9、000020004000600080001000012000140001600018000samplesample量42N=50量2N=50能能1時0時0短20004000600080001000012000140001600018000短2000400060008000100001200014000160001800000samplesample104量N=150量N=150能5能2時0時短20004000600080001000012000140001600018000短02000400060008000100001200014000160001800000samplesample量101

10、0N=250量5N=250能能5時0時短20004000600080001000012000140001600018000短02000400060008000100001200014000160001800000samplesample量20量10N=350N=350能10能5時時短0短20004000600080001000012000140001600018000sample20量量020004000600080001000012000140001600018000sample10能10N=450能5N=450時0時0短短0200040006000800010000120001400016

11、00018000020004000600080001000012000140001600018000samplesample圖1.3不一樣矩形窗長的短時能量函數(shù)圖1.4不一樣hamming窗長的短時能量函數(shù)3短時均勻過零率過零率可以反響信號的頻譜特征。當(dāng)失散時間信號相鄰兩個樣點的正負(fù)號相異時,我們稱之為“過零”,即此時信號的時間波形穿過了零電平的橫軸。統(tǒng)計單位時間內(nèi)樣點值改變符號的次數(shù)具可以獲取均勻過零率。定義短時均勻過零率:Znsgnxmsgnx(m1)w(nm)msgnx(n)1,x(n)0此中sgn為符號函數(shù),1,x(n)0,在矩形窗1nZnsgnx(m)sgnx(m1)2NmnN1條件

12、下,可以簡化為:短時過零率可以大體預(yù)計語音的頻譜特征。由語音的產(chǎn)生模型可知,發(fā)濁音時,聲帶振動,盡管聲道有多個共振峰,但因為聲門波引起了頻譜的高頻衰落,所以濁音能量集中于3KZ以下。而清音因為聲帶不振動,聲道的某些部位堵塞氣流產(chǎn)生類白噪聲,多數(shù)能量集中在較高頻率上。高頻率對應(yīng)著高過零率,低頻率對應(yīng)著低過零率,那么過零率與語音的清濁音就存在著對應(yīng)關(guān)系。.圖1.5為某一語音在矩形窗條件下求得的短時能量和短時均勻過零率。分析可知:清音的短時能量較低,過零率高,濁音的短時能量較高,過零率低。清音的過零率為0.5左右,濁音的過零率為0.1左右,兩但者分布之間有互相交疊的地域,所以單純依賴于均勻過零率來正

13、確判斷清濁音是不行能的,在實質(zhì)應(yīng)用中常常是采納語音的多個特色參數(shù)進行綜合判決。短時均勻過零率的應(yīng)用:1)差異清音和濁音。比方,清音的過零率高,濁音的過零率低。其余,清音和濁音的兩種過零落布都與高斯分布曲線比較符合。2)從背景噪聲中找出4語音信號。語音辦理領(lǐng)域中的一個基本問題是,如何將一串通續(xù)的語音信號進行適合的切割,以確立每個單詞語音的信號,亦即找出每個單詞的開始和停止地址。3)在孤立詞的語音識別中,可利用能量和過零作為有話無話的鑒別。10.5度幅樣采0-0.5200040006000800010000120001400016000180000sample86量能4時短202000400060

14、00800010000120001400016000180000sample0.50.4率零0.3過均0.2平時0.1短0200040006000800010000120001400016000180000sample圖1.5矩形窗條件下的短時均勻過零率4、短時自相關(guān)函數(shù)自相關(guān)函數(shù)用于衡量信號自己時間波形的相似性。清音和濁音的發(fā)聲機理不一樣,因此在波形上也存在著較大的差異。濁音的時間波形表現(xiàn)出必定的周期性,波形之間相似性較好;清音的時間波形表現(xiàn)出隨機噪聲的特征,樣點間的相似性較差。所以,我們用短時自相關(guān)函數(shù)來測定語音的相似特征。短時自相關(guān)函數(shù)定義為:Rn(k)x(m)w(nm)x(mk)w(n

15、mk)m令mnm,并且w(m)w(m),可以獲取:N1kRn(k)x(nm)w(m)x(nmk)w(mk)x(nm)w(m)x(nmk)w(mk)mm0圖6給出了清音的短時自相關(guān)函數(shù)波形,圖7給出了不一樣矩形窗長條件下(窗長分別為N=70,N=140,N=210,N=280)濁音的短時自相關(guān)函數(shù)波形。由圖1.6、圖1.7短時自相關(guān)函數(shù)波形分析可知:清音湊近于隨機噪聲,清音的短時自相關(guān)函數(shù)不擁有周期性,也沒有明顯崛起的峰值,且跟著延時k的增大迅速減??;濁音是周期信號,濁音的短時自相關(guān)函數(shù)呈現(xiàn)明顯的周期性,自相關(guān)函數(shù)的周期就是濁音信號的周期,依據(jù)這個性質(zhì)可以判斷一個語音信號是清音還是濁音,還可以判

16、斷濁音的基音周期。濁音語音的周期可用自相關(guān)函數(shù)中第一個峰值的地址來估量。所以在語音信號辦理中,自相關(guān)函數(shù)常用來作以下兩種語音信號特色的預(yù)計:1)區(qū)分語音是清音還是濁音;2)預(yù)計濁音語音信號的基音周期。50.080.060.040.020-0.02-0.04-0.06-0.08050100150200250300清音0.10.05)k(R0-0.05-0.1050100150200250300延時k圖1.6清音的短時自相關(guān)函數(shù))k(R)k(R)k(R)k(R5N=700-5020406080100120140160180200220延時k5N=1400-502040608010012014016

17、0180200220延時k10N=2100-10020406080100120140160180200220延時k10N=2800-10020406080100120140160180200220延時k圖1.7不一樣矩形窗長條件下的濁音的短時自相關(guān)函數(shù)5、時域分析方法的應(yīng)用1)基音頻率的預(yù)計第一可利用時域分析(短時能量、短時過零率、短時自相關(guān))方法的某一個特色或某幾個特色的結(jié)合,判斷某一語音有效的清音和濁音段;其次,針對濁音段,可直接利用短時自相關(guān)函數(shù)預(yù)計基音頻率,其方法是:估量濁音段第一最大峰的地址,再利用抽樣率計算基音頻率,舉例來說,若某一語音濁音段的第一最大峰值約為35個抽樣點,設(shè)抽樣頻

18、率為11.025KHZ,則基音頻率為11025/35=315HZ。但是,實質(zhì)上第一最大峰值地址有時其實不必定與基音周期符合。一方面與窗長相關(guān),另一方面還與聲道特征相關(guān)?;诖耍刹杉{三電平削波法先進行預(yù)辦理。2)語音端點的檢測與預(yù)計可利用時域分析(短時能量、短時過零率、短時自相關(guān))方法的某一個特色或某幾個特色的結(jié)合,判斷某一語音信號的端點,特別在有噪聲攪亂時,如何正確檢測語音信號的端點,這在語音辦理中是富裕挑戰(zhàn)性的一個課題。三、附錄(參照程序)1)短時能量(1)加矩形窗a=wavread(beifeng.wav);subplot(6,1,1),plot(a);N=32;fori=2:66h=l

19、inspace(1,1,2.(i-2)*N);%形成一個矩形窗,長度為2.(i-2)*NEn=conv(h,a.*a);%求短時能量函數(shù)Ensubplot(6,1,i),plot(En);if(i=2)legend(N=32);elseif(i=3)legend(N=64);elseif(i=4)legend(N=128);elseif(i=5)legend(N=256);elseif(i=6)legend(N=512);endend(2)加漢明窗a=wavread(beifeng.wav);subplot(6,1,1),plot(a);N=32;fori=2:6h=hanning(2.(i-

20、2)*N);%形成一個漢明窗,長度為2.(i-2)*NEn=conv(h,a.*a);%求短時能量函數(shù)Ensubplot(6,1,i),plot(En);if(i=2)legend(N=32);elseif(i=3)legend(N=64);elseif(i=4)legend(N=128);elseif(i=5)legend(N=256);elseif(i=6)legend(N=512);endend2)短時均勻過零率a=wavread(beifeng.wav);n=length(a);N=320;subplot(3,1,1),plot(a);h=linspace(1,1,N);En=conv

21、(h,a.*a);%求卷積得其短時能量函數(shù)Ensubplot(3,1,2),plot(En);fori=1:n-1ifa(i)=0b(i)=1;elseb(i)=-1;endifa(i+1)=0b(i+1)=1;else7b(i+1)=-1;endw(i)=abs(b(i+1)-b(i);%求出每相鄰兩點符號的差值的絕對值endk=1;j=0;while(k+N-1)nZm(k)=0;fori=0:N-1;Zm(k)=Zm(k)+w(k+i);endj=j+1;k=k+N/2;%每次挪動半個窗endforw=1:jQ(w)=Zm(160*(w-1)+1)/(2*N);%短時均勻過零率endsu

22、bplot(3,1,3),plot(Q),grid;3)自相關(guān)函數(shù)N=240Y=WAVREAD(beifeng.wav);x=Y(13271:13510);x=x.*rectwin(240);R=zeros(1,240);fork=1:240forn=1:240-kR(k)=R(k)+x(n)*x(n+k);endendj=1:240;plot(j,R);grid;2、基于MATLAB分析語音信號頻域特色一、目的信號的傅立葉表示在信號的分析與辦理中起側(cè)重要的作用。因為對于線性系統(tǒng)來說,可以很方便地確立其對正弦或復(fù)指數(shù)和的響應(yīng),所以傅立葉分析方法能完美地解決好多信號分析和辦理問題。其余,傅立葉表

23、示使信號的某些特征變得更明顯,所以,它能更深入地說明信號的各項紅物理現(xiàn)象。因為語音信號是跟著時間變化的,平常以為,語音是一個受準(zhǔn)周期脈沖或隨機噪聲源激勵的線性系統(tǒng)的輸出。輸出頻譜是聲道系統(tǒng)頻率響應(yīng)與激勵源頻譜的乘積。聲道系統(tǒng)的頻率8響應(yīng)及激勵源都是隨時間變化的,所以一般標(biāo)準(zhǔn)的傅立葉表示固然適用于周期及安穩(wěn)隨機信號的表示,但不可以直接用于語音信號。因為語音信號可以以為在短時間內(nèi),近似不變,因此可以采納短時分析法。本設(shè)計內(nèi)容要求掌握短時傅里葉分析原理,會利用已學(xué)的知識,編寫程序預(yù)計短時譜、倒譜,畫出語譜圖,并分析結(jié)果,在此基礎(chǔ)上,借助頻域分析方法所求得的參數(shù)分析語音信號的基音周期或共振峰。二、原理

24、1、短時傅立葉變換因為語音信號是短時安穩(wěn)的隨機信號,某一語音信號幀的短時傅立葉變換的定義為:Xn(ejw)x(m)w(nm)ejwmm(2.1)此中w(n-m)是實窗口函數(shù)序列,n表示某一語音信號幀。令n-m=k,則獲取Xn(ejw)kw(k)x(nk)ejw(nk)(2.2)于是可以獲取Xn(ejw)ejwnw(k)x(nk)ejwkk(2.3)假設(shè)Xn(ejw)w(k)x(nk)ejwkk(4)則可以獲取Xn(ejw)ejwnXn(ejw)(5)相同,不一樣的窗口函數(shù),將獲取不一樣的傅立葉變換式的結(jié)果。由上式可見,短時傅立葉變換有兩個變量:n和,所以它既是時序n的失散函數(shù),又是角頻率的連續(xù)

25、函數(shù)。與離散傅立葉變換迫近傅立葉變換相同,如令=2k/N,則得失散的短時傅立葉吧以下:nj2k/N)nX(eX(k)x(m)w(nm)ej2km/N,(0kN1)m(6)2、語譜圖水平方向是時間軸,垂直方向是頻率軸,圖上的灰度條紋代表各個時刻的語音短時譜。語譜圖反響了語音信號的動向頻率特征,在語音分析中擁有重要的適用價值。被成為可視語言。語譜圖的時間分辨率和頻率分辨率是由窗函數(shù)的特征決定的。時間分辨率高,可以看出時間波形的每個周期及共振峰隨時間的變化,但頻率分辨率低,不足以分辨因為激勵所形成的細(xì)微結(jié)構(gòu),稱為寬帶語譜圖;而窄帶語譜圖正好與之相反。9寬帶語譜圖可以獲取較高的時間分辨率,反響頻譜的迅

26、速時變過程;窄帶語譜圖可以獲取較高的頻率分辨率,反響頻譜的精良結(jié)構(gòu)。二者相結(jié)合,可以供給帶兩與語音特征相關(guān)的信息。語譜圖上因其不一樣的灰度,形成不一樣的紋路,稱之為“聲紋”。聲紋因人而異,所以可以在司法、安全等場合獲取應(yīng)用。3、復(fù)倒譜和倒譜Z變換,其表達(dá)式以下:復(fù)倒譜x(n)是x(n)的Z變換取對數(shù)后的逆xZ1lnZx(n)(7)倒譜c(n)定義為x(n)取Z變換后的幅度對數(shù)的逆Z變換,即c(n)z1ln|X(z)|(8)在時域上,語音產(chǎn)生模型其實是一個激勵信號與聲道沖激響應(yīng)的卷積。對于濁音,激勵信號可以由周期脈沖序列表示;對于清音,激勵信號可以由隨機噪聲序列表示。聲道系統(tǒng)相當(dāng)于參數(shù)緩慢變化的

27、零極點線性濾波器。這樣經(jīng)過同態(tài)辦理后,語音信號的復(fù)倒譜,激勵信號的復(fù)倒譜,聲道系統(tǒng)的復(fù)倒譜之間滿足下邊的關(guān)系:s(n)e(n)v(n)(9)因為倒譜對應(yīng)于復(fù)倒譜的偶部,所以倒譜與復(fù)倒譜擁有相同的特色,很簡單知道語音信號的倒譜,激勵信號的倒譜以及聲道系統(tǒng)的倒譜之間滿足下邊關(guān)系:cs(n)ce(n)cv(n)(10)濁音信號的倒譜中存在著峰值,它的出現(xiàn)地址等于該語音段的基音周期,而清音的倒譜中則不存在峰值。利用這個特色我們可以進行清濁音的判斷,并且可以預(yù)計濁音的基音周期。4、基音周期預(yù)計濁音信號的倒譜中存在峰值,它的出現(xiàn)地址等于該語音段的基音周期,而清音的倒譜中則不存在峰值。利用倒譜的這個特色,我

28、們可以進行語音的清濁音判決,并且可以預(yù)計濁音的基音周期。第一計算語音的倒譜,而后在可能出現(xiàn)的基音周期周邊找尋峰值。假如倒譜峰值超出了早先設(shè)置的門限,則輸入語音判斷為濁音,其峰值地址就是基音周期的預(yù)計值;反之,假如沒有超出門限的峰值的話,則輸入語音為清音。5、共振峰預(yù)計對倒譜進行濾波,拿出低時間部分進行進行逆特色系統(tǒng)辦理,可以獲取一個光滑的對數(shù)譜函數(shù),這個對數(shù)譜函數(shù)顯示了輸入語音段的共振峰結(jié)構(gòu),同時譜的峰值對應(yīng)于共振峰頻率。經(jīng)過此對數(shù)譜進行峰值檢測,就可以預(yù)計出前幾個共振峰的頻率和強度。對于濁音的聲道特征,可以采納前三個共振峰來描繪;清音不具備共振峰特色。三、參照結(jié)果短時譜10originals

29、ignal10.50-0.5-1024681012x10短時譜500-50-1004050100150200250300圖2.1短時譜語譜圖圖2.2語譜圖倒譜和復(fù)倒譜圖3、4是加矩形窗和漢明窗的倒譜圖和復(fù)倒譜圖,圖中橫軸的單位是Hz,縱軸的單位是dB。11加矩形窗時的倒譜10.50-0.5-1050100150200250300加矩形窗時的復(fù)倒譜50-5050100150200250300圖2.4加矩形窗時的倒譜和復(fù)倒譜圖加漢明窗時的倒譜10-1-2050100150200250300加漢明窗時的復(fù)倒譜20100-10-20050100150200250300圖2.3加漢明窗時倒譜和復(fù)倒譜圖基

30、音周期和共振峰預(yù)計10度幅譜-1倒-2-30100200300400500600點數(shù)NBd/度1000幅-100-2000100200300400500600時間/ms12圖2.5倒譜圖分析第15幀此中第一峰值出此刻第2個樣點,窗長為512(64ms),抽樣頻率為11KHz,說明基音頻率就在這個點上,其基音頻率為5.5KHz,基音周期為0.182ms。四、附錄(參照程序)1)短時譜cleara=wavread(beifeng.wav);subplot(2,1,1),plot(a);title(originalsignal);gridN=256;h=hamming(N);form=1:Nb(m)

31、=a(m)*h(m)endy=20*log(abs(fft(b)subplot(2,1,2)plot(y);title(短時譜);grid2)語譜圖x,fs,nbits=wavread(beifeng.wav)specgram(x,512,fs,100);xlabel(時間(s);ylabel(頻率(Hz);title(語譜圖);3)倒譜和復(fù)倒譜1)加矩形窗時的倒譜和復(fù)倒譜cleara=wavread(beifeng.wav,4000,4350);N=300;h=linspace(1,1,N);form=1:Nb(m)=a(m)*h(m);endc=cceps(b);c=fftshift(c)

32、;d=rceps(b);d=fftshift(d);subplot(2,1,1)plot(d);title(加矩形窗時的倒譜)13subplot(2,1,2)plot(c);title(加矩形窗時的復(fù)倒譜)(2)加漢明窗時的倒譜和復(fù)倒譜cleara=wavread(beifeng.wav,4000,4350);N=300;h=hamming(N);form=1:Nb(m)=a(m)*h(m);endc=cceps(b);c=fftshift(c);d=rceps(b);d=fftshift(d);subplot(2,1,1)plot(d);title(加漢明窗時的倒譜)subplot(2,1,

33、2)plot(c);title(加漢明窗時的復(fù)倒譜)3、基于MATLAB的語音信號LPC分析一、目的線性展望分析是最有效的語音分析技術(shù)之一,在語音編碼、語音合成、語音鑒別和說話人鑒別等語音辦理領(lǐng)域中獲取了廣泛的應(yīng)用。語音線性展望的基本思想是:一個語音信號的抽樣值可以用過去若干個取樣值的線性組合來迫近。經(jīng)過使實質(zhì)語音抽樣值與線性展望抽樣值的均方偏差達(dá)到最小,可以確立獨一的一組線性展望系數(shù)。采納線性展望分析不但可以獲取語音信號的展望波形,并且可以供給一個特別好的聲道模型。假如將語音模型看作激勵源經(jīng)過一個線性時不變系統(tǒng)產(chǎn)生的輸出,那么可以利用LP分析對聲道參數(shù)進行估值,以少許低信息率的時變參數(shù)精確地

34、描繪語音波形及其頻譜的性質(zhì)。其余,LP分析還可以對共振峰、功率譜等語音參數(shù)進行精確預(yù)計,LP分析獲取的參數(shù)可以作為語音識其余重要參數(shù)之一。因為語音是一種短時安穩(wěn)信號,所以只好利用一段語音來預(yù)計模型參數(shù)。此時有兩種方案:一種是將長的語音序列加窗,而后對加窗語音進行LP分析,只要限制窗的長度就可以保證分析的短時性,這類方案稱為自相關(guān)法;另一種方案不對語音加窗,而是在計算均方預(yù)測偏差時限制其取和區(qū)間,這樣可以導(dǎo)出LP分析的自協(xié)方差法。本設(shè)計內(nèi)容要求掌握LPC原理,會利用已學(xué)的知識,編寫程序預(yù)計線性展望系數(shù)以及LPC的推演參數(shù),并能利用所求的相關(guān)參數(shù)預(yù)計語音的端點、清濁音判斷、基音周期、共14振峰等。

35、二、原理語音產(chǎn)生的系統(tǒng)模型圖:以聲管模型為基礎(chǔ)的LPC模型1LP分析基根源理LP分析為線性時不變因果穩(wěn)固系統(tǒng)V(z)建立一個全極點模型,并利用均方偏差準(zhǔn)則,對已知的語音信號s(n)進行模型參數(shù)預(yù)計。假如利用P個取樣值來進行展望,則稱為P階線性展望。假設(shè)用過去P個取樣值Sn1,Sn2,Snp的加權(quán)之和來展望信號當(dāng)前取樣值Sn,則展望信號Sn為:pSnaknk(1)k1此中加權(quán)系數(shù)用ak表示,稱為展望系數(shù),則展望偏差為:pensnSnsnaknk(2)k1要使展望最正確,則要使短時均勻展望偏差最小有:Ee2nmin(3)e2n0,(1kp)ak(4)令i,kEsni,Snk(5)最小的可表示成:0

36、,0pak0,kmink1(6)15明顯,偏差越湊近于零,線性展望的正確度在均方偏差最小的意義上為最正確,由此可以計算出展望系數(shù)。經(jīng)過LPC分析,由若干幀語音可以獲取若干組LPC參數(shù),每組參數(shù)形成一個描繪該幀語音特色的矢量,即LPC特色矢量。由LPC特色矢量可以進一步獲取好多種派生特色矢量,比方線性展望倒譜系數(shù)、線譜對特色、部分相關(guān)系數(shù)、對數(shù)面積比等等。不一樣的特色矢量擁有不一樣的特色,它們在語音編碼和鑒別領(lǐng)域有著不一樣的應(yīng)用價值。自相關(guān)法在最正確線性展望中,若用下式定義的時間均勻最小均方準(zhǔn)則取代(3)式的會集均勻最小均方準(zhǔn)則,即令1Np12Nn0enmin(7)事實上就是短時自相關(guān)函數(shù),因此

37、Riki,k(8)RkESn,Snk(9)依據(jù)安穩(wěn)隨機信號的自相關(guān)性質(zhì),可得i,kRik,i1,2p;k0,1p(10)由(6)式,可得:pminR0akRk(11)k1綜上所述,可以獲取以下矩陣形式:a1R1R1RP1R0a2R2R0RP2(12)R1a3R3anRP1RP2R0Rp值得注意的是,自相關(guān)法在計算展望偏差時,數(shù)據(jù)段S0,S1,Sn1的兩端都需要加P個零取樣值,因此可造成譜預(yù)計失真。特別是在短數(shù)據(jù)段的狀況下,這一現(xiàn)實更為嚴(yán)重。其余,當(dāng)展望系數(shù)目化時,有可能造成實質(zhì)系統(tǒng)的不穩(wěn)固。自相關(guān)解法主要有杜賓算法、格型算法和舒爾算法等幾種高效遞計算法。3協(xié)方差法假如在最正確線性展望中,用下式

38、定義的時間均勻最小均方準(zhǔn)則取代(3)式的會集均勻最小均方準(zhǔn)則,則可獲取近似的方程:1N12nminNnep(13)16可以看出,這里的數(shù)據(jù)段兩端不需要增加零取樣值。在理論上,協(xié)方差法計算出來的預(yù)測系數(shù)有可能造成展望偏差濾波器的不穩(wěn)固,但在實質(zhì)被騙每幀信號取樣足夠多時,其計算結(jié)果將與自相關(guān)法的結(jié)果很湊近,因此穩(wěn)固性一般是可以保證的(自然這類方法也有量化效應(yīng)可能引起不穩(wěn)固的弊端)。協(xié)方差解法的最大長處在于不存在自相關(guān)法中兩端出現(xiàn)很大展望偏差的狀況,在N和P相差不大時,其參數(shù)估值比自相關(guān)法要精確的多。但是在語音信號辦理時,常常取N在200左右。此時,自相關(guān)法擁有較大偏差的段落在整個語音段中所占的比率

39、很小,參數(shù)估值也是比較正確的。在這類狀況下,協(xié)方差法偏差較小的長處就不再突出,其缺少高效遞計算法的弊端成為了限制要素。所以,在語音信號辦理中常常使用高效的自相關(guān)法。4全極點聲道模型將線性展望分析應(yīng)用于語音信號辦理,不但是為了利用其展望功能,更因為它供給了一個特別好的聲道模型(拜見上述“語音產(chǎn)生的系統(tǒng)模型圖”)。將式(2)所示的方程看作是濾波器在語音信號激勵下的輸入輸出方程,則該濾波器稱為展望偏差濾波器,其e(n)是輸出偏差。變換到z域,P階展望偏差濾波器的系統(tǒng)函數(shù)為piHz1i1iaz(14)可以看出,假如將展望偏差e(n)作為激勵信號,使其經(jīng)過展望偏差濾波器的逆濾波器H(Z),即Hz11AZ

40、1paizii1(15)則H(Z)的輸出為語音信號s(n),也就是說,H(Z)在展望偏差e(n)的激勵下可以合成語音。所以,H(Z)被稱為語音信號的全極點模型,也稱為語音合成器。該模型的參數(shù)就是P階線性展望的展望系數(shù)aii1,2,p。因為展望偏差含有語音信號的基音信息,所以對于濁音,模型的激勵信號源是以基音周期重復(fù)的單位脈沖;對于清音,激勵信號源e(n)是自噪聲。語音信號的全極點模型是一種很重要的聲道模型,是好多應(yīng)用和研究的基礎(chǔ)。5模型增益G模型的激勵信號Gen表示為:pGensnaisnii1(16)展望偏差e(n)如式(2),這樣當(dāng)實質(zhì)的展望系數(shù)與模型系數(shù)相等時,有nGen(17)這說明激

41、勵信號正比于偏差信號,其比率常數(shù)等于模型增益G。平常假設(shè)偏差信號的能量等于輸入激勵信號的能量,所以可以獲?。篘1N1G2e2m2mEnm0m0(18)17對于式中的激勵信號en,主要分為濁音和清音兩種狀況。此中為濁音時,考慮到此時實際的激勵信號為聲門脈沖,所以可以將激勵信號表示為n0時的單位抽樣。為了保證這個假設(shè)建立,要求分析的區(qū)間應(yīng)該大體和語音基音周期的長度相等。當(dāng)語音為清音時,我們假定激勵信號en為一個零均值、單位方差的安穩(wěn)白噪聲過程。采納自相關(guān)解法時,濁音的模型增益為pEnRn0aiRniG2i1(19)清音計算模型增益的公式和濁音相同。三、參照結(jié)果我們使用的原始語音為“北風(fēng)”,采樣頻率

42、為11000Hz,運轉(zhuǎn)程序見附錄。在這里我們?nèi)〉?0幀進行觀察,線性展望階數(shù)為12,看到圖3.1所示的原始語音幀的波形,展望語音幀波形和它們之間展望偏差的波形。圖3.2為原始語音幀和展望語音幀的短時譜和LPC譜的波形原始語音波形10-12468101204原始語音和展望語音波形x100.50-0.5501001502002503000展望偏差0.20-0.2501001502002503000圖3.1原始語音幀、展望語音幀和展望偏差的波形短時譜1000度幅-100-200010203040506070頻率/dBLPC譜200150度100幅500010203040506070頻率/dB18圖3

43、.2原始語音幀和展望語音幀的短時譜和LPC譜的波形這里我們可以改變線性偏差的階數(shù)來觀察語音幀的短時譜和LP譜的變化狀況,如圖3.3。P1=51000度幅-100-200102030405060700頻率/dBP1=101000度幅-100-200102030405060700頻率/dBP1=201000度幅-100-200102030405060700頻率/dB圖3.3展望階數(shù)對語音幀短時譜和LPC譜的影響從圖中可以看出,P越大,LPC譜越能反響出語音短時譜的細(xì)節(jié)部分,但LPC譜的光滑度隨之降落。因為我們的目的不過用LPC譜反響聲道綜合效應(yīng)的譜的表示式,而詳盡的諧波形狀是經(jīng)過激勵譜來控制的,所

44、以LPC譜只要可以表現(xiàn)出語音的共振峰的結(jié)構(gòu)和譜包絡(luò)就可以,所以從計算復(fù)雜性的角度分析,展望階數(shù)P應(yīng)該適中。圖3.4是原始語音和展望偏差的倒譜波形,我們可以從被騙算出原始語音的基音周期。從圖中看出兩峰值之間的間隔為40點左右,基音周期為40/11000=3.6ms,頻率為278Hz左右。原始語音幀倒譜10Bd/-1-2501001502002503000語音幀展望偏差倒譜10Bd/-1-2050100150200250300語音幀圖3.4原始語音和展望偏差的倒譜波形圖3.5給出了原始語音的語譜圖和展望語音的語譜圖,經(jīng)過比較發(fā)現(xiàn),展望語音的展望成效還可以,基音頻率相差無幾。19原始語音語譜圖60y

45、cn40euqre2000100200300400500600700800900Time展望語音語譜圖60ycn40euqre2000100200300400500600700800900Time圖3.5原始語音的語譜圖和展望語音的語譜圖三、附錄(LPC分析參照程序)MusicSource=wavread(bei);Music_source=MusicSource;N=256;%windowlength,N=100-1000;Hamm=hamming(N);%createHammingwindowframe=input(請鍵入想要辦理的幀地址=);%originiscurrentframeorigin=Music_source(frame-1)*(N/2)+1):(frame-1)*(N/2)+N);Frame=origin.*Hamm;%ShortTimeFourierTransform%s1,f1,t1=specgram(MusicSource,N,N/2,N);Xs1,Ys1=size(s1);fori=1:Xs1FTframe1(i)=s1(i,frame);endN1=

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論