版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、講 義課程設(shè)計(jì)目的:深入了解專業(yè)課程知識(shí)的應(yīng)用,加強(qiáng)實(shí)踐訓(xùn)練內(nèi)容簡(jiǎn)介:步驟:查閱資料,了解相關(guān)基本理論知識(shí) 運(yùn)行調(diào)試程序,實(shí)現(xiàn)設(shè)計(jì)要求,并理解程序運(yùn)行結(jié)果 撰寫課程設(shè)計(jì)報(bào)告基于MATLAB的語(yǔ)音信號(hào)時(shí)域、頻域特征分析語(yǔ)音信號(hào)處理是研究用數(shù)字信號(hào)處理技術(shù)和語(yǔ)音學(xué)知識(shí)對(duì)語(yǔ)音信號(hào)進(jìn)行處理的新興的學(xué)科,是目前發(fā)展最為迅速的信息科學(xué)研究領(lǐng)域的核心技術(shù)之一。通過(guò)語(yǔ)音傳遞信息是人類最重要、最有效、最常用和最方便的交換信息形式。同時(shí),語(yǔ)言也是人與機(jī)器之間進(jìn)行通信的重要工具,它是一種理想的人機(jī)通信方式,因而可為信息處理系統(tǒng)建立良好的人機(jī)交互環(huán)境,進(jìn)一步推動(dòng)計(jì)算機(jī)和其他智能機(jī)器的應(yīng)用,提高社會(huì)的信息化程度。語(yǔ)音信
2、號(hào)處理是一門新興的學(xué)科,同時(shí)又是綜合性的多學(xué)科領(lǐng)域和涉及面很廣的交叉學(xué)科。雖然從事這一領(lǐng)域研究的人員主要來(lái)自信號(hào)與信息處理及計(jì)算機(jī)應(yīng)用等學(xué)科,但是它與語(yǔ)音學(xué)、語(yǔ)言學(xué)、聲學(xué)、認(rèn)知科學(xué)、生理學(xué)、心理學(xué)等許多學(xué)科也有非常密切的聯(lián)系。課程設(shè)計(jì)內(nèi)容內(nèi)容概述:1、基于MATLAB的語(yǔ)音信號(hào)時(shí)域特征分析通過(guò)學(xué)習(xí)、資料查閱,自己設(shè)計(jì)程序,給出某一語(yǔ)音信號(hào)的短時(shí)過(guò)零率、短時(shí)能量、短時(shí)自相關(guān)特征的分析結(jié)果,并分析語(yǔ)音信號(hào)的基音周期。2、基于MATLAB的語(yǔ)音信號(hào)頻域特征分析通過(guò)學(xué)習(xí)、資料查閱,自己設(shè)計(jì)程序,給出某一語(yǔ)音信號(hào)的短時(shí)譜、倒譜、語(yǔ)譜圖的分析結(jié)果,并語(yǔ)音信號(hào)的基音周期或共振峰。3、基于MATLAB的語(yǔ)音信
3、號(hào)的LPC分析通過(guò)學(xué)習(xí)、資料查閱,自己設(shè)計(jì)程序,給出某一語(yǔ)音信號(hào)的LPC分析結(jié)果,并分析語(yǔ)音信號(hào)的基音周期和共振峰。-1、基于MATLAB的語(yǔ)音信號(hào)時(shí)域特征分析一、目的語(yǔ)音信號(hào)是一種非平穩(wěn)的時(shí)變信號(hào),它攜帶著各種信息。在語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別和語(yǔ)音增強(qiáng)等語(yǔ)音處理中無(wú)一例外需要提取語(yǔ)音中包含的各種信息。語(yǔ)音信號(hào)分析的目的就在與方便有效的提取并表示語(yǔ)音信號(hào)所攜帶的信息。語(yǔ)音信號(hào)分析可以分為時(shí)域和變換域等處理方法,其中時(shí)域分析是最簡(jiǎn)單的方法,直接對(duì)語(yǔ)音信號(hào)的時(shí)域波形進(jìn)行分析,提取的特征參數(shù)主要有語(yǔ)音的短時(shí)能量,短時(shí)平均過(guò)零率,短時(shí)自相關(guān)函數(shù)等。本設(shè)計(jì)內(nèi)容要求掌握時(shí)域特征分析原理,并利用已學(xué)知識(shí)
4、,編寫程序求解語(yǔ)音信號(hào)的短時(shí)過(guò)零率、短時(shí)能量、短時(shí)自相關(guān)特征,分析結(jié)果,并能掌握借助時(shí)域分析方法所求得的參數(shù)分析語(yǔ)音信號(hào)的基音周期及共振峰。二、原理1.窗口的選擇通過(guò)對(duì)發(fā)聲機(jī)理的認(rèn)識(shí),語(yǔ)音信號(hào)可以認(rèn)為是短時(shí)平穩(wěn)的。在550ms的范圍內(nèi),語(yǔ)音頻譜特性和一些物理特性參數(shù)基本保持不變。我們將每個(gè)短時(shí)的語(yǔ)音稱為一個(gè)分析幀。一般幀長(zhǎng)取1030ms。我們采用一個(gè)長(zhǎng)度有限的窗函數(shù)來(lái)截取語(yǔ)音信號(hào)形成分析幀。通常會(huì)采用矩形窗和漢明窗。圖1.1給出了這兩種窗函數(shù)在幀長(zhǎng)N=50時(shí)的時(shí)域波形。圖1.1 矩形窗和Hamming窗的時(shí)域波形矩形窗的定義:一個(gè)N點(diǎn)的矩形窗函數(shù)定義為如下 hamming窗的定義:一個(gè)N點(diǎn)的h
5、amming窗函數(shù)定義為如下 這兩種窗函數(shù)都有低通特性,通過(guò)分析這兩種窗的頻率響應(yīng)幅度特性可以發(fā)現(xiàn)(如圖1.2):矩形窗的主瓣寬度?。?*pi/N),具有較高的頻率分辨率,旁瓣峰值大(-13.3dB),會(huì)導(dǎo)致泄漏現(xiàn)象;漢明窗的主瓣寬8*pi/N,旁瓣峰值低(-42.7dB),可以有效的克服泄漏現(xiàn)象,具有更平滑的低通特性。因此在語(yǔ)音頻譜分析時(shí)常使用漢明窗,在計(jì)算短時(shí)能量和平均幅度時(shí)通常用矩形窗。表1.1對(duì)比了這兩種窗函數(shù)的主瓣寬度和旁瓣峰值。 圖1.2 矩形窗和Hamming窗的頻率響應(yīng)表1.1 矩形窗和hamming窗的主瓣寬度和旁瓣峰值窗函數(shù)主瓣寬度旁瓣峰值矩形窗4*pi/N13.3dBha
6、mming8*pi/N42.7dB2.短時(shí)能量 由于語(yǔ)音信號(hào)的能量隨時(shí)間變化,清音和濁音之間的能量差別相當(dāng)顯著。因此對(duì)語(yǔ)音的短時(shí)能量進(jìn)行分析,可以描述語(yǔ)音的這種特征變化情況。定義短時(shí)能量為:,其中N為窗長(zhǎng) 特殊地,當(dāng)采用矩形窗時(shí),可簡(jiǎn)化為: 圖1.3和圖1.4給出了不同矩形窗和hamming窗長(zhǎng)的短時(shí)能量函數(shù),我們發(fā)現(xiàn):在用短時(shí)能量反映語(yǔ)音信號(hào)的幅度變化時(shí),不同的窗函數(shù)以及相應(yīng)窗的長(zhǎng)短均有影響。hamming窗的效果比矩形窗略好。但是,窗的長(zhǎng)短影響起決定性作用。窗過(guò)大(N 很大),等效于很窄的低通濾波器,不能反映幅度En的變化;窗過(guò)?。?N 很小),短時(shí)能量隨時(shí)間急劇變化,不能得到平滑的能量函
7、數(shù)。在11.025kHz左右的采樣頻率下,N 選為100200比較合適。短時(shí)能量函數(shù)的應(yīng)用:1)可用于區(qū)分清音段與濁音段。En值大對(duì)應(yīng)于濁音段,En值小對(duì)應(yīng)于清音段。2)可用于區(qū)分濁音變?yōu)榍逡艋蚯逡糇優(yōu)闈嵋舻臅r(shí)間(根據(jù)En值的變化趨勢(shì))。3)對(duì)高信噪比的語(yǔ)音信號(hào),也可以用來(lái)區(qū)分有無(wú)語(yǔ)音(語(yǔ)音信號(hào)的開(kāi)始點(diǎn)或終止點(diǎn))。無(wú)信號(hào)(或僅有噪聲能量)時(shí),En值很小,有語(yǔ)音信號(hào)時(shí),能量顯著增大。 圖1.3 不同矩形窗長(zhǎng)的短時(shí)能量函數(shù) 圖1.4 不同hamming窗長(zhǎng)的短時(shí)能量函數(shù) 3短時(shí)平均過(guò)零率過(guò)零率可以反映信號(hào)的頻譜特性。當(dāng)離散時(shí)間信號(hào)相鄰兩個(gè)樣點(diǎn)的正負(fù)號(hào)相異時(shí),我們稱之為“過(guò)零”,即此時(shí)信號(hào)的時(shí)間波形
8、穿過(guò)了零電平的橫軸。統(tǒng)計(jì)單位時(shí)間內(nèi)樣點(diǎn)值改變符號(hào)的次數(shù)具可以得到平均過(guò)零率。定義短時(shí)平均過(guò)零率: 其中為符號(hào)函數(shù),在矩形窗條件下,可以簡(jiǎn)化為: 短時(shí)過(guò)零率可以粗略估計(jì)語(yǔ)音的頻譜特性。由語(yǔ)音的產(chǎn)生模型可知,發(fā)濁音時(shí),聲帶振動(dòng),盡管聲道有多個(gè)共振峰,但由于聲門波引起了頻譜的高頻衰落,因此濁音能量集中于3KZ以下。而清音由于聲帶不振動(dòng),聲道的某些部位阻塞氣流產(chǎn)生類白噪聲,多數(shù)能量集中在較高頻率上。高頻率對(duì)應(yīng)著高過(guò)零率,低頻率對(duì)應(yīng)著低過(guò)零率,那么過(guò)零率與語(yǔ)音的清濁音就存在著對(duì)應(yīng)關(guān)系。.圖1.5為某一語(yǔ)音在矩形窗條件下求得的短時(shí)能量和短時(shí)平均過(guò)零率。分析可知:清音的短時(shí)能量較低,過(guò)零率高,濁音的短時(shí)能量
9、較高,過(guò)零率低。清音的過(guò)零率為0.5左右,濁音的過(guò)零率為0.1左右,兩但者分布之間有相互交疊的區(qū)域,所以單純依賴于平均過(guò)零率來(lái)準(zhǔn)確判斷清濁音是不可能的,在實(shí)際應(yīng)用中往往是采用語(yǔ)音的多個(gè)特征參數(shù)進(jìn)行綜合判決。短時(shí)平均過(guò)零率的應(yīng)用:1)區(qū)別清音和濁音。例如,清音的過(guò)零率高,濁音的過(guò)零率低。此外,清音和濁音的兩種過(guò)零分布都與高斯分布曲線比較吻合。2)從背景噪聲中找出語(yǔ)音信號(hào)。語(yǔ)音處理領(lǐng)域中的一個(gè)基本問(wèn)題是,如何將一串連續(xù)的語(yǔ)音信號(hào)進(jìn)行適當(dāng)?shù)姆指睿源_定每個(gè)單詞語(yǔ)音的信號(hào),亦即找出每個(gè)單詞的開(kāi)始和終止位置。3)在孤立詞的語(yǔ)音識(shí)別中,可利用能量和過(guò)零作為有話無(wú)話的鑒別。 圖1.5 矩形窗條件下的短時(shí)平均
10、過(guò)零率4、短時(shí)自相關(guān)函數(shù)自相關(guān)函數(shù)用于衡量信號(hào)自身時(shí)間波形的相似性。清音和濁音的發(fā)聲機(jī)理不同,因而在波形上也存在著較大的差異。濁音的時(shí)間波形呈現(xiàn)出一定的周期性,波形之間相似性較好;清音的時(shí)間波形呈現(xiàn)出隨機(jī)噪聲的特性,樣點(diǎn)間的相似性較差。因此,我們用短時(shí)自相關(guān)函數(shù)來(lái)測(cè)定語(yǔ)音的相似特性。短時(shí)自相關(guān)函數(shù)定義為: 令,并且,可以得到: 圖6給出了清音的短時(shí)自相關(guān)函數(shù)波形,圖7給出了不同矩形窗長(zhǎng)條件下(窗長(zhǎng)分別為N=70,N=140,N=210,N=280)濁音的短時(shí)自相關(guān)函數(shù)波形。由圖1.6、圖1.7短時(shí)自相關(guān)函數(shù)波形分析可知:清音接近于隨機(jī)噪聲,清音的短時(shí)自相關(guān)函數(shù)不具有周期性,也沒(méi)有明顯突起的峰值
11、,且隨著延時(shí)k的增大迅速減小;濁音是周期信號(hào),濁音的短時(shí)自相關(guān)函數(shù)呈現(xiàn)明顯的周期性,自相關(guān)函數(shù)的周期就是濁音信號(hào)的周期,根據(jù)這個(gè)性質(zhì)可以判斷一個(gè)語(yǔ)音信號(hào)是清音還是濁音,還可以判斷濁音的基音周期。濁音語(yǔ)音的周期可用自相關(guān)函數(shù)中第一個(gè)峰值的位置來(lái)估算。所以在語(yǔ)音信號(hào)處理中,自相關(guān)函數(shù)常用來(lái)作以下兩種語(yǔ)音信號(hào)特征的估計(jì):1)區(qū)分語(yǔ)音是清音還是濁音;2)估計(jì)濁音語(yǔ)音信號(hào)的基音周期。 圖1.6 清音的短時(shí)自相關(guān)函數(shù)圖1.7 不同矩形窗長(zhǎng)條件下的濁音的短時(shí)自相關(guān)函數(shù) 5、時(shí)域分析方法的應(yīng)用1)基音頻率的估計(jì)首先可利用時(shí)域分析(短時(shí)能量、短時(shí)過(guò)零率、短時(shí)自相關(guān))方法的某一個(gè)特征或某幾個(gè)特征的結(jié)合,判定某一語(yǔ)
12、音有效的清音和濁音段;其次,針對(duì)濁音段,可直接利用短時(shí)自相關(guān)函數(shù)估計(jì)基音頻率,其方法是:估算濁音段第一最大峰的位置,再利用抽樣率計(jì)算基音頻率,舉例來(lái)說(shuō),若某一語(yǔ)音濁音段的第一最大峰值約為35個(gè)抽樣點(diǎn),設(shè)抽樣頻率為11.025KHZ,則基音頻率為11025/35=315 HZ。但是,實(shí)際上第一最大峰值位置有時(shí)并不一定與基音周期吻合。一方面與窗長(zhǎng)有關(guān),另一方面還與聲道特性有關(guān)。鑒于此,可采用三電平削波法先進(jìn)行預(yù)處理。2)語(yǔ)音端點(diǎn)的檢測(cè)與估計(jì)可利用時(shí)域分析(短時(shí)能量、短時(shí)過(guò)零率、短時(shí)自相關(guān))方法的某一個(gè)特征或某幾個(gè)特征的結(jié)合,判定某一語(yǔ)音信號(hào)的端點(diǎn),尤其在有噪聲干擾時(shí),如何準(zhǔn)確檢測(cè)語(yǔ)音信號(hào)的端點(diǎn),這
13、在語(yǔ)音處理中是富有挑戰(zhàn)性的一個(gè)課題。三、附錄(參考程序)1) 短時(shí)能量 (1)加矩形窗 a=wavread('beifeng.wav');subplot(6,1,1),plot(a);N=32;for i=2:6h=linspace(1,1,2.(i-2)*N);%形成一個(gè)矩形窗,長(zhǎng)度為2.(i-2)*N En=conv(h,a.*a);% 求短時(shí)能量函數(shù)En subplot(6,1,i),plot(En);if(i=2) legend('N=32');elseif(i=3) legend('N=64');elseif(i=4) legend(&
14、#39;N=128');elseif(i=5) legend('N=256');elseif(i=6) legend('N=512');endend(2)加漢明窗 a=wavread('beifeng.wav');subplot(6,1,1),plot(a);N=32;for i=2:6h=hanning(2.(i-2)*N);%形成一個(gè)漢明窗,長(zhǎng)度為2.(i-2)*N En=conv(h,a.*a);% 求短時(shí)能量函數(shù)En subplot(6,1,i),plot(En);if(i=2) legend('N=32');el
15、seif(i=3) legend('N=64');elseif(i=4) legend('N=128');elseif(i=5) legend('N=256');elseif(i=6) legend('N=512');endend2) 短時(shí)平均過(guò)零率a=wavread('beifeng.wav');n=length(a);N=320;subplot(3,1,1),plot(a);h=linspace(1,1,N);En=conv(h,a.*a); %求卷積得其短時(shí)能量函數(shù)Ensubplot(3,1,2),plot(
16、En); for i=1:n-1 if a(i)>=0 b(i)= 1; else b(i) = -1; end if a(i+1)>=0 b(i+1)=1; else b(i+1)= -1; end w(i)=abs(b(i+1)-b(i); %求出每相鄰兩點(diǎn)符號(hào)的差值的絕對(duì)值 end k=1; j=0;while (k+N-1)<n Zm(k)=0; for i=0:N-1; Zm(k)=Zm(k)+w(k+i); end j=j+1; k=k+N/2; %每次移動(dòng)半個(gè)窗 end for w=1:j Q(w)=Zm(160*(w-1)+1)/(2*N); %短時(shí)平均過(guò)零率
17、 end subplot(3,1,3),plot(Q),grid;3) 自相關(guān)函數(shù) N=240Y=WAVREAD('beifeng.wav');x=Y(13271:13510);x=x.*rectwin(240);R=zeros(1,240);for k=1:240for n=1:240-kR(k)=R(k)+x(n)*x(n+k);endend j=1:240;plot(j,R);grid;2、基于MATLAB分析語(yǔ)音信號(hào)頻域特征一、目的信號(hào)的傅立葉表示在信號(hào)的分析與處理中起著重要的作用。因?yàn)閷?duì)于線性系統(tǒng)來(lái)說(shuō),可以很方便地確定其對(duì)正弦或復(fù)指數(shù)和的響應(yīng),所以傅立葉分析方法能完善
18、地解決許多信號(hào)分析和處理問(wèn)題。另外,傅立葉表示使信號(hào)的某些特性變得更明顯,因此,它能更深入地說(shuō)明信號(hào)的各項(xiàng)紅物理現(xiàn)象。 由于語(yǔ)音信號(hào)是隨著時(shí)間變化的,通常認(rèn)為,語(yǔ)音是一個(gè)受準(zhǔn)周期脈沖或隨機(jī)噪聲源激勵(lì)的線性系統(tǒng)的輸出。輸出頻譜是聲道系統(tǒng)頻率響應(yīng)與激勵(lì)源頻譜的乘積。聲道系統(tǒng)的頻率響應(yīng)及激勵(lì)源都是隨時(shí)間變化的,因此一般標(biāo)準(zhǔn)的傅立葉表示雖然適用于周期及平穩(wěn)隨機(jī)信號(hào)的表示,但不能直接用于語(yǔ)音信號(hào)。由于語(yǔ)音信號(hào)可以認(rèn)為在短時(shí)間內(nèi),近似不變,因而可以采用短時(shí)分析法。本設(shè)計(jì)內(nèi)容要求掌握短時(shí)傅里葉分析原理,會(huì)利用已學(xué)的知識(shí),編寫程序估計(jì)短時(shí)譜、倒譜,畫出語(yǔ)譜圖,并分析結(jié)果,在此基礎(chǔ)上,借助頻域分析方法所求得的參
19、數(shù)分析語(yǔ)音信號(hào)的基音周期或共振峰。二、原理1、短時(shí)傅立葉變換由于語(yǔ)音信號(hào)是短時(shí)平穩(wěn)的隨機(jī)信號(hào),某一語(yǔ)音信號(hào)幀的短時(shí)傅立葉變換的定義為: (2.1)其中w(n-m)是實(shí)窗口函數(shù)序列,n表示某一語(yǔ)音信號(hào)幀。令n-m=k',則得到 (2.2)于是可以得到 (2.3)假定 (4)則可以得到 (5)同樣,不同的窗口函數(shù),將得到不同的傅立葉變換式的結(jié)果。由上式可見(jiàn),短時(shí)傅立葉變換有兩個(gè)變量:n和,所以它既是時(shí)序n的離散函數(shù),又是角頻率的連續(xù)函數(shù)。與離散傅立葉變換逼近傅立葉變換一樣,如令=2k/N,則得離散的短時(shí)傅立葉吧如下: (6)2、語(yǔ)譜圖水平方向是時(shí)間軸,垂直方向是頻率軸,圖上的灰度條紋代表各
20、個(gè)時(shí)刻的語(yǔ)音短時(shí)譜。語(yǔ)譜圖反映了語(yǔ)音信號(hào)的動(dòng)態(tài)頻率特性,在語(yǔ)音分析中具有重要的實(shí)用價(jià)值。被成為可視語(yǔ)言。語(yǔ)譜圖的時(shí)間分辨率和頻率分辨率是由窗函數(shù)的特性決定的。時(shí)間分辨率高,可以看出時(shí)間波形的每個(gè)周期及共振峰隨時(shí)間的變化,但頻率分辨率低,不足以分辨由于激勵(lì)所形成的細(xì)微結(jié)構(gòu),稱為寬帶語(yǔ)譜圖;而窄帶語(yǔ)譜圖正好與之相反。寬帶語(yǔ)譜圖可以獲得較高的時(shí)間分辨率,反映頻譜的快速時(shí)變過(guò)程;窄帶語(yǔ)譜圖可以獲得較高的頻率分辨率,反映頻譜的精細(xì)結(jié)構(gòu)。兩者相結(jié)合,可以提供帶兩與語(yǔ)音特性相關(guān)的信息。語(yǔ)譜圖上因其不同的灰度,形成不同的紋路,稱之為“聲紋”。聲紋因人而異,因此可以在司法、安全等場(chǎng)合得到應(yīng)用。3、復(fù)倒譜和倒譜復(fù)
21、倒譜是x(n)的Z變換取對(duì)數(shù)后的逆Z變換,其表達(dá)式如下: (7)倒譜c(n)定義為x(n)取Z變換后的幅度對(duì)數(shù)的逆Z變換,即 (8)在時(shí)域上,語(yǔ)音產(chǎn)生模型實(shí)際上是一個(gè)激勵(lì)信號(hào)與聲道沖激響應(yīng)的卷積。對(duì)于濁音,激勵(lì)信號(hào)可以由周期脈沖序列表示;對(duì)于清音,激勵(lì)信號(hào)可以由隨機(jī)噪聲序列表示。聲道系統(tǒng)相當(dāng)于參數(shù)緩慢變化的零極點(diǎn)線性濾波器。這樣經(jīng)過(guò)同態(tài)處理后,語(yǔ)音信號(hào)的復(fù)倒譜,激勵(lì)信號(hào)的復(fù)倒譜,聲道系統(tǒng)的復(fù)倒譜之間滿足下面的關(guān)系: (9)由于倒譜對(duì)應(yīng)于復(fù)倒譜的偶部,因此倒譜與復(fù)倒譜具有同樣的特點(diǎn),很容易知道語(yǔ)音信號(hào)的倒譜,激勵(lì)信號(hào)的倒譜以及聲道系統(tǒng)的倒譜之間滿足下面關(guān)系: (10)濁音信號(hào)的倒譜中存在著峰值,
22、它的出現(xiàn)位置等于該語(yǔ)音段的基音周期,而清音的倒譜中則不存在峰值。利用這個(gè)特點(diǎn)我們可以進(jìn)行清濁音的判斷,并且可以估計(jì)濁音的基音周期。4、基音周期估計(jì)濁音信號(hào)的倒譜中存在峰值,它的出現(xiàn)位置等于該語(yǔ)音段的基音周期,而清音的倒譜中則不存在峰值。利用倒譜的這個(gè)特點(diǎn),我們可以進(jìn)行語(yǔ)音的清濁音判決,并且可以估計(jì)濁音的基音周期。首先計(jì)算語(yǔ)音的倒譜,然后在可能出現(xiàn)的基音周期附近尋找峰值。如果倒譜峰值超過(guò)了預(yù)先設(shè)置的門限,則輸入語(yǔ)音判斷為濁音,其峰值位置就是基音周期的估計(jì)值;反之,如果沒(méi)有超出門限的峰值的話,則輸入語(yǔ)音為清音。5、共振峰估計(jì)對(duì)倒譜進(jìn)行濾波,取出低時(shí)間部分進(jìn)行進(jìn)行逆特征系統(tǒng)處理,可以得到一個(gè)平滑的對(duì)
23、數(shù)譜函數(shù),這個(gè)對(duì)數(shù)譜函數(shù)顯示了輸入語(yǔ)音段的共振峰結(jié)構(gòu),同時(shí)譜的峰值對(duì)應(yīng)于共振峰頻率。通過(guò)此對(duì)數(shù)譜進(jìn)行峰值檢測(cè),就可以估計(jì)出前幾個(gè)共振峰的頻率和強(qiáng)度。對(duì)于濁音的聲道特性,可以采用前三個(gè)共振峰來(lái)描述;清音不具備共振峰特點(diǎn)。三、參考結(jié)果1 短時(shí)譜 圖2.1 短時(shí)譜2 語(yǔ)譜圖 圖2.2 語(yǔ)譜圖3 倒譜和復(fù)倒譜圖3、4是加矩形窗和漢明窗的倒譜圖和復(fù)倒譜圖,圖中橫軸的單位是Hz,縱軸的單位是dB。圖2.4 加矩形窗時(shí)的倒譜和復(fù)倒譜圖 圖2.3 加漢明窗時(shí)倒譜和復(fù)倒譜圖 4 基音周期和共振峰估計(jì) 圖2.5 倒譜圖分析第15幀其中第一峰值出現(xiàn)在第2個(gè)樣點(diǎn),窗長(zhǎng)為512(64ms),抽樣頻率為11KHz,說(shuō)明基
24、音頻率就在這個(gè)點(diǎn)上,其基音頻率為5.5KHz,基音周期為0.182ms。四、附錄(參考程序)1)短時(shí)譜 cleara=wavread('beifeng.wav');subplot(2,1,1),plot(a);title('original signal');gridN=256;h=hamming(N);for m=1:N b(m)=a(m)*h(m)end y=20*log(abs(fft(b)subplot(2,1,2)plot(y);title('短時(shí)譜');grid2)語(yǔ)譜圖 x,fs,nbits=wavread('beifeng
25、.wav')specgram(x,512,fs,100); xlabel('時(shí)間(s)');ylabel('頻率(Hz)');title('語(yǔ)譜圖');3)倒譜和復(fù)倒譜(1)加矩形窗時(shí)的倒譜和復(fù)倒譜cleara=wavread('beifeng.wav',4000,4350);N=300;h=linspace(1,1,N);for m=1:Nb(m)=a(m)*h(m);end c=cceps(b);c=fftshift(c);d=rceps(b);d=fftshift(d); subplot(2,1,1)plot(d);
26、title('加矩形窗時(shí)的倒譜')subplot(2,1,2)plot(c);title('加矩形窗時(shí)的復(fù)倒譜')(2)加漢明窗時(shí)的倒譜和復(fù)倒譜cleara=wavread('beifeng.wav',4000,4350);N=300;h=hamming(N);for m=1:Nb(m)=a(m)*h(m);end c=cceps(b);c=fftshift(c);d=rceps(b);d=fftshift(d); subplot(2,1,1)plot(d);title('加漢明窗時(shí)的倒譜')subplot(2,1,2)plot(
27、c);title('加漢明窗時(shí)的復(fù)倒譜')3、基于MATLAB的語(yǔ)音信號(hào)LPC分析一、目的線性預(yù)測(cè)分析是最有效的語(yǔ)音分析技術(shù)之一,在語(yǔ)音編碼、語(yǔ)音合成、語(yǔ)音識(shí)別和說(shuō)話人識(shí)別等語(yǔ)音處理領(lǐng)域中得到了廣泛的應(yīng)用。語(yǔ)音線性預(yù)測(cè)的基本思想是:一個(gè)語(yǔ)音信號(hào)的抽樣值可以用過(guò)去若干個(gè)取樣值的線性組合來(lái)逼近。通過(guò)使實(shí)際語(yǔ)音抽樣值與線性預(yù)測(cè)抽樣值的均方誤差達(dá)到最小,可以確定唯一的一組線性預(yù)測(cè)系數(shù)。采用線性預(yù)測(cè)分析不僅能夠得到語(yǔ)音信號(hào)的預(yù)測(cè)波形,而且能夠提供一個(gè)非常好的聲道模型。如果將語(yǔ)音模型看作激勵(lì)源通過(guò)一個(gè)線性時(shí)不變系統(tǒng)產(chǎn)生的輸出,那么可以利用LP分析對(duì)聲道參數(shù)進(jìn)行估值,以少量低信息率的時(shí)變參數(shù)
28、精確地描述語(yǔ)音波形及其頻譜的性質(zhì)。此外,LP分析還能夠?qū)舱穹?、功率譜等語(yǔ)音參數(shù)進(jìn)行精確估計(jì),LP分析得到的參數(shù)可以作為語(yǔ)音識(shí)別的重要參數(shù)之一。由于語(yǔ)音是一種短時(shí)平穩(wěn)信號(hào),因此只能利用一段語(yǔ)音來(lái)估計(jì)模型參數(shù)。此時(shí)有兩種方案:一種是將長(zhǎng)的語(yǔ)音序列加窗,然后對(duì)加窗語(yǔ)音進(jìn)行LP分析,只要限定窗的長(zhǎng)度就可以保證分析的短時(shí)性,這種方案稱為自相關(guān)法;另一種方案不對(duì)語(yǔ)音加窗,而是在計(jì)算均方預(yù)測(cè)誤差時(shí)限制其取和區(qū)間,這樣可以導(dǎo)出LP分析的自協(xié)方差法。本設(shè)計(jì)內(nèi)容要求掌握LPC原理,會(huì)利用已學(xué)的知識(shí),編寫程序估計(jì)線性預(yù)測(cè)系數(shù)以及LPC的推演參數(shù),并能利用所求的相關(guān)參數(shù)估計(jì)語(yǔ)音的端點(diǎn)、清濁音判斷、基音周期、共振峰等
29、。二、原理語(yǔ)音產(chǎn)生的系統(tǒng)模型圖:以聲管模型為基礎(chǔ)的LPC模型1 LP分析基本原理LP分析為線性時(shí)不變因果穩(wěn)定系統(tǒng)V(z)建立一個(gè)全極點(diǎn)模型,并利用均方誤差準(zhǔn)則,對(duì)已知的語(yǔ)音信號(hào)s(n)進(jìn)行模型參數(shù)估計(jì)。如果利用P個(gè)取樣值來(lái)進(jìn)行預(yù)測(cè),則稱為P階線性預(yù)測(cè)。假設(shè)用過(guò)去P個(gè)取樣值的加權(quán)之和來(lái)預(yù)測(cè)信號(hào)當(dāng)前取樣值,則預(yù)測(cè)信號(hào)為: (1)其中加權(quán)系數(shù)用表示,稱為預(yù)測(cè)系數(shù),則預(yù)測(cè)誤差為: (2)要使預(yù)測(cè)最佳,則要使短時(shí)平均預(yù)測(cè)誤差最小有: (3) (4)令 (5) 最小的可表示成: (6)顯然,誤差越接近于零,線性預(yù)測(cè)的準(zhǔn)確度在均方誤差最小的意義上為最佳,由此可以計(jì)算出預(yù)測(cè)系數(shù)。通過(guò)LPC分析,由若干幀語(yǔ)音可
30、以得到若干組LPC參數(shù),每組參數(shù)形成一個(gè)描繪該幀語(yǔ)音特征的矢量,即LPC特征矢量。由LPC特征矢量可以進(jìn)一步得到很多種派生特征矢量,例如線性預(yù)測(cè)倒譜系數(shù)、線譜對(duì)特征、部分相關(guān)系數(shù)、對(duì)數(shù)面積比等等。不同的特征矢量具有不同的特點(diǎn),它們?cè)谡Z(yǔ)音編碼和識(shí)別領(lǐng)域有著不同的應(yīng)用價(jià)值。2 自相關(guān)法在最佳線性預(yù)測(cè)中,若用下式定義的時(shí)間平均最小均方準(zhǔn)則代替(3)式的集合平均最小均方準(zhǔn)則,即令 (7) 事實(shí)上就是短時(shí)自相關(guān)函數(shù),因而 (8) (9)根據(jù)平穩(wěn)隨機(jī)信號(hào)的自相關(guān)性質(zhì),可得 (10) 由(6)式,可得: (11) 綜上所述,可以得到如下矩陣形式: (12)值得注意的是,自相關(guān)法在計(jì)算預(yù)測(cè)誤差時(shí),數(shù)據(jù)段的兩端
31、都需要加P個(gè)零取樣值,因而可造成譜估計(jì)失真。特別是在短數(shù)據(jù)段的情況下,這一現(xiàn)實(shí)更為嚴(yán)重。另外,當(dāng)預(yù)測(cè)系數(shù)量化時(shí),有可能造成實(shí)際系統(tǒng)的不穩(wěn)定。自相關(guān)解法主要有杜賓算法、格型算法和舒爾算法等幾種高效遞推算法。3 協(xié)方差法如果在最佳線性預(yù)測(cè)中,用下式定義的時(shí)間平均最小均方準(zhǔn)則代替(3)式的集合平均最小均方準(zhǔn)則,則可得到類似的方程: (13) 可以看出,這里的數(shù)據(jù)段兩端不需要添加零取樣值。在理論上,協(xié)方差法計(jì)算出來(lái)的預(yù)測(cè)系數(shù)有可能造成預(yù)測(cè)誤差濾波器的不穩(wěn)定,但在實(shí)際上當(dāng)每幀信號(hào)取樣足夠多時(shí),其計(jì)算結(jié)果將與自相關(guān)法的結(jié)果很接近,因而穩(wěn)定性一般是能夠保證的 (當(dāng)然這種方法也有量化效應(yīng)可能引起不穩(wěn)定的缺點(diǎn))
32、。協(xié)方差解法的最大優(yōu)點(diǎn)在于不存在自相關(guān)法中兩端出現(xiàn)很大預(yù)測(cè)誤差的情況,在N和P相差不大時(shí),其參數(shù)估值比自相關(guān)法要精確的多。但是在語(yǔ)音信號(hào)處理時(shí),往往取N在200左右。此時(shí),自相關(guān)法具有較大誤差的段落在整個(gè)語(yǔ)音段中所占的比例很小,參數(shù)估值也是比較準(zhǔn)確的。在這種情況下,協(xié)方差法誤差較小的優(yōu)點(diǎn)就不再突出,其缺乏高效遞推算法的缺點(diǎn)成為了制約因素。所以,在語(yǔ)音信號(hào)處理中往往使用高效的自相關(guān)法。4 全極點(diǎn)聲道模型將線性預(yù)測(cè)分析應(yīng)用于語(yǔ)音信號(hào)處理,不僅是為了利用其預(yù)測(cè)功能,更因?yàn)樗峁┝艘粋€(gè)非常好的聲道模型(參見(jiàn)上述“語(yǔ)音產(chǎn)生的系統(tǒng)模型圖”)。將式(2)所示的方程看成是濾波器在語(yǔ)音信號(hào)激勵(lì)下的輸入輸出方程,
33、則該濾波器稱為預(yù)測(cè)誤差濾波器,其e(n)是輸出誤差。變換到z域,P階預(yù)測(cè)誤差濾波器的系統(tǒng)函數(shù)為 (14) 可以看出,如果將預(yù)測(cè)誤差e(n)作為激勵(lì)信號(hào),使其通過(guò)預(yù)測(cè)誤差濾波器的逆濾波器H(Z),即 (15) 則H(Z)的輸出為語(yǔ)音信號(hào)s(n),也就是說(shuō),H(Z)在預(yù)測(cè)誤差e(n)的激勵(lì)下可以合成語(yǔ)音。因此,H(Z)被稱為語(yǔ)音信號(hào)的全極點(diǎn)模型,也稱為語(yǔ)音合成器。該模型的參數(shù)就是P階線性預(yù)測(cè)的預(yù)測(cè)系數(shù)。因?yàn)轭A(yù)測(cè)誤差含有語(yǔ)音信號(hào)的基音信息,所以對(duì)于濁音,模型的激勵(lì)信號(hào)源是以基音周期重復(fù)的單位脈沖;對(duì)于清音,激勵(lì)信號(hào)源e(n)是自噪聲。語(yǔ)音信號(hào)的全極點(diǎn)模型是一種很重要的聲道模型,是許多應(yīng)用和研究的基礎(chǔ)
34、。5 模型增益G模型的激勵(lì)信號(hào)表示為: (16) 預(yù)測(cè)誤差e(n)如式(2),這樣當(dāng)實(shí)際的預(yù)測(cè)系數(shù)與模型系數(shù)相等時(shí),有 (17) 這說(shuō)明激勵(lì)信號(hào)正比于誤差信號(hào),其比例常數(shù)等于模型增益G。通常假設(shè)誤差信號(hào)的能量等于輸入激勵(lì)信號(hào)的能量,因此可以得到: (18) 對(duì)于式中的激勵(lì)信號(hào),主要分為濁音和清音兩種情況。其中為濁音時(shí),考慮到此時(shí)實(shí)際的激勵(lì)信號(hào)為聲門脈沖,因此可以將激勵(lì)信號(hào)表示為時(shí)的單位抽樣。為了保證這個(gè)假設(shè)成立,要求分析的區(qū)間應(yīng)該大致和語(yǔ)音基音周期的長(zhǎng)度相等。當(dāng)語(yǔ)音為清音時(shí),我們假定激勵(lì)信號(hào)為一個(gè)零均值、單位方差的平穩(wěn)白噪聲過(guò)程。采用自相關(guān)解法時(shí),濁音的模型增益為 (19)清音計(jì)算模型增益的公
35、式和濁音相同。三、參考結(jié)果我們使用的原始語(yǔ)音為“北風(fēng)”,采樣頻率為11000Hz,運(yùn)行程序見(jiàn)附錄。在這里我們?nèi)〉?0幀進(jìn)行觀察,線性預(yù)測(cè)階數(shù)為12,看到圖3.1所示的原始語(yǔ)音幀的波形,預(yù)測(cè)語(yǔ)音幀波形和它們之間預(yù)測(cè)誤差的波形。圖3.2為原始語(yǔ)音幀和預(yù)測(cè)語(yǔ)音幀的短時(shí)譜和LPC譜的波形圖3.1 原始語(yǔ)音幀、預(yù)測(cè)語(yǔ)音幀和預(yù)測(cè)誤差的波形圖3.2 原始語(yǔ)音幀和預(yù)測(cè)語(yǔ)音幀的短時(shí)譜和LPC譜的波形這里我們可以改變線性誤差的階數(shù)來(lái)觀察語(yǔ)音幀的短時(shí)譜和LP譜的變化情況,如圖3.3。圖3.3 預(yù)測(cè)階數(shù)對(duì)語(yǔ)音幀短時(shí)譜和LPC譜的影響從圖中可以看出,P越大,LPC譜越能反映出語(yǔ)音短時(shí)譜的細(xì)節(jié)部分,但LPC譜的光滑度隨之
36、下降。由于我們的目的只是用LPC譜反映聲道綜合效應(yīng)的譜的表示式,而具體的諧波形狀是通過(guò)激勵(lì)譜來(lái)控制的,因此LPC譜只要能夠體現(xiàn)出語(yǔ)音的共振峰的結(jié)構(gòu)和譜包絡(luò)就可以,因此從計(jì)算復(fù)雜性的角度分析,預(yù)測(cè)階數(shù)P應(yīng)該適中。圖3.4是原始語(yǔ)音和預(yù)測(cè)誤差的倒譜波形,我們可以從中計(jì)算出原始語(yǔ)音的基音周期。從圖中看出兩峰值之間的間隔為40點(diǎn)左右,基音周期為40/11000=3.6ms,頻率為278Hz左右。圖3.4 原始語(yǔ)音和預(yù)測(cè)誤差的倒譜波形圖3.5給出了原始語(yǔ)音的語(yǔ)譜圖和預(yù)測(cè)語(yǔ)音的語(yǔ)譜圖,通過(guò)比較發(fā)現(xiàn),預(yù)測(cè)語(yǔ)音的預(yù)測(cè)效果還可以,基音頻率相差無(wú)幾。圖3.5 原始語(yǔ)音的語(yǔ)譜圖和預(yù)測(cè)語(yǔ)音的語(yǔ)譜圖三、附錄(LPC分析
37、參考程序)MusicSource = wavread('bei');Music_source = MusicSource'N = 256; % window length,N = 100 - 1000;Hamm = hamming(N); % create Hamming windowframe = input('請(qǐng)鍵入想要處理的幀位置 = ');% origin is current frameorigin = Music_source(frame - 1) * (N / 2) + 1):(frame - 1) * (N / 2) + N);Frame
38、 = origin .* Hamm' %Short Time Fourier Transform%s1,f1,t1 = specgram(MusicSource,N,N/2,N); Xs1,Ys1 = size(s1);for i = 1:Xs1 FTframe1(i) = s1(i,frame);end N1 = input('請(qǐng)鍵入預(yù)測(cè)器階數(shù) = '); % N1 is predictor's ordercoef,gain = lpc(Frame,N1); % LPC analysis using Levinson-Durbin recursionest_F
39、rame = filter(0 -coef(2:end),1,Frame); % estimate frame(LP)FFT_est = fft(est_Frame);err = Frame - est_Frame; % error% FFT_err = fft(err);subplot(2,1,1),plot(1:N,Frame,1:N,est_Frame,'-r');grid;title('原始語(yǔ)音幀vs.預(yù)測(cè)后語(yǔ)音幀')subplot(2,1,2),plot(err);grid;title('誤差');pause %subplot(2,1,2),plot(f',20*log(abs(FTframe2);grid;title('短時(shí)譜') % Gain solution using G2 = Rn(0) - sum(ai*Rn(i)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年建材市場(chǎng)商鋪?zhàn)赓U及品牌展示合同2篇
- 二零二五版A4一頁(yè)紙環(huán)保印刷定制合同2篇
- 二零二五年度活動(dòng)板房租賃合同(含消防設(shè)施及安全檢查)3篇
- 二零二五版城市綠化帶基站場(chǎng)地租賃與景觀融合合同3篇
- 二零二五版辦公室能源管理合同3篇
- 二零二五年度高性能1號(hào)不銹鋼駁接爪批量采購(gòu)供貨合同2篇
- 二零二五版企業(yè)清算注銷及員工安置及補(bǔ)償及債務(wù)清理合同3篇
- 二零二五版金融資產(chǎn)抵押交易合同范本3篇
- 二零二五版古建筑修復(fù)工程勞務(wù)承包施工合同2篇
- 二零二五版鋼材現(xiàn)貨及期貨交易合同示范文本3篇
- QCT1067.5-2023汽車電線束和電器設(shè)備用連接器第5部分:設(shè)備連接器(插座)的型式和尺寸
- 輪式智能移動(dòng)操作機(jī)器人技術(shù)與應(yīng)用-基于ROS的Python編程 課件 第4章 機(jī)器人運(yùn)動(dòng)應(yīng)用實(shí)例
- 2024質(zhì)量管理理解、評(píng)價(jià)和改進(jìn)組織的質(zhì)量文化指南
- 手指外傷后護(hù)理查房
- 油氣回收相關(guān)理論知識(shí)考試試題及答案
- 我能作業(yè)更細(xì)心(課件)-小學(xué)生主題班會(huì)二年級(jí)
- 2023年湖北省武漢市高考數(shù)學(xué)一模試卷及答案解析
- 城市軌道交通的網(wǎng)絡(luò)安全與數(shù)據(jù)保護(hù)
- 英國(guó)足球文化課件
- 《行政職業(yè)能力測(cè)驗(yàn)》2023年公務(wù)員考試新疆維吾爾新疆生產(chǎn)建設(shè)兵團(tuán)可克達(dá)拉市預(yù)測(cè)試題含解析
- 醫(yī)院投訴案例分析及處理要點(diǎn)
評(píng)論
0/150
提交評(píng)論