廣州大學(xué)數(shù)字語音復(fù)習(xí)資料(復(fù)好了必過)_第1頁
廣州大學(xué)數(shù)字語音復(fù)習(xí)資料(復(fù)好了必過)_第2頁
廣州大學(xué)數(shù)字語音復(fù)習(xí)資料(復(fù)好了必過)_第3頁
廣州大學(xué)數(shù)字語音復(fù)習(xí)資料(復(fù)好了必過)_第4頁
廣州大學(xué)數(shù)字語音復(fù)習(xí)資料(復(fù)好了必過)_第5頁
已閱讀5頁,還剩62頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

數(shù)字語音處理總復(fù)習(xí)語音信號處理的實(shí)質(zhì)學(xué)科基礎(chǔ)

以語音語言學(xué)和數(shù)字信號處理為基礎(chǔ)而形成的一門涉及面很廣的學(xué)科,與語言學(xué)、聲學(xué)、認(rèn)知科學(xué)、心理學(xué)、生理學(xué)、計(jì)算機(jī)科學(xué)、通信與信息科學(xué)、模式識別和人工智能等學(xué)科均有密切的關(guān)系。用數(shù)字化的方法進(jìn)行語音的傳送、存儲、合成、識別和增強(qiáng)等技術(shù)是整個(gè)數(shù)字化通信網(wǎng)中最重要最基本的組成部分。

語音信號的數(shù)字處理方法語音信號的特點(diǎn)—短時(shí)平穩(wěn)性短時(shí)時(shí)域處理方法—短時(shí)能量、短時(shí)平均過零率以及短時(shí)自相關(guān)函數(shù)計(jì)算短時(shí)頻域分析—短時(shí)傅立葉分析線性預(yù)測技術(shù)—本質(zhì)上屬于時(shí)域分析方法,但其結(jié)果可以是頻域參數(shù)倒譜和同態(tài)分析、矢量量化和隱馬爾可夫模型語音壓縮和編碼—語音通信數(shù)字化;語音合成—自動(dòng)報(bào)站、自動(dòng)報(bào)時(shí)、自動(dòng)警告、電話自動(dòng)查詢和語音提示等;語音識別—聲控應(yīng)用、自動(dòng)口語翻譯;說話人識別—安全加密、銀行信息電話查詢服務(wù)以及破案和法庭取證;語音增強(qiáng)—通常作為語音處理的前端。語音信號處理技術(shù)的應(yīng)用5Goldwave (audioeditor)EspsXwaves (routines+visual.)Praat (speechanalysis)Wavesurfer (speecheditor)Transcriber (annotationtool)Matlab (generalpurposesoft)OGIspeechtools (routines+app.dev.)…winpitch,pitchworks,phonedit,cooledit,Cooledit,SFS,Nerowaveedit…..一些常用的語音波形分析與處理的軟件語音信號處理基礎(chǔ)知識肺聲帶聲道直流氣流聲音嘴唇聲壓波速度波能源激勵(lì)源諧振源輻射源交流氣流語音產(chǎn)生過程2.語音產(chǎn)生過程語音的形成過程—空氣由肺部排入喉部,經(jīng)過聲帶進(jìn)入聲道,最后由嘴輻射出聲波,形成語音。濁音(Voicedsounds):聲帶繃緊,氣流通過時(shí)會使得開口變成一開一閉的周期性動(dòng)作,這時(shí)候就造成周期性的激發(fā)氣流,如a,o;清音(UnvoicedorFricativesounds):聲帶完全舒展,聲道某部位收縮形成一個(gè)狹窄的通道,產(chǎn)生空氣湍流,如t,d;爆破音:聲帶完全舒展,聲道的某部位完全閉合,一旦閉合點(diǎn)突然開啟,空氣壓力快速釋放,如b,p。能被人耳聽到,它的振動(dòng)頻率在20~20000Hz之間

2.語音產(chǎn)生過程語音的兩個(gè)重要聲學(xué)特性:濁音的基音頻率(F0):由聲帶的尺寸、特性和聲帶所受張力決定,其值等于聲帶張開和閉合一次的時(shí)間的倒數(shù)。人類基音頻率的范圍在80~500Hz左右。共振峰(Fn,n=1,2,...):聲道是一個(gè)諧振腔,它放大聲音氣流的某些頻率分量而衰減其他頻率分量,被放大的頻率我們稱之為共振峰或共振峰頻率。聲道具有的一組共振峰,聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個(gè)峰的頻帶寬度。共振峰及其帶寬取決于聲道某一瞬間的形狀和尺寸,因而不同的語音對應(yīng)于一組不同的共振峰參數(shù)。實(shí)際應(yīng)用中,頭三個(gè)共振峰最重要,越多越精確。語音信號產(chǎn)生的數(shù)字模型在研究了發(fā)聲器官和語音的產(chǎn)生過程以后,便可以建立一個(gè)離散時(shí)域的語音信號產(chǎn)生的數(shù)字模型,它將是我們將數(shù)字信號處理技術(shù)應(yīng)用于語音信號的基礎(chǔ)。下圖是一個(gè)完整的語音信號產(chǎn)生的數(shù)字模型:數(shù)字語音信號表示(RepresentationsofSpeechSignals)(1)激勵(lì)模型由此模型框圖,我們可將語音信號看成準(zhǔn)周期序列或隨機(jī)噪聲序列作為激勵(lì)的線性非移變系統(tǒng)的輸出,此模型可分為三個(gè)部分:激勵(lì)模型、聲道模型、輻射模型激勵(lì)模型根據(jù)發(fā)濁音和發(fā)清音的機(jī)理又分為:(a)濁音激勵(lì)(b)清音激勵(lì)(a)濁音激勵(lì)由前面所講發(fā)音過程可知,發(fā)濁音時(shí)聲帶不斷地張開和閉合將產(chǎn)生間歇的準(zhǔn)周期性脈沖波,其周期為基音周期,單個(gè)脈沖的波形類似于斜三角波,故數(shù)字模型中可用周期為T0單位取樣序列串作為聲門脈沖模型g(n)的輸入,其輸出就是濁音激勵(lì)。由于人類語音的頻率范圍主要集中在300Hz~3400Hz,數(shù)字模型中的信號取樣率一般為8KHz。3、語音信號產(chǎn)生的數(shù)字模型(1)激勵(lì)模型由圖可見,它是一個(gè)低通濾波器。頻率分析表明,其幅度譜按12dB/倍頻程的速率衰減。如果將其表示為Z變換的全極模型的形式,有G(z)=1/(1-g1z-1)(1-g2z-1)如果g1和g2的值都接近于1,則由此形成的激勵(lì)信號頻譜很接近于聲門脈沖的頻譜。顯然,上式表明斜三角波可描述為一個(gè)二階極點(diǎn)的模型。需要指出,不同人、不同語音,其聲門脈沖的形狀不一定相同,但在語音合成中對其形狀要求不很苛刻,只要其傅里葉變換有近似的特性就可以了。

周期性的斜三角波脈沖可看做加權(quán)的單位脈沖串激勵(lì)上述單個(gè)斜三角脈沖的結(jié)果。而周期沖激序列及幅值因子可表示成下面的Z變換形式E(z)=AV/(1-z-1)(2-5)所以整個(gè)激勵(lì)模型可表示為U(z)=G(z)E(z)=AV/(1-z-1)·1/(1-g1z-1)(1-g2z-1)(2-6)(1)激勵(lì)模型(b)清音激勵(lì)發(fā)清音時(shí)聲道被阻礙形成湍流,所以可把清音激勵(lì)模擬成隨機(jī)白噪聲。此處用均值為0方差為1并在幅值上為平穩(wěn)分布的序列,具體實(shí)現(xiàn)時(shí)可采用隨機(jī)噪聲發(fā)生器來產(chǎn)生此序列。(1)激勵(lì)模型(2)聲道模型兩種建模方法:(a)聲管模型(b)共振峰模型共振峰模型將聲道視為一個(gè)諧振腔,按此原則導(dǎo)出?;诟鞣N音素發(fā)音的不同諧振特點(diǎn)可建立起三種實(shí)用的共振峰模型:(a)級聯(lián)型(b)并聯(lián)型(c)混合型(2)聲道模型(a)級聯(lián)型:適用于一般單元音,認(rèn)為聲道是一組串聯(lián)的二階諧振器:這是一個(gè)全極點(diǎn)模型,極點(diǎn)就是這個(gè)多項(xiàng)式的根:若P為偶數(shù),解其根會得到共扼復(fù)數(shù)(conjugatecomplex)的根,表示成:(2)聲道模型F=1/T--取樣頻率

i/--共振峰的頻寬。Fi是--共振峰(formant)的中心頻率這樣分解則每一個(gè)二階因式均對應(yīng)一個(gè)共振峰,其幅頻特性是典型的二階諧振特性,諧振中心頻率值等于共振峰。若把語音的各個(gè)共振峰所對應(yīng)的二階系統(tǒng)級聯(lián)起來就形成了一個(gè)完整的級聯(lián)型聲道模型,且具有明顯的諧振特性。(2)聲道模型(b)并聯(lián)型適用于鼻音、復(fù)合元音及大部分輔音,發(fā)這些音時(shí)發(fā)音腔體具有反諧振特性,必須在模型中加入零點(diǎn)以減弱諧振強(qiáng)度,故要考慮用零、極點(diǎn)模型:通常P>R,假設(shè)分子與分母無公因子且分母無重根,則此式可分解為以下部分分式之和的形式:這就是并聯(lián)型共振峰模型,每一個(gè)二階因式對應(yīng)一個(gè)共振峰。每個(gè)二階諧振器的幅度可單獨(dú)控制。(2)聲道模型前面兩種共振峰模型各自都只能適用于部分語音,級聯(lián)或并聯(lián)的級數(shù)取決于聲道的長度,一般成人取3到5級。級聯(lián)型結(jié)構(gòu)較為簡單,并聯(lián)型各諧振器幅度可獨(dú)立控制,綜合考慮兩者的優(yōu)缺點(diǎn)可將兩種共振峰模型有機(jī)地結(jié)合起來就得到一種較為完備的共振峰模型。(2)聲道模型在發(fā)音腔道內(nèi)形成的氣流經(jīng)由嘴唇端輻射出來,到達(dá)聽者耳朵的這段過程,聲音信號會衰減,而且有高通濾波的特性,我們常用一個(gè)一階的數(shù)字高通濾波器擬這個(gè)現(xiàn)象,這個(gè)濾波器又叫做輻射模型(radiationmodel),其數(shù)學(xué)式如下完整的數(shù)字模型的系統(tǒng)函數(shù)由激勵(lì)模型、聲道模型和輻射模型的級聯(lián)來表示:(3)輻射模型(c)混合型我們可以根據(jù)發(fā)音的需要自動(dòng)切換串聯(lián)或并聯(lián)通路,此外并聯(lián)部分還有一條直通路徑,其幅度控制因子為AB,這是專為一些頻譜特性較為平坦的音素如[f]、[p]、[b]而考慮的,以增強(qiáng)反諧振特性。(2)聲道模型人類的聽覺功能掩蔽效應(yīng)(maskingeffect)當(dāng)一個(gè)聲音存在時(shí),它會將另一個(gè)聲音的感知臨界值提高,也就是說當(dāng)某一頻率的聲音,有一特定音強(qiáng)存在時(shí),另一個(gè)不同頻率的聲音要將音強(qiáng)提高才會被聽到,這就是聽覺掩蔽效應(yīng)。

同時(shí)存在的聲音,常常是低頻的聲音傾向于掩蔽掉高頻的聲音,這是一種頻率掩蔽(frequencymasking)的現(xiàn)象。某一段時(shí)間存在一個(gè)聲音,在此聲音剛結(jié)束的一小段時(shí)間內(nèi),其它的聲音會聽不見這種掩蔽現(xiàn)象叫做時(shí)間掩蔽(temporalmasking)。這個(gè)現(xiàn)象也會發(fā)生在此存在聲音之前,這是由于聲音在聽覺器官中傳遞時(shí)延遲所造成的。短時(shí)分析技術(shù):語音信號有時(shí)變特性,是一個(gè)非平穩(wěn)的隨機(jī)過程。但在一個(gè)短時(shí)間范圍內(nèi)其特性基本保持不變。即語音的“短時(shí)平穩(wěn)性”?!岸虝r(shí)分析”,即對語音信號流采用分段處理。將其分為一段一段來分析,其中每一段稱為一“幀”,由于語音通常在10~30ms之內(nèi)是保持相對平穩(wěn)的,因而幀長一般取為10~30ms。注:對于某些要求較高的研究領(lǐng)域或應(yīng)用場合(如語音識別),應(yīng)該考慮語音信號是時(shí)變或非平穩(wěn)的,此時(shí)應(yīng)采用“隱馬爾可夫模型”3.1語音信號的短時(shí)處理方法

加窗取語音幀對于一段語音的離散時(shí)間信號x(m),用一個(gè)固定長度的窗口(window)套上去,只看窗口內(nèi)的信號,對這些信號做計(jì)算,用以求出在這窗口內(nèi)的語音特征(speechfeatures)。這樣的處理方式,就叫加窗(windowing),而套上去的這一段語音即稱為語音幀(frame)。通常窗口的長度是取10~40毫秒(ms),這樣一段語音信號,足以計(jì)算出語音的特征參數(shù)(featureparameters)。窗口的移動(dòng)距離,大約會取5~20ms,讓前后的語音幀有部分重疊,這樣能觀察到語音特征改變的延續(xù)性以保證分析的準(zhǔn)確性。3.1語音信號的短時(shí)處理方法

加窗取語音幀3.1語音信號的短時(shí)處理方法

加窗取語音幀假設(shè)加窗的長度為N,在時(shí)域中可以寫成(3-13)將窗函數(shù)w(m)乘在語音信號中的某一個(gè)時(shí)間點(diǎn)上,(3-14)n是加窗位置標(biāo)示,可以看出只有當(dāng)m在n-N+1<m<n之間,才不會是0,也就是x(m)在n-N+1<m<n這一時(shí)段中被取出,作為一個(gè)語音幀。常用短時(shí)分析技術(shù)短時(shí)能量短時(shí)平均幅度短時(shí)過零率短時(shí)自相關(guān)函數(shù)短時(shí)平均幅度差函數(shù)短時(shí)頻譜短時(shí)功率譜3.2短時(shí)能量和短時(shí)平均幅度振幅越大則能量越大,通常用以下方式計(jì)算語音能量短時(shí)平均能量函數(shù) -變換T[]是指平方和運(yùn)算; -兩種計(jì)算方法:(3-17)

3.2短時(shí)能量和短時(shí)平均幅度振幅越大則能量越大,通常用以下方式計(jì)算語音能量短時(shí)平均能量函數(shù) -變換T[]是指平方和運(yùn)算; -兩種計(jì)算方法:

(3-18)

-h(huán)(n)是無限沖激響應(yīng)濾波器時(shí),短時(shí)能量可遞推計(jì)算得到

3.2短時(shí)能量和短時(shí)平均幅度 短時(shí)平均幅度 -變換T[]是取絕對值求和運(yùn)算; -兩種計(jì)算方法:

3.3短時(shí)平均過零率計(jì)算一個(gè)語音幀內(nèi)單位時(shí)間越過零線的平均次數(shù),可以得出其短時(shí)平均過零率(zerocrossingrate)或短時(shí)平均過零數(shù)。聲帶振動(dòng)時(shí),是在發(fā)濁音,所以過零率低,聲帶不振動(dòng)時(shí),是在發(fā)清音,所以過零率就高,沒有聲音時(shí)若有噪音存在,也會有較高的過零率。過零:信號波形穿越時(shí)間軸或零值線;對于離散時(shí)間信號而言就是相鄰的取樣值符號改變。平均過零率:單位時(shí)間(或單位樣本)內(nèi)過零的次數(shù)。3.3短時(shí)平均過零率變換T[]相當(dāng)于平均過零率計(jì)算;短時(shí)平均過零率的計(jì)算方法:3.3短時(shí)平均過零率實(shí)際應(yīng)用——區(qū)分清、濁音3.4短時(shí)自相關(guān)函數(shù)相關(guān)分析:1)自相關(guān)2)互相關(guān)語音信號處理的相關(guān)分析:短時(shí)自相關(guān)函數(shù)短時(shí)自相關(guān)函數(shù)應(yīng)用: 分析語音信號的同步性和周期性?;仡櫞_定性信號序列自相關(guān)函數(shù):3.4短時(shí)自相關(guān)函數(shù)序列自相關(guān)函數(shù)的性質(zhì):1)若此序列是周期的(周期為Np),則R(k)=R(k+Np)2)R(k)=R(-k)3)R(0)≥│R(k)│4)R(0)等于確定性信號序列的能量或隨機(jī)序列的平均功率由性質(zhì)1)、3)可知濁音的自相關(guān)函數(shù)周期性出現(xiàn)峰值點(diǎn),且周期為基音周期。3.4短時(shí)自相關(guān)函數(shù)短時(shí)自相關(guān)函數(shù)的定義計(jì)算方法:

-優(yōu)點(diǎn):在只需計(jì)算少數(shù)幾個(gè)滯后時(shí)間的自相關(guān)值時(shí);窗函數(shù)選擇適當(dāng)時(shí),可得到遞推計(jì)算方法Rn(k)==[x(n)x(n-k)]*hk(n)短時(shí)自相關(guān)函數(shù)可看做序列[x(n)x(n-k)]通過單位函數(shù)響應(yīng)為hk(n)的數(shù)字濾波器的輸出3.4短時(shí)自相關(guān)函數(shù)3.4短時(shí)自相關(guān)函數(shù)由圖3-18(a)、(b)可見:對應(yīng)于濁音語音的自相關(guān)函數(shù),具有一定的周期性。在相隔一定的取樣后,自相關(guān)函數(shù)達(dá)到最大值。圖3-18(c)上自相關(guān)函數(shù)沒有很強(qiáng)的周期峰值,表明在信號中缺乏周期性,這種清音語音的自相關(guān)函數(shù)有一個(gè)類似噪聲的高頻波形,有點(diǎn)像清音信號。3.4短時(shí)自相關(guān)函數(shù)4.2.1短時(shí)傅立葉變換--定義定義:短時(shí)傅立葉變換也叫短時(shí)譜(加窗的方式)短時(shí)譜的特點(diǎn):1)時(shí)變性:既是角頻率ω的函數(shù)又是時(shí)間n的函數(shù)2)周期性:是關(guān)于ω的周期函數(shù),周期為2π短時(shí)傅立葉變換主要用于語音分析合成系統(tǒng),由其逆變換可以精確地恢復(fù)語音波形;短時(shí)傅里葉變換是窗選語音信號的標(biāo)準(zhǔn)傅里葉變換。下標(biāo)n區(qū)別于標(biāo)準(zhǔn)的傅里葉變換。w(n-m)是窗口函數(shù)序列。不同的窗口函數(shù)序列,將得到不同的傅里葉變換的結(jié)果。短時(shí)傅里葉變換有兩個(gè)自變量:n和ω,所以它既是關(guān)于時(shí)間n的離散函數(shù),又是關(guān)于角頻率ω的連續(xù)函數(shù)。與離散傅里葉變換和連續(xù)傅里葉變換的關(guān)系一樣,若令ω=2πk/N,則得離散的短時(shí)傅里葉變換,它實(shí)際上是在頻域的取樣。4.2.1短時(shí)傅立葉變換--定義這兩個(gè)公式都有兩種解釋:①當(dāng)n固定不變時(shí),它們是序列w(n-m)x(m)(-∞<m<∞)的標(biāo)準(zhǔn)傅里葉變換或標(biāo)準(zhǔn)的離散傅里葉變換。此時(shí)與標(biāo)準(zhǔn)傅里葉變換具有相同的性質(zhì),而Xn(k)與標(biāo)準(zhǔn)的離散傅里葉變換具有相同的特性。②當(dāng)ω或k固定時(shí),和Xn(k)看做是時(shí)間n的函數(shù)。它們是信號序列和窗口函數(shù)序列的卷積,此時(shí)窗口的作用相當(dāng)于一個(gè)濾波器。4.2.1短時(shí)傅立葉變換--定義4.2.1短時(shí)傅立葉變換--定義頻率分辨率Δf、取樣周期T、加窗寬度N三者關(guān)系:窗形狀對短時(shí)傅立葉變換的影響 -矩形窗——主瓣窄,衰減慢; -漢明窗——主瓣寬,衰減快;窗寬對短時(shí)頻譜的影響-窗寬長——頻率分辨率高,能看到頻譜快變化;-窗寬短——頻率分辨率低,看不到頻譜的快變化;結(jié)論:窗口寬度與短時(shí)傅里葉變換特性之間的關(guān)系用窄窗可得到好的時(shí)間分辨率用寬窗可以得到好的頻率分辨率。但由于采用窗的目的是要限制分析的時(shí)間以使其中波形的特性沒有顯著變化,因而要折衷考慮。

4.2.2短時(shí)傅立葉變換--標(biāo)準(zhǔn)傅里葉變換的解釋語譜圖實(shí)際上是一種動(dòng)態(tài)的頻譜。語譜圖的縱軸為頻率,橫軸為時(shí)間。任一給定頻率成分在給定時(shí)刻的強(qiáng)弱用點(diǎn)的黑白度來表示,頻譜值大則記錄得濃黑一些,反之則淺淡一些。用語譜圖分析語音又稱為語譜分析,記錄語譜圖的儀器就是語譜儀。語譜儀實(shí)際上是使一個(gè)帶通濾濾器的中心頻率發(fā)生連續(xù)變化,來進(jìn)行語音的頻率分析。帶通濾波器有兩種帶寬:窄帶為45Hz,寬帶為300Hz。窄帶語譜圖有良好的頻率分辨率及較差的時(shí)間分辨率;而寬帶語譜圖具有良好的時(shí)間分辨率及較差的頻率分辨率。窄帶語譜圖中的時(shí)間座標(biāo)方向表示的是基音及其各次諧波;而寬帶語譜圖給出語音的共振峰頻率及清輔音的能量匯集區(qū);這里,共振峰呈現(xiàn)為黑色的條紋。4.5語譜圖所有元音的特征都是強(qiáng)度變化的規(guī)則的垂直條紋。條紋的起點(diǎn)相當(dāng)于聲門脈沖的起點(diǎn),條紋之間的距離表示基音周期。條紋越密表示基音頻率越高,例如“Ten”中的[ε]音;而基音周期在“the”字中[e]音時(shí)達(dá)到最大。4.5語譜圖聲道的共振峰表示基音脈沖的某些頻率成分被加強(qiáng),這在語譜圖上呈現(xiàn)為條紋區(qū)更寬更黑。摩擦音如[s]、[z]呈現(xiàn)不規(guī)則的條紋,主要在2.5kHz以上;這些條紋表示存在寬帶噪聲?!皊uburbs”開始的[s]音明顯表示它有最大的能量和最高的頻率成分,而結(jié)尾部分的[zs]的能量和頻率僅次于[s]。4.5語譜圖同態(tài)信號處理也稱為同態(tài)濾波,它實(shí)現(xiàn)了將卷積關(guān)系變換為求和關(guān)系的分離處理。為了分離加性組合信號,常采用線性濾波方法。為了分離非加性組合(如乘積性或卷積性組合)信號,常采用同態(tài)濾波技術(shù)。同態(tài)濾波是一種非線性濾波,但它服從廣義疊加原理。對語音信號進(jìn)行同態(tài)分析后將得到其倒譜參數(shù),所以同態(tài)分析也稱為倒譜分析。由于對語音信號分析是以幀為單位進(jìn)行的,所以得到的是短時(shí)倒譜參數(shù)。無論是對于語音通信、語音合成還是語音識別倒譜參數(shù)優(yōu)點(diǎn):所含的信息比其他參數(shù)多,也就是說語音質(zhì)量好、識別正確率高;倒譜參數(shù)缺點(diǎn):是運(yùn)算量較大。盡管如此,倒譜分析仍是一種有效的語音信號分析方法。5.1概述5.2同態(tài)信號處理的基本原理卷積特征子系統(tǒng):圖5-2同態(tài)系統(tǒng)的組成5.2同態(tài)信號處理的基本原理加性信號的Z變換或逆Z變換仍然是加性信號,因而這種時(shí)域信號可以用線性系統(tǒng)處理。5.2同態(tài)信號處理的基本原理

線性系統(tǒng)

5.2同態(tài)信號處理的基本原理卷積逆特征子系統(tǒng):經(jīng)過線性處理后,若將其恢復(fù)為卷積性信號,可以通過逆特征系統(tǒng),它是特征系統(tǒng)的逆變換。線性預(yù)測分析的基本思想是:由于語音樣點(diǎn)之間存在相關(guān)性,所以可以用過去的樣點(diǎn)值來預(yù)測現(xiàn)在或未來的樣點(diǎn)值,即一個(gè)語音的抽樣能夠用過去若干個(gè)語音抽樣或它們的線性組合來逼近。通過使實(shí)際語音抽樣和線性預(yù)測抽樣之間的誤差在某個(gè)準(zhǔn)則下達(dá)到最小值來決定唯一的一組預(yù)測系數(shù)。而這組預(yù)測系數(shù)就反映了語音信號的特性,可以作為語音信號特征參數(shù)用于語音識別、語音合成等。語音信號數(shù)學(xué)模型:

語音信號可以看成準(zhǔn)周期脈沖或白噪聲激勵(lì)一個(gè)線性時(shí)不變系統(tǒng)所產(chǎn)生的輸出。H(z)u(n)s(n)信號s(n)的模型化s(n)為模型的輸出。當(dāng)s(n)為確定信號時(shí),u(n)采用單位沖激序列;當(dāng)s(n)為隨機(jī)信號,u(n)是為白噪聲序列6.2線性預(yù)測分析的基本原理模型系統(tǒng)函數(shù)H(z)

語音信號產(chǎn)生:線性預(yù)測分析就是根據(jù)已知信號s(n)對各參數(shù)和增益G進(jìn)行估計(jì)。在這里為線性預(yù)測系數(shù)這里采用的是全極點(diǎn)模型又稱“AR模型”,各系數(shù)和增益G為模型參數(shù)。這樣信號就可以用有限數(shù)目的參數(shù)構(gòu)成的信號模型來表示。

線性預(yù)測模型采用全極點(diǎn)模型的原因:全極點(diǎn)模型容易計(jì)算,對全極點(diǎn)模型做參數(shù)估計(jì)是對線性方程組的求解過程,而含有有限零點(diǎn)則是解非線性方程。6.3語音信號的線性預(yù)測分析沖激串發(fā)生器隨機(jī)噪聲發(fā)生器基音周期時(shí)變數(shù)字濾波器濁音/清音開關(guān)聲道參數(shù)Gs(n)u(n)1.語音信號模型注:語音產(chǎn)生模型里,輻射、聲道以及聲門激勵(lì)的全部效應(yīng)簡化為一個(gè)時(shí)變數(shù)字濾波器等效。系統(tǒng)函數(shù)其中p為預(yù)測階數(shù),G為聲道濾波器增益。由此有上述語音抽樣s(n)和激勵(lì)信號u(n)之間的差分關(guān)系式線性預(yù)測原理:當(dāng)前語音信號s(n),可以用過去p個(gè)語音信號s(n-i

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論