語音信號處理.ppt

上傳人：m*** IP屬地：河南上傳時間：2020-07-28 格式：PPT 頁數(shù)：177 大?。?.75MB 積分：20 舉報 版權(quán)申訴

已閱讀5頁，還剩172頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1,語音信號處理,院定選修課學(xué)時：32 學(xué)分： 2 信號信息處理的重要研究方向,2,第一章緒論,研究對象語音：語言的聲學(xué)表現(xiàn)。由人的發(fā)音器官發(fā)出的、具有一定語法和意義的聲音。重要性：最重要、最有效、最常用、最方便的信息交換手段?！八臅?語音信號處理：用數(shù)字信號處理技術(shù)對語音信號進(jìn)行處理。新興、綜合性、交叉學(xué)科；涉及到語言學(xué)、聲學(xué)、認(rèn)知學(xué)、心理學(xué)。信號與信息處理的重要組成部分熱門學(xué)科，存在大量機(jī)遇,3,研究內(nèi)容包括：,語音編碼壓縮語音合成計算機(jī)講話讀文章語音識別口授打字機(jī)等，翻譯關(guān)鍵詞識別語音增強(qiáng) 說話人識別“聲紋”身份識別。,4,教學(xué)內(nèi)容與目標(biāo)：課程內(nèi)容：基本概念

2、的建立；各種理論和算法介紹。教學(xué)目標(biāo)：對語音信號處理有基本了解，為以后的研究工作做儲備。,5,發(fā)展概況： 39年的聲碼器用于通訊 40年代后期的語譜儀 60年代的數(shù)字模型 70年代的LPC 80年代的VQ以及HMM 90年代的神經(jīng)元等新技術(shù),6,第二章語音信號處理的基礎(chǔ)知識,2.1 概述本章討論內(nèi)容 1、語音產(chǎn)生模型線性模型 2、語音學(xué)基本內(nèi)容信息交流“發(fā)音傳遞感知”三個階段發(fā)音語音學(xué) 確定發(fā)音機(jī)理聲學(xué)語音學(xué) 信號分析理論解釋語音現(xiàn)象聽覺語音學(xué) 認(rèn)識感知的過程,7,2.2 語音產(chǎn)生的過程語音是具有一定意義的聲音。經(jīng)分析：欲表達(dá) 選擇詞、語句控制肌肉運動振動空氣形成

3、語音波與簫、嗩吶比較,8,等效為激勵源聲道喇叭口,9,等效為激勵源聲道喇叭口激勵源：聲帶聲帶振動頻率基頻(基音頻率) 清音聲帶不振動濁音聲帶振動聲道：可變諧振腔不同形狀、不同音共振(諧振)頻率,c為聲速，L為聲道長度，n為諧振頻率的序號,分析認(rèn)為，聲道的諧振頻率(設(shè)截面均勻)：,10,共振峰 Fn的局部最大值，稱為共振峰。與聲道對應(yīng)，反映語音的頻率特性，是語音的主要特征之一。不同人不同，同一人發(fā)不同音時也不同。,第一共振峰F1,第二共振峰F2,第三共振峰F3,11,一般地：語音識別，取前3個共振峰，而對語音合成，需取5個,12,2.3 語音信號的特性,2.3.1 語言和語

4、音的基本特性語言，特殊的聲音，按一定規(guī)則排列聲音的物理屬性音質(zhì)：基本特征音調(diào)：頻率音強(qiáng)：量、響度、幅度音長：聲音的長短語音特有的屬性音節(jié)：語音流的最小單位音素：語音的最小單位，音素構(gòu)成音節(jié) 感情：重音語調(diào) 聲調(diào)等,13,2.3.2 語音的時間波形和頻譜特性看一段實際語音,放大,結(jié)論1：時間的連續(xù)函數(shù)、頻率幅度隨時間變化是隨機(jī)的,14,元音其中一段再放大,結(jié)論2：短時間內(nèi)近似認(rèn)為不變,結(jié)論3：元音是準(zhǔn)周期函數(shù)(基頻),基音周期,15,清音,結(jié)論4：清音為隨機(jī)起伏,16,2.4 語音信號產(chǎn)生的數(shù)字模型,理想模型標(biāo)準(zhǔn) 準(zhǔn)確但不可能，必近似、簡化簡單最好用成熟的理論線性

5、模型,線性系統(tǒng),語音信號,脈沖序列,脈沖序列激勵源，線性系統(tǒng) 聲道喇叭口,激勵源周期序列(濁音)/隨機(jī)序列(清音) 線性系統(tǒng) 短時內(nèi)不變,17,一個實用模型,P16 圖212,激勵模型聲道模型輻射模型,18,小結(jié) 語音的時間波形連續(xù)、隨機(jī)、短時性、基頻、清/濁音、共振峰線性模型激勵聲道輻射,19,2.4.1 激勵模型根據(jù)前節(jié)分析，激勵源在清、濁音時不同，分別討論濁音有人測量知，聲帶振動產(chǎn)生斜三角型脈沖波,Tp為沖激脈沖的周期，聲門波模型產(chǎn)生單個聲門脈沖,將其表示為Z變換，有：沖激序列：E(z) 濁音激勵模型： U(z) = AVG(z)E(z),清音隨機(jī)白噪聲,20

6、,2.4.2 聲道模型聲音在聲道的傳播涉及到許多物理定律(能量守恒、流體力學(xué))，需簡化。有不同的模型。 1、聲管模型 “短時”間聲道是一個形狀穩(wěn)定的級聯(lián)管道聲音在不同截面積間傳輸會有反射，反射系數(shù)： km(Am+1 - Am) /(Am+1 + Am) Am,Am+1是第m、m+1段的截面積 Km是聲道的特性，確定Km，就確定了聲道！,A1 A2 A3 .,21,2、共振峰模型根據(jù)聲道近似為諧振腔的特性，有另外模型模擬其共振峰。35個,(1)級聯(lián)型用串聯(lián)網(wǎng)絡(luò)模擬聲道。一般元音用全極點模型，轉(zhuǎn)移函數(shù)：,G 幅值因子 Ak 模型系數(shù) P 極點個數(shù)(階數(shù)),P、ak 決定了聲道地特性(人

7、的特征)，p越大越吻合。一般p=812,利用Z變換的知識，把H(z)分解為多個二階極點網(wǎng)絡(luò)的級聯(lián)：,H1,H2,H3,Hp/2,22,(2)級聯(lián)型用并聯(lián)網(wǎng)絡(luò)模擬聲道。大部分音用零極點模型，轉(zhuǎn)移函數(shù)：,級聯(lián)簡單，可用于一般元音，一般35級并聯(lián)復(fù)雜，可用于許多音，但Ai難控制,23,1)輻射+聲門脈沖的作用合并在線性系統(tǒng)中 2)時變參數(shù)：基頻、開關(guān)、增益、參數(shù) 3)“終端模擬”(聽輸出結(jié)果)驗證有效 4)模型可能要修正,2.4.3 輻射模型聲道輸出的速度波，經(jīng)口唇變成聲壓輻射效應(yīng) 研究得模型R(z) = R0 ( 1 Z-1 ),2.4.4 完整的語音信號數(shù)字模型綜上，激勵聲道輻射有V(

8、z)=U(z)H(z)R(z),準(zhǔn)周期脈沖序列發(fā)生器,隨機(jī)序列發(fā)生器,線性時變系統(tǒng),基音周期,系統(tǒng)參數(shù),清/濁音控制,增益控制,語音信號,24,2.5 語音感知研究人對聲音的感知，對語音編碼識別很重要MP3。對人的感知認(rèn)識還有過程。研究發(fā)現(xiàn)：,聽覺(主觀感覺)與聲波不完全一樣,聲音三要屬(響度、音調(diào)、音色)在人聽起來相互影響，且人的敏感度不同，分配不同bit。,聽覺掩蔽效應(yīng),利用感知加權(quán)濾波器改善語音質(zhì)量,25,第三章語音信號的時域分析,3.1 概述為甚分析與怎樣分析 1、通過分析，進(jìn)一步了解、區(qū)別語音，提取少量參數(shù)描述語音，獲得基音、開關(guān)、增益等模型參數(shù) 2、分析方法：模型分析

9、LPC、共振峰等非模型分析時域、頻域、倒譜域等 3、“短時分析技術(shù)” 基本方法，幀，加窗 4、必要時考慮時變性，用HMM,本章用短時分析技術(shù)，在時域提取基頻、清濁、增益,26,3.2 語音信號的數(shù)字化和預(yù)處理 3.2.1 取樣率與量化字長的選擇 1、抽樣定理抽樣頻率 8K、16K等 2、量化誤差 e(n)平穩(wěn)、均勻分布，大小與量化間隔、編碼字長(最小8bit)有關(guān) 3、量化信噪比 SNR與信號的峰值、量化字長有關(guān) 一般分析，字長為16bit,反混疊濾波器,抽樣,量化,模擬信號x(t),離散信號x(n),抽樣信號,27,3.2.2 預(yù)處理 1、語音信號處理框圖 2、濾波器特性要求使混疊

10、失真足夠小，阻帶 66dB，用9階橢圓濾波器 3、加重減小動態(tài)范圍 H(z) = 1 uz-1 與濾波器同時實現(xiàn)，也有在AD后,28,3.3 短時能量分析 1、“短時分析” 本章一直在用。取一段的方法：加窗“分幀”,幀長與幀移：取的點數(shù)為幀長，乘以采樣周期得幀長時間,兩幀間隔為幀移兩幀一定有重疊，否則有參數(shù)突變！,信號x(n)，窗函數(shù)w(n)，加窗后為x(m)w(n-m),29,2、短時平均能量及含義根據(jù)前法，對加窗后的信號求解XX得短時XX 短時平均能量：每取一個n，得到一個En。n的間隔為幀移。上式變形：,H(z),X2(n),En,30,3、窗口選擇以上分析見，加窗為一

11、濾波器取出一部分。同前，濾波器的特性影響結(jié)果。希望直角窗 1, 0nN-1 h(n) = 0, 其他,海明窗(Hamming) h(n) = 0.54-0.46cos2npi/(N-1), 0nN-1 h(n) = 0, 其他,更優(yōu),旁瓣影響大，取不出細(xì)節(jié)，但譜平滑,既平滑又能快速響應(yīng),31,4、窗口長度選擇取不同N，對h(n)求付氏變換知N大帶寬窄(3-11)，取En低頻分量(直流)，變換慢，N小En高頻多，變化快，得不到平滑的值。長度要合適，1020mS,窗口形狀、長度貫穿于全部短時分析,32,5、用途區(qū)分清音濁音 En大濁音區(qū)分有無聲大信噪比，En很小無聲,6、短時平均幅度M

12、n En的不足運算量大 x2 大小x(高低電平)對En影響不同,濁,33,3.4 短時過零分析時域最簡單的方法 1、平均過零數(shù) 過零：相鄰取樣值改變符號過零數(shù)：過零次數(shù) 平均過零數(shù)：在單位時間內(nèi)累計過零數(shù)。,反映信號的頻率,2、語音信號的短時平均過零數(shù),式中：sgn(x)為符號函數(shù)，取值/1 x(m)、x(m-1)是相鄰取樣值 w(n)為窗口函數(shù),34,3、短時平均過零數(shù)的應(yīng)用清音/濁音判斷清音隨機(jī)噪聲，高頻，濁音周期信號，低頻,清,濁,35,(2) 單詞分割與有無聲確定單詞的起止點，對語音識別很重要,實驗室得到的語音,36,3.5 短時相關(guān)分析信號分析的手段，相關(guān) 相似，匹配

13、濾波器 3.5.1 短時自相關(guān)函數(shù) 確定信號,周期序列,自相關(guān)函數(shù)的性質(zhì) 周期Np ， R(k) = R(-k) ，R(0)最大 , R(0)為平均功率,短時自相關(guān)函數(shù),hk(n)=w(n)w(n+k),hk(n-m),x(n)x(n-k)*hk(n), 計算量設(shè)w1(n)=w(-n),m1=m-n = m=m1+n 則：,計算自相關(guān)，先乘后加，運算量大！,用來求基音周期！,37,3.5.2 修正的短時自相關(guān)函數(shù) 1、存在的問題,隨k的變化，參加運算的項減少。極限k=N-1時無運算項！,2、修正的短時自相關(guān)函數(shù) 兩個不同長度的窗w1(n)【0N-1】與w2(n)【0N-1+K-k】Kk,當(dāng)w

14、1,w2為直角窗時 (0kK),k=250,k=0,38,3.5.3 短時平均幅度差函數(shù) 問題的提出：自相關(guān)計算量大，大在乘法！短時平均幅度差函數(shù)(AMDF)定義：,式中R為x(n)的平均值 w1、w2同修正的自相關(guān)函數(shù)中的定義,對于濁音信號，在周期倍數(shù)點上，幅值相等，F(xiàn)n0,39,第三章小結(jié),采樣與反混疊短時分析方法、窗口與長度選擇短時能量定義短時過零分析短時相關(guān)分析與修正短時平均幅度分析(AMDF),40,第四章語音信號的短時傅立葉分析,4.1 概述傅立葉重要性，時域頻域，信號的某些特性短時譜：分幀處理,4.2 短時傅立葉變換 4.2.1 短時傅立葉變換的定義 1、短時傅

15、立葉變換對于第n幀語音信號，xn(m) = x(m)w(n-m),可見既是時間n的離散函數(shù)，又是角頻率的連續(xù)函數(shù),41,討論：,n不變，記y(m)=xn(m) ，標(biāo)準(zhǔn)的傅立葉變換,(2) 不變，記 l=,兩者卷積,w(n)系統(tǒng) y(n)信號信號經(jīng)過線性系統(tǒng),據(jù)此：短時傅立葉變換有兩層含義,2、離散的短時傅立葉變換令=2k/N，在0 k N-1,42,用傅立葉變換解釋窗口與長度,4.2.2 標(biāo)準(zhǔn)傅立葉變換的解釋 n不同，得不同值。n不變，一個一般傅立葉變換,短時功率譜：,海明,直角,分辨率,衰減,共振峰,43,改寫短時傅立葉表達(dá)式：,由時域特性：,因此,可見，短時譜為信號譜與窗口譜的卷

16、積，受窗影響,(1)窗口形狀的選擇,若.內(nèi)為沖激函數(shù)，則Xn(.)=X(.)同譜！比較矩形與海明窗主瓣,(2)窗口寬度的選擇,f01=1/NT,T為采樣周期。N大，f01接近0，W(.)類沖激函數(shù)! 但N大，短時性差，要綜合考慮！,44,P44圖4-2與圖4-3海明比較，N=500(上)與N=50(下),比較,45,4.2.3 濾波器的解釋,與通信原理中的幅度調(diào)制比較,46,4.3 短時傅立葉變換的取樣率短時譜既是時間n的函數(shù)，又是頻率的函數(shù)二維即：每個n都有一個X()。為用計算機(jī)保存短時譜既要對取樣，又要對n取樣。,1、時域取樣率(對n) 固定 Xn(.)是w(n)的輸出，設(shè)w(n)

17、帶寬為BHz，則帶寬為B，時域取樣率 2B (點/秒),B的確定：由的第一零點01確定, 01=2/N N點對應(yīng)的時間為NTs =N/fs 故模擬角頻率01fs B= 01fs/2 = fs/N 對于直角窗,的時域取樣率2B = 2fs/N (直角窗),47,2、頻域取樣率當(dāng)n固定時，Xn(.)是的周期函數(shù)。根據(jù)“傅立葉變換的離散性與周期性”(如圖)，,3、總?cè)勇?n固定時：L=N 時域取樣率：2B 總?cè)勇剩篠R=2BL,兩者關(guān)系如下圖，對 Xn()抽樣后，為了時域不重疊，?。?T1NTs 即LN取等,共N點，T1=NTs,共L點，fs=Lf1,48,4.4 語音信號的短時綜合

18、由Xn()恢復(fù)x(n)的方法：濾波器組求和法/FFT求和法,1、單一頻率k 已知則：,hk(m),取樣率：x(n) 10KHz Xn()也要10KHz？,否！w(m)為低通，故Xn()帶寬遠(yuǎn)小于X()可降低采樣率,綜合：網(wǎng)絡(luò)綜合,49,2、L個頻率取樣后，有L個頻率點，每個頻率點有一個yk(n)。根據(jù)線性系統(tǒng)的理論，總輸出：,可以證明y(n)=x(n),50,4.5 語譜圖一種分析短時譜的儀器，Xn()是時間n，頻率的函數(shù)，要用三維顯示。二維易顯，三維？,n,Xn,早期用亮度,現(xiàn)有用圖形,為實時，也有仍用亮度,聲紋,51,第四章小結(jié)與作業(yè),第四章小結(jié) 1、短時傅立葉變換定義及兩層含義 2

19、、窗口形狀、長度對短時譜的影響 3、短時譜的取樣率(n,w) 4、短時綜合 5、語譜圖,52,第五章語音信號的同態(tài)濾波及倒譜分析,5.1 概述從模型看，激勵系統(tǒng)，如何從語音信號中取出激勵序列、聲道沖擊響應(yīng)？,語音信號激勵與聲道的卷積解卷積,算法：“參數(shù)解卷” 線性預(yù)測分析,“非參數(shù)解卷” 同態(tài)濾波(同態(tài)信號處理) 把求卷積求和,倒譜分析：同態(tài)分析的結(jié)果稱為倒譜,53,5.2 同態(tài)信號處理的基本原理 1、不同信號的處理方法加性信號線性關(guān)系、疊加原理，處理方法成熟, 乘性信號卷積信號非線性關(guān)系，不能用疊加原理，處理困難,2、卷積同態(tài)系統(tǒng),y(n) = Hx(n) = Hx1(n)

20、*Hx2(n),*表示離散時間卷積運算,卷積同態(tài)系統(tǒng)模型,任何同態(tài)系統(tǒng)可表示為三個子系統(tǒng)的級聯(lián),D* ,L* ,D* -1 ,*,*,+,+,+,+,特征系統(tǒng),線性系統(tǒng),逆特征系統(tǒng),54,特征系統(tǒng)D* 把卷積轉(zhuǎn)換為和，把非線性變?yōu)榫€性,逆特征系統(tǒng)D*1 把和轉(zhuǎn)換為卷積，把線性變?yōu)榉蔷€性,線性系統(tǒng)L* 真正需要的處理算法，可利用信號與系統(tǒng)中所學(xué)過的各種處理手段，滿足疊加原理,Z ,ln ,Z -1 ,*,+,+,+,Z ,exp ,Z -1 ,+,*,+,+,55,3、同態(tài)濾波的基本原理設(shè)有x(n) = x1(n) * x2(n) (1) D* Z - ln - Z-1,(2) D*-1 Z

21、- exp - Z-1,Y1(z),Y2(z),名稱？,56,5.3 復(fù)倒譜和倒譜 1、概念,是x(n)經(jīng)特征系統(tǒng)后的值，是時域序列，是信號的頻譜取對數(shù)的反變換。由于與x(n)的譜間的關(guān)系，給他起名：,復(fù)倒頻譜,Complex Cepstrum Spectrum,2、DFT下的特征系統(tǒng) DFT運算快，一般用DFT、IDFT代替z變換,(1) D* ,(2) D*-1 ,x(n)的頻譜,x(n)的對數(shù)頻譜,x(n)的復(fù)倒譜,57,3、復(fù)倒譜的幅度與相位同傅立葉變換，復(fù)倒譜有幅頻特性、相頻特性,復(fù)數(shù)計算量大,考慮人的聽覺對相位不敏感，為減少運算量，丟掉相位,4、倒譜,若c1(n)、c2(n)是x

22、1(n)、x2(n)的倒譜，且x(n)=x1(n)*x2(n) 有c(n)=c1(n)+c2(n),C(n)與x(n)一對多的關(guān)系，由c(n)不可還原x(n)，因丟相位,58,5.4 語音信號兩個卷積分量復(fù)倒譜的性質(zhì),從模型知，在時域語音為聲門序列*聲道序列。用前述方法，分析這兩個序列。復(fù)倒譜求解方法,5.4.1 聲門激勵信號,求x(n)的復(fù)倒譜,(1)求z變換,(2)取對數(shù),用泰勒級數(shù)展開ln(),59,5.4.2,(3)求逆變換,式中,結(jié)論：聲門激勵信號的復(fù)倒譜是無限沖激序列，幅度變、周期不變,5.4.2 聲道沖激響應(yīng)序列,模型,實系數(shù),值小于1,零點、極點；園內(nèi)、園外,60,求對數(shù)

23、，展開為泰勒級數(shù)再求逆Z變換得：,(n = 0),(n 0),(n 0),結(jié)論： (1) 雙邊序列 (2) 衰減序列 (3) 集中在原點附近,據(jù)此，可以用低倒譜窗從x(n)的倒譜中取出聲道特性的復(fù)倒譜。(分離聲道、聲門),推導(dǎo)過程見機(jī)械工業(yè)出版社趙力編的語音信號處理,61,5.5 避免相位卷繞的算法,1、什么是相位卷繞？,對于傅立葉的乘積,取對數(shù)后的振幅與相位,和,的值可能大于2 ，而計算只在02間，即：,主值,稱為相位卷繞,2、對復(fù)倒譜的影響,計算時，相位與實際相位差2k，不是實際相位。誤！,3、對策,改進(jìn)算法，避開相位求和！,62,5.5.1 微分法利用傅立葉變換的微分特性與對數(shù)微分

24、特性，來避開相位卷繞,由傅立葉變換的微分特性，若,則,由于,同理：,把ln(.)代入上式,可求的nx(n),避開了相位求和！,缺點：nx(n)比x(n)含更多的高頻成分，用x(n)的采樣率會帶來頻譜混疊！,63,6.5.2 最小相位信號法設(shè)有因果序列x(n)，則可分解為奇和偶：,零極在Z平面單位園內(nèi),可見：通過xe(n)求x(n),結(jié)論：求x(n)變?yōu)榍髕e(n),64,由傅立葉變換的奇偶虛實性知：,65,5.6 語音信號復(fù)倒譜分析實例,加窗信號,傅氏幅值,傅氏相位主值,復(fù)倒譜,倒譜,聲道的倒譜,高通：聲門低通：聲道,66,聲道、聲門序列估計取出倒譜，經(jīng)逆特征系統(tǒng)得到的y(n),分析得到

25、的聲道幅頻,分析得到的聲道相頻,聲道沖激響應(yīng)估值,聲門序列估值,清音信號的例子,得共振峰,基音周期,X(n)復(fù)倒譜低倒譜窗聲道的復(fù)倒譜逆特征聲道沖激高倒譜窗聲門的復(fù)倒譜逆特征聲門序列,67,第五章小結(jié),同態(tài)濾波作用，特征、逆特征系統(tǒng) 復(fù)倒譜與倒譜聲門序列、聲道序列的復(fù)倒譜分析相位卷繞與避免方法,68,第六章語音信號的線性預(yù)測分析,6.1 概述 67年用于語音信號處理。核心技術(shù)/用于各方面/真正實用能精確地估計語音參數(shù)，效率高,預(yù)測參數(shù)：LPC、PARCOR參數(shù)、LSP參數(shù),基本概念：用過去的一組值估計(預(yù)測)新值,6.2 線性預(yù)測分析的基本原理 6.2.1 基本原理,全

26、極點模型，原因P70,設(shè)輸出的語音信號為s(n) 激勵信號為u(n)，則,過去P個值的加權(quán)求和預(yù)測,語音特征：Np、G、ai,這些系數(shù)如何求？,69,6.2.2 線性預(yù)測怎樣求ai? 方法多樣。其中一種：,若,則稱c(n)為誤差。,在最小均方誤差準(zhǔn)則下，可確定一組系數(shù)ai，稱為線性預(yù)測系數(shù)(LPC) (Linear Predictive Coefficients),6.3 線性預(yù)測方程組的建立,1、線性預(yù)測系數(shù)求解,預(yù)測值,預(yù)測誤差,顯然,A(z)稱為“逆濾波器”或“預(yù)測誤差濾波器”,e(n)是隨機(jī)序列，均方誤差表示為集平均？時間平均？,令,求出一組系數(shù)ai,均方誤差,70,2 線性預(yù)測方

27、程,按前述方法，對誤差求偏倒數(shù)，并令其為0，可得方程組,線性預(yù) 測的標(biāo) 準(zhǔn)方程組,s,若定義,則方程式為,71,3 線性預(yù)測增益最小預(yù)測誤差e(n) = s(n) s(n) 。,可見e(n) = Gu(n),式中，u(n)為聲門激勵序列,方差/短時為常數(shù),可見，聲道的線性預(yù)測增益,6.4 線性預(yù)測分析的解法(一) 自相關(guān)法、協(xié)方差法,有了線性方程組，如何求解？方法很多，介紹幾種,自相關(guān)法是利用短時自相關(guān)函數(shù)，改寫、求解方程,1、改寫方程式,序列信號s(n)加窗后記為sn(k)，其短時自相關(guān)函數(shù)為,72,改寫方程式,寫成矩陣形式,Toeplitz矩陣,線性預(yù)測方程,73,2 求解該矩陣的一種常

28、用遞推算法 Levinson-Durbin,遞推步驟：,1、i0，E0=Rn(0), a1(0)=1,遞推次數(shù),2、i從1到p計算：,(2) ai(i)=ki,遞推0次時的a值,(3) j從1到i-1計算,aj(i) = aj(i-1) kiai-j(i-1),(4) Ei = (1-ki2)Ei-1,3、aj = aj(p),(1),以一個二階預(yù)測器為例，求aj,第一步、求Rn(0),Rn(1),Rn(2)得方程,第二步、按左示步驟遞推,1、i=0,a1(0)=1,E0=Rn(0),a1(0),3、a1=a1(2),a2=a2(2),74,3 反射系數(shù)ki與算法穩(wěn)定性出現(xiàn)一個重要參數(shù)ki，

29、稱為反射系數(shù)或偏相關(guān)(PARCOR)系數(shù),算法穩(wěn)定條件,精度：用Rn()代替R()，有誤差，故精度不高。,6.5 線性預(yù)測分析的解法(二) 格型法,直接從語音樣點中得到預(yù)測系數(shù),6.5.1 格型法基本原理,1、正向預(yù)測和反向預(yù)測的概念,Levinson-Durbin算法中，得預(yù)測系數(shù)aj(i),對應(yīng)A(z)記為,75,誤差：為正向預(yù)測誤差,反向預(yù)測誤差：,可以導(dǎo)出,這里的ki就是自相關(guān)法中的系數(shù)，通過i=3可看出,比較式1、式2知a3(3)=k3,a2(3)=a2(2)-k3a1(2),Levinson-Durbin,76,2 格型濾波器,根據(jù)前面得到的遞推公式，畫出格型分析濾波器的結(jié)構(gòu),合

30、成,聲管1,聲管2,ki反射系數(shù),77,6.5.2 格型法的求解,從遞推公式看，關(guān)鍵是如何求ki？有正向、反向、幾何平均、協(xié)方差格型法、伯格(Burg)法,定義三個均方誤差：,正向,交叉,反向,正向格型法：準(zhǔn)則使第i節(jié)正向誤差最小的ki,導(dǎo)出,F表示正向,78,6.6 線性預(yù)測分析與應(yīng)用 LPC譜估計和LPC復(fù)倒譜,譜估計估計語音信號的能量譜或功率譜。LPC的一種應(yīng)用,6.6.1 LPC譜估計,1、聲道特性H(ej),由LPC分析知，求得ai = A(z) = H(z),把z=ej代入得,同ai一樣，具有短時性,2、語音信號譜S(ej),由模型，沖激作用于系統(tǒng)，故S具有H包絡(luò),3、|S(ej

31、)|2與|H(ej)|2的比較,可以用LPC分析得到得H，近似表示S 估計,79,4、p與N的選擇 p大，|H(ej)|精確匹配于|S(ej)|，但計算量大!,選擇原則：保證有足夠的極點來模擬聲道響應(yīng)的諧振結(jié)構(gòu),經(jīng)驗公式：p=fs/1000+2或3 一般10kHz取樣時，p取1214,N：參加運算的樣點數(shù)，一般N取23個基音周期,6.6.2 LPC復(fù)倒譜,用LPC系數(shù)表示的語音模型中線性系統(tǒng)沖激響應(yīng)的復(fù)倒譜,設(shè)系統(tǒng)的沖激響應(yīng)h(n)，則：,求h(n)的復(fù)倒譜：,兩邊對z-1求偏導(dǎo)數(shù),比較等式兩邊對應(yīng)項，得：,稱為LPC復(fù)倒譜,80,6.5.3 LPC譜估計和其他譜分析方法的比較 1、三種短時譜

32、估計方法,(1) LPC系數(shù) = H(z) = H(e j) = 當(dāng)p無窮大，近似為S(e j),(3) FFT復(fù)倒譜用倒譜法，求出聲道特性，估計出S(e j),2、結(jié)果比較,81,6.7 線譜對(LSP)分析(Line Spectrum Pair),LPC分析：用s(n)的時域表示，求解H(z)。應(yīng)用這種參數(shù)，可構(gòu)造2.4kbps的聲碼器。為構(gòu)造更低碼率，有人從另一個角度求解H(z) LSP分析 (也是線性預(yù)測的一種),已知,由L-D算法,0,1,兩邊同乘,得,82,定義kp+1= -1時的A(p+1)(z)為P(z), kp+1= 1時的A(p+1)(z)為Q(z),則有：,去掉右上角

33、的(p)：,有人證明：當(dāng)p為偶數(shù)A(z)的零點在z平面單位圓內(nèi)時， P(z)、Q(z)的零點都在單位圓上，且交替出現(xiàn)。,進(jìn)一步把P(z)Q(z) 進(jìn)行因式分解,83,ii是頻域參數(shù)，稱為“Spectrum”；成對出現(xiàn)，稱為“Pair”；P(z)Q(z)由LPC分析導(dǎo)出，稱為“Line”,求解方法：代數(shù)方程求根(牛頓迭代)、DFT法,說明： 1、LSP參數(shù)是LPC系數(shù)的頻域表示，是LPC分析一種 2、LSP用p個離散頻率ii表示|H(ej)|2 3、一對LSP參數(shù)表示一個諧振點，因此一對參數(shù)的誤差只影響該對點附近的語音特性；可根據(jù)聽覺特性分配量化比特數(shù) 4、應(yīng)用在低編碼速率,極零模型全極模

34、型不能表示時解法：同態(tài)預(yù)測法極零 - -全極-LPC,84,第六章小結(jié),LPC分析目標(biāo)、原理、誤差、方程自相關(guān)求解 Levison-Durbin遞推算法格型法正(反)向誤差、準(zhǔn)則 LPC復(fù)倒譜譜估計了解LSP分析,85,第九章語音檢測分析,檢測語音特征基音、共振峰 9.1 基音檢測重要性：十分重要，基音攜帶具有辨意作用的信息困難性： 1、聲門激勵不是完全周期的 2、清音與低電平的濁音難區(qū)分 3、聲道共振峰的諧波在基音范圍 4、每個周期的開始與結(jié)束的判斷 5、背景噪聲的影響 6、基音頻率范圍大,提取方法：,86,9.1.1 自相關(guān)法,問題：噪聲、聲道的共振特性，使得語音

35、信號在求自相關(guān)函數(shù)時出現(xiàn)假峰值,解決方法：中心削波法,y(n)=cx(n),y(n) 求其自相關(guān),87,問題與改進(jìn) 由于大于門限CL保留原數(shù)值，計算時要乘以削波系數(shù)，計算復(fù)雜,修正：,自相關(guān)函數(shù)：,選直角窗：,y()只有+1、-1、0三種取值，不必作乘法！,88,9.1.2 并行處理法,時域法，比較成功,少數(shù)服從多數(shù),m1(n)取峰值 m2(n)峰值減前一谷值 m3(n)峰值減前一峰值 m4(n)取谷值 m5(n)谷值減前一峰值 m6(n)谷值減前一谷值,89,9.1.3 倒譜法(CEP) 語音信號倒譜分析,從倒譜中用高倒譜濾波，取出聲門序列的倒譜得周期,窗的選擇(兩周),峰值位置,清濁判

36、斷清：不輸出濁：基音,受噪聲干擾，易誤判。一種改進(jìn)用預(yù)測誤差Gu(n)代替語音！,聲門脈沖,90,9.1.4 簡化逆濾波法(SIFT),是自相關(guān)法，只是用Gu(n)代替語音信號s(n)。由于去除了聲道干擾，效果更佳！,由于5:1抽取，自相關(guān)的計算量降低。,結(jié)果比較 (以男聲a為例),91,9.1.5 基音檢測的后處理,基音檢測每幀都要作。若有異常數(shù)據(jù)，稱為“野點”，得濾除方法是，對得到的基音值進(jìn)行處理，去除干擾 1、中值平滑處理前后各取L點(共2L+1)，從大到小排序，取中點保留了跳變，但可能未濾除噪聲 2、線性平滑處理加權(quán)平均。例前后各一點記為x-1、x0、x1，權(quán)值0.25

37、,0.5,0.25 則當(dāng)前值x= 0.25*(x-1+ x1)+0.5* x0 濾除了噪聲，但模糊了跳變 3、組合平滑處理 1、2的組合，先中值后線性多種組合，滿足要求,92,9.2 共振峰估值,重要性：聲道特性困難性：1、虛假共振峰(聲門) 2、共振峰合并(太近) 3、高基音語音(影響譜估計),9.2.1 帶通濾波器法,如何選,93,9.2.2 DFT,對語音信號進(jìn)行DFT分析，從中提出共振峰濁音時：誤差大(聲門)，清音時：較準(zhǔn)確,9.2.3 倒譜法原理：可分離聲門聲道序列(“語音信號兩個序列的復(fù)倒譜”) 框圖：,效果：清濁不同，濁音較好,缺點：運算量大對假峰無法區(qū)分峰合并無法

38、分,9.2.4 LPC法 LPC分析，誤差=聲門/ai=聲道特性。共振峰即H(z)的極點；解法 1、求A(z)的根(解多項式) 2、LPC譜估計(在峰值處匹配得好),94,第九章小結(jié),基音檢測自相關(guān)法 / 改進(jìn)自相關(guān) 并行處理倒譜法簡化逆濾波法共振峰估值帶通濾波 DFT 倒譜法 LPC法檢測的后處理,95,第十章語音編碼(一) 波形編碼,10.1 概述,需求：通信目的：可接收的失真條件下，采用盡可能少的比特數(shù)表示語音編碼就是壓縮！綜合考慮：可懂度、數(shù)碼率、計算量應(yīng)用：傳輸移動電話、保密通信等。低比特率的優(yōu)勢：窄帶、小功率(信道容量)、大容量存儲數(shù)字錄音、電子字典等

39、。要求實時、語音質(zhì)量進(jìn)展：起步早，有很多標(biāo)準(zhǔn)，熱點是更低比特率分類：波形編碼：盡可能保持波形不變(不僅語音)，一般1664Kps 參數(shù)編碼：提取語音特征，對特載編碼、傳輸、重構(gòu)合成又稱“聲碼器技術(shù)”。不要求波形評價：客觀標(biāo)準(zhǔn)：SNR (對聲碼器無效) 主觀標(biāo)準(zhǔn)：聽后打分。MOS(平均意見得分)， DRT(可懂度評價)， DAM(判斷滿意度)。,96,10.2 語音信號的壓縮編碼原理,10.2.1 語音壓縮的基本原理 1、壓縮依據(jù) 客觀冗余信號本身特征(4) (1)語音信號樣本間的相關(guān)性很強(qiáng)(8kHz時兩點相關(guān)0.85) (2)濁音段的準(zhǔn)周期性(一個周期的參數(shù)，多處用) (3)聲道的形

40、狀及其變化比較慢 (4)取值的概率分布是非均勻的 (5)靜止系數(shù)(語音間隔) 主觀冗余人的聽覺特性聽覺掩蔽特性聽不到或不靈敏的語音分量視為冗余 2、極限碼速按信息論，可計算語音的平均信息量人們認(rèn)為，語音中基本元素為音素，大約不到256個，等概時，按10音素/秒，I=log2(256)10 = 80(bit/秒),97,10.2.2 語音通信中的語音質(zhì)量,一般分為：CD質(zhì)量 FM廣播質(zhì)量 AM廣播質(zhì)量長途電話質(zhì)量通信質(zhì)量合成質(zhì)量質(zhì)量高，采樣率高，比特率高 10.2.3 兩種壓縮編碼方式的優(yōu)缺點波形編碼：任何聲音，音質(zhì)好，但比特率高。評價：SNR 參數(shù)編碼：只對語音，音質(zhì)較差，

41、算法復(fù)雜，比特率低。評價：主觀評價。 10.3 PCM及其自適應(yīng) (通信原理中討論過，均勻/非均勻量化，APCM等),98,10.4 預(yù)測編碼及其自適應(yīng),10.4.1 預(yù)測編碼及自適應(yīng)預(yù)測編碼(APC)原理 1、原理據(jù)LPC，預(yù)測誤差 e(n)=s(n)-s(n)動態(tài)范圍和平均能量遠(yuǎn)遠(yuǎn) 小于s(n)，同時發(fā)送e(n)與預(yù)測系數(shù)，可得低碼率語音編碼，稱為“預(yù)測編碼” 若預(yù)測系數(shù)固定不變，為DPCM。若預(yù)測系數(shù)隨語音而變，稱為自適應(yīng)預(yù)測編碼(APC)。,2、自適應(yīng)能改善信噪比量化噪聲：,能量,預(yù)測增益,量化器定的信噪比,Es,Eq,Ee是信號、量化噪聲、預(yù)測誤差的平均能量！,99,10.

42、4.2 短時預(yù)測與長時預(yù)測,10.4.3 噪聲整形利用人的聽覺掩蔽效應(yīng)，對噪聲的感覺還取決于噪聲的譜包絡(luò)，將量化噪聲譜整形，使人不易察覺。稱為“噪聲整形”,“感知加權(quán)”,實現(xiàn)：讓噪聲和信號譜包絡(luò)相近,100,10.6 子帶編碼(SBC),也稱頻帶分割編碼，屬于頻域編碼子帶平移為低通低采樣率編碼 1、聽覺特性與SBC 聽覺：不同頻率敏感度不同！一般1KHz左右 SBC：對不同頻段的語音區(qū)別對待敏感頻段分配多bit，以減少量化誤差不敏感頻段分配少bit，誤差大點但感覺不到，以壓縮碼率 2、原理,101,3、“整數(shù)帶”取樣法,選擇帶寬和采樣頻率，避開頻率搬移選擇濾波器的下截止頻率為

43、帶寬的整數(shù)倍設(shè)帶寬為Wk，則下截止頻率flk n Wk，如圖,以2Wk采樣,Lk:1抽取(Lk=W/Wk),帶通濾波器：過渡特性影響采用VSB類似的方法，這種濾波器稱為QMF(正交鏡像) 以2子帶為例,一般要128256階FIR 而QMF只要1632階,兩種基于SBC的編碼標(biāo)準(zhǔn)： 1、AT&T的SBC QMF+APCM 4kHz分為5個子帶比特數(shù)分配16kbps 4/4/2/2/0 24kbps 5/5/4/3/0 2、CCITT的G722 QMF+ADPCM 7khz分為2個子帶總碼率64kbps 低頻帶48kbps 高頻帶16kbps,102,10.7 自適應(yīng)變換編碼(ATC),

44、變換編碼高質(zhì)量語音壓縮編碼，有較高的壓縮效率,1、原理時域 -正交變換-變換域-系數(shù)量化編碼-傳輸-反變換-時域,一般地：一幀語音信號s(n),0nN-1,構(gòu)成一矢量 X=s(0),s(1),s(N-1)T，正交變換矩陣A 則 Y AX，對Y量化后得Y1 若 A滿足A-1 AT，則X1ATY1 X,ATC的任務(wù)：設(shè)計最佳量化器量化Y，使X1與X的誤差最?。?2、常用正交變換 DFT、WALSH、DCT、K-L、Wavelet,103,第十章小結(jié),語音編碼方案、評價自適應(yīng)預(yù)測編碼子帶編碼、整數(shù)帶取樣、QMF 自適應(yīng)變換編碼感知加權(quán)(Perceptually Weighted Filte

45、r),104,第11章語音編碼(二)聲碼器技術(shù)與混合編碼,11.1 概述 1、參數(shù)編碼又稱聲碼器(Vocoder)，提取語音參數(shù)，傳輸、存儲是一種分析合成模式?；A(chǔ)：模型，只對語音有效從聽覺效果出發(fā)，不在意波形,2、優(yōu)點低碼率：由短時性，參數(shù)變換率約25Hz，采樣50Hz，參數(shù) 1020個，以25bit量化，碼率為15kbit/s,3、常用聲碼器通道聲碼器、共振峰聲碼器、LPC聲碼器 4、混合編碼結(jié)合波形、參數(shù)編碼而設(shè)計的較優(yōu)編碼方案常用：多脈沖碼激勵線性預(yù)測編碼 MPLPC 碼激勵線性預(yù)測編碼(CELP) G729,105,11.2 聲碼器的基本結(jié)構(gòu),聲碼器包括分析與合成兩部

46、分，按分析形式分為多種類型,分析,合成,信道,聲碼器的局限： 1、階數(shù)有限，譜精度有限 2、準(zhǔn)周期周期，合成中有人為特性 3、簡單的清濁音劃分 4、參數(shù)更新速率不適合爆破音等 5、背景噪聲被分析后，在合成端性質(zhì)變換,106,11.3 相位聲碼器和通道聲碼器,基于短時傅立葉變換，怎樣求與傳Xn(.),11.3.1 相位聲碼器,相位導(dǎo)數(shù),對和進(jìn)行編碼、傳輸，稱為相位聲碼器,107,11.3.2 通道聲碼器,早期聲碼器為易實現(xiàn)，分析時提取短時譜的幅度，不傳相位。(類似共振峰) 從模型看，還要激勵,按聽覺非均勻取幅值低取樣,缺點：準(zhǔn)確基音估計困難-誤差，傳輸值為|Xn|的一個值通道

47、串?dāng)_加大,落入某通道的串?dāng)_,實驗證明：音質(zhì)較差但可懂度好抗背景干擾強(qiáng)！,108,11.4 同態(tài)聲碼器,11.4.1 基于倒譜的分析與合成,11.4.2 同態(tài)聲碼器,據(jù)報道： 20mS計算一次倒譜(每秒50次)，共用26個倒譜值，每個值用6bit量化，可產(chǎn)生高質(zhì)量的語音改進(jìn)：c(n)差分值、不同長度的時窗,高時窗不便量化改為傳基音周期等,109,11.5 線性預(yù)測聲碼器,最成功、最廣泛，可壓縮2030倍原理：LPC分析,波形編碼中，編碼端LPC產(chǎn)生預(yù)測誤差e(n) 【APC】參數(shù)編碼中，傳預(yù)測系數(shù)，用模型產(chǎn)生語音【LPC聲碼器】,110,11.5.1 LPC參數(shù)的變換和量化,因ai

48、決定H(z)的極點， H(z)對ai的量化誤差敏感，不易直接傳ai 實用的系統(tǒng)中都須變換后傳輸。介紹三種方法。,方法1、反射系數(shù) 研究表明，ki的取值概率分布不同。k1接近-1，k2接近+1 k3,k4,是均值為零的高斯分布。譜靈敏度：|ki|越接近1，對譜的影響越大！可采用非均勻量化，以降低碼率。一般k1,k2用56bits，漸少,方法3、預(yù)測多項式的根求A(z)的根再量化。,111,11.5.2 變幀率LPC聲碼器,根據(jù)語音信號的相關(guān)性，前后兩幀間可能很相近。變幀率：后幀與前幀比較，有較大差異才傳輸，降低碼率,用歐氏距離,11.5.3 LPC-10編碼器,1981年作為美國國家標(biāo)準(zhǔn)

49、。2.4kbps，較簡單，抗噪與自然度較差,V/UV 00穩(wěn)定的清音 01清向濁轉(zhuǎn)換 10濁向清轉(zhuǎn)換 11穩(wěn)定的濁音,112,LPC-10比特分配,(Gray),44.4幀/秒 * 54bits/幀 2.4kbps,113,LPC-10接收端譯碼,問題：損失語音的自然度、堅韌性(Robustness)差原因：二元激勵。(問題簡單化了) 改進(jìn)：混合激勵(多元)、混合編碼,聲門脈沖,114,11.6 混合編碼,據(jù)前，編碼效果由于二元激勵，解決之道改激勵,混合編碼：分析時也合成，檢驗用何種激勵合成效果最佳一般模型,不再是基音清濁,115,11.6.1 Multi-Pulse LPC (MPLP

50、C),每個短時期,用7/8個脈沖(位置.幅度變)為激勵。以便達(dá)到誤差最?。?流程: (如何確定脈沖位置與幅度) 1、加一個脈沖，調(diào)整并記下位置、幅度，使|e(n)|最小 2、再加一個脈沖，同1 3、重復(fù)2，直到|e(n)|達(dá)到設(shè)定最小值或脈沖數(shù)達(dá)到設(shè)定個數(shù),編碼結(jié)果：聲道脈沖位置、幅度,關(guān)鍵點：如何找位置和幅度？“最大互相關(guān)函數(shù)搜索法”,116,11.7.1 波形編碼的信號壓縮技術(shù),11.7.2 波形編碼和聲碼器的比較,11.7.3 各種聲碼器的比較,11.7 各種語音編碼方法的比較,設(shè) 第i個脈沖幅度為gi，位置mi，語音s(n)，合成濾波器h(n) K個脈沖合成的信號與原始語音信號的

51、誤差為Ek,對gi、mi求偏導(dǎo)，令為0，得方程組，求得gk、mk,壓縮依據(jù),117,第11章小結(jié),1、聲碼器的基本結(jié)構(gòu) 2、LPC參數(shù)的變換和量化 3、LPC聲碼器 4、MPLPC,118,第七章語音信號的矢量量化,7.1 概述 1、矢量與矢量量化(Vector Quantization) 多個數(shù)組合在一起，構(gòu)成一個矢量X=x(1),x(2),x(m)，m維空間矢量量化：輸入一組數(shù)，在集合中找相近的矢量有效地應(yīng)用了矢量中各分量間的各種相互關(guān)聯(lián)的性質(zhì) 2、率-失真理論在給定速率R條件下能達(dá)到的最小失真指出：矢量量化隨矢量維數(shù)增多性能更優(yōu) 3、應(yīng)用在編碼、識別方面編碼已有用矢量量化得

52、到150bps的報告 4、關(guān)鍵矢量集合(碼本)的產(chǎn)生如何訓(xùn)練？量化器設(shè)計,119,7.2 矢量量化的基本原理,1、標(biāo)量量化以均勻量化為例，輸入連續(xù)值，輸出離散值量化臺階,輸出10,2、矢量量化設(shè)K個取樣點，得k個值構(gòu)成K維空間一個矢量臺階：將K維空間劃分為M個區(qū)域，每個區(qū)域有個代表值Yi 稱為量化矢量矢量量化：對輸入矢量按一定規(guī)則與Yi比較找到輸入矢量對應(yīng)的區(qū)域,以2維為例，如圖 K=2，設(shè)M=7劃分為S1、S2、S7 Y1Y7稱為量化矢量，輸入矢量X 分別計算用Y1Y7代替X時可能的失真用失真最小的Yi代替X,失真最小失真測度,進(jìn)一步用i表示Yi在矢量集合中的位置，用i表

53、示X,i是下標(biāo)，一維的,120,3、碼書(碼本)與碼字(矢),Yi稱為碼字，集合Yi稱為碼書 Yi也稱為重構(gòu)矢量,4、矢量量化器的主要問題 (1)怎樣劃分M個區(qū)域：統(tǒng)計“訓(xùn)練” (2)失真測度：距離計算,5、VQ在編碼中的應(yīng)用,編碼部分即矢量量化器在已知的碼書中找下標(biāo),解碼部分按下標(biāo)在碼書中找對應(yīng)矢量,只傳下標(biāo): M1,設(shè)計得好有很高的壓縮率,特征,121,6、VQ在識別中的應(yīng)用,每個要識別的單詞構(gòu)造一個碼書,7.3 失真測度,失真測度：輸入與重構(gòu)間的誤差度量方法用于描述兩矢量間的相似程度，也稱距離測度,重要性：影響系統(tǒng)性能,應(yīng)具備的四個條件：設(shè)兩個K維語音特征矢量X和Y (1)對稱性

54、 d(X,Y) = d(Y,X) (2)正值性 d(X,Y) 0，當(dāng)X=Y時相等 (3)d(X,Y)對主觀評價有意義 (4)有高效的計算方法,常用三種失真測度,122,7.3.1 歐氏距離測度均方誤差,設(shè)X、Y為K維矢量，xi,yi分別表示X、Y中的各元素(1ik)，則,1、平方平均誤差,2、r方平均誤差,3、r均方誤差,4、絕對值平均誤差,5、最大平均誤差,反映兩個量間的幅度差，對LPC系數(shù)不太適合,123,7.3.2 線性預(yù)測失真測度,LPC系數(shù)間的幅度差無主觀評價意義，應(yīng)比較功率譜(75年板倉提) IS距離,當(dāng)p 時，有,LPC系數(shù)為a1,a2,ap構(gòu)成矢量aT=(1,a1,a2,ap

55、),用碼書重構(gòu)矢量后，得到碼書中的一組預(yù)測系數(shù)aT=(1,a1,a2,) 用來恢復(fù)語音，對應(yīng)的語音功率譜,定義IS距離：,124,7.3.3 識別失真測度,語音的能量也攜帶語音信號信息。IS距離在用于語音識別時，一般還要修正。一種修正如下：,式中：E 輸入矢量的能量 E重構(gòu)矢量的能量,含義是：能量相近(|E-E|xd)，忽略能量影響差較大，加權(quán)后加入差過大，取一特定值,須要經(jīng)過實驗來確定！,125,7.4 最佳矢量量化器和碼本的設(shè)計,7.4.1 矢量量化器最佳設(shè)計的兩個條件最佳設(shè)計：量化誤差最小(失真最小) 由于矢量量化主要是碼本訓(xùn)練，故最佳設(shè)計也是碼本訓(xùn)練。若用d(X,Y)表示X,

56、Y間的失真，最佳碼本是：在一定條件下，集合的失真統(tǒng)計平均值D=Ed(X,Y)最小,1、最佳劃分一是如何劃分K維空間為M個區(qū)域二是給定碼書，輸入X用那個Yi作為X的重構(gòu)矢量？評價依據(jù)：最近鄰近準(zhǔn)則NNR(Nearest Neighbor Rule),2、最佳碼書 YL怎樣選？設(shè)所有選擇碼字YL的輸入矢量X的集合為SL，則YL應(yīng)使該集合中所有矢量與YL間的失真最小。若用歐氏距離，YL應(yīng)為SL中所有矢量的形心,126,7.4.2 LBG算法,根據(jù)前面2個條件，有LBG算法,已知：輸入矢量X (訓(xùn)練矢量)集合，初始碼本求：碼書Y1,Y2, 步驟： (1)設(shè)定參數(shù)：碼本尺寸J、最大迭代次

57、數(shù)L、失真改進(jìn)閾值 (2)初始化：碼字初值Y1(0),Y2(0),Yj(0)，迭代次數(shù)m=1，失真初始值D(0)= (3)根據(jù)最佳劃分，找X對應(yīng)的碼字；即當(dāng)XSL(m) d(X,YL(m-1)d(X,Yi(m-1) i不等于L (4)計算總失真D(m):,(5)計算失真改進(jìn)的相對值：,(6)計算新碼本各碼字：,NL是SL(m)中輸入矢量個數(shù),127,7.4.3 初始碼書的生成,(7)若(m)，則轉(zhuǎn)(9)，否則(8) (8)若mL，則m=m+1并轉(zhuǎn)(3)，否則(9) (9)迭代終止，輸出Yi(m),i=1,2,J訓(xùn)練成的碼本,由LBG算法知，迭代由初始碼字開始。初始碼本的選擇將影響結(jié)果,1、隨機(jī)選取法從訓(xùn)練序列X中隨機(jī)地選取J個矢量作為初始碼字優(yōu)點：簡單缺點：若選擇的矢量不典型，會導(dǎo)致碼本訓(xùn)練中不能收斂,2、分裂法一： (1)由所有訓(xùn)練矢量X，求形心Y1(0) (2)利用較小的矢量將Y1(0)一分為二,以這兩個矢量為初始碼本，用LBG算法，求出Y1(1)，Y2(1),(3)將Y1(1)，Y2(1)再二分為四，重復(fù)(2)直到有J個碼字,？,3、分裂法二：求出Y1(0)后，對所有XS找max d(Xk

人人文庫> 全部分類> 生活休閑 > 科普知識

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

語音信號處理.ppt

文檔簡介

溫馨提示

最新文檔

評論

語音信號處理.ppt

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔