




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1,語音信號處理,院定選修課 學(xué)時:32 學(xué)分: 2 信號信息處理的重要研究方向,2,第一章 緒 論,研究對象 語音:語言的聲學(xué)表現(xiàn)。由人的發(fā)音器官發(fā)出的、具有一定語法和意義的聲音。 重要性:最重要、最有效、最常用、最方便的信息交換手段?!八臅?語音信號處理:用數(shù)字信號處理技術(shù)對語音信號進(jìn)行處理。 新興、綜合性、交叉學(xué)科;涉及到語言學(xué)、聲學(xué)、認(rèn)知學(xué)、心理學(xué)。 信號與信息處理的重要組成部分 熱門學(xué)科,存在大量機(jī)遇,3,研究內(nèi)容包括:,語音編碼壓縮 語音合成計算機(jī)講話讀文章 語音識別口授打字機(jī)等,翻譯 關(guān)鍵詞識別 語音增強(qiáng) 說話人識別“聲紋”身份識別。,4,教學(xué)內(nèi)容與目標(biāo): 課程內(nèi)容: 基本概念
2、的建立; 各種理論和算法介紹。 教學(xué)目標(biāo): 對語音信號處理有基本了解,為以后的研究工作做儲備。,5,發(fā)展概況: 39年的聲碼器用于通訊 40年代后期的語譜儀 60年代的數(shù)字模型 70年代的LPC 80年代的VQ以及HMM 90年代的神經(jīng)元等新技術(shù),6,第二章語音信號處理的基礎(chǔ)知識,2.1 概述 本章討論內(nèi)容 1、語音產(chǎn)生模型 線性模型 2、語音學(xué)基本內(nèi)容 信息交流“發(fā)音傳遞感知”三個階段 發(fā)音語音學(xué) 確定發(fā)音機(jī)理 聲學(xué)語音學(xué) 信號分析理論解釋語音現(xiàn)象 聽覺語音學(xué) 認(rèn)識感知的過程,7,2.2 語音產(chǎn)生的過程 語音是具有一 定意義的聲音。 經(jīng)分析: 欲表達(dá) 選擇詞、語句 控制肌肉運動 振動空氣形成
3、語音 波 與簫、嗩吶比較,8,等效為激勵源聲道喇叭口,9,等效為激勵源聲道喇叭口 激勵源:聲帶 聲帶振動頻率基頻(基音頻率) 清音 聲帶不振動 濁音 聲帶振動 聲道:可變諧振腔 不同形狀、不同音 共振(諧振)頻率,c為聲速,L為聲道長度,n為諧振頻率的序號,分析認(rèn)為,聲道的諧振頻率(設(shè)截面均勻):,10,共振峰 Fn的局部最大值,稱為共振峰。與聲道對應(yīng),反映語音的頻率特性,是語音的主要特征之一。不同人不同,同一人發(fā)不同音時也不同。,第一共振峰F1,第二共振峰F2,第三共振峰F3,11,一般地:語音識別,取前3個共振峰,而對 語音合成,需取5個,12,2.3 語音信號的特性,2.3.1 語言和語
4、音的基本特性 語言,特殊的聲音,按一定規(guī)則排列 聲音的物理屬性 音質(zhì):基本特征 音調(diào):頻率 音強(qiáng):量、響度、幅度 音長:聲音的長短 語音特有的屬性 音節(jié):語音流的最小單位 音素:語音的最小單位,音素構(gòu)成音節(jié) 感情:重音 語調(diào) 聲調(diào)等,13,2.3.2 語音的時間波形和頻譜特性 看一段實際語音,放大,結(jié)論1:時間的連續(xù)函數(shù)、頻率幅度隨時間變化是隨機(jī)的,14,元音 其中一段再放大,結(jié)論2:短時間內(nèi)近似認(rèn)為不變,結(jié)論3:元音是準(zhǔn)周期函數(shù)(基頻),基音周期,15,清音,結(jié)論4:清音為隨機(jī)起伏,16,2.4 語音信號產(chǎn)生的數(shù)字模型,理想模型標(biāo)準(zhǔn) 準(zhǔn)確 但不可能,必近似、簡化 簡單 最好用成熟的理論 線性
5、模型,線性系統(tǒng),語音信號,脈沖序列,脈沖序列 激勵源,線性系統(tǒng) 聲道喇叭口,激勵源 周期序列(濁音)/隨機(jī)序列(清音) 線性系統(tǒng) 短時內(nèi)不變,17,一個實用模型,P16 圖212,激勵模型 聲道模型 輻射模型,18,小結(jié) 語音的時間波形 連續(xù)、隨機(jī)、短時性、基頻、清/濁音、共振峰 線性模型 激勵 聲道 輻射,19,2.4.1 激勵模型 根據(jù)前節(jié)分析,激勵源在清、濁音時不同,分別討論 濁音 有人測量知,聲帶振動產(chǎn)生斜三角型脈沖波,Tp為沖激脈沖的周期,聲門波模型產(chǎn)生單個聲門脈沖,將其表示為Z變換,有: 沖激序列:E(z) 濁音激勵模型: U(z) = AVG(z)E(z),清音 隨機(jī)白噪聲,20
6、,2.4.2 聲道模型 聲音在聲道的傳播涉及到許多物理定律(能量守恒、流體力學(xué)),需簡化。有不同的模型。 1、聲管模型 “短時”間聲道是一個形狀穩(wěn)定的級聯(lián)管道 聲音在不同截面積 間傳輸會有反射, 反射系數(shù): km(Am+1 - Am) /(Am+1 + Am) Am,Am+1是第m、m+1段的截面積 Km是聲道的特性,確定Km,就確定了聲道!,A1 A2 A3 .,21,2、共振峰模型 根據(jù)聲道近似為諧振腔的特性,有另外模型模擬其共振峰。35個,(1)級聯(lián)型 用串聯(lián)網(wǎng)絡(luò)模擬聲道。一般元音用全極點模型,轉(zhuǎn)移函數(shù):,G 幅值因子 Ak 模型系數(shù) P 極點個數(shù)(階數(shù)),P、ak 決定了聲道地特性(人
7、的特征),p越大越吻合。一般p=812,利用Z變換的知識,把H(z)分解為多個二階極點網(wǎng)絡(luò)的級聯(lián):,H1,H2,H3,Hp/2,22,(2)級聯(lián)型 用并聯(lián)網(wǎng)絡(luò)模擬聲道。大部分音用零極點模型,轉(zhuǎn)移函數(shù):,級聯(lián)簡單,可用于一般元音,一般35級 并聯(lián)復(fù)雜,可用于許多音,但Ai難控制,23,1)輻射+聲門脈沖的作用合并在線性系統(tǒng)中 2)時變參數(shù):基頻、開關(guān)、增益、參數(shù) 3)“終端模擬”(聽輸出結(jié)果)驗證有效 4)模型可能要修正,2.4.3 輻射模型 聲道輸出的速度波,經(jīng)口唇變成聲壓 輻射效應(yīng) 研究得模型R(z) = R0 ( 1 Z-1 ),2.4.4 完整的語音信號數(shù)字模型 綜上,激勵聲道輻射有V(
8、z)=U(z)H(z)R(z),準(zhǔn)周期脈沖序列發(fā)生器,隨機(jī)序列發(fā)生器,線性時變系統(tǒng),基音周期,系統(tǒng)參數(shù),清/濁音控制,增益控制,語音信號,24,2.5 語音感知 研究人對聲音的感知,對語音編碼識別很重要MP3。 對人的感知認(rèn)識還有過程。 研究發(fā)現(xiàn):,聽覺(主觀感覺)與聲波不完全一樣,聲音三要屬(響度、音調(diào)、音色)在人聽起來相互影響,且人的敏感度不同,分配不同bit。,聽覺掩蔽效應(yīng),利用感知加權(quán)濾波器改善語音質(zhì)量,25,第三章 語音信號的時域分析,3.1 概述 為甚分析與怎樣分析 1、通過分析,進(jìn)一步了解、區(qū)別語音,提取少量參數(shù)描述語音,獲得基音、開關(guān)、增益等模型參數(shù) 2、分析方法: 模型分析
9、LPC、共振峰等 非模型分析 時域、頻域、倒譜域等 3、“短時分析技術(shù)” 基本方法,幀,加窗 4、必要時考慮時變性,用HMM,本章用短時分析技術(shù),在時域提取基頻、清濁、增益,26,3.2 語音信號的數(shù)字化和預(yù)處理 3.2.1 取樣率與量化字長的選擇 1、抽樣定理 抽樣頻率 8K、16K等 2、量化誤差 e(n)平穩(wěn)、均勻分布,大小與量化 間隔、編碼字長(最小8bit)有關(guān) 3、量化信噪比 SNR與信號的峰值、量化字長有關(guān) 一般分析,字長為16bit,反混疊濾波器,抽樣,量化,模擬信號x(t),離散信號x(n),抽樣信號,27,3.2.2 預(yù)處理 1、語音信號處理框圖 2、濾波器特性要求 使混疊
10、失真足夠小, 阻帶 66dB,用9階橢圓濾波器 3、加重 減小動態(tài)范圍 H(z) = 1 uz-1 與濾波器同時實現(xiàn),也有在AD后,28,3.3 短時能量分析 1、“短時分析” 本章一直在用。取一段的方法:加窗“分幀”,幀長與幀移: 取的點數(shù)為幀長,乘以采樣周期得幀長時間,兩幀間隔為幀移 兩幀一定有重疊,否則有參數(shù)突變!,信號x(n),窗函數(shù)w(n),加窗后為x(m)w(n-m),29,2、短時平均能量及含義 根據(jù)前法,對加窗后的信號求解XX得短時XX 短時平均能量: 每取一個n, 得到一個En。n的間隔為幀移。 上式變形:,H(z),X2(n),En,30,3、窗口選擇 以上分析見,加窗為一
11、濾波器取出一部分。 同前,濾波器的特性影響結(jié)果。希望 直角窗 1, 0nN-1 h(n) = 0, 其他,海明窗(Hamming) h(n) = 0.54-0.46cos2npi/(N-1), 0nN-1 h(n) = 0, 其他,更優(yōu),旁瓣影響大,取不出細(xì)節(jié),但譜平滑,既平滑又能快速響應(yīng),31,4、窗口長度選擇 取不同N,對h(n)求付氏變換知N大帶寬窄(3-11),取En低頻分量(直流),變換慢,N小En高頻多,變化快,得不到平滑的值。長度要合適,1020mS,窗口形狀、長度貫穿于全部短時分析,32,5、用途 區(qū)分清音濁音 En大濁音 區(qū)分有無聲 大信噪比,En很小無聲,6、短時平均幅度M
12、n En的不足 運算量大 x2 大小x(高低電平)對En影響不同,濁,33,3.4 短時過零分析 時域最簡單的方法 1、平均過零數(shù) 過零:相鄰取樣值改變符號 過零數(shù):過零次數(shù) 平均過零數(shù):在單位時間內(nèi)累計過零數(shù)。,反映信號的頻率,2、語音信號的短時平均過零數(shù),式中:sgn(x)為符號函數(shù),取值/1 x(m)、x(m-1)是相鄰取樣值 w(n)為窗口函數(shù),34,3、短時平均過零數(shù)的應(yīng)用 清音/濁音判斷 清音隨機(jī)噪聲,高頻,濁音周期信號,低頻,清,濁,35,(2) 單詞分割與有無聲 確定單詞的起止點,對語音識別很重要,實驗室得到的語音,36,3.5 短時相關(guān)分析 信號分析的手段,相關(guān) 相似 ,匹配
13、濾波器 3.5.1 短時自相關(guān)函數(shù) 確定信號,周期序列,自相關(guān)函數(shù)的性質(zhì) 周期Np , R(k) = R(-k) ,R(0)最大 , R(0)為平均功率,短時自相關(guān)函數(shù),hk(n)=w(n)w(n+k),hk(n-m),x(n)x(n-k)*hk(n), 計算量 設(shè)w1(n)=w(-n),m1=m-n = m=m1+n 則:,計算自相關(guān),先乘后加,運算量大!,用來求基音周期!,37,3.5.2 修正的短時自相關(guān)函數(shù) 1、存在的問題,隨k的變化,參加運算的項減少。極限k=N-1時無運算項!,2、修正的短時自相關(guān)函數(shù) 兩個不同長度的窗w1(n)【0N-1】與w2(n)【0N-1+K-k】Kk,當(dāng)w
14、1,w2為直角窗時 (0kK),k=250,k=0,38,3.5.3 短時平均幅度差函數(shù) 問題的提出:自相關(guān)計算量大,大在乘法! 短時平均幅度差函數(shù)(AMDF)定義:,式中R為x(n)的平均值 w1、w2同修正的自相關(guān)函數(shù)中的定義,對于濁音信號,在周期倍數(shù)點上,幅值相等,F(xiàn)n0,39,第三章小結(jié),采樣與反混疊 短時分析方法、窗口與長度選擇 短時能量定義 短時過零分析 短時相關(guān)分析與修正 短時平均幅度分析(AMDF),40,第四章 語音信號的短時傅立葉分析,4.1 概述 傅立葉重要性,時域頻域,信號的某些特性 短時譜:分幀處理,4.2 短時傅立葉變換 4.2.1 短時傅立葉變換的定義 1、短時傅
15、立葉變換 對于第n幀語音信號,xn(m) = x(m)w(n-m),可見 既是時間n的離散函數(shù),又是角頻率的連續(xù)函數(shù),41,討論 :,n不變,記y(m)=xn(m) ,標(biāo)準(zhǔn)的傅立葉變換,(2) 不變,記 l=,兩者卷積,w(n)系統(tǒng) y(n)信號 信號經(jīng)過線性系統(tǒng),據(jù)此:短時傅立葉變換有兩層含義,2、離散的短時傅立葉變換 令=2k/N,在0 k N-1,42,用傅立葉變換解釋窗口與長度,4.2.2 標(biāo)準(zhǔn)傅立葉變換的解釋 n不同,得不同值。n不變,一個一般傅立葉變換,短時功率譜:,海明,直角,分辨率,衰減,共振峰,43,改寫短時傅立葉表達(dá)式:,由時域特性:,因此,可見,短時譜為信號譜與窗口譜的卷
16、積,受窗影響,(1)窗口形狀的選擇,若.內(nèi)為沖激函數(shù),則Xn(.)=X(.)同譜!比較矩形與海明窗主瓣,(2)窗口寬度的選擇,f01=1/NT,T為采樣周期。N大,f01接近0,W(.)類沖激函數(shù)! 但N大,短時性差,要綜合考慮!,44,P44圖4-2與圖4-3海明比較,N=500(上)與N=50(下),比較,45,4.2.3 濾波器的解釋,與通信原理中的幅度調(diào)制比較,46,4.3 短時傅立葉變換的取樣率 短時譜既是時間n的函數(shù),又是頻率 的函數(shù)二維 即:每個n都有一個X()。為用計算機(jī)保存短時譜既 要對取樣,又要對n取樣。,1、時域取樣率(對n) 固定 Xn(.)是w(n)的輸出,設(shè)w(n)
17、帶寬為BHz,則 帶寬為B,時域取樣率 2B (點/秒),B的確定:由 的第一零點01確定, 01=2/N N點對應(yīng)的時間為NTs =N/fs 故模擬角頻率01fs B= 01fs/2 = fs/N 對于直角窗,的時域取樣率2B = 2fs/N (直角窗),47,2、頻域取樣率 當(dāng)n固定時,Xn(.)是的周期函數(shù)。根據(jù)“傅立葉變 換的離散性與周期性”(如圖),,3、總?cè)勇?n固定時:L=N 時域取樣率:2B 總?cè)勇剩篠R=2BL,兩者關(guān)系如下圖,對 Xn()抽樣后,為了時 域不重疊,?。?T1NTs 即LN取等,共N點,T1=NTs,共L點,fs=Lf1,48,4.4 語音信號的短時綜合
18、由Xn()恢復(fù)x(n)的方法:濾波器組求和法/FFT求和法,1、單一頻率k 已知 則:,hk(m),取樣率:x(n) 10KHz Xn()也要10KHz?,否!w(m)為低通,故Xn()帶寬遠(yuǎn)小于X()可降低采樣率,綜合:網(wǎng)絡(luò)綜合,49,2、L個頻率 取樣后,有L個頻率點,每個頻率點有一個yk(n)。根據(jù)線性系統(tǒng)的理論,總輸出:,可以證明y(n)=x(n),50,4.5 語譜圖 一種分析短時譜的儀器,Xn()是時間n,頻率的函數(shù),要用三維顯示。二維易顯,三維?,n,Xn,早期用亮度,現(xiàn)有用圖形,為實時,也有仍用亮度,聲紋,51,第四章小結(jié)與作業(yè),第四章小結(jié) 1、短時傅立葉變換定義及兩層含義 2
19、、窗口形狀、長度對短時譜的影響 3、短時譜的取樣率(n,w) 4、短時綜合 5、語譜圖,52,第五章 語音信號的同態(tài)濾波及倒譜分析,5.1 概述 從模型看,激勵系統(tǒng),如何從語音信號中取出激勵序列、聲道沖擊響應(yīng)?,語音信號 激勵與聲道的卷積 解卷積,算法:“參數(shù)解卷” 線性預(yù)測分析,“非參數(shù)解卷” 同態(tài)濾波(同態(tài)信號處理) 把求卷積 求和,倒譜分析:同態(tài)分析的結(jié)果稱為倒譜,53,5.2 同態(tài)信號處理的基本原理 1、不同信號的處理方法 加性信號 線性關(guān)系、疊加原理,處理方法成熟, 乘性信號 卷積信號 非線性關(guān)系,不能用疊加原理,處理困難,2、卷積同態(tài)系統(tǒng),y(n) = Hx(n) = Hx1(n)
20、*Hx2(n),*表示離散時間卷積運算,卷積同態(tài)系統(tǒng)模型,任何同態(tài)系統(tǒng)可表示為三個子系統(tǒng)的級聯(lián),D* ,L* ,D* -1 ,*,*,+,+,+,+,特征系統(tǒng),線性系統(tǒng),逆特征系統(tǒng),54,特征系統(tǒng)D* 把卷積轉(zhuǎn)換為和,把非線性變?yōu)榫€性,逆特征系統(tǒng)D*1 把和轉(zhuǎn)換為卷積,把線性變?yōu)榉蔷€性,線性系統(tǒng)L* 真正需要的處理算法,可利用信號與系統(tǒng)中所學(xué)過的各種處理手段,滿足疊加原理,Z ,ln ,Z -1 ,*,+,+,+,Z ,exp ,Z -1 ,+,*,+,+,55,3、同態(tài)濾波的基本原理 設(shè)有x(n) = x1(n) * x2(n) (1) D* Z - ln - Z-1,(2) D*-1 Z
21、- exp - Z-1,Y1(z),Y2(z),名稱?,56,5.3 復(fù)倒譜和倒譜 1、概念,是x(n)經(jīng)特征系統(tǒng)后的值,是時域序列,是信號的頻譜取對數(shù)的反變換。由于與x(n)的譜間的關(guān)系,給他起名:,復(fù)倒頻譜,Complex Cepstrum Spectrum,2、DFT下的特征系統(tǒng) DFT運算快,一般用DFT、IDFT代替z變換,(1) D* ,(2) D*-1 ,x(n)的頻譜,x(n)的對數(shù)頻譜,x(n)的復(fù)倒譜,57,3、復(fù)倒譜的幅度與相位 同傅立葉變換,復(fù)倒譜有幅頻特性、相頻特性,復(fù)數(shù)計算量大,考慮人的聽覺對相位不敏感,為減少運算量,丟掉相位,4、倒譜,若c1(n)、c2(n)是x
22、1(n)、x2(n)的倒譜,且x(n)=x1(n)*x2(n) 有c(n)=c1(n)+c2(n),C(n)與x(n)一對多的關(guān)系,由c(n)不可還原x(n),因丟相位,58,5.4 語音信號兩個卷積分量復(fù)倒譜的性質(zhì),從模型知,在時域語音為 聲門序列*聲道序列。用前述方法,分析這兩個序列。 復(fù)倒譜求解方法,5.4.1 聲門激勵信號,求x(n)的復(fù)倒譜,(1)求z變換,(2)取對數(shù),用泰勒級數(shù)展開ln(),59,5.4.2,(3)求逆變換,式中,結(jié)論:聲門激勵信號的復(fù)倒譜是無限沖激序列, 幅度變、周期不變,5.4.2 聲道沖激響應(yīng)序列,模型,實系數(shù),值小于1,零點、極點;園內(nèi)、園外,60,求對數(shù)
23、,展開為泰勒級數(shù)再求逆Z變換得:,(n = 0),(n 0),(n 0),結(jié)論: (1) 雙邊序列 (2) 衰減序列 (3) 集中在原點附近,據(jù)此,可以用低倒譜窗從x(n)的倒譜中取出聲道特性的復(fù)倒譜。(分離聲道、聲門),推導(dǎo)過程見機(jī)械工業(yè)出版社趙力編的語音信號處理,61,5.5 避免相位卷繞的算法,1、什么是相位卷繞?,對于傅立葉的乘積,取對數(shù)后的振幅與相位,和,的值可能大于2 ,而計算只在02間,即:,主值,稱為相位卷繞,2、對復(fù)倒譜的影響,計算 時,相位與實際相位差2k,不是實際相位。 誤!,3、對策,改進(jìn)算法,避開相位求和!,62,5.5.1 微分法 利用傅立葉變換的微分特性與對數(shù)微分
24、特性,來避開相位卷繞,由傅立葉變換的微分特性,若,則,由于,同理:,把ln(.)代入上式,可求的nx(n),避開了相位求和!,缺點:nx(n)比x(n)含更多的高頻成分,用x(n)的采樣率會帶來頻譜混疊!,63,6.5.2 最小相位信號法 設(shè)有因果序列x(n),則可分解為奇和偶:,零極在Z平面單位園內(nèi),可見:通過xe(n)求x(n),結(jié)論:求x(n)變?yōu)榍髕e(n),64,由傅立葉變換的奇偶虛實性知:,65,5.6 語音信號復(fù)倒譜分析實例,加窗信號,傅氏幅值,傅氏相位主值,復(fù)倒譜,倒譜,聲道的倒譜,高通:聲門 低通:聲道,66,聲道、聲門序列估計 取出倒譜,經(jīng)逆特征系統(tǒng)得到的y(n),分析得到
25、的聲道幅頻,分析得到的聲道相頻,聲道沖激響應(yīng)估值,聲門序列估值,清音信號的例子,得共振峰,基音周期,X(n)復(fù)倒譜低倒譜窗 聲道的復(fù)倒譜 逆特征 聲道沖激 高倒譜窗 聲門的復(fù)倒譜 逆特征 聲門序列,67,第五章 小結(jié),同態(tài)濾波作用,特征、逆特征系統(tǒng) 復(fù)倒譜與倒譜 聲門序列、聲道序列的復(fù)倒譜分析 相位卷繞與避免方法,68,第六章 語音信號的線性預(yù)測分析,6.1 概述 67年用于語音信號處理。核心技術(shù)/用于各方面/真正實用 能精確地估計語音參數(shù),效率高,預(yù)測參數(shù):LPC、PARCOR參數(shù)、LSP參數(shù),基本概念:用過去的一組值估計(預(yù)測)新值,6.2 線性預(yù)測分析的基本原理 6.2.1 基本原理,全
26、極點模型,原因P70,設(shè)輸出的語音信號為s(n) 激勵信號為u(n),則,過去P個值的加權(quán)求和預(yù)測,語音特征:Np、G、ai,這些系數(shù)如何求?,69,6.2.2 線性預(yù)測 怎樣求ai? 方法多樣。其中一種:,若,則稱c(n)為誤差。,在最小均方誤差準(zhǔn)則下,可確定一組系數(shù)ai,稱為線性預(yù)測系數(shù)(LPC) (Linear Predictive Coefficients),6.3 線性預(yù)測方程組的建立,1、線性預(yù)測系數(shù)求解,預(yù)測值,預(yù)測誤差,顯然,A(z)稱為“逆濾波器”或“預(yù)測誤差濾波器”,e(n)是隨機(jī)序列,均方誤差表示為集平均?時間平均?,令,求出一組系數(shù)ai,均方 誤差,70,2 線性預(yù)測方
27、程,按前述方法,對誤差求偏倒數(shù),并令其為0,可得方程組,線性預(yù) 測的標(biāo) 準(zhǔn)方程組,s,若定義,則方程式為,71,3 線性預(yù)測增益 最小預(yù)測誤差e(n) = s(n) s(n) 。,可見e(n) = Gu(n),式中,u(n)為聲門激勵序列,方差/短時為常數(shù),可見,聲道的線性預(yù)測增益,6.4 線性預(yù)測分析的解法(一) 自相關(guān)法、協(xié)方差法,有了線性方程組,如何求解?方法很多,介紹幾種,自相關(guān)法是利用短時自相關(guān)函數(shù),改寫、求解方程,1、改寫方程式,序列信號s(n)加窗后記為sn(k),其短時自相關(guān)函數(shù)為,72,改寫方程式,寫成矩陣形式,Toeplitz矩陣,線性預(yù)測方程,73,2 求解該矩陣的一種常
28、用遞推算法 Levinson-Durbin,遞推步驟:,1、i0,E0=Rn(0), a1(0)=1,遞推次數(shù),2、i從1到p計算:,(2) ai(i)=ki,遞推0次時的a值,(3) j從1到i-1計算,aj(i) = aj(i-1) kiai-j(i-1),(4) Ei = (1-ki2)Ei-1,3、aj = aj(p),(1),以一個二階預(yù)測器為例,求aj,第一步、求Rn(0),Rn(1),Rn(2)得方程,第二步、按左示步驟遞推,1、i=0,a1(0)=1,E0=Rn(0),a1(0),3、a1=a1(2),a2=a2(2),74,3 反射系數(shù)ki與算法穩(wěn)定性 出現(xiàn)一個重要參數(shù)ki,
29、稱為反射系數(shù)或偏相關(guān)(PARCOR)系數(shù),算法穩(wěn)定條件,精度:用Rn()代替R(),有誤差,故精度不高。,6.5 線性預(yù)測分析的解法(二) 格型法,直接從語音樣點中得到預(yù)測系數(shù),6.5.1 格型法基本原理,1、正向預(yù)測和反向預(yù)測的概念,Levinson-Durbin算法中,得預(yù)測系數(shù)aj(i),對應(yīng)A(z)記為,75,誤差: 為正向預(yù)測誤差,反向預(yù)測誤差:,可以導(dǎo)出,這里的ki就是自相關(guān)法中的系數(shù),通過i=3可看出,比較式1、式2知a3(3)=k3,a2(3)=a2(2)-k3a1(2),Levinson-Durbin,76,2 格型濾波器,根據(jù)前面得到的遞推公式,畫出格型分析濾波器的結(jié)構(gòu),合
30、成,聲管1,聲管2,ki反射系數(shù),77,6.5.2 格型法的求解,從遞推公式看,關(guān)鍵是如何求ki?有正向、反向、幾何平均、協(xié)方差格型法、伯格(Burg)法,定義三個均方誤差:,正向,交叉,反向,正向格型法:準(zhǔn)則使第i節(jié)正向誤差最小的ki,導(dǎo)出,F表示正向,78,6.6 線性預(yù)測分析與應(yīng)用 LPC譜估計和LPC復(fù)倒譜,譜估計 估計語音信號的能量譜或功率譜。LPC的一種應(yīng)用,6.6.1 LPC譜估計,1、聲道特性H(ej),由LPC分析知,求得ai = A(z) = H(z),把z=ej代入得,同ai一樣,具有短時性,2、語音信號譜S(ej),由模型,沖激作用于系統(tǒng),故S具有H包絡(luò),3、|S(ej
31、)|2與|H(ej)|2的比較,可以用LPC分析得到得H,近似表示S 估計,79,4、p與N的選擇 p大,|H(ej)|精確匹配于|S(ej)|,但計算量大!,選擇原則:保證有足夠的極點來模擬聲道響應(yīng)的諧振結(jié)構(gòu),經(jīng)驗公式:p=fs/1000+2或3 一般10kHz取樣時,p取1214,N:參加運算的樣點數(shù),一般N取23個基音周期,6.6.2 LPC復(fù)倒譜,用LPC系數(shù)表示的語音模型中線性系統(tǒng)沖激響應(yīng)的復(fù)倒譜,設(shè)系統(tǒng)的沖激響應(yīng)h(n),則:,求h(n)的復(fù)倒譜:,兩邊對z-1求偏導(dǎo)數(shù),比較等式兩邊對應(yīng)項,得:,稱為LPC復(fù)倒譜,80,6.5.3 LPC譜估計和其他譜分析方法的比較 1、三種短時譜
32、估計方法,(1) LPC系數(shù) = H(z) = H(e j) = 當(dāng)p無窮大,近似為S(e j),(3) FFT復(fù)倒譜 用倒譜法,求出聲道特性,估計出S(e j),2、結(jié)果比較,81,6.7 線譜對(LSP)分析(Line Spectrum Pair),LPC分析:用s(n)的時域表示,求解H(z)。應(yīng)用這種參數(shù),可 構(gòu)造2.4kbps的聲碼器。為構(gòu)造更低碼率,有人從另一個角度求解H(z) LSP分析 (也是線性預(yù)測的一種),已知,由L-D算法,0,1,兩邊同乘,得,82,定義kp+1= -1時的A(p+1)(z)為P(z), kp+1= 1時的A(p+1)(z)為Q(z),則有:,去掉右上角
33、的(p):,有人證明:當(dāng)p為偶數(shù)A(z)的零點在z平面單位圓內(nèi)時, P(z)、Q(z)的零點都在單位圓上,且交替出現(xiàn)。,進(jìn)一步把P(z)Q(z) 進(jìn)行因式分解,83,ii是頻域參數(shù),稱為“Spectrum”;成對出現(xiàn),稱為“Pair”;P(z)Q(z)由LPC分析導(dǎo)出,稱為“Line”,求解方法:代數(shù)方程求根(牛頓迭代)、DFT法,說明: 1、LSP參數(shù)是LPC系數(shù)的頻域表示,是LPC分析一種 2、LSP用p個離散頻率ii表示|H(ej)|2 3、一對LSP參數(shù)表示一個諧振點,因此一對參數(shù)的誤 差只影響該對點附近的語音特性;可根據(jù)聽覺特性 分配量化比特數(shù) 4、應(yīng)用在低編碼速率,極零模型 全極模
34、型不能表示時 解法: 同態(tài)預(yù)測法 極零 - -全極-LPC,84,第六章小結(jié),LPC分析 目標(biāo)、原理、誤差、方程 自相關(guān)求解 Levison-Durbin遞推算法 格型法 正(反)向誤差、準(zhǔn)則 LPC復(fù)倒譜 譜估計 了解LSP分析,85,第九章 語音檢測分析,檢測語音特征 基音、共振峰 9.1 基音檢測 重要性:十分重要,基音攜帶具有辨意作用的信息 困難性: 1、聲門激勵不是完全周期的 2、清音與低電平的濁音難區(qū)分 3、聲道共振峰的諧波在基音范圍 4、每個周期的開始與結(jié)束的判斷 5、背景噪聲的影響 6、基音頻率范圍大,提取方法:,86,9.1.1 自相關(guān)法,問題:噪聲、聲道的共振特性,使得語音
35、信號在求自相關(guān)函數(shù)時 出現(xiàn)假峰值,解決方法: 中心削波法,y(n)=cx(n),y(n) 求其自相關(guān),87,問題與改進(jìn) 由于大于門限CL保留原數(shù)值,計算時要乘以削波系數(shù),計算復(fù)雜,修正:,自相關(guān)函數(shù):,選直角窗:,y()只有+1、-1、0三種取值,不必作乘法!,88,9.1.2 并行處理法,時域法,比較成功,少數(shù)服從多數(shù),m1(n)取峰值 m2(n)峰值減前一谷值 m3(n)峰值減前一峰值 m4(n)取谷值 m5(n)谷值減前一峰值 m6(n)谷值減前一谷值,89,9.1.3 倒譜法(CEP) 語音信號倒譜分析,從倒譜中用高倒譜濾波,取出聲門序列的倒譜得周期,窗的選擇(兩周),峰值位置,清濁判
36、斷 清:不輸出 濁:基 音,受噪聲干擾,易誤判。一種改進(jìn)用預(yù)測誤差Gu(n)代替語音!,聲門脈沖,90,9.1.4 簡化逆濾波法(SIFT),是自相關(guān)法,只是用Gu(n)代替語音信號s(n)。由于去除了聲道干擾, 效果更佳!,由于5:1抽取,自相關(guān)的計算量降低。,結(jié)果比較 (以男聲a為例),91,9.1.5 基音檢測的后處理,基音檢測每幀都要作。若有異常數(shù)據(jù),稱為“野點”,得濾除 方法是,對得到的基音值進(jìn)行處理,去除干擾 1、中值平滑處理 前后各取L點(共2L+1),從大到小排序,取中點 保留了跳變,但可能未濾除噪聲 2、線性平滑處理 加權(quán)平均。例前后各一點記為x-1、x0、x1,權(quán)值0.25
37、,0.5,0.25 則當(dāng)前值x= 0.25*(x-1+ x1)+0.5* x0 濾除了噪聲,但模糊了跳變 3、組合平滑處理 1、2的組合,先中值后線性 多種組合,滿足要求,92,9.2 共振峰估值,重要性:聲道特性 困難性:1、虛假共振峰(聲門) 2、共振峰合并(太近) 3、高基音語音(影響譜估計),9.2.1 帶通濾波器法,如何選,93,9.2.2 DFT,對語音信號進(jìn)行DFT分析,從中提出共振峰 濁音時:誤差大(聲門),清音時:較準(zhǔn)確,9.2.3 倒譜法 原理:可分離聲門聲道序列(“語音信號兩個序列的復(fù)倒譜”) 框圖:,效果:清濁不同,濁音較好,缺點: 運算量大 對假峰無法區(qū)分 峰合并無法
38、分,9.2.4 LPC法 LPC分析,誤差=聲門/ai=聲道特性。共振峰即H(z)的極點;解法 1、求A(z)的根(解多項式) 2、LPC譜估計(在峰值處匹配得好),94,第九章 小結(jié),基音檢測 自相關(guān)法 / 改進(jìn)自相關(guān) 并行處理 倒譜法 簡化逆濾波法 共振峰估值 帶通濾波 DFT 倒譜法 LPC法 檢測的后處理,95,第十章 語音編碼(一) 波形編碼,10.1 概述,需求:通信 目的:可接收的失真條件下,采用盡可能少的比特數(shù)表示語音 編碼就是壓縮!綜合考慮:可懂度、數(shù)碼率、計算量 應(yīng)用:傳輸 移動電話、保密通信等。 低比特率的優(yōu)勢:窄帶、小功率(信道容量)、大容量 存儲 數(shù)字錄音、電子字典等
39、。要求實時、語音質(zhì)量 進(jìn)展:起步早,有很多標(biāo)準(zhǔn),熱點是更低比特率 分類:波形編碼:盡可能保持波形不變(不僅語音),一般1664Kps 參數(shù)編碼:提取語音特征,對特載編碼、傳輸、重構(gòu)合成 又稱“聲碼器技術(shù)”。不要求波形 評價:客觀標(biāo)準(zhǔn):SNR (對聲碼器無效) 主觀標(biāo)準(zhǔn):聽后打分。MOS(平均意見得分), DRT(可懂度評價), DAM(判斷滿意度)。,96,10.2 語音信號的壓縮編碼原理,10.2.1 語音壓縮的基本原理 1、壓縮依據(jù) 客觀冗余 信號本身特征(4) (1)語音信號樣本間的相關(guān)性很強(qiáng)(8kHz時兩點相關(guān)0.85) (2)濁音段的準(zhǔn)周期性(一個周期的參數(shù),多處用) (3)聲道的形
40、狀及其變化比較慢 (4)取值的概率分布是非均勻的 (5)靜止系數(shù)(語音間隔) 主觀冗余人的聽覺特性 聽覺掩蔽特性 聽不到或不靈敏的語音分量視為冗余 2、極限碼速 按信息論,可計算語音的平均信息量 人們認(rèn)為,語音中基本元素為音素,大約不到256個, 等概時,按10音素/秒,I=log2(256)10 = 80(bit/秒),97,10.2.2 語音通信中的語音質(zhì)量,一般分為:CD質(zhì)量 FM廣播質(zhì)量 AM廣播質(zhì)量 長途電話質(zhì)量 通信質(zhì)量 合成質(zhì)量 質(zhì)量高,采樣率高,比特率高 10.2.3 兩種壓縮編碼方式的優(yōu)缺點 波形編碼:任何聲音,音質(zhì)好,但比特率高。評價:SNR 參數(shù)編碼:只對語音,音質(zhì)較差,
41、算法復(fù)雜,比特率低。 評價:主觀評價。 10.3 PCM及其自適應(yīng) (通信原理中討論過,均勻/非均勻量化,APCM等),98,10.4 預(yù)測編碼及其自適應(yīng),10.4.1 預(yù)測編碼及自適應(yīng)預(yù)測編碼(APC)原理 1、原理 據(jù)LPC,預(yù)測誤差 e(n)=s(n)-s(n)動態(tài)范圍和平均能量遠(yuǎn)遠(yuǎn) 小于s(n),同時發(fā)送e(n)與預(yù)測系數(shù),可得低碼率語音編碼, 稱為“預(yù)測編碼” 若預(yù)測系數(shù)固定不變,為DPCM。若預(yù)測系數(shù)隨語音而變,稱為 自適應(yīng)預(yù)測編碼(APC)。,2、自適應(yīng)能改善信噪比 量化噪聲:,能量,預(yù)測增益,量化器定的信噪比,Es,Eq,Ee是信號、量化噪聲、預(yù)測誤差的平均能量!,99,10.
42、4.2 短時預(yù)測與長時預(yù)測,10.4.3 噪聲整形 利用人的聽覺掩蔽效應(yīng),對噪聲的感覺還取決于噪聲的譜包絡(luò), 將量化噪聲譜整形,使人不易察覺。稱為“噪聲整形”,“感知加權(quán)”,實現(xiàn):讓噪聲和信號譜包絡(luò)相近,100,10.6 子帶編碼(SBC),也稱頻帶分割編碼,屬于頻域編碼 子帶 平移為低通 低采樣率 編碼 1、聽覺特性與SBC 聽覺:不同頻率敏感度不同!一般1KHz左右 SBC:對不同頻段的語音區(qū)別對待 敏感頻段分配多bit,以減少量化誤差 不敏感頻段分配少bit,誤差大點但感覺不到,以壓縮碼率 2、原理,101,3、“整數(shù)帶”取樣法,選擇帶寬和采樣頻率,避開頻率搬移 選擇濾波器的下截止頻率為
43、帶寬的整數(shù)倍 設(shè)帶寬為Wk,則下截止頻率flk n Wk,如圖,以2Wk采樣,Lk:1抽取(Lk=W/Wk),帶通濾波器:過渡特性影響 采用VSB類似的方法,這 種濾波器稱為QMF(正交鏡像) 以2子帶為例,一般要128256階FIR 而QMF只要1632階,兩種基于SBC的編碼標(biāo)準(zhǔn): 1、AT&T的SBC QMF+APCM 4kHz分為5個子帶 比特數(shù)分配16kbps 4/4/2/2/0 24kbps 5/5/4/3/0 2、CCITT的G722 QMF+ADPCM 7khz分為2個子帶 總碼率64kbps 低頻帶48kbps 高頻帶16kbps,102,10.7 自適應(yīng)變換編碼(ATC),
44、變換編碼高質(zhì)量語音壓縮編碼,有較高的壓縮效率,1、原理 時域 -正交變換-變換域-系數(shù)量化編碼-傳輸-反變換-時域,一般地:一幀語音信號s(n),0nN-1,構(gòu)成一矢量 X=s(0),s(1),s(N-1)T,正交變換矩陣A 則 Y AX,對Y量化后得Y1 若 A滿足A-1 AT,則X1ATY1 X,ATC的任務(wù):設(shè)計最佳量化器量化Y,使X1與X的誤差最?。?2、常用正交變換 DFT、WALSH、DCT、K-L、Wavelet,103,第十章 小結(jié),語音編碼方案、評價 自適應(yīng)預(yù)測編碼 子帶編碼、整數(shù)帶取樣、QMF 自適應(yīng)變換編碼 感知加權(quán)(Perceptually Weighted Filte
45、r),104,第11章 語音編碼(二)聲碼器技術(shù)與混合編碼,11.1 概述 1、參數(shù)編碼 又稱聲碼器(Vocoder),提取語音參數(shù),傳輸、存儲 是一種分析合成模式?;A(chǔ):模型,只對語音有效 從聽覺效果出發(fā),不在意波形,2、優(yōu)點 低碼率:由短時性,參數(shù)變換率約25Hz,采樣50Hz,參數(shù) 1020個,以25bit量化,碼率為15kbit/s,3、常用聲碼器 通道聲碼器、共振峰聲碼器、LPC聲碼器 4、混合編碼 結(jié)合波形、參數(shù)編碼而設(shè)計的較優(yōu)編碼方案 常用:多脈沖碼激勵線性預(yù)測編碼 MPLPC 碼激勵線性預(yù)測編碼(CELP) G729,105,11.2 聲碼器的基本結(jié)構(gòu),聲碼器包括分析與合成兩部
46、分,按分析形式分為多種類型,分 析,合 成,信道,聲碼器的局限: 1、階數(shù)有限,譜精度有限 2、準(zhǔn)周期 周期,合成中有人為特性 3、簡單的清濁音劃分 4、參數(shù)更新速率不適合爆破音等 5、背景噪聲被分析后,在合成端性質(zhì)變換,106,11.3 相位聲碼器和通道聲碼器,基于短時傅立葉變換,怎樣求與傳Xn(.),11.3.1 相位聲碼器,相位導(dǎo)數(shù),對 和 進(jìn)行編碼、傳輸,稱為相位聲碼器,107,11.3.2 通道聲碼器,早期聲碼器 為易實現(xiàn),分析時提取短時譜的幅度,不傳相位。(類似共振峰) 從模型看,還要激勵,按聽覺非均勻 取幅值 低取樣,缺點:準(zhǔn)確基音估計困難-誤差, 傳輸值為|Xn|的一個值 通道
47、串?dāng)_加大,落入某通道的串?dāng)_,實驗證明: 音質(zhì)較差但可懂度好 抗背景干擾強(qiáng)!,108,11.4 同態(tài)聲碼器,11.4.1 基于倒譜的分析與合成,11.4.2 同態(tài)聲碼器,據(jù)報道: 20mS計算一次倒譜(每秒50次),共用26個倒譜 值,每個值用6bit量化,可產(chǎn)生高質(zhì)量的語音 改進(jìn):c(n)差分值、不同長度的時窗,高時窗不便量化 改為傳基音周期等,109,11.5 線性預(yù)測聲碼器,最成功、最廣泛,可壓縮2030倍 原理:LPC分析,波形編碼中,編碼端LPC產(chǎn)生預(yù)測誤差e(n) 【APC】 參數(shù)編碼中,傳預(yù)測系數(shù),用模型產(chǎn)生語音【LPC聲碼器】,110,11.5.1 LPC參數(shù)的變換和量化,因ai
48、決定H(z)的極點, H(z)對ai的量化誤差敏感,不易直接傳ai 實用的系統(tǒng)中都須變換后傳輸。介紹三種方法。,方法1、反射系數(shù) 研究表明,ki的取值概率分布不同。k1接近-1,k2接近+1 k3,k4,是均值為零的高斯分布。 譜靈敏度:|ki|越接近1,對譜的影響越大! 可采用非均勻量化,以降低碼率。一般k1,k2用56bits,漸少,方法3、預(yù)測多項式的根 求A(z)的根再量化。,111,11.5.2 變幀率LPC聲碼器,根據(jù)語音信號的相關(guān)性,前后兩幀間可能很相近。 變幀率:后幀與前幀比較,有較大差異才傳輸,降低碼率,用歐氏距離,11.5.3 LPC-10編碼器,1981年作為美國國家標(biāo)準(zhǔn)
49、。2.4kbps,較簡單,抗噪與自然度較差,V/UV 00穩(wěn)定的清音 01清向濁轉(zhuǎn)換 10濁向清轉(zhuǎn)換 11穩(wěn)定的濁音,112,LPC-10比特分配,(Gray),44.4幀/秒 * 54bits/幀 2.4kbps,113,LPC-10接收端譯碼,問題:損失語音的自然度、堅韌性(Robustness)差 原因:二元激勵。(問題簡單化了) 改進(jìn):混合激勵(多元)、混合編碼,聲門脈沖,114,11.6 混合編碼,據(jù)前,編碼效果由于二元激勵,解決之道改激勵,混合編碼:分析時也合成,檢驗用何種激勵合成效果最佳 一般模型,不再是基音 清濁,115,11.6.1 Multi-Pulse LPC (MPLP
50、C),每個短時期,用7/8個脈沖(位置.幅度變)為激勵。以便達(dá)到誤差最?。?流程: (如何確定脈沖位置與幅度) 1、加一個脈沖,調(diào)整并記下位置、幅度,使|e(n)|最小 2、再加一個脈沖,同1 3、重復(fù)2,直到|e(n)|達(dá)到設(shè)定最小值或脈沖數(shù)達(dá)到設(shè)定個數(shù),編碼結(jié)果: 聲道 脈沖位置、幅度,關(guān)鍵點:如何找位置和幅度?“最大互相關(guān)函數(shù)搜索法”,116,11.7.1 波形編碼的信號壓縮技術(shù),11.7.2 波形編碼和聲碼器的比較,11.7.3 各種聲碼器的比較,11.7 各種語音編碼方法的比較,設(shè) 第i個脈沖幅度為gi,位置mi, 語音s(n),合成濾波器h(n) K個脈沖合成的信號與原始語音信號的
51、誤差為Ek,對gi、mi求偏導(dǎo),令為0,得方程組,求得gk、mk,壓縮依據(jù),117,第11章小結(jié),1、聲碼器的基本結(jié)構(gòu) 2、LPC參數(shù)的變換和量化 3、LPC聲碼器 4、MPLPC,118,第七章 語音信號的矢量量化,7.1 概述 1、矢量與矢量量化(Vector Quantization) 多個數(shù)組合在一起,構(gòu)成一個矢量X=x(1),x(2),x(m),m維空間 矢量量化:輸入一組數(shù),在集合中找相近的矢量 有效地應(yīng)用了矢量中各分量間的各種相互關(guān)聯(lián)的性質(zhì) 2、率-失真理論 在給定速率R條件下能達(dá)到的最小失真 指出:矢量量化隨矢量維數(shù)增多性能更優(yōu) 3、應(yīng)用 在編碼、識別方面 編碼已有用矢量量化得
52、到150bps的報告 4、關(guān)鍵 矢量集合(碼本)的產(chǎn)生如何訓(xùn)練? 量化器設(shè)計,119,7.2 矢量量化的基本原理,1、標(biāo)量量化 以均勻量化為例,輸入連續(xù)值,輸出離散值 量化臺階,輸出10,2、矢量量化 設(shè)K個取樣點,得k個值構(gòu)成K維空間一個矢量 臺階:將K維空間劃分為M個區(qū)域,每個區(qū)域有個代表值Yi 稱為量化矢量 矢量量化:對輸入矢量按一定規(guī)則與Yi比較 找到輸入矢量對應(yīng)的區(qū)域,以2維為例,如圖 K=2,設(shè)M=7劃分為S1、S2、S7 Y1Y7稱為量化矢量,輸入矢量X 分別計算用Y1Y7代替X時可能的失真 用失真最小的Yi代替X,失真最小 失真測度,進(jìn)一步用i表示Yi在矢量集合中的位置,用i表
53、示X,i是下標(biāo),一維的,120,3、碼書(碼本)與碼字(矢),Yi稱為碼字,集合Yi稱為碼書 Yi也稱為重構(gòu)矢量,4、矢量量化器的主要問題 (1)怎樣劃分M個區(qū)域:統(tǒng)計“訓(xùn)練” (2)失真測度:距離計算,5、VQ在編碼中的應(yīng)用,編碼部分即矢量量化器 在已知的碼書中找下標(biāo),解碼部分按下標(biāo)在碼書 中找對應(yīng)矢量,只傳下標(biāo): M1,設(shè)計得好有很高的壓縮率,特征,121,6、VQ在識別中的應(yīng)用,每個要識別的單詞構(gòu)造一個碼書,7.3 失真測度,失真測度:輸入與重構(gòu)間的誤差度量方法 用于描述兩矢量間的相似程度,也稱距離測度,重要性:影響系統(tǒng)性能,應(yīng)具備的四個條件: 設(shè)兩個K維語音特征矢量X和Y (1)對稱性
54、 d(X,Y) = d(Y,X) (2)正值性 d(X,Y) 0,當(dāng)X=Y時相等 (3)d(X,Y)對主觀評價有意義 (4)有高效的計算方法,常用三種失真測度,122,7.3.1 歐氏距離測度 均方誤差,設(shè)X、Y為K維矢量,xi,yi分別表示X、Y中的各元素(1ik),則,1、平方平均誤差,2、r方平均誤差,3、r均方誤差,4、絕對值平均誤差,5、最大平均誤差,反映兩個量間的幅度差,對LPC系數(shù)不太適合,123,7.3.2 線性預(yù)測失真測度,LPC系數(shù)間的幅度差無主觀評價意義,應(yīng)比較功率譜(75年板倉提) IS距離,當(dāng)p 時,有,LPC系數(shù)為a1,a2,ap構(gòu)成矢量aT=(1,a1,a2,ap
55、),用碼書重構(gòu)矢量后,得到碼書中的一組預(yù)測系數(shù)aT=(1,a1,a2,) 用來恢復(fù)語音,對應(yīng)的語音功率譜,定義IS距離:,124,7.3.3 識別失真測度,語音的能量也攜帶語音信號信息。IS距離在用于語音識別時, 一般還要修正。一種修正如下:,式中:E 輸入矢量的能量 E重構(gòu)矢量的能量,含義是:能量相近(|E-E|xd),忽略能量影響 差較大,加權(quán)后加入 差過大,取一特定值,須要經(jīng)過實驗來確定!,125,7.4 最佳矢量量化器和碼本的設(shè)計,7.4.1 矢量量化器最佳設(shè)計的兩個條件 最佳設(shè)計:量化誤差最小(失真最小) 由于矢量量化主要是碼本訓(xùn)練,故最佳設(shè)計也是碼本訓(xùn)練。 若用d(X,Y)表示X,
56、Y間的失真,最佳碼本是: 在一定條件下,集合的失真統(tǒng)計平均值D=Ed(X,Y)最小,1、最佳劃分 一是如何劃分K維空間為M個區(qū)域 二是給定碼書,輸入X用那個Yi作為X的重構(gòu)矢量? 評價依據(jù):最近鄰近準(zhǔn)則NNR(Nearest Neighbor Rule),2、最佳碼書 YL怎樣選? 設(shè)所有選擇碼字YL的輸入矢量X的集合為SL,則YL應(yīng)使該集合 中所有矢量與YL間的失真最小。 若用歐氏距離,YL應(yīng)為SL中所有矢量的形心,126,7.4.2 LBG算法,根據(jù)前面2個條件,有LBG算法,已知:輸入矢量X (訓(xùn)練矢量)集合,初始碼本 求:碼書Y1,Y2, 步驟: (1)設(shè)定參數(shù):碼本尺寸J、最大迭代次
57、數(shù)L、失真改進(jìn)閾值 (2)初始化:碼字初值Y1(0),Y2(0),Yj(0),迭代次數(shù)m=1, 失真初始值D(0)= (3)根據(jù)最佳劃分,找X對應(yīng)的碼字;即當(dāng)XSL(m) d(X,YL(m-1)d(X,Yi(m-1) i不等于L (4)計算總失真D(m):,(5)計算失真改進(jìn)的相對值:,(6)計算新碼本各碼字:,NL是SL(m)中輸入矢量個數(shù),127,7.4.3 初始碼書的生成,(7)若(m),則轉(zhuǎn)(9),否則(8) (8)若mL,則m=m+1并轉(zhuǎn)(3),否則(9) (9)迭代終止,輸出Yi(m),i=1,2,J訓(xùn)練成的碼本,由LBG算法知,迭代由初始碼字開始。初始碼本的選擇將影響結(jié)果,1、隨機(jī)選取法 從訓(xùn)練序列X中隨機(jī)地選取J個矢量作為初始碼字 優(yōu)點:簡單 缺點:若選擇的矢量不典型,會導(dǎo)致碼本訓(xùn)練中不能收斂,2、分裂法一: (1)由所有訓(xùn)練矢量X,求形心Y1(0) (2)利用較小的矢量將Y1(0)一分為二,以這兩個矢量為初始碼本,用LBG算法,求出Y1(1),Y2(1),(3)將Y1(1),Y2(1)再二分為四,重復(fù)(2)直到有J個碼字,?,3、分裂法二: 求出Y1(0)后,對所有XS找max d(Xk
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 游戲公司企業(yè)文化
- Photoshop平面設(shè)計基礎(chǔ) 課件 任務(wù)5.3 制作旅行社T型廣告牌海報
- 住宅租賃安全責(zé)任與裝修安全協(xié)議
- 地質(zhì)災(zāi)害監(jiān)測測量員聘請與預(yù)警協(xié)議
- 車輛安全保險理賠處理協(xié)議
- 通信材料回購方案
- 住宅小區(qū)停車場租賃合同規(guī)范范本及停車管理
- 餐飲企業(yè)股權(quán)轉(zhuǎn)讓及品牌推廣權(quán)合同
- 太倉歷史面試題及答案
- 手繪校園面試題及答案
- 《熔化和凝固升華和凝華》
- 天津2023年天津銀行信息技術(shù)崗招聘黑鉆模擬III試題3套含答案詳解
- 天津市2021年高考化學(xué)一輪復(fù)習(xí)專題七元素周期律和元素周期表
- 01-TOC約束理論(瓶頸管理)八講 作業(yè)
- 《國家學(xué)生體質(zhì)健康標(biāo)準(zhǔn)》登記卡(高中樣表)
- 靜脈炎的分級及護(hù)理課件
- 折讓證明模板
- 培智學(xué)生XXX個別化教育手冊
- AWG,SWG,BWG線規(guī)規(guī)格對照表
- 《房屋面積測算技術(shù)規(guī)程》DGJ32TJ131-2022
- (整理)小學(xué)數(shù)獨游戲校本課程教材.
評論
0/150
提交評論