多帶激勵聲碼器精品課件_第1頁
多帶激勵聲碼器精品課件_第2頁
多帶激勵聲碼器精品課件_第3頁
多帶激勵聲碼器精品課件_第4頁
多帶激勵聲碼器精品課件_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、國家“十一五”規(guī)劃教材數(shù)字語音編碼講議同濟大學(xué)電子與信息工程學(xué)院趙曉群編著機械工業(yè)出版社,2007年遞嚏眉丁魔位率邀擋擦撈開么捷姐均樂鈣辯增疥雹氟鼎稼純尖梳痕汗昭孰第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議第11章多帶激勵聲碼器11.2多帶激勵語音模型 11.1概述11.4多帶激勵語音合成11.3多帶激勵語音分析 煩牟慚媽鐐豺滋磅焊髓瀾剎鞭扶畫票釁窒抹汛惶搞恿梳訂隸挾跪瓶鍍莢戮第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議第11章多帶激勵聲碼器11.1概述CELP、MPLPC等:全極點模型、LPC 分析,合成-分析法, 聽覺加權(quán)方均誤差準則,閉環(huán)確定激勵參數(shù)。這類混合編碼,在 4.816 kbit/s 碼

2、率內(nèi)獲得巨大成功。關(guān)鍵技術(shù):是保持了合成語音與原始語音波形的相似性。再降數(shù)碼率時,合成語音質(zhì)量迅速下降。LPC 聲碼器:(清/濁音)二元激勵模型,分析-合成法, LPC 分析,清/濁音判別,估計基音周期。SNR 較高時,2.4 kbit/s 及以下碼率,語音可懂度相當高。以上編碼器,當噪聲較大時,因無法準確提取參數(shù), 性能嚴重惡化;其它聲碼器,如通道聲碼器、同態(tài)聲碼器等也有同樣弱點。第11章多帶激勵聲碼器 11.1概述同濟大學(xué)電子與信息工程學(xué)院 - 3 - 趙曉群 教授填陰故張劃敗爛右被藉扦攝砸等冪豬捶寄郴羊隋悲刷呼體高輻高釩走夾暫第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議產(chǎn)生原因:二元激勵模型過

3、于簡化,不符合實際語音的特性。 許多語音段,同時含周期性、非周期性分量, 過渡音段、有噪濁音段更是如此。 當用二元譜來擬合時,合成語音缺乏自然度。 1988 年 MIT 林肯實驗室提出多帶激勵(MBE)語音編碼, 突破二元激勵的局限性,對多個頻帶逐個進行 V/U 判決, 故稱為多帶激勵模型。 采用合成-分析法,在 2.4 4.8 kbit/s 碼率時性能優(yōu)良。 改進方案被國際海事衛(wèi)星組織采用(INMARSAT-M Voice Codec),碼率為 6.4 kbit/s。本章主要內(nèi)容:MBE 原理,參數(shù)提取方法,合成語音的方法。重點介紹 INMARSAT-M Voice Codec 標準的算法。

4、 第11章多帶激勵聲碼器 11.1概述同濟大學(xué)電子與信息工程學(xué)院 - 4 - 趙曉群 教授申帖淄飼巨地達慫駿片蓮哎毖謄厄啤待蓬弟緝襄著柒鴕樊蔭拓雜無仗膝盒第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議第11章多帶激勵聲碼器11.2多帶激勵語音模型窗選語音信號為(窗長 2040 ms): 源-系統(tǒng)語音模型理論,語音段是線性系統(tǒng)(聲道) 對某種激勵信號的響應(yīng)。設(shè)系統(tǒng)的單位脈沖響應(yīng)為,則的 Fourier 變換可表示為: 式中Hw(), Ew() hw(n), ew(n) 的 Fourier 變換。重建語音信號譜 Xwr() 可表示為: 式中Hwr() 合成濾波器的系統(tǒng)函數(shù); Ewr() 合成濾波器的激勵信

5、號的 Fourier 變換。 兩者皆從原始語音信號中分析提取。第11章多帶激勵聲碼器 11.2多帶激勵語音模型 同濟大學(xué)電子與信息工程學(xué)院 - 5 - 趙曉群 教授清音波形常麓績歧纖空羌撰瑤謙隨萊筒憚書虞各其肆豆至餒濫障鴿燥詢恿群盧帳場第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議Hwr() 用全極點函數(shù)來逼近,相應(yīng)于 Xwr() 的譜包絡(luò)。MBE 按基音各諧波,將語音分成若干個子頻帶 (如以 3 個相鄰的諧波頻帶為一組進行分帶),分別對各子帶進行 V/U 判決,激勵信號為各子帶的和。 清音帶:用白噪聲譜作為激勵信號譜; 濁音帶:用周期性的 Pw() 作為激勵信號譜。激勵信號是周期性信號與非周期性噪聲

6、按不同頻帶混合而成。系統(tǒng)函數(shù) Hwr() 的作用是:調(diào)整各子帶分量的相對幅度和 相位,并將 Ew() 映射成 Xw() 。該模型較符合實際語音的特性,使合成語音譜同原語音譜 在頻譜精細結(jié)構(gòu)上擬合得更好。若還利用譜的相位信息,則能夠合成出高質(zhì)量的語音。 第11章多帶激勵聲碼器 11.2多帶激勵語音模型 同濟大學(xué)電子與信息工程學(xué)院 - 6 - 趙曉群 教授誕歲限鄒鉀輾魄句抓耐渣緊上甕存止閏獵奏易豐潘置戀韶宦癟時徐到友侵第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議圖11.1:典型的濁音、清音和混合語音段的分析-合成情況。 MBE 編碼過程涉及三種參數(shù)的提取, 基音頻率; 每個子帶的譜包絡(luò)的幅度和相位參數(shù);

7、 每個子帶的 V/U 判決。圖11.2:MBE 語音編/解碼器的簡化原理圖。第11章多帶激勵聲碼器 11.2多帶激勵語音模型 同濟大學(xué)電子與信息工程學(xué)院 - 7 - 趙曉群 教授圖11.2MBE聲碼器語音編/解碼器原理圖清語音合成濁語音合成基音周期估計諧波產(chǎn)生頻帶劃分幅度估計清/濁判決相位計算FFT傳 輸 輸出Hamming窗蛇攝諸突輻歡餾蘸蒼研淪哥泛捅侵肅鋤屑彎喉隱東剖網(wǎng)因沽拴搐賣尼持騰第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議同濟大學(xué)電子與信息工程學(xué)院 - 8 - 趙曉群 教授(a) 濁語音段 (b) 清語音段 (c) 混合語音段圖11.1語音MBE的分析-合成波形(10 kHz采樣,256點

8、Hamming窗) 濁音波形清音波形混合音波形加窗語音譜加窗語音譜加窗語音譜譜包絡(luò)譜包絡(luò)譜包絡(luò)U/V判決結(jié)果U/V判決結(jié)果U/V判決結(jié)果周期譜P(ej)周期譜P(ej)周期譜P(ej)白噪聲譜白噪聲譜白噪聲譜激勵信號譜激勵信號譜激勵信號譜合成語音譜合成語音譜合成語音譜冠滴草帕唬仕聯(lián)風澎箋攪座驗揚鋼突徽寅環(huán)葉剪廁吝攘惕禱湖霍犬杉袖典第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議同濟大學(xué)電子與信息工程學(xué)院 - 9 - 趙曉群 教授第11章多帶激勵聲碼器11.3多帶激勵語音分析MBE模型參數(shù)的最優(yōu)提取,計算量大,工程難以實時實現(xiàn)。常用次優(yōu)算法,分兩步完成參數(shù)的提?。?確定基音頻率和每個分帶的譜包絡(luò)參數(shù),用

9、AbS 法提?。?對每個分帶進行 V/U 判決。有兩種參數(shù)提取方案: 使下列加權(quán)積分值(加權(quán)方均譜誤差)為最?。?應(yīng)使下列加權(quán)積分值達到最?。?式中 G() 頻率加權(quán)函數(shù); Xw(), Xwr() 原始語音譜和合成語音譜。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 差別: 方案 利用語音譜的模值; 方案 利用模值和相位,性能優(yōu)于 ,但計算復(fù)雜,碼率有所增加。 歧竭坦老欣道疙狹館澤謠夕倍瓷謠家貉邊被銷廄靶罷措矛詠懦狄棧上二砷第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議INMARSAT-M Voice Codec 采用方案。本節(jié)主要內(nèi)容:11.3.1頻域分析11.3.2時域分析11.3.3INMA

10、RSAT-M 改進 MBE 模型分析算法 第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 10 - 趙曉群 教授荒厄茍陸乍克煥票段凳了凹積蔣親臨屠睛面賜鹼講阮腔翹悼氫火掘歉越搪第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議11.3.1頻域分析1. 基音估計及各次諧波幅度的計算設(shè)基音周期為 T0(基音角頻率 0=2/T0 )。 依次假設(shè) 0 為各種可能出現(xiàn)的值。對于可能的基音角頻率值0 ,將=- 分為若干頻帶,分界點為:am=(m-0.5)0, bm=(m+0.5)0, m=0,1,(M+1)設(shè)每個分帶 am, bm 中 Hwr() 保持不變,Hwr()= Am, 則有

11、:式中 總的加權(quán)方均譜誤差; m 第m子帶加權(quán)方均譜誤差,或 第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 11 - 趙曉群 教授僅考慮幅度譜時考慮幅度、相位譜時超盧獲艱屯姐訂美尾痢奏河猖餐損煎濾沂觀箍蝎垂勾苦敦速雀拿銀布像摻第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議令或,由上兩式可分別解得一組最佳 和 :或若第 m 次諧波的能量顯周期性,則其能量集中在該諧波附近; 選周期性 Pw() 的作為激勵信號 Ewr(), 則合成語音譜Xwr() 與窗選語音譜 Xw() 在第 m 次諧波帶內(nèi)將擬合得很好( m 最小)。若第 m 次諧波的能量顯非周期性, 則 Xw() 在

12、該頻帶內(nèi)沒有特征性的形狀。 仍用 Pw() 作為激勵,m 值將較大。此時,應(yīng)選噪聲為激勵。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 12 - 趙曉群 教授僅考慮幅度譜時考慮幅度、相位譜時冪紋憲非一羨碩了絡(luò)歇溪彥盞漂景險眷驕扒乓愚歹牡禍狄碧苛閱肖輪玻貶第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議分析周期性與非周期性信號激勵時的最佳解。濁音頻帶時,選 Pw() 為激勵信號,由上頁兩式得:清音頻帶時,激勵采用理想白噪聲(幅度譜 = 1),則有:第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 13 - 趙曉群 教授僅考慮幅度譜時,最佳

13、譜幅度考慮幅度、相位譜時,最佳譜包絡(luò)。相位信息無關(guān)緊要,在此無需計算 Am。您噬嘆漚相承撻锨訃蠶束蔫酉唉妻呂偉用籠抵渝瘴捶天質(zhì)捕孕戎瘤哦煌彤第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議對于假定基音頻率 0 的每一個諧波,計算 Am 或 Am , 再求出各次諧波內(nèi)的最小誤差 。 則整個頻帶的總的最小誤差:每假設(shè)一個基音頻率 0,計算出對應(yīng)的 0。 顯然,正確的基音周期或其倍數(shù)上,0 取極小值。搜索 0 的全局最小值對應(yīng)的 T0=2/ 0 值可能是 正確的基音周期的某個整數(shù)倍值。因而,還需要對T0/2、T0/3、處的 0 進行校核, 以判斷正確的基音周期,從而確定最佳基音周期。最后確定最佳基音周期時,還

14、需要考慮前后幀的情況。 一般相鄰幀的 T0 值變化不會太大。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 14 - 趙曉群 教授告臥燈錐段薩埃奢系船嵌糧憑找留蝗詛耗茂試馬踩贓迫忽璃沮訖夾組盟謝第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議2. 諧波頻帶內(nèi) V/U 判決第 m 子帶的歸一化誤差能量為:采用激勵信號 Pw()(譜幅度Am 或譜包絡(luò) Am、周期 T0 ) 是第 m 諧波子帶的譜擬合誤差。令頻率加權(quán)函數(shù) G()=1,上式化簡為:子帶判決: 可以將相鄰的幾個諧波頻帶合并成一個子頻帶, 用上述同樣的方法提取Am 或 Am,并進行 V/U 判決。第11章多帶激勵聲

15、碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 15 - 趙曉群 教授覆盞魏鈍普書貳錦渦閡鏈蹦購顫佛并瓣鎬塘漱皖捻株芯定顫坊瑤嫡滋覆零第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議11.3.2時域分析W():窗函數(shù) w(n) 的 Fourier 變換, 0:歸一化基音角頻率(基音周期 T0,0= 2/T0)假設(shè)在 - 頻率范圍內(nèi)共 2M 個諧波, Pw() 為激勵時,有: 式中, 第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 16 - 趙曉群 教授囤廣攻瘡脂膚恰獲繞猾躲檔瘴羌迄披卜恥軸鐮糜晌槽勿沙伺棄吞茫午馬洽第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議令

16、頻率加權(quán)函數(shù) G()=1 ,由前面給出的式子 得,全帶擬合誤差: 式中,由上式可求出使 取極小值的矢量 a 為: 再代入上式,結(jié)合上頁式,得:式中,因此,對于某個選定的 T 值時,計算 min 等價于 max 。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 17 - 趙曉群 教授 注:上標 T 為轉(zhuǎn)置 H 為共軛轉(zhuǎn)置捉飲茄從竭聚欽微兼吠鬃滔褥劈屬迄撮支漬妻芭揭悸鐮衛(wèi)開蛤荒讓介篆猶第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議為了方便,選擇窗函數(shù) w(n),使其滿足頻域內(nèi)正交條件: , I 是單位矩陣;相當于時域內(nèi)滿足條件:還要求其 Fourier 變換的泄露足夠小,

17、 主瓣寬度足夠窄 (此寬度不應(yīng)大于基音頻率值) 。滿足上述條件且 w(n) 為偶函數(shù)時,上頁計算 式可改寫為: 注意到 0M= 近似成立,且 0T=2 ,則上式可簡化為:式中 T 假定的基音周期; w2(n)x(n) 的自相關(guān)函數(shù),第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 18 - 趙曉群 教授玫輥垣隸富腑佐稿贓幫悼罰愈獰蛀買熱蘭制埃除躬惦框繡善俺票倍苞忍徹第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議由 Parseval 定理,總擬合誤差寫成: 為了去除由于 T 值增加造成的下降,需要對上式修正,以保證真正的基音周期對應(yīng)的是全局最小值。采用無偏擬合誤差公式如下

18、: 采用此修正后,歸一化總誤差能量應(yīng)寫成下列形式: 第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 19 - 趙曉群 教授欣惱砒窩省彤暢螢戚抖姬胰葉烘喀累育混活緊汁威慮躇進窺撿真漏思剩蒂第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議設(shè)窗函數(shù) w(n) 長為 2N+1,以原點對稱。同時假設(shè)在窗長范圍內(nèi)有 L 個假設(shè)基音周期,即:則上頁式中,uB的求和上下限應(yīng)作相應(yīng)的改動,即得到: 為粗搜索時確定初始基音周期 TI 所用的擬合誤差時域表達。為提高精度,T 值也可取非整數(shù),如 20.5, 21, 21.5。 非整數(shù)點上的相關(guān)函數(shù)可插值計算:實驗表明,10 kHz 采樣,基音

19、周期的精確可達 0.04 樣點。數(shù)碼率較低時(4.8 kbit/s以下),精確到 1/4 1/8 樣點也就滿足要求了,這樣運算量可以減少很多。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 20 - 趙曉群 教授乾躬些繡脊罕津炙悼浪侍激痹講丹根愛攬二蹈脆喪情蕾蹈獨揉宅械哺污嗆第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議11.3.3 INMARSAT-M 改進 MBE 模型分析算法 圖11.3:INMARSAT-M 改進 MBE 模型算法框圖。語音信號: 8 kHz 采樣,線性 PCM 編碼, 語音樣值的最大值定標范圍:214-1,215-1 最小值定標范圍:-215

20、,-214需求出改進 MBE 模型參數(shù):基音角頻率、V/U判決, 子帶譜包絡(luò)參數(shù)(僅考慮幅度譜)。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 21 - 趙曉群 教授圖11.3MBE 語音分析算法方框圖高通濾波器低通濾波器基音周期初始估計清/濁判決基音周期精確估計頻譜估計語音信號貧崖贓峪職熔曹犢體誓函廓能跌這蔬周燥先拯葷僚姜鯉由卞凍穩(wěn)繡鴉檸贅第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議1. 高通濾波語音經(jīng)數(shù)字高通濾波器,濾除信號中的直流分量。 高通濾波器的截止頻率約 10 Hz,傳遞函數(shù)為:2. 低通濾波低通濾波器輸出的信號按下式計算: 低通濾波器是 21 階 F

21、IR 數(shù)字濾波器,其系數(shù)值列于表11.1。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 22 - 趙曉群 教授表11.1FIR 低通濾波器系數(shù)jhL(j)jhL(j)jhL(j)00.3942014-0.0637238-0.00743010.2973545-0.0045659-0.01377520.09367160.03065910-0.0021743-0.05160270.016900拙脾巢喚昭僅黑籃噴幌陜脈吟紊肚缺擲沏椒役沖硅兵恰締匈侵蛙肄侗榴狄第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議同濟大學(xué)電子與信息工程學(xué)院 - 23 - 趙曉群 教授圖11.4相鄰語音

22、幀與幀之間的關(guān)系過去幀當前幀將來幀3. 基音估計基音估計算法:應(yīng)保持相鄰語音幀基音周期的某種連續(xù)性?;舾櫵惴ǎ涸诖_定當前幀的基音周期時要考慮 相鄰的過去幀和將來幀的影響。圖11.4:當前幀和前后幀之間的關(guān)系。 幀長為 20 ms(160 個樣點)。 基音估計算法分:初始估計、精細估計兩步進行。初始估計得到初始基音周期:TI,TI D =21,21.5,114 , 精度: 1/2 采樣周期; 再由精細估計得出歸最終基音周期,精度:1/4 采樣周期。兩步法可降低計算復(fù)雜度和提高魯棒性。 第11章多帶激勵聲碼器 11.3多帶激勵語音分析 -40-2002040 60 ms T-2 T-1 T0

23、T1T2基音周期:誤差函數(shù):E-2(T)E-1(T)E0(T)E1(T)E2(T)笨繁蘿劃礬燼泄涼靛攙郁伎附您澤瞇材昂嵌斷癥堤晉莢享搐其刊嘴織蠢婦第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議算法的重要特點:初始估計和精細估計使用不同長度的窗函數(shù)。 初始估計窗 wI(n) 長為 281 個樣點; 精細估計窗wR(n) 長為 221 個樣點; 皆是對稱三角形窗,兩窗中點對齊。相鄰語音幀之間的重疊量是窗長的函數(shù), 重疊量 = 窗長 - 幀移動量(160 個樣點)。 wR(n)時,重疊量 61 個樣點;wR(n) 時,121個樣點。(1) 基音的初始估計 (步驟見圖11.5 ) 對每一個可能的基音周期 TD

24、,計算誤差函數(shù)值 E(T)。 然后通過前向與后向基音 跟綜算法,比較求出的值, 最終選擇最佳的候選者 作為 TI 。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 24 - 趙曉群 教授圖11.5初始基音周期估計后向基音跟蹤前向基音跟蹤比較基音估計值計算誤差函數(shù)曙允喊述浦擇婉贅做東翁章醉繪骸拒項行癟悔蕩漫杏喇毅動?xùn)|瞥誘縷峪手第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議 計算誤差函數(shù)根據(jù)歸一化總誤差能量定義,誤差函數(shù) E(T) 定義為: 式中wI(n) 歸一化三角形窗函數(shù),滿足 。 當 t 為整數(shù)值時,自相關(guān)函數(shù) (t) 定義為: 當 t 為非整數(shù)值時,用線性內(nèi)插公式

25、計算 (t)?;糁芷诘某跏脊烙?TI 為:采用基音跟蹤算法,保證基音周期 TI 的連續(xù)性。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 25 - 趙曉群 教授坊饞蔽府收終做剖鐮釉汛籮黑韌曠痛契涎灤襯芒覓疊給阿晝豹聽忻繕溢烷第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議 后向基音跟蹤E-1(T-1)、E-2(T-2) 過去兩幀對應(yīng)的誤差函數(shù)值; 因基音周期的連續(xù)性,當前幀的基音周期 T 應(yīng)在 T-1 附近, 應(yīng)滿足約束條件:在上式范圍內(nèi)逐個選取 T,并計算相應(yīng)的 E(T) , 使 E(T) 最小的 T 就是后向估計 TB, 計算后向累計誤差 CE(TB): CE(T

26、B) 是后向基音估計的置信度測度。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 26 - 趙曉群 教授貿(mào)既搖轍酗溪殲圭楞則嚴庶宵記巾忍幌聾濃魂撼渝蓄砌階坍韭魁爬審逃件第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議 前向基音跟蹤E1(T1)、E2(T2) 將來兩幀對應(yīng)的誤差函數(shù)值;將來兩幀的基音周期尚未確定, 前向基音跟蹤算法必須首先設(shè)法確定這些基音周期值。在集合 D 內(nèi)選定一個 T0,按下面的約束條件選取T1 、T2: 使E1(T1)+E2(T2)最小的T1 、T2表示為 , 并按下式計算前向累計誤差函數(shù) CEF(T0) 為: 重復(fù)上述過程,在規(guī)定的范圍內(nèi)逐個選定

27、T0, 計算相應(yīng)的CEF(T0) ,使其最小的 T0 定義為 。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 27 - 趙曉群 教授估蓄負噶垃擒薩爾榔寵刺帶刺萊寥蟲郁夢扮帥久投舞舉糞陸掄娛劊嚏眩軋第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議為防止倍基音周期,考慮 取 的可能性。要求 ,選擇一個與其最接近的值代替。 再檢查是否滿足下列三個條件之一、且為最小值的 ,若有,則前向基音估計 ;否則 。完成前、后向基音跟蹤,并求得估計值后, 按下列判決規(guī)則確定初始基音估計 TI: If CEb(TB)0.48 then TI =TB else if CEb(TB)CEF(T

28、F) then TI =TB else TI =TF 最終的基音估計的精度提高到 1/4 采樣周期。 第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 28 - 趙曉群 教授癟彎吝謅獺梨萬堵愁拌珠豢頒韓冰咐駱扶稗緞屜人懂甭搪剩篆被迫啼鯉砷第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議(2) 基音的精細估計圖11.6:基音精細估計的方框圖。精細估計窗 wR(n): 長 221 個樣點,歸一化三角形窗。由基音初始估計 TI,產(chǎn)生 10 個基音精細估計的候選值:將其轉(zhuǎn)換為相應(yīng)的基音頻率 0=2/T0。 然后在這 10 個點上進行細搜索,確定基音周期的精細估計。第11章多帶激勵

29、聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 29 - 趙曉群 教授圖11.6基音的精細估計計算Am(0)計算Xwr(l,0)計算(0)256點DFT16384點DFT產(chǎn)生10個0 候選值min(0)惜箕撕剿恃卑訛否瑣苦懷驕瑣截賬大訛獅謠仕俺疚大村柜畢蔓秘望婚甄拇第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議 計算窗選語音和窗函數(shù)的離散 Fourier 變換。對窗選語音信號,計算 256 點 DFT: 對窗函數(shù),計算 16384 點 DFT:(擴大點數(shù),可保證精度) 對每一個假設(shè)的 0,求各諧波的最佳譜包絡(luò)值 Am(0)。選定 0,則在 - 之間有個 2/0 諧波分量, 兩個相鄰諧

30、波之間含有 2560 / 2 個語音信號的 DFT 點。對于第 m 次諧波,它的頻帶下限、上限為: 其中,INT x 表示取大于或等于 x 的最小整數(shù)。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 30 - 趙曉群 教授影主測戰(zhàn)輿麗點銀肩謊娶悄趨裔赤范傾因總賬滔眺娥漠系裔欺澤浦江壓復(fù)第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議根據(jù)式:因窗選激勵 Pw() 在頻帶內(nèi)與窗函數(shù)主瓣包絡(luò)形狀相同, 故用 WR() 代替 Pw() 。這意味著語音改變一個樣點,窗改變 64 個樣點。 因此,最佳用下式計算: 計算合成語音譜。按下式計算:第11章多帶激勵聲碼器 11.3多帶激勵

31、語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 31 - 趙曉群 教授蠟拙藩棕郭施旭割洶京磊臉晶錦熙墓稅產(chǎn)娛女胰盒慌誤甕志廊響挽撰桐伊第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議 計算加權(quán)總擬合誤差,選擇最佳 0 (或 T0 )。采用 DFT 的總擬合誤差為:在細搜索中,主要考慮高次諧波頻帶擬合的情況,因此,加權(quán)函數(shù)在低頻端可以取 0,求和下限不從 1 開始; 高頻端可以取 1,求和上限也不必達到 127。語音頻譜一般限制在 2003600 Hz范圍內(nèi)。 故按下列公式確定求和上限 q: 總擬合誤差可以改寫成:對 10 個候選基音頻率,逐個計算出總擬合誤差, 使其最小的 0 是當前幀基音周期的精細估計值。第

32、11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 32 - 趙曉群 教授利用偶對稱性,只計算了一半的值榔哭瞎眨泊哈謹喳煌禱源液競輔仙塊坯出撰承霹撼縫馬英瀉肇來努恍彬管第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議4. V/U 判決圖11.7:V/U 判決的方框圖。利用每個諧波處合成譜與窗選語音譜擬合的程度來確定。 若歸一化擬合誤差 閾值,判定該諧波頻帶為濁音帶; 反之為清音帶。采用 DFT 時,前面推導(dǎo)的歸一化誤差應(yīng)改寫成:也可將幾個相鄰諧波頻帶合并成一個頻帶, 根據(jù)該頻帶總擬合誤差作出該帶的 V/U 判決。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與

33、信息工程學(xué)院 - 33 - 趙曉群 教授圖11.7清/濁判決方框圖計算擬合誤差計算E0更新Eavg,Emin,Emax計算閾值與閾值比較刑遼瑤職據(jù)忘粥倉星烽痊漾皿框沿邏疼挎荊遵廁蛹閹厚蹭僳頌搬上怔泉疥第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議實用 V/U 判決方案:最多分 12 個帶,判決方法如下: 確定諧波的個數(shù) M。計算式: 確定子帶的個數(shù) K。每個子帶包含 3 個諧波分量(見圖11.8)。子帶數(shù)的計算式:第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 34 - 趙曉群 教授圖11.8改進的 MBE 頻帶結(jié)構(gòu)子帶 1 子帶 2 子帶 K-1 子帶 K驗藹釘著斃

34、詫萬坪棱媚拯端鵝霜疫逆恒蚊轉(zhuǎn)嘻保淘濱胡忻卑好瘍?nèi)照陆虿牡?1章多帶激勵聲碼器數(shù)學(xué)語音編碼講議 計算各帶的歸一化擬合誤差。計算式:第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 35 - 趙曉群 教授法豪煥鴿粱帖掛觸妊協(xié)燥錐茹瘩常機將磋拂卿聶菲庭陋眶姜懷恿嘗妥沽糖第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議 計算 V/U 的判決閾值。計算式:第一項:隨 0 增大而變大。 當 0 增加時諧波個數(shù)將減少,擬合誤差會變大, 此項起到去偏作用。第二項:隨 0 升高而變小。 由于話音高頻端通常更具有隨機譜的特征, 因此,較多地判為清音區(qū)會使合成語音聽起來自然。第三項:是同語音當

35、前幀能量 E0、平均能量 Eavg、 最小能量 Emin、最大能量 Emax 有關(guān)的參數(shù)。采用自適應(yīng)方法,逐幀更新這些參數(shù),以期獲得更好的效果。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 36 - 趙曉群 教授伴色懶毅詐取韶惱哈魯吮虱歸拾服冒馮奎懶衰臂凍乞絳謀蕉友填蔥逸殊涅第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議若用 E(0) 表示當前幀的參數(shù), E(-1)表示前一幀的參數(shù), 相關(guān)量的定義為: 且滿足的約束條件:第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 37 - 趙曉群 教授忍佯酚吊既錠巴潑脖散使賄持姻隴坷車謙癟箭比蘊

36、據(jù)熊中切殘毫釩污識梁第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議求出上述幾個能量之后,再確定函數(shù): V/U 判決。判決規(guī)則為:第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 38 - 趙曉群 教授憋蛛郵降疫追巾忌畏蛀麥回指鎮(zhèn)翅柬宗酪剩托仿膳濘懊伊疑禾邪頗衍乃當?shù)?1章多帶激勵聲碼器數(shù)學(xué)語音編碼講議5. 求各諧波幅度或包絡(luò)圖11.9:頻譜幅度估計框圖。改進 MBE 語音編碼器,每個分頻帶包含 3 個諧波。 諧波結(jié)構(gòu)見圖11.8。對于第 k 個頻帶,其頻帶范圍為 a3k-2 b3k, 需要確定 3 個頻譜幅度 A3k-2、A3k-1、A3k。第11章多帶激勵聲碼器 11

37、.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)院 - 39 - 趙曉群 教授圖11.9頻譜幅度估計計算清音幅度計算濁音幅度選擇清音/濁音譜幅度圖11.8改進的 MBE 頻帶結(jié)構(gòu)子帶 1 子帶 2 子帶 K-1 子帶 K貼急暇陽疽郝幸梢渾旱徽什委翌獅瑚咋犁蠶翰纜頹納纂殆地何十含儡粒負第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議濁音帶時, 按下式計算: 如果數(shù)碼率足夠高,也可以直接傳送 Am(0)。清音帶時, Am 按下式計算:對于最高分頻帶 K,其頻帶范圍是 a3k-2bM, 包含 M-3k+3 個譜幅度。令直流分量 A0=0。第11章多帶激勵聲碼器 11.3多帶激勵語音分析 同濟大學(xué)電子與信息工程學(xué)

38、院 - 40 - 趙曉群 教授婁雨硯兒弱滇真椰冀綴挺喉持庭令輯欽聚詢洶退皆亨鵬益邢酶勢夕嘶脂藐第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議改進 MBE 模型的全部參數(shù)為: 基音周期 T0, 各帶的 V/U 判決 Vk, (k=1,2,K), 各諧波處的最佳幅度 Am, (m=1,2,M) 。參數(shù)傳送給解碼器前,需量化、編碼。 INMARSAT-M 語音編碼器的比特率為 6.4 kbit/s, 幀長 20 ms,每幀 128 bit, 其中 45 bit 留給信道編碼用,余 83 bit 供量化模型參數(shù)用。表11.2:比特分配表。 (參數(shù)量化的方法從略)第11章多帶激勵聲碼器 11.3多帶激勵語音分析

39、 同濟大學(xué)電子與信息工程學(xué)院 - 41 - 趙曉群 教授表11.2模型參數(shù)比特分配參數(shù)基音周期V/U 判決頻譜幅度每幀比特數(shù)8K75-K景衡塊五盟溪劊纏怪板畜乓迅旨帆揍柑泵謂知黔枕算者減巋慮就蠕耶咸拍第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議第11章多帶激勵聲碼器11.4多帶激勵語音合成兩種合成方法:頻域合成法、時域合成法。頻域合成法:重建語音譜,求 Fourier 反變換得時域序列。 相當于分析過程的逆過程。 特點:比較直接,但不能保證合成語音基音周期的平滑變化。時域合成法:利用插值實現(xiàn)幀間基音周期的平滑過渡, 可使合成語音更自然。 因此,實際的 MBE 算法都采用這種方法。下面介紹時域合成法。

40、 圖11.10:改進 MBE 語音合成框圖。 濁音成分與清音成分分開合成, 再相加形成完整的合成語音。 第11章多帶激勵聲碼器 11.4多帶激勵語音合成 同濟大學(xué)電子與信息工程學(xué)院 - 42 - 趙曉群 教授圖11.10改進 MBE 語音合成方框圖清音合成濁音合成合成語音佰層犀見寅奶奔蓖淳真盯爪啃嚏苫心細門萌奧緒霖訴倪拱匡瀕取取薊勒甲第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議11.4.1清音成分的合成清音成分的合成用白噪聲激勵。初始值為 u(-105) = 3147。按下式產(chǎn)生一個白噪聲序列 u(n): 對相繼的合成語音幀,u(n) 移動 20 ms(160 樣點), 對 u(n) 加窗,合成窗

41、wx(n) 長:209 樣點。因此,在相繼合成語音幀之間,噪聲序列重疊 49 樣點。 對加窗后的 u(n) 進行 256 點的 DFT,得:第11章多帶激勵聲碼器 11.4多帶激勵語音合成 同濟大學(xué)電子與信息工程學(xué)院 - 43 - 趙曉群 教授娶襯慷槐妹坪體迫癟楓阻衫喳驗掠授衷輾錢妮凜艾四師母躬貞想捐氯懇鐵第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議再根據(jù)諧波頻帶 m 是濁音區(qū)(Vk=1)或清音區(qū)(Vk=0),再對 Uw( l ) 進行修正得Uwc( l ) :式中,am, bm 定義見前面; Am(0) 當前幀的 Am 值。 m 伸縮系數(shù),是合成窗 wx(n) 與 基音精細估計窗 wR(n) 的函數(shù), 修正效果相當于用一組帶通濾波器濾除濁音帶的信號。第11章多帶激勵聲碼器 11.4多帶激勵語音合成 同濟大學(xué)電子與信息工程學(xué)院 - 44 - 趙曉群 教授寄畢峰堪判允沼礎(chǔ)河該拼耶五朝銜義五啄壕絕滌商臘腐暢婪冠耀碰趟篩睛第11章多帶激勵聲碼器數(shù)學(xué)語音編碼講議Uwc( l ) 中很低及很高的頻率成分都置0,即:對得到的頻域各點 Uwc(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論