語音信號(hào)數(shù)字處理:7- 語音的矢量量化_第1頁
語音信號(hào)數(shù)字處理:7- 語音的矢量量化_第2頁
語音信號(hào)數(shù)字處理:7- 語音的矢量量化_第3頁
語音信號(hào)數(shù)字處理:7- 語音的矢量量化_第4頁
語音信號(hào)數(shù)字處理:7- 語音的矢量量化_第5頁
已閱讀5頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第7章語音的矢量量化7.2矢量量化的基本原理 7.1概述 7.4矢量量化器的最佳碼書設(shè)計(jì) 7.3矢量量化的失真測(cè)度7.5無記憶矢量量化器 7.6有記憶矢量量化器7.7語音波形的矢量量化 7.8語音參數(shù)的矢量量化 第7章語音的矢量量化7.1概述 矢量量化(VQ):1956年Steinhaus首次提出, 1970年代后期發(fā)展,數(shù)據(jù)壓縮和編碼技術(shù);應(yīng)用于:語音編碼、語音合成、語音識(shí)別和說話人識(shí)別。矢量量化在語音信號(hào)處理中占有重要地位。標(biāo)量量化和矢量量化: 標(biāo)量量化:是對(duì)標(biāo)量進(jìn)行量化,即一維的矢量量化。 將動(dòng)態(tài)范圍分成若干個(gè)小區(qū)間,每小區(qū)間有一個(gè)代表值。 當(dāng)輸入信號(hào)落入某區(qū)間時(shí),量化成該代表值。 矢量

2、量化:是對(duì)矢量進(jìn)行量化。 將矢量空間分成若干個(gè)小區(qū)域,每小區(qū)域有一個(gè)代表矢量。 當(dāng)輸入矢量落入某區(qū)域時(shí),量化成該代表矢量。第7章語音的矢量量化 7.1概述矢量量化是標(biāo)量量化的發(fā)展。矢量量化總是優(yōu)于標(biāo)量量化,維數(shù)越高,性能越優(yōu)越。矢量量化有效利用各分量間的互相關(guān)性。1970年代未,Linda,Buzo,Gray和 Markel等人首次解決了矢量量化碼書 生成的方法,并首先將矢量量化用于 語音編碼獲得巨大的成功。 2.4 kbit/s線性預(yù)測(cè)聲碼器,每幀10個(gè)反射系數(shù)用10維的矢量量化,可使數(shù)碼率降低到0.8 kbit/s,音質(zhì)基本未下降;分段聲碼器采用矢量量化,數(shù)碼率可降低到0.15 kbit/

3、s; .矢量量化與隱馬爾可夫模型、人工神經(jīng)網(wǎng)絡(luò)等的結(jié)合, 可提高性能,研究和應(yīng)用較多。第7章語音的矢量量化 7.1概述R. M. GrayY. Linde第7章語音的矢量量化7.2矢量(VQ)量化的基本原理 矢量的組成:若干個(gè)標(biāo)量數(shù)據(jù)或一幀語音的特征參數(shù)。設(shè)有 N 個(gè) k 維特征矢量 X : 其中, xi 可以是語音信號(hào)中某幀參數(shù)組成的矢量。把 k 維Euclid空間分成 J 個(gè)互不相交子空間R1,R2,RJ,即 式中,RjVoronoi胞腔,簡(jiǎn)稱胞腔。在每個(gè)胞腔中選一代表矢量 yj , J 個(gè)代表矢量組成矢量集合:第7章語音的矢量量化 7.2矢量量化的基本原理矢量量化器: 輸入矢量xi到量化

4、器Q,并判斷屬于哪個(gè)子空間Rj ,然后輸出該子空間Rj的代表矢量yj 。 即:矢量量化過程是用yj代表xi的過程(把 yj 量化成 xi ), 表達(dá)式: 式中,Q( ) 矢量量化器函數(shù)。 稱為碼書(碼本), yj 稱為碼矢(碼字)。 J 為碼書容量 (碼書尺寸) 。不同的代表矢量的選取方法 構(gòu)成不同的矢量量化器。圖7.1:二維矢量量化器例(容量7)第7章語音的矢量量化 7.2矢量量化的基本原理圖7.1二維矢量量化概念示意圖y1y2y3y4y5y6y7Sa2a1(香農(nóng)信息論)矢量維數(shù)越大,矢量量化性能越好。矢量量化的過程與標(biāo)量量化相似。在矢量量化時(shí),將輸入矢量量化為“距離”最小的區(qū)域邊界的中心矢

5、量值。矢量量化也會(huì)產(chǎn)生量化誤差(量化噪聲), 碼書容量足夠大,量化誤差就會(huì)足夠小。 合理地選擇碼書(碼書優(yōu)化)也可以降低誤差。 第7章語音的矢量量化 7.2矢量量化的基本原理圖7.2:基于矢量量化的語音通信系統(tǒng)。 編碼器、解碼器各有相同的碼書;碼書含 J 個(gè) k 維碼字。 工作原理:(1) 每輸入一幀語音(幀長(zhǎng)N),形成與之相應(yīng)的k 維特征矢量( kN),并送入VQ編碼器。 (2) 根據(jù)輸入特征矢量從編碼器碼書中選擇一與之失真誤差最小的碼矢 yv ,取yv的編碼(標(biāo)號(hào))v ,即: ; (3) 傳輸 v ,若不產(chǎn)生誤差,則收端的信號(hào)仍是 v; (4) 解碼器按照v 從解碼器碼書中選出具有相同下標(biāo)

6、的碼字 yv作為輸出,yv 即為xi的重構(gòu)矢量(恢復(fù)矢量),即: 。第7章語音的矢量量化 7.2矢量量化的基本原理圖7.2基于矢量量化的語音通信系統(tǒng)k維輸入矢量xVQ編碼器失真測(cè)度d(x,y)y1,y2,yJ搜 索v=mind(x,yv)碼 書信道或存儲(chǔ)器VQ解碼器確定yv=(v)y1,y2,yJ碼 書v v輸出矢量y矢量量化應(yīng)用于語音識(shí)別: 一般工作過程: (1) 將待識(shí)別的語音樣本(一個(gè)字或一個(gè)詞)分幀矢量量化,其量化碼書序列作為識(shí)別的參考模板。 (2)識(shí)別時(shí),對(duì)輸入的語音計(jì)算其矢量量化序列,并計(jì)算該序列與每一參考模板的總平均失真量化誤差(語音每一幀矢量量化值與碼書的失真之和除以該語音的幀

7、數(shù)) (3) 誤差最小的碼書序列所對(duì)應(yīng)的字(或詞)即為識(shí)別結(jié)果。第7章語音的矢量量化 7.2矢量量化的基本原理利用矢量量化技術(shù),主要解決兩個(gè)問題: (1) 好的碼書:有兩個(gè)標(biāo)志,J 個(gè)區(qū)域邊界和代表碼字。“訓(xùn)練”或“學(xué)習(xí)”階段:對(duì)大量的輸入信號(hào)矢量,經(jīng)過統(tǒng)計(jì)實(shí)驗(yàn),劃分 J 個(gè)區(qū)域邊界,其任務(wù)是建立碼書。建立碼書時(shí),按照失真度準(zhǔn)則,用聚類算法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分類,將數(shù)據(jù)在多維空間中劃分成胞腔,常用LBG算法。為建立好的碼書,要求訓(xùn)練數(shù)據(jù)量大、有代表性;并選擇好的失真準(zhǔn)則以及碼書優(yōu)化方法。(2) 未知矢量的量化:按照失真測(cè)度準(zhǔn)則,把未知矢量量化為矢真測(cè)度最小的區(qū)域邊界的代表(碼字)矢量,該碼字的編號(hào)

8、為編碼。比較兩矢量時(shí)的測(cè)度問題。描述了當(dāng)輸入矢量用碼書中對(duì)應(yīng)的碼矢來表征時(shí)所應(yīng)付出的代價(jià)。未知矢量量化時(shí)的搜索策略,好的搜索策略可減少量化時(shí)間。 第7章語音的矢量量化 7.2矢量量化的基本原理第7章語音的矢量量化7.3矢量量化的失真測(cè)度失真測(cè)度(距離測(cè)度):將輸入矢量用碼書重構(gòu)矢量來表征時(shí)所產(chǎn)生的誤差或失真的度量方法,失真測(cè)度可描述兩個(gè)或多個(gè)模型矢量間的相似程度。失真測(cè)度的好壞直接影響聚類效果和量化精度,進(jìn)而影響語音矢量量化處理系統(tǒng)的性能。 比較 k 維特征矢量 x 、 y ,使距離測(cè)度有效,應(yīng)滿足條件:(1) 對(duì)稱性;(2) 正值性;(3) 有明確的物理意義;(4) 有高效的計(jì)算方法。第7章

9、語音的矢量量化 7.3矢量量化的失真測(cè)度失真測(cè)度在數(shù)學(xué)上是“距離”的概念,應(yīng)該滿足三角不等式。 該條件和實(shí)際情況可能不相符。在語音信號(hào)處理中,常用的失真測(cè)度: Euclid距離測(cè)度、 加權(quán)Euclid距離測(cè)度、 ItakuraSaito距離測(cè)度、 似然比失真測(cè)度、 識(shí)別失真測(cè)度等。第7章語音的矢量量化 7.3矢量量化的失真測(cè)度7.3.1 Euclid距離測(cè)度設(shè) x 為未知模式的 k 維特征矢量,y為碼書中某個(gè) k 維碼矢, xi, yi 分別表示 x 和 y 的同一維分量,幾種常用的Euclid距離測(cè)度如下: 方均誤差Euclid距離測(cè)度。定義為: r 方平均誤差Euclid距離測(cè)度。定義為:

10、 r 平均誤差Euclid距離測(cè)度。定義為:第7章語音的矢量量化 7.3矢量量化的失真測(cè)度 絕對(duì)值平均誤差Euclid距離測(cè)度。定義為: 優(yōu)點(diǎn):計(jì)算簡(jiǎn)單,易于硬件實(shí)現(xiàn)。最大平均誤差Euclid距離測(cè)度。定義為:加權(quán)Euclid距離測(cè)度。定義為: 式中,w(i) 加權(quán)系數(shù)。六種Euclid測(cè)度中,最常用方均誤差Euclid距離測(cè)度。 優(yōu)點(diǎn):簡(jiǎn)單,易處理,且基本符合語音主觀感知的狀況 第7章語音的矢量量化 7.3矢量量化的失真測(cè)度7.3.2線性預(yù)測(cè)失真測(cè)度日本學(xué)者板倉(Itakura)等人提出。 語音的全極點(diǎn)模型應(yīng)用廣泛;用線性預(yù)測(cè)方法估計(jì)模型參數(shù)。估計(jì)準(zhǔn)則為預(yù)測(cè)誤差能量(方均值)最小。若直接使用

11、Euclid失真測(cè)度,度量模型參數(shù)的誤差無意義。用由這些系數(shù)所描述的信號(hào)模型的功率譜進(jìn)行度量是適宜。線性預(yù)測(cè)失真測(cè)度由此產(chǎn)生。第7章語音的矢量量化 7.3矢量量化的失真測(cè)度板倉Fumitada Itakura設(shè)x(n) (n = 0,1,N-1) 一幀 N 長(zhǎng)語音信號(hào);a1,a2,ap p 階最佳線性預(yù)測(cè)系數(shù);a =1, a1,a2,ap 特征矢量; 碼書中某特征矢量;信號(hào)x(n) (功率譜為 f() )和碼書特征矢量 決定的信號(hào)(功率譜為f() )之間的Itakura-Saito失真測(cè)度,其定義為 式中,Rx 信號(hào)x(n)的 p+1階自相關(guān)矩陣, r(i)信號(hào)x(n)的自相關(guān)函數(shù),; 信號(hào)x

12、(n)的預(yù)測(cè)誤差功率; p 階碼書重構(gòu)矢量的預(yù)測(cè)誤差功率。第7章語音的矢量量化 7.3矢量量化的失真測(cè)度Itakura-Saito失真測(cè)度是針對(duì)線性預(yù)測(cè)模型的,用最大似然準(zhǔn)則導(dǎo)出,適于用LPC參數(shù)描述的語音信號(hào)情況。還推導(dǎo)出以下兩種線性預(yù)測(cè)的失真測(cè)度,它們比上述這種具有更好的性能。對(duì)數(shù)似然比失真測(cè)度。定義為:模型失真測(cè)度。定義為: 這兩種失真測(cè)度也有局限性,僅比較了兩矢量的功率譜,沒考慮能量信息。第7章語音的矢量量化 7.3矢量量化的失真測(cè)度7.3.3識(shí)別失真測(cè)度矢量量化用于語音識(shí)別時(shí),對(duì)失真測(cè)度還應(yīng)該有其他考慮。例:用LPC參數(shù)的對(duì)數(shù)似然比失真測(cè)度兩矢量的功率譜時(shí),應(yīng)該考慮能量的影響。研究表

13、明,頻譜與能量均攜帶語音信息。引入識(shí)別失真測(cè)度,定義為: 式中, 輸入信號(hào)矢量和碼書重構(gòu)矢量的歸一化能量; 加權(quán)因子; g(x) 專用函數(shù), g(x)的作用:(1)當(dāng)能量接近時(shí),忽略能量差異引起的影響; (2) 當(dāng)能量相差較大時(shí),進(jìn)行線性加權(quán); (3) 當(dāng)能量差超過門限時(shí),則為某固定值。第7章語音的矢量量化 7.3矢量量化的失真測(cè)度第7章語音的矢量量化7.4矢量量化器的最佳碼書設(shè)計(jì)矢量(VQ)量化器的最佳碼書設(shè)計(jì)就是:(1) 從大量的信號(hào)樣本中訓(xùn)練出優(yōu)化的碼書;(2) 從實(shí)際效果出發(fā)尋找到好的失真測(cè)度;(3) 用最少的搜索和計(jì)算失真的運(yùn)算量實(shí)現(xiàn)最大的平均信噪比。數(shù)學(xué)表述: d(x,y) 訓(xùn)練用

14、特征矢量 x 與訓(xùn)練出的碼書的碼字 y 之間的 畸變(失真測(cè)度); 則最佳碼書的設(shè)計(jì)是在一定的條件下,使 D= Ed(x,y)最小。第7章語音的矢量量化 7.4矢量量化器的最佳碼書設(shè)計(jì) 為實(shí)現(xiàn) min Ed(x,y),應(yīng)該遵循以下兩條原則:(1)最近鄰準(zhǔn)則(Nearest Neighbor Rule,NNR): 根據(jù) x 選擇相應(yīng)的碼字 yj 時(shí),遵從NNR ,即滿足:(2)質(zhì)心原則: Euclid測(cè)度時(shí),yl 應(yīng)等于所有矢量的質(zhì)心,即: 式中,Sl 所有選擇碼字 yl (即歸屬于 yl 所表示的區(qū)域) 的輸入矢量 x 的集合; N集合Sl中矢量的個(gè)數(shù), 。根據(jù)上述兩條原則可設(shè)計(jì)出計(jì)算碼書的遞

15、推算法。第7章語音的矢量量化 7.4矢量量化器的最佳碼書設(shè)計(jì) 7.4.1LBG算法最佳VQ量化器的設(shè)計(jì):實(shí)際是最佳碼書的設(shè)計(jì)。根據(jù):Voronoi條件: 質(zhì)心條件: 可以構(gòu)造一種碼書設(shè)計(jì)的遞推算法。這種算法是標(biāo)量量化器中Lloyd算法的多維推廣,由Linde、Buzo、Gray推廣到多維空間,稱為L(zhǎng)BG算法。LBG算法:理論嚴(yán)密、應(yīng)用簡(jiǎn)便以及較好的設(shè)計(jì)效果, 得到廣泛應(yīng)用,是各種改進(jìn)算法的基礎(chǔ)。 第7章語音的矢量量化 7.4矢量量化器的最佳碼書設(shè)計(jì) LBG算法步驟:(1) 設(shè)定碼書和迭代訓(xùn)練參數(shù): S 全部輸入的訓(xùn)練矢量 x 的集合; J 碼書的容量, L 最大迭代次數(shù), 兩個(gè)矢量的最小畸變閾

16、值。(2) 初始化:J 個(gè)碼字初值為 ; 畸變初值 D(0)=; 迭代次數(shù)初值 m = 1。(3) 將 S 分成 J 個(gè)子集 : 由最近鄰準(zhǔn)則,對(duì)每個(gè) ,若下式成立,判定 。第7章語音的矢量量化 7.4矢量量化器的最佳碼書設(shè)計(jì) (4)計(jì)算總畸變:(5)計(jì)算畸變改進(jìn)量D(m)的相對(duì)值:(6) 更新碼書的碼字 :(7) 若滿足 ,則轉(zhuǎn)入(9)執(zhí)行;否則,轉(zhuǎn)入(7)執(zhí)行。(8) 若滿足 mL ,則轉(zhuǎn)入(9)執(zhí)行; 否則,令m = m+1 ,轉(zhuǎn)入(3)執(zhí)行。(9) 迭代終止;輸出優(yōu)化的最佳碼書。第7章語音的矢量量化 7.4矢量量化器的最佳碼書設(shè)計(jì) 7.4.2初始碼書的生成初始碼書的設(shè)計(jì)對(duì)最佳碼書的設(shè)計(jì)

17、有很大影響。構(gòu)造初始碼書:隨機(jī)碼書法、乘積碼書法、分裂碼書法等。隨機(jī)選取法:J 個(gè)初始碼字從訓(xùn)練序列中隨機(jī)選取。 優(yōu)點(diǎn):簡(jiǎn)單,無空胞腔問題。 缺點(diǎn):可能選到一些非典型的矢量作為碼字(無代表性), 可能導(dǎo)致收斂速度慢或不收斂,或碼書不是最優(yōu)。 乘積碼書:用若干個(gè)低維碼書作乘積,得高維碼書。用2個(gè)低維碼書作乘積來獲得。k1 維、J1容量的碼書乘以k-k1 維、J2 容量的碼書,得 k 維、J1J2 容量的碼書。 例:設(shè)計(jì)8維、 256容量的初始碼書,由2個(gè)小碼書相乘得到。 小碼書的維數(shù):2和6(268),容量為16。 第7章語音的矢量量化 7.4矢量量化器的最佳碼書設(shè)計(jì) 分裂法:先取較小碼書,用L

18、BG算法優(yōu)化;再對(duì)優(yōu)化結(jié)果進(jìn)行分裂,得較大、較優(yōu)碼書。重復(fù)優(yōu)化、分裂、再優(yōu)化過程。 分裂法圖示: 第7章語音的矢量量化 7.4矢量量化器的最佳碼書設(shè)計(jì) 分裂法的步驟如下: (1) 求出 S 中全體訓(xùn)練矢量 x 的質(zhì)心作為初始碼書的碼字 ;(2) 將 分裂為初始碼書 ,再用LBG算法得新碼書 (3) 重復(fù)(1)(2)。 循環(huán) r 次后,最終的碼書容量為 J=2r。 矢量分裂方法:有多種。(1)選較小的閾值矢量,則 y 可分裂為:(2)選擇實(shí)數(shù)1,則 y 可分裂為:(3)對(duì)某個(gè) Sj 的質(zhì)心,在 Sj 中找與 y 的畸變?yōu)樽畲蟮氖噶縴1, 再在 Sj 中找與 y1的畸變?yōu)樽畲蟮氖噶?y2 , 則

19、y 分裂為 y1、 y2 。第7章語音的矢量量化 7.4矢量量化器的最佳碼書設(shè)計(jì) 空胞腔的處理:迭代中有時(shí)出現(xiàn)空胞腔(胞腔是空集) 處置方法:去掉空胞腔,然后把最大胞腔(含有最多訓(xùn)練序列矢量的胞腔)分裂為兩個(gè)胞腔。設(shè)計(jì)好VQ量化器和碼書, VQ量化系統(tǒng)基本完成。VQ量化解碼器:利用接收的碼字編號(hào),用查表法譯碼。 很簡(jiǎn)單。第7章語音的矢量量化 7.4矢量量化器的最佳碼書設(shè)計(jì) 第7章語音的矢量量化7.5無記憶矢量量化器 VQ量化器分為:無記憶VQ量化器、有記憶VQ量化器兩類。無記憶VQ量化器:每一矢量獨(dú)立量化,量化值不依賴于 此矢量前面的其它矢量。有記憶VQ量化器:在量化每一矢量時(shí),不僅與本身有關(guān)

20、, 而且與前面的矢量有關(guān)(有記憶性)。無記憶VQ量化器: 包括全搜索VQ量化器、樹搜索VQ量化器、 多級(jí)VQ量化器、波形/增益VQ量化器、 分離均值VQ量化器等。第7章語音的矢量量化 7.5無記憶矢量量化器 (1) 全搜索VQ量化器全搜索算法:對(duì)每個(gè)輸入矢量,比較它與碼書中每一個(gè)碼字的失真測(cè)度,并將失真測(cè)度最小的碼字編號(hào)作為編碼輸出。 算法特點(diǎn):算法有效,編碼搜索量過大,碼書存儲(chǔ)量過大, 碼書訓(xùn)練量過大。應(yīng)用有困難。解決辦法:改變碼書結(jié)構(gòu),或者從改變搜索策略入手, 提出多種方法提高訓(xùn)練和量化效率。 (2) 樹搜索VQ量化器 樹搜索算法:分為二叉樹和多叉樹兩種算法,二者原理相同。本節(jié)以二叉樹為基

21、礎(chǔ)討論。按碼書形成的方法,可將樹搜索VQ量化器分為兩種情況 直接形成的樹狀碼書 全搜索碼書形成的樹狀碼書 第7章語音的矢量量化 7.5無記憶矢量量化器 直接形成的樹狀碼書:步驟: 形成 2 容量碼書(1 Bit系統(tǒng)),碼字為y0、y1。依NNR準(zhǔn)則將輸入矢量的集合分為兩個(gè)以碼字y0、y1為質(zhì)心的子集。 對(duì)兩個(gè)子集進(jìn)行1 bit VQ量化,得2個(gè)2容量碼書,4個(gè)碼字。 繼續(xù)進(jìn)行分裂,r 次后形成 J = 2r 容量碼書。 圖7.3:形成的二叉樹結(jié)構(gòu)的碼書。 VQ編碼時(shí),用逐層搜索方式。先按NNR準(zhǔn)則找到y(tǒng)0、y1中與輸入矢量距離較小的碼字,再從此碼字出發(fā)進(jìn)行下一層搜索,一直到最后一層。樹搜索的解

22、碼器碼書和編碼器碼書不同。第7章語音的矢量量化 7.5無記憶矢量量化器 圖7.3二叉樹碼書搜索方法y000y001y010y011y100y101y110y111y00y01y10y11y0y1輸入矢量x01010101010101全搜索碼書形成的樹狀碼書:用標(biāo)準(zhǔn)LBG算法先形成一個(gè)容量為 J 的全搜索碼書;按NNR準(zhǔn)則將 J 個(gè)碼字分成 J/2 對(duì),求出每一對(duì)碼字的質(zhì)心,作為上一層的碼字(有 J/2 個(gè)碼字);將 J/2 個(gè)新碼字再按照NNR準(zhǔn)則分成 J/4 對(duì),繼續(xù)求出上一層的碼字。對(duì)于容量為 J=2r 的碼書,經(jīng)過 r-1 次合并后,形成兩個(gè)根碼字。這樣就構(gòu)成一個(gè)完整的樹碼書。第7章語音

23、的矢量量化 7.5無記憶矢量量化器 樹碼書優(yōu)點(diǎn):以增加空間復(fù)雜度的方法來降低時(shí)間復(fù)雜度。樹碼書搜索的失真:計(jì)算 2r 次,比較 r 次;全搜索算法的失真:計(jì)算 2r 次,比較 2r-1 次。相差巨大。訓(xùn)練碼書的訓(xùn)練量減少,計(jì)算簡(jiǎn)單。樹碼書缺點(diǎn):次優(yōu)碼書,同容量下,平均測(cè)度誤差劣于全搜索碼書。需存儲(chǔ)最終的 J = 2r個(gè)碼字,每一層的碼字,存儲(chǔ)容量比全搜索碼書增大近一倍。除二叉樹碼書外,可形成多叉樹碼書,其計(jì)算量比二叉樹大,但性能有所提高 第7章語音的矢量量化 7.5無記憶矢量量化器 (3)多級(jí)VQ量化器圖7.4:二級(jí)VQ系統(tǒng)示意圖。多個(gè)普通的全搜索VQ的級(jí)聯(lián)。輸入矢量 x 經(jīng)第一級(jí)VQ編碼器按

24、NNR準(zhǔn)則找到碼字 ,計(jì)算 x 和 的失真矢量,作為第二級(jí)VQ系統(tǒng)的輸入。多級(jí)遞推下去就構(gòu)成了一個(gè)級(jí)聯(lián)系統(tǒng)。多級(jí)VQ編碼器的輸出是各級(jí)VQ編碼器輸出碼字的編號(hào)。VQ解碼器由編號(hào)查表得各級(jí)量化矢量,累加重構(gòu)輸入矢量。第7章語音的矢量量化 7.5無記憶矢量量化器 圖7.4兩級(jí)矢量量化系統(tǒng)原理圖輸入矢量 x碼書v1 v1輸出矢量 y碼書碼書碼書VQ解碼器第一級(jí)VQ信道或存儲(chǔ)器第二級(jí)VQv2 v2-+多級(jí)VQ量化器的碼書設(shè)計(jì):可用LBG算法。用原始訓(xùn)練序列先得到大小為 J1 的第一級(jí)碼書;使用第一級(jí)VQ對(duì)原始訓(xùn)練序列進(jìn)行量化,得到輸出失真矢量序列。輸出失真矢量作為新的訓(xùn)練序列設(shè)計(jì)第二級(jí)碼書。依次類推。

25、多級(jí)VQ量化器的特點(diǎn):降低了量化計(jì)算的復(fù)雜度和存儲(chǔ)量,在時(shí)間復(fù)雜度和空間復(fù)雜度上都比全搜索VQ系統(tǒng)有所改進(jìn)。同樣碼書容量下,其平均量化失真劣于全搜索VQ系統(tǒng)。第7章語音的矢量量化 7.5無記憶矢量量化器 (4)波形/增益VQ量化器波形/增益VQ:一種最簡(jiǎn)單的乘積碼VQ。圖7.5:波形/增益VQ系統(tǒng)實(shí)現(xiàn)框圖。對(duì)量化矢量的波形形狀和增益分別進(jìn)行矢量量化和標(biāo)量量化。 可較好地改善量化性能。第7章語音的矢量量化 7.5無記憶矢量量化器 圖7.5波形/增益矢量量化器示意圖VQ解碼器(查表)信道或存儲(chǔ)器波形碼書增益標(biāo)量碼書波形碼書增益標(biāo)量碼書v1 v1輸出矢量 yv2 v2輸入矢量 x設(shè)輸入矢量為 x ,

26、其增益為 , 具有非零增益的波形矢量為 ,(是單位增益矢量)用平方誤差失真測(cè)度,則輸入矢量和量化矢量間的失真為 式中, 增益 g 和波形矢量 S 的量化結(jié)果。 VQ編碼分兩步使上式達(dá)到最?。涸赩Q碼書中找到一碼字 ,使其 達(dá)到最大值;在增益標(biāo)量碼書中尋找一與 最接近的增益值 ;將 的編號(hào)送解碼器。解碼器用查表法得解碼輸出。 波形/增益VQ系統(tǒng)的特點(diǎn):時(shí)間、空間復(fù)雜度明顯優(yōu)于全搜索VQ量化器,次優(yōu)碼書,在相同條件下比全搜索碼書差。 第7章語音的矢量量化 7.5無記憶矢量量化器 (5)分離均值VQ量化器分離均值矢量量化器:另一種最簡(jiǎn)單的乘積碼VQ。原理: 分離出輸入矢量的均值,對(duì)均值進(jìn)行較低碼率的

27、標(biāo)量量化; 再對(duì)去除均值的輸入矢量進(jìn)行矢量量化。碼書的設(shè)計(jì)過程: 用原始訓(xùn)練序列計(jì)算矢量均值,進(jìn)行合適的標(biāo)量量化; 原始訓(xùn)練序列矢量減去對(duì)應(yīng)矢量的量化均值, 形成殘差訓(xùn)練序列, 使用LBG算法對(duì)該序列進(jìn)行訓(xùn)練求得殘差碼書。特點(diǎn):時(shí)間、空間復(fù)雜性較低,性能比全搜索碼書差。應(yīng)用例:圖像編碼中,將背景的灰度均值分離出來進(jìn)行標(biāo)量量化,而對(duì)灰度變化信息進(jìn)行矢量量化。第7章語音的矢量量化 7.5無記憶矢量量化器 第7章語音的矢量量化7.6有記憶矢量量化器 有記憶VQ量化器:利用輸入信號(hào)的時(shí)域相關(guān)性,在編碼維數(shù)一定的情況下,提高量化系統(tǒng)的性能。有記憶VQ量化又稱為反饋型VQ量化,它是一種多碼書的VQ量化系統(tǒng)

28、 有多種有記憶VQ量化法:選擇幀傳送、分段量化、有限狀態(tài)矢量量化、自適應(yīng)矢量量化等。應(yīng)用:語音編碼、語音識(shí)別等。本節(jié)介紹:自適應(yīng)矢量量化器、有限狀態(tài)矢量量化器。第7章語音的矢量量化 7.6有記憶矢量量化器 (1) 自適應(yīng)預(yù)測(cè)VQ量化器(APVQ)實(shí)際上,APVQ是預(yù)測(cè)VQ量化和自適應(yīng)VQ量化的結(jié)合。 從語音波形編碼的觀點(diǎn)來說,它是ADPCM的矢量推廣。圖7.6:APVQ框圖。 APVQ減少了矢量與矢量之間的編碼冗余度,利用了語音信號(hào)的局部特性,其信噪比比一般全搜索VQ提高約7 dB以上。 APVQ是一種較優(yōu)良的數(shù)據(jù)壓縮方案。 第7章語音的矢量量化 7.6有記憶矢量量化器 圖7.6自適應(yīng)預(yù)測(cè)VQ

29、量化器邊信息+ -幀分類器編 碼 器碼書信道或存儲(chǔ)器誤差矢量量化器矢量線性預(yù)測(cè)器解 碼 器矢量線性預(yù)測(cè)器邊信息 (2)有限狀態(tài)VQ量化器(FSVQ)FSVQ是反饋型矢量量化器。圖7.7: FSVQ原理示意圖。FSVQ與普通VQ的區(qū)別:將系統(tǒng)劃分為 k 種狀態(tài),每時(shí)刻系統(tǒng)只處于某一狀態(tài)。 Sn n 時(shí)刻系統(tǒng)狀態(tài), Sn =1,2,k; vn 量化的碼字編號(hào) i 狀態(tài)系統(tǒng)的碼書(容量 J), i =1,2,k各參數(shù)之間滿足以下公式 :第7章語音的矢量量化 7.6有記憶矢量量化器 圖7.7有限狀態(tài)VQ量化器信道或存儲(chǔ)器單位延遲單位延遲FSVQ狀態(tài)碼書的訓(xùn)練:基于LBG算法,采用以下步驟。 (1) 用

30、LBG算法優(yōu)化出有 k 個(gè)碼字的普通無記憶VQ碼書。 每個(gè)碼字對(duì)應(yīng)一個(gè)狀態(tài),稱為狀態(tài)碼字。 (2) 將訓(xùn)練矢量依NNR準(zhǔn)則劃分到 k 個(gè)狀態(tài)中,構(gòu)成 k 個(gè)子集, 每個(gè)子集用LBG算法形成有 J 個(gè)碼字的全搜索碼書。 這些碼書就是FSVQ的初始碼書。 (3)解碼器根據(jù)接收碼字編號(hào)確定系統(tǒng)所處的狀態(tài)。 將每個(gè)狀態(tài)碼書中的 J 個(gè)碼字按NNR準(zhǔn)則分為 k 組, 每組中的碼字與一個(gè)狀態(tài)碼字最接近。 只要編碼輸出是該組中的碼字,系統(tǒng)的狀態(tài)就確定了。 (4) 按以上步驟訓(xùn)練的碼書還可以進(jìn)一步優(yōu)化。第7章語音的矢量量化 7.6有記憶矢量量化器 FSVQ系統(tǒng)的狀態(tài)誤判將嚴(yán)重影響量化質(zhì)量。必須采用合適的方法使

31、系統(tǒng)可以自動(dòng)糾正狀態(tài)選擇錯(cuò)誤。方法之一: 在 k 個(gè)狀態(tài)外設(shè)置零狀態(tài),是用全體訓(xùn)練矢量形成的。 系統(tǒng)運(yùn)行時(shí),周期性地回零狀態(tài),可糾正偶發(fā)的誤差。第7章語音的矢量量化 7.6有記憶矢量量化器 第7章語音的矢量量化7.7語音波形的矢量量化語音波形的標(biāo)量量化:應(yīng)用廣泛。 典型算法:自適應(yīng)預(yù)測(cè)編碼、自適應(yīng)變換編碼、 多脈沖線性預(yù)測(cè)編碼等。 在16 kbit/s碼率下工作很好。單片IC實(shí)時(shí)實(shí)現(xiàn)。 編碼比特降到 l bit/樣本(即數(shù)碼率低到8 9.6 kbit/s) 以下時(shí),性能迅速變壞。理論上,相同SNR情況下,矢量量化可得到較低的傳輸速率。目前語音波形的矢量量化,只做到8 kbit/s左右才得到好結(jié)

32、果。 是矢量量化尚需人們?nèi)ド钊胙芯康脑颉膶?shí)踐經(jīng)驗(yàn)知,當(dāng)編碼比特為l bit/樣本時(shí),矢量量化的SNR才達(dá)到12 15 dB。第7章語音的矢量量化 7.7語音波形的矢量量化 進(jìn)一步降低數(shù)碼率,保持SNR,似乎只有增大矢量的維數(shù)。遇到兩個(gè)問題 (1) 增維數(shù),運(yùn)算量和存儲(chǔ)量指數(shù)上升,復(fù)雜度增大很快。 在碼書構(gòu)造、搜索算法等方面部分解決這個(gè)問題。 (2) 合成時(shí)會(huì)出現(xiàn)語音波形的不連續(xù)現(xiàn)象,低碼率時(shí)更突出。 用交疊樣本,或用誤差序列來構(gòu)成矢量等法部分解決。這種理論上的先進(jìn)性與實(shí)踐上的落后性之間的矛盾,是研究矢量量化的依據(jù)和動(dòng)力。語音波形的VQ量化:全搜索的或樹搜索的波形VQ量化、 二級(jí)或多級(jí)的波形

33、VQ量化、 自適應(yīng)預(yù)測(cè)VQ量化等多種。第7章語音的矢量量化 7.7語音波形的矢量量化 簡(jiǎn)介4.8 kbit/s語音波形VQ量化編碼器。 方案的技術(shù)要點(diǎn): (1) 實(shí)驗(yàn)發(fā)現(xiàn),若將語音信號(hào)的取樣率從通常的8 kHz降到4.8 kHz時(shí),直接由D/A變換器出來的男聲,經(jīng)主觀試聽,其音質(zhì)仍很好(比2.4 kbit/s的LPC聲碼器好)。建議用4.8 kHz取樣率。 (2) 為不降低SNR,仍保留使用l bit/樣本的設(shè)計(jì)水平,則數(shù)碼率為4.8 kbit/s。矢量維數(shù)取為8,每秒的矢量數(shù)為4800/8=600矢量/s。碼書容量為28=256。 (3) 由于不存在提取基音等困難的問題,合成的語音質(zhì)量比LP

34、C聲碼器好。 第7章語音的矢量量化 7.7語音波形的矢量量化 第7章語音的矢量量化7.8語音參數(shù)的矢量量化語音參數(shù)的VQ量化:分析分幀語音得到特征參數(shù)矢量,再進(jìn)行VQ量化。線性預(yù)測(cè)參數(shù):最常用的一種語音參數(shù)表示。VQ量化:常用線性預(yù)測(cè)參數(shù),或其導(dǎo)出參數(shù)。圖7.8: 800 bit LPC聲碼器框圖。在原2.4 kbit/s的10階LPC聲碼器的基礎(chǔ)上進(jìn)行的。第7章語音的矢量量化 7.8語音參數(shù)的矢量量化 圖7.8800 bit LPC聲碼器框圖310 bit三幀語音信號(hào)輸入12 bit11 bit10階LPC分析器信道或存儲(chǔ)器振幅因子編碼器矢量編碼器(最佳匹配)10階LPC合成器基音周期及濁/清判決編碼器振幅因子解碼器矢量解碼器(最佳匹配)基音周期及濁/清判決解碼器三幀語音信號(hào)輸出800 bit LPC聲碼器框圖。矢量量化前,每幀22.5 ms,用54 bit量化。 10個(gè)LPC系數(shù):41 bit, 音調(diào)周期: 6 bit, 振幅因子: 5 bit, 濁/清音判決: l bit, 同步: 1 bit,(詳見9.4節(jié))。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論