第十一章聲碼器與混合編碼_第1頁
第十一章聲碼器與混合編碼_第2頁
第十一章聲碼器與混合編碼_第3頁
第十一章聲碼器與混合編碼_第4頁
第十一章聲碼器與混合編碼_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第10章語音編碼(1)—波形編碼概述及分類脈沖編碼調制PCM預測編碼及其自適應APC自適應差分脈沖編碼調制ADPCM及自適應增量調制ADM子帶編碼SBC自適應變換編碼ATC概述語音編碼:SpeechCoding,在語音通信及人類信息交流中占舉足輕重的地位。研究對語音信號進行壓縮傳輸、存儲等內容。目前數(shù)字通信得以廣泛應用,語音編碼是將模擬語音數(shù)字化的手段。將語音信號編碼為二進制數(shù)字序列,最簡單的方法是對其直接進行模/數(shù)變換;只要取樣率足夠高,量化每個樣本的比特數(shù)足夠多,則可以保證解碼恢復的語音信號有很好的音質,不會丟失有用信息。然而對語音信號直接數(shù)字化所需的數(shù)碼率太高,例如,普通的電話通信中采用8kHz取樣率,如用12bit進行量化,則數(shù)碼率為96kbit/s。這樣大的數(shù)碼率即使對很大容量的傳輸信道也是難以承受的,因而必須對語音信號進行壓縮編碼。

概述語音編碼目的:在保持可以接受的失真的情況下,采用盡可能少的比特數(shù)表示語音,即減少傳輸碼率或存儲量。編碼后同樣的信道容量能傳輸更多路的信號,因而這類編碼又稱為壓縮編碼,壓縮編碼需要在保持可懂度與音質、降低數(shù)碼率和降低編碼過程的計算代價三方面折衷。傳輸碼率:也稱為數(shù)碼率,指傳輸每秒鐘語音信號所需要的比特數(shù)。波形編碼語音編碼分類:波形編碼,WaveformCoder;

參數(shù)編碼,ParametricCoder;

混合編碼,HybridCoder特點:針對語音波形進行編碼,盡量保持輸入波形不變,即恢復的語音信號基本上與輸入的語音信號波形相同。優(yōu)缺點:具有適應能力強、語音質量好等優(yōu)點,缺點是需要的編碼速率高。典型的編碼方式:脈沖編碼調制PCM、自適應差分脈沖編碼調制ADPCM、子帶編碼SBC等。在16-64kbit/s的數(shù)碼率上能給出高的編碼質量,當數(shù)碼率進一步降低時,其性能下降較快。聲碼器:即參數(shù)編碼特點:先對語音信號進行分析,提取出其參數(shù),對參數(shù)進行編碼,解碼后這些參數(shù)重新合成出重構的語音信號。力圖使重建的語音信號具有盡可能高的可懂度,而不必保持波形的一致。

優(yōu)缺點:優(yōu)點是編碼速率低,可以低到2.4kbps甚至以下,缺點是合成語音質量差,特別是自然度低,處理復雜。典型的編碼方式:如通道聲碼器、相位聲碼器、同態(tài)聲碼器、線性預測聲碼器等。混合編碼特點:上述兩類方法的有機結合,與參數(shù)編碼相同的是,它也是基于語音產(chǎn)生模型的假定并采用了分析合成技術,但同時它又利用了語音的時間波形信息,增強了重建語音的自然度,使得語音質量有明顯的提高,代價是編碼速率相應上升,一般在16-2.4Kbps之間。典型的編碼方式:多脈沖激勵線性預測編碼MPLPC、規(guī)則脈沖激勵線性預測編碼RPE-LPC、碼本激勵線性預測編碼CELP等按傳輸碼率分類高速率語音編碼:速率32kbit/s以上,PCM,64kbit/s,主要用于公用電話網(wǎng);中高速率語音編碼:速率16-32kbit/s,ADPCM,32kbit/s,主要用于公用網(wǎng);中速率語音編碼:速率4.8-16kbit/s,GSM用的RPE/LTP13kbit/s、VSELP,8kbit/s主要用于數(shù)字移動通信話音郵件;低速率語音編碼:速率1.2-4.8kbit/s,CELP,4.8kb/s、LPC,1.2kb/s,主要用于保密話音;極低速率語音編碼:速率1.2kbit/s以下脈沖編碼調制PCM波形編碼方式的最簡單形式是脈沖編碼調制(Pulsecodemodulation,簡稱PCM)。它直接把語音信號進行采樣量化,表示成二進制數(shù)字信號,并通過并-串轉換過程轉換成串行的脈沖,并用脈沖對采樣幅度進行編碼,以便于傳輸和存儲。

它沒有利用語音信號的冗余度,所以信號沒有得到壓縮,編碼效率很低。一般,PCM有均勻PCM、非均勻PCM和自適應PCM幾種形式模擬語音信號數(shù)字語音編碼抗混疊濾波采樣量化編碼A/D轉換1.均勻PCM:不論信號幅度的大小,它都采用同等的量化階距進行量化,即采用均勻量化。2.非均勻PCM:從觀測到的語音信號概率密度可知,語音信號大量集中在低幅度上。因而,可以利用非均勻量化來彌補均勻量化的缺點。非均勻量化的基本思想是對大幅度的樣本使用大的,對小幅度的樣本使用小的;在接收端按此還原。

PCM的量化方式均勻量化與非均勻量化

國際上采用兩種非均勻量化方法:A律和

律改變量化階大小的方法有兩種:一種稱為前向自適應(forwardadaptation),另一種稱為后向自適應(backwardadaptation)。3.自適應PCM(APCM):

PCM在量化間隔上存在矛盾:為適應大的幅值要用大的,但為了提高信噪比又希望用小的。除了前面介紹的非均勻量化外,還有一種是采用自適應方法,稱為自適應PCM

(adaptivePCM,簡稱APCM)。

自適應脈沖編碼調制(APCM)是根據(jù)輸入信號幅度大小來改變量化階大小的一種波形編碼技術。這種自適應可以是瞬時自適應,即量化階的大小每隔幾個樣本就改變,也可以是音節(jié)自適應,即量化階的大小在較長時間周期里發(fā)生變化。前向是指(n)是由估計輸入信號而得到的,而后向是指由估計量化器的輸出前向自適應是根據(jù)未量化的樣本值的均方根值來估算輸入信號的電平,以此來確定量化階的大小,并對其電平進行編碼作為邊信息(sideinformation)傳送到接收端。其特點是使用原始信號提取預測系數(shù),精度比較高,預測的效果好。但是需要將預測器系數(shù)用邊信息傳送到接收端的解碼器,從而減小了差值信號量化的有效比特數(shù),處理的延時比較大。后向自適應是從量化器剛輸出的過去樣本中來提取量化階信息。由于后向自適應能在發(fā)收兩端自動生成量化階,所以它不需要傳送邊信息。后向自適應預測利用量化后的信號提取預測信號,避免了前向自適應預測的缺點,但是由于存在量化噪聲,使得預測系數(shù)的提取精度收到一定的影響。預測編碼及其自適應APC在第六章中我們詳細討論了線性預測分析原理,利用線性預測可以改進編碼中的量化器性能,因為預測誤差e(n)的動態(tài)范圍和平均能量均比信號x(n)小,如果對e(n)進行量化和編碼,則量化bit數(shù)將減少。在接收端,只要使用與發(fā)送端相同的預測器,就可恢復原信號x(n)。

基于這種原理的編碼方式稱為預測編碼(predictivecoding,簡稱PC)

當預測系數(shù)是自適應隨語音信號變化時,又稱為自適應預測編碼(AdaptivePC,簡稱APC)。

語音數(shù)據(jù)流一般分為1020ms相繼的幀,而預測器系數(shù)(或其等效參數(shù))則與預測誤差一起傳輸。

在接收端,用由預測器系數(shù)控制的逆濾波器再現(xiàn)語音。采用自適應技術后,預測器P(z)要自適應變化,以便與信號匹配。

自適應差分脈沖編碼調制ADPCM及自適應增量調制ADM在DM中,與量化階梯相比,當語音波形幅度發(fā)生急劇變化時,譯碼波形不能充分跟蹤這種急劇的變化而必然產(chǎn)生失真,這稱為斜率過載。

相反地,在沒有輸入語音的無聲狀態(tài)時,或者是信號幅度為固定值時,量化輸出都將呈現(xiàn)0、1交替的序列,而譯碼后的波形只是的重復增減。這種噪聲稱為顆粒噪聲,它給人以粗糙的噪聲感覺。

為了減少斜率過載失真,必須把設計得大一些;但是過大,又增加了顆粒噪聲。因此,兼顧兩方面要求,需按均方量化誤差為最?。词箖煞N失真均減至最?。﹣磉x擇。

即采用隨輸入波形自適應地改變大小的自適應編碼方式,使值隨信號平均斜率而變化;斜率大時,自動增大;反之則減小。這就是自適應增量調制(Adaptive,DM,簡稱ADM)。

2.自適應增量調制ADM引入自適應技術后、ADM大約可增多10dB的增益。實驗表明,取樣率為56kHz時ADM具有與取樣率為8kHz時的7bit對數(shù)PCM相同的語音質量。

差分脈沖編碼調制DPCM

降低傳輸比特率的一種方法是減少必須編碼的信息量,這要利用語音信號中大量的冗余度。在相鄰的語音樣本之間存在著明顯的相關性,因此,對相鄰樣本間的差信號(差分)進行編碼,便可謀求信息量的壓縮,因為差分信號比原語音信號的動態(tài)范圍和平均能量都小。這種編碼稱為差分脈沖編碼調制(DifferentialPCM,簡稱DPCM)。

DPCM實質上是預測編碼APC的一種特殊情況,是最簡單的一階線性預測,即

A(z)=1–a1z-1

當a1=1時,被量化的編碼是e(n)=x(n)-x(n-1)

DPCM編碼的原理由于a1是固定的,顯然它不可能對所有講話者和所有語音內容都是最佳的,如果采用高階(p>1)的固定頂測,改善效果并不明顯;比較好的方法是采用高階自適應預測。采用自適應量化及高階自適應預測的DPCM稱為ADPCM,它本質上也是一種APC。

CCITT(國際電報電話咨詢委員會)在1984年提出的32kbit/s編碼器建議(G.721),就是采用ADPCM作為長途傳輸中一種新的國際通用語音編碼方案。這種ADPCM可達到標準kbit/sPCM的語音傳輸質量,并具有很好的抗誤碼性能。

子帶編碼SBCs(n)發(fā)信碼子帶編碼(Sub-BandCoding,簡稱SBC)也稱為頻帶分割編碼

首先使用帶通濾波器組將語音信號分割成若干個頻段也稱為子帶,然后用調制的方法對濾波后的信號即子帶信號進行頻譜平移變成低通信號(即基帶信號),以利于降低取樣率進行抽??;再利用奈奎斯特速率對其進行取樣,最后再進行編碼處理。而信號的恢復按與上面完全相反的過程進行。

收信碼sr(n)SBC解碼器SBC的優(yōu)點是對應于人的聽覺特性,可以比較容易地考慮噪聲的抑制;即各子帶可以選用不同的量化參數(shù)以分別控制其信噪比,滿足主觀聽覺的要求。

例如,由于語音能量的不平衡,對于含有基音頻率和第一共振峰的低頻部分,對語音清晰度等主觀品質影響較大,應分配比較多的信息、量化細些;反之,高頻部分的量化就可粗些。

這樣,可以減少量化噪聲對聽覺的妨害程度,整體上也能降低比特數(shù)。另外,量化噪聲只能出現(xiàn)在各被分割的頻帶內,對其他頻帶沒有任何影響,所以可以較容易地控制噪聲譜。

各子帶的帶寬可以是相同的也可以是不相同的,相同的稱為等帶寬子帶編碼,不同的稱為變帶寬子帶編碼。正交鏡像濾波器組自適應變換編碼ATC第11章語音編碼(2)-聲碼器技術及混合編碼

參數(shù)編碼也稱為模型編碼。它是對語音信號建立模型,然后對模型參數(shù)或是語音的特征參數(shù)進行編碼,力圖使重建語音信號在聽覺上具有盡可能高的清晰度和可懂度。線性預測聲碼器:應用最成功的低速率參數(shù)語音編碼器。線性預測分析器編碼器音調檢測器線性預測合成器解碼器信道LPC聲碼器框圖§11.1線性預測聲碼器與利用線性預測的波形編碼不同的是它的接收端不再利用殘差,即不具體恢復輸入語音的波形,而是直接利用預測系數(shù)等參數(shù)合成傳輸語音。LPC有作為預測器和作為模型的雙重作用。LPC參數(shù)的變換和量化變幀率LPC聲碼器充分利用了語音信號在時域上的冗余度,尤其是元音和擦音在發(fā)音過程中都有緩變的區(qū)間,描述這部分區(qū)間的語音不必像一些快變語音那樣用很多比特的信息量。語音信號是非平穩(wěn)的時變信號,波形變化隨時間而不同。(清音至濁音的過渡段,語音特性變化劇烈,理論上應用較短的分析幀,要求LPC聲碼器至少每隔10ms就發(fā)送一幀新的LPC參數(shù);而對于濁音部分,在發(fā)音過程中有緩變的區(qū)間,語音信號的頻譜特性變化很小,分析幀就可以取長些;在語音活動停頓情況下更是如此。)因而可以采用變幀速率的編碼技術來降低聲碼器的平均傳輸碼率。實現(xiàn)思路:幀長可保持恒定,不必將每幀LPC參數(shù)都去編碼和傳送,合成部分所需的參數(shù)可以通過重復使用其前幀參數(shù)或內插的方法獲得,可降低平均傳碼率。關鍵問題:需要一種度量方法來確定當前幀參數(shù)和上一幀參數(shù)之間的差異(距離)?!?1.2LPC-10編碼器

§11.3語音信號的混合編碼20世紀80年代后期,綜合了參數(shù)編碼低比特率與波形編碼高語音質量優(yōu)點的混合編碼得到廣泛的使用。最為典型的就是CELP模型。它在比特率為4-16Kbps時已經(jīng)可以得到比其他算法更高的重建語音質量。得到最廣泛應用的是LPAS(基于線性預測技術的分析-合成編碼方法),通過線性預測確定系統(tǒng)參數(shù),并通過閉環(huán)或分析-合成方法來確定激勵序列。短時預測器:分析語音信號的共振峰結構(譜包絡)長時預測器:分析語音信號的基音結構感知加權濾波器:使得量化誤差能被高能量的共振峰所掩蓋。激勵信號依據(jù)MSE選擇3種最常見的分析-合成線性預測編碼算法分別是:多脈沖線性預測算法(MP-LPC)規(guī)則脈沖激勵線性預測編碼(RPE-LPC)碼激勵線性預測編碼(CELP):具有較高質量的合成語音和良好的抗噪性和多次復接能力,近年很多聲碼器基于該模型。傳統(tǒng)的LPC聲碼器采用的是二元激勵,它將激勵源分為清音和濁音;CELP的主要改進是采用矢量量化技術對激勵信號編碼,將事先經(jīng)過訓練得到的一組碼矢量組成一個碼本,然后對每一幀語音信號從這組碼本中選出一個在感知加權誤差最小意義上的最佳碼矢作為激勵源。用一個固定的隨機碼本中的碼矢量來逼近語音經(jīng)過短時、長時預測后的余量信號。用一個自適應碼本中的碼矢量來逼近語音的長時周期性(基音)結構;+碼本++誤差最小化VQ索引CELP編碼器示意圖CELP模型編碼仍基于語音的短時特性,采用LAPS與矢量量化。在編碼類型上,既采用了類似聲源模型的語音合成方法,又做了波形的最佳匹配,所以同時具有參數(shù)編碼與波形編碼的特征,故稱為混合編碼。

§11.4現(xiàn)代通信中的語音信號編碼方法當前語音編碼的研究主要致力于如何在較低數(shù)據(jù)速率的條件下提高聲碼器的語音質量使之盡量接近有線話音質量。目前的CDMA系統(tǒng)中,基于RCELP算法的EVRC算法在語音質量與比特速率間取得了很好的平衡,且適用于變速率編碼,抗干擾能力也令人滿意,從而得到了極為廣泛的應用?!?.6.1EVRC算法基本原理EVRC采用8kHz采樣頻率的16bit線性PCM信號作為輸入信號,以20ms(即160個采樣點)為一幀進行編解碼。根據(jù)輸入信號的特點來選擇編碼速率——變速率編碼——平均比特速率低于8kbps。最后編碼結果的比特速率為8.5kbps(全速率),4kbps(半速率)或0.8kbps(1/8速率)。EVRC使用了3種類型的參數(shù)來表征語音模型——線性預測系數(shù)、基音參數(shù)、激勵信號。每一個20ms幀中,它產(chǎn)生10個LP系數(shù),并根據(jù)編碼速率采用不同精度的矢量量化,并采用相應的比特數(shù)表達?;糁芷诠烙嫞翰捎脙刹椒?,先在20ms內開環(huán)搜索得到一個最佳基音周期,然后線性內插得到基音曲線,最后用自適應碼本來映射長時相關性。這樣可減小基音的比特速率。激勵信號:EVRC采用代數(shù)碼本。+共振峰合成濾波器自適應碼本固定碼本隨機碼矢量增益自適應碼矢量增益基音周期固定碼本索引XXEVRC語音合成示意圖EVRC編碼器示意圖信號處理LPC參數(shù)短時殘差1&1/2速率編碼1/8速率編碼數(shù)碼率判別長時延遲估計&增益Rate采樣信號Rate濾波,降噪§7.6.2EVRC算法概述EVRC編碼器示意圖預處理LPC參數(shù)短時殘差1&1/2速率編碼1/8速率編碼數(shù)碼率判別長時延遲估計&增益Rate采樣信號Rate濾波,降噪經(jīng)8kHz采樣,16bit量化后得到的線性PCM信號s(n)首先被送到預處理模塊。在這里經(jīng)過三級二階Butterworth濾波器(截止頻

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論