音頻信息處理技術(shù)_第1頁
音頻信息處理技術(shù)_第2頁
音頻信息處理技術(shù)_第3頁
音頻信息處理技術(shù)_第4頁
音頻信息處理技術(shù)_第5頁
已閱讀5頁,還剩243頁未讀, 繼續(xù)免費閱讀

音頻信息處理技術(shù).ppt 免費下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第三章音頻信息處理技術(shù),3.1基本概念,3.2音頻信號數(shù)字化,3.3音頻信號壓縮編碼,3.4語音壓縮編碼標(biāo)準(zhǔn),3.5常用多媒體應(yīng)用的語音編碼器選擇,3.6 IP電話技術(shù)實踐與思考問題,3.1基本概念,1聽覺掩蔽在人類聽覺系統(tǒng)中,一種聲音的存在會影響人們對其他聲音的聽覺能力,并使一種聲音在聽覺上掩蔽另一種聲音,這就是所謂的“掩蔽效應(yīng)”。由于掩蔽聲音的存在,在掩蔽聲音的范圍內(nèi)必須增加的分貝數(shù)(人們可以聽到的聲音的響度)被定義為一種聲音對另一種聲音的掩蔽值。掩蔽效果受四個因素影響:時間、頻率、聲壓級和音質(zhì)(例如純音和噪聲)。2頻譜屏蔽當(dāng)高電平音調(diào)使附近頻率的低電平聲音人耳聽不見時,頻譜屏蔽就發(fā)生了。

2、頻率離掩蔽音越遠(yuǎn),掩蔽效果減弱得越快。這種效果可以解釋如下:雪橇上的鈴鐺可以掩蓋高音碰撞的聲音,但它不能掩蓋低音鼓的聲音。瞬態(tài)掩蔽聲具有影響時間(即振幅隨時間增加的時間段)和衰減時間(即振幅隨時間減少的時間段)。拉小提琴產(chǎn)生的聲音的沖擊和衰減非??欤√崆佼a(chǎn)生的聲音的沖擊和衰減非常慢。另外,聲音在撞擊前后都有掩蔽作用。預(yù)掩蔽時間為50200毫秒,后掩蔽時間約為該范圍的十分之一。失真失真是一個廣泛使用的概念,主要用于描述再現(xiàn)聲音和原始聲音之間的差異程度。有兩種方式來表達(dá)這種差異:(1)失真的主觀測量。失真的主觀評價指標(biāo)稱為平均意見得分。聽眾使用N分制根據(jù)系統(tǒng)的質(zhì)量對系統(tǒng)進(jìn)行評分。例如,在為高

3、清電視選擇音頻壓縮方案時,會使用該指標(biāo)。表3.1-1顯示了一個常見的5點系統(tǒng)。表3.1-1 5點平均觀點分為示例。一方面,金屬氧化物半導(dǎo)體實際上是音頻再現(xiàn)的最低標(biāo)準(zhǔn):它聽起來怎么樣?另一方面,測量結(jié)果因受眾、測試地點和原材料而異,因此很難將一組結(jié)果與另一組結(jié)果進(jìn)行比較。(2)失真的客觀測量。失真的客觀測量是一種可以校準(zhǔn)和再現(xiàn)的測試,它可以測量原始信號和再現(xiàn)信號之間的差異。這里有一個問題,即失真的絕對大小可能與失真聲音的無聊程度沒有太大關(guān)系?,F(xiàn)實生活中有一個扭曲的例子,我們幾乎每天都會遇到,但并不那么無聊。這個例子是剪輯。如果純音(正弦波)通過動態(tài)范圍不足的放大器,放大器可能會使正弦波的波峰和波

4、谷變平,從而產(chǎn)生一組奇次諧波。對于這種類型的失真,在原始(或基本)信號和失真之間有一致的對應(yīng)關(guān)系,所以這種失真不一定會讓你感到煩惱。5聲道單聲道意味著單一聲源,而立體聲并不意味著有兩個聲源,立體聲指的是三維聽覺效果。為了確定聲源位置,大腦應(yīng)該比較每只耳朵聽到的聲音的三個屬性,即:(1)振幅:如果左耳聽到的聲音大于右耳聽到的聲音,那么我們認(rèn)為聲音在左耳。(2)相位:如果兩只耳朵聽到的信號相位相同,那么大腦認(rèn)為聲音在中間;如果兩只耳朵聽到信號的相位差為180,則聲音不包含方向信息。(3)計時:聲音傳播的速度是每毫秒1英尺;如果聲音到達(dá)右耳比到達(dá)左耳早,我們認(rèn)為聲源在右耳。一般來說,如果聽者的位置正

5、好在兩個聲源(如兩個揚聲器)的中軸線上,聽者就能享受到三維立體的效果;否則,聽眾將失去完整的立體聲效果,因為他離其中一個聲源的距離較短。可以通過添加中央聲道來確定聲源位置。為此,杜比公司在20世紀(jì)70年代實現(xiàn)了從左聲道、右聲道、中央聲道和環(huán)繞聲道四個聲道制作3D立體聲的效果。為了使聲音更豐富,現(xiàn)有的立體聲劇院(包括家庭劇院)增加了一個低音炮通道,其主要目的是增強低音。3.2音頻信號數(shù)字化和音頻信息處理主要包括兩大技術(shù):音頻信號數(shù)字化和音頻信息壓縮。圖3.2-1是音頻信息處理的結(jié)構(gòu)框圖。音頻信息壓縮是音頻信息處理的關(guān)鍵技術(shù),音頻信號數(shù)字化為音頻信息壓縮做準(zhǔn)備。音頻信號的數(shù)字化過程是將模擬音頻信號

6、轉(zhuǎn)換成具有有限數(shù)字表示的離散序列,即數(shù)字音頻序列,它涉及模擬音頻信號的采樣、量化和編碼。對同一音頻信號使用不同的采樣、量化和編碼方法可以形成各種形式的數(shù)字音頻。圖3.2-1音頻信息處理框圖,(1)采樣過程。模擬音頻信號在時間和幅度上都是連續(xù)的信號。采樣是將連續(xù)信號在時間上離散化的過程,采樣通常以均勻的時間間隔進(jìn)行。目前常用音頻信號的頻段如圖3.2-2所示,電話信號的頻段為200 Hz3.4千赫,調(diào)幅信號的頻段為50 Hz7千赫,調(diào)頻信號的頻段為20 Hz15千赫,高清音頻信號的頻段為10 Hz20千赫。根據(jù)不同的音頻源和應(yīng)用目標(biāo),可以使用不同的采樣頻率,例如8千赫、11.025千赫、22.05

7、千赫、16千赫、37.8千赫、44.1千赫或48千赫,這是典型的采樣頻率。圖3.2-2是普通音頻應(yīng)用的帶寬示意圖,以及(2)量化過程。量化過程是指在幅度上離散每個采樣值。量化可以分為均勻量化(量化值的分布是均勻的或者每個量化步長是相同的)和非均勻量化。量化會引入失真,而量化失真是一種不可逆的失真,通常稱為量化噪聲。(3)編碼過程。編碼過程是指使用二進(jìn)制數(shù)來表示每個樣本的量化值。如果量化是均勻的,用自然二進(jìn)制數(shù)表示,這種編碼方法就是脈碼調(diào)制,它是最簡單、最方便的編碼方法。3.3音頻信號壓縮編碼自20世紀(jì)30年代引入脈碼調(diào)制原理和聲碼器概念以來,音頻信息壓縮編碼技術(shù)主要朝著基于波形和基于參數(shù)的方向

8、發(fā)展。從這個角度來看,音頻信息編碼技術(shù)可以分為三類:(1)波形編碼。該方法主要基于語音波形預(yù)測,試圖將重構(gòu)的語音波形保持在原始信號的波形狀態(tài)。它的優(yōu)點是編碼方法簡單,易于實現(xiàn),適應(yīng)性強,語音質(zhì)量好,缺點是壓縮比相對較低,編碼率較高。常用的波形編碼技術(shù)包括增量調(diào)制、自適應(yīng)差分脈沖編碼調(diào)制、子帶編碼、矢量量化編碼(VQ)等。(2)參數(shù)編碼。這種方法主要是基于參數(shù)的編碼方法。與波形編碼不同,這種編碼方法通過語音信號的數(shù)學(xué)模型提取并編碼語音信號的特征參數(shù)(主要是代表聲門振動的激勵參數(shù)和代表聲道特征的聲道參數(shù)),試圖使重構(gòu)的語音信號盡可能地保持原始信號的語義,而重構(gòu)的語音信號的波形可能與原始信號有很大的

9、不同?;谶@種編碼技術(shù)的編碼系統(tǒng)一般稱為聲碼器,主要用于在窄帶信道上提供低于4.8 kb/s的低速語音通信和一些應(yīng)用(如衛(wèi)星通信等)。)具有寬延遲要求。最常用的參數(shù)編碼方法是線性預(yù)測編碼。(3)混合編碼。該方法克服了原始波形編碼和參數(shù)編碼的缺點,將波形編碼的高質(zhì)量和參數(shù)編碼的低數(shù)據(jù)率結(jié)合起來,取得了較好的效果。混合編碼是指同時使用兩種或多種編碼方法進(jìn)行編碼的過程。由于每種編碼方法都有各自的優(yōu)缺點,如果使用兩種甚至兩種以上的編碼方法進(jìn)行編碼,它們可以優(yōu)勢互補,克服各自的缺點,從而達(dá)到高效數(shù)據(jù)壓縮的目的?;旌暇幋a廣泛用于音頻信號數(shù)據(jù)壓縮和圖像信號數(shù)據(jù)壓縮,這將在后面描述。3.3.1增量調(diào)制1通用增

10、量調(diào)制增量調(diào)制是一種相對簡單的具有數(shù)據(jù)壓縮功能的波形編碼方法。增量調(diào)制的系統(tǒng)結(jié)構(gòu)框圖如圖3.3-1所示。在編碼端,下一個信號的預(yù)測值可以通過解碼器對前一個輸入信號的編碼值進(jìn)行解碼而獲得。在比較器中從預(yù)測值中減去輸入模擬音頻信號以獲得差值。差異的極性可以是正的,也可以是負(fù)的。如果為正,則編碼輸出為1;如果為負(fù),則編碼輸出為0。這樣,在增量調(diào)制的輸出端可以獲得一系列1比特編碼的數(shù)據(jù)挖掘碼。增量調(diào)制編碼過程示意圖如圖3.3-2所示。圖3.3-1是增量調(diào)制的系統(tǒng)結(jié)構(gòu)框圖,圖3.3-2是增量調(diào)制編碼過程示意圖。在圖3.3-2中,縱坐標(biāo)表示輸入模擬電壓,橫坐標(biāo)表示隨著時間的增加而順序產(chǎn)生的DM碼。圖中的虛

11、線表示輸入音頻模擬信號。從圖3.3-2可以看出,當(dāng)輸入信號快速變化時,編碼器的輸出跟不上信號的變化,這將使重構(gòu)的模擬信號失真,稱為“斜率過載”??梢钥闯觯?dāng)輸入模擬信號的變化速度超過解碼器輸出的預(yù)測信號的最大變化速度時,將發(fā)生斜率過載。提高采樣速度可以避免斜率過載。然而,采樣速度的提高會降低數(shù)據(jù)壓縮的效率。從圖3.3-2中可以發(fā)現(xiàn)另一個問題:當(dāng)輸入信號不變時,預(yù)測信號和輸入信號之間的差異將非常接近。此時,編碼器的輸出交替為0和1。這種現(xiàn)象被稱為增量調(diào)制的“散粒噪聲”。為了降低散粒噪聲,最好使輸出碼的一位所代表的模擬電壓(也稱為量化步長)更小。然而,在固定采樣速度下,減少量化步長將導(dǎo)致更嚴(yán)重的斜

12、率過載。為了解決這些矛盾,人們發(fā)展了自適應(yīng)增量調(diào)制方法。自適應(yīng)增量調(diào)制(ADM)從前面的分析可以看出,為了減少斜率過載,希望增加步長;為了減少散粒噪聲,還希望減小步長。因此,人們認(rèn)為如果數(shù)據(jù)挖掘的量化步長能夠滿足信號變化的要求,就必須同時降低斜率過載和散粒噪聲。也就是說,當(dāng)發(fā)現(xiàn)信號快速變化時,步長增加;當(dāng)信號變化緩慢時,步長減小。這是自適應(yīng)增量調(diào)制的基本出發(fā)點。在ADM中,有兩個共同的規(guī)則:一個是控制可變因子m,使量化步長在一定范圍內(nèi)變化。對于每個新樣本,其量化步長是前一個值的m倍。m值由輸入信號的變化率決定。如果存在連續(xù)的相同代碼,則意味著存在過載的危險,因此有必要增加m。當(dāng)0和1信號交替出

13、現(xiàn)時,則意味著信號變化緩慢并將產(chǎn)生散粒噪聲,因此有必要降低m值。典型的規(guī)則是,(3.3-1),另一種類型使用更自適應(yīng)的增量調(diào)制,稱為連續(xù)可變斜率增量(CVSD)調(diào)制。其工作原理如下:如果調(diào)制器(CVSD)連續(xù)輸出三個相同的碼,量化步長將增加一個大的增量,這是因為三個連續(xù)的相同碼表示發(fā)生了過載。相反,量化步長增加了一個小增量。CVSD的自適應(yīng)規(guī)則是(3.3-2),其中值可以在01之間??梢钥闯觯梢酝ㄟ^增量調(diào)制來調(diào)整的大小,以適應(yīng)輸入信號變化所需的時間。p和q是增量,p應(yīng)大于或等于q,3.3.2自適應(yīng)差分脈沖編碼調(diào)制1。如果輸入音頻信號是語音信號,用8千赫的采樣頻率進(jìn)行均勻采樣,然后將每個采樣編

14、碼成一個8位二進(jìn)制數(shù)字信號,就可以得到數(shù)據(jù)速率為64 kb/s的脈碼調(diào)制信號。這種編碼方法均勻地量化輸入音頻信號,并且采用相同的量化間隔,而不管輸入信號是大還是小。然而,對于音頻信號,在大多數(shù)情況下信號幅度非常小,并且大幅度信號的概率非常小。然而,為了適應(yīng)這種罕見的大信號,二進(jìn)制編碼比特必須以均勻量化的方式添加。對于大量的小信號來說,如此多的碼位是一種浪費。因此,對相變材料進(jìn)行統(tǒng)一量化是低效的,有必要對其進(jìn)行改進(jìn)。非均勻量化編碼的本質(zhì)是減少代表樣本的比特數(shù),從而達(dá)到數(shù)據(jù)壓縮的目的?;舅枷胧钱?dāng)輸入信號幅度較小時,采用較小的量化間隔;當(dāng)輸入信號幅度較大時,采用較大的量化間隔。這樣,在一定精度下,

15、采樣值可以用較少的二進(jìn)制碼位來表示。這種小信號擴展和大信號壓縮的特性可以用下面的公式表示:其中:x是A/D轉(zhuǎn)換器的輸入電壓與滿量程電壓之比,取值范圍為11;Sgn(x)是x的極性;是一個壓縮擴展參數(shù),其值范圍為100,500。它越大,就越嚴(yán)重。這個壓擴規(guī)則的特征如圖3.3-3所示,這條曲線通常被稱為定律壓擴特征。(3.3-3),圖3.3-4。在實際應(yīng)用中,指定某個值,并使用多條折線來近似圖3.3-3所示的壓擴特性。這大大簡化了計算,并確保了一定的準(zhǔn)確性。例如,當(dāng)選擇255時,壓擴特性由8段折線代替。當(dāng)樣本由8位二進(jìn)制表示時,可以獲得沒有壓擴的13位二進(jìn)制碼的音頻質(zhì)量。在這個8位二進(jìn)制數(shù)中,最高

16、位表示符號位,接下來的3位用于表示折線數(shù),最后4位用于表示數(shù)據(jù)位。法律壓擴的數(shù)據(jù)格式如圖3.3-4所示。在解碼和恢復(fù)數(shù)據(jù)時,可以根據(jù)符號和折線通過預(yù)先制作的表格來恢復(fù)原始數(shù)據(jù)。另一個常用的壓擴特性是13折線,它實際上用13條直線代替了13折線壓擴特性曲線。中國和歐洲采用A法13線壓擴法,而美國和日本采用該法。對于A-law 13折疊線,信號樣本的編碼由兩部分組成:段代碼(信號屬于13折疊線的哪一部分)和段內(nèi)代碼。在非均勻脈碼調(diào)制中,存在大量冗余信息。這是因為音頻信號的相鄰樣本之間的相關(guān)性非常強。如果采取一些措施,多余的信息可以被刪除。差分脈沖編碼調(diào)制(DPCM)是一種常見的方法。2.差分脈碼調(diào)制(DPCM)差分脈碼調(diào)制的核心思想是對信號的差異進(jìn)行編碼,而不是對信號本身進(jìn)行編碼。這個差值指的是

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論