音頻信息處理技術(shù)

上傳人：y*** IP屬地：四川上傳時間：2020-08-11 格式：PPT 頁數(shù)：248 大?。?.56MB 積分：0 舉報 版權(quán)申訴

已閱讀5頁，還剩243頁未讀，繼續(xù)免費閱讀

音頻信息處理技術(shù).ppt 免費下載

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、第三章音頻信息處理技術(shù)，3.1基本概念，3.2音頻信號數(shù)字化，3.3音頻信號壓縮編碼，3.4語音壓縮編碼標(biāo)準(zhǔn)，3.5常用多媒體應(yīng)用的語音編碼器選擇，3.6 IP電話技術(shù)實踐與思考問題，3.1基本概念，1聽覺掩蔽在人類聽覺系統(tǒng)中，一種聲音的存在會影響人們對其他聲音的聽覺能力，并使一種聲音在聽覺上掩蔽另一種聲音，這就是所謂的“掩蔽效應(yīng)”。由于掩蔽聲音的存在，在掩蔽聲音的范圍內(nèi)必須增加的分貝數(shù)(人們可以聽到的聲音的響度)被定義為一種聲音對另一種聲音的掩蔽值。掩蔽效果受四個因素影響：時間、頻率、聲壓級和音質(zhì)(例如純音和噪聲)。2頻譜屏蔽當(dāng)高電平音調(diào)使附近頻率的低電平聲音人耳聽不見時，頻譜屏蔽就發(fā)生了。

2、頻率離掩蔽音越遠(yuǎn)，掩蔽效果減弱得越快。這種效果可以解釋如下：雪橇上的鈴鐺可以掩蓋高音碰撞的聲音，但它不能掩蓋低音鼓的聲音。瞬態(tài)掩蔽聲具有影響時間(即振幅隨時間增加的時間段)和衰減時間(即振幅隨時間減少的時間段)。拉小提琴產(chǎn)生的聲音的沖擊和衰減非?？欤√崆佼a(chǎn)生的聲音的沖擊和衰減非常慢。另外，聲音在撞擊前后都有掩蔽作用。預(yù)掩蔽時間為50200毫秒，后掩蔽時間約為該范圍的十分之一。失真失真是一個廣泛使用的概念，主要用于描述再現(xiàn)聲音和原始聲音之間的差異程度。有兩種方式來表達(dá)這種差異：(1)失真的主觀測量。失真的主觀評價指標(biāo)稱為平均意見得分。聽眾使用N分制根據(jù)系統(tǒng)的質(zhì)量對系統(tǒng)進(jìn)行評分。例如，在為高

3、清電視選擇音頻壓縮方案時，會使用該指標(biāo)。表3.1-1顯示了一個常見的5點系統(tǒng)。表3.1-1 5點平均觀點分為示例。一方面，金屬氧化物半導(dǎo)體實際上是音頻再現(xiàn)的最低標(biāo)準(zhǔn)：它聽起來怎么樣？另一方面，測量結(jié)果因受眾、測試地點和原材料而異，因此很難將一組結(jié)果與另一組結(jié)果進(jìn)行比較。(2)失真的客觀測量。失真的客觀測量是一種可以校準(zhǔn)和再現(xiàn)的測試，它可以測量原始信號和再現(xiàn)信號之間的差異。這里有一個問題，即失真的絕對大小可能與失真聲音的無聊程度沒有太大關(guān)系?，F(xiàn)實生活中有一個扭曲的例子，我們幾乎每天都會遇到，但并不那么無聊。這個例子是剪輯。如果純音(正弦波)通過動態(tài)范圍不足的放大器，放大器可能會使正弦波的波峰和波

4、谷變平，從而產(chǎn)生一組奇次諧波。對于這種類型的失真，在原始(或基本)信號和失真之間有一致的對應(yīng)關(guān)系，所以這種失真不一定會讓你感到煩惱。5聲道單聲道意味著單一聲源，而立體聲并不意味著有兩個聲源，立體聲指的是三維聽覺效果。為了確定聲源位置，大腦應(yīng)該比較每只耳朵聽到的聲音的三個屬性，即：(1)振幅：如果左耳聽到的聲音大于右耳聽到的聲音，那么我們認(rèn)為聲音在左耳。(2)相位：如果兩只耳朵聽到的信號相位相同，那么大腦認(rèn)為聲音在中間；如果兩只耳朵聽到信號的相位差為180，則聲音不包含方向信息。(3)計時：聲音傳播的速度是每毫秒1英尺；如果聲音到達(dá)右耳比到達(dá)左耳早，我們認(rèn)為聲源在右耳。一般來說，如果聽者的位置正

5、好在兩個聲源(如兩個揚聲器)的中軸線上，聽者就能享受到三維立體的效果；否則，聽眾將失去完整的立體聲效果，因為他離其中一個聲源的距離較短。可以通過添加中央聲道來確定聲源位置。為此，杜比公司在20世紀(jì)70年代實現(xiàn)了從左聲道、右聲道、中央聲道和環(huán)繞聲道四個聲道制作3D立體聲的效果。為了使聲音更豐富，現(xiàn)有的立體聲劇院(包括家庭劇院)增加了一個低音炮通道，其主要目的是增強低音。3.2音頻信號數(shù)字化和音頻信息處理主要包括兩大技術(shù)：音頻信號數(shù)字化和音頻信息壓縮。圖3.2-1是音頻信息處理的結(jié)構(gòu)框圖。音頻信息壓縮是音頻信息處理的關(guān)鍵技術(shù)，音頻信號數(shù)字化為音頻信息壓縮做準(zhǔn)備。音頻信號的數(shù)字化過程是將模擬音頻信號

6、轉(zhuǎn)換成具有有限數(shù)字表示的離散序列，即數(shù)字音頻序列，它涉及模擬音頻信號的采樣、量化和編碼。對同一音頻信號使用不同的采樣、量化和編碼方法可以形成各種形式的數(shù)字音頻。圖3.2-1音頻信息處理框圖，(1)采樣過程。模擬音頻信號在時間和幅度上都是連續(xù)的信號。采樣是將連續(xù)信號在時間上離散化的過程，采樣通常以均勻的時間間隔進(jìn)行。目前常用音頻信號的頻段如圖3.2-2所示，電話信號的頻段為200 Hz3.4千赫，調(diào)幅信號的頻段為50 Hz7千赫，調(diào)頻信號的頻段為20 Hz15千赫，高清音頻信號的頻段為10 Hz20千赫。根據(jù)不同的音頻源和應(yīng)用目標(biāo)，可以使用不同的采樣頻率，例如8千赫、11.025千赫、22.05

7、千赫、16千赫、37.8千赫、44.1千赫或48千赫，這是典型的采樣頻率。圖3.2-2是普通音頻應(yīng)用的帶寬示意圖，以及(2)量化過程。量化過程是指在幅度上離散每個采樣值。量化可以分為均勻量化(量化值的分布是均勻的或者每個量化步長是相同的)和非均勻量化。量化會引入失真，而量化失真是一種不可逆的失真，通常稱為量化噪聲。(3)編碼過程。編碼過程是指使用二進(jìn)制數(shù)來表示每個樣本的量化值。如果量化是均勻的，用自然二進(jìn)制數(shù)表示，這種編碼方法就是脈碼調(diào)制，它是最簡單、最方便的編碼方法。3.3音頻信號壓縮編碼自20世紀(jì)30年代引入脈碼調(diào)制原理和聲碼器概念以來，音頻信息壓縮編碼技術(shù)主要朝著基于波形和基于參數(shù)的方向

8、發(fā)展。從這個角度來看，音頻信息編碼技術(shù)可以分為三類：(1)波形編碼。該方法主要基于語音波形預(yù)測，試圖將重構(gòu)的語音波形保持在原始信號的波形狀態(tài)。它的優(yōu)點是編碼方法簡單，易于實現(xiàn)，適應(yīng)性強，語音質(zhì)量好，缺點是壓縮比相對較低，編碼率較高。常用的波形編碼技術(shù)包括增量調(diào)制、自適應(yīng)差分脈沖編碼調(diào)制、子帶編碼、矢量量化編碼(VQ)等。(2)參數(shù)編碼。這種方法主要是基于參數(shù)的編碼方法。與波形編碼不同，這種編碼方法通過語音信號的數(shù)學(xué)模型提取并編碼語音信號的特征參數(shù)(主要是代表聲門振動的激勵參數(shù)和代表聲道特征的聲道參數(shù))，試圖使重構(gòu)的語音信號盡可能地保持原始信號的語義，而重構(gòu)的語音信號的波形可能與原始信號有很大的

9、不同?；谶@種編碼技術(shù)的編碼系統(tǒng)一般稱為聲碼器，主要用于在窄帶信道上提供低于4.8 kb/s的低速語音通信和一些應(yīng)用(如衛(wèi)星通信等)。)具有寬延遲要求。最常用的參數(shù)編碼方法是線性預(yù)測編碼。(3)混合編碼。該方法克服了原始波形編碼和參數(shù)編碼的缺點，將波形編碼的高質(zhì)量和參數(shù)編碼的低數(shù)據(jù)率結(jié)合起來，取得了較好的效果。混合編碼是指同時使用兩種或多種編碼方法進(jìn)行編碼的過程。由于每種編碼方法都有各自的優(yōu)缺點，如果使用兩種甚至兩種以上的編碼方法進(jìn)行編碼，它們可以優(yōu)勢互補，克服各自的缺點，從而達(dá)到高效數(shù)據(jù)壓縮的目的?；旌暇幋a廣泛用于音頻信號數(shù)據(jù)壓縮和圖像信號數(shù)據(jù)壓縮，這將在后面描述。3.3.1增量調(diào)制1通用增

10、量調(diào)制增量調(diào)制是一種相對簡單的具有數(shù)據(jù)壓縮功能的波形編碼方法。增量調(diào)制的系統(tǒng)結(jié)構(gòu)框圖如圖3.3-1所示。在編碼端，下一個信號的預(yù)測值可以通過解碼器對前一個輸入信號的編碼值進(jìn)行解碼而獲得。在比較器中從預(yù)測值中減去輸入模擬音頻信號以獲得差值。差異的極性可以是正的，也可以是負(fù)的。如果為正，則編碼輸出為1；如果為負(fù)，則編碼輸出為0。這樣，在增量調(diào)制的輸出端可以獲得一系列1比特編碼的數(shù)據(jù)挖掘碼。增量調(diào)制編碼過程示意圖如圖3.3-2所示。圖3.3-1是增量調(diào)制的系統(tǒng)結(jié)構(gòu)框圖，圖3.3-2是增量調(diào)制編碼過程示意圖。在圖3.3-2中，縱坐標(biāo)表示輸入模擬電壓，橫坐標(biāo)表示隨著時間的增加而順序產(chǎn)生的DM碼。圖中的虛

11、線表示輸入音頻模擬信號。從圖3.3-2可以看出，當(dāng)輸入信號快速變化時，編碼器的輸出跟不上信號的變化，這將使重構(gòu)的模擬信號失真，稱為“斜率過載”?？梢钥闯觯?dāng)輸入模擬信號的變化速度超過解碼器輸出的預(yù)測信號的最大變化速度時，將發(fā)生斜率過載。提高采樣速度可以避免斜率過載。然而，采樣速度的提高會降低數(shù)據(jù)壓縮的效率。從圖3.3-2中可以發(fā)現(xiàn)另一個問題：當(dāng)輸入信號不變時，預(yù)測信號和輸入信號之間的差異將非常接近。此時，編碼器的輸出交替為0和1。這種現(xiàn)象被稱為增量調(diào)制的“散粒噪聲”。為了降低散粒噪聲，最好使輸出碼的一位所代表的模擬電壓(也稱為量化步長)更小。然而，在固定采樣速度下，減少量化步長將導(dǎo)致更嚴(yán)重的斜

12、率過載。為了解決這些矛盾，人們發(fā)展了自適應(yīng)增量調(diào)制方法。自適應(yīng)增量調(diào)制(ADM)從前面的分析可以看出，為了減少斜率過載，希望增加步長；為了減少散粒噪聲，還希望減小步長。因此，人們認(rèn)為如果數(shù)據(jù)挖掘的量化步長能夠滿足信號變化的要求，就必須同時降低斜率過載和散粒噪聲。也就是說，當(dāng)發(fā)現(xiàn)信號快速變化時，步長增加；當(dāng)信號變化緩慢時，步長減小。這是自適應(yīng)增量調(diào)制的基本出發(fā)點。在ADM中，有兩個共同的規(guī)則：一個是控制可變因子m，使量化步長在一定范圍內(nèi)變化。對于每個新樣本，其量化步長是前一個值的m倍。m值由輸入信號的變化率決定。如果存在連續(xù)的相同代碼，則意味著存在過載的危險，因此有必要增加m。當(dāng)0和1信號交替出

13、現(xiàn)時，則意味著信號變化緩慢并將產(chǎn)生散粒噪聲，因此有必要降低m值。典型的規(guī)則是，(3.3-1)，另一種類型使用更自適應(yīng)的增量調(diào)制，稱為連續(xù)可變斜率增量(CVSD)調(diào)制。其工作原理如下：如果調(diào)制器(CVSD)連續(xù)輸出三個相同的碼，量化步長將增加一個大的增量，這是因為三個連續(xù)的相同碼表示發(fā)生了過載。相反，量化步長增加了一個小增量。CVSD的自適應(yīng)規(guī)則是(3.3-2)，其中值可以在01之間?？梢钥闯觯梢酝ㄟ^增量調(diào)制來調(diào)整的大小，以適應(yīng)輸入信號變化所需的時間。p和q是增量，p應(yīng)大于或等于q，3.3.2自適應(yīng)差分脈沖編碼調(diào)制1。如果輸入音頻信號是語音信號，用8千赫的采樣頻率進(jìn)行均勻采樣，然后將每個采樣編

14、碼成一個8位二進(jìn)制數(shù)字信號，就可以得到數(shù)據(jù)速率為64 kb/s的脈碼調(diào)制信號。這種編碼方法均勻地量化輸入音頻信號，并且采用相同的量化間隔，而不管輸入信號是大還是小。然而，對于音頻信號，在大多數(shù)情況下信號幅度非常小，并且大幅度信號的概率非常小。然而，為了適應(yīng)這種罕見的大信號，二進(jìn)制編碼比特必須以均勻量化的方式添加。對于大量的小信號來說，如此多的碼位是一種浪費。因此，對相變材料進(jìn)行統(tǒng)一量化是低效的，有必要對其進(jìn)行改進(jìn)。非均勻量化編碼的本質(zhì)是減少代表樣本的比特數(shù)，從而達(dá)到數(shù)據(jù)壓縮的目的?；舅枷胧钱?dāng)輸入信號幅度較小時，采用較小的量化間隔；當(dāng)輸入信號幅度較大時，采用較大的量化間隔。這樣，在一定精度下，

15、采樣值可以用較少的二進(jìn)制碼位來表示。這種小信號擴展和大信號壓縮的特性可以用下面的公式表示：其中：x是A/D轉(zhuǎn)換器的輸入電壓與滿量程電壓之比，取值范圍為11；Sgn(x)是x的極性；是一個壓縮擴展參數(shù)，其值范圍為100，500。它越大，就越嚴(yán)重。這個壓擴規(guī)則的特征如圖3.3-3所示，這條曲線通常被稱為定律壓擴特征。(3.3-3)，圖3.3-4。在實際應(yīng)用中，指定某個值，并使用多條折線來近似圖3.3-3所示的壓擴特性。這大大簡化了計算，并確保了一定的準(zhǔn)確性。例如，當(dāng)選擇255時，壓擴特性由8段折線代替。當(dāng)樣本由8位二進(jìn)制表示時，可以獲得沒有壓擴的13位二進(jìn)制碼的音頻質(zhì)量。在這個8位二進(jìn)制數(shù)中，最高

16、位表示符號位，接下來的3位用于表示折線數(shù)，最后4位用于表示數(shù)據(jù)位。法律壓擴的數(shù)據(jù)格式如圖3.3-4所示。在解碼和恢復(fù)數(shù)據(jù)時，可以根據(jù)符號和折線通過預(yù)先制作的表格來恢復(fù)原始數(shù)據(jù)。另一個常用的壓擴特性是13折線，它實際上用13條直線代替了13折線壓擴特性曲線。中國和歐洲采用A法13線壓擴法，而美國和日本采用該法。對于A-law 13折疊線，信號樣本的編碼由兩部分組成：段代碼(信號屬于13折疊線的哪一部分)和段內(nèi)代碼。在非均勻脈碼調(diào)制中，存在大量冗余信息。這是因為音頻信號的相鄰樣本之間的相關(guān)性非常強。如果采取一些措施，多余的信息可以被刪除。差分脈沖編碼調(diào)制(DPCM)是一種常見的方法。2.差分脈碼調(diào)制(DPCM)差分脈碼調(diào)制的核心思想是對信號的差異進(jìn)行編碼，而不是對信號本身進(jìn)行編碼。這個差值指的是

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

音頻信息處理技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

音頻信息處理技術(shù)

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔