數(shù)字語音編碼技術(shù)._第1頁
數(shù)字語音編碼技術(shù)._第2頁
數(shù)字語音編碼技術(shù)._第3頁
數(shù)字語音編碼技術(shù)._第4頁
數(shù)字語音編碼技術(shù)._第5頁
已閱讀5頁,還剩35頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)字語音編碼 多媒體數(shù)字信號編解碼器 COder 和 DECoder 作用:對視頻、音頻信號進行壓縮和解壓IP網(wǎng)絡(luò)語音處理過程PCMPCM的產(chǎn)生脈沖編碼調(diào)制將模擬調(diào)制信號的采樣值變換為脈沖碼組。PCM編碼包括如下三個過程。將模擬信號轉(zhuǎn)換為時間離散的樣本脈沖序列。將離散時間連續(xù)幅度的抽樣信號轉(zhuǎn)換成為離散時間離散幅度的數(shù)字信號。用一定位數(shù)的脈沖碼組表示量化采樣值。抽樣 模擬聲音在時間上是連續(xù)的,而數(shù)字音頻模擬聲音在時間上是連續(xù)的,而數(shù)字音頻是一個數(shù)字序列,在時間上只能是斷續(xù)的。是一個數(shù)字序列,在時間上只能是斷續(xù)的。因此當(dāng)把模擬聲音變成數(shù)字聲音時,需要因此當(dāng)把模擬聲音變成數(shù)字聲音時,需要每隔一個時間

2、間隔在模擬聲音波形上取一每隔一個時間間隔在模擬聲音波形上取一個幅度值,稱之為采樣(抽樣),采樣的個幅度值,稱之為采樣(抽樣),采樣的時間間隔稱為采樣周期(倒數(shù)為采用頻率)時間間隔稱為采樣周期(倒數(shù)為采用頻率)抽樣量化 在數(shù)字音頻技術(shù)中,把采樣得到的表示聲在數(shù)字音頻技術(shù)中,把采樣得到的表示聲音強弱的模擬電壓用數(shù)字表示。模擬電壓音強弱的模擬電壓用數(shù)字表示。模擬電壓的幅值仍然是連續(xù)的,而用數(shù)字表示音頻的幅值仍然是連續(xù)的,而用數(shù)字表示音頻幅度時,只能把無窮多個電壓幅度用有限幅度時,只能把無窮多個電壓幅度用有限個數(shù)字表示,即把某一幅度范圍內(nèi)的電壓個數(shù)字表示,即把某一幅度范圍內(nèi)的電壓用一個數(shù)字表示,這稱之

3、為量化用一個數(shù)字表示,這稱之為量化量化和編碼為什么要使用CODEC? * *采樣頻率是指單位時間內(nèi)的采樣次數(shù)。采樣頻率是指單位時間內(nèi)的采樣次數(shù)。 * *奈奎斯特(奈奎斯特(Harry NyquistHarry Nyquist)采樣理論:)采樣理論:只要采樣頻率只要采樣頻率f(1/T)f(1/T)高于輸入信號最高頻高于輸入信號最高頻率的兩倍,則經(jīng)過采樣后的采樣信號能夠率的兩倍,則經(jīng)過采樣后的采樣信號能夠包含原模擬信號的全部信息,且經(jīng)過反變包含原模擬信號的全部信息,且經(jīng)過反變換和低通濾波后可不失真地恢復(fù)原模擬信換和低通濾波后可不失真地恢復(fù)原模擬信號。號。 * *電話話音的信號頻率約為電話話音的信號

4、頻率約為3.4 kHz3.4 kHz,采樣,采樣頻率就選為頻率就選為8 kHz8 kHz。 以8kHz的頻率對語音信號進行采樣。PCM中每個采樣點用16位來表示,那么一秒鐘要傳輸: 16 8000 128000(b)也就是要達到128kps的傳輸速率,才可以傳送一路語音信號。因此必須對語音信號進行壓縮。語音壓縮就是要去除傳輸信號的冗余信息。語音壓縮去除語音信號樣本的冗余信息客觀冗余 信號本身特征 (1)語音信號樣本間的相關(guān)性很強(8kHz時兩點相關(guān)0.85) (2)濁音段的準周期性 (3)聲道的形狀及其變化比較慢 (4)靜止系數(shù)(語音間隔,有靜音期)主觀冗余人的聽覺特性 聽覺掩蔽特性 聽不到或

5、不靈敏的語音分量視為冗余語音編碼分類語音編碼分類根據(jù)編碼器的實現(xiàn)機理,分成三大類根據(jù)編碼器的實現(xiàn)機理,分成三大類波形編碼波形編碼參數(shù)編碼參數(shù)編碼混合編碼混合編碼1、波形編碼、波形編碼 從語音信號的波形出發(fā),對波形的從語音信號的波形出發(fā),對波形的抽樣值、預(yù)測值、預(yù)測誤差進行編碼,抽樣值、預(yù)測值、預(yù)測誤差進行編碼,它以重建語音波形為目的,力圖使重它以重建語音波形為目的,力圖使重建波形接近原信號波形。建波形接近原信號波形。特點:利用抽樣定理,恢復(fù)原始信號的波形特點:利用抽樣定理,恢復(fù)原始信號的波形 優(yōu)點:優(yōu)點:適應(yīng)能力強,重建語音質(zhì)量好適應(yīng)能力強,重建語音質(zhì)量好缺點:缺點:編碼速率較高編碼速率較高類

6、型:類型: PCM, 自適應(yīng)增量調(diào)制自適應(yīng)增量調(diào)制 (ADM),), 自適應(yīng)差分編碼調(diào)制(自適應(yīng)差分編碼調(diào)制(ADPCM),), 自適應(yīng)預(yù)測編碼自適應(yīng)預(yù)測編碼APC速率通常在速率通常在16-64kbit/s范圍范圍非均勻量化進行壓縮均勻量化與非均勻量化非均勻量化 對小信號采用小的量化間隔,對大信號采用大的量化間隔,這樣可以用較少的位數(shù)編碼。 對大信號來說,雖然絕對量化誤差較大,但是因為:(1)大信號出現(xiàn)的機會不多,(2)信噪比(相對誤差)與小信號是一致的,所以對總的話音質(zhì)量影響不大。 非均勻量化也是一種壓縮。(如PCMU和PCMA,每個樣本的精度為8位,輸出的數(shù)據(jù)率為64 kb/s ) 2.參

7、數(shù)編碼參數(shù)編碼 提取語音的一些特征信息進行編碼,提取語音的一些特征信息進行編碼,在收端利用這些特征參數(shù)合成語音。在收端利用這些特征參數(shù)合成語音。 優(yōu)點:優(yōu)點:編碼速率低。編碼速率低。 缺點:缺點:語音的音質(zhì)和自然度較差,很語音的音質(zhì)和自然度較差,很難辨別說話人。(有一定的可懂度難辨別說話人。(有一定的可懂度) 類型類型:LPC線性預(yù)測編碼線性預(yù)測編碼速率通常是在速率通常是在4.8kbit/s以下以下話音的形成原理 肺中的空氣受到擠壓形成氣流,氣流通過聲門(聲帶)沿著聲道(由咽、喉、口腔等組成)釋放出去,就形成了話音。 氣流、聲門可以等效為一個激勵源,聲道可以等效為一個時變?yōu)V波器(共振峰)。 話

8、音信號具有很強的相關(guān)性(長期相關(guān)、短期相關(guān))。等效為激勵源聲道喇叭口話音的分類 濁音(voiced sounds):聲道打開,聲帶在先打開后關(guān)閉,氣流經(jīng)過使聲帶要發(fā)生張馳振動,變?yōu)闇手芷谡駝託饬鳌嵋舻募钤幢坏刃闇手芷诘拿}沖信號。 清音(unvoiced sounds):聲帶不振動,而在某處保持收縮,氣流在聲道里收縮后高速通過產(chǎn)生湍流,再經(jīng)過主聲道(咽、口腔)的調(diào)整最終形成清音。清音的激勵源被等效為一種白噪聲信號。 爆破音(plosive sounds):聲道關(guān)閉之后產(chǎn)生壓縮空氣然后突然打開聲道所發(fā)出的聲音。2.3.2 語音的時間波形和頻譜特性語音的時間波形和頻譜特性 看一段實際語音放大結(jié)

9、論1:時間的連續(xù)函數(shù)、頻率幅度隨時間變化是隨機的 元音元音 其中一段再放大結(jié)論2:短時間短時間內(nèi)近似認為不變結(jié)論3:元音是準周期函數(shù)(基頻)基音周期 清音清音結(jié)論4:清音為隨機起伏語音信號產(chǎn)生的數(shù)字模型 理想模型標準 準確 但不可能,必近似、簡化 簡單 最好用成熟的理論 線性模型線性系統(tǒng)語音信號脈沖序列脈沖序列 激勵源,線性系統(tǒng) 聲道喇叭口激勵源 周期序列(濁音)/隨機序列(清音)線性系統(tǒng) 短時內(nèi)不變清/濁轉(zhuǎn)換聲道模擬濾波器基音周期脈沖序列發(fā)生器隨機噪聲發(fā)生器輸出語音s(n)LPC系數(shù)增益x(n)u(n)聲道模型 無損聲管模型用于理論研究,對復(fù)雜的音無法模擬 共振峰模型 將聲道模擬成一個諧振腔

10、,諧振頻率就是共振峰頻率。元音用3個共振峰就可以了,鼻音等要用到5個共振峰以上。1、聲管模型“短時”間聲道是一個形狀穩(wěn)定的級聯(lián)管道聲音在不同截面積間傳輸會有反射。 A1 A2 A3 .2、共振峰模型根據(jù)聲道近似為諧振腔的特性,有另外模型模擬其共振峰用串聯(lián)網(wǎng)絡(luò)模擬聲道。一般元音用全極點模型,系統(tǒng)函數(shù):G 幅值因子Ak 模型系數(shù)P 極點個數(shù)(階數(shù))P、ak 決定了聲道地特性(人的特征),p越大越吻合。一般p=812全極點模型 語音信號由本身的若干次過去值和當(dāng)前的激勵值線性組合產(chǎn)生:系統(tǒng)函數(shù):求解過程 求解系數(shù)的過程,其實就是找出共振峰頻率的過程。系統(tǒng)函數(shù)取極值的點,就是共振峰頻率所在的點。 求解方法多樣,其中之一是自相關(guān)法。自相關(guān)法3.混合編碼混合編碼 介于波形編碼和參數(shù)編碼的一種編碼。介于波形編碼和參數(shù)編碼的一種編碼。即在參數(shù)編碼的基礎(chǔ)上引入了波形編即在參數(shù)編碼的基礎(chǔ)上引入了波形編碼的一些特征。碼的一些特征。波形編碼波形編碼+參數(shù)編碼參數(shù)編碼可在可在4-16kb

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論