版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、語音與音頻編碼論文Huaqiaouniversity語音鳥音頻編鳴錦程曲題目:MP3編碼原理與實現(xiàn)院(系)信息科學與工程學院班級11級通信工程2班學號1115107007姓名指導老師目錄MP3編碼原理與實現(xiàn)錯誤!未定義書簽。1、摘要32、MP3簡介32.1MP3音頻格式32.2MP3壓縮編碼原理43、人體聽覺心理學模型53.1 最小聽覺門檻判定53.2 人耳的遮蔽效應53.3 人耳的空間響應54、VBR技術65、編碼器工作原理65.1 濾波器段65.2 人體聽覺心理模型75.3 量化與編碼86、總結(jié)與心得97、參考文獻101、摘要:在目前的信息社會,需要應用和傳輸大量的語音信息,這些信息中存在
2、著大量的冗余,如果不去除掉這些冗余,在其傳輸和存儲的過程中,將會占用大量的資源,因此,語音壓縮技術受到了人們的普遍關注。在此基礎上,對MP3編碼器的基本原理和基本結(jié)構(gòu)進行了研究,并對其中幾個關鍵模塊包括心理聲學模型,VBR技術等進行了分析,結(jié)果表明MP3要具有良好的編碼質(zhì)量,需要對其算法進行改進和優(yōu)化。關鍵詞:MP3編碼器、音頻、算法2、MP3簡介MP3是今天一種常見的音樂格式,但恐怕除了工作要求之外,有興趣對此進行研究的人恐怕不多。所以,當我打算寫MP3編碼方面的論文時,在找資料時也頗費了一番周折,同時也覺得很有趣。MP3是MPEG-1AudioLayer3的簡稱,是當今比較流行的一種數(shù)字音
3、頻編碼和有損壓縮格式(有Layer3,也必然有Layerl和Layer2,也就是MP1和MP2,但不在本文討論范圍之內(nèi))。MP3技術的應該可以用來大幅度的降低音頻文件存儲所需要的空間。它丟掉脈沖編碼調(diào)制(PCM)音頻數(shù)據(jù)中對人類聽覺不重要得數(shù)據(jù),從而達到了較高的壓縮比(高達12:1-10:l)o簡單地說,MP3在編碼時先對音頻文件進行頻譜分析,然后用過濾器濾掉噪音電平,接著通過量化的方式將剩下的每一位打散排列,最后形成有較高壓縮比的MP3文件,并使壓縮后的文件在回放時也能夠達到比較接近原音源的效果。MP3的音頻質(zhì)量取決于它的Bitrate和Samplingfrequency,以及編碼器質(zhì)量。M
4、P3的典型速度介于每秒128到320kb之間。采樣頻率也有44.1,48和32kHz三種頻率,比較常見的是采用CD采樣頻率一44.1kHz。常用的編碼器是LAME,它完全遵循LGPL的MP3編碼器,有著良好的速度和音質(zhì)。2.1 MP3音頻格式MP3(MPEGAudioLayerDI)音頻格式誕生于20世紀80年代,是伴隨著MPEG”而開發(fā)的。在MPEG-1標準中,音頻壓縮標準按復雜性和壓縮質(zhì)量分為三個獨立層次:(l)MPEGAudioLayerI,它最為簡單,碼流為每通道384kb/s,主要用于數(shù)字卡座(DigitalCompactCassette,DCC)。(2)MPEGAudioLayer
5、D,它具有中等復雜度,碼流為每通道192kb/s,主要用于數(shù)字音頻廣播、數(shù)字演播室和VCD等方面數(shù)字音頻的制作、交流、存儲和傳送。(3)MPEGAudioLayerHI,它最為復雜,是綜合了MPEGAudioLayerII和ASPEC優(yōu)點的一種血合壓縮技術,其音頻質(zhì)量最好,主要用于MP3音凝壓縮,碼流為每通道64kb/s0MP3編碼雖不適用于實時傳送,但能在低編碼速率下提供較高的音質(zhì),所以成為網(wǎng)上音樂的寵兒。2.2 MP3壓縮編碼原理音頻壓縮由編碼和解碼兩個部分組成。把波形文件里的數(shù)字音頻數(shù)據(jù)轉(zhuǎn)換為高度壓縮的形式(稱為比特流)即為編碼;要解碼則把比特流重建為波形文件。在MPEG”的音頻壓縮中,
6、采樣頻率可為32kHz、44.1kHz和48kHz,可支持單聲道(Monophonic)、雙單聲道(DualNIonophonic)、立體聲模式(StereoMode)、聯(lián)合立體聲(JohitStereo)等。常見的MP3大多采用聯(lián)合立體聲模式。音頻壓縮可以分為無損(lossless)壓縮和有損壓縮。無損壓縮就是盡量降低音頻數(shù)據(jù)的冗余度,以減小其體積音頻信號經(jīng)過編碼和解碼之后,必須要和原來的信號一致。無損壓縮的壓縮率是比較有限的;有損壓縮就是用盡一切手段,包括無損壓縮用到的方法,丟掉一切能丟掉的數(shù)據(jù),以減小體積。而音頻壓縮后解碼聽起來起碼是要跟原來差不多的,有損壓縮的壓縮比能大幅提高,MP3就
7、是屬于有損壓縮,壓縮比是12:l(128kbps)0實驗表明,人類能聽到的聲音頻率范圍(音頻)是20Hz20kHz,但人耳對整個音頻頻段聲音的反應不是平直的,25kHz是人耳最靈敏的頻段。依其特性將整個音頻頻段分成多個臨界頻帶,因為人類聽覺系統(tǒng)是依據(jù)頻率來分辨聲音能量的,任何頻率的細小聲音都會因掩蔽效應而被臨界頻帶內(nèi)音量較高的聲音所覆蓋。MP3對其不作量化處理,從而去掉那些人類聽覺系統(tǒng)所無法察覺的聲音,達到壓縮的目的。MP3文件是由幀(frame)構(gòu)成的,幀是MP3文件最小的組成單位。什么是幀?還記得最初的動畫是怎么做的嗎?不同的連續(xù)畫面切換以達到動態(tài)效果,每幅畫面就是一個“幀”,不同的是MP
8、3里面的幀記錄的是音頻數(shù)據(jù)而不是圖形數(shù)據(jù)。MP3的幀速度大概是30幀/秒。每個幀又由幀頭和幀數(shù)據(jù)組成,幀頭記錄著該幀的基本信息,包括位率索引和采樣率索引(這對理解ABR和VBR編碼方式很重要)。幀數(shù)據(jù),顧名思義就是記錄著主體音頻數(shù)據(jù)。上面說的都是MP3編碼的基礎,但事實上,早期的編碼器都非常不完善,壓縮算法近于粗暴,音質(zhì)很不理想。MP3的音質(zhì)達到現(xiàn)在的水平有兩次飛躍:人體聽覺心理學模型(PerceptualModel)的導入和VBR技術的應用。3、人體聽覺心理學模型下面將簡要介紹一下幾個重要原理:3.1最小聽覺門檻判定(Theminimalauditionthreshold)人耳的聽力范圍是2
9、0Hz-20kHz的頻率范圍,但是人耳對不同的頻率聲音的靈敏度是不同的,不同頻率的聲音要達到能被人耳聽到的水平所需要的強度是不一樣。那么通過計算,可以把音樂文件中存在但不能被人耳聽到的聲音去掉。通過這原理,我們還可以建立模型,把大部分數(shù)據(jù)空間分配到人耳最靈敏的2kHz到5kHz范圍,其余頻率分配比較少的空間;3. 2人耳的遮蔽效應(TheMaskingeffect)蔽效應表現(xiàn)在強信號會遮蔽鄰近頻率的弱信號。用生活經(jīng)驗來說,在安靜的房間中,一根針掉到地上都能聽見,可到了大街上,就算手機音量調(diào)到最大,來電時也未必能聽見,而手機的聲音確確實實是存在的,原因就是被周圍更大的聲音遮蔽了。有了對遮蔽效應的
10、研究成果,編碼器就能根據(jù)己建立的數(shù)學模型,計算強信號對附近弱信號的遮蔽,把能引起人們注意的聲音才保留。人耳還有前遮蔽效應和后遮蔽效應:因為人需要一定的時間來處理聲音信號,在強信號之前或之后的弱信號,會被遮蔽掉。前遮蔽效應的時間約只有2-5ms,而后遮蔽的時間比較長,大約有100ms。利用這,我們能減小強信號之前和之后的分辨率;3.3人耳的空間響應:人耳對某些高頻的聲音的空間感很差,辨別不了聲源的方向。聯(lián)合立體聲(JointStere。)應運而生:在某些頻率上采用“單聲道”(事實上并非真正意義上的單聲道),以減小流量。4、VBR技術正如上面所說,MP3是由幀構(gòu)成的,MP3能象動畫那樣讀到哪放到哪
11、,播放器不必預讀整個文件的內(nèi)容,即使部分數(shù)據(jù)損壞也不會對播放效果有太大影響(實際上這就是流媒體所具有的特性)。而每個幀的幀頭里都包含這該幀的碼率(bitrate,單位是kbps)等信息,所以,我們可以對每一段音樂甚至每一個幀定義獨立的碼率,這就是VBR(Variablebitrate,動態(tài)碼率)技術。與VBR向?qū)氖荂BR(Constantbitrate)。一支交響曲,合奏大動態(tài)部分的數(shù)據(jù)量顯然大于引子部分,如果用128kbps的CBR編碼方式來編碼,在引子部分可能有多余的數(shù)據(jù)流量,而在合奏部分卻又不夠,VBR就是解決這個問題的。把在不影響音質(zhì)的情況下,對流量需求小的部分分配較小的碼率,把冗
12、余字節(jié)緩存起來留給有需要的部分,在短時間內(nèi)提供更高的碼率,以保證音樂的質(zhì)量。所以說,VBR的作用是更合理的分配流量,在不增大文件體積的條件下提高聲音的質(zhì)量。不過VBR在應用初期帶給過MP3隨生聽不少麻煩。因為早期大多數(shù)MP3播放器都是針對CBR設計的,其根據(jù)文件大小來獲得時長的算法對VBR失效了,因為VBRMP3的bitrate可能每時每刻都在變化。不過現(xiàn)在這個問題基本上不用擔心了,市場上的播放器基本上都解決這問題了。除了上面說的兩方面,MP3編碼還有很重要的一招:Huffman編碼(Huffman是個科學家的名字),Huffman編碼廣泛應用于無損壓縮領域,比如我們常用的WINZIP,WIN
13、RAR等壓縮軟件就是以此為基礎的(只能說是基礎,因為這些用到的編碼方法不只是Huffman編碼Huffman編碼用途就是降低數(shù)據(jù)的冗余度,可節(jié)省大約20%的空間。用WINZIP來再壓縮MP3文件每什么效果就因為MP3編碼的時候已經(jīng)應用到采用Huffman編碼。5、編碼器工作原理5.1 濾波器段(filterbank)數(shù)字音頻信號以脈沖的形式送進編碼器,首先會經(jīng)過一濾波器段(filterbank),它由兩個串聯(lián)的濾波器段組成:一個多相分析濾波器段和一個MDCT(ModifiedDiscreteCosineTransform,經(jīng)改良的離散余弦轉(zhuǎn)換),前者也應用到layer-1和layer-2中,后
14、者是MP3獨有的。輸入的音頻信號在20Hz-20kHz的頻率范圍內(nèi),通過第一個濾波器段后,把信號按頻率分成32個小頻帶,稱為子帶(Subband)。20000Hz/32=625Hz,那么每個子帶的寬度就是625Hz。人耳對不同頻段的靈敏度是不同的,編碼器可對不同的子帶進行不同的量化分層。不過等寬的子帶并沒有準確反映人耳的聽覺特性,這樣進行等寬劃分并沒有考慮到不同信號的臨界寬度,也就是該信號的影響范圍,以及不同信號的相互影響,所以這樣會產(chǎn)生大量的信號重疊。MDCT轉(zhuǎn)換就是為了解決這問題,它能對子帶進行細分,清楚重疊部分,得到更高的頻譜解析度。5. 2人體聽覺心理學模型(PerceptualMod
15、el)上面已經(jīng)談到過人體聽覺心理學模型,心理學模型可以說是感受編碼的重中之中,它決定著編碼器的編碼質(zhì)量(后面談到的LAME就擁有著大量優(yōu)秀的人體精神聽覺模型和數(shù)學模型)。下面將深入分析兩個重要原理:最小聽覺門檻判定和遮蔽效應。最小聽覺門檻判定聲音其實是傳播在介質(zhì)中的能量波,人耳對聲音能量強弱的直接感受就是聽到音量的大小,也就是響度,單位是分貝(dB)。下面是人耳可聽最小響度曲線:響族dB11310D9080706953403029100a。%4二,1.n/*.9ij0.020Q4C.10.20,412461020頻率(kHz)OdB是聽覺靈敏度的極限,而120dB是痛苦靈敏度的極限。人耳在20
16、00Hz到5000Hz范圍內(nèi)的靈敏度最高,兩端就迅速下降。所以人耳對中頻的靈敏度遠高于高低頻。遮蔽效應不同頻率的聲音有不同的遮蔽寬度,這叫臨界寬度。可以想象,弱信號越接近強信號的中心,遮蔽效應會越嚴重。臨界寬度跟聲音頻率成正比。下面是臨界寬度列表:頻率(Hz)臨界帶寬(Hz)頻率(Hz)臨界帶寬(Hz)5080185028015010021503203501002500380450110340055057012040007007001404800900840150580011001000160700013001170190850018001370210105002500160024013500
17、3500感受編碼機制可以分為兩個部分:知覺噪音成型(perceptualnoiseshaping)和知覺邊帶/變換編碼(perceptualsubband/transformcoding)o編碼器通過分析濾波器段(filterbank)分析音頻信號的頻譜組成并應用聽覺心理學模型來估計僅僅可以注意得到的噪音電平。在后面的量化和編碼階段,編碼器會提高強信號附近的噪音電平,也就是減少量化位數(shù),這樣就能達到節(jié)省流量,壓縮數(shù)據(jù)的目的。如果所有量化噪音都能控制在屏蔽臨界曲線以下,那么處理后人耳就區(qū)別不出哪個才是原音。5. 3量化和編碼(QuantizationandCoding)當PCM訊號被分成好幾個頻
18、段并經(jīng)過一系列的處理后,最后經(jīng)過MDCT,將波型轉(zhuǎn)換為一連串的系數(shù)。這些系數(shù)就由Huffman編碼器會選擇最合適的Huffman表來做最后的壓縮。Huffman編碼一般是雙路工作的,但是在某些需要精密編碼的情況下,它會進行四路工作。編碼器一般會有很多的Huffman編碼表,很多時候為了更好的聲音質(zhì)量和更有效屏蔽量化噪音,編碼器甚至能為每一個頻段選擇最合適的Huffman編碼表。不過編碼不是一次就能成功的,要采取TryandError的方式循環(huán)進行。因為編碼器一方面要削減量化噪音,讓它在人耳遮蔽曲線以下;另一方面要保證bitrate滿足要求。實際上這里就是要確定兩個數(shù)值:一個是確定bitrate
19、的步進值(gainvalue),另一個是削減量化噪音的增益因子(ScaleFactor),這兩個系數(shù)會在正式編碼之前確定下來,確定過程由兩個嵌套的迭代回路完成:失真控制回路(DistortionControlLoop)和量化速率控制回路(NonuniformQuantizationRateControlLoop)內(nèi)部迭代回路(RateLoop)量化以后的數(shù)據(jù)送進Huffman編碼器,當發(fā)現(xiàn)比特數(shù)大于可用流量時,編碼器會返回信息,讓RateLoop調(diào)整步進值以增大量化步長,從而讓數(shù)據(jù)流量減小。循環(huán)會一直進行,嘗試不同的量化步長,直到Huffman編碼以后的數(shù)據(jù)流量足夠小。因為這個回路是用來控制碼率的,所以叫做RateLoopo外部迭代回路(noisecontrolloop)顯然,這個回路的作用就是控制量化噪音(quantizationnoise),讓其保持在聽覺心理學提供的屏蔽臨界線(maskingthreshold)以下。每一個頻段都會有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版文化遺產(chǎn)保護工程承包合同示范文本2篇
- 2025年度大型商場租賃合同及租賃期限調(diào)整規(guī)范
- 二零二五年度新型房產(chǎn)抵押貸款咨詢與評估合同3篇
- 2025版無產(chǎn)權(quán)儲藏室買賣及藝術品展示合作協(xié)議3篇
- 2025版商場物業(yè)管理與商業(yè)糾紛調(diào)解服務合同3篇
- 上海市奉賢區(qū)2022-2023學年高三上學期一模語文試卷 附答案
- 二零二五年度車輛運輸與汽車后市場服務合同2篇
- 湖州浙江湖州長興縣人民檢察院編外人員招錄3人筆試歷年參考題庫附帶答案詳解
- 溫州浙江溫州平陽縣人民法院招聘編外人員筆試歷年參考題庫附帶答案詳解
- 2025年度教育機構(gòu)課程開發(fā)與培訓服務合同
- 高中語文教學課例《勸學》課程思政核心素養(yǎng)教學設計及總結(jié)反思
- 中國農(nóng)業(yè)銀行小微企業(yè)信貸業(yè)務貸后管理辦法規(guī)定
- 領導干部的情緒管理教學課件
- 初中英語-Unit2 My dream job(writing)教學課件設計
- 市政道路建設工程竣工驗收質(zhì)量自評報告
- 優(yōu)秀支行行長推薦材料
- 中國版梅尼埃病診斷指南解讀
- 暨南大學《經(jīng)濟學》考博歷年真題詳解(宏觀經(jīng)濟學部分)
- 藥店員工教育培訓資料
- eNSP簡介及操作課件
- 運動技能學習與控制課件第七章運動技能的協(xié)調(diào)控制
評論
0/150
提交評論