語(yǔ)音與音頻編碼論文_第1頁(yè)
語(yǔ)音與音頻編碼論文_第2頁(yè)
語(yǔ)音與音頻編碼論文_第3頁(yè)
語(yǔ)音與音頻編碼論文_第4頁(yè)
語(yǔ)音與音頻編碼論文_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語(yǔ)音與音頻編碼論文Huaqiaouniversity語(yǔ)音鳥音頻編鳴錦程曲題目:MP3編碼原理與實(shí)現(xiàn)院(系)信息科學(xué)與工程學(xué)院班級(jí)11級(jí)通信工程2班學(xué)號(hào)1115107007姓名指導(dǎo)老師目錄MP3編碼原理與實(shí)現(xiàn)錯(cuò)誤!未定義書簽。1、摘要32、MP3簡(jiǎn)介32.1MP3音頻格式32.2MP3壓縮編碼原理43、人體聽覺心理學(xué)模型53.1 最小聽覺門檻判定53.2 人耳的遮蔽效應(yīng)53.3 人耳的空間響應(yīng)54、VBR技術(shù)65、編碼器工作原理65.1 濾波器段65.2 人體聽覺心理模型75.3 量化與編碼86、總結(jié)與心得97、參考文獻(xiàn)101、摘要:在目前的信息社會(huì),需要應(yīng)用和傳輸大量的語(yǔ)音信息,這些信息中存在

2、著大量的冗余,如果不去除掉這些冗余,在其傳輸和存儲(chǔ)的過(guò)程中,將會(huì)占用大量的資源,因此,語(yǔ)音壓縮技術(shù)受到了人們的普遍關(guān)注。在此基礎(chǔ)上,對(duì)MP3編碼器的基本原理和基本結(jié)構(gòu)進(jìn)行了研究,并對(duì)其中幾個(gè)關(guān)鍵模塊包括心理聲學(xué)模型,VBR技術(shù)等進(jìn)行了分析,結(jié)果表明MP3要具有良好的編碼質(zhì)量,需要對(duì)其算法進(jìn)行改進(jìn)和優(yōu)化。關(guān)鍵詞:MP3編碼器、音頻、算法2、MP3簡(jiǎn)介MP3是今天一種常見的音樂(lè)格式,但恐怕除了工作要求之外,有興趣對(duì)此進(jìn)行研究的人恐怕不多。所以,當(dāng)我打算寫MP3編碼方面的論文時(shí),在找資料時(shí)也頗費(fèi)了一番周折,同時(shí)也覺得很有趣。MP3是MPEG-1AudioLayer3的簡(jiǎn)稱,是當(dāng)今比較流行的一種數(shù)字音

3、頻編碼和有損壓縮格式(有Layer3,也必然有Layerl和Layer2,也就是MP1和MP2,但不在本文討論范圍之內(nèi))。MP3技術(shù)的應(yīng)該可以用來(lái)大幅度的降低音頻文件存儲(chǔ)所需要的空間。它丟掉脈沖編碼調(diào)制(PCM)音頻數(shù)據(jù)中對(duì)人類聽覺不重要得數(shù)據(jù),從而達(dá)到了較高的壓縮比(高達(dá)12:1-10:l)o簡(jiǎn)單地說(shuō),MP3在編碼時(shí)先對(duì)音頻文件進(jìn)行頻譜分析,然后用過(guò)濾器濾掉噪音電平,接著通過(guò)量化的方式將剩下的每一位打散排列,最后形成有較高壓縮比的MP3文件,并使壓縮后的文件在回放時(shí)也能夠達(dá)到比較接近原音源的效果。MP3的音頻質(zhì)量取決于它的Bitrate和Samplingfrequency,以及編碼器質(zhì)量。M

4、P3的典型速度介于每秒128到320kb之間。采樣頻率也有44.1,48和32kHz三種頻率,比較常見的是采用CD采樣頻率一44.1kHz。常用的編碼器是LAME,它完全遵循LGPL的MP3編碼器,有著良好的速度和音質(zhì)。2.1 MP3音頻格式MP3(MPEGAudioLayerDI)音頻格式誕生于20世紀(jì)80年代,是伴隨著MPEG”而開發(fā)的。在MPEG-1標(biāo)準(zhǔn)中,音頻壓縮標(biāo)準(zhǔn)按復(fù)雜性和壓縮質(zhì)量分為三個(gè)獨(dú)立層次:(l)MPEGAudioLayerI,它最為簡(jiǎn)單,碼流為每通道384kb/s,主要用于數(shù)字卡座(DigitalCompactCassette,DCC)。(2)MPEGAudioLayer

5、D,它具有中等復(fù)雜度,碼流為每通道192kb/s,主要用于數(shù)字音頻廣播、數(shù)字演播室和VCD等方面數(shù)字音頻的制作、交流、存儲(chǔ)和傳送。(3)MPEGAudioLayerHI,它最為復(fù)雜,是綜合了MPEGAudioLayerII和ASPEC優(yōu)點(diǎn)的一種血合壓縮技術(shù),其音頻質(zhì)量最好,主要用于MP3音凝壓縮,碼流為每通道64kb/s0MP3編碼雖不適用于實(shí)時(shí)傳送,但能在低編碼速率下提供較高的音質(zhì),所以成為網(wǎng)上音樂(lè)的寵兒。2.2 MP3壓縮編碼原理音頻壓縮由編碼和解碼兩個(gè)部分組成。把波形文件里的數(shù)字音頻數(shù)據(jù)轉(zhuǎn)換為高度壓縮的形式(稱為比特流)即為編碼;要解碼則把比特流重建為波形文件。在MPEG”的音頻壓縮中,

6、采樣頻率可為32kHz、44.1kHz和48kHz,可支持單聲道(Monophonic)、雙單聲道(DualNIonophonic)、立體聲模式(StereoMode)、聯(lián)合立體聲(JohitStereo)等。常見的MP3大多采用聯(lián)合立體聲模式。音頻壓縮可以分為無(wú)損(lossless)壓縮和有損壓縮。無(wú)損壓縮就是盡量降低音頻數(shù)據(jù)的冗余度,以減小其體積音頻信號(hào)經(jīng)過(guò)編碼和解碼之后,必須要和原來(lái)的信號(hào)一致。無(wú)損壓縮的壓縮率是比較有限的;有損壓縮就是用盡一切手段,包括無(wú)損壓縮用到的方法,丟掉一切能丟掉的數(shù)據(jù),以減小體積。而音頻壓縮后解碼聽起來(lái)起碼是要跟原來(lái)差不多的,有損壓縮的壓縮比能大幅提高,MP3就

7、是屬于有損壓縮,壓縮比是12:l(128kbps)0實(shí)驗(yàn)表明,人類能聽到的聲音頻率范圍(音頻)是20Hz20kHz,但人耳對(duì)整個(gè)音頻頻段聲音的反應(yīng)不是平直的,25kHz是人耳最靈敏的頻段。依其特性將整個(gè)音頻頻段分成多個(gè)臨界頻帶,因?yàn)槿祟惵犛X系統(tǒng)是依據(jù)頻率來(lái)分辨聲音能量的,任何頻率的細(xì)小聲音都會(huì)因掩蔽效應(yīng)而被臨界頻帶內(nèi)音量較高的聲音所覆蓋。MP3對(duì)其不作量化處理,從而去掉那些人類聽覺系統(tǒng)所無(wú)法察覺的聲音,達(dá)到壓縮的目的。MP3文件是由幀(frame)構(gòu)成的,幀是MP3文件最小的組成單位。什么是幀?還記得最初的動(dòng)畫是怎么做的嗎?不同的連續(xù)畫面切換以達(dá)到動(dòng)態(tài)效果,每幅畫面就是一個(gè)“幀”,不同的是MP

8、3里面的幀記錄的是音頻數(shù)據(jù)而不是圖形數(shù)據(jù)。MP3的幀速度大概是30幀/秒。每個(gè)幀又由幀頭和幀數(shù)據(jù)組成,幀頭記錄著該幀的基本信息,包括位率索引和采樣率索引(這對(duì)理解ABR和VBR編碼方式很重要)。幀數(shù)據(jù),顧名思義就是記錄著主體音頻數(shù)據(jù)。上面說(shuō)的都是MP3編碼的基礎(chǔ),但事實(shí)上,早期的編碼器都非常不完善,壓縮算法近于粗暴,音質(zhì)很不理想。MP3的音質(zhì)達(dá)到現(xiàn)在的水平有兩次飛躍:人體聽覺心理學(xué)模型(PerceptualModel)的導(dǎo)入和VBR技術(shù)的應(yīng)用。3、人體聽覺心理學(xué)模型下面將簡(jiǎn)要介紹一下幾個(gè)重要原理:3.1最小聽覺門檻判定(Theminimalauditionthreshold)人耳的聽力范圍是2

9、0Hz-20kHz的頻率范圍,但是人耳對(duì)不同的頻率聲音的靈敏度是不同的,不同頻率的聲音要達(dá)到能被人耳聽到的水平所需要的強(qiáng)度是不一樣。那么通過(guò)計(jì)算,可以把音樂(lè)文件中存在但不能被人耳聽到的聲音去掉。通過(guò)這原理,我們還可以建立模型,把大部分?jǐn)?shù)據(jù)空間分配到人耳最靈敏的2kHz到5kHz范圍,其余頻率分配比較少的空間;3. 2人耳的遮蔽效應(yīng)(TheMaskingeffect)蔽效應(yīng)表現(xiàn)在強(qiáng)信號(hào)會(huì)遮蔽鄰近頻率的弱信號(hào)。用生活經(jīng)驗(yàn)來(lái)說(shuō),在安靜的房間中,一根針掉到地上都能聽見,可到了大街上,就算手機(jī)音量調(diào)到最大,來(lái)電時(shí)也未必能聽見,而手機(jī)的聲音確確實(shí)實(shí)是存在的,原因就是被周圍更大的聲音遮蔽了。有了對(duì)遮蔽效應(yīng)的

10、研究成果,編碼器就能根據(jù)己建立的數(shù)學(xué)模型,計(jì)算強(qiáng)信號(hào)對(duì)附近弱信號(hào)的遮蔽,把能引起人們注意的聲音才保留。人耳還有前遮蔽效應(yīng)和后遮蔽效應(yīng):因?yàn)槿诵枰欢ǖ臅r(shí)間來(lái)處理聲音信號(hào),在強(qiáng)信號(hào)之前或之后的弱信號(hào),會(huì)被遮蔽掉。前遮蔽效應(yīng)的時(shí)間約只有2-5ms,而后遮蔽的時(shí)間比較長(zhǎng),大約有100ms。利用這,我們能減小強(qiáng)信號(hào)之前和之后的分辨率;3.3人耳的空間響應(yīng):人耳對(duì)某些高頻的聲音的空間感很差,辨別不了聲源的方向。聯(lián)合立體聲(JointStere。)應(yīng)運(yùn)而生:在某些頻率上采用“單聲道”(事實(shí)上并非真正意義上的單聲道),以減小流量。4、VBR技術(shù)正如上面所說(shuō),MP3是由幀構(gòu)成的,MP3能象動(dòng)畫那樣讀到哪放到哪

11、,播放器不必預(yù)讀整個(gè)文件的內(nèi)容,即使部分?jǐn)?shù)據(jù)損壞也不會(huì)對(duì)播放效果有太大影響(實(shí)際上這就是流媒體所具有的特性)。而每個(gè)幀的幀頭里都包含這該幀的碼率(bitrate,單位是kbps)等信息,所以,我們可以對(duì)每一段音樂(lè)甚至每一個(gè)幀定義獨(dú)立的碼率,這就是VBR(Variablebitrate,動(dòng)態(tài)碼率)技術(shù)。與VBR向?qū)?yīng)的是CBR(Constantbitrate)。一支交響曲,合奏大動(dòng)態(tài)部分的數(shù)據(jù)量顯然大于引子部分,如果用128kbps的CBR編碼方式來(lái)編碼,在引子部分可能有多余的數(shù)據(jù)流量,而在合奏部分卻又不夠,VBR就是解決這個(gè)問(wèn)題的。把在不影響音質(zhì)的情況下,對(duì)流量需求小的部分分配較小的碼率,把冗

12、余字節(jié)緩存起來(lái)留給有需要的部分,在短時(shí)間內(nèi)提供更高的碼率,以保證音樂(lè)的質(zhì)量。所以說(shuō),VBR的作用是更合理的分配流量,在不增大文件體積的條件下提高聲音的質(zhì)量。不過(guò)VBR在應(yīng)用初期帶給過(guò)MP3隨生聽不少麻煩。因?yàn)樵缙诖蠖鄶?shù)MP3播放器都是針對(duì)CBR設(shè)計(jì)的,其根據(jù)文件大小來(lái)獲得時(shí)長(zhǎng)的算法對(duì)VBR失效了,因?yàn)閂BRMP3的bitrate可能每時(shí)每刻都在變化。不過(guò)現(xiàn)在這個(gè)問(wèn)題基本上不用擔(dān)心了,市場(chǎng)上的播放器基本上都解決這問(wèn)題了。除了上面說(shuō)的兩方面,MP3編碼還有很重要的一招:Huffman編碼(Huffman是個(gè)科學(xué)家的名字),Huffman編碼廣泛應(yīng)用于無(wú)損壓縮領(lǐng)域,比如我們常用的WINZIP,WIN

13、RAR等壓縮軟件就是以此為基礎(chǔ)的(只能說(shuō)是基礎(chǔ),因?yàn)檫@些用到的編碼方法不只是Huffman編碼Huffman編碼用途就是降低數(shù)據(jù)的冗余度,可節(jié)省大約20%的空間。用WINZIP來(lái)再壓縮MP3文件每什么效果就因?yàn)镸P3編碼的時(shí)候已經(jīng)應(yīng)用到采用Huffman編碼。5、編碼器工作原理5.1 濾波器段(filterbank)數(shù)字音頻信號(hào)以脈沖的形式送進(jìn)編碼器,首先會(huì)經(jīng)過(guò)一濾波器段(filterbank),它由兩個(gè)串聯(lián)的濾波器段組成:一個(gè)多相分析濾波器段和一個(gè)MDCT(ModifiedDiscreteCosineTransform,經(jīng)改良的離散余弦轉(zhuǎn)換),前者也應(yīng)用到layer-1和layer-2中,后

14、者是MP3獨(dú)有的。輸入的音頻信號(hào)在20Hz-20kHz的頻率范圍內(nèi),通過(guò)第一個(gè)濾波器段后,把信號(hào)按頻率分成32個(gè)小頻帶,稱為子帶(Subband)。20000Hz/32=625Hz,那么每個(gè)子帶的寬度就是625Hz。人耳對(duì)不同頻段的靈敏度是不同的,編碼器可對(duì)不同的子帶進(jìn)行不同的量化分層。不過(guò)等寬的子帶并沒(méi)有準(zhǔn)確反映人耳的聽覺特性,這樣進(jìn)行等寬劃分并沒(méi)有考慮到不同信號(hào)的臨界寬度,也就是該信號(hào)的影響范圍,以及不同信號(hào)的相互影響,所以這樣會(huì)產(chǎn)生大量的信號(hào)重疊。MDCT轉(zhuǎn)換就是為了解決這問(wèn)題,它能對(duì)子帶進(jìn)行細(xì)分,清楚重疊部分,得到更高的頻譜解析度。5. 2人體聽覺心理學(xué)模型(PerceptualMod

15、el)上面已經(jīng)談到過(guò)人體聽覺心理學(xué)模型,心理學(xué)模型可以說(shuō)是感受編碼的重中之中,它決定著編碼器的編碼質(zhì)量(后面談到的LAME就擁有著大量?jī)?yōu)秀的人體精神聽覺模型和數(shù)學(xué)模型)。下面將深入分析兩個(gè)重要原理:最小聽覺門檻判定和遮蔽效應(yīng)。最小聽覺門檻判定聲音其實(shí)是傳播在介質(zhì)中的能量波,人耳對(duì)聲音能量強(qiáng)弱的直接感受就是聽到音量的大小,也就是響度,單位是分貝(dB)。下面是人耳可聽最小響度曲線:響族dB11310D9080706953403029100a。%4二,1.n/*.9ij0.020Q4C.10.20,412461020頻率(kHz)OdB是聽覺靈敏度的極限,而120dB是痛苦靈敏度的極限。人耳在20

16、00Hz到5000Hz范圍內(nèi)的靈敏度最高,兩端就迅速下降。所以人耳對(duì)中頻的靈敏度遠(yuǎn)高于高低頻。遮蔽效應(yīng)不同頻率的聲音有不同的遮蔽寬度,這叫臨界寬度??梢韵胂螅跣盘?hào)越接近強(qiáng)信號(hào)的中心,遮蔽效應(yīng)會(huì)越嚴(yán)重。臨界寬度跟聲音頻率成正比。下面是臨界寬度列表:頻率(Hz)臨界帶寬(Hz)頻率(Hz)臨界帶寬(Hz)5080185028015010021503203501002500380450110340055057012040007007001404800900840150580011001000160700013001170190850018001370210105002500160024013500

17、3500感受編碼機(jī)制可以分為兩個(gè)部分:知覺噪音成型(perceptualnoiseshaping)和知覺邊帶/變換編碼(perceptualsubband/transformcoding)o編碼器通過(guò)分析濾波器段(filterbank)分析音頻信號(hào)的頻譜組成并應(yīng)用聽覺心理學(xué)模型來(lái)估計(jì)僅僅可以注意得到的噪音電平。在后面的量化和編碼階段,編碼器會(huì)提高強(qiáng)信號(hào)附近的噪音電平,也就是減少量化位數(shù),這樣就能達(dá)到節(jié)省流量,壓縮數(shù)據(jù)的目的。如果所有量化噪音都能控制在屏蔽臨界曲線以下,那么處理后人耳就區(qū)別不出哪個(gè)才是原音。5. 3量化和編碼(QuantizationandCoding)當(dāng)PCM訊號(hào)被分成好幾個(gè)頻

18、段并經(jīng)過(guò)一系列的處理后,最后經(jīng)過(guò)MDCT,將波型轉(zhuǎn)換為一連串的系數(shù)。這些系數(shù)就由Huffman編碼器會(huì)選擇最合適的Huffman表來(lái)做最后的壓縮。Huffman編碼一般是雙路工作的,但是在某些需要精密編碼的情況下,它會(huì)進(jìn)行四路工作。編碼器一般會(huì)有很多的Huffman編碼表,很多時(shí)候?yàn)榱烁玫穆曇糍|(zhì)量和更有效屏蔽量化噪音,編碼器甚至能為每一個(gè)頻段選擇最合適的Huffman編碼表。不過(guò)編碼不是一次就能成功的,要采取TryandError的方式循環(huán)進(jìn)行。因?yàn)榫幋a器一方面要削減量化噪音,讓它在人耳遮蔽曲線以下;另一方面要保證bitrate滿足要求。實(shí)際上這里就是要確定兩個(gè)數(shù)值:一個(gè)是確定bitrate

19、的步進(jìn)值(gainvalue),另一個(gè)是削減量化噪音的增益因子(ScaleFactor),這兩個(gè)系數(shù)會(huì)在正式編碼之前確定下來(lái),確定過(guò)程由兩個(gè)嵌套的迭代回路完成:失真控制回路(DistortionControlLoop)和量化速率控制回路(NonuniformQuantizationRateControlLoop)內(nèi)部迭代回路(RateLoop)量化以后的數(shù)據(jù)送進(jìn)Huffman編碼器,當(dāng)發(fā)現(xiàn)比特?cái)?shù)大于可用流量時(shí),編碼器會(huì)返回信息,讓RateLoop調(diào)整步進(jìn)值以增大量化步長(zhǎng),從而讓數(shù)據(jù)流量減小。循環(huán)會(huì)一直進(jìn)行,嘗試不同的量化步長(zhǎng),直到Huffman編碼以后的數(shù)據(jù)流量足夠小。因?yàn)檫@個(gè)回路是用來(lái)控制碼率的,所以叫做RateLoopo外部迭代回路(noisecontrolloop)顯然,這個(gè)回路的作用就是控制量化噪音(quantizationnoise),讓其保持在聽覺心理學(xué)提供的屏蔽臨界線(maskingthreshold)以下。每一個(gè)頻段都會(huì)有

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論