語(yǔ)音與音頻編碼論文

上傳人：新*** IP屬地：河北上傳時(shí)間：2022-01-06 格式：DOCX 頁(yè)數(shù)：12 大小：117.61KB 積分：12 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩7頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、語(yǔ)音與音頻編碼論文Huaqiaouniversity語(yǔ)音鳥音頻編鳴錦程曲題目：MP3編碼原理與實(shí)現(xiàn)院（系）信息科學(xué)與工程學(xué)院班級(jí)11級(jí)通信工程2班學(xué)號(hào)1115107007姓名指導(dǎo)老師目錄MP3編碼原理與實(shí)現(xiàn)錯(cuò)誤!未定義書簽。1、摘要32、MP3簡(jiǎn)介32.1MP3音頻格式32.2MP3壓縮編碼原理43、人體聽覺心理學(xué)模型53.1 最小聽覺門檻判定53.2 人耳的遮蔽效應(yīng)53.3 人耳的空間響應(yīng)54、VBR技術(shù)65、編碼器工作原理65.1 濾波器段65.2 人體聽覺心理模型75.3 量化與編碼86、總結(jié)與心得97、參考文獻(xiàn)101、摘要：在目前的信息社會(huì)，需要應(yīng)用和傳輸大量的語(yǔ)音信息，這些信息中存在

2、著大量的冗余，如果不去除掉這些冗余，在其傳輸和存儲(chǔ)的過(guò)程中，將會(huì)占用大量的資源，因此，語(yǔ)音壓縮技術(shù)受到了人們的普遍關(guān)注。在此基礎(chǔ)上，對(duì)MP3編碼器的基本原理和基本結(jié)構(gòu)進(jìn)行了研究，并對(duì)其中幾個(gè)關(guān)鍵模塊包括心理聲學(xué)模型,VBR技術(shù)等進(jìn)行了分析,結(jié)果表明MP3要具有良好的編碼質(zhì)量,需要對(duì)其算法進(jìn)行改進(jìn)和優(yōu)化。關(guān)鍵詞：MP3編碼器、音頻、算法2、MP3簡(jiǎn)介MP3是今天一種常見的音樂(lè)格式，但恐怕除了工作要求之外，有興趣對(duì)此進(jìn)行研究的人恐怕不多。所以，當(dāng)我打算寫MP3編碼方面的論文時(shí)，在找資料時(shí)也頗費(fèi)了一番周折，同時(shí)也覺得很有趣。MP3是MPEG-1AudioLayer3的簡(jiǎn)稱,是當(dāng)今比較流行的一種數(shù)字音

3、頻編碼和有損壓縮格式（有Layer3,也必然有Layerl和Layer2,也就是MP1和MP2,但不在本文討論范圍之內(nèi)）。MP3技術(shù)的應(yīng)該可以用來(lái)大幅度的降低音頻文件存儲(chǔ)所需要的空間。它丟掉脈沖編碼調(diào)制（PCM）音頻數(shù)據(jù)中對(duì)人類聽覺不重要得數(shù)據(jù)，從而達(dá)到了較高的壓縮比（高達(dá)12：1-10：l）o簡(jiǎn)單地說(shuō)，MP3在編碼時(shí)先對(duì)音頻文件進(jìn)行頻譜分析，然后用過(guò)濾器濾掉噪音電平，接著通過(guò)量化的方式將剩下的每一位打散排列，最后形成有較高壓縮比的MP3文件,并使壓縮后的文件在回放時(shí)也能夠達(dá)到比較接近原音源的效果。MP3的音頻質(zhì)量取決于它的Bitrate和Samplingfrequency,以及編碼器質(zhì)量。M

4、P3的典型速度介于每秒128到320kb之間。采樣頻率也有44.1,48和32kHz三種頻率，比較常見的是采用CD采樣頻率一44.1kHz。常用的編碼器是LAME,它完全遵循LGPL的MP3編碼器，有著良好的速度和音質(zhì)。2.1 MP3音頻格式MP3(MPEGAudioLayerDI)音頻格式誕生于20世紀(jì)80年代，是伴隨著MPEG”而開發(fā)的。在MPEG-1標(biāo)準(zhǔn)中，音頻壓縮標(biāo)準(zhǔn)按復(fù)雜性和壓縮質(zhì)量分為三個(gè)獨(dú)立層次：(l)MPEGAudioLayerI,它最為簡(jiǎn)單，碼流為每通道384kb/s,主要用于數(shù)字卡座(DigitalCompactCassette,DCC)。(2)MPEGAudioLayer

5、D,它具有中等復(fù)雜度，碼流為每通道192kb/s,主要用于數(shù)字音頻廣播、數(shù)字演播室和VCD等方面數(shù)字音頻的制作、交流、存儲(chǔ)和傳送。(3)MPEGAudioLayerHI,它最為復(fù)雜，是綜合了MPEGAudioLayerII和ASPEC優(yōu)點(diǎn)的一種血合壓縮技術(shù)，其音頻質(zhì)量最好，主要用于MP3音凝壓縮,碼流為每通道64kb/s0MP3編碼雖不適用于實(shí)時(shí)傳送，但能在低編碼速率下提供較高的音質(zhì)，所以成為網(wǎng)上音樂(lè)的寵兒。2.2 MP3壓縮編碼原理音頻壓縮由編碼和解碼兩個(gè)部分組成。把波形文件里的數(shù)字音頻數(shù)據(jù)轉(zhuǎn)換為高度壓縮的形式(稱為比特流)即為編碼；要解碼則把比特流重建為波形文件。在MPEG”的音頻壓縮中，

6、采樣頻率可為32kHz、44.1kHz和48kHz,可支持單聲道(Monophonic)、雙單聲道(DualNIonophonic)、立體聲模式(StereoMode)、聯(lián)合立體聲(JohitStereo)等。常見的MP3大多采用聯(lián)合立體聲模式。音頻壓縮可以分為無(wú)損(lossless)壓縮和有損壓縮。無(wú)損壓縮就是盡量降低音頻數(shù)據(jù)的冗余度，以減小其體積音頻信號(hào)經(jīng)過(guò)編碼和解碼之后，必須要和原來(lái)的信號(hào)一致。無(wú)損壓縮的壓縮率是比較有限的；有損壓縮就是用盡一切手段,包括無(wú)損壓縮用到的方法，丟掉一切能丟掉的數(shù)據(jù)，以減小體積。而音頻壓縮后解碼聽起來(lái)起碼是要跟原來(lái)差不多的，有損壓縮的壓縮比能大幅提高，MP3就

7、是屬于有損壓縮，壓縮比是12:l(128kbps)0實(shí)驗(yàn)表明，人類能聽到的聲音頻率范圍(音頻)是20Hz20kHz,但人耳對(duì)整個(gè)音頻頻段聲音的反應(yīng)不是平直的，25kHz是人耳最靈敏的頻段。依其特性將整個(gè)音頻頻段分成多個(gè)臨界頻帶，因?yàn)槿祟惵犛X系統(tǒng)是依據(jù)頻率來(lái)分辨聲音能量的，任何頻率的細(xì)小聲音都會(huì)因掩蔽效應(yīng)而被臨界頻帶內(nèi)音量較高的聲音所覆蓋。MP3對(duì)其不作量化處理，從而去掉那些人類聽覺系統(tǒng)所無(wú)法察覺的聲音，達(dá)到壓縮的目的。MP3文件是由幀(frame)構(gòu)成的，幀是MP3文件最小的組成單位。什么是幀?還記得最初的動(dòng)畫是怎么做的嗎?不同的連續(xù)畫面切換以達(dá)到動(dòng)態(tài)效果，每幅畫面就是一個(gè)“幀”，不同的是MP

8、3里面的幀記錄的是音頻數(shù)據(jù)而不是圖形數(shù)據(jù)。MP3的幀速度大概是30幀/秒。每個(gè)幀又由幀頭和幀數(shù)據(jù)組成，幀頭記錄著該幀的基本信息，包括位率索引和采樣率索引(這對(duì)理解ABR和VBR編碼方式很重要)。幀數(shù)據(jù)，顧名思義就是記錄著主體音頻數(shù)據(jù)。上面說(shuō)的都是MP3編碼的基礎(chǔ)，但事實(shí)上，早期的編碼器都非常不完善，壓縮算法近于粗暴，音質(zhì)很不理想。MP3的音質(zhì)達(dá)到現(xiàn)在的水平有兩次飛躍:人體聽覺心理學(xué)模型(PerceptualModel)的導(dǎo)入和VBR技術(shù)的應(yīng)用。3、人體聽覺心理學(xué)模型下面將簡(jiǎn)要介紹一下幾個(gè)重要原理：3.1最小聽覺門檻判定(Theminimalauditionthreshold)人耳的聽力范圍是2

9、0Hz-20kHz的頻率范圍，但是人耳對(duì)不同的頻率聲音的靈敏度是不同的，不同頻率的聲音要達(dá)到能被人耳聽到的水平所需要的強(qiáng)度是不一樣。那么通過(guò)計(jì)算，可以把音樂(lè)文件中存在但不能被人耳聽到的聲音去掉。通過(guò)這原理，我們還可以建立模型，把大部分?jǐn)?shù)據(jù)空間分配到人耳最靈敏的2kHz到5kHz范圍，其余頻率分配比較少的空間；3. 2人耳的遮蔽效應(yīng)(TheMaskingeffect)蔽效應(yīng)表現(xiàn)在強(qiáng)信號(hào)會(huì)遮蔽鄰近頻率的弱信號(hào)。用生活經(jīng)驗(yàn)來(lái)說(shuō)，在安靜的房間中，一根針掉到地上都能聽見，可到了大街上，就算手機(jī)音量調(diào)到最大,來(lái)電時(shí)也未必能聽見，而手機(jī)的聲音確確實(shí)實(shí)是存在的，原因就是被周圍更大的聲音遮蔽了。有了對(duì)遮蔽效應(yīng)的

10、研究成果，編碼器就能根據(jù)己建立的數(shù)學(xué)模型，計(jì)算強(qiáng)信號(hào)對(duì)附近弱信號(hào)的遮蔽，把能引起人們注意的聲音才保留。人耳還有前遮蔽效應(yīng)和后遮蔽效應(yīng):因?yàn)槿诵枰欢ǖ臅r(shí)間來(lái)處理聲音信號(hào)，在強(qiáng)信號(hào)之前或之后的弱信號(hào)，會(huì)被遮蔽掉。前遮蔽效應(yīng)的時(shí)間約只有2-5ms,而后遮蔽的時(shí)間比較長(zhǎng)，大約有100ms。利用這，我們能減小強(qiáng)信號(hào)之前和之后的分辨率；3.3人耳的空間響應(yīng)：人耳對(duì)某些高頻的聲音的空間感很差，辨別不了聲源的方向。聯(lián)合立體聲(JointStere。)應(yīng)運(yùn)而生:在某些頻率上采用“單聲道”(事實(shí)上并非真正意義上的單聲道)，以減小流量。4、VBR技術(shù)正如上面所說(shuō)，MP3是由幀構(gòu)成的，MP3能象動(dòng)畫那樣讀到哪放到哪

11、，播放器不必預(yù)讀整個(gè)文件的內(nèi)容，即使部分?jǐn)?shù)據(jù)損壞也不會(huì)對(duì)播放效果有太大影響（實(shí)際上這就是流媒體所具有的特性）。而每個(gè)幀的幀頭里都包含這該幀的碼率（bitrate,單位是kbps）等信息，所以，我們可以對(duì)每一段音樂(lè)甚至每一個(gè)幀定義獨(dú)立的碼率，這就是VBR（Variablebitrate,動(dòng)態(tài)碼率）技術(shù)。與VBR向?qū)?yīng)的是CBR（Constantbitrate）。一支交響曲，合奏大動(dòng)態(tài)部分的數(shù)據(jù)量顯然大于引子部分，如果用128kbps的CBR編碼方式來(lái)編碼，在引子部分可能有多余的數(shù)據(jù)流量,而在合奏部分卻又不夠,VBR就是解決這個(gè)問(wèn)題的。把在不影響音質(zhì)的情況下，對(duì)流量需求小的部分分配較小的碼率，把冗

12、余字節(jié)緩存起來(lái)留給有需要的部分，在短時(shí)間內(nèi)提供更高的碼率，以保證音樂(lè)的質(zhì)量。所以說(shuō)，VBR的作用是更合理的分配流量，在不增大文件體積的條件下提高聲音的質(zhì)量。不過(guò)VBR在應(yīng)用初期帶給過(guò)MP3隨生聽不少麻煩。因?yàn)樵缙诖蠖鄶?shù)MP3播放器都是針對(duì)CBR設(shè)計(jì)的，其根據(jù)文件大小來(lái)獲得時(shí)長(zhǎng)的算法對(duì)VBR失效了，因?yàn)閂BRMP3的bitrate可能每時(shí)每刻都在變化。不過(guò)現(xiàn)在這個(gè)問(wèn)題基本上不用擔(dān)心了，市場(chǎng)上的播放器基本上都解決這問(wèn)題了。除了上面說(shuō)的兩方面，MP3編碼還有很重要的一招:Huffman編碼（Huffman是個(gè)科學(xué)家的名字），Huffman編碼廣泛應(yīng)用于無(wú)損壓縮領(lǐng)域，比如我們常用的WINZIP,WIN

13、RAR等壓縮軟件就是以此為基礎(chǔ)的（只能說(shuō)是基礎(chǔ)，因?yàn)檫@些用到的編碼方法不只是Huffman編碼Huffman編碼用途就是降低數(shù)據(jù)的冗余度，可節(jié)省大約20%的空間。用WINZIP來(lái)再壓縮MP3文件每什么效果就因?yàn)镸P3編碼的時(shí)候已經(jīng)應(yīng)用到采用Huffman編碼。5、編碼器工作原理5.1 濾波器段(filterbank)數(shù)字音頻信號(hào)以脈沖的形式送進(jìn)編碼器，首先會(huì)經(jīng)過(guò)一濾波器段(filterbank),它由兩個(gè)串聯(lián)的濾波器段組成:一個(gè)多相分析濾波器段和一個(gè)MDCT(ModifiedDiscreteCosineTransform,經(jīng)改良的離散余弦轉(zhuǎn)換)，前者也應(yīng)用到layer-1和layer-2中，后

14、者是MP3獨(dú)有的。輸入的音頻信號(hào)在20Hz-20kHz的頻率范圍內(nèi)，通過(guò)第一個(gè)濾波器段后，把信號(hào)按頻率分成32個(gè)小頻帶，稱為子帶(Subband)。20000Hz/32=625Hz,那么每個(gè)子帶的寬度就是625Hz。人耳對(duì)不同頻段的靈敏度是不同的，編碼器可對(duì)不同的子帶進(jìn)行不同的量化分層。不過(guò)等寬的子帶并沒(méi)有準(zhǔn)確反映人耳的聽覺特性，這樣進(jìn)行等寬劃分并沒(méi)有考慮到不同信號(hào)的臨界寬度，也就是該信號(hào)的影響范圍，以及不同信號(hào)的相互影響，所以這樣會(huì)產(chǎn)生大量的信號(hào)重疊。MDCT轉(zhuǎn)換就是為了解決這問(wèn)題，它能對(duì)子帶進(jìn)行細(xì)分，清楚重疊部分，得到更高的頻譜解析度。5. 2人體聽覺心理學(xué)模型(PerceptualMod

15、el)上面已經(jīng)談到過(guò)人體聽覺心理學(xué)模型，心理學(xué)模型可以說(shuō)是感受編碼的重中之中，它決定著編碼器的編碼質(zhì)量(后面談到的LAME就擁有著大量?jī)?yōu)秀的人體精神聽覺模型和數(shù)學(xué)模型)。下面將深入分析兩個(gè)重要原理：最小聽覺門檻判定和遮蔽效應(yīng)。最小聽覺門檻判定聲音其實(shí)是傳播在介質(zhì)中的能量波，人耳對(duì)聲音能量強(qiáng)弱的直接感受就是聽到音量的大小，也就是響度，單位是分貝(dB)。下面是人耳可聽最小響度曲線：響族dB11310D9080706953403029100a。%4二,1.n/*.9ij0.020Q4C.10.20,412461020頻率(kHz)OdB是聽覺靈敏度的極限，而120dB是痛苦靈敏度的極限。人耳在20

16、00Hz到5000Hz范圍內(nèi)的靈敏度最高，兩端就迅速下降。所以人耳對(duì)中頻的靈敏度遠(yuǎn)高于高低頻。遮蔽效應(yīng)不同頻率的聲音有不同的遮蔽寬度，這叫臨界寬度?？梢韵胂螅跣盘?hào)越接近強(qiáng)信號(hào)的中心，遮蔽效應(yīng)會(huì)越嚴(yán)重。臨界寬度跟聲音頻率成正比。下面是臨界寬度列表：頻率(Hz)臨界帶寬(Hz)頻率(Hz)臨界帶寬(Hz)5080185028015010021503203501002500380450110340055057012040007007001404800900840150580011001000160700013001170190850018001370210105002500160024013500

17、3500感受編碼機(jī)制可以分為兩個(gè)部分:知覺噪音成型(perceptualnoiseshaping)和知覺邊帶/變換編碼(perceptualsubband/transformcoding)o編碼器通過(guò)分析濾波器段(filterbank)分析音頻信號(hào)的頻譜組成并應(yīng)用聽覺心理學(xué)模型來(lái)估計(jì)僅僅可以注意得到的噪音電平。在后面的量化和編碼階段，編碼器會(huì)提高強(qiáng)信號(hào)附近的噪音電平，也就是減少量化位數(shù)，這樣就能達(dá)到節(jié)省流量，壓縮數(shù)據(jù)的目的。如果所有量化噪音都能控制在屏蔽臨界曲線以下，那么處理后人耳就區(qū)別不出哪個(gè)才是原音。5. 3量化和編碼(QuantizationandCoding)當(dāng)PCM訊號(hào)被分成好幾個(gè)頻

18、段并經(jīng)過(guò)一系列的處理后，最后經(jīng)過(guò)MDCT,將波型轉(zhuǎn)換為一連串的系數(shù)。這些系數(shù)就由Huffman編碼器會(huì)選擇最合適的Huffman表來(lái)做最后的壓縮。Huffman編碼一般是雙路工作的，但是在某些需要精密編碼的情況下，它會(huì)進(jìn)行四路工作。編碼器一般會(huì)有很多的Huffman編碼表，很多時(shí)候?yàn)榱烁玫穆曇糍|(zhì)量和更有效屏蔽量化噪音，編碼器甚至能為每一個(gè)頻段選擇最合適的Huffman編碼表。不過(guò)編碼不是一次就能成功的，要采取TryandError的方式循環(huán)進(jìn)行。因?yàn)榫幋a器一方面要削減量化噪音，讓它在人耳遮蔽曲線以下；另一方面要保證bitrate滿足要求。實(shí)際上這里就是要確定兩個(gè)數(shù)值:一個(gè)是確定bitrate

19、的步進(jìn)值(gainvalue),另一個(gè)是削減量化噪音的增益因子(ScaleFactor),這兩個(gè)系數(shù)會(huì)在正式編碼之前確定下來(lái)，確定過(guò)程由兩個(gè)嵌套的迭代回路完成:失真控制回路(DistortionControlLoop)和量化速率控制回路(NonuniformQuantizationRateControlLoop)內(nèi)部迭代回路(RateLoop)量化以后的數(shù)據(jù)送進(jìn)Huffman編碼器，當(dāng)發(fā)現(xiàn)比特?cái)?shù)大于可用流量時(shí)，編碼器會(huì)返回信息，讓RateLoop調(diào)整步進(jìn)值以增大量化步長(zhǎng)，從而讓數(shù)據(jù)流量減小。循環(huán)會(huì)一直進(jìn)行，嘗試不同的量化步長(zhǎng)，直到Huffman編碼以后的數(shù)據(jù)流量足夠小。因?yàn)檫@個(gè)回路是用來(lái)控制碼率的，所以叫做RateLoopo外部迭代回路(noisecontrolloop)顯然，這個(gè)回路的作用就是控制量化噪音(quantizationnoise),讓其保持在聽覺心理學(xué)提供的屏蔽臨界線(maskingthreshold)以下。每一個(gè)頻段都會(huì)有

人人文庫(kù)> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

語(yǔ)音與音頻編碼論文

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

語(yǔ)音與音頻編碼論文

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔