多媒體音頻處理技術

上傳人：2*** IP屬地：湖北上傳時間：2023-02-05 格式：PPT 頁數(shù)：56 大?。?10.50KB 積分：30 舉報 版權申訴

已閱讀5頁，還剩51頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

Chap2多媒體音頻處理技術聲音信息的處理

聲音的處理：壓縮和編碼聲音的表示與存儲聲音的采集：波形聲音數(shù)字化電子樂器（MIDI）話音（語音識別）Chap2多媒體音頻處理技術本章內(nèi)容：2.1聲音信號概述2.2聲音信號數(shù)字化2.3聲音文件的存儲格式2.4聲音處理軟件2.5聲音質(zhì)量的度量2.6MIDI系統(tǒng)2.7語音處理技術2.1聲音信號概述什么是聲音？

——聲音是通過空氣傳播的一種連續(xù)的波。

聲音是攜帶信息的極其重要的媒體，是多媒體技術研究中的一個重要內(nèi)容。單一頻率的聲波可用一條正弦波表示，如下圖所示。振幅周期基線振幅——表示聲音信號的強弱程度。頻率——指聲音信號每秒鐘變化的次數(shù)，用Hz表示。亞音信號（次聲帶）：小于20Hz

音頻信號：20~20KHz

超聲波信號（超聲帶）：大于20KHz

頻率反映出聲音的音調(diào)，聲音細尖表示頻率高，聲音粗低表示頻率低。想想按住單放機的快鍵，會有什么聲音？聲音的聽覺特性聲音的三要素。音調(diào)表示聲音的高低，取決于聲音的頻率。音色即特色的聲音，指聲音的感覺特性。聲音分純音和復音，復音包括基音和泛音。音色由基音與泛音的比例、泛音的分布、泛音隨時間的衰減變化決定。音強聲音的強度，取決于聲音的振幅。即“音量”。樂音以小提琴為例，當A弦振動時，

基音：整根弦的振動產(chǎn)生了最主要的頻率；泛音：弦長的二分之一、三分之一、四分之一等處的振動則產(chǎn)生了一些次要的頻率。

樂音：如果一個物體振動所發(fā)出的泛音為基音的整數(shù)倍，這個音就會具有清晰可辨的音調(diào)，我們稱之為樂音；噪音：如果泛音是基音的非整數(shù)倍，這個音就不具備清晰可辨的音調(diào)，我們稱之為噪音。

2.2聲音信號數(shù)字化聲音信號數(shù)字化的過程模擬信號數(shù)字信號采樣量化編碼采樣：在某些特定時刻對模擬信號進行測量，即使音頻信號在時間軸上離散化。量化：對采樣后的離散音頻信號幅值樣本進行離散化處理，即將每一個樣本歸入預先編排的量化級上。編碼：對量化級以二進制數(shù)碼按一定數(shù)據(jù)格式表示的過程。聲音的采樣和量化

01010100001100100001000010011010101111001101影響數(shù)字音頻質(zhì)量的技術參數(shù)

對模擬音頻信號進行采樣量化編碼后，得到數(shù)字音頻。數(shù)字音頻的質(zhì)量取決于采樣頻率、量化位數(shù)和聲道數(shù)三個因素。1）采用頻率

——指一秒鐘時間內(nèi)采樣的次數(shù)。

奈奎斯特理論（Nyquisttheory）：采樣頻率不應低于聲音信號的最高頻率的兩倍，這樣就能把以數(shù)字表達的聲音還原成原來的聲音，叫做無損數(shù)字化。采樣頻率通常采用三種：

11.025KHz(語音效果)、

22.05KHz(音樂效果)、

44.1KHz(高保真效果)。常見的CD唱盤的采樣頻率即為44.1KHz。2）量化精度——描述每個采樣點樣本值的二進制位數(shù)。例如，8位量化位數(shù)表示量化精度為1/256。３）聲道數(shù)——聲音通道的個數(shù)稱為聲道數(shù)，是指一次采樣所記錄產(chǎn)生的聲音波形個數(shù)。單聲道：記錄聲音時，每次生成一個聲波數(shù)據(jù)；雙聲道（立體聲）：每次生成兩個聲波數(shù)據(jù)。

隨著聲道數(shù)的增加，所占用的存儲容量也成倍增加。數(shù)字音頻文件的存儲量

以字節(jié)為單位，模擬波形聲音被數(shù)字化后音頻文件的存儲量(假定未經(jīng)壓縮)為：

存儲量=采樣頻率×量化位數(shù)/8×聲道數(shù)×時間

例如，用44.1KHz的采樣頻率進行采樣，量化位數(shù)選用16位，則錄制1秒的立體聲節(jié)目，其波形文件所需的存儲量為：

44100×16／8×2×1=176400(字節(jié))聲音質(zhì)量和數(shù)據(jù)率

說明：*電話使用μ

律編碼，動態(tài)范圍為13位，而不是8位。質(zhì)量采樣頻率/kHz樣本精度/b/s單道聲/立體聲數(shù)據(jù)率（未壓縮）/kb/s頻率范圍/Hz電話*AMFMCDDAT811.02522.05044道聲單道聲立體聲立體聲立體聲64.088.2705.61411.21536.0200~340050~700020~1500020~2000020~200002.3聲音文件的存儲格式

1.WAV文件3.MP3文件2.MIDI4.WMA文件WAV文件波形音頻文件：

-文件的擴展名是“.WAV”

；

-它記錄了采樣數(shù)據(jù)，可重現(xiàn)各種聲音，但文件很大；

-壓縮方法：主要有PCM和APCM等；

-特點：易于生成和編輯，壓縮比不高。

-還原質(zhì)量：人的講話聲：8位量化級、11.025KHz采樣率

CD音質(zhì)：16位量化級、44.1KHz的采樣率MIDIMIDI文件：

-擴展名為“.MID”；

-記錄的不是聲音本身，而是將每個音符記錄為一個數(shù)字，

-節(jié)省空間，可以滿足長時間音樂的需要。

-主要限制是缺乏重現(xiàn)真實自然的能力。采用波表法進行音樂合成的聲音卡可以使MIDI音樂的質(zhì)量大大提高。CDAudio，擴展名CDA：

唱片采用的格式，音質(zhì)非常好，記錄的是波形流，但缺點是無法編輯，文件長度太大。MPEG-3，擴展名MP3：

非常流行，因其壓縮率大（10:1~12:1），在網(wǎng)絡可視電話通信方面應用廣泛，但和CD唱片相比，音質(zhì)不能令人非常滿意。

WMA(WindowsMedia

Audio)

文件:

是微軟力推的一種音頻格式。WMA格式壓縮率一般可以達到18:1，生成的文件大小只有相應MP3文件的一半，但音質(zhì)不減。RealAudio文件，擴展名RA:

RealNetworks公司的“流式播放”聲音文件格式，強大的壓縮量(可達96:1)和極小的失真，主要適用于在網(wǎng)絡上的在線音樂欣賞。常見的聲音文件擴展名

文件的擴展名說明au

Sun和NeXT公司的聲音文件存儲格式aif(AudioInterchange) Apple計算機上的聲音文件存儲格式cmf(CreativeMusicFormat) 聲霸（SB）卡帶的MIDI文件存儲格式mct MIDI文件存儲格式mff(MIDIFileFormat) MIDI文件存儲格式1/2mid(MIDI) Windows的MIDI文件存儲格式mp2 MPEGLayerⅠ，Ⅱmp3 MPEGLayerⅢmod(Module) MIDI文件的存儲格式rm(RealMedia) RealNetworks公司的流放式聲音文件格式ra(RealAudio) RealNetworks公司的流放式聲音文件格式續(xù)：常見的聲音文件擴展名

rol Adlib聲音卡文件存儲格式snd(sound) Apple計算機上的聲音文件存儲格式seq MIDI文件存儲格式sng MIDI文件存儲格式voc(CreativeVoice) 聲霸卡存儲的聲音文件存儲格式wav(Waveform)* Windows采用的波形聲音文件存儲格式wrk CakewalkPro軟件采用的MIDI文件存儲格式說明：*支持PCM，ADPCM，μ率和A率波形2.4聲音處理軟件聲音處理軟件：即聲音工具，是用來錄放、編輯和分析聲音文件的。常見的聲音工具有：１、Window95/98/ＸＰ本身帶的“SoundRecorder”２、買聲卡時帶的工具

3、網(wǎng)絡上下載的工具2.5聲音質(zhì)量的度量評價聲音質(zhì)量的主觀方法：平均判分法（MOS），召集若干實驗者，由他們對聲音質(zhì)量的好壞進行評分，求出平均值作為對聲音質(zhì)量的評價，所得分數(shù)為MOS。分數(shù)質(zhì)量級別失真級別5優(yōu)無察覺

4良（剛）察覺但不討厭

3中（察覺）有點討厭

2差討厭但不反感

1劣極討厭（令人反感）客觀方法:信噪比（ＳＮＲ）

SNR=1）SNR大，在一定程度上能夠隱蔽噪聲，從而獲得較好的聲音效果；2）在聲音的錄制和播放時，要注意環(huán)境噪聲的影響。2.6電子樂器數(shù)字接口（MIDI）系統(tǒng)電子樂器數(shù)字接口（musicalinstrumentdigitalinterface,MIDI）

——是用于在音樂合成器、電子樂器、音序器和計算機之間交換音樂信息的一種標準協(xié)議。從80年代初問世至今，MIDI經(jīng)歷了長時間的發(fā)展，現(xiàn)已成為電腦音樂的代名詞。MIDI文件的特點(1).指令集合，文件小。(2).編輯靈活，在音序器的幫助下，用戶可自由地改變音調(diào)、音色以及樂曲速度等，以達到需要的效果。(3).表現(xiàn)力弱，不能與真正的樂器完全相似，音質(zhì)有待提高。(4).MIDI聲音適于重現(xiàn)打擊樂或一些電子樂器的聲音，利用MIDI聲音方式可用計算機來進行作曲。(5).使用MIDI文件，其聲音卡上必需含有硬件音序器或者配置有軟件音序器。數(shù)字式頻率調(diào)制（FM

）合成法由以下五部分組成：數(shù)字載波器調(diào)制器數(shù)字運算器聲音包絡發(fā)生器模數(shù)轉換器從理論上講，F(xiàn)M合成方法可以產(chǎn)生任何樂音，但是，這種“物理課式”的合成方法合成出來的聲音不夠真實。樂音樣本合成法此法產(chǎn)生的聲音質(zhì)量比FM合成方法產(chǎn)生的聲音質(zhì)量要高。把真實樂器發(fā)出的聲音以數(shù)字的形式記錄下來，播放時再加以調(diào)整、修飾和放大，生成各種音階的音符。MIDI系統(tǒng)設備配置

MIDI設備就是處理MIDI信息所需的硬件設備，其基本組成包括：合成器揚聲器MIDI鍵盤MIDI端口音序器(1).MIDI鍵盤 MIDI鍵盤是用于MIDI樂曲演奏的，MIDI鍵盤本身并不發(fā)出聲音，當作曲人員觸動鍵盤上的按鍵時，就發(fā)出按鍵信息，所產(chǎn)生的僅僅是MIDI音樂消息，從而由音序器錄制生成MIDI文件。(2).MIDI端口

一臺MID設備可以有一至三個MIDI端口，分別稱為MIDIIn、MIDIOut、MIDIThru。它們的作用是：

MIDIIn：接收來自其它MIDI設備的MIDI信息。

MIDIOut：發(fā)送本設備生成的MIDI信息到其它設備。

MIDIThru：將從MIDIIn端口傳來的信息轉發(fā)到相連的另一臺MIDI設備上。(3).音序器

用于記錄、編輯、播放MIDI的聲音文件，音序器有以硬件形式提供的，目前大多為軟件音序器。音序器可捕捉MIDI消息，將其存入MIDI文件，MIDI文件擴展名為.MID。音序器還可編輯MIDI文件。(4).合成器MIDI文件的播放是通過MIDI合成器，合成器解釋MIDI文件中的指令符號，生成所需要的聲音波形，經(jīng)放大后由揚聲器輸出,聲音的效果比較豐富。

MIDI合成方式主要有調(diào)頻合成(FM)和樂音樣本合成兩種方式。MIDI的通道概念單個物理MIDI通道分為16個邏輯通道，每個邏輯通道可指定一種樂器。MIDI鍵盤可設置在這16個通道中的任何一個，MIDI合成器可以被設置在指定的通道上接受。電子樂器數(shù)字接口（MIDI）

MIDI實質(zhì)上是由MIDI控制器產(chǎn)生的指示電子音樂合成器要做什么、怎么做的一套標準指令。

MIDI傳送的不是聲音，而是動作指令。

各個MIDI設備通過專用的串行電纜(MIDI線)連接，并以31.25kbps（每字節(jié)10位）的速度傳送著數(shù)字音樂信息。MIDIThruOutInMIDI的物理接口標準MIDI設備的連接不妨把MIDI理解成一種局域網(wǎng)。不同的聲音模塊可設置成接收不同通道的曲子。MIDI軟件產(chǎn)品中文名稱：音效合成工具英文名稱：PROPELLERHEADS.REASON.V3.0.ISO-RiSE2.7語音處理技術語音識別（SpeechRecognition）文本語音轉換（TextToSpeech）語音壓縮編碼（SpeechCoding）語音識別什么是語音識別？

——目的是讓機器具有人的聽覺功能，在人機語音通訊中“聽懂”人類口述的語言。語音識別要求：識別字詞句，語義和語境語音識別的應用：語音輸入、電話查詢、信息查詢網(wǎng)上交談、語音教學、語音控制數(shù)字音頻信號的編碼

模擬音頻信號輸入采樣/量化編碼傳輸/存儲解碼播放

音頻信號壓縮編碼的依據(jù)：

1）聽覺域值電平的存在；

2）聽覺存在屏蔽效應。（強聲掩蓋弱聲）

音頻信號的壓縮編碼方式：

1）波形編碼；

2）音源（參數(shù)）編碼；

3）混合編碼三種。話音編譯碼器的分類波形編譯碼器（waveformcoder）：不利用生成話音的信號的任何知識，將話音視為一種普通的聲音，直接對波形信號進行采樣和量化。特點：編譯碼器簡單，話音質(zhì)量高，但數(shù) 據(jù)率也很高；例如：PCM、DM、DPCM、ADPCM等。音源編譯碼器（Sourcecoder）：也叫參數(shù)編譯碼器、聲碼器（vocoder）。它從話音波形信號中提取生成話音的參數(shù)，使用這些參數(shù)通過話音生成模型重構出話音。特點：算法復雜，計算量大，壓縮率高，但還原聲音的質(zhì)量不高?；旌暇幾g碼器（Hybridcoder）：把波形編碼的高質(zhì)量和音頻編碼的低數(shù)據(jù)率結合在一起，取得了較好效果。三種話音編譯碼器的對比

1）波形編碼

波形編碼的算法簡單，易于實現(xiàn)，可獲得高質(zhì)量的語音。常見的波形編碼方法為：

脈沖編碼調(diào)制（PCM）增量調(diào)制（DM）自適應脈沖編碼調(diào)制（APCM）差分脈沖編碼調(diào)制（DPCM)

自適應差分脈沖編碼調(diào)制（ADPCM）脈沖編碼調(diào)制（PCM）PulseCodeModulation,PCM ——是把模擬信號變換為數(shù)字信號的一種調(diào)制方式。PCM的量化方式：均勻量化與非均勻量化

均勻量化：采用相等的量化間隔對采樣得到的信號作量化，線性量化。非均勻量化：大的輸入信號采用大的量化間隔，小的輸入信號采用小的量化間隔，即非線性量化。

非均勻量化是在滿足精度要求的情況下用較少的位數(shù)來表示。增量調(diào)制（DM）DeltaModulation，DM——是對實際的采樣信號與預測的采樣信號之差的極性進行編碼，將極性變成0或1這兩種可能的取值之一。斜率

人人文庫> 全部分類> 教育資料 > 備課教案

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

多媒體音頻處理技術

文檔簡介

溫馨提示

最新文檔

評論

多媒體音頻處理技術

文檔簡介

溫馨提示

最新文檔

評論

相關文檔