多媒體技術_音頻處理資料_第1頁
多媒體技術_音頻處理資料_第2頁
多媒體技術_音頻處理資料_第3頁
多媒體技術_音頻處理資料_第4頁
多媒體技術_音頻處理資料_第5頁
已閱讀5頁,還剩80頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第4章 音頻(ynpn)處理共八十五頁第4章 音頻(ynpn)處理音頻信號(xnho)音頻數字壓縮MPEG-1音頻MPEG-2音頻MPEG-4音頻電子音樂合成與MIDI語音識別3D音頻音頻應用2共八十五頁 聲音是指人耳能識別的音頻信息.如人發(fā)出的話音,樂器聲,動物發(fā)出的聲音,機器產生(chnshng)的聲音,自然界的雷聲,風聲、雨聲、閃電聲等,也包括各種人工合成的聲音。 聲音涉及到聲波的物理傳播特點和電聲信號處理技術。多媒體技術的發(fā)展使計算機處理音頻信息已達到較成熟的階段。聲音(shngyn)3共八十五頁聲音(shngyn)的特征指標 聲音是由于空氣振動(zhndng)引起耳膜的振動(zhnd

2、ng),由人耳接收,最后被大腦所感知。因此,聲音的特征體現為物理特征和認知屬性。這兩類特性的基本對比見表:物理特征認知屬性強度(Intensity)響度(Loudness)基頻(Fundamental Frequency)基音(Pitch)譜形狀(Spectral Shape)音色(Timbre)開始/結束時間(Onset/Offset Time)定時(Timing)相位差(雙耳聽)(Phase DifferenceBinaural Hearing)位置(Location)4.1 音頻信號4共八十五頁人的聽覺響應與強度成對數關系。只有在強度適中時才最靈敏。 一般的人只能察覺出3 分貝的音強變化

3、。 常用音量或響度來描述聲音(shngyn)強度,以分貝(dB)為單位。 在處理音頻信號時,相對強度更有意義。 動態(tài)范圍定義: 動態(tài)范圍20 log(信號的最大強度 / 信號的最小強度)(dB) 動態(tài)范圍越大,信號強度的相對變化范圍越大,音響效果越好。 音質效果AM廣播FM廣播數字電話CDDA動態(tài)范圍(dB)406050100表4.1.2 幾種(j zhn)音頻業(yè)務的動態(tài)范圍動態(tài)范圍5共八十五頁分貝(fnbi)示例6共八十五頁 基頻:O ,決定音調 泛音:nO 稱為(chn wi)基頻的高次諧波分量 音色:由混入基音的泛音所決定的 高次諧波越豐富,音色就越有明亮感和穿透力 不同的諧波具有不同的

4、幅值和相位偏移,產生各種音色效果 能夠用來描述樂器聲的區(qū)別 頻率特性7共八十五頁頻率特性如果一個(y )物體振動所發(fā)出的泛音為基音的整數倍,這個音就會具有清晰可辨的音高,我們稱之為樂音,如鋼琴,小提琴等發(fā)出的都是樂音;如果泛音是基音的非整數倍,這個音就不具備清晰可辨的音高,我們稱之為噪音,如汽車發(fā)動機、計算機風扇等發(fā)出的都是噪音。8共八十五頁音色(yns)因為聲音的波形絕大多數都不是簡單的正弦波,而是一種復雜的波。分析表明這種復雜的波形,可以分解為一系列的正弦波,這些正弦波中有基頻f0,還有與f0成整數倍關系(gun x)的諧波:f1、f2、f3、f4,它們的振幅有特定的比例。這種比例,賦予每

5、種樂器以特有的“色彩”音色。如果沒有諧波成分,單純的基音正弦信號是毫無音樂感的。 比如:大提琴音色、黑管音色不同雖然演奏同一音高(基頻)的音符,但人們能夠明確分辨出是哪個樂器 9共八十五頁頻率特性帶寬:用來描述復合聲音信號的頻率(pnl)范圍。如高保真音信號(high-fidelity audio)的頻率(pnl)范圍為10Hz20,000Hz,帶寬約為20kHz10共八十五頁信噪比(SNR,Signal to Noise Ratio)是有用信號與噪聲(zoshng)之比的簡稱是衡量聲音質量的一種指標噪音可分為環(huán)境噪音和設備噪音信噪比越大,聲音質量越好信噪比11共八十五頁其他(qt)音頻質量指

6、標感覺上的、主觀上的測試是評價(pngji)聲音質量不可缺少的部分。可靠的主觀度量值是較難獲得的。 12共八十五頁聽覺(tngju)生理人耳最容易聽到的就是4000Hz的頻率,不管頻率是增高或降低,即使是響度相同的情況下,大家都會覺得聲音在變小。當響度降到一定程度時,人耳就聽不到了,每一個頻率都有著不同的值,當頻率超過15000Hz時,人耳的會感覺(gnju)到聲音很小,很多聽覺不是很好的人,根本就聽不到20000Hz的頻率,不管響度有多大。 當人耳同時聽到兩個不同頻率、不同響度的聲音時,響度較小的那個也會被忽略13共八十五頁采樣頻率:采樣頻率是指一秒鐘內采樣的次數。采樣頻率的選擇應該遵循奈奎

7、斯特(Harry Nyquist)采樣理論:如果對某一模擬信號進行采樣,則采樣后可還原的最高信號頻率只有采樣頻率的一半。量化位數:量化位是對模擬音頻信號的幅度軸進行數字化所采用(ciyng)的位數,它決定了模擬信號數字化以后的動態(tài)范圍聲道數:有單聲道、雙聲道、多聲道之分。雙聲道在硬件中要占兩條線路,音質、音色好,但數字化后所占空間比單聲道多一倍。數字音頻技術指標量化位等份動態(tài)范圍(dB)應用825648 - 50數字電話166553696 -100CD-DA14共八十五頁聲音(shngyn)質量與數據率數據(shj)率 = 取樣頻率 x 量化位數 x 通道數目例: 電話語音 =8k x 8b

8、x 1 = 64kbps =8kB/s=28MB/h 例:CD的數據率44.1KHz, 16bits, 2,15共八十五頁編碼算法作用采用一定的格式來紀錄數字數據采用一定的算法來壓縮數字數據以減少存貯空間和提高(t go)傳輸效率包括有損壓縮和無損壓縮有損壓縮指解壓后數據不能完全復原,要丟失一部分信息。基本指標之一是壓縮比壓縮越多,信息丟失越多、信號還原后失真越大應根據不同的應用選用不同的壓縮編碼算法 數字音頻技術指標(續(xù))16共八十五頁音頻(ynpn)壓縮編碼技術主要依據(yj)是人耳的聽覺特性: 1. 人的聽覺系統(tǒng)中存在一個 聽覺閾值電平 ,低于這個電平的聲音 信號人耳聽不到 . 2. 人

9、的聽覺存在 屏蔽效應 。當幾個強弱不同的聲音同時存在時,強 聲使弱聲難以聽到,并且兩者之間的關系與其相對頻率的大小有 關。4.2音頻數字壓縮17共八十五頁熵編碼 如Hufman編碼、算術編碼以及行程編碼等。波形編碼 全頻帶編碼如PCM、自適應差分PCM等,子帶編碼如自適應變換編碼ATC、心理學模型等,以及向量量化等在音頻中均常常采用。波形編碼的特點是在高碼率的條件下獲得高質量的音頻信號,適用于高保真度語音和音樂信號的壓縮技術。參數編碼 參數編碼的方法是將音頻信號以某種模型表示,再抽出合適(hsh)的模型參數和參考激勵信號進行編碼;聲音重放時,再根據這些參數重建即可。參數編碼壓縮比很高,但計算量

10、大,而且不適合高保真度要求的場合。 主要的音頻壓縮(y su)編碼類型18共八十五頁混合編碼 是一種吸取波形和參數編碼的優(yōu)點,進行綜合的編碼方法。感知編碼 感知編碼利用心理聲學分析原理來實現音頻壓縮。例如MPEG Audio Layer 3 采用的算法ASPEC(Adaptive Spectral Perceptual Entropy Coding of high quality musical signal,高質量音樂信號自適應譜感知熵編碼),將原始音頻信息數據壓縮率達到10:1 甚至(shnzh)12:1。當然這是一種有損壓縮,但是人耳卻基本不能分辨出失真來。主要的音頻壓縮(y su)編碼

11、類型(續(xù))19共八十五頁波 形 編 碼 算法 名稱 數據率 標準 應用 質量 PCM 脈沖編碼調制 公共網SDN配音 4.04.5 -law,A-law -律,A-律 64kbps G.711 APCM 自適應脈沖編碼調制 DPCM 差分脈沖編碼調制 ADPCM 自適應差分脈沖編碼調制 32kbps G.721 SB-ADPCM 子帶-自適應差分脈沖編碼調制64kbps G.722 5.3kbps 6.3kbps G.723 參數編碼 LPC 線性預測編碼 2.4kbps 保密話聲 2.53.5 混 合 編 碼 CELPC 碼激勵LPC 4.6kbps 移動通信 4.03.7 VSELP 向量

12、和激勵LPC 8kbps 語音郵件 RPE-LTP 規(guī)則碼激勵長時預測 13.2kbps ISDN LD-CELP 低延時碼激勵LPC 16kbps G.728 G.729 MPEG 多子帶,感知編碼 128kbPs CD 5.0 Dolby AC-3 感知編碼 音響 5.0 音頻數字壓縮編碼算法及其特性(txng)比較20共八十五頁實際應用中為了得到高的壓縮率和好的聲音質量,常常要同時利用(lyng)時域-頻域分析與心理聲學分析,并使用多種編碼方法實際應用(yngyng)考慮21共八十五頁實際(shj)應用考慮(續(xù))時-頻分析可以包含下述技術:單元變換時不變均勻帶通濾波器組時變邊、臨界采樣的

13、非均勻帶通濾波器組混合變換/濾波器組信號分析器諧波/正弦波分析器源系統(tǒng)分析(LPC/多脈沖激勵等)心理聲學分析模塊根據聽覺絕對門限、臨界帶頻率分析、掩蔽(ynb)效應等心理聲學原理估計出信號掩蔽(ynb)功率,使量化和熵編碼模塊可以充分利用時-頻分析得到的參數集中的感知不相關性。 量化和編碼模塊同時也采用經典技術如差分脈沖碼調制(DPCM)或自適應DPCM(ADPCM)等來壓縮信號的統(tǒng)計冗余。熵編碼可能使用RLE、算術編碼、赫夫曼編碼以及LZW等。 22共八十五頁電話質量(zhling)的音頻壓縮編碼技術標準 電話質量語音信號頻率規(guī)定在300Hz至3.4kHz,采用標準的脈沖(michng)編

14、碼調制(PCM),當采樣頻率為8kHz,進行8bit量化時,所得數據速率為64kb/s。G.711(1972年,CCITT):PCM標準,速率為64kbit/s,采用非線性量化,其質量相當于12bit線性量化G.721 (1984年,CCITT ):ADPCM,32kb/sG.728(1992年,CCITT):LD-CELP,16kb/s,質量與32kb/s的G.721相當GSM(1988年,歐洲數字移動特別工作組): RPE-LTP,13kb/sVSELP(8kb/s)、LPC(2.4b/s)、CELP(4.8kb/s)(美國)音頻編碼技術標準23共八十五頁調幅廣播質量的音頻壓縮(y su)

15、編碼技術標準 頻率在50Hz至7kHz范圍。將輸入音頻信號經濾波器分成高子帶和低子帶兩個部分(b fen),分別進行ADPCM編碼,再混合形成輸出碼流??梢栽谡瓗ЬC合服務數據網N-ISDN中的一個B信道(64kbits)上傳送調幅廣播質量的音頻信號。高保真度立體聲音頻壓縮編碼技術標準 頻率范圍是50Hz至20kHz,采用44.1kHz采樣頻率,16bit量化進行數字化轉換,其數據速率每聲道達705kbits。音頻編碼技術標準24共八十五頁 MPEG-1音頻(ynpn)MPEG-1音頻(ynpn)標準 MPEG-1音頻編碼標準包括三部分(Layer 1, 2, 3) 層1的編碼器最為簡單,編碼器

16、的輸出數據率為384 kbps,主要用于小型數字盒式磁帶。 層2的編碼器的復雜程度屬中等,編碼器的輸出數據率為256 kb/s192 kb/s,其應用包括數字廣播、數字音樂、CD-I和VCD。 層3的編碼器最為復雜,編碼器的輸出數據率為64 kbps,是目前最為流行的一種音樂格式。25共八十五頁聲音編碼系統(tǒng)基本(jbn)結構 在編碼器中,輸入聲音信號(xnho)經過一個“時間-頻率多相濾波器組”變換到頻域里的多個子帶中。 輸入聲音信號同時經過“心理聲學模型”,計算掩蔽特性。 “量化和編碼”部分用信掩比(SMR,signal-to-mask ratio)來決定分配給子帶信號的量化位數,使量化噪聲

17、低于掩蔽域值。 通過“數據流幀包裝”將量化的子帶樣本和其他數據按照規(guī)定的稱為“幀(frame)”的格式組裝成數據流。 解碼器對數據流進行解碼,恢復被量化的子帶樣本值以重建聲音信號。由于解碼器無需心理聲學模型,因此解碼器就比編碼器簡單得多。26共八十五頁(a)編碼器 (b)解碼器 MPEG音頻(ynpn)編解碼器基本框圖27共八十五頁第1層和第2層編碼(bin m)在這兩層中,用有32個等間距子帶的濾波器組將輸入聲音PCM信號子帶分離,再由生理聲學模型導出動態(tài)比特分配,然后進行子帶樣值的塊壓縮和比特流打包。三層音頻系統(tǒng)28共八十五頁 使用的濾波器組是多相混合濾波器組 使用了心理聲學模型來評估掩蔽

18、門限。為了增加編碼增益(zngy),采用了非均勻量化和Huffman編碼。并且使用了稱為比特池的緩存技術來維持編碼效率和使量化噪聲保持在掩蔽門限以下。第3層編解碼29共八十五頁 MP3(MPEG-1 Layer 3),是當今較流行的一種音頻格式,全稱為MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3。MP3是一種有損壓縮,它利用了人耳的聽覺特性來提高(t go)壓縮率的算法。在基本上保持CD音質的前提下,MP3能將音頻數據壓縮到原有的1/10甚至更少。 MP3格式最早由德國弗朗霍夫研究院和法國湯姆生公司在1993年合作研制成功。但當時的

19、MP3格式并不完善,由于MP3的編碼方式開放,人們可以選擇不同的原理進行壓縮,所以就出現了CBR、VBR、ABR等一批不同的編碼方式,并導致了當今MP3編碼方式較為混亂的局面,但現在通用的編碼器為運用VBR或ABR編碼方式的LAME。MP3編解碼30共八十五頁兩種聲音數據壓縮格式:MPEG-2 Audio,或者稱為MPEG-2多聲道(Multichannel)聲音,又稱為MPEG-2 BC(Backward Compatible,后向兼容),與MPEG-1 Audio是兼容的。MPEG-2 AAC(Advanced Audio Coding,先進的音頻編碼(bin m)),通常稱為非后向兼容M

20、PEG-2 NBC(Non-Backward-Compatible,非后向兼容)標準,與MPEG-1聲音格式不兼容。 MPEG-2音頻(ynpn)31共八十五頁MPEG-2音頻(ynpn)特點 MPEG-2 Audio是MPEG為多聲道聲音開發(fā)的低碼率編碼方案,它是在MPEG-1音頻標準(biozhn)基礎上發(fā)展而來的。和MPEG-1音頻相比,MPEG-2音頻主要增加了三個方面的內容: 增加了聲道數,支持5.1聲道和7.1聲道的環(huán)繞聲。 擴展了編碼器的輸出速率范圍,由32kbps至384kbps擴展到8 kbps至640kbps。 增加了低取樣和低碼率。在保持MPEG-1音頻的單聲道和立體聲的

21、原有取樣率32/44.1/48kHz的情況下,MPEG-2又增加了三種取樣率,即把MPEG-1的取樣率降低了一半(16kHz、22.05kHz、24kHz),以便提高碼率低于64kbits/s時的每個聲道的聲音質量。32共八十五頁 MPEG-2音頻標準把多聲道中的中心聲道C、左右環(huán)繞Ls、Rs及低音效果增強聲道LFE等多聲道擴展信息看做(kn zu)是MPEG-1左右聲道的輔助數據而傳送。而多聲道擴展部分包含了與MPEG-1聲音幀結構相似的信息類型。 MPEG-2音頻(ynpn)碼流的幀結構 MPEG-2音頻多聲道擴展部分的數據結構MPEG-2音頻特點 33共八十五頁MPEG-2 的AAC是M

22、PEG-2標準中的一種非常靈活的聲音感知編碼標準: 使用聽覺系統(tǒng)的掩蔽特性來減少(jinsho)聲音的數據 量 通過把量化噪聲分散到各個子帶中,用全局信號把噪聲掩蔽掉 AAC支持的采樣頻率可從 8kHz到 96kHz AAC編碼器的音源可以是單聲道的、立體聲的和多聲道的聲音。 MPEG-2的AAC34共八十五頁 MPEG-2音頻還支持Dolby公司的數字聲音數據壓縮算法AC-3(Audio Code Number 3)。 AC-3的主要特點是利用人的聽覺系統(tǒng)特性來壓縮聲音數據,并支持5個聲道(左、中、右、左環(huán)繞、右環(huán)繞和0.1 kHz以下的低音音效聲道),聲音樣本的精度為20比特,每個聲道的采

23、樣率可以是32kHz,44.1kHz或者48kHz。 AC-3系統(tǒng)具有100的自適應比特分配能力,允許(ynx)數據傳輸率在32kbps至640kbps之間變化。AC-3質量高,編碼器的復雜度也高,時延達到100ms。 AC-3編碼(bin m)35共八十五頁 MPEG-4音頻標準分為自然音頻編碼和合成音頻編碼兩大類。 自然音頻編碼提供三種編碼方案,即參數編碼,碼本激勵線性預測編碼,時間/頻率(T/F)編碼。 合成音頻編碼提供兩種編碼方案,即結構音頻(和文語轉換(TTS,text-to-speech)。 每個編碼方案都按照兩部分來組織標準的內容:標準部分描述(mio sh)解碼的語法和解碼過程

24、,附錄部分描述(mio sh)編碼器和接口。 MPEG-4音頻(ynpn)36共八十五頁 MPEG-4(ISO/IEC 14496)已建立了兩個版本,正在開發(fā)第3版。MPEG-4音頻(ynpn)部分促進廣泛的應用,這些應用可能包括從智能語音到高質量多聲道音頻(ynpn),從自然聲音到合成聲音。它支持下述成分組成的音頻(ynpn)對象: 語音信號:能通過使用語音編碼工具實現位速在2kbps到24kbps間的語音編碼。 合成語音:可縮放的TTS編碼器的位速在200bps到1.2kbps之間。它允許一個文本或帶有韻律參數的文本(基音輪廓,音素持續(xù)期等等)MPEG-4音頻(ynpn)37共八十五頁MP

25、EG-4 ALS2005年7月形成了MPEG-4 ALS的最終規(guī)格,并被國際標準組織接納成為標準ISO/IEC 14496-3:2005/Amd 2:2006 Audio Lossless Coding (ALS) MPEG-4 ALS 同時面向專業(yè)應用和消費應用而定義了高效、快速的無損音頻壓縮技術。它提供了許多其它無損壓縮方案所缺乏的特性:對幾乎所有未壓縮數字音頻格式的通用性支持,包括wav、aiff、au、bwf以及raw格式;支持PCM格式音頻最大采樣位數32位以及任意采樣頻率的任意組合,包括最常見的 16位/44.1kHz、16位/48kHz、24位/48kHz、24位/96kHz和2

26、4位/192kHz;支持多聲道/多音軌,最高支持65536個聲道,包括5.1環(huán)繞方式(fngsh);支持32位IEEE浮點數音頻數據;可快速地隨機訪問已編碼數據的任何部分;可選擇以MP4文件格式保存,支持與視頻復合。高度靈活的編解碼參數,可適應各種場合的應用。38共八十五頁mp3HD 在各種開放源碼的無損音頻壓縮格式流行了多年之后,mp3也終于搭上了這趟車。mp3專利的持有人之一,紐約期貨市場上市公司Thomson于2009年3月19日發(fā)布了mp3格式的最新技術:mp3HD。 mp3HD與mp3相比是完全不同的技術:mp3HD是無損壓縮格式,也即從壓縮的音頻中可以還原出與原始音頻一模一樣的數據

27、。 使用mp3HD技術可以把音頻數據的大小縮減為在最好情況下是原來的37%的大小,而在最壞情況下也能達到原數據大小的65%左右 由于有著mp3這個被廣泛使用的有損音頻壓縮格式,因此(ync)mp3HD保留了對舊格式的兼容能力,包括:mp3HD本身的解碼器將會向后兼容原來的mp3格式;對于舊有的mp3播放器,mp3HD文件可以通過內嵌有損壓縮的mp3文件來達到兼容播放的目的;mp3HD文件也同樣使用mp3作為文件擴展名;依舊使用ID3標記來在音頻文件中存儲與音頻相關的文本信息。保持兼容型既是mp3HD的優(yōu)點,也是mp3HD的歷史包袱。39共八十五頁 文-語轉換是將文本形式的信息轉換成自然語音的一

28、種技術,其最終目標是使計算機輸出清晰而又自然的聲音,也就是說,要使計算機像人一樣,根據文本的內容可帶各種情調來朗讀任意的文本。TTS是一個十分復雜的系統(tǒng)(xtng),涉及到語言學、語音學、信號處理、人工智能等諸多的學科。文本合成語音理解韻律生成韻律控制語音生成文本-音素轉換 TTS系統(tǒng)(xtng)方框圖文-語轉換40共八十五頁電子音樂合成 產生樂音的方法(fngf)很多,現在用得較多的方法(fngf)有模擬合成和數字合成兩大類。模擬合成法,包括減法合成(濾波器 )和加法合成。數字合成法,包括頻率調制合成(FM),波表合成(Wavetable),線性形合成(LA),先進集成式合成(AI),先進向

29、量合成(AV),可變結構合成技術(VAST)。 計算機中采用數字音樂合成技術,主要采用兩種方法: 頻率調制合成法(Frequency Modulation Synthesis) 波表合成法(Wavetable Synthesis,也稱為樂音樣本合成法) 電子音樂(din z yn l)合成與MIDI41共八十五頁頻率調制(FM,Frequency Modulation)合成 是通過硬件產生正弦信號,再經處理合成音樂。合成的方式是將波形組合在一起,理論上可以(ky)有無限多組波形。每一個FM聲音最少需要兩個信號發(fā)生器,一般稱為“操作器(operators)”。復雜的FM系統(tǒng)每一個音可以使用4或6

30、個操作器。 頻率調制(tiozh)合成42共八十五頁使用FM合成法來產生各種逼真的樂音是相當困難的,有些樂音幾乎不能產生。波表合成(樂音樣本合成)法是將每種真實樂器發(fā)出的聲音抽樣,加以適當的處理后存儲成聲音樣本(音色文件),記錄在合成器的內存當中,需要時,調用相應樣本來合成該樂器的樂音。內存器的容量(rngling)越大,合成效果越好,價格也越貴。波表合成合成器所需要的輸入控制參數比較少,可控的數字音效也不多,產生的聲音質量比FM合成方法產生的聲音質量要高。波表合成(hchng)43共八十五頁 Wavetable合成器的工作(gngzu)原理Wavetable合成器的工作(gngzu)原理44

31、共八十五頁MIDI(Musical Instrument Digital Interface,樂器數字接口)20世紀80年代早期問世MIDI提供一種標準的方式實現與音樂控制器如鍵盤之類到聲音生成器如合成器和鼓聲合成器等的接口MIDI并不傳輸(chun sh)聲音,而是傳輸(chun sh)非常簡單的消息MIDI概述(i sh)45共八十五頁從電氣(dinq)角度看,MIDI是一個半雙工的5ma電流回路,以31.25 K波特(kilobaud)的位率運載8-bit的序列數據流經由MIDI “交談”的兩個裝置能夠用光隔離器(opto-isolators)被電氣地隔離,確保硬件系統(tǒng)的安全和無干擾運行

32、音頻卡連結到一個外部的聲音生成器或MIDI控制器時需要特定的電纜從信息的角度,MIDI是一種描述音樂上重要實時事件的語言通過16個信道通信 ,一個接口允許多達16個MIDI樂器播放,16個樂器能夠從一個裝置同時地播放增加第二個MIDI接口則連通另外的 16個MIDI信道一些MIDI接口提供多達16個輸出,使它能夠在同一時間存取256個信道。MIDI概述(i sh)(續(xù))46共八十五頁MIDI并不傳輸聲音,而是傳輸接收裝置回應的非常簡單的消息樂器經由一個標準的5-DIN插頭連接起來例如:當在鍵盤上壓一個鍵的時候,它向MIDI電纜送一個音符響(Note On)消息,命令接收裝置播放一個音符。消息由

33、三種元素所組成:一個狀態(tài)字節(jié):關于事件(shjin)類型(在這種情況時是Note On)的信息以及它要被送往的信道 (1至16號信道)一個音符號:描述被壓的鍵,例如是中C調速度值:指出打擊鍵的力量接收裝置將會播放這一個音符直到收到包含相同數據的一個音符停止(Note Off)消息。合成器根據正在被播放的聲音將以不同速度回應例如,當更激烈地擊鍵時,鋼琴聲將更大聲。音調的質量也要改變。專業(yè)的合成器時常引入額外的音色來模仿槌敲擊弦的聲音。連續(xù)控制器 (CC,Continuous Controllers)通常用來控制設定音量、效果水平和改換聲道(pan,即橫過一個立體聲場的聲音的定位)等。許多MIDI

34、裝置可以分配內部參數到 CC,有128種選擇。MMA(MIDI Manufacturers Association,MIDI制造業(yè)者協會)為合成器開發(fā)了規(guī)范,稱為通用MIDI。MIDI概述(i sh)(續(xù))47共八十五頁MIDI電子樂器通過MIDI接口與計算機相連計算機可采集MIDI電子樂器發(fā)出的一系列指令并記錄到以 .MID為擴展名的MIDI文件(wnjin)中計算機可對MIDI文件進行編輯和修改。最后,將MIDI指令送往音樂合成器合成器將MIDI指令符號進行解釋并產生波形,然后送往揚聲器播放出來用PC構成(guchng)的MIDI系統(tǒng)MIDI音樂的產生48共八十五頁MIDI的新進展包括:

35、新MIDI接口 多工MIDI操作系統(tǒng) 網絡音樂 可下載(xi zi)聲音(DLS,downloadable sounds) MIDI的新進展49共八十五頁語音識別一直是人類的夢想,其最終目標是實現人與機器進行自然語言通信 。最早的機器自動語音識別研究工作開始于20世紀50年代。當時的Bell實驗室實現了第一個可識別十個英文孤立數字的語音識別系統(tǒng)Audry系統(tǒng)。20世紀60年代,計算機的應用推動了語音識別的發(fā)展。提出了動態(tài)規(guī)劃和線性預測分析技術。20世紀70年代,取得了突破。實現了基于線性預測倒譜和DTW技術的特定人孤立語音識別系統(tǒng)。20世紀80年代,語音識別研究進一步走向深入。HMM模型和人工

36、神經元網絡(ANN)在語音識別中成功應用。進入20世紀90年代,隨著多媒體時代的來臨,許多著名公司都為語音識別系統(tǒng)的實用化開發(fā)(kif)研究投以巨資。我國語音識別研究工作一直緊跟國際水平,國家也很重視。鑒于中國未來龐大的市場,國外也非常重視漢語語音識別的研究。語音(yyn)識別50共八十五頁 按說話方式分:孤立字(詞)語音識別系統(tǒng)、連接字語音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng)。 根據對說話人的依賴程度分:特定人和非特定人語音識別系統(tǒng)。 根據詞匯量大小(dxio)分:小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。 面向任務(rn wu)的語音識別系統(tǒng)的一般方塊圖語音識別系統(tǒng)的分類51共八十

37、五頁語音識別技術主要包括特征提取技術、模式匹配準則及模型訓練技術三個方面。此外,還涉及到語音識別單元的選取。 語音識別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種(y zhn),由具體的研究任務決定。 單詞(句)單元廣泛應用于中小詞匯語音識別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫太龐大,訓練模型任務繁重,模型匹配算法復雜,難以滿足實時性要求。 音節(jié)單元多見于漢語語音識別,主要因為漢語是單音節(jié)結構的語言,而英語是多音節(jié),并且漢語雖然有1300多個音節(jié),但若不考慮聲調,約有410來個無調音節(jié),數量相對較少。 音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統(tǒng)也在越來越

38、多地采用。雖然增加了模型數目,但提高了易混淆音節(jié)的區(qū)分能力。如何獲得穩(wěn)定的音素單元,還有待研究。 語音(yyn)識別技術52共八十五頁 語音的多變性,表現在講話(jing hu)風格(例如,字斟句酌)、語音質量(例如,伴有呼吸聲,竊竊私語等)、講話(jing hu)速率、上下文環(huán)境和重讀等的變化性很大。 語音識別系統(tǒng)的適應性差,主要體現在對環(huán)境依賴性強,即在某種環(huán)境下采集到的語音訓練系統(tǒng)只能在該環(huán)境下應用,否則系統(tǒng)性能將急劇下降;另外一個問題是對用戶的錯誤輸入不能正確響應,使用不方便。 高噪聲環(huán)境下語音識別進展困難,因為此時人的發(fā)音變化很大,像聲音變高,語速變慢,音調及共振峰變化等等,必須尋找

39、新的信號分析處理方法。困難(kn nn)與對策53共八十五頁困難(kn nn)與對策(續(xù))語言學、生理學、心理學方面的研究成果已有不少,但如何把這些知識量化、建模并用于語音識別,還需研究。對人類的聽覺理解、知識積累和學習機制以及大腦神經系統(tǒng)的控制機理等方面的認識還很不清楚;其次,把這方面的現有成果用于語音識別,還有一個艱難的過程。語音識別系統(tǒng)從實驗室演示系統(tǒng)到商品的轉化過程中還有許多具體問題需要解決,識別速度、拒識問題以及關鍵詞(句)檢測技術細節(jié)要解決。為了解決這些問題,研究人員提出了各種各樣的方法(fngf),如自適應訓練,基于最大互信息準則(MMI)和最小區(qū)別信息準則(MDI)的區(qū)別訓練和

40、“矯正”訓練;應用人耳對語音信號的處理特點,分析提取特征參數,應用人工神經元網絡,等等。所有這些努力都取得了一定成績。綜合應用語言學、心理學、生理學以及信號處理等各門學科有關知識,只用其中一種是不行的。54共八十五頁目前世界各國都加快了語音識別應用系統(tǒng)的研究開發(fā),并已有一些實用的語音識別系統(tǒng)投入商業(yè)運營。典型而成功的語音識別系統(tǒng):VRCP系統(tǒng)。ATT于1992年開發(fā)。五個單詞(collect,person,third number,operator和calling card)、非特定人小詞匯量語音識別系統(tǒng),現已應用于ATT通信網上,可以(ky)實現自動話務員協助式呼叫,代替話務員完成五種呼叫類

41、型,即 collect call(受話人付費電話),命令字col1ect person-person-call(定人呼叫),命令字person third-party-billing-call(第三方付費電話),命令字third number operator-assisted call(話務員協助呼叫),命令字operator credit card call(信用卡呼叫),命令字calling cardAT T 800語音識別服務系統(tǒng)NTT ANSWER語音識別銀行服務系統(tǒng)Northen Telecom股票價格行情系統(tǒng)語音識別(shbi)的應用55共八十五頁隨著軟、硬件的不斷發(fā)展,傳統(tǒng)的雙

42、聲道單層面立體聲音場,已經不能滿足人們的需要。為了得到更好的立體感受和空間感受,科學家借助數字化音頻生成了一種全新的聲音-仿真3D音效。日常生活中,我們用兩只耳朵來聽東西,從各處音源中獲得信息,再通過人腦的計算來定位聲音。計算機仿真人腦的3D音效計算,通過數字音源播放出來,讓我們感到自己(zj)處身于虛擬的世界。3D音頻(ynpn)56共八十五頁人耳的基本聲音定位原理是IID (Interaural Intensity Difference,兩側聲音強度差別(chbi))和ITD (Interaural Time Difference,兩側聲音時間延遲差別(chbi)) 。IID指距離音源較近

43、的那一只耳朵,所收到的聲音強度比另一側高。ITD指方位的不同,使聲音到達兩耳的時間有差別,人們會覺得聲音位于到達時間早些的那一邊IID+ITD的結果是把音源定位到以聽者兩耳之間連線為軸線的錐體范圍之內。耳廓(外耳):作用是濾波器反射:許多時候,人聽到的聲音并不是直線進入耳朵,而是通過了幾次反射才進入大腦。仿真3D音效需要還原以上定位效果:IID、ITD、耳廓、反射,并分析不同角度聲音發(fā)生的變化,通過計算機仿真合成來建立一種稱為數字化音場的虛擬聲音系統(tǒng)。人類(rnli)的聽覺57共八十五頁HRTF(Head Related Transfer Function,頭部關聯傳送功能)是一種依靠聽到的聲

44、音來判斷它發(fā)出位置的系統(tǒng)每個人的HRTF都不盡相同,還可以進行交換。如果有一套HRTF能夠很好地對聲音進行定位,那么此系統(tǒng)也能讓位于虛擬世界的人獲得同樣準確的聲音信息。HRTF的檢測:先在人的耳道內放置兩個(lin )微型麥克風,再在聽者附近放一個音箱,播放確定的信號,同時記錄麥克風收到的信號。比較源信號和麥克風的脈沖特性曲線就可以得到其中一個濾波效果。最后于聽者附近的所有位置重復上述過程。HRTF58共八十五頁視聽協同作用:在現實世界(shji)中,我們不僅是靠耳朵來獲得聲音的位置,有時還按照視聽協同作用來定位聲音。 頭部運動也對HRTF有影響:例如,不能判斷聲音位于前方還是后方時,只需把頭

45、部向左或向右轉動一些就可以定位了。 科學家設計出相應的數字信號處理軟件和算法有效地依據聲學和心理學產生的特定濾波效果,實時地運用于音頻信號上。HRTF的應用非常廣泛,包括視頻會議、游戲、戰(zhàn)斗機座艙警報和空中交通管制。HRTF59共八十五頁 3D音效的兩個最重要因素是定位和交互。定位即讓人們準確地判斷出聲音的來源。實時的定位就是交互,聲音并非預先錄制好的,而是按照你的控制來決定聲音的位置。1、Extended Stereo(擴展式立體聲) 它使用聲音延遲技術對傳統(tǒng)的立體聲進行額外處理,使聲音延展到音箱以外的空間。這是一種被動技術,只能稱之為3D定位音效。2、Surround Sound(環(huán)繞立體

46、聲) 它采用音頻壓縮技術(如杜比AC-3)把多通道音源編碼成一段程序,再以一組多揚聲器系統(tǒng)來進行解碼,實現多區(qū)域環(huán)繞效果。最適合于電影播放。環(huán)繞立體聲的主要工作是編/解碼。3、Interactive 3D Audio(交互式3D音效) 交互式3D盡量地復制了人耳在真實世界中聽到的聲音,并使用一定的算法(sun f)來播放出來,讓我們感到整個三維空間的所有地方都可能產生聲音,并隨聽者的移動而作出相應改變。它是最接近實際生活的3D音效,通常應用于第一人稱3D游戲。3D音效(yn xio)分類60共八十五頁音頻卡的應用音頻卡(Audio Card)即語音卡(Sound Card),其功能是使計算機能

47、夠處理音頻信號。除了產生聲音,音頻卡同時還作為CD-ROM接口。早期的音頻卡是一種可插拔的卡,現在很多主板生產商已經把它集成在計算機主板上了。音頻卡不但使游戲和多媒體應用中的聲音質量更好,而且越來越豐富的軟件可以(ky)讓用戶寫作、編輯和混合他們自己的音樂,學習演奏自己選擇的樂器,以及記錄、編輯和播放各種數字音頻。音頻(ynpn)應用61共八十五頁音頻(ynpn)卡的基本組件62共八十五頁音頻(ynpn)卡Platinum 5.1版本音頻卡的連接(linji)特性63共八十五頁Creative公司2000年末上市的音頻卡Platinum 5.1版本安裝了下述插座和連接器:模擬/數字輸出插座:6

48、通道或壓縮的Dolby AC-3 SPDIF輸出,用于連接外 部數字設備或數字揚聲器系統(tǒng);還支持中心和超低音擴音器(subwoofer)模擬通道,用于連接到5.1模擬揚聲器系統(tǒng)線路輸入插座:連接到外部設備如磁帶、DAT或MiniDisc播放器麥克風輸入插座:連接到外部麥克風,作聲音(shngyn)輸入線路輸出插座:連接到有功率放大的揚聲器或外部放大器,作語音輸出;還支持耳機后背輸出插座:連接到有功率放大的揚聲器或外部放大器,作語音輸出操縱桿/MIDI連接器:連接到操縱桿或MIDI設備;能自適應同時連接到這兩者D/SPDIF連接器:連接到CD-ROM或DVD-ROM驅動器上的SPDIF(數字音頻

49、)輸出AUX(輔助)連接器:連接到內部音頻源如TV調諧器,MPEG或其他類似的卡CD音頻連接器:使用CD音頻電纜連接到CD-ROM或DVD-ROM上的模擬音頻輸出電話問答設備連接器:提供高一個到標準聲音調制解調器的連接并傳送麥克風信號到調制解調器音頻擴展(數字I/O)連接器:連接到數字I/O卡或Live! Drive音頻卡的連接(linji)特性64共八十五頁1SoundBlaster AdLib音頻卡的硬件配置是第一個重要的標準,而Creative Labs的SoundBlaster則引領著在個人計算機上為數字音頻建立非常必需的標準。當SoundBlaster 單聲標準(8-bit的產品)成

50、為成熟的標準,現實世界改進了立體聲的能力 (SoundBlaster Pro),而且(r qi)質量提高到CD清晰度 (SoundBlaster 16),一直引領著音頻卡的發(fā)展,而使用者友好的AWE32實現了老用戶多年的宿愿。 在今天市場上出售的大多數的音頻卡都支持 SoundBlaster和通用MIDI標準,而且能夠記錄和播放44.1 kHz的立體聲。這是CD-audio的清晰度,這也就是為什么音頻卡常常被稱為具備“CD-質量”聲音的原因。音頻(ynpn)卡的標準65共八十五頁微軟首先(shuxin)在Windows 95中推出的 DirectX 標準,其思想是提供被稱為API(Applic

51、ation Programming Interfaces)的命令引導。 DirectX 1和 2 的聲音部分稱為 DirectSound,提供基本的左和右立體聲的改變效果(panning effects)。當與其他的 DirectX 組件配合時,這就使軟件開發(fā)者能夠直接將多個音頻流寫到任何與DirectX兼容的音頻卡,同時利用 3D聲效。 DirectX 3 引入DirectSound3D(DS3D),提供多種指令在 3D空間中的任意地方放置一種聲音。 DS3D的位置聲音是最新一代PCI音頻卡支持的特性之一。通過簡單地放置,位置聲音操縱聲音的特性使他們來自一個特定的方向,比如在左后或遠離左邊之

52、處。 DirectX66共八十五頁DirectX 6的DirectMusic組合MIDI,支持硬件加速和軟件合成,并具備(jbi)一個用于采樣樣本的一體化的遞送系統(tǒng),提供了一種經濟的方法來遞送專業(yè)質量的音樂演出,并用緩沖的、加時戳的事件和全球時間參考等技術解決了困難的定時問題。DirectX 8將DirectSound 和 DirectMusic整合進DirectX 音頻組件之內,為以用處理正常的聲軌一樣的方式處理合成音樂碎片鋪平了道路。DLS2(Downloadable Sounds Level 2,第2級可下載聲音)標準使下述成為可能:將原本為合成的(MIDI)音樂而設計的效果如混響之類應

53、用到標準的WAV 格式聲文件上。藉由DirectX 8 ,使用者能合成聲音,用正常的聲軌混合它,然后在一個公共的 3D音頻接口里處理該統(tǒng)一的音軌。DirectX67共八十五頁 EAX(Environmental Audio Extensions,環(huán)境音頻擴展)是Creative Technology公司于1998年在其SoundBlaster Live!聲卡在中1998年第一次引入的,用一個簡單的方法把混響(reverberation)加入 DS3D中。1999年發(fā)布的公告(gnggo)介紹了EAX 3.0在環(huán)境之間的“變換(morph)”的能力,允許開發(fā)者放置并且控制早期反射群,和反映子彈彈

54、回效果的一次快射反射(one-shot reflections),并充分利用HRTF之類的技術在一對單一的揚聲器上合成位置聲音。EAX68共八十五頁PCI 音頻芯片在1996年開始出現的時候,其形式或者是以集成在母版上,或者是集成在插入于一個 PCI 擴充槽中的一塊卡上。PCI 總線理論上可支持(zhch)快達132 MB/s的數據傳輸。由于PCI卡具有更好的交付性能,能夠為像混合多音頻流和處理3D位置流等先進應用提供必要的性能??偟膩碚f,PCI可能以比ISA高10至20倍的效率處理音頻流。 PCI 音頻(ynpn)69共八十五頁 USB聲音是瑞士半導體公司 Micronas 開發(fā)的一種技術。

55、USB(聲音控制器把DSP(數字信號處理器)、DAC(數字-模擬轉換)、運算放大器和一個USB控制器集成到一個外部單元,平衡一個揚聲器所需的附件以及不用聲卡而直接連接揚聲器到個人計算機所必需的一切都包含在此單元中。除減少花費外,該技術提供許多終端用戶利益,比如在單元上改變揚聲器音量和單元本身(bnshn)上的平衡的能力,以及聲音專業(yè)人士通過Excel表單接口對單元進行編程的能力。 USB聲音(shngyn)70共八十五頁在2002年早些時候,Creative Labs發(fā)布了另一個基于USB的產品,以及一個繼續(xù)最大連接性的方案的產品,此方案與他們的Live!Drive概念一起非常流行。在該公司的

56、成功Audigy聲卡的一個外部版本基礎上,Extigy優(yōu)于傳統(tǒng)PCI聲卡之處在于它的普適性,原因在于它的連接性以及它能被任何類型的個人計算機(桌面機,筆記本計算機或膝上型電腦(dinno))使用的能力。USB聲音(shngyn)71共八十五頁 數字音頻的存儲格式有多種。其中,WAVE格式是一種Windows 下通用的數字音頻標準,支持存儲各種采樣頻率和樣本精度的聲音數據,并支持聲音數據的壓縮。波形文件由許多不同類型的文件構造塊組成,其中最主要的兩個文件構造塊是Format Chunk(格式塊)和Sound Data Chunk(聲音數據塊)。格式塊包含有描述(mio sh)波形的重要參數,例如

57、采樣頻率、樣本精度等等,數據塊則包含有實際的波形聲音數據。WAVE文件(wnjin)結構 groupID = RIFFriffType = WAVE格式塊ckID = fmt聲音數據塊ckID = data4.9.2 音頻文件格式72共八十五頁WAVE格式(g shi)在Windows平臺下,基于PCM編碼的WAV是被支持得最好的音頻格式,所有音頻軟件都能完美支持,由于本身可以(ky)達到較高的音質的要求,因此,WAV也是音樂編輯創(chuàng)作的首選格式,適合保存音樂素材。因此,基于PCM編碼的WAV被作為了一種中介的格式,常常使用在其他編碼的相互轉換之中,例如MP3轉換成WMA。73共八十五頁mp3P

58、RO 編碼(bin m)2001年6月14日,美國湯姆森多媒體公司(Thomson Multimedia SA)與佛朗赫弗協會(Fraunhofer Institute) 發(fā)布了一種新的音樂格式版本,名稱為mp3PRO,這是一種基于mp3編碼技術的改良方案。mp3PRO并不是一種全新的格式,完全是基于傳統(tǒng)mp3編碼技術的一種改良,本身最大的技術亮點就在于SBR(Spectral Band Replication 頻段復制),這是一種新的音頻編碼增強算法。SBR最大的優(yōu)勢就是在低數據速率下實現非常高效的編碼,可以改善低數據流量下的高頻音質,改善程度約為30%,可以事先預知(y zh)這種改善可以

59、讓64kbps的mp3達到128kbps的mp3的音質水平(注:在相同的編碼條件下,數據速率的提升和音質的提升不是成正比的,至少人耳聽覺上是這樣的)。74共八十五頁WMAWMA就是Windows Media Audio編碼后的文件格式,由微軟開發(fā),WMA針對的不是單機市場,是網絡!競爭對手就是網絡媒體市場中著名(zhmng)的Real Networks。微軟聲稱,在只有64kbps的碼率情況下,WMA可以達到接近CD的音質。和以往的編碼不同,WMA支持防復制功能,她支持通過Windows Media Rights Manager 加入保護,可以限制播放時間和播放次數甚至于播放的機器等等。WMA

60、支持流技術,即一邊讀一邊播放,因此WMA可以很輕松的實現在線廣播,由于是微軟的杰作,因此,微軟在Windows中加入了對WMA的支持,WMA有著優(yōu)秀的技術特征,在微軟的大力推廣下,這種格式被越來越多的人所接受。 75共八十五頁RARA就是RealAudio格式,這是網上用得非常多的一種格式,大部分音樂網站的在線試聽都是采用了RealAudio,這種格式完全針對的就是網絡上的媒體市場,支持非常豐富的功能。最大的閃爍點就是這種格式可以根據聽眾的帶寬來控制自己的碼率,在保證流暢的前提下盡可能提高音質。RA可以支持多種音頻編碼,包括(boku)ATRAC3。和WMA一樣,RA不但支持邊讀邊放,也同樣支

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論