多媒體技術(shù)_音頻處理_第1頁
多媒體技術(shù)_音頻處理_第2頁
多媒體技術(shù)_音頻處理_第3頁
多媒體技術(shù)_音頻處理_第4頁
多媒體技術(shù)_音頻處理_第5頁
已閱讀5頁,還剩79頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、1第第4 4章章 音頻處理音頻處理2第第4 4章章 音頻處理音頻處理 音頻信號 音頻數(shù)字壓縮 MPEG-1音頻 MPEG-2音頻 MPEG-4音頻 電子音樂合成與MIDI 語音識別 3D音頻 音頻應(yīng)用3 聲音是指人耳能識別的音頻信息聲音是指人耳能識別的音頻信息.如人發(fā)出的話音,樂器聲,動物發(fā)出的聲音,機器產(chǎn)生如人發(fā)出的話音,樂器聲,動物發(fā)出的聲音,機器產(chǎn)生的聲音,自然界的雷聲,風(fēng)聲、雨聲、閃電聲等,也包的聲音,自然界的雷聲,風(fēng)聲、雨聲、閃電聲等,也包括各種人工合成的聲音括各種人工合成的聲音。 聲音涉及到聲波的物理傳播特點和電聲信號處聲音涉及到聲波的物理傳播特點和電聲信號處理技術(shù)。多媒體技術(shù)的發(fā)

2、展使計算機處理音頻理技術(shù)。多媒體技術(shù)的發(fā)展使計算機處理音頻信息已達到較成熟的階段。信息已達到較成熟的階段。聲音聲音4聲音的特征指標(biāo)聲音的特征指標(biāo) 聲音是由于空氣振動引起耳膜的振動,由人聲音是由于空氣振動引起耳膜的振動,由人耳接收,最后被大腦所感知。因此,聲音的特耳接收,最后被大腦所感知。因此,聲音的特征體現(xiàn)為物理特征和認(rèn)知屬性。這兩類特性的征體現(xiàn)為物理特征和認(rèn)知屬性。這兩類特性的基本對比見表:基本對比見表:物理特征物理特征認(rèn)知屬性認(rèn)知屬性強度(強度(IntensityIntensity)響度(響度(LoudnessLoudness)基頻(基頻(Fundamental FrequencyFund

3、amental Frequency)基音(基音(PitchPitch)譜形狀(譜形狀(Spectral ShapeSpectral Shape)音色(音色(TimbreTimbre)開始開始/ /結(jié)束時間(結(jié)束時間(Onset/Offset TimeOnset/Offset Time)定時(定時(TimingTiming)相位差相位差( (雙耳聽雙耳聽) )(Phase DifferenceBinaural Phase DifferenceBinaural HearingHearing)位置(位置(LocationLocation)4.1 4.1 音頻信號音頻信號5人的聽覺響應(yīng)與強度成對數(shù)關(guān)系

4、。只有在強度適中時才最人的聽覺響應(yīng)與強度成對數(shù)關(guān)系。只有在強度適中時才最靈敏。靈敏。 一般的人只能察覺出一般的人只能察覺出3 3 分貝的音強變化。分貝的音強變化。 常用音量或響度來描述聲音強度,以分貝(常用音量或響度來描述聲音強度,以分貝(dBdB)為單位。)為單位。 在處理音頻信號時,相對強度更有意義。在處理音頻信號時,相對強度更有意義。 動態(tài)范圍定義:動態(tài)范圍定義: 動態(tài)范圍動態(tài)范圍20 log20 log(信號的最大強度(信號的最大強度 / / 信號的最小強度)信號的最小強度)(dBdB) 動態(tài)范圍越大,信號強度的相對變化范圍越大,音響效動態(tài)范圍越大,信號強度的相對變化范圍越大,音響效果

5、越好。果越好。 音質(zhì)效果音質(zhì)效果AMAM廣播廣播FMFM廣播廣播數(shù)字電話數(shù)字電話CDCDDADA動態(tài)范圍(動態(tài)范圍(dBdB)404060605050100100表表4.1.2 4.1.2 幾種音頻業(yè)務(wù)的動態(tài)范圍幾種音頻業(yè)務(wù)的動態(tài)范圍動態(tài)范圍6分貝示例7 基頻:基頻:O O ,決定音調(diào)決定音調(diào) 泛音:泛音:n nO O 稱為稱為基頻的高次諧波分量基頻的高次諧波分量 音色:由混入基音的泛音所決定的音色:由混入基音的泛音所決定的 高次諧波越豐富高次諧波越豐富, ,音色就越有明亮感和穿透力音色就越有明亮感和穿透力 不同的諧波具有不同的幅值和相位偏移,產(chǎn)生各種音色效果不同的諧波具有不同的幅值和相位偏移

6、,產(chǎn)生各種音色效果 能夠用來描述樂器聲的區(qū)別能夠用來描述樂器聲的區(qū)別 頻率特性8頻率特性 如果一個物體振動所發(fā)出的泛音為基音的整數(shù)倍,這個音就會具有清晰可辨的音高,我們稱之為樂音,如鋼琴,小提琴等發(fā)出的都是樂音樂音;如果泛音是基音的非整數(shù)倍,這個音就不具備清晰可辨的音高,我們稱之為噪音噪音,如汽車發(fā)動機、計算機風(fēng)扇等發(fā)出的都是噪音。9音色 因為聲音的波形絕大多數(shù)都不是簡單的正弦波,而是一種復(fù)雜的波。分析表明這種復(fù)雜的波形,可以分解為一系列的正弦波,這些正弦波中有基頻f0,還有與f0成整數(shù)倍關(guān)系的諧波:f1、f2、f3、f4,它們的振幅有特定的比例。這種比例,賦予每種樂器以特有的“色彩”音色。如

7、果沒有諧波成分,單純的基音正弦信號是毫無音樂感的。 比如:大提琴音色、黑管音色不同 雖然演奏同一音高(基頻)的音符,但人們能夠明確分辨出是哪個樂器10頻率特性頻率特性 帶寬:帶寬:用來描述復(fù)合聲音信號的頻率范圍。如高保真音信號(high-fidelityaudio)的頻率范圍為10Hz20,000Hz,帶寬約為20kHz11l信噪比(信噪比(SNRSNR,Signal to Noise RatioSignal to Noise Ratio)是)是有用信號與噪聲之比的簡稱有用信號與噪聲之比的簡稱l是衡量聲音質(zhì)量的一種指標(biāo)是衡量聲音質(zhì)量的一種指標(biāo)l噪音可分為環(huán)境噪音和設(shè)備噪音噪音可分為環(huán)境噪音和設(shè)

8、備噪音l信噪比越大,聲音質(zhì)量越好信噪比越大,聲音質(zhì)量越好信噪比信噪比12其他音頻質(zhì)量指標(biāo) 感覺上的、主觀上的測試是評價聲音質(zhì)感覺上的、主觀上的測試是評價聲音質(zhì)量不可缺少的部分。量不可缺少的部分。 可靠的主觀度量值是較難獲得的??煽康闹饔^度量值是較難獲得的。13聽覺生理 人耳最容易聽到的就是4000Hz的頻率,不管頻率是增高或降低,即使是響度相同的情況下,大家都會覺得聲音在變小。 當(dāng)響度降到一定程度時,人耳就聽不到了,每一個頻率都有著不同的值,當(dāng)頻率超過15000Hz時,人耳的會感覺到聲音很小, 很多聽覺不是很好的人,根本就聽不到20000Hz的頻率,不管響度有多大。 當(dāng)人耳同時聽到兩個不同頻率

9、、不同響度的聲音時,響度較小的那個也會被忽略14l采樣頻率采樣頻率:采樣頻率是指一秒鐘內(nèi)采樣的次數(shù)。采樣頻采樣頻率是指一秒鐘內(nèi)采樣的次數(shù)。采樣頻率的選擇應(yīng)該遵循奈奎斯特(率的選擇應(yīng)該遵循奈奎斯特(Harry NyquistHarry Nyquist)采樣理論:)采樣理論:如果對某一模擬信號進行采樣,則采樣后可還原的最高信如果對某一模擬信號進行采樣,則采樣后可還原的最高信號頻率只有采樣頻率的一半。號頻率只有采樣頻率的一半。l量化位數(shù):量化位數(shù):量化位是對模擬音頻信號的幅度軸進行數(shù)字量化位是對模擬音頻信號的幅度軸進行數(shù)字化所采用的位數(shù),它決定了模擬信號數(shù)字化以后的動態(tài)范化所采用的位數(shù),它決定了模擬

10、信號數(shù)字化以后的動態(tài)范圍圍l聲道數(shù):聲道數(shù):有單聲道、雙聲道、多聲道之分。雙聲道在硬有單聲道、雙聲道、多聲道之分。雙聲道在硬件中要占兩條線路,音質(zhì)、音色好,但數(shù)字化后所占空間件中要占兩條線路,音質(zhì)、音色好,但數(shù)字化后所占空間比單聲道多一倍。比單聲道多一倍。數(shù)字音頻技術(shù)指標(biāo)數(shù)字音頻技術(shù)指標(biāo)量化位等份動態(tài)范圍(dB)應(yīng)用825648 - 50數(shù)字電話166553696 -100CD-DA15聲音質(zhì)量與數(shù)據(jù)率聲音質(zhì)量與數(shù)據(jù)率 數(shù)據(jù)率=取樣頻率x量化位數(shù)x通道數(shù)目例:電話語音=8kx8bx1=64kbps=8kB/s=28MB/h例:CD的數(shù)據(jù)率44.1KHz,16bits,2,16l編碼算法編碼算法

11、作用作用采用一定的格式來紀(jì)錄數(shù)字?jǐn)?shù)據(jù)采用一定的格式來紀(jì)錄數(shù)字?jǐn)?shù)據(jù)采用一定的算法來壓縮數(shù)字?jǐn)?shù)據(jù)以減少存貯空采用一定的算法來壓縮數(shù)字?jǐn)?shù)據(jù)以減少存貯空間和提高傳輸效率間和提高傳輸效率包括有損壓縮和無損壓縮包括有損壓縮和無損壓縮有損壓縮指解壓后數(shù)據(jù)不能完全復(fù)原,要丟失有損壓縮指解壓后數(shù)據(jù)不能完全復(fù)原,要丟失一部分信息。一部分信息?;局笜?biāo)之一是壓縮比基本指標(biāo)之一是壓縮比壓縮越多,信息丟失越多、信號還原后失真越壓縮越多,信息丟失越多、信號還原后失真越大大應(yīng)根據(jù)不同的應(yīng)用選用不同的壓縮編碼算法應(yīng)根據(jù)不同的應(yīng)用選用不同的壓縮編碼算法 數(shù)字音頻技術(shù)指標(biāo)(續(xù))數(shù)字音頻技術(shù)指標(biāo)(續(xù))17音頻壓縮編碼技術(shù)音頻壓縮編

12、碼技術(shù)主要依據(jù)是人耳的聽覺特性:主要依據(jù)是人耳的聽覺特性: 1. 人的聽覺系統(tǒng)中存在一個人的聽覺系統(tǒng)中存在一個 聽覺閾值電聽覺閾值電平平 ,低于這個電平的聲音,低于這個電平的聲音 信號人耳聽不信號人耳聽不到到 . 2. 人的聽覺存在人的聽覺存在 屏蔽效應(yīng)屏蔽效應(yīng) 。當(dāng)幾個強弱。當(dāng)幾個強弱不同的聲音同時存在時,強不同的聲音同時存在時,強 聲使弱聲難以聲使弱聲難以聽到,并且兩者之間的關(guān)系與其相對頻率聽到,并且兩者之間的關(guān)系與其相對頻率的大小有的大小有 關(guān)。關(guān)。4.2音頻數(shù)字壓縮音頻數(shù)字壓縮18l熵編碼熵編碼 如如HufmanHufman編碼、算術(shù)編碼以及行程編碼等。編碼、算術(shù)編碼以及行程編碼等。l

13、波形編碼波形編碼 全頻帶編碼如全頻帶編碼如PCMPCM、自適應(yīng)差分、自適應(yīng)差分PCMPCM等,子帶編碼如自等,子帶編碼如自適應(yīng)變換編碼適應(yīng)變換編碼ATCATC、心理學(xué)模型等,以及向量量化等在音、心理學(xué)模型等,以及向量量化等在音頻中均常常采用。波形編碼的特點是在高碼率的條件下頻中均常常采用。波形編碼的特點是在高碼率的條件下獲得高質(zhì)量的音頻信號,適用于高保真度語音和音樂信獲得高質(zhì)量的音頻信號,適用于高保真度語音和音樂信號的壓縮技術(shù)。號的壓縮技術(shù)。l參數(shù)編碼參數(shù)編碼 參數(shù)編碼的方法是將音頻信號以某種模型表示,再抽參數(shù)編碼的方法是將音頻信號以某種模型表示,再抽出合適的模型參數(shù)和參考激勵信號進行編碼;聲

14、音重放出合適的模型參數(shù)和參考激勵信號進行編碼;聲音重放時,再根據(jù)這些參數(shù)重建即可。時,再根據(jù)這些參數(shù)重建即可。參數(shù)編碼壓縮比很高,但計參數(shù)編碼壓縮比很高,但計算量大,而且不適合高保真度要求的場合。算量大,而且不適合高保真度要求的場合。 主要的音頻壓縮編碼類型主要的音頻壓縮編碼類型19l混合編碼混合編碼 是一種吸取波形和參數(shù)編碼的優(yōu)點,進行綜合的編碼方是一種吸取波形和參數(shù)編碼的優(yōu)點,進行綜合的編碼方法。法。l感知編碼感知編碼 感知編碼利用心理聲學(xué)分析原理來實現(xiàn)音頻壓縮。感知編碼利用心理聲學(xué)分析原理來實現(xiàn)音頻壓縮。例如例如MPEG Audio Layer 3 MPEG Audio Layer 3

15、采用的算法采用的算法ASPECASPEC(Adaptive Adaptive Spectral Perceptual Entropy Coding of high Spectral Perceptual Entropy Coding of high quality musical signalquality musical signal,高質(zhì)量音樂信號自適應(yīng)譜感,高質(zhì)量音樂信號自適應(yīng)譜感知熵編碼),將原始音頻信息數(shù)據(jù)壓縮率達到知熵編碼),將原始音頻信息數(shù)據(jù)壓縮率達到10:1 10:1 甚甚至至12:112:1。當(dāng)然這是一種有損壓縮,但是人耳卻基本不能。當(dāng)然這是一種有損壓縮,但是人耳卻基本不能分

16、辨出失真來。分辨出失真來。主要的音頻壓縮編碼類型(續(xù))主要的音頻壓縮編碼類型(續(xù))20波波 形形 編編 碼碼 算法算法 名稱名稱 數(shù)據(jù)率數(shù)據(jù)率 標(biāo)準(zhǔn)標(biāo)準(zhǔn) 應(yīng)用應(yīng)用 質(zhì)量質(zhì)量 PCM PCM 脈沖編碼調(diào)制脈沖編碼調(diào)制 公共網(wǎng)公共網(wǎng)SDNSDN配音配音 4.04.5 4.04.5 -law-law,A-law A-law -律,律,A-A-律律 64kbps 64kbps G.711 G.711 APCM APCM 自適應(yīng)脈沖編碼調(diào)制自適應(yīng)脈沖編碼調(diào)制 DPCM DPCM 差分脈沖編碼調(diào)制差分脈沖編碼調(diào)制 ADPCM ADPCM 自適應(yīng)差分脈沖編碼調(diào)制自適應(yīng)差分脈沖編碼調(diào)制 32kbps 32kb

17、ps G.721 G.721 SB-ADPCM SB-ADPCM 子帶子帶- -自適應(yīng)差分脈沖編碼調(diào)自適應(yīng)差分脈沖編碼調(diào)制制64kbps 64kbps G.722 G.722 5.3kbps 5.3kbps 6.3kbps 6.3kbps G.723 G.723 參參數(shù)數(shù)編編碼碼 LPC LPC 線性預(yù)測編碼線性預(yù)測編碼 2.4kbps 2.4kbps 保密話聲保密話聲 2.53.5 2.53.5 混混 合合 編編 碼碼 CELPC CELPC 碼激勵碼激勵LPC LPC 4.6kbps 4.6kbps 移動通信移動通信 4.03.7 4.03.7 VSELP VSELP 向量和激勵向量和激勵

18、LPC LPC 8kbps 8kbps 語音郵件語音郵件 RPE-LTP RPE-LTP 規(guī)則碼激勵長時預(yù)測規(guī)則碼激勵長時預(yù)測 13.2kbps 13.2kbps ISDN ISDN LD-CELP LD-CELP 低延時碼激勵低延時碼激勵LPC LPC 16kbps 16kbps G.728 G.728 G.729 G.729 MPEG MPEG 多子帶,感知編碼多子帶,感知編碼 128kbPs 128kbPs CD CD 5.0 5.0 Dolby AC-3 Dolby AC-3 感知編碼感知編碼 音響音響 5.0 5.0 音頻數(shù)字壓縮編碼算法及其特性比較音頻數(shù)字壓縮編碼算法及其特性比較2

19、1l實際應(yīng)用中為了得到高的壓縮率和好的聲音質(zhì)實際應(yīng)用中為了得到高的壓縮率和好的聲音質(zhì)量,常常要同時利用時域量,常常要同時利用時域- -頻域分析與心理聲學(xué)頻域分析與心理聲學(xué)分析,并使用多種編碼方法分析,并使用多種編碼方法實際應(yīng)用考慮22實際應(yīng)用考慮(續(xù))l時時- -頻分析可以包含下述技術(shù):頻分析可以包含下述技術(shù):l單元變換單元變換l時不變均勻帶通濾波器組時不變均勻帶通濾波器組l時時變變邊、臨界采樣的非均勻帶通濾波器組邊、臨界采樣的非均勻帶通濾波器組l混合變換混合變換/ /濾波器組信號分析器濾波器組信號分析器l諧波諧波/ /正弦波分析器正弦波分析器l源系統(tǒng)分析(源系統(tǒng)分析(LPC/LPC/多脈沖激

20、勵等)多脈沖激勵等)l心理聲學(xué)分析模塊根據(jù)聽覺絕對門限、臨界帶頻率分析、心理聲學(xué)分析模塊根據(jù)聽覺絕對門限、臨界帶頻率分析、掩蔽效應(yīng)等心理聲學(xué)原理估計出信號掩蔽功率,使量化和熵掩蔽效應(yīng)等心理聲學(xué)原理估計出信號掩蔽功率,使量化和熵編碼模塊可以充分利用時編碼模塊可以充分利用時- -頻分析得到的參數(shù)集中的感知不相頻分析得到的參數(shù)集中的感知不相關(guān)性。關(guān)性。 l量化和編碼模塊同時也采用經(jīng)典技術(shù)如差分脈沖碼調(diào)制量化和編碼模塊同時也采用經(jīng)典技術(shù)如差分脈沖碼調(diào)制(DPCMDPCM)或自適應(yīng))或自適應(yīng)DPCMDPCM(ADPCMADPCM)等來壓縮信號的統(tǒng)計冗余。)等來壓縮信號的統(tǒng)計冗余。l熵編碼可能使用熵編碼可

21、能使用RLERLE、算術(shù)編碼、赫夫曼編碼以及、算術(shù)編碼、赫夫曼編碼以及LZWLZW等。等。 23電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)電話質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 電話質(zhì)量語音信號頻率規(guī)定在電話質(zhì)量語音信號頻率規(guī)定在300Hz300Hz至至3.4kHz3.4kHz,采用標(biāo)準(zhǔn)的,采用標(biāo)準(zhǔn)的脈沖編碼調(diào)制(脈沖編碼調(diào)制(PCMPCM),當(dāng)采樣頻率為),當(dāng)采樣頻率為8kHz8kHz,進行,進行8bit8bit量化時,量化時,所得數(shù)據(jù)速率為所得數(shù)據(jù)速率為64kb/s64kb/s。G.711G.711(19721972年,年,CCITTCCITT):):PCMPCM標(biāo)準(zhǔn),速率為標(biāo)準(zhǔn),速率為64kbit/s64k

22、bit/s,采用,采用非線性量化,其質(zhì)量相當(dāng)于非線性量化,其質(zhì)量相當(dāng)于12bit12bit線性量化線性量化G.721 G.721 (19841984年,年,CCITT CCITT ):):ADPCMADPCM,32kb/s32kb/sG.728G.728(19921992年,年,CCITTCCITT):):LD-CELPLD-CELP,16kb/s16kb/s,質(zhì)量與,質(zhì)量與32kb/s32kb/s的的G.721G.721相當(dāng)相當(dāng)GSMGSM(19881988年,歐洲數(shù)字移動特別工作組):年,歐洲數(shù)字移動特別工作組): RPE-LTPRPE-LTP,13kb/s13kb/sVSELPVSELP

23、(8kb/s8kb/s)、)、LPCLPC(2.4b/s2.4b/s)、)、CELPCELP(4.8kb/s4.8kb/s)(美國)(美國)音頻編碼技術(shù)標(biāo)準(zhǔn)音頻編碼技術(shù)標(biāo)準(zhǔn)24調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)調(diào)幅廣播質(zhì)量的音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 頻率在頻率在50Hz50Hz至至7kHz7kHz范圍。范圍。將輸入音頻信號經(jīng)濾波器分成高子帶和低子帶兩個部分,分將輸入音頻信號經(jīng)濾波器分成高子帶和低子帶兩個部分,分別進行別進行ADPCMADPCM編碼,再混合形成輸出碼流。編碼,再混合形成輸出碼流??梢栽谡瓗ЬC合服務(wù)數(shù)據(jù)網(wǎng)可以在窄帶綜合服務(wù)數(shù)據(jù)網(wǎng)N-ISDNN-ISDN中的一個中的一個B B信道(信道(

24、64kbit64kbits s)上傳送調(diào)幅廣播質(zhì)量的音頻信號。)上傳送調(diào)幅廣播質(zhì)量的音頻信號。高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn)高保真度立體聲音頻壓縮編碼技術(shù)標(biāo)準(zhǔn) 頻率范圍是頻率范圍是50Hz50Hz至至20kHz20kHz,采用,采用44.1kHz44.1kHz采樣頻率,采樣頻率,16bit16bit量化量化進行數(shù)字化轉(zhuǎn)換,其數(shù)據(jù)速率每聲道達進行數(shù)字化轉(zhuǎn)換,其數(shù)據(jù)速率每聲道達705kbit705kbits s。音頻編碼技術(shù)標(biāo)準(zhǔn)音頻編碼技術(shù)標(biāo)準(zhǔn)25 MPEG-1 MPEG-1音頻音頻MPEG-1MPEG-1音頻標(biāo)準(zhǔn)音頻標(biāo)準(zhǔn) MPEG-1MPEG-1音頻編碼標(biāo)準(zhǔn)包括三部分(音頻編碼標(biāo)準(zhǔn)包括三部分

25、(Layer 1, 2, 3Layer 1, 2, 3) 層層1 1的編碼器最為簡單,編碼器的輸出數(shù)據(jù)的編碼器最為簡單,編碼器的輸出數(shù)據(jù)率為率為384 kbps384 kbps,主要用于小型數(shù)字盒式磁帶。,主要用于小型數(shù)字盒式磁帶。 層層2 2的編碼器的復(fù)雜程度屬中等,編碼器的的編碼器的復(fù)雜程度屬中等,編碼器的輸出數(shù)據(jù)率為輸出數(shù)據(jù)率為256 kb/s192 kb/s256 kb/s192 kb/s,其應(yīng)用包括,其應(yīng)用包括數(shù)字廣播、數(shù)字音樂、數(shù)字廣播、數(shù)字音樂、CD-ICD-I和和VCDVCD。 層層3 3的編碼器最為復(fù)雜,編碼器的輸出數(shù)據(jù)的編碼器最為復(fù)雜,編碼器的輸出數(shù)據(jù)率為率為64 kbps

26、64 kbps,是目前最為流行的一種音樂格式是目前最為流行的一種音樂格式。26聲音編碼系統(tǒng)基本結(jié)構(gòu)聲音編碼系統(tǒng)基本結(jié)構(gòu) 在編碼器中,輸入聲音信號經(jīng)過一個在編碼器中,輸入聲音信號經(jīng)過一個“時間時間- -頻率多相濾頻率多相濾波器組波器組”變換到頻域里的多個子帶中。變換到頻域里的多個子帶中。 輸入聲音信號同時經(jīng)過輸入聲音信號同時經(jīng)過“心理聲學(xué)模型心理聲學(xué)模型”,計算掩蔽特性。,計算掩蔽特性。 “ “量化和編碼量化和編碼”部分用信掩比(部分用信掩比(SMRSMR,signal-to-mask signal-to-mask ratio)ratio)來決定分配給子帶信號的量化位數(shù),使量化噪聲低于來決定分配

27、給子帶信號的量化位數(shù),使量化噪聲低于掩蔽域值。掩蔽域值。 通過通過“數(shù)據(jù)流幀包裝數(shù)據(jù)流幀包裝”將量化的子帶樣本和其他數(shù)據(jù)按照將量化的子帶樣本和其他數(shù)據(jù)按照規(guī)定的稱為規(guī)定的稱為“幀幀(frame)”(frame)”的格式組裝成數(shù)據(jù)流。的格式組裝成數(shù)據(jù)流。 解碼器對數(shù)據(jù)流進行解碼,恢復(fù)被量化的子帶樣本值以重解碼器對數(shù)據(jù)流進行解碼,恢復(fù)被量化的子帶樣本值以重建聲音信號。由于解碼器無需心理聲學(xué)模型,因此解碼器就建聲音信號。由于解碼器無需心理聲學(xué)模型,因此解碼器就比編碼器簡單得多。比編碼器簡單得多。27(a)編碼器 (b)解碼器 MPEG音頻編解碼器基本框圖28第第1 1層和第層和第2 2層編碼層編碼在

28、這兩層中,用有在這兩層中,用有3232個等間距子帶的濾波器組將輸入聲音個等間距子帶的濾波器組將輸入聲音PCMPCM信信號子帶分離,再由生理聲學(xué)模型導(dǎo)出動態(tài)比特分配,然后進行子號子帶分離,再由生理聲學(xué)模型導(dǎo)出動態(tài)比特分配,然后進行子帶樣值的塊壓縮和比特流打包。帶樣值的塊壓縮和比特流打包。三層音頻系統(tǒng)三層音頻系統(tǒng)29 使用的濾波器組是多相混合濾波器組使用的濾波器組是多相混合濾波器組 使用了心理聲學(xué)模型來評估掩蔽門限。使用了心理聲學(xué)模型來評估掩蔽門限。為了增加編碼增益,采用了非均勻量化和為了增加編碼增益,采用了非均勻量化和HuffmanHuffman編碼。編碼。并且使用了稱為比特池的緩存技術(shù)來維持編

29、碼效率和使并且使用了稱為比特池的緩存技術(shù)來維持編碼效率和使量化噪聲保持在掩蔽門限以下。量化噪聲保持在掩蔽門限以下。第第3層編解碼層編解碼30 MP3(MPEG-1 Layer 3),是當(dāng)今較流行的一種音頻格式,全稱為MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3。MP3是一種有損壓縮,它利用了人耳的聽覺特性來提高壓縮率的算法。在基本上保持CD音質(zhì)的前提下,MP3能將音頻數(shù)據(jù)壓縮到原有的1/10甚至更少。 MP3格式最早由德國弗朗霍夫研究院和法國湯姆生公司在1993年合作研制成功。但當(dāng)時的MP3格式并不完善,由于MP3的編碼方式開放,人

30、們可以選擇不同的原理進行壓縮,所以就出現(xiàn)了CBR、VBR、ABR等一批不同的編碼方式,并導(dǎo)致了當(dāng)今MP3編碼方式較為混亂的局面,但現(xiàn)在通用的編碼器為運用VBR或ABR編碼方式的LAME。MP3編解碼編解碼31兩種聲音數(shù)據(jù)壓縮格式:兩種聲音數(shù)據(jù)壓縮格式:MPEG-2 AudioMPEG-2 Audio,或者稱為或者稱為MPEG-2MPEG-2多聲道多聲道(MultichannelMultichannel)聲音,又稱為聲音,又稱為MPEG-2 BCMPEG-2 BC(Backward CompatibleBackward Compatible,后向兼容),與后向兼容),與MPEG-1 AudioM

31、PEG-1 Audio是兼容的。是兼容的。MPEG-2 AACMPEG-2 AAC(Advanced Audio CodingAdvanced Audio Coding,先先進的音頻編碼),通常稱為非后向兼容進的音頻編碼),通常稱為非后向兼容MPEG-2 MPEG-2 NBC(Non-Backward-CompatibleNBC(Non-Backward-Compatible,非后向兼容非后向兼容) )標(biāo)準(zhǔn),與標(biāo)準(zhǔn),與MPEG-1MPEG-1聲音格式不兼容。聲音格式不兼容。 MPEG-2音頻音頻32MPEG-2MPEG-2音頻特點音頻特點 MPEG-2 Audio MPEG-2 Audio是是

32、MPEGMPEG為多聲道聲音開發(fā)的低碼率編碼方案,為多聲道聲音開發(fā)的低碼率編碼方案,它是在它是在MPEG-1MPEG-1音頻標(biāo)準(zhǔn)基礎(chǔ)上發(fā)展而來的。和音頻標(biāo)準(zhǔn)基礎(chǔ)上發(fā)展而來的。和MPEG-1MPEG-1音頻相比,音頻相比,MPEG-2MPEG-2音頻主要增加了三個方面的內(nèi)容:音頻主要增加了三個方面的內(nèi)容: 增加了聲道數(shù),支持增加了聲道數(shù),支持5.15.1聲道和聲道和7.17.1聲道的環(huán)繞聲。聲道的環(huán)繞聲。 擴展了編碼器的輸出速率范圍,由擴展了編碼器的輸出速率范圍,由32kbps32kbps至至384kbps384kbps擴展擴展到到8 kbps8 kbps至至640kbps640kbps。 增加

33、了低取樣和低碼率。在保持增加了低取樣和低碼率。在保持MPEG-1MPEG-1音頻的單聲道和立音頻的單聲道和立體聲的原有取樣率體聲的原有取樣率32/44.1/48kHz32/44.1/48kHz的情況下,的情況下,MPEG-2MPEG-2又增加了又增加了三種取樣率,即把三種取樣率,即把MPEG-1MPEG-1的取樣率降低了一半(的取樣率降低了一半(16kHz16kHz、22.05kHz22.05kHz、24kHz24kHz),),以便提高碼率低于以便提高碼率低于64kbits/s64kbits/s時的每個聲時的每個聲道的聲音質(zhì)量。道的聲音質(zhì)量。33 MPEG-2 MPEG-2音頻標(biāo)準(zhǔn)把多聲道中的

34、中心聲道音頻標(biāo)準(zhǔn)把多聲道中的中心聲道C C、左右環(huán)繞、左右環(huán)繞LsLs、RsRs及低音效果增強聲道及低音效果增強聲道LFELFE等多聲道擴展信息看做等多聲道擴展信息看做是是MPEG-1MPEG-1左右聲道的輔助數(shù)據(jù)而傳送。左右聲道的輔助數(shù)據(jù)而傳送。而多聲道擴展部分包含了與而多聲道擴展部分包含了與MPEG-1MPEG-1聲音幀結(jié)構(gòu)相似的聲音幀結(jié)構(gòu)相似的信息類型。信息類型。 MPEG-2音頻碼流的幀結(jié)構(gòu) MPEG-2音頻多聲道擴展部分的數(shù)據(jù)結(jié)構(gòu)MPEG-2MPEG-2音頻特點音頻特點 34MPEG-2 MPEG-2 的的AACAAC是是MPEG-2MPEG-2標(biāo)準(zhǔn)中的一種非常靈活標(biāo)準(zhǔn)中的一種非常靈

35、活的聲音感知編碼標(biāo)準(zhǔn):的聲音感知編碼標(biāo)準(zhǔn): 使用聽覺系統(tǒng)的掩蔽特性來減少聲音的數(shù)據(jù)使用聽覺系統(tǒng)的掩蔽特性來減少聲音的數(shù)據(jù) 量量 通過把量化噪聲分散到各個子帶中,用全局通過把量化噪聲分散到各個子帶中,用全局信號把噪聲掩蔽掉信號把噪聲掩蔽掉 AACAAC支持的采樣頻率可從支持的采樣頻率可從 8kHz8kHz到到 96kHz96kHz AAC AAC編碼器的音源可以是單聲道的、立體聲編碼器的音源可以是單聲道的、立體聲的和多聲道的聲音。的和多聲道的聲音。 MPEG-2的的AAC35 MPEG-2MPEG-2音頻還支持音頻還支持DolbyDolby公司的數(shù)字聲音數(shù)據(jù)壓縮算法公司的數(shù)字聲音數(shù)據(jù)壓縮算法AC

36、-3AC-3(Audio Code Number 3Audio Code Number 3)。)。 AC-3AC-3的主要特點是利用人的聽覺系統(tǒng)特性來壓縮聲音的主要特點是利用人的聽覺系統(tǒng)特性來壓縮聲音數(shù)據(jù),并支持?jǐn)?shù)據(jù),并支持5 5個聲道個聲道( (左、中、右、左環(huán)繞、右環(huán)繞和左、中、右、左環(huán)繞、右環(huán)繞和0.1 0.1 kHzkHz以下的低音音效聲道以下的低音音效聲道) ),聲音樣本的精度為,聲音樣本的精度為2020比特,每比特,每個聲道的采樣率可以是個聲道的采樣率可以是32kHz32kHz,44.1kHz44.1kHz或者或者48kHz48kHz。 AC-3AC-3系統(tǒng)具有系統(tǒng)具有100100

37、的自適應(yīng)比特分配能力,允許數(shù)的自適應(yīng)比特分配能力,允許數(shù)據(jù)傳輸率在據(jù)傳輸率在32kbps32kbps至至640kbps640kbps之間變化。之間變化。AC-3AC-3質(zhì)量高,編質(zhì)量高,編碼器的復(fù)雜度也高,時延達到碼器的復(fù)雜度也高,時延達到100ms100ms。 AC-3編碼編碼36 MPEG-4 MPEG-4音頻標(biāo)準(zhǔn)分為自然音頻編碼和合成音頻編碼兩音頻標(biāo)準(zhǔn)分為自然音頻編碼和合成音頻編碼兩大類。大類。 自然音頻編碼提供三種編碼方案,即參數(shù)編碼,碼本自然音頻編碼提供三種編碼方案,即參數(shù)編碼,碼本激勵線性預(yù)測編碼,時間激勵線性預(yù)測編碼,時間/ /頻率(頻率(T/FT/F)編碼。)編碼。 合成音頻編

38、碼提供兩種編碼方案,即結(jié)構(gòu)音頻(和文合成音頻編碼提供兩種編碼方案,即結(jié)構(gòu)音頻(和文語轉(zhuǎn)換(語轉(zhuǎn)換(TTSTTS,text-to-speechtext-to-speech)。)。 每個編碼方案都按照兩部分來組織標(biāo)準(zhǔn)的內(nèi)容:標(biāo)準(zhǔn)每個編碼方案都按照兩部分來組織標(biāo)準(zhǔn)的內(nèi)容:標(biāo)準(zhǔn)部分描述解碼的語法和解碼過程,附錄部分描述編碼器部分描述解碼的語法和解碼過程,附錄部分描述編碼器和接口。和接口。 MPEG-4音頻音頻37 MPEG-4MPEG-4(ISO/IEC 14496ISO/IEC 14496)已建立了兩個版本,正在開)已建立了兩個版本,正在開發(fā)第發(fā)第3 3版。版。MPEG-4MPEG-4音頻部分促進廣

39、泛的應(yīng)用,這些應(yīng)用可能音頻部分促進廣泛的應(yīng)用,這些應(yīng)用可能包括從智能語音到高質(zhì)量多聲道音頻,從自然聲音到合成包括從智能語音到高質(zhì)量多聲道音頻,從自然聲音到合成聲音。它支持下述成分組成的音頻對象:聲音。它支持下述成分組成的音頻對象: 語音信號:能通過使用語音編碼工具實現(xiàn)位速在語音信號:能通過使用語音編碼工具實現(xiàn)位速在2kbps2kbps到到24kbps24kbps間的語音編碼。間的語音編碼。 合成語音:合成語音:可縮放的可縮放的TTSTTS編碼器的位速在編碼器的位速在200bps200bps到到1.2kbps1.2kbps之間。它允許一個文本或帶有韻律參數(shù)的文本(基之間。它允許一個文本或帶有韻律

40、參數(shù)的文本(基音輪廓,音素持續(xù)期等等)音輪廓,音素持續(xù)期等等)MPEG-4音頻音頻38MPEG-4ALS2005年7月形成了MPEG-4ALS的最終規(guī)格,并被國際標(biāo)準(zhǔn)組織接納成為標(biāo)準(zhǔn)ISO/IEC14496-3:2005/Amd2:2006AudioLosslessCoding(ALS)MPEG-4ALS同時面向?qū)I(yè)應(yīng)用和消費應(yīng)用而定義了高效、快速的無損音頻壓縮技術(shù)。它提供了許多其它無損壓縮方案所缺乏的特性:對幾乎所有未壓縮數(shù)字音頻格式的通用性支持,包括wav、aiff、au、bwf以及raw格式;支持PCM格式音頻最大采樣位數(shù)32位以及任意采樣頻率的任意組合,包括最常見的16位/44.1kH

41、z、16位/48kHz、24位/48kHz、24位/96kHz和24位/192kHz;支持多聲道/多音軌,最高支持65536個聲道,包括5.1環(huán)繞方式;支持32位IEEE浮點數(shù)音頻數(shù)據(jù);可快速地隨機訪問已編碼數(shù)據(jù)的任何部分;可選擇以MP4文件格式保存,支持與視頻復(fù)合。高度靈活的編解碼參數(shù),可適應(yīng)各種場合的應(yīng)用。39mp3HD 在各種開放源碼的無損音頻壓縮格式流行了多年之后,mp3也終于搭上了這趟車。mp3專利的持有人之一,紐約期貨市場上市公司Thomson于2009年3月19日發(fā)布了mp3格式的最新技術(shù):mp3HD。 mp3HD與mp3相比是完全不同的技術(shù):mp3HD是無損壓縮格式,也即從壓縮

42、的音頻中可以還原出與原始音頻一模一樣的數(shù)據(jù)。 使用mp3HD技術(shù)可以把音頻數(shù)據(jù)的大小縮減為在最好情況下是原來的37%的大小,而在最壞情況下也能達到原數(shù)據(jù)大小的65%左右 由于有著mp3這個被廣泛使用的有損音頻壓縮格式,因此mp3HD保留了對舊格式的兼容能力,包括:mp3HD本身的解碼器將會向后兼容原來的mp3格式;對于舊有的mp3播放器,mp3HD文件可以通過內(nèi)嵌有損壓縮的mp3文件來達到兼容播放的目的;mp3HD文件也同樣使用mp3作為文件擴展名;依舊使用ID3標(biāo)記來在音頻文件中存儲與音頻相關(guān)的文本信息。保持兼容型既是mp3HD的優(yōu)點,也是mp3HD的歷史包袱。40 文文- -語轉(zhuǎn)換是將文本

43、形式的信息轉(zhuǎn)換成自然語音的一種技術(shù),其最終語轉(zhuǎn)換是將文本形式的信息轉(zhuǎn)換成自然語音的一種技術(shù),其最終目標(biāo)是使計算機輸出清晰而又自然的聲音,也就是說,要使計算機像人目標(biāo)是使計算機輸出清晰而又自然的聲音,也就是說,要使計算機像人一樣,根據(jù)文本的內(nèi)容可帶各種情調(diào)來朗讀任意的文本。一樣,根據(jù)文本的內(nèi)容可帶各種情調(diào)來朗讀任意的文本。TTSTTS是一個十分是一個十分復(fù)雜的系統(tǒng),涉及到語言學(xué)、語音學(xué)、信號處理、人工智能等諸多的學(xué)復(fù)雜的系統(tǒng),涉及到語言學(xué)、語音學(xué)、信號處理、人工智能等諸多的學(xué)科。科。文本合成語音理解韻律生成韻律控制語音生成文本-音素轉(zhuǎn)換 TTS系統(tǒng)方框圖文文-語轉(zhuǎn)換語轉(zhuǎn)換41電子音樂合成電子音樂

44、合成 產(chǎn)生樂音的方法很多,現(xiàn)在用得較多的方法有模擬合成產(chǎn)生樂音的方法很多,現(xiàn)在用得較多的方法有模擬合成和數(shù)字合成兩大類。和數(shù)字合成兩大類。l模擬合成法,包括減法合成(濾波器模擬合成法,包括減法合成(濾波器 )和加法合成。)和加法合成。l數(shù)字合成法,包括頻率調(diào)制合成(數(shù)字合成法,包括頻率調(diào)制合成(FMFM),),波表合成波表合成(WavetableWavetable),),線線性性形合成(形合成(LALA),),先進集成式合成先進集成式合成(AIAI),),先進向量合成(先進向量合成(AVAV),),可變結(jié)構(gòu)合成技術(shù)可變結(jié)構(gòu)合成技術(shù)(VASTVAST)。)。 計算機中采用數(shù)字音樂合成技術(shù),主要采

45、用兩種方法:計算機中采用數(shù)字音樂合成技術(shù),主要采用兩種方法: 頻率調(diào)制合成法(頻率調(diào)制合成法(Frequency Modulation SynthesisFrequency Modulation Synthesis) 波表合成法(波表合成法(Wavetable SynthesisWavetable Synthesis,也稱為樂音樣本,也稱為樂音樣本合成法)合成法) 電子音樂合成與電子音樂合成與MIDI42頻率調(diào)制(頻率調(diào)制(FMFM,F(xiàn)requency ModulationFrequency Modulation)合)合成成 是通過硬件產(chǎn)生正弦信號,再經(jīng)處理合是通過硬件產(chǎn)生正弦信號,再經(jīng)處理合

46、成音樂。成音樂。合成的方式是將波形組合在一起,理論上可合成的方式是將波形組合在一起,理論上可以有無限多組波形。以有無限多組波形。每一個每一個FMFM聲音最少需要兩個信號發(fā)生器,一聲音最少需要兩個信號發(fā)生器,一般稱為般稱為“操作器(操作器(operatorsoperators)”。復(fù)雜的。復(fù)雜的FMFM系統(tǒng)每一個音可以使用系統(tǒng)每一個音可以使用4 4或或6 6個操作器。個操作器。 頻率調(diào)制合成頻率調(diào)制合成43 使用使用FMFM合成法來產(chǎn)生各種逼真的樂音是相當(dāng)困合成法來產(chǎn)生各種逼真的樂音是相當(dāng)困難的,有些樂音幾乎不能產(chǎn)生。難的,有些樂音幾乎不能產(chǎn)生。 波表合成(樂音樣本合成)法是將每種真實樂波表合成

47、(樂音樣本合成)法是將每種真實樂器發(fā)出的聲音抽樣,加以適當(dāng)?shù)奶幚砗蟠鎯Τ善靼l(fā)出的聲音抽樣,加以適當(dāng)?shù)奶幚砗蟠鎯Τ陕曇魳颖荆ㄒ羯募?,記錄在合成器的?nèi)存聲音樣本(音色文件),記錄在合成器的內(nèi)存當(dāng)中,需要時,調(diào)用相應(yīng)樣本來合成該樂器的當(dāng)中,需要時,調(diào)用相應(yīng)樣本來合成該樂器的樂音。樂音。 內(nèi)存器的容量越大,合成效果越好,價格也越內(nèi)存器的容量越大,合成效果越好,價格也越貴。貴。 波表合成合成器所需要的輸入控制參數(shù)比較少,波表合成合成器所需要的輸入控制參數(shù)比較少,可控的數(shù)字音效也不多,產(chǎn)生的聲音質(zhì)量比可控的數(shù)字音效也不多,產(chǎn)生的聲音質(zhì)量比FMFM合成方法產(chǎn)生的聲音質(zhì)量要高。合成方法產(chǎn)生的聲音質(zhì)量要高。

48、波表合成波表合成44 Wavetable合成器的工作原理Wavetable合成器的工作原理45MIDIMIDI(Musical Instrument Digital Musical Instrument Digital InterfaceInterface,樂器數(shù)字接口),樂器數(shù)字接口)2020世紀(jì)世紀(jì)8080年代早期年代早期問世問世MIDIMIDI提供一種標(biāo)準(zhǔn)的方式實現(xiàn)與音樂控制器如提供一種標(biāo)準(zhǔn)的方式實現(xiàn)與音樂控制器如鍵盤之類到聲音生成器如合成器和鼓鍵盤之類到聲音生成器如合成器和鼓聲合成器聲合成器等等的接口的接口MIDIMIDI并不傳輸聲音,而是傳輸非常簡單的消息并不傳輸聲音,而是傳輸非常簡

49、單的消息MIDI概述概述46 從電氣角度看從電氣角度看,MIDIMIDI是一個半雙工的是一個半雙工的5ma5ma電流回路,以電流回路,以31.25 K31.25 K波特(波特(kilobaudkilobaud)的位率運載)的位率運載8-bit8-bit的序列數(shù)據(jù)流的序列數(shù)據(jù)流經(jīng)由經(jīng)由MIDI “MIDI “交談交談”的兩個裝置能夠用光隔離器的兩個裝置能夠用光隔離器(optoopto-isolators-isolators)被電氣地隔離,確保硬件系統(tǒng)的被電氣地隔離,確保硬件系統(tǒng)的安全和無干擾運行安全和無干擾運行音頻卡連結(jié)到一個外部的聲音生成器或音頻卡連結(jié)到一個外部的聲音生成器或MIDIMIDI控

50、制器時控制器時需要特定的電纜需要特定的電纜 從信息的角度從信息的角度,MIDIMIDI是一種描述音樂上重要實時事件的語是一種描述音樂上重要實時事件的語言言通過通過1616個信道通信個信道通信 ,一個接口允許多達,一個接口允許多達1616個個MIDIMIDI樂器樂器播放播放,16,16個樂器能夠從一個裝置同時地播放個樂器能夠從一個裝置同時地播放增加第二個增加第二個MIDIMIDI接口則連通另外的接口則連通另外的 1616個個MIDIMIDI信道信道一些一些MIDIMIDI接口提供多達接口提供多達1616個輸出,使它能夠在同一時個輸出,使它能夠在同一時間存取間存取256256個信道。個信道。MID

51、I概述(續(xù))概述(續(xù))47MIDIMIDI并不傳輸聲音,而是傳輸接收裝置回應(yīng)的非常簡單的消息并不傳輸聲音,而是傳輸接收裝置回應(yīng)的非常簡單的消息樂器經(jīng)由一個標(biāo)準(zhǔn)的樂器經(jīng)由一個標(biāo)準(zhǔn)的5-DIN5-DIN插頭連接起來插頭連接起來例如:當(dāng)在鍵盤上壓一個鍵的時候,它向例如:當(dāng)在鍵盤上壓一個鍵的時候,它向MIDIMIDI電纜送一個音符響電纜送一個音符響(Note OnNote On)消息,命令接收裝置播放一個音符。消息由三種元素消息,命令接收裝置播放一個音符。消息由三種元素所組成:所組成:l一個狀態(tài)字節(jié):關(guān)于事件類型(在這種情況時是一個狀態(tài)字節(jié):關(guān)于事件類型(在這種情況時是Note OnNote On)的

52、信的信息以及它要被送往的信道息以及它要被送往的信道 (1(1至至1616號信道號信道) )l一個音符號:描述被壓的鍵,例如是中一個音符號:描述被壓的鍵,例如是中C C調(diào)調(diào)l速度值:指出打擊鍵的力量速度值:指出打擊鍵的力量接收裝置將會播放這一個音符直到收到包含相同數(shù)據(jù)的一個音符停止接收裝置將會播放這一個音符直到收到包含相同數(shù)據(jù)的一個音符停止(Note OffNote Off)消息。)消息。合成器根據(jù)正在被播放的聲音將以不同速度回應(yīng)合成器根據(jù)正在被播放的聲音將以不同速度回應(yīng)例如,當(dāng)更激烈地?fù)翩I時,鋼琴聲將更大聲。音調(diào)的質(zhì)量也要改變。例如,當(dāng)更激烈地?fù)翩I時,鋼琴聲將更大聲。音調(diào)的質(zhì)量也要改變。專業(yè)的

53、合成器時常引入額外的音色來模仿槌敲擊弦的聲音。專業(yè)的合成器時常引入額外的音色來模仿槌敲擊弦的聲音。連續(xù)控制器連續(xù)控制器 (CC(CC,Continuous Controllers)Continuous Controllers)通常用來控制設(shè)定通常用來控制設(shè)定音量、效果水平和改換聲道(音量、效果水平和改換聲道(panpan,即橫過一個立體聲場的聲音的即橫過一個立體聲場的聲音的定位)等。許多定位)等。許多MIDIMIDI裝置可以分配內(nèi)部參數(shù)到裝置可以分配內(nèi)部參數(shù)到 CCCC,有有128128種選擇。種選擇。MMAMMA(MIDI Manufacturers AssociationMIDI Manu

54、facturers Association,MIDIMIDI制造業(yè)者協(xié)會)為合制造業(yè)者協(xié)會)為合成器開發(fā)了規(guī)范,稱為通用成器開發(fā)了規(guī)范,稱為通用MIDIMIDI。MIDI概述(續(xù))概述(續(xù))48 MIDIMIDI電子樂器通過電子樂器通過MIDIMIDI接口與計算機相連接口與計算機相連 計算機可采集計算機可采集MIDIMIDI電子樂器發(fā)出的一系列指令并記錄到電子樂器發(fā)出的一系列指令并記錄到以以 .MID.MID為擴展名的為擴展名的MIDIMIDI文件中文件中 計算機可對計算機可對MIDIMIDI文件進行編輯和修改。最后,將文件進行編輯和修改。最后,將MIDIMIDI指指令送往音樂合成器令送往音樂

55、合成器 合成器將合成器將MIDIMIDI指令符號進行解釋并產(chǎn)生波形,然后送往指令符號進行解釋并產(chǎn)生波形,然后送往揚聲器播放出來揚聲器播放出來用PC構(gòu)成的MIDI系統(tǒng)MIDI音樂的產(chǎn)生音樂的產(chǎn)生49MIDIMIDI的新進展包括:的新進展包括: 新新MIDIMIDI接口接口 多工多工MIDIMIDI操作系統(tǒng)操作系統(tǒng) 網(wǎng)絡(luò)音樂網(wǎng)絡(luò)音樂 可下載聲音(可下載聲音(DLSDLS,downloadable downloadable soundssounds) MIDI的新進展的新進展50 語音識別一直是人類的夢想,語音識別一直是人類的夢想,其最終目標(biāo)是實現(xiàn)人與機器進行其最終目標(biāo)是實現(xiàn)人與機器進行自然語言通信

56、自然語言通信 。 最早的機器自動語音識別研究工作開始于最早的機器自動語音識別研究工作開始于2020世紀(jì)世紀(jì)5050年代。當(dāng)時年代。當(dāng)時的的BellBell實驗室實現(xiàn)了第一個可識別十個英文孤立數(shù)字的語音識實驗室實現(xiàn)了第一個可識別十個英文孤立數(shù)字的語音識別系統(tǒng)別系統(tǒng)AudryAudry系統(tǒng)。系統(tǒng)。 2020世紀(jì)世紀(jì)6060年代,計算機的應(yīng)用推動了語音識別的發(fā)展。提出了年代,計算機的應(yīng)用推動了語音識別的發(fā)展。提出了動態(tài)規(guī)劃和線性預(yù)測分析技術(shù)。動態(tài)規(guī)劃和線性預(yù)測分析技術(shù)。 2020世紀(jì)世紀(jì)7070年代,取得了突破。實現(xiàn)了基于線性預(yù)測倒譜和年代,取得了突破。實現(xiàn)了基于線性預(yù)測倒譜和DTWDTW技技術(shù)的特

57、定人孤立語音識別系統(tǒng)。術(shù)的特定人孤立語音識別系統(tǒng)。 2020世紀(jì)世紀(jì)8080年代,語音識別研究進一步走向深入。年代,語音識別研究進一步走向深入。HMMHMM模型和人工模型和人工神經(jīng)元網(wǎng)絡(luò)(神經(jīng)元網(wǎng)絡(luò)(ANNANN)在語音識別中成功應(yīng)用。)在語音識別中成功應(yīng)用。 進入進入2020世紀(jì)世紀(jì)9090年代,隨著多媒體時代的來臨,許多著名公司都年代,隨著多媒體時代的來臨,許多著名公司都為語音識別系統(tǒng)的實用化開發(fā)研究投以巨資。為語音識別系統(tǒng)的實用化開發(fā)研究投以巨資。 我國語音識別研究工作一直緊跟國際水平,國家也很重視。鑒我國語音識別研究工作一直緊跟國際水平,國家也很重視。鑒于中國未來龐大的市場,國外也非常

58、重視漢語語音識別的研究。于中國未來龐大的市場,國外也非常重視漢語語音識別的研究。語音識別語音識別51 按說話方式分:孤立字(詞)語音識別系統(tǒng)、連接字語按說話方式分:孤立字(詞)語音識別系統(tǒng)、連接字語音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng)。音識別系統(tǒng)以及連續(xù)語音識別系統(tǒng)。 根據(jù)對說話人的依賴程度分:特定人和非特定人語音根據(jù)對說話人的依賴程度分:特定人和非特定人語音識別系統(tǒng)。識別系統(tǒng)。 根據(jù)詞匯量大小分:小詞匯量、中等詞匯量、大詞匯根據(jù)詞匯量大小分:小詞匯量、中等詞匯量、大詞匯量以及無限詞匯量語音識別系統(tǒng)。量以及無限詞匯量語音識別系統(tǒng)。 面向任務(wù)的語音識別系統(tǒng)的一般方塊圖語音識別系統(tǒng)的分類語音識別系統(tǒng)的分

59、類52 語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個方面。此外,還涉及到語音識別單元的選取。術(shù)三個方面。此外,還涉及到語音識別單元的選取。 語音識別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,語音識別單元有單詞(句)、音節(jié)和音素三種,具體選擇哪一種,由具體的研究任務(wù)決定。由具體的研究任務(wù)決定。 單詞(句)單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng),但不適合單詞(句)單元廣泛應(yīng)用于中小詞匯語音識別系統(tǒng),但不適合大詞匯系統(tǒng),原因在于模型庫太龐大,訓(xùn)練模型任務(wù)繁重,模型大詞匯系統(tǒng),原因在于模型庫太龐大,訓(xùn)練模型任務(wù)繁重,模型

60、匹配算法復(fù)雜,難以滿足實時性要求。匹配算法復(fù)雜,難以滿足實時性要求。 音節(jié)單元多見于漢語語音識別,主要因為漢語是單音節(jié)結(jié)構(gòu)的音節(jié)單元多見于漢語語音識別,主要因為漢語是單音節(jié)結(jié)構(gòu)的語言,而英語是多音節(jié),并且漢語雖然有語言,而英語是多音節(jié),并且漢語雖然有13001300多個音節(jié),但若不多個音節(jié),但若不考慮聲調(diào),約有考慮聲調(diào),約有410410來來個無調(diào)音節(jié),數(shù)量相對較少。個無調(diào)音節(jié),數(shù)量相對較少。 音素單元以前多見于英語語音識別的研究中,但目前中、大詞音素單元以前多見于英語語音識別的研究中,但目前中、大詞匯量漢語語音識別系統(tǒng)也在越來越多地采用。雖然增加了模型數(shù)匯量漢語語音識別系統(tǒng)也在越來越多地采用。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論