音頻信息的獲取和處理

上傳人：卓*** IP屬地：廣東上傳時間：2024-05-06 格式：PPT 頁數(shù)：79 大小：4.68MB 積分：18 舉報 版權(quán)申訴

已閱讀5頁，還剩74頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

音頻信息的獲取和處理2.1聲音與聽覺（1）聲音：通過空氣傳播的一種連續(xù)的波，又稱聲波。由空氣振動引起耳膜的振動，由人耳所感知。聲音的度量：頻率與幅度（聲波壓力的大?。╊l率用音高表示，幅度用聲強(qiáng)表示與看得見的水波類似第2頁,共79頁，2024年2月25日，星期天2.1聲音與聽覺（2）聲音被分為無規(guī)則的噪音和有規(guī)則的音頻信號；有規(guī)則音頻信號是一種連續(xù)變化、周期性的模擬信號，可用一條連續(xù)的曲線來表示，稱為聲波。聲音分類語音：人的說話聲雖是一種特殊的媒體，但也是一種波形，所以和波形聲音的文件格式相同。音樂：規(guī)范的符號化了的聲音，樂譜可轉(zhuǎn)變?yōu)榉柮襟w形式。音效：指人類熟悉的其他聲音，如動物發(fā)聲、機(jī)器產(chǎn)生的聲音、自然界的風(fēng)雨雷電等。第3頁,共79頁，2024年2月25日，星期天2.1聲音與聽覺（3）帶寬與聽覺

音頻是指人類聽覺所感知范圍內(nèi)的頻率，也稱聲頻。次聲波(subsonic)：頻率低于20Hz的信號。超聲波(ultrasonic)：頻率高于20KHz的信號。音頻(Audio):頻率范圍是20Hz～20KHz的聲音信號。是人耳能聽到的聲音信號，次聲波和超聲波之間的音。音頻為可聽聲波，即屬于多媒體音頻信息范疇。第4頁,共79頁，2024年2月25日，星期天2.1聲音與聽覺（4）1020502003.4k7k15k20kCD-DAFM廣播AM廣播電話f(Hz)頻帶第5頁,共79頁，2024年2月25日，星期天2.1聲音與聽覺（5）模擬聲音信號：可分解成一系列正弦波的線性疊加。最低頻的音波稱為基音，頻率為基頻其余的為泛音（或稱諧音），頻率是基頻的整數(shù)倍聲音三要素：音高、音色、音強(qiáng)音調(diào)：由基頻決定，基頻取對數(shù)后與人的音調(diào)感覺成線形關(guān)系，基頻的頻率高則音調(diào)高，頻率低則音調(diào)低。音調(diào)高時聲音尖銳，俗稱高音；音調(diào)低時聲音沉悶，俗稱低音。音色：與波形相關(guān)，取決于聲波的頻譜，即由混入基音中的泛音決定，一個聲波上的諧波越豐富，音色越好。

音強(qiáng)：即聲音的響亮程度，與聲音信號的幅度成正比。用聲音信號的幅度取對數(shù)后再乘20所得值來描述聲強(qiáng)，以分貝（dB）為單位，此時稱為音量，振幅高時音強(qiáng)強(qiáng)，振幅低時音強(qiáng)弱。第6頁,共79頁，2024年2月25日，星期天2.1聲音與聽覺（6）第7頁,共79頁，2024年2月25日，星期天聽覺特性1、等響曲線

響度與頻率和強(qiáng)度有關(guān)，同一響度的聲音可以在頻率上和強(qiáng)度上有很大的差別。先設(shè)一個音為標(biāo)準(zhǔn)音，給予固定的頻率、強(qiáng)度和持續(xù)時間，例如1000Hz、40分貝、持續(xù)0.5秒；再給一個音也持續(xù)0.5秒，但頻率不同，通過調(diào)整使其響度聽起來一樣，得到的這樣一組曲線稱之為等響曲線。意義：多媒體系統(tǒng)的聲音再現(xiàn)頻率強(qiáng)度2.1聲音與聽覺（7）第8頁,共79頁，2024年2月25日，星期天2、掩蔽

聲音的響度同時也受到其他同時出現(xiàn)的聲音的影響，各種聲音可能相互掩蔽。如：開會場景。

各種聲音可以互相掩蔽，也就是說一種聲音的出現(xiàn)可能使得另一種聲音難于聽清。例如，本來是多種頻率的聲音的復(fù)合，但聽眾以為是另一種聲音。聲音的掩蔽效果可以欺騙人的聽覺，可用于聲音的壓縮。2.1聲音與聽覺（8）第9頁,共79頁，2024年2月25日，星期天3、相位

聲音的加強(qiáng)與抵消（同相和反相）

從聲音的波形來看，聲音的起點和方向也要反映聲音的特性，這就是聲音的相位。

當(dāng)兩個聲音相同相位完全相反時，它們將相互抵消；當(dāng)兩個聲音相同而且相位也相同時，聲音就會得到加強(qiáng)。

聲音的波形相位對于多聲道系統(tǒng)的設(shè)計非常重要，應(yīng)用于回聲的消除、會議系統(tǒng)的聲音設(shè)計等。2.1聲音與聽覺（9）第10頁,共79頁，2024年2月25日，星期天聲音的心理模擬

通過人工真實的方法，可以對視覺空間的景物進(jìn)行再造或虛構(gòu)，同樣也可以對聽覺空間的聲音進(jìn)行心理的模擬，這就是所謂的可聽化（audiolization）。用聲音可以表達(dá)出一些聲音的效果。2.1聲音與聽覺（10）第11頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（1）1.從模擬信號到數(shù)字信號模擬信號：在時間與幅度上都連續(xù)，記為x(t).離散信號：按一定的時間間隔T采樣，得到的x(nT).T為抽樣周期，1/T抽樣頻率此過程成為聲音信號的采樣數(shù)字信號：把抽樣序列x(nT)量化成一個有限個幅度的集合X(nT)，此過程為模擬信號的量化過程。將量化后的離散信號的進(jìn)行二進(jìn)制編碼，即以二進(jìn)制編碼來表示離散值的幅度，這種二進(jìn)制編碼信號叫做數(shù)字信號，第12頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（2）圖模擬信號、離散信號及數(shù)字信號1、用連續(xù)變化的曲線表示模擬信號；2、用圓點表示以相等時間間隔取值而得到的離散信號；3、縱坐標(biāo)上標(biāo)的是幅度的二進(jìn)制編碼值。第13頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（3）第14頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（4）2.聲音數(shù)字化：Sampling,Quantization,Coding采樣頻率與量化精度第15頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（5）數(shù)字聲音波形質(zhì)量的主要技術(shù)參數(shù)采樣頻率等于波形被等分的份數(shù)，份數(shù)越多，質(zhì)量越好11.025KHZ、22.05KHZ、44.1KHZ采樣精度每次采樣信息量8位、16位聲道數(shù)聲音產(chǎn)生的波形數(shù)，如多種語言音頻混存時，需要多聲道單聲道、立體聲道、5.1聲道數(shù)據(jù)量計算：(采樣頻率×采樣精度×通道數(shù)×?xí)r間)/8字節(jié)第16頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（6）3.采樣頻率奈奎斯特理論(Nyquist)定理（1928年提出原理，仙儂形成定理并應(yīng)用，1933年卡切尼科夫用公式表述）：采樣頻率≥2f這里f為被采樣信號的最高頻率。根據(jù)該定理，只要采樣頻率高于信號中最高頻率的兩倍，就可以從采樣中完全恢復(fù)原始信號的波形。因為人耳所能聽到的頻率范圍為20Hz到20KHz，所以實際的采樣過程中，為了達(dá)到好的效果，就采用44.1KHz作為高質(zhì)量聲音的采樣頻率。如果達(dá)不到這么高的頻率，聲音恢復(fù)的效果就會差一些，例如電話聲音的質(zhì)量等。一般來說，聲音恢復(fù)和采樣頻率、信道帶寬都有關(guān)。第17頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（7）采樣頻率與聲音的質(zhì)量關(guān)系最為緊密。采樣頻率越高，聲音質(zhì)量越接近原始聲音，所需的存儲量便越多。標(biāo)準(zhǔn)的采樣頻率有三個：44.1KHz，22.05kHz，和11.025kHz。第18頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（8）4.量化精度存放一個采樣點所需的比特數(shù)。一般的采樣位數(shù)為8位或16位，即把聲音采集為256等份或65536等分。量化：取樣值（-∞,+∞）→有限個數(shù)（量化值近似）若量化值有J個，若用二進(jìn)制表示，需要R=log(J)位量化誤差：用有限的離散值表示無限多的連續(xù)值，必然存在誤差.該誤差又稱為量化噪聲（與一般的噪聲不同）。第19頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（9）采樣精度可用信噪比表示:R為編碼位數(shù)第20頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（10）5.音頻數(shù)據(jù)率未經(jīng)壓縮的數(shù)字音頻數(shù)據(jù)率（bit/s）＝采樣頻率（Hz）×量化位數(shù)（bit）×聲道數(shù)音頻數(shù)據(jù)量（Byte）＝數(shù)據(jù)率（bit/s）×持續(xù)時間（s）/8第21頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（11）例：采樣率11.025KHz、量化位8位、單聲道，采集1分則：音頻數(shù)據(jù)率＝11.025（KHz）×8(bit)

＝88.2(Kbit/s)音頻數(shù)據(jù)量＝11.025（KHz）×8(bit)×60（s）/8

＝0.66(MByte)第22頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（12）6.聲道數(shù)聲道數(shù)指的是一次同時產(chǎn)生的聲波組數(shù)。（1）單聲道缺乏位置感（2）立體聲聲音在錄制過程中被分配到兩個獨立的聲道，但所占空間比單聲道多一倍。這種技術(shù)在音樂欣賞中尤為有用依然是許多產(chǎn)品遵循的技術(shù)標(biāo)準(zhǔn)第23頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（13）（3）四聲道環(huán)繞規(guī)定了4個發(fā)音點：前左、前右，后左、后右，同時建議增加一個低音音箱，以加強(qiáng)對低頻信號的回放處理（4.1聲道音箱系統(tǒng)廣泛流行的原因)。第24頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（14）（4）5.1聲道運用于各類傳統(tǒng)影院和家庭影院中，一些知名的聲音錄制壓縮格式，都以5.1聲音系統(tǒng)為技術(shù)藍(lán)本的。增加了“.1”聲道，一個中置單元,負(fù)責(zé)傳送低于80Hz的聲音信號。采用左(L)、中(C)、右(R)、左后(LS)、右后(RS)五個方向輸出聲音，使人產(chǎn)生猶如身臨音樂廳的感覺。五個聲道相互獨立，中央聲道大部份時間負(fù)責(zé)重放人物對白的部份；前置左/右聲道則用來彌補(bǔ)在屏幕中央以外或不能從屏幕看到的動作及其它聲音；后置環(huán)繞音效則是負(fù)責(zé)外圍及整個背景音樂，讓人感覺置身于整個場景的正中央，萬馬奔騰的震撼、噴射機(jī)從頭頂呼嘯而過的效果，就是拜它所賜；而馬達(dá)達(dá)聲、轟炸機(jī)的聲音或是大鼓等震人心弦的重低音，則是由重低音喇叭一手包辦第25頁,共79頁，2024年2月25日，星期天第26頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（15）7.音頻信號的獲取和處理從人與計算機(jī)交互的角度看，音頻信號的處理包括下述3點：人與計算機(jī)通信，也就是計算機(jī)接收音頻信號。包括音頻獲取、語音的識別和理解。計算機(jī)與人通信，也就是計算機(jī)輸出音頻。包括音樂合成、語音合成、聲音的定位以及音頻視頻的同步。人-計算機(jī)-人通信。人通過網(wǎng)絡(luò)與異地的人進(jìn)行語音通信，相關(guān)的音頻處理有語音采集、音頻的編碼和解碼、音頻的存儲、音頻的傳輸、基于內(nèi)容的檢索等。第27頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（16）音頻信號的獲取圖音頻信號獲取框圖壓縮第28頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（17）音頻信號的處理不管多媒體信息是音頻信號還是視頻信號，其數(shù)據(jù)量都是十分巨大的。如果像上圖的那樣，經(jīng)A/D轉(zhuǎn)換的數(shù)字化音頻信號直接進(jìn)入計算機(jī)進(jìn)行存儲(記錄)或進(jìn)行傳送，是不可取的。應(yīng)該先對音頻信號進(jìn)行壓縮，然后進(jìn)行存儲和傳輸。數(shù)據(jù)壓縮可以由專用芯片來完成也可以由軟件來實現(xiàn)。音頻信號的回放經(jīng)壓縮的音頻信號以一定的格式記錄在有關(guān)的媒體上，例如，磁帶、磁盤及光盤等，或者以一定的格式傳送到接收端。在音頻信號接收端或由媒體回放音頻信號時，首先由專用的硬件或軟件對壓縮數(shù)據(jù)進(jìn)行解壓縮，恢復(fù)音頻數(shù)字信號，然后，經(jīng)由下圖所示的電路框圖對音頻信號進(jìn)行放音。第29頁,共79頁，2024年2月25日，星期天2.2聲音信號數(shù)字化（18）圖音頻信號的回放框圖解壓縮第30頁,共79頁，2024年2月25日，星期天2.3聲音質(zhì)量的度量（1）1.聲音信號的帶寬:復(fù)合信號的頻率范圍稱為頻帶寬度。2.客觀質(zhì)量度量

SNR=有用信號的平均功率/噪聲的平均功率3.主觀質(zhì)量度量:人的感覺MOS:meanopinionscore.在語音評價過程中，主觀的質(zhì)量評價比較客觀的質(zhì)量評價更為恰當(dāng)。第31頁,共79頁，2024年2月25日，星期天2.3聲音質(zhì)量的度量（2）第32頁,共79頁，2024年2月25日，星期天2.3聲音質(zhì)量的度量（3）通常把聲音的質(zhì)量分為5個等級，由低到高分別是：電話、調(diào)幅廣播（AM）、調(diào)頻廣播(FM)、光盤(CD)、數(shù)字錄音帶(digitalaudiotape,DAT),它們使用的采樣頻率、樣本精度、通道數(shù)和數(shù)據(jù)率如下表：第33頁,共79頁，2024年2月25日，星期天2.4聲音信號的編碼（4）根據(jù)編碼器的實現(xiàn)機(jī)理，分成三大類波形編碼參數(shù)編碼混合編碼語音編碼分類第34頁,共79頁，2024年2月25日，星期天2.4聲音信號的編碼（5）波形編碼（或非參數(shù)編碼）——語音編碼系統(tǒng)早期用的是波形編碼方法。目的：力圖使重建的語音波形保持原語音信號的波形形狀。這種編碼器是把語音信號當(dāng)成一般的波形信號來處理，而并未考慮語音信號的冗佘度。

特點：優(yōu)點是具有較強(qiáng)的適應(yīng)能力，有較好的合成語音質(zhì)量，然而編碼速率高（64Kbit／s），編碼效率極低。脈沖編碼調(diào)制（PCM）、自適應(yīng)增量調(diào)制（ADM）、自適應(yīng)差分編碼（ADPCM）、自適應(yīng)編碼（APC）等都是屬于波形編碼（非參數(shù)編碼）。第35頁,共79頁，2024年2月25日，星期天參數(shù)編碼提取語音的一些特征信息進(jìn)行編碼，在收端利用這些特征參數(shù)合成語音。

20世紀(jì)30年代末脈沖編碼調(diào)制（PCM，PulseCodeModulation）原理和聲碼器（Vocoder）概念被提出后，語音數(shù)字編碼便一直沿著這兩個方向發(fā)展。 2.4聲音信號的編碼（6）第36頁,共79頁，2024年2月25日，星期天2.4聲音信號的編碼（7）聲碼器又稱參數(shù)編碼（或模型編碼），它主要是對提取的語音信號特征參數(shù)進(jìn)行編碼。

目的主要是使重建的語音信號具有盡可能高的可懂度，而不是要求重建波形保持原語音波形的形狀。因此，可能出現(xiàn)的情況是即使重建語音的可懂度高，但其時域波形與原語音的時域波形有較大的差別。

優(yōu)點是可達(dá)到極低的編碼速率而語音依然可懂，編碼速率可達(dá)到8Kbit／s、4．8Kbit／s甚至更低。

缺點是重建語音自然度低，韻律感差，合成語音質(zhì)量差。聲碼器的典型代表是通道聲碼器、共峰聲碼器及線性預(yù)測聲碼器等。

第37頁,共79頁，2024年2月25日，星期天

20世紀(jì)80年代至今，不僅聲碼器和波形編碼器得到了很大發(fā)展，并且還有一種全新的革命性編碼方法被普遍推廣，這類編碼器叫混合編碼器。這種編碼器在傳送器中對給定編碼結(jié)構(gòu)的所有可能性進(jìn)行綜合，找出輸人語音的最好編碼形式，并從這些可能性中發(fā)現(xiàn)輸入語音的最優(yōu)主觀匹配，然后用數(shù)碼表示這種主觀匹配并發(fā)送到接收器。利用線性預(yù)測、VQ、A－B－S、感覺加權(quán)、后濾波等技術(shù)得到的多脈沖激勵線性預(yù)測（MPELP，MultiPulseEnspiritLinePrognosticate），規(guī)則脈沖激勵線性預(yù)測（RPELP，RulePulseEnspiritLinePrognosticate），碼本激勵線性預(yù)測（CELP，CodeEnspiritLinePrognosticate）編碼速率達(dá)到8～16Kbit／s甚至更底，其話音質(zhì)量高、編碼速率低，但算法復(fù)雜。2.4聲音信號的編碼（8）第38頁,共79頁，2024年2月25日，星期天2.5電子樂器數(shù)字接口MIDI（1）聲音的符號化

波形聲音可以把音樂、語音都進(jìn)行數(shù)據(jù)化并且表示出來，但是并沒有把它看成音樂和語音。對于聲音的符號化（也可以稱為抽象化）表示包括兩種類型：一種是音樂，一種是語音。第39頁,共79頁，2024年2月25日，星期天2.5電子樂器數(shù)字接口MIDI（2）1）音樂的符號化－MIDI

MIDI(MusicInstrumentDigitalInterface)是指樂器數(shù)字接口的國際標(biāo)準(zhǔn)。

MIDI的關(guān)鍵是作為媒體能夠記錄這些音樂的符號，相應(yīng)的設(shè)備能夠產(chǎn)生和解釋這些符號。它給出了一種得到音樂聲音的方法。

MIDI規(guī)定了數(shù)字樂器接口的國際標(biāo)準(zhǔn)，它定義了不同廠家的樂器連接到計算機(jī)的電纜和硬件的規(guī)范，它定義了從一個設(shè)備向另一個設(shè)備傳送數(shù)據(jù)的通信接口。任何電子樂器，只要有處理MIDI消息的微處理器和合適的硬件接口，就構(gòu)成了一個MIDI設(shè)備。當(dāng)一組MIDI消息通過音樂合成芯片處理時，合成器能解釋這些符號并且產(chǎn)生音樂。

第40頁,共79頁，2024年2月25日，星期天2.5電子樂器數(shù)字接口MIDI（3）MIDI術(shù)語MIDI消息：指樂譜的數(shù)字描述，實際上是一段對音樂的符號描述。MIDI設(shè)備：任何電子樂器，只要有處理MIDI消息的微處理器和合適的硬件接口，就構(gòu)成了一個MIDI設(shè)備。當(dāng)一組MIDI消息通過音樂合成芯片處理時，合成器能解釋這些符號并且產(chǎn)生音樂。復(fù)音：是指一個合成器每次可支持的最多音符個數(shù)。音色：音色就是音質(zhì)，指與某特定的樂器相關(guān)聯(lián)的特有的聲音。第41頁,共79頁，2024年2月25日，星期天2.5電子樂器數(shù)字接口MIDI（4）MIDI文件：記錄MIDI信息的標(biāo)準(zhǔn)文件格式。MIDI文件中包含音符、定時和多達(dá)16個通道的樂器定義。文件中含有每個音符的信息，包括鍵、通道號、持續(xù)時間、音量和力度等。

MIDI文件中包含了一連串的MIDI信息，MIDI信息由若干個字節(jié)組成。下表為MIDI信息標(biāo)準(zhǔn)。第42頁,共79頁，2024年2月25日，星期天第43頁,共79頁，2024年2月25日，星期天2.5電子樂器數(shù)字接口MIDI（5）通常第一個字節(jié)為狀態(tài)字節(jié)，其高位為1，數(shù)據(jù)字節(jié)高位為0。例如信息：

9nkkvv，9表示音樂起始，n表示通道號（0～15），kk表示鍵編號（0～127），vv表示速度（0～127）。第44頁,共79頁，2024年2月25日，星期天2.5電子樂器數(shù)字接口MIDI（6）MIDI的通道概念單個物理MIDI通道分為16個邏輯通道，每個邏輯通道可指定一種樂器。MIDI鍵盤可設(shè)置在這16個通道中的任何一個，MIDI合成器可以被設(shè)置在指定的通道上接受。通道的編碼為0～15，0通道為基本通道。

第45頁,共79頁，2024年2月25日，星期天2.5電子樂器數(shù)字接口MIDI（7）MIDI的物理接口標(biāo)準(zhǔn)

各個MIDI設(shè)備通過專用的串行電纜(MIDI線)連接，并以31.25kbps（每字節(jié)10位）的速度傳送著數(shù)字音樂信息。ThruOutIn第46頁,共79頁，2024年2月25日，星期天MPC的聲卡上包含一個內(nèi)部合成器和標(biāo)準(zhǔn)的三類MIDI接口：從MIDI設(shè)備接收信息的MIDI輸入，向MIDI設(shè)備發(fā)送信息的MIDI輸出，從MIDI設(shè)備輸入并轉(zhuǎn)到其他MIDI設(shè)備的MIDIthru。2.5電子樂器數(shù)字接口MIDI（8）第47頁,共79頁，2024年2月25日，星期天2.5電子樂器數(shù)字接口MIDI（9）最常用的MIDI設(shè)備連接方法，是用一根MIDI電纜將演奏控制器的MIDIOUT端口與計算機(jī)(內(nèi)有音序器)的MIDIIN端口相連接，同時用另一根MIDI電纜將計算機(jī)的MIDIOUT端口與音源MIDIIN端口相連接，這樣由演奏控制器發(fā)出的演奏信息便可被計算機(jī)接收和存儲，經(jīng)過處理后送到音源去演奏。第48頁,共79頁，2024年2月25日，星期天MIDI聲音與波形數(shù)字音頻的比較文件內(nèi)容不同：彈奏指令－－聲音波形本身存儲容量不同：半小時16位立體聲音，MIDI數(shù)據(jù)為200KB，無壓縮的波形音頻為300MB，相差1500倍之多?？商幚砺曇舨煌翰ㄐ我纛l可處理各類聲音，包括語音、自然聲音、音樂等，而MIDI只適合于電子合成樂可編輯性不同：在音序器的幫助下，可靈活編輯MIDI，自由改變音調(diào)、音色等，而波形較困難。使用方式不同：MIDI可用于長時間的音樂、伴樂、背景音效等。波形音頻常用于語音表現(xiàn)，文語轉(zhuǎn)換等（TTS）。2.5電子樂器數(shù)字接口MIDI（10）第49頁,共79頁，2024年2月25日，星期天MIDI音樂合成

使用電子元器件（計算機(jī)）生成音樂的技術(shù)稱為電子音樂合成。MIDI文件音序器合成器揚聲器2.5電子樂器數(shù)字接口MIDI（11）第50頁,共79頁，2024年2月25日，星期天2.5電子樂器數(shù)字接口MIDI（12）MIDI文件：記錄存儲MIDI信息的標(biāo)準(zhǔn)文件格式

MIDI信息：一段音樂的描述，樂譜的數(shù)字描述，彈奏指令（音符的信息包括按鍵、通道號、持續(xù)時間、音量和力度等）音序器（Sequencer）:用于記錄、編輯、播放

MIDI文件，輸入并輸出MIDI信息，分為軟件音序器與硬件音序器。合成器：接收數(shù)字音頻，生成模擬信號波形

FM調(diào)頻合成波表合成（WaveTable）音樂合成器有許多不同的類型和芯片集。第51頁,共79頁，2024年2月25日，星期天2.5電子樂器數(shù)字接口MIDI（13）MIDI的特點：與波形聲音相比，MIDI不是聲音數(shù)據(jù)而是指令，所以數(shù)據(jù)量要少得多。30分鐘的音樂，用MIDI文件記錄只需200KB，用16位CD品質(zhì)的未壓縮WAV文件記錄需317MBMIDI可以與其他波形聲音配合使用，形成伴樂的效果。而兩個波形聲音一般是不能同時使用的對MIDI的編輯也很靈活，用戶可以自由地改變音調(diào)、音色等屬性，直到自己想要的效果MIDI在音質(zhì)上還不能與真正的樂器完全相似。無法模擬自然界中其它非樂曲類聲音第52頁,共79頁，2024年2月25日，星期天2.5電子樂器數(shù)字接口MIDI（14）2）語音的符號化語音與文字是對應(yīng)的。波形聲音可以記錄表示語音，它是不是語音取決于聽者對聲音的理解。對語音的符號化實際上就是對語音的識別，將語音轉(zhuǎn)變?yōu)樽址?，反之也可以將文字合成語音。語音指構(gòu)成人類語音信號的各種聲音。在采集和存儲上可以與波形聲音一樣，但由于語音是由一連串的音素組成?！耙痪湓挕敝邪S多音節(jié)以及上下文過渡過程的連接體等特殊的信息，并且語音本身與語言有關(guān)，所以要把它作為一個獨立的媒體來看待。第53頁,共79頁，2024年2月25日，星期天2.6音頻媒體的三維化處理（1）1．三維虛擬聲空間

虛擬聽覺空間就是在虛擬環(huán)境中加入與視覺并行的三維虛擬聲音，使收聽者在模擬環(huán)境中收聽到的聲信號逼近在真實環(huán)境聲場中收聽到的聲信號。

三維虛擬聲空間（ThreeDimensionalVirtualAcoustic，3DVA），是指用一定的聲音設(shè)備人為地產(chǎn)生出來的具有空間位的、聲音空間。

第54頁,共79頁，2024年2月25日，星期天2.6音頻媒體的三維化處理（2）

三維聽覺的使用明顯地依賴于用戶對聽覺空間中各種信息源的定位能力。一般說來，三維虛擬聲空間要達(dá)到以下的一些目標(biāo)：在可聽的范圍內(nèi)重現(xiàn)頻率分辨度和動態(tài)范圍；在三維空間中精確地呈現(xiàn)聲音的位置信息；能表達(dá)多個靜止和移動的聲源；能和頭部的動作具有一定的關(guān)聯(lián)；能夠支持一定程度的交互。第55頁,共79頁，2024年2月25日，星期天2.6音頻媒體的三維化處理（3）2．3DVA的基本理論

人類感知聲源位置的最基本的理論是雙工理論，該理論基于兩種因素：兩耳間聲音的到達(dá)時間差I(lǐng)TD（InterauralTimeDifferences）兩耳間聲音的強(qiáng)度差I(lǐng)ID（InterauralIntensityDifferences）

時間差是由于距離的原因造成的，當(dāng)聲音從正面?zhèn)鱽頃r，距離相等，所以沒有時間差；但若偏右3o，則到達(dá)右耳的時間就要比左耳約早30ms，而正是這30ms，使我們辨別出了聲源的位置。

強(qiáng)度差是由于信號衰減造成的，信號的衰減是因為距離產(chǎn)生的，在很多情況下是因為人的頭部遮擋，使聲音衰減，產(chǎn)生了強(qiáng)度的差別，使靠近聲源一側(cè)的耳朵聽到的聲音強(qiáng)度要大于另一耳。第56頁,共79頁，2024年2月25日，星期天雙工理論(DuplexTheory)

-人類感知聲源位置的最基本的理論兩耳間的時間差(ITD,InterauralTimeDifferences)：ITD＝（3*頭部的半徑*100/聲音速度）*Sin(方位角)f<=4kHzITD＝（2*頭部的半徑*100/聲音速度）*Sin(方位角)f>4kHz方位角是人頭部相對聲源的角度。Example:方位角45°，高頻，頭部半徑9cm，聲音速度343m/s。則：ITD＝0.037107s＝（模擬）把給右耳送聲音之后隔37.1ms再給左耳送聲音。ITD2.6音頻媒體的三維化處理（4）第57頁,共79頁，2024年2月25日，星期天雙工理論兩耳間的強(qiáng)度差(InterauralIntensityDifferences)IID＝1.0＋(f/1000)0.8*Sin(方位角)其中f是頻率。理想條件：無反射、無折射、單頻率實際情況：復(fù)雜、雙工理論無法區(qū)分前后、垂直平面ITD信號的衰減造成3DVA理論較形象地說明：人耳對聲音定位的特性，通過大腦的綜合作用后，對有差別的聲音信號進(jìn)行了相對于空間位置的定位。2.6音頻媒體的三維化處理（5）第58頁,共79頁，2024年2月25日，星期天3.HRTF（Head-RelatedTransferFunction）方法生理學(xué)與心理學(xué)的研究表明：人耳對聲源方位的判定起決定作用的是耳廓聲音信號的兩個重要信息：空間真實感與環(huán)境真實感美國NASAAmes研究中心音響實驗室：在人的頭部和耳廓的作用下，聲波的時域與頻域，對兩耳都不同實現(xiàn)空間真實感的關(guān)鍵是：建立耳廓模型，“雙耳相關(guān)函數(shù)法”，利用HRTF算法來實現(xiàn)三維虛擬聲音HRTF：與頭部有關(guān)的轉(zhuǎn)移函數(shù)。HRTF是一種聲音定位的處理技術(shù)，由于聲音會從耳廓、或肩膀反射到人耳內(nèi)部，所以其算法與處理的原理非常復(fù)雜。2.6音頻媒體的三維化處理（6）第59頁,共79頁，2024年2月25日，星期天HRTF是從測量聲音強(qiáng)度開始的，它測量了在十分精確的角度下聲音頻率對聲音強(qiáng)度變化的影響。當(dāng)聲音頻率變化時，在聽者的耳中的微型麥克風(fēng)拾取了原始聲音的改變信息，在一個頻率范圍內(nèi)的全部變化就被稱為“轉(zhuǎn)移函數(shù)”

測量一個位置的頻率變化，以及多個位置的轉(zhuǎn)移函數(shù)作為合成聲激勵的濾波器的基礎(chǔ)把單音變成虛擬聲2.6音頻媒體的三維化處理（7）第60頁,共79頁，2024年2月25日，星期天因此，在利用HRTF進(jìn)行虛擬聲音的產(chǎn)生時，不同的算法其效果差異很大，而且，隨著具體聽者的不同，其效果也會有所不同。因此，有的標(biāo)準(zhǔn)如A3D3.0支持個人化的HRTF設(shè)置（即根據(jù)自己頭部的形狀來下載HRTF設(shè)置庫），從而達(dá)到最好效果的虛擬聲音空間。左圖是F.Wightman和D.Kistler通過實驗測量所得到的HRTF（幅度部分）的例子。在高頻（f>5KHz)的情況，曲線的峰和谷是由耳殼散射所引起的。值得注意的是，對不同的傾聽者，曲線的高頻部分相差較大，峰谷的位置互不相同。這是因為人的耳殼形狀的差別所致。圖實驗測量所得的三個不同傾聽者的HRTF曲線2.6音頻媒體的三維化處理（8）第61頁,共79頁，2024年2月25日，星期天從理論上利用HRTF產(chǎn)生真實空間聲音的算法如左圖所示。

2.6音頻媒體的三維化處理（9）第62頁,共79頁，2024年2月25日，星期天目前有不少聲音芯片設(shè)計廠商和相關(guān)領(lǐng)域的研究部門參與這種算法的開發(fā)和設(shè)計工作。雖然原理大同小異，但由于在分析和研究過程中的手段稍有不同，所以各類HRTF算法之間也會有或多或少的性能差異。如：DirectSound3D：源自于MicrosoftDirectX的老牌音頻API。A3D：Aureal公司聯(lián)合了NASA、Matsushita、Disney等廠商經(jīng)過多年開發(fā)的一項專利技術(shù)，3D定位技術(shù)。A3DSurround和A3DInteractive、聲波追蹤技術(shù)。EAX：環(huán)境音效擴(kuò)展，EnvironmentalAudioExtensions，EAX是由創(chuàng)新和微軟聯(lián)合提供，作為DirectSound3D擴(kuò)展的一套開放性的API。

Sensaura：CRL開發(fā)的HRTF算法，支持包括A3D1.0和EAX、DS3D在內(nèi)的大部分主流3D音頻API。并且此技術(shù)已經(jīng)廣泛運用于ESS、YAMAHA和CMI的聲卡芯片上，從而成為了影響比較大的一種技術(shù)，從實際試聽效果來看也的確不錯。Q3D，是由加拿大QsoundLabs所推出的3D定位算法

相關(guān)參考文獻(xiàn)《頭相關(guān)傳輸函數(shù)與虛擬聽覺》謝菠蓀著國防工業(yè)出版社

2.6音頻媒體的三維化處理（10）第63頁,共79頁，2024年2月25日，星期天4、應(yīng)用——虛擬杜比環(huán)繞聲原理

虛擬環(huán)繞聲的英文是VirtualSurround，也有叫SimulatedSurround，人們把這種技術(shù)稱為非標(biāo)準(zhǔn)環(huán)繞聲技術(shù)。非標(biāo)準(zhǔn)環(huán)繞聲系統(tǒng)是在雙聲道立體聲的基礎(chǔ)上，不增加聲道和音箱，把聲場信號通過電路處理后播出，使聆聽者感到聲音來自多個方位，產(chǎn)生仿真的立體聲場。

實現(xiàn)虛擬杜比環(huán)繞聲的關(guān)鍵是聲音的虛擬化處理，依據(jù)了人的生理聲學(xué)和心理聲學(xué)原理專門處理環(huán)繞聲道，制造出環(huán)繞聲源來自聽眾后方或側(cè)面的幻象感覺。應(yīng)用了人耳聽音原理的幾種效應(yīng)。2.6音頻媒體的三維化處理（11）第64頁,共79頁，2024年2月25日，星期天雙耳效應(yīng):英國物理學(xué)家瑞利于1896年通過實驗發(fā)現(xiàn)人的兩只耳朵對同一聲源的直達(dá)聲具有時間差（0.44-0.5微秒）、聲強(qiáng)差及相位差，而人耳的聽覺靈敏度可根據(jù)這些微小的差別準(zhǔn)確判斷聲音的方向、確定聲源的位置，但只能局限于確定前方水平方向的聲源，不能解決三維空音聲源的定位。耳廓效應(yīng):人的耳廓對聲波的反射以及對空間聲源的定向有重要的定向作用。借此效應(yīng)，可判定聲源的三維位置。人耳的頻率濾波效應(yīng):人耳的聲音定位機(jī)制與聲音頻率有關(guān)，對20-200赫的低音靠相位差定位，對300-4000赫的中音靠聲強(qiáng)差定位，對高音則靠時間差定位。據(jù)此原理可分析出重放聲音中的語言、樂音的差別，經(jīng)不同的處理而增加環(huán)繞感。頭部相關(guān)傳輸函數(shù):人的聽覺系統(tǒng)對不同方位的聲音產(chǎn)生不同的頻譜，而這一頻譜特性可由頭部相關(guān)傳輸函數(shù)HRTF（HeadRelatedTransferFunction）來描述。

2.6音頻媒體的三維化處理（12）第65頁,共79頁，2024年2月25日，星期天綜上所述，人耳的空間定位包括水平、垂直及前后三個方向。水平定位主要靠雙耳，垂直定位主要靠耳殼，而前后定位及對環(huán)繞聲場的感受靠HRTF函數(shù)。虛擬杜比環(huán)繞聲依據(jù)這些效應(yīng)，人為制造與實際聲源在人耳處一樣的聲波狀態(tài)，使人腦在相應(yīng)空間方位上產(chǎn)生對應(yīng)的聲像。

2.6音頻媒體的三維化處理（13）第66頁,共79頁，2024年2月25日，星期天世界首位虛擬主持人Ananova綜合應(yīng)用——虛擬主持人第67頁,共79頁，2024年2月25日，星期天

ananova是英國新聞機(jī)構(gòu)聯(lián)合社下屬的高科技公司（PA）在硅谷的支持下，經(jīng)過9個月的研究制作完成的。1999年4月19日，ananova(安娜諾娃)在自己的網(wǎng)站上開始了第一次新聞播音。

她依托成熟的三維游戲技術(shù)和即時同步語音處理技術(shù)在全球網(wǎng)民中引起了轟動，其所在網(wǎng)站竟然為之擁堵。電腦用戶除了可以聽到她的新聞播音外，還可以定制新聞。甚至可以和她聊天。她會告訴你為什么她的頭發(fā)是這個顏色，她是怎么來的，她喜歡什么，害怕什么~~~

2.6音頻媒體的三維化處理（14）第68頁,共79頁，2024年2月25日，星期天

我國電視虛擬主持人的起步還是很早的。

2001年12月吉林電視臺《世界視窗》節(jié)目主持人“TVNO.1”就粉墨登場了。同時它還號稱是“世界首位電視虛擬主持人”。

2001年，又有江蘇電視臺“QQ小姐”、中央電視臺“伊妹兒”和天津電視臺“言東方”等虛擬主持人相繼亮相。2.6音頻媒體的三維化處理（15）第69頁,共79頁，2024年2月25日，星期天比爾-鄧言東方中國首位虛擬主持人北京迪生計算機(jī)圖形圖像有限公司以及發(fā)行商七網(wǎng)絡(luò)亞洲公司

2.6音頻媒體的三維化處理第70頁,共79頁，2024年2月25日，星期天CCTV首位虛擬主持人---小龍2004年11月20日，央視6套正式推出了主持《光影周刊》的三維虛擬人物——小龍。第71頁,共79頁，2024年2月25日，星期天

結(jié)合了配音、場景剪輯、聲畫合一和各種效果特技流程，并采用了先進(jìn)的真人動作捕捉技術(shù)打造出的“小龍”可謂是我國電視虛擬主持人史上劃時代的一筆。他突破了此前幾位虛擬主持人的技術(shù)瓶頸，比如發(fā)型、衣著變化所需要的龐大數(shù)據(jù)支持等。此外，他還能夠真正站起來、走起來、動起來，初步具備了一位節(jié)目主持人的雛形，而不只是單調(diào)呆板的新聞播報員。

三維技術(shù)、語音合成技術(shù)、動作傳感技術(shù)等數(shù)字技術(shù)的發(fā)展為電視虛擬主持人的產(chǎn)生和發(fā)展提供了技術(shù)推動力。2.6音頻媒體的三維化處理（16）第72頁,共79頁，2024年2月25日，星期天虛擬主持人的設(shè)計與實現(xiàn)虛擬主持人的設(shè)計與實現(xiàn)包括：形象設(shè)計和節(jié)目制作兩個基本流程虛擬主持人的形象設(shè)計一個虛擬主持人首先必須有一個好的形象這個形象必須適合所面對的觀眾和用戶。所以在進(jìn)行虛擬主持人的形象設(shè)計之前．首先必須定位觀眾和用戶．然后再賦予虛擬主持人以真人的基本品質(zhì)．如身高、年齡個性、喜好等等。比如51GO的老牌虛擬主持人“GoGirl“

為了迎合中國當(dāng)時占網(wǎng)民總數(shù)80％的男性人群設(shè)計師把她設(shè)計成青春形象的漂亮女孩而且賦予她李汶激情現(xiàn)代的個性和趙薇的活潑和俏皮．同時賦予她苗條的身材和愛泡咖啡店的特色．并給她起了個中外名字”夠女孩兒”和“GoGirI。完成形象定位之后．就可以通過下面幾個步

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

音頻信息的獲取和處理

文檔簡介

溫馨提示

最新文檔

評論

音頻信息的獲取和處理

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔