版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
關(guān)于語音處理的基本知識第一頁,共92頁幻燈片音頻處理技術(shù)的研究意義聲音(音頻)是信息交流的一種主要手段,是數(shù)字媒體信息的重要組成部分;信息技術(shù)、計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,使音頻處理技術(shù)受到重視并得到廣泛應(yīng)用,需求也日益多樣。第二頁,共92頁幻燈片2.1數(shù)字音頻基礎(chǔ)聲音的物理描述產(chǎn)生原理物理特性聽覺特性聲音信號數(shù)字化聲音質(zhì)量評價(jià)第三頁,共92頁幻燈片(1)聲音簡介音頻信號聲音是聽覺器官對聲波的感知,人們之所以能聽到各種聲音,是因?yàn)椴煌l率的聲波通過空氣產(chǎn)生振動(dòng),對人耳刺激的結(jié)果。聲波是聲源產(chǎn)生的,通過空氣或其他媒體傳播的連續(xù)振動(dòng)的波。因聲波是在時(shí)間和幅度上都連續(xù)變化的量,聲波是一種連續(xù)變化的模擬信號,可用一條連續(xù)的曲線來表示,稱為聲波,或者叫做音頻信號。第四頁,共92頁幻燈片(1)聲音簡介用函數(shù)關(guān)系表示模擬聲波時(shí),它是在時(shí)間和幅度上都是連續(xù)的一維模擬信號,如圖1所示
圖1聲音是一種連續(xù)的波第五頁,共92頁幻燈片(1)聲音簡介模擬音頻信號基本參數(shù):頻率和幅度。音頻信號的幅度是從信號的基線到當(dāng)前波峰的距離。幅度決定了信號音量的強(qiáng)弱程度。幅度越大,聲音越強(qiáng)。一般用聲壓(達(dá)因/平方厘米)或聲強(qiáng)(瓦特/平方厘米)。聲源每秒鐘可產(chǎn)生成百上千個(gè)波峰,每秒鐘波峰所發(fā)生的數(shù)目就是音頻信號的頻率,聲音的頻率體現(xiàn)音調(diào)的高低。聲音的強(qiáng)弱體現(xiàn)在聲波壓力的大小上,音調(diào)的高低體現(xiàn)在聲音的頻率上。第六頁,共92頁幻燈片(1)聲音簡介聲音的量化參數(shù):
強(qiáng)度:dB動(dòng)物的呼吸聲大約為20dB,人們正常談話的聲音約為60dB,汽車鳴笛的聲音約為100dB,飛機(jī)起飛的聲音約為120dB,超過120dB會(huì)使人感到痛苦。
頻率:Hz高保真聲音(high-fidelityaudio):10~20000Hz聲音(audio):20~20000Hz話音(speech):300~3000/3400Hz亞音/次音(subsonic):<20Hz超聲(ultrasonic):>20000Hz相位:波的位置。復(fù)雜的聲音是由多個(gè)不同振幅、頻率、相位的正弦波組成第七頁,共92頁幻燈片(1)聲音簡介聲音的聽覺特性:目前主要研究人的心理聲學(xué)和語言聲學(xué)特性。聽覺心理的主觀感受包括:響度、音高、音色、音量、噪聲、聽覺掩蔽、定位等。第八頁,共92頁幻燈片(1)聲音簡介對響度的感知聲音的響度就是聲音的強(qiáng)弱在物理上,用dyn/cm2(達(dá)因/平方厘米)(聲壓)或W/cm2(瓦特/平方厘米)(聲強(qiáng))度量在心理上,主觀感覺的聲音強(qiáng)弱使用響度級“方(phon)”或“宋(sone)”來度量這兩種計(jì)量單位完全不同,但它們之間有一定的聯(lián)系人耳的聽覺范圍聽閾:當(dāng)聲音弱到人耳朵剛可聽見時(shí)的聲音強(qiáng)度痛域:聲音強(qiáng)到使人耳感到疼痛時(shí)的聲音強(qiáng)度聽覺范圍:位于聽閾和痛域之間,見圖2第九頁,共92頁幻燈片(1)聲音簡介圖2“聽閾—頻率”曲線和“痛閾—頻率”曲線第十頁,共92頁幻燈片(1)
聲音簡介對音高(頻率)的感知客觀上用頻率表示聲音的音高,其單位是Hz。而主觀感覺的音高單位則是“美(Mel)”。Hz和Mel不同但有聯(lián)系主觀音高與客觀音高的關(guān)系為其中,f的單位為Hz,人耳對頻率的感知范圍,可以聽到最低頻率約20Hz最高頻率約20000Hz
第十一頁,共92頁幻燈片(1)
聲音簡介測量主觀音高時(shí),讓實(shí)驗(yàn)者聽兩個(gè)聲強(qiáng)級為40dB的純音,固定其中一個(gè)純音的頻率,調(diào)節(jié)另一個(gè)純音的頻率,直到他感到后者的音高為前者的兩倍,就標(biāo)定這兩個(gè)聲音的音高差為兩倍。測出的“音高—頻率”曲線見圖3圖3“音高—頻率”曲線第十二頁,共92頁幻燈片(1)聲音簡介掩蔽效應(yīng)一種頻率的聲音阻礙聽覺系統(tǒng)感受另一種頻率的聲音的現(xiàn)象前者稱為掩蔽聲音(maskingtone)后者稱為被掩蔽聲音(maskedtone)掩蔽可分成頻域掩蔽和時(shí)域掩蔽第十三頁,共92頁幻燈片(1)
聲音簡介圖4頻域掩蔽頻域掩蔽一個(gè)強(qiáng)純音掩蔽在其附近同時(shí)發(fā)聲的弱純音的特性,也稱同時(shí)掩蔽(simultaneousmasking),如圖4所示第十四頁,共92頁幻燈片(1)聲音簡介圖5中的一組曲線表示為250Hz,1kHz和4kHz純音的掩蔽效應(yīng),它們的聲強(qiáng)均為60dB250Hz,1kHz和4kHz附近,對其他純音的掩蔽效果最明顯低頻純音可有效地掩蔽高頻純音,相反則不明顯圖5不同純音的掩蔽效應(yīng)曲線第十五頁,共92頁幻燈片(1)聲音簡介時(shí)域掩蔽在時(shí)間上相鄰的聲音之間的掩蔽現(xiàn)象一個(gè)強(qiáng)掩蔽音出現(xiàn)前、同時(shí)存在時(shí)或消失后的掩蔽效果產(chǎn)生時(shí)域掩蔽的主要原因人的大腦處理信息需要花費(fèi)一定的時(shí)間第十六頁,共92頁幻燈片(1)聲音簡介同時(shí)掩蔽(simultaneousmasking):信號和掩蔽音同時(shí)產(chǎn)生的現(xiàn)象滯后掩蔽(post-masking):信號出現(xiàn)在掩蔽音消失后出現(xiàn)的現(xiàn)象,可以持續(xù)50~200ms超前掩蔽(pre-masking):信號出現(xiàn)在掩蔽音出現(xiàn)之前產(chǎn)生的現(xiàn)象。雖然對超前掩蔽有許多研究報(bào)告,但這種現(xiàn)象依然令人費(fèi)解。超前掩蔽很短,通常只有大約2~20ms,第十七頁,共92頁幻燈片(1)聲音簡介臨界頻帶(criticalband)當(dāng)噪聲掩蔽純音時(shí),起作用的是以純音頻率為中心頻率的一定頻帶寬度內(nèi)的噪聲頻率。如這頻帶內(nèi)的噪聲功率等于在噪聲中剛能聽到的該純音的功率,則這頻帶就稱為聽覺臨界頻帶。臨界頻帶表征了人類最主要的聽覺特性,它是在研究純音對窄帶噪聲掩蔽量的規(guī)律時(shí)被發(fā)現(xiàn)的,在加寬噪聲帶寬時(shí),最初是掩蔽量增大,但帶寬超過某一定值后,掩蔽量就不再增加,這一帶寬就稱為臨界頻帶。通常認(rèn)為聲音(audio)有25個(gè)臨界頻帶,見表臨界頻帶的寬度隨聲音頻率的變化而變化第十八頁,共92頁幻燈片(1)聲音簡介第十九頁,共92頁幻燈片(2)
模擬音頻的數(shù)字化數(shù)字化的概念如果要用計(jì)算機(jī)對音頻信息進(jìn)行處理,則首先要通過A/D(模/數(shù))轉(zhuǎn)換將模擬音頻信號變成數(shù)字信號,實(shí)現(xiàn)音頻信號的數(shù)字化。數(shù)字化的聲音易于用計(jì)算機(jī)軟件處理,現(xiàn)在幾乎所有的專業(yè)化聲音錄制器、編輯器都是數(shù)字的。對模擬音頻的數(shù)字化過程涉及到音頻的采樣、量化和編碼。當(dāng)需要播放數(shù)字音頻時(shí),按照相反過程還原回模擬音頻第二十頁,共92頁幻燈片聲音信號的數(shù)字化過程模擬聲音信號采樣量化編碼數(shù)字聲音011010011101……第二十一頁,共92頁幻燈片(a)采樣和量化連續(xù)時(shí)間的離散化通過采樣來實(shí)現(xiàn),就是每隔相等的一段時(shí)間采樣一次,這種采樣稱為均勻采樣連續(xù)幅度的離散化通過量化(quantization)來實(shí)現(xiàn),就是把信號的強(qiáng)度劃分成一小段一小段,如果幅度的劃分是等間隔的,就稱為線性量化,否則就稱為非線性量化。第二十二頁,共92頁幻燈片圖7聲音的采樣、量化、編碼第二十三頁,共92頁幻燈片(2)
模擬音頻的數(shù)字化影響數(shù)字音頻質(zhì)量的因素:采樣精度采樣頻率聲道個(gè)數(shù)第二十四頁,共92頁幻燈片(2)
模擬音頻的數(shù)字化采樣頻率采樣頻率由根據(jù)奈奎斯特理論(Nyquisttheory)確定奈奎斯特理論指出,采樣頻率不應(yīng)低于聲音信號最高頻率的兩倍,這樣就能把以數(shù)字表達(dá)的聲音還原成原來的聲音,這叫做無損數(shù)字化(losslessdigitization)假設(shè)被采樣信號的最高頻率為fmax,則采樣定律可用公式表示為第二十五頁,共92頁幻燈片(2)
模擬音頻的數(shù)字化采樣精度度量聲音波形幅度的精確程度,用每個(gè)聲音樣本的位數(shù)表示例如每個(gè)聲音樣本用16位表示,測得的聲音樣本值是在[0~65535]范圍里的數(shù),它的精度是1/65536精度是在模擬信號數(shù)字化過程中度量模擬信號的最小單位,因此也稱量化階(quantizationstepsize)0~1V的電壓用256個(gè)數(shù)表示時(shí),量化階等于1/256V樣本位數(shù)的大小影響到聲音的質(zhì)量,位數(shù)越多,聲音質(zhì)量越高,所需存儲(chǔ)空間也越多;位數(shù)越少,聲音質(zhì)量就越低,所需存儲(chǔ)空間也越少第二十六頁,共92頁幻燈片(2)
模擬音頻的數(shù)字化聲音質(zhì)量和數(shù)據(jù)率——質(zhì)量度量質(zhì)量采樣頻率(kHz)樣本精度(bit/s)單道聲/立體聲(未壓縮的)數(shù)據(jù)率(kb/s)頻率范圍(Hz)電話*88單道聲64.0200~3400AM11.0258單道聲88.220~15000FM22.05016立體聲705.650~7000CD44.116立體聲1411.220~20000DAT4816立體聲1536.020~20000第二十七頁,共92頁幻燈片(b)編碼
所謂編碼,就是按照一定的格式把經(jīng)過采樣和量化得到的離散數(shù)據(jù)記錄下來,用二進(jìn)制數(shù)據(jù)表示,以后續(xù)達(dá)到可以形成數(shù)據(jù)文件進(jìn)行存儲(chǔ)的目的。并在有效的數(shù)據(jù)中加入一些用于糾錯(cuò)同步和控制的數(shù)據(jù)。在數(shù)據(jù)回放時(shí),可以根據(jù)所記錄的糾錯(cuò)數(shù)據(jù)判別讀出的聲音數(shù)據(jù)是否有錯(cuò),如果有錯(cuò),可加以糾正。音頻信號編碼常用的是波形編碼方法,它是直接對波形采樣、量化和編碼,算法簡單,易于實(shí)現(xiàn)。而且,聲音恢復(fù)時(shí)能保持原有的特點(diǎn),因此被廣泛應(yīng)用。此外還有參數(shù)編碼、混合編碼等。(2)
模擬音頻的數(shù)字化第二十八頁,共92頁幻燈片編碼方法(1)PCM(PulseCodeModulation)脈沖編碼調(diào)制PCM簡稱脈碼調(diào)制,可以直接對聲音信號做A/D轉(zhuǎn)換,用一組二進(jìn)制數(shù)字編碼表示,得到的是未經(jīng)壓縮的音頻數(shù)據(jù)。這是一種最常用、最簡單的編碼方法。PCM編碼方法不需要復(fù)雜的信號處理技術(shù)就能實(shí)現(xiàn)瞬時(shí)的數(shù)據(jù)的量化和還原,而且信噪比高。在解碼后恢復(fù)的聲音,只要采樣頻率足夠高,量化位數(shù)足夠多,就會(huì)有很好的質(zhì)量。但是,這種對聲音信號直接量化的方法編碼數(shù)據(jù)量很大,需要很高的傳輸速率。第二十九頁,共92頁幻燈片編碼方法PCM是概念上最簡單、理論上最完善、最早研制成功、使用最為廣泛、數(shù)據(jù)量最大的編碼系統(tǒng)。目前的聲卡一般都具有PCM編碼和解碼的功能。激光唱盤(CD-DA)記錄聲音時(shí)就采用這種方法,存儲(chǔ)未經(jīng)壓縮的數(shù)字音頻信號。第三十頁,共92頁幻燈片編碼方法算法思想:首先對音頻信號進(jìn)行μ律或A律壓擴(kuò),也就是放大小信號,抑制大信號,然后進(jìn)行均勻量化,等效于對小信號進(jìn)行小量化級量化,對大信號進(jìn)行大量化級量化,使大小信號的量化信噪比趨于接近,從而避免了小信號產(chǎn)生較大的量化噪聲誤差,而大信號卻有不必要的高量化信噪比。第三十一頁,共92頁幻燈片編碼方法——脈沖編碼調(diào)制(PCM)輸入是模擬信號,輸出是PCM樣本。防失真濾波器:低通濾波器,用來濾除聲音頻帶以外的信號波形編碼器:可理解為采樣器量化器:可理解為“量化階大小(step-size)”生成器或者稱為“量化間隔”生成器。PCM實(shí)際上是模擬信號數(shù)字化。第三十二頁,共92頁幻燈片量化的方法:均勻量化、非均勻量化均勻量化采用相等的量化間隔/等分尺度量采樣得到的信號幅度,也稱為線性量化。量化后的樣本值Y和原始值X的差E=Y-X稱為量化誤差或量化噪聲。
均勻量化編碼方法第三十三頁,共92頁幻燈片編碼方法非均勻量化大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔可在滿足精度要求的情況下用較少的位數(shù)來表示聲音數(shù)據(jù)還原時(shí),采用相同的規(guī)則
非均勻量化第三十四頁,共92頁幻燈片編碼方法——DPCM(DifferentialPulseCodeModulation)差分脈沖編碼調(diào)制
DPCM編碼是利用音頻信號的相關(guān)性,通過只傳輸聲音的預(yù)測值和樣本值的差值來降低音頻數(shù)據(jù)的編碼率的一種方法。它采用預(yù)測編碼技術(shù),實(shí)現(xiàn)音頻數(shù)據(jù)的壓縮編碼。因?yàn)橐纛l信號一般不會(huì)發(fā)生突然變化,相鄰的語音采樣值之間存在很大的相關(guān)性,從一個(gè)采樣值到相鄰的另一個(gè)采樣值的差值要比樣值本身小得多。利用預(yù)測編碼方法建立預(yù)測模型,通過預(yù)測器對未來的樣本進(jìn)行預(yù)測,然后對樣本值與預(yù)測器得到的預(yù)測值之差進(jìn)行量化和傳輸。由于這個(gè)差值的幅度遠(yuǎn)遠(yuǎn)小于樣本值本身,需要較少的比特?cái)?shù)來表示,這樣可以降低數(shù)據(jù)的編碼率,從而使編碼數(shù)據(jù)得到壓縮。第三十五頁,共92頁幻燈片編碼方法——ADPCM(AdaptiveDifferentialPulseCodeModulation)自適應(yīng)差分編碼調(diào)制在實(shí)際使用中,由于輸入信號的不穩(wěn)定性,造成DPCM方法的信噪比大大降低。因此在DPCM編碼中加入自適應(yīng)的方法,就形成了自適應(yīng)差分編碼調(diào)制(ADPCM)方案。所以,ADPCM是對DPCM方法的改進(jìn),通過調(diào)整量化步長,對不同的頻段設(shè)置不同的量化字長,可使數(shù)據(jù)得到進(jìn)一步壓縮。
ADPCM壓縮方案壓縮倍率可達(dá)2~5倍,信噪比高,性能優(yōu)越,因此,多媒體計(jì)算機(jī)所獲得的數(shù)字化的聲音信息大都采用此壓縮方法。MPC的音頻卡也提供有ADPCM算法,如將16位的采樣值壓縮成4位,將8位的采樣值壓縮成4位、3位或2位。第三十六頁,共92頁幻燈片音頻信號編碼算法名稱碼速率標(biāo)準(zhǔn)應(yīng)用波形編碼PCM壓擴(kuò)64kbpsG.711電話、公共網(wǎng)ADPCM自適應(yīng)差分量化32kbpsG.721SB-ADPCM子帶-自適應(yīng)差分量化64kbpsG.7225.3kbps6.3kbpsG.723參數(shù)編碼LPC線性預(yù)測編碼2.4-16kbpsFS1015保密、衛(wèi)星通信混合編碼CELPC碼激勵(lì)LPC4.6kbpsIS95移動(dòng)通信VSELP矢量和激勵(lì)LPC8kbps語音郵件LD-CELP低延時(shí)碼激勵(lì)LPC8kbpsG.729移動(dòng)通信MPEG多子帶、感知編碼128kbpsMPEG1,2,H.261DVD、運(yùn)動(dòng)圖像伴音第三十七頁,共92頁幻燈片音頻信號編碼編碼后形成二進(jìn)制數(shù)據(jù),就可以在計(jì)算機(jī)上進(jìn)行存儲(chǔ)、傳輸和處理,即數(shù)字音頻語音信號存在多種冗余度,可以進(jìn)行壓縮。時(shí)域冗余度頻域冗余度聽覺特性冗余度第三十八頁,共92頁幻燈片(3)
聲音質(zhì)量的評價(jià)——數(shù)字音頻信息的質(zhì)量與存儲(chǔ)量采樣、量化和編碼技術(shù)是音頻數(shù)字化的關(guān)鍵技術(shù)。而采樣頻率、每個(gè)采樣值的量化位數(shù)以及音頻信息的聲道數(shù)目,是影響數(shù)字化音頻信息質(zhì)量和容量的三個(gè)重要因素。采樣頻率越高、量化為數(shù)越大、聲道數(shù)目越多,音頻的質(zhì)量就越高,但存儲(chǔ)量就越大。第三十九頁,共92頁幻燈片(3)聲音質(zhì)量的評價(jià)——音頻質(zhì)量的評價(jià)(a)客觀質(zhì)量的度量對聲波的測量包括評價(jià)值的測量、聲源的測量和音質(zhì)的測量,其測量與分析工作,是使用帶計(jì)算機(jī)處理系統(tǒng)的高級聲學(xué)測量儀器來完成。度量聲音客觀質(zhì)量的一個(gè)主要指標(biāo)是信噪比SNR(SignaltoNoiseRation),信噪比是有用信號與噪聲之比的簡稱,其單位是分貝(dB)。信噪比越大,聲音質(zhì)量越好。第四十頁,共92頁幻燈片(3)聲音質(zhì)量的評價(jià)——音頻質(zhì)量的評價(jià)(b)主觀質(zhì)量的度量采用客觀標(biāo)準(zhǔn)方法很難真正評定編碼器的質(zhì)量,在實(shí)際評價(jià)中,主觀的質(zhì)量度量比客觀質(zhì)量的度量更為恰當(dāng)和合理。主觀的質(zhì)量度量通常是對某編碼器的輸出的聲音質(zhì)量進(jìn)行評價(jià)。度量方法類似于電視節(jié)目中的歌手比賽,由評委對每個(gè)歌手的表現(xiàn)進(jìn)行評分,然后求出平均值。例如播放一段音樂,記錄一段話,然后重放給一批實(shí)驗(yàn)者聽,再由實(shí)驗(yàn)者進(jìn)行綜合評定,得出平均判分(MeanOpnionScose,MOS)。第四十一頁,共92頁幻燈片主觀平均分(meanopinionscore,MOS)對聲音主觀質(zhì)量度量比較通用的標(biāo)準(zhǔn)是5分制,各檔次的評分標(biāo)準(zhǔn)見表3-2分?jǐn)?shù)質(zhì)量等級失真級別5優(yōu)(Excellent)無察覺4良(Good)(剛)察覺但不討厭3中(Fair)(察覺)有點(diǎn)討厭2差(Poor)討厭但不反感1劣(Bad)極討厭(令人反感)第四十二頁,共92頁幻燈片聲音質(zhì)量的衡量方法客觀質(zhì)量度量用信噪比(SNR)表示主觀質(zhì)量度量有時(shí)同時(shí)采取兩種方法評估,有時(shí)以主觀質(zhì)量度量為主聲音帶寬法等級由高到低依次是DAT、CD、FM、AM和數(shù)字電話第四十三頁,共92頁幻燈片2.2數(shù)字音頻壓縮技術(shù)數(shù)據(jù)的冗余聲音的壓縮原理聲音的壓縮分類聲音的壓縮標(biāo)準(zhǔn)數(shù)字音頻格式第四十四頁,共92頁幻燈片什么是音頻壓縮音頻壓縮技術(shù)指的是對原始數(shù)字音頻信號流(如PCM編碼)運(yùn)用適當(dāng)?shù)臄?shù)字信號處理技術(shù),在不損失有用信息量,或所引入損失可忽略的條件下,降低(壓縮)其碼率,以減少數(shù)據(jù)量,也稱為壓縮編碼。它必須具有相應(yīng)的逆變換,稱為解壓縮或解碼。音頻信號在通過一個(gè)編解碼系統(tǒng)后可能引入大量的噪聲和一定的失真。第四十五頁,共92頁幻燈片
雖然表示數(shù)字音頻需要大量的數(shù)據(jù),但數(shù)字音頻數(shù)據(jù)是高度相關(guān)的,或者說存在冗余(Redundancy)信息,去掉這些冗余信息后可以有效壓縮數(shù)據(jù)量,同時(shí)又不會(huì)損害聲音的有效信息。數(shù)據(jù)的冗余第四十六頁,共92頁幻燈片你的妻子,Helen,將于明天晚上6點(diǎn)零5分在上海的虹橋機(jī)場接你。
(23*2+10=56個(gè)半角字符)你的妻子將于明天晚上6點(diǎn)零5分在虹橋機(jī)場接你
(20*2+2=42個(gè)半角字符)
Helen將于明晚6點(diǎn)在虹橋接你
(10*2+6=26個(gè)半角字符)結(jié)論:表達(dá)信息的文字存在冗余。只要接收端不會(huì)產(chǎn)生誤解,就可以減少承載信息的數(shù)據(jù)量。我們從一個(gè)互動(dòng)游戲來體會(huì)數(shù)據(jù)冗余的概念。在下面的例子中,用一種最好的方式來發(fā)送一封電報(bào)。第四十七頁,共92頁幻燈片數(shù)據(jù)壓縮的基本原理為了滿足對數(shù)字化的信息進(jìn)行存儲(chǔ)、傳輸?shù)男枰?,就必須進(jìn)行數(shù)據(jù)壓縮,即去掉數(shù)據(jù)的冗余性。評價(jià)壓縮技術(shù)的3個(gè)重要指標(biāo):
1)壓縮比要大 2)算法簡單
3)恢復(fù)效果要好第四十八頁,共92頁幻燈片按照一致性分類:可逆編碼(無失真編碼,lossless):解碼信號與原始信號嚴(yán)格相同。如Huffman編碼、算術(shù)編碼、游程編碼。不可逆編碼方法(無失真編碼,lossy):還原信號與原始信號存在一定的誤差,但效果可以接收。按照壓縮方案的不同:
又可將其劃分為時(shí)域壓縮、變換壓縮、子帶壓縮,以及多種技術(shù)相互融合的混合壓縮等等。各種不同的壓縮技術(shù),其算法的復(fù)雜程度、壓縮質(zhì)量、算法效率(即壓縮比例),以及編解碼延時(shí)等都有很大的不同。各種壓縮技術(shù)的應(yīng)用場合也因之而各不相同。數(shù)據(jù)壓縮方法的分類第四十九頁,共92頁幻燈片按照壓縮方法分類:預(yù)測編碼:利用空間中相鄰數(shù)據(jù)的相關(guān)性,利用過去和現(xiàn)在出現(xiàn)過的點(diǎn)的數(shù)據(jù)情況來預(yù)測未來點(diǎn)的數(shù)據(jù)。如差分脈沖編碼調(diào)制(DPCM)、自適應(yīng)差分脈沖編碼調(diào)制(ADPCM)等。變換編碼:將時(shí)域信號變換到頻域空間上處理。比如K-L變換、DCT(離散余弦變換)變換等。信息熵編碼:讓出現(xiàn)概率大的用短的碼字表達(dá),反之用長的碼字表示。如Huffman編碼。子帶編碼:將圖像數(shù)據(jù)變換到頻域后,按頻域分帶,然后用不同的量化器進(jìn)行量化,從而達(dá)到最優(yōu)的組合。數(shù)據(jù)壓縮方法的分類第五十頁,共92頁幻燈片音頻信號壓縮編碼不僅利用一般壓縮編碼方法,而且利用人耳的聽覺特性,主要有兩點(diǎn):1.人的聽覺系統(tǒng)中存在一個(gè)聽覺閾值電平,低于這個(gè)電平的聲音信號人耳聽不到.2.人的聽覺存在屏蔽效應(yīng)。當(dāng)幾個(gè)強(qiáng)弱不同的聲音同時(shí)存在時(shí),強(qiáng)聲使弱聲難以聽到,并且兩者之間的關(guān)系與其相對頻率的大小有關(guān).
聲音編碼算法通過這些特性來去掉更多的冗余數(shù)據(jù),來達(dá)到壓縮數(shù)據(jù)的目的。音頻壓縮第五十一頁,共92頁幻燈片音頻壓縮聲音包括語音和音樂,聲音數(shù)據(jù)表征的是一個(gè)一維時(shí)變系統(tǒng),故聲音數(shù)據(jù)的壓縮要易于圖像數(shù)據(jù)的壓縮。根據(jù)時(shí)域冗余度、頻域冗余度和人聽覺感知機(jī)理進(jìn)行壓縮,主要方法有:基于音頻數(shù)據(jù)的統(tǒng)計(jì)特性進(jìn)行編碼,如波形編碼。基于音頻的聲學(xué)參數(shù)進(jìn)行編碼,或者混合編碼?;谌说穆犛X特性進(jìn)行編碼,如DolbyAC-3。第五十二頁,共92頁幻燈片電話質(zhì)量的語音壓縮標(biāo)準(zhǔn):300Hz~3.4KHz。當(dāng)采樣頻率為8KHz,量化位數(shù)為8bit時(shí)所對應(yīng)的速率為6kbit/s。調(diào)幅廣播質(zhì)量的音頻壓縮標(biāo)準(zhǔn):50Hz~7KHz。當(dāng)使用16KHz的抽樣頻率和14bit的量化位數(shù)時(shí),信號速率為224kbit/s。符合1988年ITU制定的G.722標(biāo)準(zhǔn)。高保真立體聲音頻壓縮標(biāo)準(zhǔn):50Hz~20KHz。在44.1KHz抽樣頻率下用16bit量化,信號速率為每聲道705kbit/s。目前比較成熟的標(biāo)準(zhǔn)為“MPEG音頻”。音頻壓縮標(biāo)準(zhǔn)第五十三頁,共92頁幻燈片數(shù)字音頻格式WAV是微軟公司開發(fā)的一種聲音文件格式,也叫波形聲音文件。是最早的數(shù)字音頻格式,被Windows平臺(tái)及其應(yīng)用程序廣泛支持。WAV格式支持許多壓縮算法、支持多種音頻位數(shù)、采樣頻率和聲道,經(jīng)常見到的WAV格式的文件多采用44.1kHz的采樣頻率。16位量化位數(shù),其音質(zhì)與CD相同,但WAV格式對存儲(chǔ)空問需求太大而不便于通過網(wǎng)絡(luò)交流和傳播WAV也是音樂編輯創(chuàng)作的首選格式,適合保存音樂素材。第五十四頁,共92頁幻燈片數(shù)字音頻格式AIFF音頻交換文件格式(AudioInterchangeFileFormat,簡寫為AIF/AIFF),是蘋果計(jì)算機(jī)公司開發(fā)的一種標(biāo)準(zhǔn)聲音文件格式,被Macintosh平臺(tái)及其應(yīng)用程序所支持,它屬于Quick—Time技術(shù)中的一部分,而且是一種優(yōu)秀的文件格式,投入使用后便很快得到Microsoft公司青睞,NetscapeNavigator瀏覽器中的LiveAudio、SGI及其他專業(yè)音頻軟件包都支持它。AIF/AIFF支持支持l6位,44.1kHz立體聲,現(xiàn)在幾乎所有的音頻編輯軟件和播放軟件都支持這種格式。第五十五頁,共92頁幻燈片數(shù)字音頻格式MIDI:MusicalInstrumentDigitalInterface,是數(shù)字音樂/電子合成樂器的統(tǒng)一國際標(biāo)準(zhǔn)。它定義了計(jì)算機(jī)音樂程序、數(shù)字合成器及其它電子設(shè)備交換音樂信號的方式。規(guī)定了不同廠家的電子樂器與計(jì)算機(jī)連接的電纜和硬件及設(shè)備間數(shù)據(jù)傳輸?shù)膮f(xié)議,可以模擬多種樂器的聲音。MIDI文件就是MIDI格式的文件,它存儲(chǔ)的只是一些指令,我們要聽到聲音,必須把這些指令發(fā)送給音源,再由音源按照指令將聲音合成和播放出來。CD:擴(kuò)展名CDA,其取樣頻率為44.1kHz,16位量化位數(shù)。CD存儲(chǔ)采用了音軌的形式,又叫“紅皮書”格式。記錄的是波形流,是一種近似無損的格式。第五十六頁,共92頁幻燈片數(shù)字音頻格式MP3:全稱是MPEG—lAudioLayer3,它在1992年合并至MPEG規(guī)范中。MP3能夠以高音質(zhì)、低采樣率對數(shù)字音頻文件進(jìn)行壓縮。音頻文件(WAV文件)能夠在音質(zhì)丟失很小的情況下把文件壓縮到更小的程度。它是利用人耳的掩蔽效應(yīng)對聲音進(jìn)行壓縮,使文件在較低的比特率下,盡可能地保持了原有的音質(zhì),是目前最為流行的壓縮方式,也是現(xiàn)在網(wǎng)上收集音樂的最主要的方式,大多數(shù)播放器都支持這一文件格式。MP3格式的聲音文件的壓縮比達(dá)10:1~12:l,在不小于128kbps傳輸率下,基本保持了原有音質(zhì)。第五十七頁,共92頁幻燈片數(shù)字音頻格式SACD(SA=SuperAudio):是由Sony公司發(fā)布的。它的采樣率為CD格式的64倍,即2.8224MHz。SACD重放頻率帶寬達(dá)100kHz,為CD格式的5倍,24位量化位數(shù),遠(yuǎn)遠(yuǎn)超過CD。聲音的細(xì)節(jié)表現(xiàn)更為豐富、清晰。VQF格式:是由YAMAHA和NTT共同開發(fā)的一種音頻壓縮技術(shù),它的壓縮率能夠達(dá)到1:18。因此,相同情況下壓縮后VQF的文件體積比MP3小30%~50%,更便利于網(wǎng)上傳播。同時(shí)音質(zhì)極佳,接近CD音質(zhì)(16位44.1kHz立體聲)。但VQF未公開技術(shù)標(biāo)準(zhǔn),至今未能流行開來。第五十八頁,共92頁幻燈片數(shù)字音頻格式DVDAudio:是新一代的數(shù)字音頻格式,與DVDVideo尺寸以及容量相同,為音樂格式的DVD光碟,取樣頻率為“48kHz/96kHz/l92kHz‘’和“44.1kHz/88.2kHz/l76.4kHz”
可選擇,量化位數(shù)可以為16、20或24比特,它們之間可自由地進(jìn)行組合。低采樣率的92kHz、176.4kHz雖然是2聲道重播專用,但它最多可收錄到6聲道。而以2聲道192kHz/24b或6聲道96kHz/24b收錄聲音,可容納74分鐘以上的錄音,動(dòng)態(tài)范圍達(dá)144dB,整體效果出類拔萃。第五十九頁,共92頁幻燈片數(shù)字音頻格式MD(MiniDisc):由日本Sony公司開發(fā)。MD之所以能在一張盤中存儲(chǔ)60~80分鐘、采用44.1khz采樣的立體聲音樂,就是因?yàn)槭褂昧薃TRAC算法(自適應(yīng)聲學(xué)轉(zhuǎn)換編碼)壓縮音源。這是一套基于心理聲學(xué)原理的音響譯碼系統(tǒng),它可以把CD唱片的音頻壓縮到原來數(shù)據(jù)量的大約1/5,而聲音質(zhì)量沒有明顯的損失。ATRAC利用人耳聽覺的心理聲學(xué)特性(頻譜掩蔽特性和時(shí)間掩蔽特性)以及入耳對信號幅度、頻率、時(shí)間的有限分辨能力。編碼時(shí)將人耳感覺不到的成分不編碼、不傳送,這樣就可以相應(yīng)減少某些數(shù)據(jù)量的存儲(chǔ),從而既保證音質(zhì)又達(dá)到縮小體積的目的。第六十頁,共92頁幻燈片數(shù)字音頻格式RealAudio:是由RealNetworks公司推出的一種文件格式。最大的特點(diǎn)是可以實(shí)時(shí)傳輸音頻信息,尤其是在網(wǎng)速較慢的情況下,仍然可以較為流暢地傳送數(shù)據(jù)。因此RealAudio主要適用于網(wǎng)絡(luò)上的在線播放?,F(xiàn)在的RealAudio文件格式主要有RA(RealAudio)、RM(RealMedia,RealAudioG2)、RMX(RealAudioSecured)等三種,這些文件的共同性在于隨著網(wǎng)絡(luò)帶寬的不同而改變聲音的質(zhì)量。在保證大多數(shù)人聽到流暢聲音的前提下,令帶寬較寬敞的聽眾獲得較好的音質(zhì)。第六十一頁,共92頁幻燈片數(shù)字音頻格式AAC:高級音頻編碼的縮寫。AAC是由FraunhoferIIS—A、杜比和AT&T共同開發(fā)的一種音頻格式,它是MPEG一2規(guī)范的一部分。AAC所采用的運(yùn)算法則與MP3的運(yùn)算法則有所不同,AAC通過結(jié)合其他的功能來提高編碼效率。AAC的音頻算法在壓縮能力上遠(yuǎn)遠(yuǎn)超過了以前的一些壓縮算法(比如MP3等)。它還同時(shí)支持多達(dá)48個(gè)音軌、l5個(gè)低頻音軌、更多種采樣率和比特率、多種語言的兼容能力、更高的解碼效率??傊?,AAC可以在比MP3文件縮小30%的前提下提供更好的音質(zhì)。第六十二頁,共92頁幻燈片數(shù)字音頻格式APE:Monkey’SAudio提供的一種無損壓縮格式。Monkey’SAudio提供了Winamp的插件支持,因此這就意味著壓縮后的文件不再是單純的壓縮格式,而是和MP3一樣可以播放的音頻文件格式。壓縮效果大約為2:l左右,但能夠做到真正無損,因此獲得了不少發(fā)燒用戶的青睞。令人滿意的壓縮比以及飛快的壓縮速度,成為了不少朋友私下交流發(fā)燒音樂的唯一選擇。第六十三頁,共92頁幻燈片數(shù)字音頻格式OGG格式:全稱是OGGVobis。它是一種新的音頻壓縮格式,類似于MP3等現(xiàn)有的音樂格式。但有所不同的是,它是完全免費(fèi)、開放和沒有專利限制的。OGGVobis有一個(gè)很出眾的特點(diǎn),就是支持多聲道,隨著它的流行,以后用隨身聽來聽DTS編碼的多聲道作品將不會(huì)是夢想。OGGVobis在壓縮技術(shù)上比MP3好,使它很有可能成為一個(gè)流行的趨勢,這也正是一些MP3播放器對其支持的原因。另外,如果相同速率錄制音頻mp3和ogg不分上下,ogg采用更先進(jìn)的算法還可能會(huì)好一些。第六十四頁,共92頁幻燈片2.3計(jì)算機(jī)音樂音樂合成MIDI規(guī)范數(shù)字音頻工作站第六十五頁,共92頁幻燈片一個(gè)樂音必備的三要素是:音高、音色和音強(qiáng)。運(yùn)動(dòng)的旋律中的樂音還應(yīng)具備時(shí)值,即持續(xù)時(shí)間。音高:音高指聲音的基頻。聲音的基頻越高,給人的感覺就越激越;相反,聲音的基頻越低,給人的感覺就越低沉。。音色:音色是由聲音的頻譜決定的:各階諧波的比例不同,隨時(shí)間衰減的程度不同,音色就不同。各種樂器的音色是由其自身結(jié)構(gòu)特點(diǎn)決定的。要用計(jì)算機(jī)模擬具有強(qiáng)烈真實(shí)感的旋律,音色的變化非常重要的。音強(qiáng)和時(shí)值:音強(qiáng)也叫響度,是指聲音信號的強(qiáng)弱程度,是由聲波振動(dòng)的振幅決定的。聲波振動(dòng)的持續(xù)時(shí)間稱為時(shí)值,它具有明顯的相對性,一個(gè)音只有在包含了比它更短的音的旋律才會(huì)顯得長。音樂合成第六十六頁,共92頁幻燈片 任何一種波形信號都可以被分解成若干個(gè)頻率不同的正弦波,一個(gè)樂器的聲音也可以由若干個(gè)正弦波合成得到。 調(diào)頻(FM)是使高頻振蕩波的頻率按調(diào)制信號規(guī)律變化的一種調(diào)制方式。采用不同調(diào)制波頻率和調(diào)制指數(shù),就可以方便地合成具有不同頻譜分布的波形,再現(xiàn)某些樂器的音色。我們可以采用這種方法得到具有獨(dú)特效果的“電子模擬聲”,創(chuàng)造出豐富多彩的、真實(shí)樂器所不具備的音色。為使音樂更加真實(shí),人們開發(fā)出波形表(wavetable)音樂合成技術(shù)。波表合成是把真實(shí)音樂聲音數(shù)字信號錄制后,保存在存儲(chǔ)器中,當(dāng)選擇某個(gè)樂器時(shí),將所錄制的樣本信號回放。目前這兩種音樂合成技術(shù)都應(yīng)用于多媒體計(jì)算機(jī)的音頻卡中。第六十七頁,共92頁幻燈片
1.什么是MIDIMIDI(MusicalInstrumentDigitalInterface,樂器數(shù)字接口)是一種技術(shù)規(guī)范,定義了為把電子樂器連接到計(jì)算機(jī)所需要的電纜和端口的硬件標(biāo)準(zhǔn),計(jì)算機(jī)和具有MIDI接口的設(shè)備之間進(jìn)行信息交換的規(guī)則,電子樂器之間傳送數(shù)據(jù)的通信協(xié)議。
MIDI聲音是記錄電子樂器鍵盤的彈奏過程,是將樂曲進(jìn)行一種數(shù)字化的描述,這種描述稱為MIDI消息(MIDIMessage)。當(dāng)需要播放這段音樂時(shí),從相應(yīng)的MIDI文件中讀出MIDI消息,由合成器來解釋這些消息中的符號,并生成所需要的樂器的聲音波形,經(jīng)放大后由揚(yáng)聲器輸出。在計(jì)算機(jī)中播放MIDI信息須使用帶有合成器的聲卡。
MIDI規(guī)范第六十八頁,共92頁幻燈片2.
MIDI聲音的優(yōu)點(diǎn):(1)存儲(chǔ)容量小因?yàn)镸IDI文件中記錄的是一系列指令的集合,所以,MIDI文件所占的存儲(chǔ)量非常小。在需要播放長時(shí)間的高質(zhì)量音樂時(shí),往往采用MIDI文件。(2)可以提供背景音樂或音響效果的配音功能當(dāng)多媒體計(jì)算機(jī)播放圖像、文字、圖表時(shí),或者播放波形音頻、語音時(shí),可以同時(shí)播放MIDI音樂作為背景音響效果。(3)便于編輯和修改
MIDI聲音記錄的是符號,是樂譜的數(shù)字化表示。因此,它可以在計(jì)算機(jī)中很方便地任意修改樂曲的速度、音調(diào),甚至可以更換的樂器,從而得到不同的效果。(4)可以在MIDI合成器中完全重現(xiàn)原來的演奏
MIDI是把MIDI設(shè)備上產(chǎn)生的每個(gè)活動(dòng)記錄下來,形成MIDI文件,把它再傳送到MIDI合成器時(shí),就可以完全重現(xiàn)原來的演奏效果。第六十九頁,共92頁幻燈片3.MIDl規(guī)范
MIDI規(guī)范是一個(gè)國際的標(biāo)準(zhǔn),主要包括以下3個(gè)方面的內(nèi)容。(1)MIDI的硬件規(guī)范指的是各種MIDI設(shè)備之間連接的硬件接口標(biāo)準(zhǔn)和信號傳輸機(jī)制,包括輸入/輸出通道的類型,連接電纜樣式及插座形式等。(2)MIDI聲音信息的規(guī)范指的是使音樂信息互相交換的一種編碼標(biāo)準(zhǔn)。它包括有關(guān)音樂成分的信息,如音符、音量、音調(diào)、音符時(shí)間長短等,是一種表達(dá)各種聲音的作曲系統(tǒng)。(3)MIDI聲音合成的規(guī)范指的是各種聲音的表達(dá)方式,即真實(shí)聲音信號的規(guī)范,它可以采用FM合成技術(shù)和波形表合成技術(shù)的標(biāo)準(zhǔn)。第七十頁,共92頁幻燈片4.MIDI的有關(guān)術(shù)語
(1)MIDI文件
MIDI文件是存放MIDI信息的標(biāo)準(zhǔn)文件,文件名后綴為.MID。(2)通道(Channels)MIDI可為16個(gè)通道提供數(shù)據(jù),每個(gè)通道可以訪問一個(gè)獨(dú)立的邏輯合成器。(3)音序器(Sequencer)音序器是為了MIDI作曲而設(shè)計(jì)的計(jì)算機(jī)程序或電子裝置,用于記錄、編輯、播放MIDI文件。(4)合成器(Synthesizer)合成器是利用數(shù)字信號處理器或其他芯片產(chǎn)生音樂或聲音的電子設(shè)備。它可以產(chǎn)生并修改波形,然后通過聲音產(chǎn)生器和揚(yáng)聲器發(fā)出聲音。(5)樂器(Instrument) 合成器能產(chǎn)生的特定聲音稱為樂器。每種樂器都有自己的波形,合成器按音色和音調(diào)的要求,由不同的樂器組合成最終的聲音組合。第七十一頁,共92頁幻燈片(6)復(fù)音(Polyphony)復(fù)音是合成器同時(shí)支持的最多音符數(shù)。(7)音色(Timbre)音色指的是聲音的音質(zhì),它取決于聲音頻率。(8)音軌(Track)一種用通道把MIDI數(shù)據(jù)分隔成單獨(dú)組,每條音軌分別定義了該條音軌的屬性,如音軌的音色,音色庫,通道數(shù),輸入/輸出端口,音量等。
一條音軌對應(yīng)于音樂的一個(gè)聲部,每一音軌可認(rèn)為一種樂器的演奏。
(9)合成音色映射器(Patchappear)合成音色映射器是一種軟件。為了適應(yīng)Microsoft的MIDI合成音色,分配表規(guī)定了合成音色的編號。軟件為特定的合成器重新分配編號。(10)通道映射(Channelmapping)通道映射把發(fā)送裝置的MIDI通道號變換成適當(dāng)?shù)慕邮昭b置的通道號。第七十二頁,共92頁幻燈片數(shù)字音頻工作站(DigitalAudioWorkstation,簡稱DAW)是集中多種音頻處理工具的、以計(jì)算機(jī)為平臺(tái)的數(shù)字音頻制作系統(tǒng)?;蛘哒f是一種用來處理、交換音頻信息的計(jì)算機(jī)系統(tǒng)。它是數(shù)字音頻技術(shù)的和計(jì)算機(jī)技術(shù)結(jié)合的產(chǎn)物,數(shù)字音頻工作站的出現(xiàn),實(shí)現(xiàn)了廣播系統(tǒng)高質(zhì)量的節(jié)目錄制自動(dòng)化播出,同時(shí)也創(chuàng)造了更加良好的高效的工作環(huán)境。它把眾多繁瑣的音頻制作過程集中在通用多媒體計(jì)算機(jī)上完成,與傳統(tǒng)數(shù)字音頻制作相比,省去了大量周邊輔助數(shù)字音頻設(shè)備,省去了大量設(shè)備的連接、安裝、調(diào)試等,操作集中在計(jì)算機(jī)上完成,方便簡單;目前DAW已被用到了廣播電臺(tái)的廣播節(jié)目制作、播出、管理與控制的各個(gè)環(huán)節(jié),是廣播電臺(tái)播控中心數(shù)字化、網(wǎng)絡(luò)化關(guān)鍵設(shè)備之一。第七十三頁,共92頁幻燈片數(shù)字音頻工作站從硬件角度來說,數(shù)字音頻工作站的構(gòu)成可以歸結(jié)為以下幾個(gè)部分:計(jì)算機(jī)控制部分,核心音頻處理部分,數(shù)據(jù)存儲(chǔ)設(shè)備及其它外設(shè)設(shè)備;從軟件角度來說,數(shù)字音頻工作站可分為以下幾個(gè)模塊:操作平臺(tái),音頻處理界面,文件格式,第三方軟件及其他相關(guān)軟件。第七十四頁,共92頁幻燈片數(shù)字音頻工作站功能DAW提供了制作廣播與影視節(jié)目中音頻部分所需要的所有功能,包括:專業(yè)要求的音質(zhì)錄入和聲音播放;采樣頻率最低44.1kHz,16bit的量化級別,頻響范圍達(dá)到20Hz~20000Hz,信噪比接近90dB
錄音放音和合成;能夠同時(shí)播放8個(gè)以上音軌、可同時(shí)看到波形剪輯功能。刪除、靜音、復(fù)制、移位、拼接、淡入淡出、移調(diào)、伸縮等數(shù)字效果處理;調(diào)音、實(shí)時(shí)均衡、聲音擴(kuò)壓、聲像移動(dòng)、電平調(diào)整、混響、延時(shí)、降噪、變速調(diào)節(jié)等第七十五頁,共92頁幻燈片第七十六頁,共92頁幻燈片2.4數(shù)字語音處理技術(shù)語音增強(qiáng)語音合成語音識別數(shù)字音頻水印技術(shù)第七十七頁,共92頁幻燈片語音增強(qiáng)語音增強(qiáng)是指當(dāng)語音信號被各種噪聲干擾、甚至淹沒后,從噪聲背景中提取有用的語音信號,抑制、降低噪聲干擾的技術(shù),即從含噪聲語音中盡可能提取純凈的原始語音。第七十八頁,共92頁幻燈片語音增強(qiáng)的意義1,日常生活中,經(jīng)常遇到在噪聲干擾中進(jìn)行語音通信的問題,如在汽車、火車上使用移動(dòng)電話,在鬧市、馬路邊、商場里打電話。2,軍事通信中,指揮員的作戰(zhàn)命令、情報(bào)員的匯報(bào)、戰(zhàn)地會(huì)議等受到惡劣戰(zhàn)場環(huán)境,如槍炮聲、馬達(dá)聲等的干擾。3,竊聽技術(shù)的需要進(jìn)行增強(qiáng)。4,語音識別技術(shù)需要先進(jìn)行增強(qiáng)。第七十九頁,共92頁幻燈片語音增強(qiáng)的方法1,噪聲對消法。2,諧波增強(qiáng)法。3,基于參數(shù)估計(jì)的語音再合成法。4,基于語音短時(shí)譜估計(jì)的增強(qiáng)算法。第八十頁,共92頁幻燈片語音合成語音合成,又稱文語轉(zhuǎn)換(TexttoSpeech)技術(shù),能將任意文字信息實(shí)時(shí)轉(zhuǎn)化為標(biāo)準(zhǔn)流暢的語音朗讀出來,相當(dāng)于給機(jī)器裝上了人工嘴巴。解決的主要問題就是如何將文字信息轉(zhuǎn)化為可聽的聲音信息,也即讓機(jī)器像人一樣開口說話。
它涉及聲學(xué)、語言學(xué)、數(shù)字信號處理、計(jì)算機(jī)科學(xué)等多個(gè)學(xué)科技術(shù)是中文信息處理領(lǐng)域的一項(xiàng)前沿技術(shù)第八十一頁,共92頁幻燈片語音合成這里所說的“讓機(jī)器像人一樣開口說話”與傳統(tǒng)的聲音回放設(shè)備(系統(tǒng))有著本質(zhì)的區(qū)別。傳統(tǒng)的聲音回放設(shè)備(系統(tǒng)),如磁帶錄音機(jī),是通過預(yù)先錄制聲音然后回放來實(shí)現(xiàn)“讓機(jī)器說話”的。而通過計(jì)算機(jī)語音合成則可以在任何時(shí)候?qū)⑷我馕谋巨D(zhuǎn)換成具有高自然度的語音,從而真正實(shí)現(xiàn)讓機(jī)器“像人一樣開口說話”。文語轉(zhuǎn)換系統(tǒng)實(shí)際上可以看作是一個(gè)人工智能系統(tǒng)。第八十二頁,共92頁幻燈片TTS的基本結(jié)構(gòu)語言學(xué)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 建筑工程拆除新施工合同范本
- 薪酬體系與員工流動(dòng)率
- 泰安市河道景觀雕塑設(shè)計(jì)規(guī)范
- 2024年設(shè)計(jì)稿保密協(xié)議3篇
- 城市供水工程電子合同
- 2024年道路施工起重機(jī)械租賃及安全管理協(xié)議3篇
- 釀酒行業(yè)對賬自動(dòng)化方案
- 2025民間抵押借款合同范本2
- 2025民間借款合同潛規(guī)則
- 生產(chǎn)信息化管理實(shí)施手冊
- 2024-2025學(xué)年部編版(2024)七年級歷史上冊知識點(diǎn)提綱
- 鐵路技術(shù)管理規(guī)程-20220507141239
- 2024年公安機(jī)關(guān)招警面試題及參考答案
- 國家開放大學(xué)2024年(202401-202407)《2667績效與薪酬實(shí)務(wù)》期末考試真題
- 植物學(xué)智慧樹知到答案2024年浙江大學(xué)
- 房地產(chǎn)抵押貸款公證合同模板
- 礦山開采與生產(chǎn)管理
- 糖尿病的預(yù)防及治療幻燈片
- 綜合能力測試(一)附有答案
- 大學(xué)體育與健康智慧樹知到期末考試答案章節(jié)答案2024年齊魯師范學(xué)院
- 化學(xué)實(shí)驗(yàn)操作評分細(xì)則表
評論
0/150
提交評論