![基于DSP語(yǔ)音信號(hào)線性與非線性量化相互轉(zhuǎn)化的新方法_第1頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/15/808cfee0-1ee9-43fd-9ecc-96add5e9595b/808cfee0-1ee9-43fd-9ecc-96add5e9595b1.gif)
![基于DSP語(yǔ)音信號(hào)線性與非線性量化相互轉(zhuǎn)化的新方法_第2頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/15/808cfee0-1ee9-43fd-9ecc-96add5e9595b/808cfee0-1ee9-43fd-9ecc-96add5e9595b2.gif)
![基于DSP語(yǔ)音信號(hào)線性與非線性量化相互轉(zhuǎn)化的新方法_第3頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/15/808cfee0-1ee9-43fd-9ecc-96add5e9595b/808cfee0-1ee9-43fd-9ecc-96add5e9595b3.gif)
![基于DSP語(yǔ)音信號(hào)線性與非線性量化相互轉(zhuǎn)化的新方法_第4頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/15/808cfee0-1ee9-43fd-9ecc-96add5e9595b/808cfee0-1ee9-43fd-9ecc-96add5e9595b4.gif)
![基于DSP語(yǔ)音信號(hào)線性與非線性量化相互轉(zhuǎn)化的新方法_第5頁(yè)](http://file3.renrendoc.com/fileroot_temp3/2022-2/15/808cfee0-1ee9-43fd-9ecc-96add5e9595b/808cfee0-1ee9-43fd-9ecc-96add5e9595b5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、摘要隨著通信、計(jì)算機(jī)網(wǎng)絡(luò)等技術(shù)的飛速發(fā)展,語(yǔ)音壓縮編碼技術(shù)得到了快速發(fā)展和廣泛應(yīng)用。尤其是最近20年,語(yǔ)音壓縮編碼技術(shù)在移動(dòng)通信、衛(wèi)星通信、多媒體技術(shù)以與IP通信中得到普遍應(yīng)用,起著舉足輕重的作用。人們相互交流的信息量也在不斷地急劇增加,龐大的語(yǔ)音信號(hào)數(shù)據(jù)給存儲(chǔ)和傳輸帶來(lái)了巨大的的壓力,使得信道資源變得愈加寶貴。因此,語(yǔ)音壓縮和語(yǔ)音編碼技術(shù)顯得越來(lái)越重要。本課題是基于DSP語(yǔ)音信號(hào)線性與非線性量化相互轉(zhuǎn)化的新方法,通過DSP將采集到的語(yǔ)音信號(hào)進(jìn)行壓縮算法的處理。最后通過外設(shè)輸出壓縮后的語(yǔ)音信號(hào)。最終實(shí)現(xiàn)語(yǔ)音信號(hào)的采集、壓縮與回放。本論文根據(jù)系統(tǒng)的功能需求,完成了該系統(tǒng)的算法研究,軟硬件的設(shè)計(jì)。
2、設(shè)計(jì)出了A律編解碼的軟件流程框圖,在以TMS320VC5502為處理器的硬件開發(fā)平臺(tái)上實(shí)現(xiàn)了語(yǔ)音信號(hào)的A律壓縮解壓算法,并給出了壓縮程序流程圖。關(guān)鍵詞: 語(yǔ)音壓縮編碼,線性與非線性量化轉(zhuǎn)化,DSPAbstractWith the communications, computer networks of rapid development, voice compression coding technology has been rapid of development and wide of application.Especially in the last 20 years, speech
3、 coding technology was widely application in the mobile communications, satellite communications, multimedia and IP telephony technology, it plays a pivotal role. People mutually exchanging information is increasing dramatically, huge voice signal data to the storage and transmission brought huge pr
4、essure, it makes channel resources become more and more valuable. Therefore, speech compress and speech coding technology is becoming more and more important.This topic is based on the DSP of voice compression algorithm design and implementation.The collected voice signal use compression algorithm t
5、o treat by DSP. The speech signal after compression is output by external equipments finally. It has realized the speech signal collection、compression and playback finally. According to the system's functional requirements, this papers complete hardware and software design of the system. A law d
6、esigned a flow chart of the software codec in order to TMS320VC5502 processor hardware development platform for the realization of the speech signal on the A-law compression decompression algorithms, And give the compression process flow diagram. Key Words:Speech Coding,Transformation of linear and
7、nonlinear quantization ,DSP44 / 47引 言語(yǔ)音是人類相互進(jìn)行交流時(shí)使用最多、最自然、最基本也是最重要的信息載體。語(yǔ)音的產(chǎn)生是一個(gè)復(fù)雜的過程,包括心理和生理等方面的一系列動(dòng)作。由于其特殊的作用,人們歷來(lái)十分重視對(duì)語(yǔ)音信號(hào)和語(yǔ)音通信的研究。近十幾年來(lái)語(yǔ)音技術(shù)在人們實(shí)際需要的推動(dòng)下快速的發(fā)展起來(lái),語(yǔ)音技術(shù)是一個(gè)跨學(xué)科、涉與面廣的綜合學(xué)科,包括聲學(xué)、語(yǔ)音學(xué)、生理學(xué)、心理學(xué)、數(shù)字信號(hào)處理、信息工程、通信理論、電子科學(xué)、模式識(shí)別、人工智能等眾多學(xué)科,而且許多對(duì)語(yǔ)音數(shù)字信號(hào)處理有促進(jìn)作用的學(xué)科如神經(jīng)網(wǎng)路、小波理論、遺傳算法、進(jìn)化算法、模糊理論、混沌理論等也在蓬勃發(fā)展。隨著當(dāng)今
8、世界數(shù)字技術(shù)的飛速發(fā)展,數(shù)字業(yè)務(wù)量的急劇增長(zhǎng),如何在提供高質(zhì)量語(yǔ)音的基礎(chǔ)上用最低的碼率來(lái)傳送和儲(chǔ)存數(shù)字語(yǔ)音信號(hào),以增加現(xiàn)有信道的帶寬利用率、安全性以與降低成本等已越來(lái)越受到人們的重視。在高度信息化的今天,語(yǔ)音處理的一系列技術(shù)與應(yīng)用已經(jīng)成為信息社會(huì)不可或缺的重要組成部分。目前的語(yǔ)音壓縮專用芯片價(jià)格較高,并且采用語(yǔ)音壓縮專用芯片的設(shè)備在信號(hào)處理的靈活性,功能擴(kuò)展等方面受到很大的限制,很難加入一些新的功能或者算法。而使用 DSP 來(lái)自主開發(fā)實(shí)現(xiàn)語(yǔ)音壓縮算法卻可以使這一成本大大降低,同時(shí)可以方便地實(shí)現(xiàn)算法的更新,從而能夠在不更換硬件的情況下實(shí)現(xiàn)功能的升級(jí)。再者,隨著信息技術(shù)的發(fā)展,信道資源顯得更加寶貴
9、,為了在有限的信道進(jìn)行更多的信息傳輸,必須對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮。因此,本論文研究的課題是基于DSP語(yǔ)音信號(hào)線性與非線性量化相互轉(zhuǎn)化的新方法。1緒 論1.1課題的背景1876 年的發(fā)明可以認(rèn)為是現(xiàn)代語(yǔ)音壓縮編碼、傳輸?shù)鹊拈_端,在本世紀(jì)得到迅速普與應(yīng)用,至今已有百余年的歷史。隨著科學(xué)技術(shù)的進(jìn)步,語(yǔ)音信號(hào)的處理與發(fā)展已經(jīng)歷了三個(gè)主要階段。 第一階段:20 世紀(jì) 30 年代以前,語(yǔ)音信號(hào)的處理與傳輸均是以模擬的形式進(jìn)行,1937 年 A.H.Reeves 提出了脈沖編碼調(diào)制(PCM)理論,開創(chuàng)了語(yǔ)音數(shù)字化通信的歷程。數(shù)字化語(yǔ)音在傳輸與存儲(chǔ)可靠性、抗干擾、速交換、易等各方面都遠(yuǎn)勝于模擬語(yǔ)音。PCM 標(biāo)準(zhǔn)是
10、設(shè)備中第一種被采用的技術(shù),它是一種波形編碼方法,是將時(shí)間域信號(hào)直接變換為數(shù)字代碼,力圖使重建語(yǔ)音波形保持原語(yǔ)音信號(hào)的波形形狀。第二階段:1939 年,美國(guó)人 Dudley 研制成功第一個(gè)聲碼器,從此奠定了語(yǔ)音產(chǎn)生模型的基礎(chǔ),這一工作在語(yǔ)音信號(hào)處理領(lǐng)域具有劃時(shí)代的意義。從此,語(yǔ)音處理開始了參數(shù)編碼的研究。它通過對(duì)語(yǔ)音信號(hào)進(jìn)行分析,提取參數(shù)來(lái)對(duì)參數(shù)進(jìn)行編碼,在接收端能夠用解碼后的參數(shù)重構(gòu)語(yǔ)音信號(hào)。參數(shù)編碼主要是從聽覺感知的角度注重語(yǔ)音的重現(xiàn),即讓解碼語(yǔ)音聽起來(lái)與輸入語(yǔ)音是一樣,而不是保證其波形一樣。這種編碼方式一般對(duì)碼率的要求要比波形編碼低很多,但只能達(dá)到合成語(yǔ)音的質(zhì)量,即使碼率提高到與波形編碼相
11、當(dāng)時(shí),語(yǔ)音質(zhì)量也不如波形編碼。應(yīng)用廣泛的線性預(yù)測(cè) LPC(Linear Predictive Coding)聲碼器是典型的語(yǔ)音參數(shù)編碼器。最新的參數(shù)編碼器有正弦變換編碼器、波形插編碼器等1。第三階段:20 世紀(jì) 70 年代中期,特別是 20 世紀(jì) 80 年代以來(lái),語(yǔ)音編碼技術(shù)有了突破性的進(jìn)展,一些非常有效的處理辦法被提出,產(chǎn)生了新一代的參數(shù)編碼算法,也就是混合編碼?;旌暇幋a克服了參數(shù)編碼激勵(lì)形式過于簡(jiǎn)單的缺點(diǎn),成功地將波形編碼和參數(shù)編碼兩者的優(yōu)點(diǎn)結(jié)合起來(lái),在 4kbps到l6kbps 的數(shù)碼率上能夠得到高質(zhì)量的合成語(yǔ)音。既利用了語(yǔ)音產(chǎn)生模型,通過對(duì)模型參數(shù)進(jìn)行編碼,減少被編碼對(duì)象的動(dòng)態(tài)圍和數(shù)據(jù)
12、量,又使編碼過程產(chǎn)生接近原始語(yǔ)音波形的合成語(yǔ)音,以保留說話人的各種自然特征,提高了語(yǔ)音質(zhì)量。得到最廣泛研究的混合編碼算法是基于線性預(yù)測(cè)技術(shù)的分析合成編碼方法LPABS(Linear Prediction Analysis-By Synthesis)。從最初的 64kbps 的標(biāo)準(zhǔn) PCM 波形編碼器到現(xiàn)在 4kbps 以下的參量編碼的聲碼器,語(yǔ)音壓縮編碼在幾十年里得到迅速發(fā)展。進(jìn)入 90 年代以來(lái),在無(wú)線方面 GSM 又逐步替代傳統(tǒng)的模擬無(wú)線系統(tǒng)。近年來(lái),隨著 Internet網(wǎng)的迅速發(fā)展,網(wǎng)絡(luò)通信由單純的數(shù)據(jù)信息向多媒體方向發(fā)展,移動(dòng)通信也正向第三代移動(dòng)通信方向發(fā)展,高效優(yōu)質(zhì)語(yǔ)音編碼成為這些
13、新穎通信系統(tǒng)的基本也是關(guān)鍵的技術(shù)之一。在中國(guó),語(yǔ)音和語(yǔ)言處理技術(shù)的研發(fā)略晚于國(guó)外。中國(guó)科學(xué)院聲學(xué)研究所的俞鐵城教授應(yīng)該說是中國(guó)最早涉足這一領(lǐng)域的人之一,他于 1977 年在物理學(xué)報(bào)發(fā)表了全國(guó)第一篇關(guān)于語(yǔ)音識(shí)別的論文。清華大學(xué)語(yǔ)音技術(shù)中心緊隨其后,語(yǔ)音界老前輩方棣棠教授、吳文虎教授于 1979 年創(chuàng)立語(yǔ)音技術(shù)中心(原名語(yǔ)音實(shí)驗(yàn)室),現(xiàn)已有 28 年的歷史。隨后,全國(guó)各地從事這方面研究的機(jī)構(gòu)越來(lái)越多,比較著名的有清華大學(xué)電子工程系、中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)科技大學(xué)、中國(guó)社會(huì)科學(xué)院語(yǔ)言研究所(在語(yǔ)音學(xué)研究方面,吳宗濟(jì)先生的起步更早)、大學(xué)、工業(yè)大學(xué)等等。在這些頂尖學(xué)術(shù)機(jī)構(gòu)的帶動(dòng)下,中國(guó)的語(yǔ)音和語(yǔ)
14、言處理技術(shù)得到很大發(fā)展,并逐步在國(guó)際上引起注意。1.2課題的意義隨著通信、計(jì)算機(jī)網(wǎng)絡(luò)等技術(shù)的飛速發(fā)展,語(yǔ)音壓縮編碼技術(shù)得到了快速發(fā)展和廣泛應(yīng)用,尤其是最近20年,語(yǔ)音壓縮編碼技術(shù)在移動(dòng)通信、衛(wèi)星通信、多媒體技術(shù)以與IP通信中得到普遍應(yīng)用,起著舉足輕重的作用。人們享受著信息化帶來(lái)的方便和快捷,數(shù)字廣播電視、互聯(lián)網(wǎng)、通訊和各種數(shù)碼音樂產(chǎn)品正改變著我們的生活。與此同時(shí),人們相互交流的信息量也在不斷地急劇增加,龐大的語(yǔ)音信號(hào)數(shù)據(jù)給存儲(chǔ)和傳輸帶來(lái)了巨大的的壓力,使得信道資源變得愈加寶貴。因此,語(yǔ)音壓縮和語(yǔ)音編碼技術(shù)顯得越來(lái)越重要。語(yǔ)音壓縮編碼技術(shù)的類別語(yǔ)音編碼就是將模擬語(yǔ)音信號(hào)數(shù)字化,數(shù)字化之后可以作為
15、數(shù)字信號(hào)傳輸、存儲(chǔ)或處理,可以充分利用數(shù)字信號(hào)處理的各種技術(shù)。為了減小存儲(chǔ)空間或降低傳輸比特率節(jié)省帶寬,還需要對(duì)數(shù)字化之后的語(yǔ)音信號(hào)進(jìn)行壓縮編碼,這就是語(yǔ)音壓縮編碼技術(shù)。它可以對(duì)原始數(shù)字語(yǔ)音信號(hào)PCM碼流運(yùn)用適當(dāng)?shù)臄?shù)字信號(hào)處理技術(shù),在不損失有用信息量,或所引入損失可忽略的條件下,降低(壓縮)其碼率,也稱為壓縮編碼或信源編碼。它必須具有相應(yīng)的逆變換,稱為解壓縮或解碼。信源編碼的任務(wù)主要是解決數(shù)據(jù)存儲(chǔ)、交換、傳輸?shù)挠行詥栴},通過對(duì)信源數(shù)據(jù)率的壓縮,力求用最少的數(shù)碼傳遞最大的信息量。采用語(yǔ)音壓縮和語(yǔ)音編碼技術(shù)可以在保證音質(zhì)的同時(shí),大減少數(shù)據(jù)傳輸量,節(jié)省傳輸所需要的帶寬。總之,語(yǔ)音壓縮技術(shù)的出現(xiàn)與應(yīng)
16、用為人類帶來(lái)了深遠(yuǎn)的影響,人們?nèi)缃褚焉钤谝粋€(gè)幾乎語(yǔ)音壓縮的世界之中,而語(yǔ)音壓縮技術(shù)則稱得上是應(yīng)用最為廣泛的數(shù)字技術(shù)之一,CD、 VCD等早已走進(jìn)千家萬(wàn)戶,數(shù)字化廣播正在全球圍逐步得到開展,正是這些與廣大消費(fèi)者密切相關(guān)的產(chǎn)品與應(yīng)用成為了本文將要介紹的主題:語(yǔ)音壓縮算法的設(shè)計(jì)與實(shí)現(xiàn)2。1.3語(yǔ)音壓縮編碼的國(guó)際標(biāo)準(zhǔn)由于數(shù)字語(yǔ)音編碼技術(shù)具有廣闊的應(yīng)用圍和良好的市場(chǎng)前景,從 20 世紀(jì) 80 年代開始,國(guó)際上著名的通信研究機(jī)構(gòu)和大學(xué)均大力開展高音質(zhì)低碼率語(yǔ)音編碼技術(shù)的研究,取得了大批成果,因此語(yǔ)音編碼技術(shù)的標(biāo)準(zhǔn)化工作顯得十分重要。國(guó)際電信聯(lián)盟 (ITU)在語(yǔ)音編碼技術(shù)的標(biāo)準(zhǔn)化方面做了大量的工作,制訂了
17、很多標(biāo)準(zhǔn),并逐漸受到業(yè)界的認(rèn)同。其中比較典型的有 G.711, G.721, G.728, G.729 等標(biāo)準(zhǔn)。1.G.711 標(biāo)準(zhǔn)最早的語(yǔ)音編碼方案是 PCM 編碼,它的碼率是 64kbps。對(duì)語(yǔ)音信號(hào)按8kHz 進(jìn)行采樣,再對(duì)每一個(gè)樣本做 8bit 的標(biāo)量量化。雖然它的碼率很高,但處理程序簡(jiǎn)單,話音質(zhì)量非常好,在網(wǎng)中廣為使用。它被 ITU-T 定為G.711 標(biāo)準(zhǔn)。2.G.721 標(biāo)準(zhǔn)G.711 標(biāo)準(zhǔn)產(chǎn)生后,人們將大量的精力投向了語(yǔ)音壓縮編碼的研究。經(jīng)過多年的研究,科學(xué)家們提出了一種旨在消除語(yǔ)音信號(hào)樣本間的相關(guān)性的線性預(yù)測(cè)編碼算法。它可以在基本保證音質(zhì)的情況下,編碼率有較大的壓縮。利用當(dāng)時(shí)
18、還處于雛形的線性預(yù)測(cè)方法,科學(xué)家們成功開發(fā)出了編碼率為 32kbps(相對(duì)于 PCM 碼,它被壓縮了一半)的增量調(diào)制編碼 ADPCM(Adaptive differencePCM)方案,音質(zhì)略次于 PCM 編碼,可懂度和自然度都不錯(cuò),立即受到人們的青睞。它被 ITU-T 定為 G.721 標(biāo)準(zhǔn)。3.G.728 標(biāo)準(zhǔn)低碼率、短時(shí)延、高質(zhì)量是人們期望的目標(biāo),波形編碼的局限性,決定了其編碼率不可能降的太低,為了進(jìn)一步降低編碼率,必須選用參數(shù)編碼和混合編碼技術(shù)。ITU-T 于 1992 公布 G.728 標(biāo)準(zhǔn),編碼速率為 16kbit/s,算法延時(shí)小于 2ms,語(yǔ)音質(zhì)量可達(dá) MOS 4 分以上,與 G
19、.711 音質(zhì)基本相當(dāng),主要應(yīng)用于可視、存儲(chǔ)和轉(zhuǎn)發(fā)系統(tǒng)、數(shù)字移動(dòng)無(wú)線系統(tǒng)、數(shù)字插空設(shè)備、語(yǔ)音信息錄音、分組化語(yǔ)音等領(lǐng)域。4.G.729 標(biāo)準(zhǔn)保持高音質(zhì)就是要使合成語(yǔ)音和原始語(yǔ)音的均方誤差始終小到不易察覺。在 此 前 提 下 , 通 過 改 進(jìn) 算 法 , 達(dá) 到 進(jìn) 一 步 壓 縮 編 碼 率 的 目 的 。 CS-ACELP(Conjugate-Structure Algebraic Code Excited Linear Prediction)算法就是該思路的歷史產(chǎn)物。它實(shí)現(xiàn)了 8kbps 的碼率,所達(dá)到的語(yǔ)音質(zhì)量一點(diǎn)也不亞于G.721 標(biāo)準(zhǔn),但卻比 G.721 標(biāo)準(zhǔn)的編碼率壓縮了整四倍。
20、ITU-T 在 1996 年將CS-ACELP 算法制定為 G.729 標(biāo)準(zhǔn)3。在實(shí)際選擇語(yǔ)音壓縮標(biāo)準(zhǔn)時(shí),要綜合考慮帶寬、時(shí)延、算法復(fù)雜度等各種因素。1.3語(yǔ)音壓縮編解碼概述在現(xiàn)代通信中,作為組成通信系統(tǒng)的最基本單元之一的信源,如果不經(jīng)過任何處理,會(huì)存在大量的冗余成分,直接經(jīng)信道進(jìn)行傳輸將會(huì)造成帶寬的極大浪費(fèi)。所以,信源需要先經(jīng)過壓縮處理,即信源編碼,然后再經(jīng)信道傳輸。語(yǔ)音信號(hào)是通信系統(tǒng)中使用最多的信源之一,它是模擬信號(hào),而現(xiàn)代通信系統(tǒng)基本上都是數(shù)字通信系統(tǒng),所以必須先對(duì)該模擬信號(hào)進(jìn)行模數(shù)轉(zhuǎn)換,將其數(shù)字化;數(shù)字化后的語(yǔ)音信號(hào),再經(jīng)過壓縮處理后方可進(jìn)行傳輸和存儲(chǔ)。在接收端,對(duì)信號(hào)進(jìn)行解壓縮處理和
21、D/A轉(zhuǎn)換,還原成原始的模擬語(yǔ)音信號(hào)。這就是語(yǔ)音編解碼技術(shù)。模擬語(yǔ)音信號(hào)數(shù)字化后再進(jìn)行壓縮編碼處理,可減小存儲(chǔ)空間或降低傳輸比特率,從而節(jié)省傳輸帶寬。語(yǔ)音編解碼技術(shù)的方法歸納起來(lái),主要分為三大類,即波形編碼、參數(shù)編碼和混合編碼。波形編碼是最簡(jiǎn)單且應(yīng)用最早的語(yǔ)音編碼方法,它實(shí)施簡(jiǎn)單、性能優(yōu)良,但是其編碼比特率最高,在16kbps到64kbps之間,且一般很難再進(jìn)一步下降,G.711的A律或u律、G.721和G.726標(biāo)準(zhǔn)均屬于波形編碼;參數(shù)編碼的語(yǔ)音編碼速率較低,基本上在2kbps到4.8kbps之間,語(yǔ)音的可懂度較好,但音質(zhì)較差,只能達(dá)到合成語(yǔ)音質(zhì)量,且其聲碼器對(duì)環(huán)境噪聲比較敏感,其次是算法復(fù)
22、雜度較高,G.729、G.723.1標(biāo)準(zhǔn)和碼激勵(lì)線性預(yù)測(cè)(CELP)等均為參數(shù)編碼;混合編碼吸收了波形編碼和參數(shù)編碼各自的優(yōu)點(diǎn)并克服它們的缺點(diǎn),在較低的比特率上獲得較高的語(yǔ)音質(zhì)量,其比特率一般在4kbps-16kbps之間,多脈沖激勵(lì)線性預(yù)測(cè)編碼(MPLPC),規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼(RPELPC)和碼本激勵(lì)線性預(yù)測(cè)編碼(CELP)等都屬于混合編碼3,4,5。最早的語(yǔ)音編解碼標(biāo)準(zhǔn)是1972年CCITT提出的G.711標(biāo)準(zhǔn),即64kbps的脈沖編碼調(diào)制(PCM)。到目前為止,標(biāo)準(zhǔn)PCM系統(tǒng)仍然占據(jù)著統(tǒng)治地位,被廣泛應(yīng)用在數(shù)字通信、數(shù)字交換機(jī)等領(lǐng)域,El標(biāo)準(zhǔn)接口中采用的即是歐洲的30路脈沖編碼調(diào)
23、制PCM。隨后,CCITT又公布了G.721標(biāo)準(zhǔn),即32kbps的自適應(yīng)脈沖差分編碼ADPCM,在達(dá)到和PCM一樣語(yǔ)音質(zhì)量的基礎(chǔ)上,它具有更優(yōu)良的抗誤碼性能,并且速率降低一半。接著,ITU又提出了子帶自適應(yīng)差分脈沖編碼G.722,16kbps的短時(shí)延遲碼激勵(lì)線性預(yù)測(cè)G.728標(biāo)準(zhǔn),8kbps的共軛結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測(cè)編碼G.729標(biāo)準(zhǔn)以與具有兩種編碼速率的G.723。l標(biāo)準(zhǔn)(5.3kbps和6.3kbps,高速率采用多脈沖最大似然量化MPMLQ技術(shù),低速率采用代數(shù)碼本激勵(lì)線性預(yù)測(cè)ACELP技術(shù))等5,6,7。2語(yǔ)音壓縮的理論依據(jù)與算法2.1語(yǔ)音壓縮的理論依據(jù)語(yǔ)音通信經(jīng)歷了從模擬信號(hào)到數(shù)字信號(hào)
24、的發(fā)展過程,最初通信傳輸?shù)氖钦Z(yǔ)音模擬信號(hào),傳輸?shù)男什桓撸覀鬏敳皇翘貏e可靠、高效。因?yàn)槟M信號(hào)在傳輸一段距離后會(huì)減弱,當(dāng)信號(hào)變?nèi)鯐r(shí),必須對(duì)它們定期放大。這種信號(hào)放大既加強(qiáng)了語(yǔ)音信號(hào),也加強(qiáng)了背景線路噪聲,要將復(fù)雜的模擬語(yǔ)音信號(hào)和傳輸噪聲區(qū)分開來(lái)是很困難的。為了進(jìn)一步提高語(yǔ)音的傳輸質(zhì)量和存儲(chǔ)效率,克服模擬傳輸?shù)娜秉c(diǎn),人們又引入了語(yǔ)音信號(hào)數(shù)字處理技術(shù),對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字化處理。數(shù)字信號(hào)只有“1”和“0”兩種狀態(tài),易于同噪聲區(qū)分開,不易發(fā)生畸變,而且易于存儲(chǔ)和遠(yuǎn)距離傳輸。但是語(yǔ)音信號(hào)在數(shù)字化之后,比特率卻大幅上升,也就是每秒需要更多的比特?cái)?shù)去存儲(chǔ)或傳輸,這樣就使成本提高。隨著信息技術(shù)的發(fā)展,信道
25、資源顯得更加寶貴,為了在有限的信道進(jìn)行更多的信息傳輸,必須對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮。對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮編碼的基本依據(jù)是語(yǔ)音信號(hào)的冗余度和人的聽覺感知機(jī)理。語(yǔ)音信號(hào)存在多種多樣的冗余,可分別從時(shí)間域和頻率域描述。從時(shí)間域分析:幅度的非均勻分布,即語(yǔ)音中的小幅度樣本出現(xiàn)的概率高,且通話中會(huì)有間隙信息,主要集中在低功率上;語(yǔ)音信號(hào)采樣數(shù)據(jù)間存在相關(guān)性,相鄰的樣本間有很強(qiáng)的相關(guān)性,如果采樣率提高,相關(guān)性將更強(qiáng);濁音語(yǔ)音段具有準(zhǔn)周期性,波形顯示出周期間的信息冗余,對(duì)語(yǔ)音濁音部分編碼最有效的方法之一是對(duì)一個(gè)音調(diào)間隔波形來(lái)編碼,并以其作為同樣聲音中其他基音段的參照;語(yǔ)音間隙,實(shí)際語(yǔ)音通信中,存在通話間隙,通話分析
26、表明,全雙工話路的典型效率約為通話時(shí)間的 40%,即靜止系數(shù)為 0.6;長(zhǎng)時(shí)自相關(guān),除了樣本間、同期間的相關(guān)外,在較長(zhǎng)的時(shí)間間隔上,語(yǔ)音信號(hào)也存在相關(guān)。從頻率域分析:非均勻的長(zhǎng)時(shí)功率譜密度,從相當(dāng)長(zhǎng)的時(shí)間統(tǒng)計(jì)平均,語(yǔ)音信號(hào)的功率譜呈現(xiàn)強(qiáng)烈的非平坦性,這說明語(yǔ)音信號(hào)對(duì)給定的頻段利用不充分,存在固定的冗余度;語(yǔ)音特有的短時(shí)功率譜密度,語(yǔ)音信號(hào)的短時(shí)功率譜在某些頻率上出現(xiàn)峰值,而在另一些頻率上出現(xiàn)谷值,這些峰值頻率是能量較大的頻率,稱為共振峰,共振峰頻率由低到高依次排列為第一共振峰、第二共振峰等,語(yǔ)音特征主要由前三個(gè)共振峰頻率決定,隨著頻率的增高,對(duì)整個(gè)功率譜的影響會(huì)快速遞減。語(yǔ)音壓縮的第二個(gè)依據(jù)是
27、利用人類聽覺的感知機(jī)理,其影響主要表現(xiàn)在三個(gè)方面: 1.人類的聽覺系統(tǒng)對(duì)聲音具有“掩蔽”效應(yīng),即一個(gè)強(qiáng)音能夠抑制另一個(gè)同時(shí)存在的弱音的聽覺,利用這一性質(zhì)可以抑制與信號(hào)同時(shí)存在的量化噪聲。2.人耳對(duì)不同頻段聲音的敏感程度不同。人的聽覺對(duì)低頻語(yǔ)音比較敏感,而對(duì)高頻語(yǔ)音不太敏感,這主要是因?yàn)闈嵋舻闹芷诤凸舱穹濉?.人耳對(duì)語(yǔ)音信號(hào)的相位變化不敏感。通過對(duì)人耳做短時(shí)的頻率分析,表明人耳對(duì)信號(hào)的音調(diào)很敏感,但對(duì)信號(hào)相位感知不敏感。人耳聽不到或感知極不靈敏的語(yǔ)音信號(hào)都可以認(rèn)為是冗余,可以利用這些特性進(jìn)行語(yǔ)音數(shù)據(jù)壓縮。對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字化和壓縮,既可以提高語(yǔ)音傳輸?shù)馁|(zhì)量,又能提高傳輸?shù)男剩詫?duì)語(yǔ)音壓縮編碼
28、技術(shù)的研究一直是一個(gè)熱點(diǎn),特別是近十多年來(lái),語(yǔ)音編碼技術(shù)取得了突飛猛進(jìn)的發(fā)展,出現(xiàn)了多個(gè)國(guó)際標(biāo)準(zhǔn)和區(qū)域標(biāo)準(zhǔn),己具備比較完善的理論和技術(shù)體系,隨著高速信號(hào)處理器的誕生,使多種算法復(fù)雜、計(jì)算量很大的編碼技術(shù)的實(shí)時(shí)化變得容易起來(lái),語(yǔ)音壓縮編碼進(jìn)入實(shí)用階段。2.2語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型建立語(yǔ)音信號(hào)的數(shù)字模型對(duì)于語(yǔ)音處理具有重要的意義。人們對(duì)語(yǔ)音信號(hào)進(jìn)行大量的分析、模擬和實(shí)驗(yàn)以后,得出了語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型8。它是指利用數(shù)字技術(shù)來(lái)模擬語(yǔ)音信號(hào)的產(chǎn)生,也就是利用數(shù)字信號(hào)處理技術(shù)來(lái)實(shí)現(xiàn)發(fā)音器官的模擬。為了使?jié)嵋舻臎_激信號(hào)具有聲門脈沖的實(shí)際波形,還需要使上述的沖激序列通過一個(gè)聲門脈沖模型濾波器 G(z)。其
29、傳輸函數(shù)表示為: (2.1)基音頻率聲門脈沖模型脈沖周期發(fā)生器聲道模型 Av聲道參數(shù)輻射模型隨機(jī)噪聲發(fā)生器 Au圖2.1 語(yǔ)音信號(hào)的數(shù)字模型該模型包括三個(gè)部分:激勵(lì)源、聲道模型和輻射模型9。激勵(lì)源分為濁音和清音兩種,按照濁音/清音開關(guān)所處的位置來(lái)決定產(chǎn)生的語(yǔ)音是濁音還是清音。濁音時(shí),激勵(lì)信號(hào)由一個(gè)周期脈沖發(fā)生器產(chǎn)生,產(chǎn)生的序列是一個(gè)頻率等于基音頻率的沖激序列。對(duì)聲門波形的頻譜分析表明,其幅度頻譜按每倍頻程 12dB 的速度遞減,如果 G(z)中 g1和 g2都很接近于 1,那么由之形成的濁音激勵(lì)信號(hào)頻譜很接近于聲門脈沖的頻譜,乘系數(shù) Av 的作用是調(diào)節(jié)濁音信號(hào)的幅度。清音時(shí),激勵(lì)信號(hào)由一個(gè)隨機(jī)
30、噪聲發(fā)生器產(chǎn)生??稍O(shè)定其平均值為 0,其自相關(guān)函數(shù)是一個(gè)單位沖激函數(shù)。這表明它的任何兩個(gè)不同樣點(diǎn)都不相關(guān)且其均方差值為 1。此外,還假定它的幅度具有正態(tài)概率分布。乘系數(shù) Au 的作用是調(diào)節(jié)清音信號(hào)的幅度10。聲道模型 V(z)給出了離散時(shí)域的聲道傳輸函數(shù),把實(shí)際聲道作為一個(gè)變截面聲管加以研究,采用流體力學(xué)的方法可以導(dǎo)出,在大多數(shù)情況下 V(z)是一個(gè)全極點(diǎn)函數(shù)。因此,V(z)可以表示為: (2.2)式中,a0=1,ai為實(shí)數(shù)。這里,把截面積連續(xù)變化的聲管近似為 p 段短聲管的串聯(lián),每段短聲管的截面積是不變的,p 稱為這個(gè)全極點(diǎn)濾波器的階。顯然,p值取得越大,模型的傳輸函數(shù)與聲道實(shí)際傳輸函數(shù)的吻
31、合程度就越高。一般地,對(duì)大多數(shù)實(shí)際應(yīng)用而言,p 值取 812。若 p 取偶數(shù),一般有 p/2 對(duì)共軛極點(diǎn),極點(diǎn)的頻率分別與語(yǔ)音的各個(gè)共振峰相對(duì)應(yīng)。輻射模型 R(z)與嘴型有關(guān),一般可以表示為: (2.3)在這個(gè)模型中,除了 G(z)和 R(z)保持不變以外,基音頻率、Av、Au、清/濁音開關(guān)的位置以與聲道模型中的參數(shù)都是隨時(shí)間而變化的。對(duì)于聲道參數(shù)而言,在 1030ms 的時(shí)間間隔可以認(rèn)為它們保持不變,因此語(yǔ)音的短時(shí)分析幀長(zhǎng)一般取為 1030ms 左右。對(duì)激勵(lì)源參數(shù),大部分情況下這一結(jié)論是正確的。需要全部論文的可以加我 呀 2461557111 除了論文還有 電路圖、源程序清單、外文文獻(xiàn)、外文
32、翻譯、測(cè)試源工程文件等1.3語(yǔ)音壓縮編解碼概述在現(xiàn)代通信中,作為組成通信系統(tǒng)的最基本單元之一的信源,如果不經(jīng)過任何處理,會(huì)存在大量的冗余成分,直接經(jīng)信道進(jìn)行傳輸將會(huì)造成帶寬的極大浪費(fèi)。所以,信源需要先經(jīng)過壓縮處理,即信源編碼,然后再經(jīng)信道傳輸。語(yǔ)音信號(hào)是通信系統(tǒng)中使用最多的信源之一,它是模擬信號(hào),而現(xiàn)代通信系統(tǒng)基本上都是數(shù)字通信系統(tǒng),所以必須先對(duì)該模擬信號(hào)進(jìn)行模數(shù)轉(zhuǎn)換,將其數(shù)字化;數(shù)字化后的語(yǔ)音信號(hào),再經(jīng)過壓縮處理后方可進(jìn)行傳輸和存儲(chǔ)。在接收端,對(duì)信號(hào)進(jìn)行解壓縮處理和D/A轉(zhuǎn)換,還原成原始的模擬語(yǔ)音信號(hào)。這就是語(yǔ)音編解碼技術(shù)。模擬語(yǔ)音信號(hào)數(shù)字化后再進(jìn)行壓縮編碼處理,可減小存儲(chǔ)空間或降低傳輸比特
33、率,從而節(jié)省傳輸帶寬。語(yǔ)音編解碼技術(shù)的方法歸納起來(lái),主要分為三大類,即波形編碼、參數(shù)編碼和混合編碼。波形編碼是最簡(jiǎn)單且應(yīng)用最早的語(yǔ)音編碼方法,它實(shí)施簡(jiǎn)單、性能優(yōu)良,但是其編碼比特率最高,在16kbps到64kbps之間,且一般很難再進(jìn)一步下降,G.711的A律或u律、G.721和G.726標(biāo)準(zhǔn)均屬于波形編碼;參數(shù)編碼的語(yǔ)音編碼速率較低,基本上在2kbps到4.8kbps之間,語(yǔ)音的可懂度較好,但音質(zhì)較差,只能達(dá)到合成語(yǔ)音質(zhì)量,且其聲碼器對(duì)環(huán)境噪聲比較敏感,其次是算法復(fù)雜度較高,G.729、G.723.1標(biāo)準(zhǔn)和碼激勵(lì)線性預(yù)測(cè)(CELP)等均為參數(shù)編碼;混合編碼吸收了波形編碼和參數(shù)編碼各自的優(yōu)點(diǎn)并
34、克服它們的缺點(diǎn),在較低的比特率上獲得較高的語(yǔ)音質(zhì)量,其比特率一般在4kbps-16kbps之間,多脈沖激勵(lì)線性預(yù)測(cè)編碼(MPLPC),規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼(RPELPC)和碼本激勵(lì)線性預(yù)測(cè)編碼(CELP)等都屬于混合編碼3,4,5。最早的語(yǔ)音編解碼標(biāo)準(zhǔn)是1972年CCITT提出的G.711標(biāo)準(zhǔn),即64kbps的脈沖編碼調(diào)制(PCM)。到目前為止,標(biāo)準(zhǔn)PCM系統(tǒng)仍然占據(jù)著統(tǒng)治地位,被廣泛應(yīng)用在數(shù)字通信、數(shù)字交換機(jī)等領(lǐng)域,El標(biāo)準(zhǔn)接口中采用的即是歐洲的30路脈沖編碼調(diào)制PCM。隨后,CCITT又公布了G.721標(biāo)準(zhǔn),即32kbps的自適應(yīng)脈沖差分編碼ADPCM,在達(dá)到和PCM一樣語(yǔ)音質(zhì)量的基礎(chǔ)
35、上,它具有更優(yōu)良的抗誤碼性能,并且速率降低一半。接著,ITU又提出了子帶自適應(yīng)差分脈沖編碼G.722,16kbps的短時(shí)延遲碼激勵(lì)線性預(yù)測(cè)G.728標(biāo)準(zhǔn),8kbps的共軛結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測(cè)編碼G.729標(biāo)準(zhǔn)以與具有兩種編碼速率的G.723。l標(biāo)準(zhǔn)(5.3kbps和6.3kbps,高速率采用多脈沖最大似然量化MPMLQ技術(shù),低速率采用代數(shù)碼本激勵(lì)線性預(yù)測(cè)ACELP技術(shù))等5,6,7。2語(yǔ)音壓縮的理論依據(jù)與算法2.1語(yǔ)音壓縮的理論依據(jù)語(yǔ)音通信經(jīng)歷了從模擬信號(hào)到數(shù)字信號(hào)的發(fā)展過程,最初通信傳輸?shù)氖钦Z(yǔ)音模擬信號(hào),傳輸?shù)男什桓?,而且傳輸不是特別可靠、高效。因?yàn)槟M信號(hào)在傳輸一段距離后會(huì)減弱,當(dāng)信號(hào)
36、變?nèi)鯐r(shí),必須對(duì)它們定期放大。這種信號(hào)放大既加強(qiáng)了語(yǔ)音信號(hào),也加強(qiáng)了背景線路噪聲,要將復(fù)雜的模擬語(yǔ)音信號(hào)和傳輸噪聲區(qū)分開來(lái)是很困難的。為了進(jìn)一步提高語(yǔ)音的傳輸質(zhì)量和存儲(chǔ)效率,克服模擬傳輸?shù)娜秉c(diǎn),人們又引入了語(yǔ)音信號(hào)數(shù)字處理技術(shù),對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字化處理。數(shù)字信號(hào)只有“1”和“0”兩種狀態(tài),易于同噪聲區(qū)分開,不易發(fā)生畸變,而且易于存儲(chǔ)和遠(yuǎn)距離傳輸。但是語(yǔ)音信號(hào)在數(shù)字化之后,比特率卻大幅上升,也就是每秒需要更多的比特?cái)?shù)去存儲(chǔ)或傳輸,這樣就使成本提高。隨著信息技術(shù)的發(fā)展,信道資源顯得更加寶貴,為了在有限的信道進(jìn)行更多的信息傳輸,必須對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮。對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮編碼的基本依據(jù)是語(yǔ)音信號(hào)的冗余度
37、和人的聽覺感知機(jī)理。語(yǔ)音信號(hào)存在多種多樣的冗余,可分別從時(shí)間域和頻率域描述。從時(shí)間域分析:幅度的非均勻分布,即語(yǔ)音中的小幅度樣本出現(xiàn)的概率高,且通話中會(huì)有間隙信息,主要集中在低功率上;語(yǔ)音信號(hào)采樣數(shù)據(jù)間存在相關(guān)性,相鄰的樣本間有很強(qiáng)的相關(guān)性,如果采樣率提高,相關(guān)性將更強(qiáng);濁音語(yǔ)音段具有準(zhǔn)周期性,波形顯示出周期間的信息冗余,對(duì)語(yǔ)音濁音部分編碼最有效的方法之一是對(duì)一個(gè)音調(diào)間隔波形來(lái)編碼,并以其作為同樣聲音中其他基音段的參照;語(yǔ)音間隙,實(shí)際語(yǔ)音通信中,存在通話間隙,通話分析表明,全雙工話路的典型效率約為通話時(shí)間的 40%,即靜止系數(shù)為 0.6;長(zhǎng)時(shí)自相關(guān),除了樣本間、同期間的相關(guān)外,在較長(zhǎng)的時(shí)間間隔
38、上,語(yǔ)音信號(hào)也存在相關(guān)。從頻率域分析:非均勻的長(zhǎng)時(shí)功率譜密度,從相當(dāng)長(zhǎng)的時(shí)間統(tǒng)計(jì)平均,語(yǔ)音信號(hào)的功率譜呈現(xiàn)強(qiáng)烈的非平坦性,這說明語(yǔ)音信號(hào)對(duì)給定的頻段利用不充分,存在固定的冗余度;語(yǔ)音特有的短時(shí)功率譜密度,語(yǔ)音信號(hào)的短時(shí)功率譜在某些頻率上出現(xiàn)峰值,而在另一些頻率上出現(xiàn)谷值,這些峰值頻率是能量較大的頻率,稱為共振峰,共振峰頻率由低到高依次排列為第一共振峰、第二共振峰等,語(yǔ)音特征主要由前三個(gè)共振峰頻率決定,隨著頻率的增高,對(duì)整個(gè)功率譜的影響會(huì)快速遞減。語(yǔ)音壓縮的第二個(gè)依據(jù)是利用人類聽覺的感知機(jī)理,其影響主要表現(xiàn)在三個(gè)方面: 1.人類的聽覺系統(tǒng)對(duì)聲音具有“掩蔽”效應(yīng),即一個(gè)強(qiáng)音能夠抑制另一個(gè)同時(shí)存在的
39、弱音的聽覺,利用這一性質(zhì)可以抑制與信號(hào)同時(shí)存在的量化噪聲。2.人耳對(duì)不同頻段聲音的敏感程度不同。人的聽覺對(duì)低頻語(yǔ)音比較敏感,而對(duì)高頻語(yǔ)音不太敏感,這主要是因?yàn)闈嵋舻闹芷诤凸舱穹濉?.人耳對(duì)語(yǔ)音信號(hào)的相位變化不敏感。通過對(duì)人耳做短時(shí)的頻率分析,表明人耳對(duì)信號(hào)的音調(diào)很敏感,但對(duì)信號(hào)相位感知不敏感。人耳聽不到或感知極不靈敏的語(yǔ)音信號(hào)都可以認(rèn)為是冗余,可以利用這些特性進(jìn)行語(yǔ)音數(shù)據(jù)壓縮。對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字化和壓縮,既可以提高語(yǔ)音傳輸?shù)馁|(zhì)量,又能提高傳輸?shù)男?,所以?duì)語(yǔ)音壓縮編碼技術(shù)的研究一直是一個(gè)熱點(diǎn),特別是近十多年來(lái),語(yǔ)音編碼技術(shù)取得了突飛猛進(jìn)的發(fā)展,出現(xiàn)了多個(gè)國(guó)際標(biāo)準(zhǔn)和區(qū)域標(biāo)準(zhǔn),己具備比較完善的理論
40、和技術(shù)體系,隨著高速信號(hào)處理器的誕生,使多種算法復(fù)雜、計(jì)算量很大的編碼技術(shù)的實(shí)時(shí)化變得容易起來(lái),語(yǔ)音壓縮編碼進(jìn)入實(shí)用階段。2.2語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型建立語(yǔ)音信號(hào)的數(shù)字模型對(duì)于語(yǔ)音處理具有重要的意義。人們對(duì)語(yǔ)音信號(hào)進(jìn)行大量的分析、模擬和實(shí)驗(yàn)以后,得出了語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型8。它是指利用數(shù)字技術(shù)來(lái)模擬語(yǔ)音信號(hào)的產(chǎn)生,也就是利用數(shù)字信號(hào)處理技術(shù)來(lái)實(shí)現(xiàn)發(fā)音器官的模擬。為了使?jié)嵋舻臎_激信號(hào)具有聲門脈沖的實(shí)際波形,還需要使上述的沖激序列通過一個(gè)聲門脈沖模型濾波器 G(z)。其傳輸函數(shù)表示為: (2.1)基音頻率聲門脈沖模型脈沖周期發(fā)生器聲道模型 Av聲道參數(shù)輻射模型隨機(jī)噪聲發(fā)生器 Au圖2.1 語(yǔ)音信
41、號(hào)的數(shù)字模型該模型包括三個(gè)部分:激勵(lì)源、聲道模型和輻射模型9。激勵(lì)源分為濁音和清音兩種,按照濁音/清音開關(guān)所處的位置來(lái)決定產(chǎn)生的語(yǔ)音是濁音還是清音。濁音時(shí),激勵(lì)信號(hào)由一個(gè)周期脈沖發(fā)生器產(chǎn)生,產(chǎn)生的序列是一個(gè)頻率等于基音頻率的沖激序列。對(duì)聲門波形的頻譜分析表明,其幅度頻譜按每倍頻程 12dB 的速度遞減,如果 G(z)中 g1和 g2都很接近于 1,那么由之形成的濁音激勵(lì)信號(hào)頻譜很接近于聲門脈沖的頻譜,乘系數(shù) Av 的作用是調(diào)節(jié)濁音信號(hào)的幅度。清音時(shí),激勵(lì)信號(hào)由一個(gè)隨機(jī)噪聲發(fā)生器產(chǎn)生??稍O(shè)定其平均值為 0,其自相關(guān)函數(shù)是一個(gè)單位沖激函數(shù)。這表明它的任何兩個(gè)不同樣點(diǎn)都不相關(guān)且其均方差值為 1。此外
42、,還假定它的幅度具有正態(tài)概率分布。乘系數(shù) Au 的作用是調(diào)節(jié)清音信號(hào)的幅度10。聲道模型 V(z)給出了離散時(shí)域的聲道傳輸函數(shù),把實(shí)際聲道作為一個(gè)變截面聲管加以研究,采用流體力學(xué)的方法可以導(dǎo)出,在大多數(shù)情況下 V(z)是一個(gè)全極點(diǎn)函數(shù)。因此,V(z)可以表示為: (2.2)式中,a0=1,ai為實(shí)數(shù)。這里,把截面積連續(xù)變化的聲管近似為 p 段短聲管的串聯(lián),每段短聲管的截面積是不變的,p 稱為這個(gè)全極點(diǎn)濾波器的階。顯然,p值取得越大,模型的傳輸函數(shù)與聲道實(shí)際傳輸函數(shù)的吻合程度就越高。一般地,對(duì)大多數(shù)實(shí)際應(yīng)用而言,p 值取 812。若 p 取偶數(shù),一般有 p/2 對(duì)共軛極點(diǎn),極點(diǎn)的頻率分別與語(yǔ)音的
43、各個(gè)共振峰相對(duì)應(yīng)。輻射模型 R(z)與嘴型有關(guān),一般可以表示為: (2.3)在這個(gè)模型中,除了 G(z)和 R(z)保持不變以外,基音頻率、Av、Au、清/濁音開關(guān)的位置以與聲道模型中的參數(shù)都是隨時(shí)間而變化的。對(duì)于聲道參數(shù)而言,在 1030ms 的時(shí)間間隔可以認(rèn)為它們保持不變,因此語(yǔ)音的短時(shí)分析幀長(zhǎng)一般取為 1030ms 左右。對(duì)激勵(lì)源參數(shù),大部分情況下這一結(jié)論是正確的。1.3語(yǔ)音壓縮編解碼概述在現(xiàn)代通信中,作為組成通信系統(tǒng)的最基本單元之一的信源,如果不經(jīng)過任何處理,會(huì)存在大量的冗余成分,直接經(jīng)信道進(jìn)行傳輸將會(huì)造成帶寬的極大浪費(fèi)。所以,信源需要先經(jīng)過壓縮處理,即信源編碼,然后再經(jīng)信道傳輸。語(yǔ)音
44、信號(hào)是通信系統(tǒng)中使用最多的信源之一,它是模擬信號(hào),而現(xiàn)代通信系統(tǒng)基本上都是數(shù)字通信系統(tǒng),所以必須先對(duì)該模擬信號(hào)進(jìn)行模數(shù)轉(zhuǎn)換,將其數(shù)字化;數(shù)字化后的語(yǔ)音信號(hào),再經(jīng)過壓縮處理后方可進(jìn)行傳輸和存儲(chǔ)。在接收端,對(duì)信號(hào)進(jìn)行解壓縮處理和D/A轉(zhuǎn)換,還原成原始的模擬語(yǔ)音信號(hào)。這就是語(yǔ)音編解碼技術(shù)。模擬語(yǔ)音信號(hào)數(shù)字化后再進(jìn)行壓縮編碼處理,可減小存儲(chǔ)空間或降低傳輸比特率,從而節(jié)省傳輸帶寬。語(yǔ)音編解碼技術(shù)的方法歸納起來(lái),主要分為三大類,即波形編碼、參數(shù)編碼和混合編碼。波形編碼是最簡(jiǎn)單且應(yīng)用最早的語(yǔ)音編碼方法,它實(shí)施簡(jiǎn)單、性能優(yōu)良,但是其編碼比特率最高,在16kbps到64kbps之間,且一般很難再進(jìn)一步下降,G.
45、711的A律或u律、G.721和G.726標(biāo)準(zhǔn)均屬于波形編碼;參數(shù)編碼的語(yǔ)音編碼速率較低,基本上在2kbps到4.8kbps之間,語(yǔ)音的可懂度較好,但音質(zhì)較差,只能達(dá)到合成語(yǔ)音質(zhì)量,且其聲碼器對(duì)環(huán)境噪聲比較敏感,其次是算法復(fù)雜度較高,G.729、G.723.1標(biāo)準(zhǔn)和碼激勵(lì)線性預(yù)測(cè)(CELP)等均為參數(shù)編碼;混合編碼吸收了波形編碼和參數(shù)編碼各自的優(yōu)點(diǎn)并克服它們的缺點(diǎn),在較低的比特率上獲得較高的語(yǔ)音質(zhì)量,其比特率一般在4kbps-16kbps之間,多脈沖激勵(lì)線性預(yù)測(cè)編碼(MPLPC),規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼(RPELPC)和碼本激勵(lì)線性預(yù)測(cè)編碼(CELP)等都屬于混合編碼3,4,5。最早的語(yǔ)音編
46、解碼標(biāo)準(zhǔn)是1972年CCITT提出的G.711標(biāo)準(zhǔn),即64kbps的脈沖編碼調(diào)制(PCM)。到目前為止,標(biāo)準(zhǔn)PCM系統(tǒng)仍然占據(jù)著統(tǒng)治地位,被廣泛應(yīng)用在數(shù)字通信、數(shù)字交換機(jī)等領(lǐng)域,El標(biāo)準(zhǔn)接口中采用的即是歐洲的30路脈沖編碼調(diào)制PCM。隨后,CCITT又公布了G.721標(biāo)準(zhǔn),即32kbps的自適應(yīng)脈沖差分編碼ADPCM,在達(dá)到和PCM一樣語(yǔ)音質(zhì)量的基礎(chǔ)上,它具有更優(yōu)良的抗誤碼性能,并且速率降低一半。接著,ITU又提出了子帶自適應(yīng)差分脈沖編碼G.722,16kbps的短時(shí)延遲碼激勵(lì)線性預(yù)測(cè)G.728標(biāo)準(zhǔn),8kbps的共軛結(jié)構(gòu)代數(shù)碼激勵(lì)線性預(yù)測(cè)編碼G.729標(biāo)準(zhǔn)以與具有兩種編碼速率的G.723。l標(biāo)
47、準(zhǔn)(5.3kbps和6.3kbps,高速率采用多脈沖最大似然量化MPMLQ技術(shù),低速率采用代數(shù)碼本激勵(lì)線性預(yù)測(cè)ACELP技術(shù))等5,6,7。2語(yǔ)音壓縮的理論依據(jù)與算法2.1語(yǔ)音壓縮的理論依據(jù)語(yǔ)音通信經(jīng)歷了從模擬信號(hào)到數(shù)字信號(hào)的發(fā)展過程,最初通信傳輸?shù)氖钦Z(yǔ)音模擬信號(hào),傳輸?shù)男什桓?,而且傳輸不是特別可靠、高效。因?yàn)槟M信號(hào)在傳輸一段距離后會(huì)減弱,當(dāng)信號(hào)變?nèi)鯐r(shí),必須對(duì)它們定期放大。這種信號(hào)放大既加強(qiáng)了語(yǔ)音信號(hào),也加強(qiáng)了背景線路噪聲,要將復(fù)雜的模擬語(yǔ)音信號(hào)和傳輸噪聲區(qū)分開來(lái)是很困難的。為了進(jìn)一步提高語(yǔ)音的傳輸質(zhì)量和存儲(chǔ)效率,克服模擬傳輸?shù)娜秉c(diǎn),人們又引入了語(yǔ)音信號(hào)數(shù)字處理技術(shù),對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字化處
48、理。數(shù)字信號(hào)只有“1”和“0”兩種狀態(tài),易于同噪聲區(qū)分開,不易發(fā)生畸變,而且易于存儲(chǔ)和遠(yuǎn)距離傳輸。但是語(yǔ)音信號(hào)在數(shù)字化之后,比特率卻大幅上升,也就是每秒需要更多的比特?cái)?shù)去存儲(chǔ)或傳輸,這樣就使成本提高。隨著信息技術(shù)的發(fā)展,信道資源顯得更加寶貴,為了在有限的信道進(jìn)行更多的信息傳輸,必須對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮。對(duì)語(yǔ)音信號(hào)進(jìn)行壓縮編碼的基本依據(jù)是語(yǔ)音信號(hào)的冗余度和人的聽覺感知機(jī)理。語(yǔ)音信號(hào)存在多種多樣的冗余,可分別從時(shí)間域和頻率域描述。從時(shí)間域分析:幅度的非均勻分布,即語(yǔ)音中的小幅度樣本出現(xiàn)的概率高,且通話中會(huì)有間隙信息,主要集中在低功率上;語(yǔ)音信號(hào)采樣數(shù)據(jù)間存在相關(guān)性,相鄰的樣本間有很強(qiáng)的相關(guān)性,如果采
49、樣率提高,相關(guān)性將更強(qiáng);濁音語(yǔ)音段具有準(zhǔn)周期性,波形顯示出周期間的信息冗余,對(duì)語(yǔ)音濁音部分編碼最有效的方法之一是對(duì)一個(gè)音調(diào)間隔波形來(lái)編碼,并以其作為同樣聲音中其他基音段的參照;語(yǔ)音間隙,實(shí)際語(yǔ)音通信中,存在通話間隙,通話分析表明,全雙工話路的典型效率約為通話時(shí)間的 40%,即靜止系數(shù)為 0.6;長(zhǎng)時(shí)自相關(guān),除了樣本間、同期間的相關(guān)外,在較長(zhǎng)的時(shí)間間隔上,語(yǔ)音信號(hào)也存在相關(guān)。從頻率域分析:非均勻的長(zhǎng)時(shí)功率譜密度,從相當(dāng)長(zhǎng)的時(shí)間統(tǒng)計(jì)平均,語(yǔ)音信號(hào)的功率譜呈現(xiàn)強(qiáng)烈的非平坦性,這說明語(yǔ)音信號(hào)對(duì)給定的頻段利用不充分,存在固定的冗余度;語(yǔ)音特有的短時(shí)功率譜密度,語(yǔ)音信號(hào)的短時(shí)功率譜在某些頻率上出現(xiàn)峰值,而
50、在另一些頻率上出現(xiàn)谷值,這些峰值頻率是能量較大的頻率,稱為共振峰,共振峰頻率由低到高依次排列為第一共振峰、第二共振峰等,語(yǔ)音特征主要由前三個(gè)共振峰頻率決定,隨著頻率的增高,對(duì)整個(gè)功率譜的影響會(huì)快速遞減。語(yǔ)音壓縮的第二個(gè)依據(jù)是利用人類聽覺的感知機(jī)理,其影響主要表現(xiàn)在三個(gè)方面: 1.人類的聽覺系統(tǒng)對(duì)聲音具有“掩蔽”效應(yīng),即一個(gè)強(qiáng)音能夠抑制另一個(gè)同時(shí)存在的弱音的聽覺,利用這一性質(zhì)可以抑制與信號(hào)同時(shí)存在的量化噪聲。2.人耳對(duì)不同頻段聲音的敏感程度不同。人的聽覺對(duì)低頻語(yǔ)音比較敏感,而對(duì)高頻語(yǔ)音不太敏感,這主要是因?yàn)闈嵋舻闹芷诤凸舱穹濉?.人耳對(duì)語(yǔ)音信號(hào)的相位變化不敏感。通過對(duì)人耳做短時(shí)的頻率分析,表明人
51、耳對(duì)信號(hào)的音調(diào)很敏感,但對(duì)信號(hào)相位感知不敏感。人耳聽不到或感知極不靈敏的語(yǔ)音信號(hào)都可以認(rèn)為是冗余,可以利用這些特性進(jìn)行語(yǔ)音數(shù)據(jù)壓縮。對(duì)語(yǔ)音信號(hào)進(jìn)行數(shù)字化和壓縮,既可以提高語(yǔ)音傳輸?shù)馁|(zhì)量,又能提高傳輸?shù)男剩詫?duì)語(yǔ)音壓縮編碼技術(shù)的研究一直是一個(gè)熱點(diǎn),特別是近十多年來(lái),語(yǔ)音編碼技術(shù)取得了突飛猛進(jìn)的發(fā)展,出現(xiàn)了多個(gè)國(guó)際標(biāo)準(zhǔn)和區(qū)域標(biāo)準(zhǔn),己具備比較完善的理論和技術(shù)體系,隨著高速信號(hào)處理器的誕生,使多種算法復(fù)雜、計(jì)算量很大的編碼技術(shù)的實(shí)時(shí)化變得容易起來(lái),語(yǔ)音壓縮編碼進(jìn)入實(shí)用階段。2.2語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型建立語(yǔ)音信號(hào)的數(shù)字模型對(duì)于語(yǔ)音處理具有重要的意義。人們對(duì)語(yǔ)音信號(hào)進(jìn)行大量的分析、模擬和實(shí)驗(yàn)以后,得
52、出了語(yǔ)音信號(hào)產(chǎn)生的數(shù)字模型8。它是指利用數(shù)字技術(shù)來(lái)模擬語(yǔ)音信號(hào)的產(chǎn)生,也就是利用數(shù)字信號(hào)處理技術(shù)來(lái)實(shí)現(xiàn)發(fā)音器官的模擬。為了使?jié)嵋舻臎_激信號(hào)具有聲門脈沖的實(shí)際波形,還需要使上述的沖激序列通過一個(gè)聲門脈沖模型濾波器 G(z)。其傳輸函數(shù)表示為: (2.1)基音頻率聲門脈沖模型脈沖周期發(fā)生器聲道模型 Av聲道參數(shù)輻射模型隨機(jī)噪聲發(fā)生器 Au圖2.1 語(yǔ)音信號(hào)的數(shù)字模型該模型包括三個(gè)部分:激勵(lì)源、聲道模型和輻射模型9。激勵(lì)源分為濁音和清音兩種,按照濁音/清音開關(guān)所處的位置來(lái)決定產(chǎn)生的語(yǔ)音是濁音還是清音。濁音時(shí),激勵(lì)信號(hào)由一個(gè)周期脈沖發(fā)生器產(chǎn)生,產(chǎn)生的序列是一個(gè)頻率等于基音頻率的沖激序列。對(duì)聲門波形的頻
53、譜分析表明,其幅度頻譜按每倍頻程 12dB 的速度遞減,如果 G(z)中 g1和 g2都很接近于 1,那么由之形成的濁音激勵(lì)信號(hào)頻譜很接近于聲門脈沖的頻譜,乘系數(shù) Av 的作用是調(diào)節(jié)濁音信號(hào)的幅度。清音時(shí),激勵(lì)信號(hào)由一個(gè)隨機(jī)噪聲發(fā)生器產(chǎn)生??稍O(shè)定其平均值為 0,其自相關(guān)函數(shù)是一個(gè)單位沖激函數(shù)。這表明它的任何兩個(gè)不同樣點(diǎn)都不相關(guān)且其均方差值為 1。此外,還假定它的幅度具有正態(tài)概率分布。乘系數(shù) Au 的作用是調(diào)節(jié)清音信號(hào)的幅度10。聲道模型 V(z)給出了離散時(shí)域的聲道傳輸函數(shù),把實(shí)際聲道作為一個(gè)變截面聲管加以研究,采用流體力學(xué)的方法可以導(dǎo)出,在大多數(shù)情況下 V(z)是一個(gè)全極點(diǎn)函數(shù)。因此,V(z
54、)可以表示為: (2.2)式中,a0=1,ai為實(shí)數(shù)。這里,把截面積連續(xù)變化的聲管近似為 p 段短聲管的串聯(lián),每段短聲管的截面積是不變的,p 稱為這個(gè)全極點(diǎn)濾波器的階。顯然,p值取得越大,模型的傳輸函數(shù)與聲道實(shí)際傳輸函數(shù)的吻合程度就越高。一般地,對(duì)大多數(shù)實(shí)際應(yīng)用而言,p 值取 812。若 p 取偶數(shù),一般有 p/2 對(duì)共軛極點(diǎn),極點(diǎn)的頻率分別與語(yǔ)音的各個(gè)共振峰相對(duì)應(yīng)。輻射模型 R(z)與嘴型有關(guān),一般可以表示為: (2.3)在這個(gè)模型中,除了 G(z)和 R(z)保持不變以外,基音頻率、Av、Au、清/濁音開關(guān)的位置以與聲道模型中的參數(shù)都是隨時(shí)間而變化的。對(duì)于聲道參數(shù)而言,在 1030ms 的
55、時(shí)間間隔可以認(rèn)為它們保持不變,因此語(yǔ)音的短時(shí)分析幀長(zhǎng)一般取為 1030ms 左右。對(duì)激勵(lì)源參數(shù),大部分情況下這一結(jié)論是正確的。1.3語(yǔ)音壓縮編解碼概述在現(xiàn)代通信中,作為組成通信系統(tǒng)的最基本單元之一的信源,如果不經(jīng)過任何處理,會(huì)存在大量的冗余成分,直接經(jīng)信道進(jìn)行傳輸將會(huì)造成帶寬的極大浪費(fèi)。所以,信源需要先經(jīng)過壓縮處理,即信源編碼,然后再經(jīng)信道傳輸。語(yǔ)音信號(hào)是通信系統(tǒng)中使用最多的信源之一,它是模擬信號(hào),而現(xiàn)代通信系統(tǒng)基本上都是數(shù)字通信系統(tǒng),所以必須先對(duì)該模擬信號(hào)進(jìn)行模數(shù)轉(zhuǎn)換,將其數(shù)字化;數(shù)字化后的語(yǔ)音信號(hào),再經(jīng)過壓縮處理后方可進(jìn)行傳輸和存儲(chǔ)。在接收端,對(duì)信號(hào)進(jìn)行解壓縮處理和D/A轉(zhuǎn)換,還原成原始的
56、模擬語(yǔ)音信號(hào)。這就是語(yǔ)音編解碼技術(shù)。模擬語(yǔ)音信號(hào)數(shù)字化后再進(jìn)行壓縮編碼處理,可減小存儲(chǔ)空間或降低傳輸比特率,從而節(jié)省傳輸帶寬。語(yǔ)音編解碼技術(shù)的方法歸納起來(lái),主要分為三大類,即波形編碼、參數(shù)編碼和混合編碼。波形編碼是最簡(jiǎn)單且應(yīng)用最早的語(yǔ)音編碼方法,它實(shí)施簡(jiǎn)單、性能優(yōu)良,但是其編碼比特率最高,在16kbps到64kbps之間,且一般很難再進(jìn)一步下降,G.711的A律或u律、G.721和G.726標(biāo)準(zhǔn)均屬于波形編碼;參數(shù)編碼的語(yǔ)音編碼速率較低,基本上在2kbps到4.8kbps之間,語(yǔ)音的可懂度較好,但音質(zhì)較差,只能達(dá)到合成語(yǔ)音質(zhì)量,且其聲碼器對(duì)環(huán)境噪聲比較敏感,其次是算法復(fù)雜度較高,G.729、G
57、.723.1標(biāo)準(zhǔn)和碼激勵(lì)線性預(yù)測(cè)(CELP)等均為參數(shù)編碼;混合編碼吸收了波形編碼和參數(shù)編碼各自的優(yōu)點(diǎn)并克服它們的缺點(diǎn),在較低的比特率上獲得較高的語(yǔ)音質(zhì)量,其比特率一般在4kbps-16kbps之間,多脈沖激勵(lì)線性預(yù)測(cè)編碼(MPLPC),規(guī)則脈沖激勵(lì)線性預(yù)測(cè)編碼(RPELPC)和碼本激勵(lì)線性預(yù)測(cè)編碼(CELP)等都屬于混合編碼3,4,5。最早的語(yǔ)音編解碼標(biāo)準(zhǔn)是1972年CCITT提出的G.711標(biāo)準(zhǔn),即64kbps的脈沖編碼調(diào)制(PCM)。到目前為止,標(biāo)準(zhǔn)PCM系統(tǒng)仍然占據(jù)著統(tǒng)治地位,被廣泛應(yīng)用在數(shù)字通信、數(shù)字交換機(jī)等領(lǐng)域,El標(biāo)準(zhǔn)接口中采用的即是歐洲的30路脈沖編碼調(diào)制PCM。隨后,CCITT又公布了G.721標(biāo)準(zhǔn),即32kbps的自適應(yīng)脈沖差分編碼ADPCM,
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45172-2024感官分析方法定量描述感官評(píng)價(jià)小組表現(xiàn)評(píng)估導(dǎo)則
- 2024年衛(wèi)星傳輸服務(wù)項(xiàng)目資金申請(qǐng)報(bào)告代可行性研究報(bào)告
- OVA-PEG-Cy3-生命科學(xué)試劑-MCE-7080
- JCS-1-生命科學(xué)試劑-MCE-4278
- 二零二五年度廠房物業(yè)管理與員工食堂運(yùn)營(yíng)合同
- 2025年度股權(quán)融資協(xié)議書范本
- 2025年度文化產(chǎn)業(yè)過橋墊資合作協(xié)議書
- 二零二五年度稅務(wù)籌劃與稅務(wù)籌劃財(cái)務(wù)解決方案合同
- 2025年度全屋智能家居裝修質(zhì)保服務(wù)合同模板
- 2025-2030全球離散行業(yè)無(wú)線自動(dòng)化行業(yè)調(diào)研及趨勢(shì)分析報(bào)告
- 決勝中層:中層管理者的九項(xiàng)修煉-記錄
- 《港珠澳大橋演講》課件
- 《有機(jī)化學(xué)》課件-第十章 羧酸及其衍生物
- 人教版道德與法治五年級(jí)下冊(cè)《第一單元 我們一家人》大單元整體教學(xué)設(shè)計(jì)2022課標(biāo)
- 2024年海南公務(wù)員考試申論試題(A卷)
- 中醫(yī)培訓(xùn)課件:《經(jīng)穴推拿術(shù)》
- 臨床藥師進(jìn)修匯報(bào)課件
- 北京市首都師大附中2025屆數(shù)學(xué)高三第一學(xué)期期末達(dá)標(biāo)測(cè)試試題含解析
- excel培訓(xùn)課件教學(xué)
- 2024年貴州省高職(??疲┓诸惪荚囌惺罩新毊厴I(yè)生文化綜合考試語(yǔ)文試題
- 政治丨廣東省2025屆高中畢業(yè)班8月第一次調(diào)研考試廣東一調(diào)政治試卷及答案
評(píng)論
0/150
提交評(píng)論