緒論語音信號處理基礎知識【共62張】_第1頁
緒論語音信號處理基礎知識【共62張】_第2頁
緒論語音信號處理基礎知識【共62張】_第3頁
緒論語音信號處理基礎知識【共62張】_第4頁
緒論語音信號處理基礎知識【共62張】_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

緒論語音信號處理基礎知識優(yōu)選緒論語音信號處理基礎知識該門課程的教學要求:大綱:選修課考查(考試方式)全書12章(32學時,講10章)第1章緒論第2章語音信號處理基礎知識第3章語音信號分析第4章矢量量化技術第5章隱馬爾可夫模型第7章語音編碼第8章語音合成第9章語音識別第10章說話人識別與語種辨識第14章語音增強1.語音信號處理技術的應用2.語音信號處理技術的發(fā)展概況第1章緒論§1.1語音信號處理技術的應用

語音是人類最重要、最有效、最常用和最方便的交換信息的方式;讓計算機能聽懂人類的語言,是人類自計算機誕生以來夢寐以求的想法;語音信號處理技術始終與當時信息科學中最活躍的前沿學科保持密切的聯系,并且一起發(fā)展。下面介紹語音信號處理技術的廣泛應用。(1)語音編碼(語音壓縮編碼、語音壓縮)必要性:數字化語音信號的存儲要占用一定的空間,傳輸要占用一定的帶寬。為了節(jié)省空間和帶寬需要對語音信號進行壓縮編碼。如果只按照傳統(tǒng)的模數轉換技術對語音信號進行數字化,那就必須傳輸或存儲大量的數據。假定采樣速率為8kHz,對每個樣本進行16位A/D轉換,則每秒的語音數據量將達到128kbps。這么高的位率通常是不允許的,必須對其進行壓縮。發(fā)展現狀:自從30年代末提出脈沖編碼調制(PCM)原理以及聲碼器的概念后,語音編碼一直沿著兩個方向發(fā)展:語音信號波形編碼與聲碼化編碼,或者是非參數化編碼與參數化編碼。參數編碼有時也稱為模型編碼。1)波形編碼語音信號波形編碼的特點是:力圖使重建的語音波形保持原始語音信號的波形形狀。這類編碼器通常將語音信號當作一般的波形信號來處理,具有適應能力強、話音質量好等優(yōu)點,但是所需要的編碼速率高。如:PCM、增量調制、自適應增量調制等。2)參數編碼參數編碼通過對語音信號特征參數的提取及編碼,力圖使重建的語音信號具有盡可能高的可懂度,即保持原語音的語意,但是重建信號的波形同原語音信號的波形相比可能會有相當大的差別。參數編碼的主要問題是:合成語音質量低,自然度較差,有時甚至連連熟人也不一定能聽出講話人是誰。另外,這類編碼器對講話的環(huán)境噪聲比較敏感,需要安靜的講話環(huán)境才能給出較高的可懂度。如:線性預測聲碼器等。3)混合編碼混合編碼克服了原有波形編碼與參數編碼的弱點,結合了它們各自的長處,在4~16kbps速率上能夠得到質量比較好的合成語音,在本質上具有波形編碼的優(yōu)點。如:多脈沖激勵線性預測編碼、規(guī)則脈沖激勵線性預測編碼、碼本激勵線性預測編碼等。應用:帶寬受限信道的數字話音傳輸(蜂窩移動通信、衛(wèi)星通信等)、可視、語音的數字存儲、呼叫服務(數字錄音、語音信箱等);方向:低碼率高質量的音頻編碼技術和算法。語音壓縮通常根據實際應用情況,進行三方面的均衡,即位率、質量和清晰度、編解碼算法的復雜度。例如,有的數字語音錄放系統(tǒng)對編碼器實時性要求不高,但希望有較高的壓縮效率,以降低所需存儲器的容量;對于解碼器,則要求算法盡量簡單、成本低,并能夠實時或基本實時解碼;數字通信系統(tǒng)則要求能夠實時編解碼。(2)語音識別作用:將語音轉換成等價的書面信息,即讓計算機聽懂人說話。語音識別是建立計算機聽覺系統(tǒng)的基礎,它使得任何計算機之間利用自然語言進行通信成為可能。語音識別的一般過程:在訓練階段,用戶將詞匯表中的每個詞依次說一遍,語音分析單元對輸入語音進行分析,并將其特征矢量序列作為模板存入模板庫。在識別階段,將對輸入語音分析得到的特征序列與模板庫中的每一個模板相匹配比較,將相似度最高者作為識別結果輸出。預處理包括反混疊濾波、數模轉換、自動增益控制、噪聲消除、去除聲門激勵及口唇輻射影響,以及端點檢測和自動分段。其中,端點檢測和自動分段決定于系統(tǒng)選擇的識別單元的大小。基元可以是音素、音節(jié)字、或詞?;x得小,存儲的模板量可以減少,但對分割技術要求會提高,并會影響識別率。提取各種聲學參數,包括時域參數、頻域參數、倒譜域參數和超音段信息。時域參數:短時平均能量、短時平均過零率、和短時自相關函數。頻域參數:濾波器組平均譜、線譜、共振峰信息共振峰頻率、帶寬、幅值、和線性預測系數。倒譜域參數:倒譜系數。超音段信息:音長、音調、聲調用統(tǒng)計模型通常是隱馬爾可夫模型,由訓練樣本得到各類的模型參數。參考模板就是由訓練或聚類的方法得到的語音庫。未知的語音樣本要通過與語音庫中的各個模板進行比較才能得到識別。應用前景:A、聲控應用,計算機識別語音內容,并實施相應的動作。典型系統(tǒng):聲控轉換、聲控語音撥號、聲控智能玩具、信息網絡查詢、、家庭服務等;B、聽寫系統(tǒng),以口授方式將文字輸入計算機;C、自動口語翻譯,將一種語言翻譯成另一種語言,如中科院開展的CSTAR計劃;D、人機交互;E、移動計算設備語音輸入;F、說話人識別,安全加密、法庭取證、信息查詢、公安機關破案等。(3)說話人識別根據語音辨別說話人。說話人識別分為訓練階段和識別階段。這兩個階段都必須根據說話人的特征建立模型進行識別。根據判決模式不同可以將說話人識別分為說話人辨識和說話人確認兩類。根據對訓練和測試語音內容的要求不同,還可以將說話人識別分為固定文本的說話人識別和任意文本的說話人識別。說話人識別的主要方法:基于模板的方法:DTW、矢量量化基于隨機模板的方法:混合高斯模型、隱馬爾科夫模型基于人工神經網絡的方法基于支持向量機的方法應用:廣泛應用于人機接口、保安、軍事、司法等方面。(保密設施的門禁系統(tǒng)、個人賬戶的身份驗證、司法調查中的聲音認證等)說話人識別和語音識別比較同:都是語音信號處理技術同計算機技術相結合的產物;都是應用機器設備(主體是計算機)來模仿人對語音的感知和處理能力;都是基本的模式識別問題;都可以分為訓練與測試兩個階段,訓練時提取出某些語音特征,建立相應的模型,測試時提取出相同的語音特征,再根據一定的相似性準則作出判斷;兩者有時采用相同的語音特征。異:(l)對于說話人識別,語音信號在特征空間中是按照說話人來劃分的,而語音識別是按照單詞或句子劃分的。(2)說話人識別是想要挖掘出包含在語音信號中的有關說話人的個性因素,力圖強調不同人之間的差別;而語音識別則是想要得到語音信號的語義內容,而忽略掉不同說話人的個性因素。兩者差異體現在語音特征和建模方法的選擇上。(4)語音合成目的:讓計算機說話。語音合成是語言合成中最基本的部分,它相當于“人工嘴巴”。最簡單的語音合成是語音相應系統(tǒng):在計算機內建立一個語音庫,將可能用到的單字、詞組或一些句子的聲音信號編碼后存入計算機,當鍵入所要的字、詞組或句子代碼時,就能調出對應的數碼信號,并轉換成聲音。語音合成器:從理論上講,它可完全模仿人類發(fā)聲器官動作和發(fā)聲過程,實時地產生所需的語音。但在事實上,由于很難找出定量描述發(fā)聲器官動作的精確數字模型和實際語音產生規(guī)律,因此實現起來還有一定困難。語音合成技術經歷了一個逐步發(fā)展的過程,從參數合成到拼接合成再到兩者的逐步結合,其不斷發(fā)展主要是人們認知水平以及要求的不斷提高的結果。目前,常用的語音合成技術主要有:共振峰合成技術、LPC合成技術、PSOLA拼接合成技術和LMA聲道模型技術。各種合成技術各有自己的優(yōu)缺點,人們在應用的過程中往往將多種技術有機的結合在一起,或者將一種技術的優(yōu)點運用到另一種技術上,以克服另一種技術的不足。應用:公共交通自動報站,各種場合的自動報時、自動告警等,文本校對中的語音提示,查詢服務;應用新領域:與Internet結合,有聲EMAIL,網上信息的有聲獲取、語音聊天等;與機器翻譯技術結合的語音翻譯;與圖象、視頻技術結合的視覺(visualspeech)語音。研究方向:高質量、高清晰度自然語音合成,以及表達人類的情感語音。(5)語音增強為了從帶噪信號中獲得盡可能純凈的語音信號,減少噪音的干擾,就需要進行語音增強。目標:對收聽人而一言主要是減少疲勞感,改善語音質量,提高語音可懂度;對語音處理系統(tǒng)(識別器、聲碼器、)而言是提高系統(tǒng)的識別率和抗干擾能力。語音增強在許多方面有著廣泛的應用,例如:.在國家和社會安全方面,偵聽信號常常含有較大的噪聲,語音增強有助于提高偵聽系統(tǒng)的效果,可以幫助偵察破案或獲取情報。.飛機駕駛人員與地面指揮的語音通訊常常因飛機螺旋槳、發(fā)動機等強噪聲而受到干擾,需要進行語音增強以保證語音信息的可靠傳達。語音增強的主要方法:1)噪聲對消法顯而易見,如果能直接從帶噪語音中,在時域中或者在頻域中,將噪聲分量減去,則能有效增強帶噪語音。噪聲對消法就是以此作為出發(fā)點。其最大特點是需要采集背景噪聲作為參考信號,參考信號準確與否直接決定著噪聲對消法的性能。在采集背景噪聲時,往往采用自適應濾波技術,以便使參考信號盡可能接近帶噪語音中的噪聲分量。2)自適應梳狀濾波由于語音中的濁音具有明顯的周期性,這種周期性反映到頻域中則為一系列分別對應基頻(基音)及其諧波的一個個峰值分量,這些頻率分量占據了語音的大部分能量,我們自然可以利用這種周期性來進行語音增強。這時可采用自適應梳狀濾波器來提取基音及其諧波分量,抑制其他周期性噪聲和非周期的寬帶噪聲。由于語音是時變的,語音的基音周期也是不斷變化的,能否準確地估計出基音周期以及能否及時跟蹤基音變化,是這種基于諧波增強法的關鍵??稍O定其平均值為0,其自相關函數是一個單位沖激函數。混合編碼克服了原有波形編碼與參數編碼的弱點,結合了它們各自的長處,在4~16kbps速率上能夠得到質量比較好的合成語音,在本質上具有波形編碼的優(yōu)點。參數編碼有時也稱為模型編碼。于是,可以從中截取一小段進行頻譜分析。50年代后,語音信號處理得到新的進展。顯而易見,如果能直接從帶噪語音中,在時域中或者在頻域中,將噪聲分量減去,則能有效增強帶噪語音。超音段信息:音長、音調、聲調——截取一段進行付氏變換,求其短時譜。如:PCM、增量調制、自適應增量調制等。未知的語音樣本要通過與語音庫中的各個模板進行比較才能得到識別。(12)數字語音安全性、完整性研究(新發(fā)展方向)目標:對收聽人而一言主要是減少疲勞感,改善語音質量,提高語音可懂度;對語音處理系統(tǒng)(識別器、聲碼器、)而言是提高系統(tǒng)的識別率和抗干擾能力。第10章說話人識別與語種辨識基于語音生成模型可以得到一系列語音增強方法,比如時變參數維納濾濁音的聲帶振動基本頻率稱為基音頻率,一般用F0表示。3)幅度譜相減法對帶噪語音信號進行傅立葉變換,在頻域中從帶噪語音的幅度譜上減去噪聲的幅度譜來作為語音信號的幅度譜。利用人耳對語音相位的不敏感性,語音相位譜則近似用帶噪語音的相位譜代替。4)功率譜相減法這種方法是從帶噪語音功率譜中減去噪聲的功率譜,從而得到語音信號的功率譜,進而決定語音信號各頻譜分量增益,最終得到語音信號的估計。5)維納濾波法維納濾波法是為得到語音信號的時域波形,在最小均方誤差準則下得到的最優(yōu)估計器。實際應用中,多采用非因果維納濾波器的頻域實現形式。6)語音參數模型法語音的發(fā)聲過程可以建模為一個線性時變?yōu)V波器。對不同類型的語音采用不同的激勵源。例如對于濁音,激勵源為周期與基音周期相同的脈沖串;而對于清音,激勵源為高斯白噪聲。在語音的生成模型中,應用最廣泛的是全極點模型。基于語音生成模型可以得到一系列語音增強方法,比如時變參數維納濾波及卡爾曼濾波方法??柭鼮V波就是基于語音生成模型的一種有效語音增強方法,它能有效消除有色噪聲。(6)基于語音的信息檢索(新方向)動機:網絡技術和數字圖書館技術;方向:基于語音內容的信息檢索(7)基于語音識別的廣播新聞的自動文摘技術、自動謄寫技術(新發(fā)展方向)(8)IP技術(新發(fā)展方向)研究領域:研究網絡環(huán)境下的語音識別,即對網絡上以數據包形式傳輸的語音進行識別。應用領域:電子商務、國防,移動計算(9)語音訓練與校正技術(新方向)應用:輔助教學、發(fā)音校正。(10)語種識別(新發(fā)展方向)通過分析一個語音片段來判別其所屬語言的種類,屬語音識別范疇。(11)基于語音的情感處理研究(新發(fā)展方向)(12)數字語音安全性、完整性研究(新發(fā)展方向)(13)音頻作品安全性、完整性研究(新發(fā)展方向)§1.2.語音信號處理技術的發(fā)展概況1.語音信號處理的發(fā)展標志是在1940年產生的通道聲碼器技術,打破了以前的“波形原則”,提出了一種全新的語音通信技術,即提取參數加以傳輸,在收端重新合成語音。其后,產生“語音參數模型”的思想。2.40年代后期,研制成功了“語譜儀”,為語音信號分析提高了有力工具。3.50年代后,語音信號處理得到新的進展。主要標志是貝爾實驗室英文數字語音識別裝置的研究成功。其后隨著數字計算機和數字信號處理技術(FFT)的突破性發(fā)展,產生了第一臺孤立詞語音識別器、有限連續(xù)語音識別器。4.70年代初,隨著倒譜分析技術和線性預測技術的成功應用,微電子學、微處理機芯片和專用信號處理芯片的不斷問世,進一步推動了語音信號處理技術的發(fā)展。5.80年代初,矢量量化VQ應用于語音信號處理;隱式馬爾可夫模型HMM是80年代語音信號處理技術的重大發(fā)展。6近年來,人工神經網絡研究取得了迅速的發(fā)展,語音識別是神經網絡的一個重要應用領域第2章語音信號處理的基礎知識語音的產生過程語音信號的特性分析語音信號生成的數學模型§2.1語音的產生過程什么是語音?語音的產生過程1.

什么是語音語音是帶有語言信息的聲音(聲波)。人們講話時發(fā)出的話語叫語音,它是一種聲音,具有稱為聲學特征的物理特性。語音(Speech)是聲音(Acoustic)和語言(Language)的組合體??梢赃@樣定義語音:語音是由一連串的音組成語言的聲音。經過聲電轉換得到電信號;經過聲光轉換得到光信號。2.語音的產生過程語音的產生依賴于人類的發(fā)聲器官。發(fā)聲器官主要由喉、聲道和嘴構成。人的說話過程可以分為五個階段:(1)想說階段(2)說出階段(3)傳送階段(4)理解階段(5)接收階段§2.2語音信號的特性分析語音信號的聲學特性語音信號的時域波形語音信號的頻譜特性語音信號的統(tǒng)計特性語音信號的聲學特性語音是人的發(fā)聲器官發(fā)出的一種聲波,它具有一定的音色,音調,音強和音長。音色也叫音質,是一種聲音區(qū)別于另一種聲音的基本特征。音調是指聲音的高低,它取決于聲波的頻率。聲音的強弱叫音強,它由聲波的振動幅度決定。聲音的長短叫音長,它取決于發(fā)音時間的長短。說話時一次發(fā)出的,具有一個響亮的中心,并被明顯感覺到的語音片段叫音節(jié)(Syllable)。一個音節(jié)可以由一個音素構成,也可以由幾個音素構成。音素是語音發(fā)音的最小單位。任何語言都有語音的元音(Vowel)和輔音(Consonant)兩種音素。元音:當聲帶振動發(fā)出的聲音氣流從喉腔、咽腔進入口腔從唇腔出去時,這些聲腔完全開放,氣流順利通過產生的音素?!獦嫵梢粋€音節(jié)的主干,長度和能量看,元音在音節(jié)中都占主要部分。輔音:呼出的聲流,由于通路的某一部分封閉起來或受到阻礙,氣流被阻不能暢通,而克服發(fā)音器官的這種阻礙而產生的音素?!怀霈F在音節(jié)的前端、后端或前后兩端發(fā)輔音時由聲帶是否振動引起濁音和清音的區(qū)別:聲帶振動的是濁音聲帶不振動的是清音基音頻率當發(fā)濁音時,氣流通過聲門時使聲帶發(fā)生振動,產生準周期激勵脈沖串,這個脈沖串的周期稱為基音周期,其倒數稱為基音頻率。濁音的聲帶振動基本頻率稱為基音頻率,一般用F0表示。無論一個音節(jié)或是一段連續(xù)語音,各個音節(jié)的元音段的F0都是隨時間變化的,該變化產生了聲調,其變化軌跡稱為聲調軌跡?;纛l率與個人聲帶的長短、厚薄、韌性、勁度和發(fā)音習慣等有關,在很大程度上反映了個人的特征。一般來說,男性說話者的基音頻率大致分布在50-200Hz,女性和小孩的基音頻率在200-450Hz之間。共振峰共振峰是一組諧振頻率:聲道可以看成是一根具有非均勻截面的聲管,在發(fā)音時起共鳴器的作用,當元音激勵進入聲道時會引起共振特性,產生一組共振頻率,稱為共振峰頻率(簡稱共振峰)。元音的一個重要聲學特性是共振峰(Formant)。共振峰參數是區(qū)別不同元音的重要參數,它一般包括共振峰頻率(FormantFrequency)的位置和頻帶寬度(FormantBandwidth)。元音的共振峰與發(fā)音機制(舌位高低、前后;舌尖的狀態(tài)等)有關。語音信號的時域波形和頻譜特性

在時間域里,語音信號可以直接用它的時間波形表示出來,通過觀察時間波形可以看出語音信號的一些重要特性。觀察語音信號時間波形的特性,可以通過對語音波形的振幅和周期性來觀察不同性質的音素的差別。下圖是漢語拼音“souke”的時間波形。表示這段語音波形時采用的采樣頻率是8kHz,量化精度是16bit。圖上標明了時間及各個音節(jié)的起始位置。由于在時域波形里各個單音節(jié)間不好明顯地分界,因此,圖上標出的某個音的起點只是粗略的。從上圖可以看出,清輔音[s][k]和元音[ou][e]這兩類音的時間波形有很大區(qū)別。例如,從A點開始的音節(jié)[s],以及從C點開始的[k]都是清輔音,它們的波形類似于白噪聲,振幅很小,沒有明顯的周期性;而從B點開始的元音[ou]以及從D點開始的[e]都具有明顯的周期性,且振幅較大。它們的周期對應的就是聲帶振動的頻率,即基音頻率,它是聲門脈沖的間隔。如果考察其中一小段元音語音波形,從它的頻譜特性大致可以看出它們的共振峰特性。

語音信號具有很強的時變特性,有些波形具有很強的周期性,有些波形具有很強的噪聲特性,且周期性語音和噪聲性語音的特征也在不斷變化之中。但在較短的時間內,語音信號的特征可以認為基本不變,所以,語音信號屬于短時平穩(wěn)信號,一般認為在10~30ms內語音信號特性基本上是不變的,或者變化很緩慢?!厝∫欢芜M行付氏變換,求其短時譜。下面分別看一下元音和輔音的短時頻譜。于是,可以從中截取一小段進行頻譜分析。下圖給出“sou”中音素“ou”的傅里葉變換:頻率/kHz幅度/dB語音信號的語譜圖

短時譜只能反映語音信號的靜態(tài)頻率特性,不能反映語音信號的動態(tài)頻率特性。因此,人們致力于研究語音的時頻分析特性,把和時序相關的傅立葉分析的顯示圖形稱為語譜圖。語譜圖是一種三維頻譜,它是表示語音頻譜隨時間變化的圖形,其縱軸為頻率,橫軸為時間,圖像的黑白度對應信號的能量。聲道的諧振頻率在圖上表現為黑帶,濁音部分則以出現條紋圖形為特征。記錄這種譜圖的儀器就是語譜儀。(3)混合型聲道模型語音信號處理技術始終與當時信息科學中最活躍的前沿學科保持密切的聯系,并且一起發(fā)展。第2章語音信號處理基礎知識這兩個階段都必須根據說話人的特征建立模型進行識別。兩者差異體現在語音特征和建模方法的選擇上。也就是說濁音激勵波是一個以基音周期為周期的斜三角脈沖串。語音是人的發(fā)聲器官發(fā)出的一種聲波,它具有一定的音色,音調,音強和音長。基于模板的方法:DTW、矢量量化大綱:選修課考查(考試方式)基音頻率與個人聲帶的長短、厚薄、韌性、勁度和發(fā)音習慣等有關,在很大程度上反映了個人的特征。語音是帶有語言信息的聲音(聲波)。語音信號處理技術的應用語音壓縮通常根據實際應用情況,進行三方面的均衡,即位率、質量和清晰度、編解碼算法的復雜度。語音信號處理技術的應用與機器翻譯技術結合的語音翻譯;語音信號的統(tǒng)計特性語音信號的統(tǒng)計特性可以用它的波形振幅概率密度函數和一些統(tǒng)計量如均值和自相關函數來描述。表示語音信號的統(tǒng)計特性的概率密度的估算方法是根據長時間范圍內一段語音信號的大量取樣數據的幅度絕對值計算出其幅度直方圖,然后,根據統(tǒng)計的振幅直方圖,尋找近似的概率密度表達式。通過對語音信號的統(tǒng)計特性的研究表明,語音信號振幅分布的概率密度有兩種逼近方法,一種是修正伽瑪(Gamma)分布概率密度函數另一種是拉普拉斯(Laplace)分布概率密度函數對于長期統(tǒng)計來說,用拉普拉斯分布描述語音信號的統(tǒng)計特性不及用伽瑪分布描述精確,但其函數式卻簡單一些。也可以用高斯分布(Gaussian)來近似。這三個分布函數中,伽瑪函數逼近的效果最好,其次是拉普拉斯函數,而高斯分布逼近效果最差。

§2.3語音信號生成的數學模型語音信號是一個非平穩(wěn)的隨機過程,但隨時間的變化很緩慢,可做一些合理的假設,將語音信號分成短段處理,在這些短段中可視為平穩(wěn)隨機過程,采用線性時不變模型??蓪⒄Z音生成系統(tǒng)分成三個部分,在聲門(聲帶)以下,稱為聲門子系統(tǒng),負責產生激勵振動,是激勵系統(tǒng);從聲門到嘴唇的呼氣通道是聲道,是聲道系統(tǒng);語音從嘴唇輻射出去,嘴唇以外是輻射系統(tǒng)。下面分別介紹激勵模型、聲道模型、輻射模型,再介紹語音信號產生的數學模型。激勵模型激勵模型一般分成濁音激勵和清音激勵兩種。濁音時,激勵信號由一個周期脈沖發(fā)生器產生,產生的序列是一個頻率等于基音頻率的沖激序列。清音時,激勵信號由一個隨機噪聲發(fā)生器產生。可設定其平均值為0,其自相關函數是一個單位沖激函數。發(fā)濁音時,由于聲帶不斷張開和關閉,將產生間歇的脈沖波。這個脈沖波的波形類似于斜三角形的脈沖,它的數學表達式如下:式中,N1為斜三角波上升部分的時間,N2為其下降部分的時間。單個斜三角波波形的頻譜的圖形如圖2-18所示。由圖可見,它是一個低通濾波器。它的變換的全極模型的形式是:這里,c是一個常數。顯然,上式表示斜三角波形可描述為一個二極點的模型。因此,斜三角波形串可視為加權了單位脈沖串激勵上述單個斜三角波模型的結果。而該單位脈沖串及幅值因子則可表示成下面的z變換形式:所以,整個濁音激勵模型可表示為:也就是說濁音激勵波是一個以基音周期為周期的斜三角脈沖串。調節(jié)濁音信號的幅度聲道模型關于聲道部分的數學模型,有多種觀點,目前最常用的有兩種建模方法。一是把聲道視為由多個等長的不同截面積的管子串聯而成的系統(tǒng)。按此觀點推導出的叫“聲管模型”。另一個是把聲道視為一個諧振腔,按此推導出的叫“共振峰模型”。

共振峰模型,把聲道視為一個諧振腔。共振峰就是這個腔體的諧振頻率。由于人耳聽覺的柯替氏器官的纖毛細胞就是按頻率感受而排列其位置的,所以這種共振峰的聲道模型方法是非常有效的。一般來說,一個元音用前三個共振峰來表示就足夠了;而對于較復雜的輔音或鼻音,大概要用到前五個以上的共振峰才行。基于物理聲學的共振峰理論,可以建立起三種實用的共振峰模型:級聯型、并聯型和混合型。(1)級聯型聲道模型這時認為聲道是一組串聯的二階諧振器。從共振峰理論來看,整個聲道具有多個諧振頻率和多個反諧振頻率,所以它可被模擬為一個零極點的數學模型;但對于一般元音,則用全極點模型就可以了。它的傳輸函數可分解表示為多個二階極點的網絡的串聯:

N=10,M=5時的聲道模型如圖所示。(2)并聯型聲道模型

對于非一般元音以及大部分輔音,必須考慮采用零極點模型。此時,模型的傳輸函數如下:通常,N>R,且設分子與分母無公因子及分母無重根,則上式可分解為如下部分分式之和的形式:這就是并聯型的共振峰模型。如圖2-21所示(M=5)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論