數(shù)字語音處理課件_第1頁
數(shù)字語音處理課件_第2頁
數(shù)字語音處理課件_第3頁
數(shù)字語音處理課件_第4頁
數(shù)字語音處理課件_第5頁
已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)字語音處理數(shù)字語音處理數(shù)字語音處理數(shù)字語音處理數(shù)字語音處理教學大綱教學大綱n課程名稱:數(shù)字語音處理n課程英文名稱:DIGITAL SPEECH PROCESSINGn總學時:32 n講課學時:32n學 分:2n開課單位:信息學部通信工程系n授課對象:電子信息工程專業(yè)及通信工程專業(yè) n先修課程:信號與系統(tǒng) 數(shù)字信號處理基礎數(shù)字語音處理數(shù)字語音處理數(shù)字語音處理教學大綱教學大綱n教材:數(shù)字語音處理,姚天任編,華中科技大學出版社,1992n教學參考書:n語音信號數(shù)字處理,楊行峻、遲惠生編,電子工業(yè)出版社n語音信號處理,易克初等編,國防工業(yè)出版社,2000n教學目的:本課程作為本科生的一門選修課,主要

2、向?qū)W生系統(tǒng)地介紹語音信號處理中的基本理論、方法,包括:語音信號的編碼壓縮技術、語音識別技術、語音合成技術。通過本課程的學習使學生掌握本課程的基本方法,開闊視野,為今后從事相關的研究開發(fā)工作奠定基礎。 數(shù)字語音處理學時安排學時安排n第一章 緒論(共1學時)語音信號處理的發(fā)展歷史,語音信號處理的分類,語音識別技術的分類。n第二章 語音信號產(chǎn)生的數(shù)字模型(共2學時)發(fā)音器官的生理、語音信號的產(chǎn)生模型n第三章 語音波形的數(shù)字編碼(共4學時)語音編碼的基本方法, 子帶編碼。n第四章 短時時域處理技術(共4學時)短時能量、短時平均幅度、短時平均過零率、短時自相關函數(shù)數(shù)字語音處理學時安排學時安排n第五章 短

3、時傅里葉分析(共4學時)n第六章 語音信號的線性預測(共3學時)線性預測分析基本原理,基于自相關的線性預測分析。n第七章 語音信號的同態(tài)預測和倒譜分析(共4學時)n第八章 矢量量化(共4學時)矢量量化的基本原理、特征矢量及畸變準則的選擇,LBG算法。n第九章 隱馬爾科夫模型(共4學時)n第十章數(shù)字語音處理的應用(共2學時) 數(shù)字語音處理考核方式n方式1:n平時:小測驗4次,占總成績的70%-80%n期末:總結報告,占總成績的20%-30%n方式2:n平時:報告1份,占總成績的20%-30%n期末:閉卷考試,總成績的70%-80%數(shù)字語音處理1.緒論n語音信號處理的研究內(nèi)容n語音信號處理的發(fā)展歷

4、史n講授內(nèi)容數(shù)字語音處理語音信號處理的研究內(nèi)容n語音信號的數(shù)字表示方法n波形表示:n參數(shù)表示:n語音信號處理的方法和技術n時域、頻域和變換域n語音信號處理的應用n識別、合成、壓縮、增強數(shù)字語音處理語音信號的數(shù)字表示方法n如何選擇表示方法?n保存消息內(nèi)容n便于傳輸和貯存n便于變換和處理n不能嚴重損害消息內(nèi)容數(shù)字語音處理波形表示法n波形表示法取樣數(shù)字語音處理波形表示法量化后的波形數(shù)字語音處理參數(shù)表示法n參數(shù)表示法:語音信號看成是某個模型在一定激勵作用下產(chǎn)生的輸出,而激勵源和模型的參數(shù)便作為語音信號的表示。W=f(A,B) A激勵,B模型參數(shù)例:產(chǎn)生“信息學部”的語音信號W=f(信息學部,140)數(shù)

5、字語音處理語音信號處理的方法和技術n時域(時變信號,但短時平穩(wěn))n短時處理技術n短時能量n短時平均過零率n短時自相關n頻域n短時傅里葉分析n變換域n小波變換數(shù)字語音處理語音信號處理的應用n語音壓縮和編碼:語音通信數(shù)字化;n語音合成:自動報站、自動報時、自動警告、電話自動查詢和語音提示等;n語音識別:聲控應用、自動口語翻譯;n說話認識別:安全加密、銀行信息電話查詢服務以及破案和法庭取證;n語音增強:通常作為語音處理的前端。 數(shù)字語音處理n1874年電話的發(fā)明,貝爾(Bell);n1939年聲碼器的研制成功語音是由人的聲帶振動而產(chǎn)生的聲源(載波)受到運動的聲道控制(調(diào)制)產(chǎn)生的;語音處理的發(fā)展歷史

6、(1)數(shù)字語音處理語音處理的發(fā)展歷史(2)n1947年貝爾實驗室發(fā)明語譜圖儀語音信號研究的開始;一男性說“歡迎光臨”的寬帶語譜圖數(shù)字語音處理語音處理的發(fā)展歷史(3)n50年代第一臺口授打字機和英語單詞語音識別器;n60年代出現(xiàn)了第一臺以數(shù)字計算機為基礎的孤立詞語音識別器和有限連續(xù)語音識別器;n70年代動態(tài)規(guī)劃技術、隱馬爾可夫模型、線性預測技術和矢量量化碼書生成方法用于語音編碼和識別;n80、90年代語音處理技術產(chǎn)品化IBM Tangora-5和Tangora-20英語聽寫機,Dragon Dictate 詞匯翻譯系統(tǒng)(70000),漢語聽寫機。CMU語音組研制成功SPHINX系統(tǒng)(997,95

7、.8%);n國內(nèi),清華大學、中科院聲學所和中科院自動化所在漢語聽寫機漢語聽寫機研究方面有一定成果。數(shù)字語音處理講授內(nèi)容n語音信號產(chǎn)生的數(shù)字模型n語音信號處理方法n語音波形編碼方法n短時處理方法(時頻域)n線性預測、倒譜、矢量量化n隱含馬爾科夫模型(HMM)n語音信號處理的應用n語音壓縮、合成、識別、增強數(shù)字語音處理2.語音信號產(chǎn)生的數(shù)字模型n人類語音的產(chǎn)生n過程復雜n信息豐富多樣n至今尚未找到理想模型來描述語音產(chǎn)生過程nFant于1960年提出的線性模型是模擬語音主要特征的比較成功的模型之一n人類發(fā)音的生理過程n語音信號的聲學特性數(shù)字語音處理2.1人類的語言器官n人體發(fā)音器官肺、氣管、肺、氣管

8、、喉(包括聲帶)和聲道喉(包括聲帶)和聲道n肺肺是語音產(chǎn)生的能源所在;n聲帶聲帶為產(chǎn)生語音提供主要的激勵源;聲道是指聲門至嘴唇的所有器官:n咽、鼻腔咽、鼻腔 、口腔、口腔等,它們具有非均勻截面,且隨時間變化,起共鳴器(或諧振器)的作用。鼻齒齦上唇牙齒下唇下顎骨舌骨甲狀軟骨氣管鼻咽軟腭口腔小舌舌根會厭喉管聲帶環(huán)狀軟骨食道鼻腔硬腭舌尖部舌中部舌后部數(shù)字語音處理 人類的語言器官 (a)閉合狀態(tài) 濁音 (b)張開狀態(tài)清音甲狀腺軟骨數(shù)字語音處理2.2語音產(chǎn)生過程(1)n濁音產(chǎn)生機理n濁音聲帶繃緊,氣流使聲帶產(chǎn)生張弛振動,即聲帶將周期性的啟開和閉合。例如: a,o,e。n聲帶開啟:氣流從聲門噴射出來,形成

9、脈沖。 n聲帶閉合:對應于脈沖序列的間隙期。開啟閉合數(shù)字語音處理2.2語音產(chǎn)生過程(2)n清音和爆破音產(chǎn)生機理n清音聲帶完全舒展,聲道某個部位收縮形成的狹窄通道,氣流被迫以高速通過,并在附近產(chǎn)生空氣的湍流,形成摩擦音(清音),例如:s、x。n爆破音聲帶完全舒展,聲道某個部位完全閉合,氣流遇阻產(chǎn)生壓力,一旦閉合點突然開啟便會讓氣壓快速釋放,形成爆破音,例如:b、p。數(shù)字語音處理2.2語音產(chǎn)生過程(3)n語音:空氣流激勵聲道產(chǎn)生激勵源聲道氣流數(shù)字語音處理2.2語音產(chǎn)生過程(4)n激勵源n濁音:位于聲門處的準周期脈沖,由聲帶振動形成。n脈沖周期、脈沖寬度以及脈沖形狀與聲帶的長度、厚度及張力等參數(shù)有關

10、。n聲帶越短、厚度越薄、張力越大,聽起來的感覺的音調(diào)越高。n清音:位于聲道的某個收縮區(qū)的聲音湍流(類似于噪聲)n爆破音:位于聲道某個閉合點處建立起來的氣壓及其突然釋放。數(shù)字語音處理2.2聲道n聲道:一根具有非均勻截面的聲管,在發(fā)音時起著共鳴器的作用。數(shù)字語音處理2.2共振峰(formant): n聲道是一個諧振腔,當激勵的頻率達到至聲道的固有頻率,則聲道會以最大的振幅振蕩,此時的頻率稱之為共振峰或共振峰頻率。n聲道具有一組共振峰,聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個峰的頻帶寬度 。共振峰及其帶寬取決于聲道某一瞬間的形狀和尺寸,因而不同的語音對應于一組不同的共振峰參數(shù)。n實際應用

11、中,頭三個共振峰最重要。數(shù)字語音處理2.2共振峰與語譜圖一男性說“歡迎光臨”的寬帶語譜圖數(shù)字語音處理2.2共振峰的計算 理想狀態(tài)下共振峰的計算:假設聲道截面是均勻的(此時可把聲道看作一個粗細均勻的圓筒),從喉到唇的距離L=17 cm,音速c=340 m/s,則共振峰將發(fā)生在:HzLccFHzLccFHzLccF前三個共振峰:n為第n個共振峰的波長LcncFnnn250045,150043500101743404, 2 , 1)(4123322211計算)(數(shù)字語音處理2.3 語音信號的線性產(chǎn)生模型在研究了發(fā)聲器官和語音的產(chǎn)生過程以后,便可以建立一個離散時域的語音信號產(chǎn)生的數(shù)字模型數(shù)字模型,它將

12、是我們將數(shù)字信號處理技術應用于語音信號的基礎基礎。下圖是一個完整的語音信號產(chǎn)生的數(shù)字模型:數(shù)字語音處理2.3 語音信號的線性產(chǎn)生模型由此模型框圖,我們可將語音信號看成準周期序列或隨機噪聲序列作為激勵的線性非移變系統(tǒng)的輸出,此模型可分為三個部分:(1)激勵模型(2)聲道模型(3)輻射模型數(shù)字語音處理2.3.1 激勵模型n濁音濁音激勵模型: 發(fā)濁音時聲帶繃緊,聲帶不斷張開和關閉產(chǎn)生的脈沖波,類似于斜三角波斜三角波n清音清音激勵模型:聲帶處于松弛狀態(tài),不發(fā)生振動,氣流通過聲門直接進入聲道,氣流被阻礙形成湍流,相當于隨機白噪聲 數(shù)字語音處理2.3.1 激勵模型(a)濁音激勵 數(shù)字模型中可用周期為T0單

13、位取樣序列串作為聲門脈沖模型g(n)的輸入輸入,其輸出就是濁音濁音激勵激勵。 由于人類語音的頻率范圍主要集中在300Hz3400Hz,數(shù)字模型中的信號取樣率一般為8KHz。數(shù)字語音處理2.3.1 激勵模型otherwiseKnLLKLnLnLnng, 0,)(2)(cos0),cos1 (21)( )GunL為三角波斜上升時間,K為斜三角波下降時間,兩者均為整數(shù)則 激勵激勵為: 是一個以基音周期T0為周期的斜三角波脈沖串序列。( )( )( )GvunA x ng n聲門脈沖模型聲門脈沖模型數(shù)字語音處理2.3.1 激勵模型由左邊的頻譜圖可知聲門脈沖模型是一個低通濾波器,一個二級點模型。量的參數(shù)

14、是調(diào)節(jié)濁音的幅值或能vvAzAzE,1)(1)1)(1 (11)()()(1,)1)(1 (1)(12111211211zgzgzAzEzGzUggzgzgzGv都接近數(shù)字語音處理2.3.1 激勵模型(b)清音激勵清音激勵 在發(fā)清音時,聲帶處于松弛狀態(tài),不發(fā)生振動,氣流通過聲門直接進入聲道,所有的清輔音都屬于這種情況。無論是擦音還是塞音,聲道都被阻礙形成湍流,所以激勵信號相當于隨機白噪聲。實際上可以用均值為0,均方差為1并在幅值上為平穩(wěn)分布的序列,具體實現(xiàn)時可采用隨隨機噪聲發(fā)生器機噪聲發(fā)生器來產(chǎn)生此序列。數(shù)字語音處理激勵模型n應該指出,單純的將語音信號分成受周期脈沖激勵和受噪音激勵兩種情況,與

15、實際情況不完全相符。有時即便將兩種激勵情況按照一定比例疊加,也不能刻畫某些語音,如濁擦音。n模型的內(nèi)部結構并不和語音產(chǎn)生的物理過程一致,這種模型和真實模型只是在輸出處等效。n模型是“短時的”,其中G(Z)和R(Z)不變,而基音頻率、清濁開關、增益、聲道參數(shù)ak都是時變的;聲道參數(shù)在1030ms的范圍內(nèi)近似不變;激勵參數(shù)在5ms左右近似不變。n語音信號處理的兩個基本問題:語音分析與合成,都是基于這個模型來實現(xiàn)的。n還有更復雜更精細的模型。數(shù)字語音處理2.3.2 聲道模型兩種建模方法:(a)聲管模型聲管模型(b)共振峰模型共振峰模型共振峰模型將聲道視為一個諧振腔,基于各種音素發(fā)音的不同諧振特點可建

16、立起三種實用的共振峰模型:(a)級聯(lián)型 (b)并聯(lián)型 (c)混合型由于人耳聽覺的柯蒂氏器官的毛細胞是按照頻率感受來排列其位置的,所以共振峰模型共振峰模型很有效,經(jīng)常被使用。數(shù)字語音處理2.3.2 聲道模型共振峰模型1、級聯(lián)型:、級聯(lián)型:適用于一般單元音,認為聲道是一組串聯(lián)的二階諧振器:PkkkzaGzV11)(這是一個全極點模型,極點就是這個多項式的根:011Pkkkza若P為偶數(shù),解其根會得到共扼復數(shù)(conjugate complex)的根,表示成:2/11*1)1)(1 (Piiizpzp數(shù)字語音處理2.3.2 聲道模型共振峰模型2/1212/111)()(PiiiPiizczbGzVG

17、zV上式中,P是全極點濾波器的階,一般在8-12范圍內(nèi)取值,它的每一對極點對應一個共振峰。a為聲道模型參數(shù),它隨聲道的調(diào)音運動而不斷變化。數(shù)字語音處理2.3.2 聲道模型共振峰模型2、并聯(lián)型并聯(lián)型適用于鼻音、復合元音及大部分輔音,發(fā)這些音時發(fā)音腔體具有反諧振特性,必須在模型中加入零點以減弱諧振強度,故要考慮用零、極點模型:2/1212/11)()(PiiiiPiizCzBAzVzVPkkkRrrrzazbzV101)(通常PR,假設分子與分母無公因子且分母無重根,則此式可分解為以下部分分式之和的形式:這就是并聯(lián)型共振峰模型,每一個二階因式對應一個共振峰。每個二階諧振器的幅度可單獨控制。數(shù)字語音

18、處理數(shù)字語音處理2.3.2 聲道模型共振峰模型 前面兩種共振峰模型各自都只能適用于部分語音,級聯(lián)或并聯(lián)的級數(shù)取決于聲道的長度,一般成人取3到5級。 級聯(lián)型結構較為簡單,并聯(lián)型各諧振器幅度可獨立控制,綜合考慮兩者的優(yōu)缺點可將兩種共振峰模型有機地結合起來就得到一種較為完備的共振峰模型。數(shù)字語音處理混合型共振峰模型并聯(lián)部分,從第一到第五共振峰的幅度都可以獨立的進行控制和調(diào)節(jié),用來模擬輔音頻譜特性中的能量集中區(qū)。此外,在并聯(lián)部分還有一條直通路徑,其幅度為控制因子AB,這是專門為一些頻譜特性比較平坦的音素(如f,p,b等)而考慮的。數(shù)字語音處理2.3.3 輻射模型 在發(fā)音腔道內(nèi)形成的氣流經(jīng)由嘴唇端輻射出

19、來,到達聽者耳朵的這段過程,聲音信號會衰減,而且有高通濾波高通濾波的特性。 常用一個一階的數(shù)字高通濾波器數(shù)字高通濾波器模擬這個現(xiàn)象,這個濾波器又叫做輻射模型輻射模型(radiation model):1, 1),1 ()(1rrrzzR數(shù)字語音處理完整的數(shù)字模型的系統(tǒng)函數(shù):)()()()(zRzVzUzH激勵模型激勵模型聲道模型聲道模型輻射模型輻射模型數(shù)字語音處理2.3 語音信號的線性產(chǎn)生模型小結1. 語音產(chǎn)生的線性模型并非最完備的模型,因為它對一些音是不適用的如濁音中的摩擦音,這種音要有發(fā)濁音和清音的兩種激勵,而不是簡單的疊加關系,對這些音我們可用更精確的模型來模擬。 2. 語音產(chǎn)生的數(shù)字模

20、型中增益控制(對Av或AN)代表了輸出語音的音響強度;時變線性系統(tǒng)主要用來模擬聲道的特性;3. 數(shù)字語音處理中兩個基本問題,語音分析和語音合語音分析和語音合成成,都是基于這個模型來實現(xiàn)的;4. 線性產(chǎn)生模型的特點:n系統(tǒng)參數(shù)固定不變短時分析;n全極點性質(zhì)零點可由多個極點逼近;n激勵源和聲道互相獨立適用于大多數(shù)數(shù)字語音處理。數(shù)字語音處理2.4 語音信號的特性語音學和語言學概要語音的聲學特性語音的時間波形和頻譜特性語音信號的統(tǒng)計特性數(shù)字語音處理2.4.1語言學和語音學概要對語音學和語言學的詳盡討論對我們來講離題太遠,但是對語音信號加以處理以改善或提取信息時,如果我們對語音信號的結構(信號中信息編碼

21、的方法)有盡可能多的知識則是很有幫助的。 1. 語言學:是以人類的語言為研究對象的一門科學,主要對控制語音中各個音的排列規(guī)則及其含義進行研究。語言(Language)是從千百萬個人的言語(Speech)中概括總結出來的規(guī)律性的符號系統(tǒng)。所以,研究語言首先要了解一下人的言語(說話)過程。數(shù)字語音處理2.4.1語言學和語音學概要人的說話過程分為五個階段(1)想說階段:人的說話首先是客觀現(xiàn)實在大腦中的反映,經(jīng)大腦的決策產(chǎn)生了說話的動機;接著講話神經(jīng)中樞選擇恰當?shù)膯卧~、短語以及按語法規(guī)則的組合,以表達他想說的內(nèi)容和情感。這個階段與大腦中樞的活動有關。(2)說出階段:由上階段中樞的決策,以脈沖形式向發(fā)音

22、器官發(fā)出指令,使它們各自相關的肌肉協(xié)調(diào)地動作發(fā)出聲音來。另外還開動另一個“反饋系統(tǒng)”即講話者的聽覺系統(tǒng),來幫助修正語音。(3)傳送階段:說出來的話語是一連串的聲波,憑借空氣為媒介傳到聽話者耳中。(4)接收階段:聽話者從外耳收集到的聲波信息,經(jīng)過中耳的放大作用,到達內(nèi)耳,經(jīng)內(nèi)耳基底內(nèi)膜振動轉(zhuǎn)化為耳蝸內(nèi)的毛細胞的電位變化,由聽覺神經(jīng)傳給大腦。(5)理解階段:講話者大腦聽覺神經(jīng)中樞收到脈沖信息后,辨認出說話的人及其所說的信息,從而聽懂講話者的話。數(shù)字語音處理2.4.1語言學和語音學概要 從五個階段來看,言語的過程包含著相當復雜的因素,其中有心理的、生理的、物理的以及個人的和社會的因素。這里,個人的因

23、素還指講話者的口音和用詞造句的特色以及聽話者的聽音和理解能力;社會的因素則是指講話者和聽話音對用于進行交際的手段有共同的理解的社會基礎。 語言是從言語中概括出來的一個符號系統(tǒng)。包括形式和內(nèi)容兩個方面,即語音的形式和語義的內(nèi)容。將這兩個基本要素相結合起來,可以構成語言的語素、詞、短語和句子等的不同層次的單位;這個構成規(guī)則就是語法。目前我們可以利用語法和語義信息減小語音識別中搜索匹配范圍,提高語音識別率。數(shù)字語音處理2.4.1語言學和語音學概要2.語音學:研究語音中各個音的物理特征和分類的學科。從某種意義上講,語音學與語音信號處理這門學科聯(lián)系更緊密。 大多數(shù)語言包括漢語在內(nèi)可以用一組不同的音即音素

24、來加以描述。對于漢語來說約有六十個音素,包括元音、復合元音和輔音。研究語音學的途徑有很多種,例如語言學家研究音素的不同特性或特征。而對我們來講,只要研究不同的聲學特征就夠了,這包括發(fā)音的部位、姿態(tài)、波形和這些聲音的頻譜即語譜特征。本章后面幾個話題均以語音學為基礎。數(shù)字語音處理2.4.2語音的聲學特性1. 物理屬性音色、音調(diào)、音強和音長;音色:也叫音質(zhì),是一種聲音區(qū)別于另一種聲音的基本特征,是由聲道的位置和形狀決定。音調(diào):聲音的高低,決定于聲波的頻率的高低,而聲波頻率的高低又由語音的基音頻率F0所決定。F0高則音調(diào)高,低則音調(diào)低。一般說來,老年男性音調(diào)偏低,小孩和青年女性音調(diào)偏高。音強:聲音的強

25、弱,由聲波的振幅所決定。音長:聲音的長短,取決于發(fā)音時間的長短。數(shù)字語音處理2.4.2 語音的聲學特性2. 語音的構成音節(jié)(syllable) 、音素音素(phoneme):語音發(fā)音的最小單位。分類:(1)國際標準分類清音:發(fā)清音時聲帶不振動。濁音:發(fā)濁音時聲帶振動。(2)我國傳統(tǒng)分類元音(韻母):是當聲帶振動發(fā)出的聲音氣流在聲道中不受阻礙,這種情況下產(chǎn)生的語音稱為元音。元音屬于濁音。輔音(聲母):從聲門呼出的聲音氣流,在聲道通路中某一部分封閉起來或受到阻礙不能暢通,為克服發(fā)音器官的這種阻礙而產(chǎn)生的語音稱為輔音。數(shù)字語音處理2.4.2 語音的聲學特性音節(jié):說話時一次發(fā)出的,具有一個響亮的中心,

26、并被明顯感覺到的語音片段。一個音節(jié)可由一個音素或幾個音素構成。音節(jié)最典型的結構,就是以一個元音或雙元音(diphthong)為主體,其前面或后面可能連接一個或多個輔音。3. 漢語語音的特點聲、韻、調(diào),音節(jié)在漢語中占有主要地位,它是由聲母、韻母和聲調(diào)按一定的方式構成的,是語言的最小使用單位;音節(jié)結構簡單,與其它語言相比漢語語音音節(jié)和音素都很少。數(shù)字語音處理2.4.2 語音的聲學特性4. 語義:語音總是和一定的意義相聯(lián)系著,一定的語音要表達一定的思想和意義;另外,語音還能表達出一定的語氣、情感,甚至表達許多“言外之意”。5.元音的共振峰特性:元音構成一個音節(jié)的主干,無論從發(fā)音長度還是從能量看,元音

27、在音節(jié)中都占主要部分。所以有必要在此研究一下元音的共振峰特性或者說研究其頻譜特性。數(shù)字語音處理2.4.2 語音的聲學特性影響元音共振峰特性的發(fā)音機制:(1)舌頭的形狀卷舌音(e)、平舌音(2)舌頭在口腔中的位置,簡稱舌位;(3)嘴唇的形狀,即口形;其中由舌位的高低前后位置改變,可以發(fā)出不同的音素,也就是說舌位與元音的共振峰特性有密切關系。男人男人 60200Hz女人女人150300 Hz小孩小孩 200400數(shù)字語音處理2.4.2 語音的聲學特性圖4-1 漢語單元音舌位梯形圖(1)F1與舌位高低有關,舌位越高F1越低;由于舌位越低嘴張得越大,也稱舌位高 低 為 開 口 度 。(2)F2與舌位前

28、后密切相關,舌位越靠前F2就越高。(3)F1、F2和嘴唇的圓展程度有關,嘴唇越圓,F1、F2越低。(4)F3與舌位關系不密切,但受舌尖活動影響;舌尖抬高卷起時F3就明顯下降。數(shù)字語音處理1、語音信號的時頻特性數(shù)字語音處理波形特性n語音信號幅度動態(tài)范圍一般最大為動態(tài)范圍一般最大為40分貝分貝,實際由于說話人的差別可以達到6070分貝。n元音幅度較大,有準周期性;清輔音幅度小,和噪聲特性相元音幅度較大,有準周期性;清輔音幅度小,和噪聲特性相似似。n在長時間的語音信號中有相當多的無信號區(qū)間,即所謂的語語音寂靜區(qū)間音寂靜區(qū)間。 n幅度概率密度函數(shù)以零幅和近似零幅的概率高,而幅度非常高的情況概率很小。n

29、長時平均幅度長時平均幅度的概率密度分布可以用高斯分布、拉普拉斯分布和伽瑪(Gamma)分布逼近。n對于短時幅度短時幅度概率密度用高斯分布逼近就夠了。 數(shù)字語音處理n語音信號波形是語音聲波經(jīng)過聲-電轉(zhuǎn)換器得到的連續(xù)時間函數(shù);波形圖是語音幅度隨時間變化的二維圖。n波形以振幅隨時間變化為特征,綜合的表達了語音的全部信息:包括語音的內(nèi)容、音調(diào)、音質(zhì)、相對音量變化等;數(shù)字語音處理長時平均幅度的概率密度分布n伽瑪函數(shù)逼近的效果最好,其次是拉普拉斯函數(shù),而高斯分布逼近效果最差。n語音信號的振幅通常都趨向于集中在低電平范圍內(nèi)。數(shù)字語音處理語音信號相鄰樣值之間存在很大的相關性n短時自相關函數(shù)短時自相關函數(shù)和長時自相關函數(shù)長時自相關函數(shù)可以用來描述語音的幅度特性n語音信號的相鄰取樣值之間的相關性是很大的;n相關性隨著取樣值之間的間隔的加大而迅速減弱;數(shù)字語音處理頻率特性n帶寬有限一般為203400Hz ,有限的帶寬特性決定了可以用有限的奈奎斯特取樣速率,把語音信號離散化 n功率譜密度n語音中不同頻譜分

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論