




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
第2章語音信號基礎(chǔ)學問人類的語言器官語音產(chǎn)生過程語音信號產(chǎn)生的數(shù)字模型語音信號的特性人類的聽覺功能11.人類的語言器官人類能以語言溝通,進而累積學問,形成文化,其中一個主要的緣由,就是人類具有較其它生物優(yōu)越的發(fā)音器官。人類的發(fā)音器官能夠產(chǎn)生多樣性的聲音,構(gòu)成豐富的詞匯,無疑是最關(guān)鍵的因素。聲音是一種波,能被人耳聽到,它的振動頻率在20~20000Hz之間。1、人類的語言器官21.人類的語言器官人體發(fā)音器官—肺、氣管、喉(包括聲帶)和聲道,肺是語音產(chǎn)生的能源所在;聲帶為產(chǎn)生語音供應主要的激勵源;聲道是指聲門至嘴唇的全部器官:咽、鼻腔、口腔等,它們具有非勻整截面,且隨時間變更,起共鳴器(或諧振器)的作用。1、人類的語言器官31.人類的語言器官鼻腔(nasalcavity)口腔(oralcavity)齒(teeth)舌(tongue)咽(pharynx)喉(larynx)齒齦(alveolarridge)硬顎(hardpalate)軟顎(velum)小舌頭(uvula)聲門(glottis)唇(lips)圖2-1
人類的發(fā)音器官注:喉部以上的部分統(tǒng)稱為聲道;氣管和肺在聲門以下1、人類的語言器官41.人類的語言器官圖2-2
最重要的發(fā)音器官之一:聲帶(a)閉合狀態(tài)(b)張開狀態(tài)甲狀軟骨杓狀軟骨環(huán)狀軟骨聲門聲帶1、人類的語言器官52.語音產(chǎn)生過程肺聲帶聲道直流氣流聲音嘴唇聲壓波速度波能源激勵源諧振源輻射源溝通氣流2、語音信號產(chǎn)生過程6
聲門氣流和嘴部聲壓2、語音信號產(chǎn)生過程7
物理模型2、語音信號產(chǎn)生過程82.語音產(chǎn)生過程語音的形成過程—空氣由肺部排入喉部,經(jīng)過聲帶進入聲道,最終由嘴輻射出聲波,形成語音。濁音(Voicedsounds):聲帶繃緊,氣流通過時會使得開口變成一開一閉的周期性動作,這時候就造成周期性的激發(fā)氣流,如a,o;清音(UnvoicedorFricativesounds):聲帶完全伸展,聲道某部位收縮形成一個狹窄的通道,產(chǎn)生空氣湍流,如t,d;爆破音:聲帶完全伸展,聲道的某部位完全閉合,一旦閉合點突然開啟,空氣壓力快速釋放,如b,p。能被人耳聽到,它的振動頻率在20~20000Hz之間2、語音信號產(chǎn)生過程92.語音產(chǎn)生過程語音的兩個重要聲學特性:濁音的基音頻率(F0):由聲帶的尺寸、特性和聲帶所受張力確定,其值等于聲帶張開和閉合一次的時間的倒數(shù)。人類基音頻率的范圍在80~500Hz左右。共振峰(Fn,n=1,2,...):聲道是一個諧振腔,它放大聲音氣流的某些頻率重量而衰減其他頻率重量,被放大的頻率我們稱之為共振峰或共振峰頻率。聲道具有的一組共振峰,聲道的頻譜特性主要反映出這些共振峰的不同位置以及各個峰的頻帶寬度。共振峰及其帶寬取決于聲道某一瞬間的形態(tài)和尺寸,因而不同的語音對應于一組不同的共振峰參數(shù)。實際應用中,頭三個共振峰最重要,越多越精確。2、語音信號產(chǎn)生過程10
口腔對聲源頻譜的調(diào)制——共振峰2、語音信號產(chǎn)生過程11共振峰是聲道的重要聲學特性。聲道對于一個激勵信號的響應,可以用一個含有多對極點的線性系統(tǒng)來近似描述。每對極點都對應一個共振峰頻率。這個線性系統(tǒng)的頻率響應特性稱為共振峰特性,它確定信號頻譜的總輪廓,或稱譜包絡。語音的頻率特性主要是由共振峰確定的。而聲道的共振峰特性確定所發(fā)聲音的頻譜特性,即音色。元音的音色和區(qū)分特征主要取決于聲道的共振峰特性。共振峰特性可以從語音信號頻譜分析得到的幅頻特性視察到。在聲學語音學中通??紤]F1和F2,但在語音識別技術(shù)中至少要考慮三個共振峰,而在語音合成技術(shù)中考慮五個共振峰是最為現(xiàn)實的。聲波的共振也稱為共鳴。聲道截面積隨縱向位置而變更的函數(shù),稱為聲道截面積函數(shù),它確定共振峰的特性。12頻率范圍/Hz成年男子成年女子帶寬F1200~800250~100040~70F2600~2800700~330050~90F31300~34001500~400060~180前三個共振峰的頻率范圍2、語音信號產(chǎn)生過程132.語音產(chǎn)生過程志向狀態(tài)下共振峰的計算:假設(shè)聲道截面是勻整的(此時可把聲道看作一個粗細勻整的圓筒),從喉到唇的距離L=17cm,音速c=340m/s,則共振峰將發(fā)生在:諧振頻率發(fā)生在500Hz的奇數(shù)倍2、語音信號產(chǎn)生過程143.語音信號產(chǎn)生的數(shù)字模型在探討了發(fā)聲器官和語音的產(chǎn)生過程以后,便可以建立一個離散時域的語音信號產(chǎn)生的數(shù)字模型,它將是我們將數(shù)字信號處理技術(shù)應用于語音信號的基礎(chǔ)。下圖是一個完整的語音信號產(chǎn)生的數(shù)字模型:3、語音信號產(chǎn)生的數(shù)字模型15語音產(chǎn)生模型(SpeechProduction/GenerationModel)4、語音信號的特性16語音信號(SpeechSignal)4、語音信號的特性17數(shù)字語音信號表示(RepresentationsofSpeechSignals)4、語音信號的特性18(1)激勵模型由此模型框圖,我們可將語音信號看成準周期序列或隨機噪聲序列作為激勵的線性非移變系統(tǒng)的輸出,此模型可分為三個部分:激勵模型、聲道模型、輻射模型激勵模型依據(jù)發(fā)濁音和發(fā)清音的機理又分為:(a)濁音激勵(b)清音激勵3、語音信號產(chǎn)生的數(shù)字模型19(a)濁音激勵由前面所講發(fā)音過程可知,發(fā)濁音時聲帶不斷地張開和閉合將產(chǎn)生間歇的準周期性脈沖波,其周期為基音周期,單個脈沖的波形類似于斜三角波,故數(shù)字模型中可用周期為T0單位取樣序列串作為聲門脈沖模型g(n)的輸入,其輸出就是濁音激勵。由于人類語音的頻率范圍主要集中在300Hz~3400Hz,數(shù)字模型中的信號取樣率一般為8KHz。3、語音信號產(chǎn)生的數(shù)字模型(1)激勵模型20由圖可見,它是一個低通濾波器。頻率分析表明,其幅度譜按12dB/倍頻程的速率衰減。假如將其表示為Z變換的全極模型的形式,有G(z)=1/(1-g1z-1)(1-g2z-1)假如g1和g2的值都接近于1,則由此形成的激勵信號頻譜很接近于聲門脈沖的頻譜。明顯,上式表明斜三角波可描述為一個二階極點的模型。須要指出,不同人、不同語音,其聲門脈沖的形態(tài)不確定相同,但在語音合成中對其形態(tài)要求不很苛刻,只要其傅里葉變換有近似的特性就可以了。21
周期性的斜三角波脈沖可看做加權(quán)的單位脈沖串激勵上述單個斜三角脈沖的結(jié)果。而周期沖激序列及幅值因子可表示成下面的Z變換形式E(z)=AV/(1-z-1)(2-5)所以整個激勵模型可表示為U(z)=G(z)E(z)=AV/(1-z-1)·1/(1-g1z-1)(1-g2z-1)(2-6)3、語音信號產(chǎn)生的數(shù)字模型(1)激勵模型22(b)清音激勵發(fā)清音時聲道被阻礙形成湍流,所以可把清音激勵模擬成隨機白噪聲。此處用均值為0方差為1并在幅值上為平穩(wěn)分布的序列,具體實現(xiàn)時可接受隨機噪聲發(fā)生器來產(chǎn)生此序列。3、語音信號產(chǎn)生的數(shù)字模型(1)激勵模型23(2)聲道模型兩種建模方法:(a)聲管模型(b)共振峰模型共振峰模型將聲道視為一個諧振腔,按此原則導出?;诟鞣N音素發(fā)音的不同諧振特點可建立起三種好用的共振峰模型:(a)級聯(lián)型(b)并聯(lián)型(c)混合型3、語音信號產(chǎn)生的數(shù)字模型(2)聲道模型24(a)級聯(lián)型:適用于一般單元音,認為聲道是一組串聯(lián)的二階諧振器:這是一個全極點模型,極點就是這個多項式的根:若P為偶數(shù),解其根會得到共扼復數(shù)(conjugatecomplex)的根,表示成:3、語音信號產(chǎn)生的數(shù)字模型(2)聲道模型25F=1/T--取樣頻率
i/--共振峰的頻寬。Fi是--共振峰(formant)的中心頻率這樣分解則每一個二階因式均對應一個共振峰,其幅頻特性是典型的二階諧振特性,諧振中心頻率值等于共振峰。若把語音的各個共振峰所對應的二階系統(tǒng)級聯(lián)起來就形成了一個完整的級聯(lián)型聲道模型,且具有明顯的諧振特性。3、語音信號產(chǎn)生的數(shù)字模型(2)聲道模型26(b)并聯(lián)型適用于鼻音、復合元音及大部分輔音,發(fā)這些音時發(fā)音腔體具有反諧振特性,必需在模型中加入零點以減弱諧振強度,故要考慮用零、極點模型:通常P>R,假設(shè)分子與分母無公因子且分母無重根,則此式可分解為以下部分分式之和的形式:這就是并聯(lián)型共振峰模型,每一個二階因式對應一個共振峰。每個二階諧振器的幅度可單獨限制。3、語音信號產(chǎn)生的數(shù)字模型(2)聲道模型27前面兩種共振峰模型各自都只能適用于部分語音,級聯(lián)或并聯(lián)的級數(shù)取決于聲道的長度,一般成人取3到5級。級聯(lián)型結(jié)構(gòu)較為簡潔,并聯(lián)型各諧振器幅度可獨立限制,綜合考慮兩者的優(yōu)缺點可將兩種共振峰模型有機地結(jié)合起來就得到一種較為完備的共振峰模型。3、語音信號產(chǎn)生的數(shù)字模型(2)聲道模型28(c)混合型我們可以依據(jù)發(fā)音的須要自動切換串聯(lián)或并聯(lián)通路,此外并聯(lián)部分還有一條直通路徑,其幅度限制因子為AB,這是專為一些頻譜特性較為平坦的音素如[f]、[p]、[b]而考慮的,以增加反諧振特性。3、語音信號產(chǎn)生的數(shù)字模型(2)聲道模型29在發(fā)音腔道內(nèi)形成的氣流經(jīng)由嘴唇端輻射出來,到達聽者耳朵的這段過程,聲音信號會衰減,而且有高通濾波的特性,我們常用一個一階的數(shù)字高通濾波器擬這個現(xiàn)象,這個濾波器又叫做輻射模型(radiationmodel),其數(shù)學式如下完整的數(shù)字模型的系統(tǒng)函數(shù)由激勵模型、聲道模型和輻射模型的級聯(lián)來表示:3、語音信號產(chǎn)生的數(shù)字模型(3)輻射模型3031總結(jié):1.到此為止組成語音產(chǎn)生的數(shù)字模型的三個組成部分己介紹完畢。此模型并非最完備的模型,因為它對一些音是不適用的如濁音中的摩擦音,這種音要有發(fā)濁音和清音的兩種激勵,而不是簡潔的疊加關(guān)系,對這些音我們可用更精確的模型來模擬。2.語音產(chǎn)生的數(shù)字模型中增益限制(對Av或AN)代表了輸出語音的音響強度;時變線性系統(tǒng)主要用來模擬聲道的特性;3.數(shù)字語音處理中兩個基本問題,即語音分析和語音合成,都是基于這個模型來實現(xiàn)的;4.此數(shù)字模型的特點:系統(tǒng)參數(shù)固定不變—短時分析;全極點性質(zhì)—零點可由多個極點靠近;激勵源和聲道相互獨立—適用于大多數(shù)數(shù)字語音處理。3、語音信號產(chǎn)生的數(shù)字模型324.語音信號的特性語音學和語言學概要語音的聲學特性語音的時間波形和頻譜特性語音信號的統(tǒng)計特性4、語音信號的特性334.1語言學和語音學概要對語音學和語言學的詳盡探討對我們來講離題太遠,但是對語音信號加以處理以改善或提取信息時,假如我們對語音信號的結(jié)構(gòu)(信號中信息編碼的方法)有盡可能多的學問則是很有幫助的。1.語言學:是以人類的語言為探討對象的一門科學,主要對限制語音中各個音的排列規(guī)則及其含義進行探討。語言(Language)是從千百萬個人的言語(Speech)中概括總結(jié)出來的規(guī)律性的符號系統(tǒng)。所以,探討語言首先要了解一下人的言語(說話)過程。4、語音信號的特性344.1語言學和語音學概要圖3-1人的說話過程分為五個階段(1)想說階段:人的說話首先是客觀現(xiàn)實在大腦中的反映,經(jīng)大腦的決策產(chǎn)生了說話的動機;接著講話神經(jīng)中樞選擇恰當?shù)膯卧~、短語以及按語法規(guī)則的組合,以表達他想說的內(nèi)容和情感。這個階段與大腦中樞的活動有關(guān)。(2)說出階段:由上階段中樞的決策,以脈沖形式向發(fā)音器官發(fā)出指令,使它們各自相關(guān)的肌肉協(xié)調(diào)地動作發(fā)出聲音來。另外還開動另一個“反饋系統(tǒng)”即講話者的聽覺系統(tǒng),來幫助修正語音。(3)傳送階段:說出來的話語是一連串的聲波,憑借空氣為媒介傳到聽話者耳中。(4)接收階段:聽話者從外耳收集到的聲波信息,經(jīng)過中耳的放大作用,到達內(nèi)耳,經(jīng)內(nèi)耳基底內(nèi)膜振動轉(zhuǎn)化為耳蝸內(nèi)的毛細胞的電位變更,由聽覺神經(jīng)傳給大腦。(5)理解階段:講話者大腦聽覺神經(jīng)中樞收到脈沖信息后,分辨出說話的人及其所說的信息,從而聽懂講話者的話。4、語音信號的特性354.1語言學和語音學概要從五個階段來看,言語的過程包含著相當困難的因素,其中有心理的、生理的、物理的以及個人的和社會的因素。這里,個人的因素還指講活者的腔調(diào)和用詞造句的特色以及聽話者的聽音和理解實力;社會的因素則是指講話者和聽話音對用于進行交際的手段有共同的理解的社會基礎(chǔ)。語言是從言語中概括出來的一個符號系統(tǒng)。包括形式和內(nèi)容兩個方面,即語音的形式和語義的內(nèi)容。將這兩個基本要素相結(jié)合起來,可以構(gòu)成語言的語素、詞、短語和句子等的不同層次的單位;這個構(gòu)成規(guī)則就是語法。目前我們可以利用語法和語義信息減小語音識別中搜尋匹配范圍,提高語音識別率。4、語音信號的特性364.1語言學和語音學概要2.語音學:探討語音中各個音的物理特征和分類的學科。從某種意義上講,語音學與語音信號處理這門學科聯(lián)系更緊密。大多數(shù)語言包括漢語在內(nèi)可以用一組不同的音即音素來加以描述。對于漢語來說約有六十個音素,包括元音、復合元音和輔音。探討語音學的途徑有很多種,例如語言學家探討音素的不同特性或特征。而對我們來講,只要探討不同的聲學特征就夠了,這包括發(fā)音的部位、姿態(tài)、波形和這些聲音的頻譜即語譜特征。本章后面幾個話題均以語音學為基礎(chǔ)。4、語音信號的特性374.2語音的聲學特性1.物理屬性—音色、音調(diào)、音強和音長;音色:也叫音質(zhì),是一種聲音區(qū)分于另一種聲音的基本特征,是由聲道的位置和形態(tài)確定。音調(diào):聲音的凹凸,確定于聲波的頻率的凹凸,而聲波頻率的凹凸又由語音的基音頻率F0所確定。F0高則音調(diào)高,低則音調(diào)低。一般說來,老年男性音調(diào)偏低,小孩和青年女性音調(diào)偏高。音強:聲音的強弱,由聲波的振幅所確定。音長:聲音的長短,取決于發(fā)音時間的長短。4、語音信號的特性384.2語音的聲學特性2.語音的構(gòu)成—音節(jié)(syllable)、音素音素(phoneme):語音發(fā)音的最小單位。分類:(1)國際標準分類清音:發(fā)清音時聲帶不振動。濁音:發(fā)濁音時聲帶振動。(2)我國傳統(tǒng)分類元音(韻母):是當聲帶振動發(fā)出的聲音氣流在聲道中不受阻礙,這種狀況下產(chǎn)生的語音稱為元音。元音屬于濁音。輔音(聲母):從聲門呼出的聲音氣流,在聲道通路中某一部分封閉起來或受到阻礙不能暢通,為克服發(fā)音器官的這種阻礙而產(chǎn)生的語音稱為輔音。4、語音信號的特性394.2語音的聲學特性音節(jié):說話時一次發(fā)出的,具有一個洪亮的中心,并被明顯感覺到的語音片段。一個音節(jié)可由一個音素或幾個音素構(gòu)成。音節(jié)最典型的結(jié)構(gòu),就是以一個元音或雙元音(diphthong)為主體,其前面或后面可能連接一個或多個輔音。3.漢語語音的特點—聲、韻、調(diào),音節(jié)在漢語中占有主要地位,它是由聲母、韻母和聲調(diào)按確定的方式構(gòu)成的,是語言的最小運用單位;音節(jié)結(jié)構(gòu)簡潔,與其它語言相比漢語語音音節(jié)和音素都很少。4、語音信號的特性404.2語音的聲學特性4.語義:語音總是和確定的意義相聯(lián)系著,確定的語音要表達確定的思想和意義;另外,語音還能表達出確定的語氣、情感,甚至表達很多“言外之意”。5.元音的共振峰特性:元音構(gòu)成一個音節(jié)的主干,無論從發(fā)音長度還是從能量看,元音在音節(jié)中都占主要部分。所以有必要在此探討一下元音的共振峰特性或者說探討其頻譜特性。4、語音信號的特性414.2語音的聲學特性影響元音共振峰特性的發(fā)音機制:(1)舌頭的形態(tài);(2)舌頭在口腔中的位置,簡稱舌位;(3)嘴唇的形態(tài),即口形;其中由舌位的凹凸前后位置變更,可以發(fā)出不同的音素,也就是說舌位與元音的共振峰特性有親密關(guān)系。4、語音信號的特性424.2語音的聲學特性圖4-1漢語單元音舌位梯形圖(1)F1與舌位凹凸有關(guān),舌位越高F1越低;由于舌位越低嘴張得越大,也稱舌位凹凸為開口度。(2)F2與舌位前后親密相關(guān),舌位越靠前F2就越高。(3)F1、F2和嘴唇的圓展程度有關(guān),嘴唇越圓,F1、F2越低。(4)F3與舌位關(guān)系不親密,但受舌尖活動影響;舌尖抬高卷起時F3就明顯下降。4、語音信號的特性43各種語音表示的信息率4、語音信號的特性444.3語音的時間波形和頻譜特性語音可以干脆用它的時間波形來表示,依據(jù)時間波形可以看出語音信號的一些主要特性。就其本性而言,語音波形是時間的連續(xù)函數(shù),是隨時間而變更的,但比較緩慢,10~30ms4、語音信號的特性454.3語音的時間波形和頻譜特性語音的頻譜特性由聲道的形態(tài)和尺寸確定,隨時間變更——短時譜(清濁音的不同、對數(shù)和線性振幅譜);語譜圖(濁音和清音的不同、寬帶和窄帶語譜圖)4、語音信號的特性464.3語音的時間波形和頻譜特性左圖中的u(n)就是前面所講的聲音激勵ug(n),由于聲門波脈沖模型g(n)引入兩個極點,故在語音信號約0.8至1.0kHz以上的頻率造成12db/倍頻程的衰減4、語音信號的特性474.3語音的時間波形和頻譜特性語音信號時域波形示意圖:靜息波
脈沖波(清塞音)準周期波(濁音)噪聲波(摩擦音)4、語音信號的特性484.3語音的時間波形和頻譜特性圖4-2聲音的語譜圖4、語音信號的特性494.3語音的時間波形和頻譜特性窄頻帶的語譜圖(narrowbandspectrograms)語譜圖的產(chǎn)生是用傅里葉轉(zhuǎn)換(Fouriertransform),當我們用較長的分析窗口(analysiswindows),約20ms,對應頻寬約為45Hz,得到的頻率辨別率較高,頻譜上可以看到諧振的成分。在語譜圖上呈現(xiàn)等距的黑白相間橫線條,其間距就是基頻(F0)。4、語音信號的特性504.3語音的時間波形和頻譜特性寬頻帶的語譜圖(widebandspectrograms)若是在轉(zhuǎn)換演算時用較少的取樣點,分析窗口大約3ms,對應頻寬約300Hz,則頻譜上看不到諧振成分,在語譜圖上看不到等距的黑白相間。頻率辨別率較低,反而是時軸上的辨別率較高,看到明顯的垂直線條。4、語音信號的特性514.3語音的時間波形和頻譜特性共振峰(formant)在頻域上,能量集中處就是共振峰(formant)之所在,在語譜圖上就是顏色較深的位置。在發(fā)元音時,音強較大,聲帶振動而呈現(xiàn)出基頻及其諧振頻率,也可以明顯看到共振峰,能量集中在低頻。假如是發(fā)輔音,而且聲帶不振動,就看不到諧振頻率。通常輔音的音強小,顏色看來就比較淡,而且能量較集中在高頻。若是在沒有語音的空檔,則語譜圖上呈現(xiàn)的,就是有一段空白。4、語音信號的特性524.3語音的時間波形和頻譜特性元音與輔音的聲學特性(一)元音發(fā)元音的聲音時,聲帶是振動的,音強也較大,波形上可以看到大的振幅,而且呈現(xiàn)周期性。其周期就是音高周期,對應的頻率就是基頻,通常以F0表示。正常說話時,元音的音長大約是50到400ms之間。元音在頻譜上會呈現(xiàn)能量集中的現(xiàn)象,集中處的頻帶稱為共振峰。在5kHz的語音頻帶范圍內(nèi),會有5個共振峰,分別以F1﹑F2﹑F3﹑F4﹑與F5代表,其中F1﹑F2與F3比較明顯。4、語音信號的特性534.3語音的時間波形和頻譜特性圖4-3三個元音的語譜圖(分別對應漢語拼音的元音i,a,u)4、語音信號的特性544.3語音的時間波形和頻譜特性圖4-4雙元音在語譜圖上共振峰轉(zhuǎn)移(過渡)的現(xiàn)象分別對應漢語拼音的雙元音ai,ei,ao,ou4、語音信號的特性554.3語音的時間波形和頻譜特性(二)輔音輔音是對元音的前或后作修飾。帶聲的輔音會有類似元音的共振峰,因為聲帶振動,所以和元音一樣有諧振的成分,但相對于元音,能量小得多。不帶聲的摩擦音(如f,s,sh,x,h)類似噪音,能量傾向在高頻。發(fā)鼻音時,鼻腔的共振效果使得低頻成分受到壓抑,雖然是聲帶振動而有共振峰,但低頻的共振峰能量較弱。下圖分別對應漢語拼音輔音:b,p,m,f,j,q,x,zh,ch,sh4、語音信號的特性564.3語音的時間波形和頻譜特性圖4-5塞音(或爆破音)出現(xiàn)在元音前的例子下圖分別對應ba,da,ga,pa,ta,ka在一個音節(jié)的起先若有塞音,當氣流放出之后,隨著就發(fā)元音,聲帶起先振動,在語譜圖上可以視察到一小段時間之后,才有明顯的共振峰出現(xiàn),這一小段時間就叫做嗓音的起始時間(voiceonsettime),簡稱VOT。返回4、語音信號的特性574.4語音信號的統(tǒng)計特性語音信號可以看成是一個遍歷性隨機過程的樣本函數(shù);語音信號的統(tǒng)計特性可以用它的振幅概率密度函數(shù)和一些平均量(均值和自相關(guān)函數(shù))來描述——概率密度的估算、靠近方法及意義;自相關(guān)函數(shù)的估計及影響因素(語音段和濾波狀況);語音信號的統(tǒng)計特性也可以用功率譜來描述——長期平均功率譜可以用周期圖來估計;4、語音信號的特性58
語音信號時域波形4、語音信號的特性59
語音信號的波形與頻譜4、語音信號的特性60
語音波形幅度分布4、語音信號的特性61
基頻變更范圍4、語音信號的特性62自學部分63
美式英語發(fā)音4、語音信號的特性64
美式英語的音素4、語音信號的特性65
元音(Vowels)?由固定聲道形態(tài)產(chǎn)生,可持續(xù)的聲音?聲帶振動–濁音?聲道的截面積確定了元音的頻率響應和聲音質(zhì)量?舌的位置(高度,前后),唇的形態(tài)對確定元音發(fā)音有重要的作用?一般持續(xù)期相對長(歌頌時可以保持的),有規(guī)則的頻譜形態(tài)4、語音信號的特性66
元音的產(chǎn)生4、語音信號的特性67
美式英語中元音4、語音信號的特性68
元音發(fā)音器官形態(tài)4、語音信號的特性69
元音波形與譜圖4、語音信號的特性70
元音共振峰平均4、語音信號的特性71
元音持續(xù)期4、語音信號的特性72735.人類的聽覺功能用語言作溝通,就是說話的人能讓對方聽懂他在說些什么,雙方用說與聽來達成信息交換與感情溝通。而語言的學習過程,更是不斷地聽,然后學習會說,所以語言與聽覺有親密的關(guān)聯(lián)性。本節(jié)將說明人類聽覺器官的構(gòu)造,以及如何聽聲音。并且對于人耳在聽覺上的一個重要特性,聽覺掩蔽效應做了簡要敘述,這是語音處理中常常會用到的聽覺特性。5、語音感知74
語音通信SpeechCommunication5、語音感知75
聽覺系統(tǒng)中聲音表示框圖5、語音感知76
聽覺器官5、語音感知77語音感知模型(SpeechPerceptionModel)5、語音感知785.人類的聽覺功能外耳從耳翼(pinnas)到鼓膜(eardrum)這一段叫做外耳。耳翼的功能在幫助推斷聲音的來源方向,它對于聽者前方來的聲音比較敏感。耳翼到鼓膜之間的通道叫做耳道(meatus),這是一個長約2.7公分直徑約0.7公分的通道。對于聲波的傳播而言,這條通道等于是一個四分之一波長的共振腔,它的第一個共振頻率大約是3kHz,這個共振作用將3~5kHz的聲波放大15dB左右,因此使得我們的聽覺對于3~5kHz的頻率范圍比較敏感。5、語音感知795.人類的聽覺功能中耳
在鼓膜與耳蝸之間有一個大約6立方公分的小空間,稱之為中耳。在這個小空間內(nèi),有三塊小骨頭,分別是槌骨(hammer,或稱為malleus),砧骨(anvil或稱為incus)與鐙骨(stapes,或稱為stirrup)。槌骨黏接在鼓膜上,聲波造成的空氣振動會使鼓膜振動,進而推動槌骨的振動,鐙骨貼在耳蝸的橢圓形窗(ovalwindow)上,槌骨的振動經(jīng)過砧骨與鐙骨的傳遞,將振動信號傳到耳蝸內(nèi)的淋巴液,所以中耳可以看成是聲波到淋巴液的信號轉(zhuǎn)換,在此轉(zhuǎn)換過程中,對于1kHz以上的信號做了-15dB/10倍頻程的衰減,可以看成是一個低通濾波器(lowpassfilter)。5、語音感知805.人類的聽覺功能人類在辨別聲音時,是取決于頻域上的辨別率,聽覺器官等于是將時域的聲音波形轉(zhuǎn)換成在頻域的頻譜,能否聽到聲音或辨別聲音,是取決于音強(intensity)與頻譜(spectrum)。一般人的聽覺器官可以感知頻率范圍16Hz到18kHz的聲音,動態(tài)范圍約1000倍。超出人類聽覺感知范圍,如20kHz以上的聲波,我們稱之為超音波(ultrasonic)。人耳對于1kHz到5kHz的聲音最為敏感,但是對于1kHz以下與5kHz以上的聲音,就要較大的音強才聽得到。5、語音感知815.人類的聽覺功能圖5-4人類聽覺的范圍5、語音感知825.人類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年消防考試基礎(chǔ)試題及答案
- 中級審計師實踐技能試題及答案
- 2024年中級審計師試題及答案全覆蓋
- 2024年公司財務管理試題及答案概述
- 2024年高級會計實務試題及答案揭秘
- 護理問題解決試題及答案解析
- 多視角分析審計考題試題及答案
- 2024年前沿消防技術(shù)試題及答案
- 無人機運行成本試題及答案解析
- 中級會計重要考情分析試題及答案
- 冀教英語六年級下冊作文范文
- Continual Improvement持續(xù)改進程序(中英文)
- 10x2000對稱式三輥卷板機設(shè)計機械畢業(yè)設(shè)計論文
- RCA應用于給藥錯誤事情的分析結(jié)果匯報
- 申論答題紙-方格紙模板A4-可打印
- 土石方測量方案完整版
- 律師事務所勞動合同范本2(律師助理和實習律師參照適用
- 可以復制、輸入文字的田字格WORD模板++(共11頁)
- 施工單位動火申請書內(nèi)容
- 焊條電弧焊基礎(chǔ)知識二
- 不銹鋼板墻面施工工藝
評論
0/150
提交評論