語音信號處理課件_第1頁
語音信號處理課件_第2頁
語音信號處理課件_第3頁
語音信號處理課件_第4頁
語音信號處理課件_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第二章語音的聲學模型與聽覺感知22.1語音信號的產(chǎn)生語音的發(fā)音器官3語音的發(fā)音器官肺(lung)與氣管(trachea):

聲音產(chǎn)生的能量來源聲帶(vocalcords),又稱為喉(larynx):

控制氣流從氣管到口腔的流動,周期性的振動(濁音)或不振動(清音)聲道(vocaltract),包括咽(pharynx)、口腔(oralcavity)、鼻腔(nasalcavity):包括舌頭、牙齒、軟腭、唇等主要發(fā)音器官(articulator);其形狀和位置決定了所發(fā)的聲音;作用類似于聲學管道(濾波器);長度約17cm(成年男子)5激勵源三種不同的激勵方式:聲帶周期振動產(chǎn)生周期脈沖激勵信號發(fā)出濁音:類似音樂聲,有基頻,如漢語的元音聲帶不振動,放松狀態(tài)摩擦形成湍流(turbulence)發(fā)出摩擦音:類似噪聲,如漢語的輔音/c/,/s/,/h/等聲帶放松,舌頭和嘴唇先緊閉再突然放開產(chǎn)生短脈沖發(fā)出爆破音,如漢語的/b/,/p/,/t/等6聲帶的周期振動聲門波波形語音波形7NormalhighfalsettofrydiphthongbreathyModalharshFalsettocreakybreathywhisper8聲道通常被認為是一個截面積隨時間和位置而改變的管道起到類似濾波器的功能,對激勵源信號進行濾波多個共振峰(formant):對某一頻率的信號產(chǎn)生共鳴(resonance),對應(yīng)頻譜的波峰聲道調(diào)制10鼻腔耦合與嘴唇輻射鼻腔耦合產(chǎn)生鼻音能量集中在低頻部分和口腔產(chǎn)生的共鳴反應(yīng)(共振)相反,出現(xiàn)反共鳴(anti-resonance),對應(yīng)頻譜的波谷嘴唇輻射通過改變管道的邊界條件(開口或閉口)改變氣流的傳遞方式12舌位與元音高、前低、后高、后14舌位與元音的共振峰0200400600800100012001400第一個共振峰F1的頻率(Hz)第二個共振峰F1的頻率(Hz)

50010001500200025004000舌位高-----F1低舌位低-----F1高舌位前-----F2高舌位后-----F2低15語譜圖16語譜圖對給定的語音信號畫對應(yīng)的語譜圖是語音分析的經(jīng)典方法。雖然目前在語音工程應(yīng)用上已經(jīng)很少使用語譜圖,但它卻是初學者認識語音的最好的工具與分析方法。語譜圖通常會分為寬帶語譜圖和窄帶語譜圖,從二者可以得到關(guān)于語音信號的不同的特征。我們會在第三章介紹語音信號的特征分析時再詳細介紹語譜圖的產(chǎn)生方法17liquid:邊音;glide:滑音()內(nèi)是漢語拼音,()外是國際音標(IPA)漢語語音的基本音素18漢語語音的韻律特征

語音的聲學特征:音色、音高(聲調(diào))、音長、音強

音色和音高決定漢語的語義,音強和音長不區(qū)分語義

漢語語音在音高、音強、音長方面所顯示出來的抑揚頓挫特性成為漢語的韻律特性

漢語的韻律特性是漢語非常重要的一個特征,也是目前漢語語音信號處理研究的重要問題20其中:激勵模型濁音:斜三角脈沖清音:高斯白噪聲聲道模型全極點模型輻射模型綜上,語音信號的數(shù)字模型:實際上,正常語音的激勵模型通常是這二者的混合體21經(jīng)典的語音信號產(chǎn)生的線性模型提出已經(jīng)有近50年的時間雖然不能很完美的體現(xiàn)真實的語音產(chǎn)生機理,但卻是語音處理工程應(yīng)用上最常用的、最成功的模型現(xiàn)有的大多數(shù)語音處理技術(shù),如語音編碼、語音合成、語音識別等仍然要用到這個經(jīng)典的線性模型雖然近年來有不少學者提出了更精細的非線性模型,但是由于模型的復雜度,仍然只停留在實驗研究階段。23外耳:聲音的收集、定位、放大定位:雙耳結(jié)構(gòu)可以實現(xiàn)水平方向的定位;耳翼的不規(guī)則結(jié)構(gòu)則可以實現(xiàn)垂直方向的定位放大:外耳道可以看作是一個均勻管道(長25mm),其共振峰頻率約為3400Hz。外耳可以實現(xiàn)聲音放大約20dB中耳:包括錘骨、砧骨和鐙骨三塊聽小骨,聲音的傳導、放大、保護內(nèi)耳,中耳可以放大聲音約30dB內(nèi)耳:包含半規(guī)管、前庭窗以及耳蝸,其中耳蝸跟聽覺密切相關(guān)耳蝸根據(jù)接收到的聲音來相應(yīng)地刺激聽神經(jīng),實現(xiàn)機械振動到神經(jīng)信號的轉(zhuǎn)換耳蝸根據(jù)頻率選擇特性向聽神經(jīng)傳遞信號耳蝸是聽覺系統(tǒng)中最脆弱、最重要的部分。

通常,人的左、右耳對聲音的感知是不太一樣的,這種差異性因人而異人耳的構(gòu)造與功能:24人耳的聽覺過程示意圖26人耳對聲音響度的感知與聲音的能量成非線性關(guān)系(對數(shù)感知關(guān)系):272、聽覺的頻率分辨率人耳對不同頻率信號的聽覺分辨率是不一樣的,對低頻信號的分辨率高,對高頻信號的分辨率低,一般來說,人耳對不同頻率信號的分辨率是一個定Q值例如:對頻率差別最敏感的人在100Hz頻率附近可以區(qū)分99Hz和101Hz信號的不同,但是在1000Hz附近,只能區(qū)分990Hz和1010Hz的頻率成分頻率(Hz):1001021051101501000101010501100283、音調(diào)(音高)的感知音調(diào)也是一種主觀的感知概念,它與客觀物理量頻率有關(guān)。音調(diào)的主觀感知與聲音的頻率也是非線性的對數(shù)關(guān)系。音調(diào)的感知單位為美爾(Mel)由上式可得1000Hz的純音所產(chǎn)生的音調(diào)為1000Mel;而其音調(diào)高一倍(2000Mel)的聲音所對應(yīng)的頻率約為3429Hz。音調(diào)-頻率感知曲線30聽覺的頻率掩蔽(同時掩蔽)一個強純音會掩蔽在其附近頻率同時發(fā)聲的弱純音,這種特性稱為頻域掩蔽,也稱同時掩蔽(simultaneousmasking)。一般來說,弱純音離強純音越近就越容易被掩蔽。一個聲強為60dB、頻率為1000Hz的純音的掩蔽曲線無掩蔽時的聽閾曲線受掩蔽時的聽閾曲線31在250Hz、1kHz、4kHz和8kHz純音附近,對其他純音的掩蔽效果最明顯;低頻純音可以有效地掩蔽高頻純音,但高頻純音對低頻純音的掩蔽作用則不明顯。

聲強為60dB、頻率為250Hz、1kHz、4kHz和8kHz純音的掩蔽效應(yīng)掩蔽曲線32噪聲對語音感知的影響噪聲對純音的屏蔽作用噪聲對語音的屏蔽作用33聽覺的時域掩蔽(異時掩蔽)除了同時發(fā)出的聲音之間有掩蔽現(xiàn)象之外,在時間上相鄰的聲音之間也有掩蔽現(xiàn)象,并且稱為時域掩蔽時域掩蔽又分為超前掩蔽(pre-masking)和滯后掩蔽(post-masking)。一般來說,超前掩蔽很短,只有大約5~20ms,而滯后掩蔽可以持續(xù)50~200ms時域掩蔽曲線34聽覺的響度、音調(diào)感知特性、頻率分辨率

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論