




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第二章語音信號處理基礎(chǔ),.,語音的產(chǎn)生,聲音是一種波形:振動頻率在20-20KHz,如樂器聲、雷聲、風聲、雨聲等;語音是聲音的一種,由人發(fā)音器官發(fā)出,具有一定的語法和語義,語音的最高頻率可達15KHz,一般可聽的語音頻率為80Hz3.5KHz;音樂(音頻)也是聲音的一種,由人發(fā)音器官及樂器混合發(fā)出,具有一定的語法和語義,一般可聽的音頻頻率為20Hz22KHz;,語音的產(chǎn)生,人的說話過程分為5個階段:1)想說階段:客觀現(xiàn)實大腦反映說話動機神經(jīng)中樞想表達內(nèi)容和情感;2)說出階段:神經(jīng)中樞發(fā)出指令各器官協(xié)調(diào)發(fā)音(機能效果)反饋修正;3)傳送階段(物理過程):語音(聲波)媒介(空氣)聽者(可能會產(chǎn)生失
2、真或損耗),語音的產(chǎn)生,人的說話過程分為5個階段:4)接受階段:外耳中耳放大內(nèi)耳(基底膜振動)神經(jīng)元(產(chǎn)生脈沖)大腦;5)理解階段:神經(jīng)中樞脈沖信息辨認信息(如何辨認,尚未知)。5個階段有心理、生理、物理以及人和社會的因素。,語音的產(chǎn)生,發(fā)音器官模型,語音的產(chǎn)生,人類的發(fā)音器官,語音的產(chǎn)生,語音信號的產(chǎn)生過程,語音的產(chǎn)生,語音:由若干個音節(jié)(syllable)組成。音節(jié):可以由一個或若干個音素(phoneme)組成;音素:是發(fā)音的最小單位,有兩種音素,即輔音和元音。如一個音節(jié)dan(但)就包括dan三個音素,也有的音節(jié)是由一個音素構(gòu)成的,如a“啊”。元音:聲帶振動發(fā)音時,氣流從喉腔、咽腔進入口
3、腔從唇腔出去時,聲腔完全開發(fā),氣流順利通過。半元音:聲道基本暢通,但某處聲道比較狹窄,引起輕微的摩擦聲。輔音:是呼出的聲音,氣流被阻不能暢通。,語音的產(chǎn)生,元音的分類根據(jù)舌位來分舌位前后Front前Central中央Back后舌位高低(嘴開的大?。〩igh,(close)Mid,(closemid,openmid)Low,(open)上述共有9種組合??诖介_放程度9種組合加口唇開放程度就可發(fā)10多個不同的單元音。,語音的產(chǎn)生,漢語語音知識漢語音節(jié):一個音節(jié)(syllable)就是一個字的音,字是獨立的發(fā)音單位,由聲母和韻母構(gòu)成。詞:由音節(jié)構(gòu)成。句子:由詞構(gòu)成。音素:聲母是一個音素,而韻母則較復(fù)
4、雜。聲調(diào):音調(diào)在發(fā)一個音節(jié)中的變化。漢語特點:音素少、音節(jié)少,64個音素、400多個音節(jié),語音信號的特性,語音信號的特性聲學特性語音信號的時域波形和頻譜特性語音信號的統(tǒng)計特性,語音信號的特性,語音按其激勵形式的不同可以分為三類:濁音:當氣流通過聲門時,如果聲帶的張力剛好使聲帶發(fā)生張弛振蕩,產(chǎn)生一股準周期的氣流,這一氣流激勵聲道就產(chǎn)生濁音。清音:當氣流通過聲門時,如果聲帶不振動,而在某處收縮,迫使氣流以高速通過這一收縮部分而產(chǎn)生清音。爆破音:如果使聲道完全閉合,在閉合后建立起氣壓,然后釋放,就得到爆破音。,語音信號的特性,濁音的特性:基音頻率濁音的聲帶振動頻率稱為基本頻率又稱基音頻率,用F0表示
5、,發(fā)音時,各個元音段的F0都隨時間而變,F(xiàn)0的變化產(chǎn)生了音調(diào),F(xiàn)0隨的變化軌跡稱為聲調(diào)軌跡,聲調(diào)反映了語音的韻律?;纛l率(簡稱基頻)的范圍為:男性偏低一般為50HzF0200Hz;女性、小孩偏高一般為200HzF0450Hz;基音頻率的倒數(shù)稱為基音周期(pitchperiod)。,語音信號的特性,濁音的特性:共振峰共振峰(Formant):指諧振頻率。聲道可看成是一根具有非均勻截面的聲管,發(fā)音時起共鳴作用,當激勵進入聲道時會引起共振特性,產(chǎn)生一組共振頻率。共振峰與聲道的形狀和大小有關(guān)共振峰有多個,從低頻到高頻排列F1,F2,F3,,一般的濁音中可以辨別的共振峰有5個,其中前面3個對于區(qū)別不同
6、語音至關(guān)重要;,語音信號的特性,濁音的特性:共振峰,語音信號的特性,濁音和清音的區(qū)別由于發(fā)濁音時,聲帶振動,產(chǎn)生準周期氣流,聲道有多個共振峰。同時由于聲門波引起了頻譜的高頻衰落,因此濁音能量集中在3KHz以下。對于清音由于聲帶不振動,由聲道的某些部位阻塞氣流產(chǎn)生類白噪聲,多數(shù)能量集中在較高的頻率上。這就是語音激勵模型和識別清音和濁音的理論基礎(chǔ)。,語音信號的特性,語音波形語音:人的發(fā)聲器官發(fā)出的一種聲波,語音一定具有音色、音高、音強和音長四要素;音色,就是聲音的個性、特色。它是一個音區(qū)別于另一個音的基本特征;音高指聲音的高低,取決于頻率;音強(音量,又稱響度)決定聲音的強弱,由聲波的振動決定;音
7、長指發(fā)音時間的長短。,語音信號的特性,聲音波形及其頻譜,頻譜最大值與共振蜂相對應(yīng),F1,F2,F4,F3,語音信號產(chǎn)生的數(shù)字模型,語音信號的數(shù)學模型是如何得到的?建立數(shù)學模型又有什么意義呢?,語音信號產(chǎn)生的數(shù)字模型,在李約瑟博士中國科學技術(shù)史一書數(shù)學卷中作者提出科學理論的建立必然經(jīng)過下面五個過程。(1)從所要討論的全部現(xiàn)象中,選擇出那些看來是所有現(xiàn)象所共有的特性(分析,“簡化”),這時,逐一點查被認為是不必要的,因為可以相信,大自然是均勻的,而抽樣是有代表性的。(2)通過對這些特性的主要內(nèi)容進行推理,歸納出一個特定的原則(同樣是“簡化”)。(原則可以是一個定理也可以是一個模型或者公式)(3)從
8、這個假設(shè)的原則出發(fā),推導(dǎo)出各種可能的后果(思想中的綜合)。(4)觀察同樣的或類似的現(xiàn)象,并根據(jù)經(jīng)驗判明真?zhèn)?。?)接受或摒棄第(2)步所提出的假設(shè)的原則。,語音信號產(chǎn)生的數(shù)字模型,語音信號產(chǎn)生的數(shù)字模型,語音信號產(chǎn)生的數(shù)字模型,語音信號產(chǎn)生的數(shù)字模型激勵模型聲道模型輻射模型,語音信號產(chǎn)生的數(shù)字模型,激勵模型一般分為濁音激勵和清音激勵來討論。濁音:濁音時,激勵信號由一個周期脈沖發(fā)生器產(chǎn)生,產(chǎn)生的序列是一個頻率等于基音頻率的沖激序列。為了使?jié)嵋舻募钚盘柧哂新曢T脈沖的實際波形,還需要使沖激序列通過一個聲門脈沖模型濾波器G(z)。對聲門波形的頻譜分析表明,其幅度譜按12dB/倍頻程的速度衰減。,語音
9、信號產(chǎn)生的數(shù)字模型,得全極點模型形式:整個激勵模型可表示為U(z)=G(z)E(z)G(z)聲門模型,E(z)單位脈沖串及幅值因子的Z變換。清音:因聲道被阻塞,故可模擬成隨機噪聲。,語音信號產(chǎn)生的數(shù)字模型,聲道模型聲音在聲道的傳播涉及到許多物理定律(能量守恒、流體力學),需簡化。有不同的模型。關(guān)于聲道的數(shù)學建模有兩種觀點:1)將其視為多個不同的管子串聯(lián),由此導(dǎo)出聲管模型;2)視為諧振腔,由此導(dǎo)出共振蜂模型。,語音信號產(chǎn)生的數(shù)字模型,聲道模型(1)聲管模型“短時”間聲道是一個形狀穩(wěn)定的級聯(lián)管道,語音信號產(chǎn)生的數(shù)字模型,(2)共振峰模型根據(jù)聲道近似為諧振腔的特性,有另外模型模擬其共振峰。在大多數(shù)情
10、況下聲道是一個全極點模型,共振蜂模型,其傳輸函數(shù)p為極點個數(shù)即模型階數(shù),ai為模型系數(shù)。若p值取得越大,模型的傳輸函數(shù)與聲道實際傳輸函數(shù)的吻合程度就越高。在大多數(shù)實際應(yīng)用中,p值取812.,語音信號產(chǎn)生的數(shù)字模型,輻射模型:用R(z)表示與嘴型有關(guān),一般可表示為,語音信號產(chǎn)生的數(shù)字模型,完整模型:可用三個模型的級聯(lián)表示V(z)=AE(z)H(z)在濁音情況下,E(z)是一個周期沖激序列,且A=Av,H(z)=G(z)V(z)R(z)在清音情況下,E(z)是一個隨機噪聲,且A=Au,H(z)=V(z)R(z),語音信號產(chǎn)生的數(shù)字模型,在這個模型中,除了G(z)和R(z)保持不變以外,基音頻率、A
11、v、Au、清/濁開關(guān)的位置以及聲道模型中的參數(shù)都是隨時間變化而變化的。由于發(fā)聲器官的慣性使這些參數(shù)的變化速度受到限制。對于聲道參數(shù)而言,在1030ms的時間間隔內(nèi)可以認為它們保持不變,因此語音的短時分析幀長一般取為1030ms。需注意的是:把激勵簡單分為周期脈沖激勵和噪聲激勵是與實際情況不完全符合。如果將模型的激勵源改為上述兩種激勵按任何比例相疊加,這更加接近于實際情況。這個模型的傳輸函數(shù)不包含有限傳輸零點,而像鼻音、擦音這樣一些音的聲道傳輸函數(shù)中包含有限零點的。解決方法就是適當提高階數(shù)p,使得全極點模型更好得逼近具有零點的傳輸函數(shù)。,語音感知,語音感知-聲音三要素任何聲音可用聲強(或聲壓)的
12、三個物理量表示:即幅度、頻率、相位。對應(yīng)人的感知,可用另外三要素描述:即響度、音調(diào)和音色。音色:亦稱音質(zhì),反映聲音屬性。每個人聲音具有特殊的音色,人根據(jù)音色在主觀感覺上區(qū)別具有相同響度和音調(diào)的兩個聲音。響度:測量聲音強弱的物理量為聲強,單位為W/m2(瓦/米2);主觀感受聲音強弱的單位是宋:sone。,語音感知,響度當聲音的強度小到人耳剛剛能夠聽見時,稱為聽閾。聽閾是隨頻率變化而變化的。如果加大聲音的強度,使它大到人耳感到疼痛,這個閾值稱為痛閾。聽閾和痛閾之間是人耳的范圍,為0120dB聲強級(1012倍以上)。人耳對2k4kHz聲音的音強的感覺最靈敏。,語音感知,音調(diào):亦稱音高,與頻率有關(guān),
13、單位為美爾(Mel)。頻率低的聲音聽起來感覺它的音調(diào)低,頻率高的音調(diào)高。但是音調(diào)與頻率不成正比,它還與聲音的強度及波形有關(guān)。音調(diào)與頻率的關(guān)系近似為:,語音感知,掩蔽效應(yīng)掩蔽效應(yīng)是一種常見的心理聲學現(xiàn)象。當兩個響度不同的聲音作用與人耳時,則響度較高的頻率成分的存在會影響到對響度較低的頻率成分的感受,使其變得不易察覺,這種現(xiàn)象稱為掩蔽效應(yīng)。1)同時掩蔽和異時掩蔽同時掩蔽:發(fā)生在掩蔽者和被掩蔽者同時存在時,亦稱頻率掩蔽,聲音能否聽到取決于頻率和強度。,語音感知,異時掩蔽:發(fā)生在掩蔽者和被掩蔽者不同時存在時,亦稱時域掩蔽。有兩類:前掩蔽(pre-masking):發(fā)生在掩蔽者開始之前的一段時間,一般可
14、持續(xù)20ms。后掩蔽(post-masking):發(fā)生在掩蔽者結(jié)束之后的一段時間,一般可持續(xù)100ms。掩蔽閾值取決于掩蔽者的音調(diào)、頻率、聲壓級和持續(xù)時間。,語音感知,各種不同的掩蔽效果掩蔽者有三種類型:純音調(diào)、寬帶噪聲和窄帶噪聲,掩蔽者和被掩蔽者組合后產(chǎn)生不同的掩蔽效果。純音調(diào)信號間的掩蔽寬帶噪聲對純音調(diào)的掩蔽:掩蔽者為寬帶噪聲,被掩蔽者為純音調(diào)信號。窄帶噪聲對純音調(diào)的掩蔽:掩蔽者為窄帶噪聲,被掩蔽者為純音調(diào)信號。是一種比較復(fù)雜的掩蔽效應(yīng)。,語音感知,臨界帶寬:為了描述窄帶噪聲對純音調(diào)信號的掩蔽效應(yīng),引入臨界帶寬概念。一個純音可被以它為中心頻率,且具有一定寬帶的連續(xù)噪聲所掩蔽,若在這一頻帶內(nèi)噪聲功率等于純音的功率,則該純音處于剛好能被聽到的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 水果公司促銷活動方案
- 漢朝古裝活動方案
- 汽車漂移活動方案
- 畢業(yè)軍事活動方案
- 母嬰拓展活動方案
- 汽車濾芯活動方案
- 正品漢堡活動方案
- 核酸檢測教育活動方案
- 梁家河宣傳活動方案
- 沙龍策劃活動方案
- GB/T 10597-2022卷揚式啟閉機
- SB/T 10379-2012速凍調(diào)制食品
- GB/T 6173-2015六角薄螺母細牙
- GB/T 2039-1997金屬拉伸蠕變及持久試驗方法
- 認識地圖與使用地圖
- 《教師專業(yè)發(fā)展》課件
- 小學閱讀理解提分公開課課件
- 2023年贛南師范大學科技學院輔導(dǎo)員招聘考試筆試題庫及答案解析
- 養(yǎng)老護理員職業(yè)道德27張課件
- 少兒美術(shù)課件-《長頸鹿不會跳舞》
- GB∕T 17989.1-2020 控制圖 第1部分:通用指南
評論
0/150
提交評論