語音信號處理第3版第2講_第1頁
語音信號處理第3版第2講_第2頁
語音信號處理第3版第2講_第3頁
語音信號處理第3版第2講_第4頁
語音信號處理第3版第2講_第5頁
已閱讀5頁,還剩27頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

2.1語音發(fā)音及感知系統(tǒng)2.2語音信號生成的數(shù)學模型2.3語音基本概念與參數(shù)2.4語音信號的數(shù)字化和預處理2.5語音信號的應用第2章語音信號處理的基礎知識語音信號處理:研究用數(shù)字信號處理技術對語音信號進行處理的一門學科目的:(1)通過處理得到一些反映語音信號重要特征的語音參數(shù),以便高效地傳輸或存儲語音信號信息(2)通過處理的某種運算已達到某種用途的要求第2章語音信號處理的基礎知識人們講話時發(fā)出的話語叫語音,它是一種聲音,具有稱為聲學特征的物理特性。語音(Speech)是聲音(Acoustic)和語言(Language)的組合體??梢赃@樣定義語音:語音是由一連串的音組成語言的聲音。

人的發(fā)音器官包括:肺、氣管、喉(包括聲帶)、咽、鼻和口。喉的部分為聲門。從聲門到嘴唇的呼氣通道叫做聲道,聲道形狀的不斷改變。發(fā)出不同的語音。

2.1語音發(fā)音及感知系統(tǒng)語音是由肺至唇各種器官作用而發(fā)出的,其作用的方式有3種:(1)把肺部呼出的直氣流變?yōu)橐粼矗?)對音源起共振和反共振的作用,使之帶有音色(3)從唇或鼻向空間輻射對發(fā)音影響最大的是聲帶,每開啟和閉合一次的時間即聲帶的共振周期,就是音調(diào)周期或基音周期,其倒數(shù)為基音頻率(其范圍隨發(fā)音人的性別、年齡而定)。E.g.老年男性偏低,小孩和青年女性偏高基音頻率決定了聲音頻率的高低,頻率快則音調(diào)高,頻率慢則音調(diào)低。2.1語音發(fā)音及感知系統(tǒng)人的聽覺系統(tǒng)是一個十分巧妙的音頻信號處理器。主要完成聲音的采集、頻率分解、聲能轉換、聲音加工和分析以及感覺聲音的音色、音調(diào)、音強、判斷方位等功能。聽覺具有選擇性:能被人耳聽到的聲音取決于聲音的強度和頻率范圍。(一般人可以感覺到20Hz~20kHz,強度為-5dB~130dB的聲音信號)聽覺具有掩蔽效應:指在一個強信號附近,弱信號將變得不可聞,被掩蔽掉了。2.1語音發(fā)音及感知系統(tǒng)

2.2語音信號生成的數(shù)學模型理想的模型是線性的和時不變的。語音信號是非平穩(wěn)隨機過程,其特性是隨著時間變化的,所以模型中的參數(shù)應該是隨時間而變化的。但語音信號特性隨著時間變化是很緩慢的。所以可以作出一些合理的假設,將語音信號分為一些相繼的短段進行處理,在這些短段中可以認為語音信號特性是不隨著時間變化的平穩(wěn)隨機過程。這樣在這些短段時間內(nèi)表示語音信號時,可以采用線性時不變模型。

激勵模型激勵模型一般分成濁音激勵和清音激勵來討論。濁音激勵模型:由于聲帶不斷張開和關閉,將產(chǎn)生間歇的脈沖波。這個脈沖波的波形類似于斜三角形的脈沖,它的數(shù)學表達式如下:

式中,N1為斜三角波上升部分的時間,N2為其下降部分的時間。激勵模型濁音激勵:單個斜三角波的Z變換的全極模型的形式是:

c是常數(shù)。上式表示斜三角波形可描述為一個二極點模型。斜三角波形串可視為加權了單位脈沖串激勵上述單個斜三角波模型的結果。激勵模型單位脈沖串及幅值因子則可表示成下面的z變換形式:

所以,整個濁音激勵模型可表示為:

也就是說濁音激勵波是一個以基音周期為周期的斜三角脈沖串。幅值因子激勵模型清音激勵模型:模擬成隨機白噪聲,實際中一般使用均值為0,方差為1,并在時間(幅值)上為白色分布的序列

聲道模型——聲道部分的模型目前最常用的有2種建模方法。(1)是把聲道視為由多個等長的不同截面積的管子串聯(lián)而成的系統(tǒng),即“聲管模型”。(2)是把聲道視為一個諧振腔,即“共振峰模型”。

共振峰模型,把聲道視為一個諧振腔。共振峰就是這個腔體的諧振頻率,表達式:

i=1,2,…表示共振峰序號,c為聲速,L為聲管長度基于物理聲學的共振峰理論,可以建立起三種實用的共振峰模型:級聯(lián)型、并聯(lián)型和混合型。

聲道模型級聯(lián)型聲道是一組串聯(lián)的二階諧振器。從共振峰理論來看,整個聲道具有多個諧振頻率和多個反諧振頻率,所以它可被模擬為一個零極點的數(shù)學模型;但對于一般元音,則用全極點模型就可以了。它的傳輸函數(shù)可分解表示為多個二階極點的網(wǎng)絡的串聯(lián):

聲道模型級聯(lián)型幅值因子級聯(lián)型共振峰模型若10個極點,則可以表示為5個二階極點的網(wǎng)絡串聯(lián),即聲道可以模擬成下圖所示的模型聲道模型并聯(lián)型對于非一般元音以及大部分輔音,必須考慮采用零極點模型。此時,模型的傳輸函數(shù)如下:

上式可分解為如下部分分式之和的形式:這就是并聯(lián)型的共振峰模型。如圖2-21所示(M=5)。聲道模型并聯(lián)型圖2-21并聯(lián)型共振峰模型聲道模型混合型上述兩種模型中,級聯(lián)型比較簡單,可以用于描述一般元音。當鼻化元音或鼻腔參與共振,以及阻塞音或摩擦音等情況時,級聯(lián)模型就不能勝任了。這時腔體具有反諧振特性,必須考慮加入零點,使之成為零極點模型。對于鼻音、塞音、擦音以及塞擦音等都可以適用。正因為如此,將級聯(lián)模型和并聯(lián)模型結合起來的混合模型也許是比較完備的一種共振峰模型。聲道模型混合型共振峰模型

為頻譜特性比較平坦的音素而考慮輻射模型從聲道模型輸出的是速度波

,而語音信號是聲壓波

,二者之倒比稱為輻射阻抗

。它表征口唇的輻射效應,也包括圓形的頭部的繞射效應等。如果認為口唇張開的面積遠小于頭部的表面積,則可近似地看成平板開槽輻射的情況。此時,可推導出輻射阻抗的公式如下:

式中,是口唇張開時的開口半徑,是聲波傳播速度。輻射模型由輻射引起的能量損耗正比于輻射阻抗的實部,所以輻射模型是一階類高通濾波器。在實際信號分析時,常用所謂的“預加重技術”,即在取樣之后,插入一個一階的高通濾波器。這樣,只剩下聲道部分,便于聲道參數(shù)的分析在語音合成時,再進行“去加重”處理,就可以恢復原來的語音語音信號的數(shù)學模型

綜上所述,完整的語音信號的數(shù)字模型可以用三個子模型:激勵模型、聲道模型和輻射模型的串聯(lián)來表示。如圖所示:

它的傳輸函數(shù)可以表示為:聲壓:定量描述聲波的基本物理量,是由聲擾動產(chǎn)生的逾量壓強,是空間位置和時間的函數(shù)有效聲壓:通常講的聲壓指的是有效聲壓,即在一定時間間隔內(nèi)將瞬時聲壓對時間求方均根值所得,計算公式為:2.3語音基本概念與參數(shù)語音長度離散點數(shù)語音信號的采樣點聲壓級(SoundpressureLevel,SPL):聲音的有效聲壓與基準聲音之比,取以10為底的對數(shù),在乘以20,即為聲壓級,用表示,單位dB.在空氣中參考聲壓一般取2.3語音基本概念與參數(shù)聲強:聲音在單位時間內(nèi)作用在與其傳遞方向垂直的單位面積上的能量聲強級(IntensityLevel,IL)用聲強的物理學單位表示聲音強弱很不方便,當人耳聽到兩個強度不同的聲音時,感覺的大小大致上與兩個聲強比值的對數(shù)成比例。用對數(shù)尺度來表示聲音強度的等級,單位dB參考聲強取值2.3語音基本概念與參數(shù)聲壓與聲強的關系:對于球面波和平面波,聲壓和聲強的關系表達為:空氣中,空氣密度與聲速的乘積,稱為空氣對聲波的特性阻抗,單位,瑞利2.3語音基本概念與參數(shù)響度:描述聲音的響亮程度,表示人耳對聲音的主觀感受,單位宋,定義為聲壓級為40dB的1kHz純音的響度為1宋頻率與音高:以Hz為單位所測得的物理量——頻率,對聽者來說感知為心理量——音高,即用人的主觀感覺來評價所聽到的聲音時高調(diào)還是低調(diào)。音高隨頻率的增加而提高。2.3語音基本概念與參數(shù)

語音信號的數(shù)字化一般包括放大及增益控制、反混疊濾波、采樣、A/D變換及編碼(一般就是PCM碼);預處理一般包括預加重、加窗和分幀等。在分析處理之前必須把要分析的語音信號部分從輸入信號中找出來這項工作叫做語音信號的端點檢測。2.4語音信號的數(shù)字化和預處理帶通濾波器自動增益控制(AGC)模/數(shù)轉換(A/D)脈沖編碼調(diào)制(PCM)語音信號存入計算機

預濾波、采樣、A/D變換預濾波的目的有兩個:抑制輸入信號各頻域分量中頻率超出fs/2的所有分量(fs)為采樣頻率,以防止混疊干擾。抑制50Hz的電源工頻干擾。這樣,預濾波器必須是一個帶通濾波器,設其上、下截止頻率分別是fH和fL:絕大多數(shù)語音編譯碼器:fH=3400Hz,fL=60-100Hz,fS=8kHz要求較高的場合fH=4500HzfL=60Hz采樣率fS=10kHz

預濾波、采樣、A/D變換語音信號經(jīng)過預濾波和采樣后,由A/D變換器變換為二進制數(shù)字碼。A/D變換中要對信號進行量化,量化不可避免地會產(chǎn)生誤差。量化后的信號值與原信號值之間的差值稱為量化誤差,又稱為量化噪聲。若信號波形的變化足夠大,或量化間隔Δ足夠小時,可以證明量化噪聲符合具有下列特征的統(tǒng)計模型:①它是平穩(wěn)的白噪聲過程

②量化噪聲與輸入信號不相關③量化噪聲在量化間隔內(nèi)均勻分布,即具有等概率密度分布

預濾波、采樣、A/D變換若用σx2表示輸入語音信號的方差,2Xmax表示信號的峰值,B表示量化字長,σe2表示噪聲序列的方差,可以證明量化信噪比SNR(信號與量化噪聲的功率比)為:假設語音信號的幅度符合Laplacian分布,此時信號幅度超過4σx的概率很小,只有0.35%,因而可取Xmax=4σx,則上式表明量化器中的每bit字長對SNR的貢獻為6dB。語音輸入——輸出過程:對重構的語音波形的高次諧波起平滑作用去掉高次諧波失真。反混疊濾波語音輸入A/D變換分析處理傳輸或存儲合成處理D/A變換平滑濾波語音輸出

預處理已數(shù)字化的語音信號序列將依次存入一

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論