語音信號處理 第4版 課件 第6章:語音增強(qiáng)_第1頁
語音信號處理 第4版 課件 第6章:語音增強(qiáng)_第2頁
語音信號處理 第4版 課件 第6章:語音增強(qiáng)_第3頁
語音信號處理 第4版 課件 第6章:語音增強(qiáng)_第4頁
語音信號處理 第4版 課件 第6章:語音增強(qiáng)_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

南京郵電大學(xué)

通信與信息工程學(xué)院

第6章語音增強(qiáng)語音特性、人耳感知特性及噪聲特性相關(guān)特性法濾波器法非線性處理法減譜法與維納濾波法基于深度學(xué)習(xí)的語音增強(qiáng)6.1概述在現(xiàn)實環(huán)境下,語音容易受到噪聲的影響和干擾,因而噪聲的消減對語音識別、低碼率符號化等有很強(qiáng)的實用價值。抗噪聲技術(shù)的研究以及實際環(huán)境下的語音信號處理系統(tǒng)的開發(fā)國內(nèi)外的研究大體分為三類:①采用語音增強(qiáng)算法提高語音識別系統(tǒng)前端預(yù)處理的抗噪聲能力,提高輸入信號的信噪比;②尋找穩(wěn)健的耐噪聲的語音特征參數(shù);③基于模型參數(shù)適應(yīng)化的噪聲補(bǔ)償算法。6.1語音特性語音信號是一種非平穩(wěn)的隨機(jī)信號,但可以假定語音信號是短時平穩(wěn)的,即在10~30ms

的時間段內(nèi)語音的某些物理特性和頻譜特性可以近似看作是不變的,從而應(yīng)用平穩(wěn)隨機(jī)過程的分析方法來處理語音信號,并可以在語音增強(qiáng)中利用短時頻譜時的平穩(wěn)特性。任何語言的語音都有元音和輔音兩種音素。輔音又分為清輔音和濁輔音。從時域波形上可以看出濁音(包括元音)具有明顯的準(zhǔn)周期性和較強(qiáng)的振幅,它們的周期所對應(yīng)的頻率就是基音頻率;清輔音的波形類似于白噪聲并具有較弱的振幅。在語音增強(qiáng)中可以利用濁音具有的明顯的準(zhǔn)周期性來區(qū)別和抑制非語音噪聲,而清輔音和寬帶噪聲就很難區(qū)分。語音信號作為非平穩(wěn)、非遍歷隨機(jī)過程的樣本函數(shù),其短時譜的統(tǒng)計特性在語音增強(qiáng)中有著舉足輕重的作用。根據(jù)中心極限定理,語音的短時譜的統(tǒng)計特性服從高斯分布。但是,實際應(yīng)用中只能將其看作是在有限幀長下的近似描述。6.1人耳感知特性人耳對于聲波頻率高低的感覺與實際頻率的高低近似為對數(shù)關(guān)系;人耳對聲強(qiáng)的感覺很靈敏且有很大的動態(tài)范圍,對頻率的分辨能力受聲強(qiáng)的影響,;人耳對語音信號的幅度譜較為敏感,對相位不敏感。這一點(diǎn)對語音信號的恢復(fù)很有幫助。此外,共振峰對語音感知很重要,特別是前三個共振峰更為重要。人耳具有掩蔽效應(yīng),即一個聲音由于另外一個聲音的出現(xiàn)而導(dǎo)致該聲音能被感知的閾值提高的現(xiàn)象。人耳除了可以感受聲音的強(qiáng)度、音調(diào)、音色和空間方位外,還可以在兩人以上的講話環(huán)境中分辨出所需要的聲音,這種分辨能力是人體內(nèi)部語音理解機(jī)制具有的一種感知能力。因此,語音增強(qiáng)的最終度量是人耳的主觀感覺,所以在語音增強(qiáng)中可以利用人耳感知特性來減少運(yùn)算代價。6.1噪聲特性噪聲可以是加性的,也可以是非加性的,非加性噪聲往往可以通過某種變換,如同態(tài)濾波轉(zhuǎn)為加性噪聲)。加性噪聲通常分為沖激噪聲、周期噪聲、寬帶噪聲、語音干擾噪聲等;非加性噪聲主要是殘響及傳送網(wǎng)絡(luò)的電路噪聲等。通過語音增強(qiáng)技術(shù)來改善語音質(zhì)量的過程如下圖所示。常用的語音增強(qiáng)技術(shù)有濾波器法、自相關(guān)抗噪法、非線性處理法、減譜法、維納濾波法等。語音特性、人耳感知特性及噪聲特性相關(guān)特性法濾波器法非線性處理法減譜法與維納濾波法基于深度學(xué)習(xí)的語音增強(qiáng)6.2濾波器法——陷波器法對于周期噪聲采用陷波器是較為簡便和有效的方法,其基本思路和要求是設(shè)計的陷波器的幅頻曲線的凹處對應(yīng)于周期噪聲的基頻和各次諧波,如圖6-2所示。設(shè)計的關(guān)鍵是通過合理設(shè)計使這些頻率處的陷波寬度足夠窄。6.2濾波器法——陷波器法簡單的數(shù)字陷波器的傳遞函數(shù)如下:由可以看出f=N/T(N為整數(shù))的頻率被濾除掉。且數(shù)字濾波器的極零點(diǎn)接近時,信號頻譜變化較為緩慢,而在陷波頻率處急劇衰減,故引入反饋:當(dāng)b越接近1時,分母在零點(diǎn)附近處有抵消作用,梳齒帶寬變得越窄,通帶較為平坦,陷波效果越好。其模擬框圖如下圖所示。6.2濾波器法——自適應(yīng)濾波器1、基本型:自適應(yīng)濾波器最重要的特性是能有效地在未知環(huán)境中跟蹤時變的輸入信號,使輸出信號達(dá)到最優(yōu),因此可以用來構(gòu)成自適應(yīng)的噪聲消除器,其基本原理框圖如圖所示。圖中s(t)為語音信號,n(t)為未知噪聲信號,y(t)為帶噪語音信號,r(t)為參考噪聲輸入,r(t)與s(t)無關(guān),而與n(t)相關(guān)。該濾波器的實質(zhì)在于實現(xiàn)帶噪信號中的噪聲估計,并用原始信號y(t)減去估計值r’(t)以達(dá)到語音增強(qiáng)的目的。6.2濾波器法——自適應(yīng)濾波器2、對稱自適應(yīng)去相關(guān)的改進(jìn)型在有些實際應(yīng)用中,參考輸入r(t)除包含與噪聲相關(guān)的參考噪聲外,還可能含有低電平的信號分量。無疑這些泄漏到參考輸入中的語音信號分量將會對消原始輸入中的語音信號成分,進(jìn)而導(dǎo)致輸出信號中原始語音信號的損失。下圖給出了原始語音信號s(t)通過一個傳遞函數(shù)為J(z)的信道泄漏到參考輸入中的情形。這種情況就無法使用自適應(yīng)噪聲對消器進(jìn)行語音增強(qiáng)。可以證明,如果原始輸入和參考輸入中的噪聲相關(guān),則對消器輸出端的信噪譜密度比為參考輸入端信噪譜密度比之倒數(shù)。這種自適應(yīng)過程被稱為“功率取逆”。6.2濾波器法——自適應(yīng)濾波器為了解決信號分量的泄漏導(dǎo)致系統(tǒng)性能惡化這一問題,D.VanCompernolle提出了對稱自適應(yīng)去相關(guān)(SAD)算法,其基本原理如下圖所示。其基本思想是用去相關(guān)準(zhǔn)則來代替最小均方誤差準(zhǔn)則。嚴(yán)格來說,SAD算法不是一個噪聲抵消算法,而是一個信號分離算法。實際上,這種對稱自適應(yīng)去相關(guān)信號分離系統(tǒng)是LMS自適應(yīng)噪聲抵消器的擴(kuò)展。6.2濾波器法——自適應(yīng)濾波器3、用延遲的改進(jìn)型自適應(yīng)濾波器都需要有與n(t)相關(guān)的參考噪聲r(t)輸入,這在實際應(yīng)用中往往比較困難,如果噪聲相關(guān)性較弱(例如白噪聲),則有如圖所示的改進(jìn)型。帶噪語音信號延遲一個周期,得到參考信號r(t)=s(t-T)

+N(t-T)。在大多數(shù)情況下,s(t)與s(t-T)相關(guān)性大,n(t)與N(t-T)相關(guān)性小。該自適應(yīng)濾波器的設(shè)計思想同上,即穩(wěn)定時使最小,而要達(dá)到這一點(diǎn)必須保證加法器的兩個輸入端有較多的相關(guān)成分,即s(t)、n(t)的相關(guān)成分。考慮到噪聲相關(guān)性較弱,因此穩(wěn)定時s'(t)就是降噪后的s(t)的估計值。語音特性、人耳感知特性及噪聲特性相關(guān)特性法濾波器法非線性處理法減譜法與維納濾波法基于深度學(xué)習(xí)的語音增強(qiáng)6.3相關(guān)特征法——自相關(guān)處理抗噪法語音增強(qiáng)技術(shù)原理:利用語音信號本身相關(guān),而語音與噪聲、噪聲與噪聲可認(rèn)為互相不相關(guān)的性質(zhì),對帶噪語音信號做自相關(guān)處理,可以得到與不帶噪語音信號同樣的自相關(guān)幀序列。設(shè)帶噪語音為其中,s(t)為純凈語音信號;n(t)為近似白噪聲的噪聲信號??紤]到它們的短時平穩(wěn)的特性,計算y(t)的自相關(guān)函數(shù)6.3相關(guān)特征法——自相關(guān)處理抗噪法語音增強(qiáng)技術(shù)

6.3相關(guān)特征法——自相關(guān)處理抗噪法語音增強(qiáng)技術(shù)

語音特性、人耳感知特性及噪聲特性相關(guān)特性法濾波器法非線性處理法減譜法與維納濾波法基于深度學(xué)習(xí)的語音增強(qiáng)6.4非線性處理法——小波降噪法中心削波法:對于噪聲頻譜遍布于語音信號頻譜之中的寬帶噪聲,如果噪聲振幅比大部分的語音信號振幅低,則削去低幅度成分也就削去了寬帶噪聲?;谶@種思路,可以在頻域中采取中心限幅的方法,即讓帶噪語音信號通過一限幅濾波器,高幅度頻譜可以通過而低幅成分不允許通過,從而實現(xiàn)噪聲抑制。需要注意的是中心削波不可避免地要損害語音質(zhì)量,通常只在頻域中進(jìn)行,而一般不在時域中實施。小波降噪:小波變換具有很強(qiáng)的去數(shù)據(jù)相關(guān)性,它能夠使信號的能量在小波域集中在一些大的小波系數(shù)中;而噪聲的能量卻分布于整個小波域內(nèi)。此時,信號的小波系數(shù)幅值要大于噪聲的系數(shù)幅值。于是,采用閾值的辦法可以把信號系數(shù)保留,而使大部分噪聲系數(shù)減小至0。小波降噪的具體處理過程:將含噪信號在各尺度上進(jìn)行小波分解,設(shè)定一個閾值,幅值低于該閾值的小波系數(shù)置為0,高于該閾值的小波系數(shù)或者完全保留,或者做相應(yīng)的“收縮”(shrinkage)處理。最后,將處理后獲得的小波系數(shù)用逆小波變換進(jìn)行重構(gòu),得到去噪后的信號。6.4非線性處理法——同態(tài)濾波法對于加性噪聲的語音增強(qiáng),通常采取線性濾波方法;而對于非加性噪聲(如乘性或卷積噪聲)一般采用同態(tài)濾波的方式。同態(tài)濾波的基本原理在以前章節(jié)已有詳細(xì)論述,其降噪過程的原理框圖如下圖所示。原理:含噪語音經(jīng)過同態(tài)濾波器后由卷積運(yùn)算變成了相應(yīng)的復(fù)倒譜求和運(yùn)算,這樣就可以分離出乘性噪聲。再由復(fù)倒譜提取音調(diào)參數(shù),并經(jīng)過頻譜分析獲取降噪處理之后的共振峰,最后合成為降噪后的語音信號,進(jìn)而可以進(jìn)入語音處理系統(tǒng)去做其他的特征提取與處理應(yīng)用。6.4非線性處理法——同態(tài)濾波法

語音特性、人耳感知特性及噪聲特性相關(guān)特性法濾波器法非線性處理法減譜法與維納濾波法基于深度學(xué)習(xí)的語音增強(qiáng)6.5減譜法與維納濾波法——減譜法

6.5減譜法與維納濾波法——減譜法

6.5減譜法與維納濾波法——維納濾波法原理:在最小均方準(zhǔn)則下用維納(Weiner)濾波器實現(xiàn)對語音信號的估計,即對于帶噪語音信號y(t)=s(t)+n(t),確定濾波器的沖激響應(yīng)h(t),使得帶噪語音信號經(jīng)過該濾波器的輸出

s′(t)能夠滿足E[|s′(t)-s(t)|2]最?。╯′(t))為濾波器輸出)。假定

s(t)和n(t)都是短時平穩(wěn)隨機(jī)過程,則由Weiner-Hopf積分方程為兩邊取傅里葉變換有從而得到又由于并考慮到s(t)和n(t)相互獨(dú)立,所以

6.5減譜法與維納濾波法——維納濾波法

語音特性、人耳感知特性及噪聲特性相關(guān)特性法濾波器法非線性處理法減譜法與維納濾波法基于深度學(xué)習(xí)的語音增強(qiáng)6.6基于深度學(xué)習(xí)的語音增強(qiáng)——基于深度神經(jīng)網(wǎng)絡(luò)

6.6基于深度學(xué)習(xí)的語音增強(qiáng)——基于深度神經(jīng)網(wǎng)絡(luò)

6.6基于深度學(xué)習(xí)的語音增強(qiáng)——基于深度神經(jīng)網(wǎng)絡(luò)將自適應(yīng)掩蔽閾值融入DNN,用于重構(gòu)增強(qiáng)后的語音信號,其流程分為訓(xùn)練和測試兩個階段,具體如圖6-11所示。在訓(xùn)練階段,首先根據(jù)式(6-41),利用純凈語音s(t)和噪聲n(t)計算出理想的自適應(yīng)掩蔽閾值LC,并將其作為DNN訓(xùn)練的標(biāo)簽;接著,利用提取出的語音相關(guān)特征和上一步所得的標(biāo)簽,完成DNN的模型訓(xùn)練。在測試階段,提取帶噪語音的相關(guān)特征,輸入到訓(xùn)練好的DNN中,輸出為自適應(yīng)掩蔽閾值,最終利用帶噪語音和輸出的掩蔽閾值,得到增強(qiáng)后的語音。6.6基于深度學(xué)習(xí)的語音增強(qiáng)——基于深度神經(jīng)網(wǎng)絡(luò)需要注意的是,所構(gòu)建的DNN由一個輸入層、四個隱層、一個輸出層組成。各層的節(jié)點(diǎn)數(shù)設(shè)置為K-1024-1024-1024-1024-64,其中,K為輸入信號特征維度,輸出層為輸出特征維度64。四個隱藏層的激活函數(shù)采用Relu函數(shù),輸出層的激活函數(shù)采用Sigmoid函數(shù)。DNN的訓(xùn)練采用標(biāo)準(zhǔn)的反向傳播算法(BP)和丟棄法(Dropout)相結(jié)合。Dropout指在DNN過程中隨機(jī)丟掉一部分神經(jīng)元來減少模型復(fù)雜度,從而防止過擬合。Dropout實現(xiàn)方法很簡單:在每次迭代訓(xùn)練中,以一定概率隨機(jī)屏蔽每一層中若干神經(jīng)元,用余下神經(jīng)元所構(gòu)成的網(wǎng)絡(luò)來繼續(xù)訓(xùn)練。圖6-12是Dropout示意圖,左邊是完整的神經(jīng)網(wǎng)絡(luò),右邊是應(yīng)用了Dropout之后的網(wǎng)絡(luò)結(jié)構(gòu)。6.6基于深度學(xué)習(xí)的語音增強(qiáng)——基于循環(huán)神經(jīng)網(wǎng)絡(luò)基于RNN的語音增強(qiáng),其采用的是包含自注意力機(jī)制的RNN(Attention-BasedRecurrentNeuralNetwork,A-RNN)模型。實驗結(jié)果表明,與DNN相比,A-RNN在語音增強(qiáng)的性能方面具有顯著優(yōu)勢。A-RNN結(jié)構(gòu)如圖6-13所示,其由歸一化層、RNN、自注意力模塊和前饋模塊構(gòu)成。其中,歸一化層用于提高泛化能力和促進(jìn)更快的訓(xùn)練。對于RNN而言,這里選擇的是LSTM結(jié)構(gòu)。LSTM是在RNN模型上進(jìn)行改進(jìn),使其更好地建模長時依賴信息。A-RNN中的前饋模塊首先使用線性層將大小為N的輸入維度擴(kuò)充到4N,接著通過高斯誤差線性單元和Dropout層,最后,將大小為4N的輸出拆分為大小為N的4個向量,將它們相加在一起以獲得最終輸出。6.6基于深度學(xué)習(xí)的語音增強(qiáng)——基于循環(huán)神經(jīng)網(wǎng)絡(luò)A-RNN中的自注意力模塊結(jié)構(gòu)如圖6-14所示6.6基于深度學(xué)習(xí)的語

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論