版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、趙曉群 , 黃小珊(同濟大學(xué) 電子與信息工程學(xué)院,上海 200092摘 要 :提出一種譜估計中的平滑系數(shù)自適應(yīng)變化的新算法,該算法利用人耳掩蔽特性改進語音最小均方誤差的 對數(shù)譜估計增益和無語音概率 (SAP參數(shù),并且利用改進后的 SAP 參數(shù)自適應(yīng)地調(diào)節(jié)平滑系數(shù),以求隨著不同噪 聲環(huán)境的變化在去噪度、殘留音樂噪聲和語音畸變度之間自適應(yīng)地折中。實驗表明新算法相對于其他譜減法在相 同的去噪度下,語音畸變度最小且?guī)缀醪煊X不到音樂噪聲。特別是在低信噪比的環(huán)境下,相對其他譜減法的優(yōu)勢 更顯著。關(guān)鍵詞 :無語音概率;平滑系數(shù);人耳掩蔽效應(yīng);語音畸變中圖分類號 :TN912 文獻標識碼 :B 文章編號 :1
2、000-436X(200809-0073-08Improved speech enhancement based on spectralsubtraction and auditory masking effectZHAO Xiao-qun, HUANG Xiao-shan(College of Electronics & Information Engineering, Tongji University, Shanghai 200092, ChinaAbstract: Taking into account the masking properties of human audit
3、ory system and the uncertainty of the speech pres-ence, the novel algorithm modifies the log-spectral amplitude estimation and the speech absence probability (SAP pa-rameter. Then, the smoothing parameters in noise estimation and prior SNR estimation are adaptively adjusted to modi-fied SAP paramete
4、r which reflects the degree of stationary of the measured signal. The change of smoothing parameters allows for automatic adaptation with various noisy environments and obtains the best trade-off. Experimental results demonstrate that the proposed algorithm has better performance of speech articulat
5、ion without any perceptional musical-ity, compared to another modified spectral subtraction algorithms under the same level of noise reduction, and this supe-riority is more significant at very low SNR.Key words: speech absence probability; smoothing parameters; auditory masking effects; speech dist
6、ortion1 引言譜減法以其算法簡單和普適性強在語音增強中 得到廣泛應(yīng)用。近年來,為進一步提高譜減法的性 能, 提出了一系列改進算法 110, 且取得了很好的去 噪效果。目前的研究工作主要集中在如何更準確且 實時地估計噪聲譜、先驗信噪比以及靈活使用無語 音概率的“模糊思想” 。語音和噪聲的非平穩(wěn)性會造 成譜估計的不完全準確,所產(chǎn)生的音樂噪聲嚴重影 響了語音的可懂度。大多語音增強算法在追求減小 噪聲的同時,也導(dǎo)致較嚴重的語音畸變度,盡管噪 聲去除的效果很有效,但語音畸變度很大。所謂語音畸變度也就是引起語音的失真度,實 驗表明,由于人耳對語音的感知是通過語音信號中收稿日期 :2006-10-11
7、; 修回日期 :2008-06-11基金項目 :上海市自然科學(xué)基金資助項目(04ZR14138Foundation Item: The Natural Science Foundation of Shanghai(04ZR14138·74·通 信 學(xué) 報 第 29卷各頻譜分量的幅度獲取的,語音的失真比對一般的 寬帶噪聲更敏感。對各分量的相位則不敏感,所以 語音的失真主要研究的是幅度失真。因此,為達到 滿意的去噪效果,增強算法在去噪度、語音畸變度 和殘留音樂噪聲之間的均衡,一直是譜減法的關(guān)鍵 問題。各種改進的譜減算法 110對減少音樂噪聲起 到了一定的作用,但如何同時減小語音
8、的畸變度, 還沒系統(tǒng)討論過。在各種改進算法中, 平滑系數(shù)的選取和 /或修正 的方法對殘留噪聲、殘留的音樂噪聲及語音畸變度 都有很大的影響。 無論是噪聲譜估計 6,7,11還是語音 譜估計 4,5,810,12,13,其平滑系數(shù)均是根據(jù)實驗取自 固定的經(jīng)驗值。然而,實驗表明先驗信噪比估計中 平滑系數(shù) 和噪聲譜估計中平滑系數(shù)D較小時, 語音畸變和噪聲殘留都較少,但殘留的音樂噪聲顯著;反之, 和D大時,語音畸變和噪聲殘留較 多,但殘留的音樂噪聲較少。所以,對于純噪聲幀 和帶噪語音幀的平滑系數(shù)取值應(yīng)該是不一樣的,較 好的解決辦法是隨語音出現(xiàn)的狀態(tài)而時變,帶噪語 音幀中平滑系數(shù)取較小值,純噪聲幀中平滑系
9、數(shù)取 較大值。至于平滑系數(shù)時變的依據(jù),可根據(jù)每幀功 率變化的大小來確定 14。但該方法突變性大,平滑 系數(shù)取值不夠平滑,會殘留大量原始噪聲;也可基 于人耳掩蔽閾值來確定 15, 該算法直接采用掩蔽閾 值作平滑系數(shù),但掩蔽閾值與平滑系數(shù)相關(guān)性不 大,不能較準確地跟蹤帶噪語音狀態(tài)的時變。 本文的新算法采用經(jīng)人耳掩蔽特性改進后的 SAP 參數(shù)來自適應(yīng)地調(diào)節(jié)平滑系數(shù)。 人耳掩蔽效應(yīng) 最初應(yīng)用于低速率語音編碼,近年來也應(yīng)用于語音 增強 15,16。根據(jù)人耳掩蔽效應(yīng)將帶噪語音狀態(tài)繼續(xù) 分化為噪聲被掩蔽的狀態(tài)和噪聲未被掩蔽的狀態(tài)。 根據(jù)新劃分的不同狀態(tài)來改進 SAP 參數(shù)估計, 再利 用改進的 SAP 參數(shù)
10、自適應(yīng)地調(diào)節(jié)語音平滑系數(shù), 使 得在噪聲能量小于語音掩蔽閾值的被掩蔽狀態(tài), 保 留原帶噪語音, 盡量減小語音畸變; 而在噪聲能量 大于語音掩蔽閾值的未被掩蔽的狀態(tài), 采用譜減法 進行去噪處理。 同時根據(jù) I.Cohen 新提出的語音和 噪聲統(tǒng)計模型 10,利用人耳掩蔽特性對卜凡亮等 人 17提出的在噪聲被掩蔽概率下的語音譜估計增 益進行修正,這樣更符合語音和噪聲的特性,可以 在去噪度、殘留“音樂噪聲”和語音畸變度之間取 得很好的均衡。實驗表明,該算法與其他譜減法相 比,能取得更小的語音畸變,而且能將殘留噪聲和 音樂噪聲控制在人耳掩蔽閾值下,使人的主觀感 覺得到了很大的改善。 由于能在去噪度、
11、殘留 “音 樂噪聲” 和語音畸變度之間自適應(yīng)地折中, 因此, 在低信噪比環(huán)境下,比其他譜減算法 10,14,15優(yōu) 勢更明顯。2 噪聲被語音掩蔽的概率下的譜估計及改進 設(shè) (nx 表示純凈語音信號。 當(dāng) (nx 受到加性噪 聲 (nd 干 擾 后 產(chǎn) 生 帶 噪 語 音 (ny , 則 有 (ndnxny +=。 由于語音信號是短時平穩(wěn)的, 因 此,可用短時傅立葉變換進行分析。設(shè), (klX 、, (klD 、, (klY 分別表示 (x n 、 (d n 、 ( y n的第 l 幀第 k 個頻譜分量,且 , (j , (, (e k l klklAX =, ,(j, (, (e k lklk
12、lRY =; 再 設(shè)(, 2(, E| l kX l kX=和 (, 2(, E|l kD l kD=分別表示 (nx 和 (nd 的第 l 幀第 k 個頻譜分量的方差。本 文 使 用 的 語 音 和 噪 聲 的 統(tǒng) 計 模 型 是 由 I.Cohen 提出的改進模型 9:1 噪聲 (nd 的任一幀、任一頻譜分量, (k lD 是 統(tǒng)計獨立的零均值復(fù)高斯隨機變量,其實部和虛部 相互獨立,且服從同一分布;2 在 , 范圍內(nèi),語音 (nx 的任一幀、任一頻譜分量, (k lX 的相位服從同一均勻分布;3 語音的第 k 個的幅度譜序列 " , , 2(, 1(kkA A是一個隨機過程,且不
13、同譜分量的隨機過程相互獨 立, 即 ", 2(, 1(kkAA 與 ", 2(, 1(kkAA(' kk 是相互 獨立的;4 計算, (klX時, 假定, (klX 是一個零均值的復(fù) 高斯隨機變量,且它的實部和虛部服從同一分布 的;5 方差序列 ", 2(, 1(kkXX是一個隨機過程, 對 特 定 的 l 和 k , (klX與 語 音 譜 幅 度 序 列 ", 2(, 1(kkAA 密切相關(guān), 而在求, (klX時, 假定 , (k l X 與,(klX, (' ll 相互獨立。無語音概率 (SAP的“模糊思想”是把語音的 第 l 幀
14、第 k 個頻 譜分量的 狀 態(tài)分為無 語 音狀態(tài) , (klH 和有語音狀態(tài) , (1klH 2種。在上面的語音模型基礎(chǔ)上, 將有語音狀態(tài) , (1klH 繼續(xù)分為噪聲未被語音掩蔽的狀態(tài) , (0, 1klH 和噪聲被語音掩蔽的狀態(tài) , ( 1, 1klH 。 各狀態(tài)下帶噪語音分別為第 9期 趙曉群等:改進的基于人耳掩蔽效應(yīng)譜減語音增強算法 ·75·(, 0(, (, (, 1,0, , , , , (, 1(, 1,1, , , , , :, :, l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l
15、k H Y D H Y X D D T H H Y X D D T =+>=+ (1 其中,設(shè) , (k l T 是純凈語音第 l 幀第 k 個頻譜分量的掩蔽閾值。由于復(fù)高斯變量的幅度服從 Rayleigh 分布, 則, (k l D 的概率密度函數(shù)可表示為= , ( , (2, ( , ( , (exp 2 (k l k l D k l D k l k l D D D f (2 噪聲的功率譜 , (, k l P D 概率密度函數(shù)可表示為= , (, ( , (, , (, exp 1 (k l k l D k l P D k l P D D f (3 本文采用 Johnston 提出
16、的算法計算掩蔽閾值, (k l T 16,該算法的計算量小于基于線性頻率的估計方法,故得到了廣泛的應(yīng)用。應(yīng)當(dāng)指出,由于目前對人耳聽覺了解有限,所以對于掩蔽閾值 , (k l T 的計算仍有改進的余地。在語音出現(xiàn)的條件下,且 ,(, (, P l k l k D T ,即噪聲被語音掩蔽的狀態(tài) , (1, 1k l H 的概率 , (, th k l p 為(, (, (, (, th,(, 1,11(, ,(, ,(, (|1( d 1exp l k l k l k l k l k l k P l k P l k T D p P H H T f D D =(4 在語音出現(xiàn)的條件下,且 , ( ,
17、 (, k l k l P T D >,即噪 聲未被語音掩蔽的狀態(tài) , (0, 1k l H 的概率 , (, th 1k l p 為= , (, ( , (1 , (0, 1, (, th exp |(1k l Dk l k l k l k l T H H P p (5 2.2 基于語音信號統(tǒng)計模型和人耳掩蔽特性的譜估計最小均方誤差的對數(shù)譜估計 (MMSE-LS更符合人耳的主觀聽覺特性。因此,相對于維納濾波法 和最小均方誤差的短時幅度譜估計法, MMSE-LS 的性能最好 12,13,18。 MMSE-LS 算法簡稱 LS-SAP 法, 其譜增益為 LS MMSE G ,如 13(,
18、(, MMSE LS,(, (, 1exp d 12l k t l k l k l k e G t t =+ (6 其中, 1/( , ( , ( , ( , (k l k l k l k l +=。 , (k l 和 , (k l 分別 為帶噪語音的先驗信噪比和后驗信噪比 =, ( , ( , (/2 , (, ( , (k l k l k l D k l k l D X k l R (7 在模型中,已假設(shè)語音和噪聲信號是統(tǒng)計不相 關(guān)的復(fù)高斯隨機過程,各幀的頻譜分量是復(fù)高斯隨 機變量。因此,在不同狀態(tài)下的條件概率密度函數(shù) 為 (, (, 2(, (, (, 0|1(| exp l k l k
19、 l k l k l k D D Y P Y H =(8 (, (, (, (, 2(, (, (, 1|1(| exp ( l k l k l k l k l k l k l k X D X D Y P Y H =+ (9根據(jù)有語音 , (1k l H 和無語音 , (0k l H 2種狀態(tài), SAP 法 5,6,12將譜估計的增益分為 LS MMSE G 和 min G ,將后驗概率分為有語音概率 , (k l p 和無語音概率 , (1k l p 。然而,在狀態(tài) , (1k l H 條件下,子狀態(tài) , (0, 1k l H 和 , (1, 1k l H 的帶噪語音幅度譜概率密度函數(shù) ,
20、|( , (0, 1 , (1 , (k l k l k l H H Y P 和 , |( , (1, 1 , (1 , (k l k l k l H H Y P 是不同的,本文將對此進行 改 進 。 結(jié) 合 前 面 噪 聲 被 語 音 掩 蔽 的 概 率 和MMSE-LS 譜估計,新算法在 SAP 參數(shù)和譜增益估 計時將語音出現(xiàn)狀態(tài) , (1k l H 按照人耳掩蔽特性繼續(xù)分化為噪聲被掩蔽的狀態(tài) , (1, 1k l H 和噪聲未被掩蔽的 狀態(tài) , (0, 1k l H ,使譜估計更符合實際語音和噪聲模型,能夠在去噪度和語音畸變度之間更好地均衡。1 有語音且噪聲被掩蔽的狀態(tài) , (1, 1k
21、 l H在 , (1, 1k l H 狀態(tài)下, 噪聲被語音掩蔽。 人耳感覺不 到噪聲的存在,無須對帶噪語音進行處理,因此, 沒有語音畸變度。此狀態(tài)的后驗譜增益為 1,即(1,0,(, (, exp Eln1l k l k A R = (10其中, , (, 0, 1k l A 是在 , , , (1, 1 , (1, (k l k l k l H H Y 狀態(tài)下對語音 的幅度譜的估計。設(shè)后驗語音出現(xiàn), 且被掩蔽的概率為 p 1,(l,k , 無語音狀態(tài)的先驗概率為 (, 0(, ( l k l k P H q =。根據(jù)貝葉 斯定理,并結(jié)合式 (4,有·76·通 信 學(xué) 報
22、第 29卷(, (, 1,(, 11,1(, (, (, (, (, (, (, 11,11,111(, (, (, (, 11,1th,(, (, (, (, (, (, 00(, 11, |(|, (| (|, (1 (| ( (| (l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k p P H H Y p YH H P H H P H P Y p Y H H p q p Y H P H p Y H P H =+, l k (11 其中(, (, (, (, (, (, 1
23、1,12(, (, 1(|, |exp , min, l k l k l k l k l k l k X D l k D D l k X DP Y H H Y T =+=+(122 有語音且噪聲未被掩蔽的狀態(tài) , (0, 1k l H人耳能感覺到噪聲的存在,采用譜減法去除噪聲。此狀態(tài)的后驗譜增益為(, 1,1,(, MMSE LS,(, (, (, (, expEln1exp d 12l k l k l k l k t l k l k A G R e t t =+ (13其中, , (, 1, 1k l A 是在 , , , (0, 1 , (1, (k l k l k l H H Y 狀態(tài)下
24、對語音 的幅度譜的估計。設(shè)后驗語音出現(xiàn) , 且未被掩蔽的概率為 , (, 0k l p ,此時,語音狀態(tài)的先驗概率為 , ( , (11 (k l k l q H P =, 且 , (, 0k l p 為(, (, 0,(, 11,0(, (, (, (, (, (, (, 11,01,011(, (, (, (, 11,0th,(, (, (, (, (, (, 00(, 1(, |(|, (| (|, (1(1(| ( (| l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k l k
25、 p P H H Y p Y H H P H H P H P Y p Y H H p q p Y H P Hp Y H P =+(, 1(l k H(14 其中(, (, (, (, (, (, 11,02(, (, 1(|, ( |exp , max, l k l k l k l k l k l k X Dl k DD l k X DP Y H H Y T =+=+(15由式 (11式 (15可得,語音出現(xiàn)的后驗概率 |( , ( , (1k l k l Y H P 為, (, 1 , (, 0 , ( , ( , (1 |(k l k l k l k l k l p p p Y H P +
26、= (16 3 無語音狀態(tài) , (0k l H在語音增強過程中,人耳對完全的無聲狀態(tài)并不感覺舒適。經(jīng)驗表明,在處理純噪聲部分,此狀 態(tài)的后驗譜增益取一個固定經(jīng)驗值為0,(, min (, expElnl k l k A G R = (17 其中, , (, 0k l A 是在 , , (0, (k l k l H Y 狀態(tài)下對語音的幅度 譜的估計。此狀態(tài)下的后驗無語音概率為, (, 1 , (, 0 , ( , (1 , (, (01 |(1 |(k l k l k l k l k l k l p p Y H P Y H P = (18通過上述 3個狀態(tài)的分析,本文提出新的改進的譜估計,其增益
27、 , (, AD LS k l G 定義為(, LS AD,(, (, expElnl k l k l k A G R =(19根據(jù)概率論, (, Elnl k A 可表示為 (, Elnl k A (, (, 1,0,(, 11,0(, Eln, |l k l k l k l k A P H H Y =+ (, (, 1,1,(, 11,1(, (, 0,(, 0(, Eln, | Eln|l k l k l k l k l k l k l k A P H H Y A P H Y +(20考慮到式 (11、式 (14和式 (18,式 (20可寫為 (, Elnl k A =1,0,(, 0,
28、(, Elnl k l k A p +1,1,(, 1,(, 0,(, 0,(, 1,(, ElnEln(1 l k l k l k l k l k A p A p p + (21將式(21代入式 (19,注意到式 (10、式 (11和式 (17,經(jīng)整理得, ,(0, ,(1, ,(0, (LS, MMSE 1min , (, AD LS k l k l k l pk l p pk l G G G = (22 3 基于人耳掩蔽效應(yīng)改進的 SAP 參數(shù)的平滑系數(shù)自適應(yīng)變化去噪度和語音畸變度、殘留“音樂噪聲”度不 可能同時優(yōu)化, 因此, 先驗信噪比 和噪聲譜 , (k l D 的估計分別使用了平滑
29、系數(shù) , (k l 和 (, l k D 。平滑系 數(shù)的取值對去噪度和語音畸變度影響很大。例如, 在估計 時平滑系數(shù) 是在跟蹤語音變化的準確 度和 的平滑度之間權(quán)衡,即在語音畸變度和殘留 音樂噪聲度之間折中; 的標準方差(的平滑度影響音樂噪聲的大小 隨 1增大而增大, 即隨著 第 9期 趙曉群等:改進的基于人耳掩蔽效應(yīng)譜減語音增強算法 ·77· 的增大, 越不平滑。又如,在 MMSE 譜估計中, 當(dāng)語音出現(xiàn)時,增益從 min G 迅速增大為 , ,(LS MMSE k l G , 變化的延遲也隨 的增大而增大,而且延遲越大, 過渡段的語音畸變越大。上述結(jié)論可參見圖 1。圖
30、1 同一段帶噪語音在不同平滑系數(shù)下的 , 的對比帶噪語音的變化程度稱為“平穩(wěn)度” ,平滑系數(shù)依據(jù)“平穩(wěn)度”自適應(yīng)變化。因此,選取一個可靠的平穩(wěn)度參數(shù)是至關(guān)重要的。Casual 和 Noncasual 法 97之所以比 LS-SAP 法 13好, 主要就是它們考慮相鄰 幀的信息,更符合語音信號的慢時變特性;另外, LS-SAP 法 中 平 滑 系 數(shù) 是 固 定 值 , Casual 和 Noncasual 法中平滑系數(shù) 22141 (11+=l D l l A A l , 相當(dāng)于平滑系數(shù)時變的 LS-SAP 法,它與各幀的先 驗信噪比成反比,這正符合了平滑系數(shù)的時變思 想,即用先驗信噪比作為平
31、穩(wěn)度參數(shù)。但該算法只 對譜增益中的平滑系數(shù)進行了時變,并未對噪聲譜估計中平滑系數(shù)進行處理。T.F.Quatieri 、 R.A.Baxter (簡稱 TR 法采用各幀之間的頻譜差作為平穩(wěn)度 來反應(yīng)語音的變化 14。 實驗表明, 用于平滑系數(shù)的 自適應(yīng)變化相對于固定的參數(shù)算法所得到的去噪 語音的畸變度和“音樂噪聲”都要小;盡管去噪度 稍微弱些,但總體來說,人耳的主觀感覺要好,特 別是在語音開始和結(jié)尾處的過渡段保留較好,提高 了可懂度。但由于帶噪語音具有突變的特性,采用 TR 法進行平滑系數(shù)的自適應(yīng)變化會有一些突變的 部分,使得平滑系數(shù)的變化不夠平滑。此外, Virag 直接利用人耳的掩蔽閾值針對
32、一般譜減法的系數(shù) 進行了時變 15,取得較好的效果 (后面簡稱 NV 法 , 但是 NV 法的平滑系數(shù)的變化不是很符合帶噪語音 的狀態(tài)變化,只是簡單地將平滑系數(shù)與人耳的掩蔽 閾值結(jié)合考慮。下面本文依據(jù) 2.2節(jié)提出的 3個狀 態(tài),對帶噪語音在各種狀態(tài)中的平滑系數(shù)變化進行 分析。1 無語音狀態(tài) , (0k l H 后驗語音出現(xiàn)的概率 , (k l p 小, 則后驗語音出現(xiàn) 噪聲被掩蔽的概率 , (, 1k l p 和未被掩蔽的概率 , (, 0k l p 也都很小。此時,需要很好地跟蹤噪聲的變化,而 無需跟蹤語音,即減少語音譜估計中先驗信噪比的 方差,減少聽覺感知的“音樂噪聲” , , (k l
33、 D 需取較 小值, , (k l 取最大值 1。 , (k l D 和 , (k l 的更新為=+=min , 1(, (2, ( 1( , ( , ( , ( , (k l k l k l D D D D R k l k l k l k l (23 2 有語音且噪聲未被掩蔽的狀態(tài) , (0, 1k l H后驗語音出現(xiàn)概率 , (k l p 大, 則后驗語音出現(xiàn)噪聲未被掩蔽的概率 , (, 0k l p 較大,后驗語音出現(xiàn)噪聲 被掩蔽的概率 , (, 1k l p 很小。既需要很好地跟蹤噪聲 的變化,同時也需要跟蹤語音,噪聲估計和先驗信 噪比都需要實時更新。在該狀態(tài)需要在進行譜減法 的同時,
34、盡量減小語音畸變度,將殘留噪聲和“音 樂噪聲”抑制在掩蔽閾值之下。 , (k l 和 , (k l D 需要 根據(jù)具體情況在 , , max , min , max min D D 范圍內(nèi) 自適應(yīng)變化。 , (k l D 和 , (k l 的更新表示為+=+=0, 1max 1( 1( , ( , ( , 1( , (, (2, ( , ( , ( , ( , (k l k l k l k l k l k l D D D D R k l k l k l k l (24 3 有語音且噪聲被掩蔽的狀態(tài) , (1, 1k l H后驗語音出現(xiàn)概率 , (k l p 大, 則后驗語音出現(xiàn)噪 聲未被掩蔽的
35、概率 , (, 0k l p 很小,后驗語音出現(xiàn)噪聲 被掩蔽概率 , (, 1k l p 較大。由于噪聲被語音掩蔽時人 耳感知不到,故無須跟蹤噪聲譜和進行譜減處理, 因此沒有語音畸變。此時,僅需要跟蹤語音,實時更新先驗信噪比估計, (k l 需取較小值, , (k l D 取 1。 , (k l 和 , (k l D 的更新表示為+=0, 1max 1( , ( , ( , 1( , (, (, 1( , (k l k l k l k l k l D D k l k l (25 可見, 噪聲估計平滑系數(shù) , (k l D 隨著語音出現(xiàn),·78· 通 信 學(xué) 報 第 29 卷
36、 且噪聲被語音掩蔽的概率增大(即掩蔽閾值的增加 而增大;先驗信噪比平滑系數(shù) ( l ,k 隨著語音出現(xiàn)而 減小??梢娖交禂?shù)的變化規(guī)律與語音出現(xiàn)概率及 噪聲被語音掩蔽的概率有密切聯(lián)系。而且改進后的 SAP 參數(shù)是根據(jù)人耳掩蔽特性、信號模型,并利用 IMCRA 法 7 的最小二次迭代法求出的,結(jié)合了相鄰 幀信息, 能準確地反映出語音各個狀態(tài)的變化。 因此, ( l ,k 采用后驗語音出現(xiàn)概率 P( H 1 | Y( l ,k = p( l ,k ,作為 采用 先驗信噪比估計中平滑系數(shù) (l , k 的平穩(wěn)度, 后驗語音出現(xiàn)且噪聲被語音掩蔽概率 p1, (l , k 為噪 聲譜估計中平滑系數(shù) D(
37、 l , k 的平穩(wěn)度。根據(jù)各類 信噪比的環(huán)境下的實驗得出, 平滑系數(shù)上閾值取 max = 0.98 ,下閾值取 min = 0.25 。將各概率值歸 整到范圍 min , max 內(nèi),采用下面歸整公式 D = f (lmin D,max , max D,min , sin 2N k p1,(l,k i Bark i (26 ( l ,k (l,k = f (lmin max , max min , cos p(l,k 2Ni kBark i (27 其中, f (l 是為了使平滑系數(shù)不產(chǎn)生劇烈突變所 加的因果平滑濾波器; N i 是頻帶 Bark i 里總的頻譜 分量數(shù)。LS-AD 算法的流
38、程圖如圖 2 所示。 圖 2 LS-AD 算法流程 4 實驗結(jié)果及評價 SNRseg 純凈語音取自標準語音庫的一段男聲 (male : “從經(jīng)濟型轎車到越野型轎車,車市主題一年一 變” 。噪聲取自 Noisex 92 的白(white噪聲、坦克噪 聲(M109、飛機駕駛倉噪聲 (F16。將它們合成信 噪比為 10 5dB 的帶噪語音( 16kHz 采樣, 512 點分幀, 點重疊) 將 I.Cohen 的 Casual 法 256 。 (因 為 Noncasual 法與 Casual 法的區(qū)別僅在某些突變 、 處,所以這里就只對比 Casual 法) T.F.Quatieri 的 TR 法、E
39、phraim 的 LS-SAP 法以及本文提出的 LS-AD 法進行比較,并從主觀和客觀評價分別進 行討論。 客 觀 評 價 常 用 分 段 信 噪 比 ( SNRseg 和 Itakura-Saito 距離( d IS 。公式如下 M x(i M + n 2 1 n=0 = 10 log M (28 L i =0 2 x(i M + n x(i M + n n=0 L 1 d IS = 1 L 1 L l =1 N 2 log 2 N /2 k =1 X (l , k × 2 X (l , k (29 (l , k k =1 (l , k X N N /2 X 其中,x(n 和 x
40、(n 分別是純凈語音和去噪后語音的 時域信號, X 和 X 分別是 x (n 和 x(n 分幀并 ( l ,k ( l ,k 經(jīng)短時傅立葉變換后的第 l 幀第 k 個頻譜分量。 由于 LS-AD 算法保留低于語音掩蔽閾值的噪 聲,這樣盡管在主觀感覺效果很好,但 SNRseg 上未 能見有任何優(yōu)勢。因此,客觀評價上只討論 d IS 。 圖 3 比較了各種噪聲環(huán)境下的 4 種算法,可見 第9期 趙曉群等:改進的基于人耳掩蔽效應(yīng)譜減語音增強算法 ·79· Casual 法、 TR 法、 LS-AD 法明顯優(yōu)于最原始的 LS-SAP 法。 仔細觀察發(fā)現(xiàn) LS-AD 法去噪后的語音在
41、 保留了許多低于掩蔽噪聲閾值的噪聲情況下,其 d IS 仍能與 Casual 法、TR 法的 d IS 值很相近;且隨著信 噪比的降低,其值越相近,即效果越好。這充分說明 LS-AD 處理后的語音最為逼近原始語音, 即語音失真 度最小。通過圖 4 的語譜圖更能充分說明這點。 時間/s (a M109 0dB LS-AD 法增強后 時間/s (b M109 0 dB Casual 法增強后 (a 坦克 M109 環(huán)境下 時間/s (c M109 -5 dB LS-AD 法增強后 時間/s (d M109 -5 dB Casual 法增強后 (b 白噪聲環(huán)境下 時間/s (e 白噪聲 0 dB L
42、S-AD 法增強后 時間/s (f 白噪聲 0 dB TR 法增強后 (c F16 環(huán)境下 圖 3 帶噪語音處理后的 IS 距離比較 從圖 4 看出, 在語音集中的 01 000Hz 頻段內(nèi), LS-AD 法的語音保留最多, 特別語音的起始和結(jié)尾 處,這一部分較多為清音,對語音的可懂度影響較 大。雖然可以看出 LS-AD 殘留了很多的噪聲,但 是這些噪聲是基于人耳掩蔽閾值保留下來的,因 此,對語音可懂度的影響較小,而且?guī)缀鯖]有孤立 的頻點存在于掩蔽閾值外,即感覺不到“音樂噪 聲” 這些通過主觀聽覺感受都能證明。 , 所以 LS-AD 法相對于 Casual 法、TR 法、LS-SAP 法語音畸
43、變度 時間/s (g 白噪聲 -5 dB LS-AD 法增強后 時間/s (h 白噪聲 -5 dB TR 法增強后 圖4 帶噪語音經(jīng)各算法增強后的語譜 ·80· 通 信 學(xué) 報 6 第 29 卷 COHEN I, BERDUGO B. Noise estimation by minima controlled recursive averaging for robust speech enhancementJ. IEEE Signal Processing Letters, 2002, 9(1: 12-15. 最小,而且通過主觀感覺不到殘留“音樂噪聲”和 噪聲, 在這三者之
44、間能找到很好的折中。 運算量上, LS-AD 法相對于 LS-SAP 法就多一個掩蔽閾值計 算,而且 LS-AD 的先驗信噪比估計不用 Casual 和 Noncasual 法中的迭代運算, 運算量和 NV 法、 Casual 法相當(dāng)。 LS-AD 法與 NV 法之間的比較通過主觀聽 原因有 2 覺能明顯地察覺出 LS-AD 法優(yōu)于 NV 法, 個:LS-AD 法采用的是 Ephraim 提出的 MMSE-LS 譜估計; LS-AD 中平滑系數(shù)的自適應(yīng)變化不僅僅只 基于人耳掩蔽閾值,同時也考慮了無語音概率參數(shù) ,更符合帶噪語音信號的模型。 (SAP) 7 COHEN I. Noise spec
45、trum estimation in adverse environments: improved minima controlled recursive averagingJ. IEEE Transactions on Speech and Audio Processing, 2003, 11(5:466-475. 8 9 COHEN I. On the decision-directed approach of ephraim and malahA. IEEE International Conference on ICASSPC. 2004.293-296. COHEN I. Speec
46、h enhancement using a noncasual a priori SNR estimatorJ. IEEE Signal Processing Letters, 2004, 11(9: 725-728. 10 COHEN I. Relaxed statistical model for speech enhancement and a priori SNR estimationJ. IEEE Transactions on Speech and Audio Processing, 2005,13(5: 870-881. 11 MARTIN R. Spectral subtrac
47、tion based on minimum statisticsA. Proc Eur Signal Processing ConfC. 1994. 1182-1185. 12 EPHRAIM Y, MALAH D. Speech enhancement using a minimum mean square error short-time spectral amplitude estimatorJ. IEEE Transactions on Acoustics, Speech, and Signal Processing, 1984, 32(6: 1109-1121. 13 EPHRAIM
48、 Y, MALAH D. Speech enhancement using a minimum mean square error log-spectral amplitude estimatorJ. Transactions on Acoustics, Speech, and Signal Processing, 1985, 33(2.443-445. 14 QUATIERI T F, BAXTER R A. Noise reduction based on spectral changeA. IEEE ASSP Workshop on Applications of Signal Proc
49、essing to Audio and AcousticsC. 1997.19-22. 15 VIRAG N. Signal channel speech enhancement based on masking properties of the human auditory systemJ. IEEE Transactions on Speech and Audio Processing, 1999, 7(2: 126-137. 16 JOHNSTOM J D. Transform coding of audio signals using perceptual noise criteriaJ. IEEE J Selected Areas Communication, 1988,6(2:314-323. 17 卜凡亮,王為民,戴啟軍等. 基于噪聲被掩蔽概率的優(yōu)化語音增強 方法J. 電子與信息學(xué)報, 2005, 27(5: 753-756. PU F L, WANG W M, DAI Q J, et al. Optimizing speech
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度智慧城市項目訂購合同
- 二零二五年度綠色環(huán)保融資擔(dān)保與銀行生態(tài)合作框架合同
- 2025年度高品質(zhì)家居定制木工制作及安裝合同3篇
- 2025年度特色商業(yè)街區(qū)租賃管理服務(wù)合同4篇
- 2025年度鋼材市場分析及咨詢服務(wù)合同范本
- 二零二五年度新能源汽車電池買賣合同范本
- 2025年度解除終止運輸合同模板二零二五年度
- 2025年度高新技術(shù)企業(yè)研發(fā)項目連帶擔(dān)保合同
- 2025年度環(huán)保節(jié)能設(shè)備購銷合同違約金賠償標準及節(jié)能減排目標
- 2025年度校園門衛(wèi)安全管理與服務(wù)合同
- 智能衣服方案
- 李克勤紅日標準粵語注音歌詞
- 教科版六年級下冊科學(xué)第一單元《小小工程師》教材分析及全部教案(定稿;共7課時)
- 中藥材產(chǎn)地加工技術(shù)規(guī)程 第1部分:黃草烏
- 危險化學(xué)品經(jīng)營單位安全生產(chǎn)考試題庫
- 案例分析:美國紐約高樓防火設(shè)計課件
- 老客戶維護方案
- 移動商務(wù)內(nèi)容運營(吳洪貴)任務(wù)一 用戶定位與選題
- 2021年高考化學(xué)真題和模擬題分類匯編專題20工業(yè)流程題含解析
- 工作證明模板下載免費
- (完整word)長沙胡博士工作室公益發(fā)布新加坡SM2考試物理全真模擬試卷(附答案解析)
評論
0/150
提交評論