(電路與系統(tǒng)專業(yè)論文)基于卡爾曼濾波的語音增強(qiáng)算法研究(1)[電路與系統(tǒng)專業(yè)優(yōu)秀論文].pdf_第1頁(yè)
(電路與系統(tǒng)專業(yè)論文)基于卡爾曼濾波的語音增強(qiáng)算法研究(1)[電路與系統(tǒng)專業(yè)優(yōu)秀論文].pdf_第2頁(yè)
(電路與系統(tǒng)專業(yè)論文)基于卡爾曼濾波的語音增強(qiáng)算法研究(1)[電路與系統(tǒng)專業(yè)優(yōu)秀論文].pdf_第3頁(yè)
(電路與系統(tǒng)專業(yè)論文)基于卡爾曼濾波的語音增強(qiáng)算法研究(1)[電路與系統(tǒng)專業(yè)優(yōu)秀論文].pdf_第4頁(yè)
(電路與系統(tǒng)專業(yè)論文)基于卡爾曼濾波的語音增強(qiáng)算法研究(1)[電路與系統(tǒng)專業(yè)優(yōu)秀論文].pdf_第5頁(yè)
已閱讀5頁(yè),還剩73頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

(電路與系統(tǒng)專業(yè)論文)基于卡爾曼濾波的語音增強(qiáng)算法研究(1)[電路與系統(tǒng)專業(yè)優(yōu)秀論文].pdf.pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

摘要 摘要 隨著現(xiàn)代通信技術(shù)的迅速發(fā)展和計(jì)算機(jī)的普及,語音通信已經(jīng)成為了現(xiàn)代 信息社會(huì)最重要的信息交流手段之一。實(shí)際通信中語音信號(hào)總會(huì)受到各種環(huán)境 噪聲的干擾,導(dǎo)致語音質(zhì)量下降,使通話質(zhì)量和語音處理系統(tǒng)的性能下降甚至 失效。這種情況下,有必要采用語音增強(qiáng)技術(shù)抑制背景噪聲,提高語音通信質(zhì) 量。語音增強(qiáng)可以應(yīng)用于多媒體語音通信、有線、無線語音通信、語音編碼、 助聽設(shè)備、魯棒性語音識(shí)別和多模態(tài)入機(jī)交互、口語對(duì)話等領(lǐng)域。 卡爾曼濾波器是均方誤差最小意義下的最優(yōu)線性估計(jì)器,具有處理非平穩(wěn) 信號(hào)的能力。基于卡爾曼濾波的語音增強(qiáng)算法結(jié)合了語音的生成模型,利用語 音的線性預(yù)測(cè)系數(shù)構(gòu)成狀態(tài)轉(zhuǎn)移矩陣,增強(qiáng)后語音中殘留的音樂噪聲較少???爾曼濾波器具有處理多狀態(tài)系統(tǒng)的能力,適合于非平穩(wěn)噪聲干擾下的語音增強(qiáng)。 本文對(duì)基于卡爾曼濾波的語音增強(qiáng)方法進(jìn)行了深入研究,主要做了以下工作: 1 深入地研究了卡爾曼濾波理論及其在語音增強(qiáng)中的應(yīng)用,針對(duì)卡爾曼濾 波器存在的發(fā)散現(xiàn)象,給出了平方根卡爾曼濾波方法。 2 針對(duì)卡爾曼濾波器需要語音的線性預(yù)測(cè)系數(shù)構(gòu)造狀態(tài)轉(zhuǎn)移矩陣,討論了 噪聲環(huán)境下線性預(yù)測(cè)系數(shù)提取的方法。深入研究基于語音活動(dòng)檢測(cè)和最小值統(tǒng) 計(jì)跟蹤的噪聲功率譜估計(jì)方法。實(shí)驗(yàn)表明,最小值統(tǒng)計(jì)跟蹤方法能夠更好的估 計(jì)噪聲功率譜,與譜減算法結(jié)合時(shí)能有效的增強(qiáng)語音。并且利用聲道的慢變特 性平滑語音的線性預(yù)測(cè)系數(shù),能夠進(jìn)一步減少增強(qiáng)語音中的殘留孤立噪聲。 3 針對(duì)傳統(tǒng)的卡爾曼濾波語音增強(qiáng)算法對(duì)語音建立由白噪聲激勵(lì)的a r 模 型,忽略了濁音段語音的激勵(lì)信號(hào)具有明顯的周期性,本文對(duì)語音建立清濁音 模型,提出一種結(jié)合多脈沖激勵(lì)的卡爾曼濾波語音增強(qiáng)算法,在濁音段的語音 狀念方程中加入多脈沖激勵(lì)信號(hào),重建語音的高頻諧波。實(shí)驗(yàn)結(jié)果表明,本文 算法能夠更好地提高語音質(zhì)量,改善增強(qiáng)效果。 關(guān)鍵詞:語音增強(qiáng)卡爾曼濾波噪聲功率譜估計(jì)語音的清濁音模型 多脈沖激勵(lì) a b s t r a c t a b s t r a c t w i t ht h ed e v e l o p m e n to fc o m m u n i c a t i o nt e c h l l o l o g ya i l dt h ep o p u l a r i z a t i o no f p e r s o n a lc o m p u t e r s p e e c hc o m m u n i c a t i o nh a sb e c o m eo n eo ft h em o s ti m p o n a r l t t e c h n j q u e so ft h ei n f o n n a t i o ne x c h a n g e i nt h er e a lw o r l dc o m m u n i c a t i o n ,t h es p e e c h s i g n a li si n e v i t a b l yc o r r u p t e db ye n v i r o r u n e n t a ln o i s e ni sl e a d i n gt os p e e c hq u a l i t y d e c l i n ea n dt h ep e r f i o m a n c eo fs p e e c hp r o c e s ss y s t e m sd e g r a d e d ni sn e c e s s a r yt 0 u s es p e e c he n h a n c e m e n tt e c h n o l o g yt or e d u c em eb a c k g r o u n dn o i s ea n d i m p r o v et h e q u a i i t y o fs p e e c h s i g n a l s p e e c he n h a n c e m e mt e c h n o l o g yh a sb e e na p p l i e dt 0 m u i t i m e d i as p e e c hc o m m u n i c a t i o n ,c a b l e ,謝r e l e s ss p e e c hc o m m u n i c a t i o n s ,s p e e c h c o d i n g ,h e a r i n ga i d se q u i p m e n t ,r o b u s ts p e e c hr e c o g n i t i o n 觚do t h e r 矗e l d s k a l m a n6 h e ri sa no p t i m a ll i n e a re s t i m a t o ri nt h em i n i m 啪m e a l ls q u a r ee 1 1 r o r ( m m se ) c r i t e r i o n ,w i t hn o n - s t a t i o n a r ys i g l l a lp r o c e s s i n gc a p a c i t ) ,i tm l f i l l st l l e c h a r a c t e r i s t i c so fs p e e c ha n di n t e g r a t e sw i t l ls p e e c hg e n e r a t i o nm o d e l i ti si nl i n e w i t ht h ec h a r a c t e r i s t i c so fv o i c ea n dt h ev o i c eo fag e n e r a t i o nm o d e l ,u s i n gs p e e c h l i n e a rp r e d i c t i o nc o e 瓶c i e mt oc o m p o s es t a t et r i m s f e rm 撕x a tt l l es 鋤et i m e , k a l m a nf i l t e rh a sad e a lw i t hm u l t i s t a t es y s t e m sc a p a c i t ) ,i ti sa p p r o p r i a t ef o r s p e e c he n h a n c e m e n ti nn o n s t a t i o n a r yn o i s ee n v i r o n m e n t t 1 1 ee l l l l a i l c e ds p e e c hh a s l e s sr e s i d u a lm u s i cn o i s ea n db e t t e rq u a l i t y i nt h i sm e s i s ,as p e e c he n h a n c e m e n t s y s t e mb a s eo nk a l m a nf i l t e r i n gi ss t u d i e d ,f o l l o w i n gi st h em a i nw o r ko ft h i st h e s i s : 1 k a l m a n6 l t e r i n gt h e o r ) ,a 1 1 di t sa p p l i c a t i o ni ns p e e c he r 血a n c e m e n tt e c h n o l o g yi s s t u d i e d w ed e s c r i b e dt h ed i v e r g e n c eo fk a l m a i lf i l t e ra 1 1 dg a v ea ns q u a r r e - r o o t c o v a r i a n c ek a l m a nf i l t e rt om a k et h ea l g o r i t h ms t a b l e 2 k a l m a n 行l(wèi) t e rn e e d st oe x t r a c ts p e e c hl p cc o e 伍c i e m st 0c o r n p o s es t a t et r a l l s f e r m a t r i x t w on o i s ep o w e rs p e c t r a ld e n s i t ye s t i m a t i o na l g o r i t l l i i l si sc l o s e l ys t u d i e d i n t h i sp a p e r ,t h eo n ei sb a s e do nv o i c ea c t i v i t ) rd e t e c t o r s ( v a d ) a n dt h eo t h e ri s b a s e do nm i n i m u ms t a t i s t i c a lt r a c k i n g ( m s ) a l g o r i t h m s i m u l a t i o nr e s u l t ss h o w t h a tn o i s ep o w e rs p e c t r a ld e n s i t ye s t i m a t e df r o mt h em sa l g o r i t h mi sm o r e p r e c i s e w eu s et h ec h a r a c t e r i s t i c so ft h ev o c a lt r a c tp a r 鋤e t e rv a r y i n gs l o w l yt 0 s m o o t hl p cc o e m c i e n t s i tc o u l df u r t h e rr e d u c et 1 1 ei s o l a t e dr e s i d u a ln o i s ei n e n h a n c e ds p e e c h 3 a u t o r e g r e s s i v e ( a r ) m o d e lh a sb e e nu s e df o rt h ec o m m o nm o d e lo fs p e e c h e n h a n c e m e n ta lg o r i t h mb a s e do nk a l m a nf i l t e r i n g g e n e r a l l y ,a rp r o c e s si s e x c i t e db yw h i t en o i s e ,i g n o r e st h eq u a s i - p e r i o d i ce x c i t a t i o nd u r i n gt h ev o i c e d ab s t r a c t s p e e c hf r a m e ss i n c et h eq u a s i p e “o d i ce x c i t a t i o nh a sg r e a ti m p a c ti ne n h a n c et h e h a r m o n i c i n t h i sp a p e r 、v ep r o p o s e dav o i c e d u n v o i c e d s p e e c hm o d e l - a n d m u l t i p i u s ei 。i n e a rp r e d i c t i v ec o d i n gi si n t r o d u c e df o rr o b u s te s t i m a t i o no ft h e m u l t i p l u s ee x c i t a t i o n i nv o i c e df r a m e s e x p e r i m e n t a l r e s u l t ss h o wt h a tt h e p r o p o s e da l g 【) r i t h ma c h i e v e sc o n s i s t e n ti m p r o v e m e n ti no u t p u ts p e e c hq u a i i t y 1 e y w o r d s : s p e e c he n h a n c e m e n t k a l m a nf i l t e r i n g ,n o i s ep o w e rs p e c t r a l e s t i m a t i o n , v o i c e d u n v o i c e ds p e e c hm o d e l , m u l t i - p u l s ee x c i t a t i o n i v 論文原創(chuàng)性和授權(quán)使用聲明 本人聲明所呈交的學(xué)位論文,是本人在導(dǎo)師指導(dǎo)下進(jìn)行研究工 作所取得的成果。除已特別加以標(biāo)注和致謝的地方外,論文中不包 含任何他人已經(jīng)發(fā)表或撰寫過的研究成果。與我一同工作的同志對(duì) 本研究所做的貢獻(xiàn)均已在論文中作了明確的說明。 本人授權(quán)中國(guó)科學(xué)技術(shù)大學(xué)擁有學(xué)位論文的部分使用權(quán),即: 學(xué)校有權(quán)按有關(guān)規(guī)定向國(guó)家有關(guān)部門或機(jī)構(gòu)送交論文的復(fù)印件和電 子版,允許論文被查閱和借閱,可以將學(xué)位論文編入有關(guān)數(shù)據(jù)庫(kù)進(jìn) 行檢索,可以采用影印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論 文。 保密的學(xué)位論文在解密后也遵守此規(guī)定。 作者簽名:塑查 加8 年歹月2 日 第一章緒論 1 1 課題背景 第一章緒論 語音作為語占的聲學(xué)表現(xiàn),是人類交流信息最自然、最有效、最方便的手段 之一。隨著現(xiàn)代通信技術(shù)的迅速發(fā)展,語音通信已經(jīng)成為現(xiàn)代信息時(shí)代最重要的 信息交流手段之一,實(shí)際通信中語音總會(huì)受到各種環(huán)境噪聲的干擾,這些噪聲包 括從周圍環(huán)境、傳輸媒質(zhì)中引入的噪聲、電氣設(shè)備的噪聲以及其他說話人的干擾 等等。環(huán)境噪聲會(huì)影響語音通信,導(dǎo)致語音質(zhì)量下降,使通話質(zhì)量和語音處理系 統(tǒng)的性能下降甚至失效。例如語音識(shí)別系統(tǒng)在實(shí)驗(yàn)室環(huán)境中可取得相當(dāng)好的效 果,但在噪聲環(huán)境中,系統(tǒng)的識(shí)別率將受到嚴(yán)重的影響;基于語音生成模型的低 速語音編碼同樣會(huì)受到噪聲的影響,當(dāng)語音受到嚴(yán)重干擾時(shí),提取的模型參數(shù)將 很不準(zhǔn)確,重建的語音質(zhì)量急劇惡化。 在噪聲環(huán)境下,要提高語音質(zhì)量或語音識(shí)別率,就需要對(duì)帶噪語音信號(hào)進(jìn) 行語音增強(qiáng)處理,盡可能降低背景噪聲和提高通話語音的質(zhì)量。因此,語音增 強(qiáng)技術(shù)有著非常廣泛的應(yīng)用前景,可以應(yīng)用于多媒體語音通信、有線、無線語 音通信、語音編碼、助聽設(shè)備和魯棒性語音識(shí)別、多模態(tài)人機(jī)交互、口語對(duì)話 等領(lǐng)域。 1 2 語音特性、入耳感知特性和噪聲特性 語音和噪聲的特性是研究語音增強(qiáng)的基礎(chǔ),下面分別加以介紹。 1 2 1語音特性 語音是時(shí)變的、非平穩(wěn)的隨機(jī)過程。但由于生理器官變化速度有限,在一段 時(shí)| 日j 內(nèi)( 1 0 3 0 m s ) 可以認(rèn)為人的聲帶和聲道等特征基本不變,語音的短時(shí)譜具有 相對(duì)穩(wěn)定性,認(rèn)為語音信號(hào)是準(zhǔn)平穩(wěn)的隨機(jī)過程。在語音分析處理中,可利用短 時(shí)譜的這種平穩(wěn)性。 根據(jù)語音產(chǎn)生的激勵(lì)信號(hào)不同,語音可分為清音和濁音兩大類。濁音在時(shí)域 上呈現(xiàn)出明顯的周期性,在頻域上有共振峰結(jié)構(gòu),而且能量大部分集中在較低頻 段內(nèi)。而清音段沒有明顯的時(shí)域和頻域特征,類似于白噪聲。語音信號(hào)作為一個(gè) 隨機(jī)過程可以利用許多統(tǒng)計(jì)分析特征進(jìn)行分析。但由于語音信號(hào)是非平穩(wěn)的,因 1 第一蘋緒論 此長(zhǎng)時(shí)川時(shí)域統(tǒng)計(jì)特性對(duì)語音增強(qiáng)算法的意義不大。語音的短時(shí)譜幅度統(tǒng)計(jì)特征 造| 時(shí)變的只f j ? j 分析幀長(zhǎng)趨于無窮大時(shí),才近似具有高斯分布。在高斯模型的 似沒 l ,n r 以認(rèn)為傅利葉展開系數(shù)是獨(dú)立的高斯隨機(jī)變量,均值為零,而方差是 h ,堅(jiān)的, 1 2 2 人耳感知特性 語音增強(qiáng)的最終效果度量是人耳的主觀感覺,人耳對(duì)語音的感知特性對(duì)語 音增強(qiáng)的研究有重要作用。語音感知問題涉及到生理學(xué)、心理學(xué)、聲學(xué)和語音 學(xué)等諸多領(lǐng)域,已有的研究表明人耳對(duì)語音的感知主要是通過語音信號(hào)頻譜分 量幅度獲得的,對(duì)相位譜則不i 敏感。人耳對(duì)頻率高低的感受近似與該頻率的對(duì) 數(shù)值成正比。人耳有掩蔽效應(yīng)即強(qiáng)信號(hào)對(duì)弱信號(hào)有掩蓋的抑制作用,掩蔽的程 度是聲音強(qiáng)度與頻率的二元函數(shù),對(duì)頻率臨近分量的掩蔽要比頻差大的分量有 效得多。共振峰對(duì)語音的感知十分重要,特別是第二共振峰比第一共振峰更為 重要。入耳在兩個(gè)人以上的說話環(huán)境中有能力分辨出需要聆聽的聲音,這種分 辨能力來源于人的雙耳輸入效應(yīng),稱為“雞尾酒會(huì)效應(yīng)”。深入了解以上人耳的 感知特性對(duì)語音增強(qiáng)的研究有重要的意義。 1 2 3 噪聲特性 噪聲通常可以定義為通信、測(cè)量以及其他信號(hào)處理過程中的無用信號(hào)成分, 在通信過程中,語音信號(hào)不可避免的受到噪聲的污染。只考慮語音受加性噪聲 污染,在單通道條件下可以對(duì)帶噪語音信號(hào)建立模型。帶噪語音的信號(hào)模型f 如 圖1 1 ) 為: y ( ,2 ) = x ( ,2 ) + d ( 力) ( 1 1 ) 這罩j ,( 門) 、x ( ,7 ) 和d ( 門) 分別代表帶噪語音、純凈語音和背景噪聲。 圖1 1 帶噪語音的信號(hào)模型 由于噪聲來源眾多,隨應(yīng)用場(chǎng)合而異,特性也各不相同,根據(jù)噪聲的時(shí)域 或頻域特性,可以將噪聲大致歸為如下幾類【2 1 : ( 1 ) 窄帶噪聲:其特點(diǎn)是能量分布在一個(gè)較窄頻帶范圍內(nèi),例如5 0 6 0 h z 的電力線噪聲。 第一章緒論 ( 2 ) 自噪聲:完令隨機(jī)的噪聲,具有平坦的功率譜。理論上,白噪聲包含所 f 頻率,f j 每個(gè)頻點(diǎn)的能量相同。 ( 3 ) 帶限白噪聲:指頻帶受限的白噪聲,通常涵蓋所處理信號(hào)的整個(gè)頻帶。 ( 4 ) 有色噪聲:非白噪聲或任何頻譜不平坦的寬帶噪聲。例如,粉紅噪聲和 練色噪聲。粉耋l 噪聲指在給定頻率范圍內(nèi)( 不包含直流成分) ,隨著頻率的增加, 其功率密度每倍頻程下降3 d b :( 密度與頻率成反比) 。棕色噪聲指在不包含直流 成分的有限頻率范圍內(nèi),功率密度隨頻率的增加每倍頻下降6 d b ( 密度與頻率的 乎方成反比) 。 ( 5 ) 脈沖噪聲:表現(xiàn)為時(shí)域波形中突然出現(xiàn)的窄脈沖。 ( 6 ) 瞬態(tài)噪聲:其時(shí)域特征表現(xiàn)為隨機(jī)的起始脈沖以低頻震蕩形式衰減。 根據(jù)與輸入語音信號(hào)的關(guān)系,噪聲可分為加性噪聲和非加性噪聲,本文主 要分析加性噪聲的干擾。對(duì)某些非加性噪聲而言,可以通過一定的變換轉(zhuǎn)化成 加性噪聲。例如乘性噪聲( 或卷積噪聲) 可以通過同態(tài)變換轉(zhuǎn)換為加性噪聲;某 些與信號(hào)相關(guān)的量化噪聲可以通過偽隨機(jī)噪聲擾動(dòng)的方法變換成與信號(hào)獨(dú)立的 加性噪聲。實(shí)際中要想一勞永逸地設(shè)計(jì)出一種算法來解決所有的噪聲是不現(xiàn)實(shí) 的,只能針對(duì)不同的噪聲情況,采取不同的語音增強(qiáng)算法。單通道語音增強(qiáng)是 語音增強(qiáng)研究的基礎(chǔ),本文將重點(diǎn)研究和實(shí)現(xiàn)單通道的語音增強(qiáng)方法,并對(duì)噪 聲做如下假設(shè): ( 1 ) 噪聲是局部平穩(wěn)的。局部平穩(wěn)是指一段帶噪語音中的噪聲,具有相對(duì) 平穩(wěn)的統(tǒng)計(jì)特性,且在整個(gè)語音段中保持不變; ( 2 ) 噪聲與語音統(tǒng)計(jì)獨(dú)立或不相關(guān); ( 3 ) 只有帶噪語音可以利用,沒有其他參考信號(hào)。 1 3 語音增強(qiáng)的歷史和發(fā)展現(xiàn)狀 語音增強(qiáng)一直是語音通信和語音信號(hào)處理研究領(lǐng)域中的一個(gè)重點(diǎn)研究課 題,倍受國(guó)內(nèi)外研究人員的關(guān)注,已有幾十年的研究發(fā)展歷史。其研究起與2 0 世紀(jì)6 0 年代,隨著數(shù)字信號(hào)理論的成熟,在7 0 年代曾形成一個(gè)理論高潮,取 得了一些基礎(chǔ)性成果,并使語音增強(qiáng)發(fā)展成為語音信號(hào)處理的一個(gè)重要分支。 1 9 7 8 年,l i m 和o p p e n h e i m 提出了基于維納濾波的語音增強(qiáng)方法1 3 1 。1 9 7 9 年, b o l l 提出了譜相減方法來抑制噪聲【4 1 。1 9 8 0 年,m a u l a y 和m a l p s s 提出了軟判 決噪聲抑制方法【5 1 。1 9 8 4 年,e p h r a i m 和m a l a h 提出了基于m m s e 短時(shí)幅度譜 估計(jì)的語音增強(qiáng)方法【6 1 。1 9 8 7 年,p a l i w a l 把卡爾曼濾波引入語音增強(qiáng)領(lǐng)域f7 1 。 3 第一章緒論 1 9 9 5 年e p h r a i m 提出了基于信號(hào)子空間分解的語音增強(qiáng)方法【引。近年來基于 沖鄉(xiāng)務(wù)m 絡(luò)和小波變換的新方法也逐漸成為研究的熱點(diǎn)【9 1 。 語音增強(qiáng)算法可從信號(hào)輸入的通道數(shù)上分為單通道的語音增強(qiáng)算法與多通 道的語爵增強(qiáng)算法。單通道語音系統(tǒng)在實(shí)際應(yīng)用中較為常見,如電話,手機(jī)等。 這種情;兄下語音與噪聲同時(shí)存在一個(gè)通道中,語音信息與噪聲信息必須從同一 個(gè)信號(hào)中得出。般這種語音系統(tǒng)下要求噪聲要比較平穩(wěn),以便在非語音段對(duì) 噪聲進(jìn)行估計(jì),再依據(jù)估計(jì)出來的噪聲對(duì)帶噪聲的語音段進(jìn)行處理。如果語音 系統(tǒng)是一個(gè)多通道的語音系統(tǒng),各個(gè)通道之間存在著某些相關(guān)的特性,這些相 關(guān)特性時(shí)語音增強(qiáng)的處理十分有利。下面簡(jiǎn)要介紹一下各種語音增強(qiáng)算法: ( 1 ) 基于語音譜特征的諧波增強(qiáng)法【1 0 l 浯音中的濁音具有明顯的周期性,在頻域中表現(xiàn)為一系列對(duì)應(yīng)基頻( 基音) 及其諧波的峰值分量,這些頻率分量占據(jù)了語音的大部分能量。因此,可采用 自適應(yīng)梳狀濾波束提取基音及其諧波分量,抑制其他周期性噪聲和非周期的寬 帶噪聲。由于語音是時(shí)變的,語音的基音周期也是不斷變化的,能否準(zhǔn)確地估 計(jì)出基爵周期以及能否及時(shí)跟蹤基音變化,是這種基于諧波增強(qiáng)法的關(guān)鍵。 ( 2 ) 基于短時(shí)譜估計(jì)的增強(qiáng)算法【i l l 【1 2 1 f 1 3 】 基于語音短時(shí)譜估計(jì)的增強(qiáng)方法利用語音信號(hào)的短時(shí)平穩(wěn)性,對(duì)其進(jìn)行短 時(shí)譜分析??紤]到人耳對(duì)相位失真的不敏感,因此不處理帶噪語音的相位【1 4 1 , 從帶噪語音的短時(shí)幅度譜中得到語音信號(hào)短時(shí)幅度譜的估計(jì)值,再結(jié)合帶噪語 音的相位恢復(fù)出增強(qiáng)語音。根據(jù)實(shí)現(xiàn)估計(jì)的方法不同,可以分為譜相減法、維 納濾波法、最小均方誤差( m m s e ) 法等。該類方法具有適應(yīng)信噪比范圍大、方法 簡(jiǎn)單、易?。簩?shí)時(shí)處理等優(yōu)點(diǎn),成為應(yīng)用最廣泛的語音增強(qiáng)方法。 ( 3 ) 基于語音生成模型的增強(qiáng)算法【7 1 f 1 5 1 - 【捕1 語音的發(fā)聲過程可以建模為一個(gè)線性時(shí)變?yōu)V波器,對(duì)不同類型的語音采用 不同的激勵(lì)源,根據(jù)激勵(lì)源是否具有周期性可以分為清音和濁音兩大類對(duì)于濁 音語音,這個(gè)系統(tǒng)受沖擊序列激勵(lì),各沖擊之間間隔為基音周期;對(duì)于清音語 音,則受白噪聲序列激勵(lì),線性時(shí)變?yōu)V波器即聲道模型。在語音的生成模型中, 應(yīng)用最廣泛的是全極點(diǎn)模型。如果能夠知道激勵(lì)參數(shù)和聲道濾波器參數(shù),就能 利用語音生成模型合成得到“純凈”語音,這種方法的關(guān)鍵在于如何從帶噪語 音中準(zhǔn)確地估計(jì)語音模型的參數(shù)( 包括激勵(lì)參數(shù)和聲道參數(shù)) ,這種增強(qiáng)方法稱 為分析合成法?;谡Z音生成模型可以得到一系列語音增強(qiáng)方法,比如時(shí)變參 數(shù)維納濾波及卡爾曼濾波方法【”。 ( 5 ) x 第一章緒論 語音的線r 仁顱測(cè)系數(shù)構(gòu)成狀憊轉(zhuǎn)移矩陣,增強(qiáng)后語音中殘留的音樂噪聲較少, i 珥籽門然度更高。 1 5 語音增強(qiáng)的質(zhì)量評(píng)價(jià) 語音質(zhì)量的衡量包括兩方面內(nèi)容:清晰度和可懂度。前者是衡量語音中字、 幣詞和句的清晰程度。而后者則是對(duì)講話人的辨識(shí)水平。語音質(zhì)量評(píng)價(jià)不但與 語音學(xué)、語吉。學(xué)和信號(hào)處理等學(xué)科有關(guān),而且還與心理學(xué)、生理學(xué)等有著密切 的聯(lián)系,岡此語音質(zhì)量評(píng)價(jià)是一個(gè)極其復(fù)雜的問題。對(duì)此多年來人們不斷的努 力,提 h 了許多語音質(zhì)量評(píng)價(jià)的方法,總體上看可以將語音質(zhì)量評(píng)價(jià)可分為兩 人類:主觀評(píng)價(jià)和客觀評(píng)價(jià)。 , 1 51主觀評(píng)價(jià) 主觀評(píng)價(jià)以人為主體來評(píng)價(jià)語音的質(zhì)量,它是在一組評(píng)聽者對(duì)原始語音和 失真語音進(jìn)行對(duì)比測(cè)聽的基礎(chǔ)上,根據(jù)某種事先約定的尺度對(duì)失真語音來劃分 質(zhì)量等級(jí),它反映了測(cè)聽者對(duì)語音質(zhì)量好壞程度的一種主觀印象。主觀評(píng)定方 法符合人類聽話時(shí)對(duì)語音質(zhì)量的感覺,目前得到了廣泛的應(yīng)用。常用的方法有 平均意見得分( m e a no p i n i o ns c o r e ,簡(jiǎn)稱m o s 得分) ,判斷韻字測(cè)試( d i a g n o s t i c r h y m et e s t ,簡(jiǎn)稱d r t 得分) ,判斷滿意度測(cè)量( d i a g n o s t i ca c c e p t a b i l i 諺m e a s u r e , 簡(jiǎn)稱d a m 得分) 等。主觀評(píng)價(jià)的優(yōu)點(diǎn)是符合人對(duì)語音質(zhì)量的感覺,缺點(diǎn)是費(fèi)時(shí) 費(fèi)力費(fèi)錢,且靈活性不夠,重復(fù)性和穩(wěn)定性較差,受人的主觀影響較大等。 ( 1 ) m o s 得分法【2 7 】【2 8 】 m o s 得分法從絕對(duì)等級(jí)評(píng)價(jià)法a c r ( a b s o l u t ec a t e g o r ) rr a t i n g ) 發(fā)展而來, 用f 對(duì)語音整體滿意度或語音通信系統(tǒng)質(zhì)量的評(píng)價(jià)。a c r 是用于針對(duì)電話通信 的總體質(zhì)量評(píng)價(jià),m o s 和a c r 都采用5 級(jí)評(píng)分標(biāo)準(zhǔn),評(píng)聽者在聽完受測(cè)語音 后,從5 個(gè)等級(jí)中選擇其中一級(jí)作為他對(duì)受測(cè)語音質(zhì)量的評(píng)價(jià)。全體評(píng)聽者的 方權(quán)平均分就是受測(cè)語音質(zhì)量的m o s 分,即對(duì)各種投票意見按規(guī)定數(shù)值進(jìn)行 加權(quán),之后再平均得到意見分。加權(quán)平均統(tǒng)計(jì)得分公式如下: 嬲= 專二彬m ( 1 2 ) n - 5 1 t 其中是總票數(shù),是得某種分的票數(shù),形即將重建語音質(zhì)量分為優(yōu)( 5 分) 、良( 4 分) 、中( 3 分) 、差( 2 分) 及壞( 1 分) 共5 個(gè)等級(jí)測(cè)驗(yàn),如表1 1 。 6 第一章緒論 表1 1m o s 評(píng)分等級(jí)表 m o s 判分質(zhì)量級(jí)別( 形)失真級(jí)別 5優(yōu) 不察覺 4良 剛有察覺 3 由 有察覺稍覺可厭 2 差明顯察覺,可厭仍可忍受 1。壞 不可忍受 在數(shù)字語音通信中,m o s 得分在4 0 4 5 分為高質(zhì)量數(shù)字化語音,達(dá)到長(zhǎng) 途電話網(wǎng)的質(zhì)量要求,接近于透明信道編碼,也稱之為網(wǎng)絡(luò)質(zhì)量或長(zhǎng)途質(zhì)量, 這時(shí)重建語音和原始語音只有很少的細(xì)節(jié)差異,且若不進(jìn)行對(duì)照聽比就覺察不 出這種差異。m o s 分在3 5 分左右稱作通信質(zhì)量,這時(shí)感到重建語音質(zhì)量下降, 但語音自然度和清晰度仍很好,且聽起來沒有疲勞感,但不妨礙正常通話。m o s 分在3 0 分以下稱為合成語音質(zhì)量,一般指低比特率聲碼器合成的語音所能達(dá) 到的質(zhì)量。m o s 分在2 0 分以下重建語音有較強(qiáng)的畸變或失真,聽起來已有疲 勞感,甚至聽覺上無法忍受。 ( 2 ) 判斷韻字測(cè)試 判斷韻字測(cè)試是反映語音清晰度或可懂度的一種測(cè)試方法。這種測(cè)試方法 提供了相當(dāng)數(shù)量的一對(duì)對(duì)的樣本字,每一對(duì)的樣本字只有開頭的輔音是不同的, 它們分別用來側(cè)試發(fā)音的一系列不同特性,如濁音清音鼻音齒擦音連讀等 等。被測(cè)者需要指出在測(cè)試字對(duì)中,他們聽到的是哪一個(gè)單詞。總的判斷韻字 測(cè)試得分是由以下公式得出: d r t =生幽翌型塑業(yè)塑l o o n 測(cè)試字?jǐn)?shù)量 ( 1 3 ) 通常認(rèn)為d r t 為9 5 以上時(shí)清晰度為優(yōu),8 5 9 4 為良,7 5 8 4 為中, 6 5 7 5 為差而6 5 以下為不可接受。 1 5 2客觀評(píng)價(jià) 主觀評(píng)價(jià)方法需要大量的時(shí)間和人力資源,而且重復(fù)性和穩(wěn)定性較差,受人 的主觀影響較大。因此,轉(zhuǎn)而求助于客觀評(píng)價(jià)的方法,客觀評(píng)價(jià)的方法提供了 比較不同算法性能的量化的、可重復(fù)的和準(zhǔn)確的結(jié)果,而且易于實(shí)現(xiàn)。所有的 客觀評(píng)價(jià)方法都是對(duì)原來的語音波形和處理過的語音波形作一個(gè)直接比較,以 :者之間的誤差大小來判別語音質(zhì)量的好壞,是一種誤差度量。客觀評(píng)價(jià)的方 法很多,常用的客觀評(píng)價(jià)方法有時(shí)域失真測(cè)度:信噪比( s i g n a l - t o n o i s er a t i o , s n r ) 、分段信噪比( s e g m e n t a ls n r ,s e g s n r ) 2 9 1 ;頻域失真測(cè)度:如對(duì)數(shù) 7 第二章基丁膏爾曼濾波的語音增強(qiáng) p e s q 是2 0 0 1 年國(guó)際電信聯(lián)溫( i t u t ) 推出的p 8 6 2 標(biāo)準(zhǔn),用來評(píng)價(jià)語 齒的事觀試聽效果,能夠很好地反映語音信號(hào)的感知質(zhì)量。該算法將話音的頻 率、響度等物理特性與人類心理上的感知特性的對(duì)應(yīng)關(guān)系用數(shù)學(xué)模型來表示, i 口j j 客觀數(shù)學(xué)模型的評(píng)價(jià)來模擬主觀的評(píng)價(jià)。 p e s q 算法采用時(shí)頻映射、頻率彎折和響度彎折等方法,盡可能將語音中 u r 以感知的特性在數(shù)學(xué)上完美的表達(dá)。算法首先對(duì)原始輸入信號(hào)和受損輸出信 號(hào)進(jìn)行一系列延時(shí)對(duì)齊,然后分別進(jìn)行聽覺轉(zhuǎn)換,表示為人類心理生理學(xué)類似 的內(nèi)部形式,最后通過認(rèn)知模型處理得到客觀評(píng)分結(jié)果。 p e s q 采用線性評(píng)分制度,以0 5 4 5 之間的數(shù)值表示被測(cè)語音與參考語 音相比語音質(zhì)量的高低。輸出語音質(zhì)量越接近輸入語音,則分?jǐn)?shù)越接近4 5 ,否 貝u 評(píng)分越低?;谠撃P偷脑u(píng)分結(jié)果與m o s 主觀評(píng)分的相關(guān)度高達(dá)o 9 3 5 ,而且 兩者近似成線性關(guān)系,誤差方向一致。通常認(rèn)為,4 0 分的m o s 分?jǐn)?shù)與3 7 3 9 的p e s q 分?jǐn)?shù)的語音質(zhì)量相當(dāng)。因而,p e s q 評(píng)分又被稱為客觀m o s 分,與主 觀m o s 分相比,p e s q 具有易實(shí)現(xiàn)、可重復(fù)和穩(wěn)定性好的優(yōu)勢(shì)。 1 6 論文研究?jī)?nèi)容與結(jié)構(gòu)安排 本文研究基于卡爾曼濾波器的語音增強(qiáng)方法,研究對(duì)象是受加性噪聲污染 的單通道語音。在實(shí)際應(yīng)用時(shí),通常只獲得了一路帶噪語音信號(hào),而噪聲類型 設(shè)定為加性噪聲,這是因?yàn)榧有栽肼暿菍?shí)際使用中最經(jīng)常遇到的一類噪聲,具 有普遍的意義,也是語音增強(qiáng)算法通常所假定的噪聲源。增強(qiáng)結(jié)果以語音的自 然度和頻譜的相似度為主要的衡量標(biāo)準(zhǔn),保證語音失真小和無“音樂噪聲”。 本文的主要研究工作包括: ( 1 ) 廣泛地參閱了國(guó)內(nèi)外相關(guān)文獻(xiàn),了解語音增強(qiáng)技術(shù)背景與常用方法。 ( 2 ) 對(duì)常用的基于卡爾曼濾波器的增強(qiáng)算法進(jìn)行了深入地研究,并分析影 響算法性能的主要參數(shù),確定參數(shù)提取方法。 ( 3 ) 針對(duì)傳統(tǒng)的卡爾曼濾波語音增強(qiáng)算法對(duì)語音建立由白噪聲激勵(lì)的a r 型,忽略了濁音段語音的激勵(lì)信號(hào)具有明顯的周期性,而濁音段語音的激勵(lì)信 號(hào)對(duì)重建語音的高頻諧波有著重要的作用。本文建立了對(duì)清濁音加以區(qū)分的語 音生成模型,研究比較了在噪聲環(huán)境下濁音段語音激勵(lì)信號(hào)的提取方法。 ( 4 ) 針對(duì)語音增強(qiáng)系統(tǒng)中必不可少的噪聲估計(jì)問題,研究了基于語音活動(dòng) 撿測(cè)( v a d ) 和最小值統(tǒng)計(jì)跟蹤兩種噪聲譜估計(jì)方法,并結(jié)合譜相減算法做出 實(shí)驗(yàn)比較。 ( 5 ) 設(shè)計(jì)和實(shí)現(xiàn)一個(gè)完整的語音增強(qiáng)系統(tǒng)。 9 第:審基。r 爾曼濾波的語音增強(qiáng) 本交的組織如f :第。章緒論介紹語音增強(qiáng)的課題背景及其相關(guān)概念。第 ! 尊介紹譬爾曼濾波理論及基于 爾曼濾波的語音增強(qiáng)算法。第三章介紹噪聲 環(huán)境線。陀預(yù)測(cè)系數(shù)提取的方法,研究了基于語音活動(dòng)檢測(cè)和最小值跟蹤的噪聲 估討療法,并結(jié)合譜相減語音增強(qiáng)方法給出兩類噪聲估計(jì)的結(jié)果。第四章詳細(xì) 介寶f j 語音乍成模型,通過對(duì)語音建力:清濁模型來描述語音的激勵(lì)信號(hào),并利用 聲帶慢變特性半滑線性頒測(cè)系數(shù)達(dá)到優(yōu)化聲道參數(shù)的目的。第五章介紹語音增 強(qiáng)系統(tǒng)的實(shí)現(xiàn)和實(shí)驗(yàn)仿真結(jié)果。第六章為總結(jié)與展望。 1 7 小結(jié) 本章簡(jiǎn)單地闡述了語音增強(qiáng)的基本原理、發(fā)展現(xiàn)狀以及基于卡爾濾波的語 音增強(qiáng)發(fā)展概況,然后介紹了語音增強(qiáng)結(jié)果的質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),最后提出本論文 的主要工作和結(jié)構(gòu)安排。 第一:章基丁骨爾曼濾波的語音增強(qiáng) 第二章基于卡爾曼濾波的語音增強(qiáng) 卡爾曼濾波器是均方誤差最小意義下的最優(yōu)線性估計(jì)器f 3 2 1 ,它突破了經(jīng)典 的維納濾波方法的局限性,提出時(shí)域的狀態(tài)空間方法,引入了系統(tǒng)的狀態(tài)變量 和狀態(tài)空問概念。從狀態(tài)空間的觀點(diǎn),狀態(tài)是比信號(hào)更廣泛、更靈活的概念, 非常適合處理多變量系統(tǒng),信號(hào)可視為狀態(tài)或狀態(tài)分量,因而非常適合處理信 號(hào)估值問題??柭鼮V波器給出了一套在計(jì)算機(jī)上容易實(shí)時(shí)實(shí)現(xiàn)的最優(yōu)遞推濾 波算法,適合處理多變量系統(tǒng)、時(shí)變系統(tǒng)和非平穩(wěn)隨機(jī)過程,獲得了廣泛的實(shí) 際應(yīng)用,其應(yīng)用領(lǐng)域包括機(jī)器人導(dǎo)航,控制,傳感器數(shù)據(jù)融合甚至在軍事方面 的雷達(dá)系統(tǒng)以及導(dǎo)彈追蹤等等,近年來更被應(yīng)用于計(jì)算機(jī)圖像處理。 傳統(tǒng)的維納濾波只在平穩(wěn)條件下才能保證在最小均方誤差意義下的最優(yōu)估 計(jì),而語音是非平穩(wěn)的,只能在短時(shí)間內(nèi)近似平穩(wěn)( 1 0 3 0 m s 內(nèi)) ,而且實(shí)際 環(huán)境中的背景噪聲也常常是非平穩(wěn)的。另一方面,采用維納濾波并沒有完全利 用語音的生成模型??柭鼮V波則可以彌補(bǔ)上述兩個(gè)缺陷,它是基于語音生成 模型的,且在非平穩(wěn)條件下也可以保證最小均方誤差意義下的最優(yōu)估計(jì),適合 于非平穩(wěn)噪聲干擾下的語音增強(qiáng)。1 9 8 7 年p a i i w a l 首先把卡爾曼濾波器引入語 音增強(qiáng)領(lǐng)域【7 1 ,近2 0 年來基于卡爾曼濾波的語音增強(qiáng)算法受到了廣泛的研究。 2 1卡爾曼濾波器和預(yù)報(bào)器 一個(gè)線性隨機(jī)離散系統(tǒng)可以用聆維狀態(tài)方程和所維測(cè)量方程來描述: x ( f + 1 ) = 4 x ( f ) + b 材o ) + w o ) ( 2 1 ) y ( f ) = c k o ) + d 甜o ) + v ) ( 2 2 ) 其中,x ( f ) 是,z 維狀態(tài)矢量,y ( f ) 是聊維輸出矢量,甜( ,) 是r 維控制矢量, w ( f ) 和v ( f ) 分別是過程噪聲( p r o c e s sn o i s e ) 和觀測(cè)噪聲( m e a s u r e m e n tn o i s e ) ,矩 陣4 。,最。,q 。和見。,被假定為已知的和時(shí)不變的??刂剖噶俊? f ) 和輸出 矢量) ,( f ) 都是可觀測(cè)的,狀態(tài)矢量x ( f ) 是隱藏在系統(tǒng)內(nèi)部的,必須通過估計(jì)才 能得到,這f 是卡爾曼濾波的主要任務(wù)之一。 對(duì)于( 2 1 ) 、( 2 2 ) 描述的隨機(jī)系統(tǒng)有下面假設(shè): 假設(shè)1 過程噪聲w ( f ) 和觀測(cè)噪聲v ( f ) 是零均值、方差分別為配和彩,且互不 相關(guān)的白噪聲,即它們滿足如下的對(duì)稱正定協(xié)方差陣: c 。v 搿 - e 翟 囂 2 = ”之。 c z 3 , 第二章基丁忙爾曼濾波的語音增強(qiáng) ,時(shí)刻觀測(cè)值y ( ,) 中所含新信息的一個(gè)度量。由于y ( f ) 所攜帶的并不全是新信息, 其中預(yù)測(cè)部分夕( f i 卜,1 ) 完全由過去的觀測(cè)值y ( 1 ) ,y ( 2 ) ,y o 1 ) 確定。因此,觀 測(cè)值y ( f ) 中新信息僅包含在前向預(yù)測(cè)誤差p ( f ) 中,e ( f ) 又稱之為“新息”。尸( fi f 1 ) 和p ( ff ) 分別是先驗(yàn)誤差協(xié)方差矩陣和后驗(yàn)誤差協(xié)方差矩陣。 到目自訂為止,后驗(yàn)估計(jì)舅( f l ,) 是用f 時(shí)刻及其以前時(shí)刻所有數(shù)據(jù)得到的x ( ,) 的最佳估計(jì)值,即應(yīng)的數(shù)據(jù)集合為d ”= “( 1 ) ,“( 2 ) ,“( f ) ,y ( 1 ) ,y ( 2 ) ,y ( f ) ) ???爾曼濾波的時(shí)間更新( t i m eu p d a t e ) 如下: 舅( f + 1 l ,) = 么曼( , ,) + 口甜( f ) ( 2 ,1 5 ) p ( f + lf ) = 彳尸olf ) 么7 + q ( 2 1 6 ) ( 2 1 5 ) 式稱為卡爾曼預(yù)報(bào)器,通過提供合適的初始估計(jì)舅( 1o ) 和p ( 1o ) ,以 及卡爾曼濾波的測(cè)量更新( 2 1 0 ) 至( 2 1 4 ) 和時(shí)間更新( 2 1 5 ) 、( 2 1 6 ) 的 遞歸計(jì)算可以得到狀態(tài)矢量z ( ,) 在各個(gè)時(shí)刻的估計(jì)值曼( f ) 。如果給定的初始估 計(jì)確實(shí)是狀念矢量x ( 1 ) 的最小均方誤差估計(jì)的話,那么后續(xù)遞歸得到的所有估 計(jì)也同樣都是均方意義上的最佳線性估計(jì)。更進(jìn)一步地,如果噪聲w ( f ) 和v ( f ) 都 是高斯分布的話,那么估計(jì)值蠢( f ) 就將是均方意義上的最優(yōu)值。我們可以注意 到卡爾曼增益k ( f ) 和觀測(cè)數(shù)據(jù)是無關(guān)的,可以預(yù)先計(jì)算得到。 式( 2 1 0 ) 至( 2 1 6 ) 就構(gòu)成了完整的卡爾曼濾波器。下面給出了隨機(jī)系統(tǒng) 的測(cè)量和卡爾曼濾波結(jié)構(gòu)圖。 圖2 1隨機(jī)觀測(cè)系統(tǒng)和卡爾曼濾波結(jié)構(gòu) 如圖2 1 所示,卡爾曼濾波器作為一個(gè)遞歸最小均方誤差估計(jì)器,其基本 結(jié)構(gòu)是預(yù)測(cè)一修f ,這里可以分成兩個(gè)部分:時(shí)間更新和測(cè)量更新。式( 2 1 5 ) 、 1 3 第二章基丁矗爾曼濾波的語音增強(qiáng) ( 2 1 6 ) 構(gòu)成時(shí)l 、日j 更新,也可以叫做預(yù)測(cè)方程,它們是為了從當(dāng)前狀態(tài)預(yù)測(cè)下 狀念曼( ,+ li ,) ,并估計(jì)先驗(yàn)誤差的協(xié)方差矩陣尸( f + 1 i f ) 為下一狀態(tài)的估計(jì)做 準(zhǔn)各,式f2 1 0 ) 到( 2 1 4 ) 構(gòu)成測(cè)量更新,利用f + 1 時(shí)刻的觀測(cè)值) ,( f ) 計(jì)算新 息和管爾曼增益,修j f 曼( f + lf ,) 得到與隨機(jī)變量的觀測(cè)值線性相關(guān)的最小均方 估計(jì)曼( ,+ if + 1 ) ,同時(shí)計(jì)算誤差協(xié)方差矩陣p ( rlr ) 為下一循環(huán)的預(yù)測(cè)做準(zhǔn)備。 時(shí)間更新和預(yù)測(cè)更新過程如圖2 2 所示。 圖2 2 卡爾曼濾波的預(yù)測(cè)和修正方程關(guān)系圖 2 。2 卡爾曼平滑器 2 2 1卡爾曼平滑器 在2 1 節(jié)中預(yù)測(cè)情況下,卡爾曼濾波可以提供基于過去數(shù)據(jù)集合的最佳估 計(jì)值。如果將來的數(shù)據(jù)也可以得到的話,那么可以用它們來進(jìn)步地改善己得 到的估計(jì)值,這是就我們?cè)诳柭鼮V波問題中描述的卡爾曼平滑器。為了簡(jiǎn)單 起見,只考慮不帶控制輸入( 甜( f ) = o ) 的系統(tǒng),在假設(shè)1 、2 下,基于觀測(cè)數(shù) 據(jù)d 7 = y ( 1 ) ,y ( 2 ) ,y ( 7 1 ) 對(duì)狀態(tài)x ( ) 的線性最小方差估值器舅( lr ) ( 1 情況下,表示該頻譜成份存在語音的概率大于無語音 的概率;反之,無語音的可能性較大。但由于各頻譜成份之間是獨(dú)立無關(guān)的, 因此某幀信號(hào)有語音的概率與無語音的概率之比等于各頻譜的似然比的連乘 積,即聯(lián)合似然比。若聯(lián)合似然比大于1 ,則有語音的概率大于無語音的概率, 應(yīng)判斷為有語音,否則為無語音。為保證語音信號(hào)的完整,通常情況下,寧可 誤判,不能漏判,因此判別閡值不應(yīng)太高。為了簡(jiǎn)化計(jì)算,用各頻點(diǎn)似然比的 幾何平均值定義廣義似然比八,并用其對(duì)數(shù)值來判別有無語音,即 一。g a = 點(diǎn)喜t 。g 八c 七,菱刁c 如, c 3 7 , 式中7 7 為廣義似然比的判別閡值,7 不小于o ( 實(shí)驗(yàn)中取7 7 = o 0 5 ) 。 后驗(yàn)信噪比y ( 元,f ) 可以由當(dāng)前幀的功率譜和估計(jì)的噪聲功率譜計(jì)算得到, 先驗(yàn)信噪比孝( 尼,f ) 可通過直接判決法f 1 2 l ( d e c i s i o nd e r e c t e dm e t h o d ) 來加以估 計(jì): 善( j j ,) = 口耥+ ( 1 一口) m a x ( 廠( 后,z ) 一l ,。) ( 3 8 ) 其中口為經(jīng)驗(yàn)值( 實(shí)驗(yàn)中取0 9 8 ) ,z 為當(dāng)前幀號(hào)。 由于各幀之| 自j 帶噪語音的短時(shí)幅度譜】,( 尼) 振蕩激烈,從而導(dǎo)致各幀之間后 驗(yàn)信噪比y ( 七) 振蕩激烈。在語音尾部,由于后驗(yàn)信噪比較低,而由式( 3 6 ) 所估 計(jì)的先驗(yàn)信噪比將因前一幀的增強(qiáng)語音功率譜較大而導(dǎo)致高估,因此導(dǎo)致似然比 的低估,從而導(dǎo)致語音尾部常常被誤判為無語音。為了減少誤判,對(duì)似然比人( 尼) 進(jìn)行幀間平滑 4 6 1 ,得到平滑后的似然比為人,( 七,叭 八。( 七,f ) = e x p l o g 八,( 尼,一1 ) + ( 1 一) l o g 人( 七,) ) ( 3 9 ) 是平滑因子,是一經(jīng)驗(yàn)系數(shù)( 實(shí)驗(yàn)中取= 0 9 8 ) ,其作用是矯正語音為不 因后驗(yàn)信噪比y ( 后) 的快速下降而導(dǎo)致人( 后,) 的過度下降。 將上述各譜點(diǎn)平滑似然比( 七,) 的幾何平均值的對(duì)數(shù)作為檢測(cè)有聲無聲的 判別準(zhǔn)則,代入式( 3 7 ) ,若其大于閾值甲,則認(rèn)為有聲,否則為無聲。 2 5 第二章噪聲環(huán)境一卜j 線性預(yù)測(cè)系數(shù)提取 v a d 將信號(hào) 蘊(yùn)分為有聲段和無聲段后,噪聲的估計(jì)可以通過對(duì)無聲段的噪 聲自肇求統(tǒng)汁r 均抉得。這科,傳統(tǒng)的基于v a d 的噪聲估計(jì)方法具有簡(jiǎn)單、易 史現(xiàn)的優(yōu),r 2 6 05 = _ 主0 一o5 0 o204o 6 1 o5 0 05 f 燎。、 瓢。 o81121 4161 8 采樣點(diǎn) ( a ) 干凈語音 州溺赫滯 0 o 20406 三。5,! 輟i三“洲 喜眇豢靜 譬;潭 2 1 0 4 o811 21 4 采樣點(diǎn) ( 6 ) 信噪比1 5 d b 帶噪語音 蹲黔麓 o204o608 16182 x1 0 112 采樣點(diǎn) ( ( ! ) 信噪比1 0 d b 帶噪語音 16182 x1 0 4 。搿甜 進(jìn)黥j”撒慷舢咐 第二章噪聲環(huán)境卜,線性預(yù)測(cè)系數(shù)提取 黼 剿黼犏 302o4o60 81 采樣點(diǎn) ( d ) 信噪比5 d b 帶噪語音 圖3 2v a d 判決結(jié)果 圖3 2 為采用統(tǒng)計(jì)模型的v a d 方法對(duì)語音“l(fā) e t sa 1 1j o 洫a sw es i n gt h el a s t c h o r u s ”有聲無聲檢測(cè)效果示例,其中圖( a ) 是干凈語音的檢測(cè)結(jié)果,圖( b ) ( c ) ( d ) 是對(duì)干凈語音在全局信噪比為1 5 d b l o d b 5 d b 下添加高斯白噪聲得到的帶噪語 音。可以看出,隨著帶噪語音信噪比不斷的降低,v a d 檢測(cè)的精度會(huì)不斷惡化, 語音信號(hào)被錯(cuò)判為噪聲的比例不斷增加,當(dāng)信噪比在5 d b 時(shí),v a d 幾乎失效, 噪聲得不到更新。同時(shí),由于v a d 主要利用帶噪信號(hào)的能量統(tǒng)計(jì)特性和語音 信號(hào)的一一些其他特征,當(dāng)噪聲的能量統(tǒng)計(jì)特性發(fā)生變化時(shí),需要v a d 檢測(cè)到 新的噪聲樣本來更新。而在實(shí)際環(huán)境中,多為非平穩(wěn)噪聲情況,依靠v a d 方 法很難實(shí)時(shí)跟蹤噪聲的變化。因此,需要尋找一種更

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論