基于語(yǔ)音存在概率的語(yǔ)音活動(dòng)檢測(cè)方法_第1頁(yè)
基于語(yǔ)音存在概率的語(yǔ)音活動(dòng)檢測(cè)方法_第2頁(yè)
基于語(yǔ)音存在概率的語(yǔ)音活動(dòng)檢測(cè)方法_第3頁(yè)
基于語(yǔ)音存在概率的語(yǔ)音活動(dòng)檢測(cè)方法_第4頁(yè)
基于語(yǔ)音存在概率的語(yǔ)音活動(dòng)檢測(cè)方法_第5頁(yè)
已閱讀5頁(yè),還剩2頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于語(yǔ)音存在概率的語(yǔ)音活動(dòng)檢測(cè)方法            基于語(yǔ)音存在概率的語(yǔ)音活動(dòng)檢測(cè)方法    2011-1-19 11:35:09                         &#

2、160;                       【論文關(guān)鍵詞】語(yǔ)音增強(qiáng)語(yǔ)音活動(dòng)檢測(cè)語(yǔ)音存在概率【論文摘要】首先總結(jié)了幾種常見的語(yǔ)音活動(dòng)檢測(cè)(VAD)方法,然后從計(jì)算每幀每個(gè)頻率點(diǎn)的語(yǔ)音存在概率出發(fā),提出了一種新的VAD方法,并就其中的一些參數(shù)選擇問(wèn)題進(jìn)行了討論。最后給出新方法與傳統(tǒng)方法實(shí)驗(yàn)結(jié)果對(duì)比。1引言日常生活中,人們說(shuō)話有間隙,有必要對(duì)一段語(yǔ)音進(jìn)行檢測(cè),以確定哪些時(shí)間

3、上是有語(yǔ)音,哪些時(shí)間上沒(méi)有語(yǔ)音。在語(yǔ)音編碼中,語(yǔ)音活動(dòng)檢測(cè)(VoiceActivityDetection,VAD)用來(lái)區(qū)分有語(yǔ)音段和無(wú)語(yǔ)音段。如果一段時(shí)間被判斷為無(wú)語(yǔ)音段,則不需對(duì)其編碼。這樣可減少信道帶寬的占用,使有限的帶寬得到合理使用。在語(yǔ)音增強(qiáng)中,VAD用來(lái)判斷一段時(shí)間上是否存在語(yǔ)音。如果某段時(shí)間內(nèi)不存在語(yǔ)音,那么這段時(shí)間就只有噪聲存在,因此可以被用來(lái)估計(jì)和更新噪聲功率譜。在語(yǔ)音增強(qiáng)領(lǐng)域,VAD的性能往往直接影響到最后的結(jié)果。因?yàn)槟壳岸鄶?shù)的語(yǔ)音增強(qiáng)算法必須對(duì)噪聲功率譜進(jìn)行估計(jì),如果噪聲功率譜估計(jì)不準(zhǔn)確,就會(huì)導(dǎo)致最后的增益函數(shù)估計(jì)不準(zhǔn)確。準(zhǔn)確的噪聲功率譜估計(jì)須建立在準(zhǔn)確的純?cè)肼暥闻袛嗟幕A(chǔ)

4、上。筆者提出了一種新的VAD方法,這種方法建立在每幀每個(gè)頻率點(diǎn)的語(yǔ)音存在概率的基礎(chǔ)上。根據(jù)概率大小判斷是否存在語(yǔ)音。2語(yǔ)音存在概率估計(jì)為進(jìn)行VAD,首先對(duì)每幀每個(gè)頻率點(diǎn)進(jìn)行語(yǔ)音存在概率估計(jì),該估計(jì)大致分為兩步:(1)估計(jì)是否存在強(qiáng)語(yǔ)音成分;(2)估計(jì)語(yǔ)音不存在概率和語(yǔ)音存在概率。含噪語(yǔ)音由純凈語(yǔ)音和噪聲疊加而成,所以假設(shè)Y(k,l)=X(k,l)+D(k,l)(1)其中,Y(k,l)為含噪信號(hào),X(k,l)為純凈語(yǔ)音,D(k,l)為噪聲,k為某一幀的頻率點(diǎn)編號(hào),l為幀編號(hào)。2.1估計(jì)是否存在強(qiáng)語(yǔ)音成分含噪語(yǔ)音中某些地方會(huì)有明顯的語(yǔ)音存在,由于后面估計(jì)語(yǔ)音不存在概率需要用到相鄰幀的信息,所以強(qiáng)語(yǔ)

5、音成分存在會(huì)嚴(yán)重影響到語(yǔ)音不存在概率估計(jì)。因此有必要先對(duì)某幀是否存在強(qiáng)語(yǔ)音進(jìn)行判斷,如果是,那么在下面的語(yǔ)音不存在概率估計(jì)過(guò)程中將不會(huì)用到此幀的信息。對(duì)于含噪信號(hào),要進(jìn)行兩次平滑,一次是幀內(nèi)平滑,一次是幀間平滑。首先進(jìn)行幀內(nèi)平滑  3               基于語(yǔ)音存在概率的語(yǔ)音活動(dòng)檢測(cè)方法    2011-1-19 11:35:09     

6、0;                                           其中,s為平滑參數(shù)且0<s<1。然后搜索D幀中各頻率點(diǎn)的最小值,即Smin(k

7、,l)=minS(k,l)|l-D+1ll(4)根據(jù)文獻(xiàn)可找到Bmin,滿足ESmin(k,l)=B-1min·d(k,l)(5)也就是說(shuō)可通過(guò)一個(gè)補(bǔ)償因子Bmin估計(jì)出當(dāng)前幀的噪聲功率譜。定義根據(jù)min和,按照下面的判決準(zhǔn)則,判斷當(dāng)前幀是否含有強(qiáng)語(yǔ)音成分其中,“0”為有強(qiáng)語(yǔ)音存在,“1”為沒(méi)有強(qiáng)語(yǔ)音存在,0=4.6,0=1.67。2.2估計(jì)語(yǔ)音不存在概率和語(yǔ)音存在概率利用前面強(qiáng)語(yǔ)音成分判斷的結(jié)果,可通過(guò)先排除含有強(qiáng)語(yǔ)音成分的頻率點(diǎn),再進(jìn)行幀內(nèi)平滑和幀間平滑,最后得到對(duì)應(yīng)于每幀每個(gè)頻率點(diǎn)的估計(jì)量。這個(gè)估計(jì)量反映了該幀每個(gè)頻率點(diǎn)上能量情況。如某幀是無(wú)語(yǔ)音幀,則其各頻率點(diǎn)上的估計(jì)量將會(huì)較

8、小。再通過(guò)對(duì)一段區(qū)間上搜索最小估計(jì)量,將搜索到的結(jié)果作為參照標(biāo)準(zhǔn)。當(dāng)某幀某個(gè)頻率點(diǎn)的估計(jì)量超過(guò)參照標(biāo)準(zhǔn)的若干倍時(shí),即判定此處含有語(yǔ)音,否則就不含有語(yǔ)音。首先,利用是否存在強(qiáng)語(yǔ)音的判決結(jié)果進(jìn)行新的幀內(nèi)平滑和幀間平滑。先進(jìn)行幀內(nèi)平滑的計(jì)算用到了I(k,l),排除了強(qiáng)語(yǔ)音存在的頻率點(diǎn)。再進(jìn)行幀間平滑然后同前面估計(jì)是否存在強(qiáng)語(yǔ)音成分一樣,進(jìn)行區(qū)間最小值搜索定義l)=ED(k,l)2。由于按照式(13)計(jì)算語(yǔ)音存在概率需要估計(jì)先驗(yàn)信噪比和后驗(yàn)信噪比,如果估計(jì)不準(zhǔn)確,必然導(dǎo)致VAD結(jié)果不準(zhǔn)確。故這里對(duì)此進(jìn)行簡(jiǎn)化,直接用1減去q(k,l)作為語(yǔ)音存在概率p(k,l)。   &#

9、160;3               基于語(yǔ)音存在概率的語(yǔ)音活動(dòng)檢測(cè)方法    2011-1-19 11:35:09                          

10、                       3利用語(yǔ)音存在概率進(jìn)行VAD3.1檢測(cè)指標(biāo)計(jì)算估計(jì)出語(yǔ)音存在概率后,還不能直接用來(lái)進(jìn)行VAD,因?yàn)檫@些概率是針對(duì)每一個(gè)頻率點(diǎn)的,需要將這些信息轉(zhuǎn)換為某一幀的評(píng)價(jià)量。通過(guò)對(duì)語(yǔ)音存在概率隨時(shí)間和頻率點(diǎn)分布的觀察,發(fā)現(xiàn)有2項(xiàng)指標(biāo)可被用來(lái)比較準(zhǔn)確地辨別出有聲段和無(wú)聲段,分別是其中,pt為某一幀所有頻率點(diǎn)的語(yǔ)音存在概率之和,pe為某一幀上語(yǔ)音

11、存在概率為1的所有頻率點(diǎn)個(gè)數(shù),M為有頻率點(diǎn)數(shù)。但是,實(shí)驗(yàn)表明,這兩個(gè)參數(shù)雖然總體上可以看出哪些是無(wú)聲段哪些是有聲段,但起伏可能非常劇烈,所以需要進(jìn)行平滑處理。設(shè)定其中,采用了當(dāng)前幀前面4幀的數(shù)據(jù)進(jìn)行平滑3.2參數(shù)設(shè)定判斷是否存在語(yǔ)音主要看式(17)(18)中2個(gè)指標(biāo)是否超過(guò)某個(gè)門限。具體為其中,式(19)(20)對(duì)一段含噪信號(hào)最開始一段的2個(gè)指標(biāo)求平均,然后利用式(21)(22)得到正式的門限;W為每幀有頻率點(diǎn)數(shù)。其判斷結(jié)果其中,“1”為有語(yǔ)音,“0”為無(wú)語(yǔ)音。4實(shí)驗(yàn)結(jié)果為評(píng)價(jià)該VAD方法的性能,設(shè)定如下指標(biāo)含噪信號(hào)是人工合成的,其中純凈信號(hào)來(lái)自一段評(píng)書,噪聲信號(hào)取自Noisex-92噪聲庫(kù),

12、包括白噪聲、粉紅噪聲、F16戰(zhàn)斗機(jī)噪聲、沃爾沃汽車噪聲、閑聊聲和工廠噪聲等,信噪比均為6dB。所有指標(biāo)均與文獻(xiàn)3中的方法對(duì)比。含語(yǔ)音幀總數(shù)和純?cè)肼晭倲?shù)根據(jù)純凈信號(hào)人為判定。將文獻(xiàn)3中的方法稱為方法A,本文方法稱為方法B。3項(xiàng)指標(biāo)的計(jì)算結(jié)果列于表13??煽闯觯诖蟛糠智闆r下,方法B要優(yōu)于方法A;但當(dāng)信噪比降低到一定程度后,方法A要優(yōu)于方法B。圖1給出了背景噪聲是白噪聲時(shí),2種方法的性能比較??煽闯觯?dāng)輸入信噪比大于5dB時(shí),方法B明顯優(yōu)于方法A;但當(dāng)信噪比降到0dB后,方法A好于方法B。5總結(jié)這種新的VAD方法在信噪較高時(shí),效果非常好。如實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)背景噪聲為白噪聲,信噪比為18dB時(shí)總體準(zhǔn)確率可達(dá)0.9618,而文獻(xiàn)3中的方法只能達(dá)到0.8313。但當(dāng)信噪比下降到0dB后,新的方法表現(xiàn)不如文獻(xiàn)3中的方法。另外,在背景噪聲為非平穩(wěn)噪聲時(shí),效果也不夠理想,有待改進(jìn)。參考文獻(xiàn)MARTINR.NoisepowerspectraldensityestimationbasedonoptimalsmoothingandminimumstatisticJ.IEEETrans.onSpeechandAudioProcessing,2001,9(5):504-512.COHENI.Noisespectrumestima

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論