




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、基于語(yǔ)音存在概率的語(yǔ)音活動(dòng)檢測(cè)方法 基于語(yǔ)音存在概率的語(yǔ)音活動(dòng)檢測(cè)方法 2011-1-19 11:35:09
2、160; 【論文關(guān)鍵詞】語(yǔ)音增強(qiáng)語(yǔ)音活動(dòng)檢測(cè)語(yǔ)音存在概率【論文摘要】首先總結(jié)了幾種常見的語(yǔ)音活動(dòng)檢測(cè)(VAD)方法,然后從計(jì)算每幀每個(gè)頻率點(diǎn)的語(yǔ)音存在概率出發(fā),提出了一種新的VAD方法,并就其中的一些參數(shù)選擇問(wèn)題進(jìn)行了討論。最后給出新方法與傳統(tǒng)方法實(shí)驗(yàn)結(jié)果對(duì)比。1引言日常生活中,人們說(shuō)話有間隙,有必要對(duì)一段語(yǔ)音進(jìn)行檢測(cè),以確定哪些時(shí)間
3、上是有語(yǔ)音,哪些時(shí)間上沒(méi)有語(yǔ)音。在語(yǔ)音編碼中,語(yǔ)音活動(dòng)檢測(cè)(VoiceActivityDetection,VAD)用來(lái)區(qū)分有語(yǔ)音段和無(wú)語(yǔ)音段。如果一段時(shí)間被判斷為無(wú)語(yǔ)音段,則不需對(duì)其編碼。這樣可減少信道帶寬的占用,使有限的帶寬得到合理使用。在語(yǔ)音增強(qiáng)中,VAD用來(lái)判斷一段時(shí)間上是否存在語(yǔ)音。如果某段時(shí)間內(nèi)不存在語(yǔ)音,那么這段時(shí)間就只有噪聲存在,因此可以被用來(lái)估計(jì)和更新噪聲功率譜。在語(yǔ)音增強(qiáng)領(lǐng)域,VAD的性能往往直接影響到最后的結(jié)果。因?yàn)槟壳岸鄶?shù)的語(yǔ)音增強(qiáng)算法必須對(duì)噪聲功率譜進(jìn)行估計(jì),如果噪聲功率譜估計(jì)不準(zhǔn)確,就會(huì)導(dǎo)致最后的增益函數(shù)估計(jì)不準(zhǔn)確。準(zhǔn)確的噪聲功率譜估計(jì)須建立在準(zhǔn)確的純?cè)肼暥闻袛嗟幕A(chǔ)
4、上。筆者提出了一種新的VAD方法,這種方法建立在每幀每個(gè)頻率點(diǎn)的語(yǔ)音存在概率的基礎(chǔ)上。根據(jù)概率大小判斷是否存在語(yǔ)音。2語(yǔ)音存在概率估計(jì)為進(jìn)行VAD,首先對(duì)每幀每個(gè)頻率點(diǎn)進(jìn)行語(yǔ)音存在概率估計(jì),該估計(jì)大致分為兩步:(1)估計(jì)是否存在強(qiáng)語(yǔ)音成分;(2)估計(jì)語(yǔ)音不存在概率和語(yǔ)音存在概率。含噪語(yǔ)音由純凈語(yǔ)音和噪聲疊加而成,所以假設(shè)Y(k,l)=X(k,l)+D(k,l)(1)其中,Y(k,l)為含噪信號(hào),X(k,l)為純凈語(yǔ)音,D(k,l)為噪聲,k為某一幀的頻率點(diǎn)編號(hào),l為幀編號(hào)。2.1估計(jì)是否存在強(qiáng)語(yǔ)音成分含噪語(yǔ)音中某些地方會(huì)有明顯的語(yǔ)音存在,由于后面估計(jì)語(yǔ)音不存在概率需要用到相鄰幀的信息,所以強(qiáng)語(yǔ)
5、音成分存在會(huì)嚴(yán)重影響到語(yǔ)音不存在概率估計(jì)。因此有必要先對(duì)某幀是否存在強(qiáng)語(yǔ)音進(jìn)行判斷,如果是,那么在下面的語(yǔ)音不存在概率估計(jì)過(guò)程中將不會(huì)用到此幀的信息。對(duì)于含噪信號(hào),要進(jìn)行兩次平滑,一次是幀內(nèi)平滑,一次是幀間平滑。首先進(jìn)行幀內(nèi)平滑 3 基于語(yǔ)音存在概率的語(yǔ)音活動(dòng)檢測(cè)方法 2011-1-19 11:35:09
6、0; 其中,s為平滑參數(shù)且0<s<1。然后搜索D幀中各頻率點(diǎn)的最小值,即Smin(k
7、,l)=minS(k,l)|l-D+1ll(4)根據(jù)文獻(xiàn)可找到Bmin,滿足ESmin(k,l)=B-1min·d(k,l)(5)也就是說(shuō)可通過(guò)一個(gè)補(bǔ)償因子Bmin估計(jì)出當(dāng)前幀的噪聲功率譜。定義根據(jù)min和,按照下面的判決準(zhǔn)則,判斷當(dāng)前幀是否含有強(qiáng)語(yǔ)音成分其中,“0”為有強(qiáng)語(yǔ)音存在,“1”為沒(méi)有強(qiáng)語(yǔ)音存在,0=4.6,0=1.67。2.2估計(jì)語(yǔ)音不存在概率和語(yǔ)音存在概率利用前面強(qiáng)語(yǔ)音成分判斷的結(jié)果,可通過(guò)先排除含有強(qiáng)語(yǔ)音成分的頻率點(diǎn),再進(jìn)行幀內(nèi)平滑和幀間平滑,最后得到對(duì)應(yīng)于每幀每個(gè)頻率點(diǎn)的估計(jì)量。這個(gè)估計(jì)量反映了該幀每個(gè)頻率點(diǎn)上能量情況。如某幀是無(wú)語(yǔ)音幀,則其各頻率點(diǎn)上的估計(jì)量將會(huì)較
8、小。再通過(guò)對(duì)一段區(qū)間上搜索最小估計(jì)量,將搜索到的結(jié)果作為參照標(biāo)準(zhǔn)。當(dāng)某幀某個(gè)頻率點(diǎn)的估計(jì)量超過(guò)參照標(biāo)準(zhǔn)的若干倍時(shí),即判定此處含有語(yǔ)音,否則就不含有語(yǔ)音。首先,利用是否存在強(qiáng)語(yǔ)音的判決結(jié)果進(jìn)行新的幀內(nèi)平滑和幀間平滑。先進(jìn)行幀內(nèi)平滑的計(jì)算用到了I(k,l),排除了強(qiáng)語(yǔ)音存在的頻率點(diǎn)。再進(jìn)行幀間平滑然后同前面估計(jì)是否存在強(qiáng)語(yǔ)音成分一樣,進(jìn)行區(qū)間最小值搜索定義l)=ED(k,l)2。由于按照式(13)計(jì)算語(yǔ)音存在概率需要估計(jì)先驗(yàn)信噪比和后驗(yàn)信噪比,如果估計(jì)不準(zhǔn)確,必然導(dǎo)致VAD結(jié)果不準(zhǔn)確。故這里對(duì)此進(jìn)行簡(jiǎn)化,直接用1減去q(k,l)作為語(yǔ)音存在概率p(k,l)。
9、160;3 基于語(yǔ)音存在概率的語(yǔ)音活動(dòng)檢測(cè)方法 2011-1-19 11:35:09
10、 3利用語(yǔ)音存在概率進(jìn)行VAD3.1檢測(cè)指標(biāo)計(jì)算估計(jì)出語(yǔ)音存在概率后,還不能直接用來(lái)進(jìn)行VAD,因?yàn)檫@些概率是針對(duì)每一個(gè)頻率點(diǎn)的,需要將這些信息轉(zhuǎn)換為某一幀的評(píng)價(jià)量。通過(guò)對(duì)語(yǔ)音存在概率隨時(shí)間和頻率點(diǎn)分布的觀察,發(fā)現(xiàn)有2項(xiàng)指標(biāo)可被用來(lái)比較準(zhǔn)確地辨別出有聲段和無(wú)聲段,分別是其中,pt為某一幀所有頻率點(diǎn)的語(yǔ)音存在概率之和,pe為某一幀上語(yǔ)音
11、存在概率為1的所有頻率點(diǎn)個(gè)數(shù),M為有頻率點(diǎn)數(shù)。但是,實(shí)驗(yàn)表明,這兩個(gè)參數(shù)雖然總體上可以看出哪些是無(wú)聲段哪些是有聲段,但起伏可能非常劇烈,所以需要進(jìn)行平滑處理。設(shè)定其中,采用了當(dāng)前幀前面4幀的數(shù)據(jù)進(jìn)行平滑3.2參數(shù)設(shè)定判斷是否存在語(yǔ)音主要看式(17)(18)中2個(gè)指標(biāo)是否超過(guò)某個(gè)門限。具體為其中,式(19)(20)對(duì)一段含噪信號(hào)最開始一段的2個(gè)指標(biāo)求平均,然后利用式(21)(22)得到正式的門限;W為每幀有頻率點(diǎn)數(shù)。其判斷結(jié)果其中,“1”為有語(yǔ)音,“0”為無(wú)語(yǔ)音。4實(shí)驗(yàn)結(jié)果為評(píng)價(jià)該VAD方法的性能,設(shè)定如下指標(biāo)含噪信號(hào)是人工合成的,其中純凈信號(hào)來(lái)自一段評(píng)書,噪聲信號(hào)取自Noisex-92噪聲庫(kù),
12、包括白噪聲、粉紅噪聲、F16戰(zhàn)斗機(jī)噪聲、沃爾沃汽車噪聲、閑聊聲和工廠噪聲等,信噪比均為6dB。所有指標(biāo)均與文獻(xiàn)3中的方法對(duì)比。含語(yǔ)音幀總數(shù)和純?cè)肼晭倲?shù)根據(jù)純凈信號(hào)人為判定。將文獻(xiàn)3中的方法稱為方法A,本文方法稱為方法B。3項(xiàng)指標(biāo)的計(jì)算結(jié)果列于表13??煽闯觯诖蟛糠智闆r下,方法B要優(yōu)于方法A;但當(dāng)信噪比降低到一定程度后,方法A要優(yōu)于方法B。圖1給出了背景噪聲是白噪聲時(shí),2種方法的性能比較??煽闯觯?dāng)輸入信噪比大于5dB時(shí),方法B明顯優(yōu)于方法A;但當(dāng)信噪比降到0dB后,方法A好于方法B。5總結(jié)這種新的VAD方法在信噪較高時(shí),效果非常好。如實(shí)驗(yàn)發(fā)現(xiàn),當(dāng)背景噪聲為白噪聲,信噪比為18dB時(shí)總體準(zhǔn)確率可達(dá)0.9618,而文獻(xiàn)3中的方法只能達(dá)到0.8313。但當(dāng)信噪比下降到0dB后,新的方法表現(xiàn)不如文獻(xiàn)3中的方法。另外,在背景噪聲為非平穩(wěn)噪聲時(shí),效果也不夠理想,有待改進(jìn)。參考文獻(xiàn)MARTINR.NoisepowerspectraldensityestimationbasedonoptimalsmoothingandminimumstatisticJ.IEEETrans.onSpeechandAudioProcessing,2001,9(5):504-512.COHENI.Noisespectrumestima
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年乳制品市場(chǎng)分析:關(guān)稅變化下的產(chǎn)業(yè)格局與消費(fèi)趨勢(shì)
- 混凝土擠壓墻施工方案
- 《論語(yǔ)●孟子》閱讀練習(xí)
- 黑龍江省大慶市讓胡路區(qū)大慶中學(xué)2024-2025學(xué)年高二上學(xué)期期末數(shù)學(xué)試題(解析版)
- 安徽省馬鞍山市當(dāng)涂第一中學(xué)2024-2025學(xué)年高一上學(xué)期期末質(zhì)量檢測(cè)數(shù)學(xué)試題 (解析版)
- 辦公室管理-形考任務(wù)五(第六章~第七章)-國(guó)開-參考資料
- 2025年真實(shí)情景測(cè)試題及答案
- 混凝土攔水帶施工方案
- 6年級(jí)上冊(cè)英語(yǔ)書課文第2單元
- 5-羥基-1-甲基吡唑的合成
- 人教版五年級(jí)數(shù)學(xué)下冊(cè)全冊(cè)教案含教學(xué)反思
- 2025年園林綠化工(高級(jí))考試題庫(kù)及答案
- 2024春四年級(jí)上下冊(cè)音樂(lè)測(cè)試專項(xiàng)測(cè)試題及答案
- 多發(fā)傷骨折護(hù)理查房
- 2023年軟件評(píng)測(cè)師《基礎(chǔ)知識(shí)》考試題庫(kù)(濃縮500題)
- 中建預(yù)制構(gòu)件吊裝安全專項(xiàng)施工方案
- 《馬化騰創(chuàng)業(yè)經(jīng)歷》課件
- 2023年湖北省生態(tài)環(huán)保有限公司招聘筆試真題
- 2023年新疆事業(yè)單位開展招聘考試真題
- 學(xué)校班主任談心制度實(shí)施方案
- CRISPR-Cas9-基因編輯技術(shù)簡(jiǎn)介
評(píng)論
0/150
提交評(píng)論