強(qiáng)背景噪聲環(huán)境下語音增強(qiáng)算法的研究及應(yīng)用畢業(yè)論文_第1頁
強(qiáng)背景噪聲環(huán)境下語音增強(qiáng)算法的研究及應(yīng)用畢業(yè)論文_第2頁
強(qiáng)背景噪聲環(huán)境下語音增強(qiáng)算法的研究及應(yīng)用畢業(yè)論文_第3頁
強(qiáng)背景噪聲環(huán)境下語音增強(qiáng)算法的研究及應(yīng)用畢業(yè)論文_第4頁
強(qiáng)背景噪聲環(huán)境下語音增強(qiáng)算法的研究及應(yīng)用畢業(yè)論文_第5頁
已閱讀5頁,還剩181頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

強(qiáng)背景噪聲環(huán)境下語音增強(qiáng)算法的研究及應(yīng)用(申請(qǐng)清華大學(xué)工學(xué)碩士學(xué)位論文)關(guān)于學(xué)位論文使用授權(quán)的說明本人完全了解清華大學(xué)有關(guān)保留、使用學(xué)位論文的規(guī)定,即:清華大學(xué)擁有在著作權(quán)法規(guī)定范圍內(nèi)學(xué)位論文的使用權(quán),其中包括:(1)已獲學(xué)位的研究生必須按學(xué)校規(guī)定提交學(xué)位論文,學(xué)??梢圆捎糜坝?、縮印或其他復(fù)制手段保存研究生上交的學(xué)位論文;(2)為教學(xué)和科研目的,學(xué)??梢詫⒐_的學(xué)位論文作為資料在圖書館、資料室等場(chǎng)所供校內(nèi)師生閱讀,或在校園網(wǎng)上供校內(nèi)師生瀏覽部分內(nèi)容;(3)根據(jù)《中華人民共和國(guó)學(xué)位條例暫行實(shí)施辦法》,向國(guó)家圖書館報(bào)送可以公開的學(xué)位論文。(保密的論文在解密后遵守此規(guī)定)I人們?cè)谡Z音通信過程中不可避免地會(huì)受到各種噪聲的干擾,影響了通信質(zhì)量。同時(shí),噪聲的存在也使低速率語音編碼以及語音識(shí)別等語音處理系統(tǒng)的性能下降。語音增強(qiáng)作為一種預(yù)處理手段,不失為解決噪聲污染的一種有效途在各類語音增強(qiáng)技術(shù)中,基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法處于主流位置,得到廣泛應(yīng)用。本文針對(duì)短時(shí)譜幅度估計(jì)在低輸入信噪比以及非平穩(wěn)噪聲環(huán)境下,性能不夠理想這一不足加以研究改進(jìn),完成穩(wěn)健的語音增強(qiáng)算法設(shè)計(jì)和實(shí)時(shí)實(shí)現(xiàn)。根據(jù)對(duì)短時(shí)譜幅度估計(jì)算法進(jìn)行分析,指出了影響其性能的關(guān)鍵技術(shù):噪聲統(tǒng)計(jì)特性的估計(jì)、語音激活檢測(cè)算法、先驗(yàn)信噪比估計(jì)、增益函數(shù)首先,提出了一種快速估計(jì)噪聲統(tǒng)計(jì)特性的算法,減小了噪聲估計(jì)的跟蹤延時(shí),在一定程度上改善了噪聲過估計(jì)的現(xiàn)象,因而能夠在低輸入信噪比以及非平穩(wěn)噪聲干擾環(huán)境下快速準(zhǔn)確地跟蹤噪聲特性。由于檢測(cè)門限與噪聲估計(jì)相適應(yīng),因而提高了檢測(cè)性能,尤其在非平穩(wěn)噪聲干擾環(huán)境下得到了良好的檢測(cè)效果。同時(shí),利用語音激活檢測(cè)算法中傅里葉變換再次,對(duì)先驗(yàn)信噪比估計(jì)的反饋因子進(jìn)行最優(yōu)化調(diào)整,引入與長(zhǎng)時(shí)統(tǒng)計(jì)信同時(shí),利用軟判決信息,即有關(guān)語音存在的概率信息,修正增益函數(shù)表達(dá)式中最后,相關(guān)算法已用C語言和TMS320C55xDSP匯編語言在PC機(jī)和DSP硬件平臺(tái)上實(shí)現(xiàn)。仿真實(shí)驗(yàn)和實(shí)時(shí)測(cè)試均表明改進(jìn)的語音增強(qiáng)算法在不明顯損傷語音可懂度的同時(shí),可以有效地抑制背景噪聲、提高信噪比,在低輸入信噪比和非平穩(wěn)噪聲環(huán)境下性能提高尤為顯著。關(guān)鍵詞:語音增強(qiáng)非平穩(wěn)噪聲短時(shí)譜幅度估計(jì)噪聲估計(jì)語音激活檢測(cè)先驗(yàn)信噪比Ⅱnoisesinevitably,whichaffectsthecommunicationquality.Furthermore,aneffectivepreprocessingmethodtoreducethedisturbanceofnoise.Short-TimeSpectralAmplitude(STSA)estimationhavebeenwellinveontheTMS320C55xDSPplatformsummarized,includingtheestimationofnoisestatisticcharacteristics,voiceactivitydetection(VAD)algorithm,theestimationofaprioriSNR,andthemodificationofgainfunction,etc.proposed.Themethoddecreasestheadaptationtimeoftheover-estimationphenomenontosomeextent,thuscantnon-stationarynoiseenvironments.UniformlyMostPowerful(UMP)testisdetectionperfomance,especiallyinnon-stationarynoisethedualtonemultiplefrequency(DTMF)sstatisticinformation.Moplatform.Bothsimulationexperimentsandreal-timebackgroundnoiseandincreasingtheSNRwithoutapparentlyimpairingthe目錄 11.1語音增強(qiáng)課題背景 11.2帶噪語音模型 21.2.1語音的主要特性 21.2.2噪聲的主要特性 31.2.3人耳的感知特性 41.2.4背景噪聲對(duì)于語音的影響 41.3語音增強(qiáng)的發(fā)展歷史 51.4語音增強(qiáng)算法分類 51.5論文研究工作 71.6論文內(nèi)容組織 71.7本章小結(jié) 7第2章基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法概述 82.1本章引論 82.2語音增強(qiáng)算法概述 82.2.1自適應(yīng)噪聲對(duì)消法 82.2.2諧波增強(qiáng)法 92.2.3基于語音生成模型的語音增強(qiáng)算法 2.2.4基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法 2.2.5其他幾種形式的語音增強(qiáng)算法 2.3基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法 2.3.1譜減法的一般形式 2.3.2譜減法的改進(jìn)形式 2.3.3維納濾波法 2.3.4MMSE估計(jì)法 2.4基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法的關(guān)鍵技術(shù) 2.5本章小結(jié) 第3章噪聲統(tǒng)計(jì)特性估計(jì)的研究 3.1本章引論 3.2基于語音激活檢測(cè)的噪聲統(tǒng)計(jì)特性估計(jì) 3.3直接形式的噪聲統(tǒng)計(jì)特性估計(jì) V3.3.1簡(jiǎn)單的直接噪聲統(tǒng)計(jì)特性估計(jì) 3.3.2基于最小統(tǒng)計(jì)的噪聲統(tǒng)計(jì)特性估計(jì) 3.4噪聲功率譜的快速估計(jì) 3.4.1自適應(yīng)最優(yōu)短時(shí)譜平滑 3.4.2不依賴窗長(zhǎng)的最小值搜索 3.4.3引入語音存在概率 3.4.4噪聲功率譜更新 3.4.5語音存在概率的準(zhǔn)確估計(jì)以及噪聲功率譜的迭代更新 3.4.6測(cè)試結(jié)果及結(jié)論 3.5本章小結(jié) 第4章語音激活檢測(cè)算法研究 4.1本章引論 4.2傳統(tǒng)語音激活檢測(cè)算法 4.2.1G729AnnexB標(biāo)準(zhǔn)的語音激活檢測(cè)算法 4.2.2G723.1AnnexA標(biāo)準(zhǔn)的語音激活檢測(cè)算法 4.2.3GSM標(biāo)準(zhǔn)的語音激活檢測(cè)算法 4.3基于高斯模型和一致最大勢(shì)檢驗(yàn)的語音激活檢測(cè)算法 4.3.1基于高斯模型的似然比檢測(cè) 4.3.2一致最大勢(shì)檢驗(yàn)準(zhǔn)則 4.3.3短時(shí)譜最優(yōu)化平滑以及自適應(yīng)門限平滑 4.3.4拖尾延遲保護(hù) 4.3.5基于高斯模型和UMP檢驗(yàn)的VAD算法流程 4.3.6測(cè)試結(jié)果以及結(jié)論 4.4雙音多頻信號(hào)的生成與檢測(cè) 4.4.1雙音多頻信號(hào)的生成 4.4.2雙音多頻信號(hào)的檢測(cè) 4.4.3測(cè)試結(jié)果 4.5本章小結(jié) 第5章語音增強(qiáng)算法的研究與實(shí)現(xiàn) 5.1本章引論 5.2本文語音增強(qiáng)算法流程 5.2.1分幀和加窗 5.2.2先驗(yàn)/后驗(yàn)信噪比估計(jì) 5.2.3長(zhǎng)時(shí)信噪比估計(jì) 5.2.4增益函數(shù)的計(jì)算 5.3語音增強(qiáng)算法評(píng)測(cè)標(biāo)準(zhǔn) 5.3.1增強(qiáng)語音的主觀評(píng)測(cè) 5.3.2增強(qiáng)語音的客觀評(píng)測(cè) 5.4語音增強(qiáng)算法測(cè)試 5.4.1測(cè)試環(huán)境 5.4.2測(cè)試結(jié)果 5.5本章小結(jié) 6.1本章引論 6.2.1TMS320C55x內(nèi)部結(jié)構(gòu) 6.2.2TMS320C55x總線結(jié)構(gòu) 6.2.3TMS320C55x流水線操作 6.3語音增強(qiáng)算法的DSP實(shí)現(xiàn)和優(yōu)化 6.3.1C代碼定點(diǎn)化 6.3.2TMS320C55x匯編程序編程 6.3.3算法在TMS320C55xDSP上的資源消耗 6.4本章小結(jié) 第7章結(jié)論與展望 7.1結(jié)論 7.2展望 參考文獻(xiàn) 個(gè)人簡(jiǎn)歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果 NMSE判斷滿意度測(cè)試(DiagnosticAcceptabili診斷押韻測(cè)試(DiagnosticRhymeTest)雙音多頻(DualToneMultipleFrequency)無限沖激響應(yīng)(InfiniteImpulseResponse)卡一洛變換(KarhunenLoeveTransform)最小均方誤差(MinimumMean-SquaredError)分段式信噪比(SegmentalSignal-to-NoiseRa信噪比(Signal-to-NoiseRatio)短時(shí)譜幅度(Short-TimeSpectralAmplitude)一致最大勢(shì)(UniformlyMostPow)語音激活檢測(cè)(VoiceActivityDetection)超大規(guī)模集成電路(VeryLargeScaleInt1第1章引言21世紀(jì)的通信是人與人之間、人與機(jī)器之間高質(zhì)量的無縫的信息交換。語言是人類交流的重要手段,它自然方便,準(zhǔn)確高效。語音通信也是一種理想的人機(jī)通信方式。人們一直夢(mèng)想著有朝一日可以擺脫鍵盤或遙控設(shè)備的束縛,擁有更為友好、親切的人機(jī)界面,讓計(jì)算機(jī)或家用電器可以聽懂人的話語,看懂人的動(dòng)作,執(zhí)行人們所希望的任何任務(wù)。而語音數(shù)字信號(hào)處理正是其中一項(xiàng)至關(guān)重要的應(yīng)用技術(shù)。應(yīng)用現(xiàn)代化手段研究語音處理技術(shù),能更有效地產(chǎn)生、傳輸、存儲(chǔ)和獲取語音信息,這對(duì)促進(jìn)社會(huì)的信息化發(fā)展具有十分重要的意義。因此,語音信號(hào)處理目前已成為信息科學(xué)研究領(lǐng)域中發(fā)展最為迅速的的一個(gè)分語音信號(hào)處理是語音學(xué)與數(shù)字信號(hào)處理技術(shù)相結(jié)合的交叉學(xué)科,它和認(rèn)知科學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)、模式識(shí)別和人工智能等學(xué)科聯(lián)系緊密,在數(shù)字話音通信,聲控打印機(jī),自動(dòng)語音翻譯和多媒體信息處理等許多方面都有非常重要的應(yīng)用。語音數(shù)字信號(hào)處理包含的內(nèi)容十分廣泛,如包括語音編碼、語音識(shí)別、語音合成、語音增強(qiáng)等。其中,語音增強(qiáng)是語音數(shù)字信號(hào)處理系統(tǒng)1.1語音增強(qiáng)課題背景人們?cè)谡Z音通信過程中不可避免地會(huì)受到各種噪聲的干擾,比如,來自周圍環(huán)境、傳輸媒介引入的噪聲,通信設(shè)備內(nèi)部電噪聲以及其它講話者的干擾這些噪聲干擾使接收者接收到的語音已非純凈的原始語音信號(hào),而是受噪聲污染的帶噪語音信號(hào)。例如,室內(nèi)會(huì)議電話的交混回響隨同語音廣播到每個(gè)會(huì)議地點(diǎn),影響收聽效果。再如在軍用車載通信系統(tǒng)中,尤其是坦克車內(nèi)的通信系統(tǒng),所處的噪聲環(huán)境較一般環(huán)境更為惡劣,其噪聲強(qiáng)度可達(dá)到120分貝左右。如此強(qiáng)度的噪聲不僅會(huì)對(duì)通信質(zhì)量產(chǎn)生嚴(yán)重影響,而且對(duì)通信接收者而言也是同時(shí),環(huán)境噪聲污染使許多語音處理系統(tǒng)的性能急劇惡化。例如,語音識(shí)別已取得重大進(jìn)展,正在步入實(shí)用階段。但目前的識(shí)別系統(tǒng)大都是在安靜環(huán)境中工作的,在噪聲環(huán)境中尤其是強(qiáng)噪聲環(huán)境,語音識(shí)別系統(tǒng)的識(shí)別率將受到嚴(yán)2重影響。低速率語音編碼通常采用參數(shù)編碼,其基礎(chǔ)是語音生成模型。當(dāng)模型參數(shù)的提取受到背景噪聲的嚴(yán)重干擾時(shí),重建語音的質(zhì)量將急劇惡化,甚至變得完全不可懂。在上述情況下,語音增強(qiáng)作為一種預(yù)處理手段,不失為解決噪目前流行的語音增強(qiáng)處理方法,雖然能夠在一定程度上去除背景噪聲,提高信噪比,但在低輸入信噪比和非平穩(wěn)噪聲干擾的情況下增強(qiáng)效果有限,殘留噪聲較多,部分弱語音信號(hào)會(huì)被當(dāng)作噪聲而完全抑制,從而造成語音可懂度的下降。針對(duì)上述惡劣情況,設(shè)法改善語音增強(qiáng)效果,提高語音質(zhì)量,改善通信系統(tǒng)性能,使語音增強(qiáng)技術(shù)更好地應(yīng)用于軍用和民用產(chǎn)品中。本課題正是在這1.2帶噪語音模型圖1.1帶噪語音模型噪聲假定為加性噪聲,且與純凈語音不相關(guān),可以得到如圖1.1所示的帶噪語音模型。這個(gè)帶噪語音模型將作為本文語音增強(qiáng)分析的基礎(chǔ)。語音增強(qiáng)的主語音增強(qiáng)是以語音特性、噪聲特性以及人耳感知特性為理論基礎(chǔ)的。本節(jié)將分別敘述語音和噪聲的主要特性、人耳的感知特性以及背景噪聲對(duì)語音的影1.2.1語音的主要特性1)語音是一個(gè)時(shí)變的、非平穩(wěn)的隨機(jī)過程。人類發(fā)聲器官的生理結(jié)構(gòu),決定了其變化速度是有一定限度的。在較短的一段時(shí)間(10~30msec)內(nèi),人的聲帶和聲道形狀具有相對(duì)穩(wěn)定性,可認(rèn)為表征其特征的參數(shù)是不變的,因而語音短時(shí)譜分析也具有相對(duì)穩(wěn)定性。語音的這種短時(shí)平穩(wěn)性是語音信號(hào)處理的基礎(chǔ)。32)語音大體上可以分為清音和濁音兩大類。從語音產(chǎn)生機(jī)理上看,兩者有頻域上呈現(xiàn)共振峰結(jié)構(gòu),而且能量大部分集中于較低的頻段內(nèi)。清音則完全不同,它沒有明顯的時(shí)域和頻域特征,類似于白噪聲。在語音增強(qiáng)中,對(duì)濁音的3)作為一個(gè)隨機(jī)過程,語音信號(hào)可以用統(tǒng)計(jì)特性來描述。語音信號(hào)是非平穩(wěn)、非遍歷的隨機(jī)過程,長(zhǎng)時(shí)時(shí)域統(tǒng)計(jì)特性在語音增強(qiáng)中意義不大。語音短時(shí)譜的統(tǒng)計(jì)特性是時(shí)變的,只有分析幀的長(zhǎng)度趨于無窮大時(shí),才能近似認(rèn)為其服從高斯分布。在高斯模型假設(shè)下,傅立葉展開系數(shù)被認(rèn)為是獨(dú)立的高斯隨機(jī)變量,均值為0,方差時(shí)變。這種高斯模型在幀長(zhǎng)有限時(shí)只是一種近似的描述,在1.2.2噪聲的主要特性噪聲的來源取決于實(shí)際的應(yīng)用環(huán)境,因而噪聲特性可以說是變化多樣的。噪聲可以是加性的,也可以是非加性的。對(duì)于非加性噪聲,有些可以通過相應(yīng)的變換而轉(zhuǎn)變?yōu)榧有栽肼?。例如,乘性噪?或卷積噪聲)可以通過同態(tài)變換,而成為加性噪聲。又如,某些與信號(hào)相關(guān)的量化噪聲可以通過偽隨機(jī)噪聲擾動(dòng)的方法變換成為與信號(hào)獨(dú)立的加性噪聲。非加性噪聲可以通過一定的變換轉(zhuǎn)化為加性噪聲,并且課題應(yīng)用背景下的噪聲屬于加性噪聲,因此這里只討論加性噪聲。加性噪聲大致上有:周期性噪聲、脈沖噪聲、寬帶噪聲和同聲道其它語1)周期性噪聲其特點(diǎn)是具有許多離散的線譜,主要來源于發(fā)動(dòng)機(jī)等周期性運(yùn)轉(zhuǎn)的機(jī)械。電器干擾,尤其是電源交流聲也會(huì)引起周期性噪聲。這種周期性噪聲可以用梳2)脈沖噪聲其表現(xiàn)為時(shí)域波形中出現(xiàn)的窄脈沖,主要源于爆炸、撞擊和放電等。這種脈沖噪聲可以在時(shí)域中對(duì)信號(hào)幅度適當(dāng)設(shè)置閾值來判別并加以適當(dāng)衰減或消除,也可以根據(jù)相鄰信號(hào)的樣值,通過內(nèi)插的方法將脈沖噪聲在時(shí)域進(jìn)行平滑。3)寬帶噪聲其與語音信號(hào)在時(shí)域和頻域上完全重疊,只有在語音間歇期才單獨(dú)存在,4因而消除困難。其來源很多,主要有熱噪聲、氣流噪聲以及各種隨機(jī)噪聲。目4)同聲道語音干擾人耳可以在兩人以上的講話環(huán)境中分辨出所需要的聲音,這種分辨能力是人腦語音理解機(jī)理的一種感知能力。人類的這種分離語音的能力稱為“雞尾酒會(huì)效應(yīng)”,來源于人的雙耳的輸入效應(yīng)。但當(dāng)多個(gè)語音疊合在一起,在單信道中傳輸時(shí),雙耳信號(hào)因合并而消失。目前針對(duì)同聲道語音干擾的增強(qiáng)處理還處于1.2.3人耳的感知特性語音增強(qiáng)的效果最終取決于人的主觀感受。人耳的感知特性對(duì)語音增強(qiáng)的研究有著非常重要的作用,了解其機(jī)理將有助于語音增強(qiáng)技術(shù)的發(fā)展。1)人耳對(duì)語音的感知是通過語音信號(hào)中各頻譜分量的幅度獲得的,而對(duì)各2)人耳對(duì)頻譜分量強(qiáng)度的感受是頻率與能譜的二元函數(shù),響度與頻譜幅度3)人耳對(duì)頻率高低的感受與該頻率的對(duì)數(shù)近似成正比;4)人耳有掩蔽效應(yīng),即強(qiáng)信號(hào)對(duì)弱信號(hào)有掩蓋的抑制作用。掩蔽的程度是聲音強(qiáng)度與頻率的二元函數(shù),對(duì)頻率臨近分量的掩蔽程度大于對(duì)頻差大的分量5)語音短時(shí)譜中的共振峰對(duì)語音的感知十分重要,特別是第二共振峰比第一共振峰更為重要,因此對(duì)語音信號(hào)進(jìn)行一定程度的高通濾波不會(huì)對(duì)可懂度造6)人耳在兩人以上的講話環(huán)境中有能力分辨出需要聆聽的聲音。其中,第一條感知特性是基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法的基礎(chǔ),利1.2.4背景噪聲對(duì)于語音的影響背景噪聲破壞了語音信號(hào)原有的聲學(xué)特征和模型參數(shù),模糊了不同語音之間的差別,使語音質(zhì)量下降,可懂度降低。強(qiáng)背景噪聲會(huì)使人產(chǎn)生聽覺疲勞。不僅如此,強(qiáng)噪聲環(huán)境還對(duì)講話人產(chǎn)生影響,使講話人改變?cè)诎察o環(huán)境或低噪5聲環(huán)境中的發(fā)聲方式,從而改變了語音的特征參數(shù),稱為L(zhǎng)ombard效應(yīng),它對(duì)在實(shí)際需求的推動(dòng)下,早在上個(gè)世紀(jì)60年代,語音增強(qiáng)這個(gè)研究課題就引起了廣泛關(guān)注。隨著數(shù)字信號(hào)處理理論的成熟,70年代曾形成一個(gè)理論研究高潮,取得了一些基礎(chǔ)性成果,并使語音增強(qiáng)發(fā)展成為語音信號(hào)處理領(lǐng)域的一個(gè)重要分支。人們首先提出用梳狀濾波器加強(qiáng)周期性的語音而衰減非周期的噪聲Lim和Oppoenheim提出了語音增強(qiáng)的維納濾波算法。1979年,Boll?提出了譜減法來抑制噪聲。但由于各種算法的計(jì)算量比較大,導(dǎo)致它們的實(shí)用性受到影也涌現(xiàn)了大量新的算法,在語音識(shí)別中使用的概念和方法也被借鑒到語音增強(qiáng)算法中。1980年,Mcaulay和Malpass10提出了軟判決噪聲抑制方法。1984年,Ephraim和Malah”提出基于MMSE短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法。1987年,語音增強(qiáng)算法成為研究的中心。統(tǒng)計(jì)方法中最典型的是隱馬爾可夫模型(HMM用于語音增強(qiáng)中,或者進(jìn)行卡一洛變換(KLT)[15],利用神經(jīng)網(wǎng)絡(luò)[6進(jìn)行語音增強(qiáng)。此外,采用麥克風(fēng)陣列輸入多個(gè)帶噪混合信號(hào),再通過計(jì)算進(jìn)行濾波也受到很大重視。應(yīng)用獨(dú)立元分量分析來進(jìn)行語音信號(hào)盲分離和增強(qiáng)的方法,以1.4語音增強(qiáng)算法分類語音增強(qiáng)是解決噪聲污染的有效方法,它的首要目標(biāo)就是在接收端盡可能地從帶噪語音信號(hào)中提取純凈的語音信號(hào),改善其質(zhì)量。語音增強(qiáng)不僅涉及信號(hào)檢測(cè)、波形估計(jì)等傳統(tǒng)信號(hào)處理理論;而且與語音特性、人耳感知特性密切相關(guān);再則,實(shí)際應(yīng)用中噪聲的來源及種類也各不相同。所以,語音增強(qiáng)的處6理方法具有多樣性。因此,要結(jié)合語音特性、人耳感知特性及噪聲特性,根據(jù)就語音增強(qiáng)算法而言,根據(jù)所用的麥克數(shù)量可劃分為三種形式,分別為基高斯自回歸模型的輸出,并采用迭代算法,從帶噪語音信號(hào)中估計(jì)自回歸模型參數(shù),然后利用這些參數(shù)構(gòu)造全極點(diǎn)濾波器進(jìn)行濾波。這種算法后來有很多發(fā)展,如在上述迭代過程中施加有關(guān)共振峰的約束,使處理后的信號(hào)更具有語音的特點(diǎn);或者把這類方法與隱馬爾可夫方法結(jié)合起來,以更好地描述語音的時(shí)變特性。此類方法一般運(yùn)算量比較大,而且當(dāng)實(shí)際的噪聲和語音與模型有較大的差距或是提取參數(shù)比較困難的時(shí)候,容易失效。另一類方法則主要是基于語由于人耳對(duì)語音短時(shí)譜相位的感知不敏感,事實(shí)上實(shí)際應(yīng)用中只需設(shè)法準(zhǔn)確估計(jì)出語音的短時(shí)譜幅度(ShortTimeSpectralAmplitude,STSA),基于STSA估計(jì)的語音增強(qiáng)方法一般都是直接采用帶噪語音的相位作為增強(qiáng)語音的相位。此類算法運(yùn)算量相對(duì)較小,適用信噪比范圍比較大,并且易于實(shí)時(shí)處理,因此得到廣泛應(yīng)用,譜減法、維納濾波法以及MMSE法等方法都屬于此類。近些年來,人們又陸續(xù)提出了一些基于信號(hào)子空間處理以及基于神經(jīng)網(wǎng)絡(luò)的語音增強(qiáng)算基于雙麥克的語音增強(qiáng)主要采用自適應(yīng)噪聲消除技術(shù)進(jìn)行語音增強(qiáng)。如果能在時(shí)域或者在頻域,直接從帶噪語音中將噪聲分量減去,則能有效增強(qiáng)帶噪語音。噪聲對(duì)消法就是以此作為出發(fā)點(diǎn),其最大特點(diǎn)是需要采集背景噪聲作為參考信號(hào),參考信號(hào)準(zhǔn)確與否直接決定著噪聲對(duì)消法的性能。在采集背景噪聲時(shí),往往采用自適應(yīng)濾波技術(shù),以便使參考信號(hào)盡可能接近帶噪語音中的噪聲基于麥克陣的語音增強(qiáng)采用多個(gè)以一定方式排列的采集設(shè)備接收信號(hào)。由于不同的獨(dú)立信號(hào)源與各個(gè)采集設(shè)備之間的距離不同,最后在各個(gè)接受設(shè)備中的合成信號(hào)也會(huì)產(chǎn)生相應(yīng)的差異,再采用獨(dú)立成分分析技術(shù)將各個(gè)獨(dú)立信號(hào)分7基于單麥克的語音增強(qiáng)一直是各種語音增強(qiáng)方法中研究的熱點(diǎn),相關(guān)理論也相對(duì)成熟。本課題的應(yīng)用背景,提供的是單麥克,因此本文的研究工作是基于單麥克的語音增強(qiáng)。考慮到具體應(yīng)用的各種要求,主要是研究基于短時(shí)譜幅論文分析了各種語音增強(qiáng)方法的優(yōu)缺點(diǎn),并根據(jù)課題的需要,利用隨機(jī)信號(hào)處理的方法,研究并實(shí)現(xiàn)了基于MMSE短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法。針對(duì)目前流行的語音增強(qiáng)算法在低輸入信噪比(0dB以下)和非平穩(wěn)噪聲干擾環(huán)境下增強(qiáng)效果有限的問題,論文借鑒國(guó)內(nèi)外提出的相關(guān)技術(shù),通過對(duì)噪聲統(tǒng)計(jì)特性估計(jì)、語音激活檢測(cè)、先驗(yàn)信噪比的估計(jì)、增益函數(shù)修正這幾個(gè)方面進(jìn)行改進(jìn),提高了短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法性能,拓寬了語音增強(qiáng)的應(yīng)用范圍。由于課題需要,論文對(duì)語音增強(qiáng)算法的實(shí)時(shí)應(yīng)用進(jìn)行了適應(yīng)性研究。在選定的DSP芯片處理能力有限的情況下,通過定全文共分七章:第1章是引言;第2章是基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法概述;第3章噪聲統(tǒng)計(jì)特性估計(jì)的研究;第4章是語音激活檢測(cè)算法研究;第5章是語音增強(qiáng)算法的研究與實(shí)現(xiàn);第6章是基于TMS320C55xDSP硬件平臺(tái)的實(shí)時(shí)實(shí)現(xiàn);第7章是結(jié)論。本章首先介紹了語音增強(qiáng)在語音處理系統(tǒng)中的作用,指出了選題背景和選題意義,并給出了加性噪聲情況下的帶噪語音模型,闡述了與語音增強(qiáng)密切相關(guān)的語音和噪聲的主要特性、人耳的感知特性以及背景噪聲對(duì)語音的影響。然后,簡(jiǎn)要概述了語音增強(qiáng)的發(fā)展和分類,并根據(jù)課題要求提出了本文的主要研第2章基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法概述8第2章基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法概述語音增強(qiáng)的目的是針對(duì)帶噪語音盡可能地消除噪聲的影響,提取出純凈的原始語音。但是,由于噪聲干擾的隨機(jī)性,從帶噪語音中提取完全純凈的原始以顯著地降低背景噪聲,改進(jìn)語音質(zhì)量,但是對(duì)語音也造成了很大的損傷。因此在研究過程中,通常要根據(jù)不同的要求,選用不同算法,設(shè)置不同的參數(shù),介紹基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法;2.4節(jié)總結(jié)基于短時(shí)譜幅度估計(jì)的語還待發(fā)展,但是某些增強(qiáng)算法已證明是有效果的,如噪聲對(duì)消法、諧波增強(qiáng)法、噪聲對(duì)消的基本原理是從帶噪語音中減去噪聲,問題是如何得到噪聲的復(fù)制品。通常采用兩個(gè)(或多個(gè))話筒進(jìn)行處理,一個(gè)(或多個(gè))采集帶噪語音,另一個(gè)(或多個(gè))采集噪聲。圖2.1給出了雙話筒采集的噪聲對(duì)消法原理框圖。采用噪聲對(duì)消法時(shí),兩個(gè)話筒之間必須要有相當(dāng)?shù)拈g隔度,但采集到的兩路信號(hào)之間不可避免地會(huì)有時(shí)間差,因此實(shí)時(shí)采集到的兩路信號(hào)中所包含的噪聲段因而,采集到的噪聲必須經(jīng)過自適應(yīng)濾波,以得到盡可能接近于帶噪語音中的噪聲。自適應(yīng)濾波器通常采用FIR濾波器,其系數(shù)可以采用最小均方(LMS) 9帶噪語音FFT自適應(yīng)濾波IFFT大量實(shí)驗(yàn)表明,在強(qiáng)背景噪聲下,使用自適應(yīng)噪聲對(duì)消法進(jìn)行語音增強(qiáng)可以得到很好的消噪效果。如果采集的噪聲足夠充分,也可以直接在時(shí)域上相減。噪聲對(duì)消法的一個(gè)主要缺點(diǎn)是增強(qiáng)后的語音會(huì)有“音樂噪聲”,這種噪聲是頻譜相減的遺留產(chǎn)物,由于具有一定的節(jié)奏性起伏,聽上去類似音樂聲。語音信號(hào)的濁音段有明顯的周期性,利用這一特點(diǎn),可以采用自適應(yīng)梳妝濾波器來提取語音分量,抑制噪聲。梳狀濾波器可以在時(shí)域?qū)崿F(xiàn),表達(dá)式為:這里,t為基頻周期,x為常數(shù)(通常不大);x(n)是濾波器輸入信號(hào)序列;c.為系數(shù),隨信號(hào)周期而變化。輸出信號(hào)是輸入信號(hào)的延時(shí)加權(quán)和的平均值。當(dāng)延時(shí)與周期一致時(shí),這個(gè)平均過程將使周期性分量得到加強(qiáng),而會(huì)使其他非周期性分量或與語音信號(hào)周期不同的其他周期性分量受到抑制。顯然,上述方法的關(guān)鍵是要準(zhǔn)確估計(jì)出語音信號(hào)的基音周期,這在強(qiáng)背景噪聲干擾下有一定的困難。在基音發(fā)生變化的過渡段,這種方法會(huì)受到嚴(yán)重影響。選擇m=1可以減小這種影響,但增強(qiáng)效果下降。M與梳狀濾波器的帶寬梳狀濾波器也可以在頻域?qū)崿F(xiàn)。對(duì)語音進(jìn)行傅里葉變換后可以鑒別出需要提取的各次諧波分量,然后經(jīng)傅里葉反變換恢復(fù)為時(shí)域信號(hào)。梳狀濾波不但可增強(qiáng)語音信號(hào),也可以用于抑制各種噪聲干擾,包括消除同聲道的其他語音的干擾。同時(shí)對(duì)兩個(gè)語音進(jìn)行梳狀濾波的主要問題是:存在另一個(gè)人說話干擾時(shí),如何跟蹤并準(zhǔn)確估計(jì)出講話者的基音。第2章基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法概述2.2.3基于語音生成模型的語音增強(qiáng)算法語音的發(fā)聲過程可以模型化為激勵(lì)源作用于一個(gè)線性時(shí)變?yōu)V波器,激勵(lì)源可以分濁音和清音兩類,濁音的激勵(lì)源為周期與基音相同的周期性脈沖串;而對(duì)于清音,激勵(lì)源為高斯白噪聲。時(shí)變?yōu)V波器則是聲道的模型。通常認(rèn)為聲道模型是一個(gè)全極點(diǎn)濾波器,濾波器參數(shù)可以通過線性預(yù)測(cè)分析得到。如圖2.2所示。但若考慮到鼻腔的共鳴作用,采用零極點(diǎn)模型更為合適。顯然,如果能夠知道激勵(lì)參數(shù)和聲道濾波器的參數(shù),就能利用語音生成模型合成得到“純凈”的語音。這種增強(qiáng)方法稱為分析—合成法,關(guān)鍵在于如何從帶噪語音中準(zhǔn)確地估計(jì)語音模型的參數(shù),即激勵(lì)參數(shù)和聲道參數(shù)。另一種方法則是鑒于激勵(lì)參數(shù)難以準(zhǔn)確估計(jì),而只利用聲道參數(shù)構(gòu)造濾波器進(jìn)行濾波處理。s(n)圖2.2語音的全極點(diǎn)生成模型Lim和Oppenheim采用了MAP準(zhǔn)則來估計(jì)聲道的全極點(diǎn)參數(shù)。對(duì)于語音平穩(wěn)隨機(jī)過程而言,相當(dāng)于乘了一個(gè)零相位的維納濾波器。主觀測(cè)量表明它可以減少可感知的噪聲從而改善語音的質(zhì)量,但對(duì)語音也造成了一定的損傷,原因是算法中的迭代缺乏明顯的收斂準(zhǔn)則,且隨著迭代次數(shù)的增加共振峰帶寬變小。Hansen和Clements(2I在上述迭代過程中加入了頻譜限制條件,使極點(diǎn)不太靠近單位圓,以防止共振峰帶寬過窄,但引起了共振峰位置的較大抖動(dòng)。2.2.4基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法如前所述,語音是非平穩(wěn)隨機(jī)過程,但在10~30msec的分析幀內(nèi)可以近似為平穩(wěn)的隨機(jī)過程。如果能從帶噪語音的短時(shí)譜中估計(jì)出“純凈”語音的短時(shí)譜,即可達(dá)到增強(qiáng)的目的。由于噪聲也是隨機(jī)過程,因此這種估計(jì)只能建立 在統(tǒng)計(jì)模型基礎(chǔ)上。人耳感知對(duì)語音頻譜分量的相位不敏感,因此目前的增強(qiáng)算法主要針對(duì)短時(shí)譜幅度進(jìn)行估計(jì)。此類算法運(yùn)算量相對(duì)較小,適用信噪比范圍比較大,并且易于實(shí)時(shí)處理,因而得到廣泛應(yīng)用。譜相減法、維納濾波法以及MMSE法是短時(shí)譜估計(jì)中的三種行之有效的增強(qiáng)算法,下節(jié)將詳細(xì)介紹這三種2.2.5其他幾種形式的語音增強(qiáng)算法除上面介紹的幾種語音增強(qiáng)算法外,Ephraim和VanTrees221提出了一種基于信號(hào)子空間的語音增強(qiáng)算法,其基本思想是把帶噪語音信號(hào)的矢量空間通過KLT分解為噪聲子空間以及信號(hào)加噪聲的子空間,去除噪聲子空間后,在信號(hào)加噪聲子空間中濾波估計(jì)出語音信號(hào)。還有基于小波分析[14的方法,其基本思想是小波變化把信號(hào)在多個(gè)尺度上進(jìn)行了子波分解,而各尺度上分解所得的子波變換系數(shù)代表原信號(hào)在不同分辨率上的信息,利用信號(hào)和隨機(jī)噪聲在不同尺度的特性關(guān)系進(jìn)行去噪處理。近年來,人們正在探索將神經(jīng)網(wǎng)絡(luò)、隱馬爾可夫模型、人耳聽覺掩蔽效應(yīng)以及多分辨率分析等理論用于語音增強(qiáng)算法。2.3基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法表示為分別為y(),s(i)里葉變換系數(shù)。為了分析簡(jiǎn)單,假設(shè)各個(gè)傅里葉系數(shù)(即各個(gè)頻率分量)之間是互不相關(guān) 由于so和a(u)統(tǒng)計(jì)獨(dú)立,所以s,和p,互相獨(dú)立,并假定p,服從零均值高斯分布,方差可以通過無語音時(shí)對(duì)噪聲的分析獲得。語音增強(qiáng)的任務(wù)就是利用已知的噪聲功率譜信息,從y,中估計(jì)s,。由于人耳對(duì)頻譜分量的相位不敏感,所以只需估計(jì)頻譜分量的幅度a,,然后借用帶噪語音的相位,進(jìn)行反傅里葉變換后就可得到增強(qiáng)的語音。這類基于語音短時(shí)譜估計(jì)的語音增強(qiáng)方法的原理框圖如圖2.3所示。圖中,i、s(n)為A,、s(n)的估值。下面將分別介紹短時(shí)譜估計(jì)的三種方法:譜減法、維納濾波法、MMSE估計(jì)相位0As(n)一般形式的譜相減法[9即在頻域?qū)г胝Z音的功率譜減去噪聲的功率譜得到純凈語音的功率譜估計(jì),開方之后得到語音譜幅度估計(jì),將其相位恢復(fù)之后采用逆一傅立葉變換恢復(fù)時(shí)域信號(hào)。基本原理如圖2.4所示。|Yfθ 十y(i)FFT變換后有由于s,與p,相互獨(dú)立,而p,近似滿足零均值的高斯分布,所以: 對(duì)于一個(gè)分析幀內(nèi)的短時(shí)平穩(wěn)過程,則有:為增強(qiáng)后語音信號(hào)譜幅度。傅里葉反變換后經(jīng)過相位插入,即可得時(shí)域的增強(qiáng)后語音信號(hào)。定義增益函數(shù):及后驗(yàn)信噪比:從式(2-12)中可以清楚地看出譜減法的物理意義:它相當(dāng)于對(duì)帶噪語音的每一個(gè)頻譜分量乘以一個(gè)系數(shù)c,。信噪比高時(shí),含有語音的可能性大,衰減小。反之,則認(rèn)為含有語音的可能性小,衰減大。令 則有計(jì)式可以用如下方法求得:通過積分消去a,后,有其中,t,C)為第0階修正貝塞爾函數(shù),令的估計(jì)式。則解方程后就可以得到5.的估計(jì)式。由于1()直接求解有一定困難,為此需要采取一定的簡(jiǎn)化措施。因?yàn)楫?dāng)x≥3時(shí),有所以在較高信噪比條件下,解方程后得到 2.3.2譜減法的改進(jìn)形式在實(shí)際應(yīng)用中,更多地采用譜相減法的改進(jìn)形式: 這種改進(jìn)形式與普通譜減法的差別在于引入了。和p這兩個(gè)參數(shù),為算法提供了很大的靈活性。顯然當(dāng)a=2.β=1時(shí),算法退化為一般的譜減法形式。噪聲估計(jì)值乘以α是出于這樣的考慮:一般的譜減法中,是以無聲期間統(tǒng)計(jì)平均的噪聲方差代替當(dāng)前分析幀各頻率點(diǎn)的噪聲頻譜分量。而噪聲頻譜具有高斯分布,即其幅度隨機(jī)變化范圍很寬。因此相減時(shí),若該幀某頻率點(diǎn)噪聲分量較大,就會(huì)有很大一部分殘留,在頻譜上呈現(xiàn)隨機(jī)出現(xiàn)的尖峰,在聽覺上形成有節(jié)奏起伏的類似音樂的殘留噪聲。為了解決上述問題,在語音能量較高的區(qū)域可以使β>1,即有意識(shí)地多減去一些,這樣可以更好地相對(duì)突出語音頻譜。當(dāng)然,此時(shí)引起的失真也可能會(huì)增大。調(diào)節(jié)參數(shù)。也可以取得類似的效果。2.3.3維納濾波法如果語音是一個(gè)平穩(wěn)過程,則維納濾波對(duì)應(yīng)著時(shí)域上的最小均方誤差準(zhǔn)則。其中p,(k),x,(k)分別為語音和噪聲的功率譜密度。然而實(shí)際語音只是短時(shí)平穩(wěn),功率譜密度也無法得到,因此增益改寫成為:若定義先驗(yàn)信噪比則式(2-24)改寫為與譜減法類似,維納濾波法也有如下推廣的式子 通過調(diào)整α和g,可以得到多種變形形式。維納濾波法最大的優(yōu)點(diǎn)是增強(qiáng)后的殘留噪聲類似白噪聲,而不是有節(jié)奏起伏的音樂噪聲。事實(shí)上,盡管維納濾波法導(dǎo)出的出發(fā)點(diǎn)不同,但形式上與譜減法差別不大,可以認(rèn)為是統(tǒng)一的。2.3.4MMSE估計(jì)法如前所述,譜減法為一種最大似然估計(jì),而維納濾波法則是平穩(wěn)條件下時(shí)域的最小均方誤差準(zhǔn)則意義下的估計(jì)。這兩種估計(jì)準(zhǔn)則都存在一定的缺陷:最大似然準(zhǔn)則完全放棄了對(duì)語音頻譜的分布假設(shè);維納濾波法將最小均方誤差準(zhǔn)則應(yīng)用于時(shí)域波形估計(jì),但對(duì)人耳來說,頻譜分量的幅度才是最重要的。而MMSE估計(jì)法就對(duì)應(yīng)頻域上的最小均方誤差準(zhǔn)則。設(shè)帶噪信號(hào)、干擾噪聲和純凈語音的頻譜分量分別用γ,=R,exp(D),D,,s,-A,exp(fa)表示,并假設(shè)語音譜和噪聲譜滿足獨(dú)立的高斯分布。尋找a,的MMSE估計(jì)為即假設(shè)各個(gè)頻譜分量相互獨(dú)立,由貝葉斯準(zhǔn)則得式(2-31),式(2-32)代入式(2-30)中,可得: 第2章基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法概述地,為合流超幾何函數(shù),可以用級(jí)數(shù)求和計(jì)算。1,)、1,O)分別表示0階和1階修正貝塞爾系數(shù),nγ分別表示先驗(yàn)信噪比和后驗(yàn)信噪比。將式(2-33)寫成增益函數(shù)的形式,定義于是有當(dāng)先驗(yàn)信噪比,,很高時(shí),即n>>1時(shí),這也意味著γ。>>1。此時(shí),合流超幾何函數(shù)可以近似為:代入式(2-35),得到與式(2-26)中維納濾波法增益式比較,可以看出此時(shí)與維納濾波法相同。2.4基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法的關(guān)鍵技術(shù)通過以上分析,基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法都可以寫成如下形式:譜減法:維納濾波法:MMSE估計(jì)法:先驗(yàn)信噪比后驗(yàn)信噪比第2章基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法概述許多語音增強(qiáng)算法中噪聲功率譜估計(jì)的基礎(chǔ),也能夠?yàn)橄闰?yàn)/后驗(yàn)信噪比的計(jì)算提供相關(guān)的統(tǒng)計(jì)信息。因此,論文的主要工作是針對(duì)背景噪聲統(tǒng)計(jì)特性的估計(jì)、語音激活檢測(cè)算法、先驗(yàn)信噪比估計(jì)、增益函數(shù)的修正等展開研究。本章對(duì)語音增強(qiáng)的相關(guān)算法做了全面論述,尤其對(duì)基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法做了詳細(xì)分析,指出了各種算法的優(yōu)缺點(diǎn)。然后,總結(jié)了基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法的關(guān)鍵技術(shù):背景噪聲統(tǒng)計(jì)特性的估計(jì)、語音激活檢測(cè)算法、先驗(yàn)信噪比估計(jì)、修正因子調(diào)整,為本課題的研究指明了方向。下面各章將分別對(duì)以上問題進(jìn)行闡述。 第3章噪聲統(tǒng)計(jì)特性估計(jì)的研究噪聲統(tǒng)計(jì)特性估計(jì)是語音增強(qiáng)算法的一個(gè)重要組成部分,尤其在低輸入信噪比和非平穩(wěn)噪聲干擾環(huán)境下,對(duì)噪聲統(tǒng)計(jì)特性的跟蹤能力直接決定著語音增強(qiáng)算法的魯棒性。噪聲統(tǒng)計(jì)特性的估計(jì)可以分為兩類方法:第一類方法是基于語音激活檢測(cè)的方法,即通過語音激活檢測(cè)判斷當(dāng)前幀是有語音還是無語音,在檢測(cè)為無語音時(shí)進(jìn)行噪聲統(tǒng)計(jì)特性的估計(jì)與更新,而在檢測(cè)為有語音時(shí),噪聲的統(tǒng)計(jì)特性用最近無語音時(shí)估計(jì)的噪聲統(tǒng)計(jì)特性代替。另一類方法是直接形式的噪聲統(tǒng)計(jì)特性估計(jì),這類方法不依賴或者不顯式依賴于語音激活檢測(cè),而是在每一幀都進(jìn)行噪聲統(tǒng)計(jì)特性的估計(jì)與更新。在語音增強(qiáng)算法中,噪聲統(tǒng)計(jì)特性的估計(jì)主要是對(duì)噪聲的功率譜進(jìn)行估計(jì)。功率譜估計(jì)是數(shù)字信號(hào)處理的重要內(nèi)容,由于實(shí)際中得到的隨機(jī)信號(hào)長(zhǎng)度總是有限的,對(duì)這種有限長(zhǎng)度信號(hào)處理所得到的功率譜只是隨機(jī)信號(hào)真實(shí)功率譜的一種估計(jì),稱為功率譜估計(jì)。本章剩余章節(jié)按照如下方式組織:3.2節(jié)介紹基于語音激活檢測(cè)的噪聲統(tǒng)計(jì)特性估計(jì)方法;3.3節(jié)給出直接形式的噪聲統(tǒng)計(jì)特性估計(jì)方法;3.4節(jié)研究噪聲統(tǒng)計(jì)特性的快速估計(jì)算法;最后是本章小結(jié)。基于語音激活檢測(cè)的噪聲功率譜估計(jì),首先利用語音激活檢測(cè)分離出有語音部分與無語音部分,即語音幀與噪聲幀,然后在噪聲幀進(jìn)行噪聲功率譜估計(jì)。對(duì)于平穩(wěn)或緩變的噪聲,這種方法得到了比較準(zhǔn)確的估計(jì)結(jié)果。在噪聲幀根據(jù)|y(n.k)和a,(n、k)分別表示帶噪語音功率譜和噪聲功率譜,n.k分別表示第幀和第k個(gè)頻率分量。通常將α,設(shè)置為0.50~0.99,a。的取值越小,越有利于對(duì)噪聲統(tǒng)計(jì)特性變化的跟蹤,但越依賴于語音激活檢測(cè)的準(zhǔn)確率。在低信噪比下,當(dāng)語音激活檢測(cè)將語音誤判為噪聲時(shí),當(dāng)前幀對(duì)噪聲特性的更新估計(jì)容易力越弱,但是對(duì)語音激活檢測(cè)的準(zhǔn)確率依賴越低。在語音幀時(shí),用最近的噪聲綜上分析知,基于語音激活檢測(cè)的噪聲統(tǒng)計(jì)特性估計(jì)的準(zhǔn)確度很大程度上取決于語音激活檢測(cè)算法的性能。當(dāng)語音誤判為噪聲時(shí),必然使得噪聲統(tǒng)計(jì)特性的估計(jì)失真,進(jìn)而在語音增強(qiáng)處理中造成對(duì)語音的損傷,在低信噪比時(shí),甚至?xí)霈F(xiàn)切音現(xiàn)象,這將極大地降低增強(qiáng)語音的可懂度。而當(dāng)噪聲誤判為語音時(shí),由于此時(shí)噪聲特性可能發(fā)生了明顯的變化,可是因?yàn)檎`判而在此期間不對(duì)噪聲特性進(jìn)行更新,使得估計(jì)的噪聲特性與實(shí)際噪聲特性不符,導(dǎo)致增強(qiáng)后的語音產(chǎn)生畸變,或者殘留較多的噪聲,從而降低了語音增強(qiáng)系統(tǒng)的性能。3.3直接形式的噪聲統(tǒng)計(jì)特性估計(jì)基于語音激活檢測(cè)的噪聲估計(jì)法將噪聲更新限制在噪聲幀進(jìn)行,語音幀的噪聲特性用最近的噪聲幀估計(jì)得到的噪聲特性代替。這樣,在語音增強(qiáng)時(shí),必然會(huì)存在一定的殘留噪聲并對(duì)語音造成損傷。而且,如果在語音幀的噪聲特性改變較大,那么這種影響勢(shì)必更加嚴(yán)重。另外,語音激活檢測(cè)的可靠性在非平穩(wěn)噪聲以及低輸入信噪比情況下會(huì)嚴(yán)重下降,在這種情況下,估計(jì)的噪聲特性勢(shì)必會(huì)與實(shí)際的噪聲特性有更大的偏差,嚴(yán)重時(shí),弱語音成分將會(huì)因?yàn)樵鰪?qiáng)處理而被消除,造成切音現(xiàn)象,使增強(qiáng)語音的可懂度下降,甚至使語音增強(qiáng)完全失效。因此提出了一種不依賴于語音激活檢測(cè)的噪聲統(tǒng)計(jì)特性估計(jì)方法。這種方法并不進(jìn)行或者不顯式進(jìn)行語音激活檢測(cè),在整個(gè)處理過程一直保持對(duì)噪聲3.3.1簡(jiǎn)單的直接噪聲統(tǒng)計(jì)特性估計(jì)其在形式上與基于語音激活檢測(cè)的噪聲統(tǒng)計(jì)特性估計(jì)方法在噪聲幀的處理相同,只是a,通常設(shè)置為一個(gè)接近1的數(shù)值,并且在語音增強(qiáng)的全過程進(jìn)行更第3章噪聲統(tǒng)計(jì)特性估計(jì)的研究3.3.2基于最小統(tǒng)計(jì)(MinimumStatistics)的噪聲統(tǒng)計(jì)特性估計(jì)M(D)=0.025+0.23(I+log(D)*)+2.7-10*D1-1.14-到29。代入式(3-4)即得a…(D.Q(n.,k))·同時(shí),為了進(jìn)一步提高算法性能,將p(n,k)乘以一個(gè)增長(zhǎng)因子B(n):論文算法中取a。=1.5。式(3-3)中λ(n,k)通過搜索找出。算法要對(duì)連續(xù)p幀帶噪語音功率譜a(n、k)求最小值,這樣最差的情況下,算法延時(shí)將達(dá)到2p。為減少延時(shí),將長(zhǎng)窗p分成v個(gè)子窗,每個(gè)子窗長(zhǎng)為v。這樣可以每v幀更新一次最小值,并且保存起來,待各子窗的最小值都得到再進(jìn)行比較,即可得到長(zhǎng)窗的最小值。對(duì)于噪聲功率下降的情況,子窗最小值將小于長(zhǎng)窗最小值,這時(shí)立刻更新噪聲引入控制門限noise_slope_max,此門限與歸一化均方差g(n)相關(guān)。g~`(n)越小,噪聲變化可能越大。按如下計(jì)算noise_slope_max:ifQ1(n)<0.03. elseifQ(n)<0.05,elseifQ(n)<0.06,noise_slope_max因此,當(dāng)找到子窗本地最小值,并且子窗最小值和長(zhǎng)窗最小值之差不超過Woise_slope_max時(shí),更新噪聲功率譜。通過在長(zhǎng)窗中設(shè)立子窗最小值搜索,提高了噪聲功率譜估計(jì)的跟蹤速度,同時(shí)降低了運(yùn)算的復(fù)雜度。對(duì)于子窗數(shù)目第3章噪聲統(tǒng)計(jì)特性估計(jì)的研究為測(cè)試材料。采樣頻率f,=skHz,幀長(zhǎng)x=200,子窗數(shù)目v=g,子窗長(zhǎng)度圖3.1給出了MS算法在輸入sNR=10dB的白噪聲干擾圖3.2給出了MS算法在噪聲功率突然增大時(shí)的噪聲估計(jì)性能。圖(a)表示的??梢钥闯?,噪聲估計(jì)存在著大概1.5msec(60幀)以上的延時(shí),而且存在3.4噪聲功率譜的快速估計(jì)為解決噪聲功率譜跟蹤估計(jì)中過估計(jì)以及跟蹤延時(shí)的問題,論文結(jié)合相關(guān)最新發(fā)表成果,提出了一種能夠快速估計(jì)噪聲功率譜的算法。該算法基于最小統(tǒng)計(jì)思想,不依賴于語音激活檢測(cè),通過引入自適應(yīng)最優(yōu)短時(shí)譜平滑[23]、不依賴窗長(zhǎng)的最小值搜索[20以及根據(jù)語音存在概率對(duì)噪聲功率譜進(jìn)行迭代更新,得到了更好的跟蹤性能,能夠更好地在低輸入信噪比以及非平穩(wěn)噪聲干擾環(huán)境下對(duì)噪聲特性進(jìn)行估計(jì)。算法框圖如圖3.3所示。第3章噪聲統(tǒng)計(jì)特性估計(jì)的研究分幀加窗帶噪語音譜自適應(yīng)最優(yōu)平滑Ank)計(jì)算頻率自適應(yīng)門限計(jì)算比值比較判決更新噪聲功率譜估計(jì)計(jì)算后驗(yàn)信噪比語音存在概率的進(jìn)一步估計(jì)p'(n,k)噪聲功率譜估計(jì)的迭代更新跟蹤帶噪語音譜最小值圖3.3噪聲功率譜的快速估計(jì)算法框圖3.4.1自適應(yīng)最優(yōu)短時(shí)譜平滑文獻(xiàn)[27]中采用的是固定平滑因子,實(shí)驗(yàn)表明自適應(yīng)最優(yōu)平滑能夠?yàn)樵肼暪β首V估計(jì)提供更好的跟蹤性能,因此論文算法對(duì)帶噪語音功率譜進(jìn)行了基于第3章噪聲統(tǒng)計(jì)特性估計(jì)的研究=a2(n,k)(P(n-1.k)-λ,(n.k)2+(l-其中,其中,x為幀長(zhǎng)。snR,為長(zhǎng)時(shí)信噪比,將在第5章進(jìn)行介紹。為保護(hù)微弱語音信號(hào),設(shè)定p(n,k)從峰值衰落到噪聲功率水平大約用時(shí)Ar=64msec。將式(3-15)代入式(3-9),可得自適應(yīng)的最優(yōu)平滑短時(shí)譜。3.4.2不依賴窗長(zhǎng)的最小值搜索3.3節(jié)所述的基于最小統(tǒng)計(jì)的噪聲功率譜估計(jì)算法中,采用固定窗長(zhǎng)p=64幀的最小值搜索算法,在噪聲功率突然增大時(shí),更新估計(jì)延時(shí)達(dá)1.5s以上。論文算法采用連續(xù)平滑過去的帶噪語音功率譜得到最小值,這種方法能夠更好地跟蹤到非平穩(wěn)噪聲以及噪聲變化劇烈時(shí)的功率譜最小值。即ifPan(n-1,k)<P(n,k)其中,p(u,k)為經(jīng)式(3-9)最優(yōu)化平滑后的帶噪語音功率譜,前瞻系數(shù)p控制著最小值搜索的自適應(yīng)時(shí)間,,為平滑系數(shù)。3.4.3引入語音存在概率為精確估計(jì),考慮每個(gè)頻率分量上語音存在的概率。當(dāng)語音不存在時(shí),帶噪語音功率譜應(yīng)等于或接近于式(3-17)所得的功率譜最小值。因此,通過當(dāng)前幀的平滑功率譜p(n,k)和功率譜最小值p…(n、k)相比得到一個(gè)語音存在概率H,:S(n,k)>δ(k)則(n.k)=1,在頻率分量k語音存在;對(duì)以上結(jié)果平滑,得到語音存在概率p(n.k)的粗略值:p(n,k)=α,p(n-1,k)+(1-α,)l(n,3.4.4噪聲功率譜更新根據(jù)語音存在概率p(n,k),計(jì)算與其相關(guān)的時(shí)頻變化因子3.4.5語音存在概率的準(zhǔn)確估計(jì)以及噪聲功率譜的迭代更新雖然式(3-17)的功率譜最小值搜索不依賴窗長(zhǎng),但是也會(huì)有一個(gè)逐漸變化的過程。當(dāng)噪聲功率突然增大時(shí),噪聲幀的功率譜p(n.k)必然會(huì)大于功率譜最小值p…(n、k),這樣根據(jù)式(3-18)得到的關(guān)于語音存在概率的判定勢(shì)必會(huì)有較大誤差,這部分功率比較大的噪聲很容易誤判為語音。因此,需要對(duì)語音存在概率進(jìn)行更準(zhǔn)確的估計(jì)。此時(shí),得到了噪聲功率譜估計(jì)x(n,k)。因此,先驗(yàn)信噪比和后驗(yàn)信噪比都可求。當(dāng)語音不存在時(shí),先驗(yàn)信噪比為0。但由于分幀加窗造第3章噪聲統(tǒng)計(jì)特性估計(jì)的研究信噪比,,后驗(yàn)信噪比的概率分布如下]:而似然比檢測(cè)對(duì)于vn<n。,是y(n,k)的單調(diào)函H,H。p(n,k)為式(3-19)得到的語音存在概率的粗略值,p。為平滑系數(shù)。把p(n、k)代入式(3-20)計(jì)算新的時(shí)頻變化因子a;(n,k)。a,(n得到新的噪聲功率譜估計(jì)(,k),整個(gè)過程相當(dāng)于對(duì)噪聲功率譜估計(jì)的一次迭3.4.6測(cè)試結(jié)果及結(jié)論噪聲和非平穩(wěn)噪聲代表多說話人(babble)噪聲。采樣頻率f=8kHz,圖3.4和圖3.5分別給出了本文快速估計(jì)算法在輸入sNR=-sdB算法參數(shù)的白噪聲干擾和輸入sNR=5dB的babble噪聲干擾環(huán)境下的性能,并和MS算法進(jìn)行了比較??疾榈念l率成分為k=32(1kHz)??梢钥闯?,估計(jì)的噪聲功率譜與真實(shí)噪聲功率譜并不完全相同,代表的是平均意義上的統(tǒng)計(jì);在低輸入信噪比和非平穩(wěn)噪聲環(huán)境下,本文算法較MS算法都能更迅速更準(zhǔn)確地跟蹤噪聲功率,并在一定程度上改善了過估計(jì)的現(xiàn)象。獸圖3.5babble噪聲干擾下(INSNR=5dB)本文算法和MS算法性能比較圖3.6給出了babble噪聲干擾下,輸入信噪比由15dB迅速下降為-5dB時(shí),本文快速估計(jì)算法和MS算法性能比較。圖(a)表示輸入的帶噪語音信號(hào),在第150幀時(shí),噪聲功率迅速增加,信噪比突然降低。圖(b)中,本文算法經(jīng)過很短的時(shí)間(大概0.25sec)即跟蹤上了噪聲的變化,而MS算法的自適應(yīng)時(shí)間長(zhǎng)達(dá)表3.1給出了在各種輸入信噪比下,本文快速估計(jì)算法噪聲功率譜估計(jì)的歸一化均方誤差對(duì)比。歸一化均方誤差NMSE定義如下:表3.1本文快速估計(jì)算法和MS算法的NMSE白噪聲babble噪聲白噪聲~babble噪聲本文算法本文算法本文算法05由表3.1看出,在各種噪聲干擾環(huán)境下,本文算法的歸一化均方誤差均小于MS算法,尤其在輸入信噪比為-5dB情況下,NMSE下降較大,客觀測(cè)試再一次證明了本文快速估計(jì)算法在低信噪比和非平穩(wěn)噪聲環(huán)境下的優(yōu)越性。本章研究了影響語音增強(qiáng)算法性能重要因素之一的噪聲統(tǒng)計(jì)特性估計(jì)算法。首先,介紹了基于語音激活檢測(cè)的噪聲統(tǒng)計(jì)特性估計(jì)方法和直接噪聲統(tǒng)計(jì)特性估計(jì)方法的特點(diǎn),并闡述和分析了目前應(yīng)用比較廣泛的最小統(tǒng)計(jì)的估計(jì)算法。針對(duì)現(xiàn)有算法的過估計(jì)和跟蹤延時(shí)等問題,提出了更適應(yīng)于低輸入信噪比和非平穩(wěn)噪聲干擾環(huán)境下的快速估計(jì)算法,并給出了詳細(xì)的測(cè)試結(jié)果。第4章語音激活檢測(cè)算法研究人們?cè)谡f話過程中,不可避免地存在很多間歇和停頓,因此語音是不連續(xù)的媒介。語音激活檢測(cè)(VoiceActivityDetection),又稱有語音無語音檢測(cè),是指采用一定的信號(hào)處理技術(shù),檢測(cè)出信號(hào)是否是語音信號(hào),或是信號(hào)中是否包含語音信號(hào)。語音激活檢測(cè)的應(yīng)用范圍非常廣泛,既可以在語音增強(qiáng)算法中為噪聲統(tǒng)計(jì)特性的估計(jì)、先驗(yàn)信噪比的計(jì)算等提供相關(guān)統(tǒng)計(jì)信息,也可以作為獨(dú)立的模塊應(yīng)用于變速率語音編碼,回聲抵消等系統(tǒng)中。本章主要針對(duì)語音激活本章剩余章節(jié)按照如下方式組織:4.2節(jié)介紹傳統(tǒng)語音激活檢測(cè)算法;4.3節(jié)研究基于高斯模型和一致最大勢(shì)(UniformlyMostPowerful)檢驗(yàn)的語音激活檢測(cè)算法;4.4節(jié)介紹了雙音多頻(DualToneMultipleFrequency)信號(hào)的生成傳統(tǒng)的語音激活檢測(cè)算法的基本思想是提取某種能夠區(qū)分語音和噪聲的特征參數(shù),如能量,過零率等,通過和某一分界門限比較得到是否有語音的判決結(jié)果,也可依據(jù)多個(gè)特征參數(shù)進(jìn)行聯(lián)合判決。如圖4.1所示。組幀特征提取判決輸出判決結(jié)果圖4.1語音激活檢測(cè)的一般方法4.2.1G.729AnnexB標(biāo)準(zhǔn)的語音激活檢測(cè)算法 YNYNYNNYG729AnnexB標(biāo)準(zhǔn)的VAD采用短時(shí)全帶能量、短時(shí)低帶能量、LSF系數(shù)和短時(shí)過零率4種特征參數(shù)進(jìn)行語音激活檢測(cè)的判決。相應(yīng)的4種距離量度為:短時(shí)過零率差異: 全帶能量,低帶能量,短時(shí)過零率。而LsF,,E,,E,,zC為相應(yīng)的背景噪聲參數(shù)的更新估計(jì)。計(jì)算得4種距離量度后,如果滿足表4.1中的14個(gè)條件之一就初步判決為有語音,否則判決為無語音,相關(guān)常量參見相關(guān)標(biāo)準(zhǔn)30]。序號(hào)蠅則序號(hào)現(xiàn)明182934156然后,對(duì)初步判決結(jié)果進(jìn)行平滑,得到最終判決。最后,根據(jù)一定的條件對(duì)噪聲相關(guān)特征參數(shù)進(jìn)行更新。4.2.2G.723.1AnnexA標(biāo)準(zhǔn)的語音激活檢測(cè)算法第4章語音激活檢測(cè)算法研究LotR?[j]Fryp?WnxVad,fFtyp=0or2p,圖4.3G.723.1AnnexA中推薦的語音激活檢測(cè)系統(tǒng)的功能框圖G.723.1AnnexA標(biāo)準(zhǔn)的VAD算法基本上是一個(gè)能量檢測(cè)器。將逆濾波器的輸出信號(hào)能量與一個(gè)閾值進(jìn)行比較,當(dāng)大于閾值時(shí),判定為有語音,否則判定A(z)進(jìn)行逆濾波的處理:的FIR濾波器濾波后信號(hào)能量計(jì)算:通過下式計(jì)算經(jīng)過逆濾波后的信號(hào)的能量Emr,。噪聲幅度計(jì)算:根據(jù):-1幀噪聲幅度Ntev,和能量En,,以及自適應(yīng)使能標(biāo)志aen,,對(duì)第,幀噪聲幅度ntey進(jìn)行更新。第,幀時(shí)的噪聲幅度被限制在閾值計(jì)算:閾值與噪聲幅度有如下近似關(guān)系:VAD判決:通過對(duì)當(dāng)前幀的能量En,與閾值rnr的比較進(jìn)行判決:拖尾延遲保護(hù):當(dāng)連續(xù)2幀或以上判決為語音時(shí),則在判決的語音段結(jié)束之后的6幀仍將作為語音段處理。4.2.3GSM標(biāo)準(zhǔn)的語音激活檢測(cè)算法GSMl32|標(biāo)準(zhǔn)中的語音激活檢測(cè)算法是基于多參數(shù)聯(lián)合判決的VAD檢測(cè)算法,其算法的結(jié)構(gòu)圖如圖4.4所示。filteringandptchaddition圖4.4GSM中推薦的語音激活檢測(cè)系統(tǒng)的功能框圖4.3基于高斯模型和一致最大勢(shì)檢驗(yàn)的語音激活檢測(cè)算法傳統(tǒng)的語音激活檢測(cè)方法往往建立在語音和噪聲的特征參數(shù)的區(qū)別假定上,比如語音的能量遠(yuǎn)遠(yuǎn)大于噪聲的能量,而噪聲的過零率又遠(yuǎn)遠(yuǎn)大于語音的過零率等等。但是在強(qiáng)背景噪聲環(huán)境下,語音可能完全淹沒在噪聲中,周期性噪聲的出現(xiàn)或是語音過零率較高時(shí),也會(huì)使兩者過零率之間的區(qū)別不再明顯。因此,傳統(tǒng)的語音激活檢測(cè)算法在低輸入信噪比以及非平穩(wěn)噪聲干擾環(huán)境下的好的檢測(cè)效果。論文結(jié)合相關(guān)最新發(fā)表成果,研究了一種基于高斯統(tǒng)計(jì)模型和一致最大勢(shì)(UMP)檢驗(yàn)的語音激活檢測(cè)算法。該算法能夠改善上述惡劣環(huán)境下的檢測(cè)性能,同時(shí)仍然適用于平穩(wěn)噪聲及高信噪比環(huán)境。4.3.1基于高斯模型的似然比檢測(cè)假定語音和噪聲的頻譜分量滿足獨(dú)立的復(fù)高斯分布,并考慮加性噪聲。在語音不存在n。和語音存在n,兩種假設(shè)下,帶噪語音分別表示如下:其中,0≤i≤N-1,N為幀長(zhǎng)。帶噪語音的頻譜分量在兩種條件下的分布分別為:其中,3.和x,分別表示純凈語音,())和噪聲αa)的功率譜分量。相應(yīng)地,在頻率成分k的似然比(LR)為對(duì)似然比對(duì)數(shù)取幾何平均,得到HH?4.3.2一致最大勢(shì)檢驗(yàn)準(zhǔn)則式(4-13)中,檢測(cè)量可以改寫為第4章語音激活檢測(cè)算法研究即如果即檢測(cè)條件為F,|>√其中,vc)表示階躍函數(shù)。根據(jù)虛警概率的定義,第4章語音激活檢測(cè)算法研究而又由得到檢測(cè)門限頻率分量的平均,判決準(zhǔn)則如下:HH?4.3.3短時(shí)譜最優(yōu)化平滑以及自適應(yīng)門限平滑充分考慮語音的相關(guān)性能夠使語音激活檢測(cè)更準(zhǔn)確,因此需要對(duì)檢測(cè)量和檢測(cè)門限進(jìn)行有效的平滑。文獻(xiàn)[30中對(duì)帶噪語音頻譜幅度采用了固定平滑因子進(jìn)行平滑,為了得到更好的檢測(cè)性能,論文算法借鑒噪聲統(tǒng)計(jì)特性估計(jì)中的自適應(yīng)最優(yōu)平滑方案,對(duì)短時(shí)譜進(jìn)行基于MMSE原則的最優(yōu)化平滑。其中,a(n)為調(diào)整因子。i,(n-1,k)為前一幀的噪聲功率譜的估計(jì)值。a(n,k)的具體計(jì)算過程參見3.4節(jié),這里不再贅述,檢測(cè)門限是與噪聲估計(jì)自適應(yīng)的,所以,門限平滑采用固定平滑因子即可。其中,。為平滑因子。論文算法中,取p=拖尾延遲保護(hù)(hangover)通過短時(shí)譜幅度平方和自適應(yīng)門限比較后得到了初步的VAD判決結(jié)果,但是初步判決有時(shí)存在著誤判的情況。當(dāng)把有語音誤判為無語音時(shí),造成了語音切斷的現(xiàn)象;相反,把無語音誤判為有語音時(shí),勢(shì)必會(huì)造成過多的殘留噪聲存在。為了降低誤判的概率,語音激活檢測(cè)算法中常引入拖尾延遲保護(hù)機(jī)制。論文算法在充分考慮語音相關(guān)性的基礎(chǔ)上,把輸入的帶噪語音分為三種狀態(tài),即語音狀態(tài)、噪聲狀態(tài)及語音和噪聲之間的轉(zhuǎn)換狀態(tài),并為語音狀態(tài)轉(zhuǎn)換為噪聲狀態(tài)以及噪聲狀態(tài)轉(zhuǎn)換為語音狀態(tài)分別設(shè)置了不同的延遲保護(hù)長(zhǎng)度。如果當(dāng)前幀的初步判決結(jié)果在保護(hù)長(zhǎng)度之內(nèi),則判定當(dāng)前幀為轉(zhuǎn)換狀態(tài),而初步判決結(jié)果作為累計(jì)值保存起來;如果當(dāng)前幀的初步判決結(jié)果超出了保護(hù)長(zhǎng)度的范圍,則判定當(dāng)前幀為新的語音狀態(tài)或噪聲狀態(tài)。各幀具體的最終判決結(jié)果由拖尾延遲保護(hù)提供了由無語音到有語音的無條件迅速判決,而延遲了由有語音到無語音的判決時(shí)間,判決時(shí)間由轉(zhuǎn)換狀態(tài)的持續(xù)時(shí)間決定。這樣有效地保護(hù)了微弱語音以及字間的短暫停頓,有效地防止了切音現(xiàn)象,保證了語音的連貫悅耳。第4章語音激活檢測(cè)算法研究--噪聲狀態(tài)--噪聲狀態(tài)語音狀態(tài)?t圖4.5拖尾延遲保護(hù)的狀態(tài)轉(zhuǎn)移圖4.3.5基于高斯模型和UMP檢驗(yàn)的VAD算法流程圖4.6給出了基于高斯模型和UMP檢驗(yàn)的VAD算法流程。首先對(duì)輸入的對(duì)短時(shí)譜進(jìn)行最優(yōu)化平滑并對(duì)噪聲功率譜進(jìn)行跟蹤估計(jì),利用式(4-23)和式(4-27)計(jì)算每個(gè)頻率分量的平滑的自適應(yīng)門限。最后,通過平均譜幅度平方和第4章語音激活檢測(cè)算法研究噪聲功率譜λ估計(jì)T圖4.6基于高斯模型和UMP檢驗(yàn)的VAD算法流程流程圖4.3.6測(cè)試結(jié)果以及結(jié)論算法在低輸入信噪比和非平穩(wěn)噪聲環(huán)境下測(cè)試。將標(biāo)準(zhǔn)語音庫(kù)的語音材料聲代表白噪聲、粉紅噪聲以及非平穩(wěn)噪聲代表多說話人(babble)噪聲。圖4.7和圖4.8分別給出了本文基于高斯模型和UMP檢驗(yàn)的VAD算法在(a)為原始純凈語音,圖(b)為帶噪語音,圖(c)為本文VAD算法判決結(jié)果,噪聲幀輸出為0,語音幀直接輸出帶噪語音,并用紅色框標(biāo)出。由此可見,本文算法圖4.7白噪聲干擾下本文VAD算法判決結(jié)果圖4.8粉紅噪聲干擾下本文VAD算法判決結(jié)果第4章語音激活檢測(cè)算法研究圖4.9給出了babble噪聲干擾,輸入sNR=oaB時(shí)本文算法和Sohn's算法33]的檢測(cè)性能比較。其中,圖(a)為原始純凈語音,圖(b)為帶噪語音,圖(c)為本噪聲統(tǒng)計(jì)特性相適應(yīng),并且采用了合理的拖尾延遲保護(hù),因而得到了較準(zhǔn)確的圖4.9babble噪聲干擾下本算法和Sohn's算法檢測(cè)性能比較因此,基于高斯模型和UMP檢驗(yàn)的VAD算法在保持平穩(wěn)噪聲干擾下的高判決能力的同時(shí),針對(duì)非平穩(wěn)噪聲環(huán)境,相比同類算法,也能夠提供較準(zhǔn)確的4.4雙音多頻信號(hào)的生成與檢測(cè)的一種通訊傳輸方法,其在電話網(wǎng)絡(luò)領(lǐng)域的快速發(fā)展取代了脈沖信號(hào)。除了應(yīng)用于電話撥號(hào)系統(tǒng)中,DTMF信號(hào)在頻率編碼遙控系統(tǒng)及數(shù)據(jù)編碼傳輸中的應(yīng)第4章語音激活檢測(cè)算法研究用也很普遍。DTMF信號(hào)是指用兩個(gè)不同頻率的正弦信號(hào)來表示電話撥號(hào)鍵盤上的16個(gè)數(shù)字或字母信息。每個(gè)雙音多頻信號(hào)都由相應(yīng)的行頻率和列頻率而確定,并且對(duì)應(yīng)一個(gè)數(shù)字或字母,行頻率為低頻成分,列頻率為高頻成分。如圖4.10所示。如數(shù)字信息“1”,只包含兩個(gè)頻率成分,分別為行頻697Hz,列頻1209Hz,理論上在其他頻率成分的能量為0。ITUQ.24推薦[37],DTMF信號(hào)發(fā)持續(xù)時(shí)間在45~55msec之間,信號(hào)發(fā)送間隔至少為45msec。123A456B789C黃0#D圖4.10雙音多頻信號(hào)的行頻和列頻DTMF生成器由兩個(gè)二階數(shù)字正弦波振蕩器合成,每個(gè)振蕩器分別對(duì)應(yīng)行1圖4.11DTMF生成器框圖為了得到每個(gè)數(shù)字或字母信息對(duì)應(yīng)的頻率,振蕩器需要合適的系數(shù)和初始條件。通常,數(shù)字正弦波振蕩器系統(tǒng)函數(shù)為 對(duì)應(yīng)的差分方程為初始條件y(-1)=y(-2)=0。即其中,。=2π?,/f.。f,為行頻率或列頻率,s,為采樣頻率,a為DTMF由于信號(hào)經(jīng)過分幀加窗處理,為了維持生成的DTMF信號(hào)的相位連續(xù),每幀保留結(jié)束點(diǎn)的兩個(gè)歷史值作為下幀的初始值。AT&T指定最高的按鍵速率是10數(shù)字或字母/秒,所以,對(duì)一個(gè)100msec的DTMF信號(hào),DTMG生成際語音的持續(xù)時(shí)間在45msec至55msec之間,其余時(shí)間保持靜音狀態(tài),以區(qū)別連續(xù)的不同DTMF信號(hào)。4.4.2雙音多頻信號(hào)的檢測(cè)DTMF檢測(cè)需要在輸入的數(shù)據(jù)流中,檢測(cè)到DTMF信號(hào)的存在,并將其轉(zhuǎn)換為相應(yīng)的數(shù)字或字母信息。Goertzel算法是DTMF檢測(cè)器的基礎(chǔ),能夠快速有效地提取輸入信號(hào)的頻譜信息。與DFT變換相比,Goertzel算法能夠一次處理一個(gè)樣點(diǎn),而不是在處理前準(zhǔn)備好所需的塊數(shù)據(jù)樣點(diǎn)集合,并且能很方便地得到所需要的頻譜分量信息。Goertzel算法主要通過二階IIR濾波器實(shí)現(xiàn),具體步驟1381如下:2)n次遞歸運(yùn)算后,頻譜分量k的幅度平方為行頻率或列頻率;,對(duì)應(yīng)的頻率成分k計(jì)算如下:代入式(4-32)即的所需的頻譜分量信息。由于在語音激活檢測(cè)算法中存在DFT變換,所以,論文中采用直接從DFT中搜集相應(yīng)的行頻譜和列頻譜信息的方法,在語音激活檢測(cè)的過程中,也得到了雙音多頻信號(hào)檢測(cè)所需的頻譜信息,這樣一舉兩得的做法,大大地降低了運(yùn)算量和復(fù)雜度。有效性檢驗(yàn)搜集到的頻譜信息需經(jīng)過一系列的有效性檢驗(yàn)來確定是否存在有效的DTMF信號(hào)并給出其所對(duì)應(yīng)的數(shù)字或字母信息。這里,為計(jì)算方便,頻譜信息以幅度平方即能量的形式表示。根據(jù)式(4-32),令?,=8kHz,v-256,得到行頻率成分row_k-{22,25,17,30);列頻點(diǎn)成分column_k-139,43,47,52}。檢驗(yàn)過程如圖4.12所示。1)所有行頻譜分量和列頻譜分量的總和占信號(hào)總能量的比值是否大于考慮頻譜泄漏的影響,行頻點(diǎn)和列頻點(diǎn)的較高能量會(huì)有一部分泄漏到與其左右相鄰的兩個(gè)頻點(diǎn)上。因此,上式中每個(gè)行頻點(diǎn)和列頻點(diǎn)的能量實(shí)際上均包含了三個(gè)頻點(diǎn)的能量和。否行頻和列頻能量和檢驗(yàn)是找到行頻和列頻中的能量峰值,記錄峰值標(biāo)號(hào)否反扭曲和標(biāo)準(zhǔn)扭曲檢驗(yàn)是否二次諧波檢驗(yàn)是否是DTMF信號(hào)譯碼返回2)分別找到所有行頻譜分量和所有列頻譜分量中的能量最大值,并記錄能3)發(fā)送端發(fā)送的DTMF信號(hào)有相等的行頻能量和列頻能量,但是由于信道對(duì)兩種頻率的能量衰減程度不同,接收端的行頻能量和列頻能量會(huì)有一些偏差。對(duì)于高頻衰減嚴(yán)重的低通濾波信道,接收到的行頻能量會(huì)大于列頻能量,這種偏差稱為“反扭曲”。而對(duì)于接收到的行頻能量小于列頻能量的情況,叫作“標(biāo)THR_TWIREV=8dB和THR_rWISTD=4dB以下為可接收的偏差范圍。4)為了區(qū)別DTMF信號(hào)和可能的語音或音樂信號(hào),還需要對(duì)二次諧波進(jìn)行檢驗(yàn)。如果語音或音樂信號(hào)在某基頻上有突出的能量,那么與此基頻對(duì)應(yīng)的二次諧波也必然會(huì)有較高能量。而DTMF信號(hào)的能量?jī)H在兩個(gè)基頻(行頻和列頻)有較多分布,二次諧波分量應(yīng)該等于或接近于0(加窗截?cái)嘣斐傻念l譜泄漏)。因此,利用二次諧波檢驗(yàn)?zāi)芊乐拱颜Z音或音樂信號(hào)誤判為DTMF信號(hào)。其中,row_2ndk和column_2ndk分別表示對(duì)應(yīng)于行頻和列頻的二次諧波頻率成分。5)檢驗(yàn)DTMF信號(hào)是否滿足持續(xù)時(shí)間達(dá)到45msec以上的要求。如果DTMF信號(hào)依次通過了以上的所有檢驗(yàn),則判定為存在DTMF信號(hào),數(shù)字或字母信息,完成了DTMF信號(hào)的檢驗(yàn)譯碼過程。對(duì)輸入信號(hào)進(jìn)行DTMF檢測(cè),若檢測(cè)出含有DTMF信號(hào),則根據(jù)DTMF的譯碼信息,合成與輸入信號(hào)相對(duì)應(yīng)的DTMF信號(hào)。圖4.13和圖4.14分別以時(shí)域波形和語譜圖的形式表示了輸入的DTMF序列以及根據(jù)DTMF檢測(cè)結(jié)果合成的信號(hào)。圖(a)為輸入的DTMF信號(hào)序列;圖(b)為合成信號(hào)。圖4.13DTMF檢測(cè)和合成(時(shí)域表示)圖4.14DTMF檢測(cè)和合成(頻域表示)由此看出,本文實(shí)現(xiàn)了對(duì)DTMF信號(hào)的準(zhǔn)確檢測(cè)和合成,合成信號(hào)保持了輸入信號(hào)的頻譜特征。在實(shí)際通信過程中,DTMF信號(hào)和語音信號(hào)一起通過信道傳輸,是否能有效區(qū)別語音和DTMF信號(hào)是檢測(cè)的關(guān)鍵。圖4.15中,(a)為輸入的DTMF和語音混合信號(hào),(b)為輸出的檢測(cè)合成的DTMF信號(hào),無DTMF時(shí)輸出為0??梢钥吹?,并沒有存在誤檢,驗(yàn)證了DTMF檢測(cè)的魯棒性。圖4.15DTMF檢測(cè)與合成(有效區(qū)別語音和DTMF信號(hào))圖4.15本章研究了與語音增強(qiáng)密切相關(guān)的語音激活檢測(cè)算法。首先,概述了傳統(tǒng)語音激活檢測(cè)的方法、特點(diǎn)以及相關(guān)標(biāo)準(zhǔn)。針對(duì)傳統(tǒng)算法在低輸入信噪比和非平穩(wěn)噪聲干擾環(huán)境下誤檢率較高的問題,研究了一種基于高斯模型和一致最大勢(shì)檢驗(yàn)的語音激活檢測(cè)算法,并給出了詳細(xì)的測(cè)試結(jié)果。然后,利用語音激活檢測(cè)中DFT得到的頻譜信息,方便地實(shí)現(xiàn)了雙音多頻信號(hào)的生成和檢測(cè),給出第5章語音增強(qiáng)算法的研究與實(shí)現(xiàn)第5章語音增強(qiáng)算法的研究與實(shí)現(xiàn)前兩章重點(diǎn)研究了噪聲統(tǒng)計(jì)特性估計(jì)和語音激活檢測(cè)算法,而長(zhǎng)時(shí)信噪比先驗(yàn)信噪比估計(jì),增益函數(shù)計(jì)算等也是基于短時(shí)譜幅度估計(jì)的語音增強(qiáng)算法中至關(guān)重要的部分,直接影響著語音短時(shí)譜估計(jì)的準(zhǔn)確性和語音增強(qiáng)算法的整體性能。本章結(jié)合經(jīng)典語音增強(qiáng)算法,著重研究先驗(yàn)信噪比估計(jì)和增益函數(shù)的計(jì)本章剩余章節(jié)按照如下方式組織:5.2節(jié)介紹本文語音增強(qiáng)算法流程;5.3節(jié)概述增強(qiáng)語音評(píng)測(cè)標(biāo)準(zhǔn),包括主觀評(píng)測(cè)與客觀評(píng)測(cè);5.4節(jié)給出本文語音增強(qiáng)帶噪語音的表達(dá)式為y()=s()+d(),1=0,1.…L-1。d(T)和s()分別代表干擾噪聲和純凈語音,帶噪信號(hào)、干擾噪聲和純凈語音的頻譜分量分別用Y,=R,exp(B,),D,S,-A,exp(a)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論