基于mfcc與短時(shí)能量混合特征的異常聲音識(shí)別

上傳人：1*** IP屬地：廣東上傳時(shí)間：2023-11-03 格式：DOCX 頁數(shù)：5 大小：40.60KB 積分：12 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于mfcc與短時(shí)能量混合特征的異常聲音識(shí)別

0異常聲音的識(shí)別在過去的10年里，視頻監(jiān)控系統(tǒng)被廣泛應(yīng)用于人們的生活中。但是當(dāng)被觀測(cè)目標(biāo)離開觀測(cè)范圍時(shí),視頻監(jiān)控系統(tǒng)性能將會(huì)大幅度降低,而且直接監(jiān)控目標(biāo)會(huì)涉及侵犯隱私。與視頻監(jiān)控系統(tǒng)相比,音頻監(jiān)控系統(tǒng)具有復(fù)雜度小、成本低、高效性且能夠充分保護(hù)隱私等諸多優(yōu)點(diǎn)。因此,近年來音頻監(jiān)控系統(tǒng)開始受到越來越多研究人員的廣泛關(guān)注。在音頻監(jiān)控系統(tǒng)中,特征參數(shù)和分類器的選擇直接影響系統(tǒng)的復(fù)雜度和識(shí)別性能。普遍采用的分類器有支持向量機(jī)(SupportVectorMachine,SVM)、隱馬爾可夫模型(HiddenMarkovModel,HMM)和高斯混合模型(GaussianMixtureModel,GMM)等。文獻(xiàn)提出采用12維MFCC系數(shù)和GMM分類器來訓(xùn)練識(shí)別四種聲音,得到的平均識(shí)別率為80%以上。文獻(xiàn)提出應(yīng)用在家庭生活中的音頻監(jiān)控系統(tǒng),該系統(tǒng)提取1s異常聲音的MFCC系數(shù)作為特征參數(shù),采用AdaBoost算法對(duì)異常聲音進(jìn)行檢測(cè),取得了較好的檢測(cè)結(jié)果。但是這種算法需要大量的訓(xùn)練樣本,同時(shí)要求異常聲音的長度為等長(1s),限制了這種算法的使用范圍。文獻(xiàn)提出應(yīng)用于鐵路環(huán)境下的音頻監(jiān)控系統(tǒng),采用MFCC特征訓(xùn)練GMM分類器,對(duì)尖叫聲和槍聲進(jìn)行識(shí)別。但是這種算法只是針對(duì)兩種異常聲音,沒有考慮多種異常聲音同時(shí)存在的情況。因此,本文將音頻監(jiān)控系統(tǒng)推廣到日常生活中,選擇電梯作為實(shí)驗(yàn)背景,搜集在電梯中容易出現(xiàn)的5種異常聲音,如報(bào)警聲、尖叫聲、哭泣聲、小孩哭泣聲和撞擊聲作為實(shí)驗(yàn)素材。本文采用MFCC系數(shù)與短時(shí)能量相結(jié)合的方式作為異常聲音的特征參數(shù),訓(xùn)練GMM,達(dá)到了較好的識(shí)別效果。與單獨(dú)采用MFCC系數(shù)作為特征參數(shù)相比,識(shí)別率有了明顯的提高,計(jì)算量沒有明顯的增加;與MFCC系數(shù)和一階差分相結(jié)合的作為特征參數(shù)的方式相比,本文算法的計(jì)算復(fù)雜度較低,同時(shí)識(shí)別率相差不大。1資源參數(shù)提取音頻特征參數(shù)提取是指從音頻信號(hào)中獲得一種能夠描述音頻信號(hào)特征的過程。在特征提取之前,需要對(duì)原始樣本進(jìn)行預(yù)處理,使得能更好地提取特征。1.1預(yù)處理假設(shè)輸入的音頻信號(hào)為x(n),預(yù)處理過程如下。1一體化處理歸一化處理的目的是消除不同樣本聲音大小的差異,將樣本幅度值限定在[-1,+1]。2預(yù)料預(yù)加重一般是用具有6dB/倍頻程的一階數(shù)字濾波器來實(shí)現(xiàn),如式(1)所示:H(z)=1-μz-1(1)其中μ為常數(shù),一般取0.97。3復(fù)制到視聽信號(hào)的頻帶通常是重疊的為了避免信號(hào)間斷,一般取256點(diǎn)為一幀,幀間重疊為128點(diǎn)。1.2mfcc的本構(gòu)模型MFCC是在Mel標(biāo)度頻率域提取出來的倒譜參數(shù),Mel標(biāo)度描述了人耳頻率感知的非線性特性,反映了音頻短時(shí)幅度譜的特征,因此在異常聲音識(shí)別中得到了廣泛應(yīng)用。MFCC的提取方法是將預(yù)處理后的信號(hào)xt(τ)作頻域變換后,將對(duì)數(shù)能量譜依照Mel標(biāo)度分布的三角濾波器組作卷積,再對(duì)濾波器組的輸出向量作離散余弦變換(DiscreteCosineTransform,DCT),這樣得到的前n維向量稱為MFCC,如式(2)所示:Ct(n)=∑m=1MSt(m)cos(πn(m?0.5)M)Ct(n)=∑m=1ΜSt(m)cos(πn(m-0.5)Μ);0≤n<M(2)其中:n為所取MFCC個(gè)數(shù);Ct(n)為第t幀的第n個(gè)MFCC系數(shù);St(m)為音頻信號(hào)的對(duì)數(shù)功率譜;M為三角濾波器個(gè)數(shù),本文取24。舍去代表直流成分的Ct(0),得到Ct(1),…,Ct(n),取n為12作為MFCC系數(shù)Ct(n)。然后根據(jù)式(3)對(duì)MFCC系數(shù)進(jìn)行一階差分,得到一組MFCC差分系數(shù)Dt(n):Dt(n)=∑i=?kkCi(n+i)∑i=?kki2ue001?ue000ue000(3)Dt(n)=∑i=-kkCi(n+i)∑i=-kki2(3)其中k為常數(shù),一般取2。1.3音頻信號(hào)的時(shí)差能量音頻信號(hào)的能量隨著時(shí)間變化比較明顯,音頻信號(hào)的短時(shí)能量分析給出了反應(yīng)這些幅度變化的一個(gè)合適的描述方法。對(duì)于音頻信號(hào)xt(τ),短時(shí)能量:(En)t=∑τ=0L?1|xt(τ)|2(4)(En)t=∑τ=0L-1|xt(τ)|2(4)其中:(En)t為第t幀的短時(shí)能量;τ為一幀內(nèi)的樣本點(diǎn);L為幀長,本文取256。1.4特征矢量的獲取本文選取MFCC與短時(shí)能量構(gòu)成組合參數(shù)的理論依據(jù)如下。1)短時(shí)能量是音頻信號(hào)最基本的短時(shí)參數(shù)之一,它表征一幀音頻信號(hào)能量的大小,是音頻信號(hào)一個(gè)重要的時(shí)域特征。2)由一幀音頻信號(hào)求出的短時(shí)能量是一個(gè)標(biāo)量值,與其他參量構(gòu)成組合參數(shù)不會(huì)使原特征矢量的維數(shù)明顯增加。特征矢量的維數(shù)越少,則需要的運(yùn)算復(fù)雜度越小。另外,獲取短時(shí)能量的運(yùn)算并不復(fù)雜。3)短時(shí)能量是時(shí)域特征,而MFCC參數(shù)是人耳聽覺感知特征,兩者之間的相關(guān)性不大,它們反映的是音頻信號(hào)的不同特征,應(yīng)該有較好的效果。本文將MFCC系數(shù)與短時(shí)能量混合得到的特征矢量記為MFCC_E。特征矢量的排列順序是將短時(shí)能量(En)t作為MFCC_E特征矢量的第1維,將原始MFCC的12維作為特征矢量MFCC_E的第2維到第13維。2gmm在教學(xué)過程GMM本質(zhì)上是一種基于參數(shù)估計(jì)的多維概率統(tǒng)計(jì)模型,它認(rèn)為每一種聲音的特征在特征空間中都形成特定的分布,并且可以用多個(gè)高斯分布組合對(duì)它的特征分布進(jìn)行擬合。不同參數(shù)的高斯分布組合可以用來表征不同的聲音,即每種聲音的特征參數(shù)對(duì)應(yīng)一個(gè)GMM。GMM已經(jīng)廣泛應(yīng)用于說話人識(shí)別和語音識(shí)別中。本文所用的GMM訓(xùn)練過程如圖1所示。訓(xùn)練過程是按照文獻(xiàn)中的方法,采用從訓(xùn)練樣本中提取的特征矢量來訓(xùn)練GMM,對(duì)于有5種聲音的異常聲音識(shí)別系統(tǒng),每種聲音用一個(gè)GMM來代表,得到5種聲音的模型參數(shù)。最終得到描述每種聲音的整個(gè)GMM的三元式如式(5):λ={Pi,μi,Σi};i=1,2,…,N(5)其中:Pi為混合分量的權(quán)值;μi為均值矢量;Σi為協(xié)方差矩陣;N為混合階數(shù)。本文所用的樣本識(shí)別過程如圖2所示。識(shí)別過程是采用從測(cè)試樣本中提取的特征矢量,結(jié)合GMM分類器,通過求取后驗(yàn)概率的最大值得到每類單個(gè)測(cè)試樣本的識(shí)別結(jié)果,最后將每一類所有測(cè)試樣本的識(shí)別結(jié)果相加,求出每類聲音的總體識(shí)別率。3結(jié)果3.1實(shí)驗(yàn)方法和樣本所有實(shí)驗(yàn)都運(yùn)行在PC機(jī)的WindowsXP操作平臺(tái)上,PC機(jī)的主頻為1.5GHz,內(nèi)存為1GB,編程主要使用的是Matlab7.0。實(shí)驗(yàn)中的參數(shù)如下:聲音種類為報(bào)警聲、尖叫聲、哭聲、小孩哭聲和撞擊聲,每類聲音有30個(gè)樣本;采樣率為16kHz,量化為16b,幀長16ms(256個(gè)采樣點(diǎn)),幀移(128個(gè)采樣點(diǎn));訓(xùn)練樣本隨機(jī)選擇總樣本數(shù)的80%,識(shí)別樣本為剩余20%樣本;每組實(shí)驗(yàn)做10次,列出每類聲音的平均識(shí)別率,最后對(duì)相同混合階數(shù)下所有聲音的識(shí)別率求平均值作為評(píng)價(jià)標(biāo)準(zhǔn)。3.2特征參數(shù)的復(fù)雜度本實(shí)驗(yàn)研究GMM混合階數(shù)對(duì)識(shí)別性能的影響,從而選擇適合的混合階數(shù)。實(shí)驗(yàn)中所用混合階數(shù)分別為8、12和16。識(shí)別模型為GMM,N表示不同的混合階數(shù)。表1、2列出了兩種特征在不同混合階數(shù)下的識(shí)別性能。為了得到較高的識(shí)別率,同時(shí)要有較低的復(fù)雜度,本文對(duì)不同階數(shù)、不同特征矢量進(jìn)行了復(fù)雜度的研究。復(fù)雜度的評(píng)判準(zhǔn)則是指運(yùn)行程序所需要的時(shí)間,單位為s。表3、4分別列出了訓(xùn)練復(fù)雜度和識(shí)別復(fù)雜度。從表1～2中可以看出,無論是采用特征參數(shù)MFCC_E或MFCC+MFCC_D特征矢量,當(dāng)GMM階數(shù)從8逐漸增加到16時(shí),識(shí)別率逐漸上升;同時(shí)可從表3～4中得到,階數(shù)越高,所需訓(xùn)練和識(shí)別復(fù)雜度也越大。3.3不同濃度mfcc的識(shí)別結(jié)果本實(shí)驗(yàn)研究不同特征矢量對(duì)識(shí)別性能的影響,從而證明MFCC_E識(shí)別率最高且復(fù)雜度較低。實(shí)驗(yàn)采用特征矢量分別為MFCC(維數(shù)為12)、MFCC與一階差分MFCC_D(維數(shù)為24)、MFCC_E(維數(shù)為13),識(shí)別模型均為GMM,表5～6中混合階數(shù)分別為16和12,識(shí)別結(jié)果如表5～6所示。從表5、6中均可以看出,當(dāng)混合階數(shù)N相同的情況下:1)特征矢量MFCC_E比MFCC得到的識(shí)別率提高6%,這表明MFCC與能量的混合特征識(shí)別率高于單獨(dú)使用MFCC;2)特征矢量MFCC+MFCC_D比MFCC得到的識(shí)別率高;3)特征矢量MFCC_E比MFCC+MFCC_D識(shí)別率高。但是從表3～4也可以看出,MFCC+MFCC_D訓(xùn)練復(fù)雜度幾乎是MFCC_E的2倍,是MFCC的3倍,而它們的識(shí)別復(fù)雜度相差并不大。3.4在單次給藥后,知識(shí)特性測(cè)試將本文算法的識(shí)別結(jié)果與文獻(xiàn)、進(jìn)行了對(duì)比,結(jié)果如表7所示。從表7中可以看出,相對(duì)于原始特征MFCC,MFCC_E取得了比原始MFCC更高的識(shí)別率。其主要原因是加入短時(shí)能量后,一方面增加了特征的維數(shù),另一方面增加了特征所包含的聲音的信息量。從實(shí)驗(yàn)結(jié)果可以驗(yàn)證,短時(shí)能量中包含有用的聲音信息。綜上所述,綜合考慮特征的識(shí)別率和復(fù)雜度,可以看出,MFCC_E比MFCC和MFCC+MFCC_D的識(shí)別率高,而且訓(xùn)練和識(shí)別復(fù)雜度明顯低于MFCC+MFCC_D,略高于MFCC,這就證明MFCC與短時(shí)能量的結(jié)合識(shí)別率高,相對(duì)復(fù)雜度較低,有效提高了分類器的識(shí)別性能。4異常聲音的識(shí)別本文將MFCC,差分MFCC以及短時(shí)能量三種特征用于GMM的訓(xùn)練與識(shí)別中,實(shí)驗(yàn)證明使用MFCC與能量混合特征比文獻(xiàn)單一使用MFCC特征得到的識(shí)別率高,對(duì)異常聲音分類更準(zhǔn)確,識(shí)別率可達(dá)到90%以上,而且特征維數(shù)較低,相對(duì)復(fù)雜度不高;所用的GMM分類器也改善了文獻(xiàn)中所用的AdaBoost分類器因樣本數(shù)較小而導(dǎo)致系統(tǒng)性

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 學(xué)術(shù)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于mfcc與短時(shí)能量混合特征的異常聲音識(shí)別

文檔簡介

溫馨提示

最新文檔

評(píng)論

基于mfcc與短時(shí)能量混合特征的異常聲音識(shí)別

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔