下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于f-raio準(zhǔn)則和混合高斯模型的語音情感識(shí)別
0聲門激勵(lì)特性及對(duì)聲門識(shí)別的影響近年來,語音情感檢測(cè)領(lǐng)域蓬勃發(fā)展。針對(duì)語音的何種特征可以有效體現(xiàn)出情感,學(xué)者們進(jìn)行了大量的研究,主要集中在基于韻律的特征和基于基頻的特征兩方面。但是如何提取對(duì)說話人、訓(xùn)練語音庫(kù)等更具有魯棒性的語音情感特征,還需要作進(jìn)一步的研究。研究表明,語音情感與音色(voicequality)是密切相關(guān)的,或者說音色是語音情感的一種重要表現(xiàn)形式。文獻(xiàn)中通過共振峰合成器合成了breathyvoice、creakyvoice、harshvoice、lax-creakyvoice、modalvoice、tensevoice、whisperyvoice七種音色由聽者來判斷。實(shí)驗(yàn)證明,不同的情感對(duì)應(yīng)不同的音色,如生氣的音色表現(xiàn)為tense和harshvoice,悲傷的音色為breathyvoice,厭惡的音色為creakyvoice,害怕的音色表現(xiàn)為whispery和breathyvoice。因此提取基于音色的特征將有利于情感判別。對(duì)于音色的定量分析主要依據(jù)聲門激勵(lì)的特性。逆濾波提供了非入侵的方法來估計(jì)語音的聲門激勵(lì)。有很多對(duì)聲門激勵(lì)的量化參數(shù),常用的時(shí)域參數(shù)有聲門開啟比例(openquotient,OQ)、開啟閉合速度比(speedquotient,SQ)和聲門閉合比例(closingquotient,CQ),但是它們都需要用到聲門開啟和閉合時(shí)刻。由于聲門開啟與閉合瞬間很難準(zhǔn)確得到,這幾個(gè)參數(shù)的實(shí)用性不是很強(qiáng)。文獻(xiàn)提出了新的聲門時(shí)域參數(shù)NAQ。作為對(duì)聲門閉合階段參數(shù)化的方法,它采用經(jīng)過逆濾波估計(jì)的聲門激勵(lì)波形的兩個(gè)振幅域值來度量,并用基音周期進(jìn)行歸一化。實(shí)驗(yàn)證明NAQ參數(shù)比傳統(tǒng)時(shí)域參數(shù)CQ對(duì)語音噪聲和失真更魯棒。文獻(xiàn)中說話者分別用breathy、normal、pressed三種不同的發(fā)聲類型發(fā)元音/a:/,計(jì)算其NAQ值,結(jié)果表明不同的音色對(duì)應(yīng)不同的NAQ值,即NAQ值對(duì)音色的區(qū)分是有效的。進(jìn)一步,文獻(xiàn)從neutral、sadness、joy、anger、tenderness五種情感的連續(xù)語音中提取元音/a:/的40ms片段,進(jìn)行逆濾波和計(jì)算NAQ參數(shù)。實(shí)驗(yàn)分析也表明NAQ參數(shù)對(duì)情感具有一定的區(qū)分能力,在語音情感識(shí)別中可作為一個(gè)可行的特征。但是由于文獻(xiàn)的實(shí)驗(yàn)中僅提取連續(xù)語音中單一元音的40ms片段進(jìn)行NAQ參數(shù)分析,對(duì)其在整句連續(xù)語音情感識(shí)別中的應(yīng)用并沒有作進(jìn)一步的探討。目前尚未看到國(guó)內(nèi)外有將NAQ參數(shù)用在連續(xù)語音情感識(shí)別中的相關(guān)文獻(xiàn)。本文初步探索了NAQ參數(shù)作為特征應(yīng)用于語音情感識(shí)別的途徑,取情感語音中所有元音段的NAQ值作為特征建立混合高斯模型,采用eNTERFACE’05的聽/視覺情感語音數(shù)據(jù)庫(kù),對(duì)六種情感anger、disgust、fear、happiness、sadness、surprise進(jìn)行識(shí)別實(shí)驗(yàn),并與以整句語音的NAQ值作為特征的識(shí)別結(jié)果進(jìn)行了比較。結(jié)果表明使用語音中元音段的NAQ值作為特征可以得到較滿意的情感識(shí)別率。1根據(jù)naq的語音情感特征1.1聲門激勵(lì)估計(jì)模型本文對(duì)語音信號(hào)采用IAIF進(jìn)行逆濾波,它是一種從語音信號(hào)中提取聲門激勵(lì)的分析方法。其基本原理是:通過循環(huán)迭代地利用逆濾波技術(shù),盡可能從原始語音信號(hào)中去除聲門激勵(lì)和口鼻輻射的效應(yīng),以便更精確地估計(jì)聲道濾波器特性,從而盡可能從語音信號(hào)中去除聲道濾波器效應(yīng),最終更精確地估計(jì)聲門激勵(lì)信號(hào)。IAIF流程如圖1所示。這種方法的運(yùn)作在兩個(gè)階段(圖1)內(nèi),第一個(gè)階段為模塊b)~f),產(chǎn)生聲門激勵(lì)的初步估計(jì),被用來作為第二階段g)~l)更準(zhǔn)確估計(jì)聲門激勵(lì)的輸入。其中DAP(discreteall-polemodelling,離散全集點(diǎn)模型)用來估計(jì)聲道濾波器或聲門激勵(lì)的模型;s(n)為聲壓波,即原始語音信號(hào);g(n)為輸出,即估計(jì)的聲門波;Hg1(z),Hvt1(z),Hg2(z)是轉(zhuǎn)移函數(shù)。具體逆濾波的過程如下:a)對(duì)語音信號(hào)高通濾波,以去除在錄音期間被麥克風(fēng)扭曲的低頻波。高通濾波采用截止頻率為60Hz的線性FIR濾波器來實(shí)現(xiàn)。b)對(duì)經(jīng)過高通濾波處理的語音信號(hào)進(jìn)行1階DAP分析,用全零點(diǎn)濾波器表示,對(duì)語音信號(hào)中聲門激勵(lì)和唇輻射的綜合影響進(jìn)行初步估計(jì),其轉(zhuǎn)移函數(shù)由Hg1(z)表示。c)對(duì)b)的結(jié)果進(jìn)行逆濾波,消除激勵(lì)信號(hào)和唇輻射的影響。d)對(duì)c)的結(jié)果進(jìn)行p階DAP分析,獲得一個(gè)聲道濾波器模型,用Hvt1(z)表示。p一般取8~12,本實(shí)驗(yàn)中取11。e)由d)得到的聲道濾波器模型通過逆濾波器消除聲道的影響。f)對(duì)e)的輸出進(jìn)行積分,以消除唇輻射的影響,得到聲門激勵(lì)的初步估計(jì)。g)對(duì)f)得到的聲門激勵(lì)信號(hào)進(jìn)行g(shù)階DAP分析,精確估計(jì)聲門激勵(lì)信號(hào)的模型,用Hg2(z)表示,g的值取4。h)用激勵(lì)信號(hào)模型對(duì)輸入信號(hào)進(jìn)行逆濾波,以消除估計(jì)聲門激勵(lì)的影響。i)對(duì)上一步的輸出求積分,以消除唇輻射的影響。j)通過r階的DAP分析,得到一個(gè)新的聲道濾波器模型Hvt2(z)。r的值可以被調(diào)節(jié),但通常與d)的p值相等。k)利用j)得到的聲道模型,通過逆濾波從輸入信號(hào)消除聲道的影響。l)求積分以消除唇輻射的影響,得到對(duì)聲門激勵(lì)的最終估計(jì)g(n)。實(shí)驗(yàn)中調(diào)節(jié)聲道共振峰的數(shù)量和唇輻射的系數(shù)以獲得最佳的聲門波估計(jì)。共振峰的數(shù)量一般為8~14,唇輻射系數(shù)為0.97~1.0。圖2為元音/a:/在生氣情感下的原始語音信號(hào)波形及其經(jīng)IAIF逆濾波后得到的聲門激勵(lì)信號(hào)。1.2聲源時(shí)域中聲源的情感特征振幅商(amplitudequotient,AQ)是用單一的數(shù)字值定量描述聲源特征最有效的參數(shù)之一。它被定義為聲門波最大振幅與其相應(yīng)一階導(dǎo)數(shù)的最大負(fù)峰值之比。AQ=fac/dpeak(1)其中:fac是聲門脈沖的最大波峰值;dpeak是聲門脈沖對(duì)應(yīng)一階導(dǎo)數(shù)的最大負(fù)峰值。因?yàn)闊o須測(cè)量聲門波開啟或閉合的瞬間時(shí)刻,AQ值比較容易得到。由于AQ的值依賴于信號(hào)的基頻(F0),將AQ用基音周期歸一化。文獻(xiàn)導(dǎo)出一個(gè)新的聲源時(shí)域參數(shù)NAQ,去除了這種對(duì)基頻的依賴性。NAQ=AQ/T=fac/(dpeak×T)(2)其中T為基音周期。圖3給出了元音/a:/的一段經(jīng)IAIF處理得到的聲門激勵(lì)與其對(duì)應(yīng)的一階導(dǎo)數(shù)波形。圖4~7分別是元音o、e,爆破音p,清輔音s經(jīng)IAIF逆濾波后的聲門波形、對(duì)應(yīng)的一階導(dǎo)數(shù)波形及其NAQ值。由圖中可以看出元音段NAQ值的變化比較平穩(wěn),而且不同元音段的NAQ值比較接近;爆破音p只求出了兩個(gè)NAQ值;而清輔音s的激勵(lì)類似于白噪聲,其求出的NAQ值也具有很大的隨機(jī)性。因此,如果采用整個(gè)語句中的所有輔音和元音段的NAQ值作為情感特征,這種特征的分布將會(huì)比較發(fā)散,由語音單元不同引起的NAQ值變化,將會(huì)超出由情感引起的變化。由此可見語音情感特征不宜采用整個(gè)語句的NAQ值。本文只采用元音段的NAQ值作為語音情感特征。2情感語音中聲母段的識(shí)別為了更直接地評(píng)價(jià)NAQ參數(shù)對(duì)不同情感的區(qū)別能力,本文采用一種廣義F-ratio測(cè)度準(zhǔn)則。定義如下:Sw=1/ΙΙ∑i=1J∑j=1(Μij-Μj)2Sw=1/I∑i=1I∑j=1J(Mij?Mj)2(3)Sb=1/ΙΙ∑i=1(Μi-Μo)2Sb=1/I∑i=1I(Mi?Mo)2(4)F-ratio=Sb/Sw(5)其中:Mij為第i類情感語音中元音段NAQ值的第j個(gè)特征值;Mo為所有情感語音中元音段的NAQ均值;Mi為第i類情感語音中元音段的NAQ均值;Sw為第i類情感語音中元音段的NAQ值的方差;Sb為所有情感語音中元音段的NAQ值的方差。F-ratio的值越大,說明參加計(jì)算的各類情感間的區(qū)別效果越好。3gm模型的建立本文采用聲門時(shí)域參數(shù)NAQ值為特征,用GMM為情感建模。GMM為高斯概率密度函數(shù)的一個(gè)線性組合,只要有足夠多數(shù)目的高斯概率密度函數(shù)就可以逼近任意一種密度函數(shù)。這里選擇八個(gè)高斯概率密度函數(shù)。bi(x)為特征矢量x對(duì)于第i個(gè)高斯的概率密度函數(shù):bi(x)=1/[(2π)D/2|Σi|1/2]exp((x-ui)-1∑i(x-ui))/2(i=1,??8)(6)其中:x表示D維NAQ特征值;ui、Σi是第i個(gè)高斯分量的均值和方差;D是特征矢量的維數(shù),此處D=1。x在GMM下的似然度為p(x|λ)=8∑i=1wibi(x)(7)其中:wi(i=1,…,8)是權(quán)重系數(shù),需滿足8∑i=1wi=1。在訓(xùn)練時(shí),對(duì)每種情感模型的參數(shù)λ=進(jìn)行初始化,分別對(duì)每種情感的所有NAQ特征用K-means聚類算法進(jìn)行聚類,得到中心向量u=(u1,…,u8)作為均值u的初始值,并計(jì)算其方差Σi,作為Σ=(Σ1,…,Σ8)的初始值,權(quán)重定為wi=1/8(i=1,…,8)。使用期望最大化(expectation-maximization,EM)算法在迭代中改善GMM模型的參數(shù)估計(jì),在每次迭代中增加模型估計(jì)λ與觀測(cè)特征矢量的匹配概率,即每次迭代有p(X|λk+1)>p(X|λk),k是迭代次數(shù)。這樣迭代運(yùn)算直到模型收斂。識(shí)別時(shí),計(jì)算輸入語音的NAQ特征在每個(gè)情感模型下產(chǎn)生的概率,找出概率最大者,其對(duì)應(yīng)的情感就是識(shí)別結(jié)果。4實(shí)驗(yàn)與分析的識(shí)別4.1實(shí)驗(yàn)內(nèi)容和方法實(shí)驗(yàn)數(shù)據(jù)采用eNTERFACE’05聽/視覺情感語音數(shù)據(jù)庫(kù)中的語音,它包含anger、disgust、fear、happiness、sadness、surprise六種情感,由來自14個(gè)不同國(guó)家的42個(gè)說話人錄制,使用英語,每種情感由每個(gè)人的5句話來表達(dá)。本文用Cooledit從視頻文件中提取16kHz、16位、單聲道的音頻用于實(shí)驗(yàn)。為了提高實(shí)驗(yàn)的可靠性,從每種情感中挑出表達(dá)效果好的100句用于GMM訓(xùn)練,另外挑選出30句作為識(shí)別語句。還對(duì)識(shí)別數(shù)據(jù)進(jìn)行情感感知評(píng)估實(shí)驗(yàn),在未知原始語音感情的狀況下將識(shí)別語句隨機(jī)分給三位同學(xué)進(jìn)行主觀感知識(shí)別。首先針對(duì)所有的訓(xùn)練語句采用語音處理工具包HTK,在用TIMIT標(biāo)準(zhǔn)語音語料庫(kù)訓(xùn)練的三音素模型的基礎(chǔ)上,進(jìn)行音素的強(qiáng)迫對(duì)準(zhǔn),并對(duì)元音段進(jìn)行切分。因?yàn)榇嬖谠襞c輔音的過渡段,為了保證提取的元音段的可靠性,對(duì)每段元音僅取其四分之一至四分之三部分。本文實(shí)驗(yàn)共分為兩部分:a)六種情感分別兩兩之間以NAQ值作為特征計(jì)算F-ratio值;b)對(duì)各種情感以NAQ值作為特征,使用GMM模型進(jìn)行訓(xùn)練和識(shí)別實(shí)驗(yàn)。兩部分實(shí)驗(yàn)分別都以整句語音的NAQ值和元音段的NAQ值作為特征進(jìn)行比較。4.2基于naq值與其他情感的比較采用情感語音中元音段的NAQ值作為特征,針對(duì)六種情感分別計(jì)算兩種情感之間的F-ratio值。圖8~13是anger、disgust、fear、happiness、sadness、surprise分別與其他各種情感間以元音段的NAQ值為特征和以整句的NAQ值為特征計(jì)算的F-ratio值的比較結(jié)果。從圖中可以看出,以元音段的NAQ值為特征計(jì)算的F-ratio值大部分都明顯大于以整句NAQ值為特征計(jì)算的F-ratio值,說明以元音段的NAQ值作為特征對(duì)情感有更強(qiáng)的區(qū)分力。4.3僅以聲母段的識(shí)別表1是以元音段NAQ值為特征和以整句NAQ值為特征的情感識(shí)別結(jié)果,以及情感感知實(shí)驗(yàn)結(jié)果。比較以元音段的NAQ值為特征和以整句的NAQ值為特征的情感識(shí)別結(jié)果,除了disgust外,識(shí)別率都是63.3%無變化;happiness在以元音段的NAQ值為特征的情感識(shí)別中識(shí)別率為0,而在以整句的NAQ值為特征的情感識(shí)別中識(shí)別率為3.3%,稍有下降;其他情感的識(shí)別中僅用元音段特征比用整句NAQ特征的識(shí)別率都有明顯的提高,尤其surprise的識(shí)別率由整句特征的3.3%提高到40%。這說明僅以元音段的NAQ值為特征的情感識(shí)別效果明顯高于以整句NAQ值為特征的情感識(shí)別效果。在感知實(shí)驗(yàn)中,情感語音數(shù)據(jù)庫(kù)完全采用國(guó)外的,由于生活習(xí)慣以及文化差異,中外對(duì)情感的認(rèn)知也存在差異,對(duì)fear、surprise感知實(shí)驗(yàn)的正確識(shí)別率也只達(dá)到63.3%。比較基于元音段NAQ特征和GMM的情感識(shí)別和感知實(shí)驗(yàn),少數(shù)情感的識(shí)別率已經(jīng)比較接近,但大
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東生態(tài)工程職業(yè)學(xué)院《朝鮮語會(huì)話三》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東青年職業(yè)學(xué)院《大國(guó)崛起:中國(guó)對(duì)外貿(mào)易概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 七年級(jí)上冊(cè)《4.2.1合并同類項(xiàng)》課件與作業(yè)
- 廣東南華工商職業(yè)學(xué)院《成本會(huì)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東茂名幼兒師范??茖W(xué)校《運(yùn)營(yíng)管理Ⅰ》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東茂名農(nóng)林科技職業(yè)學(xué)院《軟件質(zhì)量保證》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東嶺南職業(yè)技術(shù)學(xué)院《汽車維修與保養(yǎng)》2023-2024學(xué)年第一學(xué)期期末試卷
- 帶您走進(jìn)西藏(西藏民族大學(xué))學(xué)習(xí)通測(cè)試及答案
- 公共日語(北京大學(xué))學(xué)習(xí)通測(cè)試及答案
- 2025新北師大版英語七年級(jí)下UNIT 2 Food and Health單詞表
- 高職建筑設(shè)計(jì)專業(yè)《建筑構(gòu)造與識(shí)圖》說課課件
- 《國(guó)珍產(chǎn)品介紹》
- 醫(yī)院軟式內(nèi)鏡清洗消毒技術(shù)規(guī)范
- 《高速鐵路客運(yùn)乘務(wù)實(shí)務(wù)(活頁式)》全套教學(xué)課件
- JCT872-2000建筑裝飾用微晶玻璃
- 2024(部編版)道德與法治九年級(jí)上冊(cè) 第二單元 民主與法治 單元測(cè)試(學(xué)生版+解析版)
- 醫(yī)療護(hù)理員基礎(chǔ)理論知識(shí)考試試題題庫(kù)及答案
- YDT 4525-2023通信局(站)液冷系統(tǒng)總體技術(shù)要求
- 2024年高考英語詞匯表-帶音標(biāo)
- 墊底辣妹教育學(xué)思考(3篇模板)
- 框架結(jié)構(gòu)設(shè)計(jì)國(guó)內(nèi)外研究現(xiàn)狀
評(píng)論
0/150
提交評(píng)論