不限定發(fā)音方式變化類型的s-norm_第1頁
不限定發(fā)音方式變化類型的s-norm_第2頁
不限定發(fā)音方式變化類型的s-norm_第3頁
不限定發(fā)音方式變化類型的s-norm_第4頁
不限定發(fā)音方式變化類型的s-norm_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

不限定發(fā)音方式變化類型的s-norm

說話者識別是一種基于語音中包含的說話者特定信息的生物認證技術(shù)。說話人識別系統(tǒng)的性能受很多因素的影響,例如,環(huán)境、錄音和信道條件,說話人自身特征(比如,方音、重音、說話方式、情感等)以及語種等。這些因素在訓(xùn)練和測試上的不匹配會導(dǎo)致說話人識別系統(tǒng)性能的下降。這些不匹配情況分為兩類:一是與說話人無關(guān)的不匹配,如,環(huán)境、錄音或信道的不匹配;二是說話人自身發(fā)音方式變化引起的不匹配。說話人識別領(lǐng)域的大部分研究集中于第一類,例如比較突出的跨信道問題。不過,近些年來,發(fā)音方式變化對說話人識別的影響也引起了越來越多的關(guān)注。發(fā)音方式的變化是多種多樣的,涉及到情感、音量和語速等多個方面。很多科研人員研究了情感變化對說話人識別的影響;對于音量發(fā)生變化,文研究了耳語、輕聲、正常、大聲說話以及喊叫等5種發(fā)音方式;還在語速快慢方面進行研究;雙語問題也是一個研究熱點。此外,說話方式的變化,如自然發(fā)音和朗讀等也有研究。對于這些發(fā)音方式魯棒的說話人識別研究,研究人員嘗試的各種算法可以分為特征域、模型域和分數(shù)域等幾種類型。然而,在說話人識別系統(tǒng)的實際應(yīng)用過程中,要求說話人在訓(xùn)練與識別時保持相同的發(fā)音方式是很困難的;此外,發(fā)音變化也是多種多樣的,不可能事先進行限定。然而,現(xiàn)有的研究通常是專注于發(fā)音方式變化的某個特定方面,對于如何用更通用的方法來解決多種發(fā)音方式變化的魯棒性問題,研究較少。本文以一個含多種發(fā)音方式變化數(shù)據(jù)庫為基礎(chǔ),對于不限定發(fā)音方式變化類型的情形,提出發(fā)音方式分數(shù)規(guī)整(speaking-stylenormalization,S-Norm)的解決方法。1自適應(yīng)的兩種形式說話人識別是依據(jù)說話人語音中所含有的說話人個性信息進行身份辨認的,而語音中除了說話人的個性信息,還包含了其他信息諸如語義信息、信道信息、環(huán)境噪音以及反映說話人共性的一般信息等。所謂分數(shù)規(guī)整,即通過大量與目標說話人相近的集外說話人語音估計出非說話人個性信息,并在分數(shù)域減去這些信息的影響的一個過程。說話人識別領(lǐng)域的分數(shù)規(guī)整方法可分為兩類:只與訓(xùn)練相關(guān)的分數(shù)規(guī)整方法和與測試相關(guān)的分數(shù)規(guī)整方法。前者以Z-Norm為代表,還包括H-Norm、C-Norm、Top-Norm和D-Norm等;后者以T-Norm為代表,還有兩種自適應(yīng)形式AT-Norm和KLT-Norm。Z-Norm和T-Norm是目前最常使用的兩種分數(shù)規(guī)整方法。假設(shè)某測試語音的聲學特征向量為Or={o1,…,oN},目標說話人t的模型用λt來表示,s(Or|λt)為該測試語音在目標說話人模型上的打分。Z-Norm使用一個集外說話人語音集ΩI={OI,1,…,OI,K}(I代表該語音或模型來自集外說話人,K是集外說話人語音數(shù)目),在目標說話人模型上打分為SI={s(OI,1|λt),…,s(OI,K|λt)},且Z-Norm假定這些分數(shù)服從Gauss分布,μZ-Norm和σZ-Norm為Gauss分布的均值和方差。則規(guī)整后的分數(shù)計算如下:SZ?Norm(Or|λt)=s(Or|λt)?μZ?NormσZ?Norm.(1)SΖ-Νorm(Οr|λt)=s(Οr|λt)-μΖ-ΝormσΖ-Νorm.(1)Z-Norm的規(guī)整化參數(shù)與目標說話人模型相對應(yīng),優(yōu)點在于其估計可在說話人模型訓(xùn)練階段(離線)完成。T-Norm正好與之相反,其規(guī)整化參數(shù)與測試語音相對應(yīng),參數(shù)估計必須在測試階段(在線)方可完成。T-Norm使用一個集外說話人模型集ΛI={λI,1,…,λI,M}(M是集外說話人模型數(shù)目),測試語音Or在模型集上的打分為SI={s(Or|λI,1),…,s(Or|λI,M)},且T-Norm假設(shè)這些分數(shù)服從Gauss分布,μT-Norm和σT-Norm為Gauss分布的均值和方差。則規(guī)整后的分數(shù)計算如下:ST?Norm(Or|λt)=s(Or|λt)?μT?NormσT?Norm.(2)SΤ-Νorm(Οr|λt)=s(Οr|λt)-μΤ-ΝormσΤ-Νorm.(2)若在分數(shù)域?qū)⒂?xùn)練模型和測試語音的信息結(jié)合起來,即將Z-Norm和T-Norm以某種方式結(jié)合起來,則稱為ZT-Norm。2根據(jù)發(fā)音規(guī)則和符號順序的說話人識別方法2.1第三,基于基準場景的語音場景未改變的場景文中考慮了發(fā)音方式變化的6個方面,共12種場景,包括說話方式(自然發(fā)音和朗讀)、語速(快速、中速和慢速)、音量(高音、中音、低音和耳語)、情感狀態(tài)(高興、生氣和中性)、身體狀況(感冒時的鼻音、嘴里含著東西講話和正常狀態(tài))以及語種(漢語和英語)等。這樣,語音的發(fā)音方式就可以用一個六元組來表示,即〈說話方式,語速,音量,情感狀態(tài),身體狀況,語種〉??紤]到實際應(yīng)用情況,本文將〈自然發(fā)音,中速,音量適中,中性,正常狀態(tài),漢語〉這種語音場景定義為基準場景。通過改變且僅改變基準場景六元組中的某個方面,可以得到另外常見的11種語音場景(發(fā)音方式),如圖1所示。將這12種語音場景(發(fā)音方式)簡記為:自然發(fā)音、朗讀、快速、慢速、高音、低音、耳語、生氣、高興、鼻音、口中有物、英語。2.2實驗2:m-ubm說人識別系統(tǒng)面向?qū)嶋H應(yīng)用的說話人識別系統(tǒng),在建立說話人模型時,用戶通常會以正常狀態(tài)發(fā)音,即對應(yīng)前一節(jié)中定義的基準場景;而系統(tǒng)面對的測試語音則可能是用戶改變發(fā)音方式后的語音,與訓(xùn)練語音的發(fā)音方式可能不同。本文涉及的實驗都是建立在此基礎(chǔ)上。依照傳統(tǒng)的Gauss混合-通用背景模型(GMM-UBM)說話人識別系統(tǒng)的做法,將說話人各語音場景的數(shù)據(jù)共同訓(xùn)練得到一個UBM,說話人模型的訓(xùn)練和測試配置如前所述。實驗結(jié)果表明,這種配置性能不好,等錯誤率(EER)為32.4%。另一個改進的基線系統(tǒng)為:用各語音場景的數(shù)據(jù)分別訓(xùn)練出12個場景相關(guān)的UBM,記為Π={UBM1,…,UBM12};對每個目標說話人t建模時,只使用其基準場景的語音數(shù)據(jù),從這些UBM中適應(yīng)得到該說話人的場景相關(guān)的說話人模型Λt={λt,1,…,λt,12}。測試語音Or在這12個模型上打分為St={s(Or|λt,1),…,s(Or|λt,12)},則該測試語音在該說話人模型上的最終得分為:s(Or|λt)=max{s(Or|λt,1),?,s(Or|λt,12)}.(3)s(Οr|λt)=max{s(Οr|λt,1),?,s(Οr|λt,12)}.(3)以下各節(jié)分數(shù)規(guī)整方法的實驗都是建立在這個基線的基礎(chǔ)之上。2.3模型編碼和編碼SZ-Norm方法選用集外說話人各種場景下的語音進行分數(shù)的規(guī)整。每個目標說話人t的12個場景說話人模型為Λt={λt,1,…,λt,12}。SZ-Norm實驗選用的集外說話人語音集ΩI={OI,1,…,OI,K},對Λt中的每個模型進行打分。設(shè)ΩI在λt,i(i=1,…,12)上的打分為:St,i={s(OI,1|λt,i),…,s(OI,K|λt,i)}。假設(shè)這K個分數(shù)服從Gauss分布,μt,i和σt,i為Gauss分布的均值和方差。這樣對于每個目標說話人的每個場景說話人模型,都可以估計出一個均值和方差對,即規(guī)整化參數(shù)。測試時,某測試語音Or在某目標說話人t的某個場景說話人模型λt,i上打出原始分s(Or|λt,i)后,可以用相應(yīng)的規(guī)整化參數(shù)μt,i和σt,i進行規(guī)整。對于SZ-Norm本文進行了兩組對比實驗,第一組實驗是先在原始分數(shù)上求最大再對最大的那個分數(shù)進行相應(yīng)的規(guī)整,將此規(guī)整分數(shù)作為最終得分;第二組實驗是先對所有的原始分數(shù)進行各自相應(yīng)的規(guī)整,然后取最大的分數(shù)。2.4計算模型的編碼ST-Norm方法選用集外說話人基準語音場景下的語音進行分數(shù)的規(guī)整。同基線系統(tǒng)一樣,每段集外說話人語音OI,k(k=1,…,M)分別從12個場景UBM中適應(yīng)出12個場景說話人模型ΛI,k={λk,1,…,λk,12}(k=1,…,M),共計M×12個模型。對應(yīng)于每個場景i,測試語音Or在若干集外說話人該場景說話人模型λk,i(k=1,…,M)上的打分為Si={s(Or|λ1,i),…,s(Or|λM,i)},假設(shè)這M個分數(shù)服從Gauss分布,μr,i和σr,i為Gauss分布的均值和方差。這樣對于每個測試語音共有12對規(guī)整化參數(shù)。某測試語音Or在某目標說話人t的某個場景說話人模型λt,i上打出原始分s(Or|λt,i)后,可以用相應(yīng)的規(guī)整化參數(shù)μr,i和σr,i進行規(guī)整。同SZ-Norm實驗相似,也進行了兩組對比實驗。2.5集外說話人模型測試SZT-Norm實質(zhì)是SZ-Norm與ST-Norm的結(jié)合。該方法選用兩部分(說話人不交叉)集外說話人語音。其中一部分集外說話人語音(僅使用基準場景)OI,k(k=1,…,M)分別從12個場景UBM中適應(yīng)出12個場景說話人模型ΛI,k={λk,1,…,λk,12}(k=1,…,M),共計M×12個模型。另一部分集外說話人語音(包含12種語音場景)在目標說話人模型Λt={λt,1,…,λt,12}以及之前的集外說話人模型上進行SZ-Norm的過程,對于每個模型都可得到一對規(guī)整化參數(shù)μj,i和σj,i(j=1,…,M,t;i=1,…,12)。測試語音Or在集外說話人模型λk,i(k=1,…,M;i=1,…,12)上打的分數(shù)先使用之前得到的該模型SZ-Norm參數(shù)μk,i和σk,i進行規(guī)整,再對規(guī)整后的分數(shù)進行ST-Norm的過程,得到該測試語音在該場景上的規(guī)整化參數(shù)μr,i和σr,i。該測試語音Or在某目標說話人t的某個場景說話人模型λt,i(i=1,…,12)上打出原始分s(Or|λt,i)后,先用該目標說話人的該場景說話人模型的SZ-Norm參數(shù),即μt,i和σt,i進行規(guī)整,而后再用該測試語音相應(yīng)于該場景的ST-Norm參數(shù),即μr,i和σr,i進行規(guī)整。3fcc,ubm的語音數(shù)據(jù)本文選用的系統(tǒng)是基于GMM說話人確認系統(tǒng),系統(tǒng)聲學特征采用32維MFCC,UBM有128個Gaussian混合。從數(shù)據(jù)庫中選用了20個說話人的語音數(shù)據(jù)進行訓(xùn)練和測試。訓(xùn)練模型的語音長度為90s,測試語音長度為22s。其余說話人語音數(shù)據(jù)用于UBM的訓(xùn)練和分數(shù)規(guī)整。3.1分數(shù)混亂方法對比對于分數(shù)規(guī)整方法SZ-Norm和ST-Norm,選用了相同的15個集外說話人。所不同的是,SZ-Norm實驗中使用了這15個集外說話人的全部12種語音場景,共1440段語音(22s/段,總共540min)數(shù)據(jù);而ST-Norm實驗中僅使用了這15個集外說話人基準語音場景下的30段語音(90s/段,總共45min),數(shù)據(jù)量為SZ-Norm的1/12。每種分數(shù)規(guī)整方法都對應(yīng)著兩組實驗,即先取最大分數(shù)再進行規(guī)整(簡記為“最大-規(guī)整”)和先進行分數(shù)規(guī)整再取最大(簡記為“規(guī)整-最大”)。這種配置下的5組實驗結(jié)果如表1中基線、SZ-Norm及ST-Norm列所示(以等錯誤率EER表示)。相對于基線實驗,兩組SZ-Norm和ST-Norm實驗的性能均有相當程度的提升,其中大部分語音場景下都是“規(guī)整-最大”這種配置要好一些。例外情況僅發(fā)生在SZ-Norm中測試語音場景為耳語時??梢?“規(guī)整-最大”的方法在說話方式、語速、情感狀態(tài)、身體狀況或語種發(fā)生變化時均使EER有一致的明顯下降趨勢。這個現(xiàn)象表明:經(jīng)過分數(shù)規(guī)整會平均掉其他非說話人個性信息,使得分數(shù)大小的比較更加可信。在“規(guī)整-最大”這種情況下,比較SZ-Norm與ST-Norm的性能可以看出,ST-Norm的總體性能要好一些,EER較之基線下降約23.5%,遠好于SZ-Norm的18.6%。在自然發(fā)音、英語、高音、低音、耳語、快速、生氣及高興等大多數(shù)語音場景下,ST-Norm的性能均明顯優(yōu)于SZ-Norm;只在慢速和朗讀這兩個語音場景下差一些。ST-Norm用少得多的數(shù)據(jù)就達到了更好的性能,這說明ST-Norm以測試語音為中心的規(guī)整化思想,更能夠平均掉測試語音與規(guī)整化語音聲學上的不匹配。3.2szt-norm實驗SZ-Norm和ST-Norm的實驗均表明“規(guī)整-最大”的做法整體效果較好,于是在SZT-Norm實驗中只采用這種方式進行了1組實驗。之前的實驗中為了比較SZ-Norm與ST-Norm的性能使用了同樣的集外說話人,但在SZT-Norm中用于SZ-Norm和ST-Norm的集外數(shù)據(jù)不能交叉,所以另選了15個集體說話人的數(shù)據(jù)重新進行了一組ST-Norm實驗,對于SZ-Norm仍延用之前的數(shù)據(jù)。SZT-Norm的實驗結(jié)果如表1的SZT-Norm列所示??梢?做了SZT-Norm分數(shù)規(guī)整后,系統(tǒng)的整體性能較之單獨的SZ-Norm或者ST-Norm均有所提升,較之基線EER下降約27.1%。尤其是與單獨的SZ-Norm相比,僅有慢速和耳語場景稍差了一些,其余場景效果都很好;但與單獨的ST-Norm相比,不少場景下的性能都有所下降,這對SZT-Norm的配置提出了更高的要求。4算法的有效性本文以一個含多種發(fā)音方式變化數(shù)據(jù)庫為基礎(chǔ),對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論