




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、10.110.1概述概述10.210.2說(shuō)話人識(shí)別方法和系統(tǒng)結(jié)構(gòu)說(shuō)話人識(shí)別方法和系統(tǒng)結(jié)構(gòu)10.310.3應(yīng)用應(yīng)用DTWDTW的說(shuō)話人確認(rèn)系統(tǒng)的說(shuō)話人確認(rèn)系統(tǒng)10.410.4應(yīng)用應(yīng)用VQVQ的說(shuō)話人識(shí)別系統(tǒng)的說(shuō)話人識(shí)別系統(tǒng)10.510.5應(yīng)用應(yīng)用HMMHMM的說(shuō)話人識(shí)別系統(tǒng)的說(shuō)話人識(shí)別系統(tǒng)10.1 10.1 概述概述v自動(dòng)說(shuō)話人識(shí)別(自動(dòng)說(shuō)話人識(shí)別(Automatic Speaker Recognition Automatic Speaker Recognition 簡(jiǎn)稱簡(jiǎn)稱ASRASR),又稱為話者識(shí)別或聲紋識(shí)別,),又稱為話者識(shí)別或聲紋識(shí)別,是一種自動(dòng)識(shí)別說(shuō)話是一種自動(dòng)識(shí)別說(shuō)話人的過(guò)程。說(shuō)話
2、人識(shí)別和語(yǔ)音識(shí)別的人的過(guò)程。說(shuō)話人識(shí)別和語(yǔ)音識(shí)別的區(qū)別區(qū)別在于,它不注重包在于,它不注重包含在語(yǔ)音信號(hào)內(nèi)的文字符號(hào)以及語(yǔ)意內(nèi)容信息,而是著眼于含在語(yǔ)音信號(hào)內(nèi)的文字符號(hào)以及語(yǔ)意內(nèi)容信息,而是著眼于包含在語(yǔ)音信號(hào)中的個(gè)人特征,提取說(shuō)話人的這些個(gè)人信息包含在語(yǔ)音信號(hào)中的個(gè)人特征,提取說(shuō)話人的這些個(gè)人信息特征,以達(dá)到識(shí)別說(shuō)別說(shuō)話人的目的。特征,以達(dá)到識(shí)別說(shuō)別說(shuō)話人的目的。v按其最終完成的任務(wù)可以分為兩類:按其最終完成的任務(wù)可以分為兩類: * * 自動(dòng)說(shuō)話人自動(dòng)說(shuō)話人確認(rèn)確認(rèn)( Automatic Speaker Verification Automatic Speaker Verification,簡(jiǎn)
3、稱簡(jiǎn)稱ASVASV):確認(rèn)一個(gè)人的身份,只涉及一個(gè)特定的參考模:確認(rèn)一個(gè)人的身份,只涉及一個(gè)特定的參考模型和待識(shí)別模式之間的比較,只做型和待識(shí)別模式之間的比較,只做“是是”和和“不是不是”的判決。的判決。 * * 自動(dòng)說(shuō)話人自動(dòng)說(shuō)話人辨認(rèn)辨認(rèn)(Automatic Speaker Identification,(Automatic Speaker Identification,簡(jiǎn)簡(jiǎn)稱稱ASI)ASI):必須辨認(rèn)出待識(shí)別的語(yǔ)音是來(lái)自待考察人中的哪一:必須辨認(rèn)出待識(shí)別的語(yǔ)音是來(lái)自待考察人中的哪一個(gè),有時(shí)還要對(duì)這個(gè)人以外的語(yǔ)音做出拒絕的判決。個(gè),有時(shí)還要對(duì)這個(gè)人以外的語(yǔ)音做出拒絕的判決。 10.2 1
4、0.2 說(shuō)話人識(shí)別方法和系統(tǒng)說(shuō)話人識(shí)別方法和系統(tǒng)結(jié)構(gòu)結(jié)構(gòu)v說(shuō)話人識(shí)別說(shuō)話人識(shí)別就是從說(shuō)話人的一段語(yǔ)音中提取出說(shuō)話人的個(gè)性就是從說(shuō)話人的一段語(yǔ)音中提取出說(shuō)話人的個(gè)性特征,通過(guò)對(duì)這些個(gè)人特征的分析和識(shí)別,從而達(dá)到對(duì)說(shuō)話特征,通過(guò)對(duì)這些個(gè)人特征的分析和識(shí)別,從而達(dá)到對(duì)說(shuō)話人進(jìn)行辨認(rèn)或者確認(rèn)的目的。圖人進(jìn)行辨認(rèn)或者確認(rèn)的目的。圖10-110-1是說(shuō)話人識(shí)別系統(tǒng)的結(jié)是說(shuō)話人識(shí)別系統(tǒng)的結(jié)構(gòu)框圖,它由構(gòu)框圖,它由預(yù)處理、特征提取、模式匹配和判決預(yù)處理、特征提取、模式匹配和判決等幾大部等幾大部分組成。分組成。v10.2.110.2.1預(yù)處理預(yù)處理 包括對(duì)輸入計(jì)算機(jī)的語(yǔ)音數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè)、預(yù)加重、加窗、包括對(duì)輸
5、入計(jì)算機(jī)的語(yǔ)音數(shù)據(jù)進(jìn)行端點(diǎn)檢測(cè)、預(yù)加重、加窗、分針等。分針等。v10.2.210.2.2說(shuō)話人識(shí)別特征的選取說(shuō)話人識(shí)別特征的選取 在說(shuō)話人識(shí)別系統(tǒng)中特征提取是最重要的一環(huán),特征提取就在說(shuō)話人識(shí)別系統(tǒng)中特征提取是最重要的一環(huán),特征提取就是從說(shuō)話人的語(yǔ)音信號(hào)中提取出表示說(shuō)話人個(gè)性的基本特征。是從說(shuō)話人的語(yǔ)音信號(hào)中提取出表示說(shuō)話人個(gè)性的基本特征。 在理想情況下,選取的特征應(yīng)當(dāng)滿足下述準(zhǔn)則:在理想情況下,選取的特征應(yīng)當(dāng)滿足下述準(zhǔn)則:v能夠有效地區(qū)分不同的說(shuō)話人,但又能在同一說(shuō)話人的語(yǔ)音能夠有效地區(qū)分不同的說(shuō)話人,但又能在同一說(shuō)話人的語(yǔ)音發(fā)生變化時(shí)相對(duì)保持穩(wěn)定。發(fā)生變化時(shí)相對(duì)保持穩(wěn)定。v易于從語(yǔ)音信號(hào)中
6、提取易于從語(yǔ)音信號(hào)中提取v不易被模仿不易被模仿盡量不隨時(shí)間和空間變化盡量不隨時(shí)間和空間變化v如果把說(shuō)話人識(shí)別中常用的參數(shù)加以簡(jiǎn)要?dú)w類,可如果把說(shuō)話人識(shí)別中常用的參數(shù)加以簡(jiǎn)要?dú)w類,可劃分為以下幾類:劃分為以下幾類:v線性預(yù)測(cè)參數(shù)及其派生參數(shù)線性預(yù)測(cè)參數(shù)及其派生參數(shù)v語(yǔ)音頻譜直接導(dǎo)出的參數(shù)語(yǔ)音頻譜直接導(dǎo)出的參數(shù)v混合參數(shù)混合參數(shù)v其他魯棒性參數(shù)其他魯棒性參數(shù) 上表是日本人上表是日本人Matui和和Furui在在1990年針對(duì)倒譜特征和基音特征所作的比較實(shí)驗(yàn)結(jié)年針對(duì)倒譜特征和基音特征所作的比較實(shí)驗(yàn)結(jié)果果所用特征所用特征誤識(shí)率誤識(shí)率/(%)倒譜差值倒譜基音差值基音倒譜與差值倒譜倒譜、差值倒譜與基音、差
7、值基音9.4311.8174.4285.887.932.89v10.2.310.2.3特征參量評(píng)估方法特征參量評(píng)估方法 F F比:比:在給定一種識(shí)別方法后,識(shí)別的效果主要取決于特征在給定一種識(shí)別方法后,識(shí)別的效果主要取決于特征參數(shù)的選取。對(duì)于某一維單個(gè)的參數(shù)而言,可以用參數(shù)的選取。對(duì)于某一維單個(gè)的參數(shù)而言,可以用F F來(lái)表征來(lái)表征它在說(shuō)話人識(shí)別中的有效性。它在說(shuō)話人識(shí)別中的有效性。F F越大表示越有效,即不同說(shuō)話人的特征量的均值分布的離散越大表示越有效,即不同說(shuō)話人的特征量的均值分布的離散程度分布得越散越好;而同一個(gè)人的越集中越好。程度分布得越散越好;而同一個(gè)人的越集中越好。2( )2,iii
8、aia iFx不同說(shuō)話人特征參數(shù)均值的方差同一說(shuō)話人特征方差的均值ii 是 指 對(duì) 第 個(gè) 說(shuō) 話 人 的 特 征 參 數(shù) 作 平 均a 是指對(duì)某個(gè)說(shuō)話人各次的特征參數(shù)作平均( )iaxia是 指 對(duì) 第 個(gè) 說(shuō) 話 人 的 第次 特 征 參 數(shù)( )=iiaaxi是 指 第 個(gè) 說(shuō) 話 人 的 各 次 特 征 的 估 計(jì) 平 均 值=iiiuu 是 指 所 有 說(shuō) 話 人 的平 均 所 得 的 均 值v10.2.310.2.3特征參量評(píng)估方法特征參量評(píng)估方法 D D比:比:把F比的概念推廣到多維,用以衡量多維特征矢量在說(shuō)話人識(shí)別系統(tǒng)中的有效性。F比沒(méi)有考慮到特征矢量中各維參數(shù)之間的相關(guān)性。定
9、義兩個(gè)協(xié)方差矩陣,即說(shuō)話人間的協(xié)方差矩陣B和說(shuō)話人內(nèi)協(xié)方差矩陣W, TiiiB T( )( ),iiaiaia ixxWiiiDT1W定義對(duì)多維特征矢量的可分性測(cè)度散度 ,即D比為: v10.2.4模式匹配方法模式匹配方法v概率統(tǒng)計(jì)方法概率統(tǒng)計(jì)方法 通過(guò)對(duì)穩(wěn)態(tài)特征(基音、聲門(mén)增益、低階反射系數(shù)等)的統(tǒng)計(jì)分析,通過(guò)對(duì)穩(wěn)態(tài)特征(基音、聲門(mén)增益、低階反射系數(shù)等)的統(tǒng)計(jì)分析,利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。優(yōu)點(diǎn):不用對(duì)特利用均值、方差等統(tǒng)計(jì)量和概率密度函數(shù)進(jìn)行分類判決。優(yōu)點(diǎn):不用對(duì)特征參量在時(shí)域上進(jìn)行規(guī)整,適合與文本無(wú)關(guān)的說(shuō)話人識(shí)別。征參量在時(shí)域上進(jìn)行規(guī)整,適合與文本無(wú)關(guān)的說(shuō)話人識(shí)別
10、。v動(dòng)態(tài)時(shí)間規(guī)整方法(動(dòng)態(tài)時(shí)間規(guī)整方法(DTW) 將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比,按照某種距離測(cè)度得出兩個(gè)模將識(shí)別模板與參考模板進(jìn)行時(shí)間對(duì)比,按照某種距離測(cè)度得出兩個(gè)模板之間的相似程度。常用的分法:基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)整。板之間的相似程度。常用的分法:基于最近鄰原則的動(dòng)態(tài)時(shí)間規(guī)整。v矢量量化方法(矢量量化方法(VQ) 將每個(gè)人的特定文本訓(xùn)練成碼本,識(shí)別時(shí)將測(cè)試文本按此碼本進(jìn)行編碼將每個(gè)人的特定文本訓(xùn)練成碼本,識(shí)別時(shí)將測(cè)試文本按此碼本進(jìn)行編碼,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。優(yōu)點(diǎn):速度快,識(shí)別精度不低。,以量化產(chǎn)生的失真度作為判決標(biāo)準(zhǔn)。優(yōu)點(diǎn):速度快,識(shí)別精度不低。v10.2.4模式匹配方
11、法模式匹配方法v隱馬爾科夫模型方法(隱馬爾科夫模型方法(HMM) 為每個(gè)說(shuō)話人建立發(fā)聲模型,通過(guò)訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸為每個(gè)說(shuō)話人建立發(fā)聲模型,通過(guò)訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號(hào)輸出矩陣;識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率,根據(jù)最大概出矩陣;識(shí)別時(shí)計(jì)算未知語(yǔ)音在狀態(tài)轉(zhuǎn)移過(guò)程中的最大概率,根據(jù)最大概率對(duì)應(yīng)的模型進(jìn)行判決。優(yōu)點(diǎn):無(wú)需時(shí)間規(guī)整,精度高;缺點(diǎn):訓(xùn)練耗時(shí)率對(duì)應(yīng)的模型進(jìn)行判決。優(yōu)點(diǎn):無(wú)需時(shí)間規(guī)整,精度高;缺點(diǎn):訓(xùn)練耗時(shí)較大。較大。v人工神經(jīng)網(wǎng)絡(luò)方法(人工神經(jīng)網(wǎng)絡(luò)方法(ANN) 人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物的感知特性,是一種分布式并人工神經(jīng)網(wǎng)絡(luò)在某種程度上模擬了生物
12、的感知特性,是一種分布式并行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界行處理結(jié)構(gòu)的網(wǎng)絡(luò)模型,具有自組織和自學(xué)習(xí)能力、很強(qiáng)的復(fù)雜分類邊界區(qū)分能力以及對(duì)不完全信息的魯棒性,其性能近似理想的分類器。缺點(diǎn):區(qū)分能力以及對(duì)不完全信息的魯棒性,其性能近似理想的分類器。缺點(diǎn):訓(xùn)練時(shí)間長(zhǎng)、動(dòng)態(tài)規(guī)整能力弱、網(wǎng)絡(luò)隨說(shuō)話人數(shù)碼的增加時(shí)可能大到難以訓(xùn)練時(shí)間長(zhǎng)、動(dòng)態(tài)規(guī)整能力弱、網(wǎng)絡(luò)隨說(shuō)話人數(shù)碼的增加時(shí)可能大到難以訓(xùn)練的程度。訓(xùn)練的程度。v10.2.510.2.5說(shuō)話人識(shí)別中判別方法和閾值的選擇說(shuō)話人識(shí)別中判別方法和閾值的選擇加快系統(tǒng)響應(yīng)的判別分法:多門(mén)限判決、預(yù)分類技術(shù)。加快系統(tǒng)響應(yīng)的判別分法:多門(mén)
13、限判決、預(yù)分類技術(shù)。說(shuō)話人確認(rèn)系統(tǒng)的閾值選擇:說(shuō)話人確認(rèn)系統(tǒng)的閾值選擇:確認(rèn)錯(cuò)誤由確認(rèn)錯(cuò)誤由誤拒率誤拒率(False Rejection, FR)和)和誤受率誤受率(False Acceptance, FA)表示。判決門(mén)限一般由表示。判決門(mén)限一般由FR和和FA的相等點(diǎn)附近來(lái)確定。的相等點(diǎn)附近來(lái)確定。v10.2.6說(shuō)話人識(shí)別系統(tǒng)的評(píng)價(jià)說(shuō)話人識(shí)別系統(tǒng)的評(píng)價(jià) 一個(gè)說(shuō)話人識(shí)別系統(tǒng)的好壞是由一個(gè)說(shuō)話人識(shí)別系統(tǒng)的好壞是由許多因素決定的。其中主要有許多因素決定的。其中主要有正確正確識(shí)別率(或出錯(cuò)率)、訓(xùn)練時(shí)間的識(shí)別率(或出錯(cuò)率)、訓(xùn)練時(shí)間的長(zhǎng)短、識(shí)別時(shí)間、對(duì)參考參量存儲(chǔ)長(zhǎng)短、識(shí)別時(shí)間、對(duì)參考參量存儲(chǔ)量的要求
14、、使用者適用的方便程度量的要求、使用者適用的方便程度等,實(shí)用中還有價(jià)格因素等,實(shí)用中還有價(jià)格因素。圖。圖10.3表示了說(shuō)話人辨別與說(shuō)話人確認(rèn)系表示了說(shuō)話人辨別與說(shuō)話人確認(rèn)系統(tǒng)性能與用戶數(shù)的關(guān)系。統(tǒng)性能與用戶數(shù)的關(guān)系。10.310.3應(yīng)用應(yīng)用DTWDTW的說(shuō)話人確認(rèn)系統(tǒng)的說(shuō)話人確認(rèn)系統(tǒng) 一個(gè)應(yīng)用一個(gè)應(yīng)用DTW說(shuō)話人識(shí)別系統(tǒng)如圖說(shuō)話人識(shí)別系統(tǒng)如圖10-4所示。它采用所示。它采用的識(shí)別特征是的識(shí)別特征是BPFG(附聽(tīng)覺(jué)特征處理),匹配時(shí)采用(附聽(tīng)覺(jué)特征處理),匹配時(shí)采用DTW技術(shù)。技術(shù)。10.410.4應(yīng)用應(yīng)用VQVQ的說(shuō)話人識(shí)別系統(tǒng)的說(shuō)話人識(shí)別系統(tǒng) 目前自動(dòng)說(shuō)話人識(shí)別的方法主要是基于參數(shù)模型的目前
15、自動(dòng)說(shuō)話人識(shí)別的方法主要是基于參數(shù)模型的HMM的的方法和基于非參數(shù)模型的方法和基于非參數(shù)模型的VQ的方法。應(yīng)用的方法。應(yīng)用VQ的說(shuō)話人識(shí)別的說(shuō)話人識(shí)別系統(tǒng)如圖系統(tǒng)如圖10-5所示。所示。v應(yīng)用應(yīng)用VQ的說(shuō)話人識(shí)別過(guò)程的步驟如下:的說(shuō)話人識(shí)別過(guò)程的步驟如下:v訓(xùn)練過(guò)程訓(xùn)練過(guò)程從訓(xùn)練語(yǔ)音提取特征矢量,得到特征矢量集;從訓(xùn)練語(yǔ)音提取特征矢量,得到特征矢量集;通過(guò)通過(guò)LBG算法生成碼本;算法生成碼本;重復(fù)訓(xùn)練修正優(yōu)化碼本;重復(fù)訓(xùn)練修正優(yōu)化碼本;存儲(chǔ)碼本存儲(chǔ)碼本v識(shí)別過(guò)程識(shí)別過(guò)程從測(cè)試語(yǔ)音提取特征矢量序列從測(cè)試語(yǔ)音提取特征矢量序列由每個(gè)模板依次對(duì)特征矢量序列進(jìn)行矢量量化,計(jì)算各自的平均量由每個(gè)模板依次對(duì)
16、特征矢量序列進(jìn)行矢量量化,計(jì)算各自的平均量化誤差:化誤差: 式中式中 是第是第i個(gè)碼本中第個(gè)碼本中第l個(gè)碼個(gè)碼本矢量,而本矢量,而 是待測(cè)矢量是待測(cè)矢量 和碼矢量和碼矢量 之間的距之間的距離離選擇平均量化誤差最小的碼本所對(duì)應(yīng)的說(shuō)話人作為系統(tǒng)識(shí)別結(jié)果。選擇平均量化誤差最小的碼本所對(duì)應(yīng)的說(shuō)話人作為系統(tǒng)識(shí)別結(jié)果。MnilnLliYXdMD11),(min1NiLlYiL,.2 , 1,.2 , 1,),(ilnYXdnXilY10.510.5應(yīng)用應(yīng)用HMMHMM的說(shuō)話人識(shí)別系統(tǒng)的說(shuō)話人識(shí)別系統(tǒng)v10.5.1 基于基于HMM的與文本有關(guān)的說(shuō)話人識(shí)別的與文本有關(guān)的說(shuō)話人識(shí)別 基于基于HMM的與文本有關(guān)的
17、說(shuō)話人識(shí)別系統(tǒng)的結(jié)構(gòu)如圖的與文本有關(guān)的說(shuō)話人識(shí)別系統(tǒng)的結(jié)構(gòu)如圖10-6所所示。示。v10.5.2基于基于HMM的與文本無(wú)關(guān)的說(shuō)話人識(shí)別的與文本無(wú)關(guān)的說(shuō)話人識(shí)別v10.5.3基于基于HMM的指定文本型說(shuō)話人識(shí)別的指定文本型說(shuō)話人識(shí)別 指定文本型說(shuō)話人識(shí)別系統(tǒng)的基本構(gòu)造如圖指定文本型說(shuō)話人識(shí)別系統(tǒng)的基本構(gòu)造如圖10-7所示。所示。文本內(nèi)容不確定,一般采用文本內(nèi)容不確定,一般采用各態(tài)歷經(jīng)各態(tài)歷經(jīng)HMM建立說(shuō)話人模型。建立說(shuō)話人模型。v10.5.4說(shuō)話人識(shí)別說(shuō)話人識(shí)別HMM的學(xué)習(xí)方法的學(xué)習(xí)方法v10.5.5魯棒的魯棒的HMM說(shuō)話人識(shí)別技術(shù)說(shuō)話人識(shí)別技術(shù)利用少量的登錄說(shuō)話人學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)方法;利用非特定
18、人語(yǔ)音HMM和登錄說(shuō)話人學(xué)習(xí)數(shù)據(jù)的學(xué)習(xí)方法。對(duì)于由信號(hào)傳輸信道、濾波器等引起的識(shí)別率下降,通過(guò)倒譜均值正規(guī)化法可以得到改善;由聲道特征、發(fā)音方式的時(shí)間變動(dòng)等引起的識(shí)別率下降,可以通過(guò)似然度正規(guī)化法加以改善。10.610.6應(yīng)用應(yīng)用GMMGMM的說(shuō)話人識(shí)別系統(tǒng)的說(shuō)話人識(shí)別系統(tǒng) 混合高斯分布模型是只有一個(gè)狀態(tài)的模型,在這個(gè)狀態(tài)里具混合高斯分布模型是只有一個(gè)狀態(tài)的模型,在這個(gè)狀態(tài)里具有多個(gè)高斯分布函數(shù)有多個(gè)高斯分布函數(shù)v10.6.1GMM模型的基本概念模型的基本概念 高斯混合模型(高斯混合模型(GMM)可以看做一種)可以看做一種狀態(tài)數(shù)為狀態(tài)數(shù)為1的連續(xù)分布的連續(xù)分布隱馬爾科夫模型隱馬爾科夫模型CDH
19、MM。一個(gè)。一個(gè)M階混合高斯模型的概率密階混合高斯模型的概率密度函數(shù)是由度函數(shù)是由M個(gè)高斯概率密度函數(shù)加權(quán)求和得到,所示如下:個(gè)高斯概率密度函數(shù)加權(quán)求和得到,所示如下:MiiiXbXP1)()/()710( 其中其中 是一個(gè)是一個(gè)D維隨即向量,維隨即向量, 是子分布,是子分布, ,是混合權(quán)重。,是混合權(quán)重。 每個(gè)子每個(gè)子分布是分布是D維的聯(lián)合高斯概率分布,可表示為:維的聯(lián)合高斯概率分布,可表示為: 其中其中 是均值向量,是均值向量, 是協(xié)方差矩陣,混合權(quán)重值是協(xié)方差矩陣,混合權(quán)重值滿足以下條件:滿足以下條件: 完整的混合高斯模型由參數(shù)均值向量、協(xié)方差矩陣和混合完整的混合高斯模型由參數(shù)均值向量、
20、協(xié)方差矩陣和混合權(quán)重組成,表示為:權(quán)重組成,表示為: 對(duì)于給定的時(shí)間序列對(duì)于給定的時(shí)間序列 ,利,利用用GMM模型求得的對(duì)數(shù)似然度可定義如下:模型求得的對(duì)數(shù)似然度可定義如下:XMiXbti,.,1),(Mii,.,1, )()(21exp|)2(1)(12/12/iitiiDiXXXbii11MiiMiiii,.,1,TtXXt,.,2 , 1,TitXPTXL1)/(log1)/(v10.6.2GMM模型的參數(shù)估計(jì)模型的參數(shù)估計(jì) GMM模型的訓(xùn)練就是給定一組訓(xùn)練數(shù)據(jù),依據(jù)某種準(zhǔn)則模型的訓(xùn)練就是給定一組訓(xùn)練數(shù)據(jù),依據(jù)某種準(zhǔn)則確定模型參數(shù)。最常用的參數(shù)估計(jì)方法是確定模型參數(shù)。最常用的參數(shù)估計(jì)方法
21、是最大似然(最大似然(ML)估計(jì)估計(jì)。對(duì)于一組長(zhǎng)度為。對(duì)于一組長(zhǎng)度為T(mén)的訓(xùn)練矢量序列的訓(xùn)練矢量序列 ,GMM的似然度可以表示為:的似然度可以表示為: 由于上式是參數(shù)由于上式是參數(shù) 的非線性函數(shù),很難直接求出上式的的非線性函數(shù),很難直接求出上式的最大值。因此,常常采用最大值。因此,常常采用EM算法算法估計(jì)參數(shù)估計(jì)參數(shù) 。EM算法算法的計(jì)算是從參數(shù)的計(jì)算是從參數(shù) 的一個(gè)初值開(kāi)始,采用的一個(gè)初值開(kāi)始,采用EM算法估計(jì)出算法估計(jì)出一個(gè)新的參數(shù)一個(gè)新的參數(shù) ,使得新的模型參數(shù)下的似然度,使得新的模型參數(shù)下的似然度 新的模型參數(shù)再作為當(dāng)前參數(shù)進(jìn)行訓(xùn)練,這樣迭代運(yùn)算直新的模型參數(shù)再作為當(dāng)前參數(shù)進(jìn)行訓(xùn)練,這樣
22、迭代運(yùn)算直到模型收斂。每一次迭代運(yùn)算,下面的重估公式保證了模型到模型收斂。每一次迭代運(yùn)算,下面的重估公式保證了模型似然度的單調(diào)遞增。似然度的單調(diào)遞增。,.,21TXXXX TttXPXP1)/()/()/()/(XPXPv混合權(quán)值的重估公式:混合權(quán)值的重估公式:v均值的重估公式:均值的重估公式:v方差的重估公式:方差的重估公式:其中,分量其中,分量i的后驗(yàn)概率為:的后驗(yàn)概率為:TttiXiPT1),/(1TtttTttiXiPXXiP11),/(),/(TttitTttiXiPXXiP1212),/()( ),/(MktkktiitXbXbXiP1)()(),/(v10.6.3訓(xùn)練數(shù)據(jù)不充分的
23、問(wèn)題訓(xùn)練數(shù)據(jù)不充分的問(wèn)題 由于訓(xùn)練數(shù)據(jù)的不充分,由于訓(xùn)練數(shù)據(jù)的不充分,GMM模型的協(xié)方差矩陣的一些模型的協(xié)方差矩陣的一些分量可能會(huì)很小,這些很小的值對(duì)模型參數(shù)的似然度函數(shù)影響分量可能會(huì)很小,這些很小的值對(duì)模型參數(shù)的似然度函數(shù)影響很大,嚴(yán)重影響系統(tǒng)的性能。為了避免小的值對(duì)系統(tǒng)性能的影很大,嚴(yán)重影響系統(tǒng)的性能。為了避免小的值對(duì)系統(tǒng)性能的影響,一種方法是在響,一種方法是在EM算法的迭代計(jì)算中,對(duì)協(xié)方差的值設(shè)置算法的迭代計(jì)算中,對(duì)協(xié)方差的值設(shè)置一個(gè)門(mén)限值,在訓(xùn)練過(guò)程中領(lǐng)協(xié)方差的值不小于這個(gè)設(shè)定的門(mén)一個(gè)門(mén)限值,在訓(xùn)練過(guò)程中領(lǐng)協(xié)方差的值不小于這個(gè)設(shè)定的門(mén)限值,否則用這個(gè)門(mén)限值代替。限值,否則用這個(gè)門(mén)限值代
24、替。v10.6.4GMM模型的識(shí)別問(wèn)題模型的識(shí)別問(wèn)題 給定一個(gè)語(yǔ)音樣本,說(shuō)話人辨認(rèn)的目的是要確定這個(gè)語(yǔ)音給定一個(gè)語(yǔ)音樣本,說(shuō)話人辨認(rèn)的目的是要確定這個(gè)語(yǔ)音屬于屬于N個(gè)說(shuō)話人中的哪一個(gè)?;趥€(gè)說(shuō)話人中的哪一個(gè)。基于GMM的說(shuō)話人辨認(rèn)系統(tǒng)的說(shuō)話人辨認(rèn)系統(tǒng)結(jié)構(gòu)框圖如圖結(jié)構(gòu)框圖如圖10-8所示。所示。 根據(jù)根據(jù)Bayes理論,最大后驗(yàn)概率可表示為:理論,最大后驗(yàn)概率可表示為: 在這里:在這里: 其對(duì)數(shù)形式為:其對(duì)數(shù)形式為: 因?yàn)橐驗(yàn)?的先驗(yàn)概率未知,我們假定該語(yǔ)音信號(hào)出自的先驗(yàn)概率未知,我們假定該語(yǔ)音信號(hào)出自封閉集里的每一個(gè)人的可能性相等,也就是說(shuō):封閉集里的每一個(gè)人的可能性相等,也就是說(shuō): (/)(
25、)(/)()iiiP XPPXP XTttXPXP1)/()/(TttXPXP1)/(log)/(log)(iPNiNPi1 ,1)( 對(duì)于一個(gè)確定的觀察值矢量對(duì)于一個(gè)確定的觀察值矢量X,P(X)是一個(gè)確定的常數(shù)值是一個(gè)確定的常數(shù)值,對(duì)所有說(shuō)話人都相等。因此,求取后驗(yàn)概率的最大值可以,對(duì)所有說(shuō)話人都相等。因此,求取后驗(yàn)概率的最大值可以通過(guò)求取通過(guò)求取 獲得,這樣,辨認(rèn)該語(yǔ)音屬于語(yǔ)音獲得,這樣,辨認(rèn)該語(yǔ)音屬于語(yǔ)音庫(kù)中的哪一種說(shuō)話人可以表示為:庫(kù)中的哪一種說(shuō)話人可以表示為: 其中其中 即為識(shí)別出的說(shuō)話人。即為識(shí)別出的說(shuō)話人。(/)iP X*arg m ax(/)iiiP X*i10.710.7說(shuō)話
26、人識(shí)別尚需探索的問(wèn)題及說(shuō)話人識(shí)別尚需探索的問(wèn)題及應(yīng)用應(yīng)用v基礎(chǔ)性的課題基礎(chǔ)性的課題關(guān)于語(yǔ)音中語(yǔ)意內(nèi)容和說(shuō)話人的分離,系統(tǒng)全面地進(jìn)行關(guān)于語(yǔ)音中語(yǔ)意內(nèi)容和說(shuō)話人的分離,系統(tǒng)全面地進(jìn)行研究的人還是很少的。研究的人還是很少的。究竟什么特征參數(shù)對(duì)說(shuō)話人識(shí)別最有效?如何有效的利究竟什么特征參數(shù)對(duì)說(shuō)話人識(shí)別最有效?如何有效的利用非聲道特征?用非聲道特征?說(shuō)話人特征的變化和樣本選擇問(wèn)題。說(shuō)話人特征的變化和樣本選擇問(wèn)題。用聽(tīng)覺(jué)和視覺(jué)的說(shuō)話人識(shí)別研究是用計(jì)算機(jī)進(jìn)行說(shuō)話人用聽(tīng)覺(jué)和視覺(jué)的說(shuō)話人識(shí)別研究是用計(jì)算機(jī)進(jìn)行說(shuō)話人識(shí)別的基礎(chǔ)。識(shí)別的基礎(chǔ)。v實(shí)用性的問(wèn)題實(shí)用性的問(wèn)題說(shuō)話人識(shí)別系統(tǒng)設(shè)計(jì)的合理化及優(yōu)化問(wèn)題。說(shuō)話人識(shí)別
27、系統(tǒng)設(shè)計(jì)的合理化及優(yōu)化問(wèn)題。如何處理長(zhǎng)時(shí)和短時(shí)說(shuō)話人的語(yǔ)音波動(dòng)?如何區(qū)別有意如何處理長(zhǎng)時(shí)和短時(shí)說(shuō)話人的語(yǔ)音波動(dòng)?如何區(qū)別有意模仿的聲音?模仿的聲音?說(shuō)話人識(shí)別系統(tǒng)的性能評(píng)價(jià)問(wèn)題。說(shuō)話人識(shí)別系統(tǒng)的性能評(píng)價(jià)問(wèn)題。可靠性和經(jīng)濟(jì)性。可靠性和經(jīng)濟(jì)性。目前說(shuō)話人識(shí)別的主要研究主要集中在如下幾個(gè)方面:目前說(shuō)話人識(shí)別的主要研究主要集中在如下幾個(gè)方面:語(yǔ)音特征參數(shù)的提取和混合語(yǔ)音特征參數(shù)的提取和混合HMM模型與其他模型混合,改善說(shuō)話人識(shí)別系統(tǒng)的性能。模型與其他模型混合,改善說(shuō)話人識(shí)別系統(tǒng)的性能。v說(shuō)話人識(shí)別技術(shù)的應(yīng)用說(shuō)話人識(shí)別技術(shù)的應(yīng)用電話信道罪犯緝拿、法庭中電話錄音信息的身份確認(rèn)、電話信道罪犯緝拿、法庭中電話
28、錄音信息的身份確認(rèn)、電話語(yǔ)音跟蹤,為用戶提供防盜門(mén)開(kāi)啟功能等。電話語(yǔ)音跟蹤,為用戶提供防盜門(mén)開(kāi)啟功能等。通信領(lǐng)域,說(shuō)話人識(shí)別技術(shù)可以應(yīng)用于諸如電話銀行、通信領(lǐng)域,說(shuō)話人識(shí)別技術(shù)可以應(yīng)用于諸如電話銀行、電話購(gòu)物、數(shù)據(jù)庫(kù)訪問(wèn)、信息服務(wù)、安全控制、計(jì)算機(jī)電話購(gòu)物、數(shù)據(jù)庫(kù)訪問(wèn)、信息服務(wù)、安全控制、計(jì)算機(jī)遠(yuǎn)程登陸等領(lǐng)域。遠(yuǎn)程登陸等領(lǐng)域。呼叫中心應(yīng)用上,說(shuō)話人識(shí)別技術(shù)同樣可以提供更加個(gè)呼叫中心應(yīng)用上,說(shuō)話人識(shí)別技術(shù)同樣可以提供更加個(gè)性化的人機(jī)交互界面。性化的人機(jī)交互界面。 10.810.8語(yǔ)種辨別的原理和應(yīng)用語(yǔ)種辨別的原理和應(yīng)用 語(yǔ)種辨別(語(yǔ)種辨別(Language Identification, LID)與語(yǔ)音識(shí)別)與語(yǔ)音識(shí)別和說(shuō)話人識(shí)別有所不同,它是通過(guò)分析處理一個(gè)語(yǔ)言片段以和說(shuō)話人識(shí)別有所不同,它是通過(guò)分析處理一個(gè)語(yǔ)言片段以判別其所屬語(yǔ)言的語(yǔ)種,本質(zhì)上也是語(yǔ)音識(shí)別的一方面
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廠房大棚制作合同范本
- 勞務(wù)合同范例五險(xiǎn)
- 新疆2025年02月新疆喀什經(jīng)濟(jì)開(kāi)發(fā)區(qū)面向社會(huì)公開(kāi)選聘13名人才工作筆試歷年典型考題(歷年真題考點(diǎn))解題思路附帶答案詳解
- 代收借款居間合同范本
- 臺(tái)球?qū)W員培訓(xùn)合同范本
- 各崗位勞務(wù)合同范例
- 印刷臺(tái)歷合同范本
- 勞動(dòng)合同免責(zé)合同范本
- 浙江國(guó)企招聘2024嘉興市卓越交通建設(shè)檢測(cè)有限公司招聘3人筆試參考題庫(kù)附帶答案詳解
- 浙江國(guó)企招聘2024中國(guó)郵政速遞物流股份有限公司舟山市普陀區(qū)分公司招聘筆試參考題庫(kù)附帶答案詳解
- 青少年人工智能技術(shù)水平測(cè)試一級(jí)04
- 心肌病中醫(yī)護(hù)理查房課件
- 國(guó)外藥典介紹
- 第三章新時(shí)代大學(xué)生勞動(dòng)價(jià)值觀
- 藏在名著里的數(shù)學(xué)1
- 動(dòng)畫(huà)運(yùn)動(dòng)規(guī)律-動(dòng)畫(huà)概論
- 醫(yī)院藥品驗(yàn)收流程
- LLC經(jīng)驗(yàn)教訓(xùn)卡模板
- 中建幕墻方案
- 寧夏設(shè)施蔬菜產(chǎn)業(yè)集約化育苗模式分析與探討
- 新聞采訪與寫(xiě)作課件第九章采訪的實(shí)施訪問(wèn)
評(píng)論
0/150
提交評(píng)論