語音信號處理 第4版 第8章 說話人識別 思考題答案_第1頁
語音信號處理 第4版 第8章 說話人識別 思考題答案_第2頁
語音信號處理 第4版 第8章 說話人識別 思考題答案_第3頁
語音信號處理 第4版 第8章 說話人識別 思考題答案_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第8章說話人識別思考題答案自動說話人識別的目的是什么?它主要可分為哪兩類?說話人識別和語音識別的區(qū)別在什么地方?在實現(xiàn)方法和使用的特征參數(shù)上和語音識別有什么相同點和不同點?目的:從說話人的一段語音中提取出說話人的個性特征,通過對這些個人特征的分析和識別,從而達到對說話人進行辨認或者確認的目的。兩類任務(wù):自動說話人確認(AutomaticSpeakerVerification,ASV)和自動說話人辨認(AutomaticSpeakerIdentification,ASI)。區(qū)別:和語音識別的區(qū)別在于,它不注重包含在語音信號中的文字符號以及語義內(nèi)容信息,而是著眼于包含在語音信號中的個人特征。實現(xiàn)方法和特征參數(shù)的異同點:說話人識別方法的基本原理與語音識別相同,也是根據(jù)從語音中提取的不同特征,通過判斷邏輯來判定該語句的歸屬類別。但它也具有其特點,例如,(1)語音按說話人劃分,因而特征空間的界限也應(yīng)按說話人劃分;(2)應(yīng)選用對說話人區(qū)分度大,而對語音內(nèi)容不敏感的特征參量;(3)由于說話人識別的目的是識別出說話人而不是所發(fā)的語音內(nèi)容,故采取的方法也有所不同,包括用以比較的幀和幀長的選定、識別邏輯的制定等。2、什么叫說話人辨認?什么叫說話人確認?兩者有何異同之處?說話人辨認:系統(tǒng)需要辨認出識別語音是來自待考察的N個人中的哪一個。說話人確認:系統(tǒng)確認是否為一個人的身份。異:說話人確認只涉及一個特定的參考模型和待識別模式之間的比較,系統(tǒng)只做出“是”或“不是”的二元判決;說話人辨認則要對N個人的信息進行匹配,有時還要對這N個人以外的語音做出拒絕的判別。同:本質(zhì)上都是根據(jù)說話人所說的測試語句或關(guān)鍵詞,從中提取與說話人本人特征有關(guān)的信息,再與存儲的參考模型比較,做出正確的判斷。3、在說話人識別中,應(yīng)選擇哪些可以表征個人特征的識別參數(shù)?漢語語音的說話人識別應(yīng)該注意些什么問題?應(yīng)該如何使用超音段信息?應(yīng)該如何使用混合特征參數(shù)?常用于說話人識別的特征參數(shù):語音短時能量、基音周期(現(xiàn)已證實基音周期及其派生參數(shù)攜帶有較多的個人信息)、語音短時譜或BPFG特征(包括14~16個BPF)、線性預(yù)測系數(shù)LPC、共振峰頻率及帶寬、LPC倒譜等,以及反映這些特征動態(tài)變化的線性回歸系數(shù)等,其他的特征參數(shù)還包括鼻音聯(lián)合特征、譜相關(guān)特征、相對發(fā)音速率特征、基音輪廓特征等,另外,也可以對這些特征進行變換加工,如K-L變換等,而得到加工后的二次特征。漢語語音的說話人識別應(yīng)該注意聲調(diào)對特征參數(shù)選取的影響與方言口音差異對識別準確率的影響。超音段信息可以用于預(yù)分類技術(shù)中加快系統(tǒng)響應(yīng)的時間。使用混合特征參數(shù)時要保證組成矢量的各參量之間的相關(guān)性不大,這樣才能夠反映語音信號中不同的特征效果,如將“動態(tài)”參量(對數(shù)面積比與基頻隨時間的變化)與“統(tǒng)計”分量(由長時間平均譜導(dǎo)出)相結(jié)合,還有將逆濾波器譜與帶通濾波器譜結(jié)合,或者將線性預(yù)測參數(shù)與基音輪廓結(jié)合等參量組合方法。4、怎樣評價說話人識別特征參數(shù)選取的好壞?什么是F比有效性準則?F比的概念是怎樣推廣到多個特征參量構(gòu)成的多維特征矢量的?評價特征參數(shù)選取是否有效:同一說話人的不同的語音會在參數(shù)空間映射出不同的點,若對同一說話人這些點分布比較集中,而對不同說話人的分布相距較遠,則選取的參數(shù)就是有效的。F比有效性準則:通過選取上述兩種分布的方差之比(F比)來作為有效性準則,具體就是不同說話人的特征參數(shù)均值的方差與同一說話人特征方差的均值之比。F比推廣到多維特征矢量:通過定義說話人內(nèi)特征矢量的協(xié)方差矩陣W和說話人間特征矢量的協(xié)方差矩陣B來得到D比,實現(xiàn)多維特征矢量有效性評價。5、請說明基于GMM的說話人識別系統(tǒng)的工作原理?你從文獻上看到過有關(guān)GMM模型訓(xùn)練的改進方法嗎?請介紹其中一種較好的方法。當(dāng)訓(xùn)練語料不足時,計算協(xié)方差矩陣時應(yīng)注意什么問題?工作原理:將每個人的語音建模為一個GMM來進行表征,訓(xùn)練GMM的過程通常使用期望最大化(EM)算法,通過以似然度為目標(biāo)進行迭代優(yōu)化來估計模型參數(shù)λ,在說話人辨認時,將說話人的輸入語音與語音庫中的模型進行匹配,使得待識別語音特征矢量組具有最大后驗概率,即可找到對應(yīng)的說話人。改進方法:自行調(diào)研。訓(xùn)練語料不足時應(yīng)注意的問題:訓(xùn)練語料不足時,GMM模型的協(xié)方差矩陣的一些分量可能會很小,這些很小的值對模型參數(shù)的似然度函數(shù)影響很大,嚴重影響系統(tǒng)的性能。該問題可以在EM算法的迭代計算中,對協(xié)方差的值設(shè)置一個門限值,在訓(xùn)練過程中令協(xié)方差的值不小于設(shè)定的門限值,否則用設(shè)置的門限值代替。門限值設(shè)置可通過觀察協(xié)方差矩陣來定。6、怎樣解決由時間變化引起的說話人特征的變化?模型訓(xùn)練時應(yīng)怎樣考慮說話人特征隨時間的變化?什么叫模型自適應(yīng)?應(yīng)該用什么方法來達到這些目的?解決辦法1:在訓(xùn)練時所取得語音樣本來自不同的時間,比如相隔幾天或幾周,但這樣會加長訓(xùn)練時間而且很難要求用戶這樣安排。解決方法2:模型自適應(yīng),指使系統(tǒng)根據(jù)輸入數(shù)據(jù)的變化對自身參數(shù)或結(jié)構(gòu)進行一定的調(diào)整。因此可以在使用過程中不斷更新參考模型,比如說,在每次成功地識別以后,即把當(dāng)時說話人的語音提取得到的特征按一定比例加入到原來的參考模板中去,以保證對使用者說話狀態(tài)的跟蹤。7、在說話人識別系統(tǒng)中,判別方法和判別閾值應(yīng)該如何選擇?是否應(yīng)該根據(jù)文本內(nèi)容以及發(fā)音時間的差別動態(tài)地改變?怎么改變?判別方法:多門限判決(說話人確認)和預(yù)分類技術(shù)(說話人辨認)判別閾值:一般由FR和FA的相等點附近來確定。說話人確認是一個二值問題,只需判定是否是由申請者所講即可,而在經(jīng)典的解決方案中,判定是由對申請者模型的語句得分與某一事先確定的門限比較而得到的。這種方案的問題是得分的絕對值并不只是由使用模型決定的,而且還與文本內(nèi)容以及發(fā)音時間的差別有關(guān),所以不能采用靜態(tài)的門限。因此判別閾值應(yīng)該要根據(jù)文本內(nèi)容以及發(fā)音時間的差別動態(tài)地改變??梢岳肏MM輸出概率值歸一化方法來實現(xiàn)。8、哪些是說話人識別中尚需進一步探索的研究課題?你在學(xué)習(xí)了有關(guān)參考文獻后,能否考慮出一個說話人識別的改進方案?基礎(chǔ)性課題:(1)關(guān)于語音中語義內(nèi)容和說話人個性的分離,系統(tǒng)地全面地進行研究的人還很少。(2)究竟什么特征參數(shù)對說話人識別最有效?如何有效地利用非聲道特征?(3)說話人特征的變化和樣本選擇問題。(4)用聽覺和視覺的說話人識別研究是用計算機進行說話人識別的基礎(chǔ),例如什么樣的特征對說話人識別有效,語音的持續(xù)時間和內(nèi)容與識別率的關(guān)系等。實用性課題:(1)說話人識別系統(tǒng)設(shè)計的合理化及優(yōu)化問題。(2)如何處理長時和短時說話人的語音波動?如何區(qū)別有意模仿的聲音?(3)說話人識別系統(tǒng)的性能評價問題。(4)可靠性和經(jīng)濟性的相關(guān)問題。9、在基于深度學(xué)習(xí)說話人識別中,原始語音信號經(jīng)過預(yù)處理后轉(zhuǎn)換成了什么參數(shù)?是如何輸入深度神經(jīng)網(wǎng)絡(luò)的?經(jīng)過預(yù)處理后的參數(shù)又是如何能代表原始語音信號信息的?原始語音信號經(jīng)過預(yù)處理后可以轉(zhuǎn)換成語譜圖??梢詫⒃颊Z音信號輸入深度神經(jīng)網(wǎng)絡(luò),也可以將初步提取出的特征輸入深度神經(jīng)網(wǎng)絡(luò)。語譜圖輸入深度神經(jīng)網(wǎng)絡(luò)進行特征提取,然后通過句子歸一化層、仿射層以及長度標(biāo)準化層,將特征映射成原始語音信號的嵌入表征。10、在基于深度學(xué)習(xí)的說話人識別模型中,什么是三元組損失?可以分為哪幾類?三元組損失中的anchor和positive為同類的不同樣本,anchor與negative為

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論