




已閱讀5頁,還剩63頁未讀, 繼續(xù)免費(fèi)閱讀
【畢業(yè)學(xué)位論文】說話人辨認(rèn)及其魯棒性問題的研究-計(jì)算機(jī)科學(xué)與技術(shù)系.pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
說話人辨認(rèn)及其魯棒性問題的研究鮑煥軍摘要 摘 要 為了提高開集文本無關(guān)的說話人辨認(rèn)系統(tǒng)的識(shí)別性能,本論文主要完成了如下幾方面的工作: 1采用支持向量機(jī)( 成說話人辨認(rèn)任務(wù)。傳統(tǒng)的高斯混合模型采用對(duì)幀向量進(jìn)行模式匹 配計(jì)算似然分,容易受噪音和信道影響。而采用高斯超向量(作為輸入特征的 時(shí),高斯超向量是從高斯混合模型- 通用背景模型中的說話人模型構(gòu)建產(chǎn)生,因此基于高斯超向量的 當(dāng)于一個(gè)二次識(shí)別的過程。話人辨認(rèn)系統(tǒng)在高斯混合模型- 通用背景模型的基礎(chǔ)上,等錯(cuò)誤率相對(duì)降低了 2將冗余屬性投影(引入到 話人辨認(rèn)系統(tǒng)中,進(jìn)一步提高說話人辨認(rèn)系統(tǒng)在跨信道識(shí)別任務(wù)中的魯棒性。冗余屬性投影通過估計(jì)并消除說話人特征中的信道信息,增加說話人特征在各信道上的代表性,擴(kuò)大說話人特征之間的距離,從而提高說話人辨認(rèn)系統(tǒng)的性能。本文對(duì)投影矩陣的維數(shù)、能量與算法性能的關(guān)系進(jìn)行研究并總結(jié)出初步規(guī)律。在 統(tǒng)中加入冗余屬性投影算法之后系統(tǒng)等錯(cuò)誤率從 降到 相對(duì)下降 分?jǐn)?shù)域上的線性融合系統(tǒng)在 統(tǒng)和 統(tǒng)的基礎(chǔ)上,等錯(cuò)誤率分別相對(duì)降低 達(dá)到 3提出情感屬性投影(用于提高說話人辨認(rèn)系統(tǒng)在情感語音上的魯棒性。不同的情感狀態(tài),會(huì)造成不同程度的聲道變化,同時(shí)也會(huì)影響說話人的語速、節(jié)奏、音調(diào)等,這些因素是造成說話人辨認(rèn)系統(tǒng)性能下降的重要因素之一。通過借鑒冗余屬性投影的思想,提出了情感屬性投影算法,估計(jì)并消除帶情感語音的特征中的情感因素,從而達(dá)到減輕情感因素對(duì)說話人辨認(rèn)系統(tǒng)性能影響的效果。加入情感屬性投影算法之后,帶情感語音的說話人辨認(rèn)系統(tǒng)的等錯(cuò)誤率從 降到 相對(duì)降低了 關(guān)鍵詞:說話人辨認(rèn) 支持向量機(jī) 融合 冗余屬性投影 情感屬性投影 I on of in 1 is in of to in is by VM as is be as a is VM an 2 is to in in in s of s of of be an is on of of of AP AP ER be a a is on of ER be a ER 3is pr to of on as as of so AP is to so as to of ER be a AP is to on 錄 目錄 第 1 章 引言 .話人識(shí)別及其魯棒性問題概述 . 說話人識(shí)別概述 . 魯棒性問題綜述 .話人識(shí)別的性能評(píng)價(jià) .有研究方法綜述 . 說話人識(shí)別中的特征 . 說話人識(shí)別中的模型 . 說話人識(shí)別中的魯棒性算法 .文的組織結(jié)構(gòu) . 2 章 基于支持向量機(jī)(說話人辨認(rèn) .基于高斯混合模型- 通用背景模型(的說話人辨認(rèn) . . 支持向量機(jī)的基本原理 . 高斯混合模型超向量 . 線性.說話人辨認(rèn)中的性能比較 . . 實(shí)驗(yàn)設(shè)計(jì) . 系統(tǒng)描述 . 實(shí)驗(yàn)數(shù)據(jù) . 實(shí)驗(yàn)結(jié)果及分析 .說話人辨認(rèn)系統(tǒng)的融合研究 . 實(shí)驗(yàn)設(shè)計(jì) . 系統(tǒng)描述和實(shí)驗(yàn)數(shù)據(jù) . 實(shí)驗(yàn)結(jié)果及分析 . 目錄 第 3 章 特征級(jí)與模型級(jí)的信道魯棒性算法 .已有信道魯棒性算法綜述 . 倒譜均值減 . 倒譜方差歸一 . 特征彎折 . 相對(duì)譜 . 說話人模型合成 . 特征映射 . 其他信道魯棒算法 .冗余屬性投影(簡(jiǎn)介 . . .的比較 .投影維數(shù)與能量對(duì)能影響的研究 . 實(shí)驗(yàn)設(shè)計(jì) . 系統(tǒng)描述 . 實(shí)驗(yàn)數(shù)據(jù) . 實(shí)驗(yàn)結(jié)果及分析 . 4 章 情感語音的說話人辨認(rèn) .語音中的情感對(duì)說話人辨認(rèn)性能影響的分析 .用于消除情感因子的情感屬性投影(. . . .帶情感語音的說話人辨認(rèn)實(shí)驗(yàn) . 實(shí)驗(yàn)設(shè)計(jì) . 系統(tǒng)描述 . 實(shí)驗(yàn)數(shù)據(jù) . 結(jié)果及分析 . 分析及結(jié)論 .I 目錄 第 5 章 總結(jié)和展望 .考文獻(xiàn) .謝與聲明 .人簡(jiǎn)歷、在學(xué)期間發(fā)表的學(xué)術(shù)論文與研究成果 .錄 1 章 引言 第 1 章 引言 說話人識(shí)別(是計(jì)算機(jī)利用語音波形中所包含的反映特定說話人生理和行為特征的語音特征參數(shù)來自動(dòng)識(shí)別說話人身份的技術(shù)。其基本原理是:根據(jù)人的發(fā)聲和聽覺特性建立數(shù)學(xué)模型,并為每個(gè)說話人根據(jù)訓(xùn)練語音學(xué)習(xí)一組模型參數(shù);對(duì)于每個(gè)輸入的測(cè)試語音,由計(jì)算機(jī)將它和已訓(xùn)練的模型進(jìn)行精確匹配,根據(jù)匹配結(jié)果辨認(rèn)出說話人是誰。說話人識(shí)別技術(shù)屬于生物識(shí)別技術(shù)的一種,它利用語音信號(hào)中的說話人信息,強(qiáng)調(diào)說話人的個(gè)性,利用個(gè)性構(gòu)造模型。說話人識(shí)別技術(shù)已經(jīng)經(jīng)歷了很長(zhǎng)一段發(fā)展時(shí)期,而且在當(dāng)今社會(huì)中日趨凸顯它的重要性。 話人識(shí)別及其魯棒性問題概述 在當(dāng)今高速發(fā)展的信息社會(huì)中,人類的物理和虛擬活動(dòng)空間在不斷擴(kuò)大。隨之帶來的社會(huì)信息安全問題也在不斷增多,其中的一個(gè)迫切問題就在于如何準(zhǔn)確鑒定一個(gè)人的身份。由于目前廣為使用的身份證、密碼等傳統(tǒng)身份認(rèn)證方法存在著易丟失、易受攻擊和失密等問題,生物特征識(shí)別已經(jīng)逐漸成為身份認(rèn)證識(shí)別的熱點(diǎn)研究問題。 生物特征識(shí)別技術(shù),就是通過計(jì)算機(jī)與各種傳感器和生物統(tǒng)計(jì)學(xué)原理等高科技手段密切結(jié)合,利用人體固有的生理特性和行為特征,來進(jìn)行個(gè)人身份的鑒定。目前主要采用的生物特征包括:指紋、虹膜、人臉、手形、聲紋(說話人識(shí)別)等。由于生物特征具有唯一性、穩(wěn)定性以及與生俱來、隨身攜帶和終生不變的特點(diǎn),因此具有廣闊的應(yīng)用領(lǐng)域。 與其它生物特征相比,說話人識(shí)別還具有如下特點(diǎn): z 用戶接受程度高。與其它生物特征相比,涉及隱私的程度相對(duì)較低。 z 方便、經(jīng)濟(jì),需要使用的設(shè)備成本低。可以建立在現(xiàn)有的電話線路基礎(chǔ)上。 z 適合遠(yuǎn)程身份確認(rèn)。 z 算法復(fù)雜度低、易擴(kuò)展??梢约尤胝Z音識(shí)別的技術(shù),進(jìn)一步提高準(zhǔn)確率。 因此,說話人識(shí)別有廣闊的應(yīng)用前景??梢詫⒄f話人識(shí)別技術(shù)廣泛應(yīng)用于國(guó)防、公安和軍隊(duì)的偵聽和刑事偵察,金融、債券和網(wǎng)絡(luò)的登陸和認(rèn)證,以及1 第 1 章 引言 民用的特性化服務(wù)等。例如,由 研制出的智慧卡(,已經(jīng)應(yīng)用于自動(dòng)提款機(jī)上。歐洲電信聯(lián)盟的 劃和 劃,在電信網(wǎng)上完成了說話人識(shí)別。其他一些商用系統(tǒng)還包括:司的 司的 司的 。此外,國(guó)內(nèi)許多高科技公司也正在進(jìn)行說話人識(shí)別方面的應(yīng)用產(chǎn)品的開發(fā)。 說話人識(shí)別技術(shù)具有其獨(dú)特的優(yōu)勢(shì),應(yīng)用范圍遍及軍隊(duì)與國(guó)防、公安與司法、銀行與金融以及特性化服務(wù)等領(lǐng)域,因此,說話人識(shí)別技術(shù)的研究,具有重要的實(shí)際意義。 說話人識(shí)別概述 說話人識(shí)別技術(shù)是利用語音段中包含的說話人的特定生理和行為的特征參數(shù)來自動(dòng)識(shí)別說話人的技術(shù)。與傳統(tǒng)的語音識(shí)別一樣,說話人識(shí)別技術(shù)通過抽取語音中的特征參數(shù),根據(jù)特征參數(shù)建立相對(duì)應(yīng)的數(shù)學(xué)模型,然后根據(jù)模型來區(qū)分目標(biāo)說話人和假冒者。說話人識(shí)別和語音識(shí)別的區(qū)別在于,說話人識(shí)別關(guān)注不是語音段中的語義內(nèi)容,而是語音段中隱含的說話人生理特征。說話人識(shí)別尋找說話人的個(gè)性特征,強(qiáng)調(diào)不同說話人之間的差異,而語音識(shí)別尋找的是語音中的共性特征,強(qiáng)調(diào)不同說話人說同一句話的共通點(diǎn)。 按不同的角度,說話人識(shí)別有多種不同的分類方法。 (1)說話人辨認(rèn)和說話人確認(rèn)。 按照可決策數(shù)量的不同,說話人識(shí)別(可以分為說話人確認(rèn)(和說話人辨認(rèn)(兩種。前者是對(duì)待識(shí)別語音判斷為若干個(gè)參考說話人中哪一個(gè)所說的,是一個(gè)“多選一”的問題,可作出的決策數(shù)量等同于待評(píng)價(jià)的參考說話人數(shù)量;后者是對(duì)待識(shí)別語音,判斷是否是給定說話人所說的,是一個(gè)“二選一”的問題,可作出的決策只有“是”或“否”兩種。 (2)多說話人和單說話人。 按照語音段中含有的說話人的個(gè)數(shù),可以分為單說話人識(shí)別(多說話人識(shí)別(。單說話人識(shí)別指的是訓(xùn)練語音和測(cè)試語音中均只包含一個(gè)說話人,而多說話人識(shí)別任務(wù)中,訓(xùn)練2 第 1 章 引言 語音或測(cè)試語音含有多個(gè)說話人。多說話人識(shí)別任務(wù)經(jīng)過語音段的分割和聚類,可以轉(zhuǎn)化為單說話人識(shí)別。多說話人識(shí)別在說話人檢測(cè)和跟蹤中有很大的應(yīng)用。 (3)文本相關(guān)和文本無關(guān)。 按照訓(xùn)練語音和測(cè)試語音的文本相關(guān)程度,可以分為文本相關(guān)(說話人識(shí)別和文本無關(guān)(的說話人識(shí)別?!拔谋鞠嚓P(guān)”的說話人識(shí)別要求說話人按照規(guī)定的內(nèi)容發(fā)音, “文本無關(guān)”的說話人識(shí)別則不需要知道先前的說話內(nèi)容。前者可以利用說話內(nèi)容的音節(jié)和因素,結(jié)合語音識(shí)別的技術(shù)可以提高識(shí)別性能,但是在很多實(shí)際應(yīng)用中無法使用特定的文本。因此文本無關(guān)的說話人識(shí)別是當(dāng)今研究的主流方向。 (4)開集和閉集。 從系統(tǒng)的角度來看,說話人識(shí)別還可以劃分為開集(和閉集(說話人識(shí)別。閉集系統(tǒng)指目標(biāo)說話人先驗(yàn)地包含在待評(píng)價(jià)的說話人集合中,而開集系統(tǒng)僅表示目標(biāo)說話人存在于待評(píng)價(jià)的說話人集合中的可能性。相對(duì)于閉集系統(tǒng),開集系統(tǒng)需要作出目標(biāo)說話人是否屬于待評(píng)價(jià)的說話人結(jié)合中的判斷。因此,開集系統(tǒng)的難度要大于閉集系統(tǒng),而在實(shí)際應(yīng)用中,往往不知道目標(biāo)說話人是否存在于待評(píng)價(jià)說話人集合中,所以開集說話人識(shí)別是實(shí)際應(yīng)用中必須解決的問題。 在本論文中,主要研究文本無關(guān)的開集單說話人辨認(rèn)技術(shù)。 魯棒性問題綜述 說話人辨認(rèn)系統(tǒng)在實(shí)際應(yīng)用中需要解決的一個(gè)關(guān)鍵問題是模型訓(xùn)練和應(yīng)用環(huán)境的不匹配。在目前的使用環(huán)境下,造成這種不匹配主要有三種因素:背景噪音、傳輸信道和說話人的情感。 (1) 背景噪音。 背景噪音通過疊加在說話人語音信號(hào)上,使得特征矢量序列產(chǎn)生偏移,從而造成識(shí)別結(jié)果產(chǎn)生偏差。通常在實(shí)驗(yàn)中遇到的背景噪音大致可以分為四類:音、音、音,音。這些噪音通過對(duì)語音的影響可以映射到信號(hào)、特征、模型三個(gè)空間。目前在信號(hào)特征級(jí)的噪音魯棒算法是通過估計(jì)并消除語音中的噪音,或靠加強(qiáng)動(dòng)態(tài)成分的變化量來增強(qiáng)語音信息;在模型級(jí)的噪音魯棒算法主要利用對(duì)語音和噪音的統(tǒng)計(jì)知識(shí),對(duì)語音模型進(jìn)行補(bǔ)償,來提高系統(tǒng)的識(shí)別性能。 3 第 1 章 引言 (2) 傳輸信道。 采集和傳輸?shù)脑O(shè)備差異,對(duì)說話人語音會(huì)產(chǎn)生加性、卷積或者其他更為復(fù)雜的影響,從而影響說話人語音的頻帶、采樣、編碼。這種差異造成的影響就稱為信道影響。訓(xùn)練語音和測(cè)試語音之間、訓(xùn)練語音之間、測(cè)試語音之間信道的不匹配,是造成說話人辨認(rèn)性能下降的重要因素之一。解決說話人識(shí)別領(lǐng)域的信道影響,是當(dāng)前比較迫切的一個(gè)研究任務(wù)。一般來說,信道差異主要體現(xiàn)在以下幾個(gè)方面: z 麥克信道:克、會(huì)議麥克; z 移動(dòng)電話信道:小靈通; z 固定電話信道:普通座機(jī)( 、無繩電話; z 其他各種錄音設(shè)備:錄音筆、錄音機(jī)等; 這些差異對(duì)說話人的語音造成不同的影響,這種影響可能是加性和卷積影響,也可能是更為復(fù)雜的其他作用,因此,只能近似地從物理上對(duì)信道影響進(jìn)行數(shù)學(xué)建模。一方面近似的數(shù)學(xué)模擬不能很好的表達(dá)信道帶來的影響,另一方面由于實(shí)際應(yīng)用中對(duì)信道魯棒的需要,因此信道魯棒是說話人辨認(rèn)任務(wù)中經(jīng)久不衰的研究課題。目前,主要從特征域、模型域和分?jǐn)?shù)域三個(gè)方面提出了一些算法來減輕信道作用造成的識(shí)別系統(tǒng)性能的降低。 (3)說話人的情感。 在實(shí)際應(yīng)用場(chǎng)景中,說話人的語音常常夾雜著高興、憤怒、悲傷、害怕等情感因素,而這些情感又會(huì)造成不同程度的聲道變化,并且在四種不同的情感狀態(tài)下,說話人的語速、音調(diào)、節(jié)奏也會(huì)發(fā)生明顯變化。說話人生理因素的這些變化,會(huì)對(duì)說話人語音造成卷積或者更為復(fù)雜的影線。目前情感方面的研究,特別是情感識(shí)別,已經(jīng)逐步引起多家研究機(jī)構(gòu)的重視, 但帶情感語音的說話人識(shí)別目前仍處于起步階段。 在本文中,主要針對(duì)傳輸信道和情感因素對(duì)說話人辨認(rèn)系統(tǒng)造成的影響進(jìn)行研究,并提出相應(yīng)的算法來減輕這兩種因素造成的性能降低。 說話人識(shí)別的性能評(píng)價(jià) 說話人辨認(rèn)系統(tǒng)的性能評(píng)價(jià)主要看兩個(gè)參數(shù),一個(gè)是錯(cuò)誤接受率( 也被稱為 ,表述將非目標(biāo)說話人識(shí)別4 第 1 章 引言 成目標(biāo)說話人造成的錯(cuò)誤率,錯(cuò)誤接受率越低,非目標(biāo)說話人誤識(shí)成目標(biāo)說話人的概率越低,系統(tǒng)性能越好;另一個(gè)是錯(cuò)誤拒絕率( 被稱為 ,表述將目標(biāo)說話人誤識(shí)成非目標(biāo)說話人造成的錯(cuò)誤率,錯(cuò)誤拒絕率越低,說明將目標(biāo)說話人識(shí)別成非目標(biāo)說話人造成的損失越小,性能越好。兩者的定義如下: 目標(biāo)說話人識(shí)別為非目標(biāo)說話人的判決個(gè)數(shù)于目標(biāo)說話人的判決總個(gè)數(shù)(1非目標(biāo)說話人識(shí)別為目標(biāo)說話人的判決個(gè)數(shù)于非目標(biāo)說話人的判決總個(gè)數(shù)(1根據(jù)匹配得分和系統(tǒng)域值判決當(dāng)前測(cè)試語音和模型的說話人是否匹配,因此錯(cuò)誤拒絕率和錯(cuò)誤接受率都受到域值的影響,而且存在著此消彼長(zhǎng)的關(guān)系。域值越低,目標(biāo)說話人被識(shí)別為非目標(biāo)說話人的概率越小,錯(cuò)誤拒絕率越小,非目標(biāo)說話人識(shí)別為目標(biāo)說話人的概率越大,錯(cuò)誤接受率越高;域值越高,目標(biāo)說話人被識(shí)別為非目標(biāo)說話人的概率越大,錯(cuò)誤拒絕率越高,非目標(biāo)說話人識(shí)別為目標(biāo)說話人的概率越低,錯(cuò)誤接受率越小。因此, 是判決閾值的函數(shù),這兩個(gè)函數(shù)在值域相交 的點(diǎn)稱為等錯(cuò)誤率點(diǎn)(。一般采用檢測(cè)錯(cuò)誤權(quán)衡曲線( 1來反映這兩個(gè)錯(cuò)誤率之間的關(guān)系,曲線越接近原點(diǎn),系統(tǒng)的識(shí)別性能越好。 在美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所( 24的評(píng)測(cè)中,還定義了 檢測(cè)代價(jià)函數(shù)( 作為系統(tǒng)性能的評(píng)價(jià)指標(biāo)。在實(shí)際的應(yīng)用中,不同的應(yīng)用背景,錯(cuò)誤接受和錯(cuò)誤拒絕帶來的代價(jià)是不一樣的,因此,針對(duì)不同的應(yīng)用背景,對(duì) 價(jià)) ,并用最小表示系統(tǒng)能夠取得的最優(yōu)性能。定義如下: ( )D C P=+ (1其中,5 第 1 章 引言 有研究方法綜述 最早根據(jù)說話人的聲音來破案可以追溯到 1660 年查理一世的案件審判,然而,作為聽覺以外的手段確定說話人身份的機(jī)器識(shí)別方法直到 1944 人提出。 1962 年, 驗(yàn)室的 人提出了聲紋圖 (,論證了應(yīng)用“聲紋”識(shí)別說話人身份的可能性。隨后最早的說話人識(shí)別系統(tǒng)在驗(yàn)室誕生。 驗(yàn)室的 同年年底采用模式匹配原則把三維語圖(時(shí)間- 頻率- 能量)應(yīng)用于說話人識(shí)別研究,并在 1664 年和 出著名的 F 比值公式。在 人的努力下,說話人識(shí)別任務(wù)明確劃分為說話人確認(rèn)和說話人辨認(rèn)兩大任務(wù)。在隨后的四十年的研究進(jìn)程中,逐漸提出線性預(yù)測(cè)倒譜系數(shù)(5、感知線性預(yù)測(cè)系數(shù)( 6、 率倒譜系數(shù)( 7,8等說話人識(shí)別特征參數(shù)和動(dòng)態(tài)時(shí)間規(guī)整法( 9、矢量量化法(Q)10,11 、隱馬爾可夫模型(1214、高斯混合模型(15,16、人工神經(jīng)網(wǎng)絡(luò)( 17,18、 支持向量機(jī) (19等識(shí)別方法。近年由 國(guó)際中文語言資源聯(lián)盟(of 20舉行的評(píng)測(cè)為各個(gè)國(guó)家的研究機(jī)構(gòu)提供的更大的學(xué)習(xí)和交流機(jī)會(huì)。 國(guó)內(nèi)在說話人識(shí)別方面的研究有清華大學(xué)、北京大學(xué)、中科院聲學(xué)所和自動(dòng)化所等數(shù)家研究機(jī)構(gòu),并且取得了不錯(cuò)的進(jìn)展。在 2006 年舉行的 話人識(shí)別評(píng)測(cè)中,國(guó)內(nèi)就有四家研究機(jī)構(gòu)報(bào)名參加。2006 舉辦的 話人識(shí)別評(píng)測(cè)中,單信道和跨信道的說話人識(shí)別分別達(dá)到了 1和 6以下的等錯(cuò)誤率。 說話人識(shí)別中的特征 特征的選取和前端、后端處理,是說話人識(shí)別中的很重要的一環(huán)。理想情況下,特征的選擇應(yīng)該能夠抑制 因素而突出 差異。因此,在理想情況下,說話人識(shí)別中提取的特征應(yīng)該具有如下特點(diǎn): z 能夠有效地區(qū)分不同的說話人,但又能在同一說話人的話音變化時(shí)保持相對(duì)穩(wěn)定。 6 第 1 章 引言 z 對(duì)同一說話人,對(duì)健康狀況、情緒和系統(tǒng)的傳輸特性不敏感。 z 易于從語音信號(hào)中提取。 z 不易被模仿。 同時(shí)滿足上述要求的特征通常不容易找到,因此說話人識(shí)別系統(tǒng)不得不退而求其次,利用物理上可以測(cè)量的參數(shù)來表征說話人,力求抑制 因素而突出 一段語音中包含很多層次的說話人相關(guān)信息,這些信息包括底層的生理決定的特征(聲道構(gòu)造的個(gè)體差異) ,如基音和低頻共振峰;較高層的韻律、語速和語調(diào)等,以及更高層的發(fā)音方式、發(fā)音習(xí)慣等。目前常用的特征參數(shù)有根據(jù)語音信號(hào)的全極點(diǎn)模型得到的 據(jù)人耳對(duì)不同頻率的語音信號(hào)的敏感程度提取的 等。 據(jù) 研究表明21 ,在說話人識(shí)別任務(wù)中, 有更優(yōu)越的識(shí)別性能。 說話人識(shí)別中的模型 為了解決說話人識(shí)別任務(wù),已經(jīng)提出了多種識(shí)別方法。按照模型的表示和匹配的方法不同,大致可以分為非參數(shù)模型方法、參數(shù)模型方法、人工神經(jīng)網(wǎng)絡(luò)方法和支持向量機(jī)等幾類。 (1)非參數(shù)模型方法。 非參數(shù)模型方法,又稱為模板匹配法22,23 。其基本原理是從訓(xùn)練語音的特征參數(shù)中提取能夠代表說話人個(gè)性特征的特征參數(shù)作為模板。對(duì)于每一個(gè)測(cè)試語音,通過同樣的方法提取測(cè)試模板。通過匹配測(cè)試模板和特征模板之間的相似度,得出識(shí)別結(jié)果。 常用的非參數(shù)模型方法包括:動(dòng)態(tài)時(shí)間規(guī)整法、最小近鄰法(24、矢量量化法。這些方法的一個(gè)缺點(diǎn)是對(duì)信號(hào)和背景噪音的變化特別敏感,而這兩種影響可以改變說話人的特征,導(dǎo)致模板的漂移。 (2)參數(shù)模型方法。 參數(shù)模型法,又稱概率模型法。與模板匹配法不同,參數(shù)模型方法通過對(duì)訓(xùn)練語音訓(xùn)練模型參數(shù)(轉(zhuǎn)移概率或者分布系數(shù)等) ,當(dāng)訓(xùn)練結(jié)束時(shí)保留這些參數(shù)。在測(cè)試階段,比較測(cè)試語音與模型參數(shù)之間的相似程度從而得出識(shí)別結(jié)果。這些特性保證了參數(shù)模型方法比非參數(shù)模型方法具有更大的靈活性和魯棒性。 概率模型方法主要有分段的高斯模型(25、高斯混合模型和隱馬爾可夫模型。在近幾年的說話人識(shí)別研究中,高斯混7 第 1 章 引言 合模型- 通用背景模型(說話人識(shí)別領(lǐng)域占據(jù)著統(tǒng)治地位26,27 。 (3)人工神經(jīng)網(wǎng)絡(luò)方法。 人工神經(jīng)網(wǎng)絡(luò)通過逐級(jí)判決的方法,試圖模仿人腦的信息處理機(jī)制,將大量結(jié)構(gòu)非常簡(jiǎn)單的計(jì)算單元相互連接起來,實(shí)現(xiàn)高度并行和分布的信息處理。由于現(xiàn)在對(duì)說話人識(shí)別中的特征信息提取沒有形成公認(rèn)的準(zhǔn)則,所以人工神經(jīng)網(wǎng)絡(luò)具有一定的優(yōu)越性。目前用于說話人識(shí)別的人工神經(jīng)網(wǎng)絡(luò)有:時(shí)延神經(jīng)網(wǎng)絡(luò)( 28等。 (4)支持向量機(jī)。 早在上世紀(jì)六七十年代, 人就已經(jīng)提出 思想,但直到九十年代中后期才發(fā)展成為一種比較成熟的模式識(shí)別算法。 2002 年由 驗(yàn)室的 人將其引入到說話人識(shí)別領(lǐng)域并且取得了不錯(cuò)的效果29,30 。支持向量機(jī)已初步表現(xiàn)出很多優(yōu)于以往方法的性能,在解決有限樣本、非線性及高維模式識(shí)別問題中表現(xiàn)出許多特有的性能。特別時(shí)近年來將高斯超向量( 31作為 特征輸入更是取得了不錯(cuò)的效果,在跨信道方面的研究也取得很大的進(jìn)展。 說話人識(shí)別中的魯棒性算法 為了提高識(shí)別性能,特征、模型、分?jǐn)?shù)域的各種魯棒性算法也應(yīng)運(yùn)而生。 在特征級(jí)上,前端可以通過窗函數(shù)來減少由截?cái)嗵幚韺?dǎo)致的 應(yīng),同時(shí)利用高頻預(yù)加重來提升高頻信息 ;后端可以通過倒譜的差分( 自回歸(32 在靜態(tài)的倒譜中加入動(dòng)態(tài)信息來強(qiáng)化相鄰幀的特征參數(shù)之間存在相關(guān)性。倒譜均值減(33和倒譜方差歸一化( 34通過減去整段語音信號(hào)的倒譜均值消除卷性信道影響;特征彎折( 35和特征高斯化( 36在特征中加入短時(shí)特征,來提高特征參數(shù)的魯棒性;相對(duì)譜( 37,38也被用來消除信道扭曲和加性噪音從而對(duì)特征的各維在統(tǒng)計(jì)特征上做歸一化處理。 在模型級(jí)上基于 行模型合成 ( 39,即將一個(gè)信道下的說話人模型變換為另一個(gè)信道下的說話人模型并進(jìn)行測(cè)試語音的識(shí)別,從而減輕信道作用對(duì)模型的影響;特征映射(8 第 1 章 引言 40通過將不同信道下的特征映射到一個(gè)信道無關(guān)的特征空間來降低信道影響對(duì)特征的作用。 在分?jǐn)?shù)級(jí)上利用 1、 2、 1、 0等對(duì)模型在各語音幀的打分做統(tǒng)計(jì)上的歸一化。目前也有采用底層特征,如 高層特征,諸如韻律統(tǒng)計(jì)( 43,相結(jié)合來減輕信道作用對(duì)識(shí)別結(jié)果的影響。 文的組織結(jié)構(gòu) 近年來通過將 統(tǒng)引入到說話人辨認(rèn)任務(wù)中,在很大程度上提高了機(jī)器自動(dòng)識(shí)別的性能,也在多說話人、噪音魯棒、信道魯棒等方面提出了很多改進(jìn),但是在 2006 年的 測(cè)中發(fā)現(xiàn),與國(guó)際上的頂尖研究機(jī)構(gòu)還有很大差距。因此,本論文針對(duì)文本無關(guān)的信道魯棒的大規(guī)模開集單說話人辨認(rèn)進(jìn)行研究。 本論文針對(duì) 說話人識(shí)別系統(tǒng)中的應(yīng)用、信道魯棒以及情感語音上的說話人辨認(rèn)三個(gè)方面進(jìn)行研究,以期提高說話 人辨認(rèn)的性能。首先在 基礎(chǔ)上,采用 為特征輸入,引入 為新的說話人辨認(rèn)系統(tǒng)。并將 傳統(tǒng)的 話人辨認(rèn)系統(tǒng)進(jìn)行比較并進(jìn)行融合研究。第二,在 話人辨認(rèn)系統(tǒng)中,引入信道魯棒的冗余屬性投影( 29,30來解決信道魯棒問題,并與信道子空間投影(也稱 44進(jìn)行對(duì)比實(shí)驗(yàn),同時(shí)研究消去的特征維數(shù)和能量對(duì) 后,將 展為情感屬性投影(,引入到帶情感語音的說話人辨認(rèn)中。 本論文的其它部分安排如下: 第 2 章中考慮到 統(tǒng)的局限性,將 模和識(shí)別方法引入到說話人辨認(rèn)系統(tǒng)中來,提高在開集文本無關(guān)的單說話人辨認(rèn)系統(tǒng)中的性能;將基于 析兩個(gè)系統(tǒng)的不同建模方式對(duì)識(shí)別性能的影響,從而提出在分?jǐn)?shù)域進(jìn)行融合的思想,提高系統(tǒng)的性能。 第 3 章在 話人辨認(rèn)系統(tǒng)的基礎(chǔ)上,引入 法在特征級(jí)進(jìn)行處9 第 1 章 引言
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2030中國(guó)甲醇燃料汽車行業(yè)發(fā)展分析及市場(chǎng)競(jìng)爭(zhēng)格局與發(fā)展前景預(yù)測(cè)報(bào)告
- 2025至2030中國(guó)瑜伽夾克和連帽衫行業(yè)市場(chǎng)深度研究及發(fā)展前景投資可行性分析報(bào)告
- 2025至2030中國(guó)玻璃工藝品行業(yè)深度研究及發(fā)展前景投資評(píng)估分析
- 2025至2030中國(guó)環(huán)境試驗(yàn)行業(yè)產(chǎn)業(yè)運(yùn)行態(tài)勢(shì)及投資規(guī)劃深度研究報(bào)告
- 初中學(xué)業(yè)水平考試實(shí)驗(yàn)室設(shè)備標(biāo)準(zhǔn)化與統(tǒng)一化研究
- 推動(dòng)素質(zhì)教育教育機(jī)器人的重要作用與應(yīng)用前景
- 招聘培訓(xùn)課件軟件
- 美術(shù)培訓(xùn)主題課件名稱
- 高效會(huì)議管理培訓(xùn)課件
- 多媒體教學(xué)技術(shù)在課堂教學(xué)中的實(shí)踐
- 文創(chuàng)產(chǎn)品銷售合同
- 小學(xué)安全工作臺(tái)帳范本
- 碳中和技術(shù)概論全套教學(xué)課件
- 【人教版】八年級(jí)化學(xué)上冊(cè)期末測(cè)試卷(含答案)
- 基礎(chǔ)護(hù)理學(xué)第七版題附有答案
- 2024中汽中心校園招聘筆試參考題庫(kù)含答案解析
- 化工反應(yīng)工程課模設(shè)計(jì)
- 學(xué)與教的心理學(xué)第6版(師范專業(yè)心理學(xué))PPT完整全套教學(xué)課件
- 甲狀腺相關(guān)性眼病的診治進(jìn)展課件
- 小升初易錯(cuò)成語總結(jié)
- 郵輪基礎(chǔ)英語PPT全套教學(xué)課件
評(píng)論
0/150
提交評(píng)論