【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng)

上傳人：O*** IP屬地：四川上傳時(shí)間：2016-07-31 格式：PDF 頁數(shù)：85 大小：979.78KB 積分：0 舉報(bào) 版權(quán)申訴

【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng)_第2頁

【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng)_第3頁

【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng)_第4頁

【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng)_第5頁

已閱讀5頁，還剩80頁未讀，繼續(xù)免費(fèi)閱讀

【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng).pdf 免費(fèi)下載

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證文摘要由于自動(dòng)語音識(shí)別做不到 100%準(zhǔn)確，就非常值得對(duì)識(shí)別結(jié)果加以驗(yàn)證。理想的驗(yàn)證器應(yīng)該能夠區(qū)分正確和錯(cuò)誤的識(shí)別結(jié)果，或者指出某個(gè)識(shí)別結(jié)果正確的可能性。本論文以檢驗(yàn)識(shí)別假設(shè)為背景研究漢語語音識(shí)別的說話驗(yàn)證和置信度估計(jì)，不特別針對(duì)普通語音識(shí)別或關(guān)鍵詞識(shí)別。所研究的方法對(duì)普通語音識(shí)別和關(guān)鍵詞識(shí)別的識(shí)別結(jié)果驗(yàn)證是通用的。語音識(shí)別的錯(cuò)誤可以分為兩類，誤識(shí)和非法聲響造成的系統(tǒng)虛警。論文指出了誤識(shí)與非法聲響在驗(yàn)證任務(wù)中的不同地位，提出分別研究對(duì)它們的拒識(shí)，并采用相應(yīng)的評(píng)價(jià)方法。本論文還強(qiáng)調(diào)了在評(píng)價(jià)驗(yàn)證方法時(shí)，必須考慮具有不同性質(zhì)的非法聲響。本論文采集了三個(gè)不同性質(zhì)非法聲響庫，分別對(duì)應(yīng)說話噪音，隨意應(yīng)答和無關(guān)長句。對(duì)非法聲響拒識(shí)的研究將在這三個(gè)庫上展開。論文研究了可資驗(yàn)證利用的信息源及其綜合方法，提出了歸一化音節(jié)長度方差(研究了基于線性模型的信息源綜合和驗(yàn)證，取得了良好的效果。信息源綜合后的驗(yàn)證無論在對(duì)非法聲響還是對(duì)誤識(shí)的拒識(shí)能力上都比單獨(dú)的信息源要好。論文提出采用性模型估計(jì)的后驗(yàn)概率驗(yàn)證漢語數(shù)碼語音識(shí)別，數(shù)碼語音的情況下將識(shí)別的精度從高到其驗(yàn)證性能遠(yuǎn)遠(yuǎn)超過了常用的反詞模型和前二選驗(yàn)證。論文提出采用高斯混合模型作為垃圾模型，該模型在性能和訓(xùn)練速度上具有優(yōu)勢(shì)，便于實(shí)時(shí)的計(jì)算置信度。對(duì)電話語音識(shí)別系統(tǒng)，在拒絕 5%的合法語音的同時(shí)可以拒絕掉幾乎 100%的短非法聲響和 80%的無關(guān)長句。在線垃圾模型常常用來作為研究驗(yàn)證的基準(zhǔn)方法，本論文通過直接計(jì)算半音節(jié)在線垃圾似然度，并從競(jìng)爭集中去除模糊半音節(jié)，顯著地提高了性能。另一方面，根據(jù)半音節(jié)模型的統(tǒng)計(jì)相似度來減小競(jìng)爭集，使運(yùn)算量下降到原來的 10%左右，而保持相當(dāng)?shù)尿?yàn)證性能。在研究中，詞表無關(guān)一直被強(qiáng)調(diào)。反詞模型在說話驗(yàn)證中被廣泛使用。本論文考察了反詞模型在數(shù)碼語音識(shí)別驗(yàn)證中的效果，對(duì)基于半音節(jié)模型的識(shí)別系統(tǒng) ，根據(jù)漢語語音的特點(diǎn)，特別提出了基于反半音節(jié)模型的詞表無關(guān)說話驗(yàn)證。由于語音數(shù)據(jù)與研究力度的關(guān)系，尚未取得預(yù)期的效果。關(guān)鍵詞：說話驗(yàn)證，置信度，拒識(shí) 清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證 s is in it is to a or us to be as of is or it a or be as by of It is in OV be as in it is OV of be in OV OV be is to be is to It of OV on a is of LP is of on is as by to is to it is to % it OV 0% is as it is be by or On to is 0% is is in It is in is to of t be 華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證第一章說話驗(yàn)證本章將綜述本論文的選題意義，概要介紹相關(guān)歷史 ,研究現(xiàn)狀以及論文的安排。什么是說話驗(yàn)證自動(dòng)語音識(shí)別系統(tǒng)將輸入的聲音映射為文本，給出聲音的內(nèi)容，實(shí)際上是給出有關(guān)輸入聲音內(nèi)容的假設(shè)。在許多情況下，我們不僅關(guān)心假設(shè)的內(nèi)容，還關(guān)心假設(shè)有多么可靠，也就是說假設(shè)在多大概率上是正確的。這個(gè)概率就是嚴(yán)格意義上的置信度（。估計(jì)置信度，并據(jù)此對(duì)識(shí)別結(jié)果的正確性做出判斷就是說話驗(yàn)證（。首先需要區(qū)別置信度與系統(tǒng)的識(shí)別率（或者稱為精度）。識(shí)別率是指，在系統(tǒng)識(shí)別的語音中，識(shí)別結(jié)果是正確的所占的比率。而對(duì)一個(gè)輸入識(shí)別系統(tǒng)的聲響，會(huì)提供給我們一組觀測(cè)值，而當(dāng)它經(jīng)識(shí)別系統(tǒng)處理后，識(shí)別系統(tǒng)又會(huì)提供給我們另一組觀測(cè)值，這兩組觀測(cè)值構(gòu)成了我們對(duì)該聲響的全部知識(shí) 。置信度就是指，當(dāng)觀察到知識(shí)),( = ),( = ，識(shí)別結(jié)果正確的后驗(yàn)概率。換句話說，有許多輸入使觀測(cè)值為，其中被系統(tǒng)正確識(shí)別的輸入所占的比例就是這樣的輸入的置信度。廣義的置信度可以是正確概率的任意一種單調(diào)映射結(jié)果。什么要說話驗(yàn)證只要自動(dòng)語音識(shí)別不是 100%的可靠，如果能給出識(shí)別結(jié)果的可靠性并對(duì)識(shí)別結(jié)果的正確性加以驗(yàn)證就會(huì)有利于減少識(shí)別錯(cuò)誤。而在下列情況下置信度估計(jì)與驗(yàn)證是非常重要的。第一，識(shí)別系統(tǒng)經(jīng)常遇到非法聲響（。諸如關(guān)鍵詞識(shí)別系統(tǒng)（，口語對(duì)話系統(tǒng)（使用環(huán)境惡劣的識(shí)別系統(tǒng)。利用驗(yàn)證可以使系統(tǒng)降低虛警率（，提高抗干擾和噪聲能力（ 1清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證第二，識(shí)別錯(cuò)誤代價(jià)非常高。諸如語音撥號(hào)，重要設(shè)備的語音操作（語音確認(rèn) (統(tǒng)。驗(yàn)證對(duì)誤識(shí)可以起到“寧可錯(cuò)拒一千，不可放過一個(gè)”的作用，降低系統(tǒng)運(yùn)轉(zhuǎn)代價(jià)。第三，需要利用識(shí)別結(jié)果進(jìn)行下一步操作，而識(shí)別結(jié)果的正確性將影響下一步的在何種程度上依賴識(shí)別結(jié)果。比如，無監(jiān)督的說話人自適應(yīng) （ ,文本相關(guān)的說話人識(shí)別（，自動(dòng)語音翻譯（和多模式人機(jī)交互系統(tǒng)（第四，比較兩個(gè)精度接近的語音識(shí)別系統(tǒng)。在識(shí)別精度接近的情況下，如果一個(gè)識(shí)別系統(tǒng)正確和錯(cuò)誤的識(shí)別結(jié)果在置信度上有更大的區(qū)分性，這個(gè)系統(tǒng)顯然要更好一些，因?yàn)樗梢愿煽康馗嬖V我們什么時(shí)候相信它。以上幾種情況對(duì)于語音識(shí)別技術(shù)的深入發(fā)展和應(yīng)用都至關(guān)重要。因此本論文的選題具有深刻的理論意義和實(shí)用背景。究綜述史說話驗(yàn)證從關(guān)鍵詞識(shí)別研究發(fā)展出來，現(xiàn)在已經(jīng)用到幾乎所有的語音識(shí)別問題中。下面通過對(duì)其產(chǎn)生和發(fā)展過程的回顧來綜述國內(nèi)外發(fā)展動(dòng)態(tài)和文獻(xiàn) 根據(jù) （鄭方， 1997），關(guān)鍵詞的研究始于 1973 年的當(dāng)時(shí)叫作 “采用模板匹配。關(guān)鍵詞（提法是 1977年由先采用的。 1985 年，一次在關(guān)鍵詞識(shí)別中采用了白）方法。由于系統(tǒng)基于板匹配，此時(shí)的補(bǔ)白還是補(bǔ)白模板 ( 隨著法在語音識(shí)別中的流行，（ et 1990）提出了一個(gè)基于法的關(guān)鍵詞識(shí)別系統(tǒng)，用來在交換機(jī)上自動(dòng)識(shí)別用戶的接通命令。這一個(gè)是關(guān)鍵詞的識(shí)別系統(tǒng)，假定輸入語音中最多包含一個(gè)關(guān)鍵詞。也就是說，這個(gè)系統(tǒng)一次只能檢測(cè)出一個(gè)關(guān)鍵詞。因此從這一點(diǎn)看來，它仍是基于孤立語音識(shí)別技術(shù)的關(guān)鍵詞識(shí)別系統(tǒng)。作者提出了與補(bǔ) 白模板對(duì)應(yīng)的垃圾模型（ 2清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證稱為，用來對(duì)非關(guān)鍵詞語音建模，區(qū)分關(guān)鍵詞語音和非關(guān)鍵詞語音。垃圾模型成為說話驗(yàn)證最重要的方法之一。肯實(shí)驗(yàn)室的著于 1990 年提了第一個(gè)基于連續(xù)語音識(shí)別技術(shù)的鍵詞識(shí)別方法( 1990)。這個(gè)系統(tǒng)用于連續(xù)的對(duì)話語音（關(guān)鍵詞的識(shí)別，由于采用連續(xù)語音識(shí)別技術(shù)，補(bǔ)白模型(部分維特比回溯技術(shù) ( 可以識(shí)別出語音流中的任意多個(gè)關(guān)鍵詞，用于語音監(jiān)聽。隨著練算法的提出，( 1992)第一此次將基于術(shù)引入到關(guān)鍵詞識(shí)別中來，這導(dǎo)致了區(qū)分技術(shù)后來在說話驗(yàn)證中的廣泛應(yīng)用 (1997)(996)。至此的關(guān)鍵詞識(shí)別系統(tǒng)及其說話驗(yàn)證都是詞表 /任務(wù)相關(guān)的 (也就是說，系統(tǒng)是針對(duì)特定的詞表 /任務(wù)訓(xùn)練和調(diào)試的，如果要更新詞表改變?nèi)蝿?wù)，必須重新采集語音庫，重新訓(xùn)練。由于諸如音頻信息檢索這樣的應(yīng)用要求根據(jù)使用者需要迅速更新詞表，詞表相關(guān)的說話驗(yàn)證就顯得力不從心了。正是在這種需求的推動(dòng)下，關(guān) 鍵詞識(shí)別和說話驗(yàn)證研究迅速轉(zhuǎn)向了詞表 /任務(wù)無關(guān)(系統(tǒng)( 1992)(1993)(1994)(1995)( 996)(et 1997)(1998)。直到今天這仍然是說話驗(yàn)證研究中的一個(gè)熱點(diǎn) 1993 到 1994 年（ et 1993）和（ et 994）提出在線垃圾模型（法，現(xiàn)在已經(jīng)成為比較驗(yàn)證方法常用的基準(zhǔn)方法( 當(dāng) 練算法開始流行時(shí)，人 (et 1994)提出了關(guān)鍵詞識(shí)別的練算法，同樣把優(yōu)化目標(biāo)轉(zhuǎn)換成和系統(tǒng)性能直接相關(guān)的這一思路直接產(chǎn)生了說話驗(yàn)證的最小驗(yàn)證錯(cuò)誤訓(xùn)練 (法 (et 996)( 1997)(1998)。 (1997)提出反詞模型（提高英語連續(xù)數(shù)碼識(shí)別的驗(yàn)證。反詞模型已經(jīng)被證明十分有效，并得到廣泛應(yīng)用（ et 999）。 3清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證同時(shí)，隨著語音識(shí)別技術(shù)的成熟和投入實(shí)用，人們發(fā)現(xiàn)即使非關(guān)鍵詞識(shí)別系統(tǒng)也經(jīng)常遇到詞表中沒有的新詞和無關(guān)的聲響。如何檢測(cè)出這些詞表外的說話對(duì)提高識(shí)別系統(tǒng)的自然度和更新識(shí)別系統(tǒng)很重要。說話驗(yàn)證自然就被應(yīng)用到普通識(shí)別系統(tǒng)中來（ 1994）（ 1997）。包括通過檢測(cè)新詞，更新大詞表語音識(shí)別的詞表和語言模型（ 1996）（ 996）；拒絕會(huì)導(dǎo)致系統(tǒng)錯(cuò)誤啟動(dòng)的非法聲響（ 1992）（ 1993）（ et 1996）（ et 1998）等等。另一方面，語音識(shí)別也越來越多地與其他技術(shù)結(jié)合去解決比語音識(shí)別更難的問題，諸如 et 1997)（ et 1997）（ et 1998），多模式人機(jī)交互（ 998）等。還有一些相關(guān)的任務(wù)如無監(jiān)督說話人自適應(yīng)和文本相關(guān)說話人識(shí)別，也需要語音識(shí)別提供的結(jié)果。在這些應(yīng)用中，語音識(shí)別結(jié)果的正確性會(huì)影響整個(gè)任務(wù)的完成情況。在另一些系統(tǒng)中需要把多個(gè)語音識(shí)別器的結(jié)果綜合起來（ 1999），也需要評(píng)價(jià)各個(gè)識(shí)別器結(jié)果的可靠性。這些都成為了置信度估計(jì)與說話驗(yàn)證研究新的應(yīng)用背景。關(guān)鍵詞識(shí)別，置信度估計(jì)和說話驗(yàn)證的研究在國外已經(jīng)進(jìn)行多年，正在進(jìn)入高潮，而在國內(nèi)的研究則剛剛起步（鄭方， 1997） (徐明星等， 1998)(劉加等， 1998)(韋曉東等， 1998)其中（鄭方， 1997） (徐明星等， 1998)提出了一個(gè)基于音節(jié)的漢語無限制語音流的關(guān)鍵詞識(shí) 別系統(tǒng)，采用了獨(dú)特統(tǒng)計(jì)拒識(shí)方法。( 劉加等，1998) 采用了類似 (et 1997)音子網(wǎng)格 (方法，利用前二選識(shí)別結(jié)果進(jìn)行拒識(shí)，取得一定的效果。( 韋曉東等， 1998)的報(bào)道了垃圾模型在拒識(shí)中的應(yīng)用，這是國內(nèi)見諸文獻(xiàn)的第一家。同應(yīng)用背景下的驗(yàn)證下面將按不同的應(yīng)用背景對(duì)當(dāng)前的置信度估計(jì)和說話驗(yàn)證研究加以綜述。 9 對(duì)話系統(tǒng)（對(duì)話系統(tǒng)是目前語音識(shí)別研究與其他學(xué)科結(jié)合與應(yīng)用最熱門的領(lǐng)域。語音識(shí)別的結(jié)果需要與其他許多模塊結(jié)合起來才能完成實(shí)時(shí)人機(jī)對(duì)話的任務(wù)，因此識(shí)別結(jié)果的可靠性非常重要。這樣的系統(tǒng)包括天氣報(bào)告統(tǒng) （ et 2000），實(shí)驗(yàn)室的自動(dòng)電話轉(zhuǎn)接任務(wù)（ (et 1997)(et 998)，汽車預(yù)定任務(wù) （清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證和電影查詢?nèi)蝿?wù) （ et 1997） (et 1998), 司的歐洲自動(dòng)鐵路信息系統(tǒng)（ et 1999）等等。 9 監(jiān)聽系統(tǒng)（語音識(shí)別的自動(dòng)監(jiān)聽因?yàn)槠滠娪媚康亩?早就得以發(fā)展。自動(dòng)監(jiān)聽需要從語音流中實(shí)時(shí)地報(bào)告關(guān)鍵詞（往往是敏感的軍事，政治，經(jīng)濟(jì)話題）出現(xiàn)，而且漏報(bào)（代價(jià)較高。 R. 八十年代末開始在林肯實(shí)驗(yàn)室研究 (989)(1992)，后來將研究帶到 995）(996)。統(tǒng)與技術(shù)公司也一直在進(jìn)行類似的研究（ et 1993）（ et 1994）。 9 語音數(shù)據(jù)庫檢索系統(tǒng) 這是由互聯(lián)網(wǎng)發(fā)展產(chǎn)生的需求。由于互聯(lián)網(wǎng)上大量音頻（包括語音）數(shù)據(jù)的存在，如何對(duì)它們進(jìn)行內(nèi)容標(biāo)注和檢索（得重要。這樣的任務(wù)要求關(guān)鍵詞識(shí)別和驗(yàn)證詞表無關(guān)，但是標(biāo)注不需要實(shí)時(shí)進(jìn)行。劍橋的早就開發(fā)出一個(gè)實(shí)驗(yàn)系統(tǒng) 1990）。包括肯實(shí)驗(yàn)室（ et 991）和統(tǒng)與技術(shù)（et 1992）都在進(jìn)行這方面的研究。劍橋大學(xué)工程系在這一領(lǐng)域處于領(lǐng)先地位（994）（ et 1997）。 9 大詞表連續(xù)語音識(shí)別系統(tǒng)的置信度標(biāo)注對(duì)現(xiàn)有的大詞表連續(xù)語音識(shí)別系統(tǒng)進(jìn) 行置信度標(biāo)注有許多潛在的用途，包括對(duì)識(shí)別系統(tǒng)進(jìn)行自適應(yīng)，將識(shí)別系統(tǒng)加入到自然語言理解 , 多模式人機(jī)交互中等。最成功的例子是美國學(xué)和德國學(xué)為他們合作開發(fā)的自動(dòng)語音翻譯（統(tǒng) 在版本已經(jīng)到制的置信度標(biāo)注器（統(tǒng)。這個(gè)系統(tǒng)以 0/1 的方式給出對(duì)識(shí)別假設(shè)正確性的判斷，減小識(shí)別錯(cuò)誤對(duì)翻譯系統(tǒng)的困擾（ 1997）。在英國，研究者也為劍橋大學(xué)基于人工神經(jīng)網(wǎng)絡(luò)/詞表連續(xù)語音識(shí)別系統(tǒng)開發(fā)出了置信度估計(jì)系統(tǒng)（ 999）。一直在它的合大詞表連續(xù)語音識(shí)別系統(tǒng)上展開5清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證置信度與拒識(shí)的研究（1997 ）。最后愿意概括一下說話驗(yàn)證領(lǐng)域主要的研究機(jī)構(gòu)和研究者， 1） M. R. A. 2）實(shí)驗(yàn)室的 R. ； 3）德國學(xué)的 T. T. 4）斯坦福研究院（ M. Z. 們中的許多已經(jīng)離開入了語音技術(shù)公司 5）統(tǒng)與技術(shù)的 H. M. 。由于這些優(yōu)秀的研究人員和研究機(jī)構(gòu)的存在。語音識(shí)別的置信度估計(jì)和說話驗(yàn)證已經(jīng)擁有了相對(duì)獨(dú)立和穩(wěn)定的學(xué)術(shù)環(huán)境。關(guān)于置信度與說話驗(yàn)證的論文已經(jīng)多次出現(xiàn)在語音識(shí)別界的國際權(quán)威刊物上，語音識(shí)別界的權(quán)威國際會(huì)議每年辟出專題，在會(huì)議收錄論文報(bào)道這一領(lǐng)域的最新進(jìn)展。置信度估計(jì)和說話驗(yàn)證正在進(jìn)入研究的黃金時(shí)期。 6清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證論文工作本論文將以檢驗(yàn)識(shí)別假設(shè)為背景研究說話驗(yàn)證和置信度估計(jì)，因此不特別針對(duì)普通語音識(shí)別或關(guān)鍵詞識(shí)別，不涉及普通語音識(shí)別和關(guān)鍵詞識(shí)別本身的問題。所研究的方法對(duì)普通語音識(shí)別和關(guān)鍵詞識(shí)別的識(shí)別結(jié)果驗(yàn)證是通用的。許多驗(yàn)證的基本方法都得到了研究，將在論文的不同章節(jié)中出現(xiàn)。第二章將對(duì)說話驗(yàn)證的數(shù)學(xué)原理進(jìn)行分析，論述本論文評(píng)價(jià)說話驗(yàn)證的方法和語音數(shù)據(jù)庫，并且引入本論文研究說話驗(yàn)證的識(shí) 別系統(tǒng)，包括基于整詞和基于子詞的識(shí)別系統(tǒng)，包括基于孤立語音識(shí)別和連續(xù)語音識(shí)別的系統(tǒng)。第三章將論述可資說話驗(yàn)證利用的信息源。提出了利用音節(jié)長度方差對(duì)錯(cuò)誤識(shí)別結(jié)果進(jìn)行拒識(shí)。強(qiáng)調(diào)了利用語音結(jié)構(gòu)信息的重要性。第四章以漢語數(shù)碼語音識(shí)別為背景，研究了計(jì)后驗(yàn)概率在說話驗(yàn)證中的應(yīng)用。提出了用和計(jì)后驗(yàn)概率拒絕錯(cuò)誤識(shí)別的方法。并將其與反詞模型，線性模型和似然比等拒識(shí)方法進(jìn)行比較。第五章在基于半音節(jié)的識(shí)別系統(tǒng)：電話語音識(shí)別系統(tǒng)和語音確認(rèn)系統(tǒng)上研究了垃圾模型和在線垃圾模型在任務(wù) /詞表無關(guān)說話驗(yàn)證中的應(yīng)用和改進(jìn)。提出了采用高斯混合垃圾模型和直接從半音節(jié)計(jì)算的在線垃圾似然度，研究了優(yōu)化計(jì)算在線垃圾似然度競(jìng)爭集的方法。在研究過程中注意了方法的任務(wù) /詞表無關(guān)性。對(duì)比實(shí)驗(yàn)證明了這些方法的有效性。第六章研究了多個(gè)信息源的綜合利用方法，包括基于規(guī)則和基于統(tǒng)計(jì)模型的綜合方法。研究了利用線性模型綜合信息源的方法。第七章總結(jié)全文并給出對(duì)今后研究工作的展望。清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證第二章數(shù)學(xué)與評(píng)價(jià) 統(tǒng)計(jì)假設(shè)檢驗(yàn)(和貝頁斯決策分析(說話驗(yàn)證和置信度估計(jì)的數(shù)學(xué)基礎(chǔ)。對(duì)某個(gè)輸入語音 X ，語音識(shí)別器（出識(shí)別結(jié)果 C；這個(gè)結(jié)果實(shí)際上是關(guān)于輸入語音的一個(gè)假設(shè)（ )(P )假）拒絕00|() 。而對(duì)此結(jié)果驗(yàn)證（主要手段就是統(tǒng)計(jì)假設(shè)檢驗(yàn)（。另一方面，如果將識(shí)別器的輸出看成是驗(yàn)證器（的輸入，那么驗(yàn)證器實(shí)際是一個(gè)分類器（，判斷輸入究竟屬于類 1（正確）還是類 0（錯(cuò)誤）。因此，說話驗(yàn)證又可以看成是模式分類（題。而貝頁斯決策分析正是模式分類的統(tǒng)計(jì)數(shù)學(xué)基礎(chǔ)。本章將介紹說話驗(yàn)證的數(shù)學(xué)原理和評(píng)價(jià)方法，分析兩個(gè)不同數(shù)學(xué)角度的內(nèi)在聯(lián)系，最后給出本論文將要用到的驗(yàn)證評(píng)價(jià)方法和研究采用的識(shí)別系統(tǒng)。計(jì)假設(shè)檢驗(yàn) 根據(jù) 設(shè)檢驗(yàn)理論（ 976），可以將說話驗(yàn)證歸結(jié)為這樣一個(gè)統(tǒng)計(jì)假設(shè)檢驗(yàn)問題。零假設(shè) ( 識(shí)別結(jié)果正確。與之對(duì)應(yīng)是備選假設(shè) ( 識(shí)別結(jié)果錯(cuò)誤。說話驗(yàn)證就是對(duì)零假設(shè)進(jìn)行檢驗(yàn)。根據(jù)假設(shè)本身的性質(zhì)（真 /假）以及假設(shè)檢驗(yàn)的結(jié)果（接受/拒絕），有以下四種結(jié)果出現(xiàn)：正確接受（真），錯(cuò)誤拒絕（真），錯(cuò)誤接受（假）和正確拒絕（假）。因此假設(shè)檢驗(yàn)可能出現(xiàn)兩種錯(cuò)誤：錯(cuò)誤拒絕（錯(cuò)誤接受（，分別稱為第一類錯(cuò)誤和第二類錯(cuò)誤。出現(xiàn)兩類錯(cuò)誤的概率分別為和。假設(shè)檢驗(yàn)的勢(shì) (為。設(shè)輸入識(shí)別器的語音為 )|(0而分布與)|(1知，根據(jù) 理，當(dāng) )=|108清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證時(shí)接受零假設(shè) 是優(yōu)的。所謂優(yōu)是指使在使受限的情況下，檢驗(yàn)的勢(shì) (所有可能檢驗(yàn)中最大的。 0H )I(其中稱為檢驗(yàn)的臨界閾值( 取不同值，假設(shè)檢驗(yàn)將工作在不同的工作點(diǎn) ( 從似然比建設(shè)檢驗(yàn)的角度來看說話驗(yàn)證，對(duì)不同說話驗(yàn)證統(tǒng)計(jì)方法，實(shí)際是從不同的角度來估計(jì)分布 )|(0 )|(1 表 2受 0H 拒絕 0 N(A， T) N(R， T) 0H 假 N(A， F) N(R， F) 設(shè)我們有 N 個(gè)識(shí)別結(jié)果來評(píng)測(cè)檢驗(yàn)算法，對(duì)應(yīng)不同識(shí)別結(jié)果性質(zhì)和不同檢驗(yàn)結(jié)果的樣本數(shù)見（見表 2 其中表示為 Y（ T/F）且假設(shè)檢驗(yàn)結(jié)果為 X（ A/R）的測(cè)試樣本數(shù)，而樣本總數(shù)),( (),(),(),( + += 。用這些樣本可以估計(jì)檢驗(yàn)算法的性能參數(shù)。系統(tǒng)的（無條件）錯(cuò)誤率（計(jì)為： ( ,(+； =類似，可以分別估計(jì)兩類錯(cuò)誤率如下 : 錯(cuò)誤拒絕率（ : ),(),(),(|()I(00= 真）拒絕 ; 錯(cuò)誤接受率（ : ),(),(),(|()0= 假）接受 ; 二者統(tǒng)稱為條件錯(cuò)誤率 ( 而檢驗(yàn)的勢(shì)為 ),(),(),(|()00= 假）拒絕。 9清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證頁斯決策分析換個(gè)角度看說話驗(yàn)證。設(shè)識(shí)別器給出識(shí)別結(jié)果 H 以及識(shí)別過程中得到的特征矢量 S S。那么驗(yàn)證器的任務(wù)是根據(jù) ，把 H 分類為正確或錯(cuò)誤，分別對(duì)應(yīng)假設(shè)檢驗(yàn)中的接受和拒絕。這樣分類也有四種錯(cuò)誤。從這個(gè)角度來看，不同的說話驗(yàn)證方法實(shí)際是從不同的角度來估計(jì)分布 )|( 確 )| 或者是)|( 確 )|( 誤與。設(shè)將正確識(shí)別拒絕的損失為 A，將錯(cuò)誤識(shí)別接受的損失為 B，正確的拒絕和接受損失為 0。如下表表 2受拒絕正確 0=（接受，正確） A=（拒絕，正確）錯(cuò)誤 B=（接受，錯(cuò)誤） 0=（拒絕，錯(cuò)誤）設(shè)對(duì)輸入 S ，采取的決策（接受 /拒絕）為 )(則驗(yàn)證的條件期望風(fēng)險(xiǎn)為 )|()|(),()|)( 誤）正確正確） += ),S 錯(cuò)誤 )|()|( 誤接受 = )|()|( 確拒絕 = 驗(yàn)證的期望風(fēng)險(xiǎn)為 = ()|)( ，理想的驗(yàn)證決策應(yīng)該使果在進(jìn)行每個(gè)驗(yàn)證決策時(shí)，都使條件期望風(fēng)險(xiǎn)最小，就能使在對(duì)所有驗(yàn)證時(shí)，其期望風(fēng)險(xiǎn)也最小。這就是最小風(fēng)險(xiǎn)貝頁斯決策。因此理想的驗(yàn)證決策是， |()|()|()|( 確拒絕錯(cuò)誤接受 =11)|( 正確時(shí)，當(dāng) 接受識(shí)別結(jié)果。將上式的右邊用域值代替，對(duì)應(yīng)不同的閾值，也會(huì)有不同的驗(yàn)證工作點(diǎn)。當(dāng)?shù)谝活愬e(cuò)誤的代價(jià)相對(duì)第二類錯(cuò)誤的代價(jià)越大，越小；反之，越大。10清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證直觀地看，當(dāng)錯(cuò)誤接受的代價(jià)相對(duì)大時(shí)，要驗(yàn) 證接受一個(gè)識(shí)別結(jié)果就困難，接受的條件就越苛刻。從貝頁斯決策的角度來看說話驗(yàn)證，實(shí)際上是對(duì) S 估計(jì) )|( 確。系可以觀察從似然比假設(shè)檢驗(yàn)與從貝頁斯決策角度解決說話驗(yàn)證問題的聯(lián)系。 )()|()(),()()()|()|(01010111)|()(),()()()|()|(10101000= )()()|()|(01錯(cuò)誤正確當(dāng) 與互補(bǔ)時(shí)，有0(1)(01= ；而正是識(shí)別系統(tǒng)的識(shí)別率 )(0 ，因此有 )1)|()|()|(10=()|= )11()|()|()|()|(101)|( 正確這個(gè)公式顯示出兩個(gè)解決問題不同角度的內(nèi)在聯(lián)系。話驗(yàn)證的評(píng)價(jià) 統(tǒng)計(jì)假設(shè)檢驗(yàn)在信號(hào)檢測(cè)理論中早就得到廣泛應(yīng) 用。因此，說話驗(yàn)證的評(píng)價(jià)與信號(hào)檢測(cè)的評(píng)價(jià) (原理上是完全一致的。說話驗(yàn)證器作為假設(shè)檢驗(yàn)器，與信號(hào)檢測(cè)器一樣，可以在不同的工作點(diǎn)上工作。因此，評(píng)價(jià)其特性就要考慮所有的工作點(diǎn)的特性，也就是工作點(diǎn)組成的曲線特性?？紤]整個(gè)工作特性曲線的評(píng)價(jià)方法稱為動(dòng)態(tài)方法，而只考慮曲線上特殊點(diǎn)的方法稱為靜態(tài)方法 /參數(shù)。下面將介紹主要的評(píng)價(jià)方法。 11清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證價(jià)方法圖 2 受機(jī)工作特性，線是指以第一類錯(cuò)誤率為自變量畫出的（勢(shì)）變化曲線；或者以為自變量畫出的變化曲線。如圖 2第一種方式給出了四條線。其中的粗實(shí)線由隨機(jī)接受（假設(shè)檢驗(yàn)得到，它的含意是：隨機(jī) 接受時(shí)，假設(shè)檢驗(yàn)對(duì)零假設(shè)無論真假，拒絕的可能性完全相同。粗虛線是理想的假設(shè)檢驗(yàn)（性能，總是能 100%地拒絕錯(cuò)誤零假設(shè)。另外兩條細(xì)線由兩個(gè)性能不同的實(shí)際假設(shè)檢驗(yàn)產(chǎn)生。由于它們對(duì)錯(cuò)誤假設(shè)的拒絕率比對(duì)真確零假設(shè)的要高，它們的性能比隨機(jī)接受好，但比理想情況又差。其中的實(shí)線對(duì)應(yīng)的假設(shè)檢驗(yàn)又比虛線的好，因?yàn)楫?dāng)對(duì)真確零假設(shè)拒絕率相同情況下，它對(duì)錯(cuò)誤零假設(shè)拒絕率更高。真）拒絕00|()I( 假）拒絕00|( 受00|() 真）接受00|( (P)I(P )數(shù)與線密切相關(guān)。它是指在一定區(qū)間線下的面積。它衡量假設(shè)檢驗(yàn)方法在該區(qū)間中的整體性能。當(dāng)考慮整個(gè)（0 ， 1）工作范圍時(shí)，隨機(jī)拒絕的想假設(shè)檢驗(yàn)的 1，而實(shí)際假設(shè)檢驗(yàn)的于 1之間。顯而易見，對(duì)于特定的工作范圍，大，驗(yàn)證的性能越好測(cè)錯(cuò)誤折衷，線則是以為自變量畫出的變化曲線，并且取對(duì)數(shù)坐標(biāo)的形式。由線可以確定另一個(gè)重要的性能指標(biāo)，等錯(cuò)點(diǎn)（，即與相等時(shí)的工作點(diǎn)。 12清華大學(xué)工學(xué)碩士學(xué)位論文鐘林：漢語語音識(shí)別說話驗(yàn)證較基于不同性能識(shí)別系統(tǒng)的驗(yàn)證說話驗(yàn)證研究總是在一定的語音識(shí)別系統(tǒng)上展開的。同樣的識(shí)別系統(tǒng)可以采取不同的驗(yàn)證方法，而同樣的驗(yàn)證方法可以用在不同的識(shí)別系統(tǒng)上。由于歷史的原因，研究者總是在現(xiàn)有的識(shí)別系統(tǒng)上研究說話驗(yàn)證，因此導(dǎo)致識(shí)別系統(tǒng)往往不同。而要比較他們提出的說話驗(yàn)證方法，就需要有一種與識(shí)別系統(tǒng)性能無關(guān)的評(píng)價(jià)方法。設(shè)隨機(jī)變量 A 為零假設(shè)的性質(zhì)（正確 1/錯(cuò)誤 0），隨機(jī)變量 Z 為假設(shè)檢驗(yàn)的結(jié)果（接受 1/拒絕 0）。二者的互信息為 )|()()|()(),( = )(應(yīng)零假設(shè)性質(zhì)的不確定度，反映假設(shè)檢驗(yàn)的難度。 )11( += 其中 P 為零假設(shè) （識(shí)別結(jié)果）正確的概率，即識(shí)別器的識(shí)別率（精度）；顯然當(dāng)時(shí)，識(shí)別器越精確，識(shí)別結(jié)果性質(zhì)的不確定度就越小。 5.0p)(H | 加入驗(yàn)證和拒識(shí)后零假設(shè)性質(zhì)的不確定度。 =)()()|()|()|()|( +=0()0|()1()1|()()|()|( +=)(0|()1|()1)(0|()(0|()1)(0|()1|()1|(|( 其中， P 為識(shí)別器精度，而假）拒絕00|()0|0( I)(|()1|0(00= 真）拒絕 |()0|1(00= 假）接受真）接受00|()1|1( 它們的估計(jì)方法見本章的由于驗(yàn)證和拒識(shí)對(duì)零假設(shè)的性質(zhì)做出了判斷，零假設(shè)性質(zhì)的不確定度應(yīng)該減小。驗(yàn)證和拒識(shí)越可靠，減小得就越多。但是，減小的程度還與識(shí)別器自身的性能有關(guān)，也就是說，與驗(yàn)證和拒識(shí)任務(wù) 的難度有關(guān)。當(dāng)識(shí)別器性能差時(shí)，大，一個(gè)簡單的驗(yàn)證就使比小得多。因此，采用互信息來評(píng)價(jià)驗(yàn))( (;( 鐘林：漢語語音識(shí)別說話驗(yàn)證證嚴(yán)重依賴識(shí)別器的性能，即驗(yàn)證任務(wù)的難度。要減小這種依賴，一個(gè)簡單的想法就是用任務(wù)的難度對(duì)驗(yàn)證取得的熵減小歸一化，這樣就得到歸一化互信息(也成為驗(yàn)證的效率（ )()|()()()|()()();();(= 其典型的曲線可以參見（ 999）。論文的評(píng)價(jià)方式本論文研究說話驗(yàn)證在兩方面對(duì)識(shí)別系統(tǒng)的貢獻(xiàn)：通過拒識(shí)提高系統(tǒng)對(duì)合法語音（識(shí)別精度，即拒識(shí)誤識(shí)（ ;通過驗(yàn)證拒識(shí)非法聲響（。因此，需要從兩個(gè)方面來衡量說話驗(yàn)證的性能。我們把零假設(shè) 錯(cuò)誤的情況分為兩類：指對(duì)合法語音的誤識(shí)，指非法聲響。拒識(shí)后系統(tǒng)對(duì)合法語音的識(shí)別精度（ 0接受真 =+=),(),(),(|(100對(duì)非法聲響的拒識(shí)性能可以用對(duì)非法聲響的拒識(shí)率 (衡量：非法聲響數(shù)拒絕的非法聲響數(shù)非法）拒絕 =+=),(),(),(|(2220）拒絕00|( 關(guān)系是： ),(),(),(),(),(),(),(),(),(),(),(),(),(22212122121+= (),()(),(),(|(2200+= 假）拒絕 1(),(),(|(200= 假）拒絕其中，驗(yàn)證的（無條件）錯(cuò)誤率， K 為非法語音在測(cè)試語音中所占的比例。不同的語音識(shí)別任務(wù)面對(duì)的非法聲響在統(tǒng)計(jì)上也不盡相同。從研究驗(yàn)證方法對(duì)非法聲響拒識(shí)的角度出發(fā)，我們更關(guān)心的是驗(yàn)證方法對(duì)各種可能遇到的非法聲響的拒識(shí)能力，而不是驗(yàn)證方法對(duì)某個(gè)具體識(shí)別任務(wù)上面臨非法

人人文庫> 全部分類> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng)

文檔簡介

溫馨提示

最新文檔

評(píng)論

【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔