【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng)_第1頁
【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng)_第2頁
【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng)_第3頁
【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng)_第4頁
【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng)_第5頁
已閱讀5頁,還剩80頁未讀 繼續(xù)免費(fèi)閱讀

【畢業(yè)學(xué)位論文】漢語語音識(shí)別說話驗(yàn)證-模式識(shí)別與智能系統(tǒng).pdf 免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 文摘要 由于自動(dòng)語音識(shí)別做不到 100%準(zhǔn)確,就非常值得對(duì)識(shí)別結(jié)果加以驗(yàn)證。理想的驗(yàn)證器應(yīng)該能夠區(qū)分正確和錯(cuò)誤的識(shí)別結(jié)果, 或者指出某個(gè)識(shí)別結(jié)果正確的可能性。本論文以檢驗(yàn)識(shí)別假設(shè)為背景研究漢語語音 識(shí)別的說話驗(yàn)證和置信度估計(jì),不特別針對(duì)普通語音識(shí)別或關(guān)鍵詞識(shí)別。 所研究的方法對(duì)普通語音識(shí)別和關(guān)鍵詞識(shí)別的識(shí)別結(jié)果驗(yàn)證是通用的。 語音識(shí)別的錯(cuò)誤可以分為兩類,誤識(shí)和非法聲響造成的系統(tǒng)虛警。論文指出了誤識(shí)與非法聲響在驗(yàn)證任務(wù)中的不同地位, 提出分別研究對(duì)它們的拒識(shí),并采用相應(yīng)的評(píng)價(jià)方法。本論文還強(qiáng)調(diào)了在評(píng)價(jià)驗(yàn)證方法 時(shí),必須考慮具有不同性質(zhì)的非法聲響。本論文采集了三個(gè)不同性質(zhì)非法聲響庫, 分別對(duì)應(yīng)說話噪音,隨意應(yīng)答和無關(guān)長句。對(duì)非法聲響拒識(shí)的研究將在這三個(gè)庫上展開。 論文研究了可資驗(yàn)證利用的信息源及其綜合方法, 提出了歸一化音節(jié)長度方差(研究了基于 線性模型的信息源綜合和驗(yàn)證,取得了良好的效果。信息源 綜合后的驗(yàn)證無論在對(duì)非法聲響還是對(duì)誤識(shí)的拒識(shí)能力上都比單獨(dú)的信息源要好。 論文提出采用 性模型估計(jì)的后驗(yàn)概率驗(yàn)證漢語數(shù)碼 語音識(shí)別,數(shù)碼語音的情況下將識(shí)別的精度從 高到 其驗(yàn)證性能遠(yuǎn)遠(yuǎn)超過了常用的反詞模型和前二選驗(yàn)證。 論文提出采用高斯混合模型作為垃圾模型, 該模型在性能和訓(xùn)練速度上具有優(yōu)勢(shì),便于實(shí)時(shí)的計(jì)算置信度。對(duì)電話語音識(shí)別系統(tǒng),在拒絕 5%的合法語音的同時(shí)可以拒絕掉幾乎 100%的短非法聲響和 80%的無關(guān)長句。在線垃圾模型常常用來作為研究驗(yàn)證的基準(zhǔn)方法,本論文通過 直接計(jì)算半音節(jié)在線垃圾似然度,并從競(jìng)爭集中去除模糊半音節(jié),顯著地提高了性能。 另一方面,根據(jù)半音節(jié)模型的統(tǒng)計(jì)相似度來減小競(jìng)爭集,使運(yùn)算量下降到原來的 10%左右,而保持相當(dāng)?shù)尿?yàn)證性能。在研究中,詞表無關(guān)一直被強(qiáng)調(diào)。 反詞模型在說話驗(yàn)證中被廣泛使用。 本論文考察了反詞模型在數(shù)碼語音識(shí)別驗(yàn)證中的效果,對(duì)基于半音節(jié)模型的識(shí)別系統(tǒng) ,根據(jù)漢語語音的特點(diǎn),特別提出了基于反半音節(jié)模型的詞表無關(guān)說話驗(yàn)證。由于語音數(shù)據(jù)與研究力度的關(guān)系,尚未取得預(yù)期的效果。 關(guān)鍵詞:說話驗(yàn)證,置信度,拒識(shí) 清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 s is in it is to a or us to be as of is or it a or be as by of It is in OV be as in it is OV of be in OV OV be is to be is to It of OV on a is of LP is of on is as by to is to it is to % it OV 0% is as it is be by or On to is 0% is is in It is in is to of t be 華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 第一章 說話驗(yàn)證 本章將綜述本論文的選題意義,概要介紹相關(guān)歷史 ,研究現(xiàn)狀以及論文的安排。 什么是說話驗(yàn)證 自動(dòng)語音識(shí)別系統(tǒng)將輸入的聲音映射為文本, 給出聲音的內(nèi)容, 實(shí)際上是給出有關(guān)輸入聲音內(nèi)容的假設(shè)。在許多情 況下,我們不僅關(guān)心假設(shè)的內(nèi)容,還關(guān)心假設(shè)有多么可靠,也就是說假設(shè)在多大概率上是正確 的。這個(gè)概率就是嚴(yán)格意義上的置信度( 。估計(jì)置信度,并據(jù)此對(duì)識(shí)別結(jié)果的正確性做出判斷就是說話驗(yàn)證( 。首先需要區(qū)別置信度與系統(tǒng)的識(shí)別率(或者稱為精度) 。識(shí)別率是指,在系統(tǒng)識(shí)別的語音中,識(shí)別結(jié)果是正確的所占的比率。而對(duì)一個(gè)輸入識(shí)別系統(tǒng)的聲響,會(huì)提供給我們一組觀測(cè)值 ,而當(dāng)它經(jīng)識(shí)別系統(tǒng)處理后,識(shí)別系統(tǒng)又會(huì)提供給我們另一組觀測(cè)值 ,這兩組觀測(cè)值構(gòu)成了我們對(duì)該聲響的全部知識(shí) 。置信度就是指,當(dāng)觀察到知識(shí)),( = ),( = ,識(shí)別結(jié)果正確的后驗(yàn)概率。換句話說,有許多輸入使觀測(cè)值為 , 其中被系統(tǒng)正確識(shí)別的輸入所占的比例就是這樣的輸入的置信度。 廣義的置信度可以是正確概率的任意一種單調(diào)映射結(jié)果。 什么要說話驗(yàn)證 只要自動(dòng)語音識(shí)別不是 100%的可靠,如果能給出識(shí)別結(jié)果的可靠性并對(duì)識(shí)別結(jié)果的正確性加以驗(yàn)證就會(huì)有利于減少識(shí)別錯(cuò)誤。 而在下列情況下置信度估計(jì)與驗(yàn)證是非常重要的。 第一,識(shí)別系統(tǒng)經(jīng)常遇到非法聲響( 。諸如關(guān)鍵詞識(shí)別系統(tǒng)( ,口語對(duì)話系統(tǒng)( 使用環(huán)境惡劣的識(shí)別系統(tǒng)。利用驗(yàn)證可以使系統(tǒng)降低虛警率( ,提高抗干擾和噪聲能力( 1清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 第二,識(shí)別錯(cuò)誤代價(jià)非常高。諸如語音撥號(hào),重要設(shè)備的語音操作( 語音確認(rèn) (統(tǒng)。驗(yàn)證對(duì)誤識(shí)可以起到“寧可錯(cuò)拒一千,不可放過一個(gè)”的作用,降低系統(tǒng)運(yùn)轉(zhuǎn)代價(jià)。 第三,需要利用識(shí)別結(jié)果進(jìn)行下一步操作 ,而識(shí)別結(jié)果的正確性將影響下一步的在何種程度上依賴識(shí)別結(jié)果。 比如, 無監(jiān)督的說話人自適應(yīng) ( ,文本相關(guān)的說話人識(shí)別( ,自動(dòng)語音翻譯( 和多模式人機(jī)交互系統(tǒng)( 第四,比較兩個(gè)精度接近的語音識(shí)別系統(tǒng)。在識(shí)別精度接近的情況下,如果一個(gè)識(shí)別系統(tǒng)正確和錯(cuò)誤的識(shí)別結(jié)果在置信度上有更大的區(qū)分性, 這個(gè)系統(tǒng)顯然要更好一些,因?yàn)樗梢愿煽康馗嬖V我們什么時(shí)候相信它。 以上幾種情況對(duì)于語音識(shí)別技術(shù)的深入發(fā)展和應(yīng)用都至關(guān)重要。 因此本論文的選題具有深刻的理論意義和實(shí)用背景。 究綜述 史 說話驗(yàn)證從關(guān)鍵詞識(shí)別研究發(fā)展出來, 現(xiàn)在已經(jīng)用到幾乎所有的語音識(shí)別問題中。下面通過對(duì)其產(chǎn)生和發(fā)展過程的 回顧來綜述國內(nèi)外發(fā)展動(dòng)態(tài)和文獻(xiàn) 根據(jù) (鄭方, 1997), 關(guān)鍵詞的研究始于 1973 年的 當(dāng)時(shí)叫作 “采用模板匹配。關(guān)鍵詞( 提 法是 1977年由 先采用的。 1985 年, 一次在關(guān)鍵詞識(shí)別中采用了 白)方法。由于系統(tǒng)基于 板匹配,此時(shí)的補(bǔ)白還是補(bǔ)白模板 ( 隨著 法在語音識(shí)別中的流行, ( et 1990)提出了一個(gè)基于法的關(guān)鍵詞識(shí)別系統(tǒng),用來在交換機(jī)上 自動(dòng)識(shí)別用戶的接通命令。這一個(gè)是關(guān)鍵詞的識(shí)別系統(tǒng),假定輸入語音中最多包 含一個(gè)關(guān)鍵詞。也就是說,這個(gè)系統(tǒng)一次只能檢測(cè)出一個(gè)關(guān)鍵詞。因此從這一點(diǎn)看 來,它仍是基于孤立語音識(shí)別技術(shù)的關(guān)鍵詞識(shí)別系統(tǒng)。作者提出了與補(bǔ) 白模板對(duì)應(yīng)的垃圾模型( 2清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 稱為 ,用來對(duì)非關(guān)鍵詞語音建模,區(qū)分關(guān)鍵詞語音和非關(guān)鍵詞語音。垃圾模型成為說話 驗(yàn)證最重要的方法之一。 肯實(shí)驗(yàn)室的 著于 1990 年提了第一個(gè)基于連續(xù)語音識(shí)別技術(shù)的 鍵詞識(shí)別方法( 1990)。這個(gè)系統(tǒng)用于連續(xù)的對(duì)話語音( 關(guān)鍵詞的識(shí)別,由于采用連續(xù)語音識(shí)別技術(shù),補(bǔ)白模型(部分維特比回溯技術(shù) ( 可以識(shí)別出語音流中的任意多個(gè)關(guān)鍵詞,用于語音監(jiān)聽。 隨著 練算法的提出,( 1992)第一此次將基于 術(shù)引入到關(guān)鍵詞識(shí)別中來,這導(dǎo)致了區(qū)分技術(shù)后來在說話驗(yàn)證中的廣泛應(yīng)用 (1997)(996)。 至此的關(guān)鍵詞識(shí)別系統(tǒng)及其說話驗(yàn)證都是詞表 /任務(wù)相關(guān)的 (也就是說,系統(tǒng)是針對(duì)特定的詞表 /任務(wù)訓(xùn)練和調(diào)試的,如果要更新詞表改變?nèi)蝿?wù),必須重新采集語音庫,重新訓(xùn)練。由于諸如音頻信息檢索這樣的應(yīng)用要求根據(jù)使用者需要迅速更新詞表, 詞表相關(guān)的說話驗(yàn)證就顯得力不從心了。正是在這種需求的推動(dòng)下,關(guān) 鍵詞識(shí)別和說話驗(yàn)證研究迅速轉(zhuǎn)向了詞表 /任務(wù)無關(guān)(系統(tǒng)( 1992)(1993)(1994)(1995)( 996)(et 1997)(1998)。直到今天這仍然是說話驗(yàn)證研究中的一個(gè)熱點(diǎn) 1993 到 1994 年( et 1993)和( et 994)提出在線垃圾模型( 法,現(xiàn)在已經(jīng)成為比較驗(yàn)證方法常用的基準(zhǔn)方法( 當(dāng) 練算法開始流行時(shí),人 (et 1994)提出了關(guān)鍵詞識(shí)別的 練算法,同樣把優(yōu)化目標(biāo)轉(zhuǎn)換成和系統(tǒng)性能直接相關(guān)的 這一思路直接產(chǎn)生了說話驗(yàn)證的最小驗(yàn)證錯(cuò)誤訓(xùn)練 (法 (et 996)( 1997)(1998)。 (1997)提出反詞模型( 提高英語連續(xù)數(shù)碼識(shí)別的驗(yàn)證。反詞模型已經(jīng)被 證明十分有效,并得到廣泛應(yīng)用( et 999)。 3清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 同時(shí),隨著語音識(shí)別技術(shù)的成熟和投 入實(shí)用,人們發(fā)現(xiàn)即使非關(guān)鍵詞識(shí)別系統(tǒng)也經(jīng)常遇到詞表中沒有的新詞和無關(guān)的聲響。 如何檢測(cè)出這些詞表外的說話對(duì)提高識(shí)別系統(tǒng)的自然度和更新識(shí)別系統(tǒng)很重要。 說話驗(yàn)證自然就被應(yīng)用到普通識(shí)別系統(tǒng)中來( 1994)( 1997) 。包括通過檢測(cè)新詞,更新大詞表語音識(shí)別的詞表和語言模型( 1996)( 996) ;拒絕會(huì)導(dǎo)致系統(tǒng)錯(cuò)誤啟動(dòng)的非法聲響( 1992)( 1993)( et 1996)( et 1998)等等。另一方面,語音識(shí)別也越來越多地與其他技術(shù)結(jié)合去解決比語音識(shí)別更難的問題,諸如 et 1997)( et 1997)( et 1998) ,多模式人機(jī)交互( 998)等。還有一些相關(guān)的任務(wù)如無監(jiān)督說話人自適應(yīng)和文本相關(guān)說話人識(shí)別,也需要語音識(shí)別提供的 結(jié)果。在這些應(yīng)用中,語音識(shí)別結(jié)果的正確性會(huì)影響整個(gè)任務(wù)的完成情況。 在另一些系統(tǒng)中需要把多個(gè)語音識(shí)別器的結(jié)果綜合起來( 1999) ,也需要評(píng)價(jià)各個(gè)識(shí)別器結(jié)果的可靠性。這些都成為了置信度估計(jì)與說話 驗(yàn)證研究新的應(yīng)用背景。 關(guān)鍵詞識(shí)別,置信度估計(jì)和說話驗(yàn)證的研究在國外已經(jīng)進(jìn)行多年,正在進(jìn)入高潮,而在國內(nèi)的研究則剛剛起步(鄭方, 1997) (徐明星等, 1998)(劉加等, 1998)(韋曉東等, 1998)其中(鄭方, 1997) (徐明星等, 1998)提出了一個(gè)基于音節(jié)的漢語無限制語音流的關(guān)鍵詞識(shí) 別系統(tǒng),采用了獨(dú)特統(tǒng)計(jì)拒識(shí)方法。( 劉加等,1998) 采用了類似 (et 1997)音子網(wǎng)格 (方法,利用前二選識(shí)別結(jié)果進(jìn)行拒識(shí),取得一定的效果。( 韋曉東等, 1998)的報(bào)道了垃圾模型在拒識(shí)中的應(yīng)用,這是國內(nèi)見諸文獻(xiàn)的第一家。 同應(yīng)用背景下的驗(yàn)證 下面將按不同的應(yīng)用背景對(duì)當(dāng)前的置信度估計(jì)和說話驗(yàn)證研究加以綜述。 9 對(duì)話系統(tǒng)( 對(duì)話系統(tǒng)是目前語音識(shí)別研究與其他 學(xué)科結(jié)合與應(yīng)用最熱門的領(lǐng)域。 語音識(shí)別的結(jié)果需要與其他許多模塊結(jié)合起來 才能完成實(shí)時(shí)人機(jī)對(duì)話的任務(wù), 因此識(shí)別結(jié)果的可靠性非常重要。 這樣的系統(tǒng)包括 天氣報(bào)告 統(tǒng) ( et 2000), 實(shí)驗(yàn)室的自動(dòng)電話轉(zhuǎn)接任務(wù)( (et 1997)(et 998), 汽車預(yù)定任務(wù) ( 清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 和電影查詢?nèi)蝿?wù) ( et 1997) (et 1998), 司的歐洲自動(dòng)鐵路信息系統(tǒng)( et 1999)等等。 9 監(jiān)聽系統(tǒng)( 語音識(shí)別的自動(dòng)監(jiān)聽因?yàn)槠滠娪媚康亩?早就得以發(fā)展。自動(dòng)監(jiān)聽需要從語音流中實(shí)時(shí)地報(bào)告關(guān)鍵詞(往往是敏感的軍事,政治 ,經(jīng)濟(jì)話題)出現(xiàn),而且漏報(bào)( 代價(jià)較高。 R. 八十年代末開始在 林肯實(shí)驗(yàn)室研究 (989)(1992),后來將研究帶到 995)(996)。 統(tǒng)與技術(shù)公司也一直在進(jìn)行類似的研究 ( et 1993)( et 1994)。 9 語音數(shù)據(jù)庫檢索系統(tǒng) 這是由互聯(lián)網(wǎng)發(fā)展產(chǎn)生的需求。由于互聯(lián)網(wǎng)上大量音頻 (包括語音)數(shù)據(jù)的存在,如何對(duì)它們進(jìn)行內(nèi)容標(biāo)注和檢索( 得重要。這樣的任務(wù)要求關(guān)鍵詞識(shí)別和驗(yàn)證詞表無關(guān),但是標(biāo)注不需要實(shí)時(shí)進(jìn)行。劍橋的 早就開發(fā)出一個(gè)實(shí)驗(yàn)系統(tǒng) 1990) 。包括肯實(shí)驗(yàn)室( et 991)和 統(tǒng)與技術(shù)(et 1992)都在進(jìn)行這方面的研究。劍橋大學(xué)工程系 在這一領(lǐng)域處于領(lǐng)先地位(994)( et 1997)。 9 大詞表連續(xù)語音識(shí)別系統(tǒng)的置信度標(biāo)注 對(duì)現(xiàn)有的大詞表連續(xù)語音識(shí)別系統(tǒng)進(jìn) 行置信度標(biāo)注有許多潛在的用途, 包括對(duì)識(shí)別系統(tǒng)進(jìn)行自適應(yīng),將識(shí)別系統(tǒng)加入到自然語言理解 , 多模式人機(jī)交互中等。最成功的例子是美國 學(xué)和德國 學(xué)為他們合作開發(fā)的自動(dòng)語音翻譯( 統(tǒng) 在版本已經(jīng)到 制的置信度標(biāo)注器( 統(tǒng)。這個(gè)系統(tǒng)以 0/1 的方式給出對(duì)識(shí)別假設(shè)正確性的判斷, 減小識(shí)別錯(cuò)誤對(duì)翻譯系統(tǒng)的困擾( 1997) 。在英國,研究者也為劍橋大學(xué)基于人工神經(jīng)網(wǎng)絡(luò)/詞表連續(xù)語音識(shí)別系統(tǒng)開發(fā)出了置信度估計(jì)系統(tǒng)( 999)。 一直在它的 合大詞表連續(xù)語音識(shí)別系統(tǒng)上展開5清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 置信度與拒識(shí)的研究(1997 )。 最后愿意概括一下說話驗(yàn)證領(lǐng)域主要的研究機(jī)構(gòu)和研究者, 1) M. R. A. 2) 實(shí)驗(yàn)室的 R. ; 3) 德國 學(xué)的 T. T. 4) 斯坦福研究院 ( M. Z. 們中的許多已經(jīng)離開 入了語音技術(shù)公司 5) 統(tǒng)與技術(shù)的 H. M. 。由于這些優(yōu)秀的研究人員和研究機(jī)構(gòu)的存在。 語音識(shí)別的置信度估計(jì)和說話驗(yàn)證已經(jīng)擁有了相對(duì)獨(dú)立和穩(wěn)定的學(xué)術(shù)環(huán)境。 關(guān)于置信度與說話驗(yàn)證的論文已經(jīng)多次出現(xiàn)在 語音識(shí)別界的國際權(quán)威刊物上, 語音識(shí)別界的權(quán)威國際會(huì)議 每年辟出專題,在會(huì)議 收錄論文報(bào)道這一領(lǐng)域的最新進(jìn)展。置信度估計(jì)和說話驗(yàn)證正在進(jìn)入研究的黃金時(shí)期。 6清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 論文工作 本論文將以檢驗(yàn)識(shí)別假設(shè)為背景研究說話驗(yàn)證和置信度估計(jì),因此不特別針對(duì)普通語音識(shí)別或關(guān)鍵詞識(shí)別,不涉及 普通語音識(shí)別和關(guān)鍵詞識(shí)別本身的問題。所研究的方法對(duì)普通語音識(shí)別和關(guān)鍵詞識(shí)別的識(shí)別結(jié)果驗(yàn)證是通用的。 許多驗(yàn)證的基本方法都得到了研究,將在論文的不同章節(jié)中出現(xiàn)。 第二章將對(duì)說話驗(yàn)證的數(shù)學(xué)原理進(jìn)行分析,論述本論文評(píng)價(jià)說話驗(yàn)證的方法和語音數(shù)據(jù)庫,并且引入本論文研究說話驗(yàn)證的識(shí) 別系統(tǒng),包括基于整詞和基于子詞的識(shí)別系統(tǒng),包括基于孤立語音識(shí)別 和連續(xù)語音識(shí)別的系統(tǒng)。 第三章將論述可資說話驗(yàn)證利用的信息源。提出了利用音節(jié)長度方差對(duì)錯(cuò)誤識(shí)別結(jié)果進(jìn)行拒識(shí)。強(qiáng)調(diào)了利用語音結(jié)構(gòu)信息的重要性。 第四章以漢語數(shù)碼語音識(shí)別為背景, 研究了 計(jì)后驗(yàn)概率在說話驗(yàn)證中的應(yīng)用。提出了用 和 計(jì)后驗(yàn)概率拒絕錯(cuò)誤識(shí)別的方法。并將其與反詞模型,線性模型和似然比等拒識(shí)方法進(jìn)行比較。 第五章在基于半音節(jié)的識(shí)別系統(tǒng):電話語音識(shí)別系統(tǒng)和語音確認(rèn)系統(tǒng)上研究了垃圾模型和在線垃圾模型在任務(wù) /詞表無關(guān)說話驗(yàn)證中的應(yīng)用和改進(jìn)。提出了采用高斯混合垃圾模型和直接從半音節(jié)計(jì)算的在線垃圾似然度, 研究了優(yōu)化計(jì)算在線垃圾似然度競(jìng)爭集的方法。在研究 過程中注意了方法的任務(wù) /詞表無關(guān)性。對(duì)比實(shí)驗(yàn)證明了這些方法的有效性。 第六章研究了多個(gè)信息源的綜合利用方法,包括基于規(guī)則和基于統(tǒng)計(jì)模型的綜合方法。研究了利用 線性模型綜合信息源的方法。 第七章總結(jié)全文并給出對(duì)今后研究工作的展望。 清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 第二章 數(shù)學(xué)與評(píng)價(jià) 統(tǒng)計(jì)假設(shè)檢驗(yàn)(和貝頁斯決策分析(說話驗(yàn)證和置信度估計(jì)的數(shù)學(xué)基礎(chǔ)。對(duì)某個(gè)輸入語音 X ,語音識(shí)別器( 出識(shí)別結(jié)果 C;這個(gè)結(jié)果實(shí)際上是關(guān)于輸入語音的一個(gè)假設(shè)( )(P )假)拒絕00|() 。而對(duì)此結(jié)果驗(yàn)證( 主要手段就是統(tǒng)計(jì)假設(shè)檢驗(yàn)( 。另一方面,如果將識(shí)別器的輸出看成是驗(yàn)證器(的輸入,那么驗(yàn)證器 實(shí)際是一個(gè)分類器( ,判斷輸入究竟屬于類 1(正確)還是類 0(錯(cuò)誤) 。因此,說話驗(yàn)證又可以看成是模式分類( 題。而貝頁斯決策分析正是模式分類的統(tǒng)計(jì)數(shù)學(xué)基礎(chǔ)。本章將介紹說話驗(yàn)證的數(shù)學(xué)原理和評(píng)價(jià)方法,分 析兩個(gè)不同數(shù)學(xué)角度的內(nèi)在聯(lián)系,最后給出本論文將要用到的驗(yàn)證評(píng)價(jià)方法和研究采用的識(shí)別系統(tǒng)。 計(jì)假設(shè)檢驗(yàn) 根據(jù) 設(shè)檢驗(yàn)理論( 976), 可以將說話驗(yàn)證歸結(jié)為這樣一個(gè)統(tǒng)計(jì)假設(shè)檢驗(yàn)問題。 零假設(shè) ( 識(shí)別結(jié)果正確。與之對(duì)應(yīng)是備選假設(shè) ( 識(shí)別結(jié)果錯(cuò)誤。 說話驗(yàn)證就是對(duì)零假設(shè)進(jìn)行檢驗(yàn)。 根據(jù)假設(shè)本身的性質(zhì)(真 /假)以及假設(shè)檢驗(yàn)的結(jié)果(接受/拒絕) ,有以下四種結(jié)果出現(xiàn):正確接受( 真),錯(cuò)誤拒絕( 真) ,錯(cuò)誤接受( 假)和正確拒絕( 假) 。因此假設(shè)檢驗(yàn)可能出現(xiàn)兩種錯(cuò)誤:錯(cuò)誤拒絕 ( 錯(cuò)誤接受( ,分別稱為第一類錯(cuò)誤和第二類錯(cuò)誤。出現(xiàn)兩類錯(cuò)誤的概率分別為 和 。假設(shè)檢驗(yàn)的勢(shì) (為。設(shè)輸入識(shí)別器的語音為 )|(0而分布 與)|(1知,根據(jù) 理,當(dāng) )=|108清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 時(shí)接受零假設(shè) 是優(yōu)的。 所謂優(yōu)是指使在使 受限的情況下, 檢驗(yàn)的勢(shì) (所有可能檢驗(yàn)中最大的。 0H )I(其中 稱為檢驗(yàn)的臨界閾值( 取不同值,假設(shè)檢驗(yàn)將工作在不同的工作點(diǎn) ( 從似然比建設(shè)檢驗(yàn)的角度來看說話驗(yàn)證,對(duì)不同說話驗(yàn)證統(tǒng)計(jì)方法,實(shí)際是從不同的角度來估計(jì)分布 )|(0 )|(1 表 2受 0H 拒絕 0 N(A, T) N(R, T) 0H 假 N(A, F) N(R, F) 設(shè)我們有 N 個(gè)識(shí)別結(jié)果來評(píng)測(cè)檢驗(yàn)算法,對(duì)應(yīng)不同識(shí)別結(jié)果性質(zhì)和不同檢驗(yàn)結(jié)果的樣本數(shù)見(見表 2 其中 表示 為 Y( T/F)且假設(shè)檢驗(yàn)結(jié)果為 X( A/R) 的測(cè)試樣本數(shù), 而樣本總數(shù)),( (),(),(),( + += 。用這些樣本可以估計(jì)檢驗(yàn)算法的性能參數(shù)。 系統(tǒng)的 (無條件)錯(cuò)誤率 ( 計(jì)為: ( ,(+; =類似,可以分別估計(jì)兩類錯(cuò)誤率如下 : 錯(cuò)誤拒絕率( : ),(),(),(|()I(00= 真)拒絕 ; 錯(cuò)誤接受率( : ),(),(),(|()0= 假)接受 ; 二者統(tǒng)稱為 條件錯(cuò)誤率 ( 而檢驗(yàn)的勢(shì)為 ),(),(),(|()00= 假)拒絕 。 9清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 頁斯決策分析 換個(gè)角度看說話驗(yàn)證。 設(shè)識(shí)別器給出識(shí)別結(jié)果 H 以及識(shí)別過程中得到的特征矢量 S S。那么驗(yàn)證器的任務(wù)是根據(jù) ,把 H 分類為正確或錯(cuò)誤,分別對(duì)應(yīng)假設(shè)檢驗(yàn)中的接受和拒絕。這樣分類也有四種錯(cuò)誤。從這個(gè)角度來看,不同的說話驗(yàn)證方法實(shí)際是從不同的角度來估計(jì)分布 )|( 確 )| 或者是)|( 確 )|( 誤與 。設(shè)將正確識(shí)別拒絕的損失為 A,將錯(cuò)誤識(shí)別接受的損失為 B,正確的拒絕和接受損失為 0。如下表 表 2受 拒絕 正確 0=(接受,正確) A=(拒絕,正確) 錯(cuò)誤 B=(接受,錯(cuò)誤) 0=(拒絕,錯(cuò)誤) 設(shè)對(duì)輸入 S ,采取的決策(接受 /拒絕)為 )(則驗(yàn)證的條件期望風(fēng)險(xiǎn)為 )|()|(),()|)( 誤)正確正確) += ),S 錯(cuò)誤 )|()|( 誤接受 = )|()|( 確拒絕 = 驗(yàn)證的期望風(fēng)險(xiǎn)為 = ()|)( ,理想的驗(yàn)證決策應(yīng)該使 果在進(jìn)行每個(gè)驗(yàn)證決策時(shí),都使條件期望風(fēng)險(xiǎn)最小,就能使在對(duì)所有 驗(yàn)證時(shí),其期望風(fēng)險(xiǎn)也最小。這就是最小 風(fēng)險(xiǎn)貝頁斯決策。因此理想的驗(yàn)證決策是, |()|()|()|( 確拒絕錯(cuò)誤接受 =11)|( 正確 時(shí), 當(dāng) 接受識(shí)別結(jié)果。將上式的右邊用域值 代替,對(duì)應(yīng)不同的閾值,也會(huì)有不同的驗(yàn)證工作點(diǎn)。當(dāng)?shù)谝活愬e(cuò)誤的代價(jià)相對(duì)第二類錯(cuò)誤的代價(jià)越大, 越小;反之, 越大。10清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 直觀地看,當(dāng)錯(cuò)誤接受的代價(jià)相對(duì)大時(shí),要驗(yàn) 證接受一個(gè)識(shí)別結(jié)果就困難,接受的條件就越苛刻。 從貝頁斯決策的角度來看說話驗(yàn)證,實(shí)際上是對(duì) S 估計(jì) )|( 確 。 系 可以觀察從似然比假設(shè)檢驗(yàn)與 從貝頁斯決策角度解決說話驗(yàn)證問題的聯(lián)系。 )()|()(),()()()|()|(01010111)|()(),()()()|()|(10101000= )()()|()|(01錯(cuò)誤正確當(dāng) 與 互補(bǔ)時(shí),有0(1)(01= ;而 正是識(shí)別系統(tǒng)的識(shí)別率 )(0 ,因此有 )1)|()|()|(10=()|= )11()|()|()|()|(101)|( 正確這個(gè)公式顯示出兩個(gè)解決問題不同角度的內(nèi)在聯(lián)系。 話驗(yàn)證的評(píng)價(jià) 統(tǒng)計(jì)假設(shè)檢驗(yàn)在信號(hào)檢測(cè)理論中早就得到廣泛應(yīng) 用。因此,說話驗(yàn)證的評(píng)價(jià)與信號(hào)檢測(cè)的評(píng)價(jià) (原理上是完全一致的。說話驗(yàn)證器作為假設(shè)檢驗(yàn)器,與信號(hào)檢測(cè)器一樣,可以在不同的工作點(diǎn)上工作 。因此,評(píng)價(jià)其特性就要考慮所有的工作點(diǎn)的特性,也就是工作點(diǎn)組成 的曲線特性??紤]整個(gè)工作特性曲線的評(píng)價(jià)方法稱為動(dòng)態(tài)方法,而只考慮曲線 上特殊點(diǎn)的方法稱為靜態(tài)方法 /參數(shù)。下面將介紹主要的評(píng)價(jià)方法。 11清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 價(jià)方法 圖 2 受機(jī)工作特性, 線是指以第一類錯(cuò)誤率 為自變量畫出的 (勢(shì))變化曲線;或者以 為自變量畫出的 變化曲線。如圖 2第一種方式給出了四條 線。其中的粗實(shí)線由隨機(jī)接受( 假設(shè)檢驗(yàn)得到,它的含意是:隨機(jī) 接受時(shí),假設(shè)檢驗(yàn)對(duì)零假設(shè)無論真假,拒絕的可能性完全相同。粗虛線是理想的假設(shè)檢驗(yàn)( 性能,總是能 100%地拒絕錯(cuò)誤零假設(shè)。另外兩條細(xì)線由兩個(gè)性能不同的實(shí)際假設(shè)檢驗(yàn)產(chǎn)生。由于它們對(duì)錯(cuò)誤假設(shè)的拒絕率比對(duì)真確零假 設(shè)的要高,它們的性能比隨機(jī)接受好,但比理想情況又差。其中的實(shí)線 對(duì)應(yīng)的假設(shè)檢驗(yàn)又比虛線的好,因?yàn)楫?dāng)對(duì)真確零假設(shè)拒絕率相同情況下,它對(duì)錯(cuò)誤零假設(shè)拒絕率更高。 真)拒絕00|()I( 假)拒絕00|( 受00|() 真)接受00|( (P)I(P )數(shù)與 線密切相關(guān)。它是指在一定區(qū)間 線下的面積。它衡量假設(shè)檢驗(yàn)方法在該區(qū)間中的整體性能。當(dāng)考慮整個(gè)(0 , 1)工作范圍時(shí),隨機(jī)拒絕的 想假設(shè)檢驗(yàn)的 1, 而實(shí)際假設(shè)檢驗(yàn)的 于 1之間。顯而易見,對(duì)于特定的工作范圍, 大,驗(yàn)證的性能越好 測(cè)錯(cuò)誤折衷, 線則是以 為自變量畫出 的變化曲線,并且取對(duì)數(shù)坐標(biāo)的形式。由 線可以確定另一個(gè)重要的性能指標(biāo),等錯(cuò)點(diǎn)( ,即 與 相等時(shí)的工作點(diǎn)。 12清華大學(xué)工學(xué)碩士學(xué)位論文 鐘 林:漢語語音識(shí)別說話驗(yàn)證 較基于不同性能識(shí)別系統(tǒng)的驗(yàn)證 說話驗(yàn)證研究總是在一定的語音識(shí)別系統(tǒng)上展開的。 同樣的識(shí)別系統(tǒng)可以采取不同的驗(yàn)證方法,而同樣的驗(yàn)證方法可以用在不同的識(shí)別系統(tǒng)上。 由于歷史的原因,研究者總是在現(xiàn)有的識(shí)別系統(tǒng)上研究說話驗(yàn)證, 因此導(dǎo)致識(shí)別系統(tǒng)往往不同。而要比較他們提出的說話驗(yàn)證方法,就需 要有一種與識(shí)別系統(tǒng)性能無關(guān)的評(píng)價(jià)方法。 設(shè)隨機(jī)變量 A 為零假設(shè)的性質(zhì)(正確 1/錯(cuò)誤 0) ,隨機(jī)變量 Z 為假設(shè)檢驗(yàn)的結(jié)果(接受 1/拒絕 0) 。二者的互信息為 )|()()|()(),( = )(應(yīng)零假設(shè)性質(zhì)的不確定度,反映假設(shè)檢驗(yàn)的難度。 )11( += 其中 P 為零假設(shè) (識(shí)別結(jié)果) 正確的概率, 即識(shí)別器的識(shí)別率 (精度) ; 顯然當(dāng)時(shí),識(shí)別器越精確,識(shí)別結(jié)果性質(zhì)的不確定度就越小。 5.0p)(H | 加入驗(yàn)證和拒識(shí)后零假設(shè)性質(zhì)的不確定度。 =)()()|()|()|()|( +=0()0|()1()1|()()|()|( +=)(0|()1|()1)(0|()(0|()1)(0|()1|()1|(|( 其中, P 為識(shí)別器精度,而 假)拒絕00|()0|0( I)(|()1|0(00= 真)拒絕 |()0|1(00= 假)接受 真)接受00|()1|1( 它們的估計(jì)方法見本章的 由于驗(yàn)證和拒識(shí)對(duì)零假設(shè)的性質(zhì)做出了判斷,零假設(shè)性質(zhì)的不確定度應(yīng)該減小。驗(yàn)證和拒識(shí)越可靠,減小得就越多。但是,減小的程度還與識(shí)別器自身的性能有關(guān),也就是說,與驗(yàn)證和拒識(shí)任務(wù) 的難度有關(guān)。當(dāng)識(shí)別器性能差時(shí), 大,一個(gè)簡單的驗(yàn)證就使 比 小得多。 因此, 采用互信息 來評(píng)價(jià)驗(yàn))( (;( 鐘 林:漢語語音識(shí)別說話驗(yàn)證 證嚴(yán)重依賴識(shí)別器的性能,即驗(yàn)證任務(wù)的難度。要減小這種依賴,一個(gè)簡單的想法就是用任務(wù)的難度對(duì)驗(yàn)證取得的熵減小歸一化,這樣就得到歸一化互信息(也成為驗(yàn)證的效率( )()|()()()|()()();();(= 其典型的曲線可以參見( 999)。 論文的評(píng)價(jià)方式 本論文研究說話驗(yàn)證在兩方面對(duì)識(shí)別系統(tǒng)的貢獻(xiàn): 通過拒識(shí)提高系統(tǒng)對(duì)合法語音( 識(shí)別精度,即拒識(shí)誤識(shí)( ;通過驗(yàn)證拒識(shí)非法聲響( 。因此,需要從兩個(gè)方面來衡量說話驗(yàn)證的性能。我們把零假設(shè) 錯(cuò)誤的情況分為兩類: 指對(duì)合法語音的誤識(shí),指非法聲響。拒識(shí)后系統(tǒng)對(duì)合法語音的識(shí)別精度( 0接受真 =+=),(),(),(|(100對(duì)非法聲響的拒識(shí)性能可以用對(duì)非法聲響的拒識(shí)率 (衡量: 非法聲響數(shù)拒絕的非法聲響數(shù)非法)拒絕 =+=),(),(),(|(2220)拒絕00|( 關(guān)系是: ),(),(),(),(),(),(),(),(),(),(),(),(),(22212122121+= (),()(),(),(|(2200+= 假)拒絕 1(),(),(|(200= 假)拒絕 其中,驗(yàn)證的(無條件)錯(cuò)誤率, K 為非法語音在測(cè)試語音中所占的比例。 不同的語音識(shí)別任務(wù)面對(duì)的非法聲響在統(tǒng)計(jì)上也不盡相同。 從研究驗(yàn)證方法對(duì)非法聲響拒識(shí)的角度出發(fā), 我們更關(guān)心的是驗(yàn)證方法對(duì)各種可能遇到的非法聲響的拒識(shí)能力,而不是驗(yàn)證方法對(duì)某個(gè)具體識(shí)別任務(wù)上面 臨非法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論