基于.-filler模型的語音關(guān)鍵詞識別_第1頁
基于.-filler模型的語音關(guān)鍵詞識別_第2頁
基于.-filler模型的語音關(guān)鍵詞識別_第3頁
基于.-filler模型的語音關(guān)鍵詞識別_第4頁
基于.-filler模型的語音關(guān)鍵詞識別_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

...wd......wd......wd...xxxx大學(xué)畢業(yè)設(shè)計(jì)〔論文〕任務(wù)書課題名稱基于Filler模型的語音關(guān)鍵詞識別學(xué)生姓名xxxxxxx所在院x系x隊(duì)專業(yè)電子信息工程學(xué)號xxxxxxxxxxx申請學(xué)位級別工學(xué)學(xué)士指位x系x教指姓名xxxxx技術(shù)職務(wù)教授二○一一年二月課題名稱基于Filler模型的語音關(guān)鍵詞識別其他指導(dǎo)教師姓名、單位xxxxxxx課題主要任務(wù)與要求:語音關(guān)鍵詞識別是語音識別的一種特殊情況,是處理自然語言、實(shí)現(xiàn)人機(jī)語音交互有效的解決方案之一,并成為語音識別領(lǐng)域的另一個(gè)研究熱點(diǎn)。1.了解語音識別根基知識,深入了解語音關(guān)鍵詞識別技術(shù)。2.了解國內(nèi)外對于語音關(guān)鍵詞識別技術(shù)研究的現(xiàn)狀和開展方向。3.掌握基于Filler模型的語音關(guān)鍵詞識別的方法。備注系〔或教研室〕審批意見:課題難易程度適中,理論與實(shí)踐相結(jié)合,適合作為本科畢業(yè)設(shè)計(jì)課題。簽〔章〕2011年2月28日學(xué)院訓(xùn)練部審批意見:簽〔章〕年月日基于Filler模型的語音關(guān)鍵詞識別技術(shù)摘要關(guān)鍵詞識別是語音識別的一個(gè)重要領(lǐng)域。本文對基于filler模型的語音關(guān)鍵詞識別進(jìn)展了研究,它主要應(yīng)用在實(shí)時(shí)的命令詞檢測和對話系統(tǒng)。研究重心為關(guān)鍵詞識別系統(tǒng)的檢出策略和確認(rèn)方法。在基于垃圾模型的關(guān)鍵詞系統(tǒng)中,常利用似然比方法進(jìn)展語音確認(rèn)。研究了一種基于競爭模型的加權(quán)似然比融合語音確認(rèn)方法,通過聯(lián)合目標(biāo)模型與其競爭模型的似然比對子詞的置信度進(jìn)展估計(jì),引入了最小確認(rèn)錯(cuò)誤準(zhǔn)則訓(xùn)練融合的權(quán)重系數(shù)。實(shí)驗(yàn)說明該方法優(yōu)于傳統(tǒng)的似然比方法。通過分析關(guān)鍵詞檢測系統(tǒng)的置信特征,選擇動(dòng)態(tài)垃圾得分、似然比和駐留概率等特征計(jì)算關(guān)鍵詞候選的置信度,這些特征的組合能夠明顯提高系統(tǒng)的拒識性能。關(guān)鍵詞:關(guān)鍵詞識別,filler模型,似然比AbstractKeywordsrecognitionisanimportantareainthespeechrecognition.Inthispaper,weinvestigatefillermodelbasedkeywordrecognition,whichismainlyusedinreal-timevoice-commandanddialoguesystems.Thefocusofourresearchisthekey-worddetectionalgorithmandspeechverificationmethodsinthekeywordrecognitionsystem.Thelikelihoodratiotest-methodisoftenusedforutteranceverificationproblem.Acompetingmodelwasbasedonweightedlikelihoodratioverificationmethodisstudied,wherethesub-wordconfidencemeasureisestimatedbycombinationoflikelihoodratioscoresoftargetmodelwithitscompetingmodels,andtheweightconfidentsarederivedbyminimumverificationerrorcriteriatraining.Experimentresultsshowthatthelikelihoodratioapproachisbetterthantraditionalmethods.Byanalyzingthecharacteristicsofconfidence,weselectthedynamicgarbagescore,likelihoodratioandthedurationprobability.Thecombinationofthesefeaturescansignificantlyimprovethefalserejectionperformance.Keywords:Keywordsrecognition,fillermodel,likelihoodratio目錄摘要[5]:類型I錯(cuò)誤:錯(cuò)誤拒絕(FalseReject,F(xiàn)R):系統(tǒng)沒有檢測到語音中應(yīng)該出現(xiàn)的關(guān)鍵詞;類型Ⅱ錯(cuò)誤:錯(cuò)誤承受(FalseAlarm,F(xiàn)A):系統(tǒng)檢測到的關(guān)鍵詞在語音中沒有出現(xiàn),是假冒的關(guān)鍵詞。顯然,漏報(bào)減少就會導(dǎo)致虛警增加,反之亦然。在關(guān)鍵詞檢測系統(tǒng)中,一般都是盡可能多地檢出關(guān)鍵詞候選,然后通過置信度打分進(jìn)展據(jù)識分析,高于置信度門限的候選承受,低于門限的拒絕。因此關(guān)鍵詞檢測系統(tǒng)的性能除了取決于檢出模塊外,也嚴(yán)重依賴置信度的評估方法。系統(tǒng)往往調(diào)整置信度門限,使關(guān)鍵詞檢測系統(tǒng)的兩類錯(cuò)誤之間之問有一個(gè)折衷,這個(gè)門限稱為系統(tǒng)的工作點(diǎn)。在關(guān)鍵詞系統(tǒng)中,定義衡量類型I類錯(cuò)誤的指標(biāo)為拒識率,類型Ⅱ錯(cuò)誤的指標(biāo)為誤警率。拒識率=誤警率=其中,待檢關(guān)鍵詞總數(shù)是指給定的關(guān)鍵詞表中的關(guān)鍵詞總數(shù)。C是一個(gè)常數(shù),其作用是使誤警率和拒識率處于同一尺度,本文評測規(guī)定C=1??梢允褂脵z出率來評價(jià)關(guān)鍵詞的檢測性能:檢出率=在關(guān)鍵詞檢測系統(tǒng)中,如果從低到高調(diào)整置信度判決門限,就可以得到一條誤警率—拒識率變化曲線圖,稱之為檢測錯(cuò)誤折中曲線(DetectionErrorTradeoff,DET),如以下列圖所1-3所示?!窭碚摰儒e(cuò)誤率●理論等錯(cuò)誤率圖1-3DET曲線圖DET曲線反映拒識率隨著誤警率變化的趨勢,在置信度門限取某特定值時(shí),可以得到誤警率=拒識率,該點(diǎn)稱為等錯(cuò)誤率〔EER〕點(diǎn)。DET曲線反映系統(tǒng)的綜合性能,DET下方所圍的面積越小越好,EER反映系統(tǒng)工作點(diǎn)的情況,EER越小說明系統(tǒng)工作點(diǎn)性能越好。一般情況下,系統(tǒng)的工作點(diǎn)是隨需求而定的,是在誤警率和拒識率的一個(gè)折中,實(shí)際應(yīng)用時(shí)應(yīng)根據(jù)DET曲線性能,結(jié)合實(shí)際需求選擇適宜的置信度門限。由于誤警率和拒識率與置信度門限有關(guān),因此,DET曲線除了可以度量檢測系統(tǒng)的性能,也可用來比擬置信度計(jì)算方法的優(yōu)劣。召回率和查準(zhǔn)率是信息檢索的重要評估方法,也可以用來評估關(guān)鍵詞系統(tǒng)的檢出性能,對整個(gè)關(guān)鍵詞檢出結(jié)果集的質(zhì)量進(jìn)展量化評價(jià)。召回率(Recall):又稱查全率,對某一個(gè)查詢項(xiàng),檢測出的正確關(guān)鍵詞個(gè)數(shù)與參考關(guān)鍵詞總數(shù)的比值。查準(zhǔn)率(Precision):對某一個(gè)查詢項(xiàng),檢出的正確關(guān)鍵詞個(gè)數(shù)占檢出的關(guān)鍵詞總數(shù)的比值。對關(guān)鍵詞檢出結(jié)果按照置信度得分由高到低排序,通過11點(diǎn)標(biāo)準(zhǔn)查全率下的查準(zhǔn)率曲線來觀察系統(tǒng)的性能,如圖1-4所示。這11點(diǎn)對應(yīng)查全率分別為(0%,10%,20%,…,100%)時(shí)的查準(zhǔn)率,缺值局部取附近的結(jié)果進(jìn)展插值平滑。平均查準(zhǔn)率是這11個(gè)點(diǎn)的算術(shù)平均,而平均召回率對應(yīng)曲線在平均查準(zhǔn)率處的結(jié)果。圖1-4召回率-準(zhǔn)確率曲線圖1.4關(guān)鍵詞識別與連續(xù)語音識別的關(guān)系首先,關(guān)鍵詞識別的任務(wù)是在連續(xù)的話語中識別出給定的詞,因而它首先是一種連續(xù)語音識別;但它又不要求把整個(gè)的語音流全部識別出來,因此可以說關(guān)鍵詞識別是連續(xù)語音識別的一個(gè)分支。其次,對發(fā)音人的要求又不可能像對連續(xù)語音識別發(fā)音人那么高,因此關(guān)鍵詞識別又不同于連續(xù)語音識別??紤]如下五個(gè)方面的差異,KWR與CSR有時(shí)又被當(dāng)作兩個(gè)不同的問題來處理:(1)模型的訓(xùn)練問題:CSR模型往往要經(jīng)過的不同發(fā)音人(尤其是可以包括使用者在內(nèi))的大量數(shù)據(jù)進(jìn)展訓(xùn)練。KWR則不大可能讓被識別對象對其模型進(jìn)展大量的訓(xùn)練。(2)詞匯表問題:CSR要求每個(gè)待識別的詞(或單元)必須是一個(gè)有限詞表中的一個(gè),它的詞匯表是封閉式的;而KWR允許輸入的語音包含關(guān)鍵詞詞表外的任何詞,它的詞表是開放式的。(3)語法或詞法問題:CSR要求輸入語音中的詞序列受限于一個(gè)有限狀態(tài)語法網(wǎng)絡(luò),也就是說它要求輸入嚴(yán)格符合它所假定的一組句式模型;而KWR則無此要求,它不需要輸入符合某種句式模型。(4)發(fā)音人的態(tài)度:對一個(gè)CSR系統(tǒng),發(fā)音人能夠意識到自己正在與機(jī)器進(jìn)展交流,希望所說的話能夠被機(jī)器正確識別,故而他們一般持合作的態(tài)度,也能夠根據(jù)系統(tǒng)的提示重新發(fā)音;但在KWR系統(tǒng)中,說話人常常是毫無準(zhǔn)備的,多數(shù)情況是處于自然會話的發(fā)音方式,也不太可能重復(fù)不太清楚的語句。(5)環(huán)境:CSR系統(tǒng)由于用戶的配合往往在比擬安靜的環(huán)境中使用,而KWR則可能遇到噪音大的環(huán)境。由于這些差異,CSR的錯(cuò)誤率用百分之幾衡量,而KWR的(誤警和漏識)錯(cuò)誤率,則要高出一個(gè)數(shù)量級,常常用百分之十幾來衡量。1.5論文研究的內(nèi)容論文對關(guān)鍵詞識別技術(shù)的假設(shè)干問題進(jìn)展了研究,論文的研究工作涉及領(lǐng)域是基于垃圾模型的關(guān)鍵詞檢測技術(shù)。圖1-5給出了作者的研究思路和方法?;诶P偷年P(guān)鍵詞檢測技術(shù)主要應(yīng)用于對話系統(tǒng)、命令控制和特定領(lǐng)域信息咨詢,系統(tǒng)要求實(shí)時(shí)性高、誤警要少。作者對影響系統(tǒng)性能的因素做了分析,設(shè)計(jì)了一個(gè)基于垃圾模型的關(guān)鍵詞檢測系統(tǒng)。為了增強(qiáng)系統(tǒng)的拒識能力,通過兩種方法來提高確認(rèn)效果,從算法上對傳統(tǒng)的似然比確認(rèn)方法進(jìn)展了改良,提出了基于競爭模型的加權(quán)似然比融合語音確認(rèn)方法。關(guān)鍵詞識別技術(shù)關(guān)鍵詞識別技術(shù)基于垃圾模型的關(guān)鍵詞檢測技術(shù)系統(tǒng)設(shè)計(jì)確認(rèn)性能不佳基于競爭模型的加權(quán)似然比融合語音確認(rèn)方法聯(lián)合多特征確認(rèn)〔似然比,駐留概率,OLG得分〕提高了系統(tǒng)語音確認(rèn)效果圖1-5論文的研究思路和研究內(nèi)容由于理解一句話,可以從多個(gè)層次、多個(gè)角度去理解,從這個(gè)角度出發(fā)我們選擇了關(guān)鍵詞駐留概率和OLG得分,以及似然比得分來提高系統(tǒng)置信特征,提高了系統(tǒng)的語音確認(rèn)效果。1.6論文構(gòu)造安排本論文共分為四章。第一章,緒論,主要介紹關(guān)鍵詞識別系統(tǒng)的產(chǎn)生和現(xiàn)狀及研究意義和內(nèi)容,以及關(guān)鍵詞識別與連續(xù)語音識別的聯(lián)系。第二章,基于垃圾模型的關(guān)鍵詞檢測模塊的設(shè)計(jì),首先介紹了基于垃圾模型的關(guān)鍵詞檢出原理和常用方法,然后對影響系統(tǒng)性能的因素做了分析。設(shè)計(jì)了一個(gè)基于垃圾模型的基線系統(tǒng)。第三章,對垃圾模型中關(guān)鍵詞確認(rèn)方法進(jìn)展了研究,提出了一種基于競爭模型的加權(quán)似然比融合語音確認(rèn)方法,通過聯(lián)合目標(biāo)模型與其競爭模型的似然比對子詞的置信度進(jìn)展估計(jì),引入了最小確認(rèn)錯(cuò)誤準(zhǔn)則訓(xùn)練融合的權(quán)重系數(shù)。在置信預(yù)測特征選擇方面,介紹了關(guān)鍵詞動(dòng)態(tài)垃圾得分與駐留概率置信特征,并聯(lián)合這兩個(gè)特征與似然比計(jì)算候選關(guān)鍵詞的置信度。第四章,總結(jié)與展望,對論文的所有工作進(jìn)展總結(jié),并對進(jìn)一步的研究提出幾點(diǎn)建議。第二章基于Filler模型的關(guān)鍵詞檢測技術(shù)基于Filler模型的關(guān)鍵詞檢測(KeywordSpotting,KWS)系統(tǒng)可以說是最早最經(jīng)典的關(guān)鍵詞識別系統(tǒng),在實(shí)時(shí)性要求高的場合,如人機(jī)對話,語音撥號等環(huán)境,研究人員傾向于使用這種關(guān)鍵詞檢測系統(tǒng)。只需要從連續(xù)語流中檢測一組給定的關(guān)鍵詞,而不需要對所有的語音進(jìn)展識別。這類系統(tǒng)往往需要比擬快速地檢測出需要的詞,而且要具有一定的據(jù)識能力,減少系統(tǒng)的誤操作或者誤報(bào)。對這類弱語法約束條件下的置信度計(jì)算,主要是利用聲學(xué)置信度,在要求比擬高的情況下,也可以參加一些語法約束信息進(jìn)展輔助判別。2.1基于filler模型的關(guān)鍵詞檢出原理在基于垃圾模型的關(guān)鍵詞系統(tǒng)中,垃圾模型用來吸收關(guān)鍵詞之外的各種語言現(xiàn)象,包括集外詞(OOV),常見的非語言現(xiàn)象(背景噪聲、咳嗽、喘氣)。關(guān)鍵詞檢測系統(tǒng)的任務(wù)是從連續(xù)語流中檢測出給定的關(guān)鍵詞,并給出相應(yīng)的置信度,一般不需要對全文進(jìn)展識別。從解決關(guān)鍵詞檢測問題本身來說,我們一般有以下三種根本方法:(1)對輸入語音用LVCSR系統(tǒng)進(jìn)展全文識別,給出相應(yīng)的文本結(jié)果,再從這些文本結(jié)果中檢索給定關(guān)鍵詞。這種方法的優(yōu)點(diǎn)在于可以充分利用語言模型知識,對誤報(bào)的壓制能力比擬強(qiáng);缺點(diǎn)在于速度比擬慢,對集外詞缺乏靈活性,受語法外〔Out-Of-Grammar,OOG〕局部語音的影響比擬大。這種方法比擬適合于實(shí)時(shí)性要求不高,集外詞比擬少的場合。(2)用關(guān)鍵詞加上垃圾網(wǎng)絡(luò)的方式檢索關(guān)鍵詞,這種方法速度比擬快,對垃圾詞不敏感,檢出率比擬高;缺點(diǎn)在于只能用聲學(xué)信息檢測關(guān)鍵詞,誤報(bào)比擬多,更換詞表時(shí)需要重新進(jìn)展聲學(xué)匹配。(3)用音素或音節(jié)識別器構(gòu)建音素或音節(jié)的詞圖,再根據(jù)相似度到詞圖上檢索需要的關(guān)鍵詞,這種方法相當(dāng)于上述兩種方法的折衷,優(yōu)點(diǎn)是相比照擬靈活,而且更換詞表不需要重新進(jìn)展聲學(xué)匹配,缺點(diǎn)是對詞圖的容錯(cuò)能力要求比擬高,比照擬短的關(guān)鍵詞檢測不利。從上面的三種方法比照來看,LVCSR的系統(tǒng)不是很適合關(guān)鍵詞檢測的任務(wù),缺乏靈活性,而且關(guān)鍵詞通常是人名、地名等出現(xiàn)頻率不是很高的詞,甚至是集外詞。因此,目前的關(guān)鍵詞檢測系統(tǒng)大多采用后面兩種框架。根據(jù)允許輸入語音的自由程度,KWS可以分為輸入完全符合規(guī)則語法的系統(tǒng)、無限制的系統(tǒng)和介于二者之間的系統(tǒng)。Keyword1Keyword1Keyword2KeywordMFiller1FillerN關(guān)鍵詞模組垃圾模型模組關(guān)鍵詞檢測系統(tǒng)搜索網(wǎng)絡(luò)類型IFiller1Filler1Filler2Filler3FillerM。。。。。。Keyword1Keyword2Keyword3KeywordN。。。。。。Filler1Filler2Filler3FillerM。。。。。。關(guān)鍵詞HMM串垃圾模型模組垃圾模型模組關(guān)鍵詞模組關(guān)鍵詞檢測系統(tǒng)搜索網(wǎng)絡(luò)類型II圖2-1基于垃圾模型的關(guān)鍵詞檢測系統(tǒng)搜索網(wǎng)絡(luò)圖2-1(a)和圖2-1(b)給出了兩種常用的基于垃圾模型的KWS系統(tǒng)搜索網(wǎng)絡(luò),前者用于檢出無限制語音流中可能含有的任意多個(gè)關(guān)鍵詞。而后面加了一個(gè)約束,僅允許一句話中出現(xiàn)一個(gè)關(guān)鍵詞,適合于簡單的命令控制場合或語音命令菜單。理論上說,關(guān)鍵詞也可以從垃圾模組的識別基元組合出來,因此,為了檢測出關(guān)鍵詞,防止關(guān)鍵詞被垃圾模型吞沒,必須對垃圾網(wǎng)絡(luò)加上一定的懲罰或?qū)﹃P(guān)鍵詞網(wǎng)絡(luò)進(jìn)展獎(jiǎng)賞,通過調(diào)整這個(gè)懲罰或者獎(jiǎng)勵(lì)的權(quán)重,就可以調(diào)節(jié)系統(tǒng)的檢出率,但同時(shí)誤報(bào)率也會發(fā)生相應(yīng)變化,需要通過置信度評估來拒絕掉假冒的關(guān)鍵詞,此過程稱為關(guān)鍵詞確認(rèn)??驁D中垃圾模型模組有兩個(gè)根本作用:一是作為填充網(wǎng)絡(luò)〔Fillers〕對非關(guān)鍵詞局部語音進(jìn)展建模和過濾;二是作為背景模型,對關(guān)鍵詞的聲學(xué)得分進(jìn)展歸一化,計(jì)算關(guān)鍵詞的聲學(xué)置信度。理想的垃圾模型應(yīng)有足夠的能力吸收除關(guān)鍵詞之外所有剩余的語音信號,同時(shí)與關(guān)鍵詞模型之間又有足夠遠(yuǎn)的距離,使其不具備競爭關(guān)鍵詞所對應(yīng)的語音段的能力。根據(jù)垃圾模型的來源不同,關(guān)鍵詞檢出算法可以分為三類:明確垃圾模型、動(dòng)態(tài)垃圾模型、滑動(dòng)窗方法。(1)明確垃圾模型。明確垃圾模型就是要對垃圾模型模組的Filler〔補(bǔ)白〕建設(shè)實(shí)際的物理模型。建設(shè)模型的方法可以細(xì)分為兩種:一種是子詞補(bǔ)白,補(bǔ)白與關(guān)鍵詞共享同一套子詞單元模型集,補(bǔ)白模型由子詞模型拼接組合而成。子詞一般為比關(guān)鍵詞更小的發(fā)音單元,如聲韻母和音節(jié),關(guān)鍵詞則是這些小的發(fā)音單元的串接,通過調(diào)整關(guān)鍵詞的獎(jiǎng)賞分?jǐn)?shù)來區(qū)別關(guān)鍵詞和補(bǔ)白模型。子詞補(bǔ)白方法在實(shí)際使用中修改關(guān)鍵詞集的定義時(shí)無須重新訓(xùn)練子詞模型,具有較好的靈性。缺點(diǎn)則是補(bǔ)白模型多、算法復(fù)雜度高。另外一種是集外補(bǔ)白,專門為Filler建設(shè)HMM或GMM聲學(xué)模型。集外補(bǔ)白模型完全獨(dú)立于關(guān)鍵詞所對應(yīng)的聲學(xué)模型集,可以只包含一個(gè)通用的補(bǔ)白模型,也可以是假設(shè)干個(gè)補(bǔ)白模型構(gòu)成的集合。在訓(xùn)練集外補(bǔ)白模型時(shí),將訓(xùn)練數(shù)據(jù)中除關(guān)鍵詞之外的額外輸入分為假設(shè)干類,其中的每一類訓(xùn)練一個(gè)模型。集外補(bǔ)白方法的優(yōu)點(diǎn)是構(gòu)造簡單、算法復(fù)雜度低,尤其在訓(xùn)練數(shù)據(jù)較少的應(yīng)用或嵌入式系統(tǒng)中用途較廣,但由于其補(bǔ)白模型比擬簡單,對非關(guān)鍵詞的擬合能力不如子詞補(bǔ)白。(2)在線垃圾(OnlineGarbage,OLG)模型。對于圖2-1(a),如果把垃圾模型模組拿掉,就可以構(gòu)成基于OLG的KWS系統(tǒng)。OLG模型是虛擬的模型,OLG模型的思想是在Viterbi搜索過程中,對每一個(gè)語音幀,計(jì)算所有存活于關(guān)鍵詞的語音識別單元的似然分?jǐn)?shù),識別單元可以選音素、狀態(tài),對每一幀語音,OLG的得分是該幀信號對應(yīng)的N個(gè)最優(yōu)匹配單元的平均分,在這種方式下,OLG不是最正確的匹配者,但肯定屬于較優(yōu)匹配者,只有當(dāng)一段語音同關(guān)鍵詞比擬匹配時(shí),關(guān)鍵詞的整體成績才可望在與OLG的競爭下勝出。和明確垃圾模型相比,OLG具有較好的魯棒性。這是因?yàn)?,在噪音環(huán)境下時(shí),對于一段語音,所有的HMM模型都匹配不好,打分都低了,最終導(dǎo)致在線垃圾模型的得分也相應(yīng)降低。而在明確垃圾模型的情況下,所有的模型打分都不準(zhǔn)確,混淆子詞的打分很容易超過目標(biāo)子詞,從而導(dǎo)致關(guān)鍵詞檢測系統(tǒng)的性能下降,降低了系統(tǒng)的魯棒性。實(shí)驗(yàn)證明,當(dāng)關(guān)鍵詞個(gè)數(shù)很少時(shí),OLG模型的性能會變得很差。另外,由于沒有真正對集外詞發(fā)音建模,在線垃圾模型的時(shí)間對齊的效果不如明確垃圾模型。(3)滑動(dòng)窗算法。這種算法不使用補(bǔ)白模型,而是基于這樣的思想:即一開始從語音數(shù)據(jù)的第一個(gè)點(diǎn)開場進(jìn)展搜索,在得到結(jié)果后再選擇下一個(gè)搜索起點(diǎn)進(jìn)行下一輪搜索,直至認(rèn)為沒有可能再出現(xiàn)關(guān)鍵詞為止。由于可以從語音的任意起點(diǎn)開場搜索,這種方法的好處在于最大限度地提高了關(guān)鍵詞的檢出率,但同時(shí)也帶來誤警率較高,運(yùn)算量大等問題,所以不如前兩種方法應(yīng)用廣泛。2.2影響關(guān)鍵詞系統(tǒng)性能的因素在基于垃圾模型的KWS系統(tǒng)中,影響其系統(tǒng)性能的因素主要有:(1)聲學(xué)模型的選取。由于不像LVCSR存在語言模型的指導(dǎo),聲學(xué)模型對KWS系統(tǒng)影響至關(guān)重要。從模式識別的角度來看,聲學(xué)基元建模除了描述數(shù)據(jù)中所蘊(yùn)含的反響其本質(zhì)的分類信息,還要增加模型間的區(qū)分能力,才能獲得較好的分類效果。傳統(tǒng)聲學(xué)模型訓(xùn)練采用基于最大似然準(zhǔn)則(MaximumLikelihoodEstimate,MLE)的訓(xùn)練方法,算法比擬成熟,語音訓(xùn)練時(shí)有快速算法。但MLE只使用目標(biāo)模型自身的數(shù)據(jù)訓(xùn)練,忽略了模型之間的區(qū)分性,因此這種方法并不一定能夠獲得最正確的分類性能。對于實(shí)際語音信號來說,其分布往往不滿足高斯分布的假設(shè),因此為了提高聲學(xué)模型的區(qū)分能力,可以采用區(qū)分性訓(xùn)練方法,如基于最大互信息(MaximumMutualInformationEstimation,MMIE)的訓(xùn)練方法、基于最小分類誤差準(zhǔn)則(MinimumClassificationError,MCE〕的訓(xùn)練方法、基于最小音素錯(cuò)誤率(MinimumPhoneError,MPE)的訓(xùn)練方法等。其中,MMIE通過最大化所有句子的期望辨識率來優(yōu)化模型參數(shù)。MCE通過直接最小化損失函數(shù),到達(dá)最小化分類錯(cuò)誤的目標(biāo)。MPE最大化所有句子的期望辨識率,強(qiáng)調(diào)音素層次的正確率,通過最大化所有可能語句的音素正確率,到達(dá)最大化所有句子辨識率的效果。值得一提的是,JiangHui最近提出了最大分類邊界(LargeMarginTraining)HMM,該方法利用支持向量機(jī)思想,通過最大化目標(biāo)模型與競爭模型的分類邊界獲取比MCE更好的泛化能力。在關(guān)鍵詞檢測系統(tǒng)中,補(bǔ)白模型的HMM的對系統(tǒng)的影響也很大,在普通話KWS設(shè)計(jì)方面,鄭方在HarkMan關(guān)鍵詞檢測系統(tǒng)的研究中指出:補(bǔ)白采用音節(jié)建模要優(yōu)于聲韻母建模和音素。在集外補(bǔ)白模型訓(xùn)練方面,嚴(yán)斌峰提出了基于數(shù)據(jù)驅(qū)動(dòng)的改良合并分級聚類算法的補(bǔ)白模型訓(xùn)練方法,首先通過聚類對所有的關(guān)鍵詞模型(HMM)進(jìn)展分類,然后對某一關(guān)鍵詞,找出與其同類的其他所有關(guān)鍵詞對應(yīng)的語音樣本,通過聚類算法訓(xùn)練出該關(guān)鍵詞的補(bǔ)白模型。陸正中把集外補(bǔ)白模型按照發(fā)音特點(diǎn)劃分為13類,每一類聚類形成一個(gè)HMM模型,以提高解碼速度。在模型構(gòu)造方面,鄭方等人提出的從左向右可跳轉(zhuǎn)的補(bǔ)白模型,如圖2-2所示,通過多尺度來吸收集外詞。112N……Sink圖2-2從左向右可跳轉(zhuǎn)的補(bǔ)白模型(2)網(wǎng)絡(luò)轉(zhuǎn)移系數(shù)的選擇。通過調(diào)節(jié)網(wǎng)絡(luò)轉(zhuǎn)移權(quán)值可以檢測出關(guān)鍵詞,網(wǎng)絡(luò)轉(zhuǎn)移權(quán)值其實(shí)是給系統(tǒng)增加相應(yīng)的語言模型得分,鄭方通過訓(xùn)練關(guān)鍵詞和Filler轉(zhuǎn)移的bigram語法提高關(guān)鍵詞的檢測率。轉(zhuǎn)移權(quán)值與關(guān)鍵詞的長度有關(guān),INRIA對轉(zhuǎn)移系數(shù)函數(shù)進(jìn)展了研究,比擬了幾種轉(zhuǎn)移權(quán)值函數(shù)的性能。通常,網(wǎng)絡(luò)轉(zhuǎn)移系數(shù)需要人工來調(diào)節(jié)。防止人工調(diào)整的一個(gè)方法是采用不同尺度聲學(xué)模型,以較精細(xì)的聲學(xué)模型描述關(guān)鍵詞的HMM,以較粗的聲學(xué)模型描述非關(guān)鍵詞的HMM,這樣可以防止關(guān)鍵詞被Filler模型吞并,但這種方法對聲學(xué)建模精度要求比擬苛刻。(3)發(fā)音模糊現(xiàn)象實(shí)際發(fā)音和訓(xùn)練語音有一定差異,由于發(fā)音不標(biāo)準(zhǔn)容易導(dǎo)致系統(tǒng)檢測率低,可以通過擴(kuò)大關(guān)鍵詞表來提高魯棒性,例如要檢測“hunan〞(湖南),可以在關(guān)鍵詞表中增加“funan〞來增加系統(tǒng)對略帶口音的普通話發(fā)音的適應(yīng)能力。除了可以從字典擴(kuò)展模糊發(fā)音,還可以從模型級入手,建設(shè)嵌入式多模板(EMM),對各種個(gè)性特征如口音、上下文關(guān)聯(lián)信息等進(jìn)展機(jī)器劃分,在詞法樹中利用模糊弧分裂技術(shù),識別時(shí)自動(dòng)地把同一語音的各種不同情況分開。(4)關(guān)鍵詞的長度對系統(tǒng)的影響關(guān)鍵詞的長度對檢測性能影響比擬大,通常關(guān)鍵詞越長,檢出率越高,梁家恩在2005年863連續(xù)語音開發(fā)集測得三字詞的誤報(bào)率比兩字詞低10%以上。在限定領(lǐng)域中,基于規(guī)則語法的關(guān)鍵詞識別系統(tǒng)的識別能力好于無規(guī)則的KWS系統(tǒng),其原因就是由于長時(shí)段語句(如句子)比詞更加穩(wěn)定,通過語法規(guī)則無形中延伸了關(guān)鍵詞的長度,從而提高了關(guān)鍵詞的檢出能力。在對話系統(tǒng)中,Kawahar提出用“Keyphrase〞的方法來進(jìn)展關(guān)鍵詞檢出。梁家恩通過關(guān)鍵詞的合成詞構(gòu)建局部語法網(wǎng)絡(luò),將關(guān)鍵詞檢測的問題轉(zhuǎn)換成關(guān)鍵詞短語的檢測問題,從而延長了關(guān)鍵詞的長度,得到語言增強(qiáng)后的置信度,作為整個(gè)關(guān)鍵詞的置信度。(5)關(guān)鍵詞確認(rèn)模塊的性能關(guān)鍵詞確認(rèn)的目標(biāo)是在幾乎不影響正確關(guān)鍵詞的檢出率的前提下,盡可能地降低誤警率。雖然關(guān)鍵詞識別算法中也可以通過調(diào)整關(guān)鍵詞和補(bǔ)白模型的權(quán)重來實(shí)現(xiàn)誤警率的下降,但相應(yīng)的要以犧牲檢出率為代價(jià)。目前的關(guān)鍵詞檢測系統(tǒng)通常都是放松關(guān)鍵詞檢出局部的限制,盡可能多的檢測出關(guān)鍵詞,然后通過關(guān)鍵詞確認(rèn)技術(shù)去掉置信得分較低的候選。近年來,很少見到關(guān)鍵詞檢出算法的文章,語音確認(rèn)算法成為關(guān)鍵詞系統(tǒng)的研究重點(diǎn)。除了語音確認(rèn)算法外,也有人研究確認(rèn)門限自適應(yīng),以適應(yīng)不同環(huán)境條件的變化。Lopez-Cozar等描述了一個(gè)快餐預(yù)定系統(tǒng),在該系統(tǒng)中他們使用了一種AdaptiveConfidenceThreshold的策略,在交談過程中可以根據(jù)環(huán)境條件的變化,動(dòng)態(tài)調(diào)整置信度閾值,通過這樣提高對話中句子理解率和減少對話回合數(shù)。2.3關(guān)鍵詞檢測基線系統(tǒng)設(shè)計(jì)方案我們的關(guān)鍵詞檢測系統(tǒng)是在Julian語音識別器的根基上開發(fā)的,Julian是日本京都大學(xué)和日本IPA(Infonnation-technologyPromotionAgency)聯(lián)合開發(fā)的基于有限狀態(tài)語法的開源連續(xù)語音識別引擎。由于我們針對的任務(wù)為無限制語音流,采用圖2-1(a)的拓?fù)錁?gòu)造來設(shè)計(jì)基于垃圾模型的關(guān)鍵詞系統(tǒng)。采取先檢出后認(rèn)證的策略,通過網(wǎng)絡(luò)轉(zhuǎn)移權(quán)值來平衡系統(tǒng)的漏報(bào)和誤報(bào)。通過實(shí)驗(yàn)發(fā)現(xiàn),加大垃圾模組的懲罰系數(shù),對提高系統(tǒng)的檢出率有一定影響,但同時(shí)會帶來更多的誤報(bào),而對關(guān)鍵詞獎(jiǎng)賞要比對垃圾網(wǎng)絡(luò)懲罰的效果要好,在同樣檢出率的情況下,誤報(bào)要少得多,但解碼的速度比擬慢。我們把系統(tǒng)的關(guān)鍵詞獎(jiǎng)賞權(quán)重設(shè)置為:Wi=C*length〔KWi〕,其中C為常數(shù),關(guān)鍵詞的轉(zhuǎn)移權(quán)重與關(guān)鍵詞所包含的聲韻母基元個(gè)數(shù)Length(KWi)有關(guān),經(jīng)過實(shí)驗(yàn)確定C=6到達(dá)最正確效果??紤]到實(shí)時(shí)性和系統(tǒng)性能,采用擴(kuò)展的聲韻母單元(XIF)作為系統(tǒng)識別單元。我們在實(shí)驗(yàn)中發(fā)現(xiàn),用音節(jié)基元作為補(bǔ)白模型,雖然檢出效果得到很大改善,但由于要擴(kuò)展的路徑太多,導(dǎo)致解碼速度很慢,雖然可以通過Beam剪枝去除得分較低的路徑,但依然不能滿足實(shí)時(shí)要求,所以垃圾模型模組局部改為采用聲韻串接的音節(jié)模型,包括sil和全部音節(jié)模型,共計(jì)403個(gè)模型。通過共享前綴詞典樹組織搜索網(wǎng)絡(luò),由于利用了識別單元在發(fā)音方面的共性,搜索空間被大大減小,搜索效率得到了提高。由于垃圾模型僅起到吸收集外詞的作用,并不需要識別出其真正的內(nèi)容,我們在Viterbi解碼的過程中,對每個(gè)時(shí)刻點(diǎn)完畢的所有補(bǔ)白,僅允許其累計(jì)概率最大的項(xiàng)進(jìn)展擴(kuò)展。這樣不但能使解碼速度得到很大提升,而且使系統(tǒng)占用的內(nèi)存很小,系統(tǒng)的檢出率也不受影響。最終,我們設(shè)計(jì)的關(guān)鍵詞檢測基線系統(tǒng)如圖2-3所示。Keyword1Keyword1Keyword2KeywordMb+iz+a0關(guān)鍵詞模組垃圾模型模組關(guān)鍵詞確認(rèn)GGkw1Gkwm…GG選擇累積分最大的路徑擴(kuò)展圖2-3基線KWS系統(tǒng)方案第三章關(guān)鍵詞語音確認(rèn)方法3.1基于似然比的關(guān)鍵詞語音確認(rèn)算法在統(tǒng)計(jì)學(xué)習(xí)理論中,假設(shè)檢驗(yàn)是研究地比擬深入的一個(gè)課題。受說話人確認(rèn)技術(shù)的啟發(fā),Rahim和Sukkar等人提出利用假設(shè)檢驗(yàn)解決置信度計(jì)算問題。他們把用假設(shè)檢驗(yàn)方法解決語音置信度問題稱之為似然比(LR)方法。假定某段語音特征矢量O被識別成某個(gè)詞W,語音確認(rèn)問題可以用統(tǒng)計(jì)學(xué)的假設(shè)檢驗(yàn)來描述。定義:H0:原假設(shè),O被正確識別為W;H1:備擇假設(shè),O被正確識別為非W。LR=lnPO|其中,W稱為W的反詞模型或備擇模型??梢酝ㄟ^多種方式計(jì)算似然比。Rose和Paul考慮到關(guān)鍵詞似然得分的時(shí)變特性,在進(jìn)展似然比打分時(shí)使用了圖3-1的并行“背景網(wǎng)絡(luò)"得到似然比分?jǐn)?shù),背景網(wǎng)絡(luò)為音素循環(huán)網(wǎng)絡(luò)。這種方法較為簡單,有一定強(qiáng)健性,但由于參加音素循環(huán)網(wǎng)絡(luò)進(jìn)展識別,計(jì)算代價(jià)比擬高。--+關(guān)鍵詞—補(bǔ)白網(wǎng)絡(luò)背景網(wǎng)絡(luò)語音圖3-1通過背景網(wǎng)絡(luò)獲取關(guān)鍵詞似然比得分在以HMM為根基的語音識別系統(tǒng)中,詞通常由子詞串接而成,可以先通過關(guān)鍵詞-補(bǔ)白網(wǎng)絡(luò)產(chǎn)生包含關(guān)鍵詞和補(bǔ)白的識別結(jié)果,由識別結(jié)果回溯得到關(guān)鍵詞的詞邊界,然后通過時(shí)間對齊得到關(guān)鍵詞的子詞邊界,把似然比的計(jì)算分解到子詞層計(jì)算,最終關(guān)鍵詞的LR分?jǐn)?shù)由子詞似然比的計(jì)算結(jié)果得到。相比上面提到的“背景網(wǎng)絡(luò)"方法,這種方法精度要高,而且計(jì)算代價(jià)比擬低。子詞層的似然比可以表示為:LR=lnP其中λ為目標(biāo)子詞對應(yīng)的HMM模型,λ為其對應(yīng)的反詞模型。通常似然比的結(jié)果動(dòng)態(tài)范圍比擬大,Lee指出,似然比可以通過S函數(shù)進(jìn)展非線性變換,壓縮到[0,1]區(qū)間,轉(zhuǎn)換為置信度的形式。CM=11+exp?其中α>0,控制S函數(shù)的平滑程度。需要注意的是,這里的CM只具備比擬意義,而不具備概率函數(shù)意義。似然比方法具有較好的統(tǒng)計(jì)學(xué)理論根基,計(jì)算速度快。在基于垃圾模型的KWS系統(tǒng)中,通常采用這種方法進(jìn)展語音確認(rèn)。由于反詞包括目標(biāo)子詞的補(bǔ)空間,而這個(gè)補(bǔ)空間顯然范圍是很廣的,很難用確切的數(shù)學(xué)模型來描述,所以似然比方法的難點(diǎn)在于如何對反詞模型建模,確認(rèn)算法性能的好壞主要取決于對備擇假設(shè)概率密度函數(shù)的擬合能力。用于求反詞模型得分的方法可以分為兩類:(1)訓(xùn)練明確反詞模型這種方法需要利用語料庫來訓(xùn)練反詞的HMM模型。Eduardo把反詞模型分為兩局部:POλ=cP其中λim稱為冒充模型,用來對混淆音建模,λim利用與目標(biāo)子詞最容易混淆的前N個(gè)子詞的語料訓(xùn)練得到。λbg稱為背景模型,用所有的訓(xùn)練語料生成。λim和λbg采用與目標(biāo)模型同樣的HMM構(gòu)造,不同的是背景模型含有較多的混合高斯分量(通常32)。直接用極大似然準(zhǔn)則訓(xùn)練的HMM效果較差,需要利用區(qū)分性訓(xùn)練方法來進(jìn)展模型參數(shù)調(diào)整。最小確認(rèn)錯(cuò)誤(MinimumVerificationError,MVE)是最常用的反詞模型訓(xùn)練算法,通過廣義概率下降(GeneralizedProbabilisticDescent,GDP)算法求取使確認(rèn)函數(shù)最優(yōu)的參數(shù)值,來到達(dá)參數(shù)優(yōu)化的目的。反詞模型的好壞,不但跟訓(xùn)練算法有關(guān),還與參與訓(xùn)練的樣本有關(guān),Jiang提出了一種在解碼過程中動(dòng)態(tài)收集競爭樣本的方法,訓(xùn)練明確反詞模型的方法據(jù)識效果好,但缺點(diǎn)是訓(xùn)練過程比擬繁瑣和復(fù)雜。另外,由于實(shí)際應(yīng)用環(huán)境的樣本難于采集,反詞模型通常是在干凈語音庫訓(xùn)練的,實(shí)際應(yīng)用時(shí)無形中造成了模型與數(shù)據(jù)的不匹配,不利于任務(wù)域移植。(2)利用模型集來構(gòu)造反詞模型和在線垃圾模型思想一樣,這種方法利用模型空間內(nèi)除目標(biāo)模型外的其它模型來構(gòu)造反詞模型,獲取反詞模型得分。假定模型空間中除目標(biāo)模型λ之外的其它模型為λi1≤i≤N。最簡單的方法是在λV0O=這相當(dāng)于用1-Best競爭模型表示反詞模型。如果取前M個(gè)競爭項(xiàng)的平均,此時(shí)有:V1O=Sukkar提出更通用的公式來計(jì)算似然比:V2O=其中α為調(diào)整參數(shù),當(dāng)α取比擬大的值時(shí),反詞得分取決于與目標(biāo)模型競爭較多的模型。當(dāng)α→∞時(shí),上式相當(dāng)于競爭模型中的最大項(xiàng),此時(shí):V2Chao提出一個(gè)利用競爭說話人和通用背景模型(UBM)來計(jì)算LLR的框架,并通過KernelFisherDiscriminant(KFD)來提高說話人確認(rèn)的區(qū)分性。實(shí)際中,通常不需要在整個(gè)模型空間來構(gòu)造反詞模型,而僅用與目標(biāo)模型的競爭集(CompetingSet,CS)來構(gòu)造反詞模型就可以收到滿意的效果。這是由于Viterbi搜索算法是尋求最優(yōu)路徑的方法,實(shí)際結(jié)果往往為識別結(jié)果較為接近的模型,Jiang通過圖3-2闡述了基于近鄰競爭模型的語音確認(rèn)方法。其思想是可以把模型空間加以劃分,目標(biāo)模型的競爭模型都分布在以目標(biāo)模型為圓心不同半徑的圓周上。與目標(biāo)模型競爭強(qiáng)度越大的模型在模型空間中距離圓心越近,在識別時(shí)這兩個(gè)模型越容易混淆。競爭模型空間競爭模型空間目標(biāo)模型空間全體模型空間圖3-2基于近鄰空間的語音確認(rèn)思想示意圖如果目標(biāo)模型所在的近鄰空間為A1,其競爭模型空間為A2,可以通過目標(biāo)模型的競爭模型來進(jìn)展語音確認(rèn),從而降低運(yùn)算量。此時(shí),假設(shè)檢驗(yàn)問題轉(zhuǎn)換為:H0:原假設(shè),O真實(shí)來自A1;H1:備擇假設(shè),O真實(shí)來自目標(biāo)模型的競爭模型空間A2-A1;在Jiang[6]的論文中,提出以HMM模型均值向量為圓心,給不同維的語音特征給予不同近鄰空間的語音確認(rèn)方法,該方法在噪聲環(huán)境下獲得較好確認(rèn)效果。利用模型集來構(gòu)造反詞模型,和訓(xùn)練明確反詞HMM模型的方法相比,移植性好,而且省去了訓(xùn)練反詞的繁瑣步驟。本章我們將主要針對這種方法進(jìn)展研究,并提出一種新的基于競爭模型的加權(quán)似然比融合的語音確認(rèn)方法。3.2基于競爭模型的加權(quán)似然比融合的語音確認(rèn)方法分析上一節(jié)利用競爭模型集構(gòu)造反詞模型的方法,不難發(fā)現(xiàn),所采用的方法都比擬簡單。在正確參考答案為“ci〞的情況下,分析下面兩種情況:●目標(biāo)模型為“ci〞,競爭集中最大的競爭模型為“si〞;Vo(O)=C?!衲繕?biāo)模型為“ci〞,競爭集中最大的競爭模型為“ca〞;Vo(O)=C。兩者似然得分一樣,但顯然第一種情況比第二種情況更加可靠。這是因?yàn)槲覀兊母杏X中“si〞與“ci〞發(fā)音比擬接近,兩者發(fā)音更容易混淆。這啟發(fā)我們,在利用似然比方法時(shí),除了考慮似然比分?jǐn)?shù)外,還要考慮競爭模型的區(qū)別,即:各個(gè)競爭模型對于區(qū)分目標(biāo)模型的作用是不同的。出于這種考慮,我們提出基于競爭模型的加權(quán)似然比融合的語音確認(rèn)方法。對競爭模型加權(quán)來構(gòu)造反詞模型的方式有多種,一種加權(quán)方式是采用概率算術(shù)平均,即:POλ其中λi為目標(biāo)模型λ的競爭模型。wi為調(diào)節(jié)權(quán)值,滿足POλ比擬這兩種形式,對于概率算術(shù)平均方式,如果目標(biāo)模型λ與其所有的競爭模型無關(guān),或者P(O|λi)的值都非常小,會有P(O|λ)≈0。由于通常在log域計(jì)算反詞輸出似然分,不允許出現(xiàn)PV===其中:X=P(O|λ)P(O|這樣就把似然比問題轉(zhuǎn)化為以下的參數(shù)優(yōu)化問題:FO=W其中θ=(w1+w2+?從上式可以看出,以前提到的很多計(jì)算似然比的方法都是所提方法的特例,當(dāng)競爭集最大值項(xiàng)的權(quán)值為1,其余項(xiàng)的權(quán)值為+∞時(shí),上式相當(dāng)于(3-5)式的最大競爭模型法。當(dāng)取前N-Best競爭項(xiàng)為1,其余項(xiàng)為+∞時(shí),上式相當(dāng)于(3-6)式的N-Best競爭項(xiàng)法。3.2.1基于MVE的參數(shù)優(yōu)化加權(quán)向量和閾值可以通過許多方法來優(yōu)化,如線性分類器,神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等訓(xùn)練算法。由于在這里我們碰到的問題是語音確認(rèn)問題,我們引入最小確認(rèn)錯(cuò)誤(MVE)算法進(jìn)展計(jì)算。MVE是一種有監(jiān)視的區(qū)分性訓(xùn)練算法,是MCE算法在語音確認(rèn)領(lǐng)域的推廣,在說話人確認(rèn)和語音確認(rèn)領(lǐng)域得到廣泛應(yīng)用,常用于HMM模型或反詞模型的參數(shù)優(yōu)化。MVE將語音確認(rèn)錯(cuò)誤巧妙地嵌入進(jìn)目標(biāo)函數(shù),將參數(shù)求解轉(zhuǎn)換為使誤警率和誤接收率最小的參數(shù)估計(jì)問題。在實(shí)際使用時(shí),MVE算法通常與梯度下降(GDP)算法結(jié)合在一塊使用,通過GDP求取使目標(biāo)函數(shù)最優(yōu)的參數(shù)值,從而到達(dá)最小確認(rèn)錯(cuò)誤的目的。假定語音O的識別結(jié)果為子詞u,Λ=w1?dO,Λ=其中,δ(O,u)為標(biāo)示函數(shù),是識別結(jié)果與實(shí)際參考答案比擬的真實(shí)判別。δO,u=-1u∈Correct結(jié)合〔3-12〕和〔3-13〕式可以知道,在正確分類時(shí):δO,u=-1且WTX>θ或者δO,u=+1且WTX≤θ,此時(shí)有dO,Λ<0;在錯(cuò)誤分類時(shí):δO,u由于此時(shí)有d(O,Λ)不是一個(gè)連續(xù)函數(shù),無法用GDP優(yōu)化算法對其進(jìn)展迭代優(yōu)化,通常引入S函數(shù)將其轉(zhuǎn)換為連續(xù)可微函數(shù)lwlO,Λ=其中γ是大于0的可調(diào)參數(shù),用于控制確認(rèn)損失函數(shù)l(O,Λ)的平滑程度。顯然l(O,Λ)是d(O,Λ)的單調(diào)增函數(shù)。l(O,Λ)的值主要取決于錯(cuò)誤分類的數(shù)據(jù),由于l(O,Λ)為連續(xù)函數(shù),可以用GPD算法來進(jìn)展優(yōu)化,使得l(O,Λ)的經(jīng)歷期望值最小。在訓(xùn)練集上,定義期望確認(rèn)損失函數(shù)為:L(O,Λ)≈1Mj=1在GPD算法下,Λ通過以下迭代公式求得:Λn+1=Λn其中ε為學(xué)習(xí)率,n為迭代次數(shù)。在滿足下面兩個(gè)條件下算法收斂:n=1∞εn=∞,同時(shí)由于要求wi>0,我們令wi?L(O.=1Mi=1同理,可以得:?L(o,Λ)?θ如果用全部模型來計(jì)算似然比顯然計(jì)算量有些過大,可以考慮只選擇距離目標(biāo)模型較近的那些競爭模型。競爭模型可以通過專家先驗(yàn)知識和數(shù)據(jù)驅(qū)動(dòng)的方式獲得,這里我們利用數(shù)據(jù)驅(qū)動(dòng)的方式獲得競爭模型,采用KL(KullbackLeibler)測度來計(jì)算聲學(xué)模型之間的距離,KL測度也是說話人識別中經(jīng)常采用的一種模型測度。dλi,上式中,Ni和Nj,代表各自模型的訓(xùn)練樣本個(gè)數(shù),Qik是訓(xùn)練模型λi的第K個(gè)樣本,非負(fù)性:如果聲學(xué)模型有足夠精度,對于絕大多數(shù)訓(xùn)練樣本應(yīng)該滿足條件PQikλ自反性:顯然有dλ對稱性:顯然有dλ3.2.2我們采用擴(kuò)展的聲韻母集合進(jìn)展語音確認(rèn),包括27個(gè)聲母、38個(gè)韻母,每個(gè)模型3個(gè)狀態(tài)。每個(gè)狀態(tài)含有8個(gè)高斯混合分量。語音采用8KHz/16位采樣,幀長25ms,幀移10ms。語音特征采用39維MFCC特征,包括對數(shù)能量和12維MFCC參數(shù)靜態(tài)特征以及其一階、二階差分特征。由于聲母和韻母之間不易混淆。所以,對于聲母目標(biāo)模型,可以選用除去目標(biāo)模型的全部聲母集模型作為目標(biāo)模型的競爭集(CS)。同樣,對于韻母,采用除目標(biāo)模型外的全體韻母作為目標(biāo)模型的競爭集。為了進(jìn)一步降低運(yùn)算量,我們在以上競爭集的根基上進(jìn)一步縮小范圍,對每個(gè)目標(biāo)模型,在863語音庫訓(xùn)練集上通過KL測度選擇15個(gè)與其最接近的模型,按照KL距離由小到大排序,構(gòu)成式〔3-10〕的15維似然比特征向量,稱為CS(15)。對于競爭集,我們通過MVE訓(xùn)練算法對每個(gè)子詞求取加權(quán)向量W和閥值θ。下面是具體MVE訓(xùn)練過程:〔1〕對所有的子詞,初始化合成權(quán)重系數(shù)及閾值,令最易混淆項(xiàng)的似然比加權(quán)值wi=1,其余項(xiàng)的似然比加權(quán)值為0。閥值〔2〕用音素解碼器得到輸出結(jié)果,并與標(biāo)準(zhǔn)答案做比照,得到真實(shí)的分類對錯(cuò)標(biāo)志δ(O,u);〔3〕用GDP算法根據(jù)式(3-18)、(3-19)迭代更新各個(gè)系數(shù)。本實(shí)驗(yàn)中εn取1/n重復(fù)(2)、(3)過程,直到損失函數(shù)收斂為止。圖3-3等錯(cuò)誤率隨MVE迭代次數(shù)的變化情況上圖是在競爭集為CS(15)時(shí),我們得到的系統(tǒng)等錯(cuò)誤率隨訓(xùn)練次數(shù)變化的曲線,如圖3.3所示??梢钥闯觯珽ER曲線的變化中間會出現(xiàn)一些波動(dòng),在迭代11次后,EER穩(wěn)定并收斂。最終的EER從0.3563下降到0.2961。接下來驗(yàn)證所提方法的語音確認(rèn)效果。測試系統(tǒng)為詞表大小為130個(gè)關(guān)鍵詞的關(guān)鍵詞檢測系統(tǒng),測試集包含有1300句語音,數(shù)據(jù)取自863試集的F50、M50文件。關(guān)鍵詞的置信度由所含子詞的似然比通過以下公式計(jì)算得到:CW=1其中L為關(guān)鍵詞的子詞個(gè)數(shù),參數(shù)β為幅度調(diào)節(jié)參數(shù),本實(shí)驗(yàn)中β=1。實(shí)驗(yàn)比擬四種方法確實(shí)認(rèn)效果:LLRmax:采用(3-4LLRcs采用(3-6)式LLRwcs:采用提出的加權(quán)的似然比方法,加權(quán)系數(shù)和閥值由MVE訓(xùn)練得到,競爭模型集采用LLRwcs(15):方法同LLRwcs,但通過實(shí)驗(yàn)得到等錯(cuò)誤率曲線如圖3-4所示,測得的等錯(cuò)誤率如表3-1所示。從中可以看出,僅用競爭集中最大競爭項(xiàng)來表示反詞的方法確認(rèn)效果比擬差。圖3-4語音確認(rèn)方法的DET曲線比擬采用基于競爭模型似然比加權(quán)的方法(LLRwcs)比不加權(quán)的方法(LLRcs)等錯(cuò)誤率下降了2.35%,說明加權(quán)的似然比方法收到了較好的效果。比擬LLRwcs和采用競爭模型的方法LLRwcs(15)表3-1不同似然比計(jì)算方法的EERMethodLLLLLLLLEER0.23100.21950.19600.19933.3多置信特征聯(lián)合提高語音確認(rèn)效果用置信特征進(jìn)展語音確認(rèn)[7]也是置信度研究的一個(gè)重要領(lǐng)域,正如我們理解一句話,可以從多個(gè)層次、多個(gè)角度去理解。置信特征可以來自聲學(xué)層、語言層、語法層和語音層。Chase對常用聲學(xué)預(yù)測特征進(jìn)展了分析,對一些聲學(xué)特征進(jìn)展了分析;Zhang對詞圖和解碼特征進(jìn)展了研究,提出一些基于詞圖的語言層特征;StephenCox[8]提出了用淺層語義分析來進(jìn)展語義層置信度估計(jì),RuhiSarikaya[9]在對話系統(tǒng)中提出利用詞層和概念層置信分來計(jì)算語義置信度;Gustavo采用一種基于動(dòng)態(tài)規(guī)劃對齊的方法給識別結(jié)果對齊打分。在國內(nèi)這方面研究,付躍文提出利用局域詞圖計(jì)算的詞后驗(yàn)概率與詞長、相鄰詞的后驗(yàn)概率等幾種實(shí)時(shí)預(yù)測子進(jìn)展融合;孫輝提出了上下文相關(guān)置信度特征,考慮到當(dāng)前待確認(rèn)詞與其前序詞和后序詞之間的相關(guān)性。似然比和詞后驗(yàn)概率是目前公認(rèn)的兩種最有效求取置信度的方法。詞后驗(yàn)概率的方法需要通過生成lattice或詞圖才能計(jì)算,而生成lattice的過程非常費(fèi)時(shí),無法到達(dá)實(shí)時(shí)要求。所以,對于基于垃圾模型的KWS系統(tǒng),通常采用聲學(xué)似然比特征為主,其它特征為輔的策略。常用的融合特征有:關(guān)鍵詞似然比、幀歸一化的關(guān)鍵詞似然分、時(shí)間駐留特征、候選關(guān)鍵詞的上下文特征、時(shí)間對齊特征。除了尋找好的預(yù)測特征外,許多研究人員還試圖通過分類器來提高置信效果,常用的預(yù)測特征融合方法有:線性判別分析、神經(jīng)網(wǎng)絡(luò)、決策樹、支持向量機(jī)、Boosting。另外,還可以借助訓(xùn)練算法優(yōu)化融合的系數(shù),這些準(zhǔn)則有:最大似然準(zhǔn)則,互熵準(zhǔn)則、最小錯(cuò)誤分類錯(cuò)誤等。Jiang—Hui[10]指出,預(yù)測特征不一定越多越好,必須要考慮該特征的來源,許多相關(guān)的預(yù)測特征組合并一定能夠提高置信度的效果。所以,我們在選擇特征時(shí)考慮以下兩個(gè)方面:1)特征之間應(yīng)盡量來自不同知識源;2)由于基于垃圾模型的關(guān)鍵詞系統(tǒng)對實(shí)時(shí)性要求高,預(yù)測特征應(yīng)較易獲得。3.3.1在線垃圾模型提高語音確認(rèn)效果的理論研究我們選擇三個(gè)特征用于提高語音確認(rèn)效果,包括:關(guān)鍵詞的似然比特征、駐留特征和在線垃圾(OLG)得分。在線垃圾模型最早用于無補(bǔ)白模型的關(guān)鍵詞檢出,國內(nèi)對OLG模型的研究的比擬多,張國亮提出了基于OLG的關(guān)鍵詞動(dòng)態(tài)確認(rèn)方法,將關(guān)鍵詞檢出和驗(yàn)證過程合二為一,利用OLG進(jìn)展動(dòng)態(tài)語音確認(rèn)。梁家恩[11]指出,在線垃圾模型相當(dāng)于基于后驗(yàn)概率方法的表達(dá)。陳一寧[12]利用在線垃圾模型計(jì)算N-Best音節(jié)格的置信分?jǐn)?shù),收到較滿意的效果。需要說明的是,計(jì)算OLG分?jǐn)?shù)可以在關(guān)鍵詞模型空間,也可以在補(bǔ)白模型空間,我們采用的OLG得分來自關(guān)鍵詞解碼空間,目的是用其估計(jì)關(guān)鍵詞與競爭詞的距離。因?yàn)?,似然比特征并沒有考慮關(guān)鍵詞之間的影響,識別中的冒充錯(cuò)誤大多是由于競爭關(guān)鍵詞勝過真實(shí)關(guān)鍵詞造成的,競爭的關(guān)鍵詞越多時(shí),這種錯(cuò)誤出現(xiàn)的越多。所以,我們引入關(guān)鍵詞在線垃圾得分進(jìn)展關(guān)鍵詞確認(rèn),實(shí)驗(yàn)結(jié)果說明,這三個(gè)特征的融合能較好的提高確認(rèn)效果。下面介紹計(jì)算關(guān)鍵詞駐留特征和在線垃圾得分的方法。(1)關(guān)鍵詞駐留特征。文章[13]提到了經(jīng)典隱馬爾可夫模型的缺陷,HMM是一階的齊次馬爾可夫鏈的隨機(jī)函數(shù),這種齊次假設(shè)導(dǎo)致HMM狀態(tài)的駐留長度(即段長)服從指數(shù)分布,從數(shù)學(xué)上得到了簡化;但是指數(shù)分布意味著在某一狀態(tài)駐留時(shí)間越短則概率越大,特別是零長度駐留的概率最大。這與大多數(shù)語音信號的實(shí)際段長分布不符,如漢語中輔音的長度分布就相當(dāng)集中。如果段長服從指數(shù)分布,則狀態(tài)轉(zhuǎn)移概率就是零長度駐留概率,可知零長度駐留概率遠(yuǎn)大于其真實(shí)值,所以經(jīng)典HMM中的狀態(tài)轉(zhuǎn)移概率太大,導(dǎo)致了搜索過程中會出現(xiàn)一些插入錯(cuò)誤,這是經(jīng)典HMM的齊次假設(shè)的不合理性造成的。相比而言,伽馬分布更接近語音段長的真實(shí)分布。我們需要提取駐留特征增加關(guān)鍵詞確實(shí)認(rèn)能力。顯然,如果一個(gè)詞駐留過短就極可能是插入錯(cuò)誤,應(yīng)該給予其較低的分?jǐn)?shù)。我們采用David提出的方法對子詞狀態(tài)駐留概率打分。假定子詞駐留概率符合伽瑪分布:pt=K(α,ρ)exp?(-αt)t其中t為駐留時(shí)間,Kα,ρ=αρΓρ,α=E(T(t))VAR(T(t))〔ρ=E2(T(t))子詞駐留特征為子詞駐留概率的對數(shù)取值:dt=ln上式中,lnK定義關(guān)鍵詞的駐留概率為其包含子詞的駐留特征的最小值。DP=minid〔2〕關(guān)鍵詞在線垃圾分?jǐn)?shù)在構(gòu)成關(guān)鍵詞的狀態(tài)空間中,取每幀得分最高的N個(gè)狀態(tài)的似然得分sn(oF=lnP(O|λ)-其中tb、tc是關(guān)鍵詞的起始和完畢時(shí)刻點(diǎn),從上式可以看出,計(jì)算關(guān)鍵詞的在線垃圾得分的其實(shí)是似然比方法的表達(dá)。但與似然比方法區(qū)別的是,反詞局部由競爭的關(guān)鍵詞的狀態(tài)得分形成。當(dāng)競爭的關(guān)鍵詞較多時(shí),其得高分的存活狀態(tài)必然較多,導(dǎo)致其OLG分?jǐn)?shù)增加,此時(shí)F值變小。當(dāng)競爭的關(guān)鍵詞較少時(shí),OLG分?jǐn)?shù)下降,此時(shí)F值變大。所以,該特征在一定程度上表達(dá)了關(guān)鍵詞與競爭關(guān)鍵詞的距離。此種方法還具有一定的抗噪性,一般說來,OLG是隨識別語音特征的變化而動(dòng)態(tài)變化的,在噪聲環(huán)境下,關(guān)鍵詞得分發(fā)生變化,OLG3.3.2實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)用到的關(guān)鍵詞檢測系統(tǒng)和測試語音同上一節(jié),首先我們驗(yàn)證OLG分?jǐn)?shù)的語音確認(rèn)效果,OLG分?jǐn)?shù)的形成主要取決于每幀的前N-Best個(gè)競爭狀態(tài),調(diào)節(jié)N的取值,得到的不同N值下的語音確認(rèn)效果,如圖3.5所示。調(diào)整N的值就可以調(diào)整關(guān)鍵詞確認(rèn)的寬嚴(yán)程度,N越大越寬,可以看出在每幀取得前30個(gè)最正確狀態(tài)來計(jì)算在線垃圾分?jǐn)?shù)時(shí)有較好的效果,N過大和過小,關(guān)鍵詞確認(rèn)性能會有所下降。圖3-5OLG中模型參數(shù)N的DET曲線比擬接著比擬聯(lián)合關(guān)鍵詞似然比、駐留特征和在線垃圾得分特征的語音確認(rèn)效果,這里仍然采用Sukkar提出的LLRcs方法為基線似然比特征,駐留特征所需的參數(shù)由863語音庫訓(xùn)練得到,對于OLG特征,每幀取得前30圖3-6聯(lián)合關(guān)鍵詞預(yù)測特征的DET曲線比擬圖3-6給出了聯(lián)合置信特征進(jìn)展語音確認(rèn)的DET曲線,表3-2給出了確認(rèn)方法的EER比擬。表3-2聯(lián)合關(guān)鍵詞預(yù)測特征的EERMethodLLSLLLLEER0.21950.22630.19250.1882可以看出,OLG特征確實(shí)認(rèn)效果不如似然比方法。聯(lián)合似然比和OLG置信特征后的EER比似然比方法對應(yīng)的EER下降了0.027,這說明這兩個(gè)置信特征具有一定的互補(bǔ)性。進(jìn)一步,通過參加駐留特征后使系統(tǒng)的DET曲線變得比擬平滑,系統(tǒng)穩(wěn)定性有所增強(qiáng)。聯(lián)合似然比、OLG和駐留概率這三種置信特征使得系統(tǒng)的EER下降為0.1882,比基線系統(tǒng)的EER下降了0.0313,比聯(lián)合兩種特征的方法EER下降了0.0043。實(shí)驗(yàn)結(jié)果說明,我們選擇的三個(gè)特征具有一定的互補(bǔ)性,聯(lián)合這些特征能在一定程度上提高語音確認(rèn)效果。第四章總結(jié)與展望4.1內(nèi)容總結(jié)本文對基于Filler模型的關(guān)鍵詞檢測技術(shù)進(jìn)展了研究,對該關(guān)鍵詞檢測系統(tǒng)的設(shè)計(jì)、關(guān)鍵詞檢出策略和置信度評估進(jìn)展了分析,并通過實(shí)驗(yàn)證明了其有效性。本文主要奉獻(xiàn)為:基于垃圾模型的關(guān)鍵詞系統(tǒng)中的語音確認(rèn)算法。在基于垃圾模型的關(guān)鍵詞系統(tǒng)中,常利用似然比方法進(jìn)展語音確認(rèn)。提出了一種基于競爭模型的加權(quán)似然比融合語音確認(rèn)方法,通過聯(lián)合目標(biāo)模型與其競爭模型的似然比對子詞的置信度進(jìn)展估計(jì),引入了最小確認(rèn)錯(cuò)誤準(zhǔn)則訓(xùn)練融合的權(quán)重系數(shù)。實(shí)驗(yàn)說明該方法能夠有效提高語音確認(rèn)效果。在置信預(yù)測特征選擇方面,聯(lián)合關(guān)鍵詞動(dòng)態(tài)垃圾得分、似然比和駐留概率作為預(yù)測特征計(jì)算關(guān)鍵詞候選的置信度,在使系統(tǒng)實(shí)時(shí)性沒有明顯下降的情況下明顯提高系統(tǒng)的拒識性能。4.2研究展望本文雖然對基于Filler

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論