版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
美國科羅拉多州大學關(guān)于在噪聲環(huán)境下對大量連續(xù)語音識別系統(tǒng)的改進 噪聲環(huán)境下說話聲音的識別工作簡介在本文中,我們報道美國科羅拉多州大學關(guān)于噪聲環(huán)境下海軍研究語音詞匯系統(tǒng)方面的最新改進成果。特別地,我們介紹在有限語音數(shù)據(jù)的前提下,為了了解不確定觀察者和變化的環(huán)境的任務(wù)(或調(diào)查方法),我們必須在提高聽覺和語言模式方面努力下工夫。在大量連續(xù)詞匯語音識別系統(tǒng)中,我們將展開MAPLR自適應(yīng)方法研究。它包括單個或多重最大可能線形回歸。當前噪聲環(huán)境下語音識別系統(tǒng)使用了大量聲音詞匯識別的聲音識別引擎。這種引擎在美國科羅拉多州大學目前得到了飛速的發(fā)展,本系統(tǒng)在噪聲環(huán)境下說話聲音系統(tǒng)(SPINE-2)評價數(shù)據(jù)中單詞錯識率表現(xiàn)為30.5%,比起2001年的SPINE-2來,在相關(guān)詞匯錯識率減少16%。介紹為獲得噪聲環(huán)境下的有活力的連續(xù)聲音系統(tǒng)的聲音,我們試圖在藝術(shù)的領(lǐng)域做出計算和提出改善,這個工作有幾方面的難點:依賴訓練的有限數(shù)據(jù)工作;在訓練和測試中各種各樣的軍事噪聲存在;在每次識別適用性階段中,不可想象的聽覺溪流和有限數(shù)量的聲音。在2000年11月的SPIN-1和2001年11月SPIN-2中,海軍研究詞匯通過DARPT在工作上給了很大的幫助。在2001年參加評估的種類有:SPIIBM,華盛頓大學,美國科羅拉多州大學,AT&T奧瑞哥研究所,和梅隆卡內(nèi)基大學。它們中的許多先前已經(jīng)報道了SPINE-1和SPLNE-2工作的結(jié)果。在這方面的工作中不乏表現(xiàn)最好的系統(tǒng)我們在特性和主模式中使用了自適應(yīng)系統(tǒng),同時也使用了被用于訓練各種參數(shù)類型的多重聲音平行理論(例如MFCC、PCP等)。其中每種識別系統(tǒng)的輸出通常通過一個假定的熔合的方法來結(jié)合。這種方法能提供一個單獨的結(jié)果,這個結(jié)果的錯誤率將比任何一個單獨的識別系統(tǒng)的結(jié)果要低。美國科羅拉多州大學參加了SPIN-2和SPIN-1的兩次評估工作。我們2001年11月的SPIN-2是美國科羅拉多州大學識別系統(tǒng)基礎(chǔ)上第一次被命名為SONIC(大量連續(xù)語音識別系統(tǒng))的。在那次評估中,我們單獨的最好的系統(tǒng)在9x的實時性的解碼速率下,有37.5%的錯誤率,在那篇論文中,我們描述了當前在通常識別系統(tǒng)發(fā)展的形式和工作依靠模式方面的改進?我們之所以關(guān)心這些問題,是因為這些問題是關(guān)系到在單獨識別系統(tǒng)下降低噪聲環(huán)境下說話聲音的錯識率,而不考慮那些工作中的識別融合問題。噪聲環(huán)境下說話者工作任務(wù).這個在噪聲環(huán)境下的語音工作任務(wù)采用了ARCON通信實踐,本實踐的發(fā)展是源于測試通信系統(tǒng)和在戰(zhàn)略航中偽裝工作的說話音之間的合作,一個起發(fā)射辦公者的作用(例中,武器控制系統(tǒng),一個激光火炮和能源);另一個起接受辦公者的作用(例如雷達和聲納裝置)。每個角色在隔離房間中單獨發(fā)聲,使用軍事設(shè)備和一個適當?shù)挠糜谀7碌穆曇粞b置設(shè)備。在這次訓練中,兩個參與者通過查清和證實柵欄(格子)的位置(X軸,y軸坐標)去搜索和破壞目標。這種位于SPINE—2中的格子能從診斷測試中組成含糊的句子。SPINE—2工作需要,這個格子位置的作用是組成了最小含糊軍事用語(對話)。在每次過程中,通過典型的大聲說話者,軍事的噪聲環(huán)境被描述。這個SPINE—1的評估數(shù)據(jù)包括六個噪聲環(huán)境:1.飛機攜帶控制決定中心2.AWACS飛機3.—個軍事工具(媒體)4.一個軍事領(lǐng)域5.—個辦公環(huán)境6.—個安靜環(huán)境。SPINE—2通過考慮增加到軍用坦克和直生機環(huán)境下的各種噪聲類型擴展了SPINE—1的數(shù)據(jù)。當通過一個類似通信通道的環(huán)境中時,每一種類型中來的噪聲被通過頭部損壞的麥克風記錄。在本文中,我們僅考慮沒有編碼的聲音頻道中的說話聲識別系統(tǒng)。這個大量連續(xù)語音識別系統(tǒng)的ASR引擎.3.1當前ASR的體系設(shè)計我們當前用于實踐的2001年11月的SPINE--2是應(yīng)用了SONIC而設(shè)計的。即美國科羅多州大學大量連續(xù)說話聲系統(tǒng)。SONIC是基于連續(xù)密度的隱馬爾可夫聲音模式。背景依靠三角電話,聲音模式是依靠決定樹的。每種模式有三個發(fā)射地域(空間),用倫琴可能密度功能作為過度模式。特征參數(shù)被提取,(例如12個MFCC參數(shù),能量和這些參數(shù)第一?第二方面的不同點)從而得到一個39維的特征向量(參數(shù))。這個網(wǎng)絡(luò)的研究工作落在重構(gòu)一個穩(wěn)態(tài)樹。這個識別器包含一項兩個通往研究的目標。其中第一個過程包含時間同步。被用于研究的迭代的修剪梁。允許通過的聲音模式和3.4種語法?語言模型(用一個大概的有效的方式)在第一個過度模式中被引用。第一個過程給出了句子結(jié)束點的框架。在第二個過程中,這個句子格子結(jié)果被改變成一個句子表/串。先進的語言模式(例如活動句子和基礎(chǔ)概念)能被用作重新劃分使用A*算法的句子表或為獲得滿意的結(jié)果去計算.預(yù)測句子的后驗概率。SONIC提供了一個整體的環(huán)境。這個環(huán)境包括合成語音活動搜索,說話聲增加和各種特征及模式基礎(chǔ)適應(yīng)的一般方法。這個識別設(shè)計為快速通往新的語言環(huán)境提供支持。在2002年里,SONIC從英語識別中被推廣到西班牙語和日語等等語言中去了。3.2當前意義上的提咼我們2001年的SPINE—2系統(tǒng)代表(象征)了我們在大量連續(xù)語音識別系統(tǒng)方面的最初成就。這個系統(tǒng)目前使用一個廣闊的字典結(jié)構(gòu)。它包括三點基礎(chǔ)等級語法語言模式組成的人類決定的復(fù)合性詞匯,單回歸梅爾模式和全球廣泛的各種變體以及通常意義上的三點式聲
音模式。自從2001年11月后,我們開始研究更加高效的詞匯樹。這種詞匯樹將拼湊聲音模式,支持四種語法輸入,完成數(shù)據(jù)引導語言合成,重組外加特征參數(shù)(例如對數(shù)頻譜聲碼器,VTLN等)和說話人自適應(yīng)模式。4.SPINE系統(tǒng)概述如表1所示,我們的SPINE體系包括一個高度完整的語言感應(yīng)器和多路識別通路。在每次識別過程中,聲音感應(yīng)器根據(jù)當前的自適應(yīng)聲音模式重新劃分結(jié)構(gòu)。這個語音感應(yīng)器將產(chǎn)生的噪音視頻轉(zhuǎn)化為聲音單元,并且每個聲音感應(yīng)器的識別單元中的LVCSR被應(yīng)用。這時,這個輸出結(jié)果(一個可信的格子或聲音串)被用于聲音自適應(yīng)模式和一個非監(jiān)督方式下的類型。那時,這個自適應(yīng)聲音模式被再次應(yīng)用到一個被提高的分割,識別假想和一系列新的適應(yīng)體系參數(shù)。為了提高識別和識別假想兩個方面,這個完整的自適應(yīng)程序被多次重復(fù)使用。SpeechZ'1 .(0??1TSpeechZ'1 .(0??1TVAD|ModelsLVCSRAdaptationFigure1:DiagramofSPINEmulti-parecognirionsearch.當SPINE工作時,我們會發(fā)現(xiàn)分割和識別器之間的緊密的組成部分是識別器的最關(guān)鍵組成部分。進一步說,我們認為這個完整的方式是在噪音環(huán)境下如何將一些簡單的方式應(yīng)用到語音的識別活動中來的。以下的部分將從細節(jié)上描述我們的識別體系。4.1訓練數(shù)據(jù)作為SPINE—2系統(tǒng)評估的聲音和語言訓練數(shù)據(jù)不僅保留了先前SPINE—1的訓練和測試,而且為了SPINE—2系統(tǒng)的提高,還發(fā)展了訓練和測試的部分。對于SPINE—2的評估,在將數(shù)據(jù)和識別設(shè)備載入我們最終的系統(tǒng)時,我們的識別裝置以1.1小時的發(fā)展測試數(shù)據(jù)。表格1總結(jié)了本課題中所用于實驗的訓練數(shù)據(jù)。TrainingDataSourceNumberofUtterancesTotalHours(Talk-Time)SPINE-1train'' 11.973SPINE-1eval.12,0797.3SPINELtrain6.1293.4SPINE-2dev.1.941L1Total '' 32,122' 20.5Table1:SPEME-2evaluarious^teintrainingdataa)聲音模式這個大量連續(xù)聲音識別系統(tǒng)的聲音訓練是基于對使用了被迫排成直線的迭代和位于堆的決定樹的足夠估計。在華爾街旅行的聲音模式中最初使用了將某物排成直線的方式。在被迫排成直線的迭代中,我們在依靠型模式中使用了一個單獨的最大可能線形回歸方式和各種變體來提高每個說話部分的直線排列的質(zhì)量。直線排列完后,模式被決定樹估計,程序被重復(fù)用于提高隊列和模式參數(shù)的估計。在第一個聲音模式過程中,我們使用了標準的39維MFCC參數(shù)的有依靠性的(進入語和通過語)三角電話。在第二個階段(自適應(yīng)過程)聲音模式是通過對數(shù)到頻譜聲碼器類型和聲音道束長度使其正?;?。4.3語言模式對于2001年11月的SPINE—2的評估工作,正如表格1所示的,從32千赫茲的聲音中,我們提高發(fā)展了一級種語法的語言模式。這個工作是基于這樣的事實而進展的。從SPINE—1到SPINE—2的轉(zhuǎn)變主要是電報和在戰(zhàn)場環(huán)境下用于完成目標搜索的特征任務(wù)。我們的語言等級模式是基于3種語言等級的:行(X坐標)列(Y坐標)和名字(用戶名)。SPINE—2的訓練數(shù)據(jù)通過檢測被分成行和列。在這項任務(wù)中,這里有被分成多重等級模式的句子。例如,被拼作VOX(奧斯卡女性勝利者)有基本的行格的因素。(在SPINE—2中“勝利”和“奧斯卡”時行等級的組成部分)。為了處理這些含糊不清的事情,我們設(shè)置了一個半自動化的系統(tǒng),這種系統(tǒng)源于為DARPA通信任務(wù)而發(fā)展訓練的N種語法等級模式。為了提高識別力,這個語言工作模式同樣包括復(fù)合詞。在2001年11月的語言模式中包括115個復(fù)合詞。這些復(fù)合詞被人類視察的訓練數(shù)據(jù)所決定。在本文中,我們考慮到通過使用決定詞匯復(fù)合的引導數(shù)據(jù)方法來提高SPINE的語言模式。這種方法使用了直接的和間接的幾何平均去決定候選詞匯的復(fù)合。當前,我們的語言模式使用的被聚類的語言數(shù)據(jù)有1664個詞匯量,同時包括180個復(fù)合詞。4.4語言分割在自適應(yīng)過程中我們的語言分割方法是估計分割邊界,并且在決定性工作中使用自適應(yīng)語音模式系統(tǒng)。這個分割包括(有聲的和無聲的)兩種狀態(tài)的隱馬爾可夫模型。隱馬爾可夫模型是每個ASR(自適應(yīng)系統(tǒng))所具有的動力學結(jié)構(gòu)。通過不依賴于決定樹聚類模式的語言狀態(tài),一個語言狀態(tài)由高四種復(fù)合物所構(gòu)成。(0)一個無聲的狀態(tài)通過所有的無聲的不依賴的狀態(tài)所復(fù)合構(gòu)成(例如呼吸笑?沉默等)。隱馬爾可夫模型(有關(guān)于語言的600個混合復(fù)合詞和關(guān)于無聲的288個混合復(fù)合詞)是正常的。例如這個混合體將總體的總量看成一。一個迭代的研究表現(xiàn)為每個會議中使用兩個隱馬爾可夫模式。通過最好的有軌道的網(wǎng)絡(luò)通道,有聲和無聲的分界點被決定。通過使用被隔離少于0.25的兩個富有啟發(fā)性的語言分割,使分割被提高,同時少于0.1秒的語言分割被刪除。最終,為了避免摩擦產(chǎn)生的中斷的或其他低能量的聲音的干擾,我們將所有語言分割被0.25秒的時隙所加寬。我們需要指出的是:這個語言分割方法(手段)避免了訓練分割有聲和無聲的必要,同時也避免了聲音在VAD和部分滿足自適應(yīng)聲音模式過程之間的不匹配現(xiàn)象。4.5聲音自適應(yīng)在SPINE工作中,說話者和環(huán)境都是十分廣泛的。所以,這個聲音自適應(yīng)識別系統(tǒng)能與測試條件相適應(yīng)時至關(guān)重要的。為處理這些情況,我們已經(jīng)引進了幾種技術(shù),能在兩個較寬的等級(特征基礎(chǔ)和模式基礎(chǔ))技術(shù)上被考慮。在特征基礎(chǔ)技術(shù)中,觀察者例如特征矢量輸入到語音識別系統(tǒng)中和模式基礎(chǔ)的特征參數(shù)(例如HMM和各種類型)被修改。通常情況下,特征提取的例子有:對數(shù)倒頻譜聲碼器,通常地域的聲音長度和通常的倒譜種類。在CMS中,對數(shù)倒頻譜特征向量的周期平均值被估計,同時,(1)從對數(shù)頻譜特征參數(shù)中被計算。在VTLN中,最好的因素通過識別的手抄本給出的,由最大可能線性自適應(yīng)數(shù)據(jù)所決定。這些過程伴隨著通常的特征類型。在SPINE的訓練和解碼體系中,這些方法已經(jīng)被引用。模式及出資適應(yīng)方式能被進一步分類成兩個大的等級:直接的和間接的。在直接的自適應(yīng)中,隱馬爾可夫模式參數(shù)被直接引用。然而,在間接的方式中,一系列共享的變體首先被估計,然后被應(yīng)用到隱馬爾可夫模式中。通常,最大后驗性估計被用作直接方式,通過許多知識的確組合使?jié)M溢的數(shù)據(jù)稀疏。在間接方式中,這種變體通常在最大可能狀態(tài)下估計。當前,在最大后驗性方面,同時應(yīng)用了這兩種方法,并且證明提高了結(jié)果。一些自適應(yīng)模式是可行的:監(jiān)督的戰(zhàn)勝非監(jiān)督的。在非監(jiān)督的情形下,這個抄本是不可知的,并且應(yīng)該不估計成一些形式,或者作為一個單獨的最好的串,或者是一個句子格子。在增加性的自適應(yīng)系統(tǒng)中,模式去適應(yīng)充足的數(shù)據(jù)而變得可用,并且新的模式被用作對即將來臨的數(shù)據(jù)的解碼。反過來說,就是即將來臨的數(shù)據(jù)被用作(再次)適應(yīng)模式。在阻止的自適應(yīng)系統(tǒng)中,當所有數(shù)據(jù)可行(就緒)時,自適應(yīng)才開始工作。我們來考慮下面幾個自適應(yīng)列表:最大可能線形回歸(MLLR)(1)增加的/區(qū)間(2)單極的/多極的(3)最好的串/單詞格子最大后驗線性回歸(MAPLR)(1)區(qū)間(2)最好的串/單詞格子(3)回歸等級樹我們最初的SPINE—2系統(tǒng)使用了一個等級,阻止性的最大可能線性回歸方式和各種變體能從一段話中得知語音識別的單詞后驗概率。盡管在Hub--5工作方面取得了一些成就,但是在SPINE—2工作中從單一級的回歸到六等級的回歸的擴展起了關(guān)鍵作用。我們認為這是由于在SPINE的工作中,比起Hub--5來說,使用了較小數(shù)量的自適應(yīng)數(shù)據(jù)。這將激勵我們?nèi)橐粋€物力學的多種的使用回歸等級樹的MAP自適應(yīng)系統(tǒng)去奮斗。在下一階段中,我們將報道擁有更多自適應(yīng)性的技術(shù)。5.評估工作用于2001年11月的SPINE—2的評估數(shù)據(jù)包括64對說話者3.5小時的立體錄音(其中2.8小時用于真正意義上的說話)。按平均值計算,128個會議的每個邊界包括1.3分鐘(78秒)的說話準備活動。5.1分割對于我們的SPINE—2來說,當自動的和手動的語言分割被使用時,通過計算分類框架和單詞錯誤率來評估聲音分割。我們最初的系統(tǒng)是使用單回歸類的梅爾方式和對角線協(xié)方差變換。結(jié)果如表格一所示。我們可以看到,在收集聲音的活動中,有一個最初的以7.44%為比率的分類框架。第一個自適應(yīng)過程結(jié)束后,分割提供較少的錯誤率(最初分類框架的錯誤率是6.93%),并且這個識別系統(tǒng)能更好地重新鑒定已經(jīng)被誤認為是說話聲的安靜環(huán)境。(例如,插入語句的數(shù)量從172下降到108)。在自動和手動的分割之間,單詞錯誤率有明顯的不同(純粹的0.5%)。ProcessingStageAutomaticHand(a)忙)何F■irst-Pass7.44%17241.8%41.0%MLLR-16.95%10833.9%33.4%MLLR-26.93%11233.2%32.7%表格2:分割的演示總結(jié)。結(jié)果被用作(a)說話聲/安靜環(huán)境框架分類的錯誤率;(b)在安靜的環(huán)境下插入語音的數(shù)目。(c)自動分割的單詞的錯誤率。(d)手動電報分割的單詞錯誤率。5.2單詞錯誤分析表格3通過迭代的自適應(yīng)過程和對于各種SPINE—2的完全實時性的結(jié)構(gòu)的分析總結(jié)了單詞的錯誤率。在表格3中,反復(fù)地說“0”是第一個識別過程。實時性因素在1.7GHz的英特兒奔騰4的單獨過程中被測試(計算)。實時性因素包括在自動分割中的過程時間。在設(shè)有自適應(yīng)性的基礎(chǔ)的系統(tǒng)下,我們發(fā)現(xiàn)在1.8x實時性的條件下錯誤率為41.8%,更進一步說,僅基于梅爾方式的變換的增加性自適應(yīng)系統(tǒng),在說話過程中,以模式為代價能減少將近10%的錯誤率。事實上,如表3所示是基于通常意義上的提高。這個一種通道增加的自適應(yīng)系統(tǒng)于我們的多通道的自適應(yīng)系統(tǒng)進行了比較,在9x的實時性下,2001年11月的系統(tǒng)有37.5%的錯誤率。在第二個自適應(yīng)通道中,但回歸梅爾方式和對角線協(xié)方差變換的使用,使單詞的錯誤率下降(叢41.8%下降到33.2%),然而,正如許多在方面2報道的,在2000年和2001的創(chuàng)作中,可能是由于缺少足夠的自適應(yīng)數(shù)據(jù)(新增加的多于一個的變換通常降低了系統(tǒng)的功能。在表格3中,33.8%的單詞錯誤率比33.2%的單詞錯誤率)。最終,使用了單級的輸出最佳比重的單詞后驗概率,比起單獨基線的MELL回歸方式和不一致的變換來說,提供了一個減少錯誤率的方法。進一步地說,這種用于單詞格子標志的綜合技術(shù)提高了純粹的0.4%。但是,我們要指明,這個提高以較高的計算頻率為代價的。(例如:16.4x的實時性比6.4x的實時性)。SystemDescriptionWordErrorRate(%)RealTimeIterOEter1Iter2何Baseline,NoAdapt.41.8亠--1.8(b)SinglePassInc.Adapt37.7——20(c)1Reg.ChssMLLR41.833.933.25.29)6Reg.ChssMLLR41.834.233.846⑹Single-BestMAPLR41.833.331.96.4(0LatticeMAPLR41.83Z731.516.4表格3:SPINE—2評估系統(tǒng)的單詞錯誤率和實時性因素:(a):沒有說話人適應(yīng)的基礎(chǔ)系統(tǒng);(b):在單級過程中有增加性的體系合作;(c):沒有全球范圍的單級梅爾回歸;(d):使用6個等級的梅爾回歸體系;(e):6結(jié)論這篇論文說明了當前美國科羅拉多州大學的SPINE—2評估系統(tǒng)的幾方面的改進。當前,我們使用了CU最新發(fā)展的Sonic的ASR體系。目前在16.4的實時性條件下,我們最好的單級識別系統(tǒng)的單詞錯誤率大約是31.5%。比較而言,在相同的條件下,基于MFCC特征參數(shù)的最好單機識別系統(tǒng)的錯誤率是32.5%。我們需要指出的是這兩個最好的系統(tǒng)有各自的88和121的實時性因素?;谏厦孢@些比較,我們認為本論文中提到系統(tǒng)再次象征了SPINE—2的單級識別的藝術(shù)性區(qū)域。RECENTIMPROVEMENTSINTHECL:SONICASRSYSTEM
FORXOISYSPEECH:THESPINETASKBjyanPellomandKadriHaciogluCenterforSpokenLanguageResearch
UniversityofColoradoatBoulder
{pellom^hacloglu}?cslr.Colorado?eduABSTRACTInthispaperwereportonrecentimprovementsmtheUniversityofColoradosystemibitheDARPA.,rNRLSpeechinNoisyEmironments(SPINE)task.Inparticular,wedescribeoureffortsonimprovingacousticandlanguagemodelingforthetaskBudinvestigatemethodsforonsnpemsedspeakerandenvironmentadaptationfromliimteddata.WeshowthatrheMAPLRadaptationmethodontperfbnnssingleandmultipleregressionclassMLLRontheSPINEtask.OurcurrentSPINEsystemusestheSonicspeechrecogniiionenginethatwasrecentlydevelopedattheUniversityofColorado.Thisswtemisshowntohaveawordenorrateof31.5%ontheSPINE-2evaluationdata.Theseiniproveinentsamounttoa16%reducrioninrelativeworderrorratecomparedtoourpreviousSPINE-2systemfieldedintheNov.2001DARPA/NRLevaluation.INTRODUCTIONTheSpeechinNoisyEnvironments(SPINE)taskattemptstomeasureandinspireiiiiproveinentsinstate■血亡processingforrobustcontinuonsspeechlecognilion[1].Thetaskhasseveralchallenges:limitedtask-dependenttrailingdata(~20hours),multiplemilitarvrnoiseenvironmentsitibothtrainingandtesting.UDsegmentedaudiostreamsaswellasalimitedamountofspeechpertasksessionforrecognizeradaptation.InNovembeiof2000(SPINE-1)andNovember2001(SPIKES')theNavalResearchLaboratory7(NRL)evaluatedsystemsonthetaskwithsupp-ortbyDAKPA.Pairicipatrngsitesinthe2001evaluationincluded:SRI:EBM,University7ofWasiiington:UniversityofColorado(CU):AT&T,theOregonGraduateInstitute(OGI):MississippiState,ATR,andCarnegieMellonUniversity(C'MU).SianyofthesesiteshavepreviouslyreportedresultsonSPINE-1[2-4]andSPINE-2tasks[5-8].Thebestperformingswtemsonthattasku^edadaptationineitherthefearureofmodel?domamandalsoincludedtheuseofmultipleparallelspeechfecognizeistrainedfromseveralfeaturetyp<es(e.g.?MFCC:PLP,rootcepstrum).Outputfromeachrecognizerisgenerallycombinedthroughah^othesisfiisionmethodtoproduceasingl£outputthatislowerthanth£enorratesofanysinglerecognizer(e.g.?se?[5,6]).TheUniversityofColoiadoparticipatedinbothSPINE-1[4]BudSPINE-2evaluations.OurNaveniber2001systemwa&foithefirsttimebasedontheUniversityofColoradospeechrecognizernamedSome[9].Duringthatevaluationoursinglebestlecognizeioutputhadanofficialerrorrateof37.5%atadecodingspeedof9timesreal-rime.Inthispaper,wedescriberecentimprovementsbothmtennsofgenerallecogxiizerdevelopmentandtask-dependentmodeling.Wefocusonissu亡£relatedtoloweringtheerrorrateofoursingle-bestrecognizerfieldedontheSPINEtaskanddonotconsidertheissueofrecognizerfiisioninthiswork.THESPINETASKTheSPINEtaskusestheARCONComniimicabiliWExercise(ACE)thatwasoriginallydevelopedtotestconmiuiiicaticinsystems[10]andconsistsofcollaborationbetweenapairoftalkerswhoparticipatemabattleshipsimulation.OneparticipantplaystheroleofaFiringOfficer(e.g.^controllingweapon5>vstem^suchasalasercannonandmines)whiletheotherparticipantpbystheroleofaSearchOfficer(e.g..mamiingtheradarandsonarequipment).Eachplayerissituatedina.separatedsoundisolatedroomandusemilitaryhandsetsandheadsetstharareappropriateforthesimulatedacousticconditions.Duringrheexercise,thetwoparticipantscollaboratetosearchanddestroytargetsbydeclaringandconfirminggridlocations(x-axis&y-ax:iscoordinares)tofireupon.ThegridlocationsinSPINE-1consistedofconfiisablewordsftomtheDiagnosticRhym亡Test(DRT).ForSPINE-2.thegridpointsconsistedoflessconftisablemilitmiywords.Foreachbooth,noiseindicativeoftypicalmilitaryenvironmentsisplayedtliiougliloudspeakers.TheSPINE-1evaluationdataconsideredsixnoiseetwironnients:aircraftcarriercontroldecisioncenter,AWACSairplane;amilitaryvehicle,amilitaryfieldshelter,anofficeenvironmentandaquietenviiomnent.SPINE-2extendsonSPINE-1databyconsideringthesixnoiseinadditiontomilirai>rtankandhelicoptereuvironmeDts.Theresultingnoisyspeechfromeachboorhisrecordedthroughhead-wornniicfophonesbeforebeingpassedthroughasimulatedconmiunicatioDSchannel.Inthispaperweconsideronlyspeechrecognitiononthenou-codedspeechchannel.THESONICASRENGESE3.LCurrentASRSystemArchitectureOurmostrecentfieldedevaluations^teminNovember2001(SPINE-2)wasdesignedusingSoni.c:TheUniversityofColoradolargevoca.bulai^rcontinuousspeechrecognitionsystem[9].SonicisbasedoncontinuousdimityhiddenMarkov(CDHMM)acousticmodels.Contextdependenttripboneacousticmodelsareclusteredusingdecisiontre^s.Eachmodelhasthreeemittingstateswithgammaprobabilitydensityfimetionsfordurationmodeling.Featuresareextracted曲12NfFCCs.energy;andthefirstandseconddiSerencesoftheseparameters,resultingmaieaturevectorofdimension39.Tliesearchnem-orkisareentrantstatictree-lexicon.Therecognizerimplementsatwo-passsearchstrategy.Thefirstpassconsistsofatime-s^Tichronous,beain-pronedViterbitoken-passingsearch.Crosswordacousticmodelsand3-gramor4-gramlanguagemodels(inanapproximateandefficientway)areappliedinthefirstpassofsearch.Thefirstpasscreatesalatticeofwordends.Duringthesecondpass,theresulringword-latticeisconvertedmtoaword-graph.Advancedlanguagemodels(e.g.dialog-actandconceptbased,longspan)canbeusedtorescorethewordgraphusinganA搟algorithmortocomputeword-posteriorprobabilitiestoprovideword-levelconfidencescores.Sonicprovidesanintegratedenviroiuneiitthatincorporatesvoiceactivitydetectio口(VAD):speechenliancementaswellasvariousfeatureandmodel-basedadaptationandDormalizationmethods.Therecognitionarcliitecnweprovidessupportforrapidportabilitytonewlanguages.In2002?Sonicwasport亡d&omEnglishtotheSpanish,'Turkish,andJapaneselanguages.GeneralRecentImprovementsOurSPINE-2systeminNov.2001representedominitialmiplementationoftheSonicspeechrecognizer.Thefieldedsystemusedaflatstnicturedlexicon,class-basedtrigramlanguagemodelconsistingofmanuallydeterminedwordcomponndEi.smglelegressioniterativeMLLRmeanandglobalvariancescalingtransform:andgeneralizedtriphoneacousticmodels.SinceNov2001.weincludedanefficientlexicaltreesearch,integratedadecisiontriphoneacousticmodeltraineraddedsupportfor斗-gramsintoourfirst-passsearch,miplementeddata?dni/£iLwordcompounding,andincorporatedadditionalfeaturenoimaJizarioii(cepstralvariancenomiahzation,VTL-N)andspeakeradaptation(MAPL-Radaptation)methods.SPINESYSTEMOVERATE科OurSPINEsystemconsistsofanovelinregratedspeechdetectionandmultiplepassrecognitionsearchasshowninFigure1.Duringeachrecognitionpass,avoiceactivity'detector(VAD)isd\Tiaffiicallyconstmcted&omtheaurenradaptedsystemacousticmodels.TheVADgeneratesasegmentationofthenoisyaudiomtoutteianceunitsandLVCSRisperfomiedoneachdetectedspeechregion.Theresultingoutput(aconiidencetaggedlatticeorwordstring)isthenusedtoadapttheacousticmodelmeansandvariancesinanunsupeni^edfashion.Theadaptedacousticmodelsarethenreappliedtoobtainanimprovedseginentation,recognitionh^othesi^,andnewsetofadaptedsj^stemparamerers.Theintegratedadaptationprocedurecanberepeatedseveraltimesresultinginsequentialmiprovementstobothsegmentationandrecognitionhypotheses.Figure1:DiagramofSPINEmulti-passrecognirionsearch.FortheSPINEtask:wehavefoundthattightcouplingbetweenthesegmentationandfecognirionsystemisessentialforrobustperformance.Furthermoreweillustratehowthisintegratedapproachleadstosimplermethodsforvoiceactivitydetectionfornoisyenvifonments.ThefollowingsectionsdescribeourcurrentswtemfortheSPINEtaskindetail.4?LTrainingDataAcousticandlanguagemodeltrainingdatafortheSPINE-2evaluationconsistedofconversationsthatwereusedforbothtrainingandtestinginrhepreviousSPINE-1evaluationandconversationsideslistedastrainingsnddevelopmenttestfortheSPINE-2evaluation.FortheSPINE-2evaluationweoptimizedourrecognizersettingsontheprovided1.1-hourdevelopmenttestdatabeforeiucarporatmgboththedataandrecognizeriugsmtoourfinals^tem.Table1sumniaiizesthetramuigdatausedinrheespeiimentsdescribedinthispaper.TrainingDataSourceNumberofUtterancesTotalHours仃alk-Time)SPINE-1train11.9738.7SPINE-1evat.12,0797.3SPINE-2train6,129加SPINE-2dev.1,9411.1Total32,12220.5Table1:SPESE-2evaluationsystemtrainingdata4J.AcousticModelTheacoustictrainerforSonicisbasedonsequentialestimationusingViterbiforcedalignmentandphoneticdecisiontreestateclustering[12].Alignmentswereinitiallyboot-strappedosmgWallStreetJournalacousticmodels.DuringViterbiforcedahgnmenrweusedssingleMLLRmeanandvariancetransfofinonrhegendei-dependentmodelstoimproverhealignnienrqualityforeachspeakersession.Afteralignment,themodelsareestimatedusingdecisiontreestateclostenngandtheprocedureisrepeatedtoobtainimprovedalignmentsandmodelparameterestimates.Ourfirst-passacousticmodelsconsistofgendei-dependenc(mthin-wordandcross-word)tnphone^osmgstandard39-dimeDsionalMFCCfeatnies.Oursecond-pass(adaptationpass)acousticmodelsarenormalizedbybothcqistralvarianceandvocaltractlength[13].LanguageModelFortheSPINE-2evaluationinNov.2001wedevelopedaclassN-gramlanguagemodeltrainedfromthe32kutterancessho\minTable1.Thisworkwasmotivatedbythefactthatthegrid-pointlabelswerechanged&omSPEME-1toSPINE-2andclasslanguagemodelsprovidedaconvenientmeansforcaprurmgthetaskspecificwordusagefortargetingobjectsinthebattlesMpgame.Ourclasslanguagemodelwasbasedon3wordclasses:row(x-axis),colunrn(\r-axis)?andname(username).WordsweregroupedintorowandcolumnclassesthroughmspechonoftherrainingdataforSPINE-2.Inthista^kthereareseveralwordsthatcanbemodeledasbelongingtomultipleclasses.Forexample,thespokenwordsinthespellingof"'VON"(readas"VictorOscarNancyjoverlapwithelementsoftherowgridaxisclass('Victor'and"Oscar"arepartoftherowclassinSPINE-2).Todealwiththeseambiguities,weutilizedasenii-automaredtaggingswtenioriginallydevelopedfortrainingclassN-grammodelsfortheDARPAC^oniniiMiicatortask.Thetasklanguagemodelalsocontainswordcompoundsforimprovedrecognition.OurlanguagemodelfieldedinNov.2001contained115compoundsdeterminedbymanualinspectionofthetrainingdata.InthispaperweconsideredimprovingtheexistingSPINElanguagemodelbyusingthedatadrivenmethodproposedin[14]fordetemiiuiugwordcompounds.Thismethodusesrhegeometricalaverageofthedirectandreverse-bigranstodeteniiinecandidatewordcompounds.Ourcurrentlanguagemodelusingdatadrivenwordcompoimdclusteringhasavocabularyof1664wordsandincludes180wordcompounds.AudioSegmeutfHiouOuraudioseginentarionmethodirerarivelyestimatessegmentboundariesbetw>eenadaprationpassesandusestheadaptedsystemacousticmodelsindecision-making.Thesegmenterconsistsofa2-stafe(speedi/non-speecli)hiddenMarkovmodelthatisd^TiamicallyconstnictedoneachASKadaptationpass.Aspeechstateisconstmctedbycombiningthetop4mixturecomponents(bymixtureweight)fromthecontext-independentspeechstatesofourdecisiontreeclusteredmodels.Asilencestateisconstructedfromallmixtuiecomponentsofnon亡tchcontext-independentstates(e.g.3breath,laughter,garbage^silence).TheresultingHMMstates(600mixturecomponentsforspeech,288mixturecomponentsforsilence)arenormalizedsuchthatthemixtureweightssumtoone.AViterbisearchisperformedovereachsessioniismgthe2-stateHMMmodel.Thespeech/silenceboundariesaredeterminedthroughback-traciiigthebestpartthroughrhenetwork.Tliesegmentationsareimprovedusing2heuristics:(i)speechsegmentsseparatedbylessthan0.25aremerged,(ii)speech^egment^thatarelessthan0.10secondsindurationaredeleted.Finally,allspeechsegmentsaredilatedby0.25secondstoavoidcutoffofweakfticativesandotherlow-energy7sounds.Wepointoutthatthisaudiosegmentationapproachavoidsthe口ecessityofminingseparatespeech'non-speechmodelsandalsoavoidsacousticmismatchbetweenVADandsystemacousticmodelsinsubsequentadaptationpasses.4丘.AcousticAdaptationIntheSPIKEtaskbothspeakerandenvironmentvariabilityarequitelarge.So,theadaptationofthespeechrecognizertobettermatchthetestconditioniscrucial.Tocopewhsuchvariabilitywehaveiinplemeutedseveralteclmiquesthatcanbeconsideredmtwobroadclasses:feature-basedandmodel-basedtechniques.Infeatuie-basedmethodstheobsei\rations,i.e.thefeaturevectorsinputtothespeechrecognizer,andinmodel-basedmethodstheparametersoftheacousticmodels;i.e.HMMmean^andvariances,aremodified.Examplesoffeatine-basednomiahzationarecepstralmeauisubtraction(CMS),vocaltractlengthnormalization(VTLN)andcepstralvariancenoimahzation.InCX1Sthelong-teniiaverageofcepstralfeaturevectorsisestimatedandsubtractedfromthecomputedcepstralfeaturevectors.InVTLN?thebestwarpingfactorisderernunedbylinesearchingoverarangeofvaluestomaximizethelikelihoodoftheadaptationdata,giventherecognizedtranscription.The^eprocessesarefollowedbyffeatmevariancenomiaJization.ThesemethodshavebeenappliedduringbotbtraininganddecodinginourSPINEsystem.Model-basedadaptationmethodscanbefiinhercategorizedintotwobroadclasses:directandindirect.Indirectadaptation,theHMMmodelparametersaredirectlyadapted.However^intheindirectmethodasetofsharedrransfonnationsarefirstestimaredandthenappliedtotherespectiveHMMmodels.Usuallythemaximum3posteriori(MAP)estiinarionisusedforthedirectmethodbyincorporating^omea.priori,knowledgetoovercomedatasparseness.Intheindirectmethodthetiansfomiationsareosuallyestimatedmtheniaximunilikelihood(ML)sense.Arecentworkin[15,16]untfiesbothmethodsmtheMAPsenseanddemonstratesimprovedperformance.Severalmodesofadaptationarepossible;supen-isedvs.,unsiipenisedandblockvs.mcremental.Intheunsupendsedcase,thetranscriptionisnotkncrwnandshouldbeestimatedmsomefomi;eitherasasinglebeststringorawordlattice.Inincrementaladaptationthemodelsareadaptedasenoughdata,becomesavailable,andthenewmodelsareu^edtod亡cod亡theincomingdata=which,inturn,isusedtoreadaptthemodels.Inblockadaptation,theadaptationisstartedafteralldataisavailable.Weconsiderseveraladaptationschemes:likelihoodlinear代gr亡昭ionChfLLR):mcreniental/block,(ii)singleclassmultipleclasE>:(iii)beststring/wordlatticehlax血wma Im旳i代g代mon(hlAPLR):(i)block(ii)be^tstring/wordlattice(iii)regressionclasstree.OurinitialSPINE-2systemusedasingleclass,blockMLLRmeanandvariancetfansfomiusingthebeststringiromthespeechrecognizertaggedwithconfidencescores(wordposteriorprobabilities)derivedfromawordgraph.DespitesomeimprovementmtheHub-5task,extendingfromasingleregressionclassto6classesdegradesperfbimanceintheSPINEtask.WebelievethiskduetothesmalleramountofadaptationdatainSPINEcomparedwithHub-5.Thismotivatedustoworkwithadynamic卞亡rsionofmultipleclassMAPadaptationusingregressionclasstrees.Inthenextsection,wereportperformancegainsobtainedwithmoresophisticatedadaptationtechniques.EK4LUATIONTheNovember2001SPINE-2evaluationdataconsistedof64talker-pairconversationstotaling3.5hoursofstereoaudio(2.8hoursoftalk-time).Onaverage,eachofthe128conversationsidescontains1.3minutes(78seconds)ofspeechacthiw.5.L..SegmentationAudiosegmentationwasevaluatedbymeasuringtheframeclassificationandworderrorratesforourbaselineSPINEsystemwhenautoinaricandhand-labeledspeechsegmentswereused.Ourbaselines^temusessingleregressionclas^MLLRmeananddiagonalcovariancetransform.ResultsareshowninTable1.Weseethatthevoiceactivitydetectionmethodhasaninitialframeclassificationrateof7.44%(Tablela).Afterthefirstadaptationpassthesegmenterproducesfewererrors(finalframeclassificationerrorrateof6.93%)andth£recognizerisbetterabletorejectsilenceregionsthathavebeenmisclassifiedasspeech(e.g.?thenumberofinsertedwordsdropsfrom172to108).Theworderrorratedifferencebetweenautomaticandhand-segmenteddataisnegligible(0.5%absolute).ProcessingStageAuiofnaticHand(a)(b)(C)(d)First*Pass7.44%17241.8%41.0%MLLR-16.95%10833.9%334%MLLR-26.93%11233.2%32.7%Table2:SegmentationperbrrnancesuniniarvrResultsareshounfor(a)speech-silencefemeclassificationerrorrate;(b)numberofinsertedwordsduringsilenceregions;(c)worderrorrateforautomatic$£ginentation;(d)worderrorrateforhand-labeledsegmentation.AVordErrorAualyshTable3summarizesworderrorrates(WER)acrossiterativeadaptationpassesandtotalreal-timeprocessingfactorsforseveralSPINE-2systemconfigurations.Iteration"(FjnTable3reierstofirst-passrecognition.Real-timefoctorsaremeasuredonasingleprocessor1.7GHzIntelPentium4andincludeprocessingtimeincurredthroughautomaticEegnientariou.Ourbaselinesystemwithoutadaptationwasfoundtohavea41.8%WERat1.8xreal-time.FurthermoreincrementalonlineadaptationbasedonlyonMLLR.meantransformationprovidesnearlya10%relativereductioninerrorwithamodestcostintermsofprocessingspeed.Iniact?basedonthegeneralmiprovemenrslistedmSection3.1.thus1-passincremenraladaptationgystemcomparesfavorablywithourmultiplepassNov.2001systemwhichhasa37.5%WEKatreal-time.Theuseofsingleregressioncla^sMLLRmeananddiagonalcovariancetransformsiteratedover2adaptationpassespiovidegaconsiderablereductioninerror(errordropsfrom41.8%to33.2%).However,asmanysitesreportedinboththe2000and2001workshops,increasingtomorethanonetransformgenerallydegradesswtemperformanceperhapsduetolackofsufficientadaptationdata.(33.8%WERcomparedwith33.2%WERinT^ible3d).Finally,theNIAPLRalgorithmusingthesiugle-bestword-posteriorprobabilityweightedoutputprovidesameasurablereductionitierrorcomparedtothebaselineofasingleregressionMLL-R.meanandvariancetransfonn.Further,thegeneralizationofthetechniquetooperateontheword-htticerepresentarionprovidesanadditionalgainof0.4%absolute.Howeve匚wepomroutthatthisimpro^remeiitconiesatahighercompotationalcost(e.g.?lfi.4xreal-timecomparedwith6.4x).SystemDescriptionWordEnrorRate(
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030全球離網(wǎng)房車行業(yè)調(diào)研及趨勢分析報告
- 2025-2030全球高脈沖能量皮秒激光器行業(yè)調(diào)研及趨勢分析報告
- 月齡嬰兒情緒情感與社會性親子活動設(shè)計創(chuàng)造性撫觸游戲講解
- 2025【合同范本】建筑工程設(shè)計協(xié)議書
- 蔬菜配送合作合同范本
- 分期付款合同模板集錦
- 會簽單合同模板
- 全新對講機服務(wù)合同下載
- 勞務(wù)出資合伙協(xié)議合同
- 個人租車租賃合同范本
- 《建設(shè)工程監(jiān)理》課件
- 2019版新人教版高中英語必修+選擇性必修共7冊詞匯表匯總(帶音標)
- 初中八年級音樂-勞動號子《軍民大生產(chǎn)》
- 中層領(lǐng)導的高績效管理
- 小小銀行家-兒童銀行知識、理財知識培訓
- 機械基礎(chǔ)知識競賽題庫附答案(100題)
- 閱讀理解特訓卷-英語四年級上冊譯林版三起含答案
- 國庫集中支付培訓班資料-國庫集中支付制度及業(yè)務(wù)操作教學課件
- 屋面及防水工程施工(第二版)PPT完整全套教學課件
- 2023年上海青浦區(qū)區(qū)管企業(yè)統(tǒng)一招考聘用筆試題庫含答案解析
- 2023年高一物理期末考試卷(人教版)
評論
0/150
提交評論