美國(guó)科羅拉多州大學(xué)關(guān)于在噪聲環(huán)境下對(duì)大量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的改進(jìn)通信類中英文翻譯、外文文獻(xiàn)翻譯_第1頁(yè)
美國(guó)科羅拉多州大學(xué)關(guān)于在噪聲環(huán)境下對(duì)大量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的改進(jìn)通信類中英文翻譯、外文文獻(xiàn)翻譯_第2頁(yè)
美國(guó)科羅拉多州大學(xué)關(guān)于在噪聲環(huán)境下對(duì)大量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的改進(jìn)通信類中英文翻譯、外文文獻(xiàn)翻譯_第3頁(yè)
美國(guó)科羅拉多州大學(xué)關(guān)于在噪聲環(huán)境下對(duì)大量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的改進(jìn)通信類中英文翻譯、外文文獻(xiàn)翻譯_第4頁(yè)
美國(guó)科羅拉多州大學(xué)關(guān)于在噪聲環(huán)境下對(duì)大量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的改進(jìn)通信類中英文翻譯、外文文獻(xiàn)翻譯_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第 1 頁(yè) 共 13 頁(yè) 美國(guó)科羅拉多州大學(xué)關(guān)于在噪聲環(huán)境下對(duì)大量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的改進(jìn) -噪聲環(huán)境下說話聲音的識(shí)別工作 簡(jiǎn)介 在本文中,我們報(bào)道美國(guó)科羅拉多州大學(xué)關(guān)于噪聲環(huán)境下海軍研究語(yǔ)音詞匯系統(tǒng)方面的最新改進(jìn)成果。特別地 ,我們介紹在有限語(yǔ)音數(shù)據(jù)的前提下,為了了解不確定觀察者和變化的環(huán)境的任務(wù) (或調(diào)查方法 ),我們必須在提高聽覺和語(yǔ)言模式方面努力下工夫。在大量連續(xù)詞匯語(yǔ)音識(shí)別系統(tǒng)中 ,我們將展開 MAPLR 自適應(yīng)方法研究。它包括單個(gè)或多重最大可能線形回歸。當(dāng)前噪聲環(huán)境下語(yǔ)音識(shí)別系統(tǒng)使用了大量聲音詞匯識(shí)別的聲音識(shí)別引擎。這 種引擎在美國(guó)科羅拉多州大學(xué)目前得到了飛速的發(fā)展,本系統(tǒng)在噪聲環(huán)境下說話聲音系統(tǒng) (SPINE-2)評(píng)價(jià)數(shù)據(jù)中單詞錯(cuò)識(shí)率表現(xiàn)為 30.5%,比起 2001 年的 SPINE-2 來 ,在相關(guān)詞匯錯(cuò)識(shí)率減少16%。 1. 介紹 為獲得噪聲環(huán)境下的有活力的連續(xù)聲音系統(tǒng)的聲音,我們?cè)噲D在藝術(shù)的領(lǐng)域做出計(jì)算和提出改善,這個(gè)工作有幾方面的難點(diǎn):依賴訓(xùn)練的有限數(shù)據(jù)工作;在訓(xùn)練和測(cè)試中各種各樣的軍事噪聲存在;在每次識(shí)別適用性階段中,不可想象的聽覺溪流和有限數(shù)量的聲音。 在 2000 年 11 月的 SPIN-1 和 2001 年 11 月 SPIN-2 中,海軍研究詞匯通過 DARPT 在工作上給了很大的幫助。在 2001 年參加評(píng)估的種類有: SPIIBM,華盛頓大學(xué),美國(guó)科羅拉多州大學(xué), AT&T,奧瑞哥研究所,和梅隆卡內(nèi)基大學(xué)。它們中的許多先前已經(jīng)報(bào)道了 SPINE-1和 SPLNE-2 工作的結(jié)果。在這方面的工作中不乏表現(xiàn)最好的系統(tǒng) .我們?cè)谔匦院椭髂J街惺褂昧俗赃m應(yīng)系統(tǒng),同時(shí)也使用了被用于訓(xùn)練各種參數(shù)類型的多重聲音平行理論 (例如 MFCC、PCP 等 )。其中每種識(shí)別系統(tǒng)的輸出通常通過一個(gè)假定的熔合的方法來結(jié)合。這種方法能提供一個(gè)單獨(dú)的結(jié)果,這個(gè)結(jié)果的錯(cuò)誤率將比任何一 個(gè)單獨(dú)的識(shí)別系統(tǒng)的結(jié)果要低。 美國(guó)科羅拉多州大學(xué)參加了 SPIN-2 和 SPIN-1 的兩次評(píng)估工作。我們 2001 年 11 月的SPIN-2 是美國(guó)科羅拉多州大學(xué)識(shí)別系統(tǒng)基礎(chǔ)上第一次被命名為 SONIC(大量連續(xù)語(yǔ)音識(shí)別系統(tǒng) )的。在那次評(píng)估中,我們單獨(dú)的最好的系統(tǒng)在 9x 的實(shí)時(shí)性的解碼速率下,有 37.5%的錯(cuò)誤率,在那篇論文中,我們描述了當(dāng)前在通常識(shí)別系統(tǒng)發(fā)展的形式和工作依靠模式方面的改進(jìn) .我們之所以關(guān)心這些問題,是因?yàn)檫@些問題是關(guān)系到在單獨(dú)識(shí)別系統(tǒng)下降低噪聲環(huán)境下說話聲音的錯(cuò)識(shí)率,而不考慮那些工作中的識(shí)別融合問題 。 2. 噪聲環(huán)境下說話者工作任務(wù) . 這個(gè)在噪聲環(huán)境下的語(yǔ)音工作任務(wù)采用了 ARCON 通信實(shí)踐 ,本實(shí)踐的發(fā)展是源于測(cè)試第 2 頁(yè) 共 13 頁(yè) 通信系統(tǒng)和在戰(zhàn)略航中偽裝工作的說話音之間的合作,一個(gè)起發(fā)射辦公者的作用 (例中 ,武器控制系統(tǒng),一個(gè)激光火炮和能源 );另一個(gè)起接受辦公者的作用 (例如雷達(dá)和聲納裝置 )。每個(gè)角色在隔離房間中單獨(dú)發(fā)聲 ,使用軍事設(shè)備和一個(gè)適當(dāng)?shù)挠糜谀7碌穆曇粞b置設(shè)備。在這次訓(xùn)練中,兩個(gè)參與者通過查清和證實(shí)柵欄 (格子 )的位置 (x 軸 ,y 軸坐標(biāo) )去搜索和破壞目標(biāo)。這種位于 SPINE 2 中的格子能從診斷測(cè)試中組成含糊的句子。 SPINE 2 工作需要,這個(gè)格子位置的作用是組成了最小含糊軍事用語(yǔ) (對(duì)話 )。在每次過程中 ,通過典型的大聲說話者 ,軍事的噪聲環(huán)境被描述。這個(gè) SPINE 1 的評(píng)估數(shù)據(jù)包括六個(gè)噪聲環(huán)境: 1.飛機(jī)攜帶控制決定中心 2.AWACS 飛機(jī) 3.一個(gè)軍事工具 (媒體 ) 4.一個(gè)軍事領(lǐng)域 5.一個(gè)辦公環(huán)境 6.一個(gè)安靜環(huán)境。 SPINE 2 通過考慮增加到軍用坦克和直生機(jī)環(huán)境下的各種噪聲類型擴(kuò)展了SPINE 1 的數(shù)據(jù)。當(dāng)通過一個(gè)類似通信通道的環(huán)境中時(shí) ,每一種類型中來的噪聲被通過頭部損壞的麥克風(fēng)記錄。在本文中 ,我們僅考慮沒有編碼的 聲音頻道中的說話聲識(shí)別系統(tǒng)。 3. 這個(gè)大量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的 ASR 引擎 . 3.1 當(dāng)前 ASR 的體系設(shè)計(jì) 我們當(dāng)前用于實(shí)踐的 2001 年 11 月的 SPINE-2 是應(yīng)用了 SONIC 而設(shè)計(jì)的。即美國(guó)科羅多州大學(xué)大量連續(xù)說話聲系統(tǒng)。 SONIC 是基于連續(xù)密度的隱馬爾可夫聲音模式。背景依靠三角電話,聲音模式是依靠決定樹的。每種模式有三個(gè)發(fā)射地域(空間),用 倫琴 可能密度功能作為過度模式。特征參數(shù)被提取 ,(例如 12 個(gè) MFCC 參數(shù),能量和這些參數(shù)第一 .第二方面的不同點(diǎn))從而得到一個(gè) 39 維的特征向量(參數(shù))。這個(gè)網(wǎng)絡(luò)的研究工作 落在重構(gòu)一個(gè)穩(wěn)態(tài)樹。這個(gè)識(shí)別器包含一項(xiàng)兩個(gè)通往研究的目標(biāo)。其中第一個(gè)過程包含時(shí)間同步。被用于研究的 迭代 的 修剪梁。允許通過的聲音模式和 3.4 種語(yǔ)法 .語(yǔ)言模型(用一個(gè)大概的有效的方式)在第一個(gè)過度模式中被引用。第一個(gè)過程給出了句子結(jié)束點(diǎn)的框架。在第二個(gè)過程中,這個(gè)句子格子結(jié)果被改變成一個(gè)句子表 /串。先進(jìn)的語(yǔ)言模式(例如活動(dòng)句子和基礎(chǔ)概念)能被用作重新劃分使用 A*算法的句子表或?yàn)楂@得滿意的結(jié)果去計(jì)算 .預(yù)測(cè)句子的后驗(yàn)概率。 SONIC 提供了一個(gè)整體的環(huán)境。這個(gè)環(huán)境包括合成語(yǔ)音活動(dòng)搜索,說話聲增加和各種特征及 模式基礎(chǔ)適應(yīng)的一般方法。這個(gè)識(shí)別設(shè)計(jì)為快速通往新的語(yǔ)言環(huán)境提供支持。在 2002年里, SONIC 從英語(yǔ)識(shí)別中被推廣到西班牙語(yǔ)和日語(yǔ)等等語(yǔ)言中去了。 3.2 當(dāng)前意義上的提高 我們 2001 年的 SPINE 2 系統(tǒng)代表(象征)了我們?cè)诖罅窟B續(xù)語(yǔ)音識(shí)別系統(tǒng)方面的最初成就。這個(gè)系統(tǒng)目前使用一個(gè)廣闊的字典結(jié)構(gòu)。它包括三點(diǎn)基礎(chǔ)等級(jí)語(yǔ)法語(yǔ)言模式組成的人類決定的復(fù)合性詞匯,單回歸梅爾模式和全球廣泛的各種變體以及通常意義上的三點(diǎn)式聲第 3 頁(yè) 共 13 頁(yè) 音模式。自從 2001 年 11 月后,我們開始研究更加高效的詞匯樹。這種詞匯樹將拼湊聲音模式,支持四種語(yǔ)法 輸入,完成數(shù)據(jù)引導(dǎo)語(yǔ)言合成,重組外加特征參數(shù)(例如對(duì)數(shù)頻譜聲碼器,VTLN 等)和說話人自適應(yīng)模式。 4. SPINE系統(tǒng)概述 如表 1 所示,我們的 SPINE 體系包括一個(gè)高度完整的語(yǔ)言感應(yīng)器和多路識(shí)別通路。在每次識(shí)別過程中,聲音感應(yīng)器根據(jù)當(dāng)前的自適應(yīng)聲音模式重新劃分結(jié)構(gòu)。這個(gè)語(yǔ)音感應(yīng)器將產(chǎn)生的噪音視頻轉(zhuǎn)化為聲音單元,并且每個(gè)聲音感應(yīng)器的識(shí)別單元中的 LVCSR 被應(yīng)用。這時(shí),這個(gè)輸出結(jié)果(一個(gè)可信的格子或聲音串)被用于聲音自適應(yīng)模式和一個(gè)非監(jiān)督方式下的類型。那時(shí),這個(gè)自適應(yīng)聲音模式被再次應(yīng)用到一個(gè)被提高的分割,識(shí)別假想和 一系列新的適應(yīng)體系參數(shù)。為了提高識(shí)別和識(shí)別假想兩個(gè)方面,這個(gè)完整的自適應(yīng)程序被多次重復(fù)使用。 當(dāng) SPINE 工作時(shí),我們會(huì)發(fā)現(xiàn)分割和識(shí)別器之間的緊密的組成部分是識(shí)別器的最關(guān)鍵組成部分。進(jìn)一步說,我們認(rèn)為這個(gè)完整的方式是在噪音環(huán)境下如何將一些簡(jiǎn)單的方式應(yīng)用到語(yǔ)音的識(shí)別活動(dòng)中來的。以下的部分將從細(xì)節(jié)上描述我們的識(shí)別體系。 4.1 訓(xùn)練數(shù)據(jù) 作為 SPINE 2 系統(tǒng)評(píng)估的聲音和語(yǔ)言訓(xùn)練數(shù)據(jù)不僅保留了先前 SPINE 1 的訓(xùn)練和測(cè)試,而且為了 SPINE 2 系統(tǒng)的提高,還發(fā)展了訓(xùn)練和測(cè)試的部分。對(duì)于 SPINE 2 的評(píng)估,在將數(shù)據(jù)和識(shí)別設(shè)備載入我們最終的系統(tǒng)時(shí),我們的識(shí)別裝置以 1.1 小時(shí)的發(fā)展測(cè)試數(shù)據(jù)。表格 1 總結(jié)了本課題中所用于實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)。 第 4 頁(yè) 共 13 頁(yè) a) 聲音模式 這個(gè)大量連續(xù)聲音識(shí)別系統(tǒng)的聲音訓(xùn)練是基于對(duì)使用了被迫排成直線的 迭代 和位于堆的決定樹的足夠估計(jì)。在華爾街旅行的聲音模式中最初使用了將某物排成直線的方式。在被迫排成直線的 迭代 中,我們?cè)谝揽啃湍J街惺褂昧艘粋€(gè)單獨(dú)的最大可能線形回歸方式和各種變體來提高每個(gè)說話部分的直線排列的質(zhì)量。直線排列完后,模式被決定樹估計(jì),程序被重復(fù)用于提高隊(duì)列和模式參數(shù)的估計(jì)。在第一個(gè)聲音模式過 程中,我們使用了標(biāo)準(zhǔn)的 39 維MFCC 參數(shù)的有依靠性的(進(jìn)入語(yǔ)和通過語(yǔ))三角電話。在第二個(gè)階段(自適應(yīng)過程)聲音模式是通過對(duì)數(shù)到頻譜聲碼器類型和聲音道束長(zhǎng)度使其正?;摹?4.3 語(yǔ)言模式 對(duì)于 2001 年 11 月的 SPINE 2 的評(píng)估工作,正如表格 1 所示的,從 32 千赫茲的聲音中,我們提高發(fā)展了一級(jí)種語(yǔ)法的語(yǔ)言模式。這個(gè)工作是基于這樣的事實(shí)而進(jìn)展的。從SPINE 1 到 SPINE 2 的轉(zhuǎn)變主要是電報(bào)和在戰(zhàn)場(chǎng)環(huán)境下用于完成目標(biāo)搜索的特征任務(wù)。我們的語(yǔ)言等級(jí)模式是基于 3 種語(yǔ)言等級(jí)的:行( X 坐標(biāo))列( Y坐標(biāo))和名字(用戶 名)。SPINE 2 的訓(xùn)練數(shù)據(jù)通過檢測(cè)被分成行和列。在這項(xiàng)任務(wù)中,這里有被分成多重等級(jí)模式的句子。例如,被拼作 VOX(奧斯卡女性勝利者 )有基本的行格的因素。(在 SPINE 2 中“勝利”和“奧斯卡”時(shí)行等級(jí)的組成部分)。 為了處理這些含糊不清的事情,我們?cè)O(shè)置了一個(gè)半自動(dòng)化的系統(tǒng),這種系統(tǒng)源于為DARPA通信任務(wù)而發(fā)展訓(xùn)練的 N 種語(yǔ)法等級(jí)模式。為了提高識(shí)別力,這個(gè)語(yǔ)言工作模式同樣包括復(fù)合詞。在 2001 年 11 月的語(yǔ)言模式中包括 115 個(gè)復(fù)合詞。這些復(fù)合詞被人類視察的訓(xùn)練數(shù)據(jù)所決定。在本文中,我們考慮到通過使用決定詞匯 復(fù)合的引導(dǎo)數(shù)據(jù)方法來提高SPINE 的語(yǔ)言模式。這種方法使用了直接的和間接的幾何平均去決定候選詞匯的復(fù)合。當(dāng)前,我們的語(yǔ)言模式使用的被聚類的語(yǔ)言數(shù)據(jù)有 1664 個(gè)詞匯量,同時(shí)包括 180 個(gè)復(fù)合詞。 第 5 頁(yè) 共 13 頁(yè) 4.4 語(yǔ)言分割 在自適應(yīng)過程中我們的語(yǔ)言分割方法是估計(jì)分割邊界,并且在決定性工作中使用自適應(yīng)語(yǔ)音模式系統(tǒng)。這個(gè)分割包括(有聲的和無聲的)兩種狀態(tài)的隱馬爾可夫模型。隱馬爾可夫模型是每個(gè) ASR(自適應(yīng)系統(tǒng) )所具有的動(dòng)力學(xué)結(jié)構(gòu)。通過不依賴于決定樹聚類模式的語(yǔ)言狀態(tài),一個(gè)語(yǔ)言狀態(tài)由高四種復(fù)合物所構(gòu)成。( 0)一個(gè)無聲的狀態(tài)通過所 有的無聲的不依賴的狀態(tài)所復(fù)合構(gòu)成(例如呼吸 .笑 .沉默等)。隱馬爾可夫模型(有關(guān)于語(yǔ)言的 600 個(gè)混合復(fù)合詞和關(guān)于無聲的 288 個(gè)混合復(fù)合詞)是正常的。例如這個(gè)混合體將總體的總量看成一。一個(gè) 迭代 的 研究表現(xiàn)為每個(gè)會(huì)議中使用兩個(gè)隱馬爾可夫模式。通過最好的有軌道的網(wǎng)絡(luò)通道,有聲和無聲的分界點(diǎn)被決定。通過使用被隔離少于 0.25 的兩個(gè)富有啟發(fā)性的語(yǔ)言分割,使分割被提高,同時(shí)少于 0.1 秒的語(yǔ)言分割被刪除。最終,為了避免摩擦產(chǎn)生的中斷的或其他低能量的聲音的干擾,我們將所有語(yǔ)言分割被 0.25秒的時(shí)隙所加寬。我們需要指出的是:這個(gè) 語(yǔ)言分割方法(手段)避免了訓(xùn)練分割有聲和無聲的必要,同時(shí)也避免了聲音在 VAD 和部分滿足自適應(yīng)聲音模式過程之間的不匹配現(xiàn)象。 4.5 聲音自適應(yīng) 在 SPINE 工作中,說話者和環(huán)境都是十分廣泛的。所以,這個(gè)聲音自適應(yīng)識(shí)別系統(tǒng)能與測(cè)試條件相適應(yīng)時(shí)至關(guān)重要的。為處理這些情況,我們已經(jīng)引進(jìn)了幾種技術(shù),能在兩個(gè)較寬的等級(jí)(特征基礎(chǔ)和模式基礎(chǔ))技術(shù)上被考慮。在特征基礎(chǔ)技術(shù)中,觀察者例如特征矢量輸入到語(yǔ)音識(shí)別系統(tǒng)中和模式基礎(chǔ)的特征參數(shù)(例如 HMM 和各種類型)被修改。通常情況下,特征提取的例子有:對(duì)數(shù)倒頻譜聲碼器,通常 地域的聲音長(zhǎng)度和通常的倒譜種類。在CMS 中,對(duì)數(shù)倒頻譜特征向量的周期平均值被估計(jì),同時(shí),( 1)從對(duì)數(shù)頻譜特征參數(shù)中被計(jì)算。在 VTLN 中,最好的因素通過識(shí)別的手抄本給出的,由最大可能線性自適應(yīng)數(shù)據(jù)所決定。這些過程伴隨著通常的特征類型。在 SPINE 的訓(xùn)練和解碼體系中,這些方法已經(jīng)被引用。模式及出資適應(yīng)方式能被進(jìn)一步分類成兩個(gè)大的等級(jí):直接的和間接的。在直接的自適應(yīng)中,隱馬爾可夫模式參數(shù)被直接引用。然而,在間接的方式中,一系列共享的變體首先被估計(jì),然后被應(yīng)用到隱馬爾可夫模式中。通常,最大后驗(yàn)性估計(jì)被用作直接方式, 通過許多知識(shí)的確組合使?jié)M溢的數(shù)據(jù)稀疏。在間接方式中,這種變體通常在最大可能狀態(tài)下估計(jì)。當(dāng)前,在最大后驗(yàn)性方面,同時(shí)應(yīng)用了這兩種方法,并且證明提高了結(jié)果。一些自適應(yīng)模式是可行的:監(jiān)督的戰(zhàn)勝非監(jiān)督的。在非監(jiān)督的情形下,這個(gè)抄本是不可知的,并且應(yīng)該不估計(jì)成一些形式,或者作為一個(gè)單獨(dú)的最好的串,或者是一個(gè)句子格子。在增加性的自適應(yīng)系第 6 頁(yè) 共 13 頁(yè) 統(tǒng)中,模式去適應(yīng)充足的數(shù)據(jù)而變得可用,并且新的模式被用作對(duì)即將來臨的數(shù)據(jù)的解碼。反過來說,就是即將來臨的數(shù)據(jù)被用作(再次)適應(yīng)模式。在阻止的自適應(yīng)系統(tǒng)中,當(dāng)所有數(shù)據(jù)可行(就緒)時(shí),自適應(yīng) 才開始工作。我們來考慮下面幾個(gè)自適應(yīng)列表: 最大可能線形回歸( MLLR) ( 1)增加的 /區(qū)間 ( 2)單極的 /多極的 ( 3)最好的串 /單詞格子 最大后驗(yàn)線性回歸( MAPLR) ( 1)區(qū)間 ( 2)最好的串 /單詞格子 ( 3)回歸等級(jí)樹 我們最初的 SPINE 2 系統(tǒng)使用了一個(gè)等級(jí),阻止性的最大可能線性回歸方式和各種變體能從一段話中得知語(yǔ)音識(shí)別的單詞后驗(yàn)概率。盡管在 Hub-5 工作方面取得了一些成就,但是在 SPINE 2 工作中從單一級(jí)的回 歸到六等級(jí)的回歸的擴(kuò)展起了關(guān)鍵作用。我們認(rèn)為這是由于在 SPINE 的工作中,比起 Hub-5 來說,使用了較小數(shù)量的自適應(yīng)數(shù)據(jù)。這將激勵(lì)我們?nèi)橐粋€(gè)物力學(xué)的多種的使用回歸等級(jí)樹的 MAP 自適應(yīng)系統(tǒng)去奮斗。在下一階段中,我們將報(bào)道擁有更多自適應(yīng)性的技術(shù)。 5. 評(píng)估工作 用于 2001 年 11 月的 SPINE 2 的評(píng)估數(shù)據(jù)包括 64 對(duì)說話者 3.5 小時(shí)的立體錄音(其中2.8 小時(shí)用于真正意義上的說話)。按平均值計(jì)算, 128 個(gè)會(huì)議的每個(gè)邊界包括 1.3 分鐘( 78秒)的說話準(zhǔn)備活動(dòng)。 5.1 分割 對(duì)于我們的 SPINE 2 來說,當(dāng)自動(dòng)的和手 動(dòng)的語(yǔ)言分割被使用時(shí),通過計(jì)算分類框架和單詞錯(cuò)誤率來評(píng)估聲音分割。我們最初的系統(tǒng)是使用單回歸類的梅爾方式和對(duì)角線協(xié)方差變換。結(jié)果如表格一所示。我們可以看到,在收集聲音的活動(dòng)中,有一個(gè)最初的以 7.44%為比率的分類框架。第一個(gè)自適應(yīng)過程結(jié)束后,分割提供較少的錯(cuò)誤率(最初分類框架的錯(cuò)誤率是 6.93%),并且這個(gè)識(shí)別系統(tǒng)能更好地重新鑒定已經(jīng)被誤認(rèn)為是說話聲的安靜環(huán)境。(例如,插入語(yǔ)句的數(shù)量從 172 下降到 108)。在自動(dòng)和手動(dòng)的分割之間,單詞錯(cuò)誤率有明顯的不同(純粹的 0.5%)。 第 7 頁(yè) 共 13 頁(yè) 表格 2:分割的演示總結(jié)。結(jié)果被 用作( a)說話聲 /安靜環(huán)境框架分類的錯(cuò)誤率 ;( b)在安靜的環(huán)境下插入語(yǔ)音的數(shù)目。( c)自動(dòng)分割的單詞的錯(cuò)誤率。( d)手動(dòng)電報(bào)分割的單詞錯(cuò)誤率。 5.2 單詞錯(cuò)誤分析 表格 3 通過迭代的自適應(yīng)過程和對(duì)于各種 SPINE 2 的完全實(shí)時(shí)性的結(jié)構(gòu)的分析總結(jié)了單詞的錯(cuò)誤率。在表格 3 中,反復(fù)地說“ 0”是第一個(gè)識(shí)別過程。實(shí)時(shí)性因素在 1.7GHz 的英特兒奔騰 4 的單獨(dú)過程中被測(cè)試(計(jì)算)。實(shí)時(shí)性因素包括在自動(dòng)分割中的過程時(shí)間。在設(shè)有自適應(yīng)性的基礎(chǔ)的系統(tǒng)下,我們發(fā)現(xiàn)在 1.8x 實(shí)時(shí)性的條件下錯(cuò)誤率為 41.8%,更進(jìn)一步說,僅基于梅爾方 式的變換的增加性自適應(yīng)系統(tǒng),在說話過程中,以模式為代價(jià)能減少將近 10%的錯(cuò)誤率。事實(shí)上,如表 3 所示是基于通常意義上的提高。這個(gè)一種通道增加的自適應(yīng)系統(tǒng)于我們的多通道的自適應(yīng)系統(tǒng)進(jìn)行了比較,在 9x 的實(shí)時(shí)性下, 2001 年 11 月的系統(tǒng)有 37.5%的錯(cuò)誤率。 在第二個(gè)自適應(yīng)通道中,但回歸梅爾方式和對(duì)角線協(xié)方差變換的使用,使單詞的錯(cuò)誤率下降(叢 41.8%下降到 33.2%),然而,正如許多在方面 2 報(bào)道的,在 2000 年和 2001 的創(chuàng)作中,可能是由于缺少足夠的自適應(yīng)數(shù)據(jù)(新增加的多于一個(gè)的變換通常降低了系統(tǒng)的功能。在表格 3 中, 33.8%的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論