已閱讀5頁,還剩86頁未讀, 繼續(xù)免費(fèi)閱讀
【畢業(yè)學(xué)位論文】語音識(shí)別自適應(yīng)技術(shù)的研究與實(shí)現(xiàn)-計(jì)算機(jī)科學(xué)與技術(shù).pdf 免費(fèi)下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
I 摘 要 盡管非特定人的語音識(shí)別系統(tǒng)已經(jīng)達(dá)到了令人鼓舞的性能,但是在實(shí)際應(yīng)用時(shí)由于說話人和環(huán)境的改變通常會(huì)使得系統(tǒng)性能顯著下降。當(dāng)遇到特殊口音的說話人,或者環(huán)境有一定的噪音時(shí),系統(tǒng)的誤識(shí)率甚至有可能增加原來的5倍。語音識(shí)別要走向?qū)嵱?,就必須克服這個(gè) 性 , 語音 應(yīng) 的 非常 要。 文 說話人 應(yīng) 論了語音 應(yīng)的 。通 說話人的 學(xué) 的 論, 和實(shí)了 常用的說話人 應(yīng) 大率 和大“性 。實(shí) 應(yīng) 說話人 應(yīng)和環(huán)境 應(yīng)有 。 在 , 文”一 于語音識(shí)別的 應(yīng) 。通 在的 一個(gè)的 ,這 了 的 , 在應(yīng) 時(shí) 應(yīng) ”了 識(shí)和 應(yīng) 的 ,有的性。在 ,的 使用了一個(gè) 的 ,用來 環(huán)境和說話人 的 , 了加的 。 的 要用來的 于音 的 , 時(shí)了個(gè) 的性。 , 應(yīng) 的特, 時(shí) 用了一 的使用 應(yīng) 的 略。在論文的實(shí),這 即使在 應(yīng) 的情況下可以取得的 。在無噪音和有噪音的環(huán)境 別可以降低 識(shí)別字錯(cuò)誤率。實(shí)這 能夠有的克服說話人 和環(huán)境 識(shí)別系統(tǒng)的影響, 語音識(shí)別系統(tǒng)的要求。 關(guān)鍵詞語音識(shí)別,說話人 應(yīng),環(huán)境 應(yīng), in is a an of so to to to of in of By a At of in a is in a is By a to AP to of In a to by a to AP AP is a of to of on AP a of is In is a in a in a is V 目 錄 摘 要 I V 第一章 言 1 音識(shí)別 1 音識(shí)別的 1 音識(shí)別的歷史與狀 2 音識(shí)別系統(tǒng)的框架 4 音 應(yīng) 4 話人 應(yīng) 5 他 應(yīng) 6 內(nèi) 發(fā)展動(dòng)態(tài) 7 8 8 8 第二章 說話人 應(yīng) 定人系統(tǒng)與非特定人系統(tǒng) 話人 話人 應(yīng) 話人 應(yīng)的 類 話人 應(yīng)的 要 述 25第三章 于參 換的 應(yīng) 大率 30 識(shí) 量域平滑 實(shí) 大“性 介 估 實(shí) 述 46第四章 應(yīng) 言 境 應(yīng) 應(yīng) 體框架 與 的 略 述 54第五章 實(shí)與 論 環(huán)境 系統(tǒng)框架 與 論 的 應(yīng)實(shí) 境 應(yīng)的 別 應(yīng) 應(yīng) 述 70第六章 總 73參考文獻(xiàn) 75附 錄 81圖表索 85個(gè)人歷 87致 謝 89 1 第一章 引 言 處于信息革命浪潮時(shí)代的今天,人 于 樣信息的需求與日俱增,人 急切需要的信息處 式。語音,作 人類信息交流的 、有、 使用的 , 來 者的關(guān) 。 音識(shí)別 語音識(shí)別 用 算 人的語音信 動(dòng)取有 的信息, 定語音信 的語言 的 。作 一個(gè) 學(xué) 域, 與 學(xué)、語音學(xué)、語言學(xué)、 學(xué)、 學(xué)、 學(xué)、人工 能、 字信 處 論、式識(shí)別 論、統(tǒng) 信息 論、 論、 算 學(xué) 學(xué) 。 音識(shí)別的意義 人 語音識(shí)別 識(shí)的 ,人 語音識(shí)別”了 來 的目。語音識(shí)別的目的就是人與人之間話交流信息一樣,實(shí)人 由 話,就是以“,使 能“人的語言, 話音的內(nèi) 語言或有 的 ,或者一使 能夠 人的 作,”人類 或的 動(dòng) ”來。 ,語音識(shí)別鍵和之,人 交革命的下一 。: 語言是 的。 語音識(shí)別有 大的實(shí)際應(yīng)用,其發(fā)展、 和實(shí)用 的 發(fā)展,其 算 、 動(dòng)、通信、國 、 人 。目 可以 的語音識(shí)別 要應(yīng)用有語音 系統(tǒng),作 一 的文字第一章 言 - 2 - ,用口述代 鍵向 算 文字,這 動(dòng)和”來革命性的變 語音 系統(tǒng), 人 在 動(dòng) 以 了一 安、 的 ,特別是當(dāng)系統(tǒng)工作在一 特定的環(huán)境或已 用來其 動(dòng)作的環(huán)境或一 特殊的用 人時(shí) 于 話系統(tǒng)的 系統(tǒng), 用 了 、 和 的 索或 ,可以 用在 、交、 之 ,語音識(shí)別 可以用于口語 系統(tǒng)、 算 輔助教學(xué)、 動(dòng)身份 域。 音識(shí)別的歷史與現(xiàn)狀 動(dòng)語音識(shí)別 開 于五十年代。當(dāng)時(shí)電子信 頻譜 儀開 用于 語音信 識(shí)別 、 量的音節(jié)和音 。其有代表性的是1952年美國的和1956年節(jié)詞識(shí)別系統(tǒng)2。 六十年代, 字 算 的 發(fā)展使人 語音信 的 由 擬信 的 向 字 。在這一時(shí)期,4和語音 的 使人語音 的 有了一個(gè)系統(tǒng)的了 。人 人類“的 和 了 ,發(fā)了人耳 音的不 頻率 有不 的 力的反應(yīng)力,”了臨頻 論。這一時(shí)期,在語音識(shí)別的算 尚未找到 算 的 和算 。但人 了 段 類式匹配 。與 時(shí), 語言 域的一 性 在。六十年代 的性 七十年代語音識(shí)別的 發(fā)展打下了。 七十年代,語音識(shí)別無論在 論, 是在系統(tǒng)實(shí),有了 的發(fā)展。1975年發(fā)于性 編碼譜系 是識(shí)別 的特征,不但識(shí)別 大有, 算復(fù)雜 小。一時(shí)期,六十年代 ”的動(dòng)態(tài)時(shí)間規(guī) 7 的應(yīng)用于語音識(shí)別。 于 和識(shí)別系統(tǒng)紛紛建立 來。七十年代一個(gè) 大的里 碑,就是和識(shí)到可以一章 言 - 3 - 應(yīng)用于語音識(shí)別。七十年代”了 的孤立詞識(shí)別系統(tǒng), 0、大詞匯量 動(dòng)語音“寫系統(tǒng)11、與話者無關(guān)的語音識(shí)別系統(tǒng)12。 到了八十年代,語音識(shí)別 有了的 性的發(fā)展。矢量量13和隱馬爾可夫 14,15在語音識(shí)別獲得了 的應(yīng)用, 了 6,17這樣的 的非特定人 續(xù)語音識(shí)別系統(tǒng)。 ,八十年代人工神經(jīng)網(wǎng)絡(luò)的 熱潮波及語音 域,”了于人工神經(jīng)網(wǎng)絡(luò)18或者人工神經(jīng)網(wǎng)絡(luò)和隱馬爾可夫 的混 19,20,21的識(shí)別系統(tǒng)。 九十年代, 信 處 、 學(xué) 、語言 、 碼搜索算 論日益 , 算 軟硬件系統(tǒng)性能不斷,”了一 大詞匯量 續(xù)語音識(shí)別系統(tǒng), 2,3,4。這 系統(tǒng)大體 用了 “的 ,不僅有于隱馬爾可夫 的 學(xué) , 了復(fù)雜的語言 以及 的 碼算 。有的系統(tǒng) 加 了語言 部 ,使系統(tǒng)性能一。 目 已有不 語音識(shí)別系統(tǒng) 實(shí)用階段,走了市,這里列”近個(gè)人電 雜報(bào)道的世 要語音識(shí)別軟件的評(píng) 25。這個(gè)評(píng) 表 在實(shí)用的語音識(shí)別系統(tǒng)已經(jīng)發(fā)展到了非特定人、超大規(guī)詞匯量和 續(xù)語音識(shí)別階段,并有大約93%的 識(shí)別 率。 表1000、L&H 音識(shí)別系統(tǒng)的性能 000 L&H 別率 95% 91% 93% 95%是否支持 用 支持 支持 支持 支持 動(dòng)詞匯表 160,000 60,000 34,000 64,000 大 動(dòng)詞匯表 250,000 670,000 64,000 2,000,000 第一章 言 - 4 - 音識(shí)別系統(tǒng)的框架 雖目 的實(shí)用的語音識(shí)別系統(tǒng)使用 不 的 和 碼 ,但圖1語音識(shí)別系統(tǒng)的一般性的框架 。語音信 通 信 處 識(shí)別使用的一系列特征向量 識(shí)別再利用語言 和 學(xué) 得到 應(yīng) 特征向量有大率的詞序列 時(shí) 應(yīng)有用的信息用來 語言 和 學(xué) 修改。 圖1音識(shí)別系統(tǒng)的框架 音自適應(yīng)技術(shù) 圖1,目 的大 使用語音識(shí)別系統(tǒng) 了一個(gè)非常 要的 應(yīng)。 的作用 要是用 應(yīng) 來調(diào) 學(xué) 和語言 ,使系統(tǒng) 應(yīng)的應(yīng)用狀況。雖一個(gè)訓(xùn)練的系統(tǒng)可以 應(yīng) 不 的情況,但 和實(shí)際作狀況間總存在一定的 。以使語音識(shí)別系統(tǒng)可以通 量的矯 盡量 小這 是十 要的。 應(yīng) 就是這樣信 處 (碼/識(shí)別(學(xué)模型(言模型(用(用(音(第一章 言 - 5 - 一 , 系統(tǒng)參 調(diào), 使系統(tǒng)的匹配由于 克 、 通道、環(huán)境噪音、說話人、文體和應(yīng)用的下文 的 。 話人自適應(yīng) 目 語音識(shí)別 在小詞匯量的非特定人別系統(tǒng)已經(jīng)可以達(dá)到 的識(shí)別 率。 于 平 的詞錯(cuò)誤率達(dá)到了3% 26。盡管平 錯(cuò)誤率 低,但有一 說話人的錯(cuò)誤 顯與其他人。由于使用 的說話人來訓(xùn)練非特定人的系統(tǒng) ,使得說話人之間的 當(dāng)作說話人內(nèi)部的 處 了。這樣使得 一個(gè) 學(xué)了大量的 ,有可能降低 于 個(gè)的說話人的建。這一可以由 一個(gè)說話人的語音 非特定人系統(tǒng)和特定人系統(tǒng)SD 有 的 訓(xùn)練這個(gè)系統(tǒng), 特定人系統(tǒng)性能要非特定人系統(tǒng)2到3倍。 文獻(xiàn)26”的 , 表1表1特定人與特定人系統(tǒng)性能于 一說話人的語音 ,非特定人和特定人系統(tǒng)。其訓(xùn)練得到,再訓(xùn)練600個(gè)。 說話人 ) ) .3 .6 .9 .0 .2 .3 .6 .5 .8 .1 .6 94第一章 言 - 6 - 特定人系統(tǒng)需 一個(gè) 說話者訓(xùn)練,一般 言需的語音 量至 應(yīng)達(dá)600 話匯量在5000以27。 大量的語音于 個(gè)使用者是一 的 , 處 這 需的小時(shí),這使特定人系統(tǒng)的實(shí)用性 到 大 。 了 這個(gè) ,開 說話人 應(yīng) ,即在一個(gè)已經(jīng)訓(xùn)練的 系統(tǒng),用一定的說話人的語音 應(yīng) , 圖 系統(tǒng) 這個(gè)說話人的建 。一 可以是 一個(gè) 說話人 訓(xùn)練的特定人系統(tǒng)和一個(gè)用 量說話人的訓(xùn)練語音 訓(xùn)練的非特定人系統(tǒng)的 , 使系統(tǒng)的識(shí)別率 近于 說話人經(jīng) 訓(xùn)練的特定人系統(tǒng)的 平。 了 非特定人系統(tǒng)存在的 之 ,說話人 應(yīng) 可以用來增識(shí)別系統(tǒng) 環(huán)境的 應(yīng)能力,特別是 環(huán)境噪音或 克 的 應(yīng)能力。 文 工作 要 在說話人 應(yīng) 的 。 他自適應(yīng)技術(shù) 了說話人 應(yīng)( 說話人的 音特的 應(yīng)能力) , 應(yīng) 下個(gè) 環(huán)境的 應(yīng)能力,特別是 環(huán)境噪音或 克 的 應(yīng)能力。環(huán)境噪音的 應(yīng)可以有 的 一 是 語音的噪音,使得語音變得。 時(shí),系統(tǒng) 噪音的 應(yīng)能力就體在 不 的環(huán)境噪音, 取不 的噪 ,盡量 噪音 續(xù)作的影響。這需要 噪音 ,以 定 應(yīng)的處 。 有一 是 有噪音的語音來訓(xùn)練 ,使得噪音 的一個(gè)有部 。 時(shí),系統(tǒng) 噪音的 應(yīng)能力體在噪音 反“ 使用時(shí)的噪音環(huán)境。當(dāng)環(huán)境噪音與訓(xùn)練噪音不一致時(shí),系統(tǒng)必須 噪 調(diào), 排 噪音 系統(tǒng)識(shí)別性能的影響。 第一章 言 - 7 - 說話人的語言特的 應(yīng)能力。 語言特的 應(yīng), 要是 的文體式和語體式的 應(yīng)能力。系統(tǒng)應(yīng) 語音流的特一定的調(diào),使得系統(tǒng)的 參 特定的語音 性。在語體式, 要有口語體和體 ??谡Z語言存在 大量的略、臨時(shí)、 復(fù)調(diào)、 錯(cuò)以及非 語 和無 語音 28。 說話人的語 特的 應(yīng)能力。這一是未來 語 復(fù)系統(tǒng)的要求,即未來的語音識(shí)別系統(tǒng)可以 動(dòng)識(shí)別 語 。 內(nèi)外發(fā)展動(dòng)態(tài) 語音信 處 應(yīng) 的 是 語音識(shí)別 的發(fā)展 并發(fā)展 來的。目 應(yīng) 已經(jīng) 了語音識(shí)別 的一個(gè)不可缺 的要部 ,并 開 應(yīng)用在大 實(shí)用語音 和 平, ,的。 個(gè)語音識(shí)別 的發(fā)展 ,語音識(shí)別系統(tǒng)的”性的 之一29,30。 這是語音識(shí)別系統(tǒng)由實(shí) 實(shí)用 的一個(gè) 切關(guān)鍵的 。 說話人 應(yīng) 是其不的一個(gè)和 。這 已經(jīng) 了 來 的 的關(guān) 和 ,有 語音識(shí)別 的 與 位開 的力 應(yīng) 的 。 語音 的國際學(xué) 會(huì)開 ”說話人 應(yīng)作 論。 目 ,國際說話人 應(yīng)的 要 可以大致 下 說話人 規(guī)377,其目的是建立一個(gè) 規(guī)的說話人間,使得 人的語音可以“其。這樣可以”說話人間的 降到低。 規(guī)的 ,其使用 的有 道 譜 規(guī) 說話人類17,43,45,65,通 一定的類或者 類算, 不 說話人的 類 組。識(shí)別時(shí)取與目說話人 近的 組識(shí)別。這 是十 有的 , 系統(tǒng) 使用。 第一章 言 - 8 - 譜變換476,91,92,是通 使用性或非性的變換”一個(gè)說話人的語音譜間“到一個(gè)人的譜間, 實(shí) 應(yīng)。需要 ”的是,這 變換即可以 用于特征間可以在。 參 調(diào)546,79,82,85,是”原有 識(shí) 求”達(dá)到大率a 系統(tǒng) 用的 參 。 的 介 和 請(qǐng)參 論文的第二章。 國的語音識(shí)別 ,但由于 語語音識(shí)別的 要性日益 ”,近十年的發(fā)展十 。以 應(yīng) 九十年代開 的說話人 應(yīng)的 國 可以和國 。目 國內(nèi) 這 的 要有清華大學(xué)、國 學(xué) 學(xué) 、國 學(xué) 動(dòng) 、 大學(xué)、國 學(xué) 大學(xué)、國 大學(xué)、 電大學(xué) 31,36079,73,74,82。 文的工作是語音識(shí)別的 應(yīng) 的 , 要內(nèi) 的實(shí)及 。 了 下的工作(1) 實(shí)于大率 的說話人應(yīng)。(2) 實(shí)于大“性 的說話人 應(yīng)。(3) ”一個(gè) 的 應(yīng) 。(4) 使用說話人 應(yīng) 環(huán)境和噪音 應(yīng)。 內(nèi) 第一章 言 - 9 - 第一章 述語音識(shí)別、語音 應(yīng)、以及 文 要 工作 第二章 了 說話人 的原 ,要介 說話人 應(yīng)的 和原 , 介 了 常 的說話人 應(yīng) ; 第三章 ”了于大率于大“性 應(yīng) 的原 和實(shí) ; 第四章 述了 ”的 應(yīng) ; 第五章 ”了實(shí)和 的 第六章 文總 。 11 第二章 說話人自適應(yīng)技術(shù) 章 ”了說話人 應(yīng) 的 、 原 、 類、以及一常 的 。 定人系統(tǒng)與非特定人系統(tǒng) 目 語音識(shí)別系統(tǒng) 說話人的 類,可以 特定人系統(tǒng)D和非特定人系統(tǒng)I。 ,特定人的語音識(shí)別系統(tǒng) 用于個(gè)特定的用 ,并要求使用者 夠 的個(gè)人語音 以訓(xùn)練系統(tǒng)。這 特定性使系統(tǒng)不 的 平 或 信息, 有語言無關(guān)性,無論口音 , 要使用者能在訓(xùn)練及識(shí)別 持一致就可得到的識(shí)別 。有特定人系統(tǒng)的識(shí)別率已達(dá)到95 以31。 用 使用的 性大大 了特定人系統(tǒng)的一 與應(yīng)用,一 有的用 加人,系統(tǒng) 要求 訓(xùn)練,否 識(shí)別率降。一般 言,訓(xùn)練需要的語音 量應(yīng)達(dá)到 話以 話 用23 ,錄 訓(xùn)練語音20 以。 在有情況下, 人 大量的語音 會(huì)令 個(gè)使用者 處 這 需的 加 , 就無須論及是否可以 夠的環(huán)境與時(shí)間來訓(xùn)練了。 在實(shí) ,有 情況要求頻 換使用人, 環(huán)境下的口述錄音, 時(shí)間表 的信息索。 時(shí),非特定人的語音識(shí)別系統(tǒng)表” 大 。這 非特定人系統(tǒng)能夠在 一用大量訓(xùn)練的 下, 當(dāng) 的用 的識(shí)別 。 情況就是 一說話人,無論口音、話 ,能 識(shí)別 。第二章 說話人 應(yīng) - 12 - 這顯與人 的 吻。遺憾的是 第一章表 1示,有非特定人系統(tǒng)的識(shí)別 無 滿 實(shí)際使用的要求,其錯(cuò)誤率可 當(dāng)于 應(yīng)的特定人系統(tǒng)的至三倍,在 情況下甚至能達(dá) 5 倍。 ,即使是一個(gè)工作的非特定人系統(tǒng)在遇到特殊的說話人 別, 稱 ,識(shí)別率會(huì)顯著下降32。 特定人系統(tǒng)和非特定人系統(tǒng)性能的 距的原 是 顯的。非特定人系統(tǒng)使用 的說話人語音來訓(xùn)練識(shí)別系統(tǒng)的 ,雖能夠的 來 語音 元的 復(fù)雜的時(shí)變特性、協(xié) 發(fā)音 , 時(shí)卻使得說話人之間的 略, 降低了系統(tǒng) 于 個(gè)的說話人建的 。下 體 一下說話人 的 原 和 類。 話人差異(影響識(shí)別系統(tǒng)的識(shí)別 的 有 ,不 他 可以一般劃 類說話人之間的說話人內(nèi)部的 一個(gè)人的說話有 己的特。當(dāng)一個(gè)人說話時(shí),他發(fā)”的語音 到的影響, 他的 道的 、寬 和物 形狀,年齡,性別,康狀況,文 ,個(gè)人的發(fā)音習(xí)慣 。這 使得一個(gè)人的語音可能和一個(gè)人完 不一樣。這一 可以 圖 2得 清楚。說話人之間的 要個(gè) 和說話習(xí)慣 33。 要是緣于 個(gè)人的發(fā) 官的形狀、大小和動(dòng)態(tài)特性不 。這 語音的頻有顯著的影響,使得不 人 不 的 學(xué)特征男女之間 的 要 。這 情況的一個(gè)極端的子是說話人性別語音頻譜參 的影響。 建立一個(gè) 于 的語音 ,可以發(fā),音頻率 f 取 于 的尺寸和特性,以及 的張力。一般 言,男性說話者的 f 大致 布在 60200圍內(nèi),女性說話者和小孩的 f 在第二章 說話人 應(yīng) - 13 - 200450。目 表 34,男性和女性在發(fā)元音時(shí)有 顯不 的共振峰頻率,男性發(fā)的元音頻低,共振峰 寬窄,并 頻譜平緩。這是 什 用男性語音訓(xùn)練的特定人系統(tǒng)在女性 或雙性 時(shí)有 的原 。 圖2個(gè)不 說話人發(fā) 字 8語音的時(shí)頻波形圖和語譜圖。 可以清楚”不 說話人之間的 。 說話習(xí)慣 和說話人學(xué)習(xí)說話的 有關(guān),這 習(xí)慣響發(fā) 的清晰 和共振峰 率的不 。體的 說話人的語和口音,這即使在人的“力 十 要。 人不 的說話習(xí)慣, 個(gè)人的教育和文的不 ,用 言的不 ,屬的社會(huì) 和 團(tuán)不 以及個(gè)人的經(jīng)歷、氣質(zhì)的 。國 家 影響發(fā)音的 社會(huì) , 域環(huán)境,宗教信仰,文 作了 的 ,并著闡述 口音的影響35。文獻(xiàn)? ”,音節(jié)之間的協(xié) 發(fā)音 會(huì) 口音的改變 變。文獻(xiàn)? ”,實(shí)口音的影響大約可以使得識(shí)別系統(tǒng)的錯(cuò)誤率增加23倍。 由于發(fā) 的原 是十 復(fù)雜的,以這 說話人之間的 用 的 類來 是 困 的。 第二章 說話人 應(yīng) - 14 - 即使 略說話人之間的 , 于 一個(gè)說話人,在不 的時(shí)間、不的 和 狀態(tài)下, 述 一內(nèi)大的 。這是 發(fā)音之間存在 道形狀和語的 。 當(dāng)一個(gè)人由于感情的變大 或小 說話時(shí)這 就加 顯。這 一個(gè)人 己的發(fā)音 稱之 說話人內(nèi)部的 。 要 語、感情語氣和康狀況 的影響?。這的一個(gè)有變,就可能使這個(gè)說話者訓(xùn)練的識(shí)別系統(tǒng)的性能有 大的退。 總體 不 說話人 學(xué)變的 微 ,要個(gè)體說話者的語 變 大得 以捕捉和 述。在一 識(shí)別系統(tǒng),需要區(qū) 說話人之間的 和說話人內(nèi)部的 。 人的語音識(shí)別個(gè)人的語音,就要考慮說話人之間的 , 輕說話人內(nèi)部的 。不 , 于非特定人的語音識(shí)別系統(tǒng),不管是說話人的改變, 是發(fā)音條件的變, 要考慮。遺憾的是,迄今 止,人 沒有能夠建立一套的 述, 有求助于統(tǒng) 的 ,通 大量的訓(xùn)練獲取 平 的信息, 個(gè)人特性的參與。但 由于個(gè)人信息的 削弱, 了系統(tǒng) 個(gè)特定人識(shí)別 的下降。 了 這個(gè) ,說話人 應(yīng) 應(yīng) 。 話人自適應(yīng) 了 第一章第二節(jié)和 章第一節(jié)里 到的特定人系統(tǒng)和非特定人系統(tǒng)訓(xùn)練 量和說話人 這一 矛盾,人 ”了建立一 渡性 ,由的說話人 量的 樣 ,系統(tǒng)通 取其的有用信息并 一定的算 原有的非特定人 修 ,得到 話者的 。這即稱 說話人 應(yīng)A, 應(yīng)的系統(tǒng)有人稱統(tǒng)。其原有的說話人常稱 參考說話人的說話人 目說話人說話人 應(yīng)可以 是 圖使用特定人系統(tǒng)訓(xùn)練需 的 來 特定人的建 的 , 圖2。 第二章 說話人 應(yīng) - 15 - 的語音識(shí)別系統(tǒng)說話人的 特定人識(shí)別系統(tǒng)一般的語音 識(shí)說話人特有的信息圖2話人 應(yīng) 一個(gè)特定人識(shí)別系統(tǒng)可以通 ” 訓(xùn)練的 得到的通用語音 識(shí)和 說話人的 得到的說話人特有的信息 來實(shí)。 說話人 應(yīng)算 的 ,在早的語音識(shí)別系統(tǒng)建立就開 了。 語音識(shí)別 的發(fā)展,說話人 應(yīng) 發(fā)得到大家的 。 話人自適應(yīng)的分類 說話人 應(yīng) , 在什 時(shí)候,以什 式 應(yīng)和怎樣使用 應(yīng) 可以 下 有監(jiān)督 應(yīng)即在特定人使用識(shí)別系統(tǒng)之 ,由系統(tǒng)規(guī)定的語音 ,系統(tǒng) 應(yīng) 。目說話人說的訓(xùn)練語音 規(guī)定,訓(xùn)練的 字、 詞或 子是系統(tǒng)已 的。 無監(jiān)督 應(yīng)即目人說話人 需 量 或不 應(yīng) ,由系統(tǒng)以 式逐調(diào)系統(tǒng)參 ,以 應(yīng)于目說話人。系統(tǒng)不 道目說話人說的語音內(nèi) 或參 的修 通 識(shí)別系統(tǒng)的反饋來實(shí)的。 靜態(tài)的 應(yīng)即識(shí)別系統(tǒng)一 性使用有 應(yīng) 應(yīng), 的識(shí)別 。 第二章 說話人 應(yīng) - 16 - 的 應(yīng)即識(shí)別系統(tǒng)是在 逐調(diào)到 狀態(tài)的,不斷使用的 來 應(yīng)。調(diào)的 一般不使用者 。這 式 在 應(yīng) 圖2個(gè)于說話人 應(yīng)系統(tǒng) 通常使用的是靜態(tài)有監(jiān)督的 應(yīng)和無監(jiān)督的 應(yīng), 者 應(yīng) 來 冊(cè) ,者 應(yīng) 來 識(shí)別的 向反饋。圖 2 ”了這樣一個(gè)實(shí)際系統(tǒng)的子36。當(dāng) 應(yīng) 的 量無 或系統(tǒng)可以一的 應(yīng) 時(shí),應(yīng)使用的 應(yīng)。這 情況下,有無監(jiān)督的 可以使用,不 無監(jiān)督的 條件。 話人自適應(yīng)的主要 說話人 應(yīng)的 有 , 文”他 大致 以下四類說話人類說話人 規(guī)譜變換 參 調(diào)不 得 ”的是說話人 應(yīng) 的 類并不唯一,有 之間沒有特別清晰的 。 一 文獻(xiàn)37,說話人 規(guī)算 一 在特征間的譜變換。 在實(shí)際的應(yīng)用,大 系統(tǒng)往往 使用 應(yīng) , 節(jié)人語音 用 冊(cè)語音 用 應(yīng)用語音 訓(xùn) 練 應(yīng) 在 應(yīng) 冊(cè)D 二章 說話人 應(yīng) - 17 - 會(huì) ”個(gè)實(shí)。下就 文的 類 體介 這 說話人 應(yīng) 話人 (盡管 說的說話人的 大,但人仍可以 輕松的識(shí)別 不口音和性別的 人的語音。這說 人的大 可能可以一 規(guī) , 語音個(gè)性的特征。這樣在識(shí)別系統(tǒng)說話人之間的 就可以 了。說話人 規(guī) 的 就是來源于人的識(shí)別 。 說話人 規(guī)的目的是建立一個(gè) 規(guī)的說話人間,使得 人的語音可以“其。這樣可以”說話人之間的 降到低 學(xué)特性不變??梢?說話人 規(guī)是 圖”說話人的語音特 參考說話人的,這樣可以使用已有的參考說話人的特定人識(shí)別系統(tǒng)來識(shí)別說話人的語音。圖2的示 圖。 圖2話人 規(guī) 示 圖 說話人 規(guī) 的 在于語音的 樣性。要 找到一 一般的 能夠 的“到 規(guī)間是 困 的。常用的有 譜 規(guī) ?,38表 ,時(shí) 譜 可以用來 說話人和信道的特征。實(shí),話人的語音 規(guī) 算 規(guī)的語音 語音 識(shí)別參考說話人的 第二章 說話人 應(yīng) - 18 - 是諸 用來補(bǔ)償說話人和信道影響的 子。處 驟首 ,用一個(gè)于能量的有 /無 算 歷個(gè)語流, 算有 幀的 譜 ,流的有幀參 譜 ,得到的特征參 。由于 訓(xùn)練和 的有語流的 譜 零,時(shí)說話人和信道 可能 來的卷積畸變。 道 ?,39,67道 償 道 的 來規(guī) 不 說話人的 。體的實(shí) ,大致可以 類1通 語音頻率特性用的 共振峰頻率的估 , 道 子 2利用大“ 來估 道子。 的續(xù)處 一樣,是利用 ,頻率 語音頻譜 道 不 的影響。 了 特征參 或語音變的 ,說話人 規(guī)的一個(gè) 找的特征參 。不 的特征參 , 于不 的說話人的 性有一定的。有文獻(xiàn)表 ,在常 的特征參 ,其他的 , 說話人的 應(yīng)性要?。 找的、 性的特征參 , 是期以來 工作的目之一。 文獻(xiàn)40,41,42”一 于征的 應(yīng) 。由于變性,這 的特征 說話人的 道 是不 感的, 可以大大 小由于 道 的說話人之間的 。在作者的實(shí),特征的識(shí)別 譜 ,甚至于大“的 道 應(yīng) 。 由于說話人 規(guī)需要復(fù)雜的“,并 有語音信息 樣處 ,了語音件的內(nèi)以 使用率不是十 。 話人 類(說話人類 類實(shí)說話人 應(yīng)的一個(gè) 的 。 應(yīng)不 的說話人有與其 應(yīng)的 , 應(yīng)就是找” 應(yīng)于目說話人的 。實(shí)際由于要 訓(xùn)練 一個(gè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版學(xué)校校辦工廠風(fēng)險(xiǎn)管理與承包經(jīng)營合同3篇
- 二零二五年度木材市場(chǎng)行情預(yù)測(cè)與分析咨詢合同4篇
- 2025年度環(huán)保材料研發(fā)與生產(chǎn)合作合同范本4篇
- 2025版旅游度假區(qū)租賃與旅游服務(wù)合作協(xié)議3篇
- 2025年度智能交通系統(tǒng)保密管理與服務(wù)合同
- 二零二五年度科技型中小企業(yè)貸款合同
- 2025年度知識(shí)產(chǎn)權(quán)授權(quán)委托書簽訂協(xié)議
- 2025年度門面出租合同終止與租賃合同終止后合同解除及違約賠償協(xié)議
- 2025年度銀行存款賬戶遠(yuǎn)程開戶服務(wù)協(xié)議
- 2025年度私人房產(chǎn)使用權(quán)轉(zhuǎn)讓與智能家居系統(tǒng)安裝合同
- 2024年全國體育專業(yè)單獨(dú)招生考試數(shù)學(xué)試卷試題真題(含答案)
- 北師大版小學(xué)三年級(jí)上冊(cè)數(shù)學(xué)第五單元《周長》測(cè)試卷(含答案)
- DB45T 1950-2019 對(duì)葉百部生產(chǎn)技術(shù)規(guī)程
- 2025屆河北省衡水市衡水中學(xué)高考仿真模擬英語試卷含解析
- 新修訂《保密法》知識(shí)考試題及答案
- 電工基礎(chǔ)知識(shí)培訓(xùn)課程
- 住宅樓安全性檢測(cè)鑒定方案
- 廣東省潮州市潮安區(qū)2023-2024學(xué)年五年級(jí)上學(xué)期期末考試數(shù)學(xué)試題
- 市政道路及設(shè)施零星養(yǎng)護(hù)服務(wù)技術(shù)方案(技術(shù)標(biāo))
- 選擇性必修一 期末綜合測(cè)試(二)(解析版)2021-2022學(xué)年人教版(2019)高二數(shù)學(xué)選修一
- 《論語》學(xué)而篇-第一課件
評(píng)論
0/150
提交評(píng)論