下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、聲音實(shí)際上是一種波術(shù)。語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語音識別本質(zhì)上是一種模式識別的過程,未知語音的模式與已知語音的參考模 式逐一進(jìn)行比較,最佳匹配的參考模式被作為識別結(jié)果。目前大多數(shù)語音識別技術(shù)是基于統(tǒng)計(jì)模式的,從語音產(chǎn)生機(jī)理來看,語音識別可以分為語音 層和語言層兩部分。當(dāng)今語音識別技術(shù)的主流算法,主要有基于動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法、基于非參數(shù)模型的矢量量化(VQ)方法、基于參數(shù)模型的隱馬爾可夫模型(HMM)的方法、基于人工神經(jīng)網(wǎng)絡(luò)(ANN)和支持向量機(jī)等語音識別方法。和支持向量機(jī)等語音識別方法。語音識別系統(tǒng)的模型通常由聲學(xué)模型和語言模型兩部
2、分組成,分別對應(yīng)于語音到音節(jié)概率的 計(jì)算和音節(jié)到字概率的計(jì)算。一個(gè)連續(xù)語音識別系統(tǒng)大致可分為四個(gè)部分:特征提取,聲學(xué)模型訓(xùn)練, 語言模型訓(xùn)練和解碼器。(1)預(yù)處理模塊:對輸入的原始語音信號進(jìn)行處理,濾除掉其中的不重要的信息 以及背景噪聲,并進(jìn)行語音信號的端點(diǎn)檢測(找出語音信號的始末)、 語音分幀(近似認(rèn)為在10-30ms內(nèi)是語音信號是短時(shí)平穩(wěn)的,將語音信 號分割為一段一段進(jìn)行分析)以及預(yù)加重(提升高頻部分)等處理。(2)特征提取:去除語音信號中對于語音識別無用的冗余信息,保留能夠反 映語音本質(zhì)特征的信息,并用一定的形式表示出來。也就是提取出反映 語音信號特征的關(guān)鍵特征參數(shù)形成特征矢量序列,以便
3、用于后續(xù)處理。目前的較常用的提取特征的方法還是比較多的,不過這些提 取方法都是由頻譜衍生出來的。Mel頻率倒譜系數(shù)(MFCC)參數(shù)因其良 好的抗噪性和魯棒性而應(yīng)用廣泛。在sphinx中也是用MFCC特征的。 MFCC的計(jì)算首先用FFT將時(shí)域信號轉(zhuǎn)化成頻域,之后對其對數(shù)能量譜 用依照Mel刻度分布的三角濾波器組進(jìn)行卷積,最后對各個(gè)濾波器的輸 出構(gòu)成的向量進(jìn)行離散余弦變換DCT,取前N個(gè)系數(shù)。在sphinx中,用幀frames去分割語音波形,每幀大概10ms, 然后每幀提取可以代表該幀語音的39個(gè)數(shù)字,這39個(gè)數(shù)字也就是該幀 語音的MFCC特征,用特征向量來表示。語音識別基礎(chǔ)語音信號的采樣和量化語
4、音信號是一個(gè)時(shí)間和幅度都連續(xù)變化的一維模擬信號而語音識別的過程是一個(gè)對語音信號進(jìn)行數(shù)字處理的過程,在對語音信號處理之前,必須要對 其進(jìn)行數(shù)字化,這個(gè)過程就是模/數(shù)(A/D)轉(zhuǎn)化模/數(shù)轉(zhuǎn)化過程要經(jīng)過采樣和量 化兩個(gè)過程,從而得到時(shí)間和幅度上的離散數(shù)字信號根據(jù)奈奎斯特采樣定律, 采樣頻率應(yīng)為原始信號頻率的兩倍以上,才能使采樣過程中不會(huì)丟失信息,而 且能從采樣信號中準(zhǔn)確的重構(gòu)原始信號的波形正常人的發(fā)音范圍是從40Hz到 340OHz左右,因此在實(shí)驗(yàn)中,本文對語音信號的采樣頻率均為skHz2語音信號的預(yù)加重語音信號從嘴唇輻射后,高頻端大約在800Hz以上有6dB/倍頻的衰減因此,在對語音信號進(jìn) 行分析
5、之前,一般要對語音信號加以提升(預(yù)加重)預(yù)加重的目的是濾除低頻干擾,尤其是50Hz或者60Hz的工頻干擾,提升對語音識別有用的高頻部分,使信號的頻譜變得平坦,以便于進(jìn)行頻譜分析或聲道參數(shù)分析.3語音信號的加窗處理為了能對語音信號進(jìn)行處理,我們可以假定在IOms 一 30ms之間語音信號是平穩(wěn)的,語音頻譜特性和語音特征參數(shù)恒定因此需將語音信號劃分為一個(gè)一個(gè)的短時(shí)段,每一個(gè)短時(shí)段稱為一幀,為了從語音信號中切去出樣本信號,就要用時(shí)間窗函數(shù)乘以原始語音信號,這種操作就稱為加窗。目前應(yīng)用最為廣泛的是漢明窗4語音信號的端點(diǎn)檢測其目的是從語音信號中檢測出語音信號段和噪音段,準(zhǔn)確的端點(diǎn)檢測不僅可以減少計(jì)算量,
6、而且可以提高系統(tǒng)的識別率常用的端點(diǎn)檢測是基于雙門限比較法。,的端點(diǎn)檢測,就是根據(jù)語音信號的特征參數(shù)(能量和過零率)進(jìn)行清音!噪音判別,從而完成端點(diǎn)檢測的經(jīng)過對語音信號的預(yù)處理之后就要進(jìn)行特征參數(shù)的提取對特征參數(shù)的要求是:1!能有效代表語音特征,具有良好的區(qū)分性;2!特征參數(shù)之間有良好的獨(dú)立性;3!特征參數(shù)易于計(jì)算,最好能保證語音識別的實(shí)時(shí)實(shí)現(xiàn)特征提取(包括分幀)、音素建模、字典、隱式馬爾科夫模型語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個(gè)方面。特征提取就是從語音信號中提取出語音的特征序列提取的語音特征應(yīng)該能完全、準(zhǔn)確地表 達(dá)語音信號,特征提取的目的是提取語音信號中能代表語音
7、特征的信息,減少語音識別時(shí)所 要處理的數(shù)據(jù)量語音識別技術(shù)中最流行的特征參數(shù)是基于聲道模型和聽覺機(jī)理的 LPCC(LinearPredietiveCepstralCoefieientS)和MFCC(MelFrequeneyCepstralcocfioionts)參數(shù),線性預(yù)測倒譜系數(shù)(LPCC)和美爾頻率倒譜 系數(shù)(MFCC)語音識別過程就是根據(jù)模式匹配原則,按照一定的相似性度量法則,使未知模式與參考 模式庫中的某一個(gè)參考模型獲得最佳匹配的過程。目前語音識別比較常用的識別方法主要有 模板匹配法,以動(dòng)態(tài)時(shí)間規(guī)整(DynamiCTimeWarping,DTw)為代表;隨機(jī)模型法,以隱馬爾可夫 模型(
8、HiddenMarkovModel,HMM)為代表;基于人工神經(jīng)網(wǎng)絡(luò)(ArtifiCialNeuralNetworkS,ANN) 的識別方法高斯混合模型一隱馬爾科夫模型(Gaussian mixture model hidden Markov model,GMMHMMDNN-HMM RNN-CTC具體來說就是輸入一段語音信號,要找到一個(gè)文字序列(由字或者詞組成),使得它與 語音信號的匹配程度最高。這個(gè)匹配程度,一般都是用概率來表示的,用X表示語音信號, 用W表示文字序列,則要解的是下面這個(gè)問題:W* = argmaxP(W|X)但是一般語音是由文字產(chǎn)生的,已知文字才能發(fā)出語音,所以對于上面的條
9、件概率公式 我們想要已知結(jié)果求該條件下發(fā)生概率,這時(shí)候自然而然就想到貝葉斯公式:冷=arg mas=曜 mas P(X,由于我們要優(yōu)化W, P(X)可以看作常數(shù),可以省略分母。由上邊的步驟來看,求文字串、計(jì)算語言模型概率、求音素串、求音素分界點(diǎn)、計(jì)算聲 學(xué)模型概率幾個(gè)步驟似乎是依次進(jìn)行的。其實(shí)不然,在實(shí)際編碼過程中,因?yàn)槲淖执?、音?分界點(diǎn)都有非常多種可能,枚舉是不現(xiàn)實(shí)的。實(shí)際中,這幾個(gè)步驟同時(shí)進(jìn)行并互相制約,隨 時(shí)砍掉不夠優(yōu)的可能,最終在可接受的時(shí)間內(nèi)求出最優(yōu)解:W* = argmaxP(W|X)。聲學(xué)模型用lstm+ctc訓(xùn)練,得到語音特征到音素的映射,語言模型用SRILM工具做LM 的訓(xùn)
10、練得到3-gram and 4-gram,是詞與詞、詞與句子的映射, 字典是字詞對應(yīng)的音素 index集合,是字詞和音素之間的映射語音識別系統(tǒng)的模型通常由聲學(xué)模型和語言模型兩部分組成,分別對應(yīng)于語音到音節(jié)概 率的計(jì)算和音節(jié)到字概率的計(jì)算。HMM聲學(xué)建模:馬爾可夫模型的概念是一個(gè)離散時(shí)域有限狀態(tài)自動(dòng)機(jī),隱馬爾可夫模型 HMM是指這一馬爾可夫模型的內(nèi)部狀態(tài)外界不可見,外界只能看到各個(gè)時(shí)刻的輸出值。對吾 音識別系統(tǒng),輸出值通常就是從各個(gè)幀計(jì)算而得的聲學(xué)特征。用HMM刻畫語音信號需作出兩 個(gè)假設(shè),一是內(nèi)部狀態(tài)的轉(zhuǎn)移只與上一狀態(tài)有關(guān),另一是輸出值只與當(dāng)前狀態(tài)(或當(dāng)前的狀 態(tài)轉(zhuǎn)移)有關(guān),這兩個(gè)假設(shè)大大降低
11、了模型的復(fù)雜度HMM的打分、解碼和訓(xùn)練相應(yīng)的算法 是前向算法、Viterbi算法和前向后向算法。語音識別中使用HMM通常是用從左向右單向、帶自環(huán)、帶跨越的拓?fù)浣Y(jié)構(gòu)來對識別基元建模, 一個(gè)音素就是一個(gè)三至五狀態(tài)的HMM, 一個(gè)詞就是構(gòu)成詞的多個(gè)音素的HMM串行起來構(gòu)成的 HMM,而連續(xù)語音識別的整個(gè)模型就是詞和靜音組合起來的HMM。上下文相關(guān)建模:協(xié)同發(fā)音,指的是一個(gè)音受前后相鄰音的影響而發(fā)生變化,從發(fā)聲機(jī)理上 看就是人的發(fā)聲器官在一個(gè)音轉(zhuǎn)向另一個(gè)音時(shí)其特性只能漸變,從而使得后一個(gè)音的頻譜與 其他條件下的頻譜產(chǎn)生差異。上下文相關(guān)建模方法在建模時(shí)考慮了這一影響,從而使模型能 更準(zhǔn)確地描述語音,只考慮前一音的影響的稱為Bi-Phone,考慮前一音和后一音的影響的 稱為 Tri-Phone。英語通常采用上下文相關(guān)的音素建模,漢語的協(xié)同發(fā)音不如英語嚴(yán)重,可以采用音節(jié)建 模。聽寫機(jī):大詞匯量、非特定人、連續(xù)語音識別系統(tǒng)通常稱為聽寫機(jī)。其架構(gòu)就是建立在 前述聲學(xué)模型和語言模型基礎(chǔ)上的HMM拓?fù)浣Y(jié)構(gòu)。訓(xùn)練時(shí)對每個(gè)基元用前向后向算法獲得模 型參數(shù),識別時(shí),將基元串接成詞,詞間加上靜音模型并引入語言模型作為詞間轉(zhuǎn)移概率 形成循環(huán)結(jié)構(gòu),用Viterbi算法進(jìn)行解碼。針對漢語易于分割的特點(diǎn),先進(jìn)行分割再對每一 段進(jìn)行解碼,是用以提高效率的一個(gè)簡化方法。
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五版暨南大學(xué)離婚心理學(xué)研究與應(yīng)用合同3篇
- 二零二五年度電梯門套綠色環(huán)保材料采購合同3篇
- 二零二五年度集團(tuán)高層管理人員聘任與職務(wù)調(diào)整合同6篇
- 二零二五年股票代持與反洗錢義務(wù)合同3篇
- 二零二五年駕駛員勞務(wù)派遣與車輛充電樁油耗管理服務(wù)合同3篇
- 二零二五版戶外拓展訓(xùn)練特色課程開發(fā)與推廣合同3篇
- 二零二五年度玻璃器皿生產(chǎn)設(shè)備租賃合同3篇
- 2025年度國際教育培訓(xùn)機(jī)構(gòu)合作合同6篇
- 展會(huì)展位搭建服務(wù)合同(2篇)
- 2025年度餐飲設(shè)施設(shè)備租賃合同書3篇
- 醫(yī)院手術(shù)室醫(yī)院感染管理質(zhì)量督查評分表
- 心內(nèi)電生理導(dǎo)管及器械
- 稱量與天平培訓(xùn)試題及答案
- 超全的超濾與納濾概述、基本理論和應(yīng)用
- 2020年醫(yī)師定期考核試題與答案(公衛(wèi)專業(yè))
- 2022年中國育齡女性生殖健康研究報(bào)告
- 各種靜脈置管固定方法
- 消防報(bào)審驗(yàn)收程序及表格
- 教育金規(guī)劃ppt課件
- 呼吸機(jī)波形分析及臨床應(yīng)用
- 常用緊固件選用指南
評論
0/150
提交評論