下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
一般來說,語音識(shí)別的方法有三種:基于聲道模型和語音知識(shí)的方法、模板匹配的方法以及利用人工神經(jīng)網(wǎng)絡(luò)的方法[1]。(1)基于語音學(xué)和聲學(xué)的方法該方法起步較早,在語音識(shí)別技術(shù)提出的開始,就有了這方面的研究,但由于其模型及語音知識(shí)過于復(fù)雜,現(xiàn)階段沒有達(dá)到實(shí)用的階段。通常認(rèn)為常用語言中有有限個(gè)不同的語音基元,而且可以通過其語音信號(hào)的頻域或時(shí)域特性來區(qū)分。這樣該方法分為兩步實(shí)現(xiàn):第一步,分段和標(biāo)號(hào)把語音信號(hào)按時(shí)間分成離散的段,每段對(duì)應(yīng)一個(gè)或幾個(gè)語音基元的聲學(xué)特性。然后根據(jù)相應(yīng)聲學(xué)特性對(duì)每個(gè)分段給出相近的語音標(biāo)號(hào)第二步,得到詞序列根據(jù)第一步所得語音標(biāo)號(hào)序列得到一個(gè)語音基元網(wǎng)格,從詞典得到有效的詞序列,也可結(jié)合句子的文法和語義同時(shí)進(jìn)行。(2)模板匹配的方法模板匹配的方法發(fā)展比較成熟,目前已達(dá)到了實(shí)用階段。在模板匹配方法中,要經(jīng)過四個(gè)步驟:特征提取、模板訓(xùn)練、模板分類、判決。語音信號(hào)的識(shí)別主要的還是在特征值提取是重點(diǎn)。常用的技術(shù)有三種:動(dòng)態(tài)時(shí)間規(guī)整(DTW)、隱馬爾可夫(hmm)理論、矢量量化(VQ)技術(shù)。1、動(dòng)態(tài)時(shí)間規(guī)整(DTW)語音信號(hào)的端點(diǎn)檢測(cè)是進(jìn)行語音識(shí)別中的一個(gè)基本步驟,它是特征訓(xùn)練和識(shí)別的基礎(chǔ)。所謂端點(diǎn)檢測(cè)就是在語音信號(hào)中的各種段落(如音素、音節(jié)、詞素)
的始點(diǎn)和終點(diǎn)的位置,從語音信號(hào)中排除無聲段。在早期,進(jìn)行端點(diǎn)檢測(cè)的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。60年代日本學(xué)者Itakura提出了動(dòng)態(tài)時(shí)間規(guī)整算法(DTW:DynamicTimeWarping)。算法的思想就是把未知量均勻的升長(zhǎng)或縮短,直到與參考模式的長(zhǎng)度一致。在這一過程中,未知單詞的時(shí)間軸要不均勻地扭曲或彎折,以使其特征與模型特征對(duì)正。動(dòng)態(tài)時(shí)間規(guī)整是將時(shí)間規(guī)整和距離測(cè)度結(jié)合起來的一種非線性規(guī)整技術(shù)。設(shè)測(cè)試語音參數(shù)共有N幀矢量,而參考模板共有M幀矢量,且N
≠M(fèi)。
要找時(shí)間規(guī)整函數(shù)j=w(i)
,使測(cè)試矢量的時(shí)間軸
i
非線性地映射到模板的時(shí)間軸
j
上,并滿足:
式中d[T(i),R(ω(i))]是第
i
幀測(cè)試矢量T(i)
和第
j
幀模板矢量R(j)
之間的距離測(cè)度。
D
則是在最優(yōu)情況下的兩矢量之間的匹配路徑。一般情況下,DTW采用逆向思路,從過程的最后階段開始,逆推到起始點(diǎn),尋找其中的最優(yōu)路徑。2、隱馬爾可夫法(HMM)隱馬爾可夫法(HMM)
是70年代引入語音識(shí)別理論的,它的出現(xiàn)使得自然語音識(shí)別系統(tǒng)取得了實(shí)質(zhì)性的突破。HMM
方法現(xiàn)已成為語音識(shí)別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識(shí)別系統(tǒng)都是基于HMM模型的。HMM是對(duì)語音信號(hào)的時(shí)間序列結(jié)構(gòu)建立統(tǒng)計(jì)模型,將之看作一個(gè)數(shù)學(xué)上的雙重隨機(jī)過程:一個(gè)是用具有有限狀態(tài)數(shù)的Markov
鏈來模擬語音信號(hào)統(tǒng)計(jì)特性變化的隱含的隨機(jī)過程,另一個(gè)是與Markov
鏈的每一個(gè)狀態(tài)相關(guān)聯(lián)的觀測(cè)序列的隨機(jī)過程。前者通過后者表現(xiàn)出來,但前者的具體參數(shù)是不可測(cè)的。人的言語過程實(shí)際上就是一個(gè)雙重隨機(jī)過程,語音信號(hào)本身是一個(gè)可觀測(cè)的時(shí)變序列,是由大腦根據(jù)語法知識(shí)和言語需要(不可觀測(cè)的狀態(tài))
發(fā)出的音素的參數(shù)流。可見HMM合理地模仿了這一過程,很好地描述了語音信號(hào)的整體非平穩(wěn)性和局部平穩(wěn)性,是較為理想的一種語音模型。HMM語音模型λ(π,A,B)
由起始狀態(tài)概率(π)
、狀態(tài)轉(zhuǎn)移概率(A)
和觀測(cè)序列概率(B)
三個(gè)參數(shù)決定。π揭示了HMM
的拓?fù)浣Y(jié)構(gòu),A
描述了語音信號(hào)隨時(shí)間的變化情況,B
給出了觀測(cè)序列的統(tǒng)計(jì)特性。經(jīng)典HMM語音識(shí)別的一般過程是:用前向后向算法(Forward-Backward)
通過遞推方法計(jì)算已知模型輸出O
及模型λ=f(π,A,B)
時(shí)的產(chǎn)生輸出序列的概率P(O|λ),然后用Baum-Welch
算法,基于最大似然準(zhǔn)則(ML)
對(duì)模型參數(shù)λ(π,A,B)
進(jìn)行修正,最優(yōu)參數(shù)λ*的求解可表示為λ*=argmax{P(O|λ)}
。最后用Viterbi算法解出產(chǎn)生輸出序列的最佳狀態(tài)轉(zhuǎn)移序列
X。所謂最佳是以
X
的最大條件后驗(yàn)概率為準(zhǔn)則,即X=argmax{P(X|O,λ)}。3、矢量量化(VQ)
矢量量化(VectorQuantization)
是一種重要的信號(hào)壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識(shí)別中。其過程是:將語音信號(hào)波形的
k
個(gè)樣點(diǎn)的每一幀,或有k
個(gè)參數(shù)的每一參數(shù)幀,構(gòu)成
k
維空間中的一個(gè)矢量,然后對(duì)矢量進(jìn)行量化。量化時(shí),將
k
維無限空間劃分為M
個(gè)區(qū)域邊界,然后將輸入矢量與這些邊界進(jìn)行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值。矢量量化器的設(shè)計(jì)就是從大量信號(hào)樣本中訓(xùn)練出好的碼書,從實(shí)際效果出發(fā)尋找到好的失真測(cè)度定義公式,設(shè)計(jì)出最佳的矢量量化系統(tǒng),用最少的搜索和計(jì)算失真的運(yùn)算量,實(shí)現(xiàn)最大可能的平均信噪比。失真測(cè)度主要有均方誤差(即歐氏距離)
、加權(quán)的均方誤差、Itakura2Saito距離、似然比失真測(cè)度等。初始碼書的生成可以是隨機(jī)選取、分裂生成法、乘積碼書法[4]。在選定了失真測(cè)度和初始碼書后,就用LBG算法,對(duì)初始碼書進(jìn)行迭代優(yōu)化,一直到系統(tǒng)性能滿足要求或不再有明顯的改進(jìn)為止。
核心思想可以這樣理解:如果一個(gè)碼書是為某一特定的信源而優(yōu)化設(shè)計(jì)的,那么由這一信息源產(chǎn)生的信號(hào)與該碼書的平均量化失真就應(yīng)小于其它信息的信號(hào)與該碼書的平均量化失真,也就是說編碼器本身存在區(qū)分能力。在實(shí)際的應(yīng)用過程中,人們還研究了多種降低復(fù)雜度的方法,這些方法大致可以分為兩類:無記憶的矢量量化和有記憶的矢量量化。無記憶的矢量量化包括樹形搜索的矢量量化和多級(jí)矢量量化。[3](3)神經(jīng)網(wǎng)絡(luò)相關(guān)的算法利用人工神經(jīng)網(wǎng)絡(luò)的方法是80年代末期提出的一種新的語音識(shí)別方法。人工神經(jīng)網(wǎng)絡(luò)(ANN)本質(zhì)上是一個(gè)自適應(yīng)非線性動(dòng)力學(xué)系統(tǒng),模擬了人類神經(jīng)活動(dòng)的原理,具有自適應(yīng)性、并行性、魯棒性、容錯(cuò)性和學(xué)習(xí)特性,其強(qiáng)的分類能力和輸入-輸出映射能力在語音識(shí)別中都很有吸引力。但由于存在訓(xùn)練、識(shí)別時(shí)間太長(zhǎng)的缺點(diǎn),目前仍處于實(shí)驗(yàn)探索階段。由于ANN不能很好的描述語音信號(hào)的時(shí)間動(dòng)態(tài)特性,所以常把ANN與傳統(tǒng)識(shí)別方法結(jié)合,分別利用各自優(yōu)點(diǎn)來進(jìn)行語音識(shí)別。ANN與DTW:ANN納入DTW框架中的最簡(jiǎn)單方法就是利用多層感知器模型(MLP)計(jì)算DTW搜索中的局部路徑得分。ANN與HMM:1)
多層感知器網(wǎng)絡(luò)來估計(jì)隱馬爾可夫模型的狀態(tài)概率輸出的方法2)
BP算法實(shí)現(xiàn)HMM模型參數(shù)的重估3)
利用自組織神經(jīng)網(wǎng)絡(luò)Kohonen的學(xué)習(xí)矢量量化算法訓(xùn)練產(chǎn)生矢量量化碼本語音識(shí)別系統(tǒng)中的技術(shù)土要包括預(yù)處理技術(shù),特征提取技術(shù),模型的訓(xùn)練與模型匹配三個(gè)方面。語音識(shí)別中的預(yù)處理一般包括預(yù)加重,加窗,端點(diǎn)檢測(cè)。聲學(xué)特征提取主要是線性預(yù)測(cè)系數(shù)(LPC),倒譜系數(shù)(CEP),Mel倒譜系數(shù)(MFCC
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 電影行業(yè)安全生產(chǎn)工作總結(jié)
- 傳統(tǒng)制造業(yè)技術(shù)職位展望
- 二零二五年度航空航天材料試驗(yàn)委托協(xié)議3篇
- 二零二五年度房屋收購(gòu)合同環(huán)保驗(yàn)收與評(píng)估范本3篇
- 二零二五版養(yǎng)老院專業(yè)保潔及消毒服務(wù)合同2篇
- 二零二五版?zhèn)€人二手房購(gòu)房合同與產(chǎn)權(quán)過戶指導(dǎo)書
- 航空行業(yè)助理的職位介紹
- 汽車行業(yè)財(cái)務(wù)預(yù)測(cè)分析工作總結(jié)
- 二零二五年度產(chǎn)品責(zé)任糾紛民事答辯狀范文3篇
- 二零二五年度木材市場(chǎng)樹木買賣協(xié)議3篇
- 問題探究如何讓城市不再看海(教學(xué)課件)高一地理
- 2024年人教版五年級(jí)數(shù)學(xué)(上冊(cè))模擬考卷及答案(各版本)
- 人教版八年級(jí)下冊(cè)歷史第1課 中華人民共和國(guó)成立 說課稿
- 《地球物理勘查》全冊(cè)配套完整教學(xué)課件
- (正式版)JBT 5300-2024 工業(yè)用閥門材料 選用指南
- 九年級(jí)上冊(cè)-備戰(zhàn)2024年中考?xì)v史總復(fù)習(xí)核心考點(diǎn)與重難點(diǎn)練習(xí)(統(tǒng)部編版)
- 健康指南如何正確護(hù)理蠶豆病學(xué)會(huì)這些技巧保持身體健康
- 老客戶的開發(fā)與技巧課件
- 26個(gè)英文字母書寫(手寫體)Word版
- GB/T 13813-2023煤礦用金屬材料摩擦火花安全性試驗(yàn)方法和判定規(guī)則
- 日語專八分類詞匯
評(píng)論
0/150
提交評(píng)論