版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
回顧5.5隱馬爾科夫模型的各種結(jié)構(gòu)類型5.6隱馬爾科夫模型的一些實際問題第5章隱馬爾科夫模型5.5隱馬爾可夫模型的各種結(jié)構(gòu)類型
按照HMM的狀態(tài)轉(zhuǎn)移概率矩陣(參數(shù))分類各態(tài)歷經(jīng)型或遍歷型HMM(ErgodicHMM)
:嚴格的講,所謂的遍歷模型就是經(jīng)過有限步的轉(zhuǎn)移后,系統(tǒng)能達到任何一個狀態(tài)。即系統(tǒng)從一個狀態(tài)允許轉(zhuǎn)移到任何一個狀態(tài)。在某些應(yīng)用系統(tǒng)中,常遇到的是一步遍歷模型,即經(jīng)過一步跳轉(zhuǎn),系統(tǒng)可達到任何一個狀態(tài)。這樣的HMM的狀態(tài)轉(zhuǎn)移矩陣中的每一個元素均為大于零的數(shù),沒有零元素。顯然,各態(tài)歷經(jīng)型HMM不符合時間順序的要求,因為它可以回到以前到過的狀態(tài),所以只能用于不要求時間順序的語音信號處理,如:與文本無關(guān)的說話人識別等。從左到右型HMM(Left-to-RightHMM):所謂的從左到右模型,就是指隨著時間的增加,狀態(tài)的轉(zhuǎn)移只能是從左到右進行或停留在原來的狀態(tài),而不能出現(xiàn)返回到以前狀態(tài)的情況,即從編號高的狀態(tài)(如第狀態(tài))到編號低的狀態(tài)(如第n-1或n-2等等狀態(tài))跳轉(zhuǎn)的情況(這實際上是一個時序的問題,因為按照時間順序,總是從編號低的狀態(tài)向編號高的狀態(tài)轉(zhuǎn)移)。因此,其狀態(tài)轉(zhuǎn)移矩陣具有如下的形式,它是一個上三角矩陣,而表示終止狀態(tài)的最后一行除了最后一個元素外全為零(當終止狀態(tài)沒有自轉(zhuǎn)移時,則最后一行全為零)。另外從狀態(tài)轉(zhuǎn)移結(jié)構(gòu)上HMM還有其他的一些變體,如由圖5-5(c)所示的由兩條并行的從左到右模型組成的HMM,又稱為HMM網(wǎng)絡(luò)。它不是一般的情況,是由標準模型組合的變體,用于特殊的應(yīng)用場合。這種模型較復(fù)雜,所以性能一般要比單個左右模型要好。
按照HMM的輸出概率分布(B參數(shù))分類
離散HMM(DHMM):離散HMM就是上面一直在介紹的HMM。在這種HMM中,每一個狀態(tài)的輸出概率是按觀察字符離散分布的,每一次轉(zhuǎn)移時狀態(tài)輸出的字符,是從一個有限的離散字符集中按照一定的離散概率分布選出的。在語音信號處理中,經(jīng)過特征分析后,語音信號先被分割成若干幀,每幀求取一個特征參數(shù)向量,即每幀是用一個特征參數(shù)向量表示的。此時若要使用離散HMM,則需要將語音特征參數(shù)向量的時間序列進行矢量量化,通過矢量量化使每一幀語音信號由特征參數(shù)向量表示轉(zhuǎn)變?yōu)橛么a字符號表示的形式。
連續(xù)型HMM(ContinuousHMM,簡稱為CHMM):在連續(xù)HMM中,由于可以輸出的是連續(xù)值,不是有限的,所以不能用矩陣表示輸出概率,而要改用概率密度函數(shù)來表示。即用表示:在和之間觀察矢量的輸出概率。這里稱為參數(shù)的概率密度分布函數(shù),輸出的概率可以通過計算出來。一般用高斯概率密度函數(shù),由于是多維矢量所以要用多元高斯概率密度函數(shù)根據(jù)協(xié)方差矩陣是全協(xié)方差矩陣還是對角協(xié)方差矩陣,可以把連續(xù)HMM分成全協(xié)方差矩陣CHMM和對角協(xié)方差矩陣CHMM。另一方面,由于在實際的語音信號處理系統(tǒng)中,往往用一個高斯概率密度函數(shù)不足以表示語音參數(shù)的輸出概率分布,所以一種常用于語音信號處理的概率密度函數(shù),稱之為“高斯元混合密度”,即用多個高斯概率分布的加權(quán)組合來表示輸出概率密度函數(shù)。連續(xù)混合密度HMM為多個正態(tài)分布線性相加的HMM系統(tǒng),當M值較大(如M為4或5)時,系統(tǒng)的識別率較高,但其運算量較大。另一方面,每個模型中每個狀態(tài)的概率密度由M個正態(tài)分布函數(shù)疊加而成,它比前者有更多的自由度,因而逼近實際分布的效果更好一些,這樣識別效果也會更佳,隨著詞匯量的增加,這一優(yōu)點更加突出,因而,對一些大詞匯量的與說話人無關(guān)的語音識別系統(tǒng),連續(xù)混合密度HMM受到重視。半連續(xù)型HMM(Semi-ContinuousHMM:簡稱為SCHMM):離散HMM的模型參數(shù)少,對訓練數(shù)據(jù)量要求不高,而且離散HMM的計算量較少,易于實時實現(xiàn),但是離散HMM的缺點是識別精度不高。連續(xù)型HMM雖然不使用離散概率分布不需要對輸入信號進行量化,從而提高了識別率,但這是以運算量的增加為代價的,而且連續(xù)型HMM尤其是連續(xù)混合密度HMM的模型參數(shù)教多,訓練數(shù)據(jù)不夠時訓練的模型精度較低。為了結(jié)合這兩種模型的優(yōu)點,彌補這兩種模型的缺點。人們提出了半連續(xù)型HMM,它的輸出概率的形式如下式所示:這樣,對于離散HMM,半連續(xù)型HMM用多個正態(tài)分布線性相加作為概率密度函數(shù)彌補了離散分布的誤差;對于連續(xù)型HMM,半連續(xù)型HMM用多個各狀態(tài)共有的正態(tài)分布線性相加作為概率密度函數(shù)彌補了參數(shù)數(shù)量多,計算量大的缺陷。
其他一些特殊的HMM的形式
空轉(zhuǎn)移(NullTransitions):在這種類型的HMM中,系統(tǒng)的輸出是與轉(zhuǎn)移弧相聯(lián)系的,允許不產(chǎn)生輸出的轉(zhuǎn)移,即從一個狀態(tài)轉(zhuǎn)移到其他狀態(tài)時,無觀察符號(或矢量)輸出。這樣的轉(zhuǎn)移稱為空轉(zhuǎn)移。在連續(xù)語音識別系統(tǒng)中,單詞或語句的HMM都是由基元HMM的連接形成的,一般在連接時,一個基元HMM的終止狀態(tài)和一個基元HMM的初始狀態(tài)相連接,這種連接產(chǎn)生的轉(zhuǎn)移弧就是空轉(zhuǎn)移,如圖5-6所示。所以在大詞匯連續(xù)語音識別系統(tǒng)中大量使用了這種模型。
基元HMM的連接
參數(shù)捆綁(Parametertieing):參數(shù)捆綁的基本思想是在HMM的不同狀態(tài)轉(zhuǎn)移弧的參數(shù)之間建立一定的關(guān)系,使得不同狀態(tài)轉(zhuǎn)移弧使用相同的參數(shù),其目的就是使模型中的獨立的狀態(tài)參數(shù)減少,從而使得參數(shù)估計變得較為簡單。參數(shù)捆綁是解決訓練數(shù)據(jù)不足問題的重要方法,因為模型的參數(shù)越多,則需要的訓練數(shù)據(jù)數(shù)量就越大,否則訓練出的模型精度就不夠。所以可以通過參數(shù)捆綁來降低模型參數(shù)數(shù)量,減少對訓練數(shù)據(jù)量的壓力。參數(shù)捆綁常用于兩個或多個狀態(tài)的輸出觀察向量的概率密度分布近似相同的情況,提取的語音特征參數(shù)可以認為在這些狀態(tài)轉(zhuǎn)移弧上符合相同的分布。實際上,在如圖5-7所示的連續(xù)型HMM中,一個狀態(tài)的自轉(zhuǎn)移弧和互轉(zhuǎn)移弧的參數(shù)必須進行參數(shù)捆綁,因為,對于一個訓練參數(shù)的時間序列,實際上互轉(zhuǎn)移弧上只通過了一幀的語音數(shù)據(jù),而用一幀的語音數(shù)據(jù)估計正態(tài)分布概率密度函數(shù)是不可能的。
具有參數(shù)捆綁的連續(xù)型HMM
5.6隱馬爾可夫模型的一些實際問題
下溢問題在計算HMM的三個問題時,需要計算前向變量和后向變量,他們是通過遞歸運算求得的,例如在Viterbi算法中,計算前向變量所用的遞歸公式如下:
在上式中,和項均為小于的1數(shù)(甚至遠小于1),因此在實際運算中,較要小,隨著t的增加,就有明顯得降低,最后,該變量變得非常小,以致會超出計算動態(tài)范圍的下限,即使采用雙精度運算,當t相當大時,幾乎所有的都趨向于0,后向變量的計算也有類似的情況,這就是計算中的下溢問題。因此,在進行相關(guān)計算時,必須加入定標過程。
參數(shù)的初始化問題
從理論上而言,基于標準ML(MaximumLikelihoodMethod,簡稱為ML法)判據(jù)的Baum-Welch前后向重估訓練算法能夠給出似然函數(shù)的局部最大點,一個關(guān)鍵的問題是如何恰當?shù)剡x擇HMM的初始參數(shù),使局部最大值盡量的接近全局最優(yōu)點。此外,好的初值選擇還可以保證達到收斂所需的迭代次數(shù)最小,即計算效率較高。初始概率和狀態(tài)轉(zhuǎn)移系數(shù)矩陣的初值較易確定。由迭代算法可知,如果任何一個參數(shù)的初值定為0,那么以后的迭代運算中恒為零。因此,通常對這兩組參數(shù)的初值設(shè)置為均勻分布之值或非零的隨機數(shù),據(jù)有關(guān)文獻介紹,和的初值設(shè)置對識別率的影響不是太大。參數(shù)B的初值設(shè)置較其它兩組參數(shù)的設(shè)置更至關(guān)重要也更困難。對離散型HMM等較簡單的情況,B的設(shè)置較容易,可以采取均勻的或隨機的設(shè)置每一字符出現(xiàn)的概率初值。在連續(xù)分布HMM的B中,包含的參數(shù)越多越復(fù)雜,則參數(shù)初值的設(shè)置對于迭代計算的結(jié)果越至關(guān)重要,一種較簡單的B初值的設(shè)置方法是用手工對輸入的語音進行狀態(tài)劃分并統(tǒng)計出相應(yīng)的概率分布作為初值,這適合于較小的語音單位。對于較大的語音單位,目前普遍采用分段K-均值算法,該算法的基本思想和計算流程如圖5-8所示。
用分段K-均值算法求模型的參數(shù)初值
提高HMM描述語音動態(tài)特性的能力為了保證HMM計算的有效性和訓練的可實現(xiàn)性,基本的HMM模型本身隱含了以下三個假設(shè):假設(shè)1:狀態(tài)轉(zhuǎn)移概率與觀察序列無關(guān),且時不變;假設(shè)2:狀態(tài)觀察概率密度函數(shù)與過去狀態(tài)無關(guān);假設(shè)3:狀態(tài)觀察概率密度函數(shù)與過去觀察無關(guān)。由于語音是發(fā)音系統(tǒng)連續(xù)變化所產(chǎn)生的,具有很強的相關(guān)性,以上基本HMM的假設(shè)無疑是不合理的。因此,雖然隱馬爾可夫模型是現(xiàn)在最流行的語音識別模型,然而基本型的HMM采用狀態(tài)輸出獨立假設(shè)是它的一個固有的缺陷。它影響了HMM描述語音信號時間上幀間相關(guān)動態(tài)特性的能力。
為了彌補這一缺陷,最早人們采用的方法是在利用語音靜態(tài)參數(shù)的同時,增加如下式(5-63)所示的語音的動態(tài)特性參數(shù),即以時刻t(幀)為中心,(幀)為幅度的線性回歸系數(shù):然而這些擴展都沒有從根本上解決HMM假設(shè)的不合理性,因而其對識別性能的改進也必然是有限的。因此,基于語音段的統(tǒng)計建模方法正是在此基礎(chǔ)上于八十年代末、九十年代初應(yīng)運而生了,提出許多方法,如使用線性或非線性預(yù)測器法、利用多項式回歸函數(shù)法、利用條件概率HMM的方法和復(fù)數(shù)幀段輸入HMM方法等。
利用語音幀間相關(guān)信息最直接最簡便的方法,是采用相繼的復(fù)數(shù)幀組成的特征參數(shù)矢量作為輸入特征量的方法。這種方法最初是由井手等人提出,Ostendorf等人把這一方法推廣到了連續(xù)語音識別系統(tǒng)。利用這一設(shè)想,可以較好地改善傳統(tǒng)輸出獨立HMM的缺陷,是一種有效而簡便的利用幀間相關(guān)信息的方法。HMM訓練方法的改進
現(xiàn)在作為HMM的模型的代表性訓練方法是被稱為Baum-Welch算法的最大似然推定法(ML法)。這種方法是以學習樣本生成的似然函數(shù)值最大為學習準則,而沒有考慮各學習類別之間的關(guān)系,所以不能保證用ML法訓練的模型產(chǎn)生的識別誤差率為最小,即模型間鑒別力最大。針對HMM的模型的訓練方法的問題,提出了許多改進的訓練方法。其中,基于最小分類誤差基準的學習方法(MinimumClassificationErrorMethod,以下簡稱MCE法)效果較好。
直接利用狀態(tài)持續(xù)時間分布概率的HMM系統(tǒng)
由Viterbi算法以及上面介紹的k-均值HMM訓練法可以知道,實際上語音信號中各個穩(wěn)定段是與相應(yīng)的HMM狀態(tài)相對應(yīng)的。然而在標準HMM中,觀察符號(矢量
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《供應(yīng)商檔案管理》課件
- 《園林景觀分析》課件
- 人教版八年級生物下冊第八單元健康地生活第三章第二、三章章末總結(jié)教學課件
- 《密爾沃基美術(shù)館》課件
- 單位管理制度匯編大全員工管理篇
- 單位管理制度合并匯編【職工管理篇】
- 單位管理制度分享合集職員管理十篇
- 單位管理制度范文大合集【人力資源管理篇】十篇
- 單位管理制度范例匯編職工管理篇
- 單位管理制度呈現(xiàn)匯編【人事管理篇】
- 非物質(zhì)文化遺產(chǎn)主題班會之英歌舞課件
- 柯橋區(qū)五年級上學期語文期末學業(yè)評價測試試卷
- 中國礦業(yè)大學《自然辯證法》2022-2023學年期末試卷
- TCWAN 0105-2024 攪拌摩擦焊接機器人系統(tǒng)技術(shù)條件
- 江蘇省期無錫市天一實驗學校2023-2024學年英語七年級第二學期期末達標檢測試題含答案
- 耕地占補平衡系統(tǒng)課件
- 2022年山東師范大學自考英語(二)練習題(附答案解析)
- 醫(yī)院工作流程圖較全
- NB/T 11431-2023土地整治煤矸石回填技術(shù)規(guī)范
- 醫(yī)療器械集中采購文件(2024版)
- 上海市2024-2025學年高一語文下學期分科檢測試題含解析
評論
0/150
提交評論