版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1第13章語(yǔ)音識(shí)別1第13章語(yǔ)音識(shí)別2內(nèi)容提要13.1概述13.2語(yǔ)音識(shí)別原理13.3動(dòng)態(tài)時(shí)間規(guī)整13.4有限狀態(tài)矢量量化技術(shù)13.4.1FSVQ原理及FSVQ聲碼器13.4.2FSVQ語(yǔ)音識(shí)別器13.5孤立詞識(shí)別系統(tǒng)13.6連續(xù)語(yǔ)音識(shí)別13.6.1連續(xù)語(yǔ)音識(shí)別中存在的困難13.6.2連續(xù)語(yǔ)音識(shí)別的訓(xùn)練及識(shí)別方法13.6.3基于HMM統(tǒng)一框架的大詞匯量非特定人連續(xù)語(yǔ)音識(shí)別2內(nèi)容提要13.1概述3語(yǔ)音識(shí)別(SpeechRecognition)
讓機(jī)器聽(tīng)懂人說(shuō)話語(yǔ)音識(shí)別應(yīng)用-人機(jī)交互:語(yǔ)音打字機(jī)(聽(tīng)寫(xiě)機(jī),鍵盤(pán)輸入的3-4倍);電話查詢自動(dòng)應(yīng)答系統(tǒng)(語(yǔ)音界面);語(yǔ)音命令的控制系統(tǒng)(釋放手腳);交叉學(xué)科:計(jì)算機(jī)、通信、語(yǔ)音語(yǔ)言學(xué)、數(shù)理統(tǒng)計(jì)、信號(hào)處理、神經(jīng)生理心理、人工智能等13.1概述3語(yǔ)音識(shí)別(SpeechRecognition)
讓機(jī)器聽(tīng)4語(yǔ)音識(shí)別歷史發(fā)展50年代-AT&TBellLab,可識(shí)別10個(gè)英文數(shù)字60年代-LP較好地解決了語(yǔ)音信號(hào)產(chǎn)生模型,DP則有效解決了不等長(zhǎng)語(yǔ)音的匹配問(wèn)題。70年代-DTW(DynamicTimeWarp)技術(shù)基本成熟,VQ和HMM理論;實(shí)現(xiàn)了基于LPC和DTW技術(shù)相結(jié)合的特定人孤立語(yǔ)音識(shí)別系統(tǒng)。80年代-HMM模型和人工神經(jīng)元網(wǎng)絡(luò)(ANN)在語(yǔ)音識(shí)別中成功應(yīng)用。1988年美國(guó)CMU大學(xué)基于VQ/HMM開(kāi)發(fā)SI-CSR系統(tǒng)SPHINX。90年代-大規(guī)模應(yīng)用,工業(yè)標(biāo)準(zhǔn),理論進(jìn)展緩慢13.1概述4語(yǔ)音識(shí)別歷史發(fā)展50年代-AT&TBellLab,可識(shí)5語(yǔ)音識(shí)別的發(fā)展現(xiàn)狀從理論到產(chǎn)品走過(guò)了50多個(gè)春秋;現(xiàn)有很多實(shí)際應(yīng)用系統(tǒng);有可能成為下一代操作系統(tǒng)和應(yīng)用程序的用戶界面;遠(yuǎn)沒(méi)有達(dá)到計(jì)算機(jī)與人類自然交流的終極目標(biāo);實(shí)用的語(yǔ)音識(shí)別技術(shù)研究極具市場(chǎng)價(jià)值和挑戰(zhàn);重點(diǎn):大詞匯、非特定人、連續(xù)語(yǔ)音識(shí)別13.1概述5語(yǔ)音識(shí)別的發(fā)展現(xiàn)狀13.1概述6語(yǔ)音識(shí)別方法:模版匹配法:特定人、小詞匯、孤立人識(shí)別系統(tǒng)。就是將測(cè)試語(yǔ)音與模板的參數(shù)一一進(jìn)行比較與匹配,判決的依據(jù)是失真測(cè)度最小準(zhǔn)則。隨機(jī)模型法:主流,HMM使用HMM的概率參數(shù)來(lái)對(duì)似然函數(shù)進(jìn)行估計(jì)與判決,從而得到識(shí)別結(jié)果的方法。由于HMM具有狀態(tài)函數(shù),所以這個(gè)方法可以利用語(yǔ)音頻譜的內(nèi)在變化(如講話速度、不同講話者特性等)和它們的相關(guān)性(記憶性)。
語(yǔ)音:從一個(gè)相對(duì)穩(wěn)定的狀態(tài)過(guò)渡到另一個(gè)狀態(tài)概率語(yǔ)法分析法:區(qū)別性特征+(語(yǔ)法、語(yǔ)義、語(yǔ)用)規(guī)則+知識(shí)基于ANN(人工神經(jīng)網(wǎng)絡(luò))的方法、基于模糊數(shù)學(xué)的方法、句法語(yǔ)音識(shí)別等
13.1概述6語(yǔ)音識(shí)別方法:13.1概述7漢語(yǔ)語(yǔ)音識(shí)別與其他語(yǔ)言沒(méi)有本質(zhì)區(qū)別;漢語(yǔ)的特點(diǎn)使其識(shí)別難度更大;語(yǔ)音理解:在識(shí)別語(yǔ)音底層的基礎(chǔ)上,利用語(yǔ)言學(xué)、詞法學(xué)、句法學(xué)、語(yǔ)義學(xué)、語(yǔ)用學(xué)、對(duì)話模型等知識(shí),確定其語(yǔ)音信號(hào)的自然語(yǔ)音級(jí)在一定的語(yǔ)言環(huán)境下的意圖信息。以識(shí)別為基礎(chǔ),區(qū)別于識(shí)別;識(shí)別在于“聽(tīng)清”其語(yǔ)音學(xué)級(jí)的內(nèi)容;理解在于“明白”其語(yǔ)言學(xué)級(jí)的內(nèi)容;13.1概述7漢語(yǔ)語(yǔ)音識(shí)別13.1概述8語(yǔ)音識(shí)別系統(tǒng)的分類:孤立詞、選詞語(yǔ)音識(shí)別、連續(xù)語(yǔ)音識(shí)別、
語(yǔ)音理解(在識(shí)別的基礎(chǔ)上用語(yǔ)言學(xué)知識(shí)推斷語(yǔ)音含義)、會(huì)話語(yǔ)音識(shí)別(書(shū)寫(xiě)語(yǔ)音識(shí)別)大詞匯、中詞匯、小詞匯語(yǔ)音識(shí)別系統(tǒng)
單個(gè)說(shuō)話人(speaker)識(shí)別系統(tǒng)、多個(gè)說(shuō)話人、與說(shuō)話人無(wú)關(guān)的系統(tǒng)(特定人與非特定人)13.1概述8語(yǔ)音識(shí)別系統(tǒng)的分類:13.1概述9語(yǔ)音識(shí)別技術(shù)面臨的問(wèn)題數(shù)據(jù)資源(年齡、性別、語(yǔ)言、方言、主題、情緒、地域……切分、標(biāo)注體系)抗噪性能(背景噪聲、信道噪聲、干擾)協(xié)同發(fā)音(Co-articulation)口語(yǔ)現(xiàn)象(重復(fù)、頓措、語(yǔ)序顛倒……)說(shuō)話人變異(口音、情緒、年齡……)聽(tīng)覺(jué)機(jī)理(音量、頻率、抗噪、區(qū)分……)…………13.1概述9語(yǔ)音識(shí)別技術(shù)面臨的問(wèn)題數(shù)據(jù)資源(年齡、性別、語(yǔ)言、方言、10語(yǔ)音識(shí)別系統(tǒng)典型系統(tǒng)IBMViaVoice聽(tīng)寫(xiě)機(jī)AT&TVRCP系統(tǒng)(自助話務(wù)員協(xié)助呼叫)NTTANSER語(yǔ)音識(shí)別銀行服務(wù)系統(tǒng)SONYAIBO機(jī)器狗13.1概述10語(yǔ)音識(shí)別系統(tǒng)典型系統(tǒng)13.1概述11語(yǔ)音識(shí)別應(yīng)用價(jià)值信息查詢(股票、天氣、航班……)人機(jī)界面(新一代操作系統(tǒng)、智能家居)聽(tīng)寫(xiě)機(jī)(文字輸入、記錄)數(shù)據(jù)庫(kù)管理(語(yǔ)音檢索)……語(yǔ)音識(shí)別(提取或匹配語(yǔ)義)、語(yǔ)音壓縮(高效存儲(chǔ)、傳輸語(yǔ)音信號(hào))、語(yǔ)音合成(輸出自然可懂的語(yǔ)音信號(hào))、語(yǔ)音增強(qiáng)(提高信噪比、加重語(yǔ)音成分)息息相關(guān)。說(shuō)話人識(shí)別(安全應(yīng)用)關(guān)鍵詞檢出(多媒體數(shù)據(jù)檢索)……13.1概述11語(yǔ)音識(shí)別應(yīng)用價(jià)值信息查詢(股票、天氣、航班……)13.112語(yǔ)音識(shí)別的性能評(píng)價(jià)原句:我們明天去天安門(mén)識(shí)別:我×
明后天去天壇
×刪除錯(cuò)誤Deletion插入錯(cuò)誤Insertion替換錯(cuò)誤Substitution正確率:
準(zhǔn)確率:
13.1概述12語(yǔ)音識(shí)別的性能評(píng)價(jià)原句:我們明天13
語(yǔ)音產(chǎn)生語(yǔ)音理解生理過(guò)程13
語(yǔ)音產(chǎn)生語(yǔ)音理解生理過(guò)程14
語(yǔ)音識(shí)別層次模型14
語(yǔ)音識(shí)別層次模型15
統(tǒng)一層次模型
——系統(tǒng)設(shè)計(jì)15
統(tǒng)一層次模型
——系統(tǒng)設(shè)計(jì)16語(yǔ)音識(shí)別原理模式匹配原理:
未知語(yǔ)音模式與已知語(yǔ)音模式逐一比較,最佳匹配的參考模式作為識(shí)別結(jié)果。識(shí)別步驟:學(xué)習(xí)訓(xùn)練
分析語(yǔ)音特征參數(shù),建立模板庫(kù);識(shí)別測(cè)試
按照一定的測(cè)度和準(zhǔn)則與系統(tǒng)模型進(jìn)行比較,通過(guò)判決得出結(jié)果;語(yǔ)音識(shí)別本質(zhì)就是模式識(shí)別13.2語(yǔ)音識(shí)別原理16語(yǔ)音識(shí)別原理模式匹配原理:
未知語(yǔ)音模式與已知語(yǔ)音模式逐17語(yǔ)音識(shí)別系統(tǒng)基本構(gòu)成特征提取訓(xùn)練模式匹配識(shí)別語(yǔ)法模板結(jié)果語(yǔ)音說(shuō)話人自適應(yīng)13.2語(yǔ)音識(shí)別原理17語(yǔ)音識(shí)別系統(tǒng)基本構(gòu)成特征提取訓(xùn)練模式匹配識(shí)別語(yǔ)法模板結(jié)果18語(yǔ)音識(shí)別系統(tǒng)舉例13.2語(yǔ)音識(shí)別原理18語(yǔ)音識(shí)別系統(tǒng)舉例13.2語(yǔ)音識(shí)別原理19
歐氏距離測(cè)度中幾個(gè)常見(jiàn)測(cè)度。①歐氏距離的均方誤差(常用)。
式中,xi為輸入信號(hào)的第i個(gè)k維矢量,yi為碼本中第i個(gè)k維矢量,d2(x,y)的下標(biāo)2表示平方誤差。13.2語(yǔ)音識(shí)別原理19歐氏距離測(cè)度中幾個(gè)常見(jiàn)測(cè)度。13.2語(yǔ)音識(shí)別原20②r方平均誤差。13.2語(yǔ)音識(shí)別原理20②r方平均誤差。13.2語(yǔ)音識(shí)別21③r
平均誤差。13.2語(yǔ)音識(shí)別原理21③r平均誤差。13.2語(yǔ)音識(shí)別原22④絕對(duì)值平均誤差(常用)。13.2語(yǔ)音識(shí)別原理22④絕對(duì)值平均誤差(常用)。13.2語(yǔ)23⑤最大平均誤差(常用)。13.2語(yǔ)音識(shí)別原理23⑤最大平均誤差(常用)。13.2語(yǔ)音識(shí)別原理24預(yù)處理反混疊濾波;模/數(shù)轉(zhuǎn)換;自動(dòng)增益控制;去除聲門(mén)激勵(lì)和口腔輻射;正確選擇識(shí)別單元;13.2語(yǔ)音識(shí)別原理語(yǔ)音識(shí)別原理框圖24預(yù)處理13.2語(yǔ)音識(shí)別原理語(yǔ)音識(shí)別原理框圖25特征提取從波形信號(hào)獲取一組描述語(yǔ)音信號(hào)特征的參數(shù);參數(shù)的好壞對(duì)識(shí)別精度影響很大;識(shí)別參數(shù):平均能量、過(guò)零率、頻譜、共振峰、倒譜、線性預(yù)測(cè)系數(shù)、HMM的概率函數(shù)、矢量量化的矢量……可以一種或多種參數(shù)并用;需要考慮參數(shù)的穩(wěn)定性、識(shí)別率、計(jì)算量等;對(duì)于漢語(yǔ)還存在聲調(diào)的提?。ǔ舳涡畔ⅲ?;13.2語(yǔ)音識(shí)別原理語(yǔ)音識(shí)別原理框圖25特征提取13.2語(yǔ)音識(shí)別原理語(yǔ)音識(shí)別原理框圖26距離測(cè)度:與特征提取相關(guān)的內(nèi)容則是特征間的距離測(cè)度。歐氏距離及其變形;對(duì)數(shù)似然比失真測(cè)度;加權(quán)超音段信息識(shí)別測(cè)度;HMM之間的距離測(cè)度;主觀感知距離測(cè)度;13.2語(yǔ)音識(shí)別原理語(yǔ)音識(shí)別原理框圖26距離測(cè)度:與特征提取相關(guān)的內(nèi)容則是特征間的距離測(cè)度。127參考模式庫(kù)聲學(xué)參數(shù)模板(訓(xùn)練聚類得到的)訓(xùn)練與識(shí)別方法動(dòng)態(tài)時(shí)間規(guī)整(DTW):用輸入的待識(shí)別語(yǔ)音模式和預(yù)存的參考模式進(jìn)行模式匹配矢量量化(VQ):基于信息論中信源編碼技術(shù)的識(shí)別。有限狀態(tài)矢量量化(FSVQ)HMM::以統(tǒng)計(jì)方法為依據(jù)進(jìn)行識(shí)別時(shí)延神經(jīng)網(wǎng)絡(luò)(TDNN)模糊邏輯算法等13.2語(yǔ)音識(shí)別原理語(yǔ)音識(shí)別原理框圖27參考模式庫(kù)13.2語(yǔ)音識(shí)別原理語(yǔ)音識(shí)別原理框圖28DTW適合于識(shí)別特定人的基元較小的場(chǎng)合,多用于孤立詞的識(shí)別。DTW算法在匹配過(guò)程中比較細(xì),因此計(jì)算量大。其缺點(diǎn)是太依賴于發(fā)音人的原來(lái)發(fā)音;發(fā)音人身體不好或發(fā)音時(shí)情緒緊張,都會(huì)影響識(shí)別率。它不能對(duì)樣本作動(dòng)態(tài)訓(xùn)練,不適用于非特定人的語(yǔ)音識(shí)別。HMM法既解決了短時(shí)模型描述平穩(wěn)段的信號(hào)問(wèn)題,又解決了每個(gè)短時(shí)平穩(wěn)段是如何轉(zhuǎn)變到下一個(gè)短時(shí)平穩(wěn)段的問(wèn)題。它使用Markov鏈來(lái)模擬信號(hào)的統(tǒng)計(jì)特性變化。HMM以大量訓(xùn)練為基礎(chǔ),通過(guò)測(cè)算待識(shí)別語(yǔ)音的概率大小來(lái)識(shí)別語(yǔ)音。其算法適合于語(yǔ)音本身易變的特點(diǎn)適用于非特定人的語(yǔ)音識(shí)別,也適用于特定人的語(yǔ)音識(shí)別。13.2語(yǔ)音識(shí)別原理28DTW適合于識(shí)別特定人的基元較小的場(chǎng)合,多用于孤立詞的識(shí)29HMM原理較復(fù)雜,訓(xùn)練計(jì)算量較大,但識(shí)別計(jì)算量遠(yuǎn)小于DTW,識(shí)別率達(dá)到與DTW相同的水平。采用HMM進(jìn)行語(yǔ)音識(shí)別,實(shí)質(zhì)上是一種概率運(yùn)算。由于HMM中各狀態(tài)間的轉(zhuǎn)移概率和每個(gè)狀態(tài)下的輸出都是隨機(jī)的,所以這種模型能適應(yīng)語(yǔ)音發(fā)音的各種微妙變化,使用起來(lái)比模式匹配法靈活得多。除訓(xùn)練時(shí)運(yùn)算量較大外,識(shí)別時(shí)的運(yùn)算量只有模式匹配法的幾分之一。與模式匹配法相比,HMM是一種完全不同的概念。在模式匹配法中,參考樣本由事先存儲(chǔ)起來(lái)的模式充任,而HMM是將這一參考樣本用一個(gè)數(shù)學(xué)模型來(lái)表示,這就從概念上深化了一步。13.2語(yǔ)音識(shí)別原理2913.2語(yǔ)音識(shí)別原理30基于VQ的語(yǔ)音識(shí)別技術(shù)是20世紀(jì)80年代發(fā)展起來(lái)的,它可代替DTW完成動(dòng)態(tài)匹配,而其存儲(chǔ)量和計(jì)算量都比較小。
VQ主要適用于小詞匯量、孤立詞的語(yǔ)音識(shí)別中。其過(guò)程是:將對(duì)欲處理的大量語(yǔ)音K維幀矢量通過(guò)統(tǒng)計(jì)實(shí)驗(yàn)進(jìn)行統(tǒng)計(jì)劃分,即將K維無(wú)限空間聚類劃分為M個(gè)區(qū)域邊界,每個(gè)區(qū)域邊界對(duì)應(yīng)一個(gè)碼字,所有M個(gè)碼字構(gòu)成碼本。識(shí)別時(shí),將輸入語(yǔ)音的K維幀矢量與已有的碼本中M個(gè)區(qū)域邊界比較,按失真測(cè)度最小準(zhǔn)則找到與該輸入矢量距離最小的碼字標(biāo)號(hào)來(lái)代替此輸入的K維矢量,這個(gè)對(duì)應(yīng)的碼字即為識(shí)別結(jié)果,再對(duì)它進(jìn)行K維重建就得到被識(shí)別的信號(hào)。13.2語(yǔ)音識(shí)別原理30基于VQ的語(yǔ)音識(shí)別技術(shù)是20世紀(jì)80年代發(fā)展起來(lái)的,它可31FSVQ是一種有記憶的多碼本的VQ技術(shù)。它不僅計(jì)算量小,而且適用于與上下文有關(guān)的語(yǔ)音識(shí)別。適合于特定人或非特定人、孤立詞或連續(xù)語(yǔ)音識(shí)別。LVQ(LearningVQ)即學(xué)習(xí)矢量量化,是由神經(jīng)網(wǎng)絡(luò)的并行分布來(lái)實(shí)現(xiàn)普通VQ的串行搜索,其運(yùn)行速度遠(yuǎn)高于VQ。LVQ是通過(guò)有監(jiān)督的學(xué)習(xí)來(lái)改進(jìn)網(wǎng)絡(luò)對(duì)輸入矢量分類的正確率。LVQ2是對(duì)LVQ的改進(jìn),因?yàn)長(zhǎng)VQ在某些情況下對(duì)模式識(shí)別的分類效果不夠穩(wěn)定。LVQ2是帶學(xué)習(xí)功能的矢量量化法,它在訓(xùn)練時(shí)采用適應(yīng)性法,在滿足一定條件的情況下,將錯(cuò)誤的參考矢量移至離輸入矢量更遠(yuǎn)些,而將正確的參考矢量移至離輸入矢量更近些,以此來(lái)提高識(shí)別率。13.2語(yǔ)音識(shí)別原理31FSVQ是一種有記憶的多碼本的VQ技術(shù)。它不僅計(jì)算量小,32專家知識(shí)庫(kù)存儲(chǔ)各種語(yǔ)言學(xué)知識(shí);判決根據(jù)各種距離測(cè)度選擇適當(dāng)?shù)拈T(mén)限值;檢驗(yàn)結(jié)果識(shí)別率13.2語(yǔ)音識(shí)別原理語(yǔ)音識(shí)別原理框圖32專家知識(shí)庫(kù)13.2語(yǔ)音識(shí)別原理語(yǔ)音識(shí)別原理框圖33更一般的語(yǔ)音識(shí)別系統(tǒng)13.2語(yǔ)音識(shí)別原理33更一般的語(yǔ)音識(shí)別系統(tǒng)13.2語(yǔ)音識(shí)別原理34動(dòng)態(tài)時(shí)間規(guī)整DTW動(dòng)態(tài)時(shí)間規(guī)整DTW(dynamictimewarping)曾經(jīng)是語(yǔ)音識(shí)別的一種主流方法。其思路是:由于語(yǔ)音信號(hào)是一種具有相當(dāng)大隨機(jī)性的信號(hào),即使相同說(shuō)話者對(duì)相同的詞,每一次發(fā)音的結(jié)果都是不同的,也不可能具有完全相同的時(shí)間長(zhǎng)度。因此在與已存儲(chǔ)模型相匹配時(shí),未知單詞的時(shí)間軸要不均勻地扭曲或彎折,以使其特征與模板特征對(duì)正。用時(shí)間規(guī)整手段對(duì)正是一種非常有力的措施,對(duì)提高系統(tǒng)的識(shí)別精度非常有效。動(dòng)態(tài)時(shí)間規(guī)整DTW是一個(gè)典型的優(yōu)化問(wèn)題,它用滿足一定條件的的時(shí)間規(guī)整函數(shù)W(n)描述輸入模板和參考模板的時(shí)間對(duì)應(yīng)關(guān)系,求解兩模板匹配時(shí)累計(jì)距離最小所對(duì)應(yīng)的規(guī)整函數(shù)。13.3動(dòng)態(tài)時(shí)間規(guī)整34動(dòng)態(tài)時(shí)間規(guī)整DTW13.3動(dòng)態(tài)時(shí)間規(guī)整35DTW的基本思想:將時(shí)間規(guī)整與距離測(cè)度結(jié)合起來(lái),采用動(dòng)態(tài)規(guī)劃技術(shù),比較兩個(gè)大小不同的模式,解決語(yǔ)音識(shí)別中語(yǔ)速多變的難題;一種非線性時(shí)間規(guī)整模式匹配算法;13.3動(dòng)態(tài)時(shí)間規(guī)整35DTW的基本思想:13.3動(dòng)態(tài)時(shí)間規(guī)整36動(dòng)態(tài)時(shí)間規(guī)整語(yǔ)音識(shí)別模式匹配的問(wèn)題:時(shí)間對(duì)準(zhǔn)同一個(gè)人在不同時(shí)刻說(shuō)同一句話、發(fā)同一個(gè)音,也不可能具有完全相同的時(shí)間長(zhǎng)度;語(yǔ)音的持續(xù)時(shí)間隨機(jī)改變,相對(duì)時(shí)長(zhǎng)也隨機(jī)改變;端點(diǎn)檢測(cè)不準(zhǔn)確;方法1:線性時(shí)間規(guī)整,均勻伸長(zhǎng)或縮短依賴于端點(diǎn)檢測(cè)(經(jīng)常采用時(shí)域分析方法,進(jìn)行檢測(cè)的主要依據(jù)是能量、振幅和過(guò)零率。);僅擴(kuò)展時(shí)間軸無(wú)法精確對(duì)準(zhǔn);方法2:動(dòng)態(tài)時(shí)間規(guī)整DTW-DynamicTimeWarping;60年代Itakura提出來(lái)的;13.3動(dòng)態(tài)時(shí)間規(guī)整36動(dòng)態(tài)時(shí)間規(guī)整語(yǔ)音識(shí)別模式匹配的問(wèn)題:時(shí)間對(duì)準(zhǔn)13.3動(dòng)態(tài)37動(dòng)態(tài)時(shí)間規(guī)整法jBiAjiOw(i)模板輸入37動(dòng)態(tài)時(shí)間規(guī)整法jBiAjiOw(i)模板輸入38動(dòng)態(tài)規(guī)劃算法基本思想是將待求解問(wèn)題分解成若干個(gè)子問(wèn)題動(dòng)態(tài)規(guī)劃算法總體思想nT(n/2)T(n/2)T(n/2)T(n/2)T(n)=13.3動(dòng)態(tài)時(shí)間規(guī)整38動(dòng)態(tài)規(guī)劃算法基本思想是將待求解問(wèn)題分解成若干個(gè)子問(wèn)題動(dòng)態(tài)39但是經(jīng)分解得到的子問(wèn)題往往不是互相獨(dú)立的。不同子問(wèn)題的數(shù)目常常只有多項(xiàng)式量級(jí)。求解時(shí),有些子問(wèn)題被重復(fù)計(jì)算了許多次。動(dòng)態(tài)規(guī)劃算法總體思想nT(n)=n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)13.3動(dòng)態(tài)時(shí)間規(guī)整39但是經(jīng)分解得到的子問(wèn)題往往不是互相獨(dú)立的。不同子問(wèn)題的數(shù)40如果能夠保存已解決的子問(wèn)題的答案,而在需要時(shí)再找出已求得的答案,就可以避免大量重復(fù)計(jì)算,從而得到多項(xiàng)式時(shí)間算法。動(dòng)態(tài)規(guī)劃算法總體思想n=n/2T(n/4)T(n/4)T(n/4)T(n/4)n/2n/2T(n/4)T(n/4)n/2T(n/4)T(n/4)T(n/4)T(n/4)T(n/4)T(n)13.3動(dòng)態(tài)時(shí)間規(guī)整40如果能夠保存已解決的子問(wèn)題的答案,而在需要時(shí)再找出已求得41動(dòng)態(tài)規(guī)劃基本步驟找出最優(yōu)解的性質(zhì),并刻劃其結(jié)構(gòu)特征。遞歸地定義最優(yōu)值。以自底向上的方式計(jì)算出最優(yōu)值。根據(jù)計(jì)算最優(yōu)值時(shí)得到的信息,構(gòu)造最優(yōu)解。13.3動(dòng)態(tài)時(shí)間規(guī)整41動(dòng)態(tài)規(guī)劃基本步驟找出最優(yōu)解的性質(zhì),并刻劃其結(jié)構(gòu)特征。1342動(dòng)態(tài)時(shí)間規(guī)正法(DTW)的計(jì)算實(shí)例ck=(ik,jk)(ik,jk-1)(ik-1,jk)minFEDCBA1234RTg(i-1,j)+d(i,j)g(i-1,j-1)+2d(i,j)g(i,j-1)+d(i,j){DTW算法(部分優(yōu)化法)g(ck)=g(ik,jk)=g(i,j)=
D(T,R)=g(I,J)/(I+J)
42動(dòng)態(tài)時(shí)間規(guī)正法(DTW)的計(jì)算實(shí)例ck=(ik,jk)43DTW方法的缺點(diǎn)DTW是用于與說(shuō)話人有關(guān)(SpeakerDependent)的語(yǔ)音識(shí)別,使用者自行錄音然后再以自己的聲音來(lái)比對(duì)之前錄好的語(yǔ)音資料。此方法比較適合同一位說(shuō)話人的聲音來(lái)進(jìn)行比較,因此應(yīng)用范圍比較狹隘,譬如目前手機(jī)
NameDialing等等。13.3動(dòng)態(tài)時(shí)間規(guī)整43DTW方法的缺點(diǎn)DTW是用于與說(shuō)話人有關(guān)(Speaker44DTW的問(wèn)題:運(yùn)算量大;識(shí)別性能過(guò)分依賴于端點(diǎn)檢測(cè);太依賴于說(shuō)話人的原來(lái)發(fā)音;不能對(duì)樣本作動(dòng)態(tài)訓(xùn)練;沒(méi)有充分利用語(yǔ)音信號(hào)的時(shí)序動(dòng)態(tài)特性;DTW適合于特定人基元較小的場(chǎng)合,多用于孤立詞識(shí)別;13.3動(dòng)態(tài)時(shí)間規(guī)整44DTW的問(wèn)題:13.3動(dòng)態(tài)時(shí)間規(guī)整45矢量量化矢量量化VQVectorQuantization是將K個(gè)(K>=2)樣值形成一個(gè)K維空間中的一個(gè)矢量,然后對(duì)此矢量進(jìn)行一次量化,只傳輸或存儲(chǔ)矢量的地址.因此能大大地提高壓縮比.矢量量化總是優(yōu)于標(biāo)量量化,這是因?yàn)槭噶苛炕行У乩昧耸噶恐懈鞣至块g地四種相關(guān)性(線性依賴性,非線性依賴性,概率密度函數(shù)的形狀和矢量維數(shù))來(lái)去除多余度.矢量量化是標(biāo)量量化的多維擴(kuò)展.13.4有限狀態(tài)矢量量化技術(shù)45矢量量化矢量量化VQVectorQuantizati46矢量量化編解碼框圖13.4有限狀態(tài)矢量量化技術(shù)采用LBG算法(此名取Linde,Buzo,.Gray三人名字的開(kāi)頭英文字母)46矢量量化編解碼框圖13.4有限狀態(tài)矢量量化技術(shù)采用LB47有限狀態(tài)矢量量化(FSVQ)每個(gè)狀態(tài)有一個(gè)編碼器、解碼器和碼本(仍然采用LBG算法)FSVQ的最大特點(diǎn)是有一個(gè)狀態(tài)轉(zhuǎn)移函數(shù);利用這個(gè)狀態(tài)轉(zhuǎn)移函數(shù),根據(jù)上一次狀態(tài)sn和上一次的編碼結(jié)果jn,來(lái)確定下一個(gè)編碼狀態(tài)sn+1。這個(gè)系統(tǒng)在不增加比特率的情況下,可以利用過(guò)去的信息來(lái)選擇合適的碼本進(jìn)行編碼,因而其性能比一般的同維數(shù)的無(wú)記憶的矢量量化系統(tǒng)好得多,但是其存儲(chǔ)量增加了。13.4有限狀態(tài)矢量量化技術(shù)狀態(tài)轉(zhuǎn)移函數(shù)f(*,*)47有限狀態(tài)矢量量化(FSVQ)每個(gè)狀態(tài)有一個(gè)編碼器、解碼器48有限狀態(tài)矢量量化(FSVQ)FSVQ的設(shè)計(jì)方法仍然建立在LBG算法的基礎(chǔ)上,具體可分為三步:①各初始碼本的設(shè)計(jì)。②用訓(xùn)練序列來(lái)獲得狀態(tài)轉(zhuǎn)移函數(shù)。③用迭代法逐步改進(jìn)各碼本的功能。48有限狀態(tài)矢量量化(FSVQ)FSVQ的設(shè)計(jì)方法仍然建立在49FSVQ與APVQ及一般VQ的性能比較預(yù)測(cè)矢量量化(APVQ)49FSVQ與APVQ及一般VQ的性能比較預(yù)測(cè)矢量量化(505051隱Markov模型HMM語(yǔ)音是一隨機(jī)過(guò)程,每次發(fā)音時(shí),我們可以得到一個(gè)幀矢量序列(稱為發(fā)現(xiàn)序列)X:X={x1,x2,…,xT}對(duì)同一詞的不同發(fā)音,X的幀數(shù)T和xi都在變化??梢钥醋魇窃撾S機(jī)過(guò)程模型的多次實(shí)現(xiàn)。從語(yǔ)音產(chǎn)生過(guò)程來(lái)看,可以想象為聲道沿不同位置轉(zhuǎn)移時(shí),每一位置產(chǎn)生一隨機(jī)聲學(xué)輸出??砂迅髀暤牢恢孟胂鬄楦鱾€(gè)狀態(tài)Si,而發(fā)現(xiàn)序列可想象為在該狀態(tài)的一個(gè)隨機(jī)輸出Xi。這樣,語(yǔ)音的隨機(jī)過(guò)程可看作由兩個(gè)隨機(jī)過(guò)程構(gòu)成:狀態(tài)轉(zhuǎn)移的隨機(jī)過(guò)程;輸出的隨機(jī)過(guò)程。
13.4有限狀態(tài)矢量量化技術(shù)51隱Markov模型HMM13.4有限狀態(tài)矢量量化技術(shù)52基于HMM的識(shí)別系統(tǒng)13.4有限狀態(tài)矢量量化技術(shù)52基于HMM的識(shí)別系統(tǒng)13.4有限狀態(tài)矢量量化技術(shù)53孤立詞識(shí)別系統(tǒng)研究最早最成熟,實(shí)驗(yàn)室識(shí)別率達(dá)95%以上;發(fā)音認(rèn)真、單詞之間有停頓、端點(diǎn)檢測(cè)較易;前后單詞之間是孤立的,識(shí)別基礎(chǔ)建立在數(shù)學(xué)方法之上,不含“語(yǔ)言”知識(shí);識(shí)別技術(shù)有:DTW(運(yùn)算量較大,但技術(shù)上較簡(jiǎn)單,識(shí)別正確率也較高);VQ(應(yīng)用于特征處理可減少特征的類型從而減少計(jì)算量);HMM(路徑模型);混合技術(shù)(VQ/HMM);實(shí)驗(yàn)表明,在與講話者無(wú)關(guān)的孤立詞語(yǔ)音識(shí)別中,連續(xù)HMM的正識(shí)率已達(dá)到DTW的水平,而其所要求的存貯量和計(jì)算時(shí)間卻要小一個(gè)數(shù)量級(jí)。13.5孤立詞識(shí)別系統(tǒng)53孤立詞識(shí)別系統(tǒng)研究最早最成熟,實(shí)驗(yàn)室識(shí)別率達(dá)95%以上;54識(shí)別系統(tǒng)的結(jié)構(gòu)孤立詞識(shí)別的三個(gè)目標(biāo):擴(kuò)大詞匯量、提高識(shí)別精度、降低計(jì)算復(fù)雜度詞表中每個(gè)詞對(duì)應(yīng)一個(gè)參考模式。它是由這個(gè)詞重復(fù)發(fā)音多遍,再經(jīng)特征提取和某種訓(xùn)練算法得到的。孤立詞的發(fā)音,詞與詞之間要有足夠的時(shí)間間隙,以便能夠檢測(cè)到首末點(diǎn)。語(yǔ)聲學(xué)分析部分主要是抽取語(yǔ)音特征信息。語(yǔ)音經(jīng)過(guò)預(yù)處理后,要進(jìn)行特征提取。特征提取一般要解決兩個(gè)問(wèn)題:一是從語(yǔ)音信號(hào)中提取(或測(cè)量)具有代表性的合適的特征參數(shù);另一個(gè)是進(jìn)行適當(dāng)?shù)臄?shù)據(jù)壓縮。常用的特征參數(shù)以短時(shí)譜、倒譜和線性預(yù)測(cè)系數(shù)用得最多。
13.5孤立詞識(shí)別系統(tǒng)54識(shí)別系統(tǒng)的結(jié)構(gòu)孤立詞識(shí)別的三個(gè)目標(biāo):擴(kuò)大詞匯量、提高識(shí)別55連續(xù)語(yǔ)音識(shí)別比孤立詞識(shí)別難:選擇詞或詞以上單元作為識(shí)別單位,模版數(shù)目太大;選擇音節(jié)或音素為識(shí)別單位,無(wú)法回避協(xié)同發(fā)音的問(wèn)題(同一音素發(fā)音隨上下文而變化);語(yǔ)音的多變性;突破:20世紀(jì)90年代以后,全盤(pán)采用HMM統(tǒng)一框架,構(gòu)筑聲學(xué)/語(yǔ)音層、詞層和句法層3層識(shí)別系統(tǒng)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 通達(dá)課程設(shè)計(jì)實(shí)驗(yàn)報(bào)告spss
- 2025年度智能電網(wǎng)鋼管扣件專業(yè)運(yùn)輸與維護(hù)服務(wù)合同3篇
- 2025年茶葉質(zhì)量安全檢測(cè)服務(wù)合同8篇
- 二零二五年通信基站天線維護(hù)保養(yǎng)合同3篇
- 2025年度聘請(qǐng)協(xié)議書(shū)收藏與職業(yè)發(fā)展規(guī)劃4篇
- 二零二五年教育機(jī)構(gòu)裝飾設(shè)計(jì)合同2篇
- 2025年熟石灰市場(chǎng)營(yíng)銷推廣合作協(xié)議3篇
- 2025年體育用品運(yùn)輸服務(wù)合同
- 2025年度旅游用車綠色環(huán)保服務(wù)合同范本4篇
- 拆橋施工方案
- 日本人的色彩意識(shí)與自然觀
- 校園網(wǎng)絡(luò)系統(tǒng)的設(shè)計(jì)規(guī)劃任務(wù)書(shū)
- 部編版5年級(jí)語(yǔ)文下冊(cè)第五單元學(xué)歷案
- 建造師建設(shè)工程項(xiàng)目管理二局培訓(xùn)精簡(jiǎn)版課件
- 高考介詞練習(xí)(附答案)
- 電工(三級(jí))理論知識(shí)考核要素細(xì)目表
- 單位就業(yè)人員登記表
- 衛(wèi)生監(jiān)督協(xié)管-醫(yī)療機(jī)構(gòu)監(jiān)督
- 初中英語(yǔ)知識(shí)大匯總(374張)
- 記錄片21世紀(jì)禁愛(ài)指南
- 腰椎間盤(pán)的診斷證明書(shū)
評(píng)論
0/150
提交評(píng)論