帶你了解語音識別技術(shù)_第1頁
帶你了解語音識別技術(shù)_第2頁
帶你了解語音識別技術(shù)_第3頁
帶你了解語音識別技術(shù)_第4頁
帶你了解語音識別技術(shù)_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

帶你了解語音識別技術(shù)邵建勛倪俊杰編者按:語音識別技術(shù)在生活中的應(yīng)用已經(jīng)非常廣泛,如在車載導(dǎo)航、智能家居、日常辦公等領(lǐng)域都有涉及,給人們生活帶來了很多便利。由于語音交互是一種更便利、更自然、更高效的溝通形式,所以它必定成為未來最主要的人機交互接口之一。那么,你真的了解語音識別技術(shù)嗎?它的發(fā)展歷程和技術(shù)原理又是怎樣的?我們一起來了解。語音識別技術(shù)又稱ASR技術(shù)(AutomaticSpeechRecognition),指機器自動將語音轉(zhuǎn)成文字。語音識別技術(shù)屬于人工智能方向的一個重要分支,涉及許多學(xué)科,如信號處理、計算機科學(xué)、語言學(xué)、聲學(xué)、生理學(xué)、心理學(xué)等,是人機自然交互技術(shù)中的關(guān)鍵環(huán)節(jié)。語音識別技術(shù)的發(fā)展歷程由于中文語音識別的復(fù)雜性,我國在聲學(xué)模型方面的研究進展相對更快一些,主流方向是更深更復(fù)雜的神經(jīng)網(wǎng)絡(luò)技術(shù)融合端到端技術(shù),也表現(xiàn)了強大的技術(shù)實力。語音識別的基本過程首先是確定文件格式。常見的聲音格式MP3、WMA等都是壓縮格式,要進行語音識別須采用WAV格式的聲音文件,也就是未經(jīng)壓縮的,里面存的是聲音波形的具體信息。聲音在數(shù)字化之后就是圖1所示的形狀。在開始語音識別之前,有時需要把首尾段的靜音切除,盡量降低對后續(xù)步驟的干擾。然后把聲音分幀,即把聲音分成一系列的小段,每小段稱為一幀,分幀的操作不是簡單切割,而是通過移動窗函數(shù)來實現(xiàn),幀與幀之間一般是有交疊的,如圖2所示。接著,再進行聲學(xué)特征提取。語音分成小段后,再做波形變換。常見的一種變換方法是提取MFCC(聲學(xué)特征有多種)特征,根據(jù)人耳的生理特性,把每一幀波形變成一個多維向量,可以簡單地理解為這個向量包含了這幀語音的內(nèi)容信息。聲音就成了一個M行N列的矩陣,稱之為觀察序列,如下頁圖3所示。每一幀都用一個12維的向量表示,色塊的顏色深淺表示向量值的大小。接著就是把矩陣變成文本的過程。把幀識別成狀態(tài),把狀態(tài)組合成音素,把音素組合成單詞?!耙羲亍笔菢?gòu)成單詞發(fā)音的基本單元,英語常用的音素集是由卡內(nèi)基梅隆大學(xué)設(shè)計的一套由39個音素構(gòu)成的音素集,漢語一般直接用全部聲母和韻母作為音素集,另外漢語識別還需分聲調(diào)。“狀態(tài)”可以理解為比音素更細分的語音單位,通常把一個音素劃分為3個“狀態(tài)”,如下頁圖4所示。圖中每個小豎條代表一幀,若干幀語音對應(yīng)一個狀態(tài),每三個狀態(tài)組合成一個音素,若干個音素組合成一個單詞。所以只要知道每幀語音對應(yīng)哪個狀態(tài),語音識別的工作就完成了。幀對應(yīng)的狀態(tài)尋找是根據(jù)對應(yīng)狀態(tài)的概率大小來進行的,概率大小的數(shù)據(jù)來源于“聲學(xué)模型”,這個模型里存了很多參數(shù),通過這些參數(shù)就可以知道幀和狀態(tài)對應(yīng)的概率。獲取這些參數(shù)的方法叫做“訓(xùn)練”,這就需要使用大量語音數(shù)據(jù)。因為每幀都會得到一個狀態(tài)號,所以結(jié)果會是非常多的雜亂無章的狀態(tài)號。實際上一段語音不會有太多的音素,最常用的方法是使用隱馬爾可夫模型(HiddenMarkovModel,HMM)。這個模型通過構(gòu)建一個狀態(tài)網(wǎng)絡(luò),從中尋找與聲音最匹配的路徑。總的來說,語音識別的過程其實就是在狀態(tài)網(wǎng)絡(luò)中搜索一條最佳路徑。語音識別主流技術(shù)介紹從語音識別算法的發(fā)展來看,語音識別技術(shù)主要分為三大類:第一類是模型匹配法,包括矢量量化(VQ)、動態(tài)時間規(guī)整(DTW)等;第二類是概率統(tǒng)計方法,包括高斯混合模型(GMM)、隱馬爾科夫模型(HMM)等;第三類是辨別器分類方法,如支持向量機(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)和深度神經(jīng)網(wǎng)絡(luò)(DNN)等,以及多種組合方法。下面對主流的識別技術(shù)做簡單介紹。1.動態(tài)時間規(guī)整(DTW)DynamicTimeWarping(DTW)由日本學(xué)者Itakura提出,是一種衡量兩個長度不同的時間序列的相似度的方法。其應(yīng)用也比較廣,主要是用在模板匹配中,如用在孤立詞語音識別(識別兩段語音是否表示同一個單詞)、手勢識別、數(shù)據(jù)挖掘和信息檢索中等。在語音識別中,由于語音信號的隨機性,如即使同一個人發(fā)的同一個音,只要說話環(huán)境和情緒不同,時間長度也不盡相同,因此時間規(guī)整是必不可少的。DTW是一種將時間規(guī)整與距離測度有機結(jié)合的非線性規(guī)整技術(shù),在語音識別時,需要把測試模板與參考模板進行實際比對和非線性伸縮,并依照某種距離測度選取距離最小的模板作為識別結(jié)果輸出。動態(tài)時間規(guī)整技術(shù)的引入,將測試語音映射到標(biāo)準語音時間軸上,使長短不等的兩個信號最后通過時間軸彎折達到一樣的時間長度,進而使得匹配差別最小,結(jié)合距離測度,得到測試語音與標(biāo)準語音之間的距離。在實現(xiàn)小詞匯表孤立詞識別系統(tǒng)時,DTW識別率及其他指標(biāo)與HMM算法實現(xiàn)幾乎等同。又由于HMM算法復(fù)雜,在訓(xùn)練階段需要提供大量的語音數(shù)據(jù)通過反復(fù)計算才能得到模型參數(shù),而DTW算法本身既簡單又有效,因此DTW算法在特定的場合下獲得了廣泛的應(yīng)用。2.支持向量機(SVM)SVM方法是通過一個非線性映射p,把樣本空間映射到一個高維乃至無窮維的特征空間中(Hilbert空間),使得在原來的樣本空間中非線性可分的問題轉(zhuǎn)化為在特征空間中的線性可分的問題。簡單地說,就是升維和線性化。升維,就是把樣本向高維空間做映射,一般情況下會增加計算的復(fù)雜性,甚至?xí)稹熬S數(shù)災(zāi)難”,因而人們很少問津。但是作為分類、回歸等問題來說,很可能在低維樣本空間無法線性處理的樣本集,在高維特征空間中卻可以通過一個線性超平面實現(xiàn)線性劃分(或回歸)。一般的升維都會帶來計算的復(fù)雜化,而SVM方法巧妙地解決了這個難題:應(yīng)用核函數(shù)的展開定理,就不需要知道非線性映射的顯式表達式;由于是在高維特征空間中建立線性學(xué)習(xí)機,所以與線性模型相比,不但幾乎不增加計算的復(fù)雜性,而且在某種程度上避免了“維數(shù)災(zāi)難”。這一切要歸功于核函數(shù)的展開和計算理論。選擇不同的核函數(shù),可以生成不同的SVM,常用的核函數(shù)有以下4種:①線性核函數(shù)K(x,y)=x·y;②多項式核函數(shù)K(x,y)=[(x·y)+1]^d;③徑向基函數(shù)K(x,y)=exp(-|x-y|^2/d^2);④二層神經(jīng)網(wǎng)絡(luò)核函數(shù)K(x,y)=tanh(a(x·y)+b)。3.矢量量化(VQ)矢量量化VQ(VectorQuantization)是一種廣泛應(yīng)用于語音和圖像壓縮編碼等領(lǐng)域的重要信號壓縮技術(shù),其基本原理是把每幀特征矢量參數(shù)在多維空間中進行整體量化,在信息量損失較小的情況下對數(shù)據(jù)進行壓縮。模擬信號是連續(xù)的值,而計算機只能處理離散的數(shù)字信號,所以在將模擬信號轉(zhuǎn)換為數(shù)字信號的時候,我們可以用區(qū)間內(nèi)的某一個值去代替這一個區(qū)間,如[0,1]上的所有值變?yōu)?,則[1,2]上的所有值變成1,以此類推。因此,它不僅可以減小數(shù)據(jù)存儲,而且還能提高系統(tǒng)運行速度,保證語音編碼質(zhì)量和壓縮效率,一般應(yīng)用于小詞匯量的孤立詞語音識別系統(tǒng)。4.隱馬爾科夫模型(HMM)隱馬爾科夫模型是一種統(tǒng)計模型,它用來描述一個含有隱含未知參數(shù)的馬爾可夫過程。其難點是從可觀察的參數(shù)中確定該過程的隱含參數(shù),然后利用這些參數(shù)來做進一步的分析,目前多應(yīng)用于語音信號處理領(lǐng)域。在該模型中,馬爾科夫(Markov)鏈中的一個狀態(tài)是否轉(zhuǎn)移到另一個狀態(tài)取決于狀態(tài)轉(zhuǎn)移概率,而某一狀態(tài)產(chǎn)生的觀察值取決于狀態(tài)生成概率。在進行語音識別時,HMM首先為每個識別單元建立發(fā)聲模型,通過長時間訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和輸出概率矩陣,在識別時根據(jù)狀態(tài)轉(zhuǎn)移過程中的最大概率進行判決。5.高斯混合模型(GMM)高斯混合模型(GaussianMixedModel)指的是多個高斯分布函數(shù)的線性組合,理論上GMM可以擬合出任意類型的分布,通常用于解決同一集合下的數(shù)據(jù)包含多個不同的分布的情況。高斯混合模型種類有單高斯模型(SingleGaussianModel,SGM)和高斯混合模型(GaussianMixtureModel,GMM)兩類。類似于聚類,根據(jù)高斯概率密度函數(shù)(ProbabilityDensityFunction,PDF)參數(shù)不同,每一個高斯模型可以看作一種類別,輸入一個樣本x,即可通過PDF計算其值,然后通過一個閾值來判斷該樣本是否屬于高斯模型。6.人工神經(jīng)網(wǎng)絡(luò)(ANN/BP)7.深度神經(jīng)網(wǎng)絡(luò)/深信度網(wǎng)絡(luò)-隱馬爾科夫(DNN/DBN-HMM)當(dāng)前,諸如ANN、BP等多數(shù)分類的學(xué)習(xí)方法都是淺層結(jié)構(gòu)算法,與深層算法相比存在局限。尤其當(dāng)樣本數(shù)據(jù)有限時,它們表征復(fù)雜函數(shù)的能力明顯不足。深度學(xué)習(xí)可通過學(xué)習(xí)深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式,并展現(xiàn)從少數(shù)樣本集中學(xué)習(xí)本質(zhì)特征的強大能力。在深度結(jié)構(gòu)非凸目標(biāo)代價函數(shù)中普遍存在的局部最小問題是訓(xùn)練效果不理想的主要根源。為了解決以上問題,我們提出了基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的非監(jiān)督貪心逐層訓(xùn)練算法,它利用空間相對關(guān)系減少參數(shù)數(shù)目以提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練性能。相比傳統(tǒng)的基于GMM-HMM的語音識別系統(tǒng),其最大的改變是采用深度神經(jīng)網(wǎng)絡(luò)替換GMM模型對語音的觀察概率進行建模。語音識別技術(shù)應(yīng)用一般地,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論