版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨機(jī)過(guò)程理論在語(yǔ)音識(shí)別中的應(yīng)用第一章 語(yǔ)音識(shí)別總述1.1語(yǔ)音識(shí)別技術(shù)簡(jiǎn)介語(yǔ)音識(shí)別技術(shù)就是讓機(jī)器通過(guò)識(shí)別和理解過(guò)程,把語(yǔ)音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。在當(dāng)下流行的即時(shí)通訊軟件(如:微信、QQ等)里,語(yǔ)音識(shí)別技術(shù)得到了非常廣泛的應(yīng)用。當(dāng)對(duì)方發(fā)來(lái)一段語(yǔ)音信息而自己不方便收聽(tīng)時(shí)便可以使用語(yǔ)音轉(zhuǎn)化功能將語(yǔ)音信息轉(zhuǎn)化成文字信息。此外,在許多輸入法(如:訊飛輸入法)中也可以使用語(yǔ)音輸入功能。用戶只需要對(duì)著麥克風(fēng)說(shuō)話,輸入法便可以將語(yǔ)音轉(zhuǎn)換為文字填入輸入框,在方便用戶的同時(shí)也提高了文字輸入效率。語(yǔ)音識(shí)別涉及的領(lǐng)域包括:數(shù)字信號(hào)處理、聲學(xué)、語(yǔ)音學(xué)、計(jì)算機(jī)科學(xué)、心理學(xué)、人工智能等,是一門(mén)涵蓋多個(gè)學(xué)科領(lǐng)域的交
2、叉科學(xué)技術(shù)。語(yǔ)音識(shí)別的技術(shù)原理是模式識(shí)別,其一般過(guò)程可以總結(jié)為:預(yù)處理、特征提取、基于語(yǔ)音模型庫(kù)下的模式匹配、基于語(yǔ)言模型庫(kù)下的語(yǔ)言處理、完成識(shí)別。圖1.0.1 語(yǔ)音識(shí)別過(guò)程第二章 預(yù)處理聲音的實(shí)質(zhì)是波。在現(xiàn)如中得到廣泛應(yīng)用的音頻文件格式(如:mp3等)都經(jīng)過(guò)了壓縮無(wú)法直接識(shí)別。語(yǔ)音識(shí)別所使用的音頻文件格式必須是未經(jīng)壓縮處理的wav格式文件。下圖是一個(gè)波形示例。圖2.0.2 語(yǔ)音波形示例有了聲波源文件輸入便可以按照?qǐng)D所示的各個(gè)步驟進(jìn)行識(shí)別。2.1靜音切除如圖所示,在得到的聲波信號(hào)輸入中需要實(shí)際處理的信號(hào)并不一定占滿整個(gè)時(shí)域,會(huì)有靜音和噪聲的存在。因此,必須先對(duì)得到的輸入信號(hào)進(jìn)行一定的預(yù)處理,消
3、去靜音的部分并且濾除噪聲的干擾才能對(duì)實(shí)際需要處理的有效語(yǔ)音進(jìn)行識(shí)別。噪聲處理部分本文已在上文進(jìn)行過(guò)討論,這里不再贅述。去除靜音需要用到VAD算法,本文對(duì)其做簡(jiǎn)單介紹。 VAD算法VAD算法全稱(chēng)為Voice Activity Detection,又稱(chēng)語(yǔ)音邊界檢測(cè)。其可實(shí)現(xiàn)的功能有對(duì)語(yǔ)音信號(hào)進(jìn)行打斷、去除語(yǔ)音信號(hào)中的靜音部分從而獲取有效語(yǔ)音,還可以去除一部分噪聲對(duì)后續(xù)語(yǔ)音識(shí)別過(guò)程造成的干擾。VAD主要是對(duì)輸入語(yǔ)音信號(hào)的一些時(shí)域或頻域特征判斷其是否屬于靜音部分。本文只對(duì)這些參數(shù)做簡(jiǎn)要介紹,具體算法不屬于本文重點(diǎn)因而不在此做細(xì)致討論。2.1.2時(shí)域參數(shù)時(shí)域參數(shù)是通過(guò)對(duì)輸入信號(hào)在時(shí)域上的特征參量進(jìn)行區(qū)分
4、。在信噪比較高的環(huán)境下使用時(shí)域參數(shù)進(jìn)行區(qū)分效果顯著。1.相關(guān)性分析 通過(guò)對(duì)足夠短的時(shí)間范圍內(nèi)的語(yǔ)音信號(hào)進(jìn)行相關(guān)性檢測(cè)可以初步判定該時(shí)間范圍內(nèi)的信號(hào)是否屬于靜音部分。在實(shí)際應(yīng)用中,靜音的部分實(shí)際上會(huì)混有各種各樣的噪聲,因此并非絕對(duì)意義上靜音。噪聲在各個(gè)時(shí)間范圍內(nèi)的相關(guān)性比較低,而人說(shuō)話的語(yǔ)音相關(guān)性則比較強(qiáng)。因此,在高信噪比的條件下區(qū)分成功率很高。然而,由于噪聲多種多樣,因此相關(guān)性分析只適用于區(qū)分小部分噪聲與語(yǔ)音,這是其局限性所在。2. 時(shí)域能量靜音部分的噪聲能量相較于有效語(yǔ)音能量而言要少得多,因此可以通過(guò)比較短時(shí)間范圍內(nèi)的輸入信號(hào)能量來(lái)判定該段信號(hào)是否輸入靜音部分。而在實(shí)際生活中,會(huì)出現(xiàn)高能量噪
5、聲的情況,此時(shí)再用時(shí)域能量參數(shù)就顯得愛(ài)莫能助。.3.2.1.2頻域參數(shù)頻域參數(shù)的抗噪性能要優(yōu)于時(shí)域參數(shù),但是由于需要用到傅立葉變換等變換方法進(jìn)行分析域轉(zhuǎn)換,因此相應(yīng)的計(jì)算復(fù)雜度較高,花費(fèi)時(shí)間也較長(zhǎng)。1. 譜熵熵本是源于熱力學(xué)的參數(shù),用于描述系統(tǒng)的混亂度。在信息論中用于描述信息源的不確定性。 圖2.1.1 噪聲譜 圖2.1.2 語(yǔ)音譜在實(shí)際應(yīng)用中,噪聲譜較為平坦,譜熵較大。而語(yǔ)音能量集中在低頻段,譜熵較小,因此可通過(guò)譜熵來(lái)判斷信號(hào)屬于噪聲還是有效語(yǔ)音。譜熵的可靠性不會(huì)受信號(hào)大小的影響,其大小只與信噪比有關(guān)。2. 自適應(yīng)子帶即使在很低的信噪比下,語(yǔ)音幀仍然具有較高信噪比的子帶,而噪聲幀卻沒(méi)有。因此
6、可以根據(jù)每幀信號(hào)的最小頻帶所占的該幀總能量的概率來(lái)自適應(yīng)選擇子帶的多少。2.2分幀2.2.1分幀簡(jiǎn)介如圖的有效語(yǔ)音信號(hào)波形在時(shí)域上是無(wú)法對(duì)其進(jìn)行識(shí)別的的。因此必須算出有效語(yǔ)音信號(hào)在頻域上的分布情況,因而需要對(duì)有效語(yǔ)音信號(hào)做傅立葉變換從而得到其在頻域上的分布情況。圖2.2.1 有效語(yǔ)音信號(hào)波形圖傅立葉變換的前提是輸入信號(hào)是平穩(wěn)的,而如圖所示的有效語(yǔ)音信號(hào)的前三分之一和后三分之二明顯不一樣,這是由于發(fā)音者的發(fā)音姿態(tài)變換而導(dǎo)致的,所以整體來(lái)看語(yǔ)音信號(hào)不平穩(wěn)。但如果取適量小的時(shí)間范圍內(nèi)(如圖中矩形框圈出的時(shí)間范圍),僅在該時(shí)間范圍內(nèi)做分析的話,發(fā)聲者的發(fā)聲姿態(tài)基本不變,語(yǔ)音信號(hào)就可以看成平穩(wěn)的,就可以
7、截取出來(lái)做傅立葉變換了。將有效語(yǔ)音信號(hào)的截取成一幀一幀的平穩(wěn)信號(hào)的過(guò)程就稱(chēng)為分幀。2.2.1分幀時(shí)長(zhǎng)由上述的討論可知,通過(guò)分幀操作所得到的每一幀信號(hào)需滿足如下兩個(gè)條件:1. 它必須足夠短來(lái)保證幀內(nèi)信號(hào)是平穩(wěn)的。上文提到過(guò),發(fā)音者發(fā)音姿態(tài)的變化是導(dǎo)致信號(hào)不平穩(wěn)的原因,所以在一幀的期間內(nèi)發(fā)音姿態(tài)不能有明顯變化。即一幀的長(zhǎng)度應(yīng)當(dāng)小于一個(gè)音素的長(zhǎng)度。正常語(yǔ)速下,音素的持續(xù)時(shí)間大約是 50至200 ms,所以幀長(zhǎng)一般取為小于 50 ms。2.每一幀信號(hào)又必須包括足夠多的振動(dòng)周期,因?yàn)楦盗⑷~變換是對(duì)信號(hào)的頻域進(jìn)行分析,只有每一個(gè)頻率成分在時(shí)域重復(fù)振動(dòng)足夠多次才能分析頻率。語(yǔ)音的基頻,男聲在 100 Hz左
8、右,女聲在 200 Hz左右,換算成周期就是 10 ms和 5 ms。既然一幀要包含多個(gè)周期,所以一般取至少 20 ms。通過(guò)以上的討論,幀長(zhǎng)一般取為 20 至50 ms,20、25、30、40、50 都是比較常用的數(shù)值。2.3加窗為了提高傅立葉變換所得頻譜的分辨率,取出來(lái)的一幀信號(hào),在做傅立葉變換之前,要先進(jìn)行加窗的操作,即與一個(gè)窗函數(shù)相乘,如圖2.3.1所示。 圖2.3.1(a) 原信號(hào) 圖2.3.1(b) 漢明窗函數(shù)圖2.3.1(c) 加窗處理結(jié)果加窗的目的是讓一幀信號(hào)的幅度在兩端漸變到 0從而提高傅立葉變換結(jié)果頻譜的分辨率。由加窗處理過(guò)程可以看出,信號(hào)兩端的部分被逐漸削弱至0,因此在該
9、幀信號(hào)中無(wú)法計(jì)入頻譜。在實(shí)際處理時(shí),往往通過(guò)不同幀之間進(jìn)行重疊來(lái)彌補(bǔ)加窗處理帶來(lái)的損失。圖2.3.2 重疊分幀如圖所示,每一幀信號(hào)時(shí)長(zhǎng)為25ms,以10ms作為幀移取下一段信號(hào)。由此第一幀信號(hào)后15ms的波形便會(huì)在下一幀信號(hào)前15ms中出現(xiàn)。2.4傅立葉變換對(duì)一幀信號(hào)做傅立葉變換,得到信號(hào)頻譜如下:圖2.4.1 信號(hào)頻譜圖如圖,從信號(hào)頻譜圖中可知該幀語(yǔ)音信號(hào)呈現(xiàn)出的精細(xì)結(jié)構(gòu)和包絡(luò)兩種模式。平滑連接每一個(gè)精細(xì)結(jié)構(gòu)的小峰便得到包絡(luò)。又由包絡(luò)可以得到共振峰,圖中能看出四個(gè),分別在 500、1700、2450、3800 Hz附近。它代表了發(fā)音者的口型,對(duì)此特征進(jìn)行提取便可只發(fā)音者發(fā)出的是哪個(gè)音。第三章
10、 聲學(xué)特征提取人通過(guò)聲道產(chǎn)生聲音,聲道的形狀決定了發(fā)出怎樣的聲音。聲道的形狀包括舌頭,牙齒等。如果我們可以準(zhǔn)確的知道這個(gè)形狀,那么我們就可以對(duì)產(chǎn)生的音素進(jìn)行準(zhǔn)確的描述。聲道的形狀在語(yǔ)音短時(shí)可以由功率譜的包絡(luò)中顯示出來(lái)。因此,準(zhǔn)確描述這一包絡(luò)的特征就是聲學(xué)特征識(shí)別步驟的主要功能。接收端接收到的語(yǔ)音信號(hào)經(jīng)過(guò)上文的預(yù)處理以后便得到有效的語(yǔ)音信號(hào),對(duì)每一幀波形進(jìn)行聲學(xué)特征提取便可以得到一個(gè)多維向量。這個(gè)向量便包含了一幀波形的內(nèi)容信息,為后續(xù)的進(jìn)一步識(shí)別做準(zhǔn)備。本文主要介紹使用最多的MFCC聲學(xué)特征。3.1 MFCC簡(jiǎn)介MFCC(Mel Frequency Cepstrum Coefficient)特征
11、是基于人耳對(duì)聲音的敏感特性而提出的。人耳聽(tīng)聲音時(shí),耳蝸相當(dāng)于一組濾波器。當(dāng)聲音頻率在1KHz以下時(shí),人耳的感知能力與頻率成線性關(guān)系,但在1KHz以上時(shí),人耳的感知能力與聲音頻率更接近對(duì)數(shù)關(guān)系。這也就解釋了為什么人耳對(duì)于低頻聲音的感知比高頻聲音更敏感。MFCC是Mel頻率倒譜系數(shù)的縮寫(xiě)。Mel頻率是基于人耳聽(tīng)覺(jué)特性提出來(lái)的,其計(jì)算公式為:它與Hz頻率成非線性對(duì)應(yīng)關(guān)系。Mel頻率倒譜系數(shù)(MFCC)則是利用它們之間的這種關(guān)系,計(jì)算得到的Hz頻譜特征。由于Mel頻率與Hz頻率之間非線性的對(duì)應(yīng)關(guān)系,使得MFCC隨著頻率的提高,其計(jì)算精度隨之下降。因此,在應(yīng)用中常常只使用低頻MFCC,而丟棄中高頻MFC
12、C。3.2 MFCC的一般過(guò)程MFCC特征提取的一般過(guò)程如下:圖3.2.1 MFCC特征提取的一般過(guò)程圖中的分幀加窗以及FFT已經(jīng)在預(yù)處理部分中提到,這里不再贅述。3.2.1 Mel濾波器組假設(shè)原信號(hào)經(jīng)過(guò)預(yù)加重、分幀加窗后的DFT為式中x(n)為輸入的語(yǔ)音信號(hào),N表示傅立葉變換的點(diǎn)數(shù)。式中x(n)為輸入的語(yǔ)音信號(hào),N表示傅立葉變換的點(diǎn)數(shù)。將能量譜通過(guò)一組Mel尺度的三角形濾波器組,定義一個(gè)有M個(gè)濾波器的濾波器組(濾波器的個(gè)數(shù)和臨界帶的個(gè)數(shù)相近),采用的濾波器為三角濾波器,中心頻率為 。M通常取22-26。各之間的間隔隨著m值的減小而縮小,隨著m值的增大而增寬,如圖所示:圖3.2.2 Mel頻率
13、濾波器組三角濾波器的頻率響應(yīng)定義為:式中:此處使用三角帶通濾波器有兩個(gè)目的:第一、使得到的頻譜變得平滑,并且可以去除諧波的干擾從而凸顯出原語(yǔ)音信號(hào)的共振峰。因此,一段語(yǔ)音的音調(diào)并不會(huì)由MFCC特征表示出來(lái)。換句話說(shuō),語(yǔ)音信號(hào)的音調(diào)不會(huì)對(duì)MFCC的參數(shù)產(chǎn)生影響。第二、可以有效減少運(yùn)算量。計(jì)算每個(gè)濾波器組輸出的對(duì)數(shù)能量為:經(jīng)離散余弦變換(DCT)得到MFCC系數(shù):將上述的對(duì)數(shù)能量帶入離散余弦變換,求出L階的Mel-scale Cepstrum參數(shù)。L階指MFCC系數(shù)階數(shù),通常取12-16。這里M是三角濾波器個(gè)數(shù)。3.2.2 對(duì)數(shù)能量語(yǔ)音信號(hào)的能量表現(xiàn)為音量的大小,每一幀信號(hào)的能量也是語(yǔ)音信號(hào)的一個(gè)
14、重要特征,而這個(gè)參數(shù)非常容易計(jì)算得到,因此,通常在已經(jīng)得到的參數(shù)基礎(chǔ)上再加上一幀的對(duì)數(shù)能量。對(duì)數(shù)能量的定義為:如此就使得每一幀語(yǔ)音信號(hào)特征向量又多了一個(gè)維度。在此階段也可加入其它語(yǔ)音特征。例如:音高、過(guò)零率以及共振峰等。3.2.3 動(dòng)態(tài)差分參數(shù)的提?。òㄒ浑A差分和二階差分)標(biāo)準(zhǔn)的倒譜參數(shù)MFCC只反映了語(yǔ)音參數(shù)的靜態(tài)特性,語(yǔ)音的動(dòng)態(tài)特性可以用這些靜態(tài)特征的差分譜來(lái)描述。實(shí)驗(yàn)證明:把動(dòng)、靜態(tài)特征結(jié)合起來(lái)才能有效提高系統(tǒng)的識(shí)別性能。差分參數(shù)的計(jì)算可以采用下面的公式:式中,表示第t個(gè)一階差分;表示第t個(gè)倒譜系數(shù);Q表示倒譜系數(shù)的階數(shù);K表示一階導(dǎo)數(shù)的時(shí)間差,可取1或2。將上式中結(jié)果再代入就可以得到
15、二階差分的參數(shù)。3.2.4 特征提取結(jié)果總而言之,MFCC的全部組成其實(shí)是:N維MFCC參數(shù)(N/3MFCC系數(shù)+ N/3一階差分參數(shù)+ N/3二階差分參數(shù))+幀能量(此項(xiàng)可根據(jù)需求替換)聲音信號(hào)經(jīng)過(guò)MFCC特征提取后便可得到描述其內(nèi)容信息特征的向量。為方便后續(xù)說(shuō)明,我們假設(shè)經(jīng)過(guò)特征提取后每一幀的信號(hào)都變換為一個(gè)12維的向量,并用色塊顏色的深淺來(lái)表示向量值的大小。圖3.2.3 原波形圖3.2.4 信號(hào)聲學(xué)特征圖第四章 模式匹配模式匹配也即是解碼過(guò)程。它是對(duì)上文得到的經(jīng)過(guò)處理的聲音信號(hào)與已有的語(yǔ)音模型庫(kù)進(jìn)行匹配以達(dá)到識(shí)別的目的。經(jīng)過(guò)特征識(shí)別,我們已經(jīng)得到了描述聲音內(nèi)容信息特征的向量。接下來(lái)的解碼
16、過(guò)程就是在給定語(yǔ)音模型的情況下,找到最可能對(duì)應(yīng)的發(fā)音的過(guò)程。圖4.0.1 語(yǔ)音識(shí)別全過(guò)程本文主要介紹隱馬爾科夫模型在模式匹配環(huán)節(jié)中的作用。4.1馬爾科夫模型與隱馬爾科夫模型按照維基百科的說(shuō)法,到目前為止語(yǔ)音識(shí)別的技術(shù)都沒(méi)有脫離隱馬爾可夫模型框架??梢?jiàn)隱馬爾科夫模型在語(yǔ)音識(shí)別中的重要性。為了透徹闡述隱馬爾科夫模型,有必要同時(shí)簡(jiǎn)單介紹一下馬爾科夫模型與隱馬爾科夫模型。4.1.1 馬爾科夫模型馬爾科夫模型通過(guò)研究事物發(fā)生以及相互轉(zhuǎn)化的概率從而對(duì)未來(lái)事物的狀態(tài)進(jìn)行預(yù)測(cè)。在馬爾科夫模型中,事物當(dāng)前的狀態(tài)只與上一個(gè)狀態(tài)而與其它任何時(shí)候的狀態(tài)均無(wú)關(guān)。用馬爾科夫的一句富含哲理的話說(shuō):“過(guò)去發(fā)生的所有信息都匯集
17、在今天,而明天如何,只取決于今天,與歷史再無(wú)關(guān)聯(lián)?!睘榧由罾斫?,以預(yù)測(cè)天氣為例。假設(shè)每天天氣只有三種狀態(tài):晴天、雨天、多云。若第一天為晴天,則第二天也為晴天的概率為0.5,為多云的概率為0.375,為雨天的概率為0.125。同樣也定義若第一天為雨天或多云,第二天為其它狀態(tài)的天氣之間的轉(zhuǎn)移概率。圖4.1.1 不同天氣之間的轉(zhuǎn)移概率假設(shè)第一個(gè)觀察天(即昨天)為晴天,并由此預(yù)測(cè)今天的天氣情況。到此,我們建立了一個(gè)一階馬爾科夫模型。它包含三個(gè)狀態(tài)(即:晴天、多云、雨天)、各個(gè)狀態(tài)之間的轉(zhuǎn)換概率(如圖4.1.1所示)以及初始概率(即:昨天的天氣)晴天。既然已知昨天為晴天,則初始晴天概率、初始多云概率、。
18、則據(jù)此預(yù)測(cè)今天的天氣:由此可知,今天為晴天的概率最大。既然已知今天的天氣概率情況,又可以據(jù)此預(yù)測(cè)明天的天氣情況: 以此類(lèi)推,后天的天氣情況只與明天有關(guān)而與昨天,今天都無(wú)關(guān)。4.1.2 隱馬爾科夫(HMM)模型在隱馬爾科夫模型中,必備的三個(gè)要素分別初始概率、轉(zhuǎn)移概率、輸出概率。其中,初始概率與轉(zhuǎn)移概率的含義與馬爾科夫模型中相同,輸出概率是指狀態(tài)值映射到對(duì)應(yīng)觀測(cè)值的概率。例如:若當(dāng)前的天氣情況不能直接獲得,只能通過(guò)測(cè)量空氣濕度間接獲得。同樣舉預(yù)測(cè)天氣的例子,定義以下輸出概率。圖4.1.2 不同天氣之間對(duì)應(yīng)空氣濕度的輸出概率若觀測(cè)到連續(xù)三天,空氣的潮濕程度分別為干燥,干燥,潮濕,則這三天最有可能是哪
19、種天氣情況。這里的隱馬爾科夫鏈:P(干燥、干燥、潮濕|HMM)=P(干燥、干燥、潮濕|晴天、晴天、晴天)+P(干燥、干燥、潮濕|晴天、晴天、多云)+P(干燥、干燥、潮濕|晴天、晴天、雨天)+P(干燥、干燥、潮濕|晴天、多云、晴天)+P(干燥、干燥、潮濕|雨天、雨天、雨天)。采用窮舉的辦法可以找到概率最大的天氣排序情況。這種由觀測(cè)值推知狀態(tài)值的方法就是隱馬爾科夫模型。它可以用來(lái)描述含有隱含位置參數(shù)的馬爾科夫過(guò)程。4.2語(yǔ)音模型庫(kù)以中文為例進(jìn)行后續(xù)說(shuō)明。中文的發(fā)音由聲母、韻母和整體認(rèn)讀音節(jié)組合而成。因而將每一個(gè)聲母,韻母,整體認(rèn)讀音節(jié)稱(chēng)作“音素”。每一個(gè)音素都有一定的發(fā)音規(guī)律,可以將這個(gè)發(fā)音實(shí)現(xiàn)經(jīng)
20、過(guò)特征提取后編算成計(jì)算機(jī)可存儲(chǔ)的聲學(xué)特征作為已知的語(yǔ)音模型庫(kù)以方便后續(xù)的模式匹配。除了音素的存儲(chǔ)之外,語(yǔ)音模型庫(kù)還存儲(chǔ)了大量單字,單詞,成語(yǔ)等語(yǔ)句元素所對(duì)應(yīng)的語(yǔ)音輸出概率。(例如:當(dāng)接收到語(yǔ)音信號(hào)“sui ji”時(shí),這個(gè)信號(hào)識(shí)別為“隨即”二字的概率為0.3,識(shí)別為“隨機(jī)”二字的概率為0.5)這類(lèi)似于隱馬爾科夫模型中狀態(tài)值映射到觀測(cè)值的輸出概率。4.3隱馬爾科夫模型在模式匹配中的應(yīng)用在完成特征提取后,就可以對(duì)未知語(yǔ)音幀序列進(jìn)行識(shí)別了。完成模式匹配識(shí)別有兩個(gè)步驟:(1)使用隱馬爾科夫模型,構(gòu)建一個(gè)狀態(tài)量足夠多的狀態(tài)網(wǎng)絡(luò)。狀態(tài)網(wǎng)絡(luò)的搭建是由單詞級(jí)別的網(wǎng)絡(luò)展開(kāi)成音素網(wǎng)絡(luò),再展開(kāi)成狀態(tài)網(wǎng)絡(luò)。例如下圖。
21、狀態(tài)路徑圖中,以中文單詞“隨機(jī)”為例,將其拆分為音素“s”、“ui”、“j”、“i”,并由此生成對(duì)應(yīng)的狀態(tài)路徑“S1->S2->S3->S4->S5->S6->S7->S8->S9->S10-> S11->S12”。(2)從狀態(tài)網(wǎng)絡(luò)中尋找與聲音最匹配的路徑,即在所有可能的路徑中選擇一條概率最大的路徑作為識(shí)別結(jié)果。這個(gè)要求可由相應(yīng)的搜索算法(如:Viterbi算法)滿足。本文著重闡述涉及隱馬爾科夫模型的第一個(gè)步驟。由于說(shuō)話語(yǔ)速的不同,每一個(gè)音素的持續(xù)幀數(shù)也不相同,所以可能會(huì)出現(xiàn)一幀或者幾幀屬于一個(gè)音素的情況,因此將音素又繼續(xù)細(xì)分為更小的單位:狀態(tài)。在隱馬爾科夫模型,狀態(tài)是隱變量,語(yǔ)音是觀測(cè)值。通過(guò)預(yù)處理、特征提取,我們將語(yǔ)音信號(hào)進(jìn)行了分幀,并且也得到了
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 昆明醫(yī)科大學(xué)海源學(xué)院《應(yīng)急管理信息系統(tǒng)》2023-2024學(xué)年第一學(xué)期期末試卷
- 江西財(cái)經(jīng)職業(yè)學(xué)院《飛機(jī)結(jié)構(gòu)基礎(chǔ)》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南三一工業(yè)職業(yè)技術(shù)學(xué)院《新課程理念與地理課程改革》2023-2024學(xué)年第一學(xué)期期末試卷
- 湖南安全技術(shù)職業(yè)學(xué)院《有限元方法》2023-2024學(xué)年第一學(xué)期期末試卷
- 【物理】《流體壓強(qiáng)與流速的關(guān)系》(教學(xué)設(shè)計(jì))-2024-2025學(xué)年人教版(2024)初中物理八年級(jí)下冊(cè)
- 高考物理總復(fù)習(xí)《恒定電流》專(zhuān)項(xiàng)測(cè)試卷含答案
- 重慶工信職業(yè)學(xué)院《廣告策劃與設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 鄭州電力職業(yè)技術(shù)學(xué)院《應(yīng)用技術(shù)開(kāi)發(fā)》2023-2024學(xué)年第一學(xué)期期末試卷
- 中國(guó)民用航空飛行學(xué)院《信息系統(tǒng)審計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 鄭州美術(shù)學(xué)院《建筑設(shè)備自動(dòng)化課程設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- XX小學(xué)體育特色建設(shè)三年發(fā)展規(guī)劃
- 高考專(zhuān)題復(fù)習(xí):《史記 孫子吳起列傳》分析
- 風(fēng)電工程需要編寫(xiě)的專(zhuān)項(xiàng)施工方案及危大工程目錄
- 二級(jí)綜合醫(yī)院評(píng)審標(biāo)準(zhǔn)實(shí)施細(xì)則
- 新大《新疆地質(zhì)概論》教案第6章 礦產(chǎn)資源
- EGD殺生劑劑化學(xué)品安全技術(shù)說(shuō)明(MSDS)zj
- GB/T 12229-2005通用閥門(mén)碳素鋼鑄件技術(shù)條件
- 超分子化學(xué)-第三章 陰離子的絡(luò)合主體
- 控制變量法教學(xué)課件
- 血壓計(jì)保養(yǎng)記錄表
- 食品的售后服務(wù)承諾書(shū)范本范文(通用3篇)
評(píng)論
0/150
提交評(píng)論