




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、摘要語(yǔ)音識(shí)別主要是讓機(jī)器聽(tīng)懂人說(shuō)的話,即在各種情況下,準(zhǔn)確地識(shí)別出語(yǔ)音的內(nèi)容,從而根據(jù)其信息執(zhí)行人的各種意圖。語(yǔ)音識(shí)別技術(shù)既是國(guó)際競(jìng)爭(zhēng)的一項(xiàng)重要技術(shù),也是每一個(gè)國(guó)家經(jīng)濟(jì)發(fā)展不可缺少的重要技術(shù)支撐。本文基于語(yǔ)音信號(hào)產(chǎn)生的數(shù)學(xué)模型,從時(shí)域、頻域出發(fā)對(duì)語(yǔ)音信號(hào)進(jìn)行分析,論述了語(yǔ)音識(shí)別的基本理論。在此基礎(chǔ)上討論了語(yǔ)音識(shí)別的五種算法:動(dòng)態(tài)時(shí)間伸縮算法(Dynamic Time Warping , DTW) 、 基于規(guī)則的人工智能方法、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network , ANN) 方法、隱馬爾可夫(Hidden Markov Model ,HMM) 方法、HMM 和 AN
2、N 的混合模型。重點(diǎn)是從理論上研究隱馬爾可夫(HMM) 模型算法,對(duì)經(jīng)典的HMM 模型算法進(jìn)行改進(jìn)。語(yǔ)音識(shí)別算法有多種實(shí)現(xiàn)方案,本文采取的方法是利用Matlab 強(qiáng)大的數(shù)學(xué)運(yùn)算能力,實(shí)現(xiàn)孤立語(yǔ)音信號(hào)的識(shí)別。Matlab 是一款功能強(qiáng)大的數(shù)學(xué)軟件,它附帶大量的信號(hào)處理工具箱為信號(hào)分析研究,特別是文中主要探討的聲波分析研究帶來(lái)極大便利。本文應(yīng)用隱馬爾科夫模型(HMM) 為識(shí)別算法,采用MFCC(MEL 頻率倒譜系數(shù))為主要語(yǔ)音特征參數(shù),建立了一個(gè)漢語(yǔ)數(shù)字語(yǔ)音識(shí)別系統(tǒng),其中包括語(yǔ)音信號(hào)的預(yù)處理、特征參數(shù)的提取、識(shí)別模板的訓(xùn)練、識(shí)別匹配算法;同時(shí),提出利用Matlab 圖形用戶界面開(kāi)發(fā)環(huán)境設(shè)計(jì)語(yǔ)音識(shí)別
3、系統(tǒng)界面,設(shè)計(jì)簡(jiǎn)單,使用方便,系統(tǒng)界面友好。經(jīng)過(guò)統(tǒng)計(jì),識(shí)別效果明顯達(dá)到了預(yù)期目 標(biāo)。關(guān)鍵詞 :語(yǔ)音識(shí)別算法;HMM 模型; Matlab; GUIABSTRACTSpeech Recognition is designed to allow machines to understand what people say,and accurately identify the contents of voice to execute the intent of people.Speech recognition technology is not only an important interna
4、tionally competed technology,but also an indispensable foundational technology for the national economic development.Based on the mathematical model from the speech signal,this paper analyze audio signal from the time domain,frequency domain proceeding,and discussed the basic theory of speech recogn
5、ition technology.Five algorithm are discussed:Dynamic Time Warping(DTW) 、 Rule-based Artificial Intelligence,Artificial Neural Network(ANN),Hidden Markov Model(HMM),HMM combined with ANN.The focus is put in the theoretical studies of Hidden Markov(HMM) model algorithm,and the classical HMM algorithm
6、 is improved.Speech recognition algorithm is realized in various programs,this article taking the method is to use Matlab powerful mathematical operation ability to realize the recognition of speech signal isolation. Matlab is a powerful mathematic software with a mass of toolboxes dealing with sign
7、al processing. It gives a terrific shortcut to the research of signal processing,especially the wave analysis. We can characterize the sound with key parameters such as intensity, frequency etc. In this paper, hidden Markov model (HMM) recognition algorithm using MFCC (MEL frequency cepstral coeffic
8、ients) as the main voice characteristic parameters, the establishment of a Chinese digital speech recognition system, including the preprocessing of the speech signal,the extraction of characteristic parameters the training of the recognition template,identifying matching algorithm;the same time,the
9、 use of Matlab graphical user interface development environment designed speech recognition system interface,is designed to be simple,easy to use,friendly interface. Besides,to have a simple exploration of the voice recognition is another target.After statistics,recognition result obviously is made
10、out as the expected goal.Key words: Speech recognition algorithm ; HMM model ; Matlab ; GUI3一、前言11.1 語(yǔ)音識(shí)別的發(fā)展歷史11.2 語(yǔ)音識(shí)別研究現(xiàn)狀11.3 語(yǔ)音識(shí)別系統(tǒng)的分類21.4 語(yǔ)音識(shí)別系統(tǒng)的基本構(gòu)成31.5 語(yǔ)音識(shí)別技術(shù)難點(diǎn)31.6 語(yǔ)音識(shí)別發(fā)展前景442.1 語(yǔ)音學(xué)知識(shí)42.1.1 音素和音節(jié)52.1.2 漢語(yǔ)的聲調(diào)52.1.3 語(yǔ)音信號(hào)產(chǎn)生模型62.2 語(yǔ)音信號(hào)數(shù)字化和預(yù)處理72.2.1 數(shù)字化 72.2.2 預(yù)加重處理 72.2.3 防混疊濾波 82.2.4 加窗處理 82.3 語(yǔ)
11、音信號(hào)的時(shí)域分析92.3.1 短時(shí)能量分析92.3.2 短時(shí)平均過(guò)零率 112.3.3 短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù) 122.3.4 語(yǔ)音端點(diǎn)檢測(cè) 132.4 語(yǔ)音信號(hào)的頻域分析 142.4.1 濾波器組法 142.4.2 傅立葉頻譜分析 142.5 特征參數(shù)提取 152.5.1 LPCC 倒譜系數(shù) 152.5.2 Mel頻率倒譜系數(shù)16173.1 動(dòng)態(tài)時(shí)間伸縮算法 173.2 基于規(guī)則的人工智能方法 183.3 人工神經(jīng)網(wǎng)絡(luò)方法 193.4 隱馬爾可夫方法 203.5 HMM和ANN的混合模型 21234.1 HMM的基本理論和數(shù)學(xué)描述234.2 HMM的三個(gè)基本問(wèn)題及解決算法244.
12、3 HMM算法的改進(jìn)314.4 HMM的結(jié)構(gòu)和類型 334.5 HMM算法實(shí)現(xiàn)的問(wèn)題 34五、基于Matlab 環(huán)境下的語(yǔ)音識(shí)別算法實(shí)現(xiàn)355.1 識(shí)別系統(tǒng)平臺(tái)介紹 355.2 在 Matlab中HMM算法的實(shí)現(xiàn) 365.2.1 端點(diǎn)檢測(cè) 365.2.2 特征參數(shù)提取 365.2.3 訓(xùn)練和識(shí)別 375.3 實(shí)驗(yàn)結(jié)論分析 38六、結(jié)束語(yǔ)396.1 回顧 396.2 展望 39七、致謝40參考文獻(xiàn)40河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說(shuō)明書(shū)1.1 語(yǔ)音識(shí)別的發(fā)展歷史作為智能計(jì)算機(jī)研究的主導(dǎo)方向和人機(jī)語(yǔ)音通信的關(guān)鍵技術(shù),語(yǔ)音識(shí)別技術(shù)一直受到各國(guó)科學(xué)界的廣泛關(guān)注。以語(yǔ)音識(shí)別開(kāi)發(fā)出的產(chǎn)品應(yīng)用領(lǐng)域非常廣泛,有
13、聲控電話交換、語(yǔ)音撥號(hào)系統(tǒng)、信息網(wǎng)絡(luò)查詢、家庭服務(wù)、賓館服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)、計(jì)算機(jī)控制、工業(yè)控制、語(yǔ)音通信系統(tǒng)、軍事監(jiān)聽(tīng)、信息檢索、應(yīng)急服務(wù)、翻譯系統(tǒng)等,幾乎深入到社會(huì)的每個(gè)行業(yè)、每個(gè)方面,其應(yīng)用和經(jīng)濟(jì)社會(huì)效益前景非常廣泛。因此語(yǔ)音識(shí)別技術(shù)既是國(guó)際競(jìng)爭(zhēng)的一項(xiàng)重要技術(shù),也是每一個(gè)國(guó)家經(jīng)濟(jì)發(fā)展不可缺少的重要技術(shù)支撐。研究語(yǔ)音識(shí)別,開(kāi)發(fā)相應(yīng)的產(chǎn)品有著廣泛的社會(huì)意義和經(jīng)濟(jì)意義。語(yǔ)音識(shí)別中的說(shuō)話人辨認(rèn)的研究始于20 世紀(jì) 30 年代。 早期的工作主要集中在人耳聽(tīng)辨試驗(yàn)和探討聽(tīng)音識(shí)別的可能性方面。Bell 實(shí)驗(yàn)室的L G Kesta 目視觀察語(yǔ)譜
14、圖進(jìn)行識(shí)別,提出了“聲紋 (Voiceprint) ”的概念。 Bell 實(shí)驗(yàn)室的S Pruzansky 提出了模版匹配和概率統(tǒng)計(jì)方差分析的聲紋識(shí)別方法,形成了聲紋識(shí)別研究的一個(gè)高潮。60 年代末和70年代初語(yǔ)音識(shí)別最重要的發(fā)展是語(yǔ)音信號(hào)線性預(yù)測(cè)編碼(LPC) 技術(shù)和動(dòng)態(tài)時(shí)間規(guī)整(DTW)技術(shù), 有效地解決了語(yǔ)音的特征提取和時(shí)間不等長(zhǎng)匹配問(wèn)題,對(duì)特定人的語(yǔ)音識(shí)別十分有效。研究特點(diǎn)是以孤立字語(yǔ)音識(shí)別為主,通常把孤立字作為一個(gè)整體來(lái)建立模板。80 年代,語(yǔ)音識(shí)別研究的重點(diǎn)之一是連接詞語(yǔ)音識(shí)別,開(kāi)發(fā)了各種連接詞語(yǔ)音識(shí)別和關(guān)鍵詞識(shí)別算法,如多級(jí)動(dòng)態(tài)規(guī)劃語(yǔ)音識(shí)別算法。另一個(gè)重要發(fā)展是語(yǔ)音識(shí)別算法從模板匹
15、配技術(shù)轉(zhuǎn)向基于統(tǒng)計(jì)模型技術(shù)。1.2 語(yǔ)音識(shí)別研究現(xiàn)狀20 世紀(jì) 90 年代后,在細(xì)化模型的設(shè)計(jì)、參數(shù)提取和優(yōu)化,以及系統(tǒng)的自適應(yīng)技術(shù)上取得了一些關(guān)鍵進(jìn)展。語(yǔ)音識(shí)別技術(shù)進(jìn)一步成熟,并開(kāi)始向市場(chǎng)提供產(chǎn)品。由于中國(guó)的國(guó)際地位不斷提高,以及在經(jīng)濟(jì)和市場(chǎng)方面所處的重要地位,漢語(yǔ)語(yǔ)音識(shí)別也越來(lái)越受到重視。IBM、 Microsoft 、 L&H等公司相繼投入到漢語(yǔ)語(yǔ)音識(shí)別系統(tǒng)的開(kāi)發(fā)中,其投資也逐年增加。 IBM開(kāi)發(fā)的 Viavoice 和 Microsoft 開(kāi)發(fā)的中文識(shí)別引擎代表了當(dāng)前漢語(yǔ)語(yǔ)音識(shí)別的最高水平。臺(tái)灣的一些大學(xué)和研究所也開(kāi)發(fā)出大詞匯量非特定人連續(xù)語(yǔ)音識(shí)別演示系統(tǒng)。日本也先后在語(yǔ)音識(shí)別領(lǐng)域大展
16、頭角,還有如Philips 公司開(kāi)發(fā)的Speech Media 和 SpeechPearl 兩套軟件,涵蓋了自然語(yǔ)音識(shí)別與理解的對(duì)話系統(tǒng)。我國(guó)語(yǔ)音識(shí)別研究工作近年來(lái)發(fā)展很快,同時(shí)也從實(shí)驗(yàn)室逐步走向?qū)嵱?。?987 年開(kāi)始執(zhí)行863 計(jì)劃后,國(guó)家863智能計(jì)算機(jī)主題專家組為語(yǔ)音識(shí)別研究立項(xiàng)。每?jī)赡隄L動(dòng)一次,從1991 年開(kāi)始,專家組每一至二年舉行一次全國(guó)性的語(yǔ)音識(shí)別系統(tǒng)測(cè)試。漢語(yǔ)語(yǔ)音識(shí)別研究已經(jīng)走上組織化的道路。目前我國(guó)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研究已經(jīng)接近國(guó)外最高水平。語(yǔ)音識(shí)別發(fā)展到一定階段,世界各國(guó)都加快了語(yǔ)音識(shí)別引用系統(tǒng)的研究開(kāi)發(fā),通常連續(xù)語(yǔ)音是含有較完整語(yǔ)法信息的連續(xù)語(yǔ)句,最接近于人的自
17、然講話方式,從非連續(xù)語(yǔ)音到連續(xù)語(yǔ)音的研究面臨著很多完全不同的技術(shù)難點(diǎn),非連續(xù)語(yǔ)音的識(shí)別是一些孤立的聲波片段,連續(xù)語(yǔ)音則面臨著如何切分聲波的問(wèn)題。諸如此類的新問(wèn)題使連續(xù)語(yǔ)音識(shí)別率的提高比非連續(xù)語(yǔ)音更加困難。經(jīng)過(guò)幾十年的發(fā)展和摸索,人們終于在實(shí)驗(yàn)室突破了大詞匯量、連續(xù)語(yǔ)音和非特定人這三大障礙,第一次把這三個(gè)特性一起集中于一個(gè)系統(tǒng)中,并以此確定了統(tǒng)計(jì)方法和模型在語(yǔ)音識(shí)別和語(yǔ)音處理中的主流地位。在聲學(xué)識(shí)別層次,以多個(gè)說(shuō)話人發(fā)音的大規(guī)模語(yǔ)音數(shù)據(jù)為基礎(chǔ),以馬爾可夫鏈為基礎(chǔ)的語(yǔ)音序列建模方法HMM隱含馬爾可夫模型()比較有效的解決了語(yǔ)音信號(hào)短時(shí)穩(wěn)定、長(zhǎng)時(shí)時(shí)變的特性,并且能根據(jù)一些基本建模單元構(gòu)造成連續(xù)語(yǔ)音的
18、句子模型,達(dá)到了比較高的建模精度和建模靈活性。目前在語(yǔ)音識(shí)別研究領(lǐng)域非?;钴S的課題為穩(wěn)健語(yǔ)音識(shí)別、說(shuō)話人自適應(yīng)技術(shù)、大詞匯量關(guān)鍵詞識(shí)別算法、語(yǔ)音識(shí)別的可信度評(píng)測(cè)算法、基于類的語(yǔ)言模型和自適應(yīng)語(yǔ)言模型,以及深層次的自然語(yǔ)音的理解。研究的方向也越來(lái)越側(cè)重于口語(yǔ)對(duì)話系統(tǒng)。1.3 語(yǔ)音識(shí)別系統(tǒng)的分類語(yǔ)音識(shí)別是近年來(lái)十分活躍的一個(gè)研究領(lǐng)域。在不遠(yuǎn)的將來(lái),語(yǔ)音識(shí)別技術(shù)有可能作為一種重要的人機(jī)交互手段,輔助甚至取代傳統(tǒng)的鍵盤、鼠標(biāo)等輸入設(shè)備,在個(gè)人計(jì)算機(jī)上進(jìn)行文字錄入和操作控制。本文介紹了語(yǔ)音識(shí)別的基本流程、所用到的語(yǔ)音參數(shù)算法、語(yǔ)音識(shí)別的訓(xùn)練算法和識(shí)別算法做初步的探究,主要運(yùn)用了特定人孤立詞識(shí)別的DTW算
19、法和非特定人識(shí)別的連續(xù)HMM算法的Matlab 識(shí)別系統(tǒng)。語(yǔ)音識(shí)別按說(shuō)話人的講話方式可分為孤立詞(IsolatedWord)識(shí)別、連接詞 (ConnectedWord)識(shí)別和連續(xù)語(yǔ)音(Continuous Speech) 識(shí)別。孤立詞識(shí)別是指說(shuō)話人每次只說(shuō)一個(gè)詞或短語(yǔ),每個(gè)詞或短語(yǔ)在詞匯表中都算作一個(gè)詞條,一般用在語(yǔ)音電話撥號(hào)系統(tǒng)中。連接詞語(yǔ)音識(shí)別支持一個(gè)小的語(yǔ)法網(wǎng)絡(luò),其內(nèi)部形成一個(gè)狀態(tài)機(jī),可以實(shí)現(xiàn)簡(jiǎn)單的家用電器的控制,而復(fù)雜的連接詞語(yǔ)音識(shí)別系統(tǒng)可以用于電話語(yǔ)音查詢、航空定票等系統(tǒng)。連續(xù)語(yǔ)音識(shí)別是指對(duì)說(shuō)話人以日常自然的方式發(fā)音,通常特指用于語(yǔ)音錄入的聽(tīng)寫機(jī)。顯然,連續(xù)非特定人語(yǔ)音識(shí)別的難度要大
20、得多,因?yàn)椴粌H有說(shuō)話人口音的問(wèn)題,還有協(xié)同發(fā)音、斷字?jǐn)嗑?、搜索等?wèn)題,除了考慮語(yǔ)音的聲學(xué)模型外還要涉及到語(yǔ)言模型,如構(gòu)詞法、文法等。從識(shí)別對(duì)象的類型來(lái)看,語(yǔ)音識(shí)別可以分為特定人(Speaker Dependent) 語(yǔ)音識(shí)別和非特定人(Speaker Independent) 語(yǔ)音識(shí)別。特定人是指只針對(duì)一個(gè)用戶的語(yǔ)音識(shí)別,非特定人則可用于不同的用戶。實(shí)際上,非特定人語(yǔ)音識(shí)別的初始識(shí)別率往往都比較低,一般都要求用戶花一定的時(shí)間對(duì)系統(tǒng)進(jìn)行訓(xùn)練,將系統(tǒng)的參數(shù)進(jìn)行一定的自適應(yīng)調(diào)整,才能使識(shí)別率達(dá)到滿意的程度。非特定人大詞表連續(xù)語(yǔ)音識(shí)別是近幾年研究的重點(diǎn),也是研究的難點(diǎn)。目前的連續(xù)語(yǔ)音識(shí)別大多是基于HM
21、M隱馬爾可夫模型()框架,并將聲學(xué)、語(yǔ)言學(xué)的知識(shí)統(tǒng)一引入來(lái)改善這個(gè)框架,其硬件平臺(tái)通常是功能強(qiáng)大的工作站或PC機(jī)。1.4 語(yǔ)音識(shí)別系統(tǒng)的基本構(gòu)成語(yǔ)音識(shí)別系統(tǒng)的典型實(shí)現(xiàn)方案為:輸入的模擬語(yǔ)音信號(hào)首先要進(jìn)行預(yù)處理,包括預(yù)濾波、采樣和量化、加窗、端點(diǎn)檢測(cè)、預(yù)加重等。語(yǔ)音信號(hào)經(jīng)預(yù)處理后,接下來(lái)很重要的一環(huán)就是特征參數(shù)提取。對(duì)特征參數(shù)的要求是:1 ,提取的特征參數(shù)能有效地代表語(yǔ)音特征,具有很好的區(qū)分性。2,各階參數(shù)之間有良好的獨(dú)立性。3,特征參數(shù)要計(jì)算方便,最好有高效的計(jì)算方法,以保證語(yǔ)音識(shí)別的實(shí)時(shí)實(shí)現(xiàn)。在訓(xùn)練階段,將特征參數(shù)進(jìn)行一定的處理之后,為每個(gè)詞條得到一個(gè)模型,保存為模版庫(kù)。在識(shí)別階段,語(yǔ)音喜好
22、經(jīng)過(guò)相同的通道得到語(yǔ)音參數(shù),生成測(cè)試模版,與參考模版進(jìn)行匹配,將匹配分?jǐn)?shù)最高的參考模版作為識(shí)別結(jié)果。同時(shí)還可以在很多先驗(yàn)知識(shí)的幫助下,提高識(shí)別的準(zhǔn)確率。1.5 語(yǔ)音識(shí)別技術(shù)難點(diǎn)雖然語(yǔ)音識(shí)別已突破了最初對(duì)技術(shù)的檢驗(yàn)階段,而進(jìn)入通過(guò)對(duì)話及系統(tǒng)形象的設(shè)計(jì),建立用戶喜愛(ài)的應(yīng)用系統(tǒng)時(shí)期。然而語(yǔ)音技術(shù)本身仍在不斷進(jìn)步,為市場(chǎng)提供更新更好的應(yīng)用模式和技術(shù)。目前,技術(shù)及應(yīng)用的焦點(diǎn)主要集中在三個(gè)方面。首先,帶口音(Dialect) 語(yǔ)音的識(shí)別。首先要明確的是,口音是指同一種語(yǔ)言在不同地區(qū)的發(fā)音有所不同,與同一地區(qū)( 例如中國(guó)) 的不同方言是有區(qū)別的。例如,中國(guó)的八大方言多屬于與普通話( 北方語(yǔ)系)不同的語(yǔ)系。也
23、就是說(shuō)是有別于普通話的不同的語(yǔ)言,應(yīng)該用不同的聲學(xué)模型來(lái)描述。而對(duì)于口音的適應(yīng)性首先是由聲學(xué)模型本身的品質(zhì)決定的。對(duì)某一種口音,語(yǔ)言的聲學(xué)模型的適應(yīng)性決定了基礎(chǔ)識(shí)別率,而在此基礎(chǔ)上的優(yōu)化和模型適應(yīng)方案則提供了很好的解決方案。例如 Nuance公司, 作為擁有最大市場(chǎng)和最多用戶的公司,也擁有最多的用戶語(yǔ)音數(shù)據(jù),保證了它極高的基礎(chǔ)識(shí)別率。此外,該公司的系統(tǒng)優(yōu)化工具為所有系統(tǒng)提供一個(gè)實(shí)用、有效的優(yōu)化方法。優(yōu)化過(guò)程對(duì)所有系統(tǒng)的表現(xiàn)都會(huì)有提高,也可以解決小范圍的口音問(wèn)題。而針對(duì)嚴(yán)重的口音問(wèn)題,它的聲學(xué)模型適應(yīng)機(jī)制提供了很好的解決方案,可以使系統(tǒng)的識(shí)別率有很大改善。焦點(diǎn)之二是背景噪音。人多的公共場(chǎng)所巨大的
24、噪音對(duì)語(yǔ)音識(shí)別的影響自不用說(shuō),早期即使在實(shí)驗(yàn)室環(huán)境下,敲擊鍵盤、挪動(dòng)麥克風(fēng)都會(huì)成為背景噪音。它將破壞原始語(yǔ)音的頻譜,或者把原始語(yǔ)音部分或全部掩蓋掉,造成識(shí)別率下降。實(shí)際應(yīng)用中,噪音是無(wú)法避免的。研究將要解決的問(wèn)題就是如何把原始語(yǔ)音從背景噪音中分離出來(lái),即所謂提高音質(zhì)(speech enhancement) 或減噪 (noise reduction) 的預(yù)處理。這將會(huì)使識(shí)別系統(tǒng)具有很強(qiáng)的適應(yīng)性。在這方面,Nuance優(yōu)化的語(yǔ)音參數(shù)、靈活的模型結(jié)構(gòu)、新的建模方法以及獨(dú)有的噪音抑制功能,使得系統(tǒng)在背景環(huán)境噪聲、手機(jī)、車載免提等高噪音環(huán)境下能保持良好的工作狀況。第三個(gè)就是“口語(yǔ)”的問(wèn)題。這就是用戶說(shuō)話
25、的自由度問(wèn)題。它既涉及到自然語(yǔ)言理解,又與聲學(xué)有關(guān)。語(yǔ)音識(shí)別技術(shù)的最終目的是要讓用戶在“人機(jī)對(duì)話”的時(shí)候,能夠像進(jìn)行“人人對(duì)話”一樣自然。而一旦用戶以跟人交談的方式來(lái)進(jìn)行語(yǔ)音輸入時(shí),口語(yǔ)的語(yǔ)法不規(guī)范和語(yǔ)序不正常的特點(diǎn)會(huì)給語(yǔ)義的分析和理解帶來(lái)困難。你也許接觸到一些語(yǔ)音軟件聲稱是可以做到自然語(yǔ)言識(shí)別,而在這方面真正有實(shí)用商業(yè)系統(tǒng)的只有Nuance 公司。Nuance的最新版識(shí)別軟件所提供的“隨意說(shuō) (Say anything) ”技術(shù),使用戶可以以自然的語(yǔ)言說(shuō)出自己的需求。例如, “我對(duì)我的手機(jī)上的一些功能不太明白, 想問(wèn)一下”, 或者 “嗯,我的賬單應(yīng)該到期了,請(qǐng)幫我查一下要交多少錢”。它為用戶
26、提供了一種像“人人對(duì)話”的自然語(yǔ)音交互界面,這種更加友善的界面允許一般對(duì)話時(shí)的一些行為,如停頓及不完全的語(yǔ)句等。1.6 語(yǔ)音識(shí)別發(fā)展前景語(yǔ)音技術(shù)是目前世界上最熱門和最具有發(fā)展前景的技術(shù)之一。從某種意義上說(shuō),語(yǔ)音識(shí)別是將計(jì)算機(jī)變成真正的“智能化”設(shè)備的最佳途徑。語(yǔ)音作為當(dāng)前通訊系統(tǒng)中最自然的通信媒介,隨著計(jì)算機(jī)和語(yǔ)音處理技術(shù)的發(fā)展,不同語(yǔ)種之間的語(yǔ)音翻譯將成為語(yǔ)音研究的熱點(diǎn)。自然語(yǔ)音數(shù)據(jù)庫(kù)的設(shè)計(jì):語(yǔ)音特征的提??;利用語(yǔ)音料庫(kù)進(jìn)行聲學(xué)模型訓(xùn)練的研究;適應(yīng)說(shuō)話人聲學(xué)模型的研究;語(yǔ)音識(shí)別算法的研究:語(yǔ)言翻譯和對(duì)話處理的研究等成為語(yǔ)音技術(shù)的熱點(diǎn)方向。語(yǔ)音識(shí)別研究的另一個(gè)發(fā)展方向是人體語(yǔ)言與口語(yǔ)相結(jié)合的多
27、媒體人機(jī)交互。目前這種采用聲覺(jué)、視覺(jué)兩種信息融合進(jìn)行識(shí)別的研究在全球范圍內(nèi)己經(jīng)展開(kāi),成為語(yǔ)音識(shí)別研究的重要發(fā)展方向和研究熱點(diǎn)之一。一位業(yè)界的資深人士對(duì)IT 產(chǎn)業(yè)發(fā)展的提出的八大預(yù)言之一即為:語(yǔ)音成為新人機(jī)界面。 語(yǔ)音識(shí)別技術(shù)的成熟使人機(jī)界面發(fā)生革命性突破,網(wǎng)絡(luò)時(shí)代用戶需要更自然、更簡(jiǎn)單、更方便的以語(yǔ)音為中心點(diǎn)的人機(jī)界面。未來(lái)幾年里,真正實(shí)用的語(yǔ)音識(shí)別和音字轉(zhuǎn)換技術(shù)將首次走出實(shí)驗(yàn)室,走進(jìn)千家萬(wàn)戶的電器設(shè)備中。摩爾定律所預(yù)言的硬件產(chǎn)品奇跡般的更新速度使計(jì)算機(jī)處理復(fù)雜運(yùn)算的能力突飛猛進(jìn),也使體積龐大的語(yǔ)音庫(kù)有機(jī)會(huì)棲身于普通用戶的硬盤或其他存儲(chǔ)介質(zhì)上;技術(shù)方面,新的語(yǔ)音統(tǒng)計(jì)算法日趨成熟:市場(chǎng)需求方面,
28、簡(jiǎn)化PDA、移動(dòng)電話和其他信息家電原本繁瑣的操作步驟的最佳途徑便是通過(guò)語(yǔ)音技術(shù)。另外,語(yǔ)音識(shí)別是一門交叉學(xué)科,語(yǔ)音識(shí)別技術(shù)關(guān)系到多學(xué)科的研究領(lǐng)域,在不同領(lǐng)域上的進(jìn)步都會(huì)促進(jìn)語(yǔ)音識(shí)別的發(fā)展。(1) 物理學(xué) ( 聲學(xué) ) :聲音產(chǎn)生與傳播原理、聲電轉(zhuǎn)換以及聲音在房間回響等相關(guān)知識(shí)。(2) 生理學(xué):有關(guān)人的聲道與耳朵的生理結(jié)構(gòu)、耳朵的聽(tīng)覺(jué)特征,在腦內(nèi)高層的語(yǔ)言處理等。(3) 統(tǒng)計(jì)學(xué)和模式識(shí)別理論;基于各種統(tǒng)計(jì)方法對(duì)模式進(jìn)行匹配,以及建立有關(guān)的統(tǒng)計(jì)模型,對(duì)語(yǔ)音特征參數(shù)進(jìn)行估值和分類。(4) 信息理論和計(jì)算機(jī)科學(xué):各種算法的研究、快速搜索查找匹配的方法。(5) 語(yǔ)言學(xué):有關(guān)人的語(yǔ)言產(chǎn)生、感覺(jué)方面的知識(shí)。
29、(7) 數(shù)字信號(hào)處理技術(shù):信號(hào)的時(shí)域分析、噪聲消除、數(shù)字濾波、線性預(yù)測(cè)等方面的知識(shí)。(8) 微電子技術(shù):超大規(guī)模集成電路(VLSI) 技術(shù)的發(fā)展對(duì)語(yǔ)音識(shí)別的具體應(yīng)用有很大的影響,VLSI 使語(yǔ)音識(shí)別系統(tǒng)商品化成為可能。二、語(yǔ)音信號(hào)分析2.1 語(yǔ)音學(xué)知識(shí)在連續(xù)數(shù)字語(yǔ)音識(shí)別過(guò)程中,為了提高連續(xù)數(shù)字匹配搜索算法的有效性以及數(shù)字的識(shí)別率,必須要將對(duì)數(shù)字語(yǔ)音的研究細(xì)化到語(yǔ)音學(xué)的層次上,包括對(duì)各數(shù)字的音素和音節(jié)的特性和各數(shù)字的聲調(diào)進(jìn)行深入研究。5河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說(shuō)明書(shū)2.1.1 音素和音節(jié)音素是語(yǔ)音信號(hào)的最基本組成單位,可分為濁音和清音兩大類。濁音通過(guò)喉部發(fā)聲,發(fā)聲時(shí)聲帶振動(dòng),聲帶振動(dòng)的基本頻
30、率稱為“基音頻率”,其倒數(shù)稱為“基音周期”。清音通過(guò)將口腔內(nèi)有的空氣釋放出來(lái)而發(fā)聲,發(fā)聲時(shí)喉部封閉,由于該氣流通過(guò)一個(gè)狹窄通道時(shí)在口腔中形成流,因此具有明顯的隨機(jī)噪聲的特點(diǎn)。音節(jié)是由音素結(jié)合而成的發(fā)聲最小單位,一個(gè)音節(jié)由“元音”和“輔音”構(gòu)成。當(dāng)聲帶振動(dòng)發(fā)出的聲音氣流從喉腔、咽腔進(jìn)入口腔從唇腔出去時(shí),這些聲腔完全開(kāi)放,氣流順利通過(guò),這種音稱為元音。元音構(gòu)成一個(gè)音節(jié)的主干,無(wú)論從長(zhǎng)度還是能量上看,元音在音節(jié)中都占主要部分。所有元音都是濁音。發(fā)音時(shí)呼出的氣流,由于通路的某一部分封閉起來(lái)或受到阻礙,氣流被阻不能暢通,而克服發(fā)音器官的這種阻礙而產(chǎn)生的音素稱為輔音。輔音也有清濁之分。輔音出現(xiàn)在音節(jié)的前端
31、或者后端或前后兩端。2.1.2 漢語(yǔ)的聲調(diào)漢語(yǔ)是一種聲調(diào)語(yǔ)言,相同聲母和韻母構(gòu)成的音節(jié)隨聲調(diào)的不同而具有完全不同的意義,對(duì)應(yīng)著不同的漢字。所以,在漢語(yǔ)的相互交談中,不但要憑借不同的元音和輔音來(lái)辨別這些字或詞的意義,還需要從不同的聲調(diào)來(lái)區(qū)別它,也就是說(shuō)聲調(diào)有辨義作用。漢語(yǔ)普通話的聲調(diào)有陰平、陽(yáng)平、 上聲、 去聲等四種聲調(diào)( 另外, 有時(shí)還包括 “輕聲” ) ,這些基本的調(diào)型在語(yǔ)句中雖然受語(yǔ)法、語(yǔ)氣的影響而有所變動(dòng),但基本上不改變?cè)械哪J揭徽{(diào)型。聲調(diào)的變化就是濁音基音周期( 或基音頻率) 的變化,各個(gè)韻母段中基音周期隨時(shí)問(wèn)的變化產(chǎn)生了聲調(diào),變化的軌跡稱為聲調(diào)曲線。聲調(diào)曲線從一個(gè)韻母的起始端開(kāi)始,
32、到韻母的終止端結(jié)束。不同聲調(diào)的聲調(diào)曲線的開(kāi)始段稱為彎頭段,呈共同上升走向;末尾一段呈共同下降走向,稱為降尾段;而中間一段具有不同的特點(diǎn),這一段稱為調(diào)型段。一般來(lái)說(shuō),彎頭段和降尾段對(duì)聲調(diào)的聽(tīng)辨不起作用,起作用的是調(diào)型段。而一段語(yǔ)音,它的起始和結(jié)尾處的波形幅度較小,要準(zhǔn)確地測(cè)出這些地方的基音周期并不容易,因此可將這兩處的波形忽略,只測(cè)調(diào)型段這一部分波形的基音周期。圖2.1 給出了單獨(dú)說(shuō)一個(gè)音節(jié)時(shí)的四種聲調(diào)的典型曲線( F0 / Hz ) 。2.1.3 語(yǔ)音信號(hào)產(chǎn)生模型語(yǔ)音信號(hào)是聲道被激勵(lì)發(fā)生共振而產(chǎn)生的輸出。由于在發(fā)音過(guò)程中聲道是運(yùn)動(dòng)的,因此可以用一個(gè)時(shí)變線性系統(tǒng)來(lái)模擬。理想的模型是線性的,且時(shí)不
33、變的;但是語(yǔ)音信號(hào)是一連串的時(shí)變過(guò)程,且聲門和聲道相互耦合形成了語(yǔ)音信號(hào)的非線性特性。做一個(gè)合理的假設(shè),當(dāng)在較短的時(shí)間間隔內(nèi)表示語(yǔ)音信號(hào)時(shí),則可以采用線性時(shí)不變模型。它包括激勵(lì)模型、聲道模型、和輻射模型。圖2.2 給出了經(jīng)典的語(yǔ)音信號(hào)的產(chǎn)生模型,語(yǔ)音信號(hào)被看成是線性時(shí)不變系統(tǒng)在隨機(jī)噪聲或準(zhǔn)周期脈沖序列激勵(lì)下的輸出。圖 2.2 語(yǔ)音信號(hào)產(chǎn)生模型2.2 語(yǔ)音信號(hào)數(shù)字化和預(yù)處理2.2.1 數(shù)字化為了將原始的模擬語(yǔ)音信號(hào)變?yōu)閿?shù)字信號(hào),必須經(jīng)過(guò)采樣和量化兩個(gè)步驟,從而得到時(shí)間和幅度上均為離散的數(shù)字語(yǔ)音信號(hào)。根據(jù)采樣定理,當(dāng)采樣頻率大于信號(hào)的2 倍帶寬時(shí),在采樣過(guò)程中不會(huì)丟失信息,且從采樣信號(hào)中可以精確地
34、重構(gòu)原始信號(hào)波形。在實(shí)際語(yǔ)音信號(hào)處理中,采樣頻率通常為7 10kHz。在信號(hào)的帶寬不明確時(shí),采樣前應(yīng)接入抗混疊濾波器( 低通濾波器) ,使其帶寬限制在某個(gè)范圍內(nèi);否則,如果采樣頻率不滿足采樣定理,則會(huì)產(chǎn)生混疊。此時(shí),信號(hào)中的高頻成分將產(chǎn)生失真。采樣之后要對(duì)信號(hào)進(jìn)行量化,在量化過(guò)程中不可避免的會(huì)產(chǎn)生誤差。量化后的信號(hào)值與原始信號(hào)之間的差值為量化誤差,又稱為量化噪聲。信號(hào)與量化噪聲的功率之比為量化信噪比。若用x2 表示輸入語(yǔ)音信號(hào)序列的方差,2Xmax表示信號(hào)的峰值,B 表示量化分辨率 ( 量化位長(zhǎng)) , e 2 表示噪聲序列的方差,則量化信噪比為:2.1 )2XSNR 10lg( x2 ) 6.
35、02B 4.77 20lg(Xmax)ex假設(shè)語(yǔ)音信號(hào)的幅度服從Laplacian 分布,此時(shí)信號(hào)幅度超過(guò)4 x 的概率很小, 只有0.35%,因而可以取X max 4 x 。此時(shí)上式變?yōu)镾NR=6.02B-7.2。上式表明,量化器中每位字長(zhǎng)對(duì)SNR貢獻(xiàn)為6dB; 當(dāng) B=7位時(shí),SNR=35dB。此時(shí)量化后的語(yǔ)音質(zhì)量能滿足一般通信系統(tǒng)的要求。研究表明: 要使語(yǔ)音波形的動(dòng)態(tài)變化信噪比達(dá)到55dB的信噪比,B應(yīng)取 10 位以上。為了在語(yǔ)音信號(hào)變化范圍內(nèi)保持35dB的信噪比,常用12 位來(lái)量化,其中附加的5 位用于補(bǔ)償30dB 左右的輸入動(dòng)態(tài)范圍變化。2.2.2 預(yù)加重處理由于語(yǔ)音信號(hào)的平均功率譜
36、受聲門激勵(lì)和鼻輻射的影響,在800Hz以上的高頻時(shí)約按6dB/oct 衰減,為此要在預(yù)處理中進(jìn)行預(yù)加重。預(yù)加重的目的是提升高頻部分,使信號(hào)的頻譜變得平坦,以便于進(jìn)行聲道參數(shù)分析或頻譜分析。預(yù)加重在防混疊濾波與A/D 轉(zhuǎn)換之前進(jìn)行。這樣,不僅能夠進(jìn)行預(yù)加重,而且可以壓縮信號(hào)的動(dòng)態(tài)范圍,有效地提高信噪比。所以為盡量提高SNR,應(yīng)在 A/D 轉(zhuǎn)換之前進(jìn)行預(yù)加重。同時(shí),預(yù)加重也可在A/D 轉(zhuǎn)換之后進(jìn)行,用具有6dB/oct 地提升高頻特性地預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn)。它一般是一階的,即:H (z) 1 uz 1 ,式中 u 值接近于1, 本文中去為0.94 。加重的信號(hào)在分析處理后,需要進(jìn)行去加重處理,即加
37、上6dB/oct 的下降的頻率特性來(lái)還原成原來(lái)的特性。圖2.3 所示為對(duì)語(yǔ)音信號(hào)“0”的預(yù)加重處理結(jié)果。從下圖可以明顯圖 2.3 語(yǔ)音信號(hào)“0”的預(yù)加重處理效果2.2.3 防混疊濾波A/D 轉(zhuǎn)換之前還需要加一個(gè)防混疊濾波器。如果頻率干擾(50 或 60Hz)不嚴(yán)重或另有抗干擾措施,則不必用帶通濾波器而只用低通濾波器即可。低通濾波器的截至頻率由語(yǔ)音信 號(hào)帶寬決定,用于慮除高于l/2 采樣頻率的信號(hào)成分或噪聲,并且希望其帶內(nèi)波動(dòng)和帶外衰減特性盡可能好。A/D 轉(zhuǎn)換后采用低通濾波器作為平滑濾波器,對(duì)重構(gòu)的語(yǔ)音波形的高次諧波起平滑作用,以去除高次諧波失真。對(duì)于這種低通濾波器的特性和A/D 轉(zhuǎn)換頻率,也
38、要求與采樣時(shí)具有相同的關(guān)系。2.2.4 加窗處理已經(jīng)數(shù)字化的語(yǔ)音信號(hào)序列將被依次存入一個(gè)數(shù)據(jù)區(qū)。在語(yǔ)音信號(hào)處理中,一般用循環(huán)隊(duì)列的方式來(lái)存儲(chǔ)這些數(shù)據(jù),以便用一個(gè)有限容量的數(shù)據(jù)區(qū)來(lái)應(yīng)付數(shù)量極大的語(yǔ)音數(shù)據(jù)。在進(jìn)行處理時(shí),按幀從此數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取一幀,如此進(jìn)行下去。一般來(lái)說(shuō),語(yǔ)音信號(hào)處理的幀長(zhǎng)一般取20ms(當(dāng) Fs=8kHz時(shí),相應(yīng)每幀由160 個(gè)信號(hào)樣值) 。在9河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說(shuō)明書(shū)取數(shù)據(jù)時(shí),前一幀與后一幀的交疊部分稱為幀移。幀移與幀長(zhǎng)之比一般取為0 0.5。在對(duì)語(yǔ)音信號(hào)進(jìn)行短時(shí)分析的過(guò)程中,信號(hào)流的處理用分段或分幀來(lái)實(shí)現(xiàn)。一般每秒的幀數(shù)為33 100,視實(shí)際情況而
39、定。分幀既可連續(xù),也可采用交疊分段的方法,用可移動(dòng)的有限長(zhǎng)度窗口進(jìn)行加權(quán)的方法來(lái)實(shí)現(xiàn)。在10 20ms 這樣的時(shí)間段內(nèi),數(shù)字化后的語(yǔ)音信號(hào)的頻譜特性和某些物理特征參量可近似地看作是不變地。這樣就可以采用平穩(wěn)過(guò)程的分析處理方法來(lái)處理了。這種時(shí)間以來(lái)處理的基本手段,一般是用一個(gè)長(zhǎng)度有限的窗序列w(n) 截取一段語(yǔ)音信號(hào)來(lái)進(jìn)行分析,并讓這個(gè)窗滑動(dòng),以便分析任意時(shí)刻附近的信號(hào)。其一般式為QnTx(m) w(n m),其中mT* 表示某種運(yùn)算x(m) 為輸入信號(hào)序列。通幫采用最多的窗函數(shù)是矩形窗、漢寧窗(Hanning) 和哈明窗(Hamming)。本文主要采用哈明窗,其公式為:(2-2)0.54 0.
40、46cos 2 m 1 ,n 0 Lw(n)L 10, n 其他其中 L 是窗長(zhǎng)。通常認(rèn)為在一個(gè)語(yǔ)音幀內(nèi),應(yīng)含有1 7 個(gè)基音周期。然而,不同人的基音周期變化范圍很大,從女性兒童的2ms到老年男子的14ms(即基音頻率為50 70Hz),所以 L 的選擇比較困難。通常在l0kHz 采樣頻率下,L 折衷選擇為100 200 個(gè)采樣點(diǎn)( 即持續(xù)時(shí)間為10 20ms)。2.3 語(yǔ)音信號(hào)的時(shí)域分析對(duì)信號(hào)分析最自然最直接的方法是以時(shí)間為自變量進(jìn)行分析,語(yǔ)音信號(hào)典型的時(shí)域特征包括短時(shí)能量、短時(shí)平均過(guò)零率、短時(shí)自相關(guān)系數(shù)和短時(shí)平均幅度差。2.3.1 短時(shí)能量分析對(duì)于信號(hào)x(n) ,短時(shí)能量定義為:nE n
41、x m w n m 2x m w n m 2 x 2 n * h n (2-3)mmnN1式中, h(n)=w 2(n) ,N為窗長(zhǎng),En表示在信號(hào)的第n 個(gè)點(diǎn)開(kāi)始加窗函數(shù)時(shí)的短時(shí)能量??梢钥闯觯虝r(shí)能量可以看作語(yǔ)音信號(hào)的平方經(jīng)過(guò)一個(gè)線性濾波器的輸出,該線性濾波器的單位沖激響應(yīng)為h(n) ,如圖 2.4 所示。圖 2.4 短時(shí)能量的方框圖表示如果用 xw表示 x(n) 經(jīng)過(guò)加窗處理后的信號(hào),窗函數(shù)的長(zhǎng)度為N, 則短時(shí)能量可表示為:nN1Enx2w mmn(2-4)0”短時(shí)能量圖。2.5 所示為語(yǔ)音“0”時(shí)域波形圖和語(yǔ)音“172.5 語(yǔ)音信號(hào)“0”的短時(shí)能力函數(shù)利用短時(shí)能量可以區(qū)分清音和濁音,因
42、為濁音的能量比清音的能量大得多;其次可以短時(shí)能量由于是對(duì)信號(hào)進(jìn)行平方運(yùn)算,因而認(rèn)為增加了高低信號(hào)之間的差距,因此要Mnxm wnmnN1mxw mmn(2-5)如圖 2.6 所示為“0”的短時(shí)平均幅度圖。從圖中可觀察到,短時(shí)平均幅度對(duì)能量小的圖 2.6 語(yǔ)音信號(hào)“0”的短時(shí)平均幅度2.3.2 短時(shí)平均過(guò)零率短時(shí)平均過(guò)零率是指每幀內(nèi)信號(hào)通過(guò)零值的次數(shù)。對(duì)于連續(xù)語(yǔ)音信號(hào),可以考察其時(shí)Zsgn x m sgn x m 1 w n m2m1 sgn xw m sgn xw m 12 mnSgn* 是符號(hào)函數(shù)。為了解決低頻的干擾,我們?cè)O(shè)立一個(gè)門限(2-6)T,將過(guò)零率的含義修zn 12msgn x m
43、T sgn x m 1 Tsgn x m T sgn x m 1 Tw n m (2-7)另外,可以將短時(shí)平均過(guò)零率和短時(shí)能量結(jié)合起來(lái)判斷語(yǔ)音起止點(diǎn)的位置,即進(jìn)行端2.7 語(yǔ)音信號(hào)“0”的過(guò)零率,可為端點(diǎn)檢河南理工大學(xué)畢業(yè)設(shè)計(jì)(論文)說(shuō)明書(shū)27圖 2.7 語(yǔ)音信號(hào)“0”的短時(shí)平均過(guò)零率2.3.3 短時(shí)自相關(guān)函數(shù)和短時(shí)平均幅度差函數(shù)語(yǔ)音信號(hào)xw(n) 的短時(shí)自相關(guān)函數(shù)Rn (k) 的計(jì)算式如下:nm 10 k K (2-8)NkRn k xn mm0這里 K 是最大的延遲點(diǎn)數(shù)。短時(shí)自相關(guān)函數(shù)具有一些性質(zhì),如它是偶函數(shù)假設(shè)序列具短時(shí)自相關(guān)函數(shù)是語(yǔ)音信號(hào)時(shí)域分析的重要參量。但是,計(jì)算自相關(guān)函數(shù)的運(yùn)算
44、量很(AMDP)。平均幅度差函數(shù)能夠代替自相關(guān)函數(shù)進(jìn)行語(yǔ)音分析,是基于這樣一個(gè)事實(shí):如果信號(hào)( 設(shè)周期為Np。 ) ,則相距為周期的整數(shù)倍的樣點(diǎn)上的幅值是相等的,差d n x n x n k 0 k 0, N p, 2N p,(2-9)對(duì)于實(shí)際的語(yǔ)音信號(hào),d(n) 雖不為零,但其值很小。這些極小值將出現(xiàn)在整數(shù)倍周期的位置上。為此,可定義短時(shí)平均幅度差函數(shù):N1kFn k xn mxn m k(2-10)m0顯然,如果x(n) 在窗口取值范圍內(nèi)具有周期性,則將出現(xiàn)極小值。如圖2.8 所示,對(duì)于周期性的x(n) , Fn(k) 也呈現(xiàn)周期性。與Rn(k) 相反的是,在周期的各個(gè)整數(shù)倍點(diǎn)上Fn(k)
45、具有谷值而不是峰值。圖 2.8 語(yǔ)音信號(hào)“0”的自相關(guān)函數(shù)2.3.4 語(yǔ)音端點(diǎn)檢測(cè)語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確性和可靠性,對(duì)系統(tǒng)識(shí)別率的提高起著重要的作用當(dāng)系統(tǒng)收到一段包含語(yǔ)音的信號(hào)時(shí),系統(tǒng)需要對(duì)語(yǔ)音的端點(diǎn)進(jìn)行定位,丟棄語(yǔ)音前后多余的噪音段。如果語(yǔ)音前后噪音保留過(guò)多,則會(huì)增加不同語(yǔ)音的共同成分,對(duì)識(shí)別產(chǎn)生干擾;而如果語(yǔ)音部分被切割掉,則會(huì)造成語(yǔ)音信息的丟失,若丟失的恰是區(qū)分語(yǔ)音的重要特征,則造成誤識(shí)。正確確定語(yǔ)音端點(diǎn)也會(huì)減少系統(tǒng)的計(jì)算量和存儲(chǔ)量。語(yǔ)音端點(diǎn)檢測(cè)算法主要是根據(jù)語(yǔ)音的一些特征參數(shù),短時(shí)能量、過(guò)零率等完成端點(diǎn)檢測(cè)。端點(diǎn)檢測(cè)有雙門限前端檢測(cè)算法和多門限過(guò)零率前端檢測(cè)算法。雙門限前端檢測(cè)算法用于有話
46、、無(wú)話鑒別或詞語(yǔ)前端檢測(cè),通常窗長(zhǎng)( 即幀長(zhǎng) ) 取10 15ms,幀間隔(即采樣間隔 ) 取 5 10ms,有一定的抗干擾能力,即使存在小的隨機(jī)噪聲,只要它不使信號(hào)越過(guò)正負(fù)門限所構(gòu)成的帶,就不會(huì)產(chǎn)生虛假的過(guò)零率。多門限過(guò)零率前端檢測(cè)算法是設(shè)多個(gè)高低不同的門限。與一股的單門限過(guò)零率法相比,可明顯地減少前端誤判,但是有時(shí)存在較大時(shí)延。因?yàn)槭状握业礁唛T限越過(guò)點(diǎn),再往前推可能要搜索200ms左右才能找到清音的起點(diǎn),這就不便于實(shí)現(xiàn)實(shí)時(shí)特征提取。2.4 語(yǔ)音信號(hào)的頻域分析語(yǔ)音的感知過(guò)程與人類聽(tīng)覺(jué)系統(tǒng)具有頻譜分析功能是緊密相關(guān)的。因此,對(duì)語(yǔ)音信號(hào)進(jìn)行頻譜分析,是認(rèn)識(shí)語(yǔ)音信號(hào)和處理語(yǔ)音信號(hào)的的重要方法。2.
47、4.1 濾波器組法利用一組濾波器來(lái)分析語(yǔ)音信號(hào)的頻譜,方法使用簡(jiǎn)單、實(shí)時(shí)性好、受外界環(huán)境的影響小。濾波器組法所用的濾波器可以是模擬濾波器,也可以是數(shù)字濾波器。濾波器可以用寬帶帶通濾波器,也可以用窄帶帶通濾波器。寬帶帶通濾波器具有平坦性,用它可以粗略地求取語(yǔ)音的頻譜,其頻率分辨率降低,相當(dāng)于短時(shí)處理時(shí)窗寬較窄的那種情況。使用窄帶帶通濾波器,其頻率分辨率提高,相當(dāng)于短時(shí)處理時(shí)窗寬較寬的那種情況。語(yǔ)音信號(hào)x(t) 輸入帶通濾波器f 1, f 2, f n, 濾波器輸出為具有一定頻帶的中心頻率為f1, f 2,f n的信號(hào)??梢詫V波器組的輸出經(jīng)過(guò)自適應(yīng)增量調(diào)制器變?yōu)槎M(jìn)制脈沖信號(hào),再經(jīng)過(guò)多路開(kāi)關(guān),變
48、為一串二進(jìn)制脈沖信號(hào)。這種信號(hào)可以輸入計(jì)算機(jī)進(jìn)行各種分析和處理。2.4.2 傅立葉頻譜分析傅立葉頻譜分析是語(yǔ)音信號(hào)頻域分析中廣泛采用的一種方法。它是法國(guó)科學(xué)家J Fourier 在 1807 年為了得到熱傳導(dǎo)方程的簡(jiǎn)便解法而提出的。傅立葉頻譜分析的基礎(chǔ)是傅立葉變換,用傅立葉變換及其反變換可以求得傅立葉譜、自相關(guān)函數(shù)、功率譜、倒譜。由于語(yǔ)音信號(hào)的特性是隨著時(shí)間緩慢變化的,由此引出語(yǔ)音信號(hào)的短時(shí)分析。信號(hào) x( 盯 ) 的短時(shí)傅立葉變換為:X n e jw x m w n m e jwm (2-11)m式中, w(n) 為窗口函數(shù)。圖2.9 是從帶通濾波器作用理解短時(shí)傅立葉變換。圖 2.9 從帶通
49、濾波器作用理解短時(shí)傅里葉變換X n e jw 可以看作是加窗后函數(shù)的傅立葉變換,為了實(shí)現(xiàn)反變換,將 X n e jw 進(jìn)行頻率采樣,即令wk2 K / L 則有X n ejwkx m w n m e jwkm (2-12)m式中, L 為頻率采樣點(diǎn)數(shù)。短時(shí)功率譜實(shí)際上是短時(shí)傅立葉變換幅度的平方,它是信號(hào)x(n) 的短時(shí)自相關(guān)函數(shù)的傅立葉變換,即Pnejw Xn ejw 2Rn kejwk (2-13)k式中Rn( k)是自相關(guān)函數(shù)。圖2.10 是幾種譜之間的關(guān)系。圖 2.10 幾種基于短時(shí)傅里葉變換譜之間的關(guān)系2.5 特征參數(shù)提取2.5.1 LPCC 倒譜系數(shù)線性預(yù)測(cè)倒譜參數(shù)(Linear P
50、rediction Cepstrum Coefficient, LPCC)是線性預(yù)測(cè)系數(shù)在倒譜域中的表示,該特征是基于語(yǔ)音信號(hào)為自回歸信號(hào)的假設(shè),利用線性預(yù)測(cè)分析獲得倒譜系數(shù)。LPCC參數(shù)的優(yōu)點(diǎn)是計(jì)算量小,易于實(shí)現(xiàn),對(duì)元音有較好的描述能力,其缺點(diǎn)在于對(duì)輔音的描述能力較差,抗噪聲性能較差。語(yǔ)音信號(hào)的倒譜與LPC系數(shù)之間的遞推關(guān)系:(2-14)c 1 a1n1kc n an1 akc n k ,1 n pk1nkc n k ,n p或是由LPC得到n1C LPCC nCLPCnC LPCC n k C LPC k (-)k1 n根據(jù)同態(tài)處理的概念和語(yǔ)音信號(hào)產(chǎn)生的模型,語(yǔ)音信號(hào)的倒譜c(n) 等于激
51、勵(lì)信號(hào)的倒譜 e? n 與聲道傳輸函數(shù)的倒譜h? h 之和。 通過(guò)分析激勵(lì)信號(hào)的語(yǔ)音特點(diǎn)以及聲道傳輸函數(shù)的零極點(diǎn)分布情況,可知e? n 的分布范圍很寬,c(n) 從低時(shí)域延伸到高時(shí)域,而h? n 主要分布于低時(shí)域中。語(yǔ)音信號(hào)所攜帶的語(yǔ)音信息主要體現(xiàn)在聲道傳輸函數(shù)上,因而在語(yǔ)音識(shí)別中通常取語(yǔ)音信號(hào)倒譜的低時(shí)域構(gòu)成LPC倒譜特征c,即c c 1 ,c 2 , ,c q 10 q 16(2-16)式中, q 為 LPC倒譜特征的階數(shù)。然而LPCC同時(shí)也繼承了LPC的缺陷,其主要的一點(diǎn)就是LPC在所有的頻率上都是線性逼近語(yǔ)音的,而這與人的聽(tīng)覺(jué)的特性是不一致的;而且LPC包含了語(yǔ)音高頻部分的大部分噪聲細(xì)
52、節(jié),這些都會(huì)影響系統(tǒng)的性能。2.5.2 Mel 頻率倒譜系數(shù)美爾頻標(biāo)倒譜系數(shù)(Mel Frequency Cepstrum Coefficient , MFCC考慮了人耳的聽(tīng)覺(jué))特性,將頻譜轉(zhuǎn)化為基于Mel 頻標(biāo)的非線性頻譜,然后轉(zhuǎn)換到倒譜域上。由于充分考慮了人耳的聽(tīng)覺(jué)特性,而且沒(méi)有任何的前提假設(shè),MFCC參數(shù)具有良好的識(shí)別性能和抗噪聲能力,但其計(jì)算量和計(jì)算精度要求高。MFCC不同于LPCC。 在漢語(yǔ)數(shù)碼語(yǔ)音識(shí)別中,MFCC參數(shù)的性能明顯優(yōu)于LPCC參數(shù)。MFCC是采用濾波器組的方法計(jì)算出來(lái)的,這組濾波器在頻率的美爾坐標(biāo)上是等寬的。這是因?yàn)?人類在對(duì)約1000Hz以上的聲音頻率范圍的感知不遵循
53、線性關(guān)系,而是遵循在對(duì)數(shù)頻率坐標(biāo)上的近似線性關(guān)系。Mel 頻率可以用如下公式表示:fMel 2596 log 1 f /700(2-17)對(duì)頻率軸的不均勻劃分是MFCC特征區(qū)別于普通倒譜特征的最重要的特點(diǎn)。將頻率按照式 (2-17) 變換到 Mel 域后, Mel 帶通濾波器組的中心頻率是按照Mel 頻率刻度均勻排列的。在實(shí)際應(yīng)用中,MFCC倒譜系數(shù)計(jì)算過(guò)程如下:(1) 將信號(hào)進(jìn)行分幀,預(yù)加重和加哈明窗處理,然后進(jìn)行短時(shí)傅立葉變換并得到其頻譜。(2) 求出頻譜平方,即能量譜,并用M個(gè) Mel 帶通濾波器進(jìn)行濾波;由于每一個(gè)頻帶中分量的作用在入耳中是疊加的,因此將每個(gè)濾波器頻帶內(nèi)的能量進(jìn)行疊加,
54、這時(shí)第k 個(gè)濾波器輸出功率譜X(k) 。(3) 將每個(gè)濾波器的輸出取對(duì)數(shù),得到相應(yīng)頻帶的對(duì)數(shù)功率譜;并進(jìn)行反離散余弦變換,得到L 個(gè) MFCC系數(shù),一般L 取 12 16個(gè)左右。MFCC系數(shù)為Cnlog k cos k 0.5 n/ M ,n 1,2, , L (2-18)4)將這種直接得到的MFCC特征作為靜態(tài)特征,再將這種靜態(tài)特征傲一階和二階差分。得到相應(yīng)的動(dòng)態(tài)特征。三、語(yǔ)音識(shí)別主要算法3.1 動(dòng)態(tài)時(shí)間伸縮算法日本學(xué)者首先將動(dòng)態(tài)規(guī)劃的概念用于解決孤立詞識(shí)別時(shí)說(shuō)話速度不均勻的難題,提出了著名的DTW算法,當(dāng)詞匯表較小以及各個(gè)詞條不易于混淆時(shí),這個(gè)算法取得了很大成功。從而自 60 年代末期開(kāi)始引起了語(yǔ)音識(shí)別的研究熱潮。在孤立詞語(yǔ)音識(shí)別中,最為簡(jiǎn)單有效的方法就是該算法,該算法基于動(dòng)態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長(zhǎng)短不一的模板匹配問(wèn)題,是語(yǔ)音識(shí)別中出現(xiàn)較早、較為經(jīng)典的一種
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 軟件百貨企業(yè)ESG實(shí)踐與創(chuàng)新戰(zhàn)略研究報(bào)告
- 立體幾何初步全章十一大壓軸題型歸納(拔尖篇)(人教A版2019必修第二冊(cè))【含答案解析】
- 納米面料企業(yè)數(shù)字化轉(zhuǎn)型與智慧升級(jí)戰(zhàn)略研究報(bào)告
- 軟木碎、軟木?;蜍浤痉燮髽I(yè)ESG實(shí)踐與創(chuàng)新戰(zhàn)略研究報(bào)告
- 武俠格斗競(jìng)技場(chǎng)行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 機(jī)器人自動(dòng)化打磨方案行業(yè)深度調(diào)研及發(fā)展戰(zhàn)略咨詢報(bào)告
- 2025年鉗型表項(xiàng)目合作計(jì)劃書(shū)
- 2025年計(jì)算機(jī)網(wǎng)絡(luò)設(shè)備項(xiàng)目建議書(shū)
- 2025年極軌氣象衛(wèi)星接收處理系統(tǒng)項(xiàng)目建議書(shū)
- 2025年度食堂員工健康管理與保險(xiǎn)合同
- 2022年河北公務(wù)員考試《申論》真題及參考答案
- 汽車涂裝工藝完整版ppt課件全套教程
- 十年來(lái)北京蓋了多少住宅
- 25項(xiàng)品質(zhì)保證展開(kāi)計(jì)劃PPT課件
- 畢業(yè)設(shè)計(jì)(論文)-白菜收獲機(jī)的設(shè)計(jì)與研究
- 初中歷史興趣小組活動(dòng)方案
- 【班會(huì)課件】時(shí)代先鋒雷鋒精神 高中主題班會(huì)課件
- 西南交通大學(xué)工程測(cè)量
- 南寧市存量房買賣合同范本
- 電梯基本結(jié)構(gòu)
- 壓力容器涂敷工藝規(guī)程指導(dǎo)書(shū)
評(píng)論
0/150
提交評(píng)論