基于虛擬儀器的語音識別-算法研究_第1頁
基于虛擬儀器的語音識別-算法研究_第2頁
基于虛擬儀器的語音識別-算法研究_第3頁
基于虛擬儀器的語音識別-算法研究_第4頁
基于虛擬儀器的語音識別-算法研究_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

PAGEPAGE47****大學本科生畢業(yè)設(shè)計說明書(畢業(yè)論文)題目:基于虛擬儀器的語音識別算法研究學生姓名:**學號:*******專業(yè):*******班級:*******指導(dǎo)教師:*****基于虛擬儀器的語音識別算法研究摘要隨著信息技術(shù)的快速發(fā)展,智能人機交互通信逐漸滲透到人們的日常生活之中,在許多電器的控制面板中,都加入了利用聲音信息進行的人機交互功能,其中多數(shù)都具備語音提示的功能,這就使人機交互的效率得到了更大的提高。本次設(shè)計將虛擬儀器技術(shù)用于語音識別系統(tǒng),實現(xiàn)了儀器的軟件化,真正體現(xiàn)了“軟件就是儀器”的思想。利用筆記本自帶的聲卡進行語音信號的采集,接著對語音信號進行數(shù)字化的轉(zhuǎn)換后再做進一步的處理。利用MATLAB中的小波工具包對采集到的語音信號進行小波消噪處理,并借助LABVIEW中提供的ScriptNode子VI連接主流算法即仿真分析軟件MATLAB,充分發(fā)揮MATLAB強大的數(shù)據(jù)處理能力,雖然LABVIEW中提供了一些信息處理功能函數(shù),但其畢竟功能有限,仍然無法滿足部分用戶對數(shù)值進行各種各樣的計算和分析的需求。而MATLAB尤其擅長數(shù)值分析和圖像處理。在這里我們利用MATLAB中的小波工具包,實現(xiàn)了利用小波的方法對含有雜聲的語音信號進行噪聲消除的工作。由于小波具有多尺度,多分辨的特點,應(yīng)用小波進行信號消噪處理是小波分析的一項重要應(yīng)用。文中首先介紹了語音識別技術(shù)的基本原理,分析了經(jīng)常使用的線性預(yù)測倒譜系數(shù)和美爾頻率倒譜系數(shù),并選定美爾頻率倒譜系數(shù)作為本系統(tǒng)中采用的語音特征參數(shù);其次系統(tǒng)能夠?qū)崿F(xiàn)語音信號的自動采集;然后針對語音特征參數(shù)提取,結(jié)合LABVIEW的編程特點,利用多線程對特征參數(shù)進行提取并運算,將計算時間縮短了1/4;最后在分析語音識別系統(tǒng)主要需求的基礎(chǔ)上,對識別系統(tǒng)的軟硬件進行了設(shè)計,并對語音信號做噪聲消除以及預(yù)處理后進行特征提取,利用不同語音獨特的特征和模式匹配算法,實現(xiàn)說話人語音信號的最終識別。關(guān)鍵詞:語音識別;LABVIEW;聲卡;小波消噪;特征提取

ThespeechrecognitionalgorithmbasedonvirtualinstrumentAbstractWiththerapiddevelopmentoftechnology,intelligenthumanandmachineinterfacesareusedinappliancesinpeople'snormallife.Currently,alotofapplianceshavethefunctionthatcangivewarningmessagestotheuserinsoundwhichimprovestheefficiencyofhumanandmachineinteraction.Thisdesignisauseofvirtualinstrumentanddospeechrecognitionsystemdesign.Willthevirtualinstrumenttechnologyusedinspeechrecognitionsystem,realizedtheinstrumentofthesoftware,andreflectthe"softwareisinstrument"thought.Usenotesitselfwithsoundcardforvoicesignalcollection,thespeechsignaldigitalconversionandfurtherprocessing.MATLABwaveletinthetoolkitofcollectedavoicesignalwaveletdenoisingtreatment,andwiththehelpofLABVIEWprovidedintheScriptNodesub.viconnectthemainstreamalgorithmsimulationanalysissoftwareMATLAB,makefulluseofMATLABpowerfuldataprocessingcapabilities,eventhoughtheLABVIEWprovidessomeinformationprocessingfunctions,butlimitedafterall,stillcan'tmeetsomeuserdemandforvariouskindsofnumericalcalculationandanalysis.AndMATLABisespeciallygoodatnumericalanalysisandimageprocessing.HereweuseofMATLABwavelettoolkit,realizedbyusingwaveletmethodtocontaintheshortspeechsignalnoiseeliminationofwork.Duetothesmallwavehasmulti-scale,multi-resolutioncharacteristics,applicationofwaveletde-noisingsignalswhenprocessingofwaveletanalysisisakindofimportantapplications.Thispaperintroducesthebasicprincipleofspeechrecognitiontechnology,andthenanalysessomefeatureparameterssuchasLinearPredictionCoefficients,LinearPredictionCepstralCoefficientsandMelFrequencyCepstralCoefficientsandchoosestheMFCCusedinthissystem;Followed,thispaperrealizesautomaticallyspeechsignalacquisition,andusesmulti-threadofLABVIEWtocalculatethefeatureparametersinaparallelwayandshort1/4ofthecalculatingtimewhichimprovetheefficiencyofthefeaturefunctionaltesting;Atlast,thispaperanalysesthemainrequirementsofthissystem,designsthehardwareandsoftwareindetailandchoosesthegraphicprogramminglanguageLABVIEWasthesoftwaredevelopmentplatformandthentheuseofdifferentspeechuniquefeatureandpatternmatchingalgorithm,realizevoicesignaltothefinalrecognition.Keywords:SpeechRecognition;Virtualinstrument;Soundcard;WaveletDenoisingandfeatureextractio目錄摘要 IAbstract II目錄 IV第一章緒論 11.1本文的應(yīng)用背景和研究意義 11.2語音識別發(fā)展歷史及現(xiàn)狀 31.3虛擬儀器簡介 51.4MATLAB語言 71.5論文的主要內(nèi)容及其結(jié)構(gòu) 10第二章語音識別基本技術(shù) 112.1語音信號的采集 112.1.1語音識別系統(tǒng)基本框架 112.1.2語音信號的采集 122.1.3語音信號的數(shù)字化 132.2語音信號預(yù)處理 142.2.1預(yù)加重處理 142.2.2分幀、加窗 162.2.3端點檢測 172.3語音信號的特征參數(shù)提取 202.3.1美爾頻率倒譜參數(shù)及提取方法 212.3.2差分倒譜系數(shù)提取方法 22第三章語音識別算法 243.1模板匹配的方法 243.1.1動態(tài)時間規(guī)整算法DTW 243.1.2隱馬爾可夫模型法HMM 253.1.3高斯混合模型法GMM 263.1.4矢量量化VQ 263.1.5混合型算法 283.2基于聲學和語音學的方法 283.3神經(jīng)網(wǎng)絡(luò)的方法 29第四章非特定人連續(xù)語音識別系統(tǒng)的實現(xiàn) 304.1概述 304.2非特定人連續(xù)語音識別系統(tǒng)設(shè)計與實現(xiàn) 304.2.1語音信號的實時采集與小波消噪處理 304.2.2語音信號的預(yù)處理 334.2.3語音信號的特征提取 364.3模板的建立與讀取 384.3.1建立模板 384.3.2讀取模板 40第五章結(jié)論 41第六章總結(jié)與展望 426.1總結(jié) 426.2展望 42參考文獻 43致謝 46第一章緒論語言是人類進行信息交流的最常用、最重要的手段,人類的語言和人的心理活動密切相關(guān),是人們進行思想交流的重要方式,既高效又便捷。隨著現(xiàn)代社會的不斷發(fā)展,科學技術(shù)的日益成熟,全自動機器逐漸被運用于各個領(lǐng)域,取代了很多原本依靠人來完成的工作,人們對機器的智能要求也越來越高,人機進行信息交互的手段也越來越便捷和迅速,因此語言交流自然而然的成為了首選。人與機器的語言交流總體可分為三部分,(1)讓機器聽懂人的語言(2)進行語言組織(3)文字轉(zhuǎn)化為聲音輸出。語音識別研究的就是如何讓機器聽懂人的語音內(nèi)容,同時辨別是否是主人所發(fā)出的指令,執(zhí)行相應(yīng)的操作。1.1本文的應(yīng)用背景和研究意義語音識別技術(shù)是現(xiàn)代高科技信息領(lǐng)域的研究熱點,對于信號處理的研究,從理論的產(chǎn)生到專業(yè)產(chǎn)品的系統(tǒng)開發(fā)應(yīng)用已經(jīng)經(jīng)歷了數(shù)十年,終于獲得了極大的突破。經(jīng)過二十年的研究探索,語音識別技術(shù)取得了很大的發(fā)展。就目前來說,該技術(shù)從實驗室的實驗性設(shè)計開發(fā),逐漸進入到工廠的應(yīng)用,估計在不遠的將來,語音識別技術(shù)將遍布通訊行業(yè),家電行業(yè),醫(yī)療保健行業(yè),家庭服務(wù)行業(yè),汽車電子行業(yè),消費性電子產(chǎn)品等各大領(lǐng)域。它與自動撥號,健康和福利,生命支持系統(tǒng)和其他實際應(yīng)用相互銜接,直接控制商業(yè),制造業(yè),金融業(yè),運輸業(yè),旅游業(yè),公安消防等工業(yè)生產(chǎn)部門和應(yīng)用領(lǐng)域,該技術(shù)的日益成熟有望成為下一代的操作系統(tǒng)和應(yīng)用程序的用戶界面。以下介紹語音識別技術(shù)的幾大應(yīng)用領(lǐng)域:(1)查詢語言的語音識別應(yīng)用語音識別可用于查詢航班時間表,電話號碼,巴士時間查詢,火車車次查詢,自動導(dǎo)游,天氣預(yù)報,股票行情系統(tǒng)等。目前在國際上的各大旅游景區(qū)已經(jīng)開始逐步采用語音識別查詢系統(tǒng),其中最具代表性的是日本豐橋大學設(shè)計研發(fā)的“富士山旅游咨詢系統(tǒng)”,該系統(tǒng)是一個比較實用的語音查詢系統(tǒng),此外它還可以采用問卷調(diào)查等方式,集成了自動語言的語音導(dǎo)覽系統(tǒng)。只要游客對該系統(tǒng)說話,標示清楚他們當前的所在位置和感興趣的風景名稱,系統(tǒng)會自動顯示出最佳路線,實物圖片和旅游計劃等人性化的信息。該系統(tǒng)不僅能提供英語和漢語查詢,而且可以用其它語言來查詢。另一個例子是,利用語音識別的自動訂票系統(tǒng),只要站在預(yù)訂系統(tǒng)前,說出搭乘的時間和地點,系統(tǒng)便會自動顯示出符合要求的車費、班次和車票銷售的記錄,根據(jù)實際情況,用戶可以做出最佳的選擇。1996年,美國卡內(nèi)基梅隆大學計算機科學系開發(fā)的語言語音機票預(yù)訂系統(tǒng),在實踐方面,就做出了有益的嘗試[6]。(2)語音識別技術(shù)在工業(yè)生產(chǎn)上的應(yīng)用在一些對人身有極大傷害(如地下,水深,輻射,高溫環(huán)境下)、環(huán)境比較惡劣的地方,還有無人時難以實現(xiàn)工作的地方都可以運用相應(yīng)的語音命令加以控制,通過遠程,使用專門的語言,也就是語音控制系統(tǒng),控制設(shè)備去完成工作,這就能用各種指令和命令,對作業(yè)現(xiàn)場進行實時控制和處理。(3)語音識別技術(shù)在扶殘扶弱方面的應(yīng)用為了幫助殘疾人士由于肢體功能方面的缺陷而引起的動作不便,運用語音識別系統(tǒng),則能對其給予一定的方便。例如:對于身體殘疾的人或盲人,能夠既準確又靈活地使用現(xiàn)代化設(shè)備是比較困難的,但是,如果有了語音控制系統(tǒng),便能為其提供一些很好的生活輔助設(shè)施,給他們帶來方便。一些帶有語音功能的辦公設(shè)備,甚至可以幫助殘疾人士在家里或在工作崗位上,開辟出一個新的生存空間。(4)語音識別技術(shù)對各生產(chǎn)領(lǐng)域的應(yīng)用汽車工業(yè)帶來的經(jīng)濟收入對一個國家來說是至關(guān)重要的,最新的語音識別技術(shù)已經(jīng)應(yīng)用到汽車領(lǐng)域,并且仍在不斷開發(fā)和添加新的功能。一些國內(nèi)外知名的汽車制造公司,很早就預(yù)見了語音技術(shù)在汽車行業(yè)的發(fā)展前景,他們已經(jīng)提出了無需操控的、在后座說話就可以駕駛的智能汽車,完全告別了手動駕駛車輛的模式。當車在開啟時,只要告訴它繼續(xù)行駛和目前的位置,就能夠順利地行使到目的地。目前,這種智能汽車已經(jīng)進入了研究階段,相信過不了多久,這個構(gòu)想將很快成為現(xiàn)實。(5)語音識別技術(shù)在輔助教學方面的應(yīng)用在教育領(lǐng)域,已經(jīng)運用了多媒體語音識別應(yīng)用類雙向教學軟件,客戶包含清華大學復(fù)旦大學等在內(nèi)的多個高等院校,此語音識別教學系統(tǒng)用來幫助學生在語言學習的過程中,引導(dǎo)學生正確發(fā)音,及時的糾正外語口語的發(fā)音。該系統(tǒng)也可稱為家庭幼兒輔導(dǎo)老師及中小學教育不可或缺的輔助工具。(6)語言語音玩具在對孩子進行啟蒙教育的時候,你可以用帶有語音說話功能的娃娃與孩子交談,讓孩子操作服從語音命令的玩具,在孩子們幼小的心靈就播下科學的種子,讓這些玩具引導(dǎo)孩子們探索科技,發(fā)現(xiàn)科學的偉大力量。據(jù)外國有關(guān)媒體報道,語音玩具的銷售遠遠超出了預(yù)期水平[7]。(7)語音識別技術(shù)在軍事方面,刑事調(diào)查方面的應(yīng)用由于每個人的發(fā)音都有其獨特的特點,就像人的指紋一樣,具有獨特性和唯一性,是非常有特點的識別標志,科學上可以運用它來判斷一個特定的人。比如,在外國科幻電影中,我們經(jīng)常會看到高精密發(fā)射的核設(shè)施發(fā)射系統(tǒng),它除了一般的發(fā)射檢測程序外,總統(tǒng)聲音命令也成為了核發(fā)射系統(tǒng)的重要密匙,在最終確認發(fā)射時,需要通過總統(tǒng)的特定語音命令,才可進行程序釋放,核發(fā)射才進入相應(yīng)倒計時階段。再有,在司法刑偵檢測時,犯罪嫌疑人的聲音也可以作為破案的重要線索,因為每個人說話的聲音是不一樣的,語音數(shù)據(jù)將會和DNA測試結(jié)果一起作為證據(jù),這種方法已經(jīng)得到了法律上的認可。在國外這方面的例子數(shù)不勝數(shù),特別在近些年來,此技術(shù)已經(jīng)作為語音識別技術(shù)在應(yīng)用領(lǐng)域的一大主題,該應(yīng)用對軍事和司法調(diào)查、刑事偵查具有巨大的實用價值。1.2語音識別發(fā)展歷史及現(xiàn)狀語音識別技術(shù)的研究歷史可以追溯到上個世紀三十年代初,1947年,貝爾(Bell)實驗室發(fā)明了語譜圖分析儀,意味著語音識別技術(shù)研究的萌芽。起初,語音識別是通過人工分析語譜圖而進行識別的。50年代初期,研究人員大部分致力于聲學—語音學的基本概念進行探索。1952年貝爾實驗室的Davis等人首次采用識別方法是根據(jù)語音第一、二共振峰位置提取若干特征的方法研制出能識別十個英語數(shù)字的語音識別系統(tǒng),實現(xiàn)了用模擬電路實現(xiàn)未知語音與參考語音之間的相關(guān)度運算[1]。60年代初期,語音識別系統(tǒng)的構(gòu)成基本上是用硬件實現(xiàn)的,通過濾波器組提取頻譜特征,用計算機進行匹配、計算和判決。計算機的使用在很大程度上加快了語音識別方法的研究。這期間出現(xiàn)了語音識別的幾個重要的思想,前蘇聯(lián)研究人員Vintsyuk提出使用動態(tài)規(guī)劃來對齊兩個長度不同的語音音段。盡管動態(tài)時間彎折(DynamicTimeWrapping,DTW)概念的實質(zhì)和用于連接詞識別的算法雛形已經(jīng)包含在Vintsyuk的研究工作中[1,2],但這十年之中并沒有取得令人鼓舞的突破性進展。70年代初,日本學者板倉(Itakura)提出了動態(tài)時間規(guī)整(DTW)技術(shù)[4],使語音識別技術(shù)研究在匹配算法方面開辟了新思路;中期的線性預(yù)測技術(shù)[5](LinearPrediction,LP)被應(yīng)用于語音信號處理,然后隱馬爾可夫模型法[6](HiddenMarkovModel,HMM)也獲得初步的成果,該技術(shù)在語音信號處理的多個方面獲得了巨大成果;70年代末,Linda、Buzo、Gray和Markel等人首次解決了矢量量化[7,11](VectorQuantization,VQ)碼書生成的方法,并首先將矢量量化技術(shù)用于語音編碼并且獲得了成功。這使得孤立詞發(fā)音和孤立詞發(fā)音的識別技術(shù)成為可行的生活實用技術(shù)。另外,70年代的里程碑是在IBM進行了一個長期持續(xù)的、頗有成效的大詞匯量連續(xù)語音識別研究的集體努力的成果。在這期間,貝爾實驗室開展了用于建立真正的非特定人語音識別系統(tǒng)的實驗研究,提出了范圍較廣泛的一類復(fù)雜的聚類算法,用來確定能夠表示大量人群的不同詞語的所有聲學變化的不同模式。這些研究為后來非特定人模式聚類技術(shù)的研究奠定了基礎(chǔ),現(xiàn)在已經(jīng)得到了廣泛的應(yīng)用。繼70年代的孤立詞語音識別研究后,80年代主要研究的是連接詞語音識別的問題,由單個詞的模式串接在一起的短連接詞語音進行匹配識別。識別的方法也逐漸從最初的模板匹配方法轉(zhuǎn)變到了統(tǒng)計模型方法,其中典型的統(tǒng)計方法代表是隱馬爾可夫模型,由于這種方法在結(jié)構(gòu)、參數(shù)和訓練方法的選擇上有很大的靈活性,逐漸成為了語音識別技術(shù)的主流。HMM的理論基礎(chǔ)在1970年前后由Baum等人建立起來,隨后由CMU的Baker和IBM的Jelinek等人應(yīng)用于語音識別之中,HMM模型的廣泛應(yīng)用歸功于貝爾實驗室Rabiner等研究者的努力,他們把原來艱澀的純數(shù)學化的HMM模型工程化,讓從事語音處理的研究者更了解和熟悉,進而成為公認的一個研究熱點[1,4,6,7]。隨著HMM模型和人工神經(jīng)網(wǎng)絡(luò)等技術(shù)在語音識別中的廣泛應(yīng)用,科學家們已經(jīng)在實驗室突破了單個詞匯量的識別,并且對大詞匯量、連續(xù)語音和非特定人的語音識別技術(shù)也取得了顯著進展。90年代以前,語音識別系統(tǒng)主要是在實驗室中進行的。90年代后,隨著IT技術(shù)的迅速發(fā)展,多媒體時代的來臨,迫切需要語音識別系統(tǒng)走出實驗室,走向人們的日常生活乃至工廠。發(fā)達國家如日本、美國等著名大公司(IBM、Apple、AT&T、NTT)都為語音識別系統(tǒng)的實用化研究開發(fā)投入巨大資金和人力,研制出大詞匯量語音識別系統(tǒng)[1,4,8]。如IBM的ViaVoice系統(tǒng)、劍橋大學的HTK系統(tǒng)、DARGON系統(tǒng)、Microsoft的Whisper系統(tǒng)等,這些語音識別系統(tǒng)代表著當時語音識別的最高水平,同時結(jié)合自然語音處理技術(shù),發(fā)展到基于自然口語識別、理解的人機對話系統(tǒng)和不同語種的直接語音翻譯設(shè)備。國內(nèi)的語音識別研究開始于50年代后期,中科院聲學所利用頻譜分析的方法成功研究出漢語的10個元音的語音識別,70年代后期,研究出了基于模板匹配的孤立詞語音識別系統(tǒng)。80年代后期,從1987年起國家“863”智能計算機的主題專家組委對語音識別技術(shù)立項,經(jīng)過二十多年的發(fā)展,漢語語音識別取得了國內(nèi)前所未有的成果,研究水平已經(jīng)與國際同步,在漢語語音識別的技術(shù)上還有自己的特點和優(yōu)勢。越來越多的大學和科研院所紛紛作出響應(yīng),加大投資,加入到語音識別的研究行列,大大推動了漢語語音識別技術(shù)的發(fā)展。清華大學電子工程系研究的語音識別系統(tǒng)以1183個單音節(jié)詞作為識別單元,它采用的是分段概率的模型,對詞的組成音節(jié)進行仔細的分解,最后用搜索匹配算法來計算整體的識別率,使二字詞和三字詞的識別率達到97.5%。北京中科院自動化系研究所的模式識別實驗室將漢語的音節(jié)切分成韻母和聲母,并結(jié)合聲調(diào)信息,然后進行識別。其中聲母識別采用CHMM模型,聲調(diào)識別采用感知神經(jīng)網(wǎng)絡(luò)模型,整個系統(tǒng)識別率高達89.5%,聲調(diào)識別率為99.5%,詞的識別率為95%[1,4,8]。鑒于中國龐大的市場,國外也非常重視漢語語音識別的研究。但漢語數(shù)字語音識別技術(shù)由于漢語數(shù)字語音存在高混淆的問題,使得其進展相當緩慢,再加上漢語獨特的單音節(jié)特征和多方言語種等問題使得漢語數(shù)字識別系統(tǒng)在噪聲環(huán)境下仍然具有很大難度,任務(wù)艱巨。1.3虛擬儀器簡介虛擬儀器(VirtualInstrument,簡稱VI)是現(xiàn)代計算機技術(shù)和儀器技術(shù)相結(jié)合的產(chǎn)物,是目前計算機輔助測試(CAT)領(lǐng)域的一項重要技術(shù)。虛擬儀器是計算機硬件資源、虛擬儀器軟件資源和儀器與測控系統(tǒng)硬件資源三者的有效結(jié)合。所謂虛擬儀器,就是以通用計算機為核心,借助這個硬件平臺,由用戶自己設(shè)計定義,其具有虛擬面板并且測試功能由測試軟件實現(xiàn)的一種計算機儀器系統(tǒng)。使用者只要用鼠標點擊虛擬面板,就可以操作這臺計算機系統(tǒng)硬件平臺,就如同使用一臺專用的測量儀器。虛擬儀器的特點可歸納為:(1)在通用硬件平臺確定后,由軟件取代傳統(tǒng)儀器中的硬件來完成儀器的功能。(2)儀器的功能是由用戶根據(jù)需要由軟件來定義的,而不是事先由廠家定義好的。(3)儀器性能的改進和功能擴展只需進行相關(guān)軟件的設(shè)計更新,而不需購買新的儀器。(4)研制周期較傳統(tǒng)儀器大為縮短。(5)虛擬儀器開放、靈活,可與計算機同步發(fā)展,可與網(wǎng)絡(luò)及其它周邊設(shè)備互聯(lián)。決定虛擬儀器具備傳統(tǒng)儀器不可能具備的上述特點的根本原因在于:“虛擬儀器的關(guān)鍵是軟件”。LABVIEW(LaboratoryVirtualInstrumentEngineeringWorkbench,實驗室虛擬儀器工程平臺)是美國NI公司(NationalInstrumentCompany)推出的一種基于G語言(GraphicsLanguage,圖形化編程語言)的虛擬儀器軟件開發(fā)工具。虛擬儀器的構(gòu)成,如圖1.1所示:圖1.1虛擬儀器的構(gòu)成LABVIEW軟件工具的特點可歸納為:(1)圖形化的編程方式,無須寫任何文本格式的代碼,是真正的工程師語言。(2)提供了豐富的數(shù)據(jù)采集、分析及存儲的庫函數(shù)。(3)既提供了傳統(tǒng)的程序調(diào)試手段,如設(shè)置斷點、單步運行,同時又提供了獨到的高亮執(zhí)行工具,使程序動畫式運行,利于設(shè)計者觀察程序運行的細節(jié),使程序的調(diào)試和開發(fā)更為便捷。(4)32bit的編譯器編譯生成32bit的編譯程序,保證數(shù)據(jù)采集、測試和測量方案的高速執(zhí)行。(5)囊括了DAQ、GPIB、PXI、VXI在內(nèi)的各種儀器通信總線標準的所有功能函數(shù),使得不懂總線標準的開發(fā)者也能夠驅(qū)動不同總線標準接口設(shè)備與儀器。(6)提供大量與外部代碼或軟件進行連接的機制,諸如DLLs(動態(tài)連接庫)、DDE(共享庫)、ActiveX等。用LABVIEW設(shè)計的虛擬儀器控制系統(tǒng)主要包括三個部分:(1)儀器前面板的設(shè)計儀器前面板的設(shè)計是指在虛擬儀器的開發(fā)平臺上,利用各類子模板圖標創(chuàng)建用戶界面,即虛擬儀器的前面板。(2)儀器流程和算法的設(shè)計儀器流程和算法的設(shè)計是根據(jù)儀器功能的要求,利用虛擬儀器開發(fā)平臺所提供的子模板,確定程序的流程圖、所實現(xiàn)的技術(shù)方法和主要的處理算法。(3)I/O接口儀器驅(qū)動程序的設(shè)計I/O接口儀器驅(qū)動程序是控制硬件設(shè)備的驅(qū)動程序,也是連接主控計算機與儀器設(shè)備的紐帶。用LABVIEW設(shè)計的虛擬儀器系統(tǒng)可脫離LABVIEW開發(fā)環(huán)境,最終用戶看見的是和實際的硬件儀器相似的操作面板。1.4MATLAB語言MATLAB語言[1]是在20世紀80年代初期,由美國的MathWorks軟件開發(fā)公司推出的一種信號圖像處理的數(shù)學工具軟件。它擁有功能全面的函數(shù)庫,為了讓用戶脫離了復(fù)雜繁瑣的程序計算過程,把大量的函數(shù)封裝起來,大大提高了工作效率。利用MATLAB可以實現(xiàn)符號運算、科學計算、算法研究、數(shù)據(jù)分析和可視化、數(shù)學建模和仿真、圖形用戶界面設(shè)計以及科學工程繪圖等強大功能。同時MATLAB為用戶提供了豐富而實用的資源,它涵蓋了許多門類的科學研究,如控制、通信、數(shù)學、經(jīng)濟、地理、數(shù)字信號處理和數(shù)字圖像處理等。其主要特點有:(1)先進的技術(shù)界面支持MATLAB給用戶提供的是一種最直觀、最簡潔的程序開發(fā)環(huán)境。用MATLAB編程時,就如同在現(xiàn)實中的便簽上列公式和求解一樣。(2)開放式的體系結(jié)構(gòu)除了內(nèi)部函數(shù)外,所有的MATLAB主包文件和各工具包文件都是對用戶開放的源程序文件,用戶可以通過修改源程序文件來構(gòu)成新的適合自己使用的專用工具包。(3)簡單易學與FORTRAN和C語言等高級語言相比較,MATLAB語法規(guī)則簡單,語言的思維特點更符合人們在實際應(yīng)用中的習慣。(4)豐富的函數(shù)工具箱提供專門的對語音信號進行處理的工具箱。對于比較簡單的和“一次性”的問題,通過在直欞窗中直接輸入一組指令求解是比較簡便、快捷的。但是當待解決問題所需的指令較多而且所用指令結(jié)構(gòu)較復(fù)雜時,或者當一組指令通過改變少量參數(shù)就可以被反復(fù)使用去解決不同問題時,直接在直欞窗中輸入指令的方法就顯得累贅、繁瑣和笨拙。設(shè)計M腳本文件就是用來解決這個矛盾的。M腳本文件是指:(1)對于解決同一個問題,在文件中的指令形式和前后位置與在指令窗中輸入的那組指令毫無任何區(qū)別。(2)MATLAB在運行這個腳本時,簡單地從文件中讀取那一條條指令,然后送到MATLAB中去運行。(3)與在指令窗中直接運行質(zhì)量一樣,腳本文件運行時產(chǎn)生的變量都駐留在MATLAB基本工作空間中。(4)文件的擴展名是“.m”。其具體步驟如下:1)編輯調(diào)試器的開啟在缺省的情況下,M文件編輯器(Editor/Debugger)不隨MATLAB的啟動而開啟,通常只有在編寫M文件時才啟動M文件編輯器窗口。M編輯器有多種功能:不僅可以編寫M文件,而且可以對M文件進行交互式調(diào)試;此外,M文件編輯器不僅可以處理帶.m擴展名的文件,而且可以閱讀和編輯其他ASCII碼的文件。下面介紹M文件編輯器的幾種啟動方法:點擊MATLAB桌面上的“”圖標,或選中菜單項[File:New:M-File],可以打開空白的M文件編輯器。點擊MATLAB桌面上的“”圖標,或選中菜單項[File:Open],可引出Windows平臺上標準的“Open”文件選擇對話框,通過常規(guī)的工具條操作,找到待打開文件所在文件夾,點選那個文件名后,再點擊[打開]鍵,即可引出相應(yīng)文件夾的M文件編輯器。用鼠標左鍵雙擊當前目錄窗口中的所需M文件,可直接引出展示相應(yīng)文件夾的M文件編輯器。2)編輯器使用中的注意事項(1)編輯器的打印效果設(shè)置。具體方法是:選中菜單項[File:Pagesetup],引出一個頁面設(shè)置對話框,該對話框可以對版面布局(Layout)、版頭(Header)、字體(Fonts)等參數(shù)進行設(shè)置?!癓ayout”版面布局子項:選擇“Printheader”,則打印的硬拷貝將會出現(xiàn)頁眉,顯示文件所在的全部路徑、文件建立日期和頁數(shù)?!癏eader”版頭設(shè)置子項:設(shè)置版頭的具體形式包含有版頭的邊界、布局及頁數(shù)的顯示方式等參數(shù)進行設(shè)置。“Fonts”字體設(shè)置子項:如果不點選“Useeditorfont”,那么硬拷貝中的字體可能與編輯器顯示的字體不同,一般情況下硬拷貝中的字體較大。(2)編輯器的段落格式、字體(形式、大小、顏色)、自動保存等都可由用戶自己根據(jù)需要進行設(shè)置。具體方法是:選中菜單項[File:Preferences],引出一個參數(shù)設(shè)置對話框;展開彈出對話框左欄中的“Editor/Debugger”項,出現(xiàn)以下4個子項:“Font&Colors”子項:在對應(yīng)該項的右側(cè)欄中,可以對字體大小、顏色、類型進行設(shè)置?!癉isplay”子項:如果勾選“Enabledatatipsineditmode”,那么當光標移動到該編輯器文件中的某個變量名時,就會出現(xiàn)一個現(xiàn)場菜單,但顯示出該變量內(nèi)容的前提是,改變量已存在于MATLAB的工作空間?!癒eyboard&indenting”子項:對應(yīng)欄用來設(shè)置快捷鍵習慣和文件段落縮進的習慣。“Autosave”子項:編輯器窗口中的文件發(fā)生改動后,文件會自動進行備份。通過該子項中的“Saveoptions”欄,可以設(shè)置自動備份的時間間隔。說明:1.運行M文件的方法有很多種,而最常用的方法是:(1)在指令窗中直接運行M文件名(不帶擴展名);(2)在當前目錄窗中,用鼠標右鍵單擊所要運行的文件,再從引出的現(xiàn)場菜單中選擇[Run]菜單項。2.腳本文件第一行中的注釋文件名一般與實際存放在目錄上的文件名相同。但這樣做的目的僅僅是為了管理上的一致,也為了便于用戶記憶和查詢。事實上,*.m的存放和調(diào)用與注釋行中的名稱并無關(guān)聯(lián)。3.當使用M文件編輯器調(diào)試并保存文件時,或在MATLAB指令窗中運行M文件時,不必寫出文件的擴展名.m。4.在M文件編輯調(diào)試器中,可以用漢字注釋,也可獲得正確顯示。5.注意:在MATLAB中,若發(fā)生漢字輸入困難,可用鼠標右鍵點擊,引出現(xiàn)場菜單;選中“屬性”菜單項,引出“對話框”,或采取在微軟輸入法中選擇“逐鍵指示”,或在智能輸入法中選中“固定”。1.5論文的主要內(nèi)容及其結(jié)構(gòu)本課題研究的主要內(nèi)容和方法如下:根據(jù)識別的需求,分析語音識別技術(shù)的重要性,針對語音識別系統(tǒng)的實用性提出本文研究的目標就是設(shè)計實現(xiàn)一個基于模板匹配識別算法的語音識別系統(tǒng)。對語音識別系統(tǒng)進行設(shè)計研究,針對語音識別的功能需求,對比研究VQ和DTW算法的識別算法,結(jié)合LABVIEW和MATLAB各自優(yōu)點綜合設(shè)計出基于虛擬儀器的語音識別系統(tǒng),用于語音識別功能的進一步研究。本文共分為六個章節(jié),具體結(jié)構(gòu)如下:第一章介紹了語音識別的學科背景與研究的發(fā)展歷程,歷史意義,本設(shè)計的軟件平臺以及本文選題的依據(jù)和內(nèi)容安排。第二章介紹了語音信號的實時采集及預(yù)處理,對語音信號的產(chǎn)生與數(shù)字化進行了分析,并詳細介紹了語音信號的小波消噪及端點檢測以及語音信號的特征提取,其中對當前應(yīng)用較廣泛的MFCC特征參數(shù)提取過程做了詳細的討論。。第三章介紹了語音識別的幾種算法,并對這幾種算法作進一步的研究和改進,選擇一種自認為比較合適的算法用于本次設(shè)計。第四章介紹了非特定人連續(xù)語音識別系統(tǒng)的實現(xiàn)問題,介紹了系統(tǒng)的具體設(shè)計步驟,及其模板的建立與讀取,并對試驗結(jié)果進行了分析。第五章簡單介紹了整個設(shè)計所得出的結(jié)論。第六章總結(jié)與展望,對本文的研究工作進行階段性總結(jié),討論了當前存在的問題和將來可能的研究方向。第二章語音識別基本技術(shù)語音識別基本技術(shù)包括語音信號的預(yù)處理、分幀、加窗和端點檢測等時域和頻域分析。在語音識別系統(tǒng)中主要是采用基于模板匹配識別算法的研究,進行待測語音和模板語音的對比分析,再根據(jù)特定的判定準則得出最終的識別結(jié)果。本章主要介紹語音識別基本技術(shù)。

2.1語音信號的采集2.1.1語音識別系統(tǒng)基本框架語音識別系統(tǒng)一般采用的是模式匹配的原理[8],所以本質(zhì)上是一種模式識別系統(tǒng)。它的基本結(jié)構(gòu)如圖2.1所示,主要分為信號預(yù)處理、特征參數(shù)提取、模式匹配和參考模板庫幾個單元。語音信號是短時平穩(wěn)隨機信號,產(chǎn)生機理非常的復(fù)雜、內(nèi)容較豐富并且有很大的不確定性,這使得語音識別比一般模式識別要困難很多。圖2.1語音識別系統(tǒng)基本結(jié)構(gòu)圖語音識別系統(tǒng)的處理過程從一開始的對語音信號進行采集,即模擬語音信號轉(zhuǎn)化為數(shù)字語音信號,隨機語音經(jīng)過錄音設(shè)備轉(zhuǎn)化為數(shù)字信號(語音信號)輸入到語音識別系統(tǒng)進行識別。對原始語音信號進行抗混疊濾波、去噪聲,預(yù)加重處理和端點檢測;根據(jù)端點檢測得到有效語音信號,對其進行特征參數(shù)提取,較好的特征參數(shù)應(yīng)具備的特點是:(1)特征參數(shù)矢量的各分量之間具有良好的獨立性;(2)特征參數(shù)能有效地代表該語音段,具有良好的區(qū)分度;(3)特征參數(shù)的計算要高效,最好也比較容易實現(xiàn),保證語音識別的實時實現(xiàn)。由于語音信號具有短時平穩(wěn)的特性,所以語音信號的特征參數(shù)都是以一段短時語音信號為單位的,一般短時時間段取值為20ms~30ms之間。對于識別參數(shù)的訓練,根據(jù)識別方法的不同運用不同的訓練方案,參考模板的特征參數(shù)一般是離線計算并存儲起來的,為此,在系統(tǒng)使用前事先要錄入一些已知信號,通過提取它們的特征參數(shù)矢量序列,根據(jù)不同的識別方法進行訓練,作為參考模式,這個過程就叫做訓練過程。識別過程就是通過對輸入的語音信號與參考模板庫中的語音模板進行比較,以特定的測度標準得出的最優(yōu)參考模板作為輸入語音信號的識別結(jié)果輸出,這個就是語音識別的識別全過程。顯然,最佳識別結(jié)果的準確度跟語音模型的好壞、特征參數(shù)的選擇和參考模板是否準確都有直接關(guān)系,這也正是目前語音識別過程中需要解決的一個難點。下面根據(jù)語音識別的過程,分別介紹各個過程的關(guān)鍵技術(shù)和基本理論,預(yù)處理和語音自動分割算法以及三種語音特征參數(shù)提取技術(shù)。

2.1.2語音信號的采集通常語音信號是一種連續(xù)的模擬信號,計算機無法直接對其做數(shù)字化處理,因此需要經(jīng)過一種轉(zhuǎn)換將模擬信號轉(zhuǎn)化成數(shù)字信號,我們把這個過程叫做模/數(shù)轉(zhuǎn)換(A/D轉(zhuǎn)換)。正常人的發(fā)音頻率范圍一般是40Hz到3400Hz左右,根據(jù)奈奎斯特采樣定律(NyquistSamplingTheorem),那么采樣頻率應(yīng)為原始語音頻率的兩倍以上,本次設(shè)計采用8KHz采樣率(G.711標準)。將模擬語音信號轉(zhuǎn)化為數(shù)字語音信號需要聲音采集卡即聲卡的支持,不同聲卡的信噪比存在一定的差異,所以質(zhì)量不同的聲卡采集到的語音信號對系統(tǒng)的識別率也有一定的影響。本文采用筆記本電腦自帶的聲卡進行語音信號的采集,此次設(shè)計采集的語音信號以8KHz,16位,單通道格式錄入存儲,得到需要的*.wav文件。語音信號的采集顯示見圖2.2,其程序框圖如圖2.3所示。圖2.2語音信號采集顯示的前面板圖圖2.3語音信號采集顯示的程序框圖2.1.3語音信號的數(shù)字化語音信號的數(shù)字化一般包括采樣、放大、增益控制、反混疊濾波、A/D變換及編碼。其中反混疊濾波的目的主要有兩個:一方面抑制輸入信號在頻域中的各分量頻率超出f/2的所有分量(人為采樣頻率),以防止混疊產(chǎn)生的干擾;另一方面抑制50Hz的電源產(chǎn)生的工頻干擾。在本設(shè)計中由筆記本自帶的麥克風采集語音信號,接著將采集的語音信號從聲音波形轉(zhuǎn)換成電信號,然后借助模數(shù)轉(zhuǎn)換器選擇合適的采樣率對模擬的聲音信號進行采樣,最后再以一定的量化精度對其進行量化,得到計算機能夠處理的數(shù)字語音信號。為了防止混疊效應(yīng),選擇的采樣頻率必須滿足Nyquist采樣定理,一般用的采樣頻率有fs1=8KHz,fs2=11KHz,fs3=16KHz等,在本設(shè)計中采樣率為8KHz。在將語音信號進行數(shù)字化前,必須先進行防混疊濾波,濾除噪聲或高于1/2采樣率的信號成分。一般模數(shù)轉(zhuǎn)換器和防混疊濾波通常做在一個集成塊內(nèi),就目前來說,從市面上購買到的普通聲卡在這方面做的都還可以,對語音信號進行數(shù)字化的質(zhì)量還是有一定保證的。語音信號的聲波通過麥克輸入到聲卡后就可直接獲得離散的數(shù)字信號,該信號是經(jīng)過防混疊濾波、A/D變換、量化處理的。要將原始語音模擬信號轉(zhuǎn)變成數(shù)字語音信號,一定要經(jīng)過采樣和量化這兩個步驟,從而得到在時間和幅度上均為離散的數(shù)字語音信號。根據(jù)采樣定理,當采樣的頻率大于信號頻率的兩倍帶寬時,采樣的過程中不會丟失信息,利用理想濾波器就可從采樣信號中不失真地重構(gòu)原始語音信號的波形。2.2語音信號預(yù)處理語音信號的預(yù)處理過程一般包括預(yù)加重處理、分幀處理、加窗處理、端點檢測幾個部分,如圖2.4描述了整個預(yù)處理過程。圖2.4語音信號預(yù)處理過程示意圖2.2.1預(yù)加重處理語音信號的平均功率受聲門激勵和口鼻腔輻射的影響,大約在800Hz以上的高頻段,平均功率以6dB/倍頻程下降,所以語音信號高頻部分頻譜比實際語音頻譜要低,因此造成高頻部分的頻譜比低頻部分頻譜更難計算。因此,在對語音信號進行處理之前有必要對其高頻部分進行提升。預(yù)加重是通過數(shù)字濾波器實現(xiàn)的,該數(shù)字濾波器的傳遞函數(shù)為:HZ1z-1(2-1)其中α為預(yù)加重系數(shù),值接近于1,典型值取值為0.9375。其時域表達式為:

(2-2)預(yù)加重的物理意義是,通過數(shù)字濾波增加一個零點,信號的頻譜變得平坦而且各共振峰幅度接近,即高頻部分得到提升,語音中聲道部分得到強化,所提取的特征更能符合原聲道模型,有利于語音信號的識別。圖2.5為預(yù)加重后的語音信號及其頻譜與原始語音信號和頻譜圖。圖中可以看出,預(yù)加重后信號的高頻分量相對低頻分量有明顯的提升。

圖2.5原始信號頻譜與預(yù)加重后數(shù)字5的語音幅頻特性2.2.2分幀、加窗語音信號是一種典型的非平穩(wěn)信號,但是由于發(fā)聲器官的物理結(jié)構(gòu)變化速度遠遠小于語音信號的變化,因此通常我們將語音信號看作是短時平穩(wěn)的,一般認為20ms~30ms內(nèi),聲道物理特征基本保持不變,所以對連續(xù)的語音信號進行分幀然后按幀處理。為了保證特征矢量參數(shù)變換的平滑性,分幀時使幀與幀之間有部分樣本重疊,這樣就可以用平穩(wěn)過程的分析方法來處理非平穩(wěn)的語音信號了。如果用一個數(shù)組表示每一幀語音信號,那么一個連續(xù)的語音信號分幀之后就可以用一個依賴時間的數(shù)組序列來表示。設(shè)原始信號采樣序列為S(m),分幀采用一個窗函數(shù)乘以原始信號并不斷平移得到幀語音序列。窗函數(shù)為w(m),一般形式為:(2-3)其中N為窗長,即每幀語音信號所含有的樣本數(shù)量,ψ[]是在原信號上的某種變換,線性或者非線性,當時,為短時平均能量;當時,為短時平均過零率。加窗的物理意義可以理解為離散信號經(jīng)過一個單位沖擊為{w(m)}的有限沖激響應(yīng)低通濾波器產(chǎn)生的輸出,常用的窗函數(shù)有三種,矩形窗,漢明(Hamming)窗和漢寧(Hanning)窗,其分別定義為:

矩形窗:(2-4)漢明窗:(2-5)漢寧窗:(2-6)其中N為窗長。

由于漢明窗的主瓣較寬而旁瓣幅值較低,能有效地克服窗泄露現(xiàn)象,具有平滑低通特性,因此應(yīng)用廣泛,同時漢明窗可以加強相鄰幀左右兩端的連續(xù)性。在本文后續(xù)章節(jié)中窗函數(shù)均選擇漢明窗。圖2.6為漢明窗的時域波形和頻域圖形。

圖2.6漢明窗時域波形與頻譜圖2.2.3端點檢測語音端點檢測是從一段語音信號中計算真正語音信號的起始點和終止點,來獲得真正語音信號的方法。對于孤立詞識別來說,語音信號端點檢測的正確性直接影響到識別效果。漢語的音節(jié)末尾都是濁音,只用短時平均能量就能較好的判斷一個詞語的末點。實際應(yīng)用中,末點的誤差不會明顯地影響識別結(jié)果。因為大多數(shù)聲母都是清聲母,例如h等,還有送氣與不送氣的賽音和塞擦音,將它們與環(huán)境噪聲分辨是比較困難的,所以漢語語音識別中重點在起始點檢測。端點檢測的準確性對識別的效率和結(jié)果有直接影響[11]。有時一些突發(fā)性的噪聲也有可能引起過零率或短時能量的數(shù)值很高,但這種噪聲不能持續(xù)足夠長的時間。例如物體的碰撞、門窗的開關(guān)等引起的噪聲,這些噪聲都可以通過設(shè)定最短的時間門限來判別。如果當前狀態(tài)處于語音段時,兩個參數(shù)的數(shù)值也降低到低門限以下,且最短時間門限也大于總的計時長度,那么就認為這是一段噪音,繼續(xù)掃描以后的語音數(shù)據(jù)。否則就標記好結(jié)束端點,并返回。圖2.7完整的描述了系統(tǒng)實現(xiàn)端點檢測的程序流程:圖2.7硬件實現(xiàn)端點檢測程序流圖在程序中使用一個變量來表示當前語音信號所處的狀態(tài),整個語音信號的端點檢測一般可以分為四段:靜音段、過渡段、語音段、結(jié)束段。在靜音段,如果過零率或能量超過了低門限,則開始標記為起始點,隨后進入到過渡段。在過渡段,由于參數(shù)的數(shù)值一般比較小,不能確信語音信號是否處于真正的語音段,因此只有當兩個參數(shù)的數(shù)值都回落到低門限以下,那么就將當前狀態(tài)恢復(fù)到靜音狀態(tài)。如果在過渡段中,只要兩個參數(shù)中的任何一個超過了高門限,就可以確信進入真正的語音段了。下面將逐一介紹短時過零率法和能量法。1、端點檢測的短時過零率法首先介紹一下過零率,在一段語音波形中,單位時間內(nèi)信號通過零線的次數(shù)我們就稱為過零率,它可作為信號頻率的一個度量。離散時間情況下,如果相鄰的抽樣具有不同的代數(shù)符號,也就是相鄰抽樣的代數(shù)符號不同就稱為發(fā)生了過零。由于語音信號是寬帶信號,所以采用了短時平均過零率來粗略的估計其譜特性[13]。具體計算公式為:(2-7)其中(2-8)(2-9)語音信號中,清音語音能量大多集中在較高頻率段內(nèi),濁音語音能量大多集中在較低的頻率段內(nèi)(3KHz以下),而頻率的高低又意味著過零率的高低,所以根據(jù)此可以大致判斷出濁音與清音。2、端點檢測的短時能量法語音信號的短時能量反映了語音信號幅度隨時間的變化,計算公式為[12]:(2-10)亦可表示為:(2-11)其中。此式表明,短時能量相當于語音信號平方通過一個單位函數(shù)相應(yīng)為h(n)的線性濾波器的輸出。由于式(2-11)是卷積形式的,因此可以理解為離散信號經(jīng)過一個單位脈沖的FIR低通濾波器產(chǎn)生的輸出。為了使算法簡單化,避免高信號電平對它的干擾,那么短時能量函數(shù)可以用平均幅度函數(shù)來代替[12]。這時,能量的主要意義在于能量函數(shù)可用來大致確定出清音語音變?yōu)闈嵋粽Z音的時刻,可用來區(qū)分有聲與無聲,聲母與韻母。2.3語音信號的特征參數(shù)提取語音信號的特征參數(shù)選取是說話人識別系統(tǒng)中的一個重要部分,不同的語音特征參數(shù)對說話人識別系統(tǒng)性能有不同的影響。由于語音信號中含有能表征說話人語音個性特征的一些信息,并且具有一定的冗余性,因此需要對語音信號進行特征提取,也就是通過運用一定的數(shù)字信號處理技術(shù)將原始的語音信號進行處理后得到一個矢量序列,這個矢量序列可以認為包含了說話人的語音特征信息。在此處理過程中盡可能將對識別有用的信息保留下來同時將那些多余的、易引起識別模糊性的信息去掉,從而實現(xiàn)數(shù)據(jù)的壓縮[16-17]。經(jīng)過這樣的處理,就可以得到說話人的語音特征參數(shù),為下一步說話人識別系統(tǒng)的構(gòu)建做好了鋪墊。若說話人的語音特征參數(shù)不能很好地提取出來,則系統(tǒng)的識別結(jié)果就不理想。近幾年以來,在說話人識別系統(tǒng)中人們用多種特征參數(shù)進行了研究,得到了許多有意義的成果。最為常用在說話人識別中的特征參數(shù)[18]有線性預(yù)測系數(shù)(LPC)及其導(dǎo)出的線性預(yù)測倒譜系數(shù)(LPCC)、由頻譜導(dǎo)出的Mel倒譜系數(shù)(MFCC),倒譜特征是說話人識別中常用的特征之一。LPC就是對于一個語音信號的每個采樣值,都能用過去的若干個采樣值的線性組合來逼近,同時使實際采樣與線性預(yù)測抽樣之間均方誤差最小時解出來的一組系數(shù);線性預(yù)測倒譜系數(shù)是由線性預(yù)測系數(shù)推導(dǎo)得到能夠反映人的聲道特性的系數(shù);美爾倒譜系數(shù)則是端點檢測后的語音信號經(jīng)過美爾濾波器組并進行相關(guān)的變換得到的反映人耳聽覺特性的系數(shù),其反映了語音的靜態(tài)特征,并且該參數(shù)的差分參數(shù)能較好地反映人的語音的動態(tài)特征,將美爾倒譜參數(shù)與其一階或多階差分參數(shù)合并作為說話人的語音特征參數(shù),能更好地表征說話人的語音特征[17]。通常將這種組合參數(shù)用于說話人識別系統(tǒng)中,能得到較好的識別效果。以上三種參數(shù)的特點如表2.1所示,相比之下美爾頻率倒譜系數(shù)有較好的優(yōu)越性。表2.1語音特征參數(shù)比較語音特征參數(shù)特點線性預(yù)測分析(LPC)體現(xiàn)了語音信號的聲道諧振特性,對于聲道響應(yīng)含有零點的清音和濁音描述不確切。線性預(yù)測倒譜系數(shù)(LPCC)去掉了語音產(chǎn)生過程中的激勵信息,主要反映聲道特性,計算量小。對輔音的描述能力較差,抗噪性能較弱。美爾頻率倒譜系數(shù)(MFCC)基于人耳的聽覺特性,在低頻段具有較高的譜分辨率,計算簡單,區(qū)分能力和抗噪能力好。2.3.1美爾頻率倒譜參數(shù)及提取方法美爾頻率倒譜參數(shù)(MFCC)充分利用聽覺原理和倒譜的解相關(guān)特性,將語音通過傅里葉變換成頻譜再轉(zhuǎn)換為Mel頻率下的非線性頻譜,以便更好地模擬人的聽覺系統(tǒng)[16]。這種提取方法非常簡單,使用方便。因為人的聽覺系統(tǒng)是一個很好的語音識別系統(tǒng),對不同頻率的聲音有較好的分辨能力,而MFCC又是基于人耳聽覺特性的參數(shù),能夠充分利用人耳這種感知特性并結(jié)合語音產(chǎn)生機理,在說話人識別系統(tǒng)中得到了廣泛的應(yīng)用。美爾頻率參數(shù)提取過程為[17-18]:經(jīng)過端點檢測后的語音信號,首先經(jīng)過快速傅里葉變換(FFT)得到語音信號的頻譜,對頻譜取模求平方得到語音信號的能量譜,為了壓縮語音譜的動態(tài)范圍,讓能量譜通過Mel濾波器組進行濾波,再對濾波后的功率譜進行對數(shù)操作,使得功率譜的乘性成份變成加性成份,便于濾除乘性噪聲,最后再進行離散余弦變換(DCT)求出倒譜,這樣得到L個MFCC系數(shù),L是濾波器的個數(shù),一般取12到16個左右,這樣便得到了MFCC參數(shù),其具體提取過程如圖2.8所示,其中x(n)是預(yù)處理后的語音信號。圖2.8Mel倒譜系數(shù)的提取2.3.2差分倒譜系數(shù)提取方法圖2.8是計算MFCC最常用的算法,得到的是反映語音靜態(tài)特征的參數(shù),可是語音的動態(tài)特性更容易被人耳接受,差分倒譜就能更好地反映語音動態(tài)特性[19-20],其計算公式如式(2-12)。(2-12)式中c、d為一幀語音的參數(shù),k一般取常數(shù)2,用(2-12)式求得的參數(shù)就是美爾頻率倒譜一階差分參數(shù)[13],將n階差分參數(shù)帶入(2-12)式計算就得到n+1階差分參數(shù),實際應(yīng)用中根據(jù)需要計算多階差分參數(shù)。于是常將靜態(tài)參數(shù)和動態(tài)參數(shù)合并作為說話人識別的特征參數(shù),這樣語音幀之間的相關(guān)性能較好地消除掉,為說話人識別系統(tǒng)的創(chuàng)建提供了良好的基礎(chǔ)。文中通過編寫MATLAB程序來實現(xiàn)特征參數(shù)的提取,程序中包含了MFCC參數(shù)及其一階差分參數(shù)的提取,并且將這兩種參數(shù)進行了合并,作為語音特征參數(shù)輸出。具體參數(shù)設(shè)置為:幀長512,幀移256,濾波器的個數(shù)為12,采樣頻率44100Hz,并去除了首尾各兩幀,因為這兩幀的一階差分為零,這樣就得到了24維的語音特征向量,將其作為一幀語音信號的參數(shù)。例如某一說話人的5幀語音信號數(shù)據(jù)進行特征參數(shù)提取,每幀為24個特征向量,其中前12個為MFCC參數(shù),后12個為MFCC參數(shù)的一階差分參數(shù),這樣總共得到了120個特征向量,在LABVIEW平臺上通過調(diào)用MATLAB節(jié)點進行參數(shù)提取,運行后的結(jié)果截圖如圖2.9所示。圖2.9說話人的美爾特征參數(shù)提取部分截圖說話人的原始語音信號經(jīng)過上述兩大部分的相關(guān)處理后,得到了包含說話人語音特征的多個特征向量,這些向量之間有一定的相關(guān)性,能更好地表征說話人的語音特性,為說話人識別系統(tǒng)的建立奠定了基礎(chǔ)。第三章語音識別算法一般來說,語音識別的方法有三種:基于模板匹配的方法、語音學和聲學的方法以及人工神經(jīng)網(wǎng)絡(luò)的方法[40]。3.1模板匹配的方法目前,語音識別的方法有很多,其中發(fā)展比較成熟的有模板匹配的方法,現(xiàn)己達到了實用的階段。在運用模板匹配方法的時候,一般要經(jīng)過四個步驟:特征提取、模板分類、模板訓練和判決。常用的技術(shù)有5種[41]:隱馬爾科夫(HMM)理論、動態(tài)時間規(guī)整(DTW)、矢量量化(VQ)和混合高斯模型(GMM)等技術(shù)、混合型算法。模板匹配法是模式識別中最為常用的一種相似度計算與匹配方法。如果考慮把具有不同內(nèi)容的語音經(jīng)過某種轉(zhuǎn)換以后作為不同的模板,則可以構(gòu)建一個基于模板匹配的簡單的語音識別系統(tǒng)。3.1.1動態(tài)時間規(guī)整算法DTW語音信號的端點檢測是進行語音識別中的一個基本步驟,它是特征訓練和識別的基礎(chǔ)。所謂端點檢測就是在語音信號中檢測出的各種段落(如音素、音節(jié)、詞素)的起點和終點的位置,從語音信號中排除無聲段。在早期,進行端點檢測的主要依據(jù)是能量、振幅和過零率。但效果往往不明顯。60年代提出的動態(tài)時間規(guī)整算法(DTW:DynamicTimeWarping)。DTW是采用一種最優(yōu)化的算法—動態(tài)規(guī)整法,算法的思想就是把未知量均勻的增大或縮短,直到與參考模式的長度一致。在這一過程中,未知單詞的時間軸要不均勻地扭曲或彎折,以使其特征與模型特征對齊(即時間規(guī)整),并在兩者之間不斷的進行兩個矢量距離最小的匹配路徑計算,從而獲得兩個矢量匹配時累積距離最小的規(guī)整函數(shù)。這是一個將時間規(guī)整和距離測度有機結(jié)合在一起的非線性規(guī)整技術(shù),保證了待識別特征與模板特征之間最大的聲學相似特性和最小的時差失真,是成功解決模式匹配問題最早和最常用的方法。在實現(xiàn)小詞匯孤立詞語音識別系統(tǒng)時,其識別率和其它指標與用HMM算法實現(xiàn)的差不多等同。動態(tài)時間規(guī)整(DynamicTimeWarping)是語音識別中較為經(jīng)典的一種算法,又由于DTW算法其本身既簡單又有效,因此在許多特定的場合下得到了廣泛的應(yīng)用。本小節(jié)介紹了DTW算法的基本原理,通過對語音識別數(shù)學模型的研究,主要對DTW算法的實用性進行了少許的改進,實現(xiàn)了語音控制媒體播放系統(tǒng)中指令的語音識別。為了進行相似性度量,將特征模板庫中的各個模板稱之為參考模板,用R表示;將待識別的輸入語音經(jīng)過預(yù)處理以及特征提取以后得到的特征矢量序列稱之為測試模板,用T表示。參考模板可以表示為:,其中M為參考模板所包括的語音幀的總數(shù),m為語音幀的時序標號,R(m)為第m幀的語音特征矢量。測試模板可以表示為:,其中N為測試模板中語音幀數(shù),n為幀標號,T(n)為第n幀的特征矢量。計算待識別語音模板與參考模板之間的相似程度,可以通過計算它們之間的失真來得到,相似度越高失真就越小。參考模板R和測試模板T之間的總體失真為D[T,R]。為了計算他們之間的失真,應(yīng)該從T,R中的每個對應(yīng)幀之間的失真算起,假設(shè)n,m分別為T,R中任意選擇的幀號,則這兩幀之間的幀失真用D[T(n),R(m)]來表示,對于特征矢量之間的失真度,有多種度量方法。為了簡單和便于處理,通常適用歐氏距離(歐基里德距離)或其變形來進行度量。綜合考慮到服務(wù)對象、詞表大小、工作環(huán)境、發(fā)音方式等許多因素,以及孤立詞語音識別系統(tǒng)對響應(yīng)、運算量和造價不應(yīng)過高的要求,本文采用了DTW算法為核心的識別算法來實現(xiàn)仿真系統(tǒng)。3.1.2隱馬爾可夫模型法HMM隱馬爾可夫模型法(HiddenMarkovModelHMM)是70年代引入語音識別理論的,它的出現(xiàn)使得自然語音識別系統(tǒng)取得了實質(zhì)性的突破。HMM方法現(xiàn)已成為語音識別的主流技術(shù),目前大多數(shù)大詞匯量、連續(xù)語音的非特定人語音識別系統(tǒng)都是基于HMM模型的。根據(jù)隨機函數(shù)的不同特點HMM模型可以分為離散HMM(DHMM)、連續(xù)HMM(CHMM)和半連續(xù)HMM(SCHMM)以及基于段長分布的HMM(DDBHMM)等類型。其中:CHMM的識別率雖高,但計算量大,其典型就是BellLad的語音識別系統(tǒng);DHMM識別率略低些,但計算量最小,IBM公司的ViaVoice中文語音識別系統(tǒng),就是該技術(shù)的成功典范;SCHMM的識別率和計算量則居中,其典型產(chǎn)品就是美國著名的SPHINX語音識別系統(tǒng);而DDBHMM是對上述經(jīng)典HMM方法的修正,計算量雖大,但識別率最高。HMM是一個雙重隨機過程,一個隨機過程描述狀態(tài)的轉(zhuǎn)移,另一個隨機過程描述狀態(tài)和觀察值之間的統(tǒng)計對應(yīng)關(guān)系。它用概率統(tǒng)計的方法來描述時變信號的過程。在該模型中,馬爾可夫鏈中的一個狀態(tài)轉(zhuǎn)移到另一個狀態(tài)與否取決于該狀態(tài)的統(tǒng)計特性(或狀態(tài)轉(zhuǎn)移概率),而某一狀態(tài)產(chǎn)生的觀察值也取決于該狀態(tài)生成語音觀察值的概率(狀態(tài)生成概率)。這樣,站在觀察者的角度,只能看到觀察值,不像Markov鏈模型中的觀察值和狀態(tài)一一對應(yīng),因此,不能直接看到狀態(tài),而只能通過一個隨機過程感知狀態(tài)的存在及其特性。因而稱為“隱”Markov鏈模型,即HMM。HMM可分為兩部分,一個是Markov鏈產(chǎn)生的輸出為狀態(tài)序列。另一個是一個隨機過程產(chǎn)生的輸出為觀察值序列。3.1.3高斯混合模型法GMM自80年代以來,隱馬爾科夫模型(HMM)被廣泛地用來描述語音信號在特征空間的分布。T.Matsui的研究表明基于連續(xù)HMM的與文本無關(guān)的說話人識別系統(tǒng)的識別率取決于模型中的混合分量的個數(shù),而與HMM中的狀態(tài)數(shù)無關(guān)[44]。所以可用就有一個狀態(tài)的特殊的連續(xù)HMM為與文本無關(guān)的說話人識別系統(tǒng)中的說話人建模,這種模型就是高斯混合模型(GuassianMixrureModel,GMM)。在基于GMM的說話人識別系統(tǒng)中,訓練階段首先用高斯混合模型為系統(tǒng)中的每個說話人建立概率模型;在識別階段,利用系統(tǒng)中所有人的GMM模型計算待識別矢量積的對數(shù)似然函數(shù),根據(jù)最大似然準則做出判決。GMM系統(tǒng)訓練簡單,它既不需要經(jīng)過正字法標音也無需音標標注的訓練數(shù)據(jù):識別過程采用最大似然比準則。然而在實際應(yīng)用中它的識別效果不太好,主要原因是:(1)提取的特征不能很好的代表各種語言固有的、獨特的特性,不同語種的特征空間重復(fù)較大,因而導(dǎo)致后端模型的識別效果不夠理想;(2)由于模型的建立原則是基于大數(shù)定理,因此,需要大規(guī)模的訓練樣本參與建模,這樣一來訓練時間過長,工程上難以接受,一般不采用這種方法。3.1.4矢量量化VQ矢量量化(VectorQuantization)是一種重要的信號壓縮方法。與HMM相比,矢量量化主要適用于小詞匯量、孤立詞的語音識別中。其過程是:將語音信號波形的k個樣點的每一幀,或有k個參數(shù)的每一參數(shù)幀,構(gòu)成k維空間中的一個矢量,然后對矢量進行量化。量化時,將k維無限空間劃分為M個區(qū)域邊界,然后將輸入矢量與這些邊界進行比較,并被量化為“距離”最小的區(qū)域邊界的中心矢量值[45]。矢量量化的基本原理是:將語音數(shù)據(jù)中提取的特征矢量在多維空間給與整體量化。設(shè)有N個K維特征矢量(X在K維歐幾里德空間中),其中第i個矢量可以記為:(3-1)它可以被看作是語音信號中某幀參數(shù)組成的矢量。把K維歐幾里德空間無遺漏的劃分為J個互相交的子空間,即滿足:(3-2)這些子空間稱為Voronoi胞腔(Cell),簡稱為胞腔。在每一個子空間找一個代表矢量,則J個代表矢量可以組成矢量集為:(3-3)這樣就組成了一個矢量量化器,在矢量量化里,Y叫作碼書或碼本(CodeBook);稱為碼矢(CodeVector)或碼字(CodeWord);Y內(nèi)矢量的個數(shù)J,則叫做碼本長度或碼本尺寸(CodebookSize)[46]。不同的劃分或不同的代表矢量選取方法可以構(gòu)成不同的矢量量化器。矢量量化器的設(shè)計就是從大量信號樣本中訓練出好的碼書,從實際效果出發(fā)尋找到好的失真測度定義公式,設(shè)計出最佳的矢量量化系統(tǒng),用最少的搜索和計算失真的運算量,實現(xiàn)最大可能的平均信噪比。核心思想可以這樣理解:如果一個碼書是為某一特定的信源而優(yōu)化設(shè)計的,那么由這一信息源產(chǎn)生的信號與該碼書的平均量化失真就應(yīng)小于其他信息的信號與該碼書的平均量化失真,也就是說編碼器本身存在區(qū)分能力。由于碼字的序號是矢量量化技術(shù)中存貯和傳輸?shù)闹饕獏?shù),因此,具有高效的數(shù)據(jù)壓縮性能和信息保密性能,不足之處是訓練過程中的計算方法復(fù)雜且計算量過大。因此,真正應(yīng)用于語音識別的是改進后的有限狀態(tài)矢量量化(FSVQ)技術(shù)和帶學習功能的矢量量化(LVQ2)技術(shù),其中,F(xiàn)SVQ的計算量小,而且利用了狀態(tài)轉(zhuǎn)移函數(shù),根據(jù)上一次的狀態(tài)和量化結(jié)果來確定下一個量化狀態(tài),適用于與上下文有關(guān)的語音識別;LVQ2利用其自適應(yīng)性的學習功能進行碼書優(yōu)化,即在一定條件下,將錯誤的參考矢量移到遠離輸入矢量的地方,而將正確的參考矢量移到離輸入矢量更近的地方,從而提高識別率[47]。FSVQ和LVQ2技術(shù)在孤立詞和連續(xù)語音的漢語語音識別中也得到應(yīng)用,但沒有DTW技術(shù)和HMM技術(shù)普遍。3.1.5混合型算法由于漢語的特殊性和復(fù)雜性,單一模式識別的識別率往往受到一定的限制。為了提高識別率,將不同的識別模式結(jié)合起來構(gòu)成混合型模式識別的漢語語音識別系統(tǒng)是目前研究的一個方向,其主要應(yīng)用有:動態(tài)時間規(guī)整法與隱馬爾可夫模型法混合的DTW-HMM模式、矢量量化法與隱馬爾可夫模型法混合的VQ-HMM模式、隱馬爾可夫模型法級聯(lián)式和多層決策樹式的HMM-HMM模式[48]。IBM公司的ViaVoice中文語音識別系統(tǒng)就是VQ-HMM混合模式的典范,類似的國內(nèi)產(chǎn)品還有方正友文系統(tǒng)和Dutty++語音識別系統(tǒng)。由于獨立的人工神經(jīng)網(wǎng)普遍存在著時間規(guī)整問題和訓練過程復(fù)雜、識別時間過長等缺點,因此,如何與傳統(tǒng)的方法相結(jié)合,形成優(yōu)勢互補的ANN與DTW、ANN與VQ和ANN與HMM混合的新型漢語語音識別技術(shù),以有效解決漢語語音識別中同音字多、聲調(diào)不明、界限不清、新詞不斷出現(xiàn)等諸多與其它語言語音識別所不同的特殊難題,己成為ANN法漢語語音識別系統(tǒng)的研究方向。3.2基于聲學和語音學的方法雖然這種方法起步比較早,在語音識別技術(shù)剛剛提出的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論