基于Matlab的語音識別系統(tǒng)的設計_第1頁
基于Matlab的語音識別系統(tǒng)的設計_第2頁
基于Matlab的語音識別系統(tǒng)的設計_第3頁
基于Matlab的語音識別系統(tǒng)的設計_第4頁
基于Matlab的語音識別系統(tǒng)的設計_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、摘要語音識別主要是讓機器聽懂人說的話,即在各種情況下,準確地識別出語音的內(nèi)容,從而根據(jù)其信息執(zhí)行人的各種意圖。語音識別技術既是國際競爭的一項重要技術,也是每一個國家經(jīng)濟發(fā)展不可缺少的重要技術支撐。本文基于語音信號產(chǎn)生的數(shù)學模型,從時域、頻域出發(fā)對語音信號進行分析,論述了語音識別的基本理論。在此基礎上討論了語音識別的五種算法:動態(tài)時間伸縮算法(Dynamic Time Warping , DTW) 、 基于規(guī)則的人工智能方法、人工神經(jīng)網(wǎng)絡(Artificial Neural Network , ANN) 方法、隱馬爾可夫(Hidden Markov Model ,HMM) 方法、HMM 和 AN

2、N 的混合模型。重點是從理論上研究隱馬爾可夫(HMM) 模型算法,對經(jīng)典的HMM 模型算法進行改進。語音識別算法有多種實現(xiàn)方案,本文采取的方法是利用Matlab 強大的數(shù)學運算能力,實現(xiàn)孤立語音信號的識別。Matlab 是一款功能強大的數(shù)學軟件,它附帶大量的信號處理工具箱為信號分析研究,特別是文中主要探討的聲波分析研究帶來極大便利。本文應用隱馬爾科夫模型(HMM) 為識別算法,采用MFCC(MEL 頻率倒譜系數(shù))為主要語音特征參數(shù),建立了一個漢語數(shù)字語音識別系統(tǒng),其中包括語音信號的預處理、特征參數(shù)的提取、識別模板的訓練、識別匹配算法;同時,提出利用Matlab 圖形用戶界面開發(fā)環(huán)境設計語音識別

3、系統(tǒng)界面,設計簡單,使用方便,系統(tǒng)界面友好。經(jīng)過統(tǒng)計,識別效果明顯達到了預期目 標。關鍵詞 :語音識別算法;HMM 模型; Matlab; GUIABSTRACTSpeech Recognition is designed to allow machines to understand what people say,and accurately identify the contents of voice to execute the intent of people.Speech recognition technology is not only an important interna

4、tionally competed technology,but also an indispensable foundational technology for the national economic development.Based on the mathematical model from the speech signal,this paper analyze audio signal from the time domain,frequency domain proceeding,and discussed the basic theory of speech recogn

5、ition technology.Five algorithm are discussed:Dynamic Time Warping(DTW) 、 Rule-based Artificial Intelligence,Artificial Neural Network(ANN),Hidden Markov Model(HMM),HMM combined with ANN.The focus is put in the theoretical studies of Hidden Markov(HMM) model algorithm,and the classical HMM algorithm

6、 is improved.Speech recognition algorithm is realized in various programs,this article taking the method is to use Matlab powerful mathematical operation ability to realize the recognition of speech signal isolation. Matlab is a powerful mathematic software with a mass of toolboxes dealing with sign

7、al processing. It gives a terrific shortcut to the research of signal processing,especially the wave analysis. We can characterize the sound with key parameters such as intensity, frequency etc. In this paper, hidden Markov model (HMM) recognition algorithm using MFCC (MEL frequency cepstral coeffic

8、ients) as the main voice characteristic parameters, the establishment of a Chinese digital speech recognition system, including the preprocessing of the speech signal,the extraction of characteristic parameters the training of the recognition template,identifying matching algorithm;the same time,the

9、 use of Matlab graphical user interface development environment designed speech recognition system interface,is designed to be simple,easy to use,friendly interface. Besides,to have a simple exploration of the voice recognition is another target.After statistics,recognition result obviously is made

10、out as the expected goal.Key words: Speech recognition algorithm ; HMM model ; Matlab ; GUI3一、前言11.1 語音識別的發(fā)展歷史11.2 語音識別研究現(xiàn)狀11.3 語音識別系統(tǒng)的分類21.4 語音識別系統(tǒng)的基本構成31.5 語音識別技術難點31.6 語音識別發(fā)展前景442.1 語音學知識42.1.1 音素和音節(jié)52.1.2 漢語的聲調(diào)52.1.3 語音信號產(chǎn)生模型62.2 語音信號數(shù)字化和預處理72.2.1 數(shù)字化 72.2.2 預加重處理 72.2.3 防混疊濾波 82.2.4 加窗處理 82.3 語

11、音信號的時域分析92.3.1 短時能量分析92.3.2 短時平均過零率 112.3.3 短時自相關函數(shù)和短時平均幅度差函數(shù) 122.3.4 語音端點檢測 132.4 語音信號的頻域分析 142.4.1 濾波器組法 142.4.2 傅立葉頻譜分析 142.5 特征參數(shù)提取 152.5.1 LPCC 倒譜系數(shù) 152.5.2 Mel頻率倒譜系數(shù)16173.1 動態(tài)時間伸縮算法 173.2 基于規(guī)則的人工智能方法 183.3 人工神經(jīng)網(wǎng)絡方法 193.4 隱馬爾可夫方法 203.5 HMM和ANN的混合模型 21234.1 HMM的基本理論和數(shù)學描述234.2 HMM的三個基本問題及解決算法244.

12、3 HMM算法的改進314.4 HMM的結構和類型 334.5 HMM算法實現(xiàn)的問題 34五、基于Matlab 環(huán)境下的語音識別算法實現(xiàn)355.1 識別系統(tǒng)平臺介紹 355.2 在 Matlab中HMM算法的實現(xiàn) 365.2.1 端點檢測 365.2.2 特征參數(shù)提取 365.2.3 訓練和識別 375.3 實驗結論分析 38六、結束語396.1 回顧 396.2 展望 39七、致謝40參考文獻40河南理工大學畢業(yè)設計(論文)說明書1.1 語音識別的發(fā)展歷史作為智能計算機研究的主導方向和人機語音通信的關鍵技術,語音識別技術一直受到各國科學界的廣泛關注。以語音識別開發(fā)出的產(chǎn)品應用領域非常廣泛,有

13、聲控電話交換、語音撥號系統(tǒng)、信息網(wǎng)絡查詢、家庭服務、賓館服務、旅行社服務系統(tǒng)、訂票系統(tǒng)、聲控智能玩具、醫(yī)療服務、銀行服務、股票查詢服務、計算機控制、工業(yè)控制、語音通信系統(tǒng)、軍事監(jiān)聽、信息檢索、應急服務、翻譯系統(tǒng)等,幾乎深入到社會的每個行業(yè)、每個方面,其應用和經(jīng)濟社會效益前景非常廣泛。因此語音識別技術既是國際競爭的一項重要技術,也是每一個國家經(jīng)濟發(fā)展不可缺少的重要技術支撐。研究語音識別,開發(fā)相應的產(chǎn)品有著廣泛的社會意義和經(jīng)濟意義。語音識別中的說話人辨認的研究始于20 世紀 30 年代。 早期的工作主要集中在人耳聽辨試驗和探討聽音識別的可能性方面。Bell 實驗室的L G Kesta 目視觀察語譜

14、圖進行識別,提出了“聲紋 (Voiceprint) ”的概念。 Bell 實驗室的S Pruzansky 提出了模版匹配和概率統(tǒng)計方差分析的聲紋識別方法,形成了聲紋識別研究的一個高潮。60 年代末和70年代初語音識別最重要的發(fā)展是語音信號線性預測編碼(LPC) 技術和動態(tài)時間規(guī)整(DTW)技術, 有效地解決了語音的特征提取和時間不等長匹配問題,對特定人的語音識別十分有效。研究特點是以孤立字語音識別為主,通常把孤立字作為一個整體來建立模板。80 年代,語音識別研究的重點之一是連接詞語音識別,開發(fā)了各種連接詞語音識別和關鍵詞識別算法,如多級動態(tài)規(guī)劃語音識別算法。另一個重要發(fā)展是語音識別算法從模板匹

15、配技術轉向基于統(tǒng)計模型技術。1.2 語音識別研究現(xiàn)狀20 世紀 90 年代后,在細化模型的設計、參數(shù)提取和優(yōu)化,以及系統(tǒng)的自適應技術上取得了一些關鍵進展。語音識別技術進一步成熟,并開始向市場提供產(chǎn)品。由于中國的國際地位不斷提高,以及在經(jīng)濟和市場方面所處的重要地位,漢語語音識別也越來越受到重視。IBM、 Microsoft 、 L&H等公司相繼投入到漢語語音識別系統(tǒng)的開發(fā)中,其投資也逐年增加。 IBM開發(fā)的 Viavoice 和 Microsoft 開發(fā)的中文識別引擎代表了當前漢語語音識別的最高水平。臺灣的一些大學和研究所也開發(fā)出大詞匯量非特定人連續(xù)語音識別演示系統(tǒng)。日本也先后在語音識別領域大展

16、頭角,還有如Philips 公司開發(fā)的Speech Media 和 SpeechPearl 兩套軟件,涵蓋了自然語音識別與理解的對話系統(tǒng)。我國語音識別研究工作近年來發(fā)展很快,同時也從實驗室逐步走向實用。從1987 年開始執(zhí)行863 計劃后,國家863智能計算機主題專家組為語音識別研究立項。每兩年滾動一次,從1991 年開始,專家組每一至二年舉行一次全國性的語音識別系統(tǒng)測試。漢語語音識別研究已經(jīng)走上組織化的道路。目前我國大詞匯量連續(xù)語音識別系統(tǒng)的研究已經(jīng)接近國外最高水平。語音識別發(fā)展到一定階段,世界各國都加快了語音識別引用系統(tǒng)的研究開發(fā),通常連續(xù)語音是含有較完整語法信息的連續(xù)語句,最接近于人的自

17、然講話方式,從非連續(xù)語音到連續(xù)語音的研究面臨著很多完全不同的技術難點,非連續(xù)語音的識別是一些孤立的聲波片段,連續(xù)語音則面臨著如何切分聲波的問題。諸如此類的新問題使連續(xù)語音識別率的提高比非連續(xù)語音更加困難。經(jīng)過幾十年的發(fā)展和摸索,人們終于在實驗室突破了大詞匯量、連續(xù)語音和非特定人這三大障礙,第一次把這三個特性一起集中于一個系統(tǒng)中,并以此確定了統(tǒng)計方法和模型在語音識別和語音處理中的主流地位。在聲學識別層次,以多個說話人發(fā)音的大規(guī)模語音數(shù)據(jù)為基礎,以馬爾可夫鏈為基礎的語音序列建模方法HMM隱含馬爾可夫模型()比較有效的解決了語音信號短時穩(wěn)定、長時時變的特性,并且能根據(jù)一些基本建模單元構造成連續(xù)語音的

18、句子模型,達到了比較高的建模精度和建模靈活性。目前在語音識別研究領域非?;钴S的課題為穩(wěn)健語音識別、說話人自適應技術、大詞匯量關鍵詞識別算法、語音識別的可信度評測算法、基于類的語言模型和自適應語言模型,以及深層次的自然語音的理解。研究的方向也越來越側重于口語對話系統(tǒng)。1.3 語音識別系統(tǒng)的分類語音識別是近年來十分活躍的一個研究領域。在不遠的將來,語音識別技術有可能作為一種重要的人機交互手段,輔助甚至取代傳統(tǒng)的鍵盤、鼠標等輸入設備,在個人計算機上進行文字錄入和操作控制。本文介紹了語音識別的基本流程、所用到的語音參數(shù)算法、語音識別的訓練算法和識別算法做初步的探究,主要運用了特定人孤立詞識別的DTW算

19、法和非特定人識別的連續(xù)HMM算法的Matlab 識別系統(tǒng)。語音識別按說話人的講話方式可分為孤立詞(IsolatedWord)識別、連接詞 (ConnectedWord)識別和連續(xù)語音(Continuous Speech) 識別。孤立詞識別是指說話人每次只說一個詞或短語,每個詞或短語在詞匯表中都算作一個詞條,一般用在語音電話撥號系統(tǒng)中。連接詞語音識別支持一個小的語法網(wǎng)絡,其內(nèi)部形成一個狀態(tài)機,可以實現(xiàn)簡單的家用電器的控制,而復雜的連接詞語音識別系統(tǒng)可以用于電話語音查詢、航空定票等系統(tǒng)。連續(xù)語音識別是指對說話人以日常自然的方式發(fā)音,通常特指用于語音錄入的聽寫機。顯然,連續(xù)非特定人語音識別的難度要大

20、得多,因為不僅有說話人口音的問題,還有協(xié)同發(fā)音、斷字斷句、搜索等問題,除了考慮語音的聲學模型外還要涉及到語言模型,如構詞法、文法等。從識別對象的類型來看,語音識別可以分為特定人(Speaker Dependent) 語音識別和非特定人(Speaker Independent) 語音識別。特定人是指只針對一個用戶的語音識別,非特定人則可用于不同的用戶。實際上,非特定人語音識別的初始識別率往往都比較低,一般都要求用戶花一定的時間對系統(tǒng)進行訓練,將系統(tǒng)的參數(shù)進行一定的自適應調(diào)整,才能使識別率達到滿意的程度。非特定人大詞表連續(xù)語音識別是近幾年研究的重點,也是研究的難點。目前的連續(xù)語音識別大多是基于HM

21、M隱馬爾可夫模型()框架,并將聲學、語言學的知識統(tǒng)一引入來改善這個框架,其硬件平臺通常是功能強大的工作站或PC機。1.4 語音識別系統(tǒng)的基本構成語音識別系統(tǒng)的典型實現(xiàn)方案為:輸入的模擬語音信號首先要進行預處理,包括預濾波、采樣和量化、加窗、端點檢測、預加重等。語音信號經(jīng)預處理后,接下來很重要的一環(huán)就是特征參數(shù)提取。對特征參數(shù)的要求是:1 ,提取的特征參數(shù)能有效地代表語音特征,具有很好的區(qū)分性。2,各階參數(shù)之間有良好的獨立性。3,特征參數(shù)要計算方便,最好有高效的計算方法,以保證語音識別的實時實現(xiàn)。在訓練階段,將特征參數(shù)進行一定的處理之后,為每個詞條得到一個模型,保存為模版庫。在識別階段,語音喜好

22、經(jīng)過相同的通道得到語音參數(shù),生成測試模版,與參考模版進行匹配,將匹配分數(shù)最高的參考模版作為識別結果。同時還可以在很多先驗知識的幫助下,提高識別的準確率。1.5 語音識別技術難點雖然語音識別已突破了最初對技術的檢驗階段,而進入通過對話及系統(tǒng)形象的設計,建立用戶喜愛的應用系統(tǒng)時期。然而語音技術本身仍在不斷進步,為市場提供更新更好的應用模式和技術。目前,技術及應用的焦點主要集中在三個方面。首先,帶口音(Dialect) 語音的識別。首先要明確的是,口音是指同一種語言在不同地區(qū)的發(fā)音有所不同,與同一地區(qū)( 例如中國) 的不同方言是有區(qū)別的。例如,中國的八大方言多屬于與普通話( 北方語系)不同的語系。也

23、就是說是有別于普通話的不同的語言,應該用不同的聲學模型來描述。而對于口音的適應性首先是由聲學模型本身的品質(zhì)決定的。對某一種口音,語言的聲學模型的適應性決定了基礎識別率,而在此基礎上的優(yōu)化和模型適應方案則提供了很好的解決方案。例如 Nuance公司, 作為擁有最大市場和最多用戶的公司,也擁有最多的用戶語音數(shù)據(jù),保證了它極高的基礎識別率。此外,該公司的系統(tǒng)優(yōu)化工具為所有系統(tǒng)提供一個實用、有效的優(yōu)化方法。優(yōu)化過程對所有系統(tǒng)的表現(xiàn)都會有提高,也可以解決小范圍的口音問題。而針對嚴重的口音問題,它的聲學模型適應機制提供了很好的解決方案,可以使系統(tǒng)的識別率有很大改善。焦點之二是背景噪音。人多的公共場所巨大的

24、噪音對語音識別的影響自不用說,早期即使在實驗室環(huán)境下,敲擊鍵盤、挪動麥克風都會成為背景噪音。它將破壞原始語音的頻譜,或者把原始語音部分或全部掩蓋掉,造成識別率下降。實際應用中,噪音是無法避免的。研究將要解決的問題就是如何把原始語音從背景噪音中分離出來,即所謂提高音質(zhì)(speech enhancement) 或減噪 (noise reduction) 的預處理。這將會使識別系統(tǒng)具有很強的適應性。在這方面,Nuance優(yōu)化的語音參數(shù)、靈活的模型結構、新的建模方法以及獨有的噪音抑制功能,使得系統(tǒng)在背景環(huán)境噪聲、手機、車載免提等高噪音環(huán)境下能保持良好的工作狀況。第三個就是“口語”的問題。這就是用戶說話

25、的自由度問題。它既涉及到自然語言理解,又與聲學有關。語音識別技術的最終目的是要讓用戶在“人機對話”的時候,能夠像進行“人人對話”一樣自然。而一旦用戶以跟人交談的方式來進行語音輸入時,口語的語法不規(guī)范和語序不正常的特點會給語義的分析和理解帶來困難。你也許接觸到一些語音軟件聲稱是可以做到自然語言識別,而在這方面真正有實用商業(yè)系統(tǒng)的只有Nuance 公司。Nuance的最新版識別軟件所提供的“隨意說 (Say anything) ”技術,使用戶可以以自然的語言說出自己的需求。例如, “我對我的手機上的一些功能不太明白, 想問一下”, 或者 “嗯,我的賬單應該到期了,請幫我查一下要交多少錢”。它為用戶

26、提供了一種像“人人對話”的自然語音交互界面,這種更加友善的界面允許一般對話時的一些行為,如停頓及不完全的語句等。1.6 語音識別發(fā)展前景語音技術是目前世界上最熱門和最具有發(fā)展前景的技術之一。從某種意義上說,語音識別是將計算機變成真正的“智能化”設備的最佳途徑。語音作為當前通訊系統(tǒng)中最自然的通信媒介,隨著計算機和語音處理技術的發(fā)展,不同語種之間的語音翻譯將成為語音研究的熱點。自然語音數(shù)據(jù)庫的設計:語音特征的提??;利用語音料庫進行聲學模型訓練的研究;適應說話人聲學模型的研究;語音識別算法的研究:語言翻譯和對話處理的研究等成為語音技術的熱點方向。語音識別研究的另一個發(fā)展方向是人體語言與口語相結合的多

27、媒體人機交互。目前這種采用聲覺、視覺兩種信息融合進行識別的研究在全球范圍內(nèi)己經(jīng)展開,成為語音識別研究的重要發(fā)展方向和研究熱點之一。一位業(yè)界的資深人士對IT 產(chǎn)業(yè)發(fā)展的提出的八大預言之一即為:語音成為新人機界面。 語音識別技術的成熟使人機界面發(fā)生革命性突破,網(wǎng)絡時代用戶需要更自然、更簡單、更方便的以語音為中心點的人機界面。未來幾年里,真正實用的語音識別和音字轉換技術將首次走出實驗室,走進千家萬戶的電器設備中。摩爾定律所預言的硬件產(chǎn)品奇跡般的更新速度使計算機處理復雜運算的能力突飛猛進,也使體積龐大的語音庫有機會棲身于普通用戶的硬盤或其他存儲介質(zhì)上;技術方面,新的語音統(tǒng)計算法日趨成熟:市場需求方面,

28、簡化PDA、移動電話和其他信息家電原本繁瑣的操作步驟的最佳途徑便是通過語音技術。另外,語音識別是一門交叉學科,語音識別技術關系到多學科的研究領域,在不同領域上的進步都會促進語音識別的發(fā)展。(1) 物理學 ( 聲學 ) :聲音產(chǎn)生與傳播原理、聲電轉換以及聲音在房間回響等相關知識。(2) 生理學:有關人的聲道與耳朵的生理結構、耳朵的聽覺特征,在腦內(nèi)高層的語言處理等。(3) 統(tǒng)計學和模式識別理論;基于各種統(tǒng)計方法對模式進行匹配,以及建立有關的統(tǒng)計模型,對語音特征參數(shù)進行估值和分類。(4) 信息理論和計算機科學:各種算法的研究、快速搜索查找匹配的方法。(5) 語言學:有關人的語言產(chǎn)生、感覺方面的知識。

29、(7) 數(shù)字信號處理技術:信號的時域分析、噪聲消除、數(shù)字濾波、線性預測等方面的知識。(8) 微電子技術:超大規(guī)模集成電路(VLSI) 技術的發(fā)展對語音識別的具體應用有很大的影響,VLSI 使語音識別系統(tǒng)商品化成為可能。二、語音信號分析2.1 語音學知識在連續(xù)數(shù)字語音識別過程中,為了提高連續(xù)數(shù)字匹配搜索算法的有效性以及數(shù)字的識別率,必須要將對數(shù)字語音的研究細化到語音學的層次上,包括對各數(shù)字的音素和音節(jié)的特性和各數(shù)字的聲調(diào)進行深入研究。5河南理工大學畢業(yè)設計(論文)說明書2.1.1 音素和音節(jié)音素是語音信號的最基本組成單位,可分為濁音和清音兩大類。濁音通過喉部發(fā)聲,發(fā)聲時聲帶振動,聲帶振動的基本頻

30、率稱為“基音頻率”,其倒數(shù)稱為“基音周期”。清音通過將口腔內(nèi)有的空氣釋放出來而發(fā)聲,發(fā)聲時喉部封閉,由于該氣流通過一個狹窄通道時在口腔中形成流,因此具有明顯的隨機噪聲的特點。音節(jié)是由音素結合而成的發(fā)聲最小單位,一個音節(jié)由“元音”和“輔音”構成。當聲帶振動發(fā)出的聲音氣流從喉腔、咽腔進入口腔從唇腔出去時,這些聲腔完全開放,氣流順利通過,這種音稱為元音。元音構成一個音節(jié)的主干,無論從長度還是能量上看,元音在音節(jié)中都占主要部分。所有元音都是濁音。發(fā)音時呼出的氣流,由于通路的某一部分封閉起來或受到阻礙,氣流被阻不能暢通,而克服發(fā)音器官的這種阻礙而產(chǎn)生的音素稱為輔音。輔音也有清濁之分。輔音出現(xiàn)在音節(jié)的前端

31、或者后端或前后兩端。2.1.2 漢語的聲調(diào)漢語是一種聲調(diào)語言,相同聲母和韻母構成的音節(jié)隨聲調(diào)的不同而具有完全不同的意義,對應著不同的漢字。所以,在漢語的相互交談中,不但要憑借不同的元音和輔音來辨別這些字或詞的意義,還需要從不同的聲調(diào)來區(qū)別它,也就是說聲調(diào)有辨義作用。漢語普通話的聲調(diào)有陰平、陽平、 上聲、 去聲等四種聲調(diào)( 另外, 有時還包括 “輕聲” ) ,這些基本的調(diào)型在語句中雖然受語法、語氣的影響而有所變動,但基本上不改變原有的模式一調(diào)型。聲調(diào)的變化就是濁音基音周期( 或基音頻率) 的變化,各個韻母段中基音周期隨時問的變化產(chǎn)生了聲調(diào),變化的軌跡稱為聲調(diào)曲線。聲調(diào)曲線從一個韻母的起始端開始,

32、到韻母的終止端結束。不同聲調(diào)的聲調(diào)曲線的開始段稱為彎頭段,呈共同上升走向;末尾一段呈共同下降走向,稱為降尾段;而中間一段具有不同的特點,這一段稱為調(diào)型段。一般來說,彎頭段和降尾段對聲調(diào)的聽辨不起作用,起作用的是調(diào)型段。而一段語音,它的起始和結尾處的波形幅度較小,要準確地測出這些地方的基音周期并不容易,因此可將這兩處的波形忽略,只測調(diào)型段這一部分波形的基音周期。圖2.1 給出了單獨說一個音節(jié)時的四種聲調(diào)的典型曲線( F0 / Hz ) 。2.1.3 語音信號產(chǎn)生模型語音信號是聲道被激勵發(fā)生共振而產(chǎn)生的輸出。由于在發(fā)音過程中聲道是運動的,因此可以用一個時變線性系統(tǒng)來模擬。理想的模型是線性的,且時不

33、變的;但是語音信號是一連串的時變過程,且聲門和聲道相互耦合形成了語音信號的非線性特性。做一個合理的假設,當在較短的時間間隔內(nèi)表示語音信號時,則可以采用線性時不變模型。它包括激勵模型、聲道模型、和輻射模型。圖2.2 給出了經(jīng)典的語音信號的產(chǎn)生模型,語音信號被看成是線性時不變系統(tǒng)在隨機噪聲或準周期脈沖序列激勵下的輸出。圖 2.2 語音信號產(chǎn)生模型2.2 語音信號數(shù)字化和預處理2.2.1 數(shù)字化為了將原始的模擬語音信號變?yōu)閿?shù)字信號,必須經(jīng)過采樣和量化兩個步驟,從而得到時間和幅度上均為離散的數(shù)字語音信號。根據(jù)采樣定理,當采樣頻率大于信號的2 倍帶寬時,在采樣過程中不會丟失信息,且從采樣信號中可以精確地

34、重構原始信號波形。在實際語音信號處理中,采樣頻率通常為7 10kHz。在信號的帶寬不明確時,采樣前應接入抗混疊濾波器( 低通濾波器) ,使其帶寬限制在某個范圍內(nèi);否則,如果采樣頻率不滿足采樣定理,則會產(chǎn)生混疊。此時,信號中的高頻成分將產(chǎn)生失真。采樣之后要對信號進行量化,在量化過程中不可避免的會產(chǎn)生誤差。量化后的信號值與原始信號之間的差值為量化誤差,又稱為量化噪聲。信號與量化噪聲的功率之比為量化信噪比。若用x2 表示輸入語音信號序列的方差,2Xmax表示信號的峰值,B 表示量化分辨率 ( 量化位長) , e 2 表示噪聲序列的方差,則量化信噪比為:2.1 )2XSNR 10lg( x2 ) 6.

35、02B 4.77 20lg(Xmax)ex假設語音信號的幅度服從Laplacian 分布,此時信號幅度超過4 x 的概率很小, 只有0.35%,因而可以取X max 4 x 。此時上式變?yōu)镾NR=6.02B-7.2。上式表明,量化器中每位字長對SNR貢獻為6dB; 當 B=7位時,SNR=35dB。此時量化后的語音質(zhì)量能滿足一般通信系統(tǒng)的要求。研究表明: 要使語音波形的動態(tài)變化信噪比達到55dB的信噪比,B應取 10 位以上。為了在語音信號變化范圍內(nèi)保持35dB的信噪比,常用12 位來量化,其中附加的5 位用于補償30dB 左右的輸入動態(tài)范圍變化。2.2.2 預加重處理由于語音信號的平均功率譜

36、受聲門激勵和鼻輻射的影響,在800Hz以上的高頻時約按6dB/oct 衰減,為此要在預處理中進行預加重。預加重的目的是提升高頻部分,使信號的頻譜變得平坦,以便于進行聲道參數(shù)分析或頻譜分析。預加重在防混疊濾波與A/D 轉換之前進行。這樣,不僅能夠進行預加重,而且可以壓縮信號的動態(tài)范圍,有效地提高信噪比。所以為盡量提高SNR,應在 A/D 轉換之前進行預加重。同時,預加重也可在A/D 轉換之后進行,用具有6dB/oct 地提升高頻特性地預加重數(shù)字濾波器實現(xiàn)。它一般是一階的,即:H (z) 1 uz 1 ,式中 u 值接近于1, 本文中去為0.94 。加重的信號在分析處理后,需要進行去加重處理,即加

37、上6dB/oct 的下降的頻率特性來還原成原來的特性。圖2.3 所示為對語音信號“0”的預加重處理結果。從下圖可以明顯圖 2.3 語音信號“0”的預加重處理效果2.2.3 防混疊濾波A/D 轉換之前還需要加一個防混疊濾波器。如果頻率干擾(50 或 60Hz)不嚴重或另有抗干擾措施,則不必用帶通濾波器而只用低通濾波器即可。低通濾波器的截至頻率由語音信 號帶寬決定,用于慮除高于l/2 采樣頻率的信號成分或噪聲,并且希望其帶內(nèi)波動和帶外衰減特性盡可能好。A/D 轉換后采用低通濾波器作為平滑濾波器,對重構的語音波形的高次諧波起平滑作用,以去除高次諧波失真。對于這種低通濾波器的特性和A/D 轉換頻率,也

38、要求與采樣時具有相同的關系。2.2.4 加窗處理已經(jīng)數(shù)字化的語音信號序列將被依次存入一個數(shù)據(jù)區(qū)。在語音信號處理中,一般用循環(huán)隊列的方式來存儲這些數(shù)據(jù),以便用一個有限容量的數(shù)據(jù)區(qū)來應付數(shù)量極大的語音數(shù)據(jù)。在進行處理時,按幀從此數(shù)據(jù)區(qū)中取出數(shù)據(jù),處理完成后再取一幀,如此進行下去。一般來說,語音信號處理的幀長一般取20ms(當 Fs=8kHz時,相應每幀由160 個信號樣值) 。在9河南理工大學畢業(yè)設計(論文)說明書取數(shù)據(jù)時,前一幀與后一幀的交疊部分稱為幀移。幀移與幀長之比一般取為0 0.5。在對語音信號進行短時分析的過程中,信號流的處理用分段或分幀來實現(xiàn)。一般每秒的幀數(shù)為33 100,視實際情況而

39、定。分幀既可連續(xù),也可采用交疊分段的方法,用可移動的有限長度窗口進行加權的方法來實現(xiàn)。在10 20ms 這樣的時間段內(nèi),數(shù)字化后的語音信號的頻譜特性和某些物理特征參量可近似地看作是不變地。這樣就可以采用平穩(wěn)過程的分析處理方法來處理了。這種時間以來處理的基本手段,一般是用一個長度有限的窗序列w(n) 截取一段語音信號來進行分析,并讓這個窗滑動,以便分析任意時刻附近的信號。其一般式為QnTx(m) w(n m),其中mT* 表示某種運算x(m) 為輸入信號序列。通幫采用最多的窗函數(shù)是矩形窗、漢寧窗(Hanning) 和哈明窗(Hamming)。本文主要采用哈明窗,其公式為:(2-2)0.54 0.

40、46cos 2 m 1 ,n 0 Lw(n)L 10, n 其他其中 L 是窗長。通常認為在一個語音幀內(nèi),應含有1 7 個基音周期。然而,不同人的基音周期變化范圍很大,從女性兒童的2ms到老年男子的14ms(即基音頻率為50 70Hz),所以 L 的選擇比較困難。通常在l0kHz 采樣頻率下,L 折衷選擇為100 200 個采樣點( 即持續(xù)時間為10 20ms)。2.3 語音信號的時域分析對信號分析最自然最直接的方法是以時間為自變量進行分析,語音信號典型的時域特征包括短時能量、短時平均過零率、短時自相關系數(shù)和短時平均幅度差。2.3.1 短時能量分析對于信號x(n) ,短時能量定義為:nE n

41、x m w n m 2x m w n m 2 x 2 n * h n (2-3)mmnN1式中, h(n)=w 2(n) ,N為窗長,En表示在信號的第n 個點開始加窗函數(shù)時的短時能量??梢钥闯?,短時能量可以看作語音信號的平方經(jīng)過一個線性濾波器的輸出,該線性濾波器的單位沖激響應為h(n) ,如圖 2.4 所示。圖 2.4 短時能量的方框圖表示如果用 xw表示 x(n) 經(jīng)過加窗處理后的信號,窗函數(shù)的長度為N, 則短時能量可表示為:nN1Enx2w mmn(2-4)0”短時能量圖。2.5 所示為語音“0”時域波形圖和語音“172.5 語音信號“0”的短時能力函數(shù)利用短時能量可以區(qū)分清音和濁音,因

42、為濁音的能量比清音的能量大得多;其次可以短時能量由于是對信號進行平方運算,因而認為增加了高低信號之間的差距,因此要Mnxm wnmnN1mxw mmn(2-5)如圖 2.6 所示為“0”的短時平均幅度圖。從圖中可觀察到,短時平均幅度對能量小的圖 2.6 語音信號“0”的短時平均幅度2.3.2 短時平均過零率短時平均過零率是指每幀內(nèi)信號通過零值的次數(shù)。對于連續(xù)語音信號,可以考察其時Zsgn x m sgn x m 1 w n m2m1 sgn xw m sgn xw m 12 mnSgn* 是符號函數(shù)。為了解決低頻的干擾,我們設立一個門限(2-6)T,將過零率的含義修zn 12msgn x m

43、T sgn x m 1 Tsgn x m T sgn x m 1 Tw n m (2-7)另外,可以將短時平均過零率和短時能量結合起來判斷語音起止點的位置,即進行端2.7 語音信號“0”的過零率,可為端點檢河南理工大學畢業(yè)設計(論文)說明書27圖 2.7 語音信號“0”的短時平均過零率2.3.3 短時自相關函數(shù)和短時平均幅度差函數(shù)語音信號xw(n) 的短時自相關函數(shù)Rn (k) 的計算式如下:nm 10 k K (2-8)NkRn k xn mm0這里 K 是最大的延遲點數(shù)。短時自相關函數(shù)具有一些性質(zhì),如它是偶函數(shù)假設序列具短時自相關函數(shù)是語音信號時域分析的重要參量。但是,計算自相關函數(shù)的運算

44、量很(AMDP)。平均幅度差函數(shù)能夠代替自相關函數(shù)進行語音分析,是基于這樣一個事實:如果信號( 設周期為Np。 ) ,則相距為周期的整數(shù)倍的樣點上的幅值是相等的,差d n x n x n k 0 k 0, N p, 2N p,(2-9)對于實際的語音信號,d(n) 雖不為零,但其值很小。這些極小值將出現(xiàn)在整數(shù)倍周期的位置上。為此,可定義短時平均幅度差函數(shù):N1kFn k xn mxn m k(2-10)m0顯然,如果x(n) 在窗口取值范圍內(nèi)具有周期性,則將出現(xiàn)極小值。如圖2.8 所示,對于周期性的x(n) , Fn(k) 也呈現(xiàn)周期性。與Rn(k) 相反的是,在周期的各個整數(shù)倍點上Fn(k)

45、具有谷值而不是峰值。圖 2.8 語音信號“0”的自相關函數(shù)2.3.4 語音端點檢測語音端點檢測的準確性和可靠性,對系統(tǒng)識別率的提高起著重要的作用當系統(tǒng)收到一段包含語音的信號時,系統(tǒng)需要對語音的端點進行定位,丟棄語音前后多余的噪音段。如果語音前后噪音保留過多,則會增加不同語音的共同成分,對識別產(chǎn)生干擾;而如果語音部分被切割掉,則會造成語音信息的丟失,若丟失的恰是區(qū)分語音的重要特征,則造成誤識。正確確定語音端點也會減少系統(tǒng)的計算量和存儲量。語音端點檢測算法主要是根據(jù)語音的一些特征參數(shù),短時能量、過零率等完成端點檢測。端點檢測有雙門限前端檢測算法和多門限過零率前端檢測算法。雙門限前端檢測算法用于有話

46、、無話鑒別或詞語前端檢測,通常窗長( 即幀長 ) 取10 15ms,幀間隔(即采樣間隔 ) 取 5 10ms,有一定的抗干擾能力,即使存在小的隨機噪聲,只要它不使信號越過正負門限所構成的帶,就不會產(chǎn)生虛假的過零率。多門限過零率前端檢測算法是設多個高低不同的門限。與一股的單門限過零率法相比,可明顯地減少前端誤判,但是有時存在較大時延。因為首次找到高門限越過點,再往前推可能要搜索200ms左右才能找到清音的起點,這就不便于實現(xiàn)實時特征提取。2.4 語音信號的頻域分析語音的感知過程與人類聽覺系統(tǒng)具有頻譜分析功能是緊密相關的。因此,對語音信號進行頻譜分析,是認識語音信號和處理語音信號的的重要方法。2.

47、4.1 濾波器組法利用一組濾波器來分析語音信號的頻譜,方法使用簡單、實時性好、受外界環(huán)境的影響小。濾波器組法所用的濾波器可以是模擬濾波器,也可以是數(shù)字濾波器。濾波器可以用寬帶帶通濾波器,也可以用窄帶帶通濾波器。寬帶帶通濾波器具有平坦性,用它可以粗略地求取語音的頻譜,其頻率分辨率降低,相當于短時處理時窗寬較窄的那種情況。使用窄帶帶通濾波器,其頻率分辨率提高,相當于短時處理時窗寬較寬的那種情況。語音信號x(t) 輸入帶通濾波器f 1, f 2, f n, 濾波器輸出為具有一定頻帶的中心頻率為f1, f 2,f n的信號??梢詫V波器組的輸出經(jīng)過自適應增量調(diào)制器變?yōu)槎M制脈沖信號,再經(jīng)過多路開關,變

48、為一串二進制脈沖信號。這種信號可以輸入計算機進行各種分析和處理。2.4.2 傅立葉頻譜分析傅立葉頻譜分析是語音信號頻域分析中廣泛采用的一種方法。它是法國科學家J Fourier 在 1807 年為了得到熱傳導方程的簡便解法而提出的。傅立葉頻譜分析的基礎是傅立葉變換,用傅立葉變換及其反變換可以求得傅立葉譜、自相關函數(shù)、功率譜、倒譜。由于語音信號的特性是隨著時間緩慢變化的,由此引出語音信號的短時分析。信號 x( 盯 ) 的短時傅立葉變換為:X n e jw x m w n m e jwm (2-11)m式中, w(n) 為窗口函數(shù)。圖2.9 是從帶通濾波器作用理解短時傅立葉變換。圖 2.9 從帶通

49、濾波器作用理解短時傅里葉變換X n e jw 可以看作是加窗后函數(shù)的傅立葉變換,為了實現(xiàn)反變換,將 X n e jw 進行頻率采樣,即令wk2 K / L 則有X n ejwkx m w n m e jwkm (2-12)m式中, L 為頻率采樣點數(shù)。短時功率譜實際上是短時傅立葉變換幅度的平方,它是信號x(n) 的短時自相關函數(shù)的傅立葉變換,即Pnejw Xn ejw 2Rn kejwk (2-13)k式中Rn( k)是自相關函數(shù)。圖2.10 是幾種譜之間的關系。圖 2.10 幾種基于短時傅里葉變換譜之間的關系2.5 特征參數(shù)提取2.5.1 LPCC 倒譜系數(shù)線性預測倒譜參數(shù)(Linear P

50、rediction Cepstrum Coefficient, LPCC)是線性預測系數(shù)在倒譜域中的表示,該特征是基于語音信號為自回歸信號的假設,利用線性預測分析獲得倒譜系數(shù)。LPCC參數(shù)的優(yōu)點是計算量小,易于實現(xiàn),對元音有較好的描述能力,其缺點在于對輔音的描述能力較差,抗噪聲性能較差。語音信號的倒譜與LPC系數(shù)之間的遞推關系:(2-14)c 1 a1n1kc n an1 akc n k ,1 n pk1nkc n k ,n p或是由LPC得到n1C LPCC nCLPCnC LPCC n k C LPC k (-)k1 n根據(jù)同態(tài)處理的概念和語音信號產(chǎn)生的模型,語音信號的倒譜c(n) 等于激

51、勵信號的倒譜 e? n 與聲道傳輸函數(shù)的倒譜h? h 之和。 通過分析激勵信號的語音特點以及聲道傳輸函數(shù)的零極點分布情況,可知e? n 的分布范圍很寬,c(n) 從低時域延伸到高時域,而h? n 主要分布于低時域中。語音信號所攜帶的語音信息主要體現(xiàn)在聲道傳輸函數(shù)上,因而在語音識別中通常取語音信號倒譜的低時域構成LPC倒譜特征c,即c c 1 ,c 2 , ,c q 10 q 16(2-16)式中, q 為 LPC倒譜特征的階數(shù)。然而LPCC同時也繼承了LPC的缺陷,其主要的一點就是LPC在所有的頻率上都是線性逼近語音的,而這與人的聽覺的特性是不一致的;而且LPC包含了語音高頻部分的大部分噪聲細

52、節(jié),這些都會影響系統(tǒng)的性能。2.5.2 Mel 頻率倒譜系數(shù)美爾頻標倒譜系數(shù)(Mel Frequency Cepstrum Coefficient , MFCC考慮了人耳的聽覺)特性,將頻譜轉化為基于Mel 頻標的非線性頻譜,然后轉換到倒譜域上。由于充分考慮了人耳的聽覺特性,而且沒有任何的前提假設,MFCC參數(shù)具有良好的識別性能和抗噪聲能力,但其計算量和計算精度要求高。MFCC不同于LPCC。 在漢語數(shù)碼語音識別中,MFCC參數(shù)的性能明顯優(yōu)于LPCC參數(shù)。MFCC是采用濾波器組的方法計算出來的,這組濾波器在頻率的美爾坐標上是等寬的。這是因為 人類在對約1000Hz以上的聲音頻率范圍的感知不遵循

53、線性關系,而是遵循在對數(shù)頻率坐標上的近似線性關系。Mel 頻率可以用如下公式表示:fMel 2596 log 1 f /700(2-17)對頻率軸的不均勻劃分是MFCC特征區(qū)別于普通倒譜特征的最重要的特點。將頻率按照式 (2-17) 變換到 Mel 域后, Mel 帶通濾波器組的中心頻率是按照Mel 頻率刻度均勻排列的。在實際應用中,MFCC倒譜系數(shù)計算過程如下:(1) 將信號進行分幀,預加重和加哈明窗處理,然后進行短時傅立葉變換并得到其頻譜。(2) 求出頻譜平方,即能量譜,并用M個 Mel 帶通濾波器進行濾波;由于每一個頻帶中分量的作用在入耳中是疊加的,因此將每個濾波器頻帶內(nèi)的能量進行疊加,

54、這時第k 個濾波器輸出功率譜X(k) 。(3) 將每個濾波器的輸出取對數(shù),得到相應頻帶的對數(shù)功率譜;并進行反離散余弦變換,得到L 個 MFCC系數(shù),一般L 取 12 16個左右。MFCC系數(shù)為Cnlog k cos k 0.5 n/ M ,n 1,2, , L (2-18)4)將這種直接得到的MFCC特征作為靜態(tài)特征,再將這種靜態(tài)特征傲一階和二階差分。得到相應的動態(tài)特征。三、語音識別主要算法3.1 動態(tài)時間伸縮算法日本學者首先將動態(tài)規(guī)劃的概念用于解決孤立詞識別時說話速度不均勻的難題,提出了著名的DTW算法,當詞匯表較小以及各個詞條不易于混淆時,這個算法取得了很大成功。從而自 60 年代末期開始引起了語音識別的研究熱潮。在孤立詞語音識別中,最為簡單有效的方法就是該算法,該算法基于動態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早、較為經(jīng)典的一種

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論