語音識(shí)別的特征參數(shù)的提取與研究的畢業(yè)論文要點(diǎn)_第1頁
語音識(shí)別的特征參數(shù)的提取與研究的畢業(yè)論文要點(diǎn)_第2頁
語音識(shí)別的特征參數(shù)的提取與研究的畢業(yè)論文要點(diǎn)_第3頁
語音識(shí)別的特征參數(shù)的提取與研究的畢業(yè)論文要點(diǎn)_第4頁
語音識(shí)別的特征參數(shù)的提取與研究的畢業(yè)論文要點(diǎn)_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、桂林航天工業(yè)學(xué)院畢業(yè)設(shè)計(jì)題目:基于語音識(shí)別的特征參數(shù)提取研究專業(yè):電子信息工程技術(shù)姓名:黃莉珊學(xué)號(hào):201004520121指導(dǎo)教師:潘丹青20 13 年 4 月 1 日畢業(yè)設(shè)計(jì)(論文)評(píng)語8指 導(dǎo) 教 師 評(píng) 語簽字:20 年 月 日評(píng) 閱 教 師 評(píng) 語簽字:20 年 月 日畢業(yè)設(shè)計(jì)(論文)答辯記錄成績及評(píng)語答亠、亠辯提 問 記 錄記錄人:20 年 月 日答亠、亠辯委員會(huì)評(píng)語成 績:主任簽字:20 年 月 日桂林航天工業(yè)學(xué)院電子工程系畢業(yè)設(shè)計(jì)任務(wù)書專業(yè):電子信息工程技術(shù)年級(jí):2010級(jí)姓名 黃莉珊學(xué)號(hào) 201004520121指 導(dǎo)教師(簽名)畢業(yè)設(shè)計(jì)題目基于語音識(shí)別的特征參數(shù)提取研究任務(wù)

2、下達(dá)日 期2012年11月10日設(shè)計(jì)提交期限2013年6月10日設(shè)計(jì)主要內(nèi)容本畢業(yè)論文的主要內(nèi)容首先是分析語音識(shí)別的基本原理及語音識(shí)別的 方法;然后討論了語音信號(hào)的預(yù)處理、端點(diǎn)檢測(cè)及語音特征參數(shù):Mel 倒譜系數(shù)和LPC到譜系數(shù);最后針對(duì)ME頻率倒譜系數(shù)及LPC到譜系數(shù)的 提取進(jìn)行研究,并對(duì)仿真結(jié)果進(jìn)行分析。主要技 術(shù)參數(shù) 指標(biāo)Mel倒譜系數(shù)和LPC倒譜系數(shù)的提取方法,語音信號(hào)的預(yù)處理、端點(diǎn) 檢測(cè)方法的分析,Matlab仿真。成果提交形式將論文裝訂成冊(cè),提交全部畢業(yè)文檔設(shè)計(jì)進(jìn)度安排1、課題的準(zhǔn)備階段:(2012年11月-2013年12月)2、課題研究與系統(tǒng)開發(fā)階段:(2013年1月-2013年

3、3月)3、撰寫階段(2013年4月-2013年5月)4、 提交論文準(zhǔn)備答辯階段:(2013年5月2013年6月)教研室 意見簽名:20年 月曰系主任意見簽名:20 年 月曰桂林航天工業(yè)學(xué)院電子工程系畢業(yè)設(shè)計(jì)開題報(bào)告號(hào) 學(xué) 珊 莉 黃 名 姓清 丹 潘究 研 取 提 數(shù) 參 征 特 的 別 識(shí) 音 語 于題 計(jì) 設(shè) 業(yè) 畢目組 同計(jì)的義 設(shè)目意相工而伽對(duì) , 學(xué)!1展誠步卅 號(hào)U些科非起 信學(xué)這高得展 字科于為取發(fā) 數(shù)機(jī)賴作已的 和算依。用術(shù)。 學(xué)計(jì)展步應(yīng)払展 音、發(fā)進(jìn)際理發(fā) 語 學(xué)的的實(shí)處的 是、H理域到號(hào)步 它語處領(lǐng)究信進(jìn) ,、號(hào)些研音會(huì) 科學(xué)信這的語社 學(xué)理音迪論對(duì)和 緣心語促理究動(dòng) 阿洱

4、系也術(shù)與展 興科聯(lián)步技取發(fā) >知的進(jìn)>提的 門認(rèn)密的處的術(shù) 和緊術(shù)號(hào)數(shù)技 是苜巻払信參理 理。帀理音征處 處物科處語特號(hào) 號(hào)產(chǎn)學(xué)號(hào) ,別信 信的字信點(diǎn)識(shí)音 音合能音熱音語 語結(jié)智語究語而方案論證幾的 從 帥成 用被 晰詢誨冊(cè)攻般側(cè) 率卅為勵(lì)與 懶合t,燦口別在 和叩識(shí)陣決Am 牌蔡莫率亍說和 紳觀対疇出的間 W可皈關(guān)時(shí) 逢由卞tH期有算 .星滅/#|盼土計(jì) 怯看芻代升應(yīng)文的 訝音那nflF與寸 一二語刨軒羽于決 臭把說昭膵對(duì)一1 肌囚在和4門糾 対1HOM>最 M 節(jié) E 別的專財(cái) H W識(shí)HM木 敕叱 嗎音荊饒也« 隗帀站1到時(shí)型耐 小用憂得大經(jīng)M 伽朗統(tǒng)練最歷偎

5、 HM被系訓(xùn)的態(tài)待 (M茁邊中備不 舊發(fā)通程用 法和是,過采M 方“則型移般HM 也MU咧嘏哦戸。 濮C序聲態(tài)別 W 可塔符立在音H 爾沖,建音語 。 馬最程人語的型用 用,過話知關(guān)右應(yīng) 利型機(jī)說未無到泛 模隨個(gè)算店左n時(shí)間安排、 、 、 、 12 3 4導(dǎo)師見 指教意日 月 年 字 簽審核 小組 意見日 月 年 字 簽 長 組桂林航天工業(yè)學(xué)院畢業(yè)設(shè)計(jì)(論文)摘要語音識(shí)別就是讓機(jī)器能夠聽懂人話,它是以語音為研究對(duì)象的,是語音信號(hào) 處理的一個(gè)重要的研究方向。隨著計(jì)算機(jī)技術(shù)、 多媒體技術(shù)、數(shù)字信號(hào)處理技術(shù) 的發(fā)展,人們對(duì)語音識(shí)別技術(shù)的發(fā)展寄予了更高的期望語音識(shí)別擁有著可觀的 應(yīng)用背景,同時(shí)作為一個(gè)

6、交叉學(xué)科也具有深遠(yuǎn)的理論研究價(jià)值。論文首先在第一章介紹了語音識(shí)別發(fā)展歷史及發(fā)展趨勢(shì),語音識(shí)別系統(tǒng)的原 理組成以及語音特征參數(shù)的提取在語音識(shí)別中的作用。之后,本文對(duì)語音信號(hào)識(shí)別的一些基本理論及算法進(jìn)行了一些研究和實(shí)驗(yàn).首先在第二章對(duì)語音信號(hào)的處 理及特征進(jìn)行了介紹論文在介紹分析了語音識(shí)別產(chǎn)生的數(shù)字模型和語音信號(hào)預(yù) 處理問題之后,針對(duì)傳統(tǒng)端點(diǎn)檢測(cè)算法的不足,提出了一種基于短時(shí)平均能量的 端點(diǎn)檢測(cè)算法。論文論述了語音特征參數(shù)的提取需要滿足的條件對(duì)線性預(yù)測(cè)進(jìn)行 了詳細(xì)的分析,通過做實(shí)驗(yàn),對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行仿真對(duì)MEL倒譜系數(shù)進(jìn)行闡述,并 對(duì)MFCC參數(shù)提取過程進(jìn)行分析最后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行仿真與分析。 關(guān)鍵詞

7、:語音識(shí)別;特征提取;端點(diǎn)檢測(cè) ;倒譜系數(shù)AbstractThe speech recog niti on is one of the importa nt research directi ons of speech signal processing The study of speech recognition is to force machine to understand what the logical expression. Speech recognition is very promising in application As an interdisciplinary f

8、ield , it is also theoretically very valuedThis thesis in troduces some theories about speech recog niti on and also prese nts the results of some experiments of improving the speech recognition algorithms. In chapter 2 we describe the process ing of the speech sig nal and the feature extract ion. B

9、ased on in troduct ion and an alysis of the speech recog niti on produce digital model and speech sig nal preprocess ing after problems, aiming at the deficie ncy of the traditi onal en dpo int detecti on algorithm, this paper puts forward a speech sig nal based on short time average en ergy en dpo

10、int detect ion algorithmThis paper discusses the extract ion of speech feature parameters n eed to meet the con diti ons on the lin ear predict ion are an alyzed in detail, and through the experime nt, the result of the experime nt simulati on. For MEL cepstrum coefficie nt is expo un ded, and the M

11、FCC parameter extracti on process to carry on the an alysis to the experime ntal results in simulati on and an alysis.Keywords: speech recog niti on feature extract ion en dpo int detect ionMFCC第VI頁目 錄評(píng)語I答辯記錄n畢業(yè)設(shè)計(jì)任務(wù)書川畢業(yè)設(shè)計(jì)開題報(bào)告IV中英文摘要v引言 11緒論 21.1語音識(shí)別發(fā)展歷史及發(fā)展趨勢(shì) 21.2語音識(shí)別系統(tǒng)的原理組成 31.3語音特征參數(shù)的提取在語音識(shí)別中的作用 42

12、語音信號(hào)預(yù)處理 52.1語音信號(hào)的預(yù)加重 62.2 語音信號(hào)的采樣與濾波 72.3 語音信號(hào)的加窗與分幀 82.4 語音端點(diǎn)檢測(cè) 92.4.1 語音信號(hào)短時(shí)平均能量 102.4.2 語音信號(hào)短時(shí)平均過零率 123 語音特征參數(shù)提取 133.1線性預(yù)測(cè)倒譜系數(shù) LPCC 143.1.1線性預(yù)測(cè)分析 153.1.2 線性預(yù)測(cè)倒譜分析 153.2 MEL 倒譜系數(shù) MFCC. 163.2.1 MEL 頻率 163.2.2MFCC 參數(shù)提取 173.2.3實(shí)驗(yàn)仿真結(jié)果與分析 184 結(jié)論 20謝辭 23參考文獻(xiàn) 24附錄 26第VII頁桂林航天工業(yè)學(xué)院畢業(yè)設(shè)計(jì)(論文)語音信號(hào)處理是語音學(xué)與數(shù)字信號(hào)處理

13、技術(shù)相結(jié)合的交叉學(xué)科,它和認(rèn)知科學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)、模式識(shí)別和人工智能等學(xué)科聯(lián)系緊密。語音 信號(hào)處理技術(shù)的發(fā)展依賴于這些學(xué)科的發(fā)展,而語音信號(hào)處理技術(shù)的進(jìn)步也會(huì)促 成這些學(xué)科的進(jìn)步。語音信號(hào)處理的目的是要得到某些語音特征參數(shù)以便高效地 傳輸或存儲(chǔ);或者是通過某種處理運(yùn)算以達(dá)到某種用途的要求, 如人工合成語音、 辨識(shí)出講話者、識(shí)別出講話的內(nèi)容等。 語音合成技術(shù)、語音編碼技術(shù)及語音識(shí)別 技術(shù)作為語音信號(hào)處理的三個(gè)分支。語言作為人類最重要的交流工具,是人類獲得信息的重要來源之一, 讓計(jì)算 機(jī)能“聽懂”人類的語言,也是人與計(jì)算機(jī)之間進(jìn)行溝通最方便的形式之一。用 語音來實(shí)現(xiàn)人與計(jì)算機(jī)之間的交

14、互,主要包括三項(xiàng)技術(shù),即語音識(shí)別、自然語言理解和語音合成。隨著計(jì)算機(jī)處理能力的迅速提高, 語音識(shí)別技術(shù)得到了飛速發(fā) 展。20世紀(jì)90年代,語音識(shí)別技術(shù)從實(shí)驗(yàn)室走向應(yīng)用,今天,語音識(shí)別技術(shù)受 到了國內(nèi)外研究機(jī)構(gòu)的廣泛關(guān)注和高度重視,其應(yīng)用也必將帶來良好的社會(huì)和經(jīng) 濟(jì)效益。91 緒論人類的語言在人們的生活中起著極其重要的作用, 人與人之間的交流方式有 很多種,但是70%都是通過語音來有效的完成的。語音是人類相互之間進(jìn)行交 流時(shí),使用最多、最自然、最基本的信息載體。與機(jī)器進(jìn)行語音交流,讓機(jī)器明白你說什么,這是人們長期以來夢(mèng)寐以求的 事情。而語音識(shí)別技術(shù)就是讓機(jī)器通過識(shí)別和理解過程把語音信號(hào)轉(zhuǎn)變?yōu)橄鄳?yīng)

15、的 文本或命令的高技術(shù)。1.1語音識(shí)別發(fā)展歷史及趨勢(shì)語音識(shí)別,就是讓計(jì)算機(jī)聽得懂人說的話,并能做出相應(yīng)的處理,也是人機(jī) 交互最重要的第一步。它是語音信號(hào)處理的一個(gè)重要研究方向,是模式識(shí)別的一個(gè)分支,它涉及到生理學(xué)、心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)、通信科學(xué)以及信號(hào)處 理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語言。就語音識(shí)別技術(shù)而言,其基本任務(wù)是將輸入語音轉(zhuǎn)化為相應(yīng)的文本或命令。 語音識(shí)別的市場(chǎng)前景廣泛,在一些應(yīng)用領(lǐng)域中正迅速成為一個(gè)關(guān)鍵的具有競(jìng)爭力 的技術(shù)。例如在聲控應(yīng)用中,計(jì)算機(jī)識(shí)別輸入的語音內(nèi)容,并根內(nèi)容來執(zhí)行相應(yīng)的 動(dòng)作,這包括聲控電話轉(zhuǎn)換、聲控語音撥號(hào)系統(tǒng)、聲控智能玩具、信息網(wǎng)絡(luò)查詢、 家庭服務(wù)、

16、賓館服務(wù)、醫(yī)療服務(wù)等等。語音識(shí)別也可用于將文字以口授的方式輸 入到計(jì)算機(jī)中,即廣泛開展的聽寫機(jī)研究,如聲控打字機(jī)等。語音識(shí)別技術(shù)還可以 用于自動(dòng)口語翻譯,即通過將口語識(shí)別技術(shù)、機(jī)器翻譯技術(shù)、語音合成技術(shù)等相 結(jié)合,可將一種語言輸入的語音翻譯成另一種語言的語音輸出 ,實(shí)現(xiàn)跨語言的交 流。對(duì)說話人識(shí)別技術(shù),近年來已經(jīng)在安全加密、銀行信息電話查詢服務(wù)等方面 得到了很好的應(yīng)用。此外,在公安機(jī)關(guān)破案和法庭取證方面也發(fā)揮著重要的作用。語音識(shí)別技術(shù)的研究開始于上世紀(jì) 40年代末,起初發(fā)展很慢。到了上世紀(jì) 50年代初,當(dāng)時(shí)AT&TBell實(shí)驗(yàn)室實(shí)現(xiàn)了第一個(gè)可識(shí)別十個(gè)英文數(shù)字的語音識(shí)別 系統(tǒng) Audry

17、系統(tǒng),也標(biāo)志著語音識(shí)別技術(shù)的研究真正開始了。到了60年代,計(jì)算機(jī)應(yīng)用更加的普遍,也推動(dòng)了語音識(shí)別技術(shù)的發(fā)展,人們完成了幾項(xiàng)對(duì)今后 20年語音識(shí)別發(fā)展產(chǎn)生重要影響的工作。到了 70年代,語音識(shí)別領(lǐng)域取得了更 大的突破在理論上,LP技術(shù)得到進(jìn)一步發(fā)展,人們將在語音壓縮領(lǐng)域取得了巨 大成功的線性預(yù)測(cè)編碼技術(shù)(LPC)引入了語音識(shí)別。動(dòng)態(tài)時(shí)間歸整技術(shù)(DTW基本 成熟,并且在語音識(shí)別領(lǐng)域得到了全面的應(yīng)用。80年代,語音識(shí)別研究更加的深入,語音識(shí)別領(lǐng)域出現(xiàn)了里程碑式的成果。進(jìn)入90年代,多媒體時(shí)代的到來, 人們對(duì)智能化的需求越來越迫切,這就要求語音識(shí)別系統(tǒng)走出實(shí)驗(yàn)室走向市場(chǎng)。隨著科技的發(fā)展和人們對(duì)語音識(shí)

18、別理論的逐漸深入化的研究,理論體系的日趨成熟,隨著數(shù)字信號(hào)處理技術(shù)的發(fā)展,在未來20年,語音識(shí)別技術(shù)將逐漸的進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療以及各種電子設(shè)備中??梢钥隙ǖ卣f, 語音識(shí)別技術(shù)必將成為未來信息產(chǎn)業(yè)中的一項(xiàng)關(guān)鍵的技術(shù)。但是也不可否認(rèn),它還有很長的一段路需要走,要真正的商業(yè)化,還需要在多方面取得突破性的進(jìn)展, 還需要借助于其它相關(guān)學(xué)科的發(fā)展。1.2語音識(shí)別系統(tǒng)原理的組成語音識(shí)別本質(zhì)上是一種模式識(shí)別的過程, 它主要包括語音信號(hào)預(yù)處理、特征 提取、特征建模、測(cè)度估計(jì)、識(shí)別判決等幾個(gè)功能模塊。一個(gè)語音識(shí)別主要由學(xué) 習(xí)和識(shí)別兩個(gè)過程組成,學(xué)習(xí)階段就是要采用語言的分析方法分析出某種識(shí)別方 法

19、所要求的語音特征參數(shù),這些參數(shù)被存儲(chǔ)起來作為模板。識(shí)別過程就是模式匹 配的過程,它也是整個(gè)系統(tǒng)的核心,其作用是根據(jù)語音和不同的層面按照相應(yīng)的 準(zhǔn)則求取待測(cè)語音特征參數(shù)和語音信息與模式庫中相應(yīng)模板之間的測(cè)度,形成系最佳的識(shí)別輸出。語音識(shí)別系統(tǒng)本質(zhì)上是一種多維模式識(shí)別系統(tǒng),基本結(jié)構(gòu)如圖1.1所示。語音識(shí)別基本結(jié)構(gòu)圖1.11. 預(yù)處理預(yù)處理包括預(yù)加重、反混疊濾波、模/數(shù)轉(zhuǎn)換、自動(dòng)增益控制等處理過程, 用于去除聲門激勵(lì)、口鼻輻射、高于1/2采樣頻率的高頻和噪聲信號(hào)的影響, 實(shí) 現(xiàn)語音信號(hào)的數(shù)字化。在語音識(shí)別中,預(yù)處理還包括在聲學(xué)參數(shù)分析之前正確選 擇識(shí)別基本的問題。2. 特征提取經(jīng)過預(yù)處理后的語音信號(hào)

20、,要對(duì)其進(jìn)行特征提取,即特征參數(shù)分析。 該過程 就是從原始語音信號(hào)中抽取出能夠反映語音本質(zhì)的特征參數(shù),形成特征矢量序 列。3. 語音模型庫語音模型庫即聲學(xué)參數(shù)模板,它是用聚類分析等方法,從一個(gè)講話者或多個(gè) 講話者的多次重復(fù)的語音參數(shù),經(jīng)過長時(shí)間的訓(xùn)練得到的。4. 模式匹配將輸入語音的特征參數(shù)同訓(xùn)練得到的語音模式庫進(jìn)行比較分析,從而得到初步識(shí)別結(jié)果。根據(jù)模式識(shí)別方法的不同,用于語音識(shí)別系統(tǒng)時(shí)有統(tǒng)計(jì)模式識(shí)別法 和句法模式識(shí)別法兩類。(1)統(tǒng)計(jì)模式識(shí)別法:建立在最大似然決策貝葉斯判決基礎(chǔ)之上,大致的 識(shí)別過程是:首先,提取語音的特征,并訓(xùn)練識(shí)別用的參數(shù)模板;然后,利用可以衡量未知模式和參考模式的似然

21、度來測(cè)量函數(shù); 最后,選用一種最佳準(zhǔn)則及專 家知識(shí)作為識(shí)別決策,對(duì)識(shí)別候選者進(jìn)行最后判決,得到最好的識(shí)別結(jié)果作為輸 出。(2)句法模式識(shí)別法:類似于文章中的句法分析。它不僅應(yīng)用于語音識(shí)別, 還廣泛的應(yīng)用于手寫文字及圖像的識(shí)別上。5. 后處理在大詞匯量連續(xù)語音識(shí)別系統(tǒng)中,為了提高識(shí)別正確率需要使用語言模式, 利用語言識(shí)別單位之間連接時(shí)的相互制約關(guān)系,采取統(tǒng)計(jì)方法與語法相結(jié)合的方 法建立語言模型,達(dá)到限制識(shí)別器譯碼時(shí)的自由度,提高系統(tǒng)的性能。目前后處理在嵌入式語音系統(tǒng)中還很難使用。1.3語音特征參數(shù)的提取在語音識(shí)別中的作用語音特征參數(shù)的提取是語音識(shí)別的一個(gè)重要步驟。所謂特征提取,即對(duì)不同的語音尋找

22、其內(nèi)在特征,由此來差別出未知語音,所以每個(gè)語音識(shí)別系統(tǒng)都必須 進(jìn)行特征提取。特征的選擇對(duì)識(shí)別效果至關(guān)重要,選擇的標(biāo)準(zhǔn)應(yīng)體現(xiàn)對(duì)異音字之 間的距離盡可能大,而同音字之間的距離應(yīng)盡可能小。 同時(shí)還要考慮特征參數(shù)的 計(jì)算量,應(yīng)在保持高識(shí)別率的情況下,盡可能減少特征以減小存儲(chǔ)要求和利于實(shí) 時(shí)實(shí)現(xiàn)。孤立詞語音識(shí)別系統(tǒng)的特征提取一般需要解決兩個(gè)問題,一個(gè)是從語音信號(hào) 中提?。ɑ驕y(cè)量)有的合適的特征參數(shù);另一個(gè)是進(jìn)行適當(dāng)?shù)臄?shù)據(jù)壓縮。而對(duì)于 非特定人語音識(shí)別來講,則希望特征參數(shù)盡可能多地反映主義信息, 盡量減少說 話人的個(gè)人信息。計(jì)算機(jī)語音識(shí)別是一個(gè)模式識(shí)別匹配的過程。 在這個(gè)過程中,計(jì)算機(jī)首先要 根據(jù)人的語音

23、特點(diǎn)建立語音模型,對(duì)輸入的語音信號(hào)進(jìn)行分析,并抽取所需的特 征參數(shù),在此基礎(chǔ)上才能建立語音識(shí)別所需的模板。 而計(jì)算機(jī)在識(shí)別過程中要根 據(jù)語音識(shí)別的整體模型,將計(jì)算機(jī)中存放的語音模板與輸入的語音信號(hào)的特征進(jìn) 行比較,根據(jù)一定的搜索和匹配策略,找出一系列最優(yōu)的與輸入的語音匹配的模 板,求出識(shí)別結(jié)果。顯然,這種最優(yōu)的結(jié)果與特征的選擇、語音模型和語言模型 的好壞、模板是否準(zhǔn)確等都有直接的關(guān)系。因此,語音的特征提取在語音識(shí)別處 理中具有舉足輕重的作用。語音的特征提取實(shí)質(zhì)上是起降維的作用,用較少的維數(shù)來表示說話人的特 征。常用的語音特征包括 Pitch(基音)、Formant(共振峰)、LPCC線性預(yù)測(cè)倒

24、譜 系數(shù))、MFCC(MeI頻率倒譜系數(shù))。近幾年,科學(xué)工作者在研究語音識(shí)別時(shí),用 的最多的特征提取方法就是基于線性預(yù)測(cè)倒譜系數(shù)方法。語音信號(hào)完成分幀處理和端點(diǎn)檢測(cè)后,下一步就是特征參數(shù)的提取。在語音 識(shí)別中,我們不能將原始波形直接用于識(shí)別,必須通過一定的變換, 提取語音特 征參數(shù)來進(jìn)行識(shí)別,而提取的特征必須滿足:1 特征參數(shù)應(yīng)當(dāng)反映語音的本質(zhì)特征,對(duì)于非特定人語音識(shí)別,特征參數(shù) 則應(yīng)盡量不含有說話人的信息。2 特征參數(shù)各分量之間的耦合應(yīng)盡可能地小,以起到壓縮數(shù)據(jù)的作用。3 特征參數(shù)要計(jì)算方便,最好有高效的算法。語音特征參數(shù)可以是能量、基音頻率、共振峰值等語音參數(shù),目前在語音識(shí) 別中較為常用的

25、特征參數(shù)為線性預(yù)測(cè)倒譜系數(shù) (LPCC)與MeI倒譜系數(shù)(MFCC)二 者都是將語音從時(shí)域變換到倒譜域上, 前者從人的發(fā)聲模型角度出發(fā),利用線性 預(yù)測(cè)編碼(LPC)技術(shù)求倒譜系數(shù)。后者則構(gòu)造人的聽覺模型,以語音通過該模型 (濾波器組)的輸出為聲學(xué)特征,直接通過離散傅利葉變換 (DFT)進(jìn)行變換。2語音信號(hào)預(yù)處理在語音信號(hào)進(jìn)行分析和處理之前,必須要對(duì)所采集的語音信號(hào)進(jìn)行預(yù)處理。 預(yù)處理階段包括語音的采樣、量化、反混疊濾波、預(yù)加重、加窗、及端點(diǎn)檢測(cè)等。由于語音信號(hào)的平均功率譜受聲門激勵(lì)和口鼻輻射的影響,高頻端大約在8000 Hz以上按6dB/倍頻程跌落,為此要在預(yù)處理中進(jìn)行預(yù)加重。預(yù)加重的目的 是

26、提升高頻部分,使信號(hào)的頻譜變得平坦,以便于進(jìn)行頻譜分析或聲道參數(shù)分析。 預(yù)加重可在A/D變換前,在反混疊濾波之后進(jìn)行,也可在 A/D變換之后進(jìn)行。用 具有6dB/倍頻程的提升高頻特性的預(yù)加重?cái)?shù)字濾波器實(shí)現(xiàn),它一般是一階的, 即:H=1z,( 2-1)式中,"值接近1,典型值為0.96。由于語音信號(hào)是非平穩(wěn)過程,是時(shí)變的,但是人的發(fā)音器官的肌肉運(yùn)動(dòng)速度 較慢,所以語音信號(hào)可以認(rèn)為是局部平穩(wěn)的,或短時(shí)平穩(wěn)。因此,語音信號(hào)分析常分段或分幀來處理,一般每秒的幀數(shù)約為33-100,視實(shí)際情況而定,分幀既可以是連續(xù)的,也可用交疊分段的方法,在語音信號(hào)分析中常用“短時(shí)分析”表 述。短時(shí)分析實(shí)際上是

27、用一個(gè)窗截取信號(hào)。 數(shù)字信號(hào)處理理論告訴我們,兩個(gè)信 號(hào)的時(shí)域相乘,在頻域相卷積,如果采用矩形窗,則矩形窗頻譜高頻成分必將影 響語音信號(hào)的高頻部分,一般用高頻分量幅度較小的窗型,以避免這些影響。對(duì)語音信號(hào)的各短段進(jìn)行處理,實(shí)際上就是對(duì)各短段進(jìn)行某種變換或施以某 種運(yùn)算。設(shè)該變換用符號(hào)T表示,它可以是線性或非線性的,可以是時(shí)不變的或者時(shí)變的,所有各段經(jīng)處理后可以得到時(shí)間序列,用Q(n)表示:(2-2)Q(n) =Tx(m)w(n -m)2.1語音信號(hào)的預(yù)加重預(yù)加重的目的是為了提高信號(hào)中的高頻成分,語音信號(hào)的高頻成分幅值比較低,為了提高高頻分量的作用,有必要將其提升使得整個(gè)信號(hào)的頻譜比較平坦。 此

28、外還能抑制隨機(jī)噪聲。其方法是將原始信號(hào)通過一個(gè)一階FIR高通數(shù)字濾波器:(2-3)H(z) =1 -kz,在時(shí)域內(nèi)它可表示為 y(trx(t)-zxc1)(0.9<k<1)(2-4)圖2.1為k取0.98時(shí)所得高通濾波器的幅頻特性和相頻特性曲線。圖 2.2 分別為預(yù)加重前和預(yù)加重后的一段濁音信號(hào)時(shí)域波形及頻譜。從圖中可以看出, 預(yù)加重后的頻譜在高頻部分的幅度得至了提升。圖2.1預(yù)加重濾波器的幅頻特性和相頻特性圖22 預(yù)加重前后濁音信號(hào)及頻譜2.2語音信號(hào)的采樣與濾波模擬語音信號(hào)是連續(xù)信號(hào),無法被計(jì)算機(jī)處理,所以語音信號(hào)處理的第一步, 就是要將模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)。因此,必須經(jīng)過取

29、樣和量化兩個(gè)步驟,從而得到時(shí)間和幅度上均為離散的數(shù)字語音信號(hào)。 根據(jù)Nyquist采樣定理,當(dāng)取樣頻 率大于語音特征參數(shù)提取方法研究頻率信號(hào)的兩倍帶寬時(shí),取樣過程中不會(huì)丟失 信息,且從取樣信號(hào)中可以精確地重構(gòu)原始信號(hào)波形。通常電話語音地頻率范圍大約是 60-3400Hz左右,一般說來,電話語音的米 樣率為8kHz(G. 711標(biāo)淮),正常人語音的頻率一般在 40 4000Hz的范圍內(nèi)。 成年男子的語音頻率較低,婦女和兒童的語音頻率較高。就語音信號(hào)而言,濁音語音的頻譜一般在4kHz以上便迅速下降,而清音語音信號(hào)的頻譜在4kHz以上頻 段反而呈上升趨勢(shì),甚至超過了 8kHz,以后仍然沒有明顯下降的

30、趨勢(shì)。因此為 了精確表示語音信號(hào),一般認(rèn)為必須保留10kHz以下的所有頻譜成分,這意味著 采樣頻率應(yīng)當(dāng)?shù)扔诨虼笥?0kHz。但是在許多實(shí)際應(yīng)用中并不需要采用這么高的 取樣頻率,實(shí)驗(yàn)表明對(duì)語音清晰度和可懂度有明顯影響的成分,最高頻率約為 5.7kHz。例如 ITU(IntemationalTelecommunicationUnion國際電信聯(lián)盟)G. 729中提出的語音編解碼系統(tǒng)采樣頻率為 8kHz,只利用3.4kHz以內(nèi)的語音信號(hào)分量, 雖然這樣的采樣頻率對(duì)語音清晰度是有損害的,但受損失的只是少數(shù)輔音,而語 音信號(hào)本身的冗余度又比較大,少數(shù)輔音清晰度下降并不明顯影響語句的可懂 度。因此語音識(shí)別

31、時(shí)常用的采樣頻率為 8kHz, 10kHz或16kHz??紤]到咼頻噪聲的存在,為了防止頻率咼于二分之一米樣頻率的咼頻噪聲產(chǎn) 生頻譜混疊,通常語音信號(hào)在采樣前要進(jìn)行一次預(yù)濾波以濾掉高頻噪聲。預(yù)濾波還有一個(gè)目的是避免50Hz的電源干擾,因此預(yù)濾波要用一個(gè)帶通濾波器,其截 止頻率由語音信號(hào)帶寬決定,并且希望其帶內(nèi)波動(dòng)和帶外衰減特性盡可能好。在實(shí)際應(yīng)用中,常常希望從一個(gè)輸入信號(hào)中提取或增強(qiáng)所需要的頻率分量, 濾除或衰減某些不需要的頻率分量, 這個(gè)處理過程稱為信號(hào)的濾波。由于線性時(shí) 不變系統(tǒng)的響應(yīng)頻譜等于系統(tǒng)激勵(lì)信號(hào)頻譜和系統(tǒng)頻率響應(yīng)的乘積,因此,只要適當(dāng)選擇系統(tǒng)的頻率響應(yīng)特性,就可以實(shí)現(xiàn)信號(hào)的濾波功能

32、。在線性時(shí)不變系統(tǒng)中,濾波是一個(gè)重要的應(yīng)用,這方面的例子有很多,例如,在 音響設(shè)備中,音樂欣賞者可根據(jù)自己的愛好,通過均衡器來調(diào)節(jié)聲音中高低頻分 量的相對(duì)大小。又如,在無線廣播中,聽眾可根據(jù)自己的需要調(diào)節(jié)收音機(jī)上的電 臺(tái)調(diào)諧按鈕,選擇自己想要收聽的電臺(tái)。這些功能都是通過信號(hào)濾波來實(shí)現(xiàn)的。濾波同樣可用于離散時(shí)間信號(hào),在經(jīng)濟(jì)數(shù)據(jù)序列的分析中也常常使用離散時(shí) 間濾波器。例如,在股票市場(chǎng)上,股票價(jià)格的長期變化和短期變化一般具有不同 的意義,往往需要將它們分開來進(jìn)行單獨(dú)的研究。這里,股票價(jià)格的長期變化相應(yīng)于低頻分量,它反映了較慢的變化規(guī)律; 而短期變化則相應(yīng)于高頻分量,它反 映了較快的變化行情。為了分別

33、對(duì)長期變化和短期變化進(jìn)行單獨(dú)的研究,可以用離散時(shí)間濾波器來完成這一工作。此外, 為了消除意外的隨機(jī)波動(dòng)(這些隨機(jī)波 動(dòng)一般相應(yīng)于高頻分量),也可以用離散時(shí)間濾波器對(duì)數(shù)據(jù)序列進(jìn)行平滑濾波。信號(hào)的濾波包含有許多方面,例如濾波器的設(shè)計(jì)和實(shí)現(xiàn)等,濾波的基本概念 是直接在傅里葉變換的概念和性質(zhì)的基礎(chǔ)上建立起來的, 因此,對(duì)濾波的討論不 僅介紹傅里葉變換的一個(gè)重要的應(yīng)用領(lǐng)域,而且,這種討論的本身也可加深對(duì)傅 里葉變換的重要性及其性質(zhì)的理解。2.3語音信號(hào)的加窗與分幀在對(duì)語音信號(hào)進(jìn)行短時(shí)分析的過程中,信號(hào)流的處理用分幀或分段來實(shí)現(xiàn)。 一般每秒的幀數(shù)為33-100,視實(shí)際情況而定。分幀即可連續(xù),也可采用交疊分

34、 段的方法。用可以移動(dòng)的有限長度窗口進(jìn)行加權(quán)的方法來實(shí)現(xiàn)。通常我們采用一個(gè)長度有限的窗函數(shù)來截取語音信號(hào)形成分析幀,數(shù)學(xué)形式如式:QO(2-5 )Qn = ' Tx(m)w(n - m)m =-:語音信號(hào)常常可假定在10-20ms這樣的時(shí)間段內(nèi),語音信號(hào)是平穩(wěn)信號(hào),其桂林航天工業(yè)學(xué)院畢業(yè)設(shè)計(jì)(論文)頻譜特性和某些物理特征參量可近似地看作是不變的,這樣,幾乎所有語音信號(hào) 處理的方法都是基于這個(gè)假定,并且我們可以將平穩(wěn)過程的處理方法和理論引入 到語音信號(hào)的短時(shí)處原始語音信號(hào)采樣序列為X(m),移動(dòng)窗w( nm),T是對(duì)語音信號(hào)的某種變換,該變換可以是線性的,也可以是非線性的。例如T為x2(

35、m)時(shí),Qn相當(dāng)于短時(shí)能量(抽樣點(diǎn)僅為N個(gè)點(diǎn));T = sg nx(m) - sg nx(m-1)時(shí),Qn 為短時(shí)平均過零率。由于人自身的發(fā)音器官的運(yùn)動(dòng),語音信號(hào)是一種典型的非平穩(wěn)信號(hào), 其特性腆月窗時(shí)測(cè)形40樣點(diǎn)數(shù)圖2.3漢明窗及其頻譜漢明窗幅頻忡性是隨時(shí)間變化的信號(hào)。由于發(fā)聲器官的慣性運(yùn)動(dòng),可以認(rèn)為在一小段時(shí)間里( 般為10-30ms)語音信號(hào)近似不變,即語音信號(hào)具有適時(shí)平穩(wěn)性。在語音信號(hào)處 理方理中,將語音信號(hào)分成若干個(gè) 短段,每一個(gè)短時(shí)的語音段稱為一 個(gè)分析幀,每個(gè)分析幀就好像是從 一個(gè)具有固定特性的持續(xù)語音中截 取出來的,對(duì)該分析幀進(jìn)行處理就 相當(dāng)于對(duì)固定特性的持續(xù)語音進(jìn)行 處理,分

36、析幀可以是連續(xù)的,也可 以采用交疊分幀的方法。經(jīng)過處理 后將從原始語音序列產(chǎn)生一個(gè)新的 依賴于時(shí)間的序列,被用于描述語 音信號(hào)的特征。通常用一個(gè)長度有 限的窗函數(shù)來截取語音信號(hào)形成分 析幀,窗函數(shù)w(n)將需處理區(qū)域之 外的樣點(diǎn)置零來獲得當(dāng)前的語音幀,理想窗函數(shù)的頻率響應(yīng)要求主瓣無限狹窄且沒有旁瓣 (即無頻譜泄漏),但這 種窗函數(shù)在實(shí)際工程中是無法實(shí)現(xiàn)的。常用的窗函數(shù)有HammingS。圖2.3是漢明窗的時(shí)域波形及幅頻特征。從圖中可以看出,Hammi ng窗的旁瓣衰減較大,能夠在較高的程度上反映適時(shí)信號(hào)的頻率特性。2.4語音端點(diǎn)檢測(cè)顧名思義,端點(diǎn)檢測(cè)的目的就是為了去掉語音信號(hào)中的靜音段,將有用

37、信號(hào)的起點(diǎn)檢測(cè)出來。為了達(dá)到這樣的目的,主要要利用語音信號(hào)的兩個(gè)參數(shù)。一個(gè)是語音信號(hào)的短時(shí)幅度,另一個(gè)是短時(shí)過零率。t H鈿(2-6 )它們的定義分別為:短時(shí)幅度Mn 7 X(t)t =N其中n為一幀信號(hào)開始的時(shí)刻,N為一幀信號(hào)中的采樣點(diǎn)數(shù)短時(shí)過零率:(2-7)Z t N 1 sign(x(t) - sign(x(t -1) 厶:t=n i2同樣,n為一幀信號(hào)的開始時(shí)刻,N為一幀信號(hào)中的采樣點(diǎn)數(shù)。有效的端點(diǎn)檢測(cè)不僅能使處理時(shí)間減到最少,而且能排除無聲段的噪聲干 擾,從而使處理質(zhì)量得到保證。端點(diǎn)檢測(cè)的困難在于無聲段或者發(fā)音前后人為呼 吸等產(chǎn)生的雜音,使得語音的端點(diǎn)比較模糊。 一般來說,要對(duì)高信噪

38、比情況下錄 制的語音鑒別端點(diǎn)是很容易的事, 此時(shí)背景噪聲的能量遠(yuǎn)遠(yuǎn)低于語音能量,因此僅憑能量特征就可以很好的確定語音的起點(diǎn)和終點(diǎn)。但是,實(shí)際的應(yīng)用中很難達(dá)到這么高的信噪比,所以不能僅憑能量來判斷,當(dāng)端點(diǎn)處是弱摩擦音或弱爆破音, 以及終點(diǎn)處是鼻音時(shí),此時(shí)的能量很弱,極易與背景噪聲混淆,造成端點(diǎn)檢測(cè)不精確,檢測(cè)出來的語音就會(huì)不完整,影響識(shí)別的效果。為了解決這些問題,常常 采用多種特征參數(shù)綜合的方法來檢測(cè)語音的始末點(diǎn)。端點(diǎn)檢測(cè)對(duì)于語音識(shí)別有著重要的意義。在孤立詞識(shí)別中,確定單詞語音信 號(hào)的開始和終止可以減少非實(shí)時(shí)系統(tǒng)中的大量計(jì)算:連續(xù)語音識(shí)別中識(shí)別基元 (字詞、音節(jié)、聲韻母)的切分,可用于語音數(shù)據(jù)庫

39、訓(xùn)練。實(shí)驗(yàn)統(tǒng)計(jì)數(shù)字表明,起 始點(diǎn)(beginning point) 和終點(diǎn)(endpoint)的偏離對(duì)語音識(shí)別最終準(zhǔn)確性影響明 顯:30m內(nèi)的偏移對(duì)應(yīng)精確度下降2%,當(dāng)超過90mS寸,影響達(dá)到30%。語音作為人類最自然、最直觀的信息載體,它必將成為未來人機(jī)交互界面的 主要控制方式。而語音端點(diǎn)檢測(cè)就是從一段原始語音信號(hào)中通過一定的技術(shù)手段 檢測(cè)出有用的語音成分進(jìn)而進(jìn)行其他語音信號(hào)處理。它是語音分析、語音合成和語音識(shí)別等語音信號(hào)處理中的最初始最基本的環(huán)節(jié)也是最重要的環(huán)節(jié)。在實(shí)際應(yīng)用中,通常首先要對(duì)真正含有語音成分信號(hào)的起始點(diǎn)進(jìn)行判定,如此收集到的真正語音數(shù)據(jù)可以大大減少后期處理的運(yùn)算量和存儲(chǔ)空間,

40、并能更減少處理時(shí)間。 在噪聲環(huán)境下,端點(diǎn)檢測(cè)的準(zhǔn)確性直接影響語音識(shí)別率。2.4.1語音信號(hào)短時(shí)平均能量信號(hào)流的分幀是采取可移動(dòng)的有限長度的窗口進(jìn)行加權(quán)的方法實(shí)現(xiàn)。因此, 我們可以定義以n為標(biāo)志的某幀語音信號(hào)的短時(shí)平均能量 En,如下式所示:En 二 ' x(m)w(n-m)2 二 ' x(m)w(n- m)2(2-8)m =n -N 1m =n N 1對(duì)短時(shí)能量有如下兩種解釋:(1) 首先計(jì)算原始語音信號(hào)各個(gè)采樣值的平方,然后通過一個(gè)激勵(lì)響應(yīng)為h(n)的濾波器,最后輸出能量序列,這里中h(n) =w(n)2。(2) 首先計(jì)算原始語音信號(hào)各個(gè)采樣值的平方,然后用一個(gè)移動(dòng)窗h(n)

41、 =w( n2)選取出一個(gè)一個(gè)的短時(shí)平方序列,并將各短段的平方值求和得到短 時(shí)能量序列。不同窗函數(shù)的選擇將決定短時(shí)平均能量的性質(zhì)。一般窗函數(shù)是中心對(duì)稱的, 用得比較多的是矩形窗和哈明窗。選擇的原則是:使得短時(shí)能量既能及時(shí)跟蹤語音能量的緩變規(guī)律,同時(shí)又要 對(duì)語音振幅一個(gè)基數(shù)周期周期內(nèi)的瞬間變化有顯著平滑的作用。短時(shí)平均能量的主要用途是:1. 可以區(qū)分清音段與濁音段,因?yàn)闈嵋魰r(shí) E。值比清音時(shí)大得多。2. 可以用來區(qū)分聲母與韻母的分界, 無聲與有聲的分界,連字的分界等。對(duì)于高信噪比的語音信號(hào),E用來區(qū)分有無語音。此時(shí),無語音信號(hào)的噪聲能量En很小,而有語音信號(hào)的E顯著地增大到某一個(gè)數(shù)值,由此可區(qū)分

42、語音信號(hào)的 開始和終止點(diǎn)。3. 作為一種超音段信息,用于語音識(shí)別中。圖2.4為選取不同窗函數(shù)及不同窗長計(jì)算出來的語音信號(hào)的平均能量,從圖中可以看出,窗長取32點(diǎn)時(shí),所得的能量曲線不夠平滑,窗長取 128點(diǎn)時(shí)比較 合適,曲線比較平滑,而且保留了細(xì)節(jié)變化。另外,對(duì)比 128點(diǎn)的矩形窗與漢明 窗的圖形可以看出,漢明窗的輸出曲線優(yōu)于矩形窗,其主要原因是漢明窗主瓣較 寬約大于矩形窗的一倍,但是它的旁瓣衰減較大,具有更平滑的低能特性,能夠較好地反映短時(shí)信號(hào)的頻率特性。 另外,從加128點(diǎn)漢明窗計(jì)算出的短時(shí)能量值 與原始語音對(duì)照,可看出濁音對(duì)應(yīng)的短時(shí)能量高,清音對(duì)應(yīng)的短時(shí)能量低,無聲0.51 1 1 1.1

43、, 1反姑語苜般r0心51 1111110M20M30004M0MOO60007000A4一廠ZL1CXX)20M3M04M0MM60M7M0A卜J廠、廠人10MMM3M0 J WOWMMM 7K013圖2.4不同窗長,矩形窗和漢明窗短時(shí)量桂林航天工業(yè)學(xué)院畢業(yè)設(shè)計(jì)(論文)242語音信號(hào)短時(shí)平均過零率信號(hào)的幅度值從正值到負(fù)值要經(jīng)過零值,從負(fù)值到正值也要經(jīng)過零值,稱其 為過零,統(tǒng)計(jì)信號(hào)在一秒鐘內(nèi)有幾次過零, 就稱為過零率,這一秒鐘就是一個(gè)單 位時(shí)間(還可以有其他單位時(shí)間)。如果信號(hào)按段分割,就稱為短時(shí),把各段信 號(hào)的過零率作統(tǒng)計(jì)平均年,就是短時(shí)平均過零率。語音信號(hào)X(n)的平均過零率:Zn

44、6;° I二 '、sgnx(m)m :-sgnx(m 1) w(n m) = sgnx(n) sgnx(n 1)卜 w(n)17熄乳臺(tái)音圖2.5 一句語音的短時(shí)平均能量及短時(shí)平均過零率(2-9)式中,sgn是符號(hào)函數(shù)短時(shí)平均過零率在語音信號(hào)分析中應(yīng)用最多的是清 /濁音判決。發(fā)濁音時(shí)身 帶振動(dòng),這個(gè)振動(dòng)頻率的聲壓波在聲道中共振, 盡管有若干個(gè)共振峰,但其能量 集中于低于3KHz的頻率范圍內(nèi);反之,發(fā)清音時(shí),身帶不振動(dòng),聲道的某部分 阻塞氣流產(chǎn)生類白噪聲,其能量集中于較高的頻率范圍。因此用過零率可以定量 地分析清/濁音。短時(shí)過零率可應(yīng)用于語音信號(hào)分析中。 對(duì)于濁音語音,盡管聲道有

45、若干個(gè)共 振峰,但是由于聲門波引起了譜的高頻跌落,所以其語音能量約集中于3kHz以下。 而對(duì)于清音語音時(shí),多數(shù)能量出現(xiàn)在較高頻率上。高頻率對(duì)應(yīng)著高的平均過零率, 低頻率對(duì)應(yīng)著低的平均過零率,那么可以認(rèn)為濁音時(shí)具有較低的平均過零率, 而 清音時(shí)具有較高的平均過零率。利用短時(shí)平均過零率可以從背景噪聲中找出語音 信號(hào),可用于判斷寂靜無語音和有語音的起點(diǎn)和終點(diǎn)位置。在孤立詞語音識(shí)別中, 必須要在一連串連續(xù)語音信號(hào)中進(jìn)行適當(dāng)?shù)姆指睿?可以確定一個(gè)一個(gè)單詞的語音 信號(hào),即找出每一個(gè)單詞的 開始和終止位置。另外,在 背景噪聲較小時(shí)用平均能量 識(shí)別較為有效,而在背景噪 聲較大時(shí)用平均過零數(shù)識(shí)別 較有效。短時(shí)平

46、均過零率作為 “頻率”來理解,在處理多 頻率帶通信號(hào)的“頻率”特 征方面有效。如果把語音信 號(hào)用多通道帶通濾波器分 割,統(tǒng)計(jì)每個(gè)子帶波形的短 時(shí)平均過零率和短時(shí)平均能量,實(shí)質(zhì)上就是對(duì)語音信號(hào)作頻域分析。圖2.5是一句語音的短時(shí)平均能量及短時(shí)平均過零率的仿真圖,從圖上可以看出,濁音 信號(hào)的過零率低,清音信號(hào)的過零率高, 噪聲的過零率高,一般在語音信號(hào)的清濁音判別時(shí) 可采用短時(shí)平均能量與短時(shí)過零率結(jié)合來判斷,以降低誤判率。3語音特征參數(shù)提取語音信號(hào)完成分幀處理和端點(diǎn)檢測(cè)后,下一步就是特征參數(shù)的提取。在語音 識(shí)別中,我們不能將原始波形直接用于識(shí)別, 必須通過一定的變換,提取語音特 征參數(shù)來進(jìn)行識(shí)別,

47、而提取的特征必須滿足:1 特征參數(shù)應(yīng)當(dāng)反映語音的本質(zhì)特征,對(duì)于非特定人語音識(shí)別,特征參數(shù) 則應(yīng)盡量不含有說話人的信息。2 特征參數(shù)各分量之間的耦合應(yīng)盡可能地小,以起到壓縮數(shù)據(jù)的作用。3 特征參數(shù)要計(jì)算方便,最好有高效的算法。語音特征參數(shù)可以是能量、基音頻率、共振峰值等語音參數(shù),目前在語音識(shí) 別中較為常用的特征參數(shù)為線性預(yù)測(cè)倒譜系數(shù) (LPCC)與Mel倒譜系數(shù)(MFCC。二 者都是將語音從時(shí)域變換到倒譜域上, 前者從人的發(fā)聲模型角度出發(fā),利用線性 預(yù)測(cè)編碼(LPC)技術(shù)求倒譜系數(shù)。后者則構(gòu)造人的聽覺模型,以語音通過該模型 (濾波器組)的輸出為聲學(xué)特征,直接通過離散傅利葉變換 (DFT)進(jìn)行變換

48、。語音特征參數(shù)提取是在語音預(yù)處理和語音端點(diǎn)檢測(cè)之后進(jìn)行,語音特征的選擇與提取是語音識(shí)別的一個(gè)重要環(huán)節(jié)。 原始的語音信號(hào)是時(shí)域上的連續(xù)波形, 含 有大量的冗余信息。如果直接對(duì)其進(jìn)行數(shù)據(jù)處理,既費(fèi)時(shí)費(fèi)力也會(huì)對(duì)識(shí)別率產(chǎn)負(fù) 面影響。所以,提取出語音信號(hào)中最能體現(xiàn)語音特征的參數(shù)是有效提高語音識(shí)別 率至關(guān)重要的一步。提取語音特征的目的就是去掉原始語音信號(hào)的冗余部分,把最能體現(xiàn)語音本質(zhì)的特征參數(shù)提取出來,并且突出那些對(duì)辨別語音有利的信息。 此后的所有處理都是對(duì)語音特征參數(shù)的處理。特征提取是幾乎所有模式識(shí)別研究必須要面對(duì)的問題。人們?cè)缭谏鲜兰o(jì)40年度就提出了” visible speech”的概念,它指的是語

49、譜圖對(duì)語音信號(hào)的描述問 題。因此語譜信息被作為語音特征參數(shù)較早的應(yīng)用于語音識(shí)別,至今仍有人提取語譜信息作為語音特征。進(jìn)入50年代,隨著人們研究的深入,相繼提出了幅度、 短時(shí)幀平均能量、短時(shí)幀過零率、短時(shí)自相關(guān)系數(shù)、平均幅度差函數(shù)等語音特征。 隨著識(shí)別技術(shù)的發(fā)展,人們發(fā)現(xiàn)時(shí)域中的特征參數(shù)的穩(wěn)定性和區(qū)分能力都不是很 好,于是開始利用頻域參數(shù)作為語音信號(hào)的特征,比如頻譜、共振峰、線性倒譜 對(duì)等??偟膩碚f,提取的語音特征參數(shù)要滿足如下條件:(1)特征參數(shù)必須反映語音的本質(zhì)特征,即特征參數(shù)必須是語音所包括的一般特性,對(duì)于非特定人的語音識(shí)別,特征參數(shù)中要盡可能的不包括說話人的特征 信息。(2)特征參數(shù)各個(gè)

50、分量之間的耦合要盡可能的小,以起到壓縮數(shù)據(jù)的作用。當(dāng)前,較為常用的特征參數(shù)包括線性預(yù)測(cè)分析頻譜(LPC)、線性預(yù)測(cè)分析倒 譜(LPCC)、Mel頻率倒譜系數(shù)(MFCC)對(duì)數(shù)倒頻譜(LSF)、基頻(Pitch)、共振峰 (Formant)等。然而在這些特征參數(shù)中,LPC(參數(shù)缺點(diǎn)是對(duì)噪聲影響敏感。由于 語音信號(hào)的多變性,基頻特征的提取存在許多困難。共振峰作為語音參數(shù)存在虛 假峰值以及相鄰共振峰靠太近難以分辨而帶來的不利影響等問題。綜合考慮特征參數(shù)的魯棒性和實(shí)際要求,目前最常用是基于人耳聽覺的MFC參數(shù),它在有信道 噪聲和頻譜失真的情況下具有較好的穩(wěn)健性, 是目前語音識(shí)別研究中最常用的特 征參數(shù),

51、它運(yùn)用了人耳聽覺感知方面的研究成果,用于語音識(shí)別有非常不錯(cuò)的識(shí)別率。3.1線性預(yù)測(cè)倒譜系數(shù)LPCC一個(gè)遞歸數(shù)字濾波器可以采取多種不同的結(jié)構(gòu)實(shí)現(xiàn),例如直接法、鏈接法和 格形法等,相應(yīng)地就有多種不同的濾波器參數(shù), 但它們所實(shí)現(xiàn)的濾波器都是等價(jià) 的。線性預(yù)測(cè)分析法求得的是一個(gè)全極點(diǎn)的系統(tǒng)函數(shù),形式上也是一個(gè)遞歸濾波器。在全極點(diǎn)語音產(chǎn)生模型假定下,這個(gè)濾波器被稱為聲道濾波器。也存在多種 不同的參數(shù)表達(dá)方法,這些參數(shù)一般可看作是由線性預(yù)測(cè)系數(shù)4 ?推演出來的,但它們各有不同的物理意義和特性。其中最常用的是線性預(yù)測(cè)倒譜系數(shù)LPCC倒 譜實(shí)際上是一種同態(tài)信號(hào)處理方法。語音信號(hào)分析過程中經(jīng)常要用到一個(gè)重要的語

52、音產(chǎn)生模型一聲道模型。聲道模型是將人從喉到嘴唇這一段發(fā)音腔體用一系列截面積不同的均勻聲管來模擬。 根據(jù)聲管的聲學(xué)模型,利用物理學(xué)知識(shí),我們可以計(jì)算出這段聲管模型與信號(hào)處 理中的全極點(diǎn)模型相類似。因此,我們可以應(yīng)用信號(hào)處理中已有的算法對(duì)其進(jìn)行 處理。在這個(gè)語音產(chǎn)生的聲道模型中,語音中的濁音部分可以認(rèn)為是由一連串有 規(guī)律的周期信號(hào)(此周期與濁音的基音周期相吻合)來激勵(lì)不同形狀的聲道模型 而產(chǎn)生;而清音部分則被認(rèn)為是由一連串無規(guī)律的白噪聲信號(hào)激勵(lì)聲道模型而產(chǎn) 生的。因此,若能準(zhǔn)確地估計(jì)出聲道的形狀或模型參數(shù),我們就有望用此模型參 數(shù)作為語音信號(hào)的特征來完成語音信號(hào)的識(shí)別任務(wù)。數(shù)字信號(hào)處理中,可以用L

53、PC(線性預(yù)測(cè)編碼)的算法來估計(jì)出此全極點(diǎn)模型 的參數(shù)。線性預(yù)測(cè)是最佳線性向前一步預(yù)測(cè),語音信號(hào)線性預(yù)測(cè)的基本思想是: 語音信號(hào)的每個(gè)取樣值,可以用它過去若干個(gè)取樣值的加權(quán)和(線性組合)來表 示;各加權(quán)系數(shù)的確定原則是使預(yù)測(cè)誤差的均方值最小。在語音識(shí)別系統(tǒng)中,利用同態(tài)處理方法,通過對(duì)LPC系數(shù)求離散傅立葉變換(DFT)后取對(duì)數(shù),再求反變換DF可得到線性預(yù)測(cè)倒譜系數(shù)LPCC1420。3.1.1線性預(yù)測(cè)分析語音信號(hào)序列是一個(gè)隨機(jī)序列,其穩(wěn)態(tài)系統(tǒng)函數(shù)為:H(z)二S(z)GpIajZi 4(3-1)把s(n)模型成一個(gè)p階的AR過程序列。對(duì)于濁音,系統(tǒng)受沖激序列的激勵(lì),各 種激勵(lì)之間的間隔為音調(diào)周期

54、;對(duì)于清音, 則受白噪聲序列激勵(lì),它可簡單地由 一個(gè)隨機(jī)數(shù)發(fā)生器完成。參考模型是現(xiàn)代譜估計(jì)的主要內(nèi)容,經(jīng)常采用的模型有三種:(1)自回歸線(AR模型是一個(gè)全極點(diǎn)的模型;(2)移動(dòng)平均模型(MA是一個(gè)全零點(diǎn)模型;(3)自回歸線-移動(dòng)平均模型(ARMA是一個(gè)既有零點(diǎn)又有極點(diǎn)的模型。從數(shù)字信號(hào)處理的知識(shí)可知,AR模型易反應(yīng)頻譜中的峰值,MA模型異反映 頻譜中的谷值,而ARM模型可以同時(shí)反映兩者??紤]到求解AR模型的正則方程 是一組線性方程,而求解 MA和ARMA勺模型是非線性方程,因此在實(shí)際處理中, 應(yīng)用比較廣泛的是AR模型。又由于AR模型可以與基于級(jí)聯(lián)無損聲管的語音產(chǎn)生 模型相聯(lián)系,因此在語音處理

55、中它被廣泛采用的模型; 而與相關(guān)的線性預(yù)測(cè)分析 也是語音信號(hào)處理中普遍采用的核心技術(shù)之一。根據(jù)數(shù)字信號(hào)處理的知識(shí)可知,一個(gè) p階的AR模型總是等效于一個(gè)p階的 線性預(yù)測(cè)器。因此目前提出的AR模型系數(shù)的求解,以及AR模型性能的討論大都 建立在線性預(yù)測(cè)理論基礎(chǔ)上的。對(duì)語音信號(hào)進(jìn)行線性預(yù)測(cè)分析的基本思想是:一個(gè)語音的采樣能夠用過去若 干個(gè)語音采樣的線性組合來逼近。通過使線性預(yù)測(cè)到的采樣在最小均方誤差意義 上逼近實(shí)際語音采樣,可以求取一組唯一的預(yù)測(cè)系數(shù)。這里的預(yù)測(cè)系數(shù)就是線性 組合中所用的加權(quán)系數(shù)。這種能夠線性預(yù)測(cè)分析最早用于語音編碼中,因此常被 簡稱為LPC3.1.2線性預(yù)測(cè)倒譜分析1947年,維納首次提出了線性預(yù)測(cè)(Linear Prediction , LP)這一名詞,并 且在1967年,板倉等人將該技術(shù)應(yīng)用在語音分析和合成中,開辟了語音識(shí)別技術(shù)的新思路。線性預(yù)測(cè)分析是從人的發(fā)聲機(jī)理入手,通過對(duì)聲道的短管級(jí)聯(lián)模型的 研究,認(rèn)為系統(tǒng)的傳遞函數(shù)符合全極點(diǎn)數(shù)字濾波器的形式,n時(shí)刻的信號(hào)可以用若干時(shí)刻的信號(hào)的線性組合來估計(jì)。由聲學(xué)理論可知,除鼻音和摩擦音外,一般桂林航天工業(yè)學(xué)院畢業(yè)設(shè)計(jì)(論文)聲道系統(tǒng)H(z)可用全極點(diǎn)模型來模擬:H(z)二S(z)E(z)GA(z)(3-2)21其中P為預(yù)測(cè)器階數(shù),G為非負(fù)實(shí)數(shù),用于控

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論