




已閱讀5頁,還剩73頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
分類號 密 級 太原理工大學(xué) 碩 士 學(xué) 位 論 文 題 目 基于小波分析的語音端點檢測算法研究 英文并列題目 on 究 生 姓 名 : _ _ 學(xué) 號 : 專 業(yè) : 信號與信息處理 研 究 方 向 : 語音信號處理 導(dǎo) 師 姓 名 : _ _ 職 稱 : _ 教授 _ 學(xué)位授予單位 : 太原理工大學(xué) 論文提交日期 _ _ 地 址 : _山西太原 _ 太 原 理 工 大 學(xué)太原理工大學(xué)碩士研究生學(xué)位論文 于小波 分析 的語音端點檢測算法研究 摘 要 語音端點檢測是語音識別中至關(guān)重要的技術(shù) 。無論軍用還是民用 ,語音端點檢測都有著廣泛的應(yīng)用 。 在低信噪比的環(huán)境中進(jìn)行精確的端點檢測比較困難 ,尤其是在 無聲段或者發(fā)音前后 。 本 文 討論了幾種常用的端點檢測方法, 并 提出兩種基于小波分析的 端點檢測 , 并在此基礎(chǔ)上描述了基于這兩種算法的語音端點檢測綜合算法, 從而實現(xiàn)對語音信號 精確端點檢測 的方法 。 文中首先介紹了幾種常見的語音端點檢測方法如 短時能量與過零率, 隱馬爾可夫等。這些方法在 靜音環(huán)境 下 , 當(dāng) 噪 聲較小或噪聲相對單一時可以取的較好的檢測結(jié)果,但在語音環(huán)境較惡劣 、 信噪比較低時 ,檢測的結(jié)果 下降較快, 難以讓人滿意。 為此本文 引入了小波變換作為分析工具 。接下來論文討論了小波變換的原理及在語音識別系統(tǒng)中的應(yīng)用 。 論文 分別提出了兩種基于小波系數(shù)的語音端點檢 測方法, 并對其實驗結(jié)果進(jìn)行了比較。第一種方法是子帶平均能量方差用于語音端點檢測 ,該方法利用噪聲 的分類及特點,以及 它 與語音信號的差別,在小波分析的基礎(chǔ)上,對每一子帶的平均能量進(jìn)行方差分析, 從而區(qū)分出語音段。該方法具有快速、簡單和準(zhǔn)確率高 的特點。 第二種方法是小波系數(shù)方差用于語音端點檢測 , 語音信號是統(tǒng)計自相似的隨機(jī)過程,太原理工大學(xué)碩士研究生學(xué)位論文 的統(tǒng)計特性在時域內(nèi)不隨波形的擴(kuò)充或壓縮而變化。 根據(jù)這一特性為識別語音與背 景噪聲建立一個理想的貝葉斯兩 層 分類器,以每一子帶內(nèi)的小波系數(shù)作為比較 參 數(shù), 從而進(jìn)行分類計算。最后根據(jù)概率的大小得到端點檢測 的結(jié)果。 該方法具有適用范圍廣 、 準(zhǔn)確率高的特點,而算法相對比前一方法要復(fù)雜。 論文在討論了前兩種方法的 優(yōu)缺點、分析實驗結(jié)果后,提出一種揉合兩種方法,以發(fā)揮各自優(yōu)點的新方法。實驗表明該方法 發(fā)揮 了以上兩種方法的特點具有很好的檢測結(jié)果 。 關(guān)鍵詞 : 端點檢測 , 小波 變換 , 系數(shù)方差,子帶能量太原理工大學(xué)碩士研究生學(xué)位論文 V F N is a It is in It is to in or or of on on of be of as is or NR of is is So as we of in of on 原理工大學(xué)碩士研究生學(xué)位論文 VI is in on of on of to of is of to is a to t or of in to we an is on of as At of is of is of a of of 錄 第一章 緒 論 . 1 . 1 音識別簡介 . 1 點檢測在語音識別系統(tǒng)中的地位和作用 . 3 內(nèi)外研究現(xiàn)狀 . 5 . 7 時能量 及過零率 . 8 函數(shù) . 10 譜特征 . 11 馬爾可夫 (. 13 題研究背景 . 14 . 16 第二章 小波分析理論 . 18 . 18 . 19 . 24 波分析在語音處理中的應(yīng)用 . 30 結(jié) . 33 第三章 子帶平均能量方差 用于語音端點檢測 . 35 聲與語音 的 頻域差異 . 35 用小波分析進(jìn)行端點檢測 . 39 法原理 . 39 太原理工大學(xué)碩士研究生學(xué)位論文 實驗方法描述 .結(jié) .四章 小波系數(shù)方差的語音端點檢測 .音的 1/f 小波模型 .葉斯分類介紹 . 貝葉斯分類原理 . 貝葉斯定理變形公式 .于小波系數(shù)方差的語音端點檢測 . 算法原理 . 實驗方法描述 .實驗結(jié)果綜合比較 .結(jié) .五章 小波系數(shù)方差用于語音端點檢測綜合實現(xiàn) .音類型判斷和系統(tǒng)設(shè)計 .驗結(jié)果 .結(jié) .六章 總結(jié) 與展望 .考文獻(xiàn) .謝 .讀學(xué)位期間發(fā)表的學(xué)術(shù)論文目 錄 .原理工大學(xué)碩士研究生學(xué)位論文 1 第一章 緒 論 述 音識別 簡介 語音識別技術(shù)是 2000年至 2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。它是一門交叉學(xué)科,正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進(jìn)行操作。語音技術(shù) 的應(yīng)用已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè) 1。 與機(jī)器進(jìn)行語音交流,讓機(jī)器明白你說什么,這是人們長期以來夢寐以求的事情。語音識別技術(shù)就是讓機(jī)器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù)。語音識別是一門交叉學(xué)科。近二十年來,語音識別技術(shù)取得顯著進(jìn)步,開始從實驗室走向市場。語音識別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國新聞界評為 1997年計算機(jī)發(fā)展十件大事之一。 人們預(yù)計,未來 10年內(nèi),語音識別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。 很多專家都認(rèn)為語音識別技術(shù)是 2000年至 2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一 2。 語音識別技術(shù)關(guān)系到多學(xué)科的研究領(lǐng)域,不同領(lǐng)域上的研究成果都對語音識別的發(fā)展作了貢獻(xiàn)。讓機(jī)器識別語音的困難在某種程度上就像一個外語不好的人聽外國人講話一樣,它和不同的說話人、不同的說話速度、不同的說話內(nèi)容、以及不同的環(huán)境條件有關(guān)。語音信號本身的特點造成了語音識別的困難。這些特點包括多變性,動態(tài)性,瞬時性和連續(xù)性等。 計算機(jī)語音識別過程與人對語音識別處理過程基本上是一致的。目前主流的語音識別技術(shù)是基于統(tǒng)計模式識別的基本理論 3。一個完整的語 音識別系統(tǒng)可大致分為三部分: 太原理工大學(xué)碩士研究生學(xué)位論文 2 ( 1)語音特征提?。浩淠康氖菑恼Z音波形中提取出隨時間變化的語音特征序列。 ( 2)聲學(xué)模型與模式匹配(識別算法):聲學(xué)模型通常將獲取的語音特征通過學(xué)習(xí)算法產(chǎn)生。在識別時將輸入的語音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,得到最佳的識別結(jié)果。 ( 3)語言模型與語言處理:語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)或由統(tǒng)計方法構(gòu)成的語言模型,語言處理可以進(jìn)行語法、語義分析。對小詞表語音識別系統(tǒng),往往不需要語言處理部分。 我國語音識別研究工作起步于五十年代,但近年來發(fā)展很快。研究水平也從實驗 室逐步走向?qū)嵱谩?1987年開始執(zhí)行國家 863計劃后,國家 863智能計算機(jī)專家組為語音識別技術(shù)研究專門立項,每兩年滾動一次。我國語音識別技術(shù)的研究水平已經(jīng)基本上與國外同步,在漢語語音識別技術(shù)上還有自己的特點與優(yōu)勢,并達(dá)到國際先進(jìn)水平。 在電話與通信系統(tǒng)中,智能語音接口正在把電話機(jī)從一個單純的服務(wù)工具變成為一個服務(wù)的“提供者”和生活“伙伴”;使用電話與通信網(wǎng)絡(luò),人們可以通過語音命令方便地從遠(yuǎn)端的數(shù)據(jù)庫系統(tǒng)中查詢與提取有關(guān)的信息;隨著計算機(jī)的小型化,鍵盤已經(jīng)成為移動平臺的一個很大障礙,想象一下如果手機(jī)僅僅只有一個手表那么大,再用鍵盤進(jìn)行撥號操作已經(jīng)是不可能的。語音識別正逐步成為信息技術(shù)中人機(jī)接口的關(guān)鍵技術(shù),語音識別技術(shù)與語音合成技術(shù)結(jié)合使人們能夠甩掉鍵盤,通過語音命令進(jìn)行操作。語音技術(shù)的應(yīng)用已經(jīng)成為一個具有競爭性的新興高技術(shù)產(chǎn)業(yè)。 語音識別技術(shù)發(fā)展到今天, 在實驗室環(huán)境下, 特別是中小詞匯量非特定人語音識別系統(tǒng)識別精度已經(jīng)大于 98,對特定人語音識別系統(tǒng)的識別精度就更高。這些技術(shù)已經(jīng)能夠滿足通常應(yīng)用的要求。由于大規(guī)模集成電路技術(shù)的發(fā)展,這些復(fù)雜的語音識別系統(tǒng)也已經(jīng)完全可以制成專用芯片,大量生產(chǎn)。在西方經(jīng)濟(jì)發(fā)達(dá)太原理工大學(xué)碩士研究生學(xué)位論文 3 國家,大 量的語音識別產(chǎn)品已經(jīng)進(jìn)入市場和服務(wù)領(lǐng)域。一些 電話機(jī)、手機(jī)已經(jīng)包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產(chǎn)品也包括語音識別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識別口語對話系統(tǒng)查詢有關(guān)的機(jī)票、旅游、銀行信息,并且取得很好的結(jié)果。調(diào)查統(tǒng)計表明多達(dá) 85以上的人對語音識別的信息查詢服務(wù)系統(tǒng)的性能表示滿意。 可以預(yù)測在近五到十年內(nèi),語音識別系統(tǒng)的應(yīng)用將更加廣泛。各種各樣的語音識別系統(tǒng)產(chǎn)品將出現(xiàn)在市場上。在短期內(nèi)還不可能造出具有和人相比擬的語音識別系統(tǒng),要建成這樣一個系統(tǒng)仍然是人類面臨的一個大的挑戰(zhàn), 我們只能一步步朝著改進(jìn)語音識別系統(tǒng)的方向一步步地前進(jìn)。至于什么時候可以建立一個像人一樣完善的語音識別系統(tǒng)則是很難預(yù)測的。就像在 60年代,誰又能預(yù)測今天超大規(guī)模集成電路技術(shù)會對我們的社會產(chǎn)生這么大的影響 4。 點檢測在語音識別系統(tǒng)中的地位和作用 作為一個完整的語音識別系統(tǒng),其最終實現(xiàn)及使用的效果不僅僅限 于 識別的算法 , 許多相關(guān)因素都直接影響著應(yīng)用系統(tǒng)的成功與否。語音識別的對象是語音信號,端點檢測的目的就是在復(fù)雜的應(yīng)用環(huán)境下的信號流中分辨出語音信號和非語音信號,并確定語音信號的開始及結(jié)束。一般 的信號流都存在一定的背景聲,而語音識別的模型都是基 于 語音信號訓(xùn)練的,語音信號和語音模型進(jìn)行模式匹配才有意義。因此從信號流中檢測出語音信號是語音識別的必要的預(yù)處理過程 (如圖 1 語音信號 A/端點檢測 參數(shù)分析 語音識別 應(yīng)用 圖 1音識別系統(tǒng)框圖 原理工大學(xué)碩士研究生學(xué)位論文 4 詳細(xì)說來,端點檢測有兩個過程: 1基于語音信號的特征,用能量、過零率、 熵 (音高 (參數(shù)以及它們的衍生參數(shù),來判斷信號流中的語音 /非語音信號。 2在信號流中檢測到語音信號后,判斷此處是否是語句的開始或結(jié)束點。 在商用語音系統(tǒng)中,由于信號多變的背景和自然對話模式而更容易使句中有停頓 (非語音 ),特別是在爆發(fā)聲母前總會有無聲間隙。因此,這種開始 /結(jié)束的判定尤為重要。此外端點檢測的目的還在于: 1減少識別器的數(shù)據(jù)處理量:可以大量減少信號傳輸量及識別器的運算負(fù)載,對于語音對話的實時識別有重要作用。 2拒絕非語音的信號:對非語音信號的識別不僅是一種資源浪費,而且有可能改變對話的狀態(tài),造成對用戶的困擾。 3在需要打斷功能的系統(tǒng)中,語音的起始點是必須的。在端點檢測找到語音的起始點時,系統(tǒng)將停止提示音的播放。完成打斷功能。 在語音識別中,端點檢測的性能對于識別的正確率,識別速度都有重要的影響。這表現(xiàn)在以 下幾個方面: 1、在語音識別和說話人識別中為了消除信道 的 影響通常采用倒譜均值相減的方法,這就需要對語音時段的端點準(zhǔn)確定位,這樣才能較精確計算代表信道影響的語音幀的均值,提高識別的準(zhǔn)確率。 2、如果識別前,移除信號中的靜音段,使得整句的似然得分累計更多的集中在語音段,而不是被語音和噪音所分散,這樣有助于識別率的提高。 3、在不斷變換的環(huán)境下對噪音和靜音建模是非常困難的。準(zhǔn)確的端點檢測事先移除單純噪音的時段對于噪音和靜音的精確建立有很大幫助。 4、 當(dāng)所處理信號含非語音時段非常長,準(zhǔn)確的端點可以極大提高計算速度。 5、對于 開放式的語音識別系統(tǒng),自適應(yīng)語音增強(qiáng),語音信號傳輸中,端點檢測都對系統(tǒng)性能有著重要影響。在開放式語音系統(tǒng)中,自適應(yīng)增強(qiáng)算法需要準(zhǔn)確的標(biāo)出噪音段用作噪音譜的自適應(yīng)估計,在語音信號傳輸中,例如開放廣播語音信息的傳輸,好的端點檢測能極大的降低所要傳輸?shù)男畔⒘俊?太原理工大學(xué)碩士研究生學(xué)位論文 5 隨著語音識別應(yīng)用的發(fā)展,越來越多系統(tǒng)將打斷功能作為一種方便有效的應(yīng)用模式。而打斷功能又直接依賴端點檢測。端點檢測對打斷功能的影響發(fā)生在判斷語音 /非語音的過程出現(xiàn)錯誤時。表現(xiàn)在過于敏感的端點檢測產(chǎn)生的語音信號的誤警將產(chǎn) 生 錯誤的打斷。例如,提示音被很強(qiáng)的背景噪 音或 其他 人的講話打斷,是因為端點檢測錯誤的將這些信號作為有效語音信號造成的。反之,如果端點檢測漏過了事實上的語音部分,而沒有檢測到語音。系統(tǒng)會表現(xiàn)出沒有反應(yīng),在用戶講話時還在播放提示音。端點檢測對識別系統(tǒng)的識別效果影響也很大。語音信號的起始點和結(jié)束點判斷有誤,有可能影響整個信號的完整性,在語句的開頭或結(jié)尾漏掉一些有用的數(shù)據(jù)。當(dāng)這種情況發(fā) 生 時,很可能對識別的準(zhǔn)確度有特別大影響。不完全的信息會使識別率降低。 內(nèi)外研究現(xiàn)狀 語音端點檢測算法經(jīng)過幾十年 的發(fā)展 5,產(chǎn)生了很多方法 ,而且隨著語音技術(shù)在現(xiàn)代科學(xué)中的重要性不斷增大,也不斷的有新方法被提出 來滿足需要。下面對端點檢測研究的發(fā)展作個簡單的介紹 6。 1978年 美 于濁音段的短時能量較之背景噪聲的短時能量高,而清音等一些音素的短時平均過零率比背景噪聲的過零率高出好幾倍,兩種結(jié)合起來成為區(qū)別語音信號和背景噪聲的一種有效方法。 1987年, J G 發(fā)聲器官 的物理特性所決定,語音信號的特性隨時間的變化是比較緩慢的,大致可以認(rèn)為在每 10語音信號進(jìn)行譜分析,用其譜的峰值點作為子詞的分段點;同年, 1991年 二幀信號 年 , 先用 20算幾個復(fù)倒譜系數(shù)及其增量,能量及太原理工大學(xué)碩士研究生學(xué)位論文 6 其增量 。 兩幀信號間有 101993年 方法首先對每幀語音信號建立一個模型,然后計算相鄰兩模型的似然程度,以似然程度變化的峰值點作為分段點。 1994年 先通過一定的方法判斷此語音段是語音還是背景噪聲。對于每個語音幀 , 將其分為 4個 5于每個 5算其較為重要的 8個參數(shù):歸一化的短時低通能量、歸一化的短時高通能量、過零率、低頻帶的一階、二階反射系數(shù)、前向后向匹配相關(guān)系數(shù)及它們的乘積。這些參數(shù)描述了此語音信號的重要的信息,繼而用 一定的算法進(jìn)行推理,從而可以判定此信號是發(fā)聲段還是非發(fā)聲段。 1995年 算法首先將語音分成幾個相等的時間段,每一段用一個 誤差相等的原則,將原始信號歸類成 年 , 張剛等提出一種基于自相關(guān)系數(shù)的分段方法。 1996年 段算法,該方法以參數(shù)濾波的手段測度語音信號相關(guān)結(jié)構(gòu)的變化 。 1997年 該方法的抗噪性能較好。 1998年 音端點檢測 ,在降低計算量的同時提高了算法的性能。 除了以上幾種方法之外, 近些年以來 ,還有短時分形維數(shù)的 帶噪聲語音信號端點檢測方法 7;應(yīng)用倒譜系數(shù)作 為判決特征的帶噪語音端點檢測方法 8,它包括應(yīng)用倒譜距離測量軌跡和應(yīng)用循環(huán)神經(jīng)網(wǎng)絡(luò)的方法。 經(jīng)過研究 發(fā)現(xiàn),倒譜特征參數(shù)的語音信號端點檢測方法在噪聲環(huán)境下具有傳統(tǒng)的能量方法無法比擬的優(yōu)越性?;?9,用 出語音的哪些語 音幀與 模型 相匹配,從而得出端點所在處。實驗表明這種方法的準(zhǔn)確率明顯高于基于能量的方法。但是 7 練環(huán)境通常與實際被測信號的語音環(huán)境會有很大的差異,即背景噪聲模型與實際情況不符合,此時性能會顯著下降。因此,必須采用能自適應(yīng)調(diào)節(jié)的背景噪聲模型,具體實現(xiàn)方法還在研究中。另外,還有采用多層感知機(jī) 10、采用自適應(yīng)線形神經(jīng)元網(wǎng)絡(luò) (端點檢測方法 11。 隨著小波分析在信號處理領(lǐng)域的廣泛應(yīng)用,也有不少基于小波分析語音端點檢測算法被提出,如: 選擇小波部分子帶跟蹤 信號的能量變化以實現(xiàn)端點檢測 12, 將小波變換模極大值應(yīng)用于信號突變點的檢測 13等 本論文重點研究 基于小波分析的端點檢測 方法,利用小波變換對 語音信號進(jìn)行分解 ,提 取各個子帶的小波系數(shù), 并對 小波系數(shù) 進(jìn)行特征提取或概率分析來實現(xiàn)語音的端點檢測 。 種常用的端點檢測方法 在上一 節(jié) 我們給出了語音識別系統(tǒng)框圖(圖 1, 并介紹了語音端點檢測在語音識別系統(tǒng)中的作用與研究現(xiàn)狀,本 節(jié) 將介紹幾種常用的語音端點檢測方法。在很長一段時間里,語音端點檢測算法主要依據(jù)是語音信號的時域特性。其采用的主要參數(shù)有短時能量、短 時平均過零率等,即通常說的基于能量的端點檢測方法。這些算法在實驗室環(huán)境下具有良好的性能,但在噪聲環(huán)境下,則無法達(dá)到其應(yīng)有的效果。近年來,隨著通信業(yè)的迅猛發(fā)展,在各行業(yè)對通信系統(tǒng)語音質(zhì)量的客觀評價以及語音識別方法等技術(shù)實用化的強(qiáng)烈需求下,又出現(xiàn)了很多的語音端點檢測算法。它們主要是通過采用各種新的特征參數(shù),以提高算法的抗噪聲性能。如基于 1994年 有諸如倒譜系數(shù)、短時頻帶方差、自相關(guān)相似距離、信息熵等也逐漸的被應(yīng)用到端點檢測中。有時,還通過將信號的幾種特征組合成 為一個新的特征參數(shù)來進(jìn)行端點檢測。對語音端點的判決方式也由原來的單一門限、雙門限發(fā)展到基于模糊理論的判決方式。 太原理工大學(xué)碩士研究生學(xué)位論文 8 到目前端點檢測的研究已經(jīng)經(jīng)歷了幾十年,產(chǎn)生了很多方法。這些方法可以分為兩大類 :基于特征和基于模型的方法。 (一) 基于特征的方法,它又可分為基于魯棒特征的方法和特征濾波的方法?;隰敯籼卣魉枷氲某霭l(fā)點是尋找能表征語音和噪音在不同域差異的特征來進(jìn)行語音和噪音時段的區(qū)分,所用特征主要有能量 、 子帶能量 、 過零率 、 基頻 、 周期度量 、 熵 和 能量方差等?;谔卣鳛V波的思想的出發(fā)點是對特征先進(jìn)行濾波,然后進(jìn)行端點檢測, 主要算法有子空間濾波,能量差分自適應(yīng)濾波等。 ( 二) 基于模型的方法,基于模型思想的出發(fā)點是針對噪音和語音進(jìn)行建模用以來區(qū)分語音時段。此類算法把語音信號端點檢測問題看作是對每幀信號進(jìn)行分類,任意時刻的語音特征矢量 )i 生的。即0H(語音 ):0()和1H(背景 ):1()。而1()f 滿足 布,即1( ) ( ) m R ,。通過建立相應(yīng)的檢測準(zhǔn)則 (如 則 ),對每幀語音矢量進(jìn)行劃分,確定其屬于0 時能量 及過零率 有不少端點檢測算法是基于信號的短時能量 14。 先算出背景噪聲能量的統(tǒng)計特性 , 定出能量門限 , 利用能量門限來確定語音信號的 起止點 。 這種方法在背景噪聲幅度保持恒定 , 且遠(yuǎn)低于語音信號幅度時 , 并且對孤立字的最小幀數(shù)、最大幀數(shù)、句子間間隙的最小幀數(shù) , 以及人為的突變性音節(jié)幀數(shù)有充分先驗知識的條件下 , 可以十分有效地準(zhǔn)確檢測出語音信號的端點。尤其在用過零率方法作輔助處理來調(diào)整檢測后的端點時 , 測出的端點位置是比較準(zhǔn)確的 。 然而 , 當(dāng)該類算法在信噪比較低的情況下 , 檢測性能開始惡化 。 在更惡劣的情況下 , 甚至完全不能檢測出其端點 。 而且 , 過零率方法在背景噪聲是汽車噪聲、麥克風(fēng)噪聲或白噪聲時 , 噪聲的過零率均不相同 , 有時與語音某些音節(jié)的過零率相重疊 , 也很難作為一種輔助的判據(jù)。 太原理工大學(xué)碩士研究生學(xué)位論文 9 為減少背景對檢測結(jié)果精度的影響 , 針對漢語語音 信號大部分以聲母開始以韻母結(jié)束的特點,在基于短時幀能量的雙門限 檢測算法基礎(chǔ)上, 有人 提出帶背景噪聲動態(tài)估計的語音端點檢測方法。用短時幀過零率進(jìn)行語音開始點的檢測,用短時幀能量背景噪聲動態(tài)估計,進(jìn)行語音端點檢測,過程如圖 1 圖 1音端點檢測過程 常的算法如 下:首先對語音信號進(jìn)行分幀處理 , 然后進(jìn)行預(yù)處理 。 預(yù)處理包括預(yù)加重和加窗處理 , 預(yù)加重即信號通過僅有一個零點的濾波器 1( ) 1H z z ,其中 接近或等于 1。 加窗處理是用窗函數(shù) ()乘一幀的語音信號 ()從而形成加窗語音 ( ) ( ) ( )xs n s n x n。其次是計算語音信號的短時幀能量時幀能量 1 21()s n ()離散語音信號時間序列; N 為幀長。 然后對背景噪聲動態(tài)估計 ,采用基于短時幀能量的雙門限語音端點檢測算法,進(jìn)行語音信號端點檢測作為語音起止點初判,設(shè)一個較高的門限以確定語音開始,再取一個比以確定真正的開始點及結(jié)束點 。 提取噪聲段,計算噪聲段幅值的平均值作為帶門限短時幀過零率的門限值 T 。高門限 a=低門限 H=其中:計算語音信號短時幀能量和 帶門限短時幀過零率 計算門限值 提取語音 輸入 語音 背景 噪音 有效 語音 太原理工大學(xué)碩士研究生學(xué)位論文 10 平均值,12,為經(jīng)驗值。 計算語音信號的帶門限短時幀過零率 11| ( ) ( 1 ) | | ( ) ( 1 ) | g n s n T S g n s n T S g n s n T S g n s n T (其中 )號函數(shù) ,即 1 ( ) 0 ( ) 0 ( ) 0g n s ;T 為計算得到的 低 門限值 。 用帶門限短時幀過零率 若連續(xù)五幀的帶門限短時過零率則第一次超過幀為語音開始幀 ; 若連續(xù)三幀的短時幀能量則首幀作為語音的結(jié)束幀 。 過零率 門限 (其中 : 為經(jīng)驗值 。 對背景噪聲進(jìn)行動態(tài)估計的帶門限短時幀過零率1魯棒性 。 根據(jù)漢語語音信號的特點 ,針對背景噪聲動態(tài)估計 ,及短時幀能量和帶門限短時幀過零率在語音信號中的規(guī)律性 ,進(jìn)行端點檢測 ,適應(yīng)變化的環(huán)境 ,有很高的精度和魯棒性。 但 常用的基于短時能量的端點檢測方法對于能量較低的音節(jié)或在信噪比較低的環(huán)境下 ,檢測性能不夠理想 。 函數(shù) 根據(jù)語音信號的波形特征,利用熵函數(shù)的性質(zhì)可使用一種基于熵函數(shù)的判決方法為端點檢測提供了一種 有效 的方法 15。 首先是熵函數(shù)的構(gòu)造,對于一個有限離散概率場的不確定性,可由隨機(jī)變量的熵來定義。設(shè) X 是取有限個值的隨機(jī)變量,則 X 取 1 , 2 , , X x i n , (則 X 的熵定義為 太原理工大學(xué)碩士研究生學(xué)位論文 11 1( ) l o gn p p (且 0 lo g 0 ( 熵 H 代表了 X 的信息量且熵函數(shù)具有這樣的性質(zhì) , 當(dāng) n 個概率就是 X 的概率分布越模糊,越難以判斷,熵值越大,當(dāng)然隨機(jī)變量所能包含的信息量也越大。下面來構(gòu)造用于語音端點檢測的熵函數(shù) , 假設(shè)語音信號 () , 在一幀語音中最大與最小幅度分別為 - , 分別統(tǒng)計這一區(qū)域中 ( ) , ( , )n s s M M 出現(xiàn)的次數(shù)并將比例 / 。 顯然 , 1 定義此幀語音的熵為 : l o gM p p (由于語音信號的幅度相對于背景噪聲而言其幅度的動態(tài)范圍大 , 因此直觀地講可以認(rèn)為隨機(jī)信號在 ( , )中的隨機(jī)事件多故平均信息量大也就是熵值大而無聲狀態(tài)的幅度小 、 分布相對集中 , 因而熵值小 。 在構(gòu)造出了熵函數(shù)之后就可以計算出每幀語音信號的信息熵 , 正如上面所述背景噪聲信號的熵值小而濁音信號的熵值大 。 因此可以這樣來進(jìn)行端點檢測 , 首先通過實驗確定一個閾值 h, 然后對每幀語音的熵值進(jìn)行比較 , 大于 h 為語音幀 ,小于 h 則為無聲幀 , 即為語音的端點 。 1;0;l a g H 再判(譜特征 倒譜能很好表示語音的特征 ,因此在大多數(shù)語音識別系統(tǒng)中選擇倒譜系數(shù)作太原理工大學(xué)碩士研究生學(xué)位論文 12 為輸入特征矢量。在噪聲環(huán)境下 ,短時能量與 其他 特征參數(shù)都不能很好地區(qū)分語音段與非語音段,因此采用倒譜系數(shù)來作為端點檢測的參數(shù) 16。 信號的復(fù)倒譜定義為信號能量譜密度函數(shù) ()S 的對數(shù)的傅里葉級數(shù) , )S 的傅里葉級數(shù)表示式為 l o g ( ) n c e (式中為實數(shù),通常稱為倒譜系數(shù),且 01 l o g ( )2c S d (對于一對譜密度函數(shù) ( ) ( )與 ,利用 用譜的倒譜距離表示對數(shù)譜的均方距離為 : 2 21 | l o g ( ) l o g ( ) | ( )2c e p n S d c c (式中 , ( ) ( )與 的倒譜系數(shù)。 對數(shù)譜的均方距離表示兩個信號譜的差別,故可用來作為一個判決參數(shù)。實際上,由于0 基于能量的端點檢測可以看作倒譜距離的一個特例。倒譜距離的測量法步驟類似于基于能量的端點檢測, 只是 將倒譜距離代替短時能量來作為門限。首先,假定前幾幀信號是背景噪聲,計算這些幀的倒譜系數(shù)矢量,利用前幾幀倒譜矢量的平均值可估計背景噪聲的倒譜矢量,噪聲倒譜矢量的近似值可按下述規(guī)則進(jìn)行更新,即當(dāng)前幀被認(rèn)為是非語音幀: (1 ) tc p c p c (式中 c 為噪聲倒譜矢量的近似值,p 為調(diào)節(jié)參數(shù) . 太原理工大學(xué)碩士研究生學(xué)位論文 13 式 (示的倒譜距離可以利用式 (近似計算: 20014 . 3 4 2 9 ( ) 2 ( )pc e p n c c c c (式中 cc 的噪聲倒譜系數(shù) , 計算所有測試幀與背景噪聲之間的倒譜距離可得到倒譜距離軌跡 。 類似于基于能量的端點檢測過程 , 利用倒譜距離軌跡可檢測語音的端點 。 馬爾可夫 (隱馬爾可夫模型是語音識別技術(shù)中目前應(yīng)用最廣泛的一種模型。在訓(xùn)練階段,訓(xùn)練語音對模 型各狀態(tài)的統(tǒng)計特性進(jìn)行訓(xùn)練,得出模型參數(shù)。在測試階段,待測語音與訓(xùn)練模型進(jìn)行匹配,選擇得分最高的作為識別結(jié)果。根據(jù) 試把 為所謂“端點”,無非就是把被測信號看作是有兩部分組成:背景 ( 語音( 。在訓(xùn)練階段,分別得出背景噪聲和 語音 的模型參數(shù)。在測試階段,用 出 被測 語音的哪些幀與背景噪聲匹配,哪些幀與 語音 匹配,從而得出端點的所在處。一個完整的基于 圖 于 n 1)為了能有效地采用 對每幀待測語音進(jìn)行預(yù)處理。包括:預(yù)加重處理。按下式設(shè)計一個一階高通濾波器: 1( ) 1H z z 同,其中預(yù)預(yù)處理 碼 光滑處理 端點輸出 待測語音 背景噪聲模型 語音模型 太原理工大學(xué)碩士研究生學(xué)位論文 14 加重系數(shù) 一般選擇為 用預(yù)加重的原因是它可以有效地壓縮輸入語音的動態(tài)范圍,使后面的 時,高通濾波器可以有效地濾除輸入信號中的直流成分。開窗處理,一般采用漢明 (。根據(jù)語音信號的特點一般在本應(yīng)用中,數(shù)字采樣率為 8口總長度設(shè)計成 30每個窗口有 240個采樣點。窗口每次位移 10 20口的重疊起到了平滑特征參數(shù)的作用。倒譜計算,對每幀語音求出 取 p=12。倒譜加權(quán)處理,為了避免倒譜系數(shù)數(shù)值過小而對識別造成影響,一般均采用上升正弦函數(shù)進(jìn)行倒濾波處理。倒譜系數(shù)的一階和二階導(dǎo)數(shù)處理 22( ) ( ) , ( ) ( )i i k i i m C k C m C m C k C m (其中: 能量及其他特征處理。對每幀語音求出其對數(shù)能量,及能量的一階和二階導(dǎo)數(shù)。這樣,在本實驗中,通過預(yù)處理,對每幀待測語音共提取出 39個特征值,構(gòu)成一特征矢量。 (2)上述預(yù)處理后的語音送入 用 (3)光滑處理,由于基于 語音逐幀進(jìn)行處理,對字間間隙比較敏感,所以,必須用中值濾波進(jìn)行平滑處理 題研究背景 隨著越來越多的學(xué)者對語音端點檢測技術(shù)的關(guān)注,大量的新的語音端點檢測算法相繼被提出。通過大量的文獻(xiàn)調(diào)研與實際研究發(fā)現(xiàn),現(xiàn)有的各種語音信號端點檢測技術(shù)都存在各自的不足,比如基于自相關(guān)相似距離的語音信號端點檢測方法,總的來說它與 是對于結(jié)尾的判斷卻優(yōu)于 是因為語音大多以濁音結(jié)尾,此時自相關(guān)法的判斷精度較高,但是對于清音開太原理工大學(xué)碩士研究生學(xué)位論文 15 頭的語音,尤其是 S、 n等音節(jié),自相關(guān)算法的檢 測精度就不高。主要幾類方法各自的優(yōu)點與不足列于表 1 表 1類方法優(yōu)缺點比較 法 優(yōu)點 缺點 短時平均過零率法 較簡單 難以識別弱爆破音、摩擦音、末尾的 鼻音拖長的元音等 短時能量法或平
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 在線學(xué)習(xí)平臺在教育政策執(zhí)行中的作用
- 抖音商戶直播選品匹配度評估制度
- 抖音商戶場控直播網(wǎng)絡(luò)穩(wěn)定性保障制度
- 抖音商戶直播話題熱度跟蹤制度
- 全球教育變革中2025年跨文化交流能力培養(yǎng)的課程開發(fā)研究
- 全球鈾礦資源地理分布與核能產(chǎn)業(yè)未來發(fā)展挑戰(zhàn)研究報告
- Carbonic-anhydrase-inhibitor-30-生命科學(xué)試劑-MCE
- 黑龍江農(nóng)業(yè)職業(yè)技術(shù)學(xué)院《制藥工程綜合設(shè)計》2023-2024學(xué)年第一學(xué)期期末試卷
- 嵩山少林武術(shù)職業(yè)學(xué)院《電影鏡頭畫面創(chuàng)作》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東省中學(xué)山市四中學(xué)2024-2025學(xué)年數(shù)學(xué)七上期末學(xué)業(yè)質(zhì)量監(jiān)測模擬試題含解析
- 2024年湖南城建職業(yè)技術(shù)學(xué)院輔導(dǎo)員考試真題
- 2024-2025學(xué)年下學(xué)期高一數(shù)學(xué)人教A版期末必刷常考題之頻率與概率
- 設(shè)備易損配件管理制度
- 青霉素過敏反應(yīng)的急救
- 2025-2030中國鋁業(yè)發(fā)展?fàn)顩r與投資戰(zhàn)略研究報告
- 2025年國家醫(yī)療器械抽檢品種檢驗方案
- 防汛物資儲備定額編制規(guī)程(SL298-2024)
- 無人機(jī)培訓(xùn)創(chuàng)業(yè)計劃書-20250205-222450
- 輿情分析試題及答案
- 營運車輛入股協(xié)議書
- 高中數(shù)學(xué)專項提升計劃
評論
0/150
提交評論