




已閱讀5頁,還剩27頁未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
笪慶1,方超2,單夢凡3,封孔飛4 DaQing1,F(xiàn)angChao2,ShanMengfan3,F(xiàn)engKongfei4 061221015 061221021 061221016 061221022,摘要: 語音作為一個交叉學(xué)科,具有深遠(yuǎn)的研究價值,近 50 年的研究發(fā)展,語音識別技術(shù)已經(jīng)有了極大的發(fā)展,但大多數(shù)產(chǎn)品能存在與實(shí)驗(yàn)室,沒有達(dá)到使用化的效果,所以語音識別的研究還要更加深入。本為主要闡述了小波變換在語音信號去噪的應(yīng)用,語音端點(diǎn)的檢測,語音特征的提取及一種簡單的語音識別算法。,引言 語音識別系統(tǒng)構(gòu)成 語音信號的小波去噪 語音信號的端點(diǎn)檢測 語音特征的提取 基于DTW的語音識別算法 實(shí)驗(yàn)結(jié)果及分析,讓計算機(jī)能聽懂人類的語言,是人類自計算機(jī)誕生以來夢寐以求的想法。隨著計算機(jī)越來越向便攜化方向發(fā)展,隨著計算環(huán)境的日趨復(fù)雜化,人們越來越迫切要求擺脫鍵盤的束縛而代之以語音輸入這樣便于使用的、自然的、人性化的輸入方式。尤其是漢語,它的漢字輸入一直是計算機(jī)應(yīng)用普及的障礙,因此,利用漢語語音進(jìn)行人機(jī)交互是一個極其重要的研究課題。它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語音咨詢與管理,工業(yè)生產(chǎn)部門的語聲控制,電話、電信系統(tǒng)的自動撥號、輔助控制與查詢,以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實(shí)際應(yīng)用領(lǐng)域相接軌,并且有望成為下一代操作系統(tǒng)和應(yīng)用程序的用戶界面了。,前端處理包括語音的錄入、處理、特征值的提取 后端是個夸數(shù)據(jù)庫的搜索過程, 分為訓(xùn)練和識別 訓(xùn)練是對所建的模型進(jìn)行評估、匹配、優(yōu)化, 獲得模型參數(shù) 識別是一個專用的搜索數(shù)據(jù)庫,獲取前端數(shù)值后, 有聲學(xué)模型、一個語言模型和一個字典, 聲學(xué)模型表示一種語言的發(fā)音聲音, 可以通過訓(xùn)練來識別特定用戶的語音模型和發(fā)音環(huán)境的特征, 語言模型是對語料庫單詞規(guī)則化的概率模型。字典列出了大量的單詞及發(fā)音規(guī)則。總體上說,語音識別是一個模式識別匹配的過程。在這個過程中,計算機(jī)首先要根據(jù)人的語音特點(diǎn)建立語音模型, 對輸入的語音信號進(jìn)行分析,并抽取所需的特征,在此基礎(chǔ)上建立語音識別所需的模板。然后,在識別過程中,計算機(jī)根據(jù)語音識別的整體模型,將計算機(jī)中已經(jīng)存有的語音模板與輸入語音信號的特征進(jìn)行比較, 并根據(jù)一定的搜索和匹配策略找出一系列最優(yōu)的與輸入語音匹配的模板。最后通過查表和判決算法給出識別結(jié)果。顯然,識別結(jié)果與語音特征的選擇、語音模型和語言模型的好壞、模板是否準(zhǔn)確等都有直接的關(guān)系。,語音去噪技術(shù)是語音信號處理的一個重要分支,它在解決噪聲污染、改進(jìn)語音質(zhì)量、提高語音可懂度等方面發(fā)揮著越來越重要的作用。當(dāng)噪聲與語音的頻譜相似時,傳統(tǒng)的單純時域或頻域處理往往無法達(dá)到很好的效果。小波變換是一種多尺度的信號分析方法,是分析非平穩(wěn)信號的有力工具。它克服了短時傅里葉變換固定分辨率的弱點(diǎn),既可以分析信號的概貌,又可以分析信號的細(xì)節(jié)。利用小波變換實(shí)現(xiàn)信號去噪,具有很好的效果。小波閾值去噪方法是實(shí)現(xiàn)最簡單、計算量最小的一種方法,因而得到了最廣泛的應(yīng)用,設(shè)(t)L2(R)(L2(R)表示平方可積的實(shí)數(shù)空間,即能量有限的信號空間), 其傅立葉變換為()。當(dāng)()滿足允許條件:,時,我們稱(t)為一個基本小波或母小波,將母函數(shù)(t)經(jīng)伸縮或平移后, 就可以得到一個小波序列。,對于連續(xù)的情況,小波序列為,其中a為伸縮因子,b為平移因子。對于離散的情況, 小波序列為,對于任意的函數(shù)f(t)L2(R)的連續(xù)小波變換為,,,小波去噪方法大致可分為三類, 第一類是基于小波變換模極大值原理進(jìn)行去噪; 第二類是對含噪聲信號作小波變換之后,計算相鄰尺度間小波系數(shù)的相關(guān)性,根據(jù)相關(guān)性區(qū)別小波系數(shù)的類型; 第三類是閾值去噪。閾值去噪即對小波系數(shù)設(shè)置閾值, 在眾多小波系數(shù)中, 把絕對值較小的系數(shù)置為零,而讓絕對值較大的系數(shù)保留或收縮, 然后對閾值處理后的系數(shù)進(jìn)行小波逆變換,直接進(jìn)行信號重構(gòu), 即可達(dá)到去噪的目的。 小波閾值去噪的主要理論依據(jù)為:信號在小波域內(nèi)其能量主要集中在有限的幾個系數(shù)中, 而噪聲的能量卻分布于整個小波域內(nèi)。因此經(jīng)小波分解后, 信號的小波變換系數(shù)要大于噪聲的小波變換系數(shù)。于是可以找到一個合適的數(shù)作為閾值,當(dāng)小波系數(shù)小于該閾值時, 認(rèn)為這時的小波系數(shù)主要是由噪聲引起的;當(dāng)小波系數(shù)大于該閾值時, 則認(rèn)為其主要是由信號引起的。選擇一個合適的閾值, 對小波系數(shù)進(jìn)行閾值處理, 就可以達(dá)到去除噪聲而保留有用信號的目的。,實(shí)驗(yàn)中通過改進(jìn)matlab系統(tǒng)函數(shù)ddencmp求解得閾值,并對閾值進(jìn)行了一定修改,由于實(shí)驗(yàn)中閾值很小,在經(jīng)過多次比較后,決定把已經(jīng)求得的閾值thr+0.3作為重建小波的閾值。,含高斯白噪聲的隨機(jī)信號,去噪后的信號,對于簡單的直接加入高斯噪聲的信號,去噪效果還是比較理想的,但在具體實(shí)驗(yàn)中,環(huán)境變量等其他因素引起的噪聲情況比較復(fù)雜,效果并沒有以上明顯。 考察主要因素還是閾值的確定存在缺陷,故還應(yīng)在閾值函數(shù)上多加改進(jìn),語音信號的端點(diǎn)識別是語音處理和語音識別的基礎(chǔ),然而在噪聲環(huán)境下識別語音信號的端點(diǎn)往往比較困難的。我們采用的是經(jīng)典的雙門限檢測法,為了區(qū)分噪音和語音,很直觀的一種方法是用信號的幅度作為特征,只要設(shè)定一個門限,當(dāng)信號的幅度超過該門限的時候,就認(rèn)為語音開始,當(dāng)幅度降低到門限以下就認(rèn)為語音結(jié)束。 實(shí)際上,一般我們是使用短時能量的概念來描述語音信號的幅度的。對于輸入的語音信號x(n),其中n為采樣點(diǎn),首先進(jìn)行分幀的操作,將語音信號分成2030毫秒一段,相鄰的兩幀之間有1020毫秒的交疊。具體的幀長和幀移隨采樣頻率不同而不同。,對于第i幀,第n個樣本,他與原始語音信號的關(guān)系為:,第i幀語音信號的短時能量可以用下面幾種算法得到:,將語音信號分幀后計算每幀的短時能量,再設(shè)一個門限,就可以實(shí)現(xiàn)一個簡單的端點(diǎn)檢測算法。但是這樣的算法是很不可靠的,因?yàn)槿说恼Z音分清音和濁音兩種。濁音為聲帶振動發(fā)出,對應(yīng)的語音信號有幅度高周期性明顯的特點(diǎn),而清音則不會有聲帶的振動,只是靠空氣在口腔中的摩擦、沖擊或爆破而發(fā)聲,其短時能量一般比較小,往往會被基于能量的算法漏過去。所以我們用過零率來進(jìn)行修正。,盡管不能用短時能量可靠地區(qū)分清音和靜音,但是還是可以發(fā)現(xiàn)在靜音段信號的波形變化相對比較緩慢,而在清音段,由于口腔空氣摩擦的效果,所造成的波形在幅度上的變化比較劇烈,通??梢杂靡粠盘栔胁ㄐ未┰搅汶娖降拇螖?shù)來描述這種變化的劇烈程度,稱為過零率。即:,將短時能量和過零率結(jié)合起來,對一段語音進(jìn)行單個語音端點(diǎn)的檢測:,對連續(xù)語音進(jìn)行語音分割:,5.1 線性預(yù)測系數(shù) 5.2 線性預(yù)測倒普系數(shù) 5.3 Mel頻率倒普系數(shù),語音信號是一種典型的時變信號,然而如果把觀察時間縮短到十毫秒至十幾毫秒,則可以得到一系列近似穩(wěn)定的信號。人的發(fā)音器官可以用若干段前后連接的聲管斤進(jìn)行模擬,這就是所謂的聲管模型。由于發(fā)音器官不可能毫無規(guī)律地快速變化,因此語音信號是準(zhǔn)穩(wěn)定的全極點(diǎn)線性預(yù)測模型可以對聲管模型進(jìn)行很好的描述,這里信號的激勵源是由肺部氣流的沖擊引起的,聲帶可以有周期振動也可以不振動,分別對應(yīng)濁音和清音,而每個聲管則對應(yīng)一個LPC模型的極點(diǎn)。一般情況下,極點(diǎn)的個數(shù)在1216個之間,就足夠清晰地描述語音信號的特征了。,語音信號的聲管模型,在語音識別系統(tǒng)中,很少直接使用LPC系數(shù),而是由LPC系數(shù)推導(dǎo)出另一種參數(shù):線性預(yù)測倒普系數(shù)(LPCC),其遞推式如下:,式中 a1 ,., ap 為 p階 LPC特征向量。cn , n = 1,., p, p為倒譜的前 p個值, 當(dāng)LPCC的階數(shù)不超過 LPC階數(shù) p的時候 ,用第二式進(jìn)行計算;如果 LPCC階數(shù)大于 p, 則用第三式進(jìn)行計算 ,此時實(shí)際上是一種外推。,LPC模型是基于發(fā)音模型建立的,LPCC系數(shù)也是一種基于合成的參數(shù)。這種參數(shù)沒有充分利用人耳的聽覺特性。實(shí)際上,人的聽覺系統(tǒng)是一個特殊額度非線性系統(tǒng),它響應(yīng)不同頻率信號的靈敏度是不同的,基本上是一個對數(shù)的關(guān)系。近年來,一種能夠比較充分利用人耳這種特殊的感知特性的參數(shù)得到了廣泛的應(yīng)用,這就是Mel尺度倒譜參數(shù),或稱Mel頻率倒譜參數(shù)(MFCC)。 MFCC參數(shù)的計算是以“bark”為其頻率基準(zhǔn)的,它和線性頻率的轉(zhuǎn)換關(guān)系是:,MFCC參數(shù)的計算通常采用如下的流程: ( 1) 確定每一幀語音采樣序列的點(diǎn)數(shù),系統(tǒng)中取 N = 256點(diǎn)。對每幀序列 s ( n) 進(jìn)行預(yù)加重處理后再經(jīng)過離散 FFT變換,取模的平方得到離散功率譜 S ( n) 。 ( 2) 計算 S ( n) 通過 M 個濾波器 Hm ( n) 后得到的功率值,即計算 S ( n) 和 Hm( n) 在各離散頻率點(diǎn)上乘積之和,得到M 個參數(shù) pm ,m = 0,1,.,M-1。 ( 3) 計算 pm 的自然對數(shù),得到 Lm ,m = 0,1,.,M-1。 ( 4) 對 L0 ,L1 ,.,Lm - 1 計算其離散余弦變換, 得到 Dm ,m = 0,1,.,M-1。舍去代表直流成分的 D0 ,取 D1 ,D2 ,.,DK 作為M FCC參數(shù)。最后對MFCC進(jìn)行一階差分 ,得到一組新的M FCC差分系數(shù) ,作為特征矢量的一組分量。,差分參數(shù)的計算采用下面的公式:,這里的c和d都表示一幀語音參數(shù), k為常數(shù), 通常取 2,這時差分參數(shù)就稱為當(dāng)前幀的前兩幀和后兩幀的線性組合。,在孤立詞語音識別中,最為簡單有效的方法是采用DTW(Dynamic Time Warping,動態(tài)時間彎折),該算法基于動態(tài)規(guī)劃(DP)的思想,解決了發(fā)音長短不一的模板匹配問題,是語音識別中出現(xiàn)較早,較為經(jīng)典的一種算法。用于孤立詞識別,DTW算法與HMM算法在相同的環(huán)境下,識別效果相差不大。但HMM算法在訓(xùn)練階段需要提供大量的語音數(shù)據(jù),通過反復(fù)計算才能得到模板參數(shù),而DTW算法的訓(xùn)練中幾乎不需要額外的計算。,每個詞條通過端點(diǎn)檢測和特征提取存入模板庫,稱為一個參考模板,可以表示為R(1),R(2),.,R(m),.,R(M),R(m)為第m幀的語音特征矢量,M為該段語音幀總數(shù)。所要識別的一個輸入詞條稱為測試模板,可表示為T(1),T(2), .,T(n),.,R(N),T(n)為第n幀的語音特征矢量,N為該段語音幀總數(shù)。 為了比較他們之間的相似度,可以計算他們之間的距離DT,R,距離越小相似度越高。為了計算這一距離,應(yīng)從T和R中各個對應(yīng)幀之間的距離算起,設(shè)n和m分別是T和R中任意選擇的幀號,dT(n),R(m)為這兩幀間的距離,距離函數(shù)為歐式距離。 若N=M則可以直接計算,否則要考慮對齊的問題,這里采用了動態(tài)規(guī)劃的方法。如果把測試模板和參考模板的各個幀號在一個二維坐標(biāo)標(biāo)出,并畫出網(wǎng)格,于是問題歸結(jié)為尋找一條經(jīng)過網(wǎng)格的從(1,1)到(N,M)路徑,路徑通過的網(wǎng)格點(diǎn)的坐標(biāo)對應(yīng)的是進(jìn)行距離計算的兩個幀號。,為了描述這條路徑,假設(shè)路徑通過的所有格點(diǎn)依次為(n1,m1),.,(ni,mi),.,(nN,mN),路徑可以用函數(shù): 描述,為了使路徑不至于過分傾斜,可以約束斜率在0.52的范圍內(nèi),即如果路徑已通過了(ni-1,mi-1),則(ni,mi)只可能是: 1.(ni,mi)=(ni-1+1,mi-1+2); 2.(ni,mi)=(ni-1+1,mi-1+1); 3.(ni,mi)=(ni-1+1,mi-1); 于是求最佳路徑的問題可以歸結(jié)為求最佳路徑函數(shù)使得路徑的積累距離最小。,搜索該路徑的方法如下:搜索從(n1,m1)點(diǎn)出發(fā),可以展開若干條滿足約束條件的路徑。假設(shè)可計算每條路徑達(dá)到終點(diǎn)的總的積累距離,具有最小積累距離的路徑即為最佳路徑。易于證明,限定范圍的任意網(wǎng)格點(diǎn)(ni,mi)只可能有一條搜索路徑通過。對于(ni,mi),其可達(dá)到該網(wǎng)格點(diǎn)的前一個網(wǎng)格點(diǎn)只可能是(ni-1,mi),(ni-1,mi-1)和(ni,mi-2),那么(ni,mi)一定選擇這3個距離中最小的對應(yīng)的點(diǎn)為其前續(xù)網(wǎng)格點(diǎn),若用(ni-1,mi-1)代表此網(wǎng)格點(diǎn),并將通過該格點(diǎn)的路徑延伸而通過(ni,mi),此時路徑的累計距離為: 而: 這樣就可以從(ni,mi)=(1,1)出發(fā)直至搜索到(nN,mN)求得整條路徑,在我們這個實(shí)驗(yàn)中
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年湖南省廣播電視局下屬事業(yè)單位真題
- 合作伙伴選擇對生產(chǎn)計劃的影響
- 戲劇教育對學(xué)生心理發(fā)展的影響計劃
- 營養(yǎng)科飲食管理改進(jìn)目標(biāo)計劃
- 2024年河南省事業(yè)單位招聘筆試真題
- 2024年成都青羊區(qū)融媒體中心招聘筆試真題
- 材料力學(xué)性能測試時間因素重點(diǎn)基礎(chǔ)知識點(diǎn)
- 材料力學(xué)與計算機(jī)技術(shù)重點(diǎn)基礎(chǔ)知識點(diǎn)
- 軟件設(shè)計師職業(yè)發(fā)展規(guī)劃試題及答案
- 軟件開發(fā)中的跨團(tuán)隊(duì)協(xié)作方法試題及答案
- 2022年6月英語四級真題 第一套
- DB33∕T 2154-2018 公路橋梁后張法預(yù)應(yīng)力施工技術(shù)規(guī)范
- 新編應(yīng)用文寫作全套教學(xué)課件
- 四川省涼山州2022-2023學(xué)年七年級下學(xué)期期末歷史試題
- JBT 1306-2024 電動單梁起重機(jī)(正式版)
- QBT 2262-1996 皮革工業(yè)術(shù)語
- 《工程建設(shè)標(biāo)準(zhǔn)強(qiáng)制性條文電力工程部分2023年版》
- 心理干預(yù)各論家庭治療
- 《輸變電工程無人機(jī)傾斜攝影測量技術(shù)規(guī)程》
- 醫(yī)療廢物的分類及管理
- 2024氫氣長管拖車安全使用技術(shù)規(guī)范
評論
0/150
提交評論