![基于MATLAB的語音信號的端點檢測畢業(yè)論文_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-6/20/1d138a0a-2fd6-4473-9cff-4cf467aa42f2/1d138a0a-2fd6-4473-9cff-4cf467aa42f21.gif)
![基于MATLAB的語音信號的端點檢測畢業(yè)論文_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-6/20/1d138a0a-2fd6-4473-9cff-4cf467aa42f2/1d138a0a-2fd6-4473-9cff-4cf467aa42f22.gif)
![基于MATLAB的語音信號的端點檢測畢業(yè)論文_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-6/20/1d138a0a-2fd6-4473-9cff-4cf467aa42f2/1d138a0a-2fd6-4473-9cff-4cf467aa42f23.gif)
![基于MATLAB的語音信號的端點檢測畢業(yè)論文_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-6/20/1d138a0a-2fd6-4473-9cff-4cf467aa42f2/1d138a0a-2fd6-4473-9cff-4cf467aa42f24.gif)
![基于MATLAB的語音信號的端點檢測畢業(yè)論文_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-6/20/1d138a0a-2fd6-4473-9cff-4cf467aa42f2/1d138a0a-2fd6-4473-9cff-4cf467aa42f25.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、基于matlab的語音信號的端點檢測 摘要:語音端點檢測是指從一段語音信號中準確的找出語音信號的起始點和結束點,它的目的是為了使有效的語音信號和無用的噪聲信號得以分離,因此在語音識別、語音增強、語音編碼、回聲抵消等系統(tǒng)中得到廣泛應用。目前端點檢測方法大體上可以分成兩類,一類是基于閾值的方法,另一類方法是基于模式識別的方法,本文主要對基于閥值的方法進行研究。端點檢測在語音識別中占有十分重要的地位,直接影響著系統(tǒng)的性能。本文首先對語音信號進行簡單的時域和頻域分析及預處理,其次利用基于短時能量和短時過零率的雙門限算法進行語音端點檢測,并對這幾種用這種算法進行端點檢測,進行實驗分析,分析此方法的優(yōu)缺點
2、。關鍵詞:語音信號處理;語音端點檢測;雙門限;短時能量;短時過零率voice signal endpoint detection based on matlababstract:endpoint detection is a voice signal from the accurate speech signal to the identify start and the end points, the purpose is to enable to separated the effective voice signals and un-useful noise. so, in the sp
3、eech recognition system, speech enhancement, speech coding, echo cancellation and other systems are widely used.in current the endpoint detection can be roughly divided into two categories, one is based on the threshold method, another method is based on the method of pattern recognition , the main
4、in this paper is based on the method of threshold method. the endpoint detection is take a very important position in the speech recognition, it directly affects the performance of the system. in this article first domain analysis in simple speech signal time, than dual threshold algorithm, cepstrum
5、 algorithm, spectral entropy algorithm for endpoint detection, and these types of endpoint detection algorithms, and experimental analysis points and analysis the advantages and disadvantages of this method. key word:signal processing; voice activity detection; double threshold; short-time energy ;t
6、he rate of short-time zero-passing 1.緒論語音,即語言的聲音,是語言符號系統(tǒng)的載體。它由人的發(fā)音器官發(fā)出,負載著一定的語言意義,語言依靠語音實現(xiàn)它的社會功能。語音是人們交流思想和進行社會活動的最基本手段,因此我們要對語音信號進行處理分析,優(yōu)化人類通信交流。語音信號處理包括語音通信、語音增強、語音合成、語音識別和說話人識別等方面。語音信號的好壞、語音識別率的高低,都取決于語音信號處理的好壞。因此,語音信號處理是一項非常有意義的研究課程,而語音端點檢測是語音語音信號處理中非常重要的一步。語音端點檢測是語音分析、合成和識別中的一個重要環(huán)節(jié),目的是從包含語音的一段信
7、號中找出語音的起始點及結束點,從而只存儲和處理有效語音信號。所謂語音端點檢測,就是從一段給定的語音信號中找出語音的起始點和結束點。在語音識別系統(tǒng)中,正確、有效的進行端點檢測不僅可以減少計算量和縮短處理時間,而且能排除無聲段的噪聲干擾、提高語音識別的正確率。研究表明1,即使是在安靜的環(huán)境下,語音識別系統(tǒng)一半以上的錯誤可能主要來源于端點檢測。除此之外,在語音合成、編碼等系統(tǒng)中,高效的端點檢測也直接影響甚至決定著系統(tǒng)的主要性能。因此,端點檢測的效率、質量在語音處理系統(tǒng)中顯得至關重要,廣泛開展端點檢測實現(xiàn)手段方面的研究,有一定的現(xiàn)實意義2。有效的端點檢測不僅可以減少數(shù)據(jù)的存和處理時間,而且能排除無聲段
8、的噪聲干擾。端點檢測的困難在于無聲段或者語音段前后人為呼吸等產生的雜音、語音開始處的弱摩擦音或弱爆破音以及終點處的鼻音,這些使得語音的端點比較模糊,需要綜合利用語音的各種信號特征,從而確保定位的精確性,避免包含噪音信號和丟失語音信號。近年來出現(xiàn)了很多種端點檢測的方法如短時能量、短時過零率、傳統(tǒng)的雙門限法、倒譜特征的檢測方法、譜熵的檢測方法法、分形法等。本文借助matlab3采用短時能量和短時過零率結合的雙門限法語來進行語音端點檢測,此算法在純語音和高信噪比的情況下都檢測得比較好,但在低信噪比下檢測結果就不盡人意。盡管語音端點檢測技術在安靜的環(huán)境中已經達到了令人鼓舞的準確率,但是在實際應用時由于
9、聲的引入和環(huán)境的改變通常會使系統(tǒng)性能顯著下降。研究表明,即使在安靜的環(huán)境中,語音識別系統(tǒng)一半以上的識別錯誤來自端點檢測器。因此,作為語音識別系統(tǒng)的第一步,端點檢測的關鍵性不容忽視,尤其是噪聲環(huán)境下語音的端點檢測,實驗室的研究結果與復雜的實用環(huán)境下的語音端點檢測仍存在一定的差距,它的準確性很大程度上直接影響著后續(xù)的工作能否有效進行,如何準確地檢測出帶噪語音的端點至今仍是一個難題。1.1 研究背景及意義語音4是語言的聲學表現(xiàn)形式,語言是人類特有的功能,聲音是人類常用的信息交語言學、聲學、生理學、心理學和數(shù)學等諸多領域的內容。隨著現(xiàn)代科學的蓬勃發(fā)展,人類社會越來越顯示出信息社會的特點,猶如衣、食、住
10、、行對于人類是必要的一樣,通信和信息交換也成為了人類社會存在的必要條件,不但在人與人之間,而且在人與機器之間每時每刻都需要進行大量的信息交換。讓計算機聽懂人類的語言,是人類自計算機誕生以來夢寐以求的想法。計算機越來越向便攜化方向發(fā)展,計算環(huán)境的日趨復雜化,人們越來越迫切要求擺脫鍵盤的束縛。在電子計算機和人工智能機器的廣泛應用中,人們發(fā)現(xiàn),人和機器之間最好的通訊方式是直接進行語言通訊,實現(xiàn)人機自由對話,賦予機器以聽覺,辨別話音的內容或者辨別說話人的身份,使機器能夠按照人的意志進行各種操作,把人類從繁重或危險的勞動中解脫出來。用現(xiàn)代手段研究語音處理技術,使人們能更加有效地產生、傳輸、存儲、獲取和應
11、用語音信息,這對于促進社會的發(fā)展十分重要。語音技術的應用己經成為一個具有競爭性的高新技術產業(yè),它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語音咨詢與管理,工業(yè)生產部門的語聲控制,電話、電信系統(tǒng)的自動撥號、輔助控制與查詢以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實際應用領域相接軌,并且有望成為下一代操作系統(tǒng)和應用程序的用戶界面。語音處理內容涉及到計算機科學、模式識別、信號處理、生理學、語音學、心理學等學科,還涉及到信號和信息處理系統(tǒng)、通信和電子系統(tǒng)等具體應用領域。多媒體技術的發(fā)展,使語音技術逐漸在越來越多的場合中推廣使用,語音信號處理技術發(fā)展迅速,其研究成果具有重要的學術及應用價值,涉
12、及一系列前沿課題。語音信號處理與信息科學中最活躍的前沿科學密切聯(lián)系,并且共同發(fā)展。例如,神經網絡理論、模糊集理論、小波理論是當前熱門的研究領域,這些領域的研究常常把語音處理任務作為一個應用實例,而語音處理研究者也從這些領域的研究進展中找到突破口,使語音處理技術研究取得進展5。從技術角度講,語音信號處理是信息高速公路、多媒體技術、辦公自動化、現(xiàn)代通信及智能系統(tǒng)等新興領域應用的核心技術之一。經過幾十年的努力,語音信號處理在語音識別、語音增強、語音編碼、說話人識別、說話人情感識別、語音合成等方面取得了巨大的進步,然而,一旦這些技術應用在實際環(huán)境中,由于環(huán)境噪聲、信道、說話人自身因素等方面的影響,性能
13、急劇下降,因為在實際環(huán)境中沒有完全純凈的語音信號,一般都會伴有噪聲或其它干擾。例如,辦公室環(huán)境下,電腦風扇轉動的聲音,鍵盤敲打的聲音等都是噪聲,而語音信號處理系統(tǒng)的處理對象是有效語音信號,即排除了純噪聲段的語音信號段。語音端點檢測6的任務就是判斷待處理信號是語音還是非語音,從輸入信號中找到語音部分的起止點。端點檢測是語音識別、語音增強以及語音編碼等中的一個重要環(huán)節(jié)。有效的端點檢測技術不僅能減少系統(tǒng)的處理時間、提高系統(tǒng)的處理實時性,而且能排除無聲段的噪聲干擾,從而使后續(xù)工作的性能得以較大提高。語音端點檢測的準確性對于語音識別系統(tǒng)的性能有著較大的影響。在一個完整的語音識別系統(tǒng)中,許多相關因素影響著
14、整個系統(tǒng)的識別精度和效率,由于在自然環(huán)境中,純凈的語音信號總伴隨著各種不同類型的噪聲,而語音識別系統(tǒng)處理的對象是有效的語音信號,因此,由于噪聲的干擾,往往使得整個系統(tǒng)的識別率下降,有學者用一個多話者的數(shù)字識別系統(tǒng)做了如下一個實驗。首先對所有記錄的語音用手工找出準確的端點,得到它們的識別率;然后逐幀(幀長為15ms)加大端點檢測的誤差,在每次加大誤差的同時得到它們的識別率。結果表明在端點檢測準確時識別率為93%的系統(tǒng),當端點檢測的誤差在士60ms(4幀)時,識別率降低了3%;在士90ms(6幀)時,降低了10%;而當誤差在進一步加大時,識別率急劇下降。研究表明,即使在安靜環(huán)境下語音識別系統(tǒng)中一半
15、以上的識別錯誤都是因為語音端點檢測的不準確所造成的。所以,對于語音識基于強背景噪聲下的語音端點檢測算法及實現(xiàn)別系統(tǒng)來說,有效的端點識別不僅能夠減輕系統(tǒng)的運算負載,使得處理時間減少,提高了系統(tǒng)的實時性,而且能夠去除靜音時背景噪聲的干擾,從而大大提高系統(tǒng)的識別性能。因此,從混有不同噪聲的信號中準確提取純凈的語音信號就成了語音識別系統(tǒng)中的一個重要的環(huán)節(jié)。另外在通信系統(tǒng)中,典型的會話信道大約有40%的時間真正用于傳輸語音,其余60%的時間傳輸?shù)亩际庆o默和背景噪聲。由于可利用的頻譜資源隨著移動用戶的飛速發(fā)展而急劇下降。如何開發(fā)其余60%被浪費的信道資源就成為了提高系統(tǒng)容量的有效手段之一。如果在發(fā)送端設立
16、一個語音端點檢測器來區(qū)分語音和靜默以及背景噪聲,在接收端用舒適噪聲發(fā)生器來重構背景噪聲,這樣就可以極大的提高信道的利用率,而且也能保證重構語音的可懂度和自然度,因此準確的語音端點檢測是非常重要的。1.2 語音端點檢測研究現(xiàn)狀及存在的問題語音端點檢測和語音增強不同,它的任務是判斷待處理信號是語音還是非語音。語音端點檢測作為一種語音信號預處理技術,在實際應用中起著非常重要的作用,有效地進行端點檢測不僅可以減少計算量和縮短處理時間,而且能排除無聲段的噪聲干擾、提高語音識別的正確率,因此它廣泛應用于語音識別、語音增強、語音編碼、回聲抵消等系統(tǒng)中。而語音增強的目的是在語音和干擾中增強語音部分,同時抑制干
17、擾,對語音檢測的研究最早可以追溯到上個世紀的50年代。當時是在一個實時語音翻譯系統(tǒng)中,為了解決語音段和無語音段的檢測問題而提出來的。那時的算法名稱叫vad(voice aotivity detection),指的是將語音段和無語音段分開的處理過程。傳統(tǒng)的語音端點檢測算法都是針對實驗室安靜環(huán)境,直到近年來,噪聲環(huán)境下的語音端點檢測才開始研究。開發(fā)出了許多不同的算法,有基lpc倒譜距離的算法,自相關系數(shù),基于能量、基音檢測、過零率和頻能比等各種語音特征的算法,基于自適應模型的算法,基于倒譜分析的算法等。各有不同的延時、敏感度和運算量,這在實驗室環(huán)境下己經得到了很好的效果。但是當環(huán)境背景噪聲存在的情
18、況下,傳統(tǒng)的檢測算法都會因為受到污染而造成嚴重的誤判和漏判。 一般來說,理想的語音端點檢測算法應當能夠滿足以下幾點:(1)門限值應該可以對背景噪聲的變化有一定的適應性。(2)將短時沖擊噪聲和人的順嘴等瞬間超過門限的信號納入無聲段而不是有聲段。(3)對于爆破音的寂靜段,應將其納入語音的范圍而不是無聲段。(4)應該盡可能避免在檢測中丟失鼻韻和弱摩擦音等與噪聲特性相似、短時參數(shù)較少的語音。(5)應該避免使用過零率作為判決標準而帶來的負面影響。這幾點可以總結為:可靠性,魯棒性,精確性,自適應性,實時性和對噪聲特征無需先驗知識。在所有這些特征中,魯棒性是最難達到的。因此,如何在噪聲環(huán)境下設計一種魯棒的端
19、點檢測算法是一個非常棘手的問題。傳統(tǒng)算法中大都根據(jù)語音信號的時域特征,如基于能量和短時過零率等,在較強噪聲環(huán)境下,人類語言中的清音和摩擦音往往和背景噪聲混合在一起,無法準確的分辨出語音和噪聲的端點,容易發(fā)生漏檢和虛檢的情況。另外由于漢語詞語的特殊性,音節(jié)的末尾大都是濁音,只用短時能量就能較好地判斷一個詞語的末點。而音節(jié)的起點聲母大多都是清聲母,還有送氣與不送氣的塞音和塞差音,當背景噪聲較大時,清音電平與噪聲電平相差無幾,將它們與環(huán)境噪聲分辨是比較困難的,這也是雙門限法的不足之處?,F(xiàn)有的算法存在的主要問題有兩點:一、在具有較強噪聲的環(huán)境下,語音端點檢測往往存在著大量的誤判,不利于后續(xù)的處理過程;
20、二、在高噪聲的環(huán)境下不能有效的檢測出語音信號段,造成了有效信息的丟失。以上兩個問題也得到了廣大研究者的重視,進幾年來,研究者們經過了不懈的努力,提出了各種區(qū)別語音和噪聲的特征參數(shù),用來提高算法的抗噪聲性能,或是將幾種特征組合成一個新的特征參數(shù)來進行端點檢測,而對語音端點的判決也由原來的單一門限發(fā)展到多門限以至于自適應門限,使得算法精度不斷得到提高。1.3 本文主要研究內容由于語音端點檢測是語音識別和語音增強等語音處理重要的一步,語音端點檢測的好壞直接影響到下一步工作的進行,所以本課主題要研究語音起點和終點的檢測,以短時能量和短時過零率相結合的雙門限語音端點檢測算法進行語音端點檢測。 2語音信號
21、處理2.1 語音信號特點語音信號是隨時間變化的一維信號,由一連串的音組成,各個音的排列有一定的規(guī)則。語音具有聲學特征的物理性質,聲音質量與它的頻率范圍有關,語音信號的頻率一般是在200hz3500hz范圍內,隨著帶寬的增加,信號的自然度將逐步得到改善。語音信號本身的冗余度是較大的,少數(shù)輔音清晰度下降并不明顯影響語句的可懂度,比如通常的模擬電話帶寬只有3khz4khz。語音信號的特性是隨時間變化的,所以是一種典型的非穩(wěn)態(tài)信號。但是,從另一方面來看,由于語音的形成過程與發(fā)音器官的運動密切相關,這種物理運動比起聲音振動速度來講要緩慢得多,因此,語音信號常??杉俣槎虝r平穩(wěn)的。研究表明,在5ms-40
22、ms的范圍內,語音信號的頻譜特性和一些物理特征參數(shù)基本保持不變。這樣,我們就可以將平穩(wěn)過程的處理方法和理論引入到語音信號的短時處理中。因此,“短時分析技術”貫穿于語音分析的全過程。2.2 語音信號預處理為了消除因為人類發(fā)聲器官本身和因一些采集語音信號的設備等所引起的混疊、高次諧波失真現(xiàn)象,在對語音信號進行分析和處理之前,必須對其進行預處理。語音信號的預處理應盡可能地保證處理后得到的信號更均勻、平滑,且能提高語音的質量。2.2.1預加重在進行語音信號數(shù)字處理時,為了獲取一段語音信號的時域波形,首先要將語音信號轉換成電信號,再用a/d轉換器將其變換為離散的數(shù)字化采樣信號。己經數(shù)字化的語音信號將依次
23、進入一個數(shù)據(jù)區(qū)。由于語音信號的平均功率受聲門激勵和口鼻輻射影響,高頻端大約在800hz以上按6db/倍頻程跌落,即6db/oct(2倍頻)或20db/dec(10倍頻),所以求語音信號頻譜時,頻率越高相應的成分越小,高頻部分的頻譜比低頻部分的難求,為此要在預處理中進行預加重處理。目的是提升高頻部分,使信號變得平坦,保持在低頻到高頻的整個頻帶中,能用同樣的信噪比求頻譜,而且預加重零點與輻射零點將抵消聲門波的影響,使語音信號中只包含聲道部分,以便于頻譜分析或聲道參數(shù)分析。圖2.1表明了語音預處理的過程采樣量化預加重加窗分幀算法處理語音圖2.1 語音信號的預處理預加重一般是在語音信號數(shù)字化之后,用具
24、有6db/倍頻程的提升高頻特性的預加重數(shù)字濾波器來實現(xiàn),它一般是一階的數(shù)字濾波器: (2-1)式中的取值接近于1。有時要恢復原信號,需要從做過預加重的信號頻譜來求實際的頻譜時,要對測量值進行去加重處理,即加上6db/倍頻程的下降的頻率特性來還原成原來的特性。2.2.2加窗分幀語音端點檢測首先要進行分幀處理,然后依次判斷每一幀是否為語音的端點。在端點檢測時如果采用較大的窗長,則幀長長,幀數(shù)少,這樣計算量會小些,而且進行端點檢測時速度也會快些,但是這樣端點檢測的誤差容易增加。如果采用較小的窗長,則計算量增加,語音識別的速度會降低。我們可以在語音靜音段時,采用較長的窗 ;在語音和靜音的過渡段時采用較
25、小的窗 ,可以確切判斷語音的起始點 ;一旦確定語音的起點,就改用常規(guī)窗長。在進行了預加重后,接下來就要對語音信號進行加窗分幀處理。將語音信號劃分為許多短時的語音段,每個短時的語音段稱為一個分析幀。幀和幀之間既可以連續(xù),也可以重疊。另外,由于不同語音信號的基音周期不同,在女性兒童的2ms到老年男子的14ms之間變化,為了兼顧男聲和女聲的最高和最低基音頻率,且能準確地描述語音能量自身的實際變化規(guī)律,通常將窗寬選為10ms20ms。圖2.2 幀長和幀移如圖2.2所示分幀一般采用交疊分段的方法,這是為了使幀與幀之間能平滑過渡,保持其連續(xù)性。前一幀和后一幀的交疊部分稱為幀移,幀移與幀長的比值一般取為00
26、.5之間。分幀是用可移動的有限窗口長度進行加權實現(xiàn)的,即用窗函數(shù)7乘以語音信號s(n),從而形成加窗的語音信號: (2-2)由于窗函數(shù)一般取為s(n)中間大兩頭小的光滑函數(shù),這樣的沖激響應所對應的濾波器具有低通特性,其帶寬和頻率取決于窗函數(shù)的選取。用得最多的三種窗函數(shù)是矩形窗、漢明窗(hamming)和漢寧窗(hanning),它們的定義如下:矩形窗: (2-3)漢明窗: (2-4)漢寧窗: (2-5)式中n為窗長,窗函數(shù)的選取(形狀和長度)對于短時分析參數(shù)的特性影響很大,為此應該選擇合適的窗口,使其短時參數(shù)能更好地反映語音信號的特性變化。以上這些窗函數(shù)的幅度頻率響應都具有低通特性,它們的主瓣
27、寬度和旁瓣高度如表2-1所示。表2-1 1s長的各種窗的主瓣寬度和旁瓣高度矩形漢明漢寧主瓣寬度0.81hz1.19hz1.87hz旁瓣寬度-13db-43db-32db從表中可知:矩形窗的主瓣寬度最小,但其旁瓣高度最高;漢明窗的主瓣最寬,而旁瓣高度最低。矩形窗的旁瓣太高,會產生嚴重的泄漏現(xiàn)象(gibbs),所以只有在某些特殊場合中采用。漢明窗旁瓣最低,可以有效地克服泄漏現(xiàn)象,具有更平滑的低通特性,因此,一般在語音信號預處理中,都選用漢明窗來進行語音分幀處理。2.3 語音信號分析語音信號處理包括語音識別、語音合成、語音編碼、說話人識別等方面,但是其前提和基礎是對語音信號進行分析。只有將語音信號分
28、析成表示其本質特性的參數(shù),才有可能利用這些參數(shù)進行高效的語音通信,以及建立用于識別的模板或知識庫。而且,語音識別率的高低,語音合成的音質好壞,都取決于對語音信號分析的準確性和精度。2.3.1短時時域分析語音信號本身就是時域信號,因此,時域分析方法是應用最為廣泛的一種方法,這種方法直接利用語音信號的時域波形。時域分析通常用于最基本的參數(shù)分析以及用于語音的分割、預處理等。語音信號的時域參數(shù)有短時能量、短時平均幅度、短時過零率、短時自相關函數(shù)等,這些是語音信號中一組最基本的短時參數(shù),在各種語音信號數(shù)字處理技術中都有重要應用。進行語音信號分析時,最先接觸到且最直觀的就是它的時域波形。時域分析通常用于最
29、基本的參數(shù)分析,語音的分割、預處理和大分類。這種分析方法的特點是(1)表示語音信號比較直觀、物理意義明確;(2)實現(xiàn)起來比較簡單、運算量少;(3)可得到語音的一些重要參數(shù);(4)可采用示波器等通用設備進行觀測。取樣之后要對信號進行量化,而量化過程不可避免地會產生量化誤差,即量化后的信號值與原信號之間的差值。2.3.2頻域分析語音信號頻域分析,主要是對一些頻域的參數(shù)進行分析,常用的一些頻域參數(shù)有頻譜、功率譜、倒譜等等,最常用的頻域分析方法有傅立葉變換法、線性預測法等。1、傅立葉變換法8傅里葉頻譜變換是語音信號頻域分析中廣泛使用的方法,是分析線性系統(tǒng)和平穩(wěn)信號穩(wěn)態(tài)特性強有力的手段,對分幀加窗后的語
30、音信號,進行傅里葉變換和逆傅里葉變換,可以相應的得到頻譜,功率譜,倒譜距離,嫡等特征。由于語音信號的特性是隨著時間緩慢變化,所以采用短時傅里葉變換,相應的求得特征為短時頻域特征,這里的窗函數(shù)都使用漢明窗。(1)短時頻譜和短時功率譜設信號經過傅里葉變換后在頻域記為,則與的關系見公式2-6。 (2-6)語音的頻譜為的幅度,則有 (2-7)語音的短時功率譜的是幅度的平方,所以短時功率譜的計算方法為 (2-8)2、線性預測法線性預測分析的基本思想是:由于語音樣點之間存在相關性,所以可以用過去的樣點值來預測現(xiàn)在或未來的樣點值,即一個語音的抽樣能夠用過去若干個語音抽樣或它們的線性組合來逼近。通過使實際語音
31、抽樣和線性預測抽樣之間的誤差在某個準則下達到最小值來決定唯一的一組預測系數(shù)。而這組預測系數(shù)就反映了語音信號的特征,可以作為語音信號特征參數(shù)用與語音識別、語音合成等。將線性預測應用與語音信號處理,不僅是因為它的預測功能,而且更重要的是因為它能提供一個非常好的聲道模型及模型參數(shù)估計方法。線性預測的基本原理和語音信號數(shù)字模型密切相關。3語音端點檢測算法原理及實驗仿真分析3.1 語音端點檢測算法原理端點檢測最早的應用是在貝爾實驗室開發(fā)的電話傳輸和轉換系統(tǒng)中,用于通信信道的時間分配,通過語音檢測實現(xiàn)在空閑的信道中插入其他人的話音信息。從那以后,各種各樣的語音端點檢測算法在許多語音指令識別、自動語音識別、
32、說話人認證、遠程通訊和語音編碼等方面被提出來。通常不同的系統(tǒng)需要不同的算法以滿足在精度、復雜度、魯棒性、敏感性和響應時間等方面的需求。這些方法包括基于能量、過零率、頻譜分析、倒譜分析等算法。本文采用基于短時能量和短時過零率結合的雙門限法,該方法根據(jù)語音信號和噪聲信號的不同特征,提取每一段語音信號的特征,然后把這些特征值與設定的閾值進行比較,從而達到語音端點檢測的目的。1、基于特征的語音端點檢測的算法步驟大致如下 :(1)預處理:包括濾波,預加重,分幀,加窗等,這里要考慮濾波器參數(shù)的選擇,分幀時幀長長度的選擇,加窗窗函數(shù)的選擇。(2)特征提?。涸跁r域或者頻域提取能反映語音本質特征的聲學參數(shù),如短
33、時能量,短時過零率等。特征提取目的是將輸入信號轉化為特征參數(shù),然后利用特征參數(shù)進行語音段與無聲段的區(qū)分。特征提取是語音端點檢測的關鍵問題,特征參數(shù)選擇的好壞直接影響到語音端點檢測的準確率的高低。(3)確定門限:語音段最開始的幾幀一般為無聲段,根據(jù)無聲段的特征值大小確定門限值,一般選擇較大和較小兩個門限值tmax和tmin,且tmintmin過渡段,記錄起點 c加15幀內有一幀tmax語音段s+dtmaxc加1dminc記錄終點返回y回n回n回y回y回n回yy回n回n回圖3.1 語音端點檢測流程圖3.2 基于短時能量和短時過零率的語音端點檢測語音和噪聲的區(qū)別可以體現(xiàn)在它們的能量上,對于一列疊加有
34、噪聲干擾的語音信號而言,其語音段的能量是噪聲段能量疊加語音聲波能量之和。因此,語音段能量要大于噪聲段的能量。如果環(huán)境噪聲和系統(tǒng)輸入噪聲比較小,以致于能夠保證系統(tǒng)的輸入信噪比很高時(即使最低電平語音的能量也比噪聲能量要高),那么只需要計算輸入信號的短時平均能量或短時平均幅度就能夠把語音段和背景噪聲區(qū)分開來。如圖3.2就是在比較純凈的內容為“端點檢測” 的原始語音信號用傳統(tǒng)的短時能量和過零率的語音端點檢測,圖中可以很直觀的觀察到語音的短時能量的大小和其過零率的高低,如圖3.2所示:圖3.2 語音信號原始波形圖和其短時能量和過零率波形圖短時能量函數(shù)可用來區(qū)分清音段和濁音段,值大的對應于濁音段,而值小
35、的對應于清音段。如當語音段的開始和結束都是弱摩擦音、爆破音或語音段末尾是鼻音時,這些音的短時能量一般很小,往往與背景噪聲處于相同的電平。在這些情況下,只依靠短時能量來檢測語音段的起止點常常會把語音信號起始和末尾的這些音素漏掉。而采用短時能量和短時過零率相結合可以很好的克服檢測時可能漏掉的起始和末尾這些音素,從而更好的檢測出語音的端點。3.2.1短時平均能量語音和噪聲的主要區(qū)別在它們的能量上,所以能量是經常使用的音頻特征參數(shù),是對語音信號最直觀的表示。語音信號一般可分為無聲段(靜音段)、清音段和濁音段。由于語音是不穩(wěn)定的,所以我們采用“短時能量”。所謂短時能量9 10,就是先對語音信號進行分幀處
36、理,然后對每一幀分別求其能量。短時能量是隨機參數(shù),在無聲段,清音段和濁音段,它們分別具有不同的概率密度函數(shù),圖3.3給出了短時能量在清音、無聲和濁音三種情況下的條件概率密度函數(shù)。圖3.3 短時能量在清音無聲和濁音三種情況下條件概率密度函數(shù)示意圖從圖3.3中可以看出,在三種情況中,濁音的短時能量最大,清音的短時能量次之,無聲的短時能量最小。 n時刻某語音信號x(n)的短時平均能量定義為: (3-1)式中,為漢明窗。令,則有: (3-2)式中,為可移動的有限長度的窗函數(shù),用來實現(xiàn)分幀處理,是低通濾波器的單位沖激響應。上式表明,經過窗口加權的短時能量相當于將“語音平方”信號通過一個線性濾波器的輸出,
37、這個濾波器的取樣響應為。短時能量函數(shù)可用來區(qū)分清音段和濁音段。值大的對應于濁音段,而值小的對應于清音段。對于高信噪比的語音信號,無語音信號的噪聲能量很小,而語音信號的能量顯著增大到某一數(shù)值,由此可以區(qū)分語音信號的起始點和結束點。語音信號的短時平均幅度11定義為: (3-3)和都反映語音信號的強度,但是其特性有所不同。在實際應用中往往很難保證有很高的信噪比,而且在某些特殊情況下,如當語音段的開始和結束都是弱摩擦音、爆破音或語音段末尾是鼻音時,這些音的短時能量一般很小,往往與背景噪聲處于相同的電平。在這些情況下,只依靠短時能量或短時平均幅度來檢測語音段的起止點常常會把語音信號起始和末尾的這些音素漏
38、掉。因此,rbainezr提出了在短時能量的基礎上結合短時平均過零率的雙門限端點檢測算法。語音信號的短時能量可用以下幾種算法得到: (3-4) (3-5) (3-6)它們分別為絕對值的累加、平方累加和平方的對數(shù)的累加12 13,本文采用的是絕對值的累加進行計算的,本文在matlab軟件中實現(xiàn)求語音短時能量的關鍵代碼為%計算短時能量amp = sum(abs(enframe(filter(1 -0.9375, 1, x), framelen, frameinc), 2);通過matlab仿真得出其短時能量值幅度如圖3.4所示:圖3.4 短時能量波形圖從圖中可以看出“端點檢測”語音信號中語音部分的
39、能量是最高的,而語音部分又分成靜音段、清音段、濁音段。短時能量函數(shù)可用來區(qū)分清音段和濁音段。值大的對應于濁音段,而值小的對應于清音段。對于高信噪比的語音信號,無語音信號的噪聲能量很小,而有語音信號的能量顯著增大到某一數(shù)值,由此可以區(qū)分語音信號的起始點和結束點。3.2.2短時過零率短時過零率表示一幀語音信號波形穿過橫軸(零電平)的次數(shù)14。過零分析是語音時域分析中最簡單的一種。對于連續(xù)語音信號,過零即意味著時域波形通過時間軸;而對于離散信號,如果相鄰的取樣值改變符號則稱為過零。過零率就是樣本改變符號的次數(shù)。定義語音信號的短時過零率為: (3-7)其中,sgn為符號函數(shù),即: (3-8)過零率有三
40、類重要應用:第一,用于粗略地描述信號的頻譜特性,就是用多帶濾波器將信號分為若干個通道,對各通道進行短時平均過零率和短時能量的計算,即可粗略地估計頻譜特性。第二,用于判別清音和濁音、有話和無話。第三,區(qū)分清音和濁音,對語音信號進行分析,發(fā)現(xiàn)發(fā)濁音時,盡管聲道有若干個共振峰,但由于聲門波引起譜的高頻跌落,所以其語音能量約集中在3khz以下。而發(fā)清音時,多數(shù)能量出現(xiàn)在較高頻率上。高頻就意味著高的平均過零率,低頻就意味著低的平均過零率,所以可以認為濁音時具有較低的過零率,而清音時具有較高的過零率。當然,這種高低僅是相對而言的,并沒有精確的數(shù)值關系。本文在matlab軟件中實現(xiàn)求語音短時過零率的關鍵代碼
41、為.%計算過零率tmp1=enframe(x(l:length(x)-l),framelen,framelne);tmp2=enframe(x(2:length(x),framelen,framelne);signs=(tmp1.*tmp2)0.02;zcr=sum(signs.*diffs,2);和短時能量一樣,短時過零率也是隨機參數(shù),對應于無聲段、清音段以及濁音段,它們分別具有的短時過零率概率函數(shù)如圖3.5所示。圖3.5 短時過零率在清音無聲和濁音三種情況下條件概率密度函數(shù)示意圖對于短時過零率,由于清音的多數(shù)能量出現(xiàn)在較高的頻率上,因此清音的過零率較高,而濁音語音具有高頻跌落的頻譜,所以濁
42、音的過零率低,噪聲的過零率大小處于清音和濁音之間。短時過零率可以區(qū)別語音是清音還是濁音,它還可以從背景噪聲中找出語音信號,如下圖3.6所示:圖3.6 語音信號短時過零率波形圖從圖3.6中可以看出“端點檢測”語音信號的過零率,在語音信號中清音段的過零率情況,圖中幅度變化反映了過零率次數(shù)的高低。另外,利用短時過零率還可以從背景噪聲中找出語音信號,判斷寂靜無聲段和有聲段的起點和終點的位置。在背景噪聲較小時用短時平均能量識別較為有效,而在背景噪聲較大時用短時平均過零率識別較為有效?;诙虝r能量和短時過零率的雙門限語音端點檢測方法充分利用能量和過零率的優(yōu)點,使用過零率檢測清音,用短時能量檢測濁音,兩者配
43、合來進行語音端點檢測。這種方法在高信噪比時,能有效的檢測出語音信號的端點,但是隨著信噪比的下降,檢測的準確率下降,特別是在噪聲很大時,完全不能檢測出語音端點。3.2.3基于短時能量和短時過零率的雙門限端點檢測原理雙門限法是利用短時能量和過零率的乘積進行檢測的。在基于短時能量和過零率的雙門限端點檢測算法中首先為短時能量和過零率分別確定兩個門限,一個為較低的門限,對信號的變化比較敏感,另一個是較高的門限。當?shù)烷T限被超過時,很有可能是由于很小的噪聲所引起的,未必是語音的開始,當高門限被超過并且在接下來的時間段內一直超過低門限時,則意味著語音信號的開始。本文采用短時能量和短時過零率相結合的方法, 利用
44、短時能量和短時過零率兩個門限來確定語音信號的起點和終點, 目的是從采集到的語音信號中分離出真正的語音信號作為系統(tǒng)處理的對象。該算法的原理簡述如下:對上述兩種特征作一個統(tǒng)計估計,得到兩個門限值,利用短時能量檢測濁音,短時過零率檢測清音,兩者配合從而確定語音的端點。由于采集的聲音信號中最初的短時段多為無聲或背景噪聲,這樣就可以利用已知為“靜態(tài)”的最初幾幀(一般取10幀)信號計算其過零率閥值zcr及高、低能量閥值amp2(低能量閥)和amp1 (高能量閥)。過零率公式 15: (3-9)計算amp2和amp1時,首先計算最初10幀信號中每幀的短時平均能量或平均幅度,最大值記為max,最小值記為min
45、。本文在計算短時能量之前,先經過一個濾波器,高通濾波器,此為預加重濾波器,目的在于濾除低頻干擾 ,尤其是50hz或60hz的工頻干擾,將對于語言識別更為有用的高頻部分的頻率進行提升,在計算短時能量之前應用該濾波器,還可以起到消除直流漂移、抑制隨機噪聲和提升清音部分能量的效果。其關鍵代碼為amp=sum(abs(enframe(filter(1-0.98,1,x),framelen,frameinc),2)。文中能量門限調整代碼為: amp1=min(amp1,max(amp)/4); amp2=min(amp2,max(amp)/8);根據(jù)語音信號的實際情況對門限值進行調整,以便更好的對語音端
46、點進行檢測。其端點檢測的流程如下所述:開始進行端點檢測之前,首先為短時能量和過過零率分別確定兩個門限amp1、amp2、zcr1、zcr2, 其中amp2、zcr2分別為短時能量和過零率比較低的門限,其數(shù)值比較小,對信號的變化比較敏感,很容易就會超過。另外amp1、zcr1是比較高的門限,數(shù)值比較大,信號必須達到一定的強度,該門限才可能被超過。低門限被超過未必就是語音信號的開始,有可能是時間很短的噪聲引起的。高門限被超過則可以基本確信是由于語音信號引起的。整個語音信號的端點檢測可以分為四段:靜音、過度段、語音段、結束。程序中使用一個變量status來表示當前所處的狀態(tài)。在靜音段,如果能量或過零
47、率超越了低門限,就應該開始標記起始點,進入過渡段。在過渡段中,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語音段,因此只要個參數(shù)的數(shù)值都回落到低門限以下,就可以確信進入語音段落。而如果在過渡段中兩個參數(shù)中的任一個超過了高門限,就可以確信進入語音段了。一些突發(fā)性的噪聲也可以引起短時能量或過零率的數(shù)值很高,但是往往不能維持足夠的長的時間,如門窗的開關、物體的碰撞等引起的噪聲。這些都可以通過設定最短時間門限來判別。當前狀態(tài)處于語音時,如果兩個參數(shù)的值下降低到低門限以下,而且總的記時長度小于最短時間門限,則認為這是一段噪音,繼續(xù)掃描以后的語音數(shù)據(jù),否則就標記好結束端點,并返回?,F(xiàn)以孤立“檢”字的發(fā)音為
48、例, 說明雙門限檢測法的原理, 如圖1 所示。該方法需做出兩級判斷: 首先利用濁音的短時能量最大的特點, 由能量定位語音的大致位置。根據(jù)語音短時能量設定一個較高的門限t h , 若信號的能量大于t h , 則可確定2 個端點a 、b, 并可認為這2個端點之間是語音信號, 這樣相當于完成初判。再根據(jù)背景噪聲的平均能量設定一個比th 稍低的門限t l , 如果信號的能量大于tl ,則所對應的端點c、d 之間仍是語音信號, 至此完成了第一級判斷。接下來進行第二級判斷, 由于語音的起點很可能是能量很弱的清音, 此時還采用短時能量來區(qū)分清音和無聲顯然已不合適, 應采用過零率。根據(jù)短時過零率設定一個新的較
49、低門限t , 求越過該門的過零率, 從c、d 兩點分別向前、向后搜索,找到短時平均過零率與門限t 的2個交點e 、f, 這2個點就是語音的真正起點和終點16 。圖3.7 雙門限檢測法原理示意圖3.2.4雙門限語音端點檢測實驗仿真及分析1、實驗環(huán)境及參數(shù)設置雙門限語音端點檢測是在matlab軟件環(huán)境下進行仿真實驗。文中語音信號樣本是在實驗室安靜環(huán)境下采用麥克風進行錄音,以wav格式存儲為較純凈的語音樣本。在語音端點檢測之前首先要對被測的語音信號進行預處理等,包括分幀加窗等。文中加hmmaing窗,通過特性為(1-0.94)的濾波器預加重。對其他參數(shù)進行設置,如設置語音幀長度,幀移長度,fft取5
50、12,門限閥值設置等。3、實驗分析基于短時能量和短時過零率的雙門限語音端點檢測算法是結合短時能量和過零率各自優(yōu)點來進行檢測,根據(jù)上述方法進行實驗仿真,程序代碼在附錄中給出,其仿真結果如下:圖3.8語音信號的仿真結果 上述實驗結果較好地展示了雙門限檢測法的工作原理: 首先利用短時平均能量門限值( 先高后低) 定位語音端點的大致位置17 18, 之后再利用短時過零率門限尋找端點的精確位置, 從中可看出實驗效果還是基本讓人滿意的。4分析總結語音信號端點檢測是語音信號處理中非常重要的一項預處理技術,因此是語音信號處理中不可缺少的一步。本文主要圍繞端點檢測方法進行研究,詳細闡述短時能量和短時過零率結合的雙門限法,并用此方法進行實驗仿真,取得了較好的實驗結果。隨著語音相關學科的發(fā)展和新興技術的不斷出現(xiàn)必將使得未來的語音系統(tǒng)逐漸智能化,而
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年天然植物纖維及人造纖維編織工藝品合作協(xié)議書
- 2025年柔印CTP合作協(xié)議書
- 自動化儀表考試培訓試題2
- 2025年二手車帶牌轉讓協(xié)議(三篇)
- 2025年個人房屋租賃協(xié)議合同模板(2篇)
- 2025年個人車輛轉讓協(xié)議參考樣本(三篇)
- 山西省2024七年級道德與法治上冊第三單元珍愛我們的生命第九課守護生命安全情境基礎小練新人教版
- 2025年互聯(lián)網信息網站公告服務協(xié)議(2篇)
- 2025年代理銷售商品房協(xié)議樣本(三篇)
- 2025年個人旅游協(xié)議格式版(2篇)
- 柴油機油-標準
- 足療店營銷策劃方案
- 《初三開學第一課 中考動員會 中考沖刺班會》課件
- 學校安全一崗雙責
- 2024年全國版圖知識競賽(小學組)考試題庫大全(含答案)
- 產后修復學習培訓課件
- 高考志愿咨詢培訓課件
- mysql課件第五章數(shù)據(jù)查詢
- 超濾培訓課件
- 熱線電話管理制度
- 《海峽兩岸經濟合作框架協(xié)議》全文
評論
0/150
提交評論