![基于MATLAB語音信號采集與分析的畢業(yè)論文設(shè)計_第1頁](http://file2.renrendoc.com/fileroot_temp3/2021-9/30/2a7fc1b3-4a84-4dd3-8640-4bf915adbb85/2a7fc1b3-4a84-4dd3-8640-4bf915adbb851.gif)
![基于MATLAB語音信號采集與分析的畢業(yè)論文設(shè)計_第2頁](http://file2.renrendoc.com/fileroot_temp3/2021-9/30/2a7fc1b3-4a84-4dd3-8640-4bf915adbb85/2a7fc1b3-4a84-4dd3-8640-4bf915adbb852.gif)
![基于MATLAB語音信號采集與分析的畢業(yè)論文設(shè)計_第3頁](http://file2.renrendoc.com/fileroot_temp3/2021-9/30/2a7fc1b3-4a84-4dd3-8640-4bf915adbb85/2a7fc1b3-4a84-4dd3-8640-4bf915adbb853.gif)
![基于MATLAB語音信號采集與分析的畢業(yè)論文設(shè)計_第4頁](http://file2.renrendoc.com/fileroot_temp3/2021-9/30/2a7fc1b3-4a84-4dd3-8640-4bf915adbb85/2a7fc1b3-4a84-4dd3-8640-4bf915adbb854.gif)
![基于MATLAB語音信號采集與分析的畢業(yè)論文設(shè)計_第5頁](http://file2.renrendoc.com/fileroot_temp3/2021-9/30/2a7fc1b3-4a84-4dd3-8640-4bf915adbb85/2a7fc1b3-4a84-4dd3-8640-4bf915adbb855.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、河南農(nóng)業(yè)大學理學院本科畢業(yè)論文(設(shè)計)河南農(nóng)業(yè)大學本科生畢業(yè)論文(設(shè)計)任務(wù)書 論文(設(shè)計)題目 語音信號的采集與分析 學 院 理學院 專 業(yè) 電子信息科學與技術(shù) 班 級 05電科(2)班 學 號 0508101053 姓 名 123 2009年 月 日論文(設(shè)計)選題的來源、目的與意義:通過語音傳遞倍息是人類最重要、最有效、最常用和最方便的交換信息的形式。讓計算機能聽懂人類的語言,是人類自計算機誕生以來夢寐以求的想法,用現(xiàn)代手段研究語音信號,使人們能更加有效地產(chǎn)生、傳輸、存儲、獲取和應(yīng)用語音信息,這對于促進社會的發(fā)展具有十分重要的意義。論文(設(shè)計)的主要內(nèi)容:本文簡要介紹了語音信號采集與分析
2、的發(fā)展史以及語音信號的特征、采集與分析方法,并通過pc機錄制自己的一段聲音,運用matlab進行仿真分析,最后加入噪聲進行濾波處理,比較濾波前后的變化。進度計劃(進度時間、主要工作內(nèi)容):2.203.01熟悉選題,查找閱讀相關(guān)資料。3.024.10根據(jù)選題的要求提取各種用信息加以綜合利用,完成論文總體框架4.114.25精心修改論文,在老師的指導下調(diào)試程序,完成論文總體設(shè)計。4.235.10在指導老師的幫助下進行最后一次精心修改,完成了終稿。主要參考文獻:1胡航語音信號處理【m】哈爾濱:哈爾濱工業(yè)大學出版社,20022丁玉美高西全數(shù)字信號處理【m】西安電子科技大學出版社,20063樊昌信通信原
3、理【m】北京:國防工業(yè)出版社,20054張威matlab基礎(chǔ)與編程入門【m】西安電子科技大學出版社,20065何強,何英matlab擴展編程【m】北京:清華大學出版社,2002:293-296論文(設(shè)計)工作起訖日期: 2009年 02月 20日至2009年 05月 10日指導教師(簽名)院長(簽名)語音信號的采集與分析作者:123 指導老師:456摘 要 語音信號的采集與分析技術(shù)是一門涉及面很廣的交叉科學,它的應(yīng)用和發(fā)展與語音學、聲音測量學、電子測量技術(shù)以及數(shù)字信號處理等學科緊密聯(lián)系。其中語音采集和分析儀器的小型化、智能化、數(shù)字化以及多功能化的發(fā)展越來越快,分析速度較以往也有了大幅度的高。本
4、文簡要介紹了語音信號采集與分析的發(fā)展史以及語音信號的特征、采集與分析方法,并通過pc機錄制自己的一段聲音,運用matlab進行仿真分析,最后加入噪聲進行濾波處理,比較濾波前后的變化。關(guān)鍵詞:語音信號,采集與分析, matlab audio signal acquisition and analysisauthor: zhuyousong teacher guidance:lifuqiangabstractspeech signal acquisition and analysis techniques are a wide range of cross-scientific,its appli
5、cation and development of voice study, sound measurement study, electronic measuring technology, and digital signal processing disciplines, such as close contact。collection and analysis of voice one of the small-scale equipment, intelligence, digital and multi-functional development of more and more
6、 quickly, faster than the previous analysis has been substantially high。this paper introduces the voice signal acquisition and analysis of the history of the development, as well as the characteristics of speech signal,collection and analysis methods,recording machine through the pc section of my ow
7、n voices,the use of matlab for simulation analysis,finally add the noise filter to deal with,comparison of filter before and after change。keywords:audio signal, acquisition and analysis,matlab 目 錄摘 要3abstract4目 錄5第1章 緒 論61.1 課題的背景與意義61.2 國內(nèi)外研究現(xiàn)狀61.3 本文主要工作81.4本文的仿真軟件matlab8第2章 語音信號的特點與采集92.1 語音信號的特點
8、92.2語音信號的采集9第3章 語音信號的分析123.1語音信號分析技術(shù)123.2 語音信號的時域分析123.2.1 短時能量及短時平均幅度分析133.2.2短時過零率分析133.3 語音信號的頻域分析153.3.1利用短時博里葉變換求語音的短時譜153.4 語音信號的語譜圖17第4章 語音信號的綜合仿真分析20總 結(jié)22致 謝23參 考 文 獻24附錄一:25附錄二:25附錄三:26附錄四:26附錄五:27第1章 緒 論1.1 課題的背景與意義通過語音傳遞倍息是人類最重要、最有效、最常用和最方便的交換信息的形式。語言是人類持有的功能聲音是人類常用的工具,是相互傳遞信息的最主要的手段。因此,語
9、音信號是人們構(gòu)成思想疏通和感情交流的最主要的途徑。并且,由于語言和語音與人的智力活動密切相關(guān),與社會文化和進步緊密相連,所以它具有最大的信息容量和最高的智能水平?,F(xiàn)在,人類已開始進入了信息化時代,用現(xiàn)代手段研究語音信號,使人們能更加有效地產(chǎn)生、傳輸、存儲、獲取和應(yīng)用語音信息,這對于促進社會的發(fā)展具有十分重要的意義。 讓計算機能聽懂人類的語言,是人類自計算機誕生以來夢寐以求的想法。隨著計算機越來越向便攜化方向發(fā)展,隨著計算環(huán)境的日趨復(fù)雜化,人們越來越迫切要求擺脫鍵盤的束縛而代之以語音輸人這樣便于使用的、自然的、人性化的輸人方式。作為高科鼓應(yīng)用領(lǐng)域的研究熱點,語音信號采集與分析從理論的研究到產(chǎn)品的
10、開發(fā)已經(jīng)走過了幾十個春秋并且取得了長足的進步。它正在直接與辦公、交通、金融、公安、商業(yè)、旅游等行業(yè)的語音咨詢與管理工業(yè)生產(chǎn)部門的語聲控制,電話、電信系統(tǒng)的自動撥號、輔助控制與查詢以及醫(yī)療衛(wèi)生和福利事業(yè)的生活支援系統(tǒng)等各種實際應(yīng)用領(lǐng)域相接軌,并且有望成為下一代操作系統(tǒng)和應(yīng)用程序的用戶界面。可見,語音信號采集與分析的研究將是一項極具市場價值和挑戰(zhàn)性的工作。我們今天進行這一領(lǐng)域的研究與開拓就是要讓語音信號處理技術(shù)走人人們的日常生活當中,并不斷朝更高目標而努力。語音信號采集與分析之所以能夠那樣長期地、深深地吸引廣大科學工作者去不斷地對其進行研究和探討,除了它的實用性之外,另一個重要原因是,它始終與當時
11、信息科學中最活躍的前沿學科保持密切的聯(lián)系并且一起發(fā)展。語音信號采集與分析是以語音語言學和數(shù)字信號處理為基礎(chǔ)而形成的一門涉及面很廣的綜合性學科,與心理、生理學、計算機科學、通信與信息科學以及模式識別和人工智能等學科都有著非常密切的關(guān)系。對語音信號采集與分析的研究一直是數(shù)字信號處理技術(shù)發(fā)展的重要推動力量。因為許多處理的新方法的提出,首先是在語音信號處理中獲得成功,然后再推廣到其他領(lǐng)域。1.2 國內(nèi)外研究現(xiàn)狀語音信號的采集與分析作為一個重要的研究領(lǐng)域,已經(jīng)有很長的研究歷史1。但是它的快速發(fā)展可以說是從1940年前后dudley的聲碼器(vocoder)和potter等人的可見語音visible sp
12、eech)開始的。1952年貝爾(bell)實驗室的davis等人首次研制成功能識別十個英語數(shù)字的實驗裝置。1956年olson和belar等人采用8個帶通濾波器組提取頻譜參數(shù)作為語音的特征,研制成功一臺簡單的語音打字機。20世紀60年代初由于faut和steven的努力,奠定了語音生成理論的基礎(chǔ),在此基礎(chǔ)上語音合成的研究得到了扎實的進展。 20世紀60年代中期形成的一系列數(shù)字信號處理方法和技術(shù),如數(shù)字濾波器、快速博里葉變換(fft)等成為語音信號數(shù)字處理的理論和技術(shù)基礎(chǔ)。在方法上,隨著電子計算機的發(fā)展,以往的以硬件為中心的研究逐漸轉(zhuǎn)化為以軟件為主的處理研究。然而,在語音識別領(lǐng)域內(nèi),初期有幾種
13、語音打字機的研究也很活躍,但后來已全部停了下來,這說明了當時人們對話音識別難度的認識得到了加深。所以1969年美國貝爾研究所的pierce感嘆地說“語音識別向何處去?”。 到了1970年,好似反駁pierce的批評,單詞識別裝置開始了實用化階段,其后實用化的進程進一步高漲,實用機的生產(chǎn)銷售也上了軌道。此外社會上所宣傳的聲紋(voice print)識別,即說話人識別的研究也扎扎實實地開展起來,并很快達到了實用化的階段。到了1971年,以美國arpa(american research projects agency)為主導的“語音理解系統(tǒng)”的研究計劃也開始起步。這個研究計劃不僅在美國園內(nèi),而且
14、對世界各國都產(chǎn)生了很大的影響,它促進了連續(xù)語音識別研究的興起。歷時五年的龐大的arpa研究計劃,雖然在語音理解、語言統(tǒng)計模型等方面的研究積累了一些經(jīng)驗,取得了許多成果,但沒能達到巨大投資應(yīng)得的成果,在1976年停了下來,進入了深刻的反省階段。但是,在整個20世紀70年代還是有幾項研究成果對語音信號處理技術(shù)的進步和發(fā)展產(chǎn)生了重大的影響。這就是20世紀70年代初由板倉(itakura)提出的動態(tài)時間規(guī)整(dtw)技術(shù),使語音識別研究在匹配算法方面開辟了新思路;20世紀70年代中期線性預(yù)測技術(shù)(lpc)被用于語音信號處理,此后隱馬爾可夫模型法(hnmm)也獲得初步成功,該技術(shù)后來在語音信號處理的多個
15、方面獲得巨大成功;20世紀70年代未,linda、buzo、gray和markel等人首次解決了矢量量化(vq)碼書生成的方法,并首先將矢量量化技術(shù)用于語音編碼獲得成功。從此矢量量化技術(shù)不僅在語音識別、語音編碼和說話人識別等方面發(fā)揮了重要作用,而且很快推廣到其他許多領(lǐng)域。因此,20世紀80年代開始出現(xiàn)的語音信號處理技術(shù)產(chǎn)品化的熱溯,與上述語音信號處理新技術(shù)的推動作用是分不開的。 20世紀80年代,由于矢量量化、隱馬爾可夫模型和人工神經(jīng)網(wǎng)絡(luò)(ann)等相繼被應(yīng)用于語音信號處理,并經(jīng)過不斷改進與完善,使得語音信號處理技術(shù)產(chǎn)生了突破性的進展。其中,隱馬爾可夫模型作為語音信號的一種統(tǒng)計模型,在語音信號
16、處理的各個領(lǐng)域中獲得了廣泛的應(yīng)用。其理論基礎(chǔ)是1970年前后,由baum等人建立起來的,隨后,由美國卡內(nèi)基梅隆大學 (cmu)的baker和美國ibm公司的jelinek等人將其應(yīng)用到語音識別中。由于美國貝爾實驗室的babiner等人在20世紀80年代中期,對隱馬爾可夫模型深人淺出的介紹,才使世界各國從事語音信號處理的研究人員了解和熟悉,進而成為一個公認的研究熱點,也是目前語音識別等的主流研究途徑。進入20世紀90年代以來,語音信號采集與分析在實用化方面取得了許多實質(zhì)性的研究進展。其中,語音識別逐漸由實驗室走向?qū)嵱没?。一方面,對聲學語音學統(tǒng)計模型的研究逐漸深入,魯棒的語音識別、基于語音段的建模
17、方法及隱馬爾可夫模型與人工種經(jīng)網(wǎng)絡(luò)的結(jié)合成為研究的熱點。另一方面,為了語音識別實用化的需要,講者自適應(yīng)、聽覺模型、快速搜索識別算法以及進一步的語言模型的研究等課題倍受關(guān)注。 1.3 本文主要工作本文簡要介紹了語音信號采集與分析的發(fā)展史以及語音信號的特征、采集與分析方法,并通過pc機錄制自己的一段聲音,運用matlab進行仿真分析,最后加入噪聲進行濾波處理,比較濾波前后的變化。第2章主要介紹語音信號的特點與采集,仿真主要是驗證奈奎斯特定理。第3章主要是對語音信號進行時域、頻域上的分析,如短時功率譜,短時能量,短時平均過零率,語譜圖分析等等。第4章是對語音信號的綜合和分析,包括語音信號的調(diào)制,疊加
18、,和濾波。1.4本文的仿真軟件matlabmatlab 是美國mathworks公司出品的商業(yè)數(shù)學軟件,用于算法開發(fā)、數(shù)據(jù)可視化、數(shù)據(jù)分析以及數(shù)值計算的高級技術(shù)計算語言和交互式環(huán)境,主要包括matlab和simulink兩大部分4。matlab是矩陣實驗室(matrix laboratory)的簡稱,和mathematica、maple并稱為三大數(shù)學軟件。它在數(shù)學類科技應(yīng)用軟件中在數(shù)值計算方面首屈一指。matlab可以進行矩陣運算、繪制函數(shù)和數(shù)據(jù)、實現(xiàn)算法、創(chuàng)建用戶界面、連接其他編程語言的程序等,主要應(yīng)用于工程計算、控制設(shè)計、信號處理與通訊、圖像處理、信號檢測、金融建模設(shè)計與分析等領(lǐng)域。mat
19、lab的基本數(shù)據(jù)單位是矩陣,它的指令表達式與數(shù)學、工程中常用的形式十分相似,故用matlab來解算問題要比用c,fortran等語言完相同的事情簡捷得多,并且mathwork也吸收了像maple等軟件的優(yōu)點,使matlab成為一個強大的數(shù)學軟件。在新的版本中也加入了對c,fortran,c+,java的支持??梢灾苯诱{(diào)用,用戶也可以將自己編寫的實用程序?qū)氲絤atlab函數(shù)庫中方便自己以后調(diào)用,此外許多的matlab愛好者都編寫了一些經(jīng)典的程序,用戶可以直接進行下載就可以用。 第2章 語音信號的特點與采集2.1 語音信號的特點通過對大量語音信號的觀察和分析發(fā)現(xiàn),語音信號主要有下面兩個特點: 在
20、頻域內(nèi),語音信號的頻譜分量主要集中在3003400hz的范圍內(nèi)。利用這個特點,可以用一個防混迭的帶通濾波器將此范圍內(nèi)的語音信號頻率分量取出,然后按8khz的采樣率對語音信號進行采樣,就可以得到離散的語音信號。 在時域內(nèi),語音信號具有“短時性”的特點,即在總體上,語音信號的特征是隨著時間而變化的,但在一段較短的時間間隔內(nèi),語音信號保持平穩(wěn)。在濁音段表現(xiàn)出周期信號的特征,在清音段表現(xiàn)出隨機噪聲的特征。下面是一段語音信號的時域波形圖(圖2-1)和頻域圖(圖2-2),由這兩個圖可以看出語音信號的兩個特點。 圖2-1語音信號時域波形圖 圖2-2語音信號頻域波形圖figure 2-1speech sign
21、al time-domain waveform figure 2-2 frequency-domain speech signal waveform2.2語音信號的采集在將語音信號進行數(shù)字化前,必須先進行防混疊預(yù)濾波,預(yù)濾波的目的有兩個:抑制輸入信導各領(lǐng)域分量中頻率超出fs/2的所有分量(fs為采樣頻率),以防止混疊干擾。抑制50hz的電源工頻干擾。這樣,預(yù)濾波器必須是一個帶通濾波器,設(shè)其上、下截止顏率分別是fh和fl,則對于絕人多數(shù)語音編譯碼器,fh=3400hz、fl60100hz、采樣率為fs8khz;而對丁語音識別而言,當用于電話用戶時,指標與語音編譯碼器相同。當使用要求較高或很高的場
22、合時fh4500hz或8000hz、fl60hz、fs10khz或20khz。為了將原始模擬語音信號變?yōu)閿?shù)字信號,必須經(jīng)過采樣和量化兩個步驟,從而得到時間和幅度上均為離散的數(shù)字語音信號。采樣也稱抽樣,是信號在時間上的離散化,即按照一定時間間隔t在模擬信號x(t)上逐點采取其瞬時值。采樣時必須要注意滿足奈奎斯特定理,即采樣頻率fs必須以高于受測信號的最高頻率兩倍以上的速度進行取樣,才能正確地重建波它是通過采樣脈沖和模擬信號相乘來實現(xiàn)的。下圖時一段語音信號在采樣頻率44.1khz情況下的頻譜圖。由圖可知,這段語音信號的頻率主要集中在1khz左右,當采樣頻率為44.1khz時,由于采樣頻率比較大,所
23、以采樣點數(shù)就越密,所得離散信號就越逼近于原信號,頻譜也沒有發(fā)生混疊。對上述信號進行1/80采樣頻率抽取,即采樣頻率變?yōu)閷⒔?00hz時,由于采樣頻率比較小,所以采樣點數(shù)就稀疏,所得離散信號就越偏離于原信號,頻譜也發(fā)生了混疊。在采樣的過程中應(yīng)注意采樣間隔的選擇和信號混淆:對模擬信號采樣首先要確定采樣間隔。如何合理選擇t涉及到許多需要考慮的技術(shù)因素。一般而言,采樣頻率越高,采樣點數(shù)就越密,所得離散信號就越逼近于原信號。但過高的采樣頻率并不可取,對固定長度(t)的信號,采集到過大的數(shù)據(jù)量(n=t/t),給計算機增加不必要的計算工作量和存儲空間;若數(shù)據(jù)量(n)限定,則采樣時間過短,會導致一些數(shù)據(jù)信息被
24、排斥在外。采樣頻率過低,采樣點間隔過遠,則離散信號不足以反映原有信號波形特征,無法使信號復(fù)原,造成信號混淆。根據(jù)采樣定理,當采樣頻率大于信號的兩倍帶寬時,采樣過程不會丟失信息,利用理想濾波器可從采樣信號中不失真地重構(gòu)原始信號波形。量化是對幅值進行離散化,即將振動幅值用二進制量化電平來表示。量化電平按級數(shù)變化,實際的振動值是連續(xù)的物理量。具體振值用舍入法歸到靠近的量化電平上。 語音信號經(jīng)過預(yù)濾波和采樣后,由ad變換器變換為二址制數(shù)字碼。這種防混疊濾波通常與模數(shù)轉(zhuǎn)換器做在一個集成塊內(nèi),因此目前來說,語音信號的數(shù)字化的質(zhì)量還是有保證的。市面上購買到的普通聲卡在這方面做的都很好,語音聲波通過話筒輸入到
25、聲卡后直接獲得的是經(jīng)過防混疊濾波、a/d變換、量化處理的離散的數(shù)字信號。在實際工作中,我們可以利用windows自帶的錄音機錄制語音文件,圖2-3是基于pc機的語音信號采集過程,聲卡可以完成語音波形的a/d轉(zhuǎn)換,獲得wave文件,為后續(xù)的處理儲備原材料。調(diào)節(jié)錄音機保存界面的“更改”選項,可以存儲各種格式的wave文件。windows自帶的錄音機聲音麥克風聲卡濾波采樣a/d轉(zhuǎn)換 wav圖2-3 基于pc機的語音信號采集過程figure 2-3 voice pc-based signal acquisition process 采集到語音信號之后,需要對語音信號進行分析,如語音信號的時域分析、頻譜
26、分析、語譜圖分析以及加噪濾波等處理。第3章 語音信號的分析3.1語音信號分析技術(shù)語音信號分析是語音信號處理的前提和基礎(chǔ),只有分析出可表示語音信號本質(zhì)特征的參數(shù),才有可能利用這些參數(shù)進行高效的語音通信、語音合成和語音識別等處理8。而且,語音合成的音質(zhì)好壞,語音識別率的高低,也都取決于對語音信號分橋的準確性和精確性。因此語音信號分析在語音信號處理應(yīng)用中具有舉足輕重的地位。貫穿于語音分析全過程的是“短時分析技術(shù)”。因為,語音信號從整體來看其特性及表征其本質(zhì)特征的參數(shù)均是隨時間而變化的,所以它是一個非乎穩(wěn)態(tài)過程,不能用處理乎穩(wěn)信號的數(shù)字信號處理技術(shù)對其進行分析處理。但是,由于不同的語音是由人的口腔肌肉
27、運動構(gòu)成聲道某種形狀而產(chǎn)生的響應(yīng),而這種口腔肌肉運動相對于語音頻率來說是非常緩慢的,所以從另一方面看,雖然語音倍號具有時變特性,但是在一個短時間范圍內(nèi)(一般認為在1030ms的短時間內(nèi)),其特性基本保持不變即相對穩(wěn)定,因面可以將其看作是一個準穩(wěn)態(tài)過程,即語音信號具有短時平穩(wěn)性。所以任何語音信號的分析和處理必須建立在“短時”的基礎(chǔ)上即進行“短時分析”,將語音信號分為一段一段來分析其特征參數(shù),其中每一段稱為一“幀”,幀長一般取為1030ms。這樣,對于整體的語音信號來講,分析出的是由每一幀特征參數(shù)組成的特征參數(shù)時間序列。根據(jù)所分析出的參數(shù)的性質(zhì)的不同,可將語音信號分析分為時域分析、頻域分析、倒領(lǐng)域
28、分析等;時域分析方法具有簡單、計算量小、物理意義明確等優(yōu)點,但由于語音信號最重要的感知特性反映在功率譜中,而相位變化只起著很小的作用,所以相對于時域分析來說頻域分析更為重要。本文將簡要介紹時域分析、頻域分析以及語譜圖分析。3.2 語音信號的時域分析語音信號的時域分析就是分析和提取語音信號的時域參數(shù)。進行語音分析時,最先接觸到并且也是最直觀的是它的時域波形。語音信號本身就是時域信號,因而時域分析是最早使用,也是應(yīng)用最廣泛的一種分析方法,這種方法直接利用語音信號的時域波形。時域分析通常用于最基本的參數(shù)分析及應(yīng)用,如語音的分割、預(yù)處理、大分類等。這種分析方法的特點是:表示語音信號比較直觀、物理意義明
29、確。實現(xiàn)起來比較簡單、運算且少??梢缘玫秸Z音的一些重要的參數(shù)。只使用示波器等通用設(shè)備,使用較為簡單等。語音信號的時域參數(shù)有短時能量、短時過零率、短時白相關(guān)函數(shù)和短時平均幅度差函數(shù)等,這是語音信號的一組最基本的短時參數(shù),在各種語音信號數(shù)字處理技術(shù)中都要應(yīng)用6。在計算這些參數(shù)時使用的一般是方窗或漢明窗。3.2.1 短時能量及短時平均幅度分析設(shè)語音波形時域信號為x(l)、加密分幀處理后得到的第n幀語音信號為 xn(m),則xn(m)滿足下式: (3-1) (3-2)其中,n0,1t,2t,并且n為幀長,t為幀移長度。設(shè)第n幀語音信號xn(m)的短時能量用en表示,則其計算公式如下: (3-3)en是
30、一個度量語音信號幅度值變化的函數(shù),但它有一個缺陷,即它對高電平非常敏感(因為它計算時用的是信號的平方)。為此可采用另一個度量語音信號幅度值變化的函數(shù)即短時平均幅度函數(shù)mn,它定義為: (3-4)mn也是一帕語音信號能量大小的表征,它與en的區(qū)別在于計算時小取樣值和大取樣值不會因取平方而造成較大差異,在某些應(yīng)用領(lǐng)域呻會帶來一些好處。 短時能量和短時平均幅度函數(shù)的主要用途有:可以區(qū)分濁音段與清音段,因為濁音時en值比清音時大的多??梢杂脕韰^(qū)分聲母與韻母的分界,無聲與有盧的分界,連字(指字之間無間隙)的分界等。作為一種超音段信息,用于語音識別中。3.2.2短時過零率分析短時過零率表示一幀語音中語音信
31、號波形穿過橫軸(零電平)的次數(shù)。過零分析是語音時域分析中最簡單的一種。對于連續(xù)語音信號,過零即意味著時域波形通過時間軸;而對于離散信號,如果相鄰的取樣值改變符號則稱為過零。過零率就是樣本改變符號的次數(shù)。定義語音信號xn(m)的短時過零率zn為: (3-5)式中,sgn 是符號函數(shù),即: (3-6)在實際中求過零率參數(shù)時,需要十分注意的一個問題是如果輸入信號中包含有50hz的工頻干擾或者a/d變換器的工作點有偏移(這等效于輸入信號有直流偏移),往往會使計算的過零率參數(shù)很不準確。為了解決前一個問題,a/d變換器前的防混疊帶通濾波器的低端截頻應(yīng)高于50hz,以有效地抑制電源干擾。對于后一個問題除了可
32、以采用低直流漂移器件外,也可以在軟件上加以解決,這就是算出每一幀的直流分量并予以濾除。對語音信號進行分析,發(fā)現(xiàn)發(fā)濁音時,盡管聲道有若干個共振峰,但由于聲門波引起譜的高頻跌落,所以其話音能量約集中在3khz以下。而發(fā)清音時,多數(shù)能量出現(xiàn)在較高頻率上。高頻就意味著高的平均過零率,低頻意味著低的平均過零率,所以可以認為濁音時具有較低的過零率,而清音時具有較高的過零率。當然,這種高低僅是相對而言,并沒方精確的數(shù)值關(guān)系。 利用短時平均過零率還可以從背景噪聲中找出語音信號,可用于判斷寂靜無聲段和有聲段的起點和終點位置。在孤立詞的語音識別中,必須要在一連串連續(xù)的語音信號中進行適當分割,用以確定一個一個單詞的
33、語音信號,即找出每一個單詞的開始和終止位置,這在語音處理中是一個基本問題。此時,在背景噪聲較小時用平均能量識別較為有效,而在背景噪聲較大時用平均過零率識別較為有效。但是研究表明,在以某些音為開始或結(jié)尾時如當弱摩擦音 (如f、h等音素)、弱燃破音(如p、t、k等音素)為語音的開頭或結(jié)尾;以鼻音(如n、 m等音素)為語音的結(jié)尾時只用其中一個參量來判別語音的起點和終點是有困難的,必須同時使用這兩個參數(shù)。圖3-1是用mtalab仿真一段語音信號時域波形的短時能量和短時平均過零率。圖3-1語音信號的短時能量和短時平均過零率figure 3-1 short-term speech signal energ
34、y and zero-crossing rate of the average short-term3.3 語音信號的頻域分析語音信號的頻域分析就是分析語音信號的頻域持征。從廣義上講,語音信號的頻域分析包括語音信號的頻譜、功率譜、倒頻譜、頻譜包絡(luò)分析等,而常用的頻域分析方法有帶通濾波器組法、傅里葉變換法、線件預(yù)測法等幾種。本文介紹的是語音信號的傅里葉分析法。因為語音波是一個非平穩(wěn)過程,因此適用于周期、瞬變或平穩(wěn)隨機信號的標準傅里葉變換不能用來直接表示語音信號,而應(yīng)該用短時傅里葉變換對語音信號的頻譜進行分析,相應(yīng)的頻譜稱為“短時譜 ”3.3.1利用短時博里葉變換求語音的短時譜 對第n幀語音信號x
35、n(m)進行傅里葉變換(離散時域傅里葉變換,dtft),可得到短時傅里葉變換,其定義如下: (3-7)由定義可知,短時傅里葉變換實際就是窗選語音信號的標準傅里葉變換。這里,窗w(n-m)是一個“滑動的”窗口,它隨n的變化而沿著序列x(n)滑動。由于窗口是有限長度的,滿足絕對可和條件,所以這個變換是存在的。當然窗口函數(shù)不同,博里葉變換的結(jié)果也將不同。我們還可以將式(327)寫成另一種形式。設(shè)語音信號序列和窗口序列的標準傅早葉變換均存在。當n取固定值時,w(n-m)的傅里葉變換為: (3-8)根據(jù)卷積定理,有: (3-9)因為上式右邊兩個卷積項均為關(guān)于角頻率w的以2為周期的連續(xù)函數(shù),所以也可將其寫
36、成以下的卷積積分形式: (3-10)即,假設(shè)x(m)的dtft是,且的dtft是,那么是和的的周期卷積。根據(jù)信號的時寬帶寬積為一常數(shù)這一基本性質(zhì),可知主瓣寬度與窗口寬度成反比,n越大,的主瓣越窄。由式(3-30)可知,為了使忠實再現(xiàn)的特性相對于來說必須是個沖激函數(shù)。所以為了使,需;但是n值太大時,倍號的分幀又失去了意義。尤其是n大于語音的音素長度時,已不能反映該語音音素的頻譜了。因此應(yīng)折衷選擇窗的寬度n。另外,窗的形狀也對短時博氏頻譜有影響,如矩形窗,雖然頻率分辨率很高(即主辯狹窄尖銳),但由于第一旁瓣的衰減很小,有較大的上下沖,采用矩形窗時求得的與的偏差較大,這就是gibbs效應(yīng),所以不適合
37、用于頻譜成分很寬的語音分析中。而漢明窗在頻率范圍中的分辨率較高,而且旁辯的衰減大,具有頻譜泄漏少的優(yōu)點所以在求短時頻譜時一船采用具有較小上下沖的漢明窗2。與離散傅里葉變換和連續(xù)博里葉變換的關(guān)系一樣,如令角頻率w=2kn,則得離散的短時博里葉變換(dft)它實際上是在頻域的取樣,如下所示: (3-11)在語音信號數(shù)字處理中,都是采用的離散博里葉變換(dft)來替代并且可以用高效的快速傅里葉變換(fft)算法完成由至的轉(zhuǎn)換。當然,這時窗長n必須是2的倍數(shù) (l是整數(shù))。根據(jù)傅里葉變換的性質(zhì),實數(shù)序列的傅里葉變換的頻譜具有對稱性,因此,全部頻譜信息包含在長度為n/2+1個里。另外,為了使具有較高的頻
38、率分辨率,所取的dft以及相應(yīng)的fft點數(shù)應(yīng)該足夠多,但有時的長度n要受到采樣率和短時性的限制,例如,在通常采樣率為8khz且?guī)L為20ms時,n=160。而一般取256、512或1024,為了將的點數(shù)從n擴大力,可以采用補0的辦法,在擴大的部分添若干個0取樣值,然后再對添0后的序列進行fft。例如、在10khz的范圍內(nèi)采樣求頻譜,并要求頻率分辨率在30 hz以下。由10k/30,得333,所以要取比333大的值,這時可取=512點,不足的部分采用補0的辦法解決,此時頻率分辨率(即頻率間隔)為10 hz51219.53hz,采樣后的該幀信號頻率處在02x1953hz之間,因此,原連續(xù)信號頻率就
39、處在0之間(即),所以我們要在0頻率范圍內(nèi)求其頻譜。fft的計算可以在通用計算機上由相應(yīng)的算法軟件來完成,這種方式一般只能實現(xiàn)非實時運算。為了完成實時運算可以采用先進的數(shù)字信號處理芯片、陣列處理芯片或?qū)S胒ft芯片。為了完成1024點的萬fft,這些專用芯片所需的運算時間是幾十毫秒至兒毫秒,甚至可以降至1ms以下。在語音信號數(shù)字處理中,功率譜具有重要意義,在一些語音應(yīng)用系統(tǒng)中往往都是利用語音信號的功率譜。根據(jù)功率譜定義,可以寫出短時功率譜與短時傅里葉變換之間的關(guān)系: (3-12)或者: (3-13)式中表示復(fù)共軛運算。并且功率譜是短時自相關(guān)函數(shù)的傅里葉變換。 (3-14)圖3-2是用matla
40、b中的psdplot命令繪得的同一人兩次說同一詞的功率譜比較(窗函數(shù)取窗長度為256的hamming窗)。圖3-2同一人兩次說同一詞的功率譜比較figure 3-2 that the same person twice the power spectrum of the same word comparison可以看出功率譜圖比較好地反映出聲音的個人特征:在低頻部分(頻率低于6000hz),同一人說同一詞,其功率譜圖中的各個波峰所對應(yīng)的頻率基本相同;不同人說同一詞,其功率譜圖的出現(xiàn)波峰的頻率比較接近;同一人說不同詞時功率譜的形狀差別較大。在高頻部分,波峰比較密集,特征不明顯。3.4 語音信號的
41、語譜圖 語音的時域分析和頻域分析是語音分析的兩種重要方法。顯然這兩種單獨分析的方法均有局限性:時域分析對語音信號的頻率特性沒有直觀的了解;而頻域分析出的特征中又沒有語音信號隨時間的變化關(guān)系:語音信號是時變信號,所以其頻譜也是隨時間變化的。但是由于語音信號隨時間變化是很緩慢的,因而在一段短時間內(nèi)(如1030ms之間,即所謂的一幀之內(nèi))可以認為其頻譜是固定不變的,這種頻譜又稱為短時譜。短時譜只能反映語音信號的靜態(tài)頻率特性,不能反映語音信號的動態(tài)頻率特性。因此,人們致力于研究語音的時頻分析特性。把和時序相關(guān)的傅里葉分析的顯示圖形稱為語譜圖(sonogram,或者spectrogram)。語諾圖是一種
42、三維頻譜,它是表示語音頻譜隨時間變化的圖形,其縱軸為頻率,橫軸為時間,任一給定頻率成分在給定時刻的強弱用相應(yīng)點的灰度或色調(diào)的濃談來表示。用語譜圖分析語音又稱為語譜分析。語譜圖中顯示了大量的與語音的語句特性有關(guān)的信息,它綜合了頻譜圖和時域波形的特點,明顯地顯示出語音頻譜隨時間的變化情況,或者說是一種動態(tài)的頻譜;記錄這種頻譜的儀器就是語譜儀。語譜儀實際上是一個帶通濾波器組的輸出隨時間發(fā)生連續(xù)變化,連續(xù)重復(fù)進行語音信號頻率分析的儀器。帶通濾波器有兩種帶寬可供選擇:窄帶為45hz,寬帶為300hz。窄帶語譜圖有良好的頻率分辨率,有利于顯示基音頻率及其各次諧波,但它的時間分辨率較差,不利于觀察共振峰(盧
43、道諧振)的變化;而寬帶語譜圖正相反,具有良好的時間分辨率及較差的頻率分辨率。寬帶語譜圖能給出語音的共振峰頻率及清輔音的能量匯集區(qū),在話譜圖里共振峰呈現(xiàn)為黑色的條紋。 可以利用語譜儀測量語譜圖的方法來確定語音參數(shù),例如共振峰頻率及基音頻率。語語圖的實際應(yīng)用是用于確定出講話人的本性。語譜圖上因其不同的黑白程度,形成了個同的紋路,稱之為“聲紋”,它因人而異,即不同講話者語譜圖的聲紋是不同的。因而可以利用聲紋鑒別不問的講話人。這與不向的人有不同的指紋,根據(jù)指紋可以區(qū)別不同的人是一個道理。雖然對采用語譜圖的講活人識別技術(shù)的可靠性過存在相當人的懷疑,但目前這一技術(shù)已在司法法庭小得到某些認可及采用11。 圖
44、3-3是用mtalab繪制的一個寬帶語譜圖,其中橫抽坐標為時間,縱軸坐標為頻率,語句內(nèi)容為 “河南農(nóng)業(yè)大學理學院”,它的發(fā)音在圖下方以音標表示。同時給出了相應(yīng)的語音的時域波形。語譜圖中的花紋有橫扛(bar)、亂紋和豎直條等。橫杠是與時間軸平行的幾條深黑色帶紋,它們相應(yīng)于短時譜中的幾個凸出點,也就是共振峰。從橫扛對應(yīng)的頻率和寬度可以確定相應(yīng)的共振峰頻率和帶寬。在一個語音段的語譜圖中,有沒有橫扛出現(xiàn)是判斷它是否是濁音的重要標志 。豎直條(又叫沖直條)是語譜圖中出現(xiàn)與時間軸垂直的一條窄黑條。每個豎直條相當于一個基音,條紋的起點相當于聲門脈沖的起點,條紋之間的距離表示基音周期。條紋越密表示越音頻率越高
45、。圖3-3“河南農(nóng)業(yè)大學理學院”語譜圖figure 3-3, college of henan agricultural university language spectra第4章 語音信號的綜合仿真分析錄制一段自己的語音信號,并對錄制的信號進行采樣;畫出采樣后語音信號的時域波形和頻譜圖;圖4-1原始語音信號figure 4-1 the original speech signal由圖可知這段語音信號頻率主要集中在1000hz左右。對語音信號進行調(diào)制,為了減少在傳輸時的耗損,人們一般是先對傳輸信號進行特殊處理,然后再傳遞。把原始的待傳信號托附到高頻振蕩的過程稱為調(diào)制。我們知道音頻信號的頻率在
46、我們的聽覺范圍內(nèi),音頻信號在無線傳輸?shù)倪^程中會受到各種聲音的干擾而產(chǎn)生能量消耗!因此限制了傳輸?shù)木嚯x!所以在現(xiàn)實的傳送過程中要現(xiàn)對語音信號進行調(diào)制再發(fā)送出去!下面是對一段語音信號的調(diào)制仿真圖,載波頻率為fc=20000。圖4-2調(diào)制后的語音信號figure 4-2 after the speech signal modulation由圖可知,經(jīng)過調(diào)制后的語音信號頻譜都搬移到fc=20000的頻段。用經(jīng)過調(diào)制的信號與原信號疊加。圖4-3調(diào)制后的語音信號+原始語音信號figure 4-3 voice modulated signal + the original speech signal由圖可知
47、低頻部分是原始信號,高頻部分是經(jīng)過調(diào)制后的信號。設(shè)計數(shù)字濾波器和畫出頻率響應(yīng)根據(jù)語音信號的特點給出有關(guān)濾波器的性能指標:低通濾波器性能指標,fp=1000hz,fc=1200 hz, as=100db,ap=1db;用雙線性變換法設(shè)計的低通濾波器的程序如下: fp=1000;fc=1200;as=100;ap=1;fs=22050; wc=2*fc/fs;wp=2*fp/fs; n,wn=ellipord(wp,wc,ap,as); b,a=ellip(n,ap,as,wn); freqz(b,a,512,fs); 濾波器的頻率響應(yīng)圖4-4濾波器的頻率響應(yīng)figure 4-4 frequenc
48、y response of the filter進行低通濾波,比較濾波前后語音信號的波形及頻譜???結(jié)通過這次課程設(shè)計,使我對語音信號有了全面的認識,對數(shù)字信號處理的知識又有了深刻的理解,在之前數(shù)字信號與處理的學習以及完成課后的作業(yè)的過程中,已經(jīng)使用過matlab,對其有了一些基礎(chǔ)的了解和認識。通過這次練習是我進一步了解了信號的產(chǎn)生、采樣及頻譜分析的方法。 以及其中產(chǎn)生信號和繪制信號的基本命令和一些基礎(chǔ)編程語言。讓我感受到只有在了解課本知識的前提下,才能更好的應(yīng)用這個工具;并且熟練的應(yīng)用matlab也可以很好的加深我對課程的理解,方便我的思維。這次設(shè)計使我了解了matlab的使用方法,學會分析
49、濾波器的優(yōu)劣和性能,提高了分析和動手實踐能力。同時我相信,進一步加強對matlab的學習與研究對我今后的學習將會起到很大的幫助。致 謝非常感謝我的導師李富強老師!在李老師無微不至的教導下,我才能夠順順利利的完成了畢業(yè)課程的設(shè)計。從課程設(shè)計材料的搜集到根據(jù)選題對素材的提取與整理,從matlab的簡易入手到程序的分析與設(shè)計,從理論與算法到程序的編寫與仿真,每一步都有李老師的細心知道與耐心講解。在平易近人學識淵博的李老師的熏陶下,使我感覺到自己知識的淺薄,在浩瀚的知識海洋面前,使我感覺到自己要不斷進取。非常感謝我的同學們,感謝他們給我的幫助與支持,使我在畢業(yè)設(shè)計的過程中少走了不少彎路。非常感謝我的家
50、人和朋友們,感謝他們從畢業(yè)設(shè)計以來對我的關(guān)心與支持!最后,再次感謝理學院所有的老師,感謝他們四年以來對我的栽培與教養(yǎng)!參 考 文 獻1胡航語音信號處理【m】哈爾濱:哈爾濱工業(yè)大學出版社,20022丁玉美高西全數(shù)字信號處理【m】西安電子科技大學出版社,20063樊昌信通信原理【m】北京:國防工業(yè)出版社,20054張威matlab基礎(chǔ)與編程入門【m】西安電子科技大學出版社,20065林福宗多媒體技術(shù)基礎(chǔ)【m】北京:清華大學出版社,2000 6周淵,王炳和,劉斌勝基于matlab的噪聲信號采集和分析系統(tǒng)的設(shè)計【j】噪聲控制2004(7):52-54 7何強,何英matlab擴展編程【m】北京:清華大
51、學出版社,2002:293-2968朱學芳,徐建平計算機語音信號處理與語音識別系統(tǒng)j南京郵電學院學報,1998,18(56):113119楊崇林,李雪耀,孫羽強噪聲背景下漢語語音端點檢測和音節(jié)分割j哈爾濱工程大學學報,199718(5):283210 張雄偉,陳量,楊吉斌現(xiàn)代語音處理技術(shù)及應(yīng)用m北京:機械工業(yè)出版社200311韋曉東,等應(yīng)用倒譜特征的帶噪語音端點檢測方法j上海交通大學學報,2000,34(2):18518812胡光銳,韋曉東基于倒譜特征的帶噪語音端點檢測j電子學報。2000。28(10):9597附錄一:%語音信號時域頻域分析y,fs,bits=wavread(2.wav);%
52、讀出信號,采樣率和采樣位數(shù)。 y=y(:,1);%我這里假設(shè)你的聲音是雙聲道,我只取單聲道作分析,如果你想分析另外一個聲道,請改成y=y(:,2) siglength=length(y); y = fft(y,siglength); pyy = y.* conj(y) / siglength; halflength=floor(siglength/2); f=fs*(0:halflength)/siglength; figure;plot(f,pyy(1:halflength+1);xlabel(frequency(hz); t=(0:siglength-1)/fs; figure;plot(
53、t,y);xlabel(time(s);附錄二:%抽取的源程序y,fs,bs=wavread(d:01.wav,25000,75000);y=y(:,1);lg=length(y);yx=(0:(lg-1)*fs/lg;yx=yx(1:lg/2);% sound(y,fs);figure(1);subplot(211);plot(y);title(原始信號);subplot(212);yf=abs(fft(y);yf=yf(1:lg/2);plot(yx,yf);ycq=zeros(1,lg); %先將抽取后的值全設(shè)為零 for i=1:80:lg; %通過循環(huán),每隔80個點將抽取后的值賦值為原函數(shù)的 ycq(i)=y(i); %采樣值 end sound(ycq,fs);figure(2);subplot(211);plot(ycq);title(抽取后的信號);subplot(212);ycqf=abs(fft(ycq);ycqf=ycqf(1:lg/2);plot(yx,ycqf);附錄三:“河南農(nóng)業(yè)大學理學院”語譜圖源程序:frmsize = 256; % 設(shè)置貞大小x,fs,nbits = wavread(3.wav); % 讀取語音文件x = filter(1 -0.95,1,x); % 高頻預(yù)加重,抵消頻譜傾斜n = length(x); frmcnt = floo
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度建筑材料國際貿(mào)易代理服務(wù)合同
- 舟山2025年浙江舟山市普陀海洋產(chǎn)業(yè)研究中心招聘緊缺高端人才筆試歷年參考題庫附帶答案詳解
- 溫州2025年浙江溫州平陽縣企事業(yè)單位面向全球引進博士10人筆試歷年參考題庫附帶答案詳解
- 浙江2025年浙江省第七地質(zhì)大隊選調(diào)專業(yè)技術(shù)人員筆試歷年參考題庫附帶答案詳解
- 江門廣東江門臺山市衛(wèi)生健康局下屬公益一類事業(yè)單位招聘編外人員11人筆試歷年參考題庫附帶答案詳解
- 2025年中國家具噴漆房市場調(diào)查研究報告
- 惠州2025年上半年廣東惠州市技師學院人才派遣人員招聘筆試歷年參考題庫附帶答案詳解
- 2025年中國2-溴丙酰溴市場調(diào)查研究報告
- 廣州2025年廣東廣州市天河區(qū)金燕幼兒園編外教輔人員招聘筆試歷年參考題庫附帶答案詳解
- 2025年織帶印花機項目可行性研究報告
- Unit1 My day 單元作業(yè)設(shè)計(素材)人教PEP版英語五年級下冊
- 氧化還原反應(yīng)的配平
- 贏的思考與態(tài)度課件
- TZSA 158-2023 雙引擎分布式視頻處理器技術(shù)規(guī)范
- 律師辦理刑事案件基本流程及風險防范課件
- 醫(yī)院宮外孕失血性休克的應(yīng)急預(yù)案及程序
- 豆角綠色防控技術(shù)方案
- 潮汕民俗文化科普知識講座
- 睡眠障礙護理查房課件
- 應(yīng)急物資的采購、存儲與調(diào)配
- 超融合架構(gòu)與傳統(tǒng)架構(gòu)對比解析方案
評論
0/150
提交評論