![聲音識別模型的建立與評價_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/14/dc998116-4121-44f6-9cbf-8ad4acd6ce97/dc998116-4121-44f6-9cbf-8ad4acd6ce971.gif)
![聲音識別模型的建立與評價_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/14/dc998116-4121-44f6-9cbf-8ad4acd6ce97/dc998116-4121-44f6-9cbf-8ad4acd6ce972.gif)
![聲音識別模型的建立與評價_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/14/dc998116-4121-44f6-9cbf-8ad4acd6ce97/dc998116-4121-44f6-9cbf-8ad4acd6ce973.gif)
![聲音識別模型的建立與評價_第4頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/14/dc998116-4121-44f6-9cbf-8ad4acd6ce97/dc998116-4121-44f6-9cbf-8ad4acd6ce974.gif)
![聲音識別模型的建立與評價_第5頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/14/dc998116-4121-44f6-9cbf-8ad4acd6ce97/dc998116-4121-44f6-9cbf-8ad4acd6ce975.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、 重慶理工大學第18屆數(shù)學建模競賽論文 題目:聲音識別模型的建立與評價(A題)混合隊2014年5月10日大學生數(shù)學建模競賽承 諾 書我們仔細閱讀了大學生數(shù)學建模競賽的競賽規(guī)則。我們完全明白,在競賽開始后參賽隊員不能以任何方式(包括電話、電子郵件、網(wǎng)上咨詢等)與隊外的任何人(包括指導教師)研究、討論與賽題有關的問題。我們知道,抄襲別人的成果是違反競賽規(guī)則的, 如果引用別人的成果或其他公開的資料(包括網(wǎng)上查到的資料),必須按照規(guī)定的參考文獻的表述方式在正文引用處和參考文獻中明確列出。我們鄭重承諾,嚴格遵守競賽規(guī)則,以保證競賽的公正、公平性。如有違反競賽規(guī)則的行為,我們將受到嚴肅處理。我們參賽選擇的
2、題號是(從A/B/C中選擇一項填寫):A所屬學校(請?zhí)顚懲暾娜褐貞c理工大學參賽隊員 (打印并簽名) :指導教師或指導教師組負責人 (打印并簽名):無 日期:2014年5月10日2014年重慶理工大學大學生數(shù)學建模競賽編 號 專 用 頁賽區(qū)評閱編號(由賽區(qū)組委會評閱前進行編號):賽區(qū)評閱記錄(可供賽區(qū)評閱時使用):評閱人評分備注全國統(tǒng)一編號(由賽區(qū)組委會送交全國前編號):全國評閱編號(由全國組委會評閱前進行編號):聲音識別模型的建立與評價摘要本文針對聲音識別模型的建立與評價問題,采用仿真、歸一化、隱馬可夫模型,回歸模型、遺傳算法等方法,對聲音識別建立了相應的模型。針對問題一,利用matl
3、ab中的sound函數(shù)播放出聲音信號,利用plot函數(shù)繪制出具體的聲音波形圖,總結得出正常和非正常開門聲音的差別。通過試聽,可以得知,正常開門聲音信號的比較緩和,響度較??;而非正常聲音比較刺耳,音調(diào)較高,響度較大。通過plot函數(shù)繪制出具體的聲音波形圖,分析得知(1)相同時間內(nèi)振動越快,頻率越大。音調(diào)跟頻率有關,頻率越大,音調(diào)越高。(2)振幅是物體振動時偏離原位置的大小,偏離原位置越大,振幅越大。響度跟振幅有關,振幅越大,響度越大。所以通過聲音波形圖,也可以看出正常開門聲音信號與非正常開門聲音信號。 針對問題二,應用及線性預測倒譜參數(shù)(PLCC)完成聲音信號的特征向量的建立及對特征向量的提取。
4、盡管SVM分類器可以處理任意范圍的特征數(shù)據(jù),但歸一化仍然有助干簡化問題的的復雜性。一般情況下,可以利用特征的均值和方差來解決這個問題。線性預側(cè)(Line- Pra7iction. LP)分析是最有效的語音分折技術之一,求解線性預側(cè)分析的基本思想是:語音信號樣點之間存在相關性,可以用過去的若干個樣點或它們的線性組合預測現(xiàn)在或?qū)淼臉狱c值。可以通過使實際語音抽樣值和線性預測抽樣值之間的均方誤差最小,得到一組唯一的線性預測系數(shù)(LPC系數(shù))。線性預測分析不僅能夠提供語音信號的預測波形,而且能夠提供一個好的聲道摸型。 針對問題三,采用logistic回歸模型,通過回歸擬合解釋變量與事件發(fā)生概率之間的非
5、線性關系原理,區(qū)分正常和非正常聲音,評價模型的好壞。由多元線性logistic回歸模型直接計算。此外,模型中的系數(shù),采用極大似然參數(shù)估計進行迭代計算方法得出。針對問題四,經(jīng)過特征子集的優(yōu)選,模型參數(shù)的優(yōu)化,運用遺傳算法極大的提高模型的準確率。從一組數(shù)量為D的特征組中選擇出一組數(shù)量為n(n<D)的最優(yōu)特征,一方面需要確定類別的可區(qū)分性判斷,對特征分類效果作出評估,選出使某一可分性達到最大的特征組來;,在條件允許的條件下,找出最優(yōu)的的那一部分特征。針對問題五,對于原始聲音信號的處理,以錯點剔除、零均值變換、預濾波的方式進行預處理,盡可能減少噪聲對有效信號的干擾。 在本文的最后,針對每個問題對
6、其結果進行了分析、對每個問題解決方法的優(yōu)缺點進行了對比,并提出了相應的改進方案。關鍵詞:聲音識別;隱馬可夫模型;logistic回歸模型;遺傳算法;一 、問題重述隨著家居智能化逐漸普及,智能冰箱、智能清潔機器人、智能電視等已步入平常老百姓家庭,但智能化的防盜門還處于研發(fā)階段,未進入市場。隨著人們對家居安全意識的不斷增強,對防盜、防搶和防砸的門禁系統(tǒng)的智能性提出更高的要求?;诖?,對正常和非正常開門(指盜竊開門等聲音)的聲音進行識別是智能防盜門的關鍵問題和技術,其具有廣泛的應用前景和實用價值。為了進行聲音識別模型的建立,我們分析采集到的正常和非正常開門的聲音(正常開門聲音,非正常開門聲音,各40
7、次,共80次開門聲音數(shù)據(jù))。利用matlab的load函數(shù)將該數(shù)據(jù)載入到計算機內(nèi)存,內(nèi)存中變量有Fs和y等變量,其中Fs為采用頻率,y為采用數(shù)據(jù)。利用這些數(shù)據(jù)完成以下工作:1. 利用matlab中的sound函數(shù),播放出聲音信號,試聽并比較正常和非正常開門聲音的差別,利用plot函數(shù)繪制出具體的聲音波形圖,總結差別在哪些方面?2. 利用合適的時域或(和)頻域特征表達個聲音信號,建立特征向量,寫出提取特征向量的具體方法和程序代碼。3. 建立聲音識別模型(二分類模型),利用模型區(qū)分正常和非正常聲音,評價模型的好壞。4. 試利用特征選擇或變換,對特征向量進行優(yōu)化,并利用參數(shù)優(yōu)化技術優(yōu)化模型的參數(shù),使
8、識別模型的準確率提高。5. 若原始聲音信號中有環(huán)境噪聲(如白噪聲),設y中疊加了一定幅值的白噪聲(利用y1=y+(-0.15+0.3*rand(size(y)*max(y)疊加噪聲),如何對聲音進行前期處理?二模型假設(1)假設在應用matlab中影響正常聲音和非正常聲音的因素都已考慮完全;(2)假設所選的時頻域能夠正確的表達出個體聲音,音中的瑕疵可以忽略(3)假設在參數(shù)優(yōu)化中,遺傳算法的計算量適當 三符號說明與模型假設3.1符號說明 是特征的均值,是特征的方差, 是歸一化的數(shù)值, R是尺度因子,是子帶i的傅里葉變換系數(shù) C是小波系數(shù)Pi表示是四 問題分析2.1聲音信號正常與非正常的開門聲音分
9、析在MATLAB環(huán)境中,熟悉有關聲音的函數(shù):聲音錄制函數(shù)wavrecord(),文件保存wavwrite(),文件讀取wavread(),語音回放sound(),語音播放wavplay(),錄制的文件以 .mat作為文件擴展名的文件。使用聲音相關函數(shù)播放40次正常開門聲音數(shù)據(jù)和40次非正常開門聲音數(shù)據(jù),用MATLAB函數(shù)wavread()將聲音信號提取出來進行進行頻譜分析,得到幅度和相位譜,做出相應觀察和對比。利用plot函數(shù)繪制出具體的聲音波形圖(程序代碼詳見附錄一),并作出具體描述。2.2聲音信號的特征向量的建立及對特征向量的提取方法分析聲音信號的特征向量的建立:引入一種非線性歸
10、一化方法,隨后實現(xiàn)多個特征提取算法(例如:時域特征、頻域特征的計算等)。決定采用特征的均值和方差來解決特征歸一化問題,輸出范圍有效地限制在了0-1內(nèi)。并且設定R值為尺度因子。R值越小,曲線越陡峭,零附近的輸入范圍值也愈放大,而絕對值較大值的范圍愈被壓縮。R值越大,曲線越平滑,輸入數(shù)值的壓縮程度也愈一致。時域特征一般比較簡單,容易計算,但是在實際采集聲音時,它們可能會被風聲等噪聲嚴重污染。如前所述,可以在硬件方面采取一定措施來減小這些影響.如為聲傳感器增加防風罩,或者運用軟件方法消除影響,如采用高通濾波器將低頻部分濾掉等。描述頻域特征時,通過頻帶能量比率方式闡述。子帶能量比率衡量的是某個子帶占全
11、部頻帶能量的比率,以此描述頻域的特質(zhì)特征。特征向量的提取方法:聲音信號的特征向量的提取是將人或物發(fā)出的聲音轉(zhuǎn)換成電信號,然后將電信號轉(zhuǎn)換成賦予相應含義的編碼圖形,也就是將聲音信號翻譯成一種機器可讀的形式。其中,LPC是特征向量提取的重要手段,它能很好地進行譜估計,即可作為語音特征的參數(shù)。因此僅用12個LPC系數(shù)就能很好地表示復雜語音信號的特征,這就大大降低了信號的冗余度并有效地減少了計算的有效數(shù)據(jù)。在實際運作中,大多數(shù)語音識別系統(tǒng)都會采用倒譜參數(shù)來作為有關距離的度量。2.3區(qū)分正常和非正常聲音,評價模型的好壞的分析利用最小二乘法進行線性回歸定義cost函數(shù),根據(jù)最大似然原理,做出樣本點回歸誤差
12、服從一定概率分布的假定。根據(jù)樣本間關系,設該誤差值的隨機變量服從高斯分布。在回歸問題中,如果響應y為二值性的,便實際成為分類問題,即所謂二分類問題。為了使問題分析得更直觀一些,假定y的取值為0或1。Logistic回歸是解決這種二分類問題的有效方法之一。2.4模型參數(shù)的優(yōu)化,提高模型的準確率方法分析本題主要是利用特征選擇和特征變換對特征向量進行優(yōu)化,后利用參數(shù)優(yōu)化技術中遺傳算法實現(xiàn)對回歸模型的優(yōu)化 由前文各種算法提取的備選特征集,經(jīng)過優(yōu)化的特征子集是由大量數(shù)據(jù)測試測驗證過的,能夠保證他的性能是最優(yōu)的,識別模型的準確性更高,本案例中,采用特征搜索及優(yōu)化算法,繼而采用其中的遺傳算法對備選特征集進行
13、了優(yōu)化選取。2.5原始聲音信號的處理分析由于各種客觀因素的影響在采集到的信號中常?;煊性肼暋橄盘柤毼⑻幍牟ㄐ尾▌?,因此在對信號分析之前有必要進行一些處理,盡可能減小噪聲對有用信號的干擾。錯點剔除:在數(shù)字信號的測試采集中,由于外界干擾或僅器的臨時故障等原因,隨時會出現(xiàn)異常數(shù)據(jù),即所謂異點。如在AD轉(zhuǎn)換中由于接地不當或其它原因會在抽樣數(shù)據(jù)中有異常的正頗峰值,產(chǎn)生突變異點的存在會影響分析結果。特別是對高頻分量的影響,必須加以剔除隨機數(shù)字信號。零均值變換:了解分析信號的統(tǒng)計特性,消除數(shù)據(jù)中的直流分量需對信號作零均值變換。預濾波:在信號分析中,一方面信號中常常會存在一些不需要的高頻噪聲成分;另一方
14、面有時我們只對某一頻段的信號成分感興趣。因此在信號分析時首先要對信號進行預濾波。濾波器可分為兩大類即經(jīng)典濾波器和現(xiàn)代濾波器。五 模型的建立與求解4.1問題(一)的模型建立與求解4.1.1聲音信號的提取在MATLAB環(huán)境中,使用聲音相關函數(shù)播放40次正常開門聲音數(shù)據(jù)和40次非正常開門聲音數(shù)據(jù)。聲音信號的提取程序代碼,詳見附錄一。取聲音數(shù)據(jù)進行頻譜分析,得到幅度和相位譜比較二者異同。分析得到如下原因:1、正常開門聲音信號的比較緩和,響度較?。欢钦B曇舯容^刺耳,音調(diào)較高,響度較大。2、振幅是物體振動時偏離原位置的大小,偏離原位置越大,振幅越大。響度跟振幅有關,振幅越大,響度越大。4.1.2用pl
15、ot()函數(shù)繪制其聲音信號圖像在MATLAB環(huán)境中,用plot()函數(shù)繪制聲音信號圖像的程序代碼,詳見附錄二?,F(xiàn)截取四副相關聲音信號圖片,佐證關于聲音信號的分析。4.2問題(二)的模型建立與求解4.2.1特征歸一化盡管SVM分類器可以處理任意范圍的特征數(shù)據(jù),但歸一化仍然有助干簡化問題的的復雜性。一般情況下,可以利用特征的均值和方差來解決這個問題。如式(4.1),(4.2),(4 3)。 (4.1) (4.2) (4.3) 其中,是特征的均值,是特征的方差,為歸一化的數(shù)值。這樣可以使數(shù)據(jù)去掉均值,但是對于有些數(shù)據(jù)則起不到歸一化的作用。如果想把輸人范圍限制在0,1內(nèi),只能通過非線性尺度函教來進行,
16、如式(4.4),(4.5)所示。 (4.4) (4.5)R為尺度因子。經(jīng)過非線性歸一化后的數(shù)據(jù)如圖4.1所示圖4.1數(shù)據(jù)的非線性歸一化可以看到輸出范圍被有效地限制在了01內(nèi),R值越小,曲線越陡峭,零附近的輸入范圍值也愈放大,而絕對值較大值的范圍愈被壓縮。R值越大,曲線越平滑,輸入數(shù)值的壓縮程度也愈一致。如圖4.1所示R=2.5曲線。本文選定的R值為2.5。4.2.2時域特征時域特征一般比較簡單,容易計算,但是在實際采集聲音時,它們可能會被風聲等噪聲嚴重污染。如前所述,可以在硬件方面采取一定措施來減小這些影響.如為聲傳感器增加防風罩,或者運用軟件方法消除影響,如采用高通濾波器將低頻部分濾掉等等。
17、圖4.2 正常聲音信號的頻譜圖 圖4.3 非正常聲音信號的頻譜圖4.2.3頻域特征子帶i的能量比率定義為: (4.6)式(4.13)中,子帶i的傅里葉變換系數(shù)。因此,子帶能量比率衡量的是某個子帶占全部頻帶能量的比率。在文本中,我們?nèi)缦聞澐肿訋В浩渲?,?功率譜中的頻率成份表征出了信號的重要信息,但是卻沒有反映出這些頻率成分對應的時域信息。小波分析不同于傅里葉變換,它對時域和頻域信息均有很好的反映,是應用較為廣泛的一種特征提取方法。小波子帶能量特征實際上是對離散小波變換所得各層小波系數(shù)的平方求和,代表了目標的本質(zhì)特征,可以將其按皿尺度順序排列形成特征矢量以供分類識別。 離散小波變換可以看成是信號
18、的層層分解,首先信號被一個個像濾波器組g(n)和h(n)進行高通、低通濾波,濾波器的截止頻率均為,繼而信號被二倍下采樣,由此得到信號的近似分量cA和細節(jié)分量cD。第二層對第一層的近似分量再進行類似分解,濾波器組的截止頻率變?yōu)?,層層分解直到指定階段。三層分解后得到的小波系數(shù)為,如果輸入信號為1000點,那么c中系數(shù)的長度為125,125,250,500,分解效果如同圖4.4、圖4.5所示。 圖4.4三層小波示意圖 圖4.5三層小波兩種對比度圖為小波對比度4.2.4預處理分析語音信號的特征向量一般分為兩類:第一類為時域特征向量,通常將幀語音信號的各個時域采樣值直接構成一個向量。第二類為變換域特征向
19、量,即對一幀語音信號進行某種變換后產(chǎn)生的特征向量。前者的優(yōu)點在于計算簡單,缺點是不能壓縮維數(shù)且不適于表征幅度譜特性。與此對應,各種變換域特征向量的計算比較復雜,但能從不同的角度反映幅度譜的特征,如圖4.6。圖4.6語音識別原理語音識別本質(zhì)上是一種模式識別的過程,其基本結構原理框圖如圖4.6所示。主要包括語音信號預處理、特征提取、特征建模(建立參考摸式庫、模式匹配等幾個功能模塊。一個語音識別系統(tǒng)主要包括訓練和識別兩個階段。無論是訓練還是識別都需要首先對輸入的原始語音進行預處理,并進行特征提取。語音信號特征的提取如圖2所示在特征提取部分以前為聲音信號預處理過程主要包括A/D轉(zhuǎn)換、去噪、端點檢測、預
20、加重、分幀和加窗等計算,如圖4.7。圖4.7聲音提取過程框圖4.2.5加窗語音信號從整體來看是其特性及其表征其本質(zhì)特征的參數(shù)均是隨時間而變化,因而可以看成一個準平穩(wěn)過程,及語音信號的短時穩(wěn)定性,將語音信號分為很多段來逐段分析其特征參數(shù),其中每一段稱為一幀,分段的過程稱為分針處理,通過對語音信號加窗口函數(shù)來實現(xiàn)。幀長一般選取10-30ms。分幀可以連續(xù)分段,但一般是通過一個滑動窗口進行交疊式分段。用的最多的是3種窗口是矩形窗,漢明窗,漢寧窗定義如下:1矩形窗當0<=n<=N-1,w(n)=1;其他的值都為02漢明窗當0<=n<=N-1,w(n)=0.54-0.46cos(
21、2npi/(N-1),取其他值都為0.3漢寧窗當0<=n<=N-1,w(n)=0.5(1-cos(2npi/(N-1)),取其他值都為0語音信號端點檢測的目的是從連續(xù)采樣得到的數(shù)字信號中檢側(cè)出語音信號段和噪聲段,它是任何一個語音識別系統(tǒng)必不可少的組成部分只有準確地找出語音段的起始點和終止點,才有可能使采集到的數(shù)據(jù)是真正要分析的語音信號,這樣不僅可以減少計算量,而且可以提高系統(tǒng)的識別率。因此,端點作為語音分割的重要特征,在很大程度上影響語音識別系統(tǒng)的性能,如何在噪聲環(huán)境下設計一個魯棒的端點檢測算法還是一個非常棘手的問題。傳統(tǒng)的端點檢測算法只依賴于一個特征。例如信號能量、過零率、持續(xù)時
22、間及線性預測能量誤差。4.2.6雙門限比較法 雙門限端點檢測法是一種基于能量-過零率的兩級判決法,即首先用第一次判別,然后再此基礎上用短時過零率做第二次判別,首先要分別為短時能量過零率確定兩個門限,再用短時能量做第一次判別式,為了不至于把語音能量的局部下降點錯誤的當成起始點,因此采用雙門限比較法。高門限被超過基本可以確定語音的起始端口,地門限用于確定語音真正的端點。低門限被超過未必就是語音的起始端口,也有可能是短時的噪聲,當高門限已經(jīng)確定起始端點,再返回去利用低門限確定語音的真正起始點,有時噪聲的能量也相當大,但持續(xù)的時間比較短,可以用持續(xù)時間來決定是噪聲好是語音。短時能量,4.2.7語音特征
23、的提取方法語音信號中含有豐富的信息,經(jīng)過預處理的語音信號,對其參數(shù)進行分析一提取特征參數(shù),就是對語音信號進行一系列的運算得出一個矢量序列用這個矢量序列代表原始的語音信號所攜帶的有用信息。在語音識別中經(jīng)常用到的特征參數(shù)有線性預測倒譜參數(shù)(LPCC),Mel頻率倒譜參數(shù)(MPCC)和感知線性預測倒譜參數(shù)(PLPC)下面是幾種提取方法4.2.8,線性預測倒諾參數(shù)LPCC的提取方法線性預側(cè)(Line- Pra7iction. LP)分析是最有效的語音分折技術之一,在語音編碼、語音合成、語音識別、說話人識別等語音處理領域得到了廣泛應用。線性預側(cè)分析的基本思想是:語音信號樣點之間存在相關性,可以用過去的若
24、干個樣點或它們的線性組合預測現(xiàn)在或?qū)淼臉狱c值??梢酝ㄟ^使實際語音抽樣值和線性預測抽樣值之間的均方誤差最小,得到一組唯一的線性預測系數(shù)(LPC系數(shù))。線性預測分析不僅能夠提供語音信號的預測波形,而且能夠提供一個好的聲道摸型。語音線性預測系數(shù)作為語音信號的一種特征參數(shù),已被廣泛應用于語音處理的各個領域。在對語音的濁音幀和清音幀特征參數(shù)的分析中發(fā)現(xiàn),清音幀類似噪音,能量較低,易受背景噪音影響,而濁音帖的能量和規(guī)律性都較強。特征參數(shù)包含更多的說話人個體信息是說話人識別研究的主要對象。線性預測系數(shù)是線性預測的基本參數(shù),可以將這些參數(shù)進行變換得到語音信號的其他參數(shù),下面就來介紹由線性預測系數(shù)得到線性預測
25、倒譜系數(shù)的過程。通過線性預測分析得到的聲道模型的系統(tǒng)函數(shù)為 (4.7)其沖激響應為h(n),此處要計算的就是其倒譜h '(n),根據(jù)倒譜的定義, (4.8)將式(4.7)代入式(4.8),并將其兩邊求導數(shù),即有 因而有 ,令其左右兩邊的常數(shù)項和 次冪的系數(shù)分別相等,即得到 和的遞推關系: (2)小波分析技術由于選用的兩種倒譜一個反應了靜態(tài)信息,另一個反映了動態(tài)信息,兩者互相補償,充分表征了說話人聲道模型。語音的基音頻率是聲帶的基本頻率,它反映了聲帶激勵源的特點。基音容易被模仿,不宜單獨使用,但它可以與倒譜參數(shù)相結合。由于倒譜參數(shù)和基音參數(shù)分別描述了說話人聲道,從而可以充分反映說話人特征
26、。LPCC的各種變形,例如差分倒譜,倒譜加權、自適應分量加權倒譜等也已經(jīng)成功的應用在噪聲語音特征中。4.3問題(三)的模型建立與求解4.3.1二分類單水平Logistic回歸模型Logisti回歸模型是一種典型的對數(shù)線性模型,它通過回歸擬合解釋變量與事件發(fā)生概率之間的非線性關系,被廣泛應用于分析不同解釋變量取值組合呈現(xiàn)狀態(tài)的概率,以及在一定條件下事件發(fā)生與否的概率,因此又稱二分Logistic回歸。記x=(、. )表示影響事件A發(fā)生概率的因素,P(x)表示事件A發(fā)生的概率,顯然,事件A沒有發(fā)生的概率為1-P(x),令 P(x)=f(、.) (1) 變換(1)式 P(x)= 當0<P(x)
27、<1時,令 (2) 考慮F為線性函數(shù)有 F(、.) 代換(2)式 (3) 則稱(3)式為多元線性Logistic回歸模型(簡稱Logistic回歸模型),由此模型可以直接計算事件A的發(fā)生概率,模型中的系數(shù)采用極大似然參數(shù)估計迭代計算可得。4.3.2線性回歸的概率關聯(lián) 利用最小二乘法進行線性回歸,定義cost函數(shù)為 J(w)= (1)這個定義其實隱含著樣本點回歸誤差服從一定概率分布的假定。假設樣本數(shù)對 間關系由如下線性函數(shù)表達: (2)其中表示誤差值,設該誤差值為IID隨機變量并服從高斯分布,其密度函數(shù)為: (3) 這意味著在給定 和的條件下的概率密度為: (4)在給定X,w的條件下,Y的
28、概率科表示為p(Y/W;w),將這個概率看成w的函數(shù),我們稱之為似然函數(shù),L(w)=L(w;X,Y)=p(Y/X;w) (5)在獨立分布的假定下,給定的條件下獨立分布,給出表示,關系的概率模型,根據(jù)最大似然原理,為合理擬合數(shù)據(jù)應選取w使得L(w)最大化,但計算比較繁瑣,取L(w)的對數(shù)最為對數(shù)似然l(w)以簡化最大值分析, l(w)= logL(w) (6) 從對數(shù)函數(shù)的性質(zhì)知,當l(w)最大時相應使L(w)達到最大,相當于使 (7)最小。對照(1)式可知,(8)式即最小二乘法的cost函數(shù)J(w)。 4.3.3非線性數(shù)據(jù)(曲線)擬合 非線性曲線擬合是已知輸入向量xdata和輸出向量ydata
29、,并且知道輸入與輸出的函數(shù)關系為ydata=F(x, xdata),但不知道系數(shù)向量x。今進行曲線擬合,求x使得下式成立: 在MATLAB5.x中,使用函數(shù)curvefit解決這類問題。函數(shù) lsqcurvefit格式 x = lsqcurvefit(fun,x0,xdata,ydata)x = lsqcurvefit(fun,x0,xdata,ydata,lb,ub)x = lsqcurvefit(fun,x0,xdata,ydata,lb,ub,options)x,resnorm = lsqcurvefit()x,resnorm,residual = lsqcurvefit()x,resn
30、orm,residual,exitflag = lsqcurvefit()x,resnorm,residual,exitflag,output = lsqcurvefit()x,resnorm,residual,exitflag,output,lambda = lsqcurvefit()x,resnorm,residual,exitflag,output,lambda,jacobian =lsqcurvefit()參數(shù)說明:x0為初始解向量;xdata,ydata為滿足關系ydata=F(x, xdata)的數(shù)據(jù);lb、ub為解向量的下界和上界,若沒有指定界,則lb= ,ub= ;option
31、s為指定的優(yōu)化參數(shù);fun為擬合函數(shù),其定義方式為:x = lsqcurvefit(myfun,x0,xdata,ydata),其中myfun已定義為 function F = myfun(x,xdata)F = % 計算x處擬合函數(shù)值fun的用法與前面相同;resnorm=sum (fun(x,xdata)-ydata).2),即在x處殘差的平方和;residual=fun(x,xdata)-ydata,即在x處的殘差;exitflag為終止迭代的條件;output為輸出的優(yōu)化信息;lambda為解x處的Lagrange乘子;jacobian為解x處擬合函數(shù)fun的jacobian矩陣。 標
32、準化回歸系數(shù)和回歸模型的擬合程度。與多重線性回歸類似,自變量量綱(單位)不同,非標準化的Logistic回歸系數(shù)不能用于比較各自變量對事件發(fā)生概率的貢獻大小。欲研究Logistic回歸中各變量的相對貢獻,要么事先將各自變量標準化后再作回歸分析,要么對logistic回歸系數(shù)進行標準化。我們可以用極大似然函數(shù)的回歸系數(shù)乘以該變量的樣本標準差求得logistic回歸的標準化回歸系數(shù)。非線性數(shù)據(jù)(曲線)擬合非線性曲線擬合是已知輸入向量xdata和輸出向量ydata,并且知道輸入與輸出的函數(shù)關系為ydata=F(x, xdata),但不知道系數(shù)向量x。今進行曲線擬合,求x使得下式成立:在MATLAB5
33、.x中,使用函數(shù)curvefit解決這類問題。函數(shù) lsqcurvefit格式 x = lsqcurvefit(fun,x0,xdata,ydata)x = lsqcurvefit(fun,x0,xdata,ydata,lb,ub)x = lsqcurvefit(fun,x0,xdata,ydata,lb,ub,options)x,resnorm = lsqcurvefit()x,resnorm,residual = lsqcurvefit()x,resnorm,residual,exitflag = lsqcurvefit()x,resnorm,residual,exitflag,outpu
34、t = lsqcurvefit()x,resnorm,residual,exitflag,output,lambda = lsqcurvefit()x,resnorm,residual,exitflag,output,lambda,jacobian =lsqcurvefit()參數(shù)說明:x0為初始解向量;xdata,ydata為滿足關系ydata=F(x, xdata)的數(shù)據(jù);lb、ub為解向量的下界和上界,若沒有指定界,則lb= ,ub= ;options為指定的優(yōu)化參數(shù);fun為擬合函數(shù),其定義方式為:x = lsqcurvefit(myfun,x0,xdata,ydata),其中myfu
35、n已定義為 function F = myfun(x,xdata)F = % 計算x處擬合函數(shù)值fun的用法與前面相同;resnorm=sum (fun(x,xdata)-ydata).2),即在x處殘差的平方和;residual=fun(x,xdata)-ydata,即在x處的殘差;exitflag為終止迭代的條件;output為輸出的優(yōu)化信息;lambda為解x處的Lagrange乘子;jacobian為解x處擬合函數(shù)fun的jacobian矩陣。5.問題(四)的模型建立與求解4.5問題(五)的模型建立與求解4.5.1預處理分析語音信號的特征向量一般分為兩類:第一類為時域特征向量,通常將幀
36、語音信號的各個時域采樣值直接構成一個向量。第二類為變換域特征向量,即對一幀語音信號進行某種變換后產(chǎn)生的特征向量。前者的優(yōu)點在于計算簡單,缺點是不能壓縮維數(shù)且不適于表征幅度譜特性。與此對應,各種變換域特征向量的計算比較復雜,但能從不同的角度反映幅度譜的特征,如圖。4.5.2錯點剔除在數(shù)字信號的測試采集中,由于外界干擾或僅器的臨時故障等原因,隨時會出現(xiàn)異常數(shù)據(jù),即所謂異點。如在AD轉(zhuǎn)換中由于接地不當或其它原因會在抽樣數(shù)據(jù)中有異常的正頗峰值,產(chǎn)生突變異點的存在會影響分析結果。特別是對高頻分量的影響,必須加以剔除隨機數(shù)字信號。用robust回歸。例如: x = (1:10)' y = 10 -
37、 2*x + randn(10,1); y(10) = 0; bls = regress(y,ones(10,1) x) brob = robustfit(x,y) scatter(x,y) hold on plot(x,brob(1)+brob(2)*x,'r-', x,bls(1)+bls(2)*x,'m:')零均值變換:了解分析信號的統(tǒng)計特性,消除數(shù)據(jù)中的直流分量需對信號作零均值變換。預濾波:在信號分析中,一方面信號中常常會存在一些不需要的高頻噪聲成分;另一方面有時我們只對某一頻段的信號成分感興趣。因此在信號分析時首先要對信號進行預濾波。濾波器可分為兩大類
38、即經(jīng)典濾波器和現(xiàn)代濾波器。六、模型的優(yōu)缺點及改進方向8.1模型的優(yōu)點:(1)在解決問題一時,調(diào)用MATLAB函數(shù)wavread()提取的聲音信號清晰,對比性強;plot()函數(shù)繪制的聲音信號圖像直觀、易懂。(2)在解決問題二時,引入一種非線性歸一化方法,隨后實現(xiàn)多個特征提取算法。采用特征的均值和方差來解決特征歸一化問題,輸出范圍有效地限制在了0-1內(nèi)。其中,LPC是特征向量提取的重要手段,它能很好地進行譜估計,即可作為語音特征的參數(shù)。因此僅用12個LPC系數(shù)就能很好地表示復雜語音信號的特征,這就大大降低了信號的冗余度并有效地減少了計算的有效數(shù)據(jù)。(3)在解決問題三時,利用最小二乘法進行線性回歸
39、定義cost函數(shù),根據(jù)最大似然原理,做出樣本點回歸誤差服從一定概率分布的假定。根據(jù)樣本間關系,設該誤差值的隨機變量服從高斯分布。在回歸問題中,如果響應y為二值性的,便實際成為分類問題,即所謂二分類問題。使問題更加直觀。(4)在解決問題四時,運用遺傳算法來優(yōu)化參數(shù),極大的提高了識別的性能和正確率1.與問題領域無關的快速隨機的搜索能力2.搜索從群體出發(fā),具有潛在的并行性,可以進行多個個體的同時比較3搜索啟用函數(shù)啟發(fā),過程簡單4.使用概率機制進行迭代,具有隨機性5.具有可拓展性,容易與其他算法結合(5)在解決問題五時,由于各種客觀因素的影響在采集到的信號中常?;煊性肼?。在對信號分析之前進行一些處理,
40、盡可能減小噪聲對有用信號的干擾,為消除信號細微處的波形波動做好了鋪墊。8.2 模型的缺點:(1) 對于問題一,對于問題一的主要缺點是在應用matlab 時,不能把完全影響正常和非正常的聲音因素考慮進去。(2) 對于問題二,隱馬爾可夫模型有一定的自身局限性,例如它無法解決模凌兩可的發(fā)音(3) 對于問題三,二分類模型在文中的缺點是多目標的優(yōu)化識別率低(4) 對于問題四,遺傳算法的編程實現(xiàn)比較復雜,首先需要對問題進行編碼,找到最優(yōu)解之后還需要對問題解碼;其次,遺傳算法不能陷入打規(guī)模計算的領域;(5) 對于問題五,不能完全完全的剔除噪音8.3模型的改進方向1.將(2)問題中的模型用隱馬可夫模型和人工神
41、經(jīng)網(wǎng)路模型相結合的混合模型來對語音進行識別,這樣會消除隱馬可夫模型的缺點,同時人工神經(jīng)網(wǎng)絡的參與使識別正確率更高7、 參考文獻1陳方,高升,語音識別技術及發(fā)展,北京:電信科學,1996年。 2胡良劍,孫曉君,MATLAB和數(shù)學實驗,北京:高等教育出版社,2006年。3劉行峻等,語音信號數(shù)字處理,北京:電子工業(yè)出版社,2000年。4胡光銳,語音處理與識別,上海:上??萍嘉墨I出版社,1994年。5何強,何英,MATLAB擴展編程,北京:清華大學出版社,2002年。6 劉樹棠譯,數(shù)字信號處理使用MATLAB,西安:西安交通大學出版社,2002年。 7劉衛(wèi)國.MATLAB程序設計與應用.北京
42、:高等教育出版社,2006年第二版.8同濟大學應用數(shù)學系編.高等數(shù)學.北京:高等教育出版社,2006年第三版.9華東師范大學數(shù)學系編.數(shù)學分析.北京:高等教育出版社,2008年第三版.10韓中庚.數(shù)學建模競賽獲獎論文精選與點評.北京:科學出版社,2007. 八、附錄附錄一:用MATLAB函數(shù)提取聲音信號%聲音信號的提取 x,fs=wavread('kz'); figure(1); subplot(3,1,1); plot(x(1:4000); title('e:sound正40.mat'); y=fft(x);&
43、#160;subplot(3,1,2); plot(abs(y); title('幅值');%聲音信號的提取 x,fs=wavread('kz'); figure(1); subplot(3,1,1); plot(x(1:4000); title('e:sound非40.mat'); y=fft(x); subplot(3,1,2); plot(abs(y); title('幅值');subplot(3,1,1);
44、0;plot(x(1:4000); title('e:sound非40.mat'); y=fft(x); subplot(3,1,2); plot(abs(y); title('幅值');附錄二:用plot()函數(shù)繪制其圖像load('e:sound正40.mat')Sound(y,F(xiàn)s)plot(y)load('e:sound非40.mat')Sound(y,F(xiàn)s)plot(y)附錄三:求lpc倒譜funclipon=addwin(f)%此函致用來分幀后,在“加窗”的同時提取Ip
45、c倒譜參數(shù)%f是分幀后得到的值,f=enframe(py, win,inc)b=;for i=l;size(f,1),y=f(i,:);%顯示第i行的所有數(shù)據(jù)P=(. * hamming(256);%加窗c=Ipc(p) :%求Ipcd=ccaps(c),求Ipc倒譜b=(b.d(2: 13);%取2到13個,一共12個end;附錄6:刪除誤差較大點clear;clc; data=load('data.txt');k=84;s=zeros(84,1);for i=1:84 sum_x=0; sum_y=0; sum_z=0; for j=1:k sum_x=sum_x+data
46、(j,1); sum_y=sum_y+data(j,2); sum_z=sum_z+data(j,3); end mean_x=sum_x/k; mean_y=sum_y/k; mean_z=sum_z/k; for j=1:k e(j)=(data(j,1)-mean_x)2+(data(j,2)-mean_y)2+(data(j,3)-mean_z)2; end max=0; flag=0; for j=1:k s(i)=s(i)+e(j); if e(j)>max max=e(j); flag=j; end end s(i)=s(i)/k; data(j,:)=; k=k-1;en
47、dplot(s);hold on;plot(25,s(25),'r*');xlabel('Êý¾Ýµãɾ³ý¸öÊý');ylabel('¾àÀë¾ù·½Îó²î');附錄7:遺傳算法 function result=sga(n,a,b,pc,pm,e) %n
48、群體規(guī)模;a搜索上限;b搜索下限; %pc交叉概率;pm變異概率;e計算精度; for i=1:50 %求出群體的碼串最小長度m if (b-a)/e>2(i) m=i+1; else i=i+1; end end popusize=n;chromlength=m;j=1; popu=round(rand(popusize,chromlength); %隨機產(chǎn)生n行m列的初始群體 while j<=30 %設置程序
49、中止條件 py=chromlength; for i=1:py %進行二進制轉(zhuǎn)換成十進制的解碼操作 popu1(:,i)=2.(py-1).*popu(:,i); py=py-1; end popu2=sum(popu1,2); x=a+popu2*(b-a)/(2.1-1); yvalue=2*x.2.*cos(3*x)+x.*sin(5*x)+8; %計算群體中每個個體的適應 度 for i=1:popusize %執(zhí)行復制操作 if yvalue(i)<0 yvalue(i)=0; end end fitscore=yvalue/sum(yv
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- NX-1607-GMP-Cbl-b-IN-3-GMP-生命科學試劑-MCE-7412
- Isoorotidine-生命科學試劑-MCE-5873
- 3-Methoxy-prostaglandin-F1α-生命科學試劑-MCE-1002
- 二零二五年度紅木家具品牌授權合同及清單
- 二零二五年度父母無償贈與子女房產(chǎn)并約定維修責任協(xié)議
- 二零二五年度新能源儲能技術融資合同
- 施工現(xiàn)場施工防突發(fā)公共衛(wèi)生事件制度
- 施工單位關于協(xié)調(diào)配合的聯(lián)絡函
- 雨雪天氣的應急預案
- 《運營管理 第7版》課件-chapt.05-選址與設施布置
- 招標采購基礎知識培訓
- 2024年廣東省公務員錄用考試《行測》試題及答案解析
- 2024年法律職業(yè)資格考試(試卷二)客觀題試題及解答參考
- 電力系統(tǒng)分布式模型預測控制方法綜述與展望
- 2024年注冊建筑師-二級注冊建筑師考試近5年真題附答案
- 2024年貴州省中考理科綜合試卷(含答案)
- 無人機技術與遙感
- 燃煤電廠超低排放煙氣治理工程技術規(guī)范(HJ 2053-2018)
- TSG-T7001-2023電梯監(jiān)督檢驗和定期檢驗規(guī)則宣貫解讀
- 冠脈介入進修匯報
- 護理病例討論制度課件
評論
0/150
提交評論