說(shuō)話人識(shí)別的系統(tǒng)設(shè)計(jì)大學(xué)_第1頁(yè)
說(shuō)話人識(shí)別的系統(tǒng)設(shè)計(jì)大學(xué)_第2頁(yè)
已閱讀5頁(yè),還剩46頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)1111摘要說(shuō)話人識(shí)別技術(shù)是一種的重要生物認(rèn)證手段,也是身份鑒別學(xué)術(shù)會(huì)議中的一項(xiàng)重要內(nèi)容。說(shuō)話人識(shí)別的目的是通過(guò)話語(yǔ)找出或核實(shí)說(shuō)話人的身份,可以被用于訪問(wèn)控制。它屬于語(yǔ)音信號(hào)領(lǐng)域的一個(gè)模式識(shí)別問(wèn)題。本文使用交疊分幀的方法短時(shí)化語(yǔ)音信號(hào),使用每幀信號(hào)的能頻值區(qū)分語(yǔ)音信號(hào)和噪聲信號(hào)。特征提取方面,本文使用線性預(yù)測(cè)倒譜系數(shù)和基音頻率來(lái)表征生成語(yǔ)音的發(fā)音器官的差異(先天的),用差分線性預(yù)測(cè)倒譜系數(shù)和差分基音頻率表征發(fā)音器官發(fā)音時(shí)動(dòng)作的差異(后天的)。四種特征加權(quán)擴(kuò)維得到的組合特征矢量最終表征了一個(gè)特定的說(shuō)話人。分類決策方面,本文使用矢量量化的方法完成對(duì)說(shuō)話人語(yǔ)音信號(hào)的分類和判決。本文設(shè)計(jì)的系統(tǒng)是基于Java語(yǔ)言和SQLServer2000數(shù)據(jù)庫(kù)實(shí)現(xiàn)的。Java語(yǔ)言用于實(shí)現(xiàn)語(yǔ)音樣本采集、預(yù)處理、特征提取、分類決策等說(shuō)話人識(shí)別所需的各種算法。SQLServer2000數(shù)據(jù)庫(kù)用于存儲(chǔ)已注冊(cè)說(shuō)話人的語(yǔ)音碼本。本文在實(shí)現(xiàn)系統(tǒng)的基礎(chǔ)上,分析了組合特征中各分量對(duì)說(shuō)話人識(shí)別的貢獻(xiàn)大小。得到的結(jié)論是:用于說(shuō)話人識(shí)別的參數(shù)中,線性預(yù)測(cè)倒譜系數(shù)效果最好,差分線性預(yù)測(cè)倒譜系數(shù)次之,基音頻率再次之,差分基音頻率效果最差。根據(jù)這一結(jié)論,系統(tǒng)通過(guò)調(diào)整組合特征中各分量加權(quán)系數(shù)的方式突出貢獻(xiàn)大的分量。實(shí)驗(yàn)表明,調(diào)整后系統(tǒng)識(shí)別率顯著提高。對(duì)于10名男性語(yǔ)音的碼本庫(kù),本文實(shí)現(xiàn)系統(tǒng)的識(shí)別率可達(dá)到87%。關(guān)鍵詞:說(shuō)話人識(shí)別;基音;線性預(yù)測(cè);矢量量化Theresearchofthetext-independentspeakerrecognitionsystemAbstractSpeakerrecognitiontechnologyisoneoftheimportantbiometricways,aswellasanimportantpartinacademicconferencesofidentification.Thepurposeofspeakerrecognitionisidentifyingorverifyingthespeaker'sidentitythroughthediscourse,whichcanbeusedtocontrolaccess.Itisapatternrecognitionproblemonspeechsignals.Thispaperusesthewayofoverlappingsub-frametoshortthevoicesignal,andusestheEnergyFrequencyValueofeachframetoseparatethevoicesignalfromthenoisesignal.Intherespectoffeatureextraction,thispaperusesLPCCandpitchfrequencytocharacterizepronunciationorgansgeneratedvoicesounds(congenital),andusesdifferentialLPCCanddifferentialpitchfrequencycharacterizethediffereneeofpronunciationorganmovestopronounce(acquired).Ultimately,acomponentfeaturevector,whichisobtainedbyweightedandunitedthatfourfeatures,characterizeaparticularspeaker.Intherespectofclassificationanddecision,weusemethodofvectorquantizationtocompletetheclassificationandsentencingforspeakers'speechsignal.ThesystemthatisdesignedbythispaperisachievedbasedontheJavaIanguageandSQLServer2000database.JavaIanguageisusedtoimplementalgorithmsneededbyspeakerrecognition,suchasvoicesampling,preprocessing,featureextraction,classificationanddecisionandsoon.SQLServer2000databaseisusedtostoreregisteredspeakersvoicecodebooks.Basedonthesystemachieved,thispapeanalyzedcontributiontotheidentificationforeachcompositionofthecomponentfeatures.Theconclusionis:forspeakeridentificationparameters,LPCCisthebest,differentialLPCCisthesecondbest,thepitchfrequencyisthethirdbestanddifferentialpitchfrequencyistheworst.Basedonthisconclusion,thesystemgivesprominencetothecomposition,whichhasmorecontributiontotheidentification,byadjustingweightedcoefficient.Afteradjustment,experimentsshowthatsystemidentificationrateimprovedsignificantly.Therecognitionrateofthesystemcompletedbythispapercanreach87%tothecodebookdatabaseproducedby10malevoices.KeyWords:speakerrecognition;pitch;linearprediction;vectorquantification北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)北京科技大學(xué)本科生畢業(yè)設(shè)計(jì)(論文)-參考文獻(xiàn)趙力?語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003韓焱,王召巴,楊風(fēng)暴?電子信息工程專業(yè)學(xué)生的專業(yè)知識(shí)結(jié)構(gòu)與課程設(shè)置[C]?全國(guó)光學(xué)光電和電子類專業(yè)教學(xué)經(jīng)驗(yàn)交流研討會(huì)專集,中國(guó)光學(xué)學(xué)會(huì)光電技術(shù)專業(yè)委員會(huì),教育部高等學(xué)校電子信息科學(xué)與工程類專業(yè)教學(xué)指導(dǎo)分委員會(huì),全國(guó)高等學(xué)校光學(xué)教育研究會(huì),2002.北京:華北工學(xué)院,2002Q.Y.Hong,S.Kwong.ADiscriminativeTrainingApproachforText-independentSpeakerRecognition[J]SignalProcessing2005,85(7):1449-1463邊肇祺,張學(xué)工.模式識(shí)別[M].第二版.北京:清華大學(xué)出版社,2000⑸張雄偉,陳亮,楊吉斌.現(xiàn)代語(yǔ)音處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2003⑹胡航.語(yǔ)音信號(hào)處理[M].第二版.哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2002JudithA.Markowitz,J.MarkowitzConsultantSpeakerRecognition[J]InformationSecurityTechnicalReport1998,3(1):14—20果永振,何遵文.一種多特征語(yǔ)音端點(diǎn)檢測(cè)算法及實(shí)現(xiàn)[J].通信技術(shù),2003,133(1):8-10韓紀(jì)慶,張磊,鄭鐵然.語(yǔ)音信號(hào)處理[M].北京:清華大學(xué)出版社,2004趙靜,羅興國(guó),蔡文濤.噪聲環(huán)境下語(yǔ)音信號(hào)的基音檢測(cè)[J].電聲技術(shù),2007,31(3):54-62ChaiWutiwiwatchai,SadaokiFurui.Thaispeechprocessingtechnology:Ar

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論