




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、語音信號(hào)處理與識(shí)別發(fā)展n聲紋識(shí)別的起源,貝爾實(shí)驗(yàn)室開發(fā)的Audrey語言識(shí)別系統(tǒng)n60年代,線性預(yù)測編碼技術(shù)(LPC)和動(dòng)態(tài)規(guī)劃技術(shù)(DP)n70年代,LPC和DTW的發(fā)展,提出了矢量量化(VQ)和隱馬爾科夫模型(HMM)理論。n80年代,卡耐基梅隆大學(xué)突破了大量詞匯、連續(xù)語音和非特定人三大障礙,實(shí)現(xiàn)了基于隱馬爾客服模型的語言識(shí)別Sphinx系統(tǒng)。n90年代,語音發(fā)展相對(duì)緩慢,并沒有多大創(chuàng)新,許多公司斥巨資將語音識(shí)別系統(tǒng)實(shí)用化。如:IBM的Via Voice等等。n我國在語音識(shí)別方面起步相對(duì)較晚,但經(jīng)過幾十年的努力也取得了很大成就。 “863計(jì)劃”,大量詞匯非特定人連續(xù)語音識(shí)別演示系統(tǒng),多項(xiàng)核
2、心技術(shù)和創(chuàng)新性方法n21世紀(jì),移動(dòng)互動(dòng)網(wǎng)的興語音識(shí)別系統(tǒng)的發(fā)展起到了很大的推動(dòng)作用,有安卓系統(tǒng)內(nèi)嵌語音識(shí)別系統(tǒng)、Google語音翻譯、科大訊飛推出的訊飛口訊和語音云識(shí)別等相關(guān)產(chǎn)品也得到了很大的應(yīng)用。優(yōu)缺點(diǎn):n聲紋識(shí)別具有很多優(yōu)點(diǎn):聲紋識(shí)別具有很多優(yōu)點(diǎn):n純天然,識(shí)別的特征是聲音,不用接觸n測試設(shè)備成本低,不需要特殊設(shè)備,對(duì)采樣和量化的的芯片要求不高。n在遠(yuǎn)程應(yīng)用和移動(dòng)互聯(lián)網(wǎng)環(huán)境中,可以通過電話和移動(dòng)設(shè)備進(jìn)行身份確認(rèn)和辨認(rèn)。n但同時(shí)也有一些缺點(diǎn):但同時(shí)也有一些缺點(diǎn):n一個(gè)人的聲音具有易變性,易受身體狀況、年齡、情緒等的影響;n不同的麥克風(fēng)和信道對(duì)識(shí)別性能有影響;n環(huán)境噪音對(duì)識(shí)別有干擾;混合說話人
3、的情形下人的聲紋特征不易提取 聲紋識(shí)別唯一性n聲紋識(shí)別:聲紋識(shí)別: 聲紋識(shí)別(Voiceprint Recognition, VPR),也稱為說話人識(shí)別(Speaker Recognition),是從說話人發(fā)出的語音信號(hào)中提取聲紋信息。具有排他性,因?yàn)槊總€(gè)人的自然特征不同,所以聲紋和指紋一樣都各具特色,聲紋識(shí)別技術(shù)可以作為鑒別身份的一種重要手段 。通過聲紋識(shí)別技術(shù)和位置服務(wù)技術(shù)(衛(wèi)星定位等)相結(jié)合,實(shí)現(xiàn)遠(yuǎn)程身份確認(rèn),從而可達(dá)到被監(jiān)管對(duì)象真實(shí)的地理位置或活動(dòng)軌跡。 相關(guān)概念n聲紋識(shí)別按任務(wù)有兩類,即說話人辨認(rèn)聲紋識(shí)別按任務(wù)有兩類,即說話人辨認(rèn)(Speaker Identification)和說話
4、人確和說話人確認(rèn)認(rèn)(Speaker Verification)。 說話人辨認(rèn):用以判斷某段語音是若干人中的哪一個(gè)所說的,是“多選一”問題。 說話人確認(rèn):用以確認(rèn)某段語音是否是指定的某個(gè)人所說的,是“一對(duì)一判別”問題。 n聲紋識(shí)別按類型有文本相關(guān)的聲紋識(shí)別按類型有文本相關(guān)的(Text-Dependent)和文本無關(guān)的和文本無關(guān)的(Text-Independent)兩種。兩種。 文本相關(guān):因此可以達(dá)到較好的識(shí)別效果,但系統(tǒng)需要系統(tǒng)要求用戶按照規(guī)定的內(nèi)容發(fā)音,而識(shí)別時(shí)也必須按規(guī)定的內(nèi)容發(fā)音用戶配合。 文本無關(guān):系統(tǒng)則不規(guī)定說話人的發(fā)音內(nèi)容,模型建立相對(duì)困難,但用戶使用方便,可應(yīng)用范圍較寬。 總框圖采
5、樣量化首先對(duì)語音進(jìn)行采樣量化和預(yù)處理,預(yù)處理包括預(yù)加重處理、加窗、分幀和端點(diǎn)檢測。采樣量化采樣量化n預(yù)濾波是為了防混疊和阻止工頻信號(hào)的干擾,預(yù)濾波器是帶通濾波器。n自動(dòng)增益為了放大信號(hào)的倍數(shù),以便于后續(xù)計(jì)算控制。nA/D轉(zhuǎn)換是為了把模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào), 以便計(jì)算機(jī)進(jìn)行相關(guān)處理,但在轉(zhuǎn)換中要對(duì)信號(hào)進(jìn)行量化這個(gè)階段會(huì)產(chǎn)生量化噪聲。A/D轉(zhuǎn)換器分為線性和非線性兩類。預(yù)處理n采樣后需要對(duì)信號(hào)進(jìn)行預(yù)處理,可提高信噪比,以便后續(xù)操作。n預(yù)加重可以提升高頻段;在整個(gè)頻段中保持頻譜平坦;方便進(jìn)行頻譜分析,預(yù)加重之后,開始進(jìn)行分幀加窗處理,我們把10ms-30ms內(nèi)語音信號(hào)看成是平穩(wěn)的,為得到短時(shí)的語音信號(hào)
6、,要對(duì)其進(jìn)行加窗操作,窗函數(shù)平滑地滑動(dòng),將語音信號(hào)分成幀。n在選擇窗函數(shù)時(shí),窗函數(shù)必須在時(shí)域時(shí)減小兩端時(shí)間窗的坡度,使得窗口邊緣緩慢平滑降為零;在頻域,帶寬要在3db以上。常用的窗函數(shù)有:矩形窗和漢明窗。通常情況下,選擇漢明窗。n通過分楨加窗后,語音信號(hào)就被分割成短時(shí)語音信號(hào),利用數(shù)字信號(hào)處理技術(shù),對(duì)這些信號(hào)進(jìn)行處理,提取語音信號(hào)的特征參數(shù)。語音信號(hào)時(shí)域分析n時(shí)域分析簡單直觀,直接分析語音信號(hào)時(shí)域波形提取特征參數(shù),一般用于最基本信號(hào)處理。主要方法有短時(shí)平均能量、短時(shí)平均幅度、端點(diǎn)檢測和短時(shí)平均過零率。n短時(shí)平均能量:語音信號(hào)的能量隨時(shí)間發(fā)生變化,清音和濁音間的能量差別很大,濁音能量大,可以分辨
7、清音和濁音,也可以界定有聲段和無聲段、聲母及韻母。n短時(shí)平均過零率:表示每幀內(nèi)信號(hào)過零的次數(shù),可初步判斷清濁音,清音過零率高,可以很好反映信號(hào)頻率變化。適合背景噪聲較大的情況。n端點(diǎn)檢測:是將短時(shí)平均能量和短時(shí)平均過零率結(jié)合起來,進(jìn)行端點(diǎn)檢測,可以很好的檢測語音是否開始和結(jié)束;目的就是為了確定語音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn)位置,避免無聲段的干擾。n頻域分析方法有:帶通濾波器組法、傅里葉變換法和線性預(yù)測法。n短時(shí)傅里葉分析:語音信號(hào)非平穩(wěn),不能用標(biāo)準(zhǔn)傅里葉變換,語音信號(hào)在10-30ms時(shí)間是平穩(wěn)的。短時(shí)傅里葉變換可表示為:n經(jīng)過短時(shí)傅里葉變換,就可以得到短時(shí)功率譜。從而可以得到與語譜圖,語譜圖表示語音
8、頻譜隨時(shí)間變換的圖形。不同說話者的語譜圖的聲紋是不一樣的。語音信號(hào)頻域分析特征參數(shù)提取n特征提取在聲紋識(shí)別系統(tǒng)中占有很重要的作用,特征提取方法有:線性預(yù)測分析LPC、線性預(yù)測倒譜LPCC、梅爾倒譜MFCCnLPC和LPCC基本思想:語音信號(hào)當(dāng)前樣點(diǎn)的值可以用過去若干個(gè)樣點(diǎn)值的線性組合來逼近。使實(shí)際采樣值與預(yù)測值之間的均方差最小,可得LPC系數(shù)。n梅爾倒譜MFCC:模擬人的聽覺模型,通常情況下,人們對(duì)聲音的高低和頻率并不滿足線性正比關(guān)系,Mel參數(shù)值和實(shí)際聲音頻率成對(duì)數(shù)關(guān)系,Mel(f)=2595lg(1+f/700),對(duì)低頻比高頻敏感。n基本步驟:預(yù)處理-FFT變換-短時(shí)能量譜-梅爾濾波-對(duì)數(shù)
9、能量譜-DCT變換-MFCC參數(shù)n聲紋注冊(cè),用戶在服務(wù)器上擁有自己的聲紋模型,用戶說話時(shí),說話人確認(rèn)模塊將用戶語音和此聲紋模型進(jìn)行對(duì)比,確認(rèn)是否用戶本人,完成認(rèn)證。n通過手機(jī)SIM卡實(shí)現(xiàn)手機(jī)綁定,可以實(shí)現(xiàn)定位及語音信號(hào)采集,以確認(rèn)用戶在那個(gè)區(qū)域及在與什么人通話,從而檢測用戶是否從事危險(xiǎn)活動(dòng)。n訓(xùn)練階段和識(shí)別階段是說話人識(shí)別的兩個(gè)主要階段。n訓(xùn)練階段:指的是把每個(gè)說話人語音,進(jìn)行預(yù)處理,特征提取,建立相應(yīng)的數(shù)據(jù)庫模板。n識(shí)別階段:把測試者語音經(jīng)過特征提取處理之后,和之前建立的模板進(jìn)行匹配。 進(jìn)行說話人辨認(rèn)實(shí)驗(yàn)時(shí),最接近測試語音的說話人就被認(rèn)為是待識(shí)別的人。 進(jìn)行說話人確認(rèn)實(shí)驗(yàn)時(shí),通過測試音和模板
10、的相似度,來判決是否某人。身份確認(rèn)n語音資料庫 該語音庫的存儲(chǔ)方式是用說話人文件包進(jìn)行組織的,標(biāo)注信息包括如下內(nèi)容: 錄音特性:錄音時(shí)間,錄音地點(diǎn),錄音通道等 說話人信息:姓名,性別,出生日期,家庭所在地,現(xiàn)在居住地址,聯(lián)系電話,電子郵件 數(shù)據(jù)相關(guān)信息:采樣頻率,數(shù)據(jù)量化位數(shù),(A/D)數(shù)據(jù)編碼格式、語音文本信息及錄音文本內(nèi)容n特征匹配的識(shí)別方法:n動(dòng)態(tài)時(shí)間規(guī)整(DTW);n矢量量化(VQ);n隱形馬爾可夫模型(HMM);n人工神經(jīng)網(wǎng)絡(luò)(ANN)nDTW:人的每次發(fā)音不同,發(fā)音長短也不一樣,不能直接將測試模板與參考模板直接比較。DWT可以解決在時(shí)間上不匹配的問題,設(shè)測試模板和參考模板分別為Xm和Yn,DWT就是找到函數(shù)m=f(n),使測試模板時(shí)間軸n映射到參考模板時(shí)間軸m上,使兩模板匹配時(shí)的累計(jì)距離達(dá)到最小。nVQ:在訓(xùn)練階段,把每個(gè)人的語音信號(hào)的特征參數(shù)進(jìn)行分類,并生成碼子存為碼本,識(shí)別時(shí),將測試語音參數(shù)序列與碼本中的每個(gè)碼子比較,計(jì)算最小距離。nHMM:是一種基于傳輸概率和轉(zhuǎn)移概率的隨機(jī)模型,把語音當(dāng)作是可觀察到的符號(hào)序列組成的隨機(jī)過程。訓(xùn)練時(shí),通過對(duì)訓(xùn)練語言的特征參數(shù)序列得到HMM的狀態(tài)轉(zhuǎn)移
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 肇慶市實(shí)驗(yàn)中學(xué)高中生物:第二章基因和染色體的關(guān)系(第2課時(shí))教案
- 部編版一年級(jí)語文下冊(cè)期末綜合試卷(附答案)
- 新疆體育職業(yè)技術(shù)學(xué)院《科技論文寫作指導(dǎo)》2023-2024學(xué)年第二學(xué)期期末試卷
- 新疆醫(yī)科大學(xué)《微生物與生物化學(xué)基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 信陽藝術(shù)職業(yè)學(xué)院《內(nèi)科學(xué)C》2023-2024學(xué)年第二學(xué)期期末試卷
- 2025-2030年中國PE行業(yè)發(fā)展預(yù)測分析及投資規(guī)劃研究報(bào)告
- 2025-2030工業(yè)鍋爐市場發(fā)展現(xiàn)狀調(diào)查及供需格局分析預(yù)測報(bào)告
- 甘肅省平?jīng)鍪嗅轻紖^(qū)2024屆中考一模數(shù)學(xué)試題含解析
- 廣東省高州市謝雞鎮(zhèn)達(dá)標(biāo)名校2023-2024學(xué)年中考數(shù)學(xué)最后沖刺模擬試卷含解析
- 2025年企業(yè)負(fù)責(zé)人安全培訓(xùn)考試試題及答案 完整
- 2024年四川西南石油大學(xué)招聘事業(yè)編制輔導(dǎo)員考試真題
- 2025年證券從業(yè)資格證考試題庫試題及答案
- 管道工程安全管理與保障措施考核試卷
- 豬場出售合同協(xié)議
- 電瓶車充電安全培訓(xùn)講義
- 雨季行車安全教育
- 2024-2025學(xué)年人教版八年級(jí)地理下學(xué)期全冊(cè)教案
- 人教版數(shù)學(xué)六年級(jí)下冊(cè)4.3.2圖形的放大與縮小練習(xí)卷含答案
- 《教育系統(tǒng)重大事故隱患判定指南》解讀
- 灌溉排水工程項(xiàng)目可行性研究報(bào)告編制
- 公益發(fā)展面試題及答案
評(píng)論
0/150
提交評(píng)論