




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、.,基于BP神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別技術(shù),匯報(bào)人:,.,目錄,一.語(yǔ)音識(shí)別概述 二.語(yǔ)音識(shí)別流程 三.語(yǔ)音信號(hào)預(yù)處理 四.語(yǔ)音識(shí)別特征提取 五.BP神經(jīng)網(wǎng)絡(luò)原理 六.語(yǔ)音識(shí)別程序設(shè)計(jì),.,一.語(yǔ)音識(shí)別概述,語(yǔ)音識(shí)別以語(yǔ)音為研究對(duì)象,涉及到生理學(xué)、心理學(xué)、語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué),以及信號(hào)處理等諸多領(lǐng)域,最終目的是實(shí)現(xiàn)人與機(jī)器進(jìn)行自然語(yǔ)言通信,用語(yǔ)言操縱計(jì)算機(jī)。,.,語(yǔ)音識(shí)別系統(tǒng)可以分為孤立字(詞)語(yǔ)音識(shí)別系統(tǒng)、連接字語(yǔ)音識(shí)別系統(tǒng)以及連續(xù)語(yǔ)音識(shí)別系統(tǒng)。 語(yǔ)音識(shí)別系統(tǒng)分為兩個(gè)方向:一是根據(jù)對(duì)說(shuō)話人的依賴程度可以分為特定人和非特定人語(yǔ)音識(shí)別系統(tǒng);二是根據(jù)詞匯量大小,可以分為小詞匯量、中等詞匯量、大詞匯量,以及無(wú)
2、限詞匯量語(yǔ)音識(shí)別系統(tǒng)。,.,二.語(yǔ)音識(shí)別流程,從圖的系統(tǒng)整體架構(gòu)可以看到,建立基于BP神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別系統(tǒng)可分為兩個(gè)階段,即訓(xùn)練階段和識(shí)別階段。首先由用戶通過(guò)麥克風(fēng)輸入語(yǔ)音形成原始語(yǔ)音,然后系統(tǒng)對(duì)其進(jìn)行預(yù)處理。預(yù)處理包括預(yù)加重,加窗分幀和端點(diǎn)檢測(cè)三個(gè)過(guò)程。系統(tǒng)的前端采用了端點(diǎn)檢測(cè),目的是在一段語(yǔ)音信號(hào)中確定起點(diǎn)和終點(diǎn)。在特征提取部分,本系統(tǒng)采用了MFCC作為特征參數(shù),用于有效地區(qū)分?jǐn)?shù)字1-5.,.,三.語(yǔ)音信號(hào)預(yù)處理,1.預(yù)加重,語(yǔ)音從嘴唇輻射會(huì)有6dB/oct的衰減,因此在對(duì)語(yǔ)音信號(hào)進(jìn)行處理之前,希望能按6dB/oct的比例對(duì)信號(hào)加以提升(或加重),以使得輸出信號(hào)的電平相近似。可采用以下差
3、分方程定義的數(shù)字濾波器:,式中,系數(shù)常在0.9至1之間選取。,.,2.語(yǔ)音信號(hào)的分幀 語(yǔ)音信號(hào)是一種典型的非平穩(wěn)信號(hào),它的均值函數(shù)u(x)和自相關(guān)函數(shù)R(xl,x2)都隨時(shí)間而發(fā)生較大的變化。但研究發(fā)現(xiàn),語(yǔ)音信號(hào)在短時(shí)間內(nèi)頻譜特性保持平穩(wěn),即具有短時(shí)平穩(wěn)特性。因此,在實(shí)際處理時(shí)可以將語(yǔ)音信號(hào)分成很小的時(shí)間段(約1030ms),稱之為“幀”。 在語(yǔ)音信號(hào)數(shù)字處理中常用的窗函數(shù)是矩形窗、漢明窗等,它們的表達(dá)式如下(其中N為幀長(zhǎng)): 矩形窗: 漢明窗:,.,3端點(diǎn)檢測(cè),基于短時(shí)能量和短時(shí)過(guò)零率的雙門限檢測(cè)法,在該算法中,短時(shí)能量檢測(cè)可以較好地區(qū)分出濁音和靜音。對(duì)于清音,由于其能量較小,在短時(shí)能量檢測(cè)
4、中會(huì)因?yàn)榈陀谀芰块T限而被誤判為靜音,短時(shí)過(guò)零率則可以從語(yǔ)音中區(qū)分出靜音和清音。將兩種檢測(cè)結(jié)合起來(lái),就可以檢測(cè)出語(yǔ)音段及靜音段。,.,下圖是我本科課程設(shè)計(jì)中一個(gè)關(guān)于端點(diǎn)檢測(cè)的程序GUI界面,其中語(yǔ)音是教材中的示例語(yǔ)音“他去無(wú)錫市”,我通過(guò)cooledit在示例語(yǔ)音中加入了白噪音,可以看出清音段混雜在噪音中,如果短時(shí)能量的門限值選取過(guò)高可能會(huì)屏蔽掉清音段,所以加入過(guò)零率能更好的識(shí)別出清音段。,.,由此圖可以看出門限值選取的合不合理很大程度上影響到端點(diǎn)識(shí)別的效果,.,四.語(yǔ)音識(shí)別特征提取,特征提?。杭磳?duì)不同的語(yǔ)音尋找其內(nèi)在特征,由此來(lái)判別出未知語(yǔ)音,所以每個(gè)語(yǔ)音識(shí)別系統(tǒng)都必須進(jìn)行特征提取。,語(yǔ)音信號(hào)
5、的特征主要有時(shí)域和頻域兩種。 時(shí)域特征:短時(shí)平均能量、短時(shí)平均過(guò)零率、共振峰、基音周期等; 頻域特征:線性預(yù)測(cè)系數(shù)(LPC)、LP倒譜系數(shù)(LPCC)、 Mel頻率倒譜系數(shù)(MFCC)等。 本實(shí)驗(yàn)選取MEL頻率倒譜系數(shù)(MFCC)進(jìn)行提取特征參數(shù)。,通過(guò)閱讀文獻(xiàn)了解到基于DTW算法和MFCC就已經(jīng)可以做到語(yǔ)音的識(shí)別了,但是泛化性比較差,中間測(cè)試過(guò)一個(gè)相關(guān)的程序只能識(shí)別特定的語(yǔ)音片段,更換說(shuō)話人后識(shí)別效果很差。,.,五.BP神經(jīng)網(wǎng)絡(luò)原理,BP神經(jīng)網(wǎng)絡(luò)又稱誤差反向傳遞神經(jīng)網(wǎng)絡(luò)。提取了語(yǔ)音的特征參數(shù)后,靠神經(jīng)網(wǎng)絡(luò)中大量的連接權(quán)對(duì)輸入模式進(jìn)行非線性運(yùn)算,產(chǎn)生最大興奮的輸入點(diǎn)就代表了輸入模式對(duì)應(yīng)的分類。
6、神經(jīng)網(wǎng)絡(luò)的連接權(quán)系數(shù)是在使用中根據(jù)識(shí)別結(jié)果的正確與否不斷的進(jìn)行自適應(yīng)修正。單隱層網(wǎng)絡(luò)的整個(gè)體系結(jié)構(gòu)如圖所示,分為輸入層、隱藏層和輸出層,其中隱藏層根據(jù)具體情況的需要,可以是一層結(jié)構(gòu)也可為多層結(jié)構(gòu)。,.,六.語(yǔ)音識(shí)別程序設(shè)計(jì),數(shù)字的語(yǔ)音識(shí)別 實(shí)驗(yàn)?zāi)康模鹤R(shí)別1 3 5三個(gè)數(shù)字(選擇135是因?yàn)?35三個(gè)數(shù)字的識(shí)別率最高) 訓(xùn)練樣本:每個(gè)數(shù)字選取5個(gè)樣本進(jìn)行訓(xùn)練(均為同一個(gè)人的樣本) 測(cè)試樣本:每個(gè)數(shù)字選取3個(gè)樣本進(jìn)行識(shí)別測(cè)試(均為同一個(gè)人的樣本) T1 = 1 0 0 % 代表1 T3 = 0 1 0 % 代表3 T5 = 0 0 1 % 代表5,.,下表格為所用到的matlab程序及其功能:,.,netBP = newff(PR,30,10,3,tansig,tansig,tansig,trainbfg); %使用TRAINSIG,即共軛梯度法,其好處是當(dāng)訓(xùn)練不收斂時(shí),它會(huì)自動(dòng)停止訓(xùn)練,而且耗時(shí)較其他算法(TRAINLM, TRAINGD)少,也就是收斂很快 netBP.trainParam.epochs = 100; %設(shè)置訓(xùn)練步數(shù) net tr = train(netBP,PS,T); %網(wǎng)絡(luò)訓(xùn)練,神經(jīng)網(wǎng)絡(luò)訓(xùn)練:,Y = sim(net,Tes
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 教育技術(shù)的創(chuàng)新發(fā)展與個(gè)性化設(shè)計(jì)的思維實(shí)踐
- 教育大數(shù)據(jù)洞察市場(chǎng)精準(zhǔn)營(yíng)銷
- 以教學(xué)為目的的數(shù)字技術(shù)與創(chuàng)意應(yīng)用結(jié)合的實(shí)踐研究
- 以實(shí)踐為導(dǎo)向的終身學(xué)習(xí)體系設(shè)計(jì)策略
- 重復(fù)專利侵權(quán)培訓(xùn)課件
- 抖音商戶運(yùn)營(yíng)經(jīng)理直播庫(kù)存同步制度
- 抖音商戶短視頻轉(zhuǎn)化效果分析反饋制度
- 培訓(xùn)課件的布局要求
- 全球鈾礦資源分布特點(diǎn)及2025年核能產(chǎn)業(yè)產(chǎn)業(yè)鏈分析報(bào)告
- 公交優(yōu)先戰(zhàn)略下2025年城市交通擁堵治理的公共交通運(yùn)營(yíng)效率研究
- 產(chǎn)品質(zhì)量證明書
- 數(shù)與代數(shù)課件
- 工會(huì)審計(jì)實(shí)務(wù)課件
- 預(yù)防艾滋病、梅毒和乙肝母嬰傳播相關(guān)報(bào)表、上報(bào)流程和要求
- 食用油儲(chǔ)存期品質(zhì)變化的太赫茲光譜無(wú)損識(shí)別
- 胎盤早剝預(yù)案演練腳本
- 五山文學(xué)全集第一卷
- 聚磷腈功能高分子材料的合成及應(yīng)用
- 中國(guó)鐵路總公司《鐵路技術(shù)管理規(guī)程》(高速鐵路部分)2014年7月
- 鈣加維生素Dppt課件(PPT 14頁(yè))
- TRD深基坑止水帷幕施工方案(22頁(yè))
評(píng)論
0/150
提交評(píng)論