人工智能與計算機應(yīng)用(微課版) 課件 7.3 語音識別_第1頁
人工智能與計算機應(yīng)用(微課版) 課件 7.3 語音識別_第2頁
人工智能與計算機應(yīng)用(微課版) 課件 7.3 語音識別_第3頁
人工智能與計算機應(yīng)用(微課版) 課件 7.3 語音識別_第4頁
人工智能與計算機應(yīng)用(微課版) 課件 7.3 語音識別_第5頁
已閱讀5頁,還剩20頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

廣西民族大學(xué)公共計算機教研室課程團隊語音識別自動語音識別AutomaticSpeechRecognition(ASR)目標(biāo):將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入本章小節(jié)一、發(fā)展歷史二、識別過程三、識別方法四、系統(tǒng)結(jié)構(gòu)五、核心技術(shù)六、語音識別的應(yīng)用發(fā)展歷史語音識別技術(shù)研究的開端,是Davis等人研究的Audry系統(tǒng),它是當(dāng)時第一個可以獲取幾個英文字母的系統(tǒng)20世紀(jì)60年代,伴隨計算機技術(shù)的發(fā)展,語音識別技術(shù)也得以進步,動態(tài)規(guī)劃和線性預(yù)測分析技術(shù)解決了語音識別中最為重要的問題——語音信號產(chǎn)生的模型問題70年代,語音識別技術(shù)有了重大突破,動態(tài)時間規(guī)整技術(shù)(DTW)基本成熟,使語音變得可以等長,另外,矢量量化(VQ)和隱馬爾科夫模型理論(HMM)也不斷完善,為之后語音識別的發(fā)展做了鋪墊80年代對語音識別的研究更為徹底,各種語音識別算法被提出,其中的突出成就包括HMM模型人工神經(jīng)網(wǎng)絡(luò)(ANN)1987年12月,李開復(fù)開發(fā)出世界上第一個“非特定人連續(xù)語音識別系統(tǒng)”1997年,IBMViavoice首個語音聽寫產(chǎn)品問世2011年初,微軟的DNN深度神經(jīng)網(wǎng)絡(luò)模型在語音搜索任務(wù)上獲得成功科大訊飛將DNN首次成功應(yīng)用到中文語音識別領(lǐng)域2011年10月,蘋果發(fā)布iPhone4s,推出個人手機助理Siri2013年,Google發(fā)布GoogleGlass蘋果加大對iWatch的研發(fā)投入識別過程1.語音識別過程語音的識別過程一般包括從一段連續(xù)聲波中采樣,將每個采樣值量化,得到聲波的壓縮數(shù)字化表示語音線性預(yù)測系數(shù)作為語音信號的一種特征參數(shù),已經(jīng)廣泛應(yīng)用于語音處理各個領(lǐng)域語音信號的特征參數(shù)提取STEP03語音識別當(dāng)提取聲音特征集合以后,就可以識別這些特征所代表的單詞STEP04語音信號預(yù)處理首先要進行濾波、A/D變換、預(yù)加、分幀和端點檢測等預(yù)處理,然后才能進入識別、合成、增強等實際應(yīng)用STEP02語音信號采集語音信號采集是語音信號處理的前提。語音通常通過話筒輸入計算機。STEP012.基于神經(jīng)網(wǎng)絡(luò)的語音識別過程語音識別的第一步:將聲波輸入到計算機中(1)將聲音轉(zhuǎn)換成“位(Bit)”語音識別的第二步是采樣。每秒讀取數(shù)千次,并把聲波在該時間點的高度用一個數(shù)字記錄下來(2)給聲波采樣第三步則是對聲音信號進行預(yù)處理(3)預(yù)處理采樣聲音數(shù)據(jù)最后一步,是對這段語音進行短字符識別(4)從短聲音識別字符識別方法1.基于語音學(xué)和聲學(xué)通常將語言理解為由有限個不同的語音基元組成的整體,可以利用其語音信號的頻域或時域特性,通過兩步來區(qū)分。第一步01分段和標(biāo)號首先,把語音信號以時間為基準(zhǔn)分成離散的段,不同段具有不同語音基元的聲學(xué)特性。然后,根據(jù)相應(yīng)聲學(xué)特性將每個分段進行相近的語音標(biāo)號第二步02得到詞序列將所得的語音標(biāo)號序列轉(zhuǎn)化成一個語音基元網(wǎng)格,從詞典查詢有效的詞序列,或結(jié)合句子的文法和語義同時進行2.模板匹配模板匹配的方法發(fā)展比較成熟,目前,相較于基于語音學(xué)和聲學(xué)的方法,模板匹配已經(jīng)進入實用階段。模板匹配方法會經(jīng)歷四個主要步驟:特征提取模板訓(xùn)練模板分類判決1動態(tài)時間規(guī)整(DTW)2隱馬爾可夫法(HMM)3矢量量化常用的技術(shù)有三種:3.神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)語音識別方法,是目前的一個研究熱點深度神經(jīng)網(wǎng)絡(luò)/深信度網(wǎng)絡(luò)-隱馬爾科夫(DNN/DBN-HMM)相比傳統(tǒng)的基于GMM-HMM的語音識別系統(tǒng),其最大的改變是采用深度神經(jīng)網(wǎng)絡(luò)替換GMM模型對語音的觀察概率進行建模卷積神經(jīng)網(wǎng)絡(luò)(CNN)使用大量的卷積層直接對整句語音信號進行建模,更好地表達了語音的長時相關(guān)性人工神經(jīng)網(wǎng)絡(luò)(ANN/BP)本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特性循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)循環(huán)神經(jīng)網(wǎng)絡(luò)近年來逐漸替代傳統(tǒng)的DNN成為主流的語音識別建模方案系統(tǒng)結(jié)構(gòu)語音識別研究的第一步是對單元的選擇識別。語音識別單元分為單詞(句)、音節(jié)和音素三種,針對不同的研究任務(wù),我們需要選擇不同的語音識別單元(1)語音信號預(yù)處理與特征提取聲學(xué)模型是將獲取的語音特征通過訓(xùn)練算法進行訓(xùn)練后產(chǎn)生的。將輸入的語音特征同聲學(xué)模型(模式)進行匹配與比較,以得到最佳的識別結(jié)果(2)聲學(xué)模型與模式匹配語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò),或由統(tǒng)計方法構(gòu)成的語言模型,可以對語言進行語法、語義分析(3)語言模型與語言處理核心技術(shù)(1)信號處理及特征提取模塊模塊從輸入信號中提取可供聲學(xué)模型處理的特征,利用一些信號處理技術(shù)降低環(huán)境噪聲、信道、說話人等因素的影響(5)解碼器解碼器模塊主要完成的工作是,給定輸入特征序列的情況下,在由聲學(xué)模型、發(fā)音詞典和語言模型等知識源組成的搜索空間(SearchSpace)中,通過一定的搜索算法,尋找使概率最大的詞序列(4)語言模型語言模型對系統(tǒng)所針對的語言進行建模,目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的N元文法及其變體(3)發(fā)音詞典發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實際提供了聲學(xué)模型建模單元與語言模型建模單元間的映射(2)統(tǒng)計聲學(xué)模型典型系統(tǒng)多采用基于一階隱馬爾科夫模型進行建模語音識別的應(yīng)用應(yīng)用場景機器人語音交互提供麥克陣列前端算法,解決人機交互中,距離較遠帶來的識別率較低的問題,讓人機對話更加方便智能家居通過遠場語音識別技術(shù),可以讓用戶,即使在三至五米的距離,也可對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論