版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
廣西民族大學(xué)公共計算機教研室課程團隊語音識別自動語音識別AutomaticSpeechRecognition(ASR)目標(biāo):將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入本章小節(jié)一、發(fā)展歷史二、識別過程三、識別方法四、系統(tǒng)結(jié)構(gòu)五、核心技術(shù)六、語音識別的應(yīng)用發(fā)展歷史語音識別技術(shù)研究的開端,是Davis等人研究的Audry系統(tǒng),它是當(dāng)時第一個可以獲取幾個英文字母的系統(tǒng)20世紀(jì)60年代,伴隨計算機技術(shù)的發(fā)展,語音識別技術(shù)也得以進步,動態(tài)規(guī)劃和線性預(yù)測分析技術(shù)解決了語音識別中最為重要的問題——語音信號產(chǎn)生的模型問題70年代,語音識別技術(shù)有了重大突破,動態(tài)時間規(guī)整技術(shù)(DTW)基本成熟,使語音變得可以等長,另外,矢量量化(VQ)和隱馬爾科夫模型理論(HMM)也不斷完善,為之后語音識別的發(fā)展做了鋪墊80年代對語音識別的研究更為徹底,各種語音識別算法被提出,其中的突出成就包括HMM模型人工神經(jīng)網(wǎng)絡(luò)(ANN)1987年12月,李開復(fù)開發(fā)出世界上第一個“非特定人連續(xù)語音識別系統(tǒng)”1997年,IBMViavoice首個語音聽寫產(chǎn)品問世2011年初,微軟的DNN深度神經(jīng)網(wǎng)絡(luò)模型在語音搜索任務(wù)上獲得成功科大訊飛將DNN首次成功應(yīng)用到中文語音識別領(lǐng)域2011年10月,蘋果發(fā)布iPhone4s,推出個人手機助理Siri2013年,Google發(fā)布GoogleGlass蘋果加大對iWatch的研發(fā)投入識別過程1.語音識別過程語音的識別過程一般包括從一段連續(xù)聲波中采樣,將每個采樣值量化,得到聲波的壓縮數(shù)字化表示語音線性預(yù)測系數(shù)作為語音信號的一種特征參數(shù),已經(jīng)廣泛應(yīng)用于語音處理各個領(lǐng)域語音信號的特征參數(shù)提取STEP03語音識別當(dāng)提取聲音特征集合以后,就可以識別這些特征所代表的單詞STEP04語音信號預(yù)處理首先要進行濾波、A/D變換、預(yù)加、分幀和端點檢測等預(yù)處理,然后才能進入識別、合成、增強等實際應(yīng)用STEP02語音信號采集語音信號采集是語音信號處理的前提。語音通常通過話筒輸入計算機。STEP012.基于神經(jīng)網(wǎng)絡(luò)的語音識別過程語音識別的第一步:將聲波輸入到計算機中(1)將聲音轉(zhuǎn)換成“位(Bit)”語音識別的第二步是采樣。每秒讀取數(shù)千次,并把聲波在該時間點的高度用一個數(shù)字記錄下來(2)給聲波采樣第三步則是對聲音信號進行預(yù)處理(3)預(yù)處理采樣聲音數(shù)據(jù)最后一步,是對這段語音進行短字符識別(4)從短聲音識別字符識別方法1.基于語音學(xué)和聲學(xué)通常將語言理解為由有限個不同的語音基元組成的整體,可以利用其語音信號的頻域或時域特性,通過兩步來區(qū)分。第一步01分段和標(biāo)號首先,把語音信號以時間為基準(zhǔn)分成離散的段,不同段具有不同語音基元的聲學(xué)特性。然后,根據(jù)相應(yīng)聲學(xué)特性將每個分段進行相近的語音標(biāo)號第二步02得到詞序列將所得的語音標(biāo)號序列轉(zhuǎn)化成一個語音基元網(wǎng)格,從詞典查詢有效的詞序列,或結(jié)合句子的文法和語義同時進行2.模板匹配模板匹配的方法發(fā)展比較成熟,目前,相較于基于語音學(xué)和聲學(xué)的方法,模板匹配已經(jīng)進入實用階段。模板匹配方法會經(jīng)歷四個主要步驟:特征提取模板訓(xùn)練模板分類判決1動態(tài)時間規(guī)整(DTW)2隱馬爾可夫法(HMM)3矢量量化常用的技術(shù)有三種:3.神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)語音識別方法,是目前的一個研究熱點深度神經(jīng)網(wǎng)絡(luò)/深信度網(wǎng)絡(luò)-隱馬爾科夫(DNN/DBN-HMM)相比傳統(tǒng)的基于GMM-HMM的語音識別系統(tǒng),其最大的改變是采用深度神經(jīng)網(wǎng)絡(luò)替換GMM模型對語音的觀察概率進行建模卷積神經(jīng)網(wǎng)絡(luò)(CNN)使用大量的卷積層直接對整句語音信號進行建模,更好地表達了語音的長時相關(guān)性人工神經(jīng)網(wǎng)絡(luò)(ANN/BP)本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng),模擬了人類神經(jīng)活動的原理,具有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特性循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)循環(huán)神經(jīng)網(wǎng)絡(luò)近年來逐漸替代傳統(tǒng)的DNN成為主流的語音識別建模方案系統(tǒng)結(jié)構(gòu)語音識別研究的第一步是對單元的選擇識別。語音識別單元分為單詞(句)、音節(jié)和音素三種,針對不同的研究任務(wù),我們需要選擇不同的語音識別單元(1)語音信號預(yù)處理與特征提取聲學(xué)模型是將獲取的語音特征通過訓(xùn)練算法進行訓(xùn)練后產(chǎn)生的。將輸入的語音特征同聲學(xué)模型(模式)進行匹配與比較,以得到最佳的識別結(jié)果(2)聲學(xué)模型與模式匹配語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò),或由統(tǒng)計方法構(gòu)成的語言模型,可以對語言進行語法、語義分析(3)語言模型與語言處理核心技術(shù)(1)信號處理及特征提取模塊模塊從輸入信號中提取可供聲學(xué)模型處理的特征,利用一些信號處理技術(shù)降低環(huán)境噪聲、信道、說話人等因素的影響(5)解碼器解碼器模塊主要完成的工作是,給定輸入特征序列的情況下,在由聲學(xué)模型、發(fā)音詞典和語言模型等知識源組成的搜索空間(SearchSpace)中,通過一定的搜索算法,尋找使概率最大的詞序列(4)語言模型語言模型對系統(tǒng)所針對的語言進行建模,目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的N元文法及其變體(3)發(fā)音詞典發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實際提供了聲學(xué)模型建模單元與語言模型建模單元間的映射(2)統(tǒng)計聲學(xué)模型典型系統(tǒng)多采用基于一階隱馬爾科夫模型進行建模語音識別的應(yīng)用應(yīng)用場景機器人語音交互提供麥克陣列前端算法,解決人機交互中,距離較遠帶來的識別率較低的問題,讓人機對話更加方便智能家居通過遠場語音識別技術(shù),可以讓用戶,即使在三至五米的距離,也可對
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 《湖湘文學(xué)教育論》課件
- 《竹與中國文化》課件
- 小學(xué)一年級10到20加減法練習(xí)題口算
- 防校園欺凌講座心得體會
- 《病例神經(jīng)內(nèi)科》課件
- 服裝行業(yè)前臺服務(wù)要點
- 礦產(chǎn)行業(yè)人才培養(yǎng)總結(jié)
- 課堂氛圍與學(xué)習(xí)積極性提升計劃
- 家政服務(wù)行業(yè)客服工作總結(jié)
- 安徽省宿州市埇橋區(qū)教育集團2022-2023學(xué)年九年級上學(xué)期期末質(zhì)量檢化學(xué)試題
- 《鋰離子電池用二氟草酸硼酸鋰》
- 湖南省部分學(xué)校2023-2024學(xué)年高二上學(xué)期期末聯(lián)合考試政治試卷 含解析
- 中學(xué)生心理健康教育主題班會課件
- 電大《人力資源管理》期末復(fù)習(xí)綜合練習(xí)題答案(2024年)
- 西師版數(shù)學(xué)(四上題)2023-2024學(xué)年度小學(xué)學(xué)業(yè)質(zhì)量監(jiān)測(試卷)
- 2022-2023學(xué)年廣東省廣州市白云區(qū)華南師大附屬太和實驗學(xué)校九年級(上)期末數(shù)學(xué)試卷(含答案)
- 2024年煤礦安全生產(chǎn)知識競賽題庫及答案(共100題)
- 強制報告制度課件
- 《礦山隱蔽致災(zāi)因素普查規(guī)范》解讀培訓(xùn)
- 骨折病中醫(yī)護理常規(guī)
- 2024年世界職業(yè)院校技能大賽中職組“節(jié)水系統(tǒng)安裝與維護組”賽項考試題庫(含答案)
評論
0/150
提交評論