人工智能與計算機應(yīng)用（微課版）課件 7.3 語音識別

上傳人：h*** IP屬地：山東上傳時間：2023-09-19 格式：PPTX 頁數(shù)：25 大?。?.89MB 積分：15 舉報 版權(quán)申訴

已閱讀5頁，還剩20頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

廣西民族大學(xué)公共計算機教研室課程團隊語音識別自動語音識別AutomaticSpeechRecognition（ASR）目標(biāo)：將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入本章小節(jié)一、發(fā)展歷史二、識別過程三、識別方法四、系統(tǒng)結(jié)構(gòu)五、核心技術(shù)六、語音識別的應(yīng)用發(fā)展歷史語音識別技術(shù)研究的開端，是Davis等人研究的Audry系統(tǒng)，它是當(dāng)時第一個可以獲取幾個英文字母的系統(tǒng)20世紀(jì)60年代，伴隨計算機技術(shù)的發(fā)展，語音識別技術(shù)也得以進步，動態(tài)規(guī)劃和線性預(yù)測分析技術(shù)解決了語音識別中最為重要的問題——語音信號產(chǎn)生的模型問題70年代，語音識別技術(shù)有了重大突破，動態(tài)時間規(guī)整技術(shù)（DTW）基本成熟，使語音變得可以等長，另外，矢量量化（VQ）和隱馬爾科夫模型理論（HMM）也不斷完善，為之后語音識別的發(fā)展做了鋪墊80年代對語音識別的研究更為徹底，各種語音識別算法被提出，其中的突出成就包括HMM模型人工神經(jīng)網(wǎng)絡(luò)（ANN）1987年12月，李開復(fù)開發(fā)出世界上第一個“非特定人連續(xù)語音識別系統(tǒng)”1997年，IBMViavoice首個語音聽寫產(chǎn)品問世2011年初，微軟的DNN深度神經(jīng)網(wǎng)絡(luò)模型在語音搜索任務(wù)上獲得成功科大訊飛將DNN首次成功應(yīng)用到中文語音識別領(lǐng)域2011年10月，蘋果發(fā)布iPhone4s，推出個人手機助理Siri2013年，Google發(fā)布GoogleGlass蘋果加大對iWatch的研發(fā)投入識別過程1．語音識別過程語音的識別過程一般包括從一段連續(xù)聲波中采樣，將每個采樣值量化，得到聲波的壓縮數(shù)字化表示語音線性預(yù)測系數(shù)作為語音信號的一種特征參數(shù)，已經(jīng)廣泛應(yīng)用于語音處理各個領(lǐng)域語音信號的特征參數(shù)提取STEP03語音識別當(dāng)提取聲音特征集合以后，就可以識別這些特征所代表的單詞STEP04語音信號預(yù)處理首先要進行濾波、A/D變換、預(yù)加、分幀和端點檢測等預(yù)處理，然后才能進入識別、合成、增強等實際應(yīng)用STEP02語音信號采集語音信號采集是語音信號處理的前提。語音通常通過話筒輸入計算機。STEP012．基于神經(jīng)網(wǎng)絡(luò)的語音識別過程語音識別的第一步：將聲波輸入到計算機中（1）將聲音轉(zhuǎn)換成“位（Bit）”語音識別的第二步是采樣。每秒讀取數(shù)千次，并把聲波在該時間點的高度用一個數(shù)字記錄下來（2）給聲波采樣第三步則是對聲音信號進行預(yù)處理（3）預(yù)處理采樣聲音數(shù)據(jù)最后一步，是對這段語音進行短字符識別（4）從短聲音識別字符識別方法1．基于語音學(xué)和聲學(xué)通常將語言理解為由有限個不同的語音基元組成的整體，可以利用其語音信號的頻域或時域特性，通過兩步來區(qū)分。第一步01分段和標(biāo)號首先，把語音信號以時間為基準(zhǔn)分成離散的段，不同段具有不同語音基元的聲學(xué)特性。然后，根據(jù)相應(yīng)聲學(xué)特性將每個分段進行相近的語音標(biāo)號第二步02得到詞序列將所得的語音標(biāo)號序列轉(zhuǎn)化成一個語音基元網(wǎng)格，從詞典查詢有效的詞序列，或結(jié)合句子的文法和語義同時進行2．模板匹配模板匹配的方法發(fā)展比較成熟，目前，相較于基于語音學(xué)和聲學(xué)的方法，模板匹配已經(jīng)進入實用階段。模板匹配方法會經(jīng)歷四個主要步驟：特征提取模板訓(xùn)練模板分類判決1動態(tài)時間規(guī)整（DTW）2隱馬爾可夫法（HMM）3矢量量化常用的技術(shù)有三種：3．神經(jīng)網(wǎng)絡(luò)神經(jīng)網(wǎng)絡(luò)語音識別方法，是目前的一個研究熱點深度神經(jīng)網(wǎng)絡(luò)/深信度網(wǎng)絡(luò)-隱馬爾科夫（DNN/DBN-HMM）相比傳統(tǒng)的基于GMM-HMM的語音識別系統(tǒng)，其最大的改變是采用深度神經(jīng)網(wǎng)絡(luò)替換GMM模型對語音的觀察概率進行建模卷積神經(jīng)網(wǎng)絡(luò)（CNN）使用大量的卷積層直接對整句語音信號進行建模，更好地表達了語音的長時相關(guān)性人工神經(jīng)網(wǎng)絡(luò)（ANN/BP）本質(zhì)上是一個自適應(yīng)非線性動力學(xué)系統(tǒng)，模擬了人類神經(jīng)活動的原理，具有自適應(yīng)性、并行性、魯棒性、容錯性和學(xué)習(xí)特性循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）循環(huán)神經(jīng)網(wǎng)絡(luò)近年來逐漸替代傳統(tǒng)的DNN成為主流的語音識別建模方案系統(tǒng)結(jié)構(gòu)語音識別研究的第一步是對單元的選擇識別。語音識別單元分為單詞（句）、音節(jié)和音素三種，針對不同的研究任務(wù)，我們需要選擇不同的語音識別單元（1）語音信號預(yù)處理與特征提取聲學(xué)模型是將獲取的語音特征通過訓(xùn)練算法進行訓(xùn)練后產(chǎn)生的。將輸入的語音特征同聲學(xué)模型（模式）進行匹配與比較，以得到最佳的識別結(jié)果（2）聲學(xué)模型與模式匹配語言模型包括由識別語音命令構(gòu)成的語法網(wǎng)絡(luò)，或由統(tǒng)計方法構(gòu)成的語言模型，可以對語言進行語法、語義分析（3）語言模型與語言處理核心技術(shù)（1）信號處理及特征提取模塊模塊從輸入信號中提取可供聲學(xué)模型處理的特征，利用一些信號處理技術(shù)降低環(huán)境噪聲、信道、說話人等因素的影響（5）解碼器解碼器模塊主要完成的工作是，給定輸入特征序列的情況下，在由聲學(xué)模型、發(fā)音詞典和語言模型等知識源組成的搜索空間（SearchSpace）中，通過一定的搜索算法，尋找使概率最大的詞序列（4）語言模型語言模型對系統(tǒng)所針對的語言進行建模，目前各種系統(tǒng)普遍采用的還是基于統(tǒng)計的N元文法及其變體（3）發(fā)音詞典發(fā)音詞典包含系統(tǒng)所能處理的詞匯集及其發(fā)音。發(fā)音詞典實際提供了聲學(xué)模型建模單元與語言模型建模單元間的映射（2）統(tǒng)計聲學(xué)模型典型系統(tǒng)多采用基于一階隱馬爾科夫模型進行建模語音識別的應(yīng)用應(yīng)用場景機器人語音交互提供麥克陣列前端算法，解決人機交互中，距離較遠帶來的識別率較低的問題，讓人機對話更加方便智能家居通過遠場語音識別技術(shù)，可以讓用戶，即使在三至五米的距離，也可對

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能與計算機應(yīng)用（微課版）課件 7.3 語音識別

文檔簡介

溫馨提示

最新文檔

評論

人工智能與計算機應(yīng)用（微課版） 課件 7.3 語音識別

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

人工智能與計算機應(yīng)用（微課版）課件 7.3 語音識別