版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
語音識別技術(shù)
語音識別技術(shù)1目錄123語音識別過程
概述總結(jié)及展望語音識別技術(shù)目錄123語音識別過程概述總結(jié)及展望語音識別2語音識別技術(shù)1概述各種終端設(shè)備的智能化和集成化程度越來越高,傳統(tǒng)的信息檢索和菜單操作方式已經(jīng)越來越無法滿足要求。迫切需要有一種更加便捷的信息檢索和命令操作方式來替代傳統(tǒng)的按鍵操作。為什么需要語音識別技術(shù)?語音識別技術(shù)1概述各種終端設(shè)備的智能化和集成化程度越來越高,3語音識別技術(shù)1概述語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的高技術(shù),也就是讓機器聽懂人類的語音。也被稱為自動語音識別AutomaticSpeechRecognition,(ASR),其目標是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。什么是語音識別技術(shù)?語音識別技術(shù)1概述語音識別技術(shù)就是讓機器通過識別和理解過程把4語音識別技術(shù)1概述1.語音輸入系統(tǒng),相對于鍵盤輸入方法,它更符合人的日常習(xí)慣,也更自然、更高效;語音識別技術(shù)應(yīng)用在哪些領(lǐng)域呢?2.語音控制系統(tǒng),即用語音來控制設(shè)備的運行,相對于手動控制來說更加快捷、方便,可以用在諸如工業(yè)控制、語音撥號系統(tǒng)、智能家電、聲控智能玩具等許多領(lǐng)域;3.智能對話查詢系統(tǒng),根據(jù)客戶的語音進行操作,為用戶提供自然、友好的數(shù)據(jù)庫檢索服務(wù),例如家庭服務(wù)、賓館服務(wù)、旅行社服務(wù)系統(tǒng)、訂票系統(tǒng)、醫(yī)療服務(wù)、銀行服務(wù)、股票查詢服務(wù)等等。語音識別技術(shù)1概述1.語音輸入系統(tǒng),相對于鍵盤輸入方法,它更5語音識別技術(shù)2語音識別過程(傳統(tǒng)的基于HMM的語音識別)1.在開始語音識別之前,通常需要把首尾端的靜音切除,降低對后續(xù)步驟造成的干擾。這個靜音切除的操作一般稱為VAD。2.分幀,也就是把聲音切開成一小段一小段,每小段稱為一幀。語音識別技術(shù)2語音識別過程(傳統(tǒng)的基于HMM的語音識別)1.6語音識別技術(shù)2語音識別過程3.波形變換。常用的一種方法是提取MFCC特征,通過12維的向量來描述一幀的波形,12維向量是根據(jù)耳朵的生理特征提取的,這一過程稱為聲學(xué)特征提取。聲音就被轉(zhuǎn)換成了12行N列的矩陣(觀察序列)語音識別技術(shù)2語音識別過程3.波形變換。常用的一種方法是提取7語音識別技術(shù)2語音識別過程4.矩陣變成文本。a.把幀識別成狀態(tài)。b.把狀態(tài)組合成音素。c.把音素組合成單詞。(單詞、音素、狀態(tài))語音識別技術(shù)2語音識別過程4.矩陣變成文本。a.把幀8語音識別技術(shù)2語音識別過程問題1:那每幀音素對應(yīng)哪個狀態(tài)呢?答:看某幀對應(yīng)哪個狀態(tài)的概率最大,那這幀就屬于哪個狀態(tài)。問題2:那這些用到的概率從哪里讀取呢?答:聲學(xué)模型,里面存了一大堆參數(shù),通過這些參數(shù),就可以知道幀和狀態(tài)對應(yīng)的概率。獲取這一大堆參數(shù)的方法叫做“訓(xùn)練”。語音識別技術(shù)2語音識別過程問題1:那每幀音素對應(yīng)哪個狀態(tài)呢?9語音識別技術(shù)2語音識別過程問題3:假設(shè)語音有1000幀,每幀對應(yīng)1個狀態(tài),每3個狀態(tài)組合成一個音素,那么大概會組合成300個音素,但這段語音其實根本沒有這么多音素。如果真這么做,得到的狀態(tài)號可能根本無法組合成音素。答:利用隱馬爾可夫模型來解決。隱馬爾可夫模型(HiddenMarkovModel,HMM)。第一步,構(gòu)建一個狀態(tài)網(wǎng)絡(luò)。第二步,從狀態(tài)網(wǎng)絡(luò)中尋找與聲音最匹配的路徑。這樣就把結(jié)果限制在預(yù)先設(shè)定的網(wǎng)絡(luò)中(有利有弊)。那如果想識別任意文本呢?把這個網(wǎng)絡(luò)搭得足夠大,包含任意文本的路徑就可以了。但這個網(wǎng)絡(luò)越大,想要達到比較好的識別準確率就越難。所以要根據(jù)實際任務(wù)的需求,合理選擇網(wǎng)絡(luò)大小和結(jié)構(gòu)。語音識別技術(shù)2語音識別過程問題3:假設(shè)語音有1000幀,每幀10語音識別技術(shù)2語音識別過程5.解碼。搭建狀態(tài)網(wǎng)絡(luò),是由單詞級網(wǎng)絡(luò)展開成音素網(wǎng)絡(luò),再展開成狀態(tài)網(wǎng)絡(luò)。語音識別過程其實就是在狀態(tài)網(wǎng)絡(luò)中搜索一條最佳路徑,語音對應(yīng)這條路徑的概率最大。路徑搜索的算法是一種動態(tài)規(guī)劃剪枝的算法,稱之為Viterbi算法,用于尋找全局最優(yōu)路徑。觀察概率和轉(zhuǎn)移概率(聲學(xué)模型)、語言概率(語言模型)語音識別技術(shù)2語音識別過程5.解碼。搭建狀態(tài)網(wǎng)絡(luò),是由單詞級11語音識別技術(shù)2語音識別過程總結(jié)語音識別技術(shù)2語音識別過程總結(jié)123總結(jié)及展望21世紀,信息和網(wǎng)絡(luò)飛速發(fā)展,信息和網(wǎng)絡(luò)的時代已經(jīng)來臨,人與人之間的距離隨著Internet和移動電話網(wǎng)的連接和普及變得越來越近,信息資源擴散的越來越迅速,人與機器的交互顯得尤為重要。語音識別技術(shù)的研究和應(yīng)用可以讓人無論何時何地都可以通過語音交互的方式實現(xiàn)任何事,可以使人更方便的享受更多的社會信息資源
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版果林租賃與農(nóng)村金融服務(wù)合作合同范本3篇
- 2025年度環(huán)保產(chǎn)業(yè)融資服務(wù)合同范本(含排放)3篇
- 二零二五年度房地產(chǎn)廣告發(fā)布合同:廣告投放合作協(xié)議3篇
- 2025版西瓜品牌授權(quán)及品牌管理合同3篇
- 二零二五年度戶口遷移安置補償協(xié)議3篇
- 二零二五年度文化旅游景區(qū)開店合作合同3篇
- 二零二五年度國際房產(chǎn)二手房買賣合同范本2篇
- 2025年度社區(qū)便利店租賃合同模板(含加盟服務(wù)條款)3篇
- 二零二五年度新材料合伙人退伙技術(shù)合作與退伙協(xié)議3篇
- 二零二五年度建筑垃圾資源化利用項目招投標合同3篇
- 2024年股東股權(quán)繼承轉(zhuǎn)讓協(xié)議3篇
- 2024-2025學(xué)年江蘇省南京市高二上冊期末數(shù)學(xué)檢測試卷(含解析)
- 2025年中央歌劇院畢業(yè)生公開招聘11人歷年高頻重點提升(共500題)附帶答案詳解
- 北京市高校課件 開天辟地的大事變 中國近代史綱要 教學(xué)課件
- 監(jiān)事會年度工作計劃
- 2024中國近海生態(tài)分區(qū)
- 山東省濟南市2023-2024學(xué)年高一上學(xué)期1月期末考試化學(xué)試題(解析版)
- 北師大版五年級數(shù)學(xué)下冊第3單元第1課時分數(shù)乘法(一)課件
- 2024-2030年中國汽車保險杠行業(yè)市場發(fā)展現(xiàn)狀及前景趨勢分析報告
- 智研咨詢發(fā)布:中國種豬行業(yè)市場現(xiàn)狀、發(fā)展概況、未來前景分析報告
- 六年級上冊分數(shù)四則混合運算100題及答案
評論
0/150
提交評論