信息技術(shù) 第二冊(五年制高職)課件 9.3.1 語音識別系統(tǒng)_第1頁
信息技術(shù) 第二冊(五年制高職)課件 9.3.1 語音識別系統(tǒng)_第2頁
信息技術(shù) 第二冊(五年制高職)課件 9.3.1 語音識別系統(tǒng)_第3頁
信息技術(shù) 第二冊(五年制高職)課件 9.3.1 語音識別系統(tǒng)_第4頁
信息技術(shù) 第二冊(五年制高職)課件 9.3.1 語音識別系統(tǒng)_第5頁
已閱讀5頁,還剩9頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

探索智能家居《人工智能》主題九:人工智能語音識別系統(tǒng)目錄contents語音識別系統(tǒng)的定義語音識別系統(tǒng)的原理語音識別系統(tǒng)的工作流程語音識別系統(tǒng)的定義01語音識別(SpeechRecognition)是指用計算機技術(shù)將語音信號轉(zhuǎn)換成文本或者其他形式的輸出,識別語音信號并將其轉(zhuǎn)換為可輸入計算機的數(shù)字信號。語音識別技術(shù)實際上就是一個將聲學(xué)信號轉(zhuǎn)換成語義信息的過程。通常使用基頻、共振峰(Formants)和聲強(時域信號)等特征來描述語音信號。1.

語音識別系統(tǒng)的定義現(xiàn)在的語音識別技術(shù)可以被廣泛應(yīng)用于智能家居、移動設(shè)備、汽車導(dǎo)航等領(lǐng)域。1.

語音識別系統(tǒng)的定義02語音識別系統(tǒng)的原理實現(xiàn)語音識別系統(tǒng)一般包含以下三個部分:2.語音識別系統(tǒng)的原理312語言模型聲學(xué)模型語音識別引擎在聲學(xué)模型中,主要是通過提取語音信號的頻譜特征來構(gòu)建狀態(tài)模型。

頻譜特征是指語音信號在任意時刻的功率譜密度和譜相位變化情況。特征提取完成后,將其輸入到HMM模型中進行訓(xùn)練。在實際應(yīng)用中,需要使用大量的訓(xùn)練樣本,通過機器學(xué)習(xí)算法對模型進行優(yōu)化,以達到高準確度的語音識別效果。2.1聲學(xué)模型語音識別引擎是語音識別系統(tǒng)的核心部分,它負責對聲學(xué)模型提取的語音特征進行解碼,并生成相應(yīng)的文本結(jié)果。語音識別引擎中有兩個主要的組件:前端處理和推理處理。(1)前端處理是通過聲學(xué)模型進行信號特征提取,并將特征序列進一步轉(zhuǎn)換為聲學(xué)特征向量,如梅爾倒譜系數(shù)(MFCC)、線性預(yù)測編碼(LPC)等。(2)推理處理是通過語音識別的算法,用聲學(xué)特征向量計算詞概率,并將詞序列轉(zhuǎn)換為最終的文本結(jié)果。2.2語音識別引擎語言模型是語音識別系統(tǒng)中的另一個重要組成部分。語言模型負責根據(jù)上下文環(huán)境,預(yù)測用戶語音輸入的下一個單詞。語言模型應(yīng)該能夠識別符合語言規(guī)則的語句。在語言模型中,通常使用n-gram語言模型或者神經(jīng)網(wǎng)絡(luò)語言模型來完成文本預(yù)測。ChatGPT屬于一類基于GPT技術(shù)的大語言模型(LargeLanguageModel,LLM)。大語言模型極大地改變了自然語言處理領(lǐng)域的研究范式,越來越多的科技公司為了趕上ChatGPT引發(fā)的時代浪潮,也紛紛給出了自己的大語言模型,包括Google、Microsoft、NVIDA等一系列頂尖科技公司。2.3語言模型03語音識別系統(tǒng)的工作流程數(shù)據(jù)采集

數(shù)據(jù)采集需要采集大量的正常人的語音數(shù)據(jù),以及噪聲、干擾等不同場景下的語音數(shù)據(jù),以便于語音識別引擎的訓(xùn)練和調(diào)試。預(yù)處理

預(yù)處理是指對采集到的原始語音信號進行采樣、濾波、分幀、特征提取、噪聲消除等多種處理,以適配語音識別引擎的輸入要求。建模

建模是指在掌握大量的語音數(shù)據(jù)后,采用一定的機器學(xué)習(xí)算法,訓(xùn)練出一個準確的聲學(xué)模型。解碼

解碼是指將采集到的語音信號輸入到

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論