移動機(jī)器人原理與技術(shù) 課件 第七章 移動機(jī)器人語音識別與控制_第1頁
移動機(jī)器人原理與技術(shù) 課件 第七章 移動機(jī)器人語音識別與控制_第2頁
移動機(jī)器人原理與技術(shù) 課件 第七章 移動機(jī)器人語音識別與控制_第3頁
移動機(jī)器人原理與技術(shù) 課件 第七章 移動機(jī)器人語音識別與控制_第4頁
移動機(jī)器人原理與技術(shù) 課件 第七章 移動機(jī)器人語音識別與控制_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

移動機(jī)器人技術(shù)原理與應(yīng)用第七章

移動機(jī)器人語音識別與控制語音信號的特征提取聲學(xué)模型7.1移動機(jī)器人語音識別系統(tǒng)7.27.3移動機(jī)器人語音控制7.47.1移動機(jī)器人語音識別系統(tǒng)移動機(jī)器人的語音識別技術(shù)由以下幾個(gè)過程來實(shí)現(xiàn),包括:語音控制信號的預(yù)處理、特征參數(shù)的提取、語音控制信號的訓(xùn)練和識別。語音識別系統(tǒng)的整體框圖7.1移動機(jī)器人語音識別系統(tǒng)語音信號處理和特征提取部分以語音音頻信號為輸入,通過消除噪聲和信道失真對語音音頻信號進(jìn)行增強(qiáng),將信號從時(shí)域轉(zhuǎn)化到頻域,利用端點(diǎn)檢測的方法檢測出有效的語音段,并為后面的聲學(xué)模型提取合適的有代表性的語音信號特征。聲學(xué)模型是對聲學(xué)、語音學(xué)、環(huán)境的變量、說話人性別、口音等的差異的知識表示,聲學(xué)模型對語音特征進(jìn)行訓(xùn)練,得到每一個(gè)語音特征在聲學(xué)特征上的概率。7.1移動機(jī)器人語音識別系統(tǒng)語言模型是對一組字序列構(gòu)成的知識表示,通過對大量文本信息進(jìn)行訓(xùn)練,計(jì)算出該語音信號中單個(gè)字或詞可能對應(yīng)的詞組序列相互關(guān)聯(lián)的概率。語音數(shù)據(jù)的模板匹配和結(jié)果分析階段就是通過聲學(xué)模型、字典、語言模型對提取語音特征后的音頻數(shù)據(jù)進(jìn)行詞組序列的解碼,得到最后可能的文本表示并輸出結(jié)果,將匹配上的控制命令信號轉(zhuǎn)換成相應(yīng)動作,移動機(jī)器人驅(qū)動電機(jī)完成相應(yīng)動作。7.2語音信號的特征提取語音信號的特征提取就是從說話人的語音信號中提取出表示說話人個(gè)性的基本特征。常見的說話人特征包括語音幀能量、基音周期、線性預(yù)測系數(shù)、共振峰頻率及帶寬、鼻音聯(lián)合特征、譜相關(guān)特征、相對發(fā)音速率特征、線性預(yù)測系數(shù)倒譜以及音調(diào)輪廓特征等。7.2.1語音信號的預(yù)處理語音信號的預(yù)處理的目的是消除因?yàn)槿祟惏l(fā)聲器官本身和由于采集語音信號的設(shè)備所帶來的混疊、高次諧波失真、高頻等等因素對語音信號質(zhì)量的影響。盡可能保證后續(xù)語音處理得到的信號更均勻、平滑,為信號參數(shù)提取提供優(yōu)質(zhì)的參數(shù),提高語音處理質(zhì)量。預(yù)處理一般包括預(yù)加重、分幀和加窗等。7.2.1語音信號的預(yù)處理1.語音信號的預(yù)加重預(yù)加重的作用是消除語音信號在低頻段的干擾使其頻譜變得平坦,它將有利于對后續(xù)語音信號的頻譜進(jìn)行分析。預(yù)加重的計(jì)算表達(dá)式為:x(n)表示的是在n時(shí)刻語音信號的采樣值,α為語音信號的預(yù)加重因子且α接近于1。7.2.1語音信號的預(yù)處理語音命令信號“前進(jìn)”預(yù)加重前后的頻譜圖7.2.1語音信號的預(yù)處理2.語音信號的分幀語音信號實(shí)際上是一種時(shí)變的波動信號,但通常在10~30ms內(nèi)被看作是短時(shí)平穩(wěn)的。為了能夠更好地對預(yù)加重后的短時(shí)語音信號進(jìn)行分析,需要將采集的語音信號做分幀處理。如圖7-3所示為分幀后的語音信號的效果圖,其中每幀語音信號的長度是幀移的2倍。7.2.1語音信號的預(yù)處理2.語音信號的分幀語音信號分幀示意圖7.2.1語音信號的預(yù)處理3.語音信號的加窗語音分幀會導(dǎo)致語音信號的頻譜泄露,為了防止這一現(xiàn)象需要對分幀后的語音信號加窗,目前使用較普遍的窗函數(shù)有矩形窗和漢明窗。窗長為L的矩形窗函數(shù)可表示為:窗長為L的漢明窗函數(shù)可表示為:7.2.1語音信號的預(yù)處理3.語音信號的加窗矩形窗的時(shí)域和幅頻特性效果圖7.2.1語音信號的預(yù)處理3.語音信號的加窗漢明窗的時(shí)域和幅頻特性效果圖7.2.2語音信號的端點(diǎn)檢測端點(diǎn)檢測是指在一段語音信號中準(zhǔn)確的找出語音信號的起始點(diǎn)與結(jié)束點(diǎn),使有效的語音信號和無用的噪音信號分離。目前常見的方法包括雙門限法、自相關(guān)法、譜熵法和比例法。雙門限法是一種常用的端點(diǎn)檢測方法,該方法是通過計(jì)算語音信號的短時(shí)能量值和短時(shí)過零率值,從而檢測出有效的語音段。7.2.2語音信號的端點(diǎn)檢測1.短時(shí)能量值設(shè)第n幀語音信號Xn(m)的短時(shí)能量用En表示:短時(shí)能量檢測可以較好的區(qū)分出濁音與靜音,對于清音,由于其能量較小,在短時(shí)能量檢測中會因?yàn)榈陀谀芰块T限而被誤判為靜音。7.2.2語音信號的端點(diǎn)檢測2.短時(shí)過零率值短時(shí)過零率表示一幀語音中語音信號波形穿過橫軸(零電平)的次數(shù)。它可以用來區(qū)分靜音和清音,將兩種檢測結(jié)合起來,就可以檢測出語音段(清音與濁音)與靜音段,從而識別出語音信號的端點(diǎn)。7.2.2語音信號的端點(diǎn)檢測2.短時(shí)過零率值語音命令“前進(jìn)”的端點(diǎn)檢測結(jié)果7.2.3語音信號的特征提取特征參數(shù)提取的目的是在大量的原始語音數(shù)據(jù)中提取出能夠表征語音信息的特征,篩選出多余的信息并提高語音識別系統(tǒng)的整體性能,梅爾倒譜系數(shù)法(MelFrequencyCepstrumCoefficient,簡稱MFCC)是語音信號特征提取方法中最常用且經(jīng)典的方法。Mel濾波器模擬了人耳的聽覺特性,它與頻率的關(guān)系可表示為:Mel(f)為語音命令信號的感知頻率,f為實(shí)際頻率。7.2.3語音信號的特征提取感知頻率Mel與實(shí)際頻率f的關(guān)系曲線7.2.3語音信號的特征提取MFCC特征參數(shù)提取過程7.2.3語音信號的特征提取MFCC算法提取特征參數(shù)的步驟如下:1.將采集的語音信號首先做預(yù)加重處理,然后進(jìn)行分幀和加漢明窗。2.快速傅里葉變換(FastFourierTransform,簡稱FFT):由于時(shí)域上語音信號是非平穩(wěn)的難以反映語音信號的特性,因此需先將其變換到頻域上再進(jìn)行分析,利用FFT變換得到語音信號在頻譜上的能量值,其計(jì)算公式如下:7.2.3語音信號的特征提取MFCC算法提取特征參數(shù)的步驟如下:3.通過Mel濾波器組對語音信號的功率譜進(jìn)行濾波處理。在一定Mel頻率范圍內(nèi),需要設(shè)置一些帶通濾波器H(m,k)并且每個(gè)濾波器在Mel頻率上的寬度都相等,則H(m,k)傳遞函數(shù)的表達(dá)式為:7.2.3語音信號的特征提取Mel濾波器組的頻率響應(yīng)曲線7.2.3語音信號的特征提取計(jì)算由48個(gè)Mel濾波器構(gòu)成Mel濾波器組的H(m,k),然后再計(jì)算語音信號的能量譜,其計(jì)算表達(dá)式為:4.將從Mel濾波器中得到的語音信號的能量值取對數(shù),然后進(jìn)行離散余弦變換(DiscreteCosineTransform,簡稱DCT)即可得出MFCC特征參數(shù)值,其表達(dá)式為:m表示第m個(gè)Mel濾波器,M表示Mel濾波器的總個(gè)數(shù),i表示的是DCT變換后的譜線,n表示的是第n幀語音信號7.3聲學(xué)模型7.3.1混合高斯模型高斯混合模型GMM可以看作是由K個(gè)單高斯模型組合而成的模型,這K個(gè)子模型是混合模型的隱變量。高斯混合模型GMM就是用高斯概率密度函數(shù)精確地量化事物,它是一個(gè)將事物分解為若干的基于高斯概率密度函數(shù)形成的模型?;旌细咚狗植嫉母怕拭芏群瘮?shù)為:7.3.1混合高斯模型混合高斯模型及其相關(guān)的參數(shù)變量估計(jì)是一個(gè)不完整數(shù)據(jù)的參數(shù)估計(jì)問題。最大似然準(zhǔn)則估計(jì)方法中的最大期望值算法(ExpectationMaximization,EM)是這一類方法的一個(gè)典型代表。EM算法是在給定確定數(shù)量的混合分布成分的情況下,去估計(jì)各個(gè)分布參數(shù)的最通用的方法。第一階段,期望計(jì)算階段(E步驟)以及最大化階段(M步驟)。7.3.1混合高斯模型EM算法得到的參數(shù)估計(jì)公式為:從E步驟中計(jì)算得到的后驗(yàn)概率如下:7.3.2隱馬爾科夫模型馬爾可夫鏈又稱離散時(shí)間馬爾可夫鏈(discrete-timeMarkovchain),是狀態(tài)空間中經(jīng)過從一個(gè)狀態(tài)到另一個(gè)狀態(tài)轉(zhuǎn)換的隨機(jī)過程。該過程要求具備“無記憶”的性質(zhì):下一狀態(tài)的概率分布只能由當(dāng)前狀態(tài)決定,在時(shí)間序列中它前面的事件均與之無關(guān),這種特定類型的“無記憶性”稱作馬爾可夫性質(zhì)。馬爾可夫鏈實(shí)際上就是一個(gè)隨機(jī)變量隨時(shí)間按照Markov性質(zhì)進(jìn)行變化的過程。7.3.2隱馬爾科夫模型在馬爾可夫鏈的基礎(chǔ)上進(jìn)行擴(kuò)展,用一個(gè)觀測的概率分布與馬爾可夫鏈上的每個(gè)狀態(tài)進(jìn)行對應(yīng),這樣引入雙重隨機(jī)性,使得馬爾可夫鏈不能被直接觀察,因此稱為隱馬爾可夫模型(HMM),HMM在實(shí)現(xiàn)過程中表現(xiàn)出了雙重隨機(jī)性的特點(diǎn),其中之一是馬爾科夫鏈,它把一段語音信號的輸出和每一個(gè)狀態(tài)看成一一對應(yīng)的過程,是可觀測的,另一個(gè)用來描述狀態(tài)和觀測值之間的統(tǒng)計(jì)對應(yīng)關(guān)系的過程,是不可觀測的。將這兩個(gè)隨機(jī)過程有機(jī)結(jié)合起來可較好地處理語音信號之間的動態(tài)變化和語音特征的短時(shí)平穩(wěn)問題。7.3.2隱馬爾科夫模型隱馬爾可夫模型主要由初始概π率、轉(zhuǎn)移概率A、輸出概率B三個(gè)參數(shù)決定。該模型就是利用這三個(gè)參數(shù)來處理語音特征的短時(shí)平穩(wěn)性。HMM模型拓?fù)鋱D7.3.2隱馬爾科夫模型一個(gè)HMM模型可以用下列參數(shù)描述:1.N,定義N個(gè)狀態(tài)θ1,θ2,...,θN為馬爾科夫鏈,定義qt是馬爾科夫鏈在t時(shí)刻所得出的觀測值,qt∈(θ1,θ2,...,θN)表示語音信號處于某個(gè)平穩(wěn)的狀態(tài);2.M,每個(gè)狀態(tài)可能對應(yīng)觀察值的數(shù)量。定義M個(gè)觀察值V1,V2,...,VM3.π,初始狀態(tài)概率,,其中π=(π1,π2,...,πN),其中7.3.2隱馬爾科夫模型一個(gè)HMM模型可以用下列參數(shù)描述:4.A,狀態(tài)轉(zhuǎn)移概率矩陣,

,其中5.B,觀察值概率矩陣,

,其中在描述一個(gè)HMM模型時(shí),其狀態(tài)數(shù)量和觀測值的數(shù)量是已知的,因此HMM模型也可記為:7.3.2隱馬爾科夫模型HMM模型主要由兩部分構(gòu)成,一是馬爾科夫鏈,它是由參數(shù)、確定的,輸出的結(jié)果是語音特征值的狀態(tài)序列,二是由參數(shù)確定的一個(gè)隨機(jī)過程,輸出結(jié)果是語音特征值的觀測序列。HMM組成示意圖7.3.3GMM-HMM聲學(xué)模型使用GMM對HMM每個(gè)狀態(tài)的語音特征分布進(jìn)行建模,有許多明顯的優(yōu)勢。只要混合的高斯分布數(shù)目足夠多,GMM可以擬合任意精度的概率分布,并且它通過EM算法很容易擬合數(shù)據(jù)。GMM參數(shù)通過EM算法的優(yōu)化,可以使其在訓(xùn)練數(shù)據(jù)上生成語音觀察特征的概率最大化。在此基礎(chǔ)上,若通過鑒別性訓(xùn)練,基于GMM-HMM的語音識別系統(tǒng)的識別準(zhǔn)確率可以得到顯著提升。7.3.3GMM-HMM聲學(xué)模型基于GMM-HMM的聲學(xué)模型7.3.3GMM-HMM聲學(xué)模型GMM-HMM聲學(xué)模型中語音特征的最佳觀測序列如下:k表示第i個(gè)狀態(tài)時(shí)輸出語音特征觀測序列中所包含高斯分量的數(shù)量,ωik表示第i個(gè)狀態(tài)時(shí)輸出語音特征觀測序列的權(quán)重值,uik表示i狀態(tài)時(shí)輸出語音特征觀測序列的均值,D表示語音特征向量O的維數(shù),

表示i狀態(tài)時(shí)輸出語音特征觀測序列的協(xié)方差矩陣,GMM模型通過加權(quán)集成多個(gè)語音信號的高斯分量來描述其語音特征的空間分布,利用EM算法對語音數(shù)據(jù)集進(jìn)行聲學(xué)模型的建模與迭代訓(xùn)練。7.4移動機(jī)器人語音控制對于沒有應(yīng)用ROS系統(tǒng)的移動機(jī)器人,現(xiàn)階段的絕大多數(shù)智能語音控制系統(tǒng)都采用市場上的硬件模塊作為語音識別單元,常用的有LD3320語音識別芯片和智能語音控制模組YQ5969系列,這些均是非特定語音識別芯片,只針對相同的語言進(jìn)行識別,和人的年齡、性別等差異無關(guān)。百度智能語音等開發(fā)平臺提供了智能語音開發(fā)工具包SDK,使得二次開發(fā)更為方便快捷,使用語音API即可實(shí)現(xiàn)語音識別與合成等功能。7.4移動機(jī)器人語音控制對于應(yīng)用ROS的移動機(jī)器人,則使用基于Linux系統(tǒng)的SDK編寫語音識別節(jié)點(diǎn),當(dāng)節(jié)點(diǎn)開始運(yùn)行時(shí),通過麥克風(fēng)接受語音信號并將其轉(zhuǎn)化為相應(yīng)的文字,文字信息與指令庫中的信息比較,匹配成功的情況下通過特定的主題發(fā)布。移動機(jī)器人控制節(jié)點(diǎn)通過訂閱這個(gè)主題接收文字指令,并且將其發(fā)送給移動機(jī)器人平臺的主控制器,主控制器通過驅(qū)動模塊控制直流電機(jī)運(yùn)動,從而完成語音控制。7.4移動機(jī)器人語音控制移動機(jī)器人語音控制流程7.4移動機(jī)器人語音控制ROS中,一般使用C++和Python語言編寫語音處理和識別的相關(guān)程序,并形成語音控制系統(tǒng)所需的語音采集軟件包、語音處理軟件包、語音識別算法軟件包和移動機(jī)器人控制軟件包,在ROS系統(tǒng)中對編寫的各個(gè)軟件包進(jìn)行g(shù)cc編譯生成相應(yīng)的節(jié)點(diǎn),編寫launch文件,通過ROS的通信機(jī)制將各個(gè)獨(dú)立的模塊串接起來完成整個(gè)語音控制系統(tǒng)的設(shè)計(jì)。7.4移動機(jī)器人語音控制ROS系統(tǒng)下語音控制系統(tǒng)的節(jié)點(diǎn)關(guān)系圖7.4移動機(jī)器人語音控制節(jié)點(diǎn)/audio_capture來獲取通過麥克風(fēng)采集的語音控制信號,并發(fā)布消息到/microphone話題;節(jié)點(diǎn)/wakeup_node訂閱//microphone話題,檢測輸入的語音控制信號是否為有效的語音信號,來啟

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論