唇形合成語(yǔ)音與唇形語(yǔ)音識(shí)別_第1頁(yè)
唇形合成語(yǔ)音與唇形語(yǔ)音識(shí)別_第2頁(yè)
唇形合成語(yǔ)音與唇形語(yǔ)音識(shí)別_第3頁(yè)
唇形合成語(yǔ)音與唇形語(yǔ)音識(shí)別_第4頁(yè)
唇形合成語(yǔ)音與唇形語(yǔ)音識(shí)別_第5頁(yè)
已閱讀5頁(yè),還剩26頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

唇形唇唇唇位于口腔的最前端,分上唇和下唇,兩唇共同圍成口裂,口裂兩端稱口角。唇是言語(yǔ)器官中唯一可以從外部被觀察到的部分,因此在發(fā)音過(guò)程中唇形的變化被聾啞人用來(lái)作為識(shí)別對(duì)方講話的依據(jù)。唇由口輪匝肌組成。輪匝肌又稱為唇內(nèi)肌,它的作用在于關(guān)閉雙唇,發(fā)出唇音p、b、m等;唇外肌中上唇肌和顴肌司提升上唇;下唇肌和三角肌管降低下唇,而笑肌和頰肌主繃緊雙唇??诖浇馄蕡D基本知識(shí)基本知識(shí)下唇與上齒接近能產(chǎn)生唇齒音f、v。在元音發(fā)音中,圓唇的結(jié)果能發(fā)出圓唇元音。此外,舌尖元音加上圓唇的作用,能發(fā)出【?】等圓唇舌尖元音。元音:和唇形的關(guān)系,區(qū)別特征,圓唇和展唇,共振峰的關(guān)系輔音:主要的發(fā)音部位之一。國(guó)際音標(biāo)表

唇讀(lip-reading/speech-reading),是指通過(guò)觀察說(shuō)話者的口型變化,“讀出”或“部分讀出”其所說(shuō)的內(nèi)容.研究唇讀目的是利用視覺(jué)信道信息補(bǔ)充聽(tīng)覺(jué)信道的信息,以提高計(jì)算機(jī)系統(tǒng)的理解力.

唇讀計(jì)算機(jī)唇讀計(jì)算機(jī)唇讀是指通過(guò)建立口型模型和分析運(yùn)動(dòng)參數(shù),定量地處理唇動(dòng)信息輔助進(jìn)行語(yǔ)音識(shí)別,或者是直接對(duì)序列圖像進(jìn)行分類和識(shí)別,以提高語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確率和魯棒性。

魯棒性就是系統(tǒng)的健壯性。它是在異常和危險(xiǎn)情況下系統(tǒng)生存的關(guān)鍵。比如說(shuō),計(jì)算機(jī)軟件在輸入錯(cuò)誤、磁盤故障、網(wǎng)絡(luò)過(guò)載或有意攻擊情況下,能否不死機(jī)、不崩潰,就是該軟件的魯棒性。所謂“魯棒性”,是指控制系統(tǒng)在一定(結(jié)構(gòu),大?。┑膮?shù)攝動(dòng)下,維持某些性能的特性。根據(jù)對(duì)性能的不同定義,可分為穩(wěn)定魯棒性和性能魯棒性。以閉環(huán)系統(tǒng)的魯棒性作為目標(biāo)設(shè)計(jì)得到的固定控制器稱為魯棒控制器。唇讀的識(shí)別方法★唇讀識(shí)別中較常使用的方法是基于特征向量法

把提取的特征作為向量進(jìn)行HMM的狀態(tài)匹配。這樣做的缺點(diǎn)是狀態(tài)不確定,搜索的時(shí)間和空間規(guī)模較大,很難做到識(shí)別的實(shí)時(shí)性?!锪硪环N方法是基于口型分類法

人在發(fā)相同的音時(shí),口型是基本不變的,發(fā)相似的音時(shí)口型上也存在很大的相似性,所以將漢語(yǔ)發(fā)音的變化口型進(jìn)行聚類是可行的。明確了口型的種類也就明確了發(fā)音時(shí)的狀態(tài),在這些狀態(tài)的基礎(chǔ)上進(jìn)行唇讀的識(shí)別,就可以去掉直接使用特征向量識(shí)別時(shí)狀態(tài)變化的不確定性,縮小狀態(tài)空間,提高最佳狀態(tài)匹配的收斂速度。交叉學(xué)科唇形研究是對(duì)語(yǔ)音研究和圖像處理的交叉學(xué)科的探索,內(nèi)容涉及語(yǔ)言學(xué)、圖像處理、模式識(shí)別、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言理解等多個(gè)領(lǐng)域,他的進(jìn)步可以促進(jìn)許多學(xué)科的進(jìn)步。國(guó)外研究現(xiàn)狀

國(guó)際上目前語(yǔ)音學(xué)基礎(chǔ)理論研究的前沿正從過(guò)去單一的語(yǔ)音學(xué)轉(zhuǎn)向語(yǔ)音學(xué)科的整體研究,這種多學(xué)科整體研究的集中體現(xiàn)就是“語(yǔ)音多模態(tài)(multi-modalofspeech)”研究。由于語(yǔ)音多模態(tài)研究的基礎(chǔ)理論成果能夠促進(jìn)相關(guān)信息科學(xué)的發(fā)展,因而許多國(guó)家都將語(yǔ)音多模態(tài)研究作為支持的重點(diǎn),著名的研究機(jī)構(gòu)有瑞典皇家理工學(xué)院(KTH)、美國(guó)哈斯金斯語(yǔ)音實(shí)驗(yàn)室(Haskins)、加州大學(xué)洛杉磯分校語(yǔ)音實(shí)驗(yàn)室(UCLAPhoneticsLab)、日本東京大學(xué)言語(yǔ)生理系等,并在英語(yǔ)和日語(yǔ)的言語(yǔ)產(chǎn)生和多模態(tài)人機(jī)交互方面取得了大量的研究成果。應(yīng)用語(yǔ)言學(xué)就是通過(guò)各種現(xiàn)代技術(shù)著重解決現(xiàn)實(shí)當(dāng)中的語(yǔ)言問(wèn)題,是把理論語(yǔ)言學(xué)和現(xiàn)代應(yīng)用技術(shù)有機(jī)結(jié)合的學(xué)科,其中人機(jī)的語(yǔ)言情感交互研究是近幾年的研究熱點(diǎn)。其研究?jī)?nèi)容從最早的機(jī)器翻譯到現(xiàn)今的多模態(tài)之一的視位研究。而唇位研究正是可視化研究的重要組成部分。國(guó)外的研究現(xiàn)狀最早的唇讀系統(tǒng)是1984年由(伊利諾伊大學(xué))UIUC大學(xué)patajan構(gòu)建,系統(tǒng)中采用的方法是對(duì)每一個(gè)詞對(duì)應(yīng)一個(gè)特征矢量序列,識(shí)別時(shí),將輸入唇讀序列圖中得到特征矢量序列依存與詞庫(kù)中的每一個(gè)詞模板進(jìn)行相似度距離測(cè)度計(jì)算。將相似度最高的作為結(jié)果輸出。由于它沒(méi)有使用自動(dòng)時(shí)間歸正處理,因此方法有訓(xùn)練時(shí)的語(yǔ)速與識(shí)別時(shí)語(yǔ)速完全一致這一不可能的苛刻要。后來(lái)Mase和Pentland采用了線性時(shí)間歸正技術(shù)(LTW)改進(jìn)了效果,Patajan也加入了動(dòng)態(tài)時(shí)間歸正算法(DTW)對(duì)原系統(tǒng)做了改進(jìn)。加利福利亞大學(xué)UCSC的Michael.M.Cohen博士也是最早從事唇讀模擬和研究的研究者之一,他所在的實(shí)驗(yàn)室PerceptualScienceLab完成了多項(xiàng)唇語(yǔ)模擬的項(xiàng)目,為聾啞人創(chuàng)造了良好的人機(jī)交互環(huán)境,一種虛擬語(yǔ)言模擬系統(tǒng)為聾啞兒童提供學(xué)習(xí)和交互的環(huán)境。MIT媒體實(shí)驗(yàn)室的學(xué)術(shù)帶頭人Pentland教授將光流技術(shù)引入唇讀特征的提取工作。福羅里達(dá)中心大學(xué)計(jì)算機(jī)系的GlennA.Martin也于1992年采用光流技術(shù)解決唇讀問(wèn)題,對(duì)光流序列進(jìn)行了時(shí)間歸正,提出了相關(guān)匹配算法。

各種唇讀系統(tǒng)比較各種唇讀系統(tǒng)比較

國(guó)內(nèi)言語(yǔ)工程方面比較關(guān)注多模態(tài)的人機(jī)交互研究,包括語(yǔ)音和情感的合成識(shí)別等相關(guān)方面的研究。做的比較好的有:清華大學(xué)電子工程系和計(jì)算機(jī)系、北京大學(xué)言語(yǔ)聽(tīng)覺(jué)研究中心,中科院自動(dòng)化所、科大訊飛、微軟亞洲研究院等。國(guó)內(nèi)的進(jìn)展唇讀流程圖像采集檢測(cè)與定位特征提取識(shí)別方法圖像采集1)正面采集在拍攝獲取發(fā)音者的口型圖像序列時(shí),通過(guò)在緊靠面部側(cè)面放置一面鏡子的方法,同步記錄發(fā)音時(shí)的正面和側(cè)面圖像。但是在實(shí)際應(yīng)用中放置鏡子的方法有時(shí)帶來(lái)不便。2)不規(guī)則人臉對(duì)稱模型

獲取人臉圖像時(shí),攝像頭從人臉正面轉(zhuǎn)過(guò)一個(gè)角度θ,這樣既能保證一半正面嘴唇輪廓的圖像,又能反映出嘴唇突出度和下腭突出度的投影信息。既有人臉正面圖像中嘴唇的內(nèi)外輪廓?jiǎng)討B(tài)變化信息,又包含人臉側(cè)面圖像反映出來(lái)的嘴唇突在出度和下腭突出度動(dòng)態(tài)變化信息。3)正面、側(cè)面采集采用兩個(gè)攝像裝置采集圖像,圖像序列間的同步會(huì)帶來(lái)很大的問(wèn)題

檢測(cè)與定位降低圖像處理的難度,檢測(cè)唇的邊緣設(shè)計(jì)平臺(tái)矩形框第一列是表示原始唇區(qū)域,第二列表示別分類出的唇區(qū)域和非唇區(qū)域,第三列代表根據(jù)唇模型畫(huà)出的唇線邊緣。特征提取基于模型方法混合特征基于像素基于模型1)主動(dòng)輪廓模型(Snake算法):Snake是一條變形的曲線,主要靠?jī)蓚€(gè)函數(shù)來(lái)提取特征。2)可變模型:特定的主動(dòng)輪廓模型特點(diǎn):數(shù)據(jù)量小、較為準(zhǔn)確基于像素1)直接像素法2)矢量量化3)主成分分析4)基于光流:臉部采集、光的速度看唇動(dòng)基于像素優(yōu)點(diǎn):可以采集到所有的數(shù)據(jù)缺點(diǎn):數(shù)據(jù)量大、運(yùn)算量大、收到光線的影響混合特征目前有以下的結(jié)合方法:1)主成分+snake2)多尺度空間分析3)主動(dòng)面模型識(shí)別方法1)模板匹配2)隱馬爾科夫模型(HMM):通過(guò)概率,尋找近似性匹配3)TDNN(延遲神經(jīng)網(wǎng)絡(luò))德國(guó)的斯圖加特大學(xué)和美國(guó)的CMU合作對(duì)唇形研究?jī)?nèi)容分為四個(gè)部分:1)建立語(yǔ)音多模態(tài)庫(kù);語(yǔ)音、唇位、采集圖片、語(yǔ)音(資源庫(kù))2)建立唇形處理平臺(tái);矩形框、邊緣、修改3)對(duì)語(yǔ)音、唇位參數(shù)提取和數(shù)據(jù)分析,建立統(tǒng)計(jì)模型;4)研究不同生理信號(hào)之間的關(guān)系,進(jìn)行語(yǔ)音產(chǎn)生各相關(guān)層面的理論與方法研究,并建立語(yǔ)音驅(qū)動(dòng)的唇型模型合成。(長(zhǎng)遠(yuǎn)目標(biāo))用參數(shù)驅(qū)動(dòng)合成研究?jī)?nèi)容研究?jī)?nèi)容(1)建立語(yǔ)音、唇型數(shù)據(jù)庫(kù)模態(tài)數(shù)據(jù)庫(kù)包括:音位、單音節(jié)(解決協(xié)同發(fā)音)的語(yǔ)音和視頻信號(hào)。1)文本設(shè)計(jì):音位、單音節(jié)和雙音節(jié)文本設(shè)計(jì)。2)使用兩架攝像機(jī)進(jìn)行信號(hào)的同步采集,以保證人臉正面和側(cè)面信號(hào)被同時(shí)采集,最終獲得包含三種單位的語(yǔ)音和唇型參數(shù)數(shù)據(jù)庫(kù)。研究?jī)?nèi)容(2)建立信號(hào)處理平臺(tái) 生理信號(hào)的采集設(shè)備一般都不帶有分析功能,需要根據(jù)不同的信號(hào)類型編寫各自的信號(hào)處理和分析程序,包括信號(hào)的讀取、剪切、保存、擬定參數(shù)的自動(dòng)提取、數(shù)據(jù)的自動(dòng)保存和統(tǒng)計(jì)分析等功能。該平臺(tái)主要完成內(nèi)外唇線及唇線參數(shù)的設(shè)定與自動(dòng)提取和批量分析等,主要包括以下功能: ①手動(dòng)框出包含唇的矩形區(qū)。 ②利用支持向量機(jī)對(duì)唇區(qū)域和非唇區(qū)域進(jìn)行分類。 ③對(duì)分類出的唇區(qū)域利用EILAN提出的唇邊緣檢測(cè)模型自動(dòng)標(biāo)記出唇邊緣,對(duì)自動(dòng)標(biāo)記錯(cuò)誤處具有手動(dòng)修改功能。研究?jī)?nèi)容(3)對(duì)語(yǔ)音、唇型的參數(shù)提取和數(shù)據(jù)分析 根據(jù)不同的信號(hào)庫(kù)和研究目的,選擇適當(dāng)?shù)膮?shù),設(shè)計(jì)提取算法,進(jìn)行數(shù)據(jù)分析建立統(tǒng)計(jì)模型,并進(jìn)行相關(guān)理論領(lǐng)域的探討。 ①語(yǔ)音主要的參數(shù)有:時(shí)長(zhǎng)、基頻(F0)、輔音強(qiáng)頻區(qū)、振幅、譜傾斜率、共振峰的音軌、輔音和元音之間共振鋒的過(guò)度段、VOT等等。在技術(shù)上,提取聲學(xué)參數(shù)是采用比較經(jīng)典和成熟的算法,共振峰和帶寬用基音同步協(xié)方差(co-variance)LPC提取,基頻用倒譜的方法提取。 ②唇型信號(hào)參數(shù):內(nèi)外唇線、唇寬度、唇高度、唇突度等。唇線特征提取主要是對(duì)已經(jīng)提取的矩形區(qū)域進(jìn)行唇區(qū)域和非唇區(qū)域的分割,然后對(duì)唇區(qū)域用已有唇模型分別檢測(cè)出唇邊緣。(13個(gè)參數(shù)) ③總結(jié)語(yǔ)音學(xué)唇位,根據(jù)每一個(gè)音的唇型變化(根據(jù)關(guān)鍵點(diǎn)運(yùn)動(dòng)軌跡描述唇線的變化),基于統(tǒng)計(jì)學(xué)上的歸納和分類,建立唇形數(shù)據(jù)庫(kù),從而得出唇位的類型。研究?jī)?nèi)容(4)建立語(yǔ)音驅(qū)動(dòng)的唇位模型 根據(jù)統(tǒng)計(jì)數(shù)據(jù)建立語(yǔ)音和唇型之間的關(guān)聯(lián)模型,建立語(yǔ)音驅(qū)動(dòng)的唇位模型。首先對(duì)文本進(jìn)行國(guó)際音標(biāo)的轉(zhuǎn)換,使其成為音位序列,然后按音節(jié)為單位,聲韻母分別調(diào)用各自對(duì)應(yīng)的唇位圖像組進(jìn)行拼接,可用內(nèi)插法解決語(yǔ)音和唇位的時(shí)間對(duì)應(yīng)。對(duì)每一個(gè)視頻文件,使用非線性編輯器對(duì)采集的圖像進(jìn)行分幀(每秒24幀),對(duì)每一幀建立唇線自動(dòng)匹

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論