唇形合成語(yǔ)音與唇形語(yǔ)音識(shí)別

上傳人：q*** IP屬地：湖北上傳時(shí)間：2023-02-04 格式：PPT 頁(yè)數(shù)：31 大小：4.16MB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩26頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

唇形唇唇唇位于口腔的最前端，分上唇和下唇，兩唇共同圍成口裂，口裂兩端稱口角。唇是言語(yǔ)器官中唯一可以從外部被觀察到的部分，因此在發(fā)音過(guò)程中唇形的變化被聾啞人用來(lái)作為識(shí)別對(duì)方講話的依據(jù)。唇由口輪匝肌組成。輪匝肌又稱為唇內(nèi)肌，它的作用在于關(guān)閉雙唇，發(fā)出唇音p、b、m等；唇外肌中上唇肌和顴肌司提升上唇；下唇肌和三角肌管降低下唇，而笑肌和頰肌主繃緊雙唇?？诖浇馄蕡D基本知識(shí)基本知識(shí)下唇與上齒接近能產(chǎn)生唇齒音f、v。在元音發(fā)音中，圓唇的結(jié)果能發(fā)出圓唇元音。此外，舌尖元音加上圓唇的作用，能發(fā)出【?】等圓唇舌尖元音。元音：和唇形的關(guān)系，區(qū)別特征，圓唇和展唇，共振峰的關(guān)系輔音：主要的發(fā)音部位之一。國(guó)際音標(biāo)表

唇讀(lip-reading/speech-reading),是指通過(guò)觀察說(shuō)話者的口型變化,“讀出”或“部分讀出”其所說(shuō)的內(nèi)容.研究唇讀目的是利用視覺(jué)信道信息補(bǔ)充聽(tīng)覺(jué)信道的信息,以提高計(jì)算機(jī)系統(tǒng)的理解力.

唇讀計(jì)算機(jī)唇讀計(jì)算機(jī)唇讀是指通過(guò)建立口型模型和分析運(yùn)動(dòng)參數(shù),定量地處理唇動(dòng)信息輔助進(jìn)行語(yǔ)音識(shí)別,或者是直接對(duì)序列圖像進(jìn)行分類和識(shí)別,以提高語(yǔ)音識(shí)別技術(shù)的準(zhǔn)確率和魯棒性。

魯棒性就是系統(tǒng)的健壯性。它是在異常和危險(xiǎn)情況下系統(tǒng)生存的關(guān)鍵。比如說(shuō)，計(jì)算機(jī)軟件在輸入錯(cuò)誤、磁盤(pán)故障、網(wǎng)絡(luò)過(guò)載或有意攻擊情況下，能否不死機(jī)、不崩潰，就是該軟件的魯棒性。所謂“魯棒性”，是指控制系統(tǒng)在一定（結(jié)構(gòu)，大小）的參數(shù)攝動(dòng)下，維持某些性能的特性。根據(jù)對(duì)性能的不同定義，可分為穩(wěn)定魯棒性和性能魯棒性。以閉環(huán)系統(tǒng)的魯棒性作為目標(biāo)設(shè)計(jì)得到的固定控制器稱為魯棒控制器。唇讀的識(shí)別方法★唇讀識(shí)別中較常使用的方法是基于特征向量法

把提取的特征作為向量進(jìn)行HMM的狀態(tài)匹配。這樣做的缺點(diǎn)是狀態(tài)不確定,搜索的時(shí)間和空間規(guī)模較大,很難做到識(shí)別的實(shí)時(shí)性。★另一種方法是基于口型分類法

人在發(fā)相同的音時(shí),口型是基本不變的,發(fā)相似的音時(shí)口型上也存在很大的相似性,所以將漢語(yǔ)發(fā)音的變化口型進(jìn)行聚類是可行的。明確了口型的種類也就明確了發(fā)音時(shí)的狀態(tài),在這些狀態(tài)的基礎(chǔ)上進(jìn)行唇讀的識(shí)別,就可以去掉直接使用特征向量識(shí)別時(shí)狀態(tài)變化的不確定性,縮小狀態(tài)空間,提高最佳狀態(tài)匹配的收斂速度。交叉學(xué)科唇形研究是對(duì)語(yǔ)音研究和圖像處理的交叉學(xué)科的探索，內(nèi)容涉及語(yǔ)言學(xué)、圖像處理、模式識(shí)別、計(jì)算機(jī)視覺(jué)、自然語(yǔ)言理解等多個(gè)領(lǐng)域，他的進(jìn)步可以促進(jìn)許多學(xué)科的進(jìn)步。國(guó)外研究現(xiàn)狀

國(guó)際上目前語(yǔ)音學(xué)基礎(chǔ)理論研究的前沿正從過(guò)去單一的語(yǔ)音學(xué)轉(zhuǎn)向語(yǔ)音學(xué)科的整體研究，這種多學(xué)科整體研究的集中體現(xiàn)就是“語(yǔ)音多模態(tài)(multi-modalofspeech)”研究。由于語(yǔ)音多模態(tài)研究的基礎(chǔ)理論成果能夠促進(jìn)相關(guān)信息科學(xué)的發(fā)展，因而許多國(guó)家都將語(yǔ)音多模態(tài)研究作為支持的重點(diǎn)，著名的研究機(jī)構(gòu)有瑞典皇家理工學(xué)院（KTH）、美國(guó)哈斯金斯語(yǔ)音實(shí)驗(yàn)室（Haskins）、加州大學(xué)洛杉磯分校語(yǔ)音實(shí)驗(yàn)室(UCLAPhoneticsLab)、日本東京大學(xué)言語(yǔ)生理系等，并在英語(yǔ)和日語(yǔ)的言語(yǔ)產(chǎn)生和多模態(tài)人機(jī)交互方面取得了大量的研究成果。應(yīng)用語(yǔ)言學(xué)就是通過(guò)各種現(xiàn)代技術(shù)著重解決現(xiàn)實(shí)當(dāng)中的語(yǔ)言問(wèn)題，是把理論語(yǔ)言學(xué)和現(xiàn)代應(yīng)用技術(shù)有機(jī)結(jié)合的學(xué)科，其中人機(jī)的語(yǔ)言情感交互研究是近幾年的研究熱點(diǎn)。其研究?jī)?nèi)容從最早的機(jī)器翻譯到現(xiàn)今的多模態(tài)之一的視位研究。而唇位研究正是可視化研究的重要組成部分。國(guó)外的研究現(xiàn)狀最早的唇讀系統(tǒng)是1984年由（伊利諾伊大學(xué)）UIUC大學(xué)patajan構(gòu)建，系統(tǒng)中采用的方法是對(duì)每一個(gè)詞對(duì)應(yīng)一個(gè)特征矢量序列，識(shí)別時(shí)，將輸入唇讀序列圖中得到特征矢量序列依存與詞庫(kù)中的每一個(gè)詞模板進(jìn)行相似度距離測(cè)度計(jì)算。將相似度最高的作為結(jié)果輸出。由于它沒(méi)有使用自動(dòng)時(shí)間歸正處理，因此方法有訓(xùn)練時(shí)的語(yǔ)速與識(shí)別時(shí)語(yǔ)速完全一致這一不可能的苛刻要。后來(lái)Mase和Pentland采用了線性時(shí)間歸正技術(shù)（LTW）改進(jìn)了效果，Patajan也加入了動(dòng)態(tài)時(shí)間歸正算法（DTW）對(duì)原系統(tǒng)做了改進(jìn)。加利福利亞大學(xué)UCSC的Michael.M.Cohen博士也是最早從事唇讀模擬和研究的研究者之一，他所在的實(shí)驗(yàn)室PerceptualScienceLab完成了多項(xiàng)唇語(yǔ)模擬的項(xiàng)目，為聾啞人創(chuàng)造了良好的人機(jī)交互環(huán)境,一種虛擬語(yǔ)言模擬系統(tǒng)為聾啞兒童提供學(xué)習(xí)和交互的環(huán)境。MIT媒體實(shí)驗(yàn)室的學(xué)術(shù)帶頭人Pentland教授將光流技術(shù)引入唇讀特征的提取工作。福羅里達(dá)中心大學(xué)計(jì)算機(jī)系的GlennA.Martin也于1992年采用光流技術(shù)解決唇讀問(wèn)題，對(duì)光流序列進(jìn)行了時(shí)間歸正，提出了相關(guān)匹配算法。

各種唇讀系統(tǒng)比較各種唇讀系統(tǒng)比較

國(guó)內(nèi)言語(yǔ)工程方面比較關(guān)注多模態(tài)的人機(jī)交互研究，包括語(yǔ)音和情感的合成識(shí)別等相關(guān)方面的研究。做的比較好的有：清華大學(xué)電子工程系和計(jì)算機(jī)系、北京大學(xué)言語(yǔ)聽(tīng)覺(jué)研究中心，中科院自動(dòng)化所、科大訊飛、微軟亞洲研究院等。國(guó)內(nèi)的進(jìn)展唇讀流程圖像采集檢測(cè)與定位特征提取識(shí)別方法圖像采集1）正面采集在拍攝獲取發(fā)音者的口型圖像序列時(shí),通過(guò)在緊靠面部側(cè)面放置一面鏡子的方法,同步記錄發(fā)音時(shí)的正面和側(cè)面圖像。但是在實(shí)際應(yīng)用中放置鏡子的方法有時(shí)帶來(lái)不便。2）不規(guī)則人臉對(duì)稱模型

獲取人臉圖像時(shí),攝像頭從人臉正面轉(zhuǎn)過(guò)一個(gè)角度θ,這樣既能保證一半正面嘴唇輪廓的圖像,又能反映出嘴唇突出度和下腭突出度的投影信息。既有人臉正面圖像中嘴唇的內(nèi)外輪廓?jiǎng)討B(tài)變化信息,又包含人臉側(cè)面圖像反映出來(lái)的嘴唇突在出度和下腭突出度動(dòng)態(tài)變化信息。3）正面、側(cè)面采集采用兩個(gè)攝像裝置采集圖像,圖像序列間的同步會(huì)帶來(lái)很大的問(wèn)題

檢測(cè)與定位降低圖像處理的難度,檢測(cè)唇的邊緣設(shè)計(jì)平臺(tái)矩形框第一列是表示原始唇區(qū)域，第二列表示別分類出的唇區(qū)域和非唇區(qū)域，第三列代表根據(jù)唇模型畫(huà)出的唇線邊緣。特征提取基于模型方法混合特征基于像素基于模型1）主動(dòng)輪廓模型（Snake算法）：Snake是一條變形的曲線，主要靠?jī)蓚€(gè)函數(shù)來(lái)提取特征。2）可變模型：特定的主動(dòng)輪廓模型特點(diǎn)：數(shù)據(jù)量小、較為準(zhǔn)確基于像素1）直接像素法2）矢量量化3）主成分分析4）基于光流：臉部采集、光的速度看唇動(dòng)基于像素優(yōu)點(diǎn)：可以采集到所有的數(shù)據(jù)缺點(diǎn)：數(shù)據(jù)量大、運(yùn)算量大、收到光線的影響混合特征目前有以下的結(jié)合方法：1）主成分+snake2)多尺度空間分析3）主動(dòng)面模型識(shí)別方法1）模板匹配2）隱馬爾科夫模型（HMM）：通過(guò)概率，尋找近似性匹配3）TDNN（延遲神經(jīng)網(wǎng)絡(luò)）德國(guó)的斯圖加特大學(xué)和美國(guó)的CMU合作對(duì)唇形研究?jī)?nèi)容分為四個(gè)部分：1）建立語(yǔ)音多模態(tài)庫(kù)；語(yǔ)音、唇位、采集圖片、語(yǔ)音（資源庫(kù)）2）建立唇形處理平臺(tái)；矩形框、邊緣、修改3）對(duì)語(yǔ)音、唇位參數(shù)提取和數(shù)據(jù)分析，建立統(tǒng)計(jì)模型；4）研究不同生理信號(hào)之間的關(guān)系，進(jìn)行語(yǔ)音產(chǎn)生各相關(guān)層面的理論與方法研究，并建立語(yǔ)音驅(qū)動(dòng)的唇型模型合成。（長(zhǎng)遠(yuǎn)目標(biāo)）用參數(shù)驅(qū)動(dòng)合成研究?jī)?nèi)容研究?jī)?nèi)容（1）建立語(yǔ)音、唇型數(shù)據(jù)庫(kù)模態(tài)數(shù)據(jù)庫(kù)包括：音位、單音節(jié)（解決協(xié)同發(fā)音）的語(yǔ)音和視頻信號(hào)。1）文本設(shè)計(jì)：音位、單音節(jié)和雙音節(jié)文本設(shè)計(jì)。2）使用兩架攝像機(jī)進(jìn)行信號(hào)的同步采集，以保證人臉正面和側(cè)面信號(hào)被同時(shí)采集，最終獲得包含三種單位的語(yǔ)音和唇型參數(shù)數(shù)據(jù)庫(kù)。研究?jī)?nèi)容（2）建立信號(hào)處理平臺(tái) 生理信號(hào)的采集設(shè)備一般都不帶有分析功能，需要根據(jù)不同的信號(hào)類型編寫(xiě)各自的信號(hào)處理和分析程序，包括信號(hào)的讀取、剪切、保存、擬定參數(shù)的自動(dòng)提取、數(shù)據(jù)的自動(dòng)保存和統(tǒng)計(jì)分析等功能。該平臺(tái)主要完成內(nèi)外唇線及唇線參數(shù)的設(shè)定與自動(dòng)提取和批量分析等，主要包括以下功能： ①手動(dòng)框出包含唇的矩形區(qū)。 ②利用支持向量機(jī)對(duì)唇區(qū)域和非唇區(qū)域進(jìn)行分類。 ③對(duì)分類出的唇區(qū)域利用EILAN提出的唇邊緣檢測(cè)模型自動(dòng)標(biāo)記出唇邊緣，對(duì)自動(dòng)標(biāo)記錯(cuò)誤處具有手動(dòng)修改功能。研究?jī)?nèi)容（3）對(duì)語(yǔ)音、唇型的參數(shù)提取和數(shù)據(jù)分析根據(jù)不同的信號(hào)庫(kù)和研究目的，選擇適當(dāng)?shù)膮?shù)，設(shè)計(jì)提取算法，進(jìn)行數(shù)據(jù)分析建立統(tǒng)計(jì)模型，并進(jìn)行相關(guān)理論領(lǐng)域的探討。 ①語(yǔ)音主要的參數(shù)有：時(shí)長(zhǎng)、基頻(F0)、輔音強(qiáng)頻區(qū)、振幅、譜傾斜率、共振峰的音軌、輔音和元音之間共振鋒的過(guò)度段、VOT等等。在技術(shù)上，提取聲學(xué)參數(shù)是采用比較經(jīng)典和成熟的算法，共振峰和帶寬用基音同步協(xié)方差（co-variance）LPC提取,基頻用倒譜的方法提取。 ②唇型信號(hào)參數(shù)：內(nèi)外唇線、唇寬度、唇高度、唇突度等。唇線特征提取主要是對(duì)已經(jīng)提取的矩形區(qū)域進(jìn)行唇區(qū)域和非唇區(qū)域的分割，然后對(duì)唇區(qū)域用已有唇模型分別檢測(cè)出唇邊緣。（13個(gè)參數(shù)） ③總結(jié)語(yǔ)音學(xué)唇位，根據(jù)每一個(gè)音的唇型變化(根據(jù)關(guān)鍵點(diǎn)運(yùn)動(dòng)軌跡描述唇線的變化),基于統(tǒng)計(jì)學(xué)上的歸納和分類,建立唇形數(shù)據(jù)庫(kù)，從而得出唇位的類型。研究?jī)?nèi)容（4）建立語(yǔ)音驅(qū)動(dòng)的唇位模型根據(jù)統(tǒng)計(jì)數(shù)據(jù)建立語(yǔ)音和唇型之間的關(guān)聯(lián)模型，建立語(yǔ)音驅(qū)動(dòng)的唇位模型。首先對(duì)文本進(jìn)行國(guó)際音標(biāo)的轉(zhuǎn)換，使其成為音位序列，然后按音節(jié)為單位，聲韻母分別調(diào)用各自對(duì)應(yīng)的唇位圖像組進(jìn)行拼接，可用內(nèi)插法解決語(yǔ)音和唇位的時(shí)間對(duì)應(yīng)。對(duì)每一個(gè)視頻文件，使用非線性編輯器對(duì)采集的圖像進(jìn)行分幀（每秒24幀），對(duì)每一幀建立唇線自動(dòng)匹

人人文庫(kù)> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

唇形合成語(yǔ)音與唇形語(yǔ)音識(shí)別

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

唇形合成語(yǔ)音與唇形語(yǔ)音識(shí)別

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔