具有視覺(jué)跟蹤的中英文語(yǔ)音動(dòng)畫(huà)系統(tǒng)1.doc_第1頁(yè)
具有視覺(jué)跟蹤的中英文語(yǔ)音動(dòng)畫(huà)系統(tǒng)1.doc_第2頁(yè)
具有視覺(jué)跟蹤的中英文語(yǔ)音動(dòng)畫(huà)系統(tǒng)1.doc_第3頁(yè)
具有視覺(jué)跟蹤的中英文語(yǔ)音動(dòng)畫(huà)系統(tǒng)1.doc_第4頁(yè)
具有視覺(jué)跟蹤的中英文語(yǔ)音動(dòng)畫(huà)系統(tǒng)1.doc_第5頁(yè)
免費(fèi)預(yù)覽已結(jié)束,剩余1頁(yè)可下載查看

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

具有視覺(jué)跟蹤的中英文語(yǔ)音動(dòng)畫(huà)系統(tǒng)1呂玉生 寧波大學(xué)信息科學(xué)與工程學(xué)院,寧波 (315211) e-mail:11007118摘要:本文給出了一個(gè)具有視覺(jué)跟蹤的中英文語(yǔ)音動(dòng)畫(huà)系統(tǒng)的實(shí)現(xiàn)過(guò)程。該文介紹了該系 統(tǒng)的設(shè)計(jì)過(guò)程以及所需的技術(shù),包括可視音素、三維人頭模型的制作與顯示、語(yǔ)音與動(dòng)畫(huà)的同步、動(dòng)畫(huà)的平滑自然的過(guò)渡、眼睛的跟蹤與隨機(jī)眨眼、與外部程序接口的設(shè)計(jì)等。該語(yǔ)音動(dòng)畫(huà)系統(tǒng)具有人臉表情真實(shí)自然等特點(diǎn),在普通 pc 機(jī)上能夠產(chǎn)生高質(zhì)量的語(yǔ)音動(dòng)畫(huà)。關(guān)鍵詞:語(yǔ)音動(dòng)畫(huà) 可視語(yǔ)音合成 可視音素 人機(jī)交互 視覺(jué)跟蹤中圖分類(lèi)號(hào):tp391.411引言隨著多媒體技術(shù)的迅速發(fā)展,多種媒體之間的信息融合也日益受到人們的重視。人臉和 語(yǔ)音是人類(lèi)相互交流的兩種最重要的渠道,將人臉動(dòng)畫(huà)技術(shù)(facial animation)與語(yǔ)音處理 技術(shù)(speech processing)相結(jié)合、用計(jì)算機(jī)生成語(yǔ)音與口形同步動(dòng)畫(huà)的技術(shù),稱(chēng)作語(yǔ)音動(dòng) 畫(huà)技術(shù),也被稱(chēng)為“說(shuō)話(huà)的人頭”(talking head)。在人機(jī)交互等應(yīng)用環(huán)境中,如果人們面對(duì)的是這樣一個(gè)會(huì)說(shuō)話(huà)的人物形象,則會(huì)使計(jì)算 機(jī)界面更為友好,人機(jī)之間的交流更加自然。研究表明,在環(huán)境噪聲較大的情況下,如果在 給出聲音信息的同時(shí)能給出一個(gè)“說(shuō)話(huà)的人頭”,則可使信噪比提高約8-12db1。本文結(jié)合了幾款優(yōu)秀軟件的強(qiáng)大功能,開(kāi)發(fā)出了一款支持中英文語(yǔ)音的人臉動(dòng)畫(huà)系統(tǒng)。 該動(dòng)畫(huà)系統(tǒng)具有表情表現(xiàn)自然真實(shí)等特點(diǎn),并且為了方便后續(xù)程序開(kāi)發(fā)的工作,我們還設(shè)計(jì)了與外部程序交互的接口。2語(yǔ)音動(dòng)畫(huà)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)如圖 1 所示,整個(gè)系統(tǒng)的界面分為三個(gè)部分。左上部為三維人頭的顯示區(qū)域,可以對(duì)三 維人頭進(jìn)行旋轉(zhuǎn)、縮放等操作;左下部為文本輸入以及語(yǔ)音控制部分,可以選擇男女聲、調(diào) 節(jié)音量和語(yǔ)速等;右面部分為模型變形的控制部分,包括控制 7 種表情、15 種調(diào)節(jié)器和 16 種可視音素對(duì)應(yīng)模型的變形程度,并且可以通過(guò)組合產(chǎn)生出各種新的表情。1本課題得到國(guó)家科技部 973 重大基礎(chǔ)前期專(zhuān)項(xiàng)(2005cca04400)、國(guó)家自然科學(xué)基金項(xiàng)目(60672071)的資助 。-6-2.1 三維人頭模型的制作與顯示圖 1 系統(tǒng)界面在三維人頭模型的制作軟件中,facegen2是一款非常優(yōu)秀的制作參數(shù)化人頭的工具軟 件,操作簡(jiǎn)單,全部實(shí)時(shí)交互調(diào)節(jié),可調(diào)節(jié)的參數(shù)達(dá)上百個(gè),可對(duì)頭部 60 多個(gè)區(qū)域進(jìn)行調(diào) 節(jié)。調(diào)節(jié)內(nèi)容包括人種、性別、年齡等。此外,還可以調(diào)節(jié)幾十種表情和口型。(a)正面人頭照片(b)合成的三維人頭正面截圖圖 2 原圖與合成圖同時(shí),我們還可以通過(guò)提供一張正面人頭照片,讓 facegen 合成出非常逼真的三維人頭模型。如圖 2 所示,我們提供一張正面人頭照片,通過(guò) facegen,合成了一個(gè)逼真的三維人 頭模型。三維人頭模型制作完成以后,就可以導(dǎo)出為數(shù)種流行的 3d 文件格式,如 obj、3ds、vrml 等。因?yàn)?open inventor3(以下簡(jiǎn)稱(chēng) oiv)可以完美支持 vrml97 格式,所以我們導(dǎo)出包 括中性和其他所有目標(biāo)動(dòng)畫(huà)人臉模型在內(nèi)的 vrml97 文件。oiv 是目前世界上應(yīng)用最為廣泛的面向?qū)ο蠛徒换ナ降娜S圖形軟件開(kāi)發(fā)包。它是在opengl 的基本上開(kāi)發(fā)而成的,因而也是一種相對(duì)獨(dú)立的圖形系統(tǒng),并可方便地移植到不同操作系統(tǒng)的硬件平臺(tái)上。由于 oiv 在構(gòu)造復(fù)雜的三維場(chǎng)景時(shí)采用了“搭積木”的靈活方式, 這使得用戶(hù)只需花費(fèi)較少的時(shí)間就可構(gòu)造出復(fù)雜、優(yōu)美的三維場(chǎng)景。另外,oiv 還能夠完美 支持三維音效、三維紋理和多處理器的并行渲染技術(shù)。但是 vrml 與 oiv 在紋理處理方式上是有不同的4。對(duì)于 rgb 和 argb 構(gòu)成的紋理 文件,在 vrml 中直接用紋理的顏色替換物體的顏色。這樣,要想得到我們想要的在眼球 上有一個(gè)高光反射的亮點(diǎn)的效果就變得非常麻煩。眼睛是心靈的窗口,如果在模型的顯示中 , 眼球上有一個(gè)高光反射的亮點(diǎn),那么必然會(huì)使顯示效果看起來(lái)更加逼真生動(dòng)。相反,使用 ovi 的相應(yīng)節(jié)點(diǎn)可以相對(duì)容易的做到這樣的效果。我們使用 oiv 3d 開(kāi)發(fā)包讀取 vrml 人 臉模型文件,并把 vrml 節(jié)點(diǎn)轉(zhuǎn)化為 oiv 相應(yīng)的節(jié)點(diǎn),再重新調(diào)節(jié)材質(zhì)、光線(xiàn)和攝像機(jī)等 節(jié)點(diǎn)的參數(shù),顯示出了具有較高真實(shí)感的效果。圖 3(b)的效果明顯要比圖 3(a)的效果要好的 多。2.2 可視音素(a)使用 vrml 節(jié)點(diǎn)(b)轉(zhuǎn)化成 ovi 的節(jié)點(diǎn)圖 3 眼球上的高光反射microsoft 公司的 sapi 5.15是微軟 windows 環(huán)境下的語(yǔ)音開(kāi)發(fā)工具包,提供了包括中 英文在內(nèi)的數(shù)種語(yǔ)音開(kāi)發(fā)的接口,使語(yǔ)音系統(tǒng)的開(kāi)發(fā)變得非常方便。但是使用它本身提供的 幾種語(yǔ)音包合成的語(yǔ)音,聽(tīng)起來(lái)不夠自然,而且沒(méi)有定義中文的可視音素,不能直接得到中 文可視音素及其持續(xù)時(shí)間。文獻(xiàn)6中給出了中文可視音素的獲取和估計(jì)其持續(xù)時(shí)間的方法。 neospeech7是當(dāng)前最好的語(yǔ)音合成軟件之一,它的效果幾乎可以亂真。neospeech 提供了 中英日韓四種語(yǔ)音包,并且實(shí)現(xiàn)了 sapi 語(yǔ)音接口,以統(tǒng)一的方式提供了這四種語(yǔ)言的可視 音素。這種就可以使用 sapi 調(diào)用 neospeech,合成出高質(zhì)量的語(yǔ)音。facegen 提供 16 種可視音素,而 sapi 5.1 定義了 22 種可視音素。經(jīng)過(guò)反復(fù)試驗(yàn)后, 我們定義了它們之間的對(duì)應(yīng)關(guān)系。有了可視音素以及表情等模型,下面要做的就是怎么樣讓這些模型與語(yǔ)音同步并且平滑 地動(dòng)起來(lái)。(a) aa (b) d,s,t圖 4 可視音素 aa 和 d,s,t2.3 語(yǔ)音與動(dòng)畫(huà)的同步、動(dòng)畫(huà)的平滑自然的過(guò)渡在人說(shuō)話(huà)的時(shí)候,一個(gè)口型到另一個(gè)口型的轉(zhuǎn)化是平滑的。所以我們要想得到比較自然 的過(guò)渡效果,那么在前一個(gè)可視音素對(duì)應(yīng)的口型與下一個(gè)可視音素對(duì)應(yīng)的口型過(guò)渡的時(shí)候, 必須產(chǎn)生幾幀中間的口形動(dòng)畫(huà)。我們?cè)诋惒椒绞较抡{(diào)用 sapi 的 speak 函數(shù)朗讀文本,然后處理 spei_tts_viseme 事 件,得到可視音素及其相應(yīng)的持續(xù)時(shí)間。接著進(jìn)行可視音素的過(guò)渡,得到與輸出語(yǔ)音對(duì)應(yīng)的 同步的人臉動(dòng)畫(huà),進(jìn)而生成語(yǔ)音動(dòng)畫(huà)。我們對(duì)此的處理過(guò)程如下:(1) 在異步方式下調(diào)用 sapi 的 speak 函數(shù)朗讀輸入的文本;(2) 處理 spei_tts_viseme 事件,得到可視音素及其持續(xù)時(shí)間;(3) 計(jì)算從前一個(gè)可視音素對(duì)應(yīng)的人臉動(dòng)畫(huà)到當(dāng)前得到的可視音素對(duì)應(yīng)的目標(biāo)人臉動(dòng) 畫(huà)平滑過(guò)渡所需要的幀數(shù)。幀數(shù)可視音素的持續(xù)時(shí)間(毫秒)/30;持續(xù)時(shí)間長(zhǎng)的可視音素將 對(duì)應(yīng)較多的幀數(shù)。將可視音素的編號(hào)與計(jì)算出的幀數(shù)放入一個(gè)可視音素隊(duì)列中;(4) 在一個(gè)每秒鐘響應(yīng) 30 次的定時(shí)器響應(yīng)函數(shù)中讀取這個(gè)可視音素隊(duì)列,根據(jù)過(guò)渡所 需要的幀數(shù)在前一可視音素與讀取的可視音素對(duì)應(yīng)的人臉動(dòng)畫(huà)之間進(jìn)行線(xiàn)性插值,顯示出多 幀平滑的過(guò)渡動(dòng)畫(huà)。2.4 眼睛的跟蹤與隨機(jī)眨動(dòng)在人與人的自然交互中,在說(shuō)話(huà)的同時(shí),一般眼睛都會(huì)盯著對(duì)方,并且伴隨著隨機(jī)性的 眨眼動(dòng)作。同樣,在具有逼真效果的人臉語(yǔ)音動(dòng)畫(huà)系統(tǒng)中,眼睛的跟蹤與隨機(jī)眨動(dòng)也是非常 必要的。我們使用 camshift8,9方法對(duì)視頻中的人臉進(jìn)行檢測(cè),根據(jù)檢測(cè)結(jié)果設(shè)定虛擬人 的眼球轉(zhuǎn)動(dòng)的方向與程度,即實(shí)現(xiàn)三維虛擬人 “盯著人看”的效果。 camshift 是 “continuously adaptive mean-shift”的簡(jiǎn)稱(chēng),意為連續(xù)自適應(yīng)均值移動(dòng)算法。它是一種實(shí) 時(shí)性和魯棒性良好的跟蹤算法,能夠根據(jù)前一幀圖像中目標(biāo)物的顏色分布自動(dòng)調(diào)整搜索窗口 的大小,在下一幀中找到目標(biāo)物體所在區(qū)域的中心及目標(biāo)物的大小。對(duì)于每一幀視頻圖像, 它首先根據(jù)目標(biāo)物的顏色直方圖模型將圖像轉(zhuǎn)化為顏色概率分布圖。對(duì)于人臉跟蹤來(lái)說(shuō),就 是根 據(jù)人臉的膚色信息建立顏色 直方 圖,然后在轉(zhuǎn)化后的顏色概率分布圖中利用 camshift 算法找到人臉的中心和大小。重復(fù)這個(gè)過(guò)程就實(shí)現(xiàn)了對(duì)人臉的連續(xù)跟蹤了。圖 5 顯示眼睛的跟蹤效果。(a)、(b)、(c)為 camshift 對(duì)攝像頭前人臉的跟蹤效果,(b)、(d)、 (f)為相應(yīng)的眼睛跟蹤結(jié)果。我們?cè)O(shè)定一個(gè)時(shí)間值,讓虛擬人的眼睛在這個(gè)值附近隨機(jī)眨動(dòng)。這就為用戶(hù)提供了一個(gè)生動(dòng)有趣的交互環(huán)境,使虛擬人顯得活靈活現(xiàn),更加逼真生動(dòng)。而且,加入了視覺(jué)跟蹤以后,以后我們可以根據(jù)不同的情境來(lái)產(chǎn)生不同的表情。(a)(b)(c)(d)2.5 提供給外部程序的接口(e)(f)圖 5 視覺(jué)跟蹤為了方便后續(xù)程序開(kāi)發(fā)的工作,我們?cè)O(shè)計(jì)了與外部程序交互的接口。我們通過(guò) wm_copydata10消息來(lái)在外部程序與本系統(tǒng)之間傳送數(shù)據(jù)。外部程序只需先找到本系統(tǒng) 的窗口句柄,然后向這個(gè)窗口句柄發(fā)送事先設(shè)計(jì)好的格式的數(shù)據(jù)即可。本系統(tǒng)一旦接收到 wm_copydata 消息,先對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證,然后再讓模型產(chǎn)生相應(yīng)的變形,顯示相應(yīng)的效 果。3總結(jié)目前已有很多產(chǎn)生具有真實(shí)感的三維人臉模型和人臉動(dòng)畫(huà)的方法,但是在具有高真實(shí)感 模型的制作、人臉動(dòng)畫(huà)與語(yǔ)音同步等方面都還不夠理想。我們采用 facegen 定制出高度真實(shí) 感的人臉模型,并導(dǎo)出成 vrml 這種通用的 3d 文件格式。oiv 能夠完美支持 vrml97 和 多處理器的并行渲染技術(shù)。得到模型后,我們使用 oiv 3d 開(kāi)發(fā)包讀取人臉模型,并把 vrml 節(jié)點(diǎn)轉(zhuǎn)化為 oiv 相應(yīng)的節(jié)點(diǎn),再重新設(shè)置材質(zhì)、光線(xiàn)和攝像機(jī)等參數(shù),顯示出了具有較高 真實(shí)感的效果。在人臉動(dòng)畫(huà)與語(yǔ)音同步方面,我們采用線(xiàn)性插值方法。在當(dāng)前表情與目標(biāo)表情的模型之 間進(jìn)行插值,得到的結(jié)果更新當(dāng)前表情模型;由 sapi 5.1 產(chǎn)生的、與目標(biāo)表情模型對(duì)應(yīng)的 可視音素以及這個(gè)可視音素的持續(xù)時(shí)間,計(jì)算出這個(gè)可視音素需要的幀數(shù),生成平滑過(guò)度的與中英文語(yǔ)音同步的人臉動(dòng)畫(huà)。為了方便后續(xù)的開(kāi)發(fā)工作,我們還設(shè)計(jì)了一個(gè)與外部程序交互的接口。 最終我們實(shí)現(xiàn)了一個(gè)比較令人滿(mǎn)意的人臉語(yǔ)音動(dòng)畫(huà)系統(tǒng)。參考文獻(xiàn)1 王志明, 蔡蓮紅, 吳志勇, 陶建華漢語(yǔ)文本-可視語(yǔ)音轉(zhuǎn)換的研究j小型微型計(jì)算機(jī)系統(tǒng), 2002(04):9194.2 /modeller31_help.htmeb/ol.3 閻鋒欣,侯增選,張定華等.open inventor 程序設(shè)計(jì)從入門(mén)到精通m.北京:清華大學(xué)出版社,2007.4 open inventor 6.0 for vc+ .net 2003. users guideeb/ dk.5 ruibird.windows 語(yǔ)音編程初步eb/ol. /ruibird/archive/2007/04/05/1552380.aspx.6 王洵, 張道義, 董蘭芳, 萬(wàn)壽紅.一個(gè)基于 sapi5.0 的中文語(yǔ)音動(dòng)畫(huà)系統(tǒng)j.計(jì)算機(jī)工程, 2003(04): 5254, 57.7 eb/ol.8 bradski g r. computer vision face tracking for use in a perceptual user interfacej. intel technology journal,1998, 2: 214 219.9 eb/ol.10 明日科技. visual c+ 開(kāi)發(fā)經(jīng)驗(yàn)技巧寶典m.北京:人民郵電出版社,2007.a chinese and english speech animation system with visualtrackinglv yushenginstitute of computer science & technology, ningbo university, ningbo zhejiang(315211)abstractthe article gives a chinese and english speech animation system with visual tracking. this paper describes the systems design process and the necessary technology, including viseme, production and display of the three-dimensional heads model , voice and animation simultaneously, smooth natural transition of the animation, the eyes tracking and random blink, and the program interfaces design with the outside program. the systems facia

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論