版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
基于AI的虛擬主播設(shè)計(jì)第四章技術(shù)介紹多模態(tài)融合NLP與語音合成三維重建目錄/說課流程TeachingProcess一二三三維重建一4.1.1什么是三維重建ABCD三維重建三維重建是在計(jì)算機(jī)中為三維物體創(chuàng)建可進(jìn)行表示和分析的數(shù)學(xué)模型。三維重建技術(shù)是通過三維物體的展開處理過程分析其性質(zhì)的基礎(chǔ)技術(shù),也是是利用計(jì)算機(jī)對(duì)客觀世界虛擬現(xiàn)實(shí)表現(xiàn)的關(guān)鍵技術(shù)。三維重建技術(shù)在計(jì)算機(jī)視覺中,根據(jù)單視圖或者多視圖的物體圖像進(jìn)行三維物體信息重建的過程被稱為三維重建技術(shù)。構(gòu)建模型有兩類方法實(shí)現(xiàn)物體的三維模型構(gòu)建:一類是通過幾何建模軟件(Maya、3DMAX等),采用人機(jī)交互的方式構(gòu)建可控的三維模型。構(gòu)建模型第二類是通過借助技術(shù)手段來獲取物體的幾何形狀,并在計(jì)算機(jī)中實(shí)現(xiàn)物體的三維模型構(gòu)建。4.1.1什么是三維重建三維重建的一般步驟第二類方法是物體的三維重建過程,是將二維投影與計(jì)算機(jī)技術(shù)結(jié)合,恢復(fù)三維物體的特征數(shù)據(jù)與形式狀態(tài)的數(shù)學(xué)建模過程。010203圖像獲取攝像機(jī)標(biāo)定特征提取特征匹配三維重建
根據(jù)點(diǎn)云模型構(gòu)建可視曲面,最終完成三維模型的建立。4.1.2三維人臉重建技術(shù)的發(fā)展歷程01020304基于參數(shù)控制方式的三維人臉模型出現(xiàn)。1972年,Parke首次提出了利用三維頂點(diǎn)定義的多邊形實(shí)現(xiàn)對(duì)人臉的三維重建,構(gòu)建了全球第一個(gè)人臉模型。1993年,T.Akimot等研究學(xué)者提出通過人臉面部重要的特征點(diǎn)(如眼睛、鼻子、嘴巴等)及對(duì)應(yīng)關(guān)系進(jìn)行三維人臉面部模型的構(gòu)建,以此實(shí)現(xiàn)特定的三維人臉模型重建。研究者們通過采用基于人臉面部圖像的方式進(jìn)行三維人臉重建的研究,其中以單張二維人臉圖像進(jìn)行三維人臉模型的構(gòu)建方式最為熱門。20世紀(jì)70年代20世紀(jì)80年代20世紀(jì)90年代20世紀(jì)90年代1981年,Badler實(shí)現(xiàn)了基于面部肌肉的三維人臉模型的構(gòu)建,使模型表現(xiàn)出豐富的人臉面部特征。1987年,Waters建立基于偽肌肉的三維人臉面部模型,實(shí)現(xiàn)人臉面部的各種表情生成。4.1.2三維人臉重建技術(shù)的發(fā)展歷程2001年基于視頻的三維人臉重建系統(tǒng)單張二維人臉圖像正側(cè)面照片相結(jié)合三維人臉形變模型網(wǎng)格形變結(jié)合視覺技術(shù)ASM優(yōu)化算法基于PDE形變模型的三維人臉模型重建算法2006年2008年2009年2012年2013年2015年4.1.3三維人臉重建技術(shù)的應(yīng)用
美國科幻大片《阿麗塔:戰(zhàn)斗天使》該影片采用三維人臉重建技術(shù),在虛擬世界中創(chuàng)建了大量形態(tài)各異、流暢真實(shí)的虛擬角色,且影片中對(duì)人物的特效制作精確到了每一個(gè)表情細(xì)節(jié),
阿麗塔角色模型制作阿麗塔的面部造型經(jīng)歷了超過50次的迭代重建,單是五官各部位的組合就已有200種設(shè)計(jì),配合最先進(jìn)的光照引擎、人體物理動(dòng)作引擎、皮膚紋理渲染引擎的使用,生成人物的真實(shí)感爆棚,4.1.3三維人臉重建技術(shù)的應(yīng)用iPhoneX采用了基于三維重建的面部識(shí)別技術(shù),即FaceID,也就是3D人臉識(shí)別技術(shù)。FaceID優(yōu)勢精確度高環(huán)境適應(yīng)性強(qiáng)防偽穩(wěn)定性高實(shí)用性強(qiáng)蘋果的FaceID采用可投射30000個(gè)光點(diǎn)的點(diǎn)陣投影儀和紅外攝像頭形成的3D結(jié)構(gòu)光深度攝像頭感知用戶面部特征。通過采集所得到的三維人臉特征數(shù)據(jù)為手機(jī)持有者建立專屬的三維人臉模型,并將該模型存儲(chǔ)于手機(jī)中,此后每一次人臉識(shí)別都會(huì)與該模型進(jìn)行比較,當(dāng)面部重合度達(dá)到規(guī)定的閾值時(shí)就會(huì)返回人臉識(shí)別正確的指令,完成高精度的3D人臉識(shí)別任務(wù)。4.1.3三維人臉重建技術(shù)的應(yīng)用《阿凡達(dá)》3D電影保羅的“復(fù)活”《速度與
激情7》CG技術(shù)和影視制作互相促進(jìn)、相輔相成。不僅是三維人臉重建技術(shù),整個(gè)計(jì)算機(jī)圖形學(xué)三維重建技術(shù)都在該領(lǐng)域得到了充分的應(yīng)用。保羅的“復(fù)活”應(yīng)用了大量的三維人臉重建算法。通過對(duì)保羅現(xiàn)有的影像資料進(jìn)行人臉圖像以及面部表情數(shù)據(jù)的采集,從而重建保羅3D人臉模型。在替身演員面部進(jìn)行特征點(diǎn)標(biāo)記,利用人臉對(duì)齊算法實(shí)現(xiàn)替身演員面部動(dòng)作與保羅3D人臉模型的一致,生成動(dòng)態(tài)影像作品。影視制作領(lǐng)域4.1.3三維人臉重建技術(shù)的應(yīng)用游戲開發(fā)領(lǐng)域蘋果Animoji動(dòng)話表情隨著計(jì)算機(jī)應(yīng)用技術(shù)的迅速發(fā)展以及變革,AR與VR的出現(xiàn),打破了虛擬與現(xiàn)實(shí)的界限,為人們帶來與世界全新的連接方式和革命性的沉浸式體驗(yàn)。通過三維人臉重建技術(shù)的運(yùn)用,玩家可在游戲中創(chuàng)建極具真實(shí)感和個(gè)性化的人物角色,也可以根據(jù)圖像采集獲取的信息,進(jìn)行個(gè)性化玩家角色定制,創(chuàng)建3D頭像、3D表情等,使玩家如同身臨其境,以獲得更好的游戲體驗(yàn)。4.1.3三維人臉重建技術(shù)的應(yīng)用公共安全領(lǐng)域人臉的唯一性,成就了3D人臉識(shí)別技術(shù)作為身份認(rèn)證的方式。3D人臉識(shí)別可應(yīng)用于教育、醫(yī)療、司法、金融等多個(gè)領(lǐng)域。例如,使用已構(gòu)建的三維人臉模型進(jìn)行3D人臉比對(duì),從而進(jìn)行門禁解鎖;在3D人臉識(shí)別的金融終端辦理個(gè)人業(yè)務(wù);三維人臉識(shí)別技術(shù)與天眼系統(tǒng)的結(jié)合可進(jìn)行監(jiān)控交通違法行為或者是追捕罪犯;在考場中對(duì)考生進(jìn)行人臉生物特征識(shí)別,防止替考等違法行為的出現(xiàn)??的螤柎髮W(xué)Ferrari團(tuán)隊(duì)研究4.1.3三維人臉重建技術(shù)的應(yīng)用醫(yī)療美容領(lǐng)域大族三維官方網(wǎng)站通過三維人臉重建技術(shù)對(duì)患者進(jìn)行建模,能夠使用極具真實(shí)感的三維模型對(duì)病情進(jìn)行可視化分析,精準(zhǔn)地找到病因所在。通過虛擬現(xiàn)實(shí)技術(shù)對(duì)建立的三維面部模型進(jìn)行手術(shù)練習(xí),提升手術(shù)操作的熟練度,降低手術(shù)風(fēng)險(xiǎn),提高疾病的治愈率。美容方面,對(duì)客戶的人臉進(jìn)行三維重建后,在3D模型上進(jìn)行面部微調(diào),以便為客戶制定更好的美容方案,客戶也將更直觀地去預(yù)覽手術(shù)完成的效果。NLP與語音合成二4.2.1NLP——自然語音處理技術(shù)1.NLP技術(shù)簡述
自然語音處理(NLP)是一種使用自然語言構(gòu)建人與機(jī)器間溝通橋梁的技術(shù)理論與研究方法。
簡單來說,NLP可以讓人機(jī)交互中的機(jī)器理解自然語言,并對(duì)交互過程中的相應(yīng)信息做出判斷和回復(fù),這一技術(shù)的出現(xiàn)解決了人工智能在性能完整度中的智能認(rèn)知問題。4.2.1NLP——自然語音處理技術(shù)2.NLP技術(shù)的發(fā)展歷程萌芽階段快速發(fā)展時(shí)期寒冬時(shí)期20世紀(jì)60年代,計(jì)算機(jī)科學(xué)之父阿蘭·圖靈發(fā)表的《機(jī)器能思考嗎》這篇?jiǎng)潟r(shí)代論文進(jìn)一步激發(fā)人工智能思潮的出現(xiàn),促進(jìn)自然語言處理技術(shù)的發(fā)展。隨著深入研究,新問題不斷涌現(xiàn),學(xué)者們意識(shí)到無法在短時(shí)間內(nèi)對(duì)自然語言處理的應(yīng)用進(jìn)行開發(fā),逐漸失去研究信心。在此期間,隱馬爾可夫模型的統(tǒng)計(jì)方法在語音識(shí)別領(lǐng)域獲得成功?;诮y(tǒng)計(jì)學(xué)與神經(jīng)網(wǎng)絡(luò)的研究促使自然語言技術(shù)走出寒冬期,并在之后的研究發(fā)展中占據(jù)主流位置。自然語言處理技術(shù)融入了人工智能之中,并出現(xiàn)了基于規(guī)則方法的符號(hào)派和使用概率方法的隨機(jī)派兩個(gè)派系。此階段實(shí)現(xiàn)了人機(jī)簡單交互。復(fù)蘇新發(fā)展時(shí)期1980年,第一屆機(jī)器學(xué)習(xí)國際研討會(huì)在美國卡內(nèi)基梅隆大學(xué)召開,標(biāo)志機(jī)器學(xué)習(xí)研究將在世界范圍內(nèi)重新興起,自然語言處理技術(shù)也正式回歸。4.2.1NLP——自然語音處理技術(shù)3.NLP技術(shù)的領(lǐng)域應(yīng)用AI皇冠上的明珠醫(yī)療領(lǐng)域傳統(tǒng)紙質(zhì)病歷的電子化,高效管理病患信息。網(wǎng)絡(luò)信息領(lǐng)域垃圾郵件的自動(dòng)信息識(shí)別,垃圾郵件的自動(dòng)篩選過濾。商業(yè)服務(wù)領(lǐng)域?qū)υ挋C(jī)器人和智能客服,提供快速且智能回復(fù)方式。軍警領(lǐng)域警情分析,軍事情報(bào)處理。4.2.1NLP——自然語音處理技術(shù)3.NLP技術(shù)的領(lǐng)域應(yīng)用01美國教育科技公司推出的AI聊天機(jī)器人——Let'sTalk!助理
應(yīng)用自然語言處理、機(jī)器學(xué)習(xí)等技術(shù),結(jié)合相關(guān)算法進(jìn)行開發(fā),它可以理解以英文提交的相關(guān)問題,家長和學(xué)生也可以通過它隨時(shí)查詢學(xué)?;顒?dòng)以及對(duì)學(xué)校管理提出相關(guān)意見。
例如用餐時(shí)間,學(xué)校政策查詢等。Let’sTalk助理在投入使用后的30天內(nèi),回答200多個(gè)用戶提出的400多個(gè)問題,平均用戶滿意度得分為9.6(滿分為10)。4.2.2TTS——語音合成技術(shù)1.TTS技術(shù)簡述
語音合成技術(shù)(TTS)是實(shí)現(xiàn)文本到語音轉(zhuǎn)化的智能語音交互技術(shù),將輸入的文本智能轉(zhuǎn)化為自然語音流暢輸出,目的就是使機(jī)器可以模仿人的說話方式和停頓習(xí)慣,實(shí)現(xiàn)機(jī)器發(fā)聲。
根據(jù)人類講話過程中所用語言功能,由淺入深對(duì)語音合成技術(shù)進(jìn)行分類,可分為三個(gè)層次:從文字到語音、從概念到語音、從意向到語音。這三個(gè)層次體現(xiàn)了大腦生成語音的不同形成過程,這些過程涉及大腦的高級(jí)神經(jīng)活動(dòng)。目前,語音合成技術(shù)的研究主要還是集中在從文本到語音這一層次。4.2.2TTS——語音合成技術(shù)1.TTS技術(shù)簡述
從語音合成系統(tǒng)的流程圖中看出,在文本信息轉(zhuǎn)化為語音的過程中,主要分為語音處理和語音合成兩部分。語音處理其實(shí)就是在語言層面進(jìn)行文本分析,將輸入的文本通過詞典進(jìn)行文本分詞,文本-語音規(guī)則轉(zhuǎn)化為語音層次的表現(xiàn)特征,也就是字音轉(zhuǎn)換,實(shí)現(xiàn)文字序列到音韻序列的轉(zhuǎn)化;再結(jié)合語音庫,通過語音合成器生成語音波形,語音合成有多種形式,使用參數(shù)合成器,或是將自然語言與算法結(jié)合以波形拼接的方式實(shí)現(xiàn),最終通過TTS技術(shù)的使用,可以獲取一個(gè)流暢且真實(shí)的語音輸出。
4.2.2TTS——語音合成技術(shù)2.TTS技術(shù)的發(fā)展歷程通過機(jī)械裝置模擬人類的聲音,利用所制作的精巧氣囊和風(fēng)箱搭建發(fā)聲系統(tǒng),合成簡單的元音與單音。語音合成技術(shù)進(jìn)入電子合成器語音合成階段。貝爾實(shí)驗(yàn)室的Dudley推出一款名為“VODER”的電子合成器,利用電子器件實(shí)現(xiàn)聲音諧振的模擬。以集成電路技術(shù)的發(fā)展為基礎(chǔ),出現(xiàn)了較為復(fù)雜的組合型電子合成器——共振峰合成器。隨著計(jì)算機(jī)存儲(chǔ)能力的發(fā)展及POSLA方法的提出,單元挑選和波形拼接技術(shù)走向成熟,進(jìn)入拼接式語音合成階段。AI技術(shù)不斷發(fā)展,基于深度學(xué)習(xí)的語音合成技術(shù)進(jìn)入人們的視野,取得一定的科研成果。18、19世紀(jì)20世紀(jì)初20世紀(jì)70、80年代20世紀(jì)90年代21世紀(jì)至今4.2.2TTS——語音合成技術(shù)3.TTS技術(shù)的領(lǐng)域應(yīng)用更真實(shí)更清晰高質(zhì)量跨國交流領(lǐng)域語音合成技術(shù)結(jié)合翻譯系統(tǒng),為不同國籍、不同語言的人們打破語言交流限制智能家居領(lǐng)域語音合成技術(shù)為居家機(jī)器人提供了表達(dá)的方式幫助弱勢群體語音技術(shù)也幫助失語癥患者與其他人更流暢、無障礙的交流智能客服領(lǐng)域語音識(shí)別技術(shù)與自然語言處理技術(shù)的融合,智能應(yīng)答提供了自然流暢的交流過程。4.2.2TTS——語音合成技術(shù)3.TTS技術(shù)的領(lǐng)域應(yīng)用02準(zhǔn)兒翻譯機(jī)4.2.3唇形動(dòng)畫驅(qū)動(dòng)技術(shù)1.唇形動(dòng)畫驅(qū)動(dòng)技術(shù)簡述
隨著人工智能的發(fā)展,人們對(duì)人機(jī)交互的期待逐漸提高,真實(shí)地再現(xiàn)人類語言交流時(shí)的唇形動(dòng)畫,以增強(qiáng)人機(jī)交互的自然度。
相較從單純的聲音輸出中獲取的信息量,唇形動(dòng)畫作為人類發(fā)聲的理解源與視覺源,使得說話人所表達(dá)語音信息更加完整,進(jìn)而提高語音交流中的信息獲取量,使人們可以更好地感知語音。唇形動(dòng)畫驅(qū)動(dòng)技術(shù)成為人機(jī)交互領(lǐng)域中的一個(gè)重要研究課題。4.2.3唇形動(dòng)畫驅(qū)動(dòng)技術(shù)2.唇形動(dòng)畫驅(qū)動(dòng)方式模擬人類說話過程中復(fù)雜的唇形運(yùn)動(dòng)細(xì)節(jié)123必須具備兩方面因素一是精準(zhǔn)的動(dòng)畫控制,使用數(shù)據(jù)驅(qū)動(dòng)人臉唇部區(qū)域網(wǎng)格的運(yùn)動(dòng)必須具備兩方面因素二是提升動(dòng)畫控制技術(shù)的水平實(shí)現(xiàn)方式有三種數(shù)據(jù)驅(qū)動(dòng)作為唇形動(dòng)畫驅(qū)動(dòng)技術(shù)的關(guān)鍵所在。實(shí)現(xiàn)方式有三種:文本驅(qū)動(dòng)、語音驅(qū)動(dòng)和視頻驅(qū)動(dòng)。4.2.3唇形動(dòng)畫驅(qū)動(dòng)技術(shù)2.唇形動(dòng)畫驅(qū)動(dòng)方式
第一種方式是將輸入信息進(jìn)行文本分析,并從中提取文本的音素信息與漢語發(fā)音的時(shí)間信息;利用語音合成技術(shù)將輸入的文字信息轉(zhuǎn)換為音頻數(shù)據(jù);根據(jù)文本中所提取的音素信息匹配相應(yīng)的視位,結(jié)合漢語言發(fā)音的時(shí)間信息,將視位信息進(jìn)行排列組合得到視位序列,視位序列與人臉模型融合實(shí)現(xiàn)基于文本驅(qū)動(dòng)的唇形動(dòng)畫的生成;最后將唇形動(dòng)畫與文本轉(zhuǎn)化的語音同步結(jié)合,實(shí)現(xiàn)可視化語音生成。(一)基于文本驅(qū)動(dòng)方式的唇形動(dòng)畫生成4.2.3唇形動(dòng)畫驅(qū)動(dòng)技術(shù)2.唇形動(dòng)畫驅(qū)動(dòng)方式
第二種方法是將輸入的文本通過TTS引擎實(shí)現(xiàn)文本到語音的轉(zhuǎn)化,TTS引擎的使用不僅縮短了人臉動(dòng)畫系統(tǒng)的開發(fā)時(shí)間,而且語音生成效果非常理想。對(duì)轉(zhuǎn)化后的語音進(jìn)行特征參數(shù)提取,確定每個(gè)音素發(fā)音時(shí)的唇形以及發(fā)音時(shí)長,并從各音素與視位映射關(guān)系中抽取出其相應(yīng)的表示基本唇形的關(guān)鍵幀,將關(guān)鍵幀合并后進(jìn)行平滑處理,實(shí)現(xiàn)基于文本驅(qū)動(dòng)的可視化唇形動(dòng)畫輸出。(一)基于文本驅(qū)動(dòng)方式的唇形動(dòng)畫生成4.2.3唇形動(dòng)畫驅(qū)動(dòng)技術(shù)2.唇形動(dòng)畫驅(qū)動(dòng)方式
基于語音驅(qū)動(dòng)方式的唇形動(dòng)畫生成步驟:首先將語音信號(hào)轉(zhuǎn)化為可視化參數(shù)進(jìn)行輸出,以此驅(qū)動(dòng)唇形運(yùn)動(dòng),最終實(shí)現(xiàn)唇形動(dòng)畫的生成。該方式將語音與唇形動(dòng)畫相結(jié)合,既保證了動(dòng)畫生成的實(shí)時(shí)性,又使語音與唇形運(yùn)動(dòng)處于同步狀態(tài)。
實(shí)現(xiàn)步驟為:首先將語音作為原始驅(qū)動(dòng)源輸入,提取語音特征參數(shù);之后對(duì)語音特征參數(shù)進(jìn)行基本唇形的關(guān)鍵幀映射,建立語音幀與唇形類別的映射關(guān)系,并按照相應(yīng)的幀速率組合生成關(guān)鍵幀序列;最后對(duì)該唇形關(guān)鍵幀進(jìn)行平滑處理,結(jié)合語音,生成更具真實(shí)感的唇形動(dòng)畫。(二)基于語音驅(qū)動(dòng)方式的唇形動(dòng)畫生成4.2.3唇形動(dòng)畫驅(qū)動(dòng)技術(shù)2.唇形動(dòng)畫驅(qū)動(dòng)方式
基于視頻驅(qū)動(dòng)方式的唇形動(dòng)畫生成需要實(shí)時(shí)采集視頻中的唇形特征點(diǎn),使用采集到的唇形特征點(diǎn)驅(qū)動(dòng)唇形變化,以實(shí)現(xiàn)唇形動(dòng)畫的生成。
該方式的重難點(diǎn)是對(duì)視頻中的動(dòng)態(tài)人臉進(jìn)行特征點(diǎn)提取,目前被廣泛應(yīng)用的是結(jié)合主動(dòng)輪廓模型與主動(dòng)形狀模型的技術(shù)方法。
基本思想是:使用ASM算法檢測視頻中說話人的面部信息,并對(duì)人臉面部唇形特征點(diǎn)的進(jìn)行跟蹤并提?。唤馕鏊@取的唇部特征信息,并在三維人臉模型中進(jìn)行標(biāo)定;標(biāo)定特征點(diǎn)的人臉模型通過采集的數(shù)據(jù)驅(qū)動(dòng)唇部運(yùn)動(dòng),使三維人臉網(wǎng)格模型發(fā)生形變,實(shí)現(xiàn)唇形動(dòng)畫的生成。(三)基于視頻驅(qū)動(dòng)方式的唇形動(dòng)畫生成4.2.3唇形動(dòng)畫驅(qū)動(dòng)技術(shù)3.唇形動(dòng)畫驅(qū)動(dòng)技術(shù)的領(lǐng)域應(yīng)用合成后的虛擬畫面,可以篡改說話內(nèi)容,給對(duì)方的接收系統(tǒng)發(fā)送模擬的多媒體信息??蓱?yīng)用于刑偵破案、國防安全、信息安全等重大安全領(lǐng)域。重大安全領(lǐng)域虛擬人物發(fā)音結(jié)合唇形的運(yùn)動(dòng)變化,可以極大地提高聽障群體對(duì)聲音信息的理解能力,為他們?cè)谌粘I钪械男畔@取提供一定的幫助。聽障群體輔助領(lǐng)域真實(shí)感建模與自然化唇形動(dòng)畫結(jié)合,真實(shí)再現(xiàn)新聞主播播報(bào)場景。進(jìn)行全天24小時(shí)無間歇、無差錯(cuò)新聞播報(bào),為觀眾提供即時(shí)、快捷的新聞資訊。虛擬主播領(lǐng)域聽到聲音的同時(shí),唇形動(dòng)畫作為人類視覺信號(hào)進(jìn)行輸入,豐富和完善語音信息。這一技術(shù)的出現(xiàn),讓自然化的人機(jī)交互成為可能。廣泛前景4.2.4人臉表情合成技術(shù)1.人臉表情合成技術(shù)簡述1989年,美國社會(huì)語言學(xué)家AlbertMehrabian提出一個(gè)著名的溝通定律——“55387”定律,該定律認(rèn)為在表達(dá)語言信息的過程中,55%來自于說話人的表情動(dòng)作,38%來自于語言表述,7%來自于文本內(nèi)容。
在人類使用語言進(jìn)行溝通交流中,表情動(dòng)作起著非常關(guān)鍵的作用,面部表情在人際交往中有著無可替代的地位和作用,通過人臉表情合成技術(shù)實(shí)現(xiàn)富有表情的人臉語音動(dòng)畫,人機(jī)系統(tǒng)更具交互性。4.2.4人臉表情合成技術(shù)2.人臉表情合成技術(shù)方式介紹面部參數(shù)控制方式關(guān)鍵幀插值方式人臉表情捕捉方式011988年,國際標(biāo)準(zhǔn)化組織提出MEPG-4標(biāo)準(zhǔn),定義了面部定義參數(shù)(FDP)與面部動(dòng)畫參數(shù)(FAP)?;贛PGE-4的人臉表情合成系統(tǒng)采用圖像特征的方式將人臉模型進(jìn)行特征化表示,驅(qū)動(dòng)人臉表情動(dòng)畫。02傳統(tǒng)的人臉表情動(dòng)畫生成是采用基于關(guān)鍵幀插值的方式實(shí)現(xiàn)的。實(shí)現(xiàn)原理是采用插值法在兩個(gè)相鄰關(guān)鍵幀之間獲得新的表情,獲得的表情關(guān)鍵幀被稱為過渡幀,過渡幀的位置是根據(jù)上述兩個(gè)關(guān)鍵幀的加權(quán)權(quán)重所決定的。03將完成特征點(diǎn)標(biāo)記的人臉通過攝像機(jī)進(jìn)行實(shí)時(shí)檢測,將捕捉的面部表情動(dòng)作傳送至電腦端,電腦對(duì)人臉特征點(diǎn)定位,進(jìn)行面部特征點(diǎn)以及頭部運(yùn)動(dòng)軌跡等參數(shù)信息的采集,從采集到的參數(shù)信息中分析提取有效信息,對(duì)三維人臉模型進(jìn)行的驅(qū)動(dòng),從而生成人臉表情動(dòng)畫。4.2.4人臉表情合成技術(shù)2.人臉表情合成技術(shù)方式介紹2013年Cao等研究學(xué)者進(jìn)行基于三維回歸模型的實(shí)時(shí)表演驅(qū)動(dòng)人臉動(dòng)畫系統(tǒng)的開發(fā)。2019年閆衍芙等研究學(xué)者提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的動(dòng)作單元參數(shù)回歸網(wǎng)絡(luò)模型。2014年Cao等研究學(xué)者提出使用單目攝像機(jī)進(jìn)行人臉跟蹤,實(shí)現(xiàn)人臉動(dòng)畫的自動(dòng)生成。未來研究持續(xù)深入發(fā)展,虛擬人物面部將具備更豐富的表情,將會(huì)有更多的面部表情捕捉技術(shù)被提出。2016年吳曉軍等研究學(xué)者提出了不需要進(jìn)行特征點(diǎn)標(biāo)記的人臉表情捕捉方式,利用網(wǎng)格形變算法實(shí)現(xiàn)人臉表情動(dòng)畫的生成人臉表情捕捉方式的發(fā)展4.2.4人臉表情合成技術(shù)3.人臉表情合成技術(shù)在影視制作領(lǐng)域應(yīng)用基于表演驅(qū)動(dòng)的動(dòng)畫表情實(shí)現(xiàn)過程隨著3D電影時(shí)代的到來,人臉表情合成技術(shù)在影視特效制作領(lǐng)域應(yīng)用十分廣泛,為了精準(zhǔn)的捕獲到人臉的表情以及運(yùn)動(dòng)軌跡,采用多攝像頭以及在人臉上標(biāo)記定位點(diǎn)等方式輔助人臉特征點(diǎn)的獲取。經(jīng)過對(duì)表演者的面部表情以及運(yùn)動(dòng)軌跡的特征參數(shù)提取,生成的三維表情融合于構(gòu)建的3D虛擬人物中,生成三維表情動(dòng)畫。4.2.4人臉表情合成技術(shù)3.人臉表情合成技術(shù)在影視制作領(lǐng)域應(yīng)用電影《阿凡達(dá)》演員人臉驚訝表情捕捉電影《阿凡達(dá)》演員人臉憤怒表情捕捉4.2.4人臉表情合成技術(shù)3.人臉表情合成技術(shù)在影視制作領(lǐng)域應(yīng)用電影《加勒比海盜》演員人臉表情捕捉電影《阿麗塔:戰(zhàn)斗天使》演員人臉表情捕捉多模態(tài)融合三4.3.1什么是多模態(tài)融合
模態(tài)是指事物發(fā)生或存在的方式,或是某種物體類型的信息,或是這類物體信息的表達(dá)方式。人類生活的世界其實(shí)就是一個(gè)多模態(tài)相互融合的環(huán)境。觀看人物表演的模態(tài)轉(zhuǎn)換合成過程:耳朵調(diào)動(dòng)聽覺-眼睛調(diào)動(dòng)視覺(口型、表情)-個(gè)人感悟。起源于生活,在學(xué)者們的不斷探索與研究中,將其融入科技中,應(yīng)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國家用醫(yī)療電子設(shè)備行業(yè)市場深度分析及投資策略研究報(bào)告
- 冬凌草種子行業(yè)市場發(fā)展及發(fā)展趨勢與投資戰(zhàn)略研究報(bào)告
- 中國紗卡褲項(xiàng)目投資可行性研究報(bào)告
- 2025年中國外賣行業(yè)市場前景預(yù)測及投資方向研究報(bào)告
- 2024-2030年輔助生殖市場前景展望與投資策略研究研究報(bào)告
- 年組裝5000萬套醫(yī)療器械項(xiàng)目可行性研究報(bào)告建議書
- 中國盲點(diǎn)警示系統(tǒng)行業(yè)市場全景監(jiān)測及投資戰(zhàn)略咨詢報(bào)告
- 中國煙草物流行業(yè)市場前景預(yù)測及投資戰(zhàn)略研究報(bào)告
- 中國鋁鋼絲項(xiàng)目投資可行性研究報(bào)告
- 2025年中國女式正裝行業(yè)市場深度調(diào)研分析及投資前景研究預(yù)測報(bào)告
- 帶貨主播年終總結(jié)匯報(bào)
- 申論公務(wù)員考試試題與參考答案
- 《激光原理及應(yīng)用》全套課件
- 2024中國綠發(fā)投資集團(tuán)限公司招聘300人高頻難、易錯(cuò)點(diǎn)練習(xí)500題附帶答案詳解
- 消化系統(tǒng)護(hù)理常規(guī)
- 2024年航空職業(yè)技能鑒定考試-航空乘務(wù)員危險(xiǎn)品考試近5年真題附答案
- 小流域水土保持綜合治理工程施工方案
- 佳能-6D-相機(jī)說明書
- 商業(yè)道德和反腐敗制度
- 2025屆新高考英語熱點(diǎn)沖刺復(fù)習(xí)語法填空
- 樂器維修保養(yǎng)行業(yè)三年發(fā)展洞察報(bào)告
評(píng)論
0/150
提交評(píng)論