基于AI的虛擬主播設(shè)計(jì) 課件 第3章_第1頁(yè)
基于AI的虛擬主播設(shè)計(jì) 課件 第3章_第2頁(yè)
基于AI的虛擬主播設(shè)計(jì) 課件 第3章_第3頁(yè)
基于AI的虛擬主播設(shè)計(jì) 課件 第3章_第4頁(yè)
基于AI的虛擬主播設(shè)計(jì) 課件 第3章_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于AI的虛擬主播設(shè)計(jì)第3章AI與虛擬人虛擬人的AI技術(shù)一理論的革新思維的轉(zhuǎn)變技術(shù)的融合三次AI熱潮1理論革新23思維轉(zhuǎn)變技術(shù)融合1950年10月,艾倫.圖靈發(fā)表了一篇名為《計(jì)算機(jī)械和智能》的論文,提出了著名的圖靈測(cè)試,影響深遠(yuǎn),直至今日,仍被計(jì)算機(jī)領(lǐng)域研究學(xué)者等所重視。以圖靈測(cè)試為標(biāo)志,數(shù)學(xué)證明系統(tǒng),知識(shí)推理系統(tǒng),專家系統(tǒng)等里程碑式的技術(shù)與應(yīng)用在研究學(xué)者中掀起了第一次AI熱潮。當(dāng)研究學(xué)者“拋棄”了以模仿人類思維來總結(jié)思維規(guī)則,以此進(jìn)行人工智能開發(fā)的方式,轉(zhuǎn)變思維方式,在研究過程中更多應(yīng)用計(jì)算機(jī)技術(shù)與數(shù)學(xué)知識(shí)。這種轉(zhuǎn)變看似容易,其實(shí)面臨著與人類既有觀念和經(jīng)驗(yàn)“抗?fàn)帯钡臉O大阻力。最終,計(jì)算機(jī)與數(shù)學(xué)的思維“獲勝”,基于數(shù)據(jù)統(tǒng)計(jì)模型的思想開始廣泛傳播。從本質(zhì)上講,深度學(xué)習(xí)是一種用數(shù)學(xué)模型對(duì)真實(shí)世界中的特定問題進(jìn)行建模,以解決該領(lǐng)域相關(guān)或相似問題的過程?;ヂ?lián)網(wǎng)的蓬勃發(fā)展,帶來了高質(zhì)量的大數(shù)據(jù),計(jì)算機(jī)性能的提升也使得數(shù)據(jù)可以更好的存儲(chǔ)和利用。第三次熱潮即為深度學(xué)習(xí)、大數(shù)據(jù)、高效率大規(guī)模計(jì)算的人工智能技術(shù)的融合。三次AI熱潮虛擬人的AI技術(shù)框架非交互類虛擬數(shù)字人系統(tǒng)運(yùn)作流程五大模塊構(gòu)成虛擬人生成的通用系統(tǒng)框架:·人物形象生成模塊·人物語(yǔ)音生成模塊·人物動(dòng)畫生成模塊·音視頻合成顯示模塊·交互模塊添加關(guān)鍵字人物形象生成模塊人物動(dòng)畫生成模塊人物語(yǔ)音生成模塊音視頻合成顯示模塊交互模塊通用系統(tǒng)框架應(yīng)用自然語(yǔ)言處理技術(shù),分析用戶的語(yǔ)音語(yǔ)義,識(shí)別用戶意圖,根據(jù)分析后的結(jié)果,決策虛擬人后續(xù)的語(yǔ)音與動(dòng)作。應(yīng)用多模態(tài)技術(shù)融合生成的人物語(yǔ)音與人物動(dòng)畫,使其在同一時(shí)間線輸出,生成視頻。根據(jù)輸入文本信息或是生成的語(yǔ)音信息,應(yīng)用唇形動(dòng)畫技術(shù),生成相應(yīng)人物唇形動(dòng)畫;根據(jù)動(dòng)畫制作或是動(dòng)作捕捉技術(shù),制作或捕捉人體相應(yīng)動(dòng)作生成相應(yīng)人物行為動(dòng)畫。根據(jù)輸入的文本信息應(yīng)用語(yǔ)音合成技術(shù)生成對(duì)應(yīng)的人物語(yǔ)音??梢愿鶕?jù)人物圖形資源的維度,應(yīng)用3D建模技術(shù)進(jìn)行人物模型構(gòu)建,目前虛擬人的人物形象生成包括2D人物形象與3D人物形象。交互模塊音視頻合成顯示模塊人物語(yǔ)音生成模塊人物動(dòng)畫生成模塊人物形象生成模塊框架詳解交互模塊虛擬人交互類型分類交互模塊為擴(kuò)展項(xiàng),可根據(jù)是否包含該模塊,將虛擬人劃分為交互型虛擬人與非交互型虛擬人。非交互型虛擬人系統(tǒng)生成人物形象后,依據(jù)目標(biāo)文本生成對(duì)應(yīng)人物語(yǔ)音及動(dòng)畫,并合成音視頻呈現(xiàn)給用戶。虛擬人的AI技術(shù)介紹

3D建模技術(shù)3D建模技術(shù)分為靜態(tài)掃描建模和動(dòng)態(tài)光場(chǎng)重建。

驅(qū)動(dòng)方式按照驅(qū)動(dòng)方式分類,虛擬人可以分為真人驅(qū)動(dòng)型和計(jì)算驅(qū)動(dòng)型。3D建模技術(shù)多相機(jī)陣列相比靜態(tài)重建技術(shù),具有高視覺保真的動(dòng)態(tài)光場(chǎng)三維重建技術(shù)不僅可以重建人物的幾何模型,并且可以一次性獲取動(dòng)態(tài)人物模型數(shù)據(jù),該技術(shù)將成為虛擬人建模的重點(diǎn)發(fā)展方向。不過目前主流技術(shù)認(rèn)為靜態(tài)掃描,動(dòng)態(tài)光場(chǎng)將成為未來建模技術(shù)的重點(diǎn)發(fā)展方向。靜態(tài)掃描技術(shù)可分為結(jié)構(gòu)光掃描重建和相機(jī)陣列掃描重建。結(jié)構(gòu)光掃描重建時(shí)間長(zhǎng),對(duì)人體這類運(yùn)動(dòng)的目標(biāo)在友好度和適應(yīng)性方面較為差強(qiáng)人意,因此更多的應(yīng)用于工業(yè)生產(chǎn)、檢測(cè)領(lǐng)域。相機(jī)陣列掃描重建替代結(jié)構(gòu)光掃描重建,并克服以上存在的問題成為人物建模的主流方式,如圖所示。隨著拍照式相機(jī)陣列掃描重建得到飛速地發(fā)展,目前可以實(shí)現(xiàn)毫秒級(jí)高速拍照掃描,高性能的相機(jī)陣列精度甚至可以達(dá)到亞毫米級(jí),并成功應(yīng)用于游戲、電影、傳媒等行業(yè)。驅(qū)動(dòng)方式虛擬人驅(qū)動(dòng)類型分類完成人物形象建模后,就需要考慮人物形象數(shù)字化,也就是人物形象的驅(qū)動(dòng)。從技術(shù)層面來看,按照驅(qū)動(dòng)方式分類,虛擬人可以分為真人驅(qū)動(dòng)型和計(jì)算驅(qū)動(dòng)型,如圖所示。真人驅(qū)動(dòng)型虛擬人在真人驅(qū)動(dòng)型虛擬人實(shí)現(xiàn)過程中,完成原畫建模以及真人關(guān)鍵點(diǎn)綁定后,使用動(dòng)作捕捉設(shè)備或是攝像頭捕捉真人的動(dòng)作、表情等,以實(shí)時(shí)驅(qū)動(dòng)虛擬人生成相應(yīng)的行為。動(dòng)作捕捉是指通過數(shù)字手段記錄顯示中人們的運(yùn)動(dòng)過程。動(dòng)作捕捉可以根據(jù)實(shí)現(xiàn)原理不同分成光學(xué)動(dòng)作捕捉、慣性動(dòng)作捕捉、基于計(jì)算機(jī)視覺的動(dòng)作捕捉方案,如圖所示?,F(xiàn)階段,光學(xué)動(dòng)作捕捉和慣性動(dòng)作捕捉占據(jù)主導(dǎo)地位。真人驅(qū)動(dòng)型虛擬人行為均由真人操作實(shí)現(xiàn),因此在動(dòng)作靈活度、互動(dòng)效果等方面有明顯優(yōu)勢(shì)。這些優(yōu)勢(shì)一方面能夠在影視內(nèi)容制作中降低生產(chǎn)成本,同時(shí)為影視行業(yè)的制作降低門檻,推動(dòng)影視級(jí)內(nèi)容向消費(fèi)級(jí)轉(zhuǎn)型;另一方面,應(yīng)用于虛擬偶像之中,可幫助虛擬人完成虛擬人完成大型直播、商場(chǎng)路演等互動(dòng)性強(qiáng)的活動(dòng)。計(jì)算驅(qū)動(dòng)型虛擬人123計(jì)算驅(qū)動(dòng)型虛擬人,其語(yǔ)音表達(dá)、面部表情、具體動(dòng)作將主要通過深度學(xué)習(xí)模型的運(yùn)算結(jié)果實(shí)時(shí)或離線驅(qū)動(dòng),在渲染后實(shí)現(xiàn)最終效果,基于AI的虛擬主播設(shè)計(jì)就是計(jì)算驅(qū)動(dòng)型虛擬人。計(jì)算驅(qū)動(dòng)型虛擬人最終效果由形象3D建模技術(shù)(真人模型構(gòu)建是否符合真人的面貌、形體)、語(yǔ)音合成技術(shù)(語(yǔ)音表述在韻律、情感、流暢度等方面是否符合真人發(fā)聲習(xí)慣)、唇語(yǔ)動(dòng)畫生成技術(shù)(口型與語(yǔ)音是否可以一致,符合真人發(fā)聲標(biāo)準(zhǔn))等技術(shù)共同影響。該類型的虛擬人無需花費(fèi)較大成本即可生成真實(shí)的人物模型,并可以實(shí)現(xiàn)將輸入文本轉(zhuǎn)化為語(yǔ)音以及相關(guān)動(dòng)畫,沒有時(shí)延的要求,僅需將人物語(yǔ)音以及人物動(dòng)畫應(yīng)用多模態(tài)技術(shù)生成視頻輸出給用戶即可。簡(jiǎn)單易學(xué),快速上手,對(duì)初學(xué)者制作虛擬人的學(xué)習(xí)提供友好的入門基礎(chǔ)。計(jì)算驅(qū)動(dòng)型AI技術(shù)在虛擬人領(lǐng)域的應(yīng)用二應(yīng)用麻省理工學(xué)院虛擬人麻省理工學(xué)院媒體實(shí)驗(yàn)室(MITMediaLab)的研究人員開源了一個(gè)虛擬角色生成工具。該工具結(jié)合了面部、手勢(shì)、語(yǔ)音和動(dòng)作領(lǐng)域的人工智能模型,可用于創(chuàng)建各種音頻和視頻輸出,一舉登上《NatureMachineIntelligence》應(yīng)用使用人工智能技術(shù)制作的蒙娜麗莎、瑪麗·雪萊、馬丁·路德·金、阿爾伯特·愛因斯坦、文森特·梵高和威廉·莎士比亞的動(dòng)畫這項(xiàng)技術(shù)也可以用于積極的目的,比如,讓阿爾伯特·愛因斯坦復(fù)活,去教一堂物理課,或者與年長(zhǎng)的自己聊一聊天。為了鼓勵(lì)這項(xiàng)技術(shù)所能帶來的積極作用,麻省理工學(xué)院媒體實(shí)驗(yàn)室(MITMediaLab)的研究人員開源了一個(gè)易于使用的虛擬角色生成管道。該虛擬角色生成管道結(jié)合了面部、手勢(shì)、語(yǔ)音和動(dòng)作領(lǐng)域的人工智能模型,可用于創(chuàng)建各種音頻和視頻輸出。研究人員希望教師、學(xué)生和醫(yī)療保健工作者可以嘗試一下,看看這個(gè)工具能否在各自的領(lǐng)域幫助到他們。應(yīng)用北京理工大學(xué)虛擬人“靈”2022年下半年,北京理工大學(xué)將承辦第十三屆“挑戰(zhàn)杯”中國(guó)大學(xué)生創(chuàng)業(yè)計(jì)劃競(jìng)賽。北京理工大學(xué)堅(jiān)持“以賽育人”,發(fā)揮數(shù)字孿生、虛擬現(xiàn)實(shí)、數(shù)字仿真等技術(shù)優(yōu)勢(shì),將數(shù)字化辦賽理念貫穿“挑戰(zhàn)杯”競(jìng)賽全過程?;顒?dòng)現(xiàn)場(chǎng),發(fā)布了“挑戰(zhàn)杯”001號(hào)數(shù)字參賽者、數(shù)字化參賽引導(dǎo)者“靈”。數(shù)字人“靈”是由北京市混合現(xiàn)實(shí)與新型顯示工程技術(shù)研究中心(北京理工大學(xué))科研團(tuán)隊(duì)基于先進(jìn)的光場(chǎng)采集重建技術(shù)打造的新一代高逼真多模態(tài)數(shù)字人。“靈”的面部表情由800多根“骨骼”協(xié)同控制,而面部材質(zhì)則由82個(gè)材質(zhì)參數(shù)進(jìn)行動(dòng)態(tài)調(diào)整。數(shù)字人是語(yǔ)義、語(yǔ)音、視覺三大AI技術(shù)融合的結(jié)晶。應(yīng)用韓國(guó)首位AI主播“金柱夏”2020年11月,韓國(guó)MBN電視臺(tái)推出韓國(guó)首位AI主播“金柱夏”,“金柱夏”由MBN電視臺(tái)和人工智能開發(fā)公司“MoneyBrain”共同研發(fā),該AI虛

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論