




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
三維視覺前沿趨勢與十大進展(2024年度)
三維視覺作為計算機視覺、計算機圖形學、人工智能以及光學成像等多學科交叉的前沿領域,近年來在相關技術進步和應用需求的共同驅動下,正迎來前所未有的發(fā)展機遇。2024年,隨著生成式人工智能和空間智能等前沿方向成為科技界關注的焦點,三維視覺的重要性愈發(fā)凸顯,成為人工智能領域的核心研究方向之一。同時,三維視覺技術也在多個領域展現(xiàn)出廣泛的應用潛力,其發(fā)展趨勢主要體現(xiàn)在以下幾個方面:視覺內容AIGC的可控生成與物理感知生成。隨著生成式人工智能(AIGC)技術的快速發(fā)展,視覺內容的生成正從簡單的二維圖像生成向可控性更強、物理感知更精準的方向演進。這一趨勢要求引入三維視點、光照條件、人物三維運動等多維控制參數(shù),并結合物理先驗知識,以實現(xiàn)更高質量的內容生成。三維視覺技術在這一過程中扮演了關鍵角色,為AIGC提供了必要的時空和物理約束。4D空間智能:虛擬世界與真實世界的橋梁。4D空間智能(三維空間+時間維度)正成為連接虛擬世界(如元宇宙)和真實世界(如具身智能機器人)的核心技術。4D空間智能技術在于建立動態(tài)物理世界的數(shù)字映射。借助三維視覺技術和多模態(tài)大模型技術,AI系統(tǒng)能夠構建4D空間模型,理解空間關系,預測運動,演化生成未來。同時,智能體可在物理或虛擬的4D空間環(huán)境中交互學習,獲得智能。具身智能的數(shù)據(jù)驅動:3D虛擬仿真與人體運動捕捉。具身智能的發(fā)展高度依賴高質量的3D虛擬仿真數(shù)據(jù)和人體3D運動數(shù)據(jù)的捕捉與生成。這些數(shù)據(jù)是訓練具身智能機器人實現(xiàn)智能行為控制的“燃料”。通過高精度的三維視覺技術,機器人能夠更好地理解和模擬人類行為,從而在復雜任務中表現(xiàn)出更高的智能水平。可微三維表征技術及其與大模型技術的融合。NeRF和3D高斯?jié)姙R等三維表征推動從微觀到宏觀的各類場景生成與重建性能升級,無論是細胞組織,還是室內場景、人體/動物建模、智駕/城市建模,甚至天文黑洞的三維重建,這一技術都展現(xiàn)出了強大的潛力。其高效性和靈活性為三維視覺的應用開辟了新的可能性。同時,借助大規(guī)模三維數(shù)據(jù)與Transformer等大模型網(wǎng)絡架構與Diffusion等前沿生成方法,把三維視覺的基礎任務連成一個高效端到端的框架,實現(xiàn)了三維視覺核心范式的ScaleUp學習。圖1:
2024年度三維視覺研究熱點框架圖以下我們從十個方面細化總結2024年三維視覺領域的十大科研進展。
一、DUSt3R革新三維幾何視覺研究范式在過去的兩三年間,自然語言處理與二維計算機圖像領域紛紛推出了基礎模型,以ChatGPT與CLIP等模型為代表,通過數(shù)據(jù)與模型的ScalingUp,在語言智能與圖像智能上取得了巨大進展。另一方面,三維視覺領域在表征層面持續(xù)創(chuàng)新,在諸多應用上獲得了大量突破,但是眾多三維幾何視覺任務仍然無法有效統(tǒng)一,導致無法發(fā)揮充分數(shù)據(jù)的規(guī)模效應,本領域亟需范式轉變,尋求構建三維視覺基礎模型。
在此背景下,芬蘭阿爾托大學以及NAVER實驗室的研究者提出了DUSt3R。其改變了以往基于特征匹配和幾何優(yōu)化的思路,提出了可解決多種三維幾何視覺問題的通用框架:給定一組未標定圖像對,通過前饋網(wǎng)絡(feed-forwardnetwork)預測出一組在相同坐標系下的三維點云圖,通過后處理優(yōu)化實現(xiàn)相機內參標定、深度估計、像素匹配、相機位姿估計、稠密點云三維重建等一系列三維幾何視覺問題。DUSt3R首次證明了ScalingLaw在解決三維視覺問題上的可行性:其使用基礎的ViT架構,通過海量三維標注數(shù)據(jù)的預訓練,將三維視覺的基礎任務連成一個高效端到端的框架,為三維基礎模型的ScaleUp范式提供了一個有效的思路。圖2:DUSt3R與后續(xù)改進拓展工作DUSt3R在2023年底一經(jīng)推出便吸引了大量社區(qū)的關注,并在2024年由眾多后續(xù)工作進一步完善與擴展,其作為基礎模型被成功應用在多個極具挑戰(zhàn)性的任務上。在新視角合成(NovelViewSynthesis)任務上,Splatt3R、InstantSplat、NoPoSplat等工作結合DUSt3R與高斯?jié)娰v技術(3DGaussianSplatting),實現(xiàn)了基于未標定稀疏視圖的前饋式高斯重建;在單視角動態(tài)場景重建上,MonST3R將DUSt3R在少量動態(tài)三維場景數(shù)據(jù)上微調,實現(xiàn)了前饋式的動態(tài)場景點陣圖預測,成功地將數(shù)據(jù)先驗應用到這個高度不適定(ill-posed)問題上。當然,DUSt3R也存在著一些缺點,例如僅接受兩張圖像作為輸入的模式,在多視圖或者視頻輸入的場景下會帶來高復雜度,為了解決這個問題,可以提升網(wǎng)絡一次接受的輸入圖片數(shù),例如SLAM3R中進行的嘗試。另外,DUSt3R預訓練中需要使用帶有點陣圖標注的數(shù)據(jù),這樣的數(shù)據(jù)要求較高,給進一步scalingup帶來了困難,如何放寬數(shù)據(jù)要求,利用互聯(lián)網(wǎng)上的海量RGB視頻數(shù)據(jù),也是走向三維視覺基礎模型的重要課題。
二、視頻生成開啟4D空間智能
2024年,視頻生成技術在大模型與海量互聯(lián)網(wǎng)數(shù)據(jù)的驅動下實現(xiàn)跨越式發(fā)展。當前,視頻生成模型正經(jīng)歷從'二維內容生成'向'物理規(guī)律感知的3D內容生成'的范式躍遷,這一轉變在產業(yè)界得到強力印證——英偉達最新發(fā)布的世界基礎模型Cosmos,基于200萬小時視頻訓練形成的兼具3D一致性與物理合理性的視頻生成能力,不僅促進了視頻生成時空一致性的顯著提升,其直接生成合成數(shù)據(jù)的技術突破更將緩解物理AI領域長期存在的數(shù)據(jù)饑渴問題,為3D游戲、具身智能、自動駕駛等領域的技術發(fā)展提供了全新的視角和支持。
圖3:
基于DiT的視頻生成方法在這一領域,Sora明確了視頻生成技術路線,以diffusiontransformer(DiT)為基礎結構將視頻生成的效果推上新的臺階。其中所表現(xiàn)出來的對物體規(guī)律的初步理解,一定程度上證明了視頻模型具備理解和構造3D世界模型的潛力,然而當前視頻生成模型仍然難以生成多視角嚴格一致、物理準確的結果。為改善視頻生成模型在視角、3D方面的生成能力,提升視角一致性并建立起視頻生成與3D的聯(lián)系,Human4DiT和SynCamMaster等方法探索了如何將3D條件如3D人體、相機參數(shù)等引入視頻模型,借助DiT結構,這類方法通過注意力機制來將3D相關的條件引入到視頻生成模型當中,實現(xiàn)了時間和視點更加一致的動態(tài)4D視頻生成。此外,基于視頻生成模型強大的可擴展能力,利用其中所包含的隱式3D結構先驗提升3D重建效果成為一個重點探索方向。傳統(tǒng)的基于多視幾何的3D重建技術存在若干局限性。首先,這些方法通常要求拍攝的多視圖像之間有足夠的重疊區(qū)域,其次,重建的幾何結構和紋理質量通常依賴于圖像的分辨率。此外,這些技術在重建弱紋理、高反光或半透明區(qū)域時效果較差,且未被捕獲的區(qū)域無法進行重建。雖然基于AIGC的技術在理論上可以突破這些局限,但由于高質量3D數(shù)據(jù)的匱乏,不足以支撐直接的高質量3D生成。因此,CAT3D和ViewCrafter利用了多視角和視頻diffusion模型中的先驗來輔助生成高質量的3D多視角內容,使得用2D生成模型為3D重建提供先驗成為可能,為3D重建提供了新的技術路徑。圖4:
空間智能模型和自回歸生成模型的應用WorldLabs于2024年11月發(fā)布了首個3D空間智能模型,只需一張圖像即可生成3D場景,并且具備可交互性和可編輯性,允許用戶在3D場景中自由漫游,并實現(xiàn)景深控制、滑動變焦和重打光等多種3D效果。同時,Genie2將動態(tài)視頻信息融入3D空間智能,基于單張圖像可生成長達1分鐘的視頻場景畫面,并且具備實時交互、物理模擬、空間記憶和多樣化的環(huán)境生成等特點。這些技術的突破,標志著人工智能開始邁向基于4D的空間智能時代??臻g生成作為空間智能中關鍵組成部分之一,可以通過3D重建與視頻生成技術的結合來實現(xiàn)。一方面可以通過結合3D重建技術(如LargeReconstructionModel)生成的3D信息來引導2D視頻的生成,從而提高結果的時空一致性。另一方面,通過生成的時空一致2D視頻,再結合3D重建技術可以生成完整的3D場景,而這些完整的高質量3D場景數(shù)據(jù)可以作為訓練樣本,通過強化學習機制持續(xù)優(yōu)化3D場景生成模型的性能。除了以擴散模型為主的視頻生成模型外,自回歸視頻生成的空間智能模型如Genie2帶來的交互式生成技術,為視頻與3D技術在交互領域,比如游戲、場景生成、具身、自動駕駛等帶來新的可能性。其中一類工作是結合多模態(tài)自回歸大模型,如在自動駕駛方面,DrivingGPT
將駕駛過程建模為交替的視頻幀和指令序列,并將兩個模態(tài)統(tǒng)一為駕駛語言,利用多模態(tài)自回歸transformer同時執(zhí)行建模和端到端的規(guī)劃,并基于給定的歷史駕駛狀態(tài)進行未來狀態(tài)的預測。通過多模態(tài)統(tǒng)一的方式,加深了對于真實3D世界的理解。通過自回歸預測的模式,有助于擴展智能的交互性和可控性。在場景生成方面,StarGen基于視頻生成模型以自回歸的方式生成一致性的大范圍場景。通過將空間和時序上相鄰幀作為條件,StarGen能夠用pose或layout來控制實現(xiàn)3D空間中的稀疏視角插值以及城市場景生成,展現(xiàn)了一定的空間智能。隨著視頻生成模型的快速發(fā)展,三維視覺研究開啟了探索真實物理世界的歷程。利用視頻生成模型所展現(xiàn)的理解物理規(guī)律和可擴展能力,可以幫助對3D世界以及空間智能的建模,為真正的世界模型奠定基礎。另一方面,通過新的自回歸生成范式將多個模態(tài)統(tǒng)一到一起來預測未來狀態(tài),有助于模擬真實世界中的多信號動態(tài)行為,可以為具身智能體以及自動駕駛等應用帶來新的可能。三、3DAIGC
——多方向突破下的持續(xù)演進
2024年,3DAIGC領域延續(xù)了近年來的發(fā)展態(tài)勢,在學術研究與產業(yè)應用兩方面均取得了顯著進展??傮w而言,該領域正處于穩(wěn)步發(fā)展期,技術迭代迅速,應用場景不斷拓展,但距離構建完善且成熟的技術體系仍存在一定距離。學術界在2024年繼續(xù)保持著高度活躍的研究態(tài)勢,主要聚焦于幾何生成、紋理生成、場景級生成以及動態(tài)4D生成等關鍵方向,并取得了系列創(chuàng)新成果。這些方向代表了當前3DAIGC
領域的核心研究前沿,旨在解決三維內容創(chuàng)建中存在的精細度、逼真度、復雜度和動態(tài)性等關鍵問題。產業(yè)界則積極探索3DAIGC技術的落地應用,多家公司推出了相關的3D生成平臺或工具,
Tripo、Rodin、Meshy等公司的相關產品展示了文生3D、圖生3D技術再各方面的應用潛力,預示著3DAIGC技術正逐步從實驗室走向實際應用
圖5.
3DAIGC領域2024年部分代表性工作幾何生成:精細化與結構化并舉。幾何生成作為構建三維模型的基礎,在2024年得到了進一步的發(fā)展。CLAY在SIGGRAPH2024上獲得最佳論文提名,通過對3DShape2Vecset進行充分scaleup,驗證了擴散模型在原生3D數(shù)據(jù)領域的可泛化生成能力,實現(xiàn)了在三維物體級別上精細幾何、準確結構的生成。年底發(fā)布的TRELLIS,提出了一種表達無關的三維結構化潛空間,其稀疏性、局部化的表達特點使得重建和生成過程更容易被訓練,效果也引爆開源社區(qū)。紋理生成:逼真度與可控性的平衡。紋理生成旨在為三維模型賦予逼真的外觀。TEXGen在SIGGRAPHAsia2024上獲得最佳論文提名,該方法提出一個大規(guī)模擴散模型,實現(xiàn)了在3D模型的UV空間進行直接、快速、高質量的紋理生成。通過創(chuàng)新的2D-3D混合架構,實現(xiàn)了高分辨率細節(jié)的保持和三維一致性。該方向的研究重點在于提升生成紋理的真實感和多樣性,同時探索更有效的方法來控制紋理的生成過程,使用戶能夠根據(jù)需求生成特定風格或屬性的紋理。場景級生成:從單一物體到復雜場景。場景級生成的目標是構建包含多個物體、具有復雜布局和豐富細節(jié)的三維場景。2024年,大型三維重建模型(LRM)如GS-LRM、LongLRM,以及結合圖像、視頻生成預訓練模型能力的方法如CAT3D等,在該方向上取得了顯著進展,展現(xiàn)出較強的泛化能力。通過大規(guī)模數(shù)據(jù)預訓練,這些模型在重建規(guī)模、精度、速度和通用性上都取得了明顯提升,為復雜場景的自動生成和重建奠定了基礎。動態(tài)4D生成:三維生成的另一個重要趨勢是從靜態(tài)三維物體的生成擴展到動態(tài)三維物體的生成。其主要挑戰(zhàn)在于捕捉時空信息的新挑戰(zhàn)。動態(tài)4D生成是近年來新興的研究方向,旨在生成具有時間維度信息的三維動態(tài)場景。CAT4D、SynCamMaster等工作利用視頻生成基礎模型,實現(xiàn)了時間和視點一致的動態(tài)4D生成。這類研究的難點在于如何捕捉和表達三維場景隨時間變化的復雜信息,并保證生成結果的時空一致性。盡管該方向仍處于起步階段,但已展現(xiàn)出明顯的潛力和廣闊的潛在應用前景。內在結構/功效性生成:隨著三維生成技術的不斷發(fā)展,生成精美外觀的三維物體已變得可能。然而,三維物體不僅需要具備吸引人的“外表”,還需要擁有實際的“功能”。因此,三維生成的下一步目標應聚焦于不僅呈現(xiàn)物體的外形,還能夠生成物體的內在結構和功能性。為實現(xiàn)這一目標,SFU提出了Slice3D方法,通過切片技術生成具有內在結構的三維物體,從而獲取物體的分層結構和更為復雜的內部構造。此外,慕尼黑大學提出的MeshArt方法進一步推動了這一方向,支持直接生成帶有鉸鏈結構的物體,例如可以旋轉的椅子等。這項技術突破了傳統(tǒng)三維生成模型的局限,使得生成的物體不僅擁有逼真的外觀,還具備實際的功效性。
盡管3DAIGC領域在2024年取得了可觀的進展,但現(xiàn)有技術仍存在明顯的局限性。首先,生成模型的輸出質量與真實世界相比仍有一定差距,尤其是在處理復雜場景和精細結構時,生成結果往往缺乏足夠的細節(jié),物理的準確性和語義的一致性也難以得到保證。其次,生成過程的可控性和可編輯性仍然不足,用戶難以對生成結果進行精確的控制和調整,這限制了該技術的實用性和靈活性。此外,高質量訓練數(shù)據(jù)的獲取和標注仍然是一個挑戰(zhàn)。展望未來,3DAIGC領域將繼續(xù)朝著更高質量、更可控、更具結構化和實時性的方向發(fā)展。未來的研究將致力于進一步提升生成模型的表達能力,生成更加精細、逼真、符合物理規(guī)律的三維內容。同時,在算法上,需要構建更加高效、自適應的生成框架與跨模態(tài)數(shù)據(jù)處理能力,例如通過深度學習與傳統(tǒng)圖形學的融合,打造多分辨率生成與訓練機制;并在數(shù)據(jù)層面積極探索激光雷達、影像測量、傳感器信息等多模態(tài)數(shù)據(jù)的采集及半自動監(jiān)督標注方式,以降低人工成本、提升數(shù)據(jù)多樣性和精度。此后,開發(fā)更有效、更直觀的控制和編輯方法,使用戶能夠自由操控生成過程并對結果進行細致調整,也將是重要的研究方向。基于語義信息等結構化信息的生成方法有望得到更多關注,從而提高生成結果的可理解性和可控性。此外,隨著硬件性能的提升和算法的優(yōu)化,實時生成技術將持續(xù)進步,為虛擬現(xiàn)實、增強現(xiàn)實等應用帶來更流暢、更具沉浸感的體驗。最終,3DAIGC技術有望與AIAgents等技術深度融合,實現(xiàn)更智能、更自主的三維內容創(chuàng)作流程,推動相關產業(yè)的變革與發(fā)展。四、高斯?jié)姙R(3DGS)處理方法和工具鏈日趨完善
三維高斯?jié)姙R(GaussianSplatting)技術發(fā)表于SIGGRAPH2023并獲得最佳論文獎,一經(jīng)發(fā)布就受到學術界和工業(yè)界的廣泛關注,并成為三維計算機視覺方向最熱點的研究內容之一。其具有渲染速度與訓練速度快、真實感強的優(yōu)勢,并被業(yè)界認為是下一代的高真實感三維表示技術,因此相應的處理方法和工具鏈是高斯?jié)姙R技術取得廣泛應用的前提條件,并將有望形成全新的高真實感三維重建與編輯的平臺。這一點也在學術界和工業(yè)界得到了普遍的共識。在2024年學術界和工業(yè)界圍繞高斯?jié)姙R的基礎表示、重建與編輯、重光照、物理仿真、壓縮存儲等方面開展了大量基礎性的研究工作,2024年有多篇綜述論文對這些工作進行了梳理(如RecentAdvancesin3DGaussianSplatting、ASurveyon3DGaussianSplatting、3DGaussianSplattingasNewEra:ASurvey)。這些基礎性研究工作逐漸完善了高斯?jié)姙R的處理方法和工具鏈并為高斯?jié)姙R的廣泛應用奠定了基礎。高斯?jié)姙R正在成為三維數(shù)字人、智能駕駛、數(shù)字城市等應用領域的關鍵底座技術,成為構建高真實感數(shù)字世界模型的基礎三維表征。同時人工智能的發(fā)展正在從數(shù)字世界走向實體世界,對三維世界的理解與重建并在三維世界中進行具身操作將成為新一代人工智能的基石,平臺化的高斯?jié)姙R技術將對人工智能的應用從虛入實起到關鍵推動作用。圖6.高斯?jié)姙R的原理示意圖我們將在高斯?jié)姙R的基礎表示、變形編輯、重光照、物理仿真和存儲壓縮方面回顧2024年度的代表性的研究工作。在基礎表征方面,SuGaR首先通過添加自監(jiān)督損失提升了三維高斯?jié)姙R表示重建幾何表面的能力,2DGS和GaussianSurfels都提出了基于二維高斯?jié)姙R的幾何表示方法,該表示能夠對具有高度復雜性的幾何結構進行精確還原,進一步提升了幾何細節(jié)的重建精度,這些工作為高精度三維場景的建模奠定了重要基礎。在幾何重建的基礎上,可以將網(wǎng)格和高斯?jié)姙R進行混合表示來提升對高斯?jié)姙R的變形效果,如GaussianMesh和GaussianAvatar將三維高斯綁定在網(wǎng)格表面,通過網(wǎng)格表示的幾何變形來驅動三維高斯?jié)姙R表示的變形,以支持大尺度的變形驅動。為了進一步仿真滿足物理規(guī)律的動態(tài)三維場景,PhysGaussian通過在重建的高斯場中加入物理屬性,利用物質點法等軟體流體數(shù)值仿真解算,從而實現(xiàn)物體在不同環(huán)境下的物理動態(tài)變化和不同的交互效果。PhysDreamer在PhysGaussian的基礎上,利用視頻模型生成的視頻來反推3DGS場景中的物理屬性,進而利用物理仿真,生成物理更準確且語義和視頻一致的動態(tài)。類似的,Spring-Gaus將彈簧質點仿真和高斯?jié)姙R表示相結合,支持從視頻估計彈性系數(shù),并利用仿真預測彈性體動態(tài)。這些技術在三維場景的仿真與交互式應用中具有廣泛的潛力。圖7.高斯?jié)姙R在基礎表示、變形編輯、物理仿真方面的代表性研究工作在外觀編輯方面,ReligtableGS在三維高斯?jié)姙R表示的渲染中引入了基于物理的渲染方程實現(xiàn)該表示的重光照編輯,DeferredGS和GSDeferred提出延遲渲染策略來建模更加復雜的鏡面反射輸入。為了進一步拓展三維高斯?jié)姙R的渲染質量和應用場景,3DGRT、RayGauss、EVER等工作探索了與傳統(tǒng)渲染方式的融合,使用光線追蹤方法(RayTracing)來對高斯?jié)姙R進行渲染。通過結合光線追蹤技術,實現(xiàn)高精度的光線反射、折射模擬,三維高斯?jié)姙R在真實感渲染中的表現(xiàn)力得到了顯著提升,并且支持和傳統(tǒng)的三維表示如網(wǎng)格等表示的聯(lián)合渲染。為了對高斯?jié)姙R進行壓縮存儲與傳輸,F(xiàn)CGS將不同的高斯屬性分配到獨立的熵約束路徑上并設計了高斯間和高斯內的上下文模型,進一步提升了壓縮效率。
圖8.高斯?jié)姙R在重光照、基于光線跟蹤的渲染方法和存儲壓縮方面的代表性研究工作通過這一系列的探索和優(yōu)化,三維高斯?jié)姙R表示的處理方法和工具鏈日益完備,為未來應用提供了平臺化的技術支持。當然現(xiàn)有的建模、編輯與渲染技術仍然存在需要密集的視角輸入和準確的相機位姿問題,如何降低采集的圖像要求,利用已有的圖像或者視頻生成模型為三維高斯?jié)姙R的建模、編輯與渲染提供先驗,是值得繼續(xù)探索的方向。并且如何將平臺化的高斯?jié)姙R技術應用在具身智能、空間智能、生成式人工智能,進一步推動人工智能從虛到實,賦能實體經(jīng)濟仍是需要發(fā)力的方向。五、3DGS走向應用:靜到動-小到大的場景重建進化
3DGS針對靜態(tài)、尺度較小的場景設計,無法直接適用于動態(tài)與大規(guī)模場景。2024年度,基于3DGS的場景重建在從靜態(tài)到動態(tài)、從小場景到大場景方面都取得了可觀進展,這些時間維度和空間維度的擴展推動了3DGS在沉浸式媒體、自動駕駛、城市建模等方向的應用。在時間維度上,針對通用動態(tài)場景的3DGS重建進展豐富,主要朝著表征輕量化、采集平民化的方向發(fā)展。首先,不同的4D表征呈現(xiàn)多家爭鳴的狀態(tài),如4DGS的四維高斯基元建模、3DGStream的逐幀三維高斯建模,4DGaussians和Deformable3DGS的規(guī)范空間與逐時刻形變聯(lián)合建模等方式,這些表征方式的參數(shù)化方式雖各不相同,其背后的核心邏輯具有一定相似性,即在每個時間刻輸出一組三維高斯,并建立多個時刻三維高斯之間的相關性從而提升時域一致性,以及通過緊湊的參數(shù)化方式減小建模動態(tài)場景所需的逐幀參數(shù)量。其次,在視頻采集方式方面,單目視頻相比于多目視頻更易獲取更加平民化,因此基于單目視頻的動態(tài)場景重建也是領域的研究熱點,為了提升單目視頻動態(tài)重建的質量,主要思路是引入更多先驗知識從而克服單目視頻在時空上的稀疏性,例如ShapeofMotion引入單目深度估計和光流等先驗,
CAT4D則利用擴散模型的先驗生成更多訓練圖像。動態(tài)場景中還有一類典型且具有實用價值的場景是駕駛場景,因為駕駛場景的自由視角合成為面向自動駕駛的寫實仿真平臺提供了可能性。2024年度3DGS在動態(tài)駕駛場景重建方面也取得了系列進展,主要關注問題在于如何建模場景中的動態(tài)車輛和行人,并實現(xiàn)動態(tài)場景的編輯??紤]到駕駛場景的動態(tài)車輛都屬于剛性運動,DrivingGaussian等多數(shù)動態(tài)駕駛場景重建的方法利用動態(tài)車輛的三維標注框實現(xiàn)了動靜解耦,從而進一步賦能動態(tài)車輛的添加、刪除、位姿控制等編輯操作,StreetGaussians和HUGS額外考慮了對車輛三維標注框的聯(lián)合優(yōu)化;針對非剛性運動的行人,OmniRe進一步基于行人的三維標注框和SMPL參數(shù)實現(xiàn)了街景動態(tài)行人的重建。在空間維度上,2024年也有多個工作將3DGS擴展到了城市級別的大規(guī)模場景重建。大場景重建的一個主要挑戰(zhàn)在于三維高斯數(shù)量過多時如何減小占用顯存和提升渲染實時性。一類思路是通過分而治之的分塊方式將場景劃分為多個部分、每部分單獨訓練,例如VastGaussian;一類是通過LOD的方式由粗到細地表達大規(guī)模場景,根據(jù)相機距離來選擇渲染的三維高斯基元的層級顆粒度,從而保證大規(guī)模場景的渲染實時性,例如Hierarchical3DGS,CityGaussian,Octree-GS等。隨著3DGS在時空擴展上的可觀發(fā)展,相關原型應用也相繼被推出,例如V^3實現(xiàn)了基于3DGS的動態(tài)三維視頻在輕量化端側設備的流式播放,LongVolumetricVideo實現(xiàn)了10分鐘的長視頻重建,推進了沉浸式媒體的發(fā)展;HUGSIM構造了基于3DGS的端到端閉環(huán)仿真平臺,實現(xiàn)了動態(tài)車輛的交互式插入,構建了智能駕駛算法和寫實仿真算法的閉環(huán)交互;LetsGo實現(xiàn)了大規(guī)模場景的LOD重建并且實現(xiàn)了輕量化端側設備的實時渲染,賦能了車庫場景的實時定位導航。這些原型應用為3DGS的落地提供了正面范例。圖9:3DGS從靜到動、從小到大的場景重建及其相關應用盡管取得了以上的可觀發(fā)展,3DGS場景重建在進一步落地實用方面仍有許多值得進一步探討的問題。首先,目前領域缺少一個公認的具有突出優(yōu)勢的4D表征,而未來的沉浸式媒體應用中是否需要一個統(tǒng)一的4D表征、如果需要統(tǒng)一的話該采用什么表征都仍然是未知數(shù)。其次,動態(tài)場景和大規(guī)模場景的泛化高效重建目前尚處于起步階段,2024年雖然有這方面的相關探討,然而其質量相比于靜態(tài)小規(guī)模的泛化3DGS重建仍值得提升。最后,目前的工作相對獨立地在時間維度或空間尺度上進行擴展,未來如何構建長動態(tài)視頻、大規(guī)模場景的高效重建與實時渲染也是值得探索的方向。
六、3DGS助力3D數(shù)字人突破恐怖谷效益瓶頸2023年底以來,3DGS(3DGaussianSplatting)技術被引入到3D數(shù)字人重建、動畫與生成中。通過將三維數(shù)字人表示為一組高斯點及其屬性(如位置、半徑、顏色等),實現(xiàn)光柵化高效渲染,因而保證實時渲染。同時高斯點的離散分布方式使得數(shù)字人表面能夠表現(xiàn)出更自然和真實的細節(jié),尤其是能對一些褶皺或毛發(fā)等細微結構建模。3DGS技術的引入帶來了在渲染速度慢,建模時間長,缺失細節(jié)等各項瓶頸中的突破性進展。在3D數(shù)字人技術的落地進程中,具有重要的里程碑意義。在3D數(shù)字人重建方面,GPS-Gaussian和GHG等工作提出將人體三維高斯點云表征在多視點輸入圖像或參數(shù)模型UV上,通過在較大規(guī)模的人體掃描數(shù)據(jù)上訓練,可以通過前饋式網(wǎng)絡從多視點圖像輸入直接預測三維人體高斯模型,取得了高質量的三維人體重建。在3D數(shù)字人動畫方面,AnimatableGaussians提出將人體高斯點定義在標準姿態(tài)下的正反投影圖上,并基于CNN回歸姿勢相關的高斯圖,以實現(xiàn)從多視角視頻輸入建模3DGS人體數(shù)字人,相較于基于NERF的表征方法細節(jié)建模能力更強、渲染速度更快。之后,ExAvatar提出解耦式外觀學習,在單目視頻輸入下取得了精細的數(shù)字人驅動效果。除了肢體動畫,許多工作,包括GaussianAvatars以及GaussianHeadAvatar更關注人頭驅動,它們通過將3DGS點云綁定至Flame人頭模型或自適應重建模型上,實現(xiàn)了可表情驅動的人頭數(shù)字人建模。這兩項工作都證明其方法在重建精度和渲染速度上大幅度超越先前的人頭數(shù)字人。在此基礎上,NPGA引入預訓練的隱式表情作為驅動信號,進一步提升復雜表情下的表情準確性和渲染質量。此外,GPHM提出基于3DGS的人頭模板并實現(xiàn)外貌和表情的解耦。隨后的URAvatar等系列工作,首先在3DGS模型中加入對法向的光傳輸方程的預測以實現(xiàn)重光照,其次利用多人數(shù)據(jù)集預訓練先驗模型以實現(xiàn)從手機端快速重建個人定制3DGS數(shù)字人。圖10:3DGS數(shù)字化身生成借鑒圖像生成大模型,在3D數(shù)字人生成方面,HumanGaussian、Human3Diffusion以及FaceLift等工作提出基于StableDiffusion實現(xiàn)基于單圖或文本的三維高斯數(shù)字人生成,得益于基于Diffusion生成式模型的強大能力以及3DGS的高效表征,這類方法可以實現(xiàn)快速、高質量的三維數(shù)字人生成,超越以往NeRF類方法。2024年底以來,隨著視頻生成技術的迅猛發(fā)展,圍繞視頻生成模型的可控性研究涌現(xiàn)出眾多成果,為基于單張圖片的高真實感2D數(shù)字人驅動帶來了突破。一方面,借助基礎視頻模型強大的生成能力,AnimateAnyone
和
MagicAnimate
等工作通過結合
2D
動捕信息控制視頻生成,成功實現(xiàn)了可由視頻驅動的
2D
數(shù)字人;EMO
和
Hallo
等工作則引入
1D
音頻信息控制視頻生成,構建了可由音頻驅動的
2D
口播數(shù)字人;Human4DiT
更進一步,集成相機視角控制信息,實現(xiàn)了動態(tài)
4D
數(shù)字人生成。另一方面,VASA
等工作通過預先解耦動作與人物外觀的隱空間,僅在一維動作空間中使用擴散模型進行建模,大幅降低了全流程計算開銷,在生成多樣化動作的同時支持實時畫面渲染。得益于擴散模型強大的可擴展性,這類方法能夠在海量互聯(lián)網(wǎng)人物視頻數(shù)據(jù)上進行訓練,使得現(xiàn)階段
2D
數(shù)字人在渲染視頻真實感方面顯著超越
3D
數(shù)字人,特別是在風格泛化性和動態(tài)驅動效果上展現(xiàn)出明顯優(yōu)勢。圖11:2D數(shù)字人生成與3D高斯數(shù)字人蒸餾基于此,一方面,研究者們開始探索如何利用
2D
數(shù)字人模型的高質量生成數(shù)據(jù)進一步推動
3D
數(shù)字人的發(fā)展。CAP4D
和
PERSE
等工作通過單張正面圖像輸入,利用視頻生成模型合成多視角或多表情數(shù)據(jù),并蒸餾到
3DGS
數(shù)字人模型中,實現(xiàn)了基于
2D
視頻生成的高效
3D
重建。這類方法不僅驗證了視頻生成技術在
3D
數(shù)字人建模中的潛力,還顯著提升了重建的精度與表現(xiàn)力。另一方面,通過聯(lián)合建模2D/3D統(tǒng)一表征,構建3D數(shù)字人大模型仍是一個有待探索的方向。在現(xiàn)有的
2D
視頻生成框架中嵌入
3DGS
特征空間,可以借助視頻模型的擴展能力直接基于海量互聯(lián)網(wǎng)視頻數(shù)據(jù)建模通用
3D
數(shù)字人表征。這種方法有望顯著降低
3D
數(shù)字人的建模成本,同時進一步提升其在動態(tài)表現(xiàn)和真實感方面的能力。以上系列研究初步驗證了3DGS技術在數(shù)字人建模領域帶來的重大變革,并展示了其在精度和渲染速度上的優(yōu)勢。這些進展也為數(shù)字人的生成式重建提供了新的研究范式。然而,盡管在形象建模方面取得了顯著進展,1)相比2D數(shù)字人,3D數(shù)字人在語音驅動下表情和口型自然性問題依然存在;2)對于動作驅動,依賴從動作參數(shù)生成到外觀形象驅動生成的兩步驟方案,仍面臨穿模、外形動作不逼真等難題;3)由于缺少相應的大規(guī)模3D數(shù)據(jù),3D/4D數(shù)字人仍未形成基礎大模型,數(shù)字人的條件生成仍依賴復雜長時間的優(yōu)化步驟,難以高質量前饋泛化生成。上述都是未來高斯數(shù)字人需要解決的核心難題。七、三維視覺助力具身大數(shù)據(jù)構建
2024年,具身智能成為科技領域最受矚目的焦點。相比于LLM和多模態(tài)大模型所依賴的互聯(lián)網(wǎng)數(shù)據(jù),訓練具身智能所依賴的海量三維動作及交互數(shù)據(jù)等無法輕易獲得,數(shù)據(jù)層面的大規(guī)模、高質量、高效獲取因此成為具身智能致勝的核心關鍵。2024年,具身數(shù)據(jù)收集與高效利用方面取得諸多進展,數(shù)據(jù)獲取來源主要包括三類:海量人類動作視頻數(shù)據(jù)、人工在環(huán)遙操作交互動作數(shù)據(jù)、三維虛擬仿真數(shù)據(jù)。三維視覺技術在以上數(shù)據(jù)獲取技術上都發(fā)揮了重要作用。從人類動作視頻學習機器人策略:互聯(lián)網(wǎng)視頻作為一種豐富的數(shù)據(jù)源,蘊含了大量的物理信息和運動行為,但其由于缺乏動作標簽難以被提取和利用。對此,谷歌
DeepMindVid2Robot
收集了人類視頻與機器視頻動作數(shù)據(jù)對,借助直接視覺模仿學習,訓練機器人完成與人類視頻相同的機器動作。然而由于成對的人類視頻與機器視頻動作數(shù)據(jù)匱乏,Video-Diff通過視頻預測指導策略學習,將人類視頻與機器視頻壓縮到統(tǒng)一的嵌入空間,并利用大規(guī)模人類視頻進行預訓練后在少量機器動作數(shù)據(jù)進行微調,從而將人類視頻中蘊含的物理世界的動態(tài)知識遷移到機器人策略的學習過程。進一步地,由于視頻預測模型物理合理性欠缺、計算開銷大,Track2act、Dreamitate、Any-pointTrajectoryModeling(ATM)
等選擇忽略像素級別的細節(jié),轉而從大規(guī)模人類視頻數(shù)據(jù)集中預訓練模型以預測物體關鍵點的移動方向,進而將其映射為機械操作指令,從而在效率上超越了直接基于視頻預測的方法。值得注意的是,目前上述研究大多集中在二指抓取器的操作任務上,而如何從人類視頻中學習五指靈巧手的操作策略,仍是一個亟待探索的研究領域。圖12:
從人類動作視頻學習機器人策略方面年度代表性工作人工在環(huán)遙操作數(shù)據(jù)采集與模仿學習:盡管人類視頻數(shù)據(jù)資源豐富,但由于人體和人手與機器人物理形態(tài)存在差異,從人類視頻訓練的控制策略難以準確映射到現(xiàn)實機器人中。遙操作數(shù)據(jù)采集通過人類直接控制機器人在真實世界中執(zhí)行任務,不存在跨域鴻溝,
數(shù)據(jù)質量更高。工業(yè)界主流遙操方案包括光學動捕、慣性動捕等。光學動捕通過高速紅外相機捕獲標記點的三維位姿,能夠實現(xiàn)亞毫米級精度,但其成本高便攜性差。慣性動捕通過可穿戴設備內置的慣性測量單元
(IMU)
推算運動物體位姿,成本較低但存在長時間漂移的問題。另外在遙操數(shù)據(jù)采集過程往往結合多相機系統(tǒng),通過多視角視覺信息融合,實現(xiàn)3D空間感知理解。斯坦福MobileAloha設計了一個低成本可移動的全身遙操數(shù)據(jù)采集系統(tǒng)利用所收集數(shù)據(jù)基于行為克隆,完成炒菜上菜、打電話并進入電梯等復雜移動操作任務。另一方面,常見遙操數(shù)據(jù)采集過程需要人類操作真實機器人執(zhí)行任務,斯坦福UMI
(UniversalManipulationInterface)
設計了一種低成本的手持平行夾爪,簡單通過人類握持夾爪執(zhí)行任務并錄制數(shù)據(jù),無需機器人實體,成本更低,便攜性更高,數(shù)據(jù)采集更高效。同時,UMI記錄夾爪的六維空間運動軌跡,而非具體的關節(jié)角度,可以映射到任何具有六個自由度的機器人。另外,由于光學動捕與慣性動捕的不足,DexCap使用EMF電磁式動捕手套聯(lián)合多視角相機來完成簡單高效的數(shù)據(jù)采集,并通過逆運動學動作映射與基于點云的生成式行為克隆策略學習靈巧操作。近期發(fā)布的人工在環(huán)遙操作數(shù)據(jù)集AgiBotWorld是全球首個基于全域真實場景、全能硬件平臺、全程質量把控的百萬量級真機數(shù)據(jù)集,相較于Google的OpenX-Embodiment數(shù)據(jù)集,AgiBotWorld長程數(shù)據(jù)規(guī)模高出10倍,場景范圍覆蓋面擴大100倍,數(shù)據(jù)質量也從實驗室級上升到工業(yè)級標準,但其采集成本高,無法跨越不同本體進行泛化。圖13:
人工在環(huán)遙操作數(shù)據(jù)采集年度代表性工作三維虛擬仿真數(shù)據(jù)提高收集高效性與精確可控性:對于抓取放置等靈巧操作任務,要求實現(xiàn)精確的位姿控制,而人工遙操數(shù)據(jù)難以達到足夠控制精度;同時,真機數(shù)據(jù)采集風險高,容易對機器人本體或物體造成損壞;此外,要保證訓練后機器人策略的泛化性,需要數(shù)據(jù)集包含物體幾何結構、外觀材質、空間位置、背景、光照等各個方面指數(shù)級的多樣化數(shù)據(jù)樣本,真實世界難以通過控制變量完成數(shù)據(jù)采集;另外,基于人工在環(huán)遙操作采集大規(guī)模數(shù)據(jù)成本高效率低。對此,三維虛擬仿真系統(tǒng)基于物理引擎模擬真實世界的物體材質、光照、力學等信號,通過代碼編程精確控制數(shù)據(jù)的多樣性變量,通過GPU并行計算進行高效數(shù)據(jù)合成,可以生成大規(guī)模具身數(shù)據(jù)。ManiSkill3
提出了一種機器人仿真與渲染框架,針對仿真與渲染、異構仿真、點云/體素視覺輸入等多個方面實現(xiàn)了GPU并行化,可達到最高每秒30,000幀以上的速度,并且使用2到3倍更少的GPU內存。DexGraspNet2.0針對嘈雜場景靈巧抓取任務,合成了包含1319個物體、8270個場景和4.27億個抓取樣本,并提出了一種兩階段抓取模型,實現(xiàn)了真實環(huán)境90.7%的成功率。GraspVLA
合成了全球最大規(guī)模十億級數(shù)據(jù)集,并使用統(tǒng)一表征實現(xiàn)與互聯(lián)網(wǎng)數(shù)據(jù)的高效融合,訓練了全球首個全面泛化的端到端具身抓取基礎大模型。盡管仿真合成數(shù)據(jù)大大加速了數(shù)據(jù)收集,但其仍然存在現(xiàn)實差距,難以完全模擬真實的傳感信號、復雜物體材質以及真實行為的變異性與不可預測性等,存在一定虛擬-現(xiàn)實鴻溝。圖14:
仿真數(shù)據(jù)合成方面年度代表性工作在2024年,具身智能在數(shù)據(jù)收集與高效利用方面取得顯著進展,三維視覺技術成為關鍵推動力。從人類視頻中提取運動規(guī)律、通過低成本設備實現(xiàn)高效數(shù)據(jù)采集,到利用仿真技術合成海量高質量數(shù)據(jù),這些方法在一定程度上緩解了數(shù)據(jù)匱乏的困境。展望未來,數(shù)據(jù)高效利用仍將是推動通用具身智能發(fā)展的核心動力。當前,人工在環(huán)遙操作數(shù)據(jù)雖為核心,但面臨高成本、低效率、動作靈活性損失及跨本體應用受限等挑戰(zhàn)。未來研究將聚焦于提升數(shù)據(jù)真實感與多樣性,采集力觸視覺多模態(tài)數(shù)據(jù)并挖掘深層關聯(lián),利用非在環(huán)控制的人手動作交互數(shù)據(jù),以及通過仿真與現(xiàn)實的閉環(huán)優(yōu)化縮小“模擬—現(xiàn)實”差距。
八、人形機器人從人類運動中學習通用交互技能
隨著人形機器人硬件技術的快速發(fā)展,具身智能領域的研究者們越來越關注人形機器人交互技能的學習。由于人形機器人的本體結構與人體高度相似,從人類動作中汲取靈感以學習交互技能已成為一個富有潛力的研究方向。2024年,三維視覺領域的研究者們一方面專注于逼真的人類交互動作捕捉與生成,提出了眾多具有物理真實性和類人可信度的數(shù)字人交互動作生成模型;另一方面,通過從大量人類交互運動中學習,多項研究成功賦予了人形機器人可靠模仿人類運動的能力。
在動作捕捉與生成領域,許多人體運動交互數(shù)據(jù)集(如Motion-X、InterHuman和TACO等)被相繼提出。為豐富交互運動的多樣性,大量研究致力于從這些數(shù)據(jù)集中學習,以生成包含人類與周圍場景、操作對象或其他參與者互動的動作。這些研究主要覆蓋全身交互(如ROAM、CHOIS和InterGen等)與手物交互(如Text2HOI、DiffH2O和MACS等)兩個層面。通過對交互行為進行合理表征,并結合擴散模型等強大的生成技術,動作生成在2024年實現(xiàn)了顯著的真實性和多樣性提升。其中,SyncDiff提出了一種在擴散模型推理過程中提升人類與物體運動同步性的方法,同時支持了全身交互、手物交互等多種類型復雜交互的生成。而DNO則聚焦于提升生成模型的靈活性,提出了一種無需重新訓練的模型應用技術,使用戶能夠根據(jù)需求自由編輯動作。此外,UniHSI和InterScene等研究將動作生成與物理仿真相結合,實現(xiàn)了人類在場景中符合物理規(guī)律的動作生成。
圖15:人體動作生成相關代表性工作隨著人類運動交互捕捉與生成技術的進步,人形機器人通過模仿人類獲取多樣化運動技能,成為全球多個研究團隊在2024年共同關注的重點方向。HumanPlus、OmniH2O和ExpressiveHumanoid等研究,通過建模人類行走、奔跑等運動數(shù)據(jù),為人形機器人的規(guī)劃與控制提供了關鍵的先驗知識,從而推動該領域的研究范式從機器人自主探索轉向模仿人類動作。為了研究人類交互動作對機器人模仿完成交互任務的影響,BiGym和Mimicking-Bench在仿真環(huán)境中設計了多種交互任務,包括開柜門、收拾餐具、坐下椅子、搬運箱子等。另一方面,DexCap、DexTrack和CyberDemo等工作則聚焦于從人類手物交互運動中學習靈巧手操作技能,為通用靈巧手操作技能學習拓展了思路??偟膩碚f,通過利用采集和生成的人類動作,這些研究顯著提升了人形機器人在完成復雜交互任務時的表現(xiàn)。圖16:從人體運動數(shù)據(jù)學習人形機器人動作生成雖然2024年從人類運動數(shù)據(jù)中學習人形機器人操作交互技能方向涌現(xiàn)出了大量探索,但是人形機器人類人交互技能發(fā)展仍充滿挑戰(zhàn)。在交互數(shù)據(jù)捕捉方面,需要解決如何大量從互聯(lián)網(wǎng)視頻數(shù)據(jù)中提取高質量的交互運動數(shù)據(jù)這一關鍵問題。在交互運動生成方面,泛化性、物理真實性、交互復雜性仍是重要挑戰(zhàn)。在人形機器人的運動智能方面,復雜接觸場景中更為穩(wěn)定精細的控制仍需要更多的研究關注。展望2025年,我們期待人形機器人能夠充分利用多樣化的人類動作生成技術,模仿人類完成更具挑戰(zhàn)性的任務,并進一步拓展其在真實場景中的應用能力。九、具身VLA大模型吞吐虛實大數(shù)據(jù)利用三維模態(tài)增進泛化性
尋找機器人的通用操作策略是具身智能領域一直以來的關鍵問題。
2023年7月由谷歌在RT-2工作中提出的Vision-Language-Action(VLA)
模型給出了一種端到端具身大模型的研究范式,輸入連續(xù)視覺觀測(V)和語言指令(L),模型直接輸出機器人的末端執(zhí)行器或者全身關節(jié)的瞬時運動(A)。然而RT-2的全部動作數(shù)據(jù)只有EverydayRobots在有限的幾個房間里采集的13萬條數(shù)據(jù),其動作訓練數(shù)據(jù)不足使得RT-2在關于環(huán)境、物體等的泛化性及任務的多樣性上仍有較大的限制。圖17:
具身VLA大模型相關代表性工作2024年,VLA在世界范圍內成為了具身智能和大模型領域關注的焦點,成為機器人通用控制架構的有力角逐者,各團隊提出不同的手段以應對數(shù)據(jù)和模型層面的挑戰(zhàn)。
為了解決數(shù)據(jù)的不足,一種思路是利用各種各樣的機器人上采集的數(shù)據(jù)。2024年6月,谷歌團隊發(fā)布開源且支持多種本體結構的大模型——OpenVLA。該大模型基于百萬軌跡量級的跨本體真實機器人數(shù)據(jù)集OpenX-Embodiment進行跨本體的預訓練??绫倔w訓練去掉了機器人數(shù)據(jù)必須來源于同款機器人的限制,降低了數(shù)據(jù)采集門檻,此類數(shù)據(jù)被用于大規(guī)模預訓練。OpenVLA同時提供了在測試的機器人上進行多種后訓練的方法,能夠快速適應新的本體和任務。PhysicalIntelligence團隊進一步提出了模型,使用FlowMatching的方法提升了VLA模型的性能,展示出了在真實世界處理復雜長程任務的能力。OpenVLA和模型的跨本體預訓練雖然對模型帶來了一定幫助,但不同本體的相機位置和動作空間都有所不同,因此預訓練后的模型在測試機器人上zero-shot直接使用并無法達到理想的工作水平,比較依賴在測試機器人上采集數(shù)百到上千條數(shù)據(jù)進行后訓練。
除了跨本體的思路以外,還可以采集單本體的大量數(shù)據(jù),或者是使用單本體的大量合成數(shù)據(jù)進行訓練。字節(jié)研究團隊提出了GR-2,對于特定場景中55個物體使用單一機械臂采集了94000條抓放軌跡,實現(xiàn)了在此場景中對物體抓放的泛化性。來自北大和銀河通用等的團隊提出了GraspVLA,利用圖形學手段合成了千萬條、十億幀場景隨機、物體隨機、物理真實、高逼真渲染的Frankaarm單一本體抓取動作數(shù)據(jù)。完全在合成動作數(shù)據(jù)上進行預訓練,GraspVLA展示了很強zero-shot能力,對于閉環(huán)抓取中的物體種類、背景、前景、光照、干擾物都體現(xiàn)了很強的泛化性,并擁有更好的后訓練效率。
2024年也有一些團隊試圖將3D視覺模態(tài)加入VLA,利用單或多視角RGB-D輸入中的幾何信息增強VLA。3D-VLA使用Diffusionmodel來生成任務目標圖片或點云并得到對應的開始狀態(tài)及結束狀態(tài)的3Dfeaturefield,將這兩者嵌入LLM中預測動作。3DDiffusionActor也利用了3Dfeaturefield,并成功通過denoisedtransformer將其與Diffusionpolicy融合輸出action,實現(xiàn)了比基于2D的VLA方法對視角更好的泛化性。這些方法目前受制于RGB-D動作數(shù)據(jù)的體量,其對任務和環(huán)境的泛化性仍有待提升。展望2025年,我們期待三維視覺模態(tài)和多模態(tài)合成大數(shù)據(jù)大力推進VLA的發(fā)展,在通用性和泛化性取得長足的進展。
十、三維計算成像與微觀宏觀領域科學研究突破傳統(tǒng)視覺傳感器采集的圖像/視頻在動態(tài)范圍、時間分辨率、波長譜段等方面只能記錄完整光場中非常有限的一部分信息,對于三維重建的性能勢必會帶來一定的制約。本年度涌
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 勞動合同范本題目
- 農村水田租賃承包合同范本
- 企業(yè)汽車銷售合同范本
- 代理買賣二手車合同范本
- 代領購房合同范本
- 一般經(jīng)銷合同范例
- 個人購貨采購合同范本
- 關于裝修貸款合同范本
- 升旗臺合同范本
- 前臺勞務派遣合同范本
- 2025勞動合同法重點法條導讀附案例詳解
- 2025年內蒙古自治區(qū)政府工作報告測試題及參考答案
- 2024年全國中學生生物學聯(lián)賽試題及答案詳解
- 2025年度花卉產業(yè)大數(shù)據(jù)服務平臺建設合同2篇
- 2025年度花卉產業(yè)大數(shù)據(jù)平臺建設合同3篇
- 魚骨圖培訓課件
- 小學班會-交通安全伴我行(共25張課件)
- 建筑施工現(xiàn)場安全警示(案例)
- 《生產與運作管理 第4版》課件 第1、2章 概論、需求預測與管理
- 護理禮儀與人文關懷
- 患者隱私保護的考試試題及答案
評論
0/150
提交評論