版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
多模態(tài)通用大模型魏明強(qiáng)、宮麗娜計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院智周萬物?道濟(jì)天下o
引言和目標(biāo)o
多模態(tài)數(shù)據(jù)集介紹o
CLIPo
GPT-4Vo
ImageBindo
3D-LLMo
Sora
目錄23
目錄o
引言和目標(biāo)o
多模態(tài)數(shù)據(jù)集介紹o
CLIPo
GPT-4Vo
ImageBindo
3D-LLMo
Sorao
多模態(tài)大模型是一種能夠同時(shí)處理和理解多種類型數(shù)據(jù)的人工智能模型,旨在模擬人類多感官的信息處理方式。o
本章將介紹多模態(tài)大模型的基礎(chǔ)概念、代表性模型(如CLIP和GPT-4V)、關(guān)鍵技術(shù)、實(shí)際應(yīng)用,以及未來的發(fā)展趨勢(shì)。學(xué)習(xí)目標(biāo):掌握多模態(tài)大模型的關(guān)鍵技術(shù)和代表性模型的架構(gòu);
引言和目標(biāo)49
目錄o
引言和目標(biāo)o
多模態(tài)數(shù)據(jù)集介紹o
CLIPo
GPT-4Vo
ImageBindo
3D-LLMo
Sora多模態(tài)數(shù)據(jù)集介紹10數(shù)據(jù)集年份模態(tài)描述圖像文本點(diǎn)云GQA2019年??大規(guī)模視覺推理和問答數(shù)據(jù)集HowTo100M2019年??大規(guī)模敘事視頻數(shù)據(jù)集Conceptual-12M2021年??拓展于ConceptualCaptions數(shù)據(jù)集YT-Temporal-180M2021年??覆蓋多種主題的大規(guī)模多樣化數(shù)據(jù)集WebVid-2M2021年??大規(guī)模視頻-文本對(duì)數(shù)據(jù)集ModelNet2015年??廣泛使用的合成3D模型數(shù)據(jù)集ShapeNet2015年??大規(guī)模的合成3D模型數(shù)據(jù)集ScanObjectNN2019年??真實(shí)世界中掃描得到的3D模型數(shù)據(jù)集KITTI2012年???廣泛使用的真實(shí)自動(dòng)駕駛基準(zhǔn)數(shù)據(jù)集nuScenes2019年???標(biāo)注細(xì)致的真實(shí)駕駛場(chǎng)景數(shù)據(jù)集Waymo2019年???大規(guī)模跨城市的真實(shí)自動(dòng)駕駛數(shù)據(jù)集表10.1常用多模態(tài)數(shù)據(jù)集多模態(tài)數(shù)據(jù)集介紹10GQA數(shù)據(jù)集示例HowTo100M數(shù)據(jù)集示例ScanObjectNN數(shù)據(jù)集示例KITTI數(shù)據(jù)集示例14
目錄o
引言和目標(biāo)o
多模態(tài)數(shù)據(jù)集介紹o
CLIPo
GPT-4Vo
ImageBindo
3D-LLMo
SoraCLIP:探索圖文結(jié)合的奧秘CLIP是OpenAI提出的多模態(tài)大模型,CLIP融合了對(duì)語言和圖像信息的綜合處理,不僅在圖像分類和物體檢測(cè)等傳統(tǒng)視覺任務(wù)上取得了領(lǐng)先的性能,而且在自然語言處理等領(lǐng)域也表現(xiàn)出色。對(duì)比學(xué)習(xí)預(yù)訓(xùn)練文本編碼器Transformer圖像編碼器ResNet-50VisionTransformer(ViT)CLIP:探索圖文結(jié)合的奧秘訓(xùn)練過程
偽代碼CLIP:探索圖文結(jié)合的奧秘CLIP的零樣本預(yù)測(cè)能力CLIP:探索圖文結(jié)合的奧秘相關(guān)應(yīng)用圖像編輯開放詞匯目標(biāo)檢測(cè)CLIP:探索圖文結(jié)合的奧秘相關(guān)應(yīng)用文本生成圖像文本生成三維形狀
目錄16o
引言和目標(biāo)o
多模態(tài)數(shù)據(jù)集介紹o
CLIPo
GPT-4Vo
ImageBindo
3D-LLMo
SoraGPT-4V:大模型視覺能力新篇章GPT-4V是OpenAI推出的多模態(tài)語言模型,它的主要特點(diǎn)是能夠處理圖像和文本輸入。這使得它可以理解并生成與圖像相關(guān)的文本描述,回答視覺相關(guān)的問題,甚至在更復(fù)雜的多模態(tài)任務(wù)中表現(xiàn)出色。在本節(jié)中,我們將重點(diǎn)介紹GPT-4V的輸入模式及其所具備的部分視覺語言能力。GPT-4V能夠處理三種主要類型的輸入:純文本輸入單一圖像-文本對(duì)輸入交錯(cuò)圖像-文本對(duì)輸入GPT-4V:大模型視覺能力新篇章GPT-4V:大模型視覺能力新篇章上下文少樣本示例學(xué)習(xí)GPT-4V:大模型視覺能力新篇章理解和表達(dá)視覺信息在人類認(rèn)知中扮演著至關(guān)重要的角色。GPT-4V以其卓越的視覺理解和描述能力,在解讀圖像信息方面展現(xiàn)出了極強(qiáng)的表現(xiàn)。GPT-4V展現(xiàn)了卓越的視覺語言能力,能夠理解和表達(dá)復(fù)雜的視覺信息。這種能力體現(xiàn)在多個(gè)高級(jí)視覺任務(wù)中:名人識(shí)別地標(biāo)識(shí)別食物識(shí)別醫(yī)學(xué)影像分析場(chǎng)景理解GPT-4V:大模型視覺能力新篇章高級(jí)視覺任務(wù)應(yīng)用空間關(guān)系理解對(duì)象計(jì)數(shù)對(duì)象定位…………o
引言和目標(biāo)o
多模態(tài)數(shù)據(jù)集介紹o
CLIPo
GPT-4Vo
ImageBindo
3D-LLMo
Sora
目錄2ImageBind:多感官統(tǒng)一以CLIP和GPT-4V為代表的多模態(tài)大模型在音頻、深度、熱像等感官領(lǐng)域仍有一些不足。在這一背景下,Meta
AI提出了一種多感官統(tǒng)一大模型,即ImageBind。六種感官統(tǒng)一到聯(lián)合嵌入空間圖像/視頻文本音頻深度熱像IMUImageBind:多感官統(tǒng)一相關(guān)應(yīng)用跨模態(tài)檢索嵌入空間算術(shù)音頻生成圖像…ImageBind:多感官統(tǒng)一PouringTrainsRain音頻->圖像文本->音頻&圖像音頻&圖像->圖像應(yīng)用示例ImageBind:多感官統(tǒng)一使用方法(/facebookresearch/ImageBind.git)即插即用靈活可拓展多模態(tài)內(nèi)容創(chuàng)作零成本模型升級(jí)多模態(tài)圖像搜索o
引言和目標(biāo)o
多模態(tài)數(shù)據(jù)集介紹o
CLIPo
GPT-4Vo
ImageBindo
3D-LLMo
Sora
目錄23D-LLM:將3D世界注入大模型3D-LLM是加州大學(xué)、上海交通大學(xué)等多所高校的學(xué)者聯(lián)合提出的一種新的三維大模型。這一技術(shù)在機(jī)器人領(lǐng)域展現(xiàn)出了較大的應(yīng)用潛力,因?yàn)樗梢詫⑷S世界的知識(shí)注入到大模型中,使智能體在三維環(huán)境中能夠更有效地進(jìn)行導(dǎo)航、規(guī)劃和執(zhí)行任務(wù)。3D-LLM:將3D世界注入大模型三維數(shù)據(jù)生成o
基于Boxes-Demonstration-Instruction的提示l
輸入三維場(chǎng)景中物體的軸對(duì)齊包圍框(Axis-AlignedBoundingBoxes:AABB),以提供場(chǎng)景的語義和空間位置信息,并通過向GPT模型提供具體的特定指令,從而生成多樣化的數(shù)據(jù)。o
基于ChatCaptioner的提示l
利用ChatGPT輸入提示,詢問一系列關(guān)于圖像的信息性問題(InformativeQuestions),隨后使用BLIP-2模型回答這些問題。o
基于Revision的提示l
該方法可用于將一種類型的三維數(shù)據(jù)轉(zhuǎn)換為另一種類型。3D-LLM:將3D世界注入大模型o
Objaversel
包含八十萬個(gè)三維物體。由于這些物體的語言描述是從在線資源中提取的,未經(jīng)人工校驗(yàn),因此大多數(shù)描述包含大量噪聲,如網(wǎng)址等,或根本無法生成描述。研究者們利用基于ChatCaptioner的提示功能,為這些場(chǎng)景生成高質(zhì)量的三維場(chǎng)景相關(guān)描述。o
ScanNet
l
包含約一千個(gè)三維室內(nèi)場(chǎng)景的豐富標(biāo)注數(shù)據(jù)集,提供了場(chǎng)
景中物體的語義和邊界框信息。o
Habitat-Matterport(HM3D)l
一個(gè)反映人工智能三維環(huán)境的數(shù)據(jù)集。HM3DSem為HM3D的兩百多個(gè)場(chǎng)景進(jìn)一步添加了語義注釋和邊界框。3D-LLM:將3D世界注入大模型3D-LLM訓(xùn)練方式3D-LLM:將3D世界注入大模型o
模型推理l
下載objaverse子集特征l
下載預(yù)訓(xùn)練檢查點(diǎn)o
模型微調(diào)l
下載預(yù)訓(xùn)練檢查點(diǎn):修改yaml配置文件中的“resume_checkpoint_path”路徑l
下載問題:修改yaml配置文件中的“annotations”路徑l
下載scannet特征或3dmv-vqa特征:修改“l(fā)avis/datasets/datasets/thirdvqa_datasets.py”中的路徑(train和val)3D-LLM安裝與實(shí)現(xiàn)3D-LLM:將3D世界注入大模型3D-LLM應(yīng)用圖譜3D-LLM:將3D世界注入大模型3D-LLM應(yīng)用范圍c機(jī)器人技術(shù)實(shí)體人工智能智能導(dǎo)覽和規(guī)劃…………o
利用3D-LLM,機(jī)器人能夠更靈活地感知和理解三維環(huán)境,有效執(zhí)行復(fù)雜任務(wù),如導(dǎo)航、物體抓取和環(huán)境交互等。o
3D-LLM可用于增強(qiáng)實(shí)體的感知和認(rèn)知能力,提高其與環(huán)境的交互效果,尤其在虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等場(chǎng)景中有較多潛在應(yīng)用。o
應(yīng)用于智能導(dǎo)覽和規(guī)劃中,3D-LLM可以幫助系統(tǒng)更好地理解復(fù)雜的環(huán)境結(jié)構(gòu),并提供更智能、個(gè)性化的導(dǎo)覽和規(guī)劃服務(wù)。o
引言和目標(biāo)o
多模態(tài)數(shù)據(jù)集介紹o
CLIPo
GPT-4Vo
ImageBindo
3D-LLMo
Sora
目錄2Sora:文生視頻,理解世界Sora是OpenAI推出的多模態(tài)語言模型,它能夠根據(jù)給出的提示信息有效生成高質(zhì)量的、擬真的高清晰度視頻。它通過分塊編碼和擴(kuò)散模型結(jié)合方案,賦予了模型更低的運(yùn)算成本、更高的生成自由度和更擬真的生成效果。Thisclose-upshotofachameleonshowcasesitsstrikingcolorchangingcapabilities.Thebackgroundisblurred,drawingattentiontotheanimal’sstrikingappearance.(這張變色龍的特寫鏡頭展示了它驚人的變色能力。背景模糊,吸引人們注意這只動(dòng)物引人注目的外觀)Thecamerarotatesaroundalargestackofvintagetelevisionsallshowingdifferentprograms—1950ssci-fimovies,horrormovies,news,static,a1970ssitcom,etc,setinsidealargeNewYorkmuseumgallery.(鏡頭圍繞著一大堆老式電視機(jī)旋轉(zhuǎn),播放著不同的節(jié)目——20世紀(jì)50年代的科幻電影、恐怖電影、新聞、靜態(tài)節(jié)目、20世紀(jì)70年代的情景喜劇等,背景是紐約的一個(gè)大型博物館畫廊。)Sora:文生視頻,理解世界Sora是基于DiT的隱空間擴(kuò)散模型,與原始版本的擴(kuò)散模型不同,DiT使用Transformer進(jìn)行逆擴(kuò)散過程。相比U-Net,Transformer架構(gòu)的參數(shù)可拓展性強(qiáng),即隨著參數(shù)量的增加,Transformer架構(gòu)的性能提升會(huì)更加明顯。在此基礎(chǔ)上,Sora使用了時(shí)空感知模塊,使其具有此前基于圖像生成的擴(kuò)散模型進(jìn)行的精調(diào)模型所不具備的超凡的時(shí)空感知能力。1.時(shí)空深度融合Sora重新訓(xùn)練了一套能直接壓縮視頻的自編碼器。相比之前的工作,Sora的自編碼器不僅能提取像素空間維度特征,還能提取時(shí)間維度特征2.處理任意分辨率、時(shí)長的視頻在訓(xùn)練和生成時(shí)使用的視頻可以是任何分辨率、任何長寬比、任何時(shí)長的。這意味著視頻訓(xùn)練數(shù)據(jù)不需要做縮放、裁剪等預(yù)處理3.真正地理解世界Sora能夠更正確認(rèn)識(shí)物體在世界中客觀存在的事實(shí),能夠穩(wěn)定地維持目標(biāo);Sora能夠更正確地理解真實(shí)世界中目標(biāo)間相互作用;Sora具有一定的進(jìn)行“超視覺”邏輯信息推理的能力Sora:文生視頻,理解世界局限性與爭議能力有限理解世界?效果不達(dá)標(biāo)仍未完成OpenAI于2024年2月首次公布了Sora的技術(shù)報(bào)告,但是截至2024年9月,Sora仍然未進(jìn)行公開或半公開的測(cè)試,僅有極少數(shù)團(tuán)隊(duì)被允許在小范圍內(nèi)受限地試用Sora。楊立昆(YannLeCun)Meta首席人工智能科學(xué)家ACM圖靈獎(jiǎng)得主根據(jù)提示生成看起來十分?jǐn)M真的視頻無法表明系統(tǒng)能夠理解真實(shí)世界,通過生成像素來對(duì)世界進(jìn)行建模是一種浪費(fèi),并且注定會(huì)失敗。李沐
前Amazon首席科學(xué)家BosonAI聯(lián)合創(chuàng)始人模型跟前作DiT可能變化不大,但是用了幾百倍的算力…目前的技術(shù)報(bào)告缺
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《證券基本知識(shí)培訓(xùn)》課件
- 七年級(jí)英語Peopleandwork課件
- 2025年寫人要抓住特點(diǎn)
- 大學(xué)計(jì)算機(jī)專業(yè)介紹
- 《試驗(yàn)室管理》課件
- 單位管理制度集粹選集【職員管理篇】
- 單位管理制度范例選集人員管理十篇
- 單位管理制度呈現(xiàn)合集人員管理十篇
- 單位管理制度呈現(xiàn)大合集人事管理篇
- (高頻選擇題50題)第1單元 中華人民共和國的成立和鞏固(解析版)
- 2024秋期國家開放大學(xué)??啤陡叩葦?shù)學(xué)基礎(chǔ)》一平臺(tái)在線形考(形考任務(wù)一至四)試題及答案
- 敞開式硬巖TBM掘進(jìn)操作參數(shù)的控制 方志威
- (中職)《電子商務(wù)基礎(chǔ)》第1套試卷試題及答案
- 汽車三維建模虛擬仿真實(shí)驗(yàn)
- 無人機(jī)智慧旅游解決方案
- 行車起重作業(yè)風(fēng)險(xiǎn)分析及管控措施
- 健康管理主題PPT模板-健康管理
- 山西事業(yè)單位專業(yè)技術(shù)職務(wù)聘任管理
- 110kV及以上電力電纜敷設(shè)施工方法要點(diǎn)
- 國家開放大學(xué)電大??啤缎谭▽W(xué)(1)》期末題庫及答案
- 消防安全承諾書[新].doc
評(píng)論
0/150
提交評(píng)論