




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
書生·萬象多模態(tài)大模型的目錄/OpenGVLab/InternVL未來:“通用性”一個模型多種任務多種模態(tài)深度學習理論突破深度置信網(wǎng)絡AlphaFold蛋白質(zhì)結(jié)構(gòu)預測準確率新高圍棋比賽AlphaGo4:1李世乭歷史:“特定任務+大數(shù)據(jù)”取得巨大成功未來:“通用性”一個模型多種任務多種模態(tài)深度學習理論突破深度置信網(wǎng)絡AlphaFold蛋白質(zhì)結(jié)構(gòu)預測準確率新高圍棋比賽AlphaGo4:1李世乭ImageNetImageNet競賽2016200620212012201620062021大規(guī)模語音識別 大規(guī)模語音識別 德州撲克首次在多人復雜對局中超越人類人臉識別LFW識別率99%,超過人類以視覺為核心的多模態(tài)大模型有望在眾多領域帶來AI生產(chǎn)力革命lili/OpenGVLab/InternVL/OpenGVLab/InternVL/OpenGVLab/InternVL目錄傳統(tǒng)視覺/視覺-語言基礎模型范式已落后于大語言模型的發(fā)展,亟需新的范式來推動其發(fā)展visionvisionvision?訓練數(shù)據(jù)單一、數(shù)據(jù)量小傳統(tǒng)視覺/視覺-語言基礎模型范式已落后于大語言模型的發(fā)展,亟需新的范式來推動其發(fā)展visionvisionvisionvision?訓練數(shù)據(jù)單一、數(shù)據(jù)量小?60億參數(shù)視覺模型+1000億參數(shù)語言模型?漸進式對齊視覺基礎模型和語言模型表征?大規(guī)模、多來源圖文多模態(tài)訓練數(shù)據(jù)核心思想:擴大視覺基礎模型并為通用視覺語言設計1:擴大視覺模型至6B參數(shù)/OpenGVLab/InternVL/OpenGVLab/InternVL設計1:擴大視覺模型至6B參數(shù)基于原始ViT結(jié)構(gòu),通過搜索模型深度{32,48,64,80},注意力頭維度{64,128},以及MLP比率{4,8},將視覺模型擴大至6B參數(shù),找到速度、精度、穩(wěn)定性平衡的模型核心思想:擴大視覺基礎模型并為通用視覺語言設計2:漸進式的圖像-文本對齊策略核心思想:擴大視覺基礎模型并為通用視覺語言設計2:漸進式的圖像-文本對齊策略設計2:漸進式的圖像-文本對齊策略階段1:利用海量帶噪聲的圖文數(shù)據(jù)進行對比學習預訓練(~5B圖像)階段2:利用過濾后的高質(zhì)量圖文數(shù)據(jù)進行對比學習和生成式聯(lián)合訓練(~1B圖像)篩選指標:CLIP相似度,水印概率,unsafe概率,美學指標,圖片分辨率,caption長度等核心思想:擴大視覺基礎模型并為通用視覺語言設計2:漸進式的圖像-文本對齊策略從適配視覺感知任務,到適配通用視覺語言任務,極大地擴寬了ImageClassificationImageClassificationSemanticSemanticSegmentationImageClassificationImageClassificationObjectObjectDetectionInstanceSegmentationZeroInstanceSegmentationZero-ShotImageCLS.CaptioningSemanticCaptioningSemanticSegmentation…VisualQuestionAns…VisualQuestionAnsweringMulti-RoundDialogueMulti-RoundDialogue……I∈RH×W×3F∈R××C僅用不到不到三分之一參數(shù)量,實現(xiàn)了與ViT檢索性能優(yōu)于CLIP、OpenCLIP、CoCa等模型強零樣本圖像、視頻分類能力/OpenGVLab/InternVLhttps://github/OpenGVLab/InternVL/OpenGVLab/InternVLInternVL+LanguageAdapter->Zeroshot多語言內(nèi)容生成OutputOutput(UNet,Transformer)?即插即用的為現(xiàn)有擴散模型增加多語言能力?只需要英文數(shù)據(jù)訓練,即可泛化到其他語言InternVL+LanguageAdapter->Zeroshot多語言內(nèi)容生成只需要英文數(shù)據(jù),即可支持超多語言/mulanai/MuLanInternVL+LanguageAdapter->Zeroshot多語言內(nèi)容生成即插即用,無需對DiffusionModel做額外訓練AnimateDiffAnimateDiff目錄/OpenGVLab/InternVL):):理解,高分辨率非常重要。但是對于一些常):53.6%56.8%53.6%56.8%59.4%58.5%52.8%49.9%50.5%52.1%88.3%78.2%88.1%80.3%78.1%78.0%-73.5%76.1%78.5%80.8%81.3%85.6%88.4%89.3%86.5%68.7%61.4%49.8%67.5%AI2D45.2%53.5%80.7%80.6%83.8%90.9%66.0%/OpenGVLab/InternVL/OpenGVLab/InternVL漸進式對齊訓練,通過模型"從小到大"、數(shù)據(jù)"從粗到精"的漸進式的訓練策略,以較低的成本完成了大模型的訓練,在有限資源下展現(xiàn)出卓越的性能表現(xiàn)大模型大數(shù)據(jù)僅需20%算力資源,比肩頂級閉源多模態(tài)大模型高效預訓練僅需20%算力資源,比肩頂級閉源多模態(tài)大模型/OpenGVLab/InternVL更強的OCR能力:毛筆字+豎排+繁體更強的圖表理解能力細節(jié)文字理解+文字深層含義細節(jié)文字理解+文字深層含義結(jié)合專業(yè)知識問答理解人工布置的巧妙之處httpshttps://github/OpenGVLab/InternVL
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- DB32/T 4098-2021農(nóng)產(chǎn)品區(qū)域公用品牌管理規(guī)范
- DB32/T 4084-2021福利機構(gòu)兒童日常護理安全操作規(guī)范
- DB32/T 3883-2020心肺運動測試儀呼吸系統(tǒng)通用測試規(guī)范
- DB32/T 3761.32-2021新型冠狀病毒肺炎疫情防控技術規(guī)范第32部分:無疫小區(qū)建設
- DB32/T 3731-2020信訪“人民滿意窗口”創(chuàng)建規(guī)范
- DB32/T 3631-2019沿海灘涂鹽堿地菊芋栽培技術規(guī)程
- DB32/T 3577-2019農(nóng)村產(chǎn)權(quán)交易服務通則
- DB32/T 3548-2019醫(yī)療機構(gòu)醫(yī)療廢物在線追溯管理信息系統(tǒng)建設指南
- DB31/T 986-2016水蜜桃冷鏈物流技術規(guī)程
- DB31/T 910-2015區(qū)域雷擊風險評估技術規(guī)范
- 《可靠性工程基礎》課件
- 建筑材料損耗率定額
- 【2023《上汽集團公司營運能力現(xiàn)狀及問題探析》8300字(論文)】
- 我是小小講解員博物館演講稿
- 糧安工程糧庫智能化升級改造 投標方案(技術標)
- 吉塔行星模擬課程
- 《反本能 如何對抗你的習以為?!纷x書筆記思維導圖PPT模板下載
- 西南交11春學期《模擬電子技術A》離線作業(yè)
- 施工單位平安工地考核評價表(標準)
- JJF 1855-2020純度標準物質(zhì)定值計量技術規(guī)范有機物純度標準物質(zhì)
- GB/T 35194-2017土方機械非公路機械傳動寬體自卸車技術條件
評論
0/150
提交評論