書(shū)生萬(wàn)象大模型的技術(shù)演進(jìn)與應(yīng)用探索_第1頁(yè)
書(shū)生萬(wàn)象大模型的技術(shù)演進(jìn)與應(yīng)用探索_第2頁(yè)
書(shū)生萬(wàn)象大模型的技術(shù)演進(jìn)與應(yīng)用探索_第3頁(yè)
書(shū)生萬(wàn)象大模型的技術(shù)演進(jìn)與應(yīng)用探索_第4頁(yè)
書(shū)生萬(wàn)象大模型的技術(shù)演進(jìn)與應(yīng)用探索_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

書(shū)生·萬(wàn)象多模態(tài)大模型的

技術(shù)演進(jìn)與應(yīng)用探索演講人:

王文海目錄1

多模態(tài)大模型研究背景

2

大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊

3

強(qiáng)多模態(tài)模型構(gòu)建4

不止于語(yǔ)言輸出:通專(zhuān)融合研究背景:大語(yǔ)言模型&多模態(tài)大模型歷史:“特定任務(wù)+大數(shù)據(jù)”取得巨大成功

一個(gè)模型解決一個(gè)問(wèn)題德州撲克首次在多人復(fù)雜對(duì)局中超越人類(lèi)深度學(xué)習(xí)理論突破深度置信網(wǎng)絡(luò)1000類(lèi),

100萬(wàn)數(shù)據(jù)人臉識(shí)別LFW識(shí)別率99%,超過(guò)人類(lèi)以視覺(jué)為核心的多模態(tài)大模型有望在眾多領(lǐng)域帶來(lái)AI生產(chǎn)力革命大規(guī)模語(yǔ)音識(shí)別

Switchboard錯(cuò)誤降低9%

AlphaGo4:1李世乭未來(lái):“通用性”一個(gè)模型多種任務(wù)多種模態(tài)/OpenGVLab/InternVL201120142019AlphaFoldImageNet競(jìng)賽圍棋比賽蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確率新高2006202120122016研究背景:大語(yǔ)言模型&多模態(tài)大模型DeepSeekBaichuanInternLMChatGLMdec-onlyenc-onlyQwenenc-decli研究背景:大語(yǔ)言模型&多模態(tài)大模型/OpenGVLab/InternVLInternVLMiniCPMCogVLM研究背景:大語(yǔ)言模型&多模態(tài)大模型[1]LiJ,LiD,Savarese

S,etal.Blip-2:Bootstrappinglanguage-imagepre-training

with

frozenimageencodersandlargelanguagemodels[C]//Internationalconferenceonmachinelearning.

PMLR,2023:19730-19742.[2]

LiuH,LiC,

WuQ,etal.

Visualinstruction

tuning[J].

Advancesinneuralinformationprocessing

systems,2024,36.[3]

Wang

W,LvQ,

Yu

W,etal.Cogvlm:

Visualexpert

forpretrainedlanguagemodels[J].arXiv

preprint

arXiv:2311.03079,2023./OpenGVLab/InternVL1.QFormer[1]3.MoE

[3]2.

MLP[2]目錄1

多模態(tài)大模型研究背景

2

大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊

3

強(qiáng)多模態(tài)模型構(gòu)建4

不止于語(yǔ)言輸出:通專(zhuān)融合InternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊傳統(tǒng)視覺(jué)/視覺(jué)-語(yǔ)言基礎(chǔ)模型范式已落后于大語(yǔ)言模型的發(fā)展,亟需新的范式來(lái)推動(dòng)其發(fā)展20122021?

與LLM參數(shù)量差距過(guò)大?

與LLM表征不一致?訓(xùn)練數(shù)據(jù)單一、數(shù)據(jù)量小visionencodervisionencodertextencoder判別式預(yù)訓(xùn)練AlexNet、

ResNet對(duì)比式預(yù)訓(xùn)練CLIP、ALIGNimagetextcontrastiveclassesimagevisionencodervisionencodertextencoder漸進(jìn)式對(duì)齊訓(xùn)練書(shū)生圖文大模型-InternVL?60億參數(shù)視覺(jué)模型+1000億參數(shù)語(yǔ)言模型?漸進(jìn)式對(duì)齊視覺(jué)基礎(chǔ)模型和語(yǔ)言模型表征?大規(guī)模、多來(lái)源圖文多模態(tài)訓(xùn)練數(shù)據(jù)傳統(tǒng)視覺(jué)/視覺(jué)-語(yǔ)言基礎(chǔ)模型范式已落后于大語(yǔ)言模型的發(fā)展,亟需新的范式來(lái)推動(dòng)其發(fā)展20122021

2023大模型時(shí)代InternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊largelanguagemodel>100Bscaling

upvisionencoderto6B#params?

與LLM參數(shù)量差距過(guò)大?

與LLM表征不一致?訓(xùn)練數(shù)據(jù)單一、數(shù)據(jù)量小判別式預(yù)訓(xùn)練AlexNet、

ResNetimage

textprompt對(duì)比式預(yù)訓(xùn)練CLIP、ALIGNimagetextlanguage

modelfeaturealigningcontrastivegenerativeclassesimage<10B設(shè)計(jì)1:擴(kuò)大視覺(jué)模型至6B參數(shù)步驟1:固定

60億參數(shù),網(wǎng)格搜索模型寬度、深度

MLP

Ratio和Attention

Head維度步驟2:使用CLIP作為代理任務(wù),找到在速度、準(zhǔn)

確性和穩(wěn)定性之間取得平衡的模型InternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊核心思想:擴(kuò)大視覺(jué)基礎(chǔ)模型并為通用視覺(jué)語(yǔ)言任務(wù)進(jìn)行對(duì)齊/OpenGVLab/InternVL設(shè)計(jì)1:擴(kuò)大視覺(jué)模型至6B參數(shù)基于原始ViT結(jié)構(gòu),通過(guò)搜索模型深度{32,48,64,80},注意力頭維度{64,

128}

,

以及MLP比率{4,8},將視覺(jué)模型擴(kuò)大至6B參數(shù),找到速度、精度、穩(wěn)定性平衡的模型InternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊/OpenGVLab/InternVLInternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊設(shè)計(jì)2:漸進(jìn)式的圖像-文本對(duì)齊策略階段1:利用海量帶噪聲的圖文數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí)預(yù)訓(xùn)練(~5B圖像)核心思想:擴(kuò)大視覺(jué)基礎(chǔ)模型并為通用視覺(jué)語(yǔ)言任務(wù)進(jìn)行對(duì)齊/OpenGVLab/InternVL設(shè)計(jì)2:漸進(jìn)式的圖像-文本對(duì)齊策略階段1:利用海量帶噪聲的圖文數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí)預(yù)訓(xùn)練(~5B圖像)階段2:利用過(guò)濾后的高質(zhì)量圖文數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí)和生成式聯(lián)合訓(xùn)練(~1B圖像)InternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊核心思想:擴(kuò)大視覺(jué)基礎(chǔ)模型并為通用視覺(jué)語(yǔ)言任務(wù)進(jìn)行對(duì)齊/OpenGVLab/InternVL設(shè)計(jì)2:漸進(jìn)式的圖像-文本對(duì)齊策略階段1:利用海量帶噪聲的圖文數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí)預(yù)訓(xùn)練(~5B圖像)階段2:

利用過(guò)濾后的高質(zhì)量圖文數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí)和生成式聯(lián)合訓(xùn)練(~1B圖像)InternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊篩選指標(biāo):CLIP相似度,水印概率,

unsafe概率,美學(xué)指標(biāo),圖片分辨率,caption長(zhǎng)度等/OpenGVLab/InternVL設(shè)計(jì)2:漸進(jìn)式的圖像-文本對(duì)齊策略階段1:利用海量帶噪聲的圖文數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí)預(yù)訓(xùn)練(~5B圖像)階段2:利用過(guò)濾后的高質(zhì)量圖文數(shù)據(jù)進(jìn)行對(duì)比學(xué)習(xí)和生成式聯(lián)合訓(xùn)練(~1B圖像)階段3:利用高質(zhì)量Caption/VQA/多輪對(duì)話(huà)數(shù)據(jù)進(jìn)行SFT訓(xùn)練(~4M圖像)InternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊核心思想:擴(kuò)大視覺(jué)基礎(chǔ)模型并為通用視覺(jué)語(yǔ)言任務(wù)進(jìn)行對(duì)齊/OpenGVLab/InternVL多模態(tài)對(duì)話(huà)數(shù)據(jù)收集包含圖像描述、物體檢測(cè)、

OCR、科學(xué)、

圖表、數(shù)學(xué)、常識(shí)、文檔、多輪對(duì)話(huà)、文本對(duì)話(huà)...InternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊/OpenGVLab/InternVLInternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊從適配視覺(jué)感知任務(wù),到適配通用視覺(jué)語(yǔ)言任務(wù),極大地?cái)U(kuò)寬了模型的適用范圍LikeViT-22BLike

CLIPLike

GPT-4VImage-Text

RetrievalZero-Shot

ImageCLS.ImageVisualQuestionAnsweringImageClassification…Semantic

SegmentationMulti-Round

Dialogue…Object

DetectionInstanceSegmentationSemanticSegmentationImageClassificationGenericVision-LanguageTasks/OpenGVLab/InternVLVisual

PerceptionTasksCaptioning在多種通用視覺(jué)語(yǔ)言任務(wù)上的取得了最好的性能,包括:1)視覺(jué)任務(wù):圖像/視頻分類(lèi),語(yǔ)義分割;2)視覺(jué)-語(yǔ)言任務(wù):圖像/視頻-文本檢索,零樣本圖像分類(lèi);3)通用視覺(jué)問(wèn)答:圖像描述,視覺(jué)問(wèn)答,多輪對(duì)話(huà)InternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊/OpenGVLab/InternVLInternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊ImageI

RH×W×3InternViT-6BF

R

×

×C對(duì)于視覺(jué)任務(wù),

InternVL的視覺(jué)編碼器,即InternViT-6B,可以直接用作視覺(jué)主干網(wǎng)絡(luò)僅用不到不到三分之一參數(shù)量,實(shí)現(xiàn)了與ViT-22B相當(dāng)?shù)男阅?OpenGVLab/InternVLImage-LevelTasksPixel-LevelTasks多語(yǔ)言的零樣本圖文檢索評(píng)測(cè)檢索性能優(yōu)于CLIP、

OpenCLIP、

CoCa等模型InternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊-C對(duì)于視覺(jué)語(yǔ)言任務(wù),

有兩種變體:

InternVL-Cand

InternVL-G-GInternVL:大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊強(qiáng)零樣本圖像、視頻分類(lèi)能力/OpenGVLab/InternVL/OpenGVLab/InternVL零樣本視頻分類(lèi)能力評(píng)測(cè)零樣本圖像分類(lèi)能力評(píng)測(cè)?即插即用的為現(xiàn)有擴(kuò)散模型增加多語(yǔ)言能力?只需要英文數(shù)據(jù)訓(xùn)練,即可泛化到其他語(yǔ)言?支持多種語(yǔ)言的混合輸入,甚至是

emoji?無(wú)需額外訓(xùn)練,即可兼容社區(qū)模型,如ControlNet

,

LCM

LoRA

等InternVL

+

Language

Adapter

->Zeroshot多語(yǔ)言?xún)?nèi)容生成(UNet,Transformer)(1)

OverallArchitecturehttps://githu/mulanai/MuLanDenoisingModelLanguage

Adapter

InternVL

Text

Encoder/OpenGVLab/InternVLTextEncoder/sNoisyLatentOutputInternVL

+

Language

Adapter

->Zeroshot多語(yǔ)言?xún)?nèi)容生成只需要英文數(shù)據(jù),即可支持超多語(yǔ)言

https://github.com/mulanai/MuLan/OpenGVLab/InternVL加泰羅尼亞語(yǔ)阿爾巴尼亞語(yǔ)斯洛伐克語(yǔ)阿塞拜疆語(yǔ)簡(jiǎn)體中文繁體中文烏克蘭語(yǔ)匈牙利語(yǔ)土耳其語(yǔ)阿拉伯語(yǔ)中英混合捷克語(yǔ)荷蘭語(yǔ)希臘語(yǔ)越南語(yǔ)波斯語(yǔ)印尼語(yǔ)Emoji俄語(yǔ)德語(yǔ)韓語(yǔ)英文法語(yǔ)日語(yǔ)InternVL

+

Language

Adapter

->Zeroshot多語(yǔ)言?xún)?nèi)容生成即插即用,無(wú)需對(duì)Diffusion

Model做額外訓(xùn)練https://githu/mulanai/MuLan/OpenGVLab/InternVLDreamshaperRealisticVisionSDXL

LightningLoRA

(Lego)3DAnimationAnimateDiffSDXLTurboCartoonmixControlNetMVDreamLCM目錄1

多模態(tài)大模型研究背景

2

大規(guī)模視覺(jué)語(yǔ)言模型對(duì)齊

3

強(qiáng)多模態(tài)模型構(gòu)建4

不止于語(yǔ)言輸出:通專(zhuān)融合增強(qiáng)圖文多模態(tài)對(duì)話(huà)能力

3個(gè)關(guān)鍵點(diǎn)主體(強(qiáng)基礎(chǔ)模型):更大的視覺(jué)模型可以包含更廣

的視覺(jué)domain,抽取更強(qiáng)的視覺(jué)表征,更強(qiáng)的語(yǔ)言模型有更強(qiáng)的語(yǔ)言能力、世界知識(shí)和推理能力動(dòng)態(tài)分辨率(火箭頭):模型需要根據(jù)任務(wù)調(diào)整不同的分辨率。對(duì)于一些圖像細(xì)節(jié)的理解任務(wù),如:文檔理解,高分辨率非常重要。但是對(duì)于一些常見(jiàn)的問(wèn)答任務(wù)又不需要大分辨率。燃料(高質(zhì)量數(shù)據(jù)集):多語(yǔ)言、多來(lái)源、精細(xì)標(biāo)注InternVL

1.5:接近商用性能的開(kāi)源多模態(tài)大模型/OpenGVLab/InternVLGrok-1.5VGPT-4VClaude-3OpusGemini

Pro

1.553.6%56.8%59.4%58.5%52.8%49.9%50.5%52.1%88.3%78.2%88.1%80.3%78.1%78.0%-73.5%76.1%78.5%80.8%81.3%85.6%88.4%89.3%86.5%68.7%61.4%49.8%67.5%MMMUMulti-disciplineAI2DDiagramsRealWorldQAReal-worldunderstandingChartQAChartsInternVL

1.545.2%53.5%80.7%80.6%83.8%90.9%66.0%InternVL

1.5:接近GPT-4V的開(kāi)源多模態(tài)對(duì)話(huà)模型和頭部商用模型對(duì)比/OpenGVLab/InternVLTextVQAText

readingMathVistaMathDocVQADocumentsBenchmarkInternVL

1.5:接近GPT-4V的開(kāi)源多模態(tài)對(duì)話(huà)模型分辨率對(duì)性能的影響/OpenGVLab/InternVL在MMMU,

MMBench等評(píng)測(cè)上比肩GPT-4o和Gemini

Pro

1.5加速Scaling

Law曲線(xiàn),僅需原有的1/5的算力

即可取得同等的效果算力漸進(jìn)式對(duì)齊訓(xùn)練,通過(guò)模型"從小到大"、數(shù)據(jù)"從粗到精"的漸進(jìn)式的訓(xùn)練策略,以較低的成本完成了大模型的訓(xùn)練,在有限資源下展現(xiàn)出卓越的性能表現(xiàn)書(shū)生·萬(wàn)象

InternVL2.0:全方面提升篩選數(shù)據(jù)擴(kuò)大模型損失函數(shù)小模型+大數(shù)據(jù)

僅需20%算力資源,比肩頂級(jí)閉源多模態(tài)大模型/OpenGVLab/InternVL大模型

+小數(shù)據(jù)

高效對(duì)齊傳統(tǒng)scaling

Law高質(zhì)量精選數(shù)據(jù)海量帶噪數(shù)據(jù)百億參數(shù)模型千億參數(shù)模型高效

預(yù)訓(xùn)練大模型

+和頭部商用模型對(duì)比書(shū)生·萬(wàn)象

InternVL2.0:全方面提升更強(qiáng)的OCR能力:毛筆字+豎排+繁體/OpenGVLab/InternVL更強(qiáng)的圖表理解能力/OpenGVLab/InternVL細(xì)節(jié)文字理解+文字深層含義/OpenGVLab/InternVL細(xì)節(jié)文字理解+文字深層含義/OpenGVLab/InternVL結(jié)合專(zhuān)業(yè)知識(shí)問(wèn)答/OpenGVLab/InternVL理解人工布置的巧妙之處/OpenGVLab/InternVL圖-文-動(dòng)作結(jié)合回答/OpenGVLab/InternVLhttps://github圖像細(xì)節(jié)理解+精確定位Model

NameVision

PartLanguage

PartHF

LinkMS

LinkDocumentInternVL2-1BInternViT-300M-448

pxQwen2-0.5B-Instruct

link

link

docInternVL2-2BInternViT-300M-448

pxinternlm2-chat-1-8b

link

link

docInternVL2-4BInternViT-300M-448

pxPhi-3-mini-128k-inst

ruct

link

link

docInternVL2-8BInternViT-300M-448

pxinternlm2_5-7b-chat

link

link

docInternVL2-26BInternViT-6B-448px-

V1-5internlm2-chat-20b

link

link

docInternVL2-40BInternViT-6B-448px-

V1-5Nous-Hermes-2-Yi-

34B

link

link

docInternVL2-Llama3

-

76BInternViT-6B-448px-

V1-5Hermes-2-Theta-

Llama-3

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論