版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
阿里云/行業(yè)多模態(tài)模型負(fù)責(zé)人,高級(jí)算法專(zhuān)家行業(yè)多模態(tài)模型迭代范式多模態(tài)生成多模態(tài)生成參數(shù):1.5B、7B、72B、xxxB看見(jiàn)且看懂:動(dòng)態(tài)分辨率、OCR增強(qiáng)、視覺(jué)內(nèi)容解析聽(tīng)見(jiàn)且聽(tīng)懂:多語(yǔ)言理解、音樂(lè)鑒賞、情感分析等能力長(zhǎng)上下文窗口、代碼、數(shù)學(xué)、多語(yǔ)言多模態(tài)檢索多模態(tài)檢索多模態(tài)內(nèi)容生成多模態(tài)內(nèi)容理解多模態(tài)內(nèi)容生成多模態(tài)大模型MLLM/VLM多模態(tài)大模型MLLM/VLM性本本否低高否低低高弱能能高高強(qiáng)ASurveyofLLMASurveyonMultimodalLargeLanguageModels2024.02.12024.2-Gemini2024.02.12024.2-MeteorChameleonInternVL1.5Grok-1.5VInternLM-XComposer2-4KHDFerret-UICuMo,Ovis……Claude-3.5Sonnet2024.06.212024.6EVLMVILA^2Llava-NextVideoPaliGemmaInternvLInternVL2InternLM-XComposer2.5SOLO,IDA-VLM,MoME,SlowFast-LLaMA……Grok-22024.08.132024.8Mini-InternVLCAriaCAriaNVLMmPLUG-DocOwl22024.11-122024.11-12Pixtral,Ferret-UI2……MoE-LLaVAMeituanMoblieVLMV2LWMDeepSeek-VLMini-GeminiMM1LLaVA-Next,ALLaVA2024.4-5GPT-4o2024.05.132024.7ParrotGLM-4VVideoLLaMA2Phi-3-VisionLlava-NextInterleaveCambrain-1EVE,LongVA……Llava-NextOneVisionmPLUG-Owl3MoMaTransFusionBLIP-3LongVILACogVLM2SHOW-O,Eagle2024.9-10LLaMA3.2Qwen2-VL2024.09.18O1-Pro2024.12.09Gemini2.02024.12.11LLaVA-cotTokenFlowMoE端側(cè)/小模型全模態(tài)(+audio)decoder-onlyReasoning行業(yè)多模態(tài)場(chǎng)景-AIcitychallengeAIcitychallenge有CVPR和英偉達(dá)主辦,旨在推動(dòng)智慧城市發(fā)展隨著?模型技術(shù)爆發(fā),2024年特此開(kāi)設(shè)多模態(tài)城市交通安全分析賽道3.環(huán)境背景復(fù)雜4.結(jié)果長(zhǎng)文本描述modeldatadatafusedfusedmodelsmodelsVLMsVLMs行業(yè)模型迭代行業(yè)模型迭代Pipeline多模態(tài)RAG領(lǐng)域/動(dòng)態(tài)知識(shí)CityLLaVA:EfficientFine-tuningforVlmsinCityScenarioThe1stPlaceSolutiontoThe8thNVIDIAAICityChallenge(CVPR2024workshop)Track2Global&LocalViewswithVisualPromptsQA自動(dòng)生成關(guān)鍵點(diǎn)提煉視覺(jué)提示擴(kuò)寫(xiě)改寫(xiě)LoRA及其變種LoRA及其變種全量微調(diào)方法說(shuō)明添加低秩矩陣來(lái)適應(yīng)新任務(wù),顯著減少可訓(xùn)練參數(shù)數(shù)量更新模型的所有參數(shù)添加新transformerlayer/MLP等模型層,新層經(jīng)過(guò)ZeRO初始化,保證模型增量訓(xùn)練的穩(wěn)定性適用場(chǎng)景目標(biāo)場(chǎng)景和任務(wù)在基模訓(xùn)練基本覆蓋;微調(diào)主要聚焦關(guān)注點(diǎn),調(diào)整整輸出形式;數(shù)據(jù)量較小,GPU資源不足目標(biāo)場(chǎng)景和任務(wù)在基模幾乎不覆蓋,基模在該場(chǎng)景能力較差;訓(xùn)練的數(shù)據(jù)量較大,GPU資源充足有相對(duì)足夠的場(chǎng)景數(shù)據(jù),希望盡可能減少訓(xùn)練造成災(zāi)難性遺忘,對(duì)于模型推理時(shí)延變長(zhǎng)不敏感優(yōu)點(diǎn)訓(xùn)練消耗資源小;減少過(guò)擬合;模型不會(huì)產(chǎn)生額外的推理時(shí)部署成本較低;通??梢栽谛碌膱?chǎng)景和新的任務(wù)上達(dá)到很好的性能;學(xué)習(xí)新知識(shí)能力強(qiáng);兼顧學(xué)習(xí)新知識(shí)的能力,保持模型的通用能力;比全量微調(diào)就更好的穩(wěn)定性缺點(diǎn)無(wú)法學(xué)習(xí)到太多新的知識(shí);在復(fù)雜或較為困難的任務(wù)上作用不大;訓(xùn)練所需的機(jī)器資源龐大;數(shù)據(jù)量較低時(shí)容易過(guò)擬合及災(zāi)難性遺忘;額外的推理的成本;KV-Cache優(yōu)化、量化加IVTP:指令指導(dǎo)的視覺(jué)Token剪枝技術(shù)(a)與模型架構(gòu)緊密耦合:ViT和LLM之間插入可學(xué)習(xí)的聚合模塊,如BLIP2、Qwen-VL等,難以移植到其他模型框架BLIP2利用多層transformer壓縮視覺(jué)tokenQwen-vlQwen-vl通過(guò)單層互注TokenPacker在ViT和LLM中引入更為細(xì)粒度的視覺(jué)token聚合策更為細(xì)粒度的視覺(jué)token聚合策略量(b)針對(duì)純視覺(jué)ViT剪枝:ViT內(nèi)部各層中插入聚合模塊,如ELIP、ToMe等,VLM凍結(jié)視覺(jué)編碼Tome在ViT中插入token聚合層結(jié)構(gòu)ELIP利用文本信息指導(dǎo)ViT層間的視覺(jué)token壓縮IVTP:指令指導(dǎo)的視覺(jué)Token剪枝技術(shù)(a)與模型架構(gòu)緊密耦合:ViT和LLM之間插入可學(xué)習(xí)的聚合模塊,如BLIP2、Qwen-VL等,難以移植到其他模型框架(b)針對(duì)純視覺(jué)ViT剪枝:ViT內(nèi)部各層中插入聚合模塊,如ELIP、ToMe等,VLM凍結(jié)視覺(jué)編碼(c)分別在ViT和LLM中進(jìn)行雙階段剪枝,考慮可遷移性、端否是弱業(yè)界方法b是否強(qiáng)ours是是強(qiáng)IVTP:指令指導(dǎo)的視覺(jué)Token剪枝技術(shù)有選擇性地剔除冗余的視覺(jué)信息,精簡(jiǎn)token表征,在盡量不影響模型效果的前提下提升模型訓(xùn)練和推理效率。STEP1:在視覺(jué)編碼器,提出分組token修剪(GTP)模塊根據(jù)ViT中的內(nèi)在視覺(jué)CLStoken篩選低信息內(nèi)容的冗余tokenSTEP2:在LLM的淺層,引入CLIP將文本指令聚合到文本CLStoken,再次利用GTP模塊,消除與當(dāng)前query相關(guān)性低的視覺(jué)tokenIVTP:指令指導(dǎo)的視覺(jué)Token剪枝技術(shù)有選擇性地剔除冗余的視覺(jué)信息,精簡(jiǎn)token表征,在盡量不影響模型效果的前提下提升模型訓(xùn)練和推理效率。實(shí)驗(yàn)結(jié)果表明,在12個(gè)基準(zhǔn)測(cè)試中,實(shí)驗(yàn)結(jié)果表明,在12個(gè)基準(zhǔn)測(cè)試中,精度幾乎無(wú)損(小于1%)的情況下,視覺(jué)token數(shù)量減少了88.9%,計(jì)算復(fù)雜度降低了超過(guò)46%,顯著超過(guò)了現(xiàn)有的token剪枝方法`IVTP方法計(jì)算復(fù)雜度下降39.6%比同等指標(biāo)下SOTA下降31.4%原始圖像TopK原始圖像TopKours原始圖像TopKours特征可視化`重訓(xùn)練后,比無(wú)剪枝baseline精度更高可以以更少的token保證精度模型效果基本無(wú)損時(shí)(誤差0.5%)IPTV方法計(jì)算復(fù)雜度下降40.9%比同等指標(biāo)下SOTA下降23.7%。總結(jié)-takeawayl模型發(fā)展關(guān)注點(diǎn):理解生成統(tǒng)一、MoE、端側(cè)/小模型、全模態(tài)(+audio)、Reasoning等l行業(yè)多模態(tài)大模型效果提升:prompt優(yōu)化;?效微調(diào);RAG/推理增強(qiáng)l多模態(tài)大模型能力提升l1)高效視覺(jué)表征或訓(xùn)練方法;l2)理解與生成更高效的結(jié)合;l3)高效的數(shù)據(jù)構(gòu)建生成方法;l多模態(tài)RAG、智能體l大模型高效訓(xùn)推、模型小型化文字建議字體中文字體:微軟雅黑文字建議字體中文字體:微軟雅黑為保證文件兼容性,如無(wú)特殊情況,請(qǐng)勿使用其他藝術(shù)字體英文&數(shù)字字體Arial使用專(zhuān)有的英文字體可以使版面更加美觀,可以讓強(qiáng)調(diào)的英文&數(shù)字細(xì)節(jié)顯示更優(yōu)美,經(jīng)得起放大細(xì)看考慮到工作效率,非重要的文件無(wú)需考慮此項(xiàng),而對(duì)文本中的英文數(shù)字單獨(dú)設(shè)置字體。字號(hào)標(biāo)題字號(hào):28*可以多使用8為尾數(shù)的字號(hào),如:18、28、48、6
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 師德師風(fēng)警示教育活動(dòng)總結(jié)6篇
- 工程信息管理體系
- 國(guó)開(kāi)《可編程控制器應(yīng)用》形考任務(wù)五實(shí)驗(yàn)1
- 2024年淮南聯(lián)合大學(xué)高職單招職業(yè)適應(yīng)性測(cè)試歷年參考題庫(kù)含答案解析
- 2022年6月7日陜西省省直事業(yè)單位廣播電視局面試真題及答案
- 中國(guó)人民大學(xué)會(huì)計(jì)系列教材·第四版《成本會(huì)計(jì)學(xué)》課件-第六章
- 濕紙巾發(fā)展趨勢(shì)分析報(bào)告
- 2024年隴西縣第一人民醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫(kù)頻考點(diǎn)附帶答案
- 如何提起證券交易代理合同糾紛訴訟培訓(xùn)講學(xué)
- 2024年泰山護(hù)理職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測(cè)試歷年參考題庫(kù)含答案解析
- 《常見(jiàn)包材工藝簡(jiǎn)介》課件
- 運(yùn)輸管理與鐵路運(yùn)輸
- 寧德時(shí)代社招測(cè)評(píng)題庫(kù)
- 統(tǒng)編版六年級(jí)語(yǔ)文上冊(cè)專(zhuān)項(xiàng) 專(zhuān)題11文言文閱讀-原卷版+解析
- 高中數(shù)學(xué)筆記總結(jié)高一至高三很全
- 011(1)-《社會(huì)保險(xiǎn)人員減員申報(bào)表》
- 電廠(chǎng)C級(jí)檢修工藝流程
- 函授本科《小學(xué)教育》畢業(yè)論文范文
- 高考高中英語(yǔ)單詞詞根詞綴大全
- 藥用輔料聚乙二醇400特性、用法用量
- 《中小學(xué)機(jī)器人教育研究(論文)11000字》
評(píng)論
0/150
提交評(píng)論