2024年多模態(tài)大模型(MLLMs)輕量化方法研究現狀和展望報告-中移智庫_第1頁
2024年多模態(tài)大模型(MLLMs)輕量化方法研究現狀和展望報告-中移智庫_第2頁
2024年多模態(tài)大模型(MLLMs)輕量化方法研究現狀和展望報告-中移智庫_第3頁
2024年多模態(tài)大模型(MLLMs)輕量化方法研究現狀和展望報告-中移智庫_第4頁
2024年多模態(tài)大模型(MLLMs)輕量化方法研究現狀和展望報告-中移智庫_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

多模態(tài)大語言模型(MLLMs)在視覺問答、視覺理解與推理等任務中展現出卓越的性能,但多模態(tài)大語言模型龐大的模型規(guī)模和高昂的訓練、推理成本限制了其在學術界和工業(yè)界的廣泛應用。因此,研究高效且輕量化的多模態(tài)大語言模型,特別是在邊緣計算場景中,潛力巨大。本文將全面介紹當前多模態(tài)大語言模型輕量化的方法及研究現狀,并探討其局限性及未來多模態(tài)大語言模型是一種創(chuàng)新性的人工智能模型,巧妙地融合了大語言模型與多模態(tài)處理能力。它能夠理解和生成涵蓋多種模態(tài)的數據,如文本、圖像、視頻、音頻等,并通過多模態(tài)信息的融合實現更廣泛、更復雜的任務。多模態(tài)大語言模型不僅具有強大的語言處理能力,還能通過對圖像、視頻或其他模態(tài)的理解,進行跨模態(tài)任務處理,比如視覺問答、視覺推多模態(tài)大語言模型的成功主要得益于縮放定律(scalinglaw),即資源投入越多,性能越高。然而,高資源需求限制了其開發(fā)和部署。例如,MiniGPT-v2模型[16]的訓練耗時超80041.6G內存,資源消耗巨大。目前,主流多模態(tài)大語言模型多由少數企業(yè)掌控,云端運行模式引發(fā)普及化和隱私保護擔憂,同時,高算力需求也限制了邊緣設備的應用,對公平訪問和隱私保護構成挑戰(zhàn)。鑒于此,輕量化多模態(tài)大語言模型的研究日益受到重視,旨在降低資源消耗、提高適用性,同時盡量減少多模態(tài)大語言模型主要由三個核心模塊組成:視覺編碼器、預訓練大語言模型、以及視覺-語言投影器,如圖1所示。輕量化多模態(tài)大語言模型的優(yōu)化措施主要集中在對上述三個模視覺編碼器:負責接收和處理視覺輸入。輕量化的多模態(tài)),覺編碼器在多模態(tài)大語言模型總參數中的占比較小,其輕量化優(yōu)化的效果不如語言模型顯著,因此大部分輕量化多模態(tài)大語言模型通常仍沿用大規(guī)模多模態(tài)大語言模型中廣泛采用的視覺預訓練大語言模型:大語言模型是多模態(tài)大語言模型的核心組件,用于管理多模態(tài)信號并執(zhí)行推理。多模態(tài)大語言模型中獲取小的大語言模型的方案一般分為兩種:一是直接使用小的輕量化模型。輕量化的多模態(tài)大語言模型通常使用參數少于30億的小型語言模型,如微軟的phi2-2.7B模型[17]和谷歌的以匹配使用常規(guī)數據集訓練的25倍大模型。Phi-3-mini模型[2]8x7B[18]模型和GPT-3.5等模型相當。二是使用模型壓縮技術對大語言模型進行輕量化處理。一般常用的模型壓縮方法包括:量化,剪枝,知識蒸餾,緊湊的架構設計,動態(tài)網絡等,這些方法在傳統(tǒng)的深度學習網絡(如CNN和RNN)中已有廣泛應用,而在大語言模型的優(yōu)化中也有了更深入的探索。每種方法的具體實施方案和效果因任務需求和硬件約束而異,在此不再視覺-語言投影器:是連接視覺與文本橋梁,其核心功能是將視覺特征塊映射至文本特征空間。針對此模塊的輕量化,包括四種:一是基于注意力。如BLIP2[7]引入了Q-Former,一個輕量級的Transformer,使用一組可學習的查詢向量從凍結的視覺模型中提取視覺特征。二是基于CNN。如MobileVLMv2[8]提出的LDPv2,通過使用逐點卷積層、平均池化和帶有跳躍連接的PEG模塊,LDPv2減少了99.8%的參數,在效率上取得了更好的表現。三是基于Mamba。如VL-Mamba[9]在其視覺-語言投影器中實合。四是混合結構。如卷積抽象器通過使用卷積結構高效地建模局部上下文,有助于將視覺特征抽象為任意平方數的視覺已經成為多模態(tài)大語言模型輕量化的關鍵。通過以下幾種關鍵多視圖輸入:為了利用低分辨率視覺編碼器處理高分辨率圖像,一種常見的方法是輸入高分辨率圖像的低分辨率全局視圖,和通過分割高分辨率圖像獲得局部視圖。例如,LLaVA-UHD[5]提出了一種圖像模塊化策略,將原始分辨率圖像劃分為更token處理:長視覺token序列的處理技術對于高效的多模態(tài)大語言模型至關重要,其解決了保持細粒度細節(jié)和減少計算復雜度的雙重挑戰(zhàn)。例如LLaVA-PruMerge[10]和MADTP[19]提出了多尺度信息融合:利用多尺度圖像信息對視覺特征提取至關重要。這種方法使模型能夠捕捉較小尺度中的細粒度細節(jié)和較大尺度中的廣闊背景。例如Mini-Gemini模型[11]包括兩個編碼器,一個用于高分辨率圖像,另一個用于低分辨率視覺嵌入。它提出了塊信息挖掘,通過低分辨率視覺嵌入作為查詢,視頻特定方法:視頻理解還需要處理大量幀,這可能會突破大語言模型的上下文窗口處理能力,帶來巨大計算負擔。例如VideoLLaVA[15]基于LanguageBind[20]構建,將視覺表示統(tǒng)一到語言特征空間中,推動基礎大語言模型向統(tǒng)一的語言-視覺大模高效的結構是通過優(yōu)化模型結構或算法設計,以更少的資源實現相近甚至更高的性能,是多模態(tài)大語言模型輕量化的關專家混合模型:專家混合模型通過調節(jié)模型參數的總數來增強模型容量,同時保持激活參數不變,從而不會顯著影響推理速度。MoE-LLaVA[12]提出了一種基于專家混合模型的稀疏M多模態(tài)大語言模型框架,能夠有效增加參數數量,而不影響計算Mamba:Mamba[21]是一種新型效處理信息密集型數據(如語言建模)而設計。Cobra[13]將性能媲美LLaVA,但參數僅用43%。模型架構,加快推理速度。SPD[14]提多模態(tài)大語言模型的輕量化發(fā)展仍處于初期階段,仍有很(一)突破多模態(tài)信息處理的局限是關鍵。輕量化的多模態(tài)大語言模型在處理多模態(tài)信息時面臨挑戰(zhàn),通常僅能接受單一圖像,這限制了能夠處理更多元模態(tài)標記的復雜模型的進一步拓展。而這類復雜模型對于對于理解長視頻和分析包含圖像與文本混合的長篇文檔等應用場景有著極為關鍵的價值,可以(二)輸入輸出模態(tài)擴展是未來發(fā)展的重點。當前主要的輕量化多模態(tài)大語言模型支持的是雙輸入模態(tài)-圖像和文本,以及單一輸出模態(tài)-文本,但現實世界中的模態(tài)遠不止于此。未來,通過擴大高效多模態(tài)大語言模型的輸入模態(tài)范圍,以適應更多樣化的輸入類型,并增強其生成能力,將顯著增強其多功(三)可在邊緣部署的輕量化多模態(tài)大語言模型將推動機器人等智能設備發(fā)展。輕量化的多模態(tài)大語言模型將賦予終端設備更高效、更智能且多模態(tài)的處理能力,使智能設備得以與現實世界無縫互動。特別在機器人領域,輕量化多模態(tài)大語言模型將極大提升機器人對環(huán)境理解的準確性,增強任務執(zhí)行的visionlanguageassista[2]YizhangJin,JianLi,YexinLiu,TianjunGu4,KaiWu,YabiaoWang,ChengjieWangandLizhuangMa.EfficientMultimodalLargeLanguageModels:ASurvey.ar[3]HaotianLiu,ChunyuanLi,QingyangWu,andYongJaeLee.GabrielGoh,SandhiniAgarwal,GirishSastry,AmandaAskell,2:Bootstrappinglanguage-imagepretrainingwithfrozvisionlanguagemodel.arXivpreprintarXZhao,MingzhenSun,QiWu,andJingLiu.Vl-mambgemini:Miningthepotentialofmulanguagemodels.arXivpreprinJin,JunwuZhang,MunanNing,anpreprintarXiv:2401.159preprintarXiv:2403.145[16]JunChen,DeyaoZhu,XiaoqianShen,XiangLi,ZechunLiu,multi-tasklearning.arXivpreprintarXiv:2310.09478,2023.smalllanguagemodels.Microsoft[18]AlbertQ.Jiang,AlexandreSablayrolles,AntoineRoux,ArthurMenschandBlancheSavary.Mixtralof[19]JianjianCao,PengYe,ShengzeLi,ChongYu,Yanson

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論