2024年AI大模型技術(shù)變遷情況回溯報(bào)告-中移智庫(kù)_第1頁(yè)
2024年AI大模型技術(shù)變遷情況回溯報(bào)告-中移智庫(kù)_第2頁(yè)
2024年AI大模型技術(shù)變遷情況回溯報(bào)告-中移智庫(kù)_第3頁(yè)
2024年AI大模型技術(shù)變遷情況回溯報(bào)告-中移智庫(kù)_第4頁(yè)
2024年AI大模型技術(shù)變遷情況回溯報(bào)告-中移智庫(kù)_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2024年大模型技術(shù)快速演進(jìn),相較于2023年的大小模型之爭(zhēng),技術(shù)的進(jìn)步方向逐步向應(yīng)用落地方向傾斜,降低端側(cè)模型部署門(mén)檻,縮短模型推理時(shí)延,提升模型交互能力,大模型的發(fā)展迎來(lái)了新的變化。本文將從技術(shù)視角梳理2024年以來(lái)大模型各個(gè)領(lǐng)域發(fā)生的變化,以行業(yè)領(lǐng)先實(shí)踐為佐證,提出大模型技術(shù)演進(jìn)方向。語(yǔ)言大模型發(fā)展迎來(lái)新范式,通過(guò)強(qiáng)化學(xué)習(xí)優(yōu)化內(nèi)部思維鏈策略,以提升復(fù)雜邏輯推理能力。多模態(tài)大模型架構(gòu)正向端到端演進(jìn),決策準(zhǔn)確性和靈敏度提升推動(dòng)機(jī)器人場(chǎng)景應(yīng)用落地。在視頻生成領(lǐng)域,DiTs架構(gòu)的可擴(kuò)展性?xún)?yōu)勢(shì)顯現(xiàn),推動(dòng)AI應(yīng)用商業(yè)化。在硬件部署方面,模型壓縮、安全控制等技術(shù)正降低部署門(mén)檻。在智能體實(shí)踐方面,垂類(lèi)大模型開(kāi)始在智能終端環(huán)境應(yīng)用。在合成數(shù)據(jù)策略方面,自我獎(jiǎng)勵(lì)語(yǔ)言模型在2024年之前,語(yǔ)言類(lèi)大模型的參數(shù)量快速擴(kuò)展帶來(lái)的“規(guī)模定律”獲得業(yè)界普遍共識(shí),因模型參數(shù)規(guī)模擴(kuò)展、數(shù)據(jù)集質(zhì)量提升以及人工微調(diào)為語(yǔ)言模型展現(xiàn)出前所未有的泛化能使得語(yǔ)言類(lèi)大模型在解決專(zhuān)業(yè)科學(xué)、代碼和數(shù)學(xué)模型等復(fù)雜邏輯推理問(wèn)題的能力上更進(jìn)一步。通過(guò)研究o1的技術(shù)原理發(fā)現(xiàn),其以強(qiáng)化學(xué)習(xí)優(yōu)化模型內(nèi)部思維鏈推理邏輯步驟,模擬人的思考過(guò)程,以加深對(duì)問(wèn)題的理解程度從而提升處理復(fù)雜推理任務(wù)能力。o1推理大模型的發(fā)布標(biāo)志著語(yǔ)言大模型的“規(guī)模定律”正延展至后訓(xùn)練階段,OpenAI首席技術(shù)官米拉穆拉迪稱(chēng)通過(guò)強(qiáng)通過(guò)強(qiáng)化學(xué)習(xí)學(xué)會(huì)了精煉其思維鏈并優(yōu)化所用的策略,學(xué)會(huì)識(shí)別并糾正錯(cuò)誤,將復(fù)雜的步驟分解為更簡(jiǎn)單的部分,并在當(dāng)前方法無(wú)效時(shí)嘗試不同的途徑。通過(guò)這個(gè)過(guò)程顯著提升了模型的推理能力。在多個(gè)高難度推理基準(zhǔn)測(cè)試中,o1的表現(xiàn)出色,超越人類(lèi)專(zhuān)家和GPT-4o,展示了其強(qiáng)大的推理能力和在某些領(lǐng)無(wú)獨(dú)有偶,斯坦福團(tuán)隊(duì)今年3月發(fā)布論文提出的Q-STaR語(yǔ)言模型也有類(lèi)似的原理,利用強(qiáng)化學(xué)習(xí)優(yōu)化中間圖例過(guò)程,實(shí)現(xiàn)并行原理生產(chǎn)、混合原理預(yù)測(cè)、優(yōu)化原理生成的能力。其測(cè)試在7B參數(shù)規(guī)模的語(yǔ)言類(lèi)模型上表現(xiàn)優(yōu)異,經(jīng)調(diào)整后的語(yǔ)言模過(guò)去業(yè)界多模態(tài)大模型多采用基于語(yǔ)言模型為主干的跨模態(tài)架構(gòu),其往往通過(guò)模態(tài)特定的編碼器(RNN、CNN)轉(zhuǎn)化為統(tǒng)一的向量表示后再輸入語(yǔ)言模型,依靠語(yǔ)言模型來(lái)處理模態(tài)融合后的特征交互。但是這樣帶來(lái)的問(wèn)題是任務(wù)響應(yīng)時(shí)間長(zhǎng)、損2024年以來(lái)以GPT-4o、Gemini為代表的多模態(tài)大模型紛紛開(kāi)始使用端到端支持多種模態(tài)統(tǒng)一輸入輸出的模型架構(gòu)。在該架構(gòu)下引入分詞器,通過(guò)將圖像、音頻等連續(xù)信號(hào)轉(zhuǎn)換為離散了模型的輸入接口,減少模態(tài)間的信息損失,提升了模型處理2024GTC大會(huì)上,英偉達(dá)發(fā)布了人形機(jī)器人項(xiàng)目GR00T,旨在開(kāi)發(fā)人形機(jī)器人的通用基礎(chǔ)模型,該模型便是基于控制、執(zhí)行和決策三個(gè)層級(jí)分層實(shí)現(xiàn)模型的端到端訓(xùn)練學(xué)習(xí),最終通過(guò)合并反向反饋來(lái)得到精準(zhǔn)輸出結(jié)果,相比于直接通過(guò)語(yǔ)言大模型來(lái)讓機(jī)器人實(shí)現(xiàn)自主決策可大幅提升機(jī)器人處理復(fù)雜任務(wù)的精度、高效性以及靈活性。相比于人形機(jī)器人,端到端架構(gòu)更早應(yīng)用于無(wú)人駕駛領(lǐng)域,特斯拉早在2023年便發(fā)布了史上第一駛模塊化、人為預(yù)設(shè)規(guī)則解決方案的定式,只需通過(guò)攝像頭、激光雷達(dá)等傳感器數(shù)據(jù)輸入,無(wú)需任何預(yù)設(shè)規(guī)則,便可直接輸出控制車(chē)輛方向和速度的操作指令,使得無(wú)人駕駛方案變得更2024年以來(lái),國(guó)內(nèi)外科技大廠發(fā)布的視頻生成模型多以DiTs為基礎(chǔ),基于Transformer架構(gòu)的擴(kuò)散模型在視頻生成任務(wù)中可擴(kuò)展性?xún)?yōu)勢(shì)凸顯,即相較于原先的U-Net卷積網(wǎng)絡(luò)架構(gòu),Transformer骨干架構(gòu)可以提供基于參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)量提升而帶來(lái)更優(yōu)越的性能。同時(shí)通過(guò)Transformer的窗口注意力機(jī)制架構(gòu),在生成視頻的像素穩(wěn)定性、前后邏輯連續(xù)性以及信息丟失等方面有大幅提升。Sora除了采用DiTs架構(gòu)以外,還在數(shù)據(jù)處理和視頻標(biāo)注領(lǐng)域做了創(chuàng)新。在數(shù)據(jù)方面,基于視頻編碼器相應(yīng)解碼器實(shí)現(xiàn)隱空間向視頻像素空間的映射,以訓(xùn)練新的視頻壓縮網(wǎng)絡(luò)實(shí)現(xiàn)長(zhǎng)視頻生成的能力。在視頻標(biāo)注方面,復(fù)用DALL-E3的重標(biāo)注技術(shù),對(duì)視頻數(shù)據(jù)生成高質(zhì)量文字標(biāo)注,借助了原先視頻生成模型架構(gòu)的基礎(chǔ)上,疊加了一個(gè)13B參數(shù)轉(zhuǎn)換器模型MetaGenAudio,通過(guò)數(shù)百萬(wàn)個(gè)小時(shí)的音頻參考數(shù)據(jù)的對(duì)比總結(jié),MetaGenAudio可精準(zhǔn)匹配聲音和畫(huà)面之間的對(duì)應(yīng)關(guān)系,根據(jù)不同情緒和環(huán)境的提示詞,找到與畫(huà)面完美契合的雖然視頻生成模型的商業(yè)化仍處于早期,以國(guó)內(nèi)公司為例如Vidu、PixVerse、可靈等視頻生成模型目前已經(jīng)開(kāi)面向C端采用訂閱模式收費(fèi),年費(fèi)標(biāo)準(zhǔn)版會(huì)員4-5s視頻生成價(jià)格折合為0.025-0.1美元左右,面向B端的API調(diào)用價(jià)格暫未確定,但伴隨著架構(gòu)持續(xù)成熟以及各類(lèi)創(chuàng)新技術(shù)推動(dòng)下,視頻生成有望更蘋(píng)果作為智能硬件全球領(lǐng)先的科技公司,在軟硬件、操作AppleIntelligence采用端云結(jié)合方案,即分別在設(shè)備端server不同應(yīng)用可以通過(guò)統(tǒng)一的語(yǔ)義索引、意圖檢測(cè)等工具調(diào)用AFM模型,當(dāng)遇到復(fù)雜任務(wù)超出端側(cè)模型處理能力時(shí),任為保障在端側(cè)設(shè)備上運(yùn)行模型同時(shí)避免精度上損失,蘋(píng)果創(chuàng)新推出量化壓縮疊加適配器的架構(gòu),一方面采用量化壓縮的方法降低模型大小,同時(shí)通過(guò)LoRA適配器來(lái)恢復(fù)量化模型的精度。該適配器本身也是由特定任務(wù)上精度恢復(fù)訓(xùn)練得到,訓(xùn)練與開(kāi)發(fā)成本較低,能夠較好平衡模型良好性能和模型輕便化需為保障模型安全可控,蘋(píng)果制定了ResponsibleAI原則——用戶(hù)賦能,即工具僅提供智能工具,尊重用戶(hù)選擇及隱私;代表全球,服務(wù)全球用戶(hù)避免種族歧視;謹(jǐn)慎設(shè)計(jì),開(kāi)發(fā)設(shè)計(jì)過(guò)程設(shè)施保護(hù)措施,防止AI工具濫用或產(chǎn)生風(fēng)險(xiǎn);隱私保護(hù),通過(guò)端側(cè)離線處理和云基礎(chǔ)設(shè)施創(chuàng)新實(shí)現(xiàn)隱私保護(hù),例如使用私有云計(jì)算來(lái)保護(hù)用戶(hù)數(shù)據(jù)及隱私。該四大原則被整合到基礎(chǔ)模型開(kāi)發(fā)的每一個(gè)環(huán)節(jié)中,包括數(shù)據(jù)的收集與處理、模型訓(xùn)練、為提升大模型端側(cè)運(yùn)行流暢度,蘋(píng)果研發(fā)了LLM-in-a-flash技術(shù),讓大模型可以不受限于DRAM的限制,在推理時(shí)將參數(shù)加載至閃存中來(lái)輔助完成計(jì)算,分擔(dān)存儲(chǔ)壓力,從而降低端側(cè)設(shè)備部署大模型門(mén)檻。具體來(lái)說(shuō),蘋(píng)果以“滑動(dòng)窗口”和“低秩預(yù)測(cè)器”方式精簡(jiǎn)加載的參數(shù)數(shù)據(jù)量,以大幅縮短數(shù)據(jù)從閃存加載至DRAM因速度慢導(dǎo)致的時(shí)延。通過(guò)“行列捆綁”技術(shù)借助大模型矩陣運(yùn)算數(shù)據(jù)連續(xù)存放的特性,發(fā)揮閃存順序讀取速度的優(yōu)勢(shì),從而加速閃存的讀取傳輸。另外還通過(guò)LazyLLM預(yù)填充動(dòng)態(tài)剪枝技術(shù)提升模型的推理速度,蘋(píng)果研究人員發(fā)現(xiàn)模型在推理預(yù)填充階段,僅有少部分的token是有用的,若對(duì)每一層生成的token進(jìn)行剪枝,后續(xù)層無(wú)需對(duì)這些無(wú)效token進(jìn)行計(jì)算,從而很大程度的節(jié)省計(jì)算量。在不損失模型精度的前提下大幅降低模型推理時(shí)的預(yù)填充計(jì)算量,緩解預(yù)填充階段出現(xiàn)經(jīng)測(cè)試,在LLM-in-a-flash和LazyLLM預(yù)填充動(dòng)態(tài)剪枝技術(shù)的優(yōu)化下,大模型推理的時(shí)延大幅降低,在端側(cè)可運(yùn)行的模操作的模型相比傳統(tǒng)大語(yǔ)言模型、多模態(tài)模型在基于手機(jī)、平板等智能終端實(shí)現(xiàn)UI界面理解、數(shù)字推理任務(wù)領(lǐng)域具備更好的表現(xiàn)能力,更適應(yīng)智能體在智能終端復(fù)雜UI環(huán)境場(chǎng)景下落地應(yīng)和OpenAI工程副總裁DavidLUAN創(chuàng)立,公司成立初衷便是打造AIteammate類(lèi)通用操作工具來(lái)幫助人完成工作。)就正式發(fā)布并開(kāi)源80億參數(shù)多模態(tài)大模型Fuyu-8B,其具備圖表、圖形和文本理解能力之外,能夠厘清復(fù)雜圖形中元素的相互關(guān)系,類(lèi)似手機(jī)內(nèi)各類(lèi)APP中button的意義,并能夠根據(jù)用戶(hù)指令準(zhǔn)確歸納圖表信息。2024年1月,基于Fuyu-8B發(fā)布了Fuyu-Heavy多模態(tài)模型,進(jìn)一步加強(qiáng)模型在UI界面理解和數(shù)學(xué)推理能力,以及適配多平臺(tái)的可擴(kuò)展性。在規(guī)模僅為傳統(tǒng)多模態(tài)模型5%-10%的基礎(chǔ)下,在多項(xiàng)基準(zhǔn)測(cè)試以及標(biāo)準(zhǔn)文本測(cè)試中不輸GPT-4V——Ferret-UI,在理解屏幕整體功能基礎(chǔ)上,能夠基于人機(jī)對(duì)話自主推斷任務(wù)并提出相應(yīng)可行操作,從而幫助用戶(hù)完成界面::其通過(guò)圖形編碼器和空間感知視覺(jué)采樣器來(lái)處理UI屏幕界面里圖像嵌入以及混合區(qū)表示的輸入問(wèn)題,混合區(qū)域表示輸入技術(shù)(HybridRegionRepresentation)是在語(yǔ)言模型下提升引用、定位能力以及二者間緊密程度的創(chuàng)新技術(shù),提升語(yǔ)言模型理解和描述圖形元素的能力。Ferret-UI不僅在架構(gòu)上做了特殊調(diào)整,其訓(xùn)練數(shù)據(jù)集也包含大量的UI任務(wù)訓(xùn)練樣本,可以有準(zhǔn)確性高于GPT-4v。::ScalingLaw的“數(shù)據(jù)墻”問(wèn)題正成為當(dāng)前大模型邁向通用人工智能道路上的瓶頸,有機(jī)構(gòu)預(yù)言(巴克萊投資銀行在《AI成數(shù)據(jù)技術(shù)需要發(fā)揮的時(shí)刻,否則縮放定律會(huì)崩潰,阻礙模型的改進(jìn)),互聯(lián)網(wǎng)上所有文本數(shù)據(jù)可能在GPT6推出之時(shí)消耗殆盡,若想進(jìn)一步提升大模型性能,拓展數(shù)據(jù)集擴(kuò)展的能力將會(huì)2024年7月,Meta發(fā)布的Llama3.1405B便是完全基于合成數(shù)據(jù)方式,使用自我獎(jiǎng)勵(lì)語(yǔ)言模型進(jìn)行訓(xùn)練,其在訓(xùn)練的過(guò)程中并沒(méi)有依賴(lài)任何人類(lèi)編寫(xiě)的答案,而是完全基

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論