AI Sora 算力需求分析_第1頁(yè)
AI Sora 算力需求分析_第2頁(yè)
AI Sora 算力需求分析_第3頁(yè)
AI Sora 算力需求分析_第4頁(yè)
AI Sora 算力需求分析_第5頁(yè)
已閱讀5頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Abstract摘要訓(xùn)練側(cè)來(lái)看,Sora的算力成本理論計(jì)算值約為GPT-4的10倍。根據(jù)我們測(cè)算,若Sora基于現(xiàn)實(shí)世界所貢獻(xiàn)視頻的一定比例訓(xùn)練,且輸入數(shù)據(jù)考慮特定比例的時(shí)間壓縮、圖像分辨率不壓縮,Sora的訓(xùn)練算力成本理論計(jì)算值可能達(dá)到約10倍GPT-4的水平,其主要原因源自于長(zhǎng)token的問(wèn)題,參數(shù)所貢獻(xiàn)的計(jì)算量并不高(僅30B)。細(xì)化來(lái)看,若1920*1080分辨率視頻僅進(jìn)行幀率壓縮,1min視頻所轉(zhuǎn)化到潛在空間內(nèi)的patch可能高達(dá)百萬(wàn)級(jí)別(即1Mtoken),長(zhǎng)token導(dǎo)致的計(jì)算量大幅度上升是transformer架構(gòu)模型難以避免的問(wèn)題。雖然我們的理論推導(dǎo)得出Sora訓(xùn)練成本高于GPT-4的結(jié)論,但實(shí)際來(lái)看,因單位算力成本高,我們認(rèn)為OpenAI可能結(jié)合一些節(jié)省訓(xùn)練成本來(lái)獲得高質(zhì)量模型(如結(jié)合高質(zhì)量大規(guī)模的數(shù)據(jù)標(biāo)記、或結(jié)合低分辨率長(zhǎng)視頻+高分辨率短視頻訓(xùn)練的方式),算力消耗的實(shí)際值可能會(huì)低于我們的理論計(jì)算值,這是當(dāng)下大模型企業(yè)所努力的方向。推理側(cè)來(lái)看,Sora的算力成本理論計(jì)算值高達(dá)約GPT-4的2000倍。由于擴(kuò)散類(lèi)模型去噪過(guò)程需要多步迭代、視頻一致性問(wèn)題需長(zhǎng)token的一次性輸出,以大語(yǔ)言類(lèi)模型處理2ktokens,與文生視頻模型生成1min視頻做對(duì)比來(lái)看,我們得到Sora的推理算力成本的理論計(jì)算值可能會(huì)是GPT-4的2000倍,我們認(rèn)為這需要算力性能更強(qiáng)的芯片來(lái)支撐;同時(shí),當(dāng)前主流GPU單機(jī)8卡推理可能面臨算力不足的問(wèn)題,文生視頻模型在推理端需更大規(guī)模的AI芯片集群支持推理,有望帶來(lái)光模塊、交換機(jī)等設(shè)備需求。積極關(guān)注可能節(jié)約算力的技術(shù)方向。Transformer對(duì)于長(zhǎng)文本的自注意力機(jī)制的計(jì)算量會(huì)隨著上下文長(zhǎng)度的增加呈平方級(jí)增長(zhǎng)是既定事實(shí),但我們近期也看到,如Mamba采用了可擴(kuò)展性更強(qiáng)的狀態(tài)空間模型(SSM)主干替代了傳統(tǒng)架構(gòu)中的注意力機(jī)制,可以使用更少的算力,生成高分辨率圖像。風(fēng)險(xiǎn)大模型技術(shù)發(fā)展不及預(yù)期;Transformer主流技術(shù)路線(xiàn)發(fā)生變化,理論計(jì)算可能與實(shí)際存在差異。Text正文認(rèn)識(shí)Sora:世界模擬器,AGI里程碑Sora:具備1分鐘較長(zhǎng)視頻生成能力,引領(lǐng)文生視頻應(yīng)用實(shí)現(xiàn)跨越式發(fā)展近期,OpenAI發(fā)布首個(gè)文生視頻模型Sora,引致市場(chǎng)廣泛關(guān)注。在輸入簡(jiǎn)短文本后,Sora能夠生成包含多個(gè)角色、特定運(yùn)動(dòng)類(lèi)型以及主體和背景準(zhǔn)確細(xì)節(jié)的復(fù)雜場(chǎng)景。除文生視頻外,Sora也可以執(zhí)行廣泛的圖像和視頻編輯任務(wù)——文生圖片(根據(jù)提示生成圖像)、圖生視頻(為靜態(tài)圖像添加動(dòng)畫(huà))、視頻拼接(通過(guò)插值連接輸入的兩個(gè)視頻)、視頻編輯(根據(jù)輸入的指示及基礎(chǔ)視頻,更改視頻風(fēng)格與環(huán)境),視頻擴(kuò)展(向前或向后延長(zhǎng)視頻的時(shí)間)等。Sora的表現(xiàn)超越了市面上其他文生視頻模型,如Gen2(由Runaway開(kāi)發(fā))、Pika1.0(由Pika開(kāi)發(fā))、StableVideoDiffusion(由Stabilityai開(kāi)發(fā))、VideoPoet(由Google開(kāi)發(fā))等,其優(yōu)勢(shì)主要體現(xiàn)為以下幾點(diǎn):?生成視頻時(shí)間長(zhǎng)。Sora可以生成長(zhǎng)達(dá)1分鐘的視頻,超越了VideoPoet的10s時(shí)長(zhǎng)極限,而主流短視頻平臺(tái)TikTok中短視頻最佳時(shí)長(zhǎng)為21-34秒,表明Sora已具備可觀(guān)的商業(yè)化落地價(jià)值;?文字理解能力強(qiáng)。Sora利用GPT將用戶(hù)的簡(jiǎn)短提示轉(zhuǎn)換成更長(zhǎng)的詳細(xì)說(shuō)明,然后發(fā)送給視頻模型,因此Sora能準(zhǔn)確解釋提示,并生成能表達(dá)生動(dòng)情感的引人注目的角色;?視頻穩(wěn)定性、一致性、流暢度大幅提升。在以往文生視頻模型生成的視頻中,常出現(xiàn)背景或主體混亂、怪異的情形,而Sora給出的視頻樣例中,視頻中的人物或物體均保持穩(wěn)定。Sora還能在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,準(zhǔn)確地體現(xiàn)角色和視覺(jué)風(fēng)格;?對(duì)現(xiàn)實(shí)世界的模擬能力。Sora能夠在一定程度上理解和模擬真實(shí)世界的物理運(yùn)動(dòng),因此Sora被OpenAI稱(chēng)為世界模擬器,我們認(rèn)為該模型有望是實(shí)現(xiàn)AGI的重要里程碑。圖表1:主流文生視頻模型對(duì)比資料來(lái)源:OpenAI官網(wǎng),Runway官網(wǎng),Pika官網(wǎng),Stabilityai官網(wǎng),谷歌官網(wǎng),iFinD,中金公司研究部Sora模型結(jié)構(gòu):視頻編解碼+擴(kuò)散模型+語(yǔ)言模型,探索Scalingup邊界根據(jù)OpenAI發(fā)布的Sora技術(shù)報(bào)告,我們推測(cè)Sora模型由視頻編解碼模型(VAE等)、DiT模型(DiffusionTransformer)、語(yǔ)言模型(LLM)三部分組成,各部分具體作用如下:?視頻編碼/解碼模型:我們推測(cè)Sora利用VAE模型進(jìn)行視頻數(shù)據(jù)編解碼。Sora利用編碼器,將原視頻壓縮到低維潛在空間,并輸出為時(shí)間和空間的潛在表示,即降維為Patch序列,而后輸入潛在空間(LatentSpace),然后利用DiT(DiffusionTransformer)模型在這一空間中訓(xùn)練、生成視頻;訓(xùn)練完成后,利用解碼器將DiT模型生成的潛在表示映射回像素空間,使壓縮的視頻數(shù)據(jù)轉(zhuǎn)換為高質(zhì)量的視頻格式。?DiT模型:Sora利用DiT模型在潛在空間內(nèi)對(duì)降維后的數(shù)據(jù)進(jìn)行訓(xùn)練。擴(kuò)散模型(Diffusionmodel)訓(xùn)練的原理主要為通過(guò)連續(xù)添加高斯噪聲來(lái)破壞訓(xùn)練數(shù)據(jù),然后通過(guò)逆轉(zhuǎn)擴(kuò)散過(guò)程來(lái)學(xué)習(xí)恢復(fù)數(shù)據(jù)。DiT模型是PeeblesWilliam和SainingXie在2023年的研究成果[1],OpenAI在技術(shù)分析中引用了該篇論文。我們認(rèn)為,在Sora的應(yīng)用中,DiT模型的訓(xùn)練流程為給定上述提到的輸入的噪聲Patch(和像文本提示這樣的條件信息)來(lái)預(yù)測(cè)原始的“干凈”P(pán)atch。?語(yǔ)言模型:Sora利用GPT將用戶(hù)的簡(jiǎn)短提示轉(zhuǎn)換成更長(zhǎng)的詳細(xì)說(shuō)明。具體而言,Sora將用戶(hù)的提示詞通過(guò)GPT進(jìn)行擴(kuò)寫(xiě)成更為詳細(xì)的說(shuō)明文字,并轉(zhuǎn)換為文本向量,作為條件信息與視覺(jué)Patch一并輸入潛在空間,這使得Sora能夠生成高質(zhì)量的視頻,準(zhǔn)確地遵循用戶(hù)的提示;此外,Sora利用OpenAI自行訓(xùn)練的標(biāo)注模型(captionermodel)對(duì)全部訓(xùn)練集數(shù)據(jù)生成文字標(biāo)題。根據(jù)Sora技術(shù)報(bào)告,OpenAI將DALL·E3中應(yīng)用的重新標(biāo)注技術(shù)(re-captioningtechnique)應(yīng)用到視頻上。OpenAI自行訓(xùn)練了具有較強(qiáng)表達(dá)力的標(biāo)注模型,并借此為訓(xùn)練集中的所有視頻生成文字標(biāo)題,并發(fā)現(xiàn)詳細(xì)標(biāo)注后的數(shù)據(jù)可以提高文本的準(zhǔn)確性以及視頻的整體質(zhì)量。圖表2:DiT模型架構(gòu)資料來(lái)源:Peebles,William,andSainingXie:"Scalablediffusionmodelswithtransformers."ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2023.圖表3:Sora模型架構(gòu)的猜測(cè)資料來(lái)源:OpenAI官網(wǎng),中金公司研究部我們看到,Sora是對(duì)生成式模型的ScalingLaw的進(jìn)一步嘗試和有力證明。ScalingLaw(規(guī)模效應(yīng))是OpenAI于2020年提出的概念[2],其主要內(nèi)容為:對(duì)于基于transformer的語(yǔ)言模型,其最終性能主要與計(jì)算量(與模型參數(shù)量和數(shù)據(jù)集規(guī)模線(xiàn)性相關(guān))有關(guān)。遷移到多模態(tài)領(lǐng)域,ScalingLaw依舊存在。Sora的骨干架構(gòu)為DiT[3]模型,而提出DiT模型的論文同樣證明了ScalingLaw的存在,即伴隨計(jì)算量(Gflops)增大(模型變大或Patch劃分更為精細(xì)),模型效果有所提升,即擴(kuò)散模型可以從架構(gòu)統(tǒng)一趨勢(shì)中受益。我們認(rèn)為,人們一直在尋找一個(gè)標(biāo)準(zhǔn)化模型(世界模型),試圖通過(guò)規(guī)模增大(scaleup)來(lái)獲得更強(qiáng)的通識(shí)能力。根據(jù)OpenAI的技術(shù)報(bào)告,OpenAI此次實(shí)驗(yàn)是基于視頻數(shù)據(jù)的large-scaling探索,而Sora作為規(guī)模最大的模型,其不尋常的生成能力,表示此次探索再次有力印證了ScalingLaw。技術(shù)報(bào)告指出,Sora在提升模型的規(guī)模的同時(shí),模型出現(xiàn)了模擬現(xiàn)實(shí)世界中人類(lèi)、動(dòng)物和環(huán)境的能力,例如3D一致性、長(zhǎng)距離一致性、人與物體的互動(dòng)性、數(shù)字世界模擬能力等,并提出伴隨模型規(guī)模持續(xù)擴(kuò)大,Sora對(duì)于物理和數(shù)字世界及其內(nèi)部的物體、動(dòng)物和人類(lèi)的模擬能力有望持續(xù)提升,最終成為世界的“通用模擬器”。我們認(rèn)為,在Scalinglaw持續(xù)有效的前提下,為達(dá)到更為強(qiáng)大的視頻生成能力,在以Sora為代表的文生視頻模型持續(xù)迭代過(guò)程中,模型規(guī)模擴(kuò)張將成為大勢(shì)所趨,所需算力規(guī)模也將隨之增長(zhǎng),對(duì)硬件提出更高要求,在下文中我們會(huì)呈現(xiàn)具體分析說(shuō)明。圖表4:DiT模型從一定程度上表征了其具有規(guī)模效應(yīng)資料來(lái)源:Peebles,William,andSainingXie:"Scalablediffusionmodelswithtransformers."ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2023.信息輸入:Sora圖塊化的過(guò)程及訓(xùn)練所使用的數(shù)據(jù)量預(yù)估在討論訓(xùn)練所需算力之前,我們首先需要關(guān)注Sora對(duì)輸入數(shù)據(jù)的重要操作步驟——即圖塊化(Patchify)的過(guò)程,創(chuàng)新意義上來(lái)看,Sora以其輸入視頻分辨率、時(shí)長(zhǎng)、單幀長(zhǎng)寬比都可變等一系列特征廣泛受到關(guān)注。我們認(rèn)為,Sora對(duì)輸入圖像(視頻)操作的基本的思路與DiT模型思路保持一致,將圖像圖塊化(patchify)后送入隱空間(latentspace)去進(jìn)行Transformer網(wǎng)絡(luò)計(jì)算,如圖5所示。但是,我們認(rèn)為對(duì)輸入圖像實(shí)現(xiàn)精準(zhǔn)處理是個(gè)很復(fù)雜的過(guò)程,在這一過(guò)程中,Sora模型可能借鑒了諸多前人的研究基礎(chǔ)。圖表5:Sora實(shí)現(xiàn)圖塊化(Patchify)的過(guò)程示意資料來(lái)源:OpenAI官網(wǎng),中金公司研究部我們看到,先前DiT[4]模型使用了StableDiffusion中預(yù)訓(xùn)練好的KL-f8作為autoencoder,對(duì)于256x256x3的圖像(由于訓(xùn)練數(shù)據(jù)集采用ImageNet,其固定分辨率為256*256,加上RGB三通道),其壓縮得到的latent空間大小為32x32x4(對(duì)應(yīng)patchsize8*8),以此降低了擴(kuò)散模型的計(jì)算量。DiT論文中指出,更小的patchsizep會(huì)帶來(lái)輸入tokens長(zhǎng)度的增加,進(jìn)而增加GFlops(即計(jì)算量)。但正如上文所述,更大的Gflops會(huì)帶來(lái)更佳優(yōu)異的模型生成質(zhì)量(FID)的表現(xiàn)。我們?cè)诤笪挠?jì)算中,會(huì)類(lèi)比DiT模型的方式來(lái)對(duì)Sora的輸入視頻圖塊化。圖表6:DiT模型實(shí)現(xiàn)圖塊化(Patchify)的詳細(xì)操作流資料來(lái)源:Peebles,William,andSainingXie:"Scalablediffusionmodelswithtransformers."ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2023.,中金公司研究部OpenAI對(duì)于Sora的技術(shù)分析中指出,Sora支持原始寬高比進(jìn)行訓(xùn)練。而在之前,我們看到采用正方形或一定分辨率裁剪視頻的方式居多。我們認(rèn)為,固定格式的圖像輸入雖然保證了硬件高效的處理、以及滿(mǎn)足卷積神經(jīng)網(wǎng)絡(luò)(CNN)過(guò)往存在的架構(gòu)限制,但固定格式的圖像會(huì)帶來(lái)一系列的損傷模型性能、或者處理效率低下的問(wèn)題。我們看到,OpenAI的Sora引用了NaViT[5]模型的研究成果,我們認(rèn)為其可能在模型中使用了sequencepacking的類(lèi)似方式,來(lái)處理任意分辨率和寬高比的輸入(根據(jù)NaViT模型作者所述,NaViT將來(lái)自不同圖像的多個(gè)圖塊打包在一個(gè)序列中,稱(chēng)為“Patchn'Pack”),這樣可以在保留寬高比的同時(shí)實(shí)現(xiàn)可變分辨率。由此一來(lái),Sora能夠有效地處理各種視覺(jué)數(shù)據(jù),而無(wú)需調(diào)整大小或填充等預(yù)處理步驟。我們認(rèn)為,Sora之所以能實(shí)現(xiàn)突破,與其訓(xùn)練時(shí)保留原始的寬高比和分辨率很重要,這使得Sora可以捕捉到視覺(jué)數(shù)據(jù)的真正本質(zhì),并促使模型在更為準(zhǔn)確的表達(dá)中學(xué)習(xí)。若使用正方形裁剪輸入的模型,難免會(huì)遇到視頻只生成中間圖像主體的情況。圖表7:NaViT實(shí)現(xiàn)Patchn'Pack的方法示意資料來(lái)源:DehghaniM,MustafaB,DjolongaJ,etal.Patchn’pack:Navit,avisiontransformerforanyaspectratioandresolution[J].AdvancesinNeuralInformationProcessingSystems,2024,36.,中金公司研究部我們?cè)噲D從較為簡(jiǎn)化的理想情況,來(lái)計(jì)算Sora模型采用現(xiàn)實(shí)世界數(shù)據(jù)訓(xùn)練可能面臨的數(shù)據(jù)量大小。我們假設(shè)每分鐘Youtube視頻上傳量為500小時(shí),那么每年Youtube的視頻時(shí)長(zhǎng)為500*60*24*365*60≈158億分鐘,但實(shí)際上訓(xùn)練視頻需要高質(zhì)量視頻數(shù)據(jù),且伴隨大量的同步數(shù)據(jù)標(biāo)注,因此我們假設(shè)Sora會(huì)采用全年百分之一的數(shù)據(jù)進(jìn)行訓(xùn)練。時(shí)間上,由于高清視頻實(shí)際幀率高達(dá)30FPS-60FPS,為了避免過(guò)度龐大的計(jì)算量,Sora在時(shí)間維度上應(yīng)采用了T->t的壓縮,且壓縮比例應(yīng)該不低,我們假設(shè)壓縮系數(shù)為4。在采用高清圖像(1920*1080)原分辨率的情況下,假設(shè)32*32的patch大小,經(jīng)過(guò)我們計(jì)算1分鐘的視頻可能被拆分成的patch數(shù)量多達(dá)近100萬(wàn)個(gè)(如果完全效仿DiT模型采用p=8來(lái)拆分,那么實(shí)際對(duì)應(yīng)的patch數(shù)量將可能達(dá)到千萬(wàn)級(jí)別,后續(xù)我們還會(huì)討論如果patchsize較小的情況該如何處理)。我們認(rèn)為,百萬(wàn)級(jí)別的patch構(gòu)成的長(zhǎng)token將會(huì)對(duì)計(jì)算量帶來(lái)較大挑戰(zhàn)。圖表8:若基于現(xiàn)實(shí)世界數(shù)據(jù)訓(xùn)練,我們預(yù)計(jì)Sora使用的數(shù)據(jù)量可能多達(dá)每分鐘百萬(wàn)token級(jí)別資料來(lái)源:Peebles,William,andSainingXie."Scalablediffusionmodelswithtransformers."ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2023.,中金公司研究部訓(xùn)練成本:Sora的理論計(jì)算值約為GPT-4的10倍我們看到,由于Sora是基于DiT的模型,其核心同樣是Transformer的架構(gòu),且單個(gè)樣本在每個(gè)訓(xùn)練步驟中是隨機(jī)選擇一個(gè)時(shí)間點(diǎn)來(lái)計(jì)算損失,而不是連續(xù)多次采樣,所以若忽略掉相對(duì)較少量的VideoEncoder/Decoder計(jì)算,其計(jì)算量的預(yù)估是可以與GPT的訓(xùn)練計(jì)算量使用相同的公式的。但是,由于在Sora實(shí)際使用的情況下,連續(xù)視頻輸入所帶來(lái)的token長(zhǎng)度已經(jīng)達(dá)到1M級(jí)別(以1min視頻為例),注意力機(jī)制的計(jì)算項(xiàng)已不可忽略,且這一項(xiàng)內(nèi)容所帶來(lái)的,相比短tokens輸入下算力開(kāi)銷(xiāo)增量將與Token的長(zhǎng)度存在線(xiàn)性關(guān)系。在30B左右模型參數(shù)、1M的token長(zhǎng)度假設(shè)下,我們測(cè)算整個(gè)注意力機(jī)制項(xiàng)所帶來(lái)算力開(kāi)銷(xiāo)增量約為14倍,即整體計(jì)算量為原先C≈6ND假設(shè)下的15倍。如果我們不考慮輸入時(shí)token的截短,那么因長(zhǎng)token所帶來(lái)的附加計(jì)算量確實(shí)是明顯提升的。結(jié)合我們上文對(duì)輸入token的預(yù)測(cè),我們認(rèn)為在不考慮時(shí)間要求、只考慮計(jì)算量的情況下,完全采用現(xiàn)實(shí)世界數(shù)據(jù)來(lái)訓(xùn)練Sora可能得到大約10倍于GPT-4的訓(xùn)練成本。若結(jié)合時(shí)間要求考慮(Sora計(jì)算量大、訓(xùn)練時(shí)間上給予相對(duì)寬松的假設(shè))、及當(dāng)下GPU算力成本,我們測(cè)算采用全現(xiàn)實(shí)世界數(shù)據(jù)訓(xùn)練Sora所需成本可能會(huì)達(dá)到10億美元以上水平(相較GPT-4為1億美元量級(jí))。圖表9:Transformer架構(gòu)模型總計(jì)算開(kāi)銷(xiāo)計(jì)算公式資料來(lái)源:JaredKaplan,SamMcCandlish,etal.,“ScalingLawsforNeuraLanguagModels”,2020.,中金公司研究部圖表10:Soravs.GPT-4,訓(xùn)練成本對(duì)比資料來(lái)源:Peebles,William,andSainingXie."Scalablediffusionmodelswithtransformers."ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2023.,中金公司研究部由于OpenAI至今未以論文形式公布Sora模型的技術(shù)細(xì)節(jié),我們認(rèn)為Sora訓(xùn)練的所需的計(jì)算量可能我們上述理論計(jì)算有所出入,舉例來(lái)看:Sora訓(xùn)練的實(shí)際計(jì)算量可能小于我們前文所計(jì)算的情況,如Sora模型可不使用全量數(shù)據(jù)訓(xùn)練。例如,在有些語(yǔ)言類(lèi)模型中,SequenceLength并不會(huì)達(dá)到1Mtoken這樣的長(zhǎng)度,兼顧經(jīng)濟(jì)性與模型效果的做法是大部分訓(xùn)練集數(shù)據(jù)采用4ktoken這樣的SequenceLength進(jìn)行訓(xùn)練,最后再基于訓(xùn)練好的模型,針對(duì)小部分訓(xùn)練集數(shù)據(jù)將SequenceLength擴(kuò)展至1Mtoken長(zhǎng)度進(jìn)行訓(xùn)練。遷移到Sora模型中,Sora模型可能與之LLM邏輯類(lèi)似。這樣的情況下Sora的訓(xùn)練計(jì)算量公式符合ScalingLaw的前提(忽略注意力機(jī)制的計(jì)算),總訓(xùn)練計(jì)算量為C≈6ND,此時(shí)若Token大小同樣為32*32,則訓(xùn)練所需總計(jì)算量為前文計(jì)算總額的十五分之一;此時(shí)若Token大小為8*8(更小顆粒度的patch,前后在patch的數(shù)量上差距16倍),則訓(xùn)練所需總計(jì)算量與我們前文的計(jì)算量基本相符。另一方面,Sora在訓(xùn)練中可能采用了大量的高質(zhì)量標(biāo)注,增大了計(jì)算量但減少了訓(xùn)練樣本數(shù)量。據(jù)前文所述,OpenAI在訓(xùn)練Sora時(shí)將DALL·E3中應(yīng)用的重新標(biāo)注技術(shù)(re-captioningtechnique)應(yīng)用到視頻上,為訓(xùn)練集中的所有視頻生成文字說(shuō)明,來(lái)補(bǔ)償訓(xùn)練集本身的數(shù)據(jù)不足,并發(fā)現(xiàn)在高度描述性的視頻描述上進(jìn)行訓(xùn)練可以提高文本的準(zhǔn)確性以及視頻的整體質(zhì)量。根據(jù)DALL·E3技術(shù)報(bào)告,DALL·E3的圖像描述模型(ImageCaptioner)借鑒的是Google的CoCa模型。由于圖像描述模型較為復(fù)雜,且數(shù)據(jù)標(biāo)注并不是Sora模型架構(gòu)的重點(diǎn),因此我們?cè)谟?jì)算時(shí)并未考慮圖像及視頻描述模型所需訓(xùn)練計(jì)算量。此外,前文也提及到,Sora會(huì)利用GPT將用戶(hù)的簡(jiǎn)短提示轉(zhuǎn)換成更長(zhǎng)的詳細(xì)說(shuō)明,并轉(zhuǎn)換為文本向量,作為條件信息與視覺(jué)Patch一并輸入潛在空間,使得Sora能夠生成高質(zhì)量的視頻,準(zhǔn)確地遵循用戶(hù)的提示。由于GPT擴(kuò)寫(xiě)文字也并不是Sora計(jì)算的重點(diǎn),我們也未針對(duì)這一部分訓(xùn)練計(jì)算量進(jìn)行計(jì)算。因此結(jié)合以上兩點(diǎn)考慮,訓(xùn)練Sora時(shí)的實(shí)際計(jì)算量可能大于我們所計(jì)算的情況,但高質(zhì)量的數(shù)據(jù)標(biāo)注有可能節(jié)約了訓(xùn)練樣本數(shù)量。此外,我們也看到,一些新架構(gòu)如Mamba的提出,能夠進(jìn)一步實(shí)現(xiàn)用更少算力生成更高分辨率圖像的目標(biāo)。Transformer已成為當(dāng)今多模態(tài)大模型領(lǐng)域的主流架構(gòu),但伴隨模型規(guī)模的擴(kuò)張和輸入文本長(zhǎng)度、圖像分辨率的提升,其基于注意力機(jī)制的局限性也愈加突出,具體來(lái)看,Transformer對(duì)于長(zhǎng)文本的自注意力機(jī)制的計(jì)算量會(huì)隨著上下文長(zhǎng)度的增加明顯增長(zhǎng),大大降低了計(jì)算效率。Mamba的提出打破了這一局限,這一新架構(gòu)主要基于選擇性狀態(tài)空間模型(SelectiveStateSpaceModel),相較于Transformer,Mamba簡(jiǎn)化了模型結(jié)構(gòu),去掉了傳統(tǒng)的注意力和MLP模塊,利用SSM更高效地捕獲信息,并在序列長(zhǎng)度方面實(shí)現(xiàn)了線(xiàn)性時(shí)間運(yùn)行,尤為適合長(zhǎng)信息序列的處理,體現(xiàn)出良好的可擴(kuò)展性[7]。在論文中,作者提到Mamba在語(yǔ)言、音頻和基因序列等多模態(tài)模型中表現(xiàn)突出,在語(yǔ)言建模方面,Mamba-3B在預(yù)訓(xùn)練和下游評(píng)估方面都優(yōu)于同等大小的Transformer,其性能與兩倍規(guī)模大小的Transformer相匹配。同時(shí),論文還指出,相較于同等規(guī)模大小的Transformer,Mamba擁有高達(dá)4-5倍的推理吞吐量,這是由于Mamba沒(méi)有KV緩存,可以設(shè)置更大的BatchSize。我們認(rèn)為,Mamba借助架構(gòu)優(yōu)化大幅提升了預(yù)訓(xùn)練與推理時(shí)的算力利用效率,有望進(jìn)一步降低模型訓(xùn)練與部署的硬件成本。圖表11:Sora的數(shù)據(jù)標(biāo)注實(shí)例資料來(lái)源:OpenAI官網(wǎng)推理成本:Sora的理論計(jì)算值約為GPT-4的2000倍在計(jì)算推理所需計(jì)算量之前,我們認(rèn)為首先需要了解Diffusion模型與GPT-4類(lèi)大語(yǔ)言模型在推理過(guò)程中所呈現(xiàn)的差異點(diǎn)。作為圖片生成/視頻生成的主要模型之一,Diffusion模型主要工作流程分為兩個(gè)過(guò)程:加噪和去噪。因此,Diffusion模型在推理生成圖片的過(guò)程中需要反復(fù)迭代來(lái)生成圖片信息,其中每步迭代都在完善圖像信息。經(jīng)典模型StableDiffusion推理時(shí)迭代步數(shù)通常設(shè)置為30-50次,后經(jīng)過(guò)算法優(yōu)化可以降低到20次左右,而語(yǔ)言類(lèi)模型GPT-4則無(wú)需多次迭代即可輸出結(jié)果。圖表12:擴(kuò)散模型的技術(shù)細(xì)節(jié)示例資料來(lái)源:CSDN,中金公司研究部結(jié)合OpenAI公開(kāi)展示的能力,我們以1min高清視頻生成作為Sora的標(biāo)準(zhǔn)任務(wù)量,與GPT-4模型輸入(prompt)+輸出2ktokens的標(biāo)準(zhǔn)任務(wù)量做推理成本的比對(duì)?;谖覀?cè)谟?xùn)練過(guò)程中所得到的結(jié)論,1min高清視頻所對(duì)應(yīng)的token數(shù)量約長(zhǎng)達(dá)1M,因此在推理環(huán)節(jié)來(lái)看,不考慮反向傳播,也將因?yàn)殚L(zhǎng)token的原因?qū)е伦罱K的近似結(jié)果發(fā)生變化,除非考慮短token的輸出+拼接的方式可能會(huì)節(jié)省注意力機(jī)制所產(chǎn)生的運(yùn)算量,但由于最終面對(duì)的是視頻生成類(lèi)應(yīng)用,拼接token的操作可能會(huì)影響視頻的連貫性與一致性。所以我們認(rèn)為,在推理側(cè)理論計(jì)算Sora所需算力時(shí),原GPT-4所用公式C≈2ND的結(jié)果將放大為C≈30ND(在30B參數(shù),1Mtoken長(zhǎng)度假設(shè)下)。此外,在GPU利用率方面,我們并沒(méi)有采用與訓(xùn)練應(yīng)用下相同的假設(shè)(我們?cè)谟?xùn)練側(cè)假設(shè)Sora與GPT-4的GPU算力集群利用率均為40%),其主要原因是,GPT-4是自回歸模型,其decoder-only架構(gòu)在生成token階段對(duì)訪(fǎng)存的需求要遠(yuǎn)高于計(jì)算需求,也就是在推理吞吐量不大情況下,采用高端訓(xùn)練卡直接進(jìn)行推理其算力利用率會(huì)是相當(dāng)?shù)偷乃?,我們假設(shè)其算力利用率只有10%。而對(duì)于DiT結(jié)構(gòu)的Sora來(lái)看,其屬于計(jì)算密集型應(yīng)用,對(duì)算力的開(kāi)銷(xiāo)更大,因此我們假設(shè)Sora在GPU資源上執(zhí)行單任務(wù)推理時(shí),算力利用率會(huì)明顯高于GPT-4。在不考慮允許時(shí)延情況下,我們理論計(jì)算得到Sora推理1min高清視頻的成本可能是GPT-4生成2ktoken的2000倍左右(如果不考慮算力利用率的差異,這個(gè)數(shù)字會(huì)達(dá)到萬(wàn)倍級(jí)別),視頻推理成本可能接近100美元。若考慮生成1min視頻時(shí)延同樣為1min的情況下,我們測(cè)算所需要的GPU數(shù)量與3s內(nèi)生成2ktoken的語(yǔ)言類(lèi)模型相比也有百倍的差距,我們認(rèn)為這可能會(huì)對(duì)當(dāng)下單機(jī)單卡、單機(jī)多卡推理的現(xiàn)實(shí)配置帶來(lái)較大改變,未來(lái)多機(jī)多卡推理可能會(huì)成為多模態(tài)大模型的標(biāo)準(zhǔn)需求。圖表13:Soravs.GPT-4,推理成本對(duì)比資料來(lái)源:Peebles,William,andSainingXie."Scalablediffusionmodelswithtransformers."ProceedingsoftheIEEE/CVFInternationalConferenceonComputerVision.2023.,中金公司研究部歸納總結(jié):算力需求增長(zhǎng)趨勢(shì)確定,但降本趨勢(shì)同樣迫切通過(guò)以上研究,我們把得到的相關(guān)結(jié)論總結(jié)為以下幾點(diǎn):?

Sora基于DiffusionTransformer模型,我們認(rèn)為在忽略Videoencoder-decoder的算力需求時(shí),對(duì)于整體模型訓(xùn)練/推理算力的計(jì)算可延續(xù)之前GPT-4的類(lèi)似方法,但由于Tokens的序列長(zhǎng)度較長(zhǎng),因此對(duì)于C≈6ND的公式要有修正,導(dǎo)致計(jì)算量增加較多(attention機(jī)制的交叉計(jì)算不可忽略)。?

對(duì)于訓(xùn)練來(lái)看,我們通過(guò)理論計(jì)算得到,完全基于現(xiàn)實(shí)世界數(shù)據(jù)訓(xùn)練Sora的整體成本約為GPT-4的10倍左右(未來(lái)Sora迭代可能會(huì)使得算力需求繼續(xù)增加),主要原因是長(zhǎng)token帶來(lái)attention機(jī)制計(jì)算量的不可忽略,以及token數(shù)本身的增長(zhǎng)。當(dāng)然,我們認(rèn)為合理壓縮視頻,裁剪長(zhǎng)token等方法都可能帶來(lái)算力需求的下降,但要同時(shí)保證模型的性能是有難度的。此外,我們認(rèn)為結(jié)合OpenAI先前所開(kāi)發(fā)的大模型進(jìn)行一定的高質(zhì)量標(biāo)注可優(yōu)化訓(xùn)練樣本數(shù),但本身標(biāo)注也會(huì)帶來(lái)一定的算力開(kāi)銷(xiāo)。?

對(duì)于推理來(lái)看,1分鐘高清視頻推理的成本可能為2ktoken對(duì)應(yīng)文字推理任務(wù)的2000倍之多,主要原因是Diffusion結(jié)構(gòu)的多steps過(guò)程,以及長(zhǎng)token帶來(lái)的attention機(jī)制計(jì)算量不可忽略。在視頻類(lèi)生成應(yīng)用來(lái)看,輸出短token拼接的方式雖然節(jié)省計(jì)算量,但可能會(huì)帶來(lái)視頻前后一致性、穩(wěn)定性的問(wèn)題。從我們給定時(shí)延假設(shè)的結(jié)果來(lái)看,由于Sora推理計(jì)算量遠(yuǎn)大于之前需求,因此我們認(rèn)為Sora需要大算力的推理芯片,且多機(jī)多卡推理可能成為普遍場(chǎng)景,與以前LLM模型單機(jī)單卡的形式呈現(xiàn)差異,可能會(huì)拉動(dòng)光模塊/交換芯片需求。?

Sora的優(yōu)秀能力從一定程度上顯示了ScalingLaws由語(yǔ)言類(lèi)大模型擴(kuò)展到了多模態(tài)模型。我們認(rèn)為,在相關(guān)模型繼續(xù)向前迭代的過(guò)程中,算力需求增長(zhǎng)也有望進(jìn)入新的階段。但鑒于當(dāng)下單位算力成本依然較高,降本也是大模型廠(chǎng)商的呼吁,因此研究人員在考慮采用更強(qiáng)的狀態(tài)空間模型(SSM)主干替代傳統(tǒng)架構(gòu)中的注意力機(jī)制,來(lái)減少計(jì)算量。向前看,我們認(rèn)為“世界模型”依然少不了算力的支撐,“以?xún)r(jià)換量”模式也有望推動(dòng)算力芯片市場(chǎng)規(guī)模再創(chuàng)新高。風(fēng)險(xiǎn)大模型技術(shù)發(fā)展不及預(yù)期。大模型技術(shù)難度高,發(fā)展需要大量持續(xù)的研發(fā)投入,且研發(fā)成果產(chǎn)出具有不確定性。如果大模型技術(shù)發(fā)展出現(xiàn)不及預(yù)期的情況,進(jìn)而有可能影響對(duì)算力的需求。Transformer主流技術(shù)路線(xiàn)發(fā)生變化。我們看到,Transformer是目前大模型領(lǐng)域主流的技術(shù)路線(xiàn),且Transformer架構(gòu)已經(jīng)從語(yǔ)言類(lèi)模型擴(kuò)展到文生視頻等多模態(tài)大模型中,并展現(xiàn)出了一定的擴(kuò)展能力。如果未來(lái)整個(gè)大模型的主流技術(shù)路線(xiàn)與當(dāng)前發(fā)生偏離,ScalingLaw

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論