OpenAI Sora專題：Transformer擴(kuò)展優(yōu)勢(shì)凸顯視頻理解與生成能力提升

上傳人：1*** IP屬地：北京上傳時(shí)間：2024-04-03 格式：DOCX 頁數(shù)：72 大?。?.60MB 積分：15 舉報(bào) 版權(quán)申訴

OpenAI Sora專題：Transformer擴(kuò)展優(yōu)勢(shì)凸顯視頻理解與生成能力提升_第2頁

OpenAI Sora專題：Transformer擴(kuò)展優(yōu)勢(shì)凸顯視頻理解與生成能力提升_第3頁

OpenAI Sora專題：Transformer擴(kuò)展優(yōu)勢(shì)凸顯視頻理解與生成能力提升_第4頁

OpenAI Sora專題：Transformer擴(kuò)展優(yōu)勢(shì)凸顯視頻理解與生成能力提升_第5頁

已閱讀5頁，還剩67頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Transformer擴(kuò)展優(yōu)勢(shì)凸顯，視頻理解與生成能力提升西南證券研究發(fā)展中心海外研究團(tuán)隊(duì)王湘杰2024年2月核心觀點(diǎn)事件：2024年2月16日，OpenAI發(fā)布文生視頻模型——Sora及其技術(shù)報(bào)告《Videogenerationmodelsasworldsimulators》。從Sora模型看文生視頻的技術(shù)路徑：技術(shù)路徑尚未收斂，Transformer擴(kuò)展特性優(yōu)勢(shì)凸顯。市場(chǎng)大模型，其優(yōu)秀的生成能力離不開Transformer架構(gòu)優(yōu)秀的scaling特性。當(dāng)前，為構(gòu)建性能更優(yōu)、效從Sora模型看文生視頻的最新能力（假設(shè)展示視頻可以代表Sora的一般性表現(xiàn)1）強(qiáng)大的理解理解能力是其能夠準(zhǔn)確生成視頻的前提。2）優(yōu)秀的生成能力：①長(zhǎng)度：可生成60s視頻；②復(fù)雜度：能夠生成包含多個(gè)角色、多種2主題、多類運(yùn)動(dòng)形態(tài)的復(fù)雜場(chǎng)景；③逼真度：能夠呈現(xiàn)更多的視覺個(gè)鏡頭，保持其在整個(gè)視頻中的外觀，在角度移動(dòng)和切換情況下，人物和場(chǎng)景元素在三維空間中的位置關(guān)系能夠保持一致的運(yùn)動(dòng)；⑤可控性：在某一Prompt基礎(chǔ)上只改動(dòng)一個(gè)關(guān)鍵詞仍能生成優(yōu)質(zhì)的從Sora模型看文生視頻的行業(yè)影響：目前OpenAI已向部分視覺藝術(shù)家、設(shè)計(jì)師和電影制作人提供訪問權(quán)限，以獲取專業(yè)的反饋。我們認(rèn)為，以Sora為代表的視頻生成模型有望給廣告/設(shè)計(jì)/短視投資建議：隨著文生視頻模型的迭代升級(jí)和未來的大規(guī)模應(yīng)用，算力需求有望增長(zhǎng)，云服務(wù)有望成為算力的重要補(bǔ)充，視頻傳輸也將帶動(dòng)高帶寬、高性能的光通信需求，建議關(guān)注算力、云服務(wù)和光通信領(lǐng)域投資機(jī)會(huì)。相關(guān)標(biāo)的：英偉達(dá)(NVDA.O)、超威半導(dǎo)體(AMD.O)、微軟(MS風(fēng)險(xiǎn)提示：技術(shù)進(jìn)展不及預(yù)期風(fēng)險(xiǎn)；行業(yè)競(jìng)爭(zhēng)加劇風(fēng)險(xiǎn)；應(yīng)用開發(fā)不及預(yù)期風(fēng)險(xiǎn)。13從Sora看文生視頻模型的影響1從1從Sora看文生視頻模型的技術(shù)路徑2從2從Sora看文生視頻模型的最新能力2趨勢(shì)文生3D基石理論2020年6月DDPM提出2022年4月Diffusionbasemodelkickoff2020年3月NeRF趨勢(shì)文生3D基石理論2020年6月DDPM提出2022年4月Diffusionbasemodelkickoff2020年3月NeRF論文發(fā)表；2023年8月提出3DGaussianSplatting核心模型2021年1月DALL-E為初代模型，22年8月StableDiffusion基石開源模型2022年9月出現(xiàn)Make-A-Video、ImagenVideo等 ;2024年2月Sora模型/2023年3月Midjourney1.0推出，拉開視頻生成應(yīng)用的帷幕2023年12月Tripo的推出和2024年1月Genie-1.0文生3D應(yīng)用嶄露頭角代表應(yīng)用資料來源：西南證券1.1.1發(fā)展現(xiàn)狀：多模態(tài)發(fā)展已成共識(shí)，視覺生成熱潮逐步興起從模態(tài)發(fā)展情況來看：AI大模型的生成和理解能力從單模態(tài)向多模態(tài)發(fā)展已成社會(huì)共識(shí)。當(dāng)前，大從市場(chǎng)催化節(jié)奏來看：受文本端殺手級(jí)應(yīng)用ChatGPT（于22年11月推出）和圖像生成代表應(yīng)用MidjourneyV5（于23年3月推出）的影響，文本端和圖像生成應(yīng)用已于2023年迎來市場(chǎng)催化。大模型多模態(tài)發(fā)展情況大模型多模態(tài)發(fā)展情況文本端文本端文生圖像文生圖像文生視頻文生視頻視頻生成或迎來ChatGPT時(shí)刻2017年6月2017年6月Transformer架構(gòu)提出2018年102018年10月Bert初代模GPT-3奠定基石閉源模型2022年11月2022年11月ChatGPT推從理論到應(yīng)用的歷時(shí)逐步縮短，從理論到應(yīng)用的歷時(shí)逐步縮短，多模態(tài)時(shí)代加速到來3技術(shù)路徑潛在路徑是否收斂當(dāng)前技術(shù)路徑已收斂于LLM文本生成基于transformer的自回歸模型：技術(shù)路徑潛在路徑是否收斂當(dāng)前技術(shù)路徑已收斂于LLM文本生成基于transformer的自回歸模型：擴(kuò)散模型+transformer架構(gòu)：技術(shù)路徑尚未收斂圖像生成基于transformer自回歸模型:擴(kuò)散模型+transformer架構(gòu)：技術(shù)路徑尚未收斂視頻生成3D原生：>OpenAI—Shape-E技術(shù)路徑尚未收斂1.1.2發(fā)展現(xiàn)狀：文本端技術(shù)路徑收斂于LLM，視覺生成領(lǐng)域仍在探索從技術(shù)路徑收斂情況來看：1）文本生成方面，在OpenAIGPT系列模型的引領(lǐng)下，大語言模型（LLM—largelanguagemodel）已成為當(dāng)前文本端的確定性路徑。2）多模態(tài)方面，圖像和視頻生成的技術(shù)路徑均未收斂。圖像和視頻生成主要包括兩大路徑：擴(kuò)散模型（DiffusionModel）的自回歸模型具備較大潛力，擴(kuò)散模型也逐步呈當(dāng)前主流當(dāng)前主流LLM—Transformer—Decoderonly擴(kuò)散模型>OpenAI—GLIDE,DALL-E2擴(kuò)散模型：2D向3D升維：先由擴(kuò)散模型實(shí)現(xiàn)text-to-2D，再由NeRF實(shí)現(xiàn)2D-to-3D資料來源：西南證券41.2.1路徑對(duì)比：擴(kuò)散模型占據(jù)主流，自回歸模型潛力可期Diffusion模型選擇開源，使廣大開發(fā)者能夠在此基礎(chǔ)上運(yùn)用和優(yōu)化擴(kuò)散模型，其公開可用的特性使之成為圖像和視頻生成領(lǐng)域的主流基礎(chǔ)模型；歸模型相較于擴(kuò)散模型更適合、更容易做規(guī)模擴(kuò)展（scaleup）。目前，擴(kuò)散模型的參數(shù)規(guī)和視頻領(lǐng)域的自回歸模型有望借鑒transformer在文本領(lǐng)域LLM的經(jīng)驗(yàn)，通過對(duì)不同模態(tài)進(jìn)行跨模擴(kuò)散模型原理擴(kuò)散過程是指對(duì)數(shù)據(jù)逐漸增加高斯噪音直至數(shù)據(jù)變成隨機(jī)通過編碼器將文本轉(zhuǎn)化成token或序列，應(yīng)經(jīng)過訓(xùn)練好的模型解碼輸出圖像。①在規(guī)模持續(xù)增長(zhǎng)的情況下能夠呈現(xiàn)更好的生成效果；②視頻的時(shí)間序列結(jié)構(gòu)適合轉(zhuǎn)化為預(yù)測(cè)下一幀的任務(wù)形態(tài)。整體訓(xùn)練成本高。模型圖像：①StabilityAI—StableDiffusion;②OpenAI—GLIDE,DALL-E2;③Google—Imagen&Imagen2視頻：①StabilityAI—StablevideoDiffusion;②Google—ImagenVideo;圖像：①Google—Parti;②OpenAI—ImageGPT,DALL-E視頻：①GoogleVideoPoet應(yīng)用/資料來源：西南證券5基于GAN基于diffusion Pixeldiffusion基于GAN基于diffusion Pixeldiffusion第1次關(guān)鍵迭代 Latentdiffusion第2次關(guān)鍵迭代 Latentdiffusionwithtransformerbackbon基于languagemodel1.2.1路徑對(duì)比：擴(kuò)散模型占據(jù)主流，自回歸模型潛力可期從圖像生成模型發(fā)展順序來看：GAN出現(xiàn)最模型（2020年6月OpenAI提出ImageGPTOpenAI于2021年5月提出在擴(kuò)散過程中使用顯式分類器進(jìn)行引導(dǎo)，展示出擴(kuò)散模型的強(qiáng)大潛力，從此打敗此前在圖像生成領(lǐng)域統(tǒng)治Diffusion開源，擴(kuò)散模型逐步成為圖像生成領(lǐng)域的主流模型。 Autoregressivemodel資料來源：西南證券2020-2023年圖像生成領(lǐng)域技術(shù)進(jìn)展2020-2023年圖像生成領(lǐng)域技術(shù)進(jìn)展2月3月4月5月6月7月8月9月10月11月12月2020DETRDDPMDDIM;VisonTransformer2021CLIP;DALL·ESwinTransformerCogViewMAE;SwinTransformerv2;NUWALatent-Diff；GLIDE2022MaskGITMake-A-SceneDALL·E2；CogView2ImagenPartiNUWA-InfinityStableDiffusion;BEiT-3;MidjourneyV3eDiff-I；MidjourneyV42023BLIP2;MUSEVisualChatGPT;GPT4;MidjourneyV5;GigaGANSAMSDXLDALL·E3SDXLTurbo6僅樣20步2）僅樣20步2）模型優(yōu)化生成的速度和質(zhì)量由擴(kuò)散模型中的采樣器控制和Euler、SDE、DPM-Solver++和Karras等加速采樣方法的出現(xiàn)有助于大力提升模型在保證生成質(zhì)量的前提下的快速采樣能力。BasedGenerativeModelingthroughStochasticDifferentialEquations年5月OpenAI提出在擴(kuò)散過程中使用顯式分類器擴(kuò)散模型的強(qiáng)大潛力，打敗圖像生成領(lǐng)域統(tǒng)治多年的GAN模型,擴(kuò)散模型逐步成為圖像生成領(lǐng)ModelsBeatGANsonImageSynthesis①BigGAN-deep模型結(jié)果②OpenAI擴(kuò)散模型結(jié)果1月CLIP預(yù)訓(xùn)練模型發(fā)布，該技術(shù)而后與擴(kuò)散模型持續(xù)結(jié)合，推動(dòng)擴(kuò)散模型21-22年在文生圖領(lǐng)域爆發(fā)。如OpenAIGLIDE、DALL-E,GoogleImagen,StableDiffusion.TransferableVisualModelsFromNaturalLanguageSupervisionDreamBooth(22.08)、LoRA(23.01)和ControlNet(23.02)等擴(kuò)散模型的再學(xué)習(xí)方法持續(xù)推出，針對(duì)不同任務(wù)對(duì)擴(kuò)散模型進(jìn)行優(yōu)化。DreamBooth:FineTuningText-to-ImageDiffusionModelsforSubject-DrivenGeneration>核心事件：眾多圖像生成應(yīng)用應(yīng)運(yùn)而生。MidjourneyV5；StabilityAl公司開發(fā)的DreamStudio圖像生成Firefly；百度推出文心一格AI創(chuàng)作平臺(tái)；阿里巴巴達(dá)摩院推出通義文生圖大模1.2.2擴(kuò)散模型：發(fā)展歷程擴(kuò)散模型持續(xù)迭代，助力應(yīng)用崛起。2020年，DDP擴(kuò)散模型在圖像生成領(lǐng)域中的發(fā)展歷程擴(kuò)散模型在圖像生成領(lǐng)域中的發(fā)展歷程>核心事件：DDPM模型于2020年6月推出,是圖像生成領(lǐng)域最早出現(xiàn)的擴(kuò)首次將去噪擴(kuò)散概率模型應(yīng)用到圖像生成任務(wù)中,奠定了擴(kuò)散模型在圖像生成領(lǐng)域應(yīng)用的基礎(chǔ)。DiffusionProbabilisticModels71.2.2擴(kuò)散模型：基本原理擴(kuò)散模型（DiffusionModels）基本原理：擴(kuò)散模型包括前向和反向兩個(gè)擴(kuò)散過程，擴(kuò)散過程是指的對(duì)數(shù)據(jù)逐漸增加高斯噪音直至數(shù)據(jù)變成隨機(jī)噪音的過程。真實(shí)圖片添加噪聲最終得到一個(gè)純?cè)肼暋?duì)于訓(xùn)練集中的每張圖片，都能生成一系列的噪聲程度不同的加噪圖片；在訓(xùn)練時(shí)，不同程度的噪聲圖片>反向擴(kuò)散過程（ReverseDiffusionProcess指給圖片去噪的過程，逐漸還原真實(shí)數(shù)據(jù)或樣本。擴(kuò)散模型的前向過程與反向過程擴(kuò)散模型的前向過程與反向過程81.2.2擴(kuò)散模型：兩次關(guān)鍵迭代擴(kuò)散模型第一次關(guān)鍵迭代：在像素空間(PixelSpace)之外引入潛在空間(LatentSpace)。擴(kuò)散模降維至feature，再在feature上進(jìn)行diffusion，完成后將特征空間最后投射至圖像空間。因此，LatentDiffusion通過將數(shù)據(jù)處理成低維（lowdimensional）數(shù)據(jù)（圖像的latentspace比pixelspace更小且更加關(guān)注數(shù)據(jù)的重要語義位，能夠更好地在“降低復(fù)雜度”和“保留細(xì)節(jié)度”之?dāng)U散過程編碼器潛在表示U-Net架構(gòu)解碼器“去噪”步驟特別的編碼器/條件編碼器：將各種模態(tài)的信息編碼為一個(gè)中間表示資料來源：《High-ResolutionImag資料來源：《U-Net:ConvolutionalNetworksforBiomedical通過一系列交叉注意力機(jī)制將圖像細(xì)化91.2.2擴(kuò)散模型：兩次關(guān)鍵迭代擴(kuò)散模型第二次關(guān)鍵迭代：在LatentDiffusion基礎(chǔ)上將U-N型中的經(jīng)典架構(gòu)是U-net網(wǎng)絡(luò)，大多數(shù)擴(kuò)散模型會(huì)基于U-Net結(jié)構(gòu)進(jìn)行一些變體，U-Net架構(gòu)主要用于接收“帶噪”的輸入并預(yù)測(cè)噪聲，以實(shí)現(xiàn)“去噪”。2023年3月，Meta發(fā)布論文《ScalableTransformer架構(gòu)相較于U-Net架構(gòu)的優(yōu)點(diǎn)：Transformer架構(gòu)scalability能力更強(qiáng)、更適合做生TheTheDiffusionTransformer(DiT)架構(gòu)帶噪的潛在表示帶噪的潛在表示類別標(biāo)簽TransformerTransformer架構(gòu)資料來源：《AttentionIsAllYouNeed》，西南證券整理…problemsturning……problemsturning…1.2.3自回歸模型：基本原理自回歸模型（AutoregressiveModels）基本原理：在數(shù)學(xué)模型和算法中，自回歸模型的核心思想是基于同一變量的歷史值預(yù)測(cè)未來值。自回歸作為一種時(shí)間序列模型，通過使用以前時(shí)間步長(zhǎng)自回歸語言模型的前向與反向過程自回歸語言模型的前向與反向過程forward…crises… …crises…bankingcrisbankingcris1.2.3自回歸模型：代表模型自回歸文生圖代表模型——Parti：2022年6月22日，谷歌發(fā)表論文《ScalingAutoregressive自回歸文生視頻代表模型——VideoPoet：2023年12月21日，谷歌發(fā)表論文《VideoPoet:A調(diào)LLM在視頻生成領(lǐng)域依然可以發(fā)揮重要作用，能夠在動(dòng)作生成上能夠保持較好的一致性、在大范谷歌文生圖自回歸模型—谷歌文生圖自回歸模型—Parti部分部分文本embedding作為條件在TransformerDecoder中作為K和V通過CrossAttention與視覺Token交叉使用Encoder對(duì)文本編碼，生成文本embeddingViT-VQGAN資料來源：《ScalingAutoregressiveModelsforContent-谷歌文生視頻自回歸模型—谷歌文生視頻自回歸模型—VideoPoet多任務(wù)一站式處理基于LLM的自回歸模型資料來源：《VideoPoet:Alargelanguagemodelforzero-shotvideogeneraTokenizer將文本轉(zhuǎn)化為tokens并建立互聯(lián)，幫助模型對(duì)視覺生成任務(wù)的理解。Tokenizer是指將文本或序列轉(zhuǎn)化為標(biāo)記（tokens）的工具或算法。在自然語言領(lǐng)域，Tokenizer通常將文本轉(zhuǎn)換成ImageTokenizer—ViT-VQGAN：2022年6月5日，谷歌發(fā)表論文《Vector-quantizedImageVideoTokenizer—MAGVIT-v2：2023年10月9日，谷歌發(fā)表論文《LanguageModelBeatsDiffusion:Tokenizeriskeytovisualgeneration》，并提出分詞器MAGVIT-v2（MaskedGenerativeVideoTransformer強(qiáng)調(diào)Tokenizer對(duì)視覺生成的重要性，指出一個(gè)更好的Tokenizer在接入語言模型后有望獲得比擴(kuò)散模型更好的效果。谷歌谷歌ViT-VQGAN中的Tokenizer將圖像編碼為token序列用于生成離散的Latentcode用于生成離散的Latentcode到Codebook空間從離散Latentcode中恢復(fù)原始圖像withImprovedVQGAN》，西南證券整理MAGVIT與其他Tokenizer架構(gòu)對(duì)比資料來源：《LanguageModelBeatsDiffusion:Tokeniskeytovisualgeneration》，西南證券整理運(yùn)用Transformer主干運(yùn)用Transformer主干視頻1.3未來趨勢(shì)：transformer優(yōu)勢(shì)凸顯，模型構(gòu)建有望呈現(xiàn)多種方式于2023年12月發(fā)布與李飛飛老師和其學(xué)生合作的文生視頻模型——W.A.L.T、OpenAI于2024年2力，且transformer已在語言建模、計(jì)算機(jī)視覺和圖像生成等多個(gè)領(lǐng)域展示其顯著的擴(kuò)展能力，未來同樣有望在視頻生成上發(fā)揮更大作用。隨著技術(shù)研究的不斷深入，各家可能會(huì)利用每個(gè)架構(gòu)最擅SoraSora基于Diffusion+transformerSoraSora是基于Transformers+擴(kuò)散模型Sora技術(shù)報(bào)告指出：Transformers已經(jīng)在語言建模、計(jì)算機(jī)視覺和圖像生成等多個(gè)領(lǐng)域展示顯著的擴(kuò)展能力W.A.L.T基于W.A.L.T基于Diffusion+transformer編碼編碼時(shí)空層空間層時(shí)空層W.A.L.T（WindowAttentionLatentTransformer）架構(gòu)優(yōu)勢(shì)：①localwindowattention有助于顯著降低計(jì)算需求；②有利于聯(lián)合訓(xùn)練，空間層處理圖像和視頻幀，時(shí)空層用于建模視頻中的時(shí)間關(guān)系。3從Sora看文生視頻模型的影響1從1從Sora看文生視頻模型的技術(shù)路徑2從2從Sora看文生視頻模型的最新能力2.1.1團(tuán)隊(duì)背景：研發(fā)實(shí)力突出，優(yōu)秀人才聚集核心作者主要研究成果個(gè)人介紹推特賬號(hào)【語言領(lǐng)域】2020年5月28日《Languagemodelsarefew-shotlearners》Sora團(tuán)隊(duì)負(fù)責(zé)人；本科就讀于紐約大學(xué)；主導(dǎo)三代DALL-E的研究/《Hierarchicaltext-conditionalimagegenerationwithCLIPlatents》《Hierarchicaltext-conditionalimagegenerationwithCLIPlatents》【圖像領(lǐng)域】2022年4月13日《ImprovingImageGenerationwithBetterCaptions》【視頻領(lǐng)域】2024年2月15日《Videogenerationmodelsasworldsimulators》【視頻領(lǐng)域】2022年6月9日《GeneratingLongVideosofDynamicScenes》【圖像領(lǐng)域】2023年1月18日《InstructPix2Pix:LearningtoFollowImageEditingIns【圖像領(lǐng)域】2023年10月20日《ImprovingImageGenerationwithBetterCaptioSora團(tuán)隊(duì)核心成員&主要作者；本科就讀于卡內(nèi)基梅隆大學(xué)，主修邏輯與計(jì)算；博士就讀于加州大學(xué)伯克利分校AI實(shí)驗(yàn)室；曾在部門、英偉達(dá)實(shí)習(xí)或工作過/_【圖像領(lǐng)域】2022年4月5日《GAN-SupervisedDenseVisualAlignment》【圖像領(lǐng)域】2023年3月2日《ScalableDiffusionModelswithTrSora團(tuán)隊(duì)核心成員&主要作者；本科就讀于麻省理工學(xué)院；博士就讀于加州大學(xué)伯克利分校AI實(shí)驗(yàn)室；曾在Facebook人工智能研究中心FAIR、AdobeResearch、英偉達(dá)/GPT-1：數(shù)；有一定的泛化能力億參數(shù)，強(qiáng)大的理解能力GPT-3：參數(shù)；可完成大多NLP任務(wù)GPT-4V：開始具備視覺能力，可輸入圖像并結(jié)合文本進(jìn)行輸出GPT-4：萬億級(jí)參數(shù)；數(shù)據(jù)源擴(kuò)充；增加訓(xùn)練后處理和行為預(yù)測(cè)GPT-2： ;生成能力提升文本領(lǐng)域DALL·E第1代：GPT-1：數(shù)；有一定的泛化能力億參數(shù)，強(qiáng)大的理解能力GPT-3：參數(shù)；可完成大多NLP任務(wù)GPT-4V：開始具備視覺能力，可輸入圖像并結(jié)合文本進(jìn)行輸出GPT-4：萬億級(jí)參數(shù)；數(shù)據(jù)源擴(kuò)充；增加訓(xùn)練后處理和行為預(yù)測(cè)GPT-2： ;生成能力提升文本領(lǐng)域DALL·E第1代：數(shù)；基于自回歸模型DALL·E第2代： ;基于擴(kuò)散模型圖像領(lǐng)域Point-E：可根據(jù)復(fù)雜提示生成3D點(diǎn)云的模型 ;采用2D向3D升維的技術(shù)路徑Shape-E：一個(gè)用于3D資產(chǎn)的條件生成模型 ;采用原生3D數(shù)據(jù)進(jìn)行訓(xùn)練視頻領(lǐng)域2.1.2時(shí)間進(jìn)程：AGI技術(shù)積淀已久，視覺生成領(lǐng)域加速推進(jìn)前期工作積累深厚，研發(fā)進(jìn)程加速推進(jìn)。Sora模型的誕生離不開GPT和DALL·E系列模型的積淀，模型和文本-圖像配對(duì)的優(yōu)質(zhì)數(shù)據(jù)集奠定前期基礎(chǔ)，SoGPTGPT-4Turbo：多模態(tài)能力提升；支持更長(zhǎng)的上下文窗口、更低的價(jià)格、更高的性能DALLDALL·E第3代：基于Tranformer架構(gòu)的圖像生成模型，能更準(zhǔn)確地反映提示內(nèi)容和理解細(xì)微差別SoraSora：文生視頻模型；視頻理解能力和生成能力突出 ;擴(kuò)散模型與大語言模型相結(jié)合3D領(lǐng)域3D領(lǐng)域2.2.1強(qiáng)大的理解能力：領(lǐng)會(huì)并細(xì)化提示詞，學(xué)習(xí)及模擬物理世界為什么Sora可以較好地理解Prompt提示詞？術(shù)應(yīng)用到視頻訓(xùn)練上，訓(xùn)練出一個(gè)較強(qiáng)的文字描述模型，并在訓(xùn)練Sora時(shí)通過使用大量②GPT用于改寫和細(xì)化Prompt：團(tuán)隊(duì)利用GPT系列模型將簡(jiǎn)短的Prompt轉(zhuǎn)換成詳細(xì)的文字描詳細(xì)的文字描述有助于高質(zhì)量圖像生成詳細(xì)的文字描述有助于高質(zhì)量圖像生成在“更詳細(xì)的文本和圖像配對(duì)”上訓(xùn)練的文生圖模型的CLIP分?jǐn)?shù)更高在“更詳細(xì)的文本和圖像配對(duì)”上訓(xùn)練的文生圖模型的CLIP分?jǐn)?shù)更高GPTGPT模型將Prompt提示詞詳細(xì)化GPT可幫助補(bǔ)充缺失的細(xì)節(jié)、消除復(fù)雜關(guān)系的歧義，圖像質(zhì)量提升資料來源：《ImprovingImageGenerationwithBette2.2.1強(qiáng)大的理解能力：領(lǐng)會(huì)并細(xì)化提示詞，學(xué)習(xí)及模擬物理世界爭(zhēng)議：Sora是否能夠理解事物在物理世界中的存在方式？>Sora在一定程度上展示出其可能具備理解物理現(xiàn)象和物理規(guī)律的能力。根據(jù)OpenAI官網(wǎng)的展示視該場(chǎng)景實(shí)際上不存在于現(xiàn)實(shí)世界，但Sora依然可以根據(jù)流體力學(xué)等物理規(guī)則實(shí)現(xiàn)Promp的真實(shí)或幻想的模擬，并且模擬渲染直觀的物理、推理和基礎(chǔ)。Sora必須學(xué)習(xí)一些隱式形式的文本>Transformer架構(gòu)下的Scalinglaw對(duì)理解物理現(xiàn)象和規(guī)則有望持續(xù)有效。當(dāng)模型變大、數(shù)據(jù)量更Sora模型生成視頻展示1Sora模型生成視頻展示1踩奶的動(dòng)作。Sora模型生成視頻展示2Sora模型生成視頻展示2周圍的泡沫十分自然。2.2.1強(qiáng)大的理解能力：領(lǐng)會(huì)并細(xì)化提示詞，學(xué)習(xí)及模擬物理世界爭(zhēng)議：Sora是否能夠理解事物在物理世界中的存在方式？>Transformer架構(gòu)和擴(kuò)散模型在學(xué)習(xí)和模擬物理世界的過程中存在頻可以在幀與幀之間做到較好的連貫性，但不意味著符合因果邏輯，所以在“奶奶吹蠟燭”的展示視頻中，畫面十分連貫，卻在吹完蠟燭后火苗并沒有熄滅模型適合學(xué)習(xí)和生成穩(wěn)定狀態(tài)下的物體，但是較難理解和識(shí)別物體發(fā)生顯著變化時(shí)的臨界狀態(tài)，所Sora模型生成視頻展示3Sora模型生成視頻展示3Sora模型生成視頻展示4Sora模型生成視頻展示42.2.1強(qiáng)大的理解能力：領(lǐng)會(huì)并細(xì)化提示詞，學(xué)習(xí)及模擬物理世界爭(zhēng)議：Sora是否能夠理解事物在物理世界中的存在方式？>MetaV-JEPA模型：2024年2月14日，Meta發(fā)表論文《RevisitingFeaturePredictionforPredictiveArchitectures）。不同于視頻生成模型Sora，V-JEPA模型>YannLeCun觀點(diǎn)：大多數(shù)根據(jù)提示生成的逼真的視頻并不表明模型能夠理解物理世界。生成模型因此只需生成一個(gè)樣本即可算作成功；而一個(gè)真實(shí)視頻的合理延續(xù)(plausiblecontinuationsofaInputInput頻用作V-JEPA模型樣本1樣本1色框線內(nèi)包含來自覆蓋在原始視頻上的解碼器decoder出來的樣本2樣本3各種樣本。模型生成樣本2樣本3的樣本與輸入不一定完全匹配。V-JEPA不僅預(yù)測(cè)空間上的信息，同時(shí)能夠捕捉隨時(shí)間變化的一致運(yùn)動(dòng)資料來源：《RevisitingFeaturePredictionforLearningVisualRepresentationsfromVideo》，西南證券整理2.2.2優(yōu)秀的生成能力：視頻長(zhǎng)度優(yōu)勢(shì)明顯，連貫性及可控性提升長(zhǎng)度：Sora可以生成長(zhǎng)達(dá)約60s的視頻。產(chǎn)品技術(shù)路徑發(fā)展階段Sora基于TransfomerPika1.0Pikalabs文生圖、文生視頻、圖生視頻、視頻擴(kuò)展、區(qū)域修RunwayGen-2Runway文本提示，生成4s時(shí)長(zhǎng)的視頻，或上傳圖片讓為其頻中選擇"攝像機(jī)"運(yùn)動(dòng)的方向和強(qiáng)度/速度。Stablevideodiffusion/s之間調(diào)整幀率>將圖片分割后的小塊。為方便理解，下圖展示的是顯式的patch，與之對(duì)應(yīng)的是隱式（latent）的patch，Sora其實(shí)也正是用的latentpatches。>Patches的思想最開始是源于Google深度學(xué)習(xí)團(tuán)隊(duì)的ViT-Visiontransformer算法。2.2.2優(yōu)秀的生成能力：視頻長(zhǎng)度優(yōu)勢(shì)明顯，連貫性及可控性提升為什么Sora能夠生成的長(zhǎng)達(dá)60s的視頻？Patch的表達(dá)方式（前提）+transformer時(shí)空信息的處理能力（帶來時(shí)序概念）+transformer的scaling擴(kuò)展能力（能力）。Sora將視覺數(shù)據(jù)統(tǒng)一轉(zhuǎn)化為patch的表示方法，在transformer架構(gòu)可以更好地處理視頻中各個(gè)關(guān)鍵幀像素信息的相關(guān)性。因此，在更多的patch下，Sora模型可以把一個(gè)更長(zhǎng)的視頻完整地表達(dá)出來，而transformer的scaleup的能力也更加makeSora模型將視覺數(shù)據(jù)轉(zhuǎn)化為Patch的表達(dá)方式Sora模型將視覺數(shù)據(jù)轉(zhuǎn)化為Patch的表達(dá)方式視頻中的關(guān)鍵幀視頻中的關(guān)鍵幀視覺編碼器變成一長(zhǎng)串patch的序列帶噪的帶噪的patch通過擴(kuò)散模型（diffusionmodel）的去噪過程去噪的patch資料來源：OpenAI官網(wǎng)，《Animageisworth16x16words:Transformersforimagerecognitionatscale》西南證券整理2.2.2優(yōu)秀的生成能力：視頻長(zhǎng)度優(yōu)勢(shì)明顯，連貫性及可控性提升Transformer對(duì)時(shí)空信息的處理能力：①Transformer在自然語言處理領(lǐng)域和計(jì)算機(jī)視覺感知領(lǐng)域均能發(fā)揮作用。②Transformer在處理大規(guī)模數(shù)據(jù)量場(chǎng)景據(jù)中識(shí)別數(shù)據(jù)間的關(guān)聯(lián)關(guān)系，更有利于構(gòu)建向量空間。③Transformer架構(gòu)引入時(shí)間和空間注意在時(shí)間性方面具有更高的并行計(jì)算效率，在空間性能方面具有更強(qiáng)的泛化能力。>以自動(dòng)駕駛中的BEVformer編碼器為例，>相較于純擴(kuò)散模型而言，Transformer架構(gòu)空間交叉注意力機(jī)制時(shí)間交叉注意力機(jī)制資料來源：《Transformer-basedmodelsandhardwareaccelerationanalysisinautonomousdriving:Asurvey》，西南證券整理BaseBasecompute2.2.2優(yōu)秀的生成能力：視頻長(zhǎng)度優(yōu)勢(shì)明顯，連貫性及可控性提升Transformer的scaling擴(kuò)展能力：現(xiàn)的確定性越高。從模型參數(shù)量級(jí)來看，截至目前，擴(kuò)散模型的參數(shù)規(guī)模普遍在billion（十億）級(jí)>市場(chǎng)大多認(rèn)為擴(kuò)散模型是圖像和視頻生成領(lǐng)域的技術(shù)主流，卻容易忽視語言模型中transformer架構(gòu)scaleup的能力。OpenAI技術(shù)報(bào)告指出，Sora是基于擴(kuò)散模型，但更強(qiáng)調(diào)，Sora是一個(gè)基于SoraSora將Scalingtransformers運(yùn)用至視頻生成中的效果中“帶著藍(lán)色帽子的小狗”為例擴(kuò)展(中“帶著藍(lán)色帽子的小狗”為例如何理解4xcompute？>例如，在basecompute的基礎(chǔ)上，將模型參數(shù)量擴(kuò)大2倍、訓(xùn)練數(shù)據(jù)集擴(kuò)大2倍如何理解32xcompute？>例如，在4xcompute的基礎(chǔ)上，再將模型參數(shù)量擴(kuò)大4倍、訓(xùn)練數(shù)據(jù)集擴(kuò)大2倍Sora模型可控性示例Sora模型可控性示例2.2.2優(yōu)秀的生成能力：視頻長(zhǎng)度優(yōu)勢(shì)明顯，連貫性及可控性提升復(fù)雜度：能夠生成包含多個(gè)角色、多種主題、多類運(yùn)動(dòng)形態(tài)的復(fù)雜場(chǎng)景。逼真度：能夠呈現(xiàn)更多的視覺細(xì)節(jié)，具備更高清的畫質(zhì)，為用戶提供更好的視覺體驗(yàn)。生成的視頻的畫質(zhì)分辨率可以達(dá)到1920x1080p。生成的圖片的畫質(zhì)分辨率可以達(dá)到2048x2048p。連貫性&一致性：在角度移動(dòng)和切換情況下，人物和場(chǎng)景等元素在3D空間中的位置關(guān)系能夠保持一致的運(yùn)動(dòng)；可以生成同一角色的多個(gè)鏡頭，保持其在整個(gè)視頻中的外觀，當(dāng)物體短暫地被遮擋或離開框架后仍然能夠恢復(fù)與先前一致的物體特征。Sora模型連貫性&一致性示例Sora模型連貫性&一致性示例①小狗原先的特征─→②小狗即將被遮擋①小狗原先的特征─→②小狗即將被遮擋量關(guān)鍵詞詞，仍可快速生成優(yōu)質(zhì)視頻③小狗被遮擋③小狗被遮擋Sora模型在畫面構(gòu)圖方面更合理Sora模型在畫面構(gòu)圖方面更合理2.2.2優(yōu)秀的生成能力：視頻長(zhǎng)度優(yōu)勢(shì)明顯，連貫性及可控性提升為什么Sora能夠在視頻生成的逼真度/連貫性/一致性方面能夠取得較大進(jìn)展？>建立優(yōu)質(zhì)的視覺數(shù)據(jù)集和文本-視頻配對(duì)集：得益于前期DALL·E3的相關(guān)工作，Sora擁有具備高關(guān)>對(duì)視覺訓(xùn)練數(shù)據(jù)的處理能力：通過降維的方法保留原始視覺數(shù)據(jù)格式。OpenAI通過降維的方法，保留原始圖像的縱橫比和分辨率，使畫面完整度更高，這一改進(jìn)有助于模型更準(zhǔn)確地捕捉視覺數(shù)據(jù)視頻生成模型的工作（如GAN、Autoregress視覺數(shù)據(jù)的尺寸大小比如裁剪成標(biāo)準(zhǔn)尺寸、時(shí)長(zhǎng)為4秒、分辨率為256x256，而Sora可以直接使用Sora模型在視頻采樣的尺寸方面具備靈活性Sora模型在視頻采樣的尺寸方面具備靈活性于兩者之間的視頻。銜接視頻的能力換成夏季綠樹成蔭無人機(jī)和蝴蝶實(shí)現(xiàn)無縫銜接銜接視頻的能力換成夏季綠樹成蔭無人機(jī)和蝴蝶實(shí)現(xiàn)無縫銜接2.2.3其他能力：圖生視頻，視頻擴(kuò)展/編輯/拼接/模擬等圖生視頻：可以將圖片轉(zhuǎn)化為動(dòng)圖和視頻。視頻擴(kuò)展：能在時(shí)間上向前或向后擴(kuò)展視頻。例如在時(shí)間上向后延伸，視頻開頭不同，但結(jié)局相同。視頻編輯：擴(kuò)散模型已有眾多根據(jù)文本提示編輯圖像和視頻的方法，可改變物體樣式和畫中環(huán)境等。銜接視頻：使用Sora在兩個(gè)輸入視頻之間逐步插值，實(shí)現(xiàn)不同的主題和場(chǎng)景視頻的靜態(tài)圖片變成動(dòng)態(tài)視頻靜態(tài)圖片變成動(dòng)態(tài)視頻3從Sora看文生視頻模型的影響1從1從Sora看文生視頻模型的技術(shù)路徑2從2從Sora看文生視頻模型的最新能力文生視頻模型通常在1B~20B之間推理算力影響因素文生視頻模型通常在1B~20B之間推理算力影響因素3.1算力端：參數(shù)擴(kuò)展提升訓(xùn)練算力消耗，應(yīng)用落地拉動(dòng)推理算力增長(zhǎng)訓(xùn)練端：模型參數(shù)仍有擴(kuò)展空間，訓(xùn)練算力消耗有望提升。從目前市場(chǎng)上的文生視頻模型來看，參數(shù)大小一般處于1B~20B之間，相較于千億甚至萬億參數(shù)級(jí)別的大語言模型而言，模型仍有擴(kuò)展空推理端：未來應(yīng)用落地可期，推理算力需求持續(xù)增長(zhǎng)。擴(kuò)散模型包括大量的去噪步驟，擴(kuò)散步驟帶來的算力消耗相較于大語言所需的推理算力需求更高。此外，在視頻生成的過程中，視頻需要轉(zhuǎn)換視頻的SequenceLength較文本模態(tài)更長(zhǎng)視頻的清晰度越高，算力要求越大長(zhǎng)視頻對(duì)連貫性和一致性的要求更高物理規(guī)則更好的理解要求更多的推理的算力消耗顯著高于大語言模型資料來源：《MakePixelsDance:Hi3.2應(yīng)用端：文生視頻模型拓寬應(yīng)用廣度，前期有望以助手角色落地大模型向多模態(tài)方向持續(xù)發(fā)展，AI應(yīng)用的廣度進(jìn)一步拓寬。目前，OpenAI已向部分視覺藝術(shù)家、設(shè)計(jì)師和電影制作人提供訪問權(quán)限，以獲取專業(yè)的反饋。根據(jù)OpenAI內(nèi)測(cè)方向也代表了文生視頻模型應(yīng)用的重點(diǎn)領(lǐng)域，我們認(rèn)為以Sora為代表的視頻生成模型有望給廣告業(yè)、設(shè)計(jì)業(yè)、電影業(yè)、短視頻行業(yè)、游戲行業(yè)帶來變化。成模型距離精確控制尚有一定差距，受制于精確控制的能力，Sora未來的落地形式更可能偏向于為創(chuàng)作工具對(duì)相關(guān)行業(yè)進(jìn)行賦能。文生視頻模型對(duì)應(yīng)用領(lǐng)域的影響細(xì)分領(lǐng)域文生視頻潛在賦能方向短視頻視頻生成模型在視頻生成時(shí)長(zhǎng)上較短劇和影視作品來看更能滿足實(shí)際需求，文生視頻模型有望降低短視頻創(chuàng)作門檻，提升創(chuàng)作效率，同時(shí)為長(zhǎng)尾視頻內(nèi)容的生產(chǎn)提供更多的可能性。廣告主流的廣告素材更多地傾向于視頻模態(tài)，文生視頻技術(shù)的進(jìn)步有望提升視頻廣告生產(chǎn)效率。IP&社交幫助創(chuàng)建虛擬人，創(chuàng)作IP將變得更加簡(jiǎn)單，成本低優(yōu)勢(shì)。游戲高性能帶寬的提升對(duì)游戲的提升效率會(huì)更高；可以幫助創(chuàng)建游戲Demo，提升團(tuán)隊(duì)討論效率等。有望改變電影制作的傳統(tǒng)流程，例如減少對(duì)物理拍攝、場(chǎng)景搭建、特效制作等資源的依賴，降低電影制作成本，同時(shí)使個(gè)人創(chuàng)作者和小型團(tuán)隊(duì)也有可能制作出具有專業(yè)水準(zhǔn)的影視作品；AI主要是介入內(nèi)容生產(chǎn)和編輯的方式，對(duì)內(nèi)容創(chuàng)作流程的改變。AR/VR有助于打造虛擬生態(tài)，為用戶帶來沉浸式的體驗(yàn)；但AR/VR場(chǎng)景還需用到空間計(jì)算，用戶的設(shè)備定位對(duì)精度要求高。自動(dòng)駕駛自動(dòng)駕駛的進(jìn)步仍需視覺系統(tǒng)的進(jìn)一步發(fā)展，視覺系統(tǒng)還需識(shí)別地圖等三維深度信息，需要更精準(zhǔn)地理解和識(shí)別世界。工業(yè)未來有望賦能3D和物理仿真等環(huán)節(jié)。資料來源：西南證券3.3其他：云服務(wù)將成算力重要補(bǔ)充，多媒體傳輸帶動(dòng)光通信需求云服務(wù)：模型廠商除購買大量算力以支撐AI服務(wù)，同時(shí)還需使用云服務(wù)作為補(bǔ)充。在推理側(cè)，AI模進(jìn)一步提高市場(chǎng)對(duì)云服務(wù)的需求。光通信：隨著視頻生成模型的發(fā)展以及未來應(yīng)用的落地，數(shù)據(jù)中心之間將進(jìn)行更多的視頻等多媒體信息的傳輸，對(duì)傳輸帶寬的要求和穩(wěn)定性的要求更高，光通信需求有望大幅提升。為應(yīng)對(duì)未來大模型的升級(jí)迭代和大規(guī)模應(yīng)用，需要更高性能的網(wǎng)絡(luò)帶寬和更低的延遲，以支持更復(fù)雜的網(wǎng)絡(luò)需求。市場(chǎng)對(duì)交換機(jī)、光模塊、光芯片等基礎(chǔ)設(shè)施的需求也將持續(xù)增長(zhǎng)。AIAI工作負(fù)載需要高有效帶寬的低延遲網(wǎng)絡(luò)1.6T光模塊需求有望增長(zhǎng)風(fēng)險(xiǎn)提示技術(shù)進(jìn)展不及預(yù)期風(fēng)險(xiǎn)；行業(yè)競(jìng)爭(zhēng)加劇風(fēng)險(xiǎn)；應(yīng)用開發(fā)不及預(yù)期風(fēng)險(xiǎn)。電話箱：wxj@西南證券研究發(fā)展中心西南證券研究發(fā)展中心西南證券投資評(píng)級(jí)說明報(bào)告中投資建議所涉及的評(píng)級(jí)分為公司評(píng)級(jí)和行業(yè)評(píng)級(jí)（另有說明的除外）。評(píng)級(jí)標(biāo)準(zhǔn)為報(bào)告發(fā)布日后6個(gè)月內(nèi)的相對(duì)市場(chǎng)表現(xiàn)，即：以報(bào)告發(fā)布日后6個(gè)月內(nèi)公司股價(jià)（或行業(yè)指數(shù)）相對(duì)同期相關(guān)證券市場(chǎng)代表性指數(shù)的漲跌幅作為基準(zhǔn)。其中：A股市場(chǎng)以滬深300指數(shù)為基準(zhǔn)，新三板市場(chǎng)以三板成指（針對(duì)協(xié)議轉(zhuǎn)讓標(biāo)的）或三板做市指數(shù)（針對(duì)做市轉(zhuǎn)讓標(biāo)的）為基準(zhǔn)；香港市場(chǎng)以恒生指數(shù)為基準(zhǔn)；美國(guó)市場(chǎng)以納斯達(dá)克綜合指數(shù)或標(biāo)普500指數(shù)為基準(zhǔn)。評(píng)級(jí)買入：未來6個(gè)月內(nèi)，個(gè)股相對(duì)同期相關(guān)證券市場(chǎng)代表性指數(shù)漲幅在20%以上持有：未來6個(gè)月內(nèi)，個(gè)股相對(duì)同期相關(guān)證券市場(chǎng)代表性指數(shù)漲幅介于10%與20%之間中性：未來6個(gè)月內(nèi)，個(gè)股相對(duì)同期相關(guān)證券市場(chǎng)代表性指數(shù)漲幅介于-10%與10%之間回避：未來6個(gè)月內(nèi)，個(gè)股相對(duì)同期相關(guān)證券市場(chǎng)代表性指數(shù)漲幅介于-20%與-10%之間賣出：未來6個(gè)月內(nèi)，個(gè)股相對(duì)同期相關(guān)證券市場(chǎng)代表性指數(shù)漲幅在-20%以下評(píng)級(jí)強(qiáng)于大市：未來6個(gè)月內(nèi)，行業(yè)整體回報(bào)高于同期相關(guān)證券市場(chǎng)代表性指數(shù)5%以上跟隨大市：未來6個(gè)月內(nèi)，行業(yè)整體回報(bào)介于同期相關(guān)證券市場(chǎng)代表性指數(shù)-5%與5%之間弱于大市：未來6個(gè)月內(nèi)，行業(yè)整體回報(bào)低于同期相關(guān)證券市場(chǎng)代表性指數(shù)-5%以下分析師承諾分析師承諾報(bào)告署名分析師具有中國(guó)證券業(yè)協(xié)會(huì)授予的證券投資咨詢執(zhí)業(yè)資格并注冊(cè)為證券分析師，報(bào)告所采用的數(shù)據(jù)均來自合法合規(guī)渠道，分析邏輯基于分析師的職業(yè)理解，通過合理判斷得出結(jié)論，獨(dú)立、客觀地出具本報(bào)告。分析師承諾不曾因，不因，也將不會(huì)因本報(bào)告中的具體推薦意見或觀點(diǎn)而直接或間接獲取任何形式的補(bǔ)償。重要聲明西南證券股份有限公司（以下簡(jiǎn)稱“本公司”）具有中國(guó)證券監(jiān)督管理委員會(huì)核準(zhǔn)的證券投資咨詢業(yè)務(wù)資格。本公司與作者在自身所知情范圍內(nèi)，與本報(bào)告中所評(píng)價(jià)或推薦的證券不存在法律法規(guī)要求披露或采取限制、靜默措施的利益沖突?！蹲C券期貨投資者適當(dāng)性管理辦法》于2017年7月1日起正式實(shí)施，本報(bào)告僅供本公司簽約客戶使用，若您并非本公司簽約客戶，為控制投資風(fēng)險(xiǎn)，請(qǐng)取消接收、訂閱或使用本報(bào)告中的任何信息。本公司也不會(huì)因接收人收到、閱讀或

人人文庫> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

OpenAI Sora專題：Transformer擴(kuò)展優(yōu)勢(shì)凸顯視頻理解與生成能力提升

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

OpenAI Sora專題：Transformer擴(kuò)展優(yōu)勢(shì)凸顯視頻理解與生成能力提升

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔