![2024年AI視頻生成研究報告_第1頁](http://file4.renrendoc.com/view12/M01/17/2D/wKhkGWb2p8eARyJ7AAFw5RwRw00428.jpg)
![2024年AI視頻生成研究報告_第2頁](http://file4.renrendoc.com/view12/M01/17/2D/wKhkGWb2p8eARyJ7AAFw5RwRw004282.jpg)
![2024年AI視頻生成研究報告_第3頁](http://file4.renrendoc.com/view12/M01/17/2D/wKhkGWb2p8eARyJ7AAFw5RwRw004283.jpg)
![2024年AI視頻生成研究報告_第4頁](http://file4.renrendoc.com/view12/M01/17/2D/wKhkGWb2p8eARyJ7AAFw5RwRw004284.jpg)
![2024年AI視頻生成研究報告_第5頁](http://file4.renrendoc.com/view12/M01/17/2D/wKhkGWb2p8eARyJ7AAFw5RwRw004285.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
AI視頻生成研究報告量子位智庫insights分析師:Xuanhao
2024.73.玩家格局1.技術(shù)側(cè)2.應(yīng)用側(cè)insights2視頻是圖像模態(tài)的進(jìn)一步擴(kuò)展,但由于技術(shù)復(fù)雜,對于算力、·2022年10月,Google、Meta發(fā)布Phenaki、Make-A-Video數(shù)據(jù)等資源要求較高,成熟相對文本、圖像較慢
·
2023年下半年,創(chuàng)業(yè)公司推出Runway-Gen2,Stable·領(lǐng)軍企業(yè)已經(jīng)做出標(biāo)桿,顯著加速領(lǐng)域發(fā)展,已出現(xiàn)多家視
VideoDiffusion
、Pika等產(chǎn)品頻生成領(lǐng)域創(chuàng)業(yè)公司,但商業(yè)化、產(chǎn)品化進(jìn)展較慢
·
2024年2月,OpenA
I發(fā)布Sora引發(fā)全球關(guān)注·
目前主要是音樂生成(語音識別、克隆暫不納入討論),市
·
2024年2月,Suno.ai發(fā)布Suno
V3場不如圖片生成、視頻生成等領(lǐng)域熱門,比視頻更加早期·
2024年6月,Stability.AI
推出文生音頻模型Stable·
明星創(chuàng)業(yè)公司較少,但有加速的發(fā)展的態(tài)勢
Audio
Open·
技術(shù)路線目前尚不清晰,垂直明星創(chuàng)業(yè)公司較少,產(chǎn)品大多
·
2020年8月,NeRF
論文發(fā)表處于早期階段,但正在加速發(fā)展·2022年9月,谷歌發(fā)布DreamFusion·
2023年5月,OpenA
I開源Shape-E模型·
2024年7月,Meta
發(fā)布Meta
3D
Gen
1.技術(shù)側(cè)
2.應(yīng)用側(cè)3.玩家格局
量子位智庫insights大模型各模態(tài)總覽:多模態(tài)發(fā)展趨勢清晰,文本、圖像商業(yè)化規(guī)模和成熟度較高,Al視頻生成正在迅速發(fā)展·大語言模型在文字處理上面的卓越表現(xiàn)開啟了生成式AI的浪潮,基礎(chǔ)模型能夠基于語言進(jìn)行推理是智能的重要表現(xiàn)·在各個領(lǐng)域應(yīng)用最為成熟,例如ChatGPT
日活用戶已經(jīng)突破1
億
,OpenAI
在2024年6月ARR
的達(dá)到34億美元·
2018年6月,由Alec
Radford主導(dǎo)在0penAI推
出GPT-1·
2020年6月,OpenAl推出GPT-3,
引發(fā)業(yè)界關(guān)注,驗證scaling
路線·
2022年11月,ChatGPT
掀起技術(shù)浪潮·ChatGPT·Character.AI●
GeminiAnthropic·Stable
Diffusion
·
Midjourney·Dall-E
3·SoraRunway·
快手可靈·Pixverse·Suno·StableAudio·Luma.AIMeshy量創(chuàng)作者和用戶關(guān)注,成熟度僅次于文本模態(tài)·Midjhouney
已有超過2000萬用戶,在無投資的情況自我造血,在2023年的營收超過2億美元·
2022年8月,StableDiffusion在Stability.ai的支持下開源,推動社區(qū)在圖像領(lǐng)域快速發(fā)展·
2023年3月,Midjourney
V5發(fā)布,迅速成為現(xiàn)象級應(yīng)用更點視頻圖像文本音頻3D·
文生圖領(lǐng)域產(chǎn)生了僅次于基礎(chǔ)模型的殺手級應(yīng)用,獲得了大
·
2021年1月,OpenA
I發(fā)布初代文生圖模型DALL-E概況
關(guān)鍵節(jié)點信息來源:量子位智庫代表應(yīng)用成熟度3····采用傳統(tǒng)的計算機(jī)視覺
(CV)
、計算機(jī)圖形學(xué)(CG)技術(shù),但生成功能有限,主要是一些局
部的垂點功能·例如效果生成,在現(xiàn)有視頻上添加多種效果,如濾鏡、光影、風(fēng)格化、美顏特效等。也可以
做局部動態(tài)化,如人物的面部表情生成、搞笑
表情、爆款特效、舞蹈動作生成等·
有一定創(chuàng)意空間,生成部分新元素,成本低但應(yīng)用的場景有限·采用基于Transformer或者擴(kuò)散模型的大模型路線,可以通過自然語言或者指導(dǎo)圖進(jìn)行全局生成(但也可以嵌入已有內(nèi)容),視頻的內(nèi)容、風(fēng)格、長短、分辨率、寬高比都可以進(jìn)行靈活調(diào)整·例如生成天馬行空的創(chuàng)意視頻、藝術(shù)視頻、卡通視頻等等,非常靈活·
創(chuàng)意空間無限,所有的元素都是全新生成,現(xiàn)階段成本高昂,但天花板高,應(yīng)用場景廣泛技術(shù)趨勢:視頻生成正在由檢索生成、局部生成走向依靠自然語言提
示詞的全量生成,生成內(nèi)容更加靈活豐富,應(yīng)用空間廣闊無新增內(nèi)容
部分新增內(nèi)容
全量新增內(nèi)容信息來源:量子位智庫
4特點僅針對視頻的一部分進(jìn)行生成,例如視頻中人物角色、
動作、背景、風(fēng)格化、特殊
效果等·通過文字、圖片、視頻作為提示
詞來進(jìn)行憑空生成,不依賴外部
素材,核心在于大模型的能力特點特點·采用傳統(tǒng)的跨模態(tài)視頻檢索技術(shù),通過視頻標(biāo)簽的或者視頻語義理解的方式從數(shù)據(jù)庫中的檢
索,再將這些素材進(jìn)行剪輯、組合拼接在一起,
本質(zhì)上還是鍵值對匹配的邏輯·例如短視頻平臺的知識類視頻、解說類視頻,
通過文本關(guān)鍵字在數(shù)據(jù)庫中進(jìn)行素材檢索,然
后在進(jìn)行拼接組合生成·
創(chuàng)意空間有限,沒有貢獻(xiàn)增量素材,但成本極
低,生成速度極快提示詞生成
檢索生成主要是對現(xiàn)有的視頻素材根據(jù)關(guān)鍵詞和標(biāo)簽進(jìn)
行檢索匹配,再進(jìn)行相應(yīng)的
拼接和排列組合1.技術(shù)側(cè)
2.應(yīng)用側(cè)3.玩家格局局部生成
--insights檢索生成·
2022年12月Diffusion
Transformer論文發(fā)表·
2024年2月OpenA
I發(fā)布Sora,取得驚艷的生成效果,驗證了
Diffusion和Transformer結(jié)合的有效性·Sora、Videopoet、W.A.L.T·
由于領(lǐng)軍企業(yè)的示范效應(yīng),Diffusion
Transformer已經(jīng)成為視頻
生成領(lǐng)域的核心路線,領(lǐng)域內(nèi)其他玩家都開始聚焦DiT并取得進(jìn)展·
目前業(yè)界對于Sora的架構(gòu)大多是猜想,從架構(gòu)大方向上接近,但
具體細(xì)節(jié)上不同模型、產(chǎn)品各異·
可擴(kuò)展性強(qiáng):基于擴(kuò)散模型的視頻模型,核心的構(gòu)件是卷積神經(jīng)網(wǎng)絡(luò)U-Net,隨著模型規(guī)模scaleup增益會放緩甚至消失。DiT(Diffusion
Transformer)
將傳統(tǒng)擴(kuò)散模型的U-Net替換為
Transformer,從而能夠?qū)崿F(xiàn)更強(qiáng)的可拓展性·
長期來看語言模型路線1可成為主要路線,可以將多種模態(tài)融合到
一起(由于架構(gòu)的成熟和優(yōu)良的擴(kuò)展性)技術(shù)趨勢:視頻生成正由擴(kuò)散模型主導(dǎo)的格局走向與語言模型結(jié)合的路
線
,Transformer
將在視頻生成方面發(fā)揮主導(dǎo)作用
探索期-
早期增長期-未來方向
·
2014年GAN發(fā)表,2016年左右開始用于視頻生成·
2013年VAE出現(xiàn),可以通過編
碼器和解碼器的機(jī)制學(xué)習(xí)數(shù)據(jù)
的潛在表示Text2Filter、TGANs-C,VGAN、TGAN、VideoGPT、MoCoGAN、
DVD-GAN、DIGAN·
應(yīng)用范圍有限(只能總特定生成,例如數(shù)字),生成分辨率低、生
成時長極短·
生成多樣性差:生成器-判別
器對抗的模型架構(gòu)決定生成效
果逼真但多樣性、創(chuàng)造性差,
很難泛化·
生成速度快:
GAN可以一次出
圖,無需做多步推理·
2020年DDPM論文發(fā)表●2021年LatentDiffusionModels論文發(fā)表·2022年
VideoDiffusionModel
論
文
發(fā)
表·Stable
Video
Diffusion、
Make-A-Video、RunwayGen1/2、Video
LDM·
由于SD的開源激發(fā)社區(qū)創(chuàng)新,推動擴(kuò)散模型在視覺生成領(lǐng)
域占據(jù)主導(dǎo)地位·生成質(zhì)量高:
生成效果好,細(xì)
節(jié)豐富清晰,訓(xùn)練要遠(yuǎn)比GAN
穩(wěn)定·顯存開銷大:
視頻生成有大量
相關(guān)依賴關(guān)系的圖片同時生成,
對計算顯存有極高要求·2017年Transformer發(fā)表,逐步向各個領(lǐng)域滲透,早期在視
頻生成領(lǐng)域也有嘗試·
2021年Google發(fā)布VideoVision
Transformer·GODIVA、VideoGPT、Phenaki、CogVideo、NUWA·早期基于Transformer的視頻生成效果有限,在當(dāng)時的成本
比較高·可擴(kuò)展性強(qiáng):Scaleup路線上
目前最好的架構(gòu)·
生成速度慢、開銷大:需要把圖片進(jìn)行分割再轉(zhuǎn)換成超長
序列,計算量隨分辨率增加平
方級增加,復(fù)雜度高GAN
TransformerDiffusionModel
Diffusion+Transformer技
術(shù)
節(jié)
點案
例特
點1.技術(shù)側(cè)
2.應(yīng)用側(cè)
3.玩家格局信息來源:量子位智庫,1)在視頻生成的語境insights5·視頻訓(xùn)練數(shù)據(jù)示例·
高質(zhì)量數(shù)據(jù)少:
最佳的訓(xùn)練數(shù)據(jù)是高質(zhì)量的視頻-文本
對,即針對一段視頻,有與之對應(yīng)詳細(xì)準(zhǔn)確的文字描述,
互聯(lián)網(wǎng)上大部分的視頻數(shù)據(jù)都難以滿足需求(如數(shù)據(jù)不
準(zhǔn)確甚至是錯的),此外視頻數(shù)據(jù)的寬高比、分辨率、時長各異,需要進(jìn)一步處理。數(shù)據(jù)量方面,Sora
的訓(xùn)
練數(shù)據(jù)可能超過500萬小時的精良視頻·
公開數(shù)據(jù)質(zhì)量低:
公開數(shù)據(jù)集例如WebVid(1070
萬個文本視頻對,僅5.2萬小時)、
HowTo100M總時長超10萬,
但都是4s的短視頻)、CelebV-Text
(超7萬個人臉-文本
片段描述),數(shù)據(jù)量小且質(zhì)量低·
版權(quán)數(shù)據(jù)獲取難:
例如電影、記錄片、動漫、MV等影
視作品,內(nèi)容平臺版權(quán)庫,以及YouTube
、抖音等UGC內(nèi)
容,成本高且有版權(quán)限制Sora架構(gòu)(推測)·
時間維度增加復(fù)雜性:視頻生成在圖像的基礎(chǔ)上增加
了時間維度,例如針對時間維度和空間維度結(jié)合做數(shù)據(jù)
表示,這對可擴(kuò)展性、視頻生成的時長和生成效果一致
性方面有重大影響·
視頻生成更難規(guī)?;?/p>
(scale)
:對于語言模型而言,
可以進(jìn)行大規(guī)模的自監(jiān)督學(xué)習(xí),而圖像和視頻生成模型
需要進(jìn)行圖像-文本或視頻-文本對標(biāo)注做監(jiān)督學(xué)習(xí),規(guī)
?;碾y度更大,這是視頻模型和LLM的本質(zhì)差異·Tokenizer
設(shè)計更復(fù)雜:文本模態(tài)的tokenizer更成熟,
語言已經(jīng)過人類智能的一次壓縮,但圖像是現(xiàn)實世界的
原始信息,信息密度較低,需要重新設(shè)計更好的tokenizer量子位智庫insights技術(shù)挑戰(zhàn):算力需求大,數(shù)據(jù)要求高,算法復(fù)雜是目前制約視頻生成模型能力的三大挑戰(zhàn)AI計算卡示例·
訓(xùn)練視頻生成大模型所需要的計算量遠(yuǎn)高于一般的
文本和圖像模型,這導(dǎo)致開源社區(qū)和學(xué)術(shù)界等相對
業(yè)界算力不足的玩家難以參與,學(xué)界在視頻基礎(chǔ)模
型上工作較少,相關(guān)的模型和科研成果多出自互聯(lián)
網(wǎng)公司和主打視頻生成的商業(yè)技術(shù)公司·
以Sora為例,從訓(xùn)練側(cè)看,訓(xùn)練成本大約為數(shù)十萬英偉達(dá)H100GPU
hours
(據(jù)估算),需要千卡GPU
的計算集群,以H100的使用價格約為3$/h估算,Sora
的訓(xùn)練成本可能達(dá)數(shù)千萬至上億美元·
從推理側(cè)看1,價格方面目前Sora每分鐘的推理成本
約數(shù)十美元,成本高昂;生成時長方面,單個視頻
生成時長超過10min,推理速度很慢PixelVideoSpaceCompactLatent
SpaceCean(HxWT4CTmcuelNosr
LsrentteratxCodlicmt信息來源:量子位智庫,OpenAI,
英偉達(dá),《s
,1)推理速度除模型外也看算力供給
6Alarge,vibrantbirdwithanimpressivewingspanswOopsdownfrom
thesky,let-
tingoutapiercing
call
as
it
approaches
a
weathered
scarecrow
in
a
sunlit
field.Thescarecrow,dressedintatteredcloth-
ing
and
a
straw
hat,appears
to
tremble,
almost
asifit's
comingto
life
in
fear
of
theapproachingbird.1.技術(shù)側(cè)
2.應(yīng)用側(cè)3.玩家格局算
力
需
求
大數(shù)
據(jù)
要
求
高算
法
復(fù)
雜<圖像\視頻,文字描述>ImagesQryideofamConditioringPmmp·
英偉達(dá)目前占據(jù)全球高端GPU市場超95%的市場份額,是事實上生成式AI全行業(yè)算力市場
供給量的決定者·
英偉達(dá)的人工智能GPU在2022年出貨量約270
萬,主要以A100為主;2023年出貨量約380萬
塊,主要以A100和H100為主;預(yù)計2024年出貨量可能達(dá)到450萬塊,以H100和最近發(fā)布的
Blackwell系列為主·預(yù)計英偉達(dá)GPU交付量將保持20%的增速,并在每年進(jìn)行芯片架構(gòu)的升級,穩(wěn)步提升芯片
和系統(tǒng)的計算能力·
目前北美最頭部的科技公司都在重金押注AI
數(shù)據(jù)中心建設(shè),以規(guī)模最大的4家公司為例,
預(yù)計2024年在數(shù)據(jù)中心上的投入將達(dá)到1500
億美元左右,在一定程度代表了領(lǐng)軍玩家對
于大模型的信心和預(yù)期云廠商旗下的數(shù)據(jù)中心既支持內(nèi)部業(yè)務(wù)需求,也對外提供GPU算力,將逐步滿足市場對于
算力的需求,支持各類模型的訓(xùn)練和推理·數(shù)據(jù)中心成本主要包括AI服務(wù)器的采買、土建成本、電力系統(tǒng)、制冷系統(tǒng)、監(jiān)控系統(tǒng)等amazon5003804002302001000Meta
AmazonGoogleMicrosoft900+20%NVIDIA。600450270300A100GB20002022OpenAISora示
例·
從OpenAISora的實踐成果來看,繼續(xù)增加模型的數(shù)據(jù)量和相應(yīng)的參數(shù)規(guī)
模
(Scale
up)依然是AI發(fā)展的核心
路線,強(qiáng)大算力支持是模型進(jìn)步的必
要支撐·
模型能力:scale之后可以涌現(xiàn)出更
多高級特性,例如:1)隨著鏡頭的
旋轉(zhuǎn)和移動,人物、對象、場景在三
維世界中保持穩(wěn)定真實,2)模型可
以模擬距離關(guān)系和空間關(guān)系,生成針
對一個角色的多個鏡頭,3)模擬生
成內(nèi)容中的物理交互關(guān)系·
應(yīng)用成本:視頻模型的推理成本較高,需要大規(guī)模的推理算力來支持市場的
大規(guī)模應(yīng)用,充沛的算力供給將推動
視頻生成從實驗階段推向商業(yè)化普及技術(shù)驅(qū)動:視頻生成模型的能力將在算力驅(qū)動下快速進(jìn)步,穩(wěn)定性、可控性、豐富度將持續(xù)提升,解鎖更多應(yīng)用空間
北美巨頭數(shù)據(jù)中心2024年Capex投入預(yù)期(億/美元)
關(guān)
鍵
分
析
計算量x1
計算量x4計算量x32
英偉達(dá)人工智能GPU出貨量持續(xù)增加(萬張)1.技術(shù)側(cè)
2.應(yīng)用側(cè)
3.玩家格局540GB200
十B系列
UItra2025E信息來源:量子位智庫,MorganStanleyG400insightsRubin系列380A100H10020232024E2026EH1006504403006007技術(shù)驅(qū)動:視頻生成的推理成本將持續(xù)下降,生成速度進(jìn)一步提高,
加速應(yīng)用層技術(shù)擴(kuò)散和商業(yè)化規(guī)模增長英偉達(dá)GPU產(chǎn)品及其算
力(FP16,TFLOPS)5,0004,0002,0006201300Ampere
Hopper
Blackwell
Robin2
模型應(yīng)用的成本將不斷降低·
降本趨勢:視覺模型的價格快速下降
尚未開始,但隨著市場需求驅(qū)動和產(chǎn)
品化的成熟,類似LLM的降價趨勢也
將出現(xiàn)在視頻模型上·FLOPs
成本下降:單位計算量的成本
將持續(xù)降低,主要來源于芯片架構(gòu)的
提升和服務(wù)器、數(shù)據(jù)中心系統(tǒng)優(yōu)化·
軟件層優(yōu)化:從LLM來看,推理成本
正在迅速降低,頭部模型在過去一年
降幅約90%,降本趨勢將持續(xù)·
當(dāng)前痛點:目前制約視頻生成應(yīng)用普
及的重要因素之一是生成速度,生成
5s左右的視頻需要等待數(shù)分鐘,且需
要嘗試多次才能獲得理想結(jié)果,對用
戶體驗造成的影響較大●
加速生成:單卡芯片算力提升和系統(tǒng)、集群上面的優(yōu)化可以大幅增加模型推
理速度(tokens/秒),縮短視頻生成的等待時間10
硬件的計算能力、推理速度不斷提升英偉達(dá)GPU的算力成本估算(美元/TFLOPs)
OpenAI旗艦?zāi)P偷耐评沓杀?美元/百萬token)1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局B系統(tǒng)層性能提升A
芯片層成本優(yōu)化A
芯片層性能提升關(guān)鍵分析信息來源:量子位智庫,英偉達(dá),OpenAI,MorgB系統(tǒng)層成本優(yōu)化insights8,0006,0002,000Volta3008物理世界交互·
具身智能·
自動駕駛●數(shù)字世界交互·
智能管家·
虛
擬Agent●
●System
2·
復(fù)雜推理·
長線規(guī)劃●
●Scaling
LawsGPT-3.5語言模型DALL-E視覺模型Whisper音頻模型早期階段·
內(nèi)容生成和理解獨立·
不同模態(tài)相互獨立GPT-4V多模態(tài)大模型“Everything
to
Everything”
統(tǒng)一生成和理解Sora目前各個模態(tài)正在相互融合:·Text-to-Video:OpenAISora打通文字與視覺·Audio-to-Audio:GPT-4o
實現(xiàn)音頻交流·Text-to-Audio:Suno
打通文字與音樂·Video-to-Audio:Deepmind
發(fā)布匹配Veo的視頻生音頻技術(shù)關(guān)鍵分析·
生成和理解在本質(zhì)上是統(tǒng)一的,語言模型的next
tokenprediction
越準(zhǔn)確,意味著
模型對于語言和世界的理解
越準(zhǔn)確。對于視頻模型,對
下一幀或下一個patch1的預(yù)
測的越準(zhǔn)確,上代表了模型
對物理世界的理解越準(zhǔn)確●視頻模態(tài)包含大量信息:從仿生的角度看,人腦有80%
的信息來自視覺,因此視覺
信息的理解與生成對于多模
態(tài)大模型至關(guān)重要·
視覺模型可以壓縮一切:“當(dāng)多模態(tài)訓(xùn)練達(dá)到一定規(guī)
模時,語言智能就會融入到
視覺智能中,這是一條獲得
世界模擬器的路徑,可以通
過這樣的模擬器獲得任何東西?!?--Aditya
Ramesh,
OpenAI
Sora及DALL-E
項目
負(fù)責(zé)人9技術(shù)展望:視頻生成模型不僅限于生成視頻內(nèi)容,長期將統(tǒng)一多模態(tài)的生成和理解,成為通向AGI的重要路徑1.技術(shù)側(cè)
2.應(yīng)用側(cè)3.玩家格局信息來源:量子位智庫,1)patch是OpenAI
So量子位智庫insights多模態(tài)生成多模態(tài)理解數(shù)據(jù)算法算力2.應(yīng)用側(cè)3.玩家格局1.技術(shù)側(cè)insights10海外視頻應(yīng)壓平
臺用戶年營收長視頻平臺D
YouTube25
億MAU2.7億315億美元
340億美元1.5億MAU84億美元短視頻平臺
TikTok20億MAU
1
6
億MAU100億美元+
160億美元電影市場(年度票房)N/A330億美元(全球)1000視頻流量占互聯(lián)網(wǎng)網(wǎng)絡(luò)流量比例(%)2017·
2017到2022年,全球互聯(lián)網(wǎng)視頻流量
占消費互聯(lián)網(wǎng)流量的比例從73%增長到
82%,成為流量最大的內(nèi)容形式·2022年,每月有500萬年的視頻內(nèi)容通
過互聯(lián)網(wǎng)傳輸。相當(dāng)于每秒鐘有110萬
分鐘的視頻被流式傳輸或下載人4
小時·
內(nèi)容視頻化是大勢所趨,移動互聯(lián)網(wǎng)的
用戶使用總時長占比中,短視頻穩(wěn)居第
一達(dá)到28%·移動視頻行業(yè)用戶規(guī)模達(dá)10.76億,月人均時長為64.2小時,視頻平臺成為流量
核心,可以將用戶引向電商、音樂、影
視、本地生活、旅游服務(wù)等等垂直賽道·
從消費端來看,視頻是用
戶消費時間最長的內(nèi)容形態(tài),有豐富的應(yīng)用的場景
和大型內(nèi)容分發(fā)平臺,長
期或有誕生超級應(yīng)用的機(jī)
會·
隨
著AI視頻生成的能力不
斷
提
升
,AI生成視頻占視
頻消費內(nèi)容的比例將不斷提升,推動內(nèi)容供給端變
革,逐步滲透視頻消費市
場場景廣闊:互聯(lián)網(wǎng)內(nèi)容正在全面視頻化,視頻內(nèi)容的消費場景豐富,
AI視頻內(nèi)容生成的潛在市場規(guī)模巨大230億
1500億1135億視頻流量是主要的互聯(lián)網(wǎng)信息流量騰訊視頻4
億MAU
3.4億MAU1.技術(shù)側(cè)
2.應(yīng)用側(cè)3.玩家格局視頻是移動互聯(lián)網(wǎng)最大的內(nèi)容消費形式抖音8
億
+MAU平
臺用戶
關(guān)鍵分析faIYI愛奇藝信息來源:量子位智庫,Questmobile,Cisco本土視頻應(yīng)用7
億
+MAU
N/Ainsights年營收快手550億(本土)100億+320億5
億MAU量子位智11電影制作電視劇制作2027游戲設(shè)計微電影動漫劇集2025
短視頻創(chuàng)
意MV動畫短片
早期階段模型能力品
牌TVC
的提升將是驅(qū)動應(yīng)2023
短劇
用的主導(dǎo)因素繪本故事空鏡素材·模型能力:
實現(xiàn)復(fù)雜語義理解,同時滿足多個生成條件,視頻的活動度、豐富度、穩(wěn)定性可以媲美影視級內(nèi)容,有效時長超過一分鐘,在部分場景可以充分滿足需求。1分鐘的視頻片段生成時間縮短到到分鐘級·
經(jīng)濟(jì)性:推理成本下降1個數(shù)量級·
產(chǎn)品:視頻模型與傳統(tǒng)工作流進(jìn)行深度集成,同時萌生
AI原生工作流,商業(yè)化規(guī)模達(dá)到Midjourney
的水平●
模型能力:
生成視頻時長度短、活動度低、穩(wěn)定差,人
物對象、背景經(jīng)?;儭UZ言理解能力有限,只能理解
簡單指令,難以同時滿足多個生成條件,指令遵從能力
差,10秒左右視頻片段需要3-5分鐘生成·經(jīng)濟(jì)性:成本高昂,每分鐘視頻約3美元1·產(chǎn)品:簡單的文成視頻、圖生視頻功能,以網(wǎng)頁端和移
動的簡單應(yīng)用為主,功能較為單薄應(yīng)用趨勢:2024年將成為Al視頻的應(yīng)用元年,未來3-5年更多應(yīng)用場景
將隨著模型能力提升和推理成本下降逐步解鎖推理經(jīng)濟(jì)性信息來源:量子位智庫,1)參考Runway的公開
12·
模型能力:
通過自然語言及其他方式可以實現(xiàn)對內(nèi)容的精準(zhǔn)控制,深度理解物理世界規(guī)律,穩(wěn)定性、豐富度達(dá)
到在各個領(lǐng)全面達(dá)到商用水準(zhǔn)。1分鐘的視頻片段生成
時間達(dá)到縮短到數(shù)秒,接近實時生成·
經(jīng)濟(jì)性:視頻生成的成本繼續(xù)降低1個數(shù)量級·產(chǎn)品:新一代視頻交互界面開始普及,視頻生成內(nèi)容融
入大部分視頻制作場景,重塑內(nèi)容生態(tài)新內(nèi)容形式?新消費平臺?互動式電影確認(rèn)PMF后推理成本的下降將成為大規(guī)模普及的主導(dǎo)因素1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局發(fā)展階段早期階段量子位智insights模型能力2029AI視頻生成成本約300美元/分鐘1·AI
視頻生成的成本遠(yuǎn)遠(yuǎn)低于影視行
業(yè)的制作成本,有若干個數(shù)量級的降
本效果,但目前阻礙應(yīng)用的主要因素
是模型能力不足,生成效果尚無法與
傳統(tǒng)制作方式競爭,但預(yù)期模型能力
將持續(xù)迭代,未來3-5年達(dá)到可以與
傳統(tǒng)制作方式的媲美的水平·
動畫類電影的制作成本尤其高,需要
渲染大量的2D和3D內(nèi)容,傳統(tǒng)制作方
式包括角色建模、場景貼膜、紋理貼
圖、渲染合成等環(huán)節(jié),需要數(shù)百人耗
時數(shù)月進(jìn)行制作,工程量非常大,視
頻生成可以大量削減制作成本的·
局部應(yīng)用已經(jīng)開始:在對于制作質(zhì)量
要求較低、制作方式和內(nèi)容較為模板
化的短劇行業(yè),已經(jīng)出現(xiàn)Al短劇生成
的應(yīng)用,例如Reel.AI成本驅(qū)動:AI生成視頻的成本遠(yuǎn)低于各類現(xiàn)有視頻內(nèi)容的制作成本,
將逐漸驅(qū)動視頻生成內(nèi)容滲透到各內(nèi)容種類每分鐘制作成本(美元)200萬50萬10萬2000030003000
視頻種類
不同類型視頻內(nèi)容制作成本1.技術(shù)側(cè)
2.應(yīng)用側(cè)3.玩家格局動畫、動漫本土流水線短劇本土動畫電影(《白蛇緣起》、《哪吒》、《熊出沒系列》等)關(guān)鍵分析頂級動畫電影(出自迪士尼、皮克斯等)信息來源:量子位智庫,專家訪談,1)Runway
量子位智庫insights21STCENTURYFOX好萊塢電影平均成本P
I
X
A
RM
A
T普通UGC視頻本土TVC視頻UNIVERSAL13廣告領(lǐng)域已具備應(yīng)用價值,但仍存在諸多局限1.技術(shù)側(cè)
2.應(yīng)用側(cè)3.玩家格局
位
智庫insights
應(yīng)用案例-MV、品牌廣告:Sora作為目前頭部模型,在創(chuàng)意視頻和品牌創(chuàng)意短片《Air
Head》--
2024年3月可控性差······
時長1分20秒,由Shy
Kids團(tuán)隊3人花費2
周時間完成制作,總體呈現(xiàn)效果精良抽卡率高,生成素材可用率約300:1片段間一致性差:
難以保證人物在不同
視頻片段之間的一致性,目前只能通過
詳細(xì)的提示詞描述來彌補(bǔ),但效果欠佳
鏡頭難以控制:對于專業(yè)攝影術(shù)語理解
有限,類似鏡頭平移的功能需要通過后
期裁剪實現(xiàn)生成穩(wěn)定性低:同樣的提示詞會產(chǎn)生不同的生成內(nèi)容,例如要求生成黃色氣球
但實際生成式紅色生成能力局限:生成的氣球上總會有面
部表情,需要后期抹除,不同片段畫面
風(fēng)格難以保持一致,需要后期統(tǒng)一調(diào)色
14·
時長1分06秒,由玩具反斗城團(tuán)隊和導(dǎo)演Nik
Kleverov共同構(gòu)思制作,并在戛
納國際創(chuàng)意節(jié)亮相·Sora
生成的第一個商業(yè)廣告,效果接近
可以和傳統(tǒng)品牌短片的水準(zhǔn),可以傳
達(dá)品牌方的關(guān)鍵視覺元素和風(fēng)格·人物角色的細(xì)節(jié)在不同片段一致性不足(例如衣物細(xì)節(jié)顏色、紋理、眼鏡樣式、
細(xì)節(jié)面部特征等細(xì)節(jié)有輕微畸變)·
背景元素存在畸變,例如背景中的自行
車的有畸變特征·
雖
然Sora
原生支持1080P視頻生成,但由于生成速度太慢團(tuán)隊選擇生成480P的視
頻,再用其他工具再后期進(jìn)行超分處理,
生成3-20秒的視頻需要10-20分鐘的生成
時間(和云算力供給也有關(guān))·
為了避免版權(quán)問題,OpenAI對提示詞進(jìn)行了限制,例如拒絕生成“35mm膠卷,
未來宇宙飛船中,
一名男子拿著光劍靠
近”類似星球大戰(zhàn)的提示詞品牌廣告《玩具反斗城的起源》
---2024年6月信息來源:量子位智庫,量子位,Shy
kids,T生成速度慢版權(quán)限制不足之處
Reel.Al一
ReelDiffusion·Al
短片《M.A.D》(俱皆
毀滅),在全球AI電影馬
拉松大賽上榮獲B站觀眾
選擇獎。該短片利用CreativeFitting
自研的
視頻大模型ReelDiffusion
生成,效果媲美傳統(tǒng)動畫短片·ReelDiffusion
視
頻
大模型在敘事型視頻的生成
方面能力領(lǐng)先·模型支持人物角色的細(xì)膩
情感表達(dá)及復(fù)雜場景的生
成,從算法到訓(xùn)練數(shù)據(jù)及
工程實現(xiàn),都進(jìn)行了專門
設(shè)計,幫助創(chuàng)作者講述引
人入勝的故事·
動畫短劇生成要比普通
短劇生成更加成熟(井英科技生成的AI短劇)30分鐘用戶日均使用時長15%付費用戶長期留存·
市場空間大:2024年短劇在國內(nèi)的市場規(guī)模為400-500億元,已經(jīng)接近國內(nèi)電影
市場規(guī)模,海外市場發(fā)展情況和滲透率要低于本土,市場空間更加廣闊·
制作效果接近成熟:目前AI短劇的制作水平還難以與傳統(tǒng)實拍模式媲美,但在的
動畫短劇領(lǐng)域已基本達(dá)到可用水平。隨著模型能力逐步迭代,未來一年內(nèi)普通的
短劇生成也將達(dá)到用戶可消費的水平·
制作流程介紹:目前采用與外部導(dǎo)演合作的模式,1)由導(dǎo)演進(jìn)行劇本創(chuàng)作,并
將其分解為分鏡劇本,2)井英科技將分鏡劇本轉(zhuǎn)化為提示詞并輸入視頻生成模
型中(該環(huán)節(jié)替代了短劇演員)獲得結(jié)果,3)導(dǎo)演從生成結(jié)果中中選擇滿意的
分鏡視頻,或再通過提示詞進(jìn)行二次生成調(diào)整,4)選定視頻后在傳統(tǒng)視頻工作
流中進(jìn)行后期的剪輯和處理·
互動功能:用戶在App內(nèi)可與短劇主角聊天,類似Character.AI,可增加用戶粘性
1.技術(shù)側(cè)2.應(yīng)用側(cè)
3.玩家格局
量子位智insights應(yīng)用案例-短劇、動畫:井英科技發(fā)布Al短劇APP
Reel.AI,自研短劇
視頻生成模型Reel
Diffusion,生成效果接近可消費水平
15(Reel
Diffusion生成的動畫短劇)信息來源:量子位智庫,井英科技insights
應(yīng)用趨勢:視頻生成模型正在賦能傳統(tǒng)視頻制作工作流,目前主要價值在于素材生成環(huán)節(jié),其他環(huán)節(jié)有少量滲透中期制作后期制作素材拍攝
素材選取
剪輯
渲染/音效·
視頻生成模型縮短視頻生產(chǎn)周期,快速進(jìn)行創(chuàng)意驗證,
生成粗略的原型視頻,加快
創(chuàng)意、情節(jié)構(gòu)思規(guī)劃過程·
通過大量新素材和創(chuàng)意素材
可以進(jìn)一步激發(fā)創(chuàng)造力,提
升內(nèi)容創(chuàng)作質(zhì)量·
添加視覺特效,確保效果自然、完成顏色校正、調(diào)色與整體風(fēng)格一致·
同步處理音頻素材,確
保對白清晰、搭配音效,
增強(qiáng)視頻的聽覺效果·
故事創(chuàng)意、主題風(fēng)格構(gòu)
思,明確故事大綱,如
主要情節(jié)和角色發(fā)展·
將大綱擴(kuò)展成完整的劇
本,包括對白、場景描
述和情節(jié)細(xì)節(jié)·
根據(jù)情節(jié)和主題需要進(jìn)行素材整理、分類、剔
除無效素材·
對于無須拍攝類內(nèi)容,
需要從素材庫進(jìn)行素材
選取文字劇本視覺化,確定鏡頭類型、鏡頭運動、
角色位置和動作編制鏡頭列表,包括每
個鏡頭的編號、描述、
拍攝角度、鏡頭運動等·
傳統(tǒng)工作流在后期階段對于質(zhì)量的要求較為精
細(xì),目前視頻生成模型
的后期編輯功能還不能
充分滿足需求·
初步剪輯、邏輯剪輯,
拼接出粗略的視頻版本·精剪微調(diào),對影片進(jìn)行精細(xì)剪輯,調(diào)整鏡頭長
度、順序、節(jié)奏等前期制作大綱腳本
分鏡規(guī)劃·
根據(jù)分鏡規(guī)劃制定拍攝計劃,完成器材準(zhǔn)備和
技術(shù)測試、準(zhǔn)備演員、
服化道及布景設(shè)置1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局Office365
+各種生產(chǎn)力軟件A
Adobeshutterstsck信息來源:量子位智庫,OpenAI相互激發(fā)
通用素材生成視
頻
模
型
賦
能
點Au
內(nèi)
容工具量子位智16傳統(tǒng)混合
Office365
+各種生產(chǎn)力軟件·
快速進(jìn)行創(chuàng)意驗證,生成粗略的原型視頻,
加快創(chuàng)意、情節(jié)構(gòu)思規(guī)劃過程。通過大量新
素材和創(chuàng)意素材可以進(jìn)一步激發(fā)創(chuàng)造力,提
升內(nèi)容創(chuàng)作質(zhì)量AdobeshutterstsckR
runway
區(qū)·
目前主要有三種模式:文生視頻、圖生視頻、文生圖-圖生視頻。目前頭部文生圖產(chǎn)品的圖
片生成質(zhì)量最好,
一般先用文生圖應(yīng)用生成指·
不會涉及專業(yè)級影視剪輯,視頻大部分關(guān)鍵元素在生
成階段完成,用戶主要的做一些簡單的邏輯剪輯或者
音效編輯,可以快速出片應(yīng)用趨勢:新一代AI視頻工作流正在萌生,將整合音視頻創(chuàng)作全流程
提高創(chuàng)作效率,降低AI視頻內(nèi)容的制作摩擦前期制作
中期制作
后期制作導(dǎo)幀,然后再作為視頻生成的輸入進(jìn)行動態(tài)化整合音視頻生成、編輯等所有功能的一站式應(yīng)用,可能產(chǎn)生新的交互界面添加視覺特效,確保效果自然、完成顏色校正、調(diào)色與整體風(fēng)格一致·
同步處理音頻素材,確保對白清晰、搭配音效,增強(qiáng)視頻的聽覺效果·
故事創(chuàng)意、主題風(fēng)格構(gòu)思,明確故事大綱,如
主要情節(jié)和角色發(fā)展·
將大綱擴(kuò)展成完整的劇
本,包括對白、場景描
述和情節(jié)細(xì)節(jié)·
根據(jù)情節(jié)和主題需要進(jìn)行素材整理、分類、剔
除無效素材·
對于無須拍攝類內(nèi)容,需要從素材庫進(jìn)行素材
選取文字劇本視覺化,確定鏡頭類型、鏡頭運動、
角色位置和動作編制鏡頭列表,包括每
個鏡頭的編號、描述、
拍攝角度、鏡頭運動等·初步剪輯、邏輯剪輯,拼接出粗略的視頻版本
精剪微調(diào),對影片進(jìn)行
精細(xì)剪輯,調(diào)整鏡頭長
度、順序、節(jié)奏等根據(jù)分鏡規(guī)劃制定拍攝計劃,完成器材準(zhǔn)備和
技術(shù)測試、準(zhǔn)備演員、
服化道及布景設(shè)置已經(jīng)
成熟過渡
階段正在
萌生1.技術(shù)側(cè)
2.應(yīng)用側(cè)3.玩家格局R
runwaystability.aiinsights信息來源:量子位智庫分鏡規(guī)劃渲染/音效素材拍攝素材選取大綱腳本回OpenAl
SORA剪輯內(nèi)容原
生17量子位智庫(nsights應(yīng)用案例-工作流(精細(xì)化生成)
:阿里達(dá)摩院發(fā)布尋光視頻制作平臺,通過圖層編輯方式和工作流整合提升創(chuàng)作全流程效率全局型元素·視頻風(fēng)格化:莫奈、浮世繪、水彩、水墨、卡通等20種風(fēng)格·鏡頭運鏡控制:左右平移、上下平移、推進(jìn)拉遠(yuǎn)、左右環(huán)繞等·
幀率控制:修改不同鏡頭的幀率修改使得視頻更加一致絲滑·
清晰度控制:提供不同清晰度的生成選擇·
畫質(zhì)增強(qiáng):提供視頻超分工具局部型元素·
目標(biāo)編輯:可以消除、替換、新增視頻中的各類目標(biāo)·移動目標(biāo):通過拖拽可以實現(xiàn)目標(biāo)的運動效果,人體控制:控制視頻中角色的肢體動作·人臉控制:批量替換、編輯人臉·前景、背景控制圖層拆解·
用戶也可以上傳自己視頻,尋光平臺可以對
視頻進(jìn)行圖層拆解,分解出創(chuàng)作者需要的視·針對每個分鏡視頻提供一攬子的的編輯功能整合大量Al編輯功能圖層融合·
可以把用戶自己生成的視頻內(nèi)容或者上傳內(nèi)
容進(jìn)行圖層組合,可以實現(xiàn)視頻背景、人物
的任意切換,以解決目前Al視頻生成的場景
一致性問題,增加可用性。支持場景和人物
的批量替換,功能強(qiáng)大類PPT的圖形化操作界面·將視頻分解為多個場景的組合,
再將每個場景分解為多個分鏡視
頻,方便用戶預(yù)覽整個視頻,對
每個鏡頭進(jìn)行精細(xì)編輯,可以直
接通過拖拽完成順序調(diào)整,在任
意位置進(jìn)行添加、刪除圖層生成·
用戶可以單獨生成視頻中的角色、物體和環(huán)
境對象,生成的視頻為透明背景,可以整合
覆蓋到其他視頻內(nèi)容中,實現(xiàn)對于視頻內(nèi)容
的細(xì)顆粒度操作和局部編輯基于圖層組合的編輯方式
18頻內(nèi)容,例如人物角色,方便用于其他視頻內(nèi)容的組合、編輯信息來源:量子位智庫,達(dá)摩院上傳素材生成素材·
多元化團(tuán)隊背景:主要是技術(shù)人員+創(chuàng)作者的組合,例如來自
Cruise、Waymo、Tesla、Microsoft、Meta
和NVIDIA
等公司的技術(shù)人員,首席工程師來自《孢子》、
《模擬城市》、《模擬人生》、
《異形:隔離》等視頻游戲,藝術(shù)家則曾參與制作《沙丘2》、《哥斯拉》、《造物主》、《復(fù)仇者聯(lián)盟:奧創(chuàng)紀(jì)元》、
《艾麗塔:戰(zhàn)斗天使》和《侏羅紀(jì)世界:失落王國》等電影·
投資方:
包括谷歌風(fēng)投、
EladGil
、GarryTan
、JeffDean等以及來自0penAI、Deepmin、Meta、Midjourney、Pixar
的研究人員信息來源:量子位智庫,Odyssey
19Q
量子位智nsights應(yīng)用案例-工作流(精細(xì)化生成)
:
Odyssey
結(jié)合4種生成模型,可以實現(xiàn)對視頻內(nèi)容的精確控制和生成,主打好萊塢級的視頻內(nèi)容生成·
主打高端影視場景:能夠生成好萊塢級的山脈、平原、植被、海洋、河流、火焰、煙霧、建筑、人物以及任何其他東西創(chuàng)作者可以完全控制場景中生
成的每個元素和位置方向,無論是幾何形狀、材質(zhì)、燈光、動作還是其他
方面。場景由可提示和可操作的對象組成,這些對象可以獨立運行,同時幾何圖形生成模型Odyssey可控運動生成模型還能保持上下文感知
光影生成(不用強(qiáng)度、方位、風(fēng)格)
對象紋理生成影像級材質(zhì)生成模型光影生成模型材質(zhì)生成(如荒漠、草地、土地)對象生成(如樹木、石塊、森林)應(yīng)用案例-工作流(流程整合化)
:美圖發(fā)布Al短劇制作平臺MOKI,
整合包括創(chuàng)意生成、后期編輯、音效制作等視頻創(chuàng)作全流程修改分鏡圖驅(qū)動角色說話輸入故事創(chuàng)意:捕快在竹林里追緝兒時摯友,展開了
一
場充滿
武
俠
情
懷
的
故
事成智能剪輯Al配樂1.技術(shù)側(cè)
2.應(yīng)用側(cè)
3.玩家格局選擇旁白配音磁性
活脆
量子位智insights性別d溫梁用可制作各類短信息來源:量子位智庫,美圖片
故事繪本性別d活力通用視頻生視頻角色設(shè)計Al音效穩(wěn)重炎前
期中
期6+導(dǎo)入?yún)⒖紘笃诮巧?:云龍儒雅20分LTXsudo
LaA
The
Lost
Planet
Storyboard
Shot
EditorProjectsettingsCast
Soundtrack
g]:Volceover#Scene
1
角色設(shè)定
背景音
旁白Sam
stargazing
through
his
telescope
inhis
backyardScenesettingLOCATION場景位置.Generate
vildeo
Shot
editorDim
場景光影PROMPr鏡
頭
2
@SamJohnson'sface,illuminatedbythetelescope's
lght,filled
with
wonder.鏡頭提示詞SHOTTYPEClose-upg]:voICEOVEBHey,I'mSam.So,thereIw..SOUND
FFFECTsSCENES0UNDScene
2
場
景
2Sam
and
Lucy
excitedly
pointing
atsomething
in
the
night
skyScenesetting10CATIONBackyard應(yīng)用案例-工作流(流程整合化)
:
LTX
Studio采用基于故事版和分鏡的生成編輯方式,同時整合音效、旁白等功能(LTX
界面)故事板界面:用戶需要先進(jìn)行角色設(shè)定,包括人物的肖像、風(fēng)格、名字等,然后故事版可以幫助用戶構(gòu)思視頻的整體內(nèi)容,包括從場景和分鏡頭兩個層次,可以設(shè)定每個場景的
基本情況,如位置、光影、天氣等,也可以添加該場景的音效和旁白。鏡頭編輯界面:可以對每個鏡頭進(jìn)行精細(xì)化編輯,例如鏡頭的控制
(LTX提供了超過10種鏡頭運動方式)、分辨率調(diào)整、視頻幀率控制、音效旁白等,確認(rèn)好基本參數(shù)后可以開始
生成視頻
21NEGATIVE
PROMPISHO
YPEClose-upSCENE
OVERRIDEMotion
鏡頭控制1.技術(shù)側(cè)
2.應(yīng)用側(cè)
3.玩家格局LTXsudio
A
The
Lost
Planet
Storyboard
Shot
Editor
鏡頭編輯器WEATHER
場景天氣
Clear
nightskySound
旁白ED幀率控制6tp
24fos時長控制信息來源:量子位智庫,LTX
Studio
量子位智庫insightsND
EFFECrs開始生成Generate
Video@SamJohnsonadjustingthetelescope,
peering
intentlyatthe
nightsky.Dimly
lit
backyardwith@SamJohnsongazingatthestarsthrough
hisDimly
Iit
backyard
with
0Sam
Johnsongazing
at
the
stars
through
his
telesoope.,Generate
video
Shot
editor(LTX
界面)故事板鏡頭類型SHOTTYPEMedium-shotShoteditor鏡頭1場景1鏡頭3+.Generate
vldeo超分Project
settingsJul
16,2024,03:28PMCast
8Soundtracktelescope.?
PreviewSOUND
EFFECTs6sec
OUND
EFFECTSBackyardClose-upSou
undVoiceoverHOTTYPELIGHTINGPROMPTExpoROMPTsCSEE通用類·
場景廣泛:不針對某一類風(fēng)格、行業(yè)、角色
或其他方面進(jìn)行垂直優(yōu)化,旨在用視覺信息
建模物理世界,通過自然語言作為提示詞生
成視頻天花板高:通用生成的想象空間更大大,創(chuàng)
意性強(qiáng),未來將有更多應(yīng)用形態(tài)涌現(xiàn),預(yù)計
未來視頻的生成和理解將會逐步統(tǒng)一,強(qiáng)大
的視頻生成能力也代表視覺理解的進(jìn)步"As
great
as
Sora
is
generatingthingsthat
appear
real-what
excites
us
is
its
ability
to
makethingsthataretotallysurreal."---Shy
Kids特點OpenAIPika
R
runway
PixVerse
△lsphErEKLING
可靈大模型
愛
詩SORA垂直類·
場景細(xì)分:垂直類視頻生成主
要指圍繞細(xì)分需求進(jìn)行視頻生
成,主要是針對細(xì)分場景,用
垂類數(shù)據(jù)或者私有數(shù)據(jù)做適配
訓(xùn)練和可控性、穩(wěn)定性優(yōu)化·
商業(yè)化路徑清晰,有穩(wěn)定的商特點
業(yè)模式和營收·
需要的算力資源和數(shù)據(jù)資源少,主要是用少量
垂類場景數(shù)據(jù)和算法對模型進(jìn)行加強(qiáng),模型不
追求“大”,且在模型層選擇靈活,可以把文
生視頻、圖生視頻作為外部能力接入傳統(tǒng)模型
作為輔助增強(qiáng),核心要素還是行業(yè)知識·
目前垂直類產(chǎn)品主要是在營銷場景下,針對人
物、或者某一類風(fēng)格進(jìn)行微調(diào),幾千條數(shù)據(jù)就
可以顯著增強(qiáng)模型在垂直領(lǐng)域的表現(xiàn)案例FancyTech
興
光
年BOOLVCreotiveFittgng·
研發(fā)難度大、算力、數(shù)據(jù)資源要求高:模型本身是對數(shù)據(jù)集
的擬合,要求模型能夠生成任意內(nèi)容的視頻,本質(zhì)上是要求
訓(xùn)練數(shù)據(jù)集的場景豐富程度極高、內(nèi)容質(zhì)量好,標(biāo)注質(zhì)量詳
盡、準(zhǔn)確,以及經(jīng)過大規(guī)模scale
來學(xué)習(xí)視頻中包含的各類知
識和物理規(guī)律,目前大多數(shù)視頻生成技術(shù)公司都屬于此類案例·
內(nèi)容合規(guī)和本土化問題難以避免:視頻輸出內(nèi)容可以包含更多維度的信息,其
中可能涉及內(nèi)容安全、意識形態(tài)及不同
文化背景的偏好差異,例如本土模型對
本土文化理解力更好,海外模型的輸出
會凸顯歐美審美偏好和價值觀產(chǎn)品路線:視頻生成目前仍處于早期階段,從應(yīng)用路線上看主要分為通用類生成和垂直類生成兩類產(chǎn)品1.技術(shù)側(cè)
2.應(yīng)用側(cè)
3.玩家格局
量子位智庫insights信息來源:量子位智庫,OpenAI22·
目前主要客戶以各行業(yè)頭部公司為主,預(yù)算比較充足且愿意擁抱Al新技術(shù),一般大客戶都會要求部分定制化服務(wù)·
視頻生成領(lǐng)域的定制化一般不涉及技術(shù)上的二次開發(fā),工作
量主要在具體的需求溝通、微調(diào)模型,幫助客戶熟悉產(chǎn)品,
以及提供技術(shù)支持服務(wù)等·
一些場景需要客戶和公司結(jié)合行業(yè)知識進(jìn)行共創(chuàng),例如營銷
視頻在內(nèi)容結(jié)構(gòu)、風(fēng)格、審美等方面的選擇·
海外市場的定制化目前較少,主要是SaaS服務(wù),但頭部公司
也會提供模型訓(xùn)練服務(wù)和API定制化,例如Adobe和Runway·
創(chuàng)業(yè)公司也會做一些大客戶或者知名案例,但主要目的是打
造知名度,同時探索用戶需求、打磨產(chǎn)品,例如Runway曾
參與《瞬息全宇宙》的制作、Sora
完成《Air
Head》制作·
本土市場:如果不同視頻
生成模型之間能力沒有顯
著差異化,很可能出現(xiàn)類
似大語言模型領(lǐng)域的價格
戰(zhàn),產(chǎn)品盈利將面臨較大
壓力。C端市場、專業(yè)消
費者是最理想的市場,但
如果場營收不好,可能要
持續(xù)做B端服務(wù)·
本土市場目前的商業(yè)化
路徑一般是“從大到小”,例如從大B的影視公司,到中B的影視工作
室,游戲工作室、廣告工
作室、短劇團(tuán)隊,再到自
媒體創(chuàng)作者、專業(yè)創(chuàng)作者
等Prosumer、小
B用戶·
海外市場:C端會是長期
主線,目前競爭并不激烈,處在逐步拓展市場的階段商業(yè)模式:通用視頻生成在海外市場以SaaS產(chǎn)品為主,國內(nèi)市場項目制為主,服務(wù)內(nèi)容多樣化,但訂閱制有待成熟·
海外市場是文生視頻類應(yīng)用的主打市場,生成式Al的創(chuàng)意市場已有類似產(chǎn)品完成市場驗證,例如Midjourney年
收入已經(jīng)超過2億美元、超2000萬用戶·
海外市場的用戶主要是一些C端用戶或者中小B端用戶,
主要通過在社交媒體和創(chuàng)意工作者人群中構(gòu)建社群并以PLG的方式進(jìn)行增長·
目前主流的通用視頻生成應(yīng)用大都采用SaaS應(yīng)用服務(wù)模
式,向用戶收取每月訂閱費用或者生成視頻的消耗量分
不同付費版本靈活計費·
目前本土的SaaS市場成熟度相比海外仍有欠缺,用戶的主要畫像是自媒體創(chuàng)作者、創(chuàng)意工作者,覆蓋人群比較
垂直,商業(yè)化規(guī)模有限·
隨著新一代用戶的年輕化、專業(yè)化,為內(nèi)容工具的付費
的習(xí)慣正在逐漸形成,但仍需時間培育海外市場生成點數(shù)
生成時長
生成速度
團(tuán)隊協(xié)作增值功能(視頻超分、音效功能、編輯功能、各類動效)本土市場1.技術(shù)側(cè)
2.應(yīng)用側(cè)
3.玩家格局關(guān)鍵分析量子位智庫insights客戶專員支持私有化部署生成數(shù)量業(yè)務(wù)溝通模型訓(xùn)練API
定
制
化信息來源:量子位智庫SaaS產(chǎn)品定制化付費點23對比分析:視頻生成相比圖片生成的應(yīng)用復(fù)雜度更高,大規(guī)模普及或需要從模型到工作流的全面進(jìn)步才能打開市場·
生成視頻存在畸變、分辨率低、指令遵從差、穩(wěn)定性差等問題·
目前抽卡率非常高,可能到幾百,例如Shykids團(tuán)隊用Sora制作的MV作
品抽卡率約300,需要進(jìn)行大量嘗試·視頻生成對于創(chuàng)作者的要求更高,功能和提示詞的復(fù)雜度更高·
不同模型各異,取決于生成視頻的質(zhì)量和長度,Runway的價格約為3美
元每分鐘,Sora可能高達(dá)數(shù)十美元每分鐘·
生成片段并不足以構(gòu)成可用作品,實際場景需要大量的視頻生成片段組
合為完整的視頻(時長數(shù)分鐘或更長),進(jìn)一步推高了應(yīng)用成本視頻生成環(huán)節(jié)復(fù)雜、昂貴、緩慢
視頻編輯修改難度大信息來源:量子位智庫,1、2均代表2023年數(shù)打
·
1分鐘左右·輸入一次提示詞可以生成4張圖片供用戶選擇(以Midjourney為例)·
生成的大部分圖片可以滿足普通用戶的需求標(biāo)準(zhǔn),技術(shù)已經(jīng)比較成熟·
抽卡次數(shù)較低,一般生成5次左右可以得到理想結(jié)果·
約0.03美元/張(以Midjourney
為例)耗時產(chǎn)出數(shù)量·
2分鐘左右(以最新的Runway
Gen-3為例)·
10秒左右的視頻片段(以最新的Runway
Gen-3為例)·
修改難度大:在視頻生成內(nèi)容上做編輯很難,例如人物對象、·
音頻需求:視頻和圖像的
另一個的不同是視頻需要內(nèi)容生成編輯修改
后期效果環(huán)境等內(nèi)容發(fā)生畸變的修改難
度和工作量非常大·
一致性難題:視頻制作要保證
多個視頻片段中人物角色、物
體和周圍環(huán)境的一致性,如何
精準(zhǔn)銜接多個片段,目前還沒
有很好的解決,對二次編輯的
依賴度較高Rrunway約500萬美元年營收224匹配音頻內(nèi)容,需要考慮背景音樂、旁白等內(nèi)容,
增加了額外的復(fù)雜度·視頻需要考慮時間維度和
視頻邏輯,在后期需要邏
輯剪輯等環(huán)節(jié)耗時產(chǎn)出數(shù)量產(chǎn)出質(zhì)量·
圖片生成的二次編輯比較簡單,
一般用Photoshop或者其他編輯
軟件就可以滿足需求,主要是
在細(xì)節(jié)和特殊需求上做精調(diào)1.技術(shù)側(cè)
2.應(yīng)用側(cè)
3.玩家格局應(yīng)用規(guī)模2億美元年營收
1量子位智庫insights成本視頻后期環(huán)節(jié)多產(chǎn)出質(zhì)量成本1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局insights25·
外接場景:通過的視頻生成模型API賦能其他場景,給其
·
外接場景:Sora、Runway
給Adobe、Canvas提供他產(chǎn)品輸出模型能力,為其它產(chǎn)品集成API
模
型API·
應(yīng)用場景:可以直接接入現(xiàn)有應(yīng)用,作為增值功能,獲得
·應(yīng)用場景:OpenAI把DALL-E集成到ChatGPT中,用戶流量資源,支撐應(yīng)用、功能啟動
營銷視頻模型有直接的視頻消費場景,Al
視頻營銷、AI
影視制作、AI游戲設(shè)計、自媒體創(chuàng)作、
泛娛樂創(chuàng)作等·
交互界面:目前視頻生成產(chǎn)品的交互界比較早期,就是輸
·
交互界面:目前主要是三種形式,Discord
對話入提示詞輸出視頻結(jié)果,主要是網(wǎng)頁和本地兩種方式
框,WebUI或者移動應(yīng)用,以及節(jié)點式ComfyUI·應(yīng)用類模型:在基礎(chǔ)模型之上進(jìn)行局部優(yōu)化、調(diào)整、編輯
·應(yīng)用類模型:已經(jīng)產(chǎn)品化的包括動態(tài)筆刷,鏡·存量場景:主要針對各行業(yè)已有場景的賦能,隨著視頻生成能力提升將逐漸滲透·增量場景:還處在早期階段,需要用戶和產(chǎn)品進(jìn)行雙向探索,需要時間等待涌現(xiàn)·
交互界面:
尚不清晰,但基礎(chǔ)模型的推理速度
提升和推理成本下降可能是本質(zhì)因素·
應(yīng)用類模型:視頻生成下一階段的核心核心是
可控性的提升,例如如何保持一個角色在多個
生成片段中的一致性,預(yù)計短期會有明顯進(jìn)步
·工作流:但生成式內(nèi)容正在滲透傳統(tǒng)的工作流,
但是比較碎片化,需要試用多個工具各取所需·優(yōu)化方向:模型架構(gòu)優(yōu)化、
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 工程建設(shè)管理與施工標(biāo)準(zhǔn)化作業(yè)指導(dǎo)書
- 工程項目管理規(guī)范操作流程解讀
- 游戲開發(fā)實踐作業(yè)指導(dǎo)書
- 農(nóng)業(yè)信息化技術(shù)推廣應(yīng)用作業(yè)指導(dǎo)書
- 標(biāo)準(zhǔn)鋼材購銷合同
- 測繪勞務(wù)分包合同
- 出口銷售合同
- 小麥種子購銷合同
- 員工試用勞動合同
- 2025年呼和浩特道路貨運從業(yè)資格證模擬考試
- 肌張力的康復(fù)治療
- 法律職業(yè)資格考試客觀題(試卷一)試題及解答參考(2024年)
- 教學(xué)的模樣讀書分享
- 油庫應(yīng)急處置培訓(xùn)
- 新環(huán)境下人力資源體系建設(shè)方案
- 2024年秋新滬科版物理八年級上冊 第二節(jié) 測量:物體的質(zhì)量 教學(xué)課件
- 火針療法緩解上寒下熱證候群焦慮抑郁情緒的研究
- 7.2維護(hù)祖國統(tǒng)一 (課件) 2024-2025學(xué)年九年級道德與法治上冊 (統(tǒng)編版)
- 直播帶貨基本操作流程(直播帶貨流程完整版)
- 多旋翼無人機(jī)駕駛員執(zhí)照(CAAC)備考試題庫大全-下部分
- 管理學(xué)專業(yè):管理基礎(chǔ)知識試題庫(附含答案)
評論
0/150
提交評論