2024年AI視頻生成研究報告_第1頁
2024年AI視頻生成研究報告_第2頁
2024年AI視頻生成研究報告_第3頁
2024年AI視頻生成研究報告_第4頁
2024年AI視頻生成研究報告_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

AI視頻生成研究報告量子位智庫insights分析師:Xuanhao

2024.73.玩家格局1.技術(shù)側(cè)2.應(yīng)用側(cè)insights2視頻是圖像模態(tài)的進(jìn)一步擴(kuò)展,但由于技術(shù)復(fù)雜,對于算力、·2022年10月,Google、Meta發(fā)布Phenaki、Make-A-Video數(shù)據(jù)等資源要求較高,成熟相對文本、圖像較慢

·

2023年下半年,創(chuàng)業(yè)公司推出Runway-Gen2,Stable·領(lǐng)軍企業(yè)已經(jīng)做出標(biāo)桿,顯著加速領(lǐng)域發(fā)展,已出現(xiàn)多家視

VideoDiffusion

、Pika等產(chǎn)品頻生成領(lǐng)域創(chuàng)業(yè)公司,但商業(yè)化、產(chǎn)品化進(jìn)展較慢

·

2024年2月,OpenA

I發(fā)布Sora引發(fā)全球關(guān)注·

目前主要是音樂生成(語音識別、克隆暫不納入討論),市

·

2024年2月,Suno.ai發(fā)布Suno

V3場不如圖片生成、視頻生成等領(lǐng)域熱門,比視頻更加早期·

2024年6月,Stability.AI

推出文生音頻模型Stable·

明星創(chuàng)業(yè)公司較少,但有加速的發(fā)展的態(tài)勢

Audio

Open·

技術(shù)路線目前尚不清晰,垂直明星創(chuàng)業(yè)公司較少,產(chǎn)品大多

·

2020年8月,NeRF

論文發(fā)表處于早期階段,但正在加速發(fā)展·2022年9月,谷歌發(fā)布DreamFusion·

2023年5月,OpenA

I開源Shape-E模型·

2024年7月,Meta

發(fā)布Meta

3D

Gen

1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局

量子位智庫insights大模型各模態(tài)總覽:多模態(tài)發(fā)展趨勢清晰,文本、圖像商業(yè)化規(guī)模和成熟度較高,Al視頻生成正在迅速發(fā)展·大語言模型在文字處理上面的卓越表現(xiàn)開啟了生成式AI的浪潮,基礎(chǔ)模型能夠基于語言進(jìn)行推理是智能的重要表現(xiàn)·在各個領(lǐng)域應(yīng)用最為成熟,例如ChatGPT

日活用戶已經(jīng)突破1

,OpenAI

在2024年6月ARR

的達(dá)到34億美元·

2018年6月,由Alec

Radford主導(dǎo)在0penAI推

出GPT-1·

2020年6月,OpenAl推出GPT-3,

引發(fā)業(yè)界關(guān)注,驗證scaling

路線·

2022年11月,ChatGPT

掀起技術(shù)浪潮·ChatGPT·Character.AI●

GeminiAnthropic·Stable

Diffusion

·

Midjourney·Dall-E

3·SoraRunway·

快手可靈·Pixverse·Suno·StableAudio·Luma.AIMeshy量創(chuàng)作者和用戶關(guān)注,成熟度僅次于文本模態(tài)·Midjhouney

已有超過2000萬用戶,在無投資的情況自我造血,在2023年的營收超過2億美元·

2022年8月,StableDiffusion在Stability.ai的支持下開源,推動社區(qū)在圖像領(lǐng)域快速發(fā)展·

2023年3月,Midjourney

V5發(fā)布,迅速成為現(xiàn)象級應(yīng)用更點視頻圖像文本音頻3D·

文生圖領(lǐng)域產(chǎn)生了僅次于基礎(chǔ)模型的殺手級應(yīng)用,獲得了大

·

2021年1月,OpenA

I發(fā)布初代文生圖模型DALL-E概況

關(guān)鍵節(jié)點信息來源:量子位智庫代表應(yīng)用成熟度3····采用傳統(tǒng)的計算機(jī)視覺

(CV)

、計算機(jī)圖形學(xué)(CG)技術(shù),但生成功能有限,主要是一些局

部的垂點功能·例如效果生成,在現(xiàn)有視頻上添加多種效果,如濾鏡、光影、風(fēng)格化、美顏特效等。也可以

做局部動態(tài)化,如人物的面部表情生成、搞笑

表情、爆款特效、舞蹈動作生成等·

有一定創(chuàng)意空間,生成部分新元素,成本低但應(yīng)用的場景有限·采用基于Transformer或者擴(kuò)散模型的大模型路線,可以通過自然語言或者指導(dǎo)圖進(jìn)行全局生成(但也可以嵌入已有內(nèi)容),視頻的內(nèi)容、風(fēng)格、長短、分辨率、寬高比都可以進(jìn)行靈活調(diào)整·例如生成天馬行空的創(chuàng)意視頻、藝術(shù)視頻、卡通視頻等等,非常靈活·

創(chuàng)意空間無限,所有的元素都是全新生成,現(xiàn)階段成本高昂,但天花板高,應(yīng)用場景廣泛技術(shù)趨勢:視頻生成正在由檢索生成、局部生成走向依靠自然語言提

示詞的全量生成,生成內(nèi)容更加靈活豐富,應(yīng)用空間廣闊無新增內(nèi)容

部分新增內(nèi)容

全量新增內(nèi)容信息來源:量子位智庫

4特點僅針對視頻的一部分進(jìn)行生成,例如視頻中人物角色、

動作、背景、風(fēng)格化、特殊

效果等·通過文字、圖片、視頻作為提示

詞來進(jìn)行憑空生成,不依賴外部

素材,核心在于大模型的能力特點特點·采用傳統(tǒng)的跨模態(tài)視頻檢索技術(shù),通過視頻標(biāo)簽的或者視頻語義理解的方式從數(shù)據(jù)庫中的檢

索,再將這些素材進(jìn)行剪輯、組合拼接在一起,

本質(zhì)上還是鍵值對匹配的邏輯·例如短視頻平臺的知識類視頻、解說類視頻,

通過文本關(guān)鍵字在數(shù)據(jù)庫中進(jìn)行素材檢索,然

后在進(jìn)行拼接組合生成·

創(chuàng)意空間有限,沒有貢獻(xiàn)增量素材,但成本極

低,生成速度極快提示詞生成

檢索生成主要是對現(xiàn)有的視頻素材根據(jù)關(guān)鍵詞和標(biāo)簽進(jìn)

行檢索匹配,再進(jìn)行相應(yīng)的

拼接和排列組合1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局局部生成

--insights檢索生成·

2022年12月Diffusion

Transformer論文發(fā)表·

2024年2月OpenA

I發(fā)布Sora,取得驚艷的生成效果,驗證了

Diffusion和Transformer結(jié)合的有效性·Sora、Videopoet、W.A.L.T·

由于領(lǐng)軍企業(yè)的示范效應(yīng),Diffusion

Transformer已經(jīng)成為視頻

生成領(lǐng)域的核心路線,領(lǐng)域內(nèi)其他玩家都開始聚焦DiT并取得進(jìn)展·

目前業(yè)界對于Sora的架構(gòu)大多是猜想,從架構(gòu)大方向上接近,但

具體細(xì)節(jié)上不同模型、產(chǎn)品各異·

可擴(kuò)展性強(qiáng):基于擴(kuò)散模型的視頻模型,核心的構(gòu)件是卷積神經(jīng)網(wǎng)絡(luò)U-Net,隨著模型規(guī)模scaleup增益會放緩甚至消失。DiT(Diffusion

Transformer)

將傳統(tǒng)擴(kuò)散模型的U-Net替換為

Transformer,從而能夠?qū)崿F(xiàn)更強(qiáng)的可拓展性·

長期來看語言模型路線1可成為主要路線,可以將多種模態(tài)融合到

一起(由于架構(gòu)的成熟和優(yōu)良的擴(kuò)展性)技術(shù)趨勢:視頻生成正由擴(kuò)散模型主導(dǎo)的格局走向與語言模型結(jié)合的路

,Transformer

將在視頻生成方面發(fā)揮主導(dǎo)作用

探索期-

早期增長期-未來方向

·

2014年GAN發(fā)表,2016年左右開始用于視頻生成·

2013年VAE出現(xiàn),可以通過編

碼器和解碼器的機(jī)制學(xué)習(xí)數(shù)據(jù)

的潛在表示Text2Filter、TGANs-C,VGAN、TGAN、VideoGPT、MoCoGAN、

DVD-GAN、DIGAN·

應(yīng)用范圍有限(只能總特定生成,例如數(shù)字),生成分辨率低、生

成時長極短·

生成多樣性差:生成器-判別

器對抗的模型架構(gòu)決定生成效

果逼真但多樣性、創(chuàng)造性差,

很難泛化·

生成速度快:

GAN可以一次出

圖,無需做多步推理·

2020年DDPM論文發(fā)表●2021年LatentDiffusionModels論文發(fā)表·2022年

VideoDiffusionModel

發(fā)

表·Stable

Video

Diffusion、

Make-A-Video、RunwayGen1/2、Video

LDM·

由于SD的開源激發(fā)社區(qū)創(chuàng)新,推動擴(kuò)散模型在視覺生成領(lǐng)

域占據(jù)主導(dǎo)地位·生成質(zhì)量高:

生成效果好,細(xì)

節(jié)豐富清晰,訓(xùn)練要遠(yuǎn)比GAN

穩(wěn)定·顯存開銷大:

視頻生成有大量

相關(guān)依賴關(guān)系的圖片同時生成,

對計算顯存有極高要求·2017年Transformer發(fā)表,逐步向各個領(lǐng)域滲透,早期在視

頻生成領(lǐng)域也有嘗試·

2021年Google發(fā)布VideoVision

Transformer·GODIVA、VideoGPT、Phenaki、CogVideo、NUWA·早期基于Transformer的視頻生成效果有限,在當(dāng)時的成本

比較高·可擴(kuò)展性強(qiáng):Scaleup路線上

目前最好的架構(gòu)·

生成速度慢、開銷大:需要把圖片進(jìn)行分割再轉(zhuǎn)換成超長

序列,計算量隨分辨率增加平

方級增加,復(fù)雜度高GAN

TransformerDiffusionModel

Diffusion+Transformer技

術(shù)

節(jié)

點案

例特

點1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局信息來源:量子位智庫,1)在視頻生成的語境insights5·視頻訓(xùn)練數(shù)據(jù)示例·

高質(zhì)量數(shù)據(jù)少:

最佳的訓(xùn)練數(shù)據(jù)是高質(zhì)量的視頻-文本

對,即針對一段視頻,有與之對應(yīng)詳細(xì)準(zhǔn)確的文字描述,

互聯(lián)網(wǎng)上大部分的視頻數(shù)據(jù)都難以滿足需求(如數(shù)據(jù)不

準(zhǔn)確甚至是錯的),此外視頻數(shù)據(jù)的寬高比、分辨率、時長各異,需要進(jìn)一步處理。數(shù)據(jù)量方面,Sora

的訓(xùn)

練數(shù)據(jù)可能超過500萬小時的精良視頻·

公開數(shù)據(jù)質(zhì)量低:

公開數(shù)據(jù)集例如WebVid(1070

萬個文本視頻對,僅5.2萬小時)、

HowTo100M總時長超10萬,

但都是4s的短視頻)、CelebV-Text

(超7萬個人臉-文本

片段描述),數(shù)據(jù)量小且質(zhì)量低·

版權(quán)數(shù)據(jù)獲取難:

例如電影、記錄片、動漫、MV等影

視作品,內(nèi)容平臺版權(quán)庫,以及YouTube

、抖音等UGC內(nèi)

容,成本高且有版權(quán)限制Sora架構(gòu)(推測)·

時間維度增加復(fù)雜性:視頻生成在圖像的基礎(chǔ)上增加

了時間維度,例如針對時間維度和空間維度結(jié)合做數(shù)據(jù)

表示,這對可擴(kuò)展性、視頻生成的時長和生成效果一致

性方面有重大影響·

視頻生成更難規(guī)?;?/p>

(scale)

:對于語言模型而言,

可以進(jìn)行大規(guī)模的自監(jiān)督學(xué)習(xí),而圖像和視頻生成模型

需要進(jìn)行圖像-文本或視頻-文本對標(biāo)注做監(jiān)督學(xué)習(xí),規(guī)

?;碾y度更大,這是視頻模型和LLM的本質(zhì)差異·Tokenizer

設(shè)計更復(fù)雜:文本模態(tài)的tokenizer更成熟,

語言已經(jīng)過人類智能的一次壓縮,但圖像是現(xiàn)實世界的

原始信息,信息密度較低,需要重新設(shè)計更好的tokenizer量子位智庫insights技術(shù)挑戰(zhàn):算力需求大,數(shù)據(jù)要求高,算法復(fù)雜是目前制約視頻生成模型能力的三大挑戰(zhàn)AI計算卡示例·

訓(xùn)練視頻生成大模型所需要的計算量遠(yuǎn)高于一般的

文本和圖像模型,這導(dǎo)致開源社區(qū)和學(xué)術(shù)界等相對

業(yè)界算力不足的玩家難以參與,學(xué)界在視頻基礎(chǔ)模

型上工作較少,相關(guān)的模型和科研成果多出自互聯(lián)

網(wǎng)公司和主打視頻生成的商業(yè)技術(shù)公司·

以Sora為例,從訓(xùn)練側(cè)看,訓(xùn)練成本大約為數(shù)十萬英偉達(dá)H100GPU

hours

(據(jù)估算),需要千卡GPU

的計算集群,以H100的使用價格約為3$/h估算,Sora

的訓(xùn)練成本可能達(dá)數(shù)千萬至上億美元·

從推理側(cè)看1,價格方面目前Sora每分鐘的推理成本

約數(shù)十美元,成本高昂;生成時長方面,單個視頻

生成時長超過10min,推理速度很慢PixelVideoSpaceCompactLatent

SpaceCean(HxWT4CTmcuelNosr

LsrentteratxCodlicmt信息來源:量子位智庫,OpenAI,

英偉達(dá),《s

,1)推理速度除模型外也看算力供給

6Alarge,vibrantbirdwithanimpressivewingspanswOopsdownfrom

thesky,let-

tingoutapiercing

call

as

it

approaches

a

weathered

scarecrow

in

a

sunlit

field.Thescarecrow,dressedintatteredcloth-

ing

and

a

straw

hat,appears

to

tremble,

almost

asifit's

comingto

life

in

fear

of

theapproachingbird.1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局算

大數(shù)

據(jù)

高算

復(fù)

雜<圖像\視頻,文字描述>ImagesQryideofamConditioringPmmp·

英偉達(dá)目前占據(jù)全球高端GPU市場超95%的市場份額,是事實上生成式AI全行業(yè)算力市場

供給量的決定者·

英偉達(dá)的人工智能GPU在2022年出貨量約270

萬,主要以A100為主;2023年出貨量約380萬

塊,主要以A100和H100為主;預(yù)計2024年出貨量可能達(dá)到450萬塊,以H100和最近發(fā)布的

Blackwell系列為主·預(yù)計英偉達(dá)GPU交付量將保持20%的增速,并在每年進(jìn)行芯片架構(gòu)的升級,穩(wěn)步提升芯片

和系統(tǒng)的計算能力·

目前北美最頭部的科技公司都在重金押注AI

數(shù)據(jù)中心建設(shè),以規(guī)模最大的4家公司為例,

預(yù)計2024年在數(shù)據(jù)中心上的投入將達(dá)到1500

億美元左右,在一定程度代表了領(lǐng)軍玩家對

于大模型的信心和預(yù)期云廠商旗下的數(shù)據(jù)中心既支持內(nèi)部業(yè)務(wù)需求,也對外提供GPU算力,將逐步滿足市場對于

算力的需求,支持各類模型的訓(xùn)練和推理·數(shù)據(jù)中心成本主要包括AI服務(wù)器的采買、土建成本、電力系統(tǒng)、制冷系統(tǒng)、監(jiān)控系統(tǒng)等amazon5003804002302001000Meta

AmazonGoogleMicrosoft900+20%NVIDIA。600450270300A100GB20002022OpenAISora示

例·

從OpenAISora的實踐成果來看,繼續(xù)增加模型的數(shù)據(jù)量和相應(yīng)的參數(shù)規(guī)

(Scale

up)依然是AI發(fā)展的核心

路線,強(qiáng)大算力支持是模型進(jìn)步的必

要支撐·

模型能力:scale之后可以涌現(xiàn)出更

多高級特性,例如:1)隨著鏡頭的

旋轉(zhuǎn)和移動,人物、對象、場景在三

維世界中保持穩(wěn)定真實,2)模型可

以模擬距離關(guān)系和空間關(guān)系,生成針

對一個角色的多個鏡頭,3)模擬生

成內(nèi)容中的物理交互關(guān)系·

應(yīng)用成本:視頻模型的推理成本較高,需要大規(guī)模的推理算力來支持市場的

大規(guī)模應(yīng)用,充沛的算力供給將推動

視頻生成從實驗階段推向商業(yè)化普及技術(shù)驅(qū)動:視頻生成模型的能力將在算力驅(qū)動下快速進(jìn)步,穩(wěn)定性、可控性、豐富度將持續(xù)提升,解鎖更多應(yīng)用空間

北美巨頭數(shù)據(jù)中心2024年Capex投入預(yù)期(億/美元)

關(guān)

計算量x1

計算量x4計算量x32

英偉達(dá)人工智能GPU出貨量持續(xù)增加(萬張)1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局540GB200

十B系列

UItra2025E信息來源:量子位智庫,MorganStanleyG400insightsRubin系列380A100H10020232024E2026EH1006504403006007技術(shù)驅(qū)動:視頻生成的推理成本將持續(xù)下降,生成速度進(jìn)一步提高,

加速應(yīng)用層技術(shù)擴(kuò)散和商業(yè)化規(guī)模增長英偉達(dá)GPU產(chǎn)品及其算

力(FP16,TFLOPS)5,0004,0002,0006201300Ampere

Hopper

Blackwell

Robin2

模型應(yīng)用的成本將不斷降低·

降本趨勢:視覺模型的價格快速下降

尚未開始,但隨著市場需求驅(qū)動和產(chǎn)

品化的成熟,類似LLM的降價趨勢也

將出現(xiàn)在視頻模型上·FLOPs

成本下降:單位計算量的成本

將持續(xù)降低,主要來源于芯片架構(gòu)的

提升和服務(wù)器、數(shù)據(jù)中心系統(tǒng)優(yōu)化·

軟件層優(yōu)化:從LLM來看,推理成本

正在迅速降低,頭部模型在過去一年

降幅約90%,降本趨勢將持續(xù)·

當(dāng)前痛點:目前制約視頻生成應(yīng)用普

及的重要因素之一是生成速度,生成

5s左右的視頻需要等待數(shù)分鐘,且需

要嘗試多次才能獲得理想結(jié)果,對用

戶體驗造成的影響較大●

加速生成:單卡芯片算力提升和系統(tǒng)、集群上面的優(yōu)化可以大幅增加模型推

理速度(tokens/秒),縮短視頻生成的等待時間10

硬件的計算能力、推理速度不斷提升英偉達(dá)GPU的算力成本估算(美元/TFLOPs)

OpenAI旗艦?zāi)P偷耐评沓杀?美元/百萬token)1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局B系統(tǒng)層性能提升A

芯片層成本優(yōu)化A

芯片層性能提升關(guān)鍵分析信息來源:量子位智庫,英偉達(dá),OpenAI,MorgB系統(tǒng)層成本優(yōu)化insights8,0006,0002,000Volta3008物理世界交互·

具身智能·

自動駕駛●數(shù)字世界交互·

智能管家·

擬Agent●

●System

復(fù)雜推理·

長線規(guī)劃●

●Scaling

LawsGPT-3.5語言模型DALL-E視覺模型Whisper音頻模型早期階段·

內(nèi)容生成和理解獨立·

不同模態(tài)相互獨立GPT-4V多模態(tài)大模型“Everything

to

Everything”

統(tǒng)一生成和理解Sora目前各個模態(tài)正在相互融合:·Text-to-Video:OpenAISora打通文字與視覺·Audio-to-Audio:GPT-4o

實現(xiàn)音頻交流·Text-to-Audio:Suno

打通文字與音樂·Video-to-Audio:Deepmind

發(fā)布匹配Veo的視頻生音頻技術(shù)關(guān)鍵分析·

生成和理解在本質(zhì)上是統(tǒng)一的,語言模型的next

tokenprediction

越準(zhǔn)確,意味著

模型對于語言和世界的理解

越準(zhǔn)確。對于視頻模型,對

下一幀或下一個patch1的預(yù)

測的越準(zhǔn)確,上代表了模型

對物理世界的理解越準(zhǔn)確●視頻模態(tài)包含大量信息:從仿生的角度看,人腦有80%

的信息來自視覺,因此視覺

信息的理解與生成對于多模

態(tài)大模型至關(guān)重要·

視覺模型可以壓縮一切:“當(dāng)多模態(tài)訓(xùn)練達(dá)到一定規(guī)

模時,語言智能就會融入到

視覺智能中,這是一條獲得

世界模擬器的路徑,可以通

過這樣的模擬器獲得任何東西?!?--Aditya

Ramesh,

OpenAI

Sora及DALL-E

項目

負(fù)責(zé)人9技術(shù)展望:視頻生成模型不僅限于生成視頻內(nèi)容,長期將統(tǒng)一多模態(tài)的生成和理解,成為通向AGI的重要路徑1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局信息來源:量子位智庫,1)patch是OpenAI

So量子位智庫insights多模態(tài)生成多模態(tài)理解數(shù)據(jù)算法算力2.應(yīng)用側(cè)3.玩家格局1.技術(shù)側(cè)insights10海外視頻應(yīng)壓平

臺用戶年營收長視頻平臺D

YouTube25

億MAU2.7億315億美元

340億美元1.5億MAU84億美元短視頻平臺

TikTok20億MAU

1

6

億MAU100億美元+

160億美元電影市場(年度票房)N/A330億美元(全球)1000視頻流量占互聯(lián)網(wǎng)網(wǎng)絡(luò)流量比例(%)2017·

2017到2022年,全球互聯(lián)網(wǎng)視頻流量

占消費互聯(lián)網(wǎng)流量的比例從73%增長到

82%,成為流量最大的內(nèi)容形式·2022年,每月有500萬年的視頻內(nèi)容通

過互聯(lián)網(wǎng)傳輸。相當(dāng)于每秒鐘有110萬

分鐘的視頻被流式傳輸或下載人4

小時·

內(nèi)容視頻化是大勢所趨,移動互聯(lián)網(wǎng)的

用戶使用總時長占比中,短視頻穩(wěn)居第

一達(dá)到28%·移動視頻行業(yè)用戶規(guī)模達(dá)10.76億,月人均時長為64.2小時,視頻平臺成為流量

核心,可以將用戶引向電商、音樂、影

視、本地生活、旅游服務(wù)等等垂直賽道·

從消費端來看,視頻是用

戶消費時間最長的內(nèi)容形態(tài),有豐富的應(yīng)用的場景

和大型內(nèi)容分發(fā)平臺,長

期或有誕生超級應(yīng)用的機(jī)

會·

著AI視頻生成的能力不

,AI生成視頻占視

頻消費內(nèi)容的比例將不斷提升,推動內(nèi)容供給端變

革,逐步滲透視頻消費市

場場景廣闊:互聯(lián)網(wǎng)內(nèi)容正在全面視頻化,視頻內(nèi)容的消費場景豐富,

AI視頻內(nèi)容生成的潛在市場規(guī)模巨大230億

1500億1135億視頻流量是主要的互聯(lián)網(wǎng)信息流量騰訊視頻4

億MAU

3.4億MAU1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局視頻是移動互聯(lián)網(wǎng)最大的內(nèi)容消費形式抖音8

+MAU平

臺用戶

關(guān)鍵分析faIYI愛奇藝信息來源:量子位智庫,Questmobile,Cisco本土視頻應(yīng)用7

+MAU

N/Ainsights年營收快手550億(本土)100億+320億5

億MAU量子位智11電影制作電視劇制作2027游戲設(shè)計微電影動漫劇集2025

短視頻創(chuàng)

意MV動畫短片

早期階段模型能力品

牌TVC

的提升將是驅(qū)動應(yīng)2023

短劇

用的主導(dǎo)因素繪本故事空鏡素材·模型能力:

實現(xiàn)復(fù)雜語義理解,同時滿足多個生成條件,視頻的活動度、豐富度、穩(wěn)定性可以媲美影視級內(nèi)容,有效時長超過一分鐘,在部分場景可以充分滿足需求。1分鐘的視頻片段生成時間縮短到到分鐘級·

經(jīng)濟(jì)性:推理成本下降1個數(shù)量級·

產(chǎn)品:視頻模型與傳統(tǒng)工作流進(jìn)行深度集成,同時萌生

AI原生工作流,商業(yè)化規(guī)模達(dá)到Midjourney

的水平●

模型能力:

生成視頻時長度短、活動度低、穩(wěn)定差,人

物對象、背景經(jīng)?;儭UZ言理解能力有限,只能理解

簡單指令,難以同時滿足多個生成條件,指令遵從能力

差,10秒左右視頻片段需要3-5分鐘生成·經(jīng)濟(jì)性:成本高昂,每分鐘視頻約3美元1·產(chǎn)品:簡單的文成視頻、圖生視頻功能,以網(wǎng)頁端和移

動的簡單應(yīng)用為主,功能較為單薄應(yīng)用趨勢:2024年將成為Al視頻的應(yīng)用元年,未來3-5年更多應(yīng)用場景

將隨著模型能力提升和推理成本下降逐步解鎖推理經(jīng)濟(jì)性信息來源:量子位智庫,1)參考Runway的公開

12·

模型能力:

通過自然語言及其他方式可以實現(xiàn)對內(nèi)容的精準(zhǔn)控制,深度理解物理世界規(guī)律,穩(wěn)定性、豐富度達(dá)

到在各個領(lǐng)全面達(dá)到商用水準(zhǔn)。1分鐘的視頻片段生成

時間達(dá)到縮短到數(shù)秒,接近實時生成·

經(jīng)濟(jì)性:視頻生成的成本繼續(xù)降低1個數(shù)量級·產(chǎn)品:新一代視頻交互界面開始普及,視頻生成內(nèi)容融

入大部分視頻制作場景,重塑內(nèi)容生態(tài)新內(nèi)容形式?新消費平臺?互動式電影確認(rèn)PMF后推理成本的下降將成為大規(guī)模普及的主導(dǎo)因素1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局發(fā)展階段早期階段量子位智insights模型能力2029AI視頻生成成本約300美元/分鐘1·AI

視頻生成的成本遠(yuǎn)遠(yuǎn)低于影視行

業(yè)的制作成本,有若干個數(shù)量級的降

本效果,但目前阻礙應(yīng)用的主要因素

是模型能力不足,生成效果尚無法與

傳統(tǒng)制作方式競爭,但預(yù)期模型能力

將持續(xù)迭代,未來3-5年達(dá)到可以與

傳統(tǒng)制作方式的媲美的水平·

動畫類電影的制作成本尤其高,需要

渲染大量的2D和3D內(nèi)容,傳統(tǒng)制作方

式包括角色建模、場景貼膜、紋理貼

圖、渲染合成等環(huán)節(jié),需要數(shù)百人耗

時數(shù)月進(jìn)行制作,工程量非常大,視

頻生成可以大量削減制作成本的·

局部應(yīng)用已經(jīng)開始:在對于制作質(zhì)量

要求較低、制作方式和內(nèi)容較為模板

化的短劇行業(yè),已經(jīng)出現(xiàn)Al短劇生成

的應(yīng)用,例如Reel.AI成本驅(qū)動:AI生成視頻的成本遠(yuǎn)低于各類現(xiàn)有視頻內(nèi)容的制作成本,

將逐漸驅(qū)動視頻生成內(nèi)容滲透到各內(nèi)容種類每分鐘制作成本(美元)200萬50萬10萬2000030003000

視頻種類

不同類型視頻內(nèi)容制作成本1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局動畫、動漫本土流水線短劇本土動畫電影(《白蛇緣起》、《哪吒》、《熊出沒系列》等)關(guān)鍵分析頂級動畫電影(出自迪士尼、皮克斯等)信息來源:量子位智庫,專家訪談,1)Runway

量子位智庫insights21STCENTURYFOX好萊塢電影平均成本P

I

X

A

RM

A

T普通UGC視頻本土TVC視頻UNIVERSAL13廣告領(lǐng)域已具備應(yīng)用價值,但仍存在諸多局限1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局

智庫insights

應(yīng)用案例-MV、品牌廣告:Sora作為目前頭部模型,在創(chuàng)意視頻和品牌創(chuàng)意短片《Air

Head》--

2024年3月可控性差······

時長1分20秒,由Shy

Kids團(tuán)隊3人花費2

周時間完成制作,總體呈現(xiàn)效果精良抽卡率高,生成素材可用率約300:1片段間一致性差:

難以保證人物在不同

視頻片段之間的一致性,目前只能通過

詳細(xì)的提示詞描述來彌補(bǔ),但效果欠佳

鏡頭難以控制:對于專業(yè)攝影術(shù)語理解

有限,類似鏡頭平移的功能需要通過后

期裁剪實現(xiàn)生成穩(wěn)定性低:同樣的提示詞會產(chǎn)生不同的生成內(nèi)容,例如要求生成黃色氣球

但實際生成式紅色生成能力局限:生成的氣球上總會有面

部表情,需要后期抹除,不同片段畫面

風(fēng)格難以保持一致,需要后期統(tǒng)一調(diào)色

14·

時長1分06秒,由玩具反斗城團(tuán)隊和導(dǎo)演Nik

Kleverov共同構(gòu)思制作,并在戛

納國際創(chuàng)意節(jié)亮相·Sora

生成的第一個商業(yè)廣告,效果接近

可以和傳統(tǒng)品牌短片的水準(zhǔn),可以傳

達(dá)品牌方的關(guān)鍵視覺元素和風(fēng)格·人物角色的細(xì)節(jié)在不同片段一致性不足(例如衣物細(xì)節(jié)顏色、紋理、眼鏡樣式、

細(xì)節(jié)面部特征等細(xì)節(jié)有輕微畸變)·

背景元素存在畸變,例如背景中的自行

車的有畸變特征·

然Sora

原生支持1080P視頻生成,但由于生成速度太慢團(tuán)隊選擇生成480P的視

頻,再用其他工具再后期進(jìn)行超分處理,

生成3-20秒的視頻需要10-20分鐘的生成

時間(和云算力供給也有關(guān))·

為了避免版權(quán)問題,OpenAI對提示詞進(jìn)行了限制,例如拒絕生成“35mm膠卷,

未來宇宙飛船中,

一名男子拿著光劍靠

近”類似星球大戰(zhàn)的提示詞品牌廣告《玩具反斗城的起源》

---2024年6月信息來源:量子位智庫,量子位,Shy

kids,T生成速度慢版權(quán)限制不足之處

Reel.Al一

ReelDiffusion·Al

短片《M.A.D》(俱皆

毀滅),在全球AI電影馬

拉松大賽上榮獲B站觀眾

選擇獎。該短片利用CreativeFitting

自研的

視頻大模型ReelDiffusion

生成,效果媲美傳統(tǒng)動畫短片·ReelDiffusion

大模型在敘事型視頻的生成

方面能力領(lǐng)先·模型支持人物角色的細(xì)膩

情感表達(dá)及復(fù)雜場景的生

成,從算法到訓(xùn)練數(shù)據(jù)及

工程實現(xiàn),都進(jìn)行了專門

設(shè)計,幫助創(chuàng)作者講述引

人入勝的故事·

動畫短劇生成要比普通

短劇生成更加成熟(井英科技生成的AI短劇)30分鐘用戶日均使用時長15%付費用戶長期留存·

市場空間大:2024年短劇在國內(nèi)的市場規(guī)模為400-500億元,已經(jīng)接近國內(nèi)電影

市場規(guī)模,海外市場發(fā)展情況和滲透率要低于本土,市場空間更加廣闊·

制作效果接近成熟:目前AI短劇的制作水平還難以與傳統(tǒng)實拍模式媲美,但在的

動畫短劇領(lǐng)域已基本達(dá)到可用水平。隨著模型能力逐步迭代,未來一年內(nèi)普通的

短劇生成也將達(dá)到用戶可消費的水平·

制作流程介紹:目前采用與外部導(dǎo)演合作的模式,1)由導(dǎo)演進(jìn)行劇本創(chuàng)作,并

將其分解為分鏡劇本,2)井英科技將分鏡劇本轉(zhuǎn)化為提示詞并輸入視頻生成模

型中(該環(huán)節(jié)替代了短劇演員)獲得結(jié)果,3)導(dǎo)演從生成結(jié)果中中選擇滿意的

分鏡視頻,或再通過提示詞進(jìn)行二次生成調(diào)整,4)選定視頻后在傳統(tǒng)視頻工作

流中進(jìn)行后期的剪輯和處理·

互動功能:用戶在App內(nèi)可與短劇主角聊天,類似Character.AI,可增加用戶粘性

1.技術(shù)側(cè)2.應(yīng)用側(cè)

3.玩家格局

量子位智insights應(yīng)用案例-短劇、動畫:井英科技發(fā)布Al短劇APP

Reel.AI,自研短劇

視頻生成模型Reel

Diffusion,生成效果接近可消費水平

15(Reel

Diffusion生成的動畫短劇)信息來源:量子位智庫,井英科技insights

應(yīng)用趨勢:視頻生成模型正在賦能傳統(tǒng)視頻制作工作流,目前主要價值在于素材生成環(huán)節(jié),其他環(huán)節(jié)有少量滲透中期制作后期制作素材拍攝

素材選取

剪輯

渲染/音效·

視頻生成模型縮短視頻生產(chǎn)周期,快速進(jìn)行創(chuàng)意驗證,

生成粗略的原型視頻,加快

創(chuàng)意、情節(jié)構(gòu)思規(guī)劃過程·

通過大量新素材和創(chuàng)意素材

可以進(jìn)一步激發(fā)創(chuàng)造力,提

升內(nèi)容創(chuàng)作質(zhì)量·

添加視覺特效,確保效果自然、完成顏色校正、調(diào)色與整體風(fēng)格一致·

同步處理音頻素材,確

保對白清晰、搭配音效,

增強(qiáng)視頻的聽覺效果·

故事創(chuàng)意、主題風(fēng)格構(gòu)

思,明確故事大綱,如

主要情節(jié)和角色發(fā)展·

將大綱擴(kuò)展成完整的劇

本,包括對白、場景描

述和情節(jié)細(xì)節(jié)·

根據(jù)情節(jié)和主題需要進(jìn)行素材整理、分類、剔

除無效素材·

對于無須拍攝類內(nèi)容,

需要從素材庫進(jìn)行素材

選取文字劇本視覺化,確定鏡頭類型、鏡頭運動、

角色位置和動作編制鏡頭列表,包括每

個鏡頭的編號、描述、

拍攝角度、鏡頭運動等·

傳統(tǒng)工作流在后期階段對于質(zhì)量的要求較為精

細(xì),目前視頻生成模型

的后期編輯功能還不能

充分滿足需求·

初步剪輯、邏輯剪輯,

拼接出粗略的視頻版本·精剪微調(diào),對影片進(jìn)行精細(xì)剪輯,調(diào)整鏡頭長

度、順序、節(jié)奏等前期制作大綱腳本

分鏡規(guī)劃·

根據(jù)分鏡規(guī)劃制定拍攝計劃,完成器材準(zhǔn)備和

技術(shù)測試、準(zhǔn)備演員、

服化道及布景設(shè)置1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局Office365

+各種生產(chǎn)力軟件A

Adobeshutterstsck信息來源:量子位智庫,OpenAI相互激發(fā)

通用素材生成視

點Au

內(nèi)

容工具量子位智16傳統(tǒng)混合

Office365

+各種生產(chǎn)力軟件·

快速進(jìn)行創(chuàng)意驗證,生成粗略的原型視頻,

加快創(chuàng)意、情節(jié)構(gòu)思規(guī)劃過程。通過大量新

素材和創(chuàng)意素材可以進(jìn)一步激發(fā)創(chuàng)造力,提

升內(nèi)容創(chuàng)作質(zhì)量AdobeshutterstsckR

runway

區(qū)·

目前主要有三種模式:文生視頻、圖生視頻、文生圖-圖生視頻。目前頭部文生圖產(chǎn)品的圖

片生成質(zhì)量最好,

一般先用文生圖應(yīng)用生成指·

不會涉及專業(yè)級影視剪輯,視頻大部分關(guān)鍵元素在生

成階段完成,用戶主要的做一些簡單的邏輯剪輯或者

音效編輯,可以快速出片應(yīng)用趨勢:新一代AI視頻工作流正在萌生,將整合音視頻創(chuàng)作全流程

提高創(chuàng)作效率,降低AI視頻內(nèi)容的制作摩擦前期制作

中期制作

后期制作導(dǎo)幀,然后再作為視頻生成的輸入進(jìn)行動態(tài)化整合音視頻生成、編輯等所有功能的一站式應(yīng)用,可能產(chǎn)生新的交互界面添加視覺特效,確保效果自然、完成顏色校正、調(diào)色與整體風(fēng)格一致·

同步處理音頻素材,確保對白清晰、搭配音效,增強(qiáng)視頻的聽覺效果·

故事創(chuàng)意、主題風(fēng)格構(gòu)思,明確故事大綱,如

主要情節(jié)和角色發(fā)展·

將大綱擴(kuò)展成完整的劇

本,包括對白、場景描

述和情節(jié)細(xì)節(jié)·

根據(jù)情節(jié)和主題需要進(jìn)行素材整理、分類、剔

除無效素材·

對于無須拍攝類內(nèi)容,需要從素材庫進(jìn)行素材

選取文字劇本視覺化,確定鏡頭類型、鏡頭運動、

角色位置和動作編制鏡頭列表,包括每

個鏡頭的編號、描述、

拍攝角度、鏡頭運動等·初步剪輯、邏輯剪輯,拼接出粗略的視頻版本

精剪微調(diào),對影片進(jìn)行

精細(xì)剪輯,調(diào)整鏡頭長

度、順序、節(jié)奏等根據(jù)分鏡規(guī)劃制定拍攝計劃,完成器材準(zhǔn)備和

技術(shù)測試、準(zhǔn)備演員、

服化道及布景設(shè)置已經(jīng)

成熟過渡

階段正在

萌生1.技術(shù)側(cè)

2.應(yīng)用側(cè)3.玩家格局R

runwaystability.aiinsights信息來源:量子位智庫分鏡規(guī)劃渲染/音效素材拍攝素材選取大綱腳本回OpenAl

SORA剪輯內(nèi)容原

生17量子位智庫(nsights應(yīng)用案例-工作流(精細(xì)化生成)

:阿里達(dá)摩院發(fā)布尋光視頻制作平臺,通過圖層編輯方式和工作流整合提升創(chuàng)作全流程效率全局型元素·視頻風(fēng)格化:莫奈、浮世繪、水彩、水墨、卡通等20種風(fēng)格·鏡頭運鏡控制:左右平移、上下平移、推進(jìn)拉遠(yuǎn)、左右環(huán)繞等·

幀率控制:修改不同鏡頭的幀率修改使得視頻更加一致絲滑·

清晰度控制:提供不同清晰度的生成選擇·

畫質(zhì)增強(qiáng):提供視頻超分工具局部型元素·

目標(biāo)編輯:可以消除、替換、新增視頻中的各類目標(biāo)·移動目標(biāo):通過拖拽可以實現(xiàn)目標(biāo)的運動效果,人體控制:控制視頻中角色的肢體動作·人臉控制:批量替換、編輯人臉·前景、背景控制圖層拆解·

用戶也可以上傳自己視頻,尋光平臺可以對

視頻進(jìn)行圖層拆解,分解出創(chuàng)作者需要的視·針對每個分鏡視頻提供一攬子的的編輯功能整合大量Al編輯功能圖層融合·

可以把用戶自己生成的視頻內(nèi)容或者上傳內(nèi)

容進(jìn)行圖層組合,可以實現(xiàn)視頻背景、人物

的任意切換,以解決目前Al視頻生成的場景

一致性問題,增加可用性。支持場景和人物

的批量替換,功能強(qiáng)大類PPT的圖形化操作界面·將視頻分解為多個場景的組合,

再將每個場景分解為多個分鏡視

頻,方便用戶預(yù)覽整個視頻,對

每個鏡頭進(jìn)行精細(xì)編輯,可以直

接通過拖拽完成順序調(diào)整,在任

意位置進(jìn)行添加、刪除圖層生成·

用戶可以單獨生成視頻中的角色、物體和環(huán)

境對象,生成的視頻為透明背景,可以整合

覆蓋到其他視頻內(nèi)容中,實現(xiàn)對于視頻內(nèi)容

的細(xì)顆粒度操作和局部編輯基于圖層組合的編輯方式

18頻內(nèi)容,例如人物角色,方便用于其他視頻內(nèi)容的組合、編輯信息來源:量子位智庫,達(dá)摩院上傳素材生成素材·

多元化團(tuán)隊背景:主要是技術(shù)人員+創(chuàng)作者的組合,例如來自

Cruise、Waymo、Tesla、Microsoft、Meta

和NVIDIA

等公司的技術(shù)人員,首席工程師來自《孢子》、

《模擬城市》、《模擬人生》、

《異形:隔離》等視頻游戲,藝術(shù)家則曾參與制作《沙丘2》、《哥斯拉》、《造物主》、《復(fù)仇者聯(lián)盟:奧創(chuàng)紀(jì)元》、

《艾麗塔:戰(zhàn)斗天使》和《侏羅紀(jì)世界:失落王國》等電影·

投資方:

包括谷歌風(fēng)投、

EladGil

、GarryTan

、JeffDean等以及來自0penAI、Deepmin、Meta、Midjourney、Pixar

的研究人員信息來源:量子位智庫,Odyssey

19Q

量子位智nsights應(yīng)用案例-工作流(精細(xì)化生成)

:

Odyssey

結(jié)合4種生成模型,可以實現(xiàn)對視頻內(nèi)容的精確控制和生成,主打好萊塢級的視頻內(nèi)容生成·

主打高端影視場景:能夠生成好萊塢級的山脈、平原、植被、海洋、河流、火焰、煙霧、建筑、人物以及任何其他東西創(chuàng)作者可以完全控制場景中生

成的每個元素和位置方向,無論是幾何形狀、材質(zhì)、燈光、動作還是其他

方面。場景由可提示和可操作的對象組成,這些對象可以獨立運行,同時幾何圖形生成模型Odyssey可控運動生成模型還能保持上下文感知

光影生成(不用強(qiáng)度、方位、風(fēng)格)

對象紋理生成影像級材質(zhì)生成模型光影生成模型材質(zhì)生成(如荒漠、草地、土地)對象生成(如樹木、石塊、森林)應(yīng)用案例-工作流(流程整合化)

:美圖發(fā)布Al短劇制作平臺MOKI,

整合包括創(chuàng)意生成、后期編輯、音效制作等視頻創(chuàng)作全流程修改分鏡圖驅(qū)動角色說話輸入故事創(chuàng)意:捕快在竹林里追緝兒時摯友,展開了

場充滿

事成智能剪輯Al配樂1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局選擇旁白配音磁性

活脆

量子位智insights性別d溫梁用可制作各類短信息來源:量子位智庫,美圖片

故事繪本性別d活力通用視頻生視頻角色設(shè)計Al音效穩(wěn)重炎前

期中

期6+導(dǎo)入?yún)⒖紘笃诮巧?:云龍儒雅20分LTXsudo

LaA

The

Lost

Planet

Storyboard

Shot

EditorProjectsettingsCast

Soundtrack

g]:Volceover#Scene

1

角色設(shè)定

背景音

旁白Sam

stargazing

through

his

telescope

inhis

backyardScenesettingLOCATION場景位置.Generate

vildeo

Shot

editorDim

場景光影PROMPr鏡

2

@SamJohnson'sface,illuminatedbythetelescope's

lght,filled

with

wonder.鏡頭提示詞SHOTTYPEClose-upg]:voICEOVEBHey,I'mSam.So,thereIw..SOUND

FFFECTsSCENES0UNDScene

2

2Sam

and

Lucy

excitedly

pointing

atsomething

in

the

night

skyScenesetting10CATIONBackyard應(yīng)用案例-工作流(流程整合化)

:

LTX

Studio采用基于故事版和分鏡的生成編輯方式,同時整合音效、旁白等功能(LTX

界面)故事板界面:用戶需要先進(jìn)行角色設(shè)定,包括人物的肖像、風(fēng)格、名字等,然后故事版可以幫助用戶構(gòu)思視頻的整體內(nèi)容,包括從場景和分鏡頭兩個層次,可以設(shè)定每個場景的

基本情況,如位置、光影、天氣等,也可以添加該場景的音效和旁白。鏡頭編輯界面:可以對每個鏡頭進(jìn)行精細(xì)化編輯,例如鏡頭的控制

(LTX提供了超過10種鏡頭運動方式)、分辨率調(diào)整、視頻幀率控制、音效旁白等,確認(rèn)好基本參數(shù)后可以開始

生成視頻

21NEGATIVE

PROMPISHO

YPEClose-upSCENE

OVERRIDEMotion

鏡頭控制1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局LTXsudio

A

The

Lost

Planet

Storyboard

Shot

Editor

鏡頭編輯器WEATHER

場景天氣

Clear

nightskySound

旁白ED幀率控制6tp

24fos時長控制信息來源:量子位智庫,LTX

Studio

量子位智庫insightsND

EFFECrs開始生成Generate

Video@SamJohnsonadjustingthetelescope,

peering

intentlyatthe

nightsky.Dimly

lit

backyardwith@SamJohnsongazingatthestarsthrough

hisDimly

Iit

backyard

with

0Sam

Johnsongazing

at

the

stars

through

his

telesoope.,Generate

video

Shot

editor(LTX

界面)故事板鏡頭類型SHOTTYPEMedium-shotShoteditor鏡頭1場景1鏡頭3+.Generate

vldeo超分Project

settingsJul

16,2024,03:28PMCast

8Soundtracktelescope.?

PreviewSOUND

EFFECTs6sec

OUND

EFFECTSBackyardClose-upSou

undVoiceoverHOTTYPELIGHTINGPROMPTExpoROMPTsCSEE通用類·

場景廣泛:不針對某一類風(fēng)格、行業(yè)、角色

或其他方面進(jìn)行垂直優(yōu)化,旨在用視覺信息

建模物理世界,通過自然語言作為提示詞生

成視頻天花板高:通用生成的想象空間更大大,創(chuàng)

意性強(qiáng),未來將有更多應(yīng)用形態(tài)涌現(xiàn),預(yù)計

未來視頻的生成和理解將會逐步統(tǒng)一,強(qiáng)大

的視頻生成能力也代表視覺理解的進(jìn)步"As

great

as

Sora

is

generatingthingsthat

appear

real-what

excites

us

is

its

ability

to

makethingsthataretotallysurreal."---Shy

Kids特點OpenAIPika

R

runway

PixVerse

△lsphErEKLING

可靈大模型

詩SORA垂直類·

場景細(xì)分:垂直類視頻生成主

要指圍繞細(xì)分需求進(jìn)行視頻生

成,主要是針對細(xì)分場景,用

垂類數(shù)據(jù)或者私有數(shù)據(jù)做適配

訓(xùn)練和可控性、穩(wěn)定性優(yōu)化·

商業(yè)化路徑清晰,有穩(wěn)定的商特點

業(yè)模式和營收·

需要的算力資源和數(shù)據(jù)資源少,主要是用少量

垂類場景數(shù)據(jù)和算法對模型進(jìn)行加強(qiáng),模型不

追求“大”,且在模型層選擇靈活,可以把文

生視頻、圖生視頻作為外部能力接入傳統(tǒng)模型

作為輔助增強(qiáng),核心要素還是行業(yè)知識·

目前垂直類產(chǎn)品主要是在營銷場景下,針對人

物、或者某一類風(fēng)格進(jìn)行微調(diào),幾千條數(shù)據(jù)就

可以顯著增強(qiáng)模型在垂直領(lǐng)域的表現(xiàn)案例FancyTech

年BOOLVCreotiveFittgng·

研發(fā)難度大、算力、數(shù)據(jù)資源要求高:模型本身是對數(shù)據(jù)集

的擬合,要求模型能夠生成任意內(nèi)容的視頻,本質(zhì)上是要求

訓(xùn)練數(shù)據(jù)集的場景豐富程度極高、內(nèi)容質(zhì)量好,標(biāo)注質(zhì)量詳

盡、準(zhǔn)確,以及經(jīng)過大規(guī)模scale

來學(xué)習(xí)視頻中包含的各類知

識和物理規(guī)律,目前大多數(shù)視頻生成技術(shù)公司都屬于此類案例·

內(nèi)容合規(guī)和本土化問題難以避免:視頻輸出內(nèi)容可以包含更多維度的信息,其

中可能涉及內(nèi)容安全、意識形態(tài)及不同

文化背景的偏好差異,例如本土模型對

本土文化理解力更好,海外模型的輸出

會凸顯歐美審美偏好和價值觀產(chǎn)品路線:視頻生成目前仍處于早期階段,從應(yīng)用路線上看主要分為通用類生成和垂直類生成兩類產(chǎn)品1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局

量子位智庫insights信息來源:量子位智庫,OpenAI22·

目前主要客戶以各行業(yè)頭部公司為主,預(yù)算比較充足且愿意擁抱Al新技術(shù),一般大客戶都會要求部分定制化服務(wù)·

視頻生成領(lǐng)域的定制化一般不涉及技術(shù)上的二次開發(fā),工作

量主要在具體的需求溝通、微調(diào)模型,幫助客戶熟悉產(chǎn)品,

以及提供技術(shù)支持服務(wù)等·

一些場景需要客戶和公司結(jié)合行業(yè)知識進(jìn)行共創(chuàng),例如營銷

視頻在內(nèi)容結(jié)構(gòu)、風(fēng)格、審美等方面的選擇·

海外市場的定制化目前較少,主要是SaaS服務(wù),但頭部公司

也會提供模型訓(xùn)練服務(wù)和API定制化,例如Adobe和Runway·

創(chuàng)業(yè)公司也會做一些大客戶或者知名案例,但主要目的是打

造知名度,同時探索用戶需求、打磨產(chǎn)品,例如Runway曾

參與《瞬息全宇宙》的制作、Sora

完成《Air

Head》制作·

本土市場:如果不同視頻

生成模型之間能力沒有顯

著差異化,很可能出現(xiàn)類

似大語言模型領(lǐng)域的價格

戰(zhàn),產(chǎn)品盈利將面臨較大

壓力。C端市場、專業(yè)消

費者是最理想的市場,但

如果場營收不好,可能要

持續(xù)做B端服務(wù)·

本土市場目前的商業(yè)化

路徑一般是“從大到小”,例如從大B的影視公司,到中B的影視工作

室,游戲工作室、廣告工

作室、短劇團(tuán)隊,再到自

媒體創(chuàng)作者、專業(yè)創(chuàng)作者

等Prosumer、小

B用戶·

海外市場:C端會是長期

主線,目前競爭并不激烈,處在逐步拓展市場的階段商業(yè)模式:通用視頻生成在海外市場以SaaS產(chǎn)品為主,國內(nèi)市場項目制為主,服務(wù)內(nèi)容多樣化,但訂閱制有待成熟·

海外市場是文生視頻類應(yīng)用的主打市場,生成式Al的創(chuàng)意市場已有類似產(chǎn)品完成市場驗證,例如Midjourney年

收入已經(jīng)超過2億美元、超2000萬用戶·

海外市場的用戶主要是一些C端用戶或者中小B端用戶,

主要通過在社交媒體和創(chuàng)意工作者人群中構(gòu)建社群并以PLG的方式進(jìn)行增長·

目前主流的通用視頻生成應(yīng)用大都采用SaaS應(yīng)用服務(wù)模

式,向用戶收取每月訂閱費用或者生成視頻的消耗量分

不同付費版本靈活計費·

目前本土的SaaS市場成熟度相比海外仍有欠缺,用戶的主要畫像是自媒體創(chuàng)作者、創(chuàng)意工作者,覆蓋人群比較

垂直,商業(yè)化規(guī)模有限·

隨著新一代用戶的年輕化、專業(yè)化,為內(nèi)容工具的付費

的習(xí)慣正在逐漸形成,但仍需時間培育海外市場生成點數(shù)

生成時長

生成速度

團(tuán)隊協(xié)作增值功能(視頻超分、音效功能、編輯功能、各類動效)本土市場1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局關(guān)鍵分析量子位智庫insights客戶專員支持私有化部署生成數(shù)量業(yè)務(wù)溝通模型訓(xùn)練API

化信息來源:量子位智庫SaaS產(chǎn)品定制化付費點23對比分析:視頻生成相比圖片生成的應(yīng)用復(fù)雜度更高,大規(guī)模普及或需要從模型到工作流的全面進(jìn)步才能打開市場·

生成視頻存在畸變、分辨率低、指令遵從差、穩(wěn)定性差等問題·

目前抽卡率非常高,可能到幾百,例如Shykids團(tuán)隊用Sora制作的MV作

品抽卡率約300,需要進(jìn)行大量嘗試·視頻生成對于創(chuàng)作者的要求更高,功能和提示詞的復(fù)雜度更高·

不同模型各異,取決于生成視頻的質(zhì)量和長度,Runway的價格約為3美

元每分鐘,Sora可能高達(dá)數(shù)十美元每分鐘·

生成片段并不足以構(gòu)成可用作品,實際場景需要大量的視頻生成片段組

合為完整的視頻(時長數(shù)分鐘或更長),進(jìn)一步推高了應(yīng)用成本視頻生成環(huán)節(jié)復(fù)雜、昂貴、緩慢

視頻編輯修改難度大信息來源:量子位智庫,1、2均代表2023年數(shù)打

·

1分鐘左右·輸入一次提示詞可以生成4張圖片供用戶選擇(以Midjourney為例)·

生成的大部分圖片可以滿足普通用戶的需求標(biāo)準(zhǔn),技術(shù)已經(jīng)比較成熟·

抽卡次數(shù)較低,一般生成5次左右可以得到理想結(jié)果·

約0.03美元/張(以Midjourney

為例)耗時產(chǎn)出數(shù)量·

2分鐘左右(以最新的Runway

Gen-3為例)·

10秒左右的視頻片段(以最新的Runway

Gen-3為例)·

修改難度大:在視頻生成內(nèi)容上做編輯很難,例如人物對象、·

音頻需求:視頻和圖像的

另一個的不同是視頻需要內(nèi)容生成編輯修改

后期效果環(huán)境等內(nèi)容發(fā)生畸變的修改難

度和工作量非常大·

一致性難題:視頻制作要保證

多個視頻片段中人物角色、物

體和周圍環(huán)境的一致性,如何

精準(zhǔn)銜接多個片段,目前還沒

有很好的解決,對二次編輯的

依賴度較高Rrunway約500萬美元年營收224匹配音頻內(nèi)容,需要考慮背景音樂、旁白等內(nèi)容,

增加了額外的復(fù)雜度·視頻需要考慮時間維度和

視頻邏輯,在后期需要邏

輯剪輯等環(huán)節(jié)耗時產(chǎn)出數(shù)量產(chǎn)出質(zhì)量·

圖片生成的二次編輯比較簡單,

一般用Photoshop或者其他編輯

軟件就可以滿足需求,主要是

在細(xì)節(jié)和特殊需求上做精調(diào)1.技術(shù)側(cè)

2.應(yīng)用側(cè)

3.玩家格局應(yīng)用規(guī)模2億美元年營收

1量子位智庫insights成本視頻后期環(huán)節(jié)多產(chǎn)出質(zhì)量成本1.技術(shù)側(cè)2.應(yīng)用側(cè)3.玩家格局insights25·

外接場景:通過的視頻生成模型API賦能其他場景,給其

·

外接場景:Sora、Runway

給Adobe、Canvas提供他產(chǎn)品輸出模型能力,為其它產(chǎn)品集成API

型API·

應(yīng)用場景:可以直接接入現(xiàn)有應(yīng)用,作為增值功能,獲得

·應(yīng)用場景:OpenAI把DALL-E集成到ChatGPT中,用戶流量資源,支撐應(yīng)用、功能啟動

營銷視頻模型有直接的視頻消費場景,Al

視頻營銷、AI

影視制作、AI游戲設(shè)計、自媒體創(chuàng)作、

泛娛樂創(chuàng)作等·

交互界面:目前視頻生成產(chǎn)品的交互界比較早期,就是輸

·

交互界面:目前主要是三種形式,Discord

對話入提示詞輸出視頻結(jié)果,主要是網(wǎng)頁和本地兩種方式

框,WebUI或者移動應(yīng)用,以及節(jié)點式ComfyUI·應(yīng)用類模型:在基礎(chǔ)模型之上進(jìn)行局部優(yōu)化、調(diào)整、編輯

·應(yīng)用類模型:已經(jīng)產(chǎn)品化的包括動態(tài)筆刷,鏡·存量場景:主要針對各行業(yè)已有場景的賦能,隨著視頻生成能力提升將逐漸滲透·增量場景:還處在早期階段,需要用戶和產(chǎn)品進(jìn)行雙向探索,需要時間等待涌現(xiàn)·

交互界面:

尚不清晰,但基礎(chǔ)模型的推理速度

提升和推理成本下降可能是本質(zhì)因素·

應(yīng)用類模型:視頻生成下一階段的核心核心是

可控性的提升,例如如何保持一個角色在多個

生成片段中的一致性,預(yù)計短期會有明顯進(jìn)步

·工作流:但生成式內(nèi)容正在滲透傳統(tǒng)的工作流,

但是比較碎片化,需要試用多個工具各取所需·優(yōu)化方向:模型架構(gòu)優(yōu)化、

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論