版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
No.202212
人工智能生成內(nèi)容(AIGC)
白皮書
(2022年)
中國信息通信研究院
京東探索研究院
2022年9月
前言
習(xí)近平總書記曾指出,“數(shù)字技術(shù)正以新理念、新業(yè)態(tài)、新模式
全面融入人類經(jīng)濟(jì)、政治、文化、社會(huì)、生態(tài)文明建設(shè)各領(lǐng)域和全過
程”。在當(dāng)前數(shù)字世界和物理世界加速融合的大背景下,人工智能生
成內(nèi)容(ArtificialIntelligenceGeneratedContent,簡稱AIGC)正在悄
然引導(dǎo)著一場(chǎng)深刻的變革,重塑甚至顛覆數(shù)字內(nèi)容的生產(chǎn)方式和消費(fèi)
模式,將極大地豐富人們的數(shù)字生活,是未來全面邁向數(shù)字文明新時(shí)
代不可或缺的支撐力量。
本白皮書重點(diǎn)從AIGC技術(shù)、應(yīng)用和治理等維度進(jìn)行了闡述。在
技術(shù)層面,梳理提出了AIGC技術(shù)體系,既涵蓋了對(duì)現(xiàn)實(shí)世界各種內(nèi)
容的數(shù)字化呈現(xiàn)和增強(qiáng),也包括了基于人工智能的自主內(nèi)容創(chuàng)作。在
應(yīng)用層面,重點(diǎn)分析了AIGC在傳媒、電商、影視等行業(yè)和場(chǎng)景的應(yīng)
用情況,探討了以虛擬數(shù)字人、寫作機(jī)器人等為代表的新業(yè)態(tài)和新應(yīng)
用。在治理層面,從政策監(jiān)管、技術(shù)能力、企業(yè)應(yīng)用等視角,分析了
AIGC所暴露出的版權(quán)糾紛、虛假信息傳播等各種問題。最后,從政
府、行業(yè)、企業(yè)、社會(huì)等層面,給出了AIGC發(fā)展和治理建議。由于
人工智能仍處于飛速發(fā)展階段,我們對(duì)AIGC的認(rèn)識(shí)還有待進(jìn)一步深
化,白皮書中存在不足之處,敬請(qǐng)大家批評(píng)指正。
人工智能生成內(nèi)容(AIGC)白皮書
一、人工智能生成內(nèi)容的發(fā)展歷程與概念
1950年,艾倫·圖靈(AlanTuring)在其論文《計(jì)算機(jī)器與智能
(ComputingMachineryandIntelligence)》中提出了著名的“圖靈測(cè)
試”,給出了判定機(jī)器是否具有“智能”的試驗(yàn)方法,即機(jī)器是否能
夠模仿人類的思維方式來“生成”內(nèi)容繼而與人交互。某種程度上來
說,人工智能從那時(shí)起就被寄予了用于內(nèi)容創(chuàng)造的期許。經(jīng)過半個(gè)多
世紀(jì)的發(fā)展,隨著數(shù)據(jù)快速積累、算力性能提升和算法效力增強(qiáng),今
天的人工智能不僅能夠與人類進(jìn)行互動(dòng),還可以進(jìn)行寫作、編曲、繪
畫、視頻制作等創(chuàng)意工作。2018年,人工智能生成的畫作在佳士得拍
賣行以43.25萬美元成交,成為世界上首個(gè)出售的人工智能藝術(shù)品,
引發(fā)各界關(guān)注。隨著人工智能越來越多地被應(yīng)用于內(nèi)容創(chuàng)作,人工智
能生成內(nèi)容(ArtificialIntelligenceGeneratedContent,簡稱AIGC)的
概念悄然興起。
(一)AIGC歷史沿革
結(jié)合人工智能的演進(jìn)歷程,AIGC的發(fā)展大致可以分為三個(gè)階段,
即:早期萌芽階段(20世紀(jì)50年代至90年代中期)、沉淀積累階段
(20世紀(jì)90年代中期至21世紀(jì)10年代中期),以及快速發(fā)展階段
(21世紀(jì)10年代中期至今)。
早期萌芽階段(1950s-1990s),受限于當(dāng)時(shí)的科技水平,AIGC
僅限于小范圍實(shí)驗(yàn)。1957年,萊杰倫·希勒(LejarenHiller)和倫納
1
人工智能生成內(nèi)容(AIGC)白皮書
德·艾薩克森(LeonardIsaacson)通過將計(jì)算機(jī)程序中的控制變量換成
音符完成了歷史上第一支由計(jì)算機(jī)創(chuàng)作的音樂作品——弦樂四重奏
《依利亞克組曲(IlliacSuite)》。1966年,約瑟夫·魏岑鮑姆(Joseph
Weizenbaum)和肯尼斯·科爾比(KennethColby)共同開發(fā)了世界第
一款可人機(jī)對(duì)話的機(jī)器人“伊莉莎(Eliza)”,其通過關(guān)鍵字掃描和
重組完成交互任務(wù)。80年代中期,IBM基于隱形馬爾科夫鏈模型
(HiddenMarkovModel,HMM)創(chuàng)造了語音控制打字機(jī)“坦戈拉
(Tangora)”,能夠處理約20000個(gè)單詞。80年代末至90年代中,
由于高昂的系統(tǒng)成本無法帶來可觀的商業(yè)變現(xiàn),各國政府紛紛減少了
在人工智能領(lǐng)域的投入,AIGC沒有取得重大突破。
沉淀積累階段(1990s-2010s),AIGC從實(shí)驗(yàn)性向?qū)嵱眯灾饾u轉(zhuǎn)
變。2006年,深度學(xué)習(xí)算法取得重大突破,同時(shí)期圖形處理器
(GraphicsProcessingUnit,GPU)、張量處理器(TensorProcessingUnit,
TPU)等算力設(shè)備性能不斷提升,互聯(lián)網(wǎng)使數(shù)據(jù)規(guī)??焖倥蛎洸楦?/p>
類人工智能算法提供了海量訓(xùn)練數(shù)據(jù),使人工智能發(fā)展取得了顯著的
進(jìn)步。但是AIGC依然受限于算法瓶頸,無法較好地完成創(chuàng)作任務(wù),
應(yīng)用仍然有限,效果有待提升。2007年,紐約大學(xué)人工智能研究員羅
斯·古德溫裝配的人工智能系統(tǒng)通過對(duì)公路旅行中的一切所見所聞進(jìn)
行記錄和感知,撰寫出小說《1TheRoad》。作為世界第一部完全由
人工智能創(chuàng)作的小說,其象征意義遠(yuǎn)大于實(shí)際意義,整體可讀性不強(qiáng),
拼寫錯(cuò)誤、辭藻空洞、缺乏邏輯等缺點(diǎn)明顯。2012年,微軟公開展示
2
人工智能生成內(nèi)容(AIGC)白皮書
了一個(gè)全自動(dòng)同聲傳譯系統(tǒng),基于深層神經(jīng)網(wǎng)絡(luò)(DeepNeural
Network,DNN)可以自動(dòng)將英文演講者的內(nèi)容通過語音識(shí)別、語言翻
譯、語音合成等技術(shù)生成中文語音。
快速發(fā)展階段(2010s-至今),自2014年起,隨著以生成式對(duì)抗
網(wǎng)絡(luò)(GenerativeAdversarialNetwork,GAN)為代表的深度學(xué)習(xí)算法
的提出和迭代更新,AIGC迎來了新時(shí)代,生成內(nèi)容百花齊放,效果
逐漸逼真直至人類難以分辨。2017年,微軟人工智能少女“小冰”推
出了世界首部100%由人工智能創(chuàng)作的詩集《陽光失了玻璃窗》。2018
年,英偉達(dá)發(fā)布的StyleGAN模型可以自動(dòng)生成圖片,目前已升級(jí)到
第四代模型StyleGAN-XL,其生成的高分辨率圖片人眼難以分辨真假。
2019年,DeepMind發(fā)布了DVD-GAN模型用以生成連續(xù)視頻,在草
地、廣場(chǎng)等明確場(chǎng)景下表現(xiàn)突出。2021年,OpenAI推出了DALL-E
并于一年后推出了升級(jí)版本DALL-E-2,主要應(yīng)用于文本與圖像的交
互生成內(nèi)容,用戶只需輸入簡短的描述性文字,DALL-E-2即可創(chuàng)作
出相應(yīng)極高質(zhì)量的卡通、寫實(shí)、抽象等風(fēng)格的繪畫作品。
3
人工智能生成內(nèi)容(AIGC)白皮書
來源:中國信息通信研究院
圖1AIGC發(fā)展歷程
(二)AIGC的概念與內(nèi)涵
目前,對(duì)AIGC這一概念的界定,尚無統(tǒng)一規(guī)范的定義。國內(nèi)產(chǎn)
學(xué)研各界對(duì)于AIGC的理解是“繼專業(yè)生成內(nèi)容(Professional
GeneratedContent,PGC)和用戶生成內(nèi)容(UserGeneratedContent,
UGC)之后,利用人工智能技術(shù)自動(dòng)生成內(nèi)容的新型生產(chǎn)方式”。在
國際上對(duì)應(yīng)的術(shù)語是“人工智能合成媒體(AI-generatedMedia或
SyntheticMedia)”1,其定義是“通過人工智能算法對(duì)數(shù)據(jù)或媒體進(jìn)
行生產(chǎn)、操控和修改的統(tǒng)稱”。綜上所述,我們認(rèn)為AIGC既是從內(nèi)
容生產(chǎn)者視角進(jìn)行分類的一類內(nèi)容,又是一種內(nèi)容生產(chǎn)方式,還是用
于內(nèi)容自動(dòng)化生成的一類技術(shù)集合。本白皮書主要聚焦于AIGC含義
1維基百科:“人工智能合成媒體(AI-generatedMedia或SyntheticMedia)”
/wiki/Synthetic_media
4
人工智能生成內(nèi)容(AIGC)白皮書
中的技術(shù)部分。
為了幫助不同領(lǐng)域的受眾群體更好的理解AIGC,我們從發(fā)展背
景、技術(shù)能力、應(yīng)用價(jià)值三個(gè)方面對(duì)其概念進(jìn)行深入剖析。
從發(fā)展背景方面來看,AIGC的興起源于深度學(xué)習(xí)技術(shù)的快速突
破和日益增長的數(shù)字內(nèi)容供給需求。一方面,技術(shù)進(jìn)步驅(qū)動(dòng)AIGC可
用性不斷增強(qiáng)。在人工智能發(fā)展初期,雖然對(duì)AIGC進(jìn)行了一些初步
嘗試,但受限各種因素,相關(guān)算法多基于預(yù)先定義的規(guī)則或者模板,
還遠(yuǎn)遠(yuǎn)算不上是智能創(chuàng)作內(nèi)容的程度。近年來,基于深度學(xué)習(xí)算法的
AIGC技術(shù)快速迭代,徹底打破了原先模板化、公式化、小范圍的局
限,可以快速、靈活地生成不同模態(tài)的數(shù)據(jù)內(nèi)容。另一方面,海量需
求牽引AIGC應(yīng)用落地。隨著數(shù)字經(jīng)濟(jì)與實(shí)體經(jīng)濟(jì)融合程度不斷加深,
以及Meta、微軟、字節(jié)跳動(dòng)等平臺(tái)型巨頭的數(shù)字化場(chǎng)景向元宇宙轉(zhuǎn)
型,人類對(duì)數(shù)字內(nèi)容總量和豐富程度的整體需求不斷提高。數(shù)字內(nèi)容
的生產(chǎn)取決于想象能力、制造能力和知識(shí)水平;傳統(tǒng)內(nèi)容生產(chǎn)手段受
限于人力有限的制造能力,逐漸無法滿足消費(fèi)者對(duì)于數(shù)字內(nèi)容的消費(fèi)
需求,供給側(cè)產(chǎn)能瓶頸日益凸顯?;谝陨显?,AIGC在各行業(yè)中
得到越來越廣泛的應(yīng)用,市場(chǎng)潛力逐漸顯現(xiàn)。
從技術(shù)能力方面來看,AIGC根據(jù)面向?qū)ο?、?shí)現(xiàn)功能的不同可
分為三個(gè)層次。一是智能數(shù)字內(nèi)容孿生,其主要目標(biāo)是建立現(xiàn)實(shí)世界
到數(shù)字世界的映射,將現(xiàn)實(shí)世界中的物理屬性(如物體的大小、紋理、
顏色等)和社會(huì)屬性(如主體行為、主體關(guān)系等)高效、可感知地進(jìn)
5
人工智能生成內(nèi)容(AIGC)白皮書
行數(shù)字化。二是智能數(shù)字內(nèi)容編輯,其主要目的是建立數(shù)字世界與現(xiàn)
實(shí)世界的雙向交互。在數(shù)字內(nèi)容孿生的基礎(chǔ)上,從現(xiàn)實(shí)世界實(shí)現(xiàn)對(duì)虛
擬數(shù)字世界中內(nèi)容的控制和修改,同時(shí)利用數(shù)字世界高效率仿真和低
成本試錯(cuò)的優(yōu)勢(shì),為現(xiàn)實(shí)世界的應(yīng)用提供快速迭代能力。三是智能數(shù)
字內(nèi)容創(chuàng)作,其主要目標(biāo)是讓人工智能算法具備內(nèi)容創(chuàng)作和自我演化
的能力,形成的AIGC產(chǎn)品具備類似甚至超越人的創(chuàng)作能力。以上三
個(gè)層面的能力共同構(gòu)成AIGC的能力閉環(huán)。
從應(yīng)用價(jià)值方面來看,AIGC將有望成為數(shù)字內(nèi)容創(chuàng)新發(fā)展的新
引擎,為數(shù)字經(jīng)濟(jì)發(fā)展注入全新動(dòng)能。一方面,AIGC能夠以優(yōu)于人
類的制造能力和知識(shí)水平承擔(dān)信息挖掘、素材調(diào)用、復(fù)刻編輯等基礎(chǔ)
性機(jī)械勞動(dòng),從技術(shù)層面實(shí)現(xiàn)以低邊際成本、高效率的方式滿足海量
個(gè)性化需求;同時(shí)能夠創(chuàng)新內(nèi)容生產(chǎn)的流程和范式,為更具想象力的
內(nèi)容、更加多樣化的傳播方式提供可能性,推動(dòng)內(nèi)容生產(chǎn)向更有創(chuàng)造
力的方向發(fā)展。另一方面,AIGC能夠通過支持?jǐn)?shù)字內(nèi)容與其他產(chǎn)業(yè)
的多維互動(dòng)、融合滲透從而孕育新業(yè)態(tài)新模式,打造經(jīng)濟(jì)發(fā)展新增長
點(diǎn),為千行百業(yè)發(fā)展提供新動(dòng)能。此外,2021年以來,“元宇宙”呈
現(xiàn)出超出想象的發(fā)展爆發(fā)力;作為數(shù)實(shí)融合的“終極”數(shù)字載體,元
宇宙將具備持續(xù)性、實(shí)時(shí)性、可創(chuàng)造性等特征,也將通過AIGC加速
復(fù)刻物理世界、進(jìn)行無限內(nèi)容創(chuàng)作,從而實(shí)現(xiàn)自發(fā)有機(jī)生長。
6
人工智能生成內(nèi)容(AIGC)白皮書
二、人工智能生成內(nèi)容的技術(shù)體系及其演進(jìn)方向
AIGC作為人工智能技術(shù)和產(chǎn)業(yè)應(yīng)用的要素之一,隨著技術(shù)能
力的不斷迭代升級(jí),正在降低內(nèi)容創(chuàng)作門檻、釋放創(chuàng)作能力,未來
將推動(dòng)數(shù)實(shí)融合趨勢(shì)下內(nèi)容創(chuàng)作的范式轉(zhuǎn)變。探討其能力體系的構(gòu)
成,即賦能內(nèi)容創(chuàng)作的技術(shù)路徑,對(duì)制定領(lǐng)域內(nèi)標(biāo)準(zhǔn)、建立行業(yè)生
態(tài)、爭(zhēng)取更加廣泛的開發(fā)者和應(yīng)用場(chǎng)景具有十分重要的意義。
本部分從技術(shù)驅(qū)動(dòng)的視角出發(fā),對(duì)AIGC的能力體系進(jìn)行歸納
和推理,展示現(xiàn)有技術(shù)應(yīng)用和其背后技術(shù)演化整體進(jìn)程。第一節(jié)首
先從技術(shù)趨勢(shì)的角度,提出AIGC的技術(shù)創(chuàng)新已經(jīng)完成由傳統(tǒng)方法
向深度學(xué)習(xí)過渡的應(yīng)用創(chuàng)新階段,并逐步深化到學(xué)習(xí)范式和網(wǎng)絡(luò)結(jié)
構(gòu)方面的理論創(chuàng)新階段。第二節(jié)則重點(diǎn)分析前沿理論多模態(tài)大模型
方面的突破,讓AIGC進(jìn)行跨模態(tài)融合性創(chuàng)新成為可能,也給予了
AIGC前所未有的產(chǎn)業(yè)空間與實(shí)踐潛力。第三節(jié)進(jìn)一步歸納總結(jié)在
前沿技術(shù)驅(qū)動(dòng)下,AIGC賦能內(nèi)容創(chuàng)作的三大能力,并對(duì)三大能力
的技術(shù)演化路徑進(jìn)行展望。
(一)AIGC技術(shù)升級(jí)步入深化階段
人工智能算法的不斷迭代是AIGC發(fā)展進(jìn)步的源動(dòng)力,從技術(shù)演
進(jìn)的角度出發(fā),可將AIGC技術(shù)可大致劃分為傳統(tǒng)基于模板或規(guī)則的
前深度學(xué)習(xí)階段和深度神經(jīng)網(wǎng)絡(luò)快速發(fā)展的深度學(xué)習(xí)階段。
早期的AIGC技術(shù)主要依據(jù)事先指定的模板或者規(guī)則,進(jìn)行簡單
的內(nèi)容制作與輸出,與靈活且真實(shí)的內(nèi)容生成有較大的差距。該時(shí)期
7
人工智能生成內(nèi)容(AIGC)白皮書
的人工智能算法并不具備強(qiáng)大的學(xué)習(xí)能力,而是大多依賴于預(yù)先定義
的統(tǒng)計(jì)模型或?qū)<蚁到y(tǒng)執(zhí)行特定的任務(wù)。通過巧妙地規(guī)則設(shè)計(jì),早期
AIGC技術(shù)可以完成簡單線條、文本和旋律的生成。例如,通過定義
復(fù)雜的函數(shù)方程組,計(jì)算機(jī)所繪出的函數(shù)曲線具備某種美學(xué)圖樣;通
過記錄大量的問答文本,在面對(duì)新的問題時(shí),計(jì)算機(jī)可以通過檢索和
匹配的方式生成簡單的答案,甚至于改寫故事。但是由于缺乏對(duì)客觀
世界的深入感知和對(duì)人類語言文字等知識(shí)的認(rèn)知能力,早期的AIGC
技術(shù)普遍面臨所生成的內(nèi)容空洞、刻板、文不對(duì)題等問題。參考人類
的內(nèi)容創(chuàng)作過程,研究人員們提出,理想的AIGC算法需要具備對(duì)數(shù)
據(jù)內(nèi)容的學(xué)習(xí)能力,在理解數(shù)據(jù)的基礎(chǔ)上進(jìn)行知識(shí)與分布的學(xué)習(xí),最
終實(shí)現(xiàn)高質(zhì)量的內(nèi)容創(chuàng)作。
深度神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)范式2和網(wǎng)絡(luò)結(jié)構(gòu)上的不斷迭代極大的提升
了人工智能算法的學(xué)習(xí)能力,從而推動(dòng)了AIGC技術(shù)的快速發(fā)展。不
同于傳統(tǒng)人工智能算法,深度學(xué)習(xí)中的損失函數(shù)和梯度下降算法可以
靈活快速的調(diào)整深度神經(jīng)網(wǎng)絡(luò)中的參數(shù),從而實(shí)現(xiàn)從數(shù)據(jù)中進(jìn)行學(xué)習(xí)
功能。2012年,卷積神經(jīng)網(wǎng)絡(luò)AlexNet[1]憑借優(yōu)秀的學(xué)習(xí)能力,在當(dāng)
年的ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽中一舉奪魁,比第二名傳統(tǒng)機(jī)
器學(xué)習(xí)算法的錯(cuò)誤率提升10.8個(gè)百分點(diǎn),開啟了深度學(xué)習(xí)時(shí)代的序
幕。就在緊隨其后的2013年,深度變分自編碼器[2]的提出讓AIGC技
術(shù)能力有了極大的進(jìn)步。對(duì)于給定的神經(jīng)網(wǎng)絡(luò),深度變分自編碼器要
2人工智能的學(xué)習(xí)范式是指人工智能模型從數(shù)據(jù)中進(jìn)行學(xué)習(xí)的方法。
8
人工智能生成內(nèi)容(AIGC)白皮書
求網(wǎng)絡(luò)的輸出是對(duì)于輸入內(nèi)容的重建,通過重參數(shù)化等技巧,網(wǎng)絡(luò)在
重建過程中學(xué)習(xí)訓(xùn)練數(shù)據(jù)的統(tǒng)計(jì)分布。在測(cè)試階段,變分自編碼器通
過在學(xué)習(xí)到的統(tǒng)計(jì)分布中進(jìn)行采樣,首次能比穩(wěn)定的生成從未觀測(cè)過
的低分辨率圖像。2014年,一種新的博弈學(xué)習(xí)范式伴隨著生成對(duì)抗網(wǎng)
絡(luò)[3]被提出。生成對(duì)抗網(wǎng)絡(luò)由一個(gè)生成器和一個(gè)判別器組成,判別器
致力于不斷尋找生成數(shù)據(jù)和真實(shí)數(shù)據(jù)間的不同,生成器根據(jù)判別器的
反饋不斷完善自身,以求生成真假難辨的內(nèi)容。得益于雙方博弈的學(xué)
習(xí)策略,生成內(nèi)容的真實(shí)性和清晰度都得到了極大的提升,生成對(duì)抗
網(wǎng)絡(luò)也被應(yīng)用于很多內(nèi)容生成的具體應(yīng)用。除了變分自編碼器和生成
對(duì)抗網(wǎng)絡(luò),強(qiáng)化學(xué)習(xí)[4]、流模型[5]、擴(kuò)散模型[6]等學(xué)習(xí)范式均取得了喜
人的進(jìn)展,這些模型范式在不同場(chǎng)景中各有優(yōu)勢(shì),讓AIGC技術(shù)可以
快速地應(yīng)用到不同的場(chǎng)景和任務(wù)中。
深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)升級(jí)是推動(dòng)AIGC快速發(fā)展的另一主要因
素。一方面,實(shí)驗(yàn)證明,深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力和模型大小呈正相
關(guān),伴隨著模型參數(shù)量的增加,相對(duì)應(yīng)深度神經(jīng)網(wǎng)絡(luò)的能力一般會(huì)取
得大幅提升。但是,隨意地增加神經(jīng)網(wǎng)絡(luò)規(guī)模是行不通的,越大規(guī)模
神經(jīng)網(wǎng)絡(luò)往往意味著更大的訓(xùn)練難度,因此深度神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì)
顯得尤為關(guān)鍵。從早期的玻爾茲曼機(jī),多層感知機(jī),卷積神經(jīng)網(wǎng)絡(luò),
到深度殘差網(wǎng)絡(luò)和Transformer大模型,網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)化帶來了深度學(xué)
習(xí)模型參數(shù)量從幾萬到數(shù)千億躍升,模型層數(shù)也從開始的個(gè)位數(shù)逐步
發(fā)展到成百上千。深度學(xué)習(xí)模型規(guī)模上的量變引起了AIGC技術(shù)能力
9
人工智能生成內(nèi)容(AIGC)白皮書
的質(zhì)變,在新型網(wǎng)絡(luò)結(jié)構(gòu)的加持下,上述的生成對(duì)抗網(wǎng)絡(luò)等算法開始
能生成超高清晰度的視頻,高質(zhì)量的文本段落和優(yōu)美靈動(dòng)的樂曲旋律。
另一方面,研究者們?cè)谏疃壬窠?jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)中引入包含語義的隱
式表達(dá)和物理知識(shí),以降低模型的訓(xùn)練難度、增強(qiáng)生成內(nèi)容的豐富程
度。例如,研究者發(fā)現(xiàn)通過在神經(jīng)網(wǎng)絡(luò)的每一層引入隱式表達(dá),能夠
極大地提升內(nèi)容生成算法的可控性和生成效果[7]。另外,在三維數(shù)據(jù)
的生成任務(wù)中,神經(jīng)輻射場(chǎng)[8]在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)時(shí)充分考慮了物理世界
的固有約束,極大提升了三維渲染效率和效果。
AIGC要真正發(fā)揮對(duì)不同行業(yè)的驅(qū)動(dòng)作用,需要與各行各業(yè)的特
異性場(chǎng)景深度融合。在處理這些實(shí)際應(yīng)用中,深度學(xué)習(xí)算法在感知、
認(rèn)知、模仿、生成等方向的基礎(chǔ)能力決定了AIGC技術(shù)所能創(chuàng)作的生
產(chǎn)力。近些年中,這些算法技術(shù)齊頭并進(jìn)、百花齊放,并最終形成了
AIGC應(yīng)用于不同場(chǎng)景的底層支撐。通過人工智能支撐技術(shù)的不斷升
級(jí),AIGC技術(shù)將持續(xù)賦能各類文化創(chuàng)意、生產(chǎn)生活、科學(xué)發(fā)現(xiàn)[9,10]等
各種場(chǎng)景。
(二)AIGC大模型架構(gòu)潛力凸顯
超級(jí)深度學(xué)習(xí)近年來的快速發(fā)展帶來了深度神經(jīng)網(wǎng)絡(luò)技術(shù)在大
模型和多模態(tài)兩個(gè)方向上的不斷突破,并為AIGC技術(shù)能力的升級(jí)提
供了強(qiáng)力的支撐和全新的可能性。當(dāng)前AIGC技術(shù)已經(jīng)從最初追求生
成內(nèi)容的真實(shí)性的基本要求,發(fā)展到滿足生成內(nèi)容多樣性、可控性的
進(jìn)階需求,并開始追求生成內(nèi)容的組合性。數(shù)字內(nèi)容的組合性一方面
10
人工智能生成內(nèi)容(AIGC)白皮書
關(guān)注復(fù)雜場(chǎng)景、長文本等內(nèi)容中各個(gè)元素的組合,例如虛擬數(shù)字世界
中人、物和環(huán)境間的交互并組合生成為整體場(chǎng)景;長篇文字內(nèi)容用詞、
語句、段落間的相互呼應(yīng)和組合。另一方面,組合性追求概念、規(guī)則
等抽象表達(dá)的組合,以此完成更加豐富和生動(dòng)的數(shù)字內(nèi)容生成,這些
新出現(xiàn)的需求對(duì)傳統(tǒng)單一模態(tài)的人工智能算法框架提出了新的挑戰(zhàn)。
近年來,研究界在大規(guī)模深度網(wǎng)絡(luò)、多模態(tài)人工智能方面的探索表明
大模型具備易擴(kuò)展性,能夠?qū)崿F(xiàn)跨模態(tài)的知識(shí)沉淀,以大模型為基礎(chǔ)
模型,通過大模型小型化技術(shù)使得人工智能在小數(shù)據(jù)集場(chǎng)景下也能具
備優(yōu)秀的理解、生成和泛化能力,具有超大規(guī)模、超多參數(shù)量的多模
態(tài)大型神經(jīng)網(wǎng)絡(luò)將引領(lǐng)AIGC技術(shù)升級(jí)正在成為學(xué)界、產(chǎn)業(yè)界共識(shí)3。
1.視覺大模型提升AIGC感知能力
以圖像、視頻為代表的視覺數(shù)據(jù)是互聯(lián)網(wǎng)時(shí)代信息的主要載體之
一,這些視覺信息時(shí)刻記錄著物理世界的狀態(tài),并在不斷傳播和再創(chuàng)
作的過程中,反映人的想法、觀念和價(jià)值主張。賦以人工智能模型感
知并理解這些海量的視覺數(shù)據(jù)的能力[11],是實(shí)現(xiàn)人工智能生成數(shù)字內(nèi)
容、數(shù)字孿生的基礎(chǔ);感知能力的提升,是實(shí)現(xiàn)生成視覺內(nèi)容語義明
確、內(nèi)涵豐富、效果逼真的前提。
針對(duì)視覺信息的感知研究,在傳統(tǒng)機(jī)器學(xué)習(xí)時(shí)代主要基于科研人
員手動(dòng)建模的特征和基于統(tǒng)計(jì)學(xué)習(xí)理論構(gòu)建的樸素分類器,例如支持
3百度文心大模型:/;OpenAIDALL·E2大模型:/dall-e-2/;智
源研究院大模型:/s/j8q018Lck1TWHO3NxQDiJQ
11
人工智能生成內(nèi)容(AIGC)白皮書
向量機(jī)模型(SVM),其能完成的任務(wù)類型和感知能力都非常有限;
在深度學(xué)習(xí)時(shí)代,主要基于深度神經(jīng)網(wǎng)絡(luò)模型,例如深度殘差網(wǎng)絡(luò)
(ResNet),其數(shù)據(jù)驅(qū)動(dòng)的端到端學(xué)習(xí)范式使得模型的感知能力有了
顯著提升,在工業(yè)界也得到廣泛的應(yīng)用。但是,這類模型往往針對(duì)單
一感知任務(wù)進(jìn)行設(shè)計(jì),很難同時(shí)完成多種視覺感知任務(wù)。如何解決不
同場(chǎng)景、環(huán)境和條件下的視覺感知問題,并實(shí)現(xiàn)魯棒、準(zhǔn)確、高效的
視覺理解,是AIGC技術(shù)必須要解決的挑戰(zhàn)。
以視覺Transformer(ViT,一種神經(jīng)網(wǎng)絡(luò)模型)[12]為代表的新
型神經(jīng)網(wǎng)絡(luò),因其優(yōu)異的性能、模型的易擴(kuò)展性、計(jì)算的高并行性,
正在成為視覺領(lǐng)域的基礎(chǔ)網(wǎng)絡(luò)架構(gòu),并且逐漸發(fā)展出來十億甚至百億
參數(shù)規(guī)模的模型。在過去的2-3年間,視覺感知和理解技術(shù)正迎來突
飛猛進(jìn)的發(fā)展。無監(jiān)督學(xué)習(xí)技術(shù),包括對(duì)比式自監(jiān)督學(xué)習(xí)(例如
SimCLR和MoCo系列技術(shù))和生成式自監(jiān)督學(xué)習(xí)(例如MAE技術(shù)),
能夠大幅降低訓(xùn)練模型所需的有標(biāo)注數(shù)據(jù)的數(shù)量。經(jīng)過無監(jiān)督預(yù)訓(xùn)練
的深度神經(jīng)網(wǎng)絡(luò)模型,僅需要在少量的有標(biāo)注樣本上經(jīng)過微調(diào)學(xué)習(xí),
即可在多種場(chǎng)景,線上線下均取得優(yōu)異的性能。近年來基于
Transformer衍生出來一系列網(wǎng)絡(luò)結(jié)構(gòu),例如SwinTransformer[13]、
ViTAETransformer[14,15]。通過將人類先驗(yàn)知識(shí)引入網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),使
得這些模型具有了更快的收斂速度、更低的計(jì)算代價(jià)、更多的特征尺
度、更強(qiáng)的泛化能力,從而能更好地學(xué)習(xí)和編碼海量數(shù)據(jù)中蘊(yùn)含的知
識(shí)。這些新型的大模型架構(gòu),通過無監(jiān)督預(yù)訓(xùn)練和微調(diào)學(xué)習(xí)的范式,
12
人工智能生成內(nèi)容(AIGC)白皮書
在圖像分類、目標(biāo)檢測(cè)、語義分割、姿態(tài)估計(jì)、圖像編輯以及遙感圖
像解譯等多個(gè)感知任務(wù)上取得了相比于過去精心設(shè)計(jì)的多種算法模
型更加優(yōu)異的性能和表現(xiàn)[16,17],有望成為基礎(chǔ)視覺模型(Foundation
VisionModel),顯著提升場(chǎng)景感知能力,助力AIGC領(lǐng)域的發(fā)展。
基于視覺Transformer完成多種感知任務(wù)的聯(lián)合學(xué)習(xí)是目前的研
究熱點(diǎn)。通過探索不同任務(wù)關(guān)聯(lián)關(guān)系,挖掘豐富的監(jiān)督信號(hào),能夠促
使模型學(xué)習(xí)到更具泛化能力和可被理解的特征表示。此外,聯(lián)合文本、
語音等不同模態(tài)數(shù)據(jù)進(jìn)行聯(lián)合學(xué)習(xí),探索不同模態(tài)數(shù)據(jù)的語義關(guān)聯(lián)和
信息互補(bǔ),也是訓(xùn)練視覺大模型的重要路徑。由此得到的視覺基礎(chǔ)大
模型在環(huán)境感知、內(nèi)容檢索、語義理解、模態(tài)對(duì)齊等任務(wù)上具備先天
的優(yōu)勢(shì),對(duì)于提升AIGC基礎(chǔ)環(huán)境孿生能力、豐富AIGC應(yīng)用場(chǎng)景具
有重要價(jià)值。
2.語言大模型增強(qiáng)AIGC認(rèn)知能力
作為人類文明的重要記錄方式,語言和文字記錄了人類社會(huì)的歷
史變遷、科學(xué)技術(shù)和知識(shí)文化等。利用人工智能技術(shù)對(duì)海量語言、文
本數(shù)據(jù)進(jìn)行信息挖掘和內(nèi)容理解是AIGC技術(shù)的關(guān)鍵一環(huán)。一方面,
語言模型的訓(xùn)練和學(xué)習(xí)是進(jìn)行文本生成的核心基礎(chǔ);另一方面,學(xué)習(xí)
并理解人類語言將大幅豐富數(shù)字內(nèi)容的生產(chǎn)能力,創(chuàng)新、豐富數(shù)字內(nèi)
容的生產(chǎn)方式,例如構(gòu)建低門檻創(chuàng)作工具,使用戶通過語言描述就能
完成例如語言定位、語言編輯等高階編輯操作。
在如今信息復(fù)雜的場(chǎng)景中,數(shù)據(jù)質(zhì)量參差不齊、任務(wù)種類多,導(dǎo)
13
人工智能生成內(nèi)容(AIGC)白皮書
致數(shù)據(jù)孤島和模型孤島的存在,傳統(tǒng)自然語言處理技術(shù)的不足尤為明
顯:模型設(shè)計(jì)、部署困難;數(shù)據(jù)難以復(fù)用;難以學(xué)習(xí)海量無標(biāo)簽數(shù)據(jù)
挖掘、知識(shí)提取的共性能力。
對(duì)于傳統(tǒng)自然語言處理技術(shù)的普遍問題,基于語言的大模型技術(shù)
可以充分利用海量無標(biāo)注文本進(jìn)行預(yù)訓(xùn)練,從而賦予文本大模型在小
數(shù)據(jù)集、零數(shù)據(jù)集場(chǎng)景下的理解和生成能力?;诖笠?guī)模預(yù)訓(xùn)練的語
言模型不僅能夠在情感分析、語音識(shí)別、信息抽取、閱讀理解等文本
理解場(chǎng)景中表現(xiàn)出色,而且同樣適用于圖片描述生成、廣告生成、書
稿生成、對(duì)話生成等文本生成場(chǎng)景。這些復(fù)雜的功能往往只需要通過
簡單的無標(biāo)注文本數(shù)據(jù)收集,訓(xùn)練部署一個(gè)通用的大規(guī)模預(yù)訓(xùn)練模型
即可實(shí)現(xiàn)。研究者們相信基于語言的認(rèn)知智能可以更快的加速通用人
工智能的到來。例如,谷歌和OpenAI分別提出大規(guī)模預(yù)訓(xùn)練模型
BERT[18]和GPT[19],在諸多自然語言理解和生成任務(wù)上取得了突破性
的性能提升,驗(yàn)證了大模型在零資源、小樣本、中低資源場(chǎng)景的優(yōu)越
性。緊隨其后,國內(nèi)外知名企業(yè)和高校均投入非常大的人力、算力、
數(shù)據(jù)于自然語言處理大模型的研發(fā),包括谷歌、微軟、Meta、清華大
學(xué)、斯坦福大學(xué)、華盛頓大學(xué)、卡內(nèi)基·梅隆大學(xué)、京東、華為、百度
等等。模型參數(shù)量也從最初的千萬級(jí)發(fā)展到了千億級(jí)別[20],訓(xùn)練代價(jià)
也從數(shù)十天增長到了不容忽略的幾十萬天(按在單張V100上計(jì)算)。
顯然,指數(shù)級(jí)增長的成本換取的微弱增益讓人們意識(shí)到,如何設(shè)
計(jì)更高效率的自監(jiān)督學(xué)習(xí)方法、更高參數(shù)效用比的模型架構(gòu)、更綠色
14
人工智能生成內(nèi)容(AIGC)白皮書
節(jié)能的訓(xùn)練框架成為了大模型未來方向之一。在這個(gè)方向上,諸多機(jī)
構(gòu)開始了高效綠色的大模型探索之路,并且取得了顯著的效果,如通
用語言理解評(píng)估基準(zhǔn)(GLUE)目前(2022年6月)在榜第一名的是
由京東探索研究院研發(fā)的Vegav1織女模型4,依托于預(yù)訓(xùn)練階段多種
文本粒度、語種類型、負(fù)采樣方式上的自監(jiān)督學(xué)習(xí)創(chuàng)新,實(shí)現(xiàn)了高效
的數(shù)據(jù)知識(shí)提取,并采用了有理論支撐的更快捷的分布式優(yōu)化器。此
外,超級(jí)深度學(xué)習(xí)模型可以通過非常低成本的微調(diào)快速適應(yīng)新的產(chǎn)業(yè)、
領(lǐng)域、行業(yè),實(shí)現(xiàn)跨模態(tài)、全鏈路的知識(shí)積累、沉淀、傳播、復(fù)用。
基于語言的超級(jí)深度學(xué)習(xí)技術(shù)的發(fā)展趨勢(shì)主要體現(xiàn)在訓(xùn)練模型
的數(shù)據(jù)量日益增大、數(shù)據(jù)種類也更加豐富,模型規(guī)模增大、參數(shù)量以
指數(shù)倍增加。通過不斷構(gòu)建語義理解能力增強(qiáng)、邏輯知識(shí)可抽象學(xué)習(xí)、
同時(shí)適用于多種任務(wù)的語言大模型,將會(huì)對(duì)AIGC場(chǎng)景中的各項(xiàng)認(rèn)知
應(yīng)用產(chǎn)生極大價(jià)值。
3.多模態(tài)大模型升級(jí)AIGC內(nèi)容創(chuàng)作能力
在日常生活中,視覺和語言是最常見且重要的兩種模態(tài)[21],上述
的視覺大模型可以構(gòu)建出人工智能更加強(qiáng)大的環(huán)境感知能力,而語言
大模型則可以學(xué)習(xí)到人類文明的抽象概念以及認(rèn)知的能力。然而
AIGC技術(shù)如果只能生成單一模態(tài)的內(nèi)容,那么AIGC的應(yīng)用場(chǎng)景將
極為有限、不足以推動(dòng)內(nèi)容生產(chǎn)方式的革新。多模態(tài)大模型的出現(xiàn),
4/leaderboard
15
人工智能生成內(nèi)容(AIGC)白皮書
則讓融合性創(chuàng)新成為可能,極大豐富了AIGC技術(shù)可應(yīng)用的廣度。對(duì)
于包含多個(gè)模態(tài)的信息,多模態(tài)大模型則致力于處理不同模態(tài)、不同
來源、不同任務(wù)的數(shù)據(jù)和信息,從而滿足AIGC場(chǎng)景下新的創(chuàng)作需求
和應(yīng)用場(chǎng)景。
多模態(tài)大模型擁有兩種能力,一個(gè)是尋找到不同模態(tài)數(shù)據(jù)之間的
對(duì)應(yīng)關(guān)系,例如將一段文本和與之對(duì)應(yīng)的圖片聯(lián)系起來;另一個(gè)是實(shí)
現(xiàn)不同模態(tài)數(shù)據(jù)間的相互轉(zhuǎn)化與生成,比如根據(jù)一張圖片生成對(duì)應(yīng)的
語言描述。為了尋找到不同模態(tài)數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系,多模態(tài)大模型
將不同模態(tài)的原始數(shù)據(jù)映射到統(tǒng)一或相似語義空間當(dāng)中,從而實(shí)現(xiàn)不
同模態(tài)的信號(hào)之間的相互理解與對(duì)齊,這一能力最常見的例子就是互
聯(lián)網(wǎng)中使用文字搜索與之相關(guān)圖片的圖文搜索引擎。在此基礎(chǔ)上,多
模態(tài)大模型可以進(jìn)一步實(shí)現(xiàn)不同模態(tài)數(shù)據(jù)間的相互轉(zhuǎn)化與生成,這一
能力是進(jìn)行AIGC原生創(chuàng)作的關(guān)鍵。
來源:京東探索研究院
圖2AIGC多模態(tài)大模型生成結(jié)果圖
如圖2所示,只需給定用戶簡單手繪的語義圖或是素描圖,多模
16
人工智能生成內(nèi)容(AIGC)白皮書
態(tài)大模型學(xué)習(xí)模型便能夠創(chuàng)作出逼真的風(fēng)景圖像,同時(shí),當(dāng)給定具體
文本語義時(shí),圖像中的內(nèi)容也將隨之改變,展現(xiàn)出不同的季節(jié)亦或是
“黃昏時(shí)河道干涸”的場(chǎng)景。再以O(shè)penAI最新提出的多模態(tài)大模型
DALL-E2為例,給定一個(gè)已有的場(chǎng)景圖像,該模型能夠在指定位置
添加指定的目標(biāo)主體,如圖3所示,當(dāng)要求在沙發(fā)上(位置3處)添
加一只柯基狗時(shí),算法可以在指定位置添加不同形態(tài)的真實(shí)的柯基;
當(dāng)要求在左側(cè)畫框中(位置1處)添加一只柯基時(shí),算法先是成功的
識(shí)別出該位置是一幅畫,并創(chuàng)作了符合相應(yīng)畫風(fēng)的柯基狗5。基于多模
態(tài)大模型,AIGC具備了更加接近于人類的創(chuàng)作能力,并真正的開始
展示出代替人類進(jìn)行內(nèi)容創(chuàng)作,進(jìn)一步解放生產(chǎn)力的潛力。
來源:OpenAI
圖3OpenAIAIGC多模態(tài)大模型DALLE2生成結(jié)果圖
對(duì)于人工智能而言,能夠高質(zhì)量的完成多模態(tài)數(shù)據(jù)的對(duì)齊、轉(zhuǎn)換
5/dall-e-2/
17
人工智能生成內(nèi)容(AIGC)白皮書
和生成任務(wù)意味著模型對(duì)物理世界具備了極為深刻的理解。從某種程
度而言,基于多模態(tài)大模型的AIGC是人工智能算法邁向通用人工智
能的重要一步。就好像人類通過不斷的對(duì)比試錯(cuò)、總結(jié)歸納來了解我
們身處的物理世界一樣,多模態(tài)AIGC大模型也有希望能夠自行總結(jié)
客觀規(guī)律,發(fā)展出認(rèn)知與常識(shí),進(jìn)而幫助人類創(chuàng)造出新的數(shù)字世界。
(三)AIGC技術(shù)演化出三大前沿能力
AIGC技術(shù)被廣泛應(yīng)用于音頻、文本、視覺等不同模態(tài)數(shù)據(jù),并
構(gòu)成了豐富多樣的技術(shù)應(yīng)用。本節(jié)歸納AIGC變革內(nèi)容創(chuàng)作方式的三
大前沿能力(如圖4所示),分別是智能數(shù)字內(nèi)容孿生能力,智能數(shù)
字內(nèi)容編輯能力和智能數(shù)字內(nèi)容創(chuàng)作能力。
來源:京東探索研究院
圖4AIGC的三大前沿能力
1.增強(qiáng)與轉(zhuǎn)譯構(gòu)建數(shù)字內(nèi)容孿生能力
內(nèi)容數(shù)字化是現(xiàn)今所有數(shù)字系統(tǒng)得以存在和運(yùn)轉(zhuǎn)的前提,其過程
18
人工智能生成內(nèi)容(AIGC)白皮書
是指將視覺、聲音、文本等信息轉(zhuǎn)化為數(shù)字格式。傳統(tǒng)的數(shù)字化主要
關(guān)注對(duì)傳感器所采集數(shù)據(jù)的客觀記錄和儲(chǔ)存,但容易忽略所記錄的內(nèi)
容本身的完整性和相關(guān)語義。相比于傳統(tǒng)的內(nèi)容數(shù)字化,智能數(shù)字內(nèi)
容孿生技術(shù)致力于進(jìn)一步挖掘數(shù)據(jù)中的有效信息,在深入理解數(shù)據(jù)內(nèi)
容的基礎(chǔ)上,實(shí)現(xiàn)一系列高效、準(zhǔn)確、智能的數(shù)字內(nèi)容孿生任務(wù)。作
為傳統(tǒng)數(shù)字化的擴(kuò)充和升級(jí),數(shù)字內(nèi)容的孿生技術(shù)受到了持續(xù)且廣泛
的研究。
智能數(shù)字內(nèi)容孿生可大致分為智能增強(qiáng)技術(shù)和智能轉(zhuǎn)譯技術(shù)兩
個(gè)主要分支??紤]現(xiàn)實(shí)場(chǎng)景中數(shù)據(jù)采集、傳輸和儲(chǔ)存中可能遇到的多
種限制,原始的數(shù)字內(nèi)容經(jīng)常會(huì)存在缺失或者損壞等問題。智能增強(qiáng)
技術(shù)旨在消除上述過程中的干擾和缺失問題,根據(jù)給定的低質(zhì)量原始
數(shù)據(jù)生成經(jīng)過增強(qiáng)后的高質(zhì)量數(shù)字內(nèi)容,力求在數(shù)字世界中孿生并重
構(gòu)完整逼真的客觀世界。在計(jì)算機(jī)視覺任務(wù)中,智能增強(qiáng)技術(shù)多被用
于修復(fù)并增強(qiáng)由采集設(shè)備或環(huán)境因素引起的視覺內(nèi)容受損,例如低分
辨率、模糊、像素缺失等。同理,對(duì)于有缺陷的文本和音頻數(shù)據(jù),相
關(guān)的智能增強(qiáng)技術(shù)被用于解決片段缺失、脈沖干擾和音頻失真等問題,
在實(shí)際生產(chǎn)生活中為相關(guān)應(yīng)用生成復(fù)原高質(zhì)量的數(shù)字內(nèi)容。
除了對(duì)各種模態(tài)數(shù)據(jù)內(nèi)容的修復(fù)和增強(qiáng),近年間,數(shù)字內(nèi)容孿生
中智能增強(qiáng)技術(shù)在三維視覺領(lǐng)域取得了快速地發(fā)展。具體來說,數(shù)字
圖像是三維世界在攝影設(shè)備上的二維投影,傳統(tǒng)的數(shù)字化記錄了拍攝
影像的色彩信息,但卻無法保留三維世界中的深度、材質(zhì)和光照等信
19
人工智能生成內(nèi)容(AIGC)白皮書
息?,F(xiàn)有的數(shù)字孿生技術(shù),可以利用對(duì)同一場(chǎng)景拍攝的多張照片,重
構(gòu)并生成相應(yīng)的三維內(nèi)容。最近,谷歌等多家國內(nèi)外科技公司正探索
使用互聯(lián)網(wǎng)上商家和用戶上傳的照片,生成并渲染不同餐廳、街道和
景點(diǎn)的三維全景。通過數(shù)字內(nèi)容孿生中的智能增強(qiáng)技術(shù),算法可以過
濾剔除不同照片中天氣、時(shí)間、行人等擾動(dòng)信息,專注于生成并渲染
不同場(chǎng)所的全時(shí)間段三維全景[22]。
數(shù)字內(nèi)容孿生中的智能轉(zhuǎn)譯技術(shù)是建立在對(duì)客觀世界內(nèi)容感知
的基礎(chǔ)上,進(jìn)一步理解孿生后的數(shù)字內(nèi)容,從而實(shí)現(xiàn)多樣化的內(nèi)容呈
現(xiàn)的一類技術(shù)集合?,F(xiàn)階段比較成熟的智能轉(zhuǎn)譯技術(shù)包括給定語音信
號(hào)進(jìn)行字幕合成,依據(jù)文字進(jìn)行語音生成等。對(duì)于智能轉(zhuǎn)譯技術(shù),放
在第一位的是生成內(nèi)容的準(zhǔn)確性,無論是語音到文本還是文本生成語
音,準(zhǔn)確地呈現(xiàn)原始信息是該類技術(shù)走向?qū)嶋H應(yīng)用的基礎(chǔ)。在準(zhǔn)確的
基礎(chǔ)上,為應(yīng)對(duì)不同的使用場(chǎng)景,相關(guān)算法、工程人員還在不斷地提
高轉(zhuǎn)譯算法的實(shí)時(shí)性和生成語音的真實(shí)性。近些年間,智能轉(zhuǎn)譯技術(shù)
已被越來越多地應(yīng)用于社交、傳媒、協(xié)同辦公、殘疾人輔助等實(shí)際場(chǎng)
景中,為人們的生成生活帶來更多的便利。
相比于較為成熟的語音/字幕合成,視覺內(nèi)容描述[23]是近年間學(xué)
術(shù)領(lǐng)域的熱點(diǎn)研究課題之一。視覺描述技術(shù)致力于生成能夠準(zhǔn)確描述
給定視覺內(nèi)容(例如圖像、視頻等)的文本和語音。視覺內(nèi)容描述技
術(shù)可以被廣泛地應(yīng)用于賽事轉(zhuǎn)播、智慧交通、影視娛樂等各類應(yīng)用場(chǎng)
景中。雖然現(xiàn)階段的智能轉(zhuǎn)譯技術(shù)已經(jīng)可以初步的描述圖像(或視頻)
20
人工智能生成內(nèi)容(AIGC)白皮書
中的人物、物體和環(huán)境信息,但如何能夠準(zhǔn)確地生成有關(guān)人物行為和
主體關(guān)系的描述仍是現(xiàn)有技術(shù)亟需突破的問題。相比于智能增強(qiáng)技術(shù),
智能轉(zhuǎn)譯技術(shù)更加關(guān)注數(shù)字世界中不同模態(tài)的數(shù)字內(nèi)容間相互理解、
融合和轉(zhuǎn)換的能力,從而豐富智能數(shù)字內(nèi)容孿生技術(shù)的應(yīng)用范圍和靈
活性。
數(shù)字內(nèi)容孿生技術(shù)通過對(duì)真實(shí)世界中內(nèi)容的智能增強(qiáng)和轉(zhuǎn)譯,將
現(xiàn)實(shí)世界的物理屬性(如物體的大小、紋理、顏色等)和社會(huì)屬性(如
主體行為、主體關(guān)系等)高效、可感知地進(jìn)行數(shù)字化,實(shí)現(xiàn)現(xiàn)實(shí)世界
到數(shù)字世界的映射,構(gòu)建了在數(shù)字世界中重現(xiàn)現(xiàn)實(shí)場(chǎng)景的能力。通過
數(shù)字內(nèi)容孿生技術(shù),不同行業(yè)的從業(yè)者可以更好地在數(shù)字世界中進(jìn)行
內(nèi)容的組織和展示。
2.理解與控制組成內(nèi)容編輯能力
在數(shù)字內(nèi)容孿生技術(shù)的基礎(chǔ)上,智能數(shù)字內(nèi)容編輯的相關(guān)技術(shù)構(gòu)
建了虛擬數(shù)字世界與現(xiàn)實(shí)物理世界間的交互通道。一方面,對(duì)數(shù)字內(nèi)
容的編輯和控制,例如數(shù)字人技術(shù),可以直接作用于物理世界,實(shí)現(xiàn)
實(shí)時(shí)的反饋和互動(dòng),起到對(duì)現(xiàn)實(shí)世界中主體陪伴或服務(wù)等功能;另一
方面,數(shù)字內(nèi)容編輯技術(shù)是實(shí)現(xiàn)數(shù)字仿真的基礎(chǔ)。例如在自動(dòng)駕駛仿
真場(chǎng)景中,通過智能編輯,可以實(shí)現(xiàn)對(duì)同一道路上不同車況和天氣狀
況的控制?;跀?shù)字內(nèi)容仿真,算法模型可以在數(shù)字世界中學(xué)習(xí)到相
21
人工智能生成內(nèi)容(AIGC)白皮書
應(yīng)的知識(shí)和技能,這些知識(shí)可以被用來反哺解決現(xiàn)實(shí)世界中的問題6。
從技術(shù)角度看,智能數(shù)字內(nèi)容編輯主要通過數(shù)字內(nèi)容的語義理解
和屬性控制兩類技術(shù)來實(shí)現(xiàn)對(duì)內(nèi)容的修改和控制。首先,理解數(shù)字內(nèi)
容是對(duì)其進(jìn)行編輯和修改的必要前提。例如,在處理音頻數(shù)據(jù)進(jìn)行人
聲分離時(shí),算法模型需要先理解輸入的原始聲音信號(hào),才能進(jìn)一步分
離其中的人聲信號(hào)和背景音,生成兩段獨(dú)立的音頻內(nèi)容。同理,對(duì)于
計(jì)算機(jī)視覺中的圖片、視頻剪輯和自然語言處理中的摘要生成任務(wù),
都需要數(shù)字內(nèi)容的語義理解技術(shù)進(jìn)行相關(guān)語義的理解和概括,繼而修
改輸入的原始數(shù)據(jù)以得到最終的生成結(jié)果。
值得注意的是,現(xiàn)實(shí)世界中的內(nèi)容大多是由多種不同的語義信息
組成的。例如,一張人臉照片實(shí)際上是由人物的身份信息、面部動(dòng)作、
拍攝視角、攝影設(shè)備和光照條件等許多語義信息一同決定的。早期的
語義理解技術(shù)更多的是將某個(gè)內(nèi)容當(dāng)做一個(gè)整體進(jìn)行理解,在學(xué)習(xí)到
的數(shù)字表征中不同類別的語義信息往往是糾纏在一起的。雖然可以應(yīng)
用于解決某些數(shù)字內(nèi)容編輯任務(wù),但卻難以對(duì)不同的語義進(jìn)行精確的
理解和修改?;谏赡P偷目山怦钫Z義學(xué)習(xí)技術(shù)是解決語義糾纏問
題的可行解決方案之一,并在近些年間取得了快速的發(fā)展。通過理解
并學(xué)習(xí)不同語義成分的變化,可解耦語義學(xué)習(xí)技術(shù)對(duì)數(shù)據(jù)內(nèi)容具有更
深刻的理解,并逐漸開始服務(wù)于人工智能試妝、試衣、生成同一個(gè)人
6/omniverse/media-entertainment/
22
人工智能生成內(nèi)容(AIGC)白皮書
不同年齡照片等新興應(yīng)用程序。
在充分理解數(shù)字內(nèi)容語義的基礎(chǔ)上,屬性控制技術(shù)構(gòu)成了數(shù)字內(nèi)
容編輯的另一主要分支。在語義理解的基礎(chǔ)上,數(shù)字內(nèi)容的智能屬性
控制技術(shù)將直接根據(jù)用戶指定的屬性,對(duì)原有的內(nèi)容進(jìn)行精確地修改、
編輯和二次生成。常用的屬性控制技術(shù)已經(jīng)廣泛地應(yīng)用于智能圖像編
輯、文本情感改寫和智能調(diào)音等多項(xiàng)應(yīng)用中,并潛移默化地服務(wù)人們
的生活,作為輔助功能提升內(nèi)容創(chuàng)作者的效率。此外,先進(jìn)的智能內(nèi)
容編輯技術(shù)結(jié)合了語義理解技術(shù)和屬性控制技術(shù),在處理三維動(dòng)畫內(nèi)
容時(shí),在學(xué)習(xí)可解耦的視角、光照和角色等語義特征的基礎(chǔ)上,智能
屬性控制技術(shù)以比傳統(tǒng)算法更加高效且穩(wěn)定的方式完成虛擬現(xiàn)實(shí)、游
戲、電影中的渲染和操控[24];在構(gòu)造數(shù)字人時(shí),屬性控制能力可以根
據(jù)實(shí)際需要快速地編輯數(shù)字人的外貌、音色、感情、表情等屬性,以
完成數(shù)字人技術(shù)在不同場(chǎng)合環(huán)境中的應(yīng)用。
數(shù)字內(nèi)容編輯技術(shù)在內(nèi)容孿生技術(shù)的基礎(chǔ)上,具備了對(duì)現(xiàn)實(shí)世界
內(nèi)容進(jìn)行語義理解和屬性操控的能力,從而構(gòu)建了數(shù)字世界對(duì)現(xiàn)實(shí)世
界內(nèi)容的影響和反饋。在數(shù)字世界中的操作和嘗試將不受限于場(chǎng)地、
成本、資源消耗等客觀約束,所得到的經(jīng)驗(yàn)知識(shí)也能夠更好地反饋給
現(xiàn)實(shí)世界,提升生產(chǎn)生活的效率。
3.模仿與概念學(xué)習(xí)造就內(nèi)容創(chuàng)作能力
上述的數(shù)字內(nèi)容的孿生和編輯能力主要面向客觀世界中的真實(shí)
內(nèi)容,通過對(duì)現(xiàn)實(shí)內(nèi)容的智能孿生、理解、控制和編輯,AIGC算法
23
人工智能生成內(nèi)容(AIGC)白皮書
可以快速準(zhǔn)確地將現(xiàn)實(shí)世界的內(nèi)容映射到虛擬世界中,并通過控制仿
真等方法,對(duì)現(xiàn)實(shí)世界產(chǎn)生正向的反饋和幫助。更進(jìn)一步,數(shù)字內(nèi)容
的智能創(chuàng)作旨在讓人工智能算法具備類似甚至超越人的創(chuàng)作能力。
1968年,畢加索曾這樣評(píng)價(jià)計(jì)算機(jī)技術(shù):“它們是沒用的,只能簡單
的給出答案?!钡?4年后的今天,百度已經(jīng)可以通過人工智能模
型進(jìn)行繪畫創(chuàng)作,并被西安美院的教授評(píng)價(jià)為具有“美院畢業(yè)生水平”,
在短短24小時(shí)內(nèi)就售出了8700多份,銷售額超過17萬元7。無需基
于任何現(xiàn)實(shí)世界中存在的內(nèi)容主體,基于人工智能算法的內(nèi)容創(chuàng)作能
力有望生成海量的原創(chuàng)數(shù)字內(nèi)容。
按照技術(shù)的發(fā)展進(jìn)程和實(shí)際應(yīng)用的形態(tài),數(shù)字內(nèi)容的創(chuàng)作能力可
劃分為基于模仿的創(chuàng)作和基于概念的創(chuàng)作兩類。基于模仿的創(chuàng)作需要
人工智能模型首先觀察人類的作品,通過學(xué)習(xí)某一類作品的分布特性,
人工智能生成模型可以進(jìn)行模仿式的新創(chuàng)作。以前文中提到的佳士得
拍賣的肖像畫為例,人工智能算法利用大約15000張創(chuàng)作于14世紀(jì)
到20世紀(jì)的肖像畫,從中學(xué)習(xí)作畫的筆法、內(nèi)容、藝術(shù)風(fēng)格等。最
終,人工智能內(nèi)容生成模型所創(chuàng)作的肖像畫通過了視覺圖靈測(cè)試,讓
絕大部分人類都難以區(qū)分這幅畫是藝術(shù)家創(chuàng)作的,還是人工智能的作
品。不僅僅局限于智能作畫,基于模仿的人工智能生成模型在旋律創(chuàng)
作、文本寫作和詩詞創(chuàng)作等具體任務(wù)中都取得了不錯(cuò)的表現(xiàn)。對(duì)于某
一類具體的內(nèi)容,例如人物畫像、押韻詩歌或樂曲旋律,現(xiàn)有的人工
7/a/557118794_362042
24
人工智能生成內(nèi)容(AIGC)白皮書
智能技術(shù)基本可以創(chuàng)作出讓人真假難辨的數(shù)字內(nèi)容。但同時(shí),面對(duì)更
加復(fù)雜的數(shù)據(jù)內(nèi)容,例如三維數(shù)據(jù)、視頻數(shù)據(jù)等,現(xiàn)有的技術(shù)所創(chuàng)作
的內(nèi)容相比于真實(shí)內(nèi)容仍有一定差距,需要算法模型的不斷完善來縮
小這些內(nèi)容的創(chuàng)作難度。
基于概念的創(chuàng)作不再簡單的對(duì)固定種類的數(shù)據(jù)進(jìn)行觀察和模仿,
而是致力于在海量的數(shù)據(jù)中學(xué)習(xí)抽象的概念,進(jìn)而通過對(duì)不同概念的
組合進(jìn)行全新的創(chuàng)作。以文本到圖像的生成為例,給定的文本不僅可
以描述生成內(nèi)容中需要包含的主體內(nèi)容、數(shù)量和關(guān)系,還可以指定生
成圖像的風(fēng)格、年代等屬性。在現(xiàn)實(shí)世界中,人們可能只能見到“木
頭制作的椅子”,“獅子在捕獵獾鼠”等內(nèi)容,但是通過文本描述,
基于概念的創(chuàng)作技術(shù)可以創(chuàng)作出“牛油果制作的椅子”,“在獵捕獅
子的獾鼠”等視覺內(nèi)容[25]。在更進(jìn)一步理解不同主體間動(dòng)作、行為、
和關(guān)系基礎(chǔ)上,已經(jīng)有相關(guān)的前沿研究開始嘗試通過故事或者劇本描
述,創(chuàng)作影視短片??傮w來說,基于概念的智能創(chuàng)作與上述智能孿生
中的轉(zhuǎn)譯技術(shù)不同,智能轉(zhuǎn)譯更關(guān)注對(duì)已有內(nèi)容的精確表達(dá)和轉(zhuǎn)換,
而基于概念的智能創(chuàng)作是在給定模糊概念的基礎(chǔ)上,進(jìn)行自由生成和
創(chuàng)作。數(shù)字內(nèi)容基于概念的創(chuàng)作很大程度上依賴于算法模型對(duì)多模態(tài)
數(shù)據(jù)的理解、對(duì)齊、融合和生成,依賴于人類社會(huì)中海量的數(shù)據(jù)以及
相關(guān)的描述?;诟拍畹膭?chuàng)作擺脫了對(duì)簡單學(xué)習(xí)紋理、形狀、顏色的
模仿,進(jìn)一步像人類一樣開始學(xué)習(xí)和總結(jié)創(chuàng)作中包含的概念元素,實(shí)
現(xiàn)更通用、更高效、更智能的AIGC應(yīng)用。
25
人工智能生成內(nèi)容(AIGC)白皮書
伴隨著深度神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,人工智能模型的規(guī)模和能力都
在不斷被刷新,憑借著數(shù)據(jù)內(nèi)容的快速增長,算力的爆發(fā)以及算法模
型的不斷迭代,數(shù)字內(nèi)容創(chuàng)作技術(shù)突破到了一個(gè)新的高度,規(guī)模上不
斷變大,逐步趨近并開始超過人腦的神經(jīng)元個(gè)數(shù),能力上不斷增強(qiáng),
展現(xiàn)出強(qiáng)大的多模態(tài)理解和生成能力。
三、人工智能生成內(nèi)容的應(yīng)用場(chǎng)景
在全球新冠肺炎疫情延宕反復(fù)的背景下,各行業(yè)對(duì)于數(shù)字內(nèi)容的
需求呈現(xiàn)井噴態(tài)勢(shì),數(shù)字世界內(nèi)容消耗與供給的缺口亟待彌合。AIGC
以其真實(shí)性、多樣性、可控性、組合性的特征,有望幫助企業(yè)提高內(nèi)
容生產(chǎn)的效率,以及為其提供更加豐富多元、動(dòng)態(tài)且可交互的內(nèi)容,
或?qū)⒙氏仍趥髅?、電商、影視、娛樂等?shù)字化程度高、內(nèi)容需求豐富
的行業(yè)取得重大創(chuàng)新發(fā)展。
來源:中國信息通信研究院
圖2AIGC應(yīng)用視圖
26
人工智能生成內(nèi)容(AIGC)白皮書
(一)AIGC+傳媒:人機(jī)協(xié)同生產(chǎn),推動(dòng)媒體融合
近年來,隨著全球信息化水平的加速提升,人工智能與傳媒業(yè)的
融合發(fā)展不斷升級(jí)。AIGC作為當(dāng)前新型的內(nèi)容生產(chǎn)方式,為媒體的
內(nèi)容生產(chǎn)全面賦能。寫稿機(jī)器人、采訪助手、視頻字幕生成、語音播
報(bào)、視頻錦集、人工智能合成主播等相關(guān)應(yīng)用不斷涌現(xiàn),并滲透到采
集、編輯、傳播等各個(gè)環(huán)節(jié),深刻地改變了媒體的內(nèi)容生產(chǎn)模式,成
為推動(dòng)媒體融合發(fā)展的重要力量。
在采編環(huán)節(jié),一是實(shí)現(xiàn)采訪錄音語音轉(zhuǎn)寫,提升傳媒工作者的工
作體驗(yàn)。借助語音識(shí)別技術(shù)將錄音語音轉(zhuǎn)寫成文字,有效壓縮稿件生
產(chǎn)過程中錄音整理方面的重復(fù)工作,進(jìn)一步保障了新聞的時(shí)效性。
2022年冬奧會(huì)期間,科大訊飛的智能錄音筆通過跨語種的語音轉(zhuǎn)寫
助力記者2分鐘快速出稿。二是實(shí)現(xiàn)智能新聞寫作,提升新聞資訊的
時(shí)效?;谒惴ㄗ詣?dòng)編寫新聞,將部分勞動(dòng)性的采編工作自動(dòng)化,幫
助媒體更快、更準(zhǔn)、更智能化地生產(chǎn)內(nèi)容。比如2014年3月,美國
洛杉磯時(shí)報(bào)網(wǎng)站的機(jī)器人記者Quakebot,在洛杉磯地震發(fā)生后僅3
分鐘,就寫出相關(guān)消息并進(jìn)行發(fā)布;美聯(lián)社使用的智能寫稿平臺(tái)
Wordsmith可以每秒寫2000篇報(bào)道;中國地震臺(tái)網(wǎng)的寫稿機(jī)器人在
九寨溝地震發(fā)生后7秒內(nèi)就完成了相關(guān)消息的編發(fā);第一財(cái)經(jīng)“DT
稿王”一分鐘可寫出1680字[26]。三是實(shí)現(xiàn)智能視頻剪輯,提升視頻
內(nèi)容的價(jià)值。通過使用視頻字幕生成、視頻錦集、視頻拆條、視頻超
分等視頻智能化剪輯工具,高效節(jié)省人力時(shí)間成本,最大化版權(quán)內(nèi)容
27
人工智能生成內(nèi)容(AIGC)白皮書
價(jià)值。2020年全國兩會(huì)期間,人民日?qǐng)?bào)社利用“智能云剪輯師”快速
生成視頻,并能夠?qū)崿F(xiàn)自動(dòng)匹配字幕、人物實(shí)時(shí)追蹤、畫面抖動(dòng)修復(fù)、
橫屏速轉(zhuǎn)豎屏等技術(shù)操作,以適應(yīng)多平臺(tái)分發(fā)要求[27]。2022年冬奧會(huì)
期間,央視視頻通過使用AI智能內(nèi)容生產(chǎn)剪輯系統(tǒng),高效生產(chǎn)與發(fā)
布冬奧冰雪項(xiàng)目的視頻集錦內(nèi)容,為深度開發(fā)體育媒體版權(quán)內(nèi)容價(jià)值,
創(chuàng)造了更多的可能性。
在傳播環(huán)節(jié),AIGC應(yīng)用主要集中于以AI合成主播為核心的新
聞播報(bào)等領(lǐng)域。AI合成主播開創(chuàng)了新聞?lì)I(lǐng)域?qū)崟r(shí)語音及人物動(dòng)畫合
成的先河,只需要輸入所需要播發(fā)的文本內(nèi)容,計(jì)算機(jī)就會(huì)生成相應(yīng)
的AI合成主播播報(bào)的新聞視頻,并確保視頻中人物音頻和表情、唇
動(dòng)保持自然一致,展現(xiàn)與真人主播無異的信息傳達(dá)效果??v觀AI合
成主播在傳媒領(lǐng)域的應(yīng)用,呈現(xiàn)三方面的特點(diǎn)。一是應(yīng)用范圍不斷拓
展。目前新華社、中央廣播電視總臺(tái)、人民日?qǐng)?bào)社等國家級(jí)媒體及湖
南衛(wèi)視等省市媒體都開始積極布局應(yīng)用AI合成主播,先后推出“新
小微”、“小C”等虛擬新聞主持人,并推動(dòng)其從新聞播報(bào)向晚會(huì)主
持、記者報(bào)道、天氣預(yù)報(bào)等更廣泛的場(chǎng)景應(yīng)用,為全國兩會(huì)、冬奧會(huì)、
冬殘奧會(huì)等重大活動(dòng)傳播深度賦能。二是應(yīng)用場(chǎng)景不斷升級(jí)。除了常
規(guī)的新聞播報(bào),AI合成主播開始陸續(xù)支持多語種播報(bào)和手語播報(bào)。
2020年全國兩會(huì)期間,多語種虛擬主播采用中、韓、日、英等多種語
言進(jìn)行新聞報(bào)道,實(shí)現(xiàn)了一音多語的播報(bào),將中國新聞傳遞給世界,
順應(yīng)了信息化時(shí)代信息共享的發(fā)展潮流[28]。2022年冬奧會(huì)期間,百
28
人工智能生成內(nèi)容(AIGC)白皮書
度、騰訊等企業(yè)推出手語播報(bào)數(shù)字人,為千萬聽障用戶提供手語解說,
進(jìn)一步推動(dòng)觀賽的無障礙進(jìn)程。三是應(yīng)用形態(tài)日趨完善。在形象方面,
逐步從2D向3D拓展;在驅(qū)動(dòng)范圍上,開始從口型向面部表情、肢
體、手指、背景內(nèi)容素材延伸;在內(nèi)容構(gòu)建上,從支持SaaS化平臺(tái)
工具構(gòu)建向智能化生產(chǎn)探索。例如騰訊3D手語數(shù)智人“聆語”,實(shí)
現(xiàn)了唇動(dòng)、面部表情、肢體動(dòng)作、手指動(dòng)作等內(nèi)容的生成,并配套可
視化動(dòng)作編輯平臺(tái),支持對(duì)手語動(dòng)作進(jìn)行精修。
AIGC對(duì)傳媒機(jī)構(gòu)、傳媒從業(yè)者和傳媒受眾都產(chǎn)生深刻影響。對(duì)
傳媒機(jī)構(gòu)來說,AIGC通過參與新聞產(chǎn)品的生產(chǎn)過程,大幅提高生產(chǎn)
效率,并帶來新的視覺化、互動(dòng)化體驗(yàn);豐富了新聞報(bào)道的形式,加
速了媒體的數(shù)字化轉(zhuǎn)型,推動(dòng)傳媒向智媒轉(zhuǎn)變。對(duì)傳媒從業(yè)者來說,
AIGC可助力生產(chǎn)更具人文關(guān)懷、社會(huì)意義和經(jīng)濟(jì)價(jià)值的新聞作品;
將部分勞動(dòng)性的采編播工作自動(dòng)化,讓其更加專注于需要深入思考和
創(chuàng)造力的工作內(nèi)容,如新聞特稿、深度報(bào)道和專題報(bào)道等此類更需發(fā)
揮人類在精準(zhǔn)分析事物、妥善處理情感元素等方面優(yōu)勢(shì)的細(xì)分領(lǐng)域。
對(duì)傳媒受眾來說,AIGC的應(yīng)用可使其在更短時(shí)間內(nèi)獲得以更豐富多
元的形態(tài)呈現(xiàn)的新聞內(nèi)容,提高了其獲取新聞信息的及時(shí)性和便捷性;
降低了傳媒行業(yè)的技術(shù)門檻,促使傳媒受眾具有更多參與內(nèi)容生產(chǎn)的
機(jī)會(huì),極大增強(qiáng)其參與感。
(二)AIGC+電商:推進(jìn)虛實(shí)交融,營造沉浸體驗(yàn)
隨著數(shù)字技術(shù)的發(fā)展和應(yīng)用、消費(fèi)的升級(jí)和加快,購物體驗(yàn)沉浸
29
人工智能生成內(nèi)容(AIGC)白皮書
化成為電商領(lǐng)域發(fā)展的方向。AIGC正加速商品3D模型、虛擬主播
乃至虛擬貨場(chǎng)的構(gòu)建,通過和AR、VR等新技術(shù)的結(jié)合,實(shí)現(xiàn)視聽等
多感官交互的沉浸式購物體驗(yàn)。
生成商品3D模型用于商品展示和虛擬試用,提升線上購物體驗(yàn)。
基于不同角度的商品圖像,借助視覺生成算法自動(dòng)化生成商品的3D
幾何模型和紋理,輔以線上虛擬“看、試、穿、戴”,提供接近實(shí)物
的差異化網(wǎng)購體驗(yàn),助力高效提升用戶轉(zhuǎn)化。百度、華為等企業(yè)都推
出商品自動(dòng)化3D建模服務(wù),支持在分鐘級(jí)的時(shí)間內(nèi)完成商品的3D
拍攝和生成,精度可達(dá)到毫米級(jí)。相較于傳統(tǒng)2D展示,3D模型可
720°全方位展示商品主體外觀,可大幅度降低用戶選品和溝通時(shí)間,
提升用戶體驗(yàn)感,快速促成商品成交。同時(shí)生成出的3D商品模型還
可用于在線試穿,高度還原商品或服務(wù)試用的體驗(yàn)感,讓消費(fèi)者有更
多機(jī)會(huì)接觸到產(chǎn)品或服務(wù)的絕對(duì)價(jià)值。如阿里于2021年4月上線3D
版天貓家裝城,通過為商家提供3D設(shè)計(jì)工具及商品3D模型AI生成
服務(wù),幫助商家快速構(gòu)建3D購物空間,支持消費(fèi)者自己動(dòng)手做家裝
搭配,為消費(fèi)者提供沉浸式的“云逛街”體驗(yàn)。數(shù)據(jù)顯示,3D購物的
轉(zhuǎn)化率平均值為70%,較行業(yè)平均水平提升了9倍,同比正常引導(dǎo)成
交客單價(jià)提升超200%,同時(shí)商品退換貨率明顯降低。此外,不少品
牌企業(yè)也開始在虛擬試用方向上開展探索和嘗試,如優(yōu)衣庫虛擬試衣、
阿迪達(dá)斯虛擬試鞋、周大福虛擬試珠寶、Gucci虛擬試戴手表和眼鏡、
宜家虛擬家具搭配、保時(shí)捷虛擬試駕等[29]。盡管目前還是采用的傳統(tǒng)
30
人工智能生成內(nèi)容(AIGC)白皮書
手動(dòng)建模方式,但隨著AIGC技術(shù)的不斷進(jìn)步,未來有望涌現(xiàn)更多消
費(fèi)級(jí)工具,從而逐步降低3D建模的門檻和成本,助力虛擬試穿應(yīng)用
大規(guī)模商用。
打造虛擬主播,賦能直播帶貨?;谝曈X、語音、文本生成技術(shù),
打造虛擬主播為觀眾提供24小時(shí)不間斷的貨品推薦介紹以及在線服
務(wù)能力,為商戶直播降低門檻。相比真人直播間帶貨,虛擬主播具備
三大優(yōu)勢(shì):一是虛擬主播能夠填補(bǔ)真人主播的直播間隙,使直播間能
不停輪播,既為用戶提供更靈活的觀看時(shí)間和更方便的購物體驗(yàn),也
為合作商家創(chuàng)造更大的生意增量。如歐萊雅、飛利浦、完美日記等品
牌的虛擬主播一般會(huì)在凌晨0點(diǎn)上線,并進(jìn)行近9個(gè)小時(shí)的直播,與
真人主播形成了24小時(shí)無縫對(duì)接的直播服務(wù)。二是虛擬化的品牌主
播更能加速店鋪或品牌年輕化進(jìn)程,拉近與新消費(fèi)人群的距離,塑造
元宇宙時(shí)代的店鋪形象,未來可通過延展應(yīng)用到元宇宙中更多元的虛
擬場(chǎng)景,實(shí)現(xiàn)多圈層傳播。如彩妝品牌“卡姿蘭”推出自己的品牌虛
擬形象,并將其引入直播間作為其天貓旗艦店日常的虛擬主播導(dǎo)購。
同時(shí)對(duì)于已具備虛擬品牌IP形象的傳統(tǒng)企業(yè),可直接利用已有形象
快速轉(zhuǎn)化形成虛擬品牌主播。如在2020年5月海爾直播大促活動(dòng)中,
大家所熟知的海爾兄弟虛擬IP來到直播間,并同主持人和粉絲一起
互動(dòng),高達(dá)千萬播放量。三是虛擬主播人設(shè)更穩(wěn)定可控。在頭部主播
有限并且可能“人設(shè)崩塌”的情況下,虛擬主播人設(shè)、言行等由品牌
方掌握,比真人明星的可控性、安全性更強(qiáng)。品牌不必?fù)?dān)心虛擬形象
31
人工智能生成內(nèi)容(AIGC)白皮書
人設(shè)崩塌,為品牌帶來負(fù)面新聞、差評(píng)及資金損失。
賦能線上商城和線下秀場(chǎng)加速演變,為消費(fèi)者提供全新的購物場(chǎng)
景。通過從二維圖像中重建場(chǎng)景的三維幾何結(jié)構(gòu),實(shí)現(xiàn)虛擬貨場(chǎng)快速、
低成本、大批量的構(gòu)建,將有效降低商家搭建3D購物空間的門檻及
成本,為一些原本高度倚重線下門店的行業(yè)打開了線上線下融合的想
象空間,同時(shí)為消費(fèi)者提供線上線下融合的新消費(fèi)體驗(yàn)。目前一些品
牌已經(jīng)開始嘗試打造虛擬空間。例如奢侈品商Gucci在一百周年品牌
慶典時(shí),把線下的GucciGardenArchetypes展覽搬到了游戲Roblox
上,推出了為期兩周的虛擬展,5個(gè)主題展廳的內(nèi)容與現(xiàn)實(shí)展覽相互
對(duì)應(yīng)。2021年7月,阿里巴巴首次展示了其虛擬現(xiàn)實(shí)計(jì)劃“Buy+”,
并提供360°虛擬的購物現(xiàn)場(chǎng)開放購物體驗(yàn)。2021年11月,Nike和
Roblox合作,推出虛擬世界Nikeland,并向所有Roblox用戶開放。
隨著基于圖像的3D重建技術(shù)在谷歌地圖沉浸式視圖功能中的成功應(yīng)
用,虛擬貨場(chǎng)的自動(dòng)化構(gòu)建未來將得到更好的應(yīng)用和發(fā)展。
(三)AIGC+影視:拓展創(chuàng)作空間,提升作品質(zhì)量
隨著影視行業(yè)的快速發(fā)展,從前期創(chuàng)作、中期拍攝到后期制作的
過程性問題也隨之顯露,存在高質(zhì)量劇本相對(duì)缺乏、制作成本高昂以
及部分作品質(zhì)量有待提升等發(fā)展痛點(diǎn),亟待進(jìn)行結(jié)構(gòu)升級(jí)。運(yùn)用AIGC
技術(shù)能激發(fā)影視劇本創(chuàng)作思路,擴(kuò)展影視角色和場(chǎng)景創(chuàng)作空間,極大
地提升影視產(chǎn)品的后期制作質(zhì)量,幫助實(shí)現(xiàn)影視作品的文化價(jià)值與經(jīng)
濟(jì)價(jià)值最大化。
32
人工智能生成內(nèi)容(AIGC)白皮書
AIGC為劇本創(chuàng)作提供新思路。通過對(duì)海量劇本數(shù)據(jù)進(jìn)行分析歸
納,并按照預(yù)設(shè)風(fēng)格快速生產(chǎn)劇本,創(chuàng)作者再進(jìn)行篩選和二次加工,
以此激發(fā)創(chuàng)作者的靈感,開闊創(chuàng)作思路,縮短創(chuàng)作周期。國外率先開
展相關(guān)嘗試,早在2016年6月,紐約大學(xué)利用人工智能編寫的電影
劇本《Sunspring》,經(jīng)拍攝制作后入圍倫敦科幻電影(Sci-FiLondon)
48小時(shí)挑戰(zhàn)前十強(qiáng)[30]。2020年,美國查普曼大學(xué)的學(xué)生利用OpenAI
的大模型GPT-3創(chuàng)作劇本并制作短片《律師》。國內(nèi)部分垂直領(lǐng)域的
科技公司開始提供智能劇本生產(chǎn)相關(guān)的服務(wù),如海馬輕帆推出的“小
說轉(zhuǎn)劇本”智能寫作功能,服務(wù)了包括《你好,李煥英》《流浪地球》
等爆款作品在內(nèi)的劇集劇本30000多集、電影/網(wǎng)絡(luò)電影劇本8000多
部、網(wǎng)絡(luò)小說超過500萬部。
AIGC擴(kuò)展角色和場(chǎng)景創(chuàng)作空間。一是通過人工智能合成人臉、
聲音等相關(guān)內(nèi)容,實(shí)現(xiàn)“數(shù)字復(fù)活”已故演員、替換“劣跡藝人”、
多語言譯制片音畫同步、演員角色年齡的跨越、高難度動(dòng)作合成等,
減少由于演員自身局限對(duì)影視作品的影響。如央視紀(jì)錄片《創(chuàng)新中國》
中,央視和科大訊飛利用人工智能算法學(xué)習(xí)已故配音員李易過往紀(jì)錄
片的聲音資料,并根據(jù)紀(jì)錄片的文稿合成配音,配合后期的剪輯優(yōu)化,
最終讓李易的聲音重現(xiàn)。在2020年播出的《了不起的兒科醫(yī)生》中,
主角人物的學(xué)歷事件影響了影視作品的宣傳與發(fā)行,該作品便采用了
智能影視換臉技術(shù)將主角人物進(jìn)行替換,從而減少影視作品創(chuàng)作過程
中的損失。2021年,英國公司Flawless針對(duì)多語言譯制片中角色唇形
33
人工智能生成內(nèi)容(AIGC)白皮書
不同步的問題推出了可視化工具TrueSync,能通過AI深度視頻合成
技術(shù)精準(zhǔn)調(diào)整演員的面部特征,讓演員的口型和不同語種的配音或字
幕相匹配。二是通過人工智能合成虛擬物理場(chǎng)景,將無法實(shí)拍或成本
過高的場(chǎng)景生成出來,大大拓寬了影視作品想象力的邊界,給觀眾帶
來更優(yōu)質(zhì)的視覺效果和聽覺體驗(yàn)。如2017年熱播的《熱血長安》,
劇中的大量場(chǎng)景便是通過人工智能技術(shù)虛擬生成。工作人員在前期進(jìn)
行大量的場(chǎng)景資料采集,經(jīng)由特效人員進(jìn)行數(shù)字建模,制作出仿真的
拍攝場(chǎng)景,演員則在綠幕影棚進(jìn)行表演,結(jié)合實(shí)時(shí)摳像技術(shù),將演員
動(dòng)作與虛擬場(chǎng)景進(jìn)行融合,最終生成視頻[31]。
AIGC賦能影視剪輯,升級(jí)后期制作。一是實(shí)現(xiàn)對(duì)影視圖像進(jìn)行
修復(fù)、還原,提升影像資料的清晰度,保障影視作品的畫面質(zhì)量。例
如中影數(shù)字制作基地和中國科技大學(xué)共同研發(fā)的基于AI的圖像處理
系統(tǒng)“中影·神思”,成功修復(fù)《厲害了,我的國》《馬路天使》等多
部影視劇。利用AI神思系統(tǒng),修復(fù)一部電影的時(shí)間可以縮短四分之
三,成本可以減少一半。同時(shí),愛奇藝、優(yōu)酷、西瓜視頻等流媒體平
臺(tái)都開始將AI修復(fù)經(jīng)典影視作品作為新的增長領(lǐng)域開拓。二是實(shí)現(xiàn)
影視預(yù)告片生成。IBM旗下的人工智能系統(tǒng)Watson在學(xué)習(xí)了上百部
驚悚預(yù)告片的視聽手法后,從90分鐘的《Morgan》影片中挑選出符
合驚悚預(yù)告片特點(diǎn)的電影鏡頭,并制作出一段6分鐘的預(yù)告片。盡管
這部預(yù)告片需要在制作人員的重新修改下才能最終完成,但卻將預(yù)告
片的制作周期從一個(gè)月左右縮減到24小時(shí)。三是實(shí)現(xiàn)將影視內(nèi)容從
34
人工智能生成內(nèi)容(AIGC)白皮書
2D向3D自動(dòng)轉(zhuǎn)制。聚力維度推出的人工智能3D內(nèi)容自動(dòng)制作平臺(tái)
“崢嶸”支持對(duì)影視作品進(jìn)行維度轉(zhuǎn)換,將院線級(jí)3D轉(zhuǎn)制效率提升
1000多倍。
(四)AIGC+娛樂:擴(kuò)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《高原疾病防治知識(shí)》課件
- 2025年分期付款化妝品購買合同
- 2025年P(guān)PP項(xiàng)目合作物資保障協(xié)議
- 二零二五年海洋工程建設(shè)項(xiàng)目施工合同6篇
- 二零二五年度PVC管材綠色制造技術(shù)合作合同3篇
- 2025年度新能源發(fā)電項(xiàng)目租賃合同3篇
- 2025版學(xué)校圖書館古籍保護(hù)與展示工程合同3篇
- 二零二五年度航空航天器研發(fā)與測(cè)試合同4篇
- 2025年度住宅小區(qū)物業(yè)管理權(quán)轉(zhuǎn)讓與社區(qū)安全防范協(xié)議
- 二零二五年度文化創(chuàng)意產(chǎn)業(yè)經(jīng)營授權(quán)協(xié)議
- 國家中醫(yī)藥管理局發(fā)布的406種中醫(yī)優(yōu)勢(shì)病種診療方案和臨床路徑目錄
- 2024年全國甲卷高考化學(xué)試卷(真題+答案)
- 汽車修理廠管理方案
- 人教版小學(xué)數(shù)學(xué)一年級(jí)上冊(cè)小學(xué)生口算天天練
- (正式版)JBT 5300-2024 工業(yè)用閥門材料 選用指南
- 三年級(jí)數(shù)學(xué)添括號(hào)去括號(hào)加減簡便計(jì)算練習(xí)400道及答案
- 蘇教版五年級(jí)上冊(cè)數(shù)學(xué)簡便計(jì)算300題及答案
- 澳洲牛肉行業(yè)分析
- 老客戶的開發(fā)與技巧課件
- 計(jì)算機(jī)江蘇對(duì)口單招文化綜合理論試卷
- 成人學(xué)士學(xué)位英語單詞(史上全面)
評(píng)論
0/150
提交評(píng)論