![全球生成式AI產(chǎn)業(yè)研究報(bào)告_第1頁(yè)](http://file4.renrendoc.com/view/b63492d0ed2b0cad3305527d062b6928/b63492d0ed2b0cad3305527d062b69281.gif)
![全球生成式AI產(chǎn)業(yè)研究報(bào)告_第2頁(yè)](http://file4.renrendoc.com/view/b63492d0ed2b0cad3305527d062b6928/b63492d0ed2b0cad3305527d062b69282.gif)
![全球生成式AI產(chǎn)業(yè)研究報(bào)告_第3頁(yè)](http://file4.renrendoc.com/view/b63492d0ed2b0cad3305527d062b6928/b63492d0ed2b0cad3305527d062b69283.gif)
![全球生成式AI產(chǎn)業(yè)研究報(bào)告_第4頁(yè)](http://file4.renrendoc.com/view/b63492d0ed2b0cad3305527d062b6928/b63492d0ed2b0cad3305527d062b69284.gif)
![全球生成式AI產(chǎn)業(yè)研究報(bào)告_第5頁(yè)](http://file4.renrendoc.com/view/b63492d0ed2b0cad3305527d062b6928/b63492d0ed2b0cad3305527d062b69285.gif)
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
12023年全球生成式AI產(chǎn)業(yè)研究報(bào)告2023GlobalGenerativeAIIndustry
Report前言
2?2023.5ZD
I生成式AI作為當(dāng)前人工智能的前沿領(lǐng)域,成為全球最熱的科技話題。2022年OpenAI發(fā)布ChatGPT,生成式AI在模型應(yīng)用層面實(shí)現(xiàn)重要突破,僅兩個(gè)月突破1億月度活躍用戶數(shù),成為史上用戶增長(zhǎng)速度最快的消費(fèi)級(jí)應(yīng)用。全球多家科技企業(yè)加大在生成式AI領(lǐng)域的研發(fā)投入力度,不斷在技術(shù)、產(chǎn)品及應(yīng)用等方面推出重要成果,持續(xù)推動(dòng)人工智能的創(chuàng)新與商業(yè)化落地進(jìn)程,也將帶動(dòng)產(chǎn)業(yè)鏈相關(guān)企業(yè)快速發(fā)展。在此背景下,在中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)、中國(guó)軟件行業(yè)協(xié)會(huì)指導(dǎo)下,天津市人工智能學(xué)會(huì)、至頂科技、至頂智庫(kù)聯(lián)合發(fā)布《2023年全球生成式AI產(chǎn)業(yè)研究報(bào)告》,該報(bào)告從全球視角出發(fā),對(duì)生成式AI的產(chǎn)業(yè)概況、基礎(chǔ)設(shè)施、算法模型、場(chǎng)景應(yīng)用、機(jī)遇挑戰(zhàn)等方面進(jìn)行梳理,全面展現(xiàn)生成式AI的產(chǎn)業(yè)發(fā)展情況,為政府部門、行業(yè)從業(yè)者、教育工作者以及社會(huì)公眾更好了解生成式AI提供參考。天津市人工智能學(xué)會(huì)、至頂科技、至頂智庫(kù)第七屆世界智能大會(huì),中國(guó)天津,2023年5月專家寄語(yǔ)
3?2023.5ZD
I胡清華天津市人工智能學(xué)會(huì)理事長(zhǎng)天津大學(xué)智能計(jì)算學(xué)部教授人工智能的發(fā)展正在進(jìn)入新的歷史時(shí)期,生成式AI的未來(lái)充滿著無(wú)限的可能性。ChatGPT的問(wèn)世無(wú)疑是近年來(lái)人工智能領(lǐng)域最重要的技術(shù)突破之一。因此,我們必要全面了解人工智能技術(shù)的現(xiàn)狀與趨勢(shì),探討生成式AI的機(jī)遇和挑戰(zhàn),更好地迎接智能時(shí)代的到來(lái)。馮為嘉天津市人工智能學(xué)會(huì)秘書長(zhǎng)天津師范大學(xué)計(jì)算機(jī)與信息工程學(xué)院網(wǎng)絡(luò)工程系系主任楊巨成天津市人工智能學(xué)會(huì)副理事長(zhǎng)天津科技大學(xué)人工智能學(xué)院教授生成式AI作為全新的內(nèi)容生產(chǎn)工具,必將改變?nèi)祟惖纳罘绞?。隨著技術(shù)不斷進(jìn)步和算法不斷優(yōu)化,未來(lái)生成式AI有望在辦公、消費(fèi)、文娛等各場(chǎng)景得到廣泛應(yīng)用,并在不同場(chǎng)景中降低創(chuàng)作者門檻,大幅提升內(nèi)容生產(chǎn)效率。伴隨人工智能大模型的不斷發(fā)展,生成式AI成為一個(gè)備受關(guān)注的前沿領(lǐng)域,將大概率改變?nèi)祟惻c世界的互動(dòng)方式。從程序設(shè)計(jì)到藝術(shù)創(chuàng)作,該技術(shù)正在為各行各業(yè)帶來(lái)可能,有望持續(xù)推動(dòng)社會(huì)的發(fā)展和人類文明的進(jìn)步。王蘊(yùn)韜中國(guó)信通院云計(jì)算與大數(shù)據(jù)研究所副總工作為近兩年人工智能領(lǐng)域的發(fā)展熱點(diǎn),
生成式AI引發(fā)社會(huì)廣泛關(guān)注。未來(lái),AIGC有關(guān)的內(nèi)容生產(chǎn)工具將極大改變?nèi)藗兊墓ぷ魃罘绞剑矊?lái)社會(huì)生產(chǎn)力的全面提升。在新技術(shù)新應(yīng)用快速發(fā)展的同時(shí),也需關(guān)注由此帶來(lái)的就業(yè)、知識(shí)產(chǎn)權(quán)等問(wèn)題,促進(jìn)產(chǎn)業(yè)健康持續(xù)發(fā)展。4報(bào)告目錄1.生成式AI產(chǎn)業(yè)概況篇生成式AI基礎(chǔ)設(shè)施篇生成式AI算法模型篇生成式AI場(chǎng)景應(yīng)用篇生成式AI機(jī)遇挑戰(zhàn)篇5開(kāi)篇:伴隨人類文明進(jìn)步和科技發(fā)展,語(yǔ)言的傳播創(chuàng)造方式日益多元語(yǔ)言作為人類溝通交流的主要方式,其發(fā)展歷程分為三大階段。語(yǔ)言1.0時(shí)代:從人類語(yǔ)言誕生到公元前16世紀(jì)殷商時(shí)期甲骨文的出現(xiàn),文字成為人類交流的重要方式;語(yǔ)言2.0時(shí)代:從公元105年蔡倫發(fā)明造紙術(shù)到1946年世界第一臺(tái)電子計(jì)算機(jī)誕生,語(yǔ)言開(kāi)始通過(guò)各類機(jī)器實(shí)現(xiàn)傳播;語(yǔ)言3.0時(shí)代:伴隨互聯(lián)網(wǎng)出現(xiàn),人工智能NLP及生成式AI等技術(shù)的快速發(fā)展與相關(guān)應(yīng)用落地,使得機(jī)器生成和創(chuàng)造語(yǔ)言的方式成為了可能。語(yǔ)言發(fā)展歷經(jīng)三大時(shí)代,生成式AI成為語(yǔ)言3.0時(shí)代的核心語(yǔ)言1.0時(shí)代語(yǔ)言2.0時(shí)代語(yǔ)言3.0時(shí)代(公元前10萬(wàn)年-公元前16世紀(jì))(公元105年-20世紀(jì)40年代)(20世紀(jì)50年代至今)2017年:Transformer
架構(gòu)提出,
其在簡(jiǎn)單語(yǔ)言問(wèn)答和語(yǔ)言建模任務(wù)上有較好表現(xiàn)。2022年:OpenAI
發(fā)布ChatGPT
,
成為生成式AI的里程碑事件。僅用2個(gè)月時(shí)間月活用戶已突破1億,成為史上增長(zhǎng)最快消費(fèi)者應(yīng)用。?2023.5
ZD
Insights 公元前10萬(wàn)年:人類原始語(yǔ)言誕生,正式語(yǔ)言約產(chǎn)生于公元前4萬(wàn)年。新石器時(shí)代中期以后:中國(guó)出現(xiàn)象形文字。公元前2900年:古埃及人開(kāi)始使用象形文字進(jìn)行書寫。公元前16世紀(jì):殷商時(shí)期中國(guó)人創(chuàng)造甲骨文。公元105年:漢朝蔡倫發(fā)明造紙術(shù)。公元
1041-1048
年間:畢昇發(fā)明活字印刷術(shù),為現(xiàn)代印刷術(shù)和印刷機(jī)的發(fā)展奠定基本原理。1837年:美國(guó)人摩爾斯和兩個(gè)英國(guó)工程師庫(kù)克、懷斯頓同時(shí)發(fā)明電報(bào)。1876年:貝爾發(fā)明第一部電話。1946年:第一臺(tái)電子計(jì)算機(jī)在美國(guó)誕生。公元前3200-2600年:楔形文字經(jīng)歷誕生到持續(xù)使用。1950年:艾倫·圖靈提出圖靈測(cè)試,標(biāo)志著人工智能領(lǐng)域的開(kāi)端。2010年:IBM宣布開(kāi)發(fā)名為
Watson系統(tǒng),該系統(tǒng)能夠理解自然語(yǔ)言中的問(wèn)題,然后使用人工智能根據(jù)維基百科提供的信息給出答案。2001年:第一個(gè)神經(jīng)語(yǔ)言模型,前饋神經(jīng)網(wǎng)絡(luò)由Bengio等人提出。1969年:互聯(lián)網(wǎng)出現(xiàn),隨著互聯(lián)網(wǎng)商業(yè)化和全球普及,為更大規(guī)模語(yǔ)言語(yǔ)料數(shù)據(jù)獲取及傳輸提供網(wǎng)絡(luò)支撐。
資料來(lái)源:至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。62023年全球生成式AI產(chǎn)業(yè)研究報(bào)告1.生成式AI產(chǎn)業(yè)概況篇71.1
生成式AI概念及內(nèi)容生成階段生成式人工智能(Generative
AI)是在專業(yè)生成內(nèi)容(PGC)、用戶生成內(nèi)容(UGC)之后,利用人工智能技術(shù)自動(dòng)生成內(nèi)容的新型生產(chǎn)方式。生成式AI基于海量訓(xùn)練數(shù)據(jù)和大規(guī)模預(yù)訓(xùn)練模型,自動(dòng)生成創(chuàng)建文本、音頻、圖像、視頻以及跨模態(tài)信息。自2022年OpenAI發(fā)布ChatGPT以來(lái),全球爆發(fā)生成式AI熱潮,諸多科技類企業(yè)紛紛推出生成式AI模型、產(chǎn)品和相關(guān)底層基礎(chǔ)設(shè)施及服務(wù)。內(nèi)容生成分為PGC、UGC及AIGC三大階段PGC:專家創(chuàng)作時(shí)代 UGC:用戶創(chuàng)作時(shí)代 AIGC:生成式人工智能時(shí)代(20世紀(jì)90年代) (21世紀(jì)初) (21世紀(jì)—未來(lái))20世紀(jì)90年代,基于“信息經(jīng)濟(jì)”的商業(yè)模式出現(xiàn),互聯(lián)網(wǎng)技術(shù)提供商提供技術(shù)服務(wù),且從生產(chǎn)與組織內(nèi)容的曝光中獲得收益。門戶網(wǎng)站、搜索引擎成為最主要產(chǎn)品。21世紀(jì)初,伴隨微信、微博、抖音、快手等眾多社交媒體的出現(xiàn),用戶也可以真正參與到內(nèi)容的創(chuàng)作之中,用戶利用圖文、短視頻等多種方式記錄生活點(diǎn)滴,同時(shí)也會(huì)增加人與人之間的交流與互動(dòng)。2017
年,
Transformer架構(gòu)提出,其在簡(jiǎn)單語(yǔ)言問(wèn)答和語(yǔ)言建模任務(wù)上有較好表現(xiàn)。2022年8月,美國(guó)科羅拉多州博覽會(huì),
數(shù)字藝術(shù)類冠軍頒發(fā)給由AI自動(dòng)生成的畫作《太空歌劇院》。2022
年
11
月
,
OpenAI
發(fā)布ChatGPT,成為生成式AI的里程碑
事
件
。
2023
年
1
月,ChatGPT月活用戶已突破1億,成為史上增長(zhǎng)最快的消費(fèi)者應(yīng)用。2023
年3
月,
百度正式發(fā)布“文心一言”,推動(dòng)國(guó)內(nèi)生成式AI產(chǎn)品快速發(fā)展與落地。2023年3月,NVIDIA
在GTC23
發(fā)布AI
Foundations
,用于定制大語(yǔ)言模型和生成式AI。2023年3月,微軟發(fā)
布“Microsoft365Copilot”,將生成式AI與辦公軟件緊密結(jié)合,成為新的生產(chǎn)力工具。?2023.5ZD
I
資料來(lái)源:至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。8近年全球數(shù)據(jù)規(guī)模持續(xù)增長(zhǎng),IDC預(yù)計(jì)到2025年全球數(shù)據(jù)規(guī)模將達(dá)到175ZB,為人工智能模型訓(xùn)練提供海量數(shù)據(jù)資源;高性能AI芯片的推出為大規(guī)模預(yù)訓(xùn)練模型提供重要算力支撐;伴隨技術(shù)的不斷發(fā)展,Transformer、BERT、LaMDA、ChatGPT等模型實(shí)現(xiàn)快速迭代優(yōu)化。在數(shù)據(jù)、算力和模型的共同推動(dòng)下,全球生成式AI產(chǎn)業(yè)得以迅速發(fā)展,相關(guān)場(chǎng)景應(yīng)用也不斷豐富。1.2
生成式AI產(chǎn)業(yè)發(fā)展驅(qū)動(dòng)力3341516517527242427238026 131101342018 2019 2020 2021 2022 2023E2024E
2025E全球數(shù)據(jù)量(ZB)算力呈現(xiàn)指數(shù)級(jí)上升同比增速數(shù)據(jù)來(lái)源:IDC,至頂智庫(kù)信息來(lái)源:Compute
Trends
Across
Three
Eras
of
MachineLearning,至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制全球數(shù)據(jù)規(guī)模持續(xù)增長(zhǎng) 2017年以來(lái)AI模型發(fā)展歷程30Google
提出Transformer
架構(gòu),
其在簡(jiǎn)單語(yǔ)言問(wèn)答和語(yǔ)言建模任務(wù)上有較好表現(xiàn)。Google基于Transformer架構(gòu)推出大規(guī)模預(yù)訓(xùn)練模型BERT,其包含預(yù)訓(xùn)練和模型微調(diào)部分,查詢準(zhǔn)確率進(jìn)一步提升。Google提出LaMDA模型,作為語(yǔ)言處理領(lǐng)域一項(xiàng)新的研究突破。LaMDA是一個(gè)面向?qū)υ挼纳窠?jīng)網(wǎng)絡(luò)架構(gòu),可以就無(wú)休止的主題進(jìn)行自由對(duì)話,克服了傳統(tǒng)聊天機(jī)器人的局限性。OpenAI推出ChatGPT,通過(guò)理解和學(xué)習(xí)人類的語(yǔ)言來(lái)進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來(lái)聊天交流。OpenAI推出DALL·E
2,不僅能通過(guò)文字描述創(chuàng)建特定風(fēng)格的圖像與藝術(shù),還可以根據(jù)語(yǔ)言對(duì)現(xiàn)有的圖像進(jìn)行編輯,使之更加逼真。OpenAI推出GPT-4,其具備圖像理解多模態(tài)能力。Google推出PaLM-E,作為一種多模態(tài)VLM(視覺(jué)語(yǔ)言模型),不僅可以理解圖像,還能理解、生成語(yǔ)言,執(zhí)行各種復(fù)雜的機(jī)器人指令。資料來(lái)源:至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。20172021201820222023?2023.5ZD
I1.3
生成式AI產(chǎn)業(yè)圖譜在中國(guó)互聯(lián)網(wǎng)協(xié)會(huì)、中國(guó)軟件行業(yè)協(xié)會(huì)指導(dǎo)下,天津市人工智能學(xué)會(huì)、至頂科技、至頂智庫(kù)聯(lián)合發(fā)布2023年全球生成式AI產(chǎn)業(yè)圖譜。圖譜主要分為基礎(chǔ)設(shè)施層(AI芯片、AI計(jì)算集群、AI云服務(wù));算法模型層(生成式AI大模型);場(chǎng)景應(yīng)用層(文本生成、圖像生成、音頻生成、視頻生成、數(shù)字人)。圖譜中涉及各領(lǐng)域全球代表性企業(yè)和相關(guān)機(jī)構(gòu),同時(shí)將其代表性產(chǎn)品或解決方案作相應(yīng)展示,為讀者提供更為詳實(shí)的參考信息。高清大圖請(qǐng)掃描下方二維碼獲取。
9?2023.5ZD
I1.4
生成式AI商業(yè)模式按產(chǎn)出內(nèi)容收費(fèi)按產(chǎn)出內(nèi)容量收費(fèi)如圖片張數(shù)、請(qǐng)求計(jì)算量等,適用于應(yīng)用層變現(xiàn),會(huì)受到具體屬性影響。模型訓(xùn)練收費(fèi)包括模型定制開(kāi)發(fā),適用于NPC訓(xùn)練等個(gè)性化定制需求較強(qiáng)的領(lǐng)域。具體屬性收費(fèi)例如版權(quán)授予、是否支持商業(yè)用途(個(gè)人、企業(yè)、品牌使用等)、透明框架和分辨率等。作為底層平臺(tái)收費(fèi)作為底層平臺(tái)接入其他產(chǎn)品對(duì)外開(kāi)放,按照數(shù)據(jù)請(qǐng)求量和實(shí)際算量計(jì)算。目前,生成式AI尚未建立成熟的變現(xiàn)方式,大部分產(chǎn)品仍處于免費(fèi)試用“流量吸引+平臺(tái)改良”階段。從全球情況來(lái)看,生成式AI的主流營(yíng)收模式有如下幾類:作為底層平臺(tái)收費(fèi)、按產(chǎn)出內(nèi)容收費(fèi)、軟件訂閱服務(wù)收費(fèi)、模型訓(xùn)練收費(fèi)、具體屬性收費(fèi)。其中最具長(zhǎng)期增長(zhǎng)潛力,并將占據(jù)主要市場(chǎng)規(guī)模的模式為:作為底層平臺(tái)收費(fèi)。軟件訂閱服務(wù)收費(fèi)向用戶提供軟件使用權(quán),用戶需要按月或其他頻次支付費(fèi)用。資料來(lái)源:至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。10?2023.5ZD
Insights1.5
生成式AI典型投資情況Sequoia
Capital紅杉資本OpenAIcopy.aiInVideo美國(guó)ChatGPT、GPT-4、DALL·E
2等文本生成視頻生成Insight
PartnersJasper.ai美國(guó)文本生成Coatue
ManagementStability
AI英國(guó)圖像生成視頻生成軟銀中國(guó)資本創(chuàng)新奇智中國(guó)奇智孔明AInnoGC工業(yè)預(yù)訓(xùn)練大模型創(chuàng)新工場(chǎng)瀾舟科技追一科技中國(guó)孟子大模型;AIGC(智能創(chuàng)作)平臺(tái)“博文”大模型高瓴投資小冰公司毫末智行中國(guó)數(shù)字人自動(dòng)駕駛生成式大模型DriveGPT雪湖·海若啟明創(chuàng)投智譜AI中國(guó)ChatGLM-6B模型2019年以來(lái)全球主要投資機(jī)構(gòu)在生成式AI領(lǐng)域的相關(guān)投資投資機(jī)構(gòu)被投企業(yè)被投企業(yè)所在地被投企業(yè)所屬細(xì)分領(lǐng)域2019年以來(lái),全球知名投資機(jī)構(gòu)如Sequoia
Capital紅杉資本、Insight
Partners、Coatue
Management、創(chuàng)新工場(chǎng)、高瓴投資、啟明創(chuàng)投等在生成式AI領(lǐng)域皆有所布局。從相關(guān)被投企業(yè)來(lái)看,美英生成式AI企業(yè)側(cè)重在場(chǎng)景應(yīng)用領(lǐng)域,中國(guó)生成式AI企業(yè)側(cè)重在大模型領(lǐng)域,被投企業(yè)如OpenAI、Stability
AI、Jasper.ai、小冰公司、智譜AI、瀾舟科技、毫末智行等。資料來(lái)源:IT桔子,至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。11?2023.5ZD
Insights122023年全球生成式AI產(chǎn)業(yè)研究報(bào)告2.生成式AI基礎(chǔ)設(shè)施篇2.1
AI高性能芯片為生成式AI訓(xùn)練提供算力支撐對(duì)于AI超大模型訓(xùn)練,英偉達(dá)A100
80GB為每個(gè)節(jié)點(diǎn)提供高達(dá)1.3TB統(tǒng)一顯存,吞吐量比A100
40GB多高達(dá)3倍。微軟斥資數(shù)億美元購(gòu)買數(shù)萬(wàn)顆英偉達(dá)A100芯片,以幫助Open
AI打造ChatGPT。結(jié)合OpenAI訓(xùn)練集群情況,GPT-3模型需要英偉達(dá)A100
GPU數(shù)量約3000-5000張,算力需求巨大。A100TensorCore
GPU1X3X01X2X3XA100
40GB A100
80GB人工智能的發(fā)展從深度學(xué)習(xí)時(shí)代進(jìn)入到大模型時(shí)代,大規(guī)模預(yù)訓(xùn)練模型的參數(shù)量呈現(xiàn)指數(shù)級(jí)上升,需要高性能算力的支撐。目前,大規(guī)模預(yù)訓(xùn)練模型訓(xùn)練算力是以往的10到100倍,當(dāng)前主流生成式AI模型的訓(xùn)練廣泛使用到英偉達(dá)Tensor
Core
GPU芯片,如微軟斥資數(shù)億美元購(gòu)買數(shù)萬(wàn)顆英偉達(dá)A100芯片以幫助Open
AI打造ChatGPT。用于訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)的算力近年呈現(xiàn)指數(shù)級(jí)上升信息來(lái)源:Compute
Trends
Across
Three
Eras
of
Machine
Learning,NVIDIA,至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。
131.E+241.E+231.E+221.E+211.E+191.E+181.E+171.E+161.E+151.E+141.E+131.E+121.E+111.E+101.E+091.E+081.E+071.E+061.E+051.E+041.E+031.E+021.E+011.E+00195219541956195819601962196419661968197019721974197619781980198219841986198819901992199419961998200020022004200620082010201220142016201820202022訓(xùn)練算1.E+20
力用于AI訓(xùn)練的算力增長(zhǎng)符合摩爾定律,大約每20個(gè)月翻一番。大模型出現(xiàn),訓(xùn)練算力是原來(lái)的10到100倍。深度學(xué)習(xí)的出現(xiàn)加速性能擴(kuò)展,用于AI訓(xùn)練的算力大約每6個(gè)月翻一番。2022 DALL·E
22021 LaMDA20202019201820142017GPT-3GPT-2GPT-1TransformerGAN2013 VAE年份(FLOPs)?2023.5ZD
I深度學(xué)習(xí)時(shí)代大模型時(shí)代2.2
AI計(jì)算集群為生成式AI訓(xùn)練提供大規(guī)模算力資源DGX
SuperPOD采用模塊化設(shè)計(jì),支持不同規(guī)模大小的設(shè)計(jì)。一個(gè)標(biāo)準(zhǔn)SuperPOD由140臺(tái)DGX
A100
GPU
服務(wù)器、HDR
InfiniBand
200G網(wǎng)卡和NVIDIA
Quantum
QM8790交換機(jī)構(gòu)建而成,針對(duì)超大語(yǔ)言模型預(yù)訓(xùn)練這一復(fù)雜場(chǎng)景,幫助AI研究人員快速搭建一套強(qiáng)大、靈活、高效的系統(tǒng)。AI計(jì)算集群能夠提供大規(guī)模算力、持續(xù)提高算力資源利用率、提升數(shù)據(jù)存儲(chǔ)和處理能力,加速AI大模型訓(xùn)練和推理效率。當(dāng)前較為典型的AI計(jì)算集群如英偉達(dá)DGX
SuperPOD、百度智能云高性能計(jì)算集群EHC、騰訊新一代高性能計(jì)算集群HCC等,相關(guān)算力基礎(chǔ)設(shè)施持續(xù)為生成式AI訓(xùn)練場(chǎng)景提供強(qiáng)大算力資源,進(jìn)一步降低模型訓(xùn)練門檻和成本,推動(dòng)生成式AI模型的落地進(jìn)程。DGX
SuperPOD 高性能計(jì)算集群EHC 新一代高性能計(jì)算集群HCC高性能計(jì)算集群EHC基于高性能RDMA網(wǎng)絡(luò),將多個(gè)裸金屬服務(wù)器進(jìn)行互聯(lián),提供高帶寬、低時(shí)延的通信能力,極大提升計(jì)算任務(wù)加速比的計(jì)算集群,適用于超大模型訓(xùn)練、科學(xué)計(jì)算等大規(guī)模計(jì)算場(chǎng)景。分布式AI訓(xùn)練場(chǎng)景主要包括生成式AI大模型、自動(dòng)駕駛、NLP、推薦系統(tǒng)等,通過(guò)人工智能技術(shù)解決各類問(wèn)題,具有數(shù)據(jù)量大、計(jì)算量密集等特點(diǎn)。HCCPNV5采用星星海自研服務(wù)器,
搭載NVIDIA
H800
Tensor
Core
GPU
,
提供3.2TbpsRDMA網(wǎng)絡(luò),集群性能較前代提升高達(dá)3倍。信息來(lái)源:NVIDIA,百度智能云、騰訊官方資料,至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。14用戶云服務(wù)器對(duì)象存儲(chǔ)云服務(wù)器組CVM云監(jiān)控文件存儲(chǔ)云硬盤高性能云服務(wù)器計(jì)算集群CVM CVM專有RDMAVPC?2023.5ZD
I2.3
AI云服務(wù)為生成式AI模型開(kāi)發(fā)提供平臺(tái)支撐訪問(wèn)數(shù)據(jù)準(zhǔn)備數(shù)據(jù)連接眾多數(shù)據(jù)源,如AmazonS3
、ApacheSpark
、Amazon
Redshift、CSV文件等。創(chuàng)建端到端的機(jī)器學(xué)習(xí)工作流以提高模型質(zhì)量。構(gòu)建機(jī)器學(xué)習(xí)模型對(duì)于150+流行的開(kāi)源模型和框架進(jìn)行優(yōu)化,如TensorFlow等。傳輸數(shù)據(jù),探索元數(shù)據(jù)、模式并使用流行語(yǔ)言編寫查詢。訓(xùn)練調(diào)整機(jī)器學(xué)習(xí)模型 部署監(jiān)控結(jié)果跟蹤ML模型瀏覽活躍的實(shí)驗(yàn)搜索以前的實(shí)驗(yàn)比較所有結(jié)果捕獲調(diào)試指標(biāo)圖片數(shù)據(jù)文本數(shù)據(jù)視頻數(shù)據(jù)音頻數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)擴(kuò)充數(shù)據(jù)標(biāo)注預(yù)置百度超大規(guī)模預(yù)訓(xùn)練模型信息來(lái)源:AWS,飛槳(PaddlePaddle)官網(wǎng),至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。15?2023.5ZD
Insights文本分類視頻分類物體檢測(cè)語(yǔ)音分類OCR公有云部署本地服務(wù)器部署本地設(shè)備端部署軟硬一體部署安全生產(chǎn)智能制造智能硬件互動(dòng)營(yíng)銷快消巡檢人工智能預(yù)訓(xùn)練模型的開(kāi)發(fā)對(duì)于云服務(wù)有較大需求,AI云服務(wù)可以提供人工智能開(kāi)發(fā)模塊,通過(guò)多元化的服務(wù)模式,降低開(kāi)發(fā)者的開(kāi)發(fā)成本和產(chǎn)品開(kāi)發(fā)周期,為模型開(kāi)發(fā)提供AI賦能。典型案例如亞馬遜SageMaker,其可提供圖片/圖像分析、語(yǔ)音處理、自然語(yǔ)言理解等相關(guān)服務(wù),使用者無(wú)需了解參數(shù)和算法即可實(shí)現(xiàn)功能的應(yīng)用。百度飛槳EasyDL零門檻AI開(kāi)發(fā)平臺(tái)提供圖像分類、物體檢測(cè)、文本分類、聲音分類和視頻分類等功能,實(shí)現(xiàn)一站式自動(dòng)化訓(xùn)練,降低AI定制開(kāi)發(fā)門檻。亞馬遜SageMaker機(jī)器學(xué)習(xí)流程 飛槳EasyDL零門檻AI開(kāi)發(fā)平臺(tái)數(shù)據(jù)管理 模型構(gòu)建 模型部署與應(yīng)用圖像分類162023年全球生成式AI產(chǎn)業(yè)研究報(bào)告3.生成式AI算法模型篇混元AI大模型3.1
全球生成式AI模型發(fā)展歷程TransformerGPT-1BERTGPT-2ERNIE
1.0ERNIE
2.0GPT-3LaMDAERNIE
3.0ERNIE
3.0TitanChatGPTDALL·E
2ERNIE3.0
ZeusERNIE-ViLG
2.0PaLM-EGPT-42018年2019年2017年2020年2021年2022年2023年文心一言日日新SenseNova大模型體系LLaMA悟道2.0紫東太初MOSS備注:本頁(yè)僅列舉典型生成式AI模型。
信息來(lái)源:至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。
17?2023.5ZD
I
183.2
語(yǔ)言類生成主流模型:OpenAI
GPT-1到GPT-42018年以來(lái),OpenAI先后發(fā)布GPT-1、GPT-2、GPT-3、ChatGPT、GPT-4等一系列生成式預(yù)訓(xùn)練模型。GPT-1模型基于Transformer架構(gòu),僅保留架構(gòu)中解碼器部分;GPT-2模型取消GPT-1中的有監(jiān)督微調(diào)階段;GPT-3模型舍棄GPT-2的zero-shot,采用few-shot對(duì)于特定任務(wù)給予少量樣例;ChatGPT通過(guò)采用RLHF(人類反饋強(qiáng)化學(xué)習(xí))技術(shù),增強(qiáng)對(duì)模型輸出結(jié)果的調(diào)節(jié)能力;2023年發(fā)布的GPT-4模型擁有更為強(qiáng)大的多模態(tài)能力,其支持圖文多模態(tài)輸入并生成應(yīng)答文字,可實(shí)現(xiàn)對(duì)視覺(jué)元素的分類、分析和隱含語(yǔ)義提取,表現(xiàn)出優(yōu)秀的應(yīng)答能力。信息來(lái)源:至頂智庫(kù)結(jié)合文獻(xiàn)及公開(kāi)資料整理繪制。GPT-12018年2018年
2019年GPT-1 GPT-22020年GPT-3ChatGPT2022年2023年GPT-4采用RLHF(人類反饋強(qiáng)化學(xué)習(xí))技術(shù)對(duì)ChatGPT進(jìn)行訓(xùn)GPT-4作為多模態(tài)模型,支持圖文信息作為練,加入更多人工監(jiān)督進(jìn)行微調(diào)。ChatGPT模型訓(xùn)練分輸入并生成說(shuō)明、分類和分析,在視覺(jué)及視為三個(gè)步驟:1)收集描述性數(shù)據(jù),訓(xùn)練監(jiān)督學(xué)習(xí)模型;覺(jué)-文字語(yǔ)義融合方面涌現(xiàn)更多能力。其在2)收集比較型數(shù)據(jù),訓(xùn)練獎(jiǎng)勵(lì)模型;3)用PRO強(qiáng)化學(xué)多個(gè)基準(zhǔn)任務(wù)上取得優(yōu)異成績(jī),包括圖像字習(xí)算法對(duì)獎(jiǎng)勵(lì)模型優(yōu)化策略。幕、圖文問(wèn)答、代碼生成和法律推理等。?2023.5ZD
IGPT-2模型在架構(gòu)上與GPT-1基本相同,但取消GPT-1模型中有監(jiān)督微調(diào)階段,
將歸一化層移到輸入位置,
在自注意力之后增加一層歸一化
。
此外
,GPT-2增加prompt文本提示,
采用更大的參數(shù)和多任務(wù)學(xué)習(xí)進(jìn)行預(yù)訓(xùn)練,
并使用更大的訓(xùn)練集嘗試zero-shot學(xué)習(xí)。提高模型面對(duì)未知任務(wù)的推理能力和泛化能力。,GPT-1模型訓(xùn)練包含“預(yù)訓(xùn)練+微調(diào)”
兩個(gè)階段:1)利用大量無(wú)標(biāo)注的語(yǔ)料預(yù)訓(xùn)練語(yǔ)言模型;2)對(duì)預(yù)訓(xùn)練好的語(yǔ)言模型進(jìn)行微調(diào)將其遷移到各種有監(jiān)督的NLP任務(wù)。GPT-1通過(guò)無(wú)監(jiān)督訓(xùn)練解決需要大量高質(zhì)量標(biāo)注數(shù)據(jù)和通過(guò)大量語(yǔ)料訓(xùn)練解決訓(xùn)練任務(wù)的泛化問(wèn)題。3.3
語(yǔ)言類生成主流模型:Google
Transformer到PaLM-E2017年,Google發(fā)布具有標(biāo)志性意義的Transformer模型,該模型的解碼模塊成為GPT模型的核心要素,通過(guò)引入注意力機(jī)制,可實(shí)現(xiàn)更大規(guī)模的并行計(jì)算,明顯減少模型的訓(xùn)練時(shí)間,使得大規(guī)模AI模型得以應(yīng)用。BERT模型、LaMDA模型在信息提取能力以及安全性等方面不斷提升。最新推出的PaLM-E模型具有很強(qiáng)的泛化和遷移能力,在完成視覺(jué)語(yǔ)言和通用語(yǔ)言任務(wù)的同時(shí),可處理多模態(tài)數(shù)據(jù)(語(yǔ)言、視覺(jué)、觸覺(jué)等),實(shí)現(xiàn)指導(dǎo)機(jī)器人完成相應(yīng)任務(wù)的功能。TransformerTransformer模型最早在2017年由Google
提出,
特點(diǎn)是引入注意力機(jī)制,可實(shí)現(xiàn)更大規(guī)模的并行計(jì)算,明顯減少模型的訓(xùn)練時(shí)間,使得大規(guī)模AI模型得以應(yīng)用。BERTBERT模型是一個(gè)面向自然語(yǔ)言處理任務(wù)的無(wú)監(jiān)督預(yù)訓(xùn)練語(yǔ)言模型,通過(guò)大量無(wú)標(biāo)記數(shù)據(jù)集中訓(xùn)練,顯著提高各項(xiàng)自然語(yǔ)言處理任務(wù)的準(zhǔn)確率。在對(duì)輸入文本的編碼過(guò)程中,利用每個(gè)詞的所有上下文信息,語(yǔ)義信息提取能力增強(qiáng)。LaMDALaMDA模型使用多達(dá)137B個(gè)參數(shù)以及用1.56T單詞數(shù)據(jù)集進(jìn)行訓(xùn)練,LaMDA使用單一模型實(shí)現(xiàn)多任務(wù)處理,展示接近人類水平的對(duì)話質(zhì)量,在安全性和事實(shí)基礎(chǔ)方面具有顯著改進(jìn)。PaLM-E2023
年,
推出PaLM-E模型,通過(guò)將多模態(tài)信息編碼轉(zhuǎn)換為語(yǔ)言相似的形式嵌入模型,實(shí)現(xiàn)多模態(tài)聯(lián)合訓(xùn)練。PaLM-E具有很強(qiáng)的泛化和遷移能力,能完成機(jī)器人具身推理任務(wù)。信息來(lái)源:至頂智庫(kù)結(jié)合文獻(xiàn)及公開(kāi)資料整理繪制。19?2023.5ZD
Insights3.4圖像類生成主流模型:Diffusion
ModelDiffusion
Model相關(guān)研究可追溯到2015年,去噪擴(kuò)散概率模型(Denoising
Diffusion
Probabilistic
Model,
DDPM)在2020年被提出,展示擴(kuò)散模型的強(qiáng)大能力,帶動(dòng)擴(kuò)散模型的發(fā)展。模型主要包括兩個(gè)過(guò)程:前向過(guò)程和反向過(guò)程,其中前向過(guò)程又稱為擴(kuò)散過(guò)程,擴(kuò)散模型通過(guò)給圖像增加高斯噪聲破壞訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí),找出逆轉(zhuǎn)噪聲過(guò)程的方法,利用學(xué)習(xí)的去噪聲方法實(shí)現(xiàn)從隨機(jī)輸入中合成新的圖像。Diffusion模型的優(yōu)勢(shì)在于生成的圖像質(zhì)量更高,不需要通過(guò)對(duì)抗性訓(xùn)練,在所需數(shù)據(jù)更少條件下,該模型圖像生成效果有明顯提升。擴(kuò)散模型原理圖去噪擴(kuò)散概率模型(DDPM,
Denoising
Diffusion
Probabilistic
Model)原理:一個(gè)固定的(預(yù)先定義好的)前向擴(kuò)散過(guò)程:逐步向圖片增加噪聲直到最終得到一張純粹的噪聲圖;一個(gè)學(xué)習(xí)得到的去噪過(guò)程:訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)去逐漸的從一張純?cè)肼曋邢肼?,直到得到一張真正的圖片。潛擴(kuò)散模型(LDM,
Latent
DiffusionModel)原理:模型在潛在空間中進(jìn)行擴(kuò)散處理,降低訓(xùn)練成本并提高推理速度;通過(guò)自動(dòng)編碼器去除像素級(jí)冗余,對(duì)感知壓縮和語(yǔ)義壓縮進(jìn)行松散分解,然后對(duì)學(xué)習(xí)的潛在知識(shí)進(jìn)行擴(kuò)散來(lái)生成語(yǔ)義概念。通過(guò)使用自動(dòng)編碼模型,學(xué)習(xí)空間在感知上與圖像空間等效,顯著降低計(jì)算復(fù)雜度。信息來(lái)源:至頂智庫(kù)結(jié)合文獻(xiàn)及公開(kāi)資料整理繪制。20?2023.5ZD
Insights212023年全球生成式AI產(chǎn)業(yè)研究報(bào)告4.生成式AI場(chǎng)景應(yīng)用篇典型應(yīng)用:內(nèi)容續(xù)寫摘要/標(biāo)題生成文本風(fēng)格遷移整段文本生成代表企業(yè):4.1
全球生成式AI典型應(yīng)用概覽信息來(lái)源:至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。22典型應(yīng)用:圖像屬性編輯圖像局部生成及更改端到端的圖像生成代表企業(yè):典型應(yīng)用:語(yǔ)音合成音樂(lè)創(chuàng)作代表企業(yè):典型應(yīng)用:視頻屬性編輯視頻自動(dòng)剪輯視頻部分生成代表企業(yè):典型應(yīng)用:數(shù)字人視頻生成數(shù)字人實(shí)時(shí)互動(dòng)代表企業(yè):圖像生成文本生成音頻生成數(shù)字人視頻生成?2023.5ZD
I通過(guò)詞嵌入將字、詞、句進(jìn)行區(qū)分;然后基于特征評(píng)分、序列標(biāo)注等提取內(nèi)容特征計(jì)算相關(guān)文本單元權(quán)重;再選擇相應(yīng)的文本單元子集組成摘要候選集,完成內(nèi)容選擇;最后針對(duì)字?jǐn)?shù)要求等限定條件進(jìn)行整理形成最終摘要。4.2
生成式AI場(chǎng)景應(yīng)用—文本生成文本生成應(yīng)用主要在四個(gè)領(lǐng)域:內(nèi)容續(xù)寫、文本風(fēng)格遷移、摘要/標(biāo)題生成及整段文本生成,與其相關(guān)的個(gè)性化文本生成及實(shí)時(shí)文本交互前景廣闊??傮w來(lái)看,基于NLP技術(shù)的文本生成是生成式AI中發(fā)展較早的應(yīng)用,全球知名科技企業(yè)先后推出文本生成類應(yīng)用工具,如Microsoft、Xmind等相關(guān)產(chǎn)品在文案寫作、數(shù)據(jù)分析、演示文稿、思維導(dǎo)圖等方面均有相關(guān)應(yīng)用案例。隱式方法通過(guò)使用某類無(wú)監(jiān)督學(xué)習(xí)或強(qiáng)化學(xué)習(xí)模式將文本屬性及內(nèi)容自動(dòng)分離,常見(jiàn)的有生成對(duì)抗方式。顯式方法首先尋找并刪除代表文風(fēng)的短語(yǔ),其次檢索與目標(biāo)文風(fēng)最匹配的相似短語(yǔ),最后生成目標(biāo)語(yǔ)句并保證語(yǔ)句通順、原意不變。通過(guò)注意力機(jī)制、多層感知器等系統(tǒng)進(jìn)行語(yǔ)句內(nèi)容預(yù)選,對(duì)數(shù)值、時(shí)間等類型數(shù)據(jù)進(jìn)行推理,增強(qiáng)數(shù)據(jù)間的結(jié)構(gòu)信息;再結(jié)合上下文進(jìn)行推導(dǎo),控制句法及文本連貫,將語(yǔ)義與句法統(tǒng)一分析;最后采用Seq2Seq等模式,構(gòu)建文本生成器,生成最終文本。文本生成摘要/標(biāo)題生成整段文本生成內(nèi)容續(xù)寫文本風(fēng)格遷移Microsoft365CopilotCopilot
in
Word
與用戶一起寫作、編輯、總結(jié)和創(chuàng)作。CopilotinPowerPoint
能夠在創(chuàng)作過(guò)程中,通過(guò)自然語(yǔ)言命令將想法轉(zhuǎn)化為設(shè)計(jì)好的演示文稿。Copilot
in
Excel幫助用戶釋放洞察、識(shí)別趨勢(shì),或在短時(shí)間內(nèi)創(chuàng)建專業(yè)的數(shù)據(jù)可視化。Xmind
CopilotGhostwriter為思維導(dǎo)圖的每個(gè)主題生成文字段落,“標(biāo)記成組”功能將多個(gè)主題的內(nèi)容合并成完整的段落,靈活控制文章內(nèi)容生成。資料來(lái)源:Microsoft、Xmind官方網(wǎng)站及公眾號(hào),至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。
23通過(guò)隨機(jī)Mask數(shù)據(jù)庫(kù)文本中的語(yǔ)段,讓神經(jīng)網(wǎng)絡(luò)自主學(xué)習(xí)復(fù)原被遮擋部分,產(chǎn)出預(yù)訓(xùn)練模型,再通過(guò)大規(guī)模預(yù)訓(xùn)練模型理解上文或給定條件,從概率層面推測(cè)最符合要求的輸出結(jié)果。?2023.5ZD
I4.3
生成式AI場(chǎng)景應(yīng)用—圖像生成圖像生成的技術(shù)場(chǎng)景劃分為圖像屬性編輯、圖像局部生成及更改、端到端的圖像生成。其中,前兩者落地場(chǎng)景為圖像編輯工具,端到端的圖像生成則對(duì)應(yīng)創(chuàng)意圖像生成及功能性圖像生成兩大落地場(chǎng)景。目前,圖像編輯工具的使用已較為廣泛,相關(guān)產(chǎn)品較為豐富;創(chuàng)意圖像生成大多以NFT等形式呈現(xiàn),功能性圖像大多以營(yíng)銷類海報(bào)/界面、LOGO、模特圖、用戶頭像為主。圖像編輯工具 創(chuàng)意圖像生成、功能性圖像生成圖像局部生成及更改端到端的圖像生成可直觀理解為經(jīng)AI降低門檻的photoshop,可方便達(dá)到圖片去水印、自動(dòng)調(diào)整光影等目的。更改圖像部分構(gòu)成、修改面部特征等?;诓輬D生成完整圖像、有機(jī)組合多張圖像生成新圖像、根據(jù)指定屬性生成目標(biāo)圖像等。Firefly具備豐富的圖像編輯制作功能,可實(shí)現(xiàn)對(duì)圖像的修復(fù)如添加、替換和刪除等,還可根據(jù)文本描述生成可編輯的矢量或圖像等,或根據(jù)文本提示修改樣式或紋理。Adobe
FireflyDreamStudio具備獨(dú)有的穩(wěn)定擴(kuò)散模型及便捷的編輯器平臺(tái),提供強(qiáng)大的文本生成圖像、圖像生成圖像的功能,便于用戶創(chuàng)建獨(dú)特的設(shè)計(jì)。Stability
AIDreamStudio圖像屬性編輯圖像生成領(lǐng)域的技術(shù)場(chǎng)景圖像生成領(lǐng)域的落地場(chǎng)景資料來(lái)源:
Adobe官方網(wǎng)站及公眾號(hào)、Stability
AI官方網(wǎng)站,至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。24?2023.5ZD
Insights4.4
生成式AI場(chǎng)景應(yīng)用—音頻生成音頻生成在日常生活中已較為常見(jiàn),其應(yīng)用領(lǐng)域可進(jìn)一步區(qū)分為語(yǔ)音合成和音樂(lè)創(chuàng)作,語(yǔ)音合成包括文本生成特定語(yǔ)音(TTS)和語(yǔ)音克隆領(lǐng)域。TTS領(lǐng)域的技術(shù)成熟度較高,但在情感表現(xiàn)上仍有欠缺;語(yǔ)音克隆對(duì)電影、動(dòng)畫等行業(yè)意義重大值得關(guān)注;音樂(lè)創(chuàng)作可進(jìn)一步細(xì)分為作詞、作曲、編曲、錄制、混音等多個(gè)方向,創(chuàng)作過(guò)程主要依托Transformer模型。樂(lè)曲/歌曲生成:AI作曲可理解為“以語(yǔ)言模型為中介,對(duì)音樂(lè)數(shù)據(jù)進(jìn)行雙向轉(zhuǎn)化”。目前已支持基于開(kāi)頭旋律、圖片、文字描述、音樂(lè)類型、情緒類型等生成特定樂(lè)曲。文本生成特定語(yǔ)音(TTS):廣泛應(yīng)用于客服及硬件機(jī)器人、有聲讀物制作、語(yǔ)音播報(bào)等任務(wù);還可應(yīng)用于短視頻內(nèi)容配音及自動(dòng)生成配音。語(yǔ)音克?。罕举|(zhì)上屬于制定目標(biāo)語(yǔ)音的TTS。目前被應(yīng)用于虛擬歌手演唱、自動(dòng)化配音等,在聲音IP化的基礎(chǔ)上,對(duì)動(dòng)畫、電影以及虛擬人行業(yè)具有重要意義。語(yǔ)音合成音樂(lè)創(chuàng)作平臺(tái)支持克隆任何語(yǔ)音,并生成動(dòng)態(tài)、可迭代且獨(dú)特的語(yǔ)音內(nèi)容,方便用戶創(chuàng)建高質(zhì)量的自定義人工智能語(yǔ)音,用于所需項(xiàng)目中。從實(shí)驗(yàn)室邁向AI合成音、AI演播、智能新聞播報(bào)等更多應(yīng)用場(chǎng)景。喜馬拉雅智能語(yǔ)音實(shí)驗(yàn)室利用TTS技術(shù)合成出單田芳的AI合成音。提供在線AI音樂(lè)生成器,可讓用戶在幾秒鐘內(nèi)創(chuàng)建自己的原創(chuàng)音樂(lè),支持用戶將所創(chuàng)音樂(lè)在不同流媒體上公開(kāi)發(fā)布。資料來(lái)源:Resemble
AI、Boomy、喜馬拉雅官方網(wǎng)站,至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。25?2023.5ZD
Insights4.5
生成式AI場(chǎng)景應(yīng)用—視頻生成視頻生成有望成為未來(lái)跨模態(tài)生成領(lǐng)域的中高潛力場(chǎng)景。視頻生成主要對(duì)應(yīng)三個(gè)領(lǐng)域:視頻屬性編輯、視頻自動(dòng)剪輯、視頻部分生成。視頻屬性編輯已廣泛應(yīng)用于視頻創(chuàng)作領(lǐng)域,大幅提升視頻剪輯效率;視頻自動(dòng)剪輯主要在技術(shù)嘗試階段;視頻部分生成的原理本質(zhì)與圖像生成類似,強(qiáng)調(diào)將視頻切割成幀,再對(duì)每一幀的圖像進(jìn)行處理,現(xiàn)階段的技術(shù)在于提升修改精準(zhǔn)度與修改實(shí)時(shí)性兩方面。視頻屬性編輯視頻自動(dòng)剪輯視頻部分生成涉及視頻畫質(zhì)修復(fù)、刪除畫面中特定主體、自動(dòng)跟蹤主題剪輯、生成視頻特效、自動(dòng)添加特定內(nèi)容、視頻自動(dòng)美顏等?;谝曨l中多模態(tài)信息的特征融合進(jìn)行學(xué)習(xí),按照氛圍、情緒等高級(jí)語(yǔ)義限定,對(duì)滿足條件的片段進(jìn)行檢測(cè)并合成。、本質(zhì)是基于目標(biāo)圖像或視頻對(duì)源視頻進(jìn)行編輯及調(diào)試,通過(guò)逐幀復(fù)刻,實(shí)現(xiàn)人臉替換、人臉再現(xiàn)人臉合成甚至全身合成、虛擬環(huán)境合成等功能。影譜科技自主研發(fā)的模型具有豐富的視覺(jué)物料庫(kù)、精準(zhǔn)的特征提取能力等,已實(shí)現(xiàn)與商業(yè)、科教、文娛等領(lǐng)域的融合。影譜科技Imagen
Video能根據(jù)文字描述生成1280*768分辨率、每秒24幀、長(zhǎng)128幀的視頻片段,但其生成的視頻仍有部分扭曲和抖動(dòng)。Imagen
Video剪映具有AI智能字幕、曲線變速、智能摳像、文本閱讀等功能,支持PC端、移動(dòng)端、網(wǎng)頁(yè)版多種環(huán)境使用。剪映資料來(lái)源:
Google、剪映官網(wǎng),影譜科技官方網(wǎng)站及公眾號(hào),至頂智庫(kù)結(jié)合公開(kāi)資料整理繪制。26?2023.5ZD
Insights4.6
生成式AI場(chǎng)景應(yīng)用—數(shù)字人數(shù)字人指存在于非物理世界(如圖片、視頻、直播、VR)中,并具有多重人類特征的綜合。數(shù)字人代表著從文本/音頻等低密度模態(tài)向圖像/視頻/實(shí)時(shí)交互等信息密度更高模態(tài)的轉(zhuǎn)化,未來(lái)視頻乃至元宇宙領(lǐng)域都將是數(shù)字人的重要應(yīng)用場(chǎng)景。在生成式AI領(lǐng)域,數(shù)字人生成可劃分為數(shù)字人視頻生成和數(shù)字人實(shí)時(shí)互動(dòng),數(shù)字人視頻生成是目前應(yīng)用最廣泛的領(lǐng)域之一,而數(shù)字人實(shí)時(shí)互動(dòng)多應(yīng)用于可視化的智能客服,更強(qiáng)調(diào)實(shí)時(shí)交互功能。數(shù)字人視頻生成可理解為以人為單位的數(shù)字孿生,進(jìn)一步涉及思維及策略相關(guān)的生成。廣泛應(yīng)用于可視化的智能客服,多見(jiàn)于APP、銀行大堂等。數(shù)字人實(shí)時(shí)互動(dòng)Hour
One致力于專業(yè)視頻通信數(shù)字人的制作,公司的虛擬角色完全以真人為模型,通過(guò)文本描述能讓數(shù)字人傳達(dá)出人類般的表現(xiàn)力。圖中所示為虛擬新聞演播室和定制創(chuàng)建的虛擬新聞主播。小冰具有數(shù)字專家/員工等完整產(chǎn)品線,支持創(chuàng)建擁有情感交互能力、專業(yè)技能和內(nèi)容生產(chǎn)能力的數(shù)字人,目前已被應(yīng)用于多種場(chǎng)景。圖為小冰公司與招商局集團(tuán)聯(lián)合研發(fā)的數(shù)字員工“招小影”。招商局集團(tuán)數(shù)字員工“招小影”目前數(shù)字人應(yīng)用最廣泛的領(lǐng)域之一,通常在生成數(shù)字人的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 環(huán)境保護(hù)行業(yè)污染物排放治理方案
- 2025年益陽(yáng)c1貨運(yùn)從業(yè)資格證考試題
- 2025年廊坊貨運(yùn)上崗證考試題答案
- 小學(xué)二年級(jí)數(shù)學(xué)下冊(cè)口算題
- 小學(xué)二年級(jí)數(shù)學(xué)上冊(cè)口算練習(xí)試題
- 2025年?yáng)|營(yíng)貨運(yùn)運(yùn)輸駕駛員從業(yè)資格證考試試題
- 2024-2025版高中化學(xué)第4章非金屬及其化合物第3節(jié)第1課時(shí)硫和硫的氧化物練習(xí)含解析新人教版必修1
- 社區(qū)社會(huì)實(shí)踐活動(dòng)總結(jié)
- 初中班主任下學(xué)期工作總結(jié)
- 醫(yī)務(wù)人員工作計(jì)劃
- 道德經(jīng)全文完整版本
- 濰坊市人民醫(yī)院招聘真題
- 銷售人員薪資提成及獎(jiǎng)勵(lì)制度
- 2023年宏觀經(jīng)濟(jì)學(xué)考點(diǎn)難點(diǎn)
- 先兆流產(chǎn)課件-課件
- 黑龍江申論真題2021年(鄉(xiāng)鎮(zhèn))
- 山體排險(xiǎn)合同模板
- 醫(yī)保專(兼)職管理人員的勞動(dòng)合同(2篇)
- 特殊感染手術(shù)的配合與術(shù)后處理課件
- 檢驗(yàn)科生物安全工作總結(jié)
- 《ESPEN重癥病人營(yíng)養(yǎng)指南(2023版)》解讀課件
評(píng)論
0/150
提交評(píng)論