深度解密人工智能內(nèi)容生成的發(fā)展與現(xiàn)狀_第1頁
深度解密人工智能內(nèi)容生成的發(fā)展與現(xiàn)狀_第2頁
深度解密人工智能內(nèi)容生成的發(fā)展與現(xiàn)狀_第3頁
深度解密人工智能內(nèi)容生成的發(fā)展與現(xiàn)狀_第4頁
深度解密人工智能內(nèi)容生成的發(fā)展與現(xiàn)狀_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

工智能內(nèi)容生成的發(fā)展與現(xiàn)狀 去中心化媒體和研究組織DAOrayaki公開資助THUBADAO展開獨(dú)立課題研究,并進(jìn)行公開成果分享。研究主題主要聚焦在Web3、DAO等相關(guān)領(lǐng)Web3.0與區(qū)塊鏈的應(yīng)用則決定生產(chǎn)關(guān)系與用戶主權(quán)。但我們必須認(rèn)識(shí)到AIGC和Web3是兩個(gè)不同的方向。AIGC作為使用AI技術(shù)的生產(chǎn)工具,既可以應(yīng)用于Web2世界,也可以應(yīng)用于Web3世界。到目前為止,大多數(shù)已經(jīng)開發(fā)的項(xiàng)目仍然在Web2領(lǐng)域。把兩者放在一起談話是不合適的。而Web3希望借助區(qū)塊鏈和智能合約技術(shù),讓用戶擁有虛擬資產(chǎn)的主權(quán)。它與創(chuàng)建模式之間本沒有直接聯(lián)系。本文將從以下四個(gè)方面解密AIGC的發(fā)展與現(xiàn)狀進(jìn)行:內(nèi)容創(chuàng)造形式的演變技術(shù)測(cè)概況AIGC的行業(yè)應(yīng)用AIGC與Web3第一部分:內(nèi)容創(chuàng)造形式的演變可以分成三個(gè)階段:第一個(gè)階段是PGC(Professionally-GeneratedContent),專家生成內(nèi)容,由擁有內(nèi)容相關(guān)領(lǐng)域資質(zhì)的專業(yè)團(tuán)隊(duì)進(jìn)行創(chuàng)作,門檻與成本較高,質(zhì)量有一定保障,追求電視劇電影等商業(yè)化渠道的收益,代表項(xiàng)目就是以愛優(yōu)騰為首的視頻平臺(tái)。在這些平臺(tái)上,用戶更多地是去接收和搜索視頻資源來收看,類似于Web1.0的概念。但這一階段創(chuàng)作權(quán)掌握在少數(shù)專業(yè)人士手中,普通創(chuàng)作者的成果很難被大眾看見。在第二階段衍生出了一系列的UGC平臺(tái)(User-generatedContent,用戶生產(chǎn)內(nèi)容),如Twitter,YouTube,國(guó)內(nèi)愛優(yōu)騰等視頻平臺(tái)。在這些平臺(tái)上用戶不僅是接收者,也可以是內(nèi)容的提供方,內(nèi)容生產(chǎn)的規(guī)模極大地?cái)U(kuò)張了,但用戶生產(chǎn)的內(nèi)容質(zhì)量則參差不齊,可以將它看作是Web2.0時(shí)代的內(nèi)容創(chuàng)作。那么Web3.0時(shí)代的內(nèi)容創(chuàng)作生態(tài)是?AIGC和web3的關(guān)聯(lián)在哪里?AIGC(AIgeneratedContent,人工智能生成內(nèi)容),指由人工智能幫助甚至取代人類進(jìn)行內(nèi)容創(chuàng)作,可以作為強(qiáng)大的生產(chǎn)力工具,幫助解決Web3.0和元宇宙中的一些實(shí)際問題。它生產(chǎn)頻率更快,并且可以定制風(fēng)格,滿足每個(gè)人的需求。它擁有無限規(guī)模的內(nèi)容創(chuàng)作靈感,效果也不會(huì)太第二部分:技術(shù)測(cè)概況AIGC技術(shù)的快速發(fā)展始于GAN(生成對(duì)抗網(wǎng)絡(luò),2014)模型的發(fā)表。它由兩個(gè)模型組成:生成模型和判別模型。生成器生成“假”數(shù)據(jù)并試圖欺騙鑒別器;鑒別器驗(yàn)證生成的數(shù)據(jù),并嘗試正確識(shí)別所有“假”數(shù)據(jù)。在訓(xùn)練迭代的過程中,兩個(gè)網(wǎng)絡(luò)對(duì)抗中提升,直到達(dá)到平衡狀態(tài)。AIGC技術(shù)的快速發(fā)展始于GAN(生成對(duì)抗網(wǎng)絡(luò),2014)模型的發(fā)表。它由兩個(gè)模型組成:生成模型和判別模型。生成器生成“假”數(shù)據(jù)并試圖欺騙鑒別器;鑒別器驗(yàn)證生成的數(shù)據(jù),并嘗試正確識(shí)別所有“假”數(shù)據(jù)。在訓(xùn)練迭代的過程中,兩個(gè)網(wǎng)絡(luò)對(duì)抗中提升,直到達(dá)到平衡狀態(tài)。在GAN發(fā)表后的兩三年時(shí)間里,業(yè)內(nèi)對(duì)GAN模型進(jìn)行了各種改造和應(yīng)用。2016年和2017年,在語音合成、情緒檢測(cè)、換臉等領(lǐng)域產(chǎn)生了一大谷歌在2017年開發(fā)的Transformer模型逐漸取代了LongandShortTermmemory(LSTM)等傳統(tǒng)RNN模型,成為NLP問題的首選模型。作為Seq2seq模型,它提出了注意力機(jī)制,計(jì)算每個(gè)單詞與其上下文的相關(guān)性,以確定哪些信息對(duì)手頭的任務(wù)最重要。與其他模型相比,Transformer速度更快,并且可以更長(zhǎng)時(shí)間地保留有效信息。BERT(來自Transformer的雙向編碼器表示,2018)使用Transformer構(gòu)建了一個(gè)用于自然語言處理的完整模型框架。它在處理一系列自然語言處理任務(wù)上超越了現(xiàn)有的模型。BERT(來自Transformer的雙向編碼器表示,2018)使用Transformer構(gòu)建了一個(gè)用于自然語言處理的完整模型框架。它在處理一系列自然語言處理任務(wù)上超越了現(xiàn)有的模型。從那時(shí)起,模型的大小不斷增加,在最近兩年出現(xiàn)了GPT-3、InstructGPT和ChatGPT等一批大模型,其成本也呈幾何級(jí)數(shù)上升?,F(xiàn)今的語言模型有三個(gè)特點(diǎn):大模型、大數(shù)據(jù)、大計(jì)算能力。在上方的圖中可以看到模型參數(shù)的數(shù)量增加得有多快。有人甚至提出了語言模型的摩爾定律,——一年增長(zhǎng)十倍。最新發(fā)布的ChatGPT模型有1750億個(gè)參數(shù),很難想象在這之后GPT-4中還有多少參數(shù)。ChatGPT的優(yōu)勢(shì):引入了HFRL(HumanFeedbackRL,2022.03)技術(shù),在訓(xùn)練數(shù)據(jù)集中增加了人的反饋,基于人的反饋進(jìn)行優(yōu)化,但由于需要大量的人的注釋,成本進(jìn)一步擴(kuò)大。第二點(diǎn)是模型在回答問題時(shí)會(huì)有自己的原則。之前的聊天機(jī)器人在與用戶聊天時(shí)會(huì)將一些負(fù)面和敏感的內(nèi)容一并學(xué)習(xí),最后學(xué)會(huì)謾罵,發(fā)表歧視言論。與之前的模型不同,ChatGPT可以識(shí)別惡意消息,然后拒絕給出答案。有記憶:ChatGPT支持連續(xù)對(duì)話,并能記住與用戶之前對(duì)話的內(nèi)容,因此經(jīng)過多輪對(duì)話用戶會(huì)發(fā)現(xiàn)它的答案在不斷提升。在參加2022年奇績(jī)創(chuàng)壇秋季營(yíng)的55家公司中,有19家AI主題公司、15家元宇宙主題公司和16家大型模型主題公司。與AIGC相關(guān)的項(xiàng)目有十余個(gè),其中一半以上是與圖像相關(guān)的。每個(gè)項(xiàng)目的詳細(xì)信息附在下Link:/rain/a/20221121A04ZNE00當(dāng)下AIGC最火的細(xì)分賽道當(dāng)屬圖像領(lǐng)域,歸功于StableDiffusion的行業(yè)應(yīng)用,圖像AIGC在2022年迎來了爆發(fā)式的增長(zhǎng)。具體地,圖像AIGC賽道具有以下優(yōu)勢(shì):與自然語言處理中的大模型相比,CV領(lǐng)域的模型尺寸相對(duì)較小,與Web3的契合度也更高,可以與NFT、元宇宙緊密聯(lián)系在一起。與文字相比,人們對(duì)圖片的閱讀成本更低,一直是一種更直觀和更容易被接受的表達(dá)形式。圖片的趣味性和多樣性更高,且該部分技術(shù)目前趨于成熟,正在快速在參加2022年奇績(jī)創(chuàng)壇秋季營(yíng)的55家公司中,有19家AI主題公司、15家元宇宙主題公司和16家大型模型主題公司。與AIGC相關(guān)的項(xiàng)目有十余個(gè),其中一半以上是與圖像相關(guān)的。每個(gè)項(xiàng)目的詳細(xì)信息附在下擴(kuò)散模型2022年CVPR的論文《High-ResolutionImageSynthesiswithLatentDiffusionModels》通過向圖像中添加噪聲,可以將一張圖片變成隨機(jī)的噪聲圖片,擴(kuò)散模型與之相反,學(xué)習(xí)如何去除噪聲。然后,該模型將這種去噪過程應(yīng)用于隨機(jī)的噪聲圖片,最終生成逼真的圖像。當(dāng)前圖像AIGC領(lǐng)域也存在一些局限性,具體有下面幾點(diǎn):模型需要在效果和效率之間做權(quán)衡,在秒級(jí)別還是難以生成準(zhǔn)確的,用戶期待的定制效果。這些公司的運(yùn)營(yíng)和維護(hù)成本很高,需要大量的圖形顯卡設(shè)備來帶動(dòng)他賽道中近期涌現(xiàn)大量初創(chuàng)公司,競(jìng)爭(zhēng)激烈,但缺乏殺手級(jí)應(yīng)用程序。接下來再來討論下3D-AIGC,這是一個(gè)潛力較大的賽道,目前模型尚不成熟,但未來會(huì)成為元宇宙中的剛需的基礎(chǔ)設(shè)施。類似于2D圖像的生成,3D-AIGC項(xiàng)目能夠生成三維物品,進(jìn)而甚至自動(dòng)地渲染與構(gòu)建三維場(chǎng)景。當(dāng)未來元宇宙得到普及之后,會(huì)對(duì)虛擬的三位資產(chǎn)有大量的需求。當(dāng)用戶處于三維場(chǎng)景中時(shí),用戶需要的不再是二維的圖片,而是三維的物體和場(chǎng)景。相比于生成二維圖像,在三維上生成虛擬資產(chǎn)需要考慮更多的東西。一個(gè)三維的虛擬物體由兩部分組成,一個(gè)是三維形狀,另一個(gè)是物體表面的花紋和圖案,我們稱之為紋理。因此一個(gè)模型需要選取三維虛擬資產(chǎn)可以分兩步生成。在我們獲得了一個(gè)3D對(duì)象的幾何圖形后,我們就可以通過紋理映射,環(huán)境貼圖等多種方法來賦予它表面的紋理。而在描述三維物體的幾何形狀時(shí)也需要考慮多種的表達(dá)方式有顯式的表達(dá)形式,比如網(wǎng)格和點(diǎn)云;也有代數(shù)、NeRF(神經(jīng)輻射場(chǎng))等隱式的表達(dá)方式。具體需要選取適配模型的方式??傊覀冏罱K需要將所有的這些過程都集成到一起,組成一個(gè)文本到3D圖像的流程管線,管線比較長(zhǎng),在當(dāng)下也尚未有成熟的應(yīng)用端模型出現(xiàn)。但擴(kuò)散模型的流行會(huì)促使許多研究者進(jìn)一步研究三維圖像生成技術(shù)。目前這一方向的技術(shù)模型也在快速迭代。相對(duì)于VR、XR等需要與人互動(dòng)、對(duì)實(shí)時(shí)性有嚴(yán)格要求的技術(shù)。3DAIGC推的實(shí)時(shí)性要求更低低,應(yīng)用門檻和速度會(huì)更快一些。都說AIGC是web3.0時(shí)代的生產(chǎn)力工具,AIGC提供大量的生產(chǎn)力,而web3.0與區(qū)塊鏈的應(yīng)用則決定生產(chǎn)關(guān)系與用戶主權(quán)。但我們必須認(rèn)識(shí)到AIGC和Web3是兩個(gè)不同的方向。AIGC作為使用AI技術(shù)的生產(chǎn)工具,既可以應(yīng)用于web2世界,也可以應(yīng)用于Web3世界。到目前為止,大多數(shù)已經(jīng)開發(fā)的項(xiàng)目仍然在Web2領(lǐng)域。把兩者放在一起談話是不合適的。而Web3希望借助區(qū)塊鏈和智能合約技術(shù),讓用戶擁有虛擬資產(chǎn)的主權(quán)。它與創(chuàng)建模式之間本沒有直接聯(lián)系。但兩者之間確實(shí)又有很多趨同之處:一方面,它們都依靠程序來優(yōu)化現(xiàn)有的生產(chǎn)和創(chuàng)作模型。AIGC用AI取代人類進(jìn)行創(chuàng)造,Web3用智能合約、區(qū)塊鏈等去中心化程序取代人工中心化機(jī)構(gòu)。用機(jī)器代替人,不會(huì)有主觀的誤差和偏差,效率也會(huì)顯著提高。另一方面,Web3和元宇宙將對(duì)二維的圖片和音頻,三維的虛擬物體和場(chǎng)景有很大的需求,而AIGC是一個(gè)很好的滿足方式。但在web3.0的概念尚未普及到普羅大眾的當(dāng)下,我們能看到涌現(xiàn)出的項(xiàng)目幾乎還是Web2的項(xiàng)目,在web3領(lǐng)域的應(yīng)用目前大量地還是停留在圖像生成的AIGC上,用于NFT的創(chuàng)作。其實(shí)在應(yīng)用端,AIGC和web3.0的聯(lián)系不能僅僅依靠“生產(chǎn)力”和“生產(chǎn)關(guān)系”之間的聯(lián)系,因?yàn)锳IGC同樣也能給web2項(xiàng)目帶來生產(chǎn)力的提升,而web3項(xiàng)目的優(yōu)勢(shì)是不明顯的。所以,為了抓住AIGC發(fā)展的機(jī)遇,我認(rèn)為當(dāng)前web3項(xiàng)目需要在以下兩個(gè)優(yōu)化:一是尋求AIGC加持下的Web3.0原生項(xiàng)目,即只在Web3端能夠應(yīng)用的項(xiàng)目?;蛘邠Q句話說,去思考如何用AIGC解決Web3項(xiàng)目目前面臨的困境,這樣的解決方案也是Web3原生的。例如ReadOn用AIGC去生成文章quiz,開辟了ProofofRead的新模式,解決了ReadFi一直以來存在的刷幣問題,為真正閱讀的用戶提供代幣獎(jiǎng)勵(lì)。這很難做到,但web3需要這樣的模式創(chuàng)新。二是用AIGC優(yōu)化現(xiàn)存Web3應(yīng)用的效率和用戶體驗(yàn)。目前AIGC的應(yīng)用主要存在于圖像和NFT上,但其實(shí)創(chuàng)作是一個(gè)很寬泛的概念,除圖片外還有很多種其他的創(chuàng)作方式。上文提到的3D-AIGC是元宇宙中可供思考的應(yīng)用渠道,quiz生成也是一個(gè)眼前一亮的DAO和開發(fā)者平臺(tái)可以思考用AIGC來賦能教育,用于出題或者修改模塊化的代碼、生成單測(cè)等等;GameFi可以思考是否能用AIGC來充當(dāng)游戲里的NPC;甚至能否借助AIGC的coding能力生成智能合約。視頻鏈接:/video/BV17D4y1p7EY/spm_id_from=333.99HYPERLINK"/video/B

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論