版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
12023年03月20日人工智能系列深度報告:AIGC行業(yè)綜述篇陳夢竹(證券分析師)S0350521090003chenmz@陳凱藝(聯(lián)系人)S0350121070080chenky@本篇報告主要解答了以下問題:AI、AIGC當(dāng)下發(fā)展處于什么階段?未來將呈現(xiàn)怎樣的趨勢?AIGC的核心生產(chǎn)要素是什么?各生產(chǎn)要素的發(fā)展趨勢如何?NLP、CV、ASR、TTS算法及發(fā)展?ChatGPT為何“火爆出圈”?AIGC包括什么?已有哪些產(chǎn)品?應(yīng)用現(xiàn)狀及前景如何?有哪些企業(yè)進(jìn)行了布局?商業(yè)模式如何?u行業(yè)發(fā)展:人工智能步入新發(fā)展階段,逐步邁向AGI;AIGC擁抱人類,創(chuàng)造人機(jī)交互新變革,將迎來更多新機(jī)遇。人工智能從理論發(fā)展分為四個階段:規(guī)則導(dǎo)向、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自主學(xué)習(xí)階段,目前處于深度學(xué)習(xí)階段;從應(yīng)用成熟度可分為三個階段:弱人工智能階段(ANI)、強(qiáng)人工智能階段(AGI)、超人工智能階段(ASI目前處于ANI階段;從應(yīng)用類型可分為四種:感知式AI與分析式AI應(yīng)用較成熟,決策式AI近年來發(fā)展迅速,生成式AI迎來突破。生成式AI,即AIGC,較傳統(tǒng)內(nèi)容創(chuàng)作模式UGC、PGC可實現(xiàn)更大數(shù)量、更高質(zhì)量、更低單位成本,未來將從輔助創(chuàng)作生成趨向高度自動化自主創(chuàng)造。此外,AIGC將賦能多領(lǐng)域,加速人機(jī)共生的建設(shè),迎接更多機(jī)遇與挑戰(zhàn)。u技術(shù)進(jìn)步:算力是支撐,數(shù)據(jù)是瓶頸,算法迎來突破。算力層,近年來大模型流行,模型參數(shù)量迅速膨脹,所需計算資源越來越大,算力是AIGC核心生產(chǎn)要素;而AI芯片全球短缺,美對華芯片制裁升級,我們認(rèn)為國內(nèi)短期算力充足,長期仍需要逐步實現(xiàn)AI芯片國產(chǎn)化替代。數(shù)據(jù)是機(jī)器學(xué)習(xí)的核心,AI發(fā)展的瓶頸,數(shù)據(jù)決定模型質(zhì)量的上限;大模型訓(xùn)練需要海量且優(yōu)質(zhì)數(shù)據(jù),AI對數(shù)據(jù)訓(xùn)練集的消耗量遠(yuǎn)大于人類數(shù)據(jù)生產(chǎn)的速度,專業(yè)領(lǐng)域、圖像視頻等數(shù)據(jù)獲取和標(biāo)注成本也將越來越高,我們認(rèn)為加速商業(yè)化,實現(xiàn)數(shù)據(jù)反哺是對提高數(shù)據(jù)量、降成本的重要解決辦法。算法層,近年來迎來不少突破,過去NLP領(lǐng)域以RNN及其變體為主,CV領(lǐng)域以CNN及其變體為主,但各有優(yōu)劣,Transformer架構(gòu)突破了RNN不能并行計算的限制,較CNN有更好的計算局部特征間的關(guān)聯(lián)等,自2017年開始在NLP領(lǐng)域應(yīng)用、變種升級,Transformer在多模態(tài)的發(fā)展和應(yīng)用將讓AI越來越多的向人類推理方式靠近,以實現(xiàn)AGI。AIGC包括文本/音頻/圖像/視頻/代碼/3D/數(shù)字人/跨膜態(tài)生成等,目前文本、音頻和圖像領(lǐng)域都迎來較大突破,圖像生成的突破是Difussion的出現(xiàn),文本生成的突破則是GPT的出現(xiàn),AIGC基本采用GAN算法,算法及產(chǎn)品越來越豐富多元,AI因AIGC的蓬勃發(fā)展,已開啟技術(shù)與應(yīng)用的新篇章。u應(yīng)用概覽:技術(shù)突破實現(xiàn)應(yīng)用創(chuàng)新。AI小模型是過去主流的研究和應(yīng)用方向,在B端部分行業(yè)、賽道已有不少企業(yè)布局,預(yù)計未來仍將依托其細(xì)分行業(yè)、細(xì)分賽道的先發(fā)優(yōu)勢和數(shù)據(jù)、項目實施經(jīng)驗、產(chǎn)品優(yōu)勢等壁壘仍將有較好的發(fā)展。但大模型尚未實現(xiàn)商業(yè)價值閉環(huán),未來需要重點關(guān)注數(shù)據(jù)、算法層面的突破與變革,探索新的商業(yè)模式,目前已在影視、傳媒、電商、C端娛樂規(guī)模應(yīng)用,游戲領(lǐng)域逐步應(yīng)用,金融、工業(yè)、醫(yī)療、法律、設(shè)計等專業(yè)領(lǐng)域還在持續(xù)拓展。u產(chǎn)業(yè)布局:科技巨頭全面布局,中下游廠商百花齊放。國外主要以微軟、谷歌、Meta為主,國內(nèi)以百度、騰訊、阿里、華為等為主,既擁有充足的算力支撐,又有優(yōu)秀的人才團(tuán)隊,多年算法、數(shù)據(jù)積累,在大模型領(lǐng)域的發(fā)展及應(yīng)用具備天然優(yōu)勢。上游除云廠商外,還有光通信廠商、數(shù)據(jù)服務(wù)商、算力相關(guān)設(shè)備廠商,將較大程度受益于大模型發(fā)展帶來的更多計算資源和數(shù)據(jù)需求。中游有商湯、科大訊飛、曠視、拓爾思等企業(yè)多年細(xì)分領(lǐng)域布局,部分也有一定算力儲備,垂直行業(yè)細(xì)分賽道深耕,相關(guān)技術(shù)、數(shù)據(jù)儲備豐富。下游主要是受益于AIGC對業(yè)務(wù)的驅(qū)動、降本增效,空間較大,多行業(yè)公司均將逐步受益。u商業(yè)模式:商業(yè)化初啟,期待產(chǎn)業(yè)生態(tài)、技術(shù)與產(chǎn)品發(fā)展完善。小模型在B端已應(yīng)用多年,大模型商業(yè)剛剛開始,主要是MaaS,包括大模型廠商自用,實現(xiàn)增量或降本增效;云廠商“MaaS+IaaS”打包輸出;替代翻譯、美工、原畫師、程序員、分析師、設(shè)計師等繁瑣重復(fù)的低端工作等。大模型商業(yè)價值閉環(huán)未成,國內(nèi)SaaS生態(tài)、付費意識較差,商業(yè)落地還需要各行各業(yè)共同發(fā)展、相互奔赴,共建良好產(chǎn)業(yè)生態(tài)。u風(fēng)險提示:人工智能發(fā)展不及預(yù)期,AIGC發(fā)展不及預(yù)期;技術(shù)發(fā)展不及預(yù)期;商業(yè)化拓展不及預(yù)期;行業(yè)競爭加劇風(fēng)險;中美科技競爭不確定性風(fēng)險。請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明2核心分析框架.......................................................................................................................................................................................................................................................................................6核心分析框架:每一輪人機(jī)交互的變革都會帶來產(chǎn)業(yè)級投資機(jī)會核心分析框架:期待算力、數(shù)據(jù)、算法的突破,邁向強(qiáng)人工智能AGI階段核心分析框架:AIGC與PGC、UGC內(nèi)容創(chuàng)作模式對比核心分析框架:機(jī)器學(xué)習(xí)分為訓(xùn)練和推理,數(shù)據(jù)決定上限,算法逼近上限核心分析框架:數(shù)據(jù)是機(jī)器學(xué)習(xí)的核心,也是機(jī)器學(xué)習(xí)的瓶頸核心分析框架:隨著模型參數(shù)量的提升,算力需求顯著增加核心分析框架:AIGC——生產(chǎn)力的革命核心分析框架:ChatGPT史上用戶數(shù)增長最快核心分析框架:當(dāng)模型規(guī)模達(dá)到某個閾值時,模型出現(xiàn)涌現(xiàn)能力核心分析框架:ChatGPT采用RLHF學(xué)習(xí)機(jī)制,效果優(yōu)于GPT-3的無監(jiān)督學(xué)習(xí)核心分析框架:AIGC何時突破工業(yè)紅線?關(guān)注數(shù)據(jù)、算法和商業(yè)模式破局核心分析框架:互聯(lián)網(wǎng)大廠全面布局,中小廠商主要發(fā)力中下游環(huán)節(jié)核心分析框架:產(chǎn)業(yè)鏈各環(huán)節(jié)發(fā)展趨勢核心分析框架:大模型商業(yè)化初啟,小模型在部分領(lǐng)域已實現(xiàn)商業(yè)價值閉環(huán)核心分析框架:總成本持續(xù)提升,但同級別參數(shù)消耗量將顯著下降一、行業(yè)篇:人工智能發(fā)展步入新階段,AIGC創(chuàng)造新機(jī)遇.......................................................................................................................................................................................................22每一輪人機(jī)交互的變革都會帶來產(chǎn)業(yè)級投資機(jī)會AI發(fā)展歷程:期待算力、數(shù)據(jù)、算法的突破,邁向強(qiáng)人工智能AGI階段AIGC發(fā)展歷程:文本、代碼生成技術(shù)較成熟,圖片、視頻生成值得期待內(nèi)容創(chuàng)作模式進(jìn)化:去中心化↑連接數(shù)量↑創(chuàng)作速度↑創(chuàng)作規(guī)?!鼉?nèi)容創(chuàng)作模式進(jìn)化:從供給轉(zhuǎn)變?yōu)樾枨髮?dǎo)向,從單次轉(zhuǎn)變?yōu)槎啻紊a(chǎn)內(nèi)容創(chuàng)作模式對比:AIGC實現(xiàn)內(nèi)容創(chuàng)作呈高質(zhì)量、大數(shù)量、低成本趨勢AIGC演進(jìn)趨勢:輔助生產(chǎn)自動化獨立創(chuàng)作請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明3二、技術(shù)篇:算力是支撐,數(shù)據(jù)是核心,算法逐步迎來突破........................................................................................................................................................................................................機(jī)器學(xué)習(xí):分為訓(xùn)練和推理,數(shù)據(jù)決定上限,算法逼近上限數(shù)據(jù):機(jī)器學(xué)習(xí)的核心,也是機(jī)器學(xué)習(xí)的瓶頸算力:隨著模型參數(shù)量的提升,算力需求顯著增加AIGC:生產(chǎn)力的革命AIGC模型:參數(shù)量持續(xù)提升、開源模型逐漸豐富NLP算法:迎來突破,但算力、數(shù)據(jù)需求過高等問題待解決NLP算法:Transformer開辟NLP新路徑,架構(gòu)優(yōu)化促成衍生模型ChatGPT:史上用戶數(shù)增長最快,源于算法的突破、高質(zhì)量的數(shù)據(jù)庫ChatGPT-算法:當(dāng)模型規(guī)模達(dá)到某個閾值時,模型出現(xiàn)涌現(xiàn)能力ChatGPT-算法:采用RLHF學(xué)習(xí)機(jī)制,效果優(yōu)于GPT-3的無監(jiān)督學(xué)習(xí)ChatGPT-反思:站在巨人的肩膀之上,開源開放期待更多可能和變革三、應(yīng)用篇:技術(shù)突破實現(xiàn)應(yīng)用創(chuàng)新,已在多領(lǐng)域落地........................................................................................................................................................................................................AIGC何時突破工業(yè)紅線:重點關(guān)注數(shù)據(jù)、算法的突破和商業(yè)模式的發(fā)展AIGC應(yīng)用:已在影視、傳媒領(lǐng)域規(guī)模應(yīng)用AIGC應(yīng)用:已在電商、C端娛樂規(guī)模應(yīng)用AIGC應(yīng)用:已在游戲領(lǐng)域逐步應(yīng)用AIGC應(yīng)用:在金融、計算機(jī)、教育、工業(yè)、醫(yī)療等專業(yè)領(lǐng)域還在持續(xù)拓展AIGC應(yīng)用:在法律、農(nóng)業(yè)、設(shè)計等專業(yè)領(lǐng)域還在持續(xù)拓展請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明4四、企業(yè)布局:科技巨頭全面布局,中下游廠商百花齊放...............................................................................................................................................................................................廠商布局:互聯(lián)網(wǎng)大廠全面布局,中小廠商主要發(fā)力中下游環(huán)節(jié)產(chǎn)業(yè)鏈各環(huán)節(jié)發(fā)展趨勢AIGC相關(guān)標(biāo)的——上游企業(yè)AIGC相關(guān)標(biāo)的——中游企業(yè)AIGC相關(guān)標(biāo)的——下游企業(yè)五、商業(yè)模式:商業(yè)化初啟,期待產(chǎn)業(yè)生態(tài)、技術(shù)與產(chǎn)品發(fā)展完善...........................................................................................................................................................................................58商業(yè)模式:大模型商業(yè)化初啟,小模型在部分領(lǐng)域已實現(xiàn)商業(yè)價值閉環(huán)商業(yè)模式:開始商業(yè)化嘗試,會員制+按次收費為主成本測算-訓(xùn)練成本:總成本持續(xù)提升,但同級別參數(shù)消耗量將顯著下降風(fēng)險提示..............................................................................................................................................................................................................................................................................................62請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明5核心分析框架請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明6產(chǎn)業(yè)機(jī)會核心分析框架:每一輪人機(jī)交互的變革都會帶來產(chǎn)業(yè)級投資機(jī)會產(chǎn)業(yè)機(jī)會等 NetScape放棄Excite,以來最具變革性的產(chǎn)代的Macintosh計算項目的負(fù)責(zé)人辭職并建立了網(wǎng)景通訊公司,推作為Windows95的默認(rèn)瀏覽器,改變了用戶網(wǎng)智能,人較為被動本處于主動地位out、Outside-in、云計算/邊緣計算、等變革變革節(jié)點人機(jī)交互模式請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明7核心分析框架:期待算力、數(shù)據(jù)、算法的突破,邁向強(qiáng)人工智能AGI階段規(guī)則導(dǎo)向機(jī)器學(xué)習(xí)深度學(xué)習(xí)理論發(fā)展硬件奠基,算法發(fā)展21世紀(jì)初期至今核心硬件發(fā)展,算法突破基于大規(guī)模數(shù)據(jù)識別、預(yù)測算力、數(shù)據(jù)、算法全面突破展與大數(shù)據(jù)出現(xiàn)展與大數(shù)據(jù)出現(xiàn)。感知式AI廠分析式AI始于1980s,起源于分析式AI,生成新的內(nèi)容;2022年迎來突破。分析式AI始于1960s,利用邏輯推理等方法進(jìn)行分析和解決;興盛于機(jī)器學(xué)ANIAGI資料來源:智東西,國海證券研究所資料來源:智東西,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明8傳統(tǒng)的PGC與UGC模式受到規(guī)模、質(zhì)量和成本的制約,而AIGC則能夠有效地彌補(bǔ)PGC與UGC模式的不足,具有生成內(nèi)容規(guī)模大、質(zhì)量高、單位成本低的優(yōu)勢,將會成為元宇宙在算力與算法支撐下,AIGC內(nèi)容生成規(guī)模所受到的限制遠(yuǎn)低于PGC與UGC,AIGC可以在極短時間內(nèi)生成大量內(nèi)容用戶成為內(nèi)容創(chuàng)作的主角提升了互聯(lián)網(wǎng)的內(nèi)容生產(chǎn)規(guī)模內(nèi)容生產(chǎn)來源于專業(yè)組織或個人,內(nèi)容規(guī)模有限 成本支出隨著內(nèi)容規(guī)模的增加而同比增長,但總成本增長速度PCG>UGC>AIGCPGCUGCAIGC 隨著算法與模型不斷優(yōu)化,AIGC生成內(nèi)容的質(zhì)量將會逐漸超過UGC與PGCPGC生產(chǎn)者的專業(yè)性保證了內(nèi)容質(zhì)量UGC模式下內(nèi)容生產(chǎn)質(zhì)量良莠不齊 單位成本AIGC模式具有顯著的規(guī)模遞減優(yōu)勢,其成本支出主要在于模型算法開發(fā)與硬件等固定成本領(lǐng)域,所以在元宇宙場景下,AIGC生成內(nèi)容規(guī)模越大,其單位內(nèi)容生成的邊際成本將會逐漸下降且無限逼近于零PGC與UGC模式下單位內(nèi)容生產(chǎn)成本下降幅度有限PGCUGC資料來源:《先利其器:元宇宙場景下的資料來源:《先利其器:元宇宙場景下的AIGC及其GLAM應(yīng)用機(jī)遇》王諾等,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明9核心分析框架:機(jī)器學(xué)習(xí)分為訓(xùn)練和推理,數(shù)據(jù)決定上限,算法逼近上限?機(jī)器學(xué)習(xí)可以分為訓(xùn)練和推理兩個階段,訓(xùn)練是指使用已知數(shù)據(jù)集訓(xùn)練機(jī)器學(xué)習(xí)模型;推理是指使用已訓(xùn)練好的模型對新的數(shù)據(jù)進(jìn)行預(yù)測、分類等任務(wù)。?數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,模型和算法逼近上限。訓(xùn)練從原始數(shù)據(jù)訓(xùn)練從原始數(shù)據(jù)根據(jù)分類、回收集數(shù)據(jù)數(shù)據(jù)準(zhǔn)備特征工程模型選擇模型訓(xùn)練模型評估模型調(diào)優(yōu)模型部署和應(yīng)用存儲;數(shù)據(jù)的質(zhì)量和梳理對算法效果至關(guān)重要;也推理數(shù)據(jù)預(yù)處理模型加載輸入轉(zhuǎn)換模型推理輸出轉(zhuǎn)換結(jié)果后處理推理數(shù)據(jù)預(yù)處理模型加載輸入轉(zhuǎn)換模型推理輸出轉(zhuǎn)換結(jié)果后處理結(jié)果展示發(fā)布/開源功能特點的深度神經(jīng)網(wǎng)絡(luò)。期刊發(fā)表論文約80%使用Pytorch。資料來源:各框架官網(wǎng),資料來源:各框架官網(wǎng),EasyAI,GitHub,機(jī)器之心,國海證券研究所(注:GitHubStar為截止2023.3.13主體框架star數(shù)據(jù))請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明10核心分析框架:數(shù)據(jù)是機(jī)器學(xué)習(xí)的核心,也是機(jī)器學(xué)習(xí)的瓶頸數(shù)據(jù)決定了機(jī)器學(xué)習(xí)算法的性能、泛化能力、應(yīng)用效果;數(shù)據(jù)獲取、標(biāo)注、清洗、存儲也是機(jī)器學(xué)習(xí)瓶頸之一。步驟定義成本占比特點展望通過爬蟲、API接口、數(shù)據(jù)采購等方););來越多,數(shù)據(jù)獲取邊際成本將逐步降低。40%-50%無監(jiān)督學(xué)習(xí)逐漸流行,自動化程度逐步升高簡單數(shù)據(jù)集標(biāo)注需求下降;但專業(yè)領(lǐng)域和復(fù)雜數(shù)據(jù)集仍需要人工標(biāo)注,且人工單位成本更高;隨著人工智能快速發(fā)展,智能化程度的提升,數(shù)據(jù)標(biāo)注全根據(jù)數(shù)據(jù)類型和需求,進(jìn)行缺失值處理、異常值處理、噪聲處理、重復(fù)數(shù)據(jù)處理、數(shù)據(jù)格式轉(zhuǎn)換等。20%-30%提高模型準(zhǔn)確性和可靠性。般可以通過編寫自動化的腳本或者使用一些現(xiàn)成的工具來實現(xiàn),以去除無效或者重復(fù)的數(shù)據(jù);隨著人工智能快速發(fā)展,智能化程度的提升,數(shù)據(jù)清洗全將機(jī)器學(xué)習(xí)算法需要用到的數(shù)據(jù)保存擇合適的數(shù)據(jù)格式存儲,不同格式會影響讀取速度、空間占比等;大規(guī)模數(shù)據(jù)需要選擇合適的數(shù)據(jù)格式存儲,不同格式會取速度、空間占比等;大規(guī)模數(shù)據(jù)集需要進(jìn)行分割資料來源:專家調(diào)研,資料來源:專家調(diào)研,Appen,Defined.ai,Mindflow,PhoenixNAP,EasyAI,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明11核心分析框架:隨著模型參數(shù)量的提升,算力需求顯著增加訓(xùn)練大模型的算力消耗上升,且增速變快訓(xùn)練大模型的算力消耗上升,且增速變快算力消耗每24個月翻倍(摩爾定律)算力消耗每3.4個月翻倍←Pre-GPU計算算力消耗每2個月翻倍→GPU計算資料來源:量子位,《IntelligentComputing:TheLatestAdvances,Challenges,andFuture》SHIQIANGZHU等,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明12畫)等。視頻生成3D生成數(shù)字人游戲生成代碼生成跨模態(tài)?2014年提出,由生成器網(wǎng)絡(luò)(Generator)和判別不斷提高生成樣本真實性和判別器準(zhǔn)確性。?優(yōu)點:生成樣本質(zhì)量高,無需大量數(shù)據(jù)標(biāo)注,適用于多種數(shù)據(jù)類型,可用于數(shù)據(jù)增強(qiáng)。需要大量計算資源,容易過擬合。視頻生成、實時交互?視頻生成、實時交互?2019年提出,多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練,實現(xiàn)多種模態(tài)數(shù)據(jù)的聯(lián)合表示。?優(yōu)點:泛化能力、數(shù)據(jù)利用率、模型魯棒性和可遷移性高。rctAI、超參數(shù)、騰訊AIrctAI、超參數(shù)、騰訊AILab、網(wǎng)易伏羲等。?策略生成:對戰(zhàn)策略等。代碼補(bǔ)全、自動注釋、根據(jù)上下文/注釋自動代碼補(bǔ)全、自動注釋、根據(jù)上下文/注釋自動視頻生成文本等;未來將有更多跨模態(tài)應(yīng)用進(jìn)步,不需要明確地計算數(shù)據(jù)的先驗概率分布。通過“擴(kuò)散”來執(zhí)行隱空間中的推斷。較低。資料來源:量子位,wuhu動畫人空間,數(shù)據(jù)派THU資料來源:量子位,wuhu動畫人空間,數(shù)據(jù)派THU,F(xiàn)orbes,《GenerativeAImproveModelRobustnessandUncertainty》Hendrycks核心分析框架:ChatGPT史上用戶數(shù)增長最快2015-11-112018-62019-2-1422015-11-112018-62019-2-142?初期為非盈利AI研究公司性質(zhì);?啟動資金10億美元。BooksCorpus數(shù)據(jù)集作為語料庫,Tokens為1.3B;?結(jié)合無監(jiān)督學(xué)習(xí)及有監(jiān)督的微調(diào)。?參數(shù)量15億;監(jiān)督情況下執(zhí)行多種任務(wù)。?結(jié)合少樣本學(xué)習(xí)及無監(jiān)督學(xué)習(xí)。InstructGPT發(fā)布?參數(shù)量13億;?運(yùn)用RHLF,利用獎勵模型訓(xùn)練學(xué)習(xí)模型;?在遵循指令及輸出內(nèi)容等性能方面優(yōu)于GPT-3。?基于GPT-3.5預(yù)訓(xùn)練?截至2023年1月末,活躍用戶超過1億,成為史上用戶增長最快的應(yīng)用。?預(yù)計為多模態(tài)大模型(語音、圖像、視頻);ChatGPT4。ChatGPT發(fā)布后市場反應(yīng)熱烈算力、數(shù)據(jù)、人才、資金的投入算力、數(shù)據(jù)、人才、資金的投入杰出的用戶體驗算法的突破算法的突破對于通用任務(wù)的效果會顯著提升;):該學(xué)習(xí)方式使得ChatGPT在無人工標(biāo)注數(shù)據(jù)的條件訓(xùn)練,數(shù)據(jù)更?RLHF(ReinforcementLearningFromHumanFeedba資料來源:資料來源:OpenAI官網(wǎng),《ImprovingLanguageUnderstandingbyGenerativePre-Training》AlecRadford等,《LanguageModelsareFew-ShotLearners》TomB.Brown等,《Traininglanguagemodelstofollowinstructionswithhumanfeedback》LongOuyang等,澎湃新聞,Heise,每日智匯,GitHub,《What‘sinmyAI》AlanD.Thompson,通信世界網(wǎng),LifeArchitect,芯東西,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明14核心分析框架:當(dāng)模型規(guī)模達(dá)到某個閾值時,模型出現(xiàn)涌現(xiàn)能力模型誤差結(jié)論是:模型的表現(xiàn)與模型的規(guī)模之間服音標(biāo)標(biāo)注填字謎音標(biāo)標(biāo)注填字謎波斯語問答準(zhǔn)確率準(zhǔn)確率準(zhǔn)確率繪制地圖多任務(wù)自然語言理解準(zhǔn)確率繪制地圖多任務(wù)自然語言理解《EmergentAbilitiesofLargeLangu請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明15資料來源:《ScalingLawsforNeuralLanguageMo請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明15核心分析框架:ChatGPT采用RLHF學(xué)習(xí)機(jī)制,效果GPT-3采用無監(jiān)督學(xué)習(xí)機(jī)制,優(yōu)點在于無需人工進(jìn)行數(shù)據(jù)而ChatGPT采用RLHF學(xué)習(xí)機(jī)制,即人工反饋的強(qiáng)化學(xué)習(xí),屬于強(qiáng)化學(xué)習(xí)。不同于傳統(tǒng)的相比于傳統(tǒng)的有監(jiān)督學(xué)習(xí)機(jī)制,ChatGPT無需提前對訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注,而只需要對有監(jiān)督學(xué)習(xí)有監(jiān)督學(xué)習(xí)vs無監(jiān)督學(xué)習(xí)RLHF學(xué)習(xí)機(jī)制無標(biāo)簽的數(shù)據(jù)模型無標(biāo)簽的數(shù)據(jù)模型高中低高中低PPOPPO模型生成回答用回報模型計算前一階段訓(xùn)練好的模型給出的回答,得到分?jǐn)?shù)回報分?jǐn)?shù)/策略梯度可以更新PPO模型參數(shù)階段3使用PPO強(qiáng)化學(xué)習(xí)法優(yōu)化回報預(yù)訓(xùn)練模型的參數(shù)階段2通過人工標(biāo)注訓(xùn)練數(shù)據(jù)來訓(xùn)練從用戶提交的指令/問題中隨機(jī)抽取一批新的命令標(biāo)注人員根據(jù)多種標(biāo)準(zhǔn)對許多答案從優(yōu)到差進(jìn)行排序階段1由監(jiān)督模型初始化PPO模型的參數(shù)專業(yè)的標(biāo)注者對制定的提示給出高質(zhì)量回答利用以上排序結(jié)果來訓(xùn)練回報模型專業(yè)人員用標(biāo)注數(shù)據(jù)來調(diào)優(yōu)GPT-3.5標(biāo)注一批模型產(chǎn)出及提示隨機(jī)從信息庫抽取指令資料來源:競科技,甲子光年,國海證券研究所資料來源:競科技,甲子光年,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明16核心分析框架:AIGC何時突破工業(yè)紅線?關(guān)注數(shù)據(jù)、算法和商業(yè)模式破局小模型:專業(yè)領(lǐng)域,細(xì)分行業(yè)小模型:專業(yè)領(lǐng)域,細(xì)分行業(yè)大模型:通用型、任務(wù)型、行業(yè)級參與方大模型技術(shù)巨頭參與方大模型技術(shù)巨頭+第三方服務(wù)商解決解決數(shù)據(jù)是瓶頸:數(shù)據(jù)增強(qiáng)、遷移學(xué)習(xí)、數(shù)據(jù)合成、數(shù)據(jù)要人才是關(guān)鍵:“挖角”、企業(yè)高校合作。優(yōu)秀的華人很多,但更多的在谷歌、微軟、MeAI商業(yè)價值閉環(huán):技術(shù)進(jìn)步、國家支持、巨頭推動、生態(tài)建設(shè)、市場價值觀、倫理、政治風(fēng)險等:從技術(shù)層面讓AI更可控,不要發(fā)展的那么快。先發(fā)優(yōu)勢)、規(guī)模效應(yīng)+飛輪效應(yīng)技術(shù)成本(前期訓(xùn)練成本、數(shù)據(jù)成本、人才成本,后期使用的推理成本),與帶來的增量或給企業(yè)實現(xiàn)降本增效相比,還不足以驅(qū)動企業(yè)資料來源:量子位,資料來源:量子位,InfoQ,新智元,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明17核心分析框架:互聯(lián)網(wǎng)大廠全面布局,中小廠商主要發(fā)力中下游環(huán)節(jié)AIGC產(chǎn)業(yè)鏈圖譜n云計算(未上市)華為n芯片(未上市)地平線nIDCn光模塊n服務(wù)器液冷n數(shù)據(jù)供給方n多模態(tài)(未上市)珍島(未上市)中科聞歌(未上市)瀾舟科技n策略生成(未上市)rctAI(未上市)超參數(shù)科技nNLP(學(xué)術(shù)機(jī)構(gòu))清華大學(xué)n3D生成(未上市)聚力維度n代碼生成(學(xué)術(shù)機(jī)構(gòu))清華大學(xué)(學(xué)術(shù)機(jī)構(gòu))中國科學(xué)技術(shù)大學(xué)(學(xué)術(shù)機(jī)構(gòu))哈爾濱工業(yè)大學(xué)n虛擬人(未上市)小冰公司(未上市)倒映有聲(未上市)相芯科技(未上市)心識宇宙n視頻生成(未上市)邁吉客(未上市)影譜科技n傳媒n營銷n教育n虛擬人n游戲n政務(wù)nC端應(yīng)用(未上市)寫作貓(未上市)寫作狐(未上市)盜夢師(未上市)詩云科技(未上市)ZMO.ai(未上市)影譜科技(未上市)帝視科技(未上市)不咕剪輯資料來源:量子位,各公司官網(wǎng),互動易,深圳市人工智能行業(yè)協(xié)會,國海證券研究所資料來源:量子位,各公司官網(wǎng),互動易,深圳市人工智能行業(yè)協(xié)會,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明18核心分析框架:產(chǎn)業(yè)鏈各環(huán)節(jié)發(fā)展趨勢代表機(jī)構(gòu)百度云昆侖芯片百度各產(chǎn)品數(shù)據(jù)行業(yè)合作伙伴數(shù)據(jù)先發(fā)優(yōu)勢具有較多的行業(yè)數(shù)據(jù)和專業(yè)知識數(shù)據(jù)互聯(lián)網(wǎng)大廠(全面布局)百度文心大模型包括在文心大模型中的各類行業(yè)模型與B端企業(yè)有廣泛合作百度搜索百度各類產(chǎn)品的內(nèi)容推薦阿里阿里云平頭哥芯片淘寶、天貓電商數(shù)據(jù)阿里云B端數(shù)據(jù)阿里M6大模型-合作較多電商搜索阿里云和企業(yè)服務(wù)在大模型研發(fā)上具有資金和人才優(yōu)勢騰訊騰訊云微信用戶數(shù)據(jù)騰訊視頻、新聞數(shù)據(jù)騰訊游戲數(shù)據(jù)混元大模型騰訊游戲AI合作較少騰訊游戲AINPC微信等產(chǎn)品的自媒體創(chuàng)作、內(nèi)容推薦具有較多的用戶數(shù)據(jù)和娛樂內(nèi)容數(shù)據(jù)華為華為云海思芯片手機(jī)用戶數(shù)據(jù)盤古大模型盤古大模型中的各類行業(yè)模型合作較少較少深耕上游和中游賦能下游廠商谷歌谷歌云搜索數(shù)據(jù)谷歌學(xué)術(shù)Youtube數(shù)據(jù)Imagen、ExTS、PaLM等-合作較少Bard+GoogleAI賦能搜索業(yè)務(wù),同時快速積累新用戶微軟Azure云Office用戶數(shù)據(jù)Bing搜索數(shù)據(jù)LayoutLM、DiT以及OpenAI旗下的大模型-較多企業(yè)接入chatGPTchatGPT+Bing接口chatGPT+OfficeAI賦能搜索和辦公業(yè)務(wù),同時快速積累新用戶學(xué)術(shù)機(jī)構(gòu)(中游為主)清華大學(xué)中國科學(xué)技術(shù)大學(xué)哈爾濱工業(yè)大學(xué)等主要通過外購互聯(lián)網(wǎng)公開數(shù)據(jù)√√合作方向主要為學(xué)術(shù)研究-政府支持人才儲備中小廠商(中下游為主)中游小模型廠商主要通過外購垂直行業(yè)數(shù)據(jù)-垂直行業(yè)模型√√行業(yè)know-how積累行業(yè)數(shù)據(jù)下游應(yīng)用廠商主要通過外購垂直行業(yè)數(shù)據(jù)--√√客戶粘性用戶粘性產(chǎn)業(yè)鏈核心競爭要素規(guī)模效應(yīng)政府補(bǔ)助前期研發(fā)投入數(shù)據(jù)規(guī)模數(shù)據(jù)質(zhì)量數(shù)據(jù)獲取成本資金能力技術(shù)能力人才儲備行業(yè)Know-how行業(yè)數(shù)據(jù)先發(fā)優(yōu)勢行業(yè)know-how內(nèi)部用戶規(guī)模和業(yè)務(wù)數(shù)據(jù)積累;業(yè)務(wù)和AI技術(shù)結(jié)合的可行性產(chǎn)業(yè)鏈未來發(fā)展方向頭部效應(yīng)↑邊際成本↓通用類數(shù)據(jù)集中于大廠,而垂直行業(yè)數(shù)據(jù)分散頭部效應(yīng)↑百花齊放通用型內(nèi)容生成集中于大廠,而垂直行業(yè)解決方案百花齊放大廠對外提供服務(wù)的同時內(nèi)部賦能,小廠采取外購的方式更加經(jīng)濟(jì)資料來源:瀾舟科技,AspenCore,海思,前瞻產(chǎn)業(yè)研究院,IDC,機(jī)器之心,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明19核心分析框架:大模型商業(yè)化初啟,小模型在部分領(lǐng)域已實現(xiàn)商業(yè)價值閉環(huán)大模型小模型商業(yè)模式MaaS(ModelasaService)垂直行業(yè)解決方案1)按調(diào)用次數(shù)或調(diào)2)按年/月訂閱3)定制服務(wù),特定領(lǐng)域再開發(fā),將大模型和數(shù)據(jù)庫打包,按項目收費。1)一站式解決方案面向用戶企業(yè)、機(jī)構(gòu)、個人企業(yè)、機(jī)構(gòu)細(xì)分行業(yè)企業(yè)毛利率推理算力成本,毛利率可達(dá)80%+。含再開發(fā)項目實施費用。標(biāo)準(zhǔn)化產(chǎn)品,毛利率可達(dá)90%+。含外購硬件,毛利率30%-70%。提供商OpenAI、微軟、谷歌、Meta、百度、阿里、華為、騰訊、商湯、科大訊飛、字節(jié)、京東等??拼笥嶏w、商湯、曠視、云從、依圖、虹軟、格靈深瞳、云天勵飛、拓爾思、??低暤取I虡I(yè)模式付費邏輯谷歌、微軟必應(yīng)搜索引擎,造更多可直接面向C端的產(chǎn)品,SaaS廠商根據(jù)調(diào)用情1)企業(yè)開發(fā)者調(diào)用后自用或個人用戶自行調(diào)用,基于自身需求調(diào)用付費;2)為SaaS廠商提供產(chǎn)品付分析、決策式AI,部分存在生成式AI,已有中美差距差距不大且均有較大需求,甚至生態(tài)差距較大,美國SaaS廠商面向全球,中國SaaS龍頭或者科技巨頭提供相關(guān)AI驅(qū)動的解決方案;中國不局資料來源:國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明20核心分析框架:總成本持續(xù)提升,但同級別參數(shù)消耗量將顯著下降??但隨著模型壓縮、蒸餾等,同參數(shù)量級別的模型算力消耗量會顯著下降。?數(shù)據(jù)標(biāo)注:有兩個方向,一是無監(jiān)督學(xué)習(xí)流行、標(biāo)注自動化提升,數(shù)據(jù)標(biāo)注成本下降;而是對于?隨著數(shù)據(jù)量快速膨脹,訓(xùn)練數(shù)據(jù)集需求越來越大,數(shù)據(jù)存儲成本也將相應(yīng)提升。?AI資產(chǎn)復(fù)用、自動化程度提升,規(guī)模效應(yīng),單位算力成本數(shù)據(jù)成本注:參考ChatGPT、百度文心、阿里M6、華為盤古大模型數(shù)據(jù)表:各大模型全局訓(xùn)練成本概覽模型算力成本占比數(shù)據(jù)成本占比人力成本占比單次完整訓(xùn)練價格(萬美元/次)全年完整訓(xùn)練次數(shù)(次)全年訓(xùn)練成本(萬美元)已投入金額(萬美元)ChatGPT370%20%400-10002000左右4300左右ChatGPT3.560%25%400-1000不到2000資料來源:專家訪談,國海證券研究所資料來源:專家訪談,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明21請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明22產(chǎn)業(yè)機(jī)會每一輪人機(jī)交互的變革都會帶來產(chǎn)業(yè)級投資機(jī)會產(chǎn)業(yè)機(jī)會等成立,后NetScrpe放棄Excite,開始使用以來最具變革性的產(chǎn)代的Macintosh計算項目的負(fù)責(zé)人辭職并建立了網(wǎng)景通訊公司,推作為Windows95的默認(rèn)瀏覽器,改變了用戶網(wǎng)實現(xiàn)跑酷);2022年,OpenAI發(fā)布人工智能技術(shù)驅(qū)動的自然語言智能,人較為被動本處于主動地位out、Outside-in、云計算/邊緣計算、等變革變革節(jié)點人機(jī)交互模式請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明23請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明23AI發(fā)展歷程:期待算力、數(shù)據(jù)、算法的突破,邁向強(qiáng)人工智能AGI階段規(guī)則導(dǎo)向機(jī)器學(xué)習(xí)深度學(xué)習(xí)理論發(fā)展硬件奠基,算法發(fā)展21世紀(jì)初期至今核心硬件發(fā)展,算法突破基于大規(guī)模數(shù)據(jù)識別、預(yù)測算力、數(shù)據(jù)、算法全面突破展與大數(shù)據(jù)出現(xiàn)展與大數(shù)據(jù)出現(xiàn)。感知式AI廠分析式AI始于1980s,起源于分析式AI,生成新的內(nèi)容;2022年迎來突破。分析式AI始于1960s,利用邏輯推理等方法進(jìn)行分析和解決;興盛于機(jī)器學(xué)ANIAGI資料來源:智東西,國海證券研究所資料來源:智東西,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明24AIGC發(fā)展歷程:文本、代碼生成技術(shù)較成熟,圖片、視頻生成值得期待深度學(xué)習(xí)算法不斷迭代AIGC僅限于小范圍實驗深度學(xué)習(xí)算法不斷迭代AIGC僅限于小范圍實驗早期萌芽階段給出判定機(jī)器是否具有“智能”的試驗方法進(jìn)行內(nèi)容生成進(jìn)行內(nèi)容生成沉淀積累階段2007年,世界第一部完全由人工智能創(chuàng)作的快速發(fā)展階段20182018年,人工智能生成的畫作在佳士得拍賣行得以43.25萬美元成交,成為首個出售的人IanJ.Goodfellow提出生成《依利亞克組曲》完成將英文演講內(nèi)容自動翻譯為中文語音2017年,微軟“小冰”提出世界首部100%由人工智能創(chuàng)作的詩集《陽光失了玻璃窗》2019年,DeepMind發(fā)布DVD-GAN模型用以“Eliza”問世2018年,英偉達(dá)發(fā)布StyleGAN模型可以自動代碼生成視頻/3D生成資料來源:億歐網(wǎng),紅杉資本,中國信通院《人工智能生成內(nèi)容(資料來源:億歐網(wǎng),紅杉資本,中國信通院《人工智能生成內(nèi)容(AIGC)白皮書》,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明25內(nèi)容創(chuàng)作模式進(jìn)化:去中心化↑連接數(shù)量↑創(chuàng)作速度↑創(chuàng)作規(guī)?!鼊?chuàng)作主體 渲染一鏡頭所見 創(chuàng)意鏡頭所想 創(chuàng)意一設(shè)備創(chuàng)作過程創(chuàng)作規(guī)模創(chuàng)作規(guī)模資料來源:詩云科技,國海證券研究所資料來源:詩云科技,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明26供給導(dǎo)向的真實世界→需求導(dǎo)向的虛擬世界供給導(dǎo)向:真實世界信息的“數(shù)字化”+創(chuàng)意“數(shù)字化”真實世界虛擬世界供給導(dǎo)向的真實世界→需求導(dǎo)向的虛擬世界供給導(dǎo)向:真實世界信息的“數(shù)字化”+創(chuàng)意“數(shù)字化”真實世界虛擬世界!利用真實資源形產(chǎn)品!電商/交易協(xié)作/辦公利用虛擬資源生產(chǎn)和消耗虛低效率的單次生產(chǎn)→高效率的多次生產(chǎn)資料來源:資料來源:rctAI,詩云科技,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明27內(nèi)容創(chuàng)作模式對比:AIGC實現(xiàn)內(nèi)容創(chuàng)作呈高質(zhì)量、大數(shù)量、低成傳統(tǒng)的PGC與UGC模式受到規(guī)模、質(zhì)量和成本的制約,而AIGC則能夠有效地彌補(bǔ)PGC與UGC模式的不足,具有生成內(nèi)容規(guī)模大、質(zhì)量高、單位成本低的優(yōu)勢,將會成為元宇宙在算力與算法支撐下,AIGC內(nèi)容生成規(guī)模所受到的限制遠(yuǎn)低于PGC與UGC,AIGC可以在極短時間內(nèi)生成大量內(nèi)容用戶成為內(nèi)容創(chuàng)作的主角提升了互聯(lián)網(wǎng)的內(nèi)容生產(chǎn)規(guī)模內(nèi)容生產(chǎn)來源于專業(yè)組織或個人,內(nèi)容規(guī)模有限 成本支出隨著內(nèi)容規(guī)模的增加而同比增長,但總成本增長速度PCG>UGC>AIGCPGCUGCAIGC 隨著算法與模型不斷優(yōu)化,AIGC生成內(nèi)容的質(zhì)量將會逐漸超過UGC與PGCPGC生產(chǎn)者的專業(yè)性保證了內(nèi)容質(zhì)量UGC模式下內(nèi)容生產(chǎn)質(zhì)量良莠不齊 單位成本AIGC模式具有顯著的規(guī)模遞減優(yōu)勢,其成本支出主要在于模型算法開發(fā)與硬件等固定成本領(lǐng)域,所以在元宇宙場景下,AIGC生成內(nèi)容規(guī)模越大,其單位內(nèi)容生成的邊際成本將會逐漸下降且無限逼近于零PGC與UGC模式下單位內(nèi)容生產(chǎn)成本下降幅度有限PGCUGC資料來源:《先利其器:元宇宙場景下的資料來源:《先利其器:元宇宙場景下的AIGC及其GLAM應(yīng)用機(jī)遇》王諾等,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明28發(fā)展趨勢生產(chǎn)模式生產(chǎn)主體生產(chǎn)力限制技術(shù)要求生產(chǎn)人生產(chǎn)內(nèi)容機(jī)器輔助審核機(jī)器輔助加工機(jī)器有條件自動生產(chǎn)內(nèi)容機(jī)器高度自動生產(chǎn)內(nèi)容機(jī)器完全自動生產(chǎn)內(nèi)容生產(chǎn)人和機(jī)器生產(chǎn)人和機(jī)器生產(chǎn)人和機(jī)器生產(chǎn)人和機(jī)器生產(chǎn)人和機(jī)器生產(chǎn)人和機(jī)器部分受限部分受限字規(guī)范性核查,人物/機(jī)構(gòu)/地域等實體屬性?在內(nèi)容審核過程中自動?根據(jù)內(nèi)容模板利用線上數(shù)據(jù)自動生成內(nèi)容?采集素材的規(guī)范性與準(zhǔn)確性審核?支持固定位置的線下設(shè)備進(jìn)行數(shù)據(jù)采集?支持根據(jù)已設(shè)定的內(nèi)容模板對原始數(shù)據(jù)進(jìn)行加工后自動生成內(nèi)容?支持可移動設(shè)備自動進(jìn)行數(shù)據(jù)采集AI滲透率↑AI滲透率↑AI滲透率↑AI滲透率↑生產(chǎn)力↑技術(shù)能力↑資料來源:中國新聞技術(shù)工作者聯(lián)合會《機(jī)器生產(chǎn)內(nèi)容自動化分級》團(tuán)體標(biāo)準(zhǔn),國海證券研究所資料來源:中國新聞技術(shù)工作者聯(lián)合會《機(jī)器生產(chǎn)內(nèi)容自動化分級》團(tuán)體標(biāo)準(zhǔn),國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明29二、技術(shù)篇:算力是支撐,數(shù)據(jù)是核心,算法逐步迎來突破請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明30機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)分為訓(xùn)練和推理,數(shù)據(jù)決定上限,算法逼近上限?機(jī)器學(xué)習(xí)可以分為訓(xùn)練和推理兩個階段,訓(xùn)練是指使用已知數(shù)據(jù)集訓(xùn)練機(jī)器學(xué)習(xí)模型;推理是指使用已訓(xùn)練好的模型對新的數(shù)據(jù)進(jìn)行預(yù)測、分類等任務(wù)。?數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,模型和算法逼近上限。訓(xùn)練從原始數(shù)據(jù)訓(xùn)練從原始數(shù)據(jù)根據(jù)分類、回收集數(shù)據(jù)數(shù)據(jù)準(zhǔn)備特征工程模型選擇模型訓(xùn)練模型評估模型調(diào)優(yōu)模型部署和應(yīng)用存儲;數(shù)據(jù)的質(zhì)量和梳理對算法效果至關(guān)重要;也推理數(shù)據(jù)預(yù)處理模型加載輸入轉(zhuǎn)換模型推理輸出轉(zhuǎn)換結(jié)果后處理推理數(shù)據(jù)預(yù)處理模型加載輸入轉(zhuǎn)換模型推理輸出轉(zhuǎn)換結(jié)果后處理結(jié)果展示發(fā)布/開源功能特點的深度神經(jīng)網(wǎng)絡(luò)。期刊發(fā)表論文約80%使用Pytorch。資料來源:各框架官網(wǎng),資料來源:各框架官網(wǎng),EasyAI,GitHub,機(jī)器之心,國海證券研究所(注:GitHubStar為截止2023.3.13主體框架star數(shù)據(jù))請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明31數(shù)據(jù):機(jī)器學(xué)習(xí)的核心,也是機(jī)器學(xué)習(xí)的瓶頸數(shù)據(jù)決定了機(jī)器學(xué)習(xí)算法的性能、泛化能力、應(yīng)用效果;數(shù)據(jù)獲取、標(biāo)注、清洗、存儲也是機(jī)器學(xué)習(xí)瓶頸之一。步驟定義成本占比特點展望通過爬蟲、API接口、數(shù)據(jù)采購等方););來越多,數(shù)據(jù)獲取邊際成本將逐步降低。40%-50%無監(jiān)督學(xué)習(xí)逐漸流行,自動化程度逐步升高簡單數(shù)據(jù)集標(biāo)注需求下降;但專業(yè)領(lǐng)域和復(fù)雜數(shù)據(jù)集仍需要人工標(biāo)注,且人工單位成本更高;隨著人工智能快速發(fā)展,智能化程度的提升,數(shù)據(jù)標(biāo)注全根據(jù)數(shù)據(jù)類型和需求,進(jìn)行缺失值處理、異常值處理、噪聲處理、重復(fù)數(shù)據(jù)處理、數(shù)據(jù)格式轉(zhuǎn)換等。20%-30%提高模型準(zhǔn)確性和可靠性。般可以通過編寫自動化的腳本或者使用一些現(xiàn)成的工具來實現(xiàn),以去除無效或者重復(fù)的數(shù)據(jù);隨著人工智能快速發(fā)展,智能化程度的提升,數(shù)據(jù)清洗全將機(jī)器學(xué)習(xí)算法需要用到的數(shù)據(jù)保存擇合適的數(shù)據(jù)格式存儲,不同格式會影響讀取速度、空間占比等;大規(guī)模數(shù)據(jù)需要選擇合適的數(shù)據(jù)格式存儲,不同格式會取速度、空間占比等;大規(guī)模數(shù)據(jù)集需要進(jìn)行分割資料來源:專家調(diào)研,資料來源:專家調(diào)研,Appen,Defined.ai,Mindflow,PhoenixNAP,EasyAI,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明32算力:隨著模型參數(shù)量的提升,算力需求顯著增加訓(xùn)練大模型的算力消耗上升,且增速變快訓(xùn)練大模型的算力消耗上升,且增速變快算力消耗每24個月翻倍(摩爾定律)算力消耗每3.4個月翻倍←Pre-GPU計算算力消耗每2個月翻倍→GPU計算資料來源:量子位,《IntelligentComputing:TheLatestAdvances,Challenges,andFuture》SHIQIANGZHU等,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明33畫)等。視頻生成3D生成數(shù)字人游戲生成代碼生成跨模態(tài)?2014年提出,由生成器網(wǎng)絡(luò)(Generator)和判別不斷提高生成樣本真實性和判別器準(zhǔn)確性。?優(yōu)點:生成樣本質(zhì)量高,無需大量數(shù)據(jù)標(biāo)注,適用于多種數(shù)據(jù)類型,可用于數(shù)據(jù)增強(qiáng)。需要大量計算資源,容易過擬合。視頻生成、實時交互?視頻生成、實時交互?2019年提出,多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練,實現(xiàn)多種模態(tài)數(shù)據(jù)的聯(lián)合表示。?優(yōu)點:泛化能力、數(shù)據(jù)利用率、模型魯棒性和可遷移性高。rctAI、超參數(shù)、騰訊AIrctAI、超參數(shù)、騰訊AILab、網(wǎng)易伏羲等。?策略生成:對戰(zhàn)策略等。代碼補(bǔ)全、自動注釋、根據(jù)上下文/注釋自動代碼補(bǔ)全、自動注釋、根據(jù)上下文/注釋自動視頻生成文本等;未來將有更多跨模態(tài)應(yīng)用進(jìn)步,不需要明確地計算數(shù)據(jù)的先驗概率分布。通過“擴(kuò)散”來執(zhí)行隱空間中的推斷。較低。ImproveModelRobustnessandUncertainty》HendrycksAIGC模型:參數(shù)量持續(xù)提升、開源模型逐漸豐富谷歌Goper(280B)LaMDAGoper(280B)百度Ernie3.0Titan(260B)InspurA121LabsJurassicA121LabsJurassic-1(204B)Yuan1.0(246B)BigScienceBLOOM(176B)MetaGPT-3(175B)OPTBigScienceBLOOM(176B)MetaGPT-3(175B)OPT(175B)谷歌FLAN(137B)MegatronTuring-NLG(137B)GPT-NeoX(20B)華為盤古(200B)清華大學(xué)GLM(130B)GPT-j(6B)小模型階段小模型(smallmodels)占主規(guī)模競賽階段GoogleResearch的一篇里程碑式練和運(yùn)行所需的成本。開發(fā)人員的谷歌PaLM(540B)谷歌PaLM(540B)資料來源:紅杉資本,《資料來源:紅杉資本,《stateofAIreport2022》,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明35參數(shù)較少,訓(xùn)練速度更快。流動,并引入記憶單元,解決了梯度消失問題,可處理更長序列。1998年正式提出,具備參數(shù)共享和平移類和匹配任務(wù);但不擅長捕捉序列中的長期依賴關(guān)系,1990s興起,可處理任一長度輸入序列,同時具有記憶功能;但容易出現(xiàn)梯度消失或梯度爆炸。近年來逐步發(fā)展,基于GNN,引入異質(zhì)性注意力機(jī)制,捕捉不同類型的節(jié)近年來逐步發(fā)展,基于GNN,引入異質(zhì)性注意力機(jī)制,捕捉不同類型的節(jié)卷積神經(jīng)網(wǎng)絡(luò)適應(yīng)地學(xué)習(xí)不同位置的重要性,從而更好地捕捉文本中的重要信息;可以并行計算,因此模型發(fā)布時間發(fā)布者特點?目前主要是無監(jiān)督學(xué)習(xí),因此對于文本處發(fā)展性GPT2018OpenAI單向自回歸方式來預(yù)訓(xùn)練模型,可以生成連貫的文本,但可能存在信息丟失的問題BERT2018谷歌雙向訓(xùn)練架構(gòu),從而可以適應(yīng)各種下游任務(wù),但需要更多的文本數(shù)據(jù)和訓(xùn)練資源。RoBERTa2019MetaBERT的改進(jìn),去掉了下一句預(yù)測任務(wù),更大規(guī)模的數(shù)據(jù)集和動態(tài)掩碼,較BERT提升模型魯棒性和泛化能力,但訓(xùn)練和推理的計算成本更高,訓(xùn)練時間更長,訓(xùn)練數(shù)據(jù)要更多。XLNet2019CMU、谷歌BERT的改進(jìn),自回歸+自編碼訓(xùn)練,較BERT具有更好的建模能力、更強(qiáng)泛化能力,但需要更多的訓(xùn)練數(shù)據(jù)和更高的計算成本。T52019谷歌通用型的文本生成模型,適用各種NLP任務(wù),但需要大量計算資源和時間,在某些任務(wù)上的性能略遜于特定領(lǐng)域模型。SwitchTransformer2021谷歌1.6萬億參數(shù)(2021.1),目前參數(shù)量最大的NLP模型;基于T5模型,采用創(chuàng)新的簡化稀疏路由機(jī)制,相較傳統(tǒng)自回歸模型,在效率、可擴(kuò)展性和生成質(zhì)量等都具備較大優(yōu)勢,但需要更大的模型和更多的訓(xùn)練數(shù)據(jù)。資料來源:資料來源:EasyAI,機(jī)器之心,《EmpiricalEvaluationofGatedRecurrentNeuralNetworksonSequenceModeling》JunyoungChung等,《Gradient-BasedLearningAppliedtoDocumentRecognition》YannLeCun等,《HeterogeneousGraphNeuralNetwork》ChuxuZhang等,《AttentionIsAllYouNeed》AshishVaswani等,OpenAI官網(wǎng),《ImprovingLanguageUnderstandingbyGenerativePre-Training》AlecRadford等,《BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding》JacobDevlin等,《RoBERTa:ARobustlyOptimizedBERTPretrainingApproach》Y《XLNet:GeneralizedAutoregressivePretrainingforLanguageUnderstanding》ZhilinYang等,《ExploringtheLimitsofTransferLearningwithaUnifiedText-to-TextTransformer》ColinRaffel等,《SwitchTransformers:ScalingtoTrillionParameterModelswithSimpleandEfficientSparsity》WilliamFedus等,請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明36Transformer模型——特征提取器資料來源:《Attentionisallyouneed》Vaswani等,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明37?例:翻譯Theanimaldidn’tcros而Self-Attention機(jī)制的引入使得模型不僅能夠關(guān)注當(dāng)前位置法。在英譯德測試中,TransformerBaBLEU值顯著高于兩款基于RNN和CN機(jī)器翻譯能力;在英譯法測試中,亦有三款Tr50英譯德英譯法2015-11-112018-62019-2-1422015-11-112018-62019-2-142?初期為非盈利AI研究公司性質(zhì);?啟動資金10億美元。BooksCorpus數(shù)據(jù)集作為語料庫,Tokens為1.3B;?結(jié)合無監(jiān)督學(xué)習(xí)及有監(jiān)督的微調(diào)。?參數(shù)量15億;監(jiān)督情況下執(zhí)行多種任務(wù)。?結(jié)合少樣本學(xué)習(xí)及無監(jiān)督學(xué)習(xí)。InstructGPT發(fā)布?參數(shù)量13億;?運(yùn)用RHLF,利用獎勵模型訓(xùn)練學(xué)習(xí)模型;?在遵循指令及輸出內(nèi)容等性能方面優(yōu)于GPT-3。?基于GPT-3.5預(yù)訓(xùn)練?截至2023年1月末,活躍用戶超過1億,成為史上用戶增長最快的應(yīng)用。?預(yù)計為多模態(tài)大模型(語音、圖像、視頻);ChatGPT4。ChatGPT發(fā)布后市場反應(yīng)熱烈算力、數(shù)據(jù)、人才、資金的投入算力、數(shù)據(jù)、人才、資金的投入杰出的用戶體驗算法的突破算法的突破對于通用任務(wù)的效果會顯著提升;):該學(xué)習(xí)方式使得ChatGPT在無人工標(biāo)注數(shù)據(jù)的條件訓(xùn)練,數(shù)據(jù)更?RLHF(ReinforcementLearningFromHumanFeedba資料來源:資料來源:OpenAI官網(wǎng),通信世界網(wǎng),芯東西,每日智匯,澎湃新聞,《ImprovingLanguageUnderstandingbyGenerativePre-Training》AlecRadford等,《LanguageModelsareFew-ShotLearners》TomB.Brown等,《Traininglanguagemodelstofollowinstructionswithhumanfeedback》LongOuyang等,Heise,GitHub,《What‘sinmyAI》AlanD.Thompson,LifeArchitect,國海證券研究所請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明38ChatGPT-算法:當(dāng)模型規(guī)模達(dá)到某個閾值時,模型誤差結(jié)論是:模型的表現(xiàn)與模型的規(guī)模之間服音標(biāo)標(biāo)注填字謎音標(biāo)標(biāo)注填字謎波斯語問答準(zhǔn)確率準(zhǔn)確率準(zhǔn)確率繪制地圖多任務(wù)自然語言理解準(zhǔn)確率繪制地圖多任務(wù)自然語言理解《EmergentAbilitiesofLargeLangu請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明39資料來源:《ScalingLawsforNeuralLanguageMo請務(wù)必閱讀報告附注中的風(fēng)險提示和免責(zé)聲明39GPT-3采用無監(jiān)督學(xué)習(xí)機(jī)制,優(yōu)點在于無需人工進(jìn)行數(shù)據(jù)而ChatGPT采用RLHF學(xué)習(xí)機(jī)制,即人工反饋的強(qiáng)化學(xué)習(xí),屬于強(qiáng)化學(xué)習(xí)。不同于傳統(tǒng)的相比于傳統(tǒng)的有監(jiān)督學(xué)習(xí)機(jī)制,ChatGPT無需提前對訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注,而只需要對有監(jiān)督學(xué)習(xí)有監(jiān)督學(xué)習(xí)vs無監(jiān)督學(xué)習(xí)RLHF學(xué)習(xí)機(jī)制無標(biāo)簽的數(shù)據(jù)模型無標(biāo)簽的數(shù)據(jù)模型高
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東云浮中醫(yī)藥職業(yè)學(xué)院《試驗設(shè)計及數(shù)據(jù)處理》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東郵電職業(yè)技術(shù)學(xué)院《數(shù)據(jù)庫管理課程設(shè)計》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東以色列理工學(xué)院《環(huán)境管理綜合實訓(xùn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2024年短期租房協(xié)議:租客權(quán)益保障版3篇
- 2024年環(huán)保能源投資收益按比例分配股權(quán)買賣定金協(xié)議書3篇
- 2024石材安裝班組項目承包及安全生產(chǎn)協(xié)議2篇
- 廣東司法警官職業(yè)學(xué)院《商務(wù)禮儀和商務(wù)談判實訓(xùn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東省外語藝術(shù)職業(yè)學(xué)院《傳統(tǒng)中國畫研習(xí)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東輕工職業(yè)技術(shù)學(xué)院《高等代數(shù)Ⅰ》2023-2024學(xué)年第一學(xué)期期末試卷
- 安徽省淮南市、淮北市2025屆高三上學(xué)期第一次質(zhì)量檢測試題 英語 含解析
- 2022-2023學(xué)年浙江省杭州市蕭山區(qū)五年級(上)期末科學(xué)試卷(蘇教版)
- 船舶輔機(jī):噴射泵
- 巖土工程勘察服務(wù)投標(biāo)方案(技術(shù)方案)
- 疼痛護(hù)理課件
- 副院長兼總工程師的崗位說明書
- 農(nóng)民專業(yè)合作社章程參考
- 財務(wù)會計制度及核算軟件備案報告書
- 肌骨超聲簡介
- 高一家長會課件ppt
- 神經(jīng)外科臨床實習(xí)教學(xué)計劃
- 基本光刻工藝流程
評論
0/150
提交評論