




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
內(nèi)容目錄距離AGI還有多遠(yuǎn):語言大模型較為成熟,處于EmergingAGI水平 4如何實現(xiàn)Law仍有深入空間,底層算法框架有待升級 7ScalingLaw:中短期內(nèi),持續(xù)擴(kuò)大參數(shù)量仍能改善模型表現(xiàn) 9算法改進(jìn):骨干網(wǎng)絡(luò)架構(gòu)仍有創(chuàng)新空間,微調(diào)及稀疏結(jié)構(gòu)能夠提升性價比 10如何商業(yè)落地:借力模型開源及B端合作,尋找高人工替代率的場景 17開源模型vs閉源模型Law不再之后,找場景或優(yōu)于做模型 17如何定義一個好場景?——“幻覺”尚未消除的世界,高人工替代率或為重點 18如何處理“幻覺”?——ScalingLaw信仰派vs引入知識圖譜改良派 19投資建議 20風(fēng)險提示 23圖表目錄圖表1:AGI可以根據(jù)性能和廣泛性劃分為6個等級 4圖表2:大模型可根據(jù)功能進(jìn)行分類 4圖表3:海內(nèi)外語言及多模態(tài)大模型進(jìn)展概覽 5圖表4:海內(nèi)視覺及其他大模型進(jìn)展概覽 5圖表5:機(jī)器人涉及到的模型種類較多 6圖表6:將架構(gòu)應(yīng)用于機(jī)器人決策、控制等成為現(xiàn)階段重要趨勢 6圖表7:各類大模型能力現(xiàn)狀 7圖表8:以布局為例,看AGI發(fā)展路徑 8圖表9:大模型訓(xùn)練主要環(huán)節(jié) 8圖表10:多重因素決定模型性能 9圖表模型性能隨著模型大小、數(shù)據(jù)集大小和訓(xùn)練所用計算量的增加呈現(xiàn)冪律提升 9圖表12:參數(shù)規(guī)模更大的語言模型在訓(xùn)練過程中的樣本效率更高且性能提升更快 10圖表13:模型參數(shù)規(guī)模對于性能提升的貢獻(xiàn)度更高 10圖表14:模型結(jié)構(gòu)及自注意力機(jī)制原理 11圖表15:根據(jù)底層骨干網(wǎng)絡(luò)差異可以將大模型分為三類 12圖表16:三種骨干網(wǎng)絡(luò)特點對比 12圖表17:智譜在多項任務(wù)中能力肩GPT-4 13圖表18:Meta-Transformer模型能夠處理12種非成對的模態(tài)數(shù)據(jù) 13圖表19:擴(kuò)散模型示意圖 14圖表20:Diffusion模型結(jié)構(gòu) 14圖表21:針對的創(chuàng)新研究持續(xù)推進(jìn) 14圖表22:中的技術(shù) 15圖表23:Llama-2對的獎勵模型進(jìn)行改進(jìn) 15圖表24:針對架構(gòu)大模的PEFT微調(diào)方法 16圖表25:結(jié)構(gòu)中只激活部分網(wǎng)絡(luò) 16圖表26:2023年生式融資額度與融資筆數(shù)快速提升 17圖表27:開源模型性能改善速度快于閉源模型 18圖表28:AGI演進(jìn)過程中的應(yīng)用場景分類 19圖表29:連接主義符號主義 20圖表30:知識圖譜通過機(jī)器學(xué)習(xí)和自然語言處理來構(gòu)建節(jié)點、邊和標(biāo)簽的全面視圖 20圖表31:大模型向AGI演進(jìn),模型訓(xùn)練產(chǎn)業(yè)鏈有望持續(xù)收益 21圖表32:算力產(chǎn)業(yè)圖譜 22圖表33:建議關(guān)注賦能細(xì)分場景的龍頭企業(yè) 222022月ChatGPT202320233月,G-420242Sora面世,大模型在視頻生成領(lǐng)域AGI(ArtificialgeneralIntelligence,通用人工智能)的討論熱度日益提升。本文主要盤點目前各類主流大模型性能情況,試圖討論大模型性能提升并最終實現(xiàn)AGI的可能路徑,并分析在實現(xiàn)AGI過程中的相關(guān)產(chǎn)業(yè)鏈投資機(jī)會。AGIEmergingAGIDeedMindAGIShaneLegg的定義,AGI能夠執(zhí)行一般人AGI水Level-0Level-56個等級。圖表1:AGI可以根據(jù)性能和廣泛性劃分為6個等級等級主要特征Level-0無人工智能(NarrowNon-AI)只能完成明確定義的任務(wù),比如計算器軟件或編譯器Level-1初現(xiàn)(EmergingAGI)某些任務(wù)上已經(jīng)達(dá)到了初現(xiàn)AGI的水平Level-2熟練(CompetentAGI)型在某些任務(wù)上已經(jīng)接近熟練AGI的水平Level-3專家(ExpertAGI)在大多數(shù)任務(wù)上能夠達(dá)到專家人類的水平Level-4大師(VirtuosoAGI)在大多數(shù)任務(wù)上能夠達(dá)到頂尖人類的水平Level-5超越人類(SuperhumanAGI)在所有任務(wù)上都能超過100%的人類來源:《LevelsofAGI:OperationalizingProgressonthePathtoAGI》,GPT-4Gemini1.5Claude3在處理能夠高質(zhì)量完成文生視頻任務(wù),圖表2:大模型可根據(jù)功能進(jìn)行分類模型分類主要內(nèi)容代表模型語言大模型專注于處理自然語言,能夠理解、生成和處理大規(guī)模文本數(shù)據(jù)用于機(jī)器翻譯、文本生成、對話系統(tǒng)等任務(wù)ChatGPT、Llama視覺大模型專注于計算機(jī)視覺任務(wù),如圖像分類、目標(biāo)檢測、圖像生成等能夠從圖像中提取有關(guān)對象、場景和結(jié)構(gòu)信息ViT、SAM多模態(tài)大模型多模態(tài)大模型能夠處理文圖融合、圖像描述、文生視頻等任務(wù)、Claude3策略大模型AlphaGo、RT-1/2/H來源:金科應(yīng)用研院公眾號,2020發(fā)布后進(jìn)入OpenAIGPT系列、GoogleGemini系列、MetaLLaMAAnthropic旗下的aude3OusL(ndergraduateLevelnoedge、G8(GradechoolathG(utngualath8523年3月谷歌發(fā)布的aL-5,60haGT的3.2242Gemini1.5tokens(311小時視頻圖表3:海內(nèi)外語言及多模態(tài)大模型進(jìn)展概覽來源:《LargeLanguageModels:ASurvey》,《ASurveyofLargeLanguageModels》,洞見學(xué)堂公眾號,機(jī)器之心公眾號,級市平臺公眾號,新智元公眾號,阿里云開發(fā)者社區(qū),京東技術(shù)公眾號,中國科學(xué)基金公眾號,數(shù)據(jù)派THU公眾號,浙江省軟件行業(yè)協(xié)會公眾號,深圳大學(xué)可視計算研究中心公眾號,量子位公眾號,鈦媒體AGI公眾號,彭博Bloomberg公眾號,騰訊科技公眾號,百度AI公眾號,鵬城實驗室公眾號,CSDN公眾號,文心大模型公眾號,中國人工智能學(xué)會公眾號,騰訊開發(fā)者公眾號,阿里云公眾號,商湯智能產(chǎn)業(yè)研究院公眾號,36氪,科大訊飛公眾號,科大訊飛開發(fā)者平臺,GLM大模型公眾號,阿里通義千問公眾號,2014年的GAN框架,2021年OpenAI發(fā)布DALL-E、OpenAIDALL-E2、StabilityStable2OpenAI圖表4:海內(nèi)視覺及其他大模型進(jìn)展概覽來源:《LargeLanguageModels:ASurvey》,《Improvedproteinstructurepredictionusingpotentialsfromdeeplearning》,《High-ResolutionImageSynthesiswithLatentDiffusionModels》,機(jī)器之心公眾號,新智元公眾號,信息與電子工程前沿公眾號,級市平臺公眾號,AI科技評論公眾號,AIGC開放社區(qū)公眾號,騰訊研究院公眾號,中國生物技術(shù)網(wǎng)公眾號,數(shù)據(jù)派THU公眾號,阿里云公眾號,智源社區(qū)公眾號,百度AI公眾號,中國企業(yè)家俱樂部公眾號,商湯科技SenseTime公眾號,商湯智能產(chǎn)業(yè)研究院公眾號,AIGC視界公眾號,飛書公眾號,搜狐科技公眾號,AIGCResearch公眾號,智東西公眾號,4圖表5:機(jī)器人涉及到的模型種類較多來源:《LargeLanguageModelsforRobotics:ASurvey》,2021視覺-語言模型)CLIP;2022系列模型,同Transformer243FigureOpenAIFigure01提供視覺推理和語言理解能力,F(xiàn)igure01能夠描述看到的一切情況、規(guī)劃未來的行動、語音輸出推理結(jié)果等。圖表6:將Transformer架構(gòu)應(yīng)用于機(jī)器人決策、控制等成為現(xiàn)階段重要趨勢模型名稱發(fā)布時間發(fā)布機(jī)構(gòu)功能類別主要內(nèi)容CLIP2021OpenAI感知-VLMEncoderImageEncoder兩個模塊,分別提取文本和圖像特征,然后基于比對學(xué)習(xí)讓模型學(xué)習(xí)到文本-圖像的匹配關(guān)系;CLIP使用大規(guī)模數(shù)據(jù)(4億文本-圖像對)進(jìn)行訓(xùn)練,基于海量數(shù)據(jù),CLIP模型可以學(xué)習(xí)到更多通用的視覺語義信息,可應(yīng)用于圖像文本匹配、圖像文本檢索等任務(wù)。LM-Nav2022谷歌計劃LLM\VLM\VNM三個模型的結(jié)合,LLMVLM用于將文本地標(biāo)與圖像關(guān)聯(lián),而用于執(zhí)行導(dǎo)航任務(wù);的三個預(yù)訓(xùn)練模型得出執(zhí)行計劃。RT-12022谷歌決策、控制建立在一個transformertokenized動作;可以以97%的成功率執(zhí)行多個訓(xùn)練指令,并且可以泛化到新的任務(wù)、干擾因素和背景。PaLM-E2023.3谷歌感知控制PaLM-540BTransformer最5620億,其訓(xùn)練數(shù)據(jù)為包含視覺、連續(xù)狀態(tài)估計和文本輸入編碼的多模式語句;PaLM-E不僅可以指導(dǎo)機(jī)器人完成各種復(fù)雜的任務(wù),還能生成描述圖像的語言。RT-22023.7谷歌控制Transformer架構(gòu)的視覺-語言-動作模型,能夠從網(wǎng)絡(luò)和機(jī)器人數(shù)據(jù)中進(jìn)行學(xué)習(xí),并將這些知識轉(zhuǎn)化為機(jī)器人可以控制的通用指令32%62%RT-X2023.10谷歌感知、決策控制TransformerRT-1-XRT-2-X組成。RT-1-X模50%RT-2-X3倍,動作指令也可從傳統(tǒng)的絕對位置拓展至相對位置RT-H2024.3谷歌控制高任務(wù)執(zhí)行的準(zhǔn)確性和學(xué)習(xí)效率;的比低大約20%據(jù)集中的離線行動預(yù)測來源:極市平臺公眾號,DeepTech深科技公眾號,機(jī)器之心公眾號,OSC開源社區(qū)公眾號,按照DeepMind6級AGILevel-1EmergingAGI階段。具體而言,各類大模型成熟度:語言大模型>多模態(tài)大模型>具身智能類大模型。TransformerDecoder-only架構(gòu),結(jié)合OE和多模態(tài)ebeddngG-4Geni15、Claude3B\CDiffusionTransformer,但細(xì)節(jié)優(yōu)化空間較大,高質(zhì)量和成規(guī)模的數(shù)據(jù)集仍在發(fā)展初期;圖表:各類大模型能力現(xiàn)狀模型分類主要內(nèi)容語言大模型常規(guī)測試:超越入門級人類,距離特定領(lǐng)域?qū)<疫€有一定差距;常識入門數(shù)學(xué)基礎(chǔ)科學(xué)正確率高,面對復(fù)雜任務(wù)(如研究生級別、競賽類問題等)還有差距;長文本:10Mtokens代碼生成:簡單任務(wù)正確率高,復(fù)雜任務(wù)(工業(yè)級、競賽級等)仍有差距多模態(tài)理解:定性分析能力較高,但定量分析錯誤率較高多模態(tài)大模型基本生成:風(fēng)格不穩(wěn)定較難控制;語義理解:prompt;清晰度:4K以上,基本滿足商業(yè)應(yīng)用但生成速度較慢;一致性連貫性:60s,但仍不夠穩(wěn)定具身智能類大模型技術(shù)路徑多,在物體距離、材質(zhì)關(guān)鍵信息的提取和識別等任務(wù)中表現(xiàn)不穩(wěn)定,需要依靠執(zhí)行過程中動態(tài)調(diào)整;在簡單任務(wù)(如家庭環(huán)境中的簡單操作)多步驟任務(wù)中不可用,新任務(wù)泛化能力弱,并且延遲較為嚴(yán)重;運(yùn)控算法:hard-coding來源:彬復(fù)資本公眾號,AGI:ScalingLawOpenAIAGI3個階段,目前處于多模融2AGIGPT-4Sora等。預(yù)計這兩種能力會在后續(xù)的大模型發(fā)展中進(jìn)一步融合。。因此,現(xiàn)階段討論AGI能力提升仍需聚焦于多模態(tài)大模型的訓(xùn)練和應(yīng)用,在多模理解和多模生成能力較好融合后,再推演具身智能的模型框架、訓(xùn)練方法會更加清晰。圖表8:以O(shè)penAI布局為例,看AGI發(fā)展路徑來源:階躍星辰公眾號,圖表9:大模型訓(xùn)練主要環(huán)節(jié)來源:《LargeLanguageModels:ASurvey》,ScalingLaw的天花板在哪里?ScalingLaw圖表10:多重因素決定模型性能來源:ScalingLaw:中短期內(nèi),持續(xù)擴(kuò)大參數(shù)量仍能改善模型表現(xiàn)OpenAI通過研究證明,隨著模型大小、數(shù)據(jù)集大小和訓(xùn)練所用計算量的增加,語言模型的性能也會穩(wěn)步提高。為了獲得最佳性能,這三個因素必須同時放大:1)當(dāng)不被其他兩個因素瓶頸限制時,模型性能表現(xiàn)與每個單獨的因素之間存在冪律關(guān)系;2)在其他兩個因素充足的前提下,模型表現(xiàn)和第三個因素成冪方關(guān)系。圖表11:模型性能隨著模型大小、數(shù)據(jù)集大小和訓(xùn)練所用計算量的增加呈現(xiàn)冪律提升來源:《ScalingLawsforNeuralLanguage》,Loss模型的性能越好。ScalingLaw仍是提高模型性能的最優(yōu)方法:(比n次浮點計算)DN不固定時,OpenAI圖表12:參數(shù)規(guī)模更大的語言模型在訓(xùn)練過程中的樣本效率更高且性能提升更快來源:《ScalingLawsforNeuralLanguage》,圖表13:模型參數(shù)規(guī)模對于性能提升的貢獻(xiàn)度更高來源:《ScalingLawsforNeuralLanguage》,OpenAIScalingLaw88萬億及之前ScalingLawGPT-5參數(shù)量預(yù)計達(dá)到101,30088算法改進(jìn):骨干網(wǎng)絡(luò)架構(gòu)仍有創(chuàng)新空間,微調(diào)及稀疏結(jié)構(gòu)能夠提升性價比20233基于Transformer,在架構(gòu)選擇、多模態(tài)融合、自注意力機(jī)制方面進(jìn)行創(chuàng)新2017Transformer。RNN、等多個模態(tài),Transformer的提出使得多任務(wù)、多模態(tài)的底層算法得到統(tǒng)Transformer\解碼器選擇、多模態(tài)融合、自注意力機(jī)制等方面有所創(chuàng)新。圖表14:Transformer模型結(jié)構(gòu)及自注意力機(jī)制原理來源:《AttentionIsAllYouNeed》,針對Transformer的編碼器-解碼器(Encoder-Decoder)結(jié)構(gòu)進(jìn)行拆分選擇:Transformer模型采用編碼器-;而解碼器的任Encoder-only、Encoder-Decoder、Decoder-only3Encoder-onlyBertEncoder-Decoder架構(gòu)的模型有谷歌的T5等;OpenAI的GPTAnthropicClaudeMetaLLaMADecoder-Only架構(gòu)。圖表15:根據(jù)底層骨干網(wǎng)絡(luò)差異可以將大模型分為三類來源:《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》,Decoder-OnlyEncoder-Only架構(gòu)的BertMaskedLM(隨機(jī)遮蓋句子中若干token讓模型恢復(fù))SentencePrediction(),訓(xùn)練目標(biāo)與文本生成不直接對應(yīng);2)推理效率方面,Encoder-DecoderDecoder-Only架構(gòu)均能圖表16:三種骨干網(wǎng)絡(luò)特點對比骨干架構(gòu)主要特點Encoder-Only核心思想是利用神經(jīng)網(wǎng)絡(luò)對輸入文本進(jìn)行編碼,提取其特征和語義信息,并將編碼結(jié)果傳遞給后續(xù)處理模塊Encoder-Decoder通常用于序列到序列任務(wù),如機(jī)器翻譯、對話生成等;話生成等任務(wù)的準(zhǔn)確性;缺點是模型復(fù)雜度高、訓(xùn)練時間和計算資源消耗較大Decoder-Only常用于序列生成任務(wù),如文本生成、機(jī)器翻譯等,可以進(jìn)行無監(jiān)督與訓(xùn)練;能夠從已有的信息擴(kuò)展出新的內(nèi)容,但需要大量的訓(xùn)練數(shù)據(jù)來提高生成文本的質(zhì)量和多樣性來源:《HarnessingthePowerofLLMsinPractice:ASurveyonChatGPTandBeyond》,Paperweekly公眾號,極市平臺公眾號,Encoder-Decoder務(wù)融合領(lǐng)域?qū)崿F(xiàn)反超。清華大學(xué)和智譜公司共同研發(fā)的GLM系列模型采用Encoder-Decoder241最新版本,模型在基礎(chǔ)能力(英文(中英GPT-490%(中文GPT-4DALLE-3GLM4智能體定制功能。圖表17:智譜GLM-4在多項任務(wù)中能力比肩GPT-4來源:GLM大模型公眾號,Transformer+其他現(xiàn)有算法,推進(jìn)多模態(tài)性能提升:(Self-Attention)Q/K/VQ向量可以看作是某個人的關(guān)注點,VK向量可以看作是人對QK向量的點乘,可以得出一個值,表示這V向量相乘,以表示事物在這和重要性,而各種模態(tài)的信息均可以通過一定方式轉(zhuǎn)化為一維長序列,因而Transformer具備處理多模態(tài)問題的能力。LabMeta-Transformer12X光、紅外等。圖表18:Meta-Transformer模型能夠處理12種非成對的模態(tài)數(shù)據(jù)來源:《Meta-Transformer:AUnifiedFrameworkforMultimodalLearning》,Transformer2Sora,主要根據(jù)Diffusion(Diffusion)是一種圖DiT模型ransfrerpathesTransformer鳥瞰視圖)Transformer相結(jié)合,已經(jīng)成為目前自動駕駛領(lǐng)域主流感知框架,并在眾多輔助駕駛產(chǎn)品中量產(chǎn)應(yīng)用。圖表擴(kuò)散模型示意圖 圖表20:DiffusionTransformer模型結(jié)構(gòu)來源:極市平臺公眾號, 來源:《ScalableDiffusionModelswithTransformers》,基于結(jié)構(gòu)的探索持續(xù)推進(jìn),有望推動骨干網(wǎng)絡(luò)升級。Transformer2017年發(fā)布后對深度學(xué)習(xí)領(lǐng)域產(chǎn)生顛覆性影響,學(xué)界在持續(xù)探索改Transformer的創(chuàng)新嘗試包括模塊Transformer架構(gòu)上做出改進(jìn),由此可以顯-π(7B)在多任務(wù)上超LLaMA210%的推理加速。圖表21:針對Transformer的創(chuàng)新研究持續(xù)推進(jìn)改進(jìn)維度相關(guān)論文改進(jìn)方法自注意力機(jī)制RethinkingAttention:ExploringShallowFeed-ForwardNeuralNetworksasanAttentionLayersinTransformersTransformer中注意力層的替代方案,通過消融FLattenTransformer:VisionTransformerusingFocusedLinearAttention使用聚焦線性注意力的視覺Transformer,該模塊適用于多種視覺轉(zhuǎn)換器,并在多個基準(zhǔn)測試中實現(xiàn)了性能提升Transformer架構(gòu)SimplifyingTransformerBlocks層,以簡化結(jié)構(gòu)。在自回歸解碼器和BERT編碼器模型實驗中,簡化版Transformer15%TokenMerging:YourViTButFaster提出了令牌合并方法,使用準(zhǔn)確的匹配算法將相似標(biāo)記組合在一起,使得圖像和視頻吞吐量大幅提升,精度下降很小。EffcientLong-RangeTransformers:提出一種轉(zhuǎn)換器變體MASFormer,使用混合注意跨度來高效處理遠(yuǎn)程和短程依賴關(guān)系。在自然語言建模和生成任務(wù)中,MASFormer表現(xiàn)出與普通變壓器相當(dāng)?shù)男阅埽嬎愠杀撅@著降低(高達(dá)75%)YouNeedtoAttendMore,butNotNecessarilyatEveryLayer精度與效率平衡EfficientViT:MemoryEfficientVision提出了一種稱為Efficient的高速視覺Transformer,為了提高現(xiàn)有transformerTransformerwithCascadedGroupAttention來源:CDSN,
微調(diào)方法的改進(jìn)促進(jìn)模型性能和落地效率提升“基礎(chǔ)模型微調(diào)”已成為大模型開發(fā)范式,通過微調(diào)讓基礎(chǔ)模型針對特定任務(wù)類型、應(yīng)目前大模型的微調(diào)方法可以分為全量微調(diào)(FullFine-tuning)和參數(shù)高效微調(diào)(PEFT,Parameter-EfficientFine-Tuning)兩種:ChatGPT(InstructGPT)使模型輸出內(nèi)容237月,MetaLlama-2-chat圖表22:InstructGPT中的RLHF技術(shù)來源:《Traininglanguagemodelstofollowinstructionswithhumanfeedback》,圖表23:Llama-2對RHLF的獎勵模型進(jìn)行改進(jìn)來源:《Llama2:Openfoundationandfine-tunedchatmodels》,機(jī)器之心公眾號,參數(shù)高效微調(diào):旨在通過最小化微調(diào)參數(shù)數(shù)量和計算復(fù)雜度,實現(xiàn)高效的遷移學(xué)習(xí)。PEFTLoRA、PrefixTuning、Prompt、Adapter等多種方LoRALoRA時可以節(jié)省33%GPU內(nèi)存。圖表24:針對Transformer架構(gòu)大模型的PEFT微調(diào)方法來源:CSDN,2.3.3使用MoE進(jìn)行任務(wù)分割,更高效地利用計算資源2種:1)使用稠密結(jié)構(gòu)的大模型在計算時需要激活整個GPT-3AI大模型中;2)稀疏結(jié)構(gòu)混合專家模型,通過將輸入數(shù)據(jù)根據(jù)任務(wù)類型分割成多個區(qū)域,圖表25:MoE結(jié)構(gòu)中只激活部分網(wǎng)絡(luò)來源:《OutrageouslyLargeNeuralNetwork》,訓(xùn)練挑戰(zhàn):化能力不足的問題,長期以來易于引發(fā)過擬合現(xiàn)象。推理挑戰(zhàn):模型雖然可能擁有大量參數(shù),但在推理過程中只使用其中的一部分,如何商業(yè)落地:借力模型開源及B開源模型vs閉源模型?——Scaling不再work之后,找場景或優(yōu)于做模型本輪底層模型創(chuàng)業(yè)需求依賴資本密集的人才與算力持續(xù)投入。據(jù)BofAGLOBAL419~224年融資總額;2023426筆,同65.8%2023AI創(chuàng)業(yè)公大模型創(chuàng)業(yè)公司對人才、算力需求較大所致,變相說明模型創(chuàng)業(yè)相對資本密集,對于持續(xù)高額融資的需求較為旺盛。圖表26:2023年生成式AI融資額度與融資筆數(shù)快速提升0
4262542571601179916294321820125425716011799162943218
600%500%400%300%200%100%0%-100%生成式AI融資額度(億美元) 生成式AI融資筆數(shù)(筆)生成式AI融資額度YoY(右軸,%) 生成式AI融資筆數(shù)YoY(右軸,%)來源:BofAGLOBALRESEARCH,CBInsights,開源模型快速追趕閉源模型,開源模型性能優(yōu)化速度快于閉源模型。AI底層模型創(chuàng)業(yè)客觀上、依托投資人的持續(xù)投入,以支撐模型訓(xùn)練對于尖端人才與大規(guī)模算力的需求。(killerMaaS(ModelasaService,模型即服務(wù))公司都應(yīng)該自研大模型;另一方面,在國內(nèi)外眾多創(chuàng)業(yè)者投身底層模型研發(fā)的過程中,AI大模型第一梯隊的Law的世界中,開源模型遲早會追平(或無限接近)閉源模型性能不必重新造輪子,中長期看找應(yīng)用場景優(yōu)于卷大模型。BofAGLOBALRESEARCH,目前開源模型性能優(yōu)化速度快于閉源模型,我們認(rèn)為,大模型紛紛進(jìn)軍萬億參數(shù),且不遠(yuǎn)的將來大模型將逐步逼近十萬億參數(shù)科技浪潮而言,找場景或優(yōu)于做模型。圖表27:開源模型性能改善速度快于閉源模型來源:BofAGLOBALRESEARCH,如何定義一個好場景?——“幻覺”尚未消除的世界,高人工替代率或為重點廠商而言或?qū)⒊蔀楦鼉?yōu)的投入方向。結(jié)合我們上一篇AI行業(yè)研究報告——《AI應(yīng)用落地的商業(yè)模式探索》與本篇報告前述章節(jié)的討論,我們認(rèn)為AI落地場景大致可以分為5類:第一類-真實世界中基于具身智能的應(yīng)用場景。第二類-虛擬世界中場景更需要“生成”為主,且現(xiàn)階段可以替代人工的場景。第三類-虛擬世界中場景更需要“生成”為主,且現(xiàn)階段不可以替代人工的場景。第四類-虛擬世界中場景更需要“分析”為主,且容錯率較低的場景。第五類-虛擬世界中場景更需要“分析”為主,且容錯率較高的場景。已經(jīng)落地的場景往往對“幻覺”具備一定的容忍度。只有第二類和第五類場景是目前AI/插畫/音樂以及基于等多模態(tài)模型得到的短片。第五類場景例如或者Character.aiaucnatonI生成或反饋結(jié)果當(dāng)中存在的不符合常理的情況/圖像/音樂/視頻創(chuàng)作(錯題生成也可以被視作文本創(chuàng)作的一部分偶爾出現(xiàn)不符合常理的反饋仍有一定的寬容度。圖表28:AGI演進(jìn)過程中的應(yīng)用場景分類來源:
(,因此天然對于“幻覺”的容忍度很低。的創(chuàng)意工作都已經(jīng)得到落地,但我們Sora的落地進(jìn)展。如何處理“幻覺”?——Scaling信仰派vs引入知識圖譜改良派在處理模型幻覺、進(jìn)而實現(xiàn)AGI的路徑方面,學(xué)界主要存在著兩派聲音——基于連接主義的“ScalingLaw信仰派”與基于符號主義的“引入知識圖譜改良派”:連接主義onnectons:又稱為神經(jīng)網(wǎng)絡(luò)或并行分布處理,是一種模仿人腦神(類似于神經(jīng)元(神經(jīng)元cangLaw符號主義ybos,也稱為邏輯主義或規(guī)則主義,是一種基于符號處理的人工則通過預(yù)設(shè)LeCun為代表的Meta、Google、Stanford模型沒有真正理解內(nèi)容。圖表29:連接主義VS符號主義來源:AI大模型有時會“很有信心”提供一些不準(zhǔn)確的信息。知AI大模型可以利用包括結(jié)構(gòu)大模型那大模型訓(xùn)練對大量標(biāo)記數(shù)據(jù)集的需求。圖表30:知識圖譜通過機(jī)器學(xué)習(xí)和自然語言處理來構(gòu)建節(jié)點、邊和標(biāo)簽的全面視圖來源:BofAGLOBALRESEARCH,投資建議EmergingAGIScalingLaw圖表31:大模型向AGI演進(jìn),模型訓(xùn)練產(chǎn)業(yè)鏈有望持續(xù)收益來源:大模型廠商:大模型上市公司包括科大訊飛、商湯等。其中科大訊飛于202351GPT-4Turbo234月發(fā)布日日新系列大模型,242月模型更V4.0128K語境窗口長度,綜合整體評GPT-4。數(shù)據(jù)工程廠商及擁有豐富垂類數(shù)據(jù)的公司:海天瑞聲是我國語音類基礎(chǔ)數(shù)據(jù)服務(wù)領(lǐng)DOTS-LLM據(jù)積累的公司也有望收益。算力產(chǎn)業(yè)鏈:上游包括芯片和元器件,中游包括服務(wù)器和網(wǎng)絡(luò)設(shè)備,下游包括Plat-圖表32:算力產(chǎn)業(yè)圖譜來源:中國信通院,說明:途中藍(lán)色虛線方框內(nèi)為境外公司,紅色虛線方框內(nèi)為中國公司下游應(yīng)用廠商而言,選擇基于開源模型開發(fā),或者與海內(nèi)外頂級模型廠商進(jìn)行合圖表33:建議關(guān)注AI賦能細(xì)分場景的龍頭企業(yè)賦能行業(yè)受益公司基本情況AI+教育科大訊飛2356T20AI2023全周期銷售額同比增長126%。競業(yè)達(dá)助教、導(dǎo)師、數(shù)字老師等新型教育教學(xué)模式,助力教育教學(xué)全流程數(shù)字化轉(zhuǎn)型。世紀(jì)天鴻234242月已更新至4.0PPT大綱、思維導(dǎo)圖設(shè)計、教師評語編寫以及進(jìn)行中英互譯等多種應(yīng)用場景幫助老師提升工作效率。AI+企業(yè)服務(wù)泛微網(wǎng)絡(luò)e致遠(yuǎn)互聯(lián)239+包含工作智能助手、流程智能助手、智能領(lǐng)域應(yīng)用、低代碼搭建智能助手、企業(yè)級同智能應(yīng)用場景,助力企業(yè)提質(zhì)降本增效。用友網(wǎng)絡(luò)自然化的人機(jī)交互、智慧化的知識生成、語義化的應(yīng)用生成。金蝶國際OpenAI等通用大模型能力。綜合平衡企業(yè)算力成本、訓(xùn)練成本、模型能力、應(yīng)用價值等要素,設(shè)置百億級參數(shù),經(jīng)過專業(yè)訓(xùn)練和精調(diào)。AI+辦公金山辦公23WPS內(nèi)容創(chuàng)作Copilot(智慧助理
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版全國保密教育線上培訓(xùn)考試題庫
- 腫瘤科感控總結(jié)
- 折紙小班藝術(shù)課件
- 職工超市安全亮點工作總結(jié)
- 員工心理健康培訓(xùn)體系構(gòu)建
- 兒科主任年終工作總結(jié)
- 支具固定的護(hù)理
- 神經(jīng)系統(tǒng)病人的護(hù)理概述
- 培訓(xùn)項目的實施
- 公司人員報銷培訓(xùn)
- GB/T 8195-2011石油加工業(yè)衛(wèi)生防護(hù)距離
- GB/T 32151.6-2015溫室氣體排放核算與報告要求第6部分:民用航空企業(yè)
- GB/T 13936-2014硫化橡膠與金屬粘接拉伸剪切強(qiáng)度測定方法
- GB 29837-2013火災(zāi)探測報警產(chǎn)品的維修保養(yǎng)與報廢
- 一例慢阻肺病人護(hù)理個案
- 建平中學(xué)自招真題解析
- DB50-T 1293-2022 松材線蟲病疫木除治技術(shù)規(guī)范(標(biāo)準(zhǔn)文本)
- 金屬材料檢驗的標(biāo)準(zhǔn)課件
- 動物疫病流行病學(xué)調(diào)查表診斷送檢用
- 模具技術(shù)要求
- 廣東省公務(wù)員錄用審批表
評論
0/150
提交評論