計(jì)算機(jī)行業(yè)大模型市場(chǎng)分析_第1頁
計(jì)算機(jī)行業(yè)大模型市場(chǎng)分析_第2頁
計(jì)算機(jī)行業(yè)大模型市場(chǎng)分析_第3頁
計(jì)算機(jī)行業(yè)大模型市場(chǎng)分析_第4頁
計(jì)算機(jī)行業(yè)大模型市場(chǎng)分析_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

計(jì)算機(jī)行業(yè)大模型市場(chǎng)分析大模型概述:具備強(qiáng)大生成能力,訓(xùn)練趨于標(biāo)準(zhǔn)化概述:通用大模型帶來強(qiáng)大生成能力,追求高泛化能力大模型可以高質(zhì)量完成自然語言理解和生成任務(wù)。大模型主要指大語言模型(LargeLanguageModel,LLM),是一種基于大量數(shù)據(jù)學(xué)習(xí)完成文本識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成等人物的深度學(xué)習(xí)算法。當(dāng)前大語言模型底層基于Transformer框架,利用大量文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,可以按用戶需求高質(zhì)量完成自然語言理解或生成任務(wù),應(yīng)用于機(jī)器翻譯、文本摘要、內(nèi)容創(chuàng)作、邏輯推理等諸多場(chǎng)景。隨著技術(shù)發(fā)展,大模型逐步超越大語言模型范疇,輸入輸出上逐漸涵蓋音頻、圖像、視頻等模態(tài),形成具備多模態(tài)能力的大模型。通用大模型以通用人工智能(AGI)為最終目標(biāo),追求模型效果的高泛化能力。過去幾年,大模型領(lǐng)域主要針對(duì)通用大模型投入研發(fā),涌現(xiàn)出GPT、Llama、PaLM等代表模型。通用大模型要求模型可以在不進(jìn)行重新訓(xùn)練的情況下,在大多數(shù)場(chǎng)景下理解用戶提出的非結(jié)構(gòu)化提示詞,并基于需求理解實(shí)現(xiàn)穩(wěn)定且正確的文本生成。通用大模型最終目標(biāo)為通用人工智能(AGI),亦稱強(qiáng)AI,及人工智能可以單獨(dú)完成人類可以完成的所有任務(wù),該目標(biāo)要求模型具有高場(chǎng)景泛化能力,對(duì)新樣本具有完全適應(yīng)能力。對(duì)泛化能力的追求在通用大模型的訓(xùn)練數(shù)據(jù)和模型特點(diǎn)上得以體現(xiàn)。1)訓(xùn)練數(shù)據(jù)覆蓋面擴(kuò)大。過去幾年,大模型預(yù)訓(xùn)練數(shù)據(jù)涵蓋的行業(yè)快速增加,2019年,谷歌基于互聯(lián)網(wǎng)數(shù)據(jù)集C4推出T5模型;2023年Meta發(fā)布開源通用大模型LLaMA,其預(yù)訓(xùn)練數(shù)據(jù)集以C4和其他互聯(lián)網(wǎng)數(shù)據(jù)為基礎(chǔ),包含,維基百科、GitHub代碼、書籍、專業(yè)論文等數(shù)據(jù)。預(yù)訓(xùn)練數(shù)據(jù)范圍擴(kuò)大有利于模型能力覆蓋更多場(chǎng)景,提升模型通用能力。2)訓(xùn)練數(shù)據(jù)分布上,通用語言文本占比較高,行業(yè)專業(yè)知識(shí)占比較低。通用大模型預(yù)訓(xùn)練數(shù)據(jù)集以互聯(lián)網(wǎng)數(shù)據(jù)、書籍等通用語言文本為基礎(chǔ),結(jié)合部分歷史、地理等通識(shí)類學(xué)科知識(shí),行業(yè)專業(yè)知識(shí)占比較少,最大程度保證模型通用語言能力提升。以LLaMA的預(yù)訓(xùn)練數(shù)據(jù)集為例,高專業(yè)度ArXiv論文數(shù)據(jù)占比2.5%,StackExchange專業(yè)行業(yè)問答數(shù)據(jù)占比2%,通用知識(shí)類文本占比超過95%。3)模型設(shè)計(jì)上,通用大模型參數(shù)和訓(xùn)練數(shù)據(jù)規(guī)??焖僭鲩L(zhǎng),模型以大體量承載大知識(shí)量,讓模型“學(xué)習(xí)”并“記憶”盡可能多的知識(shí)。根據(jù)semianalysis的數(shù)據(jù),OpenAI的GPT-4模型參數(shù)規(guī)模約為1.8萬億,為GPT-3(1750億)的十倍以上;GPT-4訓(xùn)練數(shù)據(jù)規(guī)模約20萬億Token,為GPT-3(5000億Token)的40倍,模型參數(shù)和預(yù)訓(xùn)練數(shù)據(jù)規(guī)模保持高速增長(zhǎng),帶來模型效果快速增強(qiáng),根據(jù)OpenAI官方數(shù)據(jù),GPT-4較GPT3.5在回答真實(shí)性方面提升約40%,并且生成不符合價(jià)值觀答案的概率減少82%。通用大模型采用多數(shù)據(jù)集驗(yàn)證,取得優(yōu)秀成績(jī)。通用大模型通常以多領(lǐng)域、多層次的數(shù)據(jù)集綜合衡量模型效果,并不追求在單一數(shù)據(jù)集上的極致表現(xiàn)。根據(jù)OpenAI的GPT-4技術(shù)報(bào)告,模型評(píng)價(jià)利用學(xué)術(shù)測(cè)試集MMLU、科學(xué)測(cè)試集ARC、日常對(duì)話測(cè)試集HellaSwag、Python測(cè)試集HumanEval等,以7大數(shù)據(jù)集全面覆蓋多學(xué)科、多學(xué)段、多場(chǎng)景的生成能力,力求全面綜合評(píng)價(jià)模型整體表現(xiàn)。與之相對(duì)的是,小模型由于應(yīng)用場(chǎng)景相對(duì)單一,模型目標(biāo)性更強(qiáng),普遍采用單一測(cè)試集,例如CV領(lǐng)域知名的ILSVRC挑戰(zhàn)賽便長(zhǎng)期采用ImageNet數(shù)據(jù)集,其子集ImageNet1K(ILSVRC2012)長(zhǎng)期被用于各論文的模型效果評(píng)價(jià)。長(zhǎng)期使用單一數(shù)據(jù)集帶來時(shí)效性較差、評(píng)價(jià)指標(biāo)相對(duì)單一的問題。通用大模型以“預(yù)訓(xùn)練+微調(diào)”的模式加持應(yīng)用場(chǎng)景。預(yù)訓(xùn)練階段模型學(xué)習(xí)大量無標(biāo)注文本數(shù)據(jù),使其模仿人類語言構(gòu)成的訓(xùn)練數(shù)據(jù)集,進(jìn)而具備各場(chǎng)景通用的生成能力;微調(diào)階段模型學(xué)習(xí)小規(guī)模行業(yè)專業(yè)知識(shí),利用有標(biāo)注的專業(yè)數(shù)據(jù)集針對(duì)模型輸出層參數(shù)進(jìn)行調(diào)整,強(qiáng)化模型對(duì)特定領(lǐng)域的生成能力?!邦A(yù)訓(xùn)練+微調(diào)”的模式可以低成本提升模型在特定行業(yè)領(lǐng)域的表現(xiàn)能力,成為長(zhǎng)期伴隨深度模型行業(yè)應(yīng)用的通用模式。根據(jù)AI創(chuàng)業(yè)公司Cohere最新論文,在極限條件下只更新0.32%的模型參數(shù)就可以實(shí)現(xiàn)模型微調(diào),充分發(fā)揮通用大模型的通用性,極大降低大模型行業(yè)應(yīng)用成本。但由于微調(diào)改變的參數(shù)量小,只能采用針對(duì)細(xì)分場(chǎng)景下特定功能進(jìn)行針對(duì)性微調(diào),導(dǎo)致單模型只能有效應(yīng)對(duì)單一場(chǎng)景。模型訓(xùn)練:流程逐步趨于標(biāo)準(zhǔn)化,數(shù)據(jù)需求持續(xù)提升大模型訓(xùn)練可劃分兩大階段,流程趨于標(biāo)準(zhǔn)化。大模型訓(xùn)練大致可分為通用能力培養(yǎng)和行業(yè)能力提升兩大階段。其中通用能力培養(yǎng)主要包括無監(jiān)督預(yù)訓(xùn)練、價(jià)值觀對(duì)齊等核心訓(xùn)練步驟,全面提升模型通用能力;行業(yè)能力培養(yǎng)主要包括有監(jiān)督微調(diào)、行業(yè)預(yù)訓(xùn)練、偏好對(duì)齊等訓(xùn)練流程,主要針對(duì)特定應(yīng)用場(chǎng)景和行業(yè)需求進(jìn)行模型優(yōu)化。1)訓(xùn)練數(shù)據(jù):分詞技術(shù)影響模型效果,訓(xùn)練數(shù)據(jù)規(guī)模應(yīng)與模型參數(shù)規(guī)模相適應(yīng)數(shù)據(jù)以語義單元為單位輸入模型,分詞技術(shù)影響模型效果。語義單元(Token)是數(shù)據(jù)輸入大模型的最小單位,分詞技術(shù)和向量化屬模型核心技術(shù)。分詞(Tokenization)是自然語言處理領(lǐng)域的常用技術(shù),指將完整的文本信息切分為語義單元(Token)并將其進(jìn)行數(shù)值化作為模型輸入。當(dāng)前以Sub-word為單位進(jìn)行分詞是最常用的方式,而具體的分詞方式例如BPE、WordPiece、UniLM等技術(shù),以及語義信息的向量化技術(shù)均會(huì)對(duì)模型輸入產(chǎn)生直接影響。當(dāng)前語義單元是計(jì)量大模型訓(xùn)練數(shù)據(jù)量的單位,對(duì)于訓(xùn)練數(shù)據(jù)集規(guī)模的描述在2020年左右經(jīng)歷了從儲(chǔ)存空間(GB、TB)到Token數(shù)量的轉(zhuǎn)變。訓(xùn)練數(shù)據(jù)規(guī)模應(yīng)與模型參數(shù)規(guī)模相適應(yīng),大量模型數(shù)據(jù)規(guī)模不足的問題。2022年9月,DeepMind提出ChinchillaScalingLaws,提出了最優(yōu)的模型規(guī)模-數(shù)據(jù)規(guī)模匹配方案,其研究認(rèn)為單個(gè)參數(shù)需要20個(gè)左右的Token進(jìn)行訓(xùn)練,并且模型規(guī)模越大,單個(gè)參數(shù)所需的數(shù)據(jù)Token越多。在Chinchillalaw之前,行業(yè)遵循OpenAI提出的KaplanScalinglaw,及單個(gè)參數(shù)需要1.7個(gè)Token投入訓(xùn)練。以GPT-3為代表,2022年之前的大模型主要依據(jù)Kaplanlaw確定訓(xùn)練數(shù)據(jù)的規(guī)模,存在模型參數(shù)量大但訓(xùn)練數(shù)據(jù)不充分的問題。根據(jù)semianalysis的數(shù)據(jù),OpenAI的GPT-4模型參數(shù)規(guī)模約為1.8萬億,訓(xùn)練數(shù)據(jù)規(guī)模約20萬億Token,較GPT-3更趨近Chinchilla定律但數(shù)據(jù)規(guī)模仍有不足。2)模型設(shè)計(jì):參數(shù)量、規(guī)模持續(xù)增長(zhǎng)帶來模型效果提升AI大模型參數(shù)量快速增長(zhǎng),規(guī)??焖贁U(kuò)大表現(xiàn)出涌現(xiàn)能力。2018年發(fā)布的GPT-1和BERT模型參數(shù)量大約為1億,2020年發(fā)布的GPT-3模型參數(shù)規(guī)模為1750億,2023年推出的GPT-4和Gemini模型規(guī)模已經(jīng)達(dá)到萬億水平,大模型參數(shù)規(guī)模持續(xù)高速增長(zhǎng)。涌現(xiàn)指大模型規(guī)模達(dá)到一定程度時(shí)在特定任務(wù)上的表現(xiàn)顯著提升。涌現(xiàn)能力并非人為設(shè)計(jì)和構(gòu)建的,是大模型作為端到端模型可解釋度較低的情況下,對(duì)于大模型具有一定思維能力的概括性描述。3)模型預(yù)訓(xùn)練:自監(jiān)督預(yù)訓(xùn)練成為行業(yè)標(biāo)配預(yù)訓(xùn)練強(qiáng)調(diào)訓(xùn)練模型的通用能力,自監(jiān)督預(yù)訓(xùn)練(self-supervisedpre-training)推動(dòng)模型發(fā)展。通過預(yù)訓(xùn)練得到通用大模型(GPT-4、PaLM2)。預(yù)訓(xùn)練及在應(yīng)用場(chǎng)景未知的情況下,讓模型自主學(xué)習(xí)通用表征以盡可能滿足更多場(chǎng)景的應(yīng)用需求。大語言模型數(shù)據(jù)規(guī)模極大,數(shù)據(jù)標(biāo)注成本極高,自監(jiān)督預(yù)訓(xùn)練模式無需數(shù)據(jù)標(biāo)注,有力支持大模型訓(xùn)練數(shù)據(jù)規(guī)模的快速增長(zhǎng)。4)模型價(jià)值觀對(duì)齊:價(jià)值觀注入保證模型輸出符合道德人倫模型價(jià)值觀對(duì)齊主要目標(biāo)是確保模型輸出結(jié)果符合社會(huì)道德和法律約束。模型對(duì)齊是近年來研究者開始關(guān)注的一項(xiàng)議題。由于大模型內(nèi)部可解釋度低,訓(xùn)練后的模型難以保證輸出結(jié)果符合社會(huì)道德和法律約束,因此需要額外訓(xùn)練和外部風(fēng)控機(jī)制進(jìn)一步約束模型行為。OpenAI公司2022年成立了專門的對(duì)齊團(tuán)隊(duì),并提出InstructGPT模型,利用人類反饋學(xué)習(xí)(RHLF)和對(duì)應(yīng)的獎(jiǎng)勵(lì)模型增強(qiáng)模型對(duì)齊效果。根據(jù)OpenAI公司CEOSamAltman發(fā)言,GPT-4模型從最初完成預(yù)訓(xùn)練到最終完成模型對(duì)齊共耗時(shí)8個(gè)月,模型對(duì)齊工作成為大模型訓(xùn)練中不可忽視的一項(xiàng)重要內(nèi)容,也是耗時(shí)較長(zhǎng)的工序之一。5)大模型行業(yè)化:基于通用大模型形成垂類模型主要有三種方式。三種方式可以在單一模型上同時(shí)使用以最大程度提升模型效果。1)行業(yè)數(shù)據(jù)預(yù)訓(xùn)練:利用大量無標(biāo)注行業(yè)數(shù)據(jù)對(duì)模型整體進(jìn)行預(yù)訓(xùn)練。行業(yè)知識(shí)大量注入模型使得經(jīng)過行業(yè)預(yù)訓(xùn)練的模型獲得單行業(yè)能力提升,可有效降低模型在特定行業(yè)內(nèi)的幻覺問題,同時(shí)最大程度保留模型的通用能力,維持模型的基本泛化性能,因此備受青睞。但該方法數(shù)據(jù)需求大,同時(shí)消耗較多算力資源,適合在特定有大量數(shù)據(jù)積累的行業(yè)使用。2)模型對(duì)齊:利用RLHF機(jī)制人工介入對(duì)模型進(jìn)行微調(diào)。模型較微調(diào)而言更加溫和,可以在提升模型特定行業(yè)表現(xiàn)的同時(shí),維持模型通用能力,但同樣無法杜絕模型出現(xiàn)幻覺問題。同時(shí)模型對(duì)其安全性較強(qiáng),人工介入保證模型輸出符合法律、道德等約束,同時(shí)保證模型各領(lǐng)域的能力平衡,但需要大量人工成本和較長(zhǎng)訓(xùn)練時(shí)間,往往作為模型訓(xùn)練的最后步驟。3)模型有監(jiān)督微調(diào):利用少量有標(biāo)注的行業(yè)數(shù)據(jù)對(duì)模型靠近輸出側(cè)的部分參數(shù)進(jìn)行微調(diào)。微調(diào)可以利用少量參數(shù)顯著提升模型在特定行業(yè)上的表現(xiàn),同時(shí)算力成本只相當(dāng)于通用大模型預(yù)訓(xùn)練的1%左右,但該方法會(huì)犧牲模型通用能力,嚴(yán)重加劇模型在其他領(lǐng)域的幻覺問題。海外廠商:OpenAI領(lǐng)先通用大模型,Google和Anthropic形成第二梯隊(duì)1)OpenAI:通用大模型的領(lǐng)跑者堅(jiān)持長(zhǎng)期投入,引領(lǐng)本輪大模型技術(shù)發(fā)展。OpenAI公司成立于2016年,早期專注于自然語言處理賽道開發(fā)可商用的AI聊天機(jī)器人,如今公司核心宗旨為實(shí)現(xiàn)安全的通用人工智能(AGI),致力于提供通用能力更強(qiáng)的大模型。GPT(GenerativePre-trainedTransformer)最早可以追溯到2018年OpenAI發(fā)布GPT-1,此后隨著模型迭代,GPT模型能力不斷提升。最新的GPT-4與GPT-3的模型規(guī)模相當(dāng)(1750億),但通過更多的數(shù)據(jù)和計(jì)算資源投入實(shí)現(xiàn)進(jìn)一步發(fā)展。GPT-4支持多模態(tài),可以理解復(fù)雜概念,并在語言以外的數(shù)學(xué)、醫(yī)學(xué)、法律的多學(xué)科上表現(xiàn)出與人類相近的能力。GPT-4Turbo以更低價(jià)格提供更強(qiáng)能力,多模態(tài)接口全面開放。較原版GPT-4,GPT-4Turbo本次主要獲得五大更新:1)上下文能力增強(qiáng),模型上下文窗口從32K提升到128K,相當(dāng)于單次可輸入超過300頁的英文文本;2)模型知識(shí)更新,外界知識(shí)從2021年9月更新到2023年4月;3)調(diào)用優(yōu)化,推出JSON模式優(yōu)化API多任務(wù)調(diào)用效率,模型格式化輸出能力提升;4)單價(jià)降低,輸入定價(jià)0.01美元/Token,較原版便宜3倍,輸出定價(jià)0.03美元/Token,較原版便宜2倍;5)速度提升,Token輸出限制速率提升一倍,用戶可自主申請(qǐng)?zhí)崴?。同時(shí),OpenAI在GPT-4Turbo上開放圖像輸入,定價(jià)視圖片尺寸而定,1080x1080圖像輸入定價(jià)0.00765美元。圖像模型DALL·E3和文轉(zhuǎn)聲模型TTS通過單獨(dú)API開放給用戶。在模型能力提升、多模態(tài)能力加持、服務(wù)價(jià)格降低等多重因素共同作用下,GPT-4流量或?qū)⒂瓉砣略鲩L(zhǎng)。2)Google:技術(shù)積累深厚,逐步實(shí)現(xiàn)追趕Google在自然語言處理領(lǐng)域有深厚技術(shù)積累。2017年谷歌公司發(fā)表論文AttentionisAllYouNeed(AshishVaswani,NoamShazeer,NikiParmar等),開啟Transformer框架下的大模型時(shí)代。公司在三條技術(shù)路線均有布局,有大量自研模型發(fā)布。2017-2021年,由于自身核心搜索引擎業(yè)務(wù)影響,谷歌大力投入自然語言理解而非生成能力研發(fā),因此Google在BERT路線和T5路線上投入大量研究力量,導(dǎo)致公司在GPT路線上落后于OpenAI。2022年,谷歌先后推出1370億參數(shù)的LaMDA和5400億參數(shù)的PaLM模型,但模型效果并未超越1750億參數(shù)的GPT-3。2023年5月,公司推出對(duì)標(biāo)GPT-4的PaLM2模型,成為當(dāng)前可以與OpenAI正面競(jìng)爭(zhēng)的主要公司。谷歌官方發(fā)布公司迄今為止規(guī)模最大、能力最強(qiáng)的Gemini大模型。12月6日,谷歌發(fā)布Gemini模型,按不同模型規(guī)模包括GeminiUltra、GeminiPro、GeminiNano三個(gè)版本。根據(jù)官方測(cè)試數(shù)據(jù),模型文本能力出眾,在特定測(cè)試方法下,性能最優(yōu)的Ultra模型在MMLU測(cè)試集上以90.0%的高分,成為歷史上第一個(gè)超越人類專家的模型。Gemini采用“原生多模態(tài)”架構(gòu),具備強(qiáng)大多模態(tài)能力和圖文結(jié)合的邏輯推理能力,在數(shù)學(xué)、物理等學(xué)科問題上表現(xiàn)優(yōu)秀,可以基于視覺和文本提出具有一定創(chuàng)新性的觀點(diǎn)。針對(duì)Gemini定制版,谷歌推出AlphaCode2,性能超過85%的人類程序員。同時(shí)谷歌同步發(fā)布TPUv5e,較TPUv4性價(jià)比提升2.3倍,采用全新計(jì)算芯片的Gemini模型,較前代PaLM模型運(yùn)行速度更快、更便宜。3)Anthropic:核心團(tuán)隊(duì)來自O(shè)penAI,注重模型安全注重模型安全問題,公司快速發(fā)展。創(chuàng)始人Anthropic是由OpenAI前研發(fā)副總裁DarioAmodei帶領(lǐng)其團(tuán)隊(duì)成員于2021年成立的公司,對(duì)高級(jí)人工智能安全問題的保持高度關(guān)注。過去兩年,公司相繼得到Google和Amazon投資,并獲得超過50億美元融資。2023年3月15日,公司發(fā)布類ChatGPT產(chǎn)品Claude,模型整體能力達(dá)到ChatGPT同等能力。積極探索新技術(shù)應(yīng)用。在Claude模型訓(xùn)練中,Anthropic提出CAI機(jī)制及模型排序代替人工排序的RLHF以提升訓(xùn)練效率,同時(shí)推測(cè)其通過為底層Transformer增加Memory模塊使模型記憶力為ChatGPT的三倍。公司未來計(jì)劃構(gòu)建名為“Claude-Next”的前沿模型,比目前最強(qiáng)大的AI(GPT-4)還要強(qiáng)大10倍,需要在未來18個(gè)月內(nèi)投入10億美元。4)Meta:開源模型領(lǐng)導(dǎo)者,積極探索多元技術(shù)目前采取低成本開源策略,與閉源大模型形成差異化競(jìng)爭(zhēng)。2023年7月19日,Meta正式發(fā)布可商用開源大語言模型Llama2,成為開源模型標(biāo)桿。根據(jù)Llama2技術(shù)報(bào)告(HugoTouvron,LouisMartin,KevinStone等),和初代Llama相比,Llama2最大模型參數(shù)規(guī)模從650億提升到700億,訓(xùn)練數(shù)據(jù)提升40%達(dá)到2萬億,模型效果明顯優(yōu)于其他開源模型,是目前能力較強(qiáng)的開源大語言模型,但由于模型規(guī)模較小等原因,和GPT-4等閉源模型相比仍有差距。低成本的大模型能力是Llama2打造自身生態(tài)的最大優(yōu)勢(shì),主要反映在:1)Llama作為開源模型支持免費(fèi)商用,極大降低企業(yè)模型調(diào)用成本。2)模型參數(shù)量較小,最小具有70億參數(shù)版本,形成垂域過程中需要的行業(yè)數(shù)據(jù)量較小,適合數(shù)據(jù)量小、數(shù)據(jù)質(zhì)量欠佳的行業(yè)應(yīng)用,數(shù)據(jù)成本更為可控。探索多元大模型技術(shù)發(fā)展路線。Meta首席科學(xué)家、圖靈獎(jiǎng)得主YannLeCun作為人工智能行業(yè)權(quán)威專家,并不滿足于GPT路線下的大模型架構(gòu),并基于類人人工智能模型提出了“世界模型”框架。目前部分模組得以發(fā)布(I-JEPA),但相關(guān)框架在現(xiàn)行技術(shù)水平下仍然缺乏足夠可行性。大模型技術(shù):形成三大技術(shù)路線,GPT路線得到認(rèn)可底層技術(shù):自注意力機(jī)制為Transformer帶來優(yōu)秀性能Transformer的出現(xiàn)從根本上顛覆了NLP領(lǐng)域生態(tài),成為大語言模型發(fā)展的基石。2017年,谷歌提出Transformer框架,底層為自注意力機(jī)制(Self-attention)。引入自注意力機(jī)制的Transformer徹底解決了遠(yuǎn)距離信息丟失和并行計(jì)算問題,當(dāng)前Transformer架構(gòu)已經(jīng)成為自然語言處理(NLP)領(lǐng)域的統(tǒng)一研究范式:1)模型訓(xùn)練中一次性輸入全部序列統(tǒng)一求解,遠(yuǎn)距離信息被包含在同一次模型運(yùn)算當(dāng)中,解決了遠(yuǎn)距離信息丟失問題;2)Transformer不具備時(shí)序特征,訓(xùn)練運(yùn)算沒有關(guān)聯(lián)性,可以有效支持并行計(jì)算。高并行效率賦予了模型更強(qiáng)的拓展性,為參數(shù)規(guī)??焖偬嵘峁┝藯l件。模型技術(shù):基于Transformer形成三大主流技術(shù)路線,GPT路線脫穎而出以Transformer為基礎(chǔ),業(yè)界形成三大主流技術(shù)路線:編碼器路線、解碼器-編碼器路線、解碼器路線。1)編碼器路線(Encoder-Only)只利用Transformer的解碼器,側(cè)重理解任務(wù)。BERT模型采用雙向自編碼算法,模型Mask設(shè)計(jì)使運(yùn)算輸入包括目標(biāo)詞的前文和后文內(nèi)容。因?yàn)槔昧饲昂笪耐茰y(cè)目標(biāo)詞,模型預(yù)測(cè)穩(wěn)定、表現(xiàn)良好,同等參數(shù)規(guī)模下,BERT類模型效果往往優(yōu)于其他路線。2)編碼器-解碼器路線(Encoder-Decoder)同時(shí)利用編碼器和解碼器,側(cè)重轉(zhuǎn)換任務(wù)。該路線在BERT模型基礎(chǔ)上增加了一組與編碼器大小相似的解碼器。其編碼器部分采用與BERT相同的雙向自編碼策略加強(qiáng)理解,而在解碼器部分采用了GPT的自回歸策略方便生成。模型初步具備統(tǒng)一的多任務(wù)能力,以單一模型完成大部分自然語言處理任務(wù),編碼器-解碼器形成的理解+生成結(jié)構(gòu)使得模型擅長(zhǎng)翻譯等轉(zhuǎn)換類任務(wù)。3)解碼器路線(Decoder-Only)只利用編碼器部分,側(cè)重生成任務(wù)。該路線只采用解碼器部分,利用大參數(shù)規(guī)模和大規(guī)模預(yù)訓(xùn)練強(qiáng)化模型的通用能力。優(yōu)秀的生成能力帶來的應(yīng)用前景,該路線已經(jīng)獲得了行業(yè)的廣泛認(rèn)可。編碼器路線:BERT初步展現(xiàn)大模型能力2018年,Google發(fā)布基于Transformer的BERT模型,擁有3.4億參數(shù),采用雙向預(yù)訓(xùn)練+FineTuning(微調(diào))的訓(xùn)練模式。模型一經(jīng)推出便在11個(gè)NLP任務(wù)上超越當(dāng)時(shí)最高水平,在部分場(chǎng)景上表現(xiàn)追平人類。BERT的出現(xiàn)讓人們看到了Transformer框架的價(jià)值和自然語言理解的無限可能,互聯(lián)網(wǎng)廠商相繼建設(shè)人工智能研究部門,大模型發(fā)展進(jìn)入快車道。BERT路線(編碼器路線)只使用Transformer中的編碼器部分,采用雙向自編碼算法,及模型Mask設(shè)計(jì)使運(yùn)算輸入包括目標(biāo)詞的前文和后文內(nèi)容。該設(shè)計(jì)的不足是模型計(jì)算需要后文內(nèi)容,因此無法進(jìn)行生成式任務(wù),只適用于自然語言理解(NLU)任務(wù)。但優(yōu)勢(shì)是因?yàn)槔昧饲昂笪耐茰y(cè)目標(biāo)詞,模型預(yù)測(cè)穩(wěn)定且效率較高,小參數(shù)規(guī)模下BERT類模型效果往往優(yōu)于其他路線。編碼器-解碼器路線:T5模型探索多任務(wù)能力2019年,T5模型發(fā)布并提出一個(gè)統(tǒng)一框架,將所有NLP任務(wù)均轉(zhuǎn)化為Text2text的文本任務(wù),及利用文本生成文本的任務(wù)?;诮y(tǒng)一的任務(wù)框架,所有任務(wù)均可以使用相同的訓(xùn)練目標(biāo)函數(shù)和推理解碼過程,模型初步具備了統(tǒng)一的多任務(wù)能力,探索了大模型的通用能力。模型在聚焦自然語言理解(NLU)任務(wù)的同時(shí),具備一定自然語言生成(NLG)能力。T5路線模型是在BERT模型基礎(chǔ)上增加了一組與編碼器大小相似的解碼器,使得模型在利用編碼器理解輸入的基礎(chǔ)上具備一定利用解碼器輸出的能力。其編碼器部分采用與BERT相同的雙向自編碼策略加強(qiáng)理解,而在解碼器部分采用了GPT的自回歸策略方便生成。模型在翻譯等任務(wù)重表現(xiàn)良好,但生成能力不足。解碼器路線:生成能力優(yōu)勢(shì)明顯,已經(jīng)成為行業(yè)共識(shí)以GPT為代表的解碼器路線早期專注自然語言生成(NLG)領(lǐng)域。2018年,OpenAI推出了GPT模型,舍棄了Transformer中的編碼器,只利用解碼器部分強(qiáng)化生成能力。初代GPT模型依然采用了類BERT的多任務(wù)微調(diào)模式,有多個(gè)模型適配不同任務(wù)需求。2019年,GPT-2的發(fā)布奠定了解碼器路線無監(jiān)督預(yù)訓(xùn)練和通用模型的基調(diào),解決了零次學(xué)習(xí)(zero-shot)的問題,使得單一模型可以適用所有任務(wù)。GPT-2和T5相比,在不損失模型生成能力的前提下,去除解碼器極大降低了模型規(guī)模和訓(xùn)練難度。2020年,GPT-3發(fā)布并展現(xiàn)的強(qiáng)大生成能力,成果得到業(yè)界廣泛認(rèn)可,各大公司開始跟進(jìn)解碼器路線模型研發(fā),2021年Deepmind推出Gopher,2022年Google推出LaMDA。GPT(解碼器)路線采用單向信息傳遞和自回歸特征。模型訓(xùn)練階段,GPT路線模型利用解碼器的Mask結(jié)構(gòu)屏蔽目標(biāo)詞后方的內(nèi)容,保證信息的單向傳遞,只學(xué)習(xí)利用目標(biāo)詞左側(cè)(前側(cè))內(nèi)容進(jìn)行目標(biāo)詞預(yù)測(cè);推理階段,模型從左到右進(jìn)行單向生成,同樣保持單向信息傳遞。與之對(duì)應(yīng)的是,解碼器(BERT)路線采用雙向信息傳遞,訓(xùn)練和推理中模型可以利用全部文本信息;解碼器-編碼器(T5)路線采用部分單向信息傳遞,編碼器中的輸出序列及解碼器中前面的文本會(huì)參與后方目標(biāo)的注意力計(jì)算。GPT路線模型擅長(zhǎng)生成,強(qiáng)大能力在考試和測(cè)評(píng)中得到體現(xiàn)。單向生成符合人類正常思維邏輯,人類正常表達(dá)方式及為根據(jù)前文思考后文,從前到后順序思考。與BERT根據(jù)前后文“填空”的方式相比,自回歸模型更像“寫作”,生成模式完全符合上述人類思考邏輯。該邏輯全面融入訓(xùn)練和推理流程,因此模型輸出文本質(zhì)量高,語言流暢。2023年3月,OpenAI最新模型GPT-4模擬考試中表現(xiàn)優(yōu)異,在環(huán)境科學(xué)、歷史、生物等學(xué)科考試中已經(jīng)可以取得前10%分位的成績(jī),在其他大量學(xué)科上達(dá)到前20%分位。GPT路線代表模型GPT-4、Claude、PaLM、Llama等更是長(zhǎng)期位于模型能力榜單前列,展現(xiàn)強(qiáng)大理解和生成能力。未來展望:當(dāng)前大模型與AGI仍有差距,多模態(tài)成為重要途徑通用人工智能(AGI)具備人類級(jí)別智能。作為強(qiáng)人工智能的典型代表,未來通用人工智能(AGI)系統(tǒng)將具備達(dá)到或超過人類的智能,具有高度自主性,可以獨(dú)立完成大量工作,因此可以規(guī)?;瘜?shí)現(xiàn)人力替代,進(jìn)而推動(dòng)社會(huì)生產(chǎn)力全面提升。當(dāng)前主流公司對(duì)于通用人工智能的探索持續(xù)從未止步,OpenAI將構(gòu)建安全、符合共同利益的AGI系統(tǒng)作為企業(yè)核心使命;谷歌DeepMind研究團(tuán)隊(duì)發(fā)布AGI的5級(jí)分級(jí)定義,并認(rèn)為當(dāng)前主流大模型只達(dá)到1級(jí)水平。當(dāng)前主流大語言模型和AGI之間仍有較大差距。GPT路線構(gòu)建的大語言模型已展現(xiàn)出強(qiáng)大的自然語言理解和生成能力,但參考Deepmind、OpenAI、Meta等公司對(duì)于AGI能力的定義,我們認(rèn)為當(dāng)前大語言模型在各維度上距離AGI仍有較大差距,主要體現(xiàn)在性能和通用性、認(rèn)知能力、工具使用能力、創(chuàng)作能力等方面。多模態(tài)能力提升模型各維度能力,推動(dòng)大模型走向AGI。當(dāng)前大模型主要指大語言模型(LLM),輸入輸出均已文本形式進(jìn)行,而多模態(tài)大模型(MLLM)則可以輸入或輸出文本及其他模態(tài),包括圖像、視頻、音頻、數(shù)據(jù)庫等。多模態(tài)能力全面提升模型各維度能力,成大語言模型走向AGI的重要途徑。1)性能和通用性:多模態(tài)能力突破文本對(duì)模型訓(xùn)練的限制,保障模型效果快速提升。大模型多模態(tài)能力可以打破訓(xùn)練上對(duì)文本信息的完全依賴,通過圖片以更加直觀的方式學(xué)習(xí)更多知識(shí),提升模型訓(xùn)練效果。根據(jù)論文信息(Huang,Z.,Bianchi,F.,Yuksekgonul,M.etal.Avisual–languagefoundationmodelforpathologyimageanalysisusingmedicalTwitter.NatMed29,2307–2316(2023).),斯坦福大學(xué)團(tuán)隊(duì)融合多模態(tài)病理圖片、專業(yè)知識(shí)、社交網(wǎng)絡(luò)等數(shù)據(jù),構(gòu)建了OpenPath數(shù)據(jù)庫并訓(xùn)練PLIP模型。新模型在診斷效率提升和醫(yī)學(xué)教育等領(lǐng)域具有潛在應(yīng)用空間,展現(xiàn)了多模態(tài)數(shù)據(jù)對(duì)于模型訓(xùn)練的重要價(jià)值。此外,大模型學(xué)習(xí)文本以外的知識(shí)對(duì)于打破文本規(guī)模對(duì)模型規(guī)模限制具有重要意義,根據(jù)未盡研究數(shù)據(jù),當(dāng)前高質(zhì)量語言數(shù)據(jù)總存量約9萬億個(gè)單詞,年化增長(zhǎng)率為4%-5%,明顯慢于模型規(guī)模增長(zhǎng)速度,最早2026年就會(huì)出現(xiàn)因文本量不足導(dǎo)致的模型規(guī)模擴(kuò)增放緩,突破文本規(guī)模對(duì)模型規(guī)模的限制對(duì)于大模型未來的持續(xù)增長(zhǎng)具有重要意義。2)認(rèn)知能力:多模態(tài)協(xié)同實(shí)現(xiàn)精準(zhǔn)認(rèn)知,推理能力顯著提升。大模型直接擴(kuò)展多模態(tài)認(rèn)知渠道,實(shí)現(xiàn)從文本單維度認(rèn)知到多維度混合認(rèn)知的轉(zhuǎn)變,可以利用多信息理解用戶需求。根據(jù)麥拉賓法則,面對(duì)面溝通時(shí)的信息表達(dá)中視覺信息占比達(dá)到55%,其次是語音語調(diào)的38%;而根據(jù)中科院數(shù)據(jù)顯示,對(duì)于一個(gè)正常人,視覺信息占全部感覺信息的70%以上。只利用文本的大語言模型存在信息利用效率過低的問題,擁有聽覺和視覺的大模型可以捕捉更多外界信息,實(shí)現(xiàn)對(duì)環(huán)境和用戶需求的精準(zhǔn)認(rèn)知,可以實(shí)現(xiàn)基于外部環(huán)境、用戶情緒、問題語境等要素的實(shí)時(shí)輸出優(yōu)化。同時(shí),利用大模型多模態(tài)能力的融合復(fù)雜信息,可以形成更加有效推理和相對(duì)復(fù)雜的思維鏈,如利用圖片里的物體位置、狀態(tài)、關(guān)系等信息,結(jié)合用戶文本輸入實(shí)現(xiàn)綜合判斷,進(jìn)行準(zhǔn)確的推理和分析。3)工具使用:多模態(tài)能力支持更多工具調(diào)用,同時(shí)提升能力和效果。當(dāng)前大模型輸出仍存在常識(shí)性錯(cuò)誤,反映對(duì)以搜索工具為代表的外部工具使用能力不足。結(jié)合多模態(tài)能力的大模型可以使用更多工具提升模型效果,如利用代碼解釋器(CodeInterpreter)實(shí)現(xiàn)網(wǎng)頁上的數(shù)據(jù)分析,通過類似CLIP的圖文模型進(jìn)行跨模態(tài)搜索。更強(qiáng)的工具使用能力有利于大模型接入外部模塊化工具,提升模型輸出效率;另一方面,隨著工具集擴(kuò)展,模型工具學(xué)習(xí)方案不斷豐富,模型輸出準(zhǔn)確性和時(shí)效性有望進(jìn)一步提升。4)創(chuàng)作能力:多模態(tài)輸入提升模型“創(chuàng)作”空間,藝術(shù)創(chuàng)作能力得到行業(yè)權(quán)威認(rèn)可。在以圖靈測(cè)試為代表的現(xiàn)行AI標(biāo)準(zhǔn)下,類人的行為和更高的回答正確率即為智能,因此大模型訓(xùn)練以正確模仿人類為主要目標(biāo),更傾向于輸出“學(xué)習(xí)過的”答案。GPT-4模型發(fā)布之初就強(qiáng)調(diào)模型擁有寫小說的能力,但高質(zhì)量生成需要人工限定主題、框架、背景、思想等各要素,并且尚未出現(xiàn)獲得廣泛認(rèn)可的作品,大語言模型的創(chuàng)作能力相對(duì)有限。多模態(tài)的引入和融合,讓模型的模仿維度更加多元和隨機(jī),實(shí)現(xiàn)類似聯(lián)想的創(chuàng)作能力。2021年,OpenAI發(fā)布DaLL·E模型,模型生成的牛油果椅子圖片,因多元的設(shè)計(jì)風(fēng)格、優(yōu)秀的元素融合獲得廣泛關(guān)注,視覺大模型初步展現(xiàn)創(chuàng)作能力。2022年9月,由Midjourney生成的作品在美國科羅拉多州博覽會(huì)的藝術(shù)比賽中獲得了第一名,展現(xiàn)模型具備更高維度的聯(lián)想和元素組合能力,進(jìn)而實(shí)現(xiàn)一定的“原創(chuàng)”功能。多模態(tài):視覺能力為核心,能力升級(jí)帶動(dòng)應(yīng)用落地概述:語音和視覺能力先行,模型效果全面提升語音和視覺能力先行,視覺能力為核心。當(dāng)前模態(tài)主要包括圖像、視頻、音頻、代碼、標(biāo)準(zhǔn)數(shù)據(jù)庫等,多模態(tài)大模型進(jìn)展主要圍繞語音和視覺任務(wù),其中語音任務(wù)和文本任務(wù)本質(zhì)上相通,有成熟開源技術(shù)方案,門檻相對(duì)較低;而視覺任務(wù)主要涵蓋視覺理解和視覺生成,由于信息復(fù)雜度高、利用難度較大,并且對(duì)模型感知能力和應(yīng)用開發(fā)潛力提升具有重要價(jià)值,成為當(dāng)前多模態(tài)大模型發(fā)展的核心方向。OpenAI和谷歌引領(lǐng)基于大語言模型的多模態(tài)能力探索OpenAI引領(lǐng)行業(yè)發(fā)展,ChatGPT-4V展現(xiàn)強(qiáng)大能力。根據(jù)官方技術(shù)文檔,OpenAI于2022年完成GPT-4V版本(視頻版本)的模型訓(xùn)練;2023年3月,GPT-4模型發(fā)布會(huì)上展示了模型的圖像輸入處理能力,并與移動(dòng)應(yīng)用BeMyEyes合作落地圖像處理能力,但始終未在官方ChatGPT產(chǎn)品中開放語音輸入以外的多模態(tài)能力。2023年9月25日,OpenAI正式發(fā)布ChatGPT-4V(ision)版本,ChatGPT新增圖片輸入和語音輸出能力,多模態(tài)能力正式融入ChatGPT。本次更新顯示GPT-4多模態(tài)能力已經(jīng)成熟,新能力有望加速落地。逐步擁有“視覺”和“聽覺”的大模型有潛力在更多場(chǎng)景下獲得應(yīng)用,未來隨著軟硬件革新,大模型有望支持“觸覺”、“嗅覺”等全新模態(tài),應(yīng)用場(chǎng)景將實(shí)現(xiàn)加速擴(kuò)展。谷歌發(fā)布原生多模態(tài)大模型Gemini,實(shí)現(xiàn)對(duì)GPT-4V的技術(shù)追趕。Gemini采用“原生多模態(tài)”架構(gòu),文本和視覺等輸入在統(tǒng)一模型架構(gòu)下參與預(yù)訓(xùn)練,各模態(tài)之間的結(jié)合更加流暢。推理能力方面,模型在數(shù)學(xué)、物理等學(xué)科問題上表現(xiàn)優(yōu)秀,可以對(duì)解題過程的進(jìn)行步驟拆分,并可以針對(duì)任一步驟單獨(dú)提問。同時(shí)模型具備支持多模態(tài)的復(fù)雜推理能力,可以理解視覺信息,可以基于視覺和文本提出具有一定創(chuàng)新性的觀點(diǎn)。語音能力:STT+TTS+GPT便捷實(shí)現(xiàn)語音對(duì)話,優(yōu)化人機(jī)交互體驗(yàn)語音轉(zhuǎn)文字模型(Speech-To-Text,STT)技術(shù)成熟度高,難構(gòu)成行業(yè)壁壘。語音識(shí)別技術(shù)歷史悠久,最早可以追溯到1952年,成熟度相對(duì)較高,并已融入各類日常場(chǎng)景。最近幾年技術(shù)層面逐步從統(tǒng)計(jì)模型和走向端到端的深度模型,底層架構(gòu)逐步從小模型走向大模型。在多模態(tài)大模型系統(tǒng)中,STT模型將語音轉(zhuǎn)換為特定模式的文本文件,并直接輸入模型。以O(shè)penAI推出的Whisper模型為代表,模型底層使用Transformer的編碼器解碼器架構(gòu),可以將音頻信息直接轉(zhuǎn)化成包含提示詞的標(biāo)準(zhǔn)化Token,基于68萬小時(shí)的對(duì)話學(xué)習(xí),較主流小模型可以將錯(cuò)誤率降低50%左右。Meta推出MMS,谷歌推出AudioPaLM模型,均采用Transformer架構(gòu)實(shí)現(xiàn)端到端的STT模型。文本轉(zhuǎn)語音(Text-To-Speech,TTS)模型是實(shí)現(xiàn)大模型語音能力的核心技術(shù),差異主要體現(xiàn)在音色和情感方面。TTS模型同樣具有悠久技術(shù)歷史。過去幾年,TTS模型和STT模型在技術(shù)層面同步發(fā)展,實(shí)現(xiàn)從HMM-GMM為基礎(chǔ)的概率統(tǒng)計(jì)模型走向Transformer基礎(chǔ)的端到端大模型的技術(shù)轉(zhuǎn)變,形成Tacotron2、Fastspeech等代表模型。技術(shù)進(jìn)展下,TTS模型語音合成效果有明顯提升,可以模擬真人的語氣、情感和停頓,音色更加貼近真人,可以實(shí)現(xiàn)高質(zhì)量流暢合成。由于模型訓(xùn)練階段使用的音源在音色、情感、語種等方面存在差異,底層模型設(shè)計(jì)也不盡相同,當(dāng)前主流TTS模型合成效果存在明顯差異,對(duì)于用戶的使用體驗(yàn)影響較大。STT+TTS+GPT模式成為實(shí)現(xiàn)大模型語音對(duì)話的主流,技術(shù)門檻相對(duì)較低。通過構(gòu)建STT+TTS+GPT的模式,可以便捷實(shí)現(xiàn)基于大語言模型的語言對(duì)話,為大模型增加音頻模態(tài)。在該模式下,STT、TTS、LLM模型均為獨(dú)立模塊,可以實(shí)現(xiàn)低成本替換,因此在應(yīng)用開發(fā)層面可進(jìn)行靈活組合。當(dāng)前市面主流對(duì)話助手的語音功能均以此方式實(shí)現(xiàn),以ChatGPT語音功能為例,采用Whisper+GPT-4+OpenAI自研TTS模型的組合,實(shí)現(xiàn)優(yōu)秀語音對(duì)話效果??紤]到STT和TTS模型均有成熟開源解決方案,大模型實(shí)現(xiàn)語音模態(tài)兼容技術(shù)門檻相對(duì)較低。ChatGPT最新更新TTS模型帶來接近人類的對(duì)話體驗(yàn)。本次更新前,ChatGPT只支持基于Whisper模型的語音輸入,更新后的ChatGPT可以將語音作為輸出模態(tài),用戶可直接進(jìn)行語音問答對(duì)話。OpenAI為新場(chǎng)景開發(fā)了全新的TTS模型,提供五種逼真的輸出音色,每種聲音都基于真人錄制音源,擁有獨(dú)特的音調(diào)和字符。依托GPT-4強(qiáng)大的文本生成能力,結(jié)合高質(zhì)量和流暢度的語音生成技術(shù),ChatGPT可以為用戶提供逼真的對(duì)話體驗(yàn)。相關(guān)技術(shù)有望進(jìn)一步落地智能客服、語言學(xué)習(xí)等領(lǐng)域,顛覆用戶的AI對(duì)話體驗(yàn)。視覺能力:形成兩大主流路線,圖文融合帶動(dòng)應(yīng)用場(chǎng)景全面擴(kuò)展傳統(tǒng)計(jì)算機(jī)視覺(CV)技術(shù)儲(chǔ)備有助于構(gòu)建視覺認(rèn)知模型。計(jì)算機(jī)視覺(CV)長(zhǎng)期以來是人工智能的核心領(lǐng)域之一,過去十年圍繞卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)快速發(fā)展。近年來部分CV模型采用Transformer架構(gòu),對(duì)于大模型時(shí)代的視覺系統(tǒng)構(gòu)建實(shí)現(xiàn)技術(shù)積累。傳統(tǒng)CV模型受限規(guī)模等原因,主要解決單一場(chǎng)景問題,具備獨(dú)立的視覺信息處理能力。與傳統(tǒng)CV模型不同,大模型時(shí)代的視覺系統(tǒng)主要圍繞提升模型整體的通用能力,以理解和認(rèn)知視覺信息為核心,和文本等模態(tài)有機(jī)結(jié)合滿足多模態(tài)任務(wù)的需求,但底層技術(shù)存在共通之處,傳統(tǒng)CV領(lǐng)域的Transformer技術(shù)經(jīng)驗(yàn)積累對(duì)于構(gòu)建大模型視覺系統(tǒng)具有重要價(jià)值。目前在底層架構(gòu)設(shè)計(jì)上主要形成兩大技術(shù)路線:1)模塊化設(shè)計(jì):模塊化多模態(tài)設(shè)計(jì)單獨(dú)處理視覺信息輸入。考慮到視覺信息和文本信息差距較大,當(dāng)前大模型千億規(guī)模統(tǒng)一處理所有模態(tài)信息具有較大難度。因此,設(shè)計(jì)上可以分別針對(duì)文本和模型等模態(tài)分別進(jìn)行模型訓(xùn)練,并通過系統(tǒng)優(yōu)化實(shí)現(xiàn)各模型的結(jié)合。以GPT-4V(ision)版本為例,其視覺方案以大語言模型GPT-4為核心,圖像認(rèn)知能力上或采用與OpenAI2021年發(fā)布的CLIP模型類似的方案,未來有望基于DALL·E3模型融合圖像輸出能力,形成完整的視覺多模態(tài)系統(tǒng)。模塊化設(shè)計(jì)提升系統(tǒng)靈活性,帶來更高模型性價(jià)比。視覺認(rèn)知、視覺生成和大語言模型在模型設(shè)計(jì)、訓(xùn)練數(shù)據(jù)集、目標(biāo)函數(shù)設(shè)計(jì)等方面差異較大,訓(xùn)練和推理相對(duì)獨(dú)立,模塊化設(shè)計(jì)和分別訓(xùn)練的模塊在性能、性價(jià)比、靈活性上存在優(yōu)勢(shì)。性能上,各個(gè)模塊可以針對(duì)特定任務(wù)單獨(dú)優(yōu)化,更容易在各子任務(wù)上實(shí)現(xiàn)高性能;性價(jià)比上,把各模態(tài)的需求分割成多模塊,并進(jìn)行分開訓(xùn)練的模式,降低了單次訓(xùn)練的模型規(guī)模,顯著降低算力需求;靈活性上,各模塊可進(jìn)行單獨(dú)替換,也可以基于任務(wù)需求進(jìn)行模塊增減,同時(shí)大模型系統(tǒng)可以快速接入第三方服務(wù),多維度實(shí)現(xiàn)更加靈活的解決方案。2)一體化(原生多模態(tài))設(shè)計(jì):原生多模態(tài)設(shè)計(jì)統(tǒng)一文本和視覺信息輸入。前端利用不同的處理模塊將文本、圖像等信息分別Token化,并直接輸入統(tǒng)一的大模型。12月6日,谷歌發(fā)布Gemini模型,作為第一款“原生多模態(tài)”大模型,文本和視覺等模態(tài)在統(tǒng)一架構(gòu)下預(yù)訓(xùn)練。統(tǒng)一的訓(xùn)練有望使得各模態(tài)之間的結(jié)合更加順暢。根據(jù)官方技術(shù)文檔,模型可以實(shí)現(xiàn)圖文結(jié)合的理解和推理,目前在數(shù)學(xué)和物理等領(lǐng)域有所進(jìn)展,體現(xiàn)了模型的復(fù)雜問題拆解能力,對(duì)于擴(kuò)展應(yīng)用領(lǐng)域以及提升輸出準(zhǔn)確性有較大價(jià)值。原生多模態(tài)設(shè)計(jì)實(shí)現(xiàn)更強(qiáng)圖文結(jié)合效果,但模型成本較高??梢葬槍?duì)圖像和文本結(jié)合的綜合任務(wù)進(jìn)行端到端的統(tǒng)一訓(xùn)練和優(yōu)化,把圖文結(jié)合當(dāng)成一項(xiàng)任務(wù)直接進(jìn)行學(xué)習(xí),而不是通過系統(tǒng)層面基于人為規(guī)則制定的融合和調(diào)優(yōu)。因此,采用原生多模態(tài)設(shè)計(jì)的大模型可以實(shí)現(xiàn)多模態(tài)信息的無縫共享、互通和融合,例如谷歌Gemini模型演示中就展示了基于模型對(duì)于視覺、文本、代碼的融合生成能力。但同時(shí)為了容納多模態(tài)的處理能力,模型單次參與推理的參數(shù)較多,訓(xùn)練數(shù)據(jù)的多樣性和規(guī)模也相應(yīng)提升,將顯著提升模型訓(xùn)練和推理成本。圖像生成模型主要采用擴(kuò)散模型架構(gòu),各產(chǎn)品存在顯著差異。潛在擴(kuò)散模型(LatentDiffusionmodel)是Transformer大模型在圖像領(lǐng)域的特化應(yīng)用,通過圖片噪點(diǎn)生成的方式學(xué)習(xí)大量圖片,并通過逆向去噪方式實(shí)現(xiàn)圖片生成,成為圖片生成領(lǐng)域的主流技術(shù)路徑。與文本生成注重正確性相比,圖片生成需求更加多元,各產(chǎn)品在藝術(shù)風(fēng)格、易用度等方面的差異化競(jìng)爭(zhēng)更加明顯。目前主流產(chǎn)品可以實(shí)現(xiàn)對(duì)用戶需求的準(zhǔn)確理解,并生成高質(zhì)量的、具備一定藝術(shù)風(fēng)格的圖像。代表產(chǎn)品有主打低門檻高質(zhì)量生成的Midjourney,打造開源生態(tài)實(shí)現(xiàn)工業(yè)級(jí)定制的StableDiffusion,結(jié)合ChatGPT實(shí)現(xiàn)便捷化使用的DALL·E3等。視頻生成是圖像生成在時(shí)間軸上的延續(xù),視頻與圖像生成底層不存在技術(shù)壁壘。與圖像生成類似,當(dāng)前視頻生成同樣通過擴(kuò)散模型實(shí)現(xiàn),根據(jù)RunwayGen1模型論文(PatrickEsser,JohnathanChiu,ParmidaAtighehchian等),在文生視頻流程中,模型首先通過DALL·E、StableDiffusion的文生圖模型實(shí)現(xiàn)高質(zhì)量圖片生成,引入帶有時(shí)間軸的預(yù)訓(xùn)練圖像模型,并在圖像和是視頻上做聯(lián)合訓(xùn)練,從而將擴(kuò)散模型從圖像擴(kuò)展到視頻生成領(lǐng)域。因此視頻和圖像生成底層不存在技術(shù)壁壘,核心能力在于如何更好的處理視頻的流暢性和藝術(shù)表達(dá),提升視頻生成的長(zhǎng)度限制。目前視頻模型產(chǎn)品主要功能包括文生視頻、文圖結(jié)合生成視頻、視頻智能編輯等功能。根據(jù)論文統(tǒng)計(jì),視頻生成領(lǐng)域熱度明顯高于視頻編輯和理解。目前視頻生成代表產(chǎn)品包括Pika、NeverEnds、Runway等,參考微信公眾號(hào)AIPioneer的測(cè)試,相關(guān)產(chǎn)品在動(dòng)畫生成上效果出色。大模型融合視覺能力可更好支持理解和生成任務(wù),能力升級(jí)帶動(dòng)應(yīng)用場(chǎng)景擴(kuò)展。1)對(duì)視覺信息的準(zhǔn)確理解:視覺問答、組合式問答等任務(wù)多模態(tài)大模型提升對(duì)視覺信息的理解能力和邏輯能力,實(shí)現(xiàn)更加有效的用戶反饋。視覺問答(VQA)要求模型根據(jù)圖片、視頻等視覺信息回答以文本形式提出的事實(shí)性問題,而組合式問答更注重模型的推理能力,要求模型判斷非視覺關(guān)系并執(zhí)行推理。與純視覺模型相比,擁有視覺能力的大模型在相關(guān)任務(wù)處理能力上有顯著提升。由于大模型擁有龐大的知識(shí)儲(chǔ)備,可以結(jié)合圖像外知識(shí)進(jìn)行詳細(xì)解釋,對(duì)于傳統(tǒng)VQA模型只基于單圖的問答進(jìn)行了有效擴(kuò)展和延伸,極大豐富了技術(shù)的應(yīng)用場(chǎng)景。同時(shí),大模型具有圖文結(jié)合能力、邏輯能力和復(fù)雜問題的拆解能力,有助于模型更好的理解用戶復(fù)雜需求,回答更抽象的問題,高質(zhì)量完成類似組合式問答的邏輯任務(wù)。能力得到第三方驗(yàn)證,有望重塑安防等領(lǐng)域。根據(jù)論文YunxinLi,LongyueWang,BaotianHu等發(fā)表的論文AComprehensiveEvaluationofGPT-4VonKnowledge-IntensiveVisualQuestionAnswering顯示,GPT-4V在VQA等問答任務(wù)評(píng)估中表現(xiàn)優(yōu)異,主要體現(xiàn)在有機(jī)結(jié)合圖片信息和外部知識(shí),并可以為答案提供完整且正確的邏輯解釋。未來隨著模型效果提升,對(duì)于視覺信息的準(zhǔn)確理解和邏輯建構(gòu)能力有望廣泛賦能數(shù)據(jù)統(tǒng)計(jì)、自動(dòng)篩查、視覺助理、智能助手等領(lǐng)域,實(shí)現(xiàn)各行業(yè)應(yīng)用落地。例如在智能安防領(lǐng)域,可廣泛應(yīng)用于監(jiān)測(cè)、巡檢等場(chǎng)景,實(shí)現(xiàn)實(shí)時(shí)快速篩查和安全預(yù)警;落地智能助手領(lǐng)域幫助視覺受損人群理解環(huán)境情況等。2)視覺生成能力:文生圖、文生視頻等任務(wù)開拓全新圖片與視頻生成,持續(xù)發(fā)掘新概念和新產(chǎn)品。大語言模型對(duì)用戶需求的準(zhǔn)確理解,結(jié)合模型的多模態(tài)處理能力,形成強(qiáng)大視覺生成能力,包括文生圖、文生視頻、圖生圖等產(chǎn)品,并圍繞生成能力產(chǎn)生圖片和視頻編輯、圖片擴(kuò)展和優(yōu)化等功能。相關(guān)能力落地各類創(chuàng)意工具,將實(shí)現(xiàn)個(gè)人生產(chǎn)能力和效率的全面提升。Adobe推出的Firefly工具包,基于大模型多模態(tài)能力實(shí)現(xiàn)了文字和圖像之間的高效交互,發(fā)布生成填色、重新上色、3D互動(dòng)式生成、圖像擴(kuò)展等智能編輯功能。Pikalabs發(fā)布了全新的文生視頻產(chǎn)品Pika1.0,僅憑一句話就可以生成3D動(dòng)畫、動(dòng)漫、卡通、電影等各種風(fēng)格的視頻,實(shí)現(xiàn)高質(zhì)量、低門檻的視頻生成。代碼生成:代碼大模型快速發(fā)展,國產(chǎn)廠商位于第一梯隊(duì)通過大語言模型微調(diào)構(gòu)建代碼大模型,正確率和多模態(tài)融合能力快速提高。代碼大模型主要將自然語言轉(zhuǎn)化成可執(zhí)行代碼,作用于開發(fā)領(lǐng)域提升程序員工作效率。由于代碼標(biāo)準(zhǔn)化程度高、容錯(cuò)低,和自然語言差異較大,普遍采取基于語言模型使用代碼數(shù)據(jù)進(jìn)行微調(diào)的方式,構(gòu)建專用的代碼大模型,這樣既可以保留模型對(duì)用戶輸入的高理解能力,又可以將輸出嚴(yán)格限制為代碼格式。過去幾年,代碼大模型圍繞提升變成正確率不斷升級(jí),最新基于GPT-4構(gòu)建的代碼大模型在HumanEval測(cè)試級(jí)上單次正確率可以達(dá)到82%。此外,代碼與其他模態(tài)的互動(dòng)與融合也是主要進(jìn)展方向之一,谷歌最新Gemini模型演示了基于文字和圖像生成代碼的能力,展現(xiàn)相關(guān)技術(shù)的巨大潛力。國際巨頭加速布局,國廠商位列第一梯隊(duì)。過去一年全球主要廠商大力投入代碼大模型研發(fā),模型能力屢創(chuàng)新高。3月,OpenAI基于GPT-4推出代碼模型,官方技術(shù)公告顯示模型在HumanEval測(cè)試集上的正確率為67%。9月,Meta發(fā)布基于Llama2的開源代碼大模型CodeLlama,在HuggingFace平臺(tái)測(cè)評(píng)中一度超越GPT-4等主流代碼模型,占據(jù)榜首位置。12月,Google基于Gemini模型推出AlphaCode2,性能超過85%的人類程序員,將加持Gemini模型定制版。國產(chǎn)廠商中,根據(jù)論文ASurveyonLanguageModelsforCode(ZibinZheng,KaiwenNing,YanlinWang等),螞蟻集團(tuán)的開源代碼大模型CodeFuse和華為代碼大模型PanGu-Coder2性能優(yōu)異,位列行業(yè)第一梯隊(duì)。短期展望:國外大模型加強(qiáng)多模態(tài)支持,國產(chǎn)大模型加速追趕海外通用大模型更新有望加強(qiáng)的多模態(tài)能力支持。根據(jù)谷歌官網(wǎng),目前GeminiPro模型已經(jīng)接入Bard并開放API使用,但能力更強(qiáng)的GeminiUltra模型預(yù)計(jì)將在明年年初接入BardAdvanced,正式開啟商業(yè)化進(jìn)程。根據(jù)OpenAICEOSamAltman透露,公司和微軟已開始合作開發(fā)GPT-5模型。Anthropic曾在提出2-3年實(shí)現(xiàn)AGI的目標(biāo),考慮到多模態(tài)能力對(duì)AGI的重要作用,公司多模態(tài)大模型或?qū)⒂诮谕瞥?。海外高質(zhì)量源生多模態(tài)大模型技術(shù)和商業(yè)化進(jìn)程保持高速推進(jìn),推動(dòng)行業(yè)保持高速發(fā)展。借鑒海外成熟經(jīng)驗(yàn),國產(chǎn)多模態(tài)大模型加速追趕。GPT-4V(ision)和Gemini大模型的成功為多模態(tài)大模型的技術(shù)路徑提供參考,國產(chǎn)多模態(tài)大模型進(jìn)展有望逐步加速。金山軟件與華中科技大學(xué)聯(lián)合推出高性能多模態(tài)大模型Monkey,可對(duì)圖形進(jìn)行深入問答交流和精確描述,根據(jù)測(cè)試,模型在18個(gè)數(shù)據(jù)集中表現(xiàn)出色,在圖像描述、視覺問答和文本密集的問答任務(wù)上顯現(xiàn)優(yōu)勢(shì)??紤]到國產(chǎn)廠商在CV、語音合成等任務(wù)上具有一定積累,大語言模型能力持續(xù)提升,我們認(rèn)為國產(chǎn)多模態(tài)大模型有望加速。行業(yè)落地:大模型賦能千行百業(yè),應(yīng)用市場(chǎng)蓬勃發(fā)展落地機(jī)遇:大模型賦能千行百業(yè),整體市場(chǎng)空間廣闊大模型能力賦能千行百業(yè),打造繁榮模型生態(tài)。當(dāng)前大模型已經(jīng)展現(xiàn)強(qiáng)大文本生成能力和通用性,在辦公、企業(yè)管理、金融、教育等領(lǐng)域逐步落地應(yīng)用。未來,大模型對(duì)圖像的識(shí)別、理解、總結(jié)和推理能力將不斷提升,模型可以把圖像、視頻、文本等信息有機(jī)結(jié)合,更智能的認(rèn)知和回應(yīng)用戶訴求,促進(jìn)模型融入千行百業(yè),實(shí)現(xiàn)規(guī)?;涞貞?yīng)用,形成圍繞大模型的繁榮生態(tài)。公有云和私有部署模式共同推進(jìn),探索多樣化商業(yè)模式公有云模式下MaaS模式值得期待,采用“訂閱+流量”的收費(fèi)模式。MaaS(ModelasaService)是一種新的商業(yè)模式,將模型作為基礎(chǔ)設(shè)施部署在公有云端,為下游用戶提供模型使用和基于模型的功能開發(fā)支持。行業(yè)大模型可利用MaaS模式廣泛加持各場(chǎng)景,實(shí)現(xiàn)模型生態(tài)的快速發(fā)展。采用MaaS模式的行業(yè)大模型主要采取“訂閱+流量”收費(fèi)模式,用戶通過基礎(chǔ)訂閱獲取模型能力接入,同時(shí)基于用戶模型流量使用情況確定模型服務(wù)價(jià)格。私有化部署模型通過項(xiàng)目制收費(fèi),滿足客戶定制化需求??紤]到模型規(guī)模和算力限制,大模型難以實(shí)現(xiàn)終端部署,以私有云模式進(jìn)行分層部署將是實(shí)現(xiàn)模型應(yīng)用的主要模式。各公司基于經(jīng)營管理、市場(chǎng)定位、歷史文化等方面的考量,容易形成差異化的市場(chǎng)理解,進(jìn)而提出不同的模型需求。定制化模型帶來更高的開發(fā)成本和更長(zhǎng)的交付周期,更適用于擁有深刻行業(yè)理解的行業(yè)龍頭和超大型公司。生成式AI整體市場(chǎng)空間廣闊,有望超過2000億元。根據(jù)technavio數(shù)據(jù),全球生成式AI市場(chǎng)規(guī)模有望從2022年的112億美元增長(zhǎng)到2027年的459億美元,2022-2027年CAGR為32.65%,其中2023年將實(shí)現(xiàn)31.65%的增速;根據(jù)前瞻產(chǎn)業(yè)研究院的數(shù)據(jù),2022年我國生成式AI市場(chǎng)規(guī)模約660億元,預(yù)計(jì)2020~2025年復(fù)合增速將達(dá)到84%,行業(yè)整體處于高速增長(zhǎng)通道。在大模型的催化下,生成式AI市場(chǎng)規(guī)模有望在中短期保持高速成長(zhǎng),2025年有望超過2000億元,大模型行業(yè)未來發(fā)展前景廣闊。辦公:模型落地核心場(chǎng)景,打造智能辦公助理四大特征共同作用下,辦公軟件成大模型應(yīng)用落地的核心場(chǎng)景之一。1)應(yīng)用場(chǎng)景扎實(shí):辦公場(chǎng)景關(guān)系連接多、信息含量高、時(shí)效性強(qiáng);2)效率提升明確:AI+辦公軟件在AIGC(內(nèi)容創(chuàng)作)、Copilot(智慧助手)、Insight(知識(shí)洞察)等方向?qū)硇侍嵘?)功能演進(jìn)清晰:伴隨擴(kuò)大測(cè)試范圍以及正式推向客戶,功能有望結(jié)合反饋進(jìn)行快速演進(jìn);4)商業(yè)落地加速:海外Microsoft365Copilot計(jì)劃將以30美元/月提供,E3、E5、商業(yè)標(biāo)準(zhǔn)版和商業(yè)高級(jí)版收費(fèi)為36/57/12.5/22美元/月,國內(nèi)WPSAI已經(jīng)開啟公測(cè)。模型能力限制下,短期以場(chǎng)景化點(diǎn)工具結(jié)合為主。由于當(dāng)前模型通用能力無法覆蓋所有場(chǎng)景,辦公軟件AI產(chǎn)品短期需結(jié)合場(chǎng)景進(jìn)行優(yōu)化,以點(diǎn)工具集合的形式實(shí)現(xiàn)完善模型產(chǎn)品矩陣。以WPSAI為例,公司或?qū)⒂疫厵诘膶?duì)話框化整為零,如在表格中的不同位置提示對(duì)應(yīng)生成函數(shù)、處理數(shù)據(jù)、分析數(shù)據(jù)等不同功能;同時(shí)針對(duì)特定場(chǎng)景,公司基于開源底座7B、13B等小模型,以Copilot場(chǎng)景中的表格函數(shù)生成為例,大模型在相關(guān)領(lǐng)域效果較差,公司自研小模型實(shí)現(xiàn)低成本且高效的表格函數(shù)生成。多模態(tài)能力結(jié)合打造辦公場(chǎng)景下的智能助理。微軟全新打造Microsoft365Chat,結(jié)合電子郵件、會(huì)議、聊天、文檔以及網(wǎng)絡(luò)數(shù)據(jù)等多模態(tài)信息,Microsoft365Chat對(duì)用戶工作需求和習(xí)慣形成深刻理解,可以在用戶的文件中快速找到所需要的內(nèi)容并將其與群體內(nèi)容相連接,還可以寫戰(zhàn)略文件、預(yù)定商旅、收發(fā)電子郵件,全面扮演辦公場(chǎng)景下的智能助理角色。我們認(rèn)為,伴隨大模型應(yīng)用的逐步深入,智能助理或是公司在生成式AI方向上的潛在布局選擇之一,即將當(dāng)前的AIGC、Copilot、Insight三大戰(zhàn)略方向統(tǒng)一為全面的智能助理。教育:全面引領(lǐng)教學(xué)變革,海外產(chǎn)品落地獲得認(rèn)可應(yīng)用上形成“教、管、學(xué)、考”四大場(chǎng)景,融入具體的教育應(yīng)用環(huán)節(jié)。其中“學(xué)”和“考”針對(duì)學(xué)生,大模型的生成能力融入線下和線上,促進(jìn)學(xué)生教學(xué)提質(zhì)增效,以數(shù)據(jù)驅(qū)動(dòng)科學(xué)備考和科學(xué)練習(xí),學(xué)生在學(xué)習(xí)過程中使用大模型技術(shù),能夠提高學(xué)習(xí)效率?!敖獭焙汀肮堋敝饕槍?duì)教育者,行業(yè)大模型可以利用數(shù)據(jù)整合能力實(shí)現(xiàn)科學(xué)的教師和學(xué)生評(píng)價(jià)管理體系,利用大模型工具學(xué)習(xí)能力和知識(shí)整合能力實(shí)現(xiàn)高效備課,將有效減少教師的工作量,并實(shí)現(xiàn)更好地因材施教。Duolingo和Khanmigo實(shí)現(xiàn)大模型線上輔助教學(xué),取得良好市場(chǎng)反饋。Khanmigo為KhanAcademy推出的針對(duì)專業(yè)教育的模型產(chǎn)品,可以充當(dāng)學(xué)生的虛擬導(dǎo)師解釋概念、提供提示、檢查答案,并通過個(gè)性化教學(xué)和自適應(yīng)輔導(dǎo)的模增強(qiáng)學(xué)生對(duì)知識(shí)的掌握程度。作為語言教育軟件,Duolingo在最新“Max訂閱方案”中推出兩項(xiàng)基于GPT-4的設(shè)計(jì)的教輔功能,分別是答案解釋(ExplainmyAnswer)和角色扮演。在答案解釋功能中,模型可以對(duì)用戶個(gè)性錯(cuò)誤加以解釋,以提升學(xué)習(xí)效果;角色扮演中,用戶可以在AI設(shè)計(jì)的一系列語境中扮演各種角色,通過語言時(shí)間來深層激發(fā)“內(nèi)在學(xué)習(xí)(implicitlearning)”,挑語言學(xué)習(xí)效率。根據(jù)多鄰國公司財(cái)報(bào),23Q2月活用戶達(dá)7410萬,同比增長(zhǎng)50%;日活用戶數(shù)2140萬,同比增長(zhǎng)62

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論