計(jì)算機(jī)行業(yè)大模型市場(chǎng)分析

上傳人：白*** IP屬地：湖南上傳時(shí)間：2024-04-11 格式：DOCX 頁數(shù)：37 大?。?.88MB 積分：50 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩32頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

計(jì)算機(jī)行業(yè)大模型市場(chǎng)分析大模型概述：具備強(qiáng)大生成能力，訓(xùn)練趨于標(biāo)準(zhǔn)化概述：通用大模型帶來強(qiáng)大生成能力，追求高泛化能力大模型可以高質(zhì)量完成自然語言理解和生成任務(wù)。大模型主要指大語言模型（LargeLanguageModel，LLM），是一種基于大量數(shù)據(jù)學(xué)習(xí)完成文本識(shí)別、總結(jié)、翻譯、預(yù)測(cè)和生成等人物的深度學(xué)習(xí)算法。當(dāng)前大語言模型底層基于Transformer框架，利用大量文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，可以按用戶需求高質(zhì)量完成自然語言理解或生成任務(wù)，應(yīng)用于機(jī)器翻譯、文本摘要、內(nèi)容創(chuàng)作、邏輯推理等諸多場(chǎng)景。隨著技術(shù)發(fā)展，大模型逐步超越大語言模型范疇，輸入輸出上逐漸涵蓋音頻、圖像、視頻等模態(tài)，形成具備多模態(tài)能力的大模型。通用大模型以通用人工智能（AGI）為最終目標(biāo)，追求模型效果的高泛化能力。過去幾年，大模型領(lǐng)域主要針對(duì)通用大模型投入研發(fā)，涌現(xiàn)出GPT、Llama、PaLM等代表模型。通用大模型要求模型可以在不進(jìn)行重新訓(xùn)練的情況下，在大多數(shù)場(chǎng)景下理解用戶提出的非結(jié)構(gòu)化提示詞，并基于需求理解實(shí)現(xiàn)穩(wěn)定且正確的文本生成。通用大模型最終目標(biāo)為通用人工智能（AGI），亦稱強(qiáng)AI，及人工智能可以單獨(dú)完成人類可以完成的所有任務(wù)，該目標(biāo)要求模型具有高場(chǎng)景泛化能力，對(duì)新樣本具有完全適應(yīng)能力。對(duì)泛化能力的追求在通用大模型的訓(xùn)練數(shù)據(jù)和模型特點(diǎn)上得以體現(xiàn)。1）訓(xùn)練數(shù)據(jù)覆蓋面擴(kuò)大。過去幾年，大模型預(yù)訓(xùn)練數(shù)據(jù)涵蓋的行業(yè)快速增加，2019年，谷歌基于互聯(lián)網(wǎng)數(shù)據(jù)集C4推出T5模型；2023年Meta發(fā)布開源通用大模型LLaMA，其預(yù)訓(xùn)練數(shù)據(jù)集以C4和其他互聯(lián)網(wǎng)數(shù)據(jù)為基礎(chǔ)，包含,維基百科、GitHub代碼、書籍、專業(yè)論文等數(shù)據(jù)。預(yù)訓(xùn)練數(shù)據(jù)范圍擴(kuò)大有利于模型能力覆蓋更多場(chǎng)景，提升模型通用能力。2）訓(xùn)練數(shù)據(jù)分布上，通用語言文本占比較高，行業(yè)專業(yè)知識(shí)占比較低。通用大模型預(yù)訓(xùn)練數(shù)據(jù)集以互聯(lián)網(wǎng)數(shù)據(jù)、書籍等通用語言文本為基礎(chǔ)，結(jié)合部分歷史、地理等通識(shí)類學(xué)科知識(shí)，行業(yè)專業(yè)知識(shí)占比較少，最大程度保證模型通用語言能力提升。以LLaMA的預(yù)訓(xùn)練數(shù)據(jù)集為例，高專業(yè)度ArXiv論文數(shù)據(jù)占比2.5%，StackExchange專業(yè)行業(yè)問答數(shù)據(jù)占比2%，通用知識(shí)類文本占比超過95%。3）模型設(shè)計(jì)上，通用大模型參數(shù)和訓(xùn)練數(shù)據(jù)規(guī)?？焖僭鲩L(zhǎng)，模型以大體量承載大知識(shí)量，讓模型“學(xué)習(xí)”并“記憶”盡可能多的知識(shí)。根據(jù)semianalysis的數(shù)據(jù)，OpenAI的GPT-4模型參數(shù)規(guī)模約為1.8萬億，為GPT-3（1750億）的十倍以上；GPT-4訓(xùn)練數(shù)據(jù)規(guī)模約20萬億Token，為GPT-3（5000億Token）的40倍，模型參數(shù)和預(yù)訓(xùn)練數(shù)據(jù)規(guī)模保持高速增長(zhǎng)，帶來模型效果快速增強(qiáng)，根據(jù)OpenAI官方數(shù)據(jù)，GPT-4較GPT3.5在回答真實(shí)性方面提升約40%，并且生成不符合價(jià)值觀答案的概率減少82%。通用大模型采用多數(shù)據(jù)集驗(yàn)證，取得優(yōu)秀成績(jī)。通用大模型通常以多領(lǐng)域、多層次的數(shù)據(jù)集綜合衡量模型效果，并不追求在單一數(shù)據(jù)集上的極致表現(xiàn)。根據(jù)OpenAI的GPT-4技術(shù)報(bào)告，模型評(píng)價(jià)利用學(xué)術(shù)測(cè)試集MMLU、科學(xué)測(cè)試集ARC、日常對(duì)話測(cè)試集HellaSwag、Python測(cè)試集HumanEval等，以7大數(shù)據(jù)集全面覆蓋多學(xué)科、多學(xué)段、多場(chǎng)景的生成能力，力求全面綜合評(píng)價(jià)模型整體表現(xiàn)。與之相對(duì)的是，小模型由于應(yīng)用場(chǎng)景相對(duì)單一，模型目標(biāo)性更強(qiáng)，普遍采用單一測(cè)試集，例如CV領(lǐng)域知名的ILSVRC挑戰(zhàn)賽便長(zhǎng)期采用ImageNet數(shù)據(jù)集，其子集ImageNet1K（ILSVRC2012）長(zhǎng)期被用于各論文的模型效果評(píng)價(jià)。長(zhǎng)期使用單一數(shù)據(jù)集帶來時(shí)效性較差、評(píng)價(jià)指標(biāo)相對(duì)單一的問題。通用大模型以“預(yù)訓(xùn)練+微調(diào)”的模式加持應(yīng)用場(chǎng)景。預(yù)訓(xùn)練階段模型學(xué)習(xí)大量無標(biāo)注文本數(shù)據(jù)，使其模仿人類語言構(gòu)成的訓(xùn)練數(shù)據(jù)集，進(jìn)而具備各場(chǎng)景通用的生成能力；微調(diào)階段模型學(xué)習(xí)小規(guī)模行業(yè)專業(yè)知識(shí)，利用有標(biāo)注的專業(yè)數(shù)據(jù)集針對(duì)模型輸出層參數(shù)進(jìn)行調(diào)整，強(qiáng)化模型對(duì)特定領(lǐng)域的生成能力?！邦A(yù)訓(xùn)練+微調(diào)”的模式可以低成本提升模型在特定行業(yè)領(lǐng)域的表現(xiàn)能力，成為長(zhǎng)期伴隨深度模型行業(yè)應(yīng)用的通用模式。根據(jù)AI創(chuàng)業(yè)公司Cohere最新論文，在極限條件下只更新0.32%的模型參數(shù)就可以實(shí)現(xiàn)模型微調(diào)，充分發(fā)揮通用大模型的通用性，極大降低大模型行業(yè)應(yīng)用成本。但由于微調(diào)改變的參數(shù)量小，只能采用針對(duì)細(xì)分場(chǎng)景下特定功能進(jìn)行針對(duì)性微調(diào)，導(dǎo)致單模型只能有效應(yīng)對(duì)單一場(chǎng)景。模型訓(xùn)練：流程逐步趨于標(biāo)準(zhǔn)化，數(shù)據(jù)需求持續(xù)提升大模型訓(xùn)練可劃分兩大階段，流程趨于標(biāo)準(zhǔn)化。大模型訓(xùn)練大致可分為通用能力培養(yǎng)和行業(yè)能力提升兩大階段。其中通用能力培養(yǎng)主要包括無監(jiān)督預(yù)訓(xùn)練、價(jià)值觀對(duì)齊等核心訓(xùn)練步驟，全面提升模型通用能力；行業(yè)能力培養(yǎng)主要包括有監(jiān)督微調(diào)、行業(yè)預(yù)訓(xùn)練、偏好對(duì)齊等訓(xùn)練流程，主要針對(duì)特定應(yīng)用場(chǎng)景和行業(yè)需求進(jìn)行模型優(yōu)化。1）訓(xùn)練數(shù)據(jù)：分詞技術(shù)影響模型效果，訓(xùn)練數(shù)據(jù)規(guī)模應(yīng)與模型參數(shù)規(guī)模相適應(yīng)數(shù)據(jù)以語義單元為單位輸入模型，分詞技術(shù)影響模型效果。語義單元（Token）是數(shù)據(jù)輸入大模型的最小單位，分詞技術(shù)和向量化屬模型核心技術(shù)。分詞（Tokenization）是自然語言處理領(lǐng)域的常用技術(shù)，指將完整的文本信息切分為語義單元（Token）并將其進(jìn)行數(shù)值化作為模型輸入。當(dāng)前以Sub-word為單位進(jìn)行分詞是最常用的方式，而具體的分詞方式例如BPE、WordPiece、UniLM等技術(shù)，以及語義信息的向量化技術(shù)均會(huì)對(duì)模型輸入產(chǎn)生直接影響。當(dāng)前語義單元是計(jì)量大模型訓(xùn)練數(shù)據(jù)量的單位，對(duì)于訓(xùn)練數(shù)據(jù)集規(guī)模的描述在2020年左右經(jīng)歷了從儲(chǔ)存空間（GB、TB）到Token數(shù)量的轉(zhuǎn)變。訓(xùn)練數(shù)據(jù)規(guī)模應(yīng)與模型參數(shù)規(guī)模相適應(yīng)，大量模型數(shù)據(jù)規(guī)模不足的問題。2022年9月，DeepMind提出ChinchillaScalingLaws，提出了最優(yōu)的模型規(guī)模-數(shù)據(jù)規(guī)模匹配方案，其研究認(rèn)為單個(gè)參數(shù)需要20個(gè)左右的Token進(jìn)行訓(xùn)練，并且模型規(guī)模越大，單個(gè)參數(shù)所需的數(shù)據(jù)Token越多。在Chinchillalaw之前，行業(yè)遵循OpenAI提出的KaplanScalinglaw，及單個(gè)參數(shù)需要1.7個(gè)Token投入訓(xùn)練。以GPT-3為代表，2022年之前的大模型主要依據(jù)Kaplanlaw確定訓(xùn)練數(shù)據(jù)的規(guī)模，存在模型參數(shù)量大但訓(xùn)練數(shù)據(jù)不充分的問題。根據(jù)semianalysis的數(shù)據(jù)，OpenAI的GPT-4模型參數(shù)規(guī)模約為1.8萬億，訓(xùn)練數(shù)據(jù)規(guī)模約20萬億Token，較GPT-3更趨近Chinchilla定律但數(shù)據(jù)規(guī)模仍有不足。2）模型設(shè)計(jì)：參數(shù)量、規(guī)模持續(xù)增長(zhǎng)帶來模型效果提升AI大模型參數(shù)量快速增長(zhǎng)，規(guī)?？焖贁U(kuò)大表現(xiàn)出涌現(xiàn)能力。2018年發(fā)布的GPT-1和BERT模型參數(shù)量大約為1億，2020年發(fā)布的GPT-3模型參數(shù)規(guī)模為1750億，2023年推出的GPT-4和Gemini模型規(guī)模已經(jīng)達(dá)到萬億水平，大模型參數(shù)規(guī)模持續(xù)高速增長(zhǎng)。涌現(xiàn)指大模型規(guī)模達(dá)到一定程度時(shí)在特定任務(wù)上的表現(xiàn)顯著提升。涌現(xiàn)能力并非人為設(shè)計(jì)和構(gòu)建的，是大模型作為端到端模型可解釋度較低的情況下，對(duì)于大模型具有一定思維能力的概括性描述。3）模型預(yù)訓(xùn)練：自監(jiān)督預(yù)訓(xùn)練成為行業(yè)標(biāo)配預(yù)訓(xùn)練強(qiáng)調(diào)訓(xùn)練模型的通用能力，自監(jiān)督預(yù)訓(xùn)練（self-supervisedpre-training）推動(dòng)模型發(fā)展。通過預(yù)訓(xùn)練得到通用大模型（GPT-4、PaLM2）。預(yù)訓(xùn)練及在應(yīng)用場(chǎng)景未知的情況下，讓模型自主學(xué)習(xí)通用表征以盡可能滿足更多場(chǎng)景的應(yīng)用需求。大語言模型數(shù)據(jù)規(guī)模極大，數(shù)據(jù)標(biāo)注成本極高，自監(jiān)督預(yù)訓(xùn)練模式無需數(shù)據(jù)標(biāo)注，有力支持大模型訓(xùn)練數(shù)據(jù)規(guī)模的快速增長(zhǎng)。4）模型價(jià)值觀對(duì)齊：價(jià)值觀注入保證模型輸出符合道德人倫模型價(jià)值觀對(duì)齊主要目標(biāo)是確保模型輸出結(jié)果符合社會(huì)道德和法律約束。模型對(duì)齊是近年來研究者開始關(guān)注的一項(xiàng)議題。由于大模型內(nèi)部可解釋度低，訓(xùn)練后的模型難以保證輸出結(jié)果符合社會(huì)道德和法律約束，因此需要額外訓(xùn)練和外部風(fēng)控機(jī)制進(jìn)一步約束模型行為。OpenAI公司2022年成立了專門的對(duì)齊團(tuán)隊(duì)，并提出InstructGPT模型，利用人類反饋學(xué)習(xí)（RHLF）和對(duì)應(yīng)的獎(jiǎng)勵(lì)模型增強(qiáng)模型對(duì)齊效果。根據(jù)OpenAI公司CEOSamAltman發(fā)言，GPT-4模型從最初完成預(yù)訓(xùn)練到最終完成模型對(duì)齊共耗時(shí)8個(gè)月，模型對(duì)齊工作成為大模型訓(xùn)練中不可忽視的一項(xiàng)重要內(nèi)容，也是耗時(shí)較長(zhǎng)的工序之一。5）大模型行業(yè)化：基于通用大模型形成垂類模型主要有三種方式。三種方式可以在單一模型上同時(shí)使用以最大程度提升模型效果。1）行業(yè)數(shù)據(jù)預(yù)訓(xùn)練：利用大量無標(biāo)注行業(yè)數(shù)據(jù)對(duì)模型整體進(jìn)行預(yù)訓(xùn)練。行業(yè)知識(shí)大量注入模型使得經(jīng)過行業(yè)預(yù)訓(xùn)練的模型獲得單行業(yè)能力提升，可有效降低模型在特定行業(yè)內(nèi)的幻覺問題，同時(shí)最大程度保留模型的通用能力，維持模型的基本泛化性能，因此備受青睞。但該方法數(shù)據(jù)需求大，同時(shí)消耗較多算力資源，適合在特定有大量數(shù)據(jù)積累的行業(yè)使用。2）模型對(duì)齊：利用RLHF機(jī)制人工介入對(duì)模型進(jìn)行微調(diào)。模型較微調(diào)而言更加溫和，可以在提升模型特定行業(yè)表現(xiàn)的同時(shí)，維持模型通用能力，但同樣無法杜絕模型出現(xiàn)幻覺問題。同時(shí)模型對(duì)其安全性較強(qiáng)，人工介入保證模型輸出符合法律、道德等約束，同時(shí)保證模型各領(lǐng)域的能力平衡，但需要大量人工成本和較長(zhǎng)訓(xùn)練時(shí)間，往往作為模型訓(xùn)練的最后步驟。3）模型有監(jiān)督微調(diào)：利用少量有標(biāo)注的行業(yè)數(shù)據(jù)對(duì)模型靠近輸出側(cè)的部分參數(shù)進(jìn)行微調(diào)。微調(diào)可以利用少量參數(shù)顯著提升模型在特定行業(yè)上的表現(xiàn)，同時(shí)算力成本只相當(dāng)于通用大模型預(yù)訓(xùn)練的1%左右，但該方法會(huì)犧牲模型通用能力，嚴(yán)重加劇模型在其他領(lǐng)域的幻覺問題。海外廠商：OpenAI領(lǐng)先通用大模型，Google和Anthropic形成第二梯隊(duì)1）OpenAI：通用大模型的領(lǐng)跑者堅(jiān)持長(zhǎng)期投入，引領(lǐng)本輪大模型技術(shù)發(fā)展。OpenAI公司成立于2016年，早期專注于自然語言處理賽道開發(fā)可商用的AI聊天機(jī)器人，如今公司核心宗旨為實(shí)現(xiàn)安全的通用人工智能（AGI），致力于提供通用能力更強(qiáng)的大模型。GPT（GenerativePre-trainedTransformer）最早可以追溯到2018年OpenAI發(fā)布GPT-1，此后隨著模型迭代，GPT模型能力不斷提升。最新的GPT-4與GPT-3的模型規(guī)模相當(dāng)（1750億），但通過更多的數(shù)據(jù)和計(jì)算資源投入實(shí)現(xiàn)進(jìn)一步發(fā)展。GPT-4支持多模態(tài)，可以理解復(fù)雜概念，并在語言以外的數(shù)學(xué)、醫(yī)學(xué)、法律的多學(xué)科上表現(xiàn)出與人類相近的能力。GPT-4Turbo以更低價(jià)格提供更強(qiáng)能力，多模態(tài)接口全面開放。較原版GPT-4，GPT-4Turbo本次主要獲得五大更新：1）上下文能力增強(qiáng)，模型上下文窗口從32K提升到128K，相當(dāng)于單次可輸入超過300頁的英文文本；2）模型知識(shí)更新，外界知識(shí)從2021年9月更新到2023年4月；3）調(diào)用優(yōu)化，推出JSON模式優(yōu)化API多任務(wù)調(diào)用效率，模型格式化輸出能力提升；4）單價(jià)降低，輸入定價(jià)0.01美元/Token，較原版便宜3倍，輸出定價(jià)0.03美元/Token，較原版便宜2倍；5）速度提升，Token輸出限制速率提升一倍，用戶可自主申請(qǐng)?zhí)崴?。同時(shí)，OpenAI在GPT-4Turbo上開放圖像輸入，定價(jià)視圖片尺寸而定，1080x1080圖像輸入定價(jià)0.00765美元。圖像模型DALL·E3和文轉(zhuǎn)聲模型TTS通過單獨(dú)API開放給用戶。在模型能力提升、多模態(tài)能力加持、服務(wù)價(jià)格降低等多重因素共同作用下，GPT-4流量或?qū)⒂瓉砣略鲩L(zhǎng)。2）Google：技術(shù)積累深厚，逐步實(shí)現(xiàn)追趕Google在自然語言處理領(lǐng)域有深厚技術(shù)積累。2017年谷歌公司發(fā)表論文AttentionisAllYouNeed（AshishVaswani,NoamShazeer,NikiParmar等），開啟Transformer框架下的大模型時(shí)代。公司在三條技術(shù)路線均有布局，有大量自研模型發(fā)布。2017-2021年，由于自身核心搜索引擎業(yè)務(wù)影響，谷歌大力投入自然語言理解而非生成能力研發(fā)，因此Google在BERT路線和T5路線上投入大量研究力量，導(dǎo)致公司在GPT路線上落后于OpenAI。2022年，谷歌先后推出1370億參數(shù)的LaMDA和5400億參數(shù)的PaLM模型，但模型效果并未超越1750億參數(shù)的GPT-3。2023年5月，公司推出對(duì)標(biāo)GPT-4的PaLM2模型，成為當(dāng)前可以與OpenAI正面競(jìng)爭(zhēng)的主要公司。谷歌官方發(fā)布公司迄今為止規(guī)模最大、能力最強(qiáng)的Gemini大模型。12月6日，谷歌發(fā)布Gemini模型，按不同模型規(guī)模包括GeminiUltra、GeminiPro、GeminiNano三個(gè)版本。根據(jù)官方測(cè)試數(shù)據(jù)，模型文本能力出眾，在特定測(cè)試方法下，性能最優(yōu)的Ultra模型在MMLU測(cè)試集上以90.0%的高分，成為歷史上第一個(gè)超越人類專家的模型。Gemini采用“原生多模態(tài)”架構(gòu)，具備強(qiáng)大多模態(tài)能力和圖文結(jié)合的邏輯推理能力，在數(shù)學(xué)、物理等學(xué)科問題上表現(xiàn)優(yōu)秀，可以基于視覺和文本提出具有一定創(chuàng)新性的觀點(diǎn)。針對(duì)Gemini定制版，谷歌推出AlphaCode2，性能超過85%的人類程序員。同時(shí)谷歌同步發(fā)布TPUv5e，較TPUv4性價(jià)比提升2.3倍，采用全新計(jì)算芯片的Gemini模型，較前代PaLM模型運(yùn)行速度更快、更便宜。3）Anthropic：核心團(tuán)隊(duì)來自O(shè)penAI，注重模型安全注重模型安全問題，公司快速發(fā)展。創(chuàng)始人Anthropic是由OpenAI前研發(fā)副總裁DarioAmodei帶領(lǐng)其團(tuán)隊(duì)成員于2021年成立的公司，對(duì)高級(jí)人工智能安全問題的保持高度關(guān)注。過去兩年，公司相繼得到Google和Amazon投資，并獲得超過50億美元融資。2023年3月15日，公司發(fā)布類ChatGPT產(chǎn)品Claude，模型整體能力達(dá)到ChatGPT同等能力。積極探索新技術(shù)應(yīng)用。在Claude模型訓(xùn)練中，Anthropic提出CAI機(jī)制及模型排序代替人工排序的RLHF以提升訓(xùn)練效率，同時(shí)推測(cè)其通過為底層Transformer增加Memory模塊使模型記憶力為ChatGPT的三倍。公司未來計(jì)劃構(gòu)建名為“Claude-Next”的前沿模型，比目前最強(qiáng)大的AI（GPT-4）還要強(qiáng)大10倍，需要在未來18個(gè)月內(nèi)投入10億美元。4）Meta：開源模型領(lǐng)導(dǎo)者，積極探索多元技術(shù)目前采取低成本開源策略，與閉源大模型形成差異化競(jìng)爭(zhēng)。2023年7月19日，Meta正式發(fā)布可商用開源大語言模型Llama2，成為開源模型標(biāo)桿。根據(jù)Llama2技術(shù)報(bào)告（HugoTouvron,LouisMartin,KevinStone等），和初代Llama相比，Llama2最大模型參數(shù)規(guī)模從650億提升到700億，訓(xùn)練數(shù)據(jù)提升40%達(dá)到2萬億，模型效果明顯優(yōu)于其他開源模型，是目前能力較強(qiáng)的開源大語言模型，但由于模型規(guī)模較小等原因，和GPT-4等閉源模型相比仍有差距。低成本的大模型能力是Llama2打造自身生態(tài)的最大優(yōu)勢(shì)，主要反映在：1）Llama作為開源模型支持免費(fèi)商用，極大降低企業(yè)模型調(diào)用成本。2）模型參數(shù)量較小，最小具有70億參數(shù)版本，形成垂域過程中需要的行業(yè)數(shù)據(jù)量較小，適合數(shù)據(jù)量小、數(shù)據(jù)質(zhì)量欠佳的行業(yè)應(yīng)用，數(shù)據(jù)成本更為可控。探索多元大模型技術(shù)發(fā)展路線。Meta首席科學(xué)家、圖靈獎(jiǎng)得主YannLeCun作為人工智能行業(yè)權(quán)威專家，并不滿足于GPT路線下的大模型架構(gòu)，并基于類人人工智能模型提出了“世界模型”框架。目前部分模組得以發(fā)布（I-JEPA），但相關(guān)框架在現(xiàn)行技術(shù)水平下仍然缺乏足夠可行性。大模型技術(shù)：形成三大技術(shù)路線，GPT路線得到認(rèn)可底層技術(shù)：自注意力機(jī)制為Transformer帶來優(yōu)秀性能Transformer的出現(xiàn)從根本上顛覆了NLP領(lǐng)域生態(tài)，成為大語言模型發(fā)展的基石。2017年，谷歌提出Transformer框架，底層為自注意力機(jī)制（Self-attention）。引入自注意力機(jī)制的Transformer徹底解決了遠(yuǎn)距離信息丟失和并行計(jì)算問題，當(dāng)前Transformer架構(gòu)已經(jīng)成為自然語言處理（NLP）領(lǐng)域的統(tǒng)一研究范式：1）模型訓(xùn)練中一次性輸入全部序列統(tǒng)一求解，遠(yuǎn)距離信息被包含在同一次模型運(yùn)算當(dāng)中，解決了遠(yuǎn)距離信息丟失問題；2）Transformer不具備時(shí)序特征，訓(xùn)練運(yùn)算沒有關(guān)聯(lián)性，可以有效支持并行計(jì)算。高并行效率賦予了模型更強(qiáng)的拓展性，為參數(shù)規(guī)?？焖偬嵘峁┝藯l件。模型技術(shù)：基于Transformer形成三大主流技術(shù)路線，GPT路線脫穎而出以Transformer為基礎(chǔ)，業(yè)界形成三大主流技術(shù)路線：編碼器路線、解碼器-編碼器路線、解碼器路線。1）編碼器路線（Encoder-Only）只利用Transformer的解碼器，側(cè)重理解任務(wù)。BERT模型采用雙向自編碼算法，模型Mask設(shè)計(jì)使運(yùn)算輸入包括目標(biāo)詞的前文和后文內(nèi)容。因?yàn)槔昧饲昂笪耐茰y(cè)目標(biāo)詞，模型預(yù)測(cè)穩(wěn)定、表現(xiàn)良好，同等參數(shù)規(guī)模下，BERT類模型效果往往優(yōu)于其他路線。2）編碼器-解碼器路線（Encoder-Decoder）同時(shí)利用編碼器和解碼器，側(cè)重轉(zhuǎn)換任務(wù)。該路線在BERT模型基礎(chǔ)上增加了一組與編碼器大小相似的解碼器。其編碼器部分采用與BERT相同的雙向自編碼策略加強(qiáng)理解，而在解碼器部分采用了GPT的自回歸策略方便生成。模型初步具備統(tǒng)一的多任務(wù)能力，以單一模型完成大部分自然語言處理任務(wù)，編碼器-解碼器形成的理解+生成結(jié)構(gòu)使得模型擅長(zhǎng)翻譯等轉(zhuǎn)換類任務(wù)。3）解碼器路線（Decoder-Only）只利用編碼器部分，側(cè)重生成任務(wù)。該路線只采用解碼器部分，利用大參數(shù)規(guī)模和大規(guī)模預(yù)訓(xùn)練強(qiáng)化模型的通用能力。優(yōu)秀的生成能力帶來的應(yīng)用前景，該路線已經(jīng)獲得了行業(yè)的廣泛認(rèn)可。編碼器路線：BERT初步展現(xiàn)大模型能力2018年，Google發(fā)布基于Transformer的BERT模型，擁有3.4億參數(shù)，采用雙向預(yù)訓(xùn)練+FineTuning（微調(diào)）的訓(xùn)練模式。模型一經(jīng)推出便在11個(gè)NLP任務(wù)上超越當(dāng)時(shí)最高水平，在部分場(chǎng)景上表現(xiàn)追平人類。BERT的出現(xiàn)讓人們看到了Transformer框架的價(jià)值和自然語言理解的無限可能，互聯(lián)網(wǎng)廠商相繼建設(shè)人工智能研究部門，大模型發(fā)展進(jìn)入快車道。BERT路線（編碼器路線）只使用Transformer中的編碼器部分，采用雙向自編碼算法，及模型Mask設(shè)計(jì)使運(yùn)算輸入包括目標(biāo)詞的前文和后文內(nèi)容。該設(shè)計(jì)的不足是模型計(jì)算需要后文內(nèi)容，因此無法進(jìn)行生成式任務(wù)，只適用于自然語言理解（NLU）任務(wù)。但優(yōu)勢(shì)是因?yàn)槔昧饲昂笪耐茰y(cè)目標(biāo)詞，模型預(yù)測(cè)穩(wěn)定且效率較高，小參數(shù)規(guī)模下BERT類模型效果往往優(yōu)于其他路線。編碼器-解碼器路線：T5模型探索多任務(wù)能力2019年，T5模型發(fā)布并提出一個(gè)統(tǒng)一框架，將所有NLP任務(wù)均轉(zhuǎn)化為Text2text的文本任務(wù)，及利用文本生成文本的任務(wù)?；诮y(tǒng)一的任務(wù)框架，所有任務(wù)均可以使用相同的訓(xùn)練目標(biāo)函數(shù)和推理解碼過程，模型初步具備了統(tǒng)一的多任務(wù)能力，探索了大模型的通用能力。模型在聚焦自然語言理解（NLU）任務(wù)的同時(shí)，具備一定自然語言生成（NLG）能力。T5路線模型是在BERT模型基礎(chǔ)上增加了一組與編碼器大小相似的解碼器，使得模型在利用編碼器理解輸入的基礎(chǔ)上具備一定利用解碼器輸出的能力。其編碼器部分采用與BERT相同的雙向自編碼策略加強(qiáng)理解，而在解碼器部分采用了GPT的自回歸策略方便生成。模型在翻譯等任務(wù)重表現(xiàn)良好，但生成能力不足。解碼器路線：生成能力優(yōu)勢(shì)明顯，已經(jīng)成為行業(yè)共識(shí)以GPT為代表的解碼器路線早期專注自然語言生成（NLG）領(lǐng)域。2018年，OpenAI推出了GPT模型，舍棄了Transformer中的編碼器，只利用解碼器部分強(qiáng)化生成能力。初代GPT模型依然采用了類BERT的多任務(wù)微調(diào)模式，有多個(gè)模型適配不同任務(wù)需求。2019年，GPT-2的發(fā)布奠定了解碼器路線無監(jiān)督預(yù)訓(xùn)練和通用模型的基調(diào)，解決了零次學(xué)習(xí)（zero-shot）的問題，使得單一模型可以適用所有任務(wù)。GPT-2和T5相比，在不損失模型生成能力的前提下，去除解碼器極大降低了模型規(guī)模和訓(xùn)練難度。2020年，GPT-3發(fā)布并展現(xiàn)的強(qiáng)大生成能力，成果得到業(yè)界廣泛認(rèn)可，各大公司開始跟進(jìn)解碼器路線模型研發(fā)，2021年Deepmind推出Gopher，2022年Google推出LaMDA。GPT（解碼器）路線采用單向信息傳遞和自回歸特征。模型訓(xùn)練階段，GPT路線模型利用解碼器的Mask結(jié)構(gòu)屏蔽目標(biāo)詞后方的內(nèi)容，保證信息的單向傳遞，只學(xué)習(xí)利用目標(biāo)詞左側(cè)（前側(cè)）內(nèi)容進(jìn)行目標(biāo)詞預(yù)測(cè)；推理階段，模型從左到右進(jìn)行單向生成，同樣保持單向信息傳遞。與之對(duì)應(yīng)的是，解碼器（BERT）路線采用雙向信息傳遞，訓(xùn)練和推理中模型可以利用全部文本信息；解碼器-編碼器（T5）路線采用部分單向信息傳遞，編碼器中的輸出序列及解碼器中前面的文本會(huì)參與后方目標(biāo)的注意力計(jì)算。GPT路線模型擅長(zhǎng)生成，強(qiáng)大能力在考試和測(cè)評(píng)中得到體現(xiàn)。單向生成符合人類正常思維邏輯，人類正常表達(dá)方式及為根據(jù)前文思考后文，從前到后順序思考。與BERT根據(jù)前后文“填空”的方式相比，自回歸模型更像“寫作”，生成模式完全符合上述人類思考邏輯。該邏輯全面融入訓(xùn)練和推理流程，因此模型輸出文本質(zhì)量高，語言流暢。2023年3月，OpenAI最新模型GPT-4模擬考試中表現(xiàn)優(yōu)異，在環(huán)境科學(xué)、歷史、生物等學(xué)科考試中已經(jīng)可以取得前10%分位的成績(jī)，在其他大量學(xué)科上達(dá)到前20%分位。GPT路線代表模型GPT-4、Claude、PaLM、Llama等更是長(zhǎng)期位于模型能力榜單前列，展現(xiàn)強(qiáng)大理解和生成能力。未來展望：當(dāng)前大模型與AGI仍有差距，多模態(tài)成為重要途徑通用人工智能（AGI）具備人類級(jí)別智能。作為強(qiáng)人工智能的典型代表，未來通用人工智能（AGI）系統(tǒng)將具備達(dá)到或超過人類的智能，具有高度自主性，可以獨(dú)立完成大量工作，因此可以規(guī)?；瘜?shí)現(xiàn)人力替代，進(jìn)而推動(dòng)社會(huì)生產(chǎn)力全面提升。當(dāng)前主流公司對(duì)于通用人工智能的探索持續(xù)從未止步，OpenAI將構(gòu)建安全、符合共同利益的AGI系統(tǒng)作為企業(yè)核心使命；谷歌DeepMind研究團(tuán)隊(duì)發(fā)布AGI的5級(jí)分級(jí)定義，并認(rèn)為當(dāng)前主流大模型只達(dá)到1級(jí)水平。當(dāng)前主流大語言模型和AGI之間仍有較大差距。GPT路線構(gòu)建的大語言模型已展現(xiàn)出強(qiáng)大的自然語言理解和生成能力，但參考Deepmind、OpenAI、Meta等公司對(duì)于AGI能力的定義，我們認(rèn)為當(dāng)前大語言模型在各維度上距離AGI仍有較大差距，主要體現(xiàn)在性能和通用性、認(rèn)知能力、工具使用能力、創(chuàng)作能力等方面。多模態(tài)能力提升模型各維度能力，推動(dòng)大模型走向AGI。當(dāng)前大模型主要指大語言模型（LLM），輸入輸出均已文本形式進(jìn)行，而多模態(tài)大模型（MLLM）則可以輸入或輸出文本及其他模態(tài)，包括圖像、視頻、音頻、數(shù)據(jù)庫等。多模態(tài)能力全面提升模型各維度能力，成大語言模型走向AGI的重要途徑。1）性能和通用性：多模態(tài)能力突破文本對(duì)模型訓(xùn)練的限制，保障模型效果快速提升。大模型多模態(tài)能力可以打破訓(xùn)練上對(duì)文本信息的完全依賴，通過圖片以更加直觀的方式學(xué)習(xí)更多知識(shí)，提升模型訓(xùn)練效果。根據(jù)論文信息（Huang,Z.,Bianchi,F.,Yuksekgonul,M.etal.Avisual–languagefoundationmodelforpathologyimageanalysisusingmedicalTwitter.NatMed29,2307–2316(2023).），斯坦福大學(xué)團(tuán)隊(duì)融合多模態(tài)病理圖片、專業(yè)知識(shí)、社交網(wǎng)絡(luò)等數(shù)據(jù)，構(gòu)建了OpenPath數(shù)據(jù)庫并訓(xùn)練PLIP模型。新模型在診斷效率提升和醫(yī)學(xué)教育等領(lǐng)域具有潛在應(yīng)用空間，展現(xiàn)了多模態(tài)數(shù)據(jù)對(duì)于模型訓(xùn)練的重要價(jià)值。此外，大模型學(xué)習(xí)文本以外的知識(shí)對(duì)于打破文本規(guī)模對(duì)模型規(guī)模限制具有重要意義，根據(jù)未盡研究數(shù)據(jù)，當(dāng)前高質(zhì)量語言數(shù)據(jù)總存量約9萬億個(gè)單詞，年化增長(zhǎng)率為4%-5%，明顯慢于模型規(guī)模增長(zhǎng)速度，最早2026年就會(huì)出現(xiàn)因文本量不足導(dǎo)致的模型規(guī)模擴(kuò)增放緩，突破文本規(guī)模對(duì)模型規(guī)模的限制對(duì)于大模型未來的持續(xù)增長(zhǎng)具有重要意義。2）認(rèn)知能力：多模態(tài)協(xié)同實(shí)現(xiàn)精準(zhǔn)認(rèn)知，推理能力顯著提升。大模型直接擴(kuò)展多模態(tài)認(rèn)知渠道，實(shí)現(xiàn)從文本單維度認(rèn)知到多維度混合認(rèn)知的轉(zhuǎn)變，可以利用多信息理解用戶需求。根據(jù)麥拉賓法則，面對(duì)面溝通時(shí)的信息表達(dá)中視覺信息占比達(dá)到55%，其次是語音語調(diào)的38%；而根據(jù)中科院數(shù)據(jù)顯示，對(duì)于一個(gè)正常人，視覺信息占全部感覺信息的70%以上。只利用文本的大語言模型存在信息利用效率過低的問題，擁有聽覺和視覺的大模型可以捕捉更多外界信息，實(shí)現(xiàn)對(duì)環(huán)境和用戶需求的精準(zhǔn)認(rèn)知，可以實(shí)現(xiàn)基于外部環(huán)境、用戶情緒、問題語境等要素的實(shí)時(shí)輸出優(yōu)化。同時(shí)，利用大模型多模態(tài)能力的融合復(fù)雜信息，可以形成更加有效推理和相對(duì)復(fù)雜的思維鏈，如利用圖片里的物體位置、狀態(tài)、關(guān)系等信息，結(jié)合用戶文本輸入實(shí)現(xiàn)綜合判斷，進(jìn)行準(zhǔn)確的推理和分析。3）工具使用：多模態(tài)能力支持更多工具調(diào)用，同時(shí)提升能力和效果。當(dāng)前大模型輸出仍存在常識(shí)性錯(cuò)誤，反映對(duì)以搜索工具為代表的外部工具使用能力不足。結(jié)合多模態(tài)能力的大模型可以使用更多工具提升模型效果，如利用代碼解釋器（CodeInterpreter）實(shí)現(xiàn)網(wǎng)頁上的數(shù)據(jù)分析，通過類似CLIP的圖文模型進(jìn)行跨模態(tài)搜索。更強(qiáng)的工具使用能力有利于大模型接入外部模塊化工具，提升模型輸出效率；另一方面，隨著工具集擴(kuò)展，模型工具學(xué)習(xí)方案不斷豐富，模型輸出準(zhǔn)確性和時(shí)效性有望進(jìn)一步提升。4）創(chuàng)作能力：多模態(tài)輸入提升模型“創(chuàng)作”空間，藝術(shù)創(chuàng)作能力得到行業(yè)權(quán)威認(rèn)可。在以圖靈測(cè)試為代表的現(xiàn)行AI標(biāo)準(zhǔn)下，類人的行為和更高的回答正確率即為智能，因此大模型訓(xùn)練以正確模仿人類為主要目標(biāo)，更傾向于輸出“學(xué)習(xí)過的”答案。GPT-4模型發(fā)布之初就強(qiáng)調(diào)模型擁有寫小說的能力，但高質(zhì)量生成需要人工限定主題、框架、背景、思想等各要素，并且尚未出現(xiàn)獲得廣泛認(rèn)可的作品，大語言模型的創(chuàng)作能力相對(duì)有限。多模態(tài)的引入和融合，讓模型的模仿維度更加多元和隨機(jī)，實(shí)現(xiàn)類似聯(lián)想的創(chuàng)作能力。2021年，OpenAI發(fā)布DaLL·E模型，模型生成的牛油果椅子圖片，因多元的設(shè)計(jì)風(fēng)格、優(yōu)秀的元素融合獲得廣泛關(guān)注，視覺大模型初步展現(xiàn)創(chuàng)作能力。2022年9月，由Midjourney生成的作品在美國科羅拉多州博覽會(huì)的藝術(shù)比賽中獲得了第一名，展現(xiàn)模型具備更高維度的聯(lián)想和元素組合能力，進(jìn)而實(shí)現(xiàn)一定的“原創(chuàng)”功能。多模態(tài)：視覺能力為核心，能力升級(jí)帶動(dòng)應(yīng)用落地概述：語音和視覺能力先行，模型效果全面提升語音和視覺能力先行，視覺能力為核心。當(dāng)前模態(tài)主要包括圖像、視頻、音頻、代碼、標(biāo)準(zhǔn)數(shù)據(jù)庫等，多模態(tài)大模型進(jìn)展主要圍繞語音和視覺任務(wù)，其中語音任務(wù)和文本任務(wù)本質(zhì)上相通，有成熟開源技術(shù)方案，門檻相對(duì)較低；而視覺任務(wù)主要涵蓋視覺理解和視覺生成，由于信息復(fù)雜度高、利用難度較大，并且對(duì)模型感知能力和應(yīng)用開發(fā)潛力提升具有重要價(jià)值，成為當(dāng)前多模態(tài)大模型發(fā)展的核心方向。OpenAI和谷歌引領(lǐng)基于大語言模型的多模態(tài)能力探索OpenAI引領(lǐng)行業(yè)發(fā)展，ChatGPT-4V展現(xiàn)強(qiáng)大能力。根據(jù)官方技術(shù)文檔，OpenAI于2022年完成GPT-4V版本（視頻版本）的模型訓(xùn)練；2023年3月，GPT-4模型發(fā)布會(huì)上展示了模型的圖像輸入處理能力，并與移動(dòng)應(yīng)用BeMyEyes合作落地圖像處理能力，但始終未在官方ChatGPT產(chǎn)品中開放語音輸入以外的多模態(tài)能力。2023年9月25日，OpenAI正式發(fā)布ChatGPT-4V（ision）版本，ChatGPT新增圖片輸入和語音輸出能力，多模態(tài)能力正式融入ChatGPT。本次更新顯示GPT-4多模態(tài)能力已經(jīng)成熟，新能力有望加速落地。逐步擁有“視覺”和“聽覺”的大模型有潛力在更多場(chǎng)景下獲得應(yīng)用，未來隨著軟硬件革新，大模型有望支持“觸覺”、“嗅覺”等全新模態(tài)，應(yīng)用場(chǎng)景將實(shí)現(xiàn)加速擴(kuò)展。谷歌發(fā)布原生多模態(tài)大模型Gemini，實(shí)現(xiàn)對(duì)GPT-4V的技術(shù)追趕。Gemini采用“原生多模態(tài)”架構(gòu)，文本和視覺等輸入在統(tǒng)一模型架構(gòu)下參與預(yù)訓(xùn)練，各模態(tài)之間的結(jié)合更加流暢。推理能力方面，模型在數(shù)學(xué)、物理等學(xué)科問題上表現(xiàn)優(yōu)秀，可以對(duì)解題過程的進(jìn)行步驟拆分，并可以針對(duì)任一步驟單獨(dú)提問。同時(shí)模型具備支持多模態(tài)的復(fù)雜推理能力，可以理解視覺信息，可以基于視覺和文本提出具有一定創(chuàng)新性的觀點(diǎn)。語音能力：STT+TTS+GPT便捷實(shí)現(xiàn)語音對(duì)話，優(yōu)化人機(jī)交互體驗(yàn)語音轉(zhuǎn)文字模型（Speech-To-Text，STT）技術(shù)成熟度高，難構(gòu)成行業(yè)壁壘。語音識(shí)別技術(shù)歷史悠久，最早可以追溯到1952年，成熟度相對(duì)較高，并已融入各類日常場(chǎng)景。最近幾年技術(shù)層面逐步從統(tǒng)計(jì)模型和走向端到端的深度模型，底層架構(gòu)逐步從小模型走向大模型。在多模態(tài)大模型系統(tǒng)中，STT模型將語音轉(zhuǎn)換為特定模式的文本文件，并直接輸入模型。以O(shè)penAI推出的Whisper模型為代表，模型底層使用Transformer的編碼器解碼器架構(gòu)，可以將音頻信息直接轉(zhuǎn)化成包含提示詞的標(biāo)準(zhǔn)化Token，基于68萬小時(shí)的對(duì)話學(xué)習(xí)，較主流小模型可以將錯(cuò)誤率降低50%左右。Meta推出MMS，谷歌推出AudioPaLM模型，均采用Transformer架構(gòu)實(shí)現(xiàn)端到端的STT模型。文本轉(zhuǎn)語音（Text-To-Speech，TTS）模型是實(shí)現(xiàn)大模型語音能力的核心技術(shù)，差異主要體現(xiàn)在音色和情感方面。TTS模型同樣具有悠久技術(shù)歷史。過去幾年，TTS模型和STT模型在技術(shù)層面同步發(fā)展，實(shí)現(xiàn)從HMM-GMM為基礎(chǔ)的概率統(tǒng)計(jì)模型走向Transformer基礎(chǔ)的端到端大模型的技術(shù)轉(zhuǎn)變，形成Tacotron2、Fastspeech等代表模型。技術(shù)進(jìn)展下，TTS模型語音合成效果有明顯提升，可以模擬真人的語氣、情感和停頓，音色更加貼近真人，可以實(shí)現(xiàn)高質(zhì)量流暢合成。由于模型訓(xùn)練階段使用的音源在音色、情感、語種等方面存在差異，底層模型設(shè)計(jì)也不盡相同，當(dāng)前主流TTS模型合成效果存在明顯差異，對(duì)于用戶的使用體驗(yàn)影響較大。STT+TTS+GPT模式成為實(shí)現(xiàn)大模型語音對(duì)話的主流，技術(shù)門檻相對(duì)較低。通過構(gòu)建STT+TTS+GPT的模式，可以便捷實(shí)現(xiàn)基于大語言模型的語言對(duì)話，為大模型增加音頻模態(tài)。在該模式下，STT、TTS、LLM模型均為獨(dú)立模塊，可以實(shí)現(xiàn)低成本替換，因此在應(yīng)用開發(fā)層面可進(jìn)行靈活組合。當(dāng)前市面主流對(duì)話助手的語音功能均以此方式實(shí)現(xiàn)，以ChatGPT語音功能為例，采用Whisper+GPT-4+OpenAI自研TTS模型的組合，實(shí)現(xiàn)優(yōu)秀語音對(duì)話效果?？紤]到STT和TTS模型均有成熟開源解決方案，大模型實(shí)現(xiàn)語音模態(tài)兼容技術(shù)門檻相對(duì)較低。ChatGPT最新更新TTS模型帶來接近人類的對(duì)話體驗(yàn)。本次更新前，ChatGPT只支持基于Whisper模型的語音輸入，更新后的ChatGPT可以將語音作為輸出模態(tài)，用戶可直接進(jìn)行語音問答對(duì)話。OpenAI為新場(chǎng)景開發(fā)了全新的TTS模型，提供五種逼真的輸出音色，每種聲音都基于真人錄制音源，擁有獨(dú)特的音調(diào)和字符。依托GPT-4強(qiáng)大的文本生成能力，結(jié)合高質(zhì)量和流暢度的語音生成技術(shù)，ChatGPT可以為用戶提供逼真的對(duì)話體驗(yàn)。相關(guān)技術(shù)有望進(jìn)一步落地智能客服、語言學(xué)習(xí)等領(lǐng)域，顛覆用戶的AI對(duì)話體驗(yàn)。視覺能力：形成兩大主流路線，圖文融合帶動(dòng)應(yīng)用場(chǎng)景全面擴(kuò)展傳統(tǒng)計(jì)算機(jī)視覺（CV）技術(shù)儲(chǔ)備有助于構(gòu)建視覺認(rèn)知模型。計(jì)算機(jī)視覺（CV）長(zhǎng)期以來是人工智能的核心領(lǐng)域之一，過去十年圍繞卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)快速發(fā)展。近年來部分CV模型采用Transformer架構(gòu)，對(duì)于大模型時(shí)代的視覺系統(tǒng)構(gòu)建實(shí)現(xiàn)技術(shù)積累。傳統(tǒng)CV模型受限規(guī)模等原因，主要解決單一場(chǎng)景問題，具備獨(dú)立的視覺信息處理能力。與傳統(tǒng)CV模型不同，大模型時(shí)代的視覺系統(tǒng)主要圍繞提升模型整體的通用能力，以理解和認(rèn)知視覺信息為核心，和文本等模態(tài)有機(jī)結(jié)合滿足多模態(tài)任務(wù)的需求，但底層技術(shù)存在共通之處，傳統(tǒng)CV領(lǐng)域的Transformer技術(shù)經(jīng)驗(yàn)積累對(duì)于構(gòu)建大模型視覺系統(tǒng)具有重要價(jià)值。目前在底層架構(gòu)設(shè)計(jì)上主要形成兩大技術(shù)路線：1）模塊化設(shè)計(jì)：模塊化多模態(tài)設(shè)計(jì)單獨(dú)處理視覺信息輸入。考慮到視覺信息和文本信息差距較大，當(dāng)前大模型千億規(guī)模統(tǒng)一處理所有模態(tài)信息具有較大難度。因此，設(shè)計(jì)上可以分別針對(duì)文本和模型等模態(tài)分別進(jìn)行模型訓(xùn)練，并通過系統(tǒng)優(yōu)化實(shí)現(xiàn)各模型的結(jié)合。以GPT-4V（ision）版本為例，其視覺方案以大語言模型GPT-4為核心，圖像認(rèn)知能力上或采用與OpenAI2021年發(fā)布的CLIP模型類似的方案，未來有望基于DALL·E3模型融合圖像輸出能力，形成完整的視覺多模態(tài)系統(tǒng)。模塊化設(shè)計(jì)提升系統(tǒng)靈活性，帶來更高模型性價(jià)比。視覺認(rèn)知、視覺生成和大語言模型在模型設(shè)計(jì)、訓(xùn)練數(shù)據(jù)集、目標(biāo)函數(shù)設(shè)計(jì)等方面差異較大，訓(xùn)練和推理相對(duì)獨(dú)立，模塊化設(shè)計(jì)和分別訓(xùn)練的模塊在性能、性價(jià)比、靈活性上存在優(yōu)勢(shì)。性能上，各個(gè)模塊可以針對(duì)特定任務(wù)單獨(dú)優(yōu)化，更容易在各子任務(wù)上實(shí)現(xiàn)高性能；性價(jià)比上，把各模態(tài)的需求分割成多模塊，并進(jìn)行分開訓(xùn)練的模式，降低了單次訓(xùn)練的模型規(guī)模，顯著降低算力需求；靈活性上，各模塊可進(jìn)行單獨(dú)替換，也可以基于任務(wù)需求進(jìn)行模塊增減，同時(shí)大模型系統(tǒng)可以快速接入第三方服務(wù)，多維度實(shí)現(xiàn)更加靈活的解決方案。2）一體化（原生多模態(tài)）設(shè)計(jì)：原生多模態(tài)設(shè)計(jì)統(tǒng)一文本和視覺信息輸入。前端利用不同的處理模塊將文本、圖像等信息分別Token化，并直接輸入統(tǒng)一的大模型。12月6日，谷歌發(fā)布Gemini模型，作為第一款“原生多模態(tài)”大模型，文本和視覺等模態(tài)在統(tǒng)一架構(gòu)下預(yù)訓(xùn)練。統(tǒng)一的訓(xùn)練有望使得各模態(tài)之間的結(jié)合更加順暢。根據(jù)官方技術(shù)文檔，模型可以實(shí)現(xiàn)圖文結(jié)合的理解和推理，目前在數(shù)學(xué)和物理等領(lǐng)域有所進(jìn)展，體現(xiàn)了模型的復(fù)雜問題拆解能力，對(duì)于擴(kuò)展應(yīng)用領(lǐng)域以及提升輸出準(zhǔn)確性有較大價(jià)值。原生多模態(tài)設(shè)計(jì)實(shí)現(xiàn)更強(qiáng)圖文結(jié)合效果，但模型成本較高?？梢葬槍?duì)圖像和文本結(jié)合的綜合任務(wù)進(jìn)行端到端的統(tǒng)一訓(xùn)練和優(yōu)化，把圖文結(jié)合當(dāng)成一項(xiàng)任務(wù)直接進(jìn)行學(xué)習(xí)，而不是通過系統(tǒng)層面基于人為規(guī)則制定的融合和調(diào)優(yōu)。因此，采用原生多模態(tài)設(shè)計(jì)的大模型可以實(shí)現(xiàn)多模態(tài)信息的無縫共享、互通和融合，例如谷歌Gemini模型演示中就展示了基于模型對(duì)于視覺、文本、代碼的融合生成能力。但同時(shí)為了容納多模態(tài)的處理能力，模型單次參與推理的參數(shù)較多，訓(xùn)練數(shù)據(jù)的多樣性和規(guī)模也相應(yīng)提升，將顯著提升模型訓(xùn)練和推理成本。圖像生成模型主要采用擴(kuò)散模型架構(gòu)，各產(chǎn)品存在顯著差異。潛在擴(kuò)散模型（LatentDiffusionmodel）是Transformer大模型在圖像領(lǐng)域的特化應(yīng)用，通過圖片噪點(diǎn)生成的方式學(xué)習(xí)大量圖片，并通過逆向去噪方式實(shí)現(xiàn)圖片生成，成為圖片生成領(lǐng)域的主流技術(shù)路徑。與文本生成注重正確性相比，圖片生成需求更加多元，各產(chǎn)品在藝術(shù)風(fēng)格、易用度等方面的差異化競(jìng)爭(zhēng)更加明顯。目前主流產(chǎn)品可以實(shí)現(xiàn)對(duì)用戶需求的準(zhǔn)確理解，并生成高質(zhì)量的、具備一定藝術(shù)風(fēng)格的圖像。代表產(chǎn)品有主打低門檻高質(zhì)量生成的Midjourney，打造開源生態(tài)實(shí)現(xiàn)工業(yè)級(jí)定制的StableDiffusion，結(jié)合ChatGPT實(shí)現(xiàn)便捷化使用的DALL·E3等。視頻生成是圖像生成在時(shí)間軸上的延續(xù)，視頻與圖像生成底層不存在技術(shù)壁壘。與圖像生成類似，當(dāng)前視頻生成同樣通過擴(kuò)散模型實(shí)現(xiàn)，根據(jù)RunwayGen1模型論文（PatrickEsser,JohnathanChiu,ParmidaAtighehchian等），在文生視頻流程中，模型首先通過DALL·E、StableDiffusion的文生圖模型實(shí)現(xiàn)高質(zhì)量圖片生成，引入帶有時(shí)間軸的預(yù)訓(xùn)練圖像模型，并在圖像和是視頻上做聯(lián)合訓(xùn)練，從而將擴(kuò)散模型從圖像擴(kuò)展到視頻生成領(lǐng)域。因此視頻和圖像生成底層不存在技術(shù)壁壘，核心能力在于如何更好的處理視頻的流暢性和藝術(shù)表達(dá)，提升視頻生成的長(zhǎng)度限制。目前視頻模型產(chǎn)品主要功能包括文生視頻、文圖結(jié)合生成視頻、視頻智能編輯等功能。根據(jù)論文統(tǒng)計(jì)，視頻生成領(lǐng)域熱度明顯高于視頻編輯和理解。目前視頻生成代表產(chǎn)品包括Pika、NeverEnds、Runway等，參考微信公眾號(hào)AIPioneer的測(cè)試，相關(guān)產(chǎn)品在動(dòng)畫生成上效果出色。大模型融合視覺能力可更好支持理解和生成任務(wù)，能力升級(jí)帶動(dòng)應(yīng)用場(chǎng)景擴(kuò)展。1）對(duì)視覺信息的準(zhǔn)確理解：視覺問答、組合式問答等任務(wù)多模態(tài)大模型提升對(duì)視覺信息的理解能力和邏輯能力，實(shí)現(xiàn)更加有效的用戶反饋。視覺問答（VQA）要求模型根據(jù)圖片、視頻等視覺信息回答以文本形式提出的事實(shí)性問題，而組合式問答更注重模型的推理能力，要求模型判斷非視覺關(guān)系并執(zhí)行推理。與純視覺模型相比，擁有視覺能力的大模型在相關(guān)任務(wù)處理能力上有顯著提升。由于大模型擁有龐大的知識(shí)儲(chǔ)備，可以結(jié)合圖像外知識(shí)進(jìn)行詳細(xì)解釋，對(duì)于傳統(tǒng)VQA模型只基于單圖的問答進(jìn)行了有效擴(kuò)展和延伸，極大豐富了技術(shù)的應(yīng)用場(chǎng)景。同時(shí)，大模型具有圖文結(jié)合能力、邏輯能力和復(fù)雜問題的拆解能力，有助于模型更好的理解用戶復(fù)雜需求，回答更抽象的問題，高質(zhì)量完成類似組合式問答的邏輯任務(wù)。能力得到第三方驗(yàn)證，有望重塑安防等領(lǐng)域。根據(jù)論文YunxinLi,LongyueWang,BaotianHu等發(fā)表的論文AComprehensiveEvaluationofGPT-4VonKnowledge-IntensiveVisualQuestionAnswering顯示，GPT-4V在VQA等問答任務(wù)評(píng)估中表現(xiàn)優(yōu)異，主要體現(xiàn)在有機(jī)結(jié)合圖片信息和外部知識(shí)，并可以為答案提供完整且正確的邏輯解釋。未來隨著模型效果提升，對(duì)于視覺信息的準(zhǔn)確理解和邏輯建構(gòu)能力有望廣泛賦能數(shù)據(jù)統(tǒng)計(jì)、自動(dòng)篩查、視覺助理、智能助手等領(lǐng)域，實(shí)現(xiàn)各行業(yè)應(yīng)用落地。例如在智能安防領(lǐng)域，可廣泛應(yīng)用于監(jiān)測(cè)、巡檢等場(chǎng)景，實(shí)現(xiàn)實(shí)時(shí)快速篩查和安全預(yù)警；落地智能助手領(lǐng)域幫助視覺受損人群理解環(huán)境情況等。2）視覺生成能力：文生圖、文生視頻等任務(wù)開拓全新圖片與視頻生成，持續(xù)發(fā)掘新概念和新產(chǎn)品。大語言模型對(duì)用戶需求的準(zhǔn)確理解，結(jié)合模型的多模態(tài)處理能力，形成強(qiáng)大視覺生成能力，包括文生圖、文生視頻、圖生圖等產(chǎn)品，并圍繞生成能力產(chǎn)生圖片和視頻編輯、圖片擴(kuò)展和優(yōu)化等功能。相關(guān)能力落地各類創(chuàng)意工具，將實(shí)現(xiàn)個(gè)人生產(chǎn)能力和效率的全面提升。Adobe推出的Firefly工具包，基于大模型多模態(tài)能力實(shí)現(xiàn)了文字和圖像之間的高效交互，發(fā)布生成填色、重新上色、3D互動(dòng)式生成、圖像擴(kuò)展等智能編輯功能。Pikalabs發(fā)布了全新的文生視頻產(chǎn)品Pika1.0，僅憑一句話就可以生成3D動(dòng)畫、動(dòng)漫、卡通、電影等各種風(fēng)格的視頻，實(shí)現(xiàn)高質(zhì)量、低門檻的視頻生成。代碼生成：代碼大模型快速發(fā)展，國產(chǎn)廠商位于第一梯隊(duì)通過大語言模型微調(diào)構(gòu)建代碼大模型，正確率和多模態(tài)融合能力快速提高。代碼大模型主要將自然語言轉(zhuǎn)化成可執(zhí)行代碼，作用于開發(fā)領(lǐng)域提升程序員工作效率。由于代碼標(biāo)準(zhǔn)化程度高、容錯(cuò)低，和自然語言差異較大，普遍采取基于語言模型使用代碼數(shù)據(jù)進(jìn)行微調(diào)的方式，構(gòu)建專用的代碼大模型，這樣既可以保留模型對(duì)用戶輸入的高理解能力，又可以將輸出嚴(yán)格限制為代碼格式。過去幾年，代碼大模型圍繞提升變成正確率不斷升級(jí)，最新基于GPT-4構(gòu)建的代碼大模型在HumanEval測(cè)試級(jí)上單次正確率可以達(dá)到82%。此外，代碼與其他模態(tài)的互動(dòng)與融合也是主要進(jìn)展方向之一，谷歌最新Gemini模型演示了基于文字和圖像生成代碼的能力，展現(xiàn)相關(guān)技術(shù)的巨大潛力。國際巨頭加速布局，國廠商位列第一梯隊(duì)。過去一年全球主要廠商大力投入代碼大模型研發(fā)，模型能力屢創(chuàng)新高。3月，OpenAI基于GPT-4推出代碼模型，官方技術(shù)公告顯示模型在HumanEval測(cè)試集上的正確率為67%。9月，Meta發(fā)布基于Llama2的開源代碼大模型CodeLlama，在HuggingFace平臺(tái)測(cè)評(píng)中一度超越GPT-4等主流代碼模型，占據(jù)榜首位置。12月，Google基于Gemini模型推出AlphaCode2，性能超過85%的人類程序員，將加持Gemini模型定制版。國產(chǎn)廠商中，根據(jù)論文ASurveyonLanguageModelsforCode（ZibinZheng,KaiwenNing,YanlinWang等），螞蟻集團(tuán)的開源代碼大模型CodeFuse和華為代碼大模型PanGu-Coder2性能優(yōu)異，位列行業(yè)第一梯隊(duì)。短期展望：國外大模型加強(qiáng)多模態(tài)支持，國產(chǎn)大模型加速追趕海外通用大模型更新有望加強(qiáng)的多模態(tài)能力支持。根據(jù)谷歌官網(wǎng)，目前GeminiPro模型已經(jīng)接入Bard并開放API使用，但能力更強(qiáng)的GeminiUltra模型預(yù)計(jì)將在明年年初接入BardAdvanced，正式開啟商業(yè)化進(jìn)程。根據(jù)OpenAICEOSamAltman透露，公司和微軟已開始合作開發(fā)GPT-5模型。Anthropic曾在提出2-3年實(shí)現(xiàn)AGI的目標(biāo)，考慮到多模態(tài)能力對(duì)AGI的重要作用，公司多模態(tài)大模型或?qū)⒂诮谕瞥?。海外高質(zhì)量源生多模態(tài)大模型技術(shù)和商業(yè)化進(jìn)程保持高速推進(jìn)，推動(dòng)行業(yè)保持高速發(fā)展。借鑒海外成熟經(jīng)驗(yàn)，國產(chǎn)多模態(tài)大模型加速追趕。GPT-4V（ision）和Gemini大模型的成功為多模態(tài)大模型的技術(shù)路徑提供參考，國產(chǎn)多模態(tài)大模型進(jìn)展有望逐步加速。金山軟件與華中科技大學(xué)聯(lián)合推出高性能多模態(tài)大模型Monkey，可對(duì)圖形進(jìn)行深入問答交流和精確描述，根據(jù)測(cè)試，模型在18個(gè)數(shù)據(jù)集中表現(xiàn)出色，在圖像描述、視覺問答和文本密集的問答任務(wù)上顯現(xiàn)優(yōu)勢(shì)?？紤]到國產(chǎn)廠商在CV、語音合成等任務(wù)上具有一定積累，大語言模型能力持續(xù)提升，我們認(rèn)為國產(chǎn)多模態(tài)大模型有望加速。行業(yè)落地：大模型賦能千行百業(yè)，應(yīng)用市場(chǎng)蓬勃發(fā)展落地機(jī)遇：大模型賦能千行百業(yè)，整體市場(chǎng)空間廣闊大模型能力賦能千行百業(yè)，打造繁榮模型生態(tài)。當(dāng)前大模型已經(jīng)展現(xiàn)強(qiáng)大文本生成能力和通用性，在辦公、企業(yè)管理、金融、教育等領(lǐng)域逐步落地應(yīng)用。未來，大模型對(duì)圖像的識(shí)別、理解、總結(jié)和推理能力將不斷提升，模型可以把圖像、視頻、文本等信息有機(jī)結(jié)合，更智能的認(rèn)知和回應(yīng)用戶訴求，促進(jìn)模型融入千行百業(yè)，實(shí)現(xiàn)規(guī)?；涞貞?yīng)用，形成圍繞大模型的繁榮生態(tài)。公有云和私有部署模式共同推進(jìn)，探索多樣化商業(yè)模式公有云模式下MaaS模式值得期待，采用“訂閱+流量”的收費(fèi)模式。MaaS（ModelasaService）是一種新的商業(yè)模式，將模型作為基礎(chǔ)設(shè)施部署在公有云端，為下游用戶提供模型使用和基于模型的功能開發(fā)支持。行業(yè)大模型可利用MaaS模式廣泛加持各場(chǎng)景，實(shí)現(xiàn)模型生態(tài)的快速發(fā)展。采用MaaS模式的行業(yè)大模型主要采取“訂閱+流量”收費(fèi)模式，用戶通過基礎(chǔ)訂閱獲取模型能力接入，同時(shí)基于用戶模型流量使用情況確定模型服務(wù)價(jià)格。私有化部署模型通過項(xiàng)目制收費(fèi)，滿足客戶定制化需求?？紤]到模型規(guī)模和算力限制，大模型難以實(shí)現(xiàn)終端部署，以私有云模式進(jìn)行分層部署將是實(shí)現(xiàn)模型應(yīng)用的主要模式。各公司基于經(jīng)營管理、市場(chǎng)定位、歷史文化等方面的考量，容易形成差異化的市場(chǎng)理解，進(jìn)而提出不同的模型需求。定制化模型帶來更高的開發(fā)成本和更長(zhǎng)的交付周期，更適用于擁有深刻行業(yè)理解的行業(yè)龍頭和超大型公司。生成式AI整體市場(chǎng)空間廣闊，有望超過2000億元。根據(jù)technavio數(shù)據(jù)，全球生成式AI市場(chǎng)規(guī)模有望從2022年的112億美元增長(zhǎng)到2027年的459億美元，2022-2027年CAGR為32.65%，其中2023年將實(shí)現(xiàn)31.65%的增速；根據(jù)前瞻產(chǎn)業(yè)研究院的數(shù)據(jù)，2022年我國生成式AI市場(chǎng)規(guī)模約660億元，預(yù)計(jì)2020~2025年復(fù)合增速將達(dá)到84%，行業(yè)整體處于高速增長(zhǎng)通道。在大模型的催化下，生成式AI市場(chǎng)規(guī)模有望在中短期保持高速成長(zhǎng)，2025年有望超過2000億元，大模型行業(yè)未來發(fā)展前景廣闊。辦公：模型落地核心場(chǎng)景，打造智能辦公助理四大特征共同作用下，辦公軟件成大模型應(yīng)用落地的核心場(chǎng)景之一。1）應(yīng)用場(chǎng)景扎實(shí)：辦公場(chǎng)景關(guān)系連接多、信息含量高、時(shí)效性強(qiáng)；2）效率提升明確：AI+辦公軟件在AIGC（內(nèi)容創(chuàng)作）、Copilot（智慧助手）、Insight（知識(shí)洞察）等方向?qū)硇侍嵘?）功能演進(jìn)清晰：伴隨擴(kuò)大測(cè)試范圍以及正式推向客戶，功能有望結(jié)合反饋進(jìn)行快速演進(jìn)；4）商業(yè)落地加速：海外Microsoft365Copilot計(jì)劃將以30美元/月提供，E3、E5、商業(yè)標(biāo)準(zhǔn)版和商業(yè)高級(jí)版收費(fèi)為36/57/12.5/22美元/月，國內(nèi)WPSAI已經(jīng)開啟公測(cè)。模型能力限制下，短期以場(chǎng)景化點(diǎn)工具結(jié)合為主。由于當(dāng)前模型通用能力無法覆蓋所有場(chǎng)景，辦公軟件AI產(chǎn)品短期需結(jié)合場(chǎng)景進(jìn)行優(yōu)化，以點(diǎn)工具集合的形式實(shí)現(xiàn)完善模型產(chǎn)品矩陣。以WPSAI為例，公司或?qū)⒂疫厵诘膶?duì)話框化整為零，如在表格中的不同位置提示對(duì)應(yīng)生成函數(shù)、處理數(shù)據(jù)、分析數(shù)據(jù)等不同功能；同時(shí)針對(duì)特定場(chǎng)景，公司基于開源底座7B、13B等小模型，以Copilot場(chǎng)景中的表格函數(shù)生成為例，大模型在相關(guān)領(lǐng)域效果較差，公司自研小模型實(shí)現(xiàn)低成本且高效的表格函數(shù)生成。多模態(tài)能力結(jié)合打造辦公場(chǎng)景下的智能助理。微軟全新打造Microsoft365Chat，結(jié)合電子郵件、會(huì)議、聊天、文檔以及網(wǎng)絡(luò)數(shù)據(jù)等多模態(tài)信息，Microsoft365Chat對(duì)用戶工作需求和習(xí)慣形成深刻理解，可以在用戶的文件中快速找到所需要的內(nèi)容并將其與群體內(nèi)容相連接，還可以寫戰(zhàn)略文件、預(yù)定商旅、收發(fā)電子郵件，全面扮演辦公場(chǎng)景下的智能助理角色。我們認(rèn)為，伴隨大模型應(yīng)用的逐步深入，智能助理或是公司在生成式AI方向上的潛在布局選擇之一，即將當(dāng)前的AIGC、Copilot、Insight三大戰(zhàn)略方向統(tǒng)一為全面的智能助理。教育：全面引領(lǐng)教學(xué)變革，海外產(chǎn)品落地獲得認(rèn)可應(yīng)用上形成“教、管、學(xué)、考”四大場(chǎng)景，融入具體的教育應(yīng)用環(huán)節(jié)。其中“學(xué)”和“考”針對(duì)學(xué)生，大模型的生成能力融入線下和線上，促進(jìn)學(xué)生教學(xué)提質(zhì)增效，以數(shù)據(jù)驅(qū)動(dòng)科學(xué)備考和科學(xué)練習(xí)，學(xué)生在學(xué)習(xí)過程中使用大模型技術(shù)，能夠提高學(xué)習(xí)效率?！敖獭焙汀肮堋敝饕槍?duì)教育者，行業(yè)大模型可以利用數(shù)據(jù)整合能力實(shí)現(xiàn)科學(xué)的教師和學(xué)生評(píng)價(jià)管理體系，利用大模型工具學(xué)習(xí)能力和知識(shí)整合能力實(shí)現(xiàn)高效備課，將有效減少教師的工作量，并實(shí)現(xiàn)更好地因材施教。Duolingo和Khanmigo實(shí)現(xiàn)大模型線上輔助教學(xué)，取得良好市場(chǎng)反饋。Khanmigo為KhanAcademy推出的針對(duì)專業(yè)教育的模型產(chǎn)品，可以充當(dāng)學(xué)生的虛擬導(dǎo)師解釋概念、提供提示、檢查答案，并通過個(gè)性化教學(xué)和自適應(yīng)輔導(dǎo)的模增強(qiáng)學(xué)生對(duì)知識(shí)的掌握程度。作為語言教育軟件，Duolingo在最新“Max訂閱方案”中推出兩項(xiàng)基于GPT-4的設(shè)計(jì)的教輔功能，分別是答案解釋（ExplainmyAnswer）和角色扮演。在答案解釋功能中，模型可以對(duì)用戶個(gè)性錯(cuò)誤加以解釋，以提升學(xué)習(xí)效果；角色扮演中，用戶可以在AI設(shè)計(jì)的一系列語境中扮演各種角色，通過語言時(shí)間來深層激發(fā)“內(nèi)在學(xué)習(xí)（implicitlearning）”，挑語言學(xué)習(xí)效率。根據(jù)多鄰國公司財(cái)報(bào)，23Q2月活用戶達(dá)7410萬，同比增長(zhǎng)50%；日活用戶數(shù)2140萬，同比增長(zhǎng)62

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

計(jì)算機(jī)行業(yè)大模型市場(chǎng)分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

計(jì)算機(jī)行業(yè)大模型市場(chǎng)分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔