計(jì)算機(jī)-國內(nèi)外大模型發(fā)展情況梳理

上傳人：策*** IP屬地：山西上傳時(shí)間：2024-05-17 格式：DOCX 頁數(shù)：85 大?。?.02MB 積分：19.9 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩80頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

證券研究報(bào)告國內(nèi)外大模型發(fā)展情況梳理國內(nèi)外大模型發(fā)展情況梳理分析師：于芳博yufangbo@發(fā)布日期：2024年5月15日本報(bào)告由中信建投證券股份有限公司在中華人民共和國（僅為本報(bào)告目的，不包括香港、澳門、臺灣）提供。在遵守適用的法律法規(guī)情況下，本報(bào)告亦可能由中信建投（國際）證券有限公司在香港提供。同時(shí)請務(wù)必進(jìn)，開源模型打造龐大應(yīng)用生態(tài)，端側(cè)模型小而美。國內(nèi)大模型也進(jìn)入加速成長期，在過去一年中取得了實(shí)質(zhì)性突破。百度文心一言、也取得突破。國內(nèi)大模型網(wǎng)頁流量和應(yīng)用下載量節(jié)節(jié)攀升，大模型已經(jīng)成為日常國外大模型持續(xù)領(lǐng)跑，閉源、開源、端側(cè)模型異彩紛呈。國外大模型主要分為三個層級：性能強(qiáng)勁的閉源模型，具備生態(tài)優(yōu)勢的開源模型，以及專注端側(cè)應(yīng)用的輕量模型。國外基礎(chǔ)模型能力持續(xù)提升，閉源模型中巨頭各顯其才。GPT-4性能卓越，始終處于領(lǐng)跑地位，力、跨模態(tài)能力取得突破。開源模型領(lǐng)域中，LLama2模型塑造了龐大的開源模型家族，LLama3能力大幅提升；Mix引入專家混合技術(shù)，成為開源模型的重要力量。端側(cè)應(yīng)用需要在輕量參數(shù)和模型性能之間平衡，Phi-3、Gemma2實(shí)現(xiàn)輕量級模型的小而美。國外閉源模型有望迎來突破，我們預(yù)期GPT-5或于近期發(fā)國內(nèi)大模型進(jìn)入性能提升的關(guān)鍵時(shí)期，模型應(yīng)用逐步鋪開。2022年11月30日OpenAI發(fā)布ChatGPT，隨即引爆社交網(wǎng)絡(luò)。國內(nèi)大模型也進(jìn)入加速成長期，在過去一年中取得了實(shí)質(zhì)性突破。國內(nèi)第一梯隊(duì)的大模型整體能力目前已經(jīng)逼近GPT-4，部分模型中文能力與GPT-4相差無幾。百度文心大模型4.0整體性能優(yōu)異，成為首個國內(nèi)面向C端收費(fèi)的大模型產(chǎn)品；科大訊飛星火大模型V3.5性能逼近GPT-4，6月27日模型即將再度更新；清華智譜ChatGLM4基礎(chǔ)模型性能強(qiáng)勁，大模型生態(tài)全面對標(biāo)OpenAI；商湯“日日新SenseNova5.0”大模型，其主流客觀評測指標(biāo)達(dá)到或超越GPT-4Turbo。開源模型陣營中，存在通義千問、百川智能實(shí)力強(qiáng)勁的競爭對手。多模態(tài)模型中，國產(chǎn)大模型網(wǎng)頁流量和應(yīng)用下載量節(jié)節(jié)攀升，安卓應(yīng)用商店中豆包累計(jì)下載1.47億，訊飛星火累計(jì)下載1.06億，大模型已經(jīng)成為日常生活中的重要助手。風(fēng)險(xiǎn)提示：大模型技術(shù)發(fā)展不及預(yù)期、商業(yè)化落地不及預(yù)期、算力基礎(chǔ)設(shè)施支持不及預(yù)期、政策監(jiān)管力度不及預(yù)期、數(shù)據(jù)數(shù)量與數(shù)據(jù)質(zhì)量不及預(yù)期。第一章第二章第三章第四章第五章第一章第二章第三章第四章第五章國外基礎(chǔ)模型發(fā)展情況4國內(nèi)基礎(chǔ)模型發(fā)展情況20國內(nèi)多模態(tài)模型相關(guān)進(jìn)展34國內(nèi)模型流量及應(yīng)用下載量情況37風(fēng)險(xiǎn)提示40第一章第一章國外基礎(chǔ)模型發(fā)展情況4GPT-4從“百科全書”逐步成為文理通吃的“專家”相較于過去的GPT系列模型，GPT-4在多應(yīng)用領(lǐng)域成為專家，包括為機(jī)器學(xué)習(xí)模型評判標(biāo)準(zhǔn)和為人類設(shè)計(jì)的專業(yè)測試。在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)上，GPT-4的表現(xiàn)大大優(yōu)于了目前的最好的語言模型，以及大多數(shù)SOTA模型。相較于GPT-3.5以及當(dāng)前最好的語言模型，GPT-4在機(jī)器學(xué)習(xí)模型學(xué)術(shù)基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)實(shí)現(xiàn)了全面突破，在7項(xiàng)數(shù)據(jù)集中的測試均優(yōu)于當(dāng)前最優(yōu)的語言模型。在MMLU數(shù)據(jù)集中，GPT-4不僅在英語語言上的性能實(shí)現(xiàn)了突破，在其他語言方面的表現(xiàn)也優(yōu)于現(xiàn)在的語言模型。在為人類設(shè)計(jì)的各種專業(yè)測試和學(xué)術(shù)基準(zhǔn)數(shù)據(jù)集中，GPT-4展現(xiàn)出媲美甚至優(yōu)于人類的水平。52023年11月7日，OpenAI開發(fā)者大會再度升級GPT-4整體功能，為GPT-4引入了新的模型選擇器。之前GPT-4的工作模式是四個獨(dú)立的功能（一個對話窗口內(nèi)只能使用其中一個特性）：圖像上傳+GPT-4、插件+GPT-4、代碼運(yùn)行器+文件上傳+GPT-4、圖像生成+GPT-4。這次更新使其變成了：GPT-4+圖像上傳+代碼運(yùn)行器+文件上傳+圖像生成，GPT4自動選擇使用接入互聯(lián)網(wǎng)、進(jìn)行數(shù)據(jù)分析、圖像生成等諸多功能，GPT-4具備了規(guī)劃和工具選擇的能力，GPT-4真正進(jìn)化為了一個“理解一切，處理一切，生成一切”的超級統(tǒng)一智能體。向著更便宜、更好用的方向去發(fā)展，并構(gòu)建可定制、可銷售的生態(tài)：1）自定義Chatgpt，二次開發(fā)自由度更高，并且上線GPTStore，定制個人GPT也可實(shí)現(xiàn)銷售；2）gpt4–turbo：發(fā)布了性能更強(qiáng)的GPT-4Turbo模型，在上下文對話長度等6方面進(jìn)行了升級；3）更快、更便宜；4）發(fā)布assistantapi，降低開發(fā)者難度，對開發(fā)者更友好。圖：GPT頁面簡化圖：利用GPT-4搜索颶風(fēng)數(shù)據(jù)并生成颶風(fēng)圖像GPT-4o：GPT-4omni是跨文本、視覺和音頻端到端訓(xùn)練的新模型，所有輸入和輸出都由同一個神經(jīng)網(wǎng)絡(luò)處理。GPT-4o模型性能在GPT-4基礎(chǔ)上再度升級。在英語文本和代碼基準(zhǔn)測試中，GPT-4o的性能與GPT-4Turbo不相上下；在語音翻譯任務(wù)上，GPT-4o強(qiáng)于OpenAI專門的語音模型Whisper-V3以及谷歌和Meta的語音模型；在視覺理解上，也再次反超GPT-4Turbo、Gemini1.0Ultra與ClaudeOpus。GPT-4o免費(fèi)向所有人提供，GPT-4o模型API同步放出，可以部署各種下游應(yīng)用程序上。同時(shí)API的性能也有所改進(jìn)，相比GPT-4Turbo推理速度提升2倍，消息限制提高五倍，而且價(jià)格還會降低50%。77傳統(tǒng)模型中實(shí)現(xiàn)語音交互中需要三個獨(dú)立模塊：一個簡單模型將音頻轉(zhuǎn)錄成文本、GPT-3.5或GPT-4接收文本并輸出文本、第三個簡單模型將文本轉(zhuǎn)換回音頻，GPT-4o采用端到端模型訓(xùn)練跨越文本、視覺和音頻，實(shí)現(xiàn)所有信息的處理。在GPT-4o發(fā)布之前，通過語音模式（VoiceMode）與ChatGPT對話，平均延遲為2.8秒（GPT-3.5）和5.4秒（GPT-4）。GPT-4o可以在短至232毫秒、平均320毫秒的時(shí)間內(nèi)響應(yīng)音頻輸入，相應(yīng)速度大幅提升，與人類在對話中的反應(yīng)速度一致。發(fā)布會上展示了視頻實(shí)時(shí)互動解方程，桌面版ChatGPT秒解代碼難題，實(shí)時(shí)對話等一些列交互過程。OpenAI發(fā)布了ChatGPT的桌面版本，桌面版具有全新的用戶界面，可以很輕易地和工作流融為一體。882024年3月4日，人工智能創(chuàng)業(yè)公司Anthropic宣布推出其突破性的Claude3系列模型，該系列大型語言模型(LLM)在各種認(rèn)知任務(wù)上樹立了新的性能標(biāo)桿。Claude3系列包含三個子模型，分別為Claude3Haiku、Claude3Sonnet和Claude3Opus，它們提供不同程度的智能、速度和成本選擇，以滿足各種人工智能應(yīng)用需求。最智能的Claude3Opus在大多數(shù)常見評估基準(zhǔn)上表現(xiàn)均十分優(yōu)異，包括本科水平專業(yè)知識（MMLU）、研究生水平專業(yè)推理（GPQA）、基礎(chǔ)數(shù)學(xué)（GSM8K）等。Claude3Opus在復(fù)雜任務(wù)上表現(xiàn)出接近人類水平的理解力和流暢性。Claude3系列模型還具備與其他領(lǐng)先模型相當(dāng)?shù)囊曈X能力。他們可以處理各種視覺格式，包括照片、圖表、圖形和技術(shù)圖表。其中Claude3Opus在某些類別上甚至超越了GPT-4V和Gemini1.0Ultra。Claude3系列模型在發(fā)布時(shí)將提供20萬token的上下文窗口，并且這三個模型都能夠接受超過100萬token的輸入，Anthropic未來可能會增加對更大上下文窗口的支持。在“大海撈針”測試中，Claude3Opus不僅實(shí)現(xiàn)了近乎完美的回憶能力，準(zhǔn)確率超過99%，而且在某些情況下，它甚至通過識別出“針”句子似乎是被人為插入到原始文本中的，指出了評估本身的局限性。Gemini是一個由Google開發(fā)的具有高度能力的多模態(tài)模型家族，開發(fā)者訓(xùn)練Gemini模型共同處理圖像、音頻、視頻和文本數(shù)據(jù)，目的是構(gòu)建一個在各個模態(tài)上都有強(qiáng)大泛化能力，同時(shí)在每個領(lǐng)域都具有尖端理解和推理性能的模型。Gemini從模型架構(gòu)設(shè)計(jì)開始就采用原生多模態(tài)結(jié)構(gòu)，意味著它可以泛化并無縫地理解、操作和組合不同類型的信息，包括文本、代碼、音頻、圖像和視頻。目前，Gemini提供了不同的尺寸版本。分別是：GeminiUltra：規(guī)模最大、能力最強(qiáng)，用于處理高度復(fù)雜的任務(wù)；GeminiPro：在各種任務(wù)上擴(kuò)展的最佳模型；GeminiNano：用于端側(cè)（on-device）任務(wù)的最高效模型；GeminiFlash：適用于高頻和高效任務(wù)的輕量級模型。Gemini在大規(guī)模語言建模、圖像理解、音頻處理和視頻理解等領(lǐng)域都取得了最先進(jìn)的狀態(tài)。它還依賴于序列模型、基于神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)的大量工作、機(jī)器學(xué)習(xí)分布式系統(tǒng)的工作，這些工作使得大規(guī)模訓(xùn)練成為可能。編程是大模型衡量能力的重要維度，GeminiUltra在編程方面也表現(xiàn)出色?；贕emini，谷歌還推出了更先進(jìn)的編程系統(tǒng)AlphaCode2。AlphaCode2能理解、解釋并生成Python、Java、C++和Go等編程語言的高質(zhì)量代碼，還擅長解決一些超出編程范圍、涉及復(fù)雜數(shù)學(xué)和理論計(jì)算機(jī)科學(xué)的編程競賽問題。除了文本之外，GeminiUltra在具有挑戰(zhàn)性的多模態(tài)推理任務(wù)上也取得了顯著的進(jìn)展。例如，在最近的MMMU基準(zhǔn)測試上，該基準(zhǔn)測試涵蓋有關(guān)需要多學(xué)科知識并進(jìn)行深思熟慮的圖像的多學(xué)科任務(wù)問題，GeminiUltra取得了新的最先進(jìn)得分62.4%，比以前最好的模型提高了5個百分點(diǎn)以上。谷歌在5月15日的開發(fā)者大會上宣布升級Gemini1.5Pro模型，將上下文窗口從當(dāng)前100萬tokens增加到200萬。Gemini1.5Pro引入了高達(dá)200萬token的上下文窗口長度——這是迄今為止任何大型基礎(chǔ)模型中最長的上下文窗口（模型可理解的信息量）。它實(shí)現(xiàn)了跨模態(tài)的長上下文檢索任務(wù)的完美召回，解鎖了準(zhǔn)確處理大規(guī)模文檔、數(shù)千行代碼、數(shù)小時(shí)音頻、視頻等的能力，Gemini1.5Pro能夠同時(shí)處理2小時(shí)的視頻、22小時(shí)的音頻、6萬多行代碼或140多萬字。升級后的Gemini1.5Pro，在多項(xiàng)公共基準(zhǔn)測試中取得了顯著改進(jìn)，在多項(xiàng)圖像和視頻理解基準(zhǔn)測試中也實(shí)現(xiàn)了最先進(jìn)性能。用戶可以通過GeminiAdvanced訂閱服務(wù)體驗(yàn)最新的Gemini1.5Pro，支持超過150個國家的35種語言。META通過開源LLaMa等大模型，引領(lǐng)大模型開源生態(tài)。2023年2月25日，Meta官網(wǎng)公布了一個新的大型語言模型LLaMA（LargeLanguageModelMetaAI），LLaMA-13B在大多數(shù)基準(zhǔn)測試中，參數(shù)僅為GPT-3十分之一，但性能優(yōu)于GPT-3（175B），而且能跑在單個GPU上。2023年7月19日，Meta發(fā)布了免費(fèi)商用版開源大模型LLaMA2，各個企業(yè)能夠以相對低廉的價(jià)格在該模型上開發(fā)應(yīng)用，為客戶提供自主的大模型。Meta與微軟達(dá)成合作，聯(lián)手推動AI應(yīng)用的商業(yè)化落地。Meta正式開源了LLaMA2版本，可免費(fèi)用于商業(yè)用途，微軟宣布攜手。最新版本的模型將在微軟的Azure和Windows平臺上線并開源，用戶可以在云服務(wù)中使用Llama2作為基礎(chǔ)模型，快速構(gòu)建適用于自身業(yè)務(wù)的專用大模型。目前開源的MetaLlama3具有8B和70B參數(shù)，推理、代碼生成和指令等能力相較于LLama2有大幅改進(jìn)，LLama3是目前8B和70B量級上最好的模型。Llama3在超過15Ttoken的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練，比Llama2使用的數(shù)據(jù)集大七倍。405B大參數(shù)版本模型還在訓(xùn)練中，年內(nèi)即將發(fā)布。大參數(shù)LLama3在兩個2.4萬張GPU的超大集群中訓(xùn)練，訓(xùn)練效率大幅提升。在接下來的幾個月中，預(yù)計(jì)將推出新功能（如多模態(tài)）、更長的上下文窗口、更多不同大小版本的模型和更強(qiáng)的性Mixtral8x7B是法國人工智能初創(chuàng)公司MistralAI全新發(fā)布的MoE模型，MoE是Mixture-of-Experts的簡稱，具體的實(shí)現(xiàn)就是將Transformer中的前饋神經(jīng)網(wǎng)絡(luò)層換成MoE前饋神經(jīng)網(wǎng)絡(luò)層，其他部分保持不變。在訓(xùn)練過程中，Mixtral8x7B采用了8個專家協(xié)同工作，而在推理階段，則僅需激活其中的2個專家。MoE平衡了模型的復(fù)雜度和推理成本，即使在擁有龐大模型參數(shù)的情況下，也能保證高效的推理性能，使得MoE模型在保持強(qiáng)大功能的同時(shí)，也具備了更優(yōu)的實(shí)用性和經(jīng)濟(jì)性。Mixtral8x7B推理過程中只激活13B神經(jīng)元參數(shù)，但是在大多數(shù)基準(zhǔn)測試中都優(yōu)于Llama270B和GPT-3.5，實(shí)現(xiàn)了性能和效率的平衡。Phi-3是微軟研究院推出的小語言模型，包括phi-3-mini、phi-3-small和phi-3-medium三個不同規(guī)模的版本。這些模型在保持較小的參數(shù)規(guī)模的同時(shí)，通過優(yōu)化訓(xùn)練數(shù)據(jù)集和算法，實(shí)現(xiàn)了與大型模型相媲美的語言理解和推理能力，超小的參數(shù)規(guī)模適合在智能手機(jī)等本地設(shè)備上運(yùn)行。phi-3-mini是一個在3.3萬億個token上訓(xùn)練的38億參數(shù)語言模型。測試表明，phi-3-mini的整體性能可與Mixtral8x7B等模型相媲美。phi-3-mini使用Int4的數(shù)據(jù)格式時(shí)，大致占用1.8GB內(nèi)存。Gemma是由GoogleAI開源的一系列輕量級模型，于2024年2月21日發(fā)布，這些模型易于訪問且高效，使AI開發(fā)更容易為廣大用戶所接受。5月15日Google開發(fā)者大會上，Google再度發(fā)布其升級版本Gemma2。Gemma模型家族采用與Gemini模型相同的技術(shù)架構(gòu)。Gemma是基于文本訓(xùn)練的，它在文本摘要、問答和推理等任務(wù)中表現(xiàn)出色。在270億個參數(shù)下，Gemma2的性能與Llama370B相當(dāng)，尺寸不到一半。Google同時(shí)發(fā)布開源視覺語言模型PaliGemma，可以完成各類視覺語言任務(wù)，包括圖像和短視頻字幕、視覺問題回答、理解圖像中的文本、對象檢測和對象分割等。SamAltman曾在OpenAI開發(fā)者大會上表示GPT-5將在“大多數(shù)你想要構(gòu)建的事情”上都能夠勝任。Altman近期透露的關(guān)鍵信息包括：如果GPT-4目前解決了人類任務(wù)的10%,GPT-5應(yīng)該是15%或者20%，我們遠(yuǎn)沒有達(dá)到曲線的頂部。不應(yīng)低估GPT-5性能改進(jìn)的幅度，這可能會超出預(yù)期。RunwayCEO兼AI投資人SiqiChen稱，GPT-5已經(jīng)在推理方面取得了意想不到的階躍函數(shù)增益。GPT-5的訓(xùn)練于2023年啟動，據(jù)相關(guān)信息稱2023年底或正式結(jié)束訓(xùn)練。近期用戶收到紅隊(duì)測試郵件，依照慣例，紅隊(duì)測試預(yù)計(jì)將會持續(xù)90-120天。紅隊(duì)測試后，GPT-5或?qū)⒄桨l(fā)布。第二章第二章國內(nèi)基礎(chǔ)模型發(fā)展情況202022年11月30日,OpenAI發(fā)布ChatGPT，隨即引爆社交網(wǎng)絡(luò)。國內(nèi)大模型也進(jìn)入加速成長期，在過去一年中取得了實(shí)質(zhì)性的突破。國內(nèi)大模型的發(fā)展大致可以分為三個階段，即準(zhǔn)備期（2022.12-2023.02）、成長期（2023.02-2023.23）、爆發(fā)期（2023.12-）。國內(nèi)第一梯隊(duì)的大模型整體能力目前已經(jīng)逼近GPT-4，部分模型中文能力與GPT-4相差無幾。5-6月，國內(nèi)多家大模型將迎來版本更新，今年年中是國內(nèi)大模型的關(guān)鍵賽點(diǎn)，預(yù)期我們將見到部分頭部大模型整體能力上超越GPT-4。客觀評價(jià)大模型能力存在一定的難度，不同的模型測試可能考察了模型不同維度的能力，因而模型之間的性能比較在不同測試中可能表現(xiàn)不一致，同時(shí)大模型的每次響應(yīng)同樣存在不確定性，增加了大模型的測試難度。結(jié)合不同機(jī)構(gòu)的第三方測試，我們大致可以知曉模型之間的性能差異。GPT-4展現(xiàn)出強(qiáng)大的語言理解、生成和推理能力，在各類測試中均保持領(lǐng)先地位。各類評測中模型表現(xiàn)可能略有不同，但是國內(nèi)第一梯隊(duì)的大模型整體能力目前已經(jīng)快速逼近GPT-4。國內(nèi)大模型發(fā)展迅速，與GPT-4差距快速縮小，第一梯隊(duì)的頭部大模型例如ChatGLM4、百度文心一言4.0、訊飛星火V3.5整體表現(xiàn)已經(jīng)接近GPT-4，在中文領(lǐng)域，國內(nèi)部分模型表現(xiàn)已經(jīng)可以比肩GPT-4。 11月1日，百度正式上線文心一言專業(yè)版，技術(shù)持續(xù)升級。文心一言大模型專業(yè)版基于公司最新自研的文心大模型4.0，與原有的3.5版本相比，具有以下優(yōu)勢：1）更強(qiáng)的模型能力和圖片生成能力。根據(jù)測試，文心大模型4.0版本在理解、生成、邏輯、記憶四大功能上都有明顯提升，具有顯著優(yōu)化的模型性能。2)支持接入豐富的API插件，可以實(shí)現(xiàn)撰寫代碼、潤色文案、設(shè)計(jì)與繪圖等多種功能。文心一言成為首個國內(nèi)面向C端收費(fèi)的大模型產(chǎn)品。文心一言專業(yè)版的分為單獨(dú)訂閱和聯(lián)合會員兩種收費(fèi)模式。單獨(dú)訂閱模式下，會員月付59.9元，選擇連續(xù)包月可以享受49.9元的優(yōu)惠價(jià)格；該模式下會員可以使用文心一言大模型3.5和4.0兩個版本，而非會員只可使用免費(fèi)的文心大模型3.5版本。聯(lián)合模式下，用戶月付99元，可以同時(shí)具有單獨(dú)訂閱模式的全部功能，并獲得文心一格白銀會員資格，享受AI修圖改圖等功能。圖：百度文心一言會員訂購費(fèi)用1月30日，科大訊飛舉行星火認(rèn)知大模型V3.5升級發(fā)布會。訊飛發(fā)布基于首個全國產(chǎn)算力訓(xùn)練的訊飛星火V3.5，七大核心能力全面提升，語言理解、數(shù)學(xué)能力、語音交互能力超過GPT-4Turbo，代碼達(dá)到GPT-4Turbo96%，多模態(tài)理解達(dá)到GPT-4V91%。4月26日，訊飛星火大模型V3.5春季上新，發(fā)布長文本、長圖文、長語音大模型。不僅可以快速學(xué)習(xí)各種來源的海量文本、圖文資料、會議錄音，還能夠針對多種多樣的行業(yè)場景給出專業(yè)、準(zhǔn)確回答。此外，星火語音大模型本次更新還包括多情感超擬人合成功能，具備情緒表達(dá)能力，并推出一句話聲音復(fù)刻功能。訊飛正式啟動對標(biāo)GPT-4的大模型訓(xùn)練，2024年上半年對標(biāo)GPT-4，要走獨(dú)立的技術(shù)路線和產(chǎn)業(yè)方向，形成完整產(chǎn)業(yè)生態(tài)。1月16日，2024年度技術(shù)開放日ZhipuDevDay，智譜AI發(fā)布了新一代基座大模型GLM-4。在大規(guī)模多任務(wù)語言理解評測中，GLM-4的表現(xiàn)明顯優(yōu)于GPT-3.5，其平均得分已經(jīng)達(dá)到了GPT-4的95%水平，在某些特定任務(wù)上甚至表現(xiàn)相當(dāng)；GLM-4具備強(qiáng)大的多模態(tài)能力：文生圖和多模態(tài)理解能力得到增強(qiáng)，CogView3在文生圖多個評測指標(biāo)上，相比DALLE3約在91.4%-99.3%的水平之間。GLM-4推出的AllTools能力：GLM-4能自主理解和執(zhí)行復(fù)雜任務(wù)，調(diào)用瀏覽器、代碼解釋器等完成復(fù)雜工作。個性化智能體功能：用戶可以通過智譜官網(wǎng)輕松創(chuàng)建屬于自己的GLM智能體，實(shí)現(xiàn)大模型開發(fā)定制。4月23日，商湯科技在技術(shù)交流日上發(fā)布全新升級的“日日新SenseNova5.0”大模型，其主流客觀評測指標(biāo)達(dá)到或超越GPT-4Turbo。日日新5.0模型能力提升一方面得益于采用混合專家架構(gòu)（MoE），激活少量參數(shù)就能完成推理，且推理時(shí)上下文窗口高達(dá)200K左右；另一方面來自海量的訓(xùn)練數(shù)據(jù)，其訓(xùn)練數(shù)據(jù)超過10TBtokens、覆蓋了數(shù)千億量級的邏輯型合成思維鏈數(shù)據(jù)。商湯多模態(tài)大模型的圖文感知能力達(dá)到全球領(lǐng)先水平，在權(quán)威綜合基準(zhǔn)測試MMBench中綜合得分居首位，在多個知名多模態(tài)榜單MathVista、AI2D、ChartQA、TextVQA、DocVQA、MMMU均取得優(yōu)異成績。1月29日，百川智能發(fā)布超千億參數(shù)的大語言模型Baichuan3。在多個權(quán)威通用能力評測如CMMLU、GAOKAO和AGI-Eval中，Baichuan3都展現(xiàn)了出色的能力，尤其在中文任務(wù)上更是超越了GPT-4。而在數(shù)學(xué)和代碼專項(xiàng)評測如MATH、HumanEval和MBPP中同樣表現(xiàn)出色，證明了Baichuan3在自然語言處理和代碼生成領(lǐng)域的強(qiáng)大實(shí)力。Baichuan2是百川智能推出的開源大語言模型，采用2.6萬億Tokens的高質(zhì)量語料訓(xùn)練。Baichuan2在多個權(quán)威的中文、英文和多語言的通用、領(lǐng)域benchmark上取得同尺寸最佳的效果。包含7B、13B的Base和Chat版本，并提供了Chat版本的4bits量化。通義千問2023年4月問世以來，專注于基礎(chǔ)模型的技術(shù)研發(fā)，從初代模型升級至2.5版本。相比上一版本，2.5版模型的理解能力、邏輯推理、指令遵循、代碼能力分別提升9%、16%、19%、10%，中文能力持續(xù)領(lǐng)先。今年2月初，通義千問團(tuán)隊(duì)推出開源模型系列Qwen1.5，隨后在不到3個月的時(shí)間連續(xù)開出8款大語言模型，模型參數(shù)規(guī)模涵蓋5億、18億、40億、70億、140億、320億、720億、1100億，打造了豐富的開源模型矩陣。能力最強(qiáng)的Qwen1.5-110B在MMLU、TheoremQA、GPQA等多個基準(zhǔn)測評中展現(xiàn)出卓越性能，基礎(chǔ)能力可與Meta的Llama-3-70B模型相媲美。5月15日，字節(jié)跳動正式對外發(fā)布豆包大模型，豆包大模型家族包括豆包通用模型Pro、豆包通用模型Lite、豆包·角色扮演模型、豆包·語音合成模型、豆包·聲音復(fù)刻模型、豆包·語音識別模型、豆包·文生圖模型模型等，這些模型已接入抖音、番茄小說、飛書、巨量引擎等50余個業(yè)務(wù)。豆包主力模型定價(jià)0.0008元/千Tokens，一元錢能買到豆包主力模型的125萬Tokens，約200萬漢字，極具價(jià)格競爭力。蘋果APPStore和各大安卓應(yīng)用市場，豆包APP的下載量在AIGC類應(yīng)用中排名第一，豆包上已有超過800萬個智能體被創(chuàng)建，月度活躍用戶達(dá)到2600萬。圖：豆包大模型家族圖：豆包模型中的各類AI智能體MoonshotAI提供超長記憶AI助手Kimi。23年10月，月之暗面推出可支持20萬字無損上下文長度的智能助手Kimi，具備顯著的中文優(yōu)勢，能夠?yàn)橛脩籼峁┲悄芩阉?、回答問題、速讀文件、整理資料、激發(fā)靈感、輔助創(chuàng)作等服務(wù)，上下文長度可以達(dá)到Claude100k的2.5倍、GPT-4-32k的8倍。Kimi智能助手使用方便，新版Kimi與之前版本相比在相同設(shè)備和成本的情況下模型響應(yīng)速度提升了3倍左右。Kimi推出應(yīng)用商店Kimi+。首批上線共5大類23個Kimi+，覆蓋了很多常用的場景。五大類主要包括官方推薦、辦公提效、輔助寫作、社交娛樂、生活實(shí)用，不同的Kimi+可以用來解決不同的問題，包括寫提示詞、寫文章、搜索資源等等。圖：Kimi長文本壓力測試結(jié)果表現(xiàn)優(yōu)異圖：官方推薦的Kimi+深度求索Deepseek發(fā)布了v2版本的模型，沿襲了Deepseek-MoE（混合專家模型）的技術(shù)路線，采用大量的小參數(shù)專家進(jìn)行建模，同時(shí)在訓(xùn)練和推理上加入了更多的優(yōu)化。Deepseek對模型進(jìn)行了完全的mit協(xié)議開源，可以商用。DeepseekV2模型參數(shù)量達(dá)到236B，同時(shí)由于模型小專家混合的特性，模型每個token在推理時(shí)的激活參數(shù)為21B，可以實(shí)現(xiàn)高推理速度。模型的核心優(yōu)化點(diǎn)多頭隱式注意力顯著降低了訓(xùn)練和推理成本。在成本效率方面，相比V1的稠密模型，V2模型節(jié)約了42.5%的訓(xùn)練成本，減少了推理時(shí)93.3%的KV-cache顯存占用，將生成的吞吐量也提升到了原來的5.76倍。Deepseek-V2在眾多開源模型中表現(xiàn)僅次于70B的LLaMA3，超過了他們此前發(fā)布的V1代67B的非MoE模型。第三章第三章國內(nèi)多模態(tài)模型相關(guān)進(jìn)展34 國產(chǎn)文生視頻大模型Vidu正式發(fā)布，實(shí)現(xiàn)重大技術(shù)突破。4月27日，國產(chǎn)AI視頻大模型Vidu發(fā)布。Vidu是由清華大學(xué)和生數(shù)科技聯(lián)合開發(fā)的中國首個長時(shí)長、高一致性、高動態(tài)性視頻大模型。它不僅能夠精確模擬現(xiàn)實(shí)世界的物理特性，還具備強(qiáng)大的創(chuàng)新能力。Vidu能夠制作出具有多個鏡頭視角的視頻內(nèi)容，并且在不同鏡頭之間保持高度的時(shí)空連貫性。目前Vidu能夠?qū)崿F(xiàn)一鍵生成長達(dá)16秒、1080P高分辨率的高清視頻。Vidu采用獨(dú)創(chuàng)U-ViT架構(gòu)，正在加速迭代。Vidu采用了一種獨(dú)創(chuàng)的架構(gòu)——U-ViT，該架構(gòu)融合了Diffusion技術(shù)和Transformer技術(shù)。其核心技術(shù)U-ViT架構(gòu)由團(tuán)隊(duì)于2022年9月提出，其Diffusion與Transformer融合的架構(gòu)完全由團(tuán)隊(duì)自主研發(fā)。天工SkyMusic基于昆侖萬維天工3.0超級大模型打造，采用了音樂音頻領(lǐng)域的類Sora架構(gòu)，是目前國內(nèi)唯一公開可用的AI音樂生成大模型。天工SkyMusic采用音樂音頻領(lǐng)域類Sora模型架構(gòu)，Large-scaleTransformer負(fù)責(zé)譜曲，來學(xué)習(xí)MusicPatches的上下文依賴關(guān)系，同時(shí)完成音樂可控性；DiffusionTransformer負(fù)責(zé)演唱，通過LDM讓MusicPatches被還原成高質(zhì)量音頻，使得天工SkyMusic能夠支持生成80秒44100Hz采樣率雙聲道立體聲歌曲。天工SkyMusic具備高質(zhì)量AI音樂生成、人聲“以假亂真”、歌詞段落控制、多種音樂風(fēng)格、歌唱技巧學(xué)習(xí)等特點(diǎn)。目前Skymusic已經(jīng)開啟公測，所有用戶可以免費(fèi)使用。第四章第四章國內(nèi)模型流量及應(yīng)用下載量情況37根據(jù)similarweb數(shù)據(jù)，國內(nèi)大模型網(wǎng)頁流量整體日趨平穩(wěn)，部分模型流量仍在快速上升。百度文心一言日均訪問接近40萬次，ChatGLM與通義千問訪問也趨穩(wěn)10萬人次。Kimi網(wǎng)頁訪問量快速提升，日均訪問超越40萬人次。 0根據(jù)七麥數(shù)據(jù)，國內(nèi)大模型應(yīng)用下載量日益攀升。截止2024年5月15日，安卓平臺上各家大模型的累計(jì)應(yīng)用下載量分別為：豆包1.47億，訊飛星火1.06億，文心一言1.03億，智譜清言5347萬，天工5217萬，通義1655萬，kimi1091萬。 0資料來源：七麥數(shù)據(jù)，中信建投第五章第五章風(fēng)險(xiǎn)提示4041>大模型技術(shù)發(fā)展不及預(yù)期：大模型屬于先進(jìn)AI算法，若后續(xù)大模型算法更新迭代效果不及預(yù)期，則會影響大模型演進(jìn)及拓展，進(jìn)而會影響其商業(yè)化落地等；>商業(yè)化落地不及預(yù)期：大模型的商業(yè)落地模式在業(yè)界中普遍處于探索階段，用戶對于大模型的接受程度和商業(yè)化變現(xiàn)能力可能不及預(yù)期；>算力基礎(chǔ)設(shè)施支持不及預(yù)期：美國制裁

人人文庫> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

計(jì)算機(jī)-國內(nèi)外大模型發(fā)展情況梳理

文檔簡介

溫馨提示

最新文檔

評論

計(jì)算機(jī)-國內(nèi)外大模型發(fā)展情況梳理

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔