




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
發(fā)布日期:2025年2月3日本報(bào)告由中信建投證券股份有限公司在中華人民共和國(guó)(僅為本報(bào)告目的,不包括香港、澳門、臺(tái)灣)提供。在遵守適用的法律法規(guī)情況下,本報(bào)告亦可能由中信建投(國(guó)際)證券有限公司在香港提供。同時(shí)請(qǐng)務(wù)必閱讀正文之后的免責(zé)條款和聲明。n核心觀點(diǎn):Deepseek發(fā)布深度推理能力模型。R1-Zero采用純粹的強(qiáng)化學(xué)習(xí)訓(xùn)練,證明了大語言模型僅通過強(qiáng)化學(xué)習(xí)也可以有強(qiáng)大的推nDeepseek發(fā)布深度推理能力模型,性能和成本方面表現(xiàn)出色。Deepseek發(fā)布兩款具備深度推理能力的大模型R1-Zero和DeepSeek-R1。R1-Zero采用純粹的強(qiáng)化學(xué)習(xí)訓(xùn)練,模型效果逼近OpenAIo1模型,證明了大語言模型僅通過RL,無SFT,大模型也可以有強(qiáng)大的推理能力。但是R1-Zero也存在可讀性差和語言混合的問題,在進(jìn)一步的優(yōu)化過程中,DeepSeek-V3-Base經(jīng)歷兩次微調(diào)和兩次強(qiáng)化學(xué)習(xí)得到R1模型,主要包括冷啟動(dòng)階段、面向推理的強(qiáng)化學(xué)習(xí)、拒絕采樣與監(jiān)督微調(diào)、面向全場(chǎng)景的強(qiáng)化學(xué)習(xí)四個(gè)階段,R1在推理任務(wù)上表現(xiàn)出色,特別是在AIME2024、MATH-500和Codeforces等任務(wù)上,取得了與OpenAI-o1-1217相媲美甚至超越的成績(jī)。n國(guó)產(chǎn)模型邁向深度推理,策略創(chuàng)新百花齊放。在DeepseekR1-Zero模型中,采用的強(qiáng)化學(xué)習(xí)策略是GRPO策略,取消價(jià)值網(wǎng)絡(luò),采用分組相對(duì)獎(jiǎng)勵(lì),專門優(yōu)化數(shù)學(xué)推理任務(wù),減少計(jì)算資源消耗;KIMIDPO和long2shortRL策略實(shí)現(xiàn)短鏈推理;Qwen2.5擴(kuò)大監(jiān)督微調(diào)數(shù)據(jù)范圍以及兩階段強(qiáng)化學(xué)習(xí),增強(qiáng)模型處理能力。nDeepSeekR1通過較少算力實(shí)現(xiàn)高性能模型表現(xiàn),主要原因是DeepSeekR1實(shí)現(xiàn)算法、框架和硬件的優(yōu)化協(xié)同。DeepSeekR1在諸多維度上進(jìn)行了大量?jī)?yōu)化,算法層面引入專家混合模型、多頭隱式注意力、多token預(yù)測(cè),框架層面實(shí)現(xiàn)FP8混合精度訓(xùn)練,硬件層面采用優(yōu)化的流水線并行策略,同時(shí)高效配置專家分發(fā)與跨節(jié)點(diǎn)通信,實(shí)現(xiàn)最優(yōu)效率配置。當(dāng)前階段大模型行業(yè)正處于從傳統(tǒng)的生成式模型向深度推理模型過渡階段,算力的整體需求也從預(yù)訓(xùn)練階段逐步過渡向后訓(xùn)練和推理側(cè),通過大量協(xié)同優(yōu)化,DeepSeekR1在特定發(fā)展階段通過較少算力實(shí)現(xiàn)高性能模型表現(xiàn),算力行業(yè)的長(zhǎng)期增長(zhǎng)邏輯并未受到挑戰(zhàn)。過去的預(yù)訓(xùn)練側(cè)的scalinglaw正逐步邁向更廣闊的空間,在深度推理的階段,模型的未來算力需求依然會(huì)呈現(xiàn)爆發(fā)式上漲,充足的算力需求對(duì)于人工智能模型的性能進(jìn)步依然至關(guān)重要。國(guó)內(nèi)模型深度推理發(fā)展現(xiàn)狀4低算力需求緣起及長(zhǎng)期算力觀點(diǎn)20相關(guān)問答案例27風(fēng)險(xiǎn)提示33國(guó)內(nèi)模型深度推理發(fā)展現(xiàn)狀4nDeepseek發(fā)布兩款具備深度推理能力的大模型R1-Zero和DeepSeek-R1。nR1-Zero的訓(xùn)練,證明了僅通過RL,無SFT,大模型也可以有強(qiáng)大的推理能力。在AIME2024上,R1-Zero的pass@1指標(biāo)從15.6%提升至71.0%,經(jīng)過投票策略(majorityvoting)后更是提升到了86.7%,與OpenAI-o1-0912相當(dāng)。架構(gòu)思路:沒有任何SFT數(shù)據(jù)的情況下,通過純粹的強(qiáng)化學(xué)習(xí)。算法應(yīng)用:直接在DeepSeek-V3-Base模型上應(yīng)用GRPO算法進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練。獎(jiǎng)勵(lì)機(jī)制:使用基于規(guī)則的獎(jiǎng)勵(lì)機(jī)制,包括準(zhǔn)確性獎(jiǎng)勵(lì)和格式獎(jiǎng)勵(lì),來指導(dǎo)模型的學(xué)習(xí)。訓(xùn)練模板:采用了簡(jiǎn)潔的訓(xùn)練模板,要求模型首先輸出推理過程(置于標(biāo)簽內(nèi)),然后給出最終答案(置于標(biāo)簽內(nèi))。 資料來源:DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning,中信建投n為了解決R1-Zero可讀性差和語言混合的問題,構(gòu)建了R1。n架構(gòu)思路:在DeepSeek-V3-Base模型的基礎(chǔ)上,經(jīng)歷兩次微調(diào)和兩次強(qiáng)化學(xué)習(xí)得到R1模型。nStep1.冷啟動(dòng)階段:使用數(shù)千個(gè)高質(zhì)量的長(zhǎng)Cot人工標(biāo)注樣本對(duì)DeepSeek-V3-Base模型進(jìn)行微調(diào),作為強(qiáng)化學(xué)習(xí)的初始模型。nStep2.面向推理的強(qiáng)化學(xué)習(xí):在冷啟動(dòng)階段之后,R1采用了與R1-Zero類似的強(qiáng)化學(xué)習(xí)訓(xùn)練,但針對(duì)推理任務(wù)進(jìn)行了特別優(yōu)化。為了解決訓(xùn)練過程中可能出現(xiàn)的語言混雜問題,R1引入了語言一致性獎(jiǎng)勵(lì),該獎(jiǎng)勵(lì)根據(jù)CoT中目標(biāo)語言單詞的比例來計(jì)算。nStep3.拒絕采樣與監(jiān)督微調(diào):當(dāng)面向推理的強(qiáng)化學(xué)習(xí)收斂后,R1利用訓(xùn)練好的RL模型進(jìn)行拒絕采樣,生成新的SFT數(shù)據(jù)。nStep4.面向全場(chǎng)景的強(qiáng)化學(xué)習(xí):在收集了新的SFT數(shù)據(jù)后,R1會(huì)進(jìn)行第二階段的強(qiáng)化學(xué)習(xí)訓(xùn)練,這一次,訓(xùn)練的目標(biāo)不再局限于推理任務(wù),而是涵蓋了所有類型的任務(wù)。此外,R1采用了不同的獎(jiǎng)勵(lì)信號(hào)和提示分布,針對(duì)不同的任務(wù)類型進(jìn)行了優(yōu)化。 采樣監(jiān)督微調(diào)資料來源:DeepSeek,huggingface,中信建投nR1在推理任務(wù)上表現(xiàn)出色,特別是在AIME2024(美國(guó)數(shù)學(xué)邀請(qǐng)賽)、MATH-500(數(shù)學(xué)競(jìng)賽題)和Codeforces(編程競(jìng)賽)等任務(wù)上,取得了與OpenAI-o1-1217相媲美甚至超越的成績(jī)。在MMLU(90.8%)、MMLU-Pro(84.0%)和GPQADiamond(71.5%)等知識(shí)密集型任務(wù)基準(zhǔn)測(cè)試中,性能顯著超越了DeepSeek-V3模型。在針對(duì)長(zhǎng)上下文理解能力的FRAMES數(shù)據(jù)集上,R1的準(zhǔn)確率達(dá)到了82.5%,優(yōu)于DeepSeek-V3模型。在開放式問答任務(wù)AlpacaEval2.0和Arena-Hard基準(zhǔn)測(cè)試中,R1分別取得了87.6%的LC-winrate和92.3%的GPT-4-1106評(píng)分,展現(xiàn)了其在開放式問答領(lǐng)域的強(qiáng)大能力。資料來源:DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning,中信建投nDeepSeek團(tuán)隊(duì)進(jìn)一步探索了將R1的推理能力蒸餾到更小的模型中的可能性。他們使用R1生成的800K數(shù)據(jù),對(duì)Qwen和Llama系列的多個(gè)小模型(1.5B、7B、8B、14B、32B、70B)進(jìn)行了微調(diào)。經(jīng)過R1蒸餾的小模型,在推理能力上得到了顯著提升,甚至超越了在這些小模型上直接進(jìn)行強(qiáng)化學(xué)習(xí)的效果。n推理成本來看,R1模型價(jià)格只有OpenAIo1模型的幾十分之一。訓(xùn)練成本來看,DeepSeek-V3在一個(gè)配備2048個(gè)NVIDIAH800GPU的集群上進(jìn)行訓(xùn)練,預(yù)訓(xùn)練階段在不到兩個(gè)月內(nèi)完成,并消耗了2664KGPU小時(shí),總訓(xùn)練成本為557.6萬美元。 資料來源:DeepSeek,DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning,中信建投nDeepSeek中強(qiáng)化學(xué)習(xí)的核心策略是GRPO策略,GRPO是PPO的改進(jìn)版本,專門優(yōu)化數(shù)學(xué)推理任務(wù),減少計(jì)算資源消耗。nGRPO關(guān)鍵改進(jìn):取消價(jià)值網(wǎng)絡(luò),降低計(jì)算資源。PPO需要一個(gè)額外的價(jià)值網(wǎng)絡(luò)來估計(jì)優(yōu)勢(shì),但GRPO直接用樣本組的平均獎(jiǎng)勵(lì)作為基線。這樣,GRPO不需要額外訓(xùn)練價(jià)值網(wǎng)絡(luò),減少GPU計(jì)算成本。采用分組相對(duì)獎(jiǎng)勵(lì),GRPO用多個(gè)樣本的獎(jiǎng)勵(lì)來計(jì)算相對(duì)優(yōu)勢(shì),而不是用價(jià)值網(wǎng)絡(luò)估計(jì)優(yōu)勢(shì)。 即時(shí)獎(jiǎng)勵(lì)折扣因子累計(jì)獎(jiǎng)勵(lì)平均獎(jiǎng)勵(lì)標(biāo)準(zhǔn)差獎(jiǎng)勵(lì)9資料來源:DeepSeek,DeepSeek-R1:IncentivizingReasoningCapabilityinLLMsviaReinforcementLearning,中信建投n2025年1月20日,kimi1.5版本模型發(fā)布,這是繼2024年11月發(fā)布k0-math數(shù)學(xué)模型,12月發(fā)布k1視覺思考模型之后,Kimin從基準(zhǔn)測(cè)試成績(jī)看,k1.5多模態(tài)思考模型實(shí)現(xiàn)了SOTA(stn在short-CoT模式下,Kimik1.5的數(shù)學(xué)、代碼、視覺多模態(tài)和通用能力,大幅超越了全球范圍內(nèi)短思考SOTA模型GPT-4on在long-CoT模式下,Kimik1.5的數(shù)學(xué)、代碼、多模態(tài)推理能力,也達(dá)到長(zhǎng)思考SOTA模型OpenAIo1正式版的水平。這資料來源:Kimik1.5:ScalingReinforcementLearningwithLLMs,中信建投n1)長(zhǎng)上下文擴(kuò)展:通過將RL的上下文窗口擴(kuò)展到128k,Kimik1.5能夠處理更長(zhǎng)的文本序列,從而在多個(gè)任務(wù)上提升性能。在推理過程n2)改進(jìn)的策略優(yōu)化:采用在線鏡像下降法的變體進(jìn)行策略優(yōu)化,并結(jié)合有效的采樣策略、長(zhǎng)度懲罰和數(shù)據(jù)配方優(yōu)化,進(jìn)一步提升了模n3)簡(jiǎn)化的RL框架:通過長(zhǎng)上下文擴(kuò)展和改進(jìn)的策略優(yōu)化,Kimik1.5建立了一個(gè)簡(jiǎn)化的RL學(xué)習(xí)框架,使得模型能夠在不依賴復(fù)雜技術(shù)的n4)多模態(tài)處理能力:Kimik1.5能夠同時(shí)處理文本和視覺數(shù)據(jù),展現(xiàn)了在多模態(tài)數(shù)據(jù)上進(jìn)行聯(lián)合推理的能力。(對(duì)比DeepseekR1僅為資料來源:Kimik1.5:ScalingReinforcementLearningwithLLMs,中信建投nKimik1.5的推理框架分為核心幾塊:1)Rollout模塊:理解為推理過程中的試錯(cuò)者和推演者,不斷推演不同可能性,從而找到最優(yōu)解??梢韵胂蟪梢蝗汗と嗽谏a(chǎn)線上進(jìn)行實(shí)際的操作記錄下每一步的結(jié)果。根據(jù)當(dāng)前的模型權(quán)重生成一系n2)主管(Master)模塊:理解為指揮中心。負(fù)責(zé)協(xié)調(diào)和管理整個(gè)訓(xùn)練過程,接收來自Rollout模塊的軌跡數(shù)據(jù),評(píng)估模型的表現(xiàn),并向TrainerWorkers發(fā)送訓(xùn)練數(shù)據(jù)。主管還負(fù)責(zé)管理ReplayBn3)訓(xùn)練模塊:負(fù)責(zé)根據(jù)Rollout模塊提供的數(shù)據(jù)來訓(xùn)練模型。使用策略模型(PolicyModel)和參考模型(ReferenceModel)來計(jì)算梯度更新(gradientupdate),從而優(yōu)化模型的nPartialRollout創(chuàng)新:在Rollout模塊的推理中,不需要每次都從頭開始,可以從緩沖區(qū)中讀取之前的軌跡后繼續(xù)推理。類似于1)下棋中,每次只需要思考最關(guān)鍵的步驟,而不用思考前面簡(jiǎn)單的步驟。2)設(shè)計(jì)方案時(shí),可以復(fù)資料來源:Kimik1.5:ScalingReinforcementLearningwithLLMs,中信建投n盡管長(zhǎng)鏈推理模型能夠?qū)崿F(xiàn)強(qiáng)大的性能,但消耗tokens更多。通過將長(zhǎng)鏈推理模型的思維先驗(yàn)轉(zhuǎn)移到短鏈推理模型中,從而在有限算力下提高性能。kimi1.5提出了幾種解決長(zhǎng)鏈到短鏈(long2short)問題的方法,包括模型合并、最短拒絕采n1)模型合并:通過平均長(zhǎng)鏈推理模型和短鏈推理模型的權(quán)重,合并兩個(gè)模型,提高令牌效率。2)最短拒絕采樣:對(duì)同一個(gè)問題進(jìn)行多次采樣,選擇最短的正確響應(yīng)進(jìn)行微調(diào)。3)DPO:利用長(zhǎng)鏈推理模型生成的多個(gè)響應(yīng)樣本,構(gòu)建正負(fù)樣本對(duì)進(jìn)行訓(xùn)練。4)long2shortRL:在標(biāo)準(zhǔn)RL訓(xùn)練后,選擇一個(gè)性能和效率平衡的模型,應(yīng)用長(zhǎng)度懲罰并減少最大展開長(zhǎng)度,進(jìn)一步優(yōu)化短鏈推理模型。nlong2shortRL:在標(biāo)準(zhǔn)的RL后,再加一個(gè)長(zhǎng)度RL,從而選出所有正確答案中,思考步數(shù)最短的,進(jìn)而優(yōu)化算力。鼓勵(lì)在相同在強(qiáng)化學(xué)習(xí)中,模型會(huì)生成多個(gè)響應(yīng)(responses每個(gè)響應(yīng)都有一個(gè)長(zhǎng)度。為了鼓勵(lì)模型生成更短的響應(yīng),同時(shí)懲罰過長(zhǎng)的響應(yīng),引入了長(zhǎng)度獎(jiǎng)勵(lì)機(jī)制。這個(gè)機(jī)制通過計(jì)算每個(gè)響應(yīng)的長(zhǎng)度獎(jiǎng)勵(lì),將其添加到原始獎(jiǎng)勵(lì)中,從而影響模型的訓(xùn)練過程。資料來源:Kimik1.5:ScalingReinforcementLearningwithLLMs,中信建投 阿里千問發(fā)布Qwen2.5系列模型,性能水平頂尖n2024年09月19日,阿里發(fā)布Qwen2.5系列,包括0.5B,1.5B,3B,7B,14B,32B以及72B,以及專門針對(duì)編程的Qwen2.5-Coder和數(shù)學(xué)的Qwen2.5-Math模型。Qwen2.5所有系列模型都在18Ttokens的數(shù)據(jù)集上進(jìn)行了預(yù)訓(xùn)練,相較于Qwen2,Qwen2.5獲得了更多的知識(shí)(MMLU:85+),并在編程和數(shù)學(xué)方面有了大幅提升。n用于編程的Qwen2.5-Coder和用于數(shù)學(xué)的Qwen2.5-Math,相比其前身CodeQwen1.5和Qwen2-Math有了實(shí)質(zhì)性的改進(jìn):Qwen2.5-Coder在包含5.5Ttokens編程相關(guān)數(shù)據(jù)上進(jìn)行了訓(xùn)練,使即使較小的編程專用模型也能在編程評(píng)估基準(zhǔn)測(cè)試中表現(xiàn)出媲美大型語言模型的競(jìng)爭(zhēng)力。同時(shí),Qwen2.5-Math支持中文和英文,并整合了多種推理方法,包括CoT(ChainofThought)、PoT(ProgramofThought)和TIR(Tool-IntegratedReasoning)。ModelsLayersContext/GenerationLength0.5B24Yes32K/8KApache2.028Yes32K/8KApache2.03B36Yes32K/8K7B2828/4NoApache2.04840/8NoApache2.032B6440/8NoApache2.072B8064/8NoQwenQwen2.5預(yù)訓(xùn)練階段構(gòu)建了更高質(zhì)量數(shù)據(jù)集及專門的上下文訓(xùn)練方式n在預(yù)訓(xùn)練方面,Qwen2.5通過多種方式,進(jìn)行高質(zhì)量數(shù)據(jù)集構(gòu)建,例如更好的數(shù)據(jù)過濾:引入Qwen2-Instruct模型對(duì)數(shù)據(jù)進(jìn)行把關(guān),不僅大幅提升了高質(zhì)量訓(xùn)練數(shù)據(jù)的留存比例,還能更高效地篩除多語種低質(zhì)樣本。此外還使用Qwen2.5-Math和Qwen2.5-Coder的訓(xùn)練數(shù)據(jù)、借助Qwen2-72B-Instruct與Qwen2Math-72B-Instruct模型催生高質(zhì)量合成數(shù)據(jù)以及啟用Qwen2-Instruct模型對(duì)不同領(lǐng)域的內(nèi)容進(jìn)行分類梳理與均衡調(diào)配。Qwen2.5將高質(zhì)量的預(yù)訓(xùn)練數(shù)據(jù)集從之前的7萬億個(gè)token擴(kuò)展到了18萬億個(gè)token。n預(yù)訓(xùn)練上下文方面,通過兩階段調(diào)節(jié)上下文長(zhǎng)度,進(jìn)而達(dá)到最優(yōu)訓(xùn)練效果。Qwen2.5還采用了YARN和雙塊注意力DCA,實(shí)現(xiàn)了序列長(zhǎng)度容量四倍的飛躍式增長(zhǎng),使得Qwen2.5-Turbo能夠從容處理多達(dá)100萬個(gè)token的序列,而其他模型也具備處理多達(dá)131072個(gè)token序列的能力。使用Qwen2進(jìn)行數(shù)據(jù)過濾,大幅度提高高質(zhì)量訓(xùn)使用Qwen2進(jìn)行數(shù)據(jù)過濾,大幅度提高高質(zhì)量訓(xùn)練數(shù)據(jù)留存比合并了來自Qwen2.5-Math和Qwen合并了來自Qwen2.5-Math和Qwen2.5-Coder的訓(xùn)練數(shù)據(jù)度除Qwen2.5-Turbo之外的全部模型變體,其上下文長(zhǎng)度會(huì)從4,096延展至32,768。與此同時(shí),借助ABF技術(shù),將RoPE(位置編碼旋轉(zhuǎn))的基頻從10,000提升到1,000,000。借助借助Qwen2-72B-Instruct與Qwen2Math-72B-Instruct模型催生高質(zhì)量合成數(shù)據(jù)啟用Qwen2-啟用Qwen2-Instruct模型對(duì)不同領(lǐng)域的內(nèi)容進(jìn)行分類梳理與均衡調(diào)配。針對(duì)Qwen2.5-Turbo,訓(xùn)練期間推行漸進(jìn)式上下文長(zhǎng)度擴(kuò)展策略,分四個(gè)階段逐步推進(jìn):先是32,768個(gè)token,接著拓展至65,536,繼而達(dá)到131,072,最終定格在262,144,且RoPE基頻高達(dá)10,000,000。通過擴(kuò)大監(jiān)督微調(diào)數(shù)據(jù)范圍以及兩階段強(qiáng)化學(xué)習(xí),增強(qiáng)模型處理能力nQwen2.5監(jiān)督微調(diào)通過多種方式,在長(zhǎng)序列生成、數(shù)學(xué)問題解決、編碼、指令遵循、結(jié)構(gòu)化數(shù)據(jù)理解、邏輯推理、跨語言遷移和強(qiáng)大的系統(tǒng)指令等領(lǐng)域進(jìn)行了微調(diào)數(shù)據(jù)覆蓋,構(gòu)建了一個(gè)包含超過100萬個(gè)SFT示例的數(shù)據(jù)集,解決了先前模型在以上關(guān)鍵領(lǐng)域顯示的局限性。n強(qiáng)化學(xué)習(xí)階段,采用兩階段強(qiáng)化學(xué)習(xí):離線RL和在線RL。離線RL:主要針對(duì)推理、事實(shí)性和遵循指令等領(lǐng)域的能力開發(fā)。在線RL:在線強(qiáng)化學(xué)習(xí)階段利用獎(jiǎng)勵(lì)模型檢測(cè)輸出質(zhì)量細(xì)微差別的能力,包括真實(shí)性、有用性、簡(jiǎn)潔性、相關(guān)性、無害性和去偏差。增強(qiáng)方式長(zhǎng)序列生成采用反向翻譯技術(shù)從預(yù)訓(xùn)練語料庫(kù)中生成長(zhǎng)文本數(shù)據(jù)的查詢,數(shù)學(xué)建模和帶注釋的答案作為指導(dǎo)。指令遵循結(jié)構(gòu)化數(shù)據(jù)理解開發(fā)了一個(gè)全面的結(jié)構(gòu)化理解數(shù)據(jù)集。邏輯推理跨語言遷移采用翻譯模型將指令從高資源語言轉(zhuǎn)換為各種低資源語言。強(qiáng)大的系統(tǒng)指令構(gòu)建了數(shù)百個(gè)通用系統(tǒng)提示。采用了專用的評(píng)論家模型和多智能體協(xié)作評(píng)分系統(tǒng)。 在線強(qiáng)化學(xué)習(xí)階段利用獎(jiǎng)勵(lì)模型檢測(cè)輸出質(zhì)量細(xì)微在線強(qiáng)化學(xué)習(xí)階段利用獎(jiǎng)勵(lì)模型檢測(cè)輸出質(zhì)量細(xì)微差別的能力,包括真實(shí)性、有用性、簡(jiǎn)潔性、相關(guān)性、無害性和去偏差?!_發(fā)對(duì)獎(jiǎng)勵(lì)模型評(píng)估具有挑戰(zhàn)性的能力,例如推理、事實(shí)性和遵循指令。通過對(duì)訓(xùn)練數(shù)據(jù)的精心構(gòu)建和驗(yàn)證,確保離線強(qiáng)化學(xué)習(xí)信號(hào)既可 Qwen2.5-1M和Qwen2.5VL發(fā)布,進(jìn)一步拓展Qwen2.5家族系列n阿里千問發(fā)布Qwen2.5-1M,通過逐步拓展上下文訓(xùn)練長(zhǎng)度、長(zhǎng)度外推和稀疏注意力機(jī)制等方式,將開源Qwen模型的上下文擴(kuò)展到1M長(zhǎng)度,在處理長(zhǎng)文本任務(wù)中都已經(jīng)實(shí)現(xiàn)穩(wěn)定超越GPT-4o-mini。阿里千問還通過分塊預(yù)填充、集成長(zhǎng)度外推方案、稀疏性優(yōu)化等優(yōu)化,將處理1M長(zhǎng)度輸入序列的預(yù)填充速度提升了3.2倍到6.7倍。n阿里Qwen開源全新的視覺模型Qwen2.5-VL,推出3B、7B和72B三個(gè)尺寸版本。其中,旗艦版Qwen2.5-VL-72B在13項(xiàng)權(quán)威評(píng)測(cè)中奪得視覺理解冠軍,全面超越GPT-4o與Claude3.5。 Qwen2.5-Max上線,性能超越DeepSeekV3n阿里千問發(fā)布大規(guī)模MoE模型Qwen2.5-Max,在超過20萬億個(gè)token上進(jìn)行預(yù)訓(xùn)練,并使用精選的監(jiān)督微調(diào)(SFT)和從人類反饋中強(qiáng)化學(xué)習(xí)(RLHF)方法進(jìn)行了進(jìn)一步的后訓(xùn)練。通過在包括MMLU-Pro(通過大學(xué)級(jí)問題測(cè)試知識(shí))、LiveCodeBench(評(píng)估編碼能力)、LiveBench(全面測(cè)試一般能力)和Arena-Hard(近似人類偏好)上進(jìn)行測(cè)試,Qwen2.5-Max在大多數(shù)基準(zhǔn)測(cè)試中都表現(xiàn)出了顯著的優(yōu)勢(shì),性能全面超越DeepSeekV3。nQwen2.5-max多模態(tài)能力方面,在聯(lián)網(wǎng)搜索、代碼、游戲制作方面均有較好表現(xiàn)。 nOpenAIo1模型可能采用PRM過程打分策略和蒙特卡洛搜索實(shí)現(xiàn)深度推理。n選擇:從根節(jié)點(diǎn)開始,算法根據(jù)特定策略瀏覽有希望的子節(jié)點(diǎn),直到到達(dá)葉節(jié)點(diǎn)為止。n擴(kuò)展:在葉子節(jié)點(diǎn)處,除非它代表了博弈的終結(jié)狀態(tài),否則會(huì)添加一個(gè)或多個(gè)可行的新子節(jié)點(diǎn),以說明未來可能采取的行動(dòng)。n模擬或評(píng)估:從新添加的節(jié)點(diǎn)開始,算法進(jìn)行隨機(jī)模擬--通常稱為“滾動(dòng)”--通過任意選擇棋步直到博弈結(jié)束,從而評(píng)估節(jié)點(diǎn)的潛力。n反向傳播:模擬后,結(jié)果(勝、負(fù)或和)會(huì)傳播回根節(jié)點(diǎn),更新每個(gè)遍歷節(jié)點(diǎn)的統(tǒng)計(jì)數(shù)據(jù)(如勝、負(fù)),為未來決策提供依據(jù)。19資料來源:深度學(xué)習(xí)自然語言處理,UnderstandingTransformerReasoningCapabilitiesviaGraphAlgorithms,Deepmind,中信建投低算力需求緣起及長(zhǎng)期算力觀點(diǎn)20nDeepSeekMoE在專家模型的設(shè)計(jì)上引入了共享專家+路由專家的架構(gòu),并采用無輔助損失的負(fù)載均衡策略,使得計(jì)算資源分配更加高效。DeepSeekMoE由256個(gè)路由專家組成,每個(gè)token在路由過程中會(huì)選擇8個(gè)專家,其中共享專家始終被選中,其余7個(gè)專家通過門控機(jī)制選擇。DeepSeek-V3共包含671B個(gè)參數(shù),其中每個(gè)token激活37B個(gè)參數(shù),訓(xùn)練數(shù)據(jù)量為14.8Ttoken。同時(shí)額外引入了一種無輔助損失的負(fù)載平衡策略以減輕因確保負(fù)載平衡而導(dǎo)致的性能下降。nDeepseekV2模型參數(shù)量達(dá)到236B,同時(shí)由于模型小專家混合的特性,模型每個(gè)token在推理時(shí)的激活參數(shù)為21B,可以實(shí)現(xiàn)高推理速度。模型的核心優(yōu)化點(diǎn)多頭隱式注意力顯著降低了訓(xùn)練和推理成本。在成本效率方面,相比V1的稠密模型,V2模型節(jié)約了42.5%的訓(xùn)練成本,減少了推理時(shí)93.3%的KV-cache顯存占用,將生成的吞吐量也提升到了原來的5.76倍。 21資料來源:DeepSeek-V3TechnicalReport,DeepSeek-V2:AStrong,Economical,andEfficientMixture-of-ExpertsLanguageModel,中信建投nDeepseek提出了一種用FP8訓(xùn)練的混合精度框架。在不同計(jì)算步驟中使用FP8、BF16、FP32三種不同的數(shù)值格式,以在計(jì)算效率和數(shù)值穩(wěn)定性之間取得平衡。大多數(shù)計(jì)算密集型操作以FP8進(jìn)行,與線性算子相關(guān)的所有三個(gè)核心計(jì)算內(nèi)核操作,即Fprop(前向傳播)、Dgrad(激活反向傳播)和Wgrad(權(quán)重反向傳播)均以FP8執(zhí)行,而少數(shù)關(guān)鍵操作則策略性地保持其原始數(shù)據(jù)格式例如嵌入模塊、輸出頭、MoE門控模塊、歸一化算子和注意力算子,以平衡訓(xùn)練效率和數(shù)值穩(wěn)定性。n為了實(shí)現(xiàn)混合精度FP8訓(xùn)練,deepseek引入了多種策略來提升低精度訓(xùn)練的準(zhǔn)確性,其中包括細(xì)粒度量化、提高累加精度、尾數(shù)優(yōu)先于指數(shù)、在線量化等策略。細(xì)粒度量化的辦法幫助FP8精度實(shí)現(xiàn)訓(xùn)練,傳統(tǒng)的方法基于整個(gè)張量進(jìn)行縮放,而細(xì)粒度量化則采用更小的分組單位,使得量化過程能夠更好地適應(yīng)離群值,從而提高訓(xùn)練的穩(wěn)定性和精度。原始矩陣傳統(tǒng)方法量化結(jié)果原始矩陣細(xì)粒度量化結(jié)果2*2block采用不同的權(quán)重細(xì)粒度量化結(jié)果資料來源:DeepSeek-V3TechnicalReport,中信建投低成本緣由三:流水線并行策略提升訓(xùn)練效率nDeepSeek-V3采用了16路管道并行(PP)、跨越8個(gè)節(jié)點(diǎn)的64路專家并行(EP)以及ZeRO-1數(shù)據(jù)并行(DP)。nDualPipe是一種新型的流水線并行方法,旨在減少計(jì)算和通信之間的等待時(shí)間,提高訓(xùn)練效率。傳統(tǒng)流水線并行方法的計(jì)算和通信比率通常接近1:1,這意味著一半的時(shí)間可能被通信占據(jù),導(dǎo)致GPU資源利用率低下。DualPipe通過計(jì)算-通信重疊來隱藏通信開銷,使得模型在大規(guī)模分布式環(huán)境下的訓(xùn)練更加高效。在DualPipe中,前向傳播的計(jì)算任務(wù)和反向傳播的計(jì)算任務(wù)被重新排序,使它們能夠互相重疊。具體來說,DualPipe將前向傳播和反向傳播的不同計(jì)算階段重新排列,并手動(dòng)調(diào)整GPU計(jì)算單元在通信和計(jì)算之間的分配比例。 Dualpipe策略傳統(tǒng)策略資料來源:DeepSeek-V3TechnicalReport,中信建投nDeepseek高效配置專家分發(fā)與跨節(jié)點(diǎn)通信,實(shí)現(xiàn)最優(yōu)效率??绻?jié)點(diǎn)的GPU通過InfiniBand(IB)完全互連,節(jié)點(diǎn)內(nèi)的通信則通過NVLink處理。NVLink提供160GB/s的帶寬,大約是IB(50GB/s)的3.2倍。為了有效利用IB和NVLink的不同帶寬,將每個(gè)token分發(fā)的節(jié)點(diǎn)數(shù)限制為最多4個(gè),從而減少IB流量。具體而言每個(gè)token可以高效地選擇每個(gè)節(jié)點(diǎn)平均3.2個(gè)專家,而不會(huì)產(chǎn)生NVLink的額外開銷。nDeepseek采用了定制的PTX(并行線程執(zhí)行)指令,并自動(dòng)調(diào)整通信塊大小,這顯著減少了L2緩存的使用和對(duì)其他SM的干擾。在模型訓(xùn)練的分發(fā)和合并過程中,通過warp專業(yè)化技術(shù),并將20個(gè)SM劃分為10個(gè)通信通道,實(shí)現(xiàn)了最佳的計(jì)算和通信資源配比。專家一專家四專家一專家四專家二專家五專家二專家五專家三專家六專家三專家六資料來源:中信建投nDeepSeek-V3通過多token預(yù)測(cè)(MTP)技術(shù)不僅預(yù)測(cè)下一個(gè)token,還預(yù)測(cè)接下來的2個(gè)token,第二個(gè)token預(yù)測(cè)的接受率在不同生成主題中介于85%到90%之間。n一方面,多token預(yù)測(cè)目標(biāo)增加了訓(xùn)練信號(hào)的密度,可能提高數(shù)據(jù)效率。另一方面,多token預(yù)測(cè)可能使模型能夠預(yù)先規(guī)劃其表示,以更好地預(yù)測(cè)未來token。 25資料來源:DeepSeek-V3TechnicalReport,中信建投nDeepSeekR1模型整體效果優(yōu)異,同時(shí)訓(xùn)練和推理算力需求較低,主要原因是DeepSeekR1實(shí)現(xiàn)了算法、框架和硬件的優(yōu)化協(xié)同,在諸多維度上進(jìn)行了大量?jī)?yōu)化,算法層面引入專家混合模型、多頭隱式注意力、多token預(yù)測(cè),框架層面實(shí)現(xiàn)FP8混合精度訓(xùn)練,硬件層面采用優(yōu)化的流水線并行策略,同時(shí)高效配置專家分發(fā)與跨節(jié)點(diǎn)通信,實(shí)現(xiàn)最優(yōu)效率配置。n當(dāng)前階段大模型行業(yè)正處于從傳統(tǒng)的生成式模型向深度推理模型過渡階段,算力的整體需求也從預(yù)訓(xùn)練階段逐步過渡向后訓(xùn)練和推理側(cè),通過大量協(xié)同優(yōu)化,DeepSeekR1在特定發(fā)展階段通過較少算力實(shí)現(xiàn)高性能模型表現(xiàn),算力行業(yè)的長(zhǎng)期增長(zhǎng)邏輯并未受到挑戰(zhàn)。過去的預(yù)訓(xùn)練側(cè)的scalinglaw正逐步邁向更廣闊的空間,在深度推理的階段,模型的未來算力需求依然會(huì)呈現(xiàn)爆發(fā)式上漲,充足的算力需求對(duì)于人工智能模型的性能進(jìn)步依然至關(guān)重要。資料來源:英偉達(dá),OpenAI,中信建投資料來源:英偉達(dá),OpenAI,中信建投相關(guān)問答案例27模型案例對(duì)比——開關(guān)控制燈泡問題n開關(guān)控制燈泡問題:兩個(gè)房子互為隔壁,一個(gè)房子中的三個(gè)開關(guān)控制另一個(gè)房子的三盞燈。你只能各進(jìn)入這二個(gè)房子一次,怎么來判斷哪個(gè)開關(guān)控制哪蓋燈??Kimi1.5?DeepseekR1?Qwen2.5先在第一個(gè)房子里,依次打1.操作開關(guān):首先,進(jìn)入裝有三個(gè)開關(guān)的房這是一個(gè)經(jīng)典的燈泡—開關(guān)散開開關(guān)1,保持幾分鐘后關(guān)-進(jìn)入開關(guān)房,打開開子。假設(shè)這三個(gè)開關(guān)分別為A、熱邏輯問題,常見的解決方法掉;接著打開開關(guān)2,保持關(guān)A并保持足夠時(shí)間B和C。然后,打開開關(guān)A和B,是利用燈泡“加熱和”的時(shí)間幾分鐘后關(guān)掉;最后打開開并保持開關(guān)C關(guān)閉。在等待期間,差相互區(qū)分。具體步驟關(guān)3,保持幾分鐘后關(guān)掉。不要立即進(jìn)入另一個(gè)房子,確1.先打開開關(guān)A一段時(shí)間,這樣,每個(gè)開關(guān)都會(huì)在燈上-關(guān)閉開關(guān)A,立即打保給燈泡足夠的時(shí)間變熱。時(shí)2.到時(shí)間后,關(guān)閉開關(guān)A,并留下不同的狀態(tài)。然后,我開開關(guān)B,然后離開開間到了之后,進(jìn)入裝有燈泡的且打開開關(guān)B,保持開關(guān)C關(guān)閉進(jìn)入第二個(gè)房子,檢查每盞房子。通過這種方法,你可以燈的狀態(tài)。如果一盞燈是亮2.觀察燈房:準(zhǔn)確地確定每個(gè)開關(guān)對(duì)應(yīng)的是3.做完上述操作后,離開“切的,那它就是由最后一個(gè)被-亮的燈:對(duì)應(yīng)開關(guān)B哪盞燈。具體來說,亮著且熱換所在的房間”打開的開關(guān)控制的;如果一(當(dāng)前開啟的開關(guān))。的燈對(duì)應(yīng)的是第一個(gè)被單獨(dú)測(cè)試的開關(guān)(本例中為了說明設(shè)正在點(diǎn)亮的燈泡就是由開關(guān)B那它就是由之前被打開的開為B,但實(shí)際上你需要根據(jù)實(shí)際控制的;已經(jīng)熄滅但仍然熱的關(guān)控制的;如果一盞燈是暗打開后關(guān)閉,余溫尚情況判斷),熱但熄滅的燈對(duì)燈泡就是由開關(guān)A控制的;既的且摸起來是涼的,那它就應(yīng)于中間被關(guān)閉的開關(guān)(A不亮也不熱的燈泡就是由開關(guān)是由第一個(gè)被打開的開關(guān)控而冷且熄滅的燈則是從未被打C控制。這樣,就在只進(jìn)入燈未操作的開關(guān)C。資料來源:DeepSeek,通義千問,Kimi,OpenAI,中信建投模型案例對(duì)比——囚犯抓豆子博弈n囚犯抓豆子博弈:5個(gè)“囚犯”分別按1~5號(hào)在裝有100顆綠豆的麻袋里抓綠豆,規(guī)定每人至少抓一顆,而抓的最多和最少的人將被處死,若有重復(fù)的情況,則也算最大或最小,一并處死。他們之間不能交流,但在抓的時(shí)候,可以摸出剩下的豆子數(shù)。原則:100顆不必都分完;他們的原則是優(yōu)先保命,再去多殺人;他們都足夠聰明。最后,誰能活下來?但在沒有溝通的情況下,最合理但在沒有溝通的情況下,最合理和安全的做法可能是:1號(hào):選擇一個(gè)保守的數(shù)量,如20顆,因?yàn)?號(hào):看到1號(hào)的選擇后,選擇比20稍少的數(shù)量,例如19顆。3號(hào):看到前兩者的行動(dòng)后,可能會(huì)選選擇17顆。5號(hào):最后,他將看到前面的所有選擇,并選擇一個(gè)保證他不成為最大或最小的數(shù)目。在這種情況下,每個(gè)人的策略都將依賴于之前人的選擇,而最終結(jié)果將是每個(gè)人都選擇了不同的數(shù)量,但差距不大,因此理論上,所以,我的結(jié)論是,最終可能會(huì)有幾個(gè)人活下來,具體是誰取決于他們選擇的豆子數(shù),但因?yàn)槊總€(gè)人都很聰明,所以他們都會(huì)盡量避免成為最大或最小的那個(gè),從而保命。最終,可能有幾個(gè)人活在“先保命、再多殺人的共同理性與不能直接溝通的條件下,這個(gè)問1號(hào)、4號(hào)、5號(hào)被處死。最常見、最穩(wěn)妥的結(jié)論就是:1號(hào)和5號(hào)必死,4號(hào)也大概率跟隨死,只有2號(hào)和3號(hào)才能找到一個(gè)安全且讓別人去死”括第2號(hào),具體分析如下:逆向推理:從最后一位(5號(hào))開始,每位囚犯會(huì)),號(hào)抓20顆(剩余593號(hào)抓19顆(剩),),),),3、4號(hào)通過選擇20、19、18顆,避端值。5號(hào)因剩余豆子數(shù)限制,無法逃脫最小值的命運(yùn)。1號(hào)主動(dòng)選擇略高于資料來源:DeepSeek,通義千問,Kimi,OpenAI,中信建投模型案例對(duì)比——邏輯謎題n邏輯謎題:兩個(gè)同學(xué)被老師出了一個(gè)題目,在限定時(shí)間,誰能夠成功猜到是哪個(gè)日期會(huì)有獎(jiǎng)勵(lì)。首先老師給出了十個(gè)日期:5月16、5月17、5月19、6月15、6月18、7月14、7月16、8月14、8月15、8月17,然后告訴了A月份,告訴了B幾號(hào)。老師知道他們不會(huì)將知道的告訴對(duì)方。限定時(shí)間準(zhǔn)備到了的時(shí)候,A大笑說:“反正我是猜不出來,因?yàn)槲液艽_定你也猜不出來”。突然b站起來開了門跑了出去,A才恍然大悟“我也猜出來了”,但是已經(jīng)晚了。請(qǐng)問日期是多少??GPT-o1這是一個(gè)著名的“猜測(cè)日期?GPT-o1這是一個(gè)著名的“猜測(cè)日期”類邏輯題,常被稱為“謝麗爾的生日”變體。給出了10個(gè)可能的日期:>5月16日、5月17日、5月19日>6月15日、6月18日>7月14日、7月16日>8月14日、8月15日、8月17日老師告“我肯定猜不出來,而且我也確定你(B)猜不出來?!?.B聽完后說:“現(xiàn)在我知道是哪一天了。”3.A又說:“我現(xiàn)答案是7月16日。?DeepseekR1(19、18)唯一,若B知道這些日數(shù),可直接確定月份。因此,A的月份不可能是5月或6月。A知道月份是7月或8月,但無法確定具體日期。B根據(jù)A的陳述,知A的月份為7月或8月。A的最終確認(rèn):若B猜出的是7月16日:A知道月份是7月,剩余日期為14和16。因B已確定,故排猜出的是8月15或17日,A無法唯一確定(因8月仍有多個(gè)可能)。因此,唯一符合邏輯的是7月16日。?qwen2.5A說的這句話意味著A知道的月份中包含的所有日子都不是唯一的(即在其他月份也出現(xiàn)否則如果A知道的月份中的某天是獨(dú)一無二的(比如只有某個(gè)月有這個(gè)日期),那么A不能確定地說B不知道答案。由于B能夠確定具體日期,所以B知道的日期只能是16日或17日。而A聽到B的回答后也明白了日期,說明A知道的月份里只剩下一種可能性。如果我們看剩下的日期,5月有兩個(gè)可能(16日和17日),而7月只有一個(gè)16日。因此,A能明確知?Kimi1.5A說他猜不出來,而且確定B也猜不出來。這意味著A知道的月份里,所有的日期都不是唯一的。A知道的月份只能是7月或8月。B聽到A的話后,突然逃了出去。這說明B根據(jù)A的話,猜出了日期。所以,B知道的日期只能是16、15或17中的一個(gè)。因?yàn)?6只有7月有,15和17只有8月有。B聽到A的話后,突然逃了出去,說明B確定了具體是哪一天。因此,日期應(yīng)該是7月16、8月15或8月17中的一個(gè)。最終答案是:7月16、8月15或8月17中的一個(gè)。資料來源:DeepSeek,通義千問,Kimi,OpenAI,中信建投模型案例對(duì)比——盲人分襪n盲人分襪:有兩位盲人,他們都各自買了兩對(duì)黑襪和兩對(duì)白襪,八對(duì)襪子的布質(zhì)、大小完全相同,而每對(duì)襪子都有一張商標(biāo)紙連著。兩位盲人不小心將八對(duì)襪子混在一起。他們每人怎樣才能分別取回兩對(duì)黑襪和兩對(duì)白襪呢?給出一種“給出一種“經(jīng)典拆對(duì)-重組”的方法來解決這個(gè)“不可能”的難題。其要點(diǎn)是:雖然兩個(gè)盲人都看不見顏色,但每個(gè)“對(duì)”襪子上都帶有一份可以摸到的商標(biāo)紙上,讓他們?cè)诓僮鲿r(shí)始終知道“哪只襪子到底和哪只圖案對(duì)應(yīng)”。通過把幾對(duì)襪子拆開、打亂、重新安裝,并按一定規(guī)則交換,最后便可保證每個(gè)人都拿回“2對(duì)黑襪+2”對(duì)白襪”(當(dāng)然,不一定是自己理解的那幾對(duì),但數(shù)量和顏色都對(duì))被拆散。這樣,每個(gè)組都將包含4對(duì)襪子。因?yàn)榭偣灿?對(duì)襪子,分為兩組后,每一組自然就會(huì)有4對(duì)兩位盲人各自取四對(duì)襪子(共八對(duì)將每對(duì)襪子拆開成單只。每人獲得八只襪子(四黑四白),隨機(jī)重新配對(duì)后,必然形成兩對(duì)黑襪和兩對(duì)白答案:每位盲人各取四對(duì)襪子,拆開后重新隨機(jī)配對(duì),每人即可得到兩對(duì)黑襪和兩資料來源:DeepSeek,通義千問,Kimi,OpenAI,中信建投模型案例對(duì)比——數(shù)字推理n數(shù)字推理:2,1,32,249。冪次數(shù)列,1的1次方+1,2的2次方-3,3的3次方+5,4的4次方-7,依次類推,下位數(shù)字為5的5次方+9,即3134。?DeepseekR?DeepseekR1遞推規(guī)律:n=1:2=2^1n=2:1=1^1n=3:32=2^5n=4:249=3^5+6n=5:4^5+12=1024+12=1036答案:括號(hào)內(nèi)應(yīng)填1036。?qwen2.5直接從這些數(shù)字中找到一個(gè)明顯的數(shù)學(xué)規(guī)律可能不容易,因此我們可以嘗試不同的方法來解析這個(gè)序列。一種常見的策略是考慮數(shù)字是否可以通過某種運(yùn)算或者公式從它們的位置(即在序列中的索引)計(jì)算得出。……但在實(shí)際情況下,如果這是一個(gè)邏輯推理題,最可能的情況是設(shè)計(jì)者期望我們發(fā)現(xiàn)一個(gè)特定但不我們無法提供一個(gè)確切的答案。如果你有更多的上下文或者是這個(gè)序列屬于某一類特殊數(shù)列,請(qǐng)?zhí)峁└嘈畔⒁员阌诟鼫?zhǔn)確地解答。?GPT-o1?第1項(xiàng):11+1=21^1+1=211+1=2?第2項(xiàng):22-3=4-3=12^2-3=4-3=122-3=4-3=1?第3項(xiàng):33+5=二十七+5=三十二3^3+5=27+5=3233+5=二十七+5=三十二?第4項(xiàng):44-7=256-7=2494^4-7=256-7=24944-7=256-7=249可以看出,“奇數(shù)項(xiàng)”為nn+(2n-1)n^n+(2n-1)nn+(2n-1“偶nn-(2n-1)n^n-(2n-1)nn-(2n-1)因此。55+(2×5-1)t55+×5-1)=3125+9=3134。所以中間的數(shù)字是3134。?Kimi1.5計(jì)算差值->計(jì)算第二次差值->計(jì)算第三次差值->假設(shè)多項(xiàng)式->建立方程組->從方程1中減去方程2->從方程2中減去方程3->從方程3中減去方程4->從方程A中減去方程B->從方程B中減去方程C->從方程D中減去方程E->將a代入方程D->將a和b代入方程A->將a、b和c代入方程1->多項(xiàng)式為:f(5)=806資料來源:DeepSeek,通義千問,Kimi,OpenAI,中信建投風(fēng)險(xiǎn)提示33風(fēng)險(xiǎn)提示大模型技術(shù)發(fā)展不及預(yù)期:大模型屬于先進(jìn)AI算法,若后續(xù)大模型算法更新迭代效果不及預(yù)期,則會(huì)影響大模型演進(jìn)及拓展,進(jìn)而會(huì)影響其商業(yè)化落地等;商業(yè)化落地不及預(yù)期:大模型的商業(yè)落地模式在業(yè)界中普遍處于探索階段,用戶對(duì)于大模型的接受程度和商業(yè)化變現(xiàn)能力可能不及預(yù)期;算力基礎(chǔ)設(shè)施支持不及預(yù)期:美國(guó)制裁中國(guó)高科技企業(yè),對(duì)中國(guó)形成芯片、算力的封鎖,大語言模型訓(xùn)練過程中需要大量算力資源,需要關(guān)注中美關(guān)系帶來的算力的壓力;政策監(jiān)管力度不及預(yù)期:大語言模型帶來新的網(wǎng)絡(luò)生態(tài)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 項(xiàng)目評(píng)審表范表
- 四年級(jí)數(shù)學(xué)幾百幾十?dāng)?shù)乘以一位數(shù)綜合監(jiān)控口算題帶答案
- 讀書建議書范文
- 面試自我介紹范文集錦15篇
- 采購(gòu)部半年工作總結(jié)
- 幾百幾十加減幾百幾十綜合考核口算題大全附答案
- 鐵路班組長(zhǎng)心得體會(huì)
- 藥物管理和使用
- 新中式高層居住區(qū)規(guī)劃文本
- 中國(guó)飲食文化知到課后答案智慧樹章節(jié)測(cè)試答案2025年春山東農(nóng)業(yè)大學(xué)
- 中醫(yī)診所勞動(dòng)合同6篇
- 充電樁維保投標(biāo)方案
- 力與運(yùn)動(dòng)的關(guān)系(專題訓(xùn)練)【三大題型】(解析版)-八年級(jí)物理下冊(cè)
- 煤氣泄漏中班安全
- UL1332標(biāo)準(zhǔn)中文版-2020戶外設(shè)備鋼外殼用有機(jī)涂料UL標(biāo)準(zhǔn)中文版
- 2024年10月自考00149國(guó)際貿(mào)易理論與實(shí)務(wù)試題及答案
- 大數(shù)據(jù)與會(huì)計(jì)專業(yè)專業(yè)的實(shí)習(xí)報(bào)告
- 招標(biāo)基礎(chǔ)知識(shí)題庫(kù)單選題100道及答案解析
- 中專實(shí)習(xí)協(xié)議書
- 550GIS技術(shù)講課課件
- (2023版)機(jī)動(dòng)車駕駛培訓(xùn)教學(xué)與考試大綱
評(píng)論
0/150
提交評(píng)論