




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
中文大模型基準(zhǔn)測(cè)評(píng)2025年3月報(bào)告—2025中文大模型階段性進(jìn)展3月評(píng)估SuperCLUE團(tuán)隊(duì)2025.03.18精準(zhǔn)量化通用人工智能(AGI)進(jìn)展,定義人類邁向AGI的路線圖AccuratelyquantifyingtheprogressofAGI,definingtheroadmapforhumanity'sjourneytowardsAGI.報(bào)告目錄一、2025年度關(guān)鍵進(jìn)展及趨勢(shì)?2025年大模型關(guān)鍵進(jìn)展?2025年值得關(guān)注的中文大模型全景圖?2025年國(guó)內(nèi)外大模型差距三、總體測(cè)評(píng)結(jié)果與分析?SuperCLUE通用能力測(cè)評(píng)總榜?SuperCLUE模型象限?SuperCLUE推理模型總榜?SuperCLUE推理任務(wù)總榜?SuperCLUE基礎(chǔ)模型總榜?性價(jià)比區(qū)間分布?綜合效能區(qū)間分布?國(guó)內(nèi)大模型成熟度-SC成熟度指數(shù)?評(píng)測(cè)與人類一致性驗(yàn)證?開源模型榜單?10B級(jí)別小模型榜單?端側(cè)5B級(jí)別小模型榜單二、年度通用測(cè)評(píng)介紹?SuperCLUE基準(zhǔn)介紹?SuperCLUE大模型綜合測(cè)評(píng)體系?SuperCLUE通用測(cè)評(píng)基準(zhǔn)數(shù)據(jù)集及評(píng)價(jià)方式?各維度測(cè)評(píng)說明及示例?測(cè)評(píng)模型列表四、DeepSeek系列模型深度分析?DeepSeek-R1及其蒸餾模型對(duì)比?DeepSeek-R1和國(guó)內(nèi)外頭部推理模型對(duì)比?DeepSeek-R1第三方平臺(tái)聯(lián)網(wǎng)搜索能力測(cè)試(網(wǎng)頁(yè)端)?DeepSeek-R1第三方平臺(tái)穩(wěn)定性測(cè)試報(bào)告摘要(一)?o3-mini(high)穩(wěn)居第一,推理能力全面領(lǐng)先o3-mini(high)在SuperCLUE-3月評(píng)測(cè)中表現(xiàn)卓越,以76.01分和84.51分穩(wěn)居總榜和推理任務(wù)總榜第一,雙榜均領(lǐng)先國(guó)內(nèi)第一近5分,展現(xiàn)出?推理模型較基礎(chǔ)模型優(yōu)勢(shì)明顯,且國(guó)內(nèi)較海外頭部推理模型略有領(lǐng)先國(guó)內(nèi)模型推理DeepSeek-R1在總榜上領(lǐng)先Claude3.7任務(wù)榜單上領(lǐng)先Gemini-2.0-Flash-Thinking?大模型在推理速度和性價(jià)比的兩級(jí)分化逐漸明顯國(guó)內(nèi)推理模型DeepSeek-R1和QwQ-32B雖然推理任務(wù)上表現(xiàn)出色,但推理時(shí)間也隨之變長(zhǎng);在性價(jià)比方面,DeepSeek、Qwen系列模型具有極高的性價(jià)比優(yōu)勢(shì),但Claude3.7Sonnet由于?小參數(shù)模型表現(xiàn)超出預(yù)期多款開源小參數(shù)量模型展現(xiàn)出驚人潛力。尤其是DeepSeek-R1-Distill系列,其中7B和3數(shù)據(jù)來源:SuperCLUE,2025年3月18日;推理任務(wù)得分為推理任務(wù)總分:數(shù)學(xué)推理、數(shù)據(jù)來源:SuperCLUE,2025年3月18日??茖W(xué)推理和代碼的平均分。開源模型如QwQ-數(shù)據(jù)來源:SuperCLUE,2025年3月18日。輸入tokens與輸出tokens3:1的比例來估算其整體價(jià)格。價(jià)格信息取自官方在3月的標(biāo)準(zhǔn)價(jià)格(非優(yōu)惠價(jià)格)。45第1部分2025年度關(guān)鍵進(jìn)展及趨勢(shì)1.2025年大模型關(guān)鍵進(jìn)展2.2025年值得關(guān)注的中文大模型全景圖3.2025年國(guó)內(nèi)外大模型差距62025年大模型關(guān)鍵進(jìn)展具體可分為:準(zhǔn)備期、躍進(jìn)期、繁榮期和深化期。關(guān)鍵進(jìn)展?ChatGPT發(fā)布,全球范圍內(nèi)迅速形成大模型共識(shí)。?GPT4發(fā)布,進(jìn)一步掀起大模型研發(fā)熱潮。?國(guó)內(nèi)快速跟進(jìn)大模型研發(fā)。文心一言腦、ChatGLM等首批模型相繼發(fā)布。開發(fā)者生態(tài)。?GPT-4Turbo、Gemini等海外大模型發(fā)布,繼續(xù)提升模型性能。元、商量3.0、盤古3.0、AndesGPT、BlueLM、星火3.0等陸續(xù)發(fā)布。Yi-34B等系列模型引領(lǐng)開源熱潮。視頻領(lǐng)域的想象力。入“一超多強(qiáng)”的競(jìng)爭(zhēng)格局。續(xù)發(fā)布,并在海外取得較大應(yīng)用進(jìn)展。?國(guó)內(nèi)通用模型持續(xù)提升。Qwen2.5、型陸續(xù)更新。前者推動(dòng)成本效益推理,后者展現(xiàn)出較高的情感智能。Claude-3.7-Sonnet、Grok3發(fā)布,海外推理模型引發(fā)熱潮,推理性能大幅度提升。破推理能力的上限。勢(shì)持續(xù)推動(dòng)行業(yè)技術(shù)普惠化進(jìn)程。2022.12時(shí)間通用閉源AndesGPTZTE中興MINIMAX通用開源Deepseek-v3Hunyuan-LargeMiniMax-01TeleChat2-35B推理Qwen-QWQ-32BDeepSeek-R1K1.5長(zhǎng)思考360gpt2-o1實(shí)時(shí)交互星火極速智譜清言通義APP視覺理解視覺理解訊飛語(yǔ)音合成百度TTSCosyVoice文生圖部分領(lǐng)域醫(yī)療BA醫(yī)聯(lián)MedGPTJli百川AI全科醫(yī)生......教育汽車極氪Kr大模型易車大模型教育汽車極氪Kr大模型易車大模型金融妙想金融大模型軒轅大模型......工業(yè)奇智孔明AInno-15B華為盤古工業(yè)大模型......更多行業(yè)法律:AI4S:DP'深勢(shì)分子大模型......82025年國(guó)內(nèi)外大模型差距?總體趨勢(shì)上,國(guó)內(nèi)外第一梯隊(duì)大模型在中文領(lǐng)域的通用能力差距正在縮小。2023年5月至今,國(guó)內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最但隨著DeepSeek–R1的發(fā)布,差距從15.05%縮小至7.46%。SuperCLUE基準(zhǔn):過去23個(gè)月國(guó)內(nèi)外TOP大模型對(duì)比趨勢(shì)GPT最新模型(GPT3.5、4、4-Turbo、4o、o1、o3-mini、GPT-4.5)76.6778.7670.8981.0383.2087.0889.7990.6392.7179.1381.0079.6775.8580.476.01國(guó)內(nèi)TOP153.5863.5362.0060.0262.7570.7474.0279.0287.7573.3277.0078.6469.6468.370.34國(guó)內(nèi)TOP249.5262.5859.3555.7062.6170.4272.8876.5486.7772.5876.0076.2469.0068.366.38國(guó)內(nèi)TOP346.4559.8058.0253.4362.1269.5771.8775.0485.7072.4576.0074.6368.9167.464.69來源:SuperCLUE,2023年5月~2025年3月,期間發(fā)布的15次大模型基9第2部分年度通用測(cè)評(píng)介紹1.SuperCLUE基準(zhǔn)介紹2.SuperCLUE大模型綜合測(cè)評(píng)體系3.SuperCLUE通用測(cè)評(píng)基準(zhǔn)數(shù)據(jù)集及評(píng)價(jià)方式4.各維度測(cè)評(píng)說明及示例5.測(cè)評(píng)模型列表SuperCLUE基準(zhǔn)介紹LanguageUnderstandingEvaluation)發(fā)起于2019年,陸續(xù)推出過CLUE、FewCLUE、ZeroCLUE等廣為引用的測(cè)評(píng)基準(zhǔn)。201920202021202220232024.01-062024.07-09CLUE基準(zhǔn)發(fā)布發(fā)布多篇頂會(huì)論文,并承辦了NLPCC2020開放測(cè)評(píng)任務(wù)發(fā)布FewCLUE、DataCLUE、ZeroCLUE等多個(gè)知名測(cè)評(píng)基準(zhǔn)聯(lián)合西湖大學(xué)發(fā)布DataCentricAI;發(fā)布SimCLUE大規(guī)模中文語(yǔ)義中文領(lǐng)域首個(gè)通用大模型測(cè)評(píng)基準(zhǔn)SuperCLUE正式發(fā)布理解數(shù)據(jù)集發(fā)布首個(gè)中文多輪開放式測(cè)評(píng)基準(zhǔn)SuperCLUE-Open;發(fā)布行業(yè)測(cè)評(píng)基準(zhǔn)發(fā)布數(shù)學(xué)、代碼、長(zhǎng)文本、RAG等測(cè)評(píng)基準(zhǔn);發(fā)布文生視頻、文生圖、視覺理解等多模態(tài)測(cè)評(píng)基準(zhǔn)發(fā)布AI編程助手、實(shí)時(shí)交互等AI應(yīng)用測(cè)評(píng)基準(zhǔn);發(fā)布智能座艙測(cè)評(píng)基準(zhǔn)。發(fā)布鏈?zhǔn)酵评?、小學(xué)奧數(shù)等推理測(cè)評(píng)基準(zhǔn);發(fā)布多輪可執(zhí)行智能體測(cè)評(píng)基準(zhǔn)AgentCLUE發(fā)布數(shù)學(xué)競(jìng)賽、科學(xué)推推理測(cè)評(píng)基準(zhǔn);發(fā)布實(shí)時(shí)音視頻、視覺語(yǔ)言多模態(tài)測(cè)評(píng)基準(zhǔn)發(fā)布DeepSeek第三方平臺(tái)性能基準(zhǔn)VSSupe\\“Live”更新,“Live”更新,0數(shù)據(jù)污染測(cè)評(píng)題庫(kù)每2個(gè)月100%替換且全部原創(chuàng),杜絕過擬合風(fēng)險(xiǎn)。體系維度根據(jù)大模型進(jìn)展Live更新。測(cè)評(píng)方式與用戶交互一致測(cè)測(cè)評(píng)方式與用戶交互一致測(cè)評(píng)方法與用戶交互方式保持一致,測(cè)評(píng)任務(wù)貼近真實(shí)落地場(chǎng)景,高度還原用戶視角。獨(dú)立第三方,無自家模型獨(dú)立第三方,無自家模型諾提供無偏倚的客觀、中立評(píng)測(cè)結(jié)果。SuperCLUE大模型綜合測(cè)評(píng)體系重要參考。SuperCLUE大模型綜合測(cè)評(píng)基準(zhǔn)框架通用基準(zhǔn)文本專項(xiàng)基準(zhǔn)多模態(tài)基準(zhǔn)推理基準(zhǔn)通用基準(zhǔn)文本專項(xiàng)基準(zhǔn)多模態(tài)基準(zhǔn)推理基準(zhǔn)AI產(chǎn)品AI產(chǎn)品AgentCLUE已發(fā)布即將發(fā)布注:通用基準(zhǔn)介紹可在報(bào)告中查看,其余可點(diǎn)擊可跳轉(zhuǎn)最新的測(cè)評(píng)文章SuperCLUE通用測(cè)評(píng)基準(zhǔn)數(shù)據(jù)集及評(píng)價(jià)方式本次2025年3月報(bào)告聚焦通用能力測(cè)評(píng),由六大維度構(gòu)成。題目均為原創(chuàng)新題,總量為1509道多輪簡(jiǎn)答題?!維uperCLUE通用數(shù)據(jù)集】分為數(shù)學(xué)推理、科學(xué)推理、代碼生成、智能體Agent、精確指令遵循、文本理解與創(chuàng)作;【SuperCLUE評(píng)價(jià)方式】分為基于人工校驗(yàn)參考答案的評(píng)估(0–1得分)、基于代碼單元測(cè)試的評(píng)估(0–1得分)、結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對(duì)的評(píng)估(0–1得分)、基于規(guī)則腳本的評(píng)估(0–1得分)、人工校驗(yàn)參考答案的、多維度評(píng)價(jià)標(biāo)準(zhǔn)的評(píng)估。SuperCLUE通用基準(zhǔn)數(shù)據(jù)集及評(píng)價(jià)方式1.數(shù)學(xué)推理介紹:主要考察模型運(yùn)用數(shù)學(xué)概念和邏輯進(jìn)行多步推理和問題解答的能力。包括但不限于平面幾何、代數(shù)、初等數(shù)論、組合問題等競(jìng)賽級(jí)的數(shù)學(xué)推理數(shù)據(jù)集。評(píng)價(jià)方式:基于人工校驗(yàn)參考答案的評(píng)估(0-1得分)4.智能體Agent介紹:主要考察在中文場(chǎng)景下基于可執(zhí)行的環(huán)境,LLM作為執(zhí)行代理,在多輪對(duì)話中調(diào)用工具完成任務(wù)的能力。包括兩大任務(wù)類型:常規(guī)單輪對(duì)話和常規(guī)多輪對(duì)話。評(píng)價(jià)方式:結(jié)合任務(wù)完成與否、系統(tǒng)狀態(tài)比對(duì)的評(píng)2.科學(xué)推理介紹:主要考察模型在跨學(xué)科背景下理解和推導(dǎo)因果關(guān)系的能力。包括物理、化學(xué)、生物等在內(nèi)的研究生級(jí)別科學(xué)數(shù)據(jù)集。評(píng)價(jià)方式:基于人工校驗(yàn)參考答案的評(píng)估(0-1得分)5.精確指令遵循介紹:主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),精確地呈現(xiàn)要求的數(shù)據(jù)和信息。評(píng)價(jià)方式:基于規(guī)則腳本的評(píng)估(0-1得分)3.代碼生成介紹:主要考察模型在處理編程任務(wù)時(shí)理解和生成代碼的能力。HumanEval的中文升級(jí)版,涵蓋數(shù)據(jù)結(jié)構(gòu)、基礎(chǔ)算法、數(shù)學(xué)問題、數(shù)據(jù)科學(xué)等多種類型的代碼數(shù)據(jù)集。評(píng)價(jià)方式:基于代碼單元測(cè)試的評(píng)估(0-1得分)6.文本理解與創(chuàng)作介紹:主要考察模型在處理文本相關(guān)任務(wù)時(shí)的理解和創(chuàng)作能力。包括但不限于文本摘要、閱讀理解、指代消解、長(zhǎng)文本等基礎(chǔ)語(yǔ)義理解和生成創(chuàng)作數(shù)據(jù)集。評(píng)價(jià)方式:人工校驗(yàn)參考答案的、多維度評(píng)價(jià)標(biāo)準(zhǔn)數(shù)學(xué)推理測(cè)評(píng)說明SuperCLUE–數(shù)學(xué)推理評(píng)測(cè)數(shù)據(jù)集數(shù)學(xué)推理主要考察模型運(yùn)用數(shù)學(xué)概念和邏輯進(jìn)行多步推理和問題解答的能力。包括但不限于幾何學(xué)、代數(shù)學(xué)、初等數(shù)論、概率與統(tǒng)計(jì)、三角學(xué)、數(shù)列與極限數(shù)據(jù)集。測(cè)評(píng)方法評(píng)測(cè)流程:我們采用模型評(píng)價(jià)的方式來評(píng)估大模型在【數(shù)學(xué)推理】任務(wù)上的表現(xiàn),使用高級(jí)模型(如gpt4o)判斷其回答中的最終答案和參考答案是否相符,以確認(rèn)大模型在一道問題上的正確率(正確或錯(cuò)以【代數(shù)學(xué)】任務(wù)為例,假設(shè)在一個(gè)具體的題目中,模型A的最終答案與參考答案等價(jià),則該題目的具體得分為1分;反之,假設(shè)在另一個(gè)具體的題目中,模型A的最終答案與參考問題:設(shè)?,y為實(shí)數(shù),且滿足sinz+siny=sin(a+y).求coszc+cosy的所有可能取值。<篇幅有限省略>問題及改進(jìn)的反饋意見:模型的回答邏輯清晰,步驟詳盡,且最終結(jié)論與參考答案一致??茖W(xué)推理測(cè)評(píng)說明SuperCLUE–科學(xué)推理評(píng)測(cè)數(shù)據(jù)集科學(xué)推理等在內(nèi)的研究生級(jí)別科學(xué)數(shù)據(jù)集。測(cè)評(píng)方法評(píng)測(cè)流程:我們采用模型評(píng)價(jià)的方式來評(píng)估大模型在【科學(xué)推理】任務(wù)上的表現(xiàn),使用高級(jí)模型(如gpt4o)判斷其回答中的最終答案和參考答案是否相符,以確認(rèn)大模型在一道問題上的正確率(正確或錯(cuò)以【物理】任務(wù)為例,假設(shè)在一個(gè)具體的題目中,模型A的最終答案與參考答案等價(jià),則該題目<篇幅有限省略>問題及改進(jìn)的反饋意見:AI助手的回答清晰地分解了問題,使用了器的旅行時(shí)間,并且最終結(jié)果與參考答案一致。唯一的不足是,雖然答案的精度足夠,但可以進(jìn)AI助手的最終答案為\(\boxed{4.39\,\text{年}}\),與參考答案“約4.4年”在數(shù)值上本質(zhì)一代碼生成測(cè)評(píng)說明SuperCLUE–代碼生成評(píng)測(cè)數(shù)據(jù)集代碼生成主要考察模型在處理編程任務(wù)時(shí)理解和生成代碼的能力。HumanEval的中文升級(jí)版,涵蓋數(shù)據(jù)結(jié)構(gòu)、基礎(chǔ)算法、數(shù)學(xué)問題、數(shù)據(jù)科學(xué)等多種類型的代碼數(shù)據(jù)集。測(cè)評(píng)方法評(píng)測(cè)流程:使用特定的prompt要求模型按照特定格式回答,以方便后續(xù)提取。對(duì)于一個(gè)代碼補(bǔ)全問題,每2.提取功能函數(shù):對(duì)于一個(gè)代碼補(bǔ)全問題,將提取得到的代碼和該問題對(duì)應(yīng)的N個(gè)測(cè)試用例組裝成N個(gè)可獨(dú)立運(yùn)行4.計(jì)算模型得分:對(duì)于一個(gè)代碼補(bǔ)全問題和1個(gè)測(cè)試用例,構(gòu)成一個(gè)單元測(cè)試,通過測(cè)試得1分。最終計(jì)算模型在問題:deftask_func(matrix:List[List[int]])->格的高度,該矩陣代表一個(gè)大陸的高度“北冰洋”接觸矩陣的上邊,“印度右)從一個(gè)單元流向高度更低或相等的請(qǐng)找出所有可以同時(shí)流向北冰洋和印-返回的坐標(biāo)列表應(yīng)按唯一順序排列模型回答:deftask_func(matrix:List[List[int]])->List[List[int]]:ifnotmatrixornotmatrix[0]:m,n=len(matrix),len(matrix[0can_flow_to_south=set()returifju[2]<=0:ifju[i]==0:max_amount=math.floor(ju[i]/res=math.ceil(target/max_amount)ifres>0:<篇幅有限省略>forjinrange(n):if(i,j)incan_flow_to_northand(i,j)inresult.append([i,j])智能體Agent測(cè)評(píng)說明SuperCLUE–智能體Agent數(shù)據(jù)集智能體Agent主要考察在中文場(chǎng)景下基于可執(zhí)行的環(huán)境,LLM作為執(zhí)行代理,在多輪對(duì)話中調(diào)用工具完成任務(wù)的能力。包括兩大任務(wù)類型:常規(guī)單輪對(duì)話和常規(guī)多輪對(duì)話。測(cè)評(píng)方法評(píng)測(cè)流程:我們將模型回復(fù)的函數(shù)調(diào)用進(jìn)行實(shí)際執(zhí)行后判定是如果執(zhí)行結(jié)果集2是執(zhí)行結(jié)果集1的子集,系統(tǒng)狀態(tài)1和系統(tǒng)狀態(tài)2相同則認(rèn)為模模型得分=(答對(duì)的記分單元數(shù)量/記分單?旅游出行:該工具屬于旅行系統(tǒng),該系統(tǒng)允許用戶預(yù)對(duì)于問題中的計(jì)算需求,你必須調(diào)用提供的函數(shù)第2個(gè)函數(shù)調(diào)用:get_nearest_airport_by_city(location='拉薩')【模型回復(fù)2】:[get_flight_cost(tr【模型得到的反饋2】:第1個(gè)函數(shù)調(diào)用:get_flight_cost(travel_from='HGH',travel_to='LXA',travel_date='2025-03-10',travel_class='經(jīng)濟(jì)艙'),執(zhí)行返回結(jié)果為:{"tra【模型回復(fù)3】:[book_flight(access_token="abc123xyz123",card_id="card001",travel_date="2025-03-10",travel_from="HGH",travel_to="LXA",travel_class="經(jīng)濟(jì)艙",travel_cos【模型得到的反饋3】:第1個(gè)函數(shù)調(diào)用:book_flight(accesstravel_from='HGH',travel_to='LXA',travel_class='經(jīng)濟(jì)艙',travel_cost=460.0),執(zhí)行返回結(jié)果為:{"booking_id": <篇幅有限省略其余對(duì)話>精確指令遵循測(cè)評(píng)說明SuperCLUE–精確指令遵循數(shù)據(jù)集精確指令遵循主要考察模型的指令遵循能力,包括但不限于定義的輸出格式或標(biāo)準(zhǔn)來生成響應(yīng),精確地呈現(xiàn)要求的數(shù)據(jù)和信息。測(cè)評(píng)方法評(píng)測(cè)流程:以【寫一篇關(guān)于可再生能源對(duì)減少碳排放的作用的短文。要求文章不得使用“二氧化碳”這個(gè)詞,字?jǐn)?shù)不少于10設(shè)定的評(píng)價(jià)標(biāo)準(zhǔn)包括:遵循關(guān)鍵詞限制、符合字?jǐn)?shù)要求、輸出格式正確。模型只有在命中所有指令的條件下會(huì)最后,我們將所有題目的評(píng)估結(jié)果進(jìn)行匯總,根據(jù)模型完全命中的題目數(shù)量計(jì)算模型的最終命中率,命中率以示例–精確指令遵循回答:文化和歷史,也可以從中獲得深深的體驗(yàn)。我們感到一種溫暖的感覺,也會(huì)讓我們感受到一種被懷念的感覺。在這些故事中,我們會(huì)看到許多橋,連接著不同的人和不同的事物,燈火的閃爍,會(huì)讓我們感到一種被連接的感覺,也會(huì)讓我們感受到一種被融合的感覺。讀這些故事和看到燈火的閃爍,體驗(yàn)到遠(yuǎn)方的文化和歷史,也可以從中獲得深深的體驗(yàn)。評(píng)價(jià)打分:文本理解與創(chuàng)作測(cè)評(píng)說明SuperCLUE–文本理解與創(chuàng)作評(píng)測(cè)數(shù)據(jù)集文本理解與創(chuàng)作主要考察模型在處理文本相關(guān)任務(wù)時(shí)的理解和創(chuàng)作能力。包括但不限于文本摘要、閱讀理解、指代消解、長(zhǎng)文本等基礎(chǔ)語(yǔ)義理解和生成創(chuàng)作數(shù)據(jù)集。測(cè)評(píng)方法評(píng)測(cè)流程:假設(shè)在一個(gè)具體的題目中,模型A的得分如下:符合基本要求3分、語(yǔ)言與邏輯連貫性4分、推理鏈條完整示例–文本理解與創(chuàng)作問題:你是一家人工智能芯片研發(fā)公司的研發(fā)部門經(jīng)理,需要撰寫一份《AI芯片性能優(yōu)化項(xiàng)目延期情況說明》。該項(xiàng)目原計(jì)劃在6個(gè)月內(nèi)完成新一代7nm制程AI芯片的性能提升和功耗優(yōu)化,但目前已超期2個(gè)月。請(qǐng)向技術(shù)副總裁提交一份正式的項(xiàng)目延期情況說明,詳細(xì)解釋延期原因(包括技術(shù)瓶頸、供應(yīng)鏈風(fēng)險(xiǎn)等),并提出具體的改進(jìn)措施。說明文件需要采用技術(shù)管理報(bào)告的規(guī)范格式,包含數(shù)據(jù)分模型回答:<篇幅有限省略部分內(nèi)容>1.基于標(biāo)準(zhǔn)1的符合基本要求:模型的回答完全滿足了用戶問題的所有基本要求,針對(duì)延期原因、改進(jìn)措施和調(diào)整后的計(jì)劃都予以了詳細(xì)說明,且遵循了技術(shù)管理報(bào)告的規(guī)范格式?;卮鹬苯忧彝耆采w了用戶需求,沒有遺漏。2.基于標(biāo)準(zhǔn)2的創(chuàng)造性:模型體現(xiàn)了較高的技術(shù)分析能力且提供了詳實(shí)的具體解決方案,如動(dòng)態(tài)緩存方法、寄生參數(shù)建模優(yōu)化等,但創(chuàng)新性略顯不足。盡管內(nèi)容詳細(xì),但大部分回復(fù)屬于常規(guī)應(yīng)對(duì)措施,沒有顯著超出一般技術(shù)報(bào)告的期望范圍(如缺乏對(duì)后續(xù)類似問題的預(yù)防機(jī)3.基于標(biāo)準(zhǔn)3的語(yǔ)言與邏輯連貫性:回答語(yǔ)言流暢,邏輯清晰,段落布局井然有序,各部分彼此間的過渡與銜接自然。數(shù)據(jù)和技術(shù)細(xì)節(jié)也支撐了邏輯推演,整體呈現(xiàn)了較強(qiáng)的可讀性和說服力,并符合正式報(bào)告的規(guī)范要求。缺點(diǎn)4.基于標(biāo)準(zhǔn)4的事實(shí)正確性:回答中所引用的技術(shù)性數(shù)據(jù)、對(duì)EDA工具的描述、以及流程中的常見瓶頸因素,均與當(dāng)前人工智能芯片開發(fā)領(lǐng)域?qū)嶋H情況一致。從總體上看,模型展示出對(duì)技術(shù)內(nèi)容的準(zhǔn)確把握,沒有明顯誤導(dǎo)性或測(cè)評(píng)模型列表本次測(cè)評(píng)數(shù)據(jù)選取了SuperCLUE-3月測(cè)評(píng)結(jié)果,模型選取了國(guó)內(nèi)外有代表性的45個(gè)大模型在3月份的版本。模型機(jī)構(gòu)簡(jiǎn)介模型機(jī)構(gòu)簡(jiǎn)介Meta發(fā)布的Llama3.3版本70B模型,調(diào)用的together深度求索在2025年1月20日推出的DeepSee微軟官方在2025年2月5日發(fā)布的Gemini2.0Pro29.DeepSeek-R1-Distill-Q7.Doubao-1.5-pro-32官方在2025年2月26日發(fā)布的旗艦?zāi)P?,使用上海人工智能?shí)驗(yàn)室發(fā)布的InternLM3-8B-Instr9.DeepSeek-R1-Distill官方在2025年1月21日發(fā)布的Gemini2.0FlashThinki與ChatGPT上的GPT-4o同版本,對(duì)應(yīng)OpenAI官方的API名稱:chatgp38.DeepSeek-R1-Distill-基于Qwen2.5-Math-1.5B的蒸餾模型,使用阿里云API:Meta發(fā)布的Llama3.2版本3B開源模型,調(diào)用的together40.Mistral-7B-Instr官方開源的Mistral-7B-InstX.AI階躍星辰推出的推理模型,使用官網(wǎng)網(wǎng)頁(yè),模型選擇“StepR-min22.ERNIE-4.0-Turbo-8K-La///20第3部分總體測(cè)評(píng)結(jié)果與分析9.9.評(píng)測(cè)與人類一致性驗(yàn)證10.開源模型榜單11.10B級(jí)別小模型榜單12.端側(cè)5B級(jí)別小模型榜單1.SuperCLUE1.SuperCLUE通用能力測(cè)評(píng)總榜2.SuperCLUE模型象限3.SuperCLUE推理模型總榜4.SuperCLUE推理任務(wù)總榜6.性價(jià)比區(qū)間分布7.綜合效能區(qū)間分布8.國(guó)內(nèi)大模型成熟度-SC成熟度指數(shù)SuperCLUE通用能力測(cè)評(píng)總分國(guó)內(nèi)外通用大模型SuperCLUE基準(zhǔn)榜單國(guó)內(nèi)模型海外及其他對(duì)比模型注:由于部分模型分?jǐn)?shù)較為接近,為了減少問題波動(dòng)對(duì)排名的影響,本次測(cè)評(píng)將相距1分區(qū)間的模型定義為并列,報(bào)告中分?jǐn)?shù)展示為并列中高分。海外模型僅對(duì)比參考不參與排名。SuperCLUE模型象限(2025)SuperCLUE模型象限(2025)實(shí)用主義者DeepSeek-V3(深度求索)360智腦o1.5(360)Gemini-2.0-Pro-Exp-02-05(Goog/●Step-2-16k(階躍星辰)o\Step-2-16k(階躍星辰)o\。GLM-4-Plus(智譜AI)。?"GLM-4-9B-Chat(智譜AI)Phi-4(微軟Yi-1.5-9B-Chat-16K(零一萬物)訊飛星火V4.0(科大訊飛●●●Gemma-2-9b-it(Google)Qwen2.5-3b-Instruct(阿里巴巴)Yi-1.5-34B-Chat-16K(零一萬物))技術(shù)領(lǐng)跑者推理能力潛力探索者SuperCLUE通用能力測(cè)評(píng):總榜SuperCLUE-總榜 1.1.o3-mini(high)總分?jǐn)鄬宇I(lǐng)先5.67分,數(shù)學(xué)推理近滿分、指令遵循能力表現(xiàn)卓越在2025年3月SuperCLUE測(cè)評(píng)中,OpenAI的o3-mini(higmini(high)以94.74分的成績(jī)大幅領(lǐng)先其他模型,指令2.2.國(guó)產(chǎn)模型嶄露頭角,DeepSeek-R1、QwQ-32B等加速縮小與海外模型的差距國(guó)產(chǎn)模型整體表現(xiàn)亮眼,DeepSeek-R1等國(guó)媲美,甚至在某些領(lǐng)域?qū)崿F(xiàn)超越。QwQ-32B在數(shù)學(xué)推理任務(wù)中取得88.60分,超越了GPT-4.5-Preview、Claude3.7Claude等眾多海外模型。與此同時(shí),字節(jié)跳動(dòng)的Doubao-1.5-Pro在科學(xué)刷新了Agent能力榜單成績(jī),展現(xiàn)了國(guó)產(chǎn)模型在多個(gè)關(guān)鍵指標(biāo)上的強(qiáng)勁實(shí)力。3.3.DeepSeek-R1-Distill系列模型在推理任務(wù)中的表現(xiàn)接近于閉源大模型。從測(cè)評(píng)結(jié)果可見,多款開源小參數(shù)量模型展現(xiàn)出驚人潛力。尤其是DeepSeek-R1-Distill系列,僅大幅領(lǐng)先同級(jí)別的小模型,還超越了眾多閉源大模型,展現(xiàn)出接近甚至媲美旗艦大模型的卓越實(shí)力。SuperCLUE通用能力測(cè)評(píng):推理模型總榜SuperCLUE-推理模型總榜 1.1.國(guó)內(nèi)頭部推理模型在推理任務(wù)上表現(xiàn)出色,但與o3-mini(high)還有一定差距。preview、DeepSeek-R1-Distill-Qwen-32B、360智腦o1.5以及Kimi-K1.5等模型同樣展現(xiàn)出強(qiáng)勁實(shí)力,均取得了70分以上的優(yōu)異成績(jī)。2.2.國(guó)內(nèi)頭部推理模型較海外頭部推理模型略有領(lǐng)先。展現(xiàn)出一定的競(jìng)爭(zhēng)力,并略具優(yōu)勢(shì)。3.3.國(guó)內(nèi)推理模型在數(shù)學(xué)推理任務(wù)上表現(xiàn)較好,但在科學(xué)推理和代碼兩大任務(wù)上還有進(jìn)步空間。SuperCLUE通用能力測(cè)評(píng):推理任務(wù)總榜SuperCLUE-推理任務(wù)總榜 1.1.推理模型較基礎(chǔ)模型優(yōu)勢(shì)明顯,前十名中僅有兩席為基礎(chǔ)模型。根據(jù)推理任務(wù)榜單可以發(fā)現(xiàn),除了GPT-4.5-Preview和Gemini-2.0-mini(high)等專注于推理能力優(yōu)化的模型所包攬。這些推理模型憑借其在數(shù)學(xué)、細(xì)分領(lǐng)域的精湛表現(xiàn),展現(xiàn)出相較于通用模型更為突出的專業(yè)實(shí)力,在對(duì)模型推理深度與廣度要求更高的場(chǎng)景下,呈現(xiàn)出明顯的領(lǐng)先態(tài)勢(shì),也預(yù)示著在特定領(lǐng)域的精耕細(xì)作,是模型性能突破的關(guān)鍵路徑。2.同類任務(wù)中模型性能差距顯著2.同類任務(wù)中模型性能差距顯著,能力分化明顯例如在數(shù)學(xué)推理這一細(xì)分領(lǐng)域,模型的性能差距尤為顯著,呈現(xiàn)出明顯的能力分化趨勢(shì)。榜單前三的模型,如o3-mini(high)、DeepSeek-R1和QwQ-Max-Preview,在數(shù)學(xué)推理任務(wù)中均取其中一些模型的得分甚至僅為個(gè)位數(shù),差距十分懸殊。3.3.蒸餾技術(shù)成效顯著,小參數(shù)模型表現(xiàn)超預(yù)期。QwQ-32B作為百億級(jí)參數(shù)模型,以79.15的總分位居榜單前兩名,國(guó)內(nèi)與DeepSeek-R1并列第一,僅次于OpenAI的專用推理模型。更值得注意的是,DeepSeek-R1-Distill-Qwen系列蒸餾SuperCLUE通用能力測(cè)評(píng):基礎(chǔ)模型總榜 1.1.國(guó)內(nèi)頭部基礎(chǔ)模型表現(xiàn)優(yōu)異,得分均超過ChatGPT-4o-latest。名模型ChatGPT-4o-latest。2.2.國(guó)內(nèi)頭部基礎(chǔ)模型較海外頭部基礎(chǔ)模型略有落后,但差距很小。3.3.各基礎(chǔ)模型的表現(xiàn)呈現(xiàn)出明顯的任務(wù)差異性。具體而言,在文本理解與創(chuàng)作任務(wù)上,模型表現(xiàn)相對(duì)穩(wěn)定,標(biāo)準(zhǔn)差為5.76分;而在其他任務(wù)維度上,模型性能的離散程度顯著增大,標(biāo)準(zhǔn)差均超過10分。尤其是在科學(xué)推理、代碼處理以及SuperCLUE性價(jià)比區(qū)間分布-推理模型推理模型性價(jià)比分布趨勢(shì)分析1.1.國(guó)產(chǎn)推理模型憑借較低的價(jià)格實(shí)現(xiàn)高質(zhì)量輸出,展現(xiàn)出顯著的性價(jià)比優(yōu)勢(shì)。國(guó)產(chǎn)推理模型QwQ-32B、DeepSeek-R1和DeepSeek-R1-Distill-Qwen-32B在性價(jià)比方面展現(xiàn)出強(qiáng)大競(jìng)爭(zhēng)力。它們?cè)诒3指咚叫阅艿耐瑫r(shí),保持了極低的應(yīng)用(暫時(shí)免費(fèi))也具備高性價(jià)比,但在推理任務(wù)上的表現(xiàn)略遜色于其比模型。2.2.推理模型的推理能力與其API價(jià)格無關(guān),其中o3-mini-high以中等的價(jià)位領(lǐng)先其他模型。在推理任務(wù)上,得分較高的推理模型大多集中在中在推理能力上有所增強(qiáng),同時(shí)在價(jià)格上也展現(xiàn)出顯著的優(yōu)勢(shì)。o3-mini-high以中等的價(jià)位表現(xiàn)最佳;相比之下,Claude3.7Sonnet的成本最高,但在輸出質(zhì)量方面不是最佳,屬于低性價(jià)比模型。SuperCLUE性價(jià)比區(qū)間分布-基礎(chǔ)模型基礎(chǔ)模型性價(jià)比分布1.1.國(guó)產(chǎn)基礎(chǔ)模型在性價(jià)比(價(jià)格+效果)上有較大優(yōu)勢(shì)國(guó)產(chǎn)基礎(chǔ)模型如Qwen-max-latest和DeepSeek-V3在性價(jià)比上展現(xiàn)出強(qiáng)大的競(jìng)爭(zhēng)力。這些基礎(chǔ)模型在較高性能的基礎(chǔ)上,能夠保持低應(yīng)用成本,在應(yīng)用落地方面展現(xiàn)出友好的可用性。2.2.位于中性價(jià)比的基礎(chǔ)模型在價(jià)格方面取勝中性價(jià)比模型,如Qwen2.5-72B-Instruct、Sky-Chat-3.0、GPT-4o-mini等,價(jià)格均在5元/百萬tokens左右,任務(wù)得分處于中等水平,適用于廣泛應(yīng)用中,在價(jià)格和性能方面提供了很好的平衡。3.3.位于低性價(jià)比區(qū)間的基礎(chǔ)模型較為集中,便可劃分為高性高價(jià)和低性低價(jià)位于低性價(jià)比區(qū)域的基礎(chǔ)模型,在價(jià)格或性能上略遜于中高性價(jià)比模型,例如這些模型的發(fā)展表面上顯得過于片面,影響用戶體驗(yàn)。SuperCLUE大模型綜合效能區(qū)間分布-推理模型推理模型推理效能區(qū)間推理任務(wù)得分為推理任務(wù)總分:數(shù)學(xué)推理、科學(xué)推理和代碼的平均分。趨勢(shì)分析11.海外推理模型綜合效能領(lǐng)先速度和基準(zhǔn)得分的綜合表現(xiàn)上處于領(lǐng)先地位,推理任務(wù)分?jǐn)?shù)均在70分以上,平均推理耗時(shí)在30秒內(nèi)。22.國(guó)內(nèi)推理模型大部分處于中低效能區(qū)間平均推理耗時(shí)超過110秒。推理任務(wù)得分超過70分的國(guó)內(nèi)推理模型,平均推理耗時(shí)均超過40秒。33.兼顧推理速度和準(zhǔn)確度是重難點(diǎn)即使對(duì)于綜合效能較高的o3-mini(high),其平均推理時(shí)間也達(dá)到了26秒。為了更好地將推理模型應(yīng)用于實(shí)際場(chǎng)景,需要考慮如何在確保較高推理準(zhǔn)確度的同時(shí)提升推理速度。SuperCLUE大模型綜合效能區(qū)間分布-基礎(chǔ)模型基礎(chǔ)模型推理效能區(qū)間總分為六大任務(wù)的平均分。趨勢(shì)分析11.Doubao、Gemini綜合效能表現(xiàn)領(lǐng)先速度表現(xiàn)優(yōu)異,平均推理耗時(shí)均在10秒左右,基準(zhǔn)得分超過60分,符合「高效能區(qū)」,展現(xiàn)了較強(qiáng)的應(yīng)用潛力。22.國(guó)內(nèi)基礎(chǔ)模型綜合效能與海外基礎(chǔ)模型無明顯優(yōu)劣在推理速度上,ChatGPT-4o-latest和GPT-4o-mini領(lǐng)先,但在得分上只有hunyuan-turbos-20250226達(dá)到了60分。33.基礎(chǔ)模型在綜合效能上還有提升空間被測(cè)的基礎(chǔ)模型推理耗時(shí)平均在20秒左右,但得分都在70分以下,仍然有一定的提升空間。國(guó)內(nèi)大模型成熟度-SC成熟度指數(shù)123456國(guó)內(nèi)大模型成熟度分析1.高成熟度能力場(chǎng)景。2.中成熟度能力理】、【代碼生成】,還有一定優(yōu)化空間。3.低成熟度能力和【精確指令遵循】。4.極低成熟度能力指數(shù)在0.2以下。評(píng)測(cè)與人類一致性驗(yàn)證1:對(duì)比ChatbotArenaChatbotArena是當(dāng)前英文領(lǐng)域較為權(quán)威的大模型排行榜,由LMSYSOrg開放組織構(gòu)建,它以公眾匿名投票的方式,對(duì)各種大型語(yǔ)言模型進(jìn)行對(duì)抗評(píng)測(cè)。將SuperCLUE得分與ChatBotArena得分進(jìn)行相關(guān)性計(jì)算,得到皮爾遜相關(guān)系數(shù):0.89,P值:1.38e-06;斯皮爾曼相關(guān)系數(shù):0.85,P值:1.37e-05;說明SuperCLUE基準(zhǔn)測(cè)評(píng)的成績(jī),與人類對(duì)模型的評(píng)估(以大眾匿名投票的ChatbotArena為典型代表),具有高度一致性。評(píng)測(cè)與人類一致性驗(yàn)證2:對(duì)比人工評(píng)估3月SuperCLUE采用自動(dòng)化評(píng)價(jià)的測(cè)評(píng)方式。1509道題目中針對(duì)5個(gè)模型,每個(gè)模型隨機(jī)抽取了130道題目進(jìn)行人工復(fù)審。分在所有題目上的平均差距,最終計(jì)算得到可靠性。-------------------------------驗(yàn)證結(jié)果-----------------------------最終各模型可靠性指標(biāo)結(jié)果如下:模型列表注:最終可靠性=sum(人類評(píng)分–模型評(píng)分)/總題目量所以,經(jīng)過驗(yàn)證,SuperCLUE自動(dòng)化評(píng)價(jià)有較高的可靠性。開源模型榜單中文場(chǎng)景下,國(guó)內(nèi)開源模型已具備較大優(yōu)勢(shì)DeepSeek系列中文場(chǎng)景下,國(guó)內(nèi)開源模型已具備較大優(yōu)勢(shì)DeepSeek系列開源模型、Qwen系列開源模型,在3月SuperCLUE測(cè)評(píng)中表現(xiàn)優(yōu)異,均有超過Llama-3.3-70B-Instruct的表現(xiàn),引領(lǐng)全球開源生態(tài)。排名模型名稱機(jī)構(gòu)參數(shù)量總分1DeepSeek-R1深度求索671B70.342QwQ-32B阿里巴巴32B66.383DeepSeek-R1-Distill-Qwen-32B深度求索32B59.944DeepSeek-V3深度求索671B57.635Qwen2.5-72B-Instruct阿里巴巴72B51.906DeepSeek-R1-Distill-Qwen-14B深度求索49.67-Llama-3.3-70B-InstructMeta70B45.53-Phi-4微軟45.267Qwen2.5-14b-Instruct阿里巴巴40.708DeepSeek-R1-Distill-Qwen-7B深度求索7B39.079Qwen2.5-7B-Instruct阿里巴巴7B34.01InternLM3-8B-Instruct上海人工智能實(shí)驗(yàn)室8B32.02GLM-4-9B-Chat智譜AI9B29.34-Gemma-2-9b-itGoogle9B28.30-Llama-3.1-8B-InstructMeta8B25.42Yi-1.5-34B-Chat-16K零一萬物34B23.29Qwen2.5-3b-Instruct阿里巴巴3B22.18Yi-1.5-9B-Chat-16K零一萬物9B21.94DeepSeek-R1-Distill-Qwen-1.5B深度求索17.98-Llama-3.2-3B-InstructMeta3B17.15-Mistral-7B-Instruct-v0.3MistralAI7B11.78注:由于部分模型分?jǐn)?shù)較為接近,為了減少問題波動(dòng)對(duì)排名的影響,本次測(cè)評(píng)將相距1分區(qū)間的模型定義為并列。10B級(jí)別小模型榜單SuperCLUE-10B級(jí)別小模型榜單排名模型名稱機(jī)構(gòu)參數(shù)量總分1DeepSeek-R1-Distill-Qwen-7B深度求索39.072Qwen2.5-7B-Instruct阿里巴巴34.013InternLM3-8B-Instruct上海人工智能實(shí)驗(yàn)室8B32.024GLM-4-9B-Chat智譜AI9B29.34-Gemma-2-9b-itGoogle9B28.30-Llama-3.1-8B-InstructMeta8B25.425Qwen2.5-3b-Instruct阿里巴巴22.185Yi-1.5-9B-Chat-16K零一萬物9B21.946DeepSeek-R1-Distill-Qwen-1.5B深度求索18.98-Llama-3.2-3B-InstructMeta18.15-Mistral-7B-Instruct-v0.3MistralAI11.7810B級(jí)別小模型分析10B級(jí)別模型中,DeepSeek-R1-Distill-Qwen-7B和Gemma-2-在本次SuperCLUE測(cè)評(píng)中,DeepSeek-R1-Distill-Qwen-7B取得39.07分,取得10B以型。在10B以內(nèi)模型中,超過30分的模型有3個(gè),分別為DeepSeek-R1-Distill-Qwen-7B、 先于海外模型于國(guó)外前三名平均高出11.41分。海外前三名國(guó)內(nèi)前三名端側(cè)5B級(jí)別小模型榜單2025年端側(cè)小模型快速發(fā)展,已在設(shè)備端側(cè)(非云)上實(shí)現(xiàn)本地運(yùn)行,其中PC、手機(jī)、智能眼鏡、機(jī)器人等大量場(chǎng)景已展現(xiàn)出極高的落地可行性。國(guó)內(nèi)端側(cè)小模型進(jìn)展迅速,相比國(guó)外小模型,國(guó)內(nèi)小模型在中文場(chǎng)景下展現(xiàn)出更好的性能表現(xiàn)Qwen2.5-3B-Instruct表現(xiàn)驚艷,取得總分22.18分的優(yōu)異成績(jī),在SuperCLUE端側(cè)5B小模型榜單中排名榜首。其中文本理解與創(chuàng)作73.49分,與同等參數(shù)量級(jí)模型Llama-3.2-3B-Instruct相比多個(gè)維度均有不同幅度的領(lǐng)先,展示出小參數(shù)量級(jí)模型極高的性價(jià)比。DeepSeek-R1-Distill-Qwen-1.5B小模型同樣表現(xiàn)不俗,取得總分18.98分,有超過Llama-3.2-3B-Instruct的效果。SuperCLUE端側(cè)5B級(jí)別小模型榜單模型名稱12-來源:SuperCLUE,2025年3月18日第4部分DeepSeek系列模型深度分析1.DeepSeek-R1及其蒸餾模型對(duì)比2.DeepSeek-R1和國(guó)內(nèi)外頭部推理模型對(duì)比3.DeepSeek-R1第三方平臺(tái)聯(lián)網(wǎng)搜索能力測(cè)試(網(wǎng)頁(yè)端)4.DeepSeek-R1第三方平臺(tái)穩(wěn)定性測(cè)試(網(wǎng)頁(yè)端、App端、API端)DeepSeek-R1及其蒸餾模型對(duì)比SuperCLUE-DeepSeek系列模型表現(xiàn) 11.DeepSeek-R1在各個(gè)維度均排行第一R1在總榜和推理任務(wù)榜單上得分均超過70,在六大任務(wù)維度上明顯領(lǐng)先其他模型。DeepSeek-R1-Distill-Qwen-32B在數(shù)學(xué)、科學(xué)推理和文本創(chuàng)作與理解任務(wù)上和R1得分接近,但在其余任務(wù)上相差10-30分左右。22.推理模型在總榜和推理任務(wù)榜單上分差較大R1和R1系列的蒸餾模型在總榜和任務(wù)榜單上的得分差距在10-20分之間,如R1在推理任務(wù)上的得分比在總榜上高出7分,DeepSeek-R1-Distill-Qwen-14B有近17分的分差,但DeepSeek-V3分差在3分之內(nèi)。33.R1-Qwen蒸餾模型系列在推理任務(wù)中具有較高實(shí)用性其中,DeepSeek-R1-Distill-Qwen-32B的推理任務(wù)得分接近于源模型R1的得分,而DeepSeek-R1-Distill-Qwen-14B在數(shù)學(xué)和科學(xué)推理方面表現(xiàn)還優(yōu)于V3。這表明蒸餾模型在低能耗情況下依然能夠勝任理科相關(guān)的推理任務(wù)。DeepSeek-R1和國(guó)內(nèi)外頭部推理模型對(duì)比DeepSeek-R1和國(guó)內(nèi)外推理模型能力對(duì)比測(cè)評(píng)分析11.綜合能力接近海外頭部模型mini(high)相差5.54分,展現(xiàn)出較強(qiáng)的推理能力22.數(shù)學(xué)推理和代碼生成任務(wù)表現(xiàn)優(yōu)異33.科學(xué)推理相對(duì)薄弱,仍需優(yōu)化空間。DeepSeek-R1第三方平臺(tái)聯(lián)網(wǎng)搜索能力測(cè)評(píng)(網(wǎng)頁(yè)端)------------------------------------------------------測(cè)評(píng)結(jié)果------------------------------------------------DeepSeek-R1穩(wěn)定性測(cè)評(píng)摘要:測(cè)評(píng)要點(diǎn)1:各平臺(tái)整體表現(xiàn)差異較大,騰訊元寶綜合實(shí)力領(lǐng)先??偡窒嗖钭畲蟮膬蓚€(gè)平臺(tái)分差接近20分,聯(lián)網(wǎng)搜索表現(xiàn)存在一定的差距。騰訊元寶以80.61分領(lǐng)跑聯(lián)網(wǎng)搜索測(cè)評(píng)榜單。測(cè)評(píng)要點(diǎn)2:基礎(chǔ)檢索能力普遍優(yōu)秀,分析推理能力是不同平臺(tái)之間的關(guān)鍵差異點(diǎn)。分析推理能力僅有35.35分,相差近60分。測(cè)評(píng)要點(diǎn)3:各平臺(tái)的回復(fù)率普遍較高,穩(wěn)定性較飛書知識(shí)問答、階躍AI、騰訊元寶和支付寶百寶箱在聯(lián)網(wǎng)搜索回復(fù)率方面十分優(yōu)秀,完整回復(fù)率均為100%,位居第一梯隊(duì)。其他平臺(tái)也均有超過85%的完整回復(fù)率表現(xiàn)。測(cè)評(píng)要點(diǎn)4:各平臺(tái)平均耗時(shí)差異較大,不同任務(wù)上的平均耗時(shí)差異也同樣明顯。------------------------------------------------------測(cè)評(píng)結(jié)果------------------------------------------------DeepSeek-R1穩(wěn)定性測(cè)評(píng)摘要:測(cè)評(píng)要點(diǎn)1:各平臺(tái)整體表現(xiàn)差異較大,騰訊元寶綜合實(shí)力領(lǐng)先。總分相差最大的兩個(gè)平臺(tái)分差接近20分,聯(lián)網(wǎng)搜索表現(xiàn)存在一定的差距。騰訊元寶以80.61分領(lǐng)跑聯(lián)網(wǎng)搜索測(cè)評(píng)榜單。測(cè)評(píng)要點(diǎn)2:基礎(chǔ)檢索能力普遍優(yōu)秀,分析推理能力是不同平臺(tái)之間的關(guān)鍵差異點(diǎn)。分析推理能力僅有35.35分,相差近60分。測(cè)評(píng)要點(diǎn)3:各平臺(tái)的回復(fù)率普遍較高,穩(wěn)定性較飛書知識(shí)問答、階躍AI、騰訊元寶和支付寶百寶箱在聯(lián)網(wǎng)搜索回復(fù)率方面十分優(yōu)秀,完整回復(fù)率均為100%,位居第一梯隊(duì)。其他平臺(tái)也均有超過85%的完整回復(fù)率表現(xiàn)。測(cè)評(píng)要點(diǎn)4:各平臺(tái)平均耗時(shí)差異較大,不同任務(wù)上的平均耗時(shí)差異也同樣明顯。最多的MiniMax(73.51秒/題),差距非常顯著。不同平臺(tái)之間的搜索效率差異較大。另外,所有平臺(tái)為進(jìn)一步了解各平臺(tái)接入DeepSeek-R1的DeepSeek-R1的第三方平臺(tái)進(jìn)行了聯(lián)網(wǎng)搜索的測(cè)評(píng),測(cè)評(píng)內(nèi)容包括基礎(chǔ)檢索能力如文化生活、經(jīng)濟(jì)生活、實(shí)時(shí)新聞等,以及分析推理能力如推理計(jì)算、分析排序、數(shù)據(jù)檢索與分析等。原始題目來源;2.多方核查每條原始信息的正確性,剔除在爭(zhēng)議的信息,然后篩選出正確的、符合客觀事實(shí)的信3.使用這些原始信息按照預(yù)先規(guī)定的維度構(gòu)建題目;4.最后對(duì)所有題目進(jìn)行復(fù)查,確定最終的測(cè)評(píng)集。案的時(shí)間均為工作日;2.題目耗時(shí)皆由人工計(jì)時(shí)并記錄;3.每道題目在獲取答案前均會(huì)清除上下文信息,避免對(duì)測(cè)評(píng)產(chǎn)生影響。2.我們將模型答案出現(xiàn)截?cái)嗷驘o回復(fù)情況的題目視為未滿足用戶需求,該題記0分;在分析推理能力上平均耗時(shí)都明顯高于基礎(chǔ)檢索能在分析推理能力上平均耗時(shí)都明顯高于基礎(chǔ)檢索能40申請(qǐng)測(cè)評(píng):郵件標(biāo)題:DeepSeek–R1第三方聯(lián)網(wǎng)搜索能力測(cè)試(網(wǎng)頁(yè)端)測(cè)評(píng)申請(qǐng),發(fā)送到contact@superclue.ai,請(qǐng)使用單位郵箱,郵件內(nèi)容包括:?jiǎn)挝恍畔ⅰ⒋竽P秃?jiǎn)介、聯(lián)系人和所屬部門、聯(lián)系方式40DeepSeek-R1第三方穩(wěn)定性測(cè)試(網(wǎng)頁(yè)端) 幫助他們選擇最適合自身需求的服務(wù)平臺(tái),臺(tái)進(jìn)行了穩(wěn)定性測(cè)評(píng)。本次測(cè)評(píng)我們選擇數(shù)推理題來考察在各個(gè)第三方平臺(tái)上使用理耗時(shí)和準(zhǔn)確率等方面進(jìn)行評(píng)估。無響應(yīng)等問題,但不考慮答案正確與否;再除未給出完整的答案;前者再除以總題目數(shù)得出?無回復(fù)率:模型由于特殊原因,如無響應(yīng)/請(qǐng)求出錯(cuò),未給出答案;前者再除以總題目數(shù)得的答案與正確答案一致的比例;正確答案,只?推理耗時(shí)(秒/題對(duì)于模型給出完整回復(fù)------------------------------------------------------測(cè)評(píng)結(jié)果------------------------------------------------DeepSeek-R1穩(wěn)定性測(cè)評(píng)摘要:測(cè)評(píng)要點(diǎn)1:各個(gè)第三方平臺(tái)使用DeepSeek-R1的完整回復(fù)率表現(xiàn)差異較大。Perplexity、together.ai和字節(jié)火山引擎完整回復(fù)90%及以上的完整回復(fù)率;而百度智能云、騰訊云TI平臺(tái)和硅基流動(dòng)普通版的完整回復(fù)率均低于50%,顯示出當(dāng)前穩(wěn)定性具有一定的提升空間。測(cè)評(píng)要點(diǎn)2:初步分析顯示,國(guó)外付費(fèi)第三方平臺(tái)在回復(fù)率和推理耗時(shí)方面表現(xiàn)優(yōu)于國(guó)內(nèi)平臺(tái),而國(guó)內(nèi)付費(fèi)平臺(tái)在準(zhǔn)確率上則占據(jù)優(yōu)勢(shì)。具體而言,國(guó)外平臺(tái)如Perplexity、together.ai和pro版和潞晨云的83%。然而,在平均的準(zhǔn)確率方面,國(guó)內(nèi)平臺(tái)以85%的成績(jī)領(lǐng)先于國(guó)外平臺(tái)的77%。測(cè)評(píng)要點(diǎn)3:付費(fèi)版第三方平臺(tái)的穩(wěn)定性顯著優(yōu)于免費(fèi)版。付費(fèi)版在完整回復(fù)率與推理耗時(shí)上明顯優(yōu)于免費(fèi)版:付費(fèi)版平均完整回復(fù)率88%,免費(fèi)版65%;付費(fèi)版推理耗時(shí)180.4秒,免費(fèi)版261.4秒。準(zhǔn)確率方面,兩者均不低于80%,免費(fèi)版87%略高于付費(fèi)版80%。此外,同一平臺(tái)的付費(fèi)版相較免費(fèi)版提升顯著,回復(fù)率從0%飆升至90%。申請(qǐng)測(cè)評(píng):郵件標(biāo)題:DeepSeek–R1第三方穩(wěn)定性測(cè)試(網(wǎng)頁(yè)端)測(cè)評(píng)申請(qǐng),發(fā)送到contact@superclue.ai,請(qǐng)使用單位郵箱,郵件內(nèi)容包括:?jiǎn)挝恍畔?、大模型?jiǎn)介、聯(lián)系人和所屬部門、聯(lián)系方式41DeepSeek-R1第三方穩(wěn)定性測(cè)試(App端) 臺(tái),我們對(duì)支持DeepSeek-R1的10個(gè)平臺(tái)進(jìn)行了穩(wěn)定性測(cè)評(píng)。測(cè)評(píng)使用原創(chuàng)小學(xué)奧率等方面評(píng)估。2.測(cè)試過程:每人使用一部安卓手機(jī)測(cè)試一個(gè)App,對(duì)于第一個(gè)問題,所有人員同時(shí)輸入問題并發(fā)送給測(cè)試的App,然后記錄下模型完成每道題所花費(fèi)的時(shí)間;待所有App完成該題,再同時(shí)直至最后一題完成測(cè)試;他后臺(tái)程序。對(duì)于所有可調(diào)節(jié)聯(lián)網(wǎng)設(shè)置的App,選項(xiàng),都采用其默認(rèn)設(shè)置。4.時(shí)間記錄:由于大部分App的回復(fù)不戳,所有推理耗時(shí)均按統(tǒng)一標(biāo)準(zhǔn)手動(dòng)記錄,可能存在輕微
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨時(shí)雇傭房屋合同范例
- 公章使用合同樣本
- 交學(xué)費(fèi)合同標(biāo)準(zhǔn)文本
- 生態(tài)教育在幼兒園的課程設(shè)計(jì)計(jì)劃
- 建立高效的財(cái)務(wù)團(tuán)隊(duì)協(xié)作機(jī)制計(jì)劃
- 農(nóng)村光伏合同標(biāo)準(zhǔn)文本
- 企業(yè)所有合同樣本
- ktv采購(gòu)合同樣本
- 冰柜鋪貨合同樣本
- 個(gè)人正規(guī)居間合同范例
- 檔案管理制度培訓(xùn)宣貫
- 農(nóng)機(jī)質(zhì)量跟蹤調(diào)查表
- 刑民交叉案件的司法認(rèn)定
- 2025年度股權(quán)合作協(xié)議書新版:跨境電商平臺(tái)股權(quán)合作協(xié)議
- GB/T 33136-2024信息技術(shù)服務(wù)數(shù)據(jù)中心服務(wù)能力成熟度模型
- 性病防治工作計(jì)劃
- 醫(yī)院培訓(xùn)課件:《電擊除顫-電復(fù)律》
- 2025年司法鑒定科學(xué)研究院事業(yè)編制招聘14人歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 《阿爾茨海默病康復(fù)》課件
- DB37T 5118-2018 市政工程資料管理標(biāo)準(zhǔn)
- 駕駛員春季行車安全
評(píng)論
0/150
提交評(píng)論