大模型評(píng)測(cè):全方位評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)能力-北大+張銘_第1頁(yè)
大模型評(píng)測(cè):全方位評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)能力-北大+張銘_第2頁(yè)
大模型評(píng)測(cè):全方位評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)能力-北大+張銘_第3頁(yè)
大模型評(píng)測(cè):全方位評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)能力-北大+張銘_第4頁(yè)
大模型評(píng)測(cè):全方位評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)能力-北大+張銘_第5頁(yè)
已閱讀5頁(yè),還剩106頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

全方位評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)能力張銘簡(jiǎn)介張銘主持的在研項(xiàng)目2023.10-2026.10,北大-安克具身智能聯(lián)合實(shí)驗(yàn)室,安克創(chuàng)新2023.8–2024.8,低信噪比時(shí)序數(shù)據(jù)的可擴(kuò)展式計(jì)算表征學(xué)習(xí)(二期正?教育部計(jì)算機(jī)教指委委員,獲2021年CCF杰出教育獎(jiǎng)?主持北京大學(xué)《數(shù)據(jù)結(jié)構(gòu)與算法》,獲國(guó)家級(jí)精品課程、首批國(guó)家一流本科課程?北京大學(xué)《科技創(chuàng)新與創(chuàng)業(yè)》校友講座課程主持人 02多模態(tài) 02多模態(tài)STEM能力評(píng)測(cè) 03語(yǔ)言與社會(huì)規(guī)范評(píng)測(cè) 03語(yǔ)言與社會(huì)規(guī)范評(píng)測(cè) 04總結(jié)與展望背景與動(dòng)機(jī):多模態(tài)STEM數(shù)據(jù)集的缺乏制造一艘火箭,需要具備哪些能力???STEM能力是解決真實(shí)世界中許多重要問(wèn)題的基礎(chǔ)?模型是否理解多模態(tài)STEM科目的能力至關(guān)重要背景與動(dòng)機(jī):多模態(tài)STEM數(shù)據(jù)集的缺乏??過(guò)去的評(píng)測(cè)數(shù)據(jù)集常常只關(guān)注專家級(jí)別的能力,涵蓋的技能過(guò)于分散?缺少針對(duì)STEM科目的多模態(tài)數(shù)據(jù)集背景與動(dòng)機(jī):社會(huì)規(guī)范基礎(chǔ)能力評(píng)測(cè)的缺乏!??可信可靠的AI系統(tǒng)應(yīng)當(dāng)遵循一定的社會(huì)規(guī)范與習(xí)俗(SocialNorms)背景與動(dòng)機(jī):社會(huì)規(guī)范基礎(chǔ)能力評(píng)測(cè)的缺乏y…、Civics…、Civicsy??大語(yǔ)言模型對(duì)人類基礎(chǔ)的社會(huì)規(guī)范的理解能力在它們與人類合作過(guò)程中至關(guān)重要背景與動(dòng)機(jī):社會(huì)規(guī)范基礎(chǔ)能力評(píng)測(cè)的缺乏??過(guò)去的評(píng)測(cè)數(shù)據(jù)集常常只關(guān)注于高階的人類價(jià)值觀?缺少數(shù)據(jù)集用來(lái)評(píng)測(cè)模型對(duì)于社會(huì)規(guī)范形成過(guò)程中的基礎(chǔ)能力的掌握解決方案STEM數(shù)據(jù)集:評(píng)估模型的基礎(chǔ)STEM科目的能力Social數(shù)據(jù)集:評(píng)估模型對(duì)于基礎(chǔ)社會(huì)規(guī)范的掌握多模態(tài)STEM能力評(píng)測(cè)百萬(wàn)量級(jí)多模態(tài)細(xì)粒度STEM評(píng)測(cè)數(shù)據(jù)集 https://arxiv./pdf/2402.17205STEM數(shù)據(jù)集:數(shù)據(jù)收集本報(bào)告的STEM數(shù)據(jù)主要來(lái)源于三個(gè)習(xí)題網(wǎng)站,通過(guò)程序爬取與人工檢查篩選的方式得到約百萬(wàn)道題目STEM數(shù)據(jù)集:樣例提出的STEM數(shù)據(jù)集包含了STEM科了教育標(biāo)準(zhǔn)的K-12年級(jí)的難度每道題目都需要用到圖像感知能力,并包含年級(jí)與技能知識(shí)點(diǎn)的標(biāo)簽STEM數(shù)據(jù)集:基本統(tǒng)計(jì)數(shù)據(jù)集共包含了448個(gè)技能知識(shí)點(diǎn),共1,073,146道選擇題,在技能知識(shí)點(diǎn)的數(shù)目與題目數(shù)量上均是最大規(guī)模的多模態(tài)STEM科目數(shù)據(jù)集按照6:2:2的比例分為訓(xùn)練集、驗(yàn)證集、測(cè)試集STEM數(shù)據(jù)集:基本統(tǒng)計(jì)選項(xiàng)數(shù)量分布選項(xiàng)數(shù)量分布問(wèn)題類型分布問(wèn)題類型分布STEM數(shù)據(jù)集:技能知識(shí)點(diǎn)數(shù)據(jù)集包含了大規(guī)模的基礎(chǔ)STEM技能知識(shí)點(diǎn)STEM數(shù)據(jù)集:數(shù)據(jù)分布每個(gè)年級(jí)下的技能知識(shí)點(diǎn)數(shù)量與問(wèn)題數(shù)量分布示意圖實(shí)驗(yàn)設(shè)計(jì):評(píng)測(cè)方法人類表現(xiàn)評(píng)估:測(cè)驗(yàn)分?jǐn)?shù)與準(zhǔn)確率測(cè)驗(yàn)分?jǐn)?shù)測(cè)驗(yàn)分?jǐn)?shù):考慮了學(xué)生學(xué)習(xí)進(jìn)展用于評(píng)測(cè)人類對(duì)于STEM科目技能的掌握情況高于90.0的分?jǐn)?shù)被視為掌握了某個(gè)技能知識(shí)點(diǎn)人類準(zhǔn)確率:采樣了80道題目,人類準(zhǔn)確率為83.0%利用IXL網(wǎng)站的測(cè)驗(yàn)分?jǐn)?shù)來(lái)比較模型與人類的表現(xiàn)差異,利用模型的輸出在網(wǎng)站測(cè)驗(yàn)獲得分?jǐn)?shù)人類表現(xiàn)評(píng)估:測(cè)驗(yàn)分?jǐn)?shù)與準(zhǔn)確率測(cè)驗(yàn)分?jǐn)?shù)與模型準(zhǔn)確率測(cè)驗(yàn)分?jǐn)?shù)與模型準(zhǔn)確率呈正相關(guān)主要實(shí)驗(yàn)結(jié)果從準(zhǔn)確率與測(cè)驗(yàn)分?jǐn)?shù)上看模型表現(xiàn)均仍弱于人類學(xué)生的平均水平主要實(shí)驗(yàn)結(jié)果:分學(xué)科的情況問(wèn)題變長(zhǎng)、選項(xiàng)數(shù)量變多和樣例數(shù)量變少,模型的表現(xiàn)都會(huì)下降主要實(shí)驗(yàn)結(jié)果:分?jǐn)?shù)與年級(jí)模型的測(cè)驗(yàn)分?jǐn)?shù)隨著題目所屬年級(jí)的升高而降低實(shí)驗(yàn)分析:細(xì)粒度分?jǐn)?shù)——困難的技能點(diǎn):抽象知識(shí)與復(fù)雜推理實(shí)驗(yàn)分析:案例分析困難的技能點(diǎn):困難的技能點(diǎn):抽象知識(shí)與復(fù)雜推理實(shí)驗(yàn)分析:錯(cuò)誤分析錯(cuò)誤類型分析:錯(cuò)誤類型分析:基于Zero-ShotCLIP模型采樣25個(gè)錯(cuò)誤問(wèn)題并人工分類實(shí)驗(yàn)分析:模型能力校準(zhǔn)性(校準(zhǔn)性(Calibration微調(diào)過(guò)的模型具有更好的規(guī)模(規(guī)模(Scaling更大的模型具有更好的效果?我們?cè)u(píng)測(cè)了以CLIP為代表的多模態(tài)模型與以GPT-3.5-Turbo為代表的大語(yǔ)言模相關(guān)鏈接STEM數(shù)據(jù)集:評(píng)估模型的基礎(chǔ)STEM科目的能力語(yǔ)言與社會(huì)規(guī)范評(píng)測(cè) /pdf/2404.02491/pdf/2404.02491每個(gè)年級(jí)的技能數(shù)量分布每個(gè)年級(jí)的技能數(shù)量分布每個(gè)年級(jí)的問(wèn)題數(shù)量分布每個(gè)年級(jí)的問(wèn)題數(shù)量分布預(yù)實(shí)驗(yàn):大語(yǔ)言模型的表現(xiàn)大語(yǔ)言模型帶來(lái)了明顯的效果提升,但仍然落后于人類表現(xiàn)預(yù)實(shí)驗(yàn):大語(yǔ)言模型的表現(xiàn)大語(yǔ)言模型帶來(lái)了明顯的效果提升,但仍然落后于人類表現(xiàn),可以通過(guò)設(shè)計(jì)進(jìn)一步的智能體框架進(jìn)行提升符號(hào)知識(shí)符號(hào)知識(shí)如數(shù)學(xué)計(jì)算可以通過(guò)代碼執(zhí)行獲得LLMLLM推理知識(shí)推理知識(shí)可以幫助模型理解抽象與復(fù)雜概念我們?cè)O(shè)計(jì)了一個(gè)我們?cè)O(shè)計(jì)了一個(gè)多智能體交互的方案,增強(qiáng)模型在社會(huì)規(guī)范數(shù)據(jù)集上的表現(xiàn)設(shè)計(jì)思路:不同的智能體可以通過(guò)相互交流的方式增強(qiáng)彼此的能力,并獲得最終的答案主要實(shí)驗(yàn)結(jié)果我們的多智能體交互的框架可以我們的多智能體交互的框架可以使LLMs達(dá)到和人類水實(shí)驗(yàn)分析:模型能力模型效果隨規(guī)模增大而提升模型效果隨規(guī)模增大而提升消融實(shí)驗(yàn):推理模塊至關(guān)重要實(shí)驗(yàn)分析:細(xì)粒度分?jǐn)?shù)這些技能需要這些技能需要更準(zhǔn)確的知識(shí)作為支撐,因此我們的多智能實(shí)驗(yàn)分析:細(xì)粒度分?jǐn)?shù)類似于人類做題時(shí)類似于人類做題時(shí)隨年級(jí)提升,題目難度增大,題目準(zhǔn)確率降低,模型在測(cè)驗(yàn)分?jǐn)?shù)與準(zhǔn)確率指標(biāo)上也有此特征?我們提出了評(píng)測(cè)大語(yǔ)言模型對(duì)于社會(huì)規(guī)范的基礎(chǔ)理解能力的大規(guī)模數(shù)據(jù)集,包含了K-12難度的402個(gè)技能知識(shí)點(diǎn)的基礎(chǔ)題目,共包含12,383道選擇題目;?我們?cè)u(píng)測(cè)了近期的LLMs,包括LLaMA-2和GPT-3.5-Turbo?我們提出了SocialAgent方案,可以增強(qiáng)模型的推理能力,并利用外部知識(shí)使模型更好地理解社會(huì)規(guī)范,通過(guò)該方法大模型在可以獲得和人類水平相當(dāng)?shù)谋憩F(xiàn)總結(jié)與展望?我們提出了評(píng)測(cè)大語(yǔ)言模型對(duì)于社會(huì)規(guī)范的基礎(chǔ)理解?我們?cè)u(píng)測(cè)了近期的LLMs,包括LLaMA-2和GPT-3.5-Turbo增強(qiáng)模型的推理能力與利用外部知識(shí)的能力STEM數(shù)據(jù)集(ICLR2024)?提出了最大規(guī)模的視覺(jué)-語(yǔ)言STEM科目數(shù)據(jù)集,包含?評(píng)測(cè)了以CLIP為代表的多模態(tài)模型與以GPT-3.5-?使用了在線習(xí)題網(wǎng)站來(lái)評(píng)測(cè)模型的測(cè)驗(yàn)分?jǐn)?shù),從而和任務(wù)二5個(gè)子賽道第1名任務(wù)一第3名總計(jì)約2000名參與者多模態(tài)評(píng)測(cè)方案在評(píng)測(cè)多模態(tài)能力嗎??論文:https://huggingface.co/papers/2407.00468多模態(tài)評(píng)測(cè)方案在評(píng)測(cè)多模態(tài)能力嗎?多模態(tài)評(píng)測(cè)方案在評(píng)測(cè)多模態(tài)能力嗎?多模態(tài)評(píng)測(cè)方案在評(píng)測(cè)多模態(tài)能力嗎?多模態(tài)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論