復(fù)旦大學(xué)(張奇):2023年大語(yǔ)言模型評(píng)測(cè)報(bào)告_第1頁(yè)
復(fù)旦大學(xué)(張奇):2023年大語(yǔ)言模型評(píng)測(cè)報(bào)告_第2頁(yè)
復(fù)旦大學(xué)(張奇):2023年大語(yǔ)言模型評(píng)測(cè)報(bào)告_第3頁(yè)
復(fù)旦大學(xué)(張奇):2023年大語(yǔ)言模型評(píng)測(cè)報(bào)告_第4頁(yè)
復(fù)旦大學(xué)(張奇):2023年大語(yǔ)言模型評(píng)測(cè)報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩130頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1 這對(duì)NLP研究來(lái)說(shuō)不是好事,而是巨大的問(wèn)題!3 Vicuna-13B等Vicuna-13B等4 基礎(chǔ)語(yǔ)言模型不具備指令理解能力SFT模型和RL模型可以完成多種任務(wù)、要能夠服從人類指令56 7HELM:HolisticEvaluationofLanguageModels(斯坦福,2022)提出了語(yǔ)言模型的整體評(píng)估,以提高語(yǔ)言模型的透明度“場(chǎng)景、任務(wù)、指標(biāo)” 1.應(yīng)用場(chǎng)景分類:將潛在的語(yǔ)言模型應(yīng)用場(chǎng)景進(jìn)行分類,包括任務(wù)和領(lǐng)域方面。任務(wù)可以涵蓋問(wèn)答、信息檢索、摘要、情感分析、毒性檢測(cè)、雜項(xiàng)文本分類等核心場(chǎng)景。領(lǐng)域則包括來(lái)源、用戶和時(shí)間等因素。2.評(píng)估指標(biāo)分類:采用多指標(biāo)方法對(duì)語(yǔ)言模型進(jìn)行評(píng)估。評(píng)估指標(biāo)包括精度(Accuracy)、校準(zhǔn)和不確定性(Calibrationanduncertainty)、穩(wěn)健性(Robustness)、公平性(刻板印象(Biasandstereotypes)、有毒性(Toxicity)以及效率(Efficiency)。這些指標(biāo)用于評(píng)估語(yǔ)言模型在不同應(yīng)用場(chǎng)景下的性能。3.大規(guī)模評(píng)估方法:在42個(gè)場(chǎng)景下對(duì)30個(gè)語(yǔ)言模型進(jìn)行大規(guī)模評(píng)估。評(píng)估方法是通過(guò)修改prompt并加入5個(gè)樣例,將語(yǔ)言模型拓展到需要評(píng)估的任務(wù)上。這種評(píng)估方法可以有效評(píng)估和比較語(yǔ)言模型在不同應(yīng)用場(chǎng)景下的性能,為進(jìn)一步改進(jìn)和優(yōu)化提供參考。 HELM得到了25個(gè)結(jié)論3.校準(zhǔn)對(duì)模型準(zhǔn)確性的影響:取決于場(chǎng)景和遷移方式,可能成正比或反比。 ?對(duì)于多選題,使用了標(biāo)準(zhǔn)分類準(zhǔn)確率進(jìn)行評(píng)估;對(duì)于填空題,使用了精確匹配 JudgingLLM-as-a-jud三種評(píng)判方式?成對(duì)比較:LLM裁判被呈現(xiàn)一個(gè)問(wèn)?單個(gè)答案打分:LLM裁判直接為單?參考引導(dǎo)打分:提供參考解決方案,引兩種評(píng)測(cè)基準(zhǔn) LLM評(píng)測(cè) 答一致率 ?每次1v1對(duì)戰(zhàn)系統(tǒng)都會(huì)隨機(jī)拉兩個(gè)chatbot上場(chǎng)PK用戶評(píng)測(cè)?用戶需要同時(shí)和這兩個(gè)chatbot聊天,然后決定哪個(gè)更好ELO機(jī)制?一種計(jì)算玩家相對(duì)技能水平的方法,廣泛應(yīng)用在競(jìng)技游戲和各類運(yùn)動(dòng)中科目不同顏色代表不同水平藍(lán)色:初中綠色:高中黃色:大學(xué)紅色:專業(yè)級(jí)數(shù)據(jù)量與題目示例:數(shù)據(jù)的主要來(lái)源是互聯(lián)網(wǎng)上免費(fèi)提供的模擬考試,一部分大學(xué)水平的問(wèn)題是中國(guó)大學(xué)過(guò)去的考試問(wèn)題,由學(xué)生公開分享,一小部分大學(xué)問(wèn)題是全國(guó)研究生入學(xué)考試的模擬問(wèn)題,大約個(gè)問(wèn)題來(lái)源于微普網(wǎng)站(收費(fèi)) ?僅有選擇題?專門分出C-EVAL-HARD,其中包括高等數(shù)學(xué)、離散數(shù)學(xué)、概率和統(tǒng)計(jì)、大學(xué)化學(xué)、大學(xué)物理、高中數(shù)學(xué)、高中化學(xué)和高中物理,中國(guó)第一個(gè)提供復(fù)雜推理問(wèn)題的基準(zhǔn)?選擇小型模擬試題為主,減輕數(shù)據(jù)污染?用準(zhǔn)確性作為衡量標(biāo)準(zhǔn)?zero-shot評(píng)估?few-shot(5-shot)評(píng)估,提供5個(gè)實(shí)例樣本?在每段中文文本下面添加英文翻譯?兩種測(cè)試:AO(AnswerOnly)&&CoT(ChainofThought)?低于50B參數(shù)規(guī)模的模型只能取得比隨機(jī)基線不到10%的改進(jìn)?COT提示不一定能改善C-EVAL中許多科目的結(jié)果?COT稍微提高了GPT-4在C-EVAL-HARD的準(zhǔn)確性 方法及工具,對(duì)多領(lǐng)域(如語(yǔ)言、語(yǔ)音、視覺及多模態(tài))的基礎(chǔ)模型 FLAG-EVAL的評(píng)價(jià)指標(biāo)根據(jù)任務(wù)不同而各有側(cè)重?準(zhǔn)確性(Accuracy):準(zhǔn)確性是模型的基礎(chǔ)屬性,輸出的準(zhǔn)確性決定了模型是否可用。在FlagEval中,準(zhǔn)確性是每個(gè)評(píng)測(cè)場(chǎng)景和任務(wù)中準(zhǔn)確性度量的總稱,包括文本分類中的精確匹配(exact-matchaccuracy),問(wèn)題回答中基于詞重疊的F1分?jǐn)?shù),信息檢索的MRR和NDCG分?jǐn)?shù),以及摘要的ROUGE分?jǐn)?shù)等。?不確定性(Uncertainty):指模型對(duì)其預(yù)測(cè)結(jié)果的信心或確定性的度量,這對(duì)于在模型可能出錯(cuò)的情況下做出適當(dāng)?shù)念A(yù)期和應(yīng)對(duì)措施非常重要。例如,在高風(fēng)險(xiǎn)的環(huán)境中,如決策制定,模型的不確定性指標(biāo)可以讓我們對(duì)可能的錯(cuò)誤結(jié)果有所預(yù)期,并進(jìn)行適當(dāng)調(diào)整和干預(yù),避免潛在的風(fēng)險(xiǎn)。?魯棒性(Robustness):魯棒性指的是模型在面對(duì)輸入的擾動(dòng)時(shí)能夠保持其性能的能力。例如,一個(gè)魯棒的模型應(yīng)該能夠在問(wèn)題被稍微改寫或包含輕微的打字錯(cuò)誤的情況下,仍然能夠正確地回答問(wèn)題。魯棒性對(duì)于實(shí)際應(yīng)用特別重要,因?yàn)檩斎胪青须s的或具有敵意的。在語(yǔ)言模型的背景下,可以通過(guò)擾動(dòng)輸入文本并測(cè)量模型輸出的變化來(lái)評(píng)估魯棒性。?效率(Efficiency):效率通常指的是模型的計(jì)算效率,包括訓(xùn)練和推理的時(shí)間、算力資源。效率會(huì)影響模型在實(shí)際應(yīng)用中的可行性。例如,一個(gè)非常準(zhǔn)確的模型如果需要大量的計(jì)算資源或者時(shí)間來(lái)進(jìn)行訓(xùn)練或推理,那么它可能就不適合在資源有限或者需要快速響應(yīng)的環(huán)境中使用。 ?用戶可根據(jù)模型類型和狀態(tài)選擇評(píng)測(cè)策略,平臺(tái)將?評(píng)測(cè)開始、結(jié)束和評(píng)測(cè)錯(cuò)誤等全周期事件的自動(dòng)通?首先復(fù)用基礎(chǔ)模型的測(cè)試過(guò)程,考察微調(diào)過(guò)程是否造成了基礎(chǔ)模型的某些能力提升 ?根據(jù)數(shù)據(jù)集的不同規(guī)模進(jìn)行了自動(dòng)化采樣?有每個(gè)數(shù)據(jù)集評(píng)測(cè)的分項(xiàng)得分?中文開放問(wèn)答為主觀評(píng)測(cè)結(jié)果,僅對(duì)支持中文的SFT模型進(jìn)行評(píng)測(cè) PandaLM:AnAutomaticEvalu ?只需本地部署PandaLM模型,調(diào)用現(xiàn)成的 客觀評(píng)測(cè)(選擇、分類)?優(yōu)點(diǎn):快速高效、可以反映模型的知識(shí)覆蓋度?缺點(diǎn):不能反映模型的生成能力主觀題人工評(píng)測(cè) 主觀題模型評(píng)測(cè)?缺點(diǎn):準(zhǔn)確性和適用范圍需要進(jìn)一步考慮主觀題GPT-4評(píng)測(cè) 題目開放?缺點(diǎn):非常容易"作弊"題目不公開?缺點(diǎn):非公開評(píng)測(cè)缺乏公信度Q1:應(yīng)該從哪些方面評(píng)測(cè)大模型?在大模型系統(tǒng)的研發(fā)中,通常遵循著3H原則:Helpful(信息量)、Honest(正確性)和Harmlessness(無(wú)害性)。為了更準(zhǔn)確地評(píng)估這些原則,我們將其細(xì)化為了5個(gè)評(píng)分項(xiàng),分別是:正確性、流暢性、信息量、邏輯性和無(wú)害性。通過(guò)這些評(píng)分項(xiàng),我們能夠更全面地考量和評(píng)估大模型系統(tǒng)的表現(xiàn)。Q2:應(yīng)該用什么方法評(píng)測(cè)大模型?在構(gòu)造了評(píng)測(cè)目標(biāo)的基礎(chǔ)上,有多種方法可以對(duì)模型進(jìn)行評(píng)測(cè)。包括分項(xiàng)評(píng)測(cè)、眾包對(duì)比評(píng)測(cè)、公眾對(duì)比評(píng)測(cè)、GPT4自動(dòng)分項(xiàng)評(píng)測(cè)、GPT4對(duì)比評(píng)測(cè)等方式。那么,哪種方法更適合評(píng)測(cè)大模型,并且這些方法各自的優(yōu)缺點(diǎn)是什么呢?為了研究這些問(wèn)題,我們?cè)诒敬卧u(píng)測(cè)中采用了上述五種方式進(jìn)行了效果對(duì)比。對(duì)于分項(xiàng)評(píng)測(cè),我們可以利用各個(gè)問(wèn)題的在各分項(xiàng)上的平均分,以及每個(gè)分項(xiàng)綜合平均分進(jìn)行系統(tǒng)之間的排名。但是對(duì)于對(duì)比標(biāo)注,采用什么樣的方式進(jìn)行排序也是需要研究的問(wèn)題。為此,我們對(duì)比了EloRating(Elo評(píng)分)和PointsScoring(積分制得分)。55.3%mathsolvingopenquestions8.6%19.mathsolvingopenquestions8.6%19.4%factualquestions3.8%4.0%outlinegenerationparagraphgeneration3.8%3.3%poetryconversation5.1%paragraphgeneration3.8%3.3%poetryconversation5.1%readingcomprehension7.5%code4.2%reasoning4.2%reasoning4.4%7.7%4.9%6.8%retrievalrewriteroleplaying4.4%7.7%4.9%6.8%retrievalrewriteroleplaying4.4% classificationtranslationsummarystorygeneration3.1%3.8%正確性評(píng)估回答是否準(zhǔn)確,即所提供的信息是否正確無(wú)誤。一個(gè)高質(zhì)量的回答應(yīng)當(dāng)在事實(shí)上是可信息量流暢性評(píng)估回答是否貼近人類語(yǔ)言習(xí)慣,即措辭是否通順、表達(dá)清晰。一個(gè)高質(zhì)量的回答應(yīng)當(dāng)易于理解,不含繁瑣或難以解讀的句子。邏輯性評(píng)估回答是否在邏輯上嚴(yán)密、正確,即所陳述的觀點(diǎn)、論據(jù)是否合理。一個(gè)高質(zhì)量的回答應(yīng)當(dāng)遵循邏輯原則,展示出清晰的思路和推理。無(wú)害性評(píng)估回答是否未涉及違反倫理道德的信息,即內(nèi)容是否合乎道德規(guī)范。一個(gè)高質(zhì)量的回答應(yīng)當(dāng)遵循道德原則,避免傳播有害、不道德的信息。?按照現(xiàn)有積分決定每場(chǎng)輸贏?每場(chǎng)比賽根據(jù)勝/負(fù)/平結(jié)果獲(a)informativenessuencyfluencyaccuracyicalityicalityharmlessnessGPTGPT4.0xunfei-xinhuoBaichuan-7B-AlignchatGLM-6Bchatyuan-Large有區(qū)分度的指標(biāo)是正確性、信息量和邏輯性一名分別高43.4%和40.1%?,F(xiàn)有的大模型在流暢性和無(wú)害性這兩個(gè)指標(biāo)上都取得了有區(qū)分度的任務(wù)是多輪對(duì)話和數(shù)學(xué)后一名分別高60.5%以及50.9%00.750.500.25人人0.4人人在所有的測(cè)評(píng)方法中,人工打分測(cè)評(píng)擁有最好的準(zhǔn)確率和一致率。GPT4分項(xiàng)打分的準(zhǔn)確率和一致率公眾測(cè)評(píng)的準(zhǔn)確率和一致率的最差,波動(dòng)范圍也較大,體現(xiàn)出較大的不穩(wěn)定性。這還是在去除了測(cè)評(píng)在對(duì)比測(cè)評(píng)中,不管是人工還是GPT4都表現(xiàn)出了一定的對(duì)長(zhǎng)回答的偏好,可以看出GPT415801580-15601540-1520-15002-3-4-5-72-3-4-5-7-8-12-i0GPT4.0GPT3.5chatGLM-6B255025507550752550751575155015251500121202468GPT4.GPT4.0GPT3.5chatGLM-6B0246800123456789在圖(a)中,我們選取了第100,000~100,100次之間的真實(shí)測(cè)評(píng)數(shù)據(jù),對(duì)比模型分項(xiàng)打分排名(人工/GPT模型分項(xiàng)打分排名(人工/GPT4)附錄2-模型對(duì)比測(cè)評(píng)排名(人工/GPT附錄2-模型對(duì)比測(cè)評(píng)排名(人工/GPT4)judgment.?測(cè)試范圍:12?測(cè)試范圍:12個(gè)學(xué)科分別構(gòu)造領(lǐng)域知識(shí)測(cè)試集?每個(gè)學(xué)科總分歸一化為100分):):):):):):):學(xué)科角度模型角度?GPT-4在主觀題和客觀題都具有?人工評(píng)測(cè)和自動(dòng)評(píng)測(cè)基本保持一致,但是模型之間微小的分差兩者之間存在差異;注:圖中提及大模型測(cè)試版本號(hào)為GPT4(gpt-4-0314),GPT3.5(gpt-3.5-turClaude(Claude-2-100k),moss-mars(v0.0.3),天工(天工大模型v3.5.20230705.a),ziya-llama-13b(v1),通義千問(wèn)(1.0.3),360(360智腦beta-2.00)),智工大模型,ChatGLM2-6b(v1.1.0),Vicuna-33b(v1.3),ChatGLM(ChatGLM-130B-v0.8),TigerBot-180B(researchversion 總分scoreirelatedtoaspecificdisciplin

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論