“弈衡”多模態(tài)大模型評測體系白皮書 2024

上傳人：策*** IP屬地：山西上傳時間：2024-09-17 格式：DOCX 頁數(shù)：49 大?。?21.44KB 積分：19.9 舉報 版權(quán)申訴

已閱讀5頁，還剩44頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

『弈衡』多模態(tài)大模型評測體系白皮書發(fā)布單位：中移智庫編制單位：中國移動通信研究院 1on 31.1多模態(tài)大模型發(fā)展現(xiàn)狀 31.2評測需求 41.3評測問題與挑戰(zhàn) 5 72.1主要評測方式 72.2典型評測維度 72.3常見評測指標 8 o· 4.1整體框架 134.2評測場景 144.3評測要素 164.4評測維度 22os 25 271前言隨著人工智能技術(shù)的迅猛發(fā)展，它已成為全球科技革命的核心驅(qū)動力。特別是2017年Transformer模型提出后，人工智能大模型以超凡的性能和無限的可能性，迅速成為科技界的焦點。2023年初，GPT-4[1]的問世更是在全球范圍內(nèi)引起了巨大反響，標志著大模型技術(shù)首次進入公眾視野[2]。隨著大模型技術(shù)的不斷演進，其處理能力已從單一的文字信息擴展至圖像、語音等多模態(tài)數(shù)據(jù)，多模態(tài)大模型進入快速發(fā)展階段。它們不僅在日常生活中的輔助作畫、圖片解讀等場景中展現(xiàn)出應用潛力，更在視頻數(shù)據(jù)分析、多目標識別等生產(chǎn)領域發(fā)揮著重要作用。目前典型的多模態(tài)大模型有國外的GPT-4Vision、Gemini，國內(nèi)的文心一言、訊飛星火、智譜清言等[3]。這些大模型算法各異，在不同的任務場景下各有優(yōu)劣，如何對這些多模態(tài)大模型開展客觀、科學的評測，評估特定任務場景下的最優(yōu)選擇，對大模型的研發(fā)迭代以及應用落地都具有重要意義。相比于語言類大模型，多模態(tài)大模型具備對文本、圖像、視頻和音頻等數(shù)據(jù)進行綜合處理的能力，在生產(chǎn)生活領域中具有廣泛的應用前景。同時，多模態(tài)大模型評測面臨評測數(shù)據(jù)更多樣、評測任務更豐富、評測方式更復雜、評測成本更昂貴等挑戰(zhàn)。如何應對上述挑戰(zhàn)，構(gòu)建全面、客觀的多模態(tài)大模型評測體系，成為業(yè)界關注的熱點問題。目前，部分業(yè)界企業(yè)和研究機構(gòu)，如微軟、谷歌、智源研究院、上海AI實驗室、騰訊優(yōu)圖實驗室、廈門大學、南洋理工大學等，發(fā)布了相關論文、評測報告，從性能、參數(shù)量等維度對業(yè)界主流多模態(tài)大模型進行了評測，并基于評測結(jié)果形成了榜單，如MMbench、MME等。為提升多模態(tài)大模型的實際應用效果，推動大模型與生產(chǎn)生活的快速結(jié)合，有必要從用戶視角出發(fā)，構(gòu)建一套客觀全面、公平公正的多模態(tài)大模型評測體系。中國移動技術(shù)能力評測中心作為中國移動的第三方專業(yè)評測機構(gòu)，聯(lián)合業(yè)界權(quán)威機構(gòu)、頭部企業(yè)，攻關多模態(tài)大模型評測難點技術(shù)，基于前期評測數(shù)據(jù)和評測經(jīng)驗積累構(gòu)建“弈衡”多模態(tài)大模型評測體系，并編制本白皮書，旨在為多模態(tài)大模型的評測場景、評測指標、評測方式等提供參考基準，為評測數(shù)據(jù)和評測工具的構(gòu)建提供參考指導。本白皮書聚焦于文生圖、圖生文、圖文理解等各類應用場景，深入分析多模態(tài)大模型的應用需求，系統(tǒng)總結(jié)行業(yè)典型評測體系，并創(chuàng)新地提出“弈衡”多模態(tài)大模型評測體系，助力大模型技術(shù)與行業(yè)應用的深度融合。具體包括如下四方面內(nèi)容：一是總結(jié)梳理多模態(tài)大模型的應用需求與評測挑戰(zhàn)，將評測需求劃分為識別、理解、創(chuàng)作、推理四種任務；二是廣泛調(diào)研業(yè)界多模態(tài)大模型評測2技術(shù)和評測體系，從評測方式、評測維度和評測指標等方面進行分析總結(jié)；三是提出“弈衡”多模態(tài)大模型“2-4-6”評測框架，針對圖文雙模態(tài)大模型，詳細闡述基礎任務和應用任務兩大評測場景，評測指標、評測數(shù)據(jù)等四大評測要素，以及功能性、準確性、交互性、安全性等六大評測維度；四是針對多模態(tài)大模型演進趨勢，展望評測技術(shù)重點方向。未來，中國移動將持續(xù)跟進多模態(tài)大模型發(fā)展，不斷優(yōu)化“弈衡”多模態(tài)大模型評測體系，與業(yè)界合作伙伴一道，共同打造評測產(chǎn)業(yè)標準化生態(tài)，推動多模態(tài)大模型產(chǎn)業(yè)成熟和落地應用，為AI+賦能千行百業(yè)貢獻力量。31.1多模態(tài)大模型發(fā)展現(xiàn)狀隨著人工智能技術(shù)的快速發(fā)展，多模態(tài)大模型對圖像、文本、視頻和音頻等信息的綜合處理能力不斷增強，其跨模態(tài)理解能力、高精度識別與理解能力、強大的泛化能力、豐富的表達能力、增強的交互體驗，進一步推動了人工智能技術(shù)在各行業(yè)的廣泛應用[4]，成為推動產(chǎn)業(yè)升級與生產(chǎn)力變革的強大引擎。目前，多模態(tài)大模型正在迅速融入到各行業(yè)的應用場景中，服務于生產(chǎn)生活的各方面。多模態(tài)大模型在多個領域的典型應用如下：領域用于圖片創(chuàng)作、圖片內(nèi)容理解、圖形合成修針對老照片、不完整照片等圖像進行智能修復多模態(tài)大模型中，圖文雙模態(tài)大模型發(fā)展尤為迅速，它在處理圖像與文本及其復雜交互關系上取得了顯著成果，為內(nèi)容創(chuàng)作、信息檢索、智能決策等多個應用場景帶來了革命性的變化，應用范圍不斷拓寬，影響力日益增強。鑒于圖文雙模態(tài)大模型的重要性和廣泛應用前4景，本白皮書主要聚焦圖文大模型評測，深入分析評測需求以及面臨的問題和挑戰(zhàn)，系統(tǒng)討論關鍵評測技術(shù)，旨在為業(yè)界提供一套科學、系統(tǒng)、可操作的圖文雙模態(tài)大模型評測框架，促進技術(shù)的健康發(fā)展與廣泛應用，進一步加速人工智能技術(shù)在各行各業(yè)的深度融合與創(chuàng)新實踐。1.2評測需求圖文大模型相較于傳統(tǒng)視覺模型和大語言模型，在圖像識別、圖文深度理解與推理以及圖片創(chuàng)作等復雜圖文交互任務中展現(xiàn)出了顯著的優(yōu)勢。由于不同圖文大模型在處理應用場景時各有專長，因此選擇適合各行業(yè)特定應用需求的模型變得尤為重要。在對圖文大模型進行評測時，需面向不同任務類型，從各個維度進行綜合全面的評測，以評估圖文大模型的真實性能和用戶體驗。目前，對圖文大模型的評測需求包括但不限于以下幾類任務：識別類任務：識別類任務主要是指對圖片中的特定事物進行識別、計數(shù)等工作。識別類任務主要可分為基礎任務和應用任務兩類。其中基礎任務包含實例識別、顏色識別、手勢識別、目標檢測等基礎場景；應用任務則包含商品識別、垃圾滿溢識別、道路安全識別、智慧養(yǎng)殖等更加復雜的端到端場景。識別類任務作為目前最廣泛應用的任務之一，是衡量圖文大模型性能的重要場景，具有極高的評測價值。在評測識別類任務時，需著重關注模型的準確性、魯棒性、實時性和泛化能力等指標。理解類任務：理解類任務主要是指針對輸入圖片進行內(nèi)容理解，并回答對應問題。理解類任務也可分為基礎類及應用類兩種?；A類理解任務側(cè)重于考察圖文大模型的通用能力，而不過分強調(diào)某一特定應用場景中的實際能力。常見的基礎類任務包含場景理解、實例屬性、空間關系、字幕匹配、圖像質(zhì)量分析等底層核心場景；而應用類任務則著重考察圖文大模型在專一領域的實際能力，與目前具有智能化需求的場景結(jié)合更加緊密，如活體檢測、人像屬性、人臉屬性、口罩檢測、舞蹈藝考評分等。理解類任務相較識別類任務，不僅僅考察模型對某一特定事物的特征識別能力，更要求圖文大模型對圖像整體場景及各事物之間關系進行精準把控，并依據(jù)提問內(nèi)容進行匹配跟蹤，相較識別任務難度更大。在評測理解類任務時，需著重關注模型的準確性、上下文感知、通用性與專一性以及語義一致性等指標。創(chuàng)作類任務：創(chuàng)作類任務主要是指通過給定的文字或圖像提示信息進行圖片創(chuàng)作或圖像修改。常見的創(chuàng)作類任務包含圖像生成、圖像風格轉(zhuǎn)換、圖像合成等，圖文大模型根據(jù)要求生成相應圖片，圖片需要在美觀上符合人類需求，在邏輯上符合基本的事物原理，在匹配度上完全實現(xiàn)提示詞或提示圖片中的內(nèi)容要求。創(chuàng)作類任務綜合考察了圖文大模型的文字圖像理解和圖像創(chuàng)作能力，是目前應用最為廣泛關注度最高的任務之一。在評估創(chuàng)作類任務時，需著重關注模型的生成質(zhì)量、內(nèi)容匹配度、多樣性和創(chuàng)新性等各項指標。推理類任務：推理類任務主要是指結(jié)合輸入的圖像和文本信息，進行邏輯推理、歸納推理或演繹推理等。推理類任務著重考察圖文大模型對圖片內(nèi)容中涉及的各類邏輯知識進行理解、推理和解答的能力，是對圖文大模型內(nèi)在核心思考能力的真實反饋。常見的推理類任務包含下一張圖像預測、代碼編寫、數(shù)學推理等。這些問題需要精細的思考及相應的專業(yè)知識訓練才可作答，對普通人而言也具有較高難度，是對圖文大模型核心能力的重點考察方向。在評測推理類任務時，需著重關注模型的推理準確性、推理深度、專業(yè)知識應用、邏輯一致性和可解釋性等指標。1.3評測問題與挑戰(zhàn)圖文大模型具有任務多樣、模型復雜等特點，傳統(tǒng)小模型的評測方式無法完全評估圖文大模型在特定場景下的實際使用效果，需要針對圖文大模型評測的問題與挑戰(zhàn)進行深入分析，并不斷迭代評測方法，以更好地促進圖文大模型的良性發(fā)展。首先，圖文大模型的高泛化性對評測任務選取提出挑戰(zhàn)。圖文大模型最突出的特點就在于任務適用性廣，一個圖文大模型往往可以在識別、理解、創(chuàng)作、推理等各類任務中實現(xiàn)較好的性能。但是，任何模型都具有局限性，目前某些任務圖文大模型尚無法解決。因此，如何選擇合適的評測任務場景，既能滿足業(yè)務需求，又不超越模型現(xiàn)有能力，便成為了一項重要的考慮因素。為全面評價模型能力，需要對行業(yè)痛點和圖文大模型研究現(xiàn)狀具有充分的了解，從而制定更為全面、合理的評測任務。其次，圖文大模型的高復雜度對評測數(shù)據(jù)構(gòu)建提出更高要求。圖文大模型參數(shù)量極大，內(nèi)部極為復雜，相關訓練原理和訓練數(shù)據(jù)分布難以獲取，這就導致圖文大模型評測數(shù)據(jù)構(gòu)建難度大。人類視角下的題目難易與模型視角下的不一定一致，比如繪制人手對于人類來說比較簡單，而對于目前的圖文大模型則較為困難。如何梯度性設置測試用例，以合適的低中高難度比例對模型展開全面測試，真實反饋出模型性能，是一項需要解決的難點問題。需要針對各個任務領域，對業(yè)界典型圖文大模型進行大量驗證，不斷迭代優(yōu)化測試用例的設置，才能構(gòu)建更為合理的評測數(shù)據(jù)。再者，圖文大模型評價結(jié)果的客觀性也需要重點考慮。圖文大模型的任務設置和輸出結(jié)果豐富多樣，這其中既有計數(shù)、識別等易客觀評測的基礎任務，也有圖像生成、風格轉(zhuǎn)換等創(chuàng)作類任務。后者往往需要通過主觀評價的方式對圖文s6大模型的對應能力進行測試評估，這對評價人員技術(shù)水平提出更高要求。因此，需要制定好主觀評測體系基準，盡可能縮小不同評價人員帶來的隨機程度，以更加客觀的方式實現(xiàn)對圖文大模型創(chuàng)作能力的公平評價。綜上所述，隨著圖文大模型的快速發(fā)展，相關評測體系也需要不斷迭代優(yōu)化，著力解決行業(yè)痛點，積極應對評測挑戰(zhàn)，以客觀全面、公平公正、用戶視角為評測基本原則，對圖文大模型展開合理測試，更好地促進圖文大模型的良性發(fā)展。7近年來圖文大模型發(fā)展迅猛，各大企業(yè)和研究機構(gòu)對圖文大模型評測體系進行了深入探索，并發(fā)布論文、技術(shù)報告、評測榜單等各類研究成果[5]。本章參考谷歌、微軟、智譜研究院、上海AI實驗室、騰訊等企業(yè)及研究機構(gòu)的成果，對主要評測方式、典型評測維度和常見評測指標等關鍵評測技術(shù)進行梳理與總結(jié)。2.1主要評測方式圖文大模型的評測方式主要包括客觀評測和主觀評測兩種?？陀^評測是指利用客觀評價指標對圖文大模型的生成結(jié)果進行定量評估，常見的客觀評測方式有準確率、召回率、模型推理時間、可支持圖片分辨率等?？陀^評價指標種類多樣，可以從各個維度對圖文大模型的生成結(jié)果進行準確、全面、公平的評價，是對大模型進行評測的主要方式。此外，由于客觀評測指標可由計算機直接計算得到，因此能夠通過自動化腳本實現(xiàn)批量測試，大幅提高評測效率和規(guī)模[6]。主觀評測是指通過人工打分的方式對圖文大模型的預測結(jié)果進行評價，主要應用于創(chuàng)作類任務中，如圖片生成、風格變換、圖像合成等[7]，這些測試用例沒有明確的標準答案，因此無法以合適的客觀指標進行完整評測。主觀評測相較客觀評測更加靈活，更能真實反映用戶視角下的模型能力，但存在評價結(jié)果不穩(wěn)定、難以大規(guī)模實施等問題，因此，需要針對具體任務制定合理的主觀評測方法。2.2典型評測維度依據(jù)谷歌、微軟、上海AI實驗室、騰訊等企業(yè)和研究機構(gòu)的研究，圖文大模型的典型評測維度，可分為模型性能、模型泛化能力、模型魯棒性和模型一致性四個方面[8]。模型性能評測是圖文大模型的核心維度，主要評測圖文大模型對圖像和文字的識別能力、8理解能力、推理能力，如生成的圖像或文字結(jié)果相較正確答案的準確度。常用性能評測指標有圖像識別準確率、與提示詞的匹配度等。模型泛化能力評測主要評測圖文大模型在多任務上的適配能力，該評測維度可以反映出大模型在實際部署中的泛化性。常見的評測方式為針對大模型未訓練的場景和圖文數(shù)據(jù)，測試模型的應用效果。模型魯棒性評測主要評測模型應對各類干擾時的魯棒性及可靠性，如對輸入圖片施加肉眼不可見的噪聲和數(shù)據(jù)擾動，驗證對抗攻擊情形下模型應用效果。模型一致性評測主要評測在面對不同規(guī)模解空間的問題時，圖文大模型能否在相同知識點上給出一致答案的能力，如模型生成的圖片描述是否與相同知識點的判斷結(jié)果一致。2.3常見評測指標目前，各類圖文大模型評測指標從不同角度對模型性能進行了綜合評判，常見指標有準RP、碳足跡等[9]。兼顧圖文大模型預測結(jié)果的正確樣本比例和查計算模型訓練、推理階段消耗電力的二氧化9除以上提到的各類常用指標外，部分評測還針對圖文大模型在業(yè)務中的實際應用場景，選取更有針對性更能反映業(yè)務性能的其他指標，如召回率、多輪對話輪次等。近年來，隨著圖文大模型的快速發(fā)展，多家科研機構(gòu)及企業(yè)提出了一系列大模型評測體系，如上海AI實驗室的MMBench、華中科技大學的OCRBench、智源研究院的智源評測體系、微軟的LLaVA-Bench、希伯來大學的VisIT-Bench、騰訊的SEED-Bench等，這些體系從多個方面對圖文大模型進行了評測，具有較高的參考和應用價值。本章將對典型評測體系進行概括介紹。lMMBench[10]MMBench是上海人工智能實驗室于2023年8月提出的多模態(tài)大模型評測體系，相關研發(fā)人員針對當下評測方式存在的主觀評測多樣性差、客觀評測任務覆蓋少等問題，提出了逐漸細化的評測任務設置和CirularEval評測方式。具體來說，在評測數(shù)據(jù)構(gòu)建上，MMBench從三個維度設計了大量單選題，第一級是感知與推理能力，第二級包含細粒度感知、邏輯推理、相關性推理等六項能力，第三級包含目標定位、圖像質(zhì)量、社會關系等二十項能力。在評測方式上，針對當前大模型指令跟隨性不完善的問題，利用ChatGPT進行輔助評測，并將問題選項進行環(huán)狀重排，從而更好地反映大模型的真實性能。lOCRBench[11]OCRBench是華中科技大學聯(lián)合其它機構(gòu)于2024年2月提出的多模態(tài)大模型評測體系，該體系針對OCR領域的常見任務和典型數(shù)據(jù)集，對Gemini、GPT-4V等十四個多模態(tài)大模型進行了評測。具體來說，OCRBench聚焦于多模態(tài)大模型的OCR能力，針對文字識別、場景文本視覺問答、文檔視覺問答、關鍵信息抽取和手寫數(shù)學表達式識別這五種任務設計專門的提示詞，并選取COCOText、STVQA等二十七個主流開源數(shù)據(jù)集進行測試驗證。l智源評測體系[12]智源評測體系是智源研究院于2024年5月發(fā)布的大模型評測體系，該體系對國內(nèi)外一百四十余語言及多模態(tài)大模型進行了全方位測評。在評測任務設置上，智源評測體系針對圖片問答、文本生成圖像、文本生成視頻、圖像文本匹配等任務進行了測試，主要考察了模型的理解和生成能力。在評測數(shù)據(jù)選取上，該體系選取了COCO、Flickr30k等主流開源數(shù)據(jù)集。在評價指標篩選上，該體系從主觀和客觀兩個維度針對各個任務進行了單獨設計，客觀指標主要選取了準確率、召回率、FID、CLIPScore等常見指標，主觀指標則采取人工打分的形式進行模型評價。lLLaVA-Bench[13]LLaVA-Bench是威斯康星大學、微軟等研究團體于2023年4月提出的多模態(tài)大模型評測數(shù)據(jù)集，包含LLaVA-Bench（COCO）和LLaVA-Bench（野外）兩個數(shù)據(jù)集。它聚焦于視覺指令跟隨任務，著重考察圖文大模型的對話、圖片描述及復雜推理能力，在結(jié)果評定上采用準確率作為評測指標，并利用GPT-4輔助進行評定，綜合評測圖文大模型在室內(nèi)場景和室外場景下的性能。lVisIT-Bench[14]VisIT-Bench是希伯來大學、谷歌等研究團體于2023年8月提出的圖文大模型評測基準，包含592個帶人工標注的圖文問答對，并具有多達70個提示詞類型，綜合考察了圖文大模型的識別、場景理解、家裝設計、圖表解釋等利用GPT-4對圖文大模型性能進行評定，并利用人工輔助驗證的方式增強結(jié)果的可信度。lSEED-Bench[15]SEED-Bench是騰訊人工智能實驗室于2023年7月提出的多模態(tài)大模型評測基準，包含了19000道選擇題，并將測試用例分為多個難度層級，涵蓋了場景理解、實例屬性、圖表理解等十二個評測維度，考察大模型對圖像文本的理解和創(chuàng)作能力。SEED-Bench采用自動化評測方式，利用客觀評價指標對圖片創(chuàng)作等主觀任務展開評測。具體來說，針對文本創(chuàng)作類題目，SEED-Bench通過計算模型對各個人工標注選項的困惑度來獲取模型最佳預測結(jié)果，再通過最佳預測結(jié)果和正確選項計算模型準確率；針對圖片創(chuàng)作類題目，通過計算模型生成圖像與各人工標注選項之間的CLIP相似度來獲取模型最佳預測結(jié)果，再通過最佳預測結(jié)果和正確選項計算模型準確率。lConBench[16]ConBench是北京大學聯(lián)合字節(jié)跳動于2024年5月提出的多模態(tài)大模型評測基準，它彌補了多模態(tài)大模型一致性評價的空白。對于同一個知識點，不同的提問方式可能會獲得不一致的答案。為了評估模型的一致性，ConBench從四個高質(zhì)量的多模態(tài)基準數(shù)據(jù)集中手動選擇1K張圖片：MME、SeedBench、MMBench和MMMU，每張圖片包含三個判別式問題（判斷題、選擇題與限制性問答題以及圍繞相同知識點的生成式prompt，評測知識點分為觀察能力、復雜推理和專業(yè)知識三個難度層級，模型的一致性由判別和生成兩個角度體現(xiàn)，其中，Caption和三個判別式回答之間的一致性通過GPT/GPT-4自動判斷。這些評測體系從不同的側(cè)重點對圖文大模型的準確性、參數(shù)量等方面進行了評測，在評測指標選取、評測數(shù)據(jù)構(gòu)建、評測工具平臺搭建等各個角度進行了大量研究，推動了圖文大模型評測體系的發(fā)展。但是，在圖文大模型的實際應用中，用戶也會考慮功能性、交互性、安全性等因素，當前評測體系對于這些需求的考量仍略顯不足。隨著人工智能技術(shù)的蓬勃發(fā)展，圖文大模型的應用場景日益廣泛，展現(xiàn)出卓越的泛化與適應能力。為全面考量圖文大模型的圖像和文字綜合理解能力，我們需遵循客觀全面、公平公正和用戶視角的評測原則對圖文大模型開展評測?？陀^全面是評測的基本要求，是指要以嚴格的標準和流程進行評測，從評測數(shù)據(jù)集、評測任務、評價指標和評測工具四個方面進行圖文大模型評估。公平公正是評測的根本要求，要求測試者給予所有參測模型公平的機會和條件，以公開透明的方式評測全過程。用戶視角是評測的價值要求，要求從用戶的需求、期望和體驗角度開展評測，分析圖文大模型的實際應用價值。本章基于上述三個原則提出“弈衡”多模態(tài)大模型評測體系，旨在為圖文大模型的技術(shù)創(chuàng)新和應用實踐提供堅實支撐，為人工智能領域的持續(xù)發(fā)展注入新的活力，助力其更好地服務社會，滿足生產(chǎn)生活的多樣化需求。4.1整體框架中國移動技術(shù)能力評測中心構(gòu)建“弈衡”多模態(tài)大模型評測體系，采用“2-4-6”層級架構(gòu)，包含2類評測場景、4項評測要素以及6種評測維度，從功能、性能、可靠性、安全性、交互性等方面對圖文大模型的圖文理解能力進行全方位評測。詳細評測框架如下圖所示：隨著大模型技術(shù)的不斷演進以及應用的日益廣泛，圖文大模型的評測需求也將不斷變化。為了全面、客觀、公正地評價圖文大模型的能力，后續(xù)我們會對“弈衡”多模態(tài)大模型評測體系進行持續(xù)更新和完善，如任務設置、數(shù)據(jù)集構(gòu)建、評價指標設計、評測平臺搭建等等，以促進圖文大模型技術(shù)發(fā)展和行業(yè)應用。4.2評測場景在對圖文大模型進行評測時，需要根據(jù)不同的任務類型逐一評判大模型在各個特定場景下的表現(xiàn)優(yōu)劣。“弈衡”多模態(tài)大模型評測體系綜合考慮現(xiàn)有的圖文大模型應用場景，依據(jù)任務性質(zhì)、技術(shù)難度與復雜度、應用場景以及知識要求，將圖文大模型評測任務分為基礎任務和應用任務兩類。l基礎任務基礎任務主要關注圖文結(jié)合的各類通用任務場景，這些場景適用性廣，可為后續(xù)的應用任務提供方法參考和對標基線?；A任務主要包含識別、理解、創(chuàng)作和推理四大類，每一大類又下轄大量基礎子任務，典型場景如下：任務根據(jù)圖片是否模糊、光照是否正常、是否存在遮擋等因素分析基礎任務是構(gòu)成圖文大模型應用場景的根本，針對基礎任務進行大模型評測，可以很好地反映圖文大模型的多任務泛化性，具有重要的研究意義。因此，在評估圖文大模型前，先對基礎任務進行定義和梳理是極為重要且不可或缺的。l應用任務除各類基礎任務外，一個合格的圖文大模型還應在各類特定領域和場景下實現(xiàn)卓越性能，因此，大模型評測時應綜合考量模型在應用任務中的識別、理解、創(chuàng)作和推理等表現(xiàn)，確保其在實際生產(chǎn)生活中可用、好用、易用。典型場景如下：任務別針對圖片中描述的圖形、邏輯等數(shù)學問題進行回答，檢驗模與基礎任務相比，應用任務場景更加固定，但其難度更大，涉及更高層次的技術(shù)能力，可以反映圖文大模型面向具體領域和特定行業(yè)場景的泛化能力。4.3評測要素“弈衡”多模態(tài)大模型評測體系的評測四要素包括評測方式、評測指標、評測數(shù)據(jù)和評測工具。重點考慮測試樣本構(gòu)造和測試結(jié)果判斷兩個方面。在測試樣本構(gòu)造方面，全面考慮零樣本（zero-shot）、單樣本（one-shot）、少樣本（few-shot）以及提示工程（promptengineering）等評測方式。在測試結(jié)果判斷方面，根據(jù)是否有標準答案，使用客觀評測或主觀評價進行評定。l測試樣本構(gòu)造方式圖文大模型泛化性強，可適用任務廣，被用于解決各類實際問題。在實際應用中，經(jīng)常存在數(shù)據(jù)未包含在預訓練數(shù)據(jù)中的場景[17]，這就要求圖文大模型在零樣本學習的條件下依舊保持優(yōu)秀性能。而對于人臉識別等常見任務，圖文大模型已經(jīng)經(jīng)歷過多次迭代和訓練，只需基于少量樣本進行簡單優(yōu)化即可在特定業(yè)務場景實現(xiàn)良好性能，這屬于少樣本任務。此外，當前研究表明，提示詞的設置會極大程度地影響模型效果，針對同一內(nèi)容的不同提問方式，可能導致模型出現(xiàn)巨大的性能差異?！稗暮狻倍嗄B(tài)大模型評測體系綜合考慮上述三種數(shù)據(jù)構(gòu)造方式，以及提示工程的研究內(nèi)容，綜合評測模型性能，探索圖文大模型在各種任務場景下的最優(yōu)效果，以滿足實際業(yè)務應用需求。零樣本：零樣本任務是指模型在訓練階段完全沒有接觸過測試場景及測試任務相關的圖文數(shù)據(jù)，模型需要針對全新場景完成預測任務。這類任務設置不需要模型進行針對性調(diào)優(yōu)，直接考察了圖文大模型對新知識的理解和泛化能力，具有極高的應用價值。單樣本：在單樣本任務中，圖文大模型只能在訓練階段接觸到一個與實際部署任務相關的圖片或文字樣本，模型需要提取這一個樣本中的核心特征，并將其應用于其他同類任務樣本中。該任務設置相較傳統(tǒng)多樣本任務難度更大，更加考察大模型的核心特征提取能力。少樣本：少樣本任務是指圖文大模型在訓練階段可以接觸到少量目標任務的圖文樣本，通?？晌⒄{(diào)樣本數(shù)量在幾個到幾十個之間。相較于單樣本，少樣本任務難度相對更低，但實際應用價值更高。在圖文大模型的實際部署應用中，模型需針對各類具有差異性的業(yè)務數(shù)據(jù)完成預測，因此，被測圖文大模型是否可利用少量典型數(shù)據(jù)對模型進行微調(diào)提升模型性能，即是否可以在少樣本任務設置下實現(xiàn)較好的性能表現(xiàn)便至關重要。提示工程：圖文大模型的任務數(shù)據(jù)通常包含圖片及文字兩類，相較大語言模型問題設置難度更大。研究表明，針對同一內(nèi)容的不同提示詞會導致大模型產(chǎn)生完全不同的結(jié)果。因此，在對圖文大模型進行評測時，需結(jié)合實際業(yè)務場景進行廣泛調(diào)研，構(gòu)建更加合理有效的圖文指令，以更好地評測特定業(yè)務場景下模型的生成能力和潛力。l測試結(jié)果判斷方式在對圖文大模型進行評測時，選擇合適的評估指標至關重要。為此，應根據(jù)不同任務的特性定制設計評估指標，結(jié)合客觀和主觀兩種評價方式。對于問題有明確標準答案的任務，如口罩檢測、人群計數(shù)等，應當主要使用各類客觀指標進行評測，如準確率、F1值、mAP、BLEU等，這些指標能夠比對模型預測結(jié)果與真實標注，并利用各類公式完成測試結(jié)果評判。利用客觀指標篩選可以更加公平、合理、全面地評價各大模型性能。對于沒有固定標準答案的任務，如圖像創(chuàng)作、風格遷移等創(chuàng)作類任務，客觀指標便很難全面綜合地對模型性能進行評估，此時就需要利用人工打分等主觀評判方式。主觀評判需要建立一個由三名及以上領域?qū)＜医M成的評審團，其中，評審員不僅需要對圖文大模型的發(fā)展現(xiàn)狀及相關技術(shù)有廣泛了解，還需要對模型評測具有豐富的實踐經(jīng)驗，以此更加精準地評估圖文大模型的回答質(zhì)量。評審團需針對特定任務設置評分標準，如針對圖像創(chuàng)作任務可從美觀性、邏輯性、匹配度等角度進行衡量，并對模型預測結(jié)果進行獨立評判，最終再通過計算平均值等統(tǒng)計學手段統(tǒng)計評測結(jié)果。相較客觀評價方式，主觀評價具有靈活性高以及與實際部署場景貼近等優(yōu)勢。在構(gòu)建圖文大模型評測體系時，需根據(jù)任務特性將評測指標分為客觀和主觀兩大類?？陀^類指標的主要特征是確定性和可量化性，主要適用于評測有明確答案的任務，如識別圖片中行人的數(shù)量。該類指標的評估結(jié)果易于量化和比較，可為圖文大模型的評估提供一個穩(wěn)定且一致的衡量標準。主觀類指標主要用于評估沒有固定標準答案的開放性問題，如文生圖和風格遷移等創(chuàng)作型任務，在評估時需采取更為靈活的方法，通?？赏ㄟ^人工打分綜合評價圖文大模型的應用效果。雖然主觀類指標相較于客觀類指標存在一定的不確定性，但優(yōu)勢在于它更加靈活，更能從用戶視角反映模型的實際表現(xiàn)。l客觀類為確保評測的客觀性、全面性和公正性，降低主觀評測對評估結(jié)果的影響，需要利用準確率、召回率等客觀性評價指標完成對模型的綜合考量?？陀^指標通常可應用于評估識別、理解和推理任務的準確性。對于識別任務，如實例識別、手勢識別、垃圾滿溢、品牌LOGO識別等，由于模型推理結(jié)果通常為單一數(shù)值，因此可根據(jù)分類任務的標準，選取準確率（Accuracy）、精確度（Precision）、召回率（Recall）等指標進行評測。對于理解任務，如口罩位置檢測、場景理解等，則側(cè)重于考察大模型對整張圖片內(nèi)容的全面理解，這其中可能涉及目標物體的位置信息，因此常使用交并比（IoU）、CIDEr等評測指標。而對于推理任務，如下一張圖像預測，著重考查圖文大模型的邏輯理解能力，可以利用FID、SSIM等圖像類評價指標對模型預測結(jié)果進行客觀評測。除準確性外，實時性、連續(xù)性等功能指標也是評價圖文大模型的重要維度。其中，實時性主要考察圖文大模型推理的時延，在實際測試時需要根據(jù)任務特定要求，分別統(tǒng)計模型在處理短文本問答、長文本問答、單圖片問答和多圖片問答等任務場景下的響應時間，并進行綜合比對。連續(xù)性著重考察圖文大模型的記憶能力，可通過模型支持的問答最大連續(xù)輪次等指標進行評測。這些客觀指標全面反映了圖文大模型的綜合能力，在實際應用中具有重要價值。l主觀類從用戶視角全面評估模型的實際應用能力，除采用客觀指標外，還須通過主觀指標對模型展開評測。主觀評測主要集中在創(chuàng)作類任務中，如圖像創(chuàng)作、風格變換、圖像合成等，這些任務往往需要模型發(fā)揮創(chuàng)造性，開放性地生成預測結(jié)果，因此沒有標準答案。在進行主觀評測時，首先需要組建評審專家團，并由評審團制定評分標準。評分標準需綜合考察圖文大模型能力，以盡可能全面的角度進行評測，在構(gòu)建評分標準時，需從各個維度對評測任務進行剖析，分維度制定評測指標。除圖片美觀性、文字優(yōu)美性等純主觀維度外，還需關注圖片內(nèi)容的正確性、文字的語病錯字、與提示詞要求的匹配程度等相對客觀的評測維度。如在圖像創(chuàng)作任務中，可從創(chuàng)作圖像的美觀程度、邏輯正確性、圖像中要素與關鍵詞的匹配程度三個方面評價模型，并分別從各個方面制定打分標準，比如在關鍵詞匹配程度上，可以根據(jù)匹配度的百分比進行打分，在邏輯正確性上，可從各事物本身正確性和各事物間相對關系正確性兩個方面進行打分。在采用主觀指標進行評估時，首先，需制定合理全面的評價標準；其次，需由專家團中各位專家依據(jù)既定標準對模型表現(xiàn)獨立評分；最后，采用內(nèi)部一致性檢驗、加權(quán)平均統(tǒng)計等多種方法統(tǒng)計評估結(jié)果，在綜合不同專家意見的同時，確保評分一致性，降低人為因素導致的誤差，最大程度提高評測結(jié)果的穩(wěn)定性和可信度。構(gòu)建評測數(shù)據(jù)需要以任務為導向，覆蓋基礎場景和實際應用場景，綜合考察圖文大模型在各種任務下的泛化能力與實際應用效果。在數(shù)據(jù)構(gòu)建時，一方面，應盡量避免使用知名的開源數(shù)據(jù)集，因為這些數(shù)據(jù)往往會出現(xiàn)在圖文大模型的訓練集中，無法真實考察模型性能。另一方面，應注意梯度性構(gòu)建評測用例，合理設置難易比例，不過分脫離當前業(yè)界模型的能力范圍，同時有效區(qū)分各模型的能力水平。l數(shù)據(jù)集構(gòu)造原則在構(gòu)建評測數(shù)據(jù)時，須遵循豐富性、公平性和準確性三項核心原則，全面考察圖文大模型的綜合能力，客觀評估其真實能力。豐富性：在構(gòu)建評測數(shù)據(jù)時，需要涵蓋業(yè)界各種應用場景，真實反映圖文大模型的實際應用表現(xiàn)。在測試用例題目設置上，需要采取多元化形式，包括簡答、選擇、定向回答、圖片生成等多種形式進行評測，同時設置不同難度等級的用例。公平性：構(gòu)建評測數(shù)據(jù)時需要確保數(shù)據(jù)分布在語言、文化等方面具有公平性，并確保不同國家和地區(qū)的研究者可以在相同的任務設置下完成評測。準確性：在構(gòu)建評測數(shù)據(jù)時必須確保準確性。題目設計應避免歧義，確保其邏輯嚴密，能夠被不同評測專家一致理解和認可。答案設計應與人類的常識和認知相符，并在測試過程中不斷檢測和修正可能出現(xiàn)的錯誤，以確保評估結(jié)果的準確性和可靠性。l數(shù)據(jù)集構(gòu)造方法為了更加客觀全面地構(gòu)建評測數(shù)據(jù)，以真實反映圖文大模型的實際應用能力，“弈衡”多模態(tài)大模型評測體系從用戶視角出發(fā)，以豐富性、公平性和準確性為原則，分別面向基礎任務和應用任務探索評測數(shù)據(jù)構(gòu)造策略，綜合評價圖文大模型性能。典型構(gòu)造方法如下：基礎任務數(shù)據(jù)集構(gòu)造：在各類識別、檢測、計數(shù)等基礎任務中構(gòu)建評測數(shù)據(jù)時，需優(yōu)先確保全面性。一方面，廣泛選取各種任務場景下的圖像及文字數(shù)據(jù)。如在實例識別任務中，綜合考察圖文大模型對動物、載具、衣著、家具、食物、植物、個人物品等各類生活中常見類別的識別能力，并根據(jù)難易度進行梯度設置，簡單題目應選取目標物體的典型照片，特征明顯清晰，而困難題目則應相對違反常識，以更具迷惑性的方式進行數(shù)據(jù)構(gòu)造，如畫在墻面上的樹木。另一方面，在提示詞上應從問題形式上確保全面性，構(gòu)造選擇、簡答、判斷等各類題目，兼顧中文、英文等語種。此外，還應考慮為數(shù)據(jù)增加視覺提示，如在圖片中添加箭頭、圓圈、方框等標記作為會話輔助，與文字提示詞一起作為大模型輸入，然后要求圖文大模型回答視覺提示物體的類別、數(shù)量等問題，以增加題目難度。如上，在基礎任務的評測數(shù)據(jù)構(gòu)造中，需要設置豐富多樣的題目，全方位測試模型對典型場景的識別、理解、推理和創(chuàng)作能力。應用任務數(shù)據(jù)集構(gòu)造：應用任務應更加注重從業(yè)務場景出發(fā)，考察圖文大模型在特定場景下的實際應用能力，相較于基礎任務偏向廣度考察，應用任務的數(shù)據(jù)構(gòu)造則著重體現(xiàn)大模型能力的深度考察。需面向部署場景，發(fā)掘任務需求，確保評測數(shù)據(jù)能夠更好地反映模型的魯棒性和可用性。如在口罩檢測任務中，不僅僅考察圖片中是否有人未佩戴口罩，還應詢問大模型是否有人未正確佩戴口罩，從而識別出口罩未覆蓋鼻子、嘴部等錯誤的佩戴方式，測試模型在實際部署中的可用性；在活體檢測任務中，須深入研究并借鑒業(yè)界在構(gòu)造非活體數(shù)據(jù)方面的各種方法，包括通過照片翻拍、屏幕翻拍、使用面具等手段來生成數(shù)據(jù)，確保評估數(shù)據(jù)集更貼近實際應用場景。為全面解決圖文大模型評測在技術(shù)驗證、質(zhì)量控制、風險管理和合規(guī)性等多個層面上的需求，同時規(guī)范模型評測，克服當前評測過程中存在的速度慢、不全面、不穩(wěn)定等局限性問題，中國移動技術(shù)能力評測中心構(gòu)建了“弈衡”大模型評測平臺，該平臺以智能化自動化、靈活可擴展性、交互體驗設計為原則，提供標準化、公正、安全且易于操作的評測服務，推動圖文大模型技術(shù)的持續(xù)創(chuàng)新和應用拓展。具體相關能力如下：l數(shù)據(jù)與模型管理數(shù)據(jù)與模型管理能力包括數(shù)據(jù)管理、模型管理等功能，主要作用為幫助用戶更好地構(gòu)建數(shù)據(jù)集，并完成對模型的啟停管理。相關功能具體描述如下：數(shù)據(jù)管理：提供標準化的數(shù)據(jù)存儲、訪問和預處理能力，包括清洗、去重、去噪和異常值處理等核心功能。模型管理：提供全面的模型接入支持，能夠?qū)崿F(xiàn)自動化模型配置，并廣泛兼容各類開源模型，確保了評測平臺的開放性和靈活性。l評測流程管理為提升圖文大模型評測效率，評測平臺具有完整的評測流程管理功能，可涵蓋數(shù)據(jù)構(gòu)建、任務下發(fā)、任務監(jiān)控、任務審核等大模型評測的關鍵環(huán)節(jié)，為用戶提供全自動評測服務。相關功能如下：評測數(shù)據(jù)構(gòu)建：用戶可根據(jù)評測任務自主設計數(shù)據(jù)集和選擇評測指標，實現(xiàn)數(shù)據(jù)預處理，并提供多樣化指標模板，滿足用戶的評測需求，增強評測的靈活性和實用性。評測任務下發(fā)：評測任務下發(fā)是評測平臺高效自動化特性之一，用戶無需深入了解不同模型的接口細節(jié)，只需在平臺上選定評測對象和相應的數(shù)據(jù)集，即可通過一鍵式操作快速下發(fā)評測任務，從而簡化評測流程，減少人工設置和干預，提升圖文大模型評測的效率和準確性，并確保了評測的一致性和可復現(xiàn)性。評測任務監(jiān)控：用戶可通過用戶界面，對圖文大模型評測進度進行直觀跟蹤，實時監(jiān)控評測任務的執(zhí)行狀態(tài)，包括當前的進度、已處理的數(shù)據(jù)量等。該能力有助于及時發(fā)現(xiàn)并解決評測過程中可能出現(xiàn)的問題，確保圖文大模型評測的順利進行。評測任務審核：評測任務審核功能允許專業(yè)人員對平臺自動生成的評測結(jié)果進行人工核查，以確保評測結(jié)果的準確性。在評測結(jié)束后，平臺會進行自動判卷，此時人工可進行再次核查，為評測的精確性和權(quán)威性提供額外保障，增強評測結(jié)果的可信度和實用性。l結(jié)果分析與展示評測平臺除了各項自動化能力，還可對評測結(jié)果進行分析與展示，計算各參測模型的綜合得分并進行排名，梳理并總結(jié)各圖文大模型的綜合能力水平。具體相關功能如下：專家評分：對于圖片創(chuàng)作等生成類任務，常規(guī)的客觀指標很難對圖文大模型的真實能力進行綜合評判，評測平臺提供專家評分功能，對模型能力進行主觀評價。榜單生成：評測平臺可依據(jù)模型的自動化評測結(jié)果和專家評分，自動整理圖文大模型在不同指標上的表現(xiàn)，一鍵生成模型綜合能力排名，幫助用戶快速了解模型能力水平。榜單圖形化展示：評測平臺可通過圖形化界面，清晰展示各圖文大模型的綜合排名，將模型在關鍵性能指標上的相對排名直觀展示給用戶，幫助用戶快速甄選優(yōu)秀模型、及時發(fā)現(xiàn)模型性能瓶頸，為用戶選擇和優(yōu)化模型提供支持。智能分析與報告：評測平臺可通過AI技術(shù)，深度挖掘評測數(shù)據(jù)，精準捕捉并總結(jié)模型能力，自動編制評測報告，呈現(xiàn)圖文大模型的性能指標及排名，全面評估和比較不同模型的性能表現(xiàn)?！稗暮狻贝竽Ｐ驮u測平臺為用戶提供了一個全面、高效、智能的評測解決方案，具有“2-4-6”多維度評測體系、業(yè)界領先的自動化評測能力、用戶友好的“一鍵測試”功能、高可拓展性等多項優(yōu)勢，可廣泛應用于圖文大模型評測，大幅提高評測效率和準確性，對于圖文大型模型的評測和優(yōu)化具有重要意義。4.4評測維度為全面評估和綜合測試圖文大模型在識別、理解、推理、創(chuàng)作等各類任務中的能力，確保覆蓋各類任務類型和應用場景，應從功能性、準確性、可靠性、安全性、交互性、應用性六大維度對大模型進行評測。具體如下：功能性：此維度主要關注圖文大模型解決多種任務的能力，包含任務豐富度、多模態(tài)能力和支持完備度三類，其中任務豐富度是指大模型支持任務類型的數(shù)量，多模態(tài)能力是指對文生圖、圖生文等五種多模態(tài)輸入輸出類型的支持程度，支持完備度包含語種支持度、最大輸入文本長度、最高圖片分辨率等七項指標，主要考察圖文大模型在輸入輸出設置上的支持程度。準確性：此維度主要關注圖文大模型執(zhí)行各類任務的性能。在評估圖文大模型準確性時，需要針對不同類型的任務，選擇最合適的評價指標。針對實例識別、口罩檢測、人群計數(shù)等具有明確標準答案的任務，要優(yōu)先選擇準確率、召回率等客觀評價指標，而針對風格變換、圖像合成等創(chuàng)作類任務時，應選擇主觀評價方式，更加全面地反映圖文大模型在用戶視角下的真實性能?？煽啃裕捍司S度主要關注大模型的抗噪聲能力，以及對同一問題多次輸出結(jié)果的一致性?？乖肼暅y試中，對測試數(shù)據(jù)集進行幾何變形、色彩空間噪聲、專業(yè)噪聲處理和水印等處理后，重新輸入大模型進行評測，全面考察圖文大模型對各種圖片噪聲的抗干擾能力。一致性測試中，評測人員針對同一個問題，對圖文大模型進行連續(xù)多次問答，關注多次問答的評測結(jié)果是否一致。安全性：此維度主要考察圖文大模型生成結(jié)果的毒害性和公平性，包括歧視偏見、內(nèi)容毒性、違規(guī)違法、不適表達和版權(quán)隱私五類。其中每一類又包含多種測試角度，比如歧視偏見中包含種族歧視、性別歧視、年齡歧視等，內(nèi)容毒性包含不實信息、毒性內(nèi)容、敏感話題等。安全性評估在確保生成內(nèi)容合法合規(guī)、防止歧視偏見、維護社會道德等方面具有重要作用，是保障大模型技術(shù)健康發(fā)展的關鍵評測維度。交互性：此維度主要關注用戶使用圖文大模型時的交互體驗。在評估交互性時，著重考察實時性、連續(xù)性、豐富性和規(guī)范性，此外如果應用場景為生成圖片任務，還考察清晰度、色彩等圖片質(zhì)量指標；如果應用場景包含文本生成，則考察表達的流暢度。其中，實時性是指圖文大模型生成結(jié)果的速度，連續(xù)性是指支持問答的最大連續(xù)輪次，豐富性是指生成圖片的多樣性或生成文本的長度，規(guī)范性則是指生成圖片和文字的合理合規(guī)性。應用性：此維度主要關注圖文大模型產(chǎn)品或系統(tǒng)在現(xiàn)實應用場景中的部署、運維、支撐能力和使用效果，旨在全面審視基于圖文大模型的產(chǎn)品在各方面的實用性。在部署能力方面，關注系統(tǒng)

人人文庫> 全部分類> 應用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

“弈衡”多模態(tài)大模型評測體系白皮書 2024

文檔簡介

溫馨提示

最新文檔

評論

“弈衡”多模態(tài)大模型評測體系白皮書 2024

文檔簡介

溫馨提示

最新文檔

評論

相關文檔