版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能大模型工業(yè)應(yīng)用測(cè)評(píng)2024年3月版1一、前言為貫徹落實(shí)關(guān)于促進(jìn)人工智能發(fā)展的決策部署,中國工業(yè)互聯(lián)網(wǎng)研究院依托通用人工智能與工業(yè)融合創(chuàng)新中心(簡(jiǎn)稱“中心”),聯(lián)合香港科技大學(xué)、中國經(jīng)濟(jì)信息社,深入研究人工智能大模型在工業(yè)領(lǐng)域的應(yīng)用性能、技術(shù)架構(gòu)、標(biāo)準(zhǔn)體系,并在此基礎(chǔ)上,形成本報(bào)告。結(jié)合工業(yè)企業(yè)大模型應(yīng)用情況調(diào)研,本報(bào)告在原有工業(yè)知識(shí)問答準(zhǔn)確性測(cè)評(píng)的基礎(chǔ)上,新增數(shù)據(jù)分析、工程建模、文檔生成、代碼理解等四大場(chǎng)景,構(gòu)建測(cè)試數(shù)據(jù)集,對(duì)國內(nèi)外具有代表性的大模型進(jìn)行測(cè)試,發(fā)布新一輪的準(zhǔn)確性測(cè)評(píng)報(bào)告,供業(yè)界進(jìn)行參考。本報(bào)告測(cè)評(píng)結(jié)果雖經(jīng)中心專家委論證,但因大模型迭代速度快,技術(shù)復(fù)雜,囿于工作團(tuán)隊(duì)專業(yè)知識(shí)和能力,報(bào)告難免存在分析結(jié)論不足等問題,且測(cè)評(píng)結(jié)果僅適用于測(cè)試期間,歡迎大家批評(píng)指正。2二、測(cè)評(píng)內(nèi)容2023年初至今,大模型技術(shù)發(fā)展突飛猛進(jìn),已逐步滲透至工業(yè)領(lǐng)域諸多環(huán)節(jié),涵蓋了知識(shí)問答、工程建模、數(shù)據(jù)分析、文檔生成、代碼理解等場(chǎng)景,正快速成長(zhǎng)為工業(yè)轉(zhuǎn)型升級(jí)和創(chuàng)新發(fā)展的重要?jiǎng)恿?。工業(yè)應(yīng)用準(zhǔn)確性測(cè)評(píng)石化化工行業(yè)
知識(shí)問答結(jié)合工業(yè)知識(shí),有理有據(jù)解答各領(lǐng)域?qū)I(yè)性問題。
工程建模面向工業(yè)問題,選取基礎(chǔ)數(shù)學(xué)知識(shí),建立數(shù)學(xué)模型進(jìn)行求解。
數(shù)據(jù)分析面向工業(yè)場(chǎng)景基礎(chǔ)結(jié)構(gòu)化數(shù)據(jù),分析現(xiàn)象,描述趨勢(shì),得出結(jié)論。
文檔生成面向工業(yè)應(yīng)用,有邏輯、有條理地生成總結(jié)性、分析性的文本。
代碼理解解答計(jì)算機(jī)編程問題,分析工業(yè)設(shè)計(jì)、控制代碼安全性、計(jì)算復(fù)雜性。依托國家工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)中心,聚焦重點(diǎn)工業(yè)行業(yè),匯集高質(zhì)量語料,形成工業(yè)語料庫,支撐大模型在工業(yè)領(lǐng)域應(yīng)用測(cè)評(píng);依托國家工業(yè)互聯(lián)網(wǎng)大數(shù)據(jù)中心,聚焦重點(diǎn)工業(yè)行業(yè),匯集高質(zhì)量語料,形成工業(yè)語料庫,支撐大模型在工業(yè)領(lǐng)域應(yīng)用測(cè)評(píng);結(jié)合工業(yè)企業(yè)調(diào)研,在原有知識(shí)問答基礎(chǔ)上,新增四類工業(yè)應(yīng)用測(cè)評(píng)場(chǎng)景,開展大模型在各應(yīng)用場(chǎng)景的準(zhǔn)確性測(cè)評(píng)。3三、測(cè)評(píng)方法測(cè)評(píng)流程 評(píng)分標(biāo)準(zhǔn)進(jìn)行問答調(diào)用待測(cè)試大模型API收集大模型答案。
進(jìn)行判分2題目類型:每個(gè)場(chǎng)景抽取若干題目進(jìn)行測(cè)試,題型以問答題為主。題目數(shù)量:知識(shí)問答:144道 題目類型:每個(gè)場(chǎng)景抽取若干題目進(jìn)行測(cè)試,題型以問答題為主。題目數(shù)量:知識(shí)問答:144道 ·數(shù)據(jù)分析:20道工程建模:100道 ·文本生成:40道代碼理解:150道注:各場(chǎng)景題目數(shù)量雖不一致,但考察要點(diǎn)總量保持在同一個(gè)數(shù)量級(jí)。題目得分:后分?jǐn)?shù)進(jìn)行歸一化處理。場(chǎng)景得分:場(chǎng)景得分為題目總分百分化處理后的分?jǐn)?shù)。若有細(xì)分場(chǎng)景,則場(chǎng)景總分為細(xì)分場(chǎng)景的平均成績(jī)。綜合評(píng)分:由各場(chǎng)景算數(shù)平均分計(jì)算得出。篩選題目根據(jù)場(chǎng)景、難度、行業(yè),選取有標(biāo)準(zhǔn)答案的題目,經(jīng)人工校驗(yàn)后形成測(cè)試題。
生成判分標(biāo)準(zhǔn)1利用GPT4將原有標(biāo)準(zhǔn)答案整理為評(píng)分標(biāo)準(zhǔn),并通過人工校驗(yàn)提升判分標(biāo)準(zhǔn)科學(xué)性。為更貼合應(yīng)用場(chǎng)景實(shí)際,進(jìn)一步評(píng)價(jià)模型的多維能力,本期測(cè)評(píng)題型以問答題為主;為更貼合應(yīng)用場(chǎng)景實(shí)際,進(jìn)一步評(píng)價(jià)模型的多維能力,本期測(cè)評(píng)題型以問答題為主;為保障判分的一致性與準(zhǔn)確度,問答題的評(píng)分方式由人工判分改為大模型判分,并按步驟賦分。4對(duì)于GPT4,先獲取其回答,再用其生成標(biāo)準(zhǔn)答案、進(jìn)行判分,避免信息泄露;4GPT4的API承諾不記錄數(shù)據(jù)用于訓(xùn)練,參考業(yè)界成熟方案,使用GPT4的API準(zhǔn)答案和判分結(jié)果,減少測(cè)評(píng)誤差。四、測(cè)評(píng)結(jié)果-綜合排名測(cè)評(píng)成績(jī)100908070準(zhǔn)確性60準(zhǔn)確性50403020100
大模型準(zhǔn)確性排名Top20[1]
國際平均55國內(nèi)平均54綜合能力上,GPT4處于領(lǐng)先地位,國內(nèi)大模型文心一言、ChatGLM緊隨其后;對(duì)于國內(nèi)大模型,多個(gè)模型綜合能力超過GPT3.5,包括文心一言、ChatGLM、星火3.5、通義千問等;綜合能力上,GPT4處于領(lǐng)先地位,國內(nèi)大模型文心一言、ChatGLM緊隨其后;對(duì)于國內(nèi)大模型,多個(gè)模型綜合能力超過GPT3.5,包括文心一言、ChatGLM、星火3.5、通義千問等;對(duì)于國外大模型,GPT4領(lǐng)先優(yōu)勢(shì)明顯,其余模型差距較大。模型版本號(hào)參見附錄1。四、測(cè)評(píng)結(jié)果-能力對(duì)比與變化趨勢(shì)各維度大模型最佳能力對(duì)比圖[1] 國內(nèi)大模型發(fā)展趨勢(shì)[2]100851008570554025
2023年6月底相對(duì)GPT3.5成績(jī)2024年年初相對(duì)GPT3.5成績(jī)23年中國內(nèi)平均2023年6月底相對(duì)GPT3.5成績(jī)2024年年初相對(duì)GPT3.5成績(jī)23年中國內(nèi)平均24年初國內(nèi)平均2023年6月底2024年初相對(duì)GPT3.5成績(jī)國際 160%相對(duì)GPT3.5成績(jī)文檔生成
數(shù)據(jù)分析
120%80%40%工業(yè)知識(shí)問答 代碼理解對(duì)比往期測(cè)評(píng),2023對(duì)比往期測(cè)評(píng),2023年下半年國內(nèi)大模型能力提升明顯(以GPT3.5為基準(zhǔn))。選取國內(nèi)外各能力維度性能最佳的大模型進(jìn)行對(duì)比;得領(lǐng)先,數(shù)據(jù)分析、代碼理解等領(lǐng)域能力接近;在工程建模領(lǐng)域,國內(nèi)大模型與國際存在一定差距。6國內(nèi)大模型發(fā)展趨勢(shì)統(tǒng)計(jì)規(guī)則見附錄得領(lǐng)先,數(shù)據(jù)分析、代碼理解等領(lǐng)域能力接近;在工程建模領(lǐng)域,國內(nèi)大模型與國際存在一定差距。6大模型可結(jié)合自身知識(shí),回答不同工業(yè)領(lǐng)域問題,將用于員工培訓(xùn)、故障診斷、客服咨詢、市場(chǎng)調(diào)研等交互場(chǎng)景,協(xié)助企業(yè)員工熟悉生產(chǎn)流程,幫助用戶了解產(chǎn)品特性。應(yīng)用場(chǎng)景研判研發(fā)設(shè)計(jì)環(huán)節(jié):研發(fā)工程師可基于大模型快速、便捷獲取高質(zhì)量知識(shí),提升研發(fā)效率;生產(chǎn)制造環(huán)節(jié):大模型可結(jié)合自身知識(shí),回答不同工業(yè)領(lǐng)域問題,將用于員工培訓(xùn)、故障診斷、客服咨詢、市場(chǎng)調(diào)研等交互場(chǎng)景,協(xié)助企業(yè)員工熟悉生產(chǎn)流程,幫助用戶了解產(chǎn)品特性。應(yīng)用場(chǎng)景研判研發(fā)設(shè)計(jì)環(huán)節(jié):研發(fā)工程師可基于大模型快速、便捷獲取高質(zhì)量知識(shí),提升研發(fā)效率;生產(chǎn)制造環(huán)節(jié):優(yōu)化;售后服務(wù)環(huán)節(jié):數(shù)字人實(shí)時(shí)向客戶提供售后咨詢服務(wù);技能培訓(xùn)環(huán)節(jié):新員工可通過大模型了解企業(yè)信息、學(xué)習(xí)生產(chǎn)技能。知識(shí)快速獲取 工藝輔助優(yōu)化 數(shù)字人售后服務(wù) 員工自助培訓(xùn) 7五、場(chǎng)景測(cè)評(píng)一:工業(yè)知識(shí)問答測(cè)評(píng)結(jié)果 行業(yè)能力對(duì)比[1]國內(nèi)國際國內(nèi)國際100
工業(yè)知識(shí)問答能力Top20
準(zhǔn) 80工業(yè)知識(shí)問答工業(yè)知識(shí)問答國內(nèi)平均52國際平均41在知識(shí)問答領(lǐng)域國內(nèi)大模型已具備一定優(yōu)勢(shì),ChatGLM、文心一言等多個(gè)大模型實(shí)現(xiàn)對(duì)GPT4超越;國內(nèi)大模型在建材、采礦等行業(yè)具有顯著優(yōu)勢(shì),在裝備制造、鋼鐵等行業(yè)與國際水平接近;對(duì)比不同行業(yè),國內(nèi)外大模型在鋼鐵、電力等行業(yè)有較好的知識(shí)儲(chǔ)備,對(duì)于紡織、裝備制造等行業(yè)仍需加強(qiáng)訓(xùn)練。性 60(分)4020800準(zhǔn)
建材 石化化工 電力 電子制造 紡織 裝備制造 鋼鐵 采礦確60性題目樣例問題:你知道哪些常用邏輯電平?TTL與CMOS電平可以直接互連嗎?評(píng)分標(biāo)準(zhǔn):?jiǎn)栴}:你知道哪些常用邏輯電平?TTL與CMOS電平可以直接互連嗎?評(píng)分標(biāo)準(zhǔn):則得1分,否則不得分。)(1樣或近似的回答則得1分,否則不得分。)TTL,而TTLCMOS需要在輸出端口加一上拉電阻接到5V或者12V。(1分)本題共3小項(xiàng),每個(gè)小項(xiàng)1分,滿分3分。對(duì)于每個(gè)小項(xiàng),如果描述有差距,或者詳細(xì)程度不足,酌情給0.3或者0.5分或者0.8分。402008圖中數(shù)據(jù)為各行業(yè)國內(nèi)外性能最佳大模型成績(jī)。大模型具備基礎(chǔ)建模能力,將幫助工程師和企業(yè)管理人員在實(shí)際工程設(shè)計(jì)、生產(chǎn)運(yùn)維等領(lǐng)域進(jìn)行數(shù)學(xué)建模,尋求最佳的解決方案。應(yīng)用場(chǎng)景研判研發(fā)設(shè)計(jì)環(huán)節(jié):基于歷史實(shí)踐,建立成本模型,指導(dǎo)新項(xiàng)目的規(guī)劃和預(yù)算編制,提高項(xiàng)目成功率;生產(chǎn)制造環(huán)節(jié):大模型具備基礎(chǔ)建模能力,將幫助工程師和企業(yè)管理人員在實(shí)際工程設(shè)計(jì)、生產(chǎn)運(yùn)維等領(lǐng)域進(jìn)行數(shù)學(xué)建模,尋求最佳的解決方案。應(yīng)用場(chǎng)景研判研發(fā)設(shè)計(jì)環(huán)節(jié):基于歷史實(shí)踐,建立成本模型,指導(dǎo)新項(xiàng)目的規(guī)劃和預(yù)算編制,提高項(xiàng)目成功率;生產(chǎn)制造環(huán)節(jié):效率和安全性;運(yùn)維管理環(huán)節(jié):產(chǎn)人員進(jìn)行排版優(yōu)化,提升人員效能;營銷宣傳環(huán)節(jié):建立營銷收益模型,提升營銷效率,節(jié)約營銷成本。工程數(shù)學(xué)建模 預(yù)測(cè)模型優(yōu)化生產(chǎn)計(jì)劃 優(yōu)化員工班次布局提高人效 營銷收益建模節(jié)約銷售成本 9五、場(chǎng)景測(cè)評(píng)二:工程建模測(cè)評(píng)結(jié)果 題目樣例工程建模國內(nèi)平均工程建模國際平均工程建模10080工程建模國內(nèi)平均工程建模國際平均工程建模10080準(zhǔn)確60性(分)40國內(nèi)平均43國際平均43200問題:某公司在2018年年初預(yù)訂x萬產(chǎn)量的目標(biāo),2018年6月己完成計(jì)劃的60%,此后按照上半年月均產(chǎn)量生產(chǎn),則2018年超出計(jì)劃產(chǎn)量300萬.那么該公司2018年年初預(yù)訂的產(chǎn)量為多少萬元?評(píng)分標(biāo)準(zhǔn):如果能正確列出完成計(jì)劃的60$0.6x$1分;如果能正確列出下半年產(chǎn)量也為$0.6x$萬的關(guān)系,得1分;3.如果能正確$0.6x0.6xx300$,得1分4.如果能正確解出$x=1500$,得1分;本題共四個(gè)得分點(diǎn),滿分為4分,得分情況為(得分/滿分)。在工程建模領(lǐng)域,GPT4、文心一言處于領(lǐng)先地位,對(duì)比其它模型具有顯著優(yōu)勢(shì);國內(nèi)外平均成績(jī)均為43在工程建模領(lǐng)域,GPT4、文心一言處于領(lǐng)先地位,對(duì)比其它模型具有顯著優(yōu)勢(shì);國內(nèi)外平均成績(jī)均為43釋器等增強(qiáng)工具提升大模型建模能力。大模型可將結(jié)構(gòu)化數(shù)據(jù)提煉為核心結(jié)論,對(duì)復(fù)雜業(yè)務(wù)數(shù)據(jù)進(jìn)行自動(dòng)分析,更全面、及時(shí)地幫助企業(yè)管理者運(yùn)營和決策,提升工作效率和運(yùn)營質(zhì)量。electric應(yīng)用場(chǎng)景研判研發(fā)設(shè)計(jì)環(huán)節(jié):在海量產(chǎn)品評(píng)價(jià)數(shù)據(jù)中提大模型可將結(jié)構(gòu)化數(shù)據(jù)提煉為核心結(jié)論,對(duì)復(fù)雜業(yè)務(wù)數(shù)據(jù)進(jìn)行自動(dòng)分析,更全面、及時(shí)地幫助企業(yè)管理者運(yùn)營和決策,提升工作效率和運(yùn)營質(zhì)量。electric應(yīng)用場(chǎng)景研判研發(fā)設(shè)計(jì)環(huán)節(jié):在海量產(chǎn)品評(píng)價(jià)數(shù)據(jù)中提質(zhì);生產(chǎn)制造環(huán)節(jié):或報(bào)錯(cuò);運(yùn)維管理環(huán)節(jié):呆滯庫存和缺料提醒,提升管理效率;人員培訓(xùn)環(huán)節(jié):分析事故數(shù)據(jù),杜絕生產(chǎn)事故,消除安全隱患。分析用戶評(píng)價(jià) 分析生產(chǎn)時(shí)序數(shù)據(jù) 分析庫存數(shù)據(jù) 分析安全數(shù)據(jù) 五、場(chǎng)景測(cè)評(píng)三:數(shù)據(jù)分析測(cè)評(píng)結(jié)果 題目樣例表為2001-2010年幾種型號(hào)電話年產(chǎn)量。評(píng)分標(biāo)準(zhǔn):(1全局性描述,則得1分,否則不得分。)B電話穩(wěn)步下降,而A電話支出迅速增長(zhǎng)。(1分必須有B穩(wěn)步分。)分,必須指出2007年A電話超過B的關(guān)鍵節(jié)點(diǎn),只給數(shù)據(jù)出數(shù)據(jù)不描述不得分。)(4)...(5)...本題共5小項(xiàng),對(duì)于每個(gè)小項(xiàng),如果學(xué)生的回答中有和該項(xiàng)一致的語句,則得1分,如果描述有差距,或者詳細(xì)程度不足,酌情給0.3或者0.5分或者0.8分。數(shù)據(jù)分析國內(nèi)平均數(shù)據(jù)分析國際平均數(shù)據(jù)分析國際平均56數(shù)據(jù)分析國內(nèi)平均數(shù)據(jù)分析國際平均數(shù)據(jù)分析國際平均56國內(nèi)平均53在數(shù)據(jù)分析領(lǐng)域,文心一言能力最佳,與GPT4、Mistral等構(gòu)成第一梯隊(duì);進(jìn)行微調(diào),或?qū)咐尤氲教崾驹~中,利用大模型小樣本學(xué)習(xí)能力提升效果。YearPhoneAYearPhoneAPhoneB...2001200700...............2010700475...準(zhǔn)確性60(分)4020012大模型將幫助用戶快速、高效處理和生成各類文檔,如宣傳文案、操作手冊(cè)、技術(shù)文檔、施工方案等,提高工作效率和質(zhì)量。應(yīng)用場(chǎng)景研判研發(fā)設(shè)計(jì)環(huán)節(jié):大模型可基于本地知識(shí)庫,輔助工作人員生成技術(shù)方案和設(shè)計(jì)方案,幫助研發(fā)人員提升效率,為設(shè)計(jì)人員提供靈感;生產(chǎn)制造環(huán)節(jié):大模型將幫助用戶快速、高效處理和生成各類文檔,如宣傳文案、操作手冊(cè)、技術(shù)文檔、施工方案等,提高工作效率和質(zhì)量。應(yīng)用場(chǎng)景研判研發(fā)設(shè)計(jì)環(huán)節(jié):大模型可基于本地知識(shí)庫,輔助工作人員生成技術(shù)方案和設(shè)計(jì)方案,幫助研發(fā)人員提升效率,為設(shè)計(jì)人員提供靈感;生產(chǎn)制造環(huán)節(jié):產(chǎn)效率;運(yùn)維管理環(huán)節(jié):效率。生成技術(shù)文檔 生成作業(yè)指導(dǎo)書 生成設(shè)備運(yùn)行狀態(tài)報(bào)告 生成庫存管理運(yùn)營文檔 13五、場(chǎng)景測(cè)評(píng)四:文檔生成(要點(diǎn)總結(jié))測(cè)評(píng)結(jié)果 題目樣例文檔生成(總結(jié))國內(nèi)平均文檔生成(總結(jié)國際平均文檔生成(總結(jié)文檔生成能力文檔生成(總結(jié))國內(nèi)平均文檔生成(總結(jié)國際平均文檔生成(總結(jié)文檔生成能力0080)均87國際平均8560)40200在文檔生成(要點(diǎn)總結(jié))領(lǐng)域,國內(nèi)外性能最佳大模型成績(jī)接近滿分,基本可成熟應(yīng)用于該場(chǎng)景;國內(nèi)外平均成績(jī)相對(duì)較高,文檔生成(要點(diǎn)總結(jié))場(chǎng)景屬于當(dāng)前大模型較擅長(zhǎng)領(lǐng)域。問題:分析以下文字,總結(jié)B公司企業(yè)創(chuàng)新的啟示。B公司專門成立了熱效率技術(shù)攻關(guān)團(tuán)隊(duì),通過大量的仿真和臺(tái)架試驗(yàn),經(jīng)過上千50%。思路決定出路,以往一些科技企業(yè)遭遇挫敗是因?yàn)閱卧u(píng)分標(biāo)準(zhǔn):優(yōu)勢(shì)。(1分,必須有關(guān)于超前研發(fā),敢于創(chuàng)新的的近似描述,否則不得分)(1分,必須有關(guān)于技術(shù)公關(guān),探索嘗試的的近似描述,否則不得分)3.市場(chǎng)需求導(dǎo)向。轉(zhuǎn)變技術(shù)指導(dǎo)市場(chǎng)的思路,從客戶需求出發(fā),確定產(chǎn)品創(chuàng)新方向。(1分,必須有關(guān)于市場(chǎng)導(dǎo)向,重視調(diào)研,技術(shù)指導(dǎo)市場(chǎng)的相關(guān)描述,否則不得分)4....5....本題共5要點(diǎn),對(duì)于每個(gè)要點(diǎn),如果學(xué)生回答中有和該項(xiàng)一致的語句,則得1分,如果描述有差距,或者詳細(xì)程度不足,酌情給0.3或者0.5分或者0.8分。準(zhǔn)確性(分14五、場(chǎng)景測(cè)評(píng)四:文檔生成(觀點(diǎn)分析)測(cè)評(píng)結(jié)果 題目樣例國際平均71國內(nèi)平均65在文檔生成(觀點(diǎn)分析)領(lǐng)域,百川3、星火3.5、Yi優(yōu)勢(shì)明顯,已實(shí)現(xiàn)對(duì)GPT4的領(lǐng)先;國際平均71國內(nèi)平均65在文檔生成(觀點(diǎn)分析)領(lǐng)域,百川3、星火3.5、Yi優(yōu)勢(shì)明顯,已實(shí)現(xiàn)對(duì)GPT4的領(lǐng)先;國際大模型平均超出國內(nèi)較多,國內(nèi)模型需整理高質(zhì)量語料進(jìn)行強(qiáng)化訓(xùn)練,提升觀點(diǎn)分析成效。問題:閱讀以下觀點(diǎn),回答你是否同意,如果你不同意,請(qǐng)說明哪種情況會(huì)削弱下面的觀點(diǎn):過去的一年,QM的工傷事故比鄰近的工廠多$30\%$,鄰近工廠每班工作1QM3作時(shí)間縮短1小時(shí),這樣我們的員工可以獲得充足的睡眠。評(píng)分標(biāo)準(zhǔn):總結(jié)提煉后,評(píng)分標(biāo)準(zhǔn)如下:(1(2(3(4不一定會(huì)下降...對(duì)于以上四點(diǎn),每個(gè)分論點(diǎn)在作文中有所體現(xiàn)得1分,共計(jì)4分。文檔生成(觀點(diǎn))國內(nèi)平均文檔生成(觀點(diǎn))國際平均文檔生成(觀點(diǎn))文檔生成(觀點(diǎn))國內(nèi)平均文檔生成(觀點(diǎn))國際平均文檔生成(觀點(diǎn))80準(zhǔn)確性60(分)4020015大模型將面向工業(yè)需求編寫代碼,回答計(jì)算機(jī)編程相關(guān)問題,輔助代碼功能性和安全性檢測(cè),提升工程師編碼效率,保障程序安全、平穩(wěn)運(yùn)行。應(yīng)用場(chǎng)景研判研發(fā)設(shè)計(jì)環(huán)節(jié):大模型可根據(jù)自然語言描述,自動(dòng)生成工業(yè)代碼,輔助編寫自動(dòng)化腳本、復(fù)雜的業(yè)務(wù)邏輯代碼,提升編碼效率;生產(chǎn)制造環(huán)節(jié):大模型將面向工業(yè)需求編寫代碼,回答計(jì)算機(jī)編程相關(guān)問題,輔助代碼功能性和安全性檢測(cè),提升工程師編碼效率,保障程序安全、平穩(wěn)運(yùn)行。應(yīng)用場(chǎng)景研判研發(fā)設(shè)計(jì)環(huán)節(jié):大模型可根據(jù)自然語言描述,自動(dòng)生成工業(yè)代碼,輔助編寫自動(dòng)化腳本、復(fù)雜的業(yè)務(wù)邏輯代碼,提升編碼效率;生產(chǎn)制造環(huán)節(jié):洞,保障生產(chǎn)安全;運(yùn)維管理環(huán)節(jié):幫助工控運(yùn)維人員高效理解和維護(hù)代碼,提升運(yùn)維效率。代碼生成與自動(dòng)編程 代碼錯(cuò)誤檢測(cè)與修正 代碼注釋生成 工控代碼審查 16五、場(chǎng)景測(cè)評(píng)五:代碼理解測(cè)評(píng)結(jié)果 題目樣例代碼理解國內(nèi)平均代碼理解國際平均代碼理解問題:回答下列選擇題,并給出解析。下列代碼中存在什么安全問題?代碼理解國內(nèi)平均代碼理解國際平均代碼理解問題:回答下列選擇題,并給出解析。下列代碼中存在什么安全問題?publicvoiddoPost(HttpServletRequestrequest,HttpServletResponseresponse)throwsServletException,IOException{javax.servlet.http.Cookie[]theCookies=request.getCookies();...java.util.Propertiesbenchmarkprops=newjava.util.Properties();Stringalgorithm="MD5";java.security.MessageDigest.getInstance(algorithm);byte[]input={(byte)'?'};ObjectinputParam=param;if(inputParaminstanceofString)input=((String)inputParam).getBytes();}評(píng)分標(biāo)準(zhǔn):代碼中使用已知的弱哈希算法MD5,代碼如下:Stringalgorithm="MD5";java.security.MessageDigestmd=java.security.MessageDigest.getInstance(algorithm);弱哈希算法有MD5、SHA-1和SHA-2等哈希函數(shù)。(回答中如果能指出安全問題是弱哈希算法得1分,否則不得分)100準(zhǔn)確60性
國際平均51(分)40
國內(nèi)平均45200在代碼理解領(lǐng)域,GPT4和文心一言準(zhǔn)確度較高,相對(duì)其他模型優(yōu)勢(shì)明顯;在代碼理解領(lǐng)域,GPT4和文心一言準(zhǔn)確度較高,相對(duì)其他模型優(yōu)勢(shì)明顯;對(duì)理解代碼的能力有較大幫助,建議更多大模型引入。六、總體評(píng)價(jià)與后續(xù)規(guī)劃各場(chǎng)景第一梯隊(duì)與點(diǎn)評(píng)第一梯隊(duì)
點(diǎn)評(píng)國內(nèi)大模型已具備一定優(yōu)勢(shì),ChatGLM、知識(shí)問答文心一言等多個(gè)大模型已超越GPT4;知識(shí)問答ChatGLM 文心一言 卡奧斯工程建模 GPT4處于領(lǐng)先地位,大模型整體建模工程建模GPT4處于領(lǐng)先地位,大模型整體建模數(shù)據(jù)分析GPT4 文心一言 ChatGLM數(shù)據(jù)分析
文心一言能力最佳,與GPT4、構(gòu)成第一梯隊(duì),但整體水平偏弱;文心一言
GPT4 MISTRAL 文檔生成觀點(diǎn)分析存在明顯提升空間;文檔生成文檔生成觀點(diǎn)分析存在明顯提升空間;文檔生成要點(diǎn)總結(jié)百川3
MISTRALYi代碼理解GPT4和文心一言在代碼理解領(lǐng)域較為GPT4 文心一言 代碼理解GPT4和文心一言在代碼理解領(lǐng)域較為
較大提升空間。 18六、總體評(píng)價(jià)與后續(xù)規(guī)劃場(chǎng)景成熟度大模型在文檔生成領(lǐng)域應(yīng)用成熟度較高,在工業(yè)知識(shí)問答、數(shù)據(jù)分析、工程建模、代碼理解場(chǎng)景應(yīng)用成熟度相對(duì)較低;國內(nèi)外大模型在文檔生成、數(shù)據(jù)分析、代碼理解場(chǎng)景準(zhǔn)確度差異較大。行業(yè)知識(shí)掌握?qǐng)鼍俺墒於却竽P驮谖臋n生成領(lǐng)域應(yīng)用成熟度較高,在工業(yè)知識(shí)問答、數(shù)據(jù)分析、工程建模、代碼理解場(chǎng)景應(yīng)用成熟度相對(duì)較低;國內(nèi)外大模型在文檔生成、數(shù)據(jù)分析、代碼理解場(chǎng)景準(zhǔn)確度差異較大。行業(yè)知識(shí)掌握大模型在鋼鐵、電力等行業(yè)有較好的知識(shí)儲(chǔ)備,對(duì)于紡織、裝備制造等行業(yè)仍需加強(qiáng)訓(xùn)練;國內(nèi)大模型在建材、采礦等行業(yè)優(yōu)勢(shì)顯著,在裝備制造、化工等行業(yè)與國際接近。發(fā)展趨勢(shì)GPT4仍處于領(lǐng)先地位;近半年國內(nèi)大模型能力顯著提升,與GPT4差距不斷縮小,部分場(chǎng)景應(yīng)用能力已趕超。針對(duì)工業(yè)應(yīng)用場(chǎng)景,匯聚整理工業(yè)知識(shí)語料庫,支持大模型預(yù)訓(xùn)練或微調(diào); 開展大模型多模態(tài)能力測(cè)評(píng),包括圖像識(shí)別、視頻理解等,挖掘更多大模型工業(yè)潛在應(yīng)用場(chǎng)景;針對(duì)工業(yè)應(yīng)用場(chǎng)景,匯聚整理工業(yè)知識(shí)語料庫,支持大模型預(yù)訓(xùn)練或微調(diào);開展大模型多模態(tài)能力測(cè)評(píng),包括圖像識(shí)別、視頻理解等,挖掘更多大模型工業(yè)潛在應(yīng)用場(chǎng)景;面向大模型當(dāng)前應(yīng)用成熟度較低的場(chǎng)景,提供穩(wěn)定性、準(zhǔn)確性等能力優(yōu)化指導(dǎo);面向工業(yè)應(yīng)用開展行業(yè)大模型測(cè)評(píng)工作,在重點(diǎn)領(lǐng)域遴選推廣一批優(yōu)秀的行業(yè)大模型。19面向大模型當(dāng)前應(yīng)用成熟度較低的場(chǎng)景,提供穩(wěn)定性、準(zhǔn)確性等能力優(yōu)化指導(dǎo);面向工業(yè)應(yīng)用開展行業(yè)大模型測(cè)評(píng)工作,在重點(diǎn)領(lǐng)域遴選推廣一批優(yōu)秀的行業(yè)大模型。附錄1:報(bào)告涉及的大模型及其
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個(gè)性化美發(fā)店服務(wù)股份制合作合同4篇
- 二零二五版新能源汽車充電樁投資分紅合同3篇
- 2025年倉儲(chǔ)租賃協(xié)議審核
- 二零二五年度木地板工程環(huán)保認(rèn)證與施工合同4篇
- 2025年民用航空器租賃合規(guī)審查協(xié)議
- 2025年度綠色校園綠植種植與教育推廣合同4篇
- 2024 年浙江公務(wù)員考試行測(cè)試題(A 類)
- 二零二五年度二手挖掘機(jī)轉(zhuǎn)讓與長(zhǎng)期維護(hù)服務(wù)協(xié)議3篇
- 二零二五年度SSL協(xié)議安全審計(jì)與合規(guī)檢查合同3篇
- 2025年度鮮花電商物流配送與銷售合作協(xié)議3篇
- 2024年供應(yīng)鏈安全培訓(xùn):深入剖析與應(yīng)用
- 飛鼠養(yǎng)殖技術(shù)指導(dǎo)
- 壞死性筋膜炎
- 整式的加減單元測(cè)試題6套
- 股權(quán)架構(gòu)完整
- 山東省泰安市2022年初中學(xué)業(yè)水平考試生物試題
- 注塑部質(zhì)量控制標(biāo)準(zhǔn)全套
- 銀行網(wǎng)點(diǎn)服務(wù)禮儀標(biāo)準(zhǔn)培訓(xùn)課件
- 二年級(jí)下冊(cè)數(shù)學(xué)教案 -《數(shù)一數(shù)(二)》 北師大版
- 晶體三極管資料
- 石群邱關(guān)源電路(第1至7單元)白底課件
評(píng)論
0/150
提交評(píng)論