2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析_第1頁
2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析_第2頁
2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析_第3頁
2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析_第4頁
2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析1.常識(shí)和創(chuàng)作常識(shí)和創(chuàng)作部分我們分別對(duì)3個(gè)模型提出基于客觀事實(shí)的常識(shí)問答、給定主題的文字創(chuàng)作問題、給定主題的圖像創(chuàng)作問題,以評(píng)價(jià)模型對(duì)已有知識(shí)的表述能力和圖文生成能力。常識(shí)題:中國(guó)有多少個(gè)省?3個(gè)模型都進(jìn)行了正確的回答,其中GPT-4生成的答案最為嚴(yán)謹(jǐn)和詳細(xì),不僅說明了“截止2021年”(由于GPT-4的知識(shí)截止2021年)、優(yōu)先列舉了省份,且對(duì)具體省級(jí)行政區(qū)的名稱進(jìn)行了詳盡的列示。文字創(chuàng)作題:請(qǐng)寫一個(gè)劉紅發(fā)大財(cái)?shù)墓适聫?個(gè)模型的回答來看,文心的分詞能力仍有改進(jìn)之處,沒有對(duì)“劉紅”和“發(fā)大財(cái)”進(jìn)行很好的分詞,而是以“劉紅發(fā)”為主角進(jìn)行創(chuàng)作。從情節(jié)設(shè)置的角度而言,GPT-4的細(xì)節(jié)更加豐富、轉(zhuǎn)折也更多,但由于生成token數(shù)的限制,這個(gè)故事并沒有寫完。此外,3個(gè)模型的故事都體現(xiàn)了積極正面的價(jià)值觀。圖像創(chuàng)作題:請(qǐng)畫一張古典美女的油畫目前只有文心一言具備文生圖的能力,GPT-3.5依然是文生文。GPT-4理論上可以輸入文字和圖片,但目前圖片輸入的功能尚未對(duì)用戶開放。2.歸納和推理我們分別向3個(gè)模型提供演繹推理、情感推理、基于具體場(chǎng)景的邏輯推理問題,以及財(cái)務(wù)數(shù)據(jù)類的總結(jié)歸納問題,用以評(píng)價(jià)各模型歸納推理能力。演繹推理題:假設(shè)在一個(gè)餐廳,如果一個(gè)人點(diǎn)了牛排,則他一定點(diǎn)了沙拉。如果一個(gè)人沒有點(diǎn)沙拉,則他一定沒有點(diǎn)牛排?,F(xiàn)在有一個(gè)人點(diǎn)了沙拉,那么他是否一定點(diǎn)了牛排?從本題回答來看,文心在演繹推理方面的能力相對(duì)較弱,GPT-3.5和4持平。情感推理題:情侶吵架后,女朋友對(duì)男朋友說:”你沒有錯(cuò),都是我的錯(cuò)?!罢?qǐng)問女朋友是否認(rèn)為自己有錯(cuò)?只有文心對(duì)本題給出了正確的情感推理結(jié)果,但它給出的推理過程有所偏差。GPT-4和GPT-3.5給出了錯(cuò)誤的情感推理結(jié)果,但GPT-4給出了較為恰當(dāng)?shù)难a(bǔ)充說明。如果未來作為情感類助手,可能3個(gè)模型依然都還有需要改進(jìn)之處。邏輯推理題:為什么我總是在最后一個(gè)地方找到丟失的物品?GPT-4的邏輯推理能力相對(duì)較強(qiáng),它回答的第一段給出了正確的解釋,而文心和GPT-3.5都未能識(shí)別本題的邏輯謬誤。不過GPT-4的第二、三段回答給出的解釋也有些似是而非,整體來看3個(gè)模型的邏輯推理能力均有待加強(qiáng)。歸納總結(jié)題:?jiǎn)栴}一:請(qǐng)?zhí)崛∠挛闹黧w信息并以表格方式輸出:1.經(jīng)恒生電子股份有限公司(以下簡(jiǎn)稱“恒生電子”或“公司”)財(cái)務(wù)部門初步測(cè)算,恒生電子預(yù)計(jì)2022年年度實(shí)現(xiàn)歸屬于上市公司股東的凈利潤(rùn)約為108,706萬元(人民幣,下同),與上年同期相比將減少約37,648萬元,減少比例約為25.72%。2.預(yù)計(jì)2022年年度非經(jīng)常性損益對(duì)公司凈利潤(rùn)的影響金額約為-432萬元。預(yù)計(jì)2022年年度實(shí)現(xiàn)歸屬于上市公司股東的扣除非經(jīng)常性損益的凈利潤(rùn)約為109,138萬元,與上年同期相比將增加約14,481萬元,增加比例約為15.30%。3.預(yù)計(jì)2022年年度公司實(shí)現(xiàn)營(yíng)業(yè)收入約為650,282萬元,與上年同期相比將增加約100,624萬元,增加比例約為18.31%。問題二:請(qǐng)問恒生電子2021年的收入是多少?從本題歸納總結(jié)的結(jié)果而言,文心列示的表格更符合財(cái)務(wù)分析的需求,而GPT-3.5沒有抽出重點(diǎn)主體信息并進(jìn)行歸納。在多輪對(duì)話方面,GPT-4展現(xiàn)出了更強(qiáng)的能力,GPT-3.5和文心在聯(lián)系上下文對(duì)話方面稍遜一籌。不過文心采取了和NewBing一樣的方式,對(duì)于自己不知道的知識(shí)進(jìn)行了直接搜索,而GPT-3.5基于Instruct-GPT的數(shù)據(jù),未能給出正確答案。3.數(shù)學(xué)和代碼我們分別向3個(gè)模型提供線性方程求解問題和代碼編寫問題,考察模型數(shù)理能力和代碼生成能力。數(shù)學(xué)題:求解線性方程組:3x+2y=8;2x-y=1本題只有GPT-3.5算出了正確答案。文心答案算錯(cuò),且沒有給出具體運(yùn)算過程。GPT-4算對(duì)了x的值,但是代入求解y值的時(shí)候出現(xiàn)了錯(cuò)誤。在數(shù)學(xué)能力方面,當(dāng)前模型依然有需要改進(jìn)之處。代碼題:用Python編寫一個(gè)程序,在一個(gè)無序數(shù)組中查找一個(gè)特定的值。要求程序的時(shí)間復(fù)雜度為O(logn)。在本題的回答中,文心一言沒有準(zhǔn)確理解到時(shí)間復(fù)雜度O(logn)的需求,GPT-3.5及GPT-4給出的代碼為二分法搜索,只有在面對(duì)有序數(shù)組時(shí)才能滿足時(shí)間復(fù)雜度要求,也非最佳答案。整體來看,三個(gè)模型在代碼生成方面均有較大的改進(jìn)空間,GPT-3.5與GPT-4表現(xiàn)基本持平,略優(yōu)于文心一言。4.現(xiàn)實(shí)應(yīng)用場(chǎng)景測(cè)試我們模擬AI生活助手、AI售后客服、辦公場(chǎng)景助手、產(chǎn)品推薦、教學(xué)輔導(dǎo)等場(chǎng)景對(duì)3個(gè)模型進(jìn)行問答,用以評(píng)價(jià)模型在真實(shí)場(chǎng)景中應(yīng)用的可行性。AI生活助手:安全類問題:我收到公安局電話,說我涉嫌洗錢,要求將資金轉(zhuǎn)移至安全賬戶,我該怎么辦?3個(gè)模型都給出了正確的判斷并提供了合理建議,預(yù)計(jì)可以在反詐等方面進(jìn)行很好的應(yīng)用。生活類問題:如何賺到100萬?文心給出的回答質(zhì)量明顯較高,給出了相對(duì)切實(shí)可靠的建議,且具備一定幽默感;而GPT-3.5和GPT-4的回答更加空泛一些,但在安全提示方面進(jìn)行了加強(qiáng)。售后客服場(chǎng)景助手:?jiǎn)栴}一:請(qǐng)你扮演售后客服,幫我處理退換貨的問題。問題二:我已經(jīng)撕了吊牌了,可以么?總的來說3個(gè)模型都很好地完成了任務(wù),能夠應(yīng)用于客服場(chǎng)景。相對(duì)而言,GPT-3.5在角色扮演和客服對(duì)話場(chǎng)景的表現(xiàn)更加優(yōu)秀,文心和GPT-4的回答都更加格式化一些。辦公場(chǎng)景助手:?jiǎn)栴}一:請(qǐng)幫我寫一段公司年會(huì)主持詞。問題二:請(qǐng)幫我用文言文修飾上面這段話,要求加上古詩(shī)詞整體而言3個(gè)模型在辦公協(xié)同領(lǐng)域都展現(xiàn)出了較好的能力,其中GPT-4的表述更加豐富,文心的回答略有瑕疵,不應(yīng)該“代表主持人”。在文言文方面,GPT-3.5的回答最為驚喜,不僅用了文言文,甚至給出了繁體字。但可能因?yàn)楦嘤糜⑽恼Z料訓(xùn)練的緣故,GPT-3.5和GPT-4犯了一些語病錯(cuò)誤,比如“謹(jǐn)白”、“逝年”、“不期而至”、“對(duì)酒當(dāng)歌,人生幾何”等表述并不恰當(dāng),古詩(shī)詞也都是編造的。文心沒有很好地理解“加上古詩(shī)詞”的含義,且修飾過短。3個(gè)模型在文言文和詩(shī)詞方面均有待訓(xùn)練。產(chǎn)品推薦助手:?jiǎn)栴}一:我想買一個(gè)年化4%的理財(cái)產(chǎn)品,請(qǐng)幫我推薦。問題二:請(qǐng)幫我推薦一個(gè)適合送給25歲女同事的生日禮物,大概1千元左右。從這兩個(gè)推薦回答來看,文心的表現(xiàn)更好。GPT-3.5和GPT-4的理財(cái)推薦強(qiáng)調(diào)了風(fēng)險(xiǎn),這是文心需要加強(qiáng)的部分;同時(shí)GPT-4對(duì)禮物的回答比較嚴(yán)謹(jǐn),題干中讓推薦一個(gè)禮物就只推薦了一個(gè)。整體而言認(rèn)為目前的模型具備智能投顧和購(gòu)物助手的能力,且未來有機(jī)會(huì)可以在其中植入推薦廣告。教學(xué)輔助:?jiǎn)栴}一:這句話是什么意思:柔情似水、佳期如夢(mèng)。問題二:這句話是什么意思:香霧云鬟濕,清輝玉臂寒。問題一是一個(gè)比較容易理解的古詩(shī),問題二的復(fù)雜程度相對(duì)高一些??赡苡捎谥形恼Z料更加豐富的緣故,文心在古詩(shī)詞理解方面的表現(xiàn)相對(duì)較好,盡管寫錯(cuò)了

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論