2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析

上傳人：小*** IP屬地：重慶上傳時(shí)間：2023-04-21 格式：DOCX 頁數(shù)：6 大?。?0.04KB 積分：25 舉報(bào) 版權(quán)申訴

2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析_第2頁

2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析_第3頁

2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析_第4頁

2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析_第5頁

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析1.常識(shí)和創(chuàng)作常識(shí)和創(chuàng)作部分我們分別對(duì)3個(gè)模型提出基于客觀事實(shí)的常識(shí)問答、給定主題的文字創(chuàng)作問題、給定主題的圖像創(chuàng)作問題，以評(píng)價(jià)模型對(duì)已有知識(shí)的表述能力和圖文生成能力。常識(shí)題：中國(guó)有多少個(gè)省？3個(gè)模型都進(jìn)行了正確的回答，其中GPT-4生成的答案最為嚴(yán)謹(jǐn)和詳細(xì)，不僅說明了“截止2021年”（由于GPT-4的知識(shí)截止2021年）、優(yōu)先列舉了省份，且對(duì)具體省級(jí)行政區(qū)的名稱進(jìn)行了詳盡的列示。文字創(chuàng)作題：請(qǐng)寫一個(gè)劉紅發(fā)大財(cái)?shù)墓适聫?個(gè)模型的回答來看，文心的分詞能力仍有改進(jìn)之處，沒有對(duì)“劉紅”和“發(fā)大財(cái)”進(jìn)行很好的分詞，而是以“劉紅發(fā)”為主角進(jìn)行創(chuàng)作。從情節(jié)設(shè)置的角度而言，GPT-4的細(xì)節(jié)更加豐富、轉(zhuǎn)折也更多，但由于生成token數(shù)的限制，這個(gè)故事并沒有寫完。此外，3個(gè)模型的故事都體現(xiàn)了積極正面的價(jià)值觀。圖像創(chuàng)作題：請(qǐng)畫一張古典美女的油畫目前只有文心一言具備文生圖的能力，GPT-3.5依然是文生文。GPT-4理論上可以輸入文字和圖片，但目前圖片輸入的功能尚未對(duì)用戶開放。2.歸納和推理我們分別向3個(gè)模型提供演繹推理、情感推理、基于具體場(chǎng)景的邏輯推理問題，以及財(cái)務(wù)數(shù)據(jù)類的總結(jié)歸納問題，用以評(píng)價(jià)各模型歸納推理能力。演繹推理題：假設(shè)在一個(gè)餐廳，如果一個(gè)人點(diǎn)了牛排，則他一定點(diǎn)了沙拉。如果一個(gè)人沒有點(diǎn)沙拉，則他一定沒有點(diǎn)牛排?，F(xiàn)在有一個(gè)人點(diǎn)了沙拉，那么他是否一定點(diǎn)了牛排？從本題回答來看，文心在演繹推理方面的能力相對(duì)較弱，GPT-3.5和4持平。情感推理題：情侶吵架后，女朋友對(duì)男朋友說：”你沒有錯(cuò)，都是我的錯(cuò)?！罢?qǐng)問女朋友是否認(rèn)為自己有錯(cuò)？只有文心對(duì)本題給出了正確的情感推理結(jié)果，但它給出的推理過程有所偏差。GPT-4和GPT-3.5給出了錯(cuò)誤的情感推理結(jié)果，但GPT-4給出了較為恰當(dāng)?shù)难a(bǔ)充說明。如果未來作為情感類助手，可能3個(gè)模型依然都還有需要改進(jìn)之處。邏輯推理題：為什么我總是在最后一個(gè)地方找到丟失的物品？GPT-4的邏輯推理能力相對(duì)較強(qiáng)，它回答的第一段給出了正確的解釋，而文心和GPT-3.5都未能識(shí)別本題的邏輯謬誤。不過GPT-4的第二、三段回答給出的解釋也有些似是而非，整體來看3個(gè)模型的邏輯推理能力均有待加強(qiáng)。歸納總結(jié)題：?jiǎn)栴}一：請(qǐng)?zhí)崛∠挛闹黧w信息并以表格方式輸出：1.經(jīng)恒生電子股份有限公司（以下簡(jiǎn)稱“恒生電子”或“公司”）財(cái)務(wù)部門初步測(cè)算，恒生電子預(yù)計(jì)2022年年度實(shí)現(xiàn)歸屬于上市公司股東的凈利潤(rùn)約為108,706萬元（人民幣，下同），與上年同期相比將減少約37,648萬元，減少比例約為25.72%。2.預(yù)計(jì)2022年年度非經(jīng)常性損益對(duì)公司凈利潤(rùn)的影響金額約為-432萬元。預(yù)計(jì)2022年年度實(shí)現(xiàn)歸屬于上市公司股東的扣除非經(jīng)常性損益的凈利潤(rùn)約為109,138萬元，與上年同期相比將增加約14,481萬元，增加比例約為15.30%。3.預(yù)計(jì)2022年年度公司實(shí)現(xiàn)營(yíng)業(yè)收入約為650,282萬元，與上年同期相比將增加約100,624萬元，增加比例約為18.31%。問題二：請(qǐng)問恒生電子2021年的收入是多少？從本題歸納總結(jié)的結(jié)果而言，文心列示的表格更符合財(cái)務(wù)分析的需求，而GPT-3.5沒有抽出重點(diǎn)主體信息并進(jìn)行歸納。在多輪對(duì)話方面，GPT-4展現(xiàn)出了更強(qiáng)的能力，GPT-3.5和文心在聯(lián)系上下文對(duì)話方面稍遜一籌。不過文心采取了和NewBing一樣的方式，對(duì)于自己不知道的知識(shí)進(jìn)行了直接搜索，而GPT-3.5基于Instruct-GPT的數(shù)據(jù)，未能給出正確答案。3.數(shù)學(xué)和代碼我們分別向3個(gè)模型提供線性方程求解問題和代碼編寫問題，考察模型數(shù)理能力和代碼生成能力。數(shù)學(xué)題：求解線性方程組：3x+2y=8；2x-y=1本題只有GPT-3.5算出了正確答案。文心答案算錯(cuò)，且沒有給出具體運(yùn)算過程。GPT-4算對(duì)了x的值，但是代入求解y值的時(shí)候出現(xiàn)了錯(cuò)誤。在數(shù)學(xué)能力方面，當(dāng)前模型依然有需要改進(jìn)之處。代碼題：用Python編寫一個(gè)程序，在一個(gè)無序數(shù)組中查找一個(gè)特定的值。要求程序的時(shí)間復(fù)雜度為O(logn)。在本題的回答中，文心一言沒有準(zhǔn)確理解到時(shí)間復(fù)雜度O(logn)的需求，GPT-3.5及GPT-4給出的代碼為二分法搜索，只有在面對(duì)有序數(shù)組時(shí)才能滿足時(shí)間復(fù)雜度要求，也非最佳答案。整體來看，三個(gè)模型在代碼生成方面均有較大的改進(jìn)空間，GPT-3.5與GPT-4表現(xiàn)基本持平，略優(yōu)于文心一言。4.現(xiàn)實(shí)應(yīng)用場(chǎng)景測(cè)試我們模擬AI生活助手、AI售后客服、辦公場(chǎng)景助手、產(chǎn)品推薦、教學(xué)輔導(dǎo)等場(chǎng)景對(duì)3個(gè)模型進(jìn)行問答，用以評(píng)價(jià)模型在真實(shí)場(chǎng)景中應(yīng)用的可行性。AI生活助手：安全類問題：我收到公安局電話，說我涉嫌洗錢，要求將資金轉(zhuǎn)移至安全賬戶，我該怎么辦？3個(gè)模型都給出了正確的判斷并提供了合理建議，預(yù)計(jì)可以在反詐等方面進(jìn)行很好的應(yīng)用。生活類問題：如何賺到100萬？文心給出的回答質(zhì)量明顯較高，給出了相對(duì)切實(shí)可靠的建議，且具備一定幽默感；而GPT-3.5和GPT-4的回答更加空泛一些，但在安全提示方面進(jìn)行了加強(qiáng)。售后客服場(chǎng)景助手：?jiǎn)栴}一：請(qǐng)你扮演售后客服，幫我處理退換貨的問題。問題二：我已經(jīng)撕了吊牌了，可以么？總的來說3個(gè)模型都很好地完成了任務(wù)，能夠應(yīng)用于客服場(chǎng)景。相對(duì)而言，GPT-3.5在角色扮演和客服對(duì)話場(chǎng)景的表現(xiàn)更加優(yōu)秀，文心和GPT-4的回答都更加格式化一些。辦公場(chǎng)景助手：?jiǎn)栴}一：請(qǐng)幫我寫一段公司年會(huì)主持詞。問題二：請(qǐng)幫我用文言文修飾上面這段話，要求加上古詩(shī)詞整體而言3個(gè)模型在辦公協(xié)同領(lǐng)域都展現(xiàn)出了較好的能力，其中GPT-4的表述更加豐富，文心的回答略有瑕疵，不應(yīng)該“代表主持人”。在文言文方面，GPT-3.5的回答最為驚喜，不僅用了文言文，甚至給出了繁體字。但可能因?yàn)楦嘤糜⑽恼Z料訓(xùn)練的緣故，GPT-3.5和GPT-4犯了一些語病錯(cuò)誤，比如“謹(jǐn)白”、“逝年”、“不期而至”、“對(duì)酒當(dāng)歌，人生幾何”等表述并不恰當(dāng)，古詩(shī)詞也都是編造的。文心沒有很好地理解“加上古詩(shī)詞”的含義，且修飾過短。3個(gè)模型在文言文和詩(shī)詞方面均有待訓(xùn)練。產(chǎn)品推薦助手：?jiǎn)栴}一：我想買一個(gè)年化4%的理財(cái)產(chǎn)品，請(qǐng)幫我推薦。問題二：請(qǐng)幫我推薦一個(gè)適合送給25歲女同事的生日禮物，大概1千元左右。從這兩個(gè)推薦回答來看，文心的表現(xiàn)更好。GPT-3.5和GPT-4的理財(cái)推薦強(qiáng)調(diào)了風(fēng)險(xiǎn)，這是文心需要加強(qiáng)的部分；同時(shí)GPT-4對(duì)禮物的回答比較嚴(yán)謹(jǐn)，題干中讓推薦一個(gè)禮物就只推薦了一個(gè)。整體而言認(rèn)為目前的模型具備智能投顧和購(gòu)物助手的能力，且未來有機(jī)會(huì)可以在其中植入推薦廣告。教學(xué)輔助：?jiǎn)栴}一：這句話是什么意思：柔情似水、佳期如夢(mèng)。問題二：這句話是什么意思：香霧云鬟濕，清輝玉臂寒。問題一是一個(gè)比較容易理解的古詩(shī)，問題二的復(fù)雜程度相對(duì)高一些?？赡苡捎谥形恼Z料更加豐富的緣故，文心在古詩(shī)詞理解方面的表現(xiàn)相對(duì)較好，盡管寫錯(cuò)了

人人文庫(kù)> 全部分類> 應(yīng)用文書 > 研究報(bào)告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

2023年文心一言、GPT3.5及GPT~4的應(yīng)用測(cè)評(píng)對(duì)比分析