聊天機(jī)器人頂流 ChatGPT開啟自然語(yǔ)言處理領(lǐng)域新篇章

上傳人：海*** IP屬地：江蘇上傳時(shí)間：2025-01-13 格式：DOCX 頁(yè)數(shù)：18 大小：314.42KB 積分：9.6 舉報(bào) 版權(quán)申訴

聊天機(jī)器人頂流 ChatGPT開啟自然語(yǔ)言處理領(lǐng)域新篇章_第2頁(yè)

聊天機(jī)器人頂流 ChatGPT開啟自然語(yǔ)言處理領(lǐng)域新篇章_第3頁(yè)

聊天機(jī)器人頂流 ChatGPT開啟自然語(yǔ)言處理領(lǐng)域新篇章_第4頁(yè)

聊天機(jī)器人頂流 ChatGPT開啟自然語(yǔ)言處理領(lǐng)域新篇章_第5頁(yè)

已閱讀5頁(yè)，還剩13頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

證券研究報(bào)告請(qǐng)務(wù)必閱讀正文最后的中國(guó)銀河證券股份公司免責(zé)聲明推薦維持評(píng)級(jí)l事件：12月1日，美國(guó)人工智能公司OpenAI在網(wǎng)頁(yè)上推出自然語(yǔ)言處理領(lǐng)域（NLP）的模型ChatGPT，它能夠通過(guò)對(duì)話方式進(jìn)行交互，并根據(jù)用戶輸入的自然語(yǔ)言文本內(nèi)容，自動(dòng)生成新的文本內(nèi)容。一周內(nèi)，ChatGPT的用戶已突破100萬(wàn)。l什么是ChatGPT：ChatGPT是在GPT3.5大模型語(yǔ)言模型（LLM,即LargeLanguageModel）的基礎(chǔ)上，加入“基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF，ReinforcementLearningfromHumanFeedback）”來(lái)不斷微調(diào)（Fine-tune）預(yù)訓(xùn)練語(yǔ)言模型，使得LLM模型學(xué)會(huì)理解不同類型的命令指令，并通過(guò)多重標(biāo)準(zhǔn)合理判斷基于給定的prompt輸入指令，輸出的是否為優(yōu)質(zhì)信息（這些標(biāo)準(zhǔn)包括：富含信息、內(nèi)容豐富、對(duì)用戶有幫助、無(wú)害、不包含歧視信息等）。lChatGPT引爆AIGC，AIGC將迎多場(chǎng)景爆發(fā)期。AIGC即AI-GeneratedContent，是繼UGC、PGC之后利用AI技術(shù)自動(dòng)生成內(nèi)容的新型生產(chǎn)方式。相比UGC和PGC，AIGC的最大不同是基于海量數(shù)據(jù)、風(fēng)格隨機(jī)多變、跨模態(tài)融合、認(rèn)知交互力等新技術(shù)導(dǎo)向特征。隨著ChatGPT的技術(shù)日漸成熟，AIGC將在電商虛擬主播、教育、金融、醫(yī)療、影視娛樂(lè)等多場(chǎng)景爆發(fā)，并進(jìn)一步催生元宇宙的快速lChatGPT的技術(shù)發(fā)展路徑:從GPT-1到InstructGPT，數(shù)據(jù)量與參數(shù)量不斷增加，模型精度和能力提升。2018年，在自然語(yǔ)言處理領(lǐng)域（NLP）剛興起時(shí)，OpenAI就推出了初代GPT，它的運(yùn)行邏輯是：先通過(guò)無(wú)標(biāo)簽數(shù)據(jù)學(xué)習(xí)生成語(yǔ)言模型，并能夠運(yùn)用于一些與有監(jiān)督任務(wù)無(wú)關(guān)的NLP任務(wù)中。此后再根據(jù)特定的下游任務(wù)進(jìn)行有監(jiān)督的微調(diào)，提高其泛化能力。GPT-2擴(kuò)展了網(wǎng)絡(luò)參數(shù)和數(shù)據(jù)集，進(jìn)行多任務(wù)學(xué)習(xí)，可以在數(shù)據(jù)量足夠豐富且模型容量足夠大時(shí)，通過(guò)訓(xùn)練語(yǔ)言模型就能夠完成有監(jiān)督學(xué)習(xí)的任務(wù)。對(duì)比GPT-2，2020年推出的GPT-3最顯著的特征是龐大的數(shù)據(jù)量和參數(shù)投入，整體訓(xùn)練過(guò)程耗資1200萬(wàn)美元，投入數(shù)據(jù)量達(dá)上萬(wàn)億，模型參數(shù)量達(dá)到1750億。GPT-3延續(xù)了前兩代GPT的技術(shù)架構(gòu)，但改變了“大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練+下游數(shù)據(jù)標(biāo)注微調(diào)”的方式，采用情境學(xué)習(xí)（in-contextlearning）來(lái)提高模型對(duì)話輸出的性能。GPT-3的規(guī)模和語(yǔ)言能力幾乎是最強(qiáng)大的。它能在不做微調(diào)的情況下，在一些傳統(tǒng)的NLP任務(wù)中表現(xiàn)得更好，包括實(shí)現(xiàn)閉卷問(wèn)答、模式解析、純語(yǔ)言建模、機(jī)器翻譯等；在新的領(lǐng)域，GPT-3將NLP的應(yīng)用擴(kuò)展到缺乏足夠訓(xùn)練數(shù)據(jù)的領(lǐng)域，例如在開發(fā)程序代碼、文章生成和信息檢索領(lǐng)域取得了實(shí)質(zhì)性的進(jìn)展。然而，GPT-3在推理和理解能力上還有較長(zhǎng)的路要走，在自然語(yǔ)言推理（NLI）任務(wù)中表現(xiàn)不佳。InstructGPT和ChatGPT：更好地遵循用戶意圖、更少的虛假信息。OpenAI在2022年初發(fā)布了InstructGPT。該語(yǔ)言模型通過(guò)“基于人分析師吳硯靖：wuyanjing@鄒文倩：zouwenqian@行業(yè)數(shù)據(jù)2022-12-11資料來(lái)源：Wind，中國(guó)銀河證券研究院整理行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)wwwchinastockcomcn證券研究報(bào)告請(qǐng)務(wù)必閱讀正文最后的中國(guó)銀河證券股份公司免責(zé)聲明類反饋的強(qiáng)化學(xué)習(xí)（RLHF）和監(jiān)督學(xué)習(xí)”來(lái)提高輸出質(zhì)量。雖然InstructGPT的參數(shù)量?jī)H為13億左右，相比于GPT-3縮小了100倍以上；但在遵循指令方面，能夠更好地遵循用戶意圖，將有害的、不真實(shí)或者有偏差的信息輸出最小化。在優(yōu)化的模型上，ChatGPT基于InstructGPT進(jìn)一步改進(jìn)，在模型結(jié)構(gòu)和訓(xùn)練流程上遵循上述方式，但收集和標(biāo)注數(shù)據(jù)的方式上發(fā)生了變化，通過(guò)采取監(jiān)督學(xué)習(xí)的方式讓模型學(xué)習(xí)人類排序的方式。lChatGPT的優(yōu)勢(shì)與缺陷：優(yōu)勢(shì)是ChatGPT不需要任何額外的訓(xùn)練就能在多種不同的領(lǐng)域中應(yīng)用并快速輸出高質(zhì)量的文本，相較于以前的模型已具備較強(qiáng)的自然語(yǔ)言處理能力。但目前ChatGPT在精準(zhǔn)性、真實(shí)性、重復(fù)率和依賴性等問(wèn)題上尚待改善：第一、由于技術(shù)實(shí)現(xiàn)的問(wèn)題，ChatGPT會(huì)不可避免地寫出一些似是而非、或者荒謬的答案，這將導(dǎo)致植入虛假數(shù)據(jù)和誤導(dǎo)用戶的風(fēng)險(xiǎn)。ChatGPT依然沒(méi)有完全克服大型語(yǔ)言模型（LLM）的這一常見(jiàn)缺點(diǎn)；第二、在較長(zhǎng)的會(huì)話中，由于訓(xùn)練數(shù)據(jù)的偏差和過(guò)度修正，ChatGPT會(huì)過(guò)度強(qiáng)調(diào)某些短語(yǔ)或者句子，導(dǎo)致重復(fù)性高的問(wèn)題；第三、ChatGPT的強(qiáng)大能力依賴語(yǔ)料庫(kù)、數(shù)據(jù)量的抓取和復(fù)雜的訓(xùn)練過(guò)程。ChatGPT模型依賴于大規(guī)模離線語(yǔ)料進(jìn)行訓(xùn)練，往往不能充分接受并采用在線提供的即時(shí)信息，難以理解對(duì)話中提及的因果關(guān)系，也無(wú)法基于已有信息進(jìn)行推測(cè)，這距離人類舉一反三的能力相差較遠(yuǎn)。l可能存在的瓶頸：ChatGPT本身的缺陷可能通過(guò)技術(shù)進(jìn)步和優(yōu)化訓(xùn)練方式得到解決，但它的爆火卻引發(fā)了人們對(duì)AIGC行業(yè)中安全性、倫理約束和創(chuàng)造力的思考，或?qū)⒊蔀榘l(fā)展瓶頸。一方面，由于RLFH并不能完全避免ChatGPT訓(xùn)練庫(kù)中學(xué)習(xí)到的不道德或有偏見(jiàn)的回答，也會(huì)導(dǎo)致在模糊提示或引導(dǎo)回答的過(guò)程中讓ChatGPT輸出一些有害信息，導(dǎo)致輸出結(jié)果的安全性降低。另一方面，在創(chuàng)造性、創(chuàng)作倫理和知識(shí)產(chǎn)權(quán)等方面并未形成有效界定。在數(shù)據(jù)挖掘、大規(guī)模計(jì)算、統(tǒng)計(jì)、多線程工作等數(shù)據(jù)處理分析領(lǐng)域，人工智能有著人類不可比擬的優(yōu)勢(shì)，但是以“創(chuàng)新和感知”為基礎(chǔ)的創(chuàng)造過(guò)程是機(jī)器學(xué)習(xí)和模型難以訓(xùn)練的。目前ChatGPT能夠在用戶的引導(dǎo)下快速生成小說(shuō)、詩(shī)歌、散文、編程等需要?jiǎng)?chuàng)造力的內(nèi)容，或許將對(duì)創(chuàng)作者和以版權(quán)為基礎(chǔ)的行業(yè)造成沖擊。文本生成的過(guò)程是基于數(shù)據(jù)庫(kù)內(nèi)容的學(xué)習(xí)，這是否會(huì)構(gòu)成對(duì)被抓取作品的侵權(quán)，ChatGPT生成的文本內(nèi)容是否具有著作權(quán)，是否屬于該用戶等一系列問(wèn)題的答案尚不明確。lChatGPT的能力目前幾乎可以涵蓋各個(gè)自然語(yǔ)言交互領(lǐng)域，例如聊天機(jī)器人、對(duì)話系統(tǒng)、智能客服、信息檢索、主題建模、文本生成和總結(jié)、NLP作為服務(wù)的翻譯、轉(zhuǎn)錄、總結(jié)等等，未來(lái)應(yīng)用領(lǐng)域?qū)⒚嫦蛩{(lán)海。例如，在聊天機(jī)器人領(lǐng)域，目前ChatGPT已經(jīng)能基本滿足用戶的提供個(gè)性化需求和信息提供服務(wù)；在需要智能客服的電商、金融、醫(yī)療、教育、政務(wù)等垂直領(lǐng)域等，ChatGPT能夠結(jié)合行業(yè)特點(diǎn)和需求，構(gòu)建自動(dòng)應(yīng)答系統(tǒng)，為客戶提供快速、準(zhǔn)確的問(wèn)題解答。除此外，在傳媒、娛樂(lè)、設(shè)計(jì)和影視領(lǐng)域，ChatGPT能夠協(xié)助完成一些較低層次的任務(wù)，包括文稿生成、采訪助手、摘要總結(jié)等，或?qū)⑻岣咝袠I(yè)的運(yùn)行效率。lChatGPT的商業(yè)化落地方式還待商榷：第一、由于GPT-3的訓(xùn)練耗資巨大，且需要大量的數(shù)據(jù)集和算力，即使ChatGPT未來(lái)應(yīng)用前景廣闊，如果不能降低模型的更新訓(xùn)練成本和推理成本，將限制中小B端企業(yè)的采購(gòu)意愿。第二、目前正在免費(fèi)測(cè)試階段的ChatGPT還未解決GPT-3模型存在的準(zhǔn)確性和安全性問(wèn)題，還需要進(jìn)一步優(yōu)化迭代。此前，OpenAI已嘗試過(guò)通過(guò)API接口的方式推動(dòng)GPT-3的商業(yè)化，但由于模型問(wèn)題并未通過(guò)測(cè)試階段。雖然目前OpenAI已找到行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)方式優(yōu)化輸出虛假信息的問(wèn)題，但效力遠(yuǎn)遠(yuǎn)不足。如果不能解決這兩個(gè)問(wèn)題，GPT的商業(yè)化道路還需等待。l投資建議ChatGPT代表自然語(yǔ)言處理技術(shù)一大進(jìn)步，利好相關(guān)AI公司的技術(shù)與產(chǎn)品落地，可重點(diǎn)關(guān)注拓爾思（300229.SZ)、商湯-W（0020.HK)、科大訊飛(002230.SZ)。l風(fēng)險(xiǎn)提示技術(shù)研發(fā)不及預(yù)期的風(fēng)險(xiǎn)；商業(yè)化落地方式尚不明確的風(fēng)險(xiǎn)；下游需求不及預(yù)期的風(fēng)險(xiǎn)。ChatGPT是一個(gè)由OpenAI開發(fā)的自然語(yǔ)言處理領(lǐng)域（NLP）的模型，它通過(guò)對(duì)話方式進(jìn)行交互，能夠根據(jù)用戶輸入的自然語(yǔ)言文本內(nèi)容，自動(dòng)生成新的文本內(nèi)容，屬于AIGC行業(yè)中細(xì)分賽道中的一種。ChatGPT是在GPT3.5大模型語(yǔ)言模型（LLM,即LargeLanguageModel）的基礎(chǔ)上，加入“基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF，ReinforcementLearningfromHumanFeedback）”來(lái)不斷微調(diào)（Fine-tune）預(yù)訓(xùn)練語(yǔ)言模型，使得LLM模型學(xué)會(huì)理解不同類型的命令指令，并通過(guò)多重標(biāo)準(zhǔn)合理判斷基于給定的prompt輸入指令，輸出的是否為優(yōu)質(zhì)信息。（這些標(biāo)準(zhǔn)包括：富含信息、內(nèi)容豐富、對(duì)用戶有幫助、無(wú)害、不包含歧視信息等）AIGC即AI-GeneratedContent，是繼UGC、PGC之后利用AI技術(shù)自動(dòng)生成內(nèi)容的新型生產(chǎn)方式。相比UGC和PGC，AIGC的最大不同是基于海量數(shù)據(jù)、風(fēng)格隨機(jī)多變、跨模態(tài)融合、認(rèn)知交互力等新技術(shù)導(dǎo)向特征。隨著ChatGPT的技術(shù)日漸成熟，AIGC將在電商虛擬主播、教育、金融、醫(yī)療、影視娛樂(lè)等多場(chǎng)景爆發(fā)，并進(jìn)一步催生元宇宙的快速發(fā)展。ChatGPT的名稱來(lái)源于它所使用的技術(shù)架構(gòu)GPT，即GenerativePre-trainedTransformer，是一種強(qiáng)大的生成式預(yù)訓(xùn)練語(yǔ)言模型，能夠完成復(fù)雜的自然語(yǔ)言處理領(lǐng)域（NLP）的任務(wù)，例如文本生成、機(jī)器翻譯、代碼生成、問(wèn)答、對(duì)話AI等。GPT模型在上述任務(wù)中并不需要監(jiān)督學(xué)習(xí)，但模型訓(xùn)練過(guò)程需要龐大的訓(xùn)練語(yǔ)料、模型參數(shù)和強(qiáng)大的計(jì)算資源。在結(jié)構(gòu)上，GPT基于堆疊的Transformer組件進(jìn)行編解碼，通過(guò)提升訓(xùn)練語(yǔ)料的規(guī)模和質(zhì)量、提升網(wǎng)絡(luò)參數(shù)數(shù)量來(lái)完成GPT系列的迭代過(guò)程。近五年來(lái)GPT的發(fā)展過(guò)程也證明了：模型能力的提高與參數(shù)量和預(yù)訓(xùn)練數(shù)據(jù)量有直接關(guān)聯(lián)。在在在資料來(lái)源：人民數(shù)字，品玩，中國(guó)銀河證券研究院行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)2018年，在自然語(yǔ)言處理領(lǐng)域（NLP）剛興起時(shí)，OpenAI就推出的初代GPT，它的運(yùn)行邏輯是：先通過(guò)無(wú)標(biāo)簽數(shù)據(jù)學(xué)習(xí)生成語(yǔ)言模型，并能夠運(yùn)用于一些與有監(jiān)督任務(wù)無(wú)關(guān)的NLP任務(wù)中。此后再根據(jù)特定的下游任務(wù)進(jìn)行有監(jiān)督的微調(diào)，提高其泛化能力。常用的有監(jiān)督任務(wù)主要（1）自然語(yǔ)言推理（NaturalLanguageInference）：判斷兩個(gè)句子的關(guān)系，是包含關(guān)系、矛盾關(guān)系或者中立關(guān)系；（2）問(wèn)答和常識(shí)推理（Questionansweringandcommonsensereasoning）：通過(guò)輸入的文章和若干個(gè)問(wèn)題及其候選答案，輸出為每個(gè)答案的預(yù)測(cè)概率；（3）語(yǔ)義相似度（SemanticSimilarity）：判斷兩個(gè)句子是否語(yǔ)義相關(guān)；（4）分類（Classification）：判斷輸入文本的指定類別。在經(jīng)過(guò)有監(jiān)督的微調(diào)后，GPT-1的泛化能力會(huì)得到明顯提升，且隨著訓(xùn)練次數(shù)的增加，GPT-1的性能逐步提升。但是初代GPT僅僅使用了解碼器decoder部分，其transformer結(jié)構(gòu)中對(duì)于詞向量的學(xué)習(xí)能力得到發(fā)揮，能夠?qū)?shí)現(xiàn)較好地語(yǔ)言理解，適用于文本生成領(lǐng)域，但在通用語(yǔ)言和會(huì)話交流方面，還有較大的欠缺。相較于初代GPT，2019年推出的GPT-2整體上結(jié)構(gòu)和設(shè)計(jì)沒(méi)有變化，但學(xué)習(xí)目標(biāo)是使用無(wú)監(jiān)督的預(yù)訓(xùn)練模型作為有監(jiān)督學(xué)習(xí)的任務(wù)，其核心邏輯在于讓所有有監(jiān)督學(xué)習(xí)成為無(wú)監(jiān)督語(yǔ)言模型的子集。換言之，GPT-2可以在數(shù)據(jù)量足夠豐富且模型容量足夠大時(shí)，通過(guò)訓(xùn)練語(yǔ)言模型就能夠完成有監(jiān)督學(xué)習(xí)的任務(wù)。實(shí)際訓(xùn)練中，GPT-2和GPT初代不同點(diǎn)在于：（1）更廣泛的信息來(lái)源：在預(yù)訓(xùn)練時(shí)擴(kuò)充NLP任務(wù)的數(shù)據(jù)集到40G；（2）更龐大的網(wǎng)絡(luò)參數(shù)：將transformer的層數(shù)增加到48，隱層（hiddenlayer）維度擴(kuò)展到1600，實(shí)現(xiàn)了15億的參數(shù)量；（3）不再針對(duì)不同的任務(wù)建模微調(diào)（finetune）：將機(jī)器翻譯、自然語(yǔ)言推理、語(yǔ)義分析、關(guān)系提取等10類任務(wù)統(tǒng)一建模為一個(gè)分類任務(wù)，讓模型在預(yù)訓(xùn)練中自己識(shí)別任務(wù)。在性能方面，GPT-2可以在多個(gè)特定的語(yǔ)言場(chǎng)景下良好地完成NLP任務(wù)，除了語(yǔ)言理解能力外，還可以勝任翻譯生成、故事編寫、總結(jié)摘要等。這些能力基于海量數(shù)據(jù)和大量參數(shù)訓(xùn)練的詞向量模型，不需要監(jiān)督微調(diào)和額外的訓(xùn)練即可遷移，基本實(shí)現(xiàn)了元學(xué)習(xí)（meta-learnnig）。同時(shí)，GPT-2能夠讓數(shù)據(jù)庫(kù)中詞向量包含的信息在多任務(wù)中通用，實(shí)現(xiàn)了信息脫離具體的NLP任務(wù)存在，也證明了隨著模型容器和數(shù)據(jù)量擴(kuò)充，GPT的無(wú)監(jiān)督學(xué)習(xí)具有很大的提升空間。對(duì)比GPT-2，2020年推出的GPT-3最顯著的特征是龐大的數(shù)據(jù)量和參數(shù)投入，整體訓(xùn)練過(guò)程耗資1200萬(wàn)美元，投入數(shù)據(jù)量達(dá)上萬(wàn)億，模型參數(shù)量達(dá)到1750億。雖然GPT-3延續(xù)了前兩代GPT的技術(shù)架構(gòu)，但改變了“大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練+下游數(shù)據(jù)標(biāo)注微調(diào)”的方式，采用情境學(xué)習(xí)（in-contextlearning）來(lái)提高模型對(duì)話輸出的性能?；谇榫硨W(xué)習(xí)對(duì)于模型的引導(dǎo)，行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)將提供10-100個(gè)示例和任務(wù)描述供模型學(xué)習(xí)；one-shotlaerning提供1個(gè)示例描述；zero-shot則不提供示例，只是在測(cè)試時(shí)提供任務(wù)相關(guān)的具體描述。這三種學(xué)習(xí)方式的效果與模型容量成正相關(guān)，且多個(gè)示例學(xué)習(xí)的增強(qiáng)效果高于單個(gè)示例或不提供示例。換言之，在超大模型的訓(xùn)練下，GPT-3的匹配正確答案的準(zhǔn)確率大幅提升。在現(xiàn)存大量語(yǔ)言模型中，GPT-3的規(guī)模和語(yǔ)言能力幾乎是最強(qiáng)大的。它能在不做fine-tuning的情況下，在一些傳統(tǒng)的NLP任務(wù)中表現(xiàn)得更好，包括實(shí)現(xiàn)閉卷問(wèn)答、模式解析、純語(yǔ)言建模、機(jī)器翻譯等；在新的領(lǐng)域，GPT-3將NLP的應(yīng)用擴(kuò)展到缺乏足夠訓(xùn)練數(shù)據(jù)的領(lǐng)域，例如在開發(fā)程序代碼、文章生成和信息檢索領(lǐng)域取得了實(shí)質(zhì)性的進(jìn)展。此外，在UI設(shè)計(jì)、圖像生成和藝術(shù)創(chuàng)作等領(lǐng)域，GPT-3的功能也更加強(qiáng)大，可以不經(jīng)過(guò)微調(diào)就補(bǔ)全圖像樣本、或者實(shí)現(xiàn)簡(jiǎn)單的視圖交互設(shè)計(jì)，將應(yīng)用領(lǐng)域從語(yǔ)言處理領(lǐng)域逐漸拓寬。實(shí)現(xiàn)了從語(yǔ)言到圖像的轉(zhuǎn)向。然而，GPT-3在推理和理解能力上還有較長(zhǎng)的路要走。在自然語(yǔ)言推理（NLI）中重點(diǎn)關(guān)注句子之間的關(guān)系，由于GPT-3的閱讀理解性能存在一定缺陷，在NLI任務(wù)中表現(xiàn)不佳；類似的，在物理、科學(xué)的常識(shí)推理技能表現(xiàn)中也存在一定問(wèn)題。相較于GPT-3，OpenAI在2022年初發(fā)布了InstructGPT。該語(yǔ)言模型在GPT-3的基礎(chǔ)上進(jìn)行微調(diào)，并在工作原理上增加了對(duì)齊研究，強(qiáng)化InstructGPT模型的語(yǔ)義理解；同時(shí)，通過(guò)“基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）和監(jiān)督學(xué)習(xí)”來(lái)提高輸出質(zhì)量。具體地，開發(fā)人員可以將訓(xùn)練劃分為三個(gè)階段：第一階段：冷啟動(dòng)階段的策略模型。隨機(jī)抽取用戶提交的指令或問(wèn)題，即prompt，并進(jìn)行專業(yè)的人工標(biāo)注，用這些指定的prompt和高質(zhì)量答案共同微調(diào)GPT-3.5模型，使之初步具備理解輸入指令或問(wèn)題的能力。第二階段：訓(xùn)練回報(bào)模型（RewardModel,RM）。在第一階段生成的眾多結(jié)果中，根據(jù)結(jié)果質(zhì)量由人工標(biāo)注排序并作為訓(xùn)練數(shù)據(jù)，通過(guò)監(jiān)督學(xué)習(xí)中的匹配排序（pair-wiselearningtorank）訓(xùn)練回報(bào)模型對(duì)語(yǔ)言模型預(yù)訓(xùn)練的輸出結(jié)果評(píng)分，回答質(zhì)量越高，分?jǐn)?shù)越高。第三階段：采用強(qiáng)化學(xué)習(xí)來(lái)增強(qiáng)預(yù)訓(xùn)練模型的能力。利用第二階段學(xué)好的RM模型更新預(yù)算法生成回答后，循環(huán)執(zhí)行第一到三階段進(jìn)行強(qiáng)化訓(xùn)練，最終鼓勵(lì)LLM模型能夠輸出更高質(zhì)量行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)資料來(lái)源：OpenAI官網(wǎng)，中國(guó)銀河證券研究院雖然InstructGPT的參數(shù)量?jī)H為13億左右，相比于GPT-3縮小了100倍以上；但在遵循指令方面，能夠更好地遵循用戶意圖，將有害的、不真實(shí)或者有偏差的信息輸出最小化。在優(yōu)化的模型上，ChatGPT基于InstructGPT進(jìn)一步改進(jìn)，在模型結(jié)構(gòu)和訓(xùn)練流程上遵循上述方式，但收集和標(biāo)注數(shù)據(jù)的方式上發(fā)生了變化。InstructGPT模型需要先完成類似<prompt,answer>的輸入、輸出匹配，取得多個(gè)匹配結(jié)果后再跟模型的預(yù)訓(xùn)練數(shù)據(jù)對(duì)比，在第二階段的RM中只有獎(jiǎng)勵(lì)、沒(méi)有懲罰機(jī)制；而ChatGPT則是在輸入prompt、模型輸出多個(gè)answer后，直接對(duì)輸出結(jié)果進(jìn)行人為排序，根據(jù)排序后的結(jié)果讓模型完成預(yù)訓(xùn)練中從最優(yōu)到最劣的排序。通過(guò)采取監(jiān)督學(xué)習(xí)的方式讓模型學(xué)習(xí)人類排序的方式。目前，ChatGPT不需要任何額外的訓(xùn)練就能在多種不同的領(lǐng)域中應(yīng)用并快速輸出高質(zhì)量的文本，相較于以前的模型已具備較強(qiáng)的自然語(yǔ)言處理能力，具體來(lái)講可歸納為以下幾點(diǎn)：第一、更強(qiáng)的對(duì)話能力：ChatGPT支持多輪對(duì)話，在自然語(yǔ)言交互方面、情感分析、情景會(huì)話等方面運(yùn)行流暢，在語(yǔ)言模仿能力和邏輯判斷方面展現(xiàn)出更強(qiáng)的能力。第二、更全面的語(yǔ)言能力：ChatGPT支持多種語(yǔ)言環(huán)境，并且支持長(zhǎng)短句輸入，在閱讀理解、復(fù)雜語(yǔ)句處理、邏輯能力和文本生成方面更加靈活。第三、更高精度的預(yù)測(cè)結(jié)果：ChatGPT的訓(xùn)練模型支持大規(guī)模數(shù)據(jù)集，具備海量的話題庫(kù)，通用性更強(qiáng)。行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)第一、由于技術(shù)實(shí)現(xiàn)的問(wèn)題，ChatGPT會(huì)不可避免地寫出一些似是而非、或者荒謬的答案，這將導(dǎo)致植入虛假數(shù)據(jù)和誤導(dǎo)用戶的風(fēng)險(xiǎn)。ChatGPT依然沒(méi)有完全克服大型語(yǔ)言模型（LLM）的這一常見(jiàn)缺點(diǎn)，造成這個(gè)問(wèn)題的原因主要有以下三點(diǎn)1）在訓(xùn)練和強(qiáng)化學(xué)習(xí)（RL）的過(guò)程中，數(shù)據(jù)集中沒(méi)有對(duì)應(yīng)的事實(shí)或標(biāo)準(zhǔn)答案的來(lái)源2）訓(xùn)練模型時(shí)謹(jǐn)慎性提高，為了避免誤報(bào)等情況，可能導(dǎo)致模型拒絕可以正確回答的問(wèn)題;（3）監(jiān)督訓(xùn)練中行為克?。˙C，BehaviorCloning）對(duì)模型產(chǎn)生誤導(dǎo)：當(dāng)模型掌握的信息量高于訓(xùn)練者（humanexpert模型會(huì)采集冗余信息；當(dāng)訓(xùn)練者的常識(shí)信息量高于模型，基于常識(shí)的prompt較少，模型將基于先驗(yàn)知識(shí)去邊緣化未觀測(cè)到的變量，從而導(dǎo)致信息失真。由于具有龐大數(shù)據(jù)訓(xùn)練量，即使經(jīng)過(guò)人工監(jiān)督學(xué)習(xí)和獎(jiǎng)勵(lì)機(jī)制調(diào)整，一些錯(cuò)誤或者編造的信息會(huì)逃過(guò)人工智能審核機(jī)制，成為ChatGPT的輸出答案的隱患。尤其在語(yǔ)言生成能力和邏輯能力大幅提高的框架下，ChatGPT會(huì)讓虛構(gòu)的事實(shí)看似合理化，增加人工智能審核的難度。此外，隨著信息傳播速度的加快，以及CharGPT具有大規(guī)模且快速生成流暢文本的能力，真實(shí)性未得到驗(yàn)證的信息可能在多個(gè)平臺(tái)或網(wǎng)站快速散播，導(dǎo)致真實(shí)用戶的發(fā)聲或者正確的信息被淹沒(méi)。第二、在較長(zhǎng)的會(huì)話中，由于訓(xùn)練數(shù)據(jù)的偏差和過(guò)度修正，ChatGPT會(huì)過(guò)度強(qiáng)調(diào)某些短語(yǔ)或者句子，導(dǎo)致重復(fù)性高的問(wèn)題。例如它會(huì)重申它是由OpenAI訓(xùn)練的語(yǔ)言模型，這可能源于訓(xùn)練者對(duì)模型回答全面性的優(yōu)化。而且，ChatGPT對(duì)多次調(diào)整輸入措辭或嘗試相同的輸入指令也會(huì)很敏感。例如，給定一個(gè)問(wèn)題，模型可以聲稱不知道答案或拒絕回答，但在指令稍作調(diào)整后，ChatGPT也會(huì)識(shí)別并回答。第三、ChatGPT的強(qiáng)大能力依賴語(yǔ)料庫(kù)、數(shù)據(jù)量的抓取和復(fù)雜的訓(xùn)練過(guò)程，訓(xùn)練成本和所需算力的成本都很高。如果數(shù)據(jù)庫(kù)的收錄內(nèi)容質(zhì)量不高或者數(shù)據(jù)量不夠大，將會(huì)影響生成文本內(nèi)容的質(zhì)量和精細(xì)度，而且ChatGPT模型訓(xùn)練和優(yōu)化過(guò)程較為復(fù)雜，需要專業(yè)的人員進(jìn)行操作，訓(xùn)練成本和所需算力的成本都很高。最重要的是，ChatGPT模型依賴于大規(guī)模離線語(yǔ)料進(jìn)行訓(xùn)練，往往不能充分接受并采用在線提供的即時(shí)信息，難以理解對(duì)話中提及的因果關(guān)系，也無(wú)法基于已有信息進(jìn)行推測(cè)，這距離人類舉一反三的能力相差較遠(yuǎn)。ChatGPT本身的缺陷或許可以通過(guò)收集更多、更豐富的語(yǔ)料庫(kù)，提高訓(xùn)練和優(yōu)化的效率和質(zhì)量，以及開發(fā)人工智能檢查和修改的工具來(lái)改善，但是更深層次的，ChatGPT引起了人們對(duì)AIGC行業(yè)中安全性、倫理約束和創(chuàng)造力的思考。由于RLFH并不能完全避免ChatGPT訓(xùn)練庫(kù)中學(xué)習(xí)到的不道德或有偏見(jiàn)的回答，也會(huì)導(dǎo)致在模糊提示或引導(dǎo)回答的過(guò)程中讓ChatGPT輸出一些有害信息，導(dǎo)致輸出結(jié)果的安全性降低。由于人工智能缺乏對(duì)倫理和常識(shí)的價(jià)值判斷能力，也沒(méi)有有效的約束方式，一旦模型存在不安全輸出的可能性，ChatGPT將容易被濫用。因此，為了提高ChatGPT輸出內(nèi)容的真實(shí)性和安全性，減少或拒絕有害信息的輸出，在ChatGPT模型中添加限制或內(nèi)置“內(nèi)容安全過(guò)濾”模塊是必要的。目前OpenAI正在進(jìn)行相關(guān)研究，增強(qiáng)GPT系統(tǒng)對(duì)用戶意圖的理解，并視情況篩選指令執(zhí)行，推動(dòng)自然語(yǔ)言交互工具的安全性提高。此外，在創(chuàng)造性、創(chuàng)作倫理和知識(shí)產(chǎn)權(quán)等方面并未形成有效界定。在數(shù)據(jù)挖掘、大規(guī)模計(jì)算、統(tǒng)計(jì)、多線程工作等數(shù)據(jù)處理分析領(lǐng)域，人工智能有著人類不可比擬的優(yōu)勢(shì)，但是以“創(chuàng)行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)新和感知”為基礎(chǔ)的創(chuàng)造過(guò)程是機(jī)器學(xué)習(xí)和模型難以訓(xùn)練的。目前ChatGPT能夠在用戶的引導(dǎo)下快速生成小說(shuō)、詩(shī)歌、散文、編程等需要?jiǎng)?chuàng)造力的內(nèi)容，或許將對(duì)創(chuàng)作者和以版權(quán)為基礎(chǔ)的行業(yè)造成沖擊。文本生成的過(guò)程是基于數(shù)據(jù)庫(kù)內(nèi)容的學(xué)習(xí)，這是否會(huì)構(gòu)成對(duì)被抓取作品的侵權(quán)，ChatGPT生成的文本內(nèi)容是否具有著作權(quán)，是否屬于該用戶等等一系列問(wèn)題的答案尚不明確。目前ChatGPT在編程、文本生成等NLP領(lǐng)域強(qiáng)大的能力引發(fā)了部分行業(yè)的擔(dān)憂。例如由于ChatGPT擁有基于對(duì)話形式接收輸入指令并輸出結(jié)果的能力，與傳統(tǒng)的搜索引擎功能具有一定重合。但對(duì)比來(lái)講，傳統(tǒng)的搜索引擎暫時(shí)還不能被取代，主要有以下原因：第一、兩者側(cè)重的功能和優(yōu)勢(shì)不同。搜索引擎是一種信息檢索系統(tǒng)，通過(guò)對(duì)海量信息的索引和檢索，為用戶提供快速、準(zhǔn)確的查詢結(jié)果。搜索引擎能夠返回多條查詢的結(jié)果、準(zhǔn)確率較高，并且搜索引擎不會(huì)對(duì)信息做出判斷，完全呈現(xiàn)結(jié)果等待用戶的篩選；但是ChatGPT是一個(gè)自然語(yǔ)言處理模型，通過(guò)接收用戶的輸入指令，匹配并輸出相應(yīng)的單一結(jié)果。由于訓(xùn)練模型會(huì)對(duì)結(jié)果進(jìn)行篩選等原因，僅返回的單一結(jié)果，以確保與用戶對(duì)話過(guò)程的流暢性。第二、兩者的應(yīng)用領(lǐng)域不同。搜索引擎的信息庫(kù)抓取信息快、信息庫(kù)更頻率高、存量大，主要用于幫助用戶快速查找匹配信息、找到感興趣的信息，常常應(yīng)用在文獻(xiàn)檢索、互聯(lián)網(wǎng)搜索等領(lǐng)域；而ChatGPT的語(yǔ)料庫(kù)來(lái)源于離線數(shù)據(jù)，輸出的文本存在虛假信息的可能，且吸納新的知識(shí)需要對(duì)模型進(jìn)行再訓(xùn)練和微調(diào)，這會(huì)導(dǎo)致訓(xùn)練成本和甄別成本上升，因此主要應(yīng)用于人機(jī)對(duì)話、智能客服、智能問(wèn)答等強(qiáng)邏輯性的自然語(yǔ)言交互領(lǐng)域。除此外，ChatGPT目前還處于測(cè)試階段，短期內(nèi)將不會(huì)對(duì)現(xiàn)有行業(yè)，尤其是傳統(tǒng)信息檢索工具造成沖擊，也并不具備取代某些行業(yè)的能力。然而，如果未來(lái)ChatGPT的內(nèi)容質(zhì)量和訓(xùn)練成本的問(wèn)題能夠得到解決，或許長(zhǎng)期來(lái)看，搜索引擎將迎來(lái)

人人文庫(kù)> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

聊天機(jī)器人頂流 ChatGPT開啟自然語(yǔ)言處理領(lǐng)域新篇章

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

聊天機(jī)器人頂流 ChatGPT開啟自然 語(yǔ)言處理領(lǐng)域新篇章

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

聊天機(jī)器人頂流 ChatGPT開啟自然語(yǔ)言處理領(lǐng)域新篇章