版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
證券研究報(bào)告請(qǐng)務(wù)必閱讀正文最后的中國(guó)銀河證券股份公司免責(zé)聲明推薦維持評(píng)級(jí)l事件:12月1日,美國(guó)人工智能公司OpenAI在網(wǎng)頁(yè)上推出自然語(yǔ)言處理領(lǐng)域(NLP)的模型ChatGPT,它能夠通過(guò)對(duì)話方式進(jìn)行交互,并根據(jù)用戶輸入的自然語(yǔ)言文本內(nèi)容,自動(dòng)生成新的文本內(nèi)容。一周內(nèi),ChatGPT的用戶已突破100萬(wàn)。l什么是ChatGPT:ChatGPT是在GPT3.5大模型語(yǔ)言模型(LLM,即LargeLanguageModel)的基礎(chǔ)上,加入“基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF,ReinforcementLearningfromHumanFeedback)”來(lái)不斷微調(diào)(Fine-tune)預(yù)訓(xùn)練語(yǔ)言模型,使得LLM模型學(xué)會(huì)理解不同類型的命令指令,并通過(guò)多重標(biāo)準(zhǔn)合理判斷基于給定的prompt輸入指令,輸出的是否為優(yōu)質(zhì)信息(這些標(biāo)準(zhǔn)包括:富含信息、內(nèi)容豐富、對(duì)用戶有幫助、無(wú)害、不包含歧視信息等)。lChatGPT引爆AIGC,AIGC將迎多場(chǎng)景爆發(fā)期。AIGC即AI-GeneratedContent,是繼UGC、PGC之后利用AI技術(shù)自動(dòng)生成內(nèi)容的新型生產(chǎn)方式。相比UGC和PGC,AIGC的最大不同是基于海量數(shù)據(jù)、風(fēng)格隨機(jī)多變、跨模態(tài)融合、認(rèn)知交互力等新技術(shù)導(dǎo)向特征。隨著ChatGPT的技術(shù)日漸成熟,AIGC將在電商虛擬主播、教育、金融、醫(yī)療、影視娛樂(lè)等多場(chǎng)景爆發(fā),并進(jìn)一步催生元宇宙的快速lChatGPT的技術(shù)發(fā)展路徑:從GPT-1到InstructGPT,數(shù)據(jù)量與參數(shù)量不斷增加,模型精度和能力提升。2018年,在自然語(yǔ)言處理領(lǐng)域(NLP)剛興起時(shí),OpenAI就推出了初代GPT,它的運(yùn)行邏輯是:先通過(guò)無(wú)標(biāo)簽數(shù)據(jù)學(xué)習(xí)生成語(yǔ)言模型,并能夠運(yùn)用于一些與有監(jiān)督任務(wù)無(wú)關(guān)的NLP任務(wù)中。此后再根據(jù)特定的下游任務(wù)進(jìn)行有監(jiān)督的微調(diào),提高其泛化能力。GPT-2擴(kuò)展了網(wǎng)絡(luò)參數(shù)和數(shù)據(jù)集,進(jìn)行多任務(wù)學(xué)習(xí),可以在數(shù)據(jù)量足夠豐富且模型容量足夠大時(shí),通過(guò)訓(xùn)練語(yǔ)言模型就能夠完成有監(jiān)督學(xué)習(xí)的任務(wù)。對(duì)比GPT-2,2020年推出的GPT-3最顯著的特征是龐大的數(shù)據(jù)量和參數(shù)投入,整體訓(xùn)練過(guò)程耗資1200萬(wàn)美元,投入數(shù)據(jù)量達(dá)上萬(wàn)億,模型參數(shù)量達(dá)到1750億。GPT-3延續(xù)了前兩代GPT的技術(shù)架構(gòu),但改變了“大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練+下游數(shù)據(jù)標(biāo)注微調(diào)”的方式,采用情境學(xué)習(xí)(in-contextlearning)來(lái)提高模型對(duì)話輸出的性能。GPT-3的規(guī)模和語(yǔ)言能力幾乎是最強(qiáng)大的。它能在不做微調(diào)的情況下,在一些傳統(tǒng)的NLP任務(wù)中表現(xiàn)得更好,包括實(shí)現(xiàn)閉卷問(wèn)答、模式解析、純語(yǔ)言建模、機(jī)器翻譯等;在新的領(lǐng)域,GPT-3將NLP的應(yīng)用擴(kuò)展到缺乏足夠訓(xùn)練數(shù)據(jù)的領(lǐng)域,例如在開發(fā)程序代碼、文章生成和信息檢索領(lǐng)域取得了實(shí)質(zhì)性的進(jìn)展。然而,GPT-3在推理和理解能力上還有較長(zhǎng)的路要走,在自然語(yǔ)言推理(NLI)任務(wù)中表現(xiàn)不佳。InstructGPT和ChatGPT:更好地遵循用戶意圖、更少的虛假信息。OpenAI在2022年初發(fā)布了InstructGPT。該語(yǔ)言模型通過(guò)“基于人分析師吳硯靖:wuyanjing@鄒文倩:zouwenqian@行業(yè)數(shù)據(jù)2022-12-11資料來(lái)源:Wind,中國(guó)銀河證券研究院整理行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)wwwchinastockcomcn證券研究報(bào)告請(qǐng)務(wù)必閱讀正文最后的中國(guó)銀河證券股份公司免責(zé)聲明類反饋的強(qiáng)化學(xué)習(xí)(RLHF)和監(jiān)督學(xué)習(xí)”來(lái)提高輸出質(zhì)量。雖然InstructGPT的參數(shù)量?jī)H為13億左右,相比于GPT-3縮小了100倍以上;但在遵循指令方面,能夠更好地遵循用戶意圖,將有害的、不真實(shí)或者有偏差的信息輸出最小化。在優(yōu)化的模型上,ChatGPT基于InstructGPT進(jìn)一步改進(jìn),在模型結(jié)構(gòu)和訓(xùn)練流程上遵循上述方式,但收集和標(biāo)注數(shù)據(jù)的方式上發(fā)生了變化,通過(guò)采取監(jiān)督學(xué)習(xí)的方式讓模型學(xué)習(xí)人類排序的方式。lChatGPT的優(yōu)勢(shì)與缺陷:優(yōu)勢(shì)是ChatGPT不需要任何額外的訓(xùn)練就能在多種不同的領(lǐng)域中應(yīng)用并快速輸出高質(zhì)量的文本,相較于以前的模型已具備較強(qiáng)的自然語(yǔ)言處理能力。但目前ChatGPT在精準(zhǔn)性、真實(shí)性、重復(fù)率和依賴性等問(wèn)題上尚待改善:第一、由于技術(shù)實(shí)現(xiàn)的問(wèn)題,ChatGPT會(huì)不可避免地寫出一些似是而非、或者荒謬的答案,這將導(dǎo)致植入虛假數(shù)據(jù)和誤導(dǎo)用戶的風(fēng)險(xiǎn)。ChatGPT依然沒(méi)有完全克服大型語(yǔ)言模型(LLM)的這一常見(jiàn)缺點(diǎn);第二、在較長(zhǎng)的會(huì)話中,由于訓(xùn)練數(shù)據(jù)的偏差和過(guò)度修正,ChatGPT會(huì)過(guò)度強(qiáng)調(diào)某些短語(yǔ)或者句子,導(dǎo)致重復(fù)性高的問(wèn)題;第三、ChatGPT的強(qiáng)大能力依賴語(yǔ)料庫(kù)、數(shù)據(jù)量的抓取和復(fù)雜的訓(xùn)練過(guò)程。ChatGPT模型依賴于大規(guī)模離線語(yǔ)料進(jìn)行訓(xùn)練,往往不能充分接受并采用在線提供的即時(shí)信息,難以理解對(duì)話中提及的因果關(guān)系,也無(wú)法基于已有信息進(jìn)行推測(cè),這距離人類舉一反三的能力相差較遠(yuǎn)。l可能存在的瓶頸:ChatGPT本身的缺陷可能通過(guò)技術(shù)進(jìn)步和優(yōu)化訓(xùn)練方式得到解決,但它的爆火卻引發(fā)了人們對(duì)AIGC行業(yè)中安全性、倫理約束和創(chuàng)造力的思考,或?qū)⒊蔀榘l(fā)展瓶頸。一方面,由于RLFH并不能完全避免ChatGPT訓(xùn)練庫(kù)中學(xué)習(xí)到的不道德或有偏見(jiàn)的回答,也會(huì)導(dǎo)致在模糊提示或引導(dǎo)回答的過(guò)程中讓ChatGPT輸出一些有害信息,導(dǎo)致輸出結(jié)果的安全性降低。另一方面,在創(chuàng)造性、創(chuàng)作倫理和知識(shí)產(chǎn)權(quán)等方面并未形成有效界定。在數(shù)據(jù)挖掘、大規(guī)模計(jì)算、統(tǒng)計(jì)、多線程工作等數(shù)據(jù)處理分析領(lǐng)域,人工智能有著人類不可比擬的優(yōu)勢(shì),但是以“創(chuàng)新和感知”為基礎(chǔ)的創(chuàng)造過(guò)程是機(jī)器學(xué)習(xí)和模型難以訓(xùn)練的。目前ChatGPT能夠在用戶的引導(dǎo)下快速生成小說(shuō)、詩(shī)歌、散文、編程等需要?jiǎng)?chuàng)造力的內(nèi)容,或許將對(duì)創(chuàng)作者和以版權(quán)為基礎(chǔ)的行業(yè)造成沖擊。文本生成的過(guò)程是基于數(shù)據(jù)庫(kù)內(nèi)容的學(xué)習(xí),這是否會(huì)構(gòu)成對(duì)被抓取作品的侵權(quán),ChatGPT生成的文本內(nèi)容是否具有著作權(quán),是否屬于該用戶等一系列問(wèn)題的答案尚不明確。lChatGPT的能力目前幾乎可以涵蓋各個(gè)自然語(yǔ)言交互領(lǐng)域,例如聊天機(jī)器人、對(duì)話系統(tǒng)、智能客服、信息檢索、主題建模、文本生成和總結(jié)、NLP作為服務(wù)的翻譯、轉(zhuǎn)錄、總結(jié)等等,未來(lái)應(yīng)用領(lǐng)域?qū)⒚嫦蛩{(lán)海。例如,在聊天機(jī)器人領(lǐng)域,目前ChatGPT已經(jīng)能基本滿足用戶的提供個(gè)性化需求和信息提供服務(wù);在需要智能客服的電商、金融、醫(yī)療、教育、政務(wù)等垂直領(lǐng)域等,ChatGPT能夠結(jié)合行業(yè)特點(diǎn)和需求,構(gòu)建自動(dòng)應(yīng)答系統(tǒng),為客戶提供快速、準(zhǔn)確的問(wèn)題解答。除此外,在傳媒、娛樂(lè)、設(shè)計(jì)和影視領(lǐng)域,ChatGPT能夠協(xié)助完成一些較低層次的任務(wù),包括文稿生成、采訪助手、摘要總結(jié)等,或?qū)⑻岣咝袠I(yè)的運(yùn)行效率。lChatGPT的商業(yè)化落地方式還待商榷:第一、由于GPT-3的訓(xùn)練耗資巨大,且需要大量的數(shù)據(jù)集和算力,即使ChatGPT未來(lái)應(yīng)用前景廣闊,如果不能降低模型的更新訓(xùn)練成本和推理成本,將限制中小B端企業(yè)的采購(gòu)意愿。第二、目前正在免費(fèi)測(cè)試階段的ChatGPT還未解決GPT-3模型存在的準(zhǔn)確性和安全性問(wèn)題,還需要進(jìn)一步優(yōu)化迭代。此前,OpenAI已嘗試過(guò)通過(guò)API接口的方式推動(dòng)GPT-3的商業(yè)化,但由于模型問(wèn)題并未通過(guò)測(cè)試階段。雖然目前OpenAI已找到行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)方式優(yōu)化輸出虛假信息的問(wèn)題,但效力遠(yuǎn)遠(yuǎn)不足。如果不能解決這兩個(gè)問(wèn)題,GPT的商業(yè)化道路還需等待。l投資建議ChatGPT代表自然語(yǔ)言處理技術(shù)一大進(jìn)步,利好相關(guān)AI公司的技術(shù)與產(chǎn)品落地,可重點(diǎn)關(guān)注拓爾思(300229.SZ)、商湯-W(0020.HK)、科大訊飛(002230.SZ)。l風(fēng)險(xiǎn)提示技術(shù)研發(fā)不及預(yù)期的風(fēng)險(xiǎn);商業(yè)化落地方式尚不明確的風(fēng)險(xiǎn);下游需求不及預(yù)期的風(fēng)險(xiǎn)。ChatGPT是一個(gè)由OpenAI開發(fā)的自然語(yǔ)言處理領(lǐng)域(NLP)的模型,它通過(guò)對(duì)話方式進(jìn)行交互,能夠根據(jù)用戶輸入的自然語(yǔ)言文本內(nèi)容,自動(dòng)生成新的文本內(nèi)容,屬于AIGC行業(yè)中細(xì)分賽道中的一種。ChatGPT是在GPT3.5大模型語(yǔ)言模型(LLM,即LargeLanguageModel)的基礎(chǔ)上,加入“基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF,ReinforcementLearningfromHumanFeedback)”來(lái)不斷微調(diào)(Fine-tune)預(yù)訓(xùn)練語(yǔ)言模型,使得LLM模型學(xué)會(huì)理解不同類型的命令指令,并通過(guò)多重標(biāo)準(zhǔn)合理判斷基于給定的prompt輸入指令,輸出的是否為優(yōu)質(zhì)信息。(這些標(biāo)準(zhǔn)包括:富含信息、內(nèi)容豐富、對(duì)用戶有幫助、無(wú)害、不包含歧視信息等)AIGC即AI-GeneratedContent,是繼UGC、PGC之后利用AI技術(shù)自動(dòng)生成內(nèi)容的新型生產(chǎn)方式。相比UGC和PGC,AIGC的最大不同是基于海量數(shù)據(jù)、風(fēng)格隨機(jī)多變、跨模態(tài)融合、認(rèn)知交互力等新技術(shù)導(dǎo)向特征。隨著ChatGPT的技術(shù)日漸成熟,AIGC將在電商虛擬主播、教育、金融、醫(yī)療、影視娛樂(lè)等多場(chǎng)景爆發(fā),并進(jìn)一步催生元宇宙的快速發(fā)展。ChatGPT的名稱來(lái)源于它所使用的技術(shù)架構(gòu)GPT,即GenerativePre-trainedTransformer,是一種強(qiáng)大的生成式預(yù)訓(xùn)練語(yǔ)言模型,能夠完成復(fù)雜的自然語(yǔ)言處理領(lǐng)域(NLP)的任務(wù),例如文本生成、機(jī)器翻譯、代碼生成、問(wèn)答、對(duì)話AI等。GPT模型在上述任務(wù)中并不需要監(jiān)督學(xué)習(xí),但模型訓(xùn)練過(guò)程需要龐大的訓(xùn)練語(yǔ)料、模型參數(shù)和強(qiáng)大的計(jì)算資源。在結(jié)構(gòu)上,GPT基于堆疊的Transformer組件進(jìn)行編解碼,通過(guò)提升訓(xùn)練語(yǔ)料的規(guī)模和質(zhì)量、提升網(wǎng)絡(luò)參數(shù)數(shù)量來(lái)完成GPT系列的迭代過(guò)程。近五年來(lái)GPT的發(fā)展過(guò)程也證明了:模型能力的提高與參數(shù)量和預(yù)訓(xùn)練數(shù)據(jù)量有直接關(guān)聯(lián)。在在在資料來(lái)源:人民數(shù)字,品玩,中國(guó)銀河證券研究院行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)2018年,在自然語(yǔ)言處理領(lǐng)域(NLP)剛興起時(shí),OpenAI就推出的初代GPT,它的運(yùn)行邏輯是:先通過(guò)無(wú)標(biāo)簽數(shù)據(jù)學(xué)習(xí)生成語(yǔ)言模型,并能夠運(yùn)用于一些與有監(jiān)督任務(wù)無(wú)關(guān)的NLP任務(wù)中。此后再根據(jù)特定的下游任務(wù)進(jìn)行有監(jiān)督的微調(diào),提高其泛化能力。常用的有監(jiān)督任務(wù)主要(1)自然語(yǔ)言推理(NaturalLanguageInference):判斷兩個(gè)句子的關(guān)系,是包含關(guān)系、矛盾關(guān)系或者中立關(guān)系;(2)問(wèn)答和常識(shí)推理(Questionansweringandcommonsensereasoning):通過(guò)輸入的文章和若干個(gè)問(wèn)題及其候選答案,輸出為每個(gè)答案的預(yù)測(cè)概率;(3)語(yǔ)義相似度(SemanticSimilarity):判斷兩個(gè)句子是否語(yǔ)義相關(guān);(4)分類(Classification):判斷輸入文本的指定類別。在經(jīng)過(guò)有監(jiān)督的微調(diào)后,GPT-1的泛化能力會(huì)得到明顯提升,且隨著訓(xùn)練次數(shù)的增加,GPT-1的性能逐步提升。但是初代GPT僅僅使用了解碼器decoder部分,其transformer結(jié)構(gòu)中對(duì)于詞向量的學(xué)習(xí)能力得到發(fā)揮,能夠?qū)?shí)現(xiàn)較好地語(yǔ)言理解,適用于文本生成領(lǐng)域,但在通用語(yǔ)言和會(huì)話交流方面,還有較大的欠缺。相較于初代GPT,2019年推出的GPT-2整體上結(jié)構(gòu)和設(shè)計(jì)沒(méi)有變化,但學(xué)習(xí)目標(biāo)是使用無(wú)監(jiān)督的預(yù)訓(xùn)練模型作為有監(jiān)督學(xué)習(xí)的任務(wù),其核心邏輯在于讓所有有監(jiān)督學(xué)習(xí)成為無(wú)監(jiān)督語(yǔ)言模型的子集。換言之,GPT-2可以在數(shù)據(jù)量足夠豐富且模型容量足夠大時(shí),通過(guò)訓(xùn)練語(yǔ)言模型就能夠完成有監(jiān)督學(xué)習(xí)的任務(wù)。實(shí)際訓(xùn)練中,GPT-2和GPT初代不同點(diǎn)在于:(1)更廣泛的信息來(lái)源:在預(yù)訓(xùn)練時(shí)擴(kuò)充NLP任務(wù)的數(shù)據(jù)集到40G;(2)更龐大的網(wǎng)絡(luò)參數(shù):將transformer的層數(shù)增加到48,隱層(hiddenlayer)維度擴(kuò)展到1600,實(shí)現(xiàn)了15億的參數(shù)量;(3)不再針對(duì)不同的任務(wù)建模微調(diào)(finetune):將機(jī)器翻譯、自然語(yǔ)言推理、語(yǔ)義分析、關(guān)系提取等10類任務(wù)統(tǒng)一建模為一個(gè)分類任務(wù),讓模型在預(yù)訓(xùn)練中自己識(shí)別任務(wù)。在性能方面,GPT-2可以在多個(gè)特定的語(yǔ)言場(chǎng)景下良好地完成NLP任務(wù),除了語(yǔ)言理解能力外,還可以勝任翻譯生成、故事編寫、總結(jié)摘要等。這些能力基于海量數(shù)據(jù)和大量參數(shù)訓(xùn)練的詞向量模型,不需要監(jiān)督微調(diào)和額外的訓(xùn)練即可遷移,基本實(shí)現(xiàn)了元學(xué)習(xí)(meta-learnnig)。同時(shí),GPT-2能夠讓數(shù)據(jù)庫(kù)中詞向量包含的信息在多任務(wù)中通用,實(shí)現(xiàn)了信息脫離具體的NLP任務(wù)存在,也證明了隨著模型容器和數(shù)據(jù)量擴(kuò)充,GPT的無(wú)監(jiān)督學(xué)習(xí)具有很大的提升空間。對(duì)比GPT-2,2020年推出的GPT-3最顯著的特征是龐大的數(shù)據(jù)量和參數(shù)投入,整體訓(xùn)練過(guò)程耗資1200萬(wàn)美元,投入數(shù)據(jù)量達(dá)上萬(wàn)億,模型參數(shù)量達(dá)到1750億。雖然GPT-3延續(xù)了前兩代GPT的技術(shù)架構(gòu),但改變了“大規(guī)模數(shù)據(jù)集預(yù)訓(xùn)練+下游數(shù)據(jù)標(biāo)注微調(diào)”的方式,采用情境學(xué)習(xí)(in-contextlearning)來(lái)提高模型對(duì)話輸出的性能?;谇榫硨W(xué)習(xí)對(duì)于模型的引導(dǎo),行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)將提供10-100個(gè)示例和任務(wù)描述供模型學(xué)習(xí);one-shotlaerning提供1個(gè)示例描述;zero-shot則不提供示例,只是在測(cè)試時(shí)提供任務(wù)相關(guān)的具體描述。這三種學(xué)習(xí)方式的效果與模型容量成正相關(guān),且多個(gè)示例學(xué)習(xí)的增強(qiáng)效果高于單個(gè)示例或不提供示例。換言之,在超大模型的訓(xùn)練下,GPT-3的匹配正確答案的準(zhǔn)確率大幅提升。在現(xiàn)存大量語(yǔ)言模型中,GPT-3的規(guī)模和語(yǔ)言能力幾乎是最強(qiáng)大的。它能在不做fine-tuning的情況下,在一些傳統(tǒng)的NLP任務(wù)中表現(xiàn)得更好,包括實(shí)現(xiàn)閉卷問(wèn)答、模式解析、純語(yǔ)言建模、機(jī)器翻譯等;在新的領(lǐng)域,GPT-3將NLP的應(yīng)用擴(kuò)展到缺乏足夠訓(xùn)練數(shù)據(jù)的領(lǐng)域,例如在開發(fā)程序代碼、文章生成和信息檢索領(lǐng)域取得了實(shí)質(zhì)性的進(jìn)展。此外,在UI設(shè)計(jì)、圖像生成和藝術(shù)創(chuàng)作等領(lǐng)域,GPT-3的功能也更加強(qiáng)大,可以不經(jīng)過(guò)微調(diào)就補(bǔ)全圖像樣本、或者實(shí)現(xiàn)簡(jiǎn)單的視圖交互設(shè)計(jì),將應(yīng)用領(lǐng)域從語(yǔ)言處理領(lǐng)域逐漸拓寬。實(shí)現(xiàn)了從語(yǔ)言到圖像的轉(zhuǎn)向。然而,GPT-3在推理和理解能力上還有較長(zhǎng)的路要走。在自然語(yǔ)言推理(NLI)中重點(diǎn)關(guān)注句子之間的關(guān)系,由于GPT-3的閱讀理解性能存在一定缺陷,在NLI任務(wù)中表現(xiàn)不佳;類似的,在物理、科學(xué)的常識(shí)推理技能表現(xiàn)中也存在一定問(wèn)題。相較于GPT-3,OpenAI在2022年初發(fā)布了InstructGPT。該語(yǔ)言模型在GPT-3的基礎(chǔ)上進(jìn)行微調(diào),并在工作原理上增加了對(duì)齊研究,強(qiáng)化InstructGPT模型的語(yǔ)義理解;同時(shí),通過(guò)“基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)和監(jiān)督學(xué)習(xí)”來(lái)提高輸出質(zhì)量。具體地,開發(fā)人員可以將訓(xùn)練劃分為三個(gè)階段:第一階段:冷啟動(dòng)階段的策略模型。隨機(jī)抽取用戶提交的指令或問(wèn)題,即prompt,并進(jìn)行專業(yè)的人工標(biāo)注,用這些指定的prompt和高質(zhì)量答案共同微調(diào)GPT-3.5模型,使之初步具備理解輸入指令或問(wèn)題的能力。第二階段:訓(xùn)練回報(bào)模型(RewardModel,RM)。在第一階段生成的眾多結(jié)果中,根據(jù)結(jié)果質(zhì)量由人工標(biāo)注排序并作為訓(xùn)練數(shù)據(jù),通過(guò)監(jiān)督學(xué)習(xí)中的匹配排序(pair-wiselearningtorank)訓(xùn)練回報(bào)模型對(duì)語(yǔ)言模型預(yù)訓(xùn)練的輸出結(jié)果評(píng)分,回答質(zhì)量越高,分?jǐn)?shù)越高。第三階段:采用強(qiáng)化學(xué)習(xí)來(lái)增強(qiáng)預(yù)訓(xùn)練模型的能力。利用第二階段學(xué)好的RM模型更新預(yù)算法生成回答后,循環(huán)執(zhí)行第一到三階段進(jìn)行強(qiáng)化訓(xùn)練,最終鼓勵(lì)LLM模型能夠輸出更高質(zhì)量行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)資料來(lái)源:OpenAI官網(wǎng),中國(guó)銀河證券研究院雖然InstructGPT的參數(shù)量?jī)H為13億左右,相比于GPT-3縮小了100倍以上;但在遵循指令方面,能夠更好地遵循用戶意圖,將有害的、不真實(shí)或者有偏差的信息輸出最小化。在優(yōu)化的模型上,ChatGPT基于InstructGPT進(jìn)一步改進(jìn),在模型結(jié)構(gòu)和訓(xùn)練流程上遵循上述方式,但收集和標(biāo)注數(shù)據(jù)的方式上發(fā)生了變化。InstructGPT模型需要先完成類似<prompt,answer>的輸入、輸出匹配,取得多個(gè)匹配結(jié)果后再跟模型的預(yù)訓(xùn)練數(shù)據(jù)對(duì)比,在第二階段的RM中只有獎(jiǎng)勵(lì)、沒(méi)有懲罰機(jī)制;而ChatGPT則是在輸入prompt、模型輸出多個(gè)answer后,直接對(duì)輸出結(jié)果進(jìn)行人為排序,根據(jù)排序后的結(jié)果讓模型完成預(yù)訓(xùn)練中從最優(yōu)到最劣的排序。通過(guò)采取監(jiān)督學(xué)習(xí)的方式讓模型學(xué)習(xí)人類排序的方式。目前,ChatGPT不需要任何額外的訓(xùn)練就能在多種不同的領(lǐng)域中應(yīng)用并快速輸出高質(zhì)量的文本,相較于以前的模型已具備較強(qiáng)的自然語(yǔ)言處理能力,具體來(lái)講可歸納為以下幾點(diǎn):第一、更強(qiáng)的對(duì)話能力:ChatGPT支持多輪對(duì)話,在自然語(yǔ)言交互方面、情感分析、情景會(huì)話等方面運(yùn)行流暢,在語(yǔ)言模仿能力和邏輯判斷方面展現(xiàn)出更強(qiáng)的能力。第二、更全面的語(yǔ)言能力:ChatGPT支持多種語(yǔ)言環(huán)境,并且支持長(zhǎng)短句輸入,在閱讀理解、復(fù)雜語(yǔ)句處理、邏輯能力和文本生成方面更加靈活。第三、更高精度的預(yù)測(cè)結(jié)果:ChatGPT的訓(xùn)練模型支持大規(guī)模數(shù)據(jù)集,具備海量的話題庫(kù),通用性更強(qiáng)。行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)第一、由于技術(shù)實(shí)現(xiàn)的問(wèn)題,ChatGPT會(huì)不可避免地寫出一些似是而非、或者荒謬的答案,這將導(dǎo)致植入虛假數(shù)據(jù)和誤導(dǎo)用戶的風(fēng)險(xiǎn)。ChatGPT依然沒(méi)有完全克服大型語(yǔ)言模型(LLM)的這一常見(jiàn)缺點(diǎn),造成這個(gè)問(wèn)題的原因主要有以下三點(diǎn)1)在訓(xùn)練和強(qiáng)化學(xué)習(xí)(RL)的過(guò)程中,數(shù)據(jù)集中沒(méi)有對(duì)應(yīng)的事實(shí)或標(biāo)準(zhǔn)答案的來(lái)源2)訓(xùn)練模型時(shí)謹(jǐn)慎性提高,為了避免誤報(bào)等情況,可能導(dǎo)致模型拒絕可以正確回答的問(wèn)題;(3)監(jiān)督訓(xùn)練中行為克?。˙C,BehaviorCloning)對(duì)模型產(chǎn)生誤導(dǎo):當(dāng)模型掌握的信息量高于訓(xùn)練者(humanexpert模型會(huì)采集冗余信息;當(dāng)訓(xùn)練者的常識(shí)信息量高于模型,基于常識(shí)的prompt較少,模型將基于先驗(yàn)知識(shí)去邊緣化未觀測(cè)到的變量,從而導(dǎo)致信息失真。由于具有龐大數(shù)據(jù)訓(xùn)練量,即使經(jīng)過(guò)人工監(jiān)督學(xué)習(xí)和獎(jiǎng)勵(lì)機(jī)制調(diào)整,一些錯(cuò)誤或者編造的信息會(huì)逃過(guò)人工智能審核機(jī)制,成為ChatGPT的輸出答案的隱患。尤其在語(yǔ)言生成能力和邏輯能力大幅提高的框架下,ChatGPT會(huì)讓虛構(gòu)的事實(shí)看似合理化,增加人工智能審核的難度。此外,隨著信息傳播速度的加快,以及CharGPT具有大規(guī)模且快速生成流暢文本的能力,真實(shí)性未得到驗(yàn)證的信息可能在多個(gè)平臺(tái)或網(wǎng)站快速散播,導(dǎo)致真實(shí)用戶的發(fā)聲或者正確的信息被淹沒(méi)。第二、在較長(zhǎng)的會(huì)話中,由于訓(xùn)練數(shù)據(jù)的偏差和過(guò)度修正,ChatGPT會(huì)過(guò)度強(qiáng)調(diào)某些短語(yǔ)或者句子,導(dǎo)致重復(fù)性高的問(wèn)題。例如它會(huì)重申它是由OpenAI訓(xùn)練的語(yǔ)言模型,這可能源于訓(xùn)練者對(duì)模型回答全面性的優(yōu)化。而且,ChatGPT對(duì)多次調(diào)整輸入措辭或嘗試相同的輸入指令也會(huì)很敏感。例如,給定一個(gè)問(wèn)題,模型可以聲稱不知道答案或拒絕回答,但在指令稍作調(diào)整后,ChatGPT也會(huì)識(shí)別并回答。第三、ChatGPT的強(qiáng)大能力依賴語(yǔ)料庫(kù)、數(shù)據(jù)量的抓取和復(fù)雜的訓(xùn)練過(guò)程,訓(xùn)練成本和所需算力的成本都很高。如果數(shù)據(jù)庫(kù)的收錄內(nèi)容質(zhì)量不高或者數(shù)據(jù)量不夠大,將會(huì)影響生成文本內(nèi)容的質(zhì)量和精細(xì)度,而且ChatGPT模型訓(xùn)練和優(yōu)化過(guò)程較為復(fù)雜,需要專業(yè)的人員進(jìn)行操作,訓(xùn)練成本和所需算力的成本都很高。最重要的是,ChatGPT模型依賴于大規(guī)模離線語(yǔ)料進(jìn)行訓(xùn)練,往往不能充分接受并采用在線提供的即時(shí)信息,難以理解對(duì)話中提及的因果關(guān)系,也無(wú)法基于已有信息進(jìn)行推測(cè),這距離人類舉一反三的能力相差較遠(yuǎn)。ChatGPT本身的缺陷或許可以通過(guò)收集更多、更豐富的語(yǔ)料庫(kù),提高訓(xùn)練和優(yōu)化的效率和質(zhì)量,以及開發(fā)人工智能檢查和修改的工具來(lái)改善,但是更深層次的,ChatGPT引起了人們對(duì)AIGC行業(yè)中安全性、倫理約束和創(chuàng)造力的思考。由于RLFH并不能完全避免ChatGPT訓(xùn)練庫(kù)中學(xué)習(xí)到的不道德或有偏見(jiàn)的回答,也會(huì)導(dǎo)致在模糊提示或引導(dǎo)回答的過(guò)程中讓ChatGPT輸出一些有害信息,導(dǎo)致輸出結(jié)果的安全性降低。由于人工智能缺乏對(duì)倫理和常識(shí)的價(jià)值判斷能力,也沒(méi)有有效的約束方式,一旦模型存在不安全輸出的可能性,ChatGPT將容易被濫用。因此,為了提高ChatGPT輸出內(nèi)容的真實(shí)性和安全性,減少或拒絕有害信息的輸出,在ChatGPT模型中添加限制或內(nèi)置“內(nèi)容安全過(guò)濾”模塊是必要的。目前OpenAI正在進(jìn)行相關(guān)研究,增強(qiáng)GPT系統(tǒng)對(duì)用戶意圖的理解,并視情況篩選指令執(zhí)行,推動(dòng)自然語(yǔ)言交互工具的安全性提高。此外,在創(chuàng)造性、創(chuàng)作倫理和知識(shí)產(chǎn)權(quán)等方面并未形成有效界定。在數(shù)據(jù)挖掘、大規(guī)模計(jì)算、統(tǒng)計(jì)、多線程工作等數(shù)據(jù)處理分析領(lǐng)域,人工智能有著人類不可比擬的優(yōu)勢(shì),但是以“創(chuàng)行業(yè)點(diǎn)評(píng)/計(jì)算機(jī)行業(yè)新和感知”為基礎(chǔ)的創(chuàng)造過(guò)程是機(jī)器學(xué)習(xí)和模型難以訓(xùn)練的。目前ChatGPT能夠在用戶的引導(dǎo)下快速生成小說(shuō)、詩(shī)歌、散文、編程等需要?jiǎng)?chuàng)造力的內(nèi)容,或許將對(duì)創(chuàng)作者和以版權(quán)為基礎(chǔ)的行業(yè)造成沖擊。文本生成的過(guò)程是基于數(shù)據(jù)庫(kù)內(nèi)容的學(xué)習(xí),這是否會(huì)構(gòu)成對(duì)被抓取作品的侵權(quán),ChatGPT生成的文本內(nèi)容是否具有著作權(quán),是否屬于該用戶等等一系列問(wèn)題的答案尚不明確。目前ChatGPT在編程、文本生成等NLP領(lǐng)域強(qiáng)大的能力引發(fā)了部分行業(yè)的擔(dān)憂。例如由于ChatGPT擁有基于對(duì)話形式接收輸入指令并輸出結(jié)果的能力,與傳統(tǒng)的搜索引擎功能具有一定重合。但對(duì)比來(lái)講,傳統(tǒng)的搜索引擎暫時(shí)還不能被取代,主要有以下原因:第一、兩者側(cè)重的功能和優(yōu)勢(shì)不同。搜索引擎是一種信息檢索系統(tǒng),通過(guò)對(duì)海量信息的索引和檢索,為用戶提供快速、準(zhǔn)確的查詢結(jié)果。搜索引擎能夠返回多條查詢的結(jié)果、準(zhǔn)確率較高,并且搜索引擎不會(huì)對(duì)信息做出判斷,完全呈現(xiàn)結(jié)果等待用戶的篩選;但是ChatGPT是一個(gè)自然語(yǔ)言處理模型,通過(guò)接收用戶的輸入指令,匹配并輸出相應(yīng)的單一結(jié)果。由于訓(xùn)練模型會(huì)對(duì)結(jié)果進(jìn)行篩選等原因,僅返回的單一結(jié)果,以確保與用戶對(duì)話過(guò)程的流暢性。第二、兩者的應(yīng)用領(lǐng)域不同。搜索引擎的信息庫(kù)抓取信息快、信息庫(kù)更頻率高、存量大,主要用于幫助用戶快速查找匹配信息、找到感興趣的信息,常常應(yīng)用在文獻(xiàn)檢索、互聯(lián)網(wǎng)搜索等領(lǐng)域;而ChatGPT的語(yǔ)料庫(kù)來(lái)源于離線數(shù)據(jù),輸出的文本存在虛假信息的可能,且吸納新的知識(shí)需要對(duì)模型進(jìn)行再訓(xùn)練和微調(diào),這會(huì)導(dǎo)致訓(xùn)練成本和甄別成本上升,因此主要應(yīng)用于人機(jī)對(duì)話、智能客服、智能問(wèn)答等強(qiáng)邏輯性的自然語(yǔ)言交互領(lǐng)域。除此外,ChatGPT目前還處于測(cè)試階段,短期內(nèi)將不會(huì)對(duì)現(xiàn)有行業(yè),尤其是傳統(tǒng)信息檢索工具造成沖擊,也并不具備取代某些行業(yè)的能力。然而,如果未來(lái)ChatGPT的內(nèi)容質(zhì)量和訓(xùn)練成本的問(wèn)題能夠得到解決,或許長(zhǎng)期來(lái)看,搜索引擎將迎來(lái)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東外語(yǔ)外貿(mào)大學(xué)《地理信息系統(tǒng)原理與應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東松山職業(yè)技術(shù)學(xué)院《茶樹病蟲防治學(xué)實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東食品藥品職業(yè)學(xué)院《英語(yǔ)微設(shè)計(jì)與制作》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東汕頭幼兒師范高等專科學(xué)?!盾壍澜煌姎庀到y(tǒng)故障診斷》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東培正學(xué)院《理論力學(xué)B》2023-2024學(xué)年第一學(xué)期期末試卷
- 七年級(jí)上冊(cè)《2.2.2 第1課時(shí) 有理數(shù)的除法》課件與作業(yè)
- 廣東南方職業(yè)學(xué)院《跨文化商務(wù)交際》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東茂名幼兒師范??茖W(xué)?!痘炷两Y(jié)構(gòu)設(shè)計(jì)原理實(shí)驗(yàn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東茂名農(nóng)林科技職業(yè)學(xué)院《財(cái)務(wù)會(huì)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東理工職業(yè)學(xué)院《數(shù)值分析初步》2023-2024學(xué)年第一學(xué)期期末試卷
- 人臉識(shí)別考勤系統(tǒng)方案
- 四川省宜賓市2023-2024學(xué)年高一上學(xué)期期末學(xué)業(yè)質(zhì)量監(jiān)測(cè)數(shù)學(xué)試卷(解析版)
- 鎳鈷礦的質(zhì)量管理體系
- 旅游管理生涯發(fā)展展示
- 2024年北京市公務(wù)員錄用考試申論真題及解析
- 浙教版七年級(jí)下冊(cè)英語(yǔ)單詞表
- 2024年青島酒店管理職業(yè)技術(shù)學(xué)院高職單招(英語(yǔ)/數(shù)學(xué)/語(yǔ)文)筆試歷年參考題庫(kù)含答案解析
- 2024年連云港師范高等專科學(xué)校高職單招(英語(yǔ)/數(shù)學(xué)/語(yǔ)文)筆試歷年參考題庫(kù)含答案解析
- 2024年益陽(yáng)職業(yè)技術(shù)學(xué)院高職單招(英語(yǔ)/數(shù)學(xué)/語(yǔ)文)筆試歷年參考題庫(kù)含答案解析
- 眼鏡消費(fèi)者行為分析報(bào)告
- 16學(xué)時(shí)《中醫(yī)藥膳學(xué)》教學(xué)大綱(可編輯修改文本版)
評(píng)論
0/150
提交評(píng)論