(備份)Chat GPT過去 現(xiàn)在與未來f_第1頁
(備份)Chat GPT過去 現(xiàn)在與未來f_第2頁
(備份)Chat GPT過去 現(xiàn)在與未來f_第3頁
(備份)Chat GPT過去 現(xiàn)在與未來f_第4頁
(備份)Chat GPT過去 現(xiàn)在與未來f_第5頁
已閱讀5頁,還剩148頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

報(bào)告人:馮驍騁2023年02月15日熱烈討論頻繁熱搜行業(yè)報(bào)告ChatGPT的出現(xiàn)熱烈討論頻繁熱搜行業(yè)報(bào)告QChatGPT有多靠譜新聞報(bào)道華為云預(yù)訓(xùn)..2259頁.pdf全球人工智..1919頁.pdf人工智能行.0頁(1).pdf騰訊研究院...告2023.pdfChatGPT..(2023).pdfGPT-4:人工智能的新語言方法被定義為“強(qiáng)大”-Showmetech美國大學(xué)89%的學(xué)生居然用ChatGPT寫作業(yè)-國際競賽2將會改變世界的對話式通用人工智能模型ChatGPT33能公司OpenAI所推出的生成式對話LanguageModelsforDialogueconversationalway.Thedialogueformatmakesitpossible交互,對話的形式使得其能夠回答后forChatGPTtoanswerfollowupquestions,admititsmistakes,challengeincorrectpremises,andreject續(xù)問題,承認(rèn)自己的錯(cuò)誤,質(zhì)疑不ewreiosbnlisntnapromptandprovideadetailedresponse.7□ChatGPT是2022年11月美國人工智能公司OpenAI所推出的生成式對話預(yù)訓(xùn)練模型。它通過對話的形式進(jìn)行We'vetrainedamodelcalledChatGPTwhichinteractsinaconversationalway.Thedialogueformatmakesitpossible交互,對話的形式使得其能夠回答后對人工智能技術(shù)的顛覆性影響55"智能行為包括知覺、推理、學(xué)習(xí)、交流和在復(fù)雜環(huán)境中的行為。"66B什么是人工智能?“人工”“智能”·通常指人類自身的智能(類人智能)-感知與識別、認(rèn)知智能(決策與優(yōu)化、學(xué)習(xí)與推理)、運(yùn)動(dòng)智能77B科幻電影中的人工智能終結(jié)者88實(shí)際生活中的人工智能999能會對人類生存產(chǎn)刷爆了100余個(gè)數(shù)據(jù)新、通識和社交技能什么是自然語言處理?口語言是更高級的一種認(rèn)知智能HeroesofDeepLearningYoshuaB自然語言處理的難點(diǎn)與特點(diǎn)處理難遷移性性知識性刷爆了100余知識性主觀性進(jìn)化性主觀性非規(guī)范性深度學(xué)習(xí)算法深度學(xué)習(xí)算法淺層機(jī)器學(xué)習(xí)算法then調(diào)序[動(dòng)詞+對象]大規(guī)模預(yù)訓(xùn)練模型Iamsatisfiedwithyou規(guī)則5小規(guī)模專家知識2018~2023?3:源="出發(fā)!"資源2:單語語料語言模型我對你感到滿意翻譯引擎學(xué)習(xí)大規(guī)模預(yù)訓(xùn)練模型大規(guī)模預(yù)訓(xùn)練模型2014~20152017~NxNxAttention-based深度學(xué)習(xí)算法深度學(xué)習(xí)算法大規(guī)模預(yù)訓(xùn)練模型大規(guī)模預(yù)訓(xùn)練模型2018~2023?模型訓(xùn)練口我喜歡吃土豆燉XX□通過歷史詞序列預(yù)測下一個(gè)詞□通過周圍的詞預(yù)測中間的詞雙向掩碼模型單向自回歸生成模型2018~2023?編碼器-解碼器架構(gòu)模型規(guī)模與表現(xiàn)正相隨著模型規(guī)模越來越人驚訝的“智能”Pre-TrainingKeyword:multi-tasklearningfromhumansiblingmodelfeedbacktoInstructGPTGPT-1/2/3系列介紹模型結(jié)構(gòu)與規(guī)模layernum=12,attentionnum=12GPT-2layernum=48,attentionnum=12,param=1.5B,size=774MGPT-3layernum=96,attentionnum=96,param=175B,size=70Gq.qGPT-1·大約7000本40GB文本數(shù)據(jù)GPT-1EntailmentStartPremiseLayerNormFeedForwardAnswer1Answer2AnswerN在比較模型的12個(gè)任務(wù)中(如問題解答,模式解析,情感分析等),GPT-1在9個(gè)任務(wù)上的表現(xiàn)要優(yōu)于經(jīng)過專門訓(xùn)練的有監(jiān)督最新模型□GPT-1的一個(gè)重要成就是其在各種理解任務(wù)上的具有較為出色的zero-shot性能□GPT-1證明語言模型是有效的預(yù)訓(xùn)練目標(biāo),可以幫助模型很好地推廣口模型層數(shù)變化和參數(shù)對實(shí)驗(yàn)結(jié)果的影響RGPT使用方法口Zero-shot:以文本摘要為例□One-shot:以機(jī)器翻譯為例題解答等□GPT-2在zero-shot設(shè)置stateoftheart(PPL)(ACC)CBT-CNCBT-NE(PPL)(PPL)(BPB)(BPC)(PPL)(PPL)口傳統(tǒng)(稠密)注意力機(jī)制:口膨脹(帶狀)注意力機(jī)制:Zzero-description,themodelseesasinglelogradientupdatesareperformed.cheese=>5天)5天)性性ChatGPT的現(xiàn)在03InstructGPT/ChatGPT指令學(xué)習(xí)演進(jìn)路徑(已知=>未知)TrainingoncodeLongOuyangJeffWuXuJiangDiogoAlmeidaCarrollLWPamelaMishkinChongZhangSandhJohnSchulmanJacobHiltonFraAmandaAskellPeterWelinderPaulCMakinglanguagemodelsbiggerdoesnotinherenlyausersintentForexamplelargelangareuntruthfultoxicorsimplynothelpfultotmadelsarenotalignedwiththeirusersIvthhmanfteahackstatingwithasetoflchnitedthroughtheOpenAIAPLwecollectadatasfthedesiredmodelbehaviorwhicfurtherfneunethissupervisedmodelusingreMoreoverInstrictGPTmodelsshowimprovementsinNLPdatasetsEventhoughInstructGPTstillmakshowthatfinetuningwithhumanfeelanguagemodelswithhumaninteLargelanguagemodelsLMscanbepromptedtoperformarangeofnatuingNLpthsgivensomeerimplesofthetaskasnputHweTamkinetalGehmanetalThisisbecauseInstructGPT演進(jìn)路徑(能力猜測)口底座能力:大規(guī)模預(yù)訓(xùn)練模型口底座能力:大規(guī)模預(yù)訓(xùn)練模型Large-scalelanguagemodelpretrainingTrainingoncode口思維鏈能力:在代碼上進(jìn)行繼續(xù)預(yù)訓(xùn)練和人類對齊能力:RLHFLanguageModelCompletionCreditshttpsModelmovie."Thisreviewisnegative.Review:"Ireallyenjoyedthismovie!"Thisreviewis口思維鏈表示一系列中間推理步驟,相當(dāng)于在求解問題過程中將解題步驟也寫出來A:Thecafeteriahad23applesoriginally.Theyused20tomakelunch.Sotheyhad23-20=3.Theybought6moreapples,sotheyhave3+6=9.Theansweris9.HARBININSTITUTEOFTECHNOLOGYWei.et.al.2022.Chain-ofThoughtPromptingElicitsReasoninginLargeLanguageModels44__Q:ThebakersattheBeverlyHillsBakerybaked200loavesofbreadonMondaymorning.Theysold93loavesinthemorningand39loavesintheafternoon.AgroceryA:Thebakersstartedwith200loaves.Theysold93inthemorningand39intheafternoon.Sotheysold93+39=132loaves.Thegrocerystorereturned6loaves.Sotheyhad200-132-6=62loavesleft._2cansof3tennisballseachisboughtballs=2*3Q:ThebakersattheBeverlyHillsBakerybaked200loavesofbreadonMondaymorning.Theysold93loavesinthemorningand39loavesintheafternoon.Agrocerystorereturned6unsoldloaves.Howmanyloavesofbreaddidtheyhaveleft?__loavessoldafternoon=__Thegrocerystorereturned6loaves.___口思維鏈表示一系列中間推理步驟,相當(dāng)于在求解問題過程中將解題步驟也寫出來——StandardpromptingApromptispromptdataset.Somepeoplewenttothemoon…LL人工收集、標(biāo)注訓(xùn)練樣本,有監(jiān)督地微調(diào)GPT-3模型sampled.landingtoa6yearold人工對模型輸出候選結(jié)果進(jìn)行排序,訓(xùn)練獎(jiǎng)勵(lì)模型thedataset.storytheoutput.通過獎(jiǎng)勵(lì)模型,利用強(qiáng)化學(xué)習(xí)的PPO算法對模型進(jìn)一步訓(xùn)練(ProximalPolicyOptimization)Reward第一步:有監(jiān)督微調(diào)(SFT)-1“查詢-回復(fù)”例(涵蓋GPT3API)promptdataset.ExplainthemoonAlabelertothemoon.titles.Product:{productdescription}wisdomandlove.Me:HowcanIachievegreaterpeaceandequanimity?Buddha:第一步:有監(jiān)督微調(diào)(FeedME)-2text-davinci-001,text-davinci-comparisonsbyhumansHARBININSTITUTEOFTECHNOLOGY/docs/model-index-for-researchers51第一步:有監(jiān)督微調(diào)(FeedME)-2注,7/7(具體細(xì)節(jié)未知)violence/abuse/terrorism/self-harm第二步:訓(xùn)練獎(jiǎng)勵(lì)模型prompt以及第一階段模型的回復(fù),輸出是0-1之間的Loss優(yōu)化獎(jiǎng)勵(lì)模型來模擬標(biāo)注人員的偏好sampled.rewardmodel.第二步:訓(xùn)練獎(jiǎng)勵(lì)模型B數(shù)據(jù)質(zhì)量+多樣性Ateamofresearchersfrotypesofvocalizations.numberofcups.betweensounds.4customerthedataset.Writeastoryaboutfrogstheoutput.口優(yōu)化目標(biāo)中的正則項(xiàng)約束用的SFT模型輸出不同,會導(dǎo)致獎(jiǎng)勵(lì)模reward第四步:飛輪優(yōu)化Apromptispromptdataset.landingtoa6yearoldLSomepeoplewenttothemoon新Reward模型riteastoryaboutfrogsuponatime…程中標(biāo)注人員對“更加翔實(shí)的回復(fù)”的偏好=》偏好冗長□ChatGPT更加擅長多輪對話的內(nèi)容形式:可能來源于指令微調(diào)過程中標(biāo)注人員標(biāo)注的多輪對話數(shù)據(jù)源于ChatGPT的初始化模型——GPT3.5在代碼上的預(yù)訓(xùn)練,GPT-4及相關(guān)猜想①Feb.Altman還被問及GPT-4的參數(shù)規(guī)模是否會像網(wǎng)上廣達(dá)到驚人的100萬億參數(shù),Altman稱其為“一派胡言”Currently,GPT-3has175billionparameters,whichis10xfasterthananyofitsclosestcompetitors.GPT-4isrumoredbeabout100trillionparameters.GPT-4應(yīng)具備的優(yōu)化策略猜測下游任務(wù)上的性能都超過了在300Billiontokens上訓(xùn)練的280BJordanHoffmannSebastianBorgeaudArDiegodeLasCasasLisaAnneHendrickGPT-4應(yīng)具備的優(yōu)化策略猜測考慮到GPT-4的參數(shù)比GPT-3略大,根據(jù)DeepMind的發(fā)現(xiàn),讓其達(dá)到最優(yōu)計(jì)算水平所需要的訓(xùn)練token量應(yīng)該在5萬億左右,這要比當(dāng)前數(shù)據(jù)集高出一個(gè)量級。按照DeepMindGopher模型的算力消耗,達(dá)成最小訓(xùn)練損

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論