傳媒行業(yè)GPT系列專題分析報(bào)告:GPT-4引領(lǐng)認(rèn)知Deep Speed加速_第1頁(yè)
傳媒行業(yè)GPT系列專題分析報(bào)告:GPT-4引領(lǐng)認(rèn)知Deep Speed加速_第2頁(yè)
傳媒行業(yè)GPT系列專題分析報(bào)告:GPT-4引領(lǐng)認(rèn)知Deep Speed加速_第3頁(yè)
傳媒行業(yè)GPT系列專題分析報(bào)告:GPT-4引領(lǐng)認(rèn)知Deep Speed加速_第4頁(yè)
傳媒行業(yè)GPT系列專題分析報(bào)告:GPT-4引領(lǐng)認(rèn)知Deep Speed加速_第5頁(yè)
已閱讀5頁(yè),還剩21頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

證券研究報(bào)告2023年4月27日行業(yè):傳媒增持

(維持)GPT-4引領(lǐng)認(rèn)知革命Deep

Speed加速行業(yè)發(fā)展——GPT系列專題之二主要觀點(diǎn)我們將“AI+傳媒”的研究框架體系定義為“通用大模型”+“行業(yè)小樣本”的技術(shù)架構(gòu),“AI+傳媒”在應(yīng)用層表現(xiàn)效力優(yōu)劣的關(guān)鍵取決于通用大模型對(duì)垂直應(yīng)用的適配程度及迭代速度,1、適配程度是指:多模態(tài)的輸入及輸出是否匹配應(yīng)用層的輸入及輸出。比如GPT-4屬于“圖+文”多模態(tài)輸入+“文”單模態(tài)輸出,因此輸入模態(tài)為“圖或文”且輸出模態(tài)為“文”的垂直應(yīng)用更適配GPT-4。2、迭代速度是指:應(yīng)用層產(chǎn)生的“行業(yè)小樣本”的數(shù)據(jù)量是否匹配大模型的迭代要求。根據(jù)我們對(duì)GPT模型的理解,比如BingAI產(chǎn)生的“行業(yè)小樣本”源自Bing的搜索結(jié)果,ChatGPT產(chǎn)生的“行業(yè)小樣本”源自用戶的反饋和互動(dòng)。因此我們認(rèn)為,對(duì)于超出GPT所使用的預(yù)訓(xùn)練數(shù)據(jù)庫(kù)范圍(2021年9月前)的事實(shí)性表述,BingAI反饋的是搜索的結(jié)果,ChatGPT反饋的是用戶主動(dòng)的觀點(diǎn),BingAI反饋的效果比ChatGPT更好。我們認(rèn)為“行業(yè)小樣本”的價(jià)值取決于數(shù)據(jù)數(shù)量及數(shù)據(jù)質(zhì)量,數(shù)量大且質(zhì)量高(多模態(tài))的應(yīng)用場(chǎng)景復(fù)用及迭代AI能力的效力更強(qiáng),因此更進(jìn)一步理解我們的研究框架,我們將“行業(yè)小樣本”的結(jié)構(gòu)分層(中層小模型+下層應(yīng)用及內(nèi)容),并將“行業(yè)小樣本”的結(jié)合方式分類(調(diào)用+訓(xùn)練):1、“行業(yè)小樣本”的數(shù)據(jù)集來(lái)自小模型或應(yīng)用及內(nèi)容:AI產(chǎn)業(yè)鏈包括上層大模型、中層小模型、下層應(yīng)用及內(nèi)容,包括應(yīng)用及內(nèi)容直接接入大模型或通過(guò)小模型接入大模型兩種方式,即“大模型+應(yīng)用及內(nèi)容”或“大模型+小模型+應(yīng)用或內(nèi)容”,其中具備特定功能的AIGC軟件產(chǎn)品及MaaS我們理解為“小模型”+“應(yīng)用”的技術(shù)范式,本身具備較高質(zhì)量的AI能力,若接入匹配的多模態(tài)大模型,有望實(shí)現(xiàn)能力上的質(zhì)變突破。2主要觀點(diǎn)2、“行業(yè)小樣本”的結(jié)合方式包括“能力調(diào)用”及“能力訓(xùn)練”兩類:(1)“能力調(diào)用”是指下游垂類場(chǎng)景直接調(diào)用通用大模型的通用能力,并基于垂類場(chǎng)景內(nèi)產(chǎn)生的特性化數(shù)據(jù)不斷提升調(diào)用能力在垂類場(chǎng)景內(nèi)的適配程度。我們認(rèn)為現(xiàn)階段下游應(yīng)用及內(nèi)容主要采取此類方式接入大模型能力,此類方式可高效快速調(diào)用大模型先進(jìn)能力,在時(shí)間上及成本上具備優(yōu)勢(shì)。我們認(rèn)為“能力調(diào)用”匹配“AI+傳媒”的第一層利好,即通過(guò)AI降本增效,大幅提高數(shù)據(jù)及內(nèi)容的供給量。內(nèi)容產(chǎn)業(yè)本質(zhì)由供給決定需求,因此內(nèi)容供給量的明顯提升將有效帶動(dòng)傳媒基本面拐點(diǎn)及增量空間出現(xiàn)。(2)“能力訓(xùn)練”是指下游垂類場(chǎng)景將通用大模型針對(duì)特性化數(shù)據(jù)集進(jìn)行再訓(xùn)練,從而形成垂類場(chǎng)景專屬大模型。例如利用自身豐富的金融數(shù)據(jù)源,基于開(kāi)源的GPT-3框架再訓(xùn)練,開(kāi)發(fā)出了金融專屬大模型BloombergGPT。我們認(rèn)為“能力訓(xùn)練”匹配“AI+傳媒”的第二層利好,即下游垂類場(chǎng)景本身的數(shù)據(jù)或內(nèi)容反過(guò)來(lái)“再訓(xùn)練”通用大模型(或開(kāi)源大模型),形成傳媒內(nèi)容場(chǎng)景專屬大模型,形成更穩(wěn)定且高質(zhì)的內(nèi)容輸出。我們認(rèn)為訓(xùn)練難度文本<圖片<視頻<影視<游戲,且內(nèi)容數(shù)量逐步遞減但內(nèi)容質(zhì)量逐步遞增,即偏后端的影視、游戲在內(nèi)容數(shù)量上訓(xùn)練量級(jí)不足,因此高質(zhì)量的內(nèi)容形態(tài)首先通過(guò)“能力調(diào)用”輸出AIGC內(nèi)容,再將AIGC內(nèi)容“再訓(xùn)練”大模型以解決高質(zhì)量?jī)?nèi)容數(shù)量不足的問(wèn)題(合成數(shù)據(jù)“再訓(xùn)練”范疇)。3主要觀點(diǎn)從投資的角度,按照我們的研究框架,傳媒對(duì)應(yīng)垂類場(chǎng)景的“行業(yè)小樣本”,其核心價(jià)值取決于數(shù)據(jù)與內(nèi)容,第一層對(duì)應(yīng)數(shù)據(jù)與內(nèi)容的輸入模態(tài)是否匹配大模型的輸出模態(tài);第二層對(duì)應(yīng)數(shù)據(jù)與內(nèi)容的數(shù)量及質(zhì)量是否匹配大模型的能力再訓(xùn)練:1、按照“模態(tài)匹配”的邏輯,AI+文本/虛擬人預(yù)計(jì)率先兌現(xiàn)案例及業(yè)績(jī),其次AI+圖片可通過(guò)“大模型”+“小模型”組合方式實(shí)現(xiàn)(如GPT+StableDiffusion、GPT+Midjourney)。隨著未來(lái)GPT-5提供更多模態(tài)的輸入及輸出,下游垂類場(chǎng)景的適配范圍有望擴(kuò)大,通過(guò)“能力調(diào)用”適配的應(yīng)用及內(nèi)容場(chǎng)景更為豐富,因此后續(xù)“AI+視頻/影視/游戲”的案例兌現(xiàn)度存在新的催化空間。OpenAI最新發(fā)布的GPT-4核心特征包括:(1)多模態(tài)輸入(圖+文),單模態(tài)輸出(文),可以閱讀并總結(jié)論文內(nèi)容、解答較高難度的物理題目、具備較強(qiáng)的OCR能力(如識(shí)別網(wǎng)頁(yè)草稿并按要求反饋網(wǎng)頁(yè)代碼)、理解人類社會(huì)常識(shí);(2)具備長(zhǎng)文字處理及推理判斷能力,GPT-4上下文上限約2.5萬(wàn)字,允許使用長(zhǎng)格式內(nèi)容創(chuàng)建、擴(kuò)展對(duì)話以及文檔搜索和分析等,能夠閱讀并記憶更多信息,且具備更高的推理判斷能力;(3)可靠性大幅提升,分辨能力提高,有效減少“虛構(gòu)”或“有害”信息輸出。2、按照“能力再訓(xùn)練”的邏輯,AI+內(nèi)容/IP預(yù)計(jì)空間及價(jià)值更大,其價(jià)值核心取決于數(shù)據(jù)與內(nèi)容/IP的數(shù)量及質(zhì)量的高低。微軟本周發(fā)布的DeepSpeed-Chat大幅提升大模型預(yù)訓(xùn)練速度并大幅降低訓(xùn)練成本,我們認(rèn)為最核心意義為大幅降低垂類場(chǎng)景專屬大模型的訓(xùn)練門(mén)檻,小模型層及應(yīng)用層有望明顯受益。掌握數(shù)據(jù)及優(yōu)質(zhì)內(nèi)容(多模態(tài)數(shù)據(jù))的下游場(chǎng)景具備核心競(jìng)爭(zhēng)力,因此內(nèi)容及IP(

)的價(jià)值有望重估。DeepSpeed-Chat集成預(yù)訓(xùn)練語(yǔ)言大模型完整三個(gè)步驟,其中針對(duì)第三步RLHF訓(xùn)練集成了高效且經(jīng)濟(jì)的DeepSpeed-RLHF系統(tǒng),使復(fù)雜的RLHF訓(xùn)練變得快速、經(jīng)濟(jì)并且易于大規(guī)模推廣(相比現(xiàn)有系統(tǒng)提速15倍以上,且大幅降低算力要求及成本)。風(fēng)險(xiǎn)提示:宏觀經(jīng)濟(jì)風(fēng)險(xiǎn),地緣政治風(fēng)險(xiǎn);技術(shù)發(fā)展不及預(yù)期;AIGC行業(yè)發(fā)展不及預(yù)期。4目錄Content一、GPT-4:多模態(tài)、高認(rèn)知、更安全二、DeepSpeed:更快速、更經(jīng)濟(jì)、更普及三、投資建議四、風(fēng)險(xiǎn)提示1.1

GPT-4:多模態(tài)、高認(rèn)知、更安全u

深耕AIGC領(lǐng)域,AI滲透全方面、各領(lǐng)域。OPENAI致力于用AI改變工作和創(chuàng)意,除ChatGPT的語(yǔ)言模型外,還通過(guò)API平臺(tái)向開(kāi)發(fā)者提供最新模型和指南,不斷提高應(yīng)用性能和用戶活躍度。u

GPT-4是大型多模態(tài)模型。相較于只能接受文字/代碼輸入的GPT-3.5,GPT-4接受圖片+文字的多模態(tài)輸入+高認(rèn)知的結(jié)合,并反饋文字輸出。GPT-4是OpenAI新一代自然語(yǔ)言處理模型,繼承了GPT-3.5的優(yōu)點(diǎn)的同時(shí)改進(jìn)了模型結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)量和算法優(yōu)化,應(yīng)用范圍跨越數(shù)學(xué)、編碼、視覺(jué)、醫(yī)學(xué)、法律、心理學(xué)等領(lǐng)域,GPT-4模型多領(lǐng)域的廣泛運(yùn)用和超高任務(wù)表現(xiàn)力接近甚至超越人類水平,因此GPT-4是AGI的開(kāi)創(chuàng)性研究,也是邁向AGI的重要一步。圖1

ChatGPT3.5與4的主要區(qū)別最多回復(fù)3000字,如果你要求回復(fù)4000字,它會(huì)說(shuō)“超過(guò)限制”,這時(shí)候就得分段提問(wèn)ChatGPT4和3.5的主要區(qū)別67文字限制有害信息最多回復(fù)25000字ChatGPT-3.5ChatGPT-4.0如果提問(wèn)醫(yī)療建議、自我傷害、違反道德的問(wèn)題,

4.0拒絕回答有害信息的概率更高,不被允3.5有時(shí)會(huì)如實(shí)作答許的回答4.0則會(huì)直接拒絕12打字速度掉線頻率慢、高峰期更慢普遍說(shuō)4.0更慢,但實(shí)際用起來(lái)差別不大對(duì)于想利用ChatGPT來(lái)進(jìn)行二次開(kāi)發(fā)的程序員、二次開(kāi)發(fā)能力

運(yùn)營(yíng)者來(lái)說(shuō),3.5有很多不支持,以及調(diào)用接口次支持更多次數(shù)的api調(diào)用,支持更多的調(diào)用場(chǎng)景基本上每隔幾分鐘不用就會(huì)出現(xiàn)紅框、掉線。掉線后需要刷新網(wǎng)頁(yè)89基本不掉線數(shù)限制文本過(guò)長(zhǎng)的時(shí)候,生成幾百字就自動(dòng)停止了,分段生成能力

這時(shí)候回復(fù):“繼續(xù)”,3.5就可以繼續(xù)生

4.0基本是完美的連貫生成成,但3.5的生成往往不夠連貫支持圖像輸入、分析圖像(例如拍照幫你做題)。支持圖片輸出,但是不是自己生成的,是網(wǎng)絡(luò)上有的圖34圖片能力無(wú)1小時(shí)100次提問(wèn),基本夠用,但是人多的使用頻率限制

時(shí)候,你即使用不到100次也會(huì)提示“當(dāng)前

每3小時(shí)25次提問(wèn),不會(huì)受當(dāng)前使用人數(shù)影響提問(wèn)人數(shù)太多,請(qǐng)一小時(shí)后再試”10

聯(lián)網(wǎng)能力無(wú),訓(xùn)練數(shù)據(jù)庫(kù)到2021年無(wú),訓(xùn)練數(shù)據(jù)庫(kù)到2021年9月11

防止被誘導(dǎo)一般更難被誘導(dǎo),拒絕被訓(xùn)練成為壞壞的AI能記住大約相當(dāng)于8000個(gè)詞之前的指令,但是再多,它就會(huì)忘記之前的話了12

連續(xù)對(duì)話能力能記住相當(dāng)于大約64000個(gè)單詞和其他AI相比,chatgpt是公認(rèn)的最強(qiáng)AI,

全球最頂尖的AI,沒(méi)有之一。能解決的問(wèn)題種類基本能滿足我們的日常工作需要。但是和

比3.5多一些,同一個(gè)問(wèn)題,4.0的回復(fù)會(huì)更好4.0相比,差距還是有的,目測(cè)能力值相當(dāng)

一些。尤其是考試做題能力、邏輯推理能力、5回答質(zhì)量26種語(yǔ)言,且語(yǔ)言水平普遍比3.5的更高,對(duì)中文的理解更是達(dá)到了和3.5對(duì)英語(yǔ)的理解一樣的水平理解不同語(yǔ)言水平13支持24種語(yǔ)言于4.0的70%吧角色扮演能力更強(qiáng)資料:

信息元公眾號(hào),上海證券研究所61.2

多模態(tài):接受圖片+文字形式輸入u

根據(jù)OpenAI技術(shù)文檔給出的案例,GPT-4,對(duì)于圖片的理解能力極強(qiáng)。1)同時(shí)識(shí)別多張圖片內(nèi)容。如圖2,將3張圖片拼湊成1張,GPT-4能夠同時(shí)識(shí)別多張圖片的內(nèi)容。2)根據(jù)圖片進(jìn)行算數(shù)運(yùn)算。如圖3,將題目發(fā)給GPT-4,它能根據(jù)圖片信息進(jìn)行算數(shù)運(yùn)算。圖2GPT-4可以同時(shí)識(shí)別多張圖片內(nèi)容圖3GPT-4可以根據(jù)圖片信息進(jìn)行推理運(yùn)算用戶提問(wèn):這張圖片有什么有趣的地方?分圖片描述。用戶提問(wèn):格魯吉亞和西亞平均每日肉類消費(fèi)量的總和是多少?在回答之前,請(qǐng)?zhí)峁┲鸩酵评?。GPT-4從圖示3處地名識(shí)別出用戶要求的2處,然后進(jìn)行算數(shù)推演,并得到正確答案。成功識(shí)別出上圖包含3張圖片,并分別描述了圖片內(nèi)容。資料:《GPT-4TechnicalReport》,上海證券研究所資料:

《GPT-4TechnicalReport》,上海證券研究所71.2

多模態(tài):接受圖片+文字形式輸入u

3)閱讀并總結(jié)論文。如圖4、圖5,將論文中部分頁(yè)面截圖給GPT-4,即可閱讀并總結(jié)主要內(nèi)容并回答用戶追加的相關(guān)問(wèn)題。u

4)解答高難度物理題目。如圖6,將écolePolytechnique(巴黎綜合理工大學(xué))物理考試題目傳給GPT-4,并指定其解答某一問(wèn)題,即可順利識(shí)別任務(wù)并正確解答。圖4

GPT-4可以閱讀和總結(jié)論文圖5

GPT-4可以根據(jù)論文內(nèi)容回答相關(guān)問(wèn)題圖6

GPT-4可以根據(jù)圖片信息進(jìn)行推理運(yùn)算正確回答了é

colePolytechnique(巴黎綜合理工大學(xué))物理考試中的題目,該考試主要面向數(shù)學(xué)和物理學(xué)科的頂尖本科和研究生。用戶提問(wèn):請(qǐng)按步驟解答第1小問(wèn)用戶提問(wèn):請(qǐng)總結(jié)以下InstructGPT論文部分的內(nèi)容GPT-4解釋了論文中某一圖表的推導(dǎo)步驟資料:

《GPT-4TechnicalReport》,上海證券研究所資料:

《GPT-4TechnicalReport》,上海證券研究所資料:

《GPT-4TechnicalReport》,上海證券研究所81.2

多模態(tài):接受圖片+文字形式輸入u

5)識(shí)別手寫(xiě)網(wǎng)頁(yè)草圖,并根據(jù)草圖寫(xiě)出網(wǎng)頁(yè)前端代碼。如圖7,將手寫(xiě)“MyJokeWebsite”網(wǎng)頁(yè)樣式傳給GPT-4,GPT-4將反饋相應(yīng)的前端代碼,該代碼不但可以順利運(yùn)行,也完全符合手繪草稿要求的內(nèi)容和樣式,具有極強(qiáng)的OCR(文字識(shí)別)能力。u

6)理解人類社會(huì)常識(shí),可讀懂“網(wǎng)絡(luò)梗圖”,具有更明顯的“人性化”特征。如圖8,用戶提問(wèn)“該圖片中有什么特別之處?”GPT-4回答“男人在移動(dòng)的出租車(chē)車(chē)頂燙衣服”是不符合人類社會(huì)常識(shí)之處,展示出驚人的理解力。如圖9,用戶請(qǐng)GPT-4回答圖中的“梗”,GPT-4能夠?qū)ⅰ半u塊”和“世界地圖”相聯(lián)系,展示出強(qiáng)大的聯(lián)想能力。圖7GPT-4可以根據(jù)手繪圖片返回網(wǎng)站代碼圖8GPT-4可以識(shí)別圖片中不符合常理之處用戶:圖片中有什么特別之處?圖9

GPT-4具有強(qiáng)聯(lián)想能力用戶提問(wèn):請(qǐng)解釋下圖中的“?!盙PT-4反饋相關(guān)代碼代碼成功運(yùn)行后的網(wǎng)頁(yè)截圖GPT-4解釋了圖中的“?!痹谟诎央u塊擺放成世界地圖的樣子手寫(xiě)網(wǎng)頁(yè)草稿這張圖片的不尋常之處在于,男人在移動(dòng)的出租車(chē)的車(chē)頂上燙衣服,燙衣板也固定在車(chē)頂上。資料:差評(píng)公眾號(hào),上海證券研究所資料:

《GPT-4TechnicalReport》,上海證券研究所資料:

《GPT-4TechnicalReport》,上海證券研究所91.3

高認(rèn)知:長(zhǎng)文字處理+推理判斷能力u

GPT-4具有更強(qiáng)的長(zhǎng)文字處理能力。GPT-4的上下文上限約為2.5萬(wàn)字,是Chat

GPT的近8倍,允許使用長(zhǎng)格式內(nèi)容創(chuàng)建、擴(kuò)展對(duì)話及文檔搜索和分析等,能夠閱讀并記憶更多信息。u

GPT-4有更高的推理判斷能力。如圖11、圖12,向Chat

GPT和GPT-4提出相同問(wèn)題“給定3個(gè)人物各自的空閑時(shí)間,求3人的共同空閑時(shí)段以安排會(huì)議?!盋hatGPT給出了錯(cuò)誤答案,而GPT-4成功完成這一要求。圖10GPT-4可處理的上下文上限為2.5萬(wàn)字圖11ChatGPT回答錯(cuò)誤圖12

GPT-4給出了正確答案ChatGPT回答錯(cuò)誤,Andrew下午四點(diǎn)沒(méi)有空閑時(shí)間。GPT-4給出了合理解答。資料:OpenAI官網(wǎng),上海證券研究所資料:OpenAI官網(wǎng),上海證券研究所資料:

OpenAI官網(wǎng),上海證券研究所101.3

高認(rèn)知:長(zhǎng)文字處理+推理判斷能力u

GPT-4具有更高的認(rèn)知水平。根據(jù)OpenAI給出的專業(yè)測(cè)試結(jié)果,GPT-4在高等數(shù)學(xué)、法律、生物、化學(xué)、英語(yǔ)、高級(jí)微觀經(jīng)濟(jì)等學(xué)科的考試成績(jī)遠(yuǎn)超GPT-3.5。u

GPT-4在多領(lǐng)域的專業(yè)認(rèn)知超過(guò)平均水準(zhǔn)。在律師資格考試中,GPT-4的分?jǐn)?shù)排名可以達(dá)到所有考生的前10%,而GPT-3.5只能排倒數(shù)10%,是GPT-4優(yōu)化幅度最大的科目。此外,在GRE、SAT、歷史、化學(xué)、生物、微觀經(jīng)濟(jì)、宏觀經(jīng)濟(jì)等科目中均超過(guò)至少80%以上的考生。編程能力(CodeforcesRating)反而是GPT-4最弱的科目,排名在倒數(shù)5%。圖13GPT-4在專業(yè)測(cè)試中的表現(xiàn)圖14GPT-4在專業(yè)測(cè)試中的排名80%50%資料:

《GPT-4TechnicalReport》,上海證券研究所資料:

《GPT-4TechnicalReport》,上海證券研究所111.3

高認(rèn)知:長(zhǎng)文字處理+推理判斷能力u

GPT-4在評(píng)估語(yǔ)言模型的傳統(tǒng)基準(zhǔn)上優(yōu)于其他模型。在語(yǔ)言模型基準(zhǔn)測(cè)試中,分別將GPT-4、GPT-3.5與現(xiàn)有最佳性能語(yǔ)言模型(LM

SOTA)和現(xiàn)有最佳模型(SOTA)的性能通過(guò)小樣本(few-shot)測(cè)試進(jìn)行比對(duì),除DROP(閱讀理解基準(zhǔn)測(cè)試)外,GPT-4在多語(yǔ)言學(xué)習(xí)、常識(shí)推理、語(yǔ)音識(shí)別、人類評(píng)估測(cè)試均超越現(xiàn)有最佳模型。u

GPT-4擁有卓越的外語(yǔ)能力,包括英語(yǔ)和其他小語(yǔ)種。如圖16,GPT-4在包括英語(yǔ)在內(nèi)的27種語(yǔ)言測(cè)試中準(zhǔn)確率均達(dá)到62%以上。通過(guò)與GPT-3.5、PaLM、Chinchilla模型英語(yǔ)水平進(jìn)行對(duì)比,GPT-4以85.5%的準(zhǔn)確性遠(yuǎn)超其他模型。圖15GPT-4顯著優(yōu)于現(xiàn)有模型圖16GPT-4多語(yǔ)言能力更強(qiáng)多語(yǔ)言學(xué)習(xí)基于自然語(yǔ)言的常識(shí)推理測(cè)試人類評(píng)估除DROP(閱讀理解基準(zhǔn)測(cè)試)外,GPT-4全方位超越現(xiàn)有最佳模型。語(yǔ)音識(shí)別資料:

《GPT-4TechnicalReport》,上海證券研究所資料:

《GPT-4TechnicalReport》,上海證券研究所121.3

高認(rèn)知:長(zhǎng)文字處理+推理判斷能力u

GPT-4的高認(rèn)知特征具體體現(xiàn)在以下方面:1)高常識(shí)推理能力。分別問(wèn)ChatGPT和GPT-4“1+1什么情況等于3”時(shí),ChatGPT只會(huì)從數(shù)學(xué)計(jì)算的角度思考,但GPT-4可以從常識(shí)推理的角度思考。2)高可塑性。與ChatGPT不同,GPT-4能夠以不同的語(yǔ)言風(fēng)格與用戶交流。當(dāng)被設(shè)定為某個(gè)角色時(shí),GPT-4將不會(huì)聽(tīng)從違背角色特征的指令。3)高解決問(wèn)題能力。GPT-4能夠處理復(fù)雜問(wèn)題,比如運(yùn)用學(xué)習(xí)到的稅務(wù)知識(shí)幫助用戶解決稅務(wù)問(wèn)題。結(jié)合稅法的高時(shí)效性與GPT-4的長(zhǎng)文字處理能力,用戶可以將最新的稅法傳給GPT-4后要求其為自己解決稅務(wù)籌劃問(wèn)題。圖17

分別問(wèn)Chat

GPT和GPT-4“1+1什么情況等于3”圖18

GPT-4具有較強(qiáng)的可塑性圖19

GPT-4能夠處理復(fù)雜問(wèn)題設(shè)置角色:假設(shè)GPT-4是TaxGPT,運(yùn)用內(nèi)置的Tax知識(shí)幫助客戶解決稅務(wù)規(guī)劃問(wèn)題設(shè)置角色:假設(shè)GPT-4是蘇格拉底風(fēng)格的導(dǎo)師資料:APPSO公眾號(hào),上海證券研究所資料:差評(píng)公眾號(hào),上海證券研究所資料:知識(shí)分子公眾號(hào),上海證券研究所131.4

更安全:分辨能力提高u

GPT-4的可靠性大幅提升。相較于GPT-3.5(會(huì)隨著持續(xù)迭代而改善),GPT-4顯著減少了“虛構(gòu)”現(xiàn)象。在內(nèi)部設(shè)計(jì)的對(duì)抗性準(zhǔn)確度評(píng)估中,GPT-4各科目平均得分比GPT-3.5高出19%。其中,提升幅度在歷史和數(shù)學(xué)科目上的表現(xiàn)尤為突出。u

GPT-4的分辨能力有顯著提升,但仍存在改進(jìn)空間。相較于GPT-3.5,GPT-4在公開(kāi)基準(zhǔn)測(cè)試TruthfulQA(測(cè)試模型真實(shí)性性能好壞的一個(gè)測(cè)試集)中取得了進(jìn)步,體現(xiàn)為較高的分辨事實(shí)能力。如圖21,在零樣本(0-shot)提示、小樣本(few-shot)提示和人類反饋強(qiáng)化學(xué)習(xí)(RLHF)微調(diào)后的表現(xiàn)中,GPT-4均明顯優(yōu)于GPT-3.5和Anthropic-LM,但GPT-4對(duì)TruthfulQA中的某些問(wèn)題依然給出了錯(cuò)誤的回答。圖20GPT-4在9個(gè)內(nèi)部設(shè)計(jì)的對(duì)抗性準(zhǔn)確度評(píng)估中的表現(xiàn)圖21GPT-4在TruthfulQA中的表現(xiàn)資料:《GPT-4TechnicalReport》,上海證券研究所資料:《GPT-4TechnicalReport》,上海證券研究所141.4

更安全:分辨能力提高u

GPT-4優(yōu)化了安全性指標(biāo),能夠有效減少有害風(fēng)險(xiǎn)信息的提供。從響應(yīng)率來(lái)看,GPT-4對(duì)違規(guī)內(nèi)容(如制作炸彈的方法)請(qǐng)求的響應(yīng)率相較于GPT-3.5降低了82%,對(duì)敏感內(nèi)容請(qǐng)求(如醫(yī)療建議和自我傷害建議等)的響應(yīng)率降低了29%,RLHF后的GPT-4的響應(yīng)率則更低。從反饋“有害信息”的可能性來(lái)看,GPT-4在RealToxicityPrompts

數(shù)據(jù)集的測(cè)試中僅有0.73%的概率生成“有害信息”,而GPT-3.5的概率為6.48%。圖22敏感提示和禁用提示的錯(cuò)誤行為比率資料:《GPT-4TechnicalReport》,上海證券研究所151.5

GPT-4仍存在不足之處結(jié)合對(duì)現(xiàn)有其他語(yǔ)言模型的研究,GPT-4仍存在信息迭代受限、準(zhǔn)確性不足、反饋違規(guī)內(nèi)容等不足之處。u

信息迭代受限。GPT-4信息更迭能力受限,且模型本身不具主動(dòng)學(xué)習(xí)能力。根據(jù)GPT-4技術(shù)報(bào)告,由于模型于2021年9月預(yù)訓(xùn)練完畢,GPT-4缺乏對(duì)此后事件的了解,且無(wú)法從經(jīng)驗(yàn)中學(xué)習(xí)新內(nèi)容。ChatGPT通過(guò)植入插件系統(tǒng)形成了對(duì)世界新事物的“觸覺(jué)”。根據(jù)OpenAI官網(wǎng)介紹,Web瀏覽器插件將利用NewBing的API,通過(guò)在互聯(lián)網(wǎng)上搜索相關(guān)信息,給出用戶具體答案。u

準(zhǔn)確性不足。GPT-4的回答準(zhǔn)確性相較于GPT-3.5有較大提升,但仍存在虛構(gòu)傾向。在TruthfulQA測(cè)試中,GPT-4在某些問(wèn)題上依然給出了錯(cuò)誤的回答。隨著GPT-4使用范圍的擴(kuò)大,虛構(gòu)傾向不僅會(huì)誤導(dǎo)用戶,更會(huì)降低模型本身的整體可信度。u

存在道德風(fēng)險(xiǎn)。GPT-4可能根據(jù)用戶發(fā)出的指令產(chǎn)生各種有害內(nèi)容,包括違反OpenAI政策以及對(duì)不利于社會(huì)發(fā)展的內(nèi)容。如歧視性內(nèi)容、誤導(dǎo)性內(nèi)容、策劃襲擊或暴力活動(dòng)內(nèi)容等。u

其他風(fēng)險(xiǎn)。結(jié)合對(duì)現(xiàn)有其他語(yǔ)言模型的研究,GPT-4還可能存在如侵犯隱私權(quán)、危害網(wǎng)絡(luò)安全、出現(xiàn)不受控的新能力、系統(tǒng)交互等潛在風(fēng)險(xiǎn)。162.1

DeepSpeed

更高速度

更大規(guī)模u

DeepSpeed是PyTorch的開(kāi)源的兼容庫(kù),在深度學(xué)習(xí)訓(xùn)練和推理方面具有極高的速度和規(guī)模。DeepSpeed通過(guò)提高規(guī)模、速度、成本和可用性來(lái)改進(jìn)大型模型訓(xùn)練,可訓(xùn)練超100億個(gè)參數(shù)的模型,實(shí)現(xiàn)了自然語(yǔ)言處理(NLP)和多模態(tài)(結(jié)合語(yǔ)言圖像、視頻和語(yǔ)音)等領(lǐng)域的突破。u

Deep

Speed

Chat基于微軟Deep

Speed深度學(xué)習(xí)優(yōu)化庫(kù)開(kāi)發(fā)而成。DeepSpeedChat可在模型訓(xùn)練中加入完整RLHF流程,用于RLHF訓(xùn)練的低成本開(kāi)源解決方案,使得復(fù)雜的RLHF訓(xùn)練變得快速、經(jīng)濟(jì)、輕松訪問(wèn),實(shí)現(xiàn)類似ChatGPT模型的端到端RLHF訓(xùn)練,從而幫助我們生成自己的高質(zhì)量ChatGPT模型。相較于ChatGPT,DeepSpeedChat普及RLHF(基于人工反饋機(jī)制的強(qiáng)化學(xué)習(xí))訓(xùn)練到AI社區(qū),削弱了ChatGPT的局限性。圖23

DeepSpeed三大創(chuàng)新支柱——訓(xùn)練、推理、壓縮圖24

DeepSpeed

Chat——便捷快速的類chatgpt模型資料:DeepSpeed,上海證券研究所資料:Github,上海證券研究所172.2

不斷強(qiáng)化模型質(zhì)量?

DeepSpeed支持在AMD?

通過(guò)DeepSpeed-MII實(shí)現(xiàn)亞秒級(jí)穩(wěn)定的擴(kuò)散圖像生成?

ZeRO推理:大眾化大規(guī)模模型推理GPU上進(jìn)行高效的大型模型訓(xùn)練2022.52022.92022.112021.102022.72022.102022.12?

DeepSpeed幫助訓(xùn)練了176億個(gè)參數(shù)的BLOOM模型?

DeepSpeedCompression用于極端壓縮的可組合庫(kù)Azure?

DeepSpeed支持易于使用的高性能模型訓(xùn)練?

實(shí)現(xiàn)推理(MII)深速模型?

DeepSpeed數(shù)據(jù)效率庫(kù):實(shí)現(xiàn)更少的數(shù)據(jù)、更快的訓(xùn)練和更高的模型質(zhì)量?

DeepSpeed訓(xùn)練了世界上最強(qiáng)大的語(yǔ)言模型:威震天-圖靈NLG530B182.3

Deep

Speed

三大核心功能在微軟開(kāi)源DeepSpeed

Chat之后,普通用戶可通過(guò)簡(jiǎn)單的操作,即可訓(xùn)練類ChatGPT等大語(yǔ)言模型,降低了ChatGPT類模型使用的門(mén)檻和成本,主要通過(guò)以下三個(gè)核心功能來(lái)達(dá)到:u

簡(jiǎn)化ChatGPT類型模型的訓(xùn)練并強(qiáng)化推理體驗(yàn):DeepSpeed-Chat僅需一個(gè)腳本即可實(shí)現(xiàn)多個(gè)訓(xùn)練步驟,如使用Huggingface預(yù)訓(xùn)練模型、使用DeepSpeed-RLHF系統(tǒng)運(yùn)行InstructGPT訓(xùn)練的所有三個(gè)步驟、生成自己的ChatGPT模型。此外,在模型訓(xùn)練后可以利用推理API進(jìn)行對(duì)話交互測(cè)試。u

DeepSpeed-RLHF模塊:DeepSpeed-RLHF模塊復(fù)刻InstructGPT論文中的訓(xùn)練模式,并確保監(jiān)督微調(diào)

(SFT)、獎(jiǎng)勵(lì)模型微調(diào)和人類反饋強(qiáng)化學(xué)習(xí)

(RLHF)的三個(gè)步驟與其一一對(duì)應(yīng),提供數(shù)據(jù)抽象和混合功能來(lái)支持開(kāi)發(fā)者使用多個(gè)不同數(shù)據(jù)源進(jìn)行訓(xùn)練。u

DeepSpeed-RLHF系統(tǒng):DeepSpeed-RLHF系統(tǒng)將DeepSpeed的訓(xùn)練和推理能力整合成統(tǒng)一混合引擎

(DeepSpeed-HE)

中,用于RLHF訓(xùn)練。DeepSpeedHybridEngine是為RLHF訓(xùn)練提供更高性能和效率的混合引擎,它結(jié)合了DeepSpeed的訓(xùn)練引擎和推理引擎,在訓(xùn)練和推理模式之間自由切換,為RLHF的訓(xùn)練和推理提供了更快的速度,也優(yōu)化了內(nèi)存和緩存數(shù)據(jù)。圖25

用于加速RLHF流程中最耗時(shí)部分的DeepSpeed混合引擎設(shè)計(jì)資料:Github,上海證券研究所192.4

DeepSpeed

Hybrid

Engine

優(yōu)勢(shì)u

高效性和經(jīng)濟(jì)性:DeepSpeed-HE提供高效的RLHF訓(xùn)練模式,訓(xùn)練速度較現(xiàn)有系統(tǒng)快15倍以上,使RLHF訓(xùn)練快速且經(jīng)濟(jì)實(shí)惠。u

卓越的擴(kuò)展性:DeepSpeed-HE能支持訓(xùn)練擁有數(shù)千億參數(shù)的模型,并在多節(jié)點(diǎn)多GPU系統(tǒng)上展現(xiàn)出其卓越的擴(kuò)展性。因此,即使是擁有130億參數(shù)的模型,也僅需1.25小時(shí)即可完成訓(xùn)練。對(duì)擁有1750億參數(shù)的龐大模型,使用DeepSpeed-HE進(jìn)行訓(xùn)練也只需不到一天的時(shí)間。u

普及RLHF訓(xùn)練:DeepSpeed-HE憑借單個(gè)GPU即可支持訓(xùn)練超1300億參數(shù)的模型,使無(wú)法多GPU系統(tǒng)的數(shù)據(jù)科學(xué)家既可以輕松創(chuàng)建輕量級(jí)的RLHF模型,又可以創(chuàng)建功能強(qiáng)大、能用于不同場(chǎng)景的的大型模型。圖26

單節(jié)點(diǎn)在Azure云上使用DeepSpeed-HE訓(xùn)練不同模型的時(shí)長(zhǎng)和相應(yīng)花費(fèi)圖27

多節(jié)點(diǎn)在Azure云上使用DeepSpeed-HE訓(xùn)練不同模型的時(shí)長(zhǎng)和相應(yīng)花費(fèi)圖28

DeepSpeed-HE支持單GPU大型模型資料:Github,上海證券研究所資料:Github,上海證券研究所資料:Github,上海證券研究所202.5

訓(xùn)練步驟Deep

Speed

的訓(xùn)練生成流程分為三個(gè)步驟:1)監(jiān)督微調(diào)(SFT)。預(yù)訓(xùn)練語(yǔ)言模型通過(guò)監(jiān)督微調(diào)(SFT)進(jìn)行微調(diào),使用精選的人類回答來(lái)調(diào)整訓(xùn)練的語(yǔ)言模型。2)獎(jiǎng)勵(lì)微調(diào)模型。使用人類對(duì)同一查詢的多個(gè)答案打分的數(shù)據(jù)集,去訓(xùn)練一個(gè)不同的(通常小于SFT)獎(jiǎng)勵(lì)模型(RW)。3)RLHF訓(xùn)練。使用近端策略優(yōu)化(ProximalPolicyOptimization,PPO)算法,利用獎(jiǎng)勵(lì)模型的獎(jiǎng)勵(lì)反饋,進(jìn)一步調(diào)整SFT模型。圖29

完整的RLHF訓(xùn)練概述圖資料:Github,上海證券研究所212.6

訓(xùn)練性能評(píng)估(1/2)與現(xiàn)有RLHF系統(tǒng)(如Colossal-AI或HuggingFace)相比,DeepSpeed-RLHF在系統(tǒng)性能和模型可擴(kuò)展性表現(xiàn)出色,DeepSpeed-HE的吞吐量提高了一個(gè)數(shù)量級(jí)以上,能夠在相同的延遲預(yù)算下訓(xùn)練更大的模型。1)吞吐量方面:多GPU上比Colossal-AI

提速6

19倍,比HuggingFaceDDP提速1.4–10.5

倍單GPU上,DeepSpeed使RLHF訓(xùn)練的吞吐量提升超10倍圖30

DeepSpeedChat與Colossal-AI和HuggingFace的RLHF吞吐量比較圖31

訓(xùn)練第三步:最耗時(shí)的端到端訓(xùn)練吞吐量比較資料:Github,上海證券研究所資料:Github,上海證券研究所222.6

訓(xùn)練性能評(píng)估(2/2)2)擴(kuò)展性方面:Colossal-AI在單GPU和單A100

40G(服務(wù)器)節(jié)點(diǎn)上最大可分別運(yùn)行1.3B和6.7B的模型;DeepSpeed-HE在同樣的硬件上可分別運(yùn)行6.5B和50B模型,最大可達(dá)Colossal-AI的7.5倍。u

DeepSpeed-Chat的高效率主要是DeepSpeed-HE在RLFH生產(chǎn)階段的優(yōu)化加速。利用DeepSpeed的高性能推理內(nèi)核,DeepSpeed-HE在生產(chǎn)階段實(shí)現(xiàn)比HuggingFace高9倍的吞吐量,比Colossal-AI高15倍的吞吐量。圖32

1.3B參數(shù)模型在RLHF訓(xùn)練的時(shí)間分解資料:Github,上海證券研究所232.7

Deep

Speed

Chat開(kāi)源意義u

開(kāi)源DeepSpeedChat,降低垂類場(chǎng)景大模型訓(xùn)練門(mén)檻。ChatGPT只用了幾個(gè)月便席卷全球,成為史上用戶增長(zhǎng)速度最快的消費(fèi)級(jí)應(yīng)用,推動(dòng)世界的經(jīng)濟(jì)發(fā)展和科技研發(fā)。但龐大的資金資源投入限制了很多企業(yè)和個(gè)人用戶的使用,微軟為解決這一限制,開(kāi)源DeepSpeedChat模型。u

解決訓(xùn)練類Ch

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論