智能計算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 9、第九章-大模型計算系統(tǒng)_第1頁
智能計算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 9、第九章-大模型計算系統(tǒng)_第2頁
智能計算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 9、第九章-大模型計算系統(tǒng)_第3頁
智能計算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 9、第九章-大模型計算系統(tǒng)_第4頁
智能計算系統(tǒng):從深度學(xué)習(xí)到大模型 第2版課件 9、第九章-大模型計算系統(tǒng)_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

智能計算系統(tǒng)

第九章大模型計算系統(tǒng)中國科學(xué)院計算技術(shù)研究所李威副研究員liwei2017@本章內(nèi)容定位2輸入輸出建模實現(xiàn)運行大模型計算系統(tǒng)將前面各章介紹的智能算法、編程框架、芯片架構(gòu)、編程語言等內(nèi)容串聯(lián)起來,使讀者能真正融會貫通,從而全面地理解智能計算系統(tǒng)。提綱本章概述大模型算法分析大模型驅(qū)動范例:BLOOM大模型系統(tǒng)軟件大模型基礎(chǔ)硬件本章小結(jié)3本章概述4大模型計算系統(tǒng)的整體架構(gòu)提綱本章概述大模型算法分析大模型驅(qū)動范例:BLOOM大模型系統(tǒng)軟件大模型基礎(chǔ)硬件本章小結(jié)56VS大語言模型多模態(tài)大模型通過對自然語言進行建模得到概率模型來預(yù)測某個位置的詞序列的概率從早期的統(tǒng)計語言模型發(fā)展到如今最受關(guān)注的大語言模型在各類自然語言理解與生成任務(wù)中表現(xiàn)出了強大的能力在文本數(shù)據(jù)的基礎(chǔ)上將圖像、語音等多種模態(tài)數(shù)據(jù)也引入大模型重點是將多種模態(tài)數(shù)據(jù)對齊后進行信息交互和融合將語言對應(yīng)的文本數(shù)據(jù)作為標(biāo)桿、將多種模態(tài)數(shù)據(jù)與文本數(shù)據(jù)進行對齊,是實現(xiàn)多模態(tài)大模型的高效而實用的手段大語言模型是多模態(tài)大模型的基礎(chǔ)大語言模型和多模態(tài)大模型的比較大模型的獲得和使用7大模型的獲得和使用訓(xùn)練推理預(yù)訓(xùn)練微調(diào)在訓(xùn)練階段,需要使用大量的語料數(shù)據(jù)和大規(guī)模的計算資源,從頭訓(xùn)練大模型的模型參數(shù)推理是指在大模型訓(xùn)練完成后,使用大模型完成相關(guān)的任務(wù)預(yù)訓(xùn)練是使用大量無標(biāo)注的語料數(shù)據(jù),旨在通過訓(xùn)練讓大模型學(xué)習(xí)到通用的語言能力和知識微調(diào)則是為了提升大模型在特定下游任務(wù)的表現(xiàn),因此微調(diào)階段使用特定任務(wù)的數(shù)據(jù)訓(xùn)練大模型大模型算法分類8僅編碼器架構(gòu)編碼器-解碼器架構(gòu)僅解碼器架構(gòu)編碼器解碼器大模型算法發(fā)展歷程9僅解碼器成為主流大模型算法計算需求10模型隨著其參數(shù)量和訓(xùn)練數(shù)據(jù)規(guī)模的不斷發(fā)展,其所需的訓(xùn)練資源越來越多,意味著對智能計算系統(tǒng)的需求也越來越復(fù)雜。DeepMind:訓(xùn)練所需計算量正比于參數(shù)規(guī)模x數(shù)據(jù)集規(guī)模大模型與智能計算芯片發(fā)展11需要從智能計算系統(tǒng)的軟硬件層面進行系統(tǒng)的優(yōu)化設(shè)計,實現(xiàn)高效的大模型計算系統(tǒng)。五年十倍五年一萬倍提綱本章概述大模型算法分析大模型驅(qū)動范例:BLOOM大模型系統(tǒng)軟件大模型基礎(chǔ)硬件本章小結(jié)12大模型范例vs風(fēng)格遷移范例13BLOOM全名為

BigScienceLargeOpen-scienceOpen-accessMultilingualLanguageModel是由BigScience研究團隊于2022年7月推出的開源大模型大模型驅(qū)動范例與風(fēng)格遷移驅(qū)動范例對比BLOOM-176B模型結(jié)構(gòu)14BLOOM模型包含1760億個參數(shù)(下稱BLOOM-176B模型),使用ROOTS數(shù)據(jù)集訓(xùn)練。BLOOM-176B模型主要包括70個解碼器塊。ROOTS語料庫是由BigScience研究團隊提出的開源語料庫,由498個數(shù)據(jù)集的組成,包含46種自然語言和13種編程語言在內(nèi)共59種語言,總共1.61TB文本。文本數(shù)據(jù)經(jīng)過分詞器進行分詞后,可以轉(zhuǎn)化為1660億(166B)個詞元用于BLOOM-176B模型的訓(xùn)練。BLOOM-176B運行平臺15集群共含52個高性能計算節(jié)點。實際運行:48個計算節(jié)點,即總計384

GPUs熱備節(jié)點:4個計算節(jié)點混合并行技術(shù)—數(shù)據(jù)并行、張量并行(算子內(nèi)模型并行)、流水線并行訓(xùn)練拓展到數(shù)百塊GPU的同時保持高GPU利用率,加快訓(xùn)練速度BLOOM-176B模型包含70個解碼器塊,第1個階段分配了1個嵌入層與5個解碼器塊,第12階段分配了5個解碼器塊與1個嵌入層,其余階段均分配6個解碼器塊16模型并行度4流水線并行度1248個GPU處理一個數(shù)據(jù)并行模型副本的訓(xùn)練計算數(shù)據(jù)并行度8共384個GPUBLOOM-176B模型的訓(xùn)練過程張量并行MLP:矩陣按照行和列切分

Self-Attention:按照Head切分和按照行切分17BLOOM-176B模型的訓(xùn)練過程BLOOM-176B模型的訓(xùn)練過程數(shù)據(jù)并行與流水線并行18流水線并行組:P2P通信19并行組:每一個組內(nèi)的智能處理器之間會通過通信庫實現(xiàn)數(shù)據(jù)通信,是實際通信時的操作單元。進一步可以分為數(shù)據(jù)并行組(dataparallelgroup)、張量模型并行組(tensormodelparallelgroup)和流水線模型并行組(pipelinemodelparallelgroup)BLOOM-176B模型的訓(xùn)練過程張量并行:ALL-Reduce通信數(shù)據(jù)并行:ALL-Reduce通信BLOOM-176B模型的推理過程自回歸推理由于缺乏正確的參考序列,在生成新詞元時依賴于之前結(jié)果,模型必須依賴于自身在前面的輸出來生成下一個詞元硬件:1個計算節(jié)點并行計算策略:張量并行或者流水線并行皆可20語言模型根據(jù)輸入句子的一部分文本來預(yù)測下一個詞StepNStepN+1StepN+221對于一個解碼器塊而言,

正向傳播時的浮點運算主要分為5個部分按照運算密度歸類:

①④:Dense1

②③:Attention

⑤:Dense2①②③④⑤Attention①②③④⑤計算分析計算分析隨著序列變長,注意力

計算量占總比逐漸提升但注意力的運算密度始終低于智能處理器的運算密度22多頭注意力的運算可能成為大模型訓(xùn)練計算中的一個瓶頸。計算分析總浮點計算量:反向傳播計算量=正向傳播計算量*2。微批量b=2,全局批量B=16時,需34.8PFLOPs忽略存儲容量,一塊A100需要算數(shù)十分鐘23存儲分析243525GB需要至少45個80GB的智能處理器!實際應(yīng)用中,還需要存放神經(jīng)元數(shù)據(jù),這進一步增加了對存儲空間的需求模型權(quán)重優(yōu)化器狀態(tài)權(quán)重梯度激活值激活值梯度神經(jīng)元數(shù)據(jù)權(quán)重數(shù)據(jù)AdamW優(yōu)化器FP32計算精度包括優(yōu)化器模型權(quán)重、優(yōu)化器動量、優(yōu)化器方差僅梯度更新時

使用通信分析25除了通信數(shù)據(jù)量大以外,大模型訓(xùn)練的通信還具有以下特點:通信次數(shù)多,無論數(shù)據(jù)并行、張量并行、流水線并行,均會產(chǎn)生必要的數(shù)據(jù)通信和同步;通信分布不均勻,由于模型的前向和反向傳播時的算子依賴關(guān)系,某些層可能需要等待其他層完成后才能通信,導(dǎo)致通信在時間上不均勻。提綱本章概述大模型算法分析大模型驅(qū)動范例:BLOOM大模型系統(tǒng)軟件大模型基礎(chǔ)硬件本章小結(jié)26為什么采用大模型系統(tǒng)軟件27傳統(tǒng)的深度學(xué)習(xí)系統(tǒng)軟件已經(jīng)難以滿足大模型的特殊需求。大模型系統(tǒng)軟件的出現(xiàn)是為了解決模型并行化、存儲管理、通信優(yōu)化等。大模型系統(tǒng)軟件更加注重資源利用的高效性、分布式計算的優(yōu)化、以及模型的可擴展性。大模型系統(tǒng)軟件還需要考慮如何在有限的硬件資源上實現(xiàn)有效訓(xùn)練。傳統(tǒng)的深度學(xué)習(xí)系統(tǒng)軟件大模型系統(tǒng)軟件訓(xùn)練場景中計算相關(guān)優(yōu)化28稀疏注意力機制:通常情況下當(dāng)前詞與相鄰若干詞存在關(guān)聯(lián),與很遠的詞關(guān)聯(lián)較弱所有詞計算自注意力->信息冗余->注意力存在稀疏性稀疏注意力機制在原本全局注意力的基礎(chǔ)上,額外引入了局部注意力和隨機注意力的概念通過基于塊的稀疏運算,將原始注意力機制的計算需求降低幾個數(shù)量級。通過稀疏注意力機制優(yōu)化,DeepSpeed可以用6倍的加速比執(zhí)行10倍長的輸入序列,優(yōu)化效果顯著長序列時,Attention的計算量顯著增加黃色、綠色和橙色分別表示全局注意力、局部注意力和隨機注意力訓(xùn)練場景中計算相關(guān)優(yōu)化29專用數(shù)據(jù)類型:除了傳統(tǒng)的單精度浮點數(shù)據(jù)類型(FP32)和半精度浮點數(shù)據(jù)類型(FP16)之外,各類智能硬件還設(shè)計了專用數(shù)據(jù)類型,在基于混合精度訓(xùn)練的大模型訓(xùn)練過程中廣泛使用。數(shù)據(jù)類型浮點算力FP3219.5TFLOPSTF32156TFLOPS(8xFP32)BF16/FP16312TFLOPS(16xFP32)使用TF32代替FP32可以幾乎不降低精度的情況下,提升運算速度訓(xùn)練場景中存儲相關(guān)優(yōu)化——ZeRO系列存儲優(yōu)化ZeRO(零冗余優(yōu)化器)一級優(yōu)化301,優(yōu)化器狀態(tài)最多

2,數(shù)據(jù)并行訓(xùn)練存在多個副本優(yōu)化器狀態(tài)被分塊并分配到所有數(shù)據(jù)并行的GPU上,而不是被復(fù)制,并在訓(xùn)練過程中使用基于all-gather/broadcast的通信集合即時重建訓(xùn)練場景中存儲相關(guān)優(yōu)化——ZeRO系列存儲優(yōu)化31ZeRO系列存儲優(yōu)化策略ZeRO(零冗余優(yōu)化器)ZeRO-OffloadZeRO-Infinity將模型權(quán)重、梯度優(yōu)化以及優(yōu)化器這些數(shù)據(jù)分配到所有數(shù)據(jù)并行的GPU上,而不是被復(fù)制它將大模型訓(xùn)練時部分的模型參數(shù)和狀態(tài)卸載(Offload)到CPU上進行存儲和計算以解決單個DLP存儲容量不足的問題它不僅涉及到DLP片外存儲與CPU內(nèi)存之間的交互,更將部分數(shù)據(jù),特別是激活值,遷移到了高速的存儲介質(zhì)(如NVMeSSDs)訓(xùn)練場景中存儲相關(guān)優(yōu)化——重計算優(yōu)化32重計算優(yōu)化(recomputation)指的是在正向傳播時不保存所有層的激活值,而是僅保留部分層的計算結(jié)果作為檢查點(checkpoint),然后在反向傳播時再根據(jù)檢查點重新計算所需的激活值。選擇性重計算(selectiveactivationrecomputation),通過對Transformer層內(nèi)部計算量和和存儲量的量化分析,選擇性的將中間層的激活值保留或舍棄,最終能夠在引入可忽略不計的計算量的前提下,將激活值的存儲使用減少5倍。正向傳播反向傳播正向傳播時的激活值需要一直保留到反向傳播時使用,占用了很大的存儲空間計算換存儲,計算增加約30%-40%訓(xùn)練場景中存儲相關(guān)優(yōu)化——注意力機制融合優(yōu)化33長序列時,Attention的計算中間結(jié)果存儲需求顯著增加,因此較長的上下文長度會引發(fā)了較大的訪存量,進而影響了整體訓(xùn)練的性能。訓(xùn)練場景中存儲相關(guān)優(yōu)化——注意力機制融合優(yōu)化34注意力機制融合優(yōu)化可以對帶有softmax的矩陣乘法進行分塊和融合,從而避免了O(s2)的片外訪存。最高3倍的性能提升訓(xùn)練場景中通信相關(guān)優(yōu)化35通信優(yōu)化旨在減少數(shù)據(jù)傳輸量、提高通信效率和減少通信與計算的競爭。典型的如DeepSpeed中專為大模型訓(xùn)練引入的1-bitAdam算法優(yōu)化。通過1-bitAdam算法優(yōu)化,DeepSpeed可以在保持模型精度的同時,最大減少5倍的通信量,并獲得最高3.3倍的訓(xùn)練性能提升。具體來說,1-bitAdam在每個訓(xùn)練步驟中首先計算出梯度的均值和方差,然后使用這些統(tǒng)計數(shù)據(jù)將梯度量化為1位,從而將原始的32位梯度值被壓縮為1位,減少了通信的數(shù)據(jù)量。此外,1-bitAdam還采用了累積誤差修正機制,確保量化過程中的誤差不會累積。推理場景中計算相關(guān)優(yōu)化——批處理優(yōu)化36(a)多個任務(wù)直接批處理:該方法靜態(tài)地設(shè)計一個最長的序列長度,若有任務(wù)提前結(jié)束(即輸出“END”),則其需要等待同一個批量中所有任務(wù)都完成后才能結(jié)束,因此會由于負載不均衡導(dǎo)致整體的吞吐較低。(b)連續(xù)批處理方法:該方法動態(tài)地對任務(wù)進行批處理。當(dāng)一個任務(wù)提前結(jié)束時,其會動態(tài)地選擇一個新的任務(wù)進行處理,其中選擇策略對于最終的吞吐率有很大的影響。一種常見的選擇策略是先到先服務(wù)策略,該策略選擇最近到達的任務(wù)進行調(diào)度。推理場景中計算相關(guān)優(yōu)化——鍵值緩存優(yōu)化37鍵值緩存(KVcache)優(yōu)化指在處理一個序列時,通過緩存過去的生成結(jié)果以避免重復(fù)計算的方法,從而減少大模型推理的計算量。推理場景中存儲相關(guān)優(yōu)化——鍵值緩存分頁優(yōu)化38前述KVcache優(yōu)化中,由于碎片化和過度保守的分配策略,可能導(dǎo)致60%到80%的存儲浪費。針對KVcache的分頁優(yōu)化借鑒了操作系統(tǒng)中的分頁思想,通過分頁的方法提高系統(tǒng)對存儲的利用率。將每個序列的KVcache劃分為塊,每個塊包含固定數(shù)目token的鍵(Key)和值(Value),采用非連續(xù)的存儲分配方案,其中塊內(nèi)數(shù)據(jù)連續(xù),則可以將空間浪費率降低至5.5%推理場景中存儲相關(guān)優(yōu)化——量化優(yōu)化32位存儲下,大模型的模型權(quán)重和激活值將占據(jù)大量的存儲空間。大模型量化的難度體現(xiàn)在激活值量化上,因為激活張量在通道維度上存在少量(約0.1%)的異常值如果都使用一個縮放系數(shù)對整個張量進行量化,則會導(dǎo)致取值較小的通道有嚴重的精度損失,導(dǎo)致整體精度較差。解決思路:僅權(quán)重量化、混合精度分解以及量化難度轉(zhuǎn)移39模型權(quán)重權(quán)重數(shù)據(jù)激活值神經(jīng)元數(shù)據(jù)提綱本章概述大模型算法分析大模型驅(qū)動范例:BLOOM大模型系統(tǒng)軟件大模型基礎(chǔ)硬件本章小結(jié)40大模型計算節(jié)點——計算節(jié)點的拓撲結(jié)構(gòu)41單個大模型計算節(jié)點主要包括若干CPU構(gòu)成的控制單元、主機端存儲單元和若干DLP板卡構(gòu)成的計算單元。大模型計算節(jié)點——計算節(jié)點的拓撲結(jié)構(gòu)42不同拓撲結(jié)構(gòu)主要影響的是:處理器與DLP板卡之間的總通信帶寬,DLP板卡之間互相通信的帶寬,DLP板卡之間互相通信的延遲。大模型計算節(jié)點——智能處理器的互聯(lián)43AcceleratorL

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論