百度AI大底座大模型研發(fā)基礎(chǔ)設(shè)施方案_第1頁
百度AI大底座大模型研發(fā)基礎(chǔ)設(shè)施方案_第2頁
百度AI大底座大模型研發(fā)基礎(chǔ)設(shè)施方案_第3頁
百度AI大底座大模型研發(fā)基礎(chǔ)設(shè)施方案_第4頁
百度AI大底座大模型研發(fā)基礎(chǔ)設(shè)施方案_第5頁
已閱讀5頁,還剩39頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

百度AI大底座大模型研發(fā)基礎(chǔ)設(shè)施方案大模型Al新時代的基礎(chǔ)設(shè)施Jared,etal.Jared,etal.2020.模型大小(十億參數(shù))(藍(lán)色:語言模型;綠色:中文語言模型;橘色:多模態(tài)模型;黃色:視覺模型)模型大小(十億參數(shù))GPT-3(175B)GPT-3(175B)ERNIE3.0Titan(260B)●50Turing-NLG(17B)T5(11B)50Turing-NLG(17B)T5(11B)v-MOE(15B)ERNIE3.0(10B)ERNIE-VILG(10B)5GPT-2(1.5B)CogView(4B)●DALL-E(1.2B)5GPT-2(1.5B)BERT(340M)viT(630M)viT-G(2B)SwinV2(3B)BERT(340M)ERNlE2.0(330M)ERNlE2.0(330M)ELMo(90M)ERNlEELMo(90M)0.052017/8/142018/9/182019/10/232020/11/262021/12/312017/8/14模型參數(shù)演進(jìn)計(jì)算規(guī)模大單卡A100訓(xùn)練需要32年模型參數(shù)大350G+計(jì)算規(guī)模大單卡A100訓(xùn)練需要32年模型參數(shù)大350G+存儲空間以GPT-3為例,1750億參數(shù)模型、3000億詞語,計(jì)算量314ZFLOPS新摩爾定律成本投入大理成本計(jì)算精度存儲瓶頸分布式架構(gòu)us時代的萬卡互聯(lián)訓(xùn)練顯存,推理服務(wù),芯片存算比計(jì)算精度存儲瓶頸分布式架構(gòu)us時代的萬卡互聯(lián)訓(xùn)練顯存,推理服務(wù),芯片存算比整體向低精度遷移,混合精度是常態(tài)高性價比智算集群構(gòu)建易用性訓(xùn)練加速優(yōu)化高性價比智算集群構(gòu)建易用性利用率提升多級存儲彈性按需異構(gòu)算力利用率提升多級存儲彈性按需異構(gòu)算力萬卡集群高速互聯(lián)彈性容錯一站式平臺最佳實(shí)踐高性能算子顯存優(yōu)化集群加速比算法收斂速度____________二____________二心______二____________二____________二心______二百度AI大底座全景圖應(yīng)用百度AI大底座由AIIaaS層(百舸AI異構(gòu)計(jì)算平臺)、AIPaaS層(AI中臺)兩大部分組成應(yīng)用文心大模型及相關(guān)應(yīng)用第三方模型及相關(guān)應(yīng)用基礎(chǔ)管控AI服務(wù)運(yùn)行平臺基礎(chǔ)管控AIAI臺AI資產(chǎn)共享平臺全功能AI開發(fā)平臺BML零門檻AI開發(fā)平臺EasyDLGPU調(diào)度AI作業(yè)調(diào)度彈性訓(xùn)練可觀測性分布式訓(xùn)練加速AIAK-Training推理加速AIAK-Inference計(jì)百分布式訓(xùn)練加速AIAK-Training推理加速AIAK-Inference計(jì)百算舸平異臺構(gòu)海量數(shù)據(jù)湖存儲對象存儲海量數(shù)據(jù)湖存儲對象存儲BOS并行文件存儲PFS高速互聯(lián)異構(gòu)芯片昆侖芯高速互聯(lián)異構(gòu)芯片昆侖芯GPURDMAInfiniBandX-MANRDMA百度AI大底座全景圖基于Al大底座的大模型研發(fā)基礎(chǔ)設(shè)施方案概覽穩(wěn)定收斂一鍵跑通千億大模型訓(xùn)練推理最優(yōu)的訓(xùn)練推理性能穩(wěn)定性萬卡模型訓(xùn)練不中斷穩(wěn)定收斂一鍵跑通千億大模型訓(xùn)練推理最優(yōu)的訓(xùn)練推理性能穩(wěn)定性萬卡模型訓(xùn)練不中斷百舸控制面網(wǎng)絡(luò)產(chǎn)品配置容器平臺配置云原生AI套件配置百舸控制面網(wǎng)絡(luò)產(chǎn)品配置容器平臺配置云原生AI套件配置計(jì)算產(chǎn)品配置存儲產(chǎn)品配置計(jì)算產(chǎn)品配置云原生AI套件GPU架構(gòu)感知Tor架構(gòu)感知公共數(shù)據(jù)集公共模型庫模型/數(shù)據(jù)預(yù)熱高性能存儲BF16優(yōu)化參數(shù)推薦CostModel通信overlapBinpack調(diào)度Gang調(diào)度服務(wù)部署多卡部署灰度發(fā)布流量控制動態(tài)伸縮容錯訓(xùn)練云原生AI套件GPU架構(gòu)感知Tor架構(gòu)感知公共數(shù)據(jù)集公共模型庫模型/數(shù)據(jù)預(yù)熱高性能存儲BF16優(yōu)化參數(shù)推薦CostModel通信overlapBinpack調(diào)度Gang調(diào)度服務(wù)部署多卡部署灰度發(fā)布流量控制動態(tài)伸縮容錯訓(xùn)練故障感知算力容錯網(wǎng)絡(luò)容錯任務(wù)容錯推理加速動態(tài)batch張量并行模型輕量化模型稀疏化云原生平臺異構(gòu)調(diào)度數(shù)據(jù)加速訓(xùn)練加速CCE-StackCCE-Stack(私有云)、A800、昆侖)、A800、昆侖)基礎(chǔ)設(shè)施大模型研發(fā)集群構(gòu)建方案180Gbps50M+Gbps2GB/s180Gbps50M+Gbps2GB/s32(裸金屬終態(tài))OVS-Nova-大模型集群可達(dá)萬卡級別,單作業(yè)千卡;兼顧P2P大模型集群可達(dá)萬卡級別,單作業(yè)千卡;兼顧P2P延遲和通信吞吐8導(dǎo)軌優(yōu)化的三層8導(dǎo)軌優(yōu)化的三層CLOS架構(gòu)?IB可支撐16000卡規(guī)模,RoCE可支??結(jié)合網(wǎng)絡(luò)流量特點(diǎn),重點(diǎn)優(yōu)化同號卡AllReduce操作?一組機(jī)器有8臺Tor組成,分別連接20臺機(jī)器對應(yīng)?多組Unit間的同號卡通過Leaf層連接,支持最大4?異號GPU網(wǎng)卡通過Spine層連接,使能異號卡網(wǎng)絡(luò)與DragonfIY與DragonfIY、Torus拓?fù)浔容^的優(yōu)勢?節(jié)點(diǎn)間跳步數(shù)更穩(wěn)定MDISKDISKMDISKDISKDISEMDISKEM*數(shù)據(jù)集存儲/上傳-月光寶盒/對象存儲EMKKTCP/InfiniBand/RoCETCP*預(yù)訓(xùn)練模型存儲-訓(xùn)練開始時遠(yuǎn)端拉取到本地-TCP/InfiniBand/RoCETCP并行文件存儲PFS并行文件存儲PFS分布式緩存加速RapidFS托管BCC/BBC集群*容錯檢查點(diǎn)存儲-訓(xùn)練過程中的checkpoint存儲到托管BCC/BBC集群對象存儲BOS標(biāo)準(zhǔn)存儲低頻存儲冷存儲歸檔存儲*Conda/VSCode代碼庫對象存儲BOS標(biāo)準(zhǔn)存儲低頻存儲冷存儲歸檔存儲*支持存儲可觀測性數(shù)據(jù)集上云方案有閑置的公網(wǎng)帶寬)到端直連,需IDC中轉(zhuǎn),并部署遷移移數(shù)據(jù)流轉(zhuǎn)平臺CloudFlow*IO并行**IO并行*亞毫秒延時*百GB/s吞吐*內(nèi)核客戶端*高速硬件*極短IO路徑托管BCC/BBC集群MDSMDSMDS……MDSMDSMDSMDS……MDSOSSOSSOSS……OSSOSSOSSOSS……OSSOSSOSS大規(guī)模訓(xùn)練場景下,支持高并發(fā)、低延遲數(shù)據(jù)訪問、大模型訓(xùn)推加速優(yōu)化方案通信效率優(yōu)化高性能算子通信優(yōu)化策略:隱藏/融合/壓縮/卸載/拓?fù)涞途扔?xùn)練計(jì)算效率優(yōu)化顯存利用優(yōu)化IO和預(yù)處理優(yōu)化DataLoader優(yōu)化單機(jī)多卡TCP多機(jī)優(yōu)化RDMA多機(jī)優(yōu)化重計(jì)算技術(shù)預(yù)處理加速算子融合參數(shù)/梯度/優(yōu)化器分片顯存卸載機(jī)制高性能訓(xùn)練通信庫ECCL通信效率優(yōu)化高性能算子通信優(yōu)化策略:隱藏/融合/壓縮/卸載/拓?fù)涞途扔?xùn)練計(jì)算效率優(yōu)化顯存利用優(yōu)化IO和預(yù)處理優(yōu)化DataLoader優(yōu)化單機(jī)多卡TCP多機(jī)優(yōu)化RDMA多機(jī)優(yōu)化重計(jì)算技術(shù)預(yù)處理加速算子融合參數(shù)/梯度/優(yōu)化器分片顯存卸載機(jī)制高性能訓(xùn)練通信庫ECCLAll2AllAll2All加速:通過機(jī)內(nèi)NVLink減輕對網(wǎng)絡(luò)的壓力8導(dǎo)軌優(yōu)化下,同號卡最多經(jīng)過Leaf層,異號卡通信需要經(jīng)過spine層((NCCL2.12+)0.9All2All性能提升(%) TVM一4D混合并行框架高效流水并行編排4D混合并行框架高效流水并行編排大模型天然適合切分混合多種并行策略大模型天然適合切分混合多種并行策略豎切、橫切、縱向擴(kuò)展豎切橫切模型切分豎切橫切模型切分縱向擴(kuò)展縱向擴(kuò)展Transformer層內(nèi)大Transformer層內(nèi)大,稱為模型并行(MP)訓(xùn)練,稱為數(shù)據(jù)并行 (DP)層切分,稱為流水線并行(PP)顯存占用(Groupsharding)干億模型訓(xùn)練配置策略參與節(jié)點(diǎn)機(jī)內(nèi)8卡AllReducesharding機(jī)內(nèi)8卡Broadcast多機(jī)—組,機(jī)間同號卡P2P通信多組數(shù)據(jù)并行(多機(jī)—個單元)主流框架支持最佳實(shí)踐和案例操作流程圖:集群創(chuàng)建:架構(gòu)圖:任務(wù)提交:為全球最大中文單體模型提供高效穩(wěn)定的訓(xùn)練平臺為全球最大中文單體模型提供高效穩(wěn)定的訓(xùn)練平臺26002600

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論