2024年大模型時(shí)代的異構(gòu)計(jì)算平臺(tái)報(bào)告

上傳人：b*** IP屬地：北京上傳時(shí)間：2025-02-13 格式：PPTX 頁數(shù)：41 大?。?.43MB 積分：22 舉報(bào) 版權(quán)申訴

2024年大模型時(shí)代的異構(gòu)計(jì)算平臺(tái)報(bào)告_第2頁

2024年大模型時(shí)代的異構(gòu)計(jì)算平臺(tái)報(bào)告_第3頁

2024年大模型時(shí)代的異構(gòu)計(jì)算平臺(tái)報(bào)告_第4頁

2024年大模型時(shí)代的異構(gòu)計(jì)算平臺(tái)報(bào)告_第5頁

已閱讀5頁，還剩36頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大模型時(shí)代的異構(gòu)計(jì)算平臺(tái)GPT-3開啟大模型時(shí)代01超大模型訓(xùn)練對(duì)基礎(chǔ)設(shè)施的需求02軟硬結(jié)合的聯(lián)合優(yōu)化03大模型發(fā)展推動(dòng)基礎(chǔ)設(shè)施演進(jìn)04演講提綱01GPT-3開啟大模型時(shí)代32條樣本即可達(dá)到BERT的效果1750億模型帶來了質(zhì)的效果飛躍提升40%提升20%以O(shè)penAI

GPT-3為例大模型帶來質(zhì)的效果飛躍超大規(guī)模模型逐漸具備使用處理各種新任務(wù)的通用能力注：基于GPT-3的實(shí)驗(yàn)分析數(shù)學(xué)計(jì)算閱讀理解多輪問答SAT

考試新詞構(gòu)造指代推理大模型帶來AI通用性顯著提升爆款應(yīng)用拉動(dòng)大模型訓(xùn)練需求AIGC文Th圖ChatGPT大模型訓(xùn)練需要足夠數(shù)據(jù)與算力ELMo(90M)BERT(340M)ERNIE

1.0(110M)GPT-2(1.5B)ERNIE

2.0(330M)Turing-NLG(17B)T5(11B)ERNIE

3.0

Titan(260B)ViT(630M)V-MOE(15B)ViT-G(2B)SwinV2(3B)ERNIE

3.0(10B)CogView(4B)DALL-E(1.2B)ERNIE-VILG(10B)Plato-XL(11B)0.55505000.052017/8/142018/9/182019/10/232020/11/262021/12/31模型大小(十億參數(shù))（藍(lán)色：語言模型；綠色：中文語言模型；橘色：多模態(tài)模型；黃色：視覺模型）GPT-3(175B)模型參數(shù)演進(jìn)Jared,etal.

2020.Scaling

Law三要素以GPT-3為例，1750億參數(shù)模型、3000億詞語，計(jì)算量314ZFlops02超大模型訓(xùn)練對(duì)基礎(chǔ)設(shè)施的需求面向大模型的基礎(chǔ)設(shè)施全景圖超大模型加速庫資源管理層ERNIE

3.0

Titan VIMER-UFO

2.0 ERNIE

3.0AI平臺(tái)AI框架 Fleet

PaddlePaddle DeepSpeed

Megatron

PyTorchAI算子庫(cuDNN,

cuBLAS、AIAK-OP) 集合通信庫(NCCL,

ECCL)硬件資源 GPU

/昆侖 RDMA 存儲(chǔ)節(jié)點(diǎn)從框架到集群，大模型軟硬結(jié)合的全?；A(chǔ)設(shè)施AI調(diào)度器存儲(chǔ)服務(wù)本報(bào)告來源于三個(gè)皮匠報(bào)告站（）,由用戶Id:247865下載,文檔Id:153108,下載日期:2025-01-08從AI框架入手，解決大模型的技術(shù)挑戰(zhàn)Training

Data傳統(tǒng)訓(xùn)練：小模型、小樣本，單卡訓(xùn)練GPU

0梯度更新反向計(jì)算前向計(jì)算大模型的變化：參數(shù)量與計(jì)算量激增ZFLOPs計(jì)算量GPT-3:

314

ZFLOPs大規(guī)模參數(shù)175B

參數(shù)算力墻A100算力312TFLOPS單卡需要32年需要分布式加速存儲(chǔ)墻千億參數(shù)需要2TB存儲(chǔ)單卡顯存80GB，放不下需要更多存儲(chǔ)空間對(duì)模型和數(shù)據(jù)進(jìn)行切分算力墻

——

數(shù)據(jù)并行GPU

0GPU

1梯度更新梯度更新反向計(jì)算反向計(jì)算前向計(jì)算前向計(jì)算梯度同步Training

Data數(shù)據(jù)并行：對(duì)數(shù)據(jù)集進(jìn)行切分，不同卡模型相同，數(shù)據(jù)不同由于數(shù)據(jù)不同，所以不同卡計(jì)算的梯度也不同為了迭代中多卡參數(shù)一致，需要引入梯度同步梯度同步過程即多卡把各自梯度求平均的過程無阻塞，100%加速比收斂性存在梯度滯后、部分更新等問題結(jié)合通信重疊等優(yōu)化，在高性能網(wǎng)絡(luò)下，可以做到95%+收斂較穩(wěn)定數(shù)據(jù)并行中主要研究方向就是梯度同步，常見評(píng)價(jià)指標(biāo)如下：加速比

多卡全局吞吐

(單卡吞吐

卡數(shù))收斂性

精度收斂到一定范圍的時(shí)間常見梯度同步策略：同步更新

異步更新策略異步更新同步更新實(shí)現(xiàn) 節(jié)點(diǎn)異步上報(bào)局部梯度，更新并獲

節(jié)點(diǎn)間阻塞等待，同步上報(bào)局取全局梯度，不等待其他節(jié)點(diǎn) 部梯度，并同步更新全局梯度，常用AllReduce實(shí)現(xiàn)目前大模型訓(xùn)練主要采用同步更新策略存儲(chǔ)墻

——

流水線并行流水線氣泡mini-batch

1反向需要等前向完成，導(dǎo)致Device

1空等通過調(diào)整不同mini-batch數(shù)據(jù)執(zhí)行順序，減少氣泡每張卡保存部分層，通過點(diǎn)對(duì)點(diǎn)Send/Recv同步激活與梯度；將數(shù)據(jù)切分成mini-batch傳入流水線Layer

(前向)Layer

(反向)Layer

(前向)Layer

(反向)Layer

(前向)Layer

(反向)GPU

0GPU

1Send

/RecvSend

/Recv存儲(chǔ)墻

——

張量并行對(duì)于單層參數(shù)仍然過大問題，可以將單層操作切分到多卡進(jìn)行f

Identity

AllReduceXX

GEMM

AGELUY

GEMM

BYZDropoutXX

GEMM

A1GELUY1

GEMMB1Y1ZDropoutGPU

0GPU

0XX

GEMM

A2GELUY2

GEMMB2Y2ZDropoutGPU

1fXXZ1Z2g把GEMM操作的權(quán)重切分，每張卡處理一部分矩陣乘結(jié)果，最后通過AllReduce匯聚結(jié)果存儲(chǔ)墻

——

分組參數(shù)切片梯度更新GPU

0GPU

1梯度更新梯度同步模型層模型參數(shù)優(yōu)化器優(yōu)化器狀態(tài)模型層模型參數(shù)優(yōu)化器優(yōu)化器狀態(tài)冗余冗余數(shù)據(jù)并行的顯存冗余：

數(shù)據(jù)并行中的每張卡都會(huì)保存一份完整的模型參數(shù)、梯度及優(yōu)化器狀態(tài)在每次梯度同步后，多卡上的模型參數(shù)、優(yōu)化器狀態(tài)會(huì)保持一致，造成存儲(chǔ)上的冗余，浪費(fèi)顯存分組參數(shù)切片

將參數(shù)與優(yōu)化器狀態(tài)在參與數(shù)據(jù)并行的卡間切分，計(jì)算時(shí)按需通信同步，時(shí)間換空間梯度更新GPU

0GPU

1梯度更新梯度同步模型層模型參數(shù)模型層模型參數(shù)假設(shè)有N卡參與數(shù)據(jù)并行，每卡顯存可節(jié)省為

NBroadcast通信（參數(shù)廣播）broadcast通信（狀態(tài)廣播）優(yōu)化器優(yōu)化器狀態(tài)優(yōu)化器優(yōu)化器狀態(tài)大模型加速

——

減少計(jì)算量當(dāng)數(shù)據(jù)量足夠大時(shí)，參數(shù)越多的模型精度越好；而參數(shù)量增加造成計(jì)算量增加，需要更多資源如何保證參數(shù)規(guī)模的同時(shí)，減少計(jì)算量？條件計(jì)算，根據(jù)條件（路由）激活部分參數(shù)；將模型參數(shù)拆分成多個(gè)子網(wǎng)絡(luò)（專家網(wǎng)絡(luò)）模型權(quán)重樣本樣本單樣本激活所有參數(shù)樣本樣本專家網(wǎng)絡(luò)1專家網(wǎng)絡(luò)2專家網(wǎng)絡(luò)3Gating

Network

Router單樣本按條件激活部分參數(shù)（上圖中單樣本計(jì)算量減少1/3）減少計(jì)算量

——

混合專家模式基于條件計(jì)算范式，將模型抽象為多個(gè)專家，每卡處理不同的樣本，并獨(dú)立計(jì)算路由每張卡處理不同的數(shù)據(jù)分片（shard

shardE）在Gating計(jì)算過程考慮所有設(shè)備每張卡的樣本可能被其他所有卡計(jì)算，同時(shí)可能接受其他卡的樣本通過全局All2All操作將數(shù)據(jù)放置到對(duì)應(yīng)的設(shè)備同參數(shù)量的模型，效果不如混合并行策略的模型（序號(hào)代表Gating后適合放置的卡；顏色表示當(dāng)前所在的卡）Device

0 01230000Device

1 0123All2All1111Device

201232222Device

301233333并行策略實(shí)戰(zhàn)

——

飛槳4D混合并行訓(xùn)練飛槳

混合并行框架高效流水并行編排策略參與節(jié)點(diǎn)張量并行機(jī)內(nèi)8卡AllReduceSharding 機(jī)內(nèi)8卡Broadcast流水并行多機(jī)一組，機(jī)間同號(hào)卡P2P通信數(shù)據(jù)并行多組數(shù)據(jù)并行（多機(jī)一個(gè)單元）大模型，堆疊Transformer

層，天然適合切分豎切按

Transformer層切分，稱為流水線并行（PP）橫切Transformer

層內(nèi)大MatMul

切分，

稱為模型并行（MP）縱向擴(kuò)展將訓(xùn)練數(shù)據(jù)切分加速訓(xùn)練，稱為數(shù)據(jù)并行（DP）模型切分模型參數(shù)分組，減少顯存占用（Sharding）豎切、橫切、縱向擴(kuò)展千億模型訓(xùn)練配置硬件資源

——

大模型訓(xùn)練對(duì)算力和通信的需求切分方式通信操作通信量（單卡）通信卡數(shù)計(jì)算時(shí)間對(duì)集群的需求模型并行（MP）AllReduce百

GB/PP

數(shù)量單機(jī)

卡秒級(jí)機(jī)內(nèi)高速互聯(lián)流水并行（PP）Send

/RecvMB

級(jí)別多機(jī)

卡秒級(jí)P2P

低延遲數(shù)據(jù)并行（DP）AllReduceGB

級(jí)別全部卡，分多組十秒級(jí)高吞吐

AllReduce參數(shù)分組（Sharding）Broadcast

/AllGather百

GB/PP

數(shù)量單機(jī)

卡秒級(jí)機(jī)內(nèi)高速互聯(lián)專家并行（MoE）All2All百

GB百卡秒級(jí)高集群整體網(wǎng)絡(luò)吞吐預(yù)估：1750

億參數(shù)、3000

億詞語、1024

卡

A100，需要

天訓(xùn)練單機(jī)硬件選型算力高、機(jī)內(nèi)多卡通信能力強(qiáng)機(jī)內(nèi)拓?fù)湓O(shè)計(jì)GPU顯存8x

NVIDIA

A100

80GB80GB

*8NVSwitch6CPU2S/4S網(wǎng)卡存儲(chǔ)性能8個(gè)端口

200Gb/s4T

NVME

SSD5

petaFLOPS

FP16機(jī)內(nèi)互聯(lián)134GB/s

(AllReduce算法帶寬)集群網(wǎng)絡(luò)設(shè)計(jì)大模型集群可達(dá)萬卡級(jí)別，單作業(yè)千卡；兼顧P2P延遲和通信吞吐AI訓(xùn)練中網(wǎng)絡(luò)側(cè)最多的流量是同號(hào)卡AllReduce操作8導(dǎo)軌優(yōu)化的三層CLOS架構(gòu)最大可支撐16000卡規(guī)模，目前IB盒式組網(wǎng)最大規(guī)模結(jié)合網(wǎng)絡(luò)流量特點(diǎn)，重點(diǎn)優(yōu)化同號(hào)卡AllReduce操作20臺(tái)機(jī)器為一組（Unit）一組機(jī)器有8臺(tái)TOR組成，分別連接20臺(tái)機(jī)器對(duì)應(yīng)變化的GPU網(wǎng)卡多組Unit間的同號(hào)卡通過Leaf層連接，支持最大400卡AllReduce互聯(lián)異號(hào)GPU網(wǎng)卡通過Spine層連接，使能異號(hào)卡網(wǎng)絡(luò)通信網(wǎng)絡(luò)帶寬更充足節(jié)點(diǎn)間跳步數(shù)更穩(wěn)定與Dragonfly、Torus拓?fù)浔容^的優(yōu)勢(shì)03軟硬件結(jié)合的聯(lián)合優(yōu)化AIAK-OP(代碼自動(dòng)Th成)基礎(chǔ)算子庫(如cuDNN)TVMFastDeployGraph

CaptureGraph

OptimizerGraph

ConverterAbstract

Backend

LayerTensorRT基于靜態(tài)圖的多后端加速架構(gòu)圖接入：框架動(dòng)態(tài)圖到靜態(tài)圖捕獲組件后端抽象：支持多后端接入，提供基于計(jì)時(shí)的選優(yōu)能力圖優(yōu)化：通用圖優(yōu)化(DCE、CSE)、重點(diǎn)算子融合圖轉(zhuǎn)換：將聚類后的圖轉(zhuǎn)換為后端表示、加速算子庫使能多后端：兼容手寫+編譯的多種后端，提供可擴(kuò)展后端抽象算子庫：針對(duì)典型模型結(jié)構(gòu)專門優(yōu)化；基于Cutlass模塊化算子Th成；基于TVM算子自動(dòng)編譯優(yōu)化大模型加速

——

圖接入AI框架提供一系列API進(jìn)行模型圖描述，按圖執(zhí)行時(shí)機(jī)分為動(dòng)態(tài)圖與靜態(tài)圖靜態(tài)圖：先定義后執(zhí)行（define

and

run）動(dòng)態(tài)圖：圖構(gòu)建與計(jì)算執(zhí)行同時(shí)發(fā)Th（define

run）*abc專有API構(gòu)建圖、異步執(zhí)行整圖執(zhí)行前無法獲取值，難開發(fā)、難調(diào)試執(zhí)行器有整圖信息，有較好的性能優(yōu)化空間只定義Session(執(zhí)行器)整圖輸入、執(zhí)行實(shí)際執(zhí)行每執(zhí)行一條Python語句就立即求值（異步）中間計(jì)算結(jié)果可隨時(shí)獲取，容易開發(fā)與調(diào)試執(zhí)行器每次只看到一個(gè)小操作，不易優(yōu)化性能*c立即計(jì)算c立即創(chuàng)建bb立即創(chuàng)建aa動(dòng)態(tài)圖易于開發(fā)調(diào)試，靜態(tài)圖易于優(yōu)化執(zhí)行，算法工程師更加喜好動(dòng)態(tài)圖框架（如PyTorch）各取所長，動(dòng)態(tài)圖與靜態(tài)圖融合能否使用易用的動(dòng)態(tài)圖開發(fā)，再通過靜態(tài)圖優(yōu)化執(zhí)行？路線一：基于Python

AST的靜態(tài)轉(zhuǎn)換Python源碼PythonAST靜態(tài)圖IR表示PythonParserCodegen靜態(tài)代碼分析，從Python

AST入手將Python

AST中的函數(shù)調(diào)用轉(zhuǎn)換為靜態(tài)圖操作Python語言靈活性導(dǎo)致靜態(tài)分析無法理解語義例如，靜態(tài)分析無法推斷動(dòng)態(tài)類型又如，靜態(tài)分析無法推斷range范圍只適用于無動(dòng)態(tài)類型的簡單代碼路線二：Tracing

Symbolic

Tracing特殊結(jié)構(gòu)a 特殊結(jié)構(gòu)bif(a>10) trace后+ *c從執(zhí)行過程入手，構(gòu)造特殊結(jié)構(gòu)，動(dòng)態(tài)追蹤捕獲特殊結(jié)構(gòu)兼容Tensor接口，并能記錄執(zhí)行的操作實(shí)際執(zhí)行圖，執(zhí)行結(jié)束后，回放記錄，形成靜態(tài)圖對(duì)于依賴輸入的分支、循環(huán)結(jié)構(gòu)，存在安全性問題例如上圖的if節(jié)點(diǎn)結(jié)果就只保留加法的一枝只適合于分支、循環(huán)條件不依賴輸入數(shù)據(jù)的代碼a+cbPython語言的靈活性使得動(dòng)態(tài)圖完整轉(zhuǎn)換靜態(tài)圖成為（現(xiàn)階段）不可能完成的任務(wù)加速方案

——

基于AST的代碼替換用戶無感的發(fā)現(xiàn)問題模式，替換為可trace、可編譯的語義等價(jià)代碼基于Python

AST的模式匹配與替換；通用方案，也可用于算子融合用戶源碼目標(biāo)模式替換模式………………..……XXXX…..……YYYY…..………………..Source

Matcher

ReplacerSource

AST Pattern

ASTTree

Pattern

MatchingSubtree

Replacer優(yōu)化后源碼………………..…WWW…..…HHHH…..………………..………………..社區(qū)方案

——

TorchDynamo擁抱Python，部分捕獲，不支持的結(jié)構(gòu)fallback回Python語法基于Python

Frame

Evalution

API，在Python

Bytecode層面做劫持if(a>10)a+b*cif(a>10)+a b*c子圖1，在Python執(zhí)行子圖2，由后端加速子圖3，由后端加速社區(qū)在7500+模型上驗(yàn)證捕獲可行性與安全性，隨PyTorch

2.0發(fā)布后端加速

——

計(jì)算執(zhí)行時(shí)間分析子圖執(zhí)行時(shí)間

算子求和(kernel

launch時(shí)間

訪存時(shí)間

計(jì)算時(shí)間)時(shí)間線算子1發(fā)起算子1計(jì)算kernel

launchSharedMemoryGPU設(shè)備Global

Memory計(jì)算單元GlobalMemory訪存時(shí)間訪存時(shí)間計(jì)算時(shí)間數(shù)據(jù)流數(shù)據(jù)流數(shù)據(jù)流算子2發(fā)起算子2計(jì)算計(jì)算加速

——

算子融合融合收益來源：去掉kernel

launch時(shí)間，提升計(jì)算密度，減少額外訪存算子對(duì)單位數(shù)據(jù)上進(jìn)行的計(jì)算次數(shù)，定義為計(jì)算密度按計(jì)算密度根據(jù)roofline模型可以分為計(jì)算密集型和訪存密集型GEMM通常為計(jì)算密集型算子，Elementwise通常是訪存密集型算子期望的目標(biāo)是所有算子都是計(jì)算密集型，可以充分利用算力計(jì)算密集型+訪存密集型算子，訪存密集型算子之間可以進(jìn)行融合batch

GEMM

KSoftmaxbatch

GEMM

VTransposeFusedMHA融合算子舉例：Multihead

Attention

(MHA)計(jì)算密集與訪存密集交錯(cuò)，適合融合其他重要融合模式：模型方向算子模式NLP Fused

MHA,

SkipLayerNorn…VISAdaptiveLin,

YoloBox,

…通用Conv+BN+(Mish

Gelu),

GEMM

GEMM,

GEMM

BN,Conv3x3

Conv1x1,

Conv1x1

HardSiLU,

Conv

+Reshape

Transpose

Softmax,…計(jì)算加速

——

算子實(shí)現(xiàn)優(yōu)化核心問題：是如何將計(jì)算邏輯與芯片架構(gòu)匹配，最大化計(jì)算單元使用，降低訪存損耗計(jì)算邏輯芯片架構(gòu)方案一：手寫算子如cuBLAS、cuDNN芯片廠商閉源實(shí)現(xiàn)指令級(jí)極致優(yōu)化主要限制：支持的操作有限且不支持二次開發(fā)方案三：基于搜索的優(yōu)化如Halide、TVM計(jì)算與調(diào)度分離計(jì)算描述操作、調(diào)度進(jìn)行實(shí)現(xiàn)優(yōu)化易于Th成高性能長尾算子主要問題：搜索空間大，搜索不一定找到最優(yōu)解方案二：半自動(dòng)化模板如CUTLASS按芯片架構(gòu)抽象切分循環(huán)模式開源實(shí)現(xiàn)，可擴(kuò)展可參數(shù)化調(diào)優(yōu)主要限制：適用于解決計(jì)算密集型算子三種方案各有優(yōu)劣，實(shí)踐中通常三者并存，按計(jì)時(shí)選擇最佳性能實(shí)現(xiàn)RoCE網(wǎng)絡(luò)下交換機(jī)無收斂比，仍然可能發(fā)Th網(wǎng)絡(luò)側(cè)流量沖突通信優(yōu)化

—

交換機(jī)哈希沖突32節(jié)點(diǎn)30次AllReduce測(cè)試總線帶寬通信優(yōu)化

—

交換機(jī)哈希沖突根本原因：基于四元組的選路方式RoCE基于以太網(wǎng)四元組哈希選擇路徑當(dāng)點(diǎn)對(duì)點(diǎn)有多路徑可達(dá)時(shí)，可能出現(xiàn)多連接搶占同一鏈路鏈路爭搶收集本次集合通信所有連接源IP、目的IP、目的端口信息針對(duì)每一組連接調(diào)整源端口，進(jìn)行traceroute路徑探測(cè)，獲取所有物理鏈路（拓?fù)涮綔y(cè)）目標(biāo)每條物理鏈路上連接數(shù)最少，貪心算法，確定連接目的端口將每條連接的目的端口下發(fā)，初始化過程中建連我們的解決方案：哈希選路四元組中源端口可調(diào)，利用這一特性在建連前靜態(tài)分配物理鏈路（源IP，源端口，目的IP，目的端口）在IB協(xié)議中，也可以使用Adaptive

Routing技術(shù)解決選路沖突問題通信優(yōu)化

—

All2All加速All2All加速：通過機(jī)內(nèi)NVLink減輕對(duì)網(wǎng)絡(luò)的壓力Rail-local

All2All在8導(dǎo)軌優(yōu)化的網(wǎng)絡(luò)架構(gòu)下，同號(hào)卡最多3條，但所有異號(hào)卡通信需要經(jīng)過Spine層同號(hào)卡AllReduce操作性能好，但All2All操作對(duì)網(wǎng)絡(luò)壓力較大優(yōu)化思路是通過機(jī)內(nèi)高性能NVLink中轉(zhuǎn)網(wǎng)絡(luò)請(qǐng)求，從而將異號(hào)卡通信轉(zhuǎn)換為同號(hào)卡通信，充分利用8導(dǎo)軌優(yōu)勢(shì)如右圖所示，A節(jié)點(diǎn)的GPU

0先經(jīng)過NVLink到GPU

3，再發(fā)往B節(jié)點(diǎn)GPU

3(NCCL

2.12+)All2All性能提升（%)123.59%107.98%109.66%116.17%107.75%170.40%1.10.91.31.71.51.9243264通信卡數(shù)8 16歸一化后收益8導(dǎo)軌優(yōu)化下，同號(hào)卡最多經(jīng)過Leaf層，異號(hào)卡通信需要經(jīng)過Spine層通信優(yōu)化

——

使能InfinibandSHARP：網(wǎng)絡(luò)中的計(jì)算，提升AllReduce性能現(xiàn)有AllReduce操作通常使用GPU卡通過通信算法實(shí)現(xiàn)常見的算法有Ring和Tree無論哪種實(shí)現(xiàn)算法，都需要多卡間多次數(shù)據(jù)傳輸SHARP將計(jì)算能力卸載到交換機(jī)上，在數(shù)據(jù)傳輸中完成計(jì)算核心優(yōu)勢(shì)：通信次數(shù)從O(logn)降低到O(1)單次數(shù)據(jù)流即可完成，算法帶寬翻倍GPU計(jì)算單元釋放，提升計(jì)算、通信并行度AllReduce算法帶寬(GB/s)1201008060402002卡16卡4卡無SHARP8卡啟用SHARP算法帶寬翻倍通信延遲更穩(wěn)定端到端自動(dòng)化任務(wù)切分與放置關(guān)鍵問題通信策略、異構(gòu)硬件共同導(dǎo)致手動(dòng)任務(wù)切分很難找到最優(yōu)解A100NodeA100 … A100Node Node算力、顯存、通信描述模型代碼物理集群網(wǎng)絡(luò)層級(jí)、能力描述RoCE網(wǎng)絡(luò)如何放置？目前基于專家經(jīng)驗(yàn)進(jìn)行切分多種模型切分策略端到端自動(dòng)化任務(wù)切分與放置核心解法：構(gòu)建計(jì)算、通信的cost

model，基于cost

model搜索優(yōu)

人人文庫> 全部分類> 行業(yè)資料 > 信息產(chǎn)業(yè)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2024年大模型時(shí)代的異構(gòu)計(jì)算平臺(tái)報(bào)告

文檔簡介

溫馨提示

最新文檔

評(píng)論

2024年大模型時(shí)代的異構(gòu)計(jì)算平臺(tái)報(bào)告

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔