算網(wǎng)一體及其網(wǎng)絡(luò)技術(shù)問題探索_第1頁
算網(wǎng)一體及其網(wǎng)絡(luò)技術(shù)問題探索_第2頁
算網(wǎng)一體及其網(wǎng)絡(luò)技術(shù)問題探索_第3頁
算網(wǎng)一體及其網(wǎng)絡(luò)技術(shù)問題探索_第4頁
算網(wǎng)一體及其網(wǎng)絡(luò)技術(shù)問題探索_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

算網(wǎng)一體及其網(wǎng)絡(luò)技術(shù)問題探索孫滔中國移動研究院2023.10目 錄

01 算力網(wǎng)絡(luò)及算網(wǎng)一體

02 幾個網(wǎng)絡(luò)問題探索

03 智算DSN展望2算力網(wǎng)絡(luò)——迎接智算時代3端側(cè)算力20ms骨干時延圈樞紐算力省級/區(qū)域算力城市邊緣算力樞紐算力5m省域時延圈1ms地市時延圈中國移動呼和浩特智算中心,

總能力將達到5

.

8

EFLOPS,

萬片級AI加速芯片單位/EFLOPS2022年報2023半年報89.4我國數(shù)據(jù)中心規(guī)模近五年年均增速達到近30%;截至2023年8月,我國在用標準機架超過760萬架,算力總規(guī)模達197EFLOPS,位居全球第二(工信部

2023.10世界5G大會)中國移動對外可用IDC機架47.8萬架,累計投產(chǎn)算力服務(wù)器超80.4萬臺,算力規(guī)模達到9.4EFlops(半年報2023.8

)2022年2月,“東數(shù)西算”工程正式全面啟動,8個國家算力樞紐節(jié)點,規(guī)劃10個國家數(shù)據(jù)中心集群算力網(wǎng)絡(luò)從未來網(wǎng)絡(luò)的技術(shù)名詞成為產(chǎn)業(yè)發(fā)展的旗幟,打造“1-5-20ms”三級算力時延圈 連續(xù)兩年財報公布算力規(guī)模 建設(shè)亞洲最大單體智算中心哪些“東數(shù)”要“西算”?4數(shù)據(jù)傳輸不敏感時延短視頻、電子游戲、網(wǎng)絡(luò)即時通信等時延敏感應(yīng)用,異地計算無法保障用戶體驗。不頻繁數(shù)據(jù)交互西部 東部HPC天氣預(yù)報等計算過程中不需要頻繁交互的應(yīng)用,可以異地計算。當前,大模型訓(xùn)練往往是同一數(shù)據(jù)中心內(nèi)跨框跨機架訓(xùn)練,不會涉及跨數(shù)據(jù)中心聯(lián)合訓(xùn)練大模型訓(xùn)練通信需求訓(xùn)練過程中的數(shù)據(jù)同步延遲可能導(dǎo)致整體訓(xùn)練流程停滯模型規(guī)模擴大造成通信量劇烈增長,需提供充足的網(wǎng)絡(luò)帶寬例如,在100Gbps網(wǎng)絡(luò)下,在16

GPU之間執(zhí)行128MB

AllReduce需要至少消耗5ms;數(shù)據(jù)量進一步增加,理論傳輸時間會等比例上升。是否存在一個量化的指標,來指導(dǎo)“東數(shù)西算”仍然是待研究的問題中電聯(lián)《中國電力行業(yè)年度發(fā)展報告2023》報告顯示2022年全國電力傳輸線損率4.82%量化指標東數(shù)西算協(xié)同調(diào)度,需要考慮多種因素,如業(yè)務(wù)需求、時延、成本、能效等。F=A1Delay+A2Cost+A3Energy+...大模型訓(xùn)練方式張量并行:將單個數(shù)學(xué)運算拆分到不同的

GPU

上運行流水線并行:在不同

GPU

上運行模型的不同層數(shù)據(jù)并行:在不同

GPU

上運行不同的

batchdata[1]

Jaeyong

Song,

Jinkyu

Yim,

Jaewon

Jung,

Hongsun

Jang,

Hyung-Jin

Kim,

Youngsok

Kim,

Jinho

Lee,

2023,

Optimus-CC:

Efficient

Large

NLP

Model

Training

with

3D

Parallelism

Aware

Communication

Compression,

/pdf/2301.09830.pdf端、邊、云協(xié)同主要包括資源層面和服務(wù)層面的協(xié)同,不同協(xié)同模式在實際應(yīng)用時均會面臨挑戰(zhàn)端邊云協(xié)同是工程領(lǐng)域的難題④需找到開銷和性能提升的平衡點,目標場景仍需明確協(xié)同帶來了性能提升的同時也引入了額外的開銷等,需進一步量化分析開銷,尋求性能提升和開銷的均衡點需仔細論證現(xiàn)有研究假設(shè),如端側(cè)、邊側(cè)資源不足需要協(xié)同或云側(cè)提供服務(wù)無法滿足時延需求等問題在現(xiàn)網(wǎng)中的實際情況,避免“為了協(xié)同而協(xié)同”,需繼續(xù)明確協(xié)同場景③對網(wǎng)絡(luò)提出了新的需求,網(wǎng)絡(luò)需增強服務(wù)能力同一個服務(wù)分散部署在端、邊、云不同位置的服務(wù)流量特點不同,需提供差異化的網(wǎng)絡(luò)服務(wù)協(xié)同拉長了服務(wù)提供環(huán)節(jié),任一個環(huán)節(jié)的狀態(tài)變化都需要網(wǎng)絡(luò)靈活反應(yīng),對網(wǎng)、端、邊、云的融合與協(xié)同提出新需求,保障服務(wù)一致性和穩(wěn)定性;且有隱私性和安全性問題②服務(wù)協(xié)同需要改動已有服務(wù)支持服務(wù)分解,但服務(wù)改動驅(qū)動力不足協(xié)同將單個服務(wù)分解為多個子服務(wù)分散部署,對服務(wù)提出新需求缺乏協(xié)同對服務(wù)性能提升的有效量化機制,服務(wù)側(cè)改動現(xiàn)有機制的驅(qū)動力不足需均衡考慮協(xié)同各參與方的目標訴求,在提升性能的同時均衡各方訴求,以驅(qū)動服務(wù)協(xié)同①協(xié)同調(diào)度需要獲取端、邊、云的狀態(tài)信息,跨域、跨主體信息獲取難度大端、邊、云分屬不同信息域,信息域內(nèi)存在不同資源供給主體打破不同信息域的信息邊界缺乏需求驅(qū)動,缺乏實際機制屏蔽差異性統(tǒng)一獲取狀態(tài)信息如即便在云計算信息域內(nèi),存在多家大中型云計算提供商,且信息不互通,難以實現(xiàn)跨資源供給主體的協(xié)同調(diào)度5算網(wǎng)一體——算力網(wǎng)絡(luò)技術(shù)發(fā)展的方向6趨勢:網(wǎng)絡(luò)和計算需要一體化統(tǒng)籌考慮業(yè)務(wù):網(wǎng)絡(luò)和計算時延需求趨于同一數(shù)量級(<=10ms)計算:大規(guī)模分布式計算等的通信問題成為瓶頸網(wǎng)絡(luò):從連接主機(互聯(lián)網(wǎng))向連接算力(算力網(wǎng)絡(luò))轉(zhuǎn)變優(yōu)勢:算網(wǎng)一體化可以提升系統(tǒng)整體性能和資源利用率通過泛在、平臺化網(wǎng)絡(luò)連接計算資源孤島,提升資源利用率通過網(wǎng)絡(luò)和計算因子的深度融合和一體化調(diào)度,實現(xiàn)低成本和高性能兼具核心問題匹配的協(xié)議:大量數(shù)據(jù)如何長距離高吞吐傳輸,東數(shù)如何西送?優(yōu)化的路由:網(wǎng)絡(luò)資源與計算資源的協(xié)同選擇,業(yè)務(wù)在邊邊/邊云之間調(diào)度高效的計算:能否網(wǎng)中算,如高性能計算能否卸載在網(wǎng)內(nèi)?目 錄

01 算力網(wǎng)絡(luò)及算網(wǎng)一體

02 幾個網(wǎng)絡(luò)問題探索

03 智算DSN展望71.

如何設(shè)計匹配的協(xié)議?(1/2)數(shù)據(jù)量在TB/PB級別天文觀測:TB~PB/次基因測序:TB~100TB/次影視渲染:10TB~100TB/節(jié)目屬于長肥網(wǎng)絡(luò)(LFN)RFC1323,大BDP網(wǎng)絡(luò)傳輸帶寬:>10Gbps傳輸時延:20ms~50ms網(wǎng)絡(luò)復(fù)雜多樣,無法完全無損鏈路層誤碼率不可避免大象流負載不均,存在擁塞丟包多流競爭,存在微突發(fā)丟包傳統(tǒng)TCP協(xié)議在廣域數(shù)據(jù)傳輸中吞吐受限,有效吞吐與鏈路時延、丟包率成反比多流傳輸使得單流吞吐下降,且受主機CPU性能限制,同樣存在吞吐瓶頸智算、超算業(yè)務(wù)對廣域數(shù)據(jù)傳輸提出新的要求,在有損長肥網(wǎng)絡(luò)中高效傳輸海量數(shù)據(jù)科學(xué)計算、影視制作,云間災(zāi)備等亟需廣域超高吞吐傳輸單流傳輸時,時延由1ms增加到10ms時,吞吐下降約10倍1.22*MSSTCP網(wǎng)絡(luò)吞吐

=

——————RTT*

Sqrt(L)RFC3649:HighSpeedTCPforLargeCongestion

Windows81.

如何設(shè)計匹配的協(xié)議?(2/2)廣域高通量網(wǎng)絡(luò)云PE

云PE超算中心數(shù)據(jù)源(私有云/公有云)RoCE智算中心數(shù)據(jù)源(存儲卡/磁盤)

協(xié)議優(yōu)化新型多路

快速擁塞徑傳

丟包控制輸

恢復(fù)端網(wǎng)協(xié)同的廣域高吞吐網(wǎng)絡(luò)協(xié)議體系 貴州到北京數(shù)據(jù)快遞測試貴州FAST北京國家天文臺傳輸距離遠:約2200km鏈路時延長:RTT約45ms鏈路帶寬大:10Gbps網(wǎng)絡(luò)類型復(fù)雜:云專網(wǎng)、傳輸網(wǎng)、城域網(wǎng)、DC網(wǎng)絡(luò)長肥管道傳統(tǒng)TCP協(xié)議單流435MbpsRoCE協(xié)議優(yōu)化單流7.36GbpsRoCE協(xié)議優(yōu)化是傳統(tǒng)TCP協(xié)議吞吐的16倍數(shù)據(jù)傳輸測試結(jié)果4個關(guān)鍵技術(shù),實現(xiàn)廣域高效數(shù)據(jù)傳輸①端側(cè)RoCE協(xié)議優(yōu)化,消除端側(cè)吞吐瓶頸②新型擁塞控制算法,提升網(wǎng)絡(luò)有效利用率③丟包快速恢復(fù)算法,降低數(shù)據(jù)重傳尾時延④端到端多路徑傳輸,實現(xiàn)帶寬聚合與均衡92.

路由轉(zhuǎn)發(fā)中如何結(jié)合算力信息?(1/3)在路由系統(tǒng)中引入計算因子,實現(xiàn)網(wǎng)絡(luò)和計算的聯(lián)合調(diào)度優(yōu)化——算力路由問題:在對網(wǎng)絡(luò)和計算都有高要求的場景中,算網(wǎng)的協(xié)同調(diào)度仍存在待優(yōu)化的空間AR/VR

時延需要低于20ms保障用戶體驗,包括:傳感器采樣延遲:<1.5ms(客戶端)顯示刷新延遲:≈7.9毫秒(客戶端)GPU的幀渲染計算延遲≈5.5ms(服務(wù)器)網(wǎng)絡(luò)延遲(預(yù)算)=20-1.5-7.9-5.5=5.1ms(網(wǎng)絡(luò))觀察1:計算延遲和網(wǎng)絡(luò)延遲在同量級僅根據(jù)負載選擇邊緣站點1,總延遲≈22.4ms僅根據(jù)網(wǎng)絡(luò)選擇邊緣站點2,總延遲≈23.4ms根據(jù)兩者選擇邊緣站點3,總延遲≈19.4ms觀察2:僅根據(jù)網(wǎng)絡(luò)或計算資源狀態(tài),找不到最佳服務(wù)器實例結(jié)論:需要同時考慮網(wǎng)絡(luò)和計算資源狀態(tài),將流量動態(tài)引導(dǎo)到適當?shù)姆?wù)節(jié)點IETF立項文稿:draft-ietf-cats-usecases-requirements技術(shù)路徑分析當前缺乏將計算資源與網(wǎng)絡(luò)狀態(tài)相結(jié)合以決定最優(yōu)路徑和節(jié)點的方案?,F(xiàn)有的解決方案通常為off-path,如DNS、ALTO或L4/L7負載均衡,查詢地址/狀態(tài)的時延隨著協(xié)議層的升高而升高!L4

SchedulerL7

SchedulerUpperL7Scheduler重定向數(shù)據(jù)庫查詢L3

CATS隨路調(diào)度10結(jié)論:算力路由將具備更高的性能IETF文稿:draft-draft-yao-cats-gap-analysis2.

路由轉(zhuǎn)發(fā)中如何結(jié)合算力信息?(2/3)算力路由在路由系統(tǒng)引入計算信息,是對傳統(tǒng)互聯(lián)網(wǎng)設(shè)計理念的挑戰(zhàn)技術(shù)方向:自適應(yīng)的算力通告提出分域通告、分類通告,約束算力信息更新的范圍,減少算力信息的無效通告通過仿真建模量化分析算力信息通告信令開銷的影響,得到通告信令開銷與路由調(diào)度成功率的最優(yōu)解技術(shù)方向:新型算網(wǎng)多因子算路算法構(gòu)建算力路由信息表(CA-RIB),考慮距離因子、算力因子以及權(quán)重,生成算網(wǎng)cost=w1*網(wǎng)絡(luò)cost+w2*算力cost挑戰(zhàn)3:多維路由選址在距離矢量上疊加算力向量,改變了傳統(tǒng)選路方法,簡單疊加將導(dǎo)致路由不收斂挑戰(zhàn)2:算力感知和通告通告頻率越高,算力信息越實時,但開銷越大,如何找到通告信令開銷與信息實時性的平衡點挑戰(zhàn)1:算力建模和度量算力信息維度較多,需要定義面向路由的高可用性計算信息,兼顧報文封裝成本以及可用性技術(shù)方向:簡單高效的算力信息封裝統(tǒng)一量綱,使用與網(wǎng)絡(luò)和業(yè)務(wù)相同的度量維度信息,應(yīng)用于路由調(diào)度,例如通過BGPPath

Attribution擴展封裝計算時延信息112.

路由轉(zhuǎn)發(fā)中如何結(jié)合算力信息?(3/3)12已經(jīng)完成場景和需求立項,即將推動面向AI大模型的場景寫入項目標準基于CATS的分布式推理 基于CATS+AI的內(nèi)容獲取AI-basedMediaDistribution

andTraffic

Steering中國移動在IETF發(fā)起成立算力路由工作組(CATS,

Computing-Aware

Traffic

Steering)推動CATS架構(gòu)立項Ingress

CATS-Router:CATS

Traffic

Classifier(C-TC):

區(qū)分是否是CATS流量,決定服務(wù)節(jié)點CATS

Path

Selector

(C-PS):選擇網(wǎng)絡(luò)轉(zhuǎn)發(fā)路徑Egress

CATS-Router:CATS

Network

MetricAgent(C-NMA):收集和分發(fā)網(wǎng)絡(luò)指標CATS

Service

MetricAgent(C-SMA):

收集和分發(fā)服務(wù)和計算指標CATS-control

center:CATS

Computing

information

Base(C-CIB):維護細粒度的計算信息CATSNetwork

Metric

information

Base(C-NIB):維護細粒度的網(wǎng)絡(luò)信息CATS

Path

CalculationUnit(C-PCE):計算最合適的網(wǎng)絡(luò)路徑和選擇服務(wù)節(jié)點CATS-SBI

interface:CATS-controlcenter與CATS-Router的接口/wg/cats/document/數(shù)據(jù)中心多節(jié)點之間聯(lián)合推理,基于CATS完成高效地計算和調(diào)度任務(wù)阿里:draft-an-cats-usecase-ai12多邊緣計算節(jié)點同時提供內(nèi)容獲取服務(wù),基于CATS完成智能化的多媒體內(nèi)容獲取和調(diào)度BBC:

ai4me.surrey.ac.uk3.

如何高效的算?手段:引入在網(wǎng)計算實現(xiàn)AI集群計算性能躍升單次聚合時延單次同步時延與傳統(tǒng)軟件實現(xiàn)特定集合通信操作相比,Infiniband

在網(wǎng)計算SHARP方案性能提升近5-9倍考慮基于開放Ethernet設(shè)計在網(wǎng)計算架構(gòu),優(yōu)化應(yīng)用處理邏輯,為系統(tǒng)算效提升帶來質(zhì)變在網(wǎng)計算主要優(yōu)勢壓縮流量縮短傳輸路徑優(yōu)化通信模式需求:大規(guī)模AI計算集群通信瓶頸問題顯著帶寬資源占用高千億參數(shù)大模型基于MoE并行模式訓(xùn)練,單機單輪次Allreduce流量達數(shù)10GB,占用大量帶寬資源【1】【1】DeepSpeed-MoE:AdvancingMixture-of-ExpertsInferenceandTrainingto

PowerNext-GenerationAIScale數(shù)據(jù)遷移成本大大模型約37%的運行時間消耗于訪存算子【2】,計算節(jié)點間存在大量數(shù)據(jù)搬運【2】DataMovementIsAllYouNeed:ACaseStudyonOptimizingTransformers通信模式不匹配進程間多對一、一對多及多對多的通信在計算節(jié)點間以單播實現(xiàn),物理網(wǎng)絡(luò)存在大量冗余信息133.

如何高效的算?在網(wǎng)計算改變互聯(lián)網(wǎng)數(shù)據(jù)傳輸模式,從“端到端”到“端網(wǎng)端”數(shù)據(jù)包轉(zhuǎn)發(fā)消息處理傳統(tǒng)網(wǎng)絡(luò)設(shè)備 在網(wǎng)計算設(shè)備數(shù)據(jù)包轉(zhuǎn)發(fā)主機應(yīng)用傳輸層網(wǎng)絡(luò)層IB、TCP/IP鏈路層IB

Link、Eth主機應(yīng)用傳輸層網(wǎng)絡(luò)層IB、TCP/IP鏈路層IB

Link、Eth13Message2Packet操作管理內(nèi)存管理拓撲管理鏈路狀態(tài)計算原語4理念轉(zhuǎn)型4

拓撲感知+在網(wǎng)計算1

“端網(wǎng)端”可靠性2

消息-報文語義映射3

應(yīng)用-IP一發(fā)多收機制TCP、QUIC等傳輸層可靠性機制面向點到點設(shè)計,難以實現(xiàn)多對一通信可靠性機制進程message傳輸與網(wǎng)絡(luò)packet轉(zhuǎn)發(fā)需要映射匹配,將影響packet組合、buffer管理以及消息收發(fā)速率AI業(yè)務(wù)中集合通信的一發(fā)多收邏輯目前基于點到點IP通信實現(xiàn),需要進一步與IP組播結(jié)合優(yōu)化復(fù)雜網(wǎng)絡(luò)拓撲結(jié)構(gòu)下,拓撲感知算法需要與在網(wǎng)計算相結(jié)合,實現(xiàn)計算任務(wù)網(wǎng)內(nèi)合理分配技術(shù)挑戰(zhàn)/meeting/118/sidemeetings預(yù)告:中國移動將在11月9

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論