面向AI大模型的智算中心網絡演進白皮書_第1頁
面向AI大模型的智算中心網絡演進白皮書_第2頁
面向AI大模型的智算中心網絡演進白皮書_第3頁
面向AI大模型的智算中心網絡演進白皮書_第4頁
面向AI大模型的智算中心網絡演進白皮書_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

面向I大模型的智算中網絡演進白皮書(2023年)目錄前言 3AI務展勢 4工能術展勢 4工能務展勢 6工能策展勢 7AI模對絡需求 8大模網求 8高寬求 9低延抖需求 0高定需求 0絡動部需求 1前絡力與務求差點 1模距析 2寬距析 3定差分析 4延抖差分析 5動能差分析 6對異絡對措 7規(guī)組關技術 7絡備件身進 7網同流改進 9高寬鍵術 0絡用同計放力 0路載衡化術 0功的0G/0G聯案 2高定關技術 2于件快感能力 3于件快收能力 3次的絡障愈力 3低延鍵術 4合訊法網拓協同 4DPU件載 4態(tài)發(fā)延化 5.5動關技術 5結展望 6語義 7略表 7前言人智是字濟核心動AI大型人智的引擎AI大型通過在量據進預能適多下任的型具強的化力自督學習能精突性其經自語處計機覺氣預等個域得了令矚的大型發(fā)是勢趨未將助數經為能升帶新式。近隨著haGPT等成人智AIGC的飛進全范內經濟價值計達數億美尤在國場生式AI的用模望在2025年破2000億元。這一巨大的潛力不僅吸引著業(yè)內領軍企業(yè)競相推出萬億、10萬億參數量級別的大模而對層GU支規(guī)提了高要達了卡別。然如滿如此龐規(guī)的練對絡規(guī)性可性穩(wěn)性方提了所有挑。以GT3.5為例,其訓練過程依賴于微軟專門建設的AI超算系統(tǒng),由1萬個V100GU組成高能絡群總算消約為3640-das在種況尋提極高性網已為工能域重研方之。本皮將從AI業(yè)發(fā)的程發(fā)深研大型網能的求,分當前網與務求差并索絡術展勢彌這差我希望通本皮的究分,未面向AI模的能算心絡展供益參和示。本皮中移研院牽編聯編單華技有公司銳網股份限思倫信北有公中通股有公上云芯科技限星智科有公中馭數(北)科有公博公是科技中)限司京禹芯技限司本皮的權中移研院并法保轉摘或用它式使本皮文或觀的應明源。I趨勢人工智能技術發(fā)展趨勢人工智能(AI)是一種使計算機和機器能夠表現出智能和類似人類思維的能力的技術方論它常括習推、言語識、覺知自化制多領域。自從20世紀50年代,人工智能的研究開始以來,AI已經走了一個漫長的歷程,經歷了許發(fā)與步也歷漫的冬。圖-1工能展間軸符主與家統(tǒng)1956年-1980年AI領的始之約·麥錫在196年提出了“人工智能”這一術語后,AI的符號推理階段就正式開始了。符號推理階段的主發(fā)是立了工能推基這階段們人智中邏進了式,造一稱“理式數表方。聯接主義與機器學習(1980年-2012年),AI開始了一些深度學習和神經網絡方面的探這種術使機器習法行自學和理兩種式1986umehart和cleand的究一加強神網代表連主觀點這志著AI進連主時”。深學2012-2017年,20世紀50年,們始試模人的經,解一計機覺語識問來時間經絡于算雜和解性等題經歷長間的冬直到2012年Hnon等提了深學中一新神經網絡結構-卷積神經網絡,并在maeNet圖像識別競賽中獲得了顯著的成果。卷積神經網絡有大意推了算視和度習發(fā)并拓探神網的領。2016基深學的AphaGo勝棋界軍次燃們深學探的情。ansforer模型訓(207年-202年,2017年谷發(fā)布論AenionIsAluNeed》,asforer模型引入了一種新的機制——注意力機制(Aenion),用于學習不同位置的詞匯之間的關聯關系,從而更好地表征大型語言文本中的語義和詞法關系。在ansforer中,可以使用多頭注意力機制來學習輸入序列中不同的信息,并根據這些信息行類生或他務。ansforer架構多個堆疊的注意力層和饋神經網絡組成,這設計使得它在造型度經絡具巨優(yōu)。注力制決長列入信傳問題,許同置單或號其單或號間生互而好捕序之的依賴這味著asforer可處極的文序而會生度消或炸問。同時ansforer架構有并行計的能力,以同時處理入序列的同部分。樣可以快地練和理型深神經絡,其是使用布計算和GU并計算情況下。于它的特結構和設,ansforer架構合構造大神經網絡由此開啟了度學習大模型代。大模型也被為基礎模型(oundaonode),其通常義為:參數規(guī)較大億級)并用rnsforer結構在大規(guī)模標注語料行自監(jiān)督訓后,可以賦系下任的型。T和GT是兩種最知名的基于ansforers的自然語言處理模型。雖然都是基于ansforers但GT只使用了ansforer的解碼器部分而T使用了雙向ansforer的碼部GT是左右模文確下個測是自下的正而T是雙向建模文本,不僅考慮上下文,還考慮了文本的未來信息。由于建模方式的不同使得GT更用自語生成務如本要對生等而T更用下任務,自語理、本類問系等。2018年10月,Gooe團隊發(fā)布了T模型。2019年7月,華盛頓大學研究團隊在T模上行了進提了oa模型oa采了大的練據集更長的訓練時間,并且修改了模型的ask機制,取得了更好的效果。200年2月,Goole團隊提出了AET模型,這是T模型的一個輕量級變體。AET通過參數共享和跨參連的式少了型同在能與T相甚略提T模經不的進迭,漸為代然言理域的礎標之。2018年,OpenAI團隊發(fā)布了G1,它使用了asforer架構,采用了無監(jiān)督學習的法行訓其標預測一詞該型用了8個ansforer編器和2個ansforer解器層它證明自語言成任中比有效2019年G2被提相比G1G2具更多參數更高預測能力它用了48個ansforer編碼器層和12個ansforer解碼器層,參數數量達到了1.5億個。2020年,OpenAI團隊提出了G3,它是目前最大的語言模型之一,擁有1750億個參數。相比于G2,在生成文的多性準性方都明提升G3采的自歸生方通預下個來成本。haGPT是OpenI公于2022年1月上線一具有時代義大規(guī)智能語言型它用了OpenAI實室開的G35和G4系大型言模型并用了監(jiān)學和化習技進微。體言為讓訓的言型加能準確,以少已注數上行優(yōu)種法使已注數訓一有督策,用于生成從給定的提示列表所需的輸出。標注者們會對T模型輸出結果進行打分,這樣便以建個輸數組的排數集然會該據上行練一個分最使近策優(yōu)進步過分型語模進行整這方法旨提高haGPT生輸時的確和然haGT展的言能令印深刻,具跨代義語模。由于模型巨的參數,需分布計算、GUPU等異技術及種并行式等方式進行訓練與推理。而智算中心網絡用于連接PU、GU、內存等池化異構算力資源,穿據算存全程網性的升提算水具關意。人工智能業(yè)務發(fā)展趨勢國人智研和展面經得許重成,括自駕、器人、語識和然言理等AI能已透行多節(jié)其對式AI產已部分業(yè)入模落階優(yōu)人交形流與能案為業(yè)降增。haGPT出將力話式AI一對業(yè)能。云務供商供三基礎務式為aaSaaS及aaS伴著工智的展,現了工能服(AIaa和型服務(aa)。人工智能即服務,已經成為了中國T行業(yè)的一個關鍵詞。AIaaS為企業(yè)和機構提供了種新商模得們夠加捷獲人智服務時促了工能技的步發(fā)可提供AIaaS的業(yè)量在續(xù)增包如為百阿里和訊等這企在AI領投巨的金人力為行提了品的人智服AIaaS的用域不拓展AI讓統(tǒng)企也夠過數化方創(chuàng)新例金和售領的用工能術使他能更準的行險管理和發(fā)現消費者需求等。隨著AIaaS市場的規(guī)模不斷擴張,越來越多的企業(yè)也紛紛開辟了自的工能務域迫需要AI賦的域括育醫(yī)、智城和能造隨互網人智技的合這領都產諸的的業(yè)式從帶動個業(yè)發(fā)。模型即服務(aaS)是基于云端提供預先訓練好的機器學習模型,無需自己從頭構建和護換話aaS是那需支應程或作流的發(fā)員數科學和業(yè)供先建的型的aaS平方過量據0層基大型,再結合行業(yè)數據訓練1層的行業(yè)模型,用戶通過AI或模型壓縮的方式獲得2層的垂直域型。aaS提商常供過量據訓練優(yōu)的以持定用例圖像自語處理預分和詐測這模用可通過方(AI在部)行用獲推結。種法多好括少發(fā)間成本及低些能有建己模型需源專知的織門此外aaS提商常過供需費定價模型,使擴展變得更加容易。一些aaS提供商包括Amaonaeaker、icrosoftAureachneearnng百文大型華云odeArts。人工智能政策發(fā)展趨勢國直常注工能將列國發(fā)計的先域一過一時國部分發(fā)了項工能規(guī)性政性件標速工能我國發(fā)腳。2017國工部布進一人智產發(fā)三行計201-2020》未三規(guī)性件件出要人智和造深賦作發(fā)基礎全新人智技的規(guī)落作發(fā)重動慧廠發(fā)展我未制業(yè)備爭。2017年7月國務院全新公布了政策性文件《新一代人工智能發(fā)展規(guī)劃》,文件中明確構以工能主究向創(chuàng)機逐提人智的入力養(yǎng)工智全等導方,標快工能我的進步。2018年9國科部出了“新代工能放新平的一名單在單的業(yè)稱“工能家”并數已增至15。2020年8月,國家五大部門聯合發(fā)布了新一代人工智能的建設指引文件《國家新一代人智標體建指文的標指人智的準未需將點作投入數層算層系層等并先既的果用制智交智金、慧防重民行,構人智統(tǒng)的價臺。2023年2月24日國科部員家發(fā)講介國科部經人智能為國戰(zhàn)性興術為濟展催劑家部后將予工能展多策資上支。在剛剛203年的兩會報告中,haGPT(大模型)的人工智能詞匯多次被提及,并且出深產領的心議提,點注據全提產質。I智求從ansforer問至2023年haGPT爆人逐漸識到著模參數模增加,模型的效果越來越好,且兩者之間符合cangaw規(guī)律,且當模型的參數規(guī)模超過數百億后,AI大模型的語言理解能力、邏輯推理能力以及問題分析能力迅速提升。同時,隨著模參規(guī)與能升AI模訓對網的求比傳模也之生化。為足規(guī)訓集高的布計AI大型練程通會含據、水并及量行多并計模同行式均要個算備進集合信另訓過中常用步式需機卡完集通操后可進訓的一迭或計因,在AI大型大模練群,如設高的集組方滿低高吐機通從降多多間據步通耗,提升GU有計時間GU計時間整訓時間對于AI分式練集的效提至重。以將規(guī)帶寬時、穩(wěn)性網部角度析AI大型對網的求。超大規(guī)模組網需求AI應用計算量呈幾何級數增長,算法模型向巨量化發(fā)展,人工智能模型參數在過去十年增長了十萬倍,當前AI超大模型的參數目前已經達到了千億~萬億的級別。訓練這樣的模毫疑需超算力此超模對顯的需頁以1T參模為使用16bt精存首需消耗2B的儲間除之在練程中前向算生激值向算生梯數新要優(yōu)器態(tài)中變均要存且間量單迭中也不增加一使用Adam優(yōu)器訓過峰會產生7倍模型數量中間量。此高顯消耗意味需要十上個GU才完存一模的練程??墒?,僅僅有了大量GU,仍然無法訓練出有效的大模型。合適的并行方式才是提升練率關。前大型要三并方:據行流線行張并行。在千億~萬億級別的大模型訓練時,以上三種并行都會存在。訓練超大模型需要數千GU組成的集群。表面上看,這和云數據中心當前已經達到數萬服務器的互聯規(guī)模相比,還于下。但際,幾節(jié)點的GU互,比萬服器互聯具有戰(zhàn),為網絡能力和計算能力需要高度匹配。云數據中心使用PU計算,網絡需求一般在10Gbps10Gbp并使用統(tǒng)P傳層協議但AI超模型練使用GU訓練算力比PU高幾數量互網絡需在100Gbs400Gbps此使了DMA協來少輸延提網吞。體說數千GPU高能網在絡模有下題要慮規(guī)模RDMA絡到問,如路阻、PFC鎖暴絡能化包更效擁控、載衡術卡接能題單機到件能制如構數千RDMA的QP接網絡拓撲選擇,是傳統(tǒng)FatTree結構更好,還是可以參考高性能計算的Tors,Draonfy組網超高帶寬需求在AI大型練景下機與外集通操將生大的信據量從機內GU通角看以億數規(guī)的AI模為模并產生的AReduce集通信數據量將達到百GB級別,因此機內GU間的通信帶寬及方對于流完成時間十分重要。服務器內GU應支持速互聯協議且其進一避免了GU通信過中依靠PU內存緩數的多拷貝作從機間GU通角度,流線并、數并行張并模式需不的信部集通數將到百GB級且雜集通模將同一刻產多對與對多通信因機間GU的速互對于絡單端帶、節(jié)點的用路量及絡帶提了高另GU與卡通通過Ie總線互聯,CIe總線的通信帶寬決定網卡單端口帶寬能否完全發(fā)揮。以CIe3.0總線(對單向16G秒寬為當間信備200Gbs的端帶時機的絡能無完被用。超低時延及抖動需求數通傳過中生網時由態(tài)延動時兩部構成態(tài)延含據行延備發(fā)延光傳時態(tài)延轉芯的力傳的距離當絡撲通數量定此分延常固而正網性影比大是態(tài)延態(tài)延含交機部隊延丟重時常網絡塞丟引。以1750億數模的G3模訓為從論算型分當態(tài)延從10s提至100us時GU有計時占將低接近10%,網丟率千之一,GU有效計算時間占比將下降13%,當網絡丟包率達到1%時,GU有效計算時間占比將低于5%。如何降低計算通信時延、提升網絡吞吐是AI大模型智算中心能夠充分釋放算力核問。時外絡化素入時抖也訓效產影練程計節(jié)點的集合通信過程一般可以拆解成多個節(jié)點間并行執(zhí)行2P通信,例如N個節(jié)點間ngAReduce集合通信包含2(N-1)次的數據通信子流程,每個子流程中所有節(jié)點均完成2P通信(并行執(zhí)行)才可結束這個子流程。當網絡出現波動時,某兩個節(jié)點間的2P的流完成CT明變長因絡動入的2P通時變可解木效的弱一將導其屬子程完時也之長因網抖導集通的效變,而響到AI模的練率。超高穩(wěn)定性需求ansforer誕生以后,開啟了大模型快速演進的序章。過去5年時間,模型從61M,增長到540B,翻了近1萬倍!集群算力決定了AI模型訓練速度的快慢,單塊V100訓練GP-3要335,1000張V100集,群統(tǒng)美性展要12左時。絡統(tǒng)可性作基來定個群計穩(wěn)性一面網故域大,群一網節(jié)的障能影數個至多計節(jié)的通性低統(tǒng)力的整另方面網性波影大網作集共資相于個算點不容被,性波會致有算源利用都影因在AI大型練務期,持絡穩(wěn)高是其要目,網運帶了的戰(zhàn)。訓任期一發(fā)故能要錯換者性縮的式處故節(jié)一參計的點置生變導當的信式許不最的需通過業(yè)新布調以來升體練效另一網故例靜丟)的生不被期一發(fā)不會致合信率低同還引通庫,成練務時卡大度影訓效率此要過取粒的務吞、包信,障愈耗控在級內。網絡自動化部署需求智無損絡的建往基于DMA協及擁控制制,與之伴隨是一列雜樣的置中一參配錯都能影到務性有能引出些不合期問據統(tǒng)計,超過90%的高性能網絡故障是由配置錯誤導致的問題,現一題主原是卡置數中數量決架版務型網卡類由于AI大型練集規(guī)模進步大置復雜。因高或動化署置夠效升模集系的靠和率動部配需能做多并部配的力動擇塞制制關數及據卡型業(yè)類選擇關置。同在雜架和置件在務行程快準地故定能夠效障體務率動的障測方可快定問準送題管理員另方可減問定成,速位題并出決案。能異點根前的析,AI大型網的求要現規(guī)帶穩(wěn)性時/抖以自化力5個面從前據心絡實際力看完匹配AI大型需在術仍有定差。規(guī)模差距分析AI大型布機器習景的群模常在10K級以,要求規(guī)組網環(huán)下現定高輸能相之,前據心絡在下明不:絡能求約組規(guī)的長單從AI集規(guī)來10+節(jié)規(guī)相于采數中多級OS組架完全可以勝任。但多級OS架構下避免擁塞并維持穩(wěn)定的時延、抖動以及吞吐性能保障卻是當數中網能所具的由于AI網特的量型低、帶利率、少數大象流、同步效應等),傳統(tǒng)數據中心所采用的負載均衡技術(通常使用MP或者AG以微發(fā)對通采較的寬利率留Headroo在場中的力足導致AI務能損從制著AI群規(guī)。??ㄔ醋阒萍?guī)的長DMA技可大幅升信節(jié)之的數訪性并降低PU的荷在A/HPC集中著泛應,是向用發(fā)高能信的底支技而原生DMA協議中通常采用可靠面向連接的傳輸方式,DMA網卡需要為每一個連接維護大量的協議狀,而耗大的上存綜來需占卡存源信主包括:QPonet上文用緩存QP對上文信經值個QP需緩存20B上內容存址譯(TT:部輯址主內物地的射表存護(PT:于地遠端DMA問做權能擁控流狀每個塞制流組會應護組塞制流的態(tài)信以對的速窗數常些據隨部規(guī)的加需更的存間也影大模QP署主因素由在片計有面對的AM空終也有通分到上存類別整規(guī)都會進網的源制網可支的QP對考到大模訓的群,如減少QP需以優(yōu)化QP可持量當迫需解的問。塞制法力足限集規(guī)的要素根據AI大型練組規(guī)需,網中通節(jié)可數卡模且練程中含種行通數模呈多互通“大的性而前絡的交容與存間易生絡塞丟問當前oE2網中常的塞控制算法為DQCN算法,該算法在在10+節(jié)點級的AI大模型網絡中存在明顯的性能不問,要含下3點: 流控調參復雜度高:主流的擁塞控制算法都基于啟發(fā)式算法,涉及眾多的算法參數的置調同數組對定理絡業(yè)的能響較參的雜在AI大型絡顯尤突出進成制網規(guī)的重因以型的DQCN算為實生系中算參的整涉及Apha因更降階升階段以及擁塞通知等15+算法參數的設置。此外網絡設備側的參數含N/C水線、QoS策等變流調工的雜自不而喻實表即在規(guī)模OCE網中,控參工往往要專人持續(xù)入數的時間,高的精成和經在AI模網中然具可制。 C協有陷當幾所的擁控算均將C作擁控失效景的最一屏,然由于C協本的局性導依賴C協的絡規(guī)受限。首先,在高度冗余的網絡拓撲中(如多級OS網絡),傳統(tǒng)的C協議容易出現鎖題可導網性能速零而通過chog等術段預死也導致協議配置的復雜化。其次,由于C協議僅支持接口隊列級流控,這種粗顆粒度的控制易發(fā)端塞流公性題前沒一擁控算能美地解這問在AI大型絡,高吐低延動求疊要求絡大限度避免C以及報文排隊現象的發(fā)生,這對當前擁塞控制算法的能力提出了更高的要; 水調不靈:了配端擁塞制算的施,絡備涉到NC等議水配和活整些線合設對網的體能響大具體取與務量網設架網拓網規(guī)等息息關傳統(tǒng)規(guī)網中于工配方顯不足AI模網規(guī)化設運的求,要定自化線節(jié)至AI能線力建和累。有效帶寬差距分析在寬求,一面AI大型網的聯寬明的要另方需在高聯寬前下持AI應通的吐。這需雖在統(tǒng)據心也體,在向AI務網中然現不的征具分如:載衡力足來挑戰(zhàn)傳數中網中量多小使傳基流負均技雖不知網絡實狀卻然以到好負均和擁避的果而AI場流特的大異致統(tǒng)載衡術效本原是于的載衡術不感上下網實的用和塞態(tài)發(fā)路化而致繁擁包及延動指標的劣化。有測試數據表明,在不產生擁塞的情況下,MP流級負載均衡導致約有10%的用流成時指標理想態(tài)下的1.5倍上,壞的況下至達到2.5倍應用性能化。因在向AI的絡需網基實狀信支更細粒的載衡力。DMA塞制法挑戰(zhàn)分布式高性能應用的特征是多對一通信的Incast流量模型,對于以太網的設備,Incast量造設內隊緩的時發(fā)塞至包來用延增和吐下,而害布應的能決絡塞包際是防過的據入網中造擁,設緩或路量會載。DQCN目前是DMA網絡應用最廣泛的擁塞控制算法,也是典型的被動擁塞控制算發(fā)端據收的N標報利用AIMD機調發(fā)速率由于1個特的N信只能性可定地表擁塞端需要測式整發(fā)速,導收斂度,起絡吐能降。高聯寬挑戰(zhàn)AI服器當采用普遍是CI4.0,5.目正在向6.0的格發(fā)展相比CIe4.0相CIe5.0速提升1倍帶最支持16可撐高性的務AI集當普遍采用單卡100G200GE的高性能網卡,高端網卡已經達到40G接口,對于網絡接入層的式換其也要接端套為100G20G甚更速的400G交匯端要80G換,對換備量需提了戰(zhàn)。穩(wěn)定性差距分析當AI集規(guī)達一量后,如保集系的定,是了能必面對另個戰(zhàn)絡穩(wěn)性方定整集的算定性一面引的響有大應根原在:網故障大:比單點GU故只影集群力的分之,絡故會影數十甚更多GU連性只網穩(wěn)才維系算的整。網性能動影大:比單低能GU或務器易被離,絡作集共享源性波會致有算源利率受響。比前據心穩(wěn)性面能,如幾方仍略不:障斂間長致務能損在AI大型景下網故收時越長算損越大性敏業(yè)體也越然可性高網仍不避出鏈級及節(jié)級故障網規(guī)越大出故的率大大模絡境絡點鏈數激的時帶了障事件的增加(典型云數據中心交換機的硬件故障率通常在0.15左右)。當鏈路故障發(fā)生時,統(tǒng)斂術賴制的態(tài)由議信交和新路斂間長常到秒甚十即采數面障速測復技如D檢主路切,其障斂能然幾十秒其斂均大于AI高能絡的T時網故發(fā)成性損事基是然不接的何升絡故場中收斂能當網亟解的題一。乏效端協機導算無快響網故障當前數據中心網絡故障通常依靠網絡本身的收斂能力或者運維手段實現故障隔離和恢復,對于丟包、時延不敏感的業(yè)務流量而言已經足夠。在傳統(tǒng)的無損網絡中,N/C等粗粒端協機也可有實擁避然在AI高能絡中業(yè)對、延及動能異敏果絡故不快準地遞端能卡DPU)并行準理源行控(包速調和徑制擁導的包時抖動及吐能降是然結。由可支高的網同制是AI網穩(wěn)定的要環(huán)也當網的要力板。時延、抖動差距分析AI大模型應用對端到端通信時延和抖動性能提出了較高的要求,通常要求平均時延需控在數us長時控在10s以。比前網能,在下距:絡塞致動時是現時通的要礙典數中交機的件發(fā)靜時通在50ns10us之在AI業(yè)務節(jié)點到端通信時(通常都在十甚至上百ms)中占比較小,由擁塞導致排隊時動時可達幾十ms甚亞級是致延標達預的要由前面分可,前流擁控算在AI高能絡均法免部塞問,要精、時擁控機實現AI務時的本求。合信流步應致動為響用能關因素AI場景中常用的集合通信具有明顯的流同步效應,這種同步效應要求網絡不僅要做到低且延動盡能到低由木效集通會大尾延應性能影因而抖的制比延平值言具戰(zhàn)即無擁丟不理的負均隨的隊延然讓動標化進導應性的降相測數據,在AI場,對傳基流負均衡,逐負均帶時抖動降的同時,應用JT指標可以獲得高達40%的性能增益。由此可見,對時延抖動的有效控制是AI性網的要求需合的術段彌當網抖控能的足。內機網缺協導整通性受限當機內點間信通以IENVnkUIXL等速互總線術為主機通則網和絡備成性網內聯線有寬性好優(yōu)勢總擴能有且易現部能頸間信然能面遜籌但展好。前內絡機網缺靈的同制易現部點致到通性受,要過理軟、內機網的同計現件源高利。自動化能力差距分析DN已經誕生近10年時間,相關的自動化技術也相對成熟。但傳統(tǒng)的DN自動化主要建在用算絡上通網設部署VXAN特將務面物網狀態(tài)網控器自化署變時需編業(yè)網映到礎理絡是立P達隧,動管能簡、效。在AI大模型訓練場景下,當大規(guī)模AI網絡或者對安全隔離有獨特的需求時,網絡建可引入VXAN特性傳網控器具自化排能。但數情下AI參面網絡是一個封閉的專用網絡。基于訓練效率考慮,一種典型的網絡架構是Underay直接承載AI訓練任務,不再劃分Oerlay平面。同時為了充分利用設備轉發(fā)能力,設備組間不再置-ag,GU用歸式入絡。最由于AI訓場下網動輒10G20G乃至400G傳的能流析術已無解決AI訓場下可化題隱識和障測、閉一程上賴可化術因需新技解相問。網措智中網作連接PU、PU、存存等源重基設施貫數計算、存全算水作三綜衡指網性成提智中算的鍵,算心絡超規(guī)、高寬高定、低延、動方發(fā)展。大規(guī)模組網關鍵技術為了支持更大規(guī)模的組網,首先需要組網設備本身硬件能力的支持,其次需要研究與AI大模型協同的新型拓撲優(yōu)化時延和成本方案。同時在組建大規(guī)模網絡過程需要強大的擁控機來決規(guī)網的塞題以在規(guī)網中高能絡標。絡備件身進網設應提自能出聯端協機制為應對AI大型智中網超規(guī)需的戰(zhàn)以兩面出進施:DMA能卡對規(guī)模QP署施化基于C的訊為一需通的QP建維一連此式導連數規(guī)巨而制組規(guī)模少對QP接的求出下種化施:連多徑能優(yōu)于個元的話行據的輸時連多徑將接的據以擔多不的元。樣方可提網的靠,如在數據中心fa-ree組網存在充分的等價路徑前提下,任意一個單點故障僅影響部分路的不導整連中另方網均將提使網的用率得到改善,從而提高oE傳輸的性能。S已經將多路徑技術應用到其自研的協議RD,其流收性上到顯的化。從C模往接依更的式進目基于C的訊為一需通訊的QP建、護組連,致連接的模大進限了網模。對該問有種決案案是再供粗度傳服即議不供向接保傳可傳能件議僅責靠文遞序等雜服由動軟件完成;方案二是優(yōu)化連接的層次拆分,構建連接池,實現連接的動態(tài)共享。S的RD及elanox的DC術別這種案代。從obackN往擇重演obackN重是種單重方式所在期芯片源限情下件載協議選實此式實重傳加有C加,一來丟概非在C參配合的況一只在現路包,鏈故的況才發(fā)丟),片現obackN重不為種理選擇。但隨著oE組網規(guī)模不斷增加,引發(fā)對C風暴整網流量驟停的擔憂,同時半導體工的升幫網硬芯中實更復的oE的傳式會漸從obackN全重演到擇重??沙虄?yōu)目行內探方包可程擁控算可程DA能力等,主要目的是根據實際應用中業(yè)務模型實現更有針對性的擁塞控制算法,以及根據DA技術的方式可以及時更新DA的實現機制,能夠保障在更先進的DA機制或者擁塞控制機制被提出的時,DMA智能網卡能夠及時通過可編程能力更新對應的力而高署模。片量智中網規(guī)部的心25.bps容芯也已規(guī)部在內互網或計數中25.6bps容量芯片常見的數據中心交換機形態(tài)為00G或者40G。256bps容量芯片的成熟穩(wěn)定部署,使得00G400G光模塊放量速度加快,生態(tài)拉齊,價格已經平坦化。同時,51.2bps容量的片經產即規(guī)性署如用512bps芯則加設備400G接的度,在16K和32K型置,少備量并供來大??尚?。越帶寬容量可實現GU大模模的網承載并具未可擴性,強網絡礎施先性壽投回率更的意著芯網設更的端密更的口率減網設數節(jié)成和耗當即實兩級OS構384交機可持32K個U部。試表具模擬AI模業(yè)能力試模大型業(yè)分兩場,中:使無態(tài)量試在定試口量模服器多多信提供模擬常用高性能計算通信庫的典型流量模型(比如根據NL的broacast,reduce,a-reduce等型作的能。從N通場,量大,續(xù)時,發(fā)置,流流置角,行對些型信作行擬可精測報時延,動丟等標。使用有態(tài)的oE測試儀(完整實現DMA協議狀),同樣在定測試端口數量通定義ob來擬型通操并過對的信式一模大模型的流量。每個ob由基本的DMA操作(比如breadwre等,包括qp數量以及消息度等循等用作成這當義好ob的成可精測網中帶占情,文延ob完時等息。型撲當前智算中心網絡通常采用LOS網絡架構主要關注通用性無法滿足超大規(guī)模超算場景下低時延和低成本訴求,業(yè)界針對該問題開展了多樣的架構研究和新拓撲的設計。直連拓撲在超大規(guī)模組網場景下因為網絡直徑短具備低成本端到端通信跳數少的特點64口盒式交換機Dragonfly最大組網規(guī)模27w節(jié)點4倍于3級COS全盒組網。以構建10萬個節(jié)點超大規(guī)模集群為例,傳統(tǒng)的COS架構需要部署4級COS組網,端到端通信最大需要跨7跳交換機。使用Dragonfly直連拓撲組網,端到端交換機轉發(fā)跳數最少減少至3跳交換機臺數下降40%同時通過自適應路由技術實時感知網絡流量負載,動態(tài)進行路由決策,充分利用網絡鏈路帶寬,提升網絡整體吞吐和性能。網同流改進當前主流擁塞控制算法的優(yōu)化思路仍然在端側實現需要至少1個T的響應時長,同時針對網絡中存在的多擁塞點問題仍然需要多個周期才能收斂因此需要一種新型的端網配合的擁塞控制算法越來越多的無損網絡設計者意識到網絡遙測信息對擁塞控制算法的重要性網絡遙測可以獲得精確的鏈路負載信息時延信息丟包信息甚至緩存狀態(tài)配合網卡和擁塞控制控制算法可以達到精確控制流量快速收斂充分利用空閑帶寬,最終避免擁塞提高帶寬利用率的效果,保障大規(guī)模分布式AI任務的高效完成。超高帶寬關鍵技術了持大模組先要網備身件力支持次組大模絡程要大擁控機來證規(guī)網的塞題便大模絡有高能絡標。絡-用同計放力網絡帶寬的增長主要依賴網卡/交換機轉發(fā)芯片的發(fā)展,遵循10G->25G->100G->200G->400G->800G的路線近幾年隨著摩爾定律的逐步失效芯片演進越來越慢帶寬提升難度也越來越大因此除了芯片本身的提升可預見將來將通過網絡-應用協同的方式,盡可能釋放已有網絡的帶寬和性能。隨著聚合算力的規(guī)模不斷增長、計算復雜度的增加,集合通信中數據交互的次數也會有明顯的增長,隨之網絡通信效率對AI應用完成時間的制約作用也越來越明顯。以目前較流行的集合通信操作MPIringall-reduce為例,需要2(N-1)次的數據交互才能完成,其中N為參與的節(jié)點數量深度學習同樣需要調用AllReduce操作進行梯度聚合且每個節(jié)點的傳輸數據量是深度學習模型尺寸的2(N-1)/N倍。當N值較大時,傳輸量接近原始模型尺寸的2倍,相當于額外增添了網絡帶寬的負擔。近年來,隨著可編程交換機的興起和部署,可通過在網計算壓縮數據流量,實現計算傳輸效率的提升,該方式成為一個有效提升分布式系統(tǒng)的方法。在集合通信原語中,Reduce和AllReduce含有計算的語義,因此可以使用在網計算進行加速,減少數據交互次數和入網數據量。組播是分布式計算系統(tǒng)中最常使用的通信模式之一。由于數據被重復發(fā)送,應用層組播任務完成時間大于數據量與通信帶寬之比交換機可完成組播報文的復制分發(fā)以網絡層組播替代應用層組播避免相同數據的重復發(fā)送實現組播任務完成時間逼近理論最優(yōu)值(即數據量與帶寬之比)的效果,相比于應用層組播任務完成時間減少約50%。路載衡化術現有基于流的負載分擔技術為:網絡設備接收到一條流進行轉發(fā)時,此流經過hash計算確定一個轉發(fā)路徑若不發(fā)生網絡路徑的變化此流所有的報文都將持續(xù)在確定的路徑上轉發(fā)。在AI/ML的應用中GPU或其他類型的AI/ML計算單元之間有著非常簡單的通訊關(流的數量非常少且由于他們有著極高的計算能力導致一對通訊單元間的數據吞吐極(單個流很大所需的網絡帶寬極大這就導致在這樣的應用中存在極端的負載分擔不均衡,而且這種不均衡一旦引發(fā)網絡丟包,就會對整體AI/ML的任務完成時間帶來顯著的負面影響。因此業(yè)界越來越重視Spine和Leaf節(jié)點之間鏈路的負載均衡算法優(yōu)化方案,以實現流量更加均衡的哈希在多條等價路徑中。在鏈路負載均衡的優(yōu)化算法中已經成熟部署的案例有動態(tài)負載平衡(DLB)DB是一種質量感知負載分配的方案,它根據本地交換機的端口質量為數據包選擇下一跳。且DB支持flowlet顆粒度的調度,和基于流的負載均衡完美兼容。近期新興的感知路(Cognitiverouting已經普遍被行業(yè)認為是負載均衡算法的最佳實踐之一基于感知路由的負載均衡技術實際上是一個基于全局信息的負載均衡算法全局負載平衡通過使用在下游交換機感知到的路徑質量或隊列深度來調制本地交換機的路徑選擇并支持DB方式動態(tài)平衡流量負載迭代路由的GB功能允許上游交換機避開下游擁塞熱點并選擇更好的端到端路徑。GB保留了DB的所有優(yōu)質屬性,例如當路出現故障時受影響流的自動快速故障轉移及非等價路徑的能力。同時另一個路徑也開始逐漸萌芽和發(fā)展——基于信元交換實現均衡負載分擔信元交換機制下接收端設備接收到報文后會將報文拆分成若干信元信元會基于目的端發(fā)送的調度信令選擇空閑的鏈路進行轉發(fā);到的目的后,信元被重新拼裝成報文發(fā)出設備。在這樣的機制下不同于包轉(一個固定的流僅能利用單個路徑兩個交換機之間的所有鏈路都可以利用而且完全是動態(tài)的基于微觀負載實時調整的均衡利用實際上信元交換本身并不是一項嶄新的技術在目前廣泛應用的框式設備中線卡芯片與網板芯片之間的流量交換普遍都采用了信元交換的技術以實現機框內無阻塞交換現在業(yè)界已經開始嘗試將此技術應用到網絡中比如博通發(fā)布的DDC網絡架構--在整個網絡設備之間采用信元交換。DDC網絡架構證實了此項技術確實可以有效解決鏈路負載均衡的難題。將此項技術進一步擴展,應用到整個網絡上,會是AI/ML等專有網絡未來解決負載均衡問題的方向之一。功的0G80G聯案隨著Serdes技術推動數據中心進入400G800G的時代端口功耗成為了業(yè)界普遍關注的熱點低功耗的400G/800G互聯解決方案相繼推出引起業(yè)界廣泛關注也被普遍認為是AI和機器學習等智算數據中心的關鍵技術。PO旨在解決下一代帶寬和功率挑戰(zhàn)隨著對網絡和計算結構帶寬的持續(xù)加速需要在系統(tǒng)和芯片架構方面進行創(chuàng)新以減緩摩爾定律的放緩與此同時銅互連正迅速達到其帶寬距離極限硅光子學對于維持快速數據增長和高帶寬應用至關重要。共封裝光學(CPO)是把交換機芯片ASIC和光/電引擎(光收發(fā)器)共同封裝在同一基板上,光引擎盡量靠近ASIC,以最大程度地減少高速電通道損耗和阻抗不連續(xù)性,從而可以使用速度更快、功耗更低的片外I/O驅動器。通過使用PO不僅可以實現聯網還可以實現GPU到GPU的互連資源池和內存的分解。其可以滿足AI/ML訓練集群的需求,且具備高帶寬和基數連接、最低的每比特成本,以及最低的電源使用效率。線性直驅可插拔模塊亦可降低功耗在400G、800G時代,除了可插拔光模塊和PO解決方案外,在今年3月OC,inearDirectDriv(直接驅動也稱線性驅動可插拔400G/800G光模塊成為了研究熱點。該光模塊方案最大的優(yōu)勢在于光模塊可以省掉DSP芯片,極大程度降低在模塊層面的信號處理的功耗和延遲。服務于AI和機器學習等應用的GPU服務器在提供出色算力的基礎上服務器功耗也會相應的增加。400G/800G的高速互聯使得光模塊以及網絡設備的功耗也會相應的增長。無論CPO還是線性直驅可插拔模塊可能都是未來智算中心的互聯解決方案,通過從互連中移除所有可能的有源組件來提供最低的系統(tǒng)級功率。超高穩(wěn)定性關鍵技術AI大模型下的智算中心網絡作為業(yè)務流量的調度中樞其穩(wěn)定性決定著整個AI集群的運行效率因此除關注網絡正常運行狀態(tài)下的性能指標外如何隔離故障域提升故障事件的感知和恢復能力也是智算中心網絡當前要解決的關鍵問題。于件快感能力AI大模型網絡通常要求網絡實現亞ms級的故障恢復時間故障快速感知作為故障恢復的前提,其感知性能通常在數十us級以下。當前大部分基于報文探測?;顧C制的感技術僅能保障50ms級的故障感知性能。因此通過設備硬件提供更高性能的故障感知能力成為了研究重點具體而言硬件轉發(fā)芯片可以充分利用接口物理層的統(tǒng)計信(如收發(fā)光、EC錯包統(tǒng)計等)提供快速的故障感知及預測的功能,實現為上層系統(tǒng)提供亞ms級故障感知基礎能力的支持。于件快收能力為了解決故障收斂慢的問題一個可行的優(yōu)化思路是數據面硬件卸載典型場景的故障收斂全過程即完全由數據面感知傳遞處理故障通過這種方式有望將故障收斂性能提升至亞毫秒級該技術基于轉發(fā)芯片的硬件可編程能力構建從傳統(tǒng)的基于控制面協議軟件的收斂方式演進到基于數據面硬件極速感知故障的收斂方式并且基于數據面硬件實現遠程通告和快速換路該技術可達到亞毫秒(<1ms的收斂速度將對業(yè)務性能的影響降至最低基于硬件的故障快速收斂為高性能數據庫存儲以及超算等關鍵應用提供了極致的高可靠性保證和穩(wěn)定性體驗。次的絡障愈力在以性能為導向的大規(guī)模網絡中面向各種網絡故障場景下的自愈能力是保障業(yè)務可靠性的關鍵網絡故障自愈能力需要在鏈路級設備級以及網絡級開展層次化方案的制定。其主要宗旨是最大限度降低業(yè)務性能的影響核心技術在于提升各類網絡故障事件響應的實時性具體而言在鏈路層面通過充分挖掘網絡多路徑的資源價值在最合適的節(jié)點以最快的速度實現流量轉發(fā)路徑的切換保護在設備層面通過利用節(jié)點級保護技術實現流量的快速重路由在網絡層面借助自動化和智能化的手段對常見的網絡級故障開展根因分析和問題關聯通過快速響應預案的積累形成網絡自動止血的能力確保網絡故障恢復指標在可預期的范圍內。超低時延關鍵技術為了滿足AI大模型對超低時延的需求,智算中心網絡需要從集合通訊與網絡拓撲協同、硬件卸載加速技術以及靜態(tài)時延優(yōu)化等方面進行優(yōu)化和創(chuàng)新。合訊法網拓協同集合通信允許一組進程以定義明確協調一致的方式交換消息和共享數據是分布式AI訓練系統(tǒng)實現數據并行模型并行以及混合并行的的核心如NVIDIA公司開源的NCCL可在PCIe,NVink,Ethernet以及Infiniband網絡上實現較高帶寬、低延遲的GPU通信。集合通信的性能和網絡拓撲密切相關。NCCL能夠針對拓撲特征和GPU特征進行定制優(yōu)化,具有比傳統(tǒng)集合通信庫MPI更高的性能。比如PXN方法將不同服務器上位于相同位置的網卡,都歸屬于同一Rswitch;不同位置的網卡,歸屬于不同的Rswitch。該方式下,不同host上相同位置的GPU仍然走機間網絡通信,一跳可達;不同host上不同位置的GPU則先通過機內網絡轉發(fā)到對應位置的GPU代理上然后通過該GPU代理走機間網絡來完成通信該方法可以有效地減少跨host集合通信過程的網絡跳數從而提升整網性能。DU件載在當前GPU的算力能力下100Gbps或更大的數據量才能夠充分發(fā)揮單個GPU的算力。在這樣的發(fā)展趨勢下,基于RDMA協議的GPUDirectRDMA技術,在DPU與GPU通信的過程中可繞過主機內存,直接實現對GPU內存的讀寫能力。而且,DPU上全硬件實現的DMA能夠支持單流百G以上的數據收發(fā)能力進而實現了GPU算力聚合且最大化提升了GPU集群算力。GPUDirectRDMA技術已經成為當前算力資源總線級互聯高性能網絡的主流技術。另一個GPUDirect技術是GPUDirectStorage,簡稱GDS。GDS是為了解決GPU從Storage獲取數據的延時和效率問題,可實現GPU到Storage的直接訪問。在GPU使用GDS訪問遠端存儲時通過網卡實現NVMe-oF的卸載和加速就變得異常重要NVMe-oF的實現是在標準的NVMe操作上進行了網絡部分的封裝NVMe實現的各種隊列操作包括MQ,SQ,CQ等,可以清晰的通過硬件邏輯實現。同時,根據NVMe-oF所支持的網絡協議,進一步判斷哪種協議適合硬件卸載,或者其使用硬件卸載方式付出的代價最小。利用網卡對RDMA的支持,再疊加NVMe的實現邏輯,網卡可以完整實現NVMeoverRDMA的硬件卸載,進而為GDS提供NVMe-oF卸載及加速方案。態(tài)發(fā)延化靜態(tài)轉發(fā)時延主要是由轉發(fā)芯片引入的轉發(fā)芯片主要有PHY/MAC模塊包處(PP)模塊和緩存管理(BM)模塊組成,可針對不同模塊分別進行時延優(yōu)化處理。HYMAC模為支更泛的景用在證口靠性同追更的時,的口態(tài)編算有進步索。包處理(P)模塊:為了降低包處理模塊的時延,可通過簡化業(yè)務部署的方式,如關閉轉路上不需的模關下行AL功設上部下行AL時)不議署VAN業(yè)等式同包理模內存較的查(AC表IB)程主表因容較普采算查,表度會響發(fā)延。了求低時,要索好并查設及效查算。緩管M模:進步低存理態(tài)時,需優(yōu)芯內存局和線計著用量型變和路用的升響延要素再是靜時而擁帶的態(tài)延動時的制賴細緩管包各種塞知限反門的應調,及網同相技。.5自動化關鍵技術面對AI大模型場景下網絡的特殊性AI網絡需要實現多維度自動化能力的支持包含以下四方面。到部自化力是AI群展的提AI大模型網絡典型的特征是規(guī)模較大且必須支撐業(yè)務集群的按需擴容然而網絡中涉及擁塞控制算法RDMA無損等復雜特性的配置且配置工作涵蓋網卡和網絡交換機。面對AI網絡特殊性和復雜性通過充分識別并分析AI場景網絡特征及變更特點從而設計符合AI場景的網絡模型,支撐自動化能力,盡力實現“即插即用式開局”。試收動能是AI群品交的礎在網絡與端側的部署工作完成后需要結合場景針對配置一致性可靠性業(yè)務性能等開展一系列自動化測試和驗收的活動通過自動化測試建立驗收基準而非依靠人工經驗,是確保AI集群高品質交付的基礎。維動是保絡能可性關鍵對于一些突發(fā)的網絡故障或者性能事件,利用轉發(fā)芯片的原生能力,對網絡的狀態(tài)、數據進行高性能可視化監(jiān)控例如通過呈現網絡的擁塞狀態(tài)負載不均狀態(tài)等為自動化調度調優(yōu)提供數據支持可實現端到端可視化自動化運維等實現故障的快速定位和一鍵修復的能力。更動是絡力演的本障在AI網絡中,業(yè)務需求的變化、新技術的引入、網絡故障的修復、網絡配置的優(yōu)等都會引發(fā)網絡配置的頻繁變更變更自動化能力是確保過程安全的基本手段也是網絡能力自優(yōu)化、自演進的基本要求。望隨著ChatGPT、Copilot、文心一言等大模型應用的橫空出世,AI大模型下的智算中心網絡也將帶來全新的升級。本白皮書從AI大模型發(fā)展情況AI大模型下智算中心網絡的需求當前技術與需求的差距及技術演進四個方面開展了相關研究以期拋磚引玉更盼得到更多同行的參與和討論。中國移動也希望按照高價值優(yōu)先、先易后難的原則,逐步推動

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論