智算網(wǎng)絡技術與產(chǎn)業(yè)白皮書 2024_第1頁
智算網(wǎng)絡技術與產(chǎn)業(yè)白皮書 2024_第2頁
智算網(wǎng)絡技術與產(chǎn)業(yè)白皮書 2024_第3頁
智算網(wǎng)絡技術與產(chǎn)業(yè)白皮書 2024_第4頁
智算網(wǎng)絡技術與產(chǎn)業(yè)白皮書 2024_第5頁
已閱讀5頁,還剩108頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

本白皮書版權屬于紫金山實驗室及其合作單位所有并受法律保楊彩云、韓紅平、黃文浩、袁輝、胡秀麗、鄭吳濤、符哲蔚、陸振善、張佳瑋、谷志群、李I智算算力互聯(lián)的實現(xiàn)依賴于一個能夠支持高性能計算任務的網(wǎng)光電融合組網(wǎng)與路由、廣域RDMA等關鍵技術。隨后,結合智算網(wǎng) I III 1 3 6 11 11 73 75 7712017年,國家工信部頒布了《促進新一代人工智能產(chǎn)業(yè)發(fā)展三步增加在該領域的投入;2021年發(fā)布的《新型數(shù)據(jù)中心發(fā)展三年行一體化的新型智能基礎設施,提供體系化的人工智能服務;2023年2聯(lián)點并加快了IPv6的規(guī)模部署,新建了國家級互聯(lián)網(wǎng)交換中心提升3如,北京正在建設亦莊等E級智能算力高地,并計劃到智算基礎設施軟硬件產(chǎn)品的全棧自主可控;上海在推進“算力浦江”智算行動實施方案,打造高質量智算發(fā)展格局;貴州通過與華為云、我國正在積極推進智算網(wǎng)絡標準化進程,以滿足人工智能與高性應用的全鏈條。各大云服務商和電信運營商正在加速構建AI大模型在國內(nèi)標準化方面,中國通信標準化協(xié)會正在主導國內(nèi)的智算網(wǎng)算一體、設備平臺互聯(lián)互通、安全等標準化研究進程。2023年,中NextGenerationNetworkEvolution)在SG13啟動智算立項;在國際標準化方面,智算網(wǎng)絡的標準化工作主要由ITU和IETF等國際組織推動。為滿足人工智能和高性能計算(HPC,HighPerformanceComputing)對智能算力需求的急速增長,2023年7月,Linux基金4會聯(lián)合AMD、Arista、博通、思科等公司共同成立了超以太網(wǎng)聯(lián)盟過30個城市正在建設或提出建設智算中心,建設總數(shù)西算”八大樞紐。2024年,武昌智算中心、中國移動智算中心(青5我國智算產(chǎn)業(yè)鏈已形成完整的上游核心技術研發(fā)、中游資源整合其在吞吐量、能效及算力等方面的突出表現(xiàn),已在AI領域得到大量6而更遠期的Q*系列模型將采用多模態(tài)自我演進訓練機制,使模型訓同時,超長序列也逐漸成為未來模型的主流標配,以Sora為例,視7多的GPU廠商選擇以太作為其算力芯片的IO接口形態(tài),如Intel體系(GSE以及由海內(nèi)外頭部廠商組成的超級以太網(wǎng)聯(lián)盟,正在8突破基于以太網(wǎng)構建超大規(guī)模高性能AI集群的技術瓶頸。事實上,大規(guī)模開放互聯(lián)網(wǎng)絡的技術基石。著模型規(guī)模逐漸逼近甚至超過人腦水平,相應的AI集群規(guī)模也將從之前的千卡或萬卡級別,迅速發(fā)展到十萬卡甚至百萬卡規(guī)模。20249方面的革新。若按當前算力芯片的發(fā)展速度來看,IO密度與功耗將技術將在組網(wǎng)架構與單比特功耗等方面深刻影響未來數(shù)年智算網(wǎng)絡下降90%以上。在AI驅動下,未來網(wǎng)絡芯片預計將迅速突破100T容量,單比特功耗將進一步降低。同時,400G/800GDPU網(wǎng)卡需求實現(xiàn)面向AI場景優(yōu)化已成為新一代網(wǎng)絡芯片的重要特征,并將在未訓練復雜的神經(jīng)網(wǎng)絡模型可能需要處理TB級甚至PB級的數(shù)據(jù)。為據(jù)傳輸需求。隨著AI模型復雜度和數(shù)據(jù)規(guī)模的持續(xù)增加,未來對網(wǎng)AI模型的復雜度與參數(shù)規(guī)模持續(xù)增加,其對低時延網(wǎng)絡的需求將更并做出及時的決策,任何延遲都可能導致嚴重后果。此外,隨著AI相比之下,智算中心的特征為流數(shù)量少(通常低于10K致應用性能下降。相關測試數(shù)據(jù)表明,在AI場景中,相比傳統(tǒng)基于有效控制時延抖動是AI高性能網(wǎng)絡的重要需求,通過合網(wǎng)絡丟包在AI大規(guī)模訓練中是一項極其重要的問題。網(wǎng)絡丟包同樣會對AI推理性能產(chǎn)生影響,因為推綜上所述,智算網(wǎng)絡的發(fā)展與應用亟需高帶寬、低時延/抖動、胖樹(Fat-Tree)Clos無阻塞網(wǎng)絡架構由于其高效的路由設計、對于中小型規(guī)模的GPU集群網(wǎng)絡,通常采用Spine-Leaf兩層架構,服務器上的網(wǎng)卡全部接入同一臺Leaf交換機,該方式集群通信效率偏低,但在機房實施布線中有較大優(yōu)勢。此外,若Leaf交換機發(fā)生業(yè)內(nèi)典型的大模型組網(wǎng)架構有騰訊星脈與阿里巴巴HPN網(wǎng)絡。星脈網(wǎng)絡采用無阻塞胖樹(Fat-Tree)拓撲,分為Cluster-Pod-Block三級。如圖3-3所示,以128端口400G交換機為例,其中Block為阿里云大模型訓練網(wǎng)絡(HPN,High-PerformanceN引入一種雙平面兩層架構,如圖3-4所示。每臺GPU服務器配置到不同Leaf設備,形成雙平面設計,從而避免單Leaf故障對訓練任Leaf上行有60×400G端口連接Spine,因此一個Pod可容納15個訓練任務流量特性,選擇Spine-Core之間采用15:1現(xiàn)網(wǎng)絡架構精簡,僅使用一層Rail交換機用于高帶寬域內(nèi)GPU卡之間互聯(lián),其中每個高帶寬域內(nèi)256個GPU都通過NVLinkSwitch進傳統(tǒng)Clos樹形架構作為主流的智算網(wǎng)絡架構,重點突出其普適性,但在時延與建設成本方面并非最優(yōu)。在高性能計算網(wǎng)絡中,Dragonfly網(wǎng)絡因其較小的網(wǎng)絡直徑與較低的部署成本被大量使用。Dragonfly可支持超過27萬個GPU卡,相當于三層Fat-Tree架構所問題:1、系統(tǒng)復雜度,三層組網(wǎng)的負載均衡、擁塞控制等網(wǎng)路技術架構一為第二層帶收斂的三層Fat-Tree架構,即下圖中L2層交或同號的L2設備兩兩直連。以單端口為400G的51.2T盒式交換機Fat-Tree架構,此架構可節(jié)省一層交換環(huán)面拓撲特性可使得其在鄰居節(jié)點之間擁有最優(yōu)通信性能。然而,Tomahawk5芯片的白盒交換機為主流,轉發(fā)容量可達51.2Tb/s,支Tomahawk5芯片的白盒交換機,構建布局智算中心超寬無損網(wǎng)絡解交換機,其性能上存在一定劣勢。而Spectrum-X以太網(wǎng)交換機轉發(fā)達到12.8Tbps,可支持32×400G端口接入,并提出全局負載均衡(NSLB,NetworkScaleLoadBalance)調度方案,以實現(xiàn)智算中心網(wǎng)絡超寬無損承載。下優(yōu)勢:i)白盒交換機采用類似服務器的網(wǎng)絡操作系統(tǒng),可利用現(xiàn)而加快技術創(chuàng)新;ii)將傳統(tǒng)交換機的專有網(wǎng)絡環(huán)境轉變?yōu)楦ㄓ玫闹袑崿F(xiàn)網(wǎng)絡功能的按需編寫(如網(wǎng)絡分流器從而減少每個交換機影響大模型的訓練效率。對此,業(yè)界提出了控制面與AI平臺聯(lián)動的提出了集中化流量調度方案,構建網(wǎng)絡控制器與AI平臺的協(xié)同任務③控制器解析任務模型,規(guī)劃流量路徑,并通過策略路由下發(fā)④Leaf策略路由生效,指導業(yè)務流量均勻轉發(fā);硬件芯片具備了可編程能力。PISA架構涵蓋解析器、逆解析器、匹所需的轉發(fā)邏輯。數(shù)據(jù)面程序使用高級語言P4編寫,經(jīng)由P4語言擁塞等信息,為網(wǎng)絡可視化和智能運維提供題,采用協(xié)議無關的P4語言及底層可編程硬件,實現(xiàn)網(wǎng)絡應用性能RDMA技術相比傳統(tǒng)網(wǎng)絡具有顯著優(yōu)勢,其實現(xiàn)了內(nèi)核旁路機零拷貝機制允許接收端直接從發(fā)送端的內(nèi)存讀取數(shù)據(jù),大幅減少了CPU負擔,提高了CPU效率。雖然,RDMA技術顯著降低了服務器側處理時延,提升了計算嚴重影響計算和存儲效率。因此,需要構建無損網(wǎng)絡技術體系,為RDMA提供低時延、零丟包與高吞吐的網(wǎng)絡慮,基于以太網(wǎng)的RoCEv2技術將擁有廣闊的應用前景。在RoC網(wǎng)絡中,業(yè)界通常采用PFC(Priority-basedFlowControl)技術來處理擁塞場景下的丟包和重傳時延問題,提高計算和存儲效率。然而,技術。ECN用于感知設備內(nèi)部的隊列擁塞情況,并配合DCQCN調整發(fā)送端速率。慮,基于以太網(wǎng)的RoCEv2技術將擁有廣闊的應用前景。在RoC網(wǎng)絡中,業(yè)界通常采用PFC(Priority-basedFlowControl)技術來處理擁塞場景下的丟包和重傳時延問題,提高計算和存儲效率。然而,技術。ECN用于感知設備內(nèi)部的隊列擁塞情況,并配合DCQCN調整發(fā)送端速率。倒慢速的接收方。本節(jié)主要介紹流控相關技術,以及如何解決PFC制是針對整條鏈路的流量暫停,而PFC支持在一條鏈路上創(chuàng)建8個環(huán)形依賴緩存區(qū)。如下圖所示,當4臺交換機都達到PFC門限,則將同時向對端發(fā)送PFC反壓幀,此時拓撲中所有交換機都處于停流服務器網(wǎng)卡故障可能引發(fā)其不斷發(fā)送PFC反壓幀,網(wǎng)絡內(nèi)PFC反壓幀進一步擴散,導致出現(xiàn)PFC死鎖,最終導致整網(wǎng)受PFC控制一旦出現(xiàn)PFC死鎖,若不及時解除,將威脅整網(wǎng)的無損業(yè)務。無損以太網(wǎng)為每個設備提供了PFC死鎖檢測功能,通過如下過程對PFC死鎖進行全程監(jiān)控,當設備在死鎖檢測周期內(nèi)持續(xù)收到PFC反如圖3-15所示,若在設定的PFC死鎖檢測時間內(nèi)該隊列一直處于PFC-XOFF(即被流控)狀態(tài),則認為出現(xiàn)了PFC死鎖,需要進在PFC死鎖恢復過程中,會忽略端口接收到的PFC反壓幀,內(nèi)級的隊列流量,在恢復周期后恢復PFC的正常流控機制。若下一次若上述死鎖恢復流程未起作用,仍然不斷出現(xiàn)PFC死鎖現(xiàn)象,險,此時進入死鎖控制流程,設備將自動關閉PFC功能,需用戶手PFC死鎖預防是針對Clos組網(wǎng)的一種解決方案,通過識別易造如下圖所示,某業(yè)務流沿Server1Leaf1Spine1Leaf2 成了一個循環(huán)依賴緩沖區(qū),當4臺交換機的緩存占用都達到PFC反壓幀觸發(fā)門限時,都會同時向對端發(fā)送PFC反壓幀停止發(fā)送某個優(yōu)先級的流量,將形成PFC死鎖狀態(tài),最終導致該優(yōu)先級的流量在網(wǎng)f加入PFC上聯(lián)端口組。一旦Leaf2設備檢測到同一條業(yè)務流從屬于從其它隊列轉發(fā)(即從隊列a轉移至隊列b若該流在下游設備Device3處發(fā)生擁塞并觸發(fā)PFC門限,則將對傳統(tǒng)PFC需要較大的緩存來保證不丟包和不欠吞吐。在長距數(shù)備出現(xiàn)緩存擁塞,從該設備發(fā)送PFC反壓幀給對端設備到停止接收量發(fā)送與暫停的機制,能夠比傳統(tǒng)PFC支持更長距離的長距無損場上游設備發(fā)送帶反壓定時器的PFC反壓幀,控制上游設備在對應周無損隊列的Headroom緩存空間用于存儲本隊列發(fā)送PFC反壓幀段時間內(nèi)的報文被丟棄。根據(jù)上文對傳統(tǒng)PFC流控機制的分析,傳存空間大小至少為BPFC×2TPFC,因此緩存空間占用至少需要2×控制的流量發(fā)送到本設備需要經(jīng)過的時長為2TABS,為保證無損隊ECN在接收端感知到網(wǎng)絡中發(fā)生擁塞后,通過協(xié)議報文通知發(fā)夠感知網(wǎng)絡擁塞,IP報文中定義了ECN字段,并由中間交換機修改ECN字段以實現(xiàn)對接收端的擁塞通知。根據(jù)RFC791定義,IP報文大小流占比來動態(tài)調整,從而在避免觸發(fā)PFC流控的同時,盡可能被提出,其則可根據(jù)現(xiàn)網(wǎng)流量模型進行AI訓練,從而對網(wǎng)絡流量的lDevice設備內(nèi)的轉發(fā)芯片對當前流量特征進行采緩存占用率、帶寬吞吐、當前ECN門限配置等,然后通過l若為未知流量場景,AI業(yè)務組件將結合AI算法,在保證高lAI業(yè)務組件將符合安全策略的最優(yōu)ECN門限下發(fā)至設備,l對于獲得的新流量狀態(tài),設備將重復上述操作以保障無損業(yè)的AIECN門限功能可實現(xiàn)網(wǎng)絡中TCP流量與RoCEv2流量的混合調高性能計算、AI模型訓練、以及數(shù)據(jù)中心網(wǎng)絡,均要求網(wǎng)絡傳DCQCN相比,端網(wǎng)協(xié)同算法C-AQ流數(shù)200C-AQMDCQCN50%-ile0.1553.023116.61290%-ile0.2386.662121.8299%-ile0.3218.204125.4899.9%-ile0.4019.094127.131在AI大模型場景中,業(yè)務流量呈現(xiàn)出大象流、低熵、同步效應等特征,并進一步導致傳統(tǒng)ECMP基于流的五元組哈希機制失效,針對傳統(tǒng)ECMP機制的不足,一種解決思路是將“網(wǎng)絡狀態(tài)”讀取本地出接口的隊列、發(fā)包統(tǒng)計等信息作為報文轉發(fā)的依據(jù),通過感知擁塞狀態(tài)的方式保持網(wǎng)絡流量分布的均衡性。詢,而是通過出接口負載輔助選路,如選擇綜合負載最小的鏈路,也可通過隊列深度、接口帶寬利用率等作為擁塞程度的量化依據(jù)。這類負載均衡技術帶來的性能收益是當網(wǎng)絡存l基于全局負載狀態(tài)的均衡技術:在相對復雜的多級網(wǎng)絡中,流量發(fā)送端通常無法感知網(wǎng)絡的全局狀態(tài)信息,這種狀態(tài)包括下游的擁塞狀態(tài)、網(wǎng)絡整體的流量分布及帶寬利用率等?;谌重撦d狀態(tài)的均衡技術的基本原理是先收集網(wǎng)絡全局狀態(tài)(狀態(tài)收集可通過集中式的網(wǎng)絡控制器或分布式的數(shù)據(jù)局部擁塞的同時最大化整網(wǎng)的吞吐性能。基于全局的負載均準,大多為廠商私有化實現(xiàn),典型技術方案如中興的智能全控制器通過API接口被動接收AI調度平臺的流信息(如五元組、通信數(shù)據(jù)量等通過集中TE算法將活躍的數(shù)據(jù)流均此外,基于負載狀態(tài)的均衡技術通常和Flow合使用,例如網(wǎng)絡識別大象流,對大象流進行Flowlet切分后依據(jù)負不同單元可走不同的網(wǎng)絡轉發(fā)路徑,從而達到網(wǎng)絡負載均衡的目的。Flowlet負載均衡用于解決數(shù)據(jù)中心網(wǎng)絡內(nèi)流量不平衡問題。它Flowlet負載均衡的核心思想是利用流的規(guī)模與持續(xù)時間來分割流量。當流量到達網(wǎng)絡設備時,設備會將其分割成多個Flowlet,每個Flowlet包含一部分數(shù)據(jù)包。然后,設備會使用負載均衡算法將這些Flowlet分配到不同的路徑上進行傳輸。Flowlet技術提出較早,是一種被普遍支持的負載均衡技術,但也存在其局限性。首先,為避免引入報文亂序,F(xiàn)lowlet切分的時間間隔與流量模型緊密相關。但在實際應用中很難避免完全亂序,且Flowlet自身并不提供亂序處理能力。其次,這種基于時間間隔的子流切分方式在特殊的流量場景中可能失效,如AI模型訓練基于容器的負載均衡是中國移動提出的全調度以太網(wǎng)技術的核調整,要求至少能夠容納1個最長的業(yè)務報文,且總長度在充分提高瞬間負載均衡度的目的。報文在轉發(fā)過程中僅依據(jù)GSE頭定的芯片硬件實現(xiàn),典型的代表是分布式解耦機框(DDC,DisaggregatedDistributedChassis)方案。DDC通過網(wǎng)絡硬件將數(shù)據(jù)發(fā),再由出口節(jié)點依據(jù)信元的控制信息進行報文重組和方案相對較封閉。2022年,由紫金山實驗室、中國電信研究院和北京郵電大學聯(lián)合發(fā)布的《分布式解耦機柜技術白皮書》,也研發(fā)了值低,因此可以納入更多的數(shù)據(jù)包字段作為哈希因子,例如RDMA頭部中的QP對(QueuePair)信息,甚至是用戶自定義的字段,以如網(wǎng)絡或AI模型,而未來智算網(wǎng)絡中應將兩者結合,實現(xiàn)網(wǎng)算協(xié)同外,還包括光模塊鏈路中斷、網(wǎng)絡資源占用情況等再由NetMind將全局拓撲提供給計算組件,進行拓撲親和計算。側通信需求,經(jīng)由NetMind通告網(wǎng)絡進行主動均衡、拓撲調根據(jù)NetMind提供的集合通信算法的適用區(qū)間和通信效率進行作業(yè)調度,并基于NetMind提供的建模求解優(yōu)化策略提升NetMind旨在為AI大模型系統(tǒng)中的不同用戶提供統(tǒng)一框架以提兩個核心組件。其中,NetMindClient部署于每臺計算服務器的主機側,包含一個部署在計算節(jié)點CPU上的Agent進程。Agent從AI作源進行逐流的全局算路規(guī)劃,從而避免傳統(tǒng)HASH負載不均導致的NetMind分別從網(wǎng)絡側和計算側獲取網(wǎng)絡狀態(tài)信息和模型訓練的并行策略、通信量等信息,并在NetMindServer應用感知QoS模塊中計算不同并行策略間流量的最優(yōu)QoS調度方式,然后結合業(yè)務邏輯下發(fā)至網(wǎng)絡側,實現(xiàn)對QoS調度的動態(tài)控制,同時減少模型訓Balance)模塊對流量進行全局路徑規(guī)劃,實現(xiàn)任務性能最優(yōu)的流量離得以提升;另一方面,業(yè)界在持續(xù)推動ROADM設備的軟硬件解前網(wǎng)絡形態(tài)正經(jīng)歷從傳統(tǒng)IP+WDM的光電復合式組網(wǎng)向軟件定義角度仍分為電層與光層,其中電層對應IP路由器,負責數(shù)據(jù)包的匯聚轉發(fā)以及電層時隙(如FlexE)的映射與交叉;光層對應光纖、光如4-2左圖所示的光電一體化網(wǎng)絡拓撲視圖,其中IP層與光層節(jié)點先、功耗優(yōu)先等支持光層直通與光電混合轉發(fā)等多種自適應傳輸圖4-3(a)快速業(yè)務部署b)聯(lián)合故障規(guī)避c)動態(tài)光電調度配不均衡等問題,從而引入額外的建設投資與運維開銷。如圖3-37(a)所示,通過采用光電融合路由技術,可實現(xiàn)高效的雙層協(xié)同規(guī)面臨在同一個共享風險鏈路組(SRLG,SharedRiskLinkGroup)中庫,訓練故障定位的AI模型,從而在發(fā)生故障時快速定位故障源,(3)動態(tài)光電調度:傳統(tǒng)網(wǎng)絡更傾向于離線規(guī)劃與靜態(tài)調度,l高帶寬利用率:在長距傳輸中,帶寬利用率將直接影響數(shù)據(jù)傳輸效率和成本,提高利用率即可在單位時間內(nèi)傳輸更多數(shù)l低丟包率:丟包會導致數(shù)據(jù)重傳,從而占用額外帶寬資源并l傳輸延遲及網(wǎng)絡狀態(tài)反饋滯后:數(shù)千公里的傳輸距離引入不可忽視的傳輸時延,這使得網(wǎng)絡狀態(tài)反饋存在一定滯后性。傳統(tǒng)基于丟包的擁塞控制算法(如Cubic算法)在長距離傳l光纖傳輸?shù)腻e包問題:超長距光纖傳輸中,錯包問題難以完目前主流跨域傳輸算法均基于TCP協(xié)議實現(xiàn),根據(jù)具體應用場以提高TCP在遠距網(wǎng)絡上的可擴展性。為應對長距傳輸面臨的高帶口增長解耦,實現(xiàn)公平帶寬分配和穩(wěn)定廣域傳輸;BBR(Bottleneck網(wǎng)絡中已部署應用;PCCVivace通過結合PCC基本框架與機器學習問題;Copa提出了三種具體的控制方式,能夠根據(jù)目標速率調整當前發(fā)送速率,并迅速將流量收斂至合適的公平速率。Copa可有效應問題,Annulus使用雙控制回路進行擁塞控制。一條控制回路處理廣智算中心流量的共存問題,實現(xiàn)跨智算中心的擁塞反饋。在發(fā)送端,心間網(wǎng)絡的異構問題,混合擁塞控制(GTCP,GeneralTransmissionControlProtocol)將反應式和主發(fā)端驅動,通過不斷探測網(wǎng)絡可用帶寬,并在收到擁塞信號(丟包、andDelaybasedCongest機制,通過帶內(nèi)遙測與RTT分別測量廣域網(wǎng)與智算中心內(nèi)的排隊時延,并通過比例積分微分(PID,ProportionalIntegralDerivative)調目的IP地址為對象進行隊列隔離,來對入播流量進行快速監(jiān)測和控制。Floodgate采用信令機制,下游交換機定期向上游發(fā)送累計信令值來通告隊列長度,以此控制上游交換機的發(fā)送和暫停;CaPFC(CongestionawarePriorityFlowControl)是基于PFC的改進型流控在交換機內(nèi)部傳遞擁塞信息,以提升流控對擁的發(fā)生和解除,從而實現(xiàn)更高效的流量控制;GFC(GentleFlowControl)是針對智算中心網(wǎng)絡死鎖問題的流控機制。區(qū)別于PFC完全暫停流發(fā)送的方式,GFC基于預設函數(shù)從下游入隊列長度來推導Association)組織基于InfiniBand(IB)架構而提出。其允許計算機系統(tǒng)直接訪問遠程計算機內(nèi)存而無需CPU參與,從而顯著減少通信延遲和CPU開銷,是一種高性能網(wǎng)絡傳輸技術。但由于原生RDMA術劣勢越發(fā)凸顯,因此RDMA從局域網(wǎng)邁向廣域網(wǎng)已成為一個重要廣域RDMA技術為最大限度地利舊現(xiàn)有網(wǎng)絡設備與線路,因此在IEEE802.3基礎上使用IP協(xié)議進行傳輸,采用RoCEv2或iWARP智算中心間基于現(xiàn)有廣域網(wǎng)進行互聯(lián),采用廣域RDMA技術承載海量數(shù)據(jù)。RDMA網(wǎng)卡(含DPU)直接部署在物理機中方式考慮,在廣域網(wǎng)上進行長距離RDMA傳輸容許輕微有損,以保主流的以太網(wǎng)網(wǎng)絡傳輸協(xié)議棧,因此在廣域RD由于UDP的不可靠性,在傳輸過程中會面臨丟包問題,而且實驗顯示,進入廣域網(wǎng)后,RTT隨著傳輸距離變長而增加,丟包對的廣域網(wǎng)中,配合Go-Back-N或SACK機制來檢測丟包和重傳,并組織,其iWARP協(xié)議和InfiniBand無法兼容,具體協(xié)議如圖4-6所并未指定物理層信息,因此能夠運行在任何使用TCP/IP協(xié)議的網(wǎng)絡800G及以上的高速光傳輸方案。同時,為滿足高速光傳輸下的超長G.654.E光纖兼具超低損耗和大有效面積特性,相較于常規(guī)的距離傳輸性能。因此,G.654.E光纖被公認為是下一代超高速長距離G.654.E光纖屬于新型截止波長位移單模光纖,符合G.654.E標發(fā)布,是ITU-TG.654《截止波長位移單模光纖光纜的特性》的最新大有效面積的特點,但其獨特優(yōu)勢在于工作溫度、宏前面四類光纖主要應用于溫度恒定在-1℃~2℃之間的海洋環(huán)境,而G.654.E光纖適用于陸上網(wǎng)絡,環(huán)境溫度可從-65℃變化至85℃。此外,G.654.E光纖可抵抗各類應力,具備極佳的抗彎性能,以應對陸地復雜環(huán)境中的環(huán)境壓力、彎曲應力、機械沖擊等。1)提高光信噪比值:光信噪比是影響光傳輸質量的重要參數(shù)之實現(xiàn)了大有效面積,使得光纖可傳輸更高的光功率。因此,與常規(guī)3)降低網(wǎng)絡部署成本:單從光纖本身而言,G.654.E比G.652傳統(tǒng)實芯光纖發(fā)展成熟、應用廣泛,但因基質材料的3)低色散特性:空芯光纖的傳輸介質是空氣,極大降低了材料4)超低非線性特性:空氣芯中光與介質的相互作用減弱,從而駕駛、智慧問診等。為了迎接AI時代,眾多云廠商力服務外,正紛紛入局開拓人工智能市場,建設大規(guī)模GPU智算計本項目分為多個不同業(yè)務平面的物理組網(wǎng),包括虛擬私有云(VPC,VirtualPrivateCloud)網(wǎng)絡、參數(shù)面網(wǎng)絡、服務器BMC網(wǎng)絡、交換機管理網(wǎng)絡等,整體AI智算網(wǎng)絡方案主要針對參數(shù)面網(wǎng)絡GPU服務器通過不同的網(wǎng)絡接口連接至不同的網(wǎng)絡平面中,其(1)底層協(xié)議棧:支持RDMA應用的底層協(xié)議通常有IB和(2)無損以太網(wǎng)絡:RoCEv2使用UDP頭部來封裝RDMA相層頭部字段中的ECN標記位,兩者結合保證流量在傳統(tǒng)以太網(wǎng)內(nèi)的lLeaf:華為4槽CE9860盒式交換機,搭配8×400GElLeaf交換機通過32×200G端口下行連接服務器,采用Y交換機,8個網(wǎng)口分別配置獨立的IP地址。lNSLB:AI訓練場景存在大量跨Leaf流量,依靠傳統(tǒng)算力的使用門檻與成本投入,從而推動AI市場蓬勃發(fā)展,們針對AI領域提出了多項發(fā)展建議和提案。其中,新型數(shù)據(jù)中心作網(wǎng)絡控制器,結合RDMA、智能網(wǎng)卡、PFC/ECN等技術,建設了集未來網(wǎng)絡、工業(yè)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)等領域的技術創(chuàng)新。OpenConfigYANG模型定義網(wǎng)絡設備數(shù)據(jù)模型,實現(xiàn)對NetConf、P4Runtime等接口標準,動態(tài)部署和增刪在服務器端,虛擬交換機(vSwitch)在處理網(wǎng)絡流量時,會消耗大量的宿主機計算資源。為保證網(wǎng)絡數(shù)據(jù)的轉發(fā)性能,vSwitch通任務卸載到網(wǎng)卡上處理,從而釋放大量CPU資源,減少服務器的運校驗等操作,轉移到網(wǎng)卡硬件中處理,使得CPU的發(fā)包路徑更短、國家天文臺/紫金山天文臺/上海天文臺、中國電信炫彩公司、南京大的協(xié)同工作,提升整體計算效率,并優(yōu)化硬件接口和數(shù)據(jù)傳輸路徑,提高算力資源利用率;ii)研發(fā)新一代高速互連技術,提升數(shù)據(jù)中心執(zhí)行效率與性能;ii)深入研究并行計算算法,挖掘多核處理和異構iii)推進AI算法在資源分配和任務調度中的應用,以進一步提升系統(tǒng)性能,并支持適應不同的負載與任務需求i)推動行業(yè)標準的制定與推廣,鼓勵相關企業(yè)、科研機構和行業(yè)組ii)倡導開放硬件與軟件平臺,促進建立開源社區(qū),鼓勵企業(yè)和開發(fā)BottleneckBandwidthandBackpressureFlowCoCongestionawarePriorityFlDataCenterQuantizedCongestionNotificatDisaggregatedDistributedChDifferentiatedServicesCodEqual-CostMultipleExplicitCongestionNotificHuaweiCollectiveCommunicationLiHighPerformanceCompHighPrecisionCongestionConHigh-PerformanceNetwoINTandDelaybasedCongestiNGNeNextGenerationNetworkEvolutionNICNetworkInterfaceCardNSLBNetworkScaleLoadBalancePriority-basedFlowCProportionalIntegralDeriProtocolIndependentSwitchArchiteRemoteDirectMemoryReconfigurableOpticalAdd/DropMultipleUltraEthernetConsortVNF[1]“十四五”國家信息化規(guī)劃.2021-12.URL:/2021-12/27/c_1642205314518676.htm.[2]新華三,中國信通院.2023智算算力發(fā)展白皮書.2023-08.[3]中國移動通信研究院.新一代智算中心網(wǎng)絡白皮書.2022.[4]Gavin.WhatisRDMA?RoCEvs.InfiniBandvs.iWARPDifference.2023-12.URL:/blog/what-is-rdma-roce-vs-infiniband-vs-iwar-difference.[5]IEEE802.1Q.DataCenterBridgingWG[Online].URL:/1/pages/dcbridges.html.[6]ZhangZ,ZhangJ,MaH,etal.,"ADMIRE+:curiosity-exploration-drivenreinforcementlearningwithdynamicgraphattentionnetworksforIP/opticalcross-layerrouting,"49thEuropeanConferenceonOpticalCommunications(ECOC),2023.[7]S.Ha,I.Rhee,andL.Xu,“Cubic:anewTCP-friendlyhigh-speedTCPvariant,”inProc.ACM,2008.[8]N.Cardwell,Y.Cheng,C.S.Gunn,etal.,“BBR:Congestion-basedcongestioncontrol,”ACMQueue,vol.14,no.5,pp.50-83,2016.[9]M.Dong,T.Meng,D.Zarchy,etal.,“PCCVivace:Online-learningcongestioncontrol,”inProc.USENIXNSDI,2018.[10]V.Arun,andH.Ba

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論