![全調(diào)度以太網(wǎng)技術(shù)架構(gòu)白皮書2023_第1頁](http://file4.renrendoc.com/view/8f10b52b529a0b593c276fa061e56dc3/8f10b52b529a0b593c276fa061e56dc31.gif)
![全調(diào)度以太網(wǎng)技術(shù)架構(gòu)白皮書2023_第2頁](http://file4.renrendoc.com/view/8f10b52b529a0b593c276fa061e56dc3/8f10b52b529a0b593c276fa061e56dc32.gif)
![全調(diào)度以太網(wǎng)技術(shù)架構(gòu)白皮書2023_第3頁](http://file4.renrendoc.com/view/8f10b52b529a0b593c276fa061e56dc3/8f10b52b529a0b593c276fa061e56dc33.gif)
![全調(diào)度以太網(wǎng)技術(shù)架構(gòu)白皮書2023_第4頁](http://file4.renrendoc.com/view/8f10b52b529a0b593c276fa061e56dc3/8f10b52b529a0b593c276fa061e56dc34.gif)
![全調(diào)度以太網(wǎng)技術(shù)架構(gòu)白皮書2023_第5頁](http://file4.renrendoc.com/view/8f10b52b529a0b593c276fa061e56dc3/8f10b52b529a0b593c276fa061e56dc35.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
前言.................................................................................................................................................2縮略語列表.........................................................................................................................................41.背景與需求......................................................................................................................................52.GSE網(wǎng)絡(luò)架構(gòu)介紹........................................................................................................................62.2.1GSE整體架構(gòu)...........................................................................................................62.2.2GSE架構(gòu)設(shè)備...........................................................................................................72.2.3GSE架構(gòu)特性...........................................................................................................82.3.1兼容以太網(wǎng)技術(shù).......................................................................................................82.3.2無阻塞網(wǎng)絡(luò)...............................................................................................................92.3.3提高有效帶寬...........................................................................................................92.3.4優(yōu)化長尾時(shí)延技術(shù).................................................................................................103.GSE網(wǎng)絡(luò)核心技術(shù)......................................................................................................................103.1.1PKTC概念..............................................................................................................113.1.2PKTC開銷..............................................................................................................123.1.3GSEHeader位置....................................................................................................123.2.1動態(tài)負(fù)載信息構(gòu)建................................................................................................133.2.2動態(tài)路徑切換技術(shù)................................................................................................143.2.3流量排序機(jī)制........................................................................................................153.3.1基于全局的轉(zhuǎn)發(fā)技術(shù)............................................................................................163.3.2基于DGSQ的調(diào)度技術(shù).......................................................................................174.組網(wǎng)應(yīng)用展望.............................................................................................................................21縮略語列表縮略語英文全名中文解釋AIArtificialIntelligence人工智能AIGCAI-GeneratedContent人工智能生產(chǎn)內(nèi)容CPUCentralProcessingUnit中央處理器DataProcessingUnit數(shù)據(jù)處理單元ECMPEqualCostMultiPath等價(jià)多路徑路由ExplicitCongestionNotification顯式擁塞通告FibreChannel光纖通道GPUGraphicsProcessingUnit圖形處理器GSFGlobalSchedulingFabirc全調(diào)度交換網(wǎng)絡(luò)GSOSGlobalSchedulingOperatingSystem全調(diào)度操作系統(tǒng)GSPGlobalSchedulingProcessor全調(diào)度網(wǎng)絡(luò)處理節(jié)點(diǎn)Head-of-lineblocking隊(duì)首阻塞JCTJobCompletionTime任務(wù)完成時(shí)間MachineLearning機(jī)器學(xué)習(xí)Priority-basedFlowControl基于優(yōu)先級的流量控制Physical端口物理層PKTCPacketContainer報(bào)文容器RDMARemoteDirectMemoryAccess遠(yuǎn)程直接內(nèi)存訪問RDMAoverConvergedEthernet融合以太網(wǎng)承載RDMAVOQVirtualOutputQueue虛擬輸出隊(duì)列DGSQDynamicGlobalSchedulingQueue動態(tài)全局調(diào)度隊(duì)列1.背景與需求目前,AIGC(AI-GeneratedContent,人工智能生產(chǎn)內(nèi)容)發(fā)展迅猛,迭代速度呈現(xiàn)指數(shù)級增長,全球范圍內(nèi)經(jīng)濟(jì)價(jià)值預(yù)計(jì)將達(dá)到數(shù)萬億美元。在中國市場,AIGC的應(yīng)用規(guī)模有望在2025年突破2000億元,這一巨大的潛力吸引著業(yè)內(nèi)領(lǐng)軍企業(yè)競相推出千億、萬億級參數(shù)量的大模型,底層GPU算力部署規(guī)模也達(dá)到萬卡級別。以GPT3.5為例,參數(shù)規(guī)模達(dá)1750億,作為訓(xùn)練數(shù)據(jù)集的互聯(lián)網(wǎng)文本量也超過45TB,其訓(xùn)練過程依賴于微軟專門建設(shè)的AI超算系統(tǒng),以及由1萬顆V100GPU組成的高性能網(wǎng)絡(luò)集群,總計(jì)算力消耗約為3640PF-days(即每分布式并行計(jì)算是實(shí)現(xiàn)AI大模型訓(xùn)練的關(guān)鍵手段,通常包含數(shù)據(jù)并行、流水線并行及張量并行等多種并行計(jì)算模式。所有并行模式均需要多個(gè)計(jì)算設(shè)備間進(jìn)行多次集合通信操作。另外,訓(xùn)練過程中通常采用同步模式,多機(jī)多卡間完成集合通信操作后才可進(jìn)行訓(xùn)練的下一輪迭代或計(jì)算。智算中心網(wǎng)絡(luò)作為底層通信連接底座,需要具備高性能、低時(shí)延的通信能力。一旦網(wǎng)絡(luò)性能不佳,就會影響分布式訓(xùn)練的質(zhì)量和速度。面向未來智算中心規(guī)模建設(shè)和AI大模型發(fā)展及部署需求,中國移動聯(lián)合多家合作伙伴推出了全調(diào)度以太網(wǎng)技術(shù)方案(GSE打造無阻塞、高帶寬及超低時(shí)延的新型智算中心網(wǎng)絡(luò),助力AIGC等高性能業(yè)務(wù)快速發(fā)展。2.GSE網(wǎng)絡(luò)架構(gòu)介紹全調(diào)度以太網(wǎng)面向AI、HPC等高性能計(jì)算場景設(shè)計(jì),架構(gòu)設(shè)計(jì)遵循以下三大原則:全調(diào)度以太網(wǎng)構(gòu)建開放透明標(biāo)準(zhǔn)化的技術(shù)體系,供所有高性能計(jì)算生態(tài)涉及表、操作系統(tǒng)等上下游產(chǎn)業(yè)共同使用。全調(diào)度以太網(wǎng)可適應(yīng)多種高性能計(jì)算場景,凡是涉及到無損、高帶寬利用率、超低時(shí)延需求的業(yè)務(wù)場景均可通用。全調(diào)度以太網(wǎng)不是重造以太網(wǎng),而是將高性能計(jì)算需求融入以太網(wǎng),可最大限度地重用以太網(wǎng)物理層,兼容以太網(wǎng)生態(tài)鏈,如光模塊、PHY層芯片等。為打造無阻塞、高帶寬、低時(shí)延的高性能網(wǎng)絡(luò),GSE架構(gòu)應(yīng)運(yùn)而生,該架構(gòu)主要包括計(jì)算層、網(wǎng)絡(luò)層和控制層三個(gè)層級,包含計(jì)算節(jié)點(diǎn)、GSP、GSF及GSOS等四類設(shè)備。2.2.1GSE整體架構(gòu)全調(diào)度以太網(wǎng)是具備無阻塞、高吞吐、低時(shí)延的新型以太網(wǎng)架構(gòu),可更好服務(wù)于高性能計(jì)算,滿足AI大模型部署及訓(xùn)推需求。全調(diào)度以太網(wǎng)架構(gòu)自上而下分為三層,分別為控制層、網(wǎng)絡(luò)層和計(jì)算層,其中關(guān)鍵點(diǎn)在于創(chuàng)新的引入一種全新的動態(tài)全局隊(duì)列調(diào)度機(jī)制。動態(tài)全局調(diào)度隊(duì)列(DGSQ)不同于傳統(tǒng)的VOQ,其不是預(yù)先基于端口靜態(tài)分配,而是按需、動態(tài)基于數(shù)據(jù)流目標(biāo)設(shè)備端口創(chuàng)建,為了節(jié)省隊(duì)列資源數(shù)量,甚至可以基于目標(biāo)或途徑設(shè)備的擁塞反饋按需創(chuàng)建?;贒GSQ調(diào)度以實(shí)現(xiàn)在整個(gè)網(wǎng)絡(luò)層面的高吞吐、低時(shí)延、均衡調(diào)度??刂茖樱喊旨惺紾SOS,以及GSP和GSF設(shè)備端分布式NOS。其中,集中式GSOS用于提供網(wǎng)絡(luò)全局信息,實(shí)現(xiàn)基于全局信息編址(例如設(shè)備節(jié)點(diǎn)ID等)、日常運(yùn)維管理等功能。設(shè)備端分布式NOS具備獨(dú)立的控制面和管理面,可運(yùn)行容器的負(fù)載均衡、DGSQ調(diào)度等屬于設(shè)備自身的網(wǎng)絡(luò)功能,通過設(shè)備分布式管控能力,提升整網(wǎng)可靠性。網(wǎng)絡(luò)層:通過GSP和GSF的分工協(xié)作,構(gòu)建出具備全網(wǎng)流量有序調(diào)度、各鏈路間負(fù)載均衡、網(wǎng)絡(luò)異常精細(xì)反壓等技術(shù)融合的交換網(wǎng)絡(luò),是全調(diào)度以太網(wǎng)的主要實(shí)現(xiàn)層。其中,F(xiàn)abric部分可支持二層GSF擴(kuò)展,以滿足更大規(guī)模的組網(wǎng)需求。計(jì)算層:包含高性能計(jì)算卡(GPU或CPU)及網(wǎng)卡,為全調(diào)度以太網(wǎng)的服務(wù)層。初期將計(jì)算節(jié)點(diǎn)作為全調(diào)度以太網(wǎng)邊界,僅通過優(yōu)化交換網(wǎng)絡(luò)能力提升計(jì)算集群訓(xùn)練性能。未來考慮計(jì)算與網(wǎng)絡(luò)深度融合,將GSP相關(guān)方案延伸到網(wǎng)卡層或者GPU直出網(wǎng)卡模塊實(shí)現(xiàn),與網(wǎng)絡(luò)層進(jìn)行聯(lián)動形成算網(wǎng)協(xié)同的全調(diào)度以太網(wǎng),進(jìn)一步提升高性能計(jì)算性能。圖2-1GSE技術(shù)分層架構(gòu)2.2.2GSE架構(gòu)設(shè)備GSE架構(gòu)包括計(jì)算節(jié)點(diǎn)、GSP、GSF及GSOS四類設(shè)備,各設(shè)備間協(xié)同工作,分工如下:計(jì)算節(jié)點(diǎn):即服務(wù)器側(cè)的計(jì)算卡、網(wǎng)卡,提供高性能計(jì)算能力。GSP:網(wǎng)絡(luò)邊緣處理節(jié)點(diǎn),用以接入計(jì)算流量,并對流量做全局調(diào)度;流量上行時(shí),具備動態(tài)負(fù)載均衡能力。流量下行時(shí)具備流量排序能力。GSF:網(wǎng)絡(luò)核心交換節(jié)點(diǎn),作為GSP的上一層級設(shè)備,用于靈活擴(kuò)展網(wǎng)絡(luò)規(guī)模,具備動態(tài)負(fù)載均衡能力,以及反壓信息發(fā)布能力。GSOS:全調(diào)度操作系統(tǒng),提供整網(wǎng)管控的集中式網(wǎng)絡(luò)操作系統(tǒng)能力。2.2.3GSE架構(gòu)特性考慮到AIGC等AI/ML應(yīng)用快速發(fā)展以及當(dāng)前標(biāo)準(zhǔn)以太網(wǎng)規(guī)模部署現(xiàn)狀,GSE架構(gòu)應(yīng)具備靈活可擴(kuò)展性,并最大限度兼容以太網(wǎng)特性。GSE架構(gòu)特性具體如下:靈活擴(kuò)展:支持萬卡高性能計(jì)算集群部署,以GSP+GSF的兩層網(wǎng)絡(luò)為常用形態(tài),支持橫向擴(kuò)容。當(dāng)計(jì)算節(jié)點(diǎn)進(jìn)一步擴(kuò)大,兩層網(wǎng)絡(luò)架構(gòu)不足以支撐時(shí),可靈活擴(kuò)展成GSP+GSF+GSF的三層網(wǎng)絡(luò)架構(gòu),保留擴(kuò)展到更多層GSF組網(wǎng)的能力,以滿足業(yè)務(wù)部署需求。生態(tài)開放:秉持生態(tài)開放的原則,構(gòu)建標(biāo)準(zhǔn)開放的技術(shù)協(xié)議棧,促成多廠家設(shè)備間的互聯(lián)互通,共同構(gòu)建全調(diào)度以太網(wǎng)的網(wǎng)絡(luò)層,為大規(guī)模分布式計(jì)算提供高效的網(wǎng)絡(luò)基礎(chǔ)。硬件通用:所有網(wǎng)絡(luò)節(jié)點(diǎn)均支持標(biāo)準(zhǔn)以太網(wǎng),無需專用的信元處理節(jié)點(diǎn),可與標(biāo)準(zhǔn)以太設(shè)備無縫切換。其中,GSP和GSF設(shè)備雖然角色分工不同,但均以以太報(bào)文交換為基礎(chǔ),轉(zhuǎn)發(fā)硬件具有通用性,設(shè)備角色可以由軟件版本控制,從而支持更靈活的部署和維護(hù)。2.3.1兼容以太網(wǎng)技術(shù)以太網(wǎng)標(biāo)準(zhǔn)是當(dāng)前普適性最好的通信標(biāo)準(zhǔn)之一,中國移動以通用開放的宗旨聯(lián)合產(chǎn)業(yè)鏈共同打造GSE網(wǎng)絡(luò),最大程度兼容現(xiàn)有以太網(wǎng)標(biāo)準(zhǔn),兼容性主要體現(xiàn)在如下幾方面:遵循現(xiàn)有以太網(wǎng)PHY、MAC層協(xié)議:遵循現(xiàn)有IEEE802.3協(xié)議對以太網(wǎng)物理層、MAC層的定義,以兼容現(xiàn)有以太網(wǎng)器件(含光模塊、網(wǎng)卡、交換機(jī)等將GSE以功能增量的形式融入到現(xiàn)有以太網(wǎng)中,對以太網(wǎng)進(jìn)行增強(qiáng)。完整的以太網(wǎng)業(yè)務(wù)報(bào)文傳輸:在整個(gè)GSE網(wǎng)絡(luò)中,以完整以太網(wǎng)報(bào)文形式進(jìn)行傳輸,最大程度保留以太網(wǎng)報(bào)文承載內(nèi)容的完整性,以便后續(xù)在GSE網(wǎng)絡(luò)中兼容更多的特性,如在網(wǎng)計(jì)算。遵循現(xiàn)有管控系統(tǒng)與運(yùn)維習(xí)慣:管控系統(tǒng)、運(yùn)維系統(tǒng)的構(gòu)建與以太網(wǎng)轉(zhuǎn)發(fā)技術(shù)一樣復(fù)雜,且與轉(zhuǎn)控平面的協(xié)同體系已成熟。GSE網(wǎng)絡(luò)最大程度上沿用現(xiàn)有管控及運(yùn)維系統(tǒng),做到架構(gòu)不變、運(yùn)維習(xí)慣不變,保證現(xiàn)有以太網(wǎng)的管理手段和運(yùn)維手段的兼容繼承。2.3.2無阻塞網(wǎng)絡(luò)隨著網(wǎng)絡(luò)規(guī)模的不斷提升,報(bào)文交換從單網(wǎng)絡(luò)節(jié)點(diǎn)內(nèi)單跳到網(wǎng)絡(luò)節(jié)點(diǎn)間多跳實(shí)現(xiàn),各節(jié)點(diǎn)間也從松耦合關(guān)系變化為聯(lián)合轉(zhuǎn)發(fā),業(yè)界通過CLOS架構(gòu)搭建大規(guī)模分布式轉(zhuǎn)發(fā)結(jié)構(gòu)來滿足日益增長的轉(zhuǎn)發(fā)規(guī)模需求。該架構(gòu)下,各節(jié)點(diǎn)分布式運(yùn)行,自我決策轉(zhuǎn)發(fā)路徑,無法實(shí)現(xiàn)最優(yōu)的整網(wǎng)性能。為使得大規(guī)模多節(jié)點(diǎn)轉(zhuǎn)發(fā)效果和單節(jié)點(diǎn)一致,需要解決分布式轉(zhuǎn)發(fā)結(jié)構(gòu)內(nèi)部的阻塞問題。造成網(wǎng)絡(luò)阻塞的核心原因是分布式轉(zhuǎn)發(fā)結(jié)構(gòu)中各節(jié)點(diǎn)無法完全感知全局信息,當(dāng)一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)發(fā)送給另一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)時(shí),無法感知下游節(jié)點(diǎn)網(wǎng)絡(luò)情況,導(dǎo)致流量在下游產(chǎn)生擁塞。例如在基于ECMP進(jìn)行負(fù)載均衡的網(wǎng)絡(luò)中,網(wǎng)絡(luò)節(jié)點(diǎn)僅站在自身視角將流量通過哈希選路發(fā)送,最終導(dǎo)致鏈路擁塞、出端口擁堵、交換網(wǎng)絡(luò)利用率低等問題。DGSQ技術(shù)是解決這個(gè)問題的關(guān)鍵技術(shù),該技術(shù)將互不可見的網(wǎng)絡(luò)節(jié)點(diǎn)通過與交換網(wǎng)全局隊(duì)列映射聯(lián)合起來,最終達(dá)到整網(wǎng)最優(yōu)的轉(zhuǎn)發(fā)效果。2.3.3提高有效帶寬基于DGSQ技術(shù),可保證分布式交換網(wǎng)絡(luò)入口節(jié)點(diǎn)發(fā)往交換網(wǎng)絡(luò)的流量從出口節(jié)點(diǎn)看是最優(yōu)的。但流量在網(wǎng)絡(luò)中交換時(shí),傳統(tǒng)ECMP負(fù)載均衡會導(dǎo)致鏈路負(fù)載不均以及哈希極化,特別是在有巨型流存在的情況下,無論巨型流持續(xù)時(shí)間多長,所到之處均可能引起擁塞和丟包。當(dāng)前交換網(wǎng)絡(luò)缺乏有效的帶寬控制和優(yōu)先級管理,丟包將是無差別的,會給應(yīng)用帶來直接的負(fù)面影響?;赑acket的逐包負(fù)載分擔(dān)技術(shù),將任意流量轉(zhuǎn)化成極短的數(shù)據(jù)單元傳輸,徹底消除哈希極化問題,進(jìn)而提高交換網(wǎng)絡(luò)的帶寬利用率。2.3.4優(yōu)化長尾時(shí)延技術(shù)AI大模型訓(xùn)練存在大量Map-Reduce流量模型,任意一輪計(jì)算的結(jié)束均依賴最后一個(gè)結(jié)果的返回,降低網(wǎng)絡(luò)長尾時(shí)延可有效提升訓(xùn)練完成時(shí)間。交換網(wǎng)絡(luò)整體轉(zhuǎn)發(fā)時(shí)延和轉(zhuǎn)發(fā)路徑上中間節(jié)點(diǎn)的擁塞情況正相關(guān),消除中間節(jié)點(diǎn)的擁塞就可消除長尾時(shí)延。DGSQ調(diào)度和高精度負(fù)載均衡技術(shù)融合是解決該問題的關(guān)鍵,一方面,通過DGSQ的PUSH+PULL結(jié)合機(jī)制控制進(jìn)入交換網(wǎng)絡(luò)的報(bào)文數(shù)據(jù)量不會超過整網(wǎng)的轉(zhuǎn)發(fā)容量;另一方面,通過高精度負(fù)載均衡的加持,雙管齊下可以消除交換網(wǎng)絡(luò)任一節(jié)點(diǎn)的擁塞。3.GSE網(wǎng)絡(luò)核心技術(shù)與傳統(tǒng)以太網(wǎng)基于流進(jìn)行負(fù)載分擔(dān)的機(jī)制不同,GSE交換網(wǎng)絡(luò)采用定長的PKTC進(jìn)行報(bào)文轉(zhuǎn)發(fā)及動態(tài)負(fù)載均衡,通過構(gòu)建基于PKTC的DGSQ全調(diào)度機(jī)制、精細(xì)的反壓機(jī)制和無感知自愈機(jī)制,實(shí)現(xiàn)微突發(fā)及故障場景下的精準(zhǔn)控制,全面提升網(wǎng)絡(luò)有效帶寬和轉(zhuǎn)發(fā)延遲穩(wěn)定性。其具體流量轉(zhuǎn)發(fā)流程如圖所示:圖3-1GSE網(wǎng)絡(luò)端到端流量轉(zhuǎn)發(fā)示意圖(1)源端GSP設(shè)備從計(jì)算側(cè)收到Packet后,通過轉(zhuǎn)發(fā)表找到最終出口,并基于最終出口按需將報(bào)文分配到對應(yīng)的DGSQ中進(jìn)行授權(quán)調(diào)度。(2)源端GSP設(shè)備獲得授權(quán)后,Packet將遵循PKTC的負(fù)載均衡要求,將報(bào)文發(fā)送到GSE網(wǎng)絡(luò)中。(3)當(dāng)報(bào)文到達(dá)目的端GSP設(shè)備后,先進(jìn)行PKTC級別的排序,再通過轉(zhuǎn)發(fā)表將報(bào)文存儲到物理Port的隊(duì)列,最終通過端口調(diào)度將報(bào)文發(fā)送到計(jì)算節(jié)點(diǎn)。PKTC是區(qū)別于CELL轉(zhuǎn)發(fā)的一種核心轉(zhuǎn)發(fā)機(jī)制,該機(jī)制下以太網(wǎng)報(bào)文在邏輯上組成虛擬容器,并以該容器為最小單元在交換網(wǎng)絡(luò)中傳輸。本節(jié)分將從PKTC概念、PKTC開銷和PKTC位置三方面進(jìn)行闡述。3.1.1PKTC概念基于報(bào)文的轉(zhuǎn)發(fā)在實(shí)現(xiàn)負(fù)載均衡時(shí),首先需要克服報(bào)文長度隨機(jī)產(chǎn)生的影響,因此需要對負(fù)載均衡的基本轉(zhuǎn)發(fā)單元進(jìn)行歸一化處理,建立定長報(bào)文容器。報(bào)文容器可以容納報(bào)文數(shù)量的設(shè)定可依據(jù)業(yè)務(wù)報(bào)文長度的分布情況進(jìn)行調(diào)整,要求至少能夠容納1個(gè)最長的業(yè)務(wù)報(bào)文,且總長度在芯片轉(zhuǎn)發(fā)能力和解亂序能力允許的情況下盡可能短,以達(dá)到精細(xì)切分?jǐn)?shù)據(jù)流,充分提高瞬間負(fù)載均衡度的目的。為解決上述問題,本方案提出報(bào)文容器的概念,設(shè)計(jì)原理如下圖所示:圖3-2PKTC轉(zhuǎn)發(fā)機(jī)制示意圖報(bào)文容器的實(shí)現(xiàn)是邏輯虛擬的,當(dāng)一個(gè)報(bào)文進(jìn)入GSP節(jié)點(diǎn)時(shí),GSP節(jié)點(diǎn)將記錄其歸屬的報(bào)文容器編號、在該容器中占用的字節(jié)數(shù)等信息,當(dāng)報(bào)文字節(jié)數(shù)超過虛擬報(bào)文容器設(shè)定長度時(shí),將該報(bào)文調(diào)度并紀(jì)錄到下一個(gè)報(bào)文容器中。GSE網(wǎng)絡(luò)各節(jié)點(diǎn)均直接轉(zhuǎn)發(fā)報(bào)文,無需緩存報(bào)文構(gòu)建實(shí)際容器。對于歸屬于相同報(bào)文容器內(nèi)的所有報(bào)文,在交換網(wǎng)絡(luò)中將被負(fù)載均衡到唯一路徑進(jìn)行轉(zhuǎn)發(fā),以保證該報(bào)文容器內(nèi)報(bào)文之間不再亂序,以降低出口GSP節(jié)點(diǎn)解亂序壓力。3.1.2PKTC開銷基于逐包的轉(zhuǎn)發(fā)機(jī)制,需要在數(shù)據(jù)包中攜帶相關(guān)信息,才能被交換網(wǎng)正確識別處理并發(fā)送至目標(biāo)節(jié)點(diǎn)。所以報(bào)文在進(jìn)入GSP時(shí)需要區(qū)分DGSQ,DGSQ的標(biāo)識和系統(tǒng)DGSQ建立目標(biāo)有關(guān)。一般情況下,可基于源設(shè)備、目標(biāo)端口以及在該端口下的優(yōu)先級建立唯一的DGSQ標(biāo)識。當(dāng)然,也可根據(jù)業(yè)務(wù)需求簡化DGSQ精細(xì)度,例如在一個(gè)目標(biāo)端口下設(shè)置4、2或1個(gè)優(yōu)先級,降低DGSQ隊(duì)列的需求量,降低交換芯片開銷。進(jìn)入DGSQ后的報(bào)文,需要經(jīng)過下行調(diào)度授權(quán)才能被發(fā)送到交換網(wǎng)絡(luò)中。此時(shí),可將同一個(gè)入口Leaf節(jié)點(diǎn)發(fā)往同一個(gè)出口Leaf節(jié)點(diǎn)的報(bào)文組成一個(gè)解亂序隊(duì)列,即在每個(gè)報(bào)文容器內(nèi)的所有數(shù)據(jù)包添加相同的序列號(容器的序列)以及源GSPID,下行收到這些報(bào)文后,可基于源GSPID和序列號進(jìn)行解亂序處理。下圖以增加標(biāo)準(zhǔn)以太網(wǎng)報(bào)文頭為例描述,其他內(nèi)部以太報(bào)文構(gòu)建方式下報(bào)文容器的構(gòu)建和轉(zhuǎn)發(fā)原理一致。圖3-3PKTC頭構(gòu)建方式示意圖3.1.3GSEHeader位置GSE網(wǎng)絡(luò)需要對業(yè)務(wù)報(bào)文添加額外信息以用于全局負(fù)載均衡轉(zhuǎn)發(fā)以及排序,這些信息有三種攜帶方式,包括:在標(biāo)準(zhǔn)以太幀之外增加標(biāo)準(zhǔn)擴(kuò)展頭:這種攜帶方式最大的好處是不破壞原始業(yè)務(wù)報(bào)文,但是在兼容性和傳輸效率上會有一定損失。如果為了提升以太網(wǎng)的兼容性而選擇外加以太網(wǎng)Tunnel的方式,傳輸效率會進(jìn)一步降低。圖3-4標(biāo)準(zhǔn)擴(kuò)展頭方式重定義標(biāo)準(zhǔn)以太幀:重新定義報(bào)文的MAC頭,這種攜帶方式的最大好處是傳輸效率高,但是兼容以太網(wǎng)能力較差,只有在特定場景下才可使用。圖3-5重定義以太幀方式在以太網(wǎng)MAC或IP之后擴(kuò)充協(xié)議頭,這種方式的最大好處是平衡了以太網(wǎng)的兼容性和傳輸效率,但是網(wǎng)絡(luò)中對GSE額外信息的處理會需要深入到報(bào)文內(nèi)部信息,會影響轉(zhuǎn)發(fā)時(shí)延。圖3-6協(xié)議頭擴(kuò)充方式為了減少并消除傳統(tǒng)ECMP轉(zhuǎn)發(fā)模型中出現(xiàn)的哈希極化、負(fù)載不均等問題導(dǎo)致的長尾時(shí)延或丟包,基于PacketContainer的技術(shù)可以分為負(fù)載信息構(gòu)建、動態(tài)路徑切換、流量排序機(jī)制三個(gè)部分。3.2.1動態(tài)負(fù)載信息構(gòu)建對出端口負(fù)載信息的評估量化后,可隨機(jī)選出負(fù)載較輕的鏈路之一,為后續(xù)流量的PKTC路徑選擇提供依據(jù)。如下圖所示的轉(zhuǎn)發(fā)模型,GSP1作為接入交換機(jī),當(dāng)某段PKTC通過GSP1交換機(jī)去往GSP2的A2口時(shí),需要對上行鏈路進(jìn)行負(fù)載評估,以決策此段PKTC的傳輸出口。圖3-7流量轉(zhuǎn)發(fā)模型示意圖決策過程可以參考下圖所示:在PKTC的路徑選擇上,先進(jìn)行擁塞Level的選擇,選擇Level層級最低的出口集合,再從這些出口集合中隨機(jī)選擇一個(gè)出口,防止在多路徑選擇下存在同步效應(yīng)。圖3-8動態(tài)負(fù)載均衡決策過程3.2.2動態(tài)路徑切換技術(shù)當(dāng)出口的負(fù)載出現(xiàn)動態(tài)變化后,每一個(gè)PKTC都可以按照算路算法進(jìn)行路徑的重新選擇,以保證全局的負(fù)載均衡效果。在切換過程中,需要保證每個(gè)PKTC在路徑選擇上的一致性,否則會增加亂序程度,加大排序壓力。路徑選擇仍按照先選Level層級,再隨機(jī)選擇出口的方式進(jìn)行。圖3-9動態(tài)路徑切換機(jī)制3.2.3流量排序機(jī)制流量經(jīng)過負(fù)載均衡和動態(tài)路徑切換后,形成多傳輸路徑。由于不同路徑的傳輸時(shí)延存在一定差異,所以當(dāng)不同路徑的流量到達(dá)最終出口所在的節(jié)點(diǎn)時(shí)需要進(jìn)行重排序處理。3.3基于PKTC的DGSQ調(diào)度技術(shù)網(wǎng)絡(luò)傳輸中,常常會出現(xiàn)在某些時(shí)刻多個(gè)口打一個(gè)口的現(xiàn)象。如果這個(gè)現(xiàn)象是短暫的,在出口處可以通過一定的Buffer進(jìn)行吸收;如果時(shí)間持續(xù)過長且多個(gè)入口的流量相加遠(yuǎn)大于出口的線速帶寬,為了避免丟包,出口設(shè)備需啟用反壓機(jī)制保護(hù)流量,而反壓一旦出現(xiàn),網(wǎng)絡(luò)的轉(zhuǎn)發(fā)性能就會大幅度下降。圖3-11網(wǎng)絡(luò)Incast流量發(fā)生場景如上圖所示,GSP1的A1口和GSP3的A3口同時(shí)向GSP2的A2口發(fā)送流量,且流量相加大于A2的出口帶寬,造成A2口出口隊(duì)列擁塞。針對這種情況,僅通過負(fù)載均衡是無法規(guī)避的,需全局控制保證送到A2的流量不超過其出口帶寬才可避免。因此,引入基于全局的轉(zhuǎn)發(fā)技術(shù)和基于DGSQ的調(diào)度技術(shù),才可實(shí)現(xiàn)全局流量的調(diào)度控制。3.3.1基于全局視圖的轉(zhuǎn)發(fā)技術(shù)在傳統(tǒng)數(shù)據(jù)中心以太網(wǎng)轉(zhuǎn)發(fā)模型中,轉(zhuǎn)發(fā)表以以報(bào)文攜帶的信息為主體,并且根據(jù)下一跳連接的出口,編輯報(bào)文頭信息,如下圖所示:圖3-12流量轉(zhuǎn)發(fā)模型示意圖從GSP1任意端口進(jìn)來的報(bào)文轉(zhuǎn)發(fā)到GSP2-A2口,需要在GSP1上形成轉(zhuǎn)發(fā)表及對應(yīng)的出口信息,這些信息是本設(shè)備基于自身及相鄰設(shè)備的狀態(tài)形成,但對圖3-14基于DGSQ的調(diào)度技術(shù)后續(xù)路徑上網(wǎng)絡(luò)設(shè)備的狀態(tài)既不感知也不控制,該方式無法構(gòu)建無阻塞的全調(diào)度以太網(wǎng)。需要構(gòu)建一種基于全局視野的轉(zhuǎn)發(fā)技術(shù),支持在接入交換機(jī)的轉(zhuǎn)發(fā)表中指明最終目的,并通過端到端路徑調(diào)度及綜合化授權(quán)機(jī)制,動態(tài)形成負(fù)載分擔(dān)信息并形成下一跳出口信息。圖3-13基于全局視圖的選路機(jī)制3.3.2基于DGSQ的調(diào)度技術(shù)基于DGSQ的全局調(diào)度技術(shù)如下圖所示,在GSP上建立網(wǎng)絡(luò)中所有設(shè)備出口的虛擬隊(duì)列,用以模擬本設(shè)備到對應(yīng)端口的流量調(diào)度。本設(shè)備DGSQ的調(diào)度帶寬依賴授權(quán)請求和響應(yīng)機(jī)制,由最終的設(shè)備出口、途經(jīng)的設(shè)備統(tǒng)一進(jìn)行全網(wǎng)端到端授權(quán)。由于中間節(jié)點(diǎn)的流量壓力差異,GSP去往最終目的端口不再通過ECMP路徑授權(quán)權(quán)重選擇路徑,而是需要基于授予的權(quán)重在不同的路徑上進(jìn)行流量調(diào)度。通過這種方式,可保證全網(wǎng)去任何一個(gè)端口的流量不但不會超過該端口的負(fù)載能力,也不會超出中間任一網(wǎng)絡(luò)節(jié)點(diǎn)的轉(zhuǎn)發(fā)能力,可降低網(wǎng)絡(luò)中Incast流量產(chǎn)生的概率,減少全網(wǎng)內(nèi)部反壓機(jī)制產(chǎn)生?;赑KTC的負(fù)載均衡技術(shù)和DGSQ全局調(diào)度技術(shù)在平穩(wěn)狀態(tài)下可很好得進(jìn)行流量調(diào)控與分配,但在微突發(fā)、鏈路故障等異常場景下,短時(shí)間內(nèi)網(wǎng)絡(luò)還是會產(chǎn)生擁塞,這時(shí)仍需要依賴反壓機(jī)制來抑制源端的流量發(fā)送。傳統(tǒng)PFC或FC都是點(diǎn)到點(diǎn)的局部反壓技術(shù),一旦觸發(fā)擴(kuò)散到整個(gè)網(wǎng)絡(luò)中,引起HoL、網(wǎng)絡(luò)風(fēng)暴等問題。在全調(diào)度以太網(wǎng)技術(shù)中,需要有精細(xì)的反壓機(jī)制來守護(hù)網(wǎng)絡(luò)的防線,通過最小的反壓代價(jià)來穩(wěn)定網(wǎng)絡(luò)的負(fù)載。圖3-15網(wǎng)絡(luò)擁塞場景示意圖例如,如上圖所示,GSF1的B4出口出現(xiàn)擁塞,會降低甚至?xí)和Υ硕丝诘腄GSQ調(diào)度授權(quán)。如果還有其他路徑選擇,將會觸發(fā)采用動態(tài)負(fù)載均衡的方式切換到其他鏈路;如果當(dāng)前網(wǎng)絡(luò)中只有這一條鏈路,或者其他鏈路也即將處于擁塞狀態(tài),則不構(gòu)成切換條件,此時(shí)需要啟動反壓機(jī)制。為了犧牲最小限度的流量保證整網(wǎng)流量的穩(wěn)定,反壓的范圍需要控制得足夠精確。例如只抑制去往GSP2的流量,去往其他設(shè)備的流量不受影響。更近一步的精細(xì)控制策略是通過GSF1-B4去往GSP2的流量被抑制,其他設(shè)備的流量不受影響。最終的精細(xì)程度將在后續(xù)的GSE標(biāo)準(zhǔn)中制定。全調(diào)度以太網(wǎng)架構(gòu)中,通過全調(diào)度技術(shù)構(gòu)建了入端口到出端口的虛擬隊(duì)列路徑,對入端口的轉(zhuǎn)發(fā)業(yè)務(wù)而言無需感知到出端口的每一跳路徑,僅需要明確出端口即可。其對GSF組成的Fabric網(wǎng)絡(luò)是無感知的,路徑的可達(dá)性及切換由Fabric網(wǎng)絡(luò)的負(fù)載均衡技術(shù)保障。GSF采用了基于PKTC的逐級負(fù)載均衡技術(shù)。當(dāng)Fabric網(wǎng)絡(luò)中的某條鏈路或某臺GSF發(fā)生故障時(shí),與其相連的設(shè)備節(jié)點(diǎn)能夠?qū)崟r(shí)感知到鏈路狀態(tài)變化,并自動將相應(yīng)鏈路從負(fù)載均衡備選列表中移除,回收DGSQ涉及此路徑的調(diào)度授權(quán),從而讓PKTC分?jǐn)偟狡渌捎面溌?。?dāng)設(shè)備或鏈路故障恢復(fù)后,相連設(shè)備節(jié)點(diǎn)同樣可以實(shí)時(shí)感知到鏈路狀態(tài)變化,并完成自愈?;赑KTC的負(fù)載均衡技術(shù)在以上鏈路切換過程中可以保持穩(wěn)定的均衡性,不會像基于流的負(fù)載均衡受哈希結(jié)果或鏈路數(shù)量少的影響,可避免某條鏈路負(fù)載突發(fā)疊加的情況。轉(zhuǎn)發(fā)面主要通過簡化、并行化和旁通轉(zhuǎn)發(fā)流程等手段降低設(shè)備內(nèi)轉(zhuǎn)發(fā)路徑的時(shí)延。隨著端口速率的不斷提升,高速信號完整性的挑戰(zhàn)也越來越大,需要不斷強(qiáng)大其編解碼復(fù)雜度也越高,所增加的時(shí)延也越大,100G以上速率FEC所占用的時(shí)延已經(jīng)達(dá)到整體轉(zhuǎn)發(fā)時(shí)延的20%左右。FEC的過程又可以分為檢錯(cuò)邏輯和糾錯(cuò)邏輯。在低速的FEC處理中往往沒有做上述流程的區(qū)分,但隨著速率提升、檢測及糾錯(cuò)邏輯的復(fù)雜,細(xì)分差異化處理會變?yōu)樵絹碓接幸饬x。檢錯(cuò)和糾錯(cuò)分離技術(shù)可提前校驗(yàn)數(shù)據(jù)塊內(nèi)是否存在誤碼。在無錯(cuò)情況下,可旁路FEC譯碼流程,消除無錯(cuò)場景下FEC收幀和譯碼時(shí)延,降低無錯(cuò)情況下的接口時(shí)延,消除高增益FEC碼字的時(shí)延弊端;有錯(cuò)的情況下,才進(jìn)一步進(jìn)行糾錯(cuò)處理。因?yàn)榘l(fā)生誤碼的概率畢竟遠(yuǎn)小于無誤碼,此方式可以優(yōu)化端口的平均轉(zhuǎn)發(fā)時(shí)延。靈活FEC(FlexFEC)技術(shù)可以根據(jù)鏈路的誤碼率狀態(tài),自動選擇合適的FEC糾錯(cuò)算法,以便在保持可靠性的同時(shí)提供低延遲。全調(diào)度以太
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 環(huán)保理念下的現(xiàn)代家居設(shè)計(jì)風(fēng)格
- 現(xiàn)代飲食文化與胃腸健康的平衡
- 生產(chǎn)環(huán)境下的操作規(guī)范與質(zhì)量控制
- 現(xiàn)代企業(yè)網(wǎng)絡(luò)攻擊的防范與應(yīng)對
- 現(xiàn)代企業(yè)決策分析與科學(xué)決策
- 2023三年級語文下冊 第八單元 口語交際:趣味故事會配套說課稿 新人教版
- Unit5 Humans and nature Lesson 1 A sea story 說課稿-2024-2025學(xué)年高中英語北師大版(2019)必修第二冊001
- 2024-2025學(xué)年新教材高中數(shù)學(xué) 第五章 三角函數(shù) 5.7 三角函數(shù)的應(yīng)用(2)說課稿 新人教A版必修第一冊
- 2023八年級數(shù)學(xué)下冊 第18章 平行四邊形18.1 平行四邊形的性質(zhì)第2課時(shí) 平行四邊形的性質(zhì)定理3說課稿 (新版)華東師大版
- 2023二年級語文上冊 第二單元 2 樹之歌配套說課稿 新人教版
- 反走私課件完整版本
- 四年級下冊數(shù)學(xué)知識點(diǎn)總結(jié)
- 第三屆全國石油工程設(shè)計(jì)大賽作品(油藏工程設(shè)計(jì)單項(xiàng))
- (人衛(wèi)版第九版?zhèn)魅静W(xué)總論(一))課件
- 壓力性損傷護(hù)理質(zhì)控細(xì)則及集束化管理措施
- 《批判性思維原理和方法》全套教學(xué)課件
- 產(chǎn)后康復(fù)-腹直肌分離
- 丙烯-危險(xiǎn)化學(xué)品安全周知卡
- 粉條加工廠建設(shè)項(xiàng)目可行性研究報(bào)告
- 《配電網(wǎng)設(shè)施可靠性評價(jià)指標(biāo)導(dǎo)則》
- 2024年國家電網(wǎng)招聘之通信類題庫附參考答案(考試直接用)
評論
0/150
提交評論