




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-030041數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004版權(quán)聲明本白皮書(shū)版權(quán)屬于中國(guó)移動(dòng)通信集團(tuán)公司、中國(guó)信息通信研究院并受法律數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)”。違反上述聲明者,編者將追究其I編寫(xiě)組數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004 I II VI 1 3 4 4 6 7 9 10 13 13 14 14 15 16 18 21 21 23 25數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004 26 27 27 29 29 30 31 32 34 34 35 36 37 37 41 42 42 43 44 45 45 46 48 49數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004V術(shù)語(yǔ)與縮略語(yǔ)MeaningExplicitCongestionDataCenterQuantizedCongestionHighPrecisionCongQuantizedCongestionDistributedCongestion-AwareLoBackwardCongestionNForwardExplicitCongestion數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》中指出數(shù)字經(jīng)濟(jì)是繼農(nóng)業(yè)經(jīng)濟(jì)、工業(yè)經(jīng)濟(jì)之后的主要經(jīng)濟(jì)形態(tài),是以數(shù)據(jù)資源為關(guān)鍵要素,以現(xiàn)代信息網(wǎng)絡(luò)為主要載體,以信息通信技術(shù)融合應(yīng)用、全要素?cái)?shù)字隨著數(shù)字經(jīng)濟(jì)的持續(xù)發(fā)展,算力需求呈爆發(fā)性增長(zhǎng),逐步成為靈活、敏捷的數(shù)據(jù)中心網(wǎng)絡(luò)新型基礎(chǔ)設(shè)施,成為算力網(wǎng)絡(luò)驅(qū)動(dòng)和演遠(yuǎn)程直接內(nèi)存訪問(wèn)(RemoteDirectMemoryAccess,RDMA)網(wǎng)絡(luò)是一種高性能網(wǎng)絡(luò)傳輸技術(shù)。通過(guò)繞過(guò)操作系統(tǒng)內(nèi)核,RDMA可以直接在網(wǎng)絡(luò)適配器和內(nèi)存之間傳送數(shù)據(jù),從而減少了數(shù)據(jù)傳輸過(guò)程高性能網(wǎng)絡(luò)廣泛應(yīng)用于高性能計(jì)算、云計(jì)算、大數(shù)據(jù)處理等領(lǐng)域,高性能網(wǎng)絡(luò)的重要性在于,為各種應(yīng)用提供了快速、可靠、安全的數(shù)據(jù)傳輸能力,并將數(shù)據(jù)中心、云計(jì)算和大數(shù)據(jù)處理等領(lǐng)域的計(jì)算資源、存儲(chǔ)資源和網(wǎng)絡(luò)資源緊密結(jié)合,提高了整個(gè)系統(tǒng)的效率和性能。同時(shí),高性能網(wǎng)絡(luò)還可以支持更多的應(yīng)用和服務(wù),促進(jìn)了科學(xué)研究、產(chǎn)業(yè)發(fā)展和社會(huì)進(jìn)步。因此,高性能網(wǎng)絡(luò)的發(fā)展和研究1數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004本白皮書(shū)通過(guò)闡明和分析高性能網(wǎng)絡(luò)技術(shù)發(fā)展的過(guò)程與現(xiàn)狀,以網(wǎng)絡(luò)擁塞這一關(guān)鍵問(wèn)題展開(kāi)詳述當(dāng)前業(yè)界擁塞管理控制技術(shù)的架構(gòu)體系,并聚焦擁塞管理控制過(guò)程中面臨不同需求所產(chǎn)生的擁塞檢測(cè)機(jī)制。本白皮書(shū)旨在通過(guò)對(duì)擁塞檢測(cè)技術(shù)的研究,推動(dòng)高性能網(wǎng)2數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004在持續(xù)。因此,作為未來(lái)數(shù)據(jù)中心服務(wù)的提供者,云計(jì)算廠商面臨的需求。一方面,快速膨脹的鏈路速率導(dǎo)致了極高的CPU占用率,每增加一個(gè)用于TCP網(wǎng)絡(luò)傳輸?shù)腃PU資源意味著云計(jì)算廠商能夠出售的虛擬機(jī)減少了一個(gè),這將降低整體的經(jīng)濟(jì)效益。另一方面,機(jī)器學(xué)習(xí)、搜索等業(yè)務(wù)所要求的超低的網(wǎng)絡(luò)延遲(低于10us/跳),為解決這一問(wèn)題,遠(yuǎn)程直接內(nèi)存獲?。≧emoteDirectMemoryAccess,RDMA)技術(shù)開(kāi)始逐漸廣泛地應(yīng)用于數(shù)據(jù)中心網(wǎng)絡(luò)中(本文提及的RDMA無(wú)損網(wǎng)絡(luò)針對(duì)更廣泛應(yīng)用的以太網(wǎng)絡(luò),如無(wú)特殊聲明,1)降低了CPU占用率。數(shù)據(jù)傳輸過(guò)程不再需要CPU的持續(xù)介2)降低了傳輸時(shí)延,避免了數(shù)據(jù)拷貝過(guò)程中頻繁的用戶態(tài)和內(nèi)3數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004正因?yàn)橐陨系募夹g(shù)優(yōu)勢(shì),高性能網(wǎng)絡(luò)已經(jīng)成為云計(jì)算領(lǐng)域應(yīng)用廣泛核心基礎(chǔ)設(shè)施之一。據(jù)公開(kāi)文獻(xiàn)[1]顯示,在微軟Azure存儲(chǔ)集群中,RDMA流量已經(jīng)占據(jù)了超過(guò)一半的比例。在可以預(yù)見(jiàn)的未來(lái),高性能網(wǎng)絡(luò)技術(shù)都將作為云計(jì)算領(lǐng)域的核心基礎(chǔ)設(shè)施之一,深刻地隨著云計(jì)算技術(shù)的發(fā)展,高性能網(wǎng)絡(luò)的應(yīng)用場(chǎng)景日益增多。本節(jié)主要從分布式云存儲(chǔ)、內(nèi)存池化、鍵值存儲(chǔ)、智算中心四個(gè)方向分布式存儲(chǔ)是云計(jì)算中的一個(gè)核心應(yīng)用。各家云廠商都會(huì)提供4數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004就要求了網(wǎng)絡(luò)要提供極高的吞吐量和極低的響應(yīng)時(shí)間。因此,主流云廠商普遍選擇RDMA作為高性能分布式存儲(chǔ)的網(wǎng)絡(luò)解決方案,如公間的測(cè)試結(jié)果。在圖中,Kernal是傳統(tǒng)的TCP/IP協(xié)議,Luna是用的前端網(wǎng)絡(luò),BN是存儲(chǔ)集群后端網(wǎng)絡(luò),SSD是落盤(pán)網(wǎng)絡(luò),SA是阿里自研的SPDK軟件。該實(shí)驗(yàn)很好的對(duì)比了內(nèi)核態(tài)、用戶態(tài)、RDMA對(duì)于存儲(chǔ)業(yè)務(wù)的影響??梢钥吹剑wIO延遲性能上,SolarRDMA5數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004協(xié)議有明顯的優(yōu)勢(shì)。同時(shí),RDMA網(wǎng)絡(luò)協(xié)議棧還在現(xiàn)有的數(shù)據(jù)中心是通過(guò)服務(wù)器構(gòu)建的,每個(gè)服務(wù)器緊密集成了為中心的架構(gòu)已經(jīng)持續(xù)使用了幾十年,但最近的研究表明,未來(lái)即將出現(xiàn)一種向分解式數(shù)據(jù)中心(DisaggregatedDatacenter,DDC)轉(zhuǎn)變的范式。其中,每種資源類型都作為獨(dú)立的資源池進(jìn)行構(gòu)建,6數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004資源池化的一個(gè)關(guān)鍵的促進(jìn)(或阻礙)因素將是網(wǎng)絡(luò)。因?yàn)閷PU與內(nèi)存、磁盤(pán)分解開(kāi)來(lái),原本需要在服務(wù)器內(nèi)部進(jìn)行的資源間通信,而現(xiàn)在必須通過(guò)網(wǎng)絡(luò)進(jìn)行。因此,為了支持良好的應(yīng)用級(jí)性因此,RDMA高性能網(wǎng)絡(luò)作為一個(gè)解決方案在內(nèi)存池化的場(chǎng)景已盡管沒(méi)有完全解決資源池化場(chǎng)景的網(wǎng)絡(luò)互連問(wèn)題,但其仍然是未來(lái)鍵值存儲(chǔ)(Key-ValueStore)是一種數(shù)據(jù)存儲(chǔ)方法,它以鍵值對(duì)(Key-ValuePair)的形式存儲(chǔ)和訪問(wèn)數(shù)據(jù)。與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)相比,鍵值存儲(chǔ)通常更加簡(jiǎn)單、靈活、高效,并且可以處理更大規(guī)模的數(shù)據(jù)。鍵值存儲(chǔ)不要求數(shù)據(jù)具有固定的結(jié)構(gòu)和模式,因此7數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004可以輕松地存儲(chǔ)和檢索各種類型的數(shù)據(jù)。鍵值存儲(chǔ)還支持高度可擴(kuò)展性和分布式部署,可以輕松地在多個(gè)節(jié)點(diǎn)上進(jìn)行水平擴(kuò)展和數(shù)據(jù)在常見(jiàn)應(yīng)用中,Redis就是一種流行的鍵值存儲(chǔ)系統(tǒng)。它支持多種數(shù)據(jù)類型,包括字符串、哈希、列表、集合和有序集合等。與關(guān)系型數(shù)據(jù)庫(kù)不同,Redis不支持復(fù)雜的SQL查詢語(yǔ)句,而是提供然而,在鍵值存儲(chǔ)中,CPU是一個(gè)顯而易見(jiàn)的性能瓶頸。而RDMA技術(shù)通過(guò)繞過(guò)內(nèi)核的方式直接訪問(wèn)內(nèi)存,這能夠保證CPU資源的高效利用。因此,RDMA技術(shù)在鍵值存儲(chǔ)系統(tǒng)中的應(yīng)用也逐漸被更多的討論[7],[8]。同時(shí),阿里云也公開(kāi)聲明了其eRDMA技術(shù)在Redis產(chǎn)品中的應(yīng)用[9]。從測(cè)試結(jié)果可以看出,無(wú)論是GET測(cè)試還是SET8數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-030044.智能算力場(chǎng)景近年來(lái),大型語(yǔ)言模型如GPT等在自然語(yǔ)言處力引起了廣泛關(guān)注。這些模型通過(guò)預(yù)訓(xùn)練在海量文本數(shù)據(jù)上獲取語(yǔ)言知識(shí),然后進(jìn)行微調(diào)應(yīng)用于下游任務(wù)。大模型以極大的模型尺寸、大量數(shù)據(jù)和計(jì)算資源進(jìn)行訓(xùn)練。其一系列成果顯示了大模型具備了但是訓(xùn)練大模型也帶來(lái)了巨大的計(jì)算和環(huán)境成本,需要大規(guī)模a)模型參數(shù)量巨大,單機(jī)單卡無(wú)法加載整個(gè)模型。而使用多b)訓(xùn)練時(shí)間長(zhǎng)。如果只使用單機(jī)單卡,訓(xùn)練大模型往往需要9數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004c)訓(xùn)練數(shù)據(jù)量大。多機(jī)多卡并行讀取數(shù)據(jù)后匯總梯度,產(chǎn)生多個(gè)GPU的互聯(lián),打造多通道、無(wú)收斂、多路徑的參數(shù)網(wǎng)絡(luò)(如圖5所示),是當(dāng)前的主流技術(shù)方案之一。AWS在其超算、智算廣泛的提供SRD高性能網(wǎng)絡(luò)服務(wù)[10],進(jìn)一步的引起了行業(yè)內(nèi)對(duì)高性高性能網(wǎng)絡(luò)已經(jīng)成為云計(jì)算領(lǐng)域應(yīng)用廣泛核心基礎(chǔ)設(shè)施之一。然而,RDMA網(wǎng)絡(luò)中出現(xiàn)擁塞問(wèn)題將會(huì)大幅降低網(wǎng)絡(luò)的吞吐和延遲性據(jù)流量超過(guò)了網(wǎng)絡(luò)鏈路的處理能力或帶寬限制或者當(dāng)多個(gè)節(jié)點(diǎn)同時(shí)進(jìn)行RDMA通信時(shí),網(wǎng)絡(luò)鏈路無(wú)法及時(shí)處理或傳輸所有的數(shù)據(jù)包,就擁塞一方面會(huì)導(dǎo)致交換機(jī)的緩存隊(duì)列增大,數(shù)據(jù)包傳輸?shù)难舆t等比例的延長(zhǎng),使網(wǎng)絡(luò)服務(wù)質(zhì)量下降;另一方面,交換機(jī)中數(shù)據(jù)包中會(huì)出現(xiàn)一系列相應(yīng)的風(fēng)暴、死鎖等問(wèn)題[11]。這也一定程度上限制數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004RDMA高性能網(wǎng)絡(luò)方向聚焦擁塞問(wèn)題,產(chǎn)生了大量的前沿研究和工程總之,隨著未來(lái)數(shù)據(jù)中心網(wǎng)絡(luò)帶寬需求的不斷增長(zhǎng),RDMA高性能網(wǎng)絡(luò)在云計(jì)算、人工智能等領(lǐng)域具有巨大的機(jī)遇。同時(shí),擁塞問(wèn)化的擁塞管控系統(tǒng),將已有技術(shù)進(jìn)行歸納延伸,是當(dāng)前數(shù)據(jù)中心網(wǎng)絡(luò)中迫切要完成的一項(xiàng)工作。擁塞檢測(cè)技術(shù)中,有如下幾點(diǎn)挑戰(zhàn)亟a)精度、頻率和開(kāi)銷的矛盾。對(duì)于網(wǎng)絡(luò)擁塞信息的檢測(cè),當(dāng)前存在多種主流方案,其獲取的擁塞信息都不相同,但都遵循“沒(méi)有免費(fèi)的午餐”這一規(guī)則。更高的測(cè)量精度、更快的測(cè)量頻率,都會(huì)帶來(lái)額外的網(wǎng)絡(luò)帶寬開(kāi)銷(例如INT對(duì)比ECN)。這需要對(duì)不同b)標(biāo)準(zhǔn)和兼容性:RDMA技術(shù)存在多種標(biāo)準(zhǔn)和實(shí)現(xiàn),如InfiniBand、RoCE(RDMAoverConve(InternetWideAreaRDMAProtocol)。其中,RoCE網(wǎng)絡(luò)的發(fā)展近年來(lái)尤為迅猛。原有的以太網(wǎng)擁塞檢測(cè)機(jī)制和協(xié)議該如何規(guī)范化,這也是未來(lái)不同RoCE網(wǎng)絡(luò)設(shè)備數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004c)跨層級(jí)應(yīng)用:不同的擁塞檢測(cè)機(jī)制可以在更多的擁塞管控負(fù)載均衡的參考權(quán)重。這些研究工作雖然已經(jīng)較多,但哪些擁塞檢本白皮書(shū)通過(guò)闡明和分析高性能網(wǎng)絡(luò)擁塞管控的技術(shù)發(fā)展的過(guò)程與現(xiàn)狀,整理、探討不同方案中關(guān)鍵的擁塞檢測(cè)機(jī)制,歸納其技術(shù)路線與演進(jìn),從而推動(dòng)高性能網(wǎng)絡(luò)技術(shù)的深入發(fā)展,助力完整的數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004為了緩解高性能網(wǎng)絡(luò)中的擁塞問(wèn)題,RoCE高性能網(wǎng)絡(luò)協(xié)議已經(jīng)構(gòu)建了多層的擁塞管理和控制技術(shù)體系。這一體系中,細(xì)分主要包含擁塞控制、負(fù)載均衡、鏈路控制、流量調(diào)度等。形成了從用戶層其中,擁塞控制協(xié)議、鏈路控制的響應(yīng)快、周期短,通過(guò)調(diào)整因此歸類為擁塞控制技術(shù);負(fù)載均衡、流量調(diào)度,往往通過(guò)管理的方式,對(duì)數(shù)據(jù)進(jìn)行調(diào)度分流,通過(guò)更高效的利用網(wǎng)絡(luò)拓?fù)滟Y源實(shí)現(xiàn)本章中重點(diǎn)對(duì)現(xiàn)有擁塞管理與控制技術(shù)進(jìn)行了歸納整理。以便擁塞控制,顧名思義,可知其在網(wǎng)絡(luò)擁塞問(wèn)題處理中的核心位置。擁塞控制是為了防止網(wǎng)絡(luò)過(guò)載而采取的一種流量調(diào)節(jié)機(jī)制。當(dāng)網(wǎng)絡(luò)擁塞時(shí),路由器隊(duì)列堆積,丟包和延遲增加。擁塞控制算法(如TCP的滑動(dòng)窗口)可以通過(guò)監(jiān)控網(wǎng)絡(luò)狀況來(lái)動(dòng)態(tài)調(diào)整發(fā)送方的發(fā)送速率。比如,在擁塞開(kāi)始時(shí)降低發(fā)送速率,擁塞消除后逐漸增加發(fā)送速率。這種閉環(huán)反饋機(jī)制可以使網(wǎng)絡(luò)穩(wěn)定運(yùn)行在最優(yōu)狀態(tài),最大化數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004為了緩解網(wǎng)絡(luò)擁塞,文獻(xiàn)[12]中微軟提出了一種端到端的RoCE擁 塞控制協(xié)議DCQCN,這也是近幾年來(lái)RoCE高性能網(wǎng)絡(luò)擁塞控制技術(shù)的開(kāi)端。DCQCN相比于PFC是一種更精細(xì)的控制算法。它以ECN(ExplicitCongestionNotification,ECN)作為交換機(jī)擁塞程度的量化標(biāo)記信息,根據(jù)生成的CNP(CongestionNotificationPacket)報(bào)文來(lái)觸發(fā)式的調(diào)節(jié)網(wǎng)卡傳輸速率。DCQCN的設(shè)計(jì)理念結(jié)合了既有的QCN[13]和DCTCP[14]的算法思想。一方面避免了QCN方法局 DCQCN的使用大幅度緩解了PFC的觸發(fā),目前仍是最廣泛應(yīng)用的數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004同期,谷歌在文獻(xiàn)[15]中提出了一種基于時(shí)延的擁塞控制方案TIMELY。TIMELY使用數(shù)據(jù)流的往返傳遞時(shí)間(RoundTripTime,相較于傳統(tǒng)的軟件測(cè)量的RTT,谷歌方案在他們的智能網(wǎng)卡中集成了專有的RTT硬件測(cè)量電路,這使得RTT測(cè)量擁塞的方案得以實(shí)用化。同時(shí)RTT相比于ECN是一個(gè)快速、多位的數(shù)據(jù),能夠提供更豐微軟的DCQCN和谷歌的TIMELY在RDMA網(wǎng)絡(luò)擁塞控制方面雖然各有所長(zhǎng),但仍存在各自難以突破的局限性。2019年,阿里云提出了一種基于帶內(nèi)遙測(cè)(In-NetTelemetry,INT)的擁塞控制協(xié)議HPCC[16]。相比于DCQCN和TIMELY,HPCC方法犧牲了了INT能力,同時(shí)也獲得了超高精度的擁塞控制性能。HPCC可以實(shí)現(xiàn)快速的算法收斂以更優(yōu)的利用閑置帶寬,同時(shí)保持交換機(jī)始終處數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-030044.其他技術(shù)方案盡管HPCC在處理?yè)砣矫娴男阅艿玫搅似毡榈恼J(rèn)可,但它過(guò)高的網(wǎng)絡(luò)帶寬占用仍然為后續(xù)的技術(shù)改進(jìn)留下了空間。此后,更多的ECN參數(shù),大幅度降低了運(yùn)維大規(guī)模RDMA集群過(guò)程中調(diào)試算法參數(shù)通過(guò)自適應(yīng)的選取DCQCN的參數(shù),實(shí)現(xiàn)大規(guī)模多打一場(chǎng)景小步長(zhǎng),小規(guī)模多打一場(chǎng)景大步長(zhǎng)的控制效果;文獻(xiàn)[19]中提出了IRN,通TIMELY方案下?lián)砣麍?chǎng)景的RDMA網(wǎng)絡(luò)性能;文獻(xiàn)[20]改進(jìn)了交換機(jī)的ECN標(biāo)記機(jī)制,將傳統(tǒng)的兩態(tài)標(biāo)記優(yōu)化為三態(tài)標(biāo)記TCD,提升了(2)RTT方案變種:文獻(xiàn)[21]中建立了DCQCN和TIMELY的流體模型,分別就二者的擁塞控制效果進(jìn)行了對(duì)比研究?;诙咝阅苌系牟顒e,其提出了使用PI控制器的改進(jìn)TIMELY算法,一定程度點(diǎn)不固定這一問(wèn)題,重新設(shè)計(jì)了TIMELY的調(diào)速算法,使用了AIMD(Additive-IncreaseMultiplicative-Decrease,AIMD)調(diào)速算法,數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004從而實(shí)現(xiàn)了更好的算法穩(wěn)定性;文獻(xiàn)[23]通過(guò)將ECN信號(hào)與RTT信號(hào)結(jié)合考慮,提出了EAR擁塞控制協(xié)議,在多個(gè)場(chǎng)景實(shí)現(xiàn)了更好的(3)INT方案變種:文獻(xiàn)[24]為了解決HPCC中INT包頭帶來(lái)的明顯的網(wǎng)絡(luò)帶寬占用問(wèn)題,提出了概率性帶內(nèi)遙測(cè)(ProbabilisticIn-bandNetworkTelemetry,PINT)方案。PINT使用了概率性編HPCC-INT接近的流完成時(shí)間分布,HPCC-PINT在長(zhǎng)流上略優(yōu)但在短流上略差。該方案難以大規(guī)模部署的局限在于P4可編程交換機(jī)的資另一類興起的是基于接收方的方案。思科首先提出了RoCC[25]。在該方案中,將傳統(tǒng)的由發(fā)送方驅(qū)動(dòng)的端到端擁塞控制協(xié)議,改進(jìn)為接收方驅(qū)動(dòng)。在文獻(xiàn)[25]中認(rèn)為,多個(gè)不同發(fā)送方做出的調(diào)速?zèng)Q策時(shí)常是矛盾的,這導(dǎo)致了最終控制效果的反復(fù)波動(dòng)。而由接收方驅(qū)動(dòng)的擁塞控制協(xié)議中,交換機(jī)作為擁塞的感知方,可以進(jìn)行更準(zhǔn)數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004控制協(xié)議作為處理?yè)砣麊?wèn)題的最短回路在學(xué)術(shù)研究和工業(yè)應(yīng)用角度都極具研究?jī)r(jià)值。目前,擁塞控制協(xié)議主流應(yīng)用的方案仍然是DCQCN、TIMELY和HPCC,但顯然這三種方案都存在不同的缺陷。后續(xù)提出的方案有些偏向解決某一特定流量場(chǎng)景的問(wèn)題,有些需要更新的硬件支持,難以大規(guī)模商用并完全解決RDMA無(wú)損網(wǎng)絡(luò)擁塞控制慢快快快低高高中差中強(qiáng)強(qiáng)差差差差根據(jù)上一節(jié)中總結(jié)的當(dāng)前擁塞控制協(xié)議的核心功能點(diǎn),本文就數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004DCQCN協(xié)議強(qiáng)項(xiàng)在于兼容性,這也直接決定了DCQCN成為了現(xiàn)在最為主流的應(yīng)用方案。具體來(lái)講,DCQCN協(xié)議對(duì)于交換機(jī)要求較是,DCQCN在收斂速度、帶寬利用率方面與穩(wěn)定性存在一個(gè)博弈,即往往需要犧牲穩(wěn)定性來(lái)實(shí)現(xiàn)更高的帶寬利用率,二者不可兼得。其次,DCQCN在易用性方面有明顯缺陷,端側(cè)和網(wǎng)側(cè)有十余個(gè)參數(shù)需要調(diào)試且參數(shù)相互耦合,維護(hù)成本很高。同時(shí),DCQCN使用了AIMD(AdditiveIncreaseMultiplicativeDecrease,AIMD)調(diào)速機(jī)制是不基于模型的調(diào)速算法。對(duì)于不同場(chǎng)景下的擾動(dòng),有較強(qiáng)的TIMELY協(xié)議的優(yōu)勢(shì)主要是檢測(cè)精確,RTT測(cè)量的擁塞信息本身就是多位的,這解決了DCQCN算法中最大的一個(gè)局限點(diǎn)。因此,TIMELY在收斂速度和帶寬利用率上更高。但是,TIMELY在公平性和穩(wěn)定性方面也是存在一組矛盾[21]:收斂到特定穩(wěn)定點(diǎn)則不能保證公平,保證公平則不能保證達(dá)到目標(biāo)收斂點(diǎn)。其次,TIMELY的易用性偏差,主要難點(diǎn)在于目標(biāo)時(shí)延的選擇困難。同時(shí),TIMELY采用的是基于模型的控制算法,這保證了精確計(jì)算的同時(shí),帶來(lái)了對(duì)于擾動(dòng)HPCC協(xié)議在公平性、收斂速度、穩(wěn)定性方面都達(dá)到了相比于功能,這有效的保證了網(wǎng)絡(luò)的平均流完成時(shí)間(Flowcompletetime,數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004FCT)性能,降低了排隊(duì)時(shí)延。HPCC主要問(wèn)題在于,INT消耗了10%了交換機(jī),這方面的開(kāi)銷導(dǎo)致HPCC仍有改進(jìn)空間。此外,HPCC對(duì)交換機(jī)設(shè)備的要求較高,需要可編程交換機(jī)的支撐,這限制了它的推廣使用。最后,HPCC的算法是以BDP精確計(jì)算為基礎(chǔ)的,這本質(zhì)上還是基于模型的控制方法。對(duì)于更復(fù)雜的場(chǎng)景,模型和參數(shù)的魯RoCC協(xié)議是針對(duì)其他方案的缺陷設(shè)計(jì)的,其實(shí)現(xiàn)上解決了絕大多數(shù)問(wèn)題,性能指標(biāo)趨于理想。相比于HPCC,RoCC在其基礎(chǔ)了PI控制器,該控制方法是不依賴于模型的,在實(shí)際應(yīng)用中相比需要可編程交換機(jī)作為運(yùn)算的主要載體,這對(duì)于交換機(jī)的性能提出了更高的要求。目前,可編程交換機(jī)技術(shù)已經(jīng)開(kāi)始快速發(fā)展,但其芯片架構(gòu)決定了不適合執(zhí)行高精度的運(yùn)算任務(wù)。隨著未來(lái)芯片技術(shù)綜上所述,目前的擁塞控制協(xié)議很難在兼容、易用的基礎(chǔ)上,數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004鏈路控制技術(shù)主要通過(guò)速率限制和流量控制來(lái)實(shí)現(xiàn),可以動(dòng)態(tài)調(diào)整RDMA網(wǎng)絡(luò)中的數(shù)據(jù)發(fā)送速率,避免擁塞的相比于L4傳輸層的擁塞控制協(xié)議,鏈路控制協(xié)議工作在L2鏈路層。相應(yīng)的,鏈路控制技術(shù)響應(yīng)的時(shí)間相比擁塞控制更加短,速率的調(diào)節(jié)也更加及時(shí)。對(duì)應(yīng)的擁塞檢測(cè)機(jī)制也明顯有別于L4層要求響應(yīng)的速度更快。鏈路層控制中,往往并不獲取網(wǎng)絡(luò)內(nèi)的擁塞因此,鏈路控制中的擁塞檢測(cè)與控制結(jié)合的更緊密,往往就是本節(jié)受限于篇幅,主要介紹Infiniband中常用的信用機(jī)制和數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004控制(Credit-BasedFlowControl)機(jī)制,用于優(yōu)化數(shù)據(jù)傳輸。在InfiniBand中,每個(gè)端口都有一個(gè)緩沖區(qū),用于存儲(chǔ)接收到的數(shù)據(jù)包。當(dāng)發(fā)送端發(fā)送數(shù)據(jù)包時(shí),它會(huì)向接收端發(fā)送一定數(shù)量的信用(Credit),表示接收端有多少可用的緩沖區(qū)來(lái)存儲(chǔ)數(shù)據(jù)包。在接收端,當(dāng)緩沖區(qū)被占滿時(shí),它會(huì)向發(fā)送端發(fā)送信號(hào),表示不能再接基于信用的鏈路控制可以顯著提高網(wǎng)絡(luò)的吞吐量和性能。它可以避免數(shù)據(jù)包的丟失和重傳,并減少網(wǎng)絡(luò)擁塞和延遲。此外,由于每個(gè)端口都有自己的緩沖區(qū),它也可以實(shí)現(xiàn)流量隔離和保障,從而兩者都是收發(fā)兩端協(xié)調(diào)控制發(fā)送數(shù)據(jù)量的鏈路層流量控制機(jī)制。相比滑動(dòng)窗口使用ACK報(bào)文確認(rèn)的方式,信用機(jī)制為了更高的性能,數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004優(yōu)先級(jí)流控制(Priority-basedFlowControl,PFC)[28]是IEEE802.1Qbb定義的一項(xiàng)用于數(shù)據(jù)中心的無(wú)丟包網(wǎng)絡(luò)流量控制協(xié)議,主要用于確保網(wǎng)絡(luò)的無(wú)損特性。無(wú)損網(wǎng)絡(luò)意味著網(wǎng)絡(luò)不會(huì)因?yàn)閾砣鴮?dǎo)致數(shù)據(jù)包丟失。上圖展示了在交換機(jī)層級(jí)之間實(shí)現(xiàn)PFC的PFC通過(guò)Pause幀觸發(fā)反壓的方式實(shí)現(xiàn)無(wú)丟包。當(dāng)交換機(jī)隊(duì)列接近滿時(shí)(達(dá)到ON/OFF閾值),交換機(jī)將向上游交換機(jī)發(fā)送一個(gè)Pause幀,告知上游不要繼續(xù)發(fā)送數(shù)據(jù)包。待擁塞緩解后,再通知上游繼續(xù)發(fā)送數(shù)據(jù)包。同時(shí),PFC通過(guò)虛擬隊(duì)列將數(shù)據(jù)包分成不同的優(yōu)先級(jí)。即使某個(gè)優(yōu)先級(jí)受到擁塞阻塞,仍然可以通過(guò)更高優(yōu)先數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004a)導(dǎo)致出現(xiàn)受害者流,無(wú)法正常傳輸數(shù)據(jù),如上圖中(b)所示,Egress2和3的數(shù)據(jù)包盡管未發(fā)生擁塞,也會(huì)被停止發(fā)送,即HoL(HeadofLine)阻塞。b)PFC風(fēng)暴,Pause幀會(huì)反向逐級(jí)傳遞,形成網(wǎng)絡(luò)內(nèi)大停止發(fā)送.c)PFC死鎖,當(dāng)系統(tǒng)中出現(xiàn)Pause幀的CBD(CircularBufferDependency)現(xiàn)象時(shí),PFC發(fā)生死鎖導(dǎo)致網(wǎng)絡(luò)傳輸長(zhǎng)時(shí)間中止,如[11]總而言之,PFC技術(shù)是RoCE高性能網(wǎng)絡(luò)發(fā)展的重要過(guò)渡技術(shù)。數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004包括PFC自恢復(fù)機(jī)制、更高效的擁塞控制協(xié)議、選擇重傳[19]等一系列的解決方案。相關(guān)技術(shù)的后續(xù)研究進(jìn)程將決定RoCE高性能網(wǎng)絡(luò)與QCN[13]是一種L2鏈路層的網(wǎng)絡(luò)擁塞控制技術(shù),旨在提高網(wǎng)絡(luò)的QCN通過(guò)在交換機(jī)中實(shí)時(shí)監(jiān)測(cè)網(wǎng)絡(luò)擁塞情況向終端設(shè)備發(fā)送擁塞通數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004格式化一個(gè)特殊反饋值的QCN幀,使用源MAC地址將該幀返根據(jù)QCN算法指定的動(dòng)態(tài)信息更新隊(duì)列的采樣速率,通過(guò)擁塞通告可以一定程度上解決擁塞熱點(diǎn)的問(wèn)題。然而在真實(shí)環(huán)境中很少實(shí)現(xiàn),因?yàn)樗鼤?huì)高度依賴擁塞點(diǎn)反應(yīng)時(shí)間,通過(guò)網(wǎng)絡(luò)發(fā)送QCN幀的時(shí)間和反應(yīng)點(diǎn)反應(yīng)時(shí)間;并且它只能運(yùn)行在二層網(wǎng)絡(luò)上,很難適應(yīng)同時(shí),如能解決設(shè)備支持的因素,將QCN與DCQCN結(jié)合實(shí)現(xiàn)一credit鏈路控制技術(shù)的一個(gè)有力補(bǔ)充,這都有待于進(jìn)一步的研究和4.鏈路控制總結(jié)在鏈路控制層面,由于現(xiàn)有的RoCE協(xié)議中缺少了Infiniband協(xié)議中的信用機(jī)制,這一定程度上破壞了原有的雙環(huán)控制系統(tǒng)的完整性。用PFC替代細(xì)粒度的信用機(jī)制,在整個(gè)控制系統(tǒng)的角度看,可以認(rèn)為是將一個(gè)內(nèi)環(huán)控制系統(tǒng)置換成了一個(gè)非線性死區(qū),這一定從實(shí)際的網(wǎng)絡(luò)角度意味著傳輸速率的調(diào)節(jié),RoCE網(wǎng)絡(luò)相比Infiniband會(huì)更加的遲鈍。這個(gè)技術(shù)上的差距是不能通過(guò)調(diào)節(jié)DCQCN參數(shù)彌補(bǔ)的。因此,RDMA網(wǎng)絡(luò)在以太網(wǎng)上的應(yīng)用更為重要的數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004技術(shù)突破要在鏈路控制的層面進(jìn)行。但同時(shí),鏈路層的改動(dòng)需要對(duì)協(xié)議內(nèi)容進(jìn)行更深入的探討和精巧的設(shè)計(jì),同時(shí)需要在硬件層面進(jìn)源頭上,降低了擁塞發(fā)生的概率。本節(jié)按業(yè)ECMP全稱等價(jià)多路徑(Equal-costmulti-path),它是一種基于流的負(fù)載均衡路由策略。當(dāng)路由器發(fā)現(xiàn)同一目的地址存在多條等價(jià)路徑時(shí),路由器會(huì)依據(jù)相應(yīng)算法將不同流量分布到不同的鏈路數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004ECMP是一種簡(jiǎn)單的負(fù)載均衡策略,但在實(shí)際應(yīng)用中存在許多問(wèn)方法進(jìn)行負(fù)載均衡,它無(wú)法感知到鏈路的擁塞情況。因此,在已經(jīng)b)ECMP無(wú)法解決非對(duì)稱網(wǎng)絡(luò)的性能損失。當(dāng)數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)生故障時(shí),網(wǎng)絡(luò)結(jié)構(gòu)可能會(huì)出現(xiàn)非對(duì)稱情況導(dǎo)致無(wú)法實(shí)現(xiàn)網(wǎng)絡(luò)物理c)在流量大小分布均勻的情況下,ECMP效果較好。然而,在同時(shí)存在大流量和小流量的情況下,ECMP的效果并不理想。假設(shè)有一條大流量和一條小流量同時(shí)到達(dá)路由器,ECMP會(huì)將這兩條流量均勻題,限制了其在某些場(chǎng)景下的有效性。在解決這些問(wèn)題的同時(shí),可以考慮使用更復(fù)雜的負(fù)載均衡策略或結(jié)合其他技術(shù)來(lái)改善網(wǎng)絡(luò)性能老鼠流并存的環(huán)境中,需要仔細(xì)考慮環(huán)境的問(wèn)題。盡管后續(xù)的研究(如Hedera[29],BurstBalancer[30])很多考慮了不同的數(shù)據(jù)流數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004量特征(大象流、burst等)。但是,ECMP由于其工程復(fù)雜度低、隨機(jī)包噴灑(RandomPacketSpraying,RPS)是一種基于包級(jí)別的負(fù)載均衡策略。當(dāng)路由器發(fā)現(xiàn)有多條等價(jià)路徑指向同一目的地址時(shí),RPS會(huì)將數(shù)據(jù)包以單個(gè)包為單位分散到這些路徑上。與ECMP不同,RPS以數(shù)據(jù)包為單位進(jìn)行操作,而ECMP則是以流為單位RPS的優(yōu)點(diǎn)在于簡(jiǎn)單易實(shí)施,并且能夠充分利用網(wǎng)絡(luò)鏈路。在沒(méi)有突發(fā)流或流大小差異的情況下,RPS能夠避免網(wǎng)絡(luò)出現(xiàn)不均衡的情況,能夠?qū)崿F(xiàn)更好的負(fù)載均衡并提高網(wǎng)絡(luò)性能。同時(shí),RPS也有一些限制。由于數(shù)據(jù)包的隨機(jī)分布,可能會(huì)導(dǎo)致同一流中的數(shù)據(jù)RPS技術(shù)往往需要RDMA網(wǎng)卡在傳輸層支持亂序傳輸,這對(duì)于當(dāng)前市場(chǎng)上已有的RNIC,是一個(gè)相對(duì)苛刻的硬件要求,這也導(dǎo)致了當(dāng)流級(jí)別的太過(guò)粗糙,包級(jí)別的粒度太細(xì)。Flowlet作為一個(gè)折中方案,就成為了一個(gè)研究點(diǎn)。M.Alizadeh等人于2015年提出CONGA[31],它是一種基于網(wǎng)絡(luò)的分布式擁塞感知負(fù)載平衡系統(tǒng)。其設(shè)數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004計(jì)目標(biāo)是在不增加傳輸層復(fù)雜度的前提下,通過(guò)分布式方式實(shí)現(xiàn)全CONGA基于數(shù)據(jù)中心網(wǎng)絡(luò)的特點(diǎn)將流進(jìn)一步細(xì)分為間隔粒度在微秒級(jí)別的小流(Flowlets),負(fù)載均衡也針對(duì)每一個(gè)Flowlet的第一個(gè)包,之后每個(gè)Flowlet使用相同的鏈路。上行鏈路交換機(jī)鏈路擁塞狀況并交給收端交換機(jī),保存一個(gè)來(lái)自各葉節(jié)點(diǎn)的擁塞狀況,并反饋給源端交換機(jī)。CONGA通過(guò)負(fù)載均衡提升了數(shù)據(jù)中心網(wǎng)絡(luò)傳輸性能進(jìn)而提高吞吐量,但CONGA仍然需要網(wǎng)絡(luò)負(fù)載與實(shí)際容此外,這一領(lǐng)域的研究?jī)?nèi)容也逐漸細(xì)化,但整體上講,應(yīng)用范4.負(fù)載均衡總結(jié)數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004流量調(diào)度技術(shù)不同于前述的幾項(xiàng)技術(shù),它更多的是在給特定的SDN控制器整合拓?fù)浒l(fā)現(xiàn)模塊和流量監(jiān)控模塊獲取全網(wǎng)視圖,再根據(jù)業(yè)務(wù)優(yōu)先級(jí)、網(wǎng)絡(luò)狀態(tài)、服務(wù)器負(fù)載狀態(tài)等,用開(kāi)放流協(xié)議(OpenFlow)下發(fā)流表規(guī)則到數(shù)據(jù)平面,協(xié)調(diào)網(wǎng)絡(luò)設(shè)備實(shí)現(xiàn)動(dòng)態(tài)的流量調(diào)度。這可以按需分配網(wǎng)絡(luò)資源,繞過(guò)擁塞鏈路,根據(jù)業(yè)務(wù)需求分割帶寬,還可以按照負(fù)載將流量導(dǎo)向閑置服務(wù)器。流量調(diào)度提高數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004基于規(guī)則的流量調(diào)度技術(shù)在學(xué)術(shù)界討論的非常廣泛,例如,pFabric[32],PDQ[33],PIAS[34],F(xiàn)astPass[35],Homa[36],AuTo[37]等。它們的研究方法通常是設(shè)定特優(yōu)的規(guī)則來(lái)給不同的數(shù)據(jù)流進(jìn)行優(yōu)先級(jí)分類。例如,對(duì)較長(zhǎng)的流,減少包丟棄;對(duì)時(shí)延敏感的流進(jìn)行優(yōu)先由于流量調(diào)度的研究較多且領(lǐng)域更加細(xì)化,與應(yīng)用結(jié)合較多,但總體的研究思路是類似的。限于篇幅,此處以PIAS舉例說(shuō)明。數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004PIAS借鑒了模擬最短作業(yè)(SJF)工作原理來(lái)最小化FCT。利用在這種隊(duì)列中,PIAS流會(huì)根據(jù)其發(fā)送字節(jié)數(shù)逐漸從高優(yōu)先級(jí)隊(duì)列降級(jí)為低優(yōu)先級(jí)隊(duì)列。因此,短流能在前幾個(gè)高優(yōu)先級(jí)隊(duì)列中完成,問(wèn)題的難點(diǎn)在于如何準(zhǔn)確劃分包長(zhǎng)閾值K,閾值不準(zhǔn)確和優(yōu)先級(jí)之間失匹配,都會(huì)導(dǎo)致性能損失。文中,作者雖然通過(guò)建模給出了如何準(zhǔn)確計(jì)算閾值和解決失匹配問(wèn)題,但是仍然需要很長(zhǎng)的時(shí)間使模型收斂。同時(shí),它的優(yōu)先級(jí)匹配的過(guò)程,存在慢啟動(dòng)的問(wèn)題。即長(zhǎng)流可能需要很長(zhǎng)時(shí)間才能達(dá)到一個(gè)準(zhǔn)確的優(yōu)PIAS論文的研究工作中,我們可以看出基于規(guī)則的流量調(diào)度技術(shù)更多的是需要針對(duì)特定的網(wǎng)絡(luò)流量環(huán)境,通過(guò)精細(xì)的平衡各方面的tradeoff,實(shí)現(xiàn)某種邊界條件下的網(wǎng)絡(luò)性能最優(yōu)化。這類工作在但是在更廣泛應(yīng)用的云數(shù)據(jù)中心中,失去了流量特征的種種理想假設(shè),這種敏感的規(guī)則平衡幾乎不可能達(dá)成。這也一定程度上限制了數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004流量調(diào)度本質(zhì)上與交通、物流等領(lǐng)域的調(diào)度問(wèn)題沒(méi)有區(qū)別,而實(shí)時(shí)調(diào)度在這些領(lǐng)域中有廣泛的應(yīng)用。而網(wǎng)絡(luò)流量的調(diào)度技術(shù)中,結(jié)合反饋信息的實(shí)時(shí)調(diào)度研究相對(duì)較少。其根本原因在于,網(wǎng)絡(luò)環(huán)一些研究確實(shí)也引入了一些實(shí)時(shí)調(diào)度的思路,例如D2TCP[39]、D3[40]等基于完成時(shí)間的流調(diào)度技術(shù)。這類技術(shù)在整體上將原有的從但是,不管是D3還是D2TCP,使用的時(shí)間都是截止時(shí)間和已發(fā)送時(shí)間。這種本質(zhì)上雖然也形成了回路,但系統(tǒng)的傳感器是本地時(shí)鐘,這種實(shí)時(shí)的反饋調(diào)度仍然是規(guī)則化的。如何利用更多的網(wǎng)內(nèi)信流量調(diào)度相比于擁塞控制、鏈路控制、負(fù)載均衡,更接近用戶層,與業(yè)務(wù)耦合更緊密,能有效的優(yōu)化特定業(yè)務(wù)場(chǎng)景下的業(yè)務(wù)服務(wù)質(zhì)量。但是,由于其軟件調(diào)度的局限性,它很難完成快速的擁塞避同時(shí),基于簡(jiǎn)單規(guī)則的調(diào)度技術(shù)難以在復(fù)雜的流量環(huán)境下廣泛的應(yīng)用,流量調(diào)度技術(shù)更明顯的在向?qū)崟r(shí)調(diào)度的方向演進(jìn)。隨著擁塞檢測(cè)技術(shù)的進(jìn)步,更豐富的網(wǎng)絡(luò)實(shí)時(shí)信息將給流量調(diào)度技術(shù)帶來(lái)數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004更大的操作空間,也給流量調(diào)度技術(shù)在未來(lái)云數(shù)據(jù)中心的更廣泛應(yīng)本章歸納了高性能網(wǎng)絡(luò)中,用于處理和緩解擁塞的技術(shù)體系,主要包括擁塞控制和鏈路控制組成的擁塞控制技術(shù),負(fù)載均衡和流量調(diào)度組成的擁塞管理技術(shù)。擁塞管理和控制的技術(shù)體系,目前仍然是高性能網(wǎng)絡(luò)的核心,將更為合適擁塞檢測(cè)技術(shù)更為廣泛的集成同時(shí),在本章中,討論了各項(xiàng)技術(shù)與擁塞檢測(cè)技術(shù)已有以及潛在的結(jié)合點(diǎn)??傮w上看,擁塞檢測(cè)在硬件實(shí)現(xiàn)更多、響應(yīng)速度更快的擁塞控制協(xié)議、鏈路控制協(xié)議中應(yīng)用更加廣泛。但隨著網(wǎng)絡(luò)觀測(cè)技術(shù)的進(jìn)步,在負(fù)載均衡、流量調(diào)度技術(shù)方向上,也有較大的潛在數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004擁塞檢測(cè)技術(shù)本身的出現(xiàn)早于高性能網(wǎng)絡(luò),ECN、RTT、INT等擁塞測(cè)量的方案在傳統(tǒng)的TCP網(wǎng)絡(luò)中就已經(jīng)被廣泛探討[14],[41],[42],在高性能網(wǎng)絡(luò)的擁塞管理與控制技術(shù)體系中,存在一個(gè)直觀規(guī)律。以擁塞控制協(xié)議為例,不同的擁塞控制協(xié)議往往對(duì)應(yīng)不同擁塞由此可見(jiàn),擁塞檢測(cè)在擁塞控制方案中是決定性的。各種不同協(xié)議中控制器的算法之所以存在區(qū)別,歸根結(jié)底是擁塞檢測(cè)的實(shí)現(xiàn)方案區(qū)別。例如,DCQCN中使用CNP報(bào)文的事件驅(qū)動(dòng)型控制,其算法設(shè)計(jì)上采用AIMD來(lái)進(jìn)行逐拍的控制;TIMELY使用RTT作為擁塞信息,其算法則可以使用PID進(jìn)行線性控制。擁塞檢測(cè)方案是整個(gè)同時(shí),在之前的研究工作中,擁塞控制的設(shè)計(jì)缺乏系統(tǒng)性的思考,檢測(cè)環(huán)節(jié)、處理環(huán)節(jié)、控制環(huán)節(jié)通常沒(méi)有細(xì)分的設(shè)計(jì)。這也導(dǎo)致了控制算法設(shè)計(jì)上很多與檢測(cè)環(huán)節(jié)強(qiáng)耦合,工程實(shí)現(xiàn)上缺乏通用因此,本章對(duì)當(dāng)前的擁塞檢測(cè)技術(shù)進(jìn)行系統(tǒng)的歸納,主要以擁塞檢測(cè)的主體為分類依據(jù),以交換機(jī)、網(wǎng)卡、端網(wǎng)協(xié)同三個(gè)類別,數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004在高性能網(wǎng)絡(luò)中,交換機(jī)是擁塞發(fā)生最為頻繁的設(shè)備節(jié)點(diǎn)。因此,交換機(jī)設(shè)備的擁塞檢測(cè)結(jié)果,往往代表了整條傳輸鏈路中最大顯式擁塞通知[43],[44](ExplicitCongestionNotification,ECN)是對(duì)Internet協(xié)議和傳輸控制協(xié)議(TCP)的擴(kuò)展,定義在RFC3168(2001)中。ECN允許在不丟棄數(shù)據(jù)包的情況下,通知網(wǎng)絡(luò)擁塞的發(fā)生。ECN在以太網(wǎng)中是一個(gè)可選的功能,在底層網(wǎng)絡(luò)基路由器在Internet層運(yùn)作,而傳輸速率由傳輸層的端可能僅由發(fā)送器處理,但由于只有在發(fā)送了一個(gè)數(shù)據(jù)包之后才知道發(fā)生了擁塞,因此接收器必須將擁塞指示回傳給發(fā)送器。在沒(méi)有(CongestionExperienced)來(lái)指示,并通過(guò)接收器在傳輸協(xié)議的ECN廣泛的應(yīng)用于以太網(wǎng)絡(luò),因此在RoCE高性能網(wǎng)絡(luò)協(xié)議中,ECN作為擁塞檢測(cè)方案存在廣泛硬件基礎(chǔ)。事實(shí)上,應(yīng)用廣泛的數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004DCQCN和DCTCP協(xié)議都使用了ECN作為其擁塞檢測(cè)方案,其參數(shù)設(shè)ECN在使用的過(guò)程中存在不同的標(biāo)記算法區(qū)別,以下給出了典ECN在使用的過(guò)程中,通常與RED功能結(jié)合使用。RED是由SallyFloyd和VanJacobson在1990年代初發(fā)明的交換機(jī)隊(duì)列管理機(jī)制[45]。RED會(huì)監(jiān)控平均隊(duì)列大小,并根據(jù)統(tǒng)計(jì)概率丟棄(或在數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004隨機(jī)早期檢測(cè)(RandomEarlyDetection,RED)是一種適用于在傳統(tǒng)的尾部丟棄算法中,路由器或其他網(wǎng)絡(luò)組件緩存盡可能多的數(shù)據(jù)包,并簡(jiǎn)單地丟棄無(wú)法緩存的數(shù)據(jù)包。如果緩沖區(qū)不斷滿載,表示網(wǎng)絡(luò)擁塞。尾部丟棄不公平地分配緩沖區(qū)空間給各個(gè)流量流。尾部丟棄還可能導(dǎo)致TCP全局同步,因RED通過(guò)在緩沖區(qū)完全滿載之前預(yù)先丟棄數(shù)據(jù)包來(lái)解決這些問(wèn)則接受所有傳入的數(shù)據(jù)包。隨著隊(duì)列的增長(zhǎng),丟棄傳入數(shù)據(jù)包的概率也會(huì)增加。當(dāng)緩沖區(qū)已滿時(shí),概率達(dá)到1,所有傳入的數(shù)據(jù)包都數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004RED后續(xù)結(jié)合QoS等信息,進(jìn)一步衍生出了WRED(WeightedRED是一種依賴隊(duì)列長(zhǎng)度的標(biāo)記算法。根據(jù)排隊(duì)論中的著名結(jié)果,只有當(dāng)數(shù)據(jù)包的到達(dá)時(shí)間服從泊松分布時(shí),隊(duì)列長(zhǎng)度才直接與活動(dòng)源的數(shù)量和真正的擁塞水平相關(guān)。不幸的是,在網(wǎng)絡(luò)鏈路上,Blue[46]是一種網(wǎng)絡(luò)調(diào)度器的調(diào)度策略,由密歇根大學(xué)的研究生 馮武昌(Wu-changFeng)為KangG.Shin教授以Blue使用了數(shù)據(jù)包丟失和鏈路利用率歷史來(lái)管理?yè)砣?。通過(guò)維護(hù)一個(gè)單一的概率,用于在數(shù)據(jù)包排隊(duì)時(shí)標(biāo)記(或丟棄)數(shù)據(jù)包。如果由于緩沖區(qū)溢出而導(dǎo)致隊(duì)列持續(xù)丟包,Blue會(huì)增加標(biāo)記概率,從而增加發(fā)送擁塞通知的速率。相反地,如果隊(duì)列變?yōu)榭栈蜴溌诽幱诳臻e狀態(tài),BLUE會(huì)減小其標(biāo)記概率。BLUE相對(duì)于RE基于Blue的機(jī)制,還提出并評(píng)估了一種新的機(jī)制,用當(dāng)前的交換機(jī)中普遍使用RED與ECN結(jié)合,通過(guò)RED標(biāo)記機(jī)制生成ECN標(biāo)記。但隨之Lossy逐漸在主流RoCE網(wǎng)卡中普及,40數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004來(lái)的高性能網(wǎng)絡(luò),Blue以及近年來(lái)的一些其他主動(dòng)隊(duì)列管理的方法在文獻(xiàn)[20]中,意識(shí)到了擁塞檢測(cè)對(duì)于整個(gè)系統(tǒng)的重要作用。該論文的觀點(diǎn)中,ECN檢測(cè)給出的結(jié)果是具有ON-OFF特性的,而這種ON-OFF發(fā)送模式可能對(duì)交換機(jī)中的擁塞檢測(cè)行為產(chǎn)生意外影響,包括引起隊(duì)列積壓并影響暫停端口的實(shí)際輸入以此為啟發(fā),該論文中提出了一種三元擁塞檢測(cè)技術(shù)來(lái)實(shí)現(xiàn)RDMA網(wǎng)絡(luò)的擁塞檢測(cè)。它將網(wǎng)絡(luò)設(shè)備的端口狀態(tài)不再用0-1標(biāo)記,而是區(qū)分成三種狀態(tài),擁塞、非擁塞和不確定。這三個(gè)狀態(tài)用上圖盡管TCD意識(shí)到了擁塞檢測(cè)對(duì)于高性能網(wǎng)絡(luò)擁塞的關(guān)鍵作用,但其工作仍然是受限于狀態(tài)的轉(zhuǎn)移。本質(zhì)上講,TCD是通過(guò)擴(kuò)展ECN41數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004標(biāo)記的數(shù)據(jù)位寬實(shí)現(xiàn)更準(zhǔn)確的擁塞檢測(cè)。相比于其三元狀態(tài)的轉(zhuǎn)移邏輯的設(shè)計(jì),該研究工作中體現(xiàn)出的高位寬帶來(lái)搞檢測(cè)精度最終帶(a)BCN系統(tǒng)模型(b)FECN系統(tǒng)模型義的其他的擁塞通知協(xié)議如BackwardCongestionNotification(BCN)[47],F(xiàn)orwardExplicitCongestionNotification[48],Pre-CongestionNotification[49]等,在21世紀(jì)初的IEEE8作組中都有廣泛的討論。這些擁塞檢測(cè)技術(shù)同交換機(jī)和斷網(wǎng)協(xié)同完成擁塞檢測(cè),往往意味著需要特定的交換機(jī)支持。由于大規(guī)模的云廠商對(duì)于設(shè)備的供應(yīng)鏈、兼容性、規(guī)范性都有苛刻的要求,專屬定制的交換機(jī)對(duì)于大多數(shù)云服務(wù)提供商來(lái)說(shuō)是難以接受的。因此,不依賴交換機(jī),在端側(cè)通過(guò)云廠商自研的42數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004DPU、網(wǎng)卡就能獨(dú)立完成擁塞檢測(cè)的方案,對(duì)于云數(shù)據(jù)中心也具有很RTT(RoundTripTIme)是數(shù)據(jù)包傳輸?shù)耐禃r(shí)間,在應(yīng)用于RDMA高性能網(wǎng)絡(luò)之前,就被廣泛的應(yīng)用于TCP網(wǎng)絡(luò)協(xié)議的傳輸控制使用RTT進(jìn)行擁塞檢測(cè)遵循一個(gè)樸素的哲學(xué),即發(fā)生擁塞的鏈路中數(shù)據(jù)包的傳輸時(shí)延增大。當(dāng)網(wǎng)卡實(shí)測(cè)的RTT與端到端正常的在ECN方案中,具有不同優(yōu)先級(jí)的多個(gè)隊(duì)列共享同一個(gè)輸出鏈路,但ECN標(biāo)記僅提供了超過(guò)閾值的隊(duì)列的信息。低優(yōu)先級(jí)的流量可能會(huì)經(jīng)歷較大的排隊(duì)延遲,而不一定會(huì)積累大量的隊(duì)列。此外,ECN標(biāo)記描述了單個(gè)交換機(jī)上的行為。在高度利用的網(wǎng)絡(luò)中,擁塞43數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004相比于ECN,RTT積累了關(guān)于端到端路徑的信息,包括可能出現(xiàn)擁塞的網(wǎng)絡(luò)接口卡(NIC)。RTT提供的信息是一個(gè)更為精煉、聚合了端到端擁塞的最終量化指標(biāo),從這個(gè)角度講,RTT是更為直接的但是,文獻(xiàn)[21]也對(duì)RTT和ECN方法進(jìn)行了客觀的對(duì)比,RTT測(cè)量還是會(huì)存在對(duì)時(shí)鐘抖動(dòng)敏感等問(wèn)題。同時(shí),使用RTT測(cè)量的TIMELY的算法也存在設(shè)計(jì)上的問(wèn)題,導(dǎo)致同期提出的RTT方案相比但是,RTT相比與ECN,在測(cè)量的角度仍有其優(yōu)勢(shì)。在解決了控制器設(shè)計(jì)的問(wèn)題后,其方案簡(jiǎn)單、測(cè)量精度高、端到端、設(shè)備依賴文獻(xiàn)[52]中提出了一種使用不同優(yōu)先級(jí)隊(duì)列消息,實(shí)現(xiàn)擁塞檢測(cè)的技術(shù)方案。該方案中,使用商用交換機(jī)中可用的基本特性(優(yōu)先級(jí)隊(duì)列),無(wú)需對(duì)交換機(jī)進(jìn)行修改或在主機(jī)上實(shí)施任何復(fù)雜的算法。它使用了Scout服務(wù)技術(shù),Scout服務(wù)基于一個(gè)簡(jiǎn)單而有效的44數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004當(dāng)高優(yōu)先級(jí)隊(duì)列(HPQ)變得更加繁忙(鏈路利用率更高)時(shí),測(cè)量LPQ隊(duì)列中的消息的RTT時(shí)延,觀察到鏈路的狀態(tài),并且,這一檢測(cè)可以在觀察到HPQ建立之前幾個(gè)RTT檢測(cè)到擁塞,相比于傳交換機(jī)雖然通常是鏈路中擁塞的瓶頸點(diǎn),但單獨(dú)使用交換機(jī)完成的擁塞檢測(cè),不能對(duì)網(wǎng)卡的擁塞程度有直接的測(cè)量。因此,一些研究工作中提出,要使用端網(wǎng)協(xié)同的擁塞檢測(cè)方案來(lái)實(shí)現(xiàn)全鏈路的45數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004當(dāng)前,交換機(jī)在數(shù)據(jù)平面上變得更加開(kāi)放和靈活。其中,網(wǎng)絡(luò)內(nèi)部遙測(cè)(In-NetworkTelemetry,INT)正在迅速普及。我們所了解的幾乎所有交換機(jī)供應(yīng)商都已經(jīng)在其新產(chǎn)品中啟用了INT功能),通過(guò)INT,發(fā)送者可以通過(guò)ACK數(shù)據(jù)包準(zhǔn)確了解流經(jīng)路徑上鏈路的負(fù)載情況,從而便于發(fā)送者進(jìn)行準(zhǔn)確的流量調(diào)整。例如,在如圖所示的HPCC擁塞控制協(xié)議中,阿里云的研究人員通過(guò)自定義了擁塞檢測(cè)的INT報(bào)文,準(zhǔn)確的獲取了鏈路中網(wǎng)絡(luò)設(shè)備的隊(duì)列長(zhǎng)度、時(shí)但I(xiàn)NT帶來(lái)檢測(cè)精度提升是通過(guò)增加包問(wèn)頭的形式完成的,這就造成了一定的帶寬浪費(fèi)。如何平衡INT帶來(lái)的檢測(cè)精度提升和造成的overhead,成為了使用HPCC不得不考慮的一個(gè)問(wèn)題。后續(xù)的而是給精度和overhead這一組tradeoff提供了一個(gè)歸一化的調(diào)節(jié)ECN已經(jīng)在生產(chǎn)數(shù)據(jù)中心廣泛使用,以提供高吞吐量和低延遲的通信。盡管取得了成功,但之前基于ECN的傳輸機(jī)制存在一個(gè)重46數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004然而,在數(shù)據(jù)中心中往返時(shí)間(RTT)的變化很常見(jiàn),因?yàn)椴煌牧髁客ㄟ^(guò)不同的處理組件,例如網(wǎng)絡(luò)堆棧、虛擬化管理程序和中間件。與服務(wù)內(nèi)部的流量相比,服務(wù)之間的流量經(jīng)歷了來(lái)自第四層負(fù)載均衡器的額外處理延遲。此外,給定組件的處理延遲也會(huì)根據(jù)工作負(fù)載的不同而變化。據(jù)研究顯示,這一波動(dòng)往往會(huì)達(dá)到3倍以文獻(xiàn)[50]中提出了ECN#,它基于瞬時(shí)和持續(xù)的擁塞狀態(tài)對(duì)數(shù)據(jù)當(dāng)存在大的瞬時(shí)隊(duì)列時(shí),ECN#會(huì)主動(dòng)標(biāo)記數(shù)據(jù)包以避免緩沖區(qū)ECN#是對(duì)ECN標(biāo)記的一個(gè)補(bǔ)充,它結(jié)合了網(wǎng)卡側(cè)的RTT信息,使ECN標(biāo)記的閾值設(shè)置成動(dòng)態(tài)的。根據(jù)文獻(xiàn)[50]中的評(píng)估,ECN#對(duì)于短流的平均流完成時(shí)間(FCT)可以降低高達(dá)23.4%),47數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004種旨在提高網(wǎng)絡(luò)的性能和可靠性,避免網(wǎng)絡(luò)擁塞引起的數(shù)據(jù)丟失、延遲和抖動(dòng)等問(wèn)題的擁塞檢測(cè)技術(shù)。ConEx通過(guò)在數(shù)據(jù)包頭部添加擁塞信息,向網(wǎng)絡(luò)設(shè)備和終端設(shè)備傳遞擁塞信息,從而調(diào)整數(shù)據(jù)傳在網(wǎng)絡(luò)中的特定測(cè)量點(diǎn),“剩余路徑擁塞”(也稱為“下行擁塞”)是一個(gè)流預(yù)計(jì)在測(cè)量點(diǎn)和其最終目標(biāo)之間經(jīng)歷的擁塞水平。如果網(wǎng)絡(luò)中的流量支持ECN(顯式擁塞通知),則路由器可以在中間節(jié)點(diǎn)監(jiān)測(cè)ECN信號(hào),并根據(jù)該信號(hào)量測(cè)上行擁塞情況。與之不同的是,ConEx信號(hào)將插入IP頭中,從源端到目的端包含了整個(gè)網(wǎng)絡(luò)路徑中的擁塞情況。因此,如果監(jiān)測(cè)點(diǎn)檢測(cè)到這兩個(gè)信號(hào),它48數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004可以通過(guò)將ConEx的路徑擁塞情況減去ECN的上行擁塞情況,計(jì)算出數(shù)據(jù)包在監(jiān)測(cè)點(diǎn)和目標(biāo)之間可能遇到的擁塞情況,也就是剩余路剩余路徑擁塞檢測(cè)無(wú)疑是當(dāng)前ECN檢測(cè)方案的一個(gè)有力補(bǔ)充,它更本章歸納了高性能網(wǎng)絡(luò)中,擁塞檢測(cè)相關(guān)的技術(shù),以網(wǎng)側(cè)、端側(cè)、端網(wǎng)協(xié)同為依據(jù),將現(xiàn)有的擁塞檢測(cè)技術(shù)及其典型應(yīng)用進(jìn)行了簡(jiǎn)單的歸納。不同的擁塞檢測(cè)機(jī)制存在明顯的優(yōu)缺點(diǎn),這決定了其同時(shí),在本章中討論了各項(xiàng)擁塞檢測(cè)技術(shù)設(shè)計(jì)的本質(zhì)??傮w上看,當(dāng)前的擁塞檢測(cè)機(jī)制設(shè)計(jì)上,檢測(cè)、處理、控制多個(gè)環(huán)節(jié)緊耦合的現(xiàn)狀下,擁塞檢測(cè)機(jī)制難以標(biāo)準(zhǔn)化、模塊化。需要在后續(xù)的數(shù)49數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004隨著未來(lái)數(shù)字經(jīng)濟(jì)發(fā)展,算力網(wǎng)絡(luò)宏觀戰(zhàn)略日益落實(shí),東數(shù)西算、大模型等新興應(yīng)用場(chǎng)景與算力需求形成了交替驅(qū)動(dòng)的螺旋上升未來(lái)數(shù)據(jù)中心網(wǎng)絡(luò)隨著云計(jì)算的發(fā)展將占據(jù)更多的市場(chǎng)份額,這都而在這一新的機(jī)遇期,RoCE網(wǎng)絡(luò)由于其開(kāi)放兼容的優(yōu)勢(shì),毫無(wú)首先,本白皮書(shū)中就高性能網(wǎng)絡(luò)的背景和現(xiàn)狀進(jìn)行了研究,總結(jié)了當(dāng)前數(shù)據(jù)中心中分布式存儲(chǔ)、內(nèi)存池化、鍵值存儲(chǔ)、智能算力等場(chǎng)景下高性能網(wǎng)絡(luò)的應(yīng)用情況,并分析了高性能網(wǎng)絡(luò)中的擁塞問(wèn)題。然后,本白皮書(shū)進(jìn)一步總結(jié)歸納了高性能網(wǎng)絡(luò)的擁塞管理控制技術(shù)體系。從網(wǎng)絡(luò)層、傳輸層、鏈路層逐級(jí)分解,對(duì)已有的擁塞管理控制技術(shù)體系進(jìn)行了深度的剖析。本白皮書(shū)中,以網(wǎng)側(cè)驅(qū)動(dòng)、端側(cè)驅(qū)動(dòng)、端網(wǎng)協(xié)同為劃分依據(jù),對(duì)現(xiàn)有的擁塞檢測(cè)技術(shù)進(jìn)行了細(xì)致的分類,同時(shí)深入討論了不同擁塞檢測(cè)技術(shù)方案設(shè)計(jì)的優(yōu)缺點(diǎn),探討了不同方案的本質(zhì)特點(diǎn),對(duì)工業(yè)部署廣泛、學(xué)術(shù)影響深遠(yuǎn)的技術(shù)模塊化的高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)落地,提供一些理數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-030041、檢測(cè)效果與資源占用不可兼得的矛盾。提高檢測(cè)的精度和頻率通常需要增加系統(tǒng)的復(fù)雜度和提高資源的占用,如何權(quán)衡方案的損失收益,目前沒(méi)有明確的評(píng)價(jià)規(guī)范。例如,INT帶來(lái)的擁塞控制方案中,檢測(cè)、處理、控制三個(gè)環(huán)節(jié)往往通過(guò)一個(gè)整體來(lái)設(shè)計(jì),這也導(dǎo)致離開(kāi)整體系統(tǒng)的特定硬件,檢測(cè)環(huán)節(jié)難以獨(dú)立工作。這需要塞控制協(xié)議中,構(gòu)建閉環(huán)的控制系統(tǒng)。閉環(huán)控制系統(tǒng)能夠有效的抵御外部擾動(dòng),這對(duì)于高性能網(wǎng)絡(luò)在復(fù)雜的云場(chǎng)景應(yīng)用有重要意義??偟膩?lái)說(shuō),高性能網(wǎng)絡(luò)擁塞管理與控制的技術(shù)體系目前越發(fā)清晰。作為其中的基石技術(shù),擁塞檢測(cè)技術(shù)在各種技術(shù)方案中具有核心影響。而未來(lái),擁塞檢測(cè)技術(shù)是整個(gè)擁塞管理控制技術(shù)體系的基石,其關(guān)鍵的系統(tǒng)化、標(biāo)準(zhǔn)化、模塊化工作,將成為高性能網(wǎng)絡(luò)進(jìn)數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004SymposiumonNetworkedSystemsDesignandImplementation(NSDI21),2021,networksinAlibabacloud,”inProceedingsoftheACMSIGCOMM2022Conference,AmsterdamNetherlands:ACM,Aug.2022,pp.753–766.doi:USENIXSymposiumonOperatingSystemsDesignandImplementation(OSDIAvailable:/conference/osdi16/technical-ExtendibleHashingforDisaggregatedMMemory,”inProceedingsofthe11thUSENIXConferenceonNetworkedSystemsDesignandImplementation,inNSDI’14.USA:USEusingRemoteLearnedCacheCaching,”inProceedingsofthe26thSymposiumonOperatingSystems[9]“5_最佳實(shí)踐-使用SMC和ERI透明加速Redis應(yīng)用-OpenAnolis代碼庫(kù).”/sig/high-perf-network/doc/735934915657Aug.24,2023).數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004ProtocolforElasticandNetworks,”inProceedingsofthe13thInternationalConferenceonemergingNetworkingEXperimentsandTechnologies,IncheonRepublicofKorea:ACM,Proceedingsofthe2015ACMConferenceonSpecialInterestGrouponDataCommunication,LondonUnitedKingdom:ACM,Aug.2015,pp.523–536.do[14]M.Alizadehetal.,“DataCenterTCP(DCTCP),”inProceediSIGCOMM2010ConfeAssociationfor[15]R.Mittaletal.,“TIMELY:RTT-basedCongesinProceedingsofthe2015ACMConferenceonSpecialInterestGrouponDataCommunication,LondonUnitedKingdom:ACM,Aug.2015,p[16]Y.Lietal.,“HPCC:higACMSpecialInterestGrouponDataCommunication,BeijingChina:ACM,ECNtuningforhigh-speeddatacenternetworks,”inProceedingsofthe2021ACMSIGCOMM2021Conference,VirtualEventUSA:ACM,Aug.2021,pp.Large-ScaleIncastCongestioninRDMAoverEthernetNetworks,”IEEE26thInternationalConferenceonNetworkProtocols(ICNP),Cambridge:數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004[19]R.Mittaletal.,“RevisitingnetworksupportforRDMA,”2018ConferenceoftheACMSpecialInterestGrouponDataCommunication,BudapestHungary:ACM,Au[20]Y.Zhang,Y.networks,”inProceedingsofthe2021ACMSIGCOMM2021Conference,VirtualEventUSA:ACM,Aug.fromAnalysisofDCQCNandTIMELY,”inProceedingsofthe12thInternationalonConferenceonemergingNetworkingEXperimentsandTechnologies,IrvineCaliforniaUSA:ACM,Dec.2016,pp.313–327.doi:theDatacenter,”inProceedingsoftheAnnualconferenceoftheACMSpecialInterestGrouponDataCommunicationontheapplications,technolarchitectures,andprotocolsforcomputercommunication,VirtualEventUSA:RTTforDatacenterTransport,”inProceedingsoftheFirstAsia-PacificWorkshoponNetworking,HongKongChina:ACM,Aug.2017,pp.36–42.doi:“PINT:ProbabilisticIn-bandNetworkTelemetry,”inProceedingsoftheAnnualconferenceoftheACMSpecialInterestGrouponDataCommunicationontheapplications,technologies,architectures,andprotocolsforcomputer“RoCC:robustcongestioncontrolforRDMA,”inProceedingsofthe16th數(shù)據(jù)中心高性能網(wǎng)絡(luò)擁塞檢測(cè)技術(shù)白皮書(shū)(2023年)ODCC-2023-03004InternationalConferenceonemergingNetworkingEXperimentsandAccurateCongestionFeedbackforRDMACongestionControlINFOCOM2022-IEEEConferenceUnitedKingdom:IEEE,May2022,pp.2228–2237[27]J.Zhangetal.,“Receiver-DrivenRDMACoCongestionTypesinDatacenterNetworks,”in2021IEEE29tConferenceonNetworkProtocols(ICNP),Dallas,TX,U(accessedSep.03,20[29]M.
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司新年企劃活動(dòng)方案
- 公司百人旅游活動(dòng)方案
- 公司組織小活動(dòng)方案
- 公司百家講壇活動(dòng)方案
- 公司游泳買票活動(dòng)方案
- 公司組織抓鵝活動(dòng)方案
- 公司組織集體洗腳活動(dòng)方案
- 公司盛大年會(huì)策劃方案
- 公司活動(dòng)現(xiàn)場(chǎng)策劃方案
- 公司活動(dòng)策劃方案
- 電子政務(wù)內(nèi)網(wǎng)機(jī)房運(yùn)維管理制度
- 2025年北京高考化學(xué)試卷試題真題及答案詳解(精校打印版)
- 陜西省專業(yè)技術(shù)人員繼續(xù)教育2025公需課《黨的二十屆三中全會(huì)精神解讀與高質(zhì)量發(fā)展》20學(xué)時(shí)題庫(kù)及答案
- 福利院財(cái)務(wù)管理制度
- 2025至2030中國(guó)汽車輪轂行業(yè)發(fā)展分析及發(fā)展前景與投資報(bào)告
- 郴州市2025年中考第二次???xì)v史試卷
- 2025年供應(yīng)鏈管理考試題及答案
- 2024-2025學(xué)年人教版數(shù)學(xué)五年級(jí)下學(xué)期期末試卷(含答案)
- 食用薄荷介紹課件
- 美容院和干洗店合同協(xié)議
- 學(xué)習(xí)通《科研誠(chéng)信與學(xué)術(shù)規(guī)范》課后及考試答案
評(píng)論
0/150
提交評(píng)論