RoCEv2在大規(guī)模數(shù)據(jù)中心的潛力_第1頁(yè)
RoCEv2在大規(guī)模數(shù)據(jù)中心的潛力_第2頁(yè)
RoCEv2在大規(guī)模數(shù)據(jù)中心的潛力_第3頁(yè)
RoCEv2在大規(guī)模數(shù)據(jù)中心的潛力_第4頁(yè)
RoCEv2在大規(guī)模數(shù)據(jù)中心的潛力_第5頁(yè)
已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

在快速增長(zhǎng)的人工智能(AI)和機(jī)器學(xué)習(xí)(ML)領(lǐng)域,數(shù)據(jù)中心對(duì)高性能計(jì)算(HPC)系統(tǒng)的需求正在迅速提升。HPC需要快速、低延遲的連接來(lái)實(shí)現(xiàn)高速、無(wú)縫通信。這引出了一個(gè)關(guān)鍵問(wèn)題:傳統(tǒng)的TCP/IP堆棧是否足以有效支持HPC網(wǎng)絡(luò)通信?

遠(yuǎn)程直接內(nèi)存訪問(wèn)(RDMA)是HPC和存儲(chǔ)網(wǎng)絡(luò)領(lǐng)域中備受青睞的技術(shù)之一,它能夠在內(nèi)存到內(nèi)存級(jí)別提供高吞吐量和低延遲的數(shù)據(jù)傳輸,同時(shí)避免給CPU帶來(lái)額外的負(fù)擔(dān)。RDMA允許從一臺(tái)計(jì)算機(jī)直接訪問(wèn)另一臺(tái)計(jì)算機(jī)上的內(nèi)存,從而實(shí)現(xiàn)了無(wú)縫的數(shù)據(jù)傳輸體驗(yàn)。此操作完全由網(wǎng)絡(luò)適配器硬件處理,無(wú)需經(jīng)過(guò)操作系統(tǒng)軟件網(wǎng)絡(luò)堆棧的干預(yù)。

傳統(tǒng)模式與RDMA模式

HPC網(wǎng)絡(luò)利用InfiniBand(IB)堆棧,可實(shí)現(xiàn)RDMA技術(shù)的各項(xiàng)優(yōu)勢(shì),包括高吞吐量、低延遲以及CPU旁路特性。此外,InfiniBand將擁塞管理直接集成到協(xié)議中。相比之下,傳統(tǒng)的TCP/IP協(xié)議棧會(huì)隨著網(wǎng)絡(luò)訪問(wèn)帶寬的增加而導(dǎo)致CPU消耗的增加,從而進(jìn)一步增加網(wǎng)絡(luò)傳輸延遲,顯然不適合HPC需求。

RDMA網(wǎng)絡(luò)協(xié)議

InfiniBand(原生RDMA):InfiniBand原生RDMA技術(shù)提供了基于通道的P2P消息隊(duì)列轉(zhuǎn)發(fā)模型,應(yīng)用可以通過(guò)虛擬通道直接訪問(wèn)消息,從而繞過(guò)對(duì)操作系統(tǒng)和其他堆棧的需求。這不僅減輕了CPU的工作負(fù)擔(dān),還實(shí)現(xiàn)了節(jié)點(diǎn)間高效的RDMA讀寫(xiě)訪問(wèn)。此外,InfiniBand的鏈路層集成了特定的重傳機(jī)制來(lái)支持QoS,從而消除了對(duì)數(shù)據(jù)緩沖的依賴。但要充分發(fā)揮其性能優(yōu)勢(shì),需要專用的InfiniBand交換機(jī)和網(wǎng)卡。

iWARP(基于TCP的RDMA):互聯(lián)網(wǎng)廣域RDMA協(xié)議(iWARP)支持基于TCP的RDMA操作,通過(guò)標(biāo)準(zhǔn)以太網(wǎng)基礎(chǔ)設(shè)施提供RDMA功能。這允許組織將其現(xiàn)有的以太網(wǎng)交換機(jī)用于RDMA目的,并利用TCP的數(shù)據(jù)包丟失保護(hù)機(jī)制。但網(wǎng)卡必須支持iWARP,尤其是在利用CPU卸載技術(shù)時(shí)。

RoCEv1(二層以太網(wǎng)上的RDMA):RoCEv1是運(yùn)行在以太網(wǎng)鏈路層上的RDMA協(xié)議,可以促進(jìn)同一以太網(wǎng)廣播域內(nèi)任意兩臺(tái)主機(jī)之間的通信。為了實(shí)現(xiàn)物理層的可靠傳輸,交換機(jī)必須支持PFC(優(yōu)先級(jí)流控制)等流控機(jī)制。

RoCEv2(基于UDP的RDMA):RoCEv2解決了v1的局限性,即僅限于單個(gè)VLAN。它通過(guò)調(diào)整數(shù)據(jù)包封裝(包括IP和UDP標(biāo)頭)來(lái)實(shí)現(xiàn)跨L2和L3網(wǎng)絡(luò)的使用。

RDMA協(xié)議棧

超大規(guī)模數(shù)據(jù)中心中的RoCEv2

在快節(jié)奏的超大規(guī)模數(shù)據(jù)中心領(lǐng)域,對(duì)高性能網(wǎng)絡(luò)解決方案的需求引發(fā)了人們對(duì)RoCEv2日益增長(zhǎng)的興趣。RoCEv2代表了InfiniBand的性能優(yōu)勢(shì)與以太網(wǎng)的廣泛可訪問(wèn)性的結(jié)合,從而在現(xiàn)有以太網(wǎng)基礎(chǔ)設(shè)施上實(shí)現(xiàn)無(wú)縫的RDMA功能。

RoCEv2利用了融合以太網(wǎng)基礎(chǔ)設(shè)施的優(yōu)勢(shì),促進(jìn)了傳統(tǒng)以太網(wǎng)流量與RDMA流量在同一網(wǎng)絡(luò)上的共存,簡(jiǎn)化了網(wǎng)絡(luò)管理并消除了對(duì)單獨(dú)RDMA結(jié)構(gòu)的需求。然而,在融合以太網(wǎng)結(jié)構(gòu)中部署RoCEv2也同樣面臨挑戰(zhàn),例如通過(guò)分配必要的網(wǎng)絡(luò)資源、優(yōu)化UDP數(shù)據(jù)包封裝以及實(shí)施有效的擁塞控制機(jī)制(如優(yōu)先級(jí)流量控制(PFC)和中心量化擁塞通知(DCQCN))來(lái)確保無(wú)損和低延遲通信。本文深入研究了RoCEv2的復(fù)雜性,審視了其對(duì)UDP的封裝,并提出了資源分配和擁塞控制策略。

RoCEv2

要利用RoCEv2,源主機(jī)和目標(biāo)主機(jī)上都需要支持RDMA的專用RDMANIC(RNIC)。RDMA卡的物理(PHY)速度通常是50Gbps起,目前已經(jīng)提升至高達(dá)400Gbps。

RoCEv2數(shù)據(jù)包格式

為了確保在IP和UDP第3層以太網(wǎng)上實(shí)現(xiàn)對(duì)RDMA流量的無(wú)縫傳輸,數(shù)據(jù)包封裝至關(guān)重要。專用UDP目標(biāo)端口4791用于表示InfiniBand有效負(fù)載,同時(shí)針對(duì)不同的隊(duì)列對(duì)(QP),使用不同的源端口,可以實(shí)現(xiàn)等價(jià)多路徑(ECMP)負(fù)載共享,以優(yōu)化轉(zhuǎn)發(fā)效率。

具體來(lái)說(shuō):

-RoCEv2在IPv4/UDP或IPv6/UDP協(xié)議之上運(yùn)行,使用以太網(wǎng)鏈路層的IP和UDP標(biāo)頭替代InfiniBand網(wǎng)絡(luò)層,實(shí)現(xiàn)路由。-它默認(rèn)使用UDP目標(biāo)端口號(hào)4791。-UDP源端口被用作流標(biāo)識(shí)符,可利用ECMP優(yōu)化數(shù)據(jù)包轉(zhuǎn)發(fā)。-RoCEv2流量和擁塞控制利用IP標(biāo)頭中的優(yōu)先級(jí)流量控制(PFC)和顯式擁塞通知(ECN)位來(lái)管理?yè)砣?,并使用擁塞通知?shù)據(jù)包(CNP)幀進(jìn)行確認(rèn)。

RoCEv2數(shù)據(jù)包格式

RoCEv2Wireshark捕獲

RoCEv2以更低的成本提供卓越的多功能性,使其成為在傳統(tǒng)以太網(wǎng)環(huán)境中構(gòu)建高性能RDMA網(wǎng)絡(luò)的最佳選擇。但在這些交換機(jī)上配置Headroom、PFC和ECN設(shè)置等參數(shù)可能相當(dāng)復(fù)雜。需要仔細(xì)注意以確保建立最佳配置才能獲得最佳性能。擁塞和路由等因素會(huì)顯著影響高性能網(wǎng)絡(luò)的帶寬和延遲。

在以太網(wǎng)中實(shí)施RoCEv2

為了發(fā)揮RDMA的真正性能,需要構(gòu)建無(wú)損網(wǎng)絡(luò)。在以太網(wǎng)交換機(jī)上實(shí)施RoCEv2需要注意以下關(guān)鍵因素,以確保最佳性能和兼容性:

1.MTU(最大傳輸單元):RoCEv2需要比傳統(tǒng)以太網(wǎng)流量更大的MTU,以容納額外的RDMA標(biāo)頭。建議將最小MTU設(shè)置為9000字節(jié),以避免碎片并確保高效的數(shù)據(jù)傳輸。

2.QoS(服務(wù)質(zhì)量):實(shí)施QoS機(jī)制對(duì)于優(yōu)先考慮RoCEv2流量并確保低延遲通信至關(guān)重要。需要配置交換機(jī)隊(duì)列和調(diào)度算法,使RDMA流量比其他網(wǎng)絡(luò)流量具有更高的優(yōu)先級(jí)。差分服務(wù)代碼點(diǎn)(DSCP)標(biāo)記可根據(jù)優(yōu)先級(jí)對(duì)流量進(jìn)行分類,并根據(jù)其在網(wǎng)絡(luò)中的重要性對(duì)RoCEv2流量進(jìn)行優(yōu)先級(jí)排序,實(shí)現(xiàn)更精細(xì)的QoS控制。以太網(wǎng)交換機(jī)應(yīng)支持基于DSCP的QoS,以有效管理RoCEv2流量并保持最佳網(wǎng)絡(luò)性能。

3.PFC(優(yōu)先級(jí)流量控制):PFC對(duì)于創(chuàng)建無(wú)損以太網(wǎng)至關(guān)重要,因?yàn)樗梢苑乐箶?shù)據(jù)包丟失并確保RDMA流量的可靠傳輸。交換機(jī)必須支持基于IEEE802.1Qbb標(biāo)準(zhǔn)的PFC,以實(shí)現(xiàn)RoCEv2的無(wú)損操作。

4.ECN(顯式擁塞通知):ECN在管理?yè)砣途S持最佳網(wǎng)絡(luò)性能方面發(fā)揮著至關(guān)重要的作用,特別是數(shù)據(jù)中心量化擁塞通知(DCQCN)。交換機(jī)必須支持ECN機(jī)制,才能對(duì)RoCEv2流量進(jìn)行有效的擁塞控制。

以上是在以太網(wǎng)上實(shí)施RoCEv2時(shí)需要考慮的關(guān)鍵因素。接下來(lái),讓我們深入研究?jī)蓚€(gè)關(guān)鍵組件:優(yōu)先級(jí)流量控制(PFC)和數(shù)據(jù)中心量化擁塞通知(DCQCN)。這些機(jī)制在確保無(wú)損通信、有效管理?yè)砣约熬S持RoCEv2流量的最佳網(wǎng)絡(luò)性能方面發(fā)揮著至關(guān)重要的作用。

PFC-基于優(yōu)先級(jí)的流量控制

優(yōu)先流量控制(PFC)是一種IEEE802.1Qbb鏈路層流量控制協(xié)議,旨在確保無(wú)丟包的網(wǎng)絡(luò)環(huán)境。PFC使接收器能夠通過(guò)通知發(fā)送器臨時(shí)停止特定優(yōu)先級(jí)的傳輸流量來(lái)實(shí)現(xiàn)流量控制。它提高了從物理端口到8個(gè)虛擬通道的流量控制的精度,并與8個(gè)硬件隊(duì)列(流量類別:TC0、TC1...TC7)對(duì)齊。同時(shí),PFC利用DSCP為不同的流量啟用自動(dòng)流量控制。

PFC操作

如上圖所示,當(dāng)交換機(jī)緩沖區(qū)接近溢出時(shí)(由XOFF閾值表示,表示特定優(yōu)先級(jí)隊(duì)列中的緩沖區(qū)利用率較高),交換機(jī)會(huì)調(diào)度PFCPAUSE幀,以通知上游端口停止數(shù)據(jù)傳輸。當(dāng)緩沖區(qū)使用率下降到XON閾值以下時(shí),交換機(jī)會(huì)提示上游端口恢復(fù)流量,表示擁塞已緩解。凈空表示為容納傳輸中的數(shù)據(jù)包而保留的額外緩沖區(qū)空間。

PFC是基于服務(wù)類別(CoS)的流量控制協(xié)議。在擁塞期間,PFC通過(guò)發(fā)送暫停幀指示需要暫停傳輸?shù)腃oS值。每個(gè)PFC暫停幀都包含每個(gè)CoS的2個(gè)八位字節(jié)定時(shí)器值,指示應(yīng)暫停流量的持續(xù)時(shí)間。計(jì)時(shí)器以暫停量子為單位進(jìn)行測(cè)量,其中量子表示以端口速度傳輸512位數(shù)據(jù)所需的時(shí)間,范圍為0到65535。如果暫停量子為0,則表示恢復(fù)流量,提示暫停的流量重新開(kāi)始流動(dòng)。PFC通過(guò)向指定地址發(fā)送暫停幀來(lái)指示對(duì)等方停止發(fā)送特定CoS值的幀。暫停幀僅在單跳內(nèi)傳輸,不會(huì)傳播到接收方之外。擁塞緩解后,PFC可以請(qǐng)求對(duì)端重新開(kāi)始數(shù)據(jù)傳輸。

PFC幀格式

PFC的缺點(diǎn)在于它可能會(huì)導(dǎo)致入口端口處特定流量類別內(nèi)的所有流量停止傳輸,從而阻止了流向其他端口的流量。與PFC相關(guān)的常見(jiàn)問(wèn)題包括隊(duì)頭(HoL)阻塞、不公平和死鎖情況。這些問(wèn)題顯著降低了RoCEv2的吞吐量、延遲和利用率性能。因此,RoCEv2需要端到端的每流擁塞控制來(lái)調(diào)整流量,快速消除擁塞并最大限度地減少PFC的頻繁觸發(fā)。

DCQCN-使用ECN進(jìn)行擁塞控制

數(shù)據(jù)中心量化擁塞通知(DCQCN)是專門(mén)為RoCEv2設(shè)計(jì)的端到端擁塞控制機(jī)制。它結(jié)合了ECN和PFC,旨在實(shí)現(xiàn)跨網(wǎng)絡(luò)的無(wú)丟包以太網(wǎng)連接。DCQCN的概念是利用ECN來(lái)進(jìn)行流量控制,在發(fā)生擁塞時(shí)降低發(fā)送方的傳輸速率,從而有效地減少PFC的干預(yù)。

在DCQCN中,交換機(jī)充當(dāng)擁塞點(diǎn)(CP),通過(guò)ECN字段監(jiān)控隊(duì)列長(zhǎng)度和標(biāo)志來(lái)檢測(cè)擁塞。交換機(jī)使用RED(隨機(jī)早期檢測(cè))機(jī)制根據(jù)隊(duì)列長(zhǎng)度對(duì)數(shù)據(jù)包進(jìn)行概率性的ECN標(biāo)記。接收方充當(dāng)通知點(diǎn)(NP),生成擁塞通知數(shù)據(jù)包(CNP),并直接發(fā)送給發(fā)送方。然后,發(fā)送方充當(dāng)反應(yīng)點(diǎn)(RP),如果在控制周期內(nèi)收到CNP,則降低流量;否則,它會(huì)增加由定時(shí)器和字節(jié)計(jì)數(shù)器確定的流量。

DCQCN操作

ECN利用IPv4或IPv6標(biāo)頭中流量類別字段的兩個(gè)最低有效位(最右側(cè))對(duì)四個(gè)不同的代碼點(diǎn)進(jìn)行編碼:

-0x00:不支持ECN的傳輸(非ECT)-0x10:支持ECN的傳輸0(ECT-0)-0x01:支持ECN的傳輸1(ECT-1)-0x11:遇到擁塞(CE)

如果發(fā)生擁塞,網(wǎng)絡(luò)設(shè)備會(huì)重新標(biāo)記數(shù)據(jù)包為ECN遇到擁塞(0x11),但不會(huì)向發(fā)送方發(fā)送任何內(nèi)容。重新標(biāo)記的數(shù)據(jù)包到達(dá)目的地后,目的地會(huì)向發(fā)送方發(fā)送通知以減少流量。路徑上的所有交換機(jī)或路由器都需要支持ECN。

在動(dòng)態(tài)網(wǎng)絡(luò)環(huán)境中,PFC和DCQCN的結(jié)合使用可以優(yōu)化RDMA性能。DCQCN通過(guò)向端點(diǎn)數(shù)據(jù)路徑的任何地方發(fā)送擁塞信號(hào),有效地緩解擁塞模式,如incast。同時(shí),PFC通過(guò)減慢發(fā)送者的速度,有效地管理由端點(diǎn)附近的突發(fā)應(yīng)用程序引起的擁塞。在這種設(shè)置中,DCQCN充當(dāng)主要的擁塞管理機(jī)制,而PFC則充當(dāng)故障安全的備用解決方案。

結(jié)論

總的來(lái)說(shuō)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論