




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第1章超融合數(shù)據(jù)中心網(wǎng)絡(luò)簡 第2章超融合數(shù)據(jù)中心網(wǎng)絡(luò)產(chǎn)生背 計(jì)算層面:CPU/GPU出以太接口提升性 存儲(chǔ)層面:升級(jí)為全閃存NVMe接 第3章華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)價(jià) 全以太HPC網(wǎng)絡(luò),充分釋放算 第4章華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)架 方案架 主要組件產(chǎn)品一 第5章超融合數(shù)據(jù)中心網(wǎng)絡(luò)關(guān)鍵技 智能無損網(wǎng)絡(luò)系列技 自動(dòng)駕駛網(wǎng)絡(luò)技 多云協(xié)同技 智能運(yùn)維技 第6章超融合數(shù)據(jù)中心網(wǎng)絡(luò)典型應(yīng) 實(shí)現(xiàn)某人工智能計(jì)算中心大規(guī)模RoCE組 第7章超融合數(shù)據(jù)中心網(wǎng)絡(luò)展 人類社會(huì)正邁入萬物感知、萬物互聯(lián)、萬物智能的智能時(shí)代,5G、AI2035年遠(yuǎn)景數(shù)據(jù)分析與數(shù)據(jù)計(jì)算的重任。從數(shù)據(jù)中挖掘商業(yè)價(jià)值已成為企業(yè)經(jīng)營的核心任務(wù)之一根據(jù)ODCC(OpenDataCenterCommittee,放數(shù)據(jù)中心委員會(huì))的定義,4大核心要素,即:通用計(jì)算能力、高性能計(jì)算能力、存儲(chǔ)能數(shù)據(jù)中心內(nèi)存在三大資源區(qū):通用計(jì)算區(qū)、高性能計(jì)算(HPC)的高性能計(jì)算任務(wù)或AI訓(xùn)練。這個(gè)區(qū)域中的服務(wù)器一般很少使用虛擬技術(shù)。本區(qū)FC(FibreChannel)網(wǎng)絡(luò)。當(dāng)前,通用計(jì)算區(qū)部署的傳統(tǒng)以太網(wǎng)、高性能計(jì)算區(qū)部署的IB網(wǎng)、存儲(chǔ)區(qū)部署FC網(wǎng),是三張異構(gòu)網(wǎng)絡(luò),他們協(xié)議各異、架構(gòu)割裂,帶來了運(yùn)維困難、專網(wǎng)生態(tài)存儲(chǔ)層面升級(jí)為全閃存(Ve以太網(wǎng)在IT架構(gòu)層面:從本地集中式走向云端PC平臺(tái)來替代傳統(tǒng)的小型機(jī)。這么做帶而傳統(tǒng)數(shù)據(jù)中心高性能計(jì)算使用的IBFC網(wǎng)絡(luò),生態(tài)封閉,資源割裂,演進(jìn)緩慢,已無法匹配云化的發(fā)展訴求。根據(jù)IDC數(shù)據(jù)顯示,近FCIB市場(chǎng)逐步萎縮,數(shù)據(jù)中心的云化趨勢(shì)助長了對(duì)以太網(wǎng)的需求,以太網(wǎng)是計(jì)算層面:CPU/GPU出以太接口提升CPU3nm左右,且成本較高;另外一方總算力并非線性增長。據(jù)測(cè)算,當(dāng)128核增至256核時(shí),總算力水平無法提升(EFLOPS,一秒1018次浮點(diǎn)運(yùn)算)演進(jìn),計(jì)算集群的規(guī)模不斷擴(kuò)大,對(duì)集群之間互在計(jì)算處理器上,傳統(tǒng)的PCIe的總線標(biāo)準(zhǔn)由于單通道傳輸帶寬有限,且通道擴(kuò)在計(jì)算處理器內(nèi)集成RoCE(RemoteDirectMemoryAccessoverConvergedRemoteDirectMemoryAccess(RDMA)TCP而言的,如下TCP協(xié)議棧在接收/發(fā)送報(bào)文,以及對(duì)報(bào)文進(jìn)行內(nèi)部處理時(shí),會(huì)產(chǎn)生數(shù)十微秒的固定時(shí)延,這使得在AI數(shù)據(jù)運(yùn)算這類微秒級(jí)系統(tǒng)中,TCP協(xié)議棧時(shí)延成為最明顯的瓶頸。另外,隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大和帶寬的提高,寶貴CPU資源越來越地多被用于傳輸數(shù)據(jù)。DA到接近1sDA了U在高性能計(jì)算場(chǎng)景中,當(dāng)前有兩種主流方案來承載RDMA:專用(InfiniBand)網(wǎng)絡(luò)和以太網(wǎng)絡(luò)。然而,IB網(wǎng)絡(luò)采用私有協(xié)議,架構(gòu)封閉,難以與現(xiàn)IPIB網(wǎng)絡(luò)運(yùn)維復(fù)雜,OPEX居高不下。RDMARoCE,已應(yīng)用在越來越多的高性能NVMe新業(yè)務(wù)對(duì)海量數(shù)據(jù)的存儲(chǔ)和讀寫需求,催生了存儲(chǔ)介質(zhì)的革新,由HDD(Hard100NVMe(Non-VolatileMemoryexpress,非易失性內(nèi)存主機(jī)控制器接口規(guī)范)存儲(chǔ)協(xié)議,NVMe極大提升了存儲(chǔ)系C當(dāng)前存儲(chǔ)網(wǎng)絡(luò)的瓶頸。完成革新后的全新存儲(chǔ)系統(tǒng),需要一個(gè)更快、更高質(zhì)量的網(wǎng)絡(luò)。rarc簡稱V)VF將VeN網(wǎng)絡(luò)中的I(SmallComputerSystemInterface,小型計(jì)算機(jī)系統(tǒng)接口)NVMeoverFabric中的“Fabric”,是NVMeFC、TCPRMDA對(duì)于FC,其技術(shù)封閉、產(chǎn)業(yè)生態(tài)不及以太網(wǎng);產(chǎn)業(yè)規(guī)模有限,技術(shù)發(fā)展相對(duì)遲對(duì)于TCP,在追求應(yīng)用高性能的網(wǎng)絡(luò)大潮中,RDMA替換TCPoverRoCERDMA技術(shù)來承載NVMe。TCP的優(yōu)勢(shì)(IP化)NVMeoverRoCE作為新一代存儲(chǔ)網(wǎng)絡(luò)已經(jīng)脫穎而出,成為業(yè)界NVMe-oF的主流技術(shù)。定位慢:如果發(fā)生異常,據(jù)統(tǒng)計(jì),故障的定位平均時(shí)長達(dá)76分鐘,嚴(yán)重影響業(yè)“三網(wǎng)合一”的基礎(chǔ)上,在性、業(yè)務(wù)部署、運(yùn)維層進(jìn)行變革,全方位應(yīng)對(duì)挑戰(zhàn)。本章介紹了華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)在高性能計(jì)算、存儲(chǔ)、業(yè)務(wù)自動(dòng)HPCHPC計(jì)算節(jié)點(diǎn)之間傳輸?shù)臄?shù)據(jù)量大,時(shí)延要求嚴(yán)格,當(dāng)網(wǎng)絡(luò)有丟包或時(shí)延較高0.1%50%。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò),面向高性能計(jì)算場(chǎng)景提供全以太HPC網(wǎng)絡(luò)。該方案CloudEngine數(shù)據(jù)中心交換機(jī)中獨(dú)創(chuàng)的智能無損算法iLossless-DCN,攻克40100%HPC業(yè)務(wù)所練,智能動(dòng)態(tài)地調(diào)整交換機(jī)的隊(duì)列水線,實(shí)現(xiàn)亞秒級(jí)流量精準(zhǔn)控制,確保100%吞吐0丟包,IOPS(Input/outputOperationsPerSecond,每秒進(jìn)行讀寫操作的次數(shù))20%。Ne式,可以做到業(yè)務(wù)單點(diǎn)配置、全網(wǎng)同步,實(shí)現(xiàn)存儲(chǔ)設(shè)備的即插即用N3070公里不等,由于長距光纖數(shù)據(jù)傳輸存在靜態(tài)時(shí)延(5μs/加。為此,華為推出長距無損iLossless-DCI算法,在短距無損的基礎(chǔ)上增加了距離FC90%。在數(shù)據(jù)中心內(nèi)和跨數(shù)據(jù)中心的同等距離場(chǎng)景下,IOPSFC87%42%。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò),在業(yè)界首個(gè)實(shí)現(xiàn)了L3自動(dòng)駕駛網(wǎng)絡(luò)能力,將數(shù)字孿評(píng)估400+影響網(wǎng)絡(luò)設(shè)計(jì)的因子,智能推薦最優(yōu)的網(wǎng)絡(luò)設(shè)計(jì)方案,并完成配置變更的部署ITx86虛擬化穩(wěn)態(tài)業(yè)務(wù):要求高可靠、低時(shí)延等,通常部署在傳統(tǒng)網(wǎng)絡(luò)和硬件SDN網(wǎng)絡(luò)中,敏態(tài)業(yè)務(wù):例如DevOps模式下的業(yè)務(wù)發(fā),需要持續(xù)集成和持續(xù)部署,通常部署在軟件SDN、公有云中,通過虛擬機(jī)承載,滿足業(yè)務(wù)敏捷、彈性、反復(fù)重構(gòu)隨著數(shù)據(jù)中心從傳統(tǒng)IT支撐系統(tǒng)變更為生產(chǎn)系統(tǒng),數(shù)據(jù)中心網(wǎng)絡(luò)重要性越來越維中,大大減輕了故障處理階段運(yùn)維人員的壓力,還可以提供90%故障的主動(dòng)預(yù)74SNMP協(xié)議,5分鐘輪詢Telemetry機(jī)制,秒級(jí)數(shù)據(jù)集采集,基于分析平臺(tái)構(gòu)建動(dòng)態(tài)構(gòu)建了全網(wǎng)的評(píng)估模型,基于AI算法構(gòu)建了基于設(shè)備層、網(wǎng)絡(luò)層、協(xié)議層、Overlay層、業(yè)務(wù)層的全網(wǎng)健康度評(píng)估模型,可預(yù)AI1分鐘感知,3分鐘定5分鐘故障隔離或修復(fù)商落入版本發(fā),周期在3~6個(gè)月不等。另一方面,企業(yè)云管平臺(tái)需要同時(shí)對(duì)接多API服務(wù),實(shí)現(xiàn)云管平高性能計(jì)算服務(wù)器:配備了專用的高性能單元(CPU、GPU)的服務(wù)器,用于AI訓(xùn)練。 CloudEngine系列數(shù)據(jù)中心交換機(jī)承擔(dān),為服務(wù)器層提供高速互ACL安全防護(hù)、NATiMasterNCE-Fabric:華為數(shù)據(jù)中心控制器,南向管理網(wǎng)絡(luò)設(shè)備,北向與應(yīng)用層SecoManager管理,SecoManageriMasterNCE-Fabric上的一項(xiàng)服務(wù)。iMasterNCE-FabricMDC:簡稱為MDC(Multi-DataCenter-Conroller,即內(nèi)部署獨(dú)立的iMasterNCE-Fabric時(shí),可選擇MDC來對(duì)多個(gè)數(shù)據(jù)中心的網(wǎng)絡(luò)業(yè)iMasterNCE-FabricInsight:華為數(shù)據(jù)中心網(wǎng)絡(luò)智能分析平臺(tái),可實(shí)時(shí)感知Fabric的狀態(tài)、應(yīng)用的行為狀態(tài),及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)與應(yīng)用的問題,可進(jìn)行健康度檢iMasterNCE-FabricInsightMDAMDA(Multi-domainAnalyzer),即HiSecInsight:華為的基于大數(shù)據(jù)的APT防御產(chǎn)品HiSecInsight高級(jí)威脅分析HiSec解決方案可完成威脅的處置閉環(huán)。Stack、OpenStack。容器平臺(tái):對(duì)計(jì)算資源進(jìn)行容器化管理的平臺(tái),如源Kubernetes、iMasterNCE-FabriciMasterNCE-Fabric控制器是華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)解決方案的核心組件,可OpenStack云平臺(tái)實(shí)現(xiàn)L2~L7火墻等物理和虛擬網(wǎng)絡(luò)設(shè)備。iMasterNCE-Fabric通過北向接口接收以用戶為中心的景下,iMasterNCE-FabricGUI。iMasterNCE-Fabric提供高可靠集群能力,系統(tǒng)采用負(fù)載分擔(dān)方式對(duì)南北向業(yè)務(wù)掃描下方二維碼,獲取更多iMasterNCE-FabriciMasterNCE-FabricInsight華為iMasterNCE-FabricInsight是面向數(shù)據(jù)中心網(wǎng)絡(luò)的智能分析平臺(tái),基于大iMasterNCE-FabricInsight通過Telemetry采集網(wǎng)絡(luò)全場(chǎng)景數(shù)據(jù),實(shí)時(shí)呈現(xiàn)網(wǎng)掃描下方二維碼,獲取更多iMasterNCE-FabricInsight數(shù)據(jù)中心分析器的信CloudEngine機(jī)。承載獨(dú)創(chuàng)的iLossless智能無損交換算法,對(duì)全網(wǎng)流量進(jìn)行實(shí)時(shí)的學(xué)習(xí)訓(xùn)練,0丟包與E2E微級(jí)時(shí)延,達(dá)到最高吞吐量。CloudEngine6800系列交換機(jī)是華為公司面向數(shù)據(jù)中心推出的新一代高性能、掃描下方二維碼,獲取更多CloudEngine上文提到,目前使用RoCEv2來承載以太網(wǎng)的RDMA流量。華為超融合數(shù)據(jù)中心網(wǎng)絡(luò),使用基于iLossless智能無損算法的一系列技術(shù)來構(gòu)建智能無損以太網(wǎng)絡(luò),通過如圖5-1所示的多個(gè)技術(shù)的組合,真正解決傳統(tǒng)以太網(wǎng)絡(luò)擁塞丟包的問題,為RoCEv2流量提供“無丟包、低時(shí)延、高吞吐”的網(wǎng)絡(luò)環(huán)境,滿足RoCEv2應(yīng)用的高夠資源來接收流量,防止設(shè)備端口在擁塞的情況下出現(xiàn)丟包。華為提供了PFC死鎖PFC死鎖的發(fā)生。PFC(Priority-basedFlowControl,基于優(yōu)先級(jí)的流量控制)是一種有效避免丟包的流量控制技術(shù),是無損網(wǎng)絡(luò)的基礎(chǔ)。配置PFC功能的隊(duì)列為無損隊(duì)列,用于承載丟包敏感的業(yè)務(wù)流;沒有配置PFC的隊(duì)列被稱為有損隊(duì)列,用于承載PFCPFC反壓幀,同時(shí)又相互等待對(duì)方PFC死PFCPFC死鎖檢測(cè)和死鎖預(yù)防PFC死鎖檢測(cè):通過對(duì)PFC死鎖進(jìn)行全程監(jiān)控,當(dāng)設(shè)備在死鎖檢測(cè)周期內(nèi)持續(xù)收到PFC反壓幀時(shí),認(rèn)為可能出現(xiàn)了PFC死鎖現(xiàn)象,此時(shí)會(huì)讓該端口不響應(yīng)PFC反壓幀一段時(shí)間;如果連續(xù)幾個(gè)周期內(nèi)仍然檢測(cè)到大量PFC反壓幀,則認(rèn)PFCPFC功能,保護(hù)應(yīng)用。PFC死鎖預(yù)防:通過識(shí)別易造成PFCPFCPFCPFC整網(wǎng)流量才能起到緩解擁塞、解除擁塞的效果。在擁塞控制過程中,華為提供了AIECN(ArtificialIntelligenceExplicitCongestionNotification)、ECNOverlay、iQCN(intelligentQuantizedCongestionNotification、NPCC,解決了傳統(tǒng)DCQCN存在的問題。AI目前,RDMA網(wǎng)絡(luò)應(yīng)用最廣泛的擁塞控制算法是DCQCN(DataCenter絡(luò)設(shè)備,其他的協(xié)議功能在主機(jī)的網(wǎng)卡上實(shí)現(xiàn)。DCQCN可以在需要零丟包傳輸RDMA網(wǎng)絡(luò)中保證高吞吐,滿足無損業(yè)務(wù)的高要求。DCQCN提供的擁塞控制記報(bào)文。接收端收到ECN報(bào)文后,向發(fā)送端發(fā)送CNP擁塞通知報(bào)文,以通知發(fā)但是,DCQCNECNECN的高低門限、ECN無法使ENC華為智能無損網(wǎng)絡(luò)中的AIECN(ArtificialIntelligenceExplicitCongestionNotification)是一種根據(jù)現(xiàn)網(wǎng)流量模型智能地調(diào)整無損隊(duì)列的ECN門限的功能。AIECNAI訓(xùn)練,對(duì)網(wǎng)絡(luò)流量變化進(jìn)行預(yù)測(cè),及時(shí)推理最優(yōu)ECN門限,并且支持根據(jù)現(xiàn)網(wǎng)流量變化實(shí)時(shí)調(diào)整ECNECN上文提到的ECNIP報(bào)文中的ECN字段傳遞擁塞狀態(tài),然而VXLAN網(wǎng)華為智能無損網(wǎng)絡(luò)中的ECNOverlay功能,是ECN在VXLAN網(wǎng)絡(luò)中的應(yīng)用。ECNOverlayVXLAN網(wǎng)絡(luò)傳遞到流量接收端,可以及時(shí)緩解VXLAN網(wǎng)絡(luò)的擁塞,實(shí)現(xiàn)網(wǎng)絡(luò)性能的最大利用。DCQCN提供的擁塞控制機(jī)制,是在轉(zhuǎn)發(fā)設(shè)備上發(fā)現(xiàn)隊(duì)列擁塞后,由轉(zhuǎn)發(fā)設(shè)備向接收端發(fā)送ECN擁塞標(biāo)記報(bào)文。接收端收到ECNCNP(CongestionNotificationPackets)擁塞通知報(bào)文,以通知發(fā)送端的網(wǎng)卡降低發(fā)包速率。當(dāng)網(wǎng)絡(luò)中出現(xiàn)擁塞時(shí),可能讓發(fā)送端不能及時(shí)接收到CNP報(bào)文,導(dǎo)PFC流控而暫停流量的發(fā)送。華為智能無損網(wǎng)絡(luò)中的iQCN(intelligentQuantizedCongestionNotification)正是應(yīng)對(duì)發(fā)送端網(wǎng)卡未及時(shí)收到CNP報(bào)文而提出的功能。iQCN讓轉(zhuǎn)發(fā)設(shè)備可以CNP報(bào)文的時(shí)間間隔和發(fā)送端網(wǎng)卡升速時(shí)間間隔做對(duì)比,主動(dòng)補(bǔ)償發(fā)送CNPCNPiQCNCNP報(bào)文進(jìn)行判斷的。對(duì)于跨數(shù)據(jù)中心互聯(lián)場(chǎng)景,由于距離較遠(yuǎn),CNP報(bào)文從接收端傳遞到發(fā)送端耗時(shí)較多,在傳遞過NPCC(Network-basedProactiveCongestionControl)RoCEv2流表,RoCEv2報(bào)文的速率。NPCC既可以確保擁塞時(shí)的及時(shí)降速,RoCEv2出了iNoF(IntelligentLosslessNVMeOverFabric,智能無損存儲(chǔ)網(wǎng)絡(luò))技術(shù),在網(wǎng)絡(luò)設(shè)備上建立iNoF網(wǎng)絡(luò)域后,域內(nèi)所有網(wǎng)絡(luò)設(shè)備都可以第一時(shí)間感知到接入主機(jī)網(wǎng)絡(luò)達(dá)到低時(shí)延、無丟包和高吞吐的性能。同時(shí),iNoF還可以將主機(jī)信息通告給存VF23;NFCEieNV、NF和N當(dāng)前,數(shù)據(jù)中心不再只是企業(yè)內(nèi)的一種資源支撐系統(tǒng),而是成為一種新的生產(chǎn)力,始改變企業(yè)研發(fā)、生產(chǎn)和運(yùn)營模式。但是,數(shù)據(jù)中心網(wǎng)絡(luò)在運(yùn)營的規(guī)劃、建不足,制約了企業(yè)業(yè)務(wù)創(chuàng)新和產(chǎn)業(yè)轉(zhuǎn)型。要消除數(shù)據(jù)中心網(wǎng)絡(luò)全生命周期的人工瓶隨著意圖驅(qū)動(dòng)、數(shù)字孿生、AI等重大創(chuàng)新技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)高度自治成為網(wǎng)絡(luò)預(yù)測(cè)和預(yù)防能力。通過意圖驅(qū)動(dòng)、數(shù)字孿生等技術(shù)與AI結(jié)合,數(shù)據(jù)中心網(wǎng)絡(luò)生CloudEngineTelemetry的主動(dòng)上報(bào)機(jī)制,同時(shí)具備NETCONFYANGAI芯片,具備邊緣智能推理能力,可實(shí)依托iMasterNCE自動(dòng)駕駛網(wǎng)絡(luò)管控平臺(tái),以意圖引擎、自動(dòng)化引擎、分析引擎、AIAIAI模型訓(xùn)練引擎、管SLA及安全能Gartner將數(shù)字孿生(DigitalTwin)定義為物理對(duì)象的數(shù)字化表示,包括:物理(流量、表項(xiàng)、性能、告警、事件等、關(guān)聯(lián)關(guān)系(對(duì)象模型、屬性關(guān)聯(lián)等)歷史回放(Timeline)Timeline歷史回放。人工智能(ArtificialIntelligence,AI)技術(shù)的引入,進(jìn)一步消除了人工瓶頸。強(qiáng)化學(xué)習(xí)(ReinforcementLearning,RL):是不斷地重復(fù)、不斷強(qiáng)化認(rèn)知的學(xué)知識(shí)圖譜(KnowledgeGraph):主要包括知識(shí)表示與建模、知識(shí)獲取、知識(shí)融KPI等信息通過知識(shí)圖譜方式進(jìn)行自動(dòng)化建模,并通過故障與網(wǎng)絡(luò)事件自動(dòng)注KPI指標(biāo)異常傳播關(guān)系的模網(wǎng)絡(luò)演算:是一種基于Min-plusalgebra的IP網(wǎng)絡(luò)隊(duì)列理論,用于計(jì)算機(jī)網(wǎng)絡(luò)方法。最初由Cruz1990年提出,此后迅速發(fā)展,主要技術(shù)分支有確定性網(wǎng)絡(luò)演算(DeterministicNetworkCalculus,DNC)、隨機(jī)網(wǎng)絡(luò)演算(StochasticNetworkCalculus,SNC)等。在機(jī)載/車載網(wǎng)絡(luò)、工業(yè)自動(dòng)化網(wǎng)絡(luò)、IP網(wǎng)絡(luò)等RTO,實(shí)現(xiàn)業(yè)務(wù)高可用。RegionCDN(ContentDeliveryNetwork,內(nèi)容分發(fā)網(wǎng)絡(luò))的DevOpsIPVPN或MDC:Multi-Datacenter-Controller,多數(shù)據(jù)中心控制器。MDCFabric業(yè)務(wù)互通編排,又可實(shí)現(xiàn)私有云與公有云之間的業(yè)務(wù)互通編排。此外,MDC還可完成自動(dòng)化部署、支持靈活的安全策略控制。MDC僅負(fù)責(zé)業(yè)務(wù)互通編CloudManager實(shí)現(xiàn)下發(fā)。iMasterNCE-Fabric:私有云域控制器,南向負(fù)責(zé)管理私有云內(nèi)單個(gè)或多個(gè)FabricFabricMDC對(duì)接,將MDCFabric或跨混合云互通的私有云部分的配置下發(fā)。CloudManager:負(fù)責(zé)公有云網(wǎng)絡(luò)編排,南向遠(yuǎn)程調(diào)用公有云API,完成對(duì)公有云網(wǎng)絡(luò)的配置下發(fā)。CloudManagerMDC共部署,是器類似,作為公有云網(wǎng)絡(luò)編排器,編排公有云網(wǎng)絡(luò)對(duì)象,同時(shí)北向與MDC服務(wù)對(duì)接,將MDCAPI完iMasterNCE-FabricInsight:對(duì)私有云數(shù)據(jù)中心網(wǎng)絡(luò)進(jìn)行基于五層評(píng)估模型的全基礎(chǔ)設(shè)施層:私有云側(cè)包含一個(gè)或多個(gè)硬件SDNVPN,與公增加,企業(yè)對(duì)業(yè)務(wù)的可用性要求卻持續(xù)提高。根據(jù)調(diào)研,98%企業(yè)業(yè)務(wù)中斷11030+年運(yùn)維經(jīng)驗(yàn)、大量數(shù)據(jù)中心客戶的故障場(chǎng)景梳理和數(shù)千次675+種故障類型。基于智能化和知識(shí)推理引擎精準(zhǔn)分析,1分鐘故障感知,3分鐘故障定位,5分鐘故障恢復(fù)。合設(shè)備、網(wǎng)絡(luò)、協(xié)議、raiMasterNCE-Fabric控制器組成。iMasterNCE-FabriciMasterNCE-FabricInsight分析層:主要由iMasterNCE-FabricInsight分析平臺(tái)承擔(dān)。iMasterNCE-FabricInsightTelemetry方式的數(shù)據(jù)上報(bào),運(yùn)用智能算法對(duì)上報(bào)的數(shù)據(jù)進(jìn)行分析、呈現(xiàn)。iMasterNCE-FabricInsight可輔助用戶逐步實(shí)現(xiàn)故障主動(dòng)感知、分鐘級(jí)故障定位定界的主動(dòng)智下面將分別介紹智能運(yùn)維的核心角色:iMasterNCE-Fabric控制器、iMasterNCE-FabricInsight分析平臺(tái)。iMasterNCE-FabricInsightiMasterNCE-FabricInsightTelemetry方式的數(shù)據(jù)上報(bào),運(yùn)用智能算法對(duì)網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行分析、呈現(xiàn)。如5-7所示,iMasterNCE-FabricInsight整體架構(gòu)分為三部分,網(wǎng)絡(luò)設(shè)備、iMasterNCE-FabricInsightiMasterNCE-FabricInsight分析器。iMasterNCE-FabricInsight采用微服務(wù)架構(gòu),各個(gè)業(yè)務(wù)服務(wù)采用多實(shí)例部署,具狀態(tài),外部HTTP請(qǐng)求由消息總線進(jìn)行分發(fā)到各個(gè)節(jié)點(diǎn)處理。分析器南向接入采集器,采用LVS提高系統(tǒng)可靠性。負(fù)責(zé)收集交換機(jī)通過多種方式上報(bào)的數(shù)據(jù),包括ERSPANTCP報(bào)文、基gRPCMetrics數(shù)據(jù)、FIB/ARPTCPiMasterNCE-FabricInsightTCPMetrics數(shù)據(jù)。分析器將對(duì)不同的數(shù)據(jù)類型執(zhí)行相應(yīng)的清洗邏輯,比Metrics數(shù)據(jù)建立動(dòng)態(tài)基線iMasterNCE-Fabric為了應(yīng)對(duì)數(shù)據(jù)中心網(wǎng)絡(luò)的運(yùn)維管理挑戰(zhàn),華為公司發(fā)了數(shù)據(jù)中心控制iMasterNCE-Fabric系統(tǒng)是華為公司自主知識(shí)產(chǎn)權(quán)發(fā)的新一代面向企業(yè)和運(yùn)營商數(shù)據(jù)中心市場(chǎng)的SDN控制器,作為網(wǎng)絡(luò)的集中控制面,實(shí)現(xiàn)網(wǎng)絡(luò)配置自動(dòng)下發(fā),如圖5-8所示,iMasterNCE-Fabric控制器運(yùn)維架構(gòu)主要由四個(gè)部分組成:管控析APP層、公共服務(wù)組件層、統(tǒng)一南向采集服務(wù)層、接南向設(shè)備的標(biāo)準(zhǔn)接口層。其APP層涉及到運(yùn)維相關(guān)能力的主要由三大部分組成:一是“運(yùn)維監(jiān)控&故SDN場(chǎng)景特性。IPFC存儲(chǔ)網(wǎng)絡(luò)因?yàn)閮r(jià)格昂貴、1在成本上,僅多數(shù)據(jù)中心互聯(lián)一項(xiàng),就減少了跨數(shù)據(jù)中心鏈路90%,平均每年2500萬元以上。某銀行為了能夠給用戶提供像訪問本地硬盤一樣的業(yè)務(wù)使用體驗(yàn),采用CPU通過部署華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)中的關(guān)鍵技術(shù)——智能無損以太網(wǎng)絡(luò),實(shí)現(xiàn)RDMAIOPS性20%35IOPS。某互聯(lián)網(wǎng)巨頭布局無人駕駛汽車,無人駕駛汽車技能的訓(xùn)練涉及到大量的AI計(jì)算。在此過程中,1GPU7天才能訓(xùn)練完,嚴(yán)重通過部署華為超融合數(shù)據(jù)中心網(wǎng)絡(luò)中的關(guān)鍵技術(shù)——智能無損以太網(wǎng)絡(luò),為其提供0丟包,低時(shí)延,高吞吐的極速無損以太網(wǎng)絡(luò),最終使得整體訓(xùn)練的時(shí)長縮短0丟包、低時(shí)延、高吞降低運(yùn)維成本:網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)資源實(shí)現(xiàn)統(tǒng)一的資源池化,實(shí)現(xiàn)了基于RoCEBenchmark相當(dāng),部分場(chǎng)景性能略優(yōu)于IB設(shè)施,從平臺(tái)軟件到應(yīng)用軟件,不一而足。要構(gòu)建強(qiáng)大算力,各類資源需要高度協(xié)10%ICT解決方案供應(yīng)商,華為一直在思考和探索如何使能行業(yè)數(shù)字化。超融合數(shù)據(jù)中心網(wǎng)絡(luò)前言工業(yè)時(shí)代,電力是帶動(dòng)經(jīng)濟(jì)增長的關(guān)鍵要素,而邁入數(shù)字時(shí)代的今天,算力正成為新的發(fā)展動(dòng)力。在國家數(shù)字經(jīng)濟(jì)與企業(yè)數(shù)字化轉(zhuǎn)型雙輪驅(qū)動(dòng)的背景下,數(shù)據(jù)中心正在向算力中心演進(jìn)。從數(shù)據(jù)中挖掘價(jià)值,數(shù)據(jù)中心為產(chǎn)業(yè)升級(jí)與商業(yè)模式創(chuàng)新注入強(qiáng)勁動(dòng)力,可實(shí)現(xiàn)C2B2C的商業(yè)閉環(huán),改善消費(fèi)體驗(yàn)。作為算力的重要組成部分,數(shù)據(jù)中心網(wǎng)絡(luò)貫穿數(shù)據(jù)存儲(chǔ)、計(jì)算與應(yīng)用的全流程。在云化升級(jí)、存儲(chǔ)全閃存化等變革之下,數(shù)據(jù)中心網(wǎng)絡(luò)正在向全以太化的超融合架構(gòu)邁進(jìn)。基于物理網(wǎng)絡(luò)的全無損以太架構(gòu)、管控析一體的管理融合、以及全場(chǎng)景的服務(wù)化能力融合,超融合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)可打破協(xié)議、管理與場(chǎng)景限制,最大化實(shí)現(xiàn)數(shù)據(jù)的無障礙流動(dòng),有效提升算力能效比,顯著降低網(wǎng)絡(luò)建網(wǎng)與運(yùn)營成本,帶來積極的商業(yè)價(jià)值與社會(huì)價(jià)值。本研究報(bào)告介紹了數(shù)據(jù)中心網(wǎng)絡(luò)對(duì)于算力的意義,歸納出影響數(shù)據(jù)中心全以太化演進(jìn)的因素,以及超融合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的典型特征與價(jià)值。結(jié)合業(yè)界在超融合數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)中的實(shí)踐與探索,對(duì)超融合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)的未來發(fā)展進(jìn)行了展望。目錄加速企業(yè)數(shù)字化轉(zhuǎn)型,數(shù)據(jù)中心向算力中心演進(jìn) 1大算力是數(shù)字經(jīng)濟(jì)背景下的通用需求 1網(wǎng)絡(luò)是構(gòu)建數(shù)據(jù)中心大算力的重要組成部分 1提升網(wǎng)絡(luò)性能可顯著改進(jìn)數(shù)據(jù)中心算力能效比 2全以太化的首要驅(qū)動(dòng)力四大變革驅(qū)動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)向全以太化演進(jìn) 4全以太化的首要驅(qū)動(dòng)力oCE云計(jì)算是數(shù)據(jù)中心 4oCE,直出以太以獲取極致性能存儲(chǔ)全閃存化驅(qū)動(dòng)R 4,直出以太以獲取極致性能產(chǎn)業(yè)政策加速以太化進(jìn)程CPU/GPU去PCIe化 5產(chǎn)業(yè)政策加速以太化進(jìn)程網(wǎng)絡(luò)成為下一代數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展方向IPv6大規(guī)模部署, 6網(wǎng)絡(luò)成為下一代數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展方向絡(luò)架構(gòu)與核心特征超融合數(shù)據(jù)中心 7絡(luò)架構(gòu)與核心特征絡(luò)的收益分析超融合數(shù)據(jù)中心網(wǎng) 7絡(luò)的收益分析絡(luò)收益分析超融合數(shù)據(jù)中心網(wǎng) 8絡(luò)收益分析動(dòng)管理收益分析全無損以太網(wǎng) 8動(dòng)管理收益分析融合收益分析全生命周期自 9融合收益分析網(wǎng)絡(luò)技術(shù)最佳實(shí)踐全場(chǎng)景服務(wù)化 9網(wǎng)絡(luò)技術(shù)最佳實(shí)踐超融合數(shù)據(jù)中心 10基于無損以太技術(shù),提升數(shù)據(jù)中心內(nèi)存儲(chǔ)網(wǎng)絡(luò)性能 10基于無損以太技術(shù),突破同城長距存儲(chǔ)業(yè)務(wù)雙活及災(zāi)備場(chǎng)景的性能瓶頸 10適配高性能計(jì)算場(chǎng)景需求,實(shí)現(xiàn)低時(shí)延總線級(jí)傳輸能力 11優(yōu)化靜態(tài)時(shí)延:從us降低至百ns 11優(yōu)化動(dòng)態(tài)時(shí)延:亞us級(jí)動(dòng)態(tài)時(shí)延 12降低網(wǎng)絡(luò)跳數(shù):大規(guī)模組網(wǎng)新拓?fù)鋵?shí)現(xiàn)跳數(shù)下降20% 12減少入網(wǎng)次數(shù):網(wǎng)算一體技術(shù)提升通信效率 13基于網(wǎng)絡(luò)自動(dòng)駕駛技術(shù)實(shí)現(xiàn)數(shù)據(jù)中心內(nèi)管理融合 13基于意圖的專家推薦系統(tǒng) 13可視化運(yùn)維能力 14將網(wǎng)絡(luò)自動(dòng)駕駛及服務(wù)化技術(shù)融入多云企業(yè)數(shù)據(jù)中心環(huán)境 144總結(jié)與展望 164PAGEPAGE11加速企業(yè)數(shù)字化轉(zhuǎn)型,數(shù)據(jù)中心向算力中心演進(jìn)1加速企業(yè)數(shù)字化轉(zhuǎn)型,數(shù)據(jù)中心向算力中心演進(jìn)5G、大數(shù)據(jù)、物聯(lián)網(wǎng)、AI類社會(huì)的方方面面,可以預(yù)見,在未來二三十年間人類將邁入基于數(shù)字世界的萬物感知、萬物互聯(lián)、萬物智能的智能社會(huì)。如何抓住變革機(jī)遇,加速數(shù)字化轉(zhuǎn)型與科技創(chuàng)新,成為企業(yè)亟需思考的問題之一?!奥?lián)接+算力”已成為企業(yè)數(shù)字化轉(zhuǎn)型的雙引擎。數(shù)據(jù)通過多場(chǎng)景聯(lián)接匯聚到數(shù)據(jù)中心進(jìn)行分析和應(yīng)用,產(chǎn)生的信息(insights)支持業(yè)務(wù)決策,驅(qū)動(dòng)商業(yè)模式創(chuàng)新。作為承載數(shù)據(jù)存儲(chǔ)、分析、計(jì)算的唯一載體,數(shù)據(jù)中心貫穿了數(shù)據(jù)從生產(chǎn)要素到商業(yè)價(jià)值轉(zhuǎn)換的全流程,開始改變企業(yè)的開發(fā)、生產(chǎn)和運(yùn)營模式。數(shù)據(jù)中心算力成為新的生產(chǎn)力,數(shù)據(jù)中心量綱也從原有的資源規(guī)模向算力規(guī)模轉(zhuǎn)變。作為數(shù)據(jù)中心基礎(chǔ)設(shè)施的重要組成部分,數(shù)據(jù)中心網(wǎng)絡(luò)如何快速適應(yīng)業(yè)務(wù)變化、助力數(shù)據(jù)中心100%釋放算力,已成為企業(yè)數(shù)字化轉(zhuǎn)型中的重要課題。大算力是數(shù)字經(jīng)濟(jì)背景下的通用需求數(shù)字經(jīng)濟(jì)對(duì)于經(jīng)濟(jì)增長具有明顯的杠桿效應(yīng),中國政府大力倡導(dǎo)加速數(shù)字經(jīng)濟(jì)建設(shè)。牛津經(jīng)濟(jì)研究院研究分析表明:數(shù)字技術(shù)投資每增加一美元,GDP20回報(bào)是非數(shù)字技術(shù)投資的6.7倍。中國信息通信院和國家統(tǒng)計(jì)局的研究結(jié)果也表明,數(shù)字經(jīng)濟(jì)對(duì)經(jīng)濟(jì)2017年以來,“數(shù)字經(jīng)濟(jì)”已經(jīng)連續(xù)四年被寫入中國政府工作報(bào)告。2021年政府工作報(bào)告及1數(shù)據(jù)來源:中國信息通信研究院、國家統(tǒng)計(jì)局
2035協(xié)同推進(jìn)數(shù)字產(chǎn)業(yè)化和產(chǎn)業(yè)數(shù)字化轉(zhuǎn)型,加快數(shù)字社會(huì)建設(shè)步伐,提高數(shù)字政府建設(shè)水平,營造良好數(shù)字生態(tài),建設(shè)數(shù)字中國”的戰(zhàn)略方針。80%80%70%60%50%40%30%20%10% 0% 2014數(shù)字經(jīng)濟(jì)對(duì)GDP增長的貢獻(xiàn)2015201620172018 2019第二產(chǎn)業(yè)對(duì)GDP增長的貢獻(xiàn)第一產(chǎn)業(yè)對(duì)GDP增長的貢獻(xiàn)第三產(chǎn)業(yè)對(duì)GDP增長的貢獻(xiàn)圖1數(shù)字經(jīng)濟(jì)對(duì)經(jīng)濟(jì)增長的貢獻(xiàn)高于三大產(chǎn)業(yè)1從國家數(shù)字經(jīng)濟(jì)到企業(yè)數(shù)字化轉(zhuǎn)型,大算力是通用性訴求。5G、大數(shù)據(jù)、物聯(lián)網(wǎng)、AI5G智能風(fēng)控、人臉識(shí)別等應(yīng)用的成熟商用,企業(yè)對(duì)于數(shù)據(jù)中心基礎(chǔ)設(shè)施的核心訴求已不再是通過虛擬化技術(shù)提升資源使用率及業(yè)務(wù)彈性,而是轉(zhuǎn)化為單位能耗下數(shù)據(jù)中心支撐應(yīng)用所需的運(yùn)算性能及質(zhì)量的要求,算力中心的概念被業(yè)界廣泛接受。部分?jǐn)?shù)據(jù)中心內(nèi)數(shù)據(jù)處理包括數(shù)據(jù)的存儲(chǔ)、計(jì)算和應(yīng)用三個(gè)環(huán)節(jié),分別對(duì)應(yīng)三大資源區(qū):PAGE4PAGE4HardDiskDrive)、閃存盤(SSD,Solid-StateDrive)、藍(lán)光等,對(duì)于數(shù)據(jù)進(jìn)行存儲(chǔ)、讀寫與備份,存儲(chǔ)節(jié)點(diǎn)間通過存儲(chǔ)網(wǎng)絡(luò)互聯(lián)。 高性能計(jì)算區(qū):服務(wù)器較少虛擬化,配置CPU、GPUAI練,服務(wù)器節(jié)點(diǎn)間通過高性能計(jì)算網(wǎng)絡(luò)互聯(lián) 通用計(jì)算區(qū):服務(wù)器大量使用VM(VirtualMachine)或容器等虛擬化技術(shù),通過通用計(jì)(與外部用戶終端對(duì)接提供服務(wù)。業(yè)務(wù)在某個(gè)區(qū)域內(nèi)或多個(gè)區(qū)域間的數(shù)據(jù)流動(dòng),依賴于網(wǎng)絡(luò)提供高質(zhì)量的服務(wù);例如:某電商平臺(tái)每天產(chǎn)生數(shù)據(jù)50TB,每天訪問用戶4000產(chǎn)生點(diǎn)擊次數(shù)、瀏覽時(shí)長、交易、商鋪、商品等海量用戶行為數(shù)據(jù)。這些數(shù)據(jù)經(jīng)過清洗,在高性能計(jì)AI算法在網(wǎng)站上應(yīng)用,一方面根據(jù)用戶偏好進(jìn)行個(gè)性通用計(jì)算網(wǎng)絡(luò)通用計(jì)算網(wǎng)絡(luò)存儲(chǔ)網(wǎng)絡(luò)通用計(jì)算區(qū)跨區(qū)網(wǎng)絡(luò)互聯(lián)數(shù)據(jù)存儲(chǔ)區(qū)高性能計(jì)算網(wǎng)絡(luò)圖2電商業(yè)務(wù)場(chǎng)景數(shù)據(jù)中心網(wǎng)絡(luò)承載數(shù)據(jù)處理流程
在這個(gè)持續(xù)循環(huán)的過程中,網(wǎng)絡(luò)就像聯(lián)接計(jì)算和存儲(chǔ)資源的中樞神經(jīng),貫穿數(shù)據(jù)處理的全生命周期。數(shù)據(jù)中心算力水平不僅取決于計(jì)算服務(wù)器和存儲(chǔ)服務(wù)器的性能,很大程度上也受到網(wǎng)絡(luò)性能的影網(wǎng)絡(luò)網(wǎng)絡(luò)算力存儲(chǔ)計(jì)算圖3數(shù)據(jù)中心算力構(gòu)成能效比數(shù)據(jù)中心算力是數(shù)據(jù)中心的服務(wù)器通過對(duì)數(shù)據(jù)進(jìn)行處理后實(shí)現(xiàn)結(jié)果輸出的一種能力。在服務(wù)器主板上,數(shù)據(jù)傳輸?shù)捻樞蛞来螢镃PU、內(nèi)存、硬盤和網(wǎng)卡,若針對(duì)圖形則需要GPU。所以,從廣義上講,數(shù)據(jù)中心算力是一個(gè)包含計(jì)算、存儲(chǔ)、傳輸(網(wǎng)絡(luò))等多個(gè)內(nèi)涵的綜合概念,是衡量數(shù)據(jù)中心計(jì)算能力的一個(gè)綜合指標(biāo)2。在《ODCC數(shù)據(jù)中心算力白皮書》中,定義數(shù)據(jù)中心算力(CP,ComputationalPower)的模型如下:CP=f(通用算力,高性能算力,存儲(chǔ)能力,網(wǎng)絡(luò)能力)(CE,ComputationalEfficiency)為數(shù)據(jù)中心算力與所有IT設(shè)備功耗的IT(單位:FLOPS/W):在服務(wù)器規(guī)模不變的情況下,提升網(wǎng)絡(luò)能力可顯著改善數(shù)據(jù)中心單位能耗下的算力水平。ODCC2019年針對(duì)基于以太的網(wǎng)算一體交換機(jī)的測(cè)試數(shù)據(jù)表明3,在HPC(High-PerformanceComputing,高性能計(jì)算)場(chǎng)景同等服務(wù)器規(guī)模下,相對(duì)于傳統(tǒng)RoCE(RemoteDirectMemoryAccessoverConvergedEthernet,基于融合以太的遠(yuǎn)程內(nèi)存
直接訪問協(xié)議)網(wǎng)絡(luò),網(wǎng)算一體技術(shù)可大幅度降低HPC的任務(wù)完成時(shí)間,平均降幅超過20%。即:單位時(shí)間提供的算力提升20%,同等算力下能耗20NVMeerabricIOPS(Input/OutputOperationsperSecond,每秒進(jìn)行讀寫操作的次數(shù))性能相對(duì)于傳FibeChannel(C)網(wǎng)絡(luò)最高可提升87%,這也將大幅減少業(yè)務(wù)端到端運(yùn)行時(shí)長。由此可見,重構(gòu)數(shù)據(jù)中心網(wǎng)絡(luò)可以實(shí)現(xiàn)在單位ICT能耗下對(duì)算力的極大提升,更好滿足綠色節(jié)能數(shù)據(jù)中心的建設(shè)要求。在大算力需求持續(xù)高漲的情況下,為企業(yè)帶來更加直接的價(jià)值。2四大變革驅(qū)動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)向全以太化演進(jìn)2四大變革驅(qū)動(dòng)數(shù)據(jù)中心網(wǎng)絡(luò)向全以太化演進(jìn)隨著移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算、區(qū)塊鏈相關(guān)應(yīng)用的廣泛部署,以及5G智能工控、HPC仿真驗(yàn)證、AI數(shù)據(jù)中心已經(jīng)成為數(shù)字經(jīng)濟(jì)時(shí)代流量和業(yè)務(wù)的制高點(diǎn),IaaS(InfrastructureasaService,基礎(chǔ)設(shè)施即服務(wù))等各類技術(shù)創(chuàng)新與變革異?;钴S。就服務(wù)對(duì)象而言,數(shù)據(jù)中心網(wǎng)絡(luò)聯(lián)接計(jì)算和存儲(chǔ)服務(wù)器,承載服務(wù)器資源間的數(shù)據(jù)傳輸與交互,與計(jì)算和存儲(chǔ)一起服務(wù)于云計(jì)算的各類上層應(yīng)用。在這個(gè)交互鏈條中,云、計(jì)算、存儲(chǔ),任何一個(gè)服務(wù)對(duì)象的變化,都將觸發(fā)數(shù)據(jù)中心網(wǎng)絡(luò)的變革。PCIe(PeripheralComponentInterconnect等變革之下,數(shù)據(jù)中心網(wǎng)絡(luò)正在向以太化演進(jìn)。IT
FCInfiniBand(IB)技術(shù)。這些技術(shù)互通性與彈性不足且演進(jìn)緩慢,無法匹配數(shù)據(jù)中心云化發(fā)展訴求。IDC4數(shù)據(jù),F(xiàn)C在數(shù)據(jù)中心市場(chǎng)規(guī)模僅為5%,IB1%。隨著以太網(wǎng)交換機(jī)發(fā)貨量占比在數(shù)據(jù)中心持續(xù)穩(wěn)健增長,CIB場(chǎng)逐步萎縮。IDC分析師表示,數(shù)據(jù)中心中云計(jì)算技術(shù)的快速采用正在助長網(wǎng)絡(luò)對(duì)以太網(wǎng)交換需求的增長,以太網(wǎng)是當(dāng)前以及未來主要的技術(shù)。97%96%95%94%93%92% 91%90%匯聚各類信息技術(shù)、覆蓋不同區(qū)域部署、兼顧垂直行業(yè)特定需求的新一代云平臺(tái)生態(tài)系統(tǒng)。它更好地滿足用戶在任何時(shí)間、任何地點(diǎn)對(duì)任何應(yīng)用的響應(yīng)云的關(guān)鍵特征在于按需自助服務(wù)和快速彈性。開放的以太網(wǎng)可以很好地滿足云業(yè)務(wù)訴求,可天然被云調(diào)用和管理,并具備良好的互通性、彈性、敏捷性以及多租戶安全能力,當(dāng)前已經(jīng)成為通用計(jì)算網(wǎng)絡(luò)的事實(shí)標(biāo)準(zhǔn)。而在數(shù)據(jù)中心內(nèi)的集中式存儲(chǔ)以
2015201620172018201920202021202220232024圖4IDC2016-2024(含預(yù)測(cè))數(shù)據(jù)激增和數(shù)據(jù)價(jià)值挖掘,催生了存儲(chǔ)介質(zhì)的革新,HDD迅速向SD切換。IDC5,2018SSDHDD,且發(fā)貨量差距逐年攀升。HDD,SSD100FC4IDCQuarterlyDatacenterNetworksQView2020Q2Release5IDCQuarterlyEnterpriseSystems2020Q4PAGEPAGE5技術(shù)無論是從帶寬或時(shí)延已成為存儲(chǔ)網(wǎng)絡(luò)場(chǎng)景的系NVMeoverFabric
CPU/GPU去PCIe化,直出以太以獲取極致性能隨著人工智能技術(shù)的快速發(fā)展,PCIe凸顯。PCIe2001年提出的高速串行計(jì)14,00012,000單位:US$M單位:US$M8,000
150%100%50%
算機(jī)擴(kuò)展總線標(biāo)準(zhǔn),接口速度決定了CPU間的通信速度,而接口數(shù)量則決定了主板的擴(kuò)展性。6,0004,0002,000
0%-50%
.0 P5I.0 P8I.0 /.0 /.002014 2015 2016 2017 2018 2019
-100%HDD發(fā)貨量SSD發(fā)貨量 SSD高于HDD百分比圖5SSDHDD發(fā)貨量差距逐年攀升在新一代存儲(chǔ)網(wǎng)絡(luò)技術(shù)的選擇上,業(yè)界存在NVMeoverFCNVMeoverRoCE
2003年 2006年 2010年 2017年 2019年圖6PCIeFC網(wǎng)絡(luò)始終無法突破三大挑戰(zhàn):第一、FC網(wǎng)絡(luò)技術(shù)及互通性相對(duì)封閉,整體產(chǎn)業(yè)生態(tài)與連續(xù)性面臨著很大挑戰(zhàn);第二、由于產(chǎn)業(yè)規(guī)模受限,F(xiàn)C32G6現(xiàn)跨代式技術(shù);第三、同樣由于產(chǎn)業(yè)規(guī)模受限,F(xiàn)CFC1/10FC故障解決效率低下。FC,NVMeoverRoCE業(yè)規(guī)模、技術(shù)活躍度、架構(gòu)擴(kuò)展性、開放生態(tài)、和SDN(Software-DefinedNetwork,軟件定義網(wǎng)絡(luò))管理運(yùn)維能力積累上都具有明顯的優(yōu)勢(shì),已成為下一代存儲(chǔ)網(wǎng)絡(luò)技術(shù)的最優(yōu)選擇。
CPU市場(chǎng)絕對(duì)地位Intelx86PCIe3.0,PCIe3.0在AI100GE3.0性能瓶頸。為此,業(yè)界開始探索計(jì)算單元去PCIe,HabanaAI芯片處理器片RoCEGaudi,GaudiRoCE-RDMA100GE成到處理器芯片中,每個(gè)以太網(wǎng)端口均支持RoCE功能,從而讓AI系統(tǒng)通過標(biāo)準(zhǔn)以太網(wǎng),在速度和端口數(shù)方面獲得了幾乎無限的可擴(kuò)展性,提供了過去的芯片無法實(shí)現(xiàn)的可擴(kuò)展能力。同年,華為的達(dá)芬奇芯片昇騰910RoCE接口,通過片內(nèi)RoCE(ScaleOut)和縱向擴(kuò)展(ScaleUp)系統(tǒng)提供了靈活高效的方法。CPGPUPCIe的又一助力。IPv6大規(guī)模部署,產(chǎn)業(yè)政策加速以太化進(jìn)程IPv6InternetProtocolVersion6,其中,InerntPool譯為“互聯(lián)網(wǎng)協(xié)議”,IPv66IPv4IPIPv6解決網(wǎng)絡(luò)地址資源數(shù)量的問題,而且還解決了多種接入設(shè)備連入互聯(lián)網(wǎng)的障礙問題,具有更大的地址空間和更高的安全性。從人人互聯(lián)到萬物智聯(lián),網(wǎng)IP能世界的算力中樞,IPv6
《中華人民共和國國民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035面推進(jìn)互聯(lián)網(wǎng)協(xié)議第六版(IPv6)商用部署”。在IPv6基礎(chǔ)連通性要求之上,工信部《2021IPv6+要求推進(jìn)“IPv6+及下一代互聯(lián)網(wǎng)”等新技術(shù)新產(chǎn)當(dāng)前數(shù)據(jù)中心內(nèi)高性能計(jì)算與集中式存儲(chǔ)采用IBCIPv6+的能力演進(jìn)方向存在一定的差距。以太網(wǎng)基于協(xié)議創(chuàng)新與自動(dòng)化運(yùn)維能IPv6+6PAGEPAGE73超融合數(shù)據(jù)中心網(wǎng)絡(luò)成為下一代數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展方向3超融合數(shù)據(jù)中心網(wǎng)絡(luò)成為下一代數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展方向全場(chǎng)景服務(wù)化體驗(yàn)全場(chǎng)景服務(wù)化體驗(yàn) 在物理聯(lián)接層上,雖然一體機(jī)方案在單機(jī)架場(chǎng)景可以提升性能且具備一定的可擴(kuò)展性,但在大規(guī)模組網(wǎng)場(chǎng)景下,網(wǎng)絡(luò)無法滿足計(jì)算、存儲(chǔ)等業(yè)務(wù)不同的傳輸質(zhì)量要求。網(wǎng)絡(luò)丟包將導(dǎo)致計(jì)算、存儲(chǔ)性能的急劇下降。在管控層面上,單機(jī)架內(nèi)各類資源的管理相對(duì)割裂且封閉,不同廠商一體機(jī)方案管理存在兼容性挑戰(zhàn)。業(yè)務(wù)發(fā)放及運(yùn)維定位復(fù)雜,無法支撐海量業(yè)務(wù)的彈性擴(kuò)展以及自動(dòng)化運(yùn)維訴求。 在場(chǎng)景適應(yīng)性上,當(dāng)前的一體機(jī)方案相對(duì)固化deComputing,移動(dòng)邊緣計(jì)算)及中心云不同業(yè)務(wù)對(duì)網(wǎng)絡(luò)的差異化訴求。為此,下一代數(shù)據(jù)中心網(wǎng)絡(luò)需要突破一體機(jī)方案規(guī)模受限、管控割裂、廠商封閉以及場(chǎng)景適應(yīng)性上的約束,實(shí)現(xiàn)更大范圍與豐富場(chǎng)景下的融合。超融合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)與核心特征下一代超融合數(shù)據(jù)中心網(wǎng)絡(luò)需具備如下特征,實(shí)現(xiàn)三個(gè)層面的融合:
全以太全以太全生命周期自動(dòng)管理全無損以太網(wǎng)全無損以太網(wǎng)絡(luò),實(shí)現(xiàn)流量承載融合:通用計(jì)算、存儲(chǔ)、高性能計(jì)算網(wǎng)絡(luò)統(tǒng)一承載在0以太網(wǎng)技術(shù)棧上,實(shí)現(xiàn)大規(guī)模組網(wǎng)協(xié)議統(tǒng)一,TCP、RoCE全生命周期自動(dòng)管理,實(shí)現(xiàn)管控析融合:基于AI實(shí)現(xiàn)規(guī)劃、建設(shè)、維護(hù)、優(yōu)化全生命周期自動(dòng)并可基于海量數(shù)據(jù)提升網(wǎng)絡(luò)預(yù)測(cè)和預(yù)防能力,打破多工具多平臺(tái)分散管理限制;全場(chǎng)景服務(wù)化能力,實(shí)現(xiàn)全場(chǎng)景融合:抽象數(shù)“分析服務(wù)”等核心服務(wù)能力,基于開放服務(wù)化架構(gòu)實(shí)現(xiàn)多廠家、離線與在線數(shù)據(jù)的靈活接入。滿足多私有云、多公有云、混合云、以及豐富行業(yè)場(chǎng)景下的網(wǎng)絡(luò)統(tǒng)一編排需求,支持算力跨云靈活智能調(diào)度,打破區(qū)域與場(chǎng)景限制。超融合數(shù)據(jù)中心網(wǎng)絡(luò)的收益分析超融合數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)可顯著降低建網(wǎng)與運(yùn)維成本,對(duì)于數(shù)據(jù)中心綠色節(jié)能具有重要意義。超融合數(shù)據(jù)中心網(wǎng)絡(luò)的收益量化分析如下。全無損以太網(wǎng)絡(luò)收益分析以太交換機(jī)……………IB交換機(jī)FC以太交換機(jī)……………IB交換機(jī)FC交換機(jī)高性能計(jì)算區(qū) 存儲(chǔ)區(qū) 通用計(jì)算區(qū)…………圖8(IBFC接通用計(jì)算)組網(wǎng)二是全無損以太的組網(wǎng)架構(gòu)。可以看出,與組網(wǎng)一相比,架構(gòu)明顯簡化。
………以太交換機(jī)…以太交換機(jī)………高性能計(jì)算區(qū)存儲(chǔ)區(qū)通用計(jì)算區(qū)…………為比較兩種組網(wǎng)模式的成本,我們可做如下假設(shè):計(jì)算服務(wù)器數(shù)量為Nc,存儲(chǔ)服務(wù)器數(shù)量為NsNa;IB、C、thPiPf、IBPni,CPnf,EthPne;4.成本估算時(shí)取Nc=1000,Ns=1000,Na=5000,以Eth交換機(jī)每端口價(jià)格Pe(約¥1000)為基準(zhǔn),估計(jì)Pi=3*Pe,Pf=3*Pe,Pni=3*Pe,Pnf=3*Pe,Pne=3*Pe。為了簡化證明,我們將數(shù)據(jù)中心組網(wǎng)收斂比默1:1,其他收斂情況下,也可按照下面證明方式開展,方法類似。在上述假設(shè)的前提下,采用全以36.4%。除成本優(yōu)勢(shì)外,全以太網(wǎng)絡(luò)架構(gòu)具有完善開放的生態(tài),可有效對(duì)沖專網(wǎng)帶來的業(yè)務(wù)連續(xù)性風(fēng)險(xiǎn)。表1全以太無損網(wǎng)絡(luò)收益分析組網(wǎng)IB端口數(shù)FC口數(shù)Eth端口數(shù)IB數(shù)量FC網(wǎng)卡數(shù)量以太網(wǎng)卡數(shù)量成本計(jì)算成本估算成本下降百分比組網(wǎng)一(IB+F-C+Eth)3Nc3Ns3Nc+3Ns+3NaNcNsNc+Ns+Na3Nc*Pi+3Ns*Pf+(3Nc+3Ns+3Na)*+Nc*Pni+Ns*Pnf+(Nc+Ns+Na)*Pne(3N+3N+3N)*P66000*Pe/組網(wǎng)二(全以太)003Nc+3Ns+3Na00Nc+Ns+Na(cc+N+N*Pe+sa ne42000*Pe36.4%全生命周期自動(dòng)管理收益分析在數(shù)據(jù)中心的整個(gè)生命周期中,80間都是在運(yùn)維,運(yùn)維效率決定了數(shù)據(jù)中心的運(yùn)行效功能各異的網(wǎng)絡(luò)輔助管理軟件,在運(yùn)營商場(chǎng)景中,歷史上使用過的工具數(shù)量甚至可超過千種。這些運(yùn)一方面功能覆蓋有限,只能解決運(yùn)維生命周期某個(gè)階段的問題,端到端效率改進(jìn)有限;另一方面運(yùn)維數(shù)據(jù)和分析結(jié)果在不同工具間不能共享,無法及時(shí)分析出端到端的故障根因,運(yùn)維人員需要介入進(jìn)行二次分析,導(dǎo)致業(yè)務(wù)體驗(yàn)難以管理,網(wǎng)絡(luò)部門收到的用戶投訴一半以上與業(yè)務(wù)體驗(yàn)有關(guān)。elemtry融合,一套智能運(yùn)維系統(tǒng)可以實(shí)現(xiàn)從規(guī)劃、建設(shè)、維護(hù)、優(yōu)化全生命周期管理,減少或者無需人工二次介入。以業(yè)務(wù)發(fā)放為例,網(wǎng)絡(luò)部署耗時(shí)可從3~5天降低為數(shù)分鐘,顯著提升業(yè)務(wù)部署效率。全場(chǎng)景服務(wù)化融合收益分析為了滿足核心業(yè)務(wù)穩(wěn)定的同時(shí)快速響應(yīng)市場(chǎng)變
化,企業(yè)數(shù)據(jù)中心基礎(chǔ)設(shè)施通常使用敏態(tài)與穩(wěn)態(tài)業(yè)務(wù)雙架構(gòu)。穩(wěn)態(tài)業(yè)務(wù)如核心交易系統(tǒng)和財(cái)務(wù)系統(tǒng)對(duì)可靠性、連續(xù)性以及安全性要求較高;而數(shù)據(jù)庫、人工智能計(jì)算、高性能計(jì)算業(yè)務(wù)則更加關(guān)注整體性能。通常敏態(tài)業(yè)務(wù)指對(duì)計(jì)算要求相對(duì)較低,但對(duì)擴(kuò)展性Web、APP常采用DevOps模式,升級(jí)頻繁,波峰波谷極有可能導(dǎo)致計(jì)算資源忙閑不均。因此,這部分業(yè)務(wù)部署到公有云上運(yùn)行更加經(jīng)濟(jì)高效。數(shù)據(jù)保存在私有云,Web、APP等應(yīng)用部署在公有云,將成為數(shù)據(jù)中心業(yè)務(wù)的新常態(tài)。但是跨云業(yè)務(wù)當(dāng)前嚴(yán)重依賴人工在多云間進(jìn)行網(wǎng)絡(luò)配置,單個(gè)應(yīng)用耗時(shí)需要2周。如果采用多云業(yè)務(wù)服務(wù)化調(diào)度方案,對(duì)多云間的網(wǎng)絡(luò)進(jìn)行自動(dòng)化編排、業(yè)務(wù)發(fā)放、配置仿真校驗(yàn),則單個(gè)應(yīng)用的開通效率可以提升40%。除了優(yōu)化成本提升效率外,多云算力調(diào)度可最大化實(shí)現(xiàn)數(shù)據(jù)要素跨區(qū)域流通,滿足節(jié)能減排、綠色轉(zhuǎn)型的政策要求。PAGEPAGE114超融合數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)最佳實(shí)踐4超融合數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)最佳實(shí)踐基于全無損以太的超融合數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)正在迅猛發(fā)展,在存儲(chǔ)、高性能計(jì)算、通用計(jì)算等場(chǎng)景得到了較好地商業(yè)實(shí)踐。基于無損以太技術(shù),提升數(shù)據(jù)中心內(nèi)存儲(chǔ)網(wǎng)絡(luò)性能眾所周知,標(biāo)準(zhǔn)以太網(wǎng)絡(luò)采用盡力而為的工作機(jī)制,天然有丟包的特性對(duì)存儲(chǔ)的性能和穩(wěn)定性帶來了極大的影響。在故障場(chǎng)景下,標(biāo)準(zhǔn)以太網(wǎng)絡(luò)只此外,雖然通用計(jì)算網(wǎng)絡(luò)場(chǎng)景以太網(wǎng)絡(luò)的SDN、ADN(AutonomousDrivingNetwork,自動(dòng)駕駛網(wǎng)絡(luò))等智能運(yùn)維手段已經(jīng)非常成熟,但在存儲(chǔ)網(wǎng)絡(luò)場(chǎng)景下,以太網(wǎng)絡(luò)的自動(dòng)化以及可維護(hù)能力仍需要持續(xù)泛化。為此,以太網(wǎng)絡(luò)在無損、可靠、運(yùn)維三個(gè)方面進(jìn)行了積極創(chuàng)新。在無損網(wǎng)絡(luò)方向,標(biāo)準(zhǔn)以太網(wǎng)絡(luò)雖然有QoS以及流量控制能力,但執(zhí)行機(jī)制簡單粗暴,通常通過靜態(tài)水線控制。靜態(tài)水線無法適應(yīng)千變?nèi)f化的存儲(chǔ)業(yè)務(wù)流量,設(shè)置過高可能引發(fā)丟包,設(shè)置過低則無法充分釋放存儲(chǔ)的IOPS性能。為了解決這個(gè)難題,
在可靠性方面,業(yè)界正在推動(dòng)網(wǎng)絡(luò)與存儲(chǔ)在故障場(chǎng)景下的聯(lián)動(dòng)標(biāo)準(zhǔn)化方案。通過交換機(jī)毫秒級(jí)主動(dòng)通告故障,并聯(lián)動(dòng)存儲(chǔ)協(xié)同倒換,可支持亞秒級(jí)的網(wǎng)絡(luò)故障倒換,真正實(shí)現(xiàn)網(wǎng)絡(luò)單點(diǎn)故障存儲(chǔ)業(yè)務(wù)無感知。標(biāo)準(zhǔn)以太:鏈路故障8秒切換 改進(jìn)后:鏈路故障1秒切換秒秒XX圖11存儲(chǔ)場(chǎng)景亞秒級(jí)鏈路倒換在網(wǎng)絡(luò)易用性與運(yùn)維方面,業(yè)界發(fā)布了以太網(wǎng)絡(luò)環(huán)境下的存儲(chǔ)即插即用最佳實(shí)踐,相比傳統(tǒng)以太逐節(jié)點(diǎn)、逐ZONE手工配置方式,可以做到業(yè)務(wù)單點(diǎn)配置、全網(wǎng)同步,實(shí)現(xiàn)存儲(chǔ)設(shè)備的即插即用。Zone2Zone2Zone4Zone1AI秒級(jí)感知流量變化,另一方面基于海量存儲(chǔ)流量樣
①在單臺(tái)交換機(jī)上配置后,自動(dòng)同步到全網(wǎng)交換機(jī)
②全網(wǎng)Zone批量創(chuàng)建,存儲(chǔ)設(shè)備即插即用AI水線實(shí)現(xiàn)亞秒級(jí)流量精準(zhǔn)控制,最大程度釋放存儲(chǔ)性能。
圖12存儲(chǔ)設(shè)備即插即用基于無損以太技術(shù),突破同城長距存儲(chǔ)挑戰(zhàn):以太網(wǎng)丟包難題
方案:引入智能算法,實(shí)現(xiàn)精準(zhǔn)控速
業(yè)務(wù)雙活及災(zāi)備場(chǎng)景的性能瓶頸由于傳統(tǒng)FC網(wǎng)絡(luò)當(dāng)前主流商用端口帶寬只有8G,最大端口帶寬只有32G,同城100G存儲(chǔ)傳輸圖10通過AI機(jī)制實(shí)現(xiàn)以太網(wǎng)0丟包往往需要4~10條以上的鏈路。相比之下,以太網(wǎng)絡(luò)100G/400G接口能力已經(jīng)成熟商用,可以大幅減少同城鏈路資源。然而,在同城雙活及災(zāi)備場(chǎng)景中,跨城傳輸時(shí)延增大,短距流控反壓機(jī)制存在嚴(yán)重的滯后性。以同城70公里傳輸場(chǎng)景為例,RTT(Round-TripTime)時(shí)延往往大于1毫秒,導(dǎo)致傳統(tǒng)流控機(jī)制徹底失效。為此,智能無損以太網(wǎng)絡(luò)技術(shù)在短距基礎(chǔ)上再次升級(jí),通過引入時(shí)間、空間維度以及預(yù)測(cè)算法,根據(jù)現(xiàn)有流量變化趨勢(shì),在源端設(shè)備預(yù)測(cè)下一時(shí)刻流量的變化范圍,從而實(shí)現(xiàn)在流量擁塞前預(yù)測(cè)性調(diào)75100G大帶寬的存儲(chǔ)雙活互聯(lián)問題,使得同城間90%。無損算法升級(jí),攻克以太網(wǎng)75公里0丟包難題+時(shí)空變量+時(shí)空變量(距離/時(shí)延/抖動(dòng)等)流量模型網(wǎng)絡(luò)狀態(tài)
網(wǎng)絡(luò)時(shí)延由四部分組成: 動(dòng)態(tài)時(shí)延:主要由排隊(duì)時(shí)延產(chǎn)生,受端口擁塞影響; 靜態(tài)時(shí)延:主要包括網(wǎng)絡(luò)轉(zhuǎn)發(fā)(查表)時(shí)延和轉(zhuǎn)發(fā)接口時(shí)延,一般為固定值,當(dāng)前以太交換靜態(tài)時(shí)延遠(yuǎn)高于超算專網(wǎng);網(wǎng)絡(luò)跳數(shù):指消息在網(wǎng)絡(luò)中所經(jīng)歷的設(shè)備數(shù);入網(wǎng)次數(shù):指消息進(jìn)入網(wǎng)絡(luò)的次數(shù)。新一代無損以太網(wǎng)絡(luò)在動(dòng)態(tài)時(shí)延、靜態(tài)時(shí)延、網(wǎng)絡(luò)跳數(shù)以及入網(wǎng)次數(shù)幾個(gè)方面均做出了系統(tǒng)性優(yōu)化,大幅優(yōu)化了網(wǎng)絡(luò)性能,可滿足高性能計(jì)算場(chǎng)景的實(shí)際訴求。優(yōu)化靜態(tài)時(shí)延:從us降低至百ns傳統(tǒng)的以太交換機(jī)在轉(zhuǎn)發(fā)層面,因需要考慮兼容性和眾多協(xié)議支持等問題,導(dǎo)致轉(zhuǎn)發(fā)流程復(fù)雜、轉(zhuǎn)發(fā)時(shí)延較大。與此同時(shí),以太查表算法復(fù)雜、查表時(shí)延大,導(dǎo)致整體轉(zhuǎn)發(fā)處理時(shí)延長。目前業(yè)界主流商用以太交換機(jī)的靜態(tài)轉(zhuǎn)發(fā)時(shí)延大約在600ns-短距無損算法 長距無損算法圖13長距無損算法
1us左右。控制單元拓?fù)淇刂茊卧負(fù)?虛地址分配管理 路由下發(fā)適配高性能計(jì)算場(chǎng)景需求,實(shí)現(xiàn)低時(shí)延總線級(jí)傳輸能力氣象等行業(yè)廣泛應(yīng)用,而時(shí)延是關(guān)鍵性能指標(biāo)之一。由于以太網(wǎng)丟包、傳輸轉(zhuǎn)發(fā)機(jī)制等諸多原因,基于傳統(tǒng)以太的數(shù)據(jù)中心網(wǎng)絡(luò)時(shí)延大多處于毫秒級(jí)水平,無法支撐高性能計(jì)算業(yè)務(wù)。要使得DCasaCompuer成為可能,數(shù)據(jù)中心網(wǎng)絡(luò)時(shí)延需要向總線級(jí)看齊。
發(fā)。基于虛擬地址路由轉(zhuǎn)發(fā)技術(shù),解決了傳統(tǒng)二層環(huán)路和鏈路利用率的問題,同時(shí)保證了規(guī)模部署和擴(kuò)展靈活性。極簡轉(zhuǎn)發(fā)機(jī)制原理如圖14所示。極簡低時(shí)延以太網(wǎng)絡(luò)極簡低時(shí)延以太網(wǎng)絡(luò)1ARP請(qǐng)求報(bào)文完成源虛地址學(xué)習(xí)3發(fā)送基于虛地址的業(yè)務(wù)報(bào)文ARP回應(yīng)報(bào)文完成目的虛地址學(xué)習(xí)2交換機(jī)交換機(jī)服務(wù)器服務(wù)器廠家標(biāo)識(shí)LID用于路由10b 6b用于標(biāo)識(shí)虛機(jī)地址8b24bMAC-PREFIXDeviceIDPIDUID層次化虛擬短地址(替代原始48-bitMAC地址)圖14以太低時(shí)延轉(zhuǎn)發(fā)機(jī)制原理圖根據(jù)應(yīng)用實(shí)測(cè),業(yè)界低時(shí)延機(jī)制轉(zhuǎn)發(fā)機(jī)制能實(shí)現(xiàn)30ns以太芯片報(bào)文處理,實(shí)現(xiàn)100ns左右端到端單跳轉(zhuǎn)發(fā)靜態(tài)時(shí)延。相比于業(yè)界主流歐美廠商的以太芯片轉(zhuǎn)發(fā)時(shí)延改進(jìn)了6-10倍。優(yōu)化動(dòng)態(tài)時(shí)延:亞us級(jí)動(dòng)態(tài)時(shí)延網(wǎng)絡(luò)擁塞會(huì)引起數(shù)據(jù)包排隊(duì)甚至導(dǎo)致隊(duì)列溢出而丟棄,這是導(dǎo)致網(wǎng)絡(luò)高動(dòng)態(tài)時(shí)延的主要原因??偩€級(jí)數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)創(chuàng)新性地提出了收發(fā)混合驅(qū)動(dòng)的網(wǎng)絡(luò)擁塞控制機(jī)制。數(shù)據(jù)報(bào)文分為無調(diào)(Scheduled)無調(diào)度報(bào)文在端口級(jí)有限窗口控制下直接發(fā)送,快速啟動(dòng),保證高吞吐;有調(diào)度報(bào)文由接收端分配令牌報(bào)文(Token)后繼續(xù)發(fā)送,限制流量注入,提供近似零隊(duì)列,支撐更大的網(wǎng)絡(luò)規(guī)模。通過對(duì)兩類報(bào)文進(jìn)行協(xié)同調(diào)度,可進(jìn)一步保證高吞吐淺隊(duì)列,達(dá)到如下效果:最大吞吐保證:僅優(yōu)先發(fā)送部分報(bào)文,同樣提供最大吞吐保證。極低平均隊(duì)列時(shí)延:通過接收端調(diào)度,嚴(yán)格控制網(wǎng)絡(luò)注入流量,保證接近于0延。極低最大隊(duì)列時(shí)延:對(duì)于不由接收端調(diào)度的報(bào)保證最大隊(duì)列時(shí)延極低。
圖15收發(fā)混合驅(qū)動(dòng)網(wǎng)絡(luò)擁塞控制機(jī)制示意圖題6數(shù)下降20%高性能計(jì)算場(chǎng)景的流量關(guān)注靜態(tài)時(shí)延的同時(shí)需要支持超大規(guī)模組網(wǎng)。然而傳統(tǒng)的CLOS架構(gòu)作為主流網(wǎng)絡(luò)架構(gòu),主要關(guān)注通用性,犧牲了時(shí)延和性價(jià)比。業(yè)界針對(duì)該問題開展了多樣的架構(gòu)研究和新拓?fù)涞脑O(shè)計(jì)(如圖16所示)。圖16數(shù)據(jù)中心拓?fù)浼軜?gòu)演進(jìn)
當(dāng)前數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)大多基于工程經(jīng)驗(yàn),不同搭建方式之間難以選擇,缺乏理論指導(dǎo)和統(tǒng)一性設(shè)計(jì)語言。網(wǎng)絡(luò)拓?fù)湫阅苤笜?biāo)繁多,不同指標(biāo)之間相互制約,指標(biāo)失衡很難避免。面向大數(shù)據(jù)存儲(chǔ)及高性能計(jì)算的總線級(jí)數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)采用圖論建模和參數(shù)化拓?fù)洌瑢⒃O(shè)計(jì)滿足特定需求的直連拓?fù)鋯栴}轉(zhuǎn)化為滿足多維度約束、可直接求解的數(shù)學(xué)問題(如圖17所示),確保拓?fù)鋮?shù)可保持各性能維度間的相互制約平衡。利用該方法設(shè)計(jì)的超大規(guī)模直連拓?fù)?,具備低成本、端到端低跳?shù)的特性,跳數(shù)相比經(jīng)典拓?fù)淇上陆?0%,同時(shí)滿足其他維度均衡,不影響業(yè)務(wù)體驗(yàn)。圖17將拓?fù)湓O(shè)計(jì)轉(zhuǎn)換為數(shù)學(xué)模型求解問題率隨著分布式集群規(guī)模的增大、以及單節(jié)點(diǎn)算力的增長,分布式集群系統(tǒng)已經(jīng)逐漸從計(jì)算約束轉(zhuǎn)變5GPU算力9010GPU集群達(dá)到一定規(guī)模以后,即使增加計(jì)算節(jié)點(diǎn)數(shù),但由于分布式集群節(jié)點(diǎn)之間通信代價(jià)的增加,仍可能導(dǎo)致集群的協(xié)同計(jì)算性能不增反減。超融合數(shù)據(jù)中心網(wǎng)絡(luò)提出了網(wǎng)算一體技術(shù)。采用交換設(shè)備對(duì)集合通信加速,卸載一部分集合通信的計(jì)算過程,可有效提高集合通信效率,降低總的任務(wù)完成時(shí)間。
leaf1leaf2leaf1leaf2傳統(tǒng)HPC應(yīng)用通信模型 網(wǎng)算一體HPC應(yīng)用通信模型圖18網(wǎng)算一體原理示意圖管理融合數(shù)據(jù)中心通用計(jì)算網(wǎng)絡(luò)自動(dòng)化技術(shù)快速發(fā)展,從最初的軟件定義網(wǎng)絡(luò)到自動(dòng)駕駛網(wǎng)絡(luò),逐步形成了方案的規(guī)劃、建設(shè)、維護(hù)和優(yōu)化四個(gè)階段全生命周期的高度自治體驗(yàn)。其極簡網(wǎng)絡(luò)設(shè)計(jì)部署,業(yè)務(wù)精準(zhǔn)上線保障,故障智能修復(fù)與預(yù)測(cè),網(wǎng)絡(luò)主動(dòng)優(yōu)化調(diào)整的架構(gòu)思路獲得了巨大成功,數(shù)據(jù)中心網(wǎng)絡(luò)L3中心網(wǎng)絡(luò)全以太化進(jìn)程的推進(jìn),業(yè)界正在積極探索將通用計(jì)算網(wǎng)絡(luò)自動(dòng)化能力擴(kuò)展到高性能計(jì)算與存儲(chǔ)網(wǎng)絡(luò),在集成通用能力的同時(shí)充分適配特殊場(chǎng)景需求?;谝鈭D的專家推薦系統(tǒng)在全以太網(wǎng)絡(luò)架構(gòu)中,存儲(chǔ)與高性能計(jì)算的RoCETCPRoCE此時(shí)需要為RoCE流量規(guī)劃獨(dú)立的轉(zhuǎn)發(fā)隊(duì)列及優(yōu)先級(jí),且需要保證整網(wǎng)一致性。人工命令行方式配置效率低,易出錯(cuò),維護(hù)難。當(dāng)前業(yè)界正在積極探索通過網(wǎng)絡(luò)管控析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 銷售勝任力培訓(xùn)
- 小公司行政人事周工作總結(jié)
- 銀行培訓(xùn)體系搭建
- 重癥醫(yī)學(xué)科護(hù)士年終總結(jié)
- 透析室護(hù)理安全管理制度
- 2025年生活飲用水處理設(shè)備項(xiàng)目經(jīng)濟(jì)效益評(píng)估報(bào)告
- 典型喀斯特丘陵提取及空間分異研究
- 網(wǎng)絡(luò)安全入門培訓(xùn)
- 案例教學(xué)法在中職《果樹生產(chǎn)技術(shù)》教學(xué)中的應(yīng)用研究
- 2025-2030年柳琴包項(xiàng)目投資價(jià)值分析報(bào)告
- 根管治療注意事項(xiàng)
- 三級(jí)安全教育試題(公司級(jí)、部門級(jí)、班組級(jí))
- 2024年《論教育》全文課件
- 汽車檢測(cè)技術(shù)課件 任務(wù)四 檢測(cè)汽車制動(dòng)性能
- 紅色喜慶中國傳統(tǒng)元宵節(jié)英文介紹教育課件
- 舞蹈療愈在高校心理健康教育中的實(shí)踐與應(yīng)用
- 小學(xué)科學(xué)青島版(六三制)六年級(jí)上冊(cè)全冊(cè)教案(共25課)(2022秋)
- 智鼎在線測(cè)評(píng)題
- 壓瘡課件教學(xué)課件
- 北師大六年級(jí)下冊(cè)數(shù)學(xué)全冊(cè)教案
- 2024年醫(yī)用衛(wèi)生材料敷料項(xiàng)目申請(qǐng)報(bào)告模板
評(píng)論
0/150
提交評(píng)論