




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
超融合數(shù)據(jù)中心網絡PAGE\*romanPAGE\*romaniv目錄目錄第1章超融合數(shù)據(jù)中心網絡簡介 1智能時代促使數(shù)據(jù)中心向算力中心演進 1什么是超融合數(shù)據(jù)中心網絡 2第2章超融合數(shù)據(jù)中心網絡產生背景 5IT架構層面:從本地集中式走向云端分布式 6計算層面:CPU/GPU出太接口提升性能 6存儲層面:升級為全閃存NVMe接口 9網絡運維層面:部署與維護的全方位升級 10第3章華為超融合數(shù)據(jù)中心網絡價值 11全以太HPC網絡,充分放算力 11雙活全以太存儲網絡,大幅提升存儲性能 12網絡全生命周期自動化,大幅降低上市時間 14全網智能運維,實現(xiàn)故障主動預測 16全場景服務化能力,網絡即服務 17第4章華為超融合數(shù)據(jù)中心網絡架構 18方案架構 18主要組件產品一覽 21第5章超融合數(shù)據(jù)中心網絡關鍵技術 24智能無損網絡系列技術 24自動駕駛網絡技術 30多云協(xié)同技術 35智能運維技術 37第6章超融合數(shù)據(jù)中心網絡典型應用 43提升某銀行交易系統(tǒng)性能 43提升某銀行分布式存儲性能 44加速某互聯(lián)網企業(yè)無人駕駛技能訓練 44實現(xiàn)某人工智能計算中心大規(guī)模RoCE組網 44實現(xiàn)某機場業(yè)務變更百分百符合預期 45實現(xiàn)某政務云端到端自動化業(yè)務高效發(fā)放 45PAGEPAGE4超融合數(shù)據(jù)中心網絡簡介第1章超融合數(shù)據(jù)中心網絡簡介摘要摘要現(xiàn)如今,數(shù)據(jù)中心正成為算力中心,為千行百業(yè)提供數(shù)字化底座,并基于海量數(shù)據(jù)挖掘其中的商業(yè)價值。超融合數(shù)據(jù)中心網絡以全無損以太網來構建新型的數(shù)據(jù)中心網絡,使通用計算、高性能計算、存儲三大業(yè)務均能融合部署在同一張以太網上,同時實現(xiàn)全生命周期自動化和全網智能運維,可在服務器規(guī)模不變的情況下,顯著提升數(shù)據(jù)中心的整體算力水平。進人類社會正邁入萬物感知、萬物互聯(lián)、萬物智能的智能時代,物聯(lián)網、大數(shù)據(jù)、5G、AI等新技術和各類創(chuàng)新應用層出不窮。作為構建數(shù)字化社會的信息基石——數(shù)據(jù)中心,他承擔著各類應用的數(shù)據(jù)存儲、數(shù)據(jù)分析與數(shù)據(jù)計算的重任。從數(shù)據(jù)中挖掘商業(yè)價值已成為企業(yè)經營的核心任務之一圖1-1數(shù)字化社會的信息基石——數(shù)據(jù)中心數(shù)據(jù)中心算力是服務器對數(shù)據(jù)進行處理后實現(xiàn)結果輸出的能力,這是數(shù)據(jù)中心內計算、存儲、網絡三大資源協(xié)同能力的綜合衡量指標。ODCC(OpenDataCenterCommittee,開放數(shù)據(jù)中心委員會)的定義,4力、網絡能力。在服務器規(guī)模不變的情況下,提升網絡能力可顯著改善數(shù)據(jù)中心單位能耗下的算力水平。什么是超融合數(shù)據(jù)中心網絡數(shù)據(jù)中心內存在三大資源區(qū):通用計算區(qū)、高性能計算(HPC)區(qū)和存儲區(qū)。圖1-2數(shù)據(jù)中心內存在的三大資源區(qū)通用計算區(qū)的網絡被稱為應用網絡、業(yè)務網絡或前端網絡,當前部署的是以太網。高性能計算區(qū):配備了專用的高性能單元(CPU、GPU)的服務器,完成指定的高性能計算任務或AI訓練。這個區(qū)域中的服務器一般很少使用虛擬技術。本區(qū)域中的網絡被稱為高性能計算互聯(lián)網絡,當前部署的是IB(InfiniBand)網絡。存儲區(qū)FC(FibreChannel)網絡。算力持續(xù)穩(wěn)定的輸出,離不開三大資源區(qū)的相互配合。作為聯(lián)接數(shù)據(jù)中心各類資源的大動脈,數(shù)據(jù)中心網絡承載著保障數(shù)據(jù)高效流通的職責。圖1-3三大區(qū)域之間的數(shù)據(jù)流當前,通用計算區(qū)部署的傳統(tǒng)以太網、高性能計算區(qū)部署的IB網、存儲區(qū)部署的FC網,是三張異構網絡,他們協(xié)議各異、架構割裂,帶來了運維困難、專網生態(tài)封閉、成本高、無法實現(xiàn)全生命周期管理等問題。數(shù)據(jù)中心里這三張網絡的融合,成為算力提升的必然要求。華為超融合數(shù)據(jù)中心網絡以全無損以太網來構建新型的數(shù)據(jù)中心網絡,使通用計算、高性能計算、存儲三大業(yè)務均能融合部署在同一張以太網上,同時實現(xiàn)全生命周期自動化和全網智能運維。PAGE10PAGE10超融合數(shù)據(jù)中心網絡產生背景第2章超融合數(shù)據(jù)中心網絡產生背景摘要摘要千行百業(yè)上云,多項變革推動數(shù)據(jù)中心網絡向全以太化演進:IT架構從本地集中式走向云端分布式,多節(jié)點之間大規(guī)模互聯(lián)使用的是以太網。計算單元去除PCIe的瓶頸限制,芯片直接出以太口來提供更高算力。存儲層面升級為全閃存(VMe,用高帶寬的以太網作為承載已成為業(yè)界共識。以太網在開放性、業(yè)務部署和運維效率方面均具有明顯優(yōu)勢。IT分布式當前一些新興的應用,如區(qū)塊鏈、工業(yè)仿真、人工智能、大數(shù)據(jù)等,基本都建立在云計算的底座中。近些年,企業(yè)各類業(yè)務上云的步伐不斷加速,云可以提供按需自助服務、快速彈性伸縮、多租戶安全隔離、降低項目前期投資等價值優(yōu)勢。另外,在企業(yè)的數(shù)字化轉型中,以金融和互聯(lián)網企業(yè)為代表,大量的應用系統(tǒng)逐漸遷移到分布式系統(tǒng)上,也就是通過海量的PC平臺來替代傳統(tǒng)的小型機。這么做帶來了高性價比、易擴展、自主可控等好處,但分布式系統(tǒng)架構同時也帶來了服務器節(jié)點之間大量的網絡互通需求。以太網已經成為云化分布式場景中的事實網絡標準:以太網已具有很高的開放性,可以與各種云融合部署、可被云靈活調用管理。以太網具有很好的擴展性、互通性、彈性、敏捷性和多租戶安全能力。以太網可以滿足新業(yè)務超大帶寬的需求。以太網從業(yè)人員多,用戶基礎好。IBFCIDCFCIB市場逐步萎縮,當前以及未來主要的數(shù)據(jù)中心內部網絡互聯(lián)技術。計算層面:CPU/GPU性能以人工智能為代表的一系列創(chuàng)新應用正在快速發(fā)展,而人工智能后臺算法量的樣本數(shù)據(jù)和高性能的計算能力。為了滿足海量數(shù)據(jù)訓練的大算力要求,一方面可CPU3nm面,可以疊加多核來提升算力,但隨著核數(shù)的增加,單位算力功耗也會顯著增長,且總算力并非線性增長。據(jù)測算,當128核增至256核時,總算力水平無法提升1.2倍。隨著算力需求的不斷增長,從P級(PFLOPS,一秒1015次浮點運算)向E級(EFLOPS,一秒1018次浮點運算)演進,計算集群的規(guī)模不斷擴大,對集群之間互聯(lián)的網絡性能要求也越來越高,這使得計算和網絡深度融合成為必然。PCIe的總線標準由于單通道傳輸帶寬有限,且通道擴展數(shù)量也有限,已經無法滿足目前大吞吐高性能計算場景的要求。當前業(yè)界的主流是在計算處理器內集成RoCE(RemoteDirectMemoryAccessoverConvergedEthernet,基于融合以太的遠程內存直接訪問協(xié)議)以太端口,從而讓數(shù)據(jù)通過標準以太網在傳輸速度和可擴展性上獲得了巨大的提升。RemoteDirectMemoryAccess(RDMA)TCP而言的,如下TCP協(xié)議棧在接收/處理時,會產生數(shù)十微秒的固定時延,這使得在AI數(shù)據(jù)運算這類微秒級系統(tǒng)中,TCP協(xié)議棧時延成為最明顯的瓶頸。CPURDMA允許應用與網卡之間的直接數(shù)據(jù)讀寫,將服務器內的數(shù)據(jù)傳輸時延降低到接近1μs。同時,RDMA允許接收端直接從發(fā)送端的內存讀取數(shù)據(jù),極大地減少了CPU的負擔。圖2-1RDMA與TCP的對比在高性能計算場景中,當前有兩種主流方案來承載RDMA:專用IB(InfiniBand)網絡和以太網絡。然而,IB網絡采用私有協(xié)議,架構封閉,難以與現(xiàn)IPIB網絡運維復雜,OPEX居高不下。RDMARoCE計算場景。存儲層面:升級為全閃存NVMe接口新業(yè)務對海量數(shù)據(jù)的存儲和讀寫需求,催生了存儲介質的革新,由HDD(HardDiskDrive,機械硬盤)快速向SSD(Solid-StateDrive,固態(tài)硬盤)切換,這帶來了存儲性能近100倍的提升。在此過程中,出現(xiàn)了NVMe(Non-VolatileMemoryexpress,非易失性內存主機控制器接口規(guī)范)存儲協(xié)議,NVMe極大提升了存儲系統(tǒng)內部的存儲吞吐性能,降低了傳輸時延。FC當前存儲網絡的瓶頸。完成革新后的全新存儲系統(tǒng),需要一個更快、更高質量的網絡。為此,存儲與網絡從架構和協(xié)議層進行了深度重構,新一代存儲網絡技術overFabric(NVMe-oF)應運而生。NVMe-oFNVMe協(xié)議應用到服務器主SANSCSI(SmallComputerSystemInterface,小型計算機系統(tǒng)接口)協(xié)議。圖2-2NVMe-oF的產生背景VMeerFbic中的“FabicVMe的承載網絡,這個網絡可以是FC、TCP或RDMA。對于FC,其技術封閉、產業(yè)生態(tài)不及以太網;產業(yè)規(guī)模有限,技術發(fā)展相對遲緩,帶寬不及以太網;從業(yè)人員稀缺、運維成本高、故障排除效率低。TCPRDMATCP已成為大勢所趨。RMARE(RMAerCeredternetVeoverRoCERDMANVMe。RoCE進一步分RoCEv1RoCEv2RoCEv1是一種鏈路層協(xié)議,允許在同一個廣播域下的任意兩臺主機直接訪問;RoCEv2InternetREFC性能更高(更高的帶寬、更低的時延CP的優(yōu)勢(P化VMeerRE作為新一代存儲網絡NVMe-oF的主流技術。升級在數(shù)據(jù)中心網絡,當前存在幾個較為突出的問題與挑戰(zhàn):管控。計、調測,人工操作不僅效率低,而且容易出錯。定位慢:如果發(fā)生異常,據(jù)統(tǒng)計,故障的定位平均時長達76務的連續(xù)性,給企業(yè)帶來損失。這些都呼喚一個全新的數(shù)據(jù)中心網絡的到來。華為超融合數(shù)據(jù)中心網絡,在實現(xiàn)“三網合一”的基礎上,在開放性、業(yè)務部署、維護層面進行變革,全方位應對上述挑戰(zhàn)。PAGE14PAGE14華為超融合數(shù)據(jù)中心網絡價值第3章華為超融合數(shù)據(jù)中心網絡價值摘要摘要本章介紹了華為超融合數(shù)據(jù)中心網絡在高性能計算、存儲、業(yè)務自動化、智能運維、服務化能力這五個方面給客戶帶來的價值。HPC網絡,充分釋放算力HPC計算節(jié)點之間傳輸?shù)臄?shù)據(jù)量大,時延要求嚴格,當網絡有丟包或時延較高時,就會導致網絡擁堵,高性能計算集群的整體效率大幅降低,即便增加計算節(jié)點也無濟于事。據(jù)統(tǒng)計,網絡0.1%的丟包將造成算力下降50%。華為超融合數(shù)據(jù)中心網絡,面向高性能計算場景提供全以太HPC網絡。該方案CloudEngineiLossless-DCN,攻克40100%HPC需的極致網絡性能,實現(xiàn)同等計算集群規(guī)模下,算力倍增。性能在分布式存儲場景,基于華為CloudEngine數(shù)據(jù)中心交換機內置的iLossless-DCN智能無損算法,可感知流量的變化,并基于海量存儲流量樣本持續(xù)進行AI訓練,智能動態(tài)地調整交換機的隊列水線,實現(xiàn)亞秒級流量精準控制,確保100%吞吐下零丟包,IOPS(Input/outputOperationsPerSecond,每秒進行讀寫操作的次數(shù))提升20%。在集中式存儲場景,華為推出了NoF+方案,除了對交換機水線的智能動態(tài)調整外,還實現(xiàn)了即插即用的存儲網絡:相比傳統(tǒng)以太網中逐節(jié)點、逐Zone手工配置方式,可以做到業(yè)務單點配置、全網同步,實現(xiàn)存儲設備的即插即用。另外,NoF+方案實現(xiàn)了網絡側與存儲側的故障聯(lián)動:交換機毫秒級檢測并通告故障,協(xié)同業(yè)務側完成亞秒級的網絡平面切換,實現(xiàn)網絡中單點故障存儲業(yè)務無感知。圖3-1網絡側與存儲側的故障聯(lián)動對于存儲網絡,金融的雙活數(shù)據(jù)中心場景性能要求最為嚴苛。同城數(shù)據(jù)中心之間3070公里不等,由于長距光纖數(shù)據(jù)傳輸存在靜態(tài)時延(5μs/公里,距離越長時延越大,與短距場景相比時延增長了百倍,流控復雜度指數(shù)級增加。為此,華為推出長距無損iLossless-DCI算法,在短距無損的基礎上增加了距離變量,基于大數(shù)據(jù)分析提前應對流量變化,可實現(xiàn)同城數(shù)據(jù)中心間的無損傳輸,跨數(shù)FC90%(10100G1008GFC鏈路。在數(shù)據(jù)中心內和跨數(shù)據(jù)中心的同等距離場景下,IOPSFC網絡可提升87%42%。市時間使能數(shù)據(jù)中心網絡自動駕駛傳統(tǒng)的網絡業(yè)務部署是一個半自動的過程,只有網絡配置下發(fā)實現(xiàn)了自動化,而網絡生命周期中的方案設計、方案評審、配置驗證等都需要人工操作。這些環(huán)節(jié)不僅需要跨部門多人協(xié)同工作,而且容易引入人為錯誤,成為網絡業(yè)務部署的瓶頸。華為超融合數(shù)據(jù)中心網絡,在業(yè)界首個實現(xiàn)了L3自動駕駛網絡能力,將數(shù)字孿生方法論引入網絡管理領域,實現(xiàn)全生命周期的自動化?;诰W絡數(shù)字建模,可綜合評估400+影響網絡設計的因子,智能推薦最優(yōu)的網絡設計方案,并完成配置變更的自動校驗。在單個數(shù)據(jù)中心內部,實現(xiàn)在方案設計、評估、配置下發(fā)、配置校驗等關鍵操作的端到端全智能掌控,業(yè)務極速發(fā)放,變更0差錯。根據(jù)網絡全生命周期里規(guī)劃設計、部署開通、業(yè)務發(fā)放、監(jiān)控排障、網絡變更及參數(shù)調優(yōu)這六個階段,華為數(shù)據(jù)中心自動駕駛網絡的自動化與智能化價值總結參見下表。階段現(xiàn)狀華為自動駕駛網絡的優(yōu)勢規(guī)劃設計手工規(guī)劃,無法提前大規(guī)模驗證,大量依賴專家經驗依靠大數(shù)據(jù)和人工智能,實現(xiàn)特定場景規(guī)劃導入,提前全網仿真部署開通需要經驗豐富的網絡工程師使用命令行操作,逐臺設備進行配置普通工程師可全網一次性部署,配置可依據(jù)策略預置業(yè)務發(fā)放大量應用逐項測試,待測試成功后再逐一部署打通網絡和應用的界限,實現(xiàn)應用批量發(fā)放監(jiān)控排障借助其他工具定期監(jiān)測,收到故障報警后人工處理智能監(jiān)測網絡運行狀態(tài),故障前發(fā)出預警;故障后給出定位和解決建議,并回溯故障原因和過程網絡變更手工調整設備的配置,每臺設備逐一進行配置調整前提供變更后的仿真,仿真驗證通過后自動批量完成;一旦發(fā)現(xiàn)問題快速回滾到不同快照節(jié)點階段現(xiàn)狀華為自動駕駛網絡的優(yōu)勢參數(shù)調優(yōu)根據(jù)網絡工程師積累的經驗,對不同參數(shù)逐一進行測試驗證,尋找優(yōu)化方案AI能分析后快速匹配各類業(yè)務,將優(yōu)秀經驗應多數(shù)據(jù)中心間業(yè)務靈活編排越強烈。華為超融合數(shù)據(jù)中心網絡方案,可以在多個私有云數(shù)據(jù)中心之間,實現(xiàn)業(yè)務模型統(tǒng)一抽象、各類業(yè)務需求統(tǒng)一編排、網絡資源統(tǒng)一管理和維護,滿足各行各業(yè)高效部署跨數(shù)據(jù)中心業(yè)務的需求。私有云與公有云間業(yè)務互通與靈活編排現(xiàn)階段,許多企業(yè)IT架構已經從過去的集中式大型機遷移到分布式x86虛擬化架構,并正在向多地多云架構演進。根據(jù)業(yè)務特點的不同,可將業(yè)務分為穩(wěn)態(tài)業(yè)務和敏態(tài)業(yè)務兩類,他們往往部署在不同的云上。穩(wěn)態(tài)業(yè)務:要求高可靠、低時延等,通常部署在傳統(tǒng)網絡和硬件SDN通過物理機承載,需求。敏態(tài)業(yè)務:DevOps模式下的業(yè)務開發(fā),需要持續(xù)集成和持續(xù)部署,署在軟件SDN、公有云中,通過虛擬機承載,滿足業(yè)務敏捷、彈性、反復重構的訴求。華為超融合數(shù)據(jù)中心網絡可實現(xiàn)私有云與公有云之間的業(yè)務互通編排,將穩(wěn)態(tài)業(yè)務部署在私有云中,將敏態(tài)業(yè)務部署在公有云上,從而使數(shù)據(jù)中心業(yè)務可以靈活跨數(shù)據(jù)中心、跨不同的云部署,他具有以下價值:便于理解。統(tǒng)一編排:提供統(tǒng)一的專用業(yè)務編排入口和界面,提升了業(yè)務編排的效率。統(tǒng)一運維:提供跨私有云和公有云的統(tǒng)一運維平臺,簡化維護。圖3-2私有云與公有云間業(yè)務互通全網智能運維,實現(xiàn)故障主動預測隨著數(shù)據(jù)中心從傳統(tǒng)IT支撐系統(tǒng)變更為生產系統(tǒng),數(shù)據(jù)中心網絡重要性越來越高,故障零容忍。隨著網絡規(guī)模不斷增大,節(jié)點關系錯綜復雜,網絡狀態(tài)瞬息萬變,數(shù)據(jù)中心網絡的復雜度已經超出了傳統(tǒng)手段和個人經驗所能覆蓋的范疇。超融合數(shù)據(jù)中心網絡可實現(xiàn)全網的智能運維。該方案將知識圖譜引入到了網絡運維中,大大減輕了故障處理階段運維人員的壓力,還可以提供90%故障的主動預測,實現(xiàn)了風險感知到修復的自動閉環(huán),保證業(yè)務7x24小時在線?,F(xiàn)狀華為智能運維的優(yōu)勢采用SNMP協(xié)議,5分鐘輪詢周期采用Telemetry機制,秒級數(shù)據(jù)集采集,基于分析平臺構建動態(tài)基線異常檢測,多維度實現(xiàn)網絡全場景數(shù)據(jù)可視與指標分析需每日按時巡檢,面向單一的告警事件,缺乏完整的評估能力構建了全網的評估模型,基于AI算法構建了基于設備層、網絡層、協(xié)議層、Overlay層、業(yè)務層的全網健康度評估模型,可預測容量/流量風險發(fā)生故障后被動響應,故障處理過程依賴人工經驗和操作基于AI算法和專家經驗庫,實現(xiàn)對故障的1分鐘感知,3分鐘定位和5分鐘故障隔離或修復全場景服務化能力,網絡即服務多云場景下網絡異構成為常態(tài),多廠商設備往往配套多種控制器。一方面,當跨云業(yè)務變更時,需求要分解到多個控制器,如果控制器能力不滿足,則需要依賴原廠商落入版本開發(fā),周期在3~6個月不等。另一方面,企業(yè)云管平臺需要同時對接多個控制器,適配工作量巨大。南向和北向的多接口模式造成跨云網絡部署動輒耗時數(shù)月,成為算力跨域流通的瓶頸??蓪崿F(xiàn)跨廠商設備驅動程序的動態(tài)加載和設備的統(tǒng)一管理,屏蔽了網絡設備的差異。南向開放框架可以將多廠商設備抽象為統(tǒng)一的業(yè)務對象,減少人工投入,提供一致的業(yè)務體驗,同時還提供不同廠商設備配置轉移的能力,保障客戶替換設備時不中斷業(yè)務。API月縮短至數(shù)天。PAGE20PAGE20華為超融合數(shù)據(jù)中心網絡架構第4章華為超融合數(shù)據(jù)中心網絡架構摘要摘要本章介紹華為超融合數(shù)據(jù)中心網絡的分層架構以及相關產品。方案架構華為超融合數(shù)據(jù)中心網絡的架構如下圖所示。圖4-1華為超融合數(shù)據(jù)中心網絡架構服務器層用于承載應用程序的服務器資源,需要接入網絡層來實現(xiàn)與外部通信:按照工作職能,可劃分為:通用計算服務器、存儲服務器、高性能計算服務器等。通用計算服務器:用于部署常規(guī)應用的服務器,大量使用虛擬化、容器等技術,形成靈活的計算資源池。存儲服務器:使用專用的存儲服務器,對各類數(shù)據(jù)進行存儲、讀寫和備份。高性能計算服務器:配備了專用的高性能單元(如CPU、GPU)的服務器,用于完成指定的高性計算任務或AI訓練。物理機:傳統(tǒng)的非虛擬化的服務器。虛擬機:通過計算虛擬化技術完成對物理服務器資源的抽象和虛擬管理,并通過虛擬機的形態(tài)對外提供業(yè)務承載。容器:容器是應用層的抽象,他將代碼和依賴關系打包在一起。多個容器可以在同一臺機器上運行,并與其他容器共享操作系統(tǒng)內核,每個容器在用戶空間中作為獨立進程運行。一般情況下,存儲服務器、高性能計算服務器均為物理機。通用計算服務器采用上述形態(tài)的一種或多種。網絡層由網絡設備如交換機、防火墻、負載均衡器等組成,為服務器提供數(shù)據(jù)中心內部互聯(lián)互通的網絡服務、以及提供訪問數(shù)據(jù)中心外部資源的網絡服務。CloudEngine系列數(shù)據(jù)中心交換機承擔,為服務器層提供高速互聯(lián)通道。ACL安全防護、NAT等。個服務器的負擔,提升業(yè)務體驗和可靠性??刂婆c分析層對網絡層進行資源管理、并根據(jù)業(yè)務需求完成網絡配置的自動下發(fā);對網絡層進行健康度檢查,對出現(xiàn)的故障進行智能分析和定位。iMasterNCE-Fabric:華為數(shù)據(jù)中心控制器,南向管理網絡設備,北向與應用層的平臺類系統(tǒng)對接,完成業(yè)務全生命周期的自動化部署和網絡資源管理。其中華SecoManager管理,SecoManageriMasterNCE-Fabric上的一項服務。iMserCEFbicMC:簡稱為MC(ulCenerCrller,即多數(shù)據(jù)中心控制器,當客戶擁有多個數(shù)據(jù)中心,每個數(shù)據(jù)中心作為一個資源域,iMasterNCE-FabricMDC來對多個數(shù)據(jù)中心的網絡業(yè)務進行統(tǒng)一編排和管理。iMasterNCE-FabricInsight:華為數(shù)據(jù)中心網絡智能分析平臺,可實時感知Fabric查,分析網絡故障的根因。iMserCEFbisitMAM(MulidinAnlyzer,即應用于企業(yè)內外部客戶部署的分布式多云進行分析。HiSecInsightAPTHiSecInsight高級威脅分析系HiSec應用層面向各類ICT管理員、業(yè)務用戶提供的具體業(yè)務界面和接口:StackOpenStack。計算虛擬化平臺:對計算資源完成虛擬化和管理的平臺。容器平臺:對計算資源進行容器化管理的平臺,如開源Kubernetes、開源Docker等。主要組件產品一覽iMasterNCE-Fabric數(shù)據(jù)中心控制器iMasterNCE-Fabric控制器是華為超融合數(shù)據(jù)中心網絡解決方案的核心組件,可實現(xiàn)對網絡資源的統(tǒng)一控制和動態(tài)調度,快速部署云業(yè)務。iMasterNCE-Fabric采用開放架構,開放豐富的標準接口,北向支持與業(yè)界主流OpenStack云平臺實現(xiàn)L2~L7層對接,南向支持管理物理交換機、虛擬交換機、防火墻等物理和虛擬網絡設備。iMasterNCE-Fabric通過北向接口接收以用戶為中心的業(yè)務訴求,并將其轉換為網絡配置、批量下發(fā),實現(xiàn)網絡自動化。在沒有云平臺的場景下,iMasterNCE-Fabric提供獨立業(yè)務發(fā)放GUI。iMasterNCE-Fabric提供高可靠集群能力,系統(tǒng)采用負載分擔方式對南北向業(yè)務進行處理,同時支持主備集群部署,實現(xiàn)異地容災,滿足數(shù)據(jù)中心業(yè)務的高可靠性要求。掃描下方二維碼,獲取更多iMasterNCE-Fabric數(shù)據(jù)中心控制器的信息:iMasterNCE-FabricInsight數(shù)據(jù)中心分析器華為iMasterNCE-FabricInsight是面向數(shù)據(jù)中心網絡的智能分析平臺,基于大數(shù)據(jù)分析技術,為用戶提供無處不在的網絡應用分析與可視化呈現(xiàn),打通應用和網絡的邊界。iMasterNCE-FabricInsight通過Telemetry采集網絡全場景數(shù)據(jù),實時呈現(xiàn)網絡質量,幫助客戶實現(xiàn)快速識別故障,并在業(yè)務產生影響前主動識別風險。掃描下方二維碼,獲取更多iMasterNCE-FabricInsight數(shù)據(jù)中心分析器的信息:CloudEngine系列數(shù)據(jù)中心交換機CloudEngine16800iLossless智能無損交換算法,對全網流量進行實時的學習訓練,E2E微級時延,達到最高吞吐量。CloudEngine6800系列交換機是華為公司面向數(shù)據(jù)中心推出的新一代高性能、高密度、低時延的以太網盒式交換機。掃描下方二維碼,獲取更多CloudEngine系列數(shù)據(jù)中心交換機的信息:PAGE29PAGE29超融合數(shù)據(jù)中心網絡關鍵技術第5章超融合數(shù)據(jù)中心網絡關鍵技術摘要摘要本節(jié)介紹了華為超融合數(shù)據(jù)中心網絡里使用到的一些主要技術:智能無損網絡系列技術、自動駕駛網絡技術、多云協(xié)同技術、智能運維技術,方便您更好地理解超融合數(shù)據(jù)中心網絡帶來的價值。智能無損網絡系列技術RoCEv2RDMAiLossless智能無損算法的一系列技術來構建智能無損以太網絡,通過如圖5-1所示的多個技術的組合,真正解決傳統(tǒng)以太網絡擁塞丟包的問題,為RoCEv2RoCEv2應用的高性能需求。圖5-1華為智能無損網絡系列技術分類總覽流量控制類技術流量控制是端到端的,需要做的是抑制發(fā)送端的發(fā)送速率,以便接收端設備有足夠資源來接收流量,防止設備端口在擁塞的情況下出現(xiàn)丟包。華為提供了PFC死鎖檢測和死鎖預防,提前預防PFC死鎖的發(fā)生。PFC(Priority-basedFlowControl,基于優(yōu)先級的流量控制)是一種有效避免丟包的流量控制技術,是無損網絡的基礎。配置PFC功能的隊列為無損隊列,用于承載丟包敏感的業(yè)務流;沒有配置PFC的隊列被稱為有損隊列,用于承載可容忍一定丟包的業(yè)務流。然而,當多個設備之間因為環(huán)路、服務器網卡故障等原因同時出現(xiàn)擁塞,各自端PFCPFCPFCPFCPFCPFC死鎖檢測PFC死鎖進行全程監(jiān)控,當設備在死鎖檢測周期內持續(xù)PFC反壓幀時,認為可能出現(xiàn)了PFC死鎖現(xiàn)象,此時會讓該端口不響應PFCPFC反壓幀,則認為出現(xiàn)了PFC死鎖,此時會關閉PFC功能,保護應用。PFC死鎖預防PFCPFC反壓的路徑,讓PFC反壓幀不會形成環(huán)路,從而避免PFC死鎖的發(fā)生。擁塞控制類技術擁塞控制是一個全局性的過程,目的是讓網絡能承受現(xiàn)有的網絡負荷,往往需要轉發(fā)設備、流量發(fā)送端、流量接收端協(xié)同作用,并結合網絡中的擁塞反饋機制來調節(jié)整網流量才能起到緩解擁塞、解除擁塞的效果。在擁塞控制過程中,華為提供了AIECN(ArtificialIntelligenceExplicitCongestionNotification、ECNOverlay、iQCN(intelligentQuantizedCongestionNotificationNPCC,解決了傳統(tǒng)DCQCN存在的問題。AIECN目前,RDMADCQCN(DataCenteredCesntiicn,CCNCN功能的網絡設備,其他的協(xié)議功能在主機的網卡上實現(xiàn)。DCQCN可以在需要零丟包傳輸RDMADCQCNECN擁塞標ECNCNP但是,DCQCN使用的是靜態(tài)ECN的方式,也就是說需要在轉發(fā)設備上手工配置ECN的高低門限、ECN的標記概率等參數(shù),對于需要無丟包傳輸?shù)臒o損業(yè)務,ECN門限適應隊列中不斷變化的緩存空間,在兼顧時延敏感小流和吞吐PFC量的吞吐和時延造成影響。華為智能無損網絡中的AIECN(ArtificialIntelligenceExplicitCongestionNotification)是一種根據(jù)現(xiàn)網流量模型智能地調整無損隊列的ECN門限的功能。AIECN結合了智能算法,可以根據(jù)現(xiàn)網流量模型進行AI訓練,對網絡流量變化進行預測,及時推理最優(yōu)ECN門限,并且支持根據(jù)現(xiàn)網流量變化實時調整ECNAIECNTCPRoCEv2RoCEv2流量的無損傳輸?shù)耐瑫r實現(xiàn)低時延和高吞吐。ECNOverlayECNIPECNVXLAN絡中對報文存在封裝和解封裝的過程,容易丟失擁塞狀態(tài)信息。ECNOverlayECN在VXLAN網絡中的應用。ECNOverlayVXLAN網絡傳遞到流量接收端,可以及時VXLAN網絡的擁塞,實現(xiàn)網絡性能的最大利用。iQCNDCQCNECNECNCNP(CongestionNotificationPackets)擁塞通知報文,以通知發(fā)送端的網卡降低發(fā)包速率。當網絡中出現(xiàn)擁塞時,可能讓發(fā)送端不能及時接收到CNP報文,導致發(fā)送端認為網絡中擁塞已經解除,從而對流量進行升速,這會造成轉發(fā)設備進一步擁塞惡化,甚至引發(fā)整網因PFC流控而暫停流量的發(fā)送。iQCN(intelligentQuantizedCongestionNotification)CNP報文而提出的功能。iQCN讓轉發(fā)設備可以智CNPCNPCNP報文而升速,導致網絡中出現(xiàn)擁塞加劇。NPCCiQCNCNP程中發(fā)送端往往已經升速。華為智能無損網絡中的NPCC(Network-basedProactiveCongestionControl)RoCEv2CNP報文,準確控制發(fā)送端發(fā)送RoCEv2報文的速率。NPCC既可以確保擁塞時的及時降速,又可以避免擁塞緩解時的過度降速,最終實現(xiàn)數(shù)據(jù)中心長距互聯(lián)場景中RoCEv2業(yè)務的低時延和高吞吐。網絡與存儲協(xié)同技術存儲系統(tǒng)為了存儲大量的數(shù)據(jù),往往需要管理數(shù)量龐大的主機,并且存在新主機陸續(xù)接入網絡設備的情況。為了讓智能無損網絡技術更好的服務于存儲系統(tǒng),華為提出了iNoF(IntelligentLosslessNVMeOverFabric,智能無損存儲網絡)技術,在網絡設備上建立iNoF網絡域后,域內所有網絡設備都可以第一時間感知到接入主機的變化,從而可以將信息反饋給各個智能無損網絡功能去智能調整相關配置,最終使網絡達到低時延、無丟包和高吞吐的性能。同時,iNoF還可以將主機信息通告給存儲系統(tǒng),可以協(xié)助存儲系統(tǒng)管理主機。NVMe-oF詳情參見2.3;iNoF是華為CloudEngine交換機上智能無損特性集中的一個功能,屬于網絡與存儲協(xié)同技術;NoF+是華為提出的集中式存儲網絡解決方案。NVMe-oF、iNoF和NoF+之間關系如下圖所示。圖5-2NVMe-oF、NoF+和iNoF之間的關系網絡與計算協(xié)同技術網算一體功能是指在交換機可以支持的計算能力范圍內,將集合通信的部分計算操作從服務器轉移到網絡側設備交換機上,同時完成網絡數(shù)據(jù)轉發(fā)與高性能數(shù)據(jù)計算功能。網算一體功能避免了在服務器之間多次發(fā)送數(shù)據(jù),減少了服務器集群間的通信量,從而降低了HPC小字節(jié)場景下的網絡時延,提升了計算效率。圖5-3網算一體示意圖自動駕駛網絡技術自動駕駛網絡技術產生的背景當前,數(shù)據(jù)中心不再只是企業(yè)內的一種資源支撐系統(tǒng),而是成為一種新的生產力,開始改變企業(yè)研發(fā)、生產和運營模式。但是,數(shù)據(jù)中心網絡在運營的規(guī)劃、建設、維護和優(yōu)化各階段嚴重依賴于人員經驗和技能,受限于網絡技術復雜、人員技能不足,制約了企業(yè)業(yè)務創(chuàng)新和產業(yè)轉型。要消除數(shù)據(jù)中心網絡全生命周期的人工瓶頸,原有網絡技術已經無能為力。隨著意圖驅動、數(shù)字孿生、AI等重大創(chuàng)新技術的迅猛發(fā)展,網絡高度自治成為可能,不僅可以代替人工處理大量重復性、復雜性的操作,還能夠基于海量數(shù)據(jù)提升網絡預測和預防能力。通過意圖驅動、數(shù)字孿生等技術與AI結合,數(shù)據(jù)中心網絡生命周期中的人工瓶頸可逐步消除,并基于數(shù)據(jù)驅動差異化的產品服務,使能高度自動化和智能化的網絡。華為數(shù)據(jù)中心自動駕駛網絡方案技術架構華為企業(yè)自動駕駛網絡方案架構主要分為網絡基礎設施、管控系統(tǒng)、云端訓練系統(tǒng)三層。圖5-4華為自動駕駛網絡方案架構網絡基礎設施CloudEngine交換機支持基于Telemetry的主動上報機制,同時具備NETCONFYANG高速配置能力。另外,設備內嵌AI芯片,具備邊緣智能推理能力,可實現(xiàn)網絡KPI及流量異常行為分析、網絡KPI自優(yōu)化能力。管控系統(tǒng)iMasterNCE智能引擎及網絡數(shù)字孿生底座為核心,面向企業(yè)網絡“規(guī)-建-維-優(yōu)”全生命周期的自動化管理和智能運維全場景,提供意圖管理、仿真校驗、業(yè)務發(fā)放、健康度評估等獨立、微服務化組件。云端訓練系統(tǒng)集成海量AI算法庫,提供高性能AI訓練服務。基于云端AI模型訓練引擎、管控系統(tǒng)智能訓練&推理引擎、設備智能邊緣推理引擎,華為數(shù)據(jù)中心自動駕駛網絡方案可實現(xiàn)智能引擎間的模型與推理參數(shù)主動優(yōu)化,持續(xù)向高級網絡自動駕駛能力演進。技術創(chuàng)新驅動結構性問題解決下面簡要介紹幾項自動駕駛網絡中使用到的新技術。意圖驅動業(yè)務對網絡的意圖(簡稱意圖)指以應用為中心,用業(yè)務語言描述對特定網絡服務及操作的期望。意圖引擎中使用的意圖驅動技術,將業(yè)務對網絡的意圖轉換為網絡可理解、可配SLA及安全并提供網絡持續(xù)保障優(yōu)化能力。數(shù)字孿生Gartner將數(shù)字孿生(DigitalTwin)定義為物理對象的數(shù)字化表示,包括:物理對象的模型、來自物理對象或與其相關的數(shù)據(jù)、與物理對象唯一的映射、持續(xù)遙測感知物理對象的能力。化的實時表示,包括靜態(tài)信息(設備類型、容量、拓撲、配置等、動態(tài)信息(流量、表項、性能、告警、事件等、關聯(lián)關系(對象模型、屬性關聯(lián)等)等。他為網絡實現(xiàn)設計推薦、故障處理、資源性能優(yōu)化等智能決策提供了一張高精地圖。網絡數(shù)字孿生包含三大關鍵能力:高精地圖HMp絡多圖層的統(tǒng)一拓撲,支持多圖層間對象關聯(lián)搜索能力。歷史回放imelineimelie歷史回放。數(shù)據(jù)超市(Mrket:提供統(tǒng)一的數(shù)據(jù)管理、查詢服務,降低數(shù)據(jù)訪問難度。人工智能意圖驅動完成外部對網絡的訴求輸入,網絡數(shù)字孿生完成對網絡的全量實時感知。人工智能(ArtificialIntelligence,AI)技術的引入,進一步消除了人工瓶頸。目前,廣泛使用的人工智能技術有如下幾類:強化學習Reinfreeterning,R:是不斷地重復、不斷強化認知的學擇,則可以實現(xiàn)網絡的最佳部署。形式化驗證FlVeriin:最早應用于軟件驗證領域,通過窮舉程序的所有輸入和所有執(zhí)行路徑來診斷代碼的質量和功能。將形式化方法引入到網絡配置中,可構建事前仿真、事后驗證的能力。在網絡變更前,進行配置面驗證,保證變更零差錯。在配置下發(fā)后,定時采集設備的表項進行數(shù)據(jù)面驗證,對網絡運行狀態(tài)提供持續(xù)性可靠保障。知識圖譜nlederph:主要包括知識表示與建模、知識獲取、知識融KPIKPIMin-plusalgebraIP網絡隊列理論,用于計算機網絡Cruz1990eerminisceorklulus,C、隨機網絡演算(sicNetworkCalculus,SNC)等。在機載/車載網絡、工業(yè)自動化網絡、IP網絡等各行業(yè)的通信網絡中均有成熟應用。多云協(xié)同技術多云協(xié)同是指在私有云與公有云保持內在自治的條件下,在私有云與不同的公有云之間實現(xiàn)業(yè)務層面的統(tǒng)一管理和運維,可實現(xiàn)跨云業(yè)務部署和流量互通。使用場景現(xiàn)代企業(yè)云化部署時,往往使用私有云與公有云聯(lián)合部署的方式,應用場景有:力和計算處理能力。災難恢復:用戶可以將備用的業(yè)務數(shù)據(jù)放在公有云上,借助公有云提供商的技術在私有云數(shù)據(jù)中心發(fā)生重大災難時,用戶可以在公有云端利用云主機快速切換,RTO,實現(xiàn)業(yè)務高可用。公有云里,以達到數(shù)據(jù)安全的目的。前端服務靠近用,后端集中處理:對于擁有多個分支的企業(yè),尤其是跨國企業(yè)來RegionCDN(ContentDeliveryNetwork,內容分發(fā)網絡)的只需要少量的前后端交互訪問即可完成整個業(yè)務處理。開發(fā)測試生產部署:對一個應用而言,其開發(fā)測試過程一般需要靈活快捷的環(huán)境搭建,而且期間經常重構,這時公有云是個不錯選擇。而一旦應用正式上線,則希望運行在安全穩(wěn)定的環(huán)境中,那時就會考慮部署在私有云。在這種情況下,同一應用在不同階段相互之間獨立,沒有直接聯(lián)系。通過多云協(xié)同技術,利用DevOpsIPVPN專線訪問公有云提供的服務,簡化本地應用系統(tǒng)的開發(fā)與部署。方案架構華為超融合數(shù)據(jù)中心網絡,提供了多云協(xié)同能力,實現(xiàn)了私有云和公有云之間的統(tǒng)一編排和統(tǒng)一運維。圖5-5多云協(xié)同邏輯架構在多云協(xié)同的總體架構,從邏輯層面可分為業(yè)務編排層、控制層、基礎設施層。業(yè)務編排層:進行跨公有云、私有云的業(yè)務互通網絡編排。MDC:Multi-Datacenter-Controller,多數(shù)據(jù)中心控制器。MDC既可實現(xiàn)私有云跨Fabric業(yè)務互通編排,又可實現(xiàn)私有云與公有云之間的業(yè)務互通編排。此外,MDC還可完成自動化部署、支持靈活的安全策略控制。MDC僅負責業(yè)務互通編排,編排結果的下發(fā),會分別調用私有云控制器NCE-Fabric和公有云控制器CloudManager實現(xiàn)下發(fā)??刂茖樱壕S。iMasterNCE-Fabric:私有云域控制器,南向負責管理私有云內單個或多個FabricFabricMDCMDCFabric或跨混合云互通的私有云部分的配置下發(fā)。CloudManagerAPI,完成對公有云網絡的配置下發(fā)。CloudManagerMDC共部署,是MDC上的一項服務。CloudManageriMasterNCE-Fabric域控制MDCMDCAPI成下發(fā)。iMasterNCE-FabricInsight:對私有云數(shù)據(jù)中心網絡進行基于五層評估模型的全面網絡健康度評估、故障識別與分析、風險預警,同時提供對公有云的流量網絡可視與分析能力?;A設施層:SDNVPN有云連接。智能運維技術方案介紹云計算和智能化技術蓬勃發(fā)展加速了商業(yè)創(chuàng)新,數(shù)據(jù)中心規(guī)模和組網復雜度不斷增加,企業(yè)對業(yè)務的可用性要求卻持續(xù)提高。根據(jù)調研,98%企業(yè)業(yè)務中斷1小時將損失超過10萬美金。如何更加智能化地實現(xiàn)數(shù)據(jù)中心網絡運維勢在必行。華為數(shù)據(jù)中心智能運維方案從“看病”和“體檢”兩個維度守護數(shù)據(jù)中心健康運行??床。菏紫?,對于已發(fā)生故障,能夠快速識別并找出病因,及時避免業(yè)務損失。30+675+1分鐘故障感知,35分鐘故障恢復。體檢:其次,針對未發(fā)生故障,華為提供健康管理、故障預測等智能化能力。綜合設備、網絡、協(xié)議、Overlay、業(yè)務五層進行評估,為客戶提供全面的網絡健康體檢報告,實現(xiàn)基于異常檢測和風險預測的主動性防護。方案架構華為數(shù)據(jù)中心智能運維方案架構如下圖所示,邏輯上分為網絡層、控制層和分析層:源??刂茖樱褐饕蒳MasterNCE-Fabric控制器組成。iMasterNCE-Fabric與iMasterNCE-FabricInsight對接,完成運維過程中對配置的自動轉換與下發(fā)。分析層:主要由iMasterNCE-FabricInsight分析平臺承擔。iMasterNCE-FabricInsightTelemetry方式的數(shù)據(jù)上報,運用智能算法對上報的數(shù)據(jù)進行分析、呈現(xiàn)。iMasterNCE-FabricInsight可輔助用戶逐步實現(xiàn)故障主動感知、分鐘級故障定位定界的主動智能運維目標。圖5-6智能運維方案架構示意圖下面將分別介紹智能運維的核心角色:iMasterNCE-Fabric控制器、iMasterNCE-FabricInsight分析平臺。iMasterNCE-FabricInsight分析平臺iMasterNCE-FabricInsight基于華為大數(shù)據(jù)平臺構建,接收來自網絡設備的Telemetry方式的數(shù)據(jù)上報,運用智能算法對網絡數(shù)據(jù)進行分析、呈現(xiàn)。如5-7所示,iMasterNCE-FabricInsight整體架構分為三部分,網絡設備、iMasterNCE-FabricInsightiMasterNCE-FabricInsight分析器。圖5-7iMasterNCE-FabricInsight分析平臺總體架構iMasterNCE-FabricInsight采用微服務架構,各個業(yè)務服務采用多實例部署,具備高可靠性和伸縮性??赏ㄟ^擴充實例節(jié)點,實現(xiàn)服務容量的擴容。各個實例之間無狀態(tài),外部HTTP請求由消息總線進行分發(fā)到各個節(jié)點處理。分析器南向接入采集器,采用LVS提高系統(tǒng)可靠性。iMasterNCE-FabricInsight采集器ERSPANTCP報文、基gRPC協(xié)議上報的性能Metrics數(shù)據(jù)、FIB/ARPTCPiMasterNCE-FabricInsight分析器iMasterNCE-FabricInsightTCPMetricsMetrics數(shù)據(jù)建立動態(tài)基線并進行異常檢測、預測光模塊的故障概率等等,并進行統(tǒng)計分析、呈現(xiàn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025合作方加工定做合同標準要求
- 2025正規(guī)小學教師勞動合同樣本
- 2025解除建筑工程的設計合同協(xié)議書
- 2025房地產項目合同文本
- 2025科技有限公司合同模板
- 2025建筑模板承包合同模板班組承包合同
- 2025年合作協(xié)議的合同范本
- 2025國有企業(yè)固定資產人民幣貸款合同
- 2025珠寶加盟的合同
- 《下肢深靜脈血栓形成》課件
- 第18課《井岡翠竹》課件-2024-2025學年統(tǒng)編版語文七年級下冊
- 公立醫(yī)院成本核算指導手冊
- 年產10噸功能益生菌凍干粉的工廠設計改
- 耳聾與人工耳蝸植入術課件
- 三年級上冊語文閱讀同步擴展課件-第十五講 童話寓言的閱讀技巧(共14張PPT)-人教(部編版)
- 機油濾清器工作原理剖析
- 執(zhí)行異議及復議課件
- 安全生產管理組織機構設置圖
- 智能健身鏡行業(yè)分析及案例
- 中聯(lián)HIS系統(tǒng)掛號收費 操 作 說 明
- HIT(肝素誘導的血小板減少癥)課件
評論
0/150
提交評論