2023DDC技術(shù)白皮書規(guī)范_第1頁
2023DDC技術(shù)白皮書規(guī)范_第2頁
2023DDC技術(shù)白皮書規(guī)范_第3頁
2023DDC技術(shù)白皮書規(guī)范_第4頁
2023DDC技術(shù)白皮書規(guī)范_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

DDC技術(shù)白皮書PAGE\*romanPAGE\*romaniiODCC-2021-03002ODCC-2021-03002DDC技術(shù)白皮書目錄前言 iii版權(quán)說明 ivDDC技術(shù)白皮書 11.項目背景 12.項目目標 23.專用術(shù)語 2DDC方案論證 2DDC的行業(yè)現(xiàn)狀 24.2. 應(yīng)用場景 3DDC技術(shù)原理 3DDC方案 4DDC芯片說明 54.4.2.組網(wǎng)結(jié)構(gòu) 64.4.3.DDCCell交換原理 7CLOS架構(gòu)方案 84.5.1.芯片說明 84.5.2.組網(wǎng)結(jié)構(gòu) 104.5.3.組網(wǎng)分析 13DDC設(shè)備在DCI網(wǎng)絡(luò)的組網(wǎng)方式 14DDC與CLOS方案對比 154.8. 論證結(jié)論 15DDC產(chǎn)品研發(fā) 16設(shè)備OS功能需求 16DDC硬件設(shè)計 19Fabric設(shè)計 19Forwarder設(shè)計 19管理模塊設(shè)計 20Fabric互聯(lián) 20功耗和機柜空間需求 21DDC自研OS系統(tǒng) 22SONiC社區(qū)對多芯片分布式轉(zhuǎn)發(fā)架構(gòu)的支持情況 22PAGEPAGE10DDC技術(shù)白皮書項目背景當(dāng)前DCI網(wǎng)絡(luò)采用大機框式設(shè)備有以下弊端:以滿足要求;力,對機柜電力要求高;單設(shè)備端口數(shù)量高,故障域大DCI維護。新的設(shè)備形態(tài)思考:DDC-distributeddisaggregatedchassis,將大機框分解,采用盒式交換機搭建大轉(zhuǎn)發(fā)能力DCI角色設(shè)備。圖1DDC結(jié)構(gòu)DDC的優(yōu)勢:單設(shè)備功耗低,分散部署,無需高電機柜;縮小故障域,單臺設(shè)備故障影響范圍更??;分平面集群設(shè)計,容量更大便于自研開發(fā),統(tǒng)一管控;項目目標DDC項目的規(guī)劃目標:DCI25%6.25%部署周期從周級降至小時級NOS一致,具備端到端運維可視化的硬件能力專用術(shù)語如下是本文檔涉及的專業(yè)術(shù)語說明:ASNAutonomoussystemnumber,BGP的自制系統(tǒng)號BGPBorderGatewayProtocolCLOS一種用小型交換機組建的多級無阻塞交換網(wǎng)絡(luò)架構(gòu),命名由CharlesClos博士的名字而來DDCdistributeddisaggregatedchassisESEdgeSwitch對RCSCISISIntermediatesystemtoIntermediatesystem協(xié)議,IGP路由協(xié)議RCRegionalCore區(qū)域核心SCsupercore,超級核心角色VOQvirtualoutputqueueDDC方案論證DDC的行業(yè)現(xiàn)狀DriveNetsNetworkCloud產(chǎn)品是業(yè)界第一個也是唯一一個商用的DDC產(chǎn)品。DriveNetsDDCOS等,DDC軟件適配通用的白盒設(shè)備。2019年AT&T提交DDC白盒架構(gòu)設(shè)計到OCP,2020年AT&T在IP骨干網(wǎng)部署DrivenetsDDC設(shè)備。圖2DriveNetsDDC應(yīng)用場景分布式機框解耦在百度的主要應(yīng)用場景是DCI網(wǎng)絡(luò)。DCI網(wǎng)絡(luò)的互聯(lián)帶寬高,對設(shè)備的交換容量要求高。DCI網(wǎng)絡(luò)有不同規(guī)模的數(shù)據(jù)中心接入,有較高的網(wǎng)絡(luò)帶寬收斂比,需要大buffer、大交換容量的設(shè)備來滿足互聯(lián)需求。當(dāng)前骨干網(wǎng)部署了大量機框式設(shè)備,對機柜電力容量要求高,單設(shè)備故障影響范圍大。涉及多廠商的設(shè)備,在管理和運維上都有很大的挑戰(zhàn)。DDCDCIOS可用性、可管理性,降低設(shè)備成本。DDC技術(shù)原理圖3DDC原理技術(shù)白皮書(中文版)DDC顧名思義是一種分布式解耦機框設(shè)備的解決方案。首先它解耦了硬件和軟件:Fabric,組件獨立,通過光纖互聯(lián);X86機、fabric交換機;OSfabric上,OS通用的白盒交換機;第二DDC解耦了路由交換機的架構(gòu):X86交換機左右分布式的數(shù)據(jù)轉(zhuǎn)發(fā)平面做數(shù)據(jù)轉(zhuǎn)發(fā);數(shù)據(jù)平面靈活伸縮。能夠根據(jù)轉(zhuǎn)發(fā)容量的需求,靈活擴縮容轉(zhuǎn)發(fā)交換fabric。FabricfabriccelldistributedVOQfabric數(shù)據(jù)轉(zhuǎn)發(fā)無擁塞丟包;DDC方案DDCbufferfabric芯片如下:、Ramon(fabric)OS:SonicOSOS控制器:自研控制器商用控制器設(shè)備接口能力:100G端口(DC)400G端口(城域互聯(lián))DDC芯片說明Jericho2C+芯片:7.2TI/O9.6TFabricI/O8GBHBM(Highbandwidthmemory)64MBOnchipbuffer(OCB)350W圖4Jericho2c+芯片結(jié)構(gòu)Ramon9.6TbpsFabricI/O圖5Ramon芯片結(jié)構(gòu)組網(wǎng)結(jié)構(gòu)DDC集群的結(jié)構(gòu)如下:圖6DDC集群結(jié)構(gòu)結(jié)構(gòu)說明:LC2Jericho2c+14.4T轉(zhuǎn)發(fā)能力;FabricRamonfabric9.6TSerdes219.2Tfabric設(shè)備;LCFabric400GFabricN+1冗余能力;2fabric設(shè)備、LC轉(zhuǎn)發(fā)設(shè)備、控制引擎,控制面的數(shù)據(jù)流通過管理交換機轉(zhuǎn)發(fā);2X86ServerLC、DDCCell交換原理DDCCELL交換方式,CELLfabric流量轉(zhuǎn)發(fā)更加均衡,高效。圖7Cell轉(zhuǎn)發(fā)原理數(shù)據(jù)轉(zhuǎn)發(fā)過程原理:LCcluster;CP數(shù)據(jù)包查詢FIB表中的LPM,LCfabriccells,cells被發(fā)往互聯(lián)目地LCfabric上;Fabric從流量入口LC白盒收到cells,基于對在reachabilitytable中celldestinationFabricreachabilitytable,從fabricportLCReachabilitytablereachabilityprotocolLCFabriccontrolcells構(gòu)建;EgressLCcellegressport轉(zhuǎn)發(fā);VOQ機制保證數(shù)據(jù)在集群內(nèi)轉(zhuǎn)發(fā)不丟包,cell轉(zhuǎn)發(fā)能夠保證數(shù)據(jù)流在集群內(nèi)的轉(zhuǎn)發(fā)負載更加均衡。FabriccellDCI發(fā)延遲相比很微小,DCI網(wǎng)絡(luò)本身不是一個延時敏感的網(wǎng)絡(luò)部分。VOQ原理說明:inputbufferoutput擬隊列,outputqueueinputbuffer11outputqueueinputpipelinebuffer空間。VOQinputbuffer在轉(zhuǎn)發(fā)芯片上是outputqueue,避免任何兩個端口的通信不影響其它端口。VOQ是基于credit機制,cell轉(zhuǎn)發(fā)機制說明如下:Inputoutputoutput送;outputinputcreditoutput端口有足夠帶寬資源時,才會給input端口分配credit,inputcreditoutput端口,outputinputcreditinputcreditoutputfabric內(nèi)丟包。CLOS架構(gòu)方案采用CLOS架構(gòu)組建集群,實現(xiàn)近似大機框的轉(zhuǎn)發(fā)能力和組網(wǎng)能力。Fabric層和轉(zhuǎn)發(fā)層都采用普通白盒設(shè)備,F(xiàn)abric和轉(zhuǎn)發(fā)層之間通過路由轉(zhuǎn)發(fā),F(xiàn)abric只在后端做數(shù)據(jù)轉(zhuǎn)發(fā),對外呈現(xiàn)只有轉(zhuǎn)發(fā)器,所有設(shè)備獨立運行,無集中控制平面。芯片說明從端口密度和成本兩方面考慮,設(shè)備的芯片選擇如下:Jericho2Jericho2c+5芯片白盒。FabricSiliconOne對轉(zhuǎn)發(fā)層設(shè)備的要求:fabric設(shè)計Jericho2、Jericho2C+SiliconOne(Q200)buffer芯片體積小、低功耗100G、400G端口卡SiliconOneQ20012.8T轉(zhuǎn)發(fā)能力fabricportfabricI/O的端口分配8GBHBM108MBonchipbuffer(OCB)圖8SiliconOneSiliconOnefabricP4bufferVOQcell轉(zhuǎn)發(fā)。VOQ機制保證芯片轉(zhuǎn)發(fā)無丟包,基于包的轉(zhuǎn)發(fā),數(shù)據(jù)流在多芯片的轉(zhuǎn)發(fā)沒有cell轉(zhuǎn)發(fā)那樣均衡,但沒有切cell的過程也大大縮短了芯片的轉(zhuǎn)發(fā)延遲。與jericho2c+相比具有更低的轉(zhuǎn)發(fā)延遲。設(shè)備形態(tài):圖9Jericho2c+芯片端口形態(tài)圖10SiliconOne芯片端口形態(tài)組網(wǎng)結(jié)構(gòu)100GFabric集群:設(shè)備名稱角色芯片端口形態(tài)設(shè)備配比最大轉(zhuǎn)發(fā)容量4平面最大容量T1FabricTomahawk3128*100G固定端口48614.4T2457.6TT0Forwarder2*Jericho2插卡式:2*48*100G或12*400G+48*100G128圖11100GfabricJercho2+TH3集群設(shè)備名稱角色芯片端口形態(tài)設(shè)備配比最大轉(zhuǎn)發(fā)容量4平面最大容量T1FabricSilicon Q200128*100G固定端口64819.2T3276.8TT0ForwarderSilicon Q200插卡式:32*100G或16*400G線卡128圖12100GfabricSiliconOne集群400G集群:設(shè)備名稱角色芯片端口形態(tài)設(shè)備配比最大轉(zhuǎn)發(fā)容量4平面最大轉(zhuǎn)發(fā)容量T1FabricTomahawk5128*400G固定端口18921.6T3686.4TT0Forwarder2*Jericho2c+插卡式:36*400G或18*400G+72*100G128集群結(jié)構(gòu):圖13400GCLOS架構(gòu)集群Tomahawk5芯片2022.7月發(fā)布,Jericho2c+2021年底量產(chǎn)。組網(wǎng)分析CLOS架構(gòu)的集群做BGP聯(lián)盟配置,對外呈現(xiàn)一個自治域AS圖14CLOS架構(gòu)組網(wǎng)分析轉(zhuǎn)發(fā)層和fabric層之間的路由設(shè)計分析:T0T1BGPconfederation,T1AST0AS;EBGPAS64600EBGPDC1DC2T0-3,與不重合T0-1、T0-5as-path長度是一致的,可以負載均衡;BGPCLOS結(jié)構(gòu)沒有約束,可任意做非對稱互聯(lián),實現(xiàn)路由的等價負載均衡;組網(wǎng)結(jié)構(gòu)分析:①CLOS架構(gòu)分布式控制平面Fabric和forwarder之間采用三層路由方式互聯(lián),無法使用Jericho2c+的fabric端口,芯片有一半的轉(zhuǎn)發(fā)端口用于互聯(lián)Fabric層設(shè)備,構(gòu)建同等轉(zhuǎn)發(fā)能力的DDC集群,需要比集中控制面的DDC增加一倍的設(shè)備,成本上分析比機框式設(shè)備組網(wǎng)成本高一倍以上;②Fabric層采用成本較低的Tomahawk芯片,基于包轉(zhuǎn)發(fā),Tomahawk芯片buffer較小,無VOQ機制,在多訪問1場景fabric層有丟包風(fēng)險;CLOS平面均為分布式,分散故障域,避免全局故障;DDCDCI網(wǎng)絡(luò)的組網(wǎng)方式DDC設(shè)備在DCI網(wǎng)絡(luò)SC角色部署的組網(wǎng)方式如下:圖15DDC設(shè)備DCI組網(wǎng)結(jié)構(gòu)組網(wǎng)說明:DDC4平面;DDC集群,T1FabricDDC2倍部署,以滿足集群擴展能力DDC的轉(zhuǎn)發(fā)設(shè)備按轉(zhuǎn)發(fā)容量需求靈活部署城域網(wǎng)與超核四平面全互聯(lián),ESSC互聯(lián);超核之間分平面互聯(lián);故障場景分析(DDCSC配置8臺轉(zhuǎn)發(fā)交換機):故障點故障影響ES-SClink單linkdown,影響跨regionin1/4帶寬,regionout1/4帶寬SC1SC轉(zhuǎn)發(fā)白盒故障,影響跨regionin1/4帶寬跨regionout1/4帶寬DDCCLOS方案對比DDC方案和CLOS架構(gòu)方案對比如下:對比項DDC方案CLOS架構(gòu)方案故障域故障域大,控制面故障將導(dǎo)致整集群不可用故障域小,單白盒設(shè)備故障不影響全局轉(zhuǎn)發(fā)擁塞避免fabricVOQfabric轉(zhuǎn)發(fā),流量負載更加均衡fabricpackettomahawkVOQ的場景,fabric有丟包風(fēng)險硬件成本同等轉(zhuǎn)發(fā)容量比機框交換機高25%左右,F(xiàn)abric采用專用的fabric芯片,相對轉(zhuǎn)發(fā)芯片成本更低有一半轉(zhuǎn)發(fā)容量用于上聯(lián)交換機高100%以上運維風(fēng)險故障診斷復(fù)雜分布式控制面,升級維護簡單管理風(fēng)險集中控制管理配置簡單分布式控制面,轉(zhuǎn)發(fā)層配置論證結(jié)論從上述方案對比分析:DDC制面集中故障域相對較大;CLOS架構(gòu)方案,實現(xiàn)復(fù)雜,成本與現(xiàn)有機框式設(shè)備相比大幅升高,fabric層有擁塞丟包風(fēng)險;DCIDDC電力問題,轉(zhuǎn)發(fā)容量更大,擴展性好。DDC產(chǎn)品研發(fā)OS功能需求DDCDCIISIS、BGP、SR等協(xié)議。DDCDCI性能需求:路由快速收斂BGPFIB表收斂速度>20k/slinkdelayup/down,收斂影響B(tài)GP路由延遲發(fā)布,在鏈路故障恢復(fù)時縮短丟包時間ISIS/BGPBFD聯(lián)動TEBFD聯(lián)動SRv6支持靈活的路徑計算方法(flexiblealgorithm);支持對數(shù)據(jù)流的染色功能;BGPLS搜集拓撲信息、鏈路帶寬、SID信息;NQA獲取鏈路的時延信息;控制器能夠根據(jù)網(wǎng)絡(luò)的時延、帶寬、color徑;SRv6L3VPN能力IPv6IPv4、IPv6VPN服務(wù)。SRv6的SIDlocatorFunctionSRv6識L3VPN功能。舉例說明如下:SRv6PElocator2021:abcd:0:a1::/64IPv4VPN10.1.1.0/24End.DX4SID2021:abcd:0:a1:1::/64。END.DX4是BGP的一個功能,END.DX4BGPSIDvpnv4addressfamily下,標識一個IPv4CE。END.DX4PEIPv6SIDIPv4報文SIDEND.DX6SRv6IPv6VPN,END.DX6BGPSIDvpnv6addressfamily下。MP-BGPSRv6SIDL3VPNNLRIIPv6PeerSRv6SID安裝PE。具體功能需求如下表:功能要求子功能功能參數(shù)優(yōu)先級BGPECMP128paths,supportecmpas-path-relax,高Peergroup支持配置對等體組高importroutes支持引入其它路由協(xié)議路由(靜態(tài)、OSPF)高4bytesAS支持4字節(jié)ASN高RR(routereflector)支持路由反射器功能高pathselectattributesBGP選路屬性支持:weight、localpreference、MED、community高routeaggregation支持路由聚合,支持抑制明細,并支持聚合路由的路由策略(attribute-policy,suppress-policy)高timerssetting支持BGPhello和holdtime調(diào)整中Addpath8paths高BGPLS(linkstate)getISIStopoloyinfo,computeTEpath中routepolicy(acl/prefix-list/community的路由過濾,as-path/LP/MED/weight操作等)高IPv6supportIPv6address-familyBGP高NSFNonstopforwarding/routing高BFD聯(lián)動中InterfacesLACP100AGGports,eachAGGportsupport48memberportsmax高link-delay/carrier-delay高ODCC-2021-03002ODCC-2021-03002DDC技術(shù)白皮書(中文版)MTUmax10000bytes高LLDPdiscover neighbor hostname/ interface managementIPdiscovery高flowinterval接口統(tǒng)計信息采集頻率設(shè)置中ISISECMP128paths高ISISTEsegment-routingmpls高Peerauthentication中IPv6支持IPv6的路由高NSFnonstopforwarding/routing高Fastreroute中costadjustment支持wide-metric,支持接口開銷調(diào)整配置高routingmanipulation支持路由過濾、引入外部路由、發(fā)布缺省路由中routeaggregation支持路由聚合高BFD聯(lián)動高LoadbalancingIPloadbalancingper-flow,src/dstIP,source/dstport,protocol;perport高linkaggregationsrc/dstIP,src/dstport,protocol,perport高ManagementSSHv2高telnet高loginsourceIPfilter高netstream/sflow高Samplertrafficsampler.支持1:1024采樣比高ZTP中AAA高Netconf/YANG高gRPC中SNMPv2/v3高Inbandtelemetry中Policybasedroutingload-balancenext-hop支持重定向下一跳負載均衡中NQA聯(lián)動支持與NQA聯(lián)動中QoSWRR/WFQ高ECNsupportfastECN/CNP中DSCP/IPPremarkingDSCPtodot1pmapping高MQCMQC(moduleqoscommand-line)流行為、流策略)高CARpolicies中SecurityL3/L4ACL高Prefix-list高community-filter高Routepolicy高as-pathfilter中SRTEMPLSSR高SRv6中SRTI-LFA支持TE隧道熱備份高directtraffictotunnel支持靜態(tài)路由、策略路由、IGP自動路由方式引流到隧道高diff-servicegroup支持TEtag,將流量引導(dǎo)到對應(yīng)服務(wù)等級隧道中BFDforSR-TELSP支持BFD與TELSP聯(lián)動高Staticroutenull0route/defaultroute中DDC硬件設(shè)計Fabric設(shè)計設(shè)計DDC的硬件形態(tài),F(xiàn)abric設(shè)備設(shè)計一種硬件形態(tài):圖16Fabric硬件形態(tài)設(shè)計Fabric采用BroadcomRamon48*400G2顆Ramon192*50G48*400G48fabric691.2TDDC設(shè)備。Forwarder設(shè)計轉(zhuǎn)發(fā)設(shè)備設(shè)計100G和400G兩種形態(tài),100G的轉(zhuǎn)發(fā)設(shè)備設(shè)計如下:圖17100G轉(zhuǎn)發(fā)交換機硬件形態(tài)設(shè)計100GJericho248*100G轉(zhuǎn)發(fā)能力,Jericho2112*50GSerdesfabricI/O14*400GFabric端口Fabric設(shè)備,2端口冗余。400G的轉(zhuǎn)發(fā)設(shè)備設(shè)計如下:圖18400G轉(zhuǎn)發(fā)交換機硬件形態(tài)設(shè)計400GJericho2c+36*400G轉(zhuǎn)發(fā)能力。Jericho2c+192*50GSerdesfabricI/O2*20*400G端口,4端口冗余。管理模塊設(shè)計DDC的fabric和forwarder白盒設(shè)備設(shè)計統(tǒng)一的管理模塊:210GSFP+接口,用于和控制平面的控制引擎通信;1Console接口,用于遠程控制臺管理設(shè)備;1RJ45帶外管理接口,用于遠程帶外管理;Fabric互聯(lián)DDCforwarderfabric400GBroadcomfabric100m。百度對DDC的Fabric互聯(lián)線纜要求如下:圖19AOC線纜400GQSFP-DDAOC50米400GQSFP-DDDAC3米圖20DAC線纜設(shè)備硬件說明:參數(shù)ForwarderFabric設(shè)備尺寸2RackUnit2RackUnit芯片2*Jericho2c+2*Ramon端口36*400G48*400G功耗最大功耗2600w最大功耗2000w230.4T(576*400G)DDC20Fabric,16臺orwrderFbric224臺orardr345.6。按單機柜80A,17600W功率計算:需要5個機柜:圖21DDC部署機柜圖DAC線纜需求:126條AOC線纜需求:514條DDC產(chǎn)品占用機柜空間較大,集群總功耗較高。DDCOS系統(tǒng)SonicDDCOS研發(fā)。DDC是一個控制平面和數(shù)據(jù)轉(zhuǎn)發(fā)平OS系統(tǒng):網(wǎng)絡(luò)控制器,運行控制平面協(xié)議、計算、功能程序,管理協(xié)議等;FabricOS發(fā)任務(wù);SONiC社區(qū)對多芯片分布式轉(zhuǎn)發(fā)架構(gòu)的支持情況DDCOSSONiCSonic社區(qū)的支持情況。Sonic社區(qū)目前沒有針對DDC架構(gòu)設(shè)備的支持,但對通過交換網(wǎng)板做數(shù)據(jù)轉(zhuǎn)發(fā)的多芯片Chassis交換機有相關(guān)設(shè)計和開發(fā):2020.5.19發(fā)布DistributedforwardinginaVOQarchitecture,在SAI中支持。圖22VOQ分布式轉(zhuǎn)發(fā)架構(gòu)說明:每個轉(zhuǎn)發(fā)設(shè)備運行一個獨立的SonicNPUSonicSupervisorSONiC實例來管理轉(zhuǎn)發(fā)設(shè)備的系統(tǒng),這個SupervisorSONiCfabric;F

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論