版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
IntelOPA介紹與使用服務(wù)與實(shí)施部人工智能與高性能產(chǎn)品服務(wù)交付處認(rèn)識(shí)OPA網(wǎng)絡(luò)1432IntelOPA產(chǎn)品介紹OPA網(wǎng)絡(luò)環(huán)境部署OPA網(wǎng)絡(luò)環(huán)境檢查5OPA網(wǎng)絡(luò)性能測(cè)試及優(yōu)化認(rèn)識(shí)OPA網(wǎng)絡(luò)1集群常見(jiàn)高速網(wǎng)絡(luò)123InfiniBandOmni-PathArchitectureRDMAoverConvergedEthernet點(diǎn)對(duì)點(diǎn)雙向串行鏈路,低延遲,解放CPU資源,以應(yīng)用程序?yàn)橹行模泳W(wǎng)管理服務(wù)(opensm)。英特爾收購(gòu)了QLogic的InfiniBand產(chǎn)品線和Cray互聯(lián)部門(mén),結(jié)合兩種網(wǎng)絡(luò)架構(gòu)的優(yōu)點(diǎn),開(kāi)發(fā)出全新的Omni-Path網(wǎng)絡(luò)架構(gòu),其已經(jīng)脫離IBTA制定的InfiniBand標(biāo)準(zhǔn),所以在軟硬件上與InfiniBand設(shè)備互不兼容。RoCE,一種允許通過(guò)以太網(wǎng)使用RDMA的網(wǎng)絡(luò)協(xié)議,不需要子網(wǎng)管理(SubnetManager)服務(wù),不支持IB協(xié)議下的高可用服務(wù)。服務(wù)與實(shí)施部1認(rèn)識(shí)OPA網(wǎng)絡(luò)1認(rèn)識(shí)OPA網(wǎng)絡(luò)已有高速網(wǎng)絡(luò)技術(shù)10GE以太網(wǎng)絡(luò)隨著10Base-T標(biāo)準(zhǔn)的10Gb以太網(wǎng)線的出現(xiàn),結(jié)合了TOE等TCP卸載技術(shù)的萬(wàn)兆以太網(wǎng)已逐漸在一些數(shù)據(jù)中心,金融機(jī)構(gòu)得到了應(yīng)用。但與InfiniBand比較,至少具有以下不足:價(jià)格昂貴功耗大帶寬和延遲不具有優(yōu)勢(shì)而其具有的優(yōu)勢(shì)有:繼承了以太網(wǎng)的巨大資源節(jié)約管理成本發(fā)展迅速服務(wù)與實(shí)施部1認(rèn)識(shí)OPA網(wǎng)絡(luò)已有高速網(wǎng)絡(luò)技術(shù)Infiniband網(wǎng)絡(luò)為了構(gòu)建低延遲、高帶寬的網(wǎng)絡(luò)互聯(lián),1999年8月Compaq,Dell,HP,IBM,Intel,Microsoft和Sun七個(gè)行業(yè)巨頭成立了InfiniBand協(xié)會(huì)(IBTA)。OpenFabrics:開(kāi)發(fā)IBTA組織制定的標(biāo)準(zhǔn),軟件上的實(shí)現(xiàn)。OFED中集成了HCA驅(qū)動(dòng)、MPI、benchmark程序等。服務(wù)與實(shí)施部1認(rèn)識(shí)OPA網(wǎng)絡(luò)Omni-PathArchitecture服務(wù)與實(shí)施部1認(rèn)識(shí)OPA網(wǎng)絡(luò)Omni-PathArchitecture服務(wù)與實(shí)施部1認(rèn)識(shí)OPA網(wǎng)絡(luò)OPA鏈路層的創(chuàng)新架構(gòu)應(yīng)用程序產(chǎn)生消息包消息包被拆分成包裹最大MTU大小直到分拆的包裹傳送完成,整個(gè)消息包傳送完成。InfiniBand每個(gè)包裹分裝在65-bit的容器——FlowControlDigitsor"Flits"1Flit=65bits將16Flits(帶CRC)封裝成LinkTransferPackets(LTPs)直到Flits傳送完成,整個(gè)消息包傳送完成。Omni-PathFabric16Flits=LTP服務(wù)與實(shí)施部1認(rèn)識(shí)OPA網(wǎng)絡(luò)1.5鏈路層確保網(wǎng)絡(luò)的可靠性細(xì)粒度控制描述優(yōu)勢(shì)通訊流控的優(yōu)化OPA更優(yōu)化的服務(wù)質(zhì)量(QoS),除了基于VL&SL消息包發(fā)送機(jī)制,OPA采用固定長(zhǎng)度的Flits和LTP封裝數(shù)據(jù)包,提供更細(xì)顆粒度的消息包傳遞控制;數(shù)據(jù)包傳遞的優(yōu)先級(jí)控制,高優(yōu)先級(jí)包優(yōu)先傳遞,低優(yōu)先級(jí)包等待。確保高優(yōu)先級(jí)的消息包(如MPI包)優(yōu)先快速傳遞->更快完成作業(yè);穩(wěn)定的延遲性能->減少M(fèi)PI和大塊存儲(chǔ)數(shù)據(jù)混合環(huán)境下,多次運(yùn)行任務(wù),延遲性能不一致的問(wèn)題。消息包完整性保護(hù)OPA不增加額外延遲的情況下,快速的透明的修復(fù)傳輸錯(cuò)誤的鏈接;只需重傳更小的攜帶error的LTPs(僅1056bits),而不是整個(gè)數(shù)據(jù)包(IBFEC);重傳只發(fā)生在主機(jī)到交換機(jī)或交換機(jī)間,而無(wú)需整個(gè)鏈路的重傳,極大減少延遲懲罰。更效的鏈路層錯(cuò)誤修復(fù),對(duì)比IB標(biāo)準(zhǔn)定義的ForwardErrorCorrection(FEC);無(wú)需CPU負(fù)擔(dān),除非錯(cuò)誤修復(fù)發(fā)生在主機(jī)到交換機(jī)。動(dòng)態(tài)鏈路擴(kuò)展OPA在4x鏈路上,有1x或多x的link失效后,保存重啟或返回前一個(gè)checkpoint,繼續(xù)保持link可用性;應(yīng)用任務(wù)繼續(xù)運(yùn)行,直到修復(fù)。對(duì)比當(dāng)前Infiniband,通常是斷掉整個(gè)4xlinks。確保workload繼續(xù)完成,減少任務(wù)運(yùn)行失敗概率。1認(rèn)識(shí)OPA網(wǎng)絡(luò)OPA交換機(jī)路由特性描述優(yōu)勢(shì)靜態(tài)路由傳統(tǒng)的Infinband路由方式最短路徑分散路由允許源/目的多路徑對(duì)通訊負(fù)載均衡支持亂序包可用于IntelPSMMPIsSHMEM自適應(yīng)式路由基于分散路由支持的交換機(jī)自動(dòng)切換失效路徑/擁塞服務(wù)與實(shí)施部1認(rèn)識(shí)OPA網(wǎng)絡(luò)OPA軟件實(shí)現(xiàn)Strategy:Leverage
OpenFabrics/LinuxOFA-compliant:Off-the-shelfcompatibilityProvidesanextensivesetofmatureupperlayerprotocolsIntel-OpenSourceKeyElements:OFAscalabilityenablingtechnologyIntelOmni-PathManager&GUIFastFabricToolsChannels:CoreOFAsupportthroughstandardOSdistributionsIntelOFED+valueadddistributionatopOFEDcoreAccesstolow-levelHFIAPIsvianativehardwarespecificlibrariesSwitchSoftware:EmbeddedfabricmanagementforsmallerclustersandcostoptimizationFullswitchchassismanagementSWthatiscustomizableforOEMdifferentiation服務(wù)與實(shí)施部1認(rèn)識(shí)OPA網(wǎng)絡(luò)ASIC級(jí)別的性能及特征提升TrueScaleHCA(1port)Intel?OPAHFI(1port)ImprovementFactorPCIeInterfaceGen2x8=4GB/sGen3x16=16GB/s4xFabricinterfaceQDR=4GB/s100Gbps=12.5GB/s3.125xAchievableuniBW3.3GB/s(PCIelimited)12-12.5GB/s3.6x-3.8xAchievablebiBW6.4GB/s(PCIelimited)24-25GB/s3.7x-3.9xMaximumunimessagerate36Million/sec160Million/sec4.4xMaximumbimessagerate72Million/sec320Million/sec4.4xTXpin-to-pinlatency220ns160ns30%reductionDecreasesend-to-endlatencyby130nsRXpin-to-pinlatency220ns150nsContexts16(user)+1(kernel)160(configurable)8.9xSDMAEngines11616xMTUSize2KB(deployed)8KB(HPC),10KB(jumbo)4x-5xSendbuffers272KB(PIO),132KB(SDMA)1MB(PIO),392KB(SDMA)3.8x(PIO),3x(SDMA)Receivearrayentries18K(eager)+9K(expected)64K(configurable,moreefficientrxmappings)2.4xLink-levelRXBuffer32KB148KB4.6x服務(wù)與實(shí)施部1認(rèn)識(shí)OPA網(wǎng)絡(luò)性能增強(qiáng):Verbs改進(jìn)優(yōu)勢(shì)更大的最大傳輸單元MTU支持(8Kand10K)特別對(duì)文件系統(tǒng)通訊,大消息包傳遞有好處今減少操作的數(shù)據(jù)包個(gè)數(shù),減少傳遞數(shù)據(jù)包時(shí)CPU利用率,最大化帶寬的利用。16SDMA引擎拉式機(jī)制,特別適用于大數(shù)據(jù)包。每個(gè)引擎將數(shù)據(jù)從主機(jī)端拉出,并發(fā)送出去。越多引擎,并行verb的交換路徑更多,性能更好。160發(fā)送contexts+160接收contexts推出機(jī)制,特別有利于小包優(yōu)化其延遲和消息包轉(zhuǎn)發(fā)頻率。使用CPU發(fā)送數(shù)據(jù)包到鏈路上,更多contexts去映射更大CPU核數(shù)。更靈活的接收端擴(kuò)展更高效的在多CPU核上分發(fā)接收到的數(shù)據(jù)包,加速消息包的處理。網(wǎng)卡自動(dòng)的數(shù)據(jù)包包頭產(chǎn)生在網(wǎng)卡上實(shí)現(xiàn)基于數(shù)據(jù)包順序產(chǎn)生包頭,減少CPU利用率。PIO發(fā)送的使用驅(qū)動(dòng)增強(qiáng)了通過(guò)切換PI0和SDMA傳輸數(shù)據(jù)方式,優(yōu)化不同特征類(lèi)型消息包的性能。代碼路徑優(yōu)化大規(guī)模CPU核數(shù),減少跨CPU核沖突。中斷聚集增加CPU效率,累積一定數(shù)量的中斷再產(chǎn)生CPU中斷。服務(wù)與實(shí)施部1認(rèn)識(shí)OPA網(wǎng)絡(luò)Omni-PathvsInfiniBandEDR相同的鏈路帶寬:?jiǎn)蜗?00Gb相近的主機(jī)網(wǎng)卡延遲所有網(wǎng)卡都是基于PCIegen3更低的芯片延遲:110nsvs90ns(Edge);330nsvs500ns(Director)更大端口數(shù)的單顆交換機(jī)芯片:48ports
vs36
ports更好的鏈路層革新技術(shù)Flits和LTPs方式,更加細(xì)粒度地控制提高通信鏈路的可靠性,優(yōu)化消息包傳遞業(yè)界證明的高擴(kuò)展性軟件堆錢(qián):OFEDbased;Intel-PSM;FabricTools最高的消息包轉(zhuǎn)發(fā)頻率;強(qiáng)大的快速安裝,驗(yàn)證和管理的網(wǎng)絡(luò)工具明確的未來(lái)路線圖更優(yōu)的線纜支持方案(硅光技術(shù),ClearCurve光纖…)服務(wù)與實(shí)施部IntelOPA產(chǎn)品介紹22IntelOPA產(chǎn)品介紹Omni-Path架構(gòu)產(chǎn)品線單端口X8和X16HFI網(wǎng)卡HFI網(wǎng)卡1U24和48端口邊緣交換機(jī)邊緣交換機(jī)QSFP端口192和768端口模塊化核心交換機(jī)核心交換機(jī)OEM定制設(shè)計(jì)HFI和Switch芯片芯片服務(wù)與實(shí)施部2IntelOPA產(chǎn)品介紹Omni-Path生態(tài)系統(tǒng)系統(tǒng)合作伙伴超過(guò)100家OEM和HPC存儲(chǔ)廠家提供OPA平臺(tái)、交換機(jī)和網(wǎng)卡類(lèi)產(chǎn)品最終用戶超過(guò)10萬(wàn)節(jié)點(diǎn)采用IntelOPA網(wǎng)絡(luò)生態(tài)系統(tǒng)強(qiáng)大的硬件和軟件生態(tài)環(huán)境,超過(guò)75個(gè)成員加入了Intel?FabricBuildersProgram服務(wù)與實(shí)施部OPA網(wǎng)絡(luò)環(huán)境部署33OPA網(wǎng)絡(luò)環(huán)境部署OPAConfigurator服務(wù)與實(shí)施部3OPA網(wǎng)絡(luò)環(huán)境部署OPAConfiguratorhttps:///content/www/us/en/high-performance-computing-fabrics/omni-path-configurator.html服務(wù)與實(shí)施部3OPA網(wǎng)絡(luò)環(huán)境部署OPA驅(qū)動(dòng)/download/27077/Intel-Omni-Path-Fabric-Software-Including-Intel-Omni-Path-Host-Fabric-Interface-Driver-?wapkw=opaIFS版本包含opafm服務(wù)服務(wù)與實(shí)施部3OPA網(wǎng)絡(luò)環(huán)境部署OPA驅(qū)動(dòng)技術(shù)文檔https:///content/www/us/en/support/articles/000016242/network-and-i-o/fabric-products.html服務(wù)與實(shí)施部3OPA網(wǎng)絡(luò)環(huán)境部署OPA驅(qū)動(dòng)技術(shù)文檔服務(wù)與實(shí)施部3OPA網(wǎng)絡(luò)環(huán)境部署OPA驅(qū)動(dòng)技術(shù)文檔服務(wù)與實(shí)施部3OPA網(wǎng)絡(luò)環(huán)境部署OPA交換機(jī)技術(shù)文檔https:///content/www/us/en/support/articles/000016223/network-and-i-o/fabric-products.html服務(wù)與實(shí)施部3OPA網(wǎng)絡(luò)環(huán)境部署OPA交換機(jī)技術(shù)文檔服務(wù)與實(shí)施部3OPA網(wǎng)絡(luò)環(huán)境部署OPA交換機(jī)技術(shù)文檔服務(wù)與實(shí)施部3OPA網(wǎng)絡(luò)環(huán)境部署OPA驅(qū)動(dòng)安裝將下載的tar包放至集群共享目錄→拷貝到本地路徑→解壓縮→進(jìn)入目錄安裝執(zhí)行:./INSTALL-a亦可執(zhí)行./INSTALL手動(dòng)安裝服務(wù)與實(shí)施部3OPA網(wǎng)絡(luò)環(huán)境部署OPA驅(qū)動(dòng)安裝一定要看到“Rebuildingbootimage……done.”,否則安裝失敗。服務(wù)與實(shí)施部3OPA網(wǎng)絡(luò)環(huán)境部署OPA驅(qū)動(dòng)安裝選擇P進(jìn)行安裝,完成后重啟節(jié)點(diǎn)。服務(wù)與實(shí)施部3OPA網(wǎng)絡(luò)環(huán)境部署OPA驅(qū)動(dòng)安裝OPA網(wǎng)卡在系統(tǒng)下以ib0的形式存在,配置及管理方式同InfiniBand網(wǎng)卡。服務(wù)與實(shí)施部OPA網(wǎng)絡(luò)環(huán)境檢查44OPA網(wǎng)絡(luò)環(huán)境檢查OPA環(huán)境確認(rèn)hfi1_control-i|grepOpa——查看OPA驅(qū)動(dòng)版本或執(zhí)行:opaconfig-V服務(wù)與實(shí)施部4OPA網(wǎng)絡(luò)環(huán)境檢查OPA環(huán)境確認(rèn)opainfo——查看當(dāng)前主機(jī)OPA網(wǎng)絡(luò)狀態(tài)服務(wù)與實(shí)施部4OPA網(wǎng)絡(luò)環(huán)境檢查OPA環(huán)境確認(rèn)opafm——查看當(dāng)前OPA網(wǎng)絡(luò)中子網(wǎng)管理服務(wù)狀態(tài)或使用"serviceopafmstatus"查看opafm等同IB中的opensmd服務(wù),整個(gè)OPA網(wǎng)絡(luò)中必須至少存在一個(gè)運(yùn)行的實(shí)例負(fù)責(zé)子網(wǎng)管理,否則整個(gè)網(wǎng)絡(luò)不通。服務(wù)與實(shí)施部4OPA網(wǎng)絡(luò)環(huán)境檢查OPA環(huán)境確認(rèn)opareport-olinks——查看OPA網(wǎng)絡(luò)連接拓?fù)鋙pareport-oslowlinks服務(wù)與實(shí)施部4OPA網(wǎng)絡(luò)環(huán)境檢查OPA環(huán)境確認(rèn)opareport-oerrors——查看OPA網(wǎng)絡(luò)狀態(tài)服務(wù)與實(shí)施部4OPA網(wǎng)絡(luò)環(huán)境檢查OPA環(huán)境確認(rèn)opareport-o--help——查看opareport命令集服務(wù)與實(shí)施部4OPA網(wǎng)絡(luò)環(huán)境檢查OPA環(huán)境確認(rèn)opacapture-d3log.tgz——收集主機(jī)端OPA網(wǎng)絡(luò)日志服務(wù)與實(shí)施部4OPA網(wǎng)絡(luò)環(huán)境檢查OPA交換機(jī)登錄使用Console口連接配置Edge及Director交換機(jī)交換機(jī)加電后使用交換機(jī)附帶的USB串口線(兩端都是USB接口)連接交換機(jī)USB接口和PC端。服務(wù)與實(shí)施部4OPA網(wǎng)絡(luò)環(huán)境檢查OPA交換機(jī)登錄PC端連接USB串口線后,如果還未安裝線纜驅(qū)動(dòng),在設(shè)備管理器中可以看到FT231X接口,若已安裝驅(qū)動(dòng),就可以看到“USBSerialPort”接口。服務(wù)與實(shí)施部4OPA網(wǎng)絡(luò)環(huán)境檢查OPA交換機(jī)登錄打開(kāi)xshell等超級(jí)終端連接交換機(jī)串口配置界面,波特率為115200,具體設(shè)置如下:服務(wù)與實(shí)施部4OPA網(wǎng)絡(luò)環(huán)境檢查OPA交換機(jī)登錄當(dāng)OPA交換機(jī)出現(xiàn)故障時(shí),可通過(guò)登錄串口觀察交換機(jī)啟動(dòng)時(shí)打印的啟動(dòng)信息,協(xié)助定位故障(如啟動(dòng)img損壞等)。服務(wù)與實(shí)施部OPA網(wǎng)絡(luò)性能測(cè)試及優(yōu)化55OPA網(wǎng)絡(luò)性能測(cè)試及優(yōu)化OPA
benchmark測(cè)試一般使用自帶OSU工具(下載地址:/benchmarks/)測(cè)試OPA性能,包括帶寬和延遲。參考命令如下,在管理節(jié)點(diǎn)上執(zhí)行即可,需基于openMPI環(huán)境:/usr/mpi/gcc/openmpi-1.10.2-hfi/bin/mpirun-Hc01b01,c02b01/usr/mpi/gcc/openmpi-1.10.2-hfi/tests/osu_benchmarks-3.1.1/osu_bw>c01b01-c02b01.bw/usr/mpi/gcc/openmpi-1.10.2-hfi/bin/mpirun-Hc01b01,c02b01/usr/mpi/gcc/openmpi-1.10.2-hfi/tests/osu_benchmarks-3.1.1/osu_latency>c01b01-c02b01.lat此外,使用Mvapich2的OSU可同樣測(cè)試:/usr/mpi/gcc/mvapich2-2.1-hfi/tests/osu_benchmarks-3.1.1/osu_bw服務(wù)與實(shí)施部5OPA網(wǎng)絡(luò)性能測(cè)試及優(yōu)化OPA
Bandwidth#OSUMPIBandwidthTestv3.1.1#SizeBandwidth(MB/s)15.77211.11423.02844.021680.0632132.2164263.94128511.69256993.635121740.1710242892.2320485010.0840967225.5581928568.181638411335.173276813906.876553615744.5613107215645.8426214413205.1252428812527.31104857612679.25209715212750.52419430411640.74在輸出結(jié)果中查看最后一行結(jié)果即可,即11GB/s,接近12.5GB/s的理論帶寬,網(wǎng)絡(luò)環(huán)境正常。服務(wù)與實(shí)施部5OPA網(wǎng)絡(luò)性能測(cè)試及優(yōu)化OPA
Latency#OSUMPILatencyTestv3.1.1#SizeLatency(us)00.2410.2520.2440.2480.24160.29320.39640.391280.412560.425120.461024
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024建筑設(shè)計(jì)階段BIM技術(shù)服務(wù)合同3篇
- 立春節(jié)氣新媒傳播
- 魔法世界的筑夢(mèng)者
- 經(jīng)濟(jì)學(xué)解密模板
- 基因技術(shù)研究開(kāi)發(fā)合同(2篇)
- 26《好的故事》第二課時(shí)說(shuō)課稿-2024-2025學(xué)年六年級(jí)上冊(cè)語(yǔ)文統(tǒng)編版
- 個(gè)人住宅買(mǎi)賣(mài)協(xié)議模板集錦(2024版)版B版
- 消防排煙工程合同范本
- 1《我們關(guān)心天氣》說(shuō)課稿-2024-2025學(xué)年科學(xué)三年級(jí)上冊(cè)教科版
- 專(zhuān)業(yè)美發(fā)沙龍服務(wù)協(xié)議規(guī)范(2024年修訂)版B版
- 風(fēng)電機(jī)組電氣仿真模型建模導(dǎo)則(征求意見(jiàn)稿)
- 河南省科學(xué)技術(shù)進(jìn)步獎(jiǎng)提名書(shū)
- 高考語(yǔ)文備考之從小說(shuō)考點(diǎn)解讀《哦香雪》(知識(shí)點(diǎn)解讀+精品課件+比較閱讀+模擬命題)
- 2022年中醫(yī)館相關(guān)制度
- 異常反應(yīng)調(diào)查診斷ppt課件
- 浙教版八年級(jí)下冊(cè)科學(xué)3.1空氣與氧氣(3課時(shí))(68張PPT)
- 道路減速帶減速模型分析
- 身體健康狀況自測(cè)表
- 50T汽車(chē)吊吊裝施工方案
- 陜西醫(yī)院目錄
- PID控制原理與調(diào)整方法
評(píng)論
0/150
提交評(píng)論