版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
OrionXOrionXAIOronA算力資源池化解決方案發(fā)布時(shí)間:2021年11版權(quán)所有?北京趨動(dòng)科技有限公司2021電話:010-地址:北京市海淀區(qū)中關(guān)村大街1目引 GPU資源池化技術(shù)的演 OrionX產(chǎn)品概 OrionX產(chǎn)品優(yōu) OrionX軟件架 OrionX的邏輯架 OrionX的功能組 OrionX OrionXServer OrionXClient OrionX OrionX組件間通 管理平 數(shù)據(jù)平 部署形 OrionX與容器云平臺(tái)集 OrionX與Kubernetes集 OrionX與KVM集 OrionX與VMware集 OrionX應(yīng)用場(chǎng) OrionX支持大模型場(chǎng)景的典型應(yīng) 通過“化零為整”功能支持訓(xùn) 通過“隔空取物”功能支持訓(xùn) OrionX支持小模型場(chǎng)景的典型應(yīng) 通過“化整為零”功能支持推 通過“隔空取物”功能支持推 OrionX支持大/小模型場(chǎng)景的典型應(yīng) 通過“隨需應(yīng)變”功能支持訓(xùn)練/推 通過“任務(wù)隊(duì)列”功能支持訓(xùn)練/推理任務(wù)自動(dòng)排 通過“搶占”功能支持任務(wù)搶占資 通過“顯存超分”功能支持多任務(wù)疊加常 通過“雙類資源池”功能支持物理/虛擬切 性能測(cè) 測(cè)試環(huán) 測(cè)試結(jié) 兼容性列 功能與版 圖表目圖表1-1全球人工智能市場(chǎng)規(guī)模走勢(shì) 圖表2-1GPU資源池化技術(shù)演進(jìn) 圖表3-1ORIONX架構(gòu) 圖表5-1ORIONX邏輯架構(gòu) 圖表5-2管理平面邏輯結(jié)構(gòu) 圖表5-3數(shù)據(jù)平面邏輯結(jié)構(gòu) 圖表6-1ORIONX與容器云平臺(tái)集 圖表6-2ORIONX和KUBERNETES集 圖表6-3ORIONX和KVM集 圖表7-1通過化零為整功能支持訓(xùn) 圖表7-2通過隔空取物功能支持訓(xùn) 圖表7-3通過化整為零功能支持推 圖表7-4通過隔空取物功能支持推 圖表7-5通過隨需應(yīng)變功能支持訓(xùn)練/推 圖表8-1模型推理測(cè)試結(jié) 圖表8-2模型訓(xùn)練測(cè)試結(jié) OrionXOrionXAIPAGEPAGE1引十四五”德勤在2020上半年發(fā)布的《全球人工智能發(fā)展白皮書》預(yù)測(cè)數(shù)據(jù)表明:2025年世界人工智能市場(chǎng)將超過6萬(wàn)億美元;中國(guó)人工智能核心產(chǎn)業(yè)規(guī)模到2020年將增長(zhǎng)至1600圖表1-1全球人工智能市場(chǎng)規(guī)模走勢(shì)AI市場(chǎng)中的重要組成GPU、FPGAAI加速器市場(chǎng)發(fā)展也隨之水漲船高。根據(jù)IDC中國(guó)加速計(jì)算市場(chǎng)報(bào)告,預(yù)計(jì)2021年人工智能加速服務(wù)器市場(chǎng)規(guī)模將達(dá)到56.92020年增長(zhǎng)61.6%,到2025人工智能加速服務(wù)器市場(chǎng)將達(dá)到億美元,其五年復(fù)合增長(zhǎng)率為25.3%與此同時(shí),由于缺乏高效經(jīng)AI算力資源池化解決方案,導(dǎo)致絕大部分企業(yè)只能獨(dú)占式地使用昂貴的AI算力資源,帶來居高不下的AI算力使用成本OrionXOrionXAI22持,用戶不得不修AI應(yīng)用以適應(yīng)不同廠AI算力硬件。這會(huì)加AI應(yīng)用開發(fā)部署復(fù)雜性、提高AI算力投入成本并導(dǎo)致供應(yīng)商鎖定。GPUGPUGPUGPU,每個(gè)vGPUAI模型對(duì)任意虛擬化GPUAI應(yīng)用個(gè)性化需求的vGPU。遠(yuǎn)程調(diào)用AI應(yīng)用與物理GPUGUIGUIGU資源。資源池化。形成GU資源池后,需要統(tǒng)一的管理面來實(shí)現(xiàn)管理、監(jiān)控、資源調(diào)度和資源回收等功能。同時(shí),也需要提供北向I,與數(shù)據(jù)中心級(jí)的資源調(diào)度平臺(tái)對(duì)GUOrionXOrionXAI圖表21GPUOrionX趨動(dòng)科技的OrionX(獵戶座)AI算力資源池化解決方案已經(jīng)實(shí)現(xiàn)了上述四個(gè)階段的技術(shù)功能,可以為用戶提供GPU資源池化的整體解決方案。OrionX幫助客戶構(gòu)建數(shù)據(jù)中心級(jí)AI算力資源池,使用戶應(yīng)用無(wú)需修改就能透明地共享和使用數(shù)據(jù)中心內(nèi)任何服務(wù)器之AI加速器。OrionX不但能夠幫助用戶提高AI算力資源利用率,而且可以極大便利用戶AI應(yīng)用的部署。圖表3-1OrionXOrionX通過軟件定義AI算力,顛覆了原有的AI應(yīng)用直接調(diào)用物理GPU的架構(gòu),增加軟件層,將AI應(yīng)用與物理GPU解耦合。AI應(yīng)用調(diào)用邏輯的vGPU,再由OrionX將vGPU需求匹配到具GPU。OrionXGPU資源池化,讓用戶高效、智能、靈活地使用GPU資源,達(dá)到了降本增效的目的。OrionXOrionX通過構(gòu)建GPU資源池,讓企業(yè)內(nèi)的AI用戶共享數(shù)據(jù)中心內(nèi)所有服務(wù)器上的GPU算力。AI開發(fā)人員不必再關(guān)心底層資源狀況,專注于更有價(jià)值的業(yè)務(wù)層面,讓應(yīng)用開發(fā)變得更加便捷。OrionX產(chǎn)品有如下優(yōu)勢(shì):物理GPU利用率。GPU3-10倍,1N損耗小于2%。vGPU支持從單臺(tái)到整個(gè)數(shù)據(jù)中心GPU服務(wù)器納管,輕松實(shí)現(xiàn)GPU資源池的橫RDMA(IB/RoCE)TCP/IP網(wǎng)絡(luò)連接各個(gè)節(jié)點(diǎn),實(shí)支持AI負(fù)載與GPU資源分離部署,更加高效合理地使用GPU提供GPUGPUAIAIGPU/CPU配比和多機(jī)多卡模型拆OrionXOrionX的邏輯架一個(gè)典型的OrionXGPU資源池的邏輯架構(gòu)中包含OrionXController(OC、OrionXService(OSSRuntime(OCRTOroX的各功能組件可以根據(jù)用戶環(huán)境需求被部署在單服務(wù)器上,也可以被分布式地部署GU全局共享的計(jì)算資源,對(duì)I應(yīng)用提供可遠(yuǎn)程訪問的、可靈活切分的、可聚合的彈性GPUOroX圖表5-1OrionX架構(gòu)CUDA(ComputeUnifiedDeviceArchitecture)是由Nvidia公司定義且公開推廣、維護(hù)的一種GPU編程接口。從2007年推出之后,經(jīng)過十幾年生態(tài)培育,已經(jīng)成為GPU編程的一個(gè)事實(shí)標(biāo)準(zhǔn)。大部分流行的AI框架,例如TensorFlow、PyTorch、MXNet和都是基于CUDAOrionX在管理物理GPUCUDAAI應(yīng)用提供一個(gè)與NvidiaCUDASDK接口功能一致的運(yùn)行環(huán)境AI應(yīng)用透明無(wú)感知地運(yùn)行OrionXGPU資源池之上。OrionX不僅在單服務(wù)CUDA標(biāo)準(zhǔn)接口,并且通過分布式部署各功能組件,能夠提供分布式的CUDA運(yùn)行環(huán)境。OrionX的功能組OrionXOrionXControllerGPU資源池的核心管理調(diào)度模塊,其他所OrionX的功能組件都直Controller資源池的統(tǒng)一管理以及資源調(diào)度IPGPU信息、虛擬GPU信息以及應(yīng)用OrionXGPU資源池可以只部署一OrionXController。為了OrionX的可靠性,可以進(jìn)行2+1冗余備份。OrionXController提供如下功能:彈性虛擬GPULicense提供運(yùn)維所需要的各種RestAPIOrionXServerOrionXServerService發(fā)現(xiàn)并管理物理節(jié)點(diǎn)上GPU資源,同時(shí)把GPU的計(jì)算能力OrionX的高性能私有協(xié)議提供給數(shù)據(jù)中心內(nèi)的各個(gè)物理節(jié)點(diǎn),以及各個(gè)物理節(jié)點(diǎn)上的OrionXServerService部署OrionX資源池內(nèi)的每一個(gè)節(jié)點(diǎn)上,包GPU節(jié)點(diǎn)和應(yīng)用所在的節(jié)點(diǎn)。OrionXServerService提供如下功能:發(fā)現(xiàn)和管理物理GPU把物理GPU資源抽象成彈性的vGPUAIGPUOrionXClientOrionXClientRuntime是一套兼NvidiaCUDA編程環(huán)境的運(yùn)行環(huán)模擬CUDA的運(yùn)行時(shí)接口。當(dāng)AI應(yīng)用在使用NvidiaGPU進(jìn)行計(jì)算的時(shí)候,會(huì)自動(dòng)調(diào)用OrionXClientRuntime。由于OrionXClientRuntime提供和NvidiaGPU兼容的CUDA接口,因此應(yīng)用無(wú)需修改,可以透明無(wú)感知地運(yùn)行在一個(gè)虛擬的GPU環(huán)境下。OrionXClientRuntime部署在每一個(gè)應(yīng)用環(huán)境下,替代原有NvidiaCUDASDK。OrionXClientRuntime提供如下功能:CUDA自動(dòng)完成虛擬GPUOrionXOrionXGUI給運(yùn)維提供一個(gè)友好的GUI界面,方便管理員對(duì)OrionX整體資源池進(jìn)行全面管理。OrionXGUI提供如下功能:OrionX組件間通OrionX的各個(gè)功能組件通過管理平面網(wǎng)絡(luò)和數(shù)據(jù)平面網(wǎng)絡(luò)GPU資源池的管理以及GPU資源的調(diào)度等功能。在部OrionX時(shí),使用基TCP/IP網(wǎng)絡(luò)的管理平面,來承載整個(gè)系統(tǒng)的管理工作。通過管理網(wǎng)絡(luò),分布在各個(gè)節(jié)點(diǎn)的功能組件都保持和OrionXController同步。管理平面邏輯結(jié)圖表52OrionXController在應(yīng)用運(yùn)行的過程中,應(yīng)用所在環(huán)境和GPU物理節(jié)點(diǎn)之間的數(shù)據(jù)傳輸使OrionX的數(shù)據(jù)面。該數(shù)據(jù)面支持多種后端數(shù)據(jù)傳輸載體,包括TCP/IP以太網(wǎng)絡(luò)、RoCERDMAInfinibandRDMA、ShareMemory支持虛擬機(jī)、容器和宿主機(jī)之間的TCP/IP圖表5-3平面邏輯結(jié)OrionX的各個(gè)組件,支持直接部署在裸金屬服務(wù)器上,即安裝操作系統(tǒng)后,直Binary形式部署,也支持容器化部署。OrionX具備適配多種Linux操作系統(tǒng)和云平臺(tái)的能力,因此,OrionX具有多樣化的部署形式。OrionXCentOS、Ubuntu、DebianLinuxKVM的虛擬機(jī)云平臺(tái)和基于Docker的容器云平臺(tái)。尤其是支持原生容器,并實(shí)現(xiàn)了和Kubernetes的平OrionX與容器云平臺(tái)集OroX支持原生容器,各個(gè)組件都可以通過容器鏡像方式部署。在容器環(huán)境中,客戶只需要使用OrnXOroXGUOrionX的容器部署方式,將GPUDrivers、CDUA、CUDNN和NCCL等軟件棧都下沉到宿主機(jī)上內(nèi)部只需要安裝OrionXClientRuntime和機(jī)器學(xué)習(xí)AI大大簡(jiǎn)化了客戶算法工程師運(yùn)維、管理AI圖表6-1OrionX器云平臺(tái)集OrionXKubernetes集OrionX為Kubernetes提供兩個(gè)插件,實(shí)現(xiàn)與K8S的集成對(duì)接。集成后,系統(tǒng)管理員只需要在K8S中,即可完成對(duì)GPU資源池中vGPU資源的配置和調(diào)度管理。并且,允許系統(tǒng)軟件定義的數(shù)據(jù)中心OrionX為KubernetesOrionXKubernetesDeviceOrionXControllerOrionXGPU通過Kubernetes定義的DevicePlugin標(biāo)準(zhǔn)向Kubernetes注冊(cè)名字為/gpuOrionXKubernetesScheduler提供基于HTTPAPIK/gpu的資源敏感字,使其指向OrionKubernetesSchedulerExtender的HTTP服務(wù)地址。圖表6-2OrionXKubernetes集OrionXKVM集OrionX支持原生KVM,各個(gè)組件都可以通過Binary方式部署。在KVM環(huán)境中,客戶使OrionX組件的安裝腳本,就可以完成OrionX的基礎(chǔ)部署,輕松實(shí)現(xiàn)GPUOrionXKVM部署OrionXControllerOrionXServerServiceBinary方式部署在宿主機(jī)OrionXClientRuntime部署在VMGPUDriversCDUACUDNN和NCCL等軟件棧都下沉到宿主機(jī)上。這樣,VM內(nèi)部只需安裝OrionXClientRuntime和AIAIKVM的云平臺(tái)OpenStack,OrionX提供全開放RestAPI接口Nova件對(duì)接,實(shí)現(xiàn)GPU資源池中的vGPU資源在OpenStack圖表6-3OrionXKVMOrionXVMware集vSphereGPU通過直通方式全部透?jìng)鹘o一VMVMOrionXController和OrionXServerService組件,即可輕松實(shí)現(xiàn)GPU資源池化。該VM上或者其他VM上的AI應(yīng)用即可通過OrionXClientRuntime組件調(diào)用虛擬GPU資源,大大簡(jiǎn)化GPU資源在vSphere環(huán)境中的分配難度,提高GPU資源的調(diào)度效率。圖表64OrionXVMwareOrionXOrionX支持大模型場(chǎng)景的典型OrionX支持將多臺(tái)服務(wù)器上的GPU提供給一個(gè)虛擬機(jī)者容器內(nèi)的基于分布式訓(xùn)練框架(HorovodDistributedDataParallel)AI應(yīng)用無(wú)需修改代碼。GPU資源聚合后提供給單一虛擬機(jī)或者容器使用?!盎銥檎敝С钟?xùn)練等大模型場(chǎng)景,為用戶的AI應(yīng)用提供數(shù)據(jù)中心級(jí)的海量算力。Hrovod是UerHrovd本擴(kuò)大規(guī)模,使其僅用幾行thon代碼就可以在跨設(shè)備的多個(gè)GU上運(yùn)行。一旦配置了Hrovosrlw、rc、XNetDistributedDataParallel(簡(jiǎn)稱DDP)是PyTorch自帶的分布式訓(xùn)練框架,支持多機(jī)多卡和單機(jī)多卡分布式訓(xùn)練DDPDataParallel,可以通過提batchsize來增加并行度DDP通過Ring-Reduce的數(shù)據(jù)交換方法提高了通訊效率,并通過啟動(dòng)多個(gè)進(jìn)程的方式PythonGIL圖表7-1化零為整功能支持明地使用其他服務(wù)器上的GPU資源,該虛擬機(jī)或者容器內(nèi)的AI應(yīng)用無(wú)需修改代碼。通過這個(gè)功能,OrionX幫助用戶實(shí)現(xiàn)了數(shù)據(jù)中心級(jí)GPU資源池,實(shí)現(xiàn)了AI應(yīng)用和GPU物多個(gè)GPU卡完成訓(xùn)練任務(wù)?!癘rionXOrionXAI圖表7-2隔空取物功能支持OrionX支持小模型場(chǎng)景的典型資源。作為AI算力資源池平臺(tái),OrionX可以從算力和顯存兩個(gè)維度,切分GPU。支持將OrionX支持將一塊物GPU細(xì)粒度切分成vGPU,然后分配給多個(gè)虛擬機(jī)或者容器。每一塊vGPU的顯存和算力都能被獨(dú)立設(shè)置和限制。通過這個(gè)功能,用戶可以高效地共享GPU資源,提高GPU利用率,降低成本。算力切分的最小顆粒度為原物理GPU算力的1%;顯存切分的最小顆粒度為1MBOrionXOrionXAI圖表7-3化整為零功能支持明地使用另一臺(tái)服務(wù)器上的GPU資源,該虛擬機(jī)或者容器內(nèi)的AI應(yīng)用無(wú)需修改代碼。通過這個(gè)功能,OrionX幫助用戶CPUGPU資源的解CPUGPU需要雙向平衡的推理場(chǎng)景下,OrionX可以更好的平CPUGPU資源的分配,減少短板資“GUGU資源間的OrionXOrionXAI圖表74OrionX支持大/小模型場(chǎng)景的典型應(yīng)過這個(gè)功能,OrionX幫助用戶實(shí)現(xiàn)GPUGPU資源調(diào)OrionXvGPU資源按需分配、隨用隨取,最大限度的利用算力資源。不論是大模型訓(xùn)練,還是小模型推理的環(huán)境中,用戶都可AI模型需求,動(dòng)態(tài)的調(diào)整算力資源大小,而無(wú)需重啟掛載vGPU的虛擬機(jī)/容器。OrionX支持vGPU資源預(yù)留模式和獲取模式:預(yù)留模式:和使用物理GPU類似,客戶申請(qǐng)的vGPU是獨(dú)占的,不可被其他用戶才鎖定到具體的物理GPU,一旦AI應(yīng)用結(jié)束,物理GPU資源及時(shí)釋放。OrionXOrionXAI圖表7-5隨需應(yīng)變功能支持訓(xùn)練/推當(dāng)請(qǐng)求GU/UOronX支持任務(wù)排隊(duì)能力。OrnX會(huì)將任務(wù)放入等待隊(duì)列中,直到隊(duì)列中前面任務(wù)跑完,可調(diào)度OroX允許對(duì)任務(wù)進(jìn)行隊(duì)列優(yōu)先級(jí)預(yù)設(shè),一旦資源缺乏導(dǎo)致任務(wù)進(jìn)入等待隊(duì)列,按照優(yōu)先圖表7-6隨需應(yīng)變功能支持訓(xùn)練/推上述“任務(wù)隊(duì)列”中,OronX允許對(duì)某些任務(wù)賦予搶占屬性,一旦資源不足導(dǎo)致任務(wù)進(jìn)入oX通常推理任務(wù)為滿足最佳用戶體驗(yàn),會(huì)將推理模型常駐顯存,4小時(shí)不中斷,以便擁有最,OrionX在邏輯上擴(kuò)大GPU顯存的承載容量,從而支持多個(gè)常駐顯存的長(zhǎng)尾任務(wù)疊加在同一個(gè)物理GPUGPUGPU閑置算力。根據(jù)業(yè)務(wù)特點(diǎn),OroX還支持不同任務(wù)設(shè)置不同優(yōu)先級(jí),從而保證突發(fā)高優(yōu)先級(jí)任務(wù)的服圖表7-7隨需應(yīng)變功能支持訓(xùn)練/推AI任務(wù)由于程序本身自有的特殊性,需要直接使用物NativeGPU資源,OrionX支持同時(shí)納管OrionXGPU(即經(jīng)過OrionX池化管理的GPU,可以被虛擬化為多個(gè)VGPU,和NativeGPU(即原生GPU,不會(huì)被虛擬化。OrionX能夠在一個(gè)界面上方便的控制哪些GPU卡初始化上報(bào)為OrionXGPU,哪些GPU卡被初始化上報(bào)為NativeGPU。在初始化上報(bào)結(jié)束以后,依然能夠靈活的OrionXGPUNative
溫馨提示
- 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年溫室大棚內(nèi)植物種植技術(shù)服務(wù)合同3篇
- 2025年云南貨運(yùn)從業(yè)資格證考試題答案大全及解析
- 2025年荊門大車貨運(yùn)資格證考試題
- 2024全新車輛頂賬拆分及追償服務(wù)協(xié)議5篇
- 2025年河池怎么考貨運(yùn)從業(yè)資格證
- 2024年煤礦開發(fā)深度合作協(xié)議模版版B版
- 《男員工站立時(shí),怎》課件
- 安徽省淮北市五校聯(lián)考2022-2023學(xué)年八年級(jí)下學(xué)期第一次月考?xì)v史試題(解析版)
- 2024年物業(yè)服務(wù)管理合同(智能化系統(tǒng))
- 2024年水果訂購(gòu)合同:柑橘專篇
- 福建省泉州市安溪縣實(shí)驗(yàn)小學(xué)2023-2024學(xué)年三年級(jí)上學(xué)期素養(yǎng)比賽語(yǔ)文試卷
- NB-T47003.1-2009鋼制焊接常壓容器(同JB-T4735.1-2009)
- 法律邏輯簡(jiǎn)單學(xué)(山東聯(lián)盟)智慧樹知到期末考試答案章節(jié)答案2024年曲阜師范大學(xué)
- 惠州市惠城區(qū)2022-2023學(xué)年七年級(jí)上學(xué)期期末教學(xué)質(zhì)量檢測(cè)數(shù)學(xué)試卷
- ISO45001-2018職業(yè)健康安全管理體系之5-4:“5 領(lǐng)導(dǎo)作用和工作人員參與-5.4 工作人員的協(xié)商和參與”解讀和應(yīng)用指導(dǎo)材料(2024A0-雷澤佳)
- 小學(xué)二年級(jí)上冊(cè)數(shù)學(xué)-數(shù)角的個(gè)數(shù)專項(xiàng)練習(xí)
- 曲式與作品分析智慧樹知到期末考試答案章節(jié)答案2024年蘭州文理學(xué)院
- 園林設(shè)施維護(hù)方案
- 醫(yī)療器械質(zhì)量安全風(fēng)險(xiǎn)會(huì)商管理制度
- 220kV~750kV油浸式電力變壓器使用技術(shù)條件
- MOOC 生物化學(xué)與分子生物學(xué)-中國(guó)藥科大學(xué) 中國(guó)大學(xué)慕課答案
評(píng)論
0/150
提交評(píng)論