OrionX AI算力資源池化解決方案技術白皮書_第1頁
OrionX AI算力資源池化解決方案技術白皮書_第2頁
OrionX AI算力資源池化解決方案技術白皮書_第3頁
OrionX AI算力資源池化解決方案技術白皮書_第4頁
OrionX AI算力資源池化解決方案技術白皮書_第5頁
已閱讀5頁,還剩31頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

目錄引言 1GPU資池技的進 2OrionX品述 3OrionX品勢 4OrionX件構 5OrionX邏架構 5OrionX功組件 6OrionXController(OC) 6OrionXServerService(OSS) 6OrionXClientRuntime(OCRT) 7OrionXGUI(OG) 7OrionX件通信 7管理面 8數(shù)據(jù)面 8部署態(tài) 10OrionX容云臺成 10OrionX與KubernetesOrionX與KVMOrionX與VMware12OrionX用景 14OrionX持模場典型用 14通過“零整”能持練 14通過“空物”能持練 15OrionX持模場典型用 16通過“整零”能持理 16通過“空物”能持理 17OrionX持大/模場的典應用 18通過“需變”能持練/推理 18通過“務列”能持練/推任自排隊 19通過“占”能持務占資源 20通過“存分”能持任務加駐 21通過“類源池功支物理/擬換 22通過“遷移功支持AI任務滑移 23通過“多Arch”架可支持AI算圖渲染 25OrionX持元構芯片 28性能試 30測試境 30測試果 31兼容列表 33圖表目錄圖表1-1全球人工智能市場規(guī)模走勢圖 1圖表2-1GPU資源池化技術演進圖 2圖表3-1ORIONX架構圖 3圖表5-1ORIONX邏輯架構圖 5圖表5-2管理平面邏輯結構圖 8圖表5-3數(shù)據(jù)平面邏輯結構圖 9圖表6-1ORIONX與容器云平臺集成 10圖表6-2ORIONX和KUBERNETES集成 11圖表6-3ORIONX和KVM12圖表6-5ORIONX和VMWARE集成 13圖表7-1通過化零為整功能支持訓練 15圖表7-2通過隔空取物功能支持訓練 16圖表7-3通過化整為零功能支持推理 17圖表7-4通過隔空取物功能支持推理 18圖表7-5通過隨需應變功能支持訓練/推理 19圖表8-1模型推理測試結果 31圖表8-2模型訓練測試結果 32引言20202025620201600圖表1-1全球人工智能市場規(guī)模走勢圖作為AIGPUFPGAAI根據(jù)IDC202156.920202025108.6億美元,其五年復合增長率為25.3%。AI地使用昂貴的AIAIAIAIAI雜性、提高AIGPU資源池化技術的演進GPU資源池化技術從初期的簡單虛擬化,到資源池化,經(jīng)歷了四個技術演進階段。簡單虛擬化GPU2的NPUUPUAIAI任意虛擬化AI應vGPU。遠程調(diào)用AI應用與物理GPUGPUAIGPU資源池化vGPU圖表2-1GPU資源池化技術演進圖OrionX產(chǎn)品概述趨動科技的OrionX(獵戶座)AI算力資源池化解決方案已經(jīng)實現(xiàn)了上述四個階段的技術功能,可以為用戶提供GPU資源池化的整體解決方案。OrionXAI使用數(shù)據(jù)中心內(nèi)任何服務器之上的AIOrionXAIAI圖表3-1OrionX架構圖OrionXAIAIGPUAIAIvGPUOrionXvGPUGPUOrionXGPUGPUOrionX產(chǎn)品優(yōu)勢OrionXGPUAIGPUAIOrionX提高利用率GPUAIGPU3-10倍,1N高性能vGPUvGPU2%。vGPU輕松彈性擴展GPUGPU全分布式部署,通過TCP/IP靈活調(diào)度支持AIGPUCPUGPU全局管理GPUAI開發(fā)人員友好AIGPU/CPUOrionX軟件架構OrionX的邏輯架構一個典型的XU資源池的邏輯架構中包含了iXClr(C、iSrce(SiXlitRieCTXU()OrionXGPUAI算力。OrionX圖表5-1OrionX邏輯架構圖CUDA(ComputeUnifiedDeviceArchitecture)NvidiaGPU2007AI、MXNetPaddlePaddle都是基于CUDAOrionX在管理物理GPUCUDAAI應用提供一個與NvidiaCUDASDK接口功能一致的運行環(huán)境,從而使得AI應用透明無感知地運行在OrionXGPUOrionXCUDACUDAOrionX的功能組件OrionXController(OC)OrionXControllerOrionX接或者間接通過網(wǎng)絡連接到iXClriXPUIPGPUOrionXGPUOrionXControllerOrionX2+1OrionXControllerLicense提供運維所需要的各種RestAPI。OrionXServerService(OSS)OrionXServerServiceGPUOrionXOrionXServerServiceOrionXOrionXServerServiceGPUGPU資源抽象成彈性的vGPU。執(zhí)行AIOrionXClientRuntime(OCRT)OrionXClientRuntime是一套兼容NvidiaCUDACUDAAI應用在使用NvidiaGPUOrionXClientRuntime。由OrionXClientRuntime提供和NvidiaGPUCUDAGPUOrionXClientRuntime部署在每一個應用環(huán)境下,替代原有的NvidiaCUDASDK。OrionXClientRuntime提供如下功能:兼容CUDAOrionXGUI(OG)OrionXGUI給運維提供一個友好的GUI界面,方便管理員對OrionX整體資源池進行全面管理。OrionXGUI提供如下功能:OrionX組件間通信OrionX的各個功能組件通過管理平面網(wǎng)絡和數(shù)據(jù)平面網(wǎng)絡進行通信,共同完成GPU資源池的管理以及GPU資源的調(diào)度等功能。管理平面OrionXTCP/IPOrionXController圖表5-2管理平面邏輯結構圖通過私有的同步協(xié)議,分布式部署的各個功能組件具有如下特點:OrionXController數(shù)據(jù)平面OrionX的數(shù)據(jù)面。該數(shù)據(jù)面支持多種后端數(shù)據(jù)傳輸載體,包括TCP/IP以太網(wǎng)絡、RoCERDMA、InfinibandRDMA、ShareMemory支持虛擬機、容器和宿主機之間的TCP/IP圖表5-3數(shù)據(jù)平面邏輯結構圖部署形態(tài)OrionXBinaryOrionXLinuxOrionXCentOS、UbuntuDebianLinuxKVMDockerKubernetesOrionX與容器云平臺集成OrionXOrionXOrionXGPUOrionXGPUDrivers、CUDA、CUDNNNCCLOrionXClientRuntimeAI應AI圖表6-1OrionX與容器云平臺集成OrionXKubernetes集成OrionXKubernetesK8SK8SGPUvGPUDefinedDataCenter,OrionXKubernetesOrionXKubernetesDevicePluginOrionXControllerOrionXGPU通過Kubernetes定義的DevicePlugin標準向Kubernetes注冊名字為/gpu的資源。OrionXKubernetesSchedulerExtender提供基于HTTPAPI通過配置文件向K/gpuOrionKubernetesSchedulerExtender的HTTP圖表6-2OrionX和Kubernetes集成OrionX與KVM集成OrionX支持原生KVM,各個組件都可以通過Binary方式部署。在KVM環(huán)境中,客戶使用OrionX組件的安裝腳本,就可以完成OrionX的基礎部署,輕松實現(xiàn)GPU資源池化。OrionXKVMOrionXControllerOrionXServerServiceBinary方OrionXClientRuntimeVMGPUDriversCUDA、CUDNN和NCCL等軟件棧都下沉到宿主機上。這樣,VM內(nèi)部只需安裝OrionXClientRuntimeAIAI基礎基于KVM的云平臺,例如OpenStack,OrionX提供全開放的RestAPI接口,與Nova組件對接,實現(xiàn)GPU資源池中的vGPU資源在OpenStack中的集中配置和調(diào)度管理。圖表6-3OrionX和KVM集成OrionXVMware集成iXVeSiyVMS中,將物理,在該VMOrionXController和OrionXServerServiceVMVMAIOrionXClientRuntimeGPUGPU6-4OrionX和VMware集成OrionX應用場景OrionX支持大模型場景的典型應用AI通過“OrionXGPU(HorovodDistributedDataParallel)AIGPU支持訓練等大模型場景,為用戶的AIHorovod是UberPython、、MXNetDistributedDataParallel(DDP),DDP屬于DatabatchsizeDDP通過Ring-Reduce的數(shù)據(jù)交換方法提高了通訊效率,并通過啟動多個進程的方式減輕PythonGIL的限制,從而提高訓練速度。圖表7-1通過化零為整功能支持訓練通過“OrionXGPUGPUAIOrionXGPUAIGPU物CUP“”圖表7-2通過隔空取物功能支持訓練OrionX支持小模型場景的典型應用GPU卡AIOrionXGPU通過“OrionXGPUvGPUvGPU算力切分的最小顆粒度為原物理GPU算力的1%;顯存切分的最小顆粒度為1MB。圖表7-3通過化整為零功能支持推理通過“OrionXGPUAI幫助用戶實現(xiàn)了CPUGPUCPUGPU需可以更好的平衡CPUGPU“”GPUvGPU圖表7-4通過隔空取物功能支持推理OrionX支持大/小模型場景的典型應用通過“/OrionXGPUGPUOrionXvGPUAI而無需重啟掛載vGPUOrionXvGPU預留模式:GPUvGPU獲取模式vGPUAI資源GPUAI應用結束,物理GPU圖表7-5通過隨需應變功能支持訓練/推理通過“/vGPU/OrionXOrionX允許對任務進行隊列優(yōu)先級預設,一旦資源缺乏導致任務進入等待隊列,按照優(yōu)先級進行全局排列,優(yōu)先匹配重要任務。圖表7-6通過任務隊列功能支持訓練/推理任務自動排隊通過“搶占”O(jiān)rionX圖表7-7通過搶占功能支持任務搶占資源通過“通常推理任務為滿足最佳用戶體驗,會將推理模型常駐顯存,24小時不中斷,以便擁有最快響應速度。但是這類常駐任務一般算力利用極低,而且潮汐效應明顯。iXiXPU在邏輯上擴大GPUGPU根據(jù)業(yè)務特點,OrionX還支持不同任務設置不同優(yōu)先級,從而保證突發(fā)高優(yōu)先級任務的服務質(zhì)量。圖表7-8通過顯存超分功能支持多任務疊加常駐通過“”/個別AINativeGPUOrionX支rnX(roXNativeGPU(GPU。OrionXOrionXGPU,GPUNativeGPUOrionXGPUNativeGPUOrionXAINativeGPUGPU7-9通過雙類資源池功能支持物理/虛擬切換通過“”功能支持AIOrionXGPUGUIdriver/runtime應用場景1:算力池資源負載均衡GPUGPU遷移前:遷移后:圖表7-10算力池資源負載均衡應用場景2:算力資源碎片整理GPU遷移前:遷移后:圖表7-11算力資源碎片整理應用場景3:GPU服務器下線維護GPU服務器下線維護,主要應用在GPU物理服務器計劃停機維護場景,GPU物理服務器因為遷移前:遷移后:圖表7-12GPU服務器下線維護通過“Arch”AIOrionXMulti-Arch(Arch)vGPUAICUDAOpenGLArch架構下,單個容器或虛擬機可運行多協(xié)議CUD+OpnGICDOpenL圖表7-13通過多Arch架構可同時支持AI計算與圖形渲染應用場景1:虛擬數(shù)字人推理場景IP24ArchvGPUAI圖表7-14虛擬數(shù)字人推理場景應用場景2:研究科學計算場景GPUOpenGLArchvGPU圖表7-15研究科學計算場景OrionX支持多元異構算力芯片OrionXAI()AI()OrionXGPU(AI()圖表7-16OrionX支持多元異構算力芯片AIOrionXAIAIAI11MBAIAI性能測試測試環(huán)境硬件配置IntelXeonGo

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論