使用國(guó)產(chǎn)信創(chuàng)算力部署大模型實(shí)踐_第1頁(yè)
使用國(guó)產(chǎn)信創(chuàng)算力部署大模型實(shí)踐_第2頁(yè)
使用國(guó)產(chǎn)信創(chuàng)算力部署大模型實(shí)踐_第3頁(yè)
使用國(guó)產(chǎn)信創(chuàng)算力部署大模型實(shí)踐_第4頁(yè)
使用國(guó)產(chǎn)信創(chuàng)算力部署大模型實(shí)踐_第5頁(yè)
已閱讀5頁(yè),還剩19頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

使用虛擬化技術(shù)提升大模型推理性能實(shí)踐第四范式(北京)技術(shù)有限公司Copyright?20214ParadigmAllRights

Reserved.CCooppyryigrihgth?t?202200243P4aPraadraigdmigmAllARlilgRhitgshRtessReervseedrv.

ed.背景2

國(guó)產(chǎn)異構(gòu)算力發(fā)展迅猛3近幾年國(guó)內(nèi)不少企業(yè)在算力設(shè)備方面取得進(jìn)展,包括海光信息、壁仞科技、燧原科技、摩爾線程等。海光DCU

8000系列,典型功耗260-350W,支持INT4、INT8、FP16、FP32、FP64運(yùn)算精度,支持4個(gè)HBM2內(nèi)存通道,最高內(nèi)存帶寬為1TB/s、最大內(nèi)存容量為32GB。海光DCU協(xié)處理器全面兼容ROCmGPU計(jì)算生態(tài),由于ROCm和CUDA在生態(tài)、編程環(huán)境等方面具有高度的相似性,CUDA用戶可以以較低代價(jià)快速遷移至ROCm平臺(tái)??梢钥吹剑9釪CU是國(guó)內(nèi)唯一支持FP64雙精度浮點(diǎn)運(yùn)算的產(chǎn)品,英偉達(dá)的A100、H100都支持FP64,從這一點(diǎn)來看,海光DCU在這方面是比較領(lǐng)先的。天數(shù)智芯的BI芯片,集成240億晶體管,采用7納米先進(jìn)制程,支持FP32、FP16、BF16、INT8等多精度數(shù)據(jù)混合訓(xùn)練,單芯算力每秒147T@FP16。寒武紀(jì)2021年11月發(fā)布的第三代云端AI芯片思元370,相比于上一代芯片,思元370全面加強(qiáng)了FP16、BF16以及FP32的浮點(diǎn)算力,在全新MLUarch03架構(gòu)和7nm先進(jìn)工藝加持下,8位定點(diǎn)算力最高為256TOPS。從業(yè)人員割裂國(guó)內(nèi)生態(tài)建設(shè)不足國(guó)產(chǎn)算力設(shè)備難以重復(fù)使用國(guó)產(chǎn)算力設(shè)備閑置狀態(tài)嚴(yán)重模型迭代效率低設(shè)國(guó)備層產(chǎn)面的生從業(yè)人員態(tài)國(guó)產(chǎn)環(huán)算境力相對(duì)難以封重閉復(fù)存國(guó)產(chǎn)在算嚴(yán)力重的閑割置裂狀況利用嚴(yán)CC重ooppyryigrihgth?t

?202200243P4aPraadraigdmigmAll

ARlilgRhitgshRtessReervseedrv.

ed.平臺(tái)層面模型推理的效率標(biāo)準(zhǔn)低算子的開發(fā)和交付效率低,

缺乏統(tǒng)一的標(biāo)準(zhǔn),

各個(gè)模塊對(duì)接成本高缺模乏型統(tǒng)迭一代行業(yè)痛點(diǎn)4CCooppyryigrihgth?t?202200243P4aPraadraigdmigmAllARlilgRhitgshRtessReervseedrv.

ed.5行業(yè)痛點(diǎn):

缺乏一站式的遷移服務(wù)Project-HAMi:基于k8s的算力開源復(fù)用平臺(tái)易購(gòu)算力虛擬化中間件(Heterogeneous

AI

Computing

Virtualization

Middleware,簡(jiǎn)稱HAMi,中文名哈密瓜),是一個(gè)基于云原生的開源一站式解決不同易購(gòu)算力復(fù)用功能的k8s中間件項(xiàng)目地址:/Project-HAMi/HAMiProject-HAMi:架構(gòu)圖Project-HAMi:架構(gòu)圖$cat<<EOF|kubectlapply-f

-apiVersion:

v1kind:Podmetadata:name:

gpu-pod12spec:containers:-name:

ubuntu-containerimage:ubuntu:18.04command:["bash","-c","sleep

86400"]resources:limits:/gpu:2#requesting1

vGPUs/gpumem:

10240/gpucores:

30參數(shù)描述:/gpu:

指定容器中可見的GPU個(gè)數(shù)./gpumem:

指定每個(gè)GPU的顯存上限/gpucores:

指定每個(gè)GPU使用的算力比例GPU

NodeGPU032G

idleGPU132G

idleGPU

NodeGPU

022G

idleGPU

122G

idle10GUsed10GUsed使用案例——英偉達(dá)使用案例——寒武紀(jì)$cat<<EOF|kubectlapply-f

-spec:containers:-

…resources:limits:/vmlu:1#requesting1

vGPUs/mlu.smlu.vmemory:20#request20%device

memory/mlu.smlu.vcore:10#request10%

ofcompute

corese/vmlu:SpecifiesthenumberofvisibleMLUsinthe

container./mlu.smlu.vmemory:SpecifiesthememorysizetouseforeachMLU.Ifnotset,thdefaultistouseallavailableMLU

memory./gpucores:Specifythepercentageusedforeach

MLU.hostcontainer使用案例——天數(shù)智芯$cat<<EOF|kubectlapply-f

-spec:containers:-

…resources:limits:iluvatar.ai/gpu:1iluvatar.ai/vcuda-core:50iluvatar.ai/vcuda-memory:64#eachunitrepresents256Mdevice

memoryiluvatar.ai/gpu:SpecifiesthenumberofvisibleiluvatarGPUsinthe

container.iluvatar.ai/vcuda-memory:SpecifiesthememorysizetouseforeachiluvatarGPU.Ifnotset,thedefaultistouseallavailabledevice

memory.iluvatar.ai/vcuda-core:SpecifythepercentageusedforeachIluvatar

GPU.hostcontainer使用案例——華為升騰910B$cat<<EOF|kubectlapply-f

-spec:containers:-

…resources:limits:/Ascend910:

1/Ascend910-memory:

16384host/ascend910:SpecifiesthenumberofvisibleAscend910sinthe

container./ascend910-memory:SpecifiesthememorysizetouseforeachAscend910s.Ifnotset,thedefaultistouseallavailabledevice

memory.containerProject-HAMi:指定設(shè)備種類Project-HAMi

算力超售與搶占顯存超售支持:通過配置

’deviceMemoryScaling>1’

即可激活虛擬顯存,例如在部署時(shí)指定`deviceMemoryScaling=3`就會(huì)把每張卡的顯存大小擴(kuò)大到3倍Project-HAMi

顯存超售可以通過指定/gpucores來達(dá)到算力隔離的效果kind:

Pod…spec:containers:-

…resources:limits:/gpu:1#requesting1

vGPUs/gpucores:100#request100%compute

coreskind:

Pod…spec:containers:-

…resources:limits:/gpu:1#requesting1

vGPUs/gpucores:60#request60%compute

coresProject-HAMi

算力隔離CCooppyyrriigghhtt??2200220144PPaararaddigigmmAAlllRliRgihgthstRseRseesrevervde.d.17訓(xùn)練推理Test

Environment:GPUType:Tesla

V100GPUNum:1Kubernetes

Version:v1.12.9Docker

Version:v18.09.1Test

Instance:nvidia-device-plugin:基于Nvidia源生device

plugin在1塊GPU上運(yùn)行1個(gè)任務(wù)/服務(wù)vGPU-device-plugin:基于第四范式vGPU

device

plugin在1塊vGPU上運(yùn)行1個(gè)任務(wù)/服務(wù)vGPU-device-plugin(virtual

device

memory):基于第四范式vGPU

device

plugin在2塊vGPU上運(yùn)行2個(gè)任務(wù)/服務(wù)nvidia-device-pluginProject-HAMi

性能Copyright?20204ParadigmAllRights

Reserved.vGPUNodesvGPUmonitoringsystemVolumeProject-HAMi

監(jiān)控接口Copyright?20204ParadigmAllRights

Reserved.實(shí)踐案例:第四范式推理加速框架SLX

LLM第四范式發(fā)布了大模型推理框架SLXLLM以及推理加速卡SLX,在二者聯(lián)合優(yōu)化下,在文本生成類場(chǎng)景中,大模型推理性能提升10倍。例如在使用4張80G

GPU對(duì)72B大模型進(jìn)行推理測(cè)試中,相較于使用vLLM,第四范式使用SLXLLM+SLX的方案??赏瑫r(shí)運(yùn)行任務(wù)數(shù)量從4增至40??杉嫒軹GI、FastLLM、vLLM等主流大模型推理框架大模型推理性能提升約1-8倍。Copyright?20204ParadigmAllRights

Reserved.實(shí)踐案例:第四范式推理加速框架SLX

LLM通常來說,一個(gè)完整的大模型商業(yè)產(chǎn)品并不僅僅包含一個(gè)生成器,而是由一個(gè)生成器和若干的小模型組成,以第四范式的模型產(chǎn)品【式說】為例,其中包含了3部分,一個(gè)負(fù)責(zé)前處理的embedding模型,一個(gè)生成器generator,一個(gè)負(fù)責(zé)輸出的validator。考慮到原生k8s不支持設(shè)備復(fù)用的問題,最終的部署方案如圖所示emb geneddi eratng orvalidatorCPUGPU0GPU1GPU2GPU3GPU4GPU5GPU6GPU7Copyright?20204ParadigmAllRights

Reserved.GPU0實(shí)踐案例:第四范式推理加速框架SLX

LLM使用哈密瓜可以將這3個(gè)組件部署在一張GPU上,因?yàn)槠渲兄挥幸粋€(gè)大模型生成器,embedding和validator均為小模型,以如此部署并不會(huì)降低性能,不僅如此,這種部署方式可以在只使用一張GPU的場(chǎng)合部署成功emb geneddi eratngorGPU1GPU2GPU3emb geneddi eratenmgb goerneddi eratemb geneddi eratng orvalidatorvalidatorvalidatorvalidatorRoadmap2025.06Supportintel/AMDGPU

deviceSupport

NPU2024.

52025.1integrated

gpu-operatorRichobservability

support*DRA

Support2024.6SupportFlexiblescheduling

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論