人工智能 模型即服務(wù)(MaaS)性能規(guī)范(征求意見稿)_第1頁
人工智能 模型即服務(wù)(MaaS)性能規(guī)范(征求意見稿)_第2頁
人工智能 模型即服務(wù)(MaaS)性能規(guī)范(征求意見稿)_第3頁
人工智能 模型即服務(wù)(MaaS)性能規(guī)范(征求意見稿)_第4頁
人工智能 模型即服務(wù)(MaaS)性能規(guī)范(征求意見稿)_第5頁
已閱讀5頁,還剩39頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

準(zhǔn)T/CESAXXXX—2024人工智能模型即服務(wù)(MaaS)性能規(guī)范Artificialintelligence―ModelasaService(MaaS)performancespecification征求意見稿2024-XX-XX發(fā)布2024-XX-XX實(shí)施中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)發(fā)布 V 1 1 1 1 1 2 2 4 5 5 V傳輸帶寬以及時(shí)延等多個(gè)可擴(kuò)展性的關(guān)鍵性能維度,擬由——第2部分:MaaS基礎(chǔ)設(shè)施。目的在于規(guī)范指導(dǎo)MaaS基礎(chǔ)設(shè)施涉及的各類性能評(píng)價(jià)指標(biāo)及測試方——第3部分:模型開發(fā)平臺(tái)。目的在于規(guī)范指導(dǎo)模型開發(fā)平臺(tái)涉及的各類各類性能評(píng)價(jià)指標(biāo)及測1GEMM:通用矩陣乘法(GeneralIOPS:每秒的輸入輸出量(Input/OutputPerRDMA:遠(yuǎn)程直接內(nèi)存訪問(RemoteDirectMemoryAD2H:設(shè)備到主機(jī)(DevicetoGDR:GPU直接遠(yuǎn)程直接內(nèi)存訪問(GPUDirGPU:圖形處理單元(GraphicsProcessiTFLOPS:每秒萬億次浮點(diǎn)運(yùn)算(TeraFloatingPointXLA:加速線性代數(shù)(Accelerate25.1概述模型即服務(wù)(MaaS)是將模型全生命周期能力及所需要資源作為服務(wù)提供給用戶的一種智能服務(wù)模式,能夠簡化模型開發(fā)和部署流程、降低模型使用門檻、促進(jìn)模型共享和復(fù)用。MaaS主要由基礎(chǔ)設(shè)MaaS性能影響任務(wù)響應(yīng)速度、業(yè)務(wù)生產(chǎn)效率、用戶使用體驗(yàn)、模型使用成本等,是評(píng)估MaaS的2)模型開發(fā)平臺(tái)性能指標(biāo),包括訓(xùn)練性能和推理性能等3)模型服務(wù)性能,包括模型服務(wù)、生成式語言模型服務(wù)4)AI應(yīng)用開發(fā)平臺(tái)性能指標(biāo),包括AI應(yīng)用服務(wù)、生3基礎(chǔ)設(shè)施性能指標(biāo)見表1,模型開發(fā)平臺(tái)性能指標(biāo)見表2,模型服務(wù)性能指標(biāo)見表3,AI應(yīng)用開發(fā)平123進(jìn)入數(shù)據(jù)存取操作就緒狀態(tài)前顯存響應(yīng)的時(shí)4人工智能加速處理器按指定文件格式編碼視頻的5人工智能加速處理器按指定文件格式解碼視頻的12341RDMA網(wǎng)絡(luò)每秒傳輸?shù)臄?shù)據(jù)量,單位Gbi2346allgather、reduce_scattreduce_perfscatter_perf、receive等通信方式。12在相同資源環(huán)境下,不同超參數(shù)配置下的訓(xùn)練3在訓(xùn)練處理數(shù)據(jù)總量一定時(shí),人工智能加速處414231234生成式語言模型服務(wù)從接收到單個(gè)請(qǐng)求到生成并返512用戶創(chuàng)建的AI應(yīng)用服務(wù)在單位時(shí)間內(nèi)能夠345生成式AI應(yīng)用服務(wù)單位時(shí)間生成的token數(shù)量,單MaaS性能測試典型網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)見5矩陣乘算子性能測試工具,如gemmperf。b)指定測試矩陣尺寸,形成測試矩陣尺寸列表c)將數(shù)據(jù)類型列表和矩陣尺寸列表作為輸入,在人工智能加速處理6顯存性能測試工具,如memoryperf。a)指定待測文件包尺寸,形成文件包尺寸列表,選擇文件包尺寸時(shí),應(yīng)考慮常見的顯存性能測試工具,如memoryperf。a)指定待測文件包尺寸,形成文件包尺寸7b)記錄視頻解碼幀率。8a)創(chuàng)建千萬級(jí)數(shù)量小文件,多線程并發(fā)運(yùn)行海量9b)在集合通信帶寬測試工具中執(zhí)行allredud)在集合通信帶寬測試工具中執(zhí)行broadcf)在集合通信帶寬測試工具中執(zhí)行reduce_scath)在集合通信帶寬測試工具中執(zhí)行senda)確定訓(xùn)練測試任務(wù)場景,如訓(xùn)練圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使f)。業(yè)務(wù)平臺(tái)訓(xùn)練benchmark數(shù)據(jù),可與Nvia)確定訓(xùn)練測試任務(wù)場景,如訓(xùn)練圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成d)設(shè)置參數(shù),如BatchSize、數(shù)據(jù)精度、GPU是否開啟XLA等。利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使k)結(jié)合測試任務(wù),重新設(shè)置BatchSq)記錄不同參數(shù)配置下的模型開發(fā)平臺(tái)訓(xùn)練吞加速比.模型開發(fā)平臺(tái)Weakscaling測a)確定訓(xùn)練測試任務(wù)場景,如訓(xùn)練圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成模型開發(fā)平臺(tái)Strongscaling測a)確定訓(xùn)練測試任務(wù)場景,如訓(xùn)練圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成d)設(shè)置BatchSize、數(shù)據(jù)精度、GPU是否開啟XLA等參數(shù)。利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使d)設(shè)置BatchSize、數(shù)據(jù)精度、GPU是否開啟XLA等參數(shù)。利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使r)計(jì)算在訓(xùn)練處理數(shù)據(jù)量一定時(shí),計(jì)算資源增加前后的訓(xùn)練吞吐率之比,得出擴(kuò)展a)選擇測試的推理預(yù)測模型,如圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成語b)設(shè)置數(shù)據(jù)精度、GPU是否開啟XLA等參數(shù)。利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使s)計(jì)算在單位人工智能加速處理器的訓(xùn)練處理數(shù)據(jù)量一定時(shí),訓(xùn)練處理數(shù)據(jù)量和計(jì)算資源數(shù)量同時(shí)增加前后的訓(xùn)練吞吐率之比,得a)選擇測試的推理預(yù)測模型,如圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成語b)設(shè)置數(shù)據(jù)精度、GPU是否開啟XLA等參數(shù)。利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使a)選擇測試的推理預(yù)測模型,如圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成語b)設(shè)置數(shù)據(jù)精度、GPU是否開啟XLA等參數(shù)。利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使g)記錄模型推理預(yù)測平均時(shí)延、90%分位時(shí)延、95%分位時(shí)延、99利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使利用率、內(nèi)存利用率、人工

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論