版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
準(zhǔn)T/CESAXXXX—2024人工智能模型即服務(wù)(MaaS)性能規(guī)范Artificialintelligence―ModelasaService(MaaS)performancespecification征求意見稿2024-XX-XX發(fā)布2024-XX-XX實(shí)施中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)發(fā)布 V 1 1 1 1 1 2 2 4 5 5 V傳輸帶寬以及時(shí)延等多個(gè)可擴(kuò)展性的關(guān)鍵性能維度,擬由——第2部分:MaaS基礎(chǔ)設(shè)施。目的在于規(guī)范指導(dǎo)MaaS基礎(chǔ)設(shè)施涉及的各類性能評(píng)價(jià)指標(biāo)及測試方——第3部分:模型開發(fā)平臺(tái)。目的在于規(guī)范指導(dǎo)模型開發(fā)平臺(tái)涉及的各類各類性能評(píng)價(jià)指標(biāo)及測1GEMM:通用矩陣乘法(GeneralIOPS:每秒的輸入輸出量(Input/OutputPerRDMA:遠(yuǎn)程直接內(nèi)存訪問(RemoteDirectMemoryAD2H:設(shè)備到主機(jī)(DevicetoGDR:GPU直接遠(yuǎn)程直接內(nèi)存訪問(GPUDirGPU:圖形處理單元(GraphicsProcessiTFLOPS:每秒萬億次浮點(diǎn)運(yùn)算(TeraFloatingPointXLA:加速線性代數(shù)(Accelerate25.1概述模型即服務(wù)(MaaS)是將模型全生命周期能力及所需要資源作為服務(wù)提供給用戶的一種智能服務(wù)模式,能夠簡化模型開發(fā)和部署流程、降低模型使用門檻、促進(jìn)模型共享和復(fù)用。MaaS主要由基礎(chǔ)設(shè)MaaS性能影響任務(wù)響應(yīng)速度、業(yè)務(wù)生產(chǎn)效率、用戶使用體驗(yàn)、模型使用成本等,是評(píng)估MaaS的2)模型開發(fā)平臺(tái)性能指標(biāo),包括訓(xùn)練性能和推理性能等3)模型服務(wù)性能,包括模型服務(wù)、生成式語言模型服務(wù)4)AI應(yīng)用開發(fā)平臺(tái)性能指標(biāo),包括AI應(yīng)用服務(wù)、生3基礎(chǔ)設(shè)施性能指標(biāo)見表1,模型開發(fā)平臺(tái)性能指標(biāo)見表2,模型服務(wù)性能指標(biāo)見表3,AI應(yīng)用開發(fā)平123進(jìn)入數(shù)據(jù)存取操作就緒狀態(tài)前顯存響應(yīng)的時(shí)4人工智能加速處理器按指定文件格式編碼視頻的5人工智能加速處理器按指定文件格式解碼視頻的12341RDMA網(wǎng)絡(luò)每秒傳輸?shù)臄?shù)據(jù)量,單位Gbi2346allgather、reduce_scattreduce_perfscatter_perf、receive等通信方式。12在相同資源環(huán)境下,不同超參數(shù)配置下的訓(xùn)練3在訓(xùn)練處理數(shù)據(jù)總量一定時(shí),人工智能加速處414231234生成式語言模型服務(wù)從接收到單個(gè)請(qǐng)求到生成并返512用戶創(chuàng)建的AI應(yīng)用服務(wù)在單位時(shí)間內(nèi)能夠345生成式AI應(yīng)用服務(wù)單位時(shí)間生成的token數(shù)量,單MaaS性能測試典型網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)見5矩陣乘算子性能測試工具,如gemmperf。b)指定測試矩陣尺寸,形成測試矩陣尺寸列表c)將數(shù)據(jù)類型列表和矩陣尺寸列表作為輸入,在人工智能加速處理6顯存性能測試工具,如memoryperf。a)指定待測文件包尺寸,形成文件包尺寸列表,選擇文件包尺寸時(shí),應(yīng)考慮常見的顯存性能測試工具,如memoryperf。a)指定待測文件包尺寸,形成文件包尺寸7b)記錄視頻解碼幀率。8a)創(chuàng)建千萬級(jí)數(shù)量小文件,多線程并發(fā)運(yùn)行海量9b)在集合通信帶寬測試工具中執(zhí)行allredud)在集合通信帶寬測試工具中執(zhí)行broadcf)在集合通信帶寬測試工具中執(zhí)行reduce_scath)在集合通信帶寬測試工具中執(zhí)行senda)確定訓(xùn)練測試任務(wù)場景,如訓(xùn)練圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使f)。業(yè)務(wù)平臺(tái)訓(xùn)練benchmark數(shù)據(jù),可與Nvia)確定訓(xùn)練測試任務(wù)場景,如訓(xùn)練圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成d)設(shè)置參數(shù),如BatchSize、數(shù)據(jù)精度、GPU是否開啟XLA等。利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使k)結(jié)合測試任務(wù),重新設(shè)置BatchSq)記錄不同參數(shù)配置下的模型開發(fā)平臺(tái)訓(xùn)練吞加速比.模型開發(fā)平臺(tái)Weakscaling測a)確定訓(xùn)練測試任務(wù)場景,如訓(xùn)練圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成模型開發(fā)平臺(tái)Strongscaling測a)確定訓(xùn)練測試任務(wù)場景,如訓(xùn)練圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成d)設(shè)置BatchSize、數(shù)據(jù)精度、GPU是否開啟XLA等參數(shù)。利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使d)設(shè)置BatchSize、數(shù)據(jù)精度、GPU是否開啟XLA等參數(shù)。利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使r)計(jì)算在訓(xùn)練處理數(shù)據(jù)量一定時(shí),計(jì)算資源增加前后的訓(xùn)練吞吐率之比,得出擴(kuò)展a)選擇測試的推理預(yù)測模型,如圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成語b)設(shè)置數(shù)據(jù)精度、GPU是否開啟XLA等參數(shù)。利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使s)計(jì)算在單位人工智能加速處理器的訓(xùn)練處理數(shù)據(jù)量一定時(shí),訓(xùn)練處理數(shù)據(jù)量和計(jì)算資源數(shù)量同時(shí)增加前后的訓(xùn)練吞吐率之比,得a)選擇測試的推理預(yù)測模型,如圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成語b)設(shè)置數(shù)據(jù)精度、GPU是否開啟XLA等參數(shù)。利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使a)選擇測試的推理預(yù)測模型,如圖像識(shí)別模型、廣告點(diǎn)擊率預(yù)測模型、文本合成語b)設(shè)置數(shù)據(jù)精度、GPU是否開啟XLA等參數(shù)。利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使g)記錄模型推理預(yù)測平均時(shí)延、90%分位時(shí)延、95%分位時(shí)延、99利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使利用率、內(nèi)存利用率、人工智能加速處理器利用率、人工智能加速處理器顯存使利用率、內(nèi)存利用率、人工
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 廣東理工學(xué)院《蔬菜栽培學(xué)總論》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東科技學(xué)院《珠寶玉石概論》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東江門幼兒師范高等??茖W(xué)校《中藥分析》2023-2024學(xué)年第一學(xué)期期末試卷
- 廣東工業(yè)大學(xué)《現(xiàn)代儀器分析技術(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 《吉蘭巴雷的護(hù)理》課件
- 課間安全教學(xué)課件
- 廣安職業(yè)技術(shù)學(xué)院《民法婚姻家庭與繼承編》2023-2024學(xué)年第一學(xué)期期末試卷
- 共青科技職業(yè)學(xué)院《報(bào)關(guān)實(shí)訓(xùn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛州職業(yè)技術(shù)學(xué)院《技術(shù)軟件應(yīng)用》2023-2024學(xué)年第一學(xué)期期末試卷
- 贛南醫(yī)學(xué)院《通風(fēng)工程課程設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2023年外交學(xué)院招聘筆試備考試題及答案解析
- 深基坑事故案例
- 中國茶文化(中文版)
- 02J401鋼梯安裝圖集
- 川省成都市2022屆高二上學(xué)期期末考試:英語
- 胸痛診治及轉(zhuǎn)診流程
- 人教版小學(xué)三年級(jí)語文上冊(cè)第三單元集體備課活動(dòng)記錄
- 消防安全操作規(guī)程
- 水利水電工程危險(xiǎn)源辨識(shí)與風(fēng)險(xiǎn)評(píng)價(jià)一覽表
- 重慶市綦江區(qū)石壕鎮(zhèn)石泉村建筑石料用灰?guī)r采礦點(diǎn)采礦權(quán)評(píng)估報(bào)告
- (完整版)成人學(xué)士學(xué)位英語考試歷年真題
評(píng)論
0/150
提交評(píng)論