![人工智能 計(jì)算中心 計(jì)算能力評(píng)估 征求意見稿_第1頁](http://file4.renrendoc.com/view9/M01/1D/36/wKhkGWcjbFiAXbPwAAEzhgG5Hp8176.jpg)
![人工智能 計(jì)算中心 計(jì)算能力評(píng)估 征求意見稿_第2頁](http://file4.renrendoc.com/view9/M01/1D/36/wKhkGWcjbFiAXbPwAAEzhgG5Hp81762.jpg)
![人工智能 計(jì)算中心 計(jì)算能力評(píng)估 征求意見稿_第3頁](http://file4.renrendoc.com/view9/M01/1D/36/wKhkGWcjbFiAXbPwAAEzhgG5Hp81763.jpg)
![人工智能 計(jì)算中心 計(jì)算能力評(píng)估 征求意見稿_第4頁](http://file4.renrendoc.com/view9/M01/1D/36/wKhkGWcjbFiAXbPwAAEzhgG5Hp81764.jpg)
![人工智能 計(jì)算中心 計(jì)算能力評(píng)估 征求意見稿_第5頁](http://file4.renrendoc.com/view9/M01/1D/36/wKhkGWcjbFiAXbPwAAEzhgG5Hp81765.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1GB/TXXXXX—XXXX人工智能計(jì)算中心計(jì)算能力評(píng)估本文件規(guī)定了人工智能計(jì)算中心計(jì)算能力的評(píng)價(jià)指標(biāo),給出了評(píng)估方法。本文件適用于人工智能計(jì)算中心計(jì)算能力的評(píng)估,也為人工智能計(jì)算中心規(guī)劃、設(shè)計(jì)、建設(shè)和運(yùn)維提供參考依據(jù)。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T41867—2022信息技術(shù)人工智能術(shù)語信息技術(shù)GB/T42018―2022信息技術(shù)人工智能平臺(tái)計(jì)算資源規(guī)范信息技術(shù)GB/TAAAAA-AAAA人工智能服務(wù)器系統(tǒng)性能測試方法人工智能GB40879―2021數(shù)據(jù)中心能效限定值及能效等級(jí)GB50174―2017數(shù)據(jù)中心設(shè)計(jì)規(guī)范3術(shù)語和定義GB/T41867-2022和GB/T42018-2022界定的以及下列術(shù)語和定義適用于本文件。為了方便使用,以下重復(fù)列出了GB/T41867-2022和GB/T42018-2022中的某些術(shù)語和定義。3.1人工智能計(jì)算中心artificialintelligencecomputingcenters智算中心一種能夠?yàn)槎嘤脩籼峁┤斯ぶ悄苡?jì)算服務(wù)、數(shù)據(jù)容納的結(jié)構(gòu)或結(jié)構(gòu)組。注1:人工智能計(jì)算中心使用信息技術(shù)、電信網(wǎng)絡(luò)設(shè)備提供人工智能計(jì)算任務(wù)中涉及的數(shù)據(jù)存儲(chǔ)、處理、遷移和注2:人工智能計(jì)算中心包括計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等硬件設(shè)備,以及算力調(diào)度管理組件、深度學(xué)習(xí)框架、加速庫等3.2性能performance人工智能計(jì)算中心運(yùn)行計(jì)算任務(wù)時(shí),可被測量的特性。注:性能可基于一個(gè)或多個(gè)參數(shù)(如運(yùn)行時(shí)間、能耗、吞吐率、有效等)的測量或計(jì)算獲得,以表征在某設(shè)備(組)中運(yùn)行的某技術(shù)過程3.3計(jì)算節(jié)點(diǎn)computingnode2GB/TXXXXX—XXXX人工智能計(jì)算中心實(shí)施人工智能計(jì)算的部件。注:計(jì)算節(jié)點(diǎn)一般是人工智能加速器、人工智能加速卡、人工智能服3.4人工智能計(jì)算能力artificialintelligencecomputingcapability執(zhí)行人工智能任務(wù)或支持人工智能運(yùn)算功能的能力。4縮略語下列縮略語適用于本文件:AI:人工智能(ArtificialIntelligence)BF16:布瑞恩半精度浮點(diǎn)數(shù)(BrainFloating-point)FLOPS:每秒浮點(diǎn)運(yùn)算次數(shù)(FloatingPointOperationsPerSecond)FP16:半精度浮點(diǎn)數(shù)(Half-precisionFloating-pointformat)FP32:單精度浮點(diǎn)數(shù)(Single-precisionFloating-pointformat)FP64:雙精度浮點(diǎn)數(shù)(Double-precisionFloating-pointformat)INT8:8位整型數(shù)(8-bitInteger)I/O:輸入輸出(Input/Output)IOPS:每秒輸入輸出量(Input/OutputPerSecond)MTTR:平均故障恢復(fù)時(shí)長(MeanTimeToRepair)MTBF:平均無故障工作時(shí)長(MeanTimeBetweenFailures)5總則5.1評(píng)估對(duì)象智算中心滿足高性能和高可靠的人工智能計(jì)算需求,為多個(gè)用戶提供人工智能計(jì)算、數(shù)據(jù)處理等服務(wù)。用戶使用人工智能計(jì)算資源時(shí),一般通過網(wǎng)絡(luò)將計(jì)算任務(wù)部署到計(jì)算中心的特定部分(節(jié)點(diǎn)或一組節(jié)點(diǎn)),在一定的計(jì)算能力配額之內(nèi),執(zhí)行計(jì)算任務(wù)。智算中心(架構(gòu)圖見圖1)的計(jì)算能力由其中包含的人工智能加速器、網(wǎng)絡(luò)互聯(lián)部件、數(shù)據(jù)存儲(chǔ)設(shè)備、相關(guān)配套軟件及應(yīng)用實(shí)現(xiàn)共同決定。3GB/TXXXXX—XXXX圖1智算中心架構(gòu)圖5.2評(píng)估內(nèi)容概述智算中心的計(jì)算能力評(píng)估涉及多方面的考量,除了硬件資源本身能提供的物理算力規(guī)模外,還包括是否能通過網(wǎng)絡(luò)互聯(lián)、任務(wù)調(diào)度、計(jì)算優(yōu)化等技術(shù)有效整合物理資源,以及是否能穩(wěn)定、持續(xù)、高效地將計(jì)算資源轉(zhuǎn)化為服務(wù)人工智能任務(wù)的計(jì)算能力。本文件定義智算中心計(jì)算能力的評(píng)估指標(biāo)體系,第5章提出計(jì)算能力評(píng)估的參考框架和分類指導(dǎo),第6章規(guī)定了各維度的評(píng)估指標(biāo),第7章規(guī)定了評(píng)估方法。5.3評(píng)估框架圖2智算中心計(jì)算能力評(píng)估框架智算中心計(jì)算能力評(píng)估主要包括三個(gè)維度,其中每個(gè)維度下又劃分了評(píng)估域,每一個(gè)評(píng)估域下包含一個(gè)或一組評(píng)估指標(biāo):a)資源規(guī)模:4GB/TXXXXX—XXXX1)資源規(guī)模是智算中心的固有屬性;2)資源規(guī)模由AI加速處理器、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備、計(jì)算節(jié)點(diǎn)可擴(kuò)展性,及基礎(chǔ)設(shè)施建設(shè)、供電需求、物理空間等屬性綜合決定;3)資源規(guī)模評(píng)估主要從算力規(guī)模、組網(wǎng)規(guī)模、存儲(chǔ)規(guī)模三個(gè)評(píng)估域進(jìn)行評(píng)估:其中,算力規(guī)模主要評(píng)估智算中心整體計(jì)算能力(如,所有計(jì)算節(jié)點(diǎn)總通用算力和所有計(jì)算節(jié)點(diǎn)總?cè)斯ぶ悄芩懔M網(wǎng)規(guī)模主要評(píng)估組網(wǎng)數(shù)量、網(wǎng)絡(luò)帶寬等能力,存儲(chǔ)規(guī)模主要評(píng)估整體存儲(chǔ)系統(tǒng)性能、存儲(chǔ)帶寬等能力。b)計(jì)算性能:1)計(jì)算性能指智算中心運(yùn)行人工智能計(jì)算任務(wù)時(shí)可被測量的特性;2)計(jì)算性能由集群網(wǎng)絡(luò)通信設(shè)計(jì)、存儲(chǔ)系統(tǒng)I/O能力、算力規(guī)模和算法優(yōu)化等因素共同決定;3)通過一組或多組任務(wù)場景下的時(shí)間效率、資源利用率和能力指標(biāo)體現(xiàn),以表征某一智算中心的計(jì)算特性和效率。c)可用性:1)可用性是指智算中心計(jì)算能力可被用戶使用的程度;2)可用性通過計(jì)算任務(wù)長穩(wěn)運(yùn)行和故障恢復(fù)兩部分指標(biāo)體現(xiàn);3)可用性由計(jì)算中心部件設(shè)備及鏈路的可靠性、AI計(jì)算中心冗余備份等系統(tǒng)可靠性設(shè)計(jì)及故障快速恢復(fù)機(jī)制等因素共同決定。5.4分類原則依據(jù)資源規(guī)模、計(jì)算性能和可用度三個(gè)維度綜合評(píng)估計(jì)算能力,智算中心劃分為5個(gè)類別(各類別對(duì)應(yīng)的計(jì)算能力指標(biāo)示例見附錄A),分別適用于不同的應(yīng)用場景和用戶需求,分類原則如下:a)Cat1:計(jì)算資源在數(shù)百TFLOPS至數(shù)PFLOPS(FP16一般用于中小型企業(yè)日常處理的基礎(chǔ)型AI任務(wù),滿足百億以下參數(shù)大模型的訓(xùn)練,如垂直領(lǐng)域的行業(yè)大模型;b)Cat2:計(jì)算資源在數(shù)十PFLOPS(FP16一般用于大型企業(yè)日常處理更復(fù)雜的AI任務(wù),滿足百億到千億區(qū)間參數(shù)大模型的訓(xùn)練,如互聯(lián)網(wǎng)智能推薦系統(tǒng)、實(shí)時(shí)數(shù)據(jù)分析和更復(fù)雜的AI模型;c)Cat3:計(jì)算資源在數(shù)百PFLOPS(FP16),主要用于地區(qū)級(jí)算力需求,其為多個(gè)企業(yè)和機(jī)構(gòu)提供共享的計(jì)算資源,滿足千億到萬億區(qū)間參數(shù)大模型的訓(xùn)練以及小規(guī)模租賃業(yè)務(wù),支持區(qū)域內(nèi)的大規(guī)模AI模型訓(xùn)練和推理需求,如城市智能交通系統(tǒng)、智慧城市管理;d)Cat4:計(jì)算資源在數(shù)EFLOPS(FP16),主要用于國家級(jí)算力需求,滿足萬億到十萬億區(qū)間參數(shù)大模型的訓(xùn)練,其用于支持全國范圍內(nèi)的大規(guī)模AI模型訓(xùn)練和應(yīng)用以及大規(guī)模租賃業(yè)務(wù),通常用于國家級(jí)重大項(xiàng)目和戰(zhàn)略性研究,如國家級(jí)語言模型訓(xùn)練、基因組研究中的AI應(yīng)用;e)Cat5:計(jì)算資源在數(shù)十EFLOPS及以上(FP16),主要用于跨區(qū)域級(jí)算力需求,滿足超十萬億參數(shù)大模型的訓(xùn)練,支持最前沿的AI研究和超大規(guī)模模型的訓(xùn)練,如超大規(guī)模語言模型、宇宙模擬中的AI應(yīng)用。6評(píng)估指標(biāo)6.1算力規(guī)模智算中心中所含所有人工智能處理器的規(guī)格算力之和。算力規(guī)模CAB的定義見公式(1),量綱和適用關(guān)系見表1:CAB=[CAINT8,CAFP16,CABF16,CAFP32](1)式中:5GB/TXXXXX—XXXXCAINT8——智算中心中所含所有人工智能加速處理器對(duì)INT8精度計(jì)算能力之和;CAFP16——智算中心中所含所有人工智能加速處理器對(duì)FP16精度計(jì)算能力之和;CABP16——智算中心中所含所有人工智能加速處理器對(duì)BF16精度計(jì)算能力之和;CAFP32——智算中心中所含所有人工智能加速處理器對(duì)FP32精度計(jì)算能力之和。注2:智算中心的規(guī)格算力應(yīng)包括所有用于人工表1智算中心規(guī)格算力量綱和適用關(guān)系注2:除上述列出的精度外,測試時(shí)可根據(jù)被測系統(tǒng)支持的范圍進(jìn)行調(diào)6.2組網(wǎng)規(guī)模智算中心組網(wǎng)中處理節(jié)點(diǎn)的數(shù)量,表示網(wǎng)絡(luò)所能連接計(jì)算部件的規(guī)模。6.3存儲(chǔ)規(guī)模智算中心存儲(chǔ)規(guī)模包括總?cè)萘亢涂捎萌萘浚篴)總存儲(chǔ)容量:存儲(chǔ)系統(tǒng)提供的存儲(chǔ)盤物理容量總和;b)可用存儲(chǔ)容量:存儲(chǔ)系統(tǒng)可用于存放數(shù)據(jù)的容量總和。6.4訓(xùn)練性能6.4.1實(shí)際吞吐率智算中心實(shí)際吞吐率(又稱有效算力)見表2,反映智算中心對(duì)特定訓(xùn)練作業(yè)的處理能力。注:對(duì)視覺類測試,單位是images/s;對(duì)自然語言處理類測試,單位是sentences/s;對(duì)自然語言生成類測試,吞吐率可為定長輸入(句中單詞或字的個(gè)數(shù))、輸出條件下,每秒處理的表2智算中心實(shí)際吞吐率AI計(jì)算中心達(dá)到訓(xùn)練任務(wù)的測試中止條件時(shí)的數(shù)據(jù)量和任務(wù)執(zhí)行時(shí)間的AI計(jì)算系統(tǒng)在給定任務(wù)集合S上,實(shí)際吞吐率與每任務(wù)基線吞吐率之比的加6.4.2訓(xùn)練時(shí)間6GB/TXXXXX—XXXX訓(xùn)練時(shí)間是智算中心在特定數(shù)據(jù)集上訓(xùn)練一個(gè)模型使其達(dá)到目標(biāo)準(zhǔn)確率或完成特定訓(xùn)練輪數(shù)時(shí)所用的時(shí)間(不包括預(yù)處理和模型加載時(shí)間),總體訓(xùn)練用時(shí)及其細(xì)化指標(biāo)見表3。表3智算中心訓(xùn)練時(shí)間第i個(gè)(i為正整數(shù))訓(xùn)期運(yùn)行用時(shí)T第j次(j為正整數(shù))驗(yàn)證用時(shí)T第j次使用驗(yàn)證數(shù)據(jù)集試運(yùn)行當(dāng)前模型,得出當(dāng)前模型準(zhǔn)模型格式轉(zhuǎn)化用時(shí)T節(jié)點(diǎn)間通信時(shí)延Ta訓(xùn)練退出可有多種充分條件。正常結(jié)束訓(xùn)練退出條件,如測試集b6.5推理性能6.5.1并發(fā)吞吐量智算中心線上系統(tǒng)服務(wù)每秒能成功處理的用戶請(qǐng)求數(shù)量,表征系統(tǒng)在高并發(fā)情況下的人工智能計(jì)算任務(wù)處理能力和性能。6.5.2推理時(shí)延智算中心多次處理推理任務(wù)或提供推理服務(wù)的間隔時(shí)間,時(shí)間單位為毫秒(ms推理任務(wù)總延時(shí)及其細(xì)化指標(biāo)見表4。表4智算中心推理時(shí)延7GB/TXXXXX—XXXX單樣本推理延時(shí)T首語素延時(shí)T下個(gè)語素平均延時(shí)Ta因作業(yè)到達(dá)模式不同,推理總延時(shí)T可能包括被測者等待作業(yè)的間隔6.6通信性能6.6.1總線平面?zhèn)鬏攷捲谕ㄟ^總線協(xié)議連接的智算中心網(wǎng)絡(luò)系統(tǒng)中,從一個(gè)計(jì)算節(jié)點(diǎn)通過總線架構(gòu)到另一個(gè)計(jì)算節(jié)點(diǎn)(包括AI加速處理器之間,或通用處理器與AI加速處理器之間)可以傳輸?shù)淖罡邤?shù)據(jù)速率,單位為bps,表征處理器之間的數(shù)據(jù)傳輸能力。注:通過總線協(xié)議以內(nèi)存語義等協(xié)議特征實(shí)現(xiàn)通信的6.6.2網(wǎng)絡(luò)平面?zhèn)鬏攷捲谥撬阒行木W(wǎng)絡(luò)系統(tǒng)中,從一個(gè)計(jì)算節(jié)點(diǎn)到另一個(gè)計(jì)算(存儲(chǔ))節(jié)點(diǎn)進(jìn)行通信的最高傳輸速率,單位為bps,表征該節(jié)點(diǎn)或服務(wù)器能夠向外發(fā)送數(shù)據(jù)的傳輸速率,是衡量網(wǎng)絡(luò)節(jié)點(diǎn)通信性能的重要指標(biāo)。注:通過網(wǎng)絡(luò)協(xié)議以網(wǎng)絡(luò)語義等協(xié)議特征實(shí)現(xiàn)通信的6.6.3總線平面?zhèn)鬏敃r(shí)延在通過總線協(xié)議連接的智算中心網(wǎng)絡(luò)系統(tǒng)中,通過總線架構(gòu)直接連接的兩個(gè)計(jì)算節(jié)點(diǎn)(包括AI加速處理器之間,或通用處理器與AI加速處理器之間)的最短通信時(shí)間和最長通信時(shí)間,單位為ms,表征總線平面節(jié)點(diǎn)間數(shù)據(jù)傳輸?shù)乃俾?,反映?jié)點(diǎn)間通信性能。6.6.4網(wǎng)絡(luò)平面?zhèn)鬏敃r(shí)延在智算中心網(wǎng)絡(luò)系統(tǒng)中,從一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)到另一個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行通信的最短時(shí)間和最長時(shí)間,單位為ms,表征網(wǎng)絡(luò)中節(jié)點(diǎn)間數(shù)據(jù)傳輸?shù)乃俾?,反映網(wǎng)絡(luò)延遲性能。6.6.5帶寬收斂比智算中心網(wǎng)絡(luò)架構(gòu)中的所有下行接口的總帶寬與所有上行接口的總帶寬的比值。帶寬收斂比反映了計(jì)算中心的網(wǎng)絡(luò)通信性能。注:帶寬收斂,是指數(shù)據(jù)報(bào)文在計(jì)算中心網(wǎng)絡(luò)架構(gòu)的傳輸過程中,由于網(wǎng)現(xiàn)無阻塞交換。在帶寬收斂時(shí),網(wǎng)絡(luò)設(shè)備會(huì)有部分端口會(huì)被擁塞6.6.6網(wǎng)絡(luò)帶寬用一截面將網(wǎng)絡(luò)劃分為對(duì)等的兩半時(shí),或者兩個(gè)節(jié)點(diǎn)數(shù)目都相同的子網(wǎng)時(shí),穿過該截面的最大傳輸率。二分網(wǎng)絡(luò)帶寬是說明沿等分網(wǎng)絡(luò)最大通信帶寬的性能指標(biāo),表征了網(wǎng)絡(luò)吞吐率能力。6.7存儲(chǔ)性能8GB/TXXXXX—XXXX智算中心存儲(chǔ)系統(tǒng)中所有存儲(chǔ)節(jié)點(diǎn)瞬時(shí)能夠處理的輸入輸出操作總次數(shù)。IOPS評(píng)估存儲(chǔ)系統(tǒng)在高負(fù)載情況下的處理能力,反映系統(tǒng)的響應(yīng)速度和效率。6.7.2存儲(chǔ)帶寬智算中心存儲(chǔ)系統(tǒng)中所有存儲(chǔ)節(jié)點(diǎn)或存儲(chǔ)設(shè)備的讀/寫帶寬進(jìn)行合成所得到的總帶寬。存儲(chǔ)帶寬表征存儲(chǔ)系統(tǒng)在特定時(shí)間內(nèi)能夠支持的最大數(shù)據(jù)傳輸速率。6.8計(jì)算效率6.8.1算力利用率單位時(shí)間內(nèi)在智算中心硬件上執(zhí)行的浮點(diǎn)運(yùn)算次數(shù)和計(jì)算設(shè)備的規(guī)格計(jì)算能力之比,用于衡量在指定負(fù)載下的軟硬件協(xié)同優(yōu)化能力,見公式7。算力利用率式中:t——單位耗時(shí),單位秒s;N——智算中心中AI加速器數(shù)量;FLOPstep——模型單步(優(yōu)化)浮點(diǎn)運(yùn)算次數(shù);FLOPStheory——AI加速器理論每秒浮點(diǎn)運(yùn)算次數(shù)。6.8.2多卡線性度智算中心開展多卡并行計(jì)算時(shí),同一計(jì)算任務(wù)從N個(gè)卡擴(kuò)展到M個(gè)卡上的平均吞吐率的比值,見公式多卡線性度(8)式中:N,M——計(jì)算任務(wù)卡數(shù)從N個(gè)擴(kuò)展到M個(gè),M>N;TPN——在N個(gè)卡上執(zhí)行計(jì)算任務(wù)的總吞吐率;TPM——在M個(gè)卡上執(zhí)行計(jì)算任務(wù)的總吞吐率。6.9長穩(wěn)運(yùn)行時(shí)間模型訓(xùn)練過程中,兩次業(yè)務(wù)中斷之間的業(yè)務(wù)運(yùn)行時(shí)長,表征系統(tǒng)的可靠性,反映系統(tǒng)在無中斷狀態(tài)下的持續(xù)工作的能力。6.10故障恢復(fù)時(shí)間6.10.1定義9GB/TXXXXX—XXXX智算中心在執(zhí)行特定任務(wù)時(shí),某部分或整體從發(fā)生故障到恢復(fù)正常運(yùn)行所需要的平均時(shí)間,見公式5和6。tF=tF2?tF1式中:TF1——發(fā)生同類故障而無法繼續(xù)執(zhí)行任務(wù)的時(shí)點(diǎn);TF2——每次故障被修復(fù),任務(wù)重新獲得執(zhí)行的時(shí)點(diǎn);M——發(fā)生同類故障的次數(shù),M≥3;TF——故障恢復(fù)用時(shí),單位為毫秒ms。6.10.2故障分級(jí)智算中心故障分為如下三個(gè)等級(jí),應(yīng)對(duì)不同等級(jí)的故障分別進(jìn)行統(tǒng)計(jì)和處理:a)警告類故障:不影響AI服務(wù)器短時(shí)間正常運(yùn)行、不會(huì)造成訓(xùn)練任務(wù)中斷的故障,如AI服務(wù)器單個(gè)風(fēng)扇故障、單個(gè)電源故障等可以快速替換部件恢復(fù)人工智能服務(wù)器正常運(yùn)行的故障;b)緊急類故障:無法保證AI服務(wù)器短時(shí)間內(nèi)正常運(yùn)行但訓(xùn)練任務(wù)尚未中斷,需盡快排查處理的故障,如AI加速器等關(guān)鍵部件溫度超過閾值,單路電力系統(tǒng)故障,環(huán)境溫濕度輕微超出閾值等經(jīng)過處理可快速恢復(fù)且過程中沒有造成訓(xùn)練中斷或者人工智能服務(wù)器異常宕機(jī)的故障;c)嚴(yán)重類故障:造成AI服務(wù)器宕機(jī)或訓(xùn)練任務(wù)中斷的故障。如OS宕機(jī)、AI加速器掉卡、網(wǎng)絡(luò)端口異常斷開、存儲(chǔ)系統(tǒng)無法正常讀寫、電力中斷、環(huán)境溫濕度大幅超出閾值無法支持AI服務(wù)器正常運(yùn)行等造成訓(xùn)練異常終止的故障。6.11計(jì)算可用度計(jì)算資源可用度是智算中心的正常運(yùn)行時(shí)間占總運(yùn)行時(shí)間的百分比??捎枚缺碚髁讼到y(tǒng)能夠正常運(yùn)行并提供服務(wù)的程度。見如下公式:計(jì)算可用度?100%(7)式中:T0——平均無故障工作時(shí)間;T1——平均故障恢復(fù)時(shí)間。7評(píng)估方法7.1總則第7章所規(guī)定的評(píng)估方法,宜使用AISBench-AICC工具進(jìn)行實(shí)施,工具說明和使用流程見附錄B。7.2算力規(guī)模智算中心的算力規(guī)模,應(yīng)按以下方法測量評(píng)估:a)對(duì)任一服務(wù)器單機(jī);b)關(guān)閉系統(tǒng)節(jié)能設(shè)置,保持所有核心同時(shí)運(yùn)行;c)核間通信帶寬不低于測試負(fù)載容量;GB/TXXXXX—XXXXd)按表1的規(guī)定,定義不同精度下,特定尺寸的矩陣乘法(元素為0或非0),并估計(jì)完成1次矩陣乘加所需計(jì)算量,矩陣尺寸應(yīng)能完全使用核尺寸;e)使用單核執(zhí)行矩陣乘法,若干次獲得平均時(shí)間;f)求單核在特定精度下,單次矩陣乘的計(jì)算量與平均時(shí)間的商,作為單核標(biāo)稱計(jì)算能力;g)累計(jì)服務(wù)器內(nèi)所有該精度單核標(biāo)稱計(jì)算能力,作為單服務(wù)器特定精度標(biāo)稱計(jì)算能力;h)累計(jì)所有服務(wù)器,在該精度下的標(biāo)稱計(jì)算能力。7.3組網(wǎng)規(guī)模智算中心的組網(wǎng)規(guī)模指標(biāo),應(yīng)按以下方法測量評(píng)估:a)準(zhǔn)備必要的網(wǎng)絡(luò)拓?fù)錅y試工具或軟件;b)使用網(wǎng)絡(luò)拓?fù)錅y試工具測量網(wǎng)絡(luò)節(jié)點(diǎn)的數(shù)量,包括服務(wù)器、交換機(jī)、路由器等設(shè)備的數(shù)量。7.4存儲(chǔ)規(guī)模智算中心的存儲(chǔ)規(guī)模指標(biāo),應(yīng)按以下方法測量評(píng)估:a)確定存儲(chǔ)集群中所有存儲(chǔ)設(shè)備的總物理容量,統(tǒng)計(jì)所有存儲(chǔ)盤的物理容量總和,記錄為存儲(chǔ)系統(tǒng)的裸容量;b)考慮存儲(chǔ)配置的冗余和數(shù)據(jù)保護(hù)機(jī)制(如RAID),計(jì)算存儲(chǔ)系統(tǒng)的可用容量,即實(shí)際可用于數(shù)據(jù)存放的容量。7.5訓(xùn)練性能7.5.1實(shí)際吞吐率智算中心的訓(xùn)練任務(wù)的實(shí)際吞吐率應(yīng)按照GB/TAAAAA-AAAA中關(guān)于AI服務(wù)器集群訓(xùn)練過程實(shí)際吞吐率的測量方法評(píng)估。7.5.2訓(xùn)練時(shí)間智算中心訓(xùn)練相關(guān)用時(shí)應(yīng)按照GB/TAAAAA-AAAA中關(guān)于AI服務(wù)器集群訓(xùn)練相關(guān)用時(shí)的測量方法評(píng)估。7.6推理性能7.6.1并發(fā)吞吐量智算中心的并發(fā)吞吐量指標(biāo),應(yīng)按以下方法測量評(píng)估:a)編寫測試腳本模擬實(shí)際工作負(fù)載或直接使用系統(tǒng)服務(wù)核心代碼段作為負(fù)載;b)設(shè)置測試時(shí)間t需大于一個(gè)請(qǐng)求的完整響應(yīng)時(shí)間,從較低的并發(fā)數(shù)開始,逐漸增加并發(fā)用戶數(shù)或請(qǐng)求頻率,觀察系統(tǒng)響應(yīng);c)記錄各并發(fā)量級(jí)測試階段的關(guān)鍵性能指標(biāo),如總吞吐量s等;d)計(jì)算各并發(fā)量級(jí)的吞吐量,選擇其中的最大值作為系統(tǒng)服務(wù)并發(fā)吞吐量。7.6.2推理時(shí)延智算中心的推理時(shí)延應(yīng)按照GB/TAAAAA-AAAA中關(guān)于AI服務(wù)器集群推理時(shí)間測量方法評(píng)估。7.7通信性能智算中心的通信性能指標(biāo),應(yīng)按以下表7所示方法測量評(píng)估。GB/TXXXXX—XXXX表4通信傳輸效率測量方法接系統(tǒng)內(nèi)的AI加速處理器,選取n對(duì)同一總線協(xié)議連接系統(tǒng)內(nèi)通用處理器與b)對(duì)每一組采樣處理器使用帶寬測量工具進(jìn)c)計(jì)算m對(duì)AI加速處理器之間帶寬的均值作為AI加速處理器之間的總線平面?zhèn)鬏攷?;?jì)算n對(duì)通用處理器和AI加速處理器之間帶寬的均值作為通用b)使用網(wǎng)絡(luò)性能測試工具進(jìn)行帶寬測量,記錄節(jié)點(diǎn)間的最大傳輸接系統(tǒng)內(nèi)的AI加速處理器,選取n對(duì)同一總線協(xié)議連接系統(tǒng)內(nèi)通用處理器與b)對(duì)每一組采樣處理器使用時(shí)延測量工具測量最短時(shí)間和最),對(duì)點(diǎn)時(shí)延的測量結(jié)果,用于表征網(wǎng)絡(luò)節(jié)點(diǎn)間b)使用帶寬測量工具獲得每臺(tái)服務(wù)器與匯聚交換機(jī)間的上行帶寬,與每臺(tái)c)計(jì)算所有服務(wù)器下行帶寬之和與上行帶寬之和,并計(jì)算二者的比值得到7.8存儲(chǔ)性能智算中心的存儲(chǔ)性能指標(biāo),應(yīng)按以下表7所示方法測量評(píng)估。GB/TXXXXX—XXXX表5存儲(chǔ)性能指標(biāo)測量方法b)使用IOPS測試工具測量存儲(chǔ)系統(tǒng)I/O性能,執(zhí)行I/c)進(jìn)行m(3≤m≤10)次I/O測試,記錄測b)使用帶寬測試工具測量帶寬,執(zhí)行數(shù)據(jù)傳7.9計(jì)算效率7.9.1算力利用率智算中心的算力利用率指標(biāo),應(yīng)按以下方法測量評(píng)估:a)使用性能測試工具,向計(jì)算中心提交一系列模型計(jì)算任務(wù),確保任務(wù)充分覆蓋所有計(jì)算資源;b)監(jiān)控計(jì)算集群在任務(wù)執(zhí)行過程中的資源使用情況,包括CPU、GPU、內(nèi)存等;c)記錄每個(gè)計(jì)算任務(wù)的實(shí)際執(zhí)行時(shí)間和資源使用量(浮點(diǎn)運(yùn)算次數(shù));d)統(tǒng)計(jì)該計(jì)算中心的卡數(shù)和單卡芯片理論算力;e)計(jì)算算力利用率。7.9.2多卡線性度智算中心的多卡線性度指標(biāo),應(yīng)按以下方法測量評(píng)估:a)確定測試的AI加速器數(shù)量與型號(hào),配置測試環(huán)境,確保一致性和穩(wěn)定性;b)選擇合適的測試工具和工作負(fù)載,如大模型訓(xùn)練任務(wù),分別在單卡、多卡環(huán)境中運(yùn)行相同的任務(wù);c)記錄不同卡數(shù)量下的性能數(shù)據(jù),如計(jì)算時(shí)間、吞吐量等,收集每種配置的運(yùn)行結(jié)果;d)計(jì)算多卡相對(duì)于單卡性能的提升比例,繪制性能提升曲線,分析線性度。7.10長穩(wěn)運(yùn)行時(shí)間智算中心的長穩(wěn)運(yùn)行時(shí)間指標(biāo),應(yīng)按以下方法測量評(píng)估:a)啟動(dòng)計(jì)算中心工作一段時(shí)間進(jìn)行數(shù)據(jù)收集,通過故障記錄系統(tǒng)或人工記錄等方式,統(tǒng)計(jì)業(yè)務(wù)中斷的發(fā)生時(shí)間、故障類型和恢復(fù)時(shí)間;b)對(duì)于每次業(yè)務(wù)中斷,記錄其發(fā)生時(shí)間與上一個(gè)業(yè)務(wù)中斷恢復(fù)時(shí)間之間的間隔;c)計(jì)算長穩(wěn)運(yùn)行時(shí)間。7.11故障恢復(fù)時(shí)間智算中心的平均故障恢復(fù)時(shí)間指標(biāo),應(yīng)按以下方法測量評(píng)估:a)明確故障范圍與類型,如服務(wù)器硬件故障、網(wǎng)絡(luò)中斷、數(shù)據(jù)損壞、電力中斷、軟件故障等;GB/TXXXXX—XXXXb)啟動(dòng)計(jì)算中心工作一段時(shí)間進(jìn)行數(shù)據(jù)收集,通過故障記錄系統(tǒng)或人工記錄等方式,監(jiān)測并記錄故障的發(fā)生時(shí)間、故障類型和恢復(fù)時(shí)間;c)計(jì)算所有故障恢復(fù)時(shí)間的平均值,作為故障恢復(fù)時(shí)間。7.12計(jì)算可用度智算中心的計(jì)算可用度指標(biāo),應(yīng)在長穩(wěn)運(yùn)行時(shí)間和故障恢復(fù)時(shí)間得出評(píng)估結(jié)果后,按照6.11定義計(jì)算得出。GB/TXXXXX—XXXX各類型智算中心的計(jì)算能力指標(biāo)示例按照計(jì)算能力評(píng)估指標(biāo),各類型智算中心對(duì)應(yīng)的量化要求如表A.1所示:表A.1計(jì)算能力指標(biāo)要求------------------------------------------------GB/TXXXXX—XXXX(資料性)智算中心計(jì)算能力評(píng)估工具(AISBench-AICC)示例B.1工具說明智算中心計(jì)算能力評(píng)估工具套件(AISBench-AICC)是人工智能計(jì)算系統(tǒng)性能測試工具。AISBench-AICC適用于大型人工智能服務(wù)器集群、智算中心的規(guī)模、性能、可用性等指標(biāo)評(píng)估,兼容主流人工智能加速器類型,如CPU、GPU、NPU等,兼容主流深度學(xué)習(xí)軟件框架。AISBench-AICC是本標(biāo)準(zhǔn)的配套評(píng)估工具。B.2工具使用流程AISBench-AICC使用流程見圖B-1:其中:a)由測試方(測試機(jī)構(gòu))與被測方確立測試項(xiàng);b)測試方在本地測試數(shù)據(jù)庫注冊(cè)測試項(xiàng),并生成測試ID;c)測試方返回每個(gè)測試項(xiàng)的ID給被測方,被測方編輯、調(diào)試測試代碼,在正式測試腳本中使用ID;d)被測方啟動(dòng)正式測試,測試方探知并監(jiān)視測試、獲得測試結(jié)果。GB/TXXXXX—XXXX參考文獻(xiàn)[1]Nikolaset.al.ElasticityinCloudComputing:WhatItIs,andWhatItIsNot[C].Proceedingsofthe10thInternationalConferenceonAutonomicComputing(ICAC2013).CA,US:2013.[2]Nikolaset.al.ReadyforRain?AViewfromSPECResearchontheFutureofCloudMetrics[R].TechnicalReportSPEC-RG-2016-01,SPECResearchGroup-CloudWorkingGroup,StandardPerformanceEvaluationCorporation(SPEC),2016.[3]Liu,W.;etal.SSD:SingleShotMultiBoxDetector[J].ComputerVision–ECCV2016.LNCS,vol9905.Springer.2016:21-37.[4]Ren,S.;etal.FasterR-CNN:TowardsReal-TimeObjectDetectionwithRegionProposalNetworks[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2017,39(6):1137-1149.[5]Chen,L.C;etal.RethinkingAtrousConvolutionforSemanticImageSegmentation[J].CoRRabs/1706:05587.arXiv.2017.[6]Devlin,J.;etal.BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding[J].CoRRabs/1810.04805.arXiv.2018.[7]Amodei,D.;etal.DeepSpeech2:End-to-EndSpeechRecognitioninEnglishandMandarin[C].Proceedingsofthe33rdInternationalConferenceonMachineLearning(ICML),NY,US:JMLRW&CPvol48,2015:1-28.[8]Zhou,X.;etal.EAST:AnEfficientandAccurateSceneTextDetector[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),HI,US:IEEE,2017:2642-2651.[9]Schroff,F.;etal.FaceNet:AUnifiedEmbeddingforFaceRecognitionandClustering[C].ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition(CVPR),MA,US:IEEE,2015:815-823.[10]Vaswani,A.;etal.AttentionIsAllYouNeed[J].abs/1706.03762.arXiv.2017.[11]Cheng,H.T.;etal.Wide&DeepLearningforRecommenderSystems[C].Proceedingsofthe1stWorkshoponDeepLearningforRecommenderSystems:ACM,2016:7–10.[12]Wu,Y.;etal.Google'sNeuralMachineTranslationSystem:BridgingtheGapbetweenHumanandMachineTranslation[J].CoRRabs/1609.8144.arXiv.2016.[13]GB/T25000.22-2019系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評(píng)價(jià)(SQUARE)第22部分:使用質(zhì)量測量[S][14]GB/T17166-2019能源審計(jì)技術(shù)通則[S][15]Giladi,R.andAhituv,N.;SPECasaPerformanceEvaluationMeasure[J].Computer,1995,[16]GB/T41867—2022信息技術(shù)人工智能術(shù)語[S][17]GB/T42018—2022信息技術(shù)人工智能平臺(tái)計(jì)算資源規(guī)范[S][18]TouvronH,La
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球及中國半導(dǎo)體用水溶性助焊劑行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國第一人稱視角射擊游戲行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國HDPE模制容器行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 2025年全球及中國茂金屬線型低密度聚乙烯樹脂行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報(bào)告
- 合同起草范本
- 汽車自駕租賃合同
- 房屋委托代管合同
- 2025贈(zèng)與合同公證書
- 維修工聘用合同范本
- 收獲成長迎接新起點(diǎn)主題班會(huì)
- 2024年江西省南昌市南昌縣中考一模數(shù)學(xué)試題(含解析)
- 繪本的分鏡設(shè)計(jì)-分鏡的編排
- 查干淖爾一號(hào)井環(huán)評(píng)
- 體檢中心分析報(bào)告
- 人教版初中英語七八九全部單詞(打印版)
- 臺(tái)球運(yùn)動(dòng)中的理論力學(xué)
- 最高人民法院婚姻法司法解釋(二)的理解與適用
- 關(guān)于醫(yī)保應(yīng)急預(yù)案
- 新人教版五年級(jí)上冊(cè)數(shù)學(xué)應(yīng)用題大全doc
- 2022年版義務(wù)教育勞動(dòng)課程標(biāo)準(zhǔn)學(xué)習(xí)培訓(xùn)解讀課件筆記
- 2022年中國止血材料行業(yè)概覽:發(fā)展現(xiàn)狀對(duì)比分析研究報(bào)告(摘要版) -頭豹
評(píng)論
0/150
提交評(píng)論