2023人工智能芯片 計算機視覺訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測試指標(biāo)與測試方法_第1頁
2023人工智能芯片 計算機視覺訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測試指標(biāo)與測試方法_第2頁
2023人工智能芯片 計算機視覺訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測試指標(biāo)與測試方法_第3頁
2023人工智能芯片 計算機視覺訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測試指標(biāo)與測試方法_第4頁
2023人工智能芯片 計算機視覺訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測試指標(biāo)與測試方法_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

人工智能芯片計算機視覺訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測試指標(biāo)與測試方法目??次前??言 IV范圍 1規(guī)范性引用文件 1術(shù)語和定義 1縮略語 1測試說明 1測試環(huán)境及流程 1測試對象 1測試內(nèi)容 2測試指標(biāo) 2基本技術(shù)規(guī)格 2功能 3性能 3軟件生態(tài) 4測試方法 5基本技術(shù)規(guī)格 5功能 5性能 6軟件生態(tài) 7附 錄 A(規(guī)范性)算子參數(shù)配置 9A.1算子性能評測配置參數(shù) 9附 錄 B(規(guī)范性)算子及模型列表 12算子列表 12長尾算子列表 12模型列表 13III人工智能芯片計算機視覺訓(xùn)練用云側(cè)深度學(xué)習(xí)芯片測試指標(biāo)與測試方法范圍規(guī)范性引用文件(包括所有的修改單適用于本文件。T/CESA1119—2020人工智能芯片 面向云側(cè)的深度學(xué)習(xí)芯片測試指標(biāo)與測試方法術(shù)語和定義T/CESA1119—2020界定的以及下列術(shù)語和定義適用于本文件。計算機視覺computervision一種具備獲取、處理和解釋視覺數(shù)據(jù)能力的功能單元。[來源:ISO/IECDIS22989:2021,3.1.11,有修改]縮略語下列縮略語適用于本文件。IPS:每秒處理的圖片數(shù)(ImagesPerSecond)API:應(yīng)用編程接口(ApplicationProgrammingInterface)測試說明測試環(huán)境及流程本文件的測試環(huán)境及測試流程均應(yīng)符合T/CESA1119—2020的相關(guān)要求。測試對象本文件的測試對象是含有計算機視覺推理用云側(cè)深度學(xué)習(xí)芯片(卡/棒)的控制主機:指以芯片/卡/1棒形態(tài)進(jìn)行使用的深度學(xué)習(xí)芯片,如GPU、FPGA以及ASIC等人工智能芯片(卡/棒),可通過PCIE、USB等接口與測試主機連接。測試內(nèi)容計算機視覺訓(xùn)練芯片的測評指標(biāo),主要包括基本技術(shù)規(guī)格、功能、性能、生態(tài)與開放性等部分,在依據(jù)本文件進(jìn)行測試的過程中:涉及功能、性能等相關(guān)指標(biāo)將通過第三方測試工具進(jìn)行評測;生態(tài)與開放性部分的指標(biāo)將采信被測對象標(biāo)稱值及其他技術(shù)信息,作為先進(jìn)性的參考。測試指標(biāo)基本技術(shù)規(guī)格算力

············································(1)表1算力相關(guān)指標(biāo)與參考值序號指標(biāo)名稱指標(biāo)內(nèi)容參考值1FP16算力(TFLOPS)16bit(1bitsign+5bitexponent+10bitfraction)浮點數(shù)據(jù)的計算能力2FP32算力(TFLOPS)32bit(1bitsign+8bitexponent+23bitfraction)浮點數(shù)據(jù)的計算能力3INT8算力(TOPS)8bit整型數(shù)據(jù)的計算能力4INT16算力(TOPS)16bit整型數(shù)據(jù)的計算能力5BF16算力(TFLOPS)16bit(1bitsign+8bitexponent+7bitfraction)浮點數(shù)據(jù)的計算能力6TF32算力(TFLOPS)19bit(1bitsign+8bitexponent+10bitfraction)浮點數(shù)據(jù)的計算能力內(nèi)存規(guī)格內(nèi)存是訓(xùn)練芯片的片下存儲器(顯存),而不是指主機存儲器。表2內(nèi)存相關(guān)指標(biāo)與參考值序號指標(biāo)名稱指標(biāo)內(nèi)容參考值1容量(GB)內(nèi)存容量用字節(jié)數(shù)進(jìn)行標(biāo)稱2帶寬(GB/s)芯片的運算單元訪問片下存儲器的帶寬通信帶寬表3通信帶寬相關(guān)指標(biāo)與參考值序號指標(biāo)名稱指標(biāo)內(nèi)容參考值1主機-設(shè)備帶寬(GB/s)訓(xùn)練芯片與主機之間的通信帶寬2T/CESAXXXX—202X2節(jié)點內(nèi)卡間帶寬(GB/s)一個計算節(jié)點內(nèi),兩個芯片之間的通信帶寬能效比表4能效比相關(guān)指標(biāo)與參考值序號指標(biāo)名稱指標(biāo)內(nèi)容參考值1最高浮點算力能效比(TFLOPS/W)芯片最高浮點算力與芯片標(biāo)稱功耗TDP的比值2最高整型算力能效比(TOPS/W)芯片最高整型算力與芯片標(biāo)稱功耗TDP的比值功能算子支持程度訓(xùn)練芯片對算子的支持程度,使用算子支持率進(jìn)行衡量。算子支持率計算公式如下:······························(2)其中,被測試算子從算子列表(附錄B.1)中獲取,每個算子的權(quán)重系數(shù)使用統(tǒng)計方法獲得。模型支持程度對目前常見深度學(xué)習(xí)應(yīng)用領(lǐng)域(例如圖像分類、分割、目標(biāo)檢測、NLP、推薦等)中典型模型的支持程度。模型支持率的計算公式如下:······························(3)其中,被測試模型以及相應(yīng)的權(quán)重系數(shù)從模型列表(附錄B.2)中獲取??ㄩg、多機高速通信的功能支持卡間和多機高速通信分別指“節(jié)點內(nèi)點對點通信”和“跨節(jié)點點對點通信”,指標(biāo)內(nèi)容如下表。表5卡間和多機高速通信功能支持序號指標(biāo)名稱指標(biāo)內(nèi)容1節(jié)點內(nèi)點對點通信節(jié)點內(nèi)用于卡間直接通信,CPU-Offload2跨節(jié)點點對點通信跨節(jié)點卡間直接通信,CPU-Offload訓(xùn)練性能的數(shù)制能力新型數(shù)制芯片中的運算單元支持TF32、BF16等新型數(shù)制。稀疏計算芯片在不降低模型訓(xùn)練精度的情況下,支持稀疏矩陣的運算以提高訓(xùn)練性能。性能算子計算性能3GEMMConv2d(附錄所示:·································(4)算子性能評分為GEMMConv2d{}。通信性能(模型訓(xùn)練性能主流深度學(xué)習(xí)模型在不同配置(單卡、多卡)情形下的訓(xùn)練性能。模型訓(xùn)練性能用IPS衡量,是指訓(xùn)練過程中每秒鐘能處理的圖片數(shù),其計算公式如下:模型性能評分為所有測試模型評分的加權(quán)平均。

··················································(5)其中,模型i的性能評分為:

····································(6)式中:M——單機1卡、單機4卡和單機8卡3種測試配置。模型測試參數(shù)配置以及訓(xùn)練數(shù)據(jù)集詳見附錄B.2。軟件生態(tài)生態(tài)

·······························(7)生態(tài)指芯片的基本軟件棧,并考慮芯片在公開市場的部署規(guī)模。評測內(nèi)容主要包含如下幾點:支持用戶對芯片進(jìn)行軟件開發(fā)的運行時庫、編譯工具鏈和調(diào)試調(diào)優(yōu)工具。表6基本軟件棧支持度指標(biāo)序號指標(biāo)名稱指標(biāo)內(nèi)容必要/可選指標(biāo)1驅(qū)動支持是否包含驅(qū)動以及提供驅(qū)動API用于軟件開發(fā)必要42運行時庫是否包含運行時庫必要3編譯工具鏈?zhǔn)欠裉峁┚幾g工具鏈對用戶程序進(jìn)行編譯必要4調(diào)試工具是否提供調(diào)試工具對芯片的代碼進(jìn)行調(diào)試排錯必要5調(diào)優(yōu)工具是否提供調(diào)優(yōu)工具對芯片的代碼實現(xiàn)進(jìn)行性能分析、調(diào)優(yōu)必要芯片的高性能計算庫。主要包括計算庫的數(shù)量、計算庫提供的算子/函數(shù)的數(shù)量、提供計算庫的性能三個方面。表7高性能計算庫指標(biāo)序號指標(biāo)名稱指標(biāo)內(nèi)容必要/可選指標(biāo)1第1級計算庫算子去測試其計算性能對芯片算力的利用率必要2第2級計算庫是否包含其他計算庫,例如隨機數(shù)生成庫等必要高性能通信庫支持程度。覆蓋主機-芯片之間、節(jié)點內(nèi)芯片間以及跨節(jié)點芯片間三種場景的高All-Reduce、Reduce-Scatter、Broadcast等。開放性開放性評測中的指標(biāo)包含開放的芯片指令集或虛擬指令集、開放的設(shè)備代碼編譯器等,詳見表8。表8開放性指標(biāo)序號指標(biāo)名稱指標(biāo)內(nèi)容必要/可選指標(biāo)1編程模型編程模型、線程模型、存儲層級設(shè)計是否和業(yè)界主流異構(gòu)計算模型保持兼容必要2編程接口編程接口(如設(shè)備管理、流的使用與管理、同步機制等)是否與主流異構(gòu)計算的編程接口保持兼容必要測試方法基本技術(shù)規(guī)格算力、內(nèi)存、通信等子指標(biāo)的測試均采用廠商提供的標(biāo)稱值。功能測試目標(biāo)測試訓(xùn)練芯片以及其軟件棧是否支持附錄B.1(算子列表)和附錄B.2(模型列表)所列的算子與模型。測試準(zhǔn)備功能測試需要被測方提供以下內(nèi)容:應(yīng)提供處于最佳工作環(huán)境、廠商標(biāo)配的主機配置、廠商標(biāo)配的訓(xùn)練芯片產(chǎn)品形態(tài);應(yīng)提供訓(xùn)練芯片軟件棧的相關(guān)技術(shù)文檔。5測試要求待測算子和待測試模型應(yīng)滿足以下要求:支持至少一種數(shù)值精度(FP32、FB16、TF32、BF16、INT8INT16)的實現(xiàn);ONNXRuntimeCPU(v1.10.0Inteli7-8700@3.2GHz)的輸出結(jié)果進(jìn)行比較,兩者誤差在可接受范圍內(nèi);若輸出參數(shù)是張量,對張量中每一個元素與標(biāo)準(zhǔn)輸出結(jié)果中對應(yīng)元素進(jìn)行比較;95(B.2算子功能測試流程表11 算子功能測試流程序號步驟步驟描述1參數(shù)配置給定輸入?yún)?shù),使用該算子在ONNXRuntimeCPU實現(xiàn)進(jìn)行計算,獲得在該輸入配置下的標(biāo)準(zhǔn)輸出結(jié)果。2算子執(zhí)行使用上述輸入?yún)?shù),在訓(xùn)練芯片上執(zhí)行該算子,獲得相應(yīng)的測試輸出結(jié)果。3精度對比將測試輸出結(jié)果與標(biāo)準(zhǔn)輸出結(jié)果進(jìn)行對比,計算相對誤差和絕對誤差。模型功能測試流程表12 模型功能測試流程序號步驟步驟描述1給定參數(shù)給定模型測試數(shù)據(jù)集、超參配置、要求訓(xùn)練輪數(shù)以及測試精度要求。2模型運行在以訓(xùn)練芯片為基礎(chǔ)的計算系統(tǒng)上,使用指定數(shù)據(jù)集和超參進(jìn)行訓(xùn)練。3精度對比當(dāng)訓(xùn)練輪數(shù)達(dá)到訓(xùn)練要求的輪數(shù)時,測試模型在指定測試數(shù)據(jù)集上的精度。性能測試目標(biāo)測試訓(xùn)練芯片以及其軟件棧在附錄B.1算子列表和B.2模型列表下的訓(xùn)練性能。測試準(zhǔn)備性能測試需要被測方提供以下內(nèi)容:應(yīng)提供處于最佳工作環(huán)境、廠商標(biāo)配的主機配置、廠商標(biāo)配的訓(xùn)練芯片產(chǎn)品形態(tài);應(yīng)提供訓(xùn)練芯片軟件棧的相關(guān)技術(shù)文檔。測試要求測試訓(xùn)練芯片性能有以下測試要求:i) All-Reduce(GB/s)和通信延遲(ms);6j) 應(yīng)在不同的配置下(單機1卡、單機4卡、單機8卡等),測試模型訓(xùn)練性能。算子性能測試流程表13 算子性能測試流程序號步驟步驟描述1參數(shù)配置準(zhǔn)備輸入數(shù)據(jù),并將算子執(zhí)行所需的所有輸入數(shù)據(jù)傳輸至訓(xùn)練芯片存儲器。2暖身輪在芯片上執(zhí)行算子M(M<10)次,作為性能測試的暖身輪。3耗時測試N(N1000100000根據(jù)實際情況指定),取運算時間的均值;4精度測試算子在某一特定輸入配置下的計算時間與相應(yīng)的基準(zhǔn)時間的比值即為該輸入?yún)?shù)配置下的(FP32、TF32和泛半精度(FP16BF16),基準(zhǔn)性能也有兩種精度的基準(zhǔn)值,被測芯片的某個算子的評分系數(shù)選取兩種數(shù)制精度下的最高值。5結(jié)果確認(rèn)該測試條件下的算子必須確保精度滿足要求,評測要求參考第7.2.1章節(jié)。模型性能測試流程表14 模型性能測試流程序號步驟步驟描述1參數(shù)配置準(zhǔn)備模型訓(xùn)練所需的參數(shù)、數(shù)據(jù)集,訓(xùn)練過程不能對設(shè)定參數(shù)進(jìn)行修改。2暖身輪啟動模型訓(xùn)練,執(zhí)行M(M<3)輪(epoch)訓(xùn)練作為暖身輪。3測試執(zhí)行至少執(zhí)行一個完整的訓(xùn)練輪(epoch),根據(jù)第6.3.3章節(jié)中IPS定義計算模型的訓(xùn)練性能。軟件生態(tài)軟件生態(tài)測試芯片應(yīng)支持必要的基本軟件棧、高性能計算庫、高性能通信庫以及產(chǎn)品部署規(guī)模?;拒浖1?4基本軟件棧測試方法序號指標(biāo)名稱CUDA對應(yīng)是否支持1驅(qū)動支持cudadriver2運行時庫cudart3編譯工具鏈nvcc4調(diào)試工具cuda-gdb5調(diào)優(yōu)工具nvprof高性能計算庫表15高性能計算庫測試方法序號指標(biāo)名稱CUDA對應(yīng)是否支持1第1級計算庫cudnn、cublas7T/CESAXXXX—202X2第2級計算庫cusparse、curand高性能通信庫通信庫應(yīng)支持常見的通信原語如All-Reduce、Reduce-Scatter、Broadcast等,CUDA對應(yīng)的高性能通信庫為NCCL。開放性訓(xùn)練芯片應(yīng)考慮開放性相關(guān)指標(biāo):表16開放性測試方法序號子指標(biāo)評測內(nèi)容是否支持1芯片指令集或虛擬指令集的開放程度2是否開放設(shè)備代碼編譯器(或部分組件)用于極致性能調(diào)優(yōu)3編程接口和編程模型是否與主流異構(gòu)計算生態(tài)兼容或可類比8附 錄 A(規(guī)范性)算子性能評測配置參數(shù)算子性能評測中所有測試算子以及相應(yīng)的輸入配置參數(shù)列如以下:GEMMGEM子定請參見ONX-Oeraor-em試參數(shù)取如表示數(shù),分別取(N,N)、(N,T)、(T,N)和(T,T),參數(shù)C為大小為且值隨機生成的矩陣,參數(shù) 取默認(rèn)值。綜合上述參數(shù)配置項,最終測試配置項數(shù)為224=56*4。表A.1GEMM測試輸入?yún)?shù)配置序號MNK序號MNK1816322964164096281283230641284096381024323164102440964876803232647680409658162563320481632681282563420481283278102425635204810243288768025636204876803298161536372048162561081281536382048128256118102415363920481024256128768015364020487680256138164096412048161536148128409642204812815361581024409643204810241536168768040964420487680153617641632452048164096186412832462048128409619641024324720481024409620647680324820487680409621641625649176065741760226412825650358467204823641024256517680162560246476802565261443228162564161536535121610242664128153654307212851227641024153655256102440962864768015365651232512Conv2d9表A.2Conv2d測試輸入?yún)?shù)配置序號WHCNKSRpad_wpad_hs_hs_v122422438643311112112112648128331111356561288256331111428282568512331111514145128512331111677512851233111172242243326433111181121126432128331111956561283225633111110282825632512331111111414512325123311111277512325123311111322422432566433111114112112642561283311111556561282562563311111628282562565123311111714145122565123311111877512256512331111192242243326477332220282819232325522112128281923264110011221414512324855221123141451232192110011247783232256110011257783232128552211262242243512647733222728281925123255221128282819251264110011291414512512485522113014145125121921100113177832512256110011327783251212855221133480481161633111134240241616323311113512012321664331111366066416128331111371081083864331122385454648643311113927271288128331111104014141288256331111417725685123311114256566416643311114356566416256110022442828128161283311114528281281651211002246141425616256331111471414256161024110022487751216512110011497720481651211332250565664512643311115156566451225611002252282812851212833111153282812851251211002254141425651225633111155141425651210241100225677512512512110011577720485125121133225811211264864110011595656648256110011601121126412864110011615656641282561100116211211264512641100116356566451225611001111附 錄 B(規(guī)范性)算子列表表B.1算子列表序號算子列表1conv1d,conv2d,conv3d,batch_norm,relu,max_pool1d,max_pool2d,max_pool3d,conv_transpose1d,conv_transpose2d,conv_transpose3d,softmax,softmin,cross_entropy,binarky_cross_entropy,dropout,select,randperm,mm,bmm,matmul,max,min,mean,add,sub,sum,div,mul,eq,gt,topk,stack,cat,split,sort,fill,arange,reshape,scatter,nonzero,layer_norm,interpolate,sigmoid,avg_pool1d,avg_pool2d,avg_pool3d,flatten,unsqueeze,squeeze,SGD,sin,cos,sinh,cosh,log,log2,exp,exp2,sqrt,fmod,sign,pow,neg,abs,floor,index_select,masked_select,permute,where,clamp,repeat,transpose,leaky_relu,prelu,log_softmax,instance_norm,Adam,Nms,RoiAlign,SyncBatchNorm,GlobalMaxPool,GlobalAveragePool,adaptive_avg_pool1d,adaptive_avg_pool2d,adaptive_avg_pool3d,adaptive_max_pool1d,adaptive_max_pool2d,adaptive_max_pool3d,…長尾算子列表表B.2 長尾算子列表序號算子序號算子1bbox2delta21Fcos_matcher2bbox_overlaps22Index2d3Delta2bbox23Intersect4Compute_locations24Jaccard5Batched_nms25Legacy_bbox2delta6Bbox2roi26Margin_loss7Bbox2offset27Mask_predictor8L2_loss28Masks_to_boxes9Aeloss29Offset2b

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論