《電力人工智能算法異構硬件加速技術規(guī)范》_第1頁
《電力人工智能算法異構硬件加速技術規(guī)范》_第2頁
《電力人工智能算法異構硬件加速技術規(guī)范》_第3頁
《電力人工智能算法異構硬件加速技術規(guī)范》_第4頁
《電力人工智能算法異構硬件加速技術規(guī)范》_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS國際標準分類號

CCS中國標準文獻分類號

團體標準

T/CESXXX-XXXX

電力人工智能算法異構硬件加速

技術規(guī)范

Technicalspecificationforheterogeneoushardwareaccelerationofelectric

powerartificialintelligencealgorithm

(征求意見稿)

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

中國電工技術學會發(fā)布

T/CESXXX—XXXX

電力人工智能算法異構硬件加速技術規(guī)范

1范圍

規(guī)范規(guī)定了電力領域中人工智能算法模型訓練、推理異構硬件加速的技術要求和評價方法,為電

力領域中線路巡檢、監(jiān)控等算法模型加速提供了技術參考和評價依據。

適用于支持訓練和推理的人工智能框架硬件加速技術的評估。

2規(guī)范性引用文件

下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文

件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。

GB/T1.1-2020標準化工作導則第1部分:基本術語

GBT41867-2022信息技術人工智能術語

GB/T5271.1-2000信息技術詞匯第1部分:基本術語

GB/T5271.28-2001信息技術詞匯第28部分:人工智能基本概念與專家系統(tǒng)

GB/T5271.34-2006信息技術詞匯第34部分:人工智能神經網絡

T/CES128-2022電力人工智能平臺總體架構及技術要求

YD/T3944-2021人工智能芯片基準測試評估方法

3術語和定義

下列術語和定義適用于本文件。

3.1

人工智能ArtificialIntelligence

一門交叉學科,通常視為計算機科學的分支,研究表現(xiàn)出與人類智能(如推理和學習)相關的各

種功能的模型和系統(tǒng)。

[來源GB/T5271.28-2001,定義28.01.01]

3.2

異構計算HeterogeneousComputing

不同類型指令集合體系架構的計算單元組成系統(tǒng)的計算方式。

[來源:維基百科]

3.3

分布式計算Distributedcomputing

是一種需要進行大量計算的工程數(shù)據分割成小塊,由多臺計算機機器分別計算,在上傳計算結果

后,將結果統(tǒng)一合并的得出數(shù)據結論的科學。

[來源:維基百科]

3.4

深度學習deeplearning

通過訓練具有許多隱藏層的神經網絡來創(chuàng)建豐富層次表示的方法。

[來源:GBT41867-2022,3.4.27]

3.5

訓練training

教會神經網絡在輸入值的樣本和正確輸出值之間做出結合的步驟。

[來源:GB/T5271.34-2006,34.03.18]

3.6

推理inference

3

T/CESXXX—XXXX

從已知前提導出結論的推理方法。

注1:在人工智能領域,前提是事實或者規(guī)則。

注2:術語“推理”既指過程也指結果。

[來源:GB/T5271.28-2001,28.03.01]

3.7

計算量FLOPs

模型計算的浮點計算數(shù),衡量模型計算的時間復雜度。

3.8

參數(shù)量Params

模型參數(shù)所占用的字節(jié)數(shù),衡量模型的空間復雜度。

3.9

AI加速器artificialintelligenceaccelerator

一類專用于人工智能硬件加速的微處理器或計算系統(tǒng),通常由專用AI芯片制成,在通用或特定

人工智能領域上較通用GPU可達到或發(fā)揮更好的性能優(yōu)勢。呈現(xiàn)形態(tài)包含但不局限于GPU、FPGA、

ASIC。按任務可分為訓練和推理兩類。

3.10

批量batch

訓練樣本的一部分。

注1:對特定計算設備,當訓練樣本數(shù)量過大時,可將樣本分成若干批,分批訓練。

注2:批中含有的樣本量是訓練超參之一。

[來源:GB/T41867-2022,3.04.21]

3.11

批次epoch

在深度學習模型訓練場景中,完整訓練數(shù)據集的一次訓練循環(huán),一個Epoch中,模型會對整個數(shù)

據集進行一次前向傳播和反向傳播,更新所有的參數(shù)。

3.12

迭代iteration(inneuralnetworks)

針對一批樣本,重復地執(zhí)行系列步驟直至完成訓練的過程。

注1:一個(訓)期中的迭代數(shù)量等于該期中,訓練樣本的批數(shù)。

[來源:GB/T41867-2022,3.04.04]

4符號、代號和縮略語

下列符號、代號和縮略語適用于本文件。

AI:人工智能(ArtificialIntelligence)

GPU:圖形處理器(GraphicsProcessingUnit)

FPGA:現(xiàn)場可程式門陣列(Field-ProgrammableGateArray)

CPU:中央處理器(CentralProcessingUnit)

NPU:神經網絡處理器(Neural-networkProcessingUnit)

TPU:張量計算器(TensorProcessingUnit)

RDMA:遠程直接內存訪問(RemoteDirectMemoryAccess)

PS:參數(shù)服務器(ParameterServer)

IR:中間表示(IntermediateRepresentation)

FPS:每秒鐘處理的幀數(shù)(FramesPerSecond)

QPS:每秒鐘的查詢數(shù)量(QueriesPerSecond)

4

T/CESXXX—XXXX

loss:損失函數(shù)的值

MOPS:處理器每秒鐘可進行一百萬次(MillionOperationPerSecond)

GOPS:處理器每秒鐘可進行十億次(GigaOperationsPerSecond)

TOPS:處理器每秒鐘可進行一萬億次(TeraOperationsPerSecond)

Broadcast:廣播機制

5電力人工智能算法異構硬件加速框架

5.1概述

電力人工智能算法異構加速包括:訓練異構硬件加速和推理異構硬件加速,其總體架構見圖1。

1)硬件加速評價指標:安裝部署、模型支持與驗證、訓練性能測試、推理性能測試等;

2)硬件加速技術要求:分布式通信層接入接口(僅面向訓練框架)、設備管理層接入接口、算子

適配層接入接口要求;

3)硬件平臺環(huán)境:不對硬件平臺進行技術要求定義,僅規(guī)范框架適配硬件平臺的環(huán)境要求。

加安裝部署模型支持與驗證訓練性能測試推理性能測試

價時間功耗能效FPSQPS...

訓練異構硬件加速

件推理異構硬件加速

算子適配層接入算子適配層接入

設備管理層接入

術設備管理層接入

要分布式通信接入

硬訓練芯片(服務器/集群)推理芯片(服務器/終端嵌入式)

臺通用處理器(CPU、GPU等)/AI加速器(ASIC

環(huán)

類型的加速器,如等/類型的加速器/類型的加速器)

境NPUFPGAGPU

圖1電力人工智能算法異構硬件加速框架

5.2電力人工智能訓練異構加速(非必須)

訓練流程包括數(shù)據加載(從磁盤獲取網絡存儲空間加載訓練數(shù)據)、數(shù)據預處理(將數(shù)據進行各

種數(shù)據增強變換和尺寸處理)、前向計算(將處理完成的數(shù)據輸入網絡計算loss)、反向傳播(根據

優(yōu)化器,反向梯度更新,優(yōu)化每一層的參數(shù))。

訓練異構加速分為單機訓練模式的異構組合和多級訓練模式的異構組合。

5.2.1單機訓練模式下的異構組合

5

T/CESXXX—XXXX

單機訓練模式:異構硬件在同一臺物理機器上,任務間不宜進行網絡通信。異構硬件工作流程如

下圖所示。

圖2單機多卡模式工作流程

通用計算單元任務產生的數(shù)據由一個大的batch拆分成小的batch發(fā)送到AI加速器的內存中,每

個計算單元取數(shù)據前向計算損失值loss,反向計算梯度后需要將各個計算單元的梯度取平均值,再返

回給各個計算單元更新模型參數(shù)。梯度平均值計算可以在通用計算單元或者AI加速器上運行。

5.2.2多機訓練模式下的異構組合

多機訓練模式的異構組合包括但不限于參數(shù)服務器PS(ParameterServer)結構和基于規(guī)約RingAll

Reduce結構兩種架構。

a)PS結構:PS架構的中心節(jié)點用來存儲參數(shù)和梯度,由一個/一組機器組成。當更新梯度時,全局

中心節(jié)點接受其他worker節(jié)點的數(shù)據,經參數(shù)平均法等本地計算后,再broadcast廣播到所有其他worker。

隨著worker數(shù)量的增加,整體通信量線性增加。

b)RingAllReduce結構:N(N≥2)worker節(jié)點連接構成一個環(huán),每個worker依次把自己的

梯度同步給緊鄰的worker,經過至多2*(N-1)輪同步,所有worker完成梯度更新。所有節(jié)點是平等的,

隨著worker的增加,整體通信量并不隨著增加。

圖3多機多卡PS結構

6

T/CESXXX—XXXX

圖4RingAllReduce結構

5.3電力人工智能推理異構加速

電力人工智能推理異構加速是將訓練得到的模型部署到特定異構硬件上,其流程如下圖所示。

圖5電力人工智能推理異構流程圖

推理步驟如下:

7

T/CESXXX—XXXX

a)模型IR轉換:從模型倉庫中導出訓練的模型,轉換工具將訓練模型IR轉換成當前異構硬件推

理引擎支持的IR。

b)計算圖初始化:導入模型IR和當前計算單元的適配算子生成相應硬件下的計算圖。

c)模型推理:數(shù)據前處理、計算圖前向計算、結果后處理。

6電力人工智能異構硬件加速的技術要求

異構硬件加速應至少包括AI處理器、AI服務器、AI集群三種之一,應符合但不限于以下要求:

a)應支持以下1種或多種自主可控處理器架構,自主可控處理器包括但不限于鰓鵬等;基于復雜

指令集計算機架構的處理器,如x86、x64架構;基于精簡指集計算機架構的處理器如RISC-V、

ARM、MIPS等架構;

b)應支持的硬件架構包括但不限于FPGA和ARM內核等;

c)應支持以下至少1種計算單元,包括但不限于通用處理器CPU、GPU;ASIC類型的加速器,

如NPU等;FPGA類型的加速器;GPU類型的加速器;

d)應支持至少1種主流的人工智能框架,包括但不限于TensorFlow、Pytorch、Caffe/Caffe2、

Mxnet、ONNX、MindSpore(昇思)或PaddlePaddle(飛槳)等。

e)應支持的模型精度:FP64、FP32、FP16、INT4、INT8、INT16、BP16或混合精度等。其中,訓

練場景精度應支持FP16、FP32、FP64,推理場景下精度應支持INT8、FP16。

f)設備管理層接口:對硬件平臺驅動與運行時的接入接口進行抽象與封裝,并向算子適配層、訓

練與推理框架提供一致的設備管理層接口。

g)算子適配層接口:人工智能算子與目標硬件算子內核函數(shù)的映射與匹配,針對不同硬件類型規(guī)

范不同的適配接口。算子層適配接口應提供算子開發(fā)或映射、子圖或整圖接入2種適配接口,宜提供

編譯器后端接入適配接口。硬件平臺可根據環(huán)境類型的不同,選擇不同的適配接口。

1)算子開發(fā)或映射:若硬件支持可編程算子內核開發(fā)語言,或硬件具備對應的AI算子庫,則可

以選擇該方式接入;

2)圖引擎接入:若硬件支持圖引擎,則可以選擇該方式進行子圖或整圖接入;

3)編譯器后端接入:若硬件支持編譯器后端,或硬件支持代碼生成器,則可以選擇該方式進行人

工智能編譯器的算子接入。

h)分布式通信層接口:對硬件平臺的集合通信庫接入框架的接口進行封裝與抽象,為上層的訓練

框架提供一致的分布式通信層接口,允許硬件自行實現(xiàn)相應接口接入框架。推理框架無需實現(xiàn)分布式

通信接口。

i)系統(tǒng)應考慮兼容性問題,主板接口上支持多種計算設備的接入,電源系統(tǒng)應能滿足多種計算設

備的功率需求。

6.1電力人工智能訓練異構硬件加速的技術要求(非必須)

電力人工智能訓練異構硬件加速的技術要求應符合但不限于以下要求:

a)學習框架:應具備基礎單卡、多卡與多機的模型訓練功能;

b)操作系統(tǒng):應支持基于Linux內核的操作系統(tǒng);

c)芯片類型:應在通用CPU和GPU之外支持至少一種AI訓練芯片;

d)設備識別:硬件驅動應支持選定操作系統(tǒng)的安裝/卸載,設備可正確識別,宜支持容器映射;

e)人工智能算法框架應提供設備管理層接口供硬件平臺的驅動和運行時接入,使硬件可被框架識

別;

f)人工智能算法框架應提供硬件算子的內核函數(shù)注冊接口,供目標硬件進行內核函數(shù)或相關算子

庫的接入;

g)應提供整圖或子圖組網信息與定義,由硬件平臺的圖引擎自行接管計算圖的組網與執(zhí)行并返回

計算結果;

h)宜提供編譯器后端接入接口規(guī)范。硬件廠商為其硬件提供編譯器后端,通過編譯器將框架側的

計算圖模型根據特定硬件目標產生編譯器端的低級IR,然后根據硬件后端再轉化為某個具體硬件上的

可執(zhí)行代碼;

8

T/CESXXX—XXXX

i)應提供分布式通信層接口供硬件平臺的集合通信庫接入,支持框架大規(guī)模分布式訓練功能。

6.2電力人工智能推理異構硬件加速的要求

電力人工智能推理異構硬件加速的技術要求應符合但不限于以下要求:

a)操作系統(tǒng):宜支持linux、windows等常用智能終端操作系統(tǒng)、嵌入式操作系統(tǒng)等;

b)芯片類型:應在通用CPU和GPU之外支持至少一種專用AI推理芯片;

c)設備識別:硬件驅動應支持選定操作系統(tǒng)的安裝/卸載,設備可正確識別,宜支持容器映射;

d)人工智能算法框架應提供設備管理層接口供硬件平臺的驅動和運行時接入,使硬件可被框架識

別;

e)人工智能算法框架應提供硬件算子的內核函數(shù)注冊接口,供目標硬件進行內核函數(shù)或相關算子

庫的接入;

f)應提供子圖檢測和融合的能力,運行時將檢測到的子圖原始算子通過下發(fā)子圖的方式,供硬件

接管,硬件負責相關算子的調度和執(zhí)行,并向框架返回輸出結果;

g)宜提供編譯器后端接入接口;

h)推理包括嵌入式推理和服務器推理,推理評價等級宜根據任務模型的參數(shù)量和計算量衡量,參

數(shù)量、計算量都大于0。模型的參數(shù)和參數(shù)量等級參考以下規(guī)則如表1,表2所示。

表1模型參數(shù)大小等級

參數(shù)量(單位MB)級別

≥1000C1

≥100C2

≥10C3

>0C4

表2模型計算量大小等級

計算量(G)級別

≥1000C1

≥100C2

≥10C3

>0C4

注:每秒操作數(shù)量OPS(Operationspersecond)作為衡量硬件算力水平的一個性能指標,單位包括:

MOPS:處理器每秒鐘可進行一百萬次(MillionOperationPerSecond)

GOPS:處理器每秒鐘可進行十億次(GigaOperationsPerSecond)

TOPS:處理器每秒鐘可進行一萬億次(TeraOperationsPerSecond)

i)異構硬件加速部署相對于原始的訓練模型輸出(典型以CPUFloat32計算為例)存在差異,差異

值的均方誤差作為異構硬件的精度標準,均方誤差值越小,整體的推理精度越高。電力人工智能推理

異構加速精度等級如表3所示。

表3推理異構硬件加速精度

輸出差異均方誤差級別

<10C1

<1C2

<0.1C3

<0.01C4

6.2.1電力人工智能不同場景的性能要求

電力人工智能包含有線路巡檢、監(jiān)控、數(shù)據分析等多種不同的應用場景,不同的應用場景對

于精度、速度與存在不同的要求,場景適用等級如下表所示:

表4推理所需精度級別

場景精度級別

電路巡檢數(shù)據離線檢測C1

電路巡檢數(shù)據實時檢測C2

9

T/CESXXX—XXXX

配電變電監(jiān)控C3

大數(shù)據分析預測C4

表5推理所需速度級別

場景速度級別

電路巡檢數(shù)據實時檢測C1

配電變電實時監(jiān)控C2

數(shù)據離線檢測C3

大數(shù)據分析預測C4

7電力人工智能異構加速性能評估指標及測試方法

7.1電力人工智能模型訓練異構加速性能評估指標和測試方法

7.1.1安裝部署

基于選定的基礎軟硬件平臺,人工智能框架應具備多種安裝部署能力,以便開發(fā)/測試/運維人員

進行使用/管理/維護/升級等工作:

a)應提供對應軟/硬件環(huán)境下的人工智能開發(fā)框架的安裝包,支持安裝/卸載功能;

b)應提供對應軟/硬件環(huán)境下的人工智能開發(fā)框架的容器運行鏡像,支持容器內運行環(huán)境;

c)應提供對應軟/硬件環(huán)境下的人工智能開發(fā)框架的容器編譯鏡像,支持容器內源碼編譯;

d)宜支持異構CPU編譯并支持純CPU訓練場景,支持CPU算子kernel優(yōu)化與加速。

7.1.2模型支持與驗證

基于選定的基礎軟硬件平臺,人工智能框架應支持在圖像分類、目標檢測等應用領域的人工智能

模型及其評估。

7.1.3時間

在特定數(shù)據集上訓練一個模型使其達到目標準確率時的訓練時間(不包括預處理和模型加載時

間)。訓練階段統(tǒng)計的時間指標單位毫秒(ms),相關的評估指標和評估方法如下:

a)單步訓練用時

1)定義:針對具體的訓練任務,在一定大小的batch輸入,進行一次前向傳播反向梯度更新的計

算過程的耗時。

2)測量方法:

--在batch數(shù)據送入input節(jié)點的時間記為T0;

--在梯度更新完成的時間記為T1;

--單步訓練的用時就為T1–T0。

說明:單個step的時間可以描述異構計算中的純粹網絡計算的時間和梯度更新時間,這個時

間越短就越好,同時單個step下可以針對不同的batch的維度進行時間的統(tǒng)計,在時間比較上采

用相同的batch下進行比較。

b)總的訓練用時

1)定義:針對一個具體的訓練任務,在訓練數(shù)據一定,epoch一定時,總的任務所花費的時間。

2)測量方法:

--啟動訓練的腳本的時間設置為Ts;

--訓練程序退出的時間設置為Te;

--總的訓練時間為Te–Ts。

說明:總的訓練時間包含模型的初始化,數(shù)據加載,網絡訓練計算,梯度更新模型保存等所有的

時間,這個可以反映整個人工智能算法訓練異構加速系統(tǒng)的整體性能,時間越短性能越高。

7.1.4實際計算利用率

訓練階段統(tǒng)計異構計算中計算設備在一段訓練時間內的實際利用率。

a)計算設備的使用率

1)定義:統(tǒng)計計算設備在一個訓練周期內的計算使用率。

10

T/CESXXX—XXXX

2)方法:

--在一個epoch的訓練過程中間隔1s采樣獲取計算設備的使用率Si;

--統(tǒng)計一個epoch中所有的使用率的總和S以及采樣的個數(shù)N;

--單個epoch中計算單元的使用率為S/N。

說明:計算設備的利用率反映了整個訓練系統(tǒng)在異構硬件加速上的使用效率,這個指標越高說明

系統(tǒng)采用設備的硬件加速越明顯,整體的效果越明顯。

7.1.5吞吐率

吞吐率反應了整個異構硬件加速系統(tǒng)針對訓練業(yè)務的計算能力,單位是MB/s。

a)單個節(jié)點異構硬件的吞吐率

1)定義:在訓練過程中單EPOC時間內處理的數(shù)據量和時間的比值。

2)方法:

--統(tǒng)計單個epoch的訓練處理時間Ti;

--統(tǒng)計各個epoch的平均訓練處理時間Ta;

--最終就是一個epoch的訓練樣本數(shù)量/Ta。

說明:實際的吞吐率反映了單臺機器上異構硬件針對訓練過程中的數(shù)據加載、數(shù)據預處理、網絡前

向計算、反向傳播更新梯度全流程的能力。

b)集群系統(tǒng)異構硬件的吞吐率

1)定義:同上

2)方法:

--統(tǒng)計單個節(jié)點上異構硬件系統(tǒng)的吞吐率Thi;

--所有節(jié)點上的Thi進行平均就是系統(tǒng)的The。

7.1.6功耗

功耗是以瓦(W)為單位,反映了異構設備在實際訓練中功率使用情況。

a)平均功耗

1)定義:在整個訓練過程中的平均功率。

2)測量方法:

--使用功率計周期采樣測量整機的功率;

--求取平均值就是訓練過程的平均功耗。

說明:平均功耗反映了整個異構加速系統(tǒng)在訓練中的能源使用情況。

b)峰值功率

1)定義:在訓練過程中異構設備瞬時最大的功率。

2)測量方法:

--通過提高batch提高整個異構設備的負載壓力;

--用功率計采集滿負荷下的運行功率,選擇功率做大的一個值作為峰值功率。

說明:峰值功率反映了異構加速系統(tǒng)在使用過程中的最大功率。

7.1.7能效

能效指的是在單位能耗下訓練處理的數(shù)量的多少,單位采用(MB/(W*S))。

a)單機能效

1)定義:單臺機器上異構設備在單位能耗下訓練處理的數(shù)量的多少。

2)方法:

--統(tǒng)計每個epoch運行期間設備的用電量Ei;

--對所有的epoch期間的電量求平均E;

--可以得到最終的能效為N/E(這里的N是一個epoch的數(shù)據數(shù)量)。

b)集群能效

1)定義:集群在單位能耗下訓練處理的數(shù)據的數(shù)量多少。

2)方法:

--統(tǒng)計每個epoch運行期間集群的用電量Ei;

--對所有的epoch期間的電量求平均E;

--可以得到最終的能效為N/E(這里的N是一個epoch的數(shù)據數(shù)量)。

11

T/CESXXX—XXXX

能效也可以反映出異構硬件在加速算法訓練過程中的能源利用情況,能效越高整個異構加速硬件

的能力越高。

7.2電力人工智能模型推理異構加速性能評估指標和測試方法

7.2.1安裝部署

基于選定的基礎軟硬件平臺,人工智能框架應應具備多種安裝部署能力,以便開發(fā)/測試/運維人

員進行使用/管理/維護/升級等工作:

a)應提供對應軟/硬件環(huán)境下的人工智能推理框架的安裝包,支持安裝/卸載功能;

b)應提供對應軟/硬件環(huán)境下的人工智能推理框架的C/C++推理庫,支持模型部署上線;

c)應提供對應軟/硬件環(huán)境下的人工智能推理框架的容器運行鏡像,支持容器內運行環(huán)境;

d)應提供對應軟/硬件環(huán)境下的人工智能推理框架的容器編譯鏡像,支持容器內源碼編譯。

7.2.2模型支持與驗證

基于選定的基礎軟硬件平臺,深度學習框架應支持基礎模型,結果正確,性能符合對應硬件預

期。

7.2.3時間

推理階段統(tǒng)計的時間指標單位毫秒(ms),相關的評估指標和評估方法如下:

a)單個數(shù)據的平均推理時間

1)定義:batch大小為1的數(shù)據完成數(shù)據前處理、數(shù)據拷貝到計算單元、計算單元網絡前向傳

播、從計算單元拷貝出來、結果后處理的總時間。

2)測量方法:

--將整個數(shù)據前處理、數(shù)據拷貝到計算單元、計算單元網絡前向傳播、從計算單元拷貝出來、結果

后處理封裝成一個模塊,將N個測試數(shù)據分別傳入模塊中去計算,獲取每個數(shù)據調用模塊的耗時Ti。

3)計算最終的平均推理時間為。

針對嵌入式實時場景,在功耗、輸入數(shù)據相同的情況下,單個數(shù)據的平均處理時間越短,整個異1?????1

????0

構硬件加速更好?!????????

7.2.4FPS

FPS反應了整個異構硬件加速系統(tǒng)針對推理業(yè)務的計算能力,單位是MB/s。

a)單個計算節(jié)點的FPS

1)定義:單位時間內,單個計算節(jié)點處理的數(shù)據的數(shù)量。

2)測量方法:

--選取N個測試的數(shù)據;

--統(tǒng)計每個數(shù)據經過推理模塊的耗時Ti;

--將N個時間相加得到Ts;

--最終的FPS就是為N/Ts。

b)計算集群的FPS

1)定義:單位時間內,計算集群處理的數(shù)據的數(shù)量。

2)測量方法:

--選取N個測試數(shù)據;

--將N個測試數(shù)據平均分配到M個計算節(jié)點上;

--統(tǒng)計每個節(jié)點上計算任務的開始時間Tis和介紹時間Tio;

--從M個Tis中找到最小的時間Tismin;

--從M個Tio中找到最大的時間Tiomax;

--整個計算系統(tǒng)的總耗時為T=Tiomax-Tismin;

--整個計算集群的FPS為N/T。

針對嵌入式實時場景,在網絡模型一定、數(shù)據一定的情況下,這個參數(shù)越大,反應異構加速能力

越強。

7.2.5QPS

QPS反映出異構硬件服務器的推理服務提供能力,單位是MB/s。

a)單個服務器的最大QPS

12

T/CESXXX—XXXX

1)定義:在給定的響應時延范圍內,單個異構服務器單位時間最大的處理次數(shù)。

2)測量方法:

--客戶端安裝jmeter壓測工具;

--jmeter設定平均的響應時間;

--客戶端會根據平均響應時間設置不同的請求線程數(shù)進行壓測,jemter獲取對應的Qi;

--選擇Qi最大的值作為最大的QPS。

b)服務器集群的最大QPS

1)定義:在給定的響應時延范圍內,異構服務器集群單位時間最大的處理次數(shù)。

2)測量方法:

--跟單機時測量方式一樣。

說明:最大QPS反映出了,在服務器端推理場景下的異構加速服務器的處理能力,這個值越大越

好。

7.2.6計算資源的利用率

在推理階段異構體系中計算資源的實際利用率。

a)單個計算設備的最大利

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論