人工智能芯片設(shè)計(jì)第7章-人工智能芯片架構(gòu)設(shè)計(jì)_第1頁
人工智能芯片設(shè)計(jì)第7章-人工智能芯片架構(gòu)設(shè)計(jì)_第2頁
人工智能芯片設(shè)計(jì)第7章-人工智能芯片架構(gòu)設(shè)計(jì)_第3頁
人工智能芯片設(shè)計(jì)第7章-人工智能芯片架構(gòu)設(shè)計(jì)_第4頁
人工智能芯片設(shè)計(jì)第7章-人工智能芯片架構(gòu)設(shè)計(jì)_第5頁
已閱讀5頁,還剩57頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第七章:人工智能芯片架構(gòu)設(shè)計(jì)人工智能芯片設(shè)計(jì)ArtificialIntelligenceChipDesign7.1卷積神經(jīng)網(wǎng)絡(luò)加速器整體設(shè)計(jì)2ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign內(nèi)容介紹

本章中的卷積神經(jīng)網(wǎng)絡(luò)硬件加速器針對(duì)卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用——推理過程進(jìn)行硬件加速實(shí)現(xiàn),對(duì)于給定的輸入圖像信息,加速器利用已訓(xùn)練好的網(wǎng)絡(luò)模型對(duì)其進(jìn)行處理。即本章的硬件加速器僅涉及卷積神經(jīng)網(wǎng)絡(luò)的前向傳播過程,而不包含反向傳播過程。鑒于VGGNet系列網(wǎng)絡(luò)模型在實(shí)際工程中應(yīng)用較為廣泛,且本身結(jié)構(gòu)統(tǒng)一具有代表性,本章主要針對(duì)VGGNet設(shè)計(jì)硬件加速架構(gòu)。7.1.1加速器設(shè)計(jì)分析3ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign為什么需要硬件加速器?

卷積神經(jīng)網(wǎng)絡(luò)(CNN)是計(jì)算密集型模型,需要高效的計(jì)算支持。傳統(tǒng)CPU和GPU在能耗和并行計(jì)算能力上存在局限。硬件加速器通過優(yōu)化存儲(chǔ)管理和運(yùn)算單元,實(shí)現(xiàn)超高效能和計(jì)算速度。CPU與GPU在CNN計(jì)算上的局限性CPU適用于串行任務(wù)處理,不足以支撐大規(guī)模并行卷積計(jì)算。GPU雖然并行度高,但功耗大,不適合移動(dòng)設(shè)備等低功耗環(huán)境。7.1.1加速器設(shè)計(jì)分析4ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

為何選擇FPGA?FPGA具有高能量效率和可重配置的優(yōu)點(diǎn)。適合于能耗敏感和成本控制嚴(yán)格的應(yīng)用場(chǎng)景。靈活性高,適合快速開發(fā)和市場(chǎng)適應(yīng)。FPGA部署CNN的挑戰(zhàn)復(fù)雜的浮點(diǎn)運(yùn)算需求。高數(shù)據(jù)傳輸量對(duì)帶寬的挑戰(zhàn)。7.1.1加速器設(shè)計(jì)分析5ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積神經(jīng)網(wǎng)絡(luò)加速器的設(shè)計(jì)優(yōu)化并行計(jì)算:提升輸入通道間、輸出通道間和像素間的并行度。數(shù)據(jù)交互:設(shè)計(jì)高效的存儲(chǔ)管理單元,減少數(shù)據(jù)讀寫次數(shù),提高數(shù)據(jù)利用效率。運(yùn)算與存儲(chǔ)協(xié)同:優(yōu)化數(shù)據(jù)傳輸與計(jì)算的協(xié)同效率,減少等待時(shí)間。7.1.1加速器設(shè)計(jì)分析6ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

使用Roofline模型分析性能Roofline模型建立了系統(tǒng)性能與片外存儲(chǔ)流量以及硬件平臺(tái)所能提供的帶寬和計(jì)算峰值間的聯(lián)系,如圖7-1所示。圖7-1Roofline模型通過提高數(shù)據(jù)利用率和優(yōu)化計(jì)算與傳輸比率能夠顯著提升系統(tǒng)吞吐量。7.1.1加速器設(shè)計(jì)分析7ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

VGGNet16-D網(wǎng)絡(luò)模型介紹

由多個(gè)卷積層和寬卷積層組成,優(yōu)于特征提取。應(yīng)用于圖像識(shí)別和其他視覺任務(wù)。層名特征圖尺寸卷積核尺寸輸入通道輸出通道稀疏化比例參數(shù)量Conv1_1224336411728Conv1_2224364647.694905Conv2_11123641284.3516974Conv2_211231281285.2627612Conv33568004Conv3_25632562567.1484933Conv3_35632562566.2595319Conv4_12832565124.35273051Conv4_22835125126.25388242Conv4_32835125125.26456363Conv5_11435125122.38989901Conv5_21435125122.171095804Conv5_31435125122.44967671Fc6--2508840968.3312241300Fc7--409640964.543605500Fc8--4096100014096000表7-1VGGNet16-D稀疏化后各層特征參數(shù)表7.1.1加速器設(shè)計(jì)分析8ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

存儲(chǔ)挑戰(zhàn)分析與策略

存儲(chǔ)挑戰(zhàn):Conv1_2層:數(shù)據(jù)量最大的卷積層,大多數(shù)硬件平臺(tái)無法滿足其高存儲(chǔ)需求。優(yōu)化策略:圖7-2表示輸出特征圖上一點(diǎn)像素的計(jì)算,計(jì)算數(shù)據(jù)僅與周圍像素點(diǎn)數(shù)據(jù)相關(guān),因此可將特征圖劃分為獨(dú)立的圖像塊,每塊包括邊緣像素,減少對(duì)周圍數(shù)據(jù)的依賴。實(shí)際應(yīng)用:所有特征圖劃分為統(tǒng)一尺寸的像素塊,適應(yīng)不同卷積層的特征圖尺寸。減少了復(fù)雜的控制過程,滿足大多數(shù)硬件設(shè)備的處理能力。圖7-2卷積窗在特征圖上卷積7.1.1加速器設(shè)計(jì)分析9ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

計(jì)算流水線設(shè)計(jì)優(yōu)化計(jì)算流程的挑戰(zhàn):卷積層與全連接層不能并行計(jì)算,需順序執(zhí)行;復(fù)雜的依賴關(guān)系增加了計(jì)算邏輯時(shí)間,影響整體效率。流水線的優(yōu)勢(shì):流水線可以提升卷積和全連接計(jì)算單元的效率;同時(shí)處理相關(guān)計(jì)算任務(wù),減少空閑時(shí)間。圖7-3系統(tǒng)級(jí)流水示意圖

如圖7-3為本文設(shè)計(jì)的兩級(jí)計(jì)算流水結(jié)構(gòu)。這種方式下,首先有利于提高卷積的計(jì)算單元和全連接的計(jì)算單元的計(jì)算效率;并且在卷積運(yùn)算進(jìn)行計(jì)算時(shí),全連接的計(jì)算單元也在進(jìn)行相關(guān)的計(jì)算任務(wù)。7.1.2加速器系統(tǒng)架構(gòu)10ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

加速器系統(tǒng)架構(gòu)如圖7-4所示,圖中紅色線條代表控制信號(hào)通路,黑色線條代表數(shù)據(jù)信號(hào)通路,整個(gè)系統(tǒng)從功能上主要分為系統(tǒng)控制、卷積和全連接計(jì)算、和存儲(chǔ)管理三大模塊。圖7-4加速器系統(tǒng)架構(gòu)7.1.2加速器系統(tǒng)架構(gòu)11ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

計(jì)算模塊

卷積引擎(CE):處理卷積層,包含多個(gè)并行的處理單元陣列(PEA)。

全連接引擎(FCE):處理全連接層,配置一個(gè)PEA。

存儲(chǔ)管理模塊

PCIe接口:連接計(jì)算機(jī)主機(jī)與加速器,負(fù)責(zé)數(shù)據(jù)交互。直接與PCIe交互的是片外存儲(chǔ)DDR。

片上緩存單元:暫存所需特征圖和權(quán)值數(shù)據(jù)。包括輸入緩存(CIB)、輸出緩存(COB)、權(quán)值

緩存和全連接緩存(FCB)。

系統(tǒng)控制模塊

CNN控制器:調(diào)度計(jì)算單元和存儲(chǔ)管理單元工作;控制系統(tǒng)流水和并行處理的時(shí)序。7.1.3硬件架構(gòu)運(yùn)行機(jī)理12ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

系統(tǒng)初始化與數(shù)據(jù)傳輸

主機(jī)端以Batch方式向FPGA傳輸圖像和VGGNet-16權(quán)值。圖像和權(quán)值數(shù)據(jù)存儲(chǔ)在DDR3中。

計(jì)算控制啟動(dòng)加速器啟動(dòng)后,CNN控制單元接管操作。數(shù)據(jù)交互單元(DEU)從DDR3載入輸入圖像和參數(shù)到內(nèi)存陣列MMA。

卷積計(jì)算過程卷積計(jì)算引擎(CE)啟動(dòng),處理輸入數(shù)據(jù)。輸出數(shù)據(jù)存儲(chǔ)在MMA,進(jìn)行ReLU操作后寫回DDR3。13ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

流水線操作與全連接計(jì)算

卷積結(jié)果形成讀取-卷積-寫出的流水線操作。

全連接計(jì)算完全在片上RAM進(jìn)行,減少數(shù)據(jù)交互。

四級(jí)流水線結(jié)構(gòu)

整體結(jié)構(gòu)包括讀取數(shù)據(jù)、卷積計(jì)算、寫出數(shù)據(jù)和

全連接計(jì)算的四級(jí)流水。

廣義流水架構(gòu)提高時(shí)序協(xié)調(diào)性和計(jì)算效率。

圖7-5頂層流水線示意圖7.1.3硬件架構(gòu)運(yùn)行機(jī)理7.2

加速器系統(tǒng)控制策略14ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign7.2.1基于循環(huán)分塊的卷積運(yùn)算策略15ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign卷積層占據(jù)了整個(gè)卷積神經(jīng)網(wǎng)絡(luò)99%以上的計(jì)算量,因此針對(duì)卷積層運(yùn)算的系統(tǒng)控制設(shè)計(jì)是CNN加速器設(shè)計(jì)的重點(diǎn)內(nèi)容,本章針對(duì)卷積層提出一種基于循環(huán)分塊的并行和流水運(yùn)行策略,其偽代碼如算法7-1所示。

循環(huán)分塊機(jī)制由于FPGA片上存儲(chǔ)限制,特征圖被分割為多個(gè)小區(qū)域(tiles)。Tiles基于VGGNet特征圖尺寸設(shè)計(jì),以實(shí)現(xiàn)高效的并行處理。

并行與流水線操作使用雙端口RAM設(shè)計(jì)的輸入緩存單元(CIB)。并行處理64個(gè)PEA進(jìn)行卷積運(yùn)算,提高數(shù)據(jù)預(yù)讀取效率。7.2.1基于循環(huán)分塊的卷積運(yùn)算策略16ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign輸入與輸出特征圖優(yōu)先模式

輸出特征圖優(yōu)先模式:多個(gè)輸入特征圖并行處理,以快速生成輸出特征圖。輸入特征圖優(yōu)先模式:優(yōu)化帶寬需求,減少數(shù)據(jù)讀取次數(shù),提高計(jì)算效率。

優(yōu)化結(jié)果與成本

輸入特征圖優(yōu)先模式在帶寬和功耗上表現(xiàn)優(yōu)異。需要更多片上緩存資源來存儲(chǔ)中間計(jì)算結(jié)果圖7-6輸入、輸出特征圖優(yōu)先卷積計(jì)算7.2.2存算并行與流水控制17ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign并行計(jì)算概述卷積神經(jīng)網(wǎng)絡(luò)中的三種并行運(yùn)算方式:輸出通道間并行、輸入通道間并行和卷積核內(nèi)部并行。并行計(jì)算挑戰(zhàn):FPGA的帶寬和存儲(chǔ)器空間限制是實(shí)現(xiàn)并行計(jì)算的主要障礙;高效的硬件加速器設(shè)計(jì)需要平衡帶寬和計(jì)算并行度。優(yōu)化策略:

數(shù)據(jù)預(yù)讀取:通過預(yù)讀取數(shù)據(jù)到片上緩存,減少運(yùn)行時(shí)的帶寬需求。

數(shù)據(jù)重復(fù)利用:有效管理數(shù)據(jù)流,減少對(duì)外部存儲(chǔ)的頻繁訪問。7.2.2存算并行與流水控制18ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign并行計(jì)算實(shí)現(xiàn)與流水線控制實(shí)現(xiàn)的并行計(jì)算卷積核內(nèi)部并行:在處理元素陣列(PEA)內(nèi)部實(shí)現(xiàn),加速單個(gè)特征圖的處理。輸入通道間并行:多個(gè)輸入通道的數(shù)據(jù)同時(shí)處理,提高整體計(jì)算效率。流水線操作主要流程:數(shù)據(jù)讀取、卷積運(yùn)算、寫出輸出特征圖。存算并行控制:優(yōu)化數(shù)據(jù)流,實(shí)現(xiàn)數(shù)據(jù)預(yù)讀取與卷積運(yùn)算的并行執(zhí)行。圖7-7卷積層存算并行與流水控制7.2.2存算并行與流水控制19ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign全連接層流水結(jié)構(gòu)三級(jí)流水結(jié)構(gòu):讀取數(shù)據(jù)、計(jì)算、寫出數(shù)據(jù)。構(gòu)造卷積-全連接四級(jí)流水結(jié)構(gòu):讀取數(shù)據(jù)、卷積運(yùn)算、寫出數(shù)據(jù)、全連接運(yùn)算。

流水線效率優(yōu)化時(shí)序協(xié)調(diào):優(yōu)化各模塊的工作協(xié)同,減少處理延遲。效率提升:通過精確控制數(shù)據(jù)流向和處理時(shí)間,提高整體系統(tǒng)性能圖7-8

卷積-全連接流水結(jié)構(gòu)7.3卷積層加速器設(shè)計(jì)20ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign7.3.1卷積加速器整體設(shè)計(jì)21ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign圖7-9

卷積計(jì)算單元結(jié)構(gòu)框圖卷積層加速器的重要性與設(shè)計(jì)概述卷積層是CNN中最重要的層,貢獻(xiàn)最大的計(jì)算量。稀疏化的目標(biāo):通過卷積核級(jí)別的稀疏化減少計(jì)算

量,同時(shí)盡量保持識(shí)別精度。設(shè)計(jì)需求:稀疏化后的結(jié)構(gòu)不完整性要求特別設(shè)計(jì)

加速計(jì)算單元。

卷積計(jì)算單元結(jié)構(gòu)卷積計(jì)算單元主要包括輸入特征圖緩存、輸出部分

和緩存、多并行引擎、參數(shù)緩存、片上計(jì)算寄存器緩存等。7.3.2

混合計(jì)算分析22ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign圖7-10浮點(diǎn)數(shù)據(jù)塊浮點(diǎn)化混合計(jì)算分析概述計(jì)算挑戰(zhàn):傳統(tǒng)32位浮點(diǎn)數(shù)計(jì)算復(fù)雜,消耗大量邏輯資源和時(shí)間,限制了計(jì)算效率。量化策略:目前主流的量化是使用16比特浮點(diǎn)數(shù)和低比特的定點(diǎn)數(shù),以提高計(jì)算速度。塊浮點(diǎn)介紹:塊浮點(diǎn)的數(shù)據(jù)形式是一種浮點(diǎn)數(shù)據(jù)表示形式,不過是針對(duì)一個(gè)完整的數(shù)據(jù)塊而言的。在使用塊浮點(diǎn)時(shí),首先是整個(gè)數(shù)據(jù)塊共有的一個(gè)指數(shù)位,這個(gè)指數(shù)位數(shù)值上取原始數(shù)據(jù)塊浮點(diǎn)表達(dá)中指數(shù)位最大的數(shù)值。而對(duì)于每個(gè)單獨(dú)的數(shù)據(jù),則有各自單獨(dú)的符號(hào)位和尾數(shù)位,這樣表示的數(shù)據(jù)實(shí)際以定點(diǎn)數(shù)的形式存儲(chǔ),如圖7-10所示。7.3.2

混合計(jì)算分析23ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign塊浮點(diǎn)數(shù)據(jù)的結(jié)構(gòu)和優(yōu)勢(shì)數(shù)據(jù)結(jié)構(gòu):塊浮點(diǎn)數(shù)據(jù)包括共享的指數(shù)位和每個(gè)數(shù)據(jù)的符號(hào)位與尾數(shù)位。存儲(chǔ)與計(jì)算:塊浮點(diǎn)數(shù)據(jù)實(shí)際以定點(diǎn)數(shù)形式存儲(chǔ),減少存儲(chǔ)需求和提高計(jì)算速度。數(shù)據(jù)劃分:將輸入特征圖像和卷積參數(shù)劃分為數(shù)據(jù)塊,共用一個(gè)指數(shù)位,減少量化誤差?;旌嫌?jì)算策略的實(shí)施計(jì)算過程:卷積核內(nèi)部采用塊浮點(diǎn)計(jì)算,部分和累加時(shí)采用16比特浮點(diǎn)計(jì)算。效率與精度:塊浮點(diǎn)計(jì)算簡化了計(jì)算過程,同時(shí)16比特浮點(diǎn)計(jì)算保證了累加精度。存儲(chǔ)需求降低:轉(zhuǎn)換成16比特浮點(diǎn)數(shù)后存儲(chǔ)部分和,降低了存儲(chǔ)需求。7.3.3

混合算術(shù)卷積引擎設(shè)計(jì)24ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign混合算術(shù)卷積引擎概述卷積引擎目標(biāo):針對(duì)VGGNet16-D網(wǎng)絡(luò)進(jìn)行硬件加速器設(shè)計(jì)。計(jì)算方式:通過卷積窗在圖像塊上滑動(dòng)完成卷積操作,優(yōu)化輸入像素重疊處理。設(shè)計(jì)重點(diǎn):實(shí)現(xiàn)輸入特征圖的復(fù)用和塊浮點(diǎn)計(jì)算的集成。圖7-11卷積窗在像素塊上卷積7.3.3

混合算術(shù)卷積引擎設(shè)計(jì)25ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign多級(jí)乘加器(MMAC)結(jié)構(gòu)與卷積計(jì)算MMAC功能:完成數(shù)據(jù)的乘加任務(wù),提高卷積計(jì)算效率。計(jì)算過程:從輸入數(shù)據(jù)緩存中導(dǎo)入數(shù)據(jù)到MMAC,并進(jìn)行多級(jí)乘加運(yùn)算。累加與轉(zhuǎn)化:對(duì)計(jì)算后的數(shù)據(jù)進(jìn)行累加,并轉(zhuǎn)化為16比特浮點(diǎn)數(shù)據(jù)。圖7-12混合算術(shù)卷積引擎結(jié)構(gòu)7.3.3

混合算術(shù)卷積引擎設(shè)計(jì)26ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign解決稀疏化引起的挑戰(zhàn):稀疏化的影響:

稀疏化處理增加了卷積引擎之間的結(jié)果不確定性。

稀疏化后的卷積引擎結(jié)果在數(shù)據(jù)通道上顯示不完整,難以實(shí)時(shí)訪問共享緩存。解決策略:

采用片上寄存器存儲(chǔ)方式,優(yōu)化數(shù)據(jù)存取和減少?zèng)_突。

輸出的部分和結(jié)果被細(xì)分為四個(gè)獨(dú)立的像素塊存儲(chǔ),每塊需求一定位寬。技術(shù)細(xì)節(jié)

每個(gè)寄存器緩存陣列設(shè)計(jì)為足夠的比特寬度,保證數(shù)據(jù)處理需求。

存儲(chǔ)操作僅需1個(gè)時(shí)鐘周期,極大優(yōu)化整體計(jì)算時(shí)間消耗。

實(shí)現(xiàn)卷積引擎對(duì)部分和緩存的輪流訪問,有效避免沖突。7.3.4

片上存儲(chǔ)系統(tǒng)設(shè)計(jì)27ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign輸出部分和緩存結(jié)構(gòu)設(shè)計(jì):輸出部分和緩存分成四塊,增加數(shù)據(jù)訪問速度。使用雙端口BRAM,實(shí)現(xiàn)高效的讀寫分離。輸出部分和緩存的寬度設(shè)計(jì),確??焖僭L問和數(shù)據(jù)整合。圖7-13輸出部分和緩存方案

片上存儲(chǔ)系統(tǒng)是卷積神經(jīng)網(wǎng)絡(luò)加速器中重要部分之一。存儲(chǔ)訪問效率也是卷積神經(jīng)網(wǎng)絡(luò)加速器的計(jì)算效率重要影響因素。本節(jié)主要針對(duì)性的設(shè)計(jì)了稀疏化神經(jīng)網(wǎng)絡(luò)加速器片上部分和緩存和稀疏化卷積核緩存系統(tǒng)。7.3.4

片上存儲(chǔ)系統(tǒng)設(shè)計(jì)28ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign卷積參數(shù)存儲(chǔ)優(yōu)化采取稀疏化方法優(yōu)化參數(shù)存儲(chǔ),削減空閑存儲(chǔ)空間。利用壓縮存儲(chǔ)技術(shù)(CSC和CSR),提高存儲(chǔ)效率。將剩余的卷積核參數(shù)重新排列,減少訪問次數(shù)和功耗。圖7-14卷積核存儲(chǔ)方案7.3.5

稀疏化卷積計(jì)算調(diào)度系統(tǒng)29ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign(1)卷積層加速器控制流程狀態(tài)控制與數(shù)據(jù)流程狀態(tài)機(jī)控制輸入數(shù)據(jù)讀取、參數(shù)加載、卷積開始和輸

出數(shù)據(jù)寫出。優(yōu)化數(shù)據(jù)流,減少等待時(shí)間,使計(jì)算過程更高效。數(shù)據(jù)與參數(shù)管理策略在卷積計(jì)算期間邊計(jì)算邊讀取數(shù)據(jù)和參數(shù),避免計(jì)算停滯。一旦完成所有參數(shù)和數(shù)據(jù)加載,直接啟動(dòng)卷積計(jì)算。卷積層計(jì)算完成后,將結(jié)果直接寫入全連接層的緩存或

DDR,為下一步計(jì)算準(zhǔn)備。圖7-15卷積層加速器的整體流程7.3.5

稀疏化卷積計(jì)算調(diào)度系統(tǒng)30ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign(2)卷積引擎控制方式原始控制方案按序加載卷積引擎中的數(shù)據(jù),按需計(jì)算。控制器指導(dǎo)卷積窗移動(dòng)進(jìn)行卷積運(yùn)算?,F(xiàn)有方案導(dǎo)致高并行計(jì)算時(shí)效率低下,數(shù)據(jù)等待

時(shí)間長。優(yōu)化控制方案新方案在數(shù)據(jù)加載后立即啟動(dòng)計(jì)算,減少等待。優(yōu)化數(shù)據(jù)加載,每個(gè)卷積引擎加載后立即計(jì)算,

減少空閑時(shí)間。圖7-16原始卷積引擎計(jì)算和數(shù)據(jù)加載控制方案圖7-17優(yōu)化卷積引擎計(jì)算和數(shù)據(jù)加載控制方案7.4全連接層加速器設(shè)計(jì)31ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign7.4.1

全連接層存儲(chǔ)方案32ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign雙緩存設(shè)計(jì)為防止計(jì)算過程中覆蓋輸入神經(jīng)元數(shù)據(jù),采用雙緩存設(shè)計(jì)。利用兵乓讀取控制方式,優(yōu)化輸入輸出數(shù)據(jù)的交替訪問,減少位置置換。計(jì)算效率提升策略緩存主要用于存儲(chǔ)從DDR中讀取的參數(shù)數(shù)據(jù),確保全連接計(jì)算過程中快速獲取參數(shù)。乒乓讀取方式減少數(shù)據(jù)加載對(duì)計(jì)算效率的影響。圖7-18雙緩存與乒乓讀取訪問7.4.2計(jì)算單元設(shè)計(jì)33ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign稀疏化參數(shù)存儲(chǔ)與訪問稀疏化參數(shù)與對(duì)應(yīng)輸入神經(jīng)元一同存儲(chǔ)。使用標(biāo)志位表示這個(gè)參數(shù)是否參與特定輸出通道的計(jì)算。輸入神經(jīng)元數(shù)據(jù)管理設(shè)計(jì)FIFO緩存結(jié)構(gòu),保證輸入神經(jīng)元數(shù)據(jù)與參數(shù)位置對(duì)應(yīng)。神經(jīng)元數(shù)據(jù)按輸出通道需求加載到FIFO中,實(shí)現(xiàn)有序的乘加操作。參數(shù)與數(shù)據(jù)同步參數(shù)存儲(chǔ)于片外緩存,相應(yīng)的FIFO緩存結(jié)構(gòu)存儲(chǔ)匹配的參數(shù)數(shù)據(jù)。確保計(jì)算中參數(shù)和神經(jīng)元數(shù)據(jù)精準(zhǔn)對(duì)應(yīng),提高計(jì)算效率。圖7-19全連接計(jì)算單元結(jié)構(gòu)7.5存儲(chǔ)管理單元34ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign7.5存儲(chǔ)管理單元35ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign高效存儲(chǔ)管理單元目的:高效的存儲(chǔ)管理單元設(shè)計(jì)能夠提高片上數(shù)據(jù)利用率;提升數(shù)據(jù)交互效率;降低系統(tǒng)帶寬需求數(shù)據(jù)傳輸與系統(tǒng)瓶頸:由于計(jì)算單元必須要在數(shù)據(jù)到來之后才能開始工作,盡管本章采取了一系列乒乓緩存和數(shù)據(jù)預(yù)讀取機(jī)制,并結(jié)合卷積流水線操作來消除數(shù)據(jù)等待的延遲,但是數(shù)據(jù)傳輸仍是制約加速器吞吐量的關(guān)鍵所在。存儲(chǔ)管理單元組成:片外存儲(chǔ):DDR;片上緩存:包括卷積層和全連接層緩存區(qū)。系統(tǒng)功耗考量:來自片外存儲(chǔ)DDR和片上緩存RAM以及寄存器狀態(tài)翻轉(zhuǎn)的功耗;頻繁數(shù)據(jù)讀寫增加系統(tǒng)功耗;需優(yōu)化特征圖和權(quán)值的組織方式以提升數(shù)據(jù)傳輸效率。7.5.1存儲(chǔ)管理單元的重要性36ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign高效存儲(chǔ)管理單元的重要性對(duì)功耗的影響功耗估算:基于寄存器的反轉(zhuǎn)次數(shù)。寄存器填充的能量消耗,取決于存儲(chǔ)區(qū)域大小和寄存器數(shù)量。內(nèi)存填充方式和尋址邏輯影響功耗。對(duì)計(jì)算速度的影響高效的內(nèi)存管理可以最大化數(shù)據(jù)利用率,減少讀取次數(shù)。降低時(shí)序空閑。數(shù)據(jù)讀取與卷積計(jì)算的流水線操作減少等待周期??傮w計(jì)算速度受限于外部存儲(chǔ)的I/O帶寬和讀寫操作。圖7-20

數(shù)據(jù)讀取對(duì)計(jì)算速度的影響圖7-20

數(shù)據(jù)讀寫對(duì)計(jì)算速度的影響7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)37ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

存儲(chǔ)單元概述存儲(chǔ)管理單元的設(shè)計(jì)關(guān)鍵在于高效的內(nèi)存組織和快速訪問能力。主要包括輸入緩存區(qū)、輸出緩存區(qū)、權(quán)值緩存區(qū)、偏置緩存區(qū)和預(yù)讀取緩存區(qū)。具體緩存配置輸入緩存區(qū):2個(gè)大小的寄存器組。輸出緩存區(qū):16個(gè)大小的寄存器組。權(quán)值緩存區(qū):2個(gè)大小的寄存器組。偏置緩存區(qū):512個(gè)寄存器組。預(yù)讀取緩存區(qū):側(cè)邊緩沖區(qū)和頂部預(yù)讀取區(qū),分別由寄存器組成。圖7-21片上緩存結(jié)構(gòu)7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)38ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

卷積操作和輸入緩存卷積操作基于塊執(zhí)行,稱為輸入緩存。卷積周期對(duì)應(yīng)一個(gè)核心區(qū)域塊的大小。

像素補(bǔ)齊和緩存大小在塊邊緣進(jìn)行卷積需要進(jìn)行像素補(bǔ)齊。輸入緩存大小調(diào)整以適應(yīng)邊緣像素補(bǔ)齊需求。

存儲(chǔ)單位和數(shù)據(jù)連續(xù)性輸入特征圖以存儲(chǔ),保證數(shù)據(jù)在外部存儲(chǔ)DDR3中地址連續(xù)性。提高DDR3的數(shù)據(jù)讀取速度。圖7-23卷積塊操作示意圖7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)39ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

數(shù)據(jù)存儲(chǔ)方式特征圖數(shù)據(jù)在DDR3中以單元存儲(chǔ),地址連續(xù)。采用Z字形卷積方式,行優(yōu)先完成數(shù)據(jù)卷積。邊緣像素讀取問題邊緣像素從非連續(xù)存儲(chǔ)區(qū)域讀取,增加低效數(shù)據(jù)交互。讀取數(shù)據(jù)和卷積計(jì)算的流水線操作效率問題。緩存設(shè)計(jì)方案數(shù)據(jù)預(yù)讀取機(jī)制:減少外部存儲(chǔ)數(shù)據(jù)交互。乒乓緩存機(jī)制:提高架構(gòu)流水線效率。輸入特征圖優(yōu)先機(jī)制:最大化利用讀入到片上內(nèi)存的數(shù)據(jù)。圖7-24DDR3內(nèi)存組織結(jié)構(gòu)7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)40ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

數(shù)據(jù)預(yù)讀取機(jī)制目的:減少卷積計(jì)算之間的等待時(shí)間,提高數(shù)據(jù)讀取效率;預(yù)防重復(fù)讀取邊緣數(shù)據(jù),邊緣數(shù)據(jù)在DDR3中存儲(chǔ)非連

續(xù),讀取耗時(shí)較長。預(yù)讀取操作:在讀取當(dāng)前輸入緩存區(qū)的同時(shí),額外讀取相鄰的邊緣數(shù)據(jù)。左側(cè)邊緣數(shù)據(jù)(陰影部分)和下方數(shù)據(jù)(黃色部分)同時(shí)預(yù)

讀取。圖7-25緩存更新示意圖7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)41ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

數(shù)據(jù)預(yù)讀取機(jī)制緩存更新和數(shù)據(jù)填充預(yù)讀取數(shù)據(jù)立即更新至側(cè)邊和頂部預(yù)讀取緩存區(qū);下一個(gè)卷積周期使用時(shí),直接從預(yù)讀取緩存填充,避免外部存儲(chǔ)重讀。預(yù)讀取緩存區(qū)側(cè)部:存儲(chǔ)當(dāng)前輸入緩存區(qū)左側(cè)的8列數(shù)據(jù);減少外部讀取,提高緩存區(qū)填充速度。頂部:存儲(chǔ)一整行的輸入特征圖數(shù)據(jù),寬度設(shè)為256,考慮數(shù)據(jù)重疊;使頂部像素從預(yù)讀

取緩存中獲取,無需重復(fù)從DDR3中讀取。優(yōu)化結(jié)果顯著減少數(shù)據(jù)交互次數(shù),提升數(shù)據(jù)傳輸速率;降低系統(tǒng)功耗,優(yōu)化計(jì)算效率。7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)42ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

乒乓緩存機(jī)制目的:允許數(shù)據(jù)讀取和卷積計(jì)算流水線高效運(yùn)行,防止緩存區(qū)在卷積計(jì)算時(shí)不能接收新數(shù)據(jù)。緩存結(jié)構(gòu):輸入緩存區(qū)和權(quán)值緩存區(qū)均設(shè)計(jì)為雙緩存結(jié)構(gòu),即分別擁有兩組相同的緩存區(qū)域。流水線操作和效率實(shí)現(xiàn)卷積計(jì)算與數(shù)據(jù)讀取的連續(xù)流水線操作,避免因數(shù)據(jù)交互導(dǎo)致的運(yùn)行中斷。調(diào)整卷積核計(jì)算時(shí)間和數(shù)據(jù)讀取時(shí)間匹配,確保流水線高效且無間斷運(yùn)行。圖7-26讀取數(shù)據(jù)和卷積計(jì)算流水線7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)43ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸入特征圖優(yōu)先機(jī)制定義輸出特征圖優(yōu)先:優(yōu)先完成一個(gè)輸出特征圖的所有相關(guān)輸入特征圖卷積計(jì)算。輸入特征圖優(yōu)先:優(yōu)先完成一個(gè)輸入特征圖對(duì)所有輸出特征圖的卷積計(jì)算。影響分析輸出特征圖優(yōu)先:需要頻繁讀取每個(gè)通道的輸入特征圖,導(dǎo)致高緩存刷新率和存儲(chǔ)帶寬消耗。輸入特征圖優(yōu)先:一旦輸入特征圖加載至緩存,用于多個(gè)輸出計(jì)算,減少讀取次數(shù),降低與

外部存儲(chǔ)的數(shù)據(jù)交互。7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)44ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸入特征圖優(yōu)先機(jī)制優(yōu)化選擇采用輸入特征圖優(yōu)先機(jī)制,優(yōu)化存儲(chǔ)交互,提高片上

緩存的利用率,降低外部存儲(chǔ)帶寬需求。計(jì)算效率對(duì)比輸出特征圖優(yōu)先模式:每個(gè)輸入特征圖多次加載,增加數(shù)據(jù)讀取次數(shù)。輸入特征圖優(yōu)先模式:每個(gè)輸入特征圖僅加載一次,顯著減少DDR3交互。減少數(shù)據(jù)交互次數(shù),提高系統(tǒng)整體效率。圖7-27讀取數(shù)據(jù)和卷積計(jì)算流水線7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)45ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸出緩存管理輸出緩存區(qū)的功能:存儲(chǔ)每個(gè)卷積周期內(nèi)的部分和數(shù)據(jù);支持中間數(shù)據(jù)的累加操作;在所有輸入通道處理完畢后,持有最終的輸出特征圖。緩存區(qū)大小和結(jié)構(gòu)輸出緩存區(qū)大小為16×V,其中V是卷積塊的體積??偣?12個(gè)卷積核分成32路并行設(shè)計(jì),因此輸出緩存區(qū)由

16個(gè)大小的寄存器組構(gòu)成。每個(gè)卷積周期內(nèi),卷積計(jì)算引擎輸出中間特征圖數(shù)據(jù)到指定的寄存器組,并與已存在數(shù)據(jù)進(jìn)行累加。圖7-28輸出緩沖區(qū)結(jié)構(gòu)示意圖7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)46ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸出緩存管理

COB的功能和結(jié)構(gòu):輸出緩存區(qū)(COB)用于暫存卷積計(jì)算引擎產(chǎn)生的部分和數(shù)據(jù);在輸

入特征圖優(yōu)先的計(jì)算過程中,COB存儲(chǔ)當(dāng)前特征圖對(duì)應(yīng)的部分和,為下一個(gè)特征圖計(jì)算提

供累加初始值;最終輸出特征圖在所有輸入特征圖處理完成后保存在COB中,隨后寫出到

外部存儲(chǔ)DDR3。

COB與卷積計(jì)算引擎和DDR3的數(shù)據(jù)交互過程過程a:COB接收來自卷積計(jì)算引擎的部分和數(shù)據(jù)。過程b:卷積計(jì)算引擎從COB讀取部分和數(shù)據(jù)作為下一次計(jì)算的累加初始值。過程c:最終的輸出特征圖從COB寫出到DDR3。7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)47ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸出緩存管理卷積計(jì)算引擎與COB的協(xié)調(diào)包含64個(gè)PPMAC處理單元,對(duì)應(yīng)64個(gè)輸出通道;COB直接接收并存儲(chǔ)來自64個(gè)輸出通道的部分和數(shù)據(jù);使用桶形移位存儲(chǔ)策略,以優(yōu)化COB的數(shù)據(jù)組織和最小化過程c的時(shí)間。圖7-29卷積輸出緩存工作方式7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)48ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸出緩存管理

桶形移位輸入和輸出方案是保證COB正常工作的關(guān)鍵,具體過程如圖7-30所示。圖7-30桶形移位輸入輸出方案7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)49ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

卷積層緩存區(qū)設(shè)計(jì)

輸出緩存管理桶形移位的工作原理:在卷積計(jì)算引擎(CE)產(chǎn)生數(shù)據(jù)并傳送到輸出緩存區(qū)(COB)的過程a中,數(shù)據(jù)按照指定的桶形移位邏輯(shuffle_i)流動(dòng)。數(shù)據(jù)流向由黑色帶方向線條指示,順序右移保證數(shù)據(jù)按正確順序存儲(chǔ)到各個(gè)BRAM單元。數(shù)據(jù)存儲(chǔ)與移位邏輯:每個(gè)BRAM單元存儲(chǔ)來自相同卷積引擎的部分和數(shù)據(jù)。例如,

PEA#0在不同時(shí)鐘周期產(chǎn)生的數(shù)據(jù)會(huì)被存儲(chǔ)在不同的BRAM中,如“0#0”存于BRAM0,而“0#1”存于BRAM1。數(shù)據(jù)讀取與輸出過程在過程b中,數(shù)據(jù)需從BRAM中按照原始順序左移回CE,邏輯由shuffle_i控制,以便進(jìn)行下一輪計(jì)算。過程c涉及將所有相關(guān)數(shù)據(jù)從BRAM讀出并傳輸?shù)酵獠看鎯?chǔ)DDR3。這一過程中,shuffle_o負(fù)責(zé)選擇與輸出特征圖對(duì)應(yīng)的部分和數(shù)據(jù),并確保其連續(xù)性,允許一次性讀出所有相關(guān)數(shù)據(jù)。7.5.2存儲(chǔ)管理單元架構(gòu)設(shè)計(jì)50ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

全連接層緩存區(qū)設(shè)計(jì)全連接層流水線架構(gòu)設(shè)計(jì)三級(jí)緩存結(jié)構(gòu)優(yōu)化流水線操作:第一級(jí)緩存:接收來自卷積層的輸出數(shù)據(jù)。第二級(jí)和第三級(jí)緩存:形成乒乓結(jié)構(gòu),交替作為輸入和

輸出緩存,支持連續(xù)的數(shù)據(jù)處理。權(quán)值緩存也采用乒乓結(jié)構(gòu),保持流水線效率。全連接計(jì)算速度與卷積層協(xié)調(diào)全連接計(jì)算可能比卷積層慢,要求第一級(jí)緩存專門接收卷積層輸出,支持不斷的數(shù)據(jù)流。圖7-31全連接層緩存結(jié)構(gòu)7.5.3系統(tǒng)帶寬需求分析51ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

帶寬需求卷積層和全連接層的帶寬需求計(jì)算為Gbyte/s。不同卷積層由于輸入輸出通道數(shù)的變化,帶寬需求不同。最大帶寬需求出現(xiàn)在執(zhí)行第一層卷積時(shí)。系統(tǒng)寬帶與需求對(duì)比系統(tǒng)的I/O帶寬明顯高于各層的帶寬需求,特別是全連接層。圖7-32顯示了VGGNet-16各層的帶寬需求,突出顯示了全連接層和第一層卷積層的帶寬對(duì)比。圖7-32系統(tǒng)中各個(gè)卷積層和全連接層的帶寬需求7.5.4緩存設(shè)計(jì)和其他模塊的協(xié)調(diào)工作52ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

操作流程總控狀態(tài)機(jī)發(fā)出讀取外部數(shù)據(jù)請(qǐng)求信號(hào)。啟動(dòng)數(shù)據(jù)交互模塊,首先將輸入特征圖數(shù)據(jù)和參數(shù)(權(quán)值和偏置)讀取到片上緩存。數(shù)據(jù)和參數(shù)讀取完成后,啟動(dòng)卷積操作引擎(CE)。輸出緩存區(qū)持續(xù)檢測(cè)CE的輸出數(shù)據(jù)有效性,并進(jìn)行數(shù)據(jù)累加。

卷積與全連接層的流水線操作卷積完成后,啟動(dòng)ReLU激活和池化操作。輸出數(shù)據(jù)寫出到外部DDR3。啟動(dòng)全連接層計(jì)算引擎,進(jìn)行全連接層計(jì)算。全連接層采用三級(jí)乒乓緩存結(jié)構(gòu),以提高數(shù)據(jù)讀寫效率。7.5.4緩存設(shè)計(jì)和其他模塊的協(xié)調(diào)工作53ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

狀態(tài)機(jī)協(xié)調(diào)圖7-33展示了總控狀態(tài)機(jī)與各子系統(tǒng)的交互和流水

線操作結(jié)構(gòu)。系統(tǒng)協(xié)調(diào)工作由總控狀態(tài)機(jī)和各子級(jí)狀態(tài)機(jī)控制。狀態(tài)機(jī)確保讀取數(shù)據(jù)和卷積操作并發(fā)執(zhí)行,優(yōu)化流

水線操作。卷積層與全連接層計(jì)算過程由不同狀態(tài)機(jī)控制。圖7-33緩存控制狀態(tài)機(jī)7.5.5緩存設(shè)計(jì)比較54ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

緩存設(shè)計(jì)是卷積神經(jīng)網(wǎng)絡(luò)硬件加速架構(gòu)很重要的一部分,在作為以片上內(nèi)存管理為導(dǎo)向的架構(gòu)設(shè)計(jì)中,如何最大化利用片上緩存和最小化數(shù)據(jù)傳輸帶寬是一個(gè)繞不開的問題。

文獻(xiàn)[1]:優(yōu)化內(nèi)存使用的卷積網(wǎng)絡(luò)加速架構(gòu)架構(gòu)設(shè)計(jì):以最小化片上內(nèi)存為中心,使用5個(gè)FPGABlockRAMs(BRAMs)構(gòu)建成循環(huán)存儲(chǔ)

結(jié)構(gòu)的輸入特征圖緩存區(qū)。卷積計(jì)算機(jī)制采用輸出特征圖優(yōu)先機(jī)制,不斷從外部存儲(chǔ)讀入所需輸入特征圖數(shù)據(jù)。設(shè)計(jì)簡化了卷積計(jì)算結(jié)構(gòu)和輸出緩沖區(qū)的控制。設(shè)計(jì)權(quán)衡與挑戰(zhàn)增加了與外部存儲(chǔ)的交互次數(shù),影響整體架構(gòu)的運(yùn)行速度。采用多輸出通道卷積核并行計(jì)算,但緩存設(shè)計(jì)限制了并行度。7.5.5緩存設(shè)計(jì)比較55ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

文獻(xiàn)[2]:金字塔型卷積計(jì)算架構(gòu)Fused-Layer主要目標(biāo):充分利用輸出特征圖,減少片上內(nèi)存與片外存儲(chǔ)之間的數(shù)據(jù)交互次數(shù)。架構(gòu)設(shè)計(jì):多層卷積層融合操作:不是在當(dāng)前卷積層所有輸出計(jì)算完成后再開始下一層,而是當(dāng)前

卷積塊的所有輸出計(jì)算完成后,立即在該區(qū)域上開始下一層卷積層的計(jì)算,依次類推。金字塔形卷積:因每層輸出特征圖尺寸逐漸減小,可融合多層卷積,直至輸出特征圖尺

寸小于卷積核尺寸。7.5.5緩存設(shè)計(jì)比較56ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

文獻(xiàn)[2]:金字塔型卷積計(jì)算架構(gòu)Fused-Layer優(yōu)點(diǎn):減少數(shù)據(jù)交互:只輸出部分特征圖,可以全部存儲(chǔ)在片上,無需

外部存儲(chǔ),極大減少數(shù)據(jù)交互次數(shù)。缺點(diǎn):計(jì)算過程獨(dú)立性:每次金字塔型計(jì)算過程都相互獨(dú)立,卷積操作

的特性導(dǎo)致連續(xù)兩個(gè)計(jì)算過程的數(shù)據(jù)重疊,重疊區(qū)域增加緩存需求。增加片上緩存:大卷積塊尺寸導(dǎo)致更多的重疊計(jì)算區(qū)域,增加額

外片上緩存需求。圖7-34

Fused-layer中數(shù)據(jù)重疊計(jì)算7.5.5緩存設(shè)計(jì)比較57ArtificialIntelligenceChipDesign,

Lecture

07:Artificialintelligencechiparchitecturedesign

文獻(xiàn)[3]:vDNN:面向GPU的高效可擴(kuò)展卷積計(jì)算架構(gòu)

在AlexNet網(wǎng)絡(luò)測(cè)試下,vDNN架構(gòu)使GPU內(nèi)存使用量相比原來降低了89%。傳統(tǒng)方法與vDNN的對(duì)比:傳統(tǒng)方法:在確定網(wǎng)絡(luò)結(jié)構(gòu)后,立即為每一層分配固定的全局內(nèi)存,導(dǎo)致大量內(nèi)存在計(jì)算

過程中處于空閑狀態(tài)。vDNN方法:拋棄從全局角度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論