存算一體技術(shù)產(chǎn)業(yè)發(fā)展研究_第1頁
存算一體技術(shù)產(chǎn)業(yè)發(fā)展研究_第2頁
存算一體技術(shù)產(chǎn)業(yè)發(fā)展研究_第3頁
存算一體技術(shù)產(chǎn)業(yè)發(fā)展研究_第4頁
存算一體技術(shù)產(chǎn)業(yè)發(fā)展研究_第5頁
已閱讀5頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

存算一體技術(shù)產(chǎn)業(yè)發(fā)展研究黃璜

張乾(中國信息通信研究院信息化與工業(yè)化融合研究所,北京100191)摘要:基于存算一體技術(shù)產(chǎn)業(yè)發(fā)展實際情況,結(jié)合人工智能算力快速發(fā)展的背景,從基礎(chǔ)硬件、計算架構(gòu)、技術(shù)挑戰(zhàn)等維度分析存算一體技術(shù)發(fā)展現(xiàn)狀和趨勢,研究存算一體產(chǎn)業(yè)結(jié)構(gòu)、主要應(yīng)用、產(chǎn)業(yè)發(fā)展面臨的機遇和挑戰(zhàn),最后根據(jù)我國算力技術(shù)產(chǎn)業(yè)發(fā)展實際情況,提出存算一體發(fā)展策略。關(guān)鍵詞:內(nèi)存計算;存算一體;非易失性存儲器件;人工智能0

引言隨著人工智能技術(shù)產(chǎn)業(yè)的演進和向云端、邊緣側(cè)的深入,多種依托人工智能算力的新應(yīng)用、新業(yè)態(tài)不斷涌現(xiàn)。其中,以ChatGPT等大模型訓(xùn)練推理為代表的一系列高算力人工智能應(yīng)用掀起了算力競賽浪潮,使得突破經(jīng)典馮·諾依曼架構(gòu),探索新算力再次成為計算技術(shù)突破的重大議題。存算一體技術(shù)具備高能效比、可快速進行矩陣運算等特點,是實現(xiàn)人工智能算力提升的重要候選架構(gòu)。筆者重點對存算一體技術(shù)的產(chǎn)生背景、發(fā)展歷程、核心技術(shù)發(fā)展態(tài)勢、產(chǎn)業(yè)和應(yīng)用發(fā)展態(tài)勢等方面進行分析和研究,以期為我國存算一體技術(shù)產(chǎn)業(yè)發(fā)展提出建設(shè)性意見。1

存算一體技術(shù)背景及發(fā)展歷程1.1

存算一體技術(shù)背景1.1.1

“馮·諾依曼瓶頸”問題在馮·諾依曼架構(gòu)中,數(shù)據(jù)從存儲單元外的存儲器獲取,處理完畢后再寫回存儲器,計算核心與存儲器之間有限的總帶寬直接限制了交換數(shù)據(jù)的速度,計算核心處理速度和訪問存儲器速度的差異進一步減緩處理速度,即“馮·諾依曼瓶頸”[1-2]。一方面,處理器和存儲器二者的需求、工藝不同,性能差距也就越來越大。存儲器數(shù)據(jù)訪問速度遠(yuǎn)低于中央處理器(CentralProcessingUnit,CPU)的數(shù)據(jù)處理速度,即“存儲墻”問題。另一方面,數(shù)據(jù)搬運的能耗比浮點計算高1~2個數(shù)量級[3]。芯片內(nèi)一級緩存功耗達25pJ/bit,動態(tài)隨機存取內(nèi)存(DynamicRandomAccessMemory,DRAM)訪問功耗達1.3~2.6nJ/bit[4],是芯片內(nèi)緩存功耗的50~100倍,進一步增加了數(shù)據(jù)訪問能耗。數(shù)據(jù)訪問和存儲已成為算力使用的最大能耗,即“功耗墻”問題。此外,摩爾定律放緩,工藝尺寸微縮變得越來越困難,甚至趨近極限;傳統(tǒng)架構(gòu)提升使得性能增長速度也在變緩,人們試圖尋找一種新的計算范式來取代現(xiàn)有計算范式以跳出馮·諾依曼架構(gòu)和摩爾定律的圍墻,并進行多種路徑嘗試。1.1.2

高算力需求的挑戰(zhàn)當(dāng)前,算力需求快速增長與算力提升放緩形成尖銳矛盾。以人工智能為例,從1960年到2010年算力需求每兩年提升一倍,而從2012年Alexnet使用圖形處理器(GraphicsProcessingUnit,GPU)進行訓(xùn)練開始,算力每3~4個月提升一倍[5]。谷歌AlphaGo在與李世石對弈中僅需要使用1920個CPU和280個GPU[6];而谷歌GPT-3開源人工智能模型有1746億個參數(shù),按照訓(xùn)練10天估算,需要3000~5000塊英偉達A100GPU;GPT-3.5訓(xùn)練顯卡數(shù)量進一步增至2萬塊;預(yù)計GPT-4訓(xùn)練參數(shù)在萬億的數(shù)量級[7],是GPT-3的6倍以上,運行成本和算力需求將大幅高于GPT-3.5。1.2

存算一體技術(shù)解決方案1.2.1

高帶寬數(shù)據(jù)通信高帶寬數(shù)據(jù)通信主要包括光互聯(lián)技術(shù)和2.5D/3D堆疊技術(shù)。其中光互聯(lián)技術(shù)具有高帶寬、長距離、低損耗、無串?dāng)_和電磁兼容等優(yōu)勢,但是光互聯(lián)器件難以在芯片內(nèi)布設(shè),且光交換重新連接開銷和延遲較大,實用化成本較高,難以大規(guī)模應(yīng)用。2.5D/3D堆疊技術(shù)通過增大并行帶寬或利用串行傳輸提升存儲帶寬,簡化系統(tǒng)存儲控制設(shè)計難度,具有高集成度、高帶寬、高能效等性能優(yōu)勢。但是目前2.5D/3D堆疊技術(shù)僅對分立器件或芯片內(nèi)部進行優(yōu)化設(shè)計,“存”和“算”從本質(zhì)上依然是分離的,難以彌合“存—算”之間的鴻溝。1.2.2

緩解訪存延遲和功耗的內(nèi)存計算為了逾越“存—算”之間的巨大鴻溝,內(nèi)存計算的概念應(yīng)運而生。內(nèi)存計算有兩種技術(shù)類型,一種是橫向擴展(Scale-out),主要是分布式內(nèi)存計算,典型代表有Spark架構(gòu),是一種軟件的方案;另一種是縱向擴展(Scale-up),又分為兩種,一種是近數(shù)據(jù)端處理(NearDataProcessing,NDP),包括近存儲計算和近內(nèi)存計算,另一種是存算一體,依賴經(jīng)典存儲器件或新型的存算器件,如圖1所示。圖1

內(nèi)存計算體系

分布式內(nèi)存計算是較早前誕生的基于軟件的內(nèi)存計算方案。2003年谷歌公司提出的MapReduce計算框架,能夠處理TB級數(shù)據(jù)量,是一種“分而治之再規(guī)約”的計算模型,用多個計算節(jié)點來計算。但缺點是在反復(fù)迭代計算過程中,數(shù)據(jù)要落盤,從而影響數(shù)據(jù)計算速度。2010年,美國加州大學(xué)伯克利分校AMP實驗室提出的分布式計算框架Spark,能夠充分利用內(nèi)存高速的數(shù)據(jù)傳輸速率,同時某些數(shù)據(jù)集已經(jīng)能全部放在內(nèi)存中進行計算,數(shù)據(jù)盡量留存在內(nèi)存中,從而避免落盤,隨著內(nèi)存容量持續(xù)增長,Spark依然活躍在工業(yè)界。

近數(shù)據(jù)端處理又分為兩種,一種是近存儲計算(In-StorageComputing,ISC),即在非易失存儲模塊中(固態(tài)硬盤等)加入現(xiàn)場可編程邏輯門陣列(FieldProgrammableGateArray,F(xiàn)PGA)、ARM處理器核等計算單元。三星在2019年展示產(chǎn)品SmartSSD(PM1725),集成了數(shù)字?jǐn)?shù)據(jù)處理器(NumericDataProcessor,NDP),可以通過一些編程模型、庫和編譯器進行程序編譯后在硬盤內(nèi)計算。近數(shù)據(jù)端計算的另一種方式是近內(nèi)存計算(In-MemoryComputing,IMC),數(shù)據(jù)直接在內(nèi)存中計算后返回,通過將存儲層和邏輯層堆疊實現(xiàn)大通道計算,目前業(yè)界有三星、英偉達、UPMem等企業(yè)跟進。

以上基于軟件的分布式內(nèi)存計算和拉近存儲與計算距離的近數(shù)據(jù)端處理,依然保留了經(jīng)典馮·諾依曼架構(gòu)的數(shù)據(jù)處理特點,而基于器件層面實現(xiàn)的存算一體是真正打破了存算分離架構(gòu)壁壘的非馮·諾依曼架構(gòu)。一方面,存算一體將計算和訪存融合,在存儲單元內(nèi)實現(xiàn)計算,從體系結(jié)構(gòu)上消除了訪存操作,從而避免了訪存延遲和訪存功耗,解決了“馮·諾依曼瓶頸”。另一方面,存算一體恰好能滿足人工智能算法的訪存密集、規(guī)則運算、低精度特性。因此,存算一體是解決“存儲墻”“功耗墻”問題的有效方案之一。

2

存算一體核心技術(shù)發(fā)展態(tài)勢

存算一體技術(shù)體系包含基礎(chǔ)理論、基礎(chǔ)硬件、計算架構(gòu)、軟件算法和應(yīng)用五部分。其中基礎(chǔ)理論包含近存儲計算、計算型存儲、歐姆定律、基爾霍夫定律等;基礎(chǔ)硬件又包含非易失性存儲和易失性存儲兩大類,非易失性存儲又包含基于傳統(tǒng)浮柵器件/閃存的存算一體和基于新型非易失性存儲器件(Non-VolatileMemory,NVM),包括基于相變存儲器(Phase-ChangeMemory,PCM)的存算一體、基于阻變存儲器(ResistiveRandomAccessMemory,ReRAM)的存算一體和基于自旋轉(zhuǎn)移矩磁存儲器(Spin-TransferTorqueMagnetoresistenceRandomAccessMenory,STT-MRAM,簡稱“MRAM”)的存算一體;易失性存儲計算則主要基于靜態(tài)隨機存取存儲器(StaticRandom-AccessMemory,SRAM)和DRAM兩類器件。計算架構(gòu)方面包括邏輯計算、模擬計算、搜索計算三大類型;軟件算法包括TensorFlow、卷積神經(jīng)網(wǎng)絡(luò)框架(ConvolutionalArchitectureforFastFeatureEmbeddin,Caffe)、卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)、深度神經(jīng)網(wǎng)絡(luò)(Deep-LearningNeuralNetwork,DNN)、長短期記憶(LongShort-TermMemory,LSTM)等人工智能相關(guān)軟件和算法;應(yīng)用主要包括人工智能、智能物聯(lián)網(wǎng)(ArtificialIntelligence&InternetofThings,AIoT)、圖計算、感存算一體等(如圖2所示)。圖2

存算一體技術(shù)體系

2.1

存算一體基礎(chǔ)硬件2.1.1

易失性存儲器件:運算較快,但難以實現(xiàn)大規(guī)模擴展存算一體器件與一般MOSFET器件的區(qū)別在于能“存”,“存”又包括易失性存儲和非易失性存儲,其中易失性存儲的SRAM和DRAM成為人們優(yōu)先嘗試的對象。

SRAM二值MAC運算可以把網(wǎng)絡(luò)權(quán)重存儲于SRAM單元中,利用外圍電路可以快速實現(xiàn)異或非(XNOR)累加運算,且能夠?qū)崿F(xiàn)二值神經(jīng)網(wǎng)絡(luò)運算[8]。DRAM則利用單元之間的電荷共享機制來實現(xiàn)存算一體,實現(xiàn)較快的運算速度,但是計算對數(shù)據(jù)具有破壞性,且功耗較大,以上兩種存算一體架構(gòu)均難以在實現(xiàn)大陣列運算的同時保證計算精度。

總的來說,基于易失性存儲器件SRAM或者DRAM存儲器的存算一體架構(gòu)可以實現(xiàn)較快的運算速度,但是難以實現(xiàn)大陣列擴展運算。此外,基于DRAM存儲器的存算一體架構(gòu)對數(shù)據(jù)具有破壞性,并帶來顯著的功耗問題。

2.1.2

浮柵器件/閃存:工藝成熟,率先應(yīng)用于存算一體芯片浮柵器件工藝成熟,編程時間10~1000ns,可編程次數(shù)達105次,存儲陣列大,可實現(xiàn)量產(chǎn),運算精度高、密度大、效率高、成本低[9]。NANDFlash用于存算一體最大的難點是地址和命令只能在I/O上傳遞,不能直接使用,需要十分復(fù)雜的技術(shù)才能實現(xiàn)模擬計算的功能。因此目前主要使用NorFlash來制造存算一體芯片。

2.1.3

相變存儲器:成本及功耗高,已應(yīng)用于存儲級內(nèi)存中相變存儲器是基于硫?qū)倩锊AР牧?,施加合適電流將介質(zhì)從晶態(tài)變?yōu)榉蔷B(tài)并再變回晶態(tài),基于材料導(dǎo)電性差異存儲數(shù)據(jù),如圖3所示。非晶態(tài)相變材料電阻率高、阻值大;多晶態(tài)相變材料的電阻率低、阻值小。通過控制脈沖電壓幅度產(chǎn)生熱量可以實現(xiàn)非晶體和多晶態(tài)間轉(zhuǎn)換,從而控制阻值大小,實現(xiàn)存儲(阻值態(tài))和計算。優(yōu)點是高讀寫速度、壽命長、工藝簡單、可以進行多態(tài)存儲和多層存儲;缺點主要是單bit成本高、發(fā)熱量大功耗高、電路設(shè)計不完善[10]。圖3

PCM器件結(jié)構(gòu)和R-V特性

2.1.4

阻變存儲器:契合存算一體對器件的需求ReRAM是“三明治”結(jié)構(gòu),包含了上下金屬電極和中間的阻變絕緣體層,初始狀態(tài)為高阻態(tài),需要在兩端施加大的電壓脈沖“激活”,通過正向/反向電壓“擊穿”金屬氧化層形成導(dǎo)電細(xì)絲/氧原子復(fù)位,完成在低阻態(tài)與高阻態(tài)間的轉(zhuǎn)換(如圖4所示)。優(yōu)點主要包括可高速讀寫編程、壽命長、具備多位存儲能力、與CMOS工藝兼容、功耗低、可3D集成;缺點主要有絲狀電阻擴展難、相鄰單元串?dāng)_和器件微縮能力難以兼顧。在商業(yè)化上,Crossbar、昕原半導(dǎo)體、松下、Adesto、Elpida、東芝、索尼、海力士、富士通等廠商都在開展ReRAM的研究和生產(chǎn)。圖4

ReRAM器件結(jié)構(gòu)和脈沖響應(yīng)特性

2.1.5

自旋轉(zhuǎn)移矩磁存儲器:容量提升有待進一步突破MRAM基本結(jié)構(gòu)包含三層,其中底層磁化的方向不變,稱為參考層;頂層磁化方向可被編程發(fā)生變化,稱為自由層;中間層稱為隧道層。由于隧道磁阻效應(yīng),參考層和自由層的相對磁化方向決定了磁效應(yīng)憶阻器的阻值大小。參考層和自由層的磁化方向一致時(P態(tài)),磁效應(yīng)憶阻器的阻值最??;如果磁化方向不一致時(AP態(tài)),磁效應(yīng)憶阻器的阻值最大(如圖5所示)。優(yōu)點主要是讀寫高速、壽命長,和邏輯芯片整合度高、功耗低;缺點包括臨近存儲單元之間存在磁場疊加,互相干擾嚴(yán)重。圖5

MRAM器件結(jié)構(gòu)和R-V特性

2.1.6

小結(jié)NorFlash工藝成熟,已率先應(yīng)用于存算一體芯片。SRAM制作工藝、研發(fā)工具都更加成熟穩(wěn)定,具有耐久性強且操作速度快的特點,可以實時在存算單元中刷新計算數(shù)據(jù),具備大算力場景應(yīng)用潛力。ReRAM工藝可以與互補金屬氧化物半導(dǎo)體(ComplementaryMetal-Oxide-Semiconductor,CMOS)兼容,具有高速讀出、壽命長、功耗低、可3D集成等優(yōu)點,初具產(chǎn)業(yè)化潛力,其相關(guān)性能如表1所示。臺積電正開展MRAM攻關(guān),未來有望實現(xiàn)突破。但是新型非易失存儲器在存算一體技術(shù)的應(yīng)用還存在諸多問題,從實驗室到產(chǎn)業(yè)化還有一定差距。表1

存儲器件相關(guān)性能總結(jié)

2.2

存算一體技術(shù)計算架構(gòu)2.2.1

邏輯計算:二值憶阻器可以實現(xiàn)完備的布爾邏輯基于新型憶阻器的存算一體技術(shù)架構(gòu)可實現(xiàn)完備的布爾邏輯計算。如圖6所示,在R-R邏輯運算中,基于歐姆定律和基爾霍夫電壓電流定律,根據(jù)輸入將兩個憶阻器件寫到對應(yīng)高低阻態(tài),分別施加電壓,輸出結(jié)果存在X2。在V-R邏輯運算中,輸入是通過施加在單個憶阻器兩端的電壓幅值X1、X2來表示,而邏輯輸出Y則由高低阻態(tài)來表示。在V-V邏輯運算中,根據(jù)歐姆定律,輸入和輸出通過電壓幅值低高來分別表示邏輯0和1,需要額外的比較器設(shè)計,構(gòu)成與、或、非3類邏輯[10]。圖6

R-R、V-R和V-V三種邏輯運算電路

破壞性是指是否會擦除輸入的初態(tài)。如表2所示,只有R-R因為輸入輸出都是憶阻器的阻值,所以輸出后原阻值會被擦除,所以具有破壞性;但是電路簡單且易級聯(lián)。V-R電路具有非破壞性的優(yōu)點,但是需要額外比較電路,電路復(fù)雜度上升。V-V電路復(fù)雜度最高。綜合考慮級聯(lián)性、電路復(fù)雜性、破壞性等特性,目前R-R和V-R更具實用價值。表2

R-R、V-R和V-V三種邏輯運算電路的比較

2.2.2

模擬計算:行列式與矩陣乘運算基于新型憶阻器的存算一體技術(shù)架構(gòu),利用歐姆定律和基爾霍夫定律,通過網(wǎng)絡(luò)陣列可進行矩陣向量乘法運算,如圖7所示。單個存儲單元即可完成8bit乘加法運算(原需2500個晶體管),可并行完成整個矩陣的運算,效率提高50~100倍。適用于人工智能訓(xùn)練(超過90%的運算為矩陣運算)等大數(shù)據(jù)、低精度、簡單乘加運算等場景[1]。圖7

基于新型憶阻器的向量矩陣乘法

2.2.3

搜索計算:特殊搜索問題具有較高的效能清華大學(xué)的SQL-PIM是基于存算一體技術(shù)的搜索計算。SQL-PIM能在不改變結(jié)構(gòu)化存儲的前提下支持增、刪、改、查操作。針對數(shù)據(jù)量大的數(shù)據(jù)庫表,SQL-PIM利用一種特殊的關(guān)聯(lián)分割方法,將大表存儲在多個存內(nèi)計算陣列中,同時減少每個計算陣列之間的相互通信。與傳統(tǒng)的數(shù)據(jù)庫相比,SQL-PIM能節(jié)約4~6個數(shù)量級的能耗[11]。但是整體而言,存算一體技術(shù)應(yīng)用于搜索運算還停留在實驗室階段,尚未實現(xiàn)產(chǎn)業(yè)化或商業(yè)化應(yīng)用。

2.3

存算一體技術(shù)挑戰(zhàn)2.3.1

器件特性難以滿足全部需求存算一體技術(shù)功能器件紛繁多樣,然而目前尚未有一種器件的性能能滿足全部應(yīng)用需求。器件存在均一性差、循環(huán)耐久性差、器件狀態(tài)漂移等問題,目前已有一些優(yōu)化和解決的方法,但尚未根本解決上述問題。

2.3.2

陣列存在泄露路徑、寫串?dāng)_以及寄生電容電阻問題存算一體芯片網(wǎng)格陣列面臨泄露路徑、寫串?dāng)_以及寄生電容電阻三大問題。在讀取器件阻值時,泄露路徑的存在引入了并聯(lián)的電流通路,可能造成錯誤的讀取結(jié)果。泄露路徑還會帶來額外的功耗,并隨著陣列規(guī)模的擴大而變得更加嚴(yán)重。由于陣列高度并行性帶來的寫串?dāng)_問題會使未被選中器件的阻值受到一定影響。寄生電容、電阻會使電路延遲增加,使遠(yuǎn)端器件工作異常[12]。

2.3.3

現(xiàn)有集成電路設(shè)計與集成技術(shù)難以滿足需求控制輔助電路面積和功耗占比太高,外圍的器件比存算的部分大很多,外圍功耗也會減少存算一體的收益。設(shè)計方面,CMOS走在前沿,與存儲存在工藝差距,而統(tǒng)一制程將增加硬件開銷,獨立制程又將增加系統(tǒng)復(fù)雜度。3D異質(zhì)集成是可行的路徑。

2.3.4

架構(gòu)設(shè)計與開發(fā)工具有待標(biāo)準(zhǔn)化計算的多樣性與計算定制性之間存在矛盾。不同計算網(wǎng)絡(luò)需要定制化的存算一體架構(gòu),而全定制又不利于推廣。軟件和開發(fā)工具方面,缺少標(biāo)準(zhǔn)化的異構(gòu)編程框架;數(shù)據(jù)映射、數(shù)據(jù)流配置缺少工具;模擬計算的“模糊/隨機性”還需要進行圖靈完備性的檢驗。

3

存算一體技術(shù)產(chǎn)業(yè)和應(yīng)用發(fā)展態(tài)勢

3.1

產(chǎn)業(yè)發(fā)展現(xiàn)狀3.1.1

科研巨頭加速布局IBM公司重點布局PCM。2018年IBM公司通過PCM實現(xiàn)在數(shù)據(jù)存儲的位置執(zhí)行計算來加速全連接神經(jīng)網(wǎng)絡(luò)訓(xùn)練,該芯片的能效比是傳統(tǒng)GPU的280倍,單位面積算力是傳統(tǒng)GPU的100倍[13]。

三星集團重點布局DRAM和MRAM。2017年,三星電子存儲部門聯(lián)合加州大學(xué)圣巴巴拉分校推出DRISA架構(gòu),實現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)的計算功能,在提供大規(guī)模片上存儲的同時也具備較高的計算性能。2022年初,三星電子在《Nature》上發(fā)表了首個基于MRAM的存算一體芯片,三星電子采用28nmCMOS工藝重新構(gòu)建MRAM陣列結(jié)構(gòu),以“電阻總和”(ResistanceSum)的存內(nèi)計算結(jié)構(gòu)代替了傳統(tǒng)的“電流總和”(CurrentSum),或電荷共享式的存內(nèi)計算架構(gòu),通過測試分類識別等算法,得到98%的準(zhǔn)確率[14]。

英特爾公司重點布局SRAM。英特爾公司聯(lián)合美國密歇根州立大學(xué)從2016年開始展開基于SRAM的計算型存儲/存算一體技術(shù)研究。2016年,基于SRAM實現(xiàn)了支持邏輯操作的存儲器,并在此基礎(chǔ)上實現(xiàn)了支持無進位乘法運算的計算型緩存[15]。2018年英特爾公司發(fā)布了面向深度學(xué)習(xí)算法的神經(jīng)緩存,可以實現(xiàn)加法、乘法和減法操作[16]。

3.1.2

初創(chuàng)企業(yè)涌現(xiàn),投融資進入活躍期,迎來產(chǎn)業(yè)化轉(zhuǎn)折點存算一體初創(chuàng)公司蓬勃發(fā)展,在北美和我國先后涌現(xiàn)多家初創(chuàng)公司。較早成立的初創(chuàng)公司傾向于采用較為成熟的NorFlash器件,知存科技等多家企業(yè)在2021年實現(xiàn)NorFlash存算一體芯片量產(chǎn),2021年成為存算一體產(chǎn)業(yè)化元年。近幾年,初創(chuàng)企業(yè)加快布局SRAM領(lǐng)域,但是ReRAM等新型非易失存儲器件還只在初創(chuàng)企業(yè)的藍(lán)圖中,尚未實現(xiàn)流片量產(chǎn)。

存算一體技術(shù)近年來受到資本市場高度關(guān)注,在中美兩國涌現(xiàn)的初創(chuàng)企業(yè)均獲得投融資機會。從2021年開始,在我國半導(dǎo)體產(chǎn)業(yè)政策和基金雙重助力下,存算一體領(lǐng)域投融資尤為活躍,多家初創(chuàng)企業(yè)獲得上億元融資。

3.1.3

存算一體技術(shù)與類腦計算具有深度關(guān)聯(lián)存算一體技術(shù)是大腦最主要的特征之一,也是實現(xiàn)高算力、高能效計算的一項關(guān)鍵技術(shù)。以清華大學(xué)為代表的涉及憶阻器領(lǐng)域的科研院校同時進行存算一體技術(shù)和類腦計算研究,在材料、器件研發(fā)、芯片設(shè)計、性能測試等方面深度關(guān)聯(lián)。

存算一體技術(shù)和類腦計算具有相同點和不同點。相同點是器件方面均采用憶阻器作為核心器件;應(yīng)用都主要面向人工智能。不同點是類腦計算的神經(jīng)形態(tài)器件更復(fù)雜,而存算一體器件較為基礎(chǔ);類腦芯片主要采用脈沖神經(jīng)網(wǎng)絡(luò)的架構(gòu),具有專用性,存算一體技術(shù)主要是矩陣結(jié)構(gòu),具有通用性。

3.2

存算一體技術(shù)應(yīng)用3.2.1

AI訓(xùn)練和推理:圖像識別、大模型訓(xùn)練推理2017年,清華大學(xué)團隊制備了128×8的多值憶阻器陣列,對包含320(20×16)個像素點的人臉圖像進行訓(xùn)練和識別。單幅圖像識別耗能可低達61.16nJ,識別速度可高達34.8ms,識別率超過85%[17]。

2023年3月,南京大學(xué)王欣然教授團隊與清華大學(xué)吳華強教授團隊合作,提出基于二維半導(dǎo)體鐵電晶體管的新型存內(nèi)計算器件架構(gòu),通過調(diào)節(jié)鐵電勢阱,實現(xiàn)了同時滿足AI訓(xùn)練和推理需求的底層器件,并展現(xiàn)了高達103TOPS/W級別的能效潛力。該成果突破了邊緣端人工智能硬件的關(guān)鍵瓶頸之一[18]。

由于GPT等大模型訓(xùn)練中占比80%~85%的線性計算(Linear)、前饋計算(FeedForward)、歸一化(LayerNorm)以及參數(shù)變量乘積等計算流程在進行分解后都可以通過存算一體技術(shù)完成,因此存算一體技術(shù)在大模型訓(xùn)練方面有望取得應(yīng)用突破。

與此同時,存算一體計算精度會受到模擬計算低信噪比的影響,通常精度上限在8bit左右,難以實現(xiàn)精準(zhǔn)的浮點數(shù)計算。現(xiàn)階段GPT大模型訓(xùn)練也主要依賴H100/A100等英偉達GPU的絕對算力,短期內(nèi)對能效比等因素不敏感。產(chǎn)業(yè)界目前使用的NorFlash、SRAM為主導(dǎo)的存算一體芯片僅在能效比方面擁有優(yōu)勢,在絕對算力方面難以滿足智能計算算力需求,難以應(yīng)用于智能計算中心。

3.2.2

AIoT:終端應(yīng)用、無人駕駛隨著AIoT的快速發(fā)展,針對時延、帶寬、功耗、隱私/安全性等特殊應(yīng)用需求,驅(qū)動邊緣側(cè)和端側(cè)智能應(yīng)用場景爆發(fā)。借助邊緣端/終端有限的處理能力,可以過濾掉大部分無用數(shù)據(jù),從而大幅度提高用戶體驗。存算一體技術(shù)具有低功耗和適用于低精度AI的特性,能夠作為協(xié)處理器應(yīng)用于智能終端等AIoT場景。

AIoT是存算一體技術(shù)目前布局的重點領(lǐng)域。知存科技重點布局語言喚醒語音活動檢測(VoiceActivityDetection,VAD)、語音識別、通話降噪、聲紋識別等,可以應(yīng)用在很多嵌入式領(lǐng)域中,包括健康監(jiān)測以及較低功耗(毫安級)的視覺識別;九天睿芯產(chǎn)品主要用于語音喚醒,或者時間序列傳感器信號計算處理;定位推廣可穿戴及超低功耗IoT設(shè)備;后摩智能相關(guān)芯片應(yīng)用于無人車邊緣端以及云端推理和培訓(xùn)等場景,2022年5月,后摩智能自主研發(fā)的存算一體技術(shù)大算力AI芯片跑通智能駕駛算法模型。

存算一體技術(shù)在向邊緣側(cè)延伸過程中面臨專用集成電路(ApplicationSpecificIntegratedCircuit,ASIC)、微控制單元(MicrocontrollerUnit,MCU)以及邊緣計算中心的競爭壓

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論