![人工智能行業(yè)深度報(bào)告:算力大時(shí)代AI算力產(chǎn)業(yè)鏈全景梳理_第1頁(yè)](http://file4.renrendoc.com/view/031d0af0a3ae1c53b5897f7287db949f/031d0af0a3ae1c53b5897f7287db949f1.gif)
![人工智能行業(yè)深度報(bào)告:算力大時(shí)代AI算力產(chǎn)業(yè)鏈全景梳理_第2頁(yè)](http://file4.renrendoc.com/view/031d0af0a3ae1c53b5897f7287db949f/031d0af0a3ae1c53b5897f7287db949f2.gif)
![人工智能行業(yè)深度報(bào)告:算力大時(shí)代AI算力產(chǎn)業(yè)鏈全景梳理_第3頁(yè)](http://file4.renrendoc.com/view/031d0af0a3ae1c53b5897f7287db949f/031d0af0a3ae1c53b5897f7287db949f3.gif)
![人工智能行業(yè)深度報(bào)告:算力大時(shí)代AI算力產(chǎn)業(yè)鏈全景梳理_第4頁(yè)](http://file4.renrendoc.com/view/031d0af0a3ae1c53b5897f7287db949f/031d0af0a3ae1c53b5897f7287db949f4.gif)
![人工智能行業(yè)深度報(bào)告:算力大時(shí)代AI算力產(chǎn)業(yè)鏈全景梳理_第5頁(yè)](http://file4.renrendoc.com/view/031d0af0a3ae1c53b5897f7287db949f/031d0af0a3ae1c53b5897f7287db949f5.gif)
版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
人工智能行業(yè)深度報(bào)告:算力大時(shí)代,AI算力產(chǎn)業(yè)鏈全景梳理一、AI有望明顯拉動(dòng)算力基礎(chǔ)設(shè)施投資1.1ChatGPT爆紅引發(fā)了人們對(duì)于人工智能發(fā)展的高度關(guān)注人工智能(AI)是指由機(jī)器展示的智能,即計(jì)算機(jī)基于大數(shù)據(jù)模擬人腦的各項(xiàng)功能,例如推理、視覺(jué)識(shí)別、語(yǔ)義理解、學(xué)習(xí)能力及規(guī)劃與決策能力等。人工智能生成內(nèi)容(AIGC)是指利用人工智能技術(shù)來(lái)生成內(nèi)容,包括繪畫(huà)、作曲、剪輯、寫(xiě)作等。AIGC的萌芽可追溯到上世紀(jì)50年代,90年代從實(shí)驗(yàn)性向?qū)嵱眯灾饾u轉(zhuǎn)變,但受限于算法瓶頸,無(wú)法直接生成內(nèi)容,從21世紀(jì)10年代開(kāi)始,隨著以生成對(duì)抗網(wǎng)絡(luò)(GAN)為代表的深度學(xué)習(xí)算法的提出和迭代,AIGC迎來(lái)了快速發(fā)展階段。市場(chǎng)需求推動(dòng)AIGC技術(shù)加速落地。1)降低人力和時(shí)間成本:AIGC可以幫助人們完成許多繁瑣工作,從而節(jié)省人力資本和工作時(shí)間,并可以在相同的時(shí)間內(nèi)產(chǎn)出更多內(nèi)容。2)改善內(nèi)容質(zhì)量。AIGC被認(rèn)為是繼專(zhuān)業(yè)生產(chǎn)內(nèi)容(PGC)、用戶(hù)生產(chǎn)內(nèi)容(UGC)之后的新型內(nèi)容生產(chǎn)方式。盡管PGC和UGC的內(nèi)容更具多元化、個(gè)性化,但受限于激勵(lì)措施和創(chuàng)作者自身因素影響,市場(chǎng)存在供給不足的現(xiàn)象。3)促進(jìn)產(chǎn)業(yè)數(shù)字化,助力數(shù)字經(jīng)濟(jì)發(fā)展。產(chǎn)業(yè)數(shù)字化是數(shù)字經(jīng)濟(jì)的融合部分,是傳統(tǒng)產(chǎn)業(yè)應(yīng)用數(shù)字技術(shù)所帶來(lái)的生產(chǎn)數(shù)量和效率提升,其新增產(chǎn)出構(gòu)成數(shù)字經(jīng)濟(jì)的重要組成部分,AIGC為數(shù)字經(jīng)濟(jì)提供了重要的數(shù)據(jù)要素。ChatGPT的爆紅引發(fā)了人們對(duì)于人工智能發(fā)展的高度關(guān)注。2022年11月30日,OpenAI發(fā)布語(yǔ)言模型ChatGPT。該模型采用對(duì)話(huà)的形式與人進(jìn)行交互,可以回答后續(xù)問(wèn)題、承認(rèn)錯(cuò)誤、挑戰(zhàn)不正確的前提、拒絕不適當(dāng)?shù)恼?qǐng)求。ChatGPT不僅在日常對(duì)話(huà)、專(zhuān)業(yè)問(wèn)題回答、信息檢索、內(nèi)容續(xù)寫(xiě)、文學(xué)創(chuàng)作、音樂(lè)創(chuàng)作等方面展現(xiàn)出強(qiáng)大的能力,還具有生成代碼、調(diào)試代碼、為代碼生成注釋的能力。1.2人工智能需要強(qiáng)大算力支撐以ChatGPT為代表的人工智能應(yīng)用在運(yùn)行背后需要強(qiáng)大的算力支撐。OpenAI在2018年推出的GPT參數(shù)量為1.17億,預(yù)訓(xùn)練數(shù)據(jù)量約5GB,而GPT-3參數(shù)量達(dá)1750億,預(yù)訓(xùn)練數(shù)據(jù)量達(dá)45TB。在模型訓(xùn)練階段,ChatGPT的總算力消耗約為3640PF-days,總訓(xùn)練成本為1200萬(wàn)美元,在服務(wù)訪(fǎng)問(wèn)階段則會(huì)有更大消耗。IDC數(shù)據(jù)顯示:2021年全球人工智能IT投資額為929.5億美元,預(yù)計(jì)2026年將增至3014.3億美元,復(fù)合年增長(zhǎng)率約26.5%。2026年中國(guó)市場(chǎng)AI投資預(yù)計(jì)將達(dá)266.9億美元,約占全球投資8.9%,居世界第二位,復(fù)合年增長(zhǎng)率約21.7%。未來(lái)五年,硬件將成為中國(guó)人工智能最大的細(xì)分市場(chǎng),占人工智能總投資的50%以上。IDC預(yù)測(cè),2026年,中國(guó)在人工智能硬件市場(chǎng)的IT投資將超過(guò)150億美元,接近美國(guó)人工智能硬件的市場(chǎng)規(guī)模,五年復(fù)合年增長(zhǎng)率16.5%。服務(wù)器作為硬件市場(chǎng)的主要組成部分,預(yù)計(jì)將占總投入的80%以上。人工智能的發(fā)展將對(duì)算力提出更高要求,算力網(wǎng)絡(luò)基礎(chǔ)設(shè)施需求有望持續(xù)提升。根據(jù)中國(guó)信通院數(shù)據(jù),2021年全球計(jì)算設(shè)備算力總規(guī)模達(dá)到615EFlops(每秒浮點(diǎn)運(yùn)算次數(shù)),同比增長(zhǎng)44%,其中基礎(chǔ)算力規(guī)模為369EFlops,智能算力規(guī)模為232EFlops,超算算力規(guī)模為14EFlops,預(yù)計(jì)2030年全球算力規(guī)模將達(dá)到56ZFlps,平均年均增長(zhǎng)65%。我國(guó)智能算力規(guī)模持續(xù)高速增長(zhǎng),2021年智能算力規(guī)模已經(jīng)超過(guò)通用算力。根據(jù)中國(guó)信通院數(shù)據(jù),我國(guó)計(jì)算設(shè)備算力總規(guī)模達(dá)到202EFlops,全球占比約為33%,保持50%以上的高速增長(zhǎng)態(tài)勢(shì),增速高于全球,其中智能算力增長(zhǎng)迅速,增速為85%,在我國(guó)算力中的占比超過(guò)50%。1.3AI算力產(chǎn)業(yè)鏈涉及環(huán)節(jié)較多,行業(yè)需求有望全面提升AI算力產(chǎn)業(yè)鏈涉及環(huán)節(jié)較多,按照算力基礎(chǔ)設(shè)施構(gòu)成來(lái)看,包括AI芯片及服務(wù)器、交換機(jī)及光模塊、IDC機(jī)房及上游產(chǎn)業(yè)鏈等。其中,隨著訓(xùn)練和推理需求提升,AI芯片及服務(wù)器需求將率先放量;AI算力對(duì)數(shù)據(jù)中心內(nèi)部數(shù)據(jù)流量較大,光模塊速率及數(shù)量均有顯著提升,交換機(jī)的端口數(shù)及端口速率也有相應(yīng)的增長(zhǎng);IDC也有望進(jìn)入需求釋放階段,預(yù)計(jì)液冷溫控滲透率將快速提升,海底數(shù)據(jù)中心也可能將迎來(lái)產(chǎn)業(yè)化的關(guān)鍵節(jié)點(diǎn)。1、AI芯片和服務(wù)器需求將率先放量根據(jù)測(cè)算,2023年-2027年全球大模型訓(xùn)練端峰值算力需求量的年復(fù)合增長(zhǎng)率為78.0%。2023年全球大模型訓(xùn)練端所需全部算力換算成的A100總量超過(guò)200萬(wàn)張。從云端推理所需算力角度測(cè)算,2023年-2027年,全球大模型云端推理的峰值算力需求量的年復(fù)合增長(zhǎng)率為113%,如果考慮邊緣端AI推理的應(yīng)用,推理端算力規(guī)模將進(jìn)一步擴(kuò)大。2、AI算力改變數(shù)據(jù)中心內(nèi)部網(wǎng)絡(luò)架構(gòu),光模塊和交換機(jī)速率及需求提升AI數(shù)據(jù)中心中,由于內(nèi)部數(shù)據(jù)流量較大,因此無(wú)阻塞的胖樹(shù)網(wǎng)絡(luò)架構(gòu)成了重要需求之一,光模塊速率及數(shù)量均有顯著提升,交換機(jī)的端口數(shù)及端口速率也有相應(yīng)的增長(zhǎng)。800G光模塊2022年底開(kāi)始小批量出貨,2023年需求主要來(lái)自于英偉達(dá)和谷歌,2024年有望大規(guī)模出貨,并存在時(shí)間前移的可能。從交換機(jī)的電口來(lái)看,SerDes通道的速率每四年翻倍,數(shù)量每?jī)赡攴?,交換機(jī)的帶寬每?jī)赡攴叮粡墓饪趤?lái)看,光模塊每4年升級(jí)一次,實(shí)際出貨時(shí)間是晚于電口SerDes及交換機(jī)芯片新版發(fā)布的時(shí)間。2019年作為100G光模塊升級(jí)的時(shí)間點(diǎn),市場(chǎng)分成了200G和400G兩條升級(jí)路徑。但是在2023年這個(gè)時(shí)間點(diǎn),市場(chǎng)下一代高速率光模塊均指向800G光模塊,疊加AIGC帶來(lái)的算力和模型競(jìng)賽,我們預(yù)計(jì)北美各大云廠(chǎng)商和相關(guān)科技巨頭均有望在2024年大量采購(gòu)800G光模塊,同時(shí)2023年也可能提前采購(gòu)。3、IDC需求有望釋放,AI服務(wù)器高功率密度或?qū)⑼粕豪錆B透率IDC作為算力基礎(chǔ)設(shè)施產(chǎn)業(yè)鏈的關(guān)鍵環(huán)節(jié),也有望進(jìn)入需求釋放階段。在過(guò)去兩年半,受多重因素影響下,云計(jì)算需求景氣度下行,但I(xiàn)DC建設(shè)與供給未出現(xiàn)明顯放緩,2021年和2022年分別新增機(jī)柜數(shù)量120萬(wàn)架和150萬(wàn)架,因此短期內(nèi)出現(xiàn)供需失衡情況(核心區(qū)域供需狀況相對(duì)良好),部分地區(qū)上電率情況一般。所以IDC公司2022年業(yè)績(jī)普遍承壓。隨著平臺(tái)經(jīng)濟(jì)發(fā)展恢復(fù)以及AI等拉動(dòng),IDC需求有望逐步釋放,疊加2023新增供給量有望較2022年減少(例如三大運(yùn)營(yíng)商2022年新增IDC機(jī)柜15.6萬(wàn)架,2023年計(jì)劃新增11.4萬(wàn)架)。人工智能大模型訓(xùn)練和推理運(yùn)算所用的GPU服務(wù)器的功率密度將大幅提升,以英偉達(dá)DGXA100服務(wù)器為例,其單機(jī)最大功率約可以達(dá)到6.5kW,大幅超過(guò)單臺(tái)普通CPU服務(wù)器500w左右的功率水平。在此情況下,一方面需要新建超大功率的機(jī)柜,另一方面為降低PUE,預(yù)計(jì)液冷溫控滲透率將快速提升,海底數(shù)據(jù)中心也可能將迎來(lái)產(chǎn)業(yè)化的關(guān)鍵節(jié)點(diǎn)。二、AI芯片需求爆發(fā)式增長(zhǎng)2.1AI大規(guī)模落地應(yīng)用對(duì)AI芯片性能、數(shù)量提出全方位要求從廣義上講,能運(yùn)行AI算法的芯片都叫AI芯片。CPU、GPU、FPGA、NPU、ASIC都能執(zhí)行AI算法,但在執(zhí)行效率層面上有巨大的差異。CPU可以快速執(zhí)行復(fù)雜的數(shù)學(xué)計(jì)算,但同時(shí)執(zhí)行多項(xiàng)任務(wù)時(shí),CPU性能開(kāi)始下降,目前行業(yè)內(nèi)基本確認(rèn)CPU不適用于A(yíng)I計(jì)算。CPU+xPU的異構(gòu)方案成為大算力場(chǎng)景標(biāo)配,GPU為應(yīng)用最廣泛的AI芯片。目前業(yè)內(nèi)廣泛認(rèn)同的AI芯片類(lèi)型包括GPU、FPGA、NPU等。由于CPU負(fù)責(zé)對(duì)計(jì)算機(jī)的硬件資源進(jìn)行控制調(diào)配,也要負(fù)責(zé)操作系統(tǒng)的運(yùn)行,在現(xiàn)代計(jì)算系統(tǒng)中仍是不可或缺的。GPU、FPGA等芯片都是作為CPU的加速器而存在,因此目前主流的AI計(jì)算系統(tǒng)均為CPU+xPU的異構(gòu)并行。CPU+GPU是目前最流行的異構(gòu)計(jì)算系統(tǒng),在HPC、圖形圖像處理以及AI訓(xùn)練/推理等場(chǎng)景為主流選擇。IDC數(shù)據(jù)顯示,2021年中國(guó)AI芯片市場(chǎng)中,GPU市占率為89%。2.1.1GPU性能、功能經(jīng)歷長(zhǎng)期迭代升級(jí),成為AI芯片中應(yīng)用最廣泛的選擇GPU能夠進(jìn)行并行計(jì)算,設(shè)計(jì)初衷是加速圖形渲染。NVIDIA在1999年發(fā)布GeForce256圖形處理芯片時(shí)首先提出GPU(GraphicProcessingUnit)的概念,并將其定義為“具有集成轉(zhuǎn)換、照明、三角形設(shè)置/裁剪和渲染引擎的單芯片處理器,能夠每秒處理至少1000萬(wàn)個(gè)多邊形”。從計(jì)算資源占比角度看,CPU包含大量的控制單元和緩存單元,實(shí)際運(yùn)算單元占比較小。GPU則使用大量的運(yùn)算單元,少量的控制單元和緩存單元。GPU的架構(gòu)使其能夠進(jìn)行規(guī)?;⑿杏?jì)算,尤其適合邏輯簡(jiǎn)單,運(yùn)算量大的任務(wù)。GPU通過(guò)從CPU承擔(dān)一些計(jì)算密集型功能(例如渲染)來(lái)提高計(jì)算機(jī)性能,加快應(yīng)用程序的處理速度,這也是GPU早期的功能定位。GPU性能提升與功能豐富逐步滿(mǎn)足AI運(yùn)算需要。2010年NVIDIA提出的Fermi架構(gòu)是首個(gè)完整的GPU計(jì)算架構(gòu),其中提出的許多新概念沿用至今。Kepler架構(gòu)在硬件上擁有了雙精度計(jì)算單元(FP64),并提出GPUDirect技術(shù),繞過(guò)CPU/SystemMemory,與其他GPU直接進(jìn)行數(shù)據(jù)交互。Pascal架構(gòu)應(yīng)用了第一代NVLink。Volta架構(gòu)開(kāi)始應(yīng)用TensorCore,對(duì)AI計(jì)算加速具有重要意義。簡(jiǎn)要回顧NVIDIAGPU硬件變革歷程,工藝、計(jì)算核心數(shù)增加等基礎(chǔ)特性的升級(jí)持續(xù)推動(dòng)性能提升,同時(shí)每一代架構(gòu)所包含的功能特性也在不斷豐富,逐漸更好地適配AI運(yùn)算的需要。均衡分配資源的前提下,處理低精度的硬件單元數(shù)量更多,表現(xiàn)更高的算力性能。GPU作為加速器得到廣泛應(yīng)用一定程度上得益于它的通用性,為了在不同精度的數(shù)據(jù)類(lèi)型上具有良好的性能,以兼顧AI、科學(xué)計(jì)算等不同場(chǎng)景的需要,英偉達(dá)在分配處理不同數(shù)據(jù)類(lèi)型的硬件單元時(shí)大體上保持均衡。因?yàn)榈途葦?shù)據(jù)類(lèi)型的計(jì)算占用更少的硬件資源,同一款GPU中的處理低精度數(shù)據(jù)類(lèi)型的硬件單元的數(shù)量較多,對(duì)應(yīng)計(jì)算能力也較強(qiáng)。以V100為例,每個(gè)SM中FP32單元的數(shù)量都為FP64單元的兩倍,最終V100的FP32算力(15.7TFLOPS)也近似為FP64(7.8TFLOPS)的兩倍,類(lèi)似的規(guī)律也可以在各代架構(gòu)旗艦P100、A100和H100中看到。TensorCore持續(xù)迭代提升其加速能力。Volta架構(gòu)引入TensorCore的改動(dòng)使GPU的AI算力有了明顯提升,后續(xù)在每一代的架構(gòu)升級(jí)中,TensorCore都有比較大的改進(jìn),支持的數(shù)據(jù)類(lèi)型也逐漸增多。以A100到H100為例,TensorCore由3.0迭代至4.0,H100在FP16TensorCore的峰值吞吐量提升至A100的3倍。同時(shí),H100TensorCore支持新的數(shù)據(jù)類(lèi)型FP8,H100FP8TensorCore的吞吐量是A100FP16TensorCore的6倍。數(shù)據(jù)訪(fǎng)問(wèn)支配著計(jì)算能力利用率。AI運(yùn)算涉及到大量數(shù)據(jù)的存儲(chǔ)與處理,根據(jù)Cadence數(shù)據(jù),與一般工作負(fù)載相比,每臺(tái)AI訓(xùn)練服務(wù)器需要6倍的內(nèi)存容量。而在過(guò)去幾十年中,處理器的運(yùn)行速度隨著摩爾定律高速提升,而DRAM的性能提升速度遠(yuǎn)遠(yuǎn)慢于處理器速度。目前DRAM的性能已經(jīng)成為了整體計(jì)算機(jī)性能的一個(gè)重要瓶頸,即所謂阻礙性能提升的“內(nèi)存墻”。除了性能之外,內(nèi)存對(duì)于能效比的限制也成為一個(gè)瓶頸,Cadence數(shù)據(jù)顯示,在自然語(yǔ)言類(lèi)AI負(fù)載中,存儲(chǔ)消耗的能量占比達(dá)到82%。硬件單元的改進(jìn)與顯存升級(jí)增強(qiáng)了單張GPU算力的釋放,然而,隨著Transformer模型的大規(guī)模發(fā)展和應(yīng)用,模型參數(shù)量呈爆炸式增長(zhǎng),GPT-3參數(shù)量達(dá)到了1750億,相比GPT增長(zhǎng)了近1500倍,預(yù)訓(xùn)練數(shù)據(jù)量更是從5GB提升到了45TB。大模型參數(shù)量的指數(shù)級(jí)增長(zhǎng)帶來(lái)的諸多問(wèn)題使GPU集群化運(yùn)算成為必須:(1)即使最先進(jìn)的GPU,也不再可能將模型參數(shù)擬合到主內(nèi)存中。(2)即使模型可以安裝在單個(gè)GPU中(例如,通過(guò)在主機(jī)和設(shè)備內(nèi)存之間交換參數(shù)),所需的大量計(jì)算操作也可能導(dǎo)致在沒(méi)有并行化的情況下不切實(shí)際地延長(zhǎng)訓(xùn)練時(shí)間。根據(jù)NVIDIA數(shù)據(jù),在8個(gè)V100GPU上訓(xùn)練一個(gè)具有1750億個(gè)參數(shù)的GPT-3模型需要36年,而在512個(gè)V100GPU上訓(xùn)練需要7個(gè)月。NVIDIA開(kāi)發(fā)NVLink技術(shù)解決GPU集群通信。在硬件端,GPU之間穩(wěn)定、高速的通信是實(shí)現(xiàn)集群運(yùn)算所必須的條件。傳統(tǒng)x86服務(wù)器的互連通道PCIe的互連帶寬由其代際與結(jié)構(gòu)決定,例如x16PCIe4.0雙向帶寬僅為64GB/s。除此之外,GPU之間通過(guò)PCIe交互還會(huì)與總線(xiàn)上的CPU操作競(jìng)爭(zhēng),甚至進(jìn)一步占用可用帶寬。NVIDIA為突破PCIe互連的帶寬限制,在P100上搭載了首項(xiàng)高速GPU互連技術(shù)NVLink(一種總線(xiàn)及通訊協(xié)議),GPU之間無(wú)需再通過(guò)PCIe進(jìn)行交互。NVDIA開(kāi)發(fā)基于NVLink的芯片NVSwitch,作為GPU集群數(shù)據(jù)通信的“樞紐”。NVLink1.0技術(shù)使用時(shí),一臺(tái)服務(wù)器中的8個(gè)GPU無(wú)法全部實(shí)現(xiàn)直接互連。同時(shí),當(dāng)GPU數(shù)量增加時(shí),僅依靠NVLink技術(shù),需要眾多數(shù)量的總線(xiàn)。為解決上述問(wèn)題,NVIDIA在NVLink2.0時(shí)期發(fā)布了NVSwitch,實(shí)現(xiàn)了NVLink的全連接。NVSwitch是一款GPU橋接芯片,可提供所需的NVLink交叉網(wǎng)絡(luò),在GPU之間的通信中發(fā)揮“樞紐”作用。借助于NVswitch,每顆GPU都能以相同的延遲和速度訪(fǎng)問(wèn)其它的GPU。就程序來(lái)看,16個(gè)GPU都被視為一個(gè)GPU,系統(tǒng)效率得到了最大化,大大降低了多GPU系統(tǒng)的優(yōu)化難度。通過(guò)添加更多NVSwitch來(lái)支持更多GPU,集群分布式運(yùn)算得以實(shí)現(xiàn)。當(dāng)訓(xùn)練大型語(yǔ)言模型時(shí),NVLink網(wǎng)絡(luò)也可以提供顯著的提升。NVSwitch已成為高性能計(jì)算(HPC)和AI訓(xùn)練應(yīng)用中不可或缺的一部分。2.1.2NPU通過(guò)特殊架構(gòu)設(shè)計(jì)對(duì)AI運(yùn)算起到加速作用NPU在人工智能算法上具有較高的運(yùn)行效率。為了適應(yīng)某個(gè)特定領(lǐng)域中的常見(jiàn)的應(yīng)用和算法而設(shè)計(jì),通常稱(chēng)之為“特定域架構(gòu)(DomainSpecificArchitecture,DSA)”芯片,NPU(神經(jīng)網(wǎng)絡(luò)處理器)屬于其中一種,常被設(shè)計(jì)用于神經(jīng)網(wǎng)絡(luò)運(yùn)算的加速。以華為手機(jī)SoC麒麟970為例,NPU對(duì)圖像識(shí)別神經(jīng)網(wǎng)絡(luò)的運(yùn)算起到了顯著加速效果,使其圖像識(shí)別速度明顯優(yōu)于同代競(jìng)品的表現(xiàn)。目前已量產(chǎn)的NPU或搭載NPU模塊的芯片眾多,其他知名的芯片包括谷歌TPU、華為昇騰、特斯拉FSD、特斯拉Dojo等。各家廠(chǎng)商在計(jì)算核心的設(shè)計(jì)上有其差異,例如谷歌TPU的脈動(dòng)陣列,華為昇騰的達(dá)芬奇架構(gòu)。以谷歌TPU及計(jì)算核心結(jié)構(gòu)脈動(dòng)陣列為例,對(duì)比其相較于CPU、GPU的區(qū)別:CPU和GPU均具有通用性,但以頻繁的內(nèi)存訪(fǎng)問(wèn)導(dǎo)致資源消耗為代價(jià)。CPU和GPU都是通用處理器,可以支持?jǐn)?shù)百萬(wàn)種不同的應(yīng)用程序和軟件。對(duì)于A(yíng)LU中的每一次計(jì)算,CPU、GPU都需要訪(fǎng)問(wèn)寄存器或緩存來(lái)讀取和存儲(chǔ)中間計(jì)算結(jié)果。由于數(shù)據(jù)存取的速度往往大大低于數(shù)據(jù)處理的速度,頻繁的內(nèi)存訪(fǎng)問(wèn),限制了總吞吐量并消耗大量能源。谷歌TPU并非通用處理器,而是將其設(shè)計(jì)為專(zhuān)門(mén)用于神經(jīng)網(wǎng)絡(luò)工作負(fù)載的矩陣處理器。TPU不能運(yùn)行文字處理器、控制火箭引擎或執(zhí)行銀行交易,但它們可以處理神經(jīng)網(wǎng)絡(luò)的大量乘法和加法,速度極快,同時(shí)消耗更少的能量,占用更小的物理空間。TPU內(nèi)部設(shè)計(jì)了由乘法器和加法器構(gòu)成的脈動(dòng)陣列。在計(jì)算時(shí),TPU將內(nèi)存中的參數(shù)加載到乘法器和加法器矩陣中,每次乘法執(zhí)行時(shí),結(jié)果將傳遞給下一個(gè)乘法器,同時(shí)進(jìn)行求和。所以輸出將是數(shù)據(jù)和參數(shù)之間所有乘法結(jié)果的總和。在整個(gè)海量計(jì)算和數(shù)據(jù)傳遞過(guò)程中,完全不需要訪(fǎng)問(wèn)內(nèi)存。這就是為什么TPU可以在神經(jīng)網(wǎng)絡(luò)計(jì)算上以低得多的功耗和更小的占用空間實(shí)現(xiàn)高計(jì)算吞吐量。NPU已經(jīng)在A(yíng)I運(yùn)算加速領(lǐng)域獲得了廣泛應(yīng)用。在數(shù)據(jù)中心獲得大規(guī)模應(yīng)用的NPU案例即TPU,已被谷歌用于構(gòu)建數(shù)據(jù)中心的超級(jí)計(jì)算機(jī),執(zhí)行特定神經(jīng)網(wǎng)絡(luò)的訓(xùn)練任務(wù)。在用戶(hù)端,手機(jī)、汽車(chē)、智能安防攝像頭等設(shè)備開(kāi)始搭載AI計(jì)算功能,通常是利用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型執(zhí)行圖像處理等工作,此時(shí)NPU通用性差的劣勢(shì)被縮小,高算力、高能耗比的優(yōu)勢(shì)被放大,因而得到了廣泛的應(yīng)用。在終端設(shè)備中,NPU常以模塊的形式包含在SoC內(nèi)部,對(duì)AI運(yùn)算進(jìn)行加速,例如特斯拉自動(dòng)駕駛芯片F(xiàn)SD均包含NPU。2.1.3訓(xùn)練/推理、云/邊分別對(duì)AI芯片提出不同要求,未來(lái)推理端的算力需求將遠(yuǎn)超訓(xùn)練端AI技術(shù)在實(shí)際應(yīng)用中包括兩個(gè)環(huán)節(jié):訓(xùn)練(Training)和推理(Inference)。訓(xùn)練是指通過(guò)大數(shù)據(jù)訓(xùn)練出一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,使其能夠適應(yīng)特定的功能。訓(xùn)練需要較高的計(jì)算性能、能夠處理海量數(shù)據(jù)、具有一定的通用性。推理是指利用訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行運(yùn)算,利用輸入的新數(shù)據(jù)來(lái)一次性獲得正確結(jié)論的過(guò)程。根據(jù)所承擔(dān)任務(wù)的不同,AI芯片可以分為訓(xùn)練AI芯片和推理AI芯片:(1)訓(xùn)練芯片:用于構(gòu)建神經(jīng)網(wǎng)絡(luò)模型,需要高算力和一定的通用性。(2)推理芯片:利用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行推理預(yù)測(cè),注重綜合指標(biāo),單位能耗算力、時(shí)延、成本等都要考慮。根據(jù)AI芯片部署的位置,可以分為云端AI芯片和邊緣端AI芯片:(1)云端:即數(shù)據(jù)中心,關(guān)注算力、擴(kuò)展能力、兼容性。云端部署的AI芯片包括訓(xùn)練芯片和推理芯片。(2)邊緣端:即手機(jī)、安防攝像頭等領(lǐng)域,關(guān)注綜合性能,要求低功耗、低延時(shí)、低成本。邊緣端部署的AI芯片以實(shí)現(xiàn)推理功能為主。云端推理占比逐步提升,AI落地應(yīng)用數(shù)量增加。根據(jù)IDC數(shù)據(jù),隨著人工智能進(jìn)入大規(guī)模落地應(yīng)用的關(guān)鍵時(shí)期,2022年在云端部署的算力里,推理占算力已經(jīng)達(dá)到了58.5%,訓(xùn)練占算力只有41.5%,預(yù)計(jì)到2026年,推理占到62.2%,訓(xùn)練占37.8%。云端推理占比逐步提升說(shuō)明,AI落地應(yīng)用數(shù)量正在不斷增加,人工智能模型將逐步進(jìn)入廣泛投產(chǎn)模式。帶寬、互連速率的限制,使云端超大規(guī)模的模型推理選擇A100、H100更優(yōu),而非T4、A10等推理卡。以GPT-3為例,OpenAI數(shù)據(jù)顯示GPT-3模型1750億參數(shù)對(duì)應(yīng)超過(guò)350GB的GPU顯存需求。假設(shè)參數(shù)規(guī)模與所需顯存呈線(xiàn)性關(guān)系,且推理的中間參數(shù)量按1倍估算,則1萬(wàn)億參數(shù)規(guī)模的大模型推理需要約4000GB顯存,則需要50張A100(80GB)或者167張A10(24GB)。集群中的GPU數(shù)量越多意味著更復(fù)雜的互連要求,而且A10無(wú)法應(yīng)用NVLink和NVSwitch技術(shù),大量A10組成的集群僅依靠PCIe通信,互連帶寬相比A100等顯卡的劣勢(shì)明顯,進(jìn)而可能導(dǎo)致模型推理的時(shí)效性不佳。經(jīng)測(cè)算,AI大模型在訓(xùn)練端和推理端都將產(chǎn)生巨量的算力/AI芯片需求。如果未來(lái)大模型廣泛商用落地,推理端的算力/AI芯片的需求量將明顯高于訓(xùn)練端。大模型云端訓(xùn)練對(duì)算力的需求測(cè)算:測(cè)算原理:從模型的(1)參數(shù)規(guī)模入手,根據(jù)(2)訓(xùn)練大模型所需的Token數(shù)量和(3)每Token訓(xùn)練成本與模型參數(shù)量的關(guān)系估算總算力需求,再考慮(4)單張GPU算力和(5)GPU集群的算力利用率推導(dǎo)得出GPU總需求。(1)參數(shù)規(guī)模:過(guò)去幾年,大模型的參數(shù)量呈指數(shù)上升,GPT-3模型參數(shù)量已達(dá)到1750億。GPT-4具有多模態(tài)能力,其參數(shù)量相比GPT-3會(huì)更大。我們?cè)跍y(cè)算中假設(shè)2023年多模態(tài)大模型的平均參數(shù)量達(dá)到10000億個(gè),之后每年保持20%的增速;普通大模型的平均參數(shù)量達(dá)到2000億個(gè),之后每年保持20%的增速。(2)訓(xùn)練大模型所需的Token數(shù)量:參數(shù)規(guī)模在千億量級(jí)的自然語(yǔ)言大模型GPT-3、Jurassic-1、Gopher、MT-NLG,訓(xùn)練所需的Token數(shù)量在千億量級(jí),而一些多模態(tài)大模型在訓(xùn)練過(guò)程中所需Token數(shù)據(jù)量也跟隨參數(shù)量增長(zhǎng)而增長(zhǎng),我們?cè)跍y(cè)算中假設(shè)多模態(tài)大模型訓(xùn)練所需Token數(shù)量達(dá)到萬(wàn)億級(jí)別,并且Token數(shù)量與模型參數(shù)規(guī)模保持線(xiàn)性增長(zhǎng)關(guān)系。(3)每Token訓(xùn)練成本與模型參數(shù)量的關(guān)系:參考OpenAI發(fā)布的論文《ScalingLawsforNeuralLanguageModels》中的分析,每個(gè)token的訓(xùn)練成本通常約為6N,其中N是LLM的參數(shù)數(shù)量,我們?cè)跍y(cè)算中遵循這一關(guān)系。具體原理如下,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程包括前向傳播和反向傳播兩個(gè)過(guò)程,其中大致包括四個(gè)步驟:1.做一個(gè)單次的推理操作,得到輸出y,例如輸入貓的圖片得到輸出0.986。2.求到輸出y與真實(shí)的目標(biāo)輸出Y(假定設(shè)置的目標(biāo)輸出Y=1)之間的差值??,例如得到輸出與目標(biāo)真實(shí)值的差值為0.014。3.將輸出差值回溯,計(jì)算差值關(guān)于每個(gè)參數(shù)的梯度關(guān)系。4.根據(jù)輸出差值和梯度修正每個(gè)神經(jīng)元的參數(shù),實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的參數(shù)更新,促使輸出逼近目標(biāo)真實(shí)值。因而在一個(gè)參數(shù)量為N的神經(jīng)網(wǎng)絡(luò)中,一次輸入帶來(lái)訓(xùn)練過(guò)程的整體運(yùn)算量大致為6N,其中2N為前向傳播過(guò)程,4N為反向傳播過(guò)程。(4)單張GPU算力:因?yàn)樵谟?xùn)練大模型時(shí),主要依賴(lài)可實(shí)現(xiàn)的混合精度FP16/FP32FLOPS,即FP16TensorCore的算力,我們?cè)跍y(cè)算中選取A100SXM和H100SXM對(duì)應(yīng)的算力312TFLOPS和990TFLOPS作為參數(shù)。(5)GPU集群的算力利用率:參考GoogleResearch發(fā)布的論文《PaLM:ScalingLanguageModelingwithPathways》中的分析,我們?cè)跍y(cè)算中假設(shè)算力利用率約為30%。大模型云端推理對(duì)算力的需求測(cè)算:在云端推理場(chǎng)景下,我們分別從云端推理所需算力和云端模型部署所需顯存兩個(gè)維度分別進(jìn)行測(cè)算。算力角度的測(cè)算原理:基于前文對(duì)參數(shù)規(guī)模、模型數(shù)量等數(shù)據(jù)的假設(shè),根據(jù)(1)大模型日活用戶(hù)人數(shù)、(2)每人平均查詢(xún)Token數(shù)量、(3)每Token推理成本與模型參數(shù)量的關(guān)系估算推理端總算力需求,再考慮(4)單張GPU算力和GPU集群的算力利用率推導(dǎo)得出GPU總需求。(1)大模型日活用戶(hù)人數(shù):根據(jù)Similarweb統(tǒng)計(jì)數(shù)據(jù),2023年1月ChatGPT的日活用戶(hù)數(shù)達(dá)到1300萬(wàn)。我們?cè)跍y(cè)算中假設(shè)2023年多模態(tài)大模型的平均日活量達(dá)到2000萬(wàn),普通大模型的平均日活量達(dá)到1000萬(wàn),之后每年保持快速增長(zhǎng)。(2)每人平均查詢(xún)Token數(shù)量:根據(jù)OpenAI數(shù)據(jù),平均每1000個(gè)Token對(duì)應(yīng)750個(gè)單詞,我們?cè)跍y(cè)算中假設(shè)每位用戶(hù)平均查詢(xún)的Token數(shù)量維持在1000個(gè)。(3)每Token推理成本與模型參數(shù)量的關(guān)系:參考OpenAI發(fā)布的論文《ScalingLawsforNeuralLanguageModels》中的分析,每個(gè)token的推理成本通常約為2N,其中N是LLM的參數(shù)數(shù)量,我們?cè)跍y(cè)算中遵循這一關(guān)系。(4)單張GPU算力:由于測(cè)算中的大模型參數(shù)量級(jí)分別在千億量級(jí)和萬(wàn)億量級(jí),考慮帶寬容量和集群計(jì)算中的帶寬限制,我們?cè)跍y(cè)算中假設(shè)采用H100或A100作為云端推理卡。根據(jù)所有假設(shè)及可以得到,從云端推理所需算力角度測(cè)算,2023年-2027年,全球大模型云端推理的峰值算力需求量的年復(fù)合增長(zhǎng)率為113%。顯存角度測(cè)算原理:首先,目前SKHynix已開(kāi)發(fā)出業(yè)界首款12層24GBHBM3,考慮到一張GPU板卡面積有限,限制了計(jì)算核心周?chē)刹贾玫腍BM數(shù)量,因此未來(lái)一段時(shí)間內(nèi),GPU顯存容量的提升空間較小。其次,推理最主要的需求是時(shí)效性,為了滿(mǎn)足時(shí)效性,模型所需要的存儲(chǔ)空間需要放到顯存內(nèi)。綜合GPU板卡HBM容量有限和推理端模型需放置在GPU顯存中這兩個(gè)條件,我們從模型推理端運(yùn)行所需顯存入手,先預(yù)估推理端運(yùn)行一個(gè)大模型所需顯存容量(1),再假設(shè)業(yè)務(wù)場(chǎng)景中大模型的峰值訪(fǎng)問(wèn)量,并以此得到總體的顯存需求(2),最終得到算力/AI芯片的需求。(1)運(yùn)行一個(gè)模型所需顯存:以1750億參數(shù)的GPT-3模型為例,OpenAI數(shù)據(jù)顯示參數(shù)存儲(chǔ)需要350GB空間。假設(shè)推理計(jì)算中間產(chǎn)生的參數(shù)按照一倍計(jì)算,因此推理至少需要700GB顯存空間,即部署一個(gè)模型需要9張80GB顯存版本的A100。(2)業(yè)務(wù)場(chǎng)景部署模型量及所需顯存:假設(shè)該模型能夠同時(shí)處理的并發(fā)任務(wù)數(shù)量為100,即9張A10080GB處理100用戶(hù)同時(shí)并發(fā)訪(fǎng)問(wèn)。業(yè)務(wù)場(chǎng)景部署以搜索引擎為例,假設(shè)最高并發(fā)訪(fǎng)問(wèn)人數(shù)為2000萬(wàn),則需要2000萬(wàn)/100*9=180萬(wàn)張A10080GB。2.2英偉達(dá)龍頭地位穩(wěn)固,國(guó)內(nèi)廠(chǎng)商正逐步追趕海外龍頭廠(chǎng)商占據(jù)壟斷地位,AI加速芯片市場(chǎng)呈現(xiàn)“一超多強(qiáng)”態(tài)勢(shì)。數(shù)據(jù)中心CPU市場(chǎng)上,英特爾份額有所下降但仍保持較大領(lǐng)先優(yōu)勢(shì),AMD持續(xù)搶占份額勢(shì)頭正盛。AI加速芯片市場(chǎng)上,英偉達(dá)憑借硬件優(yōu)勢(shì)和軟件生態(tài)一家獨(dú)大,在訓(xùn)練、推理端均占據(jù)領(lǐng)先地位。根據(jù)LiftrInsights數(shù)據(jù),2022年數(shù)據(jù)中心AI加速市場(chǎng)中,英偉達(dá)份額達(dá)82%,其余海外廠(chǎng)商如AWS和Xilinx分別占比8%、4%,AMD、Intel、Google均占比2%。國(guó)內(nèi)廠(chǎng)商起步較晚正逐步發(fā)力,部分加速芯片領(lǐng)域已經(jīng)涌現(xiàn)出一批破局企業(yè),但目前多為初創(chuàng)企業(yè)規(guī)模較小,技術(shù)能力和生態(tài)建設(shè)仍不完備,在高端AI芯片領(lǐng)域與海外廠(chǎng)商仍存在較大差距。未來(lái),隨著美國(guó)持續(xù)加大對(duì)中國(guó)高端芯片的出口限制,AI芯片國(guó)產(chǎn)化進(jìn)程有望加快。GPU市場(chǎng)方面,海外龍頭占據(jù)壟斷地位,國(guó)產(chǎn)廠(chǎng)商加速追趕。當(dāng)前英偉達(dá)、AMD、英特爾三巨頭霸占全球GPU芯片市場(chǎng)的主導(dǎo)地位。集成GPU芯片一般在臺(tái)式機(jī)和筆記本電腦中使用,性能和功耗較低,主要廠(chǎng)商包括英特爾和AMD;獨(dú)立顯卡常用于服務(wù)器中,性能更高、功耗更大,主要廠(chǎng)商包括英偉達(dá)和AMD。分應(yīng)用場(chǎng)景來(lái)看,應(yīng)用在人工智能、科學(xué)計(jì)算、視頻編解碼等場(chǎng)景的服務(wù)器GPU市場(chǎng)中,英偉達(dá)和AMD占據(jù)主要份額。根據(jù)JPR,2023年Q1英偉達(dá)的獨(dú)立顯卡(包括AIB合作伙伴顯卡)的市場(chǎng)份額達(dá)84%,AMD和Intel則分別占比12%、4%。圖形渲染GPU:英偉達(dá)引領(lǐng)行業(yè)數(shù)十年,持續(xù)技術(shù)迭代和生態(tài)構(gòu)建實(shí)現(xiàn)長(zhǎng)期領(lǐng)先。2006年起,英偉達(dá)GPU架構(gòu)保持約每?jī)赡旮乱淮蔚墓?jié)奏,各代際產(chǎn)品性能提升顯著,生態(tài)構(gòu)建完整,Geforce系列產(chǎn)品市占率長(zhǎng)期保持市場(chǎng)首位,最新代際GeForceRTX40系列代表了目前顯卡的性能巔峰,采用全新的AdaLovelace架構(gòu),臺(tái)積電5nm級(jí)別工藝,擁有760億晶體管和18000個(gè)CUDA核心,與Ampere相比架構(gòu)核心數(shù)量增加約70%,能耗比提升近兩倍,可驅(qū)動(dòng)DLSS3.0技術(shù)。性能遠(yuǎn)超上代產(chǎn)品。AMD獨(dú)立GPU在RDNA架構(gòu)迭代路徑清晰,RDNA3架構(gòu)采用5nm工藝和chiplet設(shè)計(jì),比RDNA2架構(gòu)有54%每瓦性能提升,預(yù)計(jì)2024年前RDNA4架構(gòu)可正式發(fā)布,將采用更為先進(jìn)的工藝制造。目前國(guó)內(nèi)廠(chǎng)商在圖形渲染GPU方面與國(guó)外龍頭廠(chǎng)商差距不斷縮小。芯動(dòng)科技的“風(fēng)華2號(hào)”GPU像素填充率48GPixel/s,F(xiàn)P32單精度浮點(diǎn)性能1.5TFLOPS,AI運(yùn)算(INT8)性能12.5TOPS,實(shí)測(cè)功耗4~15W,支持OpenGL4.3、DX11、Vulkan等API,實(shí)現(xiàn)國(guó)產(chǎn)圖形渲染GPU突破。景嘉微在工藝制程、核心頻率、浮點(diǎn)性能等方面雖落后于英偉達(dá)同代產(chǎn)品,但差距正逐漸縮小。2023年順利發(fā)布JM9系列圖形處理芯片,支持OpenGL4.0、HDMI2.0等接口,以及H.265/4K60-fps視頻解碼,核心頻率至少為1.5GHz,配備8GB顯存,浮點(diǎn)性能約1.5TFlops,與英偉達(dá)GeForceGTX1050性能相近,有望對(duì)標(biāo)GeForceGTX1080。GPGPU:英偉達(dá)和AMD是目前全球GPGPU的領(lǐng)軍企業(yè)。英偉達(dá)的通用計(jì)算芯片具備優(yōu)秀的硬件設(shè)計(jì),通過(guò)CUDA架構(gòu)等全棧式軟件布局,實(shí)現(xiàn)了GPU并行計(jì)算的通用化,深度挖掘芯片硬件的性能極限,在各類(lèi)下游應(yīng)用領(lǐng)域中,均推出了高性能的軟硬件組合,逐步成為全球AI芯片領(lǐng)域的主導(dǎo)者。根據(jù)stateof.AI2022報(bào)告,英偉達(dá)芯片在A(yíng)I學(xué)術(shù)論文中的出現(xiàn)頻次遠(yuǎn)超其他類(lèi)型的AI芯片,是學(xué)術(shù)界最常用的人工智能加速芯片。在Oracle以及騰訊云中,也幾乎全部采用英偉達(dá)的GPU作為計(jì)算加速芯片。AMD2018年發(fā)布用于數(shù)據(jù)中心的RadeonInstinctGPU加速芯片,Instinct系列基于CDNA架構(gòu),如MI250X采用CDNA2架構(gòu),在通用計(jì)算領(lǐng)域?qū)崿F(xiàn)計(jì)算能力和互聯(lián)能力的顯著提升,此外還推出了對(duì)標(biāo)英偉達(dá)CUDA生態(tài)的AMDROCm開(kāi)源軟件開(kāi)發(fā)平臺(tái)。英偉達(dá)的H100及A100、AMD的MI100、MI200系列等是當(dāng)前最為主流的GPGPU產(chǎn)品型號(hào)。ASIC市場(chǎng)方面,由于其一定的定制化屬性,市場(chǎng)格局較為分散。在人工智能領(lǐng)域,ASIC也占據(jù)一席之地。其中谷歌處于相對(duì)前沿的技術(shù)地位,自2016年以來(lái),就推出了專(zhuān)為機(jī)器學(xué)習(xí)定制的ASIC,即張量處理器(TensorProcessingUnit,TPU),近期,谷歌首次公布了其用于訓(xùn)練人工智能模型的AI芯片TPUv4的詳細(xì)信息,其采用低精度計(jì)算,在幾乎不影響深度學(xué)習(xí)處理效果的前提下大幅降低了功耗、加快運(yùn)算速度,同時(shí)使用了脈動(dòng)陣列等設(shè)計(jì)來(lái)優(yōu)化矩陣乘法與卷積運(yùn)算,對(duì)大規(guī)模矩陣的乘法可以最大化數(shù)據(jù)復(fù)用,減少訪(fǎng)存次數(shù),大幅提升Transformer模型的訓(xùn)練速度,同時(shí)節(jié)約訓(xùn)練成本。谷歌稱(chēng)在同等規(guī)模系統(tǒng)下基于TPU的谷歌超級(jí)計(jì)算機(jī)比基于英偉達(dá)A100芯片的系統(tǒng)最高快1.7倍,節(jié)能效率提高1.9倍。谷歌TPU屬于定制化ASIC芯片,是專(zhuān)門(mén)為神經(jīng)網(wǎng)絡(luò)和TensorFlow學(xué)習(xí)框架等量身打造的集成芯片,需要在這類(lèi)特定框架下才能發(fā)揮出最高運(yùn)行效率。生態(tài)體系決定用戶(hù)體驗(yàn),是算力芯片廠(chǎng)商最深的護(hù)城河。雖然英偉達(dá)GPU本身硬件平臺(tái)的算力卓越,但其強(qiáng)大的CUDA軟件生態(tài)才是推升其GPU計(jì)算生態(tài)普及的關(guān)鍵力量。從技術(shù)角度來(lái)講,GPU硬件的性能門(mén)檻并不高,通過(guò)產(chǎn)品迭代可以接龍頭領(lǐng)先水平,但下游客戶(hù)更在意能不能用、好不好用的生態(tài)問(wèn)題。CUDA推出之前GPU編程需要機(jī)器碼深入到顯卡內(nèi)核才能完成任務(wù),而推出之后相當(dāng)于把復(fù)雜的顯卡編程包裝成為一個(gè)簡(jiǎn)單的接口,造福開(kāi)發(fā)人員,迄今為止已成為最發(fā)達(dá)、最廣泛的生態(tài)系統(tǒng),是目前最適合深度學(xué)習(xí)、AI訓(xùn)練的GPU架構(gòu)。英偉達(dá)在2007年推出后不斷改善更新,衍生出各種工具包、軟件環(huán)境,構(gòu)筑了完整的生態(tài),并與眾多客戶(hù)合作構(gòu)建細(xì)分領(lǐng)域加速庫(kù)與AI訓(xùn)練模型,已經(jīng)積累300個(gè)加速庫(kù)和400個(gè)AI模型。尤其在深度學(xué)習(xí)成為主流之后,英偉達(dá)通過(guò)有針對(duì)性地優(yōu)化來(lái)以最佳的效率提升性能,例如支持混合精度訓(xùn)練和推理,在GPU中加入TensorCore來(lái)提升卷積計(jì)算能力,以及最新的在H100GPU中加入TransformerEngine來(lái)提升相關(guān)模型的性能。這些投入包括了軟件和芯片架構(gòu)上的協(xié)同設(shè)計(jì),使得英偉達(dá)能使用最小的代價(jià)來(lái)保持性能的領(lǐng)先。而即便是英偉達(dá)最大的競(jìng)爭(zhēng)對(duì)手AMD的ROCm平臺(tái)在用戶(hù)生態(tài)和性能優(yōu)化上還存在差距。CUDA作為完整的GPU解決方案,提供了硬件的直接訪(fǎng)問(wèn)接口,開(kāi)發(fā)門(mén)檻大幅降低,而這套易用且能充分調(diào)動(dòng)芯片架構(gòu)潛力的軟件生生態(tài)讓英偉達(dá)在大模型社區(qū)擁有巨大的影響力。正因CUDA擁有成熟且性能良好的底層軟件架構(gòu),故幾乎所有的深度學(xué)習(xí)訓(xùn)練和推理框架都把對(duì)于英偉達(dá)GPU的支持和優(yōu)化作為必備的目標(biāo),幫助英偉達(dá)處于持續(xù)處于領(lǐng)先地位。英偉達(dá)領(lǐng)先地位穩(wěn)固。英偉達(dá)憑借良好的硬件性能和完善的CUDA生態(tài)將持續(xù)處于領(lǐng)先地位,但起步較晚的挑戰(zhàn)者也在奮起直追,未來(lái)有望出現(xiàn)一超多強(qiáng)的多元化競(jìng)爭(zhēng)格局。訓(xùn)練市場(chǎng)方面,英偉達(dá)高算力GPU是當(dāng)前AI訓(xùn)練主流選擇,谷歌TPU面臨著通用性的局限,AMD存在生態(tài)構(gòu)建差距,但在二者的沖擊及云廠(chǎng)商自研芯片的競(jìng)爭(zhēng)下,AI訓(xùn)練市場(chǎng)也或?qū)⒊霈F(xiàn)格局的變動(dòng)。推理市場(chǎng)方面,GPU具有較好的生態(tài)延續(xù)性仍占主流,如英偉達(dá)針對(duì)推理市場(chǎng)的產(chǎn)品TeslaT4上的芯片包含了2560個(gè)CUDA內(nèi)核,性能達(dá)到了FP640.25TFLOPS、FP328.1TFLOPS、INT8達(dá)130TOPS,可提供多精度推理性能,以及優(yōu)于CPU40倍的低延時(shí)高吞吐量,可以實(shí)時(shí)滿(mǎn)足更多的請(qǐng)求。但其他解決方案在成本、功耗具有優(yōu)勢(shì),特定市場(chǎng)競(jìng)爭(zhēng)格局相對(duì)激烈,工作負(fù)載不同對(duì)應(yīng)的芯片性能需求不同,T4PCIe,有望出現(xiàn)各類(lèi)芯片共存的局面。國(guó)內(nèi)算力芯片廠(chǎng)商具備較好的入局機(jī)會(huì)。國(guó)產(chǎn)算力芯片市場(chǎng)需求巨大,國(guó)內(nèi)人工智能生態(tài)環(huán)境較好,在A(yíng)I應(yīng)用領(lǐng)域的步伐處于全球前列,國(guó)產(chǎn)GPU廠(chǎng)商具孵化和發(fā)展的沃土,國(guó)內(nèi)廠(chǎng)商供應(yīng)鏈多元化的需求帶來(lái)了國(guó)內(nèi)AI芯片廠(chǎng)商適配窗口期,尤其是當(dāng)前大模型發(fā)展早期是適配的黃金窗口期。其中,寒武紀(jì)、華為等兼容CUDA和自建生態(tài)是國(guó)產(chǎn)廠(chǎng)商發(fā)展的兩大趨勢(shì),具備很大的競(jìng)爭(zhēng)力潛力。短期來(lái)看,國(guó)內(nèi)廠(chǎng)商兼容英偉達(dá)CUDA,可以減輕開(kāi)發(fā)和遷移難度,進(jìn)而快速實(shí)現(xiàn)客戶(hù)端導(dǎo)入。同時(shí)需要避開(kāi)英偉達(dá)絕對(duì)優(yōu)勢(shì)領(lǐng)域,在芯片設(shè)計(jì)結(jié)構(gòu)上形成差異化競(jìng)爭(zhēng);長(zhǎng)期來(lái)看,國(guó)產(chǎn)GPU如果完全依賴(lài)CUDA生態(tài),硬件更新將不得不綁定英偉達(dá)的開(kāi)發(fā)進(jìn)程,應(yīng)借鑒AMD、Google構(gòu)建自身生態(tài)體系,開(kāi)展軟硬件結(jié)合的平臺(tái)化布局,并打造不同領(lǐng)域快速落地垂直解決方案的能力,鑄造自己的生態(tài)圈核心壁壘。預(yù)計(jì)硬件性能高效以及能夠構(gòu)建符合下游需求的生態(tài)體系的國(guó)產(chǎn)廠(chǎng)商有望脫穎而出。2.3先進(jìn)封裝成為高性?xún)r(jià)比替代方案,存算一體應(yīng)用潛力巨大2.3.1先進(jìn)封裝:后摩爾定律時(shí)代的創(chuàng)新方向,先進(jìn)制程的高性?xún)r(jià)比替代方案大算力芯片要求性能持續(xù)提升,后摩爾時(shí)代急需高性?xún)r(jià)比解決方案。隨著大模型參數(shù)增加,AI大模型對(duì)于算力需求大幅提升,GPU等大算力芯片的性能提升遭遇兩大瓶頸:一方面,進(jìn)入28nm以后摩爾定律逐漸失效,先進(jìn)制程的成本快速提升。根據(jù)IBS統(tǒng)計(jì)在達(dá)到28nm制程節(jié)點(diǎn)以后,如果繼續(xù)縮小制程節(jié)點(diǎn)數(shù),每百萬(wàn)門(mén)晶體管的制造成本不降反升,摩爾定律開(kāi)始失效。而且應(yīng)用先進(jìn)制程的芯片研發(fā)費(fèi)用大幅增長(zhǎng),5nm制程的芯片研發(fā)費(fèi)用增至5.42億美元,幾乎是28nm芯片研發(fā)費(fèi)用的10.6倍,高額的研發(fā)門(mén)檻進(jìn)一步減少了先進(jìn)制程的應(yīng)用范圍。另一方面,內(nèi)存帶寬增長(zhǎng)緩慢,限制處理器性能。在傳統(tǒng)PCB封裝中,走線(xiàn)密度和信號(hào)傳輸速率難以提升,因而內(nèi)存帶寬緩慢增長(zhǎng),導(dǎo)致來(lái)自存儲(chǔ)帶寬的開(kāi)發(fā)速度遠(yuǎn)遠(yuǎn)低于處理器邏輯電路的速度,帶來(lái)“內(nèi)存墻”的問(wèn)題。為了使異構(gòu)集成的Chiplet封裝實(shí)現(xiàn),需要借助到2D/2.1D/2.3D/2.5D/3D等一系列先進(jìn)封裝工藝。先進(jìn)封裝的不同層次主要依據(jù)多顆芯片堆疊的物理結(jié)構(gòu)和電氣連接方式劃分,例如2D封裝中的芯片直接連接到基板,其他封裝則以不同形式的中介層完成互聯(lián)。其中,2.5D封裝常用于計(jì)算核心與HBM的封裝互連,3D封裝常用于HBM顯存的多層堆疊,并有望用于不同IC的異構(gòu)集成。1)CoWoS:2.5D封裝重要解決方案,實(shí)現(xiàn)計(jì)算核心與HBM封裝互連計(jì)算核心與HBM通過(guò)2.5D封裝互連,臺(tái)積電開(kāi)發(fā)的CoWoS封裝技術(shù)為廣泛使用的解決方案。臺(tái)積電早在2011年推出CoWoS技術(shù),并在2012年首先應(yīng)用于Xilinx的FPGA上。此后,華為海思、英偉達(dá)、谷歌等廠(chǎng)商的芯片均采用了CoWoS,例如GP100(P100顯卡核心),TPU2.0。如今CoWoS已成為HPC和AI計(jì)算領(lǐng)域廣泛應(yīng)用的2.5D封裝技術(shù),絕大多數(shù)使用HBM的高性能芯片,包括大部分創(chuàng)企的AI訓(xùn)練芯片都應(yīng)用了CoWoS技術(shù)。CoWoS-S基于硅中介層(Si-interposer)為先進(jìn)SoC和HBM提供系統(tǒng)集成,在GPU等算力芯片的封裝中應(yīng)用廣泛。CoWoS-S的特點(diǎn)是混合了寬帶內(nèi)存模塊HBM(HighBandwidthMemory)和大規(guī)模SoC的高性能子系統(tǒng),通過(guò)Si中介層連接HBM和SoC,實(shí)現(xiàn)了寬帶內(nèi)存訪(fǎng)問(wèn)。CoWoS-S最早于2011年開(kāi)發(fā),經(jīng)歷5代發(fā)展。最初,安裝在中介層上的硅芯片是多個(gè)邏輯芯片,采用該技術(shù)的賽靈思高端FPGA“7V2000T”在CoWoS-S中配備了四個(gè)FPGA邏輯芯片。第3代開(kāi)始支持邏輯和內(nèi)存的混合加載。第5代CoWoS-S技術(shù)使用了全新的TSV解決方案,更厚的銅連接線(xiàn),晶體管數(shù)量是第3代的20倍,硅中介層擴(kuò)大到2500mm2,相當(dāng)于3倍光罩面積,擁有8個(gè)HBM2E堆棧的空間,容量高達(dá)128GB。第6代技術(shù)有望于2023年推出,將會(huì)在基板上封裝2顆運(yùn)算核心,同時(shí)可以板載多達(dá)12顆HBM緩存芯片。CoWoS幫助臺(tái)積電取得英偉達(dá)、AMD等高性能計(jì)算芯片訂單。根據(jù)DIGITIMES報(bào)道,微軟已與臺(tái)積電及其生態(tài)系統(tǒng)合作伙伴接洽,商討將CoWoS封裝用于其自己的AI芯片。英偉達(dá)高端GPU都采用CoWoS封裝技術(shù)將GPU芯片和HBM集合在一起。TeslaP100通過(guò)加入采用HBM2的CoWoS第三代技術(shù),將計(jì)算性能和數(shù)據(jù)緊密集成在同一個(gè)程序包內(nèi),提供的內(nèi)存性能是NVIDIAMaxwell架構(gòu)的三倍以上。V100、A100、等高端GPU,均采用臺(tái)積電CoWoS封裝,分別配備32GBHBM2、40GBHBM2E內(nèi)存,全新Hopper架構(gòu)的H100GPU也采用CoWoS封裝,具有80GB的HBM3內(nèi)存和超高的3.2TB/s內(nèi)存帶寬。AMD也將重新采用CoWoS封裝。根據(jù)DIGITIMES報(bào)道,AMDMI200原本由日月光集團(tuán)與旗下矽品提供,應(yīng)用FO-EB先進(jìn)封裝(扇出嵌入式橋接),而新MI系列數(shù)據(jù)中心加速器芯片將重新采用臺(tái)積電先進(jìn)封裝CoWoS。基于A(yíng)ldebaranGPU的MI250或采用第五代CoWoS封裝技術(shù),可實(shí)現(xiàn)128GBHBM2E內(nèi)存等超高性能配置。2)HBM:3D封裝打造多層堆疊內(nèi)存,突破容量與帶寬瓶頸HBM采用3D封裝,通過(guò)TSV將多個(gè)DRAMdie垂直堆疊。在后摩爾時(shí)代,存儲(chǔ)帶寬制約了計(jì)算系統(tǒng)的有效帶寬,導(dǎo)致芯片算力性能提升受到限制,HBM應(yīng)運(yùn)而生,與傳統(tǒng)DRAM不同,HBM是3D結(jié)構(gòu),它使用TSV技術(shù)將數(shù)個(gè)DRAM裸片堆疊起來(lái),形成立方體結(jié)構(gòu),即DRAM芯片上搭上數(shù)千個(gè)細(xì)微孔并通過(guò)垂直貫通的電極連接上下芯片;DRAM下面是DRAM邏輯控制單元,對(duì)DRAM進(jìn)行控制。從技術(shù)角度看,HBM促使DRAM從傳統(tǒng)2D加速走向立體3D,充分利用空間、縮小面積,契合半導(dǎo)體行業(yè)小型化、集成化的發(fā)展趨勢(shì)。HBM和硅互聯(lián)技術(shù)突破了內(nèi)存容量與帶寬瓶頸,被視為新一代DRAM解決方案。而相較傳統(tǒng)封裝方式,TSV技術(shù)能夠縮減30%體積,并降低50%能耗。HBM相對(duì)傳統(tǒng)內(nèi)存數(shù)據(jù)傳輸線(xiàn)路的數(shù)量大幅提升。存儲(chǔ)器帶寬指單位時(shí)間內(nèi)可以傳輸?shù)臄?shù)據(jù)量,要想增加帶寬,最簡(jiǎn)單的方法是增加數(shù)據(jù)傳輸線(xiàn)路的數(shù)量。在典型的DRAM中,每個(gè)芯片有八個(gè)DQ引腳2,也就是數(shù)據(jù)輸入/輸出引腳。在組成DIMM3模塊單元之后,共有64個(gè)DQ引腳。然而,隨著系統(tǒng)對(duì)DRAM和處理速度等方面的要求有所提高,數(shù)據(jù)傳輸量也在增加。因此,DQ引腳的數(shù)量(D站的出入口數(shù)量)已無(wú)法保證數(shù)據(jù)能夠順利通過(guò)。HBM由于采用了系統(tǒng)級(jí)封裝(SIP)4和硅通孔(TSV)技術(shù),擁有高達(dá)1024個(gè)DQ引腳,但其外形尺寸(指物理面積)卻比標(biāo)準(zhǔn)DRAM小10倍以上。由于傳統(tǒng)DRAM需要大量空間與CPU和GPU等處理器通信,而且它們需要通過(guò)引線(xiàn)鍵合5或PCB跡線(xiàn)6進(jìn)行連接,因此DRAM不可能對(duì)海量數(shù)據(jù)進(jìn)行并行處理。相比之下,HBM產(chǎn)品可以在極短距離內(nèi)進(jìn)行通信,增加了DQ路徑,顯著加快了信號(hào)在堆疊DRAM之間的傳輸速度,實(shí)現(xiàn)了低功耗、高速的數(shù)據(jù)傳輸。HBM正在成為AI服務(wù)器GPU的標(biāo)配。AI服務(wù)器需要在短時(shí)間內(nèi)處理大量數(shù)據(jù),對(duì)帶寬提出了更高的要求,HBM成為了重要的解決方案。AI服務(wù)器GPU市場(chǎng)以NVIDIAH100、A100、A800以及AMDMI250、MI250X系列為主,基本都配備了HBM。HBM方案目前已演進(jìn)為較為主流的高性能計(jì)算領(lǐng)域擴(kuò)展高帶寬的方案。SK海力士HBM3顯存的樣品已通過(guò)NVIDIA的性能評(píng)估工作,在2022年6月向NVIDIA正式供貨,2023GTC大會(huì)發(fā)布的ChatGPT專(zhuān)用最新H100NVLGPU,也配置了188GBHBM3e內(nèi)存;RambusHBM3或?qū)⒃?023年流片,實(shí)際應(yīng)用于數(shù)據(jù)中心、AI、HPC等領(lǐng)域。IDC數(shù)據(jù)顯示,2019年中國(guó)AI加速服務(wù)器單機(jī)GPGPU搭載量最多達(dá)到20顆,加權(quán)平均數(shù)約為8顆/臺(tái)。單顆GPU配套的HBM顯存存儲(chǔ)容量達(dá)到80GB,對(duì)應(yīng)價(jià)值量約為800美元。SK海力士是HBM開(kāi)發(fā)的先行者,并在技術(shù)開(kāi)發(fā)和市場(chǎng)份額上占據(jù)領(lǐng)先地位。2014年,SK海力士與AMD聯(lián)合開(kāi)發(fā)了全球首款HBM產(chǎn)品。SK海力士的HBM3發(fā)布7個(gè)月后實(shí)現(xiàn)了量產(chǎn),將搭載于NVIDIAH100之上。根據(jù)BussinessKorea的報(bào)道,SK海力士在HBM市場(chǎng)已獲得60%-70%的市場(chǎng)份額。SK海力士之后,三星、美光推出了各自的HBM產(chǎn)品,分別迭代至HBM3和HBM2E。晶圓代工廠(chǎng)商包括如臺(tái)積電、格芯等也在發(fā)力HBM相關(guān)的封裝技術(shù)。隨著HBM3的性能提升,未來(lái)市場(chǎng)空間廣闊。以位元計(jì)算,目前HBM占整個(gè)DRAM市場(chǎng)比重僅約1.5%,滲透率提升空間較大。在將GPU等AI芯片推向高峰的同時(shí),也極大帶動(dòng)了市場(chǎng)對(duì)新一代內(nèi)存芯片HBM(高帶寬內(nèi)存)的需求,據(jù)悉,2023年開(kāi)年以來(lái),三星、SK海力士的HBM訂單就快速增加,價(jià)格也水漲船高。根據(jù)TrendForce咨詢(xún),2023-2025年HBM市場(chǎng)CAGR有望成長(zhǎng)至40-45%以上,至2025年市場(chǎng)規(guī)模有望快速增至25億美元。3)3DIC:多芯片垂直堆疊增強(qiáng)互聯(lián)帶寬,未來(lái)發(fā)展?jié)摿薮?DIC是指使用FAB工藝在單個(gè)芯片上堆疊多個(gè)器件層,包括多Logic芯片間的堆疊。與2.5D封裝相比,3DIC封裝在互連方式有所不同。2.5D封裝是通過(guò)TSV轉(zhuǎn)換板連接芯片,而3DIC封裝是將多個(gè)芯片垂直堆疊在一起,并通過(guò)直接鍵合技術(shù)實(shí)現(xiàn)芯片間的互連。在2.5D結(jié)構(gòu)中,兩個(gè)或多個(gè)有源半導(dǎo)體芯片并排放置在硅中介層上,以實(shí)現(xiàn)極高的芯片到芯片互連密度。在3D結(jié)構(gòu)中,有源芯片通過(guò)芯片堆疊集成,以實(shí)現(xiàn)最短的互連和最小的封裝尺寸。另一方面,2.5D封裝和3DIC封裝的制造工藝也有所不同,2.5D封裝需要制造硅基中介層,并且需要進(jìn)行微影技術(shù)等復(fù)雜的工藝步驟;而3DIC封裝需要進(jìn)行直接鍵合技術(shù)等高難度的制造工藝步驟。當(dāng)前3DIC封裝主流產(chǎn)品包括臺(tái)積電SoIC技術(shù)、英特爾Foveros技術(shù)和三星X-Cube技術(shù)。2.3.2存算一體:解決傳統(tǒng)馮諾依曼架構(gòu)“存儲(chǔ)墻”,能效比提升潛力巨大存算一體有望解決傳統(tǒng)馮諾依曼架構(gòu)下的“存儲(chǔ)墻”。由于處理器的設(shè)計(jì)以提升計(jì)算速度為主,存儲(chǔ)則更注重容量提升和成本優(yōu)化,“存”“算〞之間性能失配,從而導(dǎo)致了訪(fǎng)存帶寬低、時(shí)延長(zhǎng)、功耗高等問(wèn)題,即通常所說(shuō)的“〝存儲(chǔ)墻〞和“功耗墻”。訪(fǎng)存愈密集,“墻”的問(wèn)題愈嚴(yán)重,算力提升愈困難。隨著以人工智能計(jì)算單元為代表的訪(fǎng)存密集型應(yīng)用快速崛起,訪(fǎng)存時(shí)延和功耗開(kāi)銷(xiāo)無(wú)法忽視,計(jì)算架構(gòu)的變革顯得尤為迫切。存算一體作為一種新型算力,指計(jì)算單元與存儲(chǔ)單元融合,在完成數(shù)據(jù)存儲(chǔ)功能的同時(shí)可以直接進(jìn)行計(jì)算,有望解決傳統(tǒng)馮諾依曼架構(gòu)下的“存儲(chǔ)墻〞、“功耗墻〞問(wèn)題,以其巨大的能效比提升潛力,有望成為人工智能時(shí)代的先進(jìn)應(yīng)用技術(shù)。存儲(chǔ)墻:數(shù)據(jù)搬運(yùn)慢、搬運(yùn)能耗大等問(wèn)題是高速計(jì)算的關(guān)鍵瓶頸。從處理單元外的存儲(chǔ)器提取數(shù)據(jù),搬運(yùn)時(shí)間往往是運(yùn)算時(shí)間的成百上千倍,整個(gè)過(guò)程的無(wú)用能耗大概在60%-90%之間,能效非常低。PIM:用硅通孔(ThroughSiliconVia,TSV,2010年實(shí)現(xiàn))技術(shù)將計(jì)算單元塞進(jìn)內(nèi)存上下bank之間。CIM:計(jì)算操作由位于存儲(chǔ)芯片/區(qū)域內(nèi)部的獨(dú)立計(jì)算單元完成,存儲(chǔ)和計(jì)算可以是模擬的也可以是數(shù)字的。這種路線(xiàn)一般用于算法固定的場(chǎng)景算法計(jì)算。目前主要路線(xiàn)是基于NORflash,多數(shù)情況下存儲(chǔ)容量較小,這使得NORflash單片算力達(dá)到1TOPS以上器件代價(jià)較大,通常業(yè)內(nèi)大算力一般是20-100TOPS以上。而其他存儲(chǔ)器,包括SRAM、RRAM等,可以用來(lái)做到大算力的存算一體??蒲性核c龍頭廠(chǎng)商積極布局,未來(lái)市場(chǎng)潛力較大。2011年,存算一體芯片開(kāi)始受到學(xué)界關(guān)注,2016-2017年成為學(xué)界熱議話(huà)題,隨之而來(lái)學(xué)術(shù)大佬與業(yè)界領(lǐng)軍廠(chǎng)商紛紛開(kāi)啟其商業(yè)化探索??蒲性核矫妫又荽髮W(xué)圣芭芭拉分校謝源教授團(tuán)隊(duì)致力于在新型存儲(chǔ)器件ReRAM(阻變存儲(chǔ))里面實(shí)現(xiàn)計(jì)算的功能研究,即PRIME架構(gòu)。清華大學(xué)劉勇攀教授團(tuán)隊(duì)和汪玉教授團(tuán)隊(duì)均參與了PRIME架構(gòu)的研發(fā),目前已實(shí)現(xiàn)在150nm工藝下流片,在阻變存儲(chǔ)陣列里實(shí)現(xiàn)了計(jì)算存儲(chǔ)一體化的神經(jīng)網(wǎng)絡(luò),功耗降低20倍,速度提高50倍。此外,清華大學(xué)與SK海力士聯(lián)合成立智能存儲(chǔ)計(jì)算芯片聯(lián)合研究中心,未來(lái)五年,中心將致力于研發(fā)存算一體與近存儲(chǔ)處理技術(shù)。在產(chǎn)業(yè)應(yīng)用方面,英特爾、博世、美光、LamResearch、應(yīng)用材料、微軟、亞馬遜、軟銀都投資了NOR閃存存算一體芯片。其中,英特爾發(fā)布的傲騰固態(tài)盤(pán)采用片外存儲(chǔ)技術(shù),實(shí)現(xiàn)CPU與硬盤(pán)之間數(shù)據(jù)高速搬運(yùn),從而平衡高級(jí)分析和人工智能等大規(guī)模內(nèi)存工作負(fù)載的性?xún)r(jià)比。SK海力士在今年的ISSCC發(fā)表存內(nèi)計(jì)算的開(kāi)發(fā)成果-基于GDDR接口的DRAM存內(nèi)計(jì)算,并展示了其首款基于存內(nèi)計(jì)算技術(shù)產(chǎn)品-GDDR6-AiM的樣本。根據(jù)量子位智庫(kù)預(yù)計(jì),2030年基于存算一體的大算力芯片將實(shí)現(xiàn)規(guī)模量產(chǎn),應(yīng)用場(chǎng)景覆蓋大數(shù)據(jù)檢索、蛋白質(zhì)/基因分析、數(shù)據(jù)加密、圖像處理等。2030年,基于存算一體技術(shù)的中小算力芯片市場(chǎng)規(guī)模約為1069億人民幣,基于存算一體技術(shù)的大算力芯片市場(chǎng)規(guī)模約為67億人民幣,總市場(chǎng)規(guī)模約為1136億人民幣。三、AI服務(wù)器滲透率快速提升3.1AI服務(wù)器是算力基礎(chǔ)設(shè)施最主要的硬件,訓(xùn)練型主要成本來(lái)自于GPU芯片3.1.1AI服務(wù)器采用異構(gòu)架構(gòu),主流結(jié)構(gòu)為CPU+多顆GPU與普通服務(wù)器的絕大多數(shù)空間分配給CPU相比,AI服務(wù)器是采用異構(gòu)形式的服務(wù)器,在異構(gòu)方式上可以根據(jù)應(yīng)用的范圍采用不同的組合方式,一般采取CPU+多顆GPU的架構(gòu),也有CPU+TPU、CPU+其他的加速卡等組合。相較普通服務(wù)器,AI服務(wù)器更擅長(zhǎng)并行運(yùn)算,具有高帶寬、性能優(yōu)越、能耗低等優(yōu)點(diǎn)。在大模型的預(yù)訓(xùn)練中,一方面?zhèn)戎貙?duì)文本上下文的理解,另一方面算法上存在大量的向量、矩陣計(jì)算,這讓并行計(jì)算的AI服務(wù)器更擅長(zhǎng)處理大模型的預(yù)訓(xùn)練任務(wù)。人工智能與通用大模型作為數(shù)字經(jīng)濟(jì)中的新興行業(yè),帶動(dòng)了大量的算力需求,也成為國(guó)內(nèi)算力基礎(chǔ)設(shè)施建設(shè)中最主要的硬件之一。以GPU為核心的異構(gòu)服務(wù)器未來(lái)將成為主流。對(duì)比CPU和GPU的內(nèi)部架構(gòu),CPU采用整塊的ALU(運(yùn)算單元),且大量空間用于控制單元和緩存,串行計(jì)算能力強(qiáng);而GPU采用分立的大量ALU,很少空間分配給控制單元和緩存,并行計(jì)算能力強(qiáng)。而由于圖像識(shí)別、視覺(jué)效果處理、虛擬現(xiàn)實(shí)、大模型訓(xùn)練等任務(wù)都包含大量的簡(jiǎn)單重復(fù)計(jì)算、矩陣計(jì)算等,更適合用搭載GPU更多的異構(gòu)型AI服務(wù)器進(jìn)行處理,而隨著企業(yè)的智能化變革和通用大模型的興起,以GPU為核心的異構(gòu)型AI服務(wù)器將在算力基礎(chǔ)設(shè)施建設(shè)中占據(jù)愈發(fā)重要的地位。3.1.2AI服務(wù)器產(chǎn)業(yè)鏈上下游&成本結(jié)構(gòu)拆解AI服務(wù)器產(chǎn)業(yè)鏈上游主要由服務(wù)器元器件生產(chǎn)商組成,其中CPU、GPU作為核心組件,主要由Intel、AMD、Nvidia供應(yīng),國(guó)產(chǎn)供應(yīng)商占比較少,其他部件包括內(nèi)存、SSD、PCB、光模塊、電源等存在更多的國(guó)產(chǎn)供應(yīng)商;產(chǎn)業(yè)鏈中游包括主板集成商和服務(wù)器廠(chǎng)商,先由主板集成商將眾多芯片集成,再交由服務(wù)器廠(chǎng)商裝配成整機(jī)銷(xiāo)售。目前國(guó)內(nèi)企業(yè)在服務(wù)器廠(chǎng)商中占據(jù)重要地位;產(chǎn)業(yè)鏈下游主要包括以BAT為首的互聯(lián)網(wǎng)廠(chǎng)商,移動(dòng)、電信、聯(lián)通三大運(yùn)營(yíng)商和眾多政企客戶(hù)(主要集中在政府、金融、醫(yī)療三大行業(yè),因其最需要AI客服等相關(guān)產(chǎn)品)。通用服務(wù)器成本主要由CPU、存儲(chǔ)、內(nèi)存及其他部分構(gòu)成,而AI服務(wù)器由于采用了多顆GPU芯片組成異構(gòu)架構(gòu),其成本構(gòu)成也會(huì)發(fā)生變化。具體來(lái)看,訓(xùn)練型AI服務(wù)器由于需要處理大量數(shù)據(jù),具備更強(qiáng)的計(jì)算能力,訓(xùn)練芯片價(jià)格顯著高于推理芯片。訓(xùn)練型AI服務(wù)器成本中,約7成以上由GPU構(gòu)成,其余CPU、存儲(chǔ)、內(nèi)存等占比相對(duì)較小。對(duì)于推理型服務(wù)器,其GPU成本約為2-3成,整體成本構(gòu)成與高性能型相近。3.2AI服務(wù)器市場(chǎng)規(guī)模有望保持高速增長(zhǎng),當(dāng)前訂單飽滿(mǎn)3.2.1全球AI服務(wù)器近三年將保持高速增長(zhǎng)根據(jù)IDC數(shù)據(jù),2022年全球AI服務(wù)器市場(chǎng)規(guī)模202億美元,同比增長(zhǎng)29.8%,占服務(wù)器市場(chǎng)規(guī)模的比例為16.4%,同比提升1.2pct。我們認(rèn)為隨著數(shù)據(jù)量的持續(xù)提升,大模型參與玩家和單個(gè)模型參數(shù)量提升,以及數(shù)字化轉(zhuǎn)型推進(jìn)等多因素影響,AI服務(wù)器市場(chǎng)規(guī)模將繼續(xù)保持較快增長(zhǎng)。結(jié)合2.1.3節(jié)圖表45我們對(duì)于大語(yǔ)言模型帶來(lái)AI芯片的增量需求測(cè)算,我們認(rèn)為2023-2025年全球AI服務(wù)器有望實(shí)現(xiàn)高速增長(zhǎng)。以目前企業(yè)對(duì)于A(yíng)I服務(wù)器的實(shí)際需求來(lái)看,雖然推理端需求更為旺盛,但從采購(gòu)角度更傾向于搭載A100/A800GPU的訓(xùn)練/推理一體服務(wù)器。因此我們結(jié)合3.1.2節(jié)對(duì)于訓(xùn)練型、推理型AI服務(wù)器的成本拆解測(cè)算,預(yù)估2023-2025年增量的GPU需求約占AI服務(wù)器成本比重為70%。此外,隨著包括H100/H800等新一代芯片的推出、算法迭代升級(jí)均有望帶來(lái)整體效率提升,AI服務(wù)器增量市場(chǎng)空間可能略低于大模型需求預(yù)期。結(jié)合上述假設(shè),我們認(rèn)為全球AI服務(wù)器市場(chǎng)規(guī)模未來(lái)3年內(nèi)將保持高速增長(zhǎng),市場(chǎng)規(guī)模分別為395/890/1601億美元,對(duì)應(yīng)增速96%/125%/80%。由于互聯(lián)網(wǎng)廠(chǎng)商等主要下游客戶(hù)傾向于為未來(lái)潛在需求提前備貨,因此2023年市場(chǎng)增速可能高于預(yù)測(cè)值,同時(shí)2024、2025年市場(chǎng)增速可能略低于預(yù)測(cè)值。3.2.2中國(guó)AI服務(wù)器近三年將保持高速增長(zhǎng)根據(jù)IDC數(shù)據(jù),2022年中國(guó)AI服務(wù)器市場(chǎng)規(guī)模67億美元,同比增長(zhǎng)24%。其中GPU服務(wù)器占據(jù)主導(dǎo)地位,市場(chǎng)份額為89%至60億美元。同時(shí),NPU、ASIC和FPGA等非GPU加速服務(wù)器以同比12%的增速占有了11%的市場(chǎng)份額,達(dá)到7億美元。在大模型浪潮到來(lái)前,由數(shù)字經(jīng)濟(jì)和“東數(shù)西算”等政策影響下,中國(guó)AI算力在2021年實(shí)現(xiàn)了68.2%的同比高速增長(zhǎng)。據(jù)浪潮信息、國(guó)際數(shù)據(jù)公司(IDC)和清華大學(xué)聯(lián)合推出的《2021-2022全球計(jì)算力指數(shù)評(píng)估報(bào)告》顯示,中國(guó)AI算力發(fā)展領(lǐng)跑全球,AI服務(wù)器支出規(guī)模位列全球第一。我們認(rèn)為,在大模型浪潮下,疊加數(shù)字經(jīng)濟(jì)、東數(shù)西算帶動(dòng)的數(shù)據(jù)中心、智算中心建設(shè),AI服務(wù)器市場(chǎng)中我國(guó)的份額在當(dāng)前約全球1/3比例上有望進(jìn)一步提升。我們預(yù)計(jì),2023-2025年,結(jié)合對(duì)于全球AI服務(wù)器市場(chǎng)規(guī)模的預(yù)判,以及對(duì)于我國(guó)份額占比持續(xù)提升的假設(shè),我國(guó)AI服務(wù)器市場(chǎng)規(guī)模有望達(dá)到134/307/561億美元,同比增長(zhǎng)101%/128%/83%。由于互聯(lián)網(wǎng)廠(chǎng)商等主要下游客戶(hù)傾向于為未來(lái)潛在需求提前備貨,因此2023年市場(chǎng)增速可能高于預(yù)測(cè)值,同時(shí)2024、2025年市場(chǎng)增速可能略低于預(yù)測(cè)值。3.2.3當(dāng)前AI服務(wù)器廠(chǎng)商在手訂單充分,AI服務(wù)器市場(chǎng)高增長(zhǎng)確定性較強(qiáng)自去年ChatGPT帶動(dòng)的大模型浪潮以來(lái),國(guó)內(nèi)外頭部互聯(lián)網(wǎng)廠(chǎng)商紛紛加入AI算力的軍備競(jìng)賽,加大對(duì)于A(yíng)I算力側(cè)的資源投入。AI算力的高景氣帶動(dòng)AI服務(wù)器需求端爆發(fā)式增長(zhǎng),并體現(xiàn)在A(yíng)I服務(wù)器廠(chǎng)商訂單端。全球AI服務(wù)器出貨金額排名第一位的龍頭廠(chǎng)商浪潮信息,提到一季度以來(lái)AI服務(wù)器市場(chǎng)迎來(lái)明顯增長(zhǎng),客戶(hù)關(guān)注點(diǎn)由價(jià)格轉(zhuǎn)向能否及時(shí)滿(mǎn)足自身需求。此外,據(jù)紫光股份于投資者互動(dòng)平臺(tái)的回復(fù),其AI服務(wù)器訂單今年一季度有很大提升,產(chǎn)能滿(mǎn)足市場(chǎng)需求不存在問(wèn)題,針對(duì)GPT場(chǎng)景優(yōu)化的GPU服務(wù)器已經(jīng)完成開(kāi)發(fā),預(yù)計(jì)今年二季度全面上市。作為全球ICT設(shè)備龍頭企業(yè)的聯(lián)想集團(tuán),根據(jù)其最新公布的財(cái)報(bào)數(shù)據(jù),ISG(基礎(chǔ)設(shè)施解決方案業(yè)務(wù)集團(tuán))在2023年1-3月實(shí)現(xiàn)營(yíng)收同比增長(zhǎng)56.2%,全財(cái)年?duì)I收同比增長(zhǎng)36.6%,主要受益于海外AI服務(wù)器需求爆發(fā)以及存儲(chǔ)業(yè)務(wù)的高速增長(zhǎng),公司預(yù)期新財(cái)年AI服務(wù)器收入增速將顯著快于通用服務(wù)器,帶動(dòng)ISG部門(mén)營(yíng)收增長(zhǎng)超市場(chǎng)平均水平20%以上。中科曙光深度布局算力領(lǐng)域,包括上游芯片、中游服務(wù)器解決方案、液冷技術(shù)、以及下游算力調(diào)度等業(yè)務(wù),公司于投資者互動(dòng)平臺(tái)多次回復(fù),會(huì)根據(jù)用戶(hù)需求提供通用算力和智能算力產(chǎn)品及服務(wù),隨著我國(guó)算力需求的增長(zhǎng),各類(lèi)產(chǎn)品銷(xiāo)售均呈現(xiàn)增長(zhǎng)態(tài)勢(shì),伴隨我國(guó)人工智能技術(shù)和產(chǎn)業(yè)的發(fā)展,預(yù)計(jì)智能計(jì)算產(chǎn)品需求將逐步提升。3.3AI服務(wù)器市場(chǎng)集中度有望提升,國(guó)內(nèi)廠(chǎng)商呈現(xiàn)一超多強(qiáng)格局3.3.1全球AI服務(wù)器競(jìng)爭(zhēng)格局據(jù)IDC數(shù)據(jù),2022年上半年全球AI服務(wù)器市場(chǎng)中,浪潮信息、戴爾、惠普、聯(lián)想、新華三分別以15.1%、14.1%、7.7%、5.6%、4.7%的市場(chǎng)份額位居前五位。市場(chǎng)格局相對(duì)分散,龍頭廠(chǎng)商份額較為接近。此外,由于以北美云廠(chǎng)商為主的需求方偏向于采用ODM模式,因此非品牌商份額占比較高,接近50%。3.3.2中國(guó)AI服務(wù)器競(jìng)爭(zhēng)格局據(jù)IDC數(shù)據(jù),2022年我國(guó)AI服務(wù)器市場(chǎng)按銷(xiāo)售額統(tǒng)計(jì)市場(chǎng)份額中,浪潮信息、新華三、寧暢位居前三位,市場(chǎng)份額分別為47%、11%、9%。市場(chǎng)格局呈現(xiàn)一超多強(qiáng)局面,除浪潮外其與廠(chǎng)商份額相對(duì)接近。由于國(guó)內(nèi)頭部廠(chǎng)商采用類(lèi)ODM模式服務(wù)互聯(lián)網(wǎng)客戶(hù),因此ODM廠(chǎng)商份額占比偏低。3.3.3AI服務(wù)器競(jìng)爭(zhēng)格局未來(lái)演進(jìn)趨勢(shì)從AI服務(wù)器的研發(fā)與交付考慮,品牌商和代工廠(chǎng)的模式及時(shí)間線(xiàn)略有不同,品牌商研發(fā)周期更長(zhǎng)但交付更快,代工廠(chǎng)研發(fā)周期略短但交付產(chǎn)品時(shí)間略長(zhǎng)。5月29日,英偉達(dá)CEO在臺(tái)北國(guó)際電腦展COMPUTEX2023大會(huì)帶來(lái)主題演講,演講中發(fā)布了目前臺(tái)系ODM廠(chǎng)商針對(duì)客戶(hù)需求做出的AI服務(wù)器雛形,并將進(jìn)一步根據(jù)客戶(hù)需求做定制化開(kāi)發(fā),由定制化開(kāi)發(fā)到產(chǎn)品交付客戶(hù)預(yù)計(jì)需要數(shù)月時(shí)間。對(duì)于OEM廠(chǎng)商來(lái)說(shuō),包括浪潮、聯(lián)想、新華三等廠(chǎng)商的研發(fā)周期相對(duì)較長(zhǎng),需要接近一年的時(shí)間進(jìn)行驗(yàn)證,并根據(jù)不同客戶(hù)做不同配置規(guī)格進(jìn)行進(jìn)一步驗(yàn)證。OEM廠(chǎng)商驗(yàn)證完成后的成熟產(chǎn)品在交付中相比ODM廠(chǎng)商可以實(shí)現(xiàn)更快交付。3.4全球服務(wù)器市場(chǎng)規(guī)模預(yù)計(jì)保持平穩(wěn)3.4.1通用服務(wù)器仍處庫(kù)存去化階段,全球市場(chǎng)規(guī)模預(yù)計(jì)將出現(xiàn)下滑根據(jù)研究機(jī)構(gòu)TrendForce5月17日發(fā)布的報(bào)告,2023年服務(wù)器市場(chǎng)需求展望不佳,再次下調(diào)今年全球服務(wù)器整機(jī)出貨量預(yù)測(cè)至1383.5萬(wàn)臺(tái),同比減少2.85%。TrendForce稱(chēng),美國(guó)谷歌、微軟、Meta、亞馬遜四大互聯(lián)網(wǎng)公司陸續(xù)下調(diào)服務(wù)器采購(gòu)量;同時(shí)戴爾、HPE等OEM廠(chǎng)商也在2~4月間下調(diào)全年出貨量預(yù)估,同比分別減少15%、12%;此外,受?chē)?guó)際形勢(shì)以及經(jīng)濟(jì)因素等多種因素導(dǎo)致全年服務(wù)器需求展望不佳。2023年Q1受淡季效應(yīng)以及終端庫(kù)存修正的影響,全球服務(wù)器出貨量環(huán)比減少了15.9%。TrendForce對(duì)于二季度產(chǎn)業(yè)回暖信心偏低,產(chǎn)業(yè)旺季并未如期發(fā)生,環(huán)比增長(zhǎng)預(yù)估僅為9.23%。此外,ESG方面的討論使得美國(guó)四大互聯(lián)網(wǎng)公司延長(zhǎng)服務(wù)器的使用年限,進(jìn)而降低采購(gòu)量,控制資本支出,這也是影響服務(wù)器市場(chǎng)的因素之一。預(yù)計(jì)庫(kù)存去化完成將在今年下半年或明年上半年到來(lái),若庫(kù)存去化進(jìn)度不及預(yù)期,全年服務(wù)器市場(chǎng)規(guī)模預(yù)測(cè)可能會(huì)進(jìn)一步下調(diào)。3.4.2AI服務(wù)器出貨量占比進(jìn)一步提升,對(duì)全球服務(wù)器市場(chǎng)整體出貨量貢獻(xiàn)有限去年底以來(lái),ChatGPT等人工智能應(yīng)用的火熱帶動(dòng)了AI服務(wù)器需求暴增,英偉達(dá)芯片出現(xiàn)供不應(yīng)求情況。包括微軟、谷歌、Meta、騰訊、百度等國(guó)內(nèi)外云服務(wù)提供商紛紛積極加大AI算力投入。根據(jù)TrendForce預(yù)估,2023年AI服務(wù)器出貨量將同比實(shí)現(xiàn)10%增長(zhǎng),但由于從臺(tái)數(shù)來(lái)看AI服務(wù)器占比不足10%,對(duì)于整個(gè)市場(chǎng)影響相對(duì)有限,預(yù)計(jì)全球全年服務(wù)器出貨量整體呈現(xiàn)持平或小幅下滑趨勢(shì)。從國(guó)內(nèi)市場(chǎng)來(lái)看,互聯(lián)網(wǎng)廠(chǎng)商及智算中心建設(shè)推動(dòng)AI服務(wù)器需求暴漲,一季度相關(guān)廠(chǎng)商新增訂單同比超4成,全年預(yù)計(jì)出貨金額將保持高速增長(zhǎng)。考慮到通用服務(wù)器市場(chǎng)下半年需求有望回暖,全年市場(chǎng)規(guī)模有望持平或小幅增長(zhǎng),疊加AI服務(wù)器的快速增長(zhǎng),根據(jù)IDC預(yù)測(cè),預(yù)計(jì)全年服務(wù)器市場(chǎng)規(guī)模有望實(shí)現(xiàn)超10%的增長(zhǎng)。四、AI正在推動(dòng)高速率光模塊需求放量在傳統(tǒng)的數(shù)據(jù)中心中,網(wǎng)絡(luò)側(cè)主要包括傳統(tǒng)樹(shù)形三層架構(gòu)和葉脊架構(gòu)。早期的數(shù)據(jù)中心一般采用傳統(tǒng)的三層結(jié)構(gòu),包括接入層、匯聚層和核心層,其中接入層用于連接計(jì)算節(jié)點(diǎn)與機(jī)柜交換機(jī),匯聚層用于接入層的互聯(lián),核心層用于匯聚層的互聯(lián)且實(shí)現(xiàn)與外部網(wǎng)絡(luò)連接。隨著數(shù)據(jù)中心內(nèi)部東西向流量的快速提升,三層網(wǎng)絡(luò)架構(gòu)的核心層和匯聚層任務(wù)加重,性能提升需求高,設(shè)備成本將大幅提升。因此,適用于東西向流量的扁平化的葉脊網(wǎng)絡(luò)架構(gòu)應(yīng)運(yùn)而生,葉交換機(jī)直接與計(jì)算節(jié)點(diǎn)相連,脊交換機(jī)相當(dāng)于核心交換機(jī),通過(guò)ECMP動(dòng)態(tài)選擇多條路徑。葉脊網(wǎng)絡(luò)架構(gòu)具備帶寬利用率高、擴(kuò)展性好、網(wǎng)絡(luò)延遲可預(yù)測(cè)和安全性高等優(yōu)勢(shì),在數(shù)據(jù)中心中實(shí)現(xiàn)廣泛的應(yīng)用。AI數(shù)據(jù)中心中,由于內(nèi)部數(shù)據(jù)流量較大,因此無(wú)阻塞的胖樹(shù)網(wǎng)絡(luò)架構(gòu)成了重要需求之一。英偉達(dá)的AI數(shù)據(jù)中心中,采用了胖樹(shù)(fat-tree)的網(wǎng)絡(luò)架構(gòu)來(lái)實(shí)現(xiàn)無(wú)阻塞的功能。胖樹(shù)的網(wǎng)絡(luò)架構(gòu)基本理念為:使用大量低性能的交換機(jī),構(gòu)建出大規(guī)模的無(wú)阻塞網(wǎng)絡(luò),對(duì)于任意的通信模式,總有路徑讓他們的通信帶寬達(dá)到網(wǎng)卡帶寬,架構(gòu)中用到的所有交換機(jī)都是相同的。胖樹(shù)網(wǎng)絡(luò)架構(gòu)一般用于網(wǎng)絡(luò)要求較高的數(shù)據(jù)中心中,如超算中心和AI數(shù)據(jù)中心等。英偉達(dá)的A100GPU主要對(duì)應(yīng)200G光模塊,H100GPU可以對(duì)應(yīng)400G或800G光模塊。每個(gè)A100GPU配一張MellanoxHDR200Gb/sInfiniband網(wǎng)卡,每個(gè)H100GPU配一張MellanoxNDR400Gb/sInfiniband網(wǎng)卡。英偉達(dá)在H100SuperPOD的設(shè)計(jì)中,采用了800G的光模塊,在光口采用1個(gè)800G光模塊可以替代2個(gè)400G光模塊,在電口也可以將8個(gè)SerDes通道進(jìn)行整合,與光口的8個(gè)100G通道一一對(duì)應(yīng)。因此這種設(shè)計(jì)下,交換機(jī)的通道密度提高,物理尺寸顯著降低。NVLink帶寬遠(yuǎn)大于網(wǎng)卡側(cè)的PCIe帶寬,因此若將NVLink從服務(wù)器內(nèi)部GPU互連拓寬至不同服務(wù)器之間的GPU的互連,將顯著提升系統(tǒng)的帶寬。若要實(shí)現(xiàn)不同服務(wù)器之間按照NVLink協(xié)議的GPU互連,除了需要采用NVSwitch芯片的物理交換機(jī),還需要物理器件來(lái)實(shí)現(xiàn)交換機(jī)和服務(wù)器之間的連接,那么光模塊也成為了重要的組成部分,從而也會(huì)大幅增長(zhǎng)800G光模塊的需求。近日,英偉達(dá)創(chuàng)始人兼CEO黃仁勛在NVIDIAComputex2023演講中宣布,生成式AI引擎NVIDIADGXGH200現(xiàn)已投入量產(chǎn)。GH200通過(guò)NVLink4的900GB/s超大網(wǎng)絡(luò)帶寬能力來(lái)提升算力,服務(wù)器內(nèi)部可能采用銅線(xiàn)方案,但服務(wù)器之間我們認(rèn)為可能會(huì)用光纖連接。對(duì)于單個(gè)256GH200芯片的集群,計(jì)算側(cè)1個(gè)GH200對(duì)應(yīng)9個(gè)800G光模塊;對(duì)于多個(gè)256的GH200集群,計(jì)算側(cè)1個(gè)GH200對(duì)應(yīng)12個(gè)800G光模塊。訓(xùn)練側(cè)光模塊需求與GPU出貨量強(qiáng)相關(guān),推理側(cè)光模塊需求與數(shù)據(jù)流量強(qiáng)相關(guān)。AI對(duì)光模塊需求的拉升主要分為兩個(gè)階段,訓(xùn)練和推理。其中,訓(xùn)練側(cè)的網(wǎng)絡(luò)架構(gòu)以胖樹(shù)架構(gòu)為主,因?yàn)樵诖竽P陀?xùn)練過(guò)程中,對(duì)于網(wǎng)絡(luò)性能的要求很高,網(wǎng)絡(luò)無(wú)阻塞是重要的需求之一,比如騰訊用于大模型訓(xùn)練的星脈網(wǎng)絡(luò)采用了胖樹(shù)架構(gòu)。同時(shí),我們認(rèn)為大部分廠(chǎng)商會(huì)采用Infiniband協(xié)議的網(wǎng)絡(luò),時(shí)延遠(yuǎn)低于以太網(wǎng),可以提升計(jì)算效率,縮短模型訓(xùn)練時(shí)間。訓(xùn)練側(cè)光模塊的需求與所用GPU顯卡的數(shù)量強(qiáng)相關(guān),根據(jù)胖樹(shù)架構(gòu)中GPU和光模塊的比例關(guān)系可以得到所需光模塊的數(shù)量,A100對(duì)應(yīng)200G光模塊,H100對(duì)應(yīng)400G或者800G光模塊。推理側(cè)面向用戶(hù)側(cè),網(wǎng)絡(luò)架構(gòu)更接近于傳統(tǒng)云計(jì)算數(shù)據(jù)中心的葉脊架構(gòu),主要用于承載AI應(yīng)用帶來(lái)的數(shù)據(jù)流量增量。傳統(tǒng)云計(jì)算主要是ToB市場(chǎng),用戶(hù)數(shù)量不多,若未來(lái)出現(xiàn)圖片或視頻相關(guān)的爆款A(yù)I應(yīng)用,一方面用戶(hù)數(shù)量有望大幅提升,另一方面單個(gè)用戶(hù)產(chǎn)生的數(shù)據(jù)流量可能會(huì)顯著增長(zhǎng),因此數(shù)據(jù)總流量將暴增,所以推理所需的算力和流量實(shí)際上可能遠(yuǎn)大于訓(xùn)練,因此對(duì)于包括光模塊在內(nèi)的網(wǎng)絡(luò)設(shè)備需求將起到有力的支撐和提振。硅光子技術(shù)是以硅或硅基材料(Si,SiO2,SiGe)作為襯底材料,利用與集成電路兼容的CMOS工藝制造對(duì)應(yīng)的光子器件和光電器件,以實(shí)現(xiàn)對(duì)光的激發(fā),調(diào)制,響應(yīng)等,廣泛應(yīng)用于光通信,光傳感,高性能
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙教版數(shù)學(xué)七年級(jí)下冊(cè)2.1《二元一次方程》(第2課時(shí))聽(tīng)評(píng)課記錄
- 五年級(jí)分?jǐn)?shù)乘法口算練習(xí)
- 湘教版數(shù)學(xué)七年級(jí)下冊(cè)2.1.2《冪的乘方與積的乘方》聽(tīng)評(píng)課記錄1
- 蘇教版小學(xué)四年級(jí)上冊(cè)數(shù)學(xué)口算題
- 人教版數(shù)學(xué)九年級(jí)下冊(cè)27.3《位似》聽(tīng)評(píng)課記錄(一)
- 營(yíng)業(yè)場(chǎng)所租賃合同范本
- 核心員工高層管理人員各崗位保密協(xié)議書(shū)范本
- 辦公樓加固改造工程施工合同范本
- 合作開(kāi)店合同范本
- 三人合伙合作協(xié)議書(shū)范本
- 期末 (試題) -2024-2025學(xué)年教科版(廣州)英語(yǔ)四年級(jí)上冊(cè)
- 解讀國(guó)有企業(yè)管理人員處分條例課件
- 湖南省長(zhǎng)沙市一中2024-2025學(xué)年高一生物上學(xué)期期末考試試題含解析
- 碳纖維增強(qiáng)復(fù)合材料在海洋工程中的應(yīng)用情況
- 小孩使用手機(jī)協(xié)議書(shū)范本
- 公司市場(chǎng)分析管理制度
- 焊接材料制造工-國(guó)家職業(yè)標(biāo)準(zhǔn)(2024版)
- 江西省2024年中考數(shù)學(xué)試卷(含答案)
- 榆神礦區(qū)郭家灘煤礦(700 萬(wàn)噸-年)項(xiàng)目環(huán)評(píng)
- 2024年200MW-400MWh電化學(xué)儲(chǔ)能電站設(shè)計(jì)方案
- 余土外運(yùn)施工方案
評(píng)論
0/150
提交評(píng)論