ASIC行業(yè)深度:市場前景、規(guī)模預(yù)測、云廠商布局及相關(guān)公司深度梳理2024_第1頁
ASIC行業(yè)深度:市場前景、規(guī)模預(yù)測、云廠商布局及相關(guān)公司深度梳理2024_第2頁
ASIC行業(yè)深度:市場前景、規(guī)模預(yù)測、云廠商布局及相關(guān)公司深度梳理2024_第3頁
ASIC行業(yè)深度:市場前景、規(guī)模預(yù)測、云廠商布局及相關(guān)公司深度梳理2024_第4頁
ASIC行業(yè)深度:市場前景、規(guī)模預(yù)測、云廠商布局及相關(guān)公司深度梳理2024_第5頁
已閱讀5頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

行業(yè)研究報告行業(yè)研究報告慧博智能投研行業(yè)|深度|研究報告 ASIC行業(yè)正迅速崛起,以其高度定制化的特性適應(yīng)不同業(yè)務(wù)場景和商業(yè)模式的需求。尤其是在大型云服務(wù)提供商(CSP)中,ASIC能夠優(yōu)化內(nèi)部工作負(fù)載架構(gòu),實現(xiàn)更低的功耗和成本,以及為AI工作負(fù)載提供定制的內(nèi)存和I/O架構(gòu),滿足CSP客戶的多樣化需求。隨著AI算力集群尤其是推理集群對加速計算芯片的需求日益增長,ASIC市場將快速增長。預(yù)計到2028年,數(shù)據(jù)中心ASIC市場的規(guī)模將提升至429億美元,國產(chǎn)ASIC芯片制造商也有望逐步追趕。本篇文章我們將深入探討ASIC的概念、分類等基礎(chǔ)知識,并分析其在市場上的應(yīng)用前景。隨后,我們將對ASIC與GPU進(jìn)行詳盡的對比,探討ASIC的特點和優(yōu)勢。進(jìn)一步地,我們將分析市場參與者及競爭格局,并對海外積極布局ASIC的廠商進(jìn)行梳理?;谝陨戏治?,我們將預(yù)測未來ASIC市場的規(guī)模。文章最后,我們將列舉一些與ASIC相關(guān)的公司。希望通過這些內(nèi)容,能夠增進(jìn)大家對ASIC的認(rèn)識和一、行業(yè)概述 1二、市場前景 3三、ASIC與GPU的對比 5四、市場參與者及競爭分析 7五、海外云廠商ASIC布局情況 9六、市場預(yù)測 20七、相關(guān)公司 21八、參考研報 33ASIC,全稱為ApplicationSpecificIntegratedCircuit,中文名為專用集成電路芯片,顧名思義,是一種為了專門目的或者算法而專門定制的芯片。ASIC芯片的架構(gòu)并不固定,既有較為簡單的網(wǎng)卡芯片,用于控制網(wǎng)絡(luò)流量,滿足防火墻需求等等,也有類似谷歌TPU,昇騰910B一類的頂尖AI芯片。ASIC并不代表簡單,而是代表面向的需求,只要是為了某一類算法,或者是某一類用戶需求而去專門設(shè)計的芯片,都可以稱之為ASIC。1/342/34行業(yè)|深度|研究報告 目前芯片的制造工藝已達(dá)極限,芯片性能提升速度放緩,同時芯片的散熱問題也日趨嚴(yán)峻。ASIC相較于通用芯片,卸載了通用芯片不必要的邏輯單元,根據(jù)特定的應(yīng)用需求進(jìn)行優(yōu)化,減小芯片的面積,以實現(xiàn)數(shù)據(jù)處理速度,能耗,計算效率的平衡。當(dāng)下,ASIC芯片的主要根據(jù)運算類型分為了TPU、DPU和NPU芯片,分別對應(yīng)了不同的基礎(chǔ)計算功能。TPU即為谷歌發(fā)明的AI處理器,主要支持張量計算,DPU則是用于數(shù)據(jù)中心內(nèi)部的加速計算,NPU則是對應(yīng)了上一輪AI熱潮中的CNN神經(jīng)卷積算法,后來被大量SoC進(jìn)了邊緣設(shè)備的處理芯片中。ASIC芯片也分為全定制ASIC芯片、半定制ASIC芯片及可編程ASIC芯片。3/34行業(yè)|深度|研究報告 (1)全定制ASIC芯片:全定制ASIC芯片是定制程度最高的芯片之一,研發(fā)人員基于不同電路結(jié)構(gòu)設(shè)計針對不同功能的邏輯單元,于芯片板搭建模擬電路、存儲單元、機(jī)械結(jié)構(gòu)。全定制化ASIC芯片在性能、功耗等方面表現(xiàn)優(yōu)異。全定制化ASIC芯片平均算力輸出約為半定制化ASIC芯片平均算力輸出的8倍,采用24納米制程的全定制化ASIC芯片在性能上優(yōu)于采用5納米制程的半定制化ASIC芯片。(2)半定制ASIC芯片:構(gòu)成半定制ASIC芯片的邏輯單元大部分取自標(biāo)準(zhǔn)邏輯單元庫,部分根據(jù)特定需求做自定義設(shè)計。1)門陣列芯片:門陣列ASIC芯片包括有信道門陣列、無信道門陣列和結(jié)構(gòu)化門陣列。門陣列ASIC芯片結(jié)構(gòu)中硅晶片上預(yù)定晶體管位置不可改變,設(shè)計人員多通過改變芯片底端金屬層等方式調(diào)整邏輯單元互連結(jié)構(gòu);2)標(biāo)準(zhǔn)單元:該類ASIC芯片由選自標(biāo)準(zhǔn)單元庫的邏輯單元構(gòu)成。設(shè)計人員可按算法需求自行布置標(biāo)準(zhǔn)單元。(3)可編程ASIC芯片:PLD亦稱可編程邏輯器件,在結(jié)構(gòu)上包括基礎(chǔ)邏輯單元矩陣、觸發(fā)器、鎖存器等,其互連部分作為單個模塊存在。設(shè)計人員通過對PLD進(jìn)行編程以滿足部分定制應(yīng)用程序需求。大型云端服務(wù)供應(yīng)商在資本支出方面投入巨大,支出的同比增速在加快。北美四大云端服務(wù)供應(yīng)商的Capex規(guī)模今年來增幅顯著提升,2024年前三季度整體規(guī)模達(dá)到1708億美元,同比增長56%,且yoy逐季加快(Q1-Q3yoy分別為34.7%、64.6%、68%)。其中,微軟530億美元,yoy+78.5%;亞馬遜551.7億美元,yoy+44.6%;谷歌382.6億美元,yoy+79%;Meta243.9億美元,yoy+20.7%。資本支出大幅提升的背后,是各家巨頭在AI賽道上的競賽、AI算力的稀缺、AI云賦能和AI生態(tài)的拓展等多方面驅(qū)動。大型云端服務(wù)供應(yīng)商的業(yè)務(wù)模型、應(yīng)用場景等很多通過自身的云來承載,每個云承載了獨特的應(yīng)用和商業(yè)模型,包括內(nèi)部應(yīng)用(比如搜索引擎、社交媒體等)、SaaS服務(wù)(比如AI聊天機(jī)器人、Copilot等)、IaaS服務(wù)等。ASIC可以適應(yīng)不同的業(yè)務(wù)場景和商業(yè)模式的需求。4/34行業(yè)|深度|研究報告 ASIC可以滿足客戶的需求:1)內(nèi)部工作負(fù)載的架構(gòu)優(yōu)化;2)更低的功耗,更低的成本;3)為AI工作負(fù)載定制的內(nèi)存和I/O架構(gòu)。目前在訓(xùn)練階段,訓(xùn)練集群對加速計算芯片的需求已提升到萬卡級別。隨著AI模型對訓(xùn)練需求的提升,未來10萬卡級別指日可待。而在推理階段,由于計算量與業(yè)務(wù)和應(yīng)用密切相關(guān),單個推理集群對加速計算芯片的需求低于訓(xùn)練集群,但推理集群的部署數(shù)量要遠(yuǎn)多于訓(xùn)練集群,推理集群的數(shù)量預(yù)計會達(dá)到百萬級別。AI算力集群特別是推理集群對加速計算芯片的龐大需求,是ASIC快速成長的核心驅(qū)動力。Marvel,西商證券警理5/34行業(yè)|深度|研究報告 從芯片大類來看,目前人類的芯片可以被分為CPU、GPU、FPGA、ASIC四種大類,其中CPU是人類芯片之母,擁有最強(qiáng)的通用性,適合復(fù)雜的指令與任務(wù);GPU通過大量部署并行計算核,實現(xiàn)了對于異構(gòu)計算需求的優(yōu)化。FPGA芯片則更加強(qiáng)調(diào)可編程性,可以通過編程重新配置芯片內(nèi)部的邏輯門和存儲器,但是運算性能較低。ASIC則完全為某類功能或者算法專門設(shè)計,通用性較低的同時,擁有對某一類算法最好的性能。下面我們用ASIC與GPU進(jìn)行詳細(xì)對比:ASIC針對特定算法和應(yīng)用進(jìn)行優(yōu)化設(shè)計,在特定任務(wù)上的計算能力強(qiáng)大,例如在某些AI深度學(xué)習(xí)算法中實現(xiàn)高效的矩陣運算和數(shù)據(jù)處理。GPU具有強(qiáng)大的并行計算能力,擁有眾多計算核心,可同時處理多個任務(wù),在通用計算和圖形處理方面表現(xiàn)出色,適用于大規(guī)模的數(shù)據(jù)并行計算,如科學(xué)計算、圖形渲染、視頻處理等;但GPU在特定任務(wù)上的計算效率可能不如ASIC。ASIC通常具有較高的能效比,因其硬件結(jié)構(gòu)是為特定任務(wù)定制的,能最大限度減少不必要的功耗。GPU由于其通用的設(shè)計架構(gòu),在執(zhí)行特定任務(wù)時可能存在一些功耗浪費;但隨著技術(shù)的進(jìn)步,新一代GPU也在不斷提高能效比。ASIC在處理特定任務(wù)時,能實現(xiàn)高吞吐量,數(shù)據(jù)處理速度快,可快速完成大量的數(shù)據(jù)處理工作。GPU具有較高的帶寬和并行處理能力,在圖形處理和通用計算中能實現(xiàn)較高吞吐量,但在處理一些復(fù)雜、非圖形相關(guān)的特定任務(wù)時,其吞吐量可能會受到一定限制。ASIC在絕對算力和片間互聯(lián)方面普遍低于AIGPU,但ASIC的服務(wù)器間互聯(lián)由于采用以太網(wǎng)為主,具有通用性強(qiáng)、生態(tài)開放、低成本等優(yōu)勢。ASIC的單位算力成本更低,滿足一定的降本需求。ASIC因其硬件結(jié)構(gòu)是為特定任務(wù)定制的,減少了很多針對通用加速計算的不必要的硬件設(shè)計,其單位算力成本相比GPU或更低。例如谷歌TPUv5、亞馬遜Trainium2的單位算力成本分別為英偉達(dá)H100的70%、60%。6/34行業(yè)|深度|研究報告 ASIC在軟件生態(tài)上的優(yōu)勢:云廠商普遍具備較強(qiáng)的研發(fā)能力,為ASIC研發(fā)了配套的全棧軟件生態(tài),開發(fā)了一系列編譯器、底層中間件等,提升ASIC在特定場景下的計算效率。部分第三方芯片廠商推出了開源平臺,未來ASIC的軟件生態(tài)將會愈發(fā)成熟和開放。ASIC在軟件生態(tài)上的劣勢:軟件生態(tài)相對較為單一,主要針對特定的應(yīng)用場景和算法進(jìn)行優(yōu)化。與GPU相比,ASIC的編程難度較大,需要專業(yè)的知識和技能,開發(fā)工具和軟件庫相對較少。這使得開發(fā)者在使用ASIC時需要花費更多時間和精力進(jìn)行開發(fā)調(diào)試。GPU軟件生態(tài)的優(yōu)勢:軟件生態(tài)豐富成熟,擁有廣泛的開發(fā)工具、編程語言和軟件庫支持,如英偉達(dá)的CUDA和AMD的ROCm等。開發(fā)者可使用熟悉的編程語言如C、C++、Python等進(jìn)行開發(fā),且有大量的開源項目和社區(qū)支持,方便開發(fā)者學(xué)習(xí)和交流。這使得GPU在各種應(yīng)用場景中都能快速地進(jìn)行開發(fā)和部署。GPU軟件生態(tài)的劣勢:軟件生態(tài)在特定任務(wù)上的優(yōu)化程度可能不如ASIC。在一些對性能和功耗要求極高的特定場景中,需要進(jìn)行大量的優(yōu)化工作才能發(fā)揮出GPU的最佳性能。ASIC在執(zhí)行特定AI算法時的高性能和高能效的優(yōu)勢,對于大規(guī)模數(shù)據(jù)中心等對能耗敏感的場景非常重要。由于ASIC不需要集成通用的功能模塊,從而減少不必要的硬件資源浪費,如果AI應(yīng)用場景明確且需求量大,ASIC在大規(guī)模生產(chǎn)后其單位成本可顯著降低。但ASIC也有開發(fā)周期長且靈活性差的劣勢,由于ASIC的設(shè)計和制造是針對特定算法和應(yīng)用場景進(jìn)行的,一旦設(shè)計完成其功能就固化下來,難以對芯片的功能和性能進(jìn)行修改和升級,如果AI算法發(fā)生較大變化,ASIC可能無法快速適應(yīng)這種變化。此外,ASIC的生態(tài)系統(tǒng)還不夠完善,開發(fā)者在使用ASIC時可能需要花費更多時間和精力去搭建開發(fā)環(huán)境、編寫底層代碼等,開發(fā)難度較大。ASIC更適用于推理:在推理階段,AI模型已訓(xùn)練完成,需要對輸入的數(shù)據(jù)進(jìn)行快速的預(yù)測和分類。此時對芯片的計算精度要求相對較低,但對計算速度、能效和成本等要求較高。ASIC正好滿足這些需求,行業(yè)|深度|研究報告 其高度定制化的設(shè)計能針對推理任務(wù)進(jìn)行優(yōu)化,以較低的功耗實現(xiàn)快速的推理計算。且在大規(guī)模部署的場景下,ASIC的成本優(yōu)勢更加明顯,可以降低企業(yè)的運營成本。GPU更適用于訓(xùn)練:AI訓(xùn)練過程需要處理大量的數(shù)據(jù)和復(fù)雜的計算,對芯片的計算能力、內(nèi)存帶寬和并行處理能力要求非常高。GPU擁有眾多的計算核心和高帶寬內(nèi)存,可以同時處理大量的數(shù)據(jù)樣本和復(fù)雜的計算任務(wù),能夠加速AI模型的訓(xùn)練過程。且在訓(xùn)練過程中,需要不斷地調(diào)整模型的參數(shù)和結(jié)構(gòu),GPU的靈活性使其更適合這種頻繁的調(diào)試和迭代。芯片的自研可分為前端、后端兩個階段,其中,IP和產(chǎn)業(yè)鏈整合是主要的挑戰(zhàn)。前端即邏輯設(shè)計,涉及芯片的基本功能,后端則是將所有的功能落實到電路并且流片出來的物理實體。目前,電路設(shè)計生態(tài)已經(jīng)相對成熟,自研團(tuán)隊面臨的第一道門檻是有嚴(yán)密的知識產(chǎn)權(quán)保護(hù)的IP,為了獲得這些IP,自研廠商往往需要與IP設(shè)計廠商合作,獲得授權(quán),此外,部分艱深的結(jié)構(gòu)(如NOC,片上網(wǎng)絡(luò))也是自研團(tuán)隊難以獨立完成的。除了設(shè)計環(huán)節(jié),自研廠商還面臨流片、量產(chǎn)、芯片組網(wǎng)、產(chǎn)業(yè)鏈整合、軟件生態(tài)等一系列挑戰(zhàn)。據(jù)芯潮IC調(diào)查了解到,每家迭代第一代產(chǎn)品,如果按7納米中間節(jié)點去算,加量產(chǎn)至少小20億美金。7/348/34行業(yè)|深度|研究報告 云廠商自研芯片時,通常會選擇博通、Marvell、英偉達(dá)、聯(lián)發(fā)科等廠商合作設(shè)計芯片,再通過臺積電等代工廠完成芯片制造,目前博通客戶量產(chǎn)節(jié)奏領(lǐng)先。博通目前有三家定制芯片大客戶,前兩家客戶已經(jīng)進(jìn)入量產(chǎn)期,新加入的客戶預(yù)計在2025年進(jìn)入量產(chǎn)。Marvell目前有三位客戶,目前均未量產(chǎn),A客戶的AI訓(xùn)練芯片、B客戶的ArmCPU處于產(chǎn)能爬坡期,A客戶的AI推理芯片、C客戶的AI芯片預(yù)計分別2025年、2026年開始產(chǎn)能爬坡。英偉達(dá)則處于更前期的階段。據(jù)路透社報道,英偉達(dá)正在建立新的業(yè)務(wù)部門,專注于為云計算和其他公司設(shè)計定制芯片,包括AI處理器,已經(jīng)與亞馬遜、Meta、微軟、谷歌和OpenAI的代表會面,討論為他們生產(chǎn)定制芯片的事宜。據(jù)ITBEAR報道,聯(lián)發(fā)科將為谷歌提供AI服務(wù)器芯片的串行器和解串器(SerDes)方案,并協(xié)助整合谷歌自研的TPU。目前,博通和Marvell是較早進(jìn)軍ASIC市場的公司,在行業(yè)處于領(lǐng)先地位。博通占據(jù)一半以上的市場份額,Marvell市場份額在10%左右。展望未來,產(chǎn)業(yè)資源整合能力強(qiáng)、IP庫完整、有先發(fā)優(yōu)勢的廠商將保持領(lǐng)先,競爭格局不會過于分散。博通、Marvell均為完整布局通信、計算領(lǐng)域的廠商,在IP庫、芯片設(shè)計平臺、出貨規(guī)模都具有綜合優(yōu)勢;同時,客戶與定制芯片廠商黏性較強(qiáng)。雙方通?;陂L期路線圖,從邏輯設(shè)計到物理實現(xiàn),雙方團(tuán)隊需密切合作,因此遷移轉(zhuǎn)換合作伙伴的成本較高。目前海外云廠商正加速布局ASIC芯片,國產(chǎn)AI芯片廠商有望在推理領(lǐng)域加速追趕。當(dāng)前華為昇騰、寒武紀(jì)、燧原科技等廠商產(chǎn)品均基于ASIC架構(gòu),全球ASIC市場并未形成明顯的頭部廠商,國產(chǎn)公司后續(xù)有望逐步追趕。行業(yè)|深度|研究報告 TPU(TensorProcessingUnits,張量處理單元)是谷歌專為AI定制設(shè)計的ASIC,其針對大模型的訓(xùn)練和推理進(jìn)行了優(yōu)化。TPU適合各種使用場景,例如聊天機(jī)器人、代碼生成、媒體內(nèi)容生成、合成語音、視覺服務(wù)、推薦引擎、個性化模型等。截至2024年,谷歌TPU已迭代6代產(chǎn)品。TPUv5p單個Pod可達(dá)8960顆芯片的集群規(guī)模,借助Multislice訓(xùn)練技術(shù),TPUv5p可實現(xiàn)5萬卡線性加速。最新一代TPUv6Trillium預(yù)計2024H2推出,TPUv6FP16/BF16精度非稀疏算力可達(dá)926TFLOPS,約為H100、B100的93%、53%。相比TPUv5e,TPUv6能效高出67%,峰值性能高出3.7倍。TPUv4和TPUv5p算力集群采用3Dtorus(3D環(huán)面)架構(gòu)和OCS,提供高速的網(wǎng)絡(luò)連接,增強(qiáng)拓展性與互聯(lián)效率。在TPUv4的架構(gòu)中,每64顆TPUv4芯片組成4x4x4的立方體,每個CPU配備4顆TPUv4,64顆TPUv4和16顆CPU放入一個機(jī)架,形成一個模塊。一個模塊有6個面的光路鏈接,每個面有16個鏈接,單模塊共有96個光路連接到OCS。為了提供3D環(huán)面的環(huán)繞鏈接,對面的鏈接必須連接到同一個OCS。每個模塊連接48個OCS(6×16÷2),最終實現(xiàn)所需的4096個TPUv4芯片互聯(lián)。TPUv4算力集群的物理架構(gòu):一個PCB包含4個TPUv4,通過ICI鏈路連接到其他托盤(tray),16個托盤共同放入一個機(jī)架,形成4x4x4的3D模塊結(jié)構(gòu)。64個機(jī)柜共同組成4096顆芯片規(guī)模的算力集9/3410/34行業(yè)|深度|研究報告 TPUv4與英偉達(dá)A100在MLPerf基準(zhǔn)測試中的性能對比:TPUv4在BERT上比A100快1.15倍,比IPU快約4.3倍;在ResNet上,TPUv4分別比A100和IPU快1.67倍和約4.5倍;運行MLPerf基準(zhǔn)測試時,A100的平均功耗比TPUv4高1.3~1.9倍。雖然TPUv4單芯片算力為A100的88%,但在性能和功耗表現(xiàn)上要優(yōu)于A100。TPU的算力成本隨著產(chǎn)品更新迭代也在持續(xù)優(yōu)化。TPUv5e的相對性價比(TFLOPs/$)是TPUv4的2.3倍,參考谷歌披露的TPUv4公開標(biāo)價3.22美元/芯片/小時,TPUv5e的標(biāo)價為1.2美元/芯片/小時,TPUv5e以更低的成本實現(xiàn)了更高的算力。TPUv5p訓(xùn)練LLM的速度比TPUv4快2.8倍,利用第二代SparseCores,TPUv5p訓(xùn)練嵌入密集模型的速度比TPUv4快1.9倍。AWS(AmazonWebServices)在AI芯片的布局主要包含推理芯片Inferentia和訓(xùn)練芯片Trainium兩11/34行業(yè)|深度|研究報告 AWSTrainium是AWS專門為超過1000億個參數(shù)模型的深度學(xué)習(xí)訓(xùn)練打造的機(jī)器學(xué)習(xí)芯片。自2020年以來,亞馬遜發(fā)布了兩代Trainium芯片。Trainium1加速器提供190TFLOPS的FP16/BF16算力,配有32GB的HBM,內(nèi)存帶寬820GB/s;而新一代Trainium2達(dá)到了430TFLOPS的FP16/BF16算力,其HBM容量達(dá)到96GB,內(nèi)存帶寬為4TB/s。與第一代相比,AWSTrainium2的性能提高了4倍,能效提高了1倍。每個AmazonElasticComputeCloud(AmazonEC2)Trn1實例部署多達(dá)16個Trainium加速器。AWS表示未來擴(kuò)展到多達(dá)10萬個芯片的EC2UltraCluster集群中,從而高效訓(xùn)練大模型?;赥rainium的AmazonEC2Trn1實例與同類AmazonEC2實例相比,可節(jié)省高達(dá)50%的訓(xùn)練成本。Trainium已針對訓(xùn)練自然語言處理、計算機(jī)視覺和推薦器模型進(jìn)行了優(yōu)化,這些模型用于文本摘要、代碼生成、問題解答、圖像和視頻生成、推薦和欺詐檢測等各種應(yīng)用程序。AWSInferentia加速器由AWS設(shè)計,在AmazonEC2中以低成本為深度學(xué)習(xí)和生成式AI推理應(yīng)用程序提供高性能。第一代AWSInferentia1加速器為AmazonElasticComputeCloud(AmazonEC2)Inf1實例提供支持,與同類AmazonEC2實例相比,該實例的吞吐量可提高多達(dá)2.3倍,每次推理的成本可降低多達(dá)70%。2023年亞馬遜發(fā)布了Inferentia2芯片和Inf2實例,與Inferentia相比,AWSInferentia2加速器的吞吐量提高了4倍,延遲低至上一代的1/10。Inferentia1加速器搭載4個第一代NeuronCore,配有8GB的DDR4內(nèi)存,每個EC2Inf1實例最多有16個Inferentia1加速器。Inferentia2加速器搭載了2個第二代NeuronCore,支持190TFLOPS的FP16性能,配置32GB的HBM,與Inferentia1相比,總內(nèi)存增加了4倍,內(nèi)存帶寬增加了10倍;每個EC2Inf2實例最多有12個Inferentia2加速器。12/34行業(yè)|深度|研究報告 AWSNeuron是一款用于優(yōu)化AWSTrainium和AWSInferentia加速器上的機(jī)器學(xué)習(xí)性能的SDK。它支持在基于AWSTrainium的AmazonEC2Trn1實例上進(jìn)行高性能訓(xùn)練。對于模型部署,它支持在基于AWSInferentia的AmazonEC2Inf1實例和基于AWSInferentia2的AmazonEC2Inf2實例上進(jìn)行高性能和低延遲推理。AWSNeuronSDK與PyTorch和TensorFlow原生集成,確保客戶可繼續(xù)在這些熱門框架中使用現(xiàn)有工作流程,并在AmazonEC2Trn1、Inf1和Inf2實例上以最佳方式訓(xùn)練和部署ML/DL模型。開發(fā)者可將基于GPU的實例遷移到AWSTranium中,客戶只要修改少量代碼即可實現(xiàn)海量數(shù)據(jù)訓(xùn)練,降低了訓(xùn)練成本。微軟將Maia100打造成定制的AI加速器,用于在Azure上運行OpenAI的模型和Copilot等AI工作負(fù)載。Maia100采用臺積電5nm制程和CoWoS-S封裝技術(shù),配備64GB(4×16GB)的HBM2E,內(nèi)存帶寬達(dá)1.8TB/s。Maia100配備一個500MB的L1/L2緩存,芯片具有12倍400GbE的網(wǎng)絡(luò)帶寬,設(shè)計最大功耗700WTDP。Maia100芯片在MXFP4數(shù)據(jù)格式下的性能達(dá)到3200TFLOPS,Int8下達(dá)到1600TFLOPS,BF16下達(dá)到800TFLOPS,算力性能超過英偉達(dá)A10028%,是英偉達(dá)H100的40%。微軟Maia100單SoC搭載16個集群,其中每個集群搭載4個圖塊Tile。Maia100擁有圖像解碼器和機(jī)密計算能力,支持廣泛的數(shù)據(jù)類型,包括FP32和BF16。13/34行業(yè)|深度|研究報告 Maia100基于自定義的RoCE類協(xié)議和以太網(wǎng)互連,內(nèi)置AES-GCM加密引擎以保護(hù)用戶數(shù)據(jù),網(wǎng)絡(luò)連接帶寬達(dá)到600GB/s。Maia100還由統(tǒng)一的后端網(wǎng)絡(luò)支持,用于擴(kuò)展和橫向擴(kuò)展工作負(fù)載,提供了支持直接和交換機(jī)連接的靈活性。微軟Maia100芯片的Ares機(jī)架配備32顆Maia100。Ares一個機(jī)架中搭載了8臺服務(wù)器,每臺服務(wù)器中含有4個Maia100,因此一個機(jī)架中總共有32顆Maia100芯片。Ares機(jī)架功率可達(dá)40kW,配置了Sidekick液體冷卻系統(tǒng),在機(jī)架兩側(cè)設(shè)置副設(shè)備,冷液從副設(shè)備流向Maia100表面的冷板,副設(shè)備吸取液體中熱量后再將冷液輸出,以此構(gòu)建散熱循環(huán)。MaiaSDK上實現(xiàn)快速部署和模型可移植性。微軟為Maia100創(chuàng)建了軟件,該軟件與PyTorch和ONNXRuntime等流行的開源框架集成。該軟件棧提供了豐富而全面的庫、編譯器和工具,使數(shù)據(jù)科學(xué)家和開發(fā)人員能在Maia100上成功運行模型。微軟集成了OpenAI的Triton;Triton是一種開源編程語言,通過抽象底層硬件簡化了內(nèi)核編寫,這將賦予開發(fā)者完全的可移植性和靈活性,而不會犧牲效率和針對AI工作負(fù)載的能力。Maia的SDK允許用戶將用PyTorch和Triton編寫的模型快速移植到Maia。2023年5月,Meta推出第一代AI推理芯片MTIAv1(MetaTrainingandInferenceAccelerator用于支持Meta的深度學(xué)習(xí)推薦模型,該模型是14/34行業(yè)|深度|研究報告 Facebook,Instagram,WhatsApp,MetaQuest,HorizonWorlds,andRay-BanStories業(yè)務(wù)的重要基礎(chǔ)。MTIAv1芯片采用臺積電7nm制程,Meta研究顯示,對于低復(fù)雜度的深度學(xué)習(xí)模型,MTIA的運行效率(TFLOPS/W)優(yōu)于GPU,而對于中高復(fù)雜度的模型,GPU的效率更佳,公司表示正在持續(xù)優(yōu)MTIAv2于2024年4月發(fā)布,用于AI推理,旨在增強(qiáng)Meta的排名和廣告推薦引擎。MTIAv2采用臺積電5nm制程,與上一代相比算力和內(nèi)存帶寬翻倍提升,INT8下的稠密算力354TFLOPS接近上一代的3.5倍,稀疏算力708TFLOPS達(dá)到上一代的近7倍。MTIAv2配備128GB的LPDDR5內(nèi)存,內(nèi)存帶寬205GB/s,設(shè)計最大功耗90WTDP。目前Meta已有16個數(shù)據(jù)中心使用了新款芯片。芯片架構(gòu)方面,MTIAv2內(nèi)部包含加速器、片上和片外存儲以及互聯(lián)結(jié)構(gòu)。AI加速器由8x8的處理單元網(wǎng)格(PE,processingelement)組成,PE基于RISC-V內(nèi)核,PE彼此互聯(lián),可作為一個整體運行任務(wù),也可以獨立處理任務(wù)。片上內(nèi)存SRAM容量256MB,SRAM帶寬為2.7TB/s,每個PE內(nèi)存容量為384KB,PE帶寬為1TB/s。每個加速器使用PCIeGen5x8主機(jī)接口。MTIAv2加速器模塊:每張卡2個MTIA芯片,每個MTIA都可以使用PCIeGen5x8接口,單模塊共x16接口(2PCIeGen5x16)。MTIA機(jī)柜系統(tǒng)結(jié)構(gòu):一個機(jī)架系統(tǒng)包含(2×MTIA芯片)×(12×模組)×(3×機(jī)箱),相當(dāng)于每個機(jī)架系統(tǒng)搭載了72顆MTIA芯片。MTIAv2軟件堆棧與PyTorch2.0、TorchDynamo、TorchInductor完全集成,致力于提高開發(fā)者編程效率。MTIAv2的低級編譯器從前端獲取輸出,生成高效且特定于設(shè)備的代碼。下方是運行時堆行業(yè)|深度|研究報告 棧,負(fù)責(zé)與驅(qū)動程序/固件接口,最后,運行時與驅(qū)動程序交互。Meta創(chuàng)建了Triton-MTIA編譯器后端為芯片硬件生成高性能代碼,Triton用于編寫ML計算內(nèi)核,極大提高了開發(fā)人員效率。基于MTIA平臺加速后的Meta推薦模型的效率得到提升,在大型片上SRAM的加持下,低復(fù)雜度(LC)模型具有開箱即用的優(yōu)勢,而高復(fù)雜度(HC)模型在4-6個月內(nèi)性能提高了2倍以上。15/3416/34行業(yè)|深度|研究報告 Dojo于2019年發(fā)布,是特斯拉自研的超級計算機(jī)平臺,用于訓(xùn)練其自動駕駛系統(tǒng)的人工智能模型。特斯拉在設(shè)計和生產(chǎn)過程中與合作伙伴臺積電進(jìn)行了合作,dojo平臺的核心組件是D1芯片,是由臺積電代工的定制專用集成電路(ASIC),采用7納米制程和先進(jìn)封裝技術(shù)。Dojo可以有效訓(xùn)練全自動駕駛技術(shù)FSD,使其獲得更多的學(xué)習(xí)經(jīng)驗,推動機(jī)器人出租車和網(wǎng)絡(luò)服務(wù)加快應(yīng)用。整體架構(gòu)上,Dojo分成6個層級:內(nèi)核、芯片、瓦片、模組,機(jī)柜,超算機(jī)群。1個D1芯片上有354個核心。25個D1組成一個訓(xùn)練板(trainingtile),6個訓(xùn)練板組成一個訓(xùn)練矩陣(TrainingMatrix),2個訓(xùn)練矩陣構(gòu)成1個機(jī)柜,10個機(jī)柜構(gòu)成1個超算機(jī)群。D1單芯片F(xiàn)P32性能達(dá)22TFLOPS,矩陣計算單元提供了Dojo主要的算力。特斯拉矩陣計算單元相應(yīng)的專利如下圖。該模塊關(guān)鍵部件是一個8x8矩陣-矩陣乘法單元(MatrixComputationalUnit)。輸入為數(shù)據(jù)輸入陣列和權(quán)重輸入陣列,計算矩陣乘法后直接在輸出進(jìn)行累加。每個Dojo核心包括4路8x8矩陣乘法單元。包含25顆D1芯片的Dojo訓(xùn)練板設(shè)計成“三明治式”結(jié)構(gòu),實現(xiàn)了計算、存儲、供電和通信無縫集成。每個訓(xùn)練板都配置了11GB的片上跨內(nèi)核SRAM,這是一種近存計算架構(gòu),相應(yīng)的耗電量也高達(dá)15kw,采用液冷封裝,能效比為0.6TFLOPS/W(BF16/CFP8)。Dojo采用InFO_SoW封裝,這種封裝技術(shù)不需要額外PCB載板,就能將相關(guān)芯片集成散熱模塊,加速生產(chǎn)流程。17/34行業(yè)|深度|研究報告 在高密度的計算芯片環(huán)境下,特斯拉面臨較大的電力傳輸和散熱問題考驗。單顆D1芯片的熱設(shè)計功率(TDP)為400W,一個訓(xùn)練板的功耗高達(dá)15千瓦。在電力方面,特斯拉在DojoPOD上使用了全自研的VRM(電壓調(diào)節(jié)模組單個VRM可在不足25美分硬幣面積的電路上,提供52V電壓和超過1000A巨大電流,電流目的為0.86A每平方毫米,共計12個獨立供電相位。特斯拉的電源調(diào)節(jié)模塊和液冷板采取與芯片本身垂直的立體結(jié)構(gòu),極大的減少了對處理器平面的面積占用,盡可能減少計算芯片間的距離。特斯拉的V1訓(xùn)練矩陣包含150個D1芯片(6個訓(xùn)練板),4個主機(jī)CPU,每個主機(jī)裝有5張DIP卡,這是一種PCIe卡,每個DIP含有32GBHBM(800GB/s存儲帶寬),支持特斯拉傳輸協(xié)議TTP,提供超高的TTP帶寬和以太網(wǎng)帶寬。訓(xùn)練板通過DIP連接至交換機(jī)。在BF16和CFP8精度下,V1訓(xùn)練矩陣算力可達(dá)1Exaflop。一個DojoPOD機(jī)柜由兩層、12個訓(xùn)練板組成,可提供108PFLOPS算力。多機(jī)柜可以拓展至一組ExaPOD,包含3000顆D1芯片(120個訓(xùn)練板)。18/34行業(yè)|深度|研究報告 Dojo采用TTP專有通信協(xié)議,提供高帶寬芯片間通信。特斯拉為Dojo芯片設(shè)計了TTP作為通信協(xié)議,這是一種基于PCIe的專有協(xié)議,旨在提供高帶寬和低延遲的數(shù)據(jù)傳輸,D1芯片間通信帶寬高達(dá)900GB/s。TTP支持橋接到標(biāo)準(zhǔn)以太網(wǎng),降低通信時延。TTPTTPOE可將標(biāo)準(zhǔn)以太網(wǎng)轉(zhuǎn)換至Z平面拓?fù)?,降低了垂直延遲,大幅降低網(wǎng)絡(luò)跳數(shù),以50GB/s在以太網(wǎng)上運行。低延遲特性使得Dojo芯片在處理復(fù)雜計算任務(wù)時能夠迅速響應(yīng),提高了整體的系統(tǒng)性能。另外每個訓(xùn)練模塊外部邊緣的40個I/O芯片達(dá)到了36TB/s的聚合帶寬,或者10TB/s的橫跨帶寬。每層訓(xùn)練模塊都連接著超高速存儲系統(tǒng):640GB運行內(nèi)存可以提供超過18TB/s的帶寬,另外還有超過1TB/s的網(wǎng)絡(luò)交換帶寬。19/34行業(yè)|深度|研究報告 軟件層面,特斯拉構(gòu)建了一套由PyTorch、編譯器、驅(qū)動程序等共同構(gòu)成的軟件棧。整個軟件生態(tài)的頂層是PyTorch框架,中間使用Dojo編譯器和LLVM形成編譯層,底層基于Dojo驅(qū)動。Dojo編譯器負(fù)責(zé)劃分任務(wù)、配置數(shù)據(jù)存儲、進(jìn)行細(xì)粒度的并行計算并減少存儲占用。Dojo編譯器支持的并行方式包括數(shù)據(jù)并行、模型并行和圖并行。支持的存儲分配方式包括分布式張量、重算分配和分割填充。在軟件生態(tài)加持下,用戶可將Dojo大型分布式系統(tǒng)視作一個加速器進(jìn)行整體設(shè)計和訓(xùn)練。20/34行業(yè)|深度|研究報告 北美云廠商對AI芯片需求量大,為了增強(qiáng)議價能力和供應(yīng)鏈多元化,有充足的動力自研芯片。北美云廠商在AI領(lǐng)域的資本開支近兩年有望保持高速增長,是英偉達(dá)的重要客戶,谷歌、微軟、亞馬遜、Meta和甲骨文五家云廠商預(yù)計貢獻(xiàn)了FY2025英偉達(dá)GPU六成以上的收入,預(yù)計接近500億美元。而AIASIC芯片當(dāng)前規(guī)模遠(yuǎn)低于GPU,博通FY2024定制芯片收入預(yù)計70億美元左右,MarvellFY2024可能僅有個位數(shù)億美元收入。能夠認(rèn)為當(dāng)前定制芯片仍處于發(fā)展初期,云廠商為了降低成本、增強(qiáng)供應(yīng)鏈保障,會持續(xù)迭代ASIC并增大在特定場景的ASIC部署規(guī)模,ASIC市場規(guī)模有望高速增長。目前ASIC在AI加速計算芯片市場占有率較低,預(yù)計增速快于通用加速芯片。據(jù)Marvell預(yù)測,2023年,定制芯片僅占數(shù)據(jù)中心加速計算芯片的16%,其規(guī)模約66億美元,隨著AI計算需求增長,以及定制芯片占比提升至25%,預(yù)計2028年數(shù)據(jù)中心定制計算芯片市場規(guī)模將達(dá)到429億美元,2023-2028年CAGR達(dá)45%。而通用加速計算芯片2028年預(yù)計達(dá)到1716億美元市場規(guī)模,2023-2028年CAGR為32%。21/34行業(yè)|深度|研究報告 從全局來看,ASIC放量與對應(yīng)的算力降本,是大模型走向一個更大產(chǎn)業(yè)的必經(jīng)之路,AI的算力敘事足夠宏大,能夠認(rèn)為在AI芯片的發(fā)展上,將會經(jīng)歷多輪螺旋上升式的發(fā)展,最終達(dá)到全社會的AGI,新的模型與算法通過通用性GPU被發(fā)現(xiàn)和初步開發(fā),通過專用ASIC將需求繁榮,繁榮的生態(tài)吸引更多用戶與參與者,最終培育出新的、更強(qiáng)的算法,循環(huán)往復(fù),螺旋上升,最終達(dá)成AGI的宏偉目標(biāo)。隨著ASIC放量將助力MarvellAI、博通等專注于半導(dǎo)體平臺的全球公司快速擴(kuò)張。晶圓代工廠如臺積電、英特爾、中芯國際的議價能力和產(chǎn)業(yè)鏈地位有望提升,利潤上漲。同時,ASIC的興起將帶動國內(nèi)ASIC芯片廠商的發(fā)展,華為昇騰、寒武紀(jì)等廠商有望轉(zhuǎn)型為頂尖的模型ASIC制造商。此外由于散熱對ASIC性能至關(guān)重要,英維克、中航光電、高瀾股份等散熱公司將持續(xù)受益。大量中小ASIC公司將會催生大量的新建服務(wù)器需求。同時,國內(nèi)芯片有望通過ASIC公司加速形成可用大模型算力,從而帶動國內(nèi)服務(wù)器需求起量,對工業(yè)富聯(lián)、高新發(fā)展、中科曙光、紫光股份等服務(wù)器行業(yè)龍頭企業(yè)形成利好。博通AI業(yè)務(wù)占比從2019年的低于5%提升至2023年的15%左右。根據(jù)公司的規(guī)劃,預(yù)計2024年實現(xiàn)超過100億美元的收入體量,占公司整體收入比例增長至35%。22/34行業(yè)|深度|研究報告 目前博通已經(jīng)為兩家頭部CSP客戶批量供應(yīng)了ASIC產(chǎn)品。此外,博通另一家客戶正在產(chǎn)能爬坡中,預(yù)計2025年開始貢獻(xiàn)業(yè)績。博通廣泛的IP儲備為ASIC產(chǎn)品線賦能。博通廣泛的IP儲備可為其XPU(博通對于AIASIC的說法)產(chǎn)品線賦能,博通的IP主要分為4類:計算,存儲,網(wǎng)絡(luò)IO,封裝。計算包括處理單元架構(gòu),設(shè)計流和性能優(yōu)化。存儲包括HBMPHY,整合和性能。網(wǎng)絡(luò)IO包括架構(gòu)實現(xiàn),Chiplets軟硬一體化解決方案。封裝包括2.5D/3D封裝,硅光架構(gòu)和實現(xiàn),垂直整合等。其中SerDes、基于AI優(yōu)化NICs、高端封裝、交換機(jī)、CPO、內(nèi)存等IP處于行業(yè)領(lǐng)先水平。博通在相關(guān)領(lǐng)域投入了30億美元研發(fā)費用。博通充分利用已經(jīng)布局完成的XPU平臺工程,實現(xiàn)了業(yè)界最快的ASIC產(chǎn)品落地時間。XPU平臺涵蓋了經(jīng)過10年XPU經(jīng)驗優(yōu)化的AI設(shè)計流程、AIIP、SoC封裝等一體化解決方案。ASIC產(chǎn)品設(shè)計階段耗費7-9個月的聯(lián)合開發(fā)時間,再用3個月左右的時間完成產(chǎn)品的生產(chǎn)和產(chǎn)能爬坡。博通與客戶在架構(gòu)階段就展開了深度的戰(zhàn)略合作。在XPU設(shè)計啟動的前幾年,完成了關(guān)鍵組件的早期IP投資;并且為后兩代XPU同時進(jìn)行技術(shù)、IP和封裝投資。行業(yè)|深度|研究報告 隨著算力性能增長、網(wǎng)絡(luò)和內(nèi)存帶寬提升、對電力輸送、熱完整度、機(jī)械可靠性等要求的升級,XPU的復(fù)雜度在加深。博通積極響應(yīng)了客戶對更復(fù)雜的XPU的需求。博通與多家大客戶一起聯(lián)合開發(fā)了十幾款XPU產(chǎn)品。三家大客戶推出多代路線圖。下一代3nmXPU有望在2025年下半年批量出貨,大幅增長。目前有三家超大規(guī)模客戶,已經(jīng)開發(fā)多代AIXPU路線圖,將在未來三年內(nèi)以不同的速度部署。到2027年,三個客戶都計劃在單個結(jié)構(gòu)中部署100萬個XPU集群。博通2019-2023財年收入年復(fù)合增速11.4%。2024年公司收購的Vmware并表后,2024財年實現(xiàn)收入515.7億美元,同比增長44%。博通Non-GAAP凈利率從2019財年的41.8%提升至2023財年的51.3%。得益于利潤率的提升,博通2019-2023財年Non-GAAP凈利潤年復(fù)合增速達(dá)14.4%。2024財年Non-GAAP凈利潤達(dá)到237.3億美元,同比增長29%。23/3424/34行業(yè)|深度|研究報告 半導(dǎo)體解決方案是公司的最大業(yè)務(wù),2023財年占據(jù)公司整體收入的78.7%;利潤率從2019財年的50%提升至2023年的58.5%。2024財年公司半導(dǎo)體業(yè)務(wù)收入301億美元,同比增長6.8%。公司的基礎(chǔ)設(shè)施軟件業(yè)務(wù)占比不低于20%。其中,Vmware在2024年并表后顯著推高了該業(yè)務(wù)板塊的規(guī)模體量。Marvell的AI業(yè)務(wù)2023財年為2億美元左右。公司預(yù)計24-26財年加速AI業(yè)務(wù)(連接+定制化計算)收入從5.5億提升至25億美元。Marvell的數(shù)據(jù)中心業(yè)務(wù)TAM:根據(jù)Marvell預(yù)測,2023-2028年其數(shù)據(jù)中心業(yè)務(wù)TAM從210億美元增長至750億美元,CAGR為29%;其中,定制化加速計算TAM從66億美元增長至429億美元,CAGR為45%;交換機(jī)TAM從61億美元增長至120億美元,CAGR為15%;互聯(lián)TAM從43億美元增長至139億美元,CAGR為27%;存儲市場從42億美元增長至59億美元,CAGR為7%。Marvell數(shù)據(jù)中心業(yè)務(wù)23年市占率10%,公司長期市占率目標(biāo)為20%,即業(yè)務(wù)規(guī)模150億美元,相當(dāng)于23-28年CAGR高達(dá)46.6%。Marvell的加速計算基礎(chǔ)設(shè)施平臺涵蓋了“工藝制程-IP-封裝-專家”的布局。25/34行業(yè)|深度|研究報告 Marvell經(jīng)過多年對完整定制平臺的收購和重大投資,儲備了一大批世界級的IP,覆蓋模擬、數(shù)字、封裝等多個層面的知識產(chǎn)權(quán)。其中,Cavium擅長網(wǎng)絡(luò)加速計算,AveraSemi(原格芯子公司)擅長為各種應(yīng)用提供定制芯片解決方案和2.5D/3D封裝技術(shù),Aquantia擅長網(wǎng)絡(luò)傳輸,Inphi擅長模擬、硅光和DSP技術(shù),Innovium擅長數(shù)據(jù)中心交換機(jī)芯片技術(shù)(競品為博通的Trident和Tomahawk芯片)。Marvell的定制計算產(chǎn)品包括AI加速芯片,針對安全、NIC/DPU、ARM計算、存儲、視頻和CXL功能的ASIC等。Marvell的客戶涵蓋美國3/4的大型CSP。Marvell為亞馬遜設(shè)計的AI訓(xùn)練加速器Trainium2已批量出貨。B客戶的ARMCPU正處于產(chǎn)能爬坡階段。新介入的C客戶其AI加速器將于2026年產(chǎn)能爬坡。Marvell2021-2024財年收入年復(fù)合增速19.5%。2025財年隨著經(jīng)營改善,預(yù)計2025前三財季收入逐季改善(同比增速依次為-12.2%、-5%、6.9%);FY2025Q3單季度收入15.2億美元,同比增長6.9%,增速重新轉(zhuǎn)正。Marvell2021-2024財年Non-GAAP凈利潤年復(fù)合增速達(dá)31%。2025前三財季Non-GAAP凈利潤為8.5億美元,Non-GAAP凈利率從17.8%提升至24.6%。26/34行業(yè)|深度|研究報告 數(shù)據(jù)中心是公司的最大業(yè)務(wù),2021-2024財年復(fù)合增速28%,高于整體收入增速。受益于AI對光學(xué)等產(chǎn)品的需求推動,最近兩個財年數(shù)據(jù)中心業(yè)務(wù)占據(jù)整體收入比重超40%。其他業(yè)務(wù)中,企業(yè)網(wǎng)絡(luò)收入2021-2024財年復(fù)合增速21.2%,2024財年占收入比重22%左右;基礎(chǔ)設(shè)施收入2021-2024財年復(fù)合增速23.2%,2024財年占收入比重19%左右;消費業(yè)務(wù)2024財年占收入比重11%左右;工業(yè)和汽車業(yè)務(wù)2021-2024財年復(fù)合增速44%,2024財年占收入比重7%左右。寒武紀(jì)是AI芯片領(lǐng)域的獨角獸。公司成立于2016年3月15日,專注于人工智能芯片產(chǎn)品的研發(fā)與技術(shù)創(chuàng)新,產(chǎn)品廣泛應(yīng)用于消費電子、數(shù)據(jù)中心、云計算等諸多場景。公司是AI芯片領(lǐng)域的獨角獸:采用公司終端智能處理器IP的終端設(shè)備已出貨過億臺;云端智能芯片及加速卡也已應(yīng)用到國內(nèi)主流服務(wù)器廠商的產(chǎn)品中,并已實現(xiàn)量產(chǎn)出貨;邊緣智能芯片及加速卡的發(fā)布標(biāo)志著公司已形成全面覆蓋云端、邊緣端和終端場景的系列化智能芯片產(chǎn)品布局。公司面向云端、邊緣端、終端推出了三個系列不同品類的通用型智能芯片與處理器產(chǎn)品,分別為終端智能處理器IP、云端智能芯片及加速卡、邊緣智能芯片及加速卡,其中云端智能芯片主要是為云端人工智能處理提供強(qiáng)大的計算能力支撐;云端智能加速卡是基于云端智能芯片,增加外圍電路模塊形成的卡板產(chǎn)品,通過主機(jī)的附加接口接入系統(tǒng)。27/34行業(yè)|深度|研究報告 寒武紀(jì)云端推理主要包含8個產(chǎn)品,目前迭代至MLU370系列,最大峰值算力高達(dá)256TOPS(INT8)。寒武紀(jì)推理芯片包括MLU100、MLU270、MLU370和玄思1001等4個系列共8個產(chǎn)品,其中2022年推出的MLU370系列基于雙芯片四芯粒思元370打造。思元370芯片采用7nm制程工藝,是寒武紀(jì)首顆采用chiplet芯片技術(shù)的AI芯片,也是國內(nèi)第一款公開發(fā)布支持LPDDR5內(nèi)存的云端AI芯片;公司還基于4張MLU370-X8產(chǎn)品集成了玄思1001智能加速器,以在生物信息、醫(yī)療影像、語言模型等行業(yè)及可沿長江廣泛應(yīng)用。370系列在高密度云端推理領(lǐng)域具有明顯優(yōu)勢。MLU370-X8提供256TOPS(INT8)的峰值算力,高于英偉達(dá)L20。同國內(nèi)云端推理芯片相比,在150W功耗推理卡中,MLU370-X4峰值算力和昆侖芯28/34行業(yè)|深度|研究報告 R200和燧原I20一致,同為256TOPS(INT8)。在高密度云端推理領(lǐng)域,MLU370-S4的能耗比高達(dá)2.56,具有顯著優(yōu)勢。全面研發(fā)優(yōu)化推理軟件平臺模型性能、大模型和AIGC推理業(yè)務(wù)支持、推理性能優(yōu)化三個方面,助力客戶降本增效。模型性能優(yōu)化方面,寒武紀(jì)針對語音合成、搜索推薦和視覺處理中高頻使用網(wǎng)絡(luò)進(jìn)行了優(yōu)化,目前達(dá)到了可落地要求;大模型和AIGC推理業(yè)務(wù)支持方面,寒武紀(jì)研發(fā)大語言模型分布式推理加速庫BangTransformer,進(jìn)行了LLaMA、GLM、BLOOM、GPT-2等主流生成式大語言模型的適配工作;在推理性能優(yōu)化方面,BangTransformer支持算子融合、張量并行、量化推理、FlashAttention等優(yōu)化特性,用于輔助圖像生成的MagicMind是業(yè)界首個基于MLIR圖編譯技術(shù)達(dá)到商業(yè)化部署能力的推理引擎,在功能、性能、兼容性上都有良好表現(xiàn),同時基于MagicMind到PyTorch的集成,客戶無需代碼遷移也能夠享受MagicMind帶來的性能加速,同時,MagicMind新增了多款云、邊、端、車硬件平臺支持,并完善了SampleCode、BestPractice等用戶文檔,進(jìn)一步提高了用戶使用體驗。推理軟件平臺三個維度的研發(fā)優(yōu)化,大幅提升了推理業(yè)務(wù)運行效率,助力客戶降本增效。29/34行業(yè)|深度|研究報告 華為昇騰(HUAWEIAscend)系列芯片是基于華為自主研發(fā)的達(dá)芬奇架構(gòu)設(shè)計的AI芯片,包括訓(xùn)練和推理芯片,其參數(shù)及表現(xiàn)在國內(nèi)處于領(lǐng)先水平,并衍生出獨特的昇騰計算產(chǎn)業(yè)。昇騰系列芯片主要由華為全資子公司深圳市海思半導(dǎo)體有限公司研發(fā),該子公司成立于2004年,除昇騰外還擁有麒麟、巴龍、鯤鵬等自研芯片系列,研發(fā)實力強(qiáng)大。“軟硬件+全生態(tài)”打造面向“端、邊、云”的全場景AI基礎(chǔ)設(shè)施。昇騰計算產(chǎn)業(yè)是基于昇騰系列處理器和基礎(chǔ)軟件構(gòu)建的全棧AI計算基礎(chǔ)設(shè)施、行業(yè)應(yīng)用及服務(wù),包括昇騰系列處理器、系列硬件、CANN(ComputeArchitectureforNeuralNetworks,異構(gòu)計算架構(gòu))、AI計算框架、應(yīng)用使能、開發(fā)工具鏈、管理運維工具、行業(yè)應(yīng)用及服務(wù)等全產(chǎn)業(yè)鏈。其中,以芯片為主的全硬件體系是實現(xiàn)AI訓(xùn)推的底層支撐,以自研計算架構(gòu)為主的軟件體系是吸引開發(fā)者的活力之源,以應(yīng)用軟件為主的產(chǎn)業(yè)生態(tài)是面向未來發(fā)展的不竭動力。昇騰硬件體系是實現(xiàn)AI訓(xùn)推的算力基礎(chǔ)和底層支撐。昇騰堅持“硬件開放”策略,為客戶提供自有硬件和伙伴硬件的多樣化算力選擇。1)自有硬件為昇騰系列處理器以及基于昇騰處理器和業(yè)界主流異構(gòu)計算部件的昇騰Atlas系列硬件產(chǎn)品。昇騰系列處理器主要包括昇騰310、昇騰910、昇騰910B等,昇騰Atlas系列硬件產(chǎn)品包括各類模組板卡、小站、服務(wù)器、集群等豐富的產(chǎn)品形態(tài)。昇騰自有硬件體系旨在打造面向“云、邊、端”的全場景AI基礎(chǔ)設(shè)施方案,可廣泛用于“平安城市智能交通、智能醫(yī)療、智能零售、智能金融”等領(lǐng)域。2)伙伴硬件指華為開放自有硬件,合作伙伴可進(jìn)行集成和二次開發(fā),或者通過OEM/ODM方式開發(fā)自有品牌的服務(wù)器整機(jī)。昇騰系列處理器是硬件體系的核心。昇騰處理器專為AI計算設(shè)計,擁有自研達(dá)芬奇架構(gòu)的,能夠覆蓋端邊云全場景,滿足不同部署環(huán)境差異性的算力需求。華為于2018年10月的華為全聯(lián)接大會上首次闡述了華為AI戰(zhàn)略,并公布了昇騰910和昇騰310兩款A(yù)I芯片,其中昇騰310是一款最大功耗僅8W的行業(yè)|深度|研究報告 極致高效計算低功耗AI芯片,2018年商用量產(chǎn),可用于推理端;昇騰910在2019年8月正式商用,用于訓(xùn)練端。昇騰910首次采用達(dá)芬奇架構(gòu),基于7nm增強(qiáng)版EUV工藝,集成32個立方體計算引擎,半精度(FP16)算力達(dá)320TFLOPs,相比英偉達(dá)當(dāng)時的V100SXM的125TFLOPS高一倍以上。2023年9月,華為在受美國制裁三年后發(fā)布昇騰910B,其性能取得重大突破,單精度算力大幅提升,表明華為出色的芯片自研能力與昇騰AI處理器未來極高的增長空間。自研達(dá)芬奇架構(gòu)大幅提升AI算力。昇騰系列AI處理器創(chuàng)新使用達(dá)芬奇架構(gòu),是華為自研的面向AI計算特征的全新計算架構(gòu),具備高算力、高能效、靈活可裁剪的特性?;谶_(dá)芬奇架構(gòu)的AI核內(nèi)含3DCube、Vector向量計算單元、Scalar標(biāo)量計算單元等,共同保障AI計算的高效處理。在神經(jīng)網(wǎng)絡(luò)模型中99%的計算都需要用到矩陣乘法運算,這部分運算是AI計算的核心,在達(dá)芬奇架構(gòu)中由

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論