ASIC行業(yè)深度：市場前景、規(guī)模預(yù)測、云廠商布局及相關(guān)公司深度梳理2024

上傳人：策*** IP屬地：山西上傳時間：2024-12-30 格式：DOCX 頁數(shù)：64 大?。?.82MB 積分：19.9 舉報 版權(quán)申訴

ASIC行業(yè)深度：市場前景、規(guī)模預(yù)測、云廠商布局及相關(guān)公司深度梳理2024_第2頁

ASIC行業(yè)深度：市場前景、規(guī)模預(yù)測、云廠商布局及相關(guān)公司深度梳理2024_第3頁

ASIC行業(yè)深度：市場前景、規(guī)模預(yù)測、云廠商布局及相關(guān)公司深度梳理2024_第4頁

ASIC行業(yè)深度：市場前景、規(guī)模預(yù)測、云廠商布局及相關(guān)公司深度梳理2024_第5頁

已閱讀5頁，還剩59頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

行業(yè)研究報告行業(yè)研究報告慧博智能投研行業(yè)|深度|研究報告 ASIC行業(yè)正迅速崛起，以其高度定制化的特性適應(yīng)不同業(yè)務(wù)場景和商業(yè)模式的需求。尤其是在大型云服務(wù)提供商（CSP）中，ASIC能夠優(yōu)化內(nèi)部工作負(fù)載架構(gòu)，實現(xiàn)更低的功耗和成本，以及為AI工作負(fù)載提供定制的內(nèi)存和I/O架構(gòu)，滿足CSP客戶的多樣化需求。隨著AI算力集群尤其是推理集群對加速計算芯片的需求日益增長，ASIC市場將快速增長。預(yù)計到2028年，數(shù)據(jù)中心ASIC市場的規(guī)模將提升至429億美元，國產(chǎn)ASIC芯片制造商也有望逐步追趕。本篇文章我們將深入探討ASIC的概念、分類等基礎(chǔ)知識，并分析其在市場上的應(yīng)用前景。隨后，我們將對ASIC與GPU進(jìn)行詳盡的對比，探討ASIC的特點和優(yōu)勢。進(jìn)一步地，我們將分析市場參與者及競爭格局，并對海外積極布局ASIC的廠商進(jìn)行梳理?；谝陨戏治?，我們將預(yù)測未來ASIC市場的規(guī)模。文章最后，我們將列舉一些與ASIC相關(guān)的公司。希望通過這些內(nèi)容，能夠增進(jìn)大家對ASIC的認(rèn)識和一、行業(yè)概述 1二、市場前景 3三、ASIC與GPU的對比 5四、市場參與者及競爭分析 7五、海外云廠商ASIC布局情況 9六、市場預(yù)測 20七、相關(guān)公司 21八、參考研報 33ASIC，全稱為ApplicationSpecificIntegratedCircuit，中文名為專用集成電路芯片，顧名思義，是一種為了專門目的或者算法而專門定制的芯片。ASIC芯片的架構(gòu)并不固定，既有較為簡單的網(wǎng)卡芯片，用于控制網(wǎng)絡(luò)流量，滿足防火墻需求等等，也有類似谷歌TPU，昇騰910B一類的頂尖AI芯片。ASIC并不代表簡單，而是代表面向的需求，只要是為了某一類算法，或者是某一類用戶需求而去專門設(shè)計的芯片，都可以稱之為ASIC。1/342/34行業(yè)|深度|研究報告目前芯片的制造工藝已達(dá)極限，芯片性能提升速度放緩，同時芯片的散熱問題也日趨嚴(yán)峻。ASIC相較于通用芯片，卸載了通用芯片不必要的邏輯單元，根據(jù)特定的應(yīng)用需求進(jìn)行優(yōu)化，減小芯片的面積，以實現(xiàn)數(shù)據(jù)處理速度，能耗，計算效率的平衡。當(dāng)下，ASIC芯片的主要根據(jù)運算類型分為了TPU、DPU和NPU芯片，分別對應(yīng)了不同的基礎(chǔ)計算功能。TPU即為谷歌發(fā)明的AI處理器，主要支持張量計算，DPU則是用于數(shù)據(jù)中心內(nèi)部的加速計算，NPU則是對應(yīng)了上一輪AI熱潮中的CNN神經(jīng)卷積算法，后來被大量SoC進(jìn)了邊緣設(shè)備的處理芯片中。ASIC芯片也分為全定制ASIC芯片、半定制ASIC芯片及可編程ASIC芯片。3/34行業(yè)|深度|研究報告（1）全定制ASIC芯片：全定制ASIC芯片是定制程度最高的芯片之一，研發(fā)人員基于不同電路結(jié)構(gòu)設(shè)計針對不同功能的邏輯單元，于芯片板搭建模擬電路、存儲單元、機(jī)械結(jié)構(gòu)。全定制化ASIC芯片在性能、功耗等方面表現(xiàn)優(yōu)異。全定制化ASIC芯片平均算力輸出約為半定制化ASIC芯片平均算力輸出的8倍，采用24納米制程的全定制化ASIC芯片在性能上優(yōu)于采用5納米制程的半定制化ASIC芯片。（2）半定制ASIC芯片：構(gòu)成半定制ASIC芯片的邏輯單元大部分取自標(biāo)準(zhǔn)邏輯單元庫，部分根據(jù)特定需求做自定義設(shè)計。1）門陣列芯片：門陣列ASIC芯片包括有信道門陣列、無信道門陣列和結(jié)構(gòu)化門陣列。門陣列ASIC芯片結(jié)構(gòu)中硅晶片上預(yù)定晶體管位置不可改變，設(shè)計人員多通過改變芯片底端金屬層等方式調(diào)整邏輯單元互連結(jié)構(gòu)；2）標(biāo)準(zhǔn)單元：該類ASIC芯片由選自標(biāo)準(zhǔn)單元庫的邏輯單元構(gòu)成。設(shè)計人員可按算法需求自行布置標(biāo)準(zhǔn)單元。（3）可編程ASIC芯片：PLD亦稱可編程邏輯器件，在結(jié)構(gòu)上包括基礎(chǔ)邏輯單元矩陣、觸發(fā)器、鎖存器等，其互連部分作為單個模塊存在。設(shè)計人員通過對PLD進(jìn)行編程以滿足部分定制應(yīng)用程序需求。大型云端服務(wù)供應(yīng)商在資本支出方面投入巨大，支出的同比增速在加快。北美四大云端服務(wù)供應(yīng)商的Capex規(guī)模今年來增幅顯著提升，2024年前三季度整體規(guī)模達(dá)到1708億美元，同比增長56%，且yoy逐季加快（Q1-Q3yoy分別為34.7%、64.6%、68%）。其中，微軟530億美元，yoy+78.5%；亞馬遜551.7億美元，yoy+44.6%；谷歌382.6億美元，yoy+79%；Meta243.9億美元，yoy+20.7%。資本支出大幅提升的背后，是各家巨頭在AI賽道上的競賽、AI算力的稀缺、AI云賦能和AI生態(tài)的拓展等多方面驅(qū)動。大型云端服務(wù)供應(yīng)商的業(yè)務(wù)模型、應(yīng)用場景等很多通過自身的云來承載，每個云承載了獨特的應(yīng)用和商業(yè)模型，包括內(nèi)部應(yīng)用（比如搜索引擎、社交媒體等）、SaaS服務(wù)（比如AI聊天機(jī)器人、Copilot等）、IaaS服務(wù)等。ASIC可以適應(yīng)不同的業(yè)務(wù)場景和商業(yè)模式的需求。4/34行業(yè)|深度|研究報告 ASIC可以滿足客戶的需求：1）內(nèi)部工作負(fù)載的架構(gòu)優(yōu)化；2）更低的功耗，更低的成本；3）為AI工作負(fù)載定制的內(nèi)存和I/O架構(gòu)。目前在訓(xùn)練階段，訓(xùn)練集群對加速計算芯片的需求已提升到萬卡級別。隨著AI模型對訓(xùn)練需求的提升，未來10萬卡級別指日可待。而在推理階段，由于計算量與業(yè)務(wù)和應(yīng)用密切相關(guān)，單個推理集群對加速計算芯片的需求低于訓(xùn)練集群，但推理集群的部署數(shù)量要遠(yuǎn)多于訓(xùn)練集群，推理集群的數(shù)量預(yù)計會達(dá)到百萬級別。AI算力集群特別是推理集群對加速計算芯片的龐大需求，是ASIC快速成長的核心驅(qū)動力。Marvel,西商證券警理5/34行業(yè)|深度|研究報告從芯片大類來看，目前人類的芯片可以被分為CPU、GPU、FPGA、ASIC四種大類，其中CPU是人類芯片之母，擁有最強(qiáng)的通用性，適合復(fù)雜的指令與任務(wù)；GPU通過大量部署并行計算核，實現(xiàn)了對于異構(gòu)計算需求的優(yōu)化。FPGA芯片則更加強(qiáng)調(diào)可編程性，可以通過編程重新配置芯片內(nèi)部的邏輯門和存儲器，但是運算性能較低。ASIC則完全為某類功能或者算法專門設(shè)計，通用性較低的同時，擁有對某一類算法最好的性能。下面我們用ASIC與GPU進(jìn)行詳細(xì)對比：ASIC針對特定算法和應(yīng)用進(jìn)行優(yōu)化設(shè)計，在特定任務(wù)上的計算能力強(qiáng)大，例如在某些AI深度學(xué)習(xí)算法中實現(xiàn)高效的矩陣運算和數(shù)據(jù)處理。GPU具有強(qiáng)大的并行計算能力，擁有眾多計算核心，可同時處理多個任務(wù)，在通用計算和圖形處理方面表現(xiàn)出色，適用于大規(guī)模的數(shù)據(jù)并行計算，如科學(xué)計算、圖形渲染、視頻處理等；但GPU在特定任務(wù)上的計算效率可能不如ASIC。ASIC通常具有較高的能效比，因其硬件結(jié)構(gòu)是為特定任務(wù)定制的，能最大限度減少不必要的功耗。GPU由于其通用的設(shè)計架構(gòu)，在執(zhí)行特定任務(wù)時可能存在一些功耗浪費；但隨著技術(shù)的進(jìn)步，新一代GPU也在不斷提高能效比。ASIC在處理特定任務(wù)時，能實現(xiàn)高吞吐量，數(shù)據(jù)處理速度快，可快速完成大量的數(shù)據(jù)處理工作。GPU具有較高的帶寬和并行處理能力，在圖形處理和通用計算中能實現(xiàn)較高吞吐量，但在處理一些復(fù)雜、非圖形相關(guān)的特定任務(wù)時，其吞吐量可能會受到一定限制。ASIC在絕對算力和片間互聯(lián)方面普遍低于AIGPU，但ASIC的服務(wù)器間互聯(lián)由于采用以太網(wǎng)為主，具有通用性強(qiáng)、生態(tài)開放、低成本等優(yōu)勢。ASIC的單位算力成本更低，滿足一定的降本需求。ASIC因其硬件結(jié)構(gòu)是為特定任務(wù)定制的，減少了很多針對通用加速計算的不必要的硬件設(shè)計，其單位算力成本相比GPU或更低。例如谷歌TPUv5、亞馬遜Trainium2的單位算力成本分別為英偉達(dá)H100的70%、60%。6/34行業(yè)|深度|研究報告 ASIC在軟件生態(tài)上的優(yōu)勢：云廠商普遍具備較強(qiáng)的研發(fā)能力，為ASIC研發(fā)了配套的全棧軟件生態(tài)，開發(fā)了一系列編譯器、底層中間件等，提升ASIC在特定場景下的計算效率。部分第三方芯片廠商推出了開源平臺，未來ASIC的軟件生態(tài)將會愈發(fā)成熟和開放。ASIC在軟件生態(tài)上的劣勢：軟件生態(tài)相對較為單一，主要針對特定的應(yīng)用場景和算法進(jìn)行優(yōu)化。與GPU相比，ASIC的編程難度較大，需要專業(yè)的知識和技能，開發(fā)工具和軟件庫相對較少。這使得開發(fā)者在使用ASIC時需要花費更多時間和精力進(jìn)行開發(fā)調(diào)試。GPU軟件生態(tài)的優(yōu)勢：軟件生態(tài)豐富成熟，擁有廣泛的開發(fā)工具、編程語言和軟件庫支持，如英偉達(dá)的CUDA和AMD的ROCm等。開發(fā)者可使用熟悉的編程語言如C、C++、Python等進(jìn)行開發(fā)，且有大量的開源項目和社區(qū)支持，方便開發(fā)者學(xué)習(xí)和交流。這使得GPU在各種應(yīng)用場景中都能快速地進(jìn)行開發(fā)和部署。GPU軟件生態(tài)的劣勢：軟件生態(tài)在特定任務(wù)上的優(yōu)化程度可能不如ASIC。在一些對性能和功耗要求極高的特定場景中，需要進(jìn)行大量的優(yōu)化工作才能發(fā)揮出GPU的最佳性能。ASIC在執(zhí)行特定AI算法時的高性能和高能效的優(yōu)勢，對于大規(guī)模數(shù)據(jù)中心等對能耗敏感的場景非常重要。由于ASIC不需要集成通用的功能模塊，從而減少不必要的硬件資源浪費，如果AI應(yīng)用場景明確且需求量大，ASIC在大規(guī)模生產(chǎn)后其單位成本可顯著降低。但ASIC也有開發(fā)周期長且靈活性差的劣勢，由于ASIC的設(shè)計和制造是針對特定算法和應(yīng)用場景進(jìn)行的，一旦設(shè)計完成其功能就固化下來，難以對芯片的功能和性能進(jìn)行修改和升級，如果AI算法發(fā)生較大變化，ASIC可能無法快速適應(yīng)這種變化。此外，ASIC的生態(tài)系統(tǒng)還不夠完善，開發(fā)者在使用ASIC時可能需要花費更多時間和精力去搭建開發(fā)環(huán)境、編寫底層代碼等，開發(fā)難度較大。ASIC更適用于推理：在推理階段，AI模型已訓(xùn)練完成，需要對輸入的數(shù)據(jù)進(jìn)行快速的預(yù)測和分類。此時對芯片的計算精度要求相對較低，但對計算速度、能效和成本等要求較高。ASIC正好滿足這些需求，行業(yè)|深度|研究報告其高度定制化的設(shè)計能針對推理任務(wù)進(jìn)行優(yōu)化，以較低的功耗實現(xiàn)快速的推理計算。且在大規(guī)模部署的場景下，ASIC的成本優(yōu)勢更加明顯，可以降低企業(yè)的運營成本。GPU更適用于訓(xùn)練：AI訓(xùn)練過程需要處理大量的數(shù)據(jù)和復(fù)雜的計算，對芯片的計算能力、內(nèi)存帶寬和并行處理能力要求非常高。GPU擁有眾多的計算核心和高帶寬內(nèi)存，可以同時處理大量的數(shù)據(jù)樣本和復(fù)雜的計算任務(wù)，能夠加速AI模型的訓(xùn)練過程。且在訓(xùn)練過程中，需要不斷地調(diào)整模型的參數(shù)和結(jié)構(gòu)，GPU的靈活性使其更適合這種頻繁的調(diào)試和迭代。芯片的自研可分為前端、后端兩個階段，其中，IP和產(chǎn)業(yè)鏈整合是主要的挑戰(zhàn)。前端即邏輯設(shè)計，涉及芯片的基本功能，后端則是將所有的功能落實到電路并且流片出來的物理實體。目前，電路設(shè)計生態(tài)已經(jīng)相對成熟，自研團(tuán)隊面臨的第一道門檻是有嚴(yán)密的知識產(chǎn)權(quán)保護(hù)的IP，為了獲得這些IP，自研廠商往往需要與IP設(shè)計廠商合作，獲得授權(quán)，此外，部分艱深的結(jié)構(gòu)（如NOC，片上網(wǎng)絡(luò)）也是自研團(tuán)隊難以獨立完成的。除了設(shè)計環(huán)節(jié)，自研廠商還面臨流片、量產(chǎn)、芯片組網(wǎng)、產(chǎn)業(yè)鏈整合、軟件生態(tài)等一系列挑戰(zhàn)。據(jù)芯潮IC調(diào)查了解到，每家迭代第一代產(chǎn)品，如果按7納米中間節(jié)點去算，加量產(chǎn)至少小20億美金。7/348/34行業(yè)|深度|研究報告云廠商自研芯片時，通常會選擇博通、Marvell、英偉達(dá)、聯(lián)發(fā)科等廠商合作設(shè)計芯片，再通過臺積電等代工廠完成芯片制造，目前博通客戶量產(chǎn)節(jié)奏領(lǐng)先。博通目前有三家定制芯片大客戶，前兩家客戶已經(jīng)進(jìn)入量產(chǎn)期，新加入的客戶預(yù)計在2025年進(jìn)入量產(chǎn)。Marvell目前有三位客戶，目前均未量產(chǎn)，A客戶的AI訓(xùn)練芯片、B客戶的ArmCPU處于產(chǎn)能爬坡期，A客戶的AI推理芯片、C客戶的AI芯片預(yù)計分別2025年、2026年開始產(chǎn)能爬坡。英偉達(dá)則處于更前期的階段。據(jù)路透社報道，英偉達(dá)正在建立新的業(yè)務(wù)部門，專注于為云計算和其他公司設(shè)計定制芯片，包括AI處理器，已經(jīng)與亞馬遜、Meta、微軟、谷歌和OpenAI的代表會面，討論為他們生產(chǎn)定制芯片的事宜。據(jù)ITBEAR報道，聯(lián)發(fā)科將為谷歌提供AI服務(wù)器芯片的串行器和解串器(SerDes)方案，并協(xié)助整合谷歌自研的TPU。目前，博通和Marvell是較早進(jìn)軍ASIC市場的公司，在行業(yè)處于領(lǐng)先地位。博通占據(jù)一半以上的市場份額，Marvell市場份額在10%左右。展望未來，產(chǎn)業(yè)資源整合能力強(qiáng)、IP庫完整、有先發(fā)優(yōu)勢的廠商將保持領(lǐng)先，競爭格局不會過于分散。博通、Marvell均為完整布局通信、計算領(lǐng)域的廠商，在IP庫、芯片設(shè)計平臺、出貨規(guī)模都具有綜合優(yōu)勢；同時，客戶與定制芯片廠商黏性較強(qiáng)。雙方通?；陂L期路線圖，從邏輯設(shè)計到物理實現(xiàn)，雙方團(tuán)隊需密切合作，因此遷移轉(zhuǎn)換合作伙伴的成本較高。目前海外云廠商正加速布局ASIC芯片，國產(chǎn)AI芯片廠商有望在推理領(lǐng)域加速追趕。當(dāng)前華為昇騰、寒武紀(jì)、燧原科技等廠商產(chǎn)品均基于ASIC架構(gòu)，全球ASIC市場并未形成明顯的頭部廠商，國產(chǎn)公司后續(xù)有望逐步追趕。行業(yè)|深度|研究報告 TPU（TensorProcessingUnits，張量處理單元）是谷歌專為AI定制設(shè)計的ASIC，其針對大模型的訓(xùn)練和推理進(jìn)行了優(yōu)化。TPU適合各種使用場景，例如聊天機(jī)器人、代碼生成、媒體內(nèi)容生成、合成語音、視覺服務(wù)、推薦引擎、個性化模型等。截至2024年，谷歌TPU已迭代6代產(chǎn)品。TPUv5p單個Pod可達(dá)8960顆芯片的集群規(guī)模，借助Multislice訓(xùn)練技術(shù)，TPUv5p可實現(xiàn)5萬卡線性加速。最新一代TPUv6Trillium預(yù)計2024H2推出，TPUv6FP16/BF16精度非稀疏算力可達(dá)926TFLOPS，約為H100、B100的93%、53%。相比TPUv5e，TPUv6能效高出67%，峰值性能高出3.7倍。TPUv4和TPUv5p算力集群采用3Dtorus(3D環(huán)面)架構(gòu)和OCS，提供高速的網(wǎng)絡(luò)連接，增強(qiáng)拓展性與互聯(lián)效率。在TPUv4的架構(gòu)中，每64顆TPUv4芯片組成4x4x4的立方體，每個CPU配備4顆TPUv4，64顆TPUv4和16顆CPU放入一個機(jī)架，形成一個模塊。一個模塊有6個面的光路鏈接，每個面有16個鏈接，單模塊共有96個光路連接到OCS。為了提供3D環(huán)面的環(huán)繞鏈接，對面的鏈接必須連接到同一個OCS。每個模塊連接48個OCS（6×16÷2），最終實現(xiàn)所需的4096個TPUv4芯片互聯(lián)。TPUv4算力集群的物理架構(gòu)：一個PCB包含4個TPUv4，通過ICI鏈路連接到其他托盤（tray），16個托盤共同放入一個機(jī)架，形成4x4x4的3D模塊結(jié)構(gòu)。64個機(jī)柜共同組成4096顆芯片規(guī)模的算力集9/3410/34行業(yè)|深度|研究報告 TPUv4與英偉達(dá)A100在MLPerf基準(zhǔn)測試中的性能對比：TPUv4在BERT上比A100快1.15倍，比IPU快約4.3倍；在ResNet上，TPUv4分別比A100和IPU快1.67倍和約4.5倍；運行MLPerf基準(zhǔn)測試時，A100的平均功耗比TPUv4高1.3~1.9倍。雖然TPUv4單芯片算力為A100的88%，但在性能和功耗表現(xiàn)上要優(yōu)于A100。TPU的算力成本隨著產(chǎn)品更新迭代也在持續(xù)優(yōu)化。TPUv5e的相對性價比（TFLOPs/$）是TPUv4的2.3倍，參考谷歌披露的TPUv4公開標(biāo)價3.22美元/芯片/小時，TPUv5e的標(biāo)價為1.2美元/芯片/小時，TPUv5e以更低的成本實現(xiàn)了更高的算力。TPUv5p訓(xùn)練LLM的速度比TPUv4快2.8倍，利用第二代SparseCores，TPUv5p訓(xùn)練嵌入密集模型的速度比TPUv4快1.9倍。AWS（AmazonWebServices）在AI芯片的布局主要包含推理芯片Inferentia和訓(xùn)練芯片Trainium兩11/34行業(yè)|深度|研究報告 AWSTrainium是AWS專門為超過1000億個參數(shù)模型的深度學(xué)習(xí)訓(xùn)練打造的機(jī)器學(xué)習(xí)芯片。自2020年以來，亞馬遜發(fā)布了兩代Trainium芯片。Trainium1加速器提供190TFLOPS的FP16/BF16算力，配有32GB的HBM，內(nèi)存帶寬820GB/s；而新一代Trainium2達(dá)到了430TFLOPS的FP16/BF16算力，其HBM容量達(dá)到96GB，內(nèi)存帶寬為4TB/s。與第一代相比，AWSTrainium2的性能提高了4倍，能效提高了1倍。每個AmazonElasticComputeCloud(AmazonEC2)Trn1實例部署多達(dá)16個Trainium加速器。AWS表示未來擴(kuò)展到多達(dá)10萬個芯片的EC2UltraCluster集群中，從而高效訓(xùn)練大模型?；赥rainium的AmazonEC2Trn1實例與同類AmazonEC2實例相比，可節(jié)省高達(dá)50%的訓(xùn)練成本。Trainium已針對訓(xùn)練自然語言處理、計算機(jī)視覺和推薦器模型進(jìn)行了優(yōu)化，這些模型用于文本摘要、代碼生成、問題解答、圖像和視頻生成、推薦和欺詐檢測等各種應(yīng)用程序。AWSInferentia加速器由AWS設(shè)計，在AmazonEC2中以低成本為深度學(xué)習(xí)和生成式AI推理應(yīng)用程序提供高性能。第一代AWSInferentia1加速器為AmazonElasticComputeCloud（AmazonEC2）Inf1實例提供支持，與同類AmazonEC2實例相比，該實例的吞吐量可提高多達(dá)2.3倍，每次推理的成本可降低多達(dá)70%。2023年亞馬遜發(fā)布了Inferentia2芯片和Inf2實例，與Inferentia相比，AWSInferentia2加速器的吞吐量提高了4倍，延遲低至上一代的1/10。Inferentia1加速器搭載4個第一代NeuronCore，配有8GB的DDR4內(nèi)存，每個EC2Inf1實例最多有16個Inferentia1加速器。Inferentia2加速器搭載了2個第二代NeuronCore，支持190TFLOPS的FP16性能，配置32GB的HBM，與Inferentia1相比，總內(nèi)存增加了4倍，內(nèi)存帶寬增加了10倍；每個EC2Inf2實例最多有12個Inferentia2加速器。12/34行業(yè)|深度|研究報告 AWSNeuron是一款用于優(yōu)化AWSTrainium和AWSInferentia加速器上的機(jī)器學(xué)習(xí)性能的SDK。它支持在基于AWSTrainium的AmazonEC2Trn1實例上進(jìn)行高性能訓(xùn)練。對于模型部署，它支持在基于AWSInferentia的AmazonEC2Inf1實例和基于AWSInferentia2的AmazonEC2Inf2實例上進(jìn)行高性能和低延遲推理。AWSNeuronSDK與PyTorch和TensorFlow原生集成，確保客戶可繼續(xù)在這些熱門框架中使用現(xiàn)有工作流程，并在AmazonEC2Trn1、Inf1和Inf2實例上以最佳方式訓(xùn)練和部署ML/DL模型。開發(fā)者可將基于GPU的實例遷移到AWSTranium中，客戶只要修改少量代碼即可實現(xiàn)海量數(shù)據(jù)訓(xùn)練，降低了訓(xùn)練成本。微軟將Maia100打造成定制的AI加速器，用于在Azure上運行OpenAI的模型和Copilot等AI工作負(fù)載。Maia100采用臺積電5nm制程和CoWoS-S封裝技術(shù)，配備64GB（4×16GB）的HBM2E，內(nèi)存帶寬達(dá)1.8TB/s。Maia100配備一個500MB的L1/L2緩存，芯片具有12倍400GbE的網(wǎng)絡(luò)帶寬，設(shè)計最大功耗700WTDP。Maia100芯片在MXFP4數(shù)據(jù)格式下的性能達(dá)到3200TFLOPS，Int8下達(dá)到1600TFLOPS，BF16下達(dá)到800TFLOPS，算力性能超過英偉達(dá)A10028%，是英偉達(dá)H100的40%。微軟Maia100單SoC搭載16個集群，其中每個集群搭載4個圖塊Tile。Maia100擁有圖像解碼器和機(jī)密計算能力，支持廣泛的數(shù)據(jù)類型，包括FP32和BF16。13/34行業(yè)|深度|研究報告 Maia100基于自定義的RoCE類協(xié)議和以太網(wǎng)互連，內(nèi)置AES-GCM加密引擎以保護(hù)用戶數(shù)據(jù)，網(wǎng)絡(luò)連接帶寬達(dá)到600GB/s。Maia100還由統(tǒng)一的后端網(wǎng)絡(luò)支持，用于擴(kuò)展和橫向擴(kuò)展工作負(fù)載，提供了支持直接和交換機(jī)連接的靈活性。微軟Maia100芯片的Ares機(jī)架配備32顆Maia100。Ares一個機(jī)架中搭載了8臺服務(wù)器，每臺服務(wù)器中含有4個Maia100，因此一個機(jī)架中總共有32顆Maia100芯片。Ares機(jī)架功率可達(dá)40kW，配置了Sidekick液體冷卻系統(tǒng)，在機(jī)架兩側(cè)設(shè)置副設(shè)備，冷液從副設(shè)備流向Maia100表面的冷板，副設(shè)備吸取液體中熱量后再將冷液輸出，以此構(gòu)建散熱循環(huán)。MaiaSDK上實現(xiàn)快速部署和模型可移植性。微軟為Maia100創(chuàng)建了軟件，該軟件與PyTorch和ONNXRuntime等流行的開源框架集成。該軟件棧提供了豐富而全面的庫、編譯器和工具，使數(shù)據(jù)科學(xué)家和開發(fā)人員能在Maia100上成功運行模型。微軟集成了OpenAI的Triton；Triton是一種開源編程語言，通過抽象底層硬件簡化了內(nèi)核編寫，這將賦予開發(fā)者完全的可移植性和靈活性，而不會犧牲效率和針對AI工作負(fù)載的能力。Maia的SDK允許用戶將用PyTorch和Triton編寫的模型快速移植到Maia。2023年5月，Meta推出第一代AI推理芯片MTIAv1（MetaTrainingandInferenceAccelerator用于支持Meta的深度學(xué)習(xí)推薦模型，該模型是14/34行業(yè)|深度|研究報告 Facebook,Instagram,WhatsApp,MetaQuest,HorizonWorlds,andRay-BanStories業(yè)務(wù)的重要基礎(chǔ)。MTIAv1芯片采用臺積電7nm制程，Meta研究顯示，對于低復(fù)雜度的深度學(xué)習(xí)模型，MTIA的運行效率（TFLOPS/W）優(yōu)于GPU，而對于中高復(fù)雜度的模型，GPU的效率更佳，公司表示正在持續(xù)優(yōu)MTIAv2于2024年4月發(fā)布，用于AI推理，旨在增強(qiáng)Meta的排名和廣告推薦引擎。MTIAv2采用臺積電5nm制程，與上一代相比算力和內(nèi)存帶寬翻倍提升，INT8下的稠密算力354TFLOPS接近上一代的3.5倍，稀疏算力708TFLOPS達(dá)到上一代的近7倍。MTIAv2配備128GB的LPDDR5內(nèi)存，內(nèi)存帶寬205GB/s，設(shè)計最大功耗90WTDP。目前Meta已有16個數(shù)據(jù)中心使用了新款芯片。芯片架構(gòu)方面，MTIAv2內(nèi)部包含加速器、片上和片外存儲以及互聯(lián)結(jié)構(gòu)。AI加速器由8x8的處理單元網(wǎng)格（PE，processingelement）組成，PE基于RISC-V內(nèi)核，PE彼此互聯(lián)，可作為一個整體運行任務(wù)，也可以獨立處理任務(wù)。片上內(nèi)存SRAM容量256MB，SRAM帶寬為2.7TB/s，每個PE內(nèi)存容量為384KB，PE帶寬為1TB/s。每個加速器使用PCIeGen5x8主機(jī)接口。MTIAv2加速器模塊：每張卡2個MTIA芯片，每個MTIA都可以使用PCIeGen5x8接口，單模塊共x16接口（2PCIeGen5x16）。MTIA機(jī)柜系統(tǒng)結(jié)構(gòu)：一個機(jī)架系統(tǒng)包含(2×MTIA芯片)×(12×模組)×(3×機(jī)箱)，相當(dāng)于每個機(jī)架系統(tǒng)搭載了72顆MTIA芯片。MTIAv2軟件堆棧與PyTorch2.0、TorchDynamo、TorchInductor完全集成，致力于提高開發(fā)者編程效率。MTIAv2的低級編譯器從前端獲取輸出，生成高效且特定于設(shè)備的代碼。下方是運行時堆行業(yè)|深度|研究報告棧，負(fù)責(zé)與驅(qū)動程序/固件接口，最后，運行時與驅(qū)動程序交互。Meta創(chuàng)建了Triton-MTIA編譯器后端為芯片硬件生成高性能代碼，Triton用于編寫ML計算內(nèi)核，極大提高了開發(fā)人員效率。基于MTIA平臺加速后的Meta推薦模型的效率得到提升，在大型片上SRAM的加持下，低復(fù)雜度（LC）模型具有開箱即用的優(yōu)勢，而高復(fù)雜度（HC）模型在4-6個月內(nèi)性能提高了2倍以上。15/3416/34行業(yè)|深度|研究報告 Dojo于2019年發(fā)布，是特斯拉自研的超級計算機(jī)平臺，用于訓(xùn)練其自動駕駛系統(tǒng)的人工智能模型。特斯拉在設(shè)計和生產(chǎn)過程中與合作伙伴臺積電進(jìn)行了合作，dojo平臺的核心組件是D1芯片，是由臺積電代工的定制專用集成電路（ASIC），采用7納米制程和先進(jìn)封裝技術(shù)。Dojo可以有效訓(xùn)練全自動駕駛技術(shù)FSD，使其獲得更多的學(xué)習(xí)經(jīng)驗，推動機(jī)器人出租車和網(wǎng)絡(luò)服務(wù)加快應(yīng)用。整體架構(gòu)上，Dojo分成6個層級：內(nèi)核、芯片、瓦片、模組，機(jī)柜，超算機(jī)群。1個D1芯片上有354個核心。25個D1組成一個訓(xùn)練板（trainingtile），6個訓(xùn)練板組成一個訓(xùn)練矩陣（TrainingMatrix），2個訓(xùn)練矩陣構(gòu)成1個機(jī)柜，10個機(jī)柜構(gòu)成1個超算機(jī)群。D1單芯片F(xiàn)P32性能達(dá)22TFLOPS，矩陣計算單元提供了Dojo主要的算力。特斯拉矩陣計算單元相應(yīng)的專利如下圖。該模塊關(guān)鍵部件是一個8x8矩陣-矩陣乘法單元（MatrixComputationalUnit）。輸入為數(shù)據(jù)輸入陣列和權(quán)重輸入陣列，計算矩陣乘法后直接在輸出進(jìn)行累加。每個Dojo核心包括4路8x8矩陣乘法單元。包含25顆D1芯片的Dojo訓(xùn)練板設(shè)計成“三明治式”結(jié)構(gòu)，實現(xiàn)了計算、存儲、供電和通信無縫集成。每個訓(xùn)練板都配置了11GB的片上跨內(nèi)核SRAM，這是一種近存計算架構(gòu)，相應(yīng)的耗電量也高達(dá)15kw，采用液冷封裝，能效比為0.6TFLOPS/W（BF16/CFP8）。Dojo采用InFO_SoW封裝，這種封裝技術(shù)不需要額外PCB載板，就能將相關(guān)芯片集成散熱模塊，加速生產(chǎn)流程。17/34行業(yè)|深度|研究報告在高密度的計算芯片環(huán)境下，特斯拉面臨較大的電力傳輸和散熱問題考驗。單顆D1芯片的熱設(shè)計功率(TDP)為400W，一個訓(xùn)練板的功耗高達(dá)15千瓦。在電力方面，特斯拉在DojoPOD上使用了全自研的VRM（電壓調(diào)節(jié)模組單個VRM可在不足25美分硬幣面積的電路上，提供52V電壓和超過1000A巨大電流，電流目的為0.86A每平方毫米，共計12個獨立供電相位。特斯拉的電源調(diào)節(jié)模塊和液冷板采取與芯片本身垂直的立體結(jié)構(gòu)，極大的減少了對處理器平面的面積占用，盡可能減少計算芯片間的距離。特斯拉的V1訓(xùn)練矩陣包含150個D1芯片（6個訓(xùn)練板），4個主機(jī)CPU，每個主機(jī)裝有5張DIP卡，這是一種PCIe卡，每個DIP含有32GBHBM（800GB/s存儲帶寬），支持特斯拉傳輸協(xié)議TTP，提供超高的TTP帶寬和以太網(wǎng)帶寬。訓(xùn)練板通過DIP連接至交換機(jī)。在BF16和CFP8精度下，V1訓(xùn)練矩陣算力可達(dá)1Exaflop。一個DojoPOD機(jī)柜由兩層、12個訓(xùn)練板組成，可提供108PFLOPS算力。多機(jī)柜可以拓展至一組ExaPOD，包含3000顆D1芯片（120個訓(xùn)練板）。18/34行業(yè)|深度|研究報告 Dojo采用TTP專有通信協(xié)議，提供高帶寬芯片間通信。特斯拉為Dojo芯片設(shè)計了TTP作為通信協(xié)議，這是一種基于PCIe的專有協(xié)議，旨在提供高帶寬和低延遲的數(shù)據(jù)傳輸，D1芯片間通信帶寬高達(dá)900GB/s。TTP支持橋接到標(biāo)準(zhǔn)以太網(wǎng)，降低通信時延。TTPTTPOE可將標(biāo)準(zhǔn)以太網(wǎng)轉(zhuǎn)換至Z平面拓?fù)?，降低了垂直延遲，大幅降低網(wǎng)絡(luò)跳數(shù)，以50GB/s在以太網(wǎng)上運行。低延遲特性使得Dojo芯片在處理復(fù)雜計算任務(wù)時能夠迅速響應(yīng)，提高了整體的系統(tǒng)性能。另外每個訓(xùn)練模塊外部邊緣的40個I/O芯片達(dá)到了36TB/s的聚合帶寬，或者10TB/s的橫跨帶寬。每層訓(xùn)練模塊都連接著超高速存儲系統(tǒng)：640GB運行內(nèi)存可以提供超過18TB/s的帶寬，另外還有超過1TB/s的網(wǎng)絡(luò)交換帶寬。19/34行業(yè)|深度|研究報告軟件層面，特斯拉構(gòu)建了一套由PyTorch、編譯器、驅(qū)動程序等共同構(gòu)成的軟件棧。整個軟件生態(tài)的頂層是PyTorch框架，中間使用Dojo編譯器和LLVM形成編譯層，底層基于Dojo驅(qū)動。Dojo編譯器負(fù)責(zé)劃分任務(wù)、配置數(shù)據(jù)存儲、進(jìn)行細(xì)粒度的并行計算并減少存儲占用。Dojo編譯器支持的并行方式包括數(shù)據(jù)并行、模型并行和圖并行。支持的存儲分配方式包括分布式張量、重算分配和分割填充。在軟件生態(tài)加持下，用戶可將Dojo大型分布式系統(tǒng)視作一個加速器進(jìn)行整體設(shè)計和訓(xùn)練。20/34行業(yè)|深度|研究報告北美云廠商對AI芯片需求量大，為了增強(qiáng)議價能力和供應(yīng)鏈多元化，有充足的動力自研芯片。北美云廠商在AI領(lǐng)域的資本開支近兩年有望保持高速增長，是英偉達(dá)的重要客戶，谷歌、微軟、亞馬遜、Meta和甲骨文五家云廠商預(yù)計貢獻(xiàn)了FY2025英偉達(dá)GPU六成以上的收入，預(yù)計接近500億美元。而AIASIC芯片當(dāng)前規(guī)模遠(yuǎn)低于GPU，博通FY2024定制芯片收入預(yù)計70億美元左右，MarvellFY2024可能僅有個位數(shù)億美元收入。能夠認(rèn)為當(dāng)前定制芯片仍處于發(fā)展初期，云廠商為了降低成本、增強(qiáng)供應(yīng)鏈保障，會持續(xù)迭代ASIC并增大在特定場景的ASIC部署規(guī)模，ASIC市場規(guī)模有望高速增長。目前ASIC在AI加速計算芯片市場占有率較低，預(yù)計增速快于通用加速芯片。據(jù)Marvell預(yù)測，2023年，定制芯片僅占數(shù)據(jù)中心加速計算芯片的16%，其規(guī)模約66億美元，隨著AI計算需求增長，以及定制芯片占比提升至25%，預(yù)計2028年數(shù)據(jù)中心定制計算芯片市場規(guī)模將達(dá)到429億美元，2023-2028年CAGR達(dá)45%。而通用加速計算芯片2028年預(yù)計達(dá)到1716億美元市場規(guī)模，2023-2028年CAGR為32%。21/34行業(yè)|深度|研究報告從全局來看，ASIC放量與對應(yīng)的算力降本，是大模型走向一個更大產(chǎn)業(yè)的必經(jīng)之路，AI的算力敘事足夠宏大，能夠認(rèn)為在AI芯片的發(fā)展上，將會經(jīng)歷多輪螺旋上升式的發(fā)展，最終達(dá)到全社會的AGI，新的模型與算法通過通用性GPU被發(fā)現(xiàn)和初步開發(fā)，通過專用ASIC將需求繁榮，繁榮的生態(tài)吸引更多用戶與參與者，最終培育出新的、更強(qiáng)的算法，循環(huán)往復(fù)，螺旋上升，最終達(dá)成AGI的宏偉目標(biāo)。隨著ASIC放量將助力MarvellAI、博通等專注于半導(dǎo)體平臺的全球公司快速擴(kuò)張。晶圓代工廠如臺積電、英特爾、中芯國際的議價能力和產(chǎn)業(yè)鏈地位有望提升，利潤上漲。同時，ASIC的興起將帶動國內(nèi)ASIC芯片廠商的發(fā)展，華為昇騰、寒武紀(jì)等廠商有望轉(zhuǎn)型為頂尖的模型ASIC制造商。此外由于散熱對ASIC性能至關(guān)重要，英維克、中航光電、高瀾股份等散熱公司將持續(xù)受益。大量中小ASIC公司將會催生大量的新建服務(wù)器需求。同時，國內(nèi)芯片有望通過ASIC公司加速形成可用大模型算力，從而帶動國內(nèi)服務(wù)器需求起量，對工業(yè)富聯(lián)、高新發(fā)展、中科曙光、紫光股份等服務(wù)器行業(yè)龍頭企業(yè)形成利好。博通AI業(yè)務(wù)占比從2019年的低于5%提升至2023年的15%左右。根據(jù)公司的規(guī)劃，預(yù)計2024年實現(xiàn)超過100億美元的收入體量，占公司整體收入比例增長至35%。22/34行業(yè)|深度|研究報告目前博通已經(jīng)為兩家頭部CSP客戶批量供應(yīng)了ASIC產(chǎn)品。此外，博通另一家客戶正在產(chǎn)能爬坡中，預(yù)計2025年開始貢獻(xiàn)業(yè)績。博通廣泛的IP儲備為ASIC產(chǎn)品線賦能。博通廣泛的IP儲備可為其XPU（博通對于AIASIC的說法）產(chǎn)品線賦能，博通的IP主要分為4類：計算，存儲，網(wǎng)絡(luò)IO，封裝。計算包括處理單元架構(gòu)，設(shè)計流和性能優(yōu)化。存儲包括HBMPHY，整合和性能。網(wǎng)絡(luò)IO包括架構(gòu)實現(xiàn)，Chiplets軟硬一體化解決方案。封裝包括2.5D/3D封裝，硅光架構(gòu)和實現(xiàn)，垂直整合等。其中SerDes、基于AI優(yōu)化NICs、高端封裝、交換機(jī)、CPO、內(nèi)存等IP處于行業(yè)領(lǐng)先水平。博通在相關(guān)領(lǐng)域投入了30億美元研發(fā)費用。博通充分利用已經(jīng)布局完成的XPU平臺工程，實現(xiàn)了業(yè)界最快的ASIC產(chǎn)品落地時間。XPU平臺涵蓋了經(jīng)過10年XPU經(jīng)驗優(yōu)化的AI設(shè)計流程、AIIP、SoC封裝等一體化解決方案。ASIC產(chǎn)品設(shè)計階段耗費7-9個月的聯(lián)合開發(fā)時間，再用3個月左右的時間完成產(chǎn)品的生產(chǎn)和產(chǎn)能爬坡。博通與客戶在架構(gòu)階段就展開了深度的戰(zhàn)略合作。在XPU設(shè)計啟動的前幾年，完成了關(guān)鍵組件的早期IP投資；并且為后兩代XPU同時進(jìn)行技術(shù)、IP和封裝投資。行業(yè)|深度|研究報告隨著算力性能增長、網(wǎng)絡(luò)和內(nèi)存帶寬提升、對電力輸送、熱完整度、機(jī)械可靠性等要求的升級，XPU的復(fù)雜度在加深。博通積極響應(yīng)了客戶對更復(fù)雜的XPU的需求。博通與多家大客戶一起聯(lián)合開發(fā)了十幾款XPU產(chǎn)品。三家大客戶推出多代路線圖。下一代3nmXPU有望在2025年下半年批量出貨，大幅增長。目前有三家超大規(guī)模客戶，已經(jīng)開發(fā)多代AIXPU路線圖，將在未來三年內(nèi)以不同的速度部署。到2027年，三個客戶都計劃在單個結(jié)構(gòu)中部署100萬個XPU集群。博通2019-2023財年收入年復(fù)合增速11.4%。2024年公司收購的Vmware并表后，2024財年實現(xiàn)收入515.7億美元，同比增長44%。博通Non-GAAP凈利率從2019財年的41.8%提升至2023財年的51.3%。得益于利潤率的提升，博通2019-2023財年Non-GAAP凈利潤年復(fù)合增速達(dá)14.4%。2024財年Non-GAAP凈利潤達(dá)到237.3億美元，同比增長29%。23/3424/34行業(yè)|深度|研究報告半導(dǎo)體解決方案是公司的最大業(yè)務(wù)，2023財年占據(jù)公司整體收入的78.7%；利潤率從2019財年的50%提升至2023年的58.5%。2024財年公司半導(dǎo)體業(yè)務(wù)收入301億美元，同比增長6.8%。公司的基礎(chǔ)設(shè)施軟件業(yè)務(wù)占比不低于20%。其中，Vmware在2024年并表后顯著推高了該業(yè)務(wù)板塊的規(guī)模體量。Marvell的AI業(yè)務(wù)2023財年為2億美元左右。公司預(yù)計24-26財年加速AI業(yè)務(wù)（連接+定制化計算）收入從5.5億提升至25億美元。Marvell的數(shù)據(jù)中心業(yè)務(wù)TAM：根據(jù)Marvell預(yù)測，2023-2028年其數(shù)據(jù)中心業(yè)務(wù)TAM從210億美元增長至750億美元，CAGR為29%；其中，定制化加速計算TAM從66億美元增長至429億美元，CAGR為45%；交換機(jī)TAM從61億美元增長至120億美元，CAGR為15%；互聯(lián)TAM從43億美元增長至139億美元，CAGR為27%；存儲市場從42億美元增長至59億美元，CAGR為7%。Marvell數(shù)據(jù)中心業(yè)務(wù)23年市占率10%，公司長期市占率目標(biāo)為20%，即業(yè)務(wù)規(guī)模150億美元，相當(dāng)于23-28年CAGR高達(dá)46.6%。Marvell的加速計算基礎(chǔ)設(shè)施平臺涵蓋了“工藝制程-IP-封裝-專家”的布局。25/34行業(yè)|深度|研究報告 Marvell經(jīng)過多年對完整定制平臺的收購和重大投資，儲備了一大批世界級的IP，覆蓋模擬、數(shù)字、封裝等多個層面的知識產(chǎn)權(quán)。其中，Cavium擅長網(wǎng)絡(luò)加速計算，AveraSemi（原格芯子公司）擅長為各種應(yīng)用提供定制芯片解決方案和2.5D/3D封裝技術(shù)，Aquantia擅長網(wǎng)絡(luò)傳輸，Inphi擅長模擬、硅光和DSP技術(shù)，Innovium擅長數(shù)據(jù)中心交換機(jī)芯片技術(shù)（競品為博通的Trident和Tomahawk芯片）。Marvell的定制計算產(chǎn)品包括AI加速芯片，針對安全、NIC/DPU、ARM計算、存儲、視頻和CXL功能的ASIC等。Marvell的客戶涵蓋美國3/4的大型CSP。Marvell為亞馬遜設(shè)計的AI訓(xùn)練加速器Trainium2已批量出貨。B客戶的ARMCPU正處于產(chǎn)能爬坡階段。新介入的C客戶其AI加速器將于2026年產(chǎn)能爬坡。Marvell2021-2024財年收入年復(fù)合增速19.5%。2025財年隨著經(jīng)營改善，預(yù)計2025前三財季收入逐季改善（同比增速依次為-12.2%、-5%、6.9%）；FY2025Q3單季度收入15.2億美元，同比增長6.9%，增速重新轉(zhuǎn)正。Marvell2021-2024財年Non-GAAP凈利潤年復(fù)合增速達(dá)31%。2025前三財季Non-GAAP凈利潤為8.5億美元，Non-GAAP凈利率從17.8%提升至24.6%。26/34行業(yè)|深度|研究報告數(shù)據(jù)中心是公司的最大業(yè)務(wù)，2021-2024財年復(fù)合增速28%，高于整體收入增速。受益于AI對光學(xué)等產(chǎn)品的需求推動，最近兩個財年數(shù)據(jù)中心業(yè)務(wù)占據(jù)整體收入比重超40%。其他業(yè)務(wù)中，企業(yè)網(wǎng)絡(luò)收入2021-2024財年復(fù)合增速21.2%，2024財年占收入比重22%左右；基礎(chǔ)設(shè)施收入2021-2024財年復(fù)合增速23.2%，2024財年占收入比重19%左右；消費業(yè)務(wù)2024財年占收入比重11%左右；工業(yè)和汽車業(yè)務(wù)2021-2024財年復(fù)合增速44%，2024財年占收入比重7%左右。寒武紀(jì)是AI芯片領(lǐng)域的獨角獸。公司成立于2016年3月15日，專注于人工智能芯片產(chǎn)品的研發(fā)與技術(shù)創(chuàng)新，產(chǎn)品廣泛應(yīng)用于消費電子、數(shù)據(jù)中心、云計算等諸多場景。公司是AI芯片領(lǐng)域的獨角獸：采用公司終端智能處理器IP的終端設(shè)備已出貨過億臺；云端智能芯片及加速卡也已應(yīng)用到國內(nèi)主流服務(wù)器廠商的產(chǎn)品中，并已實現(xiàn)量產(chǎn)出貨；邊緣智能芯片及加速卡的發(fā)布標(biāo)志著公司已形成全面覆蓋云端、邊緣端和終端場景的系列化智能芯片產(chǎn)品布局。公司面向云端、邊緣端、終端推出了三個系列不同品類的通用型智能芯片與處理器產(chǎn)品，分別為終端智能處理器IP、云端智能芯片及加速卡、邊緣智能芯片及加速卡，其中云端智能芯片主要是為云端人工智能處理提供強(qiáng)大的計算能力支撐；云端智能加速卡是基于云端智能芯片，增加外圍電路模塊形成的卡板產(chǎn)品，通過主機(jī)的附加接口接入系統(tǒng)。27/34行業(yè)|深度|研究報告寒武紀(jì)云端推理主要包含8個產(chǎn)品，目前迭代至MLU370系列，最大峰值算力高達(dá)256TOPS（INT8）。寒武紀(jì)推理芯片包括MLU100、MLU270、MLU370和玄思1001等4個系列共8個產(chǎn)品，其中2022年推出的MLU370系列基于雙芯片四芯粒思元370打造。思元370芯片采用7nm制程工藝，是寒武紀(jì)首顆采用chiplet芯片技術(shù)的AI芯片，也是國內(nèi)第一款公開發(fā)布支持LPDDR5內(nèi)存的云端AI芯片；公司還基于4張MLU370-X8產(chǎn)品集成了玄思1001智能加速器，以在生物信息、醫(yī)療影像、語言模型等行業(yè)及可沿長江廣泛應(yīng)用。370系列在高密度云端推理領(lǐng)域具有明顯優(yōu)勢。MLU370-X8提供256TOPS（INT8）的峰值算力，高于英偉達(dá)L20。同國內(nèi)云端推理芯片相比，在150W功耗推理卡中，MLU370-X4峰值算力和昆侖芯28/34行業(yè)|深度|研究報告 R200和燧原I20一致，同為256TOPS（INT8）。在高密度云端推理領(lǐng)域，MLU370-S4的能耗比高達(dá)2.56，具有顯著優(yōu)勢。全面研發(fā)優(yōu)化推理軟件平臺模型性能、大模型和AIGC推理業(yè)務(wù)支持、推理性能優(yōu)化三個方面，助力客戶降本增效。模型性能優(yōu)化方面，寒武紀(jì)針對語音合成、搜索推薦和視覺處理中高頻使用網(wǎng)絡(luò)進(jìn)行了優(yōu)化，目前達(dá)到了可落地要求；大模型和AIGC推理業(yè)務(wù)支持方面，寒武紀(jì)研發(fā)大語言模型分布式推理加速庫BangTransformer，進(jìn)行了LLaMA、GLM、BLOOM、GPT-2等主流生成式大語言模型的適配工作；在推理性能優(yōu)化方面，BangTransformer支持算子融合、張量并行、量化推理、FlashAttention等優(yōu)化特性，用于輔助圖像生成的MagicMind是業(yè)界首個基于MLIR圖編譯技術(shù)達(dá)到商業(yè)化部署能力的推理引擎，在功能、性能、兼容性上都有良好表現(xiàn)，同時基于MagicMind到PyTorch的集成，客戶無需代碼遷移也能夠享受MagicMind帶來的性能加速，同時，MagicMind新增了多款云、邊、端、車硬件平臺支持，并完善了SampleCode、BestPractice等用戶文檔，進(jìn)一步提高了用戶使用體驗。推理軟件平臺三個維度的研發(fā)優(yōu)化，大幅提升了推理業(yè)務(wù)運行效率，助力客戶降本增效。29/34行業(yè)|深度|研究報告華為昇騰（HUAWEIAscend）系列芯片是基于華為自主研發(fā)的達(dá)芬奇架構(gòu)設(shè)計的AI芯片，包括訓(xùn)練和推理芯片，其參數(shù)及表現(xiàn)在國內(nèi)處于領(lǐng)先水平，并衍生出獨特的昇騰計算產(chǎn)業(yè)。昇騰系列芯片主要由華為全資子公司深圳市海思半導(dǎo)體有限公司研發(fā)，該子公司成立于2004年，除昇騰外還擁有麒麟、巴龍、鯤鵬等自研芯片系列，研發(fā)實力強(qiáng)大。“軟硬件+全生態(tài)”打造面向“端、邊、云”的全場景AI基礎(chǔ)設(shè)施。昇騰計算產(chǎn)業(yè)是基于昇騰系列處理器和基礎(chǔ)軟件構(gòu)建的全棧AI計算基礎(chǔ)設(shè)施、行業(yè)應(yīng)用及服務(wù)，包括昇騰系列處理器、系列硬件、CANN（ComputeArchitectureforNeuralNetworks，異構(gòu)計算架構(gòu)）、AI計算框架、應(yīng)用使能、開發(fā)工具鏈、管理運維工具、行業(yè)應(yīng)用及服務(wù)等全產(chǎn)業(yè)鏈。其中，以芯片為主的全硬件體系是實現(xiàn)AI訓(xùn)推的底層支撐，以自研計算架構(gòu)為主的軟件體系是吸引開發(fā)者的活力之源，以應(yīng)用軟件為主的產(chǎn)業(yè)生態(tài)是面向未來發(fā)展的不竭動力。昇騰硬件體系是實現(xiàn)AI訓(xùn)推的算力基礎(chǔ)和底層支撐。昇騰堅持“硬件開放”策略，為客戶提供自有硬件和伙伴硬件的多樣化算力選擇。1）自有硬件為昇騰系列處理器以及基于昇騰處理器和業(yè)界主流異構(gòu)計算部件的昇騰Atlas系列硬件產(chǎn)品。昇騰系列處理器主要包括昇騰310、昇騰910、昇騰910B等，昇騰Atlas系列硬件產(chǎn)品包括各類模組板卡、小站、服務(wù)器、集群等豐富的產(chǎn)品形態(tài)。昇騰自有硬件體系旨在打造面向“云、邊、端”的全場景AI基礎(chǔ)設(shè)施方案，可廣泛用于“平安城市智能交通、智能醫(yī)療、智能零售、智能金融”等領(lǐng)域。2）伙伴硬件指華為開放自有硬件，合作伙伴可進(jìn)行集成和二次開發(fā)，或者通過OEM/ODM方式開發(fā)自有品牌的服務(wù)器整機(jī)。昇騰系列處理器是硬件體系的核心。昇騰處理器專為AI計算設(shè)計，擁有自研達(dá)芬奇架構(gòu)的，能夠覆蓋端邊云全場景，滿足不同部署環(huán)境差異性的算力需求。華為于2018年10月的華為全聯(lián)接大會上首次闡述了華為AI戰(zhàn)略，并公布了昇騰910和昇騰310兩款A(yù)I芯片，其中昇騰310是一款最大功耗僅8W的行業(yè)|深度|研究報告極致高效計算低功耗AI芯片，2018年商用量產(chǎn)，可用于推理端；昇騰910在2019年8月正式商用，用于訓(xùn)練端。昇騰910首次采用達(dá)芬奇架構(gòu)，基于7nm增強(qiáng)版EUV工藝，集成32個立方體計算引擎，半精度（FP16）算力達(dá)320TFLOPs，相比英偉達(dá)當(dāng)時的V100SXM的125TFLOPS高一倍以上。2023年9月，華為在受美國制裁三年后發(fā)布昇騰910B，其性能取得重大突破，單精度算力大幅提升，表明華為出色的芯片自研能力與昇騰AI處理器未來極高的增長空間。自研達(dá)芬奇架構(gòu)大幅提升AI算力。昇騰系列AI處理器創(chuàng)新使用達(dá)芬奇架構(gòu)，是華為自研的面向AI計算特征的全新計算架構(gòu)，具備高算力、高能效、靈活可裁剪的特性?；谶_(dá)芬奇架構(gòu)的AI核內(nèi)含3DCube、Vector向量計算單元、Scalar標(biāo)量計算單元等，共同保障AI計算的高效處理。在神經(jīng)網(wǎng)絡(luò)模型中99%的計算都需要用到矩陣乘法運算，這部分運算是AI計算的核心，在達(dá)芬奇架構(gòu)中由

人人文庫> 全部分類> 應(yīng)用文書 > 研究報告

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

ASIC行業(yè)深度：市場前景、規(guī)模預(yù)測、云廠商布局及相關(guān)公司深度梳理2024

文檔簡介

溫馨提示

最新文檔

評論

ASIC行業(yè)深度：市場前景、規(guī)模預(yù)測、云廠商布局及相關(guān)公司深度梳理2024

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

ASIC行業(yè)深度：市場前景、規(guī)模預(yù)測、云廠商布局及相關(guān)公司深度梳理2024