通信-AI深度洞察系列報(bào)告(三):Scale up與Scale out組網(wǎng)變化趨勢(shì)如何看_第1頁(yè)
通信-AI深度洞察系列報(bào)告(三):Scale up與Scale out組網(wǎng)變化趨勢(shì)如何看_第2頁(yè)
通信-AI深度洞察系列報(bào)告(三):Scale up與Scale out組網(wǎng)變化趨勢(shì)如何看_第3頁(yè)
通信-AI深度洞察系列報(bào)告(三):Scale up與Scale out組網(wǎng)變化趨勢(shì)如何看_第4頁(yè)
通信-AI深度洞察系列報(bào)告(三):Scale up與Scale out組網(wǎng)變化趨勢(shì)如何看_第5頁(yè)
已閱讀5頁(yè),還剩43頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

tittit重點(diǎn)公司相關(guān)報(bào)告l本篇報(bào)告是AI洞察系列深度第三篇,研究視角聚焦在組網(wǎng)結(jié)構(gòu),更多從集群組網(wǎng)變化來(lái)分析硬件架構(gòu)的技術(shù)演進(jìn)趨勢(shì)以及對(duì)算力產(chǎn)業(yè)鏈投資機(jī)會(huì)影響。lAI組網(wǎng)走向更大規(guī)模集群,單節(jié)點(diǎn)和節(jié)點(diǎn)間網(wǎng)絡(luò)性能要求持續(xù)提升。AI網(wǎng)絡(luò)由服務(wù)器—交換機(jī)——光/銅連接硬件構(gòu)成,ScalingLaws驅(qū)動(dòng)算力集群規(guī)模在網(wǎng)絡(luò)整體規(guī)模上追求更大承載力,即Scaleout,成為確定性趨勢(shì)。lScaleup:滿(mǎn)足分布式訓(xùn)練通信要求,提升節(jié)點(diǎn)帶寬,帶動(dòng)節(jié)點(diǎn)內(nèi)部互聯(lián)需求提升。大模型訓(xùn)練主要采用分布式訓(xùn)練架構(gòu),對(duì)應(yīng)張量并行、流水線并行及數(shù)據(jù)并行的混合并行策略,其中張量并行對(duì)通信的要求最高,常常發(fā)生在服務(wù)器(超節(jié)點(diǎn))內(nèi)部,做大超節(jié)點(diǎn)規(guī)模,內(nèi)部互聯(lián)帶寬提升優(yōu)先級(jí)更高,升級(jí)壓力更大。英偉達(dá)目前通過(guò)GB200形態(tài)+NVLINK協(xié)議進(jìn)行超節(jié)點(diǎn)規(guī)模迭代并采用銅互連方案,推動(dòng)銅互聯(lián)新市場(chǎng)需求爆發(fā)。短期銅有望主導(dǎo)Scaleup互連,長(zhǎng)期來(lái)看伴隨帶寬升級(jí),銅互連傳輸距離限制或推動(dòng)光互聯(lián)方案替代。lScaleout:做大AI集群規(guī)模,l1)交換機(jī)環(huán)節(jié):?jiǎn)慰ㄈ萘可?jí),模塊化設(shè)計(jì)增加交換機(jī)端口數(shù),快速提升網(wǎng)絡(luò)承載能力。單交換機(jī)芯片容量升級(jí)加快(當(dāng)前主流方案為51.2T,博通預(yù)計(jì)下一代102.4T容量交換芯片有望在2025年發(fā)布),為滿(mǎn)足更快速的帶寬提升要求,交換機(jī)廠商開(kāi)始布局模塊化方案,通過(guò)提高交換機(jī)端口數(shù)來(lái)快速滿(mǎn)足組網(wǎng)需要,有望提升交換機(jī)的價(jià)值量。l2)光模塊環(huán)節(jié):總需求高增長(zhǎng),硅光有望加速??傂枨笤鲩L(zhǎng)仍跟AI算力增長(zhǎng)成正比關(guān)系,產(chǎn)品快速迭代鞏固當(dāng)前競(jìng)爭(zhēng)格局;在技術(shù)迭代上,硅光有望在國(guó)內(nèi)光模塊龍頭推動(dòng)下,大幅提升1.6T階段滲透率,并有望逐步推動(dòng)CPO形態(tài)產(chǎn)品的量產(chǎn)。l投資建議:ScalingLaws驅(qū)動(dòng)AI算力集群規(guī)模快速提升,超節(jié)點(diǎn)內(nèi)部帶寬升級(jí)優(yōu)先級(jí)更高,機(jī)柜內(nèi)部硬件核心受益,節(jié)點(diǎn)間互聯(lián)帶寬亦快速增長(zhǎng),交換機(jī)模塊化,光模塊硅光滲透率提升趨勢(shì)確定。光模塊、銅互連、以太網(wǎng)交換機(jī)核心受益。重點(diǎn)推薦:新易盛、中際旭創(chuàng)、天孚通信、鼎通科技等;建議關(guān)注:光迅科技、華工科技、盛科通信、紫光股份、銳捷網(wǎng)絡(luò)、源杰科技等。l風(fēng)險(xiǎn)提示:以太網(wǎng)交換機(jī)在AI市場(chǎng)進(jìn)展不及預(yù)期,AI應(yīng)用進(jìn)度不及預(yù)期,競(jìng)爭(zhēng)加劇。行業(yè)深度研究報(bào)告1、Scaleup:帶寬升級(jí)壓力更大,銅連接等核心受益 1.1、超節(jié)點(diǎn)內(nèi)部:ScaleUp帶動(dòng)帶寬持續(xù)提升 1.2、超節(jié)點(diǎn)規(guī)模:由GPU或者云廠商設(shè)計(jì)決定 1.3、帶寬提升驅(qū)動(dòng)內(nèi)部互聯(lián)密度提升 2、Scaleout:集群規(guī)模升級(jí),以太網(wǎng)和硅光化加速 2.1、AI集群規(guī)模走向10萬(wàn)卡階段 2.2、以太網(wǎng)組網(wǎng)落地加速 2.3、博通和英偉達(dá)方案提供互聯(lián)技術(shù)基礎(chǔ) 2.4、交換機(jī)模塊化,推動(dòng)Scaleout規(guī)模提升 2.5、光模塊:總需求保持向上,硅光是趨勢(shì) 3、投資邏輯及標(biāo)的推薦 4、風(fēng)險(xiǎn)提示 -4-圖2、AI大模型依賴(lài)分布式并行訓(xùn)練架構(gòu) 圖3、分布式訓(xùn)練中的并行策略 圖4、大模型混合并行舉例 圖5、英偉達(dá)GH200超節(jié)點(diǎn)互聯(lián) 圖6、谷歌跨pod的Multislice技術(shù) 圖7、超節(jié)點(diǎn)規(guī)模擴(kuò)大可以降低DCN帶寬 圖8、UALink推動(dòng)集群實(shí)現(xiàn)scaleup 圖9、英偉達(dá)NVL72采用銅互連形式 圖10、英偉達(dá)NVLINK協(xié)議支持帶寬不斷提升 圖11、模型規(guī)模越大,大模型性能越好 圖12、AI集群規(guī)模不斷擴(kuò)大 圖13、基于博通方案搭建的以太網(wǎng)集群 圖14、Meta的32KGPU訓(xùn)練集群 圖15、博通以太網(wǎng)交換芯片不斷升級(jí) 圖16、博通此前AI相關(guān)收入指引 圖17、英偉達(dá)拆分網(wǎng)絡(luò)部分收入 圖18、英偉達(dá)以太網(wǎng)交換機(jī)迭代規(guī)劃 圖22、AI軍備競(jìng)賽下全球算力增長(zhǎng)顯著 圖24、硅光有望帶動(dòng)光模塊更大規(guī)模量產(chǎn) 圖25、硅光技術(shù)迭代路線 圖26、2022-2028硅光子PIC市場(chǎng)規(guī)模及預(yù)測(cè) 表1、OIF對(duì)于銅連接標(biāo)準(zhǔn)(距離不斷縮短) 表2、交換機(jī)及光模塊產(chǎn)業(yè)鏈?zhǔn)芤鏄?biāo)的 報(bào)告正文超節(jié)點(diǎn)指的是多個(gè)GPU互聯(lián)的節(jié)點(diǎn),例如英偉達(dá)的DGXPOD。在云計(jì)算階段,服務(wù)器主要為CPU服務(wù)器,每臺(tái)服務(wù)器配置1-2顆CPU芯片,單服務(wù)器配置幾乎沒(méi)有發(fā)生過(guò)變化。AI時(shí)代,AI大模型的訓(xùn)練需要更大規(guī)模的并行計(jì)算,單顆GPU無(wú)法滿(mǎn)足模型訓(xùn)練或者推理需求,因此不僅單服務(wù)器內(nèi)部部署GPU數(shù)量提升至4顆、8顆甚至更多,并通過(guò)ScaleUp的方式實(shí)現(xiàn)更多GPU互聯(lián),最終對(duì)這樣一個(gè)靠ScaleUp方式互聯(lián)的形態(tài)定義為一個(gè)超節(jié)點(diǎn)。以英偉達(dá)為例,超節(jié)點(diǎn)定義為DGXPod,A和H普通系列每臺(tái)服務(wù)器內(nèi)部配有8顆GPU芯片,到B系列,該節(jié)點(diǎn)下單臺(tái)服務(wù)GPU規(guī)模從8顆升至最多72顆,ScaleUp互聯(lián)的極限則升至576顆GPU。圖1、英偉達(dá)H100示意圖(內(nèi)部)AI訓(xùn)練模型特質(zhì)決定ScaleUP內(nèi)部帶寬要求更高。隨著AI模型規(guī)模不斷增加,在訓(xùn)練角度上,單GPU顯存很難滿(mǎn)足模型需求,同時(shí)隨著訓(xùn)練量提升,本身對(duì)于GPU的總數(shù)需求也需要快速提升,因此大規(guī)模分布式并行訓(xùn)練成為更好的選擇。圖2、AI大模型依賴(lài)分布式并行訓(xùn)練架構(gòu)分布式訓(xùn)練常見(jiàn)有三種策略,分別是數(shù)據(jù)并行(DataParallelism,DP)、流水線并行(PipelineParallelism,PP)和張量并行(TensorParallelism,TP),大模型訓(xùn)練時(shí),會(huì)混合采用三種并行策略。1)數(shù)據(jù)并行:每個(gè)GPU擁有同樣的模型副本,數(shù)據(jù)集拆分成多份給到不同的GPU進(jìn)行訓(xùn)練,每一次迭代訓(xùn)練完成,各個(gè)GPU需要把計(jì)算得到的梯度進(jìn)行全局同步,并計(jì)算出下一輪迭代需要用到的參數(shù)。數(shù)據(jù)并行中,網(wǎng)絡(luò)上需要對(duì)各個(gè)GPU的梯度做一次AllReduce(AllReduce是一種特殊的通信協(xié)議,要將所有節(jié)點(diǎn)上的數(shù)據(jù)進(jìn)行規(guī)約操作,并將結(jié)果返回到根節(jié)點(diǎn),通過(guò)AllReduce算法,可以實(shí)現(xiàn)節(jié)點(diǎn)間的數(shù)據(jù)同步,從而加速模型的收斂速度)。2)流水線并行:將模型按照神經(jīng)元的層次進(jìn)行拆分,不同層放在不同的GPU上,這種并行不需要不同GPU之間做層間點(diǎn)到點(diǎn)數(shù)據(jù)傳遞,只是傳輸正向計(jì)算的激活值和反向計(jì)算的梯度值,這種通信量較小,對(duì)網(wǎng)絡(luò)性能要求較低。3)張量并行:聯(lián)合多個(gè)GPU同時(shí)做張量計(jì)算,這種策略需要多個(gè)GPU對(duì)局部的張量計(jì)算結(jié)果做全局的AllReduce同步。張量并行通常計(jì)算規(guī)模較大且在一次迭代里會(huì)發(fā)生多次AllReduce,因此張量計(jì)算對(duì)網(wǎng)絡(luò)帶寬需求最大。圖3、分布式訓(xùn)練中的并行策略實(shí)際訓(xùn)練過(guò)程,機(jī)柜內(nèi)部進(jìn)行張量并行,如果采用英偉達(dá)GPU方帶寬,機(jī)柜間進(jìn)行流水線并行,同時(shí)為了加速模型訓(xùn)練,加入數(shù)據(jù)并行,一般來(lái)說(shuō)一個(gè)數(shù)據(jù)并行單元成為一個(gè)DP組,每個(gè)DP組內(nèi)張量并行和流水線并行共存。以百度智能云提供的案例為例,如果存在8路張量并行,4路流水線并行,以及3路數(shù)據(jù)并行,則每次迭代,張量并行需要100GB級(jí)別的AllReduce,流水線并行需要100MB級(jí)別的點(diǎn)到點(diǎn)傳輸,數(shù)據(jù)并行需要10GB級(jí)別AllReduce。因此對(duì)于帶寬的需求更多停留在服務(wù)器內(nèi)部,服務(wù)器之外的帶寬需求相對(duì)較低。隨著模型的規(guī)模不斷增加,對(duì)于服務(wù)器內(nèi)帶寬的需求會(huì)呈現(xiàn)快速提升,為了適應(yīng)更大的模型訓(xùn)練,建立更大帶寬的超節(jié)點(diǎn)成為趨勢(shì)。圖4、大模型混合并行舉例66(一)英偉達(dá):超節(jié)點(diǎn)規(guī)模從GH200的256升級(jí)至576張卡2024年3月英偉達(dá)發(fā)布了發(fā)布新一代AI超級(jí)計(jì)算機(jī)——搭載NVIDIAGB200GraceBlackwell超級(jí)芯片的NVIDIADGXSuperPOD。和之前的8卡方案不同,每個(gè)DGXGB200系統(tǒng)共包含36個(gè)CPU和72個(gè)GPU。如果完全采用NVLINK互聯(lián)生成超級(jí)點(diǎn),在GH200階段,互聯(lián)的上限是256張卡,到GB200部分,可升級(jí)到576張卡。內(nèi)部互聯(lián)的帶寬部分,單卡擁有18個(gè)NVLink100GB/s連接,總帶寬可達(dá)1.8TB/s,相較于H系列,帶寬翻倍,若采用NVL72版本,互聯(lián)總帶寬可達(dá)到130TB/s。圖5、英偉達(dá)GH200超節(jié)點(diǎn)互聯(lián)(二)谷歌:超結(jié)點(diǎn)規(guī)模為8096張卡2023年1月谷歌發(fā)表了文章《HowtoscaleAItrainingtouptotensofthousandsofCloudTPUchipswithMultislice》,此前大模型訓(xùn)練如果采用谷歌TPU的方案,只能局限在單個(gè)切片中,該報(bào)告提出Multislice技術(shù),可通過(guò)芯片間互聯(lián)及多個(gè)TPUpod互聯(lián),使得將訓(xùn)練集群工作擴(kuò)展到萬(wàn)顆芯片以上互聯(lián)規(guī)模。圖6、谷歌跨pod的Multislice技術(shù)在該文中谷歌提出觀點(diǎn)為:通過(guò)做大超節(jié)點(diǎn)Pod的規(guī)模,可降低對(duì)于DCN互聯(lián)帶寬的要求。具體表現(xiàn)為:如果我們?cè)黾觩od內(nèi)部算力卡個(gè)數(shù),對(duì)于pod之間DCN帶寬就可以降低,同樣可以達(dá)到理想的訓(xùn)練效果,并不會(huì)受制于通信帶寬迭代的限制。(本質(zhì)原因在于如果將TP留在超節(jié)點(diǎn)內(nèi)部完成,PP和DP本身對(duì)通信要求較低,通過(guò)機(jī)柜外互聯(lián)帶寬完成,對(duì)應(yīng)DCN帶寬要求也可以降低)關(guān)于Pod規(guī)模:TPUv4p為4096顆,,TPUv5p為8960顆。圖7、超節(jié)點(diǎn)規(guī)模擴(kuò)大可以降低DCN帶寬(三)UALink:1.0階段超節(jié)點(diǎn)規(guī)模為10242024年5月AMD、英特爾、谷歌、微軟、博通、思科、Meta和惠普企業(yè)等八家AcceleratorLink(UALink),對(duì)標(biāo)英偉達(dá)的NVLINK。UALink聯(lián)盟預(yù)計(jì)會(huì)在2024年第三季度成立,并提供UALink1.0規(guī)范給加入到聯(lián)盟內(nèi)的公司。UALink1.0規(guī)范支持連接多達(dá)1024個(gè)AI芯片,并允許在一個(gè)計(jì)算集群(Pod)內(nèi),讓接入的GPU等加速器附帶的內(nèi)存之間實(shí)現(xiàn)直接加載和存儲(chǔ)。圖8、UALink推動(dòng)集群實(shí)現(xiàn)scaleup結(jié)合上述分析,Scaleup后續(xù)升級(jí)的趨勢(shì)為做大超節(jié)點(diǎn)規(guī)模,其中谷歌采用TPU為定制化方案,當(dāng)前市場(chǎng)仍是使用英偉達(dá)方案為為主流。英偉達(dá)的方案是通過(guò)NVLGB200方案設(shè)計(jì),疊加使用NVLINK協(xié)議,明顯提升機(jī)柜內(nèi)部互聯(lián)帶寬提升,并采用銅互聯(lián)方式,打開(kāi)銅互連市場(chǎng)需求。英偉達(dá)基于GB200的NVL72架構(gòu)為:?jiǎn)螜C(jī)柜互聯(lián)72顆72GPU,其中l(wèi)18個(gè)計(jì)算托盤(pán),每個(gè)托盤(pán)內(nèi)部2個(gè)GB200,單個(gè)GB200擁有2顆GPUl9個(gè)交換托盤(pán),每個(gè)托盤(pán)內(nèi)部2個(gè)NVSWITCH交換芯片l采用NVLINK協(xié)議完成72顆GPU互聯(lián),NVLINK協(xié)議帶寬升級(jí)到5.0,交換帶寬為14.4TB/s,采用合計(jì)約5000根銅纜連接。圖9、英偉達(dá)NVL72采用銅互連形式展望:英偉達(dá)公布下一代Rubin系列規(guī)劃,NVLINK帶寬持續(xù)升級(jí),推動(dòng)銅互連帶寬升級(jí)。目前英偉達(dá)公布將在2026年推出第一代Rubin產(chǎn)品,2027年將推出RubinUltra。Rubin平臺(tái)將搭載新一代NVLink6Switch,提供高達(dá)3600GB/s的連接速度,以及高達(dá)1600GB/s的CX9SuperNIC組件,確保數(shù)據(jù)傳輸?shù)母咝?。如果在Rubin系列,英偉達(dá)繼續(xù)采用類(lèi)似機(jī)柜方案設(shè)計(jì)擴(kuò)大節(jié)點(diǎn)內(nèi)帶寬,NVLINK6.0支持柜內(nèi)帶寬翻倍提升,有望銅互帶寬和互聯(lián)密度提升。圖10、英偉達(dá)NVLINK協(xié)議支持帶寬不斷提升長(zhǎng)期視角:長(zhǎng)期來(lái)看伴隨帶寬升級(jí),銅互聯(lián)傳輸距離限制或推動(dòng)光互聯(lián)方案替代。銅纜在傳輸電信號(hào)過(guò)程中存在信號(hào)衰減問(wèn)題,且傳輸距離越遠(yuǎn)損耗越大,因此銅纜能實(shí)現(xiàn)穩(wěn)定傳輸?shù)木嚯x較短。此外隨著網(wǎng)絡(luò)帶寬升級(jí),銅纜傳輸?shù)膯捂溌沸盘?hào)速率也從56Gbps升級(jí)到112Gbps,并繼續(xù)向224Gbps方向升級(jí),而信號(hào)速率的升行業(yè)深度研究報(bào)告級(jí)將直接導(dǎo)致鏈路損耗加速增加,從而進(jìn)一步縮短銅纜連接距離?;诂F(xiàn)實(shí)的物理限制條件,IEEE制定112G規(guī)范的802.3CK小組在56G速率最長(zhǎng)3米的銅纜IO基礎(chǔ)上,將銅纜鏈路的最大長(zhǎng)度縮減為2米。如果不做任何更改,2米的距離可能不足以將未來(lái)架頂式(TOR)交換機(jī)與機(jī)柜內(nèi)部較低位置服務(wù)器連接起來(lái)。因此在當(dāng)下112G甚至224G信號(hào)速率階段,通過(guò)更改交換機(jī)位置,緊湊服務(wù)器結(jié)構(gòu)設(shè)計(jì)減少對(duì)于銅纜距離的要求,同時(shí)設(shè)計(jì)上將銅纜從無(wú)源銅纜DAC向有源銅纜(AEC、ACC)變化增加銅纜互聯(lián)距離適應(yīng)當(dāng)下需求。但考慮到本身銅纜的物理限制,以及后續(xù)帶寬持續(xù)升級(jí)的背景下,銅纜做優(yōu)化的難度會(huì)持續(xù)增加,在此背景下,光互聯(lián)(高帶寬高速率長(zhǎng)傳輸距離優(yōu)勢(shì))有望替代銅互聯(lián)方案。表1、OIF對(duì)于銅連接標(biāo)準(zhǔn)(距離不斷縮短)OIFCEIprojectsCEI-25G-LRCEI-56G-LRCEI-112G-LRCEI-224G-LRTimline2011-20142014-20182018-20222022-2024Ethernetrate50/100/200G100/200/400G200/400/800/1600GSwitchcapacity3.2T25T/50T50T/100TPer-lanedatarate25Gbps56Gbps112Gbps224GbpsModulationNRZPAM4PAM4TBDReachobjective5mcoppercable3mcoppercable2mcoppercable1mcoppercableSerDesarchitectureAnalogAnalog/DSPAnalog/DSPTBDScalingLaws法則驅(qū)動(dòng)大模型硬件部署走向更大集群。ScalingLaws(縮放法則主要用于探索在大模型訓(xùn)練過(guò)程中,模型參數(shù)量、數(shù)據(jù)集和計(jì)算量之間規(guī)律,最早由OpenAI在2020年提出。ScalingLaws的出現(xiàn)為當(dāng)下AI大模型的訓(xùn)練提供了重要指導(dǎo)。對(duì)于基于transformer的大模型而言,在訓(xùn)練過(guò)程中存在以下重要結(jié)論——ScalingLaws:1)模型規(guī)模要大:即增加模型參數(shù)量、數(shù)據(jù)集和計(jì)算量,就可以得到性能更優(yōu)的模型效果。2)模型參數(shù)量、數(shù)據(jù)集以及計(jì)算量之間存在冪律關(guān)系,可以通過(guò)建模擬合參數(shù),在較小的模型投入情況下,對(duì)實(shí)際要訓(xùn)練的模型效果提前預(yù)測(cè),達(dá)到指導(dǎo)作3)隨著模型規(guī)模增加,模型會(huì)出現(xiàn)涌現(xiàn)特質(zhì)——未預(yù)期到的新能力,推動(dòng)模型性能提升。行業(yè)深度研究報(bào)告圖11、模型規(guī)模越大,大模型性能越好資料來(lái)源:《ScalingLawsforNeuralLanguageModels》,興業(yè)證券經(jīng)濟(jì)與金融研究院整理實(shí)際技術(shù)落地:AI網(wǎng)絡(luò)互聯(lián)規(guī)模持續(xù)擴(kuò)大,帶動(dòng)互聯(lián)規(guī)模提升。早期AI訓(xùn)練網(wǎng)絡(luò)互聯(lián)規(guī)模均在千卡左右體量,后隨著AI大語(yǔ)言模型的參數(shù)、訓(xùn)練量指數(shù)級(jí)提升,對(duì)于算力卡互聯(lián)規(guī)模的也得到持續(xù)提升。從千卡到萬(wàn)卡,目前行業(yè)已經(jīng)正在部署目前馬斯克旗下xAI平臺(tái)正在部署基于英偉達(dá)H100的10萬(wàn)卡AI大集群,再次刷新當(dāng)前AI集群規(guī)模。該10萬(wàn)卡在服務(wù)器層面由Dell和Supermicro提供。圖12、AI集群規(guī)模不斷擴(kuò)大此前大部分AI集群組網(wǎng)均采用IB協(xié)議,在以太網(wǎng)技術(shù)的推動(dòng)下,基于以太網(wǎng)的AI集群方案有望進(jìn)入加速落地階段。目前采用以太網(wǎng)組網(wǎng)的云廠商不斷增加,如亞馬遜、甲骨文、Meta以及字節(jié)跳動(dòng),且已經(jīng)落地的AI集群規(guī)模上均超過(guò)1萬(wàn)張卡。在GPU配套組網(wǎng)方案上,英偉達(dá)在2024年5月的財(cái)報(bào)電話(huà)會(huì)上也在強(qiáng)調(diào)要推動(dòng)以太網(wǎng)組網(wǎng)方案的快速落地。(一)字節(jié):Megascale實(shí)現(xiàn)萬(wàn)卡互聯(lián)2024年3月字節(jié)跳動(dòng)聯(lián)合清華大學(xué)發(fā)表論文《MegaScale:ScalingLargeLanguageModelTrainingtoMoreThan10,000GPUs》,該論文闡述了如何將大語(yǔ)言模型訓(xùn)練擴(kuò)展到1萬(wàn)卡互聯(lián)的系統(tǒng)。針對(duì)大模型訓(xùn)練的效率,通常采用模型浮點(diǎn)運(yùn)算利用率(MFU)指標(biāo)進(jìn)行衡量。在進(jìn)行大模型訓(xùn)練時(shí),通信的處理、數(shù)據(jù)預(yù)處理以及GPU內(nèi)存消耗等方面均對(duì)MFU會(huì)產(chǎn)生影響。在數(shù)據(jù)中心網(wǎng)絡(luò)部分,字節(jié)采用了博通Tomahawk4芯片構(gòu)建交換機(jī),每顆芯片交換容量為25.6Tbps,對(duì)應(yīng)64*400G端口。在組網(wǎng)拓?fù)浣Y(jié)構(gòu)上,采用無(wú)收斂三層CLOS架構(gòu),每層交換機(jī)實(shí)現(xiàn)1:1下行和上行(即每個(gè)交換機(jī)32個(gè)端口向上,32個(gè)端口向下)。該網(wǎng)絡(luò)整體較為緊湊、帶寬高,可以確保每個(gè)節(jié)點(diǎn)在極端的跳數(shù)內(nèi)和其他節(jié)點(diǎn)暢通鏈接,確保了數(shù)據(jù)高效傳輸。MegaScale實(shí)現(xiàn)了更高模型訓(xùn)練效率。經(jīng)過(guò)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)以及軟件算法等各種優(yōu)化,在12288個(gè)GPU上訓(xùn)練175BLLM模型時(shí),MegaScale實(shí)現(xiàn)了高達(dá)55.2%的MFU,相比Megatron-LM,性能提升達(dá)1.34倍。圖13、基于博通方案搭建的以太網(wǎng)集群Meta已經(jīng)建成基于以太網(wǎng)的2.4萬(wàn)GPU卡AI集群。2024年3月Meta公布了其已經(jīng)落地的兩個(gè)24KGPU集群的硬件細(xì)節(jié)。公司預(yù)計(jì)到2024年底,公司有望擁有包括35萬(wàn)張H100在內(nèi)一共等效60萬(wàn)張H100的等效算力。Meta第三代AI集群規(guī)模升至3.2萬(wàn)張卡,并采用以太網(wǎng)進(jìn)行搭建。目前Meta的第三代AI集群規(guī)模已經(jīng)升至32K規(guī)模,并繼續(xù)選擇使用以太網(wǎng)進(jìn)行搭建,在網(wǎng)絡(luò)設(shè)計(jì)上,較之前的完全無(wú)收斂有所改變。該集群一共擁有8個(gè)cluster,每個(gè)cluster內(nèi)部16張H100組成一個(gè)Rack,每個(gè)cluster內(nèi)部互聯(lián)形成252個(gè)rack,因此實(shí)現(xiàn)252*8*16=32256顆GPU互聯(lián)。在每個(gè)cluster內(nèi)部采用完全無(wú)收斂架構(gòu)進(jìn)行互聯(lián),cluster之間互聯(lián)采用7:1收斂比進(jìn)行互聯(lián),即每個(gè)cluster內(nèi)部互聯(lián)帶寬是cluster之外的7倍。圖14、Meta的32KGPU訓(xùn)練集群(一)博通:以太網(wǎng)落地加速,交換機(jī)容量不斷升級(jí)。博通在2023年發(fā)布了51.2t交換容量的芯片Tomahawk5,此前定位仍是面向傳統(tǒng)云計(jì)算市場(chǎng)帶寬升級(jí)。2023年AI進(jìn)入高速發(fā)展時(shí)代,早期網(wǎng)絡(luò)集群大部分采用英偉達(dá)的IB交換機(jī)方案,直到2024年伴隨以太網(wǎng)本身性能優(yōu)化,疊加成本優(yōu)勢(shì),其在AI市場(chǎng)逐步具備落地基礎(chǔ)。根據(jù)博通最新電話(huà)會(huì)情況,單季度網(wǎng)絡(luò)部分收入達(dá)到38億美元,主要由AI網(wǎng)絡(luò)硬件以及定制化算力芯片驅(qū)動(dòng)。在交換機(jī)層面,博通的合作對(duì)象包括Arista、Dell、Juniper以及Supermicro。在落地方面,全球正在部署的最大的8個(gè)AI集群中有7個(gè)使用的是博通以太網(wǎng)解決方案。2025年公司預(yù)計(jì)更多的大型AI集群會(huì)轉(zhuǎn)向以太網(wǎng)部署方案。關(guān)于下一代100T交換容量芯片Tomahawk6預(yù)計(jì)會(huì)在2025年稍晚時(shí)間發(fā)布。圖15、博通以太網(wǎng)交換芯片不斷升級(jí)博通再次上修AI相關(guān)收入指引。根據(jù)博通最新電話(huà)會(huì),由于公司在AI網(wǎng)絡(luò)部分、AI算力卡等環(huán)節(jié)取得的進(jìn)展,公司將AI相關(guān)收入指引上修至110億美元以上(此前AI相關(guān)收入指引為至少100億美元),同時(shí)上修公司整體營(yíng)收至510億美元。圖16、博通此前AI相關(guān)收入指引(二)英偉達(dá):強(qiáng)調(diào)以太網(wǎng)方案部署,加快迭代進(jìn)度英偉達(dá)網(wǎng)絡(luò)部分首次披露營(yíng)收規(guī)模,以太網(wǎng)進(jìn)展加速。北美時(shí)間2024年5月22日,英偉達(dá)披露了最新財(cái)報(bào),此次財(cái)報(bào),首次將網(wǎng)絡(luò)部分(networking)進(jìn)行分拆披露,數(shù)據(jù)顯示,一季度公司在網(wǎng)絡(luò)部分實(shí)現(xiàn)收入31.7億美元,以太網(wǎng)部分,Spectrum-X正在與多家客戶(hù)進(jìn)行量產(chǎn),其中包括一個(gè)10萬(wàn)GPU的大型集群。預(yù)計(jì)Spectrum-X有望將在一年內(nèi)躍升為價(jià)值數(shù)十億美元的產(chǎn)品線。圖17、英偉達(dá)拆分網(wǎng)絡(luò)部分收入在2024年6月的Computex會(huì)議的主題演講上,英偉達(dá)進(jìn)一步披露了關(guān)于以太網(wǎng)互聯(lián)的后續(xù)規(guī)劃,按照規(guī)劃,英偉達(dá)2025年會(huì)推出單芯片交換容量在51.2t的800G交換機(jī),并且有望在2026年推出單芯片交換容量在102.4t的1.6t交換機(jī),即對(duì)應(yīng)交換的迭代一年一代,且互聯(lián)的GPU規(guī)模也將持續(xù)升級(jí)(未來(lái)有望升至百萬(wàn)顆GPU互聯(lián))。圖18、英偉達(dá)以太網(wǎng)交換機(jī)迭代規(guī)劃Arista:針對(duì)AI需求,提出不同交換機(jī)互聯(lián)方案。由于帶寬和規(guī)模不同的要求,單一的交換機(jī)方案很難滿(mǎn)足所有客戶(hù)的需求,因此在客戶(hù)需求匹配上Arista提供了一系列的解決方,對(duì)應(yīng)AristaEtherlinkAIPlatforms,可提供固定和模塊化方案。Arista目前AI平臺(tái)包括三個(gè)系列,分別是7060X固定模式系列、7800R模塊化方案以及7700R分布式系列(distributedEtherlinkswitch.1)7060X固定模式系列(7060Xseries:fixedAIleaf該系列交換采用固定模式,其中7060X6基于博通最新Tomahawk5系列交換芯片,交換機(jī)交換交換容量為51.2t(對(duì)應(yīng)64個(gè)800G端口或者128個(gè)400G端口支持2)7800R模塊化系列(7800Rseries:modularAIspine該系列最高可支持460T的交換容量去滿(mǎn)足AI需求,7800R系統(tǒng)提供4插槽、8插槽、12插槽或16插槽模塊化機(jī)箱選項(xiàng)。在16插槽機(jī)箱中,支持多達(dá)576個(gè)800G端口或1,152個(gè)400G端口,以最大限度地提高網(wǎng)絡(luò)負(fù)載能力。3)7700R分布式系列(7700R4:distributedEtherlinkswitch是由Aritsa提出的一個(gè)創(chuàng)新性解決方案,7700R4DES系統(tǒng)可能看起來(lái)類(lèi)似于傳統(tǒng)的葉/脊拓?fù)浣Y(jié)構(gòu)且布線互連相似。但是7700R4支持單跳轉(zhuǎn)發(fā)范式,這與需要三跳轉(zhuǎn)發(fā)的葉/脊設(shè)計(jì)不同。因此,整個(gè)7700R4DES系統(tǒng)都得到了統(tǒng)一管理、完全調(diào)度,并在系統(tǒng)中的所有節(jié)點(diǎn)之間提供100%公平、無(wú)損的傳輸。交換機(jī)端口數(shù)不斷提升下,其可互聯(lián)集群規(guī)模能力將快速提升。由于AI集群本身對(duì)于算力的并發(fā)需求遠(yuǎn)超過(guò)傳統(tǒng)云計(jì)算時(shí)代的需求,因此AI集群的搭建在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)上普遍會(huì)采用Fattree網(wǎng)絡(luò)結(jié)構(gòu),大部分集群互聯(lián)網(wǎng)的規(guī)模會(huì)控制在三層以根據(jù)Fattree拓?fù)浣Y(jié)論,如果交換機(jī)的端口數(shù)為K,則: 行業(yè)深度研究報(bào)告兩層網(wǎng)絡(luò),可互聯(lián)的算力卡數(shù)量=K2/2三層網(wǎng)絡(luò),可互聯(lián)的算力卡數(shù)量=K3/4因此若不斷提升單臺(tái)交換機(jī)端口數(shù),其可互聯(lián)的網(wǎng)卡數(shù)將實(shí)現(xiàn)指數(shù)級(jí)別提升,如當(dāng)交換機(jī)端口數(shù)為64時(shí),兩層互聯(lián)規(guī)模僅為2048張卡,三層互聯(lián)網(wǎng)規(guī)模約為8萬(wàn)張卡,若端口數(shù)提升至128,則兩層互聯(lián)網(wǎng)規(guī)??缮?192張卡,三層互聯(lián)網(wǎng)規(guī)模約為52萬(wàn)張卡。光模塊和算力需求成正比,保持向上趨勢(shì)。光模塊的核心功能在于完成光電信號(hào)轉(zhuǎn)換及傳輸,傳輸帶寬和拓?fù)浣Y(jié)構(gòu)決定了光模塊用量。結(jié)合上文分析來(lái)看,AI集群的規(guī)模不斷升級(jí),已經(jīng)步入10萬(wàn)卡階段,且有望不斷擴(kuò)大,對(duì)于算力的總需求仍保持持續(xù)向上趨勢(shì),因而對(duì)于光模塊的總需求仍保持向上趨勢(shì)。圖22、AI軍備競(jìng)賽下全球算力增長(zhǎng)顯著行業(yè)深度研究報(bào)告技術(shù)迭代方向上:硅光是趨勢(shì),從可插拔到CPO。當(dāng)前光模塊主流方式采用分立方式,這種模式下對(duì)于生產(chǎn)和制造均有一定的要求和限制,導(dǎo)致光模塊更大規(guī)模兩場(chǎng)會(huì)受制于更多環(huán)節(jié)。技術(shù)演技上,硅光是集成化趨勢(shì)下的長(zhǎng)期選擇,并有望從可插拔硅光形式逐步過(guò)渡到CPO形式。從分立模式到可插拔硅光形式,對(duì)器件使用量有望減少30%,集成度提升帶動(dòng)量產(chǎn)規(guī)模能力提升,再到CPO形態(tài),光模塊的形態(tài)會(huì)更加緊湊。圖24、硅光有望帶動(dòng)光模塊更大規(guī)模量產(chǎn)1.6T光模塊下有望看到硅光滲透率提升。硅光技術(shù)發(fā)展分為分立式硅基器件、耦合集成、單片集成演進(jìn)、光電一體化等多個(gè)階段,目前正處于耦合集成階段。1.6T時(shí)代迭代AI突出的低功耗訴求,有望成為繼EML后的重要補(bǔ)充方案。未來(lái)隨著硅光子技術(shù)向單片集成技術(shù)發(fā)展,成熟CMOS工藝下成本有望進(jìn)一步凸顯,硅光為未來(lái)重要方向。行業(yè)深度研究報(bào)告圖25、硅光技術(shù)迭代路線硅光子進(jìn)入快速增長(zhǎng)階段,數(shù)通光模塊是應(yīng)用核心下游之一。根據(jù)YoleGroup最新數(shù)據(jù),硅光子PIC市場(chǎng)預(yù)計(jì)從2022年0.68億美元增長(zhǎng)至2028年的6.13億美元,2022-2028年復(fù)合年增長(zhǎng)率為44%。增長(zhǎng)主要:1)800G高數(shù)據(jù)速率可插拔硅光模塊需求釋放;2)對(duì)快速增長(zhǎng)的訓(xùn)練數(shù)據(jù)集大小的預(yù)測(cè)表明,數(shù)據(jù)將需要利用機(jī)器學(xué)習(xí)服務(wù)器中的光學(xué)I/O來(lái)擴(kuò)展大模型。在落地形式上,預(yù)計(jì)可插拔硅光光模塊先成熟,后演進(jìn)至CPO形式。圖26、2022-2028硅光子PIC市場(chǎng)規(guī)模及預(yù)測(cè)行業(yè)深度研究報(bào)告網(wǎng)絡(luò)架構(gòu)升級(jí)關(guān)注Scaleup和Scaleout兩個(gè)方面,在Scaleup大廠迭代方向是將超節(jié)點(diǎn)規(guī)模做大,在Sacleout的趨勢(shì)是不斷做大AI集群規(guī)模,目前集群規(guī)模已經(jīng)進(jìn)入10萬(wàn)卡互聯(lián)階段。Scaleup推動(dòng)互聯(lián)帶寬升級(jí),帶動(dòng)內(nèi)部互聯(lián)規(guī)模提升。大模型訓(xùn)練下通信需求最旺盛階段存在于張量并行階段,主要在超節(jié)點(diǎn)內(nèi)部完成。超節(jié)點(diǎn)的趨勢(shì)在于逐步做大內(nèi)部帶寬,推動(dòng)內(nèi)部互聯(lián)規(guī)模提升,主流廠商英偉達(dá)采用GB200方案進(jìn)行布局,靠NVLINK協(xié)議實(shí)現(xiàn)帶寬升級(jí),互聯(lián)形式上帶動(dòng)銅互聯(lián)需求提升。短期銅有望主導(dǎo)Scaleup互連,長(zhǎng)期來(lái)看伴隨帶寬升級(jí),銅互連傳輸距離限制或推動(dòng)光互聯(lián)方案替代。Scaleout驅(qū)動(dòng)集群規(guī)模做大,交換機(jī)或升級(jí)為模塊化方案,光模塊總需求保持向上,有望迎來(lái)硅光加速階段。目前AI集群步入10萬(wàn)卡階段,未來(lái)有望升至更大規(guī)模,交換機(jī)環(huán)節(jié)除了本身單交換機(jī)芯片容量升級(jí)加快之外,交換機(jī)廠商開(kāi)始布局模塊化方案,通過(guò)提高交換機(jī)端口數(shù)提升組網(wǎng)能力(目前Ariste已經(jīng)有對(duì)應(yīng)的方案推出,交換容量升級(jí)至400T光模塊環(huán)節(jié)總需求仍跟全球總算力成正比關(guān)系,保持向上趨勢(shì),在技術(shù)迭代上,硅光有利于提升更大規(guī)模量產(chǎn)能力,有望在1.6t階段開(kāi)始不斷提升滲透率,其落地形態(tài)為可插拔,并逐步過(guò)渡到CPO。全球交換機(jī)廠商及產(chǎn)業(yè)鏈環(huán)節(jié),以及已經(jīng)進(jìn)入全球供應(yīng)鏈的全球領(lǐng)先光模塊廠商

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論