版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
AIGC對光通信行業(yè)的影響分析1.0行業(yè)背景:大模型驅(qū)動(dòng)算力需求本輪AI浪潮由ChatGPT掀起,并引發(fā)中外科技企業(yè)展開對大語言模型及生成式AI的追逐和對算力的軍備競賽。無論是傳統(tǒng)互聯(lián)網(wǎng)企業(yè)還是新進(jìn)入者都在加大算力投資,積極推出大模型。我們認(rèn)為多模態(tài)大模型與應(yīng)用生態(tài)圈將成為2024年生成式AI的關(guān)鍵詞,生成式AI依然處于行業(yè)發(fā)展的初期,多模態(tài)大模型訓(xùn)練與推理需求雙驅(qū)動(dòng)加速算力基礎(chǔ)設(shè)施建設(shè)。多模態(tài)大模型,AI感知能力更加豐富11月6日,OpenAI公布GPT-4Turbo,平臺提供多模態(tài)功能,包括視覺、圖像創(chuàng)造(DALL.E3)和文本轉(zhuǎn)語音(TTS)。12月7號,谷歌發(fā)布AI多模態(tài)模型Gemini1.0。Gemini1.0根據(jù)不同尺寸進(jìn)行了優(yōu)化,分別是Ultra、Pro和Nano。GeminiUltra適用于高度復(fù)雜的任務(wù),GeminiPro是通用版,而GeminiNano則被用于各種客戶端設(shè)備。Gemini1.0可以同時(shí)理解并識別本文、圖形、音頻等。伴隨著大模型處理數(shù)據(jù)的類型持續(xù)擴(kuò)展,多模態(tài)大模型(LMMS)成為主流,這使得未來大模型參數(shù)與訓(xùn)練集規(guī)模將持續(xù)擴(kuò)大。當(dāng)前多模態(tài)系統(tǒng)主要處理文本、圖片和語音。伴隨行業(yè)發(fā)展,大模型將可以處理視頻、音樂、3D等內(nèi)容。這也意味著大模型訓(xùn)練算力需求的增長將超預(yù)期。應(yīng)用生態(tài)圈趨于成熟,推理算力需求顯著增長OpenAI發(fā)布了GPTs,讓用戶們無需代碼,結(jié)合自己的需求、外部知識和能力創(chuàng)造自定義版本的GhatGPT,滿足了用戶的定制化需求。此外,OpenAI在11月底上線GPTstore,讓開發(fā)者們能夠分享、發(fā)布自己創(chuàng)建GPTs。GPTs和GPTStore的上線滿足了客戶的特色化需求,有望加速GPT應(yīng)用生態(tài)建設(shè),進(jìn)一步提高用戶黏性。GPTs降低了制作大模型應(yīng)用門檻,用戶無需編程基礎(chǔ),用自然語言就能做出專屬GPTS,從而加速大模型向個(gè)人用戶和垂直行業(yè)滲透。GPT應(yīng)用量的增長,也意味著“殺手級”應(yīng)用出現(xiàn)的可能性提升。大模型應(yīng)用所帶來的推理算力需求將會超出預(yù)期。2.0算力芯片與服務(wù)器發(fā)展趨勢NVLink技術(shù)、NVSwitch芯片提升芯片互聯(lián)帶寬打破PCIe限制Nvlink4代的總帶寬可達(dá)到900GB/s,為PCIe5.0總線帶寬的7倍,對比下一代PCIe6.0的256GB/s也有顯著優(yōu)勢。NVSwitch是英偉達(dá)的節(jié)點(diǎn)交換架構(gòu),通過連接多個(gè)NVLink,在單節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間實(shí)現(xiàn)多GPU的拓展。第三代NVSwitch能在帶點(diǎn)服務(wù)器節(jié)點(diǎn)中支持8-16個(gè)完全鏈接的GPU,支持以900GB/s的速度互聯(lián)每個(gè)GPU。英偉達(dá)H100使用第四代NVLink和第三代NVSwitch,具有八個(gè)NVIDIAH100TensorCoreGPU的系統(tǒng)具有3.6TB/s的二等分帶寬和450GB/s的縮減操作帶寬。與上一代相比,這兩個(gè)數(shù)字分別增加了1.5倍和3倍。英偉達(dá)擺脫了PCIe在原始帶寬、延遲以及緩存一直性方面的限制。通過NVLink和NVSwitch實(shí)現(xiàn)多個(gè)GPU大規(guī)模集群的傳輸,實(shí)現(xiàn)更快和更可拓展的計(jì)算系統(tǒng)。英偉達(dá)DGX服務(wù)器實(shí)現(xiàn)內(nèi)部GPU全互聯(lián)以GTCSPRING2022發(fā)布的DGXH100為例,H100分為SXM和PCIe兩個(gè)版本。主流大模型依賴多卡協(xié)同,GPU之間的帶寬要求較高,Nvlink全互聯(lián)的GPU更加適合大模型應(yīng)用場景。SXM版本中8張H100芯片通過4張NVLinkSwitch芯片實(shí)現(xiàn)全互聯(lián)。GPU之間帶寬高達(dá)900GB/s(雙向鏈路25GB/s*2*18條=900GB/s),相較于PCIE5.0x16雙向帶寬128GB/s,互聯(lián)速度得到快速提升。PCIe版本中4張H100芯片通過PCLeSwitchPEX4:1連接到CPU,2張H100芯片通過NvlinkBridge互聯(lián)。PCIE機(jī)型更加靈活,GPU卡的數(shù)量以及PCIE的拓樸可以進(jìn)行調(diào)整。英偉達(dá)DGX服務(wù)器計(jì)算網(wǎng)絡(luò)設(shè)計(jì)優(yōu)化DGXH100在服務(wù)器內(nèi)部通信構(gòu)架中可以看出計(jì)算網(wǎng)絡(luò)的重要性。相較于DGXA100,DGXH100正在放棄傳統(tǒng)的PCIe網(wǎng)卡,轉(zhuǎn)而使用“Cedar”的模塊進(jìn)行GPU與GPU之間的互聯(lián)。DGXH100通過2個(gè)Cedar7模組,每個(gè)模組包含4個(gè)ConnextX-7ICs,通過Densilink電纜連接到服務(wù)器的對外接口。雖然8張GPU配備了8張400G的網(wǎng)卡ICs,但接口合成成了4個(gè)800G接口。優(yōu)勢:1.使用Cedar模塊可以提升服務(wù)器空間效率,同時(shí)有助于服務(wù)器內(nèi)部空氣流通。2.Cedar模塊直接通過電纜對外連接,有助于降低PCB設(shè)計(jì)復(fù)雜度與成本。Chiplet和異構(gòu)芯片成為行業(yè)發(fā)展的趨勢Chiplet:AMD早在2011年發(fā)布了APU已經(jīng)是CPU+GPU架構(gòu)。在2017年,AMD發(fā)布的論文《DesignandAnalysisofanAPUforExascaleComputing》中討論包含CPU、GPU和HBM內(nèi)存堆棧的APU芯片設(shè)計(jì)。在2023年6月推出了AMD首個(gè)CPU+GPU的數(shù)據(jù)中心產(chǎn)品。UltraFusion:M1Ultra采用臺積電5nm工藝,由兩塊M1Max芯片拼接而成,這樣的“組合”使得其晶體管數(shù)量達(dá)到1140億顆。使得各項(xiàng)硬件指標(biāo)翻倍:20核CPU包含16個(gè)高性能核心、4個(gè)高能效核心;GPU核心數(shù)量增至64核;32核神經(jīng)網(wǎng)絡(luò)引擎能夠帶來每秒22萬億次的運(yùn)算能力;統(tǒng)一內(nèi)存最高規(guī)格達(dá)到128GB;內(nèi)存帶寬提升至800GB/s。這種多芯片(Multi-die)配置主要靠UltraFusion多晶粒架構(gòu),使用2.5D先進(jìn)封裝技術(shù)。異構(gòu)芯片互聯(lián)的趨勢,逐步擺脫了傳統(tǒng)SoC的束縛,芯片面積提升不一定意味著成本大幅提升與良品率大幅下降。HBM大幅提升顯存帶寬,適合大模型應(yīng)用場景HBM通過采用TSV技術(shù)突破內(nèi)存帶寬與容量瓶頸,是新一代的DRAM解決方案。相對于傳統(tǒng)內(nèi)存,HBM是在硅中階層(SiliconInterposer)上堆疊起來并與GPU封裝在一起,大幅縮小使用面積,并且HBM距離GPU更近,進(jìn)一步提升數(shù)據(jù)傳輸速度。HBM主要是通過硅通孔(TSV)技術(shù)進(jìn)行芯片堆疊,通過貫通所有芯片層的柱狀通道傳輸信號、指令、電流,以增加吞吐量并克服單一封裝內(nèi)帶寬的限制,通過采用TSV技術(shù)HBM大幅提高了容量和數(shù)據(jù)傳輸速率。與傳統(tǒng)內(nèi)存技術(shù)相比,HBM具有更高帶寬、更大容量、更低功耗、更小尺寸,HBM突破了內(nèi)存帶寬與容量瓶頸,讓更大的模型、更多的參數(shù)留在離核心計(jì)算更近的地方,從而減少存儲解決方案帶來的延遲,是新一代的DRAM解決方案。算力+數(shù)據(jù)讀取能力+通信能力缺一不可英偉達(dá)2019年以69億美金收購Mellanox。Mellanox為服務(wù)器、存儲和超融合基礎(chǔ)設(shè)施提供以太網(wǎng)交換機(jī)、芯片和InfiniBand智能互聯(lián)解決方案在內(nèi)的大量數(shù)據(jù)中心產(chǎn)品。收購Mellanox使得英偉達(dá)在數(shù)通市場業(yè)務(wù)更加全面,數(shù)據(jù)中心工作負(fù)載將在整個(gè)計(jì)算,網(wǎng)絡(luò)和存儲堆棧中進(jìn)行優(yōu)化,并能實(shí)現(xiàn)更高的性能,更高的利用率和更低的運(yùn)營成本。BlueFieldDPU:DPU承接了傳統(tǒng)服務(wù)器中CPU的工作負(fù)擔(dān),并融合了智能網(wǎng)卡的網(wǎng)絡(luò)加速功能,這樣更好的釋放了CPU資源,更好支撐虛擬機(jī)和容器的應(yīng)用。優(yōu)勢:1.降低服務(wù)器功耗,降低用電成本;2.網(wǎng)絡(luò)通信速度提升。網(wǎng)絡(luò)架構(gòu)演進(jìn)光模塊與交換機(jī)需求提升大模型參數(shù)規(guī)模提升,算力集群中互聯(lián)服務(wù)器數(shù)量顯著提升。二層無收斂的胖樹網(wǎng)絡(luò)架構(gòu)互聯(lián)的網(wǎng)卡數(shù)量是受限的,超算數(shù)據(jù)中心的網(wǎng)絡(luò)架構(gòu)會向三層無收斂的胖樹網(wǎng)絡(luò)架構(gòu)演進(jìn),這意味著光模塊和交換機(jī)的需求將進(jìn)一步提升。英偉達(dá)推出的DGXSuperPOD超級計(jì)算機(jī),是一套軟硬協(xié)同的完整解決方案,在滿足AI模型算力的基礎(chǔ)上,又能幫助企業(yè)快速部署AI數(shù)據(jù)中心。DGXSuperPOD采用模塊化的設(shè)計(jì),支持不同規(guī)模大小的設(shè)計(jì)。以127個(gè)DGXH100為例,整體網(wǎng)絡(luò)分為計(jì)算網(wǎng)絡(luò),存儲網(wǎng)絡(luò),帶內(nèi)管理網(wǎng)絡(luò)和帶外管理網(wǎng)絡(luò)。3.0光模塊光模塊的作用是光電信號的轉(zhuǎn)換。光模塊內(nèi)部結(jié)構(gòu)包括光發(fā)射組件(TOSA,含激光器芯片)、光接收組件(ROSA,含探測器芯片)、驅(qū)動(dòng)電路、光電接口。在發(fā)射端,光模塊將設(shè)備產(chǎn)生的電信號經(jīng)驅(qū)動(dòng)芯片處理后,通過激光器轉(zhuǎn)化為功率穩(wěn)定的調(diào)制光信號,使得信息能夠在高速光纖中傳遞;在接收端,光信號經(jīng)探測器處理后還原為電信號,經(jīng)前置放大器處理后輸出。光芯片是上游產(chǎn)業(yè)鏈核心器件,光器件占比約為73%,電路芯片占比18%。光器件中,光發(fā)射組件和光接收組件合計(jì)占比約80%。光模塊需求測算:英偉達(dá)A100推薦配置A100+ConnectX6+QM8700三層網(wǎng)絡(luò)。第一層架構(gòu)中,每個(gè)節(jié)點(diǎn)(A100)有8個(gè)接口,每個(gè)節(jié)點(diǎn)分別連接8個(gè)葉交換機(jī)。每20個(gè)節(jié)點(diǎn)組成一個(gè)單元(SU),在第一層需要8*SU個(gè)葉交換機(jī)需要8*SU*20條線纜,需要2*8*SU*20個(gè)200G光模塊。第二層架構(gòu)中,由于采用無阻塞架構(gòu),第二層也采用單條電纜200G的傳輸速率,線纜數(shù)量和第一層相同,需要2*8*SU*20個(gè)200G管模塊。所需要的脊交換機(jī)數(shù)量是線纜數(shù)量除以葉交換機(jī)數(shù)量,需要(8*SU*20)/(8*SU)個(gè)脊交換機(jī)。但是當(dāng)葉交換機(jī)數(shù)量不夠多的時(shí)候,為了節(jié)約脊交換機(jī)的數(shù)量可以在葉和脊之間做兩條以上的連接(只要不超過40個(gè)接口的限制)。因此當(dāng)單元數(shù)量分別為1/2/4/5個(gè)時(shí)所需要的脊交換機(jī)數(shù)量為4/10/20/20個(gè),所需要的光模塊數(shù)量分別為320/640/1280/1600個(gè),脊交換機(jī)數(shù)量不會同比例提升,但光模塊數(shù)量會同比例提升。當(dāng)單元數(shù)量達(dá)到7個(gè)時(shí),需要用到第三層架構(gòu),由于無阻塞架構(gòu)因此第三層架構(gòu)所需要的線纜數(shù)與第二層數(shù)相同。140臺服務(wù)器,共對應(yīng)140*8=1120片A100,共需要56+56+28=140個(gè)交換機(jī)(QM8790),需要1120+1120+1120=3360根線纜,需要3360*2=6720個(gè)200G光模塊,A100與200G光模塊對應(yīng)關(guān)系為1120/6720=1:6。光模塊需求測算:在算力集群中,光模塊需求數(shù)量影響因素:網(wǎng)卡型號、交換機(jī)型號、單元數(shù)量,不同架構(gòu)所需要的光模塊數(shù)量有所差異。以A100SuperPOD為例,英偉達(dá)官方推薦網(wǎng)卡為ConnectX-6(200b/s),交換機(jī)型號為QM8700(40路200Gb/s傳輸速率),每個(gè)單元包括20個(gè)節(jié)點(diǎn),最大支持7個(gè)單元組成集群,超過5個(gè)單元需要三層交換架構(gòu),那么每張A100所需要6個(gè)200G光模塊。以H100SuperPOD為例,英偉達(dá)官方推薦網(wǎng)卡為ConnectX-7(400b/s),交換機(jī)型號為QM9700(64路400b/s傳輸速率),每個(gè)單元包括32個(gè)節(jié)點(diǎn),最大支持4個(gè)單元組成集群,兩層交換架構(gòu),那么每張H100所需要1個(gè)400G和1.5個(gè)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二四全新打印機(jī)租賃合作協(xié)議書范本3篇
- 2025年度鋰電池電芯代工合作協(xié)議書4篇
- 二零二五年度美容院品牌形象設(shè)計(jì)及使用權(quán)授權(quán)合同
- 二零二五年度特殊面料窗簾定制合同3篇
- 2025年度實(shí)習(xí)生勞動(dòng)合同終止及培訓(xùn)費(fèi)用退還協(xié)議4篇
- 二零二五年度木板電商平臺入駐及銷售合同4篇
- 2024項(xiàng)目部治理人員安全培訓(xùn)考試題(各地真題)
- 2023年-2024年崗位安全教育培訓(xùn)試題(答案)
- 南京住建部2025年房屋租賃合同租賃物維護(hù)與修繕合同4篇
- 2024年企業(yè)主要負(fù)責(zé)人安全教育培訓(xùn)試題附完整答案(名校卷)
- 國際貿(mào)易地理 全套課件
- GB/T 20878-2024不銹鋼牌號及化學(xué)成分
- 診所負(fù)責(zé)人免責(zé)合同范本
- 2024患者十大安全目標(biāo)
- 印度與阿拉伯的數(shù)學(xué)
- 會陰切開傷口裂開的護(hù)理查房
- 實(shí)驗(yàn)報(bào)告·測定雞蛋殼中碳酸鈣的質(zhì)量分?jǐn)?shù)
- 部編版小學(xué)語文五年級下冊集體備課教材分析主講
- 電氣設(shè)備建筑安裝施工圖集
- 《工程結(jié)構(gòu)抗震設(shè)計(jì)》課件 第10章-地下建筑抗震設(shè)計(jì)
- 公司法務(wù)部工作細(xì)則(草案)
評論
0/150
提交評論