計算機行業(yè)智聯(lián)汽車深度三十三暨華為系列深度之六:特斯拉Dojo+英偉達GPU+谷歌TPU+昇騰趨勢是帶寬與擴展性!-20230918 申萬宏源_第1頁
計算機行業(yè)智聯(lián)汽車深度三十三暨華為系列深度之六:特斯拉Dojo+英偉達GPU+谷歌TPU+昇騰趨勢是帶寬與擴展性!-20230918 申萬宏源_第2頁
計算機行業(yè)智聯(lián)汽車深度三十三暨華為系列深度之六:特斯拉Dojo+英偉達GPU+谷歌TPU+昇騰趨勢是帶寬與擴展性!-20230918 申萬宏源_第3頁
計算機行業(yè)智聯(lián)汽車深度三十三暨華為系列深度之六:特斯拉Dojo+英偉達GPU+谷歌TPU+昇騰趨勢是帶寬與擴展性!-20230918 申萬宏源_第4頁
計算機行業(yè)智聯(lián)汽車深度三十三暨華為系列深度之六:特斯拉Dojo+英偉達GPU+谷歌TPU+昇騰趨勢是帶寬與擴展性!-20230918 申萬宏源_第5頁
已閱讀5頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

計算機計算機行業(yè)及產(chǎn)業(yè)行業(yè)及產(chǎn)業(yè)證券研究報告行業(yè)研究行業(yè)深度證券研究報告2023年09月18日日地有借鑒意義-AIGC系列之八暨華為產(chǎn)業(yè)系列之五’2023年3月26日李國盛A0230521080003ligs@楊海晏A0230518070003yanghy@黃忠煌A0230519110001huangzh@王珂A0230521120002wangke@戴文杰A0230522100006daiwj@洪依真A0230519060003hongyz@施鑫展A0230519080002shixz@林起賢A0230519060002lingx@胡雪飛A0230522120002huxf@崔航A0230122070011cuihang@徐平平A0230123060004xupp@liuyang2@本期投資提示:2020上,特斯拉發(fā)布FSD《ComputeSolutionforTesla'sFullSelf-Driving最小單元,每1個D1包含354個nodes、每1個Tile包含25個D1、每1個Tray包含6個Tiles,每個機柜包含2組Tray。DojoInterfaceProcessor(DIP)用于HBM內(nèi)存統(tǒng),總共需要14160×2=28320個光模塊,對應177個機柜中的53100個D1芯片,另地把握,可能會選中了次好的公司,對投資產(chǎn)生不良的結果。結論和投資分析意見原因及邏輯有別于大眾的認識1、TeslaDojo:架構/存算一體/擴展性/帶寬 1.1Dojo架構和重要問題 6 82.部分流行GPU/NPU/DSA的異同:英偉達/谷歌/昇騰.102.1NvidiaGPU的10年架構趨勢 2.2谷歌TPU的五代升級 2.3華為昇騰 3.1與時俱進,適配新AI場景 3.2帶寬最大化,延展關鍵化 4.2光模塊估算 圖1:Dojo每個計DojoCoreDatapathCPU 7圖2:Dojo微觀(底層)的D1芯片,有354個處理單元。對稱/延展性/片上SRAM大是特色,每個邊緣都有高速低功耗Serdes通道(便于傳輸) 7圖3:Dojo微觀(第二層),25個D1芯片組成訓練瓦片(TrainingTile)。這樣每邊 7圖4:特斯拉的DIP提供協(xié)議連接、共享內(nèi)存,來幫助拓撲結構 8圖5:TeslaDojo的數(shù)據(jù)路由(Routing)也 圖6:TPUv4主打擴展性,圖中“立體的”計算對部分AI操作提速有利 圖7:谷歌TPU的一大要點(可能是后續(xù)瓶頸)是互聯(lián)帶寬,尤其存儲相關..13圖8:谷歌TPU的一大要點(可能是后續(xù)瓶頸)是互聯(lián)帶寬,在使用路由/DMA/HBM 13圖9:谷歌TPU用脈動陣列的方法支持矩陣乘。圖中左側輸入,下方是“脈動后“輸出 圖10:華為AI解決方案示意圖,包括昇騰/ModelArts/MindSpore等..15圖11:華為達芬奇架構示意圖,可推測與谷歌脈動陣列TPU有相似之處..15圖12:TPUV1-V4對AI不同操作的優(yōu)化 圖13:谷歌TPU對矩陣乘積的支持 圖14:英偉達TensorCore對矩陣乘法的支持。之前可以看為向量乘法 圖16:Dojo的片內(nèi)、片外、跨芯片帶寬數(shù)值較大,有明顯傳輸優(yōu)勢。這歸因于設計思 圖17:支持稀疏核心單元SparseCore對應的快速HBM訪問 圖18:英偉達InfiniBand和NVLink示意圖 圖19:AI訓練系統(tǒng)中,計算/內(nèi)存/讀寫IO的折中 圖20:拆解/去集成系統(tǒng)中,計算/內(nèi)存/讀寫IO的折中 圖22:6個Tile、20個DIP等組成一個Tray單元 圖23:每2個Tray構成1個機柜,進而按不同規(guī)模組成POD 圖24:借助DIP和TTPoE,Dojo系統(tǒng)通過外部400Gb鏈路和交換機形成組網(wǎng)26表1:華為系列深度報告1-5 6 表3:2010年以來英偉達GPU主要架構可以推測行業(yè)趨勢:注重互聯(lián),對AI支持與時俱進(從CudaCore到TensorCore,增加對INT/BF16等AI新趨勢的支持,結 表5:AI計算的進步,體現(xiàn)在數(shù)據(jù)精度重要性逐漸低于延展性/并發(fā)性。因此新型AI處理器(GPU/NPU/DSA等)逐漸出現(xiàn)INT8/TF32/BF16。TeslaDojo還采用了用于較低精度和更高吞吐量的8位CFP8格式,這刺激新型處理器可以持續(xù)發(fā)展.17斯拉Dojo/英偉達GPU/谷歌TPU/華為昇騰等的異同,并做產(chǎn)業(yè)趨勢的預測。然后對計表1:華為系列深度報告1-5123452019年8月《開物成務,華為鴻蒙操作系統(tǒng)全景解構》2020年2月《5G全場景,華為新終端與HMS生態(tài)解構》2021年6月《萬物歸一,鴻蒙2.0重構物聯(lián)世界》2022年7月《鴻蒙3.0:互聯(lián)到智聯(lián),升級到升維》鴻蒙2.0鴻蒙3.0盤古大模型/NNA架構等。在2022年8月hotchips34大會上,特斯拉發(fā)布《TheMicroarchitecture下表是Dojo的分層結構示意圖。其中每個集群(ExaPOD)包括3000個D1芯片,每個芯片包括354核心。而核心內(nèi)部反而與傳統(tǒng)CPU有類似之處(有解碼器Decoder,表2:特斯拉Dojo的分層結構示意圖分層名稱片上SRAM算力特點內(nèi)核2GHz主頻芯片格點集群10個機柜組成ExaPOD,對應3000個D1芯片圖2:Dojo微觀(底層)的D1芯片,有354個處理圖3:Dojo微觀(第二層),25個D1芯片組成訓外帶寬外帶寬都有高速低功耗Serdes通道(便于傳輸)這可以簡化Dojo的AGU和尋址總線。這些權衡可圖4:特斯拉的DIP提供協(xié)議連接、共享內(nèi)存,來幫助拓撲結構EdgecommunicationPClelinksb研究第三,正是由于上述存算一體、可擴展性強,因此數(shù)據(jù)路由(Routing)也很簡單便Dojo網(wǎng)絡拓撲結構力求簡潔。使用平坦的尋址空間,避免虛擬化。編譯器需要知道所有數(shù)據(jù)的放置位置。數(shù)據(jù)路由也很簡單,到達目的地只需跟隨行和列到達目的節(jié)點即可。為了增加靈活性,每個D1管芯都實現(xiàn)了一個路由表。一旦數(shù)據(jù)包進入網(wǎng)絡或在到達目的地的途中到達新的骰子,它就會參考本地路由表來決定什么是最佳的前進路徑。根據(jù)安裝在路由表中的信息,數(shù)據(jù)包可以沿著同一行或同一列繼續(xù),或者它可以轉向以避免擁塞或出現(xiàn)故障的網(wǎng)絡組件。還可以設置路由表,將數(shù)據(jù)包傳輸?shù)阶罱腄IP,以利用Z維度快捷方式。2.1NvidiaGPU的10年架構趨勢2012年開普勒、2014年麥克斯韋、2016年帕斯卡、2017年伏特、2018年圖靈、20201)注重互聯(lián);2)對AI支持與時俱進(CudaCoreTensorCoreINTBFAI請務必仔細閱讀正文之后的各項信息披露與聲明第10頁共29頁簡單金融成就夢想3)注重帶寬和擴展性而非核心數(shù)量等(例如麥克斯韋比開普勒的SM/SMX數(shù)量減少,從圖靈架構后SM數(shù)量增長也不快)。表32010年以來英偉達GPU主要架構可以推測行業(yè)趨勢注重互聯(lián)對AI支持與時俱進(從CudaCore到Tensor每SM128Cuda每SMX192FP32+64Cores+32每SM64CudaSM單元精簡(192特點1首個完整GPU首次GPUDirect到128)NVLink第一代特點2共享內(nèi)存性能雙向帶寬160Gbps特點3ECCGPUP10056SMHBM中文名伏特圖靈安培赫伯128FP32+64Int32+64FP6102核心92SM特點1NVLink第二代NVLink第三代NVLink第四代特點3支持Al運算RTCore第一代RTCore第二代代注6:SMX,可以理解為大號的SM。Kepler中每個SMX單元中的Register較Fermi的SM單元放大一倍注7:浮點精度對應于不同AI訓練要點。例如安培架構對稀疏矩陣支持利于CV分割、對象檢測、通信編碼等。訓練/推理任務常用FP16/BF16/TF32/INT8/FP16中的不同種類1024個芯片。TPUv3對AI訓練的精度要求支持增加。其在使用16位浮點(bfloat16)與VoltaGPU相當。一些擴展到1024片芯片的應用程序可以獲得97%-99%的完美線性如銅絞線)方法連接,但是距離較遠的TPU之間(例如在Cube之間的互聯(lián))就必須使用圖6:TPUv4主打擴展性,圖中"立體的"計算對部分AI操作提速有利TPUV52023年8月亮相。2023年8月,谷歌在CloudNext2023大會上,公開了GoogleCloud新款自研AI芯片TPUv5e。圖7:谷歌TPU的一大要點(可能是后續(xù)瓶頸)是圖8:谷歌TPU的一大要點(可能是后續(xù)瓶頸)是InterconnectCoreCore向量,下側通過累加的方式輸出矩陣乘積(還包括錯誤)。中間過程存儲局部加法圖9:谷歌TPU用脈動陣列的方法支持矩陣乘。圖中左側輸入,下方是“脈動后“輸出出3)注重擴展性。TPUv4開始,對擴展性大大增強,相應論文的標題描述也是"ReconfigurableSupercomputer"TPUv擴展性,可以有數(shù)千個芯片同時加速,從而實現(xiàn)一個為了機器學習模型訓練而設計的超級計算機。在谷歌TPUv4的設計中,超級計算機的拓撲結構為:將4x4x4(64)個TPUv4芯片互聯(lián)在一起形成一個立方體結構(cube),然后再把4x4x4這樣的cube用連在一起形成一個總共有4096個TPUv4的超級計算機。華為的AI生態(tài),于2019年8月即已經(jīng)發(fā)布。根據(jù)《機器之心》報道,華為輪值董事長徐直軍在發(fā)布會上表示:華為自2018年10月發(fā)布AI戰(zhàn)略以來,穩(wěn)步而有序地推進戰(zhàn)場景AI解決方案(Portfolio)的AI昇騰910也是華為"達芬奇架構"最大的一款芯片。去年10月,華為在全聯(lián)接大會(HC)上宣布了達芬奇計劃,其中用于人工智能訓練的異騰910芯片格外引人注目。發(fā)布會上,華為產(chǎn)品與其他廠商做了典型性能比較。根據(jù)《機器之心》,"面向服務器的芯片昇騰(Ascend)910采用7nm制程,而設計功耗為310W,其算力比英偉達TeslaV100還要高出一倍,半精度(FP16)達到了256TeraFLOPS(英偉達TeslaV100為125),整數(shù)精度算力(INT8)則為512TeraOPS。此外,華為表示,昇騰910達到圖11:華為達芬奇架構示意圖,可推測與谷歌脈動陣列TPU有相似之處我們認為,華為昇騰可能與谷歌TPU有類似之處。整體來看,兩個緩沖BufferLOA和LOB作為輸入,應該是其中一個暫存的是輸入變量,另一個暫存的是權重weight。推測紅色的Cube模塊,應該是類似谷歌TPU脈動陣列的結構,即是一個矩陣乘法累加陣列,計算結果輸出存放在另外一個緩沖bufferLOC。VectorUnit,類似一個DSP(數(shù)字信號處理器)。這一點應當是區(qū)別于TPU的設計,在不增加成本的情況下,盡量增加功能靈活性。我們預計,系統(tǒng)從緩沖bufferLOC中取得乘累加計算結果,然后進行池化pooling/padding、激活、加法等處理。如果還沒得到最終結果,就暫時返回存儲在bufferLOC。如果得到了最終結果,就傳遞給UnifiedBuffer。2.4異同根據(jù)上述特斯拉Dojo、英偉達GPU、谷歌TPU、華為達芬奇及昇騰的設計:1)都把擴展性放在重要位置。2)都在持續(xù)增加AI甚至大模型下特殊操作的支持。例如數(shù)據(jù)精度TF32/BF16/CFP8(下文有論述),例如矩陣乘法(代替向量乘法),例如Transformer的支持。8是是否否否是是是否否否否是是是是否否否是是是是否否否是是是是否是是是否是否否否否否否否否否否否否TensorCore英偉達伏特Volta否否否是是是否否否TensorCore英偉達圖靈TuringTensorCore英偉達安培A100TensorCore英偉達赫伯H100是是是是是是是是是谷歌TPU(V1到V4持續(xù)拓展)是一方面,TPU第一版發(fā)布于2015-2016年,那么芯片立項大約為2013年。英偉達Pascal架構發(fā)布于2016年,特斯拉Dojo發(fā)布于2020年。發(fā)布前芯片/軟件/AI的工業(yè)Inference)Transformer28%57%(BERT)(28%)(26%)再例如,谷歌TPU和英偉達伏特(Volta)后的架構都支持張量計算,即直接矩陣乘法,之前流行的操作是“向量乘法”。英偉達Volta架構計算此類計算速度達到12倍,稱為第—代TensorCore圖13:谷歌TPU對矩陣乘積的支持圖14:英偉達TensorCore對矩陣乘法的支持。之再例如,英偉達從安培(Ampere)架構開始支持對稀疏矩陣(SparseMatrix)的支持。其可以充分利用網(wǎng)絡權值下的細粒度稀疏優(yōu)勢。相較于稠密數(shù)學計算(densemath),最大吞吐量提高了2倍,而且不會犧牲深度學習的矩陣乘法累加任務的精度。測試表明,這種稀疏方法在許多AI任務(包括圖像分類、對象檢測和語言翻譯)中使用,都能保持與使用稠密數(shù)學計算相同的精度。該方法還已在卷積神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡以及基于注意力機制的transformer上進行了測試。這種稀疏化支持的趨勢也得到了谷歌等巨頭的印證。稀疏化計算是指在機器學習和深度學習中,對于高維特征向量進行數(shù)據(jù)壓縮和降維處理的一種技術。稀疏化計算可以大幅度減少原始特征空間的維度,從而提高模型的運算效率。2022年6月,谷歌帶來最3)TPUV4的內(nèi)存帶寬為1200GB/s,Slice內(nèi)的片間互連(ICI)通過六個50GB/s鏈(bank)ConcatUnit(16tiles).請務必仔細閱讀正文之后的各項信息披露與聲明第21頁共29頁簡單金融成就夢想算機網(wǎng)絡通信標準,它具有極高的吞吐量和極低的延遲,用于計算機與計算機之間的每個SM的計算核心從128CudaCores優(yōu)化到64CudaCores。2)英偉達GPU架構從伏特到赫伯是類似的。TensorCore成為核心,但單SM的核心數(shù)量從8個下降到4個。只是上述核心數(shù)的優(yōu)化,背后是適配AI場景/新數(shù)據(jù)精度/2)芯片層面,高速c2c連接方案(如NVLink、CXL等)的推廣,是宏觀設備/數(shù)據(jù)3)設備層面,單SoC性能提升+芯片“堆量”,不意味著算力集群整體性能的線性提升;而Nvidia、Google、AMD、AWS等算力大廠InfiniBandOCS1最小計算單元是D1ComputeDie(可對標單個GPUTSMC7nm工藝645mm^2;354個Trainingnodes(訓練節(jié)點,可大致類比為GPU核心,實際有區(qū)別),片上內(nèi)存SRAM共440MB;算力性能362TFlopsBF16/CFP8,22TFlopsFP32@2GHz),25個D1芯片以5×5矩形陣列的形狀通過40個I/ODie相互連接組成一個TrainingTile。2)每個TrainingTile擁有10TBps的內(nèi)部雙向帶寬,及36TBps的對外總帶寬(43)此外每6個Tile搭配了20張V1DojoInterfaceProcessor(DIP),用于內(nèi)存擴Tile對應20個DIP卡、每個DIP卡又對應了1個50GBps接口(也就是400Gb的網(wǎng)絡接口),即每6個Tile對應了20個400Gb接口,以及總共32×20=640GB的HBMDIP部署在6個Tile組成的陣列的邊緣(20個DIP分為4組,每組5個DIP),其3)2個SystemTray組成1個機柜,177個機柜(折合53100個D1Die)組成1個基礎的BasePOD;20個BasePOD(折合3540個機柜,或者1062000個D1Die)則圖23:每2個Tray構成1個機柜,進而按不同規(guī)模組成POD

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論