人工智能行業(yè)專題分析_第1頁
人工智能行業(yè)專題分析_第2頁
人工智能行業(yè)專題分析_第3頁
人工智能行業(yè)專題分析_第4頁
人工智能行業(yè)專題分析_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工智能行業(yè)專題分析一、AI有望明顯拉動算力基礎設施投資1.1ChatGPT爆紅引發(fā)了人們對于人工智能發(fā)展的高度關注人工智能(AI)是指由機器展示的智能,即計算機基于大數據模擬人腦的各項功能,例如推理、視覺識別、語義理解、學習能力及規(guī)劃與決策能力等。人工智能生成內容(AIGC)是指利用人工智能技術來生成內容,包括繪畫、作曲、剪輯、寫作等。AIGC的萌芽可追溯到上世紀50年代,90年代從實驗性向實用性逐漸轉變,但受限于算法瓶頸,無法直接生成內容,從21世紀10年代開始,隨著以生成對抗網絡(GAN)為代表的深度學習算法的提出和迭代,AIGC迎來了快速發(fā)展階段。市場需求推動AIGC技術加速落地。1)降低人力和時間成本:AIGC可以幫助人們完成許多繁瑣工作,從而節(jié)省人力資本和工作時間,并可以在相同的時間內產出更多內容。2)改善內容質量。AIGC被認為是繼專業(yè)生產內容(PGC)、用戶生產內容(UGC)之后的新型內容生產方式。盡管PGC和UGC的內容更具多元化、個性化,但受限于激勵措施和創(chuàng)作者自身因素影響,市場存在供給不足的現(xiàn)象。3)促進產業(yè)數字化,助力數字經濟發(fā)展。產業(yè)數字化是數字經濟的融合部分,是傳統(tǒng)產業(yè)應用數字技術所帶來的生產數量和效率提升,其新增產出構成數字經濟的重要組成部分,AIGC為數字經濟提供了重要的數據要素。ChatGPT的爆紅引發(fā)了人們對于人工智能發(fā)展的高度關注。2022年11月30日,OpenAI發(fā)布語言模型ChatGPT。該模型采用對話的形式與人進行交互,可以回答后續(xù)問題、承認錯誤、挑戰(zhàn)不正確的前提、拒絕不適當的請求。ChatGPT不僅在日常對話、專業(yè)問題回答、信息檢索、內容續(xù)寫、文學創(chuàng)作、音樂創(chuàng)作等方面展現(xiàn)出強大的能力,還具有生成代碼、調試代碼、為代碼生成注釋的能力。1.2人工智能需要強大算力支撐以ChatGPT為代表的人工智能應用在運行背后需要強大的算力支撐。OpenAI在2018年推出的GPT參數量為1.17億,預訓練數據量約5GB,而GPT-3參數量達1750億,預訓練數據量達45TB。在模型訓練階段,ChatGPT的總算力消耗約為3640PF-days,總訓練成本為1200萬美元,在服務訪問階段則會有更大消耗。IDC數據顯示:2021年全球人工智能IT投資額為929.5億美元,預計2026年將增至3014.3億美元,復合年增長率約26.5%。2026年中國市場AI投資預計將達266.9億美元,約占全球投資8.9%,居世界第二位,復合年增長率約21.7%。未來五年,硬件將成為中國人工智能最大的細分市場,占人工智能總投資的50%以上。IDC預測,2026年,中國在人工智能硬件市場的IT投資將超過150億美元,接近美國人工智能硬件的市場規(guī)模,五年復合年增長率16.5%。服務器作為硬件市場的主要組成部分,預計將占總投入的80%以上。人工智能的發(fā)展將對算力提出更高要求,算力網絡基礎設施需求有望持續(xù)提升。根據中國信通院數據,2021年全球計算設備算力總規(guī)模達到615EFlops(每秒浮點運算次數),同比增長44%,其中基礎算力規(guī)模為369EFlops,智能算力規(guī)模為232EFlops,超算算力規(guī)模為14EFlops,預計2030年全球算力規(guī)模將達到56ZFlps,平均年均增長65%。我國智能算力規(guī)模持續(xù)高速增長,2021年智能算力規(guī)模已經超過通用算力。根據中國信通院數據,我國計算設備算力總規(guī)模達到202EFlops,全球占比約為33%,保持50%以上的高速增長態(tài)勢,增速高于全球,其中智能算力增長迅速,增速為85%,在我國算力中的占比超過50%。1.3AI算力產業(yè)鏈涉及環(huán)節(jié)較多,行業(yè)需求有望全面提升AI算力產業(yè)鏈涉及環(huán)節(jié)較多,按照算力基礎設施構成來看,包括AI芯片及服務器、交換機及光模塊、IDC機房及上游產業(yè)鏈等。其中,隨著訓練和推理需求提升,AI芯片及服務器需求將率先放量;AI算力對數據中心內部數據流量較大,光模塊速率及數量均有顯著提升,交換機的端口數及端口速率也有相應的增長;IDC也有望進入需求釋放階段,預計液冷溫控滲透率將快速提升,海底數據中心也可能將迎來產業(yè)化的關鍵節(jié)點。1、AI芯片和服務器需求將率先放量根據測算,2023年-2027年全球大模型訓練端峰值算力需求量的年復合增長率為78.0%。2023年全球大模型訓練端所需全部算力換算成的A100總量超過200萬張。從云端推理所需算力角度測算,2023年-2027年,全球大模型云端推理的峰值算力需求量的年復合增長率為113%,如果考慮邊緣端AI推理的應用,推理端算力規(guī)模將進一步擴大。2、AI算力改變數據中心內部網絡架構,光模塊和交換機速率及需求提升AI數據中心中,由于內部數據流量較大,因此無阻塞的胖樹網絡架構成了重要需求之一,光模塊速率及數量均有顯著提升,交換機的端口數及端口速率也有相應的增長。800G光模塊2022年底開始小批量出貨,2023年需求主要來自于英偉達和谷歌,2024年有望大規(guī)模出貨,并存在時間前移的可能。從交換機的電口來看,SerDes通道的速率每四年翻倍,數量每兩年翻倍,交換機的帶寬每兩年翻倍;從光口來看,光模塊每4年升級一次,實際出貨時間是晚于電口SerDes及交換機芯片新版發(fā)布的時間。2019年作為100G光模塊升級的時間點,市場分成了200G和400G兩條升級路徑。但是在2023年這個時間點,市場下一代高速率光模塊均指向800G光模塊,疊加AIGC帶來的算力和模型競賽,我們預計北美各大云廠商和相關科技巨頭均有望在2024年大量采購800G光模塊,同時2023年也可能提前采購。3、IDC需求有望釋放,AI服務器高功率密度或將推升液冷滲透率IDC作為算力基礎設施產業(yè)鏈的關鍵環(huán)節(jié),也有望進入需求釋放階段。在過去兩年半,受多重因素影響下,云計算需求景氣度下行,但IDC建設與供給未出現(xiàn)明顯放緩,2021年和2022年分別新增機柜數量120萬架和150萬架,因此短期內出現(xiàn)供需失衡情況(核心區(qū)域供需狀況相對良好),部分地區(qū)上電率情況一般。所以IDC公司2022年業(yè)績普遍承壓。隨著平臺經濟發(fā)展恢復以及AI等拉動,IDC需求有望逐步釋放,疊加2023新增供給量有望較2022年減少(例如三大運營商2022年新增IDC機柜15.6萬架,2023年計劃新增11.4萬架)。人工智能大模型訓練和推理運算所用的GPU服務器的功率密度將大幅提升,以英偉達DGXA100服務器為例,其單機最大功率約可以達到6.5kW,大幅超過單臺普通CPU服務器500w左右的功率水平。在此情況下,一方面需要新建超大功率的機柜,另一方面為降低PUE,預計液冷溫控滲透率將快速提升,海底數據中心也可能將迎來產業(yè)化的關鍵節(jié)點。二、AI芯片需求爆發(fā)式增長2.1AI大規(guī)模落地應用對AI芯片性能、數量提出全方位要求從廣義上講,能運行AI算法的芯片都叫AI芯片。CPU、GPU、FPGA、NPU、ASIC都能執(zhí)行AI算法,但在執(zhí)行效率層面上有巨大的差異。CPU可以快速執(zhí)行復雜的數學計算,但同時執(zhí)行多項任務時,CPU性能開始下降,目前行業(yè)內基本確認CPU不適用于AI計算。CPU+xPU的異構方案成為大算力場景標配,GPU為應用最廣泛的AI芯片。目前業(yè)內廣泛認同的AI芯片類型包括GPU、FPGA、NPU等。由于CPU負責對計算機的硬件資源進行控制調配,也要負責操作系統(tǒng)的運行,在現(xiàn)代計算系統(tǒng)中仍是不可或缺的。GPU、FPGA等芯片都是作為CPU的加速器而存在,因此目前主流的AI計算系統(tǒng)均為CPU+xPU的異構并行。CPU+GPU是目前最流行的異構計算系統(tǒng),在HPC、圖形圖像處理以及AI訓練/推理等場景為主流選擇。IDC數據顯示,2021年中國AI芯片市場中,GPU市占率為89%。2.1.1GPU性能、功能經歷長期迭代升級,成為AI芯片中應用最廣泛的選擇GPU能夠進行并行計算,設計初衷是加速圖形渲染。NVIDIA在1999年發(fā)布GeForce256圖形處理芯片時首先提出GPU(GraphicProcessingUnit)的概念,并將其定義為“具有集成轉換、照明、三角形設置/裁剪和渲染引擎的單芯片處理器,能夠每秒處理至少1000萬個多邊形”。從計算資源占比角度看,CPU包含大量的控制單元和緩存單元,實際運算單元占比較小。GPU則使用大量的運算單元,少量的控制單元和緩存單元。GPU的架構使其能夠進行規(guī)?;⑿杏嬎?,尤其適合邏輯簡單,運算量大的任務。GPU通過從CPU承擔一些計算密集型功能(例如渲染)來提高計算機性能,加快應用程序的處理速度,這也是GPU早期的功能定位。GPU性能提升與功能豐富逐步滿足AI運算需要。2010年NVIDIA提出的Fermi架構是首個完整的GPU計算架構,其中提出的許多新概念沿用至今。Kepler架構在硬件上擁有了雙精度計算單元(FP64),并提出GPUDirect技術,繞過CPU/SystemMemory,與其他GPU直接進行數據交互。Pascal架構應用了第一代NVLink。Volta架構開始應用TensorCore,對AI計算加速具有重要意義。簡要回顧NVIDIAGPU硬件變革歷程,工藝、計算核心數增加等基礎特性的升級持續(xù)推動性能提升,同時每一代架構所包含的功能特性也在不斷豐富,逐漸更好地適配AI運算的需要。均衡分配資源的前提下,處理低精度的硬件單元數量更多,表現(xiàn)更高的算力性能。GPU作為加速器得到廣泛應用一定程度上得益于它的通用性,為了在不同精度的數據類型上具有良好的性能,以兼顧AI、科學計算等不同場景的需要,英偉達在分配處理不同數據類型的硬件單元時大體上保持均衡。因為低精度數據類型的計算占用更少的硬件資源,同一款GPU中的處理低精度數據類型的硬件單元的數量較多,對應計算能力也較強。以V100為例,每個SM中FP32單元的數量都為FP64單元的兩倍,最終V100的FP32算力(15.7TFLOPS)也近似為FP64(7.8TFLOPS)的兩倍,類似的規(guī)律也可以在各代架構旗艦P100、A100和H100中看到。TensorCore持續(xù)迭代提升其加速能力。Volta架構引入TensorCore的改動使GPU的AI算力有了明顯提升,后續(xù)在每一代的架構升級中,TensorCore都有比較大的改進,支持的數據類型也逐漸增多。以A100到H100為例,TensorCore由3.0迭代至4.0,H100在FP16TensorCore的峰值吞吐量提升至A100的3倍。同時,H100TensorCore支持新的數據類型FP8,H100FP8TensorCore的吞吐量是A100FP16TensorCore的6倍。數據訪問支配著計算能力利用率。AI運算涉及到大量數據的存儲與處理,根據Cadence數據,與一般工作負載相比,每臺AI訓練服務器需要6倍的內存容量。而在過去幾十年中,處理器的運行速度隨著摩爾定律高速提升,而DRAM的性能提升速度遠遠慢于處理器速度。目前DRAM的性能已經成為了整體計算機性能的一個重要瓶頸,即所謂阻礙性能提升的“內存墻”。除了性能之外,內存對于能效比的限制也成為一個瓶頸,Cadence數據顯示,在自然語言類AI負載中,存儲消耗的能量占比達到82%。硬件單元的改進與顯存升級增強了單張GPU算力的釋放,然而,隨著Transformer模型的大規(guī)模發(fā)展和應用,模型參數量呈爆炸式增長,GPT-3參數量達到了1750億,相比GPT增長了近1500倍,預訓練數據量更是從5GB提升到了45TB。大模型參數量的指數級增長帶來的諸多問題使GPU集群化運算成為必須:(1)即使最先進的GPU,也不再可能將模型參數擬合到主內存中。(2)即使模型可以安裝在單個GPU中(例如,通過在主機和設備內存之間交換參數),所需的大量計算操作也可能導致在沒有并行化的情況下不切實際地延長訓練時間。根據NVIDIA數據,在8個V100GPU上訓練一個具有1750億個參數的GPT-3模型需要36年,而在512個V100GPU上訓練需要7個月。NVIDIA開發(fā)NVLink技術解決GPU集群通信。在硬件端,GPU之間穩(wěn)定、高速的通信是實現(xiàn)集群運算所必須的條件。傳統(tǒng)x86服務器的互連通道PCIe的互連帶寬由其代際與結構決定,例如x16PCIe4.0雙向帶寬僅為64GB/s。除此之外,GPU之間通過PCIe交互還會與總線上的CPU操作競爭,甚至進一步占用可用帶寬。NVIDIA為突破PCIe互連的帶寬限制,在P100上搭載了首項高速GPU互連技術NVLink(一種總線及通訊協(xié)議),GPU之間無需再通過PCIe進行交互。NVDIA開發(fā)基于NVLink的芯片NVSwitch,作為GPU集群數據通信的“樞紐”。NVLink1.0技術使用時,一臺服務器中的8個GPU無法全部實現(xiàn)直接互連。同時,當GPU數量增加時,僅依靠NVLink技術,需要眾多數量的總線。為解決上述問題,NVIDIA在NVLink2.0時期發(fā)布了NVSwitch,實現(xiàn)了NVLink的全連接。NVSwitch是一款GPU橋接芯片,可提供所需的NVLink交叉網絡,在GPU之間的通信中發(fā)揮“樞紐”作用。借助于NVswitch,每顆GPU都能以相同的延遲和速度訪問其它的GPU。就程序來看,16個GPU都被視為一個GPU,系統(tǒng)效率得到了最大化,大大降低了多GPU系統(tǒng)的優(yōu)化難度。通過添加更多NVSwitch來支持更多GPU,集群分布式運算得以實現(xiàn)。當訓練大型語言模型時,NVLink網絡也可以提供顯著的提升。NVSwitch已成為高性能計算(HPC)和AI訓練應用中不可或缺的一部分。2.1.2NPU通過特殊架構設計對AI運算起到加速作用NPU在人工智能算法上具有較高的運行效率。為了適應某個特定領域中的常見的應用和算法而設計,通常稱之為“特定域架構(DomainSpecificArchitecture,DSA)”芯片,NPU(神經網絡處理器)屬于其中一種,常被設計用于神經網絡運算的加速。以華為手機SoC麒麟970為例,NPU對圖像識別神經網絡的運算起到了顯著加速效果,使其圖像識別速度明顯優(yōu)于同代競品的表現(xiàn)。目前已量產的NPU或搭載NPU模塊的芯片眾多,其他知名的芯片包括谷歌TPU、華為昇騰、特斯拉FSD、特斯拉Dojo等。各家廠商在計算核心的設計上有其差異,例如谷歌TPU的脈動陣列,華為昇騰的達芬奇架構。以谷歌TPU及計算核心結構脈動陣列為例,對比其相較于CPU、GPU的區(qū)別:CPU和GPU均具有通用性,但以頻繁的內存訪問導致資源消耗為代價。CPU和GPU都是通用處理器,可以支持數百萬種不同的應用程序和軟件。對于ALU中的每一次計算,CPU、GPU都需要訪問寄存器或緩存來讀取和存儲中間計算結果。由于數據存取的速度往往大大低于數據處理的速度,頻繁的內存訪問,限制了總吞吐量并消耗大量能源。谷歌TPU并非通用處理器,而是將其設計為專門用于神經網絡工作負載的矩陣處理器。TPU不能運行文字處理器、控制火箭引擎或執(zhí)行銀行交易,但它們可以處理神經網絡的大量乘法和加法,速度極快,同時消耗更少的能量,占用更小的物理空間。TPU內部設計了由乘法器和加法器構成的脈動陣列。在計算時,TPU將內存中的參數加載到乘法器和加法器矩陣中,每次乘法執(zhí)行時,結果將傳遞給下一個乘法器,同時進行求和。所以輸出將是數據和參數之間所有乘法結果的總和。在整個海量計算和數據傳遞過程中,完全不需要訪問內存。這就是為什么TPU可以在神經網絡計算上以低得多的功耗和更小的占用空間實現(xiàn)高計算吞吐量。NPU已經在AI運算加速領域獲得了廣泛應用。在數據中心獲得大規(guī)模應用的NPU案例即TPU,已被谷歌用于構建數據中心的超級計算機,執(zhí)行特定神經網絡的訓練任務。在用戶端,手機、汽車、智能安防攝像頭等設備開始搭載AI計算功能,通常是利用訓練好的神經網絡模型執(zhí)行圖像處理等工作,此時NPU通用性差的劣勢被縮小,高算力、高能耗比的優(yōu)勢被放大,因而得到了廣泛的應用。在終端設備中,NPU常以模塊的形式包含在SoC內部,對AI運算進行加速,例如特斯拉自動駕駛芯片F(xiàn)SD均包含NPU。2.1.3訓練/推理、云/邊分別對AI芯片提出不同要求,未來推理端的算力需求將遠超訓練端AI技術在實際應用中包括兩個環(huán)節(jié):訓練(Training)和推理(Inference)。訓練是指通過大數據訓練出一個復雜的神經網絡模型,使其能夠適應特定的功能。訓練需要較高的計算性能、能夠處理海量數據、具有一定的通用性。推理是指利用訓練好的神經網絡模型進行運算,利用輸入的新數據來一次性獲得正確結論的過程。根據所承擔任務的不同,AI芯片可以分為訓練AI芯片和推理AI芯片:(1)訓練芯片:用于構建神經網絡模型,需要高算力和一定的通用性。(2)推理芯片:利用神經網絡模型進行推理預測,注重綜合指標,單位能耗算力、時延、成本等都要考慮。根據AI芯片部署的位置,可以分為云端AI芯片和邊緣端AI芯片:(1)云端:即數據中心,關注算力、擴展能力、兼容性。云端部署的AI芯片包括訓練芯片和推理芯片。(2)邊緣端:即手機、安防攝像頭等領域,關注綜合性能,要求低功耗、低延時、低成本。邊緣端部署的AI芯片以實現(xiàn)推理功能為主。云端推理占比逐步提升,AI落地應用數量增加。根據IDC數據,隨著人工智能進入大規(guī)模落地應用的關鍵時期,2022年在云端部署的算力里,推理占算力已經達到了58.5%,訓練占算力只有41.5%,預計到2026年,推理占到62.2%,訓練占37.8%。云端推理占比逐步提升說明,AI落地應用數量正在不斷增加,人工智能模型將逐步進入廣泛投產模式。帶寬、互連速率的限制,使云端超大規(guī)模的模型推理選擇A100、H100更優(yōu),而非T4、A10等推理卡。以GPT-3為例,OpenAI數據顯示GPT-3模型1750億參數對應超過350GB的GPU顯存需求。假設參數規(guī)模與所需顯存呈線性關系,且推理的中間參數量按1倍估算,則1萬億參數規(guī)模的大模型推理需要約4000GB顯存,則需要50張A100(80GB)或者167張A10(24GB)。集群中的GPU數量越多意味著更復雜的互連要求,而且A10無法應用NVLink和NVSwitch技術,大量A10組成的集群僅依靠PCIe通信,互連帶寬相比A100等顯卡的劣勢明顯,進而可能導致模型推理的時效性不佳。經測算,AI大模型在訓練端和推理端都將產生巨量的算力/AI芯片需求。如果未來大模型廣泛商用落地,推理端的算力/AI芯片的需求量將明顯高于訓練端。大模型云端訓練對算力的需求測算:測算原理:從模型的(1)參數規(guī)模入手,根據(2)訓練大模型所需的Token數量和(3)每Token訓練成本與模型參數量的關系估算總算力需求,再考慮(4)單張GPU算力和(5)GPU集群的算力利用率推導得出GPU總需求。(1)參數規(guī)模:過去幾年,大模型的參數量呈指數上升,GPT-3模型參數量已達到1750億。GPT-4具有多模態(tài)能力,其參數量相比GPT-3會更大。我們在測算中假設2023年多模態(tài)大模型的平均參數量達到10000億個,之后每年保持20%的增速;普通大模型的平均參數量達到2000億個,之后每年保持20%的增速。(2)訓練大模型所需的Token數量:參數規(guī)模在千億量級的自然語言大模型GPT-3、Jurassic-1、Gopher、MT-NLG,訓練所需的Token數量在千億量級,而一些多模態(tài)大模型在訓練過程中所需Token數據量也跟隨參數量增長而增長,我們在測算中假設多模態(tài)大模型訓練所需Token數量達到萬億級別,并且Token數量與模型參數規(guī)模保持線性增長關系。(3)每Token訓練成本與模型參數量的關系:參考OpenAI發(fā)布的論文《ScalingLawsforNeuralLanguageModels》中的分析,每個token的訓練成本通常約為6N,其中N是LLM的參數數量,我們在測算中遵循這一關系。具體原理如下,神經網絡的訓練過程包括前向傳播和反向傳播兩個過程,其中大致包括四個步驟:1.做一個單次的推理操作,得到輸出y,例如輸入貓的圖片得到輸出0.986。2.求到輸出y與真實的目標輸出Y(假定設置的目標輸出Y=1)之間的差值(4)單張GPU算力:因為在訓練大模型時,主要依賴可實現(xiàn)的混合精度FP16/FP32FLOPS,即FP16TensorCore的算力,我們在測算中選取A100SXM和H100SXM對應的算力312TFLOPS和990TFLOPS作為參數。(5)GPU集群的算力利用率:參考GoogleResearch發(fā)布的論文《PaLM:ScalingLanguageModelingwithPathways》中的分析,我們在測算中假設算力利用率約為30%。大模型云端推理對算力的需求測算:在云端推理場景下,我們分別從云端推理所需算力和云端模型部署所需顯存兩個維度分別進行測算。算力角度的測算原理:基于前文對參數規(guī)模、模型數量等數據的假設,根據(1)大模型日活用戶人數、(2)每人平均查詢Token數量、(3)每Token推理成本與模型參數量的關系估算推理端總算力需求,再考慮(4)單張GPU算力和GPU集群的算力利用率推導得出GPU總需求。(1)大模型日活用戶人數:根據Similarweb統(tǒng)計數據,2023年1月ChatGPT的日活用戶數達到1300萬。我們在測算中假設2023年多模態(tài)大模型的平均日活量達到2000萬,普通大模型的平均日活量達到1000萬,之后每年保持快速增長。(2)每人平均查詢Token數量:根據OpenAI數據,平均每1000個Token對應750個單詞,我們在測算中假設每位用戶平均查詢的Token數量維持在1000個。(3)每Token推理成本與模型參數量的關系:參考OpenAI發(fā)布的論文《ScalingLawsforNeuralLanguageModels》中的分析,每個token的推理成本通常約為2N,其中N是LLM的參數數量,我們在測算中遵循這一關系。(4)單張GPU算力:由于測算中的大模型參數量級分別在千億量級和萬億量級,考慮帶寬容量和集群計算中的帶寬限制,我們在測算中假設采用H100或A100作為云端推理卡。根據所有假設及可以得到,從云端推理所需算力角度測算,2023年-2027年,全球大模型云端推理的峰值算力需求量的年復合增長率為113%。顯存角度測算原理:首先,目前SKHynix已開發(fā)出業(yè)界首款12層24GBHBM3,考慮到一張GPU板卡面積有限,限制了計算核心周圍可布置的HBM數量,因此未來一段時間內,GPU顯存容量的提升空間較小。其次,推理最主要的需求是時效性,為了滿足時效性,模型所需要的存儲空間需要放到顯存內。綜合GPU板卡HBM容量有限和推理端模型需放置在GPU顯存中這兩個條件,我們從模型推理端運行所需顯存入手,先預估推理端運行一個大模型所需顯存容量(1),再假設業(yè)務場景中大模型的峰值訪問量,并以此得到總體的顯存需求(2),最終得到算力/AI芯片的需求。(1)運行一個模型所需顯存:以1750億參數的GPT-3模型為例,OpenAI數據顯示參數存儲需要350GB空間。假設推理計算中間產生的參數按照一倍計算,因此推理至少需要700GB顯存空間,即部署一個模型需要9張80GB顯存版本的A100。(2)業(yè)務場景部署模型量及所需顯存:假設該模型能夠同時處理的并發(fā)任務數量為100,即9張A10080GB處理100用戶同時并發(fā)訪問。業(yè)務場景部署以搜索引擎為例,假設最高并發(fā)訪問人數為2000萬,則需要2000萬/100*9=180萬張A10080GB。2.2英偉達龍頭地位穩(wěn)固,國內廠商正逐步追趕海外龍頭廠商占據壟斷地位,AI加速芯片市場呈現(xiàn)“一超多強”態(tài)勢。數據中心CPU市場上,英特爾份額有所下降但仍保持較大領先優(yōu)勢,AMD持續(xù)搶占份額勢頭正盛。AI加速芯片市場上,英偉達憑借硬件優(yōu)勢和軟件生態(tài)一家獨大,在訓練、推理端均占據領先地位。根據LiftrInsights數據,2022年數據中心AI加速市場中,英偉達份額達82%,其余海外廠商如AWS和Xilinx分別占比8%、4%,AMD、Intel、Google均占比2%。國內廠商起步較晚正逐步發(fā)力,部分加速芯片領域已經涌現(xiàn)出一批破局企業(yè),但目前多為初創(chuàng)企業(yè)規(guī)模較小,技術能力和生態(tài)建設仍不完備,在高端AI芯片領域與海外廠商仍存在較大差距。未來,隨著美國持續(xù)加大對中國高端芯片的出口限制,AI芯片國產化進程有望加快。GPU市場方面,海外龍頭占據壟斷地位,國產廠商加速追趕。當前英偉達、AMD、英特爾三巨頭霸占全球GPU芯片市場的主導地位。集成GPU芯片一般在臺式機和筆記本電腦中使用,性能和功耗較低,主要廠商包括英特爾和AMD;獨立顯卡常用于服務器中,性能更高、功耗更大,主要廠商包括英偉達和AMD。分應用場景來看,應用在人工智能、科學計算、視頻編解碼等場景的服務器GPU市場中,英偉達和AMD占據主要份額。根據JPR,2023年Q1英偉達的獨立顯卡(包括AIB合作伙伴顯卡)的市場份額達84%,AMD和Intel則分別占比12%、4%。圖形渲染GPU:英偉達引領行業(yè)數十年,持續(xù)技術迭代和生態(tài)構建實現(xiàn)長期領先。2006年起,英偉達GPU架構保持約每兩年更新一次的節(jié)奏,各代際產品性能提升顯著,生態(tài)構建完整,Geforce系列產品市占率長期保持市場首位,最新代際GeForceRTX40系列代表了目前顯卡的性能巔峰,采用全新的AdaLovelace架構,臺積電5nm級別工藝,擁有760億晶體管和18000個CUDA核心,與Ampere相比架構核心數量增加約70%,能耗比提升近兩倍,可驅動DLSS3.0技術。性能遠超上代產品。AMD獨立GPU在RDNA架構迭代路徑清晰,RDNA3架構采用5nm工藝和chiplet設計,比RDNA2架構有54%每瓦性能提升,預計2024年前RDNA4架構可正式發(fā)布,將采用更為先進的工藝制造。目前國內廠商在圖形渲染GPU方面與國外龍頭廠商差距不斷縮小。芯動科技的“風華2號”GPU像素填充率48GPixel/s,F(xiàn)P32單精度浮點性能1.5TFLOPS,AI運算(INT8)性能12.5TOPS,實測功耗4~15W,支持OpenGL4.3、DX11、Vulkan等API,實現(xiàn)國產圖形渲染GPU突破。景嘉微在工藝制程、核心頻率、浮點性能等方面雖落后于英偉達同代產品,但差距正逐漸縮小。2023年順利發(fā)布JM9系列圖形處理芯片,支持OpenGL4.0、HDMI2.0等接口,以及H.265/4K60-fps視頻解碼,核心頻率至少為1.5GHz,配備8GB顯存,浮點性能約1.5TFlops,與英偉達GeForceGTX1050性能相近,有望對標GeForceGTX1080。GPGPU:英偉達和AMD是目前全球GPGPU的領軍企業(yè)。英偉達的通用計算芯片具備優(yōu)秀的硬件設計,通過CUDA架構等全棧式軟件布局,實現(xiàn)了GPU并行計算的通用化,深度挖掘芯片硬件的性能極限,在各類下游應用領域中,均推出了高性能的軟硬件組合,逐步成為全球AI芯片領域的主導者。根據stateof.AI2022報告,英偉達芯片在AI學術論文中的出現(xiàn)頻次遠超其他類型的AI芯片,是學術界最常用的人工智能加速芯片。在Oracle以及騰訊云中,也幾乎全部采用英偉達的GPU作為計算加速芯片。AMD2018年發(fā)布用于數據中心的RadeonInstinctGPU加速芯片,Instinct系列基于CDNA架構,如MI250X采用CDNA2架構,在通用計算領域實現(xiàn)計算能力和互聯(lián)能力的顯著提升,此外還推出了對標英偉達CUDA生態(tài)的AMDROCm開源軟件開發(fā)平臺。英偉達的H100及A100、AMD的MI100、MI200系列等是當前最為主流的GPGPU產品型號。ASIC市場方面,由于其一定的定制化屬性,市場格局較為分散。在人工智能領域,ASIC也占據一席之地。其中谷歌處于相對前沿的技術地位,自2016年以來,就推出了專為機器學習定制的ASIC,即張量處理器(TensorProcessingUnit,TPU),近期,谷歌首次公布了其用于訓練人工智能模型的AI芯片TPUv4的詳細信息,其采用低精度計算,在幾乎不影響深度學習處理效果的前提下大幅降低了功耗、加快運算速度,同時使用了脈動陣列等設計來優(yōu)化矩陣乘法與卷積運算,對大規(guī)模矩陣的乘法可以最大化數據復用,減少訪存次數,大幅提升Transformer模型的訓練速度,同時節(jié)約訓練成本。谷歌稱在同等規(guī)模系統(tǒng)下基于TPU的谷歌超級計算機比基于英偉達A100芯片的系統(tǒng)最高快1.7倍,節(jié)能效率提高1.9倍。谷歌TPU屬于定制化ASIC芯片,是專門為神經網絡和TensorFlow學習框架等量身打造的集成芯片,需要在這類特定框架下才能發(fā)揮出最高運行效率。生態(tài)體系決定用戶體驗,是算力芯片廠商最深的護城河。雖然英偉達GPU本身硬件平臺的算力卓越,但其強大的CUDA軟件生態(tài)才是推升其GPU計算生態(tài)普及的關鍵力量。從技術角度來講,GPU硬件的性能門檻并不高,通過產品迭代可以接龍頭領先水平,但下游客戶更在意能不能用、好不好用的生態(tài)問題。CUDA推出之前GPU編程需要機器碼深入到顯卡內核才能完成任務,而推出之后相當于把復雜的顯卡編程包裝成為一個簡單的接口,造福開發(fā)人員,迄今為止已成為最發(fā)達、最廣泛的生態(tài)系統(tǒng),是目前最適合深度學習、AI訓練的GPU架構。英偉達在2007年推出后不斷改善更新,衍生出各種工具包、軟件環(huán)境,構筑了完整的生態(tài),并與眾多客戶合作構建細分領域加速庫與AI訓練模型,已經積累300個加速庫和400個AI模型。尤其在深度學習成為主流之后,英偉達通過有針對性地優(yōu)化來以最佳的效率提升性能,例如支持混合精度訓練和推理,在GPU中加入TensorCore來提升卷積計算能力,以及最新的在H100GPU中加入TransformerEngine來提升相關模型的性能。這些投入包括了軟件和芯片架構上的協(xié)同設計,使得英偉達能使用最小的代價來保持性能的領先。而即便是英偉達最大的競爭對手AMD的ROCm平臺在用戶生態(tài)和性能優(yōu)化上還存在差距。CUDA作為完整的GPU解決方案,提供了硬件的直接訪問接口,開發(fā)門檻大幅降低,而這套易用且能充分調動芯片架構潛力的軟件生生態(tài)讓英偉達在大模型社區(qū)擁有巨大的影響力。正因CUDA擁有成熟且性能良好的底層軟件架構,故幾乎所有的深度學習訓練和推理框架都把對于英偉達GPU的支持和優(yōu)化作為必備的目標,幫助英偉達處于持續(xù)處于領先地位。英偉達領先地位穩(wěn)固。英偉達憑借良好的硬件性能和完善的CUDA生態(tài)將持續(xù)處于領先地位,但起步較晚的挑戰(zhàn)者也在奮起直追,未來有望出現(xiàn)一超多強的多元化競爭格局。訓練市場方面,英偉達高算力GPU是當前AI訓練主流選擇,谷歌TPU面臨著通用性的局限,AMD存在生態(tài)構建差距,但在二者的沖擊及云廠商自研芯片的競爭下,AI訓練市場也或將出現(xiàn)格局的變動。推理市場方面,GPU具有較好的生態(tài)延續(xù)性仍占主流,如英偉達針對推理市場的產品TeslaT4上的芯片包含了2560個CUDA內核,性能達到了FP640.25TFLOPS、FP328.1TFLOPS、INT8達130TOPS,可提供多精度推理性能,以及優(yōu)于CPU40倍的低延時高吞吐量,可以實時滿足更多的請求。但其他解決方案在成本、功耗具有優(yōu)勢,特定市場競爭格局相對激烈,工作負載不同對應的芯片性能需求不同,T4PCIe,有望出現(xiàn)各類芯片共存的局面。國內算力芯片廠商具備較好的入局機會。國產算力芯片市場需求巨大,國內人工智能生態(tài)環(huán)境較好,在AI應用領域的步伐處于全球前列,國產GPU廠商具孵化和發(fā)展的沃土,國內廠商供應鏈多元化的需求帶來了國內AI芯片廠商適配窗口期,尤其是當前大模型發(fā)展早期是適配的黃金窗口期。其中,寒武紀、華為等兼容CUDA和自建生態(tài)是國產廠商發(fā)展的兩大趨勢,具備很大的競爭力潛力。短期來看,國內廠商兼容英偉達CUDA,可以減輕開發(fā)和遷移難度,進而快速實現(xiàn)客戶端導入。同時需要避開英偉達絕對優(yōu)勢領域,在芯片設計結構上形成差異化競爭;長期來看,國產GPU如果完全依賴CUDA生態(tài),硬件更新將不得不綁定英偉達的開發(fā)進程,應借鑒AMD、Google構建自身生態(tài)體系,開展軟硬件結合的平臺化布局,并打造不同領域快速落地垂直解決方案的能力,鑄造自己的生態(tài)圈核心壁壘。預計硬件性能高效以及能夠構建符合下游需求的生態(tài)體系的國產廠商有望脫穎而出。2.3先進封裝成為高性價比替代方案,存算一體應用潛力巨大2.3.1先進封裝:后摩爾定律時代的創(chuàng)新方向,先進制程的高性價比替代方案大算力芯片要求性能持續(xù)提升,后摩爾時代急需高性價比解決方案。隨著大模型參數增加,AI大模型對于算力需求大幅提升,GPU等大算力芯片的性能提升遭遇兩大瓶頸:一方面,進入28nm以后摩爾定律逐漸失效,先進制程的成本快速提升。根據IBS統(tǒng)計在達到28nm制程節(jié)點以后,如果繼續(xù)縮小制程節(jié)點數,每百萬門晶體管的制造成本不降反升,摩爾定律開始失效。而且應用先進制程的芯片研發(fā)費用大幅增長,5nm制程的芯片研發(fā)費用增至5.42億美元,幾乎是28nm芯片研發(fā)費用的10.6倍,高額的研發(fā)門檻進一步減少了先進制程的應用范圍。另一方面,內存帶寬增長緩慢,限制處理器性能。在傳統(tǒng)PCB封裝中,走線密度和信號傳輸速率難以提升,因而內存帶寬緩慢增長,導致來自存儲帶寬的開發(fā)速度遠遠低于處理器邏輯電路的速度,帶來“內存墻”的問題。為了使異構集成的Chiplet封裝實現(xiàn),需要借助到2D/2.1D/2.3D/2.5D/3D等一系列先進封裝工藝。先進封裝的不同層次主要依據多顆芯片堆疊的物理結構和電氣連接方式劃分,例如2D封裝中的芯片直接連接到基板,其他封裝則以不同形式的中介層完成互聯(lián)。其中,2.5D封裝常用于計算核心與HBM的封裝互連,3D封裝常用于HBM顯存的多層堆疊,并有望用于不同IC的異構集成。1)CoWoS:2.5D封裝重要解決方案,實現(xiàn)計算核心與HBM封裝互連計算核心與HBM通過2.5D封裝互連,臺積電開發(fā)的CoWoS封裝技術為廣泛使用的解決方案。臺積電早在2011年推出CoWoS技術,并在2012年首先應用于Xilinx的FPGA上。此后,華為海思、英偉達、谷歌等廠商的芯片均采用了CoWoS,例如GP100(P100顯卡核心),TPU2.0。如今CoWoS已成為HPC和AI計算領域廣泛應用的2.5D封裝技術,絕大多數使用HBM的高性能芯片,包括大部分創(chuàng)企的AI訓練芯片都應用了CoWoS技術。CoWoS-S基于硅中介層(Si-interposer)為先進SoC和HBM提供系統(tǒng)集成,在GPU等算力芯片的封裝中應用廣泛。CoWoS-S的特點是混合了寬帶內存模塊HBM(HighBandwidthMemory)和大規(guī)模SoC的高性能子系統(tǒng),通過Si中介層連接HBM和SoC,實現(xiàn)了寬帶內存訪問。CoWoS-S最早于2011年開發(fā),經歷5代發(fā)展。最初,安裝在中介層上的硅芯片是多個邏輯芯片,采用該技術的賽靈思高端FPGA“7V2000T”在CoWoS-S中配備了四個FPGA邏輯芯片。第3代開始支持邏輯和內存的混合加載。第5代CoWoS-S技術使用了全新的TSV解決方案,更厚的銅連接線,晶體管數量是第3代的20倍,硅中介層擴大到2500mm2,相當于3倍光罩面積,擁有8個HBM2E堆棧的空間,容量高達128GB。第6代技術有望于2023年推出,將會在基板上封裝2顆運算核心,同時可以板載多達12顆HBM緩存芯片。CoWoS幫助臺積電取得英偉達、AMD等高性能計算芯片訂單。根據DIGITIMES報道,微軟已與臺積電及其生態(tài)系統(tǒng)合作伙伴接洽,商討將CoWoS封裝用于其自己的AI芯片。英偉達高端GPU都采用CoWoS封裝技術將GPU芯片和HBM集合在一起。TeslaP100通過加入采用HBM2的CoWoS第三代技術,將計算性能和數據緊密集成在同一個程序包內,提供的內存性能是NVIDIAMaxwell架構的三倍以上。V100、A100、等高端GPU,均采用臺積電CoWoS封裝,分別配備32GBHBM2、40GBHBM2E內存,全新Hopper架構的H100GPU也采用CoWoS封裝,具有80GB的HBM3內存和超高的3.2TB/s內存帶寬。AMD也將重新采用CoWoS封裝。根據DIGITIMES報道,AMDMI200原本由日月光集團與旗下矽品提供,應用FO-EB先進封裝(扇出嵌入式橋接),而新MI系列數據中心加速器芯片將重新采用臺積電先進封裝CoWoS?;贏ldebaranGPU的MI250或采用第五代CoWoS封裝技術,可實現(xiàn)128GBHBM2E內存等超高性能配置。2)HBM:3D封裝打造多層堆疊內存,突破容量與帶寬瓶頸HBM采用3D封裝,通過TSV將多個DRAMdie垂直堆疊。在后摩爾時代,存儲帶寬制約了計算系統(tǒng)的有效帶寬,導致芯片算力性能提升受到限制,HBM應運而生,與傳統(tǒng)DRAM不同,HBM是3D結構,它使用TSV技術將數個DRAM裸片堆疊起來,形成立方體結構,即DRAM芯片上搭上數千個細微孔并通過垂直貫通的電極連接上下芯片;DRAM下面是DRAM邏輯控制單元,對DRAM進行控制。從技術角度看,HBM促使DRAM從傳統(tǒng)2D加速走向立體3D,充分利用空間、縮小面積,契合半導體行業(yè)小型化、集成化的發(fā)展趨勢。HBM和硅互聯(lián)技術突破了內存容量與帶寬瓶頸,被視為新一代DRAM解決方案。而相較傳統(tǒng)封裝方式,TSV技術能夠縮減30%體積,并降低50%能耗。HBM相對傳統(tǒng)內存數據傳輸線路的數量大幅提升。存儲器帶寬指單位時間內可以傳輸的數據量,要想增加帶寬,最簡單的方法是增加數據傳輸線路的數量。在典型的DRAM中,每個芯片有八個DQ引腳2,也就是數據輸入/輸出引腳。在組成DIMM3模塊單元之后,共有64個DQ引腳。然而,隨著系統(tǒng)對DRAM和處理速度等方面的要求有所提高,數據傳輸量也在增加。因此,DQ引腳的數量(D站的出入口數量)已無法保證數據能夠順利通過。HBM由于采用了系統(tǒng)級封裝(SIP)4和硅通孔(TSV)技術,擁有高達1024個DQ引腳,但其外形尺寸(指物理面積)卻比標準DRAM小10倍以上。由于傳統(tǒng)DRAM需要大量空間與CPU和GPU等處理器通信,而且它們需要通過引線鍵合5或PCB跡線6進行連接,因此DRAM不可能對海量數據進行并行處理。相比之下,HBM產品可以在極短距離內進行通信,增加了DQ路徑,顯著加快了信號在堆疊DRAM之間的傳輸速度,實現(xiàn)了低功耗、高速的數據傳輸。HBM正在成為AI服務器GPU的標配。AI服務器需要在短時間內處理大量數據,對帶寬提出了更高的要求,HBM成為了重要的解決方案。AI服務器GPU市場以NVIDIAH100、A100、A800以及AMDMI250、MI250X系列為主,基本都配備了HBM。HBM方案目前已演進為較為主流的高性能計算領域擴展高帶寬的方案。SK海力士HBM3顯存的樣品已通過NVIDIA的性能評估工作,在2022年6月向NVIDIA正式供貨,2023GTC大會發(fā)布的ChatGPT專用最新H100NVLGPU,也配置了188GBHBM3e內存;RambusHBM3或將在2023年流片,實際應用于數據中心、AI、HPC等領域。IDC數據顯示,2019年中國AI加速服務器單機GPGPU搭載量最多達到20顆,加權平均數約為8顆/臺。單顆GPU配套的HBM顯存存儲容量達到80GB,對應價值量約為800美元。SK海力士是HBM開發(fā)的先行者,并在技術開發(fā)和市場份額上占據領先地位。2014年,SK海力士與AMD聯(lián)合開發(fā)了全球首款HBM產品。SK海力士的HBM3發(fā)布7個月后實現(xiàn)了量產,將搭載于NVIDIAH100之上。根據BussinessKorea的報道,SK海力士在HBM市場已獲得60%-70%的市場份額。SK海力士之后,三星、美光推出了各自的HBM產品,分別迭代至HBM3和HBM2E。晶圓代工廠商包括如臺積電、格芯等也在發(fā)力HBM相關的封裝技術。隨著HBM3的性能提升,未來市場空間廣闊。以位元計算,目前HBM占整個DRAM市場比重僅約1.5%,滲透率提升空間較大。在將GPU等AI芯片推向高峰的同時,也極大帶動了市場對新一代內存芯片HBM(高帶寬內存)的需求,據悉,2023年開年以來,三星、SK海力士的HBM訂單就快速增加,價格也水漲船高。根據統(tǒng)計,2023-2025年HBM市場CAGR有望成長至40-45%以上,至2025年市場規(guī)模有望快速增至25億美元。3)3DIC:多芯片垂直堆疊增強互聯(lián)帶寬,未來發(fā)展?jié)摿薮?DIC是指使用FAB工藝在單個芯片上堆疊多個器件層,包括多Logic芯片間的堆疊。與2.5D封裝相比,3DIC封裝在互連方式有所不同。2.5D封裝是通過TSV轉換板連接芯片,而3DIC封裝是將多個芯片垂直堆疊在一起,并通過直接鍵合技術實現(xiàn)芯片間的互連。在2.5D結構中,兩個或多個有源半導體芯片并排放置在硅中介層上,以實現(xiàn)極高的芯片到芯片互連密度。在3D結構中,有源芯片通過芯片堆疊集成,以實現(xiàn)最短的互連和最小的封裝尺寸。另一方面,2.5D封裝和3DIC封裝的制造工藝也有所不同,2.5D封裝需要制造硅基中介層,并且需要進行微影技術等復雜的工藝步驟;而3DIC封裝需要進行直接鍵合技術等高難度的制造工藝步驟。當前3DIC封裝主流產品包括臺積電SoIC技術、英特爾Foveros技術和三星X-Cube技術。2.3.2存算一體:解決傳統(tǒng)馮諾依曼架構“存儲墻”,能效比提升潛力巨大存算一體有望解決傳統(tǒng)馮諾依曼架構下的“存儲墻”。由于處理器的設計以提升計算速度為主,存儲則更注重容量提升和成本優(yōu)化,“存”“算〞之間性能失配,從而導致了訪存帶寬低、時延長、功耗高等問題,即通常所說的“〝存儲墻〞和“功耗墻”。訪存愈密集,“墻”的問題愈嚴重,算力提升愈困難。隨著以人工智能計算單元為代表的訪存密集型應用快速崛起,訪存時延和功耗開銷無法忽視,計算架構的變革顯得尤為迫切。存算一體作為一種新型算力,指計算單元與存儲單元融合,在完成數據存儲功能的同時可以直接進行計算,有望解決傳統(tǒng)馮諾依曼架構下的“存儲墻〞、“功耗墻〞問題,以其巨大的能效比提升潛力,有望成為人工智能時代的先進應用技術。存儲墻:數據搬運慢、搬運能耗大等問題是高速計算的關鍵瓶頸。從處理單元外的存儲器提取數據,搬運時間往往是運算時間的成百上千倍,整個過程的無用能耗大概在60%-90%之間,能效非常低。PIM:用硅通孔(ThroughSiliconVia,TSV,2010年實現(xiàn))技術將計算單元塞進內存上下bank之間。CIM:計算操作由位于存儲芯片/區(qū)域內部的獨立計算單元完成,存儲和計算可以是模擬的也可以是數字的。這種路線一般用于算法固定的場景算法計算。目前主要路線是基于NORflash,多數情況下存儲容量較小,這使得NORflash單片算力達到1TOPS以上器件代價較大,通常業(yè)內大算力一般是20-100TOPS以上。而其他存儲器,包括SRAM、RRAM等,可以用來做到大算力的存算一體。科研院所與龍頭廠商積極布局,未來市場潛力較大。2011年,存算一體芯片開始受到學界關注,2016-2017年成為學界熱議話題,隨之而來學術大佬與業(yè)界領軍廠商紛紛開啟其商業(yè)化探索。科研院所方面,加州大學圣芭芭拉分校謝源教授團隊致力于在新型存儲器件ReRAM(阻變存儲)里面實現(xiàn)計算的功能研究,即PRIME架構。清華大學劉勇攀教授團隊和汪玉教授團隊均參與了PRIME架構的研發(fā),目前已實現(xiàn)在150nm工藝下流片,在阻變存儲陣列里實現(xiàn)了計算存儲一體化的神經網絡,功耗降低20倍,速度提高50倍。此外,清華大學與SK海力士聯(lián)合成立智能存儲計算芯片聯(lián)合研究中心,未來五年,中心將致力于研發(fā)存算一體與近存儲處理技術。在產業(yè)應用方面,英特爾、博世、美光、LamResearch、應用材料、微軟、亞馬遜、軟銀都投資了NOR閃存存算一體芯片。其中,英特爾發(fā)布的傲騰固態(tài)盤采用片外存儲技術,實現(xiàn)CPU與硬盤之間數據高速搬運,從而平衡高級分析和人工智能等大規(guī)模內存工作負載的性價比。SK海力士在今年的ISSCC發(fā)表存內計算的開發(fā)成果-基于GDDR接口的DRAM存內計算,并展示了其首款基于存內計算技術產品-GDDR6-AiM的樣本。根據量子位智庫預計,2030年基于存算一體的大算力芯片將實現(xiàn)規(guī)模量產,應用場景覆蓋大數據檢索、蛋白質/基因分析、數據加密、圖像處理等。2030年,基于存算一體技術的中小算力芯片市場規(guī)模約為1069億人民幣,基于存算一體技術的大算力芯片市場規(guī)模約為67億人民幣,總市場規(guī)模約為1136億人民幣。三、AI服務器滲透率快速提升3.1AI服務器是算力基礎設施最主要的硬件,訓練型主要成本來自于GPU芯片3.1.1AI服務器采用異構架構,主流結構為CPU+多顆GPU與普通服務器的絕大多數空間分配給CPU相比,AI服務器是采用異構形式的服務器,在異構方式上可以根據應用的范圍采用不同的組合方式,一般采取CPU+多顆GPU的架構,也有CPU+TPU、CPU+其他的加速卡等組合。相較普通服務器,AI服務器更擅長并行運算,具有高帶寬、性能優(yōu)越、能耗低等優(yōu)點。在大模型的預訓練中,一方面?zhèn)戎貙ξ谋旧舷挛牡睦斫猓硪环矫嫠惴ㄉ洗嬖诖罅康南蛄?、矩陣計算,這讓并行計算的AI服務器更擅長處理大模型的預訓練任務。人工智能與通用大模型作為數字經濟中的新興行業(yè),帶動了大量的算力需求,也成為國內算力基礎設施建設中最主要的硬件之一。以GPU為核心的異構服務器未來將成為主流。對比CPU和GPU的內部架構,CPU采用整塊的ALU(運算單元),且大量空間用于控制單元和緩存,串行計算能力強;而GPU采用分立的大量ALU,很少空間分配給控制單元和緩存,并行計算能力強。而由于圖像識別、視覺效果處理、虛擬現(xiàn)實、大模型訓練等任務都包含大量的簡單重復計算、矩陣計算等,更適合用搭載GPU更多的異構型AI服務器進行處理,而隨著企業(yè)的智能化變革和通用大模型的興起,以GPU為核心的異構型AI服務器將在算力基礎設施建設中占據愈發(fā)重要的地位。3.1.2AI服務器產業(yè)鏈上下游&成本結構拆解AI服務器產業(yè)鏈上游主要由服務器元器件生產商組成,其中CPU、GPU作為核心組件,主要由Intel、AMD、Nvidia供應,國產供應商占比較少,其他部件包括內存、SSD、PCB、光模塊、電源等存在更多的國產供應商;產業(yè)鏈中游包括主板集成商和服務器廠商,先由主板集成商將眾多芯片集成,再交由服務器廠商裝配成整機銷售。目前國內企業(yè)在服務器廠商中占據重要地位;產業(yè)鏈下游主要包括以BAT為首的互聯(lián)網廠商,移動、電信、聯(lián)通三大運營商和眾多政企客戶(主要集中在政府、金融、醫(yī)療三大行業(yè),因其最需要AI客服等相關產品)。通用服務器成本主要由CPU、存儲、內存及其他部分構成,而AI服務器由于采用了多顆GPU芯片組成異構架構,其成本構成也會發(fā)生變化。具體來看,訓練型AI服務器由于需要處理大量數據,具備更強的計算能力,訓練芯片價格顯著高于推理芯片。訓練型AI服務器成本中,約7成以上由GPU構成,其余CPU、存儲、內存等占比相對較小。對于推理型服務器,其GPU成本約為2-3成,整體成本構成與高性能型相近。3.2AI服務器市場規(guī)模有望保持高速增長,當前訂單飽滿3.2.1全球AI服務器近三年將保持高速增長根據IDC數據,2022年全球AI服務器市場規(guī)模202億美元,同比增長29.8%,占服務器市場規(guī)模的比例為16.4%,同比提升1.2pct。我們認為隨著數據量的持續(xù)提升,大模型參與玩家和單個模型參數量提升,以及數字化轉型推進等多因素影響,AI服務器市場規(guī)模將繼續(xù)保持較快增長。結合2.1.3節(jié)圖表45我們對于大語言模型帶來AI芯片的增量需求測算,我們認為2023-2025年全球AI服務器有望實現(xiàn)高速增長。以目前企業(yè)對于AI服務器的實際需求來看,雖然推理端需求更為旺盛,但從采購角度更傾向于搭載A100/A800GPU的訓練/推理一體服務器。因此我們結合3.1.2節(jié)對于訓練型、推理型AI服務器的成本拆解測算,預估2023-2025年增量的GPU需求約占AI服務器成本比重為70%。此外,隨著包括H100/H800等新一代芯片的推出、算法迭代升級均有望帶來整體效率提升,AI服務器增量市場空間可能略低于大模型需求預期。結合上述假設,我們認為全球AI服務器市場規(guī)模未來3年內將保持高速增長,市場規(guī)模分別為395/890/1601億美元,對應增速96%/125%/80%。由于互聯(lián)網廠商等主要下游客戶傾向于為未來潛在需求提前備貨,因此2023年市場增速可能高于預測值,同時2024、2025年市場增速可能略低于預測值。3.2.2中國AI服務器近三年將保持高速增長根據IDC數據,2022年中國AI服務器市場規(guī)模67億美元,同比增長24%。其中GPU服務器占據主導地位,市場份額為89%至60億美元。同時,NPU、ASIC和FPGA等非GPU加速服務器以同比12%的增速占有了11%的市場份額,達到7億美元。在大模型浪潮到來前,由數字經濟和“東數西算”等政策影響下,中國AI算力在2021年實現(xiàn)了68.2%的同比高速增長。據浪潮信息、國際數據公司(IDC)和清華大學聯(lián)合推出的《2021-2022全球計算力指數評估報告》顯示,中國AI算力發(fā)展領跑全球,AI服務器支出規(guī)模位列全球第一。我們認為,在大模型浪潮下,疊加數字經濟、東數西算帶動的數據中心、智算中心建設,AI服務器市場中我國的份額在當前約全球1/3比例上有望進一步提升。我們預計,2023-2025年,結合對于全球AI服務器市場規(guī)模的預判,以及對于我國份額占比持續(xù)提升的假設,我國AI服務器市場規(guī)模有望達到134/307/561億美元,同比增長101%/128%/83%。由于互聯(lián)網廠商等主要下游客戶傾向于為未來潛在需求提前備貨,因此2023年市場增速可能高于預測值,同時2024、2025年市場增速可能略低于預測值。3.2.3當前AI服務器廠商在手訂單充分,AI服務器市場高增長確定性較強自去年ChatGPT帶動的大模型浪潮以來,國內外頭部互聯(lián)網廠商紛紛加入AI算力的軍備競賽,加大對于AI算力側的資源投入。AI算力的高景氣帶動AI服務器需求端爆發(fā)式增長,并體現(xiàn)在AI服務器廠商訂單端。全球AI服務器出貨金額排名第一位的龍頭廠商浪潮信息,提到一季度以來AI服務器市場迎來明顯增長,客戶關注點由價格轉向能否及時滿足自身需求。此外,據紫光股份于投資者互動平臺的回復,其AI服務器訂單今年一季度有很大提升,產能滿足市場需求不存在問題,針對GPT場景優(yōu)化的GPU服務器已經完成開發(fā),預計今年二季度全面上市。作為全球ICT設備龍頭企業(yè)的聯(lián)想集團,根據其最新公布的財報數據,ISG(基礎設施解決方案業(yè)務集團)在2023年1-3月實現(xiàn)營收同比增長56.2%,全財年營收同比增長36.6%,主要受益于海外AI服務器需求爆發(fā)以及存儲業(yè)務的高速增長,公司預期新財年AI服務器收入增速將顯著快于通用服務器,帶動ISG部門營收增長超市場平均水平20%以上。中科曙光深度布局算力領域,包括上游芯片、中游服務器解決方案、液冷技術、以及下游算力調度等業(yè)務,公司于投資者互動平臺多次回復,會根據用戶需求提供通用算力和智能算力產品及服務,隨著我國算力需求的增長,各類產品銷售均呈現(xiàn)增長態(tài)勢,伴隨我國人工智能技術和產業(yè)的發(fā)展,預計智能計算產品需求將逐步提升。3.3AI服務器市場集中度有望提升,國內廠商呈現(xiàn)一超多強格局3.3.1全球AI服務器競爭格局據IDC數據,2022年上半年全球AI服務器市場中,浪潮信息、戴爾、惠普、聯(lián)想、新華三分別以15.1%、14.1%、7.7%、5.6%、4.7%的市場份額位居前五位。市場格局相對分散,龍頭廠商份額較為接近。此外,由于以北美云廠商為主的需求方偏向于采用ODM模式,因此非品牌商份額占比較高,接近50%。3.3.2中國AI服務器競爭格局據IDC數據,2022年我國AI服務器市場按銷售額統(tǒng)計市場份額中,浪潮信息、新華三、寧暢位居前三位,市場份額分別為47%、11%、9%。市場格局呈現(xiàn)一超多強局面,除浪潮外其與廠商份額相對接近。由于國內頭部廠商采用類ODM模式服務互聯(lián)網客戶,因此ODM廠商份額占比偏低。3.3.3AI服務器競爭格局未來演進趨勢從AI服務器的研發(fā)與交付考慮,品牌商和代工廠的模式及時間線略有不同,品牌商研發(fā)周期更長但交付更快,代工廠研發(fā)周期略短但交付產品時間略長。5月29日,英偉達CEO在臺北國際電腦展COMPUTEX2023大會帶來主題演講,演講中發(fā)布了目前臺系ODM廠商針對客戶需求做出的AI服務器雛形,并將進一步根據客戶需求做定制化開發(fā),由定制化開發(fā)到產品交付客戶預計需要數月時間。對于OEM廠商來說,包括浪潮、聯(lián)想、新華三等廠商的研發(fā)周期相對較長,需要接近一年的時間進行驗證,并根據不同客戶做不同配置規(guī)格進行進一步驗證。OEM廠商驗證完成后的成熟產品在交付中相比ODM廠商可以實現(xiàn)更快交付。3.4全球服務器市場規(guī)模預計保持平穩(wěn)3.4.1通用服務器仍處庫存去化階段,全球市場規(guī)模預計將出現(xiàn)下滑根據研究機構TrendForce5月17日發(fā)布的報告,2023年服務器市場需求展望不佳,再次下調今年全球服務器整機出貨量預測至1383.5萬臺,同比減少2.85%。TrendForce稱,美國谷歌、微軟、Meta、亞馬遜四大互聯(lián)網公司陸續(xù)下調服務器采購量;同時戴爾、HPE等OEM廠商也在2~4月間下調全年出貨量預估,同比分別減少15%、12%;此外,受國際形勢以及經濟因素等多種因素導致全年服務器需求展望不佳。2023年Q1受淡季效應以及終端庫存修正的影響,全球服務器出貨量環(huán)比減少了15.9%。TrendForce對于二季度產業(yè)回暖信心偏低,產業(yè)旺季并未如期發(fā)生,環(huán)比增長預估僅為9.23%。此外,ESG方面的討論使得美國四大互聯(lián)網公司延長服務器的使用年限,進而降低采購量,控制資本支出,這也是影響服務器市場的因素之一。預計庫存去化完成將在今年下半年或明年上半年到來,若庫存去化進度不及預期,全年服務器市場規(guī)模預測可能會進一步下調。3.4.2AI服務器出貨量占比進一步提升,對全球服務器市場整體出貨量貢獻有限去年底以來,ChatGPT等人工智能應用的火熱帶動了AI服務器需求暴增,英偉達芯片出現(xiàn)供不應求情況。包括微軟、谷歌、Meta、騰訊、百度等國內外云服務提供商紛紛積極加大AI算力投入。根據TrendForce預估,2023年AI服務器出貨量將同比實現(xiàn)10%增長,但由于從臺數來看AI服務器占比不足10%,對于整個市場影響相對有限,預計全球全年服務器出貨量整體呈現(xiàn)持平或小幅下滑趨勢。從國內市場來看,互聯(lián)網廠商及智算中心建設推動AI服務器需求暴漲,一季度相關廠商新增訂單同比超4成,全年預計出貨金額將保持高速增長??紤]到通用服務器市場下半年需求有望回暖,全年市場規(guī)模有望持平或小幅增長,疊加AI服務器的快速增長,根據IDC預測,預計全年服務器市場規(guī)模有望實現(xiàn)超10%的增長。四、AI正在推動高速率光模塊需求放量在傳統(tǒng)的數據中心中,網絡側主要包括傳統(tǒng)樹形三層架構和葉脊架構。早期的數據中心一般采用傳統(tǒng)的三層結構,包括接入層、匯聚層和核心層,其中接入層用于連接計算節(jié)點與機柜交換機,匯聚層用于接入層的互聯(lián),核心層用于匯聚層的互聯(lián)且實現(xiàn)與外部網絡連接。隨著數據中心內部東西向流量的快速提升,三層網絡架構的核心層和匯聚層任務加重,性能提升需求高,設備成本將大幅提升。因此,適用于東西向流量的扁平化的葉脊網絡架構應運而生,葉交換機直接與計算節(jié)點相連,脊交換機相當于核心交換機,通過ECMP動態(tài)選擇多條路徑。葉脊網絡架構具備帶寬利用率高、擴展性好、網絡延遲可預測和安全性高等優(yōu)勢,在數據中心中實現(xiàn)廣泛的應用。AI數據中心中,由于內部數據流量較大,因此無阻塞的胖樹網絡架構成了重要需求之一。英偉達的AI數據中心中,采用了胖樹(fat-tree)的網絡架構來實現(xiàn)無阻塞的功能。胖樹的網絡架構基本理念為:使用大量低性能的交換機,構建出大規(guī)模的無阻塞網絡,對于任意的通信模式,總有路徑讓他們的通信帶寬達到網卡帶寬,架構中用到的所有交換機都是相同的。胖樹網絡架構一般用于網絡要求較高的數據中心中,如超算中心和AI數據中心等。英偉達的A100GPU主要對應200G光模塊,H100GPU可以對應400G或800G光模塊。每個A100GPU配一張MellanoxHDR200Gb/sInfiniband網卡,每個H100GPU配一張MellanoxNDR400Gb/sInfiniband網卡。英偉達在H100SuperPOD的設計中,采用了800G的光模塊,在光口采用1個800G光模塊可以替代2個400G光模塊,在電口也可以將8個SerDes通道進行整合,與光口的8個100G通道一一對應。因此這種設計下,交換機的通道密度提高,物理尺寸顯著降低。NVLink帶寬遠大于網卡側的PCIe帶寬,因此若將NVLink從服務器內部GPU互連拓寬至不同服務器之間的GPU的互連,將顯著提升系統(tǒng)的帶寬。若要實現(xiàn)不同服務器之間按照NVLink協(xié)議的GPU互連,除了需要采用NVSwitch芯片的物理交換機,還需要物理器件來實現(xiàn)交換機和服務器之間的連接,那么光模塊也成為了重要的組成部分,從而也會大幅增長800G光模塊的需求。近日,英偉達創(chuàng)始人兼CEO黃仁勛在NVIDIAComputex2023演講中宣布,生成式AI引擎NVIDIADGXGH200現(xiàn)已投入量產。GH200通過NVLink4的900GB/s超大網絡帶寬能力來提升算力,服務器內部可能采用銅線方案,但服務器之間我們認為可能會用光纖連接。對于單個256GH200芯片的集群,計算側1個GH200對應9個800G光模塊;對于多個256的GH200集群,計算側1個GH200對應12個800G光模塊。訓練側光模塊需求與GPU出貨量強相關,推理側光模塊需求與數據流量強相關。AI對光模塊需求的拉升主要分為兩個階段,訓練和推理。其中,訓練側的網絡架構以胖樹架構為主,因為在大模型訓練過程中,對于網絡性能的要求很高,網絡無阻塞是重要的需求之一,比如騰訊用于大模型訓練的星脈網絡采用了胖樹架構。同時,我們認為大部分廠商會采用Infiniband協(xié)議的網絡,時延遠低于以太網,可以提升計算效率,縮短模型訓練時間。訓練側光模塊的需求與所用GPU顯卡的數量強相關,根據胖樹架構中GPU和光模塊的比例關系可以得到所需光模塊的數量,A100對應200G光模塊,H100對應400G或者800G光模塊。推理側面向用戶側,網絡架構更接近于傳統(tǒng)云計算數據中心的葉脊架構,主要用于承載AI應用帶來的數據流量增量。傳統(tǒng)云計算主要是ToB市場,用戶數量不多,若未來出現(xiàn)圖片或視頻相關的爆款AI應用,一方面用戶數量有望大幅提升,另一方面單個用戶產生的數據流量可能會顯著增長,因此數據總流量將暴增,所以推理所需的算力和流量實際上可能遠大于訓練,因此對于包括光模塊在內的網絡設備需求將起到有力的支撐和提振。硅光子技術是以硅或硅基材料(Si,SiO2,SiGe)作為襯底材料,利用與集成電路兼容的CMOS工藝制造對應的光子器件和光電器件,以實現(xiàn)對光的激發(fā),調制,響應等,廣泛應用于光通信,光傳感,高性能計算等。數通領域的硅光模塊同樣實現(xiàn)了大規(guī)模商用,未來份額有望不斷提升。隨著數據中心的快速發(fā)展,對于光模塊的需求爆發(fā)式增長,多家廠商開始大力研發(fā)用于數據中心的硅光模塊。初期是40G硅光數通光模塊小規(guī)模應用,Intel和Luxtera的100G硅光模塊大規(guī)模應用,目前400G的硅光模塊已經實現(xiàn)量產,800G亦在驗證中。目前國內的硅光模塊廠商具備較強的競爭力,包括中際旭創(chuàng)、新易盛、華工科技等公司有自研的硅光芯片,博創(chuàng)科技等公司與海外硅光芯片巨頭廠商深度合作,有望在800G光模塊市場取得突破。Co-packagedOptics,即共封裝光學,光學引擎PIC與電學引擎EIC合封在一起的封裝技術。CPO交換機主要分為交換機芯片、SerDes和光學部分,過去10年交換機帶寬增長了80倍。交換機芯片的帶寬每兩年提升一倍;電接口的SerDes數量和速率也在提升,速率從10G/s提升到112G/s,數量從64個通道提升到51.2T時代的512個通道。交換機帶寬從640G提升到51.2T,交換機芯片功耗提升7.4倍,每個Serdes通道的功耗提升2.84倍,結合Serdes通道數的增加,總功耗增加22.7倍。而CPO可以降低功耗(核心優(yōu)勢)、降低成本和減小尺寸。CPO參與公司主要包括云服務廠商、設備商和芯片廠商等。目前,CPO仍有很多技術難題,例如光源的功耗問題,光源作為核心的部件之一,雖然外部光源在配置上更加靈活,但是激光器在高溫下效率較低,因此給多個通道同時提供光源時,高功率帶來低效率,其功耗反而會更高。而且,光引擎緊密排布在交換機芯片的周圍,巨大的發(fā)熱量如何進行有效地散熱,光引擎失效后如何進行靈活地更換,新的光學連接器如何定義等這些技術難題都需要更加有效的解決方案。此外,CPO產品是將光模塊和交換機集成在一起,因此將對光模塊和交換機行業(yè)產生較大的影響,在制定好相關產品標準之后如何使得兩個產業(yè)鏈更好的協(xié)同,也將是一個重要的挑戰(zhàn)。我們認為,本輪光模塊板塊行情可以參考2016-2018H1與2019H2-2020H1。數通光模塊行業(yè)在2016-2018H1處于景氣周期,中際旭創(chuàng)期間股價表現(xiàn)較好,2018H2-2019H1全球云計算及互聯(lián)網巨頭資本開支迎來調整,期間股價也下行。北美FAAM(Facebook、Amazon、Alphabet、Microsoft)2016-2018Capex增速為29.65%、27.94%、62.74%,雖然2018年全年增速強勁,但2018Q3起增速顯著放緩。經過近3年(2016-2018H1)的景氣周期,云廠商基礎設施如服務器、光網絡等利用率不夠飽滿,相當于計算、存儲、網絡能力有一定的“庫存”,疊加宏觀經濟及中美摩擦導致的不確定性,企業(yè)信息化投入收縮,企業(yè)上云放緩,互聯(lián)網巨頭面臨增長壓力,因此資本開支增速明顯放緩,直至2019Q1資本開支負增長。五、AI將會拉動交換機市場需求AI帶來數據中心的網絡架構變化,光模塊速率及數量均有顯著提升,因此交換機的端口數及端口速率也有相應的增長。以ChatGPT為代表的AIGC技術,依靠強大的AI模型和海量數據,能夠在多個應用場景下產生優(yōu)質的內容,有望推動人工智能更廣泛的應用。算力作為AIGC技術的重要支撐之一,是影響AI發(fā)展與應用的核心因素。算力基礎設施成了目前行業(yè)亟需布局的資源,除了CPU/GPU等算力硬件需求強勁,網絡端也催生了更大帶寬需求,以匹配日益增長的流量。與傳統(tǒng)數據中心的網絡架構相比,AI數據網絡架構會帶來更多的交換機端口的需求。訓練側大概率會采用Infiniband或者類IB的低時延網絡協(xié)議,推理側預計會采用以太網協(xié)議的交換機。InfiniBand是一種開放標準的高帶寬,低時延,高可靠的網絡互聯(lián)技術,隨著人工智能的興起,也是GPU服務器首選的網絡互聯(lián)技術。相比較以太網協(xié)議的網絡,Infiniband網絡在帶寬、時延、網絡可靠性、和組網方式上都有一定的優(yōu)勢。當然,以太網的兼容性更好,成本更低,可以應用在各種應用場景中,適配各種不同的設備終端。AI訓練端對時延要求較高,因此訓練側大概率會采用Infiniband網絡,也可以采用ROCE網絡,即基于以太網的RDMA技術,也能夠達到較低的時延。而英偉達NVLink技術,其帶寬大幅提升,NVLink4的雙向帶寬可以達到900GB/s,在訓練側也將具備較強的優(yōu)勢。在推理側,我們認為網絡協(xié)議可以沿用云計算數據中心的以太網。交換機中SerDes的功耗大幅提升。隨著單個SerDes帶寬提升帶來功耗的提升,同時結合SerDes數量的提升,未來SerDes的總功耗在交換機中的功耗占比將大幅提升。網絡部分的功耗在數據中心中的功耗大幅提升:根據Facebook的測算,隨著數據中心內部流量的大幅提升,網絡部分的功耗占比增加明顯,到下一代網絡部分的功耗占比將從現(xiàn)在的2%左右提升到20%左右。傳輸距離越近,SerDes功耗越低。縮短交換機和光模塊之間電信號需要傳輸的距離,可以簡化Serdes芯片的功能,同時降低電信號的發(fā)射功率,從而降低SerDes的功耗。六、AI提升大功率IDC機柜需求,液冷滲透率隨之提升6.1“東數西算”統(tǒng)籌全國算力網絡建設,云計算需求可能將回暖2021年5月,發(fā)改委、網信辦、工信部、能源局聯(lián)合印發(fā)《全國一體化大數據中心協(xié)同創(chuàng)新體系算力樞紐實施方案》,明確提出布局全國算力網絡國家樞紐節(jié)點,啟動實施“東數西算”工程,構建國家算力網絡體系。《全國一體化大數據中心協(xié)同創(chuàng)新體系算力樞紐實施方案》圍繞國家重大區(qū)域發(fā)展戰(zhàn)略,根據能源結構、產業(yè)布局、市場發(fā)展、氣候環(huán)境等,在京津冀、長三角、粵港澳大灣區(qū)、成渝以及貴州、內蒙古、甘肅、寧夏等地布局建設全國一體化算力網絡國家樞紐節(jié)點,引導數據中心集約化、規(guī)?;⒕G色化發(fā)展,構建數據中心集群。國家樞紐節(jié)點間將進一步打通網絡傳輸通道,加快實施“東數西算”工程,提升跨區(qū)域算力調度水平。根據《全國一體化大數據中心協(xié)同創(chuàng)新體系算力樞紐實施方案》要求,京津冀、長三角、粵港澳大灣區(qū)、成渝等節(jié)點,用戶規(guī)模較大、應用需求強烈,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論