




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
盛世華研·2008-2010年鋼行業(yè)調(diào)研報(bào)告PAGE2服務(wù)熱線圳市盛世華研企業(yè)管理有限公司2028年ChatGPT服務(wù)器市場(chǎng)2023-2028年ChatGPT服務(wù)器市場(chǎng)現(xiàn)狀與前景調(diào)研報(bào)告報(bào)告目錄TOC\o"1-3"\u第1章AI迎來(lái)“iPhone時(shí)刻”,算力需求即將迎來(lái)新高 31.1算力需求快速增長(zhǎng),AI服務(wù)器潛在市場(chǎng)廣闊 41.22030年全球算力需求較2021年增長(zhǎng)90倍 51.3算力需求推升AI基建產(chǎn)值 7第2章ChatGPT對(duì)算力需求 92.1受每日用戶數(shù)量和模型參數(shù)影響,保守估計(jì)每日所需算力約為50EFLOPs 92.2華為預(yù)測(cè)未來(lái)十年人工智能算力需求將增長(zhǎng)500倍以上 13第3章ChatGPT服務(wù)器,深度拆解 143.1ChatGPT:大模型+Transformer架構(gòu),帶動(dòng)并行計(jì)算需求 143.2預(yù)訓(xùn)練階段:?jiǎn)未嗡懔π枨笕Q于模型參數(shù)量,最高可達(dá)3640PFlop/s-day 163.3推理階段:預(yù)計(jì)單月運(yùn)營(yíng)算力需求約7034.7PFlop/s-day 183.4Finetune階段:預(yù)計(jì)ChatGPT單月Finetune的算力需求至少為1350.4PFlop/s-day 203.5ChatGPT需要的服務(wù)器:AI訓(xùn)練型服務(wù)器+AI推理型服務(wù)器 213.6云計(jì)算服務(wù)器:大規(guī)模數(shù)據(jù)處理需求下的商業(yè)模式變革 233.7邊緣服務(wù)器:高數(shù)據(jù)密度和帶寬限制下保證低時(shí)延 243.8AI服務(wù)器:更適合深度學(xué)習(xí)等AI訓(xùn)練場(chǎng)景 253.9ChatGPT需要的芯片:CPU+GPU、FPGA、ASIC 303.10國(guó)產(chǎn)廠商布局豐富產(chǎn)品矩陣,占據(jù)全球AI服務(wù)器市場(chǎng)領(lǐng)先地位 313.11GPU算力芯片為核心組件,國(guó)產(chǎn)替代未來(lái)可期 353.12總結(jié):從ChatGPT到AI服務(wù)器 43第4章服務(wù)器廠商如何把握AI大模型機(jī)會(huì) 444.1AI大模型訓(xùn)練和推理催生GPU需求上漲 444.2全球AI服務(wù)器市場(chǎng)規(guī)模穩(wěn)健增長(zhǎng) 45第5章AI服務(wù)器采用異構(gòu)式架構(gòu),GPU數(shù)量遠(yuǎn)高于普通服務(wù)器 465.1AI大模型訓(xùn)練和推理催生GPU需求上漲 465.2AI服務(wù)器采用異構(gòu)式架構(gòu),GPU數(shù)量遠(yuǎn)高于普通服務(wù)器 46第1章AI迎來(lái)“iPhone時(shí)刻”,算力需求即將迎來(lái)新高“我們正處于AI的iPhone時(shí)刻?!北本r(shí)間3月21日23點(diǎn),GTC大會(huì)正式召開,英偉達(dá)CEO黃仁勛搬出了為ChatGPT準(zhǔn)備的芯片HGXA100?!艾F(xiàn)在一臺(tái)搭載四對(duì)H100和雙NVLINK的標(biāo)準(zhǔn)服務(wù)器速度能快10倍,可以將大語(yǔ)言模型的處理成本降低一個(gè)數(shù)量級(jí)。”黃仁勛說(shuō)道。3月24日Chatgpt宣布推出插件功能,構(gòu)造AI“應(yīng)用商店”??梢灶A(yù)見的是,如果進(jìn)展順利,ChatGPT有望從一個(gè)AI工具升級(jí)為開發(fā)者平臺(tái),借助無(wú)數(shù)開發(fā)者之手,基于GPT大模型的強(qiáng)化版AIGC工具將不斷涌現(xiàn),同時(shí)進(jìn)一步激發(fā)下游應(yīng)用的需求和創(chuàng)新。1.1算力需求快速增長(zhǎng),AI服務(wù)器潛在市場(chǎng)廣闊預(yù)訓(xùn)練模型與參數(shù)的提升,帶動(dòng)服務(wù)器基礎(chǔ)設(shè)施需求大幅增加。人工智能的模型自2012年AlexNet問世以來(lái),模型的深度和廣度一直在逐級(jí)擴(kuò)升,以2018年的時(shí)候BERT-Large(基于BERT和transformer結(jié)構(gòu)的模型)產(chǎn)生之后,興起了一波模型規(guī)模和參數(shù)激增的熱潮。從BERT模型出現(xiàn)到GPT-31750億參數(shù)規(guī)模的千億級(jí)大模型,大規(guī)模預(yù)訓(xùn)練模型成了一個(gè)新的技術(shù)發(fā)展趨勢(shì)。根據(jù)CNBC報(bào)道,以微軟Bing為例,基于OpenAI的ChatGPT模型或需要8個(gè)GPU才能在不到一秒的時(shí)間內(nèi)響應(yīng)問題,按照這個(gè)速度測(cè)算需要超2萬(wàn)臺(tái)8-GPU服務(wù)器,按照NvidiaDGXA100(八個(gè)A100GPU協(xié)同工作的系統(tǒng))建議售價(jià)近2萬(wàn)美元測(cè)算,需要40億美元的基礎(chǔ)設(shè)施支出。圖:NLP模型參數(shù)呈指數(shù)級(jí)增長(zhǎng)資料來(lái)源:Nvidia官網(wǎng)、天風(fēng)證券研究所1.22030年全球算力需求較2021年增長(zhǎng)90倍根據(jù)國(guó)家數(shù)據(jù)資源調(diào)查報(bào)告數(shù)據(jù),2021年全球數(shù)據(jù)總產(chǎn)量67ZB,近三年平均增速超過(guò)26%。經(jīng)中國(guó)信息通信研究院測(cè)算,2021年全球計(jì)算設(shè)備算力總規(guī)模達(dá)到615EFlops,增速達(dá)到44%,其中基礎(chǔ)算力規(guī)模(FP32)為369EFlops,智力算力規(guī)模(換算為FP32)為232EFlops,超算算力規(guī)模(換算為FP32)為14EFlops。結(jié)合華為GIV預(yù)測(cè),2030年人類將迎來(lái)YB數(shù)據(jù)時(shí)代,全球算力規(guī)模達(dá)到56ZFlops,平均年增速達(dá)到65%,其中基礎(chǔ)算力達(dá)到3.3ZFlops,平均年增速達(dá)27%;智能算力達(dá)到52.5ZFlops,平均年增速超過(guò)80%;超算算力達(dá)到0.2ZFlops,平均年增速超過(guò)34%。圖:全球算力需求情況及預(yù)測(cè)資料來(lái)源:中國(guó)信通院、天風(fēng)證券研究所我們認(rèn)為基于下述假設(shè),GPT目前在服務(wù)器上花費(fèi)的成本至少為3.47億美元。首先,我們參考馬里蘭州AI方向的副教授TomGoldstein及財(cái)經(jīng)十一人公眾號(hào)的估計(jì),①假設(shè)1個(gè)服務(wù)器由2個(gè)CPU、8個(gè)GPU(A100,80G內(nèi)存)、DRAM與其它組件組成,這個(gè)服務(wù)器可以使用ChatGPTAI模型每秒生成15-20個(gè)單詞,我們?nèi)?0個(gè)單詞/秒,那么每臺(tái)服務(wù)器每天可以生成172.8(=20×60×60×24/10000)萬(wàn)個(gè)單詞。根據(jù)SimilarWeb數(shù)據(jù),2023年1月,ChatGPT的網(wǎng)站平均每天有超過(guò)1300萬(wàn)用戶使用,②假設(shè)日活量(DAU)為1000萬(wàn),如果每個(gè)人對(duì)話過(guò)程中只使用500個(gè)單詞,那么每天ChatGPT至少需要生產(chǎn)50億單詞(=1000×500萬(wàn),這里需要注意的是,1000萬(wàn)人使用時(shí)間實(shí)際上并不是均勻分布的,因此現(xiàn)實(shí)中ChatGPT每天可生成單詞預(yù)計(jì)比50億單詞高)?;谝陨戏治?,ChatGPT至少需要2894個(gè)服務(wù)器,即5788個(gè)CPU、23152個(gè)GPU。參考行行查給出的服務(wù)器成本構(gòu)成以及Thinkmate給出的A100GPU報(bào)價(jià),③CPU單價(jià)取$5000,GPU單價(jià)取$11500(考慮公司戰(zhàn)略合作及貿(mào)易成本,取價(jià)比Thinkmate報(bào)價(jià)略低),DRAM取$8000,加上其他組件,一個(gè)服務(wù)器總價(jià)為$120000。綜合上述假設(shè),服務(wù)器總成本為3.47億美元,CPU、GPU、DRAM分別為0.29、2.66、0.23億美元。1.3算力需求推升AI基建產(chǎn)值隨著人工智能技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)和大規(guī)模神經(jīng)網(wǎng)絡(luò)的大語(yǔ)言模型(LLM)正在成為一個(gè)新的熱點(diǎn)研究領(lǐng)域。然而,LLM的實(shí)用價(jià)值需要強(qiáng)大的計(jì)算資源來(lái)支持。基于大規(guī)模神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推理需要海量的數(shù)據(jù)、高度優(yōu)化的算法和大規(guī)模的計(jì)算資源支持。隨著參與大模型訓(xùn)練公司增加和生成式AI應(yīng)用的拓展,AI服務(wù)器需求或?qū)⒓铀籴尫?。圖:全球服務(wù)器出貨趨勢(shì)資料來(lái)源:IDC、工業(yè)富聯(lián)年報(bào),天風(fēng)證券研究所表:AI服務(wù)器產(chǎn)值測(cè)算資料來(lái)源:IDC、工業(yè)富聯(lián)年報(bào)、Nvidia英偉達(dá)企業(yè)解決方案公眾號(hào)、天風(fēng)證券研究所(假設(shè)每年出貨1,500萬(wàn)臺(tái)服務(wù)器,AI服務(wù)器平均售價(jià)20萬(wàn)美元)第2章ChatGPT對(duì)算力需求2.1受每日用戶數(shù)量和模型參數(shù)影響,保守估計(jì)每日所需算力約為50EFLOPs隨著ChatGPT模型的不斷升級(jí),其參數(shù)量和模型規(guī)模也不斷增大,因此對(duì)計(jì)算資源的需求也越來(lái)越高。尤其是在推理過(guò)程中,需要將模型加載到計(jì)算節(jié)點(diǎn)上進(jìn)行運(yùn)算,因此需要高性能的計(jì)算設(shè)備來(lái)支持模型的推理。同時(shí),由于ChatGPT模型需要進(jìn)行海量的預(yù)訓(xùn)練和微調(diào),因此需要大量的算力資源來(lái)支持這些任務(wù)。ChatGPT的發(fā)展將帶來(lái)算力需求的大幅提升。使用ChatGPT帶來(lái)的算力需求測(cè)算:1)每日用戶數(shù)量:根據(jù)Similarweb統(tǒng)計(jì),OpenAI網(wǎng)站2月總訪問量達(dá)11億人,平均每天訪客數(shù)量約3929萬(wàn)人。我們按目前每日訪客數(shù)量增長(zhǎng)至約4000萬(wàn)人進(jìn)行測(cè)算。2)每日問題產(chǎn)生的token數(shù)量:假設(shè)每人每天提出10個(gè)問題,每個(gè)問題和回答折算成英文約400個(gè)單詞,每個(gè)單詞token數(shù)約為1.33,每日問題產(chǎn)生的總token數(shù)量為4000萬(wàn)*400*10*1.33=2128億token3)每秒需處理token數(shù)量:2128億token/(24*60*60)=246.3萬(wàn)token4)ChatGPT計(jì)算每token所需算力:根據(jù)OpenAI論文,Transformer模型推理過(guò)程中每token計(jì)算所需FLOPs為2N,N為參數(shù)數(shù)量。GPT-3模型擁有1750億參數(shù)量,是GPT-2的116倍。谷歌在3月推出的視覺語(yǔ)言模型PaLM-E,參數(shù)量為5620億。我們假設(shè)ChatGPT所使用的GPT3.5參數(shù)量為4000億。同時(shí)考慮模型的FLOPS利用率,則ChatGPT每token計(jì)算所需算力約為4TFLOPS(4*10^12FLOPs)。5)每秒所需算力:ChatGPT每秒所需算力為246.3萬(wàn)token*4TFLOPs/token=9852PFLOPs(9.8EFLOPs)6)每日服務(wù)器需求量:我們以英偉達(dá)DGXA1OO服務(wù)器為測(cè)算依據(jù),同時(shí)由于ChatGPT的每日訪問存在峰谷,考慮峰值時(shí)所需算力,經(jīng)測(cè)算需要約10000臺(tái)英偉達(dá)服務(wù)器。通過(guò)測(cè)算,當(dāng)前每日僅來(lái)自使用ChatGPT所需算力約為50EFLOPs,所需服務(wù)器約為10000臺(tái)。而測(cè)算結(jié)果僅根據(jù)4000萬(wàn)日活用戶,每日4000字問題計(jì)算得出。表:服務(wù)器數(shù)量敏感性分析資料來(lái)源:OpenAI,Similarweb,安信證券研究中心另外我們考慮到服務(wù)器自身算力的提升,對(duì)2024年底算力需求與服務(wù)器需求量進(jìn)行測(cè)算。服務(wù)器算力:服務(wù)器大約三年迭代一次,每次算力提升3-5倍左右,極值可達(dá)9倍左右。英偉達(dá)A100于2021年5月推出,我們預(yù)計(jì)2024年將推出迭代產(chǎn)品,假設(shè)算力提升4倍左右。用戶數(shù)量:ChatGPT僅推出兩個(gè)月,月活躍用戶數(shù)預(yù)計(jì)已達(dá)1億,2月總訪問量已達(dá)11億人,用戶增長(zhǎng)速度驚人。目前微軟newbing和Microsoft365Copilot已集成最新發(fā)布的GPT-4。此外其他金融、教育、繪畫、零售等領(lǐng)域也在陸續(xù)接入GPT模型。預(yù)計(jì)新應(yīng)用終端將帶動(dòng)更快的用戶數(shù)量增長(zhǎng)。根據(jù),Meltwater融文數(shù)據(jù),截至2022年底,全球互聯(lián)網(wǎng)用戶數(shù)量為51.6億。我們假設(shè)到2024年底ChatGPT在互聯(lián)網(wǎng)中的滲透率提升至5%或10%,即假設(shè)到2024年底每日用戶數(shù)量增長(zhǎng)至5億人或10億人,分別進(jìn)行測(cè)算。假設(shè)每人每日問題數(shù)與對(duì)應(yīng)token數(shù)量不變。模型參數(shù)數(shù)量:GPT于2018年推出,模型參數(shù)數(shù)量為1.17億個(gè);GPT-2于2019年推出,模型參數(shù)數(shù)量為15億個(gè),增長(zhǎng)約12倍;GPT-3于2020年推出,參數(shù)數(shù)量為1750億個(gè),增長(zhǎng)約115倍;GPT-4于2022年推出,根據(jù)theDecoder報(bào)告,GPT-4模型參數(shù)數(shù)量預(yù)計(jì)約為1萬(wàn)億,增長(zhǎng)約5倍。我們假設(shè)到2024年底最新模型的參數(shù)數(shù)量為約GPT-4的3倍,即3萬(wàn)億個(gè)表:到2024年底所需服務(wù)器數(shù)量測(cè)算資料來(lái)源:theDecoder,OpenAI,安信證券研究中心經(jīng)測(cè)算,到2024年底若每日用戶數(shù)量達(dá)5億人,則需要23萬(wàn)臺(tái)服務(wù)器;若用戶數(shù)量達(dá)10億人,則需要46萬(wàn)臺(tái)服務(wù)器。根據(jù)TrendForce統(tǒng)計(jì),2022年全球AI服務(wù)器出貨量約13萬(wàn)臺(tái),市場(chǎng)以NVIDIAH100、A100、A800以及AMDMI250、MI250X系列為主,其中英偉達(dá)與AMD占比為8:2,即英偉達(dá)服務(wù)器出貨量約為10萬(wàn)臺(tái)。根據(jù)我們的測(cè)算,預(yù)計(jì)到2024年底AI服務(wù)器需求量約為23萬(wàn)臺(tái)(5億用戶數(shù))/46萬(wàn)臺(tái)(10億用戶數(shù)),2022-2024年CAGR分別達(dá)51.7%/114.5%。隨著GPT模型在各個(gè)領(lǐng)域的應(yīng)用越來(lái)越廣泛,對(duì)算力的需求也在不斷增加。一方面,由于GPT模型的參數(shù)量越來(lái)越大,每次訓(xùn)練需要的算力也越來(lái)越大;另一方面,GPT模型的應(yīng)用場(chǎng)景也在不斷拓展,例如自然語(yǔ)言處理、計(jì)算機(jī)視覺、語(yǔ)音識(shí)別等領(lǐng)域,這些領(lǐng)域?qū)λ懔Φ男枨笠苍絹?lái)越高。預(yù)計(jì)未來(lái)每日訪客數(shù)量將有巨大提升空間,算力需求短期內(nèi)有較大提升空間,AI服務(wù)器數(shù)量有較大增長(zhǎng)空間。2.2華為預(yù)測(cè)未來(lái)十年人工智能算力需求將增長(zhǎng)500倍以上超算服務(wù)器出貨量有望深度受益根據(jù)中國(guó)信息通信研究院發(fā)布的《中國(guó)算力發(fā)展指數(shù)白皮書(2022年)》,2021年全球計(jì)算設(shè)備算力總規(guī)模達(dá)到615EFlops,同比增長(zhǎng)44%,其中智能算力規(guī)模為232EFlops,超級(jí)算力規(guī)模為14EFlops;2021年中國(guó)算力總規(guī)模達(dá)到202EFlops,其中智能算力規(guī)模達(dá)104EFlops,增速85%,占比超過(guò)50%;預(yù)計(jì)2030年全球算力規(guī)模達(dá)到56ZFlops,平均年增速達(dá)到65%。據(jù)OpenAI測(cè)算,2012年開始,全球AI訓(xùn)練所用的計(jì)算量呈現(xiàn)指數(shù)增長(zhǎng),平均每3.43個(gè)月便會(huì)翻一倍,目前計(jì)算量已擴(kuò)大30萬(wàn)倍,遠(yuǎn)超算力增長(zhǎng)速度。在2022世界人工智能大會(huì)上,華為輪值董事長(zhǎng)胡厚崑預(yù)測(cè),未來(lái)十年人工智能的算力需求將會(huì)增長(zhǎng)500倍以上。3月29日貴州印發(fā)《面向全國(guó)的算力保障基地建設(shè)規(guī)劃》,提出到2025年機(jī)架規(guī)模從現(xiàn)狀的10.8萬(wàn)架提高至80萬(wàn)架,三年時(shí)間增長(zhǎng)達(dá)7倍;算力總規(guī)模到2025年要從現(xiàn)狀的0.81Eflops提高至10Eflops,提升超11倍;大數(shù)據(jù)交易市場(chǎng)規(guī)模從目前的3億元要提高至2025年的100億元,增幅達(dá)到32倍。我們認(rèn)為未來(lái)算力需求有較大提升空間,AI服務(wù)器出貨量有望深度受益。第3章ChatGPT服務(wù)器,深度拆解AI服務(wù)器:ChatGPT訓(xùn)練熱潮有望帶動(dòng)AI服務(wù)器需求3.1ChatGPT:大模型+Transformer架構(gòu),帶動(dòng)并行計(jì)算需求大廠布局ChatGPT類似產(chǎn)品,或?qū)?lái)底層算力需求。ChatGPT發(fā)布之后,引發(fā)了全球范圍的關(guān)注和討論,國(guó)內(nèi)各大廠商相繼宣布GPT模型開發(fā)計(jì)劃。據(jù)各公司官網(wǎng),2023年2月7日,百度宣布將推出ChatGPT類似產(chǎn)品“文心一言”,預(yù)計(jì)今年3月展開內(nèi)測(cè);2月8日阿里宣布阿里版ChatGPT正在研發(fā)中,目前處于內(nèi)測(cè)階段;2月9日,字節(jié)跳動(dòng)旗下AILab宣布正在開展ChatGPT和AIGC相關(guān)研發(fā),未來(lái)將為PICO提供技術(shù)支持;2月10日,京東旗下言犀人工智能平臺(tái)推出產(chǎn)業(yè)版ChatGPT—“ChatJD”。我們認(rèn)為,隨著國(guó)內(nèi)互聯(lián)網(wǎng)廠商陸續(xù)開展ChatGPT類似產(chǎn)品研發(fā),GPT大模型訓(xùn)練熱潮或?qū)?lái)底層算力需求快速釋放。AI模型對(duì)算力的需求主要體現(xiàn)在訓(xùn)練和推理兩個(gè)層面。當(dāng)前主流的人工智能算法通??煞譃椤坝?xùn)練”和“推理”兩個(gè)階段。據(jù)IDC數(shù)據(jù),2021年中國(guó)人工智能服務(wù)器工作負(fù)載中,57.6%的負(fù)載用于推理,42.4%用于模型訓(xùn)練。據(jù)IDC預(yù)計(jì),到2026年AI推理的負(fù)載比例將進(jìn)一步提升至62.2%。具體來(lái)看:1)訓(xùn)練階段:基于充裕的數(shù)據(jù)來(lái)調(diào)整和優(yōu)化人工智能模型的參數(shù),使模型的準(zhǔn)確度達(dá)到預(yù)期。對(duì)于圖像識(shí)別、語(yǔ)音識(shí)別與自然語(yǔ)言處理等領(lǐng)域的復(fù)雜問題,為了獲得更準(zhǔn)確的人工智能模型,訓(xùn)練階段常常需要處理大量數(shù)據(jù)集、做反復(fù)的迭代計(jì)算,耗費(fèi)巨大的運(yùn)算量。2)推理階段:訓(xùn)練階段結(jié)束以后,人工智能模型已經(jīng)建立完畢,已可用于推理或預(yù)測(cè)待處理輸入數(shù)據(jù)對(duì)應(yīng)的輸出(例如給定一張圖片,識(shí)別該圖片中的物體),此過(guò)程被稱為推理階段。推理階段對(duì)單個(gè)任務(wù)的計(jì)算能力要求不如訓(xùn)練那么大,但是由于訓(xùn)練出來(lái)的模型會(huì)多次用于推理,因此推理運(yùn)算的總計(jì)算量也相當(dāng)可觀。圖表:中國(guó)人工智能服務(wù)器工作負(fù)載及預(yù)測(cè)資料來(lái)源:IDC、華泰研究ChatGPT算力需求場(chǎng)景包括預(yù)訓(xùn)練、Finetune及日常運(yùn)營(yíng)。從ChatGPT實(shí)際應(yīng)用情況來(lái)看,從訓(xùn)練+推理的框架出發(fā),我們可以將ChatGPT的算力需求按場(chǎng)景進(jìn)一步拆分為預(yù)訓(xùn)練、Finetune及日常運(yùn)營(yíng)三個(gè)部分:1)預(yù)訓(xùn)練:主要通過(guò)大量無(wú)標(biāo)注的純文本數(shù)據(jù),訓(xùn)練模型基礎(chǔ)語(yǔ)言能力,得到類似GPT-1/2/3這樣的基礎(chǔ)大模型;2)Finetune:在完成預(yù)訓(xùn)練的大模型基礎(chǔ)上,進(jìn)行監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)等二次或多次訓(xùn)練,實(shí)現(xiàn)對(duì)模型參數(shù)量的優(yōu)化調(diào)整;3)日常運(yùn)營(yíng):基于用戶輸入信息,加載模型參數(shù)進(jìn)行推理計(jì)算,并實(shí)現(xiàn)最終結(jié)果的反饋輸出。圖表:ChatGPT算力需求研究框架3.2預(yù)訓(xùn)練階段:?jiǎn)未嗡懔π枨笕Q于模型參數(shù)量,最高可達(dá)3640PFlop/s-dayChatGPT基于Transformer架構(gòu),進(jìn)行語(yǔ)言模型預(yù)訓(xùn)練。GPT模型之所以能夠高效地完成大規(guī)模參數(shù)計(jì)算,我們認(rèn)為離不開Transformer架構(gòu)的加持。拆解Transformer架構(gòu)來(lái)看,核心是由編碼模塊和解碼模塊構(gòu)成,而GPT模型只用到了解碼模塊。拆解模塊來(lái)看,大致分為三層:前饋神經(jīng)網(wǎng)絡(luò)層、編碼/解碼自注意力機(jī)制層(Self-Attention)、自注意力機(jī)制掩碼層,其中:1)注意力機(jī)制層主要作用在于計(jì)算某個(gè)單詞對(duì)于全部單詞的權(quán)重(即Attention),從而能夠更好地去學(xué)習(xí)所有輸入之間的關(guān)系,實(shí)現(xiàn)對(duì)文本內(nèi)在關(guān)系的理解和更大規(guī)模的并行計(jì)算;2)前饋神經(jīng)網(wǎng)絡(luò)提供了對(duì)數(shù)據(jù)信息的高效存儲(chǔ)及檢索;3)掩碼層在這一過(guò)程中幫助模型屏蔽位于計(jì)算位置右側(cè)尚未出現(xiàn)的單詞。因此,相較于前代深度學(xué)習(xí)架構(gòu)RNN,Transformer架構(gòu)可以實(shí)現(xiàn)更大規(guī)模的并行計(jì)算,大大提升了計(jì)算效率。圖表:Transformer解碼模塊拆解單一大模型路線下,需要完成大規(guī)模參數(shù)計(jì)算。以GPT-3模型為例,隨著模型朝更大體量的方向演進(jìn),參數(shù)量從GPT-3Small的1.25億個(gè)增長(zhǎng)到GPT-3175B的1746億個(gè),一次訓(xùn)練所需的計(jì)算量從2.6PFlop/s-day增至3640PFlop/s-day。與此同時(shí),在不同學(xué)習(xí)樣本(包括小樣本、單一樣本、零樣本)條件下的模型,隨著參數(shù)量的提升均實(shí)現(xiàn)不同幅度的上下文學(xué)習(xí)能力改善,外在表現(xiàn)為語(yǔ)言準(zhǔn)確率的提升。我們認(rèn)為,隨著大模型訓(xùn)練表現(xiàn)出越來(lái)越強(qiáng)大的實(shí)戰(zhàn)能力,未來(lái)或?qū)⒊蔀镹LP訓(xùn)練的主流選擇。圖表:不同NLP模型參數(shù)量及訓(xùn)練算力對(duì)比資料來(lái)源:《LanguageModelsareFew-ShotLearners》,OpenAI,2020、華泰研究3.3推理階段:預(yù)計(jì)單月運(yùn)營(yíng)算力需求約7034.7PFlop/s-dayChatGPT近一月訪問量為8.89億次。據(jù)SimilarWeb數(shù)據(jù),2023年1月以來(lái)ChatGPT官網(wǎng)日訪問量持續(xù)攀升,從1月初的日均千萬(wàn)次級(jí)別,到1月底日均兩千萬(wàn)次,再到2月中旬的三千萬(wàn)次級(jí)別,隨著軟件效果的廣泛傳播,用戶訪問次數(shù)愈發(fā)頻繁。加總近一月(2023/1/17-2023/2/17)ChatGPT官網(wǎng)訪問量數(shù)據(jù)來(lái)看,可得ChatGPT月訪問量為8.89億次。預(yù)計(jì)日常運(yùn)營(yíng)單月所需算力約7034.7PFlop/s-day。日常運(yùn)營(yíng)過(guò)程中,用戶交互帶來(lái)的數(shù)據(jù)處理需求同樣也是一筆不小的算力開支。據(jù)前文,近一個(gè)月(2023/1/17-2023/2/17)ChatGPT官網(wǎng)總訪問量為8.89億次。據(jù)Fortune雜志,每次用戶與ChatGPT互動(dòng),產(chǎn)生的算力云服務(wù)成本約0.01美元?;诖?,我們測(cè)算得2023年1月OpenAI為ChatGPT支付的運(yùn)營(yíng)算力成本約889萬(wàn)美元。此外,據(jù)Lambda,使用訓(xùn)練一次1746億參數(shù)的GPT-3模型所需花費(fèi)的算力成本超過(guò)460萬(wàn)美元;據(jù)OpenAI,訓(xùn)練一次1746億參數(shù)的GPT-3模型需要的算力約為3640PFlop/s-day。我們假設(shè)單位算力成本固定,測(cè)算得ChatGPT單月運(yùn)營(yíng)所需算力約7034.7PFlop/s-day。圖表:ChatGPT官網(wǎng)日訪問量(百萬(wàn)次)資料來(lái)源:SimilarWeb、華泰研究3.4Finetune階段:預(yù)計(jì)ChatGPT單月Finetune的算力需求至少為1350.4PFlop/s-day模型迭代帶來(lái)Finetune算力需求。從模型迭代的角度來(lái)看,ChatGPT模型并不是靜態(tài)的,而是需要不斷進(jìn)行Finetune模型調(diào)優(yōu),以確保模型處于最佳應(yīng)用狀態(tài)。這一過(guò)程中,一方面是需要開發(fā)者對(duì)模型參數(shù)進(jìn)行調(diào)整,確保輸出內(nèi)容不是有害和失真的;另一方面,需要基于用戶反饋和PPO策略,對(duì)模型進(jìn)行大規(guī)?;蛐∫?guī)模的迭代訓(xùn)練。因此,模型調(diào)優(yōu)同樣會(huì)為OpenAI帶來(lái)算力成本,具體算力需求和成本金額取決于模型的迭代速度。預(yù)計(jì)ChatGPT單月Finetune算力需求至少為1350.4PFlop/s-day。據(jù)IDC預(yù)計(jì),2022年中國(guó)人工智能服務(wù)器負(fù)載中,推理和訓(xùn)練的比例分別為58.5%、41.5%。我們假設(shè),ChatGPT對(duì)推理和訓(xùn)練的算力需求分布與之保持一致,且已知單月運(yùn)營(yíng)需要算力7034.7PFlop/s-day、一次預(yù)訓(xùn)練需要算力3640PFlop/s-day?;诖?,我們進(jìn)一步假設(shè):1)考慮到AI大模型預(yù)訓(xùn)練主要通過(guò)巨量數(shù)據(jù)喂養(yǎng)完成,模型底層架構(gòu)變化頻率不高,故我們假設(shè)每月最多進(jìn)行一次預(yù)訓(xùn)練;2)人類反饋機(jī)制下,模型需要不斷獲得人類指導(dǎo)以實(shí)現(xiàn)參數(shù)調(diào)優(yōu),以月為單位可能多次進(jìn)行。由此我們計(jì)算得ChatGPT單月Finetune算力成本至少為1350.4PFlop/s-day。圖表7:ChatGPT單月運(yùn)營(yíng)算力成本測(cè)算3.5ChatGPT需要的服務(wù)器:AI訓(xùn)練型服務(wù)器+AI推理型服務(wù)器隨著計(jì)算場(chǎng)景擴(kuò)展,算力硬件也在發(fā)生變化。在傳統(tǒng)軟件架構(gòu)下,主要的模式都是CS模式,服務(wù)端大多是單機(jī)處理幾千個(gè)輕量請(qǐng)求。而在邊緣計(jì)算場(chǎng)景下,需要數(shù)萬(wàn)臺(tái)服務(wù)器處理上億個(gè)重負(fù)載請(qǐng)求。邊緣計(jì)算機(jī)本質(zhì)上是用CES模式取代CS模式,當(dāng)前的互聯(lián)網(wǎng)IT架構(gòu)已經(jīng)從CS模式,逐步向CDN服務(wù)為核心的CES模式轉(zhuǎn)變。但當(dāng)前的CDN模式比較大的局限性在于缺乏靈活性,不能解決邊緣上非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和處理的需求,引入Edge端(邊緣端)就是為了解決CS模式下無(wú)法處理的業(yè)務(wù)。而在AI訓(xùn)練場(chǎng)景下,計(jì)算量及數(shù)據(jù)類型的變化導(dǎo)致C-E-S又無(wú)法滿足集中大算力需求,計(jì)算架構(gòu)回歸C-S,并向高效率并行計(jì)算演變。圖表8:計(jì)算架構(gòu)演變過(guò)程服務(wù)器作為算力硬件核心,面向不同計(jì)算場(chǎng)景分化演進(jìn)。我們認(rèn)為,計(jì)算架構(gòu)的變化是推動(dòng)服務(wù)器技術(shù)演進(jìn)的關(guān)鍵變量。從計(jì)算場(chǎng)景來(lái)看,隨著計(jì)算架構(gòu)從PC到云計(jì)算,到邊緣計(jì)算,再到AI訓(xùn)練,服務(wù)器需求也在發(fā)生相應(yīng)變化。從單一服務(wù)器更加強(qiáng)調(diào)服務(wù)個(gè)體性能,如穩(wěn)定性、吞吐量、響應(yīng)時(shí)間等。云數(shù)據(jù)中心服務(wù)器對(duì)單個(gè)服務(wù)器性能要求下降,但更強(qiáng)調(diào)數(shù)據(jù)中心整體性能,如成本、快速部署和交付。邊緣計(jì)算場(chǎng)景下,開始出現(xiàn)異構(gòu)計(jì)算等復(fù)雜環(huán)境計(jì)算,對(duì)數(shù)據(jù)交互實(shí)時(shí)性要求有所提升,需要在邊緣端設(shè)立單獨(dú)的服務(wù)器設(shè)施。而AI服務(wù)器主要專為人工智能訓(xùn)練設(shè)計(jì),數(shù)據(jù)類型以向量/張量為主,多采用大規(guī)模并行計(jì)算以提升運(yùn)算效率。圖表:服務(wù)器類型演變過(guò)程同一技術(shù)路線下,服務(wù)器面向數(shù)據(jù)處理需求持續(xù)迭代。復(fù)盤主流服務(wù)器發(fā)展歷程來(lái)看,隨著數(shù)據(jù)量激增、數(shù)據(jù)場(chǎng)景復(fù)雜化,不同類型服務(wù)器發(fā)展驅(qū)動(dòng)力也有所差異。具體來(lái)看:1)通用服務(wù)器:傳統(tǒng)通用服務(wù)器的發(fā)展與計(jì)算機(jī)架構(gòu)發(fā)展同步,通過(guò)處理器的時(shí)鐘頻率、指令集并行度、核數(shù)等硬件指標(biāo)的提升優(yōu)化自身性能,發(fā)展較為緩慢。2)云計(jì)算服務(wù)器:云計(jì)算的概念于20世紀(jì)80年代提出,僅20年后就有較為成熟的產(chǎn)品推出,如VMware的VMwareWorkstation和亞馬遜AWS等。2010年隨著OpenStack開源,阿里云、華為云等項(xiàng)目相繼布局,云計(jì)算行業(yè)快速走向成熟。3)邊緣計(jì)算服務(wù)器:邊緣計(jì)算概念孵化于2015年,僅2年后就有諸如亞馬遜AWSGreengrass、谷歌GMEC等邊緣計(jì)算平臺(tái)產(chǎn)生,并在微軟的帶領(lǐng)下提前進(jìn)入技術(shù)并購(gòu)期。4)AI服務(wù)器:AI服務(wù)器最早由思科在2018推出,專為人工智能、機(jī)器學(xué)習(xí)的工作服務(wù)而設(shè)計(jì),硬件架構(gòu)更加適合AI訓(xùn)練場(chǎng)景下的算力需求。圖表:四類主流服務(wù)器發(fā)展歷程復(fù)盤資料來(lái)源:CSDN、浪潮信息官網(wǎng)3.6云計(jì)算服務(wù)器:大規(guī)模數(shù)據(jù)處理需求下的商業(yè)模式變革數(shù)據(jù)量激增帶來(lái)大算力需求,云計(jì)算服務(wù)器應(yīng)運(yùn)而生。通用服務(wù)器通過(guò)提高硬件指標(biāo)提升性能,而隨著CPU的工藝和單個(gè)CPU的核心數(shù)量接近極限,通用服務(wù)器性能難以支持?jǐn)?shù)據(jù)量激增帶來(lái)的性能需求。云計(jì)算服務(wù)器則通過(guò)虛擬化技術(shù),將計(jì)算和存儲(chǔ)資源進(jìn)行池化,把原來(lái)物理隔離的單臺(tái)計(jì)算資源進(jìn)行虛擬化和集中化。最終以集群化處理來(lái)達(dá)到單臺(tái)服務(wù)器所難以實(shí)現(xiàn)的高性能計(jì)算。同時(shí),云計(jì)算服務(wù)器集群的計(jì)算能力可以通過(guò)不斷增加虛擬化服務(wù)器的數(shù)量來(lái)進(jìn)行擴(kuò)展,突破單個(gè)服務(wù)器硬件限制,應(yīng)對(duì)數(shù)據(jù)量激增帶來(lái)的性能需求。圖表:通用服務(wù)器-云計(jì)算服務(wù)升級(jí)云計(jì)算服務(wù)器節(jié)約部分硬件成本,降低算力采購(gòu)門檻。早期大規(guī)模數(shù)據(jù)處理成本極高,原因在于通用服務(wù)器的購(gòu)置和運(yùn)維成本居高不下。傳統(tǒng)服務(wù)器中均包含處理器摸塊、存儲(chǔ)模塊、網(wǎng)絡(luò)模塊、電源、風(fēng)扇等全套設(shè)備,而云計(jì)算服務(wù)器體系架構(gòu)精簡(jiǎn),省去重復(fù)的模塊,提高了利用率。同時(shí)云計(jì)算服務(wù)器針對(duì)節(jié)能需求,將存儲(chǔ)模塊進(jìn)行虛擬化,并去除了主板上的非必要硬件,降低了整體計(jì)算成本,并通過(guò)流量計(jì)費(fèi)模式,使得更多廠商可以負(fù)擔(dān)算力開支,降低了算力采購(gòu)門檻。3.7邊緣服務(wù)器:高數(shù)據(jù)密度和帶寬限制下保證低時(shí)延邊緣計(jì)算在云計(jì)算的基礎(chǔ)上引入邊緣層。邊緣計(jì)算是在靠近物或數(shù)據(jù)源頭的網(wǎng)絡(luò)邊緣側(cè),為應(yīng)用提供融合計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)等資源。在體系架構(gòu)上,邊緣計(jì)算在終端層和云層之間引入邊緣層,從而將云服務(wù)擴(kuò)展到網(wǎng)絡(luò)邊緣。其中終端層由物聯(lián)網(wǎng)設(shè)備構(gòu)成,最靠近用戶,負(fù)責(zé)收集原始數(shù)據(jù)并上傳至上層進(jìn)行計(jì)算;邊緣層由路由器、網(wǎng)關(guān)、邊緣服務(wù)器等組成,由于距離用戶較近,可以運(yùn)行延遲敏感應(yīng)用,滿足用戶對(duì)低時(shí)延的要求;云層由高性能服務(wù)器等組成,可以執(zhí)行復(fù)雜計(jì)算任務(wù)。邊緣計(jì)算較云計(jì)算在實(shí)時(shí)性、低成本和安全性等方面有優(yōu)勢(shì):1)實(shí)時(shí)性:邊緣計(jì)算將原有云計(jì)算中心的計(jì)算任務(wù)部分或全部遷移到與用戶距離更近的網(wǎng)絡(luò)邊緣進(jìn)行處理,而不是在外部數(shù)據(jù)中心或云端進(jìn)行,因此提高了數(shù)據(jù)傳輸性能,保證了處理的實(shí)時(shí)性。2)低帶寬成本:終端產(chǎn)生的數(shù)據(jù)無(wú)需遠(yuǎn)距離傳輸至云端,避免帶寬成本。同時(shí),邊緣計(jì)算機(jī)制中,邊緣層可對(duì)終端產(chǎn)生數(shù)據(jù)進(jìn)行預(yù)處理,從而降低云計(jì)算中心的計(jì)算負(fù)載。3)安全性:邊緣計(jì)算在本地設(shè)備和邊緣層設(shè)備中處理大部分?jǐn)?shù)據(jù)而不是將其上傳至云端,減少實(shí)際存在風(fēng)險(xiǎn)的數(shù)據(jù)量,避免數(shù)據(jù)泄露危險(xiǎn)。圖表:邊緣計(jì)算對(duì)比云計(jì)算3.8AI服務(wù)器:更適合深度學(xué)習(xí)等AI訓(xùn)練場(chǎng)景AI服務(wù)器采取GPU架構(gòu),相較CPU更適合進(jìn)行大規(guī)模并行計(jì)算。通用服務(wù)器采用CPU作為計(jì)算能力來(lái)源,而AI服務(wù)器為異構(gòu)服務(wù)器,可以根據(jù)應(yīng)用范圍采用不同的組合方式,如CPUGPU、CPUTPU、CPU其他加速卡等,主要以GPU提供計(jì)算能力。從ChatGPT模型計(jì)算方式來(lái)看,主要特征是采用了并行計(jì)算。對(duì)比上一代深度學(xué)習(xí)模型RNN來(lái)看,Transformer架構(gòu)下,AI模型可以為輸入序列中的任何字符提供上下文,因此可以一次處理所有輸入,而不是一次只處理一個(gè)詞,從而使得更大規(guī)模的參數(shù)計(jì)算成為可能。而從GPU的計(jì)算方式來(lái)看,由于GPU采用了數(shù)量眾多的計(jì)算單元和超長(zhǎng)的流水線,因此其架構(gòu)設(shè)計(jì)較CPU而言,更適合進(jìn)行大吞吐量的AI并行計(jì)算。圖表:GPU內(nèi)部結(jié)構(gòu)更適合進(jìn)行大規(guī)模并行計(jì)算深度學(xué)習(xí)主要進(jìn)行矩陣向量計(jì)算,AI服務(wù)器處理效率更高。從ChatGPT模型結(jié)構(gòu)來(lái)看,基于Transformer架構(gòu),ChatGPT模型采用注意力機(jī)制進(jìn)行文本單詞權(quán)重賦值,并向前饋神經(jīng)網(wǎng)絡(luò)輸出數(shù)值結(jié)果,這一過(guò)程需要進(jìn)行大量向量及張量運(yùn)算。而AI服務(wù)器中往往集成多個(gè)AIGPU,AIGPU通常支持多重矩陣運(yùn)算,例如卷積、池化和激活函數(shù),以加速深度學(xué)習(xí)算法的運(yùn)算。因此在人工智能場(chǎng)景下,AI服務(wù)器往往較GPU服務(wù)器計(jì)算效率更高,具備一定應(yīng)用優(yōu)勢(shì)。圖表:GPU服務(wù)器與AI服務(wù)器的區(qū)別資料來(lái)源:ChatGPT、華泰研究AI服務(wù)器分類方式有兩種:1)按應(yīng)用場(chǎng)景:AI服務(wù)器按照應(yīng)用場(chǎng)景可以分為深度學(xué)習(xí)訓(xùn)練型和智能應(yīng)用推理型。訓(xùn)練任務(wù)對(duì)服務(wù)器算力要求較高,需要訓(xùn)練型服務(wù)器提供高密度算力支持,典型產(chǎn)品有中科曙光X785-G30和華為昇騰Atlas800(型號(hào)9000、型號(hào)9010)。推理任務(wù)則是利用訓(xùn)練后的模型提供服務(wù),對(duì)算力無(wú)較高要求,典型產(chǎn)品有中科曙光X785-G40和華為昇騰Atlas800(型號(hào)3000、型號(hào)3010)。2)按芯片類型:AI服務(wù)器為異構(gòu)服務(wù)器,可以根據(jù)應(yīng)用范圍調(diào)整計(jì)算模塊結(jié)構(gòu),可采用CPU+GPU、CPU+FPGA、CPU+TPU、CPU+ASIC或CPU+多種加速卡等組合形式。目前,產(chǎn)品中最常見的是CPU+多塊GPU的方式。圖表:AI服務(wù)器分類資料來(lái)源:昇騰計(jì)算官網(wǎng)、中科曙光官網(wǎng)、華泰研究常見的AI服務(wù)器分為四路、八路、十六路。一般來(lái)說(shuō),通用服務(wù)器主要采用以CPU為主導(dǎo)的串行架構(gòu),更擅長(zhǎng)邏輯運(yùn)算;而AI服務(wù)器主要采用加速卡為主導(dǎo)的異構(gòu)形式,更擅長(zhǎng)做大吞吐量的并行計(jì)算。按CPU數(shù)量,通用服務(wù)器可分為雙路、四路和八路等。雖然AI服務(wù)器一般僅搭載1-2塊CPU,但GPU數(shù)量顯著占優(yōu)。按GPU數(shù)量,AI服務(wù)器可以分為四路、八路和十六路服務(wù)器,其中搭載8塊GPU的八路AI服務(wù)器最常見。圖表:AI服務(wù)器與通用服務(wù)器路數(shù)注:AI服務(wù)器路數(shù)指GPU數(shù)量、通用服務(wù)器路數(shù)指CPU數(shù)量資料來(lái)源:浪潮信息官網(wǎng)、寧暢官網(wǎng)、華泰研究AI服務(wù)器采用多芯片組合,算力硬件成本更高。我們以典型服務(wù)器產(chǎn)品為例拆解硬件構(gòu)成,可以更清晰地理解兩類服務(wù)器硬件架構(gòu)區(qū)別:以浪潮通用服務(wù)器NF5280M6為例,該服務(wù)器采用1~2顆第三代IntelXeon可擴(kuò)展處理器,據(jù)英特爾官網(wǎng),每顆CPU售價(jià)約64000萬(wàn)元,故該服務(wù)器芯片成本約64000~128000;以浪潮AI服務(wù)器NF5688M6為例,該服務(wù)器采用2顆第三代IntelXeon可擴(kuò)展處理器+8顆英偉達(dá)A800GPU的組合,據(jù)英偉達(dá)官網(wǎng),每顆A800售價(jià)104000元,故該服務(wù)器芯片成本約96萬(wàn)元。圖表:通用服務(wù)器、AI服務(wù)器內(nèi)部結(jié)構(gòu)對(duì)比3.9ChatGPT需要的芯片:CPU+GPU、FPGA、ASICChatGPT帶動(dòng)大模型訓(xùn)練熱潮,AI服務(wù)器需求有望放量GPT模型訓(xùn)練需要大算力支持,或?qū)?lái)AI服務(wù)器建設(shè)需求。我們認(rèn)為,隨著國(guó)內(nèi)廠商陸續(xù)布局ChatGPT類似產(chǎn)品,GPT大模型預(yù)訓(xùn)練、調(diào)優(yōu)及日常運(yùn)營(yíng)或?qū)?lái)大量算力需求,進(jìn)而帶動(dòng)國(guó)內(nèi)AI服務(wù)器市場(chǎng)放量。以GPT-3175B模型預(yù)訓(xùn)練過(guò)程為例,據(jù)OpenAI,進(jìn)行一次GPT-3175B模型的預(yù)訓(xùn)練需要的算力約3640PFlop/s-day。我們假設(shè)以浪潮信息目前算力最強(qiáng)的AI服務(wù)器NF5688M6(PFlop/s)進(jìn)行計(jì)算,在預(yù)訓(xùn)練期限分別為3、5、10天的假設(shè)下,單一廠商需采購(gòu)的AI服務(wù)器數(shù)量分別為243、146、73臺(tái)。圖表:預(yù)訓(xùn)練需要的AI服務(wù)器數(shù)量測(cè)算AI大模型訓(xùn)練需求火熱,智能算力規(guī)模增長(zhǎng)有望帶動(dòng)AI服務(wù)器放量。據(jù)IDC數(shù)據(jù),以半精度(FP16)運(yùn)算能力換算,2021年中國(guó)智能算力規(guī)模約155.2EFLOPS。隨著AI模型日益復(fù)雜、計(jì)算數(shù)據(jù)量快速增長(zhǎng)、人工智能應(yīng)用場(chǎng)景不斷深化,未來(lái)國(guó)內(nèi)智能算力規(guī)模有望實(shí)現(xiàn)快速增長(zhǎng)。IDC預(yù)計(jì)2022年國(guó)內(nèi)智能算力規(guī)模將同比增長(zhǎng)72.7%至268.0EFLOPS,預(yù)計(jì)2026年智能算力規(guī)模將達(dá)1271.4EFLOPS,2022-2026年算力規(guī)模CAGR將達(dá)69.2%。我們認(rèn)為,AI服務(wù)器作為承載智能算力運(yùn)算的主要基礎(chǔ)設(shè)施,有望受益于下游需求放量。圖表:中國(guó)智能算力規(guī)模及預(yù)測(cè)資料來(lái)源:IDC、華泰研究3.10國(guó)產(chǎn)廠商布局豐富產(chǎn)品矩陣,占據(jù)全球AI服務(wù)器市場(chǎng)領(lǐng)先地位浪潮信息、聯(lián)想、華為等國(guó)產(chǎn)廠商在全球AI服務(wù)器市場(chǎng)占據(jù)領(lǐng)先地位。全球市場(chǎng)來(lái)看,AI服務(wù)器市場(chǎng)份額TOP10廠商中,國(guó)產(chǎn)廠商占據(jù)4席,累計(jì)市場(chǎng)份額超35%,其中浪潮信息以20.2%的份額排名第一。國(guó)內(nèi)市場(chǎng)來(lái)看,AI服務(wù)器市場(chǎng)集中度較高,排名前三的供應(yīng)商為浪潮信息、寧暢和華為,CR3達(dá)70.40%。我們認(rèn)為,國(guó)產(chǎn)廠商憑借強(qiáng)大產(chǎn)品競(jìng)爭(zhēng)力,已經(jīng)在國(guó)際市場(chǎng)占據(jù)一定領(lǐng)先地位,未來(lái)隨著AI算力需求釋放,有望充分受益于產(chǎn)業(yè)成長(zhǎng)機(jī)遇。圖表:2021H1全球AI服務(wù)器市場(chǎng)競(jìng)爭(zhēng)格局資料來(lái)源:IDC、圖表:2021H1中國(guó)AI服務(wù)器市場(chǎng)競(jìng)爭(zhēng)格局資料來(lái)源:IDC浪潮信息:AI服務(wù)器產(chǎn)品矩陣豐富,產(chǎn)品力獲國(guó)際認(rèn)可。目前公司AI服務(wù)器主要產(chǎn)品型號(hào)包括NF5688M6、NF5488A5等,據(jù)公司官網(wǎng),2021年上述兩款A(yù)I服務(wù)器在國(guó)際權(quán)威AI基準(zhǔn)測(cè)試MLPerf榜單中,獲得醫(yī)學(xué)影像分割、目標(biāo)物體檢測(cè)、自然語(yǔ)言理解、智能推薦等7項(xiàng)訓(xùn)練冠軍,可滿足包括自然語(yǔ)言理解等在內(nèi)的多項(xiàng)AI訓(xùn)練需求。此外,公司在AI領(lǐng)域的積累還包括AI資源平臺(tái)、AI算法平臺(tái)等,具備大量算力解決方案實(shí)施經(jīng)驗(yàn)。圖表:浪潮信息主要AI服務(wù)器產(chǎn)品矩陣華為:AI服務(wù)器融合自研加速卡與英特爾CPU。公司AI服務(wù)器為Atlas800推理服務(wù)器系列,旗下有型號(hào)3000、型號(hào)3010、型號(hào)9000和型號(hào)9010。其中,型號(hào)3000基于昇騰310芯片,型號(hào)3010基于Intel處理器,型號(hào)9000基于華為鯤鵬920+昇騰910處理器,型號(hào)9010基于Intel處理器+華為昇騰910芯片。旗艦級(jí)芯片加持下,產(chǎn)品最高擁有2.24PFLOPSFP16的高密度算力,并在設(shè)計(jì)結(jié)構(gòu)優(yōu)化下,芯片間跨服務(wù)器互聯(lián)時(shí)延可縮短10~70%。圖表:華為主要AI服務(wù)器產(chǎn)品新華三AI服務(wù)器覆蓋各訓(xùn)練負(fù)載要求,結(jié)合軟件平臺(tái)構(gòu)建AI完整生態(tài)。公司主要產(chǎn)品型號(hào)包括R4900G5、R5300G5、R5500G5等,可分別針對(duì)不同訓(xùn)練負(fù)載要求,滿足大小規(guī)模的推理/訓(xùn)練任務(wù)。軟件層面,公司通過(guò)新華三傲飛AI/HPC融合管理平臺(tái),全面提升AI作業(yè)效率約32%。2022年,新華三被國(guó)際權(quán)威分析機(jī)構(gòu)Forrester認(rèn)定為大型人工智能系統(tǒng)成熟廠商,可以提供可靠的服務(wù)器解決方案。同時(shí),新華三AI服務(wù)器在MLPerf測(cè)評(píng)中共斬獲86項(xiàng)世界第一。圖表:新華三主要AI服務(wù)器產(chǎn)品龍頭廠商有望充分受益于算力需求釋放。我們認(rèn)為,隨著ChatGPT待動(dòng)大模型訓(xùn)練熱潮,以人工智能訓(xùn)練為代表的智能算力需求逐步釋放,有望帶動(dòng)AI服務(wù)器放量。拆解AI服務(wù)器成本來(lái)看,GPU等算力芯片為核心組件,先進(jìn)算力產(chǎn)品受美國(guó)出口管制影響,但可通過(guò)采購(gòu)A800實(shí)現(xiàn)基本替代。我們認(rèn)為,浪潮信息等國(guó)產(chǎn)頭部廠商憑借豐富產(chǎn)品矩陣和強(qiáng)大產(chǎn)品競(jìng)爭(zhēng)力,占據(jù)全球AI服務(wù)器市場(chǎng)主要份額,未來(lái)有望充分受益于服務(wù)器需求釋放。3.11GPU算力芯片為核心組件,國(guó)產(chǎn)替代未來(lái)可期拆解來(lái)看,AI服務(wù)器主要成本包括算力芯片、內(nèi)存、存儲(chǔ)等。據(jù)IDC的2018年服務(wù)器成本結(jié)構(gòu)拆分?jǐn)?shù)據(jù),芯片成本在基礎(chǔ)型服務(wù)器中約占總成本的32%,在高性能或具有更強(qiáng)運(yùn)算能力的服務(wù)器中,芯片相關(guān)成本占比可以高達(dá)50%-83%。以機(jī)器學(xué)習(xí)型AI服務(wù)器為例,其主要成本由GPU、CPU、內(nèi)存及其他部件組成,其中GPU成本占比最高,達(dá)到72.8%。AI服務(wù)器算力芯片以GPU為主。據(jù)IDC,2022年國(guó)內(nèi)人工智能芯片市場(chǎng)中,GPU芯片占據(jù)主要市場(chǎng)份額,達(dá)89.0%,主因GPU芯片并行計(jì)算架構(gòu)更加適合于復(fù)雜數(shù)學(xué)計(jì)算場(chǎng)景,可以較好支持高度并行的工作負(fù)載,因此常用于數(shù)據(jù)中心的模型訓(xùn)練,以及邊緣側(cè)及端側(cè)的推理工作負(fù)載。此外,其他主要的人工智能芯片還包括NPU、ASIC、FPGA等。一般而言,AI服務(wù)器中算力芯片需求數(shù)量取決于服務(wù)器設(shè)計(jì)性能要求,需求種類取決于成本、功耗、算法等指標(biāo)。常見的算力芯片組合,如8xGPU+2xCPU、4xGPU+2xCPU、8xFPGA+1xCPU、4xFPGA+1xCPU等。圖表:2022年中國(guó)人工智能芯片市場(chǎng)規(guī)模占比GPU結(jié)構(gòu):計(jì)算單元+顯存。計(jì)算單元(StreamingMultiprocessor):計(jì)算單元的功能是執(zhí)行計(jì)算。其中每一個(gè)SM都有獨(dú)立的控制單元、寄存器、緩存、指令流水線。顯存(GlobalMemory):顯存是在GPU板卡上的DRAM,容量大但速度慢。1.計(jì)算單元底層架構(gòu):顯卡核心構(gòu)成多樣,不同核心專注不同任務(wù)。以英偉達(dá)為例,GPU顯卡構(gòu)成包括TENSORCORE、CUDA和RT等部分。TENSORCORE,即張量核心,是英偉達(dá)GPU上一塊特殊區(qū)域,針對(duì)AI矩陣計(jì)算設(shè)計(jì),可顯著提高AI訓(xùn)練吞吐量和推理性能。CUDA則是英偉達(dá)生態(tài)中的通用結(jié)構(gòu),一般包括多個(gè)數(shù)據(jù)類型,適用于視頻制作,圖像處理,三維渲染等常見圖像處理和計(jì)算工作。圖表:英偉達(dá)GPU計(jì)算單元架構(gòu)2、TOPS和TFLOPS是常見算力衡量單位:1)OPS:OPS(OperationsPerSecond)指每秒執(zhí)行的操作次數(shù),是整數(shù)運(yùn)算的單位,常在INT8、INT4等計(jì)算精度下度量算力性能。其中TOPS(TeraOperationsPerSecond)代表處理器每秒鐘可進(jìn)行一萬(wàn)億次(10^12)操作,類似的單位還有諸如GOPS、MOPS,均代表每秒的操作次數(shù)。2)FLOPS:FLOPS(Floating-pointOperationsPerSecond)指每秒所執(zhí)行的浮點(diǎn)運(yùn)算次數(shù),常在單精度(FP32)、半精度(FP16)等計(jì)算精度下度量算力性能。TFLOPS(TeraFloating-pointOperationsPerSecond)代表處理器每秒鐘可進(jìn)行一萬(wàn)億次(10^12)浮點(diǎn)運(yùn)算。雖然TOPS和TFLOPS數(shù)量級(jí)一樣,但前者是衡量操作次數(shù),后者是衡量浮點(diǎn)運(yùn)算,TOPS要結(jié)合數(shù)據(jù)類型精度(如INT8,F(xiàn)P16等)才能與FLOPS轉(zhuǎn)換。3.顯存位寬、帶寬與容量:顯存的主要指標(biāo)包括位寬、帶寬和容量。顯存本身與CPU的內(nèi)存類似,將數(shù)據(jù)在GPU核心與磁盤間傳輸。顯存位寬是顯存在一個(gè)時(shí)鐘周期內(nèi)所能傳送數(shù)據(jù)的位數(shù),決定了顯存瞬時(shí)傳輸?shù)臄?shù)據(jù)量。顯存帶寬是指顯示芯片與顯存之間的數(shù)據(jù)傳輸速率,由顯存頻率和顯存位寬共同決定,體現(xiàn)了顯卡的速度和性能。顯存容量決定了顯存臨時(shí)存儲(chǔ)數(shù)據(jù)的多少。目前主流AIGPU芯片包括英偉達(dá)H100、A100以及V100等。全球來(lái)看,目前用于人工智能訓(xùn)練的AIGPU市場(chǎng)以英偉達(dá)為主導(dǎo),公司旗下先進(jìn)算力產(chǎn)品主要包括H100、A100以及V100。對(duì)比雙精度浮點(diǎn)計(jì)算性能(FP64TensorCore)來(lái)看,H100、A100、V100計(jì)算速度分別為67TFLOPS、19.5TFLOPS、8.2TFLOPS。從顯存帶寬來(lái)看,H100、A100、V100傳輸速度分別為3TB/s、2TB/s、900GB/s。圖表29:英偉達(dá)H100、A100以及V100顯卡參數(shù)對(duì)比先進(jìn)算力芯片進(jìn)口受限或?yàn)閲?guó)產(chǎn)AI服務(wù)器的瓶頸之一。2022年10月7日,美國(guó)商務(wù)部工業(yè)與安全局(BIS)宣布了針對(duì)中國(guó)出口先進(jìn)芯片的管制新規(guī)聲明。聲明規(guī)定,滿足輸入輸出(I/O)雙向傳輸速度高于600GB/s,同時(shí)每次操作的比特長(zhǎng)度乘以TOPS計(jì)算出的處理性能合計(jì)為4800或更多算力的產(chǎn)品,將無(wú)法出口至中國(guó)。以英偉達(dá)A100為例,以TF32性能測(cè)算,即156*32=4992>4800,且傳輸速度為600GB/s?;诖?,我們可以推斷,性能大于等于A100GPU的先進(jìn)算力芯片屬于美國(guó)出口限制范圍。采用英偉達(dá)A800服務(wù)器或?yàn)楫?dāng)前可行替代方案。以浪潮NF5688M6為例,NF5688M6是為超大規(guī)模數(shù)據(jù)中心研發(fā)的NVLinkAI服務(wù)器,支持2顆Intel最新的IceLakeCPU和8顆NVIDIA最新的NVSwitch全互聯(lián)A800GPU,單機(jī)可提供5PFlops的AI計(jì)算性能。對(duì)比核心硬件來(lái)看,NF5688M6采用英偉達(dá)中國(guó)特供版芯片—A800,在浮點(diǎn)計(jì)算能力、顯存帶寬、顯存容量等性能指標(biāo)上,與先進(jìn)算力芯片—A100基本一致,主要差異在于芯片的數(shù)據(jù)傳輸速度,約為A100的三分之二。圖表:浪潮NF5688M6服務(wù)器GPU性能與A100基本一致圖表:英偉達(dá)A100性能參數(shù)資料來(lái)源:英偉達(dá)官網(wǎng)圖表:英偉達(dá)A800性能參數(shù)資料來(lái)源:英偉達(dá)官網(wǎng)英偉達(dá)其他AIGPU芯片均不受出口限制影響。考慮到目前美國(guó)GPU芯片限制主要集中在先進(jìn)算力領(lǐng)域,倘若未來(lái)進(jìn)一步加大限制力度,A800等大算力芯片可能出現(xiàn)進(jìn)一步被限制的風(fēng)險(xiǎn)。而從英偉達(dá)產(chǎn)品線布局來(lái)看,除了前面討論的A100、A800、V100、H100等先進(jìn)算力芯片外,還有A2、A10、A30、A40、T4等。這些芯片中,浮點(diǎn)計(jì)算能力最強(qiáng)的型號(hào)為A30,輸出性能為82*32=2624<4800,因此不受出口限制影響。圖表:英偉達(dá)其他AIGPU對(duì)比資料來(lái)源:英偉達(dá)官網(wǎng)、國(guó)產(chǎn)AIGPU性能持續(xù)升級(jí),國(guó)產(chǎn)替代未來(lái)可期。目前國(guó)產(chǎn)AIGPU廠商主要包括阿里、華為、寒武紀(jì)、天數(shù)智芯等。隨著國(guó)內(nèi)廠商持續(xù)加強(qiáng)GPU研發(fā),產(chǎn)品力不斷升級(jí)。以華為昇騰910為例,該款芯片采用7nm制程,集成了超496億個(gè)晶體管,可以提供320TFLOPS的FP16計(jì)算速度或640TOPS的INT8算力,略高于英偉達(dá)A100的FP16計(jì)算速度(312TFLOPS,不采用英偉達(dá)稀疏技術(shù))。我們認(rèn)為,單純從芯片算力性能來(lái)看,部分國(guó)產(chǎn)芯片已經(jīng)能夠追趕海外主流芯片。隨著國(guó)產(chǎn)生態(tài)逐步打磨,GPU性能提升有望推動(dòng)國(guó)產(chǎn)化替代。圖表:國(guó)產(chǎn)主要AIGPU性能對(duì)比3.12總結(jié):從ChatGPT到AI服務(wù)器1、GPT模型需要什么樣的算力?ChatGPT采用單一大模型路線,對(duì)底層算力的需求主要體現(xiàn)在訓(xùn)練和推理兩個(gè)層面,訓(xùn)練即使用大量數(shù)據(jù)集,對(duì)模型做反復(fù)迭代計(jì)算,推理即利用模型對(duì)輸入信息進(jìn)行處理并給出結(jié)果。據(jù)IDC數(shù)據(jù),2021年中國(guó)人工智能服務(wù)器工作負(fù)載中,57.6%的負(fù)載用于推理,42.4%用于模型訓(xùn)練。具體來(lái)看,算力需求場(chǎng)景包括預(yù)訓(xùn)練、Finetune以及日常運(yùn)營(yíng)。根據(jù)我們的測(cè)算,GPT-3175B模型需要的預(yù)訓(xùn)練算力約3640PFlop/s-day、ChatGPT單月運(yùn)營(yíng)需要的算力約7034.7PFlop/s-day、單月Finetune需要的算力至少為1350.4PFlop/s-day。2、GPT模型需要什么樣的服務(wù)器?我們認(rèn)為,服務(wù)器類型不斷演化的動(dòng)力來(lái)自:計(jì)算架構(gòu)的變化。從服務(wù)器產(chǎn)業(yè)發(fā)展歷程來(lái)看,隨著計(jì)算架構(gòu)從單機(jī)到C-S、C-E-S,陸續(xù)演化出PC、云計(jì)算、邊緣計(jì)算等服務(wù)器類型。而在AI訓(xùn)練時(shí)代,C-S架構(gòu)的回歸以及大規(guī)模并行計(jì)算需求,又帶來(lái)AI服務(wù)器的擴(kuò)張。對(duì)比傳統(tǒng)服務(wù)器來(lái)看,AI服務(wù)器由于采用GPU等加速卡,更加擅長(zhǎng)向量、張量計(jì)算,對(duì)于AI訓(xùn)練及推理場(chǎng)景的處理能力更強(qiáng),且采用多芯片組合架構(gòu),單臺(tái)服務(wù)器芯片成本也較高。3、GPT模型需要什么樣的算力芯片?GPT模型的訓(xùn)練和推理計(jì)算主要由AI服務(wù)器完成,底層算力芯片主要包括CPU、GPU、FPGA、ASIC等。常見的算力芯片組合,如8xGPU+2xCPU、4
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年河北旅游職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫(kù)完整
- 電力安全生產(chǎn)教育培訓(xùn)的現(xiàn)代科技應(yīng)用
- 聲明改合同范本
- 2025-2030年中國(guó)生物丁醇行業(yè)風(fēng)險(xiǎn)評(píng)估與十三五規(guī)劃研究報(bào)告
- 2025-2030年中國(guó)淀粉全降解塑料行業(yè)投資戰(zhàn)略決策研究報(bào)告
- 知識(shí)產(chǎn)權(quán)保護(hù)策略在辦公環(huán)境中的應(yīng)用
- 2025-2030年中國(guó)泡桐木原木市場(chǎng)運(yùn)行動(dòng)態(tài)及投資戰(zhàn)略研究報(bào)告
- 2025-2030年中國(guó)汽車制動(dòng)盤行業(yè)發(fā)展趨勢(shì)及投資戰(zhàn)略研究報(bào)告
- 2025-2030年中國(guó)汽柴油清凈劑行業(yè)運(yùn)行現(xiàn)狀與投資戰(zhàn)略研究報(bào)告
- 2025-2030年中國(guó)有機(jī)大米市場(chǎng)發(fā)展態(tài)勢(shì)及投資規(guī)劃研究報(bào)告
- 第7課《誰(shuí)是最可愛的人》公開課一等獎(jiǎng)創(chuàng)新教學(xué)設(shè)計(jì)-2
- 人音版四年級(jí)音樂下冊(cè)全冊(cè)教學(xué)設(shè)計(jì)教案表格式
- 骨盆骨折小講課護(hù)理課件
- 渣土車司機(jī)安全培訓(xùn)
- 分布式儲(chǔ)能系統(tǒng)的成本效益評(píng)估
- 二次函數(shù)(最全的中考二次函數(shù)知識(shí)點(diǎn)總結(jié))
- 建筑衛(wèi)生陶瓷生產(chǎn)英文資料
- 網(wǎng)絡(luò)意識(shí)形態(tài)安全
- 汽油安全技術(shù)說(shuō)明書(MSDS)
- 人工智能的倫理問題及其治理研究
- 《魯濱孫漂流記》講解
評(píng)論
0/150
提交評(píng)論