高質(zhì)量大模型基礎(chǔ)設(shè)施研究報(bào)告(2024年)_第1頁(yè)
高質(zhì)量大模型基礎(chǔ)設(shè)施研究報(bào)告(2024年)_第2頁(yè)
高質(zhì)量大模型基礎(chǔ)設(shè)施研究報(bào)告(2024年)_第3頁(yè)
高質(zhì)量大模型基礎(chǔ)設(shè)施研究報(bào)告(2024年)_第4頁(yè)
高質(zhì)量大模型基礎(chǔ)設(shè)施研究報(bào)告(2024年)_第5頁(yè)
已閱讀5頁(yè),還剩43頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

高質(zhì)量大模型基礎(chǔ)設(shè)施研究報(bào)告(2024年)前 言隨著大模型技術(shù)的飛速發(fā)展,模型參數(shù)量急劇增長(zhǎng),模型能力持續(xù)增強(qiáng),智能應(yīng)用百花齊放?;A(chǔ)設(shè)施的可用性決定了大模型研發(fā)及服務(wù)的效率,大模型服務(wù)的可用性又決定了智能應(yīng)用的服務(wù)質(zhì)量。在此背景下,高質(zhì)量大模型基礎(chǔ)設(shè)施成為推動(dòng)大模型應(yīng)用落地的關(guān)鍵要素。目 錄一、大模型基礎(chǔ)設(shè)施概述 1(一)大模型基礎(chǔ)設(shè)施概念與特性 1(二)大模型基礎(chǔ)設(shè)施現(xiàn)狀 4二、大模型基礎(chǔ)設(shè)施挑戰(zhàn) 6(一)計(jì)算資源分配粗放,利用率低成為新難題 7(二)海量數(shù)據(jù)處理低效,數(shù)據(jù)存儲(chǔ)成為新瓶頸 8(三)并行計(jì)算規(guī)模攀升,網(wǎng)絡(luò)通信成為新阻礙 10(四)模型參數(shù)急劇增長(zhǎng),開(kāi)發(fā)效率成為新約束 (五)基礎(chǔ)設(shè)施故障率高,運(yùn)維能力成為新挑戰(zhàn) 14三、大模型基礎(chǔ)設(shè)施關(guān)鍵技術(shù) 15(一)高效算力管理調(diào)度技術(shù) 15(二)高性能大模型存儲(chǔ)技術(shù) 16(三)高通量大規(guī)模網(wǎng)絡(luò)技術(shù) 18(四)高效能大模型開(kāi)發(fā)技術(shù) 20(五)高容錯(cuò)大模型運(yùn)維技術(shù) 22四、高質(zhì)量大模型基礎(chǔ)設(shè)施評(píng)價(jià)指標(biāo) 23(一)指標(biāo)體系 23(二)指標(biāo)定義 25五、高質(zhì)量大模型基礎(chǔ)設(shè)施典型實(shí)踐 27(一)案例一:Meta大模型基礎(chǔ)設(shè)施實(shí)踐 27(二)案例二:螞蟻集團(tuán)大模型基礎(chǔ)設(shè)施實(shí)踐 29(三)案例三:某科技公司大模型基礎(chǔ)設(shè)施實(shí)踐 31六、總結(jié)與展望 33附錄高質(zhì)量大模型基礎(chǔ)設(shè)施規(guī)劃建議 35圖目錄圖1 大模型基礎(chǔ)設(shè)施架構(gòu)圖 1圖2 大模型基礎(chǔ)設(shè)施能力矩陣 2圖3 大模型全生命周期對(duì)大模型基礎(chǔ)設(shè)施的關(guān)鍵需求 7圖4 大模型基礎(chǔ)設(shè)施網(wǎng)絡(luò)互聯(lián) 20圖5 高質(zhì)量大模型基礎(chǔ)設(shè)施評(píng)價(jià)體系 24圖6 MetaAI集群系統(tǒng)框架圖 28圖7 螞蟻大模型基礎(chǔ)設(shè)施架構(gòu) 30表目錄表1 大模型基礎(chǔ)設(shè)施技術(shù)能力評(píng)價(jià)指標(biāo) 25表2 大模型基礎(chǔ)設(shè)施性能評(píng)價(jià)指標(biāo) 26一、大模型基礎(chǔ)設(shè)施概述(一)大模型基礎(chǔ)設(shè)施概念與特性(1來(lái)源:中國(guó)信息通信研究院圖1大模型基礎(chǔ)設(shè)施架構(gòu)圖2來(lái)源:中國(guó)信息通信研究院圖2大模型基礎(chǔ)設(shè)施能力矩陣高可用是指在提高大模型基礎(chǔ)設(shè)施平均無(wú)故障運(yùn)行時(shí)間(MeanBetween(Meanto(MeanRecovery,MTTR)可用度是指大模型基礎(chǔ)設(shè)施集群在一定時(shí)間內(nèi)提供正常服務(wù)的50%。Meta50000+卡訓(xùn)練任務(wù)1OpenAI2500030%~40%Megatron-LM10000+40%~50%1Meta."BuildingMeta’sGenAIInfrastructure"./2024/03/12/data-center-engineering/building-metas-genai-infrastructure/.MegaScale55.2%2FLOPsUtilization,HFU)是指考慮重計(jì)算后,可擴(kuò)展指的是大模型基礎(chǔ)設(shè)施在負(fù)載增加時(shí),通過(guò)增加資源維持或提高性能的能力,在具備擴(kuò)建能力的同時(shí),兼具技術(shù)兼容的特性。2Jiang,Ziheng,etal."MegaScale:Scalinglargelanguagemodeltrainingtomorethan10,000GPUs."21stUSENIXSymposiumonNetworkedSystemsDesignandImplementation(NSDI24).2024.可評(píng)價(jià)是指面向大模型應(yīng)用場(chǎng)景,大模型基礎(chǔ)設(shè)施可通過(guò)完整、有效的評(píng)價(jià)體系反映其賦能成效。(二)大模型基礎(chǔ)設(shè)施現(xiàn)狀技術(shù)方面,AI存儲(chǔ)能力提升,進(jìn)一步提高基礎(chǔ)設(shè)施可用度。橡DNN公司等的新一代AIMADSys實(shí)驗(yàn)室聯(lián)合開(kāi)發(fā)的高密高性能AIMLPerfStorage基準(zhǔn)評(píng)測(cè)第一名,為大模型基礎(chǔ)設(shè)施的RDMAAI計(jì)算平臺(tái)+AI開(kāi)發(fā)平臺(tái)+大模型”的全產(chǎn)業(yè)生態(tài)。如百度智能云提出“打AI-商湯大9AIAIAI(,幫助AI數(shù)據(jù)中心所有者和運(yùn)營(yíng)商獲得清潔、可靠的能源解決方案。20246月德國(guó)發(fā)布《人工智能計(jì)算3車(chē)碧瑤等運(yùn)營(yíng)商大模型硬件基礎(chǔ)設(shè)施創(chuàng)新及RDMA流量控制技術(shù)研究."信息通信技術(shù)與政策002(2024):050.20249AIAI計(jì)算基礎(chǔ)設(shè)施,計(jì)劃以公私合資方式”二、大模型基礎(chǔ)設(shè)施挑戰(zhàn)434D.Narayanan,etal,"EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatron-LM"SC21:InternationalConferenceforHighPerformanceComputing,Networking,StorageandAnalysis,St.Louis,MO,USA,2021,pp.1-14.來(lái)源:中國(guó)信息通信研究院圖3大模型全生命周期對(duì)大模型基礎(chǔ)設(shè)施的關(guān)鍵需求(一)計(jì)算資源分配粗放,利用率低成為新難題大模型參數(shù)由千億向萬(wàn)億發(fā)展,算力需求驟增。以83萬(wàn)億個(gè)25×1025FLOPS2.5萬(wàn)張A10090~100天55DylanPatelandGerald"DemystifyingTheengineeringtradeoffsthatledOpenAItotheirarchitecture".https:///p/gpt-4-architecture-infrastructure.整節(jié)點(diǎn)訓(xùn)練任務(wù),意味著對(duì)調(diào)度優(yōu)化策略有著更高的要求。面,業(yè)務(wù)在進(jìn)行模型部署時(shí)會(huì)綁定固定的算力資源,可能出現(xiàn)多個(gè)AI推理任務(wù)搶占一張推理卡的情況,而其他推理卡還有空余資源,AI計(jì)算芯片設(shè)計(jì)的算力調(diào)度系統(tǒng)存在資源超額申請(qǐng)問(wèn)題?;懔φ{(diào)度多將AI計(jì)算芯片作為影響任務(wù)性能表現(xiàn)的主要因素,忽略了CPU(二)海量數(shù)據(jù)處理低效,數(shù)據(jù)存儲(chǔ)成為新瓶頸數(shù)據(jù)總量和質(zhì)量決定了大模型能力的上限。根據(jù)“尺度定律(ScalingLaw)T系列的訓(xùn)練數(shù)據(jù)由1的4B增長(zhǎng)至4的約4ra、Gemini等多模態(tài)大模型發(fā)展帶動(dòng)訓(xùn)練數(shù)據(jù)需求十倍、百倍級(jí)增長(zhǎng)。海量數(shù)據(jù)的準(zhǔn)備效率和數(shù)據(jù)在全流程間的流轉(zhuǎn)效率是影響大模型端到端生產(chǎn)成本的核心要素,AI存儲(chǔ)是解決數(shù)據(jù)歸集時(shí)間長(zhǎng)、數(shù)據(jù)處理效率低、記憶時(shí)間短等問(wèn)題的核心環(huán)節(jié)。型訓(xùn)練所需的PB3~530%6,任一模態(tài)數(shù)據(jù)集可能包含數(shù)億甚至數(shù)百1007TB元數(shù)據(jù)。海量小文件的元30%965%二是(Checkpoint)10萬(wàn)卡規(guī)模訓(xùn)練萬(wàn)億參數(shù)量模型為6鄭緯民.分布式技術(shù)在大模型訓(xùn)練和推理中的應(yīng)用[J].大數(shù)據(jù),2024,10(5):1-10.612TB3過(guò)程中的長(zhǎng)上下文及中間推理tokenAI(三)并行計(jì)算規(guī)模攀升,網(wǎng)絡(luò)通信成為新阻礙1.8Out)和縱向擴(kuò)展(ScaleUp)網(wǎng)絡(luò)提出極大挑戰(zhàn)??v向擴(kuò)展互聯(lián)層面,網(wǎng)絡(luò)需承載數(shù)據(jù)并行(DataParallel,DP)和流水線(xiàn)(Pipeline200Gbps100GbpsECMP(EqualCostMultiPath)選路不均Parallel,TP)不僅要求卡間互聯(lián)帶寬達(dá)到幾百甚至上千GB8AI服務(wù)器的端口需求和存儲(chǔ)需求。以樣本面網(wǎng)絡(luò)為例,其關(guān)聯(lián)計(jì)算區(qū)和存儲(chǔ)區(qū)。模型訓(xùn)練時(shí),一是AI計(jì)算節(jié)點(diǎn)從存儲(chǔ)區(qū)加載AI模型,讀取訓(xùn)練數(shù)據(jù)集。大模型訓(xùn)練過(guò)程中訓(xùn)練數(shù)據(jù)集batch讀取多以海量小文件為主,以70%30%二是AI計(jì)算節(jié)點(diǎn)通過(guò)樣本網(wǎng)絡(luò)將檢查點(diǎn)文件和訓(xùn)練模型寫(xiě)入存Checkpoint模型參數(shù)保存過(guò)程中,為了降低AI1%以?xún)?nèi)。為保障大模型基礎(chǔ)設(shè)施發(fā)揮最大性能,樣本網(wǎng)絡(luò)設(shè)計(jì)時(shí)(四)模型參數(shù)急劇增長(zhǎng),開(kāi)發(fā)效率成為新約束理TB大模型訓(xùn)練資源需求普遍較大。大模型參數(shù)規(guī)模大,與判別式AI模型相比,模型訓(xùn)練時(shí)計(jì)算和存儲(chǔ)需求顯著增加,依賴(lài)分布式技LoRA數(shù)數(shù)量,該技術(shù)需要開(kāi)發(fā)平臺(tái)能夠靈活地處理模型參數(shù)的調(diào)整和優(yōu)化。另一方面,提示工程需輸入提示引導(dǎo)模型生成特定輸出,要求開(kāi)LLaMA370B136.3G6V100GPU才能有效運(yùn)行。高昂的計(jì)算和存儲(chǔ)成本英偉達(dá)AI芯片+Pytorch框架”體系已成為大模型訓(xùn)練的事實(shí)標(biāo)準(zhǔn)和默認(rèn)規(guī)則。英偉達(dá)占據(jù)全球AI80%HuggingFace開(kāi)源社區(qū)中,85%的大模型框架是用PytorchCPUGPUASIC(五)基礎(chǔ)設(shè)施故障率高,運(yùn)維能力成為新挑戰(zhàn)”+級(jí)別”集群,“10萬(wàn)+級(jí)別”光模塊,上千萬(wàn)算子,上百套軟件36.7%運(yùn)維需要深度協(xié)同AI業(yè)務(wù)。隨著智算集群規(guī)模擴(kuò)大,集群運(yùn)維管控訓(xùn)練作業(yè)中斷頻繁,業(yè)界超萬(wàn)卡集群持續(xù)穩(wěn)定運(yùn)行時(shí)間較短。Meta的LLaMA316,384個(gè)H100GPU5441978已確認(rèn)或懷疑是硬件問(wèn)題導(dǎo)致。Meta的1000A10033天,然而實(shí)際903570次。另一方面,大模型基礎(chǔ)設(shè)施故障種類(lèi)多、復(fù)雜系1~2三、大模型基礎(chǔ)設(shè)施關(guān)鍵技術(shù)(一)高效算力管理調(diào)度技術(shù)AI應(yīng)用。適配不同品牌和型號(hào)的AI加速卡,但異構(gòu)并行計(jì)算實(shí)現(xiàn)難度較大。AI芯令可在異構(gòu)AI二是(二)高性能大模型存儲(chǔ)技術(shù)技術(shù)實(shí)現(xiàn)長(zhǎng)記憶存儲(chǔ),助力大模型推理降本增效。一緩存機(jī)制,可以有效降低模型長(zhǎng)序列推理基于高性能長(zhǎng)記憶存儲(chǔ)技術(shù)構(gòu)建的多級(jí)緩存機(jī)制,可以保證“長(zhǎng)記憶”中調(diào)取前期已執(zhí)行過(guò)的計(jì)算結(jié)P2PHBMCPU處理瓶頸,極大地提升了數(shù)據(jù)從存儲(chǔ)到加速卡的傳輸效AI芯片訓(xùn)練推理效率的同時(shí),實(shí)TB/sIOPS支AI全流程所需的NAS(三)高通量大規(guī)模網(wǎng)絡(luò)技術(shù)“變成變成于MAMA一是IInfidARPIBAI智算中心RDMARoCERDMA功能,其主要優(yōu)勢(shì)在于TCP協(xié)議并采用硬件CPU“”以針對(duì)AI訓(xùn)練場(chǎng)景下的流量特點(diǎn),將搜集到的整網(wǎng)信息作為創(chuàng)新算一是90%DPU90%參數(shù)面、存儲(chǔ)面/樣本面、業(yè)務(wù)面、帶外管理面網(wǎng)絡(luò)互聯(lián),助力4AI開(kāi)發(fā)軟件和運(yùn)維的多系統(tǒng)協(xié)調(diào)。訓(xùn)練前,訓(xùn)練數(shù)據(jù)集及訓(xùn)練模型需通過(guò)存儲(chǔ)面網(wǎng)絡(luò)導(dǎo)入存儲(chǔ)系統(tǒng),AI開(kāi)發(fā)平臺(tái)需通過(guò)業(yè)務(wù)面網(wǎng)絡(luò)和帶內(nèi)管理網(wǎng)絡(luò)下發(fā)訓(xùn)練任務(wù),訓(xùn)練任務(wù)鏡像、AI模型、AI計(jì)算節(jié)點(diǎn)中。訓(xùn)練文件到AI計(jì)算節(jié)點(diǎn)。訓(xùn)練完成后,模型通過(guò)樣本網(wǎng)絡(luò)寫(xiě)入系統(tǒng),通來(lái)源:昇騰社區(qū)圖4大模型基礎(chǔ)設(shè)施網(wǎng)絡(luò)互聯(lián)(四)高效能大模型開(kāi)發(fā)技術(shù)支AdafactorFlashAttentionDeepSpeed如DeepSpeed、、JAXAdam、Adagrad一是(PEFT)技術(shù),能夠顯著節(jié)省訓(xùn)練時(shí)間、(Prefix(Prompt-Tuning)大CompressionPPQ通過(guò)圖優(yōu)化等Model推出的vLLM、英偉達(dá)推出的、HuggingFace推出的TGI、微軟DeepSpeed推出的DeepSpeed-MIILLMGPUNPU卡,阿里魔搭推出的DashInferCPUGLake通過(guò)對(duì)鍵值對(duì)緩存實(shí)現(xiàn)透明管理和存算解耦,進(jìn)一步(五)高容錯(cuò)大模型運(yùn)維技術(shù)在測(cè)試、功耗測(cè)試、HCCL帶寬測(cè)leafRoCEGPUGPUIO基RAG四、高質(zhì)量大模型基礎(chǔ)設(shè)施評(píng)價(jià)指標(biāo)(一)指標(biāo)體系為客觀全面地對(duì)大模型基礎(chǔ)設(shè)施進(jìn)行評(píng)價(jià),研究報(bào)告從技術(shù)能力大模型基礎(chǔ)設(shè)施評(píng)價(jià)體系需綜合考慮大模型的技術(shù)能力和性能5來(lái)源:中國(guó)信息通信研究院圖5高質(zhì)量大模型基礎(chǔ)設(shè)施評(píng)價(jià)體系(二)指標(biāo)定義表1大模型基礎(chǔ)設(shè)施技術(shù)能力評(píng)價(jià)指標(biāo)技術(shù)能力計(jì)算支持平滑擴(kuò)容集群規(guī)模至萬(wàn)卡以上訓(xùn)練單卡支持不低于200TFLOPS(FP16)的算力支持訓(xùn)練長(zhǎng)序列、多模態(tài)大模型存儲(chǔ)U50GB/sIOPS500TB容量支持?jǐn)?shù)據(jù)編織和加速卡直通存儲(chǔ),跨集群跨地域的數(shù)據(jù)全局可視可管支持長(zhǎng)記憶、KV-cache和近數(shù)據(jù)向量知識(shí)庫(kù)能力支持?jǐn)?shù)據(jù)加密,防勒索,6個(gè)9以上可靠性網(wǎng)絡(luò)支持萬(wàn)卡以上超大規(guī)模智算芯片高效互聯(lián)支持IB、RoCE等高速互聯(lián)技術(shù),支持高吞吐的負(fù)載均衡技術(shù)支持的卡間帶寬不低于200GB/s開(kāi)發(fā)工支持?jǐn)?shù)據(jù)并行、模型并行、流水線(xiàn)并行等大模型分布式訓(xùn)練并行能力具支持?jǐn)帱c(diǎn)續(xù)訓(xùn)支持檢查點(diǎn)checkpointI/O加速運(yùn)維支持運(yùn)維系統(tǒng)集群全局資源可視,故障檢測(cè)、故障隔離、資源重調(diào)度、訓(xùn)練任務(wù)恢復(fù)全流程自動(dòng)化來(lái)源:中國(guó)信息通信研究院性能能力方面如表2,主要基于大模型全生命周期對(duì)基礎(chǔ)設(shè)施的表2大模型基礎(chǔ)設(shè)施性能評(píng)價(jià)指標(biāo)一級(jí)指標(biāo)二級(jí)指標(biāo)描述系統(tǒng)可用度大模型基礎(chǔ)設(shè)施集群在一定時(shí)間內(nèi)提供正常服務(wù)的時(shí)間占總時(shí)間的比例,單位平均無(wú)故障時(shí)間MTTF從開(kāi)始運(yùn)行到發(fā)生首次故障的平均時(shí)間,簡(jiǎn)稱(chēng)MTTF(MeanTimetoFailure),單位小時(shí)平均無(wú)故障運(yùn)行時(shí)間相鄰兩次故障之間的平均工作時(shí)間,也稱(chēng)為平均故障MTBF(MeanTimeBetweenFailures),單位小時(shí)單集群日均故障率一天內(nèi),集群中所有節(jié)點(diǎn)發(fā)生故障的比率。這個(gè)指標(biāo)通常用來(lái)衡量集群的穩(wěn)定性和可靠性基礎(chǔ)設(shè)施能源效率PUE數(shù)據(jù)中心的總電量÷IT設(shè)備用電量,無(wú)量綱計(jì)算標(biāo)稱(chēng)算力指硬件或設(shè)備在正常工作狀態(tài)下的理論計(jì)算能力硬件算力利用率模型的實(shí)際計(jì)算需求與其理論最大計(jì)算能力之間的比率,單位存儲(chǔ)存儲(chǔ)容量單節(jié)點(diǎn)存儲(chǔ)容量×節(jié)點(diǎn)數(shù),單位PB存儲(chǔ)性能(I/O(單位IOPS)網(wǎng)絡(luò)芯片片間互聯(lián)帶寬AI芯片片間互聯(lián)帶寬,單位GB/s集群節(jié)點(diǎn)間集群節(jié)點(diǎn)間互聯(lián)帶寬,單位GB/s開(kāi)發(fā)運(yùn)維互聯(lián)帶寬網(wǎng)絡(luò)數(shù)據(jù)吞吐率級(jí)指在單位時(shí)間內(nèi)成功傳輸?shù)臄?shù)據(jù)量,通常以每秒比特?cái)?shù)(bps)、每秒字節(jié)數(shù)(Bps)或更高的數(shù)據(jù)單位來(lái)表示模型算力利用率模型訓(xùn)練過(guò)程中實(shí)際使用的吞吐量與其理論可用吞吐量之間的比值訓(xùn)練平均吞吐模型在單位時(shí)間內(nèi)能夠處理的樣本數(shù)量模型壓縮比壓縮后的模型文件大小與原始模型文件大小的比值模型壓縮精度損失模型壓縮前后,在同一驗(yàn)證集上精度指標(biāo)之差推理時(shí)延從提交請(qǐng)求到收到完成輸出的時(shí)間推理吞吐(每秒查詢(xún)數(shù))特定時(shí)間內(nèi),每秒可成功處理并返回結(jié)果的查詢(xún)請(qǐng)求的平均數(shù)量平均故障定 作業(yè)運(yùn)行時(shí)基礎(chǔ)設(shè)施集群出現(xiàn)故障到故障首次被發(fā)位時(shí)間 現(xiàn)的平均時(shí)間,簡(jiǎn)稱(chēng)MTTD(MeanTimeTo單位是分鐘平均故障恢復(fù)時(shí)間發(fā)生故障后修復(fù)所需的平均時(shí)間,簡(jiǎn)稱(chēng)MTTR(MeanTimeToRecovery,MTTR),單位分鐘來(lái)源:中國(guó)信息通信研究院五、高質(zhì)量大模型基礎(chǔ)設(shè)施典型實(shí)踐(一)案例一:Meta大模型基礎(chǔ)設(shè)施實(shí)踐Meta認(rèn)為未來(lái)生成式AIEB20243月Meta新的兩個(gè)大模型計(jì)算集群技術(shù)細(xì)節(jié)。每個(gè)集群均配備了24576個(gè)NVIDIATensorCoreH100GPU,與既有集群相比在計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、開(kāi)發(fā)軟件方面均進(jìn)行了全面優(yōu)化,系統(tǒng)架構(gòu)如圖6所示。計(jì)算方面,一是改進(jìn)了任務(wù)列表(jobscheduler),針對(duì)內(nèi)部作NVIDIA85%Meta來(lái)源:Meta圖6MetaAI集群系統(tǒng)框架圖網(wǎng)絡(luò)方面,Meta集群采用兩種網(wǎng)絡(luò)方案。一是采用基于Arista7800RoCE網(wǎng)絡(luò)結(jié)構(gòu)解決方案,并配備了和Minipack2OCP機(jī)架交換機(jī)。二是NVIDIAQuantum2InfiniBand400Gbps端點(diǎn)連接。Meta通過(guò)網(wǎng)絡(luò)、軟RoCEInfiniBand規(guī)模的工作負(fù)載(RoCELlama3訓(xùn)練),訓(xùn)練期間未遇到任何網(wǎng)絡(luò)瓶頸問(wèn)題。由此可見(jiàn),RoCEIB組網(wǎng)的集群均可處理大型生成式AILinuxMeta“Tectonic”分布式存儲(chǔ)解決方案,實(shí)現(xiàn)數(shù)千個(gè)GPU同步保存和加載檢查點(diǎn),同時(shí)還實(shí)現(xiàn)了靈EBHammerspace網(wǎng)絡(luò)文件系統(tǒng),支持書(shū)簽GPU交互式調(diào)試,實(shí)現(xiàn)代碼更改即時(shí)對(duì)所配備最新的高容量E1.S機(jī)架數(shù)量減少以及功率效率之間的平衡,同時(shí)借助OCP服務(wù)器的模軟件方面,Meta利用MAIProf識(shí)別大模型訓(xùn)練過(guò)程中的性能瓶頸,并在AI框架層面進(jìn)行優(yōu)化。如利用MAIProfPython函數(shù)調(diào)用進(jìn)行全過(guò)程跟蹤,發(fā)現(xiàn)性能異常是因?yàn)榭膳渲脜ytorchMeta通過(guò)訓(xùn)練框架優(yōu)Pytorch可支持?jǐn)?shù)萬(wàn)甚至數(shù)十萬(wàn)GPU(二)案例二:螞蟻集團(tuán)大模型基礎(chǔ)設(shè)施實(shí)踐螞蟻集團(tuán)構(gòu)建面向綠色計(jì)算的大模型基礎(chǔ)設(shè)施技術(shù)體系,用于支撐螞蟻百靈大模型(千億規(guī)模參數(shù))的訓(xùn)練和推理。大模型基礎(chǔ)設(shè)施技術(shù)體系包括基于算力經(jīng)濟(jì)模型的數(shù)據(jù)中心布局、算存運(yùn)均衡配置、7。來(lái)源:螞蟻集團(tuán)圖7螞蟻大模型基礎(chǔ)設(shè)施架構(gòu)vGPU強(qiáng)三是存儲(chǔ)方面,利用技術(shù)解決大模型推理顯存容量瓶頸與訪(fǎng)存密集問(wèn)題。一是顯存虛擬-物理映71%的顯存占用。二是提出并實(shí)現(xiàn)對(duì)于KV-cache的分批顯存分配管理(LayerKV),toFirst1.5~7.9軟件方面,采用分布式訓(xùn)練加速技術(shù),利用其自研的Native試結(jié)果顯示,在Hopper40%。運(yùn)維方面,一是DLRover二是效,其中訓(xùn)練的算力利用率達(dá)到了62%,有效訓(xùn)練時(shí)長(zhǎng)占比達(dá)到了99%,推理的TTFT69倍,推理QPS7.9倍。(三)案例三:某科技公司大模型基礎(chǔ)設(shè)施實(shí)踐11550%存儲(chǔ)方面,該公司對(duì)存儲(chǔ)進(jìn)行系統(tǒng)級(jí)優(yōu)化。一是采用AI數(shù)據(jù)湖AI存儲(chǔ)分級(jí)建設(shè),實(shí)現(xiàn)PB15min1min。二是利用全局文件系統(tǒng),實(shí)現(xiàn)全局統(tǒng)一數(shù)據(jù)3三是ECCLOSS200多種軟硬件故障自動(dòng)分析和分級(jí)處理,80多種常見(jiàn)故障的自愈時(shí)間在10分鐘以?xún)?nèi),4000余張計(jì)算卡任務(wù)的連續(xù)運(yùn)行時(shí)間超過(guò)20天。10%20%。2024年初基的90%六、總結(jié)與展望活的配置和定制能力,以滿(mǎn)足多樣化的應(yīng)用需求。2400億~34001%~1.3%202220303800億千瓦時(shí)。從政策推動(dòng)角度看,可持續(xù)發(fā)展策略帶來(lái)綠色低碳1.3步降到1.25以下。附錄高質(zhì)量大模型基礎(chǔ)設(shè)施規(guī)劃建議transformer類(lèi)大以常見(jiàn)的175B參數(shù)量大模型(O

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論