中國信通院-高質(zhì)量大模型基礎設施研究報告(2024年)_第1頁
中國信通院-高質(zhì)量大模型基礎設施研究報告(2024年)_第2頁
中國信通院-高質(zhì)量大模型基礎設施研究報告(2024年)_第3頁
中國信通院-高質(zhì)量大模型基礎設施研究報告(2024年)_第4頁
中國信通院-高質(zhì)量大模型基礎設施研究報告(2024年)_第5頁
已閱讀5頁,還剩77頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

高質(zhì)量大模型基礎設施研究報告中國信息通信研究院人工智能研究所2025年1月版權(quán)聲明本報告版權(quán)屬于中國信息通信研究院,并受法律保護。轉(zhuǎn)載、摘編或利用其它方式使用本報告文字或者觀點的,應注明“來源:中國信息通信研究院”。違反上述聲明者,本院將追究其相關(guān)法律責任。網(wǎng)絡、開發(fā)工具鏈和運維管理,系統(tǒng)梳理了大提出的新需求,剖析基礎設施發(fā)展的關(guān)鍵技術(shù)指標。同時,通過分析業(yè)界典型實踐案例,為模型的規(guī)?;瘧锰峁┯辛χ?。本報告力求為相 1 4 6 7 15 23 27 33 35 1 2 7 20 24 30 25 261一、大模型基礎設施概述(一)大模型基礎設施概念與特性來源:中國信息通信研究院2來源:中國信息通信研究院高可用是指在提高大模型基礎設施平均無故障運行時間(Mean),可用度是指大模型基礎設施集群在一定時間內(nèi)提供正常服務的度普遍低于50%。Meta50000+卡訓練任務1和OpenAIGPT-4250001Meta."BuildingMeta’sGenAIInfrastructure"./2024/03/12/data-center-engineering/building-metas-genai-infrastructure/.3基礎設施發(fā)生故障后修復所需的平均時間,關(guān)力利用率(HardwareFLOPsUtilizati2Jiang,Ziheng,etal."MegaScale:ScalinglargelanguagemodelUSENIXSymposiumonNetworkedSystemsDesignandImpleme4(二)大模型基礎設施現(xiàn)狀技術(shù)方面,AI存儲能力提升,進一步提高基礎設施可用度。橡5據(jù)存取速度,華為、清華大學MADSys實驗室聯(lián)合開發(fā)的高密高性能AI存儲獲得MLPerfStorage基準評測第一名,為大頭紛紛加大在大模型基礎設施方面的投入,均已形成涵蓋“AI計算平臺+AI開發(fā)平臺+大模型”的全產(chǎn)業(yè)生態(tài)。如百度智能),清潔、可靠的能源解決方案。2024年6月德國發(fā)布《人工智能計算 3車碧瑤等."運營商大模型硬件基礎設施創(chuàng)新及RDMA流量控制技術(shù)研究."信息通信技術(shù)與政策002(2024):050.6國家創(chuàng)新要素供給,指導智能基礎設施有序布二、大模型基礎設施挑戰(zhàn)4顯示,算力規(guī)模增加的同時,集群可用度明顯下降。大模型全生4D.Narayanan,etal,"EfficientLarge-ScaleLanguageModelTrainingonGPUClustersUsingMegatronInternationalConferenceforHighPerformanceComputing,NetwLouis,MO,USA,2021,pp.1-14.7來源:中國信息通信研究院(一)計算資源分配粗放,利用率低成為新難題模型對計算資源的需求日益擴增,要求計算可用資源總量進行限制,極易導致資源分配混亂,導致資源碎片化。5DylanPatelandGeraldWong."Demystifrarchitecture"./p/gpt-4-architectur8面,業(yè)務在進行模型部署時會綁定固定的算力資源,可能出現(xiàn)多個AI推理任務搶占一張推理卡的情況,而其他推理卡還有空余資源,圍繞AI計算芯片設計的算力調(diào)度系統(tǒng)存在資源超額申請前算力調(diào)度多將AI計算芯片作為影響任務性能表現(xiàn)的略了基礎設施中的CPU、內(nèi)存、網(wǎng)絡等其他維度資源的影響。為保(二)海量數(shù)據(jù)處理低效,數(shù)據(jù)存儲成為新瓶頸數(shù)據(jù)總量和質(zhì)量決定了大模型能力的上限。根據(jù)“尺度定律(ScalingLaw)”,增加訓練數(shù)據(jù)量,大模型訓練效果會越來越好,Gemini等多模態(tài)大模型發(fā)展帶動訓練數(shù)據(jù)需求十倍、百倍級增長。海量數(shù)據(jù)的準備效率和數(shù)據(jù)在全流程間的流轉(zhuǎn)效率是影響大模型端到端生產(chǎn)成本的核心要素,AI存儲是解決數(shù)據(jù)歸集時間長、數(shù)據(jù)處9難。鄭緯民院士論文顯示6,任一模態(tài)數(shù)據(jù)集可能包含數(shù)億甚至數(shù)百億小文件,存儲100億小文件需管理7TB元訓練階段檢查點(Checkpoint)文件讀寫效率低。為提高大模型例6,需保存近12TB的模型參數(shù)到檢查點文件中,在未經(jīng)優(yōu)外部知識庫的引入要求AI存儲具備高效的高維數(shù)據(jù)處理能力和復雜(三)并行計算規(guī)模攀升,網(wǎng)絡通信成為新阻礙向擴展(ScaleOut)和縱向擴展(ScaleUp)網(wǎng)絡提出極大挑戰(zhàn)。縱向擴展互聯(lián)層面,網(wǎng)絡需承載數(shù)據(jù)并行(DataParallel,DP)和流水練通信特征不規(guī)整、上下行ECMP(EqualCostMultiPath)選路不均網(wǎng)絡規(guī)劃需綜合考慮AI服務器的端口需求和存儲需求。以樣本面網(wǎng)絡為例,其關(guān)聯(lián)計算區(qū)和存儲區(qū)。模型訓練時,一是AI計算節(jié)點從存儲區(qū)加載AI模型,讀取訓練數(shù)據(jù)集。大模型訓練過程中訓練取。二是AI計算節(jié)點通過樣本網(wǎng)絡將檢查點文件和訓練模型寫入存(四)模型參數(shù)急劇增長,開發(fā)效率成為新約束大模型訓練資源需求普遍較大。大模型參數(shù)規(guī)模大,與判別式AI模型相比,模型訓練時計算和存儲需求顯著增加,依賴分布式技捷地進行模型訓練、調(diào)優(yōu)、配置和管理大規(guī)模并模型微調(diào)、提示工程等增量環(huán)節(jié)帶來開發(fā)工具新需求。一方面,數(shù)數(shù)量,該技術(shù)需要開發(fā)平臺能夠靈活地處理模型參數(shù)的調(diào)整和優(yōu)化。另一方面,提示工程需輸入提示引導模型生成特定輸出,要求時至少需要6張V100GPU才能有效運行。高昂的計算和存儲成本芯片+Pytorch框架”體系已成為大模型訓練的事實標準和默認規(guī)則。中使用占比超過80%,在HuggingFace開源社區(qū)中,85%的大模型(五)基礎設施故障率高,運維能力成為新挑戰(zhàn)運維需要深度協(xié)同AI業(yè)務。隨著智算集群規(guī)模擴大,集群運維管控訓練作業(yè)中斷頻繁,業(yè)界超萬卡集群持續(xù)穩(wěn)定運行時間較短。Meta斷達419次,其中78%已確認或懷疑是硬件問題導致。Meta的自動重啟約70次。另一方面,大模型基礎設施故障種類多、復雜系三、大模型基礎設施關(guān)鍵技術(shù)(一)高效算力管理調(diào)度技術(shù)源消耗并提高了資源利用率,尤其適用于快速部署和擴適配不同品牌和型號的AI加速卡,但異構(gòu)并行計算實現(xiàn)難度較大。技術(shù)正在加速演進,通過建立“轉(zhuǎn)譯”機制等手段,拉齊各異構(gòu)AI芯(二)高性能大模型存儲技術(shù)KV-cache技術(shù)實現(xiàn)長記憶存儲,助力大模型推理降本增效。一顯著增加,通過KV-cache緩存機制,可以有效降低模型長序基于高性能長記憶存儲技術(shù)構(gòu)建的多級KV-cache緩存機制,實現(xiàn)從持久化的KV-cache“長記憶”中調(diào)取前期已執(zhí)行過的計算結(jié)跳直達,消除CPU處理瓶頸,極大地提升了數(shù)據(jù)從存儲到加速卡的傳輸效率,在檢查點狀態(tài)數(shù)據(jù)保存、訓練數(shù)據(jù)加載以及KV-cache加間和高性能讀寫能力的并行文件系統(tǒng),在提高AI芯片訓練推理的同時,實現(xiàn)數(shù)據(jù)在所有存儲節(jié)點上均衡分布。同時TB/s級帶寬和億級IOPS支持能力,可實現(xiàn)萬卡集群數(shù)據(jù)供數(shù)據(jù)庫高可用保障,消除單點故障引發(fā)重新建(三)高通量大規(guī)模網(wǎng)絡技術(shù)協(xié)議定義了一套全新的層次架構(gòu),從鏈路層到傳輸層,不存在ARP議,由RoCE規(guī)范在以太網(wǎng)上實現(xiàn)了RDMA功能,其主要優(yōu)勢在于延遲較低,可提高網(wǎng)絡利用率;同時其可避開TCP協(xié)議并采用硬件以針對AI訓練場景下的流量特點,將搜集到的整網(wǎng)信息作行轉(zhuǎn)發(fā),從而避免多條流選擇同一路徑而導致?lián)砣?。企業(yè)利用DPU排等機制還原原始流量,可實現(xiàn)整網(wǎng)吞吐達到90%以上。參數(shù)面、存儲面/樣本面、業(yè)務面、帶外管理面網(wǎng)絡互聯(lián),助力絡、存儲、AI開發(fā)軟件和運維的多系統(tǒng)協(xié)調(diào)。訓練前,訓練數(shù)據(jù)集及訓練模型需通過存儲面網(wǎng)絡導入存儲系統(tǒng),AI開發(fā)平臺需通過業(yè)務面網(wǎng)絡和帶內(nèi)管理網(wǎng)絡下發(fā)訓練任務,訓練任務鏡像、AI模型、訓練數(shù)據(jù)集需通過樣本面網(wǎng)絡加載到計算區(qū)的AI計算節(jié)點中。訓練文件到AI計算節(jié)點。訓練完成后,模型通過樣本網(wǎng)絡寫入系統(tǒng),通來源:昇騰社區(qū)(四)高效能大模型開發(fā)技術(shù)域任務。二是參數(shù)高效微調(diào)(PEFT)技術(shù),能夠顯著節(jié)省訓練時間可實現(xiàn)壓縮流程自動化,商湯的神經(jīng)網(wǎng)絡量化工具PPQ通過圖優(yōu)化該領(lǐng)域,如騰訊推出的一念LLM同時支持英偉達GPU和華螞蟻的GLake通過對鍵值對緩存實現(xiàn)透明管理和存算解耦,進一步(五)高容錯大模型運維技術(shù)如芯片算力測試、帶寬測試、HBM測試、功耗測試、HCC卡異常、掉卡、網(wǎng)絡流量異常等進行完善的修復,從而大幅提高運維工作的自動化和智四、高質(zhì)量大模型基礎設施評價指標 大模型基礎設施評價體系需綜合考慮大模型的技術(shù)能力和性能來源:中國信息通信研究院(二)指標定義來源:中國信息通信研究院大模型基礎設施集群在一定時間內(nèi)提供正常服務的平均無故障從開始運行到發(fā)生首次故障的平均時間,簡稱MTTF平均無故障基礎設施能硬件算力利模型的實際計算需求與其理論最大計算能力之間的芯片片間互集群節(jié)點間網(wǎng)絡數(shù)據(jù)吞模型算力利模型訓練過程中實際使用的吞吐量與其理論可用吞訓練平均吞吐模型壓縮精平均故障定平均故障恢發(fā)生故障后修復所需的平均時間,簡稱MTTR(Mean來源:中國信息通信研究院五、高質(zhì)量大模型基礎設施典型實踐(一)案例一:Meta大模型基礎設施實踐新的兩個大模型計算集群技術(shù)細節(jié)。每個集群均配備了24576個NVIDIATensorCoreH100GPU,與既有集群相比在計算、存儲、網(wǎng)計算方面,一是改進了任務列表(jobscheduler),針對內(nèi)部作來源:Meta網(wǎng)絡方面,Meta集群采用兩種網(wǎng)絡方案。一是采用基于Arista7800的RoCE網(wǎng)絡結(jié)構(gòu)解決方案,并配備了Wedge400和Minipack2OCP機架交換機。二是選用NVIDIAQuantum2InfiniBand架構(gòu)。兩種解決方案均支持400Gbps端點連接。Meta通過網(wǎng)絡、軟),訓練期間未遇到任何網(wǎng)絡瓶頸問題。由此可見,RoCE和IB組網(wǎng)的API,并結(jié)合了針對閃存介質(zhì)優(yōu)化的Meta“Tectonic決方案,實現(xiàn)數(shù)千個GPU同步保存和加載檢查網(wǎng)絡文件系統(tǒng),支持書簽GPU交互式調(diào)試,實現(xiàn)代碼更改即時對所機架數(shù)量減少以及功率效率之間的平衡,同時借助OCP服務器的模塊化設計,對存儲層進行靈活擴展,提高日常維護的容軟件方面,Meta利用MAIProf識別大模型訓練過程中的性能瓶的Python函數(shù)調(diào)用進行全過程跟蹤,發(fā)現(xiàn)性能異常是因為可配置參和多張量優(yōu)化器進行優(yōu)化,實現(xiàn)了性能優(yōu)化。Meta通過訓練框架優(yōu)(二)案例二:螞蟻集團大模型基礎設施實踐來源:螞蟻集團存儲方面,利用KV-cache技術(shù)解決大模型推理顯存容量瓶頸與存占用。二是提出并實現(xiàn)對于KV-cache),軟件方面,采用分布式訓練加速技術(shù),利用其自研的PyTorch試結(jié)果顯示,在Hopper架構(gòu)硬件上可平均提速運維方面,一是基于DLRover實現(xiàn)分布式訓練容錯。針對大模即可實現(xiàn)訓練任務的自動恢復。二是基于螞蟻自研的無痛升級技術(shù),效,其中訓練的算力利用率達到了62%,有效訓練時長占比達到了99%,推理的TTFT降低了69倍,推理QPS提高了7.(三)案例三:某科技公司大模型基礎設施實踐寫耗時久,千卡以上集群平均每天故

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論