版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ICSxx.xxx.xx
CCSXXX
團(tuán)體標(biāo)準(zhǔn)
T/xxxxxx-20xx
城市級(jí)智算中心平臺(tái)和運(yùn)營(yíng)技術(shù)要求與評(píng)估方法
Technicalrequirementsandevaluationmethodsofurbanartificialintelligence
computingcenter
(征求意見稿)
DraftingguidelinesforcommercialgradesstandardofChinese
medicinalmaterials
20xx-xx-xx發(fā)布20xx-xx-xx實(shí)施
北京電子商會(huì)發(fā)布
T/CSAExx—20xx
城市級(jí)智算中心平臺(tái)和運(yùn)營(yíng)技術(shù)要求與評(píng)估方法
1范圍
本文件規(guī)定了智算中心的服務(wù)分類、功能架構(gòu)、智算基礎(chǔ)設(shè)施、智算基礎(chǔ)平臺(tái)、機(jī)器學(xué)習(xí)平臺(tái)、大
模型智算平臺(tái)和運(yùn)營(yíng)的技術(shù)要求和評(píng)估方法。
本文件適用于指導(dǎo)智算中心平臺(tái)的研發(fā)、設(shè)計(jì)、建設(shè)和運(yùn)營(yíng)。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T41867-2022信息技術(shù)人工智能術(shù)語(yǔ)
T/AI118.1—2022人工智能算力中心第1部分:技術(shù)要求
3術(shù)語(yǔ)和定義
下列術(shù)語(yǔ)和定義適用于本文件。
智算中心artificialintelligencecomputingcenter
一種能夠?yàn)槎嘤脩籼峁┤斯ぶ悄苡?jì)算服務(wù)、數(shù)據(jù)容納的結(jié)構(gòu)或結(jié)構(gòu)組。使用信息技術(shù)、電信網(wǎng)絡(luò)設(shè)
備提供的數(shù)據(jù)存儲(chǔ)、處理、遷移,人工智能計(jì)算加速等功能,并集成能量供應(yīng)、環(huán)境控制和為服務(wù)可用
性而制定的必要的可靠性組件。
[來(lái)源:T/AI118.1—2022,3.3,有修改]
人工智能集群artificialintelligencecluster
遵循統(tǒng)一控制的,人工智能計(jì)算功能單元的集合,可包含人工智能加速處理器、人工智能服務(wù)器、
人工智能加速模組等。當(dāng)由人工智能服務(wù)器組成時(shí),人工智能集群可稱為人工智能服務(wù)器集群,其中的
人工智能服務(wù)器可稱為節(jié)點(diǎn)。
[來(lái)源:GB/T41867-2022,3.1.4,有修改]
4縮略語(yǔ)
下列縮略語(yǔ)適用于本文件。
3
T/CSAExx—20xx
API:應(yīng)用程序編程接口(ApplicationProgrammingInterface)
CPU:中央處理器(CentralProcessingUnit)
GPU:圖形處理器(GraphicsProcessingUnit)
IDC:互聯(lián)網(wǎng)數(shù)據(jù)中心(InternetDataCenter)
IPMI:智能平臺(tái)管理接口(IntelligentPlatformManagementInterface)
RDMA:遠(yuǎn)程直接內(nèi)存訪問(wèn)(RemoteDirectMemoryAccess)
RoCE:基于融合以太網(wǎng)的RDMA(RDMAoverConvergedEthernet)
5智算中心總體要求
智算中心服務(wù)分類
智算中心提供的算力規(guī)模(以8*A800算力參考)可分為小算力(1卡-128卡)、中算力(128卡-512
卡)、大算力(大于512卡)。
從智算中心產(chǎn)品功能和算力規(guī)模角度,智算中心為用戶提供的服務(wù)場(chǎng)景可分為簡(jiǎn)單智算服務(wù)、中等
智算服務(wù)和大模型智算服務(wù)。
a)簡(jiǎn)單智算服務(wù):為用戶提供通用的CPU、GPU等算力,通過(guò)API調(diào)用通用模型NLP等提供推理服務(wù),
支持針對(duì)不同數(shù)據(jù)規(guī)模提供小算力、中算力和大算力的推理服務(wù),適用于圖像分類、內(nèi)容推薦、
生產(chǎn)過(guò)程統(tǒng)計(jì)等典型場(chǎng)景。
b)中等智算服務(wù):基于通用模型,支持針對(duì)不同數(shù)據(jù)規(guī)模提供小算力、中算力和大算力的訓(xùn)練和
推理等算力服務(wù),適用于文本分類、命名實(shí)體識(shí)別、事件提取、錯(cuò)別字檢查、精準(zhǔn)排產(chǎn)應(yīng)用、
生產(chǎn)能耗優(yōu)化、制造質(zhì)量分析等典型場(chǎng)景。
1)精準(zhǔn)排產(chǎn)應(yīng)用:制定各個(gè)生產(chǎn)環(huán)節(jié)日生產(chǎn)計(jì)劃,提供生產(chǎn)精細(xì)化管理服務(wù)、資源優(yōu)化平衡
服務(wù)、生產(chǎn)異常響應(yīng)服務(wù)等。
2)生產(chǎn)能耗優(yōu)化:實(shí)時(shí)采集車間產(chǎn)線的空調(diào)運(yùn)行數(shù)據(jù),依據(jù)人工智能算法結(jié)果,自動(dòng)控制空
調(diào)以及車間其它能耗類設(shè)備的運(yùn)行運(yùn)程。
3)制造質(zhì)量分析:包括擰緊大數(shù)據(jù)失效分析、電池持續(xù)低容分析、虛焊預(yù)測(cè)分析等,采用根
因分析、質(zhì)量預(yù)測(cè)等分析組件,實(shí)現(xiàn)工藝結(jié)果分析和優(yōu)化建議。
c)大模型智算服務(wù):基于大語(yǔ)言模型(模型參數(shù)量在10億以上),為用戶提供通用模型預(yù)訓(xùn)練(大
算力)、行業(yè)模型預(yù)訓(xùn)練(中算力)、場(chǎng)景微調(diào)訓(xùn)練(小算力)等,適用于AIGC典型場(chǎng)景。
1)醫(yī)療醫(yī)藥文獻(xiàn)摘要提?。横槍?duì)醫(yī)學(xué)部提交的三類藥物警戒臨床文獻(xiàn),準(zhǔn)確識(shí)別藥物警戒的
五要素(可識(shí)別的上報(bào)人,可識(shí)別的患者,懷疑藥物,不良反應(yīng),相關(guān)性描述),抽取并
總結(jié)生成完整的綜述報(bào)告,人工校準(zhǔn)后翻譯為對(duì)應(yīng)的英文報(bào)告,上報(bào)至全球總部。
2)保電大模型服務(wù):支持根據(jù)保電場(chǎng)館賽事/活動(dòng)任務(wù)生成保電任務(wù)目標(biāo)及策略;通過(guò)學(xué)習(xí)
保電工作涉及到的場(chǎng)館、線路、保障隊(duì)伍及物資情況,生成保電預(yù)案方案;故障發(fā)生時(shí),
可通過(guò)大模型生成對(duì)應(yīng)故障級(jí)別的處置任務(wù),并聯(lián)動(dòng)下游任務(wù)形成執(zhí)行工單。
3)政務(wù)辦事咨詢服務(wù):針對(duì)政務(wù)服務(wù)辦理提供專業(yè)化的對(duì)話式辦事咨詢,提供群眾企業(yè)的精
準(zhǔn)訴求分析、辦理流程反饋等服務(wù)。
4
T/CSAExx—20xx
4)教育科研傳統(tǒng)CV視覺模型訓(xùn)練(中算力)和教育科研場(chǎng)景大模型微調(diào)訓(xùn)練(小算力)。
智算中心平臺(tái)和運(yùn)營(yíng)功能架構(gòu)
智算中心平臺(tái)和運(yùn)營(yíng)功能架構(gòu)如圖1所示,由智算基礎(chǔ)設(shè)施、智算基礎(chǔ)平臺(tái)、智算服務(wù)平臺(tái)、統(tǒng)一
監(jiān)控運(yùn)營(yíng)運(yùn)維平臺(tái)、平臺(tái)和運(yùn)營(yíng)評(píng)估方法組成,支撐簡(jiǎn)單智算場(chǎng)景、中等智算場(chǎng)景和大模型智算場(chǎng)景。
智算基礎(chǔ)設(shè)施為智算平臺(tái)提供IDC機(jī)房、網(wǎng)絡(luò)交換機(jī)(RDMA網(wǎng)絡(luò)交換機(jī)、通用網(wǎng)絡(luò)交換機(jī))、算力
服務(wù)器(智算算力服務(wù)器、通用計(jì)算服務(wù)器)、存儲(chǔ)服務(wù)器和安全服務(wù)器等基礎(chǔ)能力。
智算基礎(chǔ)平臺(tái)基于智算基礎(chǔ)設(shè)施,為上層平臺(tái)和應(yīng)用提供算力、存儲(chǔ)、網(wǎng)絡(luò)、容器、容器鏡像、安
全等服務(wù)。
智算服務(wù)平臺(tái)包括機(jī)器學(xué)習(xí)平臺(tái)和大模型智算平臺(tái)?;谥撬慊A(chǔ)設(shè)施和智算基礎(chǔ)平臺(tái)提供的服
務(wù)能力,機(jī)器學(xué)習(xí)平臺(tái)主要支持簡(jiǎn)單智算場(chǎng)景和中等智算場(chǎng)景,提供數(shù)據(jù)預(yù)處理、模型訓(xùn)練、模型推理、
模型納管和模型部署功能;大模型智算平臺(tái)支持大模型智算場(chǎng)景,利用機(jī)器學(xué)習(xí)平臺(tái)的數(shù)據(jù)預(yù)處理、模
型部署等能力,提供大模型訓(xùn)練、大模型微調(diào)、大模型推理和大模型多模納管等功能。
統(tǒng)一監(jiān)控運(yùn)營(yíng)運(yùn)維平臺(tái)為智算中心提供通用的監(jiān)控運(yùn)營(yíng)運(yùn)維基礎(chǔ)平臺(tái)能力,以及統(tǒng)一門戶、用戶控
制臺(tái)、融合多租戶管理、資源管理、運(yùn)營(yíng)管理、運(yùn)維管理、安全部署自動(dòng)化等能力。
平臺(tái)和運(yùn)營(yíng)評(píng)估方法規(guī)定支持三類場(chǎng)景的智算中心能力評(píng)估的原則和方法。
圖1智算中心平臺(tái)和運(yùn)營(yíng)功能架構(gòu)
智算中心通用要求
a)自主知識(shí)產(chǎn)權(quán)
1)開發(fā)工具和框架的授權(quán):應(yīng)確保機(jī)器學(xué)習(xí)平臺(tái)使用的開發(fā)工具、框架和庫(kù)均是合法授
權(quán);
2)算法和模型的知識(shí)產(chǎn)權(quán):機(jī)器學(xué)習(xí)算法和模型應(yīng)具備自主知識(shí)產(chǎn)權(quán),或確保已經(jīng)獲得了
適當(dāng)?shù)脑S可或授權(quán),以便在平臺(tái)上使用;
5
T/CSAExx—20xx
3)開源和閉源組件的合規(guī)性:機(jī)器學(xué)習(xí)平臺(tái)使用的開源組件應(yīng)遵守相應(yīng)的開源許可協(xié)議;
如使用了閉源組件,應(yīng)確保擁有合法的許可或授權(quán);
4)用戶生成內(nèi)容的合規(guī)性:用戶上傳和共享的內(nèi)容應(yīng)避免侵犯他人的知識(shí)產(chǎn)權(quán),同時(shí)應(yīng)保
護(hù)用戶生成內(nèi)容的合法性。
b)芯片兼容能力
1)架構(gòu)兼容:機(jī)器學(xué)習(xí)平臺(tái)和大模型智算平臺(tái)應(yīng)支持多種不同芯片架構(gòu),以便用戶可以選
擇適合其應(yīng)用需求的硬件加速器;
2)平臺(tái)兼容:機(jī)器學(xué)習(xí)平臺(tái)和大模型智算平臺(tái)應(yīng)確保平臺(tái)的軟件堆棧、驅(qū)動(dòng)程序和庫(kù)能夠
兼容多種芯片,以便用戶可以在不同硬件上運(yùn)行其模型和算法;
3)框架和開發(fā)工具兼容:機(jī)器學(xué)習(xí)平臺(tái)和大模型智算平臺(tái)應(yīng)兼容多種深度學(xué)習(xí)框架(如
TensorFlow、PyTorch、Megatron等)和開發(fā)工具,并支持自定義深度學(xué)習(xí)框架和開發(fā)工
具。
c)并發(fā)訪問(wèn)能力
1)多用戶并發(fā)登錄:智算中心應(yīng)支持幾十個(gè)至幾千個(gè)用戶同時(shí)登錄,同時(shí)創(chuàng)建千級(jí)個(gè)容
器,服務(wù)并發(fā)連接數(shù)十萬(wàn)以上;
2)并發(fā)任務(wù)調(diào)度:智算中心應(yīng)支持對(duì)模型訓(xùn)練,推斷和數(shù)據(jù)預(yù)處理等任務(wù)進(jìn)行合理調(diào)度和
資源分配;
3)數(shù)據(jù)訪問(wèn)和共享:智算中心應(yīng)支持?jǐn)?shù)據(jù)共享和訪問(wèn)控制機(jī)制,以確保多個(gè)用戶可以安全
地訪問(wèn)和共享數(shù)據(jù),同時(shí)保護(hù)敏感數(shù)據(jù)的隱私。
d)可靠性和容錯(cuò)能力
1)高可用性:智算中心應(yīng)具備高可用性,支持負(fù)載均衡,故障切換和災(zāi)備恢復(fù)機(jī)制;
2)容錯(cuò)處理:智算中心應(yīng)具備容錯(cuò)處理機(jī)制,以應(yīng)對(duì)系統(tǒng)故障和異常情況,如硬件故障,
網(wǎng)絡(luò)中斷等;
3)數(shù)據(jù)完整性和一致性:智算中心應(yīng)支持?jǐn)?shù)據(jù)備份、數(shù)據(jù)校驗(yàn)和錯(cuò)誤修復(fù)機(jī)制,以確保數(shù)
據(jù)在存儲(chǔ)和處理過(guò)程中的完整性和一致性;
4)異常監(jiān)測(cè)和報(bào)警:智算中心應(yīng)具備異常檢測(cè)和報(bào)警機(jī)制,確保系統(tǒng)出現(xiàn)異常時(shí)及時(shí)通知
管理員或用戶;
5)時(shí)延:機(jī)器學(xué)習(xí)平臺(tái)和大模型智算平臺(tái)的服務(wù)訪問(wèn)的平臺(tái)延時(shí)時(shí)間在秒級(jí)以內(nèi);
6)故障恢復(fù):機(jī)器學(xué)習(xí)平臺(tái)和大模型智算平臺(tái)的功能類服務(wù)的故障恢復(fù)時(shí)間在分鐘級(jí)以
內(nèi);
7)日志和審計(jì):智算中心應(yīng)支持記錄和審計(jì)關(guān)鍵操作和事件;
8)彈性擴(kuò)展:智算中心應(yīng)具備資源彈性擴(kuò)展能力;
9)性能監(jiān)控和調(diào)整:智算中心應(yīng)提供性能監(jiān)控和調(diào)整工具,以幫助用戶根據(jù)需求調(diào)整資源
分配,優(yōu)化性能。
e)北向接口
機(jī)器學(xué)習(xí)平臺(tái)和大模型智算平臺(tái)應(yīng)提供restfulAPI、kafka等標(biāo)準(zhǔn)的北向數(shù)據(jù)接口接入統(tǒng)一運(yùn)
營(yíng)運(yùn)維平臺(tái)。
6智算基礎(chǔ)設(shè)施
通用要求
各類智算基礎(chǔ)設(shè)施針對(duì)簡(jiǎn)單智算、中等智算和大模型智算場(chǎng)景應(yīng)支持的技術(shù)要求如表1所示。
6
T/CSAExx—20xx
表1不同智算場(chǎng)景對(duì)智算基礎(chǔ)設(shè)施的技術(shù)要求
功能項(xiàng)簡(jiǎn)單智算中等智算大模型智算
IDC機(jī)房?保證電子信息系?基礎(chǔ)設(shè)施在冗余能力范圍?基礎(chǔ)設(shè)施應(yīng)在一次意外事
統(tǒng)運(yùn)行不中斷;內(nèi),不得因設(shè)備故障而導(dǎo)致故后或單系統(tǒng)設(shè)備維護(hù)或
?雙重電源供電當(dāng)電子信息系統(tǒng)運(yùn)行中斷;檢修時(shí)仍能保證電子信息
只有一路電源?雙重電源供電,當(dāng)只有一路系統(tǒng)正常運(yùn)行;
時(shí),應(yīng)設(shè)置UPS設(shè)電源時(shí),應(yīng)設(shè)置柴油發(fā)電機(jī)?應(yīng)由雙重電源供電,應(yīng)設(shè)置
備作為備用電組作為備用電源,UPS提供柴油發(fā)電機(jī)組作為備用電
源;雙路供電電源;源,UPS提供雙路供電電源;
?供電電源應(yīng)按二?供電電源應(yīng)按一級(jí)負(fù)荷考?供電電源應(yīng)按一級(jí)負(fù)荷中
級(jí)負(fù)荷考慮;慮;特別重要的負(fù)荷考慮;
?網(wǎng)絡(luò)布線應(yīng)具備?網(wǎng)絡(luò)布線應(yīng)具備支持10GB?網(wǎng)絡(luò)布線應(yīng)至少支持10GB
支持10GB/s、/s(管理網(wǎng))、25GB/s(存/s(管理網(wǎng))、100GB/s(存
40GB/s網(wǎng)絡(luò)的儲(chǔ)網(wǎng))和100GB/s(計(jì)算網(wǎng))儲(chǔ)網(wǎng))和200GB/s(計(jì)算
能力。網(wǎng)絡(luò)的能力。網(wǎng))網(wǎng)絡(luò)的能力
交換機(jī)提供支持推理的計(jì)算?提供支持訓(xùn)練的高速網(wǎng)絡(luò);?支持高性能高速網(wǎng)絡(luò),分別
網(wǎng)絡(luò)以及存儲(chǔ)網(wǎng)絡(luò)?提供擁塞控制機(jī)制;用于并行計(jì)算程序的集群
?提供基于內(nèi)存的樣本數(shù)據(jù)計(jì)算網(wǎng)絡(luò)以及并行存儲(chǔ)系
訪問(wèn)加速。統(tǒng)的存儲(chǔ)網(wǎng)絡(luò);
?上行支持10G/25G/100Gb/s?支持基于內(nèi)存的樣本數(shù)據(jù)
端口到核心交換機(jī)訪問(wèn)加速;
?支持GPU直接通過(guò)網(wǎng)卡接入
網(wǎng)絡(luò)的雙中心架構(gòu)、全對(duì)
等、扁平化的多軌集群架
構(gòu);
?支持高性能集合通信庫(kù);
?上行支持
10G/100G/200Gb/s端口到
核心交換機(jī)
智算服可具備此項(xiàng)能力?提供FP32、FP16和FP8非稀?提供FP32、FP16和FP8非稀
務(wù)器疏算力疏算力
?主頻2.0以上,處理器核心?應(yīng)支持AI芯片之間的高速
≥32核,內(nèi)存≥512GB,8塊互聯(lián)帶寬不低于200GB
GPU卡(典型32G)?主頻≥2.0以上,處理器核
心≥48核,內(nèi)存≥1TB,8塊
GPU卡
通用計(jì)處理器核心≥24核,處理器核心≥24核,內(nèi)存≥處理器核心≥32核,內(nèi)存≥2TB,
算服務(wù)內(nèi)存≥512GB,≥1塊512GB,≥2塊3.84TSSD≥4塊1.92TSSD
器960GSSD
存儲(chǔ)服無(wú)差異化要求
務(wù)器
7
T/CSAExx—20xx
安全服?防火墻(支持入?防火墻(支持入侵防御及防?防火墻(支持入侵防御及防
務(wù)器侵防御及防病病毒),最大吞吐量≥病毒),最大吞吐量≥
毒),最大吞吐8Gbps,每秒新建連接數(shù)≥40Gbps,每秒新建連接數(shù)≥
量≥8Gbps,每秒15萬(wàn),并發(fā)連接數(shù)≥200萬(wàn);20萬(wàn),并發(fā)連接數(shù)≥600萬(wàn);
新建連接數(shù)≥15?Web應(yīng)用防火墻支持基本防?Web應(yīng)用防火墻支持SQL注
萬(wàn),并發(fā)連接數(shù)護(hù)功能;入語(yǔ)義分析等高級(jí)防護(hù)功
≥200萬(wàn);?提供態(tài)勢(shì)感知和堡壘機(jī)集能;
?Web應(yīng)用防火墻中管理資產(chǎn)權(quán)限?提供態(tài)勢(shì)感知和堡壘機(jī)集
支持基本防護(hù)功中管理資產(chǎn)權(quán)限
能;?提供多鏈路/服務(wù)器負(fù)載均
?提供態(tài)勢(shì)感知和衡、全局負(fù)載、智能DNS能力
堡壘機(jī)集中管理
資產(chǎn)權(quán)限
IDC機(jī)房
6.2.1選址及設(shè)備布置
a)在保證電力供給、通信暢通、交通便捷的前提下,智算中心的建設(shè)應(yīng)選擇氣候環(huán)境溫度相對(duì)較
低的地區(qū),這樣有利于降低能耗。
b)電子信息系統(tǒng)受粉塵、有害氣體、振動(dòng)沖擊、電磁場(chǎng)干擾等因素影響時(shí),將導(dǎo)致運(yùn)算差錯(cuò)、誤
動(dòng)作、機(jī)械部件磨損、腐蝕、縮短使用壽命等。智算中心位置選擇應(yīng)盡可能遠(yuǎn)離產(chǎn)生粉塵、有
害氣體、強(qiáng)振源、強(qiáng)噪聲源等場(chǎng)所,避開強(qiáng)電磁場(chǎng)干擾。
c)水災(zāi)隱患區(qū)域主要是指江、河、湖、海岸邊,A級(jí)智算中心的防洪標(biāo)準(zhǔn)應(yīng)按100年重現(xiàn)期考慮;
B級(jí)智算中心的防洪標(biāo)準(zhǔn)應(yīng)按50年重現(xiàn)期考慮。在園區(qū)內(nèi)選址時(shí),智算中心不應(yīng)設(shè)置在園區(qū)低
洼處。
d)對(duì)智算中心選址地區(qū)的電磁場(chǎng)干擾強(qiáng)度不能確定時(shí),需做實(shí)地測(cè)量,測(cè)量值超過(guò)本規(guī)范第5章
規(guī)定的電磁場(chǎng)干擾強(qiáng)度時(shí),應(yīng)采取屏蔽措施。
e)從安全角度考慮,大模型智算中心不宜建在公共停車庫(kù)的正上方,當(dāng)只能將智算中心建在停車
庫(kù)的正上方時(shí),應(yīng)對(duì)停車庫(kù)采取防撞防爆措施。
f)大中型智算中心是指主機(jī)房面積大于200m2的智算中心。由于空調(diào)系統(tǒng)的冷卻塔或室外機(jī)組工
作時(shí)噪聲較大,如果智算中心位于住宅小區(qū)內(nèi)或距離住宅太近,噪聲將對(duì)居民生活造成影響。
居民小區(qū)和商業(yè)區(qū)內(nèi)人員密集,也不利于智算中心的安全運(yùn)行。
g)智算中心各類設(shè)備包括服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備、機(jī)柜(架)、供配電設(shè)備、空調(diào)設(shè)備、給
排水設(shè)備、消防設(shè)備、監(jiān)控設(shè)備等。工藝專業(yè)應(yīng)遵循近期建設(shè)規(guī)模與遠(yuǎn)期發(fā)展規(guī)劃協(xié)調(diào)一致的
原則,按照模塊化的建設(shè)思路,根據(jù)數(shù)據(jù)中心的不同應(yīng)用進(jìn)行設(shè)備平面布置。
6.2.2環(huán)境要求
a)主機(jī)房和輔助區(qū)內(nèi)的溫度、露點(diǎn)溫度和相對(duì)濕度對(duì)電子信息設(shè)備的正常運(yùn)行和數(shù)據(jù)中心節(jié)能
非常重要。有關(guān)環(huán)境對(duì)印刷線路板及電子元器件的影響研究表明,影響靜電積累效應(yīng)和空氣中
8
T/CSAExx—20xx
各種鹽類粉塵潮解度的是空氣含濕量,在氣壓不變的情況下,由于露點(diǎn)溫度可以直接體現(xiàn)空氣
中的含濕量,因此采用露點(diǎn)溫度更具有可操作性。
b)電子信息設(shè)備停機(jī)時(shí),主機(jī)房也應(yīng)該保持一定的環(huán)境溫度和相對(duì)濕度?!巴C(jī)”是指設(shè)備已經(jīng)
拆除包裝并安裝,但未投入運(yùn)行或停機(jī)維護(hù)階段。
c)由于空氣中的懸浮粒子有可能導(dǎo)致電子信息設(shè)備內(nèi)部發(fā)生短路等故障,為了保障重要的電子
信息系統(tǒng)運(yùn)行安全,本規(guī)范對(duì)數(shù)據(jù)中心主機(jī)房在靜態(tài)或動(dòng)態(tài)條件下的空氣含塵濃度做出了規(guī)
定。根據(jù)現(xiàn)行國(guó)家標(biāo)準(zhǔn)《潔凈廠房設(shè)計(jì)規(guī)范》GB50073的規(guī)定進(jìn)行計(jì)算,每立方米空氣中粒徑
大于或等于0.5μm的懸浮粒子數(shù)為17600000的空氣潔凈度等級(jí)為8.7級(jí)。
6.2.3建筑與結(jié)構(gòu)
a)由于數(shù)據(jù)中心的建筑是一次性建成,而電子信息設(shè)備是分期投入的,故要求建筑平面應(yīng)具有靈
活性,在后期基礎(chǔ)設(shè)施的施工和安裝過(guò)程中,不應(yīng)影響前期電子信息設(shè)備的正常運(yùn)行。
b)從空調(diào)氣流組織合理性及設(shè)備和管線安裝方便角度考慮,對(duì)于新建數(shù)據(jù)中心和層高較高的已
有建筑,主機(jī)房?jī)舾咭蟛恍∮?.0m。當(dāng)利用已有建筑改建數(shù)據(jù)中心時(shí),由于某些建筑層高較
低,主機(jī)房?jī)舾呖蛇m量降低,但不應(yīng)小于2.6m,此時(shí)機(jī)柜容量也應(yīng)適量降低。在滿足電子信息
設(shè)備使用要求的前提下,還應(yīng)綜合考慮室內(nèi)建筑空間比例的合理性以及對(duì)建設(shè)投資和日常運(yùn)
行費(fèi)用的影響。
c)規(guī)定變形縫不宜穿過(guò)主機(jī)房的目的是為了避免因主體結(jié)構(gòu)的不均勻沉降而破壞電子信息系統(tǒng)
的運(yùn)行安全。當(dāng)由于主機(jī)房面積太大而無(wú)法保證變形縫不穿過(guò)主機(jī)房時(shí),則必須控制變形縫兩
邊主體結(jié)構(gòu)的沉降差。
d)數(shù)據(jù)中心設(shè)置單獨(dú)出入口的目的是為了避免人流物流的交叉,提高數(shù)據(jù)中心的安全性,減少灰
塵被帶入主機(jī)房。尤其是當(dāng)數(shù)據(jù)中心位于其他建筑物內(nèi)時(shí),應(yīng)采取措施,避免無(wú)關(guān)人員和貨物
進(jìn)入數(shù)據(jù)中心。
e)主機(jī)房一般屬于無(wú)人操作區(qū),輔助區(qū)一般含有測(cè)試機(jī)房、總控中心、備件庫(kù)、維修室、用戶工
作室等,屬于有人操作區(qū)。設(shè)計(jì)規(guī)劃時(shí)宜將有人操作區(qū)和無(wú)人操作區(qū)分開布置,以減少人員將
灰塵帶入無(wú)人操作區(qū)的機(jī)會(huì)。但從操作便利角度考慮,主機(jī)房和輔助區(qū)宜相鄰布置。
6.2.4空氣調(diào)節(jié)
a)電子信息設(shè)備在運(yùn)行過(guò)程中產(chǎn)生大量熱,這些熱量如果不能及時(shí)排除,將導(dǎo)致機(jī)柜或主機(jī)房?jī)?nèi)
溫度升高,過(guò)高的溫度將使電子元器件性能劣化、出現(xiàn)故障,或者降低使用壽命。此外,制冷
系統(tǒng)投資較大、能耗較高,運(yùn)行維護(hù)復(fù)雜。因此,空氣調(diào)節(jié)系統(tǒng)設(shè)計(jì)應(yīng)根據(jù)數(shù)據(jù)中心的等級(jí),
采用合理可行的制冷系統(tǒng),對(duì)數(shù)據(jù)中心的可靠性和節(jié)能具有重要意義。
b)數(shù)據(jù)中心內(nèi)設(shè)備的散熱量應(yīng)以設(shè)備實(shí)際用電量為準(zhǔn)。對(duì)主機(jī)房?jī)?nèi)的電子信息設(shè)備的用電量不
能完全掌握時(shí),可參考所選UPS電源的容量和冗余量來(lái)計(jì)算設(shè)備的散熱量。
c)從節(jié)能的角度出發(fā),機(jī)柜間采用封閉通道的氣流組織方式,可以提高空調(diào)利用率。采用水平送
風(fēng)的行間制冷空調(diào)進(jìn)行冷卻,可以降低風(fēng)阻。隨著電子信息技術(shù)的發(fā)展,機(jī)柜的容量不斷提高,
設(shè)備的發(fā)熱量將隨容量的增加而加大,為了保證電子信息系統(tǒng)的正常運(yùn)行,對(duì)設(shè)備的降溫也將
出現(xiàn)多種方式,各種方式之間可以相互補(bǔ)充。
9
T/CSAExx—20xx
d)主機(jī)房?jī)?nèi)的線纜數(shù)量很多,一般采用線槽或橋架敷設(shè)。當(dāng)線槽或橋架敷設(shè)在高架活動(dòng)地板下
時(shí),線槽占據(jù)了活動(dòng)地板下的部分空間。當(dāng)活動(dòng)地板下作為空調(diào)靜壓箱時(shí),應(yīng)考慮線槽及消防
管線等所占用的空間,空調(diào)送風(fēng)量應(yīng)按地板下的有效送風(fēng)面積進(jìn)行計(jì)算。
e)主機(jī)房維持正壓的目的是為了防止外部灰塵進(jìn)入主機(jī)房。
6.2.5電氣
a)大模型智算中心的供電電源應(yīng)按一級(jí)負(fù)荷中特別重要的負(fù)荷考慮,中等智算中心的供電電源
應(yīng)按一級(jí)負(fù)荷考慮,簡(jiǎn)單智算中心的供電電源應(yīng)按二級(jí)負(fù)荷考慮。
b)規(guī)定引入機(jī)房的戶外供電線路不宜采用架空方式敷設(shè)的目的是為了保證戶外供電線路的安全,
保證數(shù)據(jù)中心供電的可靠性。戶外架空線路易受到自然因素(如臺(tái)風(fēng)、雷電、洪水等)和人為因
素(如交通事故)的破壞,導(dǎo)致供電中斷,故戶外供電線路宜采用直接埋地、排管埋地或電纜溝
敷設(shè)的方式。當(dāng)戶外供電線路采用埋地敷設(shè)有困難,只能采用架空敷設(shè)時(shí),應(yīng)采取措施,保證
線路安全。
c)數(shù)據(jù)中心供電可靠性要求較高,為防止其他負(fù)荷干擾,當(dāng)數(shù)據(jù)中心用電容量較大時(shí),應(yīng)設(shè)置專
用配電變壓器供電;數(shù)據(jù)中心用電容量較小時(shí),可由專用低壓饋電線路供電。
d)數(shù)據(jù)中心低壓配電采用TN-S系統(tǒng)可以對(duì)雷電浪涌進(jìn)行多級(jí)保護(hù),對(duì)UPS和電子信息設(shè)備進(jìn)行電
磁兼容保護(hù)。
e)備用電源是保障大模型智算中心正常運(yùn)行的必要條件,獨(dú)立于正常電源的發(fā)電機(jī)組和供電網(wǎng)
絡(luò)中獨(dú)立于正常電源的專用饋電線路都可以作為備用電源。由于柴油發(fā)電機(jī)組在可操作性上
優(yōu)于其他備用電源,故大部分?jǐn)?shù)據(jù)中心采用柴油發(fā)電機(jī)組作為備用電源。
f)中等中心比大模型智算中心在電源可靠性方面降低了要求,當(dāng)B級(jí)數(shù)據(jù)中心由雙重電源供電時(shí),
不需要再設(shè)置備用電源。
6.2.6電磁屏蔽
a)設(shè)有電磁屏蔽室的數(shù)據(jù)中心,結(jié)構(gòu)荷載除應(yīng)滿足電子信息設(shè)備的要求外,還應(yīng)考慮金屬屏蔽結(jié)
構(gòu)需要增加的荷載值。根據(jù)調(diào)研,需要增加的結(jié)構(gòu)荷載與屏蔽結(jié)構(gòu)形式及屏蔽室的面積有關(guān),
一般在1.2kN/m2~2.5kN/m2范圍內(nèi)。
b)濾波器、波導(dǎo)管等屏蔽件一般安裝在電磁屏蔽室金屬殼體的外側(cè),考慮到以后的維修,需要在
安裝有屏蔽件的金屬殼體側(cè)與建筑(結(jié)構(gòu))墻之間預(yù)留維修通道或維修口,通道寬度不宜小于
600mm。
c)電磁屏蔽室的接地采用單獨(dú)引下線的目的是為了防止屏蔽信號(hào)干擾電子信息設(shè)備,引下線一
般采用截面積不小于25mm2的多股銅芯電纜。
d)屏蔽件的性能指標(biāo)主要是指衰減參數(shù)和截止頻率等。選擇屏蔽件時(shí),其性能指標(biāo)不能低于電磁
屏蔽室的屏蔽要求。根據(jù)調(diào)研,屏蔽件的性能指標(biāo)適當(dāng)提高一些,屏蔽效果會(huì)更好。
6.2.7網(wǎng)絡(luò)與布線系統(tǒng)
a)數(shù)據(jù)中心布線系統(tǒng)與網(wǎng)絡(luò)系統(tǒng)架構(gòu)密切相關(guān),設(shè)計(jì)時(shí)應(yīng)根據(jù)網(wǎng)絡(luò)架構(gòu)確定布線系統(tǒng)。
10
T/CSAExx—20xx
b)傳輸介質(zhì)主要是指設(shè)備纜線、跳線和配線設(shè)備。冗余配置的要求主要針對(duì)大模型和中等智算中
心的布線,對(duì)于簡(jiǎn)單智算中心的布線,可根據(jù)具體情況確定。網(wǎng)絡(luò)布線應(yīng)具備支持10GB/s、
40GB/s和100GB/s網(wǎng)絡(luò)的能力。
c)MPO是多芯推進(jìn)鎖閉光纖連接器件,通過(guò)陣列完成多芯光纖的連接;MTP是基于MPO發(fā)展而來(lái)的
機(jī)械推拉式多芯光纖連接器件,MTP兼容所有MPO連接器件標(biāo)準(zhǔn)和規(guī)范。單個(gè)MPO/MTP連接器件
可以支持12芯、24芯、48芯或72芯光纖的連接。存儲(chǔ)網(wǎng)絡(luò)光纖鏈路設(shè)計(jì)采用多芯MPO/MTP預(yù)連
接系統(tǒng)是為了滿足存儲(chǔ)設(shè)備的損耗性能要求。
d)主機(jī)房中的對(duì)絞線纜配線架和光纖配線箱可以安裝在機(jī)柜(架)內(nèi),也可以通過(guò)支架安裝在橋
架上。
e)為防止電磁場(chǎng)對(duì)布線系統(tǒng)的干擾,避免通過(guò)布線系統(tǒng)對(duì)外泄漏重要信息,應(yīng)采用屏蔽布線系
統(tǒng)、光纜布線系統(tǒng)或采取其他電磁干擾防護(hù)措施(如建筑屏蔽)。當(dāng)采用屏蔽布線系統(tǒng)時(shí),應(yīng)保
證鏈路或信道的全程屏蔽和屏蔽層可靠接地。
6.2.8智能化系統(tǒng)
a)智算中心智能化系統(tǒng)設(shè)計(jì)內(nèi)容一般包括:環(huán)境和設(shè)備監(jiān)控系統(tǒng)、網(wǎng)絡(luò)與布線系統(tǒng)、電話交換系
統(tǒng)、小型移動(dòng)蜂窩電話系統(tǒng)、火災(zāi)自動(dòng)報(bào)警及消防聯(lián)動(dòng)控制系統(tǒng)、背景音樂及緊急廣播系統(tǒng)、
視頻安防監(jiān)控系統(tǒng)、入侵報(bào)警系統(tǒng)、出入口控制系統(tǒng)、停車庫(kù)管理系統(tǒng)、電子巡更管理系統(tǒng)、
電梯管理系統(tǒng)、周界防范系統(tǒng)、有線電視系統(tǒng)、衛(wèi)星通信系統(tǒng)、大屏幕顯示系統(tǒng)、擴(kuò)聲系統(tǒng)、
中控系統(tǒng)、KVM系統(tǒng)、資產(chǎn)管理系統(tǒng)、數(shù)據(jù)中心氣流與熱場(chǎng)管理系統(tǒng)等,各數(shù)據(jù)中心可根據(jù)實(shí)
際需求確定。
b)智能化系統(tǒng)的主機(jī)和人機(jī)界面可以集中設(shè)置在總控中心內(nèi)(消防控制室單獨(dú)設(shè)置時(shí),其他系統(tǒng)
可以集中設(shè)置在總控中心內(nèi))。為了提高供電電源的可靠性,各系統(tǒng)宜采用獨(dú)立的UPS電源。當(dāng)
采用集中UPS電源供電時(shí),應(yīng)采用單獨(dú)回路為各系統(tǒng)配電。A級(jí)和B級(jí)數(shù)據(jù)中心,應(yīng)為UPS提供雙
路供電電源。
c)系統(tǒng)對(duì)監(jiān)控范圍內(nèi)分布的各監(jiān)控對(duì)象進(jìn)行實(shí)時(shí)監(jiān)視,記錄和處理相關(guān)數(shù)據(jù),檢測(cè)故障,適時(shí)通
知相關(guān)人員處理故障,根據(jù)要求提供相應(yīng)的數(shù)據(jù)和報(bào)表,實(shí)現(xiàn)機(jī)房的無(wú)人值守,以及環(huán)境和設(shè)
備的集控監(jiān)控、維護(hù)和管理,對(duì)電能利用效率(PUE)和水利用效率(WUE)進(jìn)行檢測(cè)和計(jì)算。
6.2.9給水排水
a)擋水和排水設(shè)施用于自動(dòng)噴水滅火系統(tǒng)動(dòng)作后的排水、空調(diào)冷凝水及加濕器的排水,防止積
水。
b)設(shè)置冷卻水補(bǔ)水儲(chǔ)存裝置是為了保證數(shù)據(jù)中心冷源供水系統(tǒng)的可靠性,防止市政供水中斷導(dǎo)
致數(shù)據(jù)中心供冷中斷。
6.2.10消防與安全
a)常用的氣體滅火劑分為鹵代烷和惰性混合氣體,前者的典型代表為七氟丙烷(HFC-227ea),后
者的典型代表為IG-541。鹵代烷的滅火機(jī)理是化學(xué)反應(yīng),惰性氣體滅火機(jī)理是控制氧氣濃度和
窒息。氣體滅火系統(tǒng)具有響應(yīng)速度快、滅火后藥劑無(wú)殘留、對(duì)電子設(shè)備損傷小等特點(diǎn)。氣體滅
11
T/CSAExx—20xx
火系統(tǒng)自動(dòng)化程度高、滅火速度快,對(duì)于局部火災(zāi)有非常強(qiáng)的抑制作用,但由于造價(jià)高,因此
應(yīng)選擇火災(zāi)對(duì)機(jī)房影響最大的部分設(shè)置氣體滅火系統(tǒng)。
b)對(duì)于空間較大,且只有部分設(shè)備需要重點(diǎn)保護(hù)的房間(如變配電室),為進(jìn)一步降低工程造價(jià),
可僅對(duì)設(shè)備(如配電柜)采取局部保護(hù)措施,如可采用探火管自動(dòng)滅火裝置。
c)智算中心發(fā)生火災(zāi),其后果都很嚴(yán)重,因此必須設(shè)置火災(zāi)探測(cè)報(bào)警系統(tǒng),便于早期發(fā)現(xiàn)火災(zāi),
及時(shí)撲救,使損失減到最小?,F(xiàn)行國(guó)家標(biāo)準(zhǔn)《火災(zāi)自動(dòng)報(bào)警系統(tǒng)規(guī)范》GB50116對(duì)火災(zāi)探測(cè)和
聯(lián)動(dòng)控制有詳細(xì)的要求。
6.2.11基礎(chǔ)設(shè)施運(yùn)行維護(hù)
a)設(shè)施系統(tǒng)與設(shè)備運(yùn)行應(yīng)包括值班、監(jiān)控日常巡檢、運(yùn)行操作、報(bào)和事件處理內(nèi)容。
b)大型智算中心應(yīng)24H值班,中等和簡(jiǎn)單智算中心宜按照子信息設(shè)備負(fù)載的重要性確定值班時(shí)間。
c)消防系統(tǒng)和安防范系統(tǒng)應(yīng)24H保持正常工作狀態(tài),不得隨意中斷。
d)運(yùn)行人員應(yīng)按照巡檢計(jì)劃、周期、規(guī)定路線對(duì)基礎(chǔ)設(shè)施系統(tǒng)和設(shè)備及運(yùn)行環(huán)境進(jìn)行巡檢,巡檢
記錄應(yīng)及時(shí)、完整、真實(shí)、清晰。
e)大型智算中心每日現(xiàn)場(chǎng)巡檢次數(shù)不應(yīng)少于2次,中等和簡(jiǎn)單智算中心每日?qǐng)鲅矙z次數(shù)不應(yīng)少于
1次。
f)有能耗計(jì)量系統(tǒng)的智算中新,應(yīng)保證能耗計(jì)裝置正常工作,數(shù)據(jù)完整有效。
g)智算中心能耗數(shù)據(jù)應(yīng)定期進(jìn)行綜合分析,合理優(yōu)化電氣與通風(fēng)調(diào)系統(tǒng)的運(yùn)行控制策略,提高整
體電能使用效率。
h)設(shè)備有備用或冗余的,應(yīng)輪換使用。
RDMA網(wǎng)絡(luò)交換機(jī)
6.3.1InfiniBand
接口與線纜要求
a)交換機(jī)設(shè)備200G端口數(shù)量≥40個(gè);
b)交換機(jī)設(shè)備支持DAC銅纜或AOC線纜;
c)交換機(jī)配套光纖的誤碼率≤1E-15。
功能要求
a)高速計(jì)算網(wǎng)絡(luò)應(yīng)符合InfiBand相關(guān)技術(shù)規(guī)范;
b)支持原生RDMA硬件支持,不接受軟件模擬RDMA;
c)支持MPI點(diǎn)到點(diǎn)通信和聚合類通信硬件卸載,提供MPI通信優(yōu)化軟件包;
d)支持Adaptiverouting動(dòng)態(tài)路由。
性能要求
a)支持網(wǎng)絡(luò)鏈路故障快速恢復(fù)和動(dòng)態(tài)路由,網(wǎng)絡(luò)收斂時(shí)間<1ms;
b)交換機(jī)端口轉(zhuǎn)發(fā)延遲<130ns;
c)設(shè)備整機(jī)交換容量≥16Tbps(A類);
12
T/CSAExx—20xx
d)IB流量多打多場(chǎng)景,針對(duì)不同消息長(zhǎng)度,網(wǎng)絡(luò)端到端平均帶寬需滿足>15Gb/s;
e)IB流量alltoall場(chǎng)景,針對(duì)不同消息長(zhǎng)度,網(wǎng)絡(luò)端到端的平均帶寬需滿足>15Gb/s,平均時(shí)延
需滿足<1000us;
f)IB流量allreduce場(chǎng)景,針對(duì)不同消息長(zhǎng)度,網(wǎng)絡(luò)端到端的平均帶寬需滿足>20GB/s,平均時(shí)
延需滿足<2500us。
硬件要求
a)交換機(jī)設(shè)備的高度≤1U;
b)配置冗余電源和冗余風(fēng)扇;
c)支持電源和風(fēng)扇的熱插拔;
d)支持220V交流雙路供電(要求價(jià)格保持一致,簽約時(shí)由用戶確定供貨電源類型。直流電源不得
使用直/交逆變模塊)。
網(wǎng)絡(luò)管理要求
a)支持圖形化管理軟件,能夠?qū)W(wǎng)絡(luò)運(yùn)行、網(wǎng)絡(luò)性能、故障以及擁塞狀況進(jìn)行監(jiān)控;
b)網(wǎng)管軟件能夠自動(dòng)發(fā)現(xiàn)拓?fù)浜驮O(shè)備,并對(duì)設(shè)備進(jìn)行管理、對(duì)性能進(jìn)行優(yōu)化,支持管理系統(tǒng)的高
可用。
6.3.2RoCEV2
a)宜基于通用以太網(wǎng)交換機(jī)、網(wǎng)卡和組網(wǎng),支持網(wǎng)絡(luò)性能無(wú)損的集群規(guī)模擴(kuò)展和PFC死鎖檢測(cè),
避免集群網(wǎng)絡(luò)不可用的系統(tǒng)性風(fēng)險(xiǎn),保障網(wǎng)絡(luò)整體SLA;
b)接入交換機(jī)提供業(yè)務(wù)網(wǎng)接入和互聯(lián)網(wǎng)接入;
c)支持高性能高速網(wǎng)絡(luò),分別用于并行計(jì)算程序的集群計(jì)算網(wǎng)絡(luò)以及并行存儲(chǔ)系統(tǒng)的存儲(chǔ)網(wǎng)絡(luò);
d)提供IPMI網(wǎng)絡(luò),接入到系統(tǒng)管理網(wǎng);
e)宜采用雙25GE網(wǎng)絡(luò)進(jìn)行云內(nèi)的業(yè)務(wù)組網(wǎng),上端對(duì)接核心交換機(jī);
f)宜采用雙10GE接入網(wǎng)絡(luò)交換機(jī)組成系統(tǒng)管理網(wǎng),上端對(duì)接網(wǎng)管核心交換機(jī);
g)支持GPU直接通過(guò)網(wǎng)卡接入網(wǎng)絡(luò)的雙中心架構(gòu),提升集群通信效率,降低節(jié)點(diǎn)內(nèi)靜態(tài)擁塞;
h)支持全對(duì)等、扁平化的多軌集群架構(gòu)(2個(gè)核心span+交換機(jī)lif),實(shí)現(xiàn)多路通信和資源間的
直接互聯(lián)互通;擴(kuò)展:跨數(shù)據(jù)中心;
i)支持流控算法、網(wǎng)絡(luò)協(xié)議與架構(gòu)的協(xié)同設(shè)計(jì),提升網(wǎng)絡(luò)傳輸性能,降低動(dòng)態(tài)擁塞;
j)支持高性能集合通信庫(kù),提供GPU和網(wǎng)卡的智能匹配、節(jié)點(diǎn)內(nèi)外物理拓?fù)渥詣?dòng)識(shí)別及拓?fù)涓兄?/p>
的無(wú)擁塞集群通信能力;
k)支持基于內(nèi)存的樣本數(shù)據(jù)訪問(wèn)加速,降低數(shù)據(jù)加載時(shí)長(zhǎng)。
6.3.3匯聚交換機(jī)
a)支持不少于48個(gè)10GSFP+接口和不少于4個(gè)40GQSFP+接口;
b)交換容量不低于12Tbps,包轉(zhuǎn)發(fā)率不低于4480Mpps;
c)支持基于端口、基于協(xié)議、基于MAC的VLAN;
13
T/CSAExx—20xx
d)支持RIP、OSPF、ISIS、BGP等IPv4動(dòng)態(tài)路由協(xié)議,支持RIPng、OSPFv3、ISISv6、BGP4+等IPv6
動(dòng)態(tài)路由協(xié)議;
e)支持MPLS、MCE,支持MPLSVPN,支持MPLSTE;
f)支持streamingtelemetry,支持線速提供可視化信息,提供入端口,出端口和入出時(shí)間信息;
g)支持簡(jiǎn)化MOD,不占用路由資源;支持增強(qiáng)TCB,全局端口所有隊(duì)列同時(shí)丟包監(jiān)控;
h)支持BGP-EVPN,支持VxLAN,支持VxLANOAM:VxLANping,VxLANtracert,支持QinQin
VxLAN,支持GRETunnel;
i)支持無(wú)損網(wǎng)絡(luò)RDMA,支持PFC、ECN、ETS;支持INT(In-bandNetworkTelemetry);
j)配置100GE光模塊不少于12個(gè)。
6.3.4核心交換機(jī)
a)支持主控制引擎模塊不少于2個(gè);
b)可用槽位不少于6個(gè);
c)支持至少36個(gè)100GE下行接口;至少48端口萬(wàn)兆以太網(wǎng)口;
d)交換容量不少于12Tbps,包轉(zhuǎn)發(fā)率不低于4480Mpps;
e)支持基于端口、基于協(xié)議、基于MAC的VLAN;
f)支持RIP、OSPF、ISIS、BGP等IPv4動(dòng)態(tài)路由協(xié)議,支持RIPng、OSPFv3、ISISv6、BGP4+等IPv6
動(dòng)態(tài)路由協(xié)議;
g)支持MPLS、MCE,支持MPLSVPN,支持MPLSTE;
h)支持streamingtelemetry,支持線速提供可視化信息,提供入端口,出端口和入出時(shí)間信息;
i)支持簡(jiǎn)化MOD,不占用路由資源;支持增強(qiáng)TCB,全局端口所有隊(duì)列同時(shí)丟包監(jiān)控;
j)支持BGP-EVPN,支持VxLAN,支持VxLANOAM:VxLANping,VxLANtracert,支持QinQin
VxLAN,支持GRETunnel;
k)支持無(wú)損網(wǎng)絡(luò)RDMA,支持PFC、ECN、ETS;支持INT(In-bandNetworkTelemetry);
l)配置100GE光模塊不低于12個(gè)。
智算算力服務(wù)器
智算算力服務(wù)器應(yīng)支持的功能要求包括但不限于:
a)應(yīng)支持至少2個(gè)獨(dú)立或集成的CPU;
b)應(yīng)支持至少兩種深度學(xué)習(xí)或機(jī)器學(xué)習(xí)框架;
c)應(yīng)支持DDR4或以上版本的內(nèi)存,宜支持不少于16個(gè)DDR控制器;
d)應(yīng)支持SAS、SATA或NVME等存儲(chǔ)協(xié)議;
e)應(yīng)支持計(jì)算機(jī)視覺,自然語(yǔ)言處理,聲音處理場(chǎng)景模型訓(xùn)練;
f)應(yīng)支持PCIE協(xié)議,版本不低于3.0,宜支持至少2個(gè)PCIE控制器;
g)應(yīng)支持USB2.0通信,配備接口;
h)應(yīng)支持100GE、25GE、10GE、GE接口;
i)支持片間數(shù)據(jù)通道或接口,單向通信速率不低于24Gbps;
j)宜支持人工智能加速處理器芯片直出的參數(shù)面網(wǎng)口;
k)采用人工智能加速器片上內(nèi)存時(shí),片上內(nèi)存不宜低于32GB,總帶寬不宜小于1200GB/s;
14
T/CSAExx—20xx
l)采用板載內(nèi)存時(shí),板載內(nèi)存不宜低于48GB;
m)應(yīng)支持圖像、視頻預(yù)處理;
n)服務(wù)器整機(jī)電源功率不應(yīng)低于2KW;
o)單條內(nèi)存容量應(yīng)不小于32GB,宜能支持64GB或以上單條存容量;
p)可配內(nèi)存數(shù)量應(yīng)不低于16條,宜不低于32條;
q)支持虛擬化的人工智能加速處理器(如NPU、GPU),GPU虛擬化支持顯存、算力雙維度自由切
分和動(dòng)態(tài)創(chuàng)建銷毀;
r)支持跨架構(gòu)的GPU虛擬化技術(shù),提供智算算力池化,推理和訓(xùn)練服務(wù)器的混合部署。
通用計(jì)算服務(wù)器
通用計(jì)算服務(wù)器應(yīng)支持的功能要求包括但不限于:
a)應(yīng)支持至少2個(gè)獨(dú)立或集成的CPU;
b)應(yīng)支持CPU虛擬化技術(shù),如虛擬機(jī)、容器等;
c)宜支持L3緩存,容量不低于16MB;
d)宜支持DDR4或以上版本的內(nèi)存;
e)應(yīng)支持PCIE協(xié)議,版本不低于3.0;
f)應(yīng)支持25GE、10GE、GE等網(wǎng)絡(luò)接口;
g)應(yīng)支持圖像、視頻預(yù)處理模塊;
h)應(yīng)支持計(jì)算機(jī)視覺,自然語(yǔ)言處理,聲音處理場(chǎng)景模型推理;
i)應(yīng)支持SAS、SATA或NVME等存儲(chǔ)協(xié)議;
j)服務(wù)器整機(jī)電源功率不應(yīng)低于500W;
k)單條內(nèi)存容量不應(yīng)小于16GB,宜能支持64GB或以上單條存容量;
l)可配內(nèi)存數(shù)量應(yīng)不低于8條,宜不低于24條。
存儲(chǔ)服務(wù)器
存儲(chǔ)服務(wù)器應(yīng)支持的功能要求包括但不限于:
a)應(yīng)支持至少2個(gè)獨(dú)立或集成的CPU;
b)宜支持L3緩存,容量不低于16MB;
c)宜支持DDR4或以上版本的內(nèi)存;
d)應(yīng)支持PCIE協(xié)議,版本不低于3.0;
e)應(yīng)支持至少6個(gè)以上25GE、10GE、GE等網(wǎng)絡(luò)接口;
f)應(yīng)支持SAS、SATA或NVME等存儲(chǔ)協(xié)議;
g)服務(wù)器整機(jī)電源功率不應(yīng)低于500W;
h)單條內(nèi)存容量不應(yīng)小于32GB,宜能支持64GB或以上單條存容量;
i)可配內(nèi)存數(shù)量應(yīng)不低于16條,宜不低于32條;
j)可配SSD硬盤不低于10塊,單塊硬盤容量不低于480GB,宜能支撐3.84TB以上容量;
k)可配SATA或SAS硬盤不低于24塊,單塊硬盤容量不低于16TB,硬盤轉(zhuǎn)數(shù)不低于7.2KPRM。
安全服務(wù)器
安全服務(wù)器應(yīng)支持的功能要求包括但不限于:
a)應(yīng)支持至少1個(gè)獨(dú)立或集成的CPU;
b)宜支持L3緩存,容量不低于16MB;
15
T/CSAExx—20xx
c)宜支持DDR4或以上版本的內(nèi)存;
d)應(yīng)支持PCIE協(xié)議,版本不低于3.0;
e)應(yīng)支持至少6個(gè)以上25GE、10GE、GE等網(wǎng)絡(luò)接口;
f)應(yīng)支持1個(gè)以上帶外管理接口;
g)應(yīng)支持SAS、SATA或NVME等存儲(chǔ)協(xié)議;
h)服務(wù)器整機(jī)電源功率不應(yīng)低于500W;
i)單條內(nèi)存容量不應(yīng)小于16GB,宜能支持64GB或以上單條存容量;
j)可配內(nèi)存數(shù)量應(yīng)不低于8條,宜不低于16條。
k)應(yīng)提供硬件可信執(zhí)行環(huán)境(TEE),供特權(quán)軟件運(yùn)行。
l)防火墻支持應(yīng)用控制、URL過(guò)濾、病毒防護(hù)、入侵防御等功能;
m)Web應(yīng)用防火墻支持HTTP規(guī)范性檢測(cè)、注入防護(hù)、漏洞防護(hù)等基礎(chǔ)功能,以及SQL注入語(yǔ)義分析、
XSS跨站腳本語(yǔ)義分析、網(wǎng)站盜鏈行為檢測(cè)與防御、XML攻擊防護(hù)等高級(jí)防護(hù)功能;
n)提供態(tài)勢(shì)感知和堡壘機(jī)集中管理資產(chǎn)權(quán)限;
o)提供負(fù)載均衡能力,包括多鏈路/服務(wù)器負(fù)載均衡、全局負(fù)載、智能DNS等能力。
7智算基礎(chǔ)平臺(tái)
通用要求
智算基礎(chǔ)平臺(tái)的各項(xiàng)服務(wù)針對(duì)簡(jiǎn)單智算、中等智算和大模型智算場(chǎng)景應(yīng)支持的要求如表2所示。
表2不同智算場(chǎng)景對(duì)智算基礎(chǔ)平臺(tái)的技術(shù)要求
功能項(xiàng)簡(jiǎn)單智算中等智算大模型智算
算力服務(wù)基本CPU計(jì)算能力和CPU+GPU及GPU加速和分高性能計(jì)算資源、包括多CPU、
并行計(jì)算能力布式計(jì)算能力;默認(rèn)都是數(shù)據(jù)中心級(jí)的GPU,
支持并行計(jì)算和分布式支持大規(guī)模并行計(jì)算和分布式訓(xùn)
訓(xùn)練練
容器服務(wù)鏡像大小幾百兆到幾鏡像大小幾十G到數(shù)十G鏡像大小幾十G到百G,鏡像部署
個(gè)G之前,鏡像部署時(shí)之間,鏡像部署時(shí)間小時(shí)間幾個(gè)小時(shí)到數(shù)天級(jí)
間分鐘級(jí)時(shí)級(jí)
容器鏡像服務(wù)鏡像構(gòu)建時(shí)間幾分鐘鏡像構(gòu)建時(shí)間幾分鐘至鏡像構(gòu)建時(shí)間小時(shí)至數(shù)數(shù)天
數(shù)小時(shí)
網(wǎng)絡(luò)服務(wù)響應(yīng)時(shí)間:網(wǎng)絡(luò)服務(wù)響應(yīng)時(shí)間:網(wǎng)絡(luò)服務(wù)應(yīng)響應(yīng)時(shí)間:網(wǎng)絡(luò)服務(wù)應(yīng)能在幾百
應(yīng)能在幾十毫秒至數(shù)能在幾十毫秒至數(shù)百毫毫秒至數(shù)秒的范圍內(nèi)快速響應(yīng)。
百毫秒的范圍內(nèi)快速秒的范圍內(nèi)快速響應(yīng)。并發(fā)連接:網(wǎng)絡(luò)服務(wù)應(yīng)能處理數(shù)
響應(yīng)。并發(fā)連接:網(wǎng)絡(luò)服務(wù)應(yīng)萬(wàn)到數(shù)十萬(wàn)個(gè)并發(fā)連接。
并發(fā)連接:網(wǎng)絡(luò)服務(wù)能處理數(shù)千到數(shù)萬(wàn)個(gè)并數(shù)據(jù)傳輸:支持大規(guī)模數(shù)據(jù)的高
應(yīng)能處理數(shù)百到數(shù)千發(fā)連接。速傳輸和低延遲的通信。
個(gè)并發(fā)連接。數(shù)據(jù)傳輸:支持中等規(guī)
模數(shù)據(jù)的高效傳輸和低
延遲的通信。
16
T/CSAExx—20xx
數(shù)據(jù)傳輸:支持小規(guī)
模數(shù)據(jù)的快速傳輸和
低延遲的通信。
存儲(chǔ)服務(wù)單數(shù)據(jù)文件<1TB,單數(shù)據(jù)文件>1TB,中等通用預(yù)訓(xùn)練:?jiǎn)螖?shù)據(jù)文件>2TB,
IOPS>1萬(wàn),吞吐量ms級(jí)延時(shí),IOPS>3萬(wàn),百億小文件,IOPS百萬(wàn)級(jí),吞吐
<4GB/S吞吐量<10GB/S量>100GB/S
行業(yè)預(yù)訓(xùn)練:?jiǎn)螖?shù)據(jù)文件>1TB,
中等ms級(jí)延時(shí),IOPS>3萬(wàn),吞吐
量<10GB/S
微調(diào)訓(xùn)練:
單數(shù)據(jù)文件<1TB,IOPS>1萬(wàn),吞
吐量<4GB/S
安全服務(wù)提供基礎(chǔ)的訪問(wèn)控提供細(xì)粒度的訪問(wèn)控提供高級(jí)訪問(wèn)控制和身份認(rèn)證能
制,制;具備較強(qiáng)的監(jiān)測(cè)防力;
監(jiān)測(cè)防御常見網(wǎng)絡(luò)威御能力;支持敏感操作監(jiān)測(cè)防御復(fù)雜的網(wǎng)絡(luò)安全威脅和
脅;記錄和審計(jì)常見的審計(jì)和追蹤。攻擊;
訪問(wèn)操作日志。支持全面的安全審計(jì)和日志記
錄。
算力服務(wù)
智算基礎(chǔ)平臺(tái)的算力服務(wù)應(yīng)滿足的要求包括但不限于:
a)支持通用算力和智算算力兩種計(jì)算方式,滿足不同應(yīng)用場(chǎng)景需要;
b)提供彈性伸縮能力,用戶可以根據(jù)實(shí)際需求進(jìn)行配置和調(diào)整;
c)支持多種任務(wù)調(diào)度方式,包括批處理、交互式應(yīng)用、實(shí)時(shí)流處理等;
d)支持多種操作系統(tǒng),包括Linux和Windows等;
e)提供高可用性和容錯(cuò)能力,確保計(jì)算持續(xù)穩(wěn)定運(yùn)行。
容器服務(wù)
智算基礎(chǔ)平臺(tái)的容器服務(wù)應(yīng)滿足的要求包括但不限于:
a)提供輕量級(jí)、可移植和可擴(kuò)展的容器環(huán)境;
b)支持常見的容器化技術(shù),如Docker和Kubernetes等;
c)提供容器編排機(jī)制,確保容器服務(wù)的高可靠性和高可用性;
d)支持容器自動(dòng)發(fā)現(xiàn)和擴(kuò)展;
e)提供容器網(wǎng)絡(luò)隔離和安全性保護(hù)。
容器鏡像服務(wù)
智算基礎(chǔ)平臺(tái)的容器鏡像服務(wù)應(yīng)滿足的要求包括但不限于:
a)提供靈活的容器鏡像管理和分發(fā)系統(tǒng);
b)支持常見的容器鏡像倉(cāng)庫(kù),如DockerHub和阿里云鏡像庫(kù)等;
17
T/CSAExx—20xx
c)提供高效、安全和可靠的容器鏡像構(gòu)建和打包;
d)支持鏡像的標(biāo)簽管理和自動(dòng)化構(gòu)建。
網(wǎng)絡(luò)服務(wù)
智算基礎(chǔ)平臺(tái)的網(wǎng)絡(luò)服務(wù)應(yīng)滿足的要求包括但不限于:
a)提供高性能和低延遲的網(wǎng)絡(luò)服務(wù),支持超大規(guī)模網(wǎng)絡(luò),宜采用適合大模型訓(xùn)練網(wǎng)絡(luò)流量特征的
網(wǎng)絡(luò)架構(gòu),如fat-tree等;
b)應(yīng)支持RDMA高性能網(wǎng)絡(luò),如InfiniBand、RoCE,及相應(yīng)的網(wǎng)卡、交換機(jī)。國(guó)產(chǎn)化場(chǎng)景應(yīng)支持RoCE
網(wǎng)絡(luò);
c)實(shí)現(xiàn)虛擬專用云(VPC)網(wǎng)絡(luò),實(shí)現(xiàn)安全訪問(wèn)和隔離;
d)支持不同網(wǎng)絡(luò)協(xié)議,如TCP/IP、UDP和HTTP等;
e)提供負(fù)載均衡和流量控制機(jī)制,確保高可用性和高吞吐量。
存儲(chǔ)服務(wù)
智算基礎(chǔ)平臺(tái)的存儲(chǔ)服務(wù)應(yīng)滿足的要求包括但不限于:
a)提供高性能的存儲(chǔ)能力,如高性能存儲(chǔ)、對(duì)象存儲(chǔ)、塊存儲(chǔ)和文件存儲(chǔ)等;
b)提供不同存儲(chǔ)方式,如分布式文件系統(tǒng)、分布式塊存儲(chǔ)和對(duì)象存儲(chǔ)等;
c)提供數(shù)據(jù)備份和恢復(fù)能力,確保數(shù)據(jù)不受意外損失;
d)提供數(shù)據(jù)壓縮、加密(傳輸加密和服務(wù)端加密)和鑒別等安全保護(hù)措施;
e)實(shí)現(xiàn)容器化存儲(chǔ),確保數(shù)據(jù)隔離
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024藝術(shù)學(xué)校教室租賃與藝術(shù)展覽合作合同3篇
- 二零二五年度風(fēng)力發(fā)電設(shè)備安裝與運(yùn)營(yíng)合同3篇
- 2025年度貓咪品種引進(jìn)與銷售代理合同4篇
- 二零二四年光伏發(fā)電項(xiàng)目爆破鉆孔合同
- 南昌市2025年度新建住宅買賣合同
- 二零二五版環(huán)保設(shè)施建設(shè)與運(yùn)營(yíng)合同3篇
- 2025年度餐飲企業(yè)知識(shí)產(chǎn)權(quán)保護(hù)合同18篇
- 年度超高純氣體的純化設(shè)備戰(zhàn)略市場(chǎng)規(guī)劃報(bào)告
- 2025版智能交通信號(hào)系統(tǒng)零星維修施工合同4篇
- 二零二五年度車輛抵押擔(dān)保信托合同范本3篇
- 稱量與天平培訓(xùn)試題及答案
- 超全的超濾與納濾概述、基本理論和應(yīng)用
- 2020年醫(yī)師定期考核試題與答案(公衛(wèi)專業(yè))
- 2022年中國(guó)育齡女性生殖健康研究報(bào)告
- 各種靜脈置管固定方法
- 消防報(bào)審驗(yàn)收程序及表格
- 教育金規(guī)劃ppt課件
- 呼吸機(jī)波形分析及臨床應(yīng)用
- 常用緊固件選用指南
- 私人借款協(xié)議書新編整理版示范文本
- 自薦書(彩色封面)
評(píng)論
0/150
提交評(píng)論