信息技術(shù) 高性能計算系統(tǒng) 管理監(jiān)控平臺技術(shù)要求_第1頁
信息技術(shù) 高性能計算系統(tǒng) 管理監(jiān)控平臺技術(shù)要求_第2頁
信息技術(shù) 高性能計算系統(tǒng) 管理監(jiān)控平臺技術(shù)要求_第3頁
信息技術(shù) 高性能計算系統(tǒng) 管理監(jiān)控平臺技術(shù)要求_第4頁
信息技術(shù) 高性能計算系統(tǒng) 管理監(jiān)控平臺技術(shù)要求_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS35.180

CCSL63

中華人民共和國國家標準

GB/TXXXXX—XXXX

信息技術(shù)高性能計算系統(tǒng)管理監(jiān)控平臺

技術(shù)要求

Informationtechnology—Highperformancecomputingsystem–Technical

requirementformanagementandmonitorplatform

(征求意見稿)

在提交反饋意見時,請將您知道的相關(guān)專利連同支持性文件一并附上

XXXX-XX-XX發(fā)布XXXX-XX-XX實施

國家市場監(jiān)督管理總局

發(fā)布

國家標準化技術(shù)委員會

GB/TXXXXX—XXXX

前??言

本文件按照GB/T1.1-2020《標準化工作導(dǎo)則第1部分:標準化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起

草。

請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機構(gòu)不承擔識別專利的責任。

本標準由全國信息技術(shù)標準化技術(shù)委員會歸口。

本標準主要起草單位:

本標準主要起草人:

II

GB/TXXXXX—XXXX

信息技術(shù)高性能計算系統(tǒng)管理監(jiān)控平臺技術(shù)要求

1范圍

本文件規(guī)定了高性能計算系統(tǒng)的管理監(jiān)控平臺的技術(shù)要求,包括管理監(jiān)控平臺對高性能計算系統(tǒng)管

理的功能、性能要求。

本文件適用于高性能計算系統(tǒng)管理監(jiān)控平臺的設(shè)計和開發(fā)。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

SJ/T11647信息技術(shù)盤陣列接口要求

3術(shù)語、定義和縮略語

3.1術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1.1

高性能計算機highperformancecomputer

由成百上千、上萬個處理器單元、加速處理器單元、存儲單元,通過高速網(wǎng)絡(luò)互聯(lián)并行工作,組成

的具有超強計算能力的超級計算機,廣義上泛指解決大型復(fù)雜任務(wù)的計算工具。

3.1.2

高性能計算系統(tǒng)highperformancecomputingsystem

高性能計算機上加載操作系統(tǒng)、并行編譯環(huán)境、并行文件系統(tǒng)、科學(xué)計算應(yīng)用,構(gòu)建用于處理

科學(xué)計算信息的系統(tǒng)。

3.1.3

高性能計算系統(tǒng)管理監(jiān)控平臺managementandmonitoringplatformforthehighperformance

computingsystem

高性能計算系統(tǒng)管理監(jiān)控平臺是對組成高性能計算系統(tǒng)的硬件、系統(tǒng)環(huán)境、應(yīng)用及作業(yè)的運行狀態(tài)

進行監(jiān)控、報警、管理和調(diào)度的軟件,是高性能計算系統(tǒng)的運行維護軟件。

3.2縮略語

下列縮略語適用于本文件。

HPC:高性能計算(HighPerformanceComputing)

1

GB/TXXXXX—XXXX

CPU:中央處理單元(器)(CentralprocessingUnit)

IO:輸入輸出系統(tǒng)(inputoutput)

OS:操作系統(tǒng)(OperationSystem))

PCE:并行編譯環(huán)境(ParallelCompilerEnvironment)

PFS:并行文件系統(tǒng)(ParallelFileSystem)

RAID:廉價(或獨立)磁盤冗余陣列(RedundantArrayofInexpensive(orIndependent)Drive)

SNMP:簡單網(wǎng)絡(luò)管理協(xié)議(SimpleNetworkmanagementProtocol)

SSH:安全外殼協(xié)議(Secureshelly)

4概述

4.1高性能計算系統(tǒng)

由高性能計算機上加載操作系統(tǒng)、并行編譯環(huán)境、并行文件系統(tǒng)、科學(xué)計算應(yīng)用構(gòu)成。圖1為高性

能計算系統(tǒng)示意圖。

圖1.高性能計算系統(tǒng)示意圖

4.2高性能計算系統(tǒng)管理監(jiān)控平臺功能模塊

高性能計算系統(tǒng)管理監(jiān)控平臺功能模塊包括資源管理、監(jiān)控管理、報警管理、系統(tǒng)管理、作業(yè)管理、

記賬系統(tǒng)、應(yīng)用管理幾個功能模塊。圖1為高性能計算系統(tǒng)管理監(jiān)控平臺功能模塊組成示意圖。

2

GB/TXXXXX—XXXX

圖2.高性能計算系統(tǒng)管理監(jiān)控平臺功能模塊組成示意圖

5功能要求

5.1一般要求

應(yīng)滿足以下要求:

應(yīng)具有對異構(gòu)軟硬件資源進行統(tǒng)一監(jiān)控報警能力;

應(yīng)具有對HPC系統(tǒng)上進行串行、并行、批處理作業(yè)的作業(yè)管理調(diào)度能力;

應(yīng)具有對HPC系統(tǒng)進行系統(tǒng)部署、應(yīng)用部署和系統(tǒng)管理的能力;

應(yīng)具有支持動態(tài)添加監(jiān)控項、支持在線功能升級;

應(yīng)具有動態(tài)擴展計算、存儲、網(wǎng)絡(luò)單元的能力;

應(yīng)提供標準的SNMP訪問和傳輸接口,以利于被其他運維系統(tǒng)的集成。

5.2監(jiān)控

5.2.1統(tǒng)一監(jiān)控

對計算單元、存儲單元、網(wǎng)絡(luò)單元等所有部件統(tǒng)一呈現(xiàn),以機柜為單位呈現(xiàn)各部件的物理位置、名

稱、識別ID、狀態(tài)以及呈現(xiàn)HPC系統(tǒng)的整體的計算、內(nèi)存、IO能力和使用狀態(tài)、拓撲結(jié)構(gòu)。對機柜和機

柜內(nèi)的各個設(shè)備按照當前運行狀態(tài)實時地用相應(yīng)顏色來表示。

5.2.2硬件監(jiān)控

應(yīng)具備以下功能:

a)對計算單元、存儲單元、網(wǎng)絡(luò)單元監(jiān)控如下靜態(tài)信息:設(shè)備名稱、IP地址、操作系統(tǒng)類型和版

本號、CPU型號、主頻、緩存大小、內(nèi)存大小、內(nèi)存頻率、磁盤ID、類型、接口、轉(zhuǎn)速、RAID

級別、空間大小、IO設(shè)備型號、設(shè)備名稱、廠商、端口數(shù)量、協(xié)議類型、帶寬等信息。(包括

但不限于以上靜態(tài)信息,監(jiān)控項可以動態(tài)添加);

b)對計算單元、存儲單元、網(wǎng)絡(luò)單元監(jiān)控如下動態(tài)信息:設(shè)備狀態(tài)、CPU利用率、物理內(nèi)存占用

率、網(wǎng)絡(luò)流出字節(jié)/流入字節(jié)、數(shù)據(jù)包丟包率、磁盤IOPS、讀寫帶寬、CPU溫度、散熱風(fēng)扇的轉(zhuǎn)

速、電源供電等信息。(包括但不限于以上靜態(tài)信息,監(jiān)控項可以動態(tài)添加)。

5.2.3應(yīng)用監(jiān)控

3

GB/TXXXXX—XXXX

HPC系統(tǒng)上運行應(yīng)用的版本等靜態(tài)信息以及進程的狀態(tài)、啟動時間、運行時間、用戶數(shù)、連接數(shù)等

狀態(tài)信息。

5.2.4隊列和作業(yè)監(jiān)控

應(yīng)具備以下隊列和作業(yè)的監(jiān)控功能:

a)監(jiān)控各隊列調(diào)度策略;

b)監(jiān)控各隊列資源使用狀態(tài);

c)監(jiān)控各隊列作業(yè)數(shù)量和運行狀態(tài)(等待、運行、完成、掛起);

d)監(jiān)控作業(yè)的優(yōu)先級高低;

e)監(jiān)控作業(yè)運行時狀態(tài)和運行結(jié)果。

5.3報警

應(yīng)具備以下報警功能:

a)實時告警:

1)硬件:對機柜電源、計算單元、網(wǎng)絡(luò)單元、存儲單元的運行狀態(tài)的檢測告警;

2)應(yīng)用程序:對各種應(yīng)用軟件的運行狀態(tài)進行檢測告警,同時包括操作系統(tǒng)的運行狀態(tài)

告警。

b)..歷史告警:支持對歷史告警的查詢(按類別、時間、自定義方式)、統(tǒng)計功能,并可給出

統(tǒng)計分布圖。

c)告警設(shè)置:

1)提供對告警的閾值的單詞、批量設(shè)定功能;

2)可對告警級別進行設(shè)定和調(diào)整;

3)支持單詞、批量地對告警信息進行取消和確認的操作;

4)提供告警過濾功能,即根據(jù)條件呈現(xiàn)告警;

5)提供告警處理建議的編輯功能,當再次發(fā)生同類告警,系統(tǒng)直接給出處理建議;

6)支持用戶自定義告警設(shè)置。

d)告警歸并:對系統(tǒng)關(guān)聯(lián)告警進行歸并處理,合成一類告警程序。

e)提供短信、郵件以及屏幕閃爍、彈出提示窗口等告警形式。

5.4調(diào)度

具備以下調(diào)度功能:

a)提供基于優(yōu)先級、先進先出、作業(yè)回填的作業(yè)調(diào)度策略,以及獨占資源的調(diào)度策略;

b)提供作業(yè)投放、停止、刪除的操作,可刪除隊列中已投放的作業(yè),無論其是排隊中還是已運行;

c)智能負載功能:根據(jù)節(jié)點運行狀態(tài)和作業(yè)排隊情況,動態(tài)調(diào)整系統(tǒng)計算資源可用處理器顆數(shù),

降低電力消耗;

d)一鍵式作業(yè)調(diào)度:提供復(fù)雜應(yīng)用工作流,將作業(yè)的前中后處理各環(huán)節(jié)形成調(diào)度作業(yè)一鍵提交,

直接生成可讀的圖片或數(shù)據(jù)。即將作業(yè)的算例生成、作業(yè)提交、作業(yè)調(diào)度、作業(yè)運行過程監(jiān)控、

作業(yè)結(jié)果處理的前中后處理形成可一鍵提交的作業(yè)。

5.5管理

4

GB/TXXXXX—XXXX

5.5.1系統(tǒng)部署

應(yīng)具備如下功能:

a)操作系統(tǒng)自動鏡像恢復(fù)的功能,包括系統(tǒng)批量鏡像恢復(fù)功能;

b)對計算單元操作系統(tǒng)的遠程單機、批量部署功能,包括對原有設(shè)備的恢復(fù)和新增設(shè)備的部署;

c)對計算單元系統(tǒng)的單機、批量更新功能。

5.5.2應(yīng)用部署

應(yīng)具備如下功能:

a)對計算節(jié)點應(yīng)用軟件單機、批量上載、安裝的功能;

b)對計算節(jié)點應(yīng)用程序配置文件的單機、批量更新功能;

c)對應(yīng)用程序的自動重啟功能。

5.5.3系統(tǒng)管理

應(yīng)具備如下功能:

a)對計算單元單機、批量腳本的執(zhí)行功能;

b)對計算節(jié)點的操作系統(tǒng)批量更改用戶名和口令的功能;

c)能按照物理的機架拜訪位置布局,提供添加、修改和刪除機柜、計算單元、網(wǎng)絡(luò)單元、存儲單

元的操作。

5.5.4遠程管理

應(yīng)具備如下功能:

a)對于計算單元設(shè)備,應(yīng)提供遠程單機、批量開機、關(guān)機、重啟功能;

b)提供遠程文件上傳下載和SSH登錄的功能;

c)對存儲單元和網(wǎng)絡(luò)單元,提供遠程管理功能,以對其進行配置更改和故障維護。

5.5.5應(yīng)用模板

應(yīng)具備如下功能:

a)提供HPC應(yīng)用領(lǐng)域常用應(yīng)用的應(yīng)用模板,模板中有關(guān)于應(yīng)用運行的建議參數(shù)及配置;

b)支持用戶通過自定義方式定義模板。

5.5.6報表管理

具備以下數(shù)據(jù)統(tǒng)計功能:

a)計算節(jié)點的CPU使用率月度趨勢報表;

b)計算節(jié)點內(nèi)存利用率月度趨勢報表;

c)磁盤空間使用量報表;

d)應(yīng)支持自定義報表,對監(jiān)控數(shù)據(jù)進行分類統(tǒng)計與報表生成。

6性能要求

管理監(jiān)控平臺應(yīng)滿足如下性能要求:

a)支持系統(tǒng)CPU處理器數(shù)量應(yīng)達到千顆級以上,CPU核數(shù)應(yīng)達萬級核心以上,實現(xiàn)用戶單一映像

的登錄;

5

GB/TXXXXX—XXXX

b)系統(tǒng)告警級別可配置,對于關(guān)鍵監(jiān)控指標的延遲不大于1min;

c)系統(tǒng)運行監(jiān)控項的數(shù)據(jù)采集周期可配置,最小采集周期可達秒級;

d)告警信息、報表所需數(shù)據(jù)的存儲時間至少1年,性能數(shù)據(jù)的存儲時間至少三個月;

e)平均故障間隔時間大于6個月;

f)軟件運行占單顆CPU資源占用率不大于2%;

g)頁面的響應(yīng)時間小于5s。

_________________________________

6

GB/TXXXXX—XXXX

目??次

前言.....................................................................................................................................................................II

1范圍...................................................................................................................................................................1

2規(guī)范性引用文件...............................................................................................................................................1

3術(shù)語、定義和縮略語.......................................................................................................................................1

4概述...................................................................................................................................................................2

5功能要求...........................................................................................................................................................3

6性能要求...........................................................................................................................................................5

I

GB/TXXXXX—XXXX

信息技術(shù)高性能計算系統(tǒng)管理監(jiān)控平臺技術(shù)要求

1范圍

本文件規(guī)定了高性能計算系統(tǒng)的管理監(jiān)控平臺的技術(shù)要求,包括管理監(jiān)控平臺對高性能計算系統(tǒng)管

理的功能、性能要求。

本文件適用于高性能計算系統(tǒng)管理監(jiān)控平臺的設(shè)計和開發(fā)。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

SJ/T11647信息技術(shù)盤陣列接口要求

3術(shù)語、定義和縮略語

3.1術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1.1

高性能計算機highperformancecomputer

由成百上千、上萬個處理器單元、加速處理器單元、存儲單元,通過高速網(wǎng)絡(luò)互聯(lián)并行工作,組成

的具有超強計算能力的超級計算機,廣義上泛指解決大型復(fù)雜任務(wù)的計算工具。

3.1.2

高性能計算系統(tǒng)highperformancecomputingsystem

高性能計算機上加載操作系統(tǒng)、并行編譯環(huán)境、并行文件系統(tǒng)、科學(xué)計算應(yīng)用,構(gòu)建用于處理

科學(xué)計算信息的系統(tǒng)。

3.1.3

高性能計算系統(tǒng)管理監(jiān)控平臺managementandmonitoringplatformforthehighperformance

computingsystem

高性能計算系統(tǒng)管理監(jiān)控平臺是對組成高性能計算系統(tǒng)的硬件、系統(tǒng)環(huán)境、應(yīng)用及作業(yè)的運行狀態(tài)

進行監(jiān)控、報警、管理和調(diào)度的軟件,是高性能計算系統(tǒng)的運行維護軟件。

3.2縮略語

下列縮略語適用于本文件。

HPC:高性能計算(HighPerformanceComputing)

1

GB/TXXXXX—XXXX

CPU:中央處理單元(器)(CentralprocessingUnit)

IO:輸入輸出系統(tǒng)(inputoutput)

OS:操作系統(tǒng)(OperationSystem))

PCE:并行編譯環(huán)境(ParallelCompilerEnvironment)

PFS:并行文件系統(tǒng)(ParallelFileSystem)

RAID:廉價(或獨立)磁盤冗余陣列(RedundantArrayofInexpensive(orIndependent)Drive)

SNMP:簡單網(wǎng)絡(luò)管理協(xié)議(SimpleNetworkmanagementProtocol)

SSH:安全外殼協(xié)議(Secureshelly)

4概述

4.1高性能計算系統(tǒng)

由高性能計算機上加載操作系統(tǒng)、并行編譯環(huán)境、并行文件系統(tǒng)、科學(xué)計算應(yīng)用構(gòu)成。圖1為高性

能計算系統(tǒng)示意圖。

圖1.高性能計算系統(tǒng)示意圖

4.2高性能計算系統(tǒng)管理監(jiān)控平臺功能模塊

高性能計算系統(tǒng)管理監(jiān)控平臺功能模塊包括資源管理、監(jiān)控管理、報警管理、系統(tǒng)管理、作業(yè)管理、

記賬系統(tǒng)、應(yīng)用管理幾個功能模塊。圖1為高性能

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論