版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1信息技術(shù)高性能計算系統(tǒng)管理監(jiān)控平臺技術(shù)要求本文件規(guī)定了高性能計算系統(tǒng)的管理監(jiān)控平臺的技術(shù)要求,包括管理監(jiān)控平臺對高性能計算系統(tǒng)管理的功能、性能要求。本文件適用于高性能計算系統(tǒng)管理監(jiān)控平臺的設計和開發(fā)。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對應的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。SJ/T11647信息技術(shù)盤陣列接口要求3術(shù)語和定義3.1術(shù)語和定義SJ/T11647界定的以及下列術(shù)語和定義適用于本文件。3.1.1高性能計算機highperformancecomputer由成百上千、上萬個處理器單元、加速處理器單元、存儲單元,通過高速網(wǎng)絡互聯(lián)并行工作,組成的具有超強計算能力的超級計算機。注:廣義上泛指解決大型復雜任務的計算工具。3.1.2高性能計算系統(tǒng)highperformancecomputingsystem3.1.3高性能計算系統(tǒng)管理監(jiān)控平臺managementandmonitoringplatformforthehighperformancecomputingsystem對組成高性能計算系統(tǒng)的硬件、系統(tǒng)環(huán)境、應用及作業(yè)的運行狀態(tài)進行監(jiān)控、報警、管理和調(diào)度的軟件。注:是高性能計算系統(tǒng)的運行維護軟件。3.2縮略語2下列縮略語適用于本文件。CPU:中央處理單元(器)(CentralprocessingUnit)HPC:高性能計算(HighPerformanceComputing)IO:輸入輸出系統(tǒng)(inputoutput)OS:操作系統(tǒng)(OperationSystem))PCE:并行編譯環(huán)境(ParallelCompilerEnvironment)PFS:并行文件系統(tǒng)(ParallelFileSystem)RAID:廉價(或獨立)磁盤冗余陣列(RedundantArrayofInexpensive(orIndependent)Drive)SSH:安全外殼協(xié)議(Secureshelly)SNMP:簡單網(wǎng)絡管理協(xié)議(SimpleNetworkmanagementProtocol)4概述4.1高性能計算系統(tǒng)由高性能計算機上加載操作系統(tǒng)、并行編譯環(huán)境、并行文件系統(tǒng)、科學計算應用構(gòu)成。圖1為高性能計算系統(tǒng)示意圖。圖1.高性能計算系統(tǒng)示意圖4.2高性能計算系統(tǒng)管理監(jiān)控平臺功能模塊(與圖2對應)高性能計算系統(tǒng)管理監(jiān)控平臺功能模塊包括資源管理、監(jiān)控管理、報警管理、系統(tǒng)管理、作業(yè)管理、記賬系統(tǒng)、應用管理幾個功能模塊。圖2為高性能計算系統(tǒng)管理監(jiān)控平臺功能模塊組成示意圖。3圖2.高性能計算系統(tǒng)管理監(jiān)控平臺功能模塊組成示意圖5功能要求5.1一般要求應滿足以下要求:a)應具有對異構(gòu)軟硬件資源進行統(tǒng)一監(jiān)控報警能力;b)應具有對HPC系統(tǒng)上進行串行、并行、批處理作業(yè)的作業(yè)管理調(diào)度能力;c)應具有對HPC系統(tǒng)進行系統(tǒng)部署、應用部署和系統(tǒng)管理的能力;d)應具有支持動態(tài)添加監(jiān)控項、支持在線功能升級;e)應具有動態(tài)擴展計算、存儲、網(wǎng)絡單元的能力;f)應提供標準的SNMP訪問和傳輸接口,以利于被其他運維系統(tǒng)的集成。5.2監(jiān)控5.2.1統(tǒng)一監(jiān)控對計算單元、存儲單元、網(wǎng)絡單元等所有部件統(tǒng)一呈現(xiàn),以機柜為單位呈現(xiàn)各部件的物理位置、名稱、識別ID、狀態(tài)以及呈現(xiàn)HPC系統(tǒng)的整體的計算、內(nèi)存、IO能力和使用狀態(tài)、拓撲結(jié)構(gòu)。對機柜和機柜內(nèi)的各個設備按照當前運行狀態(tài)實時地用相應顏色來表示。5.2.2硬件監(jiān)控應具備以下功能:a)對計算單元、存儲單元、網(wǎng)絡單元監(jiān)控如下靜態(tài)信息:設備名稱、IP地址、操作系統(tǒng)類型和版本號、CPU型號、主頻、緩存大小、內(nèi)存大小、內(nèi)存頻率、磁盤ID、類型、接口、轉(zhuǎn)速、RAID級別、空間大小、IO設備型號、設備名稱、廠商、端口數(shù)量、協(xié)議類型、帶寬等信息。(包括但不限于以上靜態(tài)信息,監(jiān)控項可以動態(tài)添加);b)對計算單元、存儲單元、網(wǎng)絡單元監(jiān)控如下動態(tài)信息:設備狀態(tài)、CPU利用率、物理內(nèi)存占用率、網(wǎng)絡流出字節(jié)/流入字節(jié)、數(shù)據(jù)包丟包率、磁盤IOPS、讀寫帶寬、CPU溫度、散熱風扇的轉(zhuǎn)速、電源供電等信息。(包括但不限于以上靜態(tài)信息,監(jiān)控項可以動態(tài)添加)。5.2.3應用監(jiān)控4HPC系統(tǒng)上運行應用的版本等靜態(tài)信息以及進程的狀態(tài)、啟動時間、運行時間、用戶數(shù)、連接數(shù)等狀態(tài)信息。5.2.4隊列和作業(yè)監(jiān)控應具備以下隊列和作業(yè)的監(jiān)控功能:a)監(jiān)控各隊列調(diào)度策略;b)監(jiān)控各隊列資源使用狀態(tài);c)監(jiān)控各隊列作業(yè)數(shù)量和運行狀態(tài)(等待、運行、完成、掛起);d)監(jiān)控作業(yè)的優(yōu)先級高低;e)監(jiān)控作業(yè)運行時狀態(tài)和運行結(jié)果。5.3報警應具備以下報警功能:a)實時告警:1)硬件:對機柜電源、計算單元、網(wǎng)絡單元、存儲單元的運行狀態(tài)的檢測告警;2)應用程序:對各種應用軟件的運行狀態(tài)進行檢測告警,同時包括操作系統(tǒng)的運行狀態(tài)告b)歷史告警:支持對歷史告警的查詢(按類別、時間、自定義方式)、統(tǒng)計功能,并可給出統(tǒng)計分布圖。c)告警設置:1)提供對告警的閾值的單詞、批量設定功能;2)可對告警級別進行設定和調(diào)整;3)支持單詞、批量地對告警信息進行取消和確認的操作;4)提供告警過濾功能,即根據(jù)條件呈現(xiàn)告警;5)提供告警處理建議的編輯功能,當再次發(fā)生同類告警,系統(tǒng)直接給出處理建議;6)支持用戶自定義告警設置。d)告警歸并:對系統(tǒng)關聯(lián)告警進行歸并處理,合成一類告警程序;e)提供短信、郵件以及屏幕閃爍、彈出提示窗口等告警形式。5.4調(diào)度具備以下調(diào)度功能:a)提供基于優(yōu)先級、先進先出、作業(yè)回填的作業(yè)調(diào)度策略,以及獨占資源的調(diào)度策略;b)提供作業(yè)投放、停止、刪除的操作,可刪除隊列中已投放的作業(yè),無論其是排隊中還是已運c)智能負載功能:根據(jù)節(jié)點運行狀態(tài)和作業(yè)排隊情況,動態(tài)調(diào)整系統(tǒng)計算資源可用處理器顆數(shù),降低電力消耗;d)一鍵式作業(yè)調(diào)度:提供復雜應用工作流,將作業(yè)的前中后處理各環(huán)節(jié)形成調(diào)度作業(yè)一鍵提交,直接生成可讀的圖片或數(shù)據(jù)。即將作業(yè)的算例生成、作業(yè)提交、作業(yè)調(diào)度、作業(yè)運行過程監(jiān)控、作業(yè)結(jié)果處理的前中后處理形成可一鍵提交的作業(yè)。5.5管理55.5.1系統(tǒng)部署應具備如下功能:a)操作系統(tǒng)自動鏡像恢復的功能,包括系統(tǒng)批量鏡像恢復功能;b)對計算單元操作系統(tǒng)的遠程單機、批量部署功能,包括對原有設備的恢復和新增設備的部署;c)對計算單元系統(tǒng)的單機、批量更新功能。5.5.2應用部署應具備如下功能:a)對計算節(jié)點應用軟件單機、批量上載、安裝的功能;b)對計算節(jié)點應用程序配置文件的單機、批量更新功能;c)對應用程序的自動重啟功能。5.5.3系統(tǒng)管理應具備如下功能:a)對計算單元單機、批量腳本的執(zhí)行功能;b)對計算節(jié)點的操作系統(tǒng)批量更改用戶名和口令的功能;c)能按照物理的機架拜訪位置布局,提供添加、修改和刪除機柜、計算單元、網(wǎng)絡單元、存儲單元的操作。5.5.4遠程管理應具備如下功能:a)對于計算單元設備,應提供遠程單機、批量開機、關機、重啟功能;b)提供遠程文件上傳下載和SSH登錄的功能;c)對存儲單元和網(wǎng)絡單元,提供遠程管理功能,以對其進行配置更改和故障維護。5.5.5應用模板應具備如下功能:a)提供HPC應用領域常用應用的應用模板,模板中有關于應用運行的建議參數(shù)及配置;b)支持用戶通過自定義方式定義模板。5.5.6報表管理具備以下數(shù)據(jù)統(tǒng)計功能:a)計算節(jié)點的CPU使用率月度趨勢報表;b)計算節(jié)點內(nèi)存利用率月度趨勢報表;c)磁盤空間使用量報表;d)應支持自定義報表,對監(jiān)控數(shù)據(jù)進行分類統(tǒng)計與報表生成。6性能要求管理監(jiān)控平臺應滿足如下性能要求:a)支持系統(tǒng)CPU處理器數(shù)量應達到千顆級以上,CPU核數(shù)應達萬級核心以上,實現(xiàn)用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國冰箱行業(yè)商業(yè)模式創(chuàng)新戰(zhàn)略制定與實施研究報告
- 2025-2030年中國美容培訓行業(yè)資本規(guī)劃與股權(quán)融資戰(zhàn)略制定與實施研究報告
- 建設施工過程職業(yè)病危害防治總結(jié)報告
- 肇慶市中小學教學質(zhì)量評估2012屆高中畢業(yè)班第二次模擬試題數(shù)學(理)
- 浙江中乾計量校準有限公司介紹企業(yè)發(fā)展分析報告
- 軟件評估報告范例怎么寫
- 一年級數(shù)學(上)計算題專項練習集錦
- 年產(chǎn)毛竹纖維粉生物基可降解材料項目可行性研究報告模板-立項備案
- 年產(chǎn)15萬噸(折百)稀硝酸及10萬噸濃硝酸項目可行性研究報告模板-立項備案
- 二零二五年度技術(shù)服務合同標的和技術(shù)要求
- 2024年八年級班主任德育工作個人總結(jié)
- 《健康社區(qū)評價標準》
- 戶外市場研究報告-魔鏡洞察-202412
- ISO 56001-2024《創(chuàng)新管理體系-要求》專業(yè)解讀與應用實踐指導材料之2:“1至3章:范圍、術(shù)語和定義”(雷澤佳編制-2025B0)
- 甘肅省會寧二中2025屆高考仿真模擬數(shù)學試卷含解析
- 節(jié)約集約建設用地標準 DG-TJ08-2422-2023
- 《氮化硅陶瓷》課件
- 樓面經(jīng)理述職報告
- 山東省濟南市歷城區(qū)2024-2025學年二年級上學期期末數(shù)學模擬檢測卷(含答案)
- 心衰病的中醫(yī)治療
- 肌力的評定與護理
評論
0/150
提交評論