高性能計(jì)算服務(wù)白皮書_第1頁
高性能計(jì)算服務(wù)白皮書_第2頁
高性能計(jì)算服務(wù)白皮書_第3頁
高性能計(jì)算服務(wù)白皮書_第4頁
高性能計(jì)算服務(wù)白皮書_第5頁
已閱讀5頁,還剩61頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

高性能計(jì)算云(HPCCloud)

服務(wù)白皮書

(2022年)

參與編寫單位

中國信息通信研究院、北京航空航天大學(xué)、國家超級計(jì)算濟(jì)南中

心、國際超級計(jì)算天津中心、中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、國家

超級計(jì)算昆山中心、合肥先進(jìn)計(jì)算中心、天翼云科技有限公司、中國

電信集團(tuán)有限公司、聯(lián)想(北京)信息技術(shù)有限公司、北京華恒盛世

科技有限公司、聯(lián)智科技(北京)有限公司、北京并行科技股份有限

公司、北京北龍超級云計(jì)算有限責(zé)任公司、廣州市品高軟件股份有限

公司、深圳北鯤云計(jì)算有限公司、上海即算科技有限公司、易超算(北

京)科技有限責(zé)任公司、中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司、江蘇奧工

信息技術(shù)有限公司、戴爾股份有限公司、邁普通信技術(shù)股份有限公司、

騰訊云計(jì)算(北京)有限責(zé)任公司、阿里云計(jì)算有限公司、河南師范

大學(xué)、天津?yàn)I海人工智能創(chuàng)新中心

主要撰稿人

宋平、穆琙博、宋堯、劉軼、馮景華、田楊、劉弢、畢立波、王

哲、柴瑤琳、黨小東、張?jiān)茣场㈨n維娜、牛鐵、張宏海、王斌、王浩、

高清爽、瞿隆、崔恩放、佘蕊、崔吉順、郝常杰、蘇斌、徐達(dá)、管清

波、付鴻雁、劉爽、喬楠、甄亞楠、郭宇、吳思洪、周婷婷、王真容、

凌巍才、張巖、崔煜喆、歐陽柳卿、季寶石、吳躍、張華洪、陳麗莎、

陳煜東、鄒弘宇、楊廣賀、朱松、柴旭清、田倬璟

前言

為同時(shí)滿足工業(yè)、能源、氣象、多媒體等眾多行業(yè)對極致算力

與彈性服務(wù)的雙重需求,以高性能計(jì)算為服務(wù)核心、以云計(jì)算為服

務(wù)創(chuàng)新技術(shù)手段的高性能計(jì)算云受到了業(yè)界廣泛關(guān)注。相比于傳統(tǒng)

高性能計(jì)算服務(wù),高性能計(jì)算云服務(wù)具備彈性算力供給、便捷資源

部署、統(tǒng)一融合平臺、靈活業(yè)務(wù)編排等豐富的能力,滿足行業(yè)應(yīng)用

差異化、定制化服務(wù)需求,賦能產(chǎn)業(yè)數(shù)字化、網(wǎng)絡(luò)化、智能化轉(zhuǎn)

型。

本白皮書以充分發(fā)揮高性能計(jì)算云的行業(yè)賦能作用為目標(biāo),從

高性能計(jì)算云服務(wù)發(fā)展現(xiàn)狀、參考架構(gòu)、關(guān)鍵能力和未來展望等方

面進(jìn)行全面的分析和探討,重點(diǎn)推進(jìn)高性能計(jì)算云服務(wù)能力升級演

進(jìn),為高性能計(jì)算云服務(wù)創(chuàng)新發(fā)展提供參考和借鑒。

圖目錄

圖1高性能計(jì)算云產(chǎn)業(yè)視圖..........................................................3

圖2基于高性能計(jì)算云的工業(yè)仿真平臺......................................6

圖3基于高性能計(jì)算云的生命科學(xué)行業(yè)解決方案......................7

圖4基于高性能計(jì)算云的石油勘探解決方案............................10

圖5基于高性能計(jì)算云的EDA芯片設(shè)計(jì)..................................12

圖6高性能計(jì)算云服務(wù)參考架構(gòu)................................................13

圖7高性能計(jì)算云服務(wù)十大關(guān)鍵能力........................................33

高性能計(jì)算云服務(wù)白皮書

一、高性能計(jì)算云發(fā)展現(xiàn)狀

(一)算力時(shí)代高性能計(jì)算云迎來發(fā)展黃金期

在數(shù)字化應(yīng)用需求驅(qū)動下,我國正統(tǒng)籌推進(jìn)算力基礎(chǔ)設(shè)施建設(shè),

助推產(chǎn)業(yè)轉(zhuǎn)型升級與科技創(chuàng)新。2021年,國家發(fā)改委等四部門聯(lián)合發(fā)

布《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》,布局

建設(shè)全國一體化算力網(wǎng)絡(luò)國家樞紐節(jié)點(diǎn),構(gòu)建國家一體化算力服務(wù)平

臺;同年,工信部發(fā)布《“十四五”信息通信行業(yè)發(fā)展規(guī)劃》,提出建

設(shè)形成包括超算算力在內(nèi)的多層次算力設(shè)施體系;2023年,中共中

央、國務(wù)院印發(fā)了《數(shù)字中國建設(shè)整體布局規(guī)劃》,系統(tǒng)優(yōu)化算力基

礎(chǔ)設(shè)施布局,促進(jìn)東西部算力高效互補(bǔ)和協(xié)同聯(lián)動。在國家政策的支

持下,2022年我國算力總規(guī)模達(dá)到180EFlops,居全球第二。

在超算算力方面,中國與美國仍處于領(lǐng)跑地位。根據(jù)2023年5

月最新發(fā)布的TOP500榜單顯示[1],中國共有134臺超級計(jì)算機(jī)上榜,

其中前10名中2臺,分別是太湖之光和天河二號;美國共有150臺

超級計(jì)算機(jī)上榜,其中前10名有5臺,分別是Frontier、Summit、

Sierra、Perlmutter和Selene。中美兩國上榜的超級計(jì)算機(jī)數(shù)量占榜單

總數(shù)的56.8%。超算算力對促進(jìn)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級,提高人民生活水

平,促進(jìn)重大科學(xué)發(fā)現(xiàn)等方面發(fā)揮著不可替代的作用,是研究和解決

各領(lǐng)域挑戰(zhàn)性問題的重要手段。

1

高性能計(jì)算云服務(wù)白皮書

超算服務(wù)能力將成為超算算力向生產(chǎn)力轉(zhuǎn)化的關(guān)鍵。數(shù)字化時(shí)代,

除了海洋、氣象、工業(yè)、地質(zhì)勘探等傳統(tǒng)超算應(yīng)用領(lǐng)域之外,越來越

多的企業(yè)業(yè)務(wù)場景存在超算算力需求,例如媒體渲染等[2]。超算服務(wù)

以超算算力資源為基礎(chǔ),向用戶和應(yīng)用提供算力供給、管理、調(diào)度、

交易等能力,滿足各類業(yè)務(wù)場景下的超算算力需求,發(fā)揮超算算力在

各場景的賦能作用。傳統(tǒng)的超算服務(wù)雖然在大規(guī)模算力支撐和性能等

方面具有優(yōu)勢,但其存在整體架構(gòu)復(fù)雜、穩(wěn)定性不足、HPC應(yīng)用部署

不夠靈活、使用門檻高、日常維護(hù)管理難等痛點(diǎn)問題,不利于超算技

術(shù)在中、小規(guī)模算力應(yīng)用場景下的推廣使用以及對行業(yè)應(yīng)用的賦能作

用。

為了解決傳統(tǒng)超算服務(wù)存在的痛點(diǎn)問題,高性能計(jì)算云受到了包

括傳統(tǒng)超算服務(wù)提供商、云服務(wù)商等在內(nèi)的產(chǎn)業(yè)各方的高度關(guān)注。高

性能計(jì)算云是一種結(jié)合云計(jì)算技術(shù)的高性能計(jì)算服務(wù)模式,其中高性

能計(jì)算是服務(wù)核心,云計(jì)算是服務(wù)模式創(chuàng)新的技術(shù)手段,多云互聯(lián)是

服務(wù)能力的擴(kuò)展支撐。在此基礎(chǔ)上,高性能計(jì)算云將與大數(shù)據(jù)、人工

智能等技術(shù)深度融合,面向行業(yè)應(yīng)用需求,提供一體化智算服務(wù)能力,

實(shí)現(xiàn)高性能計(jì)算云能力拓展。

高性能計(jì)算云將助力企業(yè)更加快速地開展數(shù)字產(chǎn)品開發(fā)、創(chuàng)新技

術(shù)驗(yàn)證、數(shù)據(jù)價(jià)值挖掘,具有巨大的市場潛力。2022年,Gartner將

高性能計(jì)算云納入到云計(jì)算成熟度曲線中,目前高性能計(jì)算云處于技

術(shù)萌芽期。根據(jù)HyperionResearch2022年高性能計(jì)算市場報(bào)告顯示,

2

高性能計(jì)算云服務(wù)白皮書

全球高性能計(jì)算市場增長最快的是高性能計(jì)算云市場,增長率超過

23%,2021年市場規(guī)模達(dá)62億美元。預(yù)計(jì)到2027年,高性能計(jì)算云

的收入有望超過110億美元。

(二)產(chǎn)業(yè)各方積極布局,云超算與超算云呈趨同方向發(fā)展

根據(jù)提供服務(wù)的主體與服務(wù)形態(tài),高性能計(jì)算云可以分為超算云、

云超算和多云互聯(lián)三類。其中,超算云以超算資源為底座,通過云計(jì)

算的服務(wù)模式為用戶提供高性能計(jì)算服務(wù);云超算以通用云資源作為

底座,為不同租戶提供高性能計(jì)算服務(wù);多云互聯(lián)在不同高性能計(jì)算

云之間,實(shí)現(xiàn)資源、數(shù)據(jù)、應(yīng)用、服務(wù)等不同維度的云間協(xié)同與統(tǒng)一

的多云管理。

圖1高性能計(jì)算云產(chǎn)業(yè)視圖

如圖1所示,超算云是超算服務(wù)云化發(fā)展過程中的一種產(chǎn)品形

態(tài)。超算云服務(wù)的提供主體包括國家級超算中心、超算服務(wù)提供商等。

與超算云不同,云服務(wù)提供商是云超算服務(wù)的主體,國內(nèi)外主流的云

3

高性能計(jì)算云服務(wù)白皮書

服務(wù)商均在公有云上為用戶提供超算服務(wù)。產(chǎn)業(yè)上游的芯片企業(yè)、設(shè)

備與方案商面向云化能力開展持續(xù)優(yōu)化適配,支撐高性能計(jì)算云建設(shè)

部署與技術(shù)創(chuàng)新。

伴隨高性能計(jì)算云產(chǎn)業(yè)發(fā)展,超算云與云超算在硬件設(shè)施、基礎(chǔ)

平臺、服務(wù)能力等多個(gè)方面逐漸趨同,這也為多云之間的全面互聯(lián)提

供良好能力基礎(chǔ)。網(wǎng)絡(luò)運(yùn)營商為多云互聯(lián)構(gòu)建高速互聯(lián)網(wǎng)絡(luò)基礎(chǔ)設(shè)施,

保障云間數(shù)據(jù)傳輸質(zhì)量。2023年4月,國家科技部啟動“國家超算互

聯(lián)網(wǎng)”部署工作,構(gòu)建一體化超算算力網(wǎng)絡(luò)和服務(wù)平臺。在國家政策

的支持下,多云互聯(lián)將成為高性能計(jì)算云產(chǎn)業(yè)發(fā)展的重要方向。

(三)高性能計(jì)算云服務(wù)滿足行業(yè)算力需求

《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》等相關(guān)政策推動企業(yè)高質(zhì)量上

云用云,進(jìn)一步提升企業(yè)生產(chǎn)運(yùn)營數(shù)據(jù)價(jià)值,創(chuàng)造顯著的經(jīng)濟(jì)效益。

企業(yè)上云用云加速,為高性能計(jì)算云帶來了豐富的行業(yè)算力需求。工

業(yè)、氣象、能源等傳統(tǒng)高性能計(jì)算應(yīng)用領(lǐng)域也開始通過云上方式部署

應(yīng)用,以進(jìn)一步縮短傳統(tǒng)方式的排隊(duì)時(shí)間,更加靈活地選擇運(yùn)行應(yīng)用

所需的各類硬件,提高成本效益。

1.工業(yè)仿真

工業(yè)仿真技術(shù)作為工業(yè)生產(chǎn)制造中必不可少的首要環(huán)節(jié),已經(jīng)被

世界上眾多企業(yè)廣泛應(yīng)用到工業(yè)各個(gè)領(lǐng)域中。隨著智能制造、工業(yè)4.0

和工業(yè)互聯(lián)網(wǎng)等新一輪工業(yè)革命的興起,以CAE、CFD為代表的數(shù)

4

高性能計(jì)算云服務(wù)白皮書

值仿真軟件已經(jīng)成為先進(jìn)制造業(yè)不可或缺的數(shù)字化研發(fā)工具。工業(yè)仿

真技術(shù)涉及結(jié)構(gòu)、流體、電磁等學(xué)科領(lǐng)域,同時(shí)也對硬件性能、架構(gòu)

能力、數(shù)據(jù)安全具有非常嚴(yán)苛的要求。當(dāng)前,工業(yè)仿真存在痛點(diǎn):

?高性能計(jì)算集群建設(shè)屬于重資產(chǎn),建設(shè)成本高、周期長,往

往無法滿足企業(yè)靈活的業(yè)務(wù)形態(tài),造成資源的浪費(fèi)或不足;

?維護(hù)工作繁重、壓力大,集群維護(hù)需要企業(yè)投入很多物力、

人力,導(dǎo)致企業(yè)無法全力聚焦企業(yè)自身的業(yè)務(wù);

?傳統(tǒng)自建集群方式下,企業(yè)需要自建機(jī)房,包括水費(fèi)、電費(fèi)、

系統(tǒng)維護(hù)費(fèi)等會占用較高的運(yùn)營成本;

?硬件設(shè)備更新迭代速度快,計(jì)算量快速膨脹,規(guī)劃趕不上變

化,新技術(shù)層出不窮,設(shè)備老化嚴(yán)重,硬件更新速度快,無

法快速適應(yīng)新的業(yè)務(wù)需求。

隨著工業(yè)云時(shí)代的興起,PC、工作站、集群機(jī)全面云化,高性能

計(jì)算云化發(fā)展是大勢所趨。仿真云端化可以通過海量資源共享,使企

業(yè)降低成本,提高資源利用率,其操作的便捷性更是降低了使用門檻;

企業(yè)內(nèi)部能夠更加便捷地連接協(xié)作,實(shí)現(xiàn)數(shù)據(jù)共享、數(shù)據(jù)同步和工作

協(xié)同;云端仿真軟件會在服務(wù)端積累大量的數(shù)據(jù),企業(yè)能夠?qū)崿F(xiàn)數(shù)據(jù)

沉淀、數(shù)據(jù)挖掘和數(shù)據(jù)分析。

5

高性能計(jì)算云服務(wù)白皮書

圖2基于高性能計(jì)算云的工業(yè)仿真平臺

圖2展示了基于高性能計(jì)算云的工業(yè)仿真平臺,該平臺集成了

工業(yè)制造企業(yè)所需的設(shè)計(jì)與仿真工具,并支持前后處理可視化、仿真

并行化、應(yīng)用交互化等功能。該平臺提供工程機(jī)械、汽車工業(yè)、海洋

船舶、能源化工、建筑土木等領(lǐng)域的CAE/CFD解決方案,提供從算

力支持、軟件部署安裝、可視化設(shè)置等全流程服務(wù),為用戶打造一體

化的CAE/CFD環(huán)境。系統(tǒng)可動態(tài)調(diào)度CAE/CFD軟件的許可證,最

大化利用軟件許可。

2.生命科學(xué)

生命科學(xué)行業(yè)發(fā)展至今,早已離不開高性能計(jì)算的輔助。從計(jì)算

機(jī)輔助藥物設(shè)計(jì)、疫苗研發(fā),到通過基因檢測提供精準(zhǔn)醫(yī)療服務(wù)、產(chǎn)

前篩查等,高性能計(jì)算在生命科學(xué)研究中扮演著十分重要的角色。隨

著云計(jì)算技術(shù)服務(wù)及實(shí)踐的日趨成熟,越來越多的行業(yè)通過上云實(shí)現(xiàn)

了整個(gè)產(chǎn)業(yè)的轉(zhuǎn)型升級,正處于黃金時(shí)期的生命科學(xué)行業(yè)也不例外。

然而,目前針對生命科學(xué)行業(yè)的解決方案大部分都為線下IDC超算

6

高性能計(jì)算云服務(wù)白皮書

集群方案,隨著基因組學(xué)、生物制藥技術(shù)的不斷演進(jìn)及計(jì)算機(jī)科學(xué)的

不斷發(fā)展,傳統(tǒng)計(jì)算機(jī)集群資源已無法滿足生命科學(xué)行業(yè)及技術(shù)演進(jìn)

的需求。使用云上HPC服務(wù)的需求,并基于業(yè)務(wù)的高峰和低谷動態(tài)

進(jìn)行計(jì)算資源的彈性擴(kuò)縮容,有效節(jié)省業(yè)務(wù)成本,尤其適用于快速發(fā)

展的生命科學(xué)企業(yè)。

生命科學(xué)應(yīng)用具備大內(nèi)存、高I/O的高性能計(jì)算云服務(wù)需求。如

基因測序中每個(gè)細(xì)胞的表達(dá)量數(shù)據(jù)高達(dá)數(shù)十萬條讀取,這種海量級的

數(shù)據(jù)分析需要大內(nèi)存容量?;蚪M織學(xué)研究產(chǎn)生的數(shù)據(jù)增長快速且需

永久保存,要求存儲系統(tǒng)具有海量容量及高擴(kuò)展性。另外,基因研究

應(yīng)用軟件種類眾多,部分計(jì)算任務(wù)對I/O吞吐要求很高。

圖3基于高性能計(jì)算云的生命科學(xué)行業(yè)解決方案

如圖3所示,基于基因測序、靶標(biāo)發(fā)現(xiàn)、虛擬篩選、分子動力學(xué)

模擬等應(yīng)用場景,為生命科學(xué)行業(yè)用戶提供一站式的生物信息學(xué)及計(jì)

算化學(xué)領(lǐng)域整體解決方案。基于該云平臺,某上市藥企并行調(diào)動200-

400Nvidiav100卡,將計(jì)算時(shí)間從數(shù)周計(jì)算降至2小時(shí)左右,計(jì)算效

7

高性能計(jì)算云服務(wù)白皮書

率提高數(shù)百倍。某生物醫(yī)藥科技公司直接通過瀏覽器使用云上高性能

計(jì)算服務(wù),API接入可在幾分鐘內(nèi)啟動1000臺共16000核心的計(jì)算

資源,10分鐘內(nèi)即可完成計(jì)算任務(wù),并在該計(jì)算平臺直接呈現(xiàn)結(jié)果。

3.氣象預(yù)報(bào)

氣象預(yù)報(bào)與居民日常生活息息相關(guān)。交通出行、農(nóng)業(yè)生產(chǎn)、地質(zhì)

災(zāi)害防范等等,無不有賴于對氣象的監(jiān)測與提前預(yù)判。精準(zhǔn)的預(yù)報(bào),

可以指導(dǎo)人們更好地生產(chǎn)和生活。現(xiàn)代氣象預(yù)報(bào)工作的原理:建立用

來描述天氣演變過程的方程組,輸入代表不同大氣狀態(tài)的數(shù)據(jù),在計(jì)

算機(jī)上求解,用來預(yù)測天氣。

氣象工作領(lǐng)域中的數(shù)據(jù)格外復(fù)雜,再加上氣象預(yù)報(bào)業(yè)務(wù)量激增、

高時(shí)效性要求等,一般的計(jì)算機(jī)難以有效勝任氣象領(lǐng)域的計(jì)算工作。

現(xiàn)階段我國在氣象數(shù)值預(yù)報(bào)中,更需要向著多模式耦合、辨別率更高、

集合預(yù)報(bào)的方向進(jìn)行不斷進(jìn)展,這也使氣象領(lǐng)域?qū)Ω咝阅苡?jì)算技術(shù)的

需求變得急切。高性能計(jì)算技術(shù)可利用超級計(jì)算機(jī)和并行處理的方式

快速完成耗時(shí)較長的任務(wù)或同時(shí)完成多個(gè)任務(wù),其在氣象領(lǐng)域中的應(yīng)

用極大地推動了氣象領(lǐng)域的信息化進(jìn)程。氣象預(yù)測為數(shù)據(jù)密集型,需

要更大計(jì)算能力,研究人員必須更加關(guān)注性能瓶頸,如內(nèi)存、I/O、互

連延遲和帶寬。天氣模擬需要成千上萬微處理器并行運(yùn)算,突破硬件

和軟件的可擴(kuò)展性限制。

某科技企業(yè)提供了基于高性能計(jì)算云的天氣和氣象建模平臺,具

有HPC工作負(fù)載協(xié)調(diào)、資源管理、用戶訪問、分析等功能,以確保

8

高性能計(jì)算云服務(wù)白皮書

天氣和氣象建模及仿真工作負(fù)載能夠盡可能地快速、高效運(yùn)行,讓

HPC資源得到充分利用。還提供了一種循環(huán)系統(tǒng)開源工作流引擎,

能夠處理許多復(fù)雜的工作流。它能根據(jù)具體調(diào)度和依賴關(guān)系自動執(zhí)行

任務(wù),尤其適用于天氣和氣候建模、數(shù)值氣象預(yù)報(bào)、物理仿真和數(shù)據(jù)

處理等領(lǐng)域,目前已被多個(gè)國家氣象部門廣泛使用。

4.能源勘探

隨著勘探技術(shù)不斷進(jìn)步及其業(yè)務(wù)規(guī)模的持續(xù)增長,能源勘探數(shù)據(jù)

處理正面臨著更為嚴(yán)苛和嚴(yán)謹(jǐn)?shù)囊?。能源勘探行業(yè)具有計(jì)算密集型

的特點(diǎn),HPC與大數(shù)據(jù)的應(yīng)用是實(shí)現(xiàn)高精度勘探開發(fā)技術(shù)的關(guān)鍵因

素。HPC云平臺解決方案能夠?yàn)槟茉纯碧叫袠I(yè)中采集、預(yù)處理和分析

地震數(shù)據(jù),油藏建模等提供緊密的計(jì)算能力,使勘探更便捷,更準(zhǔn)確。

因此,借助HPC云幫助能源勘探實(shí)現(xiàn)海量數(shù)據(jù)的高效存儲、訪問和

計(jì)算,可以降低勘探開發(fā)的經(jīng)濟(jì)風(fēng)險(xiǎn),為油氣產(chǎn)業(yè)保駕護(hù)航。

圖4展示了基于高性能計(jì)算云的石油勘探解決方案,該方案具

有安全合規(guī)、專屬隔離、獨(dú)占獨(dú)享等優(yōu)勢,幫助油氣企業(yè)有效提升運(yùn)

作效率,降低運(yùn)作成本,減輕業(yè)務(wù)維護(hù)壓力,實(shí)現(xiàn)業(yè)務(wù)安全合規(guī)上云。

該方案建立了統(tǒng)一的勘探開發(fā)數(shù)據(jù)服務(wù)平臺,實(shí)現(xiàn)數(shù)據(jù)的瀏覽、查詢、

下載、管理、分析、存儲和集中展示,以及與應(yīng)用系統(tǒng)的集成應(yīng)用,

滿足油田用戶對勘探開發(fā)數(shù)據(jù)的應(yīng)用需求;該方案建立了應(yīng)用系統(tǒng)集

中部署環(huán)境,支持協(xié)同工作,實(shí)現(xiàn)項(xiàng)目研究、生產(chǎn)管理過程中數(shù)據(jù)的

生命周期管理,為地震、測井、油藏工程等專業(yè)提供處理解釋、模擬

9

高性能計(jì)算云服務(wù)白皮書

計(jì)算和地質(zhì)綜合研究的專業(yè)軟件共享平臺;該方案建立了生產(chǎn)管理云

計(jì)算環(huán)境,需要實(shí)現(xiàn)油藏工程業(yè)務(wù)系統(tǒng)等應(yīng)用系統(tǒng)的集中部署、整合

和共享應(yīng)用,建立標(biāo)準(zhǔn)化、免維護(hù)的云應(yīng)用環(huán)境,提升應(yīng)用部署效率

和運(yùn)維效率。

圖4基于高性能計(jì)算云的石油勘探解決方案

5.芯片設(shè)計(jì)

半導(dǎo)體行業(yè)涵蓋設(shè)計(jì)、制造、封裝等一系列環(huán)節(jié),其中芯片設(shè)計(jì)

是一個(gè)高風(fēng)險(xiǎn)的業(yè)務(wù)。從手工完成集成電路設(shè)計(jì)、布線等工作,到使

用計(jì)算機(jī)輔助設(shè)計(jì)軟件來完成超大規(guī)模集成電路芯片的功能設(shè)計(jì)、綜

合、驗(yàn)證、物理設(shè)計(jì)等工作,電子設(shè)計(jì)自動化的發(fā)展已近60余載,

EDA的出現(xiàn)極大縮短了芯片設(shè)計(jì)周期及提高成功率。隨著芯片工藝

的躍升,處理的數(shù)據(jù)已高達(dá)PB級別,EDA需要的計(jì)算能力越來越

大。傳統(tǒng)的算力交付模式已無法跟上快速發(fā)展的芯片設(shè)計(jì)行業(yè)。緊張

的上市時(shí)間壓力與IT建設(shè)的長周期與高投入之間存在巨大矛盾:一

10

高性能計(jì)算云服務(wù)白皮書

方面產(chǎn)品流片時(shí)間節(jié)奏緊張,另一方面IT采購預(yù)算準(zhǔn)確度低,采購

周期長,無法匹配研發(fā)節(jié)奏。目前,芯片設(shè)計(jì)行業(yè)在IT方面普遍存

在以下四個(gè)方面的挑戰(zhàn):

?時(shí)間:EDA驗(yàn)證需要大量時(shí)間,資源不足會導(dǎo)致驗(yàn)證工作無

法收斂,且硬件設(shè)備采購周期長,部署建設(shè)需要耗費(fèi)大量時(shí)

間,拖累產(chǎn)品上市速度;

?成本:任務(wù)具有明顯的波峰特性,長期持有大量硬件成本較

高,測算項(xiàng)目成本及IT資源占用成本分析難度較大;

?安全:架構(gòu)設(shè)計(jì)主要用本地文檔保存,容易發(fā)生外泄,數(shù)據(jù)

交付復(fù)雜且體量巨大,授權(quán)審核環(huán)節(jié)眾多,管控存在漏洞;

?協(xié)同:多地域辦公工作協(xié)同,一方面IT部門難以快速提供

統(tǒng)一的研發(fā)桌面環(huán)境,另一方面數(shù)據(jù)安全也面臨新的挑戰(zhàn)。

EDA高性能計(jì)算云解決方案可以幫助芯片設(shè)計(jì)企業(yè)提升EDA

運(yùn)行效率,加速產(chǎn)品上市;減輕IT投資壓力,降低IT運(yùn)維難度。

芯片設(shè)計(jì)對高性能計(jì)算云存在數(shù)據(jù)安全、高性能計(jì)算資源、自動運(yùn)維

和彈性調(diào)度等需求。在數(shù)據(jù)安全方面,需要支持?jǐn)?shù)據(jù)落盤加密的方案,

支持安全操作審計(jì)、用戶自帶密鑰上云等;在計(jì)算資源方面,需支持

高主頻、大內(nèi)存服務(wù)器;在自動運(yùn)維方面,需要彈自動化部署和集群

管理能力節(jié)省客戶的運(yùn)維投入。

11

高性能計(jì)算云服務(wù)白皮書

圖5基于高性能計(jì)算云的EDA芯片設(shè)計(jì)

圖5展示了為EDA芯片設(shè)計(jì)企業(yè)提供的EDA工作流上云服務(wù)。

針對EDA項(xiàng)目短期突發(fā)效應(yīng)明顯,提供混合云解決方案,使用云上

資源解決短期突發(fā)算力需求;同時(shí)提供本地與云上一致性的訪問使用

方案,無需改變用戶使用習(xí)慣;方案使用與本地一致的3層安全架構(gòu),

保護(hù)企業(yè)的IP與工藝庫等資源的安全性。某芯片設(shè)計(jì)服務(wù)公司使該

方案,前端設(shè)計(jì)及后端設(shè)計(jì)的全流程EDA云上運(yùn)行、彈性按需的資

源分配、按項(xiàng)目獨(dú)立的EDA設(shè)計(jì)環(huán)境、安全,數(shù)據(jù)流向可授權(quán)與追

蹤。

12

高性能計(jì)算云服務(wù)白皮書

二、高性能計(jì)算云服務(wù)參考架構(gòu)

(一)高性能計(jì)算云服務(wù)參考架構(gòu)

圖6高性能計(jì)算云服務(wù)參考架構(gòu)

如圖6所示,本白皮書結(jié)合業(yè)界優(yōu)秀高性能計(jì)算云服務(wù)實(shí)踐,提

出了高性能計(jì)算云服務(wù)參考架構(gòu)。相比于傳統(tǒng)高性能計(jì)算服務(wù),高性

能計(jì)算云具備彈性算力供給、便捷資源部署、統(tǒng)一融合平臺、靈活業(yè)

務(wù)編排等豐富的服務(wù)能力,滿足行業(yè)應(yīng)用差異化、定制化服務(wù)需求。

資源供給服務(wù)層向用戶提供應(yīng)用運(yùn)行所需的計(jì)算、存儲、網(wǎng)絡(luò)等

虛擬和物理算力資源,并通過將云計(jì)算的虛擬化技術(shù)融合應(yīng)用到高性

13

高性能計(jì)算云服務(wù)白皮書

能計(jì)算的用戶應(yīng)用層面,基于虛擬機(jī)、容器等技術(shù)向用戶提供應(yīng)用運(yùn)

行所需的算力資源使用方式,同時(shí)對用戶的數(shù)據(jù)進(jìn)行應(yīng)用級別的隔離

和權(quán)限控制,使用戶能夠根據(jù)需求彈性的獲取和使用各類算力資源,

可支持用戶靈活、高效、低成本的使用高性能計(jì)算云服務(wù)。

平臺服務(wù)層是高性能計(jì)算云服務(wù)的核心,為用戶和開發(fā)者提供豐

富的功能和服務(wù),可簡化應(yīng)用程序的構(gòu)建、部署和管理過程。一方面,

平臺服務(wù)層向用戶提供集群、數(shù)據(jù)、作業(yè)、隊(duì)列等層級的管理能力,

助力用戶便捷管理高性能計(jì)算云資源與服務(wù);另一方面,平臺服務(wù)層

向開發(fā)者提供應(yīng)用所需的開發(fā)環(huán)境支持,對于促進(jìn)創(chuàng)新和提高效率具

有重要意義。

應(yīng)用服務(wù)層包括行業(yè)應(yīng)用服務(wù)和通用應(yīng)用服務(wù),提供了工業(yè)仿真、

生命科學(xué)、氣象預(yù)報(bào)、能源勘探、芯片設(shè)計(jì)等多種行業(yè)場景下的高性

能計(jì)算應(yīng)用服務(wù),同時(shí)也提供了人工智能、大數(shù)據(jù)領(lǐng)域的通用應(yīng)用服

務(wù)。

可視化服務(wù)為應(yīng)用管理、性能評估和監(jiān)控、數(shù)據(jù)分析、作業(yè)管理、

資源配置提供可視化的服務(wù)模式,可幫助用戶更加便捷、高效地使用

高性能計(jì)算云服務(wù),改善用戶體驗(yàn)并助力優(yōu)化決策。

安全服務(wù)是高性能計(jì)算云提供安全、可靠、穩(wěn)定服務(wù)的重要基礎(chǔ)。

高性能計(jì)算云提供涵蓋數(shù)據(jù)、應(yīng)用、平臺、設(shè)施等多層級的全面安全

防護(hù)能力。

統(tǒng)一服務(wù)門戶是用戶使用高性能計(jì)算云服務(wù)的統(tǒng)一入口,通過統(tǒng)

14

高性能計(jì)算云服務(wù)白皮書

一的平臺或界面集成多個(gè)高性能計(jì)算云服務(wù),并提供服務(wù)的訪問和管

理能力,使用戶能夠方便地獲取所需的高性能計(jì)算云服務(wù)。

(二)資源供給服務(wù)層

1.基礎(chǔ)資源

高性能計(jì)算云平臺可提供滿足不同計(jì)算需求的基礎(chǔ)資源供給服

務(wù),包括服務(wù)器硬件、存儲資源、網(wǎng)絡(luò)設(shè)備等。這些標(biāo)準(zhǔn)化的高性能

計(jì)算云基礎(chǔ)設(shè)施支持按需訪問資源,并幫助組織輕松的內(nèi)部部署和使

用IT基礎(chǔ)設(shè)施。

在異構(gòu)計(jì)算資源方面,CPU有很強(qiáng)的通用性,適合各種工作負(fù)

載,現(xiàn)代CPU提供單指令多數(shù)據(jù)流(SIMD),且擁有高速緩存,擁

有大量的分支跳轉(zhuǎn)和中斷的處理能力,這些都使得CPU的內(nèi)部結(jié)構(gòu)

異常復(fù)雜。而GPU則由大規(guī)模并行、更小、更專業(yè)的內(nèi)核構(gòu)成的處

理器,擁有數(shù)量眾多的計(jì)算單元和非常簡單的控制邏輯,使其可以比

CPU更高快速、更高效地運(yùn)行大規(guī)模并行任務(wù)。FPGA是可重新配置

的,其計(jì)算引擎由用戶定義,可以幫助用戶實(shí)現(xiàn)定制指令,定制豐富

的I/O模式,滿足高效的計(jì)算需求。NPU專門負(fù)責(zé)AI運(yùn)算和AI應(yīng)

用的實(shí)現(xiàn),幫助用戶獲得高效的模型訓(xùn)練和運(yùn)行效率。DPU可以專門

用于處理數(shù)據(jù)業(yè)務(wù),在數(shù)據(jù)處理卸載到DPU后可以實(shí)現(xiàn)用戶業(yè)務(wù)和

基礎(chǔ)設(shè)施操作的分離,減少數(shù)據(jù)處理對于CPU資源的消耗,提高吞

吐和降低長尾延遲,降低能耗達(dá)到節(jié)能環(huán)保的目的。另外,基于DPU

15

高性能計(jì)算云服務(wù)白皮書

衍生而來的IPU、CIPU等新型架構(gòu)使得DPU成為數(shù)據(jù)中心計(jì)算節(jié)點(diǎn)

新的通用基礎(chǔ)設(shè)施,在高性能計(jì)算這種高密度計(jì)算業(yè)務(wù)場景下,可讓

所有的計(jì)算資源都基于此通用基礎(chǔ)設(shè)施構(gòu)建,以便靈活調(diào)度和擴(kuò)展。

在存儲資源方面,塊存儲服務(wù)可以通過RAID和LVM等技術(shù)提

升存儲可靠性,并行寫入可以幫助提供較高的讀寫效率,SAN架構(gòu)組

網(wǎng)可以幫助提升傳輸效率和讀寫效率。穩(wěn)定可靠的文件存儲可以幫助

用戶高效實(shí)現(xiàn)文件共享,而且輕松實(shí)現(xiàn)多級備份。對象存儲服務(wù)在輕

松幫助用戶實(shí)現(xiàn)文件共享的同時(shí),提供高帶寬的傳輸速度和讀寫速度。

在網(wǎng)絡(luò)資源方面,傳統(tǒng)以太網(wǎng)絡(luò)可滿足大部分的帶寬需求,保證

良好的網(wǎng)絡(luò)協(xié)議兼容性,但對較高的帶寬需求支持不足。Infiniband是

一種專為RDMA設(shè)計(jì)的網(wǎng)絡(luò),從硬件級別保證可靠傳輸,技術(shù)先進(jìn),

但是成本高昂,可以滿足用戶超高帶寬需求的應(yīng)用場景,如HPC應(yīng)

用、高速存儲等。RoCE網(wǎng)絡(luò)是基于以太網(wǎng)的RDMA技術(shù),這使高

速、超低延時(shí)、極低CPU使用率的RDMA技術(shù)以較低成本部署在目

前使用最廣泛的以太網(wǎng)上。

2.虛擬資源服務(wù)

虛擬資源服務(wù)包括對計(jì)算、存儲、網(wǎng)絡(luò)等算力資源的虛擬化服務(wù),

以及虛擬資源的統(tǒng)一管理服務(wù)。虛擬機(jī)是算力資源虛擬化供給的一種

主要方式,可根據(jù)業(yè)務(wù)訴求,按需靈活規(guī)格各異的算力資源,尤其適

用于基因測序、動漫渲染等采用數(shù)據(jù)并行方式運(yùn)行的業(yè)務(wù)類型。

在計(jì)算資源虛擬化服務(wù)方面,傳統(tǒng)虛擬機(jī)技術(shù)使用虛擬機(jī)監(jiān)視器

16

高性能計(jì)算云服務(wù)白皮書

(Hypervisor)來創(chuàng)建和管理虛擬機(jī)實(shí)例。虛擬機(jī)監(jiān)視器負(fù)責(zé)分配和

調(diào)度物理服務(wù)器上的計(jì)算資源,以便多個(gè)虛擬機(jī)能夠共享物理資源并

在隔離的環(huán)境中運(yùn)行。

在存儲資源虛擬化服務(wù)方面,傳統(tǒng)虛擬機(jī)技術(shù)使用虛擬磁盤或虛

擬文件系統(tǒng)來模擬和管理虛擬機(jī)的存儲需求。虛擬機(jī)可以訪問虛擬磁

盤,而虛擬磁盤實(shí)際上是由物理磁盤或存儲陣列提供支持的。

隨著云計(jì)算和虛擬化技術(shù)的發(fā)展,以CPU為核心的數(shù)據(jù)中心基

礎(chǔ)設(shè)施架構(gòu)正演變?yōu)橐訢PU為核心的存網(wǎng)融合、算網(wǎng)融合的基礎(chǔ)設(shè)

施架構(gòu)。虛擬機(jī)服務(wù)器部署極大的依賴虛擬交換機(jī)(如OVS)的性能,

智能網(wǎng)卡的一個(gè)重要功能就是將原本運(yùn)行在主機(jī)Hypervisor上的

OVS數(shù)據(jù)面和控制面卸載到網(wǎng)卡上,一方面能提供高性能的網(wǎng)絡(luò)數(shù)

據(jù)轉(zhuǎn)發(fā),另一方面,使得主機(jī)Hypervisor與網(wǎng)絡(luò)完全解耦。

智能網(wǎng)卡技術(shù)上正從單一網(wǎng)絡(luò)功能卸載轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)、存儲、AI等

多功能加速。不同的智能網(wǎng)卡方案體現(xiàn)了以下發(fā)展趨勢:

?數(shù)據(jù)面和控制面完整卸載;

?不斷完善的虛擬化支持:SR-IOV、vertio、vdpa等技術(shù);

?以RDMA技術(shù)為基礎(chǔ)的分布式算力支持;

?可編程性;

?其它場景化的DSA引擎。

3.物理資源服務(wù)

物理資源服務(wù)主要包括各類算力資源的管理、對接、供給等方面

17

高性能計(jì)算云服務(wù)白皮書

的支持,服務(wù)主體為物理主機(jī)或大型計(jì)算集群。采用物理資源能夠更

加充分高效的利用服務(wù)器,不存在虛擬化的開銷,根據(jù)場景選擇合適

的服務(wù)器進(jìn)行部署、擴(kuò)容或更換。

高性能計(jì)算云中的物理算力資源可劃分為計(jì)算資源、大內(nèi)存資源、

GPU等加速資源、存儲資源、網(wǎng)絡(luò)資源等,通過資源管理實(shí)現(xiàn)算力資

源的最大化利用。算力資源的管理服務(wù)能夠?qū)崿F(xiàn)各類資源的創(chuàng)建、擴(kuò)

容;具備低延遲、高帶寬的計(jì)算網(wǎng)絡(luò);支持按需掛載和訪問并行文件

系統(tǒng)存儲服務(wù)。

物理算力資源供給服務(wù)可以通過Slurm、PBS、LSF等主流作業(yè)

調(diào)度系統(tǒng),實(shí)現(xiàn)物理資源的集中管理與調(diào)度。該服務(wù)根據(jù)用戶應(yīng)用訴

求,實(shí)現(xiàn)算力資源的調(diào)度與分配,支持CPU核心、GPU卡級調(diào)度能

力,具備算力資源的隊(duì)列劃分、調(diào)度策略等管理能力。

在未來,高性能計(jì)算云服務(wù)還應(yīng)支持算力資源對接,能夠?qū)⒁呀?jīng)

建設(shè)完成的超算資源、智算資源接入到高性能計(jì)算云中,實(shí)現(xiàn)算力資

源的互聯(lián)網(wǎng)訪問與算力調(diào)度。

(三)平臺服務(wù)層

1.集群管理服務(wù)

集群管理服務(wù)承擔(dān)著將整個(gè)高性能計(jì)算云服務(wù)系統(tǒng)中的資源進(jìn)

行統(tǒng)一納管的工作,涉及到集群節(jié)點(diǎn)操作系統(tǒng)安裝部署,計(jì)算、存儲、

網(wǎng)絡(luò)資源的管理以及硬件平臺的運(yùn)行狀態(tài)監(jiān)控,并向上提供服務(wù)支持。

18

高性能計(jì)算云服務(wù)白皮書

集群管理服務(wù)應(yīng)具備多種算力資源的用戶認(rèn)證與對接能力,實(shí)現(xiàn)

跨地域、跨互聯(lián)網(wǎng)的算力資源的聚合與納管,對接各種異構(gòu)算力資源、

存儲資源、網(wǎng)絡(luò)環(huán)境。該服務(wù)實(shí)現(xiàn)用戶認(rèn)證與統(tǒng)一接入,使用用戶通

過高性能計(jì)算云服務(wù)系統(tǒng)可以無障礙訪問各地集群,實(shí)現(xiàn)按需調(diào)度算

力。支持用戶及用戶組的增刪改查等功能,可設(shè)置用戶及用戶組的根

目錄,設(shè)置用戶訪問權(quán)限及用戶密碼密鑰的管理等。

集群管理服務(wù)還提供集群內(nèi)計(jì)算節(jié)點(diǎn)的資源配置能力。在計(jì)算資

源方面,從算力資源形式上可以分為物理核心算力和虛擬核心算力。

鑒于計(jì)算資源的多樣性,集群管理服務(wù)需要能夠?qū)⑦@些不同品牌、不

同類型、不同架構(gòu)、不同形式的算力整合管理起來。對于虛擬計(jì)算資

源,集群管理服務(wù)應(yīng)支持云主機(jī)的創(chuàng)建、配置調(diào)整、遷移、計(jì)算環(huán)境

搭建、銷毀等。在存儲資源方面,物理資源支持主流的并行文件系統(tǒng),

如Lustre、GPFS、BeeGFS等;虛擬資源,支持云硬盤、云存儲等。

集群管理服務(wù)面向各類存儲資源具備新建、讀取、刪除、修改文件等

接口,具備文件粒度的ACL控制、配額管理能力,實(shí)現(xiàn)存儲資源的

集中管理與分配。此外,在網(wǎng)絡(luò)資源方面,集群管理服務(wù)具備計(jì)算節(jié)

點(diǎn)間虛擬網(wǎng)絡(luò)的創(chuàng)建、調(diào)整等能力。

2.數(shù)據(jù)管理服務(wù)

高性能計(jì)算云服務(wù)架構(gòu)以用戶數(shù)據(jù)為中心,通過構(gòu)建一致性數(shù)據(jù)

存儲服務(wù),對用戶數(shù)據(jù)提供多維訪問、存儲、共享和遷移能力,通過

軟件定義存儲方式將聚合資源供給層的存儲資源透明化,提高數(shù)據(jù)的

19

高性能計(jì)算云服務(wù)白皮書

可靠性、易用性和靈活性,同時(shí)給各種算力應(yīng)用提供高效安全的數(shù)據(jù)

訪問接口。

在數(shù)據(jù)存儲方面,基于底層的存儲資源,通過存儲系統(tǒng)實(shí)現(xiàn)存儲

空間的聚合,構(gòu)建高性能的統(tǒng)一數(shù)據(jù)資源存儲庫,應(yīng)對高性能計(jì)算過

程中海量數(shù)據(jù)的頻繁讀取和寫入需求。通過對數(shù)據(jù)集中化的存儲管理,

極大提升運(yùn)維人員的工作效率;通過文件系統(tǒng)級、目錄級別等不同粒

度的數(shù)據(jù)隔離策略,保障多用戶環(huán)境下數(shù)據(jù)的隔離性、安全性;依靠

數(shù)據(jù)多副本或冗余校驗(yàn)碼、節(jié)點(diǎn)間冗余備份等方式保障數(shù)據(jù)存儲服務(wù)

的高可靠性。

在數(shù)據(jù)遷移方面,數(shù)據(jù)本身的價(jià)值在于有足夠好的流動性,數(shù)據(jù)

只有流動之后才會產(chǎn)生價(jià)值。云間互聯(lián)高速網(wǎng)絡(luò)和物理專線鏈路等基

礎(chǔ)設(shè)施為數(shù)據(jù)遷移提供了快速的條件,全量遷移和增量遷移方式提高

了數(shù)據(jù)遷移的靈活性,斷點(diǎn)續(xù)傳和遷移監(jiān)控讓數(shù)據(jù)遷移更高效、更安

全。

在數(shù)據(jù)共享方面,多樣的數(shù)據(jù)共享策略讓不同組織、不同部門之

間的協(xié)作更加方便,基于角色的數(shù)據(jù)共享管理和基于用戶的權(quán)限設(shè)置

可以在不損失安全性的前提下共享數(shù)據(jù),讓數(shù)據(jù)得到有效利用。

3.作業(yè)管理服務(wù)

高性能計(jì)算云實(shí)現(xiàn)高效計(jì)算的核心功能離不開特有的基礎(chǔ)軟件

——作業(yè)管理服務(wù)。作業(yè)管理服務(wù)通過作業(yè)模板、作業(yè)提交、作業(yè)調(diào)

度、作業(yè)監(jiān)控等能力,實(shí)現(xiàn)資源的合理利用,支撐應(yīng)用高效運(yùn)行。

20

高性能計(jì)算云服務(wù)白皮書

在作業(yè)模板方面,高性能計(jì)算云集成了大量行業(yè)應(yīng)用軟件并提供

標(biāo)準(zhǔn)的公共作業(yè)模板,客戶開箱即用,簡化軟件的安裝部署和使用過

程,避免應(yīng)用程序?qū)Νh(huán)境依賴和不同用戶應(yīng)用環(huán)境沖突等問題。

在作業(yè)提交方面,高性能計(jì)算云服務(wù)針對用戶的不同使用場景和

使用習(xí)慣,擁有多種作業(yè)提交方式,可實(shí)現(xiàn)計(jì)算任務(wù)的靈活提交和管

理。模板提交:適用于有一定基礎(chǔ)的行業(yè)應(yīng)用軟件用戶,對作業(yè)提交

參數(shù)、提交流程進(jìn)行圖形化界面引導(dǎo);命令行提交:通過web和客戶

端ssh方式登錄遠(yuǎn)程系統(tǒng),使用調(diào)度系統(tǒng)命令進(jìn)行作業(yè)提交;圖形界

面提交:提供遠(yuǎn)程GUI界面支持,以RFB、SSH、RDP等協(xié)議鏈接

遠(yuǎn)程計(jì)算資源上運(yùn)行的可視化應(yīng)用軟件,通過可視化軟件進(jìn)行并行任

務(wù)的提交;IDE工具提交:提供webIDE工具方式進(jìn)行作業(yè)腳本的在

線編寫,用戶可以在webIDE終端運(yùn)行作業(yè)調(diào)度系統(tǒng)命令來提交作業(yè)

和管理作業(yè)。

在作業(yè)調(diào)度方面,基于開源軟件Slurm,OpenPBS等調(diào)度系統(tǒng)進(jìn)

行作業(yè)管理,以避免用戶作業(yè)間相互干擾,提高運(yùn)行效率。系統(tǒng)調(diào)度

作業(yè)任務(wù)生成調(diào)度決策后,將任務(wù)分發(fā)到運(yùn)行計(jì)算節(jié)點(diǎn)上運(yùn)行,收集

任務(wù)運(yùn)行資源使用情況,在任務(wù)結(jié)束后獲取作業(yè)結(jié)果。

在作業(yè)監(jiān)控方面,提供多個(gè)維度的監(jiān)控(作業(yè)信息監(jiān)控和節(jié)點(diǎn)狀

態(tài)監(jiān)控),包含了作業(yè)狀態(tài)、日志流、文件、節(jié)點(diǎn)、列表、性能監(jiān)控。

以應(yīng)用的計(jì)算性能為核心,分析計(jì)算應(yīng)用程序運(yùn)行過程中對各項(xiàng)資源

的依賴程度,進(jìn)而發(fā)下應(yīng)用運(yùn)行特征,為性能優(yōu)化,瓶頸分析提供數(shù)

21

高性能計(jì)算云服務(wù)白皮書

據(jù)支撐。并在作業(yè)計(jì)算完成時(shí),通過郵件,短信等方式進(jìn)行通知。

4.隊(duì)列管理服務(wù)

高性能計(jì)算云服務(wù)中的隊(duì)列管理服務(wù)包括隊(duì)列監(jiān)控、隊(duì)列查詢、

隊(duì)列資源配置等。通過隊(duì)列的方式組織和控制任務(wù)的執(zhí)行順序,提供

任務(wù)排隊(duì)、資源分配和限制、錯(cuò)誤處理等功能,可以提高高性能計(jì)算

云中任務(wù)處理的效率和可靠性。

在隊(duì)列監(jiān)控方面,隊(duì)列管理服務(wù)將任務(wù)或請求按照先后順序排列

到隊(duì)列中。每個(gè)任務(wù)都有一個(gè)標(biāo)識符,可以根據(jù)優(yōu)先級、時(shí)間戳或其

他指標(biāo)進(jìn)行優(yōu)先級排序。隊(duì)列監(jiān)控可以控制并發(fā)執(zhí)行的任務(wù)數(shù)量,從

而限制同時(shí)執(zhí)行的任務(wù)數(shù)量,以避免資源過載或性能下降。隊(duì)列管理

服務(wù)將任務(wù)分配給可執(zhí)行任務(wù)的工作者或處理器,進(jìn)而將任務(wù)分發(fā)給

適當(dāng)?shù)奶幚韱卧?。此外,?duì)列監(jiān)控可實(shí)現(xiàn)隊(duì)列的全局監(jiān)控,從而處理

任務(wù)執(zhí)行中的錯(cuò)誤和異常情況。它可以捕獲錯(cuò)誤,并根據(jù)事先定義的

策略進(jìn)行處理,如重試任務(wù)、放棄任務(wù)或記錄錯(cuò)誤日志。

基于隊(duì)列查詢能力,用戶可以在作業(yè)提交前了解各隊(duì)列的資源配

置情況和作業(yè)排隊(duì)情況,從而合理選擇隊(duì)列進(jìn)行作業(yè)提交。此外,隊(duì)

列查詢能力還可以跟蹤隊(duì)列中任務(wù)的執(zhí)行情況、處理時(shí)間、隊(duì)列長度

等指標(biāo)。這些指標(biāo)可以用于性能優(yōu)化、資源規(guī)劃和問題排查。

隊(duì)列資源配置服務(wù)的重要性在于能夠合理分配和管理系統(tǒng)資源,

以滿足不同隊(duì)列和任務(wù)的需求。通過對隊(duì)列資源進(jìn)行有效配置,可以

確保任務(wù)的順序執(zhí)行、避免資源爭用和浪費(fèi),提高系統(tǒng)的穩(wěn)定性和性

22

高性能計(jì)算云服務(wù)白皮書

能。具體而言,隊(duì)列資源配置可配置處理器核心、內(nèi)存等計(jì)算資源,

并可以通過設(shè)置隊(duì)列的最大并發(fā)任務(wù)數(shù)、任務(wù)執(zhí)行時(shí)間限制、任務(wù)優(yōu)

先級策略等方式限制計(jì)算資源使用;隊(duì)列資源配置能力還包括為隊(duì)列

分配存儲資源,如磁盤空間、緩存空間等;隊(duì)列資源配置能力還涉及

到為隊(duì)列分配的網(wǎng)絡(luò)資源,如帶寬、連接數(shù)等。

5.應(yīng)用開發(fā)環(huán)境

高性能計(jì)算云服務(wù)中的應(yīng)用開發(fā)環(huán)境主要包括開發(fā)工具及接口、

算法庫、編程框架、性能分析工具等。

在開發(fā)工具方面,高性能計(jì)算云服務(wù)提供常用的IDE,如Vim、

Eclipse、VisualStudio等??偟膩碚f,高性能計(jì)算云服務(wù)中的應(yīng)用開

發(fā)環(huán)境提供了豐富的工具和資源,可以滿足不同用戶的需求。

高性能計(jì)算中根據(jù)數(shù)據(jù)的耦合度,又分為分布式計(jì)算和并行計(jì)算。

分布式計(jì)算一般是指將大型計(jì)算任務(wù)分成許多子任務(wù),并把這些子任

務(wù)分配給多個(gè)計(jì)算機(jī)進(jìn)行并行處理,最終把計(jì)算結(jié)果綜合起來得到最

終結(jié)果的過程。常見的分布式系統(tǒng)計(jì)算框架Hadoop中各任務(wù)互相獨(dú)

立,節(jié)點(diǎn)之間的結(jié)果幾乎不互相影響。而并行計(jì)算則是指使用多種計(jì)

算資源協(xié)同解決同一個(gè)問題的過程。雖然也是將一個(gè)大型計(jì)算任務(wù)拆

分成多個(gè)小型計(jì)算任務(wù),并在單個(gè)計(jì)算節(jié)點(diǎn)上的多個(gè)CPU核心和

GPU加速卡上同時(shí)進(jìn)行處理,但在整個(gè)計(jì)算過程中,節(jié)點(diǎn)間的結(jié)果互

相影響,需要通過高速網(wǎng)絡(luò)進(jìn)行通信,對應(yīng)用運(yùn)行的整體效率要求較

高。常見的并行計(jì)算編程方式包括MPI,OpenMP,OpenACC,SYCL

23

高性能計(jì)算云服務(wù)白皮書

等。

編程框架服務(wù)主要包括編程語言、編譯器、數(shù)據(jù)庫支持等。在編

程語言方面,高性能計(jì)算云服務(wù)提供多種語言的支持,例如C、C++、

Python、Fortran、Julia等。在編譯器方面,可以提供GNU編譯器、

Intel編譯器等。在數(shù)據(jù)庫方面,可提供常用的數(shù)據(jù)庫管理系統(tǒng),如

MySQL、MongoDB等。

由于高性能計(jì)算云服務(wù)涉及到大量的計(jì)算資源和應(yīng)用程序,因此

高性能計(jì)算云服務(wù)中通常會使用一些性能分析工具來幫助用戶監(jiān)控

和優(yōu)化應(yīng)用程序的性能。具體來說,高性能計(jì)算云服務(wù)中的性能分析

工具可以用來監(jiān)控應(yīng)用程序的內(nèi)存使用情況、網(wǎng)絡(luò)流量和帶寬占用情

況、各類計(jì)算資源使用率(如CPU、GPU、FPGA等)和I/O等各種

性能指標(biāo),并通過可視化的方式呈現(xiàn)給用戶。這些性能分析工具可以

幫助用戶了解應(yīng)用程序的性能狀況,并且可以提供實(shí)時(shí)的性能報(bào)告,

幫助用戶快速找到性能瓶頸并進(jìn)行優(yōu)化。具體的工具可能會因高性能

計(jì)算云服務(wù)的不同供應(yīng)商而有所差異。但是常見的性能監(jiān)測工具包括

Nagios、Zabbix、Ganglia等,性能調(diào)優(yōu)工具包括VTune、Perf、

gperftools等。

(四)應(yīng)用服務(wù)層

1.行業(yè)應(yīng)用服務(wù)

高性能計(jì)算云提供行業(yè)應(yīng)用服務(wù),面向工業(yè)仿真、材料計(jì)算、生

24

高性能計(jì)算云服務(wù)白皮書

命科學(xué)等特定領(lǐng)域和場景,提供定制化的應(yīng)用軟件和相關(guān)服務(wù)能力,

以幫助企業(yè)提高效率、降低成本、優(yōu)化業(yè)務(wù)流程并實(shí)現(xiàn)業(yè)務(wù)目標(biāo),最

終實(shí)現(xiàn)行業(yè)賦能,加速行業(yè)發(fā)展。

行業(yè)應(yīng)用服務(wù)通常包括:行業(yè)專業(yè)化軟件開發(fā),即根據(jù)特定行業(yè)

的需求,開發(fā)專門的應(yīng)用軟件;行業(yè)數(shù)據(jù)管理和分析,即為企業(yè)收集、

管理和分析行業(yè)相關(guān)的數(shù)據(jù),提供數(shù)據(jù)挖掘、數(shù)據(jù)分析和報(bào)告等服務(wù)

能力;業(yè)務(wù)流程優(yōu)化管理,即通過定制化的應(yīng)用軟件和服務(wù),優(yōu)化企

業(yè)的業(yè)務(wù)流程,提高生產(chǎn)效率、降低成本。

行業(yè)應(yīng)用服務(wù)典型實(shí)踐見本白皮書第一章第三節(jié)。

2.通用應(yīng)用服務(wù)

通用應(yīng)用服務(wù)可以幫助用戶快速構(gòu)建和部署各種計(jì)算和數(shù)據(jù)處

理任務(wù),以實(shí)現(xiàn)高效的數(shù)據(jù)分析和應(yīng)用開發(fā)。

深度學(xué)習(xí)框架服務(wù)提供了多種深度學(xué)習(xí)框架,如TensorFlow、

PyTorch、Caffe等,可以幫助用戶快速構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型。這

些框架通常支持分布式訓(xùn)練,可以利用高性能計(jì)算云的計(jì)算資源快速

訓(xùn)練大規(guī)模的深度學(xué)習(xí)模型。

模型推理服務(wù)可以將訓(xùn)練好的深度學(xué)習(xí)模型部署到高性能計(jì)算

云上進(jìn)行推理,以實(shí)現(xiàn)各種應(yīng)用場景,如圖像識別、自然語言處理等。

模型推理服務(wù)通常支持多種硬件加速技術(shù),如GPU、FPGA等,以提

高推理的速度和效率。

大數(shù)據(jù)分析服務(wù)提供了多種數(shù)據(jù)處理和分析工具,如Hadoop、

25

高性能計(jì)算云服務(wù)白皮書

Spark、Presto等,可以幫助用戶高效地處理和分析大規(guī)模數(shù)據(jù)。這些

工具通??梢耘c高性能計(jì)算云的計(jì)算和存儲資源相集成,以實(shí)現(xiàn)高效

的數(shù)據(jù)處理和分析。

數(shù)據(jù)庫服務(wù)可以提供多種數(shù)據(jù)庫管理系統(tǒng),如MySQL、

PostgreSQL等,以幫助用戶高效地管理和存儲數(shù)據(jù)。這些數(shù)據(jù)庫通常

支持高可用性和高可靠性的特性,以確保數(shù)據(jù)的安全和可靠性。

(五)可視化服務(wù)

1.應(yīng)用可視化

高性能計(jì)算云服務(wù)中的應(yīng)用可視化服務(wù)是將使用GUI界面的應(yīng)

用,以遠(yuǎn)程可視化窗口的方式提供給用戶,為用戶提供可視化的結(jié)果

展示,前后處理能力以及交互式可視化計(jì)算能力。這種方式應(yīng)用和數(shù)

據(jù)均在云端,用戶可以在計(jì)算完成后立刻對結(jié)果進(jìn)行分析,并能夠再

次提交新的計(jì)算任務(wù),避免了結(jié)果文件在本地和云端的傳輸,提高了

工作效率。

應(yīng)用可視化按操作系統(tǒng)平臺可分為Windows和Linux兩類,

Windows應(yīng)用可視化一般采用商用虛擬顯示VDI方案,常見的有

CitrixVDI和NICEDCV等,Linux應(yīng)用可視化可使用商用的Citrix

方案,也可使用開源的VNC等方案。VDI的方案主要優(yōu)勢在于資源

調(diào)度靈活,可實(shí)現(xiàn)虛擬機(jī)級別的高可用,缺點(diǎn)在于VDI的方案基于

虛擬化技術(shù),有一定性能損失,不適用于交互可視化高性能計(jì)算場景。

26

高性能計(jì)算云服務(wù)白皮書

高性能計(jì)算云服務(wù)所提供的應(yīng)用可視化的另一種典型場景稱為

交互可視化高性能計(jì)算,這類場景是高性能計(jì)算云服務(wù)的特色場景。

在這種場景中,多個(gè)高性能計(jì)算節(jié)點(diǎn)使用高速網(wǎng)絡(luò)互聯(lián),組成一個(gè)多

機(jī)并行的高性能工作站,其中一個(gè)節(jié)點(diǎn)上運(yùn)行GUI可視化應(yīng)用,其

余節(jié)點(diǎn)運(yùn)行并行計(jì)算任務(wù)。這種場景為用戶提供了運(yùn)行大規(guī)模交互式

高性能計(jì)算任務(wù)的能力,這類應(yīng)用主要以工業(yè)仿真領(lǐng)域的商用

CAD/CAE軟件為主,如Fluent,HFSS等。

近年來,人工智能與大數(shù)據(jù)領(lǐng)域還出現(xiàn)了一種新的應(yīng)用可視化方

式,這類應(yīng)用具備網(wǎng)頁界面,可以通過Web界面進(jìn)行訪問,如Jupyter

Notebook等。這類應(yīng)用通常需要以服務(wù)的方式運(yùn)行,需要高性能計(jì)算

云具備相應(yīng)的服務(wù)部署能力。

2.性能可視化

性能可視化通過對集群、計(jì)算任務(wù)實(shí)現(xiàn)關(guān)鍵性能指標(biāo)的采集,并

進(jìn)行實(shí)時(shí)的圖形化展示,用戶可基于多層次性能數(shù)據(jù)指標(biāo),直觀掌握

作業(yè)性能狀態(tài),快速發(fā)覺、診斷性能異常,避免浪費(fèi)計(jì)算資源。

在應(yīng)用性能優(yōu)化方面,性能可視化實(shí)現(xiàn)復(fù)雜異構(gòu)算力環(huán)境下系統(tǒng)

及應(yīng)用的多維度應(yīng)用運(yùn)行特征采集,在此基礎(chǔ)上構(gòu)建應(yīng)用運(yùn)行特征分

析庫,評測應(yīng)用實(shí)際運(yùn)行效能,并基于應(yīng)用特點(diǎn)進(jìn)行算力選型、應(yīng)用

性能優(yōu)化。性能可視化服務(wù)提供系統(tǒng)級、微架構(gòu)級、函數(shù)級、作業(yè)級、

進(jìn)程級等服務(wù)器節(jié)點(diǎn)性能指標(biāo),匯總并通過儀表盤秒級動態(tài)刷新顯示,

進(jìn)而滿足并行程序開發(fā)者性能優(yōu)化的需求。

27

高性能計(jì)算云服務(wù)白皮書

在集群管理和運(yùn)維方面,高性能計(jì)算云服務(wù)提供服務(wù)器節(jié)點(diǎn)性能

指標(biāo)、節(jié)點(diǎn)性能狀態(tài)、CPU整體利用率、CPU系統(tǒng)利用率等一系列

性能指標(biāo)的可視化工具和圖表。性能數(shù)據(jù)可視化服務(wù)支持性能異常自

動分析和自動告警,在短時(shí)間內(nèi)掌握和了解集群節(jié)點(diǎn)運(yùn)行狀態(tài)。相比

于傳統(tǒng)的集群管理與運(yùn)維方式,集群性能數(shù)據(jù)的可視化服務(wù)特點(diǎn)在于

大幅降低集群管理和運(yùn)維難度。

3.數(shù)據(jù)可視化

高性能計(jì)算云服務(wù)中,針對業(yè)務(wù)場景及面向?qū)ο蟮男枰?,將平臺

中的獲取的各類算力、應(yīng)用、用戶、運(yùn)維數(shù)據(jù)信息進(jìn)行匯總聚合、分

類分析,借助于適當(dāng)?shù)膱D形化展示手段,提供適合多場景多維度的數(shù)

字可視化展現(xiàn)。實(shí)現(xiàn)運(yùn)營調(diào)度可視化大屏展示,聚合算力、應(yīng)用、用

戶、運(yùn)維等整體運(yùn)營信息,為高性能計(jì)算云統(tǒng)一運(yùn)營調(diào)度提供數(shù)據(jù)支

撐和決策依據(jù)。

通過豐富的圖表和圖形設(shè)計(jì)展示各類數(shù)據(jù)信息:從算力維度展示

平臺整體算力資源規(guī)模,各類資源利用率、狀態(tài)分布,各分區(qū)資源規(guī)

模等;從任務(wù)調(diào)度維度展現(xiàn)整體云服務(wù)平臺中的作業(yè)任務(wù)總數(shù)、作業(yè)

任務(wù)運(yùn)行狀態(tài)統(tǒng)計(jì)分析、各分區(qū)的任務(wù)運(yùn)行情況統(tǒng)計(jì)等;從用戶維度

呈現(xiàn)平臺整體的用戶規(guī)模,用戶行業(yè)分類分布,以及用戶及分類維度

計(jì)算任務(wù)數(shù)量、機(jī)時(shí)規(guī)模等統(tǒng)計(jì)分析圖表;從應(yīng)用維度展現(xiàn)各類應(yīng)用

部署使用情況、執(zhí)行任務(wù)數(shù)量及機(jī)時(shí)規(guī)模統(tǒng)計(jì)數(shù)據(jù)。

面向不同的用戶業(yè)務(wù)場景,可以進(jìn)行數(shù)據(jù)可視化展示內(nèi)容的管理,

28

高性能計(jì)算云服務(wù)白皮書

提供不同視角的數(shù)據(jù)可視化展示界面,以滿足不同業(yè)務(wù)場景的需求。

使得平臺用戶可以通過用戶展示界面直觀了解算力資源的使用情況,

合理安排計(jì)算任務(wù);管理員可以通過管理員展示界面清晰掌握各項(xiàng)運(yùn)

維數(shù)據(jù)信息,提升集群的管理效率;可以通過可視化大屏展示形式為

云服務(wù)平臺提供對外展示、宣傳的呈現(xiàn)方式。

4.作業(yè)可視化

高性能計(jì)算云服務(wù)支持通過管理門戶可視化的方式對作業(yè)進(jìn)行

管理。管理員可通過可視化界面查看集群中用戶提交運(yùn)行的作業(yè)運(yùn)行

狀態(tài),用戶也可通過門戶查看自己提交的作業(yè)運(yùn)行情況,并可進(jìn)行作

業(yè)輸入輸出文件的可視化管理。

高性能計(jì)算云服務(wù)支持用戶通過門戶可視化的方式提交和控制

作業(yè)。系統(tǒng)可定制作業(yè)提交模板供用戶快速提交作業(yè),用戶根據(jù)作業(yè)

應(yīng)用類型選擇模板,并填寫作業(yè)資源需求、運(yùn)行特征和作業(yè)命令等參

數(shù),并提交作業(yè)到系統(tǒng)運(yùn)行。系統(tǒng)需要針對常用的HPC應(yīng)用定制作

業(yè)提交模板并進(jìn)行適配,并提供靈活的擴(kuò)展,根據(jù)需求增加對新應(yīng)用

的作業(yè)提交模板定制。用戶可通過門戶對自己提交的作業(yè)進(jìn)行控制操

作,如終止、暫停、恢復(fù)、重新運(yùn)行作業(yè)等。

高性能計(jì)算云服務(wù)應(yīng)支持對于可視化作業(yè)的實(shí)時(shí)運(yùn)行查看。系統(tǒng)

可通過VNC等機(jī)制獲取作業(yè)運(yùn)行可視化界面,供用戶通過可視化方

式遠(yuǎn)程查看作業(yè)的運(yùn)行情況,并可在作業(yè)實(shí)時(shí)運(yùn)行的可視化窗口中進(jìn)

行交互操作。

29

高性能計(jì)算云服務(wù)白皮書

5.資源可視化

高性能計(jì)算云服務(wù)中,資源可視化主要是將接入到高性能計(jì)算平

臺的跨中心跨集群的各類資源信息進(jìn)行智能采集檢測匯總后,以直觀

的可視化界面形式提供給管理員,便于管理員對資源進(jìn)行統(tǒng)一監(jiān)管。

資源可視化不僅實(shí)現(xiàn)基礎(chǔ)環(huán)境中的計(jì)算資源、存儲資源、網(wǎng)絡(luò)資

源等可視化展示,還包括云應(yīng)用資源、數(shù)據(jù)資源、遠(yuǎn)程可視化資源等

的可視化展示。

高性能計(jì)算云服務(wù)服務(wù)通過多種直觀的圖表形式展示各類資源

的整體信息、運(yùn)行狀態(tài)、利用率等,提供平臺整體資源的匯總展示;

提供可視化交互界面,對平臺中的隊(duì)列資源、存儲資源、遠(yuǎn)程可視化

資源、數(shù)據(jù)資源、應(yīng)用資源等進(jìn)行管理和分配。此外,結(jié)合平臺的整

體運(yùn)行監(jiān)控,資源可視化服務(wù)為平臺的管理和運(yùn)營提供全面的資源信

息,支持系統(tǒng)可用性與性能監(jiān)控、故障管理、業(yè)務(wù)影響分析。

(六)安全服務(wù)

1.數(shù)據(jù)安全

數(shù)據(jù)安全應(yīng)確保高性能計(jì)算云服務(wù)數(shù)據(jù)處于有效保護(hù)和合法利

用的狀態(tài),并且具備保障持續(xù)安全狀態(tài)的能力,從而建立一套基于高

性能計(jì)算云服務(wù)的可用、可管、可監(jiān)、可控的數(shù)據(jù)安全管理體系。

數(shù)據(jù)安全服務(wù)必須秉持以下原則:明確職責(zé)合規(guī)、質(zhì)量保障、數(shù)

據(jù)最小化、責(zé)任不轉(zhuǎn)移、最小授權(quán)、數(shù)據(jù)保護(hù)、可審計(jì)等?;跀?shù)據(jù)

30

高性能計(jì)算云服務(wù)白皮書

分類分級標(biāo)準(zhǔn)指導(dǎo)數(shù)據(jù)治理和安全建設(shè),明確數(shù)據(jù)分類分級的基本原

則、維度、方法、示例等,為數(shù)據(jù)安全分類、分級保護(hù)提供依據(jù),為

數(shù)據(jù)安全規(guī)范、數(shù)據(jù)安全評估等方面的標(biāo)準(zhǔn)制定提供支撐。

在數(shù)據(jù)全生命周期服務(wù)中,為了防止數(shù)據(jù)非法采集、數(shù)據(jù)源接入

仿冒、數(shù)據(jù)權(quán)屬分歧、數(shù)據(jù)非法竊聽、數(shù)據(jù)跨區(qū)傳輸、仿冒數(shù)據(jù)傳輸、

非授權(quán)訪問、敏感明文存儲、數(shù)據(jù)匯聚關(guān)聯(lián)攻擊、數(shù)據(jù)濫用、數(shù)據(jù)非

法外發(fā)等問題的發(fā)生,需要建立各種專業(yè)的數(shù)據(jù)安全服務(wù)能力,例如

數(shù)據(jù)脫敏、數(shù)據(jù)加解密、數(shù)據(jù)庫防泄漏、文件防泄漏、API安全監(jiān)控

等。數(shù)據(jù)全生命周期監(jiān)控管理服務(wù)的核心功能包括:數(shù)據(jù)控看板、數(shù)

據(jù)鏈路分析、數(shù)據(jù)熱度分析、數(shù)據(jù)任務(wù)監(jiān)控、數(shù)據(jù)安全審計(jì)、規(guī)則管

理、告警管理等。

2.應(yīng)用安全

高性能計(jì)算云服務(wù)的應(yīng)用安全服務(wù)是通過對APP進(jìn)行加固以及

確保APP發(fā)布渠道可信等,應(yīng)用安全可防止APP被篡改、被調(diào)試、

被反編譯,防止代碼外泄。此外,應(yīng)用系統(tǒng)接入必須經(jīng)過評估和安全

測試,確認(rèn)相關(guān)系統(tǒng)安全性后,方可進(jìn)行部署及接入工作。

3.平臺安全

高性能計(jì)算云服務(wù)平臺與其它設(shè)施通信前,應(yīng)通過安全接口實(shí)現(xiàn)

雙方的身份認(rèn)證及訪問控制,并且記錄訪問審計(jì)日志。高性能計(jì)算云

服務(wù)平臺應(yīng)對口令信息、隱私數(shù)據(jù)和重要業(yè)務(wù)數(shù)據(jù)等敏感信息的本地

31

高性能計(jì)算云服務(wù)白皮書

存儲進(jìn)行加密保護(hù),通過訪問權(quán)限控制、網(wǎng)絡(luò)安全隔離裝置、數(shù)據(jù)脫

敏等措施開展平臺安全防護(hù)。平臺安全服務(wù)可通過各公司定制化的標(biāo)

準(zhǔn)安全策略對高性能計(jì)算云服務(wù)平臺運(yùn)行環(huán)境進(jìn)行安全加固及策略

配置,并定期檢查運(yùn)行環(huán)境的安全漏洞。

4.設(shè)施安全

高性能計(jì)算云服務(wù)設(shè)施安全是確保云服務(wù)設(shè)施(如數(shù)據(jù)中心、服

務(wù)器機(jī)房等)不受任何物理或邏輯方面的威脅和損害的一項(xiàng)重要工作。

在物理安全服務(wù)方面,需要采取安裝監(jiān)控系統(tǒng)、門禁系統(tǒng)、防盜系統(tǒng)

等措施來保護(hù)云服務(wù)設(shè)施和其中的設(shè)備,以便監(jiān)控和控制人員進(jìn)出設(shè)

備區(qū)域。此外,還需要加強(qiáng)設(shè)備的防火、防水、防震等能力,確保設(shè)

備能夠在不利的物理環(huán)境下正常運(yùn)行。設(shè)施安全服務(wù)需對設(shè)備進(jìn)行定

期檢查和維護(hù),以確保其正常運(yùn)行。在網(wǎng)絡(luò)設(shè)施安全服務(wù)方面,需要

采取部署防火墻、入侵檢測系統(tǒng)等措施來保護(hù)云服務(wù)設(shè)施的網(wǎng)絡(luò)安全,

以便防范和檢測網(wǎng)絡(luò)攻擊。此外,還需要對設(shè)備進(jìn)行加密、身份認(rèn)證

等措施,以確保設(shè)備和數(shù)據(jù)的安全。

(七)統(tǒng)一服務(wù)門戶

高性能計(jì)算云服務(wù)的門戶作為面向服務(wù)的統(tǒng)一入口,提供統(tǒng)一的

用戶管理、設(shè)備管理、應(yīng)用管理、作業(yè)管理、統(tǒng)計(jì)管理、計(jì)費(fèi)管理和

云端接入等功能。使用戶可以通過客戶端、web、SSH命令行工具等

方式訪問門戶,可以更好地管理和使用云平臺。

32

高性能計(jì)算云服務(wù)白皮書

門戶具備CPU、GPU同構(gòu)和異構(gòu)超算集群擴(kuò)展能力,在用戶本

地資源不足時(shí),可以統(tǒng)一動態(tài)擴(kuò)展算力資源。此外,門戶還支持運(yùn)營

數(shù)據(jù)的收集和統(tǒng)計(jì)服務(wù),在采集和分析多種維度的運(yùn)營數(shù)據(jù)、集群統(tǒng)

計(jì)數(shù)據(jù)時(shí),為計(jì)算資源調(diào)配和管理提供數(shù)據(jù)支撐。在管理方面,服務(wù)

門戶提供用戶管理、應(yīng)用管理、權(quán)限管理、作業(yè)管理、系統(tǒng)管理、審

計(jì)日志等多種管理功能。在計(jì)量計(jì)費(fèi)技術(shù)方面,統(tǒng)一服務(wù)門戶構(gòu)建了

面向異構(gòu)多域資源的計(jì)量計(jì)費(fèi)模型,充分考慮算力的多樣性、差異性

及分布特點(diǎn),并提出了基于應(yīng)用實(shí)際運(yùn)行性能的算力交易機(jī)制,建立

底層核算邏輯,實(shí)現(xiàn)對資源式、任務(wù)式及需求場景式交易策略的支持。

三、高性能計(jì)算云服務(wù)關(guān)鍵能力

圖7高性能計(jì)算云服務(wù)十大關(guān)鍵能力

本章節(jié)基于第二章提出的高性能計(jì)算云服務(wù)參考架構(gòu),進(jìn)一步提

33

高性能計(jì)算云服務(wù)白皮書

煉高性能計(jì)算云服務(wù)的十大關(guān)鍵能力,如圖7所示。

(一)異構(gòu)計(jì)算資源供給

隨著業(yè)界對算力需求的不斷提升,越來越多的計(jì)算平臺開始引入

多種不同計(jì)算單元來加速計(jì)算。為滿足不同場景中的應(yīng)用需求、實(shí)現(xiàn)

計(jì)算效力最大化,向用戶提供異構(gòu)計(jì)算資源,并基于多種異構(gòu)算力協(xié)

同處理計(jì)算任務(wù),已成為高性能計(jì)算云服務(wù)中的關(guān)鍵能力。通過異構(gòu)

計(jì)算資源供給,高性能計(jì)算云服務(wù)可以提供更高的計(jì)算性能、更高的

能效和更好的適應(yīng)性,從而加速計(jì)算任務(wù)的執(zhí)行,提高系統(tǒng)性能,并

在節(jié)能和資源利用方面提供優(yōu)勢,對于科學(xué)計(jì)算、大數(shù)據(jù)分析、人工

智能等領(lǐng)域具有重要意義。

異構(gòu)計(jì)算資源供給應(yīng)具備的能力包括但不限于:

?應(yīng)提供不同的硬件架構(gòu)的計(jì)算資源,包括CPU、GPU、FPGA、

ASIC等;

?應(yīng)支持鯤鵬、寒武紀(jì)等國產(chǎn)芯片算力資源的供給和調(diào)度;

?應(yīng)具備異構(gòu)算力的統(tǒng)一標(biāo)識能力,支持可信算力、算力溯源、

算力度量[3];

?應(yīng)支持異構(gòu)算力的統(tǒng)一調(diào)度。

(二)多類型存儲系統(tǒng)支持

高性能計(jì)算云服務(wù)需要具有多種類型存儲系統(tǒng)的兼容能力,以滿

34

高性能計(jì)算云服務(wù)白皮書

足各類用戶數(shù)據(jù)的存儲與訪問需求。通過支持多類型存儲系統(tǒng),高性

能計(jì)算云服務(wù)可以提供數(shù)據(jù)管理的靈活性、性能優(yōu)化、成本優(yōu)化、可

擴(kuò)展性和容量管理的優(yōu)勢,這對于滿足不同應(yīng)用和業(yè)務(wù)需求,提高存

儲系統(tǒng)的效率和可靠性至關(guān)重要。

多類型存儲系統(tǒng)支持應(yīng)具備的能力包括但不限于:

?應(yīng)支持不同存儲類型,包括文件存儲、對象存儲、塊存儲等;

?應(yīng)兼容不同文件系統(tǒng),包括GPFS、Lustre、HPFS等高性能

并行文件系統(tǒng),以及HDFS、Ceph、GlusterFS等分布式文件

系統(tǒng);

?宜支持閃存存儲系統(tǒng),提供高速、低延遲和高可用性的存儲

能力,以支持對大規(guī)模數(shù)據(jù)的快速讀寫和訪問;

?應(yīng)具備多類型存儲系統(tǒng)的統(tǒng)一管理能力。

(三)低時(shí)延網(wǎng)絡(luò)傳輸

高性能計(jì)算云服務(wù)中,通信寬帶和時(shí)延對業(yè)務(wù)性能表現(xiàn)至關(guān)重要。

通過提供高速、低延遲和穩(wěn)定的網(wǎng)絡(luò)傳輸能力,高性能計(jì)算云服務(wù)可

為用戶的數(shù)據(jù)處理任務(wù)提供強(qiáng)有力的支持,滿足圖形處理、時(shí)效性計(jì)

算、人工智能推理等計(jì)算需求。

低時(shí)延網(wǎng)絡(luò)傳輸應(yīng)具備的能力包括但不限于:

?應(yīng)具備網(wǎng)絡(luò)拓?fù)鋬?yōu)化能力,提高網(wǎng)絡(luò)傳輸性能;

35

高性能計(jì)算云服務(wù)白皮書

?應(yīng)具備帶寬管理功能,支持?jǐn)?shù)據(jù)傳輸?shù)臅r(shí)延和穩(wěn)定性保障;

?應(yīng)支持RDMA技術(shù),提供高速和低延遲的網(wǎng)絡(luò)傳輸能力;

?宜支持智能無損網(wǎng)絡(luò)、確定性網(wǎng)絡(luò)、算力網(wǎng)絡(luò)等關(guān)鍵技術(shù),

包括流量控制、擁塞控制、流量調(diào)度、網(wǎng)算一體、iNOF、有

界抖動、有界時(shí)延

?應(yīng)支持TCP/IP協(xié)議優(yōu)化,提高網(wǎng)絡(luò)傳輸效率;

?宜提供穩(wěn)定、可靠、高速的算力中心間專用網(wǎng)絡(luò)。

(四)彈性資源調(diào)度

隨著用戶量的增長,計(jì)算需求不平衡造成部分集群作業(yè)排隊(duì)嚴(yán)重

的問題,已成為常見的性能影響因素。通過彈性資源調(diào)度,高性能計(jì)

算云服務(wù)可將過剩的計(jì)算作業(yè)自動分配到跨地域的集群中,實(shí)現(xiàn)計(jì)算

資源的靈活擴(kuò)展。這種按需提供計(jì)算資源的方式能夠加快整體計(jì)算效

率,減少作業(yè)排隊(duì)時(shí)間,提高計(jì)算速度。

彈性資源調(diào)度應(yīng)具備的能力包括但不限于:

?應(yīng)支持通過虛擬化技術(shù)實(shí)現(xiàn)計(jì)算、存儲、網(wǎng)絡(luò)的資源聚合;

?應(yīng)具備資源自動擴(kuò)容和縮容能力;

?應(yīng)支持彈性負(fù)載均衡,提高系統(tǒng)可用性和性能;

?應(yīng)支持彈性存儲、彈性計(jì)算容器、彈性網(wǎng)絡(luò)帶寬能力;

?應(yīng)支持按需動態(tài)調(diào)整資源配置。

36

高性能計(jì)算云服務(wù)白皮書

(五)規(guī)?;汗芾?/p>

集群是由多個(gè)計(jì)算節(jié)點(diǎn)(服務(wù)器、計(jì)算機(jī)或虛擬機(jī))組成的集合,

通過集群管理能力,可以有效利用集群的計(jì)算資源,提高集群的性能

和效率,并確保集群的穩(wěn)定運(yùn)行。高性能計(jì)算云服務(wù)中規(guī)?;汗?/p>

理能力可以幫助用戶高效地管理大規(guī)模的計(jì)算資源,以實(shí)現(xiàn)快速、高

效的計(jì)算和數(shù)據(jù)處理。

規(guī)?;汗芾響?yīng)具備的能力包括但不限于:

?應(yīng)提供統(tǒng)一的集群管理界面,支持對集群進(jìn)行統(tǒng)一配置和管

理,包括節(jié)點(diǎn)的資源管理、任務(wù)調(diào)度、網(wǎng)絡(luò)配置等;

?應(yīng)具備高效集群管理技術(shù),如自動化部署、自動化配置、自

動化維護(hù)等;

?應(yīng)支持實(shí)時(shí)節(jié)點(diǎn)監(jiān)控,包括節(jié)點(diǎn)的資源利用率、負(fù)載狀況、

故障檢測等;

?應(yīng)支持按需動態(tài)擴(kuò)展計(jì)算節(jié)點(diǎn);

?宜支持單集群規(guī)?;芾?00個(gè)以上的計(jì)算節(jié)點(diǎn)。

(六)高效作業(yè)調(diào)度

作業(yè)調(diào)度的核心在于,根據(jù)一定的策略和算法,將計(jì)算任務(wù)合理

地分配到計(jì)算資源上執(zhí)行的過程。作業(yè)調(diào)度的目標(biāo)是優(yōu)化資源利用、

提高計(jì)算性能,以滿足用戶需求并達(dá)到預(yù)定的服務(wù)質(zhì)量指標(biāo)。通過高

37

高性能計(jì)算云服務(wù)白皮書

效作業(yè)調(diào)度,高性能計(jì)算云服務(wù)可以優(yōu)化計(jì)算和資源管理,提高系統(tǒng)

的性能和效率,為用戶提供更好的服務(wù)和體驗(yàn)。

高效作業(yè)調(diào)度應(yīng)具備的能力包括但不限于:

?應(yīng)支持高效作業(yè)管理,應(yīng)具備作業(yè)提交、作業(yè)調(diào)度、作業(yè)監(jiān)

控等功能;

?應(yīng)具備高效的作業(yè)調(diào)度算法,支持根據(jù)不同的調(diào)度策略和優(yōu)

先級,合理調(diào)度作業(yè);

?應(yīng)具備按照作業(yè)計(jì)算性能需求,跨集群分配作業(yè)的能力;

?應(yīng)支持靈活配置多種調(diào)度策略,包括先到先服務(wù)、負(fù)載均衡

調(diào)度、公平共享調(diào)度、搶占調(diào)度、預(yù)留調(diào)度、數(shù)據(jù)感知調(diào)度

等;

?應(yīng)具備計(jì)算作業(yè)的計(jì)算資源限制和隔離能力;

?應(yīng)具備容錯(cuò)能力,支持故障作業(yè)重調(diào)度;

?應(yīng)支持支持傳統(tǒng)HPC作業(yè)和容器化作業(yè)的混合調(diào)度。

(七)靈活應(yīng)用部署

通過在集群環(huán)境中部署公共應(yīng)用程序等簡化應(yīng)用部署的方式,協(xié)

助用戶快速加載環(huán)境開始進(jìn)行計(jì)算,從而實(shí)現(xiàn)應(yīng)用的規(guī)模化和靈活部

署。通過靈活應(yīng)用部署能力,高性能計(jì)算云服務(wù)可以提高應(yīng)用程序的

可靠性、可擴(kuò)展性和可維護(hù)性,幫助用戶更好地適應(yīng)不同的計(jì)算需求

38

高性能計(jì)算云服務(wù)白皮書

和環(huán)境。

靈活應(yīng)用部署應(yīng)具備的能力包括但不限于:

?應(yīng)支持容器化部署能力;

?應(yīng)支持云端編排技術(shù),如Kubernetes等,以實(shí)現(xiàn)對應(yīng)用的容

器化管理、調(diào)度和協(xié)調(diào);

?應(yīng)提供自動化部署工具,如Ansible、Chef、Puppet等;

?應(yīng)支持根據(jù)應(yīng)用需求部署到不同類型的計(jì)算節(jié)點(diǎn),如CPU、

GPU、FPGA等。

(八)多層次安全防護(hù)

多層次安全防護(hù)是確保系統(tǒng)安全的關(guān)鍵能力。高性能計(jì)算云服務(wù)

應(yīng)提供全面的安全防護(hù)能力,覆蓋數(shù)據(jù)、應(yīng)用、平臺、設(shè)施等多個(gè)層

級,保護(hù)用戶數(shù)據(jù)和信息安全、防止網(wǎng)絡(luò)攻擊并維護(hù)業(yè)務(wù)連續(xù)性。

多層次安全防護(hù)應(yīng)具備的能力包括但不限于:

?應(yīng)具備數(shù)據(jù)安全防護(hù)能力

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論