![高性能計(jì)算服務(wù)白皮書_第1頁](http://file4.renrendoc.com/view4/M00/15/20/wKhkGGZRQ7eAdzKjAACvHLSDDPw333.jpg)
![高性能計(jì)算服務(wù)白皮書_第2頁](http://file4.renrendoc.com/view4/M00/15/20/wKhkGGZRQ7eAdzKjAACvHLSDDPw3332.jpg)
![高性能計(jì)算服務(wù)白皮書_第3頁](http://file4.renrendoc.com/view4/M00/15/20/wKhkGGZRQ7eAdzKjAACvHLSDDPw3333.jpg)
![高性能計(jì)算服務(wù)白皮書_第4頁](http://file4.renrendoc.com/view4/M00/15/20/wKhkGGZRQ7eAdzKjAACvHLSDDPw3334.jpg)
![高性能計(jì)算服務(wù)白皮書_第5頁](http://file4.renrendoc.com/view4/M00/15/20/wKhkGGZRQ7eAdzKjAACvHLSDDPw3335.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
高性能計(jì)算云(HPCCloud)
服務(wù)白皮書
(2022年)
參與編寫單位
中國信息通信研究院、北京航空航天大學(xué)、國家超級計(jì)算濟(jì)南中
心、國際超級計(jì)算天津中心、中國科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心、國家
超級計(jì)算昆山中心、合肥先進(jìn)計(jì)算中心、天翼云科技有限公司、中國
電信集團(tuán)有限公司、聯(lián)想(北京)信息技術(shù)有限公司、北京華恒盛世
科技有限公司、聯(lián)智科技(北京)有限公司、北京并行科技股份有限
公司、北京北龍超級云計(jì)算有限責(zé)任公司、廣州市品高軟件股份有限
公司、深圳北鯤云計(jì)算有限公司、上海即算科技有限公司、易超算(北
京)科技有限責(zé)任公司、中國聯(lián)合網(wǎng)絡(luò)通信集團(tuán)有限公司、江蘇奧工
信息技術(shù)有限公司、戴爾股份有限公司、邁普通信技術(shù)股份有限公司、
騰訊云計(jì)算(北京)有限責(zé)任公司、阿里云計(jì)算有限公司、河南師范
大學(xué)、天津?yàn)I海人工智能創(chuàng)新中心
主要撰稿人
宋平、穆琙博、宋堯、劉軼、馮景華、田楊、劉弢、畢立波、王
哲、柴瑤琳、黨小東、張?jiān)茣场㈨n維娜、牛鐵、張宏海、王斌、王浩、
高清爽、瞿隆、崔恩放、佘蕊、崔吉順、郝常杰、蘇斌、徐達(dá)、管清
波、付鴻雁、劉爽、喬楠、甄亞楠、郭宇、吳思洪、周婷婷、王真容、
凌巍才、張巖、崔煜喆、歐陽柳卿、季寶石、吳躍、張華洪、陳麗莎、
陳煜東、鄒弘宇、楊廣賀、朱松、柴旭清、田倬璟
前言
為同時(shí)滿足工業(yè)、能源、氣象、多媒體等眾多行業(yè)對極致算力
與彈性服務(wù)的雙重需求,以高性能計(jì)算為服務(wù)核心、以云計(jì)算為服
務(wù)創(chuàng)新技術(shù)手段的高性能計(jì)算云受到了業(yè)界廣泛關(guān)注。相比于傳統(tǒng)
高性能計(jì)算服務(wù),高性能計(jì)算云服務(wù)具備彈性算力供給、便捷資源
部署、統(tǒng)一融合平臺、靈活業(yè)務(wù)編排等豐富的能力,滿足行業(yè)應(yīng)用
差異化、定制化服務(wù)需求,賦能產(chǎn)業(yè)數(shù)字化、網(wǎng)絡(luò)化、智能化轉(zhuǎn)
型。
本白皮書以充分發(fā)揮高性能計(jì)算云的行業(yè)賦能作用為目標(biāo),從
高性能計(jì)算云服務(wù)發(fā)展現(xiàn)狀、參考架構(gòu)、關(guān)鍵能力和未來展望等方
面進(jìn)行全面的分析和探討,重點(diǎn)推進(jìn)高性能計(jì)算云服務(wù)能力升級演
進(jìn),為高性能計(jì)算云服務(wù)創(chuàng)新發(fā)展提供參考和借鑒。
圖目錄
圖1高性能計(jì)算云產(chǎn)業(yè)視圖..........................................................3
圖2基于高性能計(jì)算云的工業(yè)仿真平臺......................................6
圖3基于高性能計(jì)算云的生命科學(xué)行業(yè)解決方案......................7
圖4基于高性能計(jì)算云的石油勘探解決方案............................10
圖5基于高性能計(jì)算云的EDA芯片設(shè)計(jì)..................................12
圖6高性能計(jì)算云服務(wù)參考架構(gòu)................................................13
圖7高性能計(jì)算云服務(wù)十大關(guān)鍵能力........................................33
高性能計(jì)算云服務(wù)白皮書
一、高性能計(jì)算云發(fā)展現(xiàn)狀
(一)算力時(shí)代高性能計(jì)算云迎來發(fā)展黃金期
在數(shù)字化應(yīng)用需求驅(qū)動下,我國正統(tǒng)籌推進(jìn)算力基礎(chǔ)設(shè)施建設(shè),
助推產(chǎn)業(yè)轉(zhuǎn)型升級與科技創(chuàng)新。2021年,國家發(fā)改委等四部門聯(lián)合發(fā)
布《全國一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》,布局
建設(shè)全國一體化算力網(wǎng)絡(luò)國家樞紐節(jié)點(diǎn),構(gòu)建國家一體化算力服務(wù)平
臺;同年,工信部發(fā)布《“十四五”信息通信行業(yè)發(fā)展規(guī)劃》,提出建
設(shè)形成包括超算算力在內(nèi)的多層次算力設(shè)施體系;2023年,中共中
央、國務(wù)院印發(fā)了《數(shù)字中國建設(shè)整體布局規(guī)劃》,系統(tǒng)優(yōu)化算力基
礎(chǔ)設(shè)施布局,促進(jìn)東西部算力高效互補(bǔ)和協(xié)同聯(lián)動。在國家政策的支
持下,2022年我國算力總規(guī)模達(dá)到180EFlops,居全球第二。
在超算算力方面,中國與美國仍處于領(lǐng)跑地位。根據(jù)2023年5
月最新發(fā)布的TOP500榜單顯示[1],中國共有134臺超級計(jì)算機(jī)上榜,
其中前10名中2臺,分別是太湖之光和天河二號;美國共有150臺
超級計(jì)算機(jī)上榜,其中前10名有5臺,分別是Frontier、Summit、
Sierra、Perlmutter和Selene。中美兩國上榜的超級計(jì)算機(jī)數(shù)量占榜單
總數(shù)的56.8%。超算算力對促進(jìn)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級,提高人民生活水
平,促進(jìn)重大科學(xué)發(fā)現(xiàn)等方面發(fā)揮著不可替代的作用,是研究和解決
各領(lǐng)域挑戰(zhàn)性問題的重要手段。
1
高性能計(jì)算云服務(wù)白皮書
超算服務(wù)能力將成為超算算力向生產(chǎn)力轉(zhuǎn)化的關(guān)鍵。數(shù)字化時(shí)代,
除了海洋、氣象、工業(yè)、地質(zhì)勘探等傳統(tǒng)超算應(yīng)用領(lǐng)域之外,越來越
多的企業(yè)業(yè)務(wù)場景存在超算算力需求,例如媒體渲染等[2]。超算服務(wù)
以超算算力資源為基礎(chǔ),向用戶和應(yīng)用提供算力供給、管理、調(diào)度、
交易等能力,滿足各類業(yè)務(wù)場景下的超算算力需求,發(fā)揮超算算力在
各場景的賦能作用。傳統(tǒng)的超算服務(wù)雖然在大規(guī)模算力支撐和性能等
方面具有優(yōu)勢,但其存在整體架構(gòu)復(fù)雜、穩(wěn)定性不足、HPC應(yīng)用部署
不夠靈活、使用門檻高、日常維護(hù)管理難等痛點(diǎn)問題,不利于超算技
術(shù)在中、小規(guī)模算力應(yīng)用場景下的推廣使用以及對行業(yè)應(yīng)用的賦能作
用。
為了解決傳統(tǒng)超算服務(wù)存在的痛點(diǎn)問題,高性能計(jì)算云受到了包
括傳統(tǒng)超算服務(wù)提供商、云服務(wù)商等在內(nèi)的產(chǎn)業(yè)各方的高度關(guān)注。高
性能計(jì)算云是一種結(jié)合云計(jì)算技術(shù)的高性能計(jì)算服務(wù)模式,其中高性
能計(jì)算是服務(wù)核心,云計(jì)算是服務(wù)模式創(chuàng)新的技術(shù)手段,多云互聯(lián)是
服務(wù)能力的擴(kuò)展支撐。在此基礎(chǔ)上,高性能計(jì)算云將與大數(shù)據(jù)、人工
智能等技術(shù)深度融合,面向行業(yè)應(yīng)用需求,提供一體化智算服務(wù)能力,
實(shí)現(xiàn)高性能計(jì)算云能力拓展。
高性能計(jì)算云將助力企業(yè)更加快速地開展數(shù)字產(chǎn)品開發(fā)、創(chuàng)新技
術(shù)驗(yàn)證、數(shù)據(jù)價(jià)值挖掘,具有巨大的市場潛力。2022年,Gartner將
高性能計(jì)算云納入到云計(jì)算成熟度曲線中,目前高性能計(jì)算云處于技
術(shù)萌芽期。根據(jù)HyperionResearch2022年高性能計(jì)算市場報(bào)告顯示,
2
高性能計(jì)算云服務(wù)白皮書
全球高性能計(jì)算市場增長最快的是高性能計(jì)算云市場,增長率超過
23%,2021年市場規(guī)模達(dá)62億美元。預(yù)計(jì)到2027年,高性能計(jì)算云
的收入有望超過110億美元。
(二)產(chǎn)業(yè)各方積極布局,云超算與超算云呈趨同方向發(fā)展
根據(jù)提供服務(wù)的主體與服務(wù)形態(tài),高性能計(jì)算云可以分為超算云、
云超算和多云互聯(lián)三類。其中,超算云以超算資源為底座,通過云計(jì)
算的服務(wù)模式為用戶提供高性能計(jì)算服務(wù);云超算以通用云資源作為
底座,為不同租戶提供高性能計(jì)算服務(wù);多云互聯(lián)在不同高性能計(jì)算
云之間,實(shí)現(xiàn)資源、數(shù)據(jù)、應(yīng)用、服務(wù)等不同維度的云間協(xié)同與統(tǒng)一
的多云管理。
圖1高性能計(jì)算云產(chǎn)業(yè)視圖
如圖1所示,超算云是超算服務(wù)云化發(fā)展過程中的一種產(chǎn)品形
態(tài)。超算云服務(wù)的提供主體包括國家級超算中心、超算服務(wù)提供商等。
與超算云不同,云服務(wù)提供商是云超算服務(wù)的主體,國內(nèi)外主流的云
3
高性能計(jì)算云服務(wù)白皮書
服務(wù)商均在公有云上為用戶提供超算服務(wù)。產(chǎn)業(yè)上游的芯片企業(yè)、設(shè)
備與方案商面向云化能力開展持續(xù)優(yōu)化適配,支撐高性能計(jì)算云建設(shè)
部署與技術(shù)創(chuàng)新。
伴隨高性能計(jì)算云產(chǎn)業(yè)發(fā)展,超算云與云超算在硬件設(shè)施、基礎(chǔ)
平臺、服務(wù)能力等多個(gè)方面逐漸趨同,這也為多云之間的全面互聯(lián)提
供良好能力基礎(chǔ)。網(wǎng)絡(luò)運(yùn)營商為多云互聯(lián)構(gòu)建高速互聯(lián)網(wǎng)絡(luò)基礎(chǔ)設(shè)施,
保障云間數(shù)據(jù)傳輸質(zhì)量。2023年4月,國家科技部啟動“國家超算互
聯(lián)網(wǎng)”部署工作,構(gòu)建一體化超算算力網(wǎng)絡(luò)和服務(wù)平臺。在國家政策
的支持下,多云互聯(lián)將成為高性能計(jì)算云產(chǎn)業(yè)發(fā)展的重要方向。
(三)高性能計(jì)算云服務(wù)滿足行業(yè)算力需求
《“十四五”數(shù)字經(jīng)濟(jì)發(fā)展規(guī)劃》等相關(guān)政策推動企業(yè)高質(zhì)量上
云用云,進(jìn)一步提升企業(yè)生產(chǎn)運(yùn)營數(shù)據(jù)價(jià)值,創(chuàng)造顯著的經(jīng)濟(jì)效益。
企業(yè)上云用云加速,為高性能計(jì)算云帶來了豐富的行業(yè)算力需求。工
業(yè)、氣象、能源等傳統(tǒng)高性能計(jì)算應(yīng)用領(lǐng)域也開始通過云上方式部署
應(yīng)用,以進(jìn)一步縮短傳統(tǒng)方式的排隊(duì)時(shí)間,更加靈活地選擇運(yùn)行應(yīng)用
所需的各類硬件,提高成本效益。
1.工業(yè)仿真
工業(yè)仿真技術(shù)作為工業(yè)生產(chǎn)制造中必不可少的首要環(huán)節(jié),已經(jīng)被
世界上眾多企業(yè)廣泛應(yīng)用到工業(yè)各個(gè)領(lǐng)域中。隨著智能制造、工業(yè)4.0
和工業(yè)互聯(lián)網(wǎng)等新一輪工業(yè)革命的興起,以CAE、CFD為代表的數(shù)
4
高性能計(jì)算云服務(wù)白皮書
值仿真軟件已經(jīng)成為先進(jìn)制造業(yè)不可或缺的數(shù)字化研發(fā)工具。工業(yè)仿
真技術(shù)涉及結(jié)構(gòu)、流體、電磁等學(xué)科領(lǐng)域,同時(shí)也對硬件性能、架構(gòu)
能力、數(shù)據(jù)安全具有非常嚴(yán)苛的要求。當(dāng)前,工業(yè)仿真存在痛點(diǎn):
?高性能計(jì)算集群建設(shè)屬于重資產(chǎn),建設(shè)成本高、周期長,往
往無法滿足企業(yè)靈活的業(yè)務(wù)形態(tài),造成資源的浪費(fèi)或不足;
?維護(hù)工作繁重、壓力大,集群維護(hù)需要企業(yè)投入很多物力、
人力,導(dǎo)致企業(yè)無法全力聚焦企業(yè)自身的業(yè)務(wù);
?傳統(tǒng)自建集群方式下,企業(yè)需要自建機(jī)房,包括水費(fèi)、電費(fèi)、
系統(tǒng)維護(hù)費(fèi)等會占用較高的運(yùn)營成本;
?硬件設(shè)備更新迭代速度快,計(jì)算量快速膨脹,規(guī)劃趕不上變
化,新技術(shù)層出不窮,設(shè)備老化嚴(yán)重,硬件更新速度快,無
法快速適應(yīng)新的業(yè)務(wù)需求。
隨著工業(yè)云時(shí)代的興起,PC、工作站、集群機(jī)全面云化,高性能
計(jì)算云化發(fā)展是大勢所趨。仿真云端化可以通過海量資源共享,使企
業(yè)降低成本,提高資源利用率,其操作的便捷性更是降低了使用門檻;
企業(yè)內(nèi)部能夠更加便捷地連接協(xié)作,實(shí)現(xiàn)數(shù)據(jù)共享、數(shù)據(jù)同步和工作
協(xié)同;云端仿真軟件會在服務(wù)端積累大量的數(shù)據(jù),企業(yè)能夠?qū)崿F(xiàn)數(shù)據(jù)
沉淀、數(shù)據(jù)挖掘和數(shù)據(jù)分析。
5
高性能計(jì)算云服務(wù)白皮書
圖2基于高性能計(jì)算云的工業(yè)仿真平臺
圖2展示了基于高性能計(jì)算云的工業(yè)仿真平臺,該平臺集成了
工業(yè)制造企業(yè)所需的設(shè)計(jì)與仿真工具,并支持前后處理可視化、仿真
并行化、應(yīng)用交互化等功能。該平臺提供工程機(jī)械、汽車工業(yè)、海洋
船舶、能源化工、建筑土木等領(lǐng)域的CAE/CFD解決方案,提供從算
力支持、軟件部署安裝、可視化設(shè)置等全流程服務(wù),為用戶打造一體
化的CAE/CFD環(huán)境。系統(tǒng)可動態(tài)調(diào)度CAE/CFD軟件的許可證,最
大化利用軟件許可。
2.生命科學(xué)
生命科學(xué)行業(yè)發(fā)展至今,早已離不開高性能計(jì)算的輔助。從計(jì)算
機(jī)輔助藥物設(shè)計(jì)、疫苗研發(fā),到通過基因檢測提供精準(zhǔn)醫(yī)療服務(wù)、產(chǎn)
前篩查等,高性能計(jì)算在生命科學(xué)研究中扮演著十分重要的角色。隨
著云計(jì)算技術(shù)服務(wù)及實(shí)踐的日趨成熟,越來越多的行業(yè)通過上云實(shí)現(xiàn)
了整個(gè)產(chǎn)業(yè)的轉(zhuǎn)型升級,正處于黃金時(shí)期的生命科學(xué)行業(yè)也不例外。
然而,目前針對生命科學(xué)行業(yè)的解決方案大部分都為線下IDC超算
6
高性能計(jì)算云服務(wù)白皮書
集群方案,隨著基因組學(xué)、生物制藥技術(shù)的不斷演進(jìn)及計(jì)算機(jī)科學(xué)的
不斷發(fā)展,傳統(tǒng)計(jì)算機(jī)集群資源已無法滿足生命科學(xué)行業(yè)及技術(shù)演進(jìn)
的需求。使用云上HPC服務(wù)的需求,并基于業(yè)務(wù)的高峰和低谷動態(tài)
進(jìn)行計(jì)算資源的彈性擴(kuò)縮容,有效節(jié)省業(yè)務(wù)成本,尤其適用于快速發(fā)
展的生命科學(xué)企業(yè)。
生命科學(xué)應(yīng)用具備大內(nèi)存、高I/O的高性能計(jì)算云服務(wù)需求。如
基因測序中每個(gè)細(xì)胞的表達(dá)量數(shù)據(jù)高達(dá)數(shù)十萬條讀取,這種海量級的
數(shù)據(jù)分析需要大內(nèi)存容量?;蚪M織學(xué)研究產(chǎn)生的數(shù)據(jù)增長快速且需
永久保存,要求存儲系統(tǒng)具有海量容量及高擴(kuò)展性。另外,基因研究
應(yīng)用軟件種類眾多,部分計(jì)算任務(wù)對I/O吞吐要求很高。
圖3基于高性能計(jì)算云的生命科學(xué)行業(yè)解決方案
如圖3所示,基于基因測序、靶標(biāo)發(fā)現(xiàn)、虛擬篩選、分子動力學(xué)
模擬等應(yīng)用場景,為生命科學(xué)行業(yè)用戶提供一站式的生物信息學(xué)及計(jì)
算化學(xué)領(lǐng)域整體解決方案。基于該云平臺,某上市藥企并行調(diào)動200-
400Nvidiav100卡,將計(jì)算時(shí)間從數(shù)周計(jì)算降至2小時(shí)左右,計(jì)算效
7
高性能計(jì)算云服務(wù)白皮書
率提高數(shù)百倍。某生物醫(yī)藥科技公司直接通過瀏覽器使用云上高性能
計(jì)算服務(wù),API接入可在幾分鐘內(nèi)啟動1000臺共16000核心的計(jì)算
資源,10分鐘內(nèi)即可完成計(jì)算任務(wù),并在該計(jì)算平臺直接呈現(xiàn)結(jié)果。
3.氣象預(yù)報(bào)
氣象預(yù)報(bào)與居民日常生活息息相關(guān)。交通出行、農(nóng)業(yè)生產(chǎn)、地質(zhì)
災(zāi)害防范等等,無不有賴于對氣象的監(jiān)測與提前預(yù)判。精準(zhǔn)的預(yù)報(bào),
可以指導(dǎo)人們更好地生產(chǎn)和生活。現(xiàn)代氣象預(yù)報(bào)工作的原理:建立用
來描述天氣演變過程的方程組,輸入代表不同大氣狀態(tài)的數(shù)據(jù),在計(jì)
算機(jī)上求解,用來預(yù)測天氣。
氣象工作領(lǐng)域中的數(shù)據(jù)格外復(fù)雜,再加上氣象預(yù)報(bào)業(yè)務(wù)量激增、
高時(shí)效性要求等,一般的計(jì)算機(jī)難以有效勝任氣象領(lǐng)域的計(jì)算工作。
現(xiàn)階段我國在氣象數(shù)值預(yù)報(bào)中,更需要向著多模式耦合、辨別率更高、
集合預(yù)報(bào)的方向進(jìn)行不斷進(jìn)展,這也使氣象領(lǐng)域?qū)Ω咝阅苡?jì)算技術(shù)的
需求變得急切。高性能計(jì)算技術(shù)可利用超級計(jì)算機(jī)和并行處理的方式
快速完成耗時(shí)較長的任務(wù)或同時(shí)完成多個(gè)任務(wù),其在氣象領(lǐng)域中的應(yīng)
用極大地推動了氣象領(lǐng)域的信息化進(jìn)程。氣象預(yù)測為數(shù)據(jù)密集型,需
要更大計(jì)算能力,研究人員必須更加關(guān)注性能瓶頸,如內(nèi)存、I/O、互
連延遲和帶寬。天氣模擬需要成千上萬微處理器并行運(yùn)算,突破硬件
和軟件的可擴(kuò)展性限制。
某科技企業(yè)提供了基于高性能計(jì)算云的天氣和氣象建模平臺,具
有HPC工作負(fù)載協(xié)調(diào)、資源管理、用戶訪問、分析等功能,以確保
8
高性能計(jì)算云服務(wù)白皮書
天氣和氣象建模及仿真工作負(fù)載能夠盡可能地快速、高效運(yùn)行,讓
HPC資源得到充分利用。還提供了一種循環(huán)系統(tǒng)開源工作流引擎,
能夠處理許多復(fù)雜的工作流。它能根據(jù)具體調(diào)度和依賴關(guān)系自動執(zhí)行
任務(wù),尤其適用于天氣和氣候建模、數(shù)值氣象預(yù)報(bào)、物理仿真和數(shù)據(jù)
處理等領(lǐng)域,目前已被多個(gè)國家氣象部門廣泛使用。
4.能源勘探
隨著勘探技術(shù)不斷進(jìn)步及其業(yè)務(wù)規(guī)模的持續(xù)增長,能源勘探數(shù)據(jù)
處理正面臨著更為嚴(yán)苛和嚴(yán)謹(jǐn)?shù)囊?。能源勘探行業(yè)具有計(jì)算密集型
的特點(diǎn),HPC與大數(shù)據(jù)的應(yīng)用是實(shí)現(xiàn)高精度勘探開發(fā)技術(shù)的關(guān)鍵因
素。HPC云平臺解決方案能夠?yàn)槟茉纯碧叫袠I(yè)中采集、預(yù)處理和分析
地震數(shù)據(jù),油藏建模等提供緊密的計(jì)算能力,使勘探更便捷,更準(zhǔn)確。
因此,借助HPC云幫助能源勘探實(shí)現(xiàn)海量數(shù)據(jù)的高效存儲、訪問和
計(jì)算,可以降低勘探開發(fā)的經(jīng)濟(jì)風(fēng)險(xiǎn),為油氣產(chǎn)業(yè)保駕護(hù)航。
圖4展示了基于高性能計(jì)算云的石油勘探解決方案,該方案具
有安全合規(guī)、專屬隔離、獨(dú)占獨(dú)享等優(yōu)勢,幫助油氣企業(yè)有效提升運(yùn)
作效率,降低運(yùn)作成本,減輕業(yè)務(wù)維護(hù)壓力,實(shí)現(xiàn)業(yè)務(wù)安全合規(guī)上云。
該方案建立了統(tǒng)一的勘探開發(fā)數(shù)據(jù)服務(wù)平臺,實(shí)現(xiàn)數(shù)據(jù)的瀏覽、查詢、
下載、管理、分析、存儲和集中展示,以及與應(yīng)用系統(tǒng)的集成應(yīng)用,
滿足油田用戶對勘探開發(fā)數(shù)據(jù)的應(yīng)用需求;該方案建立了應(yīng)用系統(tǒng)集
中部署環(huán)境,支持協(xié)同工作,實(shí)現(xiàn)項(xiàng)目研究、生產(chǎn)管理過程中數(shù)據(jù)的
生命周期管理,為地震、測井、油藏工程等專業(yè)提供處理解釋、模擬
9
高性能計(jì)算云服務(wù)白皮書
計(jì)算和地質(zhì)綜合研究的專業(yè)軟件共享平臺;該方案建立了生產(chǎn)管理云
計(jì)算環(huán)境,需要實(shí)現(xiàn)油藏工程業(yè)務(wù)系統(tǒng)等應(yīng)用系統(tǒng)的集中部署、整合
和共享應(yīng)用,建立標(biāo)準(zhǔn)化、免維護(hù)的云應(yīng)用環(huán)境,提升應(yīng)用部署效率
和運(yùn)維效率。
圖4基于高性能計(jì)算云的石油勘探解決方案
5.芯片設(shè)計(jì)
半導(dǎo)體行業(yè)涵蓋設(shè)計(jì)、制造、封裝等一系列環(huán)節(jié),其中芯片設(shè)計(jì)
是一個(gè)高風(fēng)險(xiǎn)的業(yè)務(wù)。從手工完成集成電路設(shè)計(jì)、布線等工作,到使
用計(jì)算機(jī)輔助設(shè)計(jì)軟件來完成超大規(guī)模集成電路芯片的功能設(shè)計(jì)、綜
合、驗(yàn)證、物理設(shè)計(jì)等工作,電子設(shè)計(jì)自動化的發(fā)展已近60余載,
EDA的出現(xiàn)極大縮短了芯片設(shè)計(jì)周期及提高成功率。隨著芯片工藝
的躍升,處理的數(shù)據(jù)已高達(dá)PB級別,EDA需要的計(jì)算能力越來越
大。傳統(tǒng)的算力交付模式已無法跟上快速發(fā)展的芯片設(shè)計(jì)行業(yè)。緊張
的上市時(shí)間壓力與IT建設(shè)的長周期與高投入之間存在巨大矛盾:一
10
高性能計(jì)算云服務(wù)白皮書
方面產(chǎn)品流片時(shí)間節(jié)奏緊張,另一方面IT采購預(yù)算準(zhǔn)確度低,采購
周期長,無法匹配研發(fā)節(jié)奏。目前,芯片設(shè)計(jì)行業(yè)在IT方面普遍存
在以下四個(gè)方面的挑戰(zhàn):
?時(shí)間:EDA驗(yàn)證需要大量時(shí)間,資源不足會導(dǎo)致驗(yàn)證工作無
法收斂,且硬件設(shè)備采購周期長,部署建設(shè)需要耗費(fèi)大量時(shí)
間,拖累產(chǎn)品上市速度;
?成本:任務(wù)具有明顯的波峰特性,長期持有大量硬件成本較
高,測算項(xiàng)目成本及IT資源占用成本分析難度較大;
?安全:架構(gòu)設(shè)計(jì)主要用本地文檔保存,容易發(fā)生外泄,數(shù)據(jù)
交付復(fù)雜且體量巨大,授權(quán)審核環(huán)節(jié)眾多,管控存在漏洞;
?協(xié)同:多地域辦公工作協(xié)同,一方面IT部門難以快速提供
統(tǒng)一的研發(fā)桌面環(huán)境,另一方面數(shù)據(jù)安全也面臨新的挑戰(zhàn)。
EDA高性能計(jì)算云解決方案可以幫助芯片設(shè)計(jì)企業(yè)提升EDA
運(yùn)行效率,加速產(chǎn)品上市;減輕IT投資壓力,降低IT運(yùn)維難度。
芯片設(shè)計(jì)對高性能計(jì)算云存在數(shù)據(jù)安全、高性能計(jì)算資源、自動運(yùn)維
和彈性調(diào)度等需求。在數(shù)據(jù)安全方面,需要支持?jǐn)?shù)據(jù)落盤加密的方案,
支持安全操作審計(jì)、用戶自帶密鑰上云等;在計(jì)算資源方面,需支持
高主頻、大內(nèi)存服務(wù)器;在自動運(yùn)維方面,需要彈自動化部署和集群
管理能力節(jié)省客戶的運(yùn)維投入。
11
高性能計(jì)算云服務(wù)白皮書
圖5基于高性能計(jì)算云的EDA芯片設(shè)計(jì)
圖5展示了為EDA芯片設(shè)計(jì)企業(yè)提供的EDA工作流上云服務(wù)。
針對EDA項(xiàng)目短期突發(fā)效應(yīng)明顯,提供混合云解決方案,使用云上
資源解決短期突發(fā)算力需求;同時(shí)提供本地與云上一致性的訪問使用
方案,無需改變用戶使用習(xí)慣;方案使用與本地一致的3層安全架構(gòu),
保護(hù)企業(yè)的IP與工藝庫等資源的安全性。某芯片設(shè)計(jì)服務(wù)公司使該
方案,前端設(shè)計(jì)及后端設(shè)計(jì)的全流程EDA云上運(yùn)行、彈性按需的資
源分配、按項(xiàng)目獨(dú)立的EDA設(shè)計(jì)環(huán)境、安全,數(shù)據(jù)流向可授權(quán)與追
蹤。
12
高性能計(jì)算云服務(wù)白皮書
二、高性能計(jì)算云服務(wù)參考架構(gòu)
(一)高性能計(jì)算云服務(wù)參考架構(gòu)
圖6高性能計(jì)算云服務(wù)參考架構(gòu)
如圖6所示,本白皮書結(jié)合業(yè)界優(yōu)秀高性能計(jì)算云服務(wù)實(shí)踐,提
出了高性能計(jì)算云服務(wù)參考架構(gòu)。相比于傳統(tǒng)高性能計(jì)算服務(wù),高性
能計(jì)算云具備彈性算力供給、便捷資源部署、統(tǒng)一融合平臺、靈活業(yè)
務(wù)編排等豐富的服務(wù)能力,滿足行業(yè)應(yīng)用差異化、定制化服務(wù)需求。
資源供給服務(wù)層向用戶提供應(yīng)用運(yùn)行所需的計(jì)算、存儲、網(wǎng)絡(luò)等
虛擬和物理算力資源,并通過將云計(jì)算的虛擬化技術(shù)融合應(yīng)用到高性
13
高性能計(jì)算云服務(wù)白皮書
能計(jì)算的用戶應(yīng)用層面,基于虛擬機(jī)、容器等技術(shù)向用戶提供應(yīng)用運(yùn)
行所需的算力資源使用方式,同時(shí)對用戶的數(shù)據(jù)進(jìn)行應(yīng)用級別的隔離
和權(quán)限控制,使用戶能夠根據(jù)需求彈性的獲取和使用各類算力資源,
可支持用戶靈活、高效、低成本的使用高性能計(jì)算云服務(wù)。
平臺服務(wù)層是高性能計(jì)算云服務(wù)的核心,為用戶和開發(fā)者提供豐
富的功能和服務(wù),可簡化應(yīng)用程序的構(gòu)建、部署和管理過程。一方面,
平臺服務(wù)層向用戶提供集群、數(shù)據(jù)、作業(yè)、隊(duì)列等層級的管理能力,
助力用戶便捷管理高性能計(jì)算云資源與服務(wù);另一方面,平臺服務(wù)層
向開發(fā)者提供應(yīng)用所需的開發(fā)環(huán)境支持,對于促進(jìn)創(chuàng)新和提高效率具
有重要意義。
應(yīng)用服務(wù)層包括行業(yè)應(yīng)用服務(wù)和通用應(yīng)用服務(wù),提供了工業(yè)仿真、
生命科學(xué)、氣象預(yù)報(bào)、能源勘探、芯片設(shè)計(jì)等多種行業(yè)場景下的高性
能計(jì)算應(yīng)用服務(wù),同時(shí)也提供了人工智能、大數(shù)據(jù)領(lǐng)域的通用應(yīng)用服
務(wù)。
可視化服務(wù)為應(yīng)用管理、性能評估和監(jiān)控、數(shù)據(jù)分析、作業(yè)管理、
資源配置提供可視化的服務(wù)模式,可幫助用戶更加便捷、高效地使用
高性能計(jì)算云服務(wù),改善用戶體驗(yàn)并助力優(yōu)化決策。
安全服務(wù)是高性能計(jì)算云提供安全、可靠、穩(wěn)定服務(wù)的重要基礎(chǔ)。
高性能計(jì)算云提供涵蓋數(shù)據(jù)、應(yīng)用、平臺、設(shè)施等多層級的全面安全
防護(hù)能力。
統(tǒng)一服務(wù)門戶是用戶使用高性能計(jì)算云服務(wù)的統(tǒng)一入口,通過統(tǒng)
14
高性能計(jì)算云服務(wù)白皮書
一的平臺或界面集成多個(gè)高性能計(jì)算云服務(wù),并提供服務(wù)的訪問和管
理能力,使用戶能夠方便地獲取所需的高性能計(jì)算云服務(wù)。
(二)資源供給服務(wù)層
1.基礎(chǔ)資源
高性能計(jì)算云平臺可提供滿足不同計(jì)算需求的基礎(chǔ)資源供給服
務(wù),包括服務(wù)器硬件、存儲資源、網(wǎng)絡(luò)設(shè)備等。這些標(biāo)準(zhǔn)化的高性能
計(jì)算云基礎(chǔ)設(shè)施支持按需訪問資源,并幫助組織輕松的內(nèi)部部署和使
用IT基礎(chǔ)設(shè)施。
在異構(gòu)計(jì)算資源方面,CPU有很強(qiáng)的通用性,適合各種工作負(fù)
載,現(xiàn)代CPU提供單指令多數(shù)據(jù)流(SIMD),且擁有高速緩存,擁
有大量的分支跳轉(zhuǎn)和中斷的處理能力,這些都使得CPU的內(nèi)部結(jié)構(gòu)
異常復(fù)雜。而GPU則由大規(guī)模并行、更小、更專業(yè)的內(nèi)核構(gòu)成的處
理器,擁有數(shù)量眾多的計(jì)算單元和非常簡單的控制邏輯,使其可以比
CPU更高快速、更高效地運(yùn)行大規(guī)模并行任務(wù)。FPGA是可重新配置
的,其計(jì)算引擎由用戶定義,可以幫助用戶實(shí)現(xiàn)定制指令,定制豐富
的I/O模式,滿足高效的計(jì)算需求。NPU專門負(fù)責(zé)AI運(yùn)算和AI應(yīng)
用的實(shí)現(xiàn),幫助用戶獲得高效的模型訓(xùn)練和運(yùn)行效率。DPU可以專門
用于處理數(shù)據(jù)業(yè)務(wù),在數(shù)據(jù)處理卸載到DPU后可以實(shí)現(xiàn)用戶業(yè)務(wù)和
基礎(chǔ)設(shè)施操作的分離,減少數(shù)據(jù)處理對于CPU資源的消耗,提高吞
吐和降低長尾延遲,降低能耗達(dá)到節(jié)能環(huán)保的目的。另外,基于DPU
15
高性能計(jì)算云服務(wù)白皮書
衍生而來的IPU、CIPU等新型架構(gòu)使得DPU成為數(shù)據(jù)中心計(jì)算節(jié)點(diǎn)
新的通用基礎(chǔ)設(shè)施,在高性能計(jì)算這種高密度計(jì)算業(yè)務(wù)場景下,可讓
所有的計(jì)算資源都基于此通用基礎(chǔ)設(shè)施構(gòu)建,以便靈活調(diào)度和擴(kuò)展。
在存儲資源方面,塊存儲服務(wù)可以通過RAID和LVM等技術(shù)提
升存儲可靠性,并行寫入可以幫助提供較高的讀寫效率,SAN架構(gòu)組
網(wǎng)可以幫助提升傳輸效率和讀寫效率。穩(wěn)定可靠的文件存儲可以幫助
用戶高效實(shí)現(xiàn)文件共享,而且輕松實(shí)現(xiàn)多級備份。對象存儲服務(wù)在輕
松幫助用戶實(shí)現(xiàn)文件共享的同時(shí),提供高帶寬的傳輸速度和讀寫速度。
在網(wǎng)絡(luò)資源方面,傳統(tǒng)以太網(wǎng)絡(luò)可滿足大部分的帶寬需求,保證
良好的網(wǎng)絡(luò)協(xié)議兼容性,但對較高的帶寬需求支持不足。Infiniband是
一種專為RDMA設(shè)計(jì)的網(wǎng)絡(luò),從硬件級別保證可靠傳輸,技術(shù)先進(jìn),
但是成本高昂,可以滿足用戶超高帶寬需求的應(yīng)用場景,如HPC應(yīng)
用、高速存儲等。RoCE網(wǎng)絡(luò)是基于以太網(wǎng)的RDMA技術(shù),這使高
速、超低延時(shí)、極低CPU使用率的RDMA技術(shù)以較低成本部署在目
前使用最廣泛的以太網(wǎng)上。
2.虛擬資源服務(wù)
虛擬資源服務(wù)包括對計(jì)算、存儲、網(wǎng)絡(luò)等算力資源的虛擬化服務(wù),
以及虛擬資源的統(tǒng)一管理服務(wù)。虛擬機(jī)是算力資源虛擬化供給的一種
主要方式,可根據(jù)業(yè)務(wù)訴求,按需靈活規(guī)格各異的算力資源,尤其適
用于基因測序、動漫渲染等采用數(shù)據(jù)并行方式運(yùn)行的業(yè)務(wù)類型。
在計(jì)算資源虛擬化服務(wù)方面,傳統(tǒng)虛擬機(jī)技術(shù)使用虛擬機(jī)監(jiān)視器
16
高性能計(jì)算云服務(wù)白皮書
(Hypervisor)來創(chuàng)建和管理虛擬機(jī)實(shí)例。虛擬機(jī)監(jiān)視器負(fù)責(zé)分配和
調(diào)度物理服務(wù)器上的計(jì)算資源,以便多個(gè)虛擬機(jī)能夠共享物理資源并
在隔離的環(huán)境中運(yùn)行。
在存儲資源虛擬化服務(wù)方面,傳統(tǒng)虛擬機(jī)技術(shù)使用虛擬磁盤或虛
擬文件系統(tǒng)來模擬和管理虛擬機(jī)的存儲需求。虛擬機(jī)可以訪問虛擬磁
盤,而虛擬磁盤實(shí)際上是由物理磁盤或存儲陣列提供支持的。
隨著云計(jì)算和虛擬化技術(shù)的發(fā)展,以CPU為核心的數(shù)據(jù)中心基
礎(chǔ)設(shè)施架構(gòu)正演變?yōu)橐訢PU為核心的存網(wǎng)融合、算網(wǎng)融合的基礎(chǔ)設(shè)
施架構(gòu)。虛擬機(jī)服務(wù)器部署極大的依賴虛擬交換機(jī)(如OVS)的性能,
智能網(wǎng)卡的一個(gè)重要功能就是將原本運(yùn)行在主機(jī)Hypervisor上的
OVS數(shù)據(jù)面和控制面卸載到網(wǎng)卡上,一方面能提供高性能的網(wǎng)絡(luò)數(shù)
據(jù)轉(zhuǎn)發(fā),另一方面,使得主機(jī)Hypervisor與網(wǎng)絡(luò)完全解耦。
智能網(wǎng)卡技術(shù)上正從單一網(wǎng)絡(luò)功能卸載轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)、存儲、AI等
多功能加速。不同的智能網(wǎng)卡方案體現(xiàn)了以下發(fā)展趨勢:
?數(shù)據(jù)面和控制面完整卸載;
?不斷完善的虛擬化支持:SR-IOV、vertio、vdpa等技術(shù);
?以RDMA技術(shù)為基礎(chǔ)的分布式算力支持;
?可編程性;
?其它場景化的DSA引擎。
3.物理資源服務(wù)
物理資源服務(wù)主要包括各類算力資源的管理、對接、供給等方面
17
高性能計(jì)算云服務(wù)白皮書
的支持,服務(wù)主體為物理主機(jī)或大型計(jì)算集群。采用物理資源能夠更
加充分高效的利用服務(wù)器,不存在虛擬化的開銷,根據(jù)場景選擇合適
的服務(wù)器進(jìn)行部署、擴(kuò)容或更換。
高性能計(jì)算云中的物理算力資源可劃分為計(jì)算資源、大內(nèi)存資源、
GPU等加速資源、存儲資源、網(wǎng)絡(luò)資源等,通過資源管理實(shí)現(xiàn)算力資
源的最大化利用。算力資源的管理服務(wù)能夠?qū)崿F(xiàn)各類資源的創(chuàng)建、擴(kuò)
容;具備低延遲、高帶寬的計(jì)算網(wǎng)絡(luò);支持按需掛載和訪問并行文件
系統(tǒng)存儲服務(wù)。
物理算力資源供給服務(wù)可以通過Slurm、PBS、LSF等主流作業(yè)
調(diào)度系統(tǒng),實(shí)現(xiàn)物理資源的集中管理與調(diào)度。該服務(wù)根據(jù)用戶應(yīng)用訴
求,實(shí)現(xiàn)算力資源的調(diào)度與分配,支持CPU核心、GPU卡級調(diào)度能
力,具備算力資源的隊(duì)列劃分、調(diào)度策略等管理能力。
在未來,高性能計(jì)算云服務(wù)還應(yīng)支持算力資源對接,能夠?qū)⒁呀?jīng)
建設(shè)完成的超算資源、智算資源接入到高性能計(jì)算云中,實(shí)現(xiàn)算力資
源的互聯(lián)網(wǎng)訪問與算力調(diào)度。
(三)平臺服務(wù)層
1.集群管理服務(wù)
集群管理服務(wù)承擔(dān)著將整個(gè)高性能計(jì)算云服務(wù)系統(tǒng)中的資源進(jìn)
行統(tǒng)一納管的工作,涉及到集群節(jié)點(diǎn)操作系統(tǒng)安裝部署,計(jì)算、存儲、
網(wǎng)絡(luò)資源的管理以及硬件平臺的運(yùn)行狀態(tài)監(jiān)控,并向上提供服務(wù)支持。
18
高性能計(jì)算云服務(wù)白皮書
集群管理服務(wù)應(yīng)具備多種算力資源的用戶認(rèn)證與對接能力,實(shí)現(xiàn)
跨地域、跨互聯(lián)網(wǎng)的算力資源的聚合與納管,對接各種異構(gòu)算力資源、
存儲資源、網(wǎng)絡(luò)環(huán)境。該服務(wù)實(shí)現(xiàn)用戶認(rèn)證與統(tǒng)一接入,使用用戶通
過高性能計(jì)算云服務(wù)系統(tǒng)可以無障礙訪問各地集群,實(shí)現(xiàn)按需調(diào)度算
力。支持用戶及用戶組的增刪改查等功能,可設(shè)置用戶及用戶組的根
目錄,設(shè)置用戶訪問權(quán)限及用戶密碼密鑰的管理等。
集群管理服務(wù)還提供集群內(nèi)計(jì)算節(jié)點(diǎn)的資源配置能力。在計(jì)算資
源方面,從算力資源形式上可以分為物理核心算力和虛擬核心算力。
鑒于計(jì)算資源的多樣性,集群管理服務(wù)需要能夠?qū)⑦@些不同品牌、不
同類型、不同架構(gòu)、不同形式的算力整合管理起來。對于虛擬計(jì)算資
源,集群管理服務(wù)應(yīng)支持云主機(jī)的創(chuàng)建、配置調(diào)整、遷移、計(jì)算環(huán)境
搭建、銷毀等。在存儲資源方面,物理資源支持主流的并行文件系統(tǒng),
如Lustre、GPFS、BeeGFS等;虛擬資源,支持云硬盤、云存儲等。
集群管理服務(wù)面向各類存儲資源具備新建、讀取、刪除、修改文件等
接口,具備文件粒度的ACL控制、配額管理能力,實(shí)現(xiàn)存儲資源的
集中管理與分配。此外,在網(wǎng)絡(luò)資源方面,集群管理服務(wù)具備計(jì)算節(jié)
點(diǎn)間虛擬網(wǎng)絡(luò)的創(chuàng)建、調(diào)整等能力。
2.數(shù)據(jù)管理服務(wù)
高性能計(jì)算云服務(wù)架構(gòu)以用戶數(shù)據(jù)為中心,通過構(gòu)建一致性數(shù)據(jù)
存儲服務(wù),對用戶數(shù)據(jù)提供多維訪問、存儲、共享和遷移能力,通過
軟件定義存儲方式將聚合資源供給層的存儲資源透明化,提高數(shù)據(jù)的
19
高性能計(jì)算云服務(wù)白皮書
可靠性、易用性和靈活性,同時(shí)給各種算力應(yīng)用提供高效安全的數(shù)據(jù)
訪問接口。
在數(shù)據(jù)存儲方面,基于底層的存儲資源,通過存儲系統(tǒng)實(shí)現(xiàn)存儲
空間的聚合,構(gòu)建高性能的統(tǒng)一數(shù)據(jù)資源存儲庫,應(yīng)對高性能計(jì)算過
程中海量數(shù)據(jù)的頻繁讀取和寫入需求。通過對數(shù)據(jù)集中化的存儲管理,
極大提升運(yùn)維人員的工作效率;通過文件系統(tǒng)級、目錄級別等不同粒
度的數(shù)據(jù)隔離策略,保障多用戶環(huán)境下數(shù)據(jù)的隔離性、安全性;依靠
數(shù)據(jù)多副本或冗余校驗(yàn)碼、節(jié)點(diǎn)間冗余備份等方式保障數(shù)據(jù)存儲服務(wù)
的高可靠性。
在數(shù)據(jù)遷移方面,數(shù)據(jù)本身的價(jià)值在于有足夠好的流動性,數(shù)據(jù)
只有流動之后才會產(chǎn)生價(jià)值。云間互聯(lián)高速網(wǎng)絡(luò)和物理專線鏈路等基
礎(chǔ)設(shè)施為數(shù)據(jù)遷移提供了快速的條件,全量遷移和增量遷移方式提高
了數(shù)據(jù)遷移的靈活性,斷點(diǎn)續(xù)傳和遷移監(jiān)控讓數(shù)據(jù)遷移更高效、更安
全。
在數(shù)據(jù)共享方面,多樣的數(shù)據(jù)共享策略讓不同組織、不同部門之
間的協(xié)作更加方便,基于角色的數(shù)據(jù)共享管理和基于用戶的權(quán)限設(shè)置
可以在不損失安全性的前提下共享數(shù)據(jù),讓數(shù)據(jù)得到有效利用。
3.作業(yè)管理服務(wù)
高性能計(jì)算云實(shí)現(xiàn)高效計(jì)算的核心功能離不開特有的基礎(chǔ)軟件
——作業(yè)管理服務(wù)。作業(yè)管理服務(wù)通過作業(yè)模板、作業(yè)提交、作業(yè)調(diào)
度、作業(yè)監(jiān)控等能力,實(shí)現(xiàn)資源的合理利用,支撐應(yīng)用高效運(yùn)行。
20
高性能計(jì)算云服務(wù)白皮書
在作業(yè)模板方面,高性能計(jì)算云集成了大量行業(yè)應(yīng)用軟件并提供
標(biāo)準(zhǔn)的公共作業(yè)模板,客戶開箱即用,簡化軟件的安裝部署和使用過
程,避免應(yīng)用程序?qū)Νh(huán)境依賴和不同用戶應(yīng)用環(huán)境沖突等問題。
在作業(yè)提交方面,高性能計(jì)算云服務(wù)針對用戶的不同使用場景和
使用習(xí)慣,擁有多種作業(yè)提交方式,可實(shí)現(xiàn)計(jì)算任務(wù)的靈活提交和管
理。模板提交:適用于有一定基礎(chǔ)的行業(yè)應(yīng)用軟件用戶,對作業(yè)提交
參數(shù)、提交流程進(jìn)行圖形化界面引導(dǎo);命令行提交:通過web和客戶
端ssh方式登錄遠(yuǎn)程系統(tǒng),使用調(diào)度系統(tǒng)命令進(jìn)行作業(yè)提交;圖形界
面提交:提供遠(yuǎn)程GUI界面支持,以RFB、SSH、RDP等協(xié)議鏈接
遠(yuǎn)程計(jì)算資源上運(yùn)行的可視化應(yīng)用軟件,通過可視化軟件進(jìn)行并行任
務(wù)的提交;IDE工具提交:提供webIDE工具方式進(jìn)行作業(yè)腳本的在
線編寫,用戶可以在webIDE終端運(yùn)行作業(yè)調(diào)度系統(tǒng)命令來提交作業(yè)
和管理作業(yè)。
在作業(yè)調(diào)度方面,基于開源軟件Slurm,OpenPBS等調(diào)度系統(tǒng)進(jìn)
行作業(yè)管理,以避免用戶作業(yè)間相互干擾,提高運(yùn)行效率。系統(tǒng)調(diào)度
作業(yè)任務(wù)生成調(diào)度決策后,將任務(wù)分發(fā)到運(yùn)行計(jì)算節(jié)點(diǎn)上運(yùn)行,收集
任務(wù)運(yùn)行資源使用情況,在任務(wù)結(jié)束后獲取作業(yè)結(jié)果。
在作業(yè)監(jiān)控方面,提供多個(gè)維度的監(jiān)控(作業(yè)信息監(jiān)控和節(jié)點(diǎn)狀
態(tài)監(jiān)控),包含了作業(yè)狀態(tài)、日志流、文件、節(jié)點(diǎn)、列表、性能監(jiān)控。
以應(yīng)用的計(jì)算性能為核心,分析計(jì)算應(yīng)用程序運(yùn)行過程中對各項(xiàng)資源
的依賴程度,進(jìn)而發(fā)下應(yīng)用運(yùn)行特征,為性能優(yōu)化,瓶頸分析提供數(shù)
21
高性能計(jì)算云服務(wù)白皮書
據(jù)支撐。并在作業(yè)計(jì)算完成時(shí),通過郵件,短信等方式進(jìn)行通知。
4.隊(duì)列管理服務(wù)
高性能計(jì)算云服務(wù)中的隊(duì)列管理服務(wù)包括隊(duì)列監(jiān)控、隊(duì)列查詢、
隊(duì)列資源配置等。通過隊(duì)列的方式組織和控制任務(wù)的執(zhí)行順序,提供
任務(wù)排隊(duì)、資源分配和限制、錯(cuò)誤處理等功能,可以提高高性能計(jì)算
云中任務(wù)處理的效率和可靠性。
在隊(duì)列監(jiān)控方面,隊(duì)列管理服務(wù)將任務(wù)或請求按照先后順序排列
到隊(duì)列中。每個(gè)任務(wù)都有一個(gè)標(biāo)識符,可以根據(jù)優(yōu)先級、時(shí)間戳或其
他指標(biāo)進(jìn)行優(yōu)先級排序。隊(duì)列監(jiān)控可以控制并發(fā)執(zhí)行的任務(wù)數(shù)量,從
而限制同時(shí)執(zhí)行的任務(wù)數(shù)量,以避免資源過載或性能下降。隊(duì)列管理
服務(wù)將任務(wù)分配給可執(zhí)行任務(wù)的工作者或處理器,進(jìn)而將任務(wù)分發(fā)給
適當(dāng)?shù)奶幚韱卧?。此外,?duì)列監(jiān)控可實(shí)現(xiàn)隊(duì)列的全局監(jiān)控,從而處理
任務(wù)執(zhí)行中的錯(cuò)誤和異常情況。它可以捕獲錯(cuò)誤,并根據(jù)事先定義的
策略進(jìn)行處理,如重試任務(wù)、放棄任務(wù)或記錄錯(cuò)誤日志。
基于隊(duì)列查詢能力,用戶可以在作業(yè)提交前了解各隊(duì)列的資源配
置情況和作業(yè)排隊(duì)情況,從而合理選擇隊(duì)列進(jìn)行作業(yè)提交。此外,隊(duì)
列查詢能力還可以跟蹤隊(duì)列中任務(wù)的執(zhí)行情況、處理時(shí)間、隊(duì)列長度
等指標(biāo)。這些指標(biāo)可以用于性能優(yōu)化、資源規(guī)劃和問題排查。
隊(duì)列資源配置服務(wù)的重要性在于能夠合理分配和管理系統(tǒng)資源,
以滿足不同隊(duì)列和任務(wù)的需求。通過對隊(duì)列資源進(jìn)行有效配置,可以
確保任務(wù)的順序執(zhí)行、避免資源爭用和浪費(fèi),提高系統(tǒng)的穩(wěn)定性和性
22
高性能計(jì)算云服務(wù)白皮書
能。具體而言,隊(duì)列資源配置可配置處理器核心、內(nèi)存等計(jì)算資源,
并可以通過設(shè)置隊(duì)列的最大并發(fā)任務(wù)數(shù)、任務(wù)執(zhí)行時(shí)間限制、任務(wù)優(yōu)
先級策略等方式限制計(jì)算資源使用;隊(duì)列資源配置能力還包括為隊(duì)列
分配存儲資源,如磁盤空間、緩存空間等;隊(duì)列資源配置能力還涉及
到為隊(duì)列分配的網(wǎng)絡(luò)資源,如帶寬、連接數(shù)等。
5.應(yīng)用開發(fā)環(huán)境
高性能計(jì)算云服務(wù)中的應(yīng)用開發(fā)環(huán)境主要包括開發(fā)工具及接口、
算法庫、編程框架、性能分析工具等。
在開發(fā)工具方面,高性能計(jì)算云服務(wù)提供常用的IDE,如Vim、
Eclipse、VisualStudio等??偟膩碚f,高性能計(jì)算云服務(wù)中的應(yīng)用開
發(fā)環(huán)境提供了豐富的工具和資源,可以滿足不同用戶的需求。
高性能計(jì)算中根據(jù)數(shù)據(jù)的耦合度,又分為分布式計(jì)算和并行計(jì)算。
分布式計(jì)算一般是指將大型計(jì)算任務(wù)分成許多子任務(wù),并把這些子任
務(wù)分配給多個(gè)計(jì)算機(jī)進(jìn)行并行處理,最終把計(jì)算結(jié)果綜合起來得到最
終結(jié)果的過程。常見的分布式系統(tǒng)計(jì)算框架Hadoop中各任務(wù)互相獨(dú)
立,節(jié)點(diǎn)之間的結(jié)果幾乎不互相影響。而并行計(jì)算則是指使用多種計(jì)
算資源協(xié)同解決同一個(gè)問題的過程。雖然也是將一個(gè)大型計(jì)算任務(wù)拆
分成多個(gè)小型計(jì)算任務(wù),并在單個(gè)計(jì)算節(jié)點(diǎn)上的多個(gè)CPU核心和
GPU加速卡上同時(shí)進(jìn)行處理,但在整個(gè)計(jì)算過程中,節(jié)點(diǎn)間的結(jié)果互
相影響,需要通過高速網(wǎng)絡(luò)進(jìn)行通信,對應(yīng)用運(yùn)行的整體效率要求較
高。常見的并行計(jì)算編程方式包括MPI,OpenMP,OpenACC,SYCL
23
高性能計(jì)算云服務(wù)白皮書
等。
編程框架服務(wù)主要包括編程語言、編譯器、數(shù)據(jù)庫支持等。在編
程語言方面,高性能計(jì)算云服務(wù)提供多種語言的支持,例如C、C++、
Python、Fortran、Julia等。在編譯器方面,可以提供GNU編譯器、
Intel編譯器等。在數(shù)據(jù)庫方面,可提供常用的數(shù)據(jù)庫管理系統(tǒng),如
MySQL、MongoDB等。
由于高性能計(jì)算云服務(wù)涉及到大量的計(jì)算資源和應(yīng)用程序,因此
高性能計(jì)算云服務(wù)中通常會使用一些性能分析工具來幫助用戶監(jiān)控
和優(yōu)化應(yīng)用程序的性能。具體來說,高性能計(jì)算云服務(wù)中的性能分析
工具可以用來監(jiān)控應(yīng)用程序的內(nèi)存使用情況、網(wǎng)絡(luò)流量和帶寬占用情
況、各類計(jì)算資源使用率(如CPU、GPU、FPGA等)和I/O等各種
性能指標(biāo),并通過可視化的方式呈現(xiàn)給用戶。這些性能分析工具可以
幫助用戶了解應(yīng)用程序的性能狀況,并且可以提供實(shí)時(shí)的性能報(bào)告,
幫助用戶快速找到性能瓶頸并進(jìn)行優(yōu)化。具體的工具可能會因高性能
計(jì)算云服務(wù)的不同供應(yīng)商而有所差異。但是常見的性能監(jiān)測工具包括
Nagios、Zabbix、Ganglia等,性能調(diào)優(yōu)工具包括VTune、Perf、
gperftools等。
(四)應(yīng)用服務(wù)層
1.行業(yè)應(yīng)用服務(wù)
高性能計(jì)算云提供行業(yè)應(yīng)用服務(wù),面向工業(yè)仿真、材料計(jì)算、生
24
高性能計(jì)算云服務(wù)白皮書
命科學(xué)等特定領(lǐng)域和場景,提供定制化的應(yīng)用軟件和相關(guān)服務(wù)能力,
以幫助企業(yè)提高效率、降低成本、優(yōu)化業(yè)務(wù)流程并實(shí)現(xiàn)業(yè)務(wù)目標(biāo),最
終實(shí)現(xiàn)行業(yè)賦能,加速行業(yè)發(fā)展。
行業(yè)應(yīng)用服務(wù)通常包括:行業(yè)專業(yè)化軟件開發(fā),即根據(jù)特定行業(yè)
的需求,開發(fā)專門的應(yīng)用軟件;行業(yè)數(shù)據(jù)管理和分析,即為企業(yè)收集、
管理和分析行業(yè)相關(guān)的數(shù)據(jù),提供數(shù)據(jù)挖掘、數(shù)據(jù)分析和報(bào)告等服務(wù)
能力;業(yè)務(wù)流程優(yōu)化管理,即通過定制化的應(yīng)用軟件和服務(wù),優(yōu)化企
業(yè)的業(yè)務(wù)流程,提高生產(chǎn)效率、降低成本。
行業(yè)應(yīng)用服務(wù)典型實(shí)踐見本白皮書第一章第三節(jié)。
2.通用應(yīng)用服務(wù)
通用應(yīng)用服務(wù)可以幫助用戶快速構(gòu)建和部署各種計(jì)算和數(shù)據(jù)處
理任務(wù),以實(shí)現(xiàn)高效的數(shù)據(jù)分析和應(yīng)用開發(fā)。
深度學(xué)習(xí)框架服務(wù)提供了多種深度學(xué)習(xí)框架,如TensorFlow、
PyTorch、Caffe等,可以幫助用戶快速構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型。這
些框架通常支持分布式訓(xùn)練,可以利用高性能計(jì)算云的計(jì)算資源快速
訓(xùn)練大規(guī)模的深度學(xué)習(xí)模型。
模型推理服務(wù)可以將訓(xùn)練好的深度學(xué)習(xí)模型部署到高性能計(jì)算
云上進(jìn)行推理,以實(shí)現(xiàn)各種應(yīng)用場景,如圖像識別、自然語言處理等。
模型推理服務(wù)通常支持多種硬件加速技術(shù),如GPU、FPGA等,以提
高推理的速度和效率。
大數(shù)據(jù)分析服務(wù)提供了多種數(shù)據(jù)處理和分析工具,如Hadoop、
25
高性能計(jì)算云服務(wù)白皮書
Spark、Presto等,可以幫助用戶高效地處理和分析大規(guī)模數(shù)據(jù)。這些
工具通??梢耘c高性能計(jì)算云的計(jì)算和存儲資源相集成,以實(shí)現(xiàn)高效
的數(shù)據(jù)處理和分析。
數(shù)據(jù)庫服務(wù)可以提供多種數(shù)據(jù)庫管理系統(tǒng),如MySQL、
PostgreSQL等,以幫助用戶高效地管理和存儲數(shù)據(jù)。這些數(shù)據(jù)庫通常
支持高可用性和高可靠性的特性,以確保數(shù)據(jù)的安全和可靠性。
(五)可視化服務(wù)
1.應(yīng)用可視化
高性能計(jì)算云服務(wù)中的應(yīng)用可視化服務(wù)是將使用GUI界面的應(yīng)
用,以遠(yuǎn)程可視化窗口的方式提供給用戶,為用戶提供可視化的結(jié)果
展示,前后處理能力以及交互式可視化計(jì)算能力。這種方式應(yīng)用和數(shù)
據(jù)均在云端,用戶可以在計(jì)算完成后立刻對結(jié)果進(jìn)行分析,并能夠再
次提交新的計(jì)算任務(wù),避免了結(jié)果文件在本地和云端的傳輸,提高了
工作效率。
應(yīng)用可視化按操作系統(tǒng)平臺可分為Windows和Linux兩類,
Windows應(yīng)用可視化一般采用商用虛擬顯示VDI方案,常見的有
CitrixVDI和NICEDCV等,Linux應(yīng)用可視化可使用商用的Citrix
方案,也可使用開源的VNC等方案。VDI的方案主要優(yōu)勢在于資源
調(diào)度靈活,可實(shí)現(xiàn)虛擬機(jī)級別的高可用,缺點(diǎn)在于VDI的方案基于
虛擬化技術(shù),有一定性能損失,不適用于交互可視化高性能計(jì)算場景。
26
高性能計(jì)算云服務(wù)白皮書
高性能計(jì)算云服務(wù)所提供的應(yīng)用可視化的另一種典型場景稱為
交互可視化高性能計(jì)算,這類場景是高性能計(jì)算云服務(wù)的特色場景。
在這種場景中,多個(gè)高性能計(jì)算節(jié)點(diǎn)使用高速網(wǎng)絡(luò)互聯(lián),組成一個(gè)多
機(jī)并行的高性能工作站,其中一個(gè)節(jié)點(diǎn)上運(yùn)行GUI可視化應(yīng)用,其
余節(jié)點(diǎn)運(yùn)行并行計(jì)算任務(wù)。這種場景為用戶提供了運(yùn)行大規(guī)模交互式
高性能計(jì)算任務(wù)的能力,這類應(yīng)用主要以工業(yè)仿真領(lǐng)域的商用
CAD/CAE軟件為主,如Fluent,HFSS等。
近年來,人工智能與大數(shù)據(jù)領(lǐng)域還出現(xiàn)了一種新的應(yīng)用可視化方
式,這類應(yīng)用具備網(wǎng)頁界面,可以通過Web界面進(jìn)行訪問,如Jupyter
Notebook等。這類應(yīng)用通常需要以服務(wù)的方式運(yùn)行,需要高性能計(jì)算
云具備相應(yīng)的服務(wù)部署能力。
2.性能可視化
性能可視化通過對集群、計(jì)算任務(wù)實(shí)現(xiàn)關(guān)鍵性能指標(biāo)的采集,并
進(jìn)行實(shí)時(shí)的圖形化展示,用戶可基于多層次性能數(shù)據(jù)指標(biāo),直觀掌握
作業(yè)性能狀態(tài),快速發(fā)覺、診斷性能異常,避免浪費(fèi)計(jì)算資源。
在應(yīng)用性能優(yōu)化方面,性能可視化實(shí)現(xiàn)復(fù)雜異構(gòu)算力環(huán)境下系統(tǒng)
及應(yīng)用的多維度應(yīng)用運(yùn)行特征采集,在此基礎(chǔ)上構(gòu)建應(yīng)用運(yùn)行特征分
析庫,評測應(yīng)用實(shí)際運(yùn)行效能,并基于應(yīng)用特點(diǎn)進(jìn)行算力選型、應(yīng)用
性能優(yōu)化。性能可視化服務(wù)提供系統(tǒng)級、微架構(gòu)級、函數(shù)級、作業(yè)級、
進(jìn)程級等服務(wù)器節(jié)點(diǎn)性能指標(biāo),匯總并通過儀表盤秒級動態(tài)刷新顯示,
進(jìn)而滿足并行程序開發(fā)者性能優(yōu)化的需求。
27
高性能計(jì)算云服務(wù)白皮書
在集群管理和運(yùn)維方面,高性能計(jì)算云服務(wù)提供服務(wù)器節(jié)點(diǎn)性能
指標(biāo)、節(jié)點(diǎn)性能狀態(tài)、CPU整體利用率、CPU系統(tǒng)利用率等一系列
性能指標(biāo)的可視化工具和圖表。性能數(shù)據(jù)可視化服務(wù)支持性能異常自
動分析和自動告警,在短時(shí)間內(nèi)掌握和了解集群節(jié)點(diǎn)運(yùn)行狀態(tài)。相比
于傳統(tǒng)的集群管理與運(yùn)維方式,集群性能數(shù)據(jù)的可視化服務(wù)特點(diǎn)在于
大幅降低集群管理和運(yùn)維難度。
3.數(shù)據(jù)可視化
高性能計(jì)算云服務(wù)中,針對業(yè)務(wù)場景及面向?qū)ο蟮男枰?,將平臺
中的獲取的各類算力、應(yīng)用、用戶、運(yùn)維數(shù)據(jù)信息進(jìn)行匯總聚合、分
類分析,借助于適當(dāng)?shù)膱D形化展示手段,提供適合多場景多維度的數(shù)
字可視化展現(xiàn)。實(shí)現(xiàn)運(yùn)營調(diào)度可視化大屏展示,聚合算力、應(yīng)用、用
戶、運(yùn)維等整體運(yùn)營信息,為高性能計(jì)算云統(tǒng)一運(yùn)營調(diào)度提供數(shù)據(jù)支
撐和決策依據(jù)。
通過豐富的圖表和圖形設(shè)計(jì)展示各類數(shù)據(jù)信息:從算力維度展示
平臺整體算力資源規(guī)模,各類資源利用率、狀態(tài)分布,各分區(qū)資源規(guī)
模等;從任務(wù)調(diào)度維度展現(xiàn)整體云服務(wù)平臺中的作業(yè)任務(wù)總數(shù)、作業(yè)
任務(wù)運(yùn)行狀態(tài)統(tǒng)計(jì)分析、各分區(qū)的任務(wù)運(yùn)行情況統(tǒng)計(jì)等;從用戶維度
呈現(xiàn)平臺整體的用戶規(guī)模,用戶行業(yè)分類分布,以及用戶及分類維度
計(jì)算任務(wù)數(shù)量、機(jī)時(shí)規(guī)模等統(tǒng)計(jì)分析圖表;從應(yīng)用維度展現(xiàn)各類應(yīng)用
部署使用情況、執(zhí)行任務(wù)數(shù)量及機(jī)時(shí)規(guī)模統(tǒng)計(jì)數(shù)據(jù)。
面向不同的用戶業(yè)務(wù)場景,可以進(jìn)行數(shù)據(jù)可視化展示內(nèi)容的管理,
28
高性能計(jì)算云服務(wù)白皮書
提供不同視角的數(shù)據(jù)可視化展示界面,以滿足不同業(yè)務(wù)場景的需求。
使得平臺用戶可以通過用戶展示界面直觀了解算力資源的使用情況,
合理安排計(jì)算任務(wù);管理員可以通過管理員展示界面清晰掌握各項(xiàng)運(yùn)
維數(shù)據(jù)信息,提升集群的管理效率;可以通過可視化大屏展示形式為
云服務(wù)平臺提供對外展示、宣傳的呈現(xiàn)方式。
4.作業(yè)可視化
高性能計(jì)算云服務(wù)支持通過管理門戶可視化的方式對作業(yè)進(jìn)行
管理。管理員可通過可視化界面查看集群中用戶提交運(yùn)行的作業(yè)運(yùn)行
狀態(tài),用戶也可通過門戶查看自己提交的作業(yè)運(yùn)行情況,并可進(jìn)行作
業(yè)輸入輸出文件的可視化管理。
高性能計(jì)算云服務(wù)支持用戶通過門戶可視化的方式提交和控制
作業(yè)。系統(tǒng)可定制作業(yè)提交模板供用戶快速提交作業(yè),用戶根據(jù)作業(yè)
應(yīng)用類型選擇模板,并填寫作業(yè)資源需求、運(yùn)行特征和作業(yè)命令等參
數(shù),并提交作業(yè)到系統(tǒng)運(yùn)行。系統(tǒng)需要針對常用的HPC應(yīng)用定制作
業(yè)提交模板并進(jìn)行適配,并提供靈活的擴(kuò)展,根據(jù)需求增加對新應(yīng)用
的作業(yè)提交模板定制。用戶可通過門戶對自己提交的作業(yè)進(jìn)行控制操
作,如終止、暫停、恢復(fù)、重新運(yùn)行作業(yè)等。
高性能計(jì)算云服務(wù)應(yīng)支持對于可視化作業(yè)的實(shí)時(shí)運(yùn)行查看。系統(tǒng)
可通過VNC等機(jī)制獲取作業(yè)運(yùn)行可視化界面,供用戶通過可視化方
式遠(yuǎn)程查看作業(yè)的運(yùn)行情況,并可在作業(yè)實(shí)時(shí)運(yùn)行的可視化窗口中進(jìn)
行交互操作。
29
高性能計(jì)算云服務(wù)白皮書
5.資源可視化
高性能計(jì)算云服務(wù)中,資源可視化主要是將接入到高性能計(jì)算平
臺的跨中心跨集群的各類資源信息進(jìn)行智能采集檢測匯總后,以直觀
的可視化界面形式提供給管理員,便于管理員對資源進(jìn)行統(tǒng)一監(jiān)管。
資源可視化不僅實(shí)現(xiàn)基礎(chǔ)環(huán)境中的計(jì)算資源、存儲資源、網(wǎng)絡(luò)資
源等可視化展示,還包括云應(yīng)用資源、數(shù)據(jù)資源、遠(yuǎn)程可視化資源等
的可視化展示。
高性能計(jì)算云服務(wù)服務(wù)通過多種直觀的圖表形式展示各類資源
的整體信息、運(yùn)行狀態(tài)、利用率等,提供平臺整體資源的匯總展示;
提供可視化交互界面,對平臺中的隊(duì)列資源、存儲資源、遠(yuǎn)程可視化
資源、數(shù)據(jù)資源、應(yīng)用資源等進(jìn)行管理和分配。此外,結(jié)合平臺的整
體運(yùn)行監(jiān)控,資源可視化服務(wù)為平臺的管理和運(yùn)營提供全面的資源信
息,支持系統(tǒng)可用性與性能監(jiān)控、故障管理、業(yè)務(wù)影響分析。
(六)安全服務(wù)
1.數(shù)據(jù)安全
數(shù)據(jù)安全應(yīng)確保高性能計(jì)算云服務(wù)數(shù)據(jù)處于有效保護(hù)和合法利
用的狀態(tài),并且具備保障持續(xù)安全狀態(tài)的能力,從而建立一套基于高
性能計(jì)算云服務(wù)的可用、可管、可監(jiān)、可控的數(shù)據(jù)安全管理體系。
數(shù)據(jù)安全服務(wù)必須秉持以下原則:明確職責(zé)合規(guī)、質(zhì)量保障、數(shù)
據(jù)最小化、責(zé)任不轉(zhuǎn)移、最小授權(quán)、數(shù)據(jù)保護(hù)、可審計(jì)等?;跀?shù)據(jù)
30
高性能計(jì)算云服務(wù)白皮書
分類分級標(biāo)準(zhǔn)指導(dǎo)數(shù)據(jù)治理和安全建設(shè),明確數(shù)據(jù)分類分級的基本原
則、維度、方法、示例等,為數(shù)據(jù)安全分類、分級保護(hù)提供依據(jù),為
數(shù)據(jù)安全規(guī)范、數(shù)據(jù)安全評估等方面的標(biāo)準(zhǔn)制定提供支撐。
在數(shù)據(jù)全生命周期服務(wù)中,為了防止數(shù)據(jù)非法采集、數(shù)據(jù)源接入
仿冒、數(shù)據(jù)權(quán)屬分歧、數(shù)據(jù)非法竊聽、數(shù)據(jù)跨區(qū)傳輸、仿冒數(shù)據(jù)傳輸、
非授權(quán)訪問、敏感明文存儲、數(shù)據(jù)匯聚關(guān)聯(lián)攻擊、數(shù)據(jù)濫用、數(shù)據(jù)非
法外發(fā)等問題的發(fā)生,需要建立各種專業(yè)的數(shù)據(jù)安全服務(wù)能力,例如
數(shù)據(jù)脫敏、數(shù)據(jù)加解密、數(shù)據(jù)庫防泄漏、文件防泄漏、API安全監(jiān)控
等。數(shù)據(jù)全生命周期監(jiān)控管理服務(wù)的核心功能包括:數(shù)據(jù)控看板、數(shù)
據(jù)鏈路分析、數(shù)據(jù)熱度分析、數(shù)據(jù)任務(wù)監(jiān)控、數(shù)據(jù)安全審計(jì)、規(guī)則管
理、告警管理等。
2.應(yīng)用安全
高性能計(jì)算云服務(wù)的應(yīng)用安全服務(wù)是通過對APP進(jìn)行加固以及
確保APP發(fā)布渠道可信等,應(yīng)用安全可防止APP被篡改、被調(diào)試、
被反編譯,防止代碼外泄。此外,應(yīng)用系統(tǒng)接入必須經(jīng)過評估和安全
測試,確認(rèn)相關(guān)系統(tǒng)安全性后,方可進(jìn)行部署及接入工作。
3.平臺安全
高性能計(jì)算云服務(wù)平臺與其它設(shè)施通信前,應(yīng)通過安全接口實(shí)現(xiàn)
雙方的身份認(rèn)證及訪問控制,并且記錄訪問審計(jì)日志。高性能計(jì)算云
服務(wù)平臺應(yīng)對口令信息、隱私數(shù)據(jù)和重要業(yè)務(wù)數(shù)據(jù)等敏感信息的本地
31
高性能計(jì)算云服務(wù)白皮書
存儲進(jìn)行加密保護(hù),通過訪問權(quán)限控制、網(wǎng)絡(luò)安全隔離裝置、數(shù)據(jù)脫
敏等措施開展平臺安全防護(hù)。平臺安全服務(wù)可通過各公司定制化的標(biāo)
準(zhǔn)安全策略對高性能計(jì)算云服務(wù)平臺運(yùn)行環(huán)境進(jìn)行安全加固及策略
配置,并定期檢查運(yùn)行環(huán)境的安全漏洞。
4.設(shè)施安全
高性能計(jì)算云服務(wù)設(shè)施安全是確保云服務(wù)設(shè)施(如數(shù)據(jù)中心、服
務(wù)器機(jī)房等)不受任何物理或邏輯方面的威脅和損害的一項(xiàng)重要工作。
在物理安全服務(wù)方面,需要采取安裝監(jiān)控系統(tǒng)、門禁系統(tǒng)、防盜系統(tǒng)
等措施來保護(hù)云服務(wù)設(shè)施和其中的設(shè)備,以便監(jiān)控和控制人員進(jìn)出設(shè)
備區(qū)域。此外,還需要加強(qiáng)設(shè)備的防火、防水、防震等能力,確保設(shè)
備能夠在不利的物理環(huán)境下正常運(yùn)行。設(shè)施安全服務(wù)需對設(shè)備進(jìn)行定
期檢查和維護(hù),以確保其正常運(yùn)行。在網(wǎng)絡(luò)設(shè)施安全服務(wù)方面,需要
采取部署防火墻、入侵檢測系統(tǒng)等措施來保護(hù)云服務(wù)設(shè)施的網(wǎng)絡(luò)安全,
以便防范和檢測網(wǎng)絡(luò)攻擊。此外,還需要對設(shè)備進(jìn)行加密、身份認(rèn)證
等措施,以確保設(shè)備和數(shù)據(jù)的安全。
(七)統(tǒng)一服務(wù)門戶
高性能計(jì)算云服務(wù)的門戶作為面向服務(wù)的統(tǒng)一入口,提供統(tǒng)一的
用戶管理、設(shè)備管理、應(yīng)用管理、作業(yè)管理、統(tǒng)計(jì)管理、計(jì)費(fèi)管理和
云端接入等功能。使用戶可以通過客戶端、web、SSH命令行工具等
方式訪問門戶,可以更好地管理和使用云平臺。
32
高性能計(jì)算云服務(wù)白皮書
門戶具備CPU、GPU同構(gòu)和異構(gòu)超算集群擴(kuò)展能力,在用戶本
地資源不足時(shí),可以統(tǒng)一動態(tài)擴(kuò)展算力資源。此外,門戶還支持運(yùn)營
數(shù)據(jù)的收集和統(tǒng)計(jì)服務(wù),在采集和分析多種維度的運(yùn)營數(shù)據(jù)、集群統(tǒng)
計(jì)數(shù)據(jù)時(shí),為計(jì)算資源調(diào)配和管理提供數(shù)據(jù)支撐。在管理方面,服務(wù)
門戶提供用戶管理、應(yīng)用管理、權(quán)限管理、作業(yè)管理、系統(tǒng)管理、審
計(jì)日志等多種管理功能。在計(jì)量計(jì)費(fèi)技術(shù)方面,統(tǒng)一服務(wù)門戶構(gòu)建了
面向異構(gòu)多域資源的計(jì)量計(jì)費(fèi)模型,充分考慮算力的多樣性、差異性
及分布特點(diǎn),并提出了基于應(yīng)用實(shí)際運(yùn)行性能的算力交易機(jī)制,建立
底層核算邏輯,實(shí)現(xiàn)對資源式、任務(wù)式及需求場景式交易策略的支持。
三、高性能計(jì)算云服務(wù)關(guān)鍵能力
圖7高性能計(jì)算云服務(wù)十大關(guān)鍵能力
本章節(jié)基于第二章提出的高性能計(jì)算云服務(wù)參考架構(gòu),進(jìn)一步提
33
高性能計(jì)算云服務(wù)白皮書
煉高性能計(jì)算云服務(wù)的十大關(guān)鍵能力,如圖7所示。
(一)異構(gòu)計(jì)算資源供給
隨著業(yè)界對算力需求的不斷提升,越來越多的計(jì)算平臺開始引入
多種不同計(jì)算單元來加速計(jì)算。為滿足不同場景中的應(yīng)用需求、實(shí)現(xiàn)
計(jì)算效力最大化,向用戶提供異構(gòu)計(jì)算資源,并基于多種異構(gòu)算力協(xié)
同處理計(jì)算任務(wù),已成為高性能計(jì)算云服務(wù)中的關(guān)鍵能力。通過異構(gòu)
計(jì)算資源供給,高性能計(jì)算云服務(wù)可以提供更高的計(jì)算性能、更高的
能效和更好的適應(yīng)性,從而加速計(jì)算任務(wù)的執(zhí)行,提高系統(tǒng)性能,并
在節(jié)能和資源利用方面提供優(yōu)勢,對于科學(xué)計(jì)算、大數(shù)據(jù)分析、人工
智能等領(lǐng)域具有重要意義。
異構(gòu)計(jì)算資源供給應(yīng)具備的能力包括但不限于:
?應(yīng)提供不同的硬件架構(gòu)的計(jì)算資源,包括CPU、GPU、FPGA、
ASIC等;
?應(yīng)支持鯤鵬、寒武紀(jì)等國產(chǎn)芯片算力資源的供給和調(diào)度;
?應(yīng)具備異構(gòu)算力的統(tǒng)一標(biāo)識能力,支持可信算力、算力溯源、
算力度量[3];
?應(yīng)支持異構(gòu)算力的統(tǒng)一調(diào)度。
(二)多類型存儲系統(tǒng)支持
高性能計(jì)算云服務(wù)需要具有多種類型存儲系統(tǒng)的兼容能力,以滿
34
高性能計(jì)算云服務(wù)白皮書
足各類用戶數(shù)據(jù)的存儲與訪問需求。通過支持多類型存儲系統(tǒng),高性
能計(jì)算云服務(wù)可以提供數(shù)據(jù)管理的靈活性、性能優(yōu)化、成本優(yōu)化、可
擴(kuò)展性和容量管理的優(yōu)勢,這對于滿足不同應(yīng)用和業(yè)務(wù)需求,提高存
儲系統(tǒng)的效率和可靠性至關(guān)重要。
多類型存儲系統(tǒng)支持應(yīng)具備的能力包括但不限于:
?應(yīng)支持不同存儲類型,包括文件存儲、對象存儲、塊存儲等;
?應(yīng)兼容不同文件系統(tǒng),包括GPFS、Lustre、HPFS等高性能
并行文件系統(tǒng),以及HDFS、Ceph、GlusterFS等分布式文件
系統(tǒng);
?宜支持閃存存儲系統(tǒng),提供高速、低延遲和高可用性的存儲
能力,以支持對大規(guī)模數(shù)據(jù)的快速讀寫和訪問;
?應(yīng)具備多類型存儲系統(tǒng)的統(tǒng)一管理能力。
(三)低時(shí)延網(wǎng)絡(luò)傳輸
高性能計(jì)算云服務(wù)中,通信寬帶和時(shí)延對業(yè)務(wù)性能表現(xiàn)至關(guān)重要。
通過提供高速、低延遲和穩(wěn)定的網(wǎng)絡(luò)傳輸能力,高性能計(jì)算云服務(wù)可
為用戶的數(shù)據(jù)處理任務(wù)提供強(qiáng)有力的支持,滿足圖形處理、時(shí)效性計(jì)
算、人工智能推理等計(jì)算需求。
低時(shí)延網(wǎng)絡(luò)傳輸應(yīng)具備的能力包括但不限于:
?應(yīng)具備網(wǎng)絡(luò)拓?fù)鋬?yōu)化能力,提高網(wǎng)絡(luò)傳輸性能;
35
高性能計(jì)算云服務(wù)白皮書
?應(yīng)具備帶寬管理功能,支持?jǐn)?shù)據(jù)傳輸?shù)臅r(shí)延和穩(wěn)定性保障;
?應(yīng)支持RDMA技術(shù),提供高速和低延遲的網(wǎng)絡(luò)傳輸能力;
?宜支持智能無損網(wǎng)絡(luò)、確定性網(wǎng)絡(luò)、算力網(wǎng)絡(luò)等關(guān)鍵技術(shù),
包括流量控制、擁塞控制、流量調(diào)度、網(wǎng)算一體、iNOF、有
界抖動、有界時(shí)延
?應(yīng)支持TCP/IP協(xié)議優(yōu)化,提高網(wǎng)絡(luò)傳輸效率;
?宜提供穩(wěn)定、可靠、高速的算力中心間專用網(wǎng)絡(luò)。
(四)彈性資源調(diào)度
隨著用戶量的增長,計(jì)算需求不平衡造成部分集群作業(yè)排隊(duì)嚴(yán)重
的問題,已成為常見的性能影響因素。通過彈性資源調(diào)度,高性能計(jì)
算云服務(wù)可將過剩的計(jì)算作業(yè)自動分配到跨地域的集群中,實(shí)現(xiàn)計(jì)算
資源的靈活擴(kuò)展。這種按需提供計(jì)算資源的方式能夠加快整體計(jì)算效
率,減少作業(yè)排隊(duì)時(shí)間,提高計(jì)算速度。
彈性資源調(diào)度應(yīng)具備的能力包括但不限于:
?應(yīng)支持通過虛擬化技術(shù)實(shí)現(xiàn)計(jì)算、存儲、網(wǎng)絡(luò)的資源聚合;
?應(yīng)具備資源自動擴(kuò)容和縮容能力;
?應(yīng)支持彈性負(fù)載均衡,提高系統(tǒng)可用性和性能;
?應(yīng)支持彈性存儲、彈性計(jì)算容器、彈性網(wǎng)絡(luò)帶寬能力;
?應(yīng)支持按需動態(tài)調(diào)整資源配置。
36
高性能計(jì)算云服務(wù)白皮書
(五)規(guī)?;汗芾?/p>
集群是由多個(gè)計(jì)算節(jié)點(diǎn)(服務(wù)器、計(jì)算機(jī)或虛擬機(jī))組成的集合,
通過集群管理能力,可以有效利用集群的計(jì)算資源,提高集群的性能
和效率,并確保集群的穩(wěn)定運(yùn)行。高性能計(jì)算云服務(wù)中規(guī)?;汗?/p>
理能力可以幫助用戶高效地管理大規(guī)模的計(jì)算資源,以實(shí)現(xiàn)快速、高
效的計(jì)算和數(shù)據(jù)處理。
規(guī)?;汗芾響?yīng)具備的能力包括但不限于:
?應(yīng)提供統(tǒng)一的集群管理界面,支持對集群進(jìn)行統(tǒng)一配置和管
理,包括節(jié)點(diǎn)的資源管理、任務(wù)調(diào)度、網(wǎng)絡(luò)配置等;
?應(yīng)具備高效集群管理技術(shù),如自動化部署、自動化配置、自
動化維護(hù)等;
?應(yīng)支持實(shí)時(shí)節(jié)點(diǎn)監(jiān)控,包括節(jié)點(diǎn)的資源利用率、負(fù)載狀況、
故障檢測等;
?應(yīng)支持按需動態(tài)擴(kuò)展計(jì)算節(jié)點(diǎn);
?宜支持單集群規(guī)?;芾?00個(gè)以上的計(jì)算節(jié)點(diǎn)。
(六)高效作業(yè)調(diào)度
作業(yè)調(diào)度的核心在于,根據(jù)一定的策略和算法,將計(jì)算任務(wù)合理
地分配到計(jì)算資源上執(zhí)行的過程。作業(yè)調(diào)度的目標(biāo)是優(yōu)化資源利用、
提高計(jì)算性能,以滿足用戶需求并達(dá)到預(yù)定的服務(wù)質(zhì)量指標(biāo)。通過高
37
高性能計(jì)算云服務(wù)白皮書
效作業(yè)調(diào)度,高性能計(jì)算云服務(wù)可以優(yōu)化計(jì)算和資源管理,提高系統(tǒng)
的性能和效率,為用戶提供更好的服務(wù)和體驗(yàn)。
高效作業(yè)調(diào)度應(yīng)具備的能力包括但不限于:
?應(yīng)支持高效作業(yè)管理,應(yīng)具備作業(yè)提交、作業(yè)調(diào)度、作業(yè)監(jiān)
控等功能;
?應(yīng)具備高效的作業(yè)調(diào)度算法,支持根據(jù)不同的調(diào)度策略和優(yōu)
先級,合理調(diào)度作業(yè);
?應(yīng)具備按照作業(yè)計(jì)算性能需求,跨集群分配作業(yè)的能力;
?應(yīng)支持靈活配置多種調(diào)度策略,包括先到先服務(wù)、負(fù)載均衡
調(diào)度、公平共享調(diào)度、搶占調(diào)度、預(yù)留調(diào)度、數(shù)據(jù)感知調(diào)度
等;
?應(yīng)具備計(jì)算作業(yè)的計(jì)算資源限制和隔離能力;
?應(yīng)具備容錯(cuò)能力,支持故障作業(yè)重調(diào)度;
?應(yīng)支持支持傳統(tǒng)HPC作業(yè)和容器化作業(yè)的混合調(diào)度。
(七)靈活應(yīng)用部署
通過在集群環(huán)境中部署公共應(yīng)用程序等簡化應(yīng)用部署的方式,協(xié)
助用戶快速加載環(huán)境開始進(jìn)行計(jì)算,從而實(shí)現(xiàn)應(yīng)用的規(guī)模化和靈活部
署。通過靈活應(yīng)用部署能力,高性能計(jì)算云服務(wù)可以提高應(yīng)用程序的
可靠性、可擴(kuò)展性和可維護(hù)性,幫助用戶更好地適應(yīng)不同的計(jì)算需求
38
高性能計(jì)算云服務(wù)白皮書
和環(huán)境。
靈活應(yīng)用部署應(yīng)具備的能力包括但不限于:
?應(yīng)支持容器化部署能力;
?應(yīng)支持云端編排技術(shù),如Kubernetes等,以實(shí)現(xiàn)對應(yīng)用的容
器化管理、調(diào)度和協(xié)調(diào);
?應(yīng)提供自動化部署工具,如Ansible、Chef、Puppet等;
?應(yīng)支持根據(jù)應(yīng)用需求部署到不同類型的計(jì)算節(jié)點(diǎn),如CPU、
GPU、FPGA等。
(八)多層次安全防護(hù)
多層次安全防護(hù)是確保系統(tǒng)安全的關(guān)鍵能力。高性能計(jì)算云服務(wù)
應(yīng)提供全面的安全防護(hù)能力,覆蓋數(shù)據(jù)、應(yīng)用、平臺、設(shè)施等多個(gè)層
級,保護(hù)用戶數(shù)據(jù)和信息安全、防止網(wǎng)絡(luò)攻擊并維護(hù)業(yè)務(wù)連續(xù)性。
多層次安全防護(hù)應(yīng)具備的能力包括但不限于:
?應(yīng)具備數(shù)據(jù)安全防護(hù)能力
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年裝卸機(jī)械項(xiàng)目立項(xiàng)申請報(bào)告模式
- 2025年上海高級商場物業(yè)管理續(xù)簽合同協(xié)議
- 2025年膠片型相機(jī)、CCD相機(jī)、紅外相機(jī)、恒星相機(jī)項(xiàng)目規(guī)劃申請報(bào)告模板
- 2025年勞動合同法續(xù)約條件規(guī)定
- 優(yōu)化農(nóng)業(yè)產(chǎn)業(yè)供應(yīng)鏈的合同范例2025年
- 2025年設(shè)備租賃展示合同范本
- 2025年公共交通廣告安裝服務(wù)協(xié)議
- 2025年上海技術(shù)顧問合同
- 2025年建筑項(xiàng)目材料采購申請及供銷協(xié)議
- 2025年二手房產(chǎn)交易定金給付合同協(xié)議樣本
- 2024年中儲糧油脂有限公司招聘考試真題
- 新版人教版七年級下冊數(shù)學(xué)全冊教案教學(xué)設(shè)計(jì)含教學(xué)反思
- 2024公共數(shù)據(jù)授權(quán)運(yùn)營實(shí)施方案
- 硬筆書法全冊教案共20課時(shí)
- 《長方形的面積》-完整版課件
- 五年級上冊英語Module6Unit1Youcanplaybasketballwell外研社課件
- 工業(yè)企業(yè)現(xiàn)場監(jiān)測工況核查表
- 沉淀池及排水溝清理記錄表
- 玩具公司職位說明書匯編
- 04 第三章 環(huán)境污染物的生物轉(zhuǎn)運(yùn)和生物轉(zhuǎn)化 -毒物動力學(xué)
- ic半導(dǎo)體測試基礎(chǔ)(中文版)參考范本
評論
0/150
提交評論