版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
何萬(wàn)青阿里云高性能計(jì)算總監(jiān)基因研究預(yù)測(cè)017005011023029100MFlops100PFlopspsTFlopsps100基因研究預(yù)測(cè)017005011023029100MFlops100PFlopspsTFlopsps100TFlopsps100EFlopsps100GFlops10GFlopsps高性能計(jì)算(HighPerformanceComputing)是計(jì)算機(jī)科學(xué)的一個(gè)分支。主要聚焦于解決大規(guī)??茖W(xué)問(wèn)題的計(jì)算和海量數(shù)據(jù)的處理,如科學(xué)研究、氣象預(yù)報(bào)、計(jì)算模擬、軍事研究、CFD/CAE、生物制藥、基因測(cè)序、圖像處理等等。構(gòu)建高性能計(jì)算系統(tǒng)的主要目的就是提高運(yùn)算速度,要達(dá)到每秒萬(wàn)億次級(jí)的計(jì)算速度,對(duì)系統(tǒng)的處理器、內(nèi)存帶寬、運(yùn)算方式、系統(tǒng)I/O、存儲(chǔ)等方面的要求都十分高,這其中的每一個(gè)環(huán)節(jié)都將直接影響到系統(tǒng)的運(yùn)算速度。EFlopsPFlops里云超算阿里云3招拆解超算上云障礙低延遲RDMA50Gb網(wǎng)絡(luò)阿里云并行文件系統(tǒng)NAS/CPFS(Lustre*)低延遲RDMA50Gb網(wǎng)絡(luò)阿里云并行文件系統(tǒng)NAS/CPFS(Lustre*)ECS彈性裸金屬服務(wù)器?無(wú)硬件性能/特性損失?硬件隔離/獨(dú)占超級(jí)計(jì)算集群SCC?彈性資源?快速服務(wù)部署,橫向擴(kuò)展和熱遷移?運(yùn)維自動(dòng)化?統(tǒng)一服務(wù)接口最高配置的單一實(shí)例2.0ps50Gb8xv10096核384GB基于Virtualization2.0的ECS彈性裸金屬服務(wù)器E-HPC控制臺(tái)一鍵創(chuàng)建集群WAN客戶(hù)PC頭節(jié)點(diǎn)用戶(hù)與資源管理、作業(yè)調(diào)度計(jì)算節(jié)點(diǎn)并行運(yùn)行HPC作業(yè)LAN圖形節(jié)點(diǎn)圖形化的作業(yè)前后處理 (可選)文件存儲(chǔ)保存作業(yè)數(shù)據(jù)阿里云E-HPC服務(wù)超算中心或線(xiàn)下機(jī)房遠(yuǎn)程桌面訪(fǎng)問(wèn),或直接本地進(jìn)行前后處理一張圖描述E-HPCE-HPC控制臺(tái)一鍵創(chuàng)建集群WAN客戶(hù)PC頭節(jié)點(diǎn)用戶(hù)與資源管理、作業(yè)調(diào)度計(jì)算節(jié)點(diǎn)并行運(yùn)行HPC作業(yè)LAN圖形節(jié)點(diǎn)圖形化的作業(yè)前后處理 (可選)文件存儲(chǔ)保存作業(yè)數(shù)據(jù)阿里云E-HPC服務(wù)超算中心或線(xiàn)下機(jī)房遠(yuǎn)程桌面訪(fǎng)問(wèn),或直接本地進(jìn)行前后處理從傳統(tǒng)超算到云超算,將云服務(wù)整合為HPC集群客戶(hù)客戶(hù)PCEIPAgentAgentAgentAgent客戶(hù)云上HPC集群EIPAgentAgentAgentAgent客戶(hù)云上HPC集群登錄節(jié)點(diǎn)與管理節(jié)點(diǎn)圖登錄節(jié)點(diǎn)與管理節(jié)點(diǎn)用用戶(hù)資源管理、作業(yè)調(diào)度 (可選)AgentVPC計(jì)算節(jié)點(diǎn)文件存儲(chǔ)計(jì)算節(jié)點(diǎn)并行運(yùn)行HPC并行運(yùn)行HPC作業(yè)AgentEE-HPC管控服務(wù)Region署OpenAPI作業(yè)管理彈性伸縮軟件部署性能監(jiān)控資源管理E-HPC環(huán)境搭建、部署與使用群開(kāi)通并創(chuàng)建NAS任務(wù)提交和數(shù)據(jù)導(dǎo)入控制臺(tái)提交作業(yè)命令行提交作業(yè)OSS數(shù)據(jù)導(dǎo)入集諦性能分析工具彈性伸縮和可視化配置自動(dòng)伸縮服務(wù)縮實(shí)例低至1折,至少保持1小用時(shí)長(zhǎng)E-HPC讓云超算強(qiáng)大易用AlibabaCloudE-HPC精確到小時(shí)的付費(fèi)粒度時(shí)釋放VPC服務(wù)(虛擬專(zhuān)用網(wǎng)絡(luò))PBS/Slurm/GridEngine登錄節(jié)點(diǎn)GROMACS/LAMMPS/NAMD/GAUSSIAN……管控節(jié)點(diǎn)×M交作業(yè)低至1折,至少保持1小用時(shí)長(zhǎng)E-HPC讓云超算強(qiáng)大易用AlibabaCloudE-HPC精確到小時(shí)的付費(fèi)粒度時(shí)釋放VPC服務(wù)(虛擬專(zhuān)用網(wǎng)絡(luò))PBS/Slurm/GridEngine登錄節(jié)點(diǎn)GROMACS/LAMMPS/NAMD/GAUSSIAN……管控節(jié)點(diǎn)×M交作業(yè)看結(jié)果虛擬交換機(jī)儲(chǔ)服務(wù) (共享文件系統(tǒng))服務(wù) (公網(wǎng)IP)安全組/云盾資源管理作業(yè)管理日志報(bào)表結(jié)果務(wù)GNU(gcc/g++/gfortran…)/Autotools(autoconf…)SCC/CPU計(jì)算型/GPU計(jì)算計(jì)算節(jié)點(diǎn)×N按周/月/年預(yù)付費(fèi),長(zhǎng)期使用成本大減集群停機(jī)不收費(fèi)單集群支持?jǐn)U容多種規(guī)格計(jì)算節(jié)點(diǎn)鏡像市場(chǎng)與容器:鏡像市場(chǎng)與容器:支持鏡像市場(chǎng)鏡像部署集群,支持HPC容器模式一鍵啟動(dòng)集群,一鍵修復(fù)異常集群務(wù)(對(duì)象存儲(chǔ)務(wù)(對(duì)象存儲(chǔ))MPICH/OpenMPI/BLAS/Boost/CUDA…署模式:OneBox模式查看配置清單查看配置清單查查看配置拓?fù)鋱DSSHSSH登陸提交作業(yè)和查看導(dǎo)入/導(dǎo)出作業(yè)文件業(yè)調(diào)度器id對(duì)象存儲(chǔ)OSS對(duì)象存儲(chǔ)OSS控制臺(tái)命令行上傳數(shù)據(jù)通過(guò)OSS導(dǎo)入數(shù)據(jù)wgethttp://e-hpc-quickstart.vpc100-oss-cn-/test.datacurl-Ohttp://e-hpc-quickstart.vpc100-oss-cn-/test.data私用Bucket?臨時(shí)含簽名的URL?通過(guò)HTTP訪(fǎng)問(wèn)VPC網(wǎng)絡(luò)Endpoint導(dǎo)入數(shù)據(jù)作業(yè)運(yùn)行性能分析:CloudMetrics|集諦集群維度,定位實(shí)例熱集群維度,定位實(shí)例熱點(diǎn)函數(shù)熱點(diǎn)視圖進(jìn)程維度,定位函數(shù)熱點(diǎn)實(shí)例維度,定位進(jìn)程熱點(diǎn)節(jié)點(diǎn)性能視圖軟件進(jìn)程視圖作業(yè)進(jìn)程與函數(shù)級(jí)?對(duì)指定進(jìn)程進(jìn)行性能剖析?顯示各進(jìn)程函數(shù)堆棧視圖,分析函數(shù)熱點(diǎn)OS級(jí)?顯示當(dāng)前Top進(jìn)程?顯示Top進(jìn)程CPU占用率和內(nèi)存占用率CPU級(jí)?顯示CPU總體占用率、用戶(hù)態(tài)和內(nèi)核態(tài)占用率?顯示CPU本地內(nèi)存帶寬和總內(nèi)存帶寬磁盤(pán)、網(wǎng)絡(luò)與外設(shè)?顯示磁盤(pán)吞吐率、磁盤(pán)利用率?顯示網(wǎng)絡(luò)總吞吐率、入方向和出方向吞吐率?顯示GPU帶寬、GPU利用率、顯存利用率、功耗…?按作業(yè)運(yùn)行檢索,按作業(yè)周期進(jìn)行查看?多指標(biāo)同時(shí)間軸顯示,可對(duì)比分析低性能受益難結(jié)構(gòu)網(wǎng)格,非結(jié)構(gòu)、無(wú)結(jié)構(gòu)…CPU型號(hào),核數(shù),網(wǎng)絡(luò),文件系統(tǒng),內(nèi)SOA低性能受益難結(jié)構(gòu)網(wǎng)格,非結(jié)構(gòu)、無(wú)結(jié)構(gòu)…CPU型號(hào),核數(shù),網(wǎng)絡(luò),文件系統(tǒng),內(nèi)SOA/AOS,負(fù)載均衡,并行化,向量化,循環(huán)優(yōu)化(block,unrollandjam,reorder…)…修改源碼或可借助編譯器進(jìn)行優(yōu)化throughput/CPI),指令流水(亂序執(zhí)行),分支預(yù)測(cè)…運(yùn)行環(huán)境 運(yùn)行平臺(tái))程序?qū)崿F(xiàn)CPU微架構(gòu)客戶(hù)應(yīng)用云上優(yōu)化:優(yōu)化方法運(yùn)運(yùn)行環(huán)境 +運(yùn)行平臺(tái))程序?qū)崿F(xiàn)程序?qū)崿F(xiàn)CPUCPU微架構(gòu)2.性能優(yōu)化的關(guān)鍵是定位性能問(wèn)題,確定優(yōu)化點(diǎn)。程序?qū)崿F(xiàn)CPU微架構(gòu)程序?qū)崿F(xiàn)CPU微架構(gòu)應(yīng)集群級(jí)?層級(jí)遞進(jìn)的性能監(jiān)控工具集群級(jí)運(yùn)行環(huán)境 運(yùn)行平臺(tái))運(yùn)行環(huán)境 運(yùn)行平臺(tái))節(jié)點(diǎn)級(jí)(系統(tǒng)資源飽和度),與作業(yè)調(diào)度按節(jié)點(diǎn)維度,查看指標(biāo)間的變化關(guān)聯(lián);按指標(biāo)維度,查看不同節(jié)點(diǎn)間的指標(biāo)差異。進(jìn)程級(jí)(進(jìn)程信息),查看節(jié)點(diǎn)占用OS時(shí)函數(shù)級(jí)(熱點(diǎn)函數(shù)),確定占用CPU資源最多的函數(shù)信息——bottom-up(熱點(diǎn)函數(shù))和top-down(邏輯調(diào)用關(guān)系)。登錄節(jié)點(diǎn)與管理節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)用戶(hù)資源管理、作業(yè)調(diào)度并行運(yùn)行HPC作業(yè)登錄節(jié)點(diǎn)與管理節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)用戶(hù)資源管理、作業(yè)調(diào)度并行運(yùn)行HPC作業(yè)登錄節(jié)點(diǎn)與管理節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)用戶(hù)資源管理、作業(yè)調(diào)度并行運(yùn)行HPC作業(yè)基于作業(yè)負(fù)載的彈性伸縮登錄節(jié)點(diǎn)與管理節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)用戶(hù)資源管理、作業(yè)調(diào)度并行運(yùn)行HPC作業(yè)登錄節(jié)點(diǎn)與管理節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)用戶(hù)資源管理、作業(yè)調(diào)度并行運(yùn)行HPC作業(yè)登錄節(jié)點(diǎn)與管理節(jié)點(diǎn)計(jì)算節(jié)點(diǎn)用戶(hù)資源管理、作業(yè)調(diào)度并行運(yùn)行HPC作業(yè)作業(yè)負(fù)作業(yè)負(fù)載t2,需4個(gè)節(jié)點(diǎn),作業(yè)1繼續(xù)運(yùn)行無(wú)新作業(yè)提交時(shí)間點(diǎn)t1:提交作業(yè)1需4個(gè)節(jié)點(diǎn)運(yùn)行時(shí)間點(diǎn)t0,無(wú)作業(yè)提交登錄節(jié)點(diǎn)與管理節(jié)登錄節(jié)點(diǎn)與管理節(jié)點(diǎn)用戶(hù)資源管理、作業(yè)調(diào)度計(jì)算節(jié)點(diǎn)并行運(yùn)行HPC計(jì)算節(jié)點(diǎn)??E-HPC管控服務(wù)監(jiān)控調(diào)度器作業(yè)資源需求,動(dòng)態(tài)創(chuàng)建/刪除計(jì)算節(jié)點(diǎn)(數(shù)據(jù)保留在共享存儲(chǔ)),按實(shí)際負(fù)載彈性計(jì)費(fèi)。?可針對(duì)調(diào)度器隊(duì)列制定差異化的伸縮策略,支持搶占式實(shí)例,支持跨可用區(qū)伸縮,降低客戶(hù)使用成本?;谧鳂I(yè)負(fù)載的彈性伸縮彈性伸縮縮容擴(kuò)容縮容節(jié)點(diǎn)連續(xù)空閑次數(shù)額外節(jié)點(diǎn)百分比擴(kuò)容時(shí)間間隔縮節(jié)點(diǎn)連續(xù)空閑次數(shù)額外節(jié)點(diǎn)百分比擴(kuò)容時(shí)間間隔縮容時(shí)間間隔例外節(jié)點(diǎn)列表擴(kuò)容比例節(jié)點(diǎn)數(shù)量E-HPC閑時(shí)計(jì)算方案與混合云將成本作為重要因素的云上計(jì)算方案,利用以下技術(shù)將云上普惠的高性能計(jì)算服務(wù)提供給絕大部分HPC用戶(hù)?搶占式實(shí)例:控制計(jì)算資源在期望的成本之下?自動(dòng)伸縮:自動(dòng)擴(kuò)容搶占式實(shí)例,無(wú)需用戶(hù)干預(yù)?斷點(diǎn)續(xù)算:在計(jì)算資源被釋放和重新獲取之后,作業(yè)可以續(xù)算?在算例輸入文件中設(shè)定步長(zhǎng)?在作業(yè)提交腳本中設(shè)定checkpoint文件生成的時(shí)間間隔作業(yè)后處理作業(yè)運(yùn)行作業(yè)后處理作業(yè)運(yùn)行數(shù)據(jù)全流程可視化作業(yè)運(yùn)行——可視化性能分析?節(jié)點(diǎn)性能:按節(jié)點(diǎn)查看物理資源性能?進(jìn)程性能:按進(jìn)程查看軟件運(yùn)行性能?性能剖析:剖析進(jìn)程,查看函數(shù)級(jí)性能數(shù)據(jù)作作業(yè)前處理作業(yè)前處理——可視化編輯?調(diào)度器配置項(xiàng)可視化?控制臺(tái)直接作業(yè)文件編輯器作業(yè)后處理——計(jì)算結(jié)果可視化?控制臺(tái)直接提供Web化的圖形桌面?支持云圖站等多種可視化服務(wù)連接實(shí)例使用連接實(shí)例使用控制臺(tái)遠(yuǎn)程可視化創(chuàng)創(chuàng)建實(shí)例創(chuàng)建可視化集群創(chuàng)建可視化實(shí)例連接實(shí)例創(chuàng)建可視化集群創(chuàng)建可視化實(shí)例連接實(shí)例可視化設(shè)置流程創(chuàng)創(chuàng)建計(jì)算集群??為連接會(huì)話(huà)提供token鑒權(quán)?每個(gè)用戶(hù)每次會(huì)話(huà)都有獨(dú)立的token?關(guān)閉連接后失效?管理一個(gè)或多個(gè)可視化實(shí)例?負(fù)責(zé)實(shí)例狀態(tài)的維護(hù)?管理實(shí)例連接token生命周期?支持不同硬件配置(CPU/內(nèi)存/GPU)?桌面型實(shí)例:每個(gè)實(shí)例提供一個(gè)遠(yuǎn)程桌面?App型實(shí)例:每個(gè)實(shí)例提供一個(gè)遠(yuǎn)程App?不同子賬號(hào)可分配不同實(shí)例?實(shí)例與計(jì)算集群數(shù)據(jù)互通阿里云阿里云VPCE-HPC計(jì)算集群EE-HPC計(jì)算集群E-HPC可視化實(shí)例數(shù)數(shù)據(jù)共享E-HPCNAS共享存儲(chǔ)⑥創(chuàng)建后處理作業(yè)能計(jì)算集群戶(hù)訪(fǎng)問(wèn)阿里云控制臺(tái)③提交作業(yè)到調(diào)度器、執(zhí)行HPC工作流與數(shù)據(jù)遷移⑥創(chuàng)建后處理作業(yè)能計(jì)算集群戶(hù)訪(fǎng)問(wèn)阿里云控制臺(tái)③提交作業(yè)到調(diào)度器、執(zhí)行控制流據(jù)傳輸方案控制流數(shù)據(jù)流⑦下載作業(yè)結(jié)果數(shù)據(jù)流⑦下載作業(yè)結(jié)果硬盤(pán)快遞上門(mén),適合TB級(jí)數(shù)據(jù)高速通道服務(wù)數(shù)據(jù)中心①上傳作
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 倉(cāng)儲(chǔ)出租合同范本
- 國(guó)際采購(gòu)協(xié)議
- 正規(guī)民間個(gè)人借款合同樣書(shū)
- 鋼梁制造與組裝短期勞務(wù)合同
- 石英砂采購(gòu)合同長(zhǎng)約談判
- 購(gòu)銷(xiāo)合同中的管材售后服務(wù)與技術(shù)支持
- 跨境電商物流合同
- 內(nèi)部建筑裝修合同樣本
- 白酒代理權(quán)協(xié)議示例
- 空白合同作廢合同法的應(yīng)用解析
- 云南省2024年7月高中學(xué)業(yè)水平合格性考試生物試卷
- 中國(guó)傳統(tǒng)文化(西安交通大學(xué))知到智慧樹(shù)章節(jié)測(cè)試課后答案2024年秋西安交通大學(xué)
- 2024年社區(qū)工作者考試必考1000題【歷年真題】
- 公司安全事故隱患內(nèi)部舉報(bào)、報(bào)告獎(jiǎng)勵(lì)制度
- 冬季傳染病預(yù)防-(課件)-小學(xué)主題班會(huì)課件
- 會(huì)計(jì)學(xué)原理智慧樹(shù)知到期末考試答案章節(jié)答案2024年西北農(nóng)林科技大學(xué)
- 新時(shí)代大學(xué)生勞動(dòng)教育智慧樹(shù)知到期末考試答案章節(jié)答案2024年江西中醫(yī)藥大學(xué)
- 中國(guó)玉石及玉文化鑒賞智慧樹(shù)知到期末考試答案章節(jié)答案2024年同濟(jì)大學(xué)
- 眼視光學(xué)理論和方法智慧樹(shù)知到期末考試答案2024年
- 2024年陜西西安自貿(mào)港投資集團(tuán)及下屬公司招聘筆試參考題庫(kù)含答案解析
- qingming scroll《清明上河圖新解》英文PPT
評(píng)論
0/150
提交評(píng)論