華為:數(shù)據(jù)密集型超算發(fā)展白皮書_第1頁
華為:數(shù)據(jù)密集型超算發(fā)展白皮書_第2頁
華為:數(shù)據(jù)密集型超算發(fā)展白皮書_第3頁
華為:數(shù)據(jù)密集型超算發(fā)展白皮書_第4頁
華為:數(shù)據(jù)密集型超算發(fā)展白皮書_第5頁
已閱讀5頁,還剩91頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

數(shù)據(jù)密集型超算發(fā)展白皮書2023超級計算創(chuàng)新聯(lián)盟數(shù)據(jù)密集型超算工作組2023年8月顧問陳國良張云泉周躍峰主編金鐘林新華唐卓張興軍王毅肖利民王怡東龐鑫顧雪軍潘景山李少波韋建文王繼彬高巍蘇亮徐恩松張洋李亞子賈海鵬韓振興王旭東編委(排名按姓氏拼音不分先后)陳陽陳振華柴旭清戴奇志段芳成丁江波樊春范靖龔斌高亦沁高芬郭武郭洪星胡俊胡廣超李會民李昕偉劉暢李斌杰魯蔚征郄軍利宋平宋天宇孫曉藝孫敏淮唐小勇王青王成偉王繼彬王炳強萬林魏旗鵬姚舸曾帆曾令仿張凱麗張震鄒有趙順存王世葆感謝以下機構(gòu)參編支持(排名不分先后):北京大學(xué)北京航空航天大學(xué)長沙理工大學(xué)貴州大學(xué)河南師范大學(xué)湖南大學(xué)蘭州大學(xué)南京大學(xué)上海交通大學(xué)山東大學(xué)深圳大學(xué)西安交通大學(xué)中國人民大學(xué)中國醫(yī)學(xué)科學(xué)院中國科學(xué)技術(shù)大學(xué)中南大學(xué)超級計算創(chuàng)新聯(lián)盟國家超算濟南中心國家超算長沙中心華為技術(shù)有限公司科大訊飛嶗山實驗室聯(lián)科中國鵬城實驗室青島國實科技有限公司中科院科學(xué)計算所中國信息通信研究院之江實驗室化建設(shè)能力的一個重要體現(xiàn),被譽為"國之重器”。數(shù)據(jù)密集型超算,是高性能計算與人工智能、大數(shù)據(jù)等新一代信息技術(shù)融合后圍繞數(shù)據(jù)價密集型超算的典型應(yīng)用場景。數(shù)據(jù)的準(zhǔn)備至關(guān)重?fù)蜨PDA(HPC+大數(shù)據(jù)+Al)多系統(tǒng)融合業(yè)務(wù)發(fā)展。陳國良很好的契機,促使我們?nèi)ハ到y(tǒng)化地思考超算的過AlGC熱潮的背后其實就是超級計算機技術(shù)與超算從誕生開始就致力于加速重大科研的創(chuàng)新,而超算與Al的融合將實現(xiàn)科研創(chuàng)新的又一次Meta基于650億參數(shù)和4.5TB訓(xùn)練數(shù)據(jù)開發(fā)了LLaMA,而OpenAl基于1750億參數(shù)和570GB訓(xùn)上不及GPT-3.5的50%,但其表現(xiàn)能力在多數(shù)基了8倍。由此可見,提升Al大模型精度、數(shù)據(jù)規(guī)?!耙粯蝻w架南北,天塹變通途”,超算互聯(lián)正所謂內(nèi)行看門道,互聯(lián)普遍意義上是指算力的互聯(lián),實際上數(shù)據(jù)的互聯(lián)和流動才是超算互聯(lián)的底·從超算中心的物理部署來看,需要實現(xiàn)不同超算中心的數(shù)據(jù)互聯(lián),并提供跨地域、跨系統(tǒng)的全局統(tǒng)一數(shù)據(jù)視圖以及調(diào)度。讓任意位置的數(shù)據(jù)都隨時隨地可快速訪問,并實現(xiàn)數(shù)據(jù)的按需分級與流業(yè)務(wù)集群間的數(shù)據(jù)互聯(lián)。這是因為數(shù)據(jù)密集型HPDA往往對應(yīng)的是數(shù)據(jù)驅(qū)動的一套序貫式科學(xué)業(yè)務(wù)流,譬如基因測序往往包括文庫制備、格式轉(zhuǎn)換以及生信分析等多個業(yè)務(wù)階段,傳統(tǒng)意義上不同的業(yè)務(wù)集群往往是煙囪式獨立建設(shè)模式,頻繁的數(shù)據(jù)因此,我們認(rèn)為超算互聯(lián)要面向多樣化業(yè)務(wù)要構(gòu)建安全、可靠的統(tǒng)一數(shù)據(jù)底座,基于高性能專業(yè)存儲的多協(xié)議、冷熱溫自動分級以及全局文件系統(tǒng)水不腐戶樞不蠹,數(shù)據(jù)只有在更大范圍的充分流動與共享,才能真正促進信息的數(shù)字化,才會有價值超算中心大規(guī)模集群化,低碳綠色成為關(guān)鍵訴求。E級超算的建設(shè)當(dāng)前已經(jīng)是屢見不鮮,并且隨著整體應(yīng)用算力需求與單卡之間的算力剪刀差持續(xù)加大,導(dǎo)致集群規(guī)模越來越大。盡管大規(guī)模集群往往意味著國之重器,科研利器,但與此同時超算系統(tǒng)的能耗和散熱問題日益突出。因此,提高超算系統(tǒng)的能效比和降低碳排放已經(jīng)成為超算行業(yè)的重要超算中心以及智算中心由于其極致的業(yè)務(wù)性能訴求,特別是隨著AIGC業(yè)務(wù)的爆發(fā),高性能的全閃專業(yè)存儲將成為首選。全閃存一方面意味著應(yīng)用性能的極致表現(xiàn);另一方面在單位容量的功耗上要大幅降低。不僅如此,隨著業(yè)界閃存大容量盤的加速推出,其逐步凸顯的性價比優(yōu)勢也將加速業(yè)界全隨著超算業(yè)務(wù)的多樣化趨勢,算力的多元化以及數(shù)據(jù)的多模態(tài)發(fā)展愈發(fā)明顯。數(shù)據(jù)密集型應(yīng)用驅(qū)動在算力層面GPU占比越來越高。提升GPU的資足相對確定的應(yīng)用算力需求,提高能效比。在存儲創(chuàng)新方面,一方面通過面向混合負(fù)載的極致高性能,通過減少GPU在數(shù)據(jù)加載等待時間提升利用率;另一方面還可以有通過近存計算實現(xiàn)近數(shù)據(jù)預(yù)處理,讓數(shù)據(jù)在存儲就完成部分?jǐn)?shù)據(jù)準(zhǔn)備任務(wù),減這次數(shù)據(jù)密集型超算發(fā)展白皮書2023的發(fā)布,正好是在Al大模型這樣的時代背景下,其對于中國超算行業(yè)之重大意義,絲毫不亞于無線通訊領(lǐng)域從3G/4G時代突破式地邁向了5G時代。在全新的產(chǎn)業(yè)賽道上,中國科技要攜手起來堅定并堅持自華為公司副總裁1數(shù)據(jù)密集型超算最新趨勢 1.1數(shù)據(jù)密集型趨勢下,高性能計算面臨六大挑戰(zhàn)和需求011.2數(shù)據(jù)密集型應(yīng)用加速發(fā)展,對存儲性能提出更高要求021.3HPC和Al融合,加速改變科研及生產(chǎn)效率051.4超算互聯(lián)上升至世界各國國家戰(zhàn)略,數(shù)據(jù)基礎(chǔ)設(shè)施先行081.5超算安全關(guān)系國計民生,數(shù)據(jù)資產(chǎn)安全成為重點1.6中國“數(shù)據(jù)基礎(chǔ)設(shè)施”關(guān)鍵根技術(shù)有突破、有創(chuàng)新,可支持全棧自主可控141.7提高能效比和降低碳排放,支持超算發(fā)展和持續(xù)演進152數(shù)據(jù)密集型超算技術(shù)架構(gòu) 2.1HPC與AI走向融合,構(gòu)建“5A”新型超算架構(gòu)172.2AnyApplication:新型應(yīng)用不斷涌現(xiàn),數(shù)據(jù)密集型超算應(yīng)具備豐富的應(yīng)用18生態(tài)承載及演進能力 2.3AnyWorkload:多技術(shù)融合帶來多樣負(fù)載,數(shù)據(jù)密集型超算應(yīng)具備承載動21態(tài)混合負(fù)載及應(yīng)用加速能力2.3.1HPC+Al+BigData多樣性應(yīng)用,需要動態(tài)混合負(fù)載承載能力2.3.2E級大規(guī)模應(yīng)用,需要近計算實現(xiàn)加速222.3.3超算“性能墻”和“能耗墻”兩大挑戰(zhàn),推動分布式全閃存儲替代勢在必行232.4Anywhere:多地域超算互聯(lián),需要跨域全局?jǐn)?shù)據(jù)統(tǒng)一管理能力242.4.1算力和數(shù)據(jù)協(xié)同調(diào)度,數(shù)據(jù)全局可視242.4.2數(shù)據(jù)分級管理,應(yīng)用無感訪問242.5AnyCondition:全方位可信設(shè)計,保障業(yè)務(wù)永遠(yuǎn)在線,數(shù)據(jù)永不丟失252.5.1應(yīng)對數(shù)據(jù)風(fēng)險與業(yè)務(wù)風(fēng)險挑戰(zhàn),超算平臺進行全方面安全保障252.5.2應(yīng)對災(zāi)難事件時生產(chǎn)中斷挑戰(zhàn),超算平臺穩(wěn)定性設(shè)計保障業(yè)務(wù)永遠(yuǎn)在線262.5.3數(shù)字資產(chǎn)作為企業(yè)核心財富,存儲數(shù)據(jù)要做到永遠(yuǎn)可靠不丟失272.6AnyView:多應(yīng)用場景的統(tǒng)一智能管理平臺提升管理效率272.6.1統(tǒng)一設(shè)備管理系統(tǒng),提升運維管理效率2.6.2超算建設(shè)模式走向集約化,需要統(tǒng)一高效的作業(yè)管理282.6.3數(shù)據(jù)全生命周期管理,夯實高效、全面、智能的數(shù)據(jù)底座283數(shù)據(jù)密集型超算優(yōu)秀實踐3.1國家超算濟南中心:打造中國最大規(guī)模數(shù)據(jù)密集型超算應(yīng)用標(biāo)桿293.1.1國超濟南中心發(fā)展勢頭迅猛,構(gòu)建引領(lǐng)全球科技發(fā)展的“最強大腦”293.1.2面對海量數(shù)據(jù)存儲和計算效率的挑戰(zhàn),國超濟南中心積極追求HPC架構(gòu)轉(zhuǎn)型293.1.3國超濟南中心采用統(tǒng)一存儲底座,打造標(biāo)桿級新型超算中心303.1.4統(tǒng)一存力底座助力國超濟南中心成就超算標(biāo)桿303.2上海交通大學(xué):Al存力基座助力教育科研發(fā)展313.2.1Al時代,學(xué)校高性能計算中心面臨新場景海量數(shù)據(jù)挑戰(zhàn)3.2.2“一存力,多算力”的統(tǒng)一存力基座方案3.2.3存力基座助力教育科研發(fā)展3.3中國醫(yī)學(xué)科學(xué)院:全棧自主可控、GPU生信加速打造安全、高效的基因測序超算平臺3.3.1快速測序、海量基因數(shù)據(jù)存儲成為基因測序領(lǐng)域的重大挑戰(zhàn)3.3.2高效、敏捷、自主可控的一站式基因測序全棧解決方案3.3.3全棧國產(chǎn)化平臺助力醫(yī)學(xué)科研成果轉(zhuǎn)化3.4科大訊飛:高性能、穩(wěn)定可靠的統(tǒng)一數(shù)據(jù)管理底座是大模型訓(xùn)練的關(guān)鍵3.4.1Al大模型訓(xùn)練中的挑戰(zhàn)3.4.2強強聯(lián)合,打造最佳大模型算力+存力全棧方案3.4.3在HPC與AI的融合創(chuàng)新中走向獨立自主數(shù)據(jù)密集型超算發(fā)展白皮書2023數(shù)據(jù)密集型超算最新趨勢數(shù)據(jù)密集型趨勢下,高性能計算面臨六大挑戰(zhàn)和需求2025》報告預(yù)測,從2018年至2025年,全球數(shù)據(jù)將從2018年的33ZB增至2025年的175ZB,數(shù)據(jù)量2018年的7.6ZB到2025年將增至48.6ZB,占全球數(shù)據(jù)圈比重將從23.4%發(fā)展到27.8%,中國將成為助人們從海量的數(shù)據(jù)中探索人類社會和宇宙的未的爆炸性增長,科學(xué)計算(即“第三范式”)中的在此趨勢下,我們發(fā)現(xiàn)在高性能計算在應(yīng)用新的數(shù)據(jù)密集型應(yīng)用,產(chǎn)生了新的數(shù)據(jù)模了Al智能高度。發(fā)展先進數(shù)據(jù)存力基礎(chǔ)設(shè)權(quán)。1數(shù)據(jù)密集型超算最新趨勢應(yīng)用,數(shù)據(jù)密集型化應(yīng)用,數(shù)據(jù)密集型化互聯(lián),跨域全局管理新安全,數(shù)據(jù)資產(chǎn)保護全棧自主可控綠色,軟硬系統(tǒng)節(jié)能圖1-1高性能計算六大挑戰(zhàn)和需求隨著與大數(shù)據(jù)、Al等新的數(shù)據(jù)分析技術(shù)和工具結(jié)合,HPC的訴求從以數(shù)值計算為主,衍生到與大數(shù)據(jù)知識挖掘及Al訓(xùn)練推理結(jié)合的HPDA高性能數(shù)據(jù)分析時代。大數(shù)據(jù)、Al技術(shù)及科學(xué)觀測儀器能力提升,給應(yīng)用帶來更大的處理數(shù)據(jù)量。同時新的數(shù)據(jù)密集型應(yīng)用,產(chǎn)生了新的數(shù)據(jù)模型,驅(qū)動新的近數(shù)據(jù)計算架構(gòu)發(fā)展。隨著物聯(lián)網(wǎng)技術(shù)、大數(shù)據(jù)技術(shù)的飛速發(fā)展,超算系統(tǒng)處理的數(shù)據(jù)量爆炸式增長。得益于科學(xué)觀測儀器能力的不斷提升,大幅提高了采集的速度和廣度,如:高通量測序儀通量從幾十個GB,提升到現(xiàn)在幾個TB級別通量;全球數(shù)以百萬計的傳感器都在一臺冷凍電鏡6TB/一臺冷凍電鏡1臺基因測序儀對宇宙、氣象、生物、物理和化學(xué)過程進行實時觀測和記錄,在取得更好的計算或者模擬效果的同時也產(chǎn)生大量觀測數(shù)據(jù)。計算設(shè)備運行各種科學(xué)模型任務(wù),在進行大規(guī)模模擬計算的同時會產(chǎn)生大量的科學(xué)數(shù)據(jù)。1顆遙感衛(wèi)星1個高能同步輻射光源中心1立方厘米->PB類腦研究1立方厘米->PB類腦研究1個SKA平方公里陣列圖1-2典型超算場景的數(shù)據(jù)量數(shù)據(jù)密集型超算發(fā)展白皮書2023從初步統(tǒng)計看,目前大部分典型的超算應(yīng)用起步檔已經(jīng)是PB級。面向新興的應(yīng)用譬如腦科學(xué)等,其單場景的數(shù)據(jù)規(guī)模則可能更大。制造CAE制作仿真、設(shè)計仿真動畫渲染圖像渲染、動畫制作計算物理-數(shù)值方法分析計算分子性質(zhì)根據(jù)測試和分析,數(shù)據(jù)量的變大,會導(dǎo)致對應(yīng)的計算數(shù)據(jù)模型和存儲訪問數(shù)據(jù)模型也發(fā)生較大變化?;驕y序、氣象預(yù)測、油氣勘探等數(shù)據(jù)密集型應(yīng)用相對分子動力學(xué)、化學(xué)等數(shù)值型計算應(yīng)用,在寫IOPS和讀寫帶寬上產(chǎn)生數(shù)量級的增加,其文件大讀IOPS寫IOPS讀帶寬寫帶寬文件大小分子動力學(xué)小文件化學(xué)3小文件基因組序列比對大文件(IO為128K以上,文件>=1GB)氣象數(shù)值預(yù)報模式預(yù)測大文件(IO為128K以上,文件>=1GB)油氣勘探大文件(IO為4K以下,文件>=1MB)和小文件并存數(shù)據(jù)預(yù)處理NFS仿真NFS/CIFS驗證NFS/HDFS海量小文件極致OPS和時延<1ms時延數(shù)據(jù)導(dǎo)入圖1-4自動駕駛數(shù)據(jù)流圖數(shù)據(jù)收集導(dǎo)入S3單客戶端順序?qū)懘笪募?shù)據(jù)預(yù)處理大文件聚合順序讀,多客戶端順序?qū)懶∥募嗑€程小IO隨機讀多個小文件仿真單線程大IO順序讀大文件表1-2自動駕駛業(yè)務(wù)數(shù)據(jù)模型分析數(shù)據(jù)密集型超算發(fā)展白皮書2023Al賦能機理計算是目前超算的一大趨勢,通過數(shù)據(jù)驅(qū)動Al計算,利用人工智能技術(shù)對機理計算進行優(yōu)化和加速,提高計算效率和精度,從而實現(xiàn)更加準(zhǔn)確的預(yù)測和決策。例如日前國際頂級學(xué)術(shù)期刊《Nature》雜志正刊發(fā)表了華為云盤古大模型研發(fā)團隊研究成果《三維神經(jīng)網(wǎng)絡(luò)用于精準(zhǔn)中期全球天氣預(yù)報》。受限于氣象觀測的準(zhǔn)確度,大氣系統(tǒng)中物理過程的復(fù)雜性,傳統(tǒng)數(shù)值方法所需計算資源規(guī)模巨大,全球中期天氣預(yù)報的有效性每10年才提高1天。而華為盤古氣象大模型是首個精度超過傳統(tǒng)數(shù)值預(yù)報方法的Al模型,速度相比傳統(tǒng)數(shù)值預(yù)報提速10000倍以上,改變了近些年數(shù)值天氣預(yù)報精度提升緩慢的瓶頸??茖W(xué)計算科學(xué)計算(HPDA=HPC+BigData+Al)機理計算與Al計算相結(jié)合30天→1天算不了、算不準(zhǔn)、算不動計算效率提高1000倍,計算空間尺度增大1001.3.2數(shù)據(jù)決定Al智能的高度,數(shù)據(jù)存儲成為大模型時代的核心基礎(chǔ)設(shè)施一、數(shù)據(jù)數(shù)量和質(zhì)量決定Al智能的高度的算法、多么龐大的算力都無法帶來高質(zhì)量的成數(shù)據(jù)中的規(guī)律。然而基于小規(guī)模數(shù)據(jù)所建立的模聚合策略來減少預(yù)報迭代次數(shù),從而減少迭代誤二、數(shù)據(jù)存儲是大模型時代發(fā)展Al的核心基礎(chǔ)設(shè)施練集,但是當(dāng)前海量小文件的加載速度不足其三,大模型參數(shù)頻繁調(diào)優(yōu),訓(xùn)練平臺不穩(wěn)一站式交付1.3.3發(fā)展先進數(shù)據(jù)存力基礎(chǔ)設(shè)施,是構(gòu)建大模型時代高質(zhì)量發(fā)展的基石一、支持?jǐn)?shù)據(jù)新范式:數(shù)據(jù)編織大幅縮短Al大模型數(shù)據(jù)準(zhǔn)備時間二、高性能、向量檢索加速Al高性能存儲:大、小文件自適應(yīng)讀寫,高三、面向Al業(yè)務(wù)模型分析的可靠數(shù)據(jù)存儲服務(wù)四、支持?jǐn)?shù)據(jù)價值精準(zhǔn)識別與治理,降低數(shù)據(jù)全生命周期管理TCO客戶端自動failover到其他集群對應(yīng)的備份目錄。預(yù)處理服務(wù)器訓(xùn)練服務(wù)墨推理服務(wù)器訓(xùn)練數(shù)據(jù)傳輸在儲網(wǎng)絡(luò)優(yōu)化性能型存儲(必選)容量型存儲全局?jǐn)?shù)據(jù)視圖向暈化存儲近數(shù)據(jù)隨路處理原始數(shù)據(jù)層圖1-8面向Al先進存力基礎(chǔ)設(shè)施超算互聯(lián)上升至世界各國國家戰(zhàn)略,數(shù)據(jù)基礎(chǔ)設(shè)施先行美國將高性能數(shù)據(jù)密集型基礎(chǔ)設(shè)施上升至國家任務(wù),2023年3月10日美國能源部(DOE)宣布了一項提案,要求國家實驗室主導(dǎo)高性能數(shù)據(jù)設(shè)施集型科學(xué)先進基礎(chǔ)設(shè)施的新科學(xué)用戶設(shè)施,DOE預(yù)計HPDF項目在投資約為3-5億美元。HPDF的使命將是通過提供最先進的數(shù)據(jù)管理基礎(chǔ)架構(gòu)、功能和工具來實現(xiàn)和加速科學(xué)發(fā)現(xiàn)。HPDF將在管理科學(xué)數(shù)據(jù)生命周期方面發(fā)揮領(lǐng)導(dǎo)作用,并將推進能源部和政府對公眾獲取科學(xué)數(shù)據(jù)和公平數(shù)據(jù)原則(可查找、可訪問、可互操作和可重復(fù)使用)的承諾。該設(shè)施將設(shè)計為動態(tài)配置計算、網(wǎng)絡(luò)和存儲資源,以訪問靜止或運動中的數(shù)據(jù),支持使用精心策劃的數(shù)據(jù)集,以及直接從實驗或儀器數(shù)據(jù)密集型超算發(fā)展白皮書2023DOE的研究機構(gòu)之間經(jīng)常有任務(wù)式的PB級大數(shù)據(jù)量搬運,數(shù)據(jù)增長越來越快,且新型科學(xué)研究需要科研機構(gòu)之間的大數(shù)據(jù)量互訪。能源部設(shè)想,將以HPDF為基礎(chǔ)采用“Hub-and-Spoke”模型,在Hub處托管集中的資源,并通過在Spoke或其他地點部署和協(xié)調(diào)分布式基礎(chǔ)設(shè)施來支持高優(yōu)先級的美國能源部任務(wù)應(yīng)用。Hub和Spoke將通過Esnet進行互聯(lián)。1.4.2歐洲成立超算聯(lián)合體,構(gòu)建一體化超算基礎(chǔ)設(shè)施一、“一體化超算基礎(chǔ)設(shè)施”成為歐洲未來超算建設(shè)重點施,支撐歐洲高競爭力創(chuàng)新的HPC&大數(shù)據(jù)生態(tài)的使命。2021-2033年期間將投資80億歐元新預(yù)算用于持續(xù)擴大部署世界級的超算中心,其中Federation2023+項目,計劃互聯(lián)所有EuroHPC系統(tǒng)的HPC資源并提供以下服務(wù):(1)身份驗證、授權(quán)和認(rèn)證服務(wù);(2)算力服務(wù),包括交互式計算和云接入-虛擬機-容器的服務(wù);(3)數(shù)據(jù)服務(wù),包括歸檔服務(wù)和數(shù)據(jù)庫服務(wù),數(shù)據(jù)流動和傳輸服務(wù);(4)用戶和資源管理服務(wù)。二、意大利打造“國家數(shù)據(jù)湖云計算基礎(chǔ)設(shè)施”,打破計算存儲資源孤島壁壘該中心超算建設(shè)戰(zhàn)略目標(biāo)是為國家戰(zhàn)略部門(超算,人工智能,數(shù)值模擬等)提供創(chuàng)新ICT資近年來,在科技部和各省市政府的積極推動技創(chuàng)新、社會民生、數(shù)字經(jīng)濟發(fā)展。隨著以大數(shù)接口不統(tǒng)一、應(yīng)用軟件自主研發(fā)和推廣不足等問為了解決上述挑戰(zhàn),科技部于2023年4月啟動國家超算互聯(lián)網(wǎng)部署工作,用互聯(lián)網(wǎng)思維運營超臺。按照計劃,到2025年底,國家超算互聯(lián)網(wǎng)將正式啟動國家超算互聯(lián)網(wǎng)數(shù)據(jù)密集型超算發(fā)展白皮書2023國家超級計算濟南中心(以下簡稱“濟南超算”)在超算互聯(lián)走在了全國前列。2022年7月22日,2022中國算力峰會,超算互聯(lián)網(wǎng)工程正式上圖1-12超算互聯(lián)網(wǎng)上線啟用圖1-13“東數(shù)西算”數(shù)據(jù)存儲集群系統(tǒng)上線濟南超算率先在建設(shè)省域沿黃9市的算力平臺,并逐步構(gòu)建濟南超算-山西超算-西安超算-鄭圖1-14山東省16地市超算互聯(lián)網(wǎng)規(guī)劃超算安全關(guān)系國計民生,數(shù)據(jù)資產(chǎn)安全成為重點1.5.1國家級網(wǎng)絡(luò)攻擊對抗愈演愈烈,科研重點單位成為重點目標(biāo)之一超算中心是國家計算基礎(chǔ)設(shè)施,是推動科研創(chuàng)新和工業(yè)發(fā)展的關(guān)鍵動力,其平臺及數(shù)據(jù)安全關(guān)乎國計民生,也是國家級黑客組織的重點攻擊目標(biāo)之一。近年來,隨著網(wǎng)絡(luò)空間大國博弈的持續(xù)深入,網(wǎng)絡(luò)攻擊從民間組織上升到國家級黑客組織,對他國開展網(wǎng)絡(luò)攻擊、網(wǎng)絡(luò)竊密等活動已屢見不鮮。2022年3月,根據(jù)360公司報告披露,具有境外背景的黑客組織對中國開展無差別網(wǎng)絡(luò)攻擊,攻擊行為極為隱蔽,持續(xù)長達十余年。目標(biāo)對象涵蓋了黨政機關(guān)、科研院所、高等院校、醫(yī)療機構(gòu)、行業(yè)龍頭企業(yè),以及關(guān)乎國計民生的各個行業(yè)關(guān)鍵信2022年9月,國家計算機病毒應(yīng)急處理中心和360公司分別發(fā)布了關(guān)于西北某高校遭受境外網(wǎng)絡(luò)攻擊的調(diào)查報告。調(diào)查顯示,境外組織使用40余種網(wǎng)網(wǎng)絡(luò)交換機、路由器、防火墻等數(shù)以萬計的網(wǎng)絡(luò)設(shè)2023年7月,奇安信公司發(fā)布的《全球高級持續(xù)性威脅(APT)2023年中報告》顯示,2023年上半年全球范圍內(nèi),政府部門和國防軍事領(lǐng)域是APT攻擊的首要目標(biāo)。與去年同期相比,教育、科研領(lǐng)域相關(guān)的攻擊事件比例增高,占比分別為11%和9%。從近年網(wǎng)絡(luò)攻擊態(tài)勢看,國家級黑客組織的猖獗活動將愈發(fā)增多、愈演愈烈,各類基礎(chǔ)設(shè)施的安全將長期處于前所未有的戰(zhàn)略承壓期和高危風(fēng)險期,這一特征在相當(dāng)長一段時間內(nèi)不會改變。媒體3%加密貨幣4%通信4%醫(yī)療4%政府科研9%科研9%1.5.2各國陸續(xù)出臺法律法規(guī),提升數(shù)據(jù)戰(zhàn)略地位,加強數(shù)據(jù)安全保護力度雖然2020年受疫情影響,全球整體經(jīng)濟增長減石。和2020年行動計劃》。聯(lián)邦數(shù)據(jù)戰(zhàn)略以2020年為2020年2月,歐盟發(fā)布了《歐盟數(shù)字化戰(zhàn)設(shè)能力的“國之重器”,各國均頻繁從國家層面啟動研制計劃。在中國多次上榜全球高性能計算TOP500后,高性能計算從產(chǎn)業(yè)鏈條和技術(shù)層面被遏制,中國E級和后E級高性能計算的發(fā)展遇到為唯一出路!面對挑戰(zhàn),中國超算產(chǎn)業(yè)需要在超算數(shù)據(jù)密集型超算發(fā)展白皮書2023 聚合帶寬>10TB/s聚合IOPS>3億IO時延<500us 具備端到端全棧自主可控能力容器應(yīng)用平臺并跑并跑并跑存儲介質(zhì)長江,長鑫等國家廠家并跑圖1-16中國“數(shù)據(jù)基礎(chǔ)設(shè)施”關(guān)鍵根技術(shù)持續(xù)突破創(chuàng)新,實現(xiàn)安全自主可控提高能效比和降低碳排放支持超算發(fā)展和持續(xù)演進計算能力所消耗的能源量。下圖是過去10年根據(jù)圖1-17近10年Green500最佳超算計算機能效比只能提高不到100倍?,F(xiàn)在E級計算機能耗大概50兆瓦,按此推算Z級計算機能耗大約在500兆瓦左1.7.2通過軟硬件設(shè)計優(yōu)化提升超級計算機能效,實現(xiàn)超算系統(tǒng)可持續(xù)發(fā)展能耗,提高能源利用效率;采用更先進的散熱技其次,改進軟件設(shè)計也是提高能源效率的關(guān)至1.22,實現(xiàn)年均節(jié)電量300萬千瓦時。超級計算機的能源效率是一個重要的研究領(lǐng) 可能數(shù)據(jù)密集型超算發(fā)展白皮書2023數(shù)據(jù)密集型超算技術(shù)架構(gòu)HPC與Al走向融合,構(gòu)建“5A”新型超算架構(gòu)為更好應(yīng)對新應(yīng)用帶來的生態(tài)復(fù)雜性變化、新業(yè)務(wù)催生的混合業(yè)務(wù)負(fù)載壓力、新數(shù)據(jù)與算力協(xié)同帶來的數(shù)據(jù)跨地域訪問需求、新平臺帶來的安全穩(wěn)定可靠及數(shù)據(jù)管理挑戰(zhàn),需要構(gòu)建以應(yīng)用為中心,構(gòu),能夠更好應(yīng)對數(shù)據(jù)密集型超算的新需求,實現(xiàn)以數(shù)據(jù)和應(yīng)用為中心,支撐任何應(yīng)用生態(tài),承載任何業(yè)務(wù)負(fù)載在任何位置訪問,應(yīng)對任何狀況在線,并可通過統(tǒng)一視圖管理。管理監(jiān)控圖示2-1數(shù)據(jù)密集型超算異構(gòu)融合全棧架構(gòu) 2數(shù)據(jù)密集型超算技術(shù)架構(gòu)Load等混合負(fù)載訴求,需要近計算加速Burst量數(shù)據(jù),提供統(tǒng)一數(shù)據(jù)存儲,實現(xiàn)跨超算中心的戶管理、多維度數(shù)據(jù)透視,實現(xiàn)設(shè)備狀態(tài)持續(xù)監(jiān)AnyApplication:新型應(yīng)用不斷涌現(xiàn),數(shù)據(jù)密集型超算應(yīng)具備豐富的應(yīng)用生態(tài)承載及演進能力會有10-20倍的膨脹,達到10PB級別。油氣勘探具備支持多協(xié)議互通、科學(xué)計算工作流優(yōu)化等能2.2.1應(yīng)用快速發(fā)展,需要多協(xié)議融合互通能力支撐業(yè)務(wù)未來演進(1)從業(yè)務(wù)角度來看,各種應(yīng)用需要不同的協(xié)議來支撐用的融合超算,需要支撐兼容業(yè)務(wù)應(yīng)用的多種協(xié)(2)應(yīng)用不斷演進,新的協(xié)議還將層出不窮協(xié)議接口,做到系統(tǒng)內(nèi)部改動最小,接口迭代開(3)超算應(yīng)具備容器native承載能力2.2.2數(shù)據(jù)分析廣泛應(yīng)用,需要支持科學(xué)計算工作流,提升業(yè)務(wù)效率率。(1)存儲需要支持科學(xué)計算工作流,目錄刷新以Al模型訓(xùn)練為例,業(yè)務(wù)流主要包括數(shù)據(jù)獲計算處理流程張量井行向量讀取模型加載計算處理流程張量井行向量讀取模型加載流程階段流程階段三方收集、網(wǎng)絡(luò)爬取、邊緣匯聚..原始數(shù)據(jù)->訓(xùn)練數(shù)據(jù)原始數(shù)據(jù)+訓(xùn)練+調(diào)優(yōu)+評估-》模型輸入數(shù)據(jù)+模型->Vector->應(yīng)用基礎(chǔ)大模型訓(xùn)&推理預(yù)處理服務(wù)器行業(yè)模型訓(xùn)推一體化基礎(chǔ)大模型訓(xùn)&推理預(yù)處理服務(wù)器則0邊緣存儲數(shù)據(jù)并行數(shù)據(jù)并行索引數(shù)據(jù)索引數(shù)據(jù)智能分級熱溫冷智能分級跨域數(shù)據(jù)災(zāi)備熱溫冷智能分級跨域數(shù)據(jù)災(zāi)備展為兼容多模態(tài),海量數(shù)據(jù)分配到不同CPU、(2)利用Al模型優(yōu)化傳統(tǒng)業(yè)務(wù)計算流,取得了愈加顯著的效果國氣象局臺風(fēng)路徑預(yù)報精度很難控制在60km范圍過程迭代次數(shù)減少,累積誤差減小,計算更加高效,實現(xiàn)10秒~1分鐘內(nèi)出7天預(yù)報結(jié)果,每天可進數(shù)據(jù)模型初值,生成預(yù)報集合(集合預(yù)報),進一模型狀態(tài)氣象預(yù)報服務(wù)AnyWorkload:多技術(shù)融合帶來多樣負(fù)載,數(shù)據(jù)密集型超算應(yīng)具備承載動態(tài)混合負(fù)載及應(yīng)用加速能力多樣性應(yīng)用,需要動態(tài)混合負(fù)載承載能力隨著自動駕駛技術(shù)由L3向L4演進,數(shù)據(jù)量倍增,每車每天可產(chǎn)生約60TB數(shù)據(jù)。數(shù)據(jù)收集往在10KB-500KB之間。訓(xùn)練階段需要從存算平臺的數(shù)據(jù)存儲系統(tǒng)能同時滿足高性能計算超算平臺的數(shù)據(jù)存儲系統(tǒng)需要設(shè)計動態(tài)均衡能2.3.2E級大規(guī)模應(yīng)用,需要近計算實現(xiàn)加速重要部署,將有力驅(qū)動國家信息技術(shù)產(chǎn)業(yè)創(chuàng)新發(fā)展,研發(fā)適配國產(chǎn)超級計算系統(tǒng)的關(guān)鍵技術(shù)和應(yīng)用十大應(yīng)用”,例如:面向通用人工智能的超大規(guī)模巡天圖像處理、全腦千億神經(jīng)元動力學(xué)仿真、完全分辨率的全球次中尺度海洋數(shù)值模擬等,以解決世上述大規(guī)模應(yīng)用對E級超算系統(tǒng)帶來了如下挑大規(guī)模RDMA連接導(dǎo)致內(nèi)存資源開銷大、網(wǎng)絡(luò)交互對整體系統(tǒng)可靠性:業(yè)界E級大規(guī)模集群MTBF較計算接入網(wǎng)絡(luò)存儲接入同絡(luò)性能帶來更大挑戰(zhàn);(3)如何應(yīng)對并發(fā)的作業(yè)間的互相干擾:10性能無法達到預(yù)期,單系統(tǒng)利用率不高;(4)如何避免少量存儲節(jié)點慢對整體速度的影響:少量存儲節(jié)點處于亞健康狀態(tài),導(dǎo)致的短木板效應(yīng)。BurstBuffer作為在E級超算中應(yīng)用的一種高速緩存技術(shù),需要提供近計算加速部署,突破性能和擴容性瓶頸,利用分布式計算的優(yōu)勢加速大規(guī)模應(yīng)用計算問題的解決。同時,也要求計算節(jié)點和緩存節(jié)點根據(jù)拓?fù)潢P(guān)系分組配對,就近創(chuàng)建作業(yè),作業(yè)2.3.3超算“性能墻”和“能耗墻”兩大挑戰(zhàn),推動分布式全閃存儲替代勢在必行傳統(tǒng)超算的存儲系統(tǒng)大多使用基于HDD構(gòu)建的分布式文件系統(tǒng),并配置一定比例的SSD作為算平臺上運行,要求超算平臺的存儲系統(tǒng)提供近展三年行動計劃(2021-2023年)》提出到2021年底,新建大型及以上數(shù)據(jù)中心PUE降低到1.35以下。到2023年底,新建大型及以上數(shù)據(jù)中心降低能耗,而以HDD為主的存儲系統(tǒng)則無法滿足SSD的成本也在不斷走低,在數(shù)據(jù)密集型超算系統(tǒng)中使用SSD替代HDD成為主流存儲介質(zhì)成為可能。SSD所具備的以下優(yōu)勢,將助力超算中心實時,機械硬盤的磁片內(nèi)圈和外圈會有3倍以上的性能差異,訪問不同的數(shù)據(jù)塊,時延會在3~10ms之間抖動。而全閃存儲可采用從主機接口到硬盤的統(tǒng)0.5ms以內(nèi)。將單次訪問時延從5ms降低到1ms。這使得SSD既可以應(yīng)對高帶寬的性能需HDD的1%以下。數(shù)據(jù)密集型超算系統(tǒng)中約有50%-70%數(shù)據(jù)為冷數(shù)據(jù),存放于歸檔類存儲設(shè)存儲能很好的解決數(shù)據(jù)密集型超算中心的“性能Anywhere:多地域超算互聯(lián),需要跨域全局?jǐn)?shù)據(jù)統(tǒng)一管理能力打造從邊緣一中心協(xié)同新型數(shù)據(jù)平臺,提供統(tǒng)一數(shù)據(jù)存儲,能對數(shù)據(jù)進行跨域互聯(lián),跨域數(shù)據(jù)全局統(tǒng)一管理,數(shù)據(jù)在任何位置都能輕松就近訪問,2.4.1算力和數(shù)據(jù)協(xié)同調(diào)度,數(shù)據(jù)全局可視速發(fā)展的潮流中,超算中心作為各行各業(yè)的關(guān)鍵基礎(chǔ)設(shè)施,為我國經(jīng)濟轉(zhuǎn)型升級提供了重要支撐。在國家政策的有力指引下,傳統(tǒng)數(shù)據(jù)中心加快向具有高技術(shù)、高算力、高能效、高安全特征的新型數(shù)據(jù)中心演進,新型超算中心是指以支撐經(jīng)濟社會數(shù)字轉(zhuǎn)型、智能升級、融合創(chuàng)新為導(dǎo)向,具備安全可靠能力、提供高效算力服務(wù)、賦能千行百業(yè)應(yīng)用的新隨著網(wǎng)絡(luò)支撐能力不斷提升,新型超算中心之間通過互聯(lián)互通,算力水平也高效提升。算力與應(yīng)用數(shù)據(jù)通過網(wǎng)絡(luò)實現(xiàn)分散拉遠(yuǎn)的作用,把單一應(yīng)用場景任務(wù)調(diào)用遠(yuǎn)程算力實現(xiàn),把分散應(yīng)用數(shù)據(jù)通過網(wǎng)絡(luò)聯(lián)接協(xié)同,把分散的算力與應(yīng)用數(shù)據(jù)通過網(wǎng)絡(luò)數(shù)據(jù)存儲通過算力網(wǎng)絡(luò)構(gòu)建數(shù)據(jù)存儲集群系統(tǒng),實現(xiàn)對多DC全局設(shè)備互聯(lián)和全局?jǐn)?shù)據(jù)共享流動。通過全局文件系統(tǒng)組成全局名字空間,連通多調(diào)度的應(yīng)用場景,支撐上層應(yīng)用跨域調(diào)度時必需的數(shù)據(jù)透明調(diào)度能力,助力應(yīng)用業(yè)務(wù)流在不同存儲場全局文件系統(tǒng)(簡稱GFS)將分布在不同地域存儲設(shè)備中的非結(jié)構(gòu)化數(shù)據(jù)跨地域?qū)崟r同步,呈現(xiàn)相同的數(shù)據(jù)視圖給所有地域的用戶和應(yīng)用,實現(xiàn)了數(shù)據(jù)按需、自定義流動,滿足跨域分析(Al訓(xùn)練,大數(shù)據(jù)分析)等多種應(yīng)用場景高效使用數(shù)據(jù)需求。數(shù)據(jù)存儲在不同的超算中心,根據(jù)預(yù)定義的策略在不同地域的存儲設(shè)備間同步或緩存數(shù)據(jù),提供應(yīng)用無感的數(shù)據(jù)流動與訪問的能力;支持多站點協(xié)作和數(shù)據(jù)按需、自定義流動,構(gòu)建全局任意位置、動、協(xié)作的基礎(chǔ)能力,打破數(shù)據(jù)孤島,孵化存儲高2.4.2數(shù)據(jù)分級管理,應(yīng)用無感訪問對業(yè)務(wù)應(yīng)用來講,并不是所有的數(shù)據(jù)都具有相同的使用價值。隨著時間的推移,有些數(shù)據(jù)被頻繁訪問,而有些數(shù)據(jù)很少被訪問,有些數(shù)據(jù)甚至在最大量的低使用價值數(shù)據(jù)既占用了高性能、高可靠的寶貴的系統(tǒng)資源、嚴(yán)重影響性能,又占用了大量存儲空間,但往往這些數(shù)據(jù)又由于政策法規(guī)、數(shù)據(jù)倉庫建設(shè)等原因不能刪除。如何解決這些不常用的數(shù)據(jù)的保存問題,是目前超算中心面臨的數(shù)據(jù)管不丟失算系統(tǒng)被攻擊,核心數(shù)據(jù)將會受到直接威脅。因2.5.1應(yīng)對數(shù)據(jù)風(fēng)險與業(yè)務(wù)風(fēng)險挑戰(zhàn),超算平臺進行全方面安全保障更改配置等方式,使用戶資產(chǎn)或資源無法正常使測的方式,存儲管理員自主創(chuàng)建多個按需掃描任務(wù),定義需要掃描的命名空間,系統(tǒng)執(zhí)行按需掃2)防勒索的情況下,能夠保障非授權(quán)人員對泄露數(shù)據(jù)不可2.5.2應(yīng)對災(zāi)難事件時生產(chǎn)中斷挑戰(zhàn),超算平臺穩(wěn)定性設(shè)計保障業(yè)務(wù)永遠(yuǎn)在線務(wù)系統(tǒng)能切換到其他可用數(shù)據(jù)中心(站點),繼續(xù)承災(zāi)害、掉電、誤操作導(dǎo)致的站點整體故障),上層統(tǒng)及部署方式有關(guān)),保障數(shù)據(jù)持續(xù)可訪問、業(yè)務(wù)數(shù)據(jù)密集型超算發(fā)展白皮書20232.5.3數(shù)字資產(chǎn)作為企業(yè)核心財富,存儲數(shù)據(jù)要做到永遠(yuǎn)可靠不丟失數(shù)據(jù)中心往往不可避免地發(fā)生設(shè)備故障,甚至極端情況下的數(shù)據(jù)中心故障。其中設(shè)備故障指設(shè)備的硬件、軟件出現(xiàn)損壞和故障,例如磁盤損壞、節(jié)點故障、網(wǎng)絡(luò)故障等。如何在設(shè)備故障甚至數(shù)據(jù)中心故障的情況下做到整個系統(tǒng)的可用、數(shù)據(jù)永遠(yuǎn)不丟失,是面臨的一個挑戰(zhàn)與難題。超算平臺需要通過模塊級可靠性、節(jié)點級可靠性、系統(tǒng)級可靠性、解決方案級可靠性等專業(yè)設(shè)計,以及精準(zhǔn)的制造加工、系統(tǒng)運維管理等,來提供高可靠性。使用靈活的數(shù)據(jù)故障域安全布局和冗余保護策略,并通過端到端的數(shù)據(jù)完整性保護和各種故障場景下的數(shù)據(jù)保護設(shè)計,實現(xiàn)數(shù)據(jù)信息的高可靠存儲和業(yè)務(wù)處理,和對本地的數(shù)據(jù)提供保護;使用數(shù)據(jù)中心災(zāi)備的技術(shù),保障在極端數(shù)據(jù)中心故障的情況下,對整體數(shù)據(jù)進行保護,保障數(shù)據(jù)永遠(yuǎn)不丟失。多應(yīng)用場景的統(tǒng)一智能管理平臺提升管理效率隨著業(yè)務(wù)的快速增長,數(shù)據(jù)密集型超算系統(tǒng)的規(guī)模變得越來越大,建設(shè)模式從分散式走向集約化,跨域協(xié)同成為超算業(yè)務(wù)的新常態(tài),大規(guī)??绲赜虻臄?shù)據(jù)密集型超算管理面臨著巨大挑戰(zhàn),提供統(tǒng)一智能全視角的管理平臺成為基礎(chǔ)能力。提供全視角的可視化管理,和多維度視圖透視能力,讓各個維度的系統(tǒng)狀態(tài)看得見、看得清,大幅提升用戶管理效率,降低系統(tǒng)運維難度。2.6.12.6.1統(tǒng)一設(shè)備管理系統(tǒng),提升運維管理效率目前超算中心設(shè)備類型復(fù)雜,計算、網(wǎng)絡(luò)、存儲等不同系統(tǒng)管理方式存在差異,再加上超算中心規(guī)模日益擴大,設(shè)備運維管理效率也愈發(fā)降低。首先,對于不同設(shè)備類型管理,需要統(tǒng)一界面管理硬件基礎(chǔ)設(shè)施,實現(xiàn)設(shè)備集中管理,解決不同設(shè)備類型管理的問題,提升用戶的運維效率。其次,在設(shè)備運維方面,用戶無法實時直觀地了解和監(jiān)控各個數(shù)據(jù)中心資源的運行情況,運維人員對故障的定界、定位困難。最后,在資源管理方面,傳統(tǒng)業(yè)務(wù)的部署和擴容方式無法靈活應(yīng)對突發(fā)的流量,需要面對以上挑戰(zhàn),第一,智能管理平臺需要實現(xiàn)統(tǒng)一界面對數(shù)據(jù)中心不同硬件設(shè)備的管理,包括管理物理服務(wù)器,交換機、存儲設(shè)備等,解決對不同設(shè)備類型的管理困難問題。第二,在設(shè)備運維方面,平臺不僅需要支持對設(shè)備的監(jiān)控還支持對不同設(shè)備進行配置和維護操作,還需要周期性的對相關(guān)設(shè)備進行健康檢測,對設(shè)備健康度進行智能預(yù)測,讓用戶提前識別異常指標(biāo),提高運維效率。第三,在資源優(yōu)化方面,通過智能管理幫助用戶對資源及時進行調(diào)整,保證資源承載業(yè)務(wù)的平穩(wěn)運行。因此,用戶可以在統(tǒng)一界面上完成對數(shù)據(jù)中心基礎(chǔ)設(shè)2.6.2超算建設(shè)模式走向集約化,需要統(tǒng)一高效的作業(yè)管理統(tǒng),實現(xiàn)讓數(shù)據(jù)貼近計算,讓任務(wù)找到合適的算2.6.3數(shù)據(jù)全生命周期管理,夯實高效、全面、智能的數(shù)據(jù)底座精確的規(guī)劃IT投資。第二,數(shù)據(jù)存儲系統(tǒng)孤島嚴(yán)計,支撐多維度資源分析,包括容量、性能、分?jǐn)?shù)據(jù)冷熱分布、冗余分布、容量分布、類型統(tǒng)計數(shù)據(jù)密集型超算優(yōu)秀實踐3.1國家超算濟南中心:打造中國最大規(guī)模數(shù)據(jù)密集型超算應(yīng)用標(biāo)桿“國家超級計算濟南中心”建有中國首臺全部統(tǒng),標(biāo)志著中國成為繼美國、日本之后能夠采用自3.1.1國超濟南中心發(fā)展勢頭迅猛,構(gòu)建引領(lǐng)全球科技發(fā)展的“最強大腦”科技強國政策背景下,我國開始大力發(fā)展和推進HPC事業(yè),建立隸屬于科技部的國家超級計算中心,用于發(fā)展高性能計算相關(guān)產(chǎn)業(yè)與應(yīng)用。截至2021年,科技部批準(zhǔn)建立了國家超算濟南中心、國家超算天津中心、國家超算深圳中心等八所國家超目前,國超濟南中心正在主導(dǎo)山東省“超算互聯(lián)網(wǎng)工程”,研制建設(shè)算力領(lǐng)先的多元算力集群,通過根植山東、覆蓋全國、輻射全球的超算互聯(lián)網(wǎng)建設(shè),構(gòu)建“E級超算、人工智能、大數(shù)據(jù)、工業(yè)互聯(lián)網(wǎng)”等大科學(xué)裝置集群,形成國際一流的“超算大腦”,力爭成為推動國家基礎(chǔ)科學(xué)進步和重大技術(shù)攻關(guān),并實現(xiàn)自主可控的超算中心,助力山東人工智能、大數(shù)據(jù)等新型應(yīng)用進入到超算科研領(lǐng)域,推動濟南超算改革創(chuàng)新發(fā)展,由單一計算服務(wù)向計算加多元數(shù)據(jù)處理服務(wù)變化。面臨變化和挑挑戰(zhàn)一:數(shù)據(jù)量的激增,帶來傳輸與存儲成本的挑戰(zhàn)。國超濟南中心規(guī)劃存儲可用空間為原始數(shù)據(jù)不僅多且雜;二是數(shù)據(jù)多環(huán)節(jié)處理計算,帶來數(shù)據(jù)的過度膨脹。伴隨人工智能及大數(shù)據(jù)等新興產(chǎn)業(yè)的爆炸式增長,超算需要處理更多數(shù)據(jù),既有結(jié)構(gòu)化數(shù)據(jù)又有非結(jié)構(gòu)化數(shù)據(jù),而在線傳輸這些耗費數(shù)月,這些都是超算中心在轉(zhuǎn)型過程中無法規(guī)挑戰(zhàn)二:存儲資源搶占導(dǎo)致整體計算效率不任務(wù)并發(fā)造成存儲資源搶占,則會導(dǎo)致整體計算效率被拉低。例如生命科學(xué)作業(yè)等大帶寬類作業(yè)增多時,傳統(tǒng)存儲會因資源搶占,計算效率降低50%,CPU利用率不足30%,從而影響整個超算中心的作業(yè)務(wù)融合過程中,也面臨著數(shù)據(jù)管理及數(shù)據(jù)孤島的挑戰(zhàn)。在提供如人工計算、大數(shù)據(jù)、虛擬化和災(zāi)備象存儲、大數(shù)據(jù)的HDFS存儲等),都會增加管理3.1.3國超濟南中心采用統(tǒng)一存儲底座,打造標(biāo)桿級新型超算中心應(yīng)用生態(tài)山河HPC山河云人工智能易算云并行云更多…覆蓋領(lǐng)域氣候氣象材料科學(xué)工業(yè)仿真生物醫(yī)院大科學(xué)裝置更多…VASPWRFLammpsOpenFOAMANSY容災(zāi)備份負(fù)載均衡數(shù)據(jù)隔離鑒權(quán)認(rèn)證監(jiān)控報警微服務(wù)集群管理作業(yè)調(diào)度數(shù)學(xué)計算庫MPI通信庫編譯環(huán)境操作系統(tǒng)驅(qū)動機器峰值性能60Pflops總存儲容量200PB網(wǎng)絡(luò)帶寬1TB/s人工智能計算峰值性能1000Pops山河超級計算平臺神威藍(lán)光神威E級原型機求,提升業(yè)務(wù)效率,加速業(yè)務(wù)創(chuàng)新;整體帶寬超數(shù)據(jù)密集型超算發(fā)展白皮書2023國超濟南中心定制開發(fā),基于數(shù)據(jù)流動任務(wù)和策略,實現(xiàn)數(shù)據(jù)流動的服務(wù)化和可視化,基于用戶數(shù)據(jù)屬性標(biāo)簽化進行定制開發(fā),實現(xiàn)數(shù)據(jù)流動的安全管理,集超級計算、大數(shù)據(jù)、人工智能于一體的統(tǒng)一開放超算互聯(lián)平臺??芍С譂?、青島、淄博等跨域超算中心的統(tǒng)一資源調(diào)度、統(tǒng)一數(shù)據(jù)管理、統(tǒng)一用戶管理、統(tǒng)一入口、統(tǒng)一監(jiān)控、統(tǒng)一運維、統(tǒng)一運營,解決數(shù)據(jù)孤島、海量數(shù)據(jù)互通難、數(shù)據(jù)全生命周期安全管理難的痛點。001.data數(shù)據(jù)共享流動總線900.dataHDFS生產(chǎn)青島2022-01-1_無論是國家政策導(dǎo)向還是超算中心降本增效的考量,綠色節(jié)能已逐步落地到生產(chǎn)和經(jīng)營的方方面面。在數(shù)據(jù)中心層面,采用高密存儲資源池是理想的解決方案,可以極大縮減數(shù)據(jù)中心空間和能耗的開支,由此帶來的高資源利用率和高成本效益是驅(qū)動高密全閃存儲系統(tǒng)的重要因素。國超濟南中心選擇高密全閃統(tǒng)一存儲底座,具備敏捷性、高效率、可用性、安全性、面向云業(yè)務(wù)的適配性的特點,基于業(yè)界領(lǐng)先的技術(shù)和架構(gòu),與我國全面推動的“新基建”戰(zhàn)略高度契合。同時,高密全閃統(tǒng)一存儲底座高密度、低功耗的特點可以顯著降低超算中心PUE,降低運營成本20%,助力濟南超算成為全球超算中心的領(lǐng)跑者。上海交通大學(xué)擁有全國高校最大規(guī)模的超算集群,包括國內(nèi)高校最大的高性能計算平臺思源一號、國內(nèi)高校前列的計算平臺π2.0、搭載了國產(chǎn)ARM芯片的Kunpeng超算平臺、云計算平臺jCloud2.0,以及人工智能計算平臺。在超算科研能力的加持下,學(xué)校在量子計算與量子通信、生物醫(yī)學(xué)工程、新能源與環(huán)境保護、人工智能與機器3.2.13.2.1Al時代,學(xué)校高性能計算中心面臨新場景海量數(shù)據(jù)挑戰(zhàn)1、數(shù)據(jù)爆發(fā)式增長,容量需求高有八項場景的數(shù)據(jù)量都在PB級別,分別是氣象海2、Al等新業(yè)務(wù)涌現(xiàn),對性能要求愈來愈高級小文件訓(xùn)練集的讀取時間為60s,需求單節(jié)點性能300萬IOPS;3TB參數(shù)CheckPoint在60s內(nèi)寫3、傳統(tǒng)AI本地盤訓(xùn)練,伴隨高并發(fā)數(shù)據(jù)分析,要打破IO墻本地盤->CPU內(nèi)存->GPU顯存;checkpoint涉顯存顯存容量型存儲預(yù)處理內(nèi)存本地盤4、跨校區(qū)多集群存儲共用需求(用戶體上海交通大學(xué)現(xiàn)有6個校區(qū),分別為:徐匯校區(qū)、閔行校區(qū)、黃浦校區(qū)、長寧校區(qū)、七寶校區(qū)、浦東校區(qū),總占地面積300余萬平方米,各校區(qū)同市但相距較遠(yuǎn)。各校區(qū)共有5套存儲集群,用戶業(yè)務(wù)的集群選擇是個問題,異地校區(qū)數(shù)據(jù)訪問存在數(shù)據(jù)丟失、作業(yè)啟動失敗、運行慢等問題,影響使用5、校超實踐發(fā)現(xiàn)問題:傳統(tǒng)超算方案重計算,輕存儲,存算比不合理在多年的教育科研實踐中,管理著全國高校最大規(guī)模超算的上海交大信息中心發(fā)現(xiàn):傳統(tǒng)超算重視算力的需求,但忽視存儲系統(tǒng)的建設(shè)。同時,經(jīng)典的超算系統(tǒng)評測方案也以算力為主,以此為指導(dǎo)設(shè)計出的集群不能滿足Al模型訓(xùn)練、生物醫(yī)學(xué)等新型數(shù)據(jù)應(yīng)用場景的需求,會出現(xiàn)集群跑分高,實際應(yīng)用差,存算比低,數(shù)據(jù)存儲和讀寫成瓶頸等問3.2.2“一存力,多算力”的統(tǒng)一存力基座方案面對時代的趨勢和新技術(shù)的挑戰(zhàn),為滿足全院教師學(xué)生教育科研、學(xué)習(xí)生活的需求,學(xué)校在超算“一存力,多算力”以實踐為基礎(chǔ),上海交大提出了“一存力,多算力”的發(fā)展戰(zhàn)略。2019年建設(shè)45PB存力,2023年又?jǐn)U容25PB,形成總?cè)萘?0PB的統(tǒng)一存力基座,支撐上海交大5個高性能計算平臺的數(shù)據(jù)存儲需要。統(tǒng)一的存儲基座支撐了全校900+課題組、2000+校內(nèi)用戶的數(shù)據(jù)需求,有效應(yīng)對海量數(shù)據(jù)時代的存儲壓力,形成了一套高校信息化建設(shè)的思源一號提升帶寬與IOPS性能業(yè)務(wù)高效,每節(jié)點80的數(shù)據(jù)存儲需求。萬IOPS,帶寬20GB/s,有效支持Al等新業(yè)3數(shù)據(jù)密集型超算優(yōu)秀實踐務(wù)場景需求?!駞f(xié)議互通:無需協(xié)議轉(zhuǎn)換,天然支持對象、文件、大數(shù)據(jù)等多協(xié)議互通?!褡灾骺煽兀喝鬃灾骺煽兀瑥母唇鉀Q安全問題,有效只是學(xué)校國產(chǎn)化軟件開發(fā)、適配、性能調(diào)優(yōu)等課題研究?!窨缧^(qū)用戶與算力間互聯(lián):基座方案中,六個校區(qū)算力可以統(tǒng)一訪問位于閔行校區(qū)的存儲中心,并通過GFS全局命名空間,實現(xiàn)跨域數(shù)據(jù)訪問,真正做到算力跟著數(shù)據(jù)走。3.2.3存力基座助力教育科研發(fā)展(一)高性能計算中心提供學(xué)科融合服務(wù),上海交大高性能計算平臺創(chuàng)立“交我算”品牌,在國內(nèi)高校率先實踐數(shù)據(jù)密集型超算理念,面向全校提供融合數(shù)據(jù)計算服務(wù),通過優(yōu)化計算流程、縮短計算時間,有效助力各課題研究組實現(xiàn)科研成果突破,主要成果如下圖所示:典型案例:世界最大規(guī)模N體模擬典型案例:流行病學(xué)歸因算法優(yōu)化·加速瑞金醫(yī)院陳竺、陳賽娟院士團隊白血病早期診斷流程7X·加速機動孟祥慧教授團隊動態(tài)活塞環(huán)缸套摩擦學(xué)模擬160X·加速材料學(xué)院張瀾庭教授材料基因組模擬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論