數(shù)據(jù)密集型超算發(fā)展白皮書2023_第1頁(yè)
數(shù)據(jù)密集型超算發(fā)展白皮書2023_第2頁(yè)
數(shù)據(jù)密集型超算發(fā)展白皮書2023_第3頁(yè)
數(shù)據(jù)密集型超算發(fā)展白皮書2023_第4頁(yè)
數(shù)據(jù)密集型超算發(fā)展白皮書2023_第5頁(yè)
已閱讀5頁(yè),還剩91頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

超級(jí)計(jì)算創(chuàng)新聯(lián)盟數(shù)據(jù)密集型超算工作組2023年8月編寫委員會(huì)陳國(guó)良張?jiān)迫苘S峰金鐘林新華唐卓張興軍王毅肖利民王怡東龐鑫顧雪軍副主編潘景山李少波韋建文王繼彬高巍蘇亮徐恩松張洋李亞子賈海鵬韓振興王旭東陳陽(yáng)陳振華柴旭清戴奇志段芳成丁江波樊春范靖龔斌高亦沁高芬郭武郭洪星胡俊胡廣超李會(huì)民李昕偉劉暢李斌杰魯蔚征郄軍利宋平宋天宇孫曉藝孫敏淮唐小勇王青王成偉王繼彬王炳強(qiáng)萬(wàn)林魏旗鵬姚舸曾帆曾令仿張凱麗張震鄒有趙順存責(zé)任編輯王世葆感謝以下機(jī)構(gòu)參編支持(排名不分先后):北京大學(xué)北京航空航天大學(xué)長(zhǎng)沙理工大學(xué)貴州大學(xué)河南師范大學(xué)湖南大學(xué)蘭州大學(xué)南京大學(xué)上海交通大學(xué)山東大學(xué)深圳大學(xué)西安交通大學(xué)中國(guó)人民大學(xué)中國(guó)醫(yī)學(xué)科學(xué)院中國(guó)科學(xué)技術(shù)大學(xué)中南大學(xué)超級(jí)計(jì)算創(chuàng)新聯(lián)盟國(guó)家超算濟(jì)南中心國(guó)家超算長(zhǎng)沙中心華為技術(shù)有限公司科大訊飛嶗山實(shí)驗(yàn)室聯(lián)科中國(guó)鵬城實(shí)驗(yàn)室青島國(guó)實(shí)科技有限公司中科院科學(xué)計(jì)算所中國(guó)信息通信研究院之江實(shí)驗(yàn)室數(shù)據(jù)是對(duì)客觀世界狀態(tài)變化的數(shù)字化記錄,在數(shù)字經(jīng)濟(jì)和數(shù)字中國(guó)的大戰(zhàn)略下,數(shù)據(jù)已成為國(guó)家基礎(chǔ)性戰(zhàn)略資源和關(guān)鍵生產(chǎn)要素,是數(shù)字化、網(wǎng)絡(luò)化、智能化的基礎(chǔ)。今年發(fā)布的《數(shù)字中國(guó)建設(shè)整體布局規(guī)劃》進(jìn)一步強(qiáng)調(diào)夯實(shí)數(shù)字基礎(chǔ)設(shè)施和數(shù)據(jù)資源體系“兩大基礎(chǔ)”。眾所周知,高性能計(jì)算是國(guó)家綜合國(guó)力和信息化建設(shè)能力的一個(gè)重要體現(xiàn),被譽(yù)為“國(guó)之重器”。數(shù)據(jù)密集型超算,是高性能計(jì)算與人工智能、大數(shù)據(jù)等新一代信息技術(shù)融合后圍繞數(shù)據(jù)價(jià)值,而產(chǎn)生的一個(gè)重要新增類型,是在高性能計(jì)算領(lǐng)域的一次有益的創(chuàng)新探索,在一定程度上代表了高性能計(jì)算的未來(lái)發(fā)展趨勢(shì)。我們很欣喜地看到,在過去兩年中數(shù)據(jù)密集型超算在產(chǎn)業(yè)各界的多方合作下持續(xù)創(chuàng)新,相繼在商業(yè)應(yīng)用、標(biāo)準(zhǔn)規(guī)范等取得了顯著的進(jìn)展。如文中所述,數(shù)據(jù)密集型超算在國(guó)家超算中心、高校等場(chǎng)景、基因測(cè)序、AI大模型等行業(yè)應(yīng)用中產(chǎn)生了很多優(yōu)秀實(shí)踐。與此同時(shí),我們也看到中國(guó)高性能計(jì)算所面臨的挑戰(zhàn)和機(jī)遇:應(yīng)用層面,隨著數(shù)據(jù)爆炸,高性能計(jì)算從重計(jì)算模型,衍生到重IO,大帶寬包括混合負(fù)載的數(shù)據(jù)模型;算力層面,通過AI賦能,科學(xué)研究正邁向科學(xué)智能新階段,推動(dòng)AI異構(gòu)加速;連接層面,隨著超算互聯(lián)作為國(guó)家戰(zhàn)略,需要實(shí)現(xiàn)更高效的網(wǎng)絡(luò)互聯(lián)和跨域全局管理。另外,在新的復(fù)雜國(guó)際安全形勢(shì)和低碳化全球趨勢(shì)下,超算安全、綠色節(jié)能、自主創(chuàng)新也成為高性能計(jì)算業(yè)內(nèi)人士關(guān)注的問題。白皮書結(jié)合高性能計(jì)算在數(shù)據(jù)密集型場(chǎng)景的發(fā)展趨勢(shì)給出了分析和建議,值得深思。面向未來(lái),以ChatGPT為代表的AI大模型興起,數(shù)以千億的參數(shù)投入訓(xùn)練,產(chǎn)生對(duì)算力和數(shù)據(jù)的雙重需求。HPC與AI逐步走向融合,將成為數(shù)據(jù)密集型超算的典型應(yīng)用場(chǎng)景。數(shù)據(jù)的準(zhǔn)備至關(guān)重要,數(shù)據(jù)的質(zhì)量和規(guī)模決定AI的精度。為了更好應(yīng)對(duì)諸如新應(yīng)用帶來(lái)的生態(tài)復(fù)雜性變化、新業(yè)務(wù)催生的混合業(yè)務(wù)負(fù)載壓力、新數(shù)據(jù)與算力協(xié)同帶來(lái)的數(shù)據(jù)跨地域訪問等挑戰(zhàn),白皮書中創(chuàng)新性地提出新型數(shù)據(jù)密集型超算5A架構(gòu),以應(yīng)用為中心,較好地支撐HPDA(HPC+大數(shù)據(jù)+AI)多系統(tǒng)融合業(yè)務(wù)發(fā)長(zhǎng)風(fēng)破浪會(huì)有時(shí),直掛云帆濟(jì)滄海!HPDA正在加速提升科研創(chuàng)新及生產(chǎn)效率,在新的趨勢(shì)和發(fā)展機(jī)遇下,期待產(chǎn)業(yè)各方深化合作和持續(xù)創(chuàng)新,數(shù)據(jù)密集型超算在推動(dòng)科研和數(shù)字經(jīng)濟(jì)發(fā)展上發(fā)揮更房一年一度的CCFHPCChina,給業(yè)界提供了很好的契機(jī),促使我們?nèi)ハ到y(tǒng)化地思考超算的過去、當(dāng)下和未來(lái)。數(shù)據(jù)密集型超算HPDA白皮書發(fā)布已經(jīng)兩年,這兩年間超算領(lǐng)域已經(jīng)發(fā)生了許多令人驚訝的變化,尤其當(dāng)生成式人工智能AIGC技術(shù)爆發(fā),超算的發(fā)展也正在迎來(lái)一個(gè)新的階段。超算正在加速與AI深度融合,驅(qū)動(dòng)科學(xué)研究邁入科學(xué)智能時(shí)代AIGC熱潮的背后其實(shí)就是超級(jí)計(jì)算機(jī)技術(shù)與AI大模型技術(shù)相結(jié)合的結(jié)晶:早在2019年,微軟就為OpenAI的ChatGPT大模型訓(xùn)練部署超過上萬(wàn)個(gè)GPU組成的大型AI超級(jí)計(jì)算機(jī)。超算從誕生開始就致力于加速重大科研的創(chuàng)新,而超算與AI的融合將實(shí)現(xiàn)科研創(chuàng)新的又一次通過Al賦能科學(xué)研究,可以解決傳統(tǒng)HPC算不了、算不準(zhǔn)、算不動(dòng)的問題。且從科研創(chuàng)新的角度來(lái)看,提出問題比解決問題更重要。而AI的本質(zhì)上實(shí)際上是數(shù)據(jù)驅(qū)動(dòng)通過AI算法擬合成一個(gè)符合大概率的規(guī)律,盡管有可能這些規(guī)律缺乏可解釋性,但這些“意料之外”的規(guī)律反而就是科研創(chuàng)新突破的最佳指引。這相當(dāng)于給科研人員開啟了一個(gè)上帝視角,一切未知皆為參數(shù),數(shù)據(jù)可及皆為樣本,洞明世事皆為模型,進(jìn)而讓科學(xué)研究邁入到了科學(xué)智能實(shí)際上數(shù)據(jù)密集型超算概念的提出就是洞悉到了超算與AI的融合,因?yàn)槠浜诵木褪菙?shù)據(jù)驅(qū)動(dòng),數(shù)據(jù)的重要性也隨著AI大模型的發(fā)展變得愈發(fā)凸顯。AI的三要素,數(shù)據(jù)、算法和算力。在算力水平基本一致的前提下,如果說(shuō)當(dāng)前的AI時(shí)代角逐還是數(shù)據(jù)和算法并重,那么隨著AI算法的逐步標(biāo)準(zhǔn)化趨同,決定下一輪勝負(fù)的關(guān)鍵必然在數(shù)據(jù)上。譬如,Meta基于650億參數(shù)和4.5TB訓(xùn)練數(shù)據(jù)開發(fā)了LLaMA,而OpenAI基于1750億參數(shù)和570GB訓(xùn)練數(shù)據(jù)開發(fā)了GPT-3.5。雖然LLaMA在參數(shù)規(guī)模上不及GPT-3.5的50%,但其表現(xiàn)能力在多數(shù)基準(zhǔn)上均超越了后者,其主要原因在于數(shù)據(jù)規(guī)模提升了8倍。由此可見,提升AI大模型精度、數(shù)據(jù)規(guī)模以及數(shù)據(jù)質(zhì)量比模型參數(shù)更具決定性的作用,可以說(shuō)數(shù)據(jù)決定了AI智能的高度。超算互聯(lián)上升為國(guó)家級(jí)戰(zhàn)略,數(shù)據(jù)互聯(lián)與流動(dòng)“一橋飛架南北,天塹變通途”,超算互聯(lián)正是這一理念構(gòu)想在超算產(chǎn)業(yè)的踐行。在東數(shù)西算、算力互聯(lián)網(wǎng)等國(guó)家戰(zhàn)略實(shí)施的大背景下,超算互聯(lián)旨在構(gòu)建一體化超算算力網(wǎng)絡(luò)和服務(wù)平臺(tái)的目標(biāo)也上升為國(guó)家級(jí)戰(zhàn)略。歐盟等區(qū)域和國(guó)家也相繼發(fā)布了其國(guó)家版的超算互聯(lián)戰(zhàn)略,為下一個(gè)戰(zhàn)略制高點(diǎn)所謂內(nèi)行看門道,互聯(lián)普遍意義上是指算力的互聯(lián),實(shí)際上數(shù)據(jù)的互聯(lián)和流動(dòng)才是超算互聯(lián)的底.從超算中心的物理部署來(lái)看,需要實(shí)現(xiàn)不同超算中心的數(shù)據(jù)互聯(lián),并提供跨地域、跨系統(tǒng)的全局統(tǒng)一數(shù)據(jù)視圖以及調(diào)度。讓任意位置的數(shù)據(jù)都隨時(shí)隨地可快速訪問,并實(shí)現(xiàn)數(shù)據(jù)的按需分級(jí)與流.從業(yè)務(wù)集群的建設(shè)模式來(lái)看,需要實(shí)現(xiàn)不同業(yè)務(wù)集群間的數(shù)據(jù)互聯(lián)。這是因?yàn)閿?shù)據(jù)密集型HPDA往往對(duì)應(yīng)的是數(shù)據(jù)驅(qū)動(dòng)的一套序貫式科學(xué)業(yè)務(wù)流,譬如基因測(cè)序往往包括文庫(kù)制備、格式轉(zhuǎn)換以及生信分析等多個(gè)業(yè)務(wù)階段,傳統(tǒng)意義上不同的業(yè)務(wù)集群往往是煙囪式獨(dú)立建設(shè)模式,頻繁的數(shù)據(jù)拷貝與遷移成為影響科研效率的關(guān)鍵。因此,我們認(rèn)為超算互聯(lián)要面向多樣化業(yè)務(wù)要構(gòu)建安全、可靠的統(tǒng)一數(shù)據(jù)底座,基于高性能專業(yè)存儲(chǔ)的多協(xié)議、冷熱溫自動(dòng)分級(jí)以及全局文件系統(tǒng)GFS等技術(shù)打破影響數(shù)據(jù)流動(dòng)的層層壁壘。所謂流水不腐戶樞不蠹,數(shù)據(jù)只有在更大范圍的充分流動(dòng)與共享,才能真正促進(jìn)信息的數(shù)字化,才會(huì)有價(jià)值超算中心大規(guī)模集群化,低碳綠色成為關(guān)鍵訴求。E級(jí)超算的建設(shè)當(dāng)前已經(jīng)是屢見不鮮,并且隨著整體應(yīng)用算力需求與單卡之間的算力剪刀差持續(xù)加大,導(dǎo)致集群規(guī)模越來(lái)越大。盡管大規(guī)模集群往往意味著國(guó)之重器,科研利器,但與此同時(shí)超算系統(tǒng)的能耗和散熱問題日益突出。因此,提高超算系統(tǒng)的能效比和降低碳排放已經(jīng)成為超算行業(yè)的重要.全面加速存儲(chǔ)閃存化:超算中心以及智算中心由于其極致的業(yè)務(wù)性能訴求,特別是隨著AIGC業(yè)務(wù)的爆發(fā),高性能的全閃專業(yè)存儲(chǔ)將成為首選。全閃存一方面意味著應(yīng)用性能的極致表現(xiàn);另一方面在單位容量的功耗上要大幅降低。不僅如此,隨著業(yè)界閃存大容量盤的加速推出,其逐步凸顯的性價(jià)比優(yōu)勢(shì)也將加速業(yè)界全.存儲(chǔ)創(chuàng)新提升GPU利用率:隨著超算業(yè)務(wù)的多樣化趨勢(shì),算力的多元化以及數(shù)據(jù)的多模態(tài)發(fā)展愈發(fā)明顯。數(shù)據(jù)密集型應(yīng)用驅(qū)動(dòng)在算力層面GPU占比越來(lái)越高。提升GPU的資源利用率,也就意味著用更少的GPU資源能耗去滿足相對(duì)確定的應(yīng)用算力需求,提高能效比。在存儲(chǔ)創(chuàng)新方面,一方面通過面向混合負(fù)載的極致高性能,通過減少GPU在數(shù)據(jù)加載等待時(shí)間提升利用率;另一方面還可以有通過近存計(jì)算實(shí)現(xiàn)近數(shù)據(jù)預(yù)處理,讓數(shù)據(jù)在存儲(chǔ)就完成部分?jǐn)?shù)據(jù)準(zhǔn)備任務(wù),減少計(jì)算和存儲(chǔ)之間的數(shù)據(jù)搬遷,進(jìn)一步提升GPU的這次數(shù)據(jù)密集型超算發(fā)展白皮書2023的發(fā)布,正好是在AI大模型這樣的時(shí)代背景下,其對(duì)于中國(guó)超算行業(yè)之重大意義,絲毫不亞于無(wú)線通訊領(lǐng)域從3G/4G時(shí)代突破式地邁向了5G時(shí)代。在全新的產(chǎn)業(yè)賽道上,中國(guó)科技要攜手起來(lái)堅(jiān)定并堅(jiān)持自主創(chuàng)新,引領(lǐng)超算行業(yè)的“5G”浪潮。1數(shù)據(jù)密集型超算最新趨勢(shì)1.1數(shù)據(jù)密集型趨勢(shì)下,高性能計(jì)算面臨六大挑戰(zhàn)和需求011.2數(shù)據(jù)密集型應(yīng)用加速發(fā)展,對(duì)存儲(chǔ)性能提出更高要求021.2.1大數(shù)據(jù)、AI技術(shù)應(yīng)用及科學(xué)觀測(cè)儀器能力提升,帶來(lái)更大數(shù)據(jù)量021.2.2數(shù)據(jù)密集型應(yīng)用,數(shù)據(jù)模型對(duì)存儲(chǔ)大帶寬和IOPS有更高的要求031.2.3多技術(shù)融合的新興業(yè)務(wù),帶來(lái)多業(yè)務(wù)混合負(fù)載041.3HPC和AI融合,加速改變科研及生產(chǎn)效率051.3.1AI加速科學(xué)研究范式變遷,數(shù)據(jù)驅(qū)動(dòng)的AI方法改變科學(xué)的漸進(jìn)發(fā)展051.3.2數(shù)據(jù)決定AI智能的高度,數(shù)據(jù)存儲(chǔ)成為大模型時(shí)代的核心基礎(chǔ)設(shè)施061.3.3發(fā)展先進(jìn)數(shù)據(jù)存力基礎(chǔ)設(shè)施,是構(gòu)建大模型時(shí)代高質(zhì)量發(fā)展的基石071.4超算互聯(lián)上升至世界各國(guó)國(guó)家戰(zhàn)略,數(shù)據(jù)基礎(chǔ)設(shè)施先行081.4.1美國(guó)大力推動(dòng)高性能數(shù)據(jù)密集型基礎(chǔ)設(shè)施互聯(lián)081.4.2歐洲成立超算聯(lián)合體,構(gòu)建一體化超算基礎(chǔ)設(shè)施091.4.3中國(guó)超算互聯(lián)網(wǎng)工程,構(gòu)建一體化算力網(wǎng)絡(luò)和數(shù)據(jù)平臺(tái)101.5超算安全關(guān)系國(guó)計(jì)民生,數(shù)據(jù)資產(chǎn)安全成為重點(diǎn)121.5.1國(guó)家級(jí)網(wǎng)絡(luò)攻擊對(duì)抗愈演愈烈,科研重點(diǎn)單位成為重點(diǎn)目標(biāo)之一121.5.2各國(guó)陸續(xù)出臺(tái)法律法規(guī),提升數(shù)據(jù)戰(zhàn)略地位,加強(qiáng)數(shù)據(jù)安全保護(hù)力度131.6中國(guó)“數(shù)據(jù)基礎(chǔ)設(shè)施”關(guān)鍵根技術(shù)有突破、有創(chuàng)新,可支持全棧自主可控141.7提高能效比和降低碳排放,支持超算發(fā)展和持續(xù)演進(jìn)151.7.1超算系統(tǒng)商業(yè)應(yīng)用和未來(lái)演進(jìn)面臨能效挑戰(zhàn)151.7.2通過軟硬件設(shè)計(jì)優(yōu)化提升超級(jí)計(jì)算機(jī)能效,實(shí)現(xiàn)超算系統(tǒng)可持續(xù)發(fā)展162數(shù)據(jù)密集型超算技術(shù)架構(gòu)2.1HPC與AI走向融合,構(gòu)建“5A”新型超算架構(gòu)2.2AnyApplication:新型應(yīng)用不斷涌現(xiàn),數(shù)據(jù)密集型超算應(yīng)具備豐富的應(yīng)用生態(tài)承載及演進(jìn)能力2.2.1應(yīng)用快速發(fā)展,需要多協(xié)議融合互通能力支撐業(yè)務(wù)未來(lái)演進(jìn)2.2.2數(shù)據(jù)分析廣泛應(yīng)用,需要支持科學(xué)計(jì)算工作流,提升業(yè)務(wù)效率2.3AnyWorkload:多技術(shù)融合帶來(lái)多樣負(fù)載,數(shù)據(jù)密集型超算應(yīng)具備承載動(dòng)態(tài)混合負(fù)載及應(yīng)用加速能力2.3.1HPC+AI+BigData多樣性應(yīng)用,需要?jiǎng)討B(tài)混合負(fù)載承載能力212.3.2E級(jí)大規(guī)模應(yīng)用,需要近計(jì)算實(shí)現(xiàn)加速222.3.3超算“性能墻”和“能耗墻”兩大挑戰(zhàn),推動(dòng)分布式全閃存儲(chǔ)替代勢(shì)在必行232.4Anywhere:多地域超算互聯(lián),需要跨域全局?jǐn)?shù)據(jù)統(tǒng)一管理能力242.4.1算力和數(shù)據(jù)協(xié)同調(diào)度,數(shù)據(jù)全局可視242.4.2數(shù)據(jù)分級(jí)管理,應(yīng)用無(wú)感訪問242.5AnyCondition:全方位可信設(shè)計(jì),保障業(yè)務(wù)永遠(yuǎn)在線,數(shù)據(jù)永不丟失252.5.1應(yīng)對(duì)數(shù)據(jù)風(fēng)險(xiǎn)與業(yè)務(wù)風(fēng)險(xiǎn)挑戰(zhàn),超算平臺(tái)進(jìn)行全方面安全保障252.5.2應(yīng)對(duì)災(zāi)難事件時(shí)生產(chǎn)中斷挑戰(zhàn),超算平臺(tái)穩(wěn)定性設(shè)計(jì)保障業(yè)務(wù)永遠(yuǎn)在線262.5.3數(shù)字資產(chǎn)作為企業(yè)核心財(cái)富,存儲(chǔ)數(shù)據(jù)要做到永遠(yuǎn)可靠不丟失272.6AnyView:多應(yīng)用場(chǎng)景的統(tǒng)一智能管理平臺(tái)提升管理效率272.6.1統(tǒng)一設(shè)備管理系統(tǒng),提升運(yùn)維管理效率272.6.2超算建設(shè)模式走向集約化,需要統(tǒng)一高效的作業(yè)管理282.6.3數(shù)據(jù)全生命周期管理,夯實(shí)高效、全面、智能的數(shù)據(jù)底座283數(shù)據(jù)密集型超算優(yōu)秀實(shí)踐3.1國(guó)家超算濟(jì)南中心:打造中國(guó)最大規(guī)模數(shù)據(jù)密集型超算應(yīng)用標(biāo)桿293.1.1國(guó)超濟(jì)南中心發(fā)展勢(shì)頭迅猛,構(gòu)建引領(lǐng)全球科技發(fā)展的“最強(qiáng)大腦”293.1.2面對(duì)海量數(shù)據(jù)存儲(chǔ)和計(jì)算效率的挑戰(zhàn),國(guó)超濟(jì)南中心積極追求HPC架構(gòu)轉(zhuǎn)型293.1.3國(guó)超濟(jì)南中心采用統(tǒng)一存儲(chǔ)底座,打造標(biāo)桿級(jí)新型超算中心303.1.4統(tǒng)一存力底座助力國(guó)超濟(jì)南中心成就超算標(biāo)桿303.2上海交通大學(xué):AI存力基座助力教育科研發(fā)展3.2.1AI時(shí)代,學(xué)校高性能計(jì)算中心面臨新場(chǎng)景海量數(shù)據(jù)挑戰(zhàn)323.2.2“一存力,多算力”的統(tǒng)一存力基座方案333.2.3存力基座助力教育科研發(fā)展343.3中國(guó)醫(yī)學(xué)科學(xué)院:全棧自主可控、GPU生信加速打造安全、高效的基因測(cè)序超算平臺(tái)363.3.1快速測(cè)序、海量基因數(shù)據(jù)存儲(chǔ)成為基因測(cè)序領(lǐng)域的重大挑戰(zhàn)363.3.2高效、敏捷、自主可控的一站式基因測(cè)序全棧解決方案373.3.3全棧國(guó)產(chǎn)化平臺(tái)助力醫(yī)學(xué)科研成果轉(zhuǎn)化383.4科大訊飛:高性能、穩(wěn)定可靠的統(tǒng)一數(shù)據(jù)管理底座是大模型訓(xùn)練的關(guān)鍵383.4.1AI大模型訓(xùn)練中的挑戰(zhàn)393.4.2強(qiáng)強(qiáng)聯(lián)合,打造最佳大模型算力+存力全棧方案403.4.3在HPC與AI的融合創(chuàng)新中走向獨(dú)立自主41縱觀全球,新一輪的科技革命和產(chǎn)業(yè)變革正在全方位的改變著社會(huì)生產(chǎn)生活,一個(gè)以數(shù)據(jù)服務(wù)能力為基礎(chǔ)的,萬(wàn)物感知、萬(wàn)物互聯(lián)、萬(wàn)物智能的數(shù)字經(jīng)濟(jì)世界正在加速到來(lái)。實(shí)施數(shù)據(jù)戰(zhàn)略、積累數(shù)據(jù)資源、保障數(shù)據(jù)安全、做大做強(qiáng)數(shù)據(jù)產(chǎn)業(yè),已經(jīng)據(jù)國(guó)際權(quán)威數(shù)據(jù)分析研究機(jī)構(gòu)IDC《數(shù)據(jù)時(shí)代2025》報(bào)告預(yù)測(cè),從2018年至2025年,全球數(shù)據(jù)將從2018年的33ZB增至2025年的175ZB,數(shù)據(jù)量增長(zhǎng)4倍多。其中,中國(guó)數(shù)據(jù)圈增速迅速,預(yù)計(jì)將從2018年的7.6ZB到2025年將增至48.6ZB,占全球數(shù)據(jù)圈比重將從23.4%發(fā)展到27.8%,中國(guó)將成為全球最大的數(shù)據(jù)圈。因此,更先進(jìn)的數(shù)字技術(shù)、更強(qiáng)大的數(shù)據(jù)服務(wù)能力和更高水平的數(shù)字產(chǎn)業(yè),將成為新時(shí)代我國(guó)發(fā)展數(shù)字經(jīng)濟(jì)的根本內(nèi)容。超大規(guī)模的數(shù)據(jù)量對(duì)數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)的安全提出了前所未有的挑戰(zhàn),可靠高效的存儲(chǔ)能力是數(shù)據(jù)供給安全的高性能計(jì)算HPC是構(gòu)建下一代數(shù)據(jù)產(chǎn)業(yè)和科學(xué)計(jì)算的基石,是驅(qū)動(dòng)科研創(chuàng)新的重要計(jì)算引擎,幫助人們從海量的數(shù)據(jù)中探索人類社會(huì)和宇宙的未來(lái)。早在2007年,圖靈獎(jiǎng)得主詹姆斯·格雷就在題目為《科學(xué)方法的革命》的演講中提出,隨著數(shù)據(jù)的爆炸性增長(zhǎng),科學(xué)計(jì)算(即“第三范式”)中的數(shù)據(jù)密集型范式將成為一個(gè)獨(dú)特的科學(xué)研究范式,即“第四范式”。數(shù)據(jù)密集型超算,成為高性能計(jì)算與人工智能、大數(shù)據(jù)等新一代信息技術(shù)融合后而產(chǎn)生的一個(gè)重要新增類型,在一定程度上代表了高在此趨勢(shì)下,我們發(fā)現(xiàn)在高性能計(jì)算在應(yīng)用層、算力層、超算網(wǎng)絡(luò)互聯(lián)及全局管理、安全、綠色節(jié)能、系統(tǒng)全棧自主可控六個(gè)方面都面臨新的挑.應(yīng)用層面,隨著生成式AI、大數(shù)據(jù)應(yīng)用以及科學(xué)觀測(cè)儀器能力提升,帶來(lái)更大數(shù)據(jù)量,新的數(shù)據(jù)密集型應(yīng)用,產(chǎn)生了新的數(shù)據(jù)模邁向科學(xué)智能新階段,數(shù)據(jù)規(guī)模和質(zhì)量決定了AI智能高度。發(fā)展先進(jìn)數(shù)據(jù)存力基礎(chǔ)設(shè).聯(lián)接層面,需要科研機(jī)構(gòu)之間的大數(shù)據(jù)量互訪,推進(jìn)超算互聯(lián)工程進(jìn)程,打造集應(yīng)用、數(shù)據(jù)、算力服務(wù)于一體的超算,實(shí)現(xiàn)跨超算中心的聯(lián)接,一體化數(shù)據(jù)基礎(chǔ)設(shè)施已成為超.安全層面,對(duì)數(shù)據(jù)資產(chǎn)的安全提出更高的要求,提升數(shù)據(jù)戰(zhàn)略地位,保證數(shù)據(jù)安全和主.自主可控層面,從處理器,先進(jìn)閃存等核心硬件,到跨域數(shù)據(jù)管理系統(tǒng),分布式并行文件系統(tǒng),以及超算集群等軟件具備全棧自主.綠色節(jié)能層面,通過改進(jìn)硬件設(shè)計(jì)和制造過程,優(yōu)化軟件設(shè)計(jì),提高超算系統(tǒng)的能源效應(yīng)用,數(shù)據(jù)密集型化從重計(jì)算模型,到重IO、大帶、混合負(fù)載數(shù)據(jù)模型算力,AI算力,AI異構(gòu)加速?gòu)目茖W(xué)計(jì)算到科學(xué)智能從網(wǎng)絡(luò)互聯(lián),到跨域超算互聯(lián)從科學(xué)計(jì)算到科學(xué)智能新安全,數(shù)據(jù)資產(chǎn)保護(hù)新安全,數(shù)據(jù)資產(chǎn)保護(hù)oo綠色,軟硬系統(tǒng)節(jié)能從網(wǎng)絡(luò)安全,到數(shù)據(jù)資產(chǎn)安全從計(jì)算能效節(jié)能,到軟件、硬件系統(tǒng)節(jié)能 全棧自主可控從芯片自主可控,到全棧自主可控隨著與大數(shù)據(jù)、AI等新的數(shù)據(jù)分析技術(shù)和工具結(jié)合,HPC的訴求從以數(shù)值計(jì)算為主,衍生到與大數(shù)據(jù)知識(shí)挖掘及AI訓(xùn)練推理結(jié)合的HPDA高性能數(shù)據(jù)分析時(shí)代。大數(shù)據(jù)、AI技術(shù)及科學(xué)觀測(cè)儀器能力提升,給應(yīng)用帶來(lái)更大的處理數(shù)據(jù)量。同時(shí)新的數(shù)據(jù)密集型應(yīng)用,產(chǎn)生了新的數(shù)據(jù)模型,驅(qū)動(dòng)新的近1.2.1大數(shù)據(jù)、1.2.1大數(shù)據(jù)、AI技術(shù)應(yīng)用及科學(xué)觀測(cè)儀器能力提升,帶來(lái)更大數(shù)據(jù)量隨著物聯(lián)網(wǎng)技術(shù)、大數(shù)據(jù)技術(shù)的飛速發(fā)展,超算系統(tǒng)處理的數(shù)據(jù)量爆炸式增長(zhǎng)。得益于科學(xué)觀測(cè)儀器能力的不斷提升,大幅提高了采集的速度和廣度,如:高通量測(cè)序儀通量從幾十個(gè)GB,提升到現(xiàn)在幾個(gè)TB級(jí)別通量;全球數(shù)以百萬(wàn)計(jì)的傳感器都在對(duì)宇宙、氣象、生物、物理和化學(xué)過程進(jìn)行實(shí)時(shí)觀測(cè)和記錄,在取得更好的計(jì)算或者模擬效果的同時(shí)也產(chǎn)生大量觀測(cè)數(shù)據(jù)。計(jì)算設(shè)備運(yùn)行各種科學(xué)模型任務(wù),在進(jìn)行大規(guī)模模擬計(jì)算的同時(shí)會(huì)產(chǎn)生大量的10-30TB/天->6PB/年一臺(tái)冷凍電鏡500T/天->180PB/年1個(gè)FAST天眼6TB/天->8.5PB/年(含膨脹)1臺(tái)基因測(cè)序儀60TB/天->200PB/年1輛自動(dòng)駕駛汽車50T/天->18PB/年1顆遙感衛(wèi)星1立方厘米->PB類腦研究500T/天>180PB/年1個(gè)高能同步輻射光源中心1Pb/s->4000EB/年1個(gè)SKA平方公里陣列圖1-2典型超算場(chǎng)景的數(shù)據(jù)量03從初步統(tǒng)計(jì)看,目前大部分典型的超算應(yīng)用起步檔已經(jīng)是PB級(jí)。面向新興的應(yīng)用譬如腦科學(xué)等,其單場(chǎng)80%的應(yīng)用場(chǎng)景數(shù)據(jù)量80%的應(yīng)用場(chǎng)景數(shù)據(jù)量PB級(jí)圖1-3典型場(chǎng)景數(shù)據(jù)量分析1.2.2數(shù)據(jù)密集型應(yīng)用,數(shù)據(jù)模型對(duì)存儲(chǔ)大帶寬和1.2.2數(shù)據(jù)密集型應(yīng)用,數(shù)據(jù)模型對(duì)存儲(chǔ)大帶寬和IOPS有更高的要求根據(jù)測(cè)試和分析,數(shù)據(jù)量的變大,會(huì)導(dǎo)致對(duì)應(yīng)的計(jì)算數(shù)據(jù)模型和存儲(chǔ)訪問數(shù)據(jù)模型也發(fā)生較大變化?;驕y(cè)序、氣象預(yù)測(cè)、油氣勘探等數(shù)據(jù)密集型應(yīng)用相對(duì)分子動(dòng)力學(xué)、化學(xué)等數(shù)值型計(jì)算應(yīng)用,在寫IOPS和讀寫帶寬上產(chǎn)生數(shù)量級(jí)的增加,其文件大小普遍超過1GB以上。讀IOPS寫IOPS350015.8MB/s130B/s233739.56MB/s5KB/s20003.373GB/s1.275GB/s700460600MB/s500MB/s6000337MB/s729MB/s大文件(IO為4K以下,文表1-1數(shù)據(jù)模型041.2.3多技術(shù)融合的新興業(yè)務(wù),帶來(lái)多業(yè)務(wù)混合負(fù)載1.2.3多技術(shù)融合的新興業(yè)務(wù),帶來(lái)多業(yè)務(wù)混合負(fù)載隨著一些新興業(yè)務(wù)的出現(xiàn),帶來(lái)業(yè)務(wù)流程的復(fù)雜多樣。如自動(dòng)駕駛業(yè)務(wù)涉及超過10個(gè)處理環(huán)節(jié),各個(gè)環(huán)節(jié)存在數(shù)據(jù)互訪、數(shù)據(jù)采集、標(biāo)注、訓(xùn)練集仿真數(shù)據(jù)訪問、AI推理。其中數(shù)據(jù)采集和預(yù)處理會(huì)借助大數(shù)據(jù)技術(shù)和組件;在AI訓(xùn)練階段會(huì)采用AI深度學(xué)習(xí)訓(xùn)練技術(shù);仿真階段會(huì)采用HPC技術(shù)。超聲波傳感器GPS激光雷達(dá)毫米波雷達(dá)攝像頭NFS/CIFSNFS/CIFSNFS/HDFS數(shù)據(jù)收集和預(yù)處理數(shù)據(jù)導(dǎo)入HDFSNFS仿真仿真驗(yàn)證驗(yàn)證S3/NFSPB級(jí)數(shù)十GB/S帶寬海量小文件極致OPS和時(shí)延數(shù)十~百GB/S帶寬<1ms時(shí)延同時(shí),各個(gè)環(huán)節(jié)數(shù)據(jù)模型各有差異:如在數(shù)據(jù)收集和導(dǎo)入環(huán)節(jié)使用NFS/CIFS上傳脫敏數(shù)據(jù)到存儲(chǔ)資源池,此環(huán)節(jié)IO特征為大IO順序?qū)懀辉跀?shù)據(jù)預(yù)處理環(huán)節(jié)采用大文件聚合,大IO順序讀,存在多客戶端順序?qū)懶∥募籄I模型訓(xùn)練主要是多線程小IO隨機(jī)讀多個(gè)小文件。仿真驗(yàn)證則是單線程大IO順序S3單客戶端順序?qū)懘笪募嗀I訓(xùn)練綜上所述,由于大數(shù)據(jù)、AI、HPC仿真等多技術(shù)的融合,業(yè)務(wù)呈現(xiàn)多樣業(yè)務(wù)混合負(fù)載特征。數(shù)據(jù)模型既需要支持高帶寬又需要支持高IOPS。HPC和AI融合,加速改變科研及生產(chǎn)效率1.3.11.3.1AI加速科學(xué)研究范式變遷,數(shù)據(jù)驅(qū)動(dòng)的AI方法改變科學(xué)的漸進(jìn)發(fā)展AI賦能機(jī)理計(jì)算是目前超算的一大趨勢(shì),通過數(shù)據(jù)驅(qū)動(dòng)AI計(jì)算,利用人工智能技術(shù)對(duì)機(jī)理計(jì)算進(jìn)行優(yōu)化和加速,提高計(jì)算效率和精度,從而實(shí)現(xiàn)更圖1-5華為盤古氣象大模型研究成果在《Nature》正刊發(fā)表例如日前國(guó)際頂級(jí)學(xué)術(shù)期刊《Nature》雜志正刊發(fā)表了華為云盤古大模型研發(fā)團(tuán)隊(duì)研究成果《三維神經(jīng)網(wǎng)絡(luò)用于精準(zhǔn)中期全球天氣預(yù)報(bào)》。受限于氣象觀測(cè)的準(zhǔn)確度,大氣系統(tǒng)中物理過程的復(fù)雜性,傳統(tǒng)數(shù)值方法所需計(jì)算資源規(guī)模巨大,全球中期天氣預(yù)報(bào)的有效性每10年才提高1天。而華為盤古氣象大模型是首個(gè)精度超過傳統(tǒng)數(shù)值預(yù)報(bào)方法的AI模型,速度相比傳統(tǒng)數(shù)值預(yù)報(bào)提速10000倍以上,改變了近些年數(shù)值天氣預(yù)報(bào)精度提升緩慢的科學(xué)計(jì)算(HPC)面臨挑戰(zhàn)面臨挑戰(zhàn)算不了、算不準(zhǔn)、算不動(dòng)算不了、算不準(zhǔn)、算不動(dòng)++AI催生AI賦能機(jī)理計(jì)算DeePMD:分子動(dòng)力學(xué)模擬AI賦能機(jī)理計(jì)算DeePMD:分子動(dòng)力學(xué)模擬AI+分子動(dòng)力學(xué)科學(xué)智能(HPDA=HPC+BigData+AI)數(shù)據(jù)驅(qū)動(dòng)的AI計(jì)算AI+蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)機(jī)理計(jì)算與AI計(jì)算相結(jié)合AI+HPCAI+HPCAI+生物制藥圖1-6HPC和AI融合,科學(xué)計(jì)算走向科學(xué)智能科學(xué)研究正邁向科學(xué)智能新階段,通過Al賦能科學(xué)研究,解決傳統(tǒng)HPC算不快、算不準(zhǔn)、算不動(dòng)的問題。如AI賦能機(jī)理計(jì)算,DeePMD基于深度學(xué)習(xí)的分子動(dòng)力學(xué)模擬方法,將Al嵌入機(jī)理計(jì)算中,在空間尺度和時(shí)間尺度上基于數(shù)學(xué)方程推演,計(jì)算效率提高1000倍,計(jì)算空間尺度增大100倍。在數(shù)據(jù)驅(qū)動(dòng)的Al計(jì)算中,如AlphaFold蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè),通過Al加速可以使藥物臨床研究耗時(shí)從年減少到月。1.3.2數(shù)據(jù)決定1.3.2數(shù)據(jù)決定AI智能的高度,數(shù)據(jù)存儲(chǔ)成為大模型時(shí)代的核心基礎(chǔ)設(shè)施一、數(shù)據(jù)數(shù)量和質(zhì)量決定AI智能的高度在我們探討機(jī)器學(xué)習(xí)的效果時(shí),無(wú)法忽略的一點(diǎn)是高質(zhì)量數(shù)據(jù)的重要性。數(shù)據(jù)質(zhì)量越高,意味著更準(zhǔn)確、更可信、更相關(guān)、更有價(jià)值的數(shù)據(jù),給人工智能提供更可靠的輸入,提高模型的可用性和可靠性。如果沒有高質(zhì)量的數(shù)據(jù)輸入,無(wú)論多么先進(jìn)的算法、多么龐大的算力都無(wú)法帶來(lái)高質(zhì)量的成果。數(shù)據(jù)質(zhì)量決定AI智能的高度。傳統(tǒng)數(shù)據(jù)處理方法主要是針對(duì)小規(guī)模數(shù)據(jù),以統(tǒng)計(jì)模型為基礎(chǔ)尋找數(shù)據(jù)中的規(guī)律。然而基于小規(guī)模數(shù)據(jù)所建立的模型,其表達(dá)能力受限于數(shù)據(jù)規(guī)模,只能進(jìn)行粗粒度的模擬與預(yù)測(cè),在精度要求比較高的情況就不再適用。如果想要進(jìn)一步提升模型精度就需要利用海量數(shù)據(jù)生成相關(guān)模型。數(shù)據(jù)規(guī)模越大,意味著更多的信息、更多的樣本、更多的特征,給人工智能模型提供更充分的訓(xùn)練和學(xué)習(xí)的機(jī)會(huì),提高人工智能的泛化能力。數(shù)據(jù)數(shù)量同樣決定AI智能的高度。以華為盤古大模型研發(fā)團(tuán)隊(duì)發(fā)現(xiàn)為例,AI氣象預(yù)報(bào)模型的精度不足主要有兩個(gè)原因:第一,原有的AI氣象預(yù)報(bào)模型都是基于2D神經(jīng)網(wǎng)絡(luò),無(wú)法很好地處理不均勻的3D氣象數(shù)據(jù);第二,AI方法缺少數(shù)學(xué)物理機(jī)理約束,因此在迭代的過程中會(huì)不斷積累迭代誤差。為此,研究團(tuán)隊(duì)創(chuàng)造性地提出了適應(yīng)地球坐標(biāo)系統(tǒng)的三維神經(jīng)網(wǎng)絡(luò)(3DEarth-SpecificTransformer)來(lái)處理復(fù)雜的不均勻3D氣象數(shù)據(jù),通過提升數(shù)據(jù)數(shù)量還有質(zhì)量,并且使用層次化時(shí)域聚合策略來(lái)減少預(yù)報(bào)迭代次數(shù),從而減少迭代誤差。通過在43年的全球天氣數(shù)據(jù)上訓(xùn)練深度神經(jīng)網(wǎng)絡(luò),盤古氣象大模型在精度和速度方面超越傳統(tǒng)數(shù)二、數(shù)據(jù)存儲(chǔ)是大模型時(shí)代發(fā)展AI的核心在科學(xué)領(lǐng)域,從“數(shù)據(jù)”中可以提煉出經(jīng)驗(yàn)性“原理”,也可以使用“原理”來(lái)仿真模擬出“數(shù)首先,數(shù)據(jù)準(zhǔn)備時(shí)間長(zhǎng),數(shù)據(jù)來(lái)源分散,歸集慢,預(yù)處理百TB數(shù)據(jù)需10天左右,這不利于系統(tǒng)的其次,如今大模型的規(guī)模越來(lái)越大,達(dá)到千億甚至萬(wàn)億的參數(shù)級(jí),訓(xùn)練需要海量的計(jì)算資源和存儲(chǔ)空間。比如多模態(tài)大模型以海量文本、圖片為訓(xùn)練集,但是當(dāng)前海量小文件的加載速度不足其三,大模型參數(shù)頻繁調(diào)優(yōu),訓(xùn)練平臺(tái)不穩(wěn)定,平均約2天出現(xiàn)一次訓(xùn)練中斷,需要Check-最后,大模型實(shí)施門檻高,系統(tǒng)搭建繁雜,資源調(diào)度難,GPU資源利用率通常不到40%。為此,需要非常專業(yè)的軟件、硬件工程師來(lái)進(jìn)行實(shí)施并進(jìn)綜上所述,構(gòu)建大容量、高性能的存力數(shù)據(jù)基數(shù)據(jù)準(zhǔn)備時(shí)間長(zhǎng)數(shù)據(jù)來(lái)源分散,歸集慢預(yù)處理時(shí)間長(zhǎng),百TB級(jí)需10天訓(xùn)練集加載效率低模型參數(shù)大,千億級(jí)、萬(wàn)億級(jí)小文件性能差,數(shù)據(jù)加載不足100MB/s訓(xùn)練過程易中斷參數(shù)頻繁調(diào)優(yōu),訓(xùn)練平臺(tái)不穩(wěn)定平均約2天中斷一次企業(yè)實(shí)施門檻高系統(tǒng)搭建繁雜,資源調(diào)度難GPU資源利用率不到40%數(shù)據(jù)編織,近存計(jì)算海量小文件高吞吐Checkpoints并行高帶寬一站式交付圖1-7大模型訓(xùn)練時(shí)的關(guān)鍵數(shù)據(jù)挑戰(zhàn)1.3.3發(fā)展先進(jìn)數(shù)據(jù)存力基礎(chǔ)設(shè)施,是構(gòu)建大模型時(shí)代高質(zhì)量發(fā)展的1.3.3發(fā)展先進(jìn)數(shù)據(jù)存力基礎(chǔ)設(shè)施,是構(gòu)建大模型時(shí)代高質(zhì)量發(fā)展的基石過去十年,人工智能(AI)的飛速增長(zhǎng)與數(shù)據(jù)基礎(chǔ)設(shè)施逐步演變密切相關(guān)。從存儲(chǔ)技術(shù)的革新,云計(jì)算的大規(guī)模采用,到數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的出現(xiàn),以及向量數(shù)據(jù)庫(kù)的日益利用,每次的演變都在AI繁由于大模型的訓(xùn)練需要快速地處理數(shù)據(jù),對(duì)性能指標(biāo)有更高的要求,將會(huì)催生高性能存儲(chǔ)的新品類,也會(huì)加速存儲(chǔ)在各環(huán)節(jié)的融合,類似于數(shù)據(jù)湖存儲(chǔ),而不是像過去預(yù)處理、訓(xùn)練、推理、歸集各自構(gòu)建。在原有的基礎(chǔ)架構(gòu)上,AIforScience時(shí)代下的先進(jìn)數(shù)據(jù)存力基礎(chǔ)設(shè)施將有以下四個(gè)方面的一、支持?jǐn)?shù)據(jù)新范式:數(shù)據(jù)編織大幅縮短AI大模型數(shù)據(jù)準(zhǔn)備時(shí)間多樣化數(shù)據(jù)快速歸集:基于GFS,針對(duì)S3、HDFS、文件等多種協(xié)議接入,支持多樣化數(shù)據(jù)0遷近計(jì)算加速:隨路處理縮短IO路徑,減少數(shù)據(jù)搬移,釋放CPU資源。AI高性能存儲(chǔ):大、小文件自適應(yīng)讀寫,高IOPS支撐預(yù)處理和訓(xùn)練集聚合優(yōu)化,通過算力、存向量檢索:滿足千萬(wàn)并發(fā)下的實(shí)時(shí)推理要求,三、面向AI業(yè)務(wù)模型分析的可靠數(shù)據(jù)存儲(chǔ)IO級(jí)負(fù)載均衡:?jiǎn)慰蛻舳送瑫r(shí)訪問多個(gè)節(jié)點(diǎn),元數(shù)據(jù)快速修復(fù):元數(shù)據(jù)損壞快速定界,支持故障快速恢復(fù):高性能、大容量存儲(chǔ)滿足PB級(jí)高頻度CheckPoint要求。四、支持?jǐn)?shù)據(jù)價(jià)值精準(zhǔn)識(shí)別與治理,降低數(shù)據(jù)全生命周期管理TCO全域統(tǒng)一元數(shù)據(jù):將線上、線下的元數(shù)據(jù)統(tǒng)一采集到線下進(jìn)行統(tǒng)計(jì)、分析,為客戶展示統(tǒng)一的數(shù)08級(jí)預(yù)取和淘汰。熱點(diǎn)數(shù)據(jù)識(shí)別后,數(shù)據(jù)安全流動(dòng),同步到多個(gè)集群上去。多源數(shù)據(jù)共池,一個(gè)集群故障后,客戶端自動(dòng)failover到其他集群對(duì)應(yīng)的備份目錄。訓(xùn)練數(shù)據(jù)傳輸訓(xùn)練數(shù)據(jù)傳輸存儲(chǔ)網(wǎng)絡(luò)優(yōu)化訓(xùn)練據(jù)層原始數(shù)據(jù)層預(yù)處理服務(wù)器性能型存儲(chǔ)(必選)CheckPoint長(zhǎng)期留存容量型存儲(chǔ)全局?jǐn)?shù)據(jù)視圖非結(jié)構(gòu)化文件訓(xùn)練服務(wù)器推理服務(wù)器近數(shù)據(jù)隨路處理推理結(jié)果修正和加速向量化存儲(chǔ)按需讀取訓(xùn)練數(shù)據(jù)結(jié)構(gòu)化文件模型長(zhǎng)期留存模型加載視頻圖片CADE圖1-8面向AI先進(jìn)存力基礎(chǔ)設(shè)施1.4.1美國(guó)大力推動(dòng)高性能數(shù)據(jù)密集型基礎(chǔ)設(shè)施互聯(lián)1.4.1美國(guó)大力推動(dòng)高性能數(shù)據(jù)密集型基礎(chǔ)設(shè)施互聯(lián)美國(guó)將高性能數(shù)據(jù)密集型基礎(chǔ)設(shè)施上升至國(guó)家任務(wù),2023年3月10日美國(guó)能源部(DOE)宣布了一項(xiàng)提案,要求國(guó)家實(shí)驗(yàn)室主導(dǎo)高性能數(shù)據(jù)設(shè)施(HPDF)。該項(xiàng)目旨在創(chuàng)建一個(gè)專門從事數(shù)據(jù)密集型科學(xué)先進(jìn)基礎(chǔ)設(shè)施的新科學(xué)用戶設(shè)施,DOE預(yù)計(jì)HPDF項(xiàng)目在投資約為3-5億美元。HPDF的使命將是通過提供最先進(jìn)的數(shù)據(jù)管理基礎(chǔ)架構(gòu)、功能和工具來(lái)實(shí)現(xiàn)和加速科學(xué)發(fā)現(xiàn)。HPDF將在管理科學(xué)數(shù)據(jù)生命周期方面發(fā)揮領(lǐng)導(dǎo)作用,并將推進(jìn)能源部和政府對(duì)公眾獲取科學(xué)數(shù)據(jù)和公平數(shù)據(jù)原則(可查找、可訪問、可互操作和可重復(fù)使用)的承諾。該設(shè)施將設(shè)計(jì)為動(dòng)態(tài)配置計(jì)算、網(wǎng)絡(luò)和存儲(chǔ)資源,以訪問靜止或運(yùn)動(dòng)中的數(shù)據(jù),支持使用精心策劃的數(shù)據(jù)集,以及直接從實(shí)驗(yàn)或儀器對(duì)流數(shù)據(jù)進(jìn)行近乎實(shí)時(shí)的分析。09圖1-9ESnet6網(wǎng)絡(luò)連接地圖來(lái)源:/news-and-publications/welcome-esnet6/esnet6-maps/DOE的研究機(jī)構(gòu)之間經(jīng)常有任務(wù)式的PB級(jí)大數(shù)據(jù)量搬運(yùn),數(shù)據(jù)增長(zhǎng)越來(lái)越快,且新型科學(xué)研究需要科研機(jī)構(gòu)之間的大數(shù)據(jù)量互訪。能源部設(shè)想,將以HPDF為基礎(chǔ)采用“Hub-and-Spoke”模型,在Hub處托管集中的資源,并通過在Spoke或其他地點(diǎn)部署和協(xié)調(diào)分布式基礎(chǔ)設(shè)施來(lái)支持高優(yōu)先級(jí)的美國(guó)能源部任務(wù)應(yīng)用。Hub和Spoke將通過Esnet進(jìn)行互聯(lián)。1.4.2歐洲成立超算聯(lián)合體,構(gòu)建一體化超算基礎(chǔ)設(shè)施1.4.2歐洲成立超算聯(lián)合體,構(gòu)建一體化超算基礎(chǔ)設(shè)施一、“一體化超算基礎(chǔ)設(shè)施”成為歐洲未來(lái)超算建設(shè)重點(diǎn)歐洲超算聯(lián)合體(EuroHPCJU),成立于2018年,旨在承載構(gòu)建一體化的世界級(jí)超算&數(shù)據(jù)基礎(chǔ)設(shè)施,支撐歐洲高競(jìng)爭(zhēng)力創(chuàng)新的HPC&大數(shù)據(jù)生態(tài)的使命。圖1-10Federation2023+項(xiàng)目計(jì)劃互聯(lián)所有EuroHPC系統(tǒng)的HPC資源來(lái)源:https://eurohpc-ju.europa.eu/index_en2021-2033年期間將投資80億歐元新預(yù)算用于持續(xù)擴(kuò)大部署世界級(jí)的超算中心,其中Federation2023+項(xiàng)目,計(jì)劃互聯(lián)所有EuroHPC系統(tǒng)的HPC資源并提供以下服務(wù):(1)身份驗(yàn)證、授權(quán)和認(rèn)證服務(wù)2)算力服務(wù),包括交互式計(jì)算和云接入-虛擬機(jī)-容器的服務(wù);(3)數(shù)據(jù)服務(wù),包括歸檔服務(wù)和數(shù)據(jù)庫(kù)服務(wù),數(shù)據(jù)流動(dòng)和傳輸服務(wù);(4)用戶和資源管理服務(wù)。二、意大利打造“國(guó)家數(shù)據(jù)湖云計(jì)算基礎(chǔ)設(shè)施”,打破計(jì)算存儲(chǔ)資源孤島壁壘意大利國(guó)家超算中心(ICSC),是由PNRR投資贊助的的五個(gè)國(guó)家中心之一,目標(biāo)最終建設(shè)成一個(gè)共享與開放的Cloud/HPC分布式基礎(chǔ)設(shè)施,為國(guó)家戰(zhàn)略部門存儲(chǔ)計(jì)算資源,最終通過科研界以及工業(yè)界加速國(guó)家的數(shù)字化。該中心超算建設(shè)戰(zhàn)略目標(biāo)是為國(guó)家戰(zhàn)略部門(超算,人工智能,數(shù)值模擬等)提供創(chuàng)新ICT資源,讓意大利成為一個(gè)建設(shè)配備國(guó)家數(shù)據(jù)湖云計(jì)算基礎(chǔ)設(shè)施的國(guó)家,該基礎(chǔ)設(shè)施可被動(dòng)態(tài)和虛擬的分配給科研組織或者用戶,打破計(jì)算存儲(chǔ)資源孤島壁壘。所有用戶之間資源共享,以提升資源分配與使用的靈活性。ICSC成立博洛尼亞意大利數(shù)據(jù)谷(DataVal-ley),打造1個(gè)超算云架構(gòu),連接15+數(shù)據(jù)中心,承接10大領(lǐng)域科研課題。一方面將集中維護(hù)和加強(qiáng)意大利的HPC和大數(shù)據(jù)基礎(chǔ)設(shè)施,另一方面將開發(fā)先進(jìn)的數(shù)值方法,應(yīng)用程序以及軟件工具,將基礎(chǔ)設(shè)施和計(jì)算、模擬、收集和分析科研活動(dòng)進(jìn)行整合,同時(shí)向云和分布式數(shù)據(jù)湖架構(gòu)演進(jìn)。1.4.3中國(guó)超算互聯(lián)網(wǎng)工程,構(gòu)建一體化算力網(wǎng)絡(luò)和數(shù)據(jù)平臺(tái)1.4.3中國(guó)超算互聯(lián)網(wǎng)工程,構(gòu)建一體化算力網(wǎng)絡(luò)和數(shù)據(jù)平臺(tái)近年來(lái),在科技部和各省市政府的積極推動(dòng)下,中國(guó)超算建設(shè)已取得一定成績(jī),有效支撐了科技創(chuàng)新、社會(huì)民生、數(shù)字經(jīng)濟(jì)發(fā)展。隨著以大數(shù)據(jù)、人工智能為代表的新一代信息技術(shù)迅猛發(fā)展,全社會(huì)對(duì)算力提出了更高要求,亟需突破現(xiàn)有單體超算中心運(yùn)營(yíng)模式,以應(yīng)對(duì)算力設(shè)施分布不均衡、接口不統(tǒng)一、應(yīng)用軟件自主研發(fā)和推廣不足等問題,更好地統(tǒng)籌協(xié)調(diào)全國(guó)超算中心算力。為了解決上述挑戰(zhàn),科技部于2023年4月啟動(dòng)國(guó)家超算互聯(lián)網(wǎng)部署工作,用互聯(lián)網(wǎng)思維運(yùn)營(yíng)超算,將全國(guó)眾多超算中心連接起來(lái),并連接產(chǎn)業(yè)生態(tài)中的算力供給、應(yīng)用開發(fā)、運(yùn)營(yíng)服務(wù)、用戶等各方能力和資源,構(gòu)建一體化超算算力網(wǎng)絡(luò)和服務(wù)平臺(tái)。按照計(jì)劃,到2025年底,國(guó)家超算互聯(lián)網(wǎng)將可形成技術(shù)先進(jìn)、模式創(chuàng)新、服務(wù)優(yōu)質(zhì)、生態(tài)完善的總體布局,有效支撐原始科學(xué)創(chuàng)新、重大工程突破、經(jīng)濟(jì)高質(zhì)量發(fā)展等目標(biāo)達(dá)成。國(guó)家超級(jí)計(jì)算濟(jì)南中心(以下簡(jiǎn)稱“濟(jì)南超算”)在超算互聯(lián)走在了全國(guó)前列。2022年7月22日,2022中國(guó)算力峰會(huì),超算互聯(lián)網(wǎng)工程正式上線。通過這一工程,各地的超算中心和大數(shù)據(jù)中心將實(shí)現(xiàn)數(shù)據(jù)和算力的互聯(lián)互通,整合成為一個(gè)算力圖1-12超算互聯(lián)網(wǎng)上線啟用圖1-13“東數(shù)西算”數(shù)據(jù)存儲(chǔ)集群系統(tǒng)上線濟(jì)南超算率先在建設(shè)省域沿黃9市的算力平臺(tái),并逐步構(gòu)建濟(jì)南超算-山西超算-西安超算-鄭州超算的黃河流域高性能算力圈,并與黃河中上游三個(gè)國(guó)家一體化大數(shù)據(jù)中心樞紐節(jié)點(diǎn)相互聯(lián)接,圍繞數(shù)據(jù)存儲(chǔ)和應(yīng)用需求,建立健全多元異構(gòu)、云邊協(xié)同的一體化算力體系。濱州東營(yíng)煙臺(tái)德州煙臺(tái)威海濟(jì)南超算中心聊城淄博濟(jì)南超算中心聊城青島海洋實(shí)青島海洋實(shí)驗(yàn)室泰安濟(jì)寧菏澤臨沂菏澤棗莊世界各國(guó)都在加速高性能數(shù)據(jù)基礎(chǔ)設(shè)施部署,推進(jìn)超算互聯(lián)工程進(jìn)程,打造集應(yīng)用、數(shù)據(jù)、算力服務(wù)于一體的超算平臺(tái),實(shí)現(xiàn)跨超算中心的鏈接,包括算力資源和數(shù)據(jù)資產(chǎn)的統(tǒng)籌與調(diào)度。打破計(jì)算存儲(chǔ)資源孤島壁壘,支持所有用戶之間資源共享,以提升資源分配與使用的靈活性。一體化數(shù)據(jù)基礎(chǔ)設(shè)施已成為超算互聯(lián)建設(shè)共性需求。1.5.1國(guó)家級(jí)網(wǎng)絡(luò)攻擊對(duì)抗愈演愈烈,科研重點(diǎn)單位1.5.1國(guó)家級(jí)網(wǎng)絡(luò)攻擊對(duì)抗愈演愈烈,科研重點(diǎn)單位成為重點(diǎn)目標(biāo)之一超算中心是國(guó)家計(jì)算基礎(chǔ)設(shè)施,是推動(dòng)科研創(chuàng)新和工業(yè)發(fā)展的關(guān)鍵動(dòng)力,其平臺(tái)及數(shù)據(jù)安全關(guān)乎國(guó)計(jì)民生,也是國(guó)家級(jí)黑客組織的重點(diǎn)攻擊目標(biāo)之一。近年來(lái),隨著網(wǎng)絡(luò)空間大國(guó)博弈的持續(xù)深入,網(wǎng)絡(luò)攻擊從民間組織上升到國(guó)家級(jí)黑客組織,對(duì)他2022年3月,根據(jù)360公司報(bào)告披露,具有境外背景的黑客組織對(duì)中國(guó)開展無(wú)差別網(wǎng)絡(luò)攻擊,攻擊行為極為隱蔽,持續(xù)長(zhǎng)達(dá)十余年。目標(biāo)對(duì)象涵蓋了黨政機(jī)關(guān)、科研院所、高等院校、醫(yī)療機(jī)構(gòu)、行業(yè)龍頭企業(yè),以及關(guān)乎國(guó)計(jì)民生的各個(gè)行業(yè)關(guān)鍵信2022年9月,國(guó)家計(jì)算機(jī)病毒應(yīng)急處理中心和擊的調(diào)查報(bào)告。調(diào)查顯示,境外組織使用40余種網(wǎng)網(wǎng)絡(luò)交換機(jī)、路由器、防火墻等數(shù)以萬(wàn)計(jì)的網(wǎng)絡(luò)設(shè)2023年7月,奇安信公司發(fā)布的《全球高級(jí)持續(xù)性威脅(APT)2023年中報(bào)告》顯示,2023年上半年全球范圍內(nèi),政府部門和國(guó)防軍事領(lǐng)域是APT攻擊的首要目標(biāo)。與去年同期相比,教育、科研領(lǐng)域相關(guān)的攻擊事件比例增高,占比分別為11%和9%。從近年網(wǎng)絡(luò)攻擊態(tài)勢(shì)看,國(guó)家級(jí)黑客組織的猖獗活動(dòng)將愈發(fā)增多、愈演愈烈,各類基礎(chǔ)設(shè)施的安全將長(zhǎng)期處于前所未有的戰(zhàn)略承壓期和高危風(fēng)險(xiǎn)期,這一特征在相當(dāng)長(zhǎng)一段時(shí)間內(nèi)不會(huì)改變。媒體3%制造3%加密貨幣4%通信4%30%金融9%9%9%圖1-152023年上半年高級(jí)威脅事件涉及行業(yè)分布情況1.5.2各國(guó)陸續(xù)出臺(tái)法律法規(guī),提升數(shù)據(jù)戰(zhàn)略地位,加強(qiáng)數(shù)據(jù)安全保1.5.2各國(guó)陸續(xù)出臺(tái)法律法規(guī),提升數(shù)據(jù)戰(zhàn)略地位,加強(qiáng)數(shù)據(jù)安全保護(hù)力度近幾年,全球主要經(jīng)濟(jì)體包括中國(guó)、美國(guó)、歐盟、英國(guó)等紛紛把數(shù)據(jù)競(jìng)爭(zhēng)力上升為國(guó)家級(jí)戰(zhàn)略。雖然2020年受疫情影響,全球整體經(jīng)濟(jì)增長(zhǎng)減緩,但“減少接觸,遠(yuǎn)程辦公”等措施反而使得數(shù)字經(jīng)濟(jì)發(fā)展的勢(shì)頭更加迅猛。各國(guó)更加重視數(shù)據(jù)競(jìng)爭(zhēng)力,并紛紛出臺(tái)政策制定數(shù)據(jù)戰(zhàn)略,宣誓數(shù)據(jù)安全和主權(quán)。在保護(hù)數(shù)據(jù)安全的前提下,承認(rèn)數(shù)據(jù)價(jià)值、促進(jìn)數(shù)據(jù)利用,爭(zhēng)相在數(shù)據(jù)政策制訂方面建立·中國(guó)2020年4月,《中共中央國(guó)務(wù)院關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置體制機(jī)制的意見》公布,中央首次明確數(shù)據(jù)成為繼土地、勞動(dòng)力、資本、和技術(shù)之外的第五大生產(chǎn)要素。2022年,黨的二十大報(bào)告提出了“加快建設(shè)網(wǎng)絡(luò)強(qiáng)國(guó)、數(shù)字中國(guó)”、“健全網(wǎng)絡(luò)綜合治理體系,推動(dòng)形成良好網(wǎng)絡(luò)生態(tài)”、“強(qiáng)化網(wǎng)絡(luò)、數(shù)據(jù)安全保障體系建設(shè)”等重要部署要求,對(duì)“推進(jìn)國(guó)家安全體系和能力現(xiàn)代化,堅(jiān)決維護(hù)國(guó)家安全和社會(huì)穩(wěn)定”進(jìn)行全局部署,為今后國(guó)家網(wǎng)絡(luò)安全和信息化的發(fā)展定下了主基調(diào)。為應(yīng)對(duì)數(shù)據(jù)安全風(fēng)險(xiǎn)帶來(lái)的嚴(yán)峻威脅,2021年陸續(xù)頒布《中華人民共和國(guó)數(shù)據(jù)安全法》及《中華人民共和國(guó)個(gè)人信息保護(hù)法》。《中華人民共和國(guó)數(shù)據(jù)安全法》是數(shù)據(jù)要素國(guó)家戰(zhàn)略的基本法,是我國(guó)數(shù)據(jù)時(shí)代的重要一步,體現(xiàn)了國(guó)家對(duì)支持?jǐn)?shù)字經(jīng)濟(jì)的決心與信息,是數(shù)字經(jīng)濟(jì)“安全與發(fā)展”并重的體現(xiàn)。同期,各個(gè)行業(yè)配套落地措施及標(biāo)準(zhǔn)陸續(xù)出臺(tái)。2022年,國(guó)家進(jìn)一步強(qiáng)化了前期法規(guī)的縱深推進(jìn)與落地實(shí)施,有力夯實(shí)了國(guó)家數(shù)據(jù)安全保障基結(jié)合我國(guó)前期發(fā)布的《國(guó)家安全法》、《網(wǎng)絡(luò)安全法》與上述其他規(guī)范形成配套組合,作為國(guó)家整體安全觀的組成部分,共同構(gòu)筑了國(guó)家信息網(wǎng)絡(luò)空間與基礎(chǔ)設(shè)施的安全壁壘,為保護(hù)國(guó)家和個(gè)人信息數(shù)據(jù)安全提供了法律依據(jù)?!っ绹?guó)2019年12月,美國(guó)白宮發(fā)布了《聯(lián)邦數(shù)據(jù)戰(zhàn)略和2020年行動(dòng)計(jì)劃》。聯(lián)邦數(shù)據(jù)戰(zhàn)略以2020年為起始點(diǎn),描述了美國(guó)政府未來(lái)十年的數(shù)據(jù)愿景,其核心思想是將數(shù)據(jù)作為戰(zhàn)略資源來(lái)開發(fā),通過確立了一致的數(shù)據(jù)基礎(chǔ)設(shè)施和標(biāo)準(zhǔn)實(shí)踐,來(lái)逐步建立強(qiáng)大的數(shù)據(jù)治理能力,為國(guó)家經(jīng)濟(jì)和安全提供保障。2020年10月8日,美國(guó)國(guó)防部發(fā)布了《國(guó)防部數(shù)據(jù)戰(zhàn)略》(DoDDataStrategy),提出國(guó)防部應(yīng)加快向“以數(shù)據(jù)為中心”的過渡,并制定了數(shù)據(jù)戰(zhàn)略框架。并提出:數(shù)據(jù)是戰(zhàn)略資產(chǎn)、數(shù)據(jù)要集體管理、數(shù)據(jù)倫理、數(shù)據(jù)采集、數(shù)據(jù)訪問和可用性、人工智能訓(xùn)練數(shù)據(jù)、數(shù)據(jù)適當(dāng)目的、合規(guī)設(shè)計(jì)等八大原則;數(shù)據(jù)應(yīng)當(dāng):可見的、可訪問的、易于理解的、可鏈接的、可信賴的、可互操作的、安全的等可見,不管是美國(guó)白宮的《聯(lián)邦數(shù)據(jù)戰(zhàn)略》,還是美國(guó)國(guó)防部的《數(shù)據(jù)戰(zhàn)略》,都希望促進(jìn)美國(guó)內(nèi)部數(shù)據(jù)的訪問、共享、互操作性和安全性,使數(shù)據(jù)發(fā)揮更大的價(jià)值,支持更多創(chuàng)新算法的應(yīng)用,最終支持美國(guó)國(guó)家戰(zhàn)略和數(shù)字現(xiàn)代化戰(zhàn)略的實(shí)現(xiàn)?!W盟2020年2月,歐盟發(fā)布了《歐盟數(shù)字化戰(zhàn)略》、《數(shù)據(jù)戰(zhàn)略》、《人工智能戰(zhàn)略》。其核心思想亦是在建立聯(lián)邦數(shù)據(jù)平臺(tái)的基礎(chǔ)上實(shí)現(xiàn)數(shù)據(jù)主權(quán)和技術(shù)主權(quán),從而達(dá)到數(shù)字經(jīng)濟(jì)時(shí)代,國(guó)家競(jìng)爭(zhēng)同時(shí),歐盟非常重視信息數(shù)據(jù)流通與個(gè)人權(quán)利保護(hù)相結(jié)合,在2018年5月發(fā)布了《通用數(shù)據(jù)保護(hù)條例》(GDPR),明確了個(gè)人數(shù)據(jù)定義和條例適用范圍。條例還確定了數(shù)據(jù)保護(hù)的合法性基礎(chǔ)、數(shù)據(jù)主體權(quán)利、數(shù)據(jù)控制者義務(wù)、數(shù)據(jù)流通標(biāo)準(zhǔn)、數(shù)據(jù)救濟(jì)和處罰等內(nèi)容。通過GDPR,歐盟對(duì)出境的個(gè)人數(shù)據(jù)保持了高水平保護(hù)。同時(shí),歐盟認(rèn)為GDPR應(yīng)該成為世界的標(biāo)桿,在推動(dòng)世界在數(shù)據(jù)戰(zhàn)略方面向歐盟看齊。因此GDPR也成為全球眾多國(guó)家、地區(qū)制定數(shù)據(jù)保護(hù)條例的重要參考對(duì)象。高性能計(jì)算做為體現(xiàn)國(guó)家綜合國(guó)力和信息化建設(shè)能力的“國(guó)之重器”,各國(guó)均頻繁從國(guó)家層面啟動(dòng)研制計(jì)劃。在中國(guó)多次上榜全球高性能計(jì)算TOP500后,高性能計(jì)算從產(chǎn)業(yè)鏈條和技術(shù)層面被遏制,中國(guó)E級(jí)和后E級(jí)高性能計(jì)算的發(fā)展遇到在嚴(yán)峻的國(guó)際環(huán)境下,如何突破外部限制與封鎖,保持我國(guó)超級(jí)計(jì)算機(jī)的持續(xù)發(fā)展,自主可控成為唯一出路!面對(duì)挑戰(zhàn),中國(guó)超算產(chǎn)業(yè)需要在超算系統(tǒng)體系結(jié)構(gòu)的創(chuàng)新,關(guān)鍵技術(shù)的突破和軟件硬件的協(xié)同上發(fā)力。近十幾年,中國(guó)在超算關(guān)鍵根技術(shù)上不斷加大投入和自主創(chuàng)新,初步完成了超算自主可控生態(tài)體系的建設(shè)。隨著“天河”和“神威”超級(jí)計(jì)算機(jī)、“飛騰”和“申威”處理器等標(biāo)志性成果的出現(xiàn),打破了長(zhǎng)期以來(lái)國(guó)產(chǎn)超級(jí)計(jì)算機(jī)平臺(tái)無(wú)“芯”可用的局面,奠定了安全、自主、可控的國(guó)產(chǎn)平臺(tái)技術(shù)基礎(chǔ)。在“磁退硅進(jìn)”的全球發(fā)展趨勢(shì)下,我國(guó)大力發(fā)展以半導(dǎo)體為核心的新一代閃存技術(shù)。目前我國(guó)企業(yè)已實(shí)現(xiàn)一部分關(guān)鍵技術(shù)的領(lǐng)先和芯片供貨的國(guó)產(chǎn)化,具備了一定的產(chǎn)業(yè)基礎(chǔ)。通過提升閃存等先進(jìn)存儲(chǔ)在超算存儲(chǔ)系統(tǒng)占比,可以有效規(guī)避當(dāng)前機(jī)械硬盤面臨的卡脖子風(fēng)險(xiǎn),進(jìn)一步構(gòu)筑自主可控?cái)?shù)據(jù)底座。截至目前,中國(guó)在跨域數(shù)據(jù)管理系統(tǒng)、分布式并行文件系統(tǒng)以及超算集群等方面,相比國(guó)外廠家已取得優(yōu)勢(shì);在超算/AI/大數(shù)據(jù)等應(yīng)用生態(tài)、容器應(yīng)用平臺(tái)。以歐拉為代表的操作系統(tǒng)等均實(shí)現(xiàn)對(duì)國(guó)外廠家的追趕。中國(guó)在存儲(chǔ)性能、集群擴(kuò)展、安全可信、綠色節(jié)能等領(lǐng)域充分體現(xiàn)了數(shù)據(jù)基礎(chǔ)設(shè)施技術(shù)的先進(jìn)性。領(lǐng)域國(guó)內(nèi)方案國(guó)際地位領(lǐng)域國(guó)內(nèi)方案國(guó)際地位集群擴(kuò)展支持10EF級(jí)計(jì)算集群并發(fā)支持?jǐn)U展至集群擴(kuò)展支持10EF級(jí)計(jì)算集群并發(fā)支持?jǐn)U展至EB級(jí)存儲(chǔ)集群綠色節(jié)能數(shù)據(jù)零丟失,服務(wù)永遠(yuǎn)在線自帶防攻擊,數(shù)據(jù)安全共享等保三級(jí)聚合帶寬>10TB/s聚合IOPS>3億IO時(shí)延<500us碳達(dá)峰、碳中和綠色數(shù)據(jù)中心安全可信存儲(chǔ)性能存儲(chǔ)根技術(shù)存儲(chǔ)根技術(shù)是中國(guó)超算產(chǎn)業(yè)健康發(fā)展的基石堅(jiān)持科技自立自強(qiáng),發(fā)展自主可控?cái)?shù)據(jù)基礎(chǔ)設(shè)施分布式文件系統(tǒng)CPU處理器介質(zhì)顆粒SSD控制器具備端到端全棧自主可控能力應(yīng)用生態(tài)HPC/AI應(yīng)用生態(tài)HPC/AI/大數(shù)據(jù)并跑容器應(yīng)用平臺(tái)并跑跨域數(shù)據(jù)管理系統(tǒng)GFS領(lǐng)跑分布式并行文件系統(tǒng)OceanFS領(lǐng)跑存儲(chǔ)介質(zhì)長(zhǎng)江,長(zhǎng)鑫等國(guó)家廠家追趕操作系統(tǒng)EulerOS并跑集群OceanStorPacificHPDA集群領(lǐng)跑存儲(chǔ)處理器&控制器鯤鵬+SSD鯤鵬+并跑圖1-16中國(guó)“數(shù)據(jù)基礎(chǔ)設(shè)施”關(guān)鍵根技術(shù)持續(xù)突破創(chuàng)新,實(shí)目前中國(guó)已初步具備建立自主可控?cái)?shù)據(jù)基礎(chǔ)設(shè)施的條件,可基于端到端全棧完全自主能力構(gòu)建安全可信的1.7.1超算系統(tǒng)商業(yè)應(yīng)用和未來(lái)演進(jìn)面臨能效挑戰(zhàn)1.7.1超算系統(tǒng)商業(yè)應(yīng)用和未來(lái)演進(jìn)面臨能效挑戰(zhàn)隨著超算系統(tǒng)規(guī)模的不斷擴(kuò)大和性能的不斷提高,其能耗和散熱問題日益突出。根據(jù)國(guó)際能源署的數(shù)據(jù),全球超級(jí)計(jì)算機(jī)的能源消耗量已經(jīng)超過了一些小國(guó)家的總能源消耗量。在當(dāng)前可持續(xù)發(fā)展的宏觀背景下,超級(jí)計(jì)算的能效不僅影響了超算的運(yùn)行效率和可靠性,也關(guān)系到環(huán)境保護(hù)和資源利用效率。因此,提高超算系統(tǒng)的能效比和降低碳排放已經(jīng)成為超算行業(yè)的重要目標(biāo)。其中能效比是衡量計(jì)算機(jī)性能和能源消耗之間關(guān)系的指標(biāo),它表示單位計(jì)算能力所消耗的能源量。下圖是過去10年根據(jù)Green500榜單公布的歷年最佳超級(jí)計(jì)算機(jī)的能效比,雖然十年間能效比提升了10余倍,但是近兩年持平,維持在60GFLOPS/W。GFLOPS/W7060504030201020132014201520162017201820192020202120222023圖1-17近10年Green500最佳超算計(jì)算機(jī)能效比目前超算系統(tǒng)性能和能效的提升速度之間有大概十多倍的差距,如果性能提升1000倍,能效可能只能提高不到100倍。現(xiàn)在E級(jí)計(jì)算機(jī)能耗大概50兆瓦,按此推算Z級(jí)計(jì)算機(jī)能耗大約在500兆瓦左右。從經(jīng)濟(jì)角度來(lái)說(shuō),P級(jí)計(jì)算機(jī)一年運(yùn)營(yíng)經(jīng)費(fèi)大概幾千萬(wàn)人民幣,E級(jí)大概幾個(gè)億,而Z級(jí)一年運(yùn)營(yíng)經(jīng)費(fèi)需要幾十個(gè)億。超級(jí)計(jì)算機(jī)的高能耗也導(dǎo)致高過去超算技術(shù)進(jìn)步有兩條路,包括單個(gè)芯片性能的提高,以及系統(tǒng)所含的處理器數(shù)量的提高,即并行規(guī)模的擴(kuò)大。目前這兩條路都碰到了天花板,芯片工藝逐漸接近極限,摩爾定律接近失效;而并行規(guī)?;谏鲜瞿苄г蛞膊荒茉贌o(wú)限擴(kuò)展。從超1.7.2通過軟硬件設(shè)計(jì)優(yōu)化提升超級(jí)計(jì)算機(jī)能效,實(shí)現(xiàn)超算系統(tǒng)可1.7.2通過軟硬件設(shè)計(jì)優(yōu)化提升超級(jí)計(jì)算機(jī)能效,實(shí)現(xiàn)超算系統(tǒng)可持續(xù)發(fā)展為了解決超算系統(tǒng)的能源效率問題,研究人員和工程師們已經(jīng)提出了一系列的解決方案。首先,改進(jìn)硬件設(shè)計(jì)是提高能源效率的重要途徑。例如,通過改進(jìn)超級(jí)計(jì)算機(jī)的制造工藝,減少電子元件的能耗,提高能源利用效率;采用更先進(jìn)的散熱技術(shù),如液冷技術(shù)和熱管技術(shù),可以提高散熱效率,減少能耗。此外,研究人員還提出了一些新的功耗管理技術(shù),如采用動(dòng)態(tài)電壓頻率調(diào)整(DVFS)技術(shù),根據(jù)負(fù)載情況動(dòng)態(tài)調(diào)整處理器的電壓和頻率,其次,改進(jìn)軟件設(shè)計(jì)也是提高能源效率的關(guān)鍵。如通過優(yōu)化并行計(jì)算算法和任務(wù)調(diào)度策略,減少計(jì)算過程中的能耗;另外,超級(jí)計(jì)算機(jī)的大規(guī)模數(shù)據(jù)處理和存儲(chǔ)也是能耗的重要來(lái)源。通過采用數(shù)據(jù)壓縮和存儲(chǔ)優(yōu)化技術(shù),減少數(shù)據(jù)傳輸和存儲(chǔ)過程中的能耗。最后,通過采用能耗感知的任務(wù)調(diào)度策略,根據(jù)不同任務(wù)的能耗需求和計(jì)算資源的能耗特了很多優(yōu)秀實(shí)踐。國(guó)家超級(jí)計(jì)算無(wú)錫中心的神威太湖之光E級(jí)系統(tǒng)通過軟硬協(xié)同的多層級(jí)功耗管理和基礎(chǔ)設(shè)施“智冷”技術(shù),等將能耗指標(biāo)PUE值已降至1.22,實(shí)現(xiàn)年均節(jié)電量300萬(wàn)千瓦時(shí)。超級(jí)計(jì)算機(jī)的能源效率是一個(gè)重要的研究領(lǐng)域,對(duì)于實(shí)現(xiàn)超算系統(tǒng)可持續(xù)發(fā)展具有重要意義。通過改進(jìn)硬件設(shè)計(jì)和制造過程,優(yōu)化軟件設(shè)計(jì),以及借助新的能源技術(shù),可以有效提高超算系統(tǒng)的能2.1HPC與AI走向融合,構(gòu)建“5A”新型超算架構(gòu)為更好應(yīng)對(duì)新應(yīng)用帶來(lái)的生態(tài)復(fù)雜性變化、新業(yè)務(wù)催生的混合業(yè)務(wù)負(fù)載壓力、新數(shù)據(jù)與算力協(xié)同帶來(lái)的數(shù)據(jù)跨地域訪問需求、新平臺(tái)帶來(lái)的安全穩(wěn)定可靠及數(shù)據(jù)管理挑戰(zhàn),需要構(gòu)建以應(yīng)用為中心,支撐HPC、大數(shù)據(jù)、AI多系統(tǒng)融合業(yè)務(wù)的新型超任何視圖管理(AnyView)作業(yè)管理設(shè)備管理用戶管理數(shù)據(jù)管理統(tǒng)一作業(yè)調(diào)度統(tǒng)一設(shè)備監(jiān)控任何視圖管理(AnyView)作業(yè)管理設(shè)備管理用戶管理數(shù)據(jù)管理統(tǒng)一作業(yè)調(diào)度統(tǒng)一設(shè)備監(jiān)控統(tǒng)一用戶分析多維數(shù)據(jù)透視…任何應(yīng)用生態(tài)(AnyApplication)制造模擬生命科學(xué)天氣預(yù)測(cè)精準(zhǔn)醫(yī)療工業(yè)質(zhì)檢智能辦公……人工智能高性能計(jì)算+大數(shù)據(jù)人工智能高性能計(jì)算+CIFS、NFS、HDFS、S3、Posix、MPIOBurstBuffer存算均衡大規(guī)模部署全對(duì)稱架構(gòu)橫向擴(kuò)展動(dòng)態(tài)混合負(fù)載性能型平衡型歸檔型 BurstBuffer存算均衡大規(guī)模部署全對(duì)稱架構(gòu)橫向擴(kuò)展動(dòng)態(tài)混合負(fù)載性能型平衡型歸檔型 數(shù)據(jù)密集型存儲(chǔ)底座任何業(yè)務(wù)負(fù)載(AnyWorkload)ParallelIO、GCC、SparkShuffle、CheckPoint、BatchLoad……近計(jì)算機(jī)加速并行文件系統(tǒng)任何位置訪問任何位置訪問(AnyWhere)DC1DC3DC2一體化存儲(chǔ)集群,數(shù)據(jù)互聯(lián)互通邊緣邊緣任何狀況在線任何狀況在線(AnyCondition)設(shè)備故障、病毒攻擊、數(shù)據(jù)泄露、數(shù)據(jù)中心故障、供應(yīng)安全 穩(wěn)定多活多DC數(shù)據(jù)持久訪問 安全防病毒、防勒索全棧國(guó)密自主可控健康監(jiān)測(cè) 可靠冗余保護(hù)數(shù)據(jù)中心災(zāi)備圖示2-1數(shù)據(jù)密集型超算異構(gòu)融合全棧架構(gòu)·任何應(yīng)用生態(tài)(AnyApplication)HPC高性能計(jì)算、大數(shù)據(jù)分析及AI人工智能分析新型應(yīng)用不斷涌現(xiàn),業(yè)務(wù)生態(tài)走向融合,需要具備支持多協(xié)議融合、科學(xué)計(jì)算工作流優(yōu)化等能力。實(shí)現(xiàn)制造模擬、生命科學(xué)、天氣預(yù)測(cè)等傳統(tǒng)HPC應(yīng)用向精準(zhǔn)醫(yī)療、工業(yè)質(zhì)檢、智能辦公等HPC+大數(shù)·任何業(yè)務(wù)負(fù)載(AnyWorkload)HPC、大數(shù)據(jù)、AI多技術(shù)融合帶來(lái)多業(yè)務(wù)混合負(fù)載,面對(duì)HPC應(yīng)用并行IO訪問、GCC編譯、大數(shù)據(jù)SparkShuffle、AI大模型CheckPoint、BatchLoad等混合負(fù)載訴求,需要近計(jì)算加速Burst并行文件系統(tǒng)可解決帶寬和IOPS型業(yè)務(wù)共存的問題,應(yīng)對(duì)動(dòng)態(tài)混合I/O負(fù)載,需要全對(duì)稱分布式架構(gòu)設(shè)計(jì),根據(jù)不同業(yè)務(wù)訪問需求,多協(xié)議按需訪問,·任何位置訪問(AnyWhere)多中心部署正在成為新常態(tài),數(shù)據(jù)分布在核心超算中心、邊緣超算中心等多超算中心,需要融合數(shù)據(jù)資源池,面向不同類型的異構(gòu)設(shè)備及產(chǎn)生的海量數(shù)據(jù),提供統(tǒng)一數(shù)據(jù)存儲(chǔ),實(shí)現(xiàn)跨超算中心的熱、溫、冷數(shù)據(jù)自動(dòng)分級(jí),全生命周期數(shù)據(jù)管理。面向跨集群的統(tǒng)一元數(shù)據(jù)管理,元數(shù)據(jù)全局可見,數(shù)據(jù)在任何位置都能輕松就近訪問、安全流動(dòng),突·任何狀況在線(AnyCondition)為了滿足新型HPDA多應(yīng)用場(chǎng)景對(duì)安全穩(wěn)定可靠的更高要求,應(yīng)對(duì)病毒攻擊、數(shù)據(jù)泄露新挑戰(zhàn),需要具備主動(dòng)健康監(jiān)測(cè)、防病毒、防勒索、全棧國(guó)密的能力,同時(shí)保障供應(yīng)安全,實(shí)現(xiàn)安全的超算平臺(tái),針對(duì)設(shè)備故障、超算中心故障等風(fēng)險(xiǎn),需要具備多活多DC、數(shù)據(jù)冗余保護(hù)、數(shù)據(jù)中心災(zāi)備等關(guān)鍵能力,保障超算數(shù)據(jù)平臺(tái)的穩(wěn)定可靠,實(shí)現(xiàn)數(shù)據(jù)訪·任何視圖管理(AnyView)面向HPDA平臺(tái)作業(yè)管理、設(shè)備管理、用戶管理、數(shù)據(jù)管理等全場(chǎng)景管理訴求,需要統(tǒng)一智能管理平臺(tái)提供統(tǒng)一作業(yè)調(diào)度、統(tǒng)一設(shè)備監(jiān)控、統(tǒng)一用戶管理、多維度數(shù)據(jù)透視,實(shí)現(xiàn)設(shè)備狀態(tài)持續(xù)監(jiān)AnyApplication:新型應(yīng)用不斷涌現(xiàn),數(shù)據(jù)密集型超算應(yīng)具備隨著數(shù)據(jù)密集型超算的發(fā)展,業(yè)務(wù)生態(tài)場(chǎng)景趨向復(fù)雜,常常需要考慮傳統(tǒng)HPC、大數(shù)據(jù)、AI混合疊加的情況。以油氣勘探場(chǎng)景數(shù)據(jù)的處理為例,需要對(duì)野外地震勘探所采集的地震數(shù)據(jù)進(jìn)行現(xiàn)場(chǎng)處理,然后到超算中心進(jìn)行多步預(yù)處理、合成地震記錄、三維地震解釋標(biāo)注、時(shí)深轉(zhuǎn)換、地質(zhì)建模、油藏模擬、數(shù)據(jù)歸檔等十多步數(shù)據(jù)處理環(huán)節(jié),最終由地質(zhì)專家根據(jù)生成的地質(zhì)構(gòu)造圖確定油氣位置、儲(chǔ)量大小、開采價(jià)值和策略等。數(shù)據(jù)采集階段需要使用CIFS/S3格式把數(shù)據(jù)存儲(chǔ)在邊緣存儲(chǔ)中,經(jīng)過預(yù)處理后,以NFS/POSIX格式傳入中心存儲(chǔ)作為核心數(shù)據(jù)。由中心存儲(chǔ)以POSIX格式共享給其他各個(gè)業(yè)務(wù)環(huán)節(jié)使用。場(chǎng)景中使用Omega、Geo-vation、Vista、Echos等幾十種軟件,中間數(shù)據(jù)會(huì)有10-20倍的膨脹,達(dá)到10PB級(jí)別。油氣勘探場(chǎng)景天然需要高性能計(jì)算對(duì)大規(guī)模的數(shù)據(jù)進(jìn)行三維重建,為滿足場(chǎng)景中多業(yè)務(wù)流程的需求,超算需要具備支持多協(xié)議互通、科學(xué)計(jì)算工作流優(yōu)化等能力,同時(shí)兼顧全應(yīng)用生態(tài)演進(jìn),立足當(dāng)下,滿足未來(lái)5-10年的發(fā)展需求。2.2.1應(yīng)用快速發(fā)展,需要多協(xié)議融合互通能力支撐業(yè)務(wù)未來(lái)演進(jìn)2.2.1應(yīng)用快速發(fā)展,需要多協(xié)議融合互通能力支撐業(yè)務(wù)未來(lái)演進(jìn)(1)從業(yè)務(wù)角度來(lái)看,各種應(yīng)用需要不同隨著業(yè)務(wù)應(yīng)用的發(fā)展,一套超算常常需要支持多種業(yè)務(wù)應(yīng)用。HPC業(yè)務(wù)采用S3、NFS、CIFS、SMB、標(biāo)準(zhǔn)POSIX、MPI-IO等協(xié)議訪問,大數(shù)據(jù)業(yè)務(wù)采用HDFS、MapReduce等協(xié)議訪問,AI業(yè)務(wù)采用NFS、標(biāo)準(zhǔn)POSIX等協(xié)議。面向未來(lái)業(yè)務(wù)應(yīng)用的融合超算,需要支撐兼容業(yè)務(wù)應(yīng)用的多種協(xié)(2)應(yīng)用不斷演進(jìn),新的協(xié)議還將層出業(yè)務(wù)的交叉演進(jìn),數(shù)據(jù)的不斷增加,迫使應(yīng)用不斷演進(jìn)出新的協(xié)議需求,如何面向未來(lái),兼容新協(xié)議接口,做到系統(tǒng)內(nèi)部改動(dòng)最小,接口迭代開(3)超算應(yīng)具備容器native承載能力容器作為一種輕量級(jí)的虛擬化技術(shù),可以將應(yīng)用程序及其依賴項(xiàng)打包成一個(gè)可移植的容器,通過讓應(yīng)用程序在不同的環(huán)境中運(yùn)行,提高業(yè)務(wù)的部署效率和可靠性,減少部署時(shí)間和成本。容器化還可以實(shí)現(xiàn)快速擴(kuò)容和縮容,以應(yīng)對(duì)業(yè)務(wù)高峰期和低谷期的變化,提高了系統(tǒng)的彈性和可靠性?;谌萜麟S著業(yè)務(wù)的發(fā)展,還將涌現(xiàn)出更多協(xié)議、技術(shù)棧,未來(lái)的超算應(yīng)支持多協(xié)議無(wú)損互通,支持多技2.2.2數(shù)據(jù)分析廣泛應(yīng)用,需要支持2.2.2數(shù)據(jù)分析廣泛應(yīng)用,需要支持科學(xué)計(jì)算工作流,提升業(yè)務(wù)效率科學(xué)計(jì)算工作流是指在科學(xué)研究中,通過計(jì)算機(jī)模擬、數(shù)據(jù)分析、比對(duì)等方式,對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行處理和分析,從而得出科學(xué)結(jié)論的一系列流程。在現(xiàn)代科學(xué)研究中,計(jì)算已被廣泛使用,然而不同應(yīng)用的計(jì)算流程差異很大,不同環(huán)節(jié)對(duì)超算系統(tǒng)要求也不同,如何針對(duì)應(yīng)用場(chǎng)景,支持計(jì)算流程是提升業(yè)務(wù)速率的關(guān)鍵,甚至直接決定了科研的商業(yè)轉(zhuǎn)化(1)存儲(chǔ)需要支持科學(xué)計(jì)算工作流,目錄以AI模型訓(xùn)練為例,業(yè)務(wù)流主要包括數(shù)據(jù)獲數(shù)據(jù)獲取主要是把多方獲取的數(shù)據(jù)進(jìn)行脫敏、合規(guī)、匯聚到邊緣存儲(chǔ),再用NAS協(xié)議或S3協(xié)議統(tǒng)一存儲(chǔ)到中心存儲(chǔ)元數(shù)據(jù)庫(kù)中,作為原始數(shù)據(jù)。數(shù)據(jù)預(yù)處理是由預(yù)處理服務(wù)器對(duì)數(shù)據(jù)進(jìn)行格式統(tǒng)一、錯(cuò)誤糾正、異常數(shù)據(jù)清理、重復(fù)數(shù)據(jù)清理的過程。這步一般采用NAS協(xié)議或HDFS協(xié)議進(jìn)行數(shù)據(jù)訪問,最終形成訓(xùn)練集數(shù)據(jù)和索引數(shù)據(jù)集。20流程階段數(shù)據(jù)預(yù)處理原始數(shù)據(jù)->訓(xùn)練數(shù)據(jù)推理應(yīng)用輸入數(shù)據(jù)+模型->Vector流程階段數(shù)據(jù)預(yù)處理原始數(shù)據(jù)->訓(xùn)練數(shù)據(jù)推理應(yīng)用輸入數(shù)據(jù)+模型->Vector->應(yīng)用模型訓(xùn)練原始數(shù)據(jù)+訓(xùn)練+調(diào)優(yōu)+評(píng)估-》模型數(shù)據(jù)獲取三方收集、網(wǎng)絡(luò)爬取、邊緣匯聚…計(jì)算處理流程計(jì)算處理流程預(yù)處理服務(wù)器格式標(biāo)準(zhǔn)化錯(cuò)誤糾正異常數(shù)據(jù)清理重復(fù)數(shù)據(jù)清除 GPU4基礎(chǔ)大模型訓(xùn)&推理行業(yè)模型訓(xùn)推一體化預(yù)處理服務(wù)器格式標(biāo)準(zhǔn)化錯(cuò)誤糾正異常數(shù)據(jù)清理重復(fù)數(shù)據(jù)清除 GPU4基礎(chǔ)大模型訓(xùn)&推理行業(yè)模型訓(xùn)推一體化脫敏、合規(guī)、審批、匯聚GPU1脫敏、合規(guī)、審批、匯聚GPU1GPU2邊緣存儲(chǔ)邊緣存儲(chǔ)GPU2邊緣存儲(chǔ)邊緣存儲(chǔ)GPU3…GPU3…模型加載數(shù)據(jù)并行模型加載數(shù)據(jù)并行小文件、高IO向量存儲(chǔ)加速HDFS協(xié)議小文件、高IO向量存儲(chǔ)加速HDFS協(xié)議NAS協(xié)議多協(xié)議融合互通GDS全域數(shù)據(jù)管理動(dòng)態(tài)混合負(fù)載數(shù)據(jù)處理流程全域數(shù)據(jù)管理動(dòng)態(tài)混合負(fù)載數(shù)據(jù)處理流程高性能層高性能層CheckCheck原始數(shù)據(jù)訓(xùn)練集數(shù)據(jù)索引數(shù)據(jù)LOG向量庫(kù)業(yè)務(wù)數(shù)據(jù)原始數(shù)據(jù)訓(xùn)練集數(shù)據(jù)索引數(shù)據(jù)LOG向量庫(kù)業(yè)務(wù)數(shù)據(jù)向量庫(kù)智能分級(jí)智能分級(jí)熱溫冷智能分級(jí)跨域數(shù)據(jù)災(zāi)備全域數(shù)據(jù)管理熱溫冷智能分級(jí)跨域數(shù)據(jù)災(zāi)備全域數(shù)據(jù)管理數(shù)據(jù)安全可信大容量層圖示2-2AI大模型業(yè)務(wù)全流程模型訓(xùn)練是由計(jì)算使用訓(xùn)練數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,不斷調(diào)整模型參數(shù),使其能夠更好地?cái)M合數(shù)據(jù)。一般采用GDS或POSIX等高速接口滿足動(dòng)態(tài)推理應(yīng)用是通過訓(xùn)練好的模型對(duì)輸入數(shù)據(jù)進(jìn)行處理,系統(tǒng)需要存儲(chǔ)過程向量,完成明確目的的任務(wù)。多次訓(xùn)練需要頻繁訪問向量庫(kù),處理過程是對(duì)GPT4未來(lái)訓(xùn)練數(shù)據(jù)可達(dá)PB級(jí)別,從單模態(tài)發(fā)展為兼容多模態(tài),海量數(shù)據(jù)分配到不同CPU、GPU上并行計(jì)算,小文件存儲(chǔ)被頻繁讀取,涉及到數(shù)據(jù)的頻繁遷移,系統(tǒng)間的IO性能差異可能成為制約業(yè)務(wù)的瓶頸。資源的使用需要通過科學(xué)計(jì)算工作流進(jìn)行管理和調(diào)度,以確保資源的充分利用和任務(wù)因此,加速AI全流程,需要系統(tǒng)支持多協(xié)議融合互通、支持混合負(fù)載的高性能訪問、支持?jǐn)?shù)據(jù)的全生命周期管理。當(dāng)前AI大模型訓(xùn)練有多種實(shí)現(xiàn)方式,早期的計(jì)算+共享存儲(chǔ)+本地SSD盤的存儲(chǔ)架構(gòu)已無(wú)法滿足大模型的未來(lái)發(fā)展要求。新的高性能、大容量、獨(dú)立融合的統(tǒng)一數(shù)據(jù)基座正成為新的主流(2)利用AI模型優(yōu)化傳統(tǒng)業(yè)務(wù)計(jì)算流,例如:利用盤古AI大模型優(yōu)化氣象預(yù)報(bào)。傳統(tǒng)業(yè)務(wù)把WRF、GFS、ECMWF、CAM等天氣預(yù)測(cè)軟件部署在超算上,軟件求解物理方程進(jìn)行預(yù)測(cè),求解過程高頻反復(fù)迭代,累積誤差影響精度。如中國(guó)氣象局臺(tái)風(fēng)路徑預(yù)報(bào)精度很難控制在60km范圍內(nèi),面臨計(jì)算量大、高IO、耗時(shí)長(zhǎng)(高IO)挑戰(zhàn),每天僅能進(jìn)行2-3次預(yù)報(bào),通過將原先的HPC數(shù)值模擬流程采用。通過采用大模型預(yù)測(cè)算法,使推理過程迭代次數(shù)減少,累積誤差減小,計(jì)算更加高效,實(shí)現(xiàn)10秒~1分鐘內(nèi)出7天預(yù)報(bào)結(jié)果,每天可進(jìn)行多次預(yù)報(bào)。氣象人員還可根據(jù)經(jīng)驗(yàn)通過構(gòu)建多個(gè)數(shù)據(jù)模型初值,生成預(yù)報(bào)集合(集合預(yù)報(bào)),進(jìn)一氣象預(yù)報(bào)服務(wù)盤古氣象大模型(AI)同化系統(tǒng)預(yù)報(bào)系統(tǒng)(AI大模型推理)后處理系統(tǒng)氣象預(yù)報(bào)服務(wù)盤古氣象大模型(AI)圖示2-3氣象AI大模型推理流程AnyWorkload:多技術(shù)融合帶來(lái)多樣負(fù)載,數(shù)據(jù)密集型超算2.3.12.3.1HPC+AI+BigData多樣性應(yīng)用,需要?jiǎng)討B(tài)混合負(fù)載承載能力世界各大超算系統(tǒng)被廣泛使用于需要高算力與高數(shù)據(jù)量的應(yīng)用,而近年來(lái)人工智能的發(fā)展也使愈來(lái)愈多的與人工智能技術(shù)相結(jié)合,更進(jìn)一步對(duì)超算系統(tǒng)·自動(dòng)駕駛應(yīng)用隨著自動(dòng)駕駛技術(shù)由L3向L4演進(jìn),數(shù)據(jù)量倍增,每車每天可產(chǎn)生約60TB數(shù)據(jù)。數(shù)據(jù)收集導(dǎo)入階段為PB級(jí)別的數(shù)據(jù)量寫入,而預(yù)處理后的數(shù)據(jù)集寫入即可對(duì)存儲(chǔ)系統(tǒng)產(chǎn)生百GB/s的帶寬需求。之后的訓(xùn)練階段則需要從存儲(chǔ)讀出海量大小文件,要求存儲(chǔ)提供百萬(wàn)級(jí)IOPS。而仿真階段,亦要求存儲(chǔ)提供百GB/s以上帶寬。最后在推理階段,應(yīng)用的實(shí)時(shí)性要求數(shù)據(jù)讀寫.AI大模型訓(xùn)練如GPT-3這樣的大模型,擁有千億級(jí)參數(shù),訓(xùn)練數(shù)據(jù)集可達(dá)幾千億級(jí),而文件平均大小往往在10KB-500KB之間。訓(xùn)練階段需要從存儲(chǔ)快速加載海量小文件,要求存儲(chǔ)系統(tǒng)提供千萬(wàn)級(jí)IOPS性能。而下一代的GPT-4大模型,則會(huì)要求存儲(chǔ)提供億級(jí)IOPS性能用于訓(xùn)練。同時(shí),由于大模型訓(xùn)練的出錯(cuò)率較高,平均每天需要多次將體量較大的CheckPoint文件寫入存儲(chǔ),而之后的模型評(píng)估也對(duì)存儲(chǔ)系統(tǒng)中模型的讀出有極高的帶寬要求。這意味著存儲(chǔ)系統(tǒng)需要能同時(shí)提供小文件的億級(jí)IOPS讀寫,以及大文件的TB/s級(jí)別讀寫帶寬。諸多應(yīng)用在統(tǒng)一超算平臺(tái)上同時(shí)運(yùn)行,需要超算平臺(tái)的數(shù)據(jù)存儲(chǔ)系統(tǒng)能同時(shí)滿足高性能計(jì)算(HPC)、人工智能(AI)、大數(shù)據(jù)分析(BigData)類別的數(shù)據(jù)訪問。順序大IO的帶寬類、隨機(jī)小IO的高IOPS類、批量元數(shù)據(jù)操作的OPS類、還有同時(shí)訪問同一個(gè)文件的并行IO類這些數(shù)據(jù)訪問包·批量元數(shù)據(jù)操作的OPS密集型··小文件隨機(jī)小IO的IOPS密集型···超算平臺(tái)的數(shù)據(jù)存儲(chǔ)系統(tǒng)需要設(shè)計(jì)動(dòng)態(tài)均衡能實(shí)現(xiàn)以應(yīng)用為中心,面向高性能計(jì)算(HPC)、人2.3.2E級(jí)大規(guī)模應(yīng)用,需要近計(jì)算實(shí)現(xiàn)加速2.3.2E級(jí)大規(guī)模應(yīng)用,需要近計(jì)算實(shí)現(xiàn)加速新一代E級(jí)超算,作為國(guó)家在新信息技術(shù)領(lǐng)域的重要部署,將有力驅(qū)動(dòng)國(guó)家信息技術(shù)產(chǎn)業(yè)創(chuàng)新發(fā)展,研發(fā)適配國(guó)產(chǎn)超級(jí)計(jì)算系統(tǒng)的關(guān)鍵技術(shù)和應(yīng)用軟件,構(gòu)建新的國(guó)產(chǎn)E級(jí)超級(jí)計(jì)算應(yīng)用生態(tài)。國(guó)家超級(jí)中心聯(lián)合發(fā)布了“面向新一代國(guó)產(chǎn)E級(jí)超算系統(tǒng)的十大應(yīng)用”,例如:面向通用人工智能的超大規(guī)模預(yù)訓(xùn)練模型、FAST超大規(guī)模觀測(cè)數(shù)據(jù)的高分辨率巡天圖像處理、全腦千億神經(jīng)元?jiǎng)恿W(xué)仿真、完全分辨率的全球次中尺度海洋數(shù)值模擬等,以解決世上述大規(guī)模應(yīng)用對(duì)E級(jí)超算系統(tǒng)帶來(lái)了如下挑大規(guī)模RDMA連接導(dǎo)致內(nèi)存資源開銷大、網(wǎng)絡(luò)交互端口沖突帶來(lái)了長(zhǎng)尾時(shí)延;(2)大規(guī)模應(yīng)用如何應(yīng)對(duì)整體系統(tǒng)可靠性:業(yè)界E級(jí)大規(guī)模集群MTBF較小,對(duì)CheckPoint具有較高依賴,業(yè)務(wù)效率對(duì)BB互相干擾:IO性能無(wú)法達(dá)到預(yù)期,單系統(tǒng)利用率不高;(4)如何避免少量存儲(chǔ)節(jié)點(diǎn)慢對(duì)整體速度的影響:少量存儲(chǔ)節(jié)點(diǎn)處于亞健康狀態(tài),導(dǎo)致的短木板BurstBuffer作為在E級(jí)超算中應(yīng)用的一種高速緩存技術(shù),需要提供近計(jì)算加速部署,突破性能和擴(kuò)容性瓶頸,利用分布式計(jì)算的優(yōu)勢(shì)加速大規(guī)模應(yīng)用計(jì)算問題的解決。同時(shí),也要求計(jì)算節(jié)點(diǎn)和緩存節(jié)點(diǎn)根據(jù)拓?fù)潢P(guān)系分組配對(duì),就近創(chuàng)建作業(yè),作業(yè)間數(shù)據(jù)隔離。通過RDMA網(wǎng)絡(luò),實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)快速收斂,滿足數(shù)萬(wàn)級(jí)計(jì)算擴(kuò)展能力,支撐EF/10EF計(jì)算匯聚網(wǎng)絡(luò)計(jì)算匯聚網(wǎng)絡(luò)計(jì)算接入網(wǎng)絡(luò)計(jì)算層計(jì)算接入網(wǎng)絡(luò)計(jì)算接入網(wǎng)絡(luò)計(jì)算接入網(wǎng)絡(luò)加速層加速層BurstbutterBurstbutter存儲(chǔ)層存儲(chǔ)接入網(wǎng)絡(luò)存儲(chǔ)層存儲(chǔ)接入網(wǎng)絡(luò)智能分級(jí)智能分級(jí)SSD存儲(chǔ)池

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論