分布式存儲(chǔ)產(chǎn)業(yè)方陣-分布式存儲(chǔ)發(fā)展白皮書_第1頁(yè)
分布式存儲(chǔ)產(chǎn)業(yè)方陣-分布式存儲(chǔ)發(fā)展白皮書_第2頁(yè)
分布式存儲(chǔ)產(chǎn)業(yè)方陣-分布式存儲(chǔ)發(fā)展白皮書_第3頁(yè)
分布式存儲(chǔ)產(chǎn)業(yè)方陣-分布式存儲(chǔ)發(fā)展白皮書_第4頁(yè)
分布式存儲(chǔ)產(chǎn)業(yè)方陣-分布式存儲(chǔ)發(fā)展白皮書_第5頁(yè)
已閱讀5頁(yè),還剩80頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

版權(quán)聲明本白皮書版權(quán)屬于分布式存儲(chǔ)產(chǎn)業(yè)方陣,并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本白皮書文字或者觀點(diǎn)的,應(yīng)注明“來(lái)源:分布式存儲(chǔ)產(chǎn)業(yè)方陣”。違反上述聲明者,本方陣將追究其相關(guān)法律責(zé)任。編制說(shuō)明牽頭編制單位:主要參與編制單位:中國(guó)信息通信研究院、華為技術(shù)有限公司、新華三技術(shù)有限公司、曙光信息產(chǎn)業(yè)(北京)有限公司、戴爾(中國(guó))有限公司、聯(lián)想凌拓科技有限公司、國(guó)際商業(yè)機(jī)器(中國(guó))有限公司、中移(蘇州)軟件技術(shù)有限公司、中電信數(shù)智科技有限公司、北京星辰天合科技股份有限公司、浪潮電子信息產(chǎn)業(yè)股份有限公司、聯(lián)通數(shù)字科技有限公司、安超云軟件有限公司、深圳市杉巖數(shù)據(jù)技術(shù)有限公司、深信服科技股份有限公司、中電云數(shù)智科技有限公司、華瑞指數(shù)云科技(深圳)有限公司、北京焱融科技有限公司、天翼數(shù)字生活科技有限公司、深圳市泛聯(lián)信息科技有限公司、云宏信息科技股份有限公司、南京道熵信息技術(shù)有限公司、京東科技信息技術(shù)有限公司、極道科技(北京)有限公司、上海霄云主要編制組成員:德華、孫建國(guó)、沈玉良、張?zhí)鞚崱堄窬?、張委、楊利鋒、呂磊、何營(yíng)、劉飛龍、過(guò)曉春、陳學(xué)偉、孫翠鋒、劉翰超、陳侃、舒坦、隋成龍、張文濤、湯杰在數(shù)字化時(shí)代的浪潮中,數(shù)據(jù)已經(jīng)變成了推動(dòng)社會(huì)進(jìn)步的核心驅(qū)動(dòng)力。每一次網(wǎng)絡(luò)互動(dòng)、每一筆交易、每一幀畫面,背后都隱藏著海量的數(shù)據(jù)。對(duì)這些數(shù)據(jù)的存儲(chǔ)、管理和分析在現(xiàn)代社會(huì)中已變得不可或缺。存儲(chǔ)是數(shù)據(jù)的載體,分布式存儲(chǔ)作為其中的一種重要形態(tài),已經(jīng)成為大數(shù)據(jù)、AI等數(shù)據(jù)智能技術(shù)深化發(fā)展的重要基石,正持續(xù)地為各行各業(yè)提供著穩(wěn)固、高效、可靠的數(shù)據(jù)支撐。中國(guó)分布式存儲(chǔ)市場(chǎng)保持著穩(wěn)健的增長(zhǎng)態(tài)勢(shì),尤其在中東部區(qū)域和關(guān)鍵行業(yè)中,數(shù)字化轉(zhuǎn)型正在推動(dòng)存儲(chǔ)市場(chǎng)的蓬勃發(fā)展。與此同時(shí),AI大模型、大數(shù)據(jù)湖倉(cāng)一體、數(shù)字化病理、量化交易、數(shù)據(jù)網(wǎng)絡(luò)等新興應(yīng)用場(chǎng)景也在不斷地?cái)U(kuò)展,為分布式存儲(chǔ)帶來(lái)更多的機(jī)遇和挑戰(zhàn)。分布式存儲(chǔ)產(chǎn)業(yè)方陣積極響應(yīng)產(chǎn)業(yè)需求,聯(lián)合產(chǎn)學(xué)研用多方力量,共同推動(dòng)分布式存儲(chǔ)的技術(shù)標(biāo)準(zhǔn)研制、生態(tài)體系建設(shè)、應(yīng)用推廣等工作,在2022年白皮書基礎(chǔ)上,圍繞新的應(yīng)用場(chǎng)景、發(fā)展趨勢(shì),為讀者提供一個(gè)清晰、系統(tǒng)的分布式存儲(chǔ)產(chǎn)業(yè)全景,支撐政府、金融、教育、制造等各行業(yè)數(shù)字化轉(zhuǎn)型,推動(dòng)我國(guó)分布式存儲(chǔ)產(chǎn)業(yè)健康發(fā)展。希望通過(guò)這本白皮書,讀者可以更好地理解分布式存儲(chǔ)的價(jià)值和未來(lái),同時(shí)也為相關(guān)行業(yè)和研究者提供有價(jià)值的參考和啟示。 2 4 4 7 21 23 25 28 31 31 34 36 38 42 4 9 401(一)大模型快速崛起,開(kāi)啟海量數(shù)據(jù)應(yīng)用新時(shí)代大模型的快速發(fā)展讓大模型的訓(xùn)練效率引起了業(yè)界的廣泛關(guān)注,大模型訓(xùn)練一方面對(duì)互聯(lián)帶寬提出了新的挑戰(zhàn),另一方面也對(duì)數(shù)據(jù)始,業(yè)界開(kāi)啟了預(yù)訓(xùn)練大模型之路。2023年出現(xiàn)了第一個(gè)殺手級(jí)應(yīng)經(jīng)達(dá)到1億月活用戶。2023年3月英偉達(dá)在GTC大會(huì)上也表示AI的iPhone時(shí)刻已經(jīng)到來(lái),標(biāo)志著大模型快速崛起,進(jìn)入應(yīng)用階段。大模型在訓(xùn)練過(guò)程中所需數(shù)據(jù)量龐大。模型的深度學(xué)習(xí)網(wǎng)絡(luò)層數(shù)多、鏈接多、參數(shù)復(fù)雜,以及訓(xùn)練所用數(shù)據(jù)集種類復(fù)雜,數(shù)據(jù)量大。在深度學(xué)習(xí)算法剛剛誕生時(shí),主流模型只有幾百萬(wàn)參數(shù),而B(niǎo)ERT發(fā)布時(shí)模型參數(shù)就已經(jīng)過(guò)億,將深度學(xué)習(xí)推進(jìn)到了大模型階段。到了ChatGPT階段,主流模型已經(jīng)有幾千億參數(shù),甚至業(yè)界已經(jīng)開(kāi)始規(guī)劃萬(wàn)億模型。幾年時(shí)間里,AI模型的參數(shù)提升幾千倍,如此龐大的數(shù)據(jù)與模型都需要進(jìn)行存儲(chǔ),這就成了大模型爆發(fā)給存儲(chǔ)的第一大考驗(yàn)。大模型的另一個(gè)顯著特點(diǎn)是對(duì)非結(jié)構(gòu)化數(shù)據(jù)的高度依賴。目前會(huì)廣泛提到AI大模型采用了全新的模型結(jié)構(gòu),因此對(duì)非結(jié)構(gòu)化數(shù)據(jù)會(huì)有更好的吸收效果與魯棒性,這對(duì)于AI最終效果非常重要,但也2帶來(lái)一個(gè)衍生問(wèn)題:如何妥善處理存儲(chǔ)和調(diào)用海量的非結(jié)構(gòu)化數(shù)據(jù)。比如,2023年9月OpenAI宣布ChatGPT開(kāi)啟多模態(tài)輸出模式,ChatGPT在升級(jí)后加入了識(shí)圖、語(yǔ)音識(shí)別等多模態(tài)能力,因此其訓(xùn)練數(shù)據(jù)也需要在文本基礎(chǔ)上加入大量圖片、語(yǔ)音,再比如自動(dòng)駕駛車輛,每天要將大量實(shí)地測(cè)試視頻存儲(chǔ)起來(lái)作為模型訓(xùn)練依據(jù)。這些非結(jié)構(gòu)化數(shù)據(jù),帶來(lái)了AI相關(guān)數(shù)據(jù)的海量增長(zhǎng),也帶來(lái)了存儲(chǔ)和處理這些數(shù)據(jù)的難題。據(jù)統(tǒng)計(jì),當(dāng)前全球新增數(shù)據(jù)有80%都是非結(jié)構(gòu)化數(shù)據(jù),年復(fù)合增長(zhǎng)率達(dá)到38%,應(yīng)對(duì)多元化的數(shù)據(jù)激增,已經(jīng)成為大模型時(shí)代必須克服的困難。大模型對(duì)存儲(chǔ)的性能和安全性也提出了更高的要求。大模型往往需要頻繁讀取和調(diào)用數(shù)據(jù),ChatGPT的數(shù)據(jù)訪問(wèn)使用量達(dá)到單月括采集、準(zhǔn)備、訓(xùn)練、推理四部分,每個(gè)階段需要讀寫不同類型的數(shù)據(jù)。因此,大模型對(duì)存儲(chǔ)性能也帶來(lái)了要求。此外,圍繞ChatGPT展開(kāi)的一系列數(shù)據(jù)主權(quán)、數(shù)據(jù)保護(hù)爭(zhēng)議,也提醒我們AI大模型帶來(lái)了數(shù)據(jù)安全方面新的風(fēng)險(xiǎn)。試想一下,如果不法分子攻擊數(shù)據(jù)庫(kù),從而令大語(yǔ)言模型生成錯(cuò)誤信息欺騙用戶,其危害結(jié)果既嚴(yán)重且隱(二)算力發(fā)展需要互聯(lián)互通,加速數(shù)據(jù)流動(dòng)需求2023年10月,工信部等六部門聯(lián)合印發(fā)《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》,行動(dòng)計(jì)劃提出到2025年,我國(guó)存儲(chǔ)總量將超過(guò)1800EB,為我國(guó)數(shù)據(jù)存儲(chǔ)產(chǎn)業(yè)提供了巨大的增長(zhǎng)空間。行動(dòng)計(jì)劃重點(diǎn)任務(wù)部署強(qiáng)調(diào)探索構(gòu)建我國(guó)算力互聯(lián)網(wǎng),促進(jìn)海量數(shù)據(jù)要素高效在此背景下,實(shí)現(xiàn)算力統(tǒng)一調(diào)度和高速互聯(lián)已經(jīng)成為剛需,算力發(fā)展進(jìn)入互聯(lián)互通時(shí)代,數(shù)據(jù)流動(dòng)作為算力互聯(lián)互通的關(guān)鍵組成部分,是釋放算力資源價(jià)值的基礎(chǔ),也是解決數(shù)算協(xié)同問(wèn)題的關(guān)鍵環(huán)節(jié)。面對(duì)數(shù)據(jù)搬運(yùn)成本高、數(shù)據(jù)安全合規(guī)、跨云跨域數(shù)據(jù)流動(dòng)難等挑戰(zhàn),信通院聯(lián)合用戶和產(chǎn)業(yè)單位共同啟動(dòng)數(shù)據(jù)流動(dòng)標(biāo)準(zhǔn)研究工作,期望通過(guò)標(biāo)準(zhǔn)建設(shè)助力構(gòu)建開(kāi)放、互聯(lián)互通的算力生態(tài)系統(tǒng),推動(dòng)算力的協(xié)同和整合,為我國(guó)數(shù)字經(jīng)濟(jì)發(fā)展和創(chuàng)新提供更大的助力。算力互聯(lián)網(wǎng)快速發(fā)展,數(shù)據(jù)流動(dòng)是支撐算力互聯(lián)互通的關(guān)鍵能力。云和存儲(chǔ)對(duì)接、多云數(shù)據(jù)流動(dòng)需求迸發(fā),促進(jìn)分布式存儲(chǔ)向支撐上層多云數(shù)據(jù)管理方向演進(jìn)。;4(一)步入穩(wěn)定增長(zhǎng)階段,筑穩(wěn)非結(jié)構(gòu)化數(shù)據(jù)底座分布式存儲(chǔ)市場(chǎng)呈現(xiàn)穩(wěn)健增長(zhǎng),軟硬一體比重持續(xù)上升。2022年,經(jīng)過(guò)中國(guó)信息通信研究院與分布式存儲(chǔ)產(chǎn)業(yè)方陣的深入分析,中國(guó)的分布式存儲(chǔ)市場(chǎng)規(guī)模預(yù)計(jì)為205億元,年復(fù)合增長(zhǎng)率達(dá)到15%,隨著經(jīng)濟(jì)回暖,市場(chǎng)增速未來(lái)將持續(xù)保持增長(zhǎng)。其中,軟硬一體的存儲(chǔ)解決方案占據(jù)了市場(chǎng)的91.3%,廠商如華為、新華三及曙光等紛紛推出相應(yīng)的新產(chǎn)品,旨在滿足AI大型模型和大數(shù)據(jù)湖等場(chǎng)景下的非結(jié)構(gòu)化數(shù)據(jù)需求。中東部數(shù)字經(jīng)濟(jì)發(fā)達(dá),分布式存儲(chǔ)發(fā)展強(qiáng)勁。從2022年各省新增分布式存儲(chǔ)容量規(guī)??梢钥闯?,我國(guó)分布式存儲(chǔ)的發(fā)展與各區(qū)域數(shù)字經(jīng)濟(jì)發(fā)展呈正相關(guān)。區(qū)域集中度較高,北京、廣東、上海、山東、江蘇、浙江六省市作為數(shù)據(jù)生產(chǎn)大省,容量規(guī)模新增5.6EB,占5全國(guó)新增一半以上。其中,北上廣新增達(dá)3.9E規(guī)模的38%。東部、中部地區(qū)城市分布式存儲(chǔ)發(fā)展勢(shì)頭強(qiáng)勁。隨著各行業(yè)數(shù)字化轉(zhuǎn)型的持續(xù)推進(jìn),應(yīng)用規(guī)模持續(xù)增長(zhǎng)。根據(jù)2021年和2022年的數(shù)據(jù)對(duì)分布式存儲(chǔ)在各行業(yè)的市場(chǎng)空間進(jìn)行的觀察,中國(guó)分布式存儲(chǔ)市場(chǎng)的前五大應(yīng)用行業(yè)為政府、電信、金融、教育和制造。2022年,這五大行業(yè)在市場(chǎng)中的份額已占據(jù)了69%,特別是在電信、金融、教育、傳媒和交通等數(shù)字化進(jìn)展較快的行業(yè),其增長(zhǎng)態(tài)勢(shì)尤為顯著。6新興場(chǎng)景應(yīng)用已漸成規(guī)模,分布式存儲(chǔ)典型應(yīng)用場(chǎng)景規(guī)模逐步均衡。根據(jù)中國(guó)信息通信研究院和分布式存儲(chǔ)產(chǎn)業(yè)方陣的市場(chǎng)調(diào)研及分析,分布式存儲(chǔ)應(yīng)用場(chǎng)景發(fā)展迅速,已經(jīng)由過(guò)去典型的五個(gè)傳統(tǒng)場(chǎng)景向更多的新興應(yīng)用場(chǎng)景發(fā)展。虛擬化/云計(jì)算、電子票據(jù)影像、醫(yī)療影像、非線性編輯、視頻監(jiān)控五個(gè)傳統(tǒng)應(yīng)用場(chǎng)景正隨著分布式存儲(chǔ)技術(shù)創(chuàng)新應(yīng)用穩(wěn)步增長(zhǎng)。同時(shí)隨著非結(jié)構(gòu)化高價(jià)值數(shù)據(jù)快速增長(zhǎng),非結(jié)構(gòu)化數(shù)據(jù)分析、數(shù)據(jù)挖掘成為生產(chǎn)決策流程,AI大模型、高性能計(jì)算、大數(shù)據(jù)分析、海量數(shù)據(jù)備份歸檔、工業(yè)互聯(lián)網(wǎng)等新興場(chǎng)景應(yīng)用已經(jīng)逐漸成規(guī)模,并快速擴(kuò)大應(yīng)用。7(二)供需應(yīng)用更加多元,上下游生態(tài)合作更加緊密2022年2月,分布式存儲(chǔ)產(chǎn)業(yè)方陣聯(lián)合產(chǎn)、學(xué)、研、用各界共同發(fā)起編制國(guó)內(nèi)首個(gè)分布式存儲(chǔ)產(chǎn)業(yè)生態(tài)圖景,2022年6月,產(chǎn)業(yè)(V2.0)刷新,生態(tài)圖景共有五個(gè)維度,自下而上分別是:關(guān)鍵部?jī)?chǔ)產(chǎn)業(yè)鏈企業(yè)及最終用戶提供清晰的分布式存儲(chǔ)生態(tài)圖景,梳理產(chǎn)業(yè)發(fā)展脈絡(luò),呈現(xiàn)不同領(lǐng)域的典型企業(yè),展現(xiàn)分布式存儲(chǔ)生態(tài)格8從分布式存儲(chǔ)全產(chǎn)業(yè)鏈發(fā)展的角度來(lái)看,無(wú)論是位于上游的IT基礎(chǔ)設(shè)施提供商、存儲(chǔ)關(guān)鍵部件提供商,還是面向客戶和行業(yè)的解決方案提供商、系統(tǒng)集成商,在以分布式存儲(chǔ)為核心的生態(tài)圈中均呈現(xiàn)規(guī)模增長(zhǎng)。與此同時(shí),不同企業(yè)在提供產(chǎn)品或服務(wù)時(shí),基于各家戰(zhàn)略定位、商業(yè)決策以及運(yùn)營(yíng)模式的差異化,最終面向市場(chǎng)和用戶的產(chǎn)品形態(tài)及服務(wù)類型呈現(xiàn)多元化態(tài)勢(shì)。此外,分布式存儲(chǔ)的細(xì)分賽道發(fā)展及不同行業(yè)的實(shí)際落地情況是分布式存儲(chǔ)產(chǎn)業(yè)生態(tài)成熟的標(biāo)志,不同領(lǐng)域生態(tài)伙伴的密切合作將成為連接產(chǎn)業(yè)供需雙方的重要紐帶。9(三)介質(zhì)協(xié)議加速升級(jí),全閃與融合形態(tài)快速發(fā)展1、分布式全閃存儲(chǔ)分布式全閃存儲(chǔ),作為分布式存儲(chǔ)的一種新形態(tài),完全采用閃存技術(shù),固態(tài)硬盤(SSD)作為主要存儲(chǔ)介質(zhì)。得益于閃存性能、高速無(wú)損RDMA網(wǎng)絡(luò)、壓縮軟件棧等全閃存化設(shè)計(jì),能夠提供穩(wěn)定的亞毫秒級(jí)訪問(wèn)性能。在過(guò)去一年間,業(yè)界多個(gè)廠商發(fā)布了自己的分布式全閃存儲(chǔ)新產(chǎn)品,并且已經(jīng)在不同行業(yè)用戶中落地應(yīng)用??梢钥吹?,隨著閃存價(jià)格的下降,分布式存儲(chǔ)正在向匹配的應(yīng)用場(chǎng)景快速發(fā)展,作為一種新形態(tài),分布式全閃存儲(chǔ)已經(jīng)開(kāi)始進(jìn)入加速發(fā)展的快車道。2、分布式融合存儲(chǔ)分布式存儲(chǔ)具備塊、文件、對(duì)象、大數(shù)據(jù)多種服務(wù)能力。為滿足海量數(shù)據(jù)數(shù)據(jù)共享、存算分離的需求,面向海量的非結(jié)構(gòu)化數(shù)據(jù),分布式存儲(chǔ)已經(jīng)發(fā)展出分布式融合存儲(chǔ)新形態(tài),通過(guò)一套分布式存儲(chǔ)系統(tǒng)支持多種協(xié)議同時(shí)提供服務(wù),并實(shí)現(xiàn)協(xié)議互通。新時(shí)代的業(yè)務(wù)場(chǎng)景是復(fù)雜的、多流程的、多種類型的存儲(chǔ)操作,一種業(yè)務(wù)不再是簡(jiǎn)單的文件操作,變成了文件、大數(shù)據(jù)、對(duì)象存儲(chǔ)的多個(gè)程序混合操作。而這些業(yè)務(wù)要求的數(shù)據(jù)往往會(huì)依賴于上個(gè)業(yè)務(wù)程序的處理結(jié)果,數(shù)據(jù)生產(chǎn)階段使用文件協(xié)議把數(shù)據(jù)放入存儲(chǔ),數(shù)據(jù)生產(chǎn)業(yè)務(wù)把數(shù)據(jù)放入大帶寬、高性能的文件存儲(chǔ)后,需要進(jìn)行大數(shù)據(jù)分析工作,大數(shù)據(jù)分析工作需要使用到Hadoop集群,數(shù)據(jù)需要從文件存儲(chǔ)拷貝到Hadoop集群后使用,這需要耗費(fèi)大量時(shí)間。拷貝數(shù)據(jù)時(shí)間和數(shù)據(jù)量強(qiáng)相關(guān),數(shù)據(jù)量越大對(duì)于用戶業(yè)務(wù)影響越大。數(shù)據(jù)處理完后需要通過(guò)對(duì)象存儲(chǔ)進(jìn)行發(fā)布,需要從Hadoop集群把結(jié)果數(shù)據(jù)拷貝到對(duì)象存儲(chǔ),對(duì)于結(jié)果的實(shí)時(shí)發(fā)布造成影響。這個(gè)過(guò)程需要經(jīng)歷多個(gè)集群,多次拷貝,每一次拷貝都意味著業(yè)務(wù)速度的變慢,用戶很難實(shí)時(shí)得到最終結(jié)果。特別是在能源勘探協(xié)議、批處理的執(zhí)行業(yè)務(wù)。一套分布式系統(tǒng)同時(shí)提供文件、對(duì)象、大數(shù)據(jù)訪問(wèn)能力,系統(tǒng)規(guī)??梢詮腜B級(jí)走向EB級(jí),允許多云多業(yè)務(wù)共享存儲(chǔ)系統(tǒng)的硬件資源,提升資源利用率。通過(guò)多協(xié)議融合互通能力,一份數(shù)據(jù)無(wú)須協(xié)議轉(zhuǎn)換就能夠被多種協(xié)議同時(shí)訪問(wèn),解決業(yè)務(wù)流程中多環(huán)節(jié)多應(yīng)用訪問(wèn)相同數(shù)據(jù)的需求,減少數(shù)據(jù)搬遷和重復(fù)存儲(chǔ),提升35%的數(shù)據(jù)處理效率,降低約20%能耗。分布式存儲(chǔ)的應(yīng)用場(chǎng)景日益豐富,本白皮書將重點(diǎn)探討其中的新興應(yīng)用場(chǎng)景及典型應(yīng)用場(chǎng)景的發(fā)展趨勢(shì)。涵蓋的場(chǎng)景包括AI大模型、大數(shù)據(jù)湖倉(cāng)一體、數(shù)字病理化、生物信息分析、量化交(一)AI大模型分布式存儲(chǔ)在AI大模型訓(xùn)練和推理中均發(fā)揮了重要的作用,在國(guó)內(nèi)外AI大模型企業(yè)已獲得了應(yīng)用驗(yàn)證。隨著AI大模型應(yīng)用的快速發(fā)展,其將成為分布式存儲(chǔ)下一個(gè)規(guī)模應(yīng)用場(chǎng)景。在AI大模型場(chǎng)景中,龐大的神經(jīng)網(wǎng)絡(luò)及其他AI框架需要處理海量數(shù)據(jù),從中挖掘有價(jià)值的模式與知識(shí)。為應(yīng)對(duì)這一挑戰(zhàn),存儲(chǔ)系統(tǒng)需突破傳統(tǒng)界限,確保更高的帶寬、更低的延遲、更強(qiáng)的并發(fā)能力及卓越的可擴(kuò)展性。應(yīng)用場(chǎng)景特征:.大數(shù)據(jù)量:為了更好的泛化能力,大模型的發(fā)展向著大網(wǎng)絡(luò)、多模態(tài)數(shù)據(jù)的方向快速發(fā)展。參數(shù)量從開(kāi)始的百億已增長(zhǎng)至千億、萬(wàn)億規(guī)模。數(shù)據(jù)集由開(kāi)始的文本語(yǔ)料,加入了圖片、視頻數(shù)據(jù)作為訓(xùn)練樣本,容量規(guī)模從TB級(jí)增長(zhǎng)到PB級(jí)。.數(shù)據(jù)處理并行:為了加速訓(xùn)練,在計(jì)算層通常采用分布式架構(gòu),數(shù)據(jù)在多個(gè)GPU或其他計(jì)算設(shè)備上并行處理。底層存儲(chǔ)能夠要求既滿足高帶寬又滿足高IO,才能充分發(fā)揮計(jì)算資源的算力,保障計(jì)算資源不浪費(fèi)。.數(shù)據(jù)格式多樣:AI大模型全流程應(yīng)用需要處理各種類型的數(shù)大模型場(chǎng)景涉及的典型類型有源數(shù)據(jù)、數(shù)據(jù)集、模型文件、.海量小文件:AI數(shù)據(jù)預(yù)處理流程中針對(duì)大的數(shù)據(jù)文件(圖片、視頻、音頻、文本)通常需要特征提取生成若干小的文直接影響AI訓(xùn)練效率。所以AI訓(xùn)練不光要求存儲(chǔ)解決容量和高帶寬的問(wèn)題,還要能解決海量文件元數(shù)據(jù)的納管以及文件并行高性能讀取的挑戰(zhàn)。.高可靠、高可用:模型訓(xùn)練通常需要數(shù)天、數(shù)周甚至數(shù)月的時(shí)間,任何存儲(chǔ)故障都可能導(dǎo)致大量的計(jì)算資源浪費(fèi)。為了提高可靠性和可用性,AI大模型訓(xùn)練采用多種機(jī)制保證數(shù)據(jù)可能會(huì)在多個(gè)位置或設(shè)備上存儲(chǔ)多個(gè)副本。分布式存儲(chǔ)優(yōu)勢(shì)及發(fā)展建議:.大型數(shù)據(jù)集,海量存儲(chǔ)空間:隨著數(shù)據(jù)和模型規(guī)模的增長(zhǎng),數(shù)據(jù)量會(huì)呈現(xiàn)指數(shù)級(jí)增長(zhǎng),需采用分布式存儲(chǔ)支持海量存儲(chǔ)空間以及橫向擴(kuò)展。.模型訓(xùn)練中的高吞吐和低時(shí)延:為了縮短模型的訓(xùn)練時(shí)間,提高大模型生產(chǎn)效率,高效的吞吐和極低的時(shí)延能為GPU計(jì)算提供足夠的數(shù)據(jù),可以減少GPU計(jì)算的等待時(shí)間。.高效的數(shù)據(jù)流動(dòng):大模型應(yīng)用的源數(shù)據(jù)從各個(gè)時(shí)間維度采多,所以一般在訓(xùn)練之前會(huì)經(jīng)過(guò)有大量的工作來(lái)給數(shù)據(jù)瘦身和處理,面對(duì)處理后的有效數(shù)據(jù)快速的切入到訓(xùn)練環(huán)境,這對(duì)高效的數(shù)據(jù)流動(dòng)提出了更高的要求,統(tǒng)一數(shù)據(jù)湖成為必.海量小文件性能支持:參考當(dāng)前大模型發(fā)展特征,千億級(jí)別的規(guī)模將成為常態(tài),未來(lái)還會(huì)發(fā)展更大規(guī)模,所以在海量小文件下的性能持續(xù)增長(zhǎng)是業(yè)務(wù)對(duì)存儲(chǔ)設(shè)計(jì)的剛需。(二)大數(shù)據(jù)湖倉(cāng)一體憑借分布式存儲(chǔ)EC的高磁盤利用率、存算分離靈活擴(kuò)容的優(yōu)勢(shì),大數(shù)據(jù)分析是分布式存儲(chǔ)的典型應(yīng)用場(chǎng)景。當(dāng)前,大數(shù)據(jù)技術(shù)的發(fā)展,進(jìn)入了湖倉(cāng)一體的新階段,分布式存儲(chǔ)作為其數(shù)據(jù)底座,也在向著新的要求不斷發(fā)展。湖倉(cāng)一體是一種新型開(kāi)放式架構(gòu),充分結(jié)合數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)的優(yōu)勢(shì),在數(shù)據(jù)湖低成本的存儲(chǔ)架構(gòu)之上,繼承數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)處理和管理功能。湖倉(cāng)一體架構(gòu)結(jié)合科學(xué)的數(shù)據(jù)分層、存算分離等理念,將多樣的數(shù)據(jù)處理負(fù)載有機(jī)組合在一起,最終形成了不同角色用戶的訴求,數(shù)據(jù)科學(xué)家有自己的場(chǎng)所來(lái)測(cè)試他們的假設(shè),分析師能夠使用他們合適工具分析數(shù)據(jù),業(yè)務(wù)用戶能夠準(zhǔn)確和及時(shí)地獲得數(shù)據(jù)分析報(bào)表。.事務(wù)支持:對(duì)事務(wù)的支持,可確保數(shù)據(jù)并發(fā)訪問(wèn)的一致性、正確性。湖倉(cāng)一體架構(gòu)在數(shù)據(jù)存儲(chǔ),在并發(fā)讀寫、作業(yè)異常失敗、批流混合輸入、歷史數(shù)據(jù)歸檔等方面都需要事務(wù)支持,才能保證數(shù)據(jù)可靠性,避免數(shù)據(jù)存儲(chǔ)變成無(wú)法有效使用的數(shù)據(jù)沼澤。.開(kāi)放數(shù)據(jù)格式:應(yīng)對(duì)前端不同的數(shù)據(jù)需求,支持湖倉(cāng)融合開(kāi)放數(shù)據(jù)格式,如Hudi、Iceberg、DeltaLake等開(kāi)放格式,具備數(shù)據(jù)倉(cāng)的事務(wù)一致性,同時(shí)面對(duì)各種應(yīng)用場(chǎng)景,具備對(duì)接大數(shù)據(jù)計(jì)算引擎,如:Apache的Spark、Flink、Presto、Hive等,實(shí)現(xiàn)對(duì)各種數(shù)據(jù)的訪問(wèn),實(shí)現(xiàn)開(kāi)放的數(shù)據(jù).存儲(chǔ)與計(jì)算分離:存儲(chǔ)和計(jì)算使用單獨(dú)的集群,按需分別擴(kuò)展,保證湖倉(cāng)一體的整體系統(tǒng)能夠支持更多的用戶并發(fā)和更大的數(shù)據(jù)量,同時(shí)最大程度地利用資源,從而實(shí)現(xiàn)對(duì)大規(guī)模數(shù)據(jù)進(jìn)行查詢和高效分析。.支持多種工作負(fù)載:面向前端豐富的數(shù)據(jù)場(chǎng)景,需支持包括數(shù)據(jù)科學(xué)、機(jī)器學(xué)習(xí)、流批處理以及SQL和分析的前端需求,通過(guò)同一數(shù)據(jù)存儲(chǔ),適配多種工具來(lái)支持這些工作負(fù).BI支持:支持直接在源數(shù)據(jù)上使用BI工具,以提高數(shù)據(jù)新鮮度,減少等待時(shí)間,減少必須同時(shí)在數(shù)據(jù)湖和數(shù)據(jù)倉(cāng)庫(kù)中操作多個(gè)數(shù)據(jù)副本的存儲(chǔ)成本。分布式存儲(chǔ)優(yōu)勢(shì)及發(fā)展建議:湖倉(cāng)一體技術(shù)推動(dòng)數(shù)據(jù)湖、數(shù)倉(cāng)場(chǎng)景基礎(chǔ)設(shè)施走向融合,數(shù)據(jù)基礎(chǔ)設(shè)施架構(gòu)從應(yīng)用為中心走向以數(shù)據(jù)為中心。在數(shù)據(jù)湖、數(shù)倉(cāng)數(shù)據(jù)共享架構(gòu)下,統(tǒng)一數(shù)據(jù)存儲(chǔ)層、統(tǒng)一元數(shù)據(jù)層、緩存加速、統(tǒng)一計(jì)算調(diào)度等成為湖倉(cāng)一體大數(shù)據(jù)架構(gòu)的趨勢(shì)。.統(tǒng)一數(shù)據(jù)存儲(chǔ)層:在統(tǒng)一存儲(chǔ)層,利用HDFS、S3協(xié)議實(shí)現(xiàn)對(duì)接,既能解決海量數(shù)據(jù)存儲(chǔ)的擴(kuò)展性問(wèn)題,又能更好的支撐算側(cè)無(wú)需開(kāi)發(fā)新的業(yè)務(wù)流程,減少對(duì)接適配。.統(tǒng)一元數(shù)據(jù)層:實(shí)現(xiàn)統(tǒng)一元數(shù)據(jù)信息管理,統(tǒng)一權(quán)限管控,支持計(jì)算熱插拔,減少數(shù)據(jù)搬遷,保證數(shù)據(jù)時(shí)效性及一致性。對(duì)統(tǒng)一元數(shù)據(jù)的選擇,目前國(guó)內(nèi)較多的選擇Hudi、Iceberg、DeltaLake技術(shù),圍繞統(tǒng)一元數(shù)據(jù)技術(shù),各廠商做了適配,未來(lái)一段時(shí)期,統(tǒng)一元數(shù)據(jù)技術(shù)將保持各自獨(dú)立的.緩存加速:湖倉(cāng)一體的數(shù)據(jù)緩存層,為計(jì)算提供按需的數(shù)據(jù)緩存能力,減少數(shù)據(jù)訪問(wèn)的IO,從而提升數(shù)據(jù)訪問(wèn)性能,在實(shí)踐中,需要構(gòu)建更細(xì)粒度的緩存策略,通過(guò)優(yōu)化數(shù)據(jù)架構(gòu)提升緩存命中率,以減少緩存資源的占用。.統(tǒng)一計(jì)算調(diào)度:基于統(tǒng)一存儲(chǔ),構(gòu)建離線數(shù)倉(cāng)、融合數(shù)倉(cāng)、實(shí)時(shí)查詢數(shù)倉(cāng)、應(yīng)用分析數(shù)倉(cāng)計(jì)算生態(tài),支撐多業(yè)務(wù)場(chǎng)景。通俗來(lái)講,數(shù)字化病理是指通過(guò)掃描技術(shù)對(duì)病理數(shù)據(jù)進(jìn)行數(shù)字化采集(將傳統(tǒng)病理的物理切片轉(zhuǎn)換成高分辨數(shù)字圖像),醫(yī)生通過(guò)數(shù)字化切片生成的信息進(jìn)行病理診斷以及病理數(shù)據(jù)管理。海量的數(shù)字化病理圖片數(shù)據(jù)快速存儲(chǔ)和訪問(wèn)為分布式存儲(chǔ)帶來(lái)了應(yīng)用機(jī)會(huì),隨著國(guó)內(nèi)各大醫(yī)院數(shù)字化升級(jí),這個(gè)應(yīng)用場(chǎng)景的規(guī)模正快速增長(zhǎng)。病理學(xué)診斷是疾病診斷的金標(biāo)準(zhǔn)。數(shù)字化技術(shù)的出現(xiàn)給病理理醫(yī)生能夠通過(guò)顯示器閱片,同時(shí)也會(huì)打破會(huì)診切片傳輸過(guò)程中的時(shí)空限制。另一方面,數(shù)字化將流程和記錄工作無(wú)紙化,提高了病理科的運(yùn)營(yíng)效率。集成的數(shù)字化系統(tǒng)將記錄和歸檔工作電子化,實(shí)現(xiàn)全流程的信息追溯并優(yōu)化后續(xù)的歸檔管理效率。AI技術(shù)的出現(xiàn)為病理科的質(zhì)控及診斷再添一翼。首先,AI通過(guò)自動(dòng)檢測(cè)數(shù)字切片圖像中的異常和錯(cuò)誤,來(lái)幫助病理醫(yī)生進(jìn)行智能質(zhì)控,確保診斷結(jié)果的準(zhǔn)確性和可靠性。其次,AI能夠輔助醫(yī)生進(jìn)行診應(yīng)用場(chǎng)景特征:.切片文件大:每個(gè)切片文件1-3GB,傳統(tǒng)存儲(chǔ)方案閱片速度慢,存在卡頓現(xiàn)象。.數(shù)據(jù)量大:三甲醫(yī)院年病理數(shù)據(jù)增量1-2PB/年,是傳統(tǒng)PACS影像年數(shù)據(jù)增量的10倍。.數(shù)據(jù)保存久:病理數(shù)據(jù)要求留存15年或30年以上。.數(shù)據(jù)管理難:多樣化的數(shù)據(jù)來(lái)源導(dǎo)致數(shù)據(jù)分散,難以實(shí)現(xiàn)數(shù)據(jù)共享。分布式存儲(chǔ)優(yōu)勢(shì)及發(fā)展建議:.病理圖片二次壓縮:傳統(tǒng)病理圖片壓縮后平均大小仍接近1GB,且未能充分利用病理圖像的特征以及瓦片之間的相關(guān)性。目前業(yè)內(nèi)最新的二次壓縮算法可以在數(shù)字化病理原壓縮算法基礎(chǔ)上,做到無(wú)損的二次壓縮,進(jìn)一步縮減冷數(shù)據(jù)存儲(chǔ)空間30%以上。.數(shù)據(jù)分級(jí)存儲(chǔ):數(shù)字化病理切片數(shù)據(jù)使用頻率和存放周期存在一定的規(guī)律,按照數(shù)據(jù)訪問(wèn)頻率和熱度進(jìn)行熱溫冷分級(jí),可以既兼顧了閱片的性能訴求,又有效的降低科室的存儲(chǔ)成.實(shí)現(xiàn)海量切片并發(fā)調(diào)閱:一張數(shù)字切片由幾萬(wàn)個(gè)瓦片組成,每次調(diào)閱只會(huì)加載視野范圍內(nèi)的幾十到幾百個(gè)瓦片,加上要考慮背景壓力等混合負(fù)載復(fù)雜場(chǎng)景,大并發(fā)在線調(diào)閱對(duì)存儲(chǔ)的綜合性能要求較高??梢圆捎梅植际讲⑿锌蛻舳?、混合IO負(fù)載優(yōu)化、多級(jí)緩存加速等技術(shù),實(shí)現(xiàn)千張病理切片秒級(jí)閱片體驗(yàn)。.冷數(shù)據(jù)存儲(chǔ)介質(zhì)創(chuàng)新:病理切片數(shù)字化后,病理數(shù)據(jù)同樣需要保存30年,對(duì)于使用頻率變低的業(yè)務(wù)數(shù)據(jù),其訪問(wèn)性能要求雖然變低,但這部分冷數(shù)據(jù)占比最高,所以需要考慮進(jìn)行存儲(chǔ)介質(zhì)的創(chuàng)新,推薦采用高帶寬、可快速讀取、支持病理無(wú)損壓縮算法的藍(lán)光存儲(chǔ)來(lái)長(zhǎng)期保存病理冷數(shù)據(jù)。.多協(xié)議互通:科室及醫(yī)院內(nèi)不同業(yè)務(wù)系統(tǒng)的數(shù)據(jù)類型不同,與存儲(chǔ)系統(tǒng)交互使用的協(xié)議不同,不同格式數(shù)據(jù)在科室實(shí)際運(yùn)行交流中存在較大難度,多協(xié)議互通技術(shù)可以對(duì)文件/對(duì)象/大數(shù)據(jù)三個(gè)非結(jié)構(gòu)化進(jìn)行融合互通,幫助科室快速便捷實(shí)現(xiàn)數(shù)據(jù)共享。分布式存儲(chǔ)憑借大容量、高性能、高擴(kuò)展、高可靠的優(yōu)勢(shì)是生物信息分析(簡(jiǎn)稱“生信分析”)的最佳數(shù)據(jù)底座。近幾年生信分析的應(yīng)用越來(lái)越多,如代表業(yè)務(wù)基因測(cè)序,這個(gè)新興場(chǎng)景規(guī)模也得以快速增加。生信分析是一個(gè)典型的巨量數(shù)據(jù)驅(qū)動(dòng)的行生物數(shù)據(jù)計(jì)算、快速調(diào)用有效數(shù)據(jù)進(jìn)行應(yīng)用分析等是生物信息分析行業(yè)面臨的難題。應(yīng)用場(chǎng)景特征:.大數(shù)據(jù)量:一次基因測(cè)序產(chǎn)生的原始數(shù)據(jù)量都是TB級(jí)別,滿負(fù)荷下,一臺(tái)測(cè)序儀一年產(chǎn)生PB級(jí)數(shù)據(jù),加之生物信息分析過(guò)程一般會(huì)產(chǎn)生原始數(shù)據(jù)量5倍左右的中間文件及結(jié)果。另外還需考慮如何低成本的實(shí)現(xiàn)基因數(shù)據(jù)長(zhǎng)時(shí)間存儲(chǔ)。.高帶寬低時(shí)延:生信分析計(jì)算過(guò)程中涉及數(shù)據(jù)的高速共享與讀寫檢索,對(duì)存儲(chǔ)的IO帶寬和實(shí)時(shí)性要求高,否則可能導(dǎo)致數(shù)據(jù)不完整。.高可靠:生物學(xué)分析往往會(huì)通過(guò)對(duì)比源生物信息產(chǎn)生大量的結(jié)果數(shù)據(jù),長(zhǎng)時(shí)間大并發(fā)的IO讀寫性能和穩(wěn)定性尤為重要。.需適配GPU等高并發(fā)算力集群:生物學(xué)分析涉及大量GPU的業(yè)務(wù),數(shù)據(jù)拆分階段涉及大量的GPU算力,需要存儲(chǔ)適配,并提供極高的帶寬和IOPS能力。分布式存儲(chǔ)優(yōu)勢(shì)及發(fā)展建議:.海量數(shù)據(jù)支持:提供標(biāo)準(zhǔn)的文件接口和訪問(wèn)協(xié)議。面向分析階段百億級(jí)別海量小文件,文件操作性能以及文件的讀寫性.性能適配業(yè)務(wù)需求:兼容高性能低延時(shí)網(wǎng)絡(luò),提供超高的帶寬能力,主流技術(shù)路線是使用RDMA;支持GPUDirectStorage,實(shí)現(xiàn)以直接內(nèi)存的存取方式將數(shù)據(jù)傳輸至GPU,降低IO延遲,提升數(shù)據(jù)帶寬,充分釋放GPU算力,將性能發(fā)揮到極致。.數(shù)據(jù)全生命周期管理:可以滿足不同業(yè)務(wù)階段的IO特征需求,包括大文件的下機(jī)帶寬性能,數(shù)據(jù)拆分性能,分析業(yè)務(wù)階段的小IO低時(shí)延要求,以及整個(gè)業(yè)務(wù)流程中的混合大文件小文件并存優(yōu)化。隨著金融大數(shù)據(jù)、金融科技、智能金融的快速發(fā)展,為應(yīng)對(duì)海量非結(jié)構(gòu)化金融量化數(shù)據(jù)的實(shí)時(shí)應(yīng)用分析,分布式存儲(chǔ)在量化交易中得以應(yīng)用。量化交易通過(guò)數(shù)量化方式及計(jì)算機(jī)程序發(fā)出交易指令,以獲取穩(wěn)定收益為目的的金融投資方式,在海外的發(fā)展已有幾十年的歷史,其投資業(yè)績(jī)穩(wěn)定,市場(chǎng)規(guī)模和份額不斷擴(kuò)大,經(jīng)過(guò)多年的發(fā)展,量化交易已經(jīng)成為成熟的金融工具。量化投資技術(shù)幾乎覆蓋了投資的全過(guò)程,包括量化選股、量化擇時(shí)、股指期貨套利、商品期貨套利、統(tǒng)計(jì)套利、算法交易,資產(chǎn)配置,風(fēng)險(xiǎn)控制等。到2020年,量化行業(yè)已經(jīng)到了大數(shù)據(jù)+AI算法的階段,在“AI+機(jī)器學(xué)習(xí)”加持下正迅猛發(fā)展。應(yīng)用場(chǎng)景特征:.基礎(chǔ)量化數(shù)據(jù)規(guī)模大:量化數(shù)據(jù)主要分為三類,一是市場(chǎng)的量?jī)r(jià)數(shù)據(jù):交易所量?jī)r(jià)數(shù)據(jù)、交易量、成交量、價(jià)格、日內(nèi)訂單等;二是基本面數(shù)據(jù):上市公司公告幾千萬(wàn)條記錄、公司財(cái)報(bào)數(shù)據(jù)數(shù)千萬(wàn)份、各大券商分析報(bào)告等;三是另類數(shù)據(jù):個(gè)股新聞、商品數(shù)據(jù)、宏觀數(shù)據(jù)、產(chǎn)業(yè)數(shù)據(jù)、個(gè)股指入分析數(shù)據(jù)池中,成為決策依據(jù)。.量化交易依托“AI+機(jī)器學(xué)習(xí)”成為行業(yè)主流:深度學(xué)習(xí)的自動(dòng)提取特征比傳統(tǒng)機(jī)器學(xué)習(xí)的人為提取特征過(guò)程更加高效,深度學(xué)習(xí)隨著數(shù)據(jù)量的增加模型效果會(huì)不斷地改善。AI以其高效的能力將量化分析向著真正的“正確等”高頻操作邁進(jìn)。量化投研采用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的技術(shù),數(shù)據(jù)規(guī)模投入越大,模型精度越高。數(shù)據(jù)來(lái)源多,導(dǎo)致數(shù)據(jù)類型和格式多種多樣。金融市場(chǎng)有效信息非常少,干擾數(shù)據(jù)多。分布式存儲(chǔ)優(yōu)勢(shì)及發(fā)展建議:.海量數(shù)據(jù)支持、彈性擴(kuò)展:對(duì)于海量的金融數(shù)據(jù),存儲(chǔ)的容量和性能彈性擴(kuò)展是長(zhǎng)期剛需。.GPU存儲(chǔ)直通:由于量化投研采用神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的技術(shù),數(shù)據(jù)規(guī)模投入越大,模型精度就越高。當(dāng)前在GPU大算力的環(huán)境下,支持GPU直通存儲(chǔ)成為關(guān)鍵。.統(tǒng)一命名空間:在量化分析領(lǐng)域,為便于業(yè)務(wù)快速普及,存儲(chǔ)管理要求統(tǒng)一命名空間,數(shù)據(jù)規(guī)模達(dá)到百億級(jí)別。速發(fā)展,越來(lái)越多的設(shè)備實(shí)現(xiàn)互聯(lián),海量設(shè)備產(chǎn)生的數(shù)據(jù)呈指數(shù)級(jí)增長(zhǎng),能夠與5G高速度、低時(shí)延特性相輔相成的邊緣計(jì)算技術(shù)成為智能物聯(lián)網(wǎng)大趨勢(shì)下的重要風(fēng)口,分布式存儲(chǔ)靈活高擴(kuò)展、多協(xié)議數(shù)據(jù)服務(wù)、數(shù)據(jù)共享便捷的特點(diǎn)成為邊緣計(jì)算構(gòu)建統(tǒng)一數(shù)據(jù)存儲(chǔ)資源池最佳方案。據(jù)Gartner預(yù)測(cè),2025年將有75%的數(shù)據(jù)產(chǎn)生在數(shù)據(jù)中心和云之外并在邊緣側(cè)進(jìn)行處理。邊緣計(jì)算與云計(jì)邊緣計(jì)算是在靠近物或數(shù)據(jù)源頭的網(wǎng)絡(luò)邊緣側(cè),融合網(wǎng)絡(luò)、計(jì)算、存儲(chǔ)、應(yīng)用核心能力的開(kāi)放平臺(tái),就近提供邊緣智能服務(wù),不僅能夠?qū)崿F(xiàn)流量的本地化處理,以降低對(duì)遠(yuǎn)端數(shù)據(jù)中心的流量沖擊,而且能夠提供高帶寬、低時(shí)延和高穩(wěn)定的應(yīng)用運(yùn)行環(huán)境,有利于計(jì)算框架在終端和數(shù)據(jù)中心間的延展,有助于實(shí)現(xiàn)場(chǎng)景需求、存算力分布和部署成本的最佳匹配。應(yīng)用場(chǎng)景特征:緣智能等特性是MEC邊緣計(jì)算場(chǎng)景對(duì)分布式存儲(chǔ)提出的新挑戰(zhàn),比如工業(yè)互聯(lián)網(wǎng)、智慧交通、云游戲及VR/AR等行業(yè),對(duì)超低時(shí)延與海量數(shù)據(jù)傳輸均有較高要求。時(shí)交互、實(shí)時(shí)反饋,分布式存儲(chǔ)需要能夠快速響應(yīng)終端設(shè)備的請(qǐng)求,必須具備超低延遲的特點(diǎn),以便能夠及時(shí)提供業(yè)務(wù)感數(shù)據(jù)不能離開(kāi)地市甚至現(xiàn)場(chǎng),因此分布式存儲(chǔ)需要具備高安全性,能夠提供數(shù)據(jù)的保密性、完整性和可用性,以防止數(shù)據(jù)泄露和篡改的風(fēng)險(xiǎn)。節(jié)點(diǎn)的數(shù)量和分布可能會(huì)隨著需求而變化,因此分布式存儲(chǔ)需要具備靈活性和可擴(kuò)展性,能夠根據(jù)需要快速調(diào)整和擴(kuò)展絡(luò)環(huán)境中,易受網(wǎng)絡(luò)故障、設(shè)備失效等因素影響。因此,分布式存儲(chǔ)需要具備高可靠性,能夠在節(jié)點(diǎn)及磁盤故障等情況下繼續(xù)提供數(shù)據(jù)服務(wù)。源和中心云統(tǒng)一管理,形成“邏輯集中,物理分散”的分布.邊緣智能:在更靠近數(shù)據(jù)產(chǎn)生和使用側(cè)處理業(yè)務(wù),滿足實(shí)時(shí)分布式存儲(chǔ)優(yōu)勢(shì)及發(fā)展建議:.數(shù)據(jù)長(zhǎng)期低成本存儲(chǔ):具備高性能EC、高效數(shù)據(jù)壓縮、冷熱.快速檢索:具備自動(dòng)標(biāo)簽、秒級(jí)查詢等能力,滿足多維度回調(diào)、秒級(jí)查詢要求,提高數(shù)據(jù)檢索效率。.多協(xié)議互通:數(shù)據(jù)零拷貝,需無(wú)縫對(duì)接AI分析平臺(tái),生產(chǎn)數(shù)據(jù)直接共享NFS進(jìn)行AI訓(xùn)練;.支持大數(shù)據(jù)分析:將邊緣節(jié)點(diǎn)所生產(chǎn)數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ),整.保障數(shù)據(jù)安全:具備快照、WORM、容災(zāi)備份等特性防止數(shù)據(jù)篡改,保障數(shù)據(jù)安全;2023年3月10日,美國(guó)國(guó)家能源局推出了高性能數(shù)據(jù)基礎(chǔ)設(shè)施(HPDF)計(jì)劃,要求實(shí)現(xiàn)全美東西海岸40多個(gè)教育科研機(jī)構(gòu)數(shù)據(jù)互聯(lián)互通,以滿足其大量協(xié)同計(jì)算及數(shù)據(jù)遷移共享需求。布式存儲(chǔ)未來(lái)應(yīng)用的一個(gè)重要場(chǎng)景。核心需求是在不同的算力平臺(tái)之間實(shí)現(xiàn)高性能算力任務(wù)和數(shù)據(jù)的高效流動(dòng),構(gòu)建一個(gè)便捷的算力和數(shù)據(jù)網(wǎng)絡(luò)。這一網(wǎng)絡(luò)以高性能算力任務(wù)和數(shù)據(jù)流動(dòng)為中心,能夠跨越不同的架構(gòu)、地域和服務(wù)商,為AI大模型、邊緣計(jì)算、科學(xué)計(jì)算等高性能任務(wù)和大數(shù)據(jù)應(yīng)用提供多層次、標(biāo)準(zhǔn)化和.跨地域:“東數(shù)西算”政策驅(qū)動(dòng)下,東西優(yōu)勢(shì)互補(bǔ)加速跨區(qū)是企業(yè)當(dāng)前海量數(shù)據(jù)存儲(chǔ)的載體。.跨架構(gòu)、跨服務(wù)商:超過(guò)92%的企業(yè)已經(jīng)是多云架構(gòu),分布式存儲(chǔ)在跨服務(wù)商、跨架構(gòu)層面還不夠完善,需要在生態(tài)上補(bǔ).大數(shù)據(jù)量:數(shù)據(jù)網(wǎng)絡(luò)面向的業(yè)務(wù)場(chǎng)景是高性能算力任務(wù)。像人工智能大模型、科學(xué)計(jì)算等場(chǎng)景都是大數(shù)據(jù)量的算力任務(wù)。面臨大數(shù)據(jù)量跨域、跨服務(wù)商、跨架構(gòu)流動(dòng)的挑戰(zhàn)。分布式存儲(chǔ)優(yōu)勢(shì)及發(fā)展建議:.存儲(chǔ)層構(gòu)建數(shù)據(jù)跨域、跨云流動(dòng)能力:數(shù)據(jù)從產(chǎn)生、儲(chǔ)存、傳輸、處理、共享甚至銷毀都離不開(kāi)數(shù)據(jù)存儲(chǔ),相較于多云架構(gòu)的其他各層,數(shù)據(jù)存儲(chǔ)層在數(shù)據(jù)相關(guān)的操作上有著天然的優(yōu)勢(shì)。通過(guò)PaaS層進(jìn)行的數(shù)據(jù)流動(dòng),需要將數(shù)據(jù)從本地?cái)?shù)據(jù)存儲(chǔ)中讀取出來(lái),再通過(guò)消耗應(yīng)用和算力資源才能將數(shù)據(jù)流動(dòng)到另一端,到另一端后,同樣需要消耗應(yīng)用和算力資源過(guò)構(gòu)建良好的多云數(shù)據(jù)存儲(chǔ)系統(tǒng),數(shù)據(jù)只需要從本地的數(shù)據(jù)存儲(chǔ)遠(yuǎn)程復(fù)制到另一端的數(shù)據(jù)存儲(chǔ)中,少量甚至無(wú)需占用算力資源,且流動(dòng)效率最高,通過(guò)設(shè)置針對(duì)性的流動(dòng)策略,還能夠?qū)崿F(xiàn)數(shù)據(jù)流動(dòng),應(yīng)用無(wú)感。.面向多云構(gòu)建統(tǒng)一數(shù)據(jù)底座,擴(kuò)大數(shù)據(jù)共享應(yīng)用:針對(duì)企業(yè)數(shù)據(jù)存儲(chǔ)資源池,統(tǒng)一劃分性能區(qū)間、服務(wù)類型、災(zāi)備配置、增值服務(wù)等指標(biāo),構(gòu)建跨云全局一致的存儲(chǔ)服務(wù)SLA,并基于標(biāo)準(zhǔn)化API把存儲(chǔ)資源提供給多個(gè)云支撐各類應(yīng)用和數(shù)據(jù)服務(wù),實(shí)現(xiàn)數(shù)據(jù)一池共享,應(yīng)用多云部署。.構(gòu)建全局文件系統(tǒng),形成數(shù)據(jù)互聯(lián)網(wǎng)絡(luò):面向多云環(huán)境,向用戶提供統(tǒng)一數(shù)據(jù)視圖,用戶看到單一存儲(chǔ)空間,并通過(guò)文件、對(duì)象、HDFS等多種標(biāo)準(zhǔn)協(xié)議,文件全局可視,邏輯上多個(gè)云環(huán)境下數(shù)據(jù)底座成為一個(gè)文件系統(tǒng),可進(jìn)行數(shù)據(jù)全局調(diào)度。用戶按照權(quán)限在同一個(gè)命名空間下訪問(wèn)跨云、跨數(shù)據(jù)中心的數(shù)據(jù)。企業(yè)數(shù)據(jù)管理員制定統(tǒng)一元數(shù)據(jù)策略、檢索統(tǒng)一為助力產(chǎn)業(yè)健康發(fā)展,產(chǎn)業(yè)方陣持續(xù)跟蹤分析最新技術(shù)發(fā)展趨勢(shì),從架構(gòu)、軟件功能、硬件技術(shù)、生態(tài)發(fā)展四個(gè)維度,分析解讀當(dāng)前分布式存儲(chǔ)領(lǐng)域最新關(guān)鍵發(fā)展趨勢(shì),解析各創(chuàng)新技術(shù)價(jià)值,洞悉分布式存儲(chǔ)發(fā)展趨勢(shì)。(一)架構(gòu)方面,向融合負(fù)載、更高密度、更快網(wǎng)絡(luò)發(fā)展1、多協(xié)議融合架構(gòu)承載多業(yè)務(wù)混合負(fù)載展推動(dòng)下,數(shù)據(jù)量呈現(xiàn)爆發(fā)式增長(zhǎng),并進(jìn)一步促進(jìn)了IT與各類應(yīng)用的融合。另一方面各類應(yīng)用的非結(jié)構(gòu)化數(shù)據(jù)占比越來(lái)越大,數(shù)據(jù)類型更加復(fù)雜多樣,對(duì)存儲(chǔ)系統(tǒng)提出了更高的數(shù)據(jù)管理和混合負(fù)載的生、虛擬化等應(yīng)用中向多協(xié)議融合的多負(fù)載混合架構(gòu)上演進(jìn)。不同于傳統(tǒng)的支持單一業(yè)務(wù)的方式,數(shù)據(jù)中心要求一個(gè)分布式存儲(chǔ)系統(tǒng)同時(shí)提供文件、對(duì)象和大數(shù)據(jù)的訪問(wèn)能力,減少協(xié)議網(wǎng)關(guān)帶來(lái)的性能損耗,并且多種協(xié)議共享同一套硬件資源。Gartner預(yù)計(jì)到2028年將有70%的文件存儲(chǔ)和對(duì)象存儲(chǔ)部署在一個(gè)統(tǒng)一的數(shù)據(jù)存儲(chǔ)平同時(shí)HPC、HPDA及AI技術(shù)的興起帶來(lái)了混合負(fù)載的業(yè)務(wù)訴求,要求一套分布式存儲(chǔ)系統(tǒng)支持不同類型、不同負(fù)載的應(yīng)用系能支持大文件的高帶寬,也能支持海量小文件的高IOPS,以便作為穩(wěn)定可靠的數(shù)據(jù)存儲(chǔ)底座為上層業(yè)務(wù)提供高效支撐。2、單框多節(jié)點(diǎn)架構(gòu)提高容量性能密度隨著廣義高性能計(jì)算(HPC)業(yè)務(wù)如人工智能、機(jī)器學(xué)習(xí)和大數(shù)據(jù)處理的迅速發(fā)展,對(duì)存儲(chǔ)系統(tǒng)的需求也日益增加。這些業(yè)務(wù)需要高IO帶寬、高IOPS和低延遲,這些需求對(duì)存儲(chǔ)分布式系統(tǒng)的處帶寬的快速增長(zhǎng),都推動(dòng)了存儲(chǔ)系統(tǒng)朝單框多節(jié)點(diǎn)架構(gòu)發(fā)展。單框多節(jié)點(diǎn)架構(gòu)在一個(gè)機(jī)架內(nèi)配置多個(gè)獨(dú)立的存儲(chǔ)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)都有獨(dú)立的資源,并通過(guò)高速網(wǎng)絡(luò)互聯(lián)。這種架構(gòu)的優(yōu)勢(shì)包括:提高性能和存儲(chǔ)容量,簡(jiǎn)化管理,以及節(jié)能降耗。例如,它可以解決CPU面對(duì)高密度SSD的IO處理性能問(wèn)題,簡(jiǎn)化設(shè)備部署和家主流存儲(chǔ)廠商如華為、新華三等都已提供此類存儲(chǔ)系統(tǒng)。3、高性能RDMA網(wǎng)絡(luò)規(guī)模應(yīng)用分布式存儲(chǔ)采用多種網(wǎng)絡(luò)協(xié)議和技術(shù),如以太網(wǎng)(TCP/IP)、受到關(guān)注。傳統(tǒng)的TCP/IP網(wǎng)絡(luò)存在延遲大、多次數(shù)據(jù)拷貝和復(fù)雜的協(xié)議處理等問(wèn)題。RDMA技術(shù)可以直接將數(shù)據(jù)傳入服務(wù)器存儲(chǔ)區(qū),上相對(duì)IB的開(kāi)放性,其應(yīng)用已經(jīng)越來(lái)越多。;;為了解決全閃存儲(chǔ)性能與網(wǎng)絡(luò)協(xié)議之間的瓶頸,2016年推出了NVMe-oF協(xié)議。它允許服務(wù)器通過(guò)Fabric連接到遠(yuǎn)程N(yùn)VMe設(shè)備,實(shí)現(xiàn)高性能的存儲(chǔ)設(shè)備網(wǎng)絡(luò)共享訪問(wèn)。其中,基于RDMA的NVMe應(yīng)用性能表現(xiàn)出色,受到業(yè)界的關(guān)注。NVMe-oF結(jié)合了NVMe和高速低延遲傳輸網(wǎng)絡(luò)技術(shù),釋放了數(shù)據(jù)中心的端到端NVMe性能,滿足了大規(guī)模和高性能數(shù)據(jù)中心的需求。由于RDMA網(wǎng)絡(luò)的技術(shù)優(yōu)勢(shì),尤其是RoCE在國(guó)內(nèi)的快速發(fā)展,國(guó)內(nèi)主流分布式存儲(chǔ)廠商大部分已經(jīng)支持RDMA技術(shù)實(shí)現(xiàn)存儲(chǔ)前后端網(wǎng)絡(luò)通信,具體包括NVMeoverRDMA、iSCSIoverRDMA(iSER)、NFSoverRDMA等,我們相信,隨著RDMA技術(shù)的不斷完善,會(huì)有越來(lái)越多的分布式存儲(chǔ)采用基于RDMA網(wǎng)絡(luò)技術(shù)。1、數(shù)據(jù)縮減降低分布式存儲(chǔ)應(yīng)用成本在分布式存儲(chǔ)向閃存介質(zhì)演進(jìn)的過(guò)程中,場(chǎng)景化數(shù)據(jù)縮減技術(shù)將為降低閃存應(yīng)用成本起到至關(guān)重要的作用。隨著存算分離架構(gòu)在大數(shù)據(jù)分析和高性能計(jì)算等應(yīng)用場(chǎng)景中的廣泛部署,數(shù)據(jù)縮減的能力已經(jīng)下沉到存儲(chǔ)側(cè)。這種下沉與前后臺(tái)縮減任務(wù)相結(jié)合,有效地減少了對(duì)性能的影響并顯著提升了數(shù)據(jù)縮減率。不同的數(shù)據(jù)場(chǎng)景具有各自獨(dú)特的數(shù)據(jù)特征,這為數(shù)據(jù)縮減提供了多樣化的技術(shù)選擇。例如,對(duì)于基因、醫(yī)療和遙感等場(chǎng)景,可以采用多幀圖片聚合壓縮和多波段聚合等方法來(lái)實(shí)現(xiàn)更高的縮減率。而在數(shù)據(jù)保護(hù)場(chǎng)景中,變長(zhǎng)或相似性重刪技術(shù)能夠獲得優(yōu)越的縮減效果。對(duì)于視頻和媒資的場(chǎng)景,則可以通過(guò)前景提取和碼率控制等技術(shù)來(lái)進(jìn)一步增強(qiáng)數(shù)據(jù)縮減的效率。2、分布式存儲(chǔ)多場(chǎng)景雙活多活容災(zāi)隨著分布式存儲(chǔ)份額在市場(chǎng)上的持續(xù)上升,越來(lái)越多核心業(yè)務(wù)部署在分布式存儲(chǔ)之上,核心業(yè)務(wù)的可靠性需要全力保障,需要達(dá)到RTO=0和RPO=0的要求,在存儲(chǔ)層需要實(shí)現(xiàn)雙活。分布式存儲(chǔ)可以提供多種存儲(chǔ)服務(wù)(塊、文件、對(duì)象、大數(shù)據(jù)等),需要實(shí)現(xiàn)全業(yè)務(wù)場(chǎng)景雙活。存儲(chǔ)雙活可以通過(guò)存儲(chǔ)雙活特性,通過(guò)存儲(chǔ)同步復(fù)制及鎖機(jī)制能力,解決數(shù)據(jù)一致性問(wèn)題:(1)同步復(fù)制確保兩端存儲(chǔ)的數(shù)據(jù)實(shí)時(shí)保持一致,一個(gè)寫IO需要同時(shí)完成兩端存儲(chǔ)的寫動(dòng)作(存儲(chǔ)返回IO寫完成)才返回寫(2)雙活存儲(chǔ)需要保證任何時(shí)刻兩端存儲(chǔ)的數(shù)據(jù)讀寫的都保持一致,比如:A端存儲(chǔ)在寫數(shù)據(jù),而在相同的時(shí)刻B端存儲(chǔ)在寫同一份數(shù)據(jù),此時(shí)存儲(chǔ)應(yīng)該保留哪份數(shù)據(jù)呢?這個(gè)IO場(chǎng)景就需要鎖機(jī)制保障數(shù)據(jù)的一致性,通過(guò)鎖機(jī)制確保所有IO的數(shù)據(jù)一致性,保障業(yè)務(wù)數(shù)據(jù)安全。分布式存儲(chǔ)雙活能力需要包含:塊存儲(chǔ)雙活、文件存儲(chǔ)雙活、對(duì)象存儲(chǔ)雙活及大數(shù)據(jù)存儲(chǔ)雙活等,在存儲(chǔ)層100%保障核心業(yè)務(wù)數(shù)據(jù)的可靠性及可用性等。(三)硬件方面,向全閃存化、高效節(jié)能發(fā)展1、分布式存儲(chǔ)啟動(dòng)全閃存化作為新一代的存儲(chǔ)介質(zhì)SSD,憑借性能、能耗方面的明顯優(yōu)級(jí)以及成本下降,先后淘汰了15K高性能HDD、10K高性能HDD、PCHDD,在企業(yè)核心交易系統(tǒng)、核心生產(chǎn)系統(tǒng)、決策支撐系統(tǒng)、運(yùn)營(yíng)支撐系統(tǒng)以及備份等場(chǎng)景已經(jīng)實(shí)現(xiàn)對(duì)HDD的替換。目前剩下最后一個(gè)品類硬盤-容量型HDD,而容量型HDD主要應(yīng)用在分布式存儲(chǔ)系統(tǒng)中。新技術(shù)的替代并不完全基于成本。例如,機(jī)械硬盤替代磁帶并非因?yàn)槠涑杀靖?,而是性能?yōu)越。當(dāng)新技術(shù)的成本下降到舊技術(shù)年,SSD性能顯著優(yōu)于HDD,但價(jià)格高昂。到2011年,其成本是而SSD的成本也逐漸靠近了10K企業(yè)盤和PCHDD的3倍,促使這兩者相繼減產(chǎn)或停產(chǎn)。2023年,得益于NANDFlash技術(shù)進(jìn)步,大容量SSD的成本已低于HDD的3倍,標(biāo)志著HDD的更大規(guī)模替換開(kāi)始。分布式存儲(chǔ)憑借全閃化帶來(lái)的高性能、高可靠、大容量?jī)?yōu)勢(shì),一套全閃存存儲(chǔ)性能相當(dāng)于數(shù)十套傳統(tǒng)HDD存儲(chǔ)之和,結(jié)合大容量SSD和重刪壓縮技術(shù),全閃存存儲(chǔ)容量上可以達(dá)到5-10套傳統(tǒng)HDD存儲(chǔ)之和??梢赃M(jìn)行數(shù)據(jù)中心存儲(chǔ)整合,個(gè)設(shè)備中的數(shù)據(jù)集中到少量幾臺(tái)設(shè)備中存儲(chǔ),降低設(shè)備購(gòu)置、維護(hù)、管理及能耗成本,并加速數(shù)據(jù)價(jià)值挖掘,使能業(yè)務(wù)增長(zhǎng)。大幅降低CAPEX及OPEX。2、液冷散熱提供極致能效隨著數(shù)據(jù)中心規(guī)模的增長(zhǎng)和能耗問(wèn)題的突出,分布式液冷存儲(chǔ)作為一種綠色、高效的解決方案,受到了越來(lái)越多的關(guān)注。分布式液冷存儲(chǔ)系統(tǒng)內(nèi)部采用無(wú)風(fēng)扇設(shè)計(jì),有效解決傳統(tǒng)風(fēng)冷方案氣流強(qiáng)、噪音大問(wèn)題。并且為硬盤提供超靜音且無(wú)振動(dòng)的工作環(huán)境,可以顯著提高硬盤讀取性能。液冷存儲(chǔ)方案多采用冷板式液冷技術(shù)和高密模塊化設(shè)計(jì),可以顯著降低關(guān)鍵部件工作溫度,存儲(chǔ)節(jié)點(diǎn)PUE值降至1.2以下。液冷存儲(chǔ)技術(shù)能夠高效制冷,提高數(shù)據(jù)中心的使用效率和穩(wěn)定性。其液體傳導(dǎo)熱能效果和大比熱容的特性可以有效避免過(guò)熱故障的發(fā)生。同時(shí)使用了多重節(jié)能技術(shù),在保證容量和性能的基礎(chǔ)上,提高存儲(chǔ)資源利用率,降低系統(tǒng)功耗。(四)生態(tài)方面,向云存開(kāi)放對(duì)接、存儲(chǔ)直通發(fā)展1、云存開(kāi)放對(duì)接云化轉(zhuǎn)型深入,企業(yè)使用多云成為新常態(tài)。在使用多云帶來(lái)的彈性、敏捷的基礎(chǔ)服務(wù)的同時(shí),也要面對(duì)多云部署帶來(lái)的數(shù)據(jù)孤島和不同異構(gòu)平臺(tái)之間的沖突。為解決此問(wèn)題,構(gòu)建跨多云和企業(yè)IT的統(tǒng)一基礎(chǔ)服務(wù),將底層各種大規(guī)模云的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、安全以及其他資源,抽象成統(tǒng)一多云的云服務(wù)底座成為產(chǎn)業(yè)界各方的共識(shí)??煽?、應(yīng)用生態(tài)等有著不同的需求,多云架構(gòu)需要構(gòu)建足夠?qū)挼拇鎯?chǔ)服務(wù)序列,并提供統(tǒng)一的存儲(chǔ)資源池和存儲(chǔ)云服務(wù)能力,才能更

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論