2024下一代高性能算力底座技術(shù)白皮書(shū)_第1頁(yè)
2024下一代高性能算力底座技術(shù)白皮書(shū)_第2頁(yè)
2024下一代高性能算力底座技術(shù)白皮書(shū)_第3頁(yè)
2024下一代高性能算力底座技術(shù)白皮書(shū)_第4頁(yè)
2024下一代高性能算力底座技術(shù)白皮書(shū)_第5頁(yè)
已閱讀5頁(yè),還剩123頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

DPU是當(dāng)下算力基礎(chǔ)設(shè)施的核心創(chuàng)新之一。如果把CPU比做大腦,那么GPU就好比是肌肉,而DPU就是神經(jīng)中樞。CPU承載了應(yīng)用生態(tài),提供了通用型算力;GPU提供了高密度各類(lèi)精度的算力,特別是在智算領(lǐng)域,對(duì)系統(tǒng)算力大小有決負(fù)責(zé)數(shù)據(jù)在各種CPU之間、CPU與GPU、以及GPU與GPU之間高效流通,很大程度上決定了系統(tǒng)是否能協(xié)同工作。DPU作為數(shù)據(jù)中心的第三顆“主力芯片”,主要通過(guò)其專(zhuān)用處理器優(yōu)化數(shù)據(jù)中心的網(wǎng)絡(luò)、存儲(chǔ)、安全等處理性能,助力服務(wù)器運(yùn)行效率顯著提升,有效降低成本。因此,在新型數(shù)據(jù)中心建設(shè)時(shí),圍繞DPU構(gòu)建數(shù)據(jù)中心網(wǎng)絡(luò)的基礎(chǔ)設(shè)施,在其上掛載了各種計(jì)算、存儲(chǔ)資源的節(jié)點(diǎn),對(duì)于系統(tǒng)的資源彈性、運(yùn)行效率、性能都大有益處。但是這種使用方式的變化,需要對(duì)現(xiàn)有云計(jì)算架構(gòu)進(jìn)行一定程度的變革,才能充分發(fā)揮出DPU的優(yōu)勢(shì)。云計(jì)算中的頭部企業(yè)AWS與阿里云在DPU的應(yīng)用方面也有成功案例,借助其軟硬件全棧自研的優(yōu)勢(shì),快速完成了云計(jì)算系統(tǒng)的改造工作,實(shí)現(xiàn)了DPU大規(guī)模落地部署,在降低自身運(yùn)營(yíng)成本的同時(shí)為客戶提供更好的使用體驗(yàn),并產(chǎn)生了可觀的經(jīng)濟(jì)效益。這種正向循環(huán)促進(jìn)了相關(guān)技術(shù)棧的快速迭代與成熟,也幫助他們發(fā)展成為云計(jì)算業(yè)務(wù)領(lǐng)域的領(lǐng)軍企業(yè)。隨著眾多芯片廠商投身到DPU技術(shù)領(lǐng)域后,業(yè)界對(duì)DPU的產(chǎn)品形態(tài)定義逐漸清晰,DPU的技術(shù)標(biāo)準(zhǔn)也在不斷完善。從此DPU不再是行業(yè)巨頭的“專(zhuān)享”技術(shù),基礎(chǔ)設(shè)施與云計(jì)算相關(guān)產(chǎn)業(yè)參與者都在尋求一種簡(jiǎn)單高效的方法,將DPU的優(yōu)勢(shì)運(yùn)用到自身業(yè)務(wù)系統(tǒng)之中,例如RedHat、VMware、PaloAlto等公司紛紛推出相關(guān)解決方案。這些方案背后共同的本質(zhì)思想是:將云計(jì)算的IaaS層組件從服務(wù)器側(cè)卸載后圍繞DPU構(gòu)筑高性能算力底座,與AWS、阿里云的技術(shù)路線不謀而合。我們將這種思想所代表的技術(shù)路線統(tǒng)一歸納命名為“IaaSonDPU(IoD)”技術(shù)路線,簡(jiǎn)稱(chēng)IoD。本文重點(diǎn)闡述了IoD技術(shù)的構(gòu)成以及與當(dāng)前主流云計(jì)算體系的融合方案,從計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)、安全、管控等幾個(gè)方面進(jìn)行深度分析,論證了基于DPU構(gòu)建云計(jì)算基礎(chǔ)設(shè)施服務(wù)(IaaS)的性能優(yōu)勢(shì)與建設(shè)路徑。隨著DPU技術(shù)的成熟,不論從功能完備性、系統(tǒng)穩(wěn)定性還是性價(jià)比角度,DPU均已經(jīng)具備在大規(guī)模生產(chǎn)環(huán)境落地應(yīng)用的條件。某種程度上,IoD技術(shù)已成為下一代高性能算力底座的核心技術(shù)與最佳實(shí)踐。前言ii第1章云計(jì)算發(fā)展趨勢(shì)11.1云計(jì)算系統(tǒng)已經(jīng)成為數(shù)字世界的“操作系統(tǒng)” 1.1.1云計(jì)算的發(fā)展歷程 1.1.2云計(jì)算技術(shù)特點(diǎn) 1.2AI產(chǎn)業(yè)催生高性能云計(jì)算需求 1.2.1AI技術(shù)發(fā)展概述 1.2.2云計(jì)算性能對(duì)AI計(jì)算影響重大 41.2.3主流AI訓(xùn)練的云計(jì)算支撐架構(gòu) 1.3IaaSonDPU(IoD)算力底座技術(shù)路線 1.3.1IoD發(fā)展歷程 1.3.2IoD技術(shù)路線解析 1.3.3高性能云計(jì)算的規(guī)格定義 1.4IoD高性能云計(jì)算應(yīng)用范式 第2章云計(jì)算業(yè)務(wù)模型分析182.1當(dāng)前主流云計(jì)算體系結(jié)構(gòu) 2.1.1硬件部分 2.1.2基礎(chǔ)軟件 2.1.3云管平臺(tái) 2.1.4業(yè)務(wù)服務(wù) 202.2計(jì)算業(yè)務(wù)分析 202.2.1裸金屬服務(wù)器 21 AllRightsReservediv2.2.2虛擬機(jī) 212.2.3容器 222.2.4GPU服務(wù)器 222.2.5應(yīng)用場(chǎng)景與選擇策略 232.3網(wǎng)絡(luò)業(yè)務(wù)分析 242.4存儲(chǔ)業(yè)務(wù)分析 252.5安全業(yè)務(wù)分析 262.6平臺(tái)服務(wù)業(yè)務(wù)分析 272.6.1數(shù)據(jù)庫(kù) 272.6.2中間件 272.6.3服務(wù)治理 28第3章高性能云計(jì)算基礎(chǔ)設(shè)施建設(shè)路徑293.1通用算力技術(shù)分析 293.1.1CPU的計(jì)算能力發(fā)展歷程 293.1.2云計(jì)算卸載技術(shù)為CPU算力提升帶來(lái)的優(yōu)勢(shì) 3.1.3IoD技術(shù)為Hypervisor卸載提供最佳支撐 3.2智算算力技術(shù)分析 3.2.1GPU的計(jì)算能力發(fā)展歷程 3.2.2GPU算力提升帶來(lái)與網(wǎng)絡(luò)吞吐的矛盾現(xiàn)狀 3.2.3無(wú)損網(wǎng)絡(luò)技術(shù)為AI訓(xùn)練帶來(lái)的性能提升 3.3云計(jì)算網(wǎng)絡(luò)技術(shù)分析 3.3.1云計(jì)算網(wǎng)絡(luò)是算力連通的基礎(chǔ) 3.3.2云計(jì)算網(wǎng)關(guān)是算力開(kāi)放的門(mén)戶 3.3.3高性能云計(jì)算需要網(wǎng)絡(luò)卸載進(jìn)行性能提升 3.4云計(jì)算存儲(chǔ)技術(shù)分析 423.4.1單一存儲(chǔ)技術(shù)方案無(wú)法滿足云計(jì)算要求 423.4.2云存儲(chǔ)需要引入新技術(shù)突破性能限制 433.4.3IoD技術(shù)可以提升存算分離架構(gòu)下的處理性能 443.5云計(jì)算安全技術(shù)分析 453.5.1紛繁龐雜的云計(jì)算安全體系 453.5.2安全處理性能提升需要異構(gòu)算力加持 46 AllRightsReservedv3.5.3安全卸載技術(shù)在高性能云安全中至關(guān)重要 473.5.4DPU將成為可信計(jì)算服務(wù)中的重要組件 473.5.5IoD技術(shù)助力構(gòu)建“零信任”網(wǎng)絡(luò) 483.6云計(jì)算服務(wù)治理技術(shù)分析 503.6.1服務(wù)治理技術(shù)是云原生時(shí)代的重要基礎(chǔ) 503.6.2傳統(tǒng)服務(wù)治理技術(shù)的局限性 503.6.3IoD技術(shù)帶來(lái)新的服務(wù)治理模式 513.7IaaSonDPU(IoD)高性能云計(jì)算全景 51第4章高性能云計(jì)算系統(tǒng)架構(gòu)持續(xù)演進(jìn)534.1高性能云計(jì)算可觀測(cè)性建設(shè) 534.1.1可觀測(cè)建設(shè)是云計(jì)算運(yùn)維體系的關(guān)鍵環(huán)節(jié) 534.1.2當(dāng)前觀測(cè)方法所面臨的難題 544.1.3高性能云可觀測(cè)性建設(shè)建議 554.2輕量級(jí)虛擬化系統(tǒng)演進(jìn)架構(gòu)革新 564.2.1輕量級(jí)虛擬化技術(shù)演進(jìn)路線 564.2.2輕量級(jí)虛擬化技術(shù)為云計(jì)算帶來(lái)新氣象 574.2.3DPU+輕量級(jí)虛擬化=新一代技術(shù)革命 584.3“一云多芯”系統(tǒng)融合 594.3.1“一云多芯”的應(yīng)用困境 594.3.2IoD技術(shù)有助于完善“一云多芯”的服務(wù)評(píng)估體系 59第5章高性能云計(jì)算為PaaS服務(wù)賦能615.1高性能大數(shù)據(jù)計(jì)算服務(wù) 615.2高性能中間件服務(wù) 625.3高性能數(shù)據(jù)庫(kù)服務(wù) 62第6章未來(lái)展望641.1云計(jì)算系統(tǒng)已經(jīng)成為數(shù)字世界的“操作系統(tǒng)”1.1.1云計(jì)算的發(fā)展歷程云計(jì)算技術(shù)的最初起源可以追溯到20世紀(jì)50年代ChristopherStrachey發(fā)表的《TimeSharinginLargeFastComputer》論文,開(kāi)啟了對(duì)虛擬化技術(shù)探討的大門(mén)。隨后的60年代,以IBM與MIT為首的產(chǎn)業(yè)與學(xué)術(shù)巨頭紛紛投入相關(guān)研究并在虛擬化領(lǐng)域取得了眾多突破,最具代表性的事件是1974年,GeraldJ.Popek和RobertP.Goldberg發(fā)表論文《FormalRequirementsforVirtualizableThirdGenerationArchitectures》,提出了波佩克與戈德堡虛擬化需求(PopekandGoldbergvirtualizationrequirements)和I型與II型虛擬化類(lèi)型。隨著虛擬化技術(shù)的不斷成熟與基礎(chǔ)算力設(shè)施能力的提升,使得具備“彈性、按用計(jì)量、在線、無(wú)限”這幾個(gè)云計(jì)算典型特征的業(yè)務(wù)類(lèi)型逐步具備了落地應(yīng)用的可行性,期間虛擬化技術(shù)領(lǐng)域也涌現(xiàn)出了Qemu、Xen、KVM等眾多明星項(xiàng)目。終于在2006年,Google時(shí)任CEOEricSchmidt在搜索引擎大會(huì)上首次提出“CloudComputing”概念,亞馬遜在同年成立了亞馬遜網(wǎng)絡(luò)服務(wù)公司(AWS云計(jì)算產(chǎn)業(yè)轟轟烈烈的發(fā)展起來(lái)。2010年,OpenStack項(xiàng)目創(chuàng)建,標(biāo)志著云計(jì)算技術(shù)進(jìn)入平民化時(shí)代,將云計(jì)算行業(yè)發(fā)展正式推向了高潮。云計(jì)算技術(shù)的另一個(gè)分支,容器技術(shù)起源于20世紀(jì)70年代UnixV7引入的chroot工具,并在2009年以LXC形式成為L(zhǎng)inux內(nèi)核的容器管理器。容器技術(shù)憑借顯著的輕量化優(yōu)勢(shì)取得快速發(fā)展并借助CNCF社區(qū)進(jìn)行大力推廣,在2018年發(fā)布的云原生技術(shù)定義中,容器被確立為云原生的代表技術(shù)之一。隨著業(yè)務(wù)的多樣化發(fā)展,云原生技術(shù)逐漸顯現(xiàn)出強(qiáng)大的統(tǒng)治力,成為未來(lái)發(fā)展的主要方向。伴隨著云計(jì)算的蓬勃發(fā)展,當(dāng)前世界上的主要算力基礎(chǔ)設(shè)施幾乎都是通過(guò)云計(jì)算技術(shù)進(jìn)行管理與調(diào)度,可以說(shuō)云計(jì)算技術(shù)已經(jīng)成為數(shù)字世界的“操作系統(tǒng)”。1.1云計(jì)算系統(tǒng)已經(jīng)成為數(shù)字世界的“操作系統(tǒng)”AllRightsReserved21.1.2云計(jì)算技術(shù)特點(diǎn)行業(yè)的發(fā)展一方面要求云計(jì)算技術(shù)能為其提供融合性的底層技術(shù)支撐,能夠按需以裸金屬、容器或虛擬機(jī)形式承載上層業(yè)務(wù),另一方面對(duì)云計(jì)算性能也提出了前所未有的要等,CNCF社區(qū)中的Kubevirt、Metal3等項(xiàng)目也逐漸成熟,這些都是為提供多模態(tài)服務(wù)類(lèi)型做出的努力。同時(shí),融合了CPU、GPU與DPU的“3U一體”新型服務(wù)器成為當(dāng)前云計(jì)算算力基礎(chǔ)設(shè)施的主力形式,CPU負(fù)責(zé)調(diào)度管理與運(yùn)行業(yè)務(wù)進(jìn)程,是通用“算力”的承載組件,GPU負(fù)責(zé)提升大規(guī)模并行運(yùn)算能力,是智算“算力”的核心引擎,DPU負(fù)責(zé)算力集群基礎(chǔ)設(shè)施卸載與集群的聯(lián)通,三者通力合作,構(gòu)成了高性能云計(jì)算的基礎(chǔ)底歷史的經(jīng)驗(yàn)告訴我們,技術(shù)的發(fā)展總是呈現(xiàn)出螺旋式上升的樣貌。也總有人調(diào)侃,當(dāng)前的問(wèn)題都可以在故紙堆中找到答案。雖然異構(gòu)運(yùn)算并非新鮮事物,但隨著單項(xiàng)技術(shù)的突破與不同技術(shù)領(lǐng)域間的融合,在當(dāng)下,如圖1.1所示的基于“3U一體”的融合算力基礎(chǔ)設(shè)施構(gòu)建的融合性云計(jì)算平臺(tái),正是支撐不斷爆發(fā)的上層業(yè)務(wù)應(yīng)用運(yùn)轉(zhuǎn)的最佳實(shí)圖1.1:“3U一體”融合基礎(chǔ)設(shè)施總體來(lái)說(shuō),當(dāng)前云計(jì)算技術(shù)的發(fā)展呈現(xiàn)出如下典型特征:業(yè)務(wù)承載多模化為了滿足業(yè)務(wù)向云端平滑遷移的需求,會(huì)要求云平臺(tái)能夠適配業(yè)務(wù)系統(tǒng)的當(dāng)前情況,從容器、虛擬機(jī)、裸金屬中選擇最佳的云上承載方式。例如對(duì)硬件設(shè)施有特 1.2AI產(chǎn)業(yè)催生高性能云計(jì)算需求AllRightsReserved3殊需求的業(yè)務(wù)需要通過(guò)裸金屬承載,對(duì)操作系統(tǒng)有特殊需求的業(yè)務(wù)以虛擬機(jī)承載,其余業(yè)務(wù)以容器承載。計(jì)算性能極致化在AIGC大爆發(fā)的背景下,上層業(yè)務(wù)系統(tǒng)從網(wǎng)絡(luò)性能、存儲(chǔ)性能、安全性能等眾多方面都對(duì)云平臺(tái)提出了更高的要求,百G級(jí)別的以太網(wǎng)絡(luò)接入能力已經(jīng)逐漸成為云計(jì)算系統(tǒng)的標(biāo)配,400G的無(wú)損網(wǎng)絡(luò)接入也逐漸在行業(yè)落地。系統(tǒng)構(gòu)成組件化云計(jì)算技術(shù)體系越來(lái)越龐雜,單獨(dú)的封閉體系很難滿足來(lái)自業(yè)務(wù)系統(tǒng)層出不窮的各種需求,良好的模塊劃分與API設(shè)計(jì)已經(jīng)成為主流云計(jì)算系統(tǒng)的構(gòu)成基礎(chǔ)?!伴_(kāi)放、可替換”模式已經(jīng)成為云計(jì)算技術(shù)架構(gòu)的主旋律。1.2AI產(chǎn)業(yè)催生高性能云計(jì)算需求1.2.1AI技術(shù)發(fā)展概述人工智能(ArtificialIntelligence,簡(jiǎn)稱(chēng)AI)是指通過(guò)計(jì)算機(jī)技術(shù)和算法模擬人類(lèi)智能的一種技術(shù)。目標(biāo)是使計(jì)算機(jī)能夠模擬人的思維方式和行為,讓計(jì)算機(jī)可以像人類(lèi)一樣思考和學(xué)習(xí),并最終實(shí)現(xiàn)自主決策的智能化行為。進(jìn)入21世紀(jì)后,互聯(lián)網(wǎng)的普及和大數(shù)據(jù)的爆發(fā)為AI提供了豐富的訓(xùn)練材料,加速了算法的發(fā)展。2006年加拿大Hinton教授提出了深度學(xué)習(xí)的概念,極大地發(fā)展了人工神經(jīng)網(wǎng)絡(luò)算法。2012年,AlexNet在ImageNet競(jìng)賽中取得突破性成果,標(biāo)志著深度學(xué)習(xí)時(shí)代的到來(lái)。當(dāng)前人工智能處于深度學(xué)習(xí)和生成式AI大發(fā)展的時(shí)期。過(guò)去十多年基于深度學(xué)習(xí)的人工智能技術(shù)主要經(jīng)歷了如下的研究范式轉(zhuǎn)變:從早期的“數(shù)據(jù)標(biāo)注監(jiān)督學(xué)習(xí)”的任務(wù)特定模型,到“無(wú)標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練+標(biāo)注數(shù)據(jù)微調(diào)”的預(yù)訓(xùn)練模型,再到如今的“大規(guī)模無(wú)標(biāo)注數(shù)據(jù)預(yù)訓(xùn)練+指令微調(diào)+人類(lèi)對(duì)齊”的大模型,經(jīng)歷了從小數(shù)據(jù)到大數(shù)據(jù),從小模型到大模型,從專(zhuān)用到通用的發(fā)展歷程,人工智能技術(shù)正逐步進(jìn)入大模型時(shí)代。自2017年Google提出Transformer模型以來(lái),AI大語(yǔ)言模型(LLM,LargeLanguageModel)已取得飛速進(jìn)展。2022年底,由OpenAI發(fā)布的基于GPT3.5的語(yǔ)言大模型ChatGPT引發(fā)了社會(huì)的廣泛關(guān)注。在“大模型+大數(shù)據(jù)+大算力”的加持下,ChatGPT能夠通過(guò)自然語(yǔ)言交互完成多種任務(wù),具備了多場(chǎng)景、多用途、跨學(xué)科的任務(wù)處理能力。以ChatGPT為代表的 1.2AI產(chǎn)業(yè)催生高性能云計(jì)算需求AllRightsReserved4大模型技術(shù)可以在經(jīng)濟(jì)、法律、社會(huì)等眾多領(lǐng)域發(fā)揮重要作用,引發(fā)了大模型的發(fā)展熱2024年被稱(chēng)為AGI元年,文生視頻大模型Sora的問(wèn)世再次引爆了行業(yè)熱點(diǎn),在通用問(wèn)題上AI通過(guò)自學(xué)習(xí)實(shí)現(xiàn)從GPT到GPT-Zero的升級(jí),開(kāi)啟了AGI時(shí)代。1.2.2云計(jì)算性能對(duì)AI計(jì)算影響重大隨著大模型和生成式AI的迅速發(fā)展,大模型參數(shù)規(guī)模和數(shù)據(jù)集不斷增加,2017年到2023年6年間,AI大模型參數(shù)量從Transformer的6500萬(wàn),增長(zhǎng)到GPT4的1.8萬(wàn)億,模型規(guī)模增長(zhǎng)超過(guò)2萬(wàn)倍。業(yè)界對(duì)智算算力的需求也水漲船高,據(jù)AlNow《計(jì)算能力和人工智能》報(bào)告指出,早期Al模型算力需求是每21.3個(gè)月翻一番,而2010年深度學(xué)習(xí)后(小模型時(shí)代模型對(duì)Al算力需求縮短至5.7個(gè)月翻一番,而2023年,大模型需要的Al算力需求每1-2個(gè)月就翻—番,摩爾定律的增速顯著落后于社會(huì)對(duì)Al算力的指數(shù)級(jí)需求增長(zhǎng)速度,即“Al超級(jí)需求曲線”遙遙領(lǐng)先傳統(tǒng)架構(gòu)的Al算力供給,帶來(lái)了Al芯片產(chǎn)能瓶頸漲價(jià)等短期市場(chǎng)現(xiàn)象。根據(jù)工信部等部委2023年10月發(fā)布《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》,截至2023年6月底,我國(guó)算力總規(guī)模達(dá)到197EFLOPS,智能算力規(guī)模占比達(dá)25.4%。按照該計(jì)劃,我國(guó)2023年底智算算力要達(dá)到220EFLOPS,2024年要達(dá)到260EFLOPS,2025年要達(dá)到300EFLOPS。如此龐大的智算算力需求對(duì)底層智算基礎(chǔ)設(shè)施性能、穩(wěn)定性、成本及安全性方面帶來(lái)巨大技術(shù)和成本挑戰(zhàn)。特別是智算云基礎(chǔ)設(shè)施在算力、網(wǎng)絡(luò)、存儲(chǔ)、調(diào)度等方面的性能對(duì)AI訓(xùn)練過(guò)程有關(guān)鍵影響,是決定AI大模型訓(xùn)練質(zhì)量(效率、穩(wěn)定性、能耗、成本、信任等)的關(guān)鍵因素。底層智算云基礎(chǔ)上設(shè)施性能對(duì)AI訓(xùn)練的質(zhì)量有著重大影響,體現(xiàn)在多個(gè)方面:1.數(shù)據(jù)處理能力:千億級(jí)模型的訓(xùn)練需要使用文件、對(duì)象、塊等多種存取協(xié)議處理處理PB級(jí)規(guī)模的數(shù)據(jù)集,萬(wàn)億級(jí)模型的訓(xùn)練處理checkpoint的讀寫(xiě)吞吐性能要求高達(dá)10TB/s?,F(xiàn)有智算存儲(chǔ)設(shè)施在協(xié)議處理、數(shù)據(jù)管理、吞吐性能等方面面臨諸多挑戰(zhàn)。傳統(tǒng)智算的分布式文件存儲(chǔ)系統(tǒng)僅支持百節(jié)點(diǎn)級(jí)別擴(kuò)展,節(jié)點(diǎn)規(guī)模小,難以滿足萬(wàn)卡級(jí)集群的數(shù)據(jù)吞吐性能要求。高性能云計(jì)算平臺(tái)能夠高效地存儲(chǔ)和處理海量的訓(xùn)練數(shù)據(jù)。數(shù)據(jù)預(yù)處理、清洗和標(biāo)注等步驟可以在云端高效完成,確保輸入模型的數(shù)據(jù)質(zhì)量,從而提升模型的準(zhǔn)確性和泛化能力。2.算力支持:云計(jì)算提供了彈性且強(qiáng)大的計(jì)算資源,特別是GPU和TPU等加速器,能夠大幅縮短AI模型的訓(xùn)練時(shí)間。大規(guī)模并行處理能力使得處理復(fù)雜的深度學(xué)習(xí)模型成為可能,這對(duì)于模型收斂速度和訓(xùn)練質(zhì)量至關(guān)重要。 1.2AI產(chǎn)業(yè)催生高性能云計(jì)算需求AllRightsReserved53.分布式訓(xùn)練:云計(jì)算平臺(tái)支持模型的分布式訓(xùn)練,通過(guò)多節(jié)點(diǎn)并行計(jì)算,可以處理更大規(guī)模的數(shù)據(jù)集和更復(fù)雜的模型,同時(shí)減少訓(xùn)練時(shí)間。這對(duì)于大型語(yǔ)言模型、圖像識(shí)別模型等尤為重要。4.模型優(yōu)化:利用云計(jì)算資源,可以進(jìn)行大量的模型調(diào)優(yōu)實(shí)驗(yàn),比如超參數(shù)調(diào)優(yōu)、模型架構(gòu)搜索等,找到最優(yōu)模型配置。云計(jì)算的靈活性允許數(shù)據(jù)科學(xué)家和工程師快速迭代,提高模型性能。5.存儲(chǔ)與IO性能:高速的存儲(chǔ)系統(tǒng)和優(yōu)化的IO性能減少了數(shù)據(jù)讀寫(xiě)瓶頸,確保訓(xùn)練過(guò)程中數(shù)據(jù)的快速存取,這對(duì)于大規(guī)模數(shù)據(jù)處理和模型訓(xùn)練至關(guān)重要。6.資源調(diào)度與自動(dòng)化:云平臺(tái)的智能資源調(diào)度能力可以根據(jù)AI訓(xùn)練任務(wù)的需求動(dòng)態(tài)調(diào)整資源分配,保證計(jì)算資源的高效利用。自動(dòng)化工具和服務(wù)進(jìn)一步簡(jiǎn)化了模型訓(xùn)練流程,降低了操作復(fù)雜度。7.成本效益:云計(jì)算的按需付費(fèi)模式降低了進(jìn)入門(mén)檻,使得企業(yè)和研究機(jī)構(gòu)無(wú)需前期大量投資硬件設(shè)施,就可以開(kāi)展高級(jí)AI項(xiàng)目,促進(jìn)了AI技術(shù)的普及和創(chuàng)新。綜上所述,云計(jì)算不僅提供了必要的基礎(chǔ)設(shè)施來(lái)支撐AI訓(xùn)練,還通過(guò)其靈活、高效、可擴(kuò)展的特性,直接促進(jìn)了AI模型訓(xùn)練質(zhì)量和效率的提發(fā)展和廣泛應(yīng)用。1.2.3主流AI訓(xùn)練的云計(jì)算支撐架構(gòu)智算云數(shù)據(jù)中心架構(gòu)可劃分為基礎(chǔ)設(shè)施層、管理調(diào)度層、大模型平臺(tái)層、AIGC應(yīng)用層,各層的作用說(shuō)明如圖1.2所示:圖1.2:智算中心架構(gòu)基礎(chǔ)設(shè)施層適度超前建設(shè),滿足面向未來(lái)客戶的算力多元化需求,基于開(kāi)放計(jì)算,兼顧軟硬 1.3IaaSonDPU(IoD)算力底座技術(shù)路線AllRightsReserved6一體協(xié)同,構(gòu)建多元融合型架構(gòu),將通用CPU與多元異構(gòu)芯片集成,融合多種算力,充分釋放算力的價(jià)值?;陬I(lǐng)先的AI服務(wù)器為算力單元,支持成熟豐富的軟件生態(tài),形成高性能、高吞吐的計(jì)算系統(tǒng),為AI訓(xùn)練和AI推理生產(chǎn)輸出強(qiáng)大、高效、易用的計(jì)算力。管理調(diào)度層硬件資源與AI應(yīng)用松耦合,CPU算力與AI算力按需配比,AI算力資源按需調(diào)用,隨需應(yīng)變,顯存可擴(kuò)展、算力可超分。系統(tǒng)調(diào)度層一般采用云計(jì)算技術(shù),根據(jù)資源池內(nèi)算力資源使用情況,統(tǒng)一調(diào)度AI任務(wù),AI算力資源采用聲明式申請(qǐng),實(shí)現(xiàn)資源自動(dòng)聚合,滿足單機(jī)單卡,單機(jī)多卡及多機(jī)多卡不同場(chǎng)景要求。大模型平臺(tái)層覆蓋AI模型開(kāi)發(fā)部署全生命周期,提供預(yù)置行業(yè)算法、構(gòu)建預(yù)訓(xùn)算法模型持續(xù)升級(jí)、提供專(zhuān)業(yè)化數(shù)據(jù)和算法服務(wù),讓更多的用戶享受普適普惠的智能計(jì)算服務(wù)。AIGC應(yīng)用層使用云計(jì)算技術(shù)作為底層支撐,利用訓(xùn)練過(guò)的模型對(duì)外提供AI服務(wù),包括語(yǔ)音交互服務(wù)、文本交互服務(wù)、圖像生成服務(wù)與視頻生成服務(wù)等。需要滿足業(yè)務(wù)系統(tǒng)高可用性與快速迭代等需求。當(dāng)前,主流AI框架主要采用云原生技術(shù)作為底層支撐,主流AI分布式訓(xùn)練框架如1.3IaaSonDPU(IoD)算力底座技術(shù)路線1.3.1IoD發(fā)展歷程為了將算力基礎(chǔ)設(shè)施的能力充分發(fā)揮出來(lái),云計(jì)算系統(tǒng)整體架構(gòu)也在不斷演進(jìn)。傳統(tǒng)的IaaS平臺(tái)組件功能全部由CPU算力承載,但是隨著對(duì)云計(jì)算性能需求的提升以及極致利用CPU算力需求的發(fā)展,基于DPU構(gòu)建IaaS平臺(tái)的理念被提出與論證。這其中(DPU)設(shè)備以來(lái),AWS的云計(jì)算服務(wù)體系逐漸改造為基于DPU構(gòu)建并運(yùn)行在Nitro設(shè)備中,服務(wù)器上的CPU算力被完全池化并以近乎100%的原始算力性能向客戶售賣(mài)。以此為基礎(chǔ),AWS構(gòu)建了一整套高性能、高穩(wěn)定性的云服務(wù)體系,成為全球范圍內(nèi)最大 1.3IaaSonDPU(IoD)算力底座技術(shù)路線AllRightsReserved7圖1.3:主流分布式訓(xùn)練框架的云服務(wù)供應(yīng)商。國(guó)內(nèi)阿里云也采用類(lèi)似的體系,其云服務(wù)體系與其自研的DPU設(shè)備緊密配合,幫助阿里云取得了巨大的成功。因此,IaaSonDPU,簡(jiǎn)稱(chēng)為IoD,并非全新的概念,而是已經(jīng)被業(yè)內(nèi)頭部企業(yè)充分論證過(guò)的技術(shù)方向,其商業(yè)價(jià)值也已經(jīng)經(jīng)過(guò)市場(chǎng)的考驗(yàn)。但是如AWS等企業(yè)的DPU與云平臺(tái)經(jīng)過(guò)高度訂制化,難以簡(jiǎn)單在業(yè)內(nèi)推廣開(kāi)來(lái)。隨著Nvidia、Intel、AMD等芯片行業(yè)的領(lǐng)軍企業(yè)進(jìn)軍DPU賽道后,如何探索出一條通用云計(jì)算系統(tǒng)與標(biāo)準(zhǔn)DPU產(chǎn)品結(jié)合的路徑成為業(yè)內(nèi)關(guān)注的焦點(diǎn)。上述芯片企業(yè)通過(guò)行業(yè)論壇或技術(shù)文章等方式發(fā)表過(guò)眾多類(lèi)似的解決方案,將部分IaaS平臺(tái)能力下沉到DPU中。眾多云計(jì)算供應(yīng)商如RedHat、VMware等也順應(yīng)趨勢(shì),展開(kāi)了相關(guān)研究并在其產(chǎn)品中納入了相關(guān)能力。其中關(guān)鍵性事件是OPI與ODPU等標(biāo)準(zhǔn)化組織的成立,云廠商與DPU供應(yīng)商紛紛參與其中探討DPUAPI規(guī)范,DPUAPI規(guī)范可以將云平臺(tái)與DPU設(shè)備解耦,將IoD技術(shù)規(guī)范化并全面推向云計(jì)算行業(yè)。1.3.2IoD技術(shù)路線解析IoD技術(shù)的核心思想是依托于DPU的異構(gòu)運(yùn)算能力,將云計(jì)算平臺(tái)的基礎(chǔ)設(shè)施組件盡可能下沉到DPU承載,實(shí)現(xiàn)節(jié)約CPU開(kāi)銷(xiāo)與提升IaaS服務(wù)性能的目的。同時(shí),基 1.3IaaSonDPU(IoD)算力底座技術(shù)路線AllRightsReserved8礎(chǔ)設(shè)施組件下沉到DPU之后,可以為服務(wù)器側(cè)運(yùn)行的各種業(yè)務(wù)提供一致的網(wǎng)絡(luò)、存儲(chǔ)與安全底座,可以更好的將虛擬機(jī)、容器與裸金屬的業(yè)務(wù)調(diào)度收斂到統(tǒng)一平臺(tái)。如圖1.4所示為IoD架構(gòu)下的系統(tǒng)模型。圖1.4:IoD系統(tǒng)模型當(dāng)前開(kāi)源領(lǐng)域最主流的云計(jì)算平臺(tái)有Openstack體系與Kubernetes體系,雖然二者在虛擬技術(shù)和容器編排方向各有側(cè)重,但它們可以互補(bǔ)使用,并且隨著不斷地技術(shù)迭代,二者的業(yè)務(wù)覆蓋范圍也有所重疊。總的來(lái)說(shuō),Openstack系統(tǒng)更注重對(duì)物理設(shè)備的模擬,對(duì)業(yè)務(wù)隔離性與復(fù)雜業(yè)務(wù)系統(tǒng)的支持更加友好,適合作為重點(diǎn)以虛擬機(jī)為主并需要復(fù)雜網(wǎng)絡(luò)管理和多租戶環(huán)境的企業(yè)級(jí)IaaS平臺(tái)使用。它在虛擬機(jī)管理、網(wǎng)絡(luò)配置和企業(yè)級(jí)特性方面表現(xiàn)出色。Kubernetes系統(tǒng)則是從上層業(yè)務(wù)的架構(gòu)設(shè)計(jì)與生命周期管理角度出發(fā),提供更好的業(yè)務(wù)編排特性與抽象層次更高的網(wǎng)絡(luò)與存儲(chǔ)特性,擁有更加豐富的系統(tǒng)組件和更加靈活的插件機(jī)制,更適合作為以容器業(yè)務(wù)為主的IaaS+PaaS綜合平臺(tái)使用,尤其是在需要高效管理容器化應(yīng)用和自動(dòng)化運(yùn)維的場(chǎng)景中。值得一提的是,Kubernetes體系中提供的ServiceMesh組件,在底層平臺(tái)提供了豐富的服務(wù)治理能力,其內(nèi)置的服務(wù)發(fā)現(xiàn)、負(fù)載均衡、業(yè)務(wù)自愈、高可用、業(yè)務(wù)跟蹤、滾動(dòng)發(fā)布等特性大幅簡(jiǎn)化了業(yè)務(wù)系統(tǒng)的架構(gòu)設(shè)計(jì)難度。借助于Kubernetes體系更友好的插件機(jī)制,CNCF社區(qū)發(fā)展迅速,也逐漸補(bǔ)足了Kubernetes其在虛擬化與業(yè)務(wù)隔離性方面的劣勢(shì)。從另一個(gè)方面來(lái)講,據(jù)Gartner統(tǒng)計(jì),新建云計(jì)算平臺(tái)中選擇基于Kubernetes構(gòu)建的比例越來(lái)越高,尤其是以AI相關(guān)的云計(jì)算基礎(chǔ)設(shè)施中,Kubernetes體系占據(jù)絕對(duì)數(shù)量?jī)?yōu)勢(shì),已經(jīng)成為云計(jì)算技術(shù)發(fā)展與應(yīng)用最主要的方向。由于以上原因,IoD技術(shù)架構(gòu)更推薦選擇采用擴(kuò)展Kubernetes的形式,通過(guò)眾多插 1.3IaaSonDPU(IoD)算力底座技術(shù)路線AllRightsReserved9件將DPU能力引入到云原生技術(shù)棧中,并將Worker節(jié)點(diǎn)的基礎(chǔ)設(shè)施組件完全運(yùn)行在圖1.5:IoD技術(shù)架構(gòu)圖如圖1.5所示,典型的IoD技術(shù)部署在DPU上的核心組件包括:BM-Agent:裸金屬業(yè)務(wù)組件,裸金屬系統(tǒng)盤(pán)采用DPU虛擬的磁盤(pán),通過(guò)在虛擬磁盤(pán)中掛載用戶鏡像,可以實(shí)現(xiàn)裸金屬業(yè)務(wù)的快速切換與業(yè)務(wù)溫遷移。VM-Agent:虛擬機(jī)業(yè)務(wù)組件,通過(guò)監(jiān)控本機(jī)虛擬機(jī)聲明和實(shí)例資源,實(shí)現(xiàn)對(duì)服務(wù)器上所有虛機(jī)實(shí)例的管理。CM-Agent:容器業(yè)務(wù)組件,定期從Kubernetes接收新的或修改的Pod規(guī)范,并確保Pod及其容器在期望規(guī)范下運(yùn)行。CNI-DPU:網(wǎng)絡(luò)插件,提供高性能網(wǎng)絡(luò)卸載方案,同時(shí)提供高性能網(wǎng)絡(luò)接入組件、可以靈活高效對(duì)接各種外部網(wǎng)絡(luò)。CSI-DPU:存儲(chǔ)插件,提供高性能存儲(chǔ)卸載方案,同時(shí)兼容多種存儲(chǔ)方案。Sec-DPU:安全插件,提供高性能分布式安全方案,是集群網(wǎng)絡(luò)安全策略執(zhí)行的錨ServiceAgent:服務(wù)治理組件,可以根據(jù)業(yè)務(wù)需要通過(guò)流量劫持的方式實(shí)現(xiàn)服務(wù)治理功能,為虛擬機(jī)、容器以及裸金屬業(yè)務(wù)提供通用的服務(wù)治理能力。Image-Preheater:鏡像預(yù)加載組件,對(duì)通用的基礎(chǔ)鏡像進(jìn)行多節(jié)點(diǎn)緩存,容器優(yōu)先調(diào)度使用具有預(yù)熱鏡像的Worker節(jié)點(diǎn),以避免其頻繁拉取遠(yuǎn)端鏡像。TargetAbstraction:驅(qū)動(dòng)抽象層,用來(lái)對(duì)接各種DPU產(chǎn)品,屏蔽底層差異,需要與不同DPU開(kāi)發(fā)套件進(jìn)行適配。 1.3IaaSonDPU(IoD)算力底座技術(shù)路線AllRightsReserved10同時(shí),為了將DPU融入進(jìn)Kubernetes系統(tǒng),IoD體系下的Kubernetes平臺(tái)也需要進(jìn)行相應(yīng)擴(kuò)展,核心擴(kuò)展包括:BM-Component:實(shí)現(xiàn)裸金屬業(yè)務(wù)定義與生命周期管理。VM-Component:實(shí)現(xiàn)虛擬機(jī)業(yè)務(wù)定義與生命周期管理。Kubernetes原生組件:實(shí)現(xiàn)容器業(yè)務(wù)定義與生命周期管理。CNI-Controller:實(shí)現(xiàn)網(wǎng)絡(luò)服務(wù)定義與管理。CSI-Controller:實(shí)現(xiàn)存儲(chǔ)服務(wù)定義與管理。Sec-Controller:實(shí)現(xiàn)安全服務(wù)定義與管理。Service-Mesh:服務(wù)治理組件,實(shí)現(xiàn)服務(wù)治理規(guī)則定義與管理。Image-Controller:鏡像管理組件,提供容器、虛擬機(jī)、裸金屬鏡像統(tǒng)一管理與預(yù)熱策略下發(fā)功能。Cluster-Provider:提供集群部署與DPU節(jié)點(diǎn)生命周期管理功能。API-Server:提供對(duì)外API服務(wù),暴漏底層IaaS能力。通過(guò)以上設(shè)計(jì),已經(jīng)完成了云計(jì)算IaaS體系與DPU的結(jié)合并將主要組件下沉到類(lèi)似的設(shè)計(jì)方案對(duì)Openstack體系也完全適用。值得一提的是,通過(guò)前述方案中API-Server暴露的能力,在已經(jīng)完成IoD基礎(chǔ)環(huán)境搭建之后,不管是Openstack體系或者其他云平臺(tái)體系,都可以通過(guò)簡(jiǎn)單的API集成,實(shí)現(xiàn)集群的IoD改造。通過(guò)IoD技術(shù),可以為云計(jì)算體系提供以DPU為核心構(gòu)造、軟硬件一體化高性能計(jì)算底座,對(duì)外提供統(tǒng)一管理、高可擴(kuò)展性、高性能、低成本的IaaS服務(wù)。在硬件層面為“3U一體”和“一云多芯”的異構(gòu)算力管理提供更好的解決方案。通過(guò)對(duì)網(wǎng)絡(luò)、存儲(chǔ)、安全、管理等負(fù)載的卸載,釋放服務(wù)器運(yùn)行效率。此外,通過(guò)IoD的統(tǒng)一底座技術(shù),可以為云計(jì)算系統(tǒng)提供容器、虛擬機(jī)、裸金屬業(yè)務(wù)的統(tǒng)一調(diào)度和運(yùn)維管理能力,提升運(yùn)維管理效率。1.3.3高性能云計(jì)算的規(guī)格定義高性能網(wǎng)絡(luò)規(guī)格定義在高性能云計(jì)算底座中,高性能網(wǎng)絡(luò)需要滿足一系列嚴(yán)格的要求:1.帶寬(Throughput):高性能計(jì)算集群通常需要處理大量數(shù)據(jù)傳輸,因此網(wǎng)絡(luò)必須 1.3IaaSonDPU(IoD)算力底座技術(shù)路線AllRightsReserved11提供極高的帶寬,以確保數(shù)據(jù)可以在節(jié)點(diǎn)間快速流動(dòng),減少傳輸瓶頸。例如,在科學(xué)計(jì)算、大數(shù)據(jù)處理、深度學(xué)習(xí)訓(xùn)練等場(chǎng)景中,數(shù)據(jù)集可能達(dá)到PB級(jí)別,要求網(wǎng)絡(luò)帶寬至少達(dá)到百GB甚至更高。2.延遲(Latency):對(duì)于需要頻繁通信和數(shù)據(jù)交換的應(yīng)用,網(wǎng)絡(luò)延遲需要控制在微秒級(jí)甚至納秒級(jí),以保證系統(tǒng)的響應(yīng)速度和實(shí)時(shí)性。3.并發(fā)連接(Concurrency):在高負(fù)載和大規(guī)模分布式環(huán)境中,單節(jié)點(diǎn)需要同時(shí)處理成數(shù)萬(wàn)并發(fā)連接,確保每個(gè)連接都能得到及時(shí)響應(yīng)。4.網(wǎng)絡(luò)服務(wù)質(zhì)量(QoS):不同類(lèi)型的數(shù)據(jù)流和服務(wù)對(duì)網(wǎng)絡(luò)資源的需求和優(yōu)先級(jí)不同,QoS功能允許網(wǎng)絡(luò)管理員根據(jù)服務(wù)類(lèi)型動(dòng)態(tài)分配帶寬和其他資源,確保關(guān)鍵應(yīng)用的性能不受非關(guān)鍵流量的影響。5.冗余:(Redundancy)高性能網(wǎng)絡(luò)應(yīng)具備高度的彈性和冗余設(shè)計(jì),即使部分組件出現(xiàn)故障,也能保持網(wǎng)絡(luò)的連通性和穩(wěn)定性。這意味著網(wǎng)絡(luò)需要有多條路徑和備份鏈路,以及自動(dòng)故障檢測(cè)和恢復(fù)機(jī)制。6.可管理性(Manageability):網(wǎng)絡(luò)應(yīng)易于管理和監(jiān)控,提供詳細(xì)的性能指標(biāo)和日志記錄,幫助運(yùn)維人員及時(shí)發(fā)現(xiàn)和解決問(wèn)題。高性能存儲(chǔ)規(guī)格定義在云計(jì)算場(chǎng)景下,存儲(chǔ)處理性能直接影響著系統(tǒng)的整體性能和用戶體驗(yàn),高性能存儲(chǔ)對(duì)于處理性能的規(guī)格定義通常包括以下關(guān)鍵指標(biāo)和參數(shù):1.吞吐量(Throughput吞吐量是指存儲(chǔ)系統(tǒng)能夠處理的數(shù)據(jù)量或信息流量。高性能存儲(chǔ)目前主流性能在100-400Gb/s,根據(jù)云規(guī)模的不同略有浮動(dòng)。2.IOPS(Input/OutputOperationsPerSecondIOPS是指存儲(chǔ)系統(tǒng)每秒鐘可以執(zhí)行的輸入/輸出操作次數(shù)。高性能存儲(chǔ)后端需要提供至少千萬(wàn)級(jí)的總IOPS數(shù)據(jù)處理能力,特定場(chǎng)景如AIGC應(yīng)用中,單個(gè)存儲(chǔ)前端也需要百萬(wàn)級(jí)的單磁盤(pán)IOPS能力。3.延遲(Latency存儲(chǔ)系統(tǒng)的延遲是指數(shù)據(jù)請(qǐng)求從發(fā)起到完成所需的時(shí)間。考慮到存儲(chǔ)系統(tǒng)的額外延遲開(kāi)銷(xiāo),高性能云計(jì)算的延遲總體開(kāi)銷(xiāo)應(yīng)控制在亞毫秒級(jí)(即4.容量(Capacity存儲(chǔ)系統(tǒng)的容量指的是其可以存儲(chǔ)的數(shù)據(jù)量。在高性能存儲(chǔ)方案中,存儲(chǔ)容量可以達(dá)到EB級(jí)。5.魯棒性(Robustness高性能存儲(chǔ)系統(tǒng)需要具備高可靠性和高可用性,以確保數(shù)據(jù)的安全性和持續(xù)性。這包括數(shù)據(jù)冗余、故障恢復(fù)能力、備份與恢復(fù)機(jī)制等。 1.3IaaSonDPU(IoD)算力底座技術(shù)路線AllRightsReserved126.數(shù)據(jù)保護(hù)(Security高性能存儲(chǔ)系統(tǒng)需要提供有效的數(shù)據(jù)保護(hù)機(jī)制,包括數(shù)據(jù)加密、訪問(wèn)控制、數(shù)據(jù)備份等,以確保數(shù)據(jù)的安全性和完整性。7.擴(kuò)展性(Extendibility高性能存儲(chǔ)系統(tǒng)應(yīng)具備良好的擴(kuò)展性,能夠根據(jù)需求靈活擴(kuò)展存儲(chǔ)容量和性能,以適應(yīng)不斷增長(zhǎng)的數(shù)據(jù)需求。Object、iSCSI、FC、NVMe-oF等,以滿足不同應(yīng)用場(chǎng)景的需求。高性能安全規(guī)格定義對(duì)于高性能云計(jì)算場(chǎng)景,傳統(tǒng)安全設(shè)備通常部署在網(wǎng)絡(luò)邊界處,無(wú)法部署在安全計(jì)算環(huán)境中,而傳統(tǒng)網(wǎng)絡(luò)安全軟件無(wú)論是防火墻、VPN、IPS等產(chǎn)品都非常消耗服務(wù)器主機(jī)算力資源,這將嚴(yán)重影響服務(wù)器所承載業(yè)務(wù)應(yīng)用的客戶體驗(yàn),也是當(dāng)前計(jì)算環(huán)境的安全防護(hù)比較薄弱的一個(gè)重要原因。1.算力損耗(Loss-rate不因開(kāi)啟網(wǎng)絡(luò)安全功能而導(dǎo)致處理高性能網(wǎng)絡(luò)處理性能明均算力占用率不超過(guò)5%。2.吞吐量(Throughput吞吐量是在各種幀長(zhǎng)的滿負(fù)載雙向發(fā)送和接收數(shù)據(jù)包而沒(méi)有丟失情況下的最大數(shù)據(jù)傳輸速率,開(kāi)啟安全功能后,安全吞吐量可能為正常情況的70-90%。3.延時(shí)(Latency開(kāi)啟安全功能后,網(wǎng)絡(luò)延時(shí)需要控制在微秒級(jí)。4.會(huì)話數(shù)量(Numberofsession最大會(huì)話數(shù)量指基于防火墻所能順利建立和保持的最大并發(fā)TCP/UDP會(huì)話數(shù),對(duì)于高性能網(wǎng)絡(luò),最大會(huì)話數(shù)量至少為千萬(wàn)級(jí)。5.每秒新建連接數(shù)(ConnectionPerSecond,CPS每秒新建連接數(shù)指一秒以內(nèi)所能建立及保持的TCP/UDP新建連接請(qǐng)求的數(shù)量,每秒新建連接數(shù)通常需要幾十萬(wàn)6.誤報(bào)率(Falsealarmrate誤報(bào)率是指某種類(lèi)型的網(wǎng)絡(luò)業(yè)務(wù)流量被誤識(shí)別為其它類(lèi)型網(wǎng)絡(luò)業(yè)務(wù)流量在所有被測(cè)試網(wǎng)絡(luò)業(yè)務(wù)流量樣本中的占比,此指標(biāo)需要接近于0%。7.漏判率(Missrate漏判率是指網(wǎng)絡(luò)業(yè)務(wù)流量中預(yù)期應(yīng)該被識(shí)別出來(lái)的業(yè)務(wù)類(lèi)型沒(méi)有識(shí)別到的網(wǎng)絡(luò)業(yè)務(wù)流量占總網(wǎng)絡(luò)業(yè)務(wù)流量樣本的百分比,此指標(biāo)接近于0%。8.識(shí)別準(zhǔn)確率(Identificationaccuracy識(shí)別準(zhǔn)確率是指測(cè)試用的網(wǎng)絡(luò)業(yè)務(wù)流量樣本中被準(zhǔn)確識(shí)別的比例。此指標(biāo)識(shí)別準(zhǔn)確率接近100%,至少要求在95%以上。 1.4IoD高性能云計(jì)算應(yīng)用范式AllRightsReserved139.隧道會(huì)話數(shù)(NumberofIPSectunnels最大IPSec隧道會(huì)話數(shù)量指IPSec隧道會(huì)話所能順利建立和保持的最大并發(fā)會(huì)話數(shù),IPSec隧道會(huì)話數(shù)量至少為數(shù)萬(wàn)級(jí)到數(shù)十萬(wàn)級(jí)。10.每秒新建IPSec會(huì)話數(shù)(IPsecConnectionPerSecond每秒新建連接數(shù)指一秒以內(nèi)IPSec所能建立及保持的IPSec隧道會(huì)話的數(shù)量,至少要求在幾千或數(shù)萬(wàn)級(jí)。1.4IoD高性能云計(jì)算應(yīng)用范式公有云服務(wù)是最典型的云計(jì)算應(yīng)用場(chǎng)景,通過(guò)互聯(lián)網(wǎng)將算力以按需使用、按量付費(fèi)的形式提供給用戶,包括:計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、數(shù)據(jù)庫(kù)、大數(shù)據(jù)計(jì)算、大模型等算力形基礎(chǔ)設(shè)施能力的提升會(huì)為公有云服務(wù)商帶來(lái)很多優(yōu)勢(shì):拓展用戶寬度:云計(jì)算服務(wù)的性能是對(duì)部分客戶至關(guān)重要,云計(jì)算服務(wù)的網(wǎng)絡(luò)帶寬、存儲(chǔ)性能、響應(yīng)時(shí)間等往往成為客戶是否選擇一家云廠商的關(guān)鍵因素,因此更高的性能有助于云計(jì)算廠商有效的拓展用戶寬度。降低客戶成本:更高的性能意味著云計(jì)算客戶可以用更短的時(shí)間完成任務(wù),直接關(guān)系到客戶的使用成本,高性能云計(jì)算平臺(tái)可以幫助云服務(wù)商在價(jià)格競(jìng)爭(zhēng)中取得極致資源利用:通過(guò)卸載技術(shù)降低CPU負(fù)荷意味著相同集群規(guī)??梢蕴峁└嗟目墒圪u(mài)資源,因此高性能云底座將直接關(guān)系到云服務(wù)商的生產(chǎn)能力。提升ROI:IoD技術(shù)不僅僅可以提升算力資源池的服務(wù)性能,在網(wǎng)絡(luò)資源池、安全資源池與存儲(chǔ)后端等領(lǐng)域也可以通過(guò)性能提升為云服務(wù)商帶來(lái)更高的經(jīng)濟(jì)效益。整體看來(lái),部分公有云廠商在選定技術(shù)路線后會(huì)采用自研DPU的方式來(lái)獲得更高的業(yè)務(wù)定制性,但芯片研發(fā)的巨額資金投入也帶來(lái)了巨大的不確定性。其余大部分云服務(wù)廠商會(huì)選擇引入硬件供應(yīng)商的設(shè)備來(lái)構(gòu)筑自己的技術(shù)體系,此時(shí)DPU設(shè)備的規(guī)范性、可定制能力以及服務(wù)支持能力將成為至關(guān)重要的因素。 1.4IoD高性能云計(jì)算應(yīng)用范式AllRightsReserved14私有云是僅為單一組織或企業(yè)專(zhuān)用的一種云計(jì)算環(huán)境,相對(duì)于公有云,它提供了更高的控制權(quán)、隱私性和定制化能力。私有云一般部署在企業(yè)內(nèi)部的自有數(shù)據(jù)中心(本地私有云也可以托管在第三方服務(wù)提供商的數(shù)據(jù)中心(托管私有云)。由于其承載的業(yè)務(wù)范圍相對(duì)固定,因此除了個(gè)別應(yīng)用類(lèi)型為,私有云對(duì)性能的需求往往聚焦在某個(gè)方向,并不像公有云需要全方位的性能提升。但是,私有云的應(yīng)用對(duì)于運(yùn)維隔離、安全管控等需求更為強(qiáng)烈,IoD技術(shù)也將為私有云帶來(lái)諸多好處:運(yùn)維隔離:通過(guò)IoD技術(shù),云平臺(tái)的基礎(chǔ)設(shè)施層與業(yè)務(wù)運(yùn)行環(huán)境做到了最大限度的隔離,并且各種基礎(chǔ)設(shè)施能力僅通過(guò)虛擬設(shè)備形式對(duì)業(yè)務(wù)系統(tǒng)呈現(xiàn),最大限度的完成了運(yùn)維與業(yè)務(wù)的解耦部署。高安全性:借助DPU的能力,可以更好的實(shí)施“分布式防火墻”與“零信任”網(wǎng)絡(luò)方案,并且通過(guò)DPU參與到數(shù)據(jù)收發(fā)路徑的方式,能夠更方便的實(shí)現(xiàn)集群業(yè)務(wù)性能提升:通過(guò)定向的性能提升,能夠幫助私有云延續(xù)老式設(shè)備的服役周期,保護(hù)既有投資。節(jié)能減排:通過(guò)IoD技術(shù)提升集群整體性能,可以用更少的設(shè)備與能耗提供同等算力,幫助客戶實(shí)現(xiàn)節(jié)能減排的目標(biāo)。IoD技術(shù)對(duì)于私有云建設(shè)的優(yōu)勢(shì)非常明顯,但是目前在運(yùn)行的私有云改造確面臨著諸多問(wèn)題,涉及適配改造、業(yè)務(wù)遷移等方面,典型的建設(shè)方案有:1.新建集群并逐步完成業(yè)務(wù)遷移與IoD集群擴(kuò)容,此方案要求新建的IoD集群能夠與源集群較好的適配與互通,能夠?qū)崿F(xiàn)安全方案的平滑遷移以及能夠共享存儲(chǔ)系統(tǒng)。此方法優(yōu)勢(shì)是遷移過(guò)程較平滑,但是整體項(xiàng)目實(shí)施周期可控性較低,遷移啟動(dòng)時(shí)無(wú)法充分驗(yàn)證系統(tǒng)對(duì)上層業(yè)務(wù)需求的支持情況。2.推動(dòng)當(dāng)前云平臺(tái)完成IoD業(yè)務(wù)改造并確保同一平臺(tái)同時(shí)支持DPU服務(wù)器與非DPU服務(wù)器同時(shí)存在的情況。此方案的優(yōu)勢(shì)是可以保持云平臺(tái)的一致性,在前期業(yè)務(wù)改造與論證階段完成盡可能多的業(yè)務(wù)驗(yàn)證,完成平臺(tái)改造后的遷移風(fēng)險(xiǎn)較小,但是存在前期資源投入大的缺點(diǎn)。 1.4IoD高性能云計(jì)算應(yīng)用范式AllRightsReserved15邊緣云是將計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)資源部署在靠近用戶、設(shè)備或數(shù)據(jù)源的位置,以提供低延遲、高帶寬和實(shí)時(shí)處理能力的云計(jì)算服務(wù)。這些資源通常位于電信基站、商業(yè)園區(qū)、區(qū)域數(shù)據(jù)中心或本地服務(wù)器等邊緣設(shè)備上。具有規(guī)模小,部署環(huán)境受限等特點(diǎn),優(yōu)勢(shì)是能夠減少數(shù)據(jù)傳輸?shù)难舆t,提高響應(yīng)速度,優(yōu)化帶寬使用,增強(qiáng)數(shù)據(jù)隱私和安全性。IoD技術(shù)對(duì)于邊緣云的發(fā)展來(lái)說(shuō)也具有重大意義:空間節(jié)約:由于邊緣云的部署方式往往受空間限制較大,集群規(guī)模很小,因此借助IoD技術(shù),不僅可以將工作節(jié)點(diǎn)組件部署在DPU上,還可以將云平臺(tái)管理組件也運(yùn)行在DPU中,進(jìn)一步減少邊緣集群服務(wù)器數(shù)量,實(shí)現(xiàn)對(duì)物理空間的節(jié)約。定制性強(qiáng):邊緣云部署的業(yè)務(wù)往往具有很強(qiáng)的定制性,借助DPU的高度可編程特性,可以對(duì)實(shí)現(xiàn)對(duì)特定類(lèi)業(yè)務(wù)的優(yōu)化處理。例如5GMEC系統(tǒng)可以借助DPU實(shí)現(xiàn)更高的UPF數(shù)據(jù)轉(zhuǎn)發(fā)性能與SD-WAN接入能力,視頻監(jiān)控邊緣云系統(tǒng)中可以實(shí)現(xiàn)視頻數(shù)據(jù)包的預(yù)處理等。性能提升:DPU的網(wǎng)絡(luò)與存儲(chǔ)卸載能力對(duì)邊緣云性能提升大有幫助,同時(shí)大量邊緣部署的應(yīng)用對(duì)系統(tǒng)時(shí)延較為敏感,DPU系統(tǒng)的低時(shí)延能力也可以幫助邊緣云系統(tǒng)應(yīng)對(duì)更多的業(yè)務(wù)挑戰(zhàn)。當(dāng)前還處于邊緣云業(yè)務(wù)大規(guī)模部署的初期階段,此時(shí)正是邊緣云技術(shù)體系引入DPU應(yīng)用的最佳時(shí)機(jī),但是同樣面臨的最大挑戰(zhàn)是需要DPU系統(tǒng)對(duì)不同邊緣云應(yīng)用需求的優(yōu)化與增強(qiáng),對(duì)DPU的可編程能力與服務(wù)廠商的定制研發(fā)支撐能力具有很強(qiáng)的要求。智算云平臺(tái)可以為大模型、生成式AI提供IaaS、PaaS、SaaS等多個(gè)層面的云服務(wù),同時(shí)滿足AI訓(xùn)練和推理服務(wù)兩種業(yè)務(wù)需求。智算云可以以公有云或私有云等各種形式呈現(xiàn),但由于其專(zhuān)門(mén)為AI/HPC應(yīng)用設(shè)計(jì),在整體架構(gòu)上有自己的獨(dú)到之處,總體架構(gòu)如圖1.6所示:基礎(chǔ)設(shè)施層多采用CPU+DPU+GPU3U一體異構(gòu)算力架構(gòu),提供通用算力和智算算力,滿足多種算力需求。其中CPU多采用X86和ARM兩種處理器架構(gòu),LoongArch,Alpha等架構(gòu)也逐漸開(kāi)始進(jìn)入智算算力視野。GPU的引入可以良好的支持人工智能的推理和訓(xùn)練業(yè)務(wù),滿足智算業(yè)務(wù)通用性需求。網(wǎng)絡(luò)層硬件采用DPU系列產(chǎn)品,通過(guò)將智算的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、安全、管理等卸載到DPU硬件層處理,實(shí)現(xiàn)在超高帶寬、超 1.4IoD高性能云計(jì)算應(yīng)用范式AllRightsReserved16圖1.6:智算云架構(gòu)圖低延遲的網(wǎng)絡(luò)環(huán)境中發(fā)揮極致效能,同時(shí)DPU為多租戶智算云業(yè)務(wù)提供安全隔離保護(hù),良好地支撐了AI人工智能的GDR和GDS場(chǎng)景下的推理和訓(xùn)練業(yè)務(wù),保證了智算云平臺(tái)所有業(yè)務(wù)及數(shù)據(jù)安全、穩(wěn)定、可靠的運(yùn)行。云資源服務(wù)層提供裸金屬服務(wù)器、虛擬機(jī)、容器、服務(wù)網(wǎng)格等各類(lèi)智算云平臺(tái)資源服務(wù),大多采用Kubernetes的云原生容器化應(yīng)用全生命周期管理,提供高擴(kuò)展、高性能容器應(yīng)用管理服務(wù)。采用IoD技術(shù)可以將容器的基礎(chǔ)網(wǎng)絡(luò)與存儲(chǔ)等能力卸載到DPU硬件上,實(shí)現(xiàn)了超高性能的容器云業(yè)務(wù)環(huán)境。調(diào)度管理層提供彈性靈活的云原生資源管理和調(diào)度能力,IoD技術(shù)可以為云原生智算資源管理和調(diào)度平臺(tái)提供GPU池化和對(duì)容器、虛擬機(jī)、裸機(jī)的統(tǒng)一管理調(diào)度能力,配合AI調(diào)度管理平臺(tái),實(shí)現(xiàn)DPU、GPU、CPU資源和裸金屬、虛擬機(jī)、容器等各類(lèi)云服務(wù)的智能負(fù)載調(diào)用,為智算各個(gè)業(yè)務(wù)場(chǎng)景合理調(diào)度、分配資源,實(shí)現(xiàn)資源最大化利用和靈活調(diào)度。開(kāi)發(fā)平臺(tái)層為各類(lèi)AI業(yè)務(wù)應(yīng)用提供開(kāi)發(fā)框架、預(yù)訓(xùn)練框架、訓(xùn)練框架、推理引擎等基礎(chǔ)服務(wù)。AI應(yīng)用層是指智算云平臺(tái)上承載的各種智算應(yīng)用服務(wù)。隨著技術(shù)升級(jí)和業(yè)務(wù)創(chuàng)新,眾多行業(yè)對(duì)網(wǎng)絡(luò)時(shí)延也提出了更高的要求,越來(lái)越多的行業(yè)對(duì)時(shí)延要求從毫秒下降到微秒,比如證券領(lǐng)域的極速交易場(chǎng)景對(duì)時(shí)延要求下探到 1.4IoD高性能云計(jì)算應(yīng)用范式AllRightsReserved17亞微秒級(jí),工業(yè)控制協(xié)議中約15%核心生產(chǎn)環(huán)節(jié)要求時(shí)延不高于1ms,自動(dòng)駕駛場(chǎng)景下遠(yuǎn)程取消操作的要求時(shí)延不高于3ms。更低的時(shí)延,在產(chǎn)業(yè)中,意味著更高的收益、更高的精度、更高的安全性。因此,各個(gè)行業(yè)對(duì)于時(shí)延性能的追求和探索永無(wú)止境。由于傳統(tǒng)云平臺(tái)時(shí)延性能不能滿足核心交易等時(shí)延敏感業(yè)務(wù)要求,因此現(xiàn)階段,金融領(lǐng)域使用的低時(shí)延網(wǎng)絡(luò)和服務(wù)器,普遍使用裸金屬部署,存在諸多痛點(diǎn),包括物理資源容量受限、資源使用成本高、交付效率難以滿足業(yè)務(wù)調(diào)整、虛擬化帶來(lái)的時(shí)延損耗大。低時(shí)延云平臺(tái)是構(gòu)建在超低時(shí)延網(wǎng)絡(luò)服務(wù)器集群上,集成了超低時(shí)延技術(shù),具備超低時(shí)延、自主可控、業(yè)務(wù)深度調(diào)優(yōu)、高性能異構(gòu)加速等核心特性,為金融極速交易、人工智能、工業(yè)控制、邊緣計(jì)算等時(shí)延敏感場(chǎng)景提供超低時(shí)延的云計(jì)算服務(wù)。通過(guò)IoD技術(shù)體系的異構(gòu)算力管理能力,將低時(shí)延傳輸能力納入云平臺(tái)管理與調(diào)度,可以更好的支撐低時(shí)延云場(chǎng)景的業(yè)務(wù)需求。當(dāng)前主流云計(jì)算體系結(jié)構(gòu)是一個(gè)多層次、高度集成的架構(gòu),旨在提供彈性的資源分配、自動(dòng)化管理以及豐富的服務(wù)選項(xiàng)。這一架構(gòu)通常可以從四個(gè)核心層面來(lái)描述:硬件部分、基礎(chǔ)軟件、云管平臺(tái)(云管理平臺(tái))以及業(yè)務(wù)服務(wù)。下面是對(duì)這四個(gè)方面的詳細(xì)2.1.1硬件部分硬件部分構(gòu)成了云計(jì)算的物理基礎(chǔ),包括服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)設(shè)備(交換機(jī)、路由器等)以及可能的專(zhuān)用硬件(如GPU服務(wù)器、FPGA加速器等)。在現(xiàn)代云計(jì)算數(shù)據(jù)中心中,服務(wù)器通常采用高性能、高密度的設(shè)計(jì),支持大規(guī)模橫高密度服務(wù)器:為了提高數(shù)據(jù)中心的空間利用率,現(xiàn)代云數(shù)據(jù)中心傾向于使用高密度服務(wù)器,如刀片服務(wù)器,它們能在有限的空間內(nèi)提供更多的計(jì)算能力。異構(gòu)計(jì)算:除了傳統(tǒng)的CPU服務(wù)器,云計(jì)算平臺(tái)還會(huì)部署GPU服務(wù)器、FPGA服務(wù)器和TPU(針對(duì)特定工作負(fù)載,如機(jī)器學(xué)習(xí)、圖形渲染和高性能計(jì)算)來(lái)提升特定應(yīng)用的處理效率。存儲(chǔ)設(shè)備涉及分布式存儲(chǔ)系統(tǒng),以提供高可用性和數(shù)據(jù)冗余。分布式存儲(chǔ)系統(tǒng):如Ceph、GlusterFS、HDFS,通過(guò)多副本、糾刪碼等機(jī)制確保數(shù)據(jù)的高可用性和容錯(cuò)性。全閃存陣列:為了提升I/O性能,越來(lái)越多的云服務(wù)采用全閃存存儲(chǔ)解決方案,提供低延遲、高吞吐的存儲(chǔ)服務(wù)。網(wǎng)絡(luò)方面,SDN(Software-DefinedNetworking,軟件定義網(wǎng)絡(luò))技術(shù)被廣泛應(yīng)用,實(shí)現(xiàn)網(wǎng)絡(luò)資源的靈活配置和管理。SDN(軟件定義網(wǎng)絡(luò)):通過(guò)分離控制平面和數(shù)據(jù)平面,實(shí)現(xiàn)網(wǎng)絡(luò)資源的靈活配置和自動(dòng)化管理,如OpenFlow協(xié)議和控制器如OpenDaylight。):軟件形態(tài),運(yùn)行在通用服務(wù)器上,提高靈活性和可擴(kuò)展性。 2.1當(dāng)前主流云計(jì)算體系結(jié)構(gòu)AllRightsReserved192.1.2基礎(chǔ)軟件容器技術(shù)(如Docker)、以及分布式系統(tǒng)基礎(chǔ)組件(如分布式文件系統(tǒng)、數(shù)據(jù)庫(kù)、消息隊(duì)列等)。虛擬化技術(shù)允許在單個(gè)物理服務(wù)器上運(yùn)行多個(gè)虛擬機(jī),提高硬件資源的利用率。容器技術(shù)則進(jìn)一步提升了資源利用效率和應(yīng)用部署的靈活性。此外,微服務(wù)架構(gòu)和無(wú)服務(wù)器計(jì)算(ServerlessComputing)也是現(xiàn)代云基礎(chǔ)軟件的重要組成部分,它們促進(jìn)了服務(wù)的快速開(kāi)發(fā)和部署。1.操作系統(tǒng)輕量化OS:針對(duì)云環(huán)境優(yōu)化的輕量級(jí)操作系統(tǒng),如CoreOS、ContainerOS,減少不必要的服務(wù),更適合容器運(yùn)行環(huán)境。容器運(yùn)行時(shí):Docker、rkt等,提供容器的創(chuàng)建、運(yùn)行、管理和鏡像分發(fā)能力。2.虛擬化技術(shù)近物理機(jī)的性能。Type2Hypervisor:運(yùn)行在操作系統(tǒng)之上的虛擬化層,如VirtualBox、VMwareWorkstation,更適合桌面虛擬化和開(kāi)發(fā)測(cè)試環(huán)境。3.分布式系統(tǒng)基礎(chǔ)組件分布式數(shù)據(jù)庫(kù):如Cassandra、MongoDB,設(shè)計(jì)用于處理大規(guī)模數(shù)據(jù)集,提供高可用性和水平擴(kuò)展性。消息隊(duì)列:如Kafka、RabbitMQ,用于解耦服務(wù)、異步處理和高并發(fā)處理。2.1.3云管平臺(tái)及服務(wù)交付。這一層常見(jiàn)的平臺(tái)包括OpenStack、AWSCloudFormation、AzureResourceManager、GoogleCloudConsole等。云管平臺(tái)提供了一個(gè)統(tǒng)一的界面或API,使得用戶可以輕松創(chuàng)建、配置、監(jiān)控和銷(xiāo)毀各種云資源,如虛擬機(jī)、容器、數(shù)據(jù)庫(kù)實(shí)例、負(fù)載均用性和經(jīng)濟(jì)性。1.資源調(diào)度與編排Kubernetes:目前最流行的容器編排平臺(tái),負(fù)責(zé)容器應(yīng)用的部署、擴(kuò)展、維護(hù)。 2.2計(jì)算業(yè)務(wù)分析AllRightsReserved20OpenStack:開(kāi)源云平臺(tái)軟件,提供IaaS服務(wù),包括計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源2.監(jiān)控與日志管理 Prometheus+Grafana:Prometheus負(fù)責(zé)收集指標(biāo),Grafana用于數(shù)據(jù)可視化,共同實(shí)現(xiàn)全面的監(jiān)控。ELKStack:Elasticsearch、Logstash、Kibana組成的日志分析平臺(tái),用于日志收集、分析、展示。3.安全與合規(guī)IAM(IdentityandAccessManagement管理用戶身份和權(quán)限,確保只有授權(quán)用戶能訪問(wèn)相應(yīng)資源。安全組與網(wǎng)絡(luò)ACL:提供網(wǎng)絡(luò)層面的安全控制,限制進(jìn)出流量,增強(qiáng)云環(huán)境2.1.4業(yè)務(wù)服務(wù)業(yè)務(wù)服務(wù)層直接面向最終用戶或開(kāi)發(fā)者,提供一系列可直接消費(fèi)的云服務(wù),包括但存儲(chǔ)服務(wù):對(duì)象存儲(chǔ)(S3,AzureBlobStorage)、塊存儲(chǔ)、文件存儲(chǔ)等。數(shù)據(jù)庫(kù)服務(wù):關(guān)系型數(shù)據(jù)庫(kù)服務(wù)(RDS)、NoSQL數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)等。網(wǎng)絡(luò)服務(wù):VPC、EIP、VPN、負(fù)載均衡、CDN、DNS管理等。安全服務(wù):身份與訪問(wèn)管理(IAM)、防火墻、安全組、數(shù)據(jù)加密服務(wù)等。開(kāi)發(fā)者服務(wù):持續(xù)集成/持續(xù)部署(CI/CD)、API網(wǎng)關(guān)、消息隊(duì)列等。數(shù)據(jù)分析與AI服務(wù):大數(shù)據(jù)處理、機(jī)器學(xué)習(xí)平臺(tái)、數(shù)據(jù)湖等。這些服務(wù)旨在降低企業(yè)構(gòu)建和運(yùn)行應(yīng)用程序的技術(shù)門(mén)檻,加速產(chǎn)品上市時(shí)間,同時(shí)提供按需付費(fèi)的靈活性,幫助企業(yè)根據(jù)實(shí)際需求動(dòng)態(tài)調(diào)整資源規(guī)模。云計(jì)算基礎(chǔ)設(shè)施的多樣化為不同規(guī)模和需求的企業(yè)提供了靈活的選擇,其中,裸金屬服務(wù)器、虛擬機(jī)、容器和GPU服務(wù)器作為四大核心服務(wù)形態(tài),各自擁有獨(dú)特的性能 2.2計(jì)算業(yè)務(wù)分析AllRightsReserved21特點(diǎn)和應(yīng)用場(chǎng)景,滿足了從基礎(chǔ)計(jì)算到高性能計(jì)算、從輕量級(jí)應(yīng)用到大規(guī)模數(shù)據(jù)處理的2.2.1裸金屬服務(wù)器性能特點(diǎn):極致性能與低延遲:裸金屬服務(wù)器直接運(yùn)行在物理硬件之上,消除了虛擬化層的開(kāi)銷(xiāo),提供了接近硬件極限的性能。這使得它們成為對(duì)計(jì)算性能和低延遲有極高要求應(yīng)用的理想選擇,如高頻交易系統(tǒng)、大規(guī)模數(shù)據(jù)庫(kù)和高性能計(jì)算(HPC)場(chǎng)資源獨(dú)享:與虛擬機(jī)不同,裸金屬服務(wù)器的資源(CPU、內(nèi)存、存儲(chǔ)、網(wǎng)絡(luò))完全為單一用戶所用,避免了資源競(jìng)爭(zhēng),確保了性能的穩(wěn)定性和可預(yù)測(cè)性,適合對(duì)資源隔離性有嚴(yán)格要求的應(yīng)用。高度可定制與擴(kuò)展:用戶可以根據(jù)特定需求選擇和配置硬件,如特定型號(hào)的CPU、內(nèi)存大小、存儲(chǔ)類(lèi)型和網(wǎng)絡(luò)配置,以及添加GPU等特殊硬件,以滿足特定應(yīng)用的衡量指標(biāo):1.CPU基準(zhǔn)測(cè)試:使用SPECCPUBenchmarkSuite等工具評(píng)估處理器的整數(shù)和浮點(diǎn)運(yùn)算性能。2.內(nèi)存帶寬測(cè)試:通過(guò)StreamBenchmark測(cè)試內(nèi)存讀寫(xiě)速度,反映大塊數(shù)據(jù)操作的3.存儲(chǔ)I/O性能:使用fio工具測(cè)量磁盤(pán)讀寫(xiě)速度和IOPS(每秒輸入輸出操作),評(píng)估存儲(chǔ)系統(tǒng)的響應(yīng)能力。4.網(wǎng)絡(luò)吞吐與延遲:使用iperf或netperf工具測(cè)試網(wǎng)絡(luò)接口的最大吞吐量和數(shù)據(jù)包往返時(shí)間。2.2.2虛擬機(jī)性能特點(diǎn):資源靈活分配與管理:虛擬機(jī)能夠在一臺(tái)物理服務(wù)器上創(chuàng)建多個(gè)獨(dú)立的運(yùn)行環(huán)境,每個(gè)環(huán)境都擁有自己的操作系統(tǒng)、內(nèi)存、CPU份額和存儲(chǔ)。這使得資源的分配和回收變得非常靈活,適合快速開(kāi)發(fā)和測(cè)試環(huán)境的搭建。 2.2計(jì)算業(yè)務(wù)分析AllRightsReserved22隔離與安全性:雖然不如裸金屬服務(wù)器,但虛擬化層提供了基本的隔離能力,防止一個(gè)虛擬機(jī)的崩潰或攻擊影響到其他虛擬機(jī),提升了整體環(huán)境的安全性。遷移與災(zāi)備:虛擬機(jī)易于遷移和備份,為業(yè)務(wù)連續(xù)性和災(zāi)難恢復(fù)提供了便利。衡量指標(biāo):1.虛擬化開(kāi)銷(xiāo)評(píng)估:比較虛擬機(jī)與裸金屬服務(wù)器在相同工作負(fù)載下的資源使用和執(zhí)行時(shí)間,評(píng)估虛擬化層引入的性能損耗。2.資源調(diào)度效率:觀察CPU的爭(zhēng)用率、內(nèi)存頁(yè)交換頻率,以及在資源緊張時(shí)的性能3.熱遷移能力:測(cè)試虛擬機(jī)在不同物理主機(jī)間遷移的速度和業(yè)務(wù)中斷時(shí)間,評(píng)估云平臺(tái)的靈活性。4.動(dòng)態(tài)資源調(diào)整響應(yīng):測(cè)量增加或減少vCPU、內(nèi)存資源時(shí),虛擬機(jī)性能的變化情2.2.3容器性能特點(diǎn):輕量級(jí)與快速啟動(dòng):容器共享宿主機(jī)的操作系統(tǒng)內(nèi)核,無(wú)需額外的操作系統(tǒng)層,啟動(dòng)速度極快,資源占用小,適合快速部署和擴(kuò)展微服務(wù)架構(gòu)。高度可移植性:容器鏡像標(biāo)準(zhǔn)化,便于跨平臺(tái)、跨環(huán)境部署,提高了開(kāi)發(fā)到生產(chǎn)的效率和一致性。資源利用率高:相比于虛擬機(jī),容器在資源使用上更為高效,能夠支持更密集的部署,降低資源成本。衡量指標(biāo):1.啟動(dòng)時(shí)間:容器從創(chuàng)建到就緒的平均時(shí)間,反映容器的快速響應(yīng)能力。2.資源利用率:比較容器與虛擬機(jī)在同一工作負(fù)載下的CPU、內(nèi)存使用效率。3.網(wǎng)絡(luò)性能:容器網(wǎng)絡(luò)模型(如Dockerbridge、KubernetesCNI)的吞吐量和延遲,影響服務(wù)間的通信效率。4.隔離與安全性:通過(guò)cgroups和namespace等機(jī)制評(píng)估容器間的隔離程度和安全風(fēng)2.2.4GPU服務(wù)器性能特點(diǎn): 2.3網(wǎng)絡(luò)業(yè)務(wù)分析AllRightsReserved23并行計(jì)算加速:GPU(圖形處理器)擁有數(shù)千個(gè)核心,特別適合執(zhí)行高度并行的任務(wù),如深度學(xué)習(xí)訓(xùn)練、大規(guī)模數(shù)據(jù)分析、科學(xué)計(jì)算和3D渲染,相比CPU能顯著縮短計(jì)算時(shí)間。高帶寬顯存:GPU配備有高帶寬內(nèi)存(如HBM2、GDDR適合處理大規(guī)模數(shù)據(jù)集,減少內(nèi)存訪問(wèn)瓶頸。能效比:在處理特定類(lèi)型的工作負(fù)載時(shí),GPU相比CPU展現(xiàn)出更高的能源效率,有利于降低長(zhǎng)期運(yùn)營(yíng)成本。衡量指標(biāo):1.浮點(diǎn)運(yùn)算性能:通過(guò)FP32、FP16、INT8等不同精度的TensorFLOPS(TFLOPS)衡量GPU的計(jì)算能力。2.顯存帶寬:衡量GPU內(nèi)存的數(shù)據(jù)傳輸速度,對(duì)處理大型數(shù)據(jù)集至關(guān)重要。3.并行處理效率:以深度學(xué)習(xí)為例,測(cè)量每秒處理圖像數(shù)量(ImagesPerSecond,IPS)或模型訓(xùn)練時(shí)間,評(píng)估GPU加速效果。4.功耗與散熱:考慮GPU服務(wù)器在高負(fù)載下的能源消耗和散熱需求,評(píng)估其在數(shù)據(jù)2.2.5應(yīng)用場(chǎng)景與選擇策略在實(shí)際應(yīng)用中,往往會(huì)根據(jù)業(yè)務(wù)特點(diǎn)選擇使用不同的云計(jì)算服務(wù):裸金屬服務(wù)器:適合對(duì)性能和安全性有極端要求的場(chǎng)景,如核心數(shù)據(jù)庫(kù)、大規(guī)模數(shù)據(jù)分析、金融交易系統(tǒng)、高性能計(jì)算等。虛擬機(jī):適合需要靈活資源分配、快速部署和低成本試錯(cuò)的場(chǎng)景,如開(kāi)發(fā)測(cè)試環(huán)境、網(wǎng)站托管、輕量級(jí)應(yīng)用部署。容器:適合微服務(wù)架構(gòu)、持續(xù)集成/持續(xù)部署(CI/CD)流程、快速迭代的軟件開(kāi)發(fā),以及需要快速擴(kuò)展和高密度部署的場(chǎng)景。GPU服務(wù)器:針對(duì)深度學(xué)習(xí)、科學(xué)計(jì)算、3D圖形渲染、大數(shù)據(jù)分析等高度并行計(jì)算需求,以及對(duì)計(jì)算效率和能效比有特殊要求的應(yīng)用。綜上所述,選擇合適的云服務(wù)形態(tài)需綜合考慮業(yè)務(wù)需求、性能要求、成本預(yù)算和運(yùn)服務(wù)將更加靈活、高效,更好地服務(wù)于多樣化的業(yè)務(wù)場(chǎng)景。 2.3網(wǎng)絡(luò)業(yè)務(wù)分析AllRightsReserved24隨著云計(jì)算的飛速發(fā)展,云計(jì)算網(wǎng)絡(luò)技術(shù)也在不斷演進(jìn),初始的傳統(tǒng)三層網(wǎng)絡(luò)逐步被更適合大二層網(wǎng)絡(luò)的Spine-Leaf架構(gòu)替代。經(jīng)典的大二層網(wǎng)絡(luò)經(jīng)歷設(shè)備虛擬化方案、L2overL3方案和Overlay方案后,現(xiàn)在已經(jīng)演進(jìn)為VPC(VirtualPrivateCloud)網(wǎng)絡(luò)。從核心技術(shù)來(lái)看,云計(jì)算網(wǎng)絡(luò)最看重對(duì)網(wǎng)絡(luò)編址和網(wǎng)絡(luò)性能的優(yōu)化,以滿足云計(jì)算對(duì)高性能和靈活性的要求,這其中SDN(SoftwareDefinedNetwork)發(fā)揮著至關(guān)重要的作用。SDN技術(shù)是對(duì)傳統(tǒng)網(wǎng)絡(luò)架構(gòu)的一次重構(gòu),其核心思想是通過(guò)控制面與數(shù)據(jù)面的分離,將網(wǎng)絡(luò)的管理權(quán)限交給控制層的控制器軟件,再通過(guò)南向協(xié)議通道,統(tǒng)一下達(dá)指令給數(shù)據(jù)轉(zhuǎn)發(fā)層設(shè)備,網(wǎng)絡(luò)控制與數(shù)據(jù)轉(zhuǎn)發(fā)的充分解耦,實(shí)現(xiàn)云計(jì)算網(wǎng)絡(luò)控制的集中化、自動(dòng)化和可編程性。SDN網(wǎng)絡(luò)架構(gòu)通常包含三個(gè)關(guān)鍵層次:應(yīng)用層:SDN的最上層,承載著云上各種網(wǎng)絡(luò)應(yīng)用和服務(wù),允許開(kāi)發(fā)人員根據(jù)具體業(yè)務(wù)需求創(chuàng)建自定義的網(wǎng)絡(luò)應(yīng)用程序。同時(shí)提供了與控制層交互的API接口,使得應(yīng)用能夠向SDN網(wǎng)絡(luò)發(fā)出指令、獲取網(wǎng)絡(luò)狀態(tài)信息以及實(shí)時(shí)調(diào)整網(wǎng)絡(luò)行為??刂茖樱篠DN的核心,包含SDNController,負(fù)責(zé)收集全局網(wǎng)絡(luò)視圖,將來(lái)自應(yīng)用層的需求轉(zhuǎn)化為具體的網(wǎng)絡(luò)配置指令,并將這些指令傳遞給底層的網(wǎng)絡(luò)設(shè)備。SDNController通過(guò)北向接口與應(yīng)用層通信,通過(guò)南向接口與基礎(chǔ)設(shè)施層通信,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)行為的集中控制?;A(chǔ)設(shè)施層:包含了網(wǎng)絡(luò)中的實(shí)際設(shè)備,如交換機(jī)、路由器等,這些設(shè)備既可以是物理設(shè)備,也可以是虛擬設(shè)備。基礎(chǔ)設(shè)施層負(fù)責(zé)執(zhí)行來(lái)自控制層的指令,將其翻譯為底層設(shè)備的配置,實(shí)現(xiàn)數(shù)據(jù)的實(shí)際傳輸和處理。云計(jì)算網(wǎng)絡(luò)重點(diǎn)實(shí)現(xiàn)SDN的控制層和基礎(chǔ)設(shè)施層,控制器、網(wǎng)關(guān)和虛擬交換機(jī)協(xié)同工作,構(gòu)成一個(gè)集成的云網(wǎng)絡(luò)系統(tǒng)。其中網(wǎng)關(guān)和虛擬交換機(jī)作為承載網(wǎng)絡(luò)傳輸?shù)幕A(chǔ)設(shè)施,其性能很大程度決定了整個(gè)云網(wǎng)絡(luò)的整體性能。值得特別指出的是網(wǎng)關(guān)作為連接不同網(wǎng)絡(luò)環(huán)境的關(guān)鍵組件,其功能和形態(tài)也經(jīng)歷了從基礎(chǔ)的數(shù)據(jù)轉(zhuǎn)發(fā)到軟件定義與高性能網(wǎng)關(guān)的轉(zhuǎn)變,以適應(yīng)云環(huán)境的復(fù)雜性和動(dòng)態(tài)性。在云網(wǎng)絡(luò)的早期階段,網(wǎng)關(guān)主要基于傳統(tǒng)的硬件設(shè)備,負(fù)責(zé)不同網(wǎng)絡(luò)之間的數(shù)據(jù)包轉(zhuǎn)發(fā)、協(xié)議轉(zhuǎn)換和安全控制。這些設(shè)備固定功能,配置復(fù)雜,且擴(kuò)展性和靈活性有限,難以適應(yīng)云計(jì)算環(huán)境的快速變化和動(dòng)態(tài)需求。隨著NFV(NetworkFunctionVirtualization)概念的提出,網(wǎng)關(guān)開(kāi)始向虛擬化方向發(fā)展。NFV允許將傳統(tǒng)網(wǎng)關(guān)的功能(如路由、防 2.4存儲(chǔ)業(yè)務(wù)分析AllRightsReserved25火墻、負(fù)載均衡等)以軟件的形式運(yùn)行在通用服務(wù)器上,從而提高了資源利用率、降低了硬件成本,并增強(qiáng)了靈活性和可擴(kuò)展性。第一代NFV網(wǎng)關(guān)雖然實(shí)現(xiàn)了功能的虛擬化,但在性能、可管理性和集成度上仍有待提升。SDN技術(shù)的引入,使得網(wǎng)絡(luò)控制層面與數(shù)據(jù)轉(zhuǎn)發(fā)層面分離,網(wǎng)關(guān)技術(shù)也隨之升級(jí)。SDN集成網(wǎng)關(guān)能夠與SDN控制器配合,實(shí)現(xiàn)網(wǎng)絡(luò)策略的集中控制和動(dòng)態(tài)配置,提高了網(wǎng)絡(luò)的自動(dòng)化水平和響應(yīng)速度。SDN網(wǎng)關(guān)不僅能夠執(zhí)行傳統(tǒng)網(wǎng)關(guān)的功能,還能動(dòng)態(tài)適應(yīng)網(wǎng)絡(luò)拓?fù)渥兓?,?yōu)化數(shù)據(jù)路徑,為云環(huán)境提供了更高的靈活性和可編程性。隨著網(wǎng)絡(luò)流量的持續(xù)增長(zhǎng),網(wǎng)絡(luò)數(shù)據(jù)包處理效率的問(wèn)題開(kāi)始凸顯,對(duì)應(yīng)的云計(jì)算網(wǎng)絡(luò)技術(shù)也在持續(xù)演進(jìn)。虛擬交換機(jī)經(jīng)過(guò)Linux內(nèi)核交換機(jī)、用戶態(tài)DPDK交換機(jī)階段,現(xiàn)在通過(guò)DPU、智能網(wǎng)卡等設(shè)備的硬件卸載能力,來(lái)進(jìn)一步提升虛擬交換能力。傳統(tǒng)虛擬交換機(jī)的大部分?jǐn)?shù)據(jù)包處理任務(wù)(如封包轉(zhuǎn)發(fā)、VLAN標(biāo)記/去標(biāo)記、流量控制等)依賴(lài)于主機(jī)CPU。隨著虛擬機(jī)數(shù)量的增長(zhǎng),網(wǎng)絡(luò)流量的增加,CPU負(fù)擔(dān)加重,成為性能瓶頸。DPU通過(guò)將這些網(wǎng)絡(luò)處理任務(wù)從CPU卸載到專(zhuān)門(mén)的硬件設(shè)備上,顯著減輕了CPU的壓力,提高了整體系統(tǒng)性能和效率。另外DPU等設(shè)備通常配備高性能的網(wǎng)絡(luò)接口和加速引擎,能夠以硬件加速的方式處理網(wǎng)絡(luò)數(shù)據(jù)包,相比軟件實(shí)現(xiàn),其處理速度更快,延遲更低,吞吐量更高。在云計(jì)算業(yè)務(wù)模型中,存儲(chǔ)性能要求在不同場(chǎng)景下扮演著關(guān)鍵角色。大數(shù)據(jù)分析需要高吞吐量、低延遲和良好的擴(kuò)展性;人工智能應(yīng)用則側(cè)重于高速數(shù)據(jù)讀寫(xiě)和一致性;在線交易場(chǎng)景要求低延遲、高并發(fā)讀寫(xiě)和數(shù)據(jù)可靠性;而多媒體存儲(chǔ)與流媒體場(chǎng)景則需要高帶寬、低延遲和數(shù)據(jù)穩(wěn)定性。這些場(chǎng)景下的存儲(chǔ)性能需求突顯了各自的重點(diǎn),包括吞吐量、延遲、可靠性和擴(kuò)展性等關(guān)鍵指標(biāo)。因此,在設(shè)計(jì)和優(yōu)化存儲(chǔ)系統(tǒng)時(shí),必須針對(duì)特定業(yè)務(wù)場(chǎng)景的需求進(jìn)行有針對(duì)性的考量,以確保系統(tǒng)能夠滿足不同場(chǎng)景下的性能大數(shù)據(jù)分析場(chǎng)景:在大數(shù)據(jù)分析場(chǎng)景下,存儲(chǔ)系統(tǒng)需要具備高吞吐量和低延遲的特性,以支持快速的數(shù)據(jù)讀取和處理。同時(shí),大數(shù)據(jù)分析通常涉及大規(guī)模數(shù)據(jù)的并行處理,因此存儲(chǔ)系統(tǒng)需要具備良好的擴(kuò)展性和并發(fā)處理能力。人工智能應(yīng)用場(chǎng)景:對(duì)于人工智能應(yīng)用,存儲(chǔ)系統(tǒng)需要具備高速的數(shù)據(jù)讀取和寫(xiě)入能力,以支持大規(guī)模的數(shù)據(jù)訓(xùn)練和推理過(guò)程。低延遲和高IOPS對(duì)于實(shí)時(shí)推理 2.5安全業(yè)務(wù)分析AllRightsReserved26和訓(xùn)練任務(wù)至關(guān)重要,同時(shí)數(shù)據(jù)的一致性和可靠性也是關(guān)鍵指標(biāo)。在線交易場(chǎng)景:在線交易場(chǎng)景對(duì)存儲(chǔ)系統(tǒng)的響應(yīng)速度和數(shù)據(jù)一致性要求較高。存儲(chǔ)系統(tǒng)需要具備低延遲、高并發(fā)讀寫(xiě)能力,以確保交易數(shù)據(jù)的實(shí)時(shí)性和準(zhǔn)確性。同時(shí),數(shù)據(jù)的持久性和可靠性也是關(guān)鍵考量因素。多媒體存儲(chǔ)與流媒體場(chǎng)景:在多媒體存儲(chǔ)和流媒體場(chǎng)景下,存儲(chǔ)系統(tǒng)需要具備高帶寬、高吞吐量和低延遲的特性,以支持大規(guī)模的多媒體數(shù)據(jù)的存儲(chǔ)和傳輸。同時(shí),數(shù)據(jù)的穩(wěn)定性和可靠性對(duì)于保障媒體數(shù)據(jù)的完整性至關(guān)重要。隨著云計(jì)算技術(shù)的快速發(fā)展,高性能云計(jì)算對(duì)網(wǎng)絡(luò)架構(gòu)和彈性提出了更高要求,基礎(chǔ)設(shè)施暴露了更大的攻擊面,業(yè)務(wù)數(shù)據(jù)更加集中,數(shù)據(jù)價(jià)值越來(lái)越高,黑客攻擊越來(lái)越多,企業(yè)面臨著更加復(fù)雜的安全威脅。高性能云計(jì)算改變了傳統(tǒng)數(shù)據(jù)中心的網(wǎng)絡(luò)和業(yè)務(wù)模型,同時(shí)給網(wǎng)絡(luò)安全建設(shè)帶來(lái)了巨大的挑戰(zhàn),需要高性能、彈性的分布式安全防護(hù)體傳統(tǒng)安全方案采取集中式部署方式,可以有效防御南北向網(wǎng)絡(luò)攻擊,無(wú)法應(yīng)對(duì)東西向流量的網(wǎng)絡(luò)攻擊,無(wú)論是從成本還是機(jī)房空間等其他方面考慮無(wú)法部署到計(jì)算環(huán)境中。攻擊者一旦進(jìn)入網(wǎng)絡(luò),通過(guò)內(nèi)部網(wǎng)絡(luò)橫向發(fā)起擴(kuò)散攻擊,入侵更多的主機(jī),擴(kuò)散范圍包括VPC之間和VPC內(nèi)部各個(gè)主機(jī)、虛機(jī)、容器等。為了解決云計(jì)算東西向網(wǎng)絡(luò)攻擊,客戶通常采用基于網(wǎng)絡(luò)引流模式的安全資源池,或者采用基于代理模式的獨(dú)立虛擬防火墻進(jìn)行防護(hù),這兩種旁路安全防護(hù)方式,在防護(hù)效率、復(fù)雜度、覆蓋度等多方面面臨如下挑戰(zhàn):網(wǎng)絡(luò)引流路徑長(zhǎng),產(chǎn)生額外開(kāi)銷(xiāo),防護(hù)效率低。需要操作交換機(jī),網(wǎng)絡(luò)操作復(fù)雜,出錯(cuò)風(fēng)險(xiǎn)增加。無(wú)法對(duì)跨虛擬機(jī)、容器的流量進(jìn)行隔離防護(hù)。服務(wù)器處理防火墻、加解密等安全功能性能低,尤其是國(guó)產(chǎn)化服務(wù)器平臺(tái)。需要增加額外的服務(wù)器,占用機(jī)房物理空間,綜合成本增加。通過(guò)上述安全性能分析,針對(duì)薄弱的安全計(jì)算環(huán)境,云計(jì)算需要一種新的網(wǎng)絡(luò)安全防護(hù)體系,這種防護(hù)體系可以面向租戶進(jìn)行

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論