![DPU金融行業(yè)發(fā)展白皮書-2023.12_第1頁](http://file4.renrendoc.com/view10/M00/0F/34/wKhkGWWzf7OAMUTxAAGPvJMyMWA370.jpg)
![DPU金融行業(yè)發(fā)展白皮書-2023.12_第2頁](http://file4.renrendoc.com/view10/M00/0F/34/wKhkGWWzf7OAMUTxAAGPvJMyMWA3702.jpg)
![DPU金融行業(yè)發(fā)展白皮書-2023.12_第3頁](http://file4.renrendoc.com/view10/M00/0F/34/wKhkGWWzf7OAMUTxAAGPvJMyMWA3703.jpg)
![DPU金融行業(yè)發(fā)展白皮書-2023.12_第4頁](http://file4.renrendoc.com/view10/M00/0F/34/wKhkGWWzf7OAMUTxAAGPvJMyMWA3704.jpg)
![DPU金融行業(yè)發(fā)展白皮書-2023.12_第5頁](http://file4.renrendoc.com/view10/M00/0F/34/wKhkGWWzf7OAMUTxAAGPvJMyMWA3705.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
北京金融科技產(chǎn)業(yè)聯(lián)盟2023
年
11
月DPU
金融行業(yè)發(fā)展白皮書版權(quán)聲明本報告版權(quán)屬于北京金融科技產(chǎn)業(yè)聯(lián)盟,并受法律保護。轉(zhuǎn)載、編摘或利用其他方式使用本白皮書文字或觀點的,應(yīng)注明來源。違反上述聲明者,將被追究相關(guān)法律責(zé)任。IDPU
金融行業(yè)發(fā)展白皮書編委會主編:聶麗琴編委:劉承巖
張學(xué)利
沈
健執(zhí)筆:王
鑫
沈震宇
楊曉峰
王啟宇
黃明飛
陳文斌
郭建強趙
真
孫傳明
杜
沖
鄧德源
劉繼江
張乾海
闞立宸杜建成參編單位:北京金融科技產(chǎn)業(yè)聯(lián)盟秘書處中國工商銀行金融科技研究院深圳云豹智能有限公司北京火山引擎科技有限公司IIDPU
金融行業(yè)發(fā)展白皮書前
言黨的二十大報告提出,要增強國內(nèi)大循環(huán)內(nèi)生動力和可靠性,提升國際循環(huán)質(zhì)量和水平。這既離不開金融對資源配置的引導(dǎo)優(yōu)化,也離不開科技創(chuàng)新在激發(fā)市場活力方面的重要作用。“十四五”時期,我國開啟全面建設(shè)社會主義現(xiàn)代化國家新征程,數(shù)據(jù)成為新的生產(chǎn)要素,數(shù)據(jù)技術(shù)成為新的發(fā)展引擎,數(shù)字經(jīng)濟浪潮已勢不可擋。2023
年
2
月,中共中央、國務(wù)院印發(fā)《數(shù)字中國建設(shè)整體布局規(guī)劃》(以下簡稱《規(guī)劃》),指出建設(shè)數(shù)字中國是數(shù)字時代推進中國式現(xiàn)代化的重要引擎,是構(gòu)筑國家競爭新優(yōu)勢的有力支撐。加快數(shù)字中國建設(shè),對全面建設(shè)社會主義現(xiàn)代化國家、全面推進中華民族偉大復(fù)興具有重要意義和深遠(yuǎn)影響?!兑?guī)劃》明確了數(shù)字中國建設(shè)將按照“2522”的整體框架進行布局,“2522”中的第一個“2”即夯實數(shù)字基礎(chǔ)設(shè)施和數(shù)據(jù)資源體系“兩大基礎(chǔ)”。數(shù)字中國建設(shè)是數(shù)字金融發(fā)展的重要契機,對金融行業(yè)的數(shù)字化發(fā)展指出了明確的方向,也契合了我國促進數(shù)字經(jīng)濟高質(zhì)量發(fā)展的總體規(guī)劃。在云計算、大數(shù)據(jù)、5G、人工智能等技術(shù)的蓬勃發(fā)展下,金融云也迎來了發(fā)展的契機。金融云依據(jù)自身特點對云計算基礎(chǔ)設(shè)施建設(shè)提出了更加嚴(yán)苛的要求,提供高效、安全、高容災(zāi)和高可用的云基礎(chǔ)設(shè)施是金融云發(fā)展的重要關(guān)切點。中國工商銀行高級金融科技專家劉承巖談到:“以云計算為核心的數(shù)據(jù)中心,是金融機構(gòu)數(shù)字化轉(zhuǎn)型的核心基礎(chǔ)設(shè)施。與公I(xiàn)IIDPU
金融行業(yè)發(fā)展白皮書有云不同,金融行業(yè)在追求計算多樣化、高性能的同時,更加注重系統(tǒng)的安全可靠、綠色高效和開放兼容。當(dāng)前,軟件定義的云計算架構(gòu)主要依靠
CPU
算力進行相關(guān)云資源的抽象,而隨著計算規(guī)模和網(wǎng)絡(luò)帶寬的增大,用于云管控和
IO
處理的
CPU
開銷越來越大,以
CPU
為核心的云計算架構(gòu)正在向軟硬協(xié)同的新型架構(gòu)演進。從業(yè)界實踐來看,以數(shù)據(jù)加速處理為核心,具備通用可編程能力的
DPU
處理器是支撐軟硬協(xié)同云計算架構(gòu)的關(guān)鍵。通過將云平臺的控制面和數(shù)據(jù)面卸載至
DPU,并根據(jù)金融場景進行定向優(yōu)化,實現(xiàn)更低的單位算力成本,更高的
IO
性能,以及更靈活安全的云管控,將是更加云原生的計算架構(gòu)。然而,當(dāng)前
DPU、服務(wù)器、云操作系統(tǒng)之間的生態(tài)并不完善,制約著金融云架構(gòu)的演進,需要產(chǎn)業(yè)側(cè)和用戶側(cè)共同推進構(gòu)建良性、開放的生態(tài),以促進云原生金融云算力的全行業(yè)落地”。面向云基礎(chǔ)設(shè)施的通用數(shù)據(jù)處理器(Data
Processing
Unit,以下簡稱
DPU)是連接算力資源和網(wǎng)絡(luò)資源的關(guān)鍵節(jié)點。DPU
要解決的不僅是云基礎(chǔ)設(shè)施“降本增效”的問題,也要解決現(xiàn)有云計算應(yīng)用中網(wǎng)絡(luò)資源與算力資源發(fā)展不協(xié)調(diào)的問題。隨著各種應(yīng)用在云環(huán)境中部署的復(fù)雜度持續(xù)增高和規(guī)模的不斷擴展,數(shù)據(jù)交換不再僅僅是簡單的服務(wù)器之間的數(shù)據(jù)搬運,還需要對數(shù)據(jù)進行有效的智能化處理。傳統(tǒng)網(wǎng)卡(NIC)及其后續(xù)的智能網(wǎng)卡(SmartNIC)由于自身技術(shù)結(jié)構(gòu)的限制,無法在飛速發(fā)展的云計算應(yīng)用中滿足數(shù)據(jù)交換和智能化處理的需求,正在被
DPU
這種通IVDPU
金融行業(yè)發(fā)展白皮書用數(shù)據(jù)處理器所取代。DPU
作為通用的數(shù)據(jù)處理器,不是對
NIC或
SmartNIC
的簡單替代,而是對網(wǎng)絡(luò)基礎(chǔ)架構(gòu)的本質(zhì)改變。DPU本身所具有的通用可編程特性、低時延網(wǎng)絡(luò)、統(tǒng)一資源管控以及持續(xù)發(fā)展的加速卸載特性,使得
DPU
正在促進云計算應(yīng)用從架構(gòu)上實現(xiàn)優(yōu)化和重構(gòu)。DPU
作為通用數(shù)據(jù)處理的基礎(chǔ)部件,主要聚焦當(dāng)前應(yīng)用中消耗
CPU、GPU
算力資源的網(wǎng)絡(luò)、存儲、安全以及和應(yīng)用相關(guān)的數(shù)據(jù)處理任務(wù)。DPU
將這些任務(wù)從
CPU、GPU
中卸載下來,釋放
CPU、GPU
的算力,支撐
CPU、GPU
發(fā)揮更大的效能。針對金融云的發(fā)展需求,DPU
本身具有的特點和能力,能很好地促進金融行業(yè)的數(shù)字化轉(zhuǎn)型。本白皮書分析了金融行業(yè)在云部署中的發(fā)展趨勢及面臨的行業(yè)挑戰(zhàn),概述了
DPU
的技術(shù)演進歷程、生態(tài)發(fā)展和典型案例,系統(tǒng)闡述了
DPU
技術(shù)在促進金融云綠色低碳發(fā)展方面的重要作用和應(yīng)用實踐,加快助力金融行業(yè)構(gòu)建開放共享、穩(wěn)定可靠、高效綠色、自主可控的金融級安全云平臺。VDPU
金融行業(yè)發(fā)展白皮書目
錄一、云原生浪潮下金融行業(yè)云基礎(chǔ)設(shè)施的發(fā)展趨勢和挑戰(zhàn)
...........
1(一)發(fā)展趨勢
...........................................
1(二)行業(yè)挑戰(zhàn)
...........................................
5二、DPU
發(fā)展與趨勢
..........................................
11(一)DPU
歷史演進
......................................
11(二)DPU
生態(tài)發(fā)展
......................................
17(三)DPU
典型案例
......................................
19三、基于
DPU
構(gòu)建綠色低碳金融云
..............................
24(一)統(tǒng)一部署彈性調(diào)度
..................................
25(二)計算實例高可用
....................................
28(三)加速云原生網(wǎng)絡(luò)
....................................
29(四)加速云原生存儲
....................................
31(五)加速微服務(wù)應(yīng)用
....................................
33(六)加速云原生安全
....................................
34(七)加速大模型訓(xùn)練
....................................
35(八)提升計算資源利用率
................................
36四、DPU
在金融云的應(yīng)用分析
..................................
41(一)彈性裸金屬
........................................
41(二)零信任安全
........................................
43(三)高性能扁平化容器網(wǎng)絡(luò)
..............................
45(四)人工智能大模型
....................................
47五、DPU
在金融云平臺發(fā)展中的展望
............................
50六、結(jié)語
....................................................
52插圖附錄
....................................................
54縮略語
......................................................
55VIDPU
金融行業(yè)發(fā)展白皮書一、云原生浪潮下金融行業(yè)云基礎(chǔ)設(shè)施的發(fā)展趨勢和挑戰(zhàn)(一)發(fā)展趨勢在云原生技術(shù)快速發(fā)展、經(jīng)濟與商業(yè)模式正發(fā)生深刻變化的背景下,金融云平臺作為金融行業(yè)數(shù)字化轉(zhuǎn)型的依托,在金融行業(yè)生態(tài)格局中扮演著非常重要的角色。金融云包含平臺基礎(chǔ)設(shè)施(IaaS)、應(yīng)用平臺(PaaS)和金融生態(tài)(SaaS)3個層面(如圖1所示),其中基礎(chǔ)設(shè)施是構(gòu)建體系完備、規(guī)模超大、自主可控和靈活高效的金融云平臺的基石。圖
1
金融云平臺1.綠色計算與低碳發(fā)展在碳達(dá)峰碳中和的雙碳背景下,金融機構(gòu)也在綠色轉(zhuǎn)型和數(shù)字化轉(zhuǎn)型升級中尋求突破,促進綠色計算和數(shù)字低碳技術(shù)創(chuàng)新。有數(shù)據(jù)顯示,我國數(shù)據(jù)中心年用電量在全社會用電量中的比1DPU
金融行業(yè)發(fā)展白皮書重正在逐年升高,為確保實現(xiàn)碳達(dá)峰碳中和目標(biāo),就需要在數(shù)據(jù)中心建設(shè)模式、技術(shù)、標(biāo)準(zhǔn)和可再生能源利用等方面進一步挖掘節(jié)能減排潛力。近年來,云計算發(fā)展迅猛,其本身就是一種綠色技術(shù),提高了CPU的整體利用率。通過聚集計算資源和轉(zhuǎn)移工作負(fù)載,云的資源利用率持續(xù)得到提高。推動數(shù)據(jù)中心綠色可持續(xù)發(fā)展,加快節(jié)能低碳技術(shù)的研發(fā)應(yīng)用,提升能源利用效率,降低數(shù)據(jù)中心能耗,從而實現(xiàn)綠色計算與低碳的發(fā)展目標(biāo)。2.部署模式多樣化金融領(lǐng)域云計算部署模式主要包括私有云、團體云以及由其組成的混合云等。在實際的落地部署中,不論是采用私有云建設(shè)方式,還是采用與第三方合作的公有云建設(shè)方式,亦或混合云建設(shè)方式,越來越多的金融企業(yè)都在嘗試?yán)迷朴嬎慵夹g(shù)來降低運營成本,促進產(chǎn)品創(chuàng)新。當(dāng)前,越來越多的金融機構(gòu)開始嘗試將IT
業(yè)務(wù)搭建在云上,而未來這一趨勢還將不斷深化。私有云或者混合云的建設(shè)模式在傳統(tǒng)銀行、證券等企業(yè)中得到青睞,而公有云模式則成為大量新興互聯(lián)網(wǎng)金融企業(yè)的選擇,通過與第三方公有云廠商合作,得以實現(xiàn)自身業(yè)務(wù)的快速擴展,業(yè)務(wù)快速上線。金融業(yè)務(wù)上云呈現(xiàn)多樣化的趨勢,不同的金融企業(yè)也正在根據(jù)自身情況選擇適合自身發(fā)展的建設(shè)模式。3.穩(wěn)定與敏捷并存當(dāng)前金融業(yè)務(wù)的發(fā)展中,既有針對穩(wěn)態(tài)業(yè)務(wù)的高穩(wěn)定性、高2DPU
金融行業(yè)發(fā)展白皮書可靠性、高安全性要求,也有針對大數(shù)據(jù)、人工智能、區(qū)塊鏈等新數(shù)字化技術(shù)業(yè)務(wù)的敏捷支持要求。隨著金融業(yè)務(wù)規(guī)模的不斷擴大,以及面向互聯(lián)網(wǎng)業(yè)務(wù)場景的不斷豐富,傳統(tǒng)金融行業(yè)的信息管理系統(tǒng)已經(jīng)嚴(yán)重制約了金融行業(yè)向數(shù)字化轉(zhuǎn)型的發(fā)展。一方面,越來越多的用戶通過互聯(lián)網(wǎng)進行經(jīng)濟活動(例如查詢信息、購物和理財?shù)龋?。另一方面,金融行業(yè)也正在借助與互聯(lián)網(wǎng)技術(shù)的結(jié)合推出更多業(yè)務(wù),增加用戶量及用戶黏性。因此對未來的金融云平臺提出了新的需求。在資源利用上,需要對資源進行池化管理,解耦計算、存儲、網(wǎng)絡(luò)和安全,從而實現(xiàn)對計算、存儲、網(wǎng)絡(luò)和安全資源的統(tǒng)一高效調(diào)度管理,進而實現(xiàn)透明、按需供給的資源管理模式。在安全上,不僅是現(xiàn)有的應(yīng)用層數(shù)據(jù)需要安全監(jiān)控和管理能力,隨著金融業(yè)務(wù)的不斷變化,虛擬化層的引入以及基于云原生的容器、微服務(wù)的應(yīng)用部署也需要依賴整個云原生平臺的安全監(jiān)控和管理能力??傮w上,需要在實現(xiàn)安全和高效的前提下,保證具有高容災(zāi)和高可用性。4.安全可信與可控隨著金融業(yè)務(wù)上云的不斷深化,經(jīng)濟活動安全越來越受到國家和監(jiān)管部門的重視。金融行業(yè)對于數(shù)據(jù)的安全性和合規(guī)性要求非常高,金融云需要提供高度安全的數(shù)據(jù)存儲和傳輸機制,確保客戶敏感信息的保護和隱私安全。因為金融業(yè)務(wù)中涉及大量的資金、交易、用戶隱私信息等敏感數(shù)據(jù),所以對數(shù)據(jù)和隱私保護有更高的安全要求,這直接關(guān)系到國家的經(jīng)濟安全,同時也影響著3DPU
金融行業(yè)發(fā)展白皮書老百姓生活的方方面面,使得金融云服務(wù)的安全可靠、可信、可控成為其發(fā)展必須滿足的條件。當(dāng)前,金融云發(fā)展所面臨的安全問題并沒有完全有效解決,已成為阻礙金融云發(fā)展的障礙之一。對數(shù)據(jù)加密性要求最高的金融行業(yè)將整體系統(tǒng)上云之后,建設(shè)更高的安全、可信、可控的金融云平臺是未來的必然趨勢。5.高可用需求金融行業(yè)對規(guī)劃、建設(shè)和運維的專業(yè)性要求也非常高,從規(guī)劃、建設(shè)到各個系統(tǒng)的遷移和管理,都與其他行業(yè)的云服務(wù)有著很大的不同,在行業(yè)和系統(tǒng)內(nèi)部都有著嚴(yán)格的規(guī)范要求。針對高可用性,規(guī)范就要求云計算平臺應(yīng)具備軟件、主機、存儲、網(wǎng)絡(luò)節(jié)點、數(shù)據(jù)中心等層面的高可用保障能力,能夠從嚴(yán)重故障或錯誤中快速恢復(fù),保障應(yīng)用系統(tǒng)的連續(xù)正常運行,滿足金融領(lǐng)域業(yè)務(wù)連續(xù)性要求。由于金融行業(yè)的特殊性,高可用是金融云基礎(chǔ)設(shè)施建設(shè)中需要重點關(guān)注的問題。隨著金融應(yīng)用數(shù)量和類型的不斷增加,以及對網(wǎng)絡(luò)復(fù)雜度的要求也越來越高,高可用性成為金融云持續(xù)發(fā)展的重要保障。6.數(shù)據(jù)分析和AI能力支撐隨著
AI
的發(fā)展,金融行業(yè)越來越多地使用數(shù)據(jù)分析和人工智能來優(yōu)化業(yè)務(wù)決策和風(fēng)險管理。因此,金融云通常會提供數(shù)據(jù)分析和
AI
訓(xùn)練推理的能力。此外,通用人工智能(AGI)所取得的成果使人們看到了一種可能性,即依托基礎(chǔ)大模型的訓(xùn)練結(jié)果,4DPU
金融行業(yè)發(fā)展白皮書針對垂直領(lǐng)域特定場景和行業(yè)進行精細(xì)化模型訓(xùn)練,使
AI
在垂直領(lǐng)域?qū)崿F(xiàn)落地應(yīng)用,提高生產(chǎn)率。金融云平臺在這個層面也在逐步加大投入,為
AI
訓(xùn)練提供網(wǎng)絡(luò)和算力的基礎(chǔ)設(shè)施支撐??傮w而言,在金融云基礎(chǔ)設(shè)施向云計算架構(gòu)的發(fā)展過程中,需要著力打造具有快速響應(yīng)、彈性伸縮、高可用、低成本和安全的云計算環(huán)境。在整體的演進過程中,也面臨著諸多挑戰(zhàn)需要一一克服,這些挑戰(zhàn)主要體現(xiàn)在以下方面。(二)行業(yè)挑戰(zhàn)1.資源利用率低為支撐應(yīng)用平臺(PaaS)和金融生態(tài)(SaaS)的服務(wù)功能,在基礎(chǔ)設(shè)施(IaaS)層需要對計算、網(wǎng)絡(luò)以及安全等基礎(chǔ)資源進行優(yōu)化和管理。目前在
PaaS
和
SaaS
層,金融云的應(yīng)用有著向以微服務(wù)為主,采用容器、K8s
集群、Service
Mesh
等管理框架實現(xiàn)管理和部署的趨勢。這種“容器+微服務(wù)”的方式將基礎(chǔ)設(shè)施的計算資源釋放給上層使用,容器技術(shù)擁有自身獨特的優(yōu)勢,尤其是在金融云平臺的生產(chǎn)環(huán)境中得到了廣泛應(yīng)用。然而容器技術(shù)的發(fā)展卻對基礎(chǔ)設(shè)施的資源管控提出了新的挑戰(zhàn),通過微服務(wù),將復(fù)雜系統(tǒng)拆分為易于開發(fā)和維護的服務(wù)單元,從而實現(xiàn)敏捷性開發(fā),例如
Kubernetes,
Istio
等框架和方案都是這種思想的應(yīng)用和實踐。但是,隨著各種應(yīng)用程序組件分布在不同的服務(wù)器和虛擬機之中,帶來了東西向流量業(yè)務(wù)激增。這些激增的東西向流量主要是來自不同虛擬機之間、不同容器應(yīng)用之間的通信流量。5DPU
金融行業(yè)發(fā)展白皮書這種微服務(wù)架構(gòu)帶來了分布式系統(tǒng)的復(fù)雜性,每個服務(wù)需要進行管理、調(diào)度和監(jiān)控,這些管理組件的引入,無疑加重了額外的資源管理開銷。隨著容器和微服務(wù)部署規(guī)模的擴大,Kubernetes、Istio
組件消耗的主機
HOST
算力資源的比重將逐漸增大,最終將導(dǎo)致云計算平臺無法提供有效的算力資源給容器和微服務(wù)應(yīng)用,極大降低了金融云平臺對計算資源的有效利用。2.部署模式的挑戰(zhàn)在云計算技術(shù)金融用規(guī)范的要求中,明確金融云平臺在實際的部署過程中,首先必須秉持安全優(yōu)先、對用戶負(fù)責(zé)的原則,根據(jù)信息系統(tǒng)所承載業(yè)務(wù)的重要性和數(shù)據(jù)的敏感性、發(fā)生安全事件的危害程度等,充分評估可能存在的風(fēng)險隱患,謹(jǐn)慎選用與業(yè)務(wù)系統(tǒng)相適應(yīng)的部署模式。所以,如何選擇金融云平臺系統(tǒng)的部署模式是極具挑戰(zhàn)的任務(wù)。目前,金融領(lǐng)域云包括私有云,團體云和混合云等多種模式,為了承載不同的業(yè)務(wù)需求就需要靈活的部署模式,這是未來的發(fā)展方向,但當(dāng)前面臨的問題是如何有效管理這種靈活多變的部署模式。從私有云的這個單點上來看,私有云是企業(yè)傳統(tǒng)數(shù)據(jù)中心的延伸和優(yōu)化,可以針對各種功能提供網(wǎng)絡(luò)、存儲、計算資源。在金融云領(lǐng)域,私有云是金融企業(yè)單獨使用并構(gòu)建的,對數(shù)據(jù)、安全和服務(wù)質(zhì)量有自身的要求,需要根據(jù)特定的應(yīng)用場景進行適配,這就對私有云部署過程中具體軟件和硬件的底層基礎(chǔ)設(shè)施技術(shù)的支撐提出了要求。通常,金融機構(gòu)和企業(yè)更加關(guān)注自身業(yè)務(wù)6DPU
金融行業(yè)發(fā)展白皮書的研發(fā)和應(yīng)用,對底層基礎(chǔ)設(shè)施技術(shù)的掌控和管理并不是強項。這就增加了金融企業(yè)在部署私有云過程中的成本和技術(shù)風(fēng)險,因為在實現(xiàn)自身私有云應(yīng)用需求的時候,很難根據(jù)來自不同軟硬件供應(yīng)商的軟件、硬件組件增加符合自身業(yè)務(wù)需求的功能。另一個層面,從私有云、團體云和混合云相組合的這個面上來看,也更具挑戰(zhàn)性。不同云部署模式下的管理和互聯(lián)互通也是目前面臨的挑戰(zhàn)之一。總體而言,金融云平臺在部署模式上的挑戰(zhàn)是沒有成熟和標(biāo)準(zhǔn)的云平臺部署方案,需要金融企業(yè)投入大量的自有研發(fā)力量來進行定制化開發(fā)。3.資源彈性不足資源彈性不足主要體現(xiàn)在如下方面。一是金融云平臺面對的業(yè)務(wù)類型復(fù)雜多變,為了應(yīng)對不同的業(yè)務(wù)需求通常會存在多數(shù)據(jù)中心以及多集群部署情況,資源的調(diào)度和編排受到跨集群能力的限制。二是實際業(yè)務(wù)運行過程中存在峰值波動的情況,這就需要整個云平臺具有自動伸縮能力,當(dāng)前的資源管控在面對跨集群、跨資源(例如計算資源、存儲資源、網(wǎng)絡(luò)資源池化之后的管理和調(diào)度)管控時能力不足。三是裸金屬服務(wù)器的彈性不足,目前裸金屬服務(wù)器需要進行操作系統(tǒng)自動安裝,創(chuàng)建和回收速度較慢,并且無法遷移。四是受到容災(zāi)和高可用技術(shù)實現(xiàn)的限制,為了保證可靠的業(yè)7DPU
金融行業(yè)發(fā)展白皮書務(wù)服務(wù)能力,不得不采用折中的雙備份資源的方式,但是這樣的實現(xiàn)模式限制了資源的靈活調(diào)配能力。4.安全防護的挑戰(zhàn)云原生技術(shù)在金融云平臺的使用促進了金融云的數(shù)字化進程,以容器和微服務(wù)為代表的云原生技術(shù)得到了大力發(fā)展,同時基于云原生技術(shù)的安全性也得到了更多的關(guān)注。在基于容器和微服務(wù)提供高可靠、高靈活、高性能的情況下,高安全也非常重要。這里的安全尤其指基于
Docker
和
K8s
的容器安全。從云原生平臺的架構(gòu)來看會面對來自不同層面的挑戰(zhàn)。首先,在容器及
K8s
層面,鏡像安全、容器運行時安全、容器網(wǎng)絡(luò)安全、權(quán)限安全等問題需要進行管理和監(jiān)控。其次,在平臺層面,集群隔離、租戶安全、用戶隔離等問題也對云平臺提出了要求,當(dāng)前云平臺對資源的分散管理更凸顯了這個問題?;谌缟弦蛩?,一個典型的挑戰(zhàn)來自針對東西向流量的安全管控。如上所述,云原生技術(shù)的應(yīng)用大大增加了數(shù)據(jù)中心服務(wù)器之間的數(shù)據(jù)交換(東西向流量),有數(shù)據(jù)表明東西向流量在數(shù)據(jù)中心總流量中的占比接近
80%,這就面臨一個問題,一旦攻擊者繞過南北向流量的邊界防御,就可能在內(nèi)網(wǎng)中肆意蔓延,如何有效控制內(nèi)網(wǎng)中的東西向流量成為一個重要的安全問題。采取更嚴(yán)格的細(xì)粒度安全模型是解決這個挑戰(zhàn)的路徑之一,其中分布式防火墻技術(shù)可以將安全和工作負(fù)載在細(xì)粒度上聯(lián)系起來。但是,是8DPU
金融行業(yè)發(fā)展白皮書采用純軟件方式、還是其他軟硬一體的解決策略也需要具體分析和討論。這些因素都對金融云平臺在安全防護上提出了持續(xù)的挑戰(zhàn)。5.高可用的挑戰(zhàn)云原生技術(shù)在企業(yè)實際場景中的實施落地,特別是在金融場景的實施落地,仍然面臨諸多挑戰(zhàn)。如何實現(xiàn)金融云平臺的高可用性是當(dāng)前的挑戰(zhàn)之一。金融云平臺的高可用是一個系統(tǒng)級平臺層面的要求,是分布式系統(tǒng)架構(gòu)設(shè)計中必須考慮的因素之一。架構(gòu)實現(xiàn)上可以通過冗余和自動故障遷移來實現(xiàn),在故障遷移方面,首先就需要能夠識別故障,能夠在技術(shù)風(fēng)險事件中有全鏈路的監(jiān)控和管理能力。這就包括事件發(fā)生前、發(fā)展中、發(fā)生后的連續(xù)的業(yè)務(wù)監(jiān)控和追溯能力。具體到風(fēng)險事件發(fā)生前,就需要具備日常業(yè)務(wù)巡檢、故障演練、業(yè)務(wù)監(jiān)控,建立風(fēng)險發(fā)現(xiàn)等手段;在風(fēng)險事件發(fā)生時,需要具備應(yīng)急管理快速拉起應(yīng)急流程的能力,完成故障快速診斷,并通過應(yīng)急預(yù)案、容災(zāi)切換實現(xiàn)故障的快速恢復(fù);在風(fēng)險事件結(jié)束后,需要具備風(fēng)險管理回溯、復(fù)盤等機制,加固風(fēng)險事件發(fā)現(xiàn)和診斷能力。這些能力和手段保證了高可用性的實現(xiàn),但這些功能的具體實現(xiàn)依托于具體的基礎(chǔ)設(shè)施(IaaS)所能提供的能力。在高可用層面一個有代表性的挑戰(zhàn)來自裸金屬的應(yīng)用,在裸金屬應(yīng)用中需要額外的網(wǎng)關(guān)服務(wù)器來承擔(dān)虛擬化網(wǎng)絡(luò)的開銷,在
PXE
裝機,本地盤遷移等能力上性能不高且耗時長?;谶@些基本的能力現(xiàn)狀,裸金屬服務(wù)器在出現(xiàn)硬件故障時,無法9DPU
金融行業(yè)發(fā)展白皮書像虛擬機一樣在短時間內(nèi)恢復(fù)或遷移,不能滿足故障應(yīng)急需要,無法提供高可用能力。另外還有其他的情形,例如容器平臺的宿主節(jié)點使用了
IaaS
虛擬機且啟用了
SDN
網(wǎng)絡(luò),當(dāng)容器平臺啟用CNI
特性時,容器平臺上的應(yīng)用就可以和
IaaS
虛擬機的業(yè)務(wù)應(yīng)用直接通信。如果和傳統(tǒng)網(wǎng)絡(luò)中的舊應(yīng)用通信,則需要開啟
IaaS的
NAT
特性或者為宿主節(jié)點配置
EIP
地址??梢钥吹?,不同業(yè)務(wù)部署和實現(xiàn)方法對保證高可用性需要提供針對性的功能實現(xiàn),一方面增加了適配開發(fā)的工作量和維護成本,另一方面無法解耦軟件與軟件之間、軟件與硬件之間的耦合性。6.人工智能大模型訓(xùn)練難度大大模型通過海量數(shù)據(jù)的訓(xùn)練學(xué)習(xí),具備了強大的語言理解和表達(dá)、思維鏈推理等能力,在文本圖像理解、內(nèi)容生成等人工智能任務(wù)中表現(xiàn)出顯著優(yōu)勢和巨大潛力。相較于傳統(tǒng)人工智能算法一事一議的建模方式,大模型具備更強的通用能力,可處理多種任務(wù),可較好解決傳統(tǒng)模型的碎片化問題。大模型作為一種新型人工智能技術(shù),在金融領(lǐng)域的應(yīng)用范圍涵蓋了風(fēng)險管理、欺詐檢測、語音識別和自然語言處理等方面。通過人工智能大模型可以提高金融行業(yè)的應(yīng)用效率,降低成本,提高精確性和安全性,并且為客戶和投資者提供更好的服務(wù)和體驗。訓(xùn)練一個大模型當(dāng)前主要面臨以下幾方面挑戰(zhàn)。(1)內(nèi)存墻。GPT3
模型擁有
1700
億的參數(shù),光內(nèi)存消耗需要近
800GB。訓(xùn)練過程因為會有權(quán)重、激活、優(yōu)化器狀態(tài),再10DPU
金融行業(yè)發(fā)展白皮書加上自動微分所產(chǎn)生臨時變量,需要
3500GB
內(nèi)存,一個大模型的訓(xùn)練就需要
100
多塊具有
32GB
內(nèi)存的
GPU。隨著大模型的發(fā)展,參數(shù)會變得越來越大。而
GPU
與
GPU
之間的內(nèi)存如何高效的進行交換,對大模型的訓(xùn)練效率有直接影響。(2)通信墻。大模型通過模型并行、流水線并行切分到大模型訓(xùn)練集群后,通訊便成了主要的性能瓶頸。對于大規(guī)模的深度學(xué)習(xí)模型,動輒需要幾百甚至幾千張
GPU
卡的算力,服務(wù)器節(jié)點多,跨服務(wù)器通信需求巨大,使得網(wǎng)絡(luò)性能成為
GPU
集群系統(tǒng)的瓶頸。傳統(tǒng)基于以太網(wǎng)絡(luò)的
TCP
通信方式,不僅時延高,而且極大消耗了寶貴的計算資源和內(nèi)存帶寬資源,不能滿足大規(guī)模的深度學(xué)習(xí)的網(wǎng)絡(luò)通信需求。(3)存儲墻。大模型訓(xùn)練過程中需要讀取和存放海量數(shù)據(jù)到磁盤中,如何高效存放這些數(shù)據(jù),以及集群中的
GPU
如何共享這些數(shù)據(jù)將直接影響到大模型訓(xùn)練的時間。二、DPU
發(fā)展與趨勢(一)DPU
歷史演進隨著云計算、虛擬化技術(shù)的發(fā)展,網(wǎng)卡也隨之發(fā)展,從功能和硬件結(jié)構(gòu)上基本可劃分為
4
個階段。1.傳統(tǒng)基礎(chǔ)網(wǎng)卡(NIC)。負(fù)責(zé)數(shù)據(jù)報文的收發(fā),具有較少的硬件卸載能力。硬件上以
ASIC
硬件邏輯實現(xiàn)網(wǎng)絡(luò)物理鏈路層,以及
MAC
層的報文處理,后期
NIC
標(biāo)卡也支持了,諸如
CRC
校驗的功能。不具有編程能力。11DPU
金融行業(yè)發(fā)展白皮書2.智能網(wǎng)卡(SmartNIC)。具備一定的數(shù)據(jù)平面硬件卸載能力,例如
OVS/vRouter
硬件卸載。硬件結(jié)構(gòu)上以
FPGA
或者是帶有
FPGA
和處理器內(nèi)核的集成處理器(這里處理器功能較弱)來實現(xiàn)數(shù)據(jù)面硬件卸載。3.FPGA+CPU
的
DPU
網(wǎng)卡(FPGA-Based
DPU)。兼具智能網(wǎng)卡功能的同時,可以支持?jǐn)?shù)據(jù)面和控制面的卸載以及一定的控制平面與數(shù)據(jù)平面的可編程能力。硬件結(jié)構(gòu)的發(fā)展上,基于
FPGA增加了通用
CPU
處理器,例如
Intel
CPU。4.DPU
SoC
網(wǎng)卡(Single-Chip
DPU)。單芯片的通用可編程
DPU
芯片,具備豐富的硬件卸載加速和可編程能力,支持不同云計算場景和資源統(tǒng)一管理特性。硬件上,采用單芯片的
SoC
形態(tài),兼顧性能和功耗。FPGA-Based
DPU
在硬件設(shè)計上的挑戰(zhàn)主要來自芯片面積和功耗。面積上,PCIe
接口的結(jié)構(gòu)尺寸限定了板上的芯片面積;功耗上,板卡的散熱設(shè)計與芯片和整板的功耗密切相關(guān)。這兩個因素制約著
FPGA
方案的持續(xù)發(fā)展。DPU
SoC方案吸取了從
NIC
到
FPGA-Based
DPU
的發(fā)展過程的軟硬件經(jīng)驗和成果,是目前以
DPU
為中心的數(shù)據(jù)中心架構(gòu)的重要演進路徑。DPU
作為軟件定義芯片的典型代表,基于“軟件定義、硬件加速”的理念,是集數(shù)據(jù)處理為核心功能于芯片的通用處理器。DPU
通用處理單元用來處理控制平面業(yè)務(wù),專用處理單元保證了數(shù)據(jù)平面的處理性能,從而達(dá)到了性能與通用性的平衡。DPU
專用處理單元用來解決通用基礎(chǔ)設(shè)施虛擬化的性能瓶頸,通用處理12DPU
金融行業(yè)發(fā)展白皮書單元則保證
DPU
的通用性,使得
DPU
能夠廣泛適用于云基礎(chǔ)設(shè)施的各種場景中,實現(xiàn)虛擬化軟件框架向
DPU
的平滑遷移。1.NIC的發(fā)展和應(yīng)用傳統(tǒng)基礎(chǔ)網(wǎng)卡
NIC,又稱網(wǎng)絡(luò)適配器,是構(gòu)成計算機網(wǎng)絡(luò)系統(tǒng)中最基本和最重要的連接設(shè)備,其主要工作是將需要傳輸?shù)臄?shù)據(jù)轉(zhuǎn)換為網(wǎng)絡(luò)設(shè)備能夠識別的格式(如圖
2
所示)。圖
2
NIC
在虛擬化中應(yīng)用在網(wǎng)絡(luò)技術(shù)發(fā)展的帶動下,傳統(tǒng)基礎(chǔ)網(wǎng)卡的功能也更加豐富,已經(jīng)初步具備了一些簡單的硬件卸載能力(如
CRC
校驗、TSO/UFO、LSO/LRO、VLAN
等),支持
SR-IOV
和流量管理
QoS,傳統(tǒng)基礎(chǔ)網(wǎng)卡的網(wǎng)絡(luò)接口帶寬也由原來的百兆、千兆發(fā)展到
10G、25G
乃至100G。在云計算虛擬化網(wǎng)絡(luò)中,傳統(tǒng)基礎(chǔ)網(wǎng)卡向虛擬機提供網(wǎng)絡(luò)接入的方式主要分為以下
3
種。13DPU
金融行業(yè)發(fā)展白皮書(1)網(wǎng)卡接收流量經(jīng)操作系統(tǒng)內(nèi)核協(xié)議棧轉(zhuǎn)發(fā)至虛擬機。(2)由
DPDK
用戶態(tài)驅(qū)動接管網(wǎng)卡,讓數(shù)據(jù)包繞過操作系統(tǒng)內(nèi)核協(xié)議棧直接拷貝到虛擬機內(nèi)存。(3)使用
SR-IOV
技術(shù),將物理網(wǎng)卡
PF
虛擬化成多個具有網(wǎng)卡功能的虛擬
VF,再將
VF
直通到虛擬機中。隨著
VxLAN
等隧道協(xié)議以及
OpenFlow、OVS
等虛擬交換技術(shù)的應(yīng)用,網(wǎng)絡(luò)處理的復(fù)雜度在逐漸增大,需要消耗更多的
CPU
資源,因此智能網(wǎng)卡
SmartNIC
誕生了。2.SmartNIC的發(fā)展和應(yīng)用智能網(wǎng)卡
SmartNIC
除了具備傳統(tǒng)基礎(chǔ)網(wǎng)卡的網(wǎng)絡(luò)傳輸功能外,還提供豐富的硬件卸載加速能力,能夠提升云計算網(wǎng)絡(luò)的轉(zhuǎn)發(fā)速率,釋放主機
CPU
計算資源(如圖
3
所示)。圖
3
SmartNIC
在虛擬化中應(yīng)用14DPU
金融行業(yè)發(fā)展白皮書智能網(wǎng)卡
SmartNIC
上沒有通用處理器
CPU,需要主機
CPU進行控制面管理。智能網(wǎng)卡
SmartNIC
主要卸載加速對象是數(shù)據(jù)平面,如虛擬交換機
OVS/vRouter
等數(shù)據(jù)面
Fastpath
卸載、RDMA網(wǎng)絡(luò)卸載、NVMe-oF
存儲卸載以及
IPsec/TLS
數(shù)據(jù)面安全卸載等。但是隨著云計算應(yīng)用中網(wǎng)絡(luò)速率的不斷提高,主機仍會消耗大量寶貴的
CPU
資源對流量進行分類、跟蹤和控制,如何實現(xiàn)主機
CPU
的“零消耗”成了云廠商下一步的研究方向。3.FPGA-Based
DPU網(wǎng)卡的發(fā)展和應(yīng)用相比智能網(wǎng)卡
SmartNIC,F(xiàn)PGA-Based
DPU
網(wǎng)卡在硬件架構(gòu)上增加了通用
CPU
處理單元,組合成
FPGA+CPU
的架構(gòu)形態(tài),從而便于實現(xiàn)對網(wǎng)絡(luò)、存儲、安全和管控等通用基礎(chǔ)設(shè)施的加速和卸載(如圖
4
所示)。圖
4
DPU
在虛擬化中應(yīng)用15DPU
金融行業(yè)發(fā)展白皮書在這個階段中,DPU
的產(chǎn)品形態(tài)主要以
FPGA+CPU
為主?;?/p>
FPGA+CPU
硬件架構(gòu)的
DPU
具有良好的軟硬件可編程性,在
DPU發(fā)展初期大部分
DPU
廠商都選擇了這個方案。該方案開發(fā)時間相對較短且迭代快速,能夠迅速完成定制化功能開發(fā),便于
DPU
廠商快速推出產(chǎn)品,搶占市場。但是隨著網(wǎng)絡(luò)帶寬從
25G
向
100G的遷移,基于
FPGA+CPU
硬件架構(gòu)的
DPU
受到芯片制程和
FPGA
結(jié)構(gòu)的限制,導(dǎo)致在追求更高吞吐能力時,難以做到對芯片面積和功耗的很好控制,從而制約了這種
DPU
架構(gòu)的持續(xù)發(fā)展。4.DPU
SoC網(wǎng)卡的發(fā)展和應(yīng)用DPU
SoC
是基于
ASIC
的硬件架構(gòu),結(jié)合了
ASIC
和
CPU
的優(yōu)勢,兼顧了專用加速器的優(yōu)異性能和通用處理器的可編程靈活性的單芯片
DPU
技術(shù)方案,是驅(qū)動云計算技術(shù)發(fā)展的重要因素。如前一段所述,雖然
DPU
在云計算扮演著重要的作用,但傳統(tǒng)的
DPU
方案多以
FPGA-based
方案呈現(xiàn),隨著服務(wù)器從
25G
向下一代
100G
服務(wù)器遷移,其成本、功耗、功能等諸多方面受到了嚴(yán)重的挑戰(zhàn)。單芯片的
DPU
SoC
不僅在成本、功耗方面有著巨大優(yōu)勢,同時也兼具高吞吐和高靈活編程能力,不僅支持虛擬機、容器的應(yīng)用管理部署,也支持裸金屬應(yīng)用(如圖
5
所示)。16DPU
金融行業(yè)發(fā)展白皮書圖
5
DPU
SoC
在虛擬化和裸金屬中的應(yīng)用隨著
DPU
技術(shù)的不斷發(fā)展,通用可編程的
DPU
SoC
正在成為云廠商在數(shù)據(jù)中心建設(shè)中的關(guān)鍵部件。DPU
SoC
可以實現(xiàn)對數(shù)據(jù)中心中的計算資源和網(wǎng)絡(luò)資源的經(jīng)濟高效管理,具備豐富功能和可編程能力的
DPU
SoC
可以支持不同云計算場景和資源統(tǒng)一管理,優(yōu)化數(shù)據(jù)中心計算資源利用率。(二)DPU
生態(tài)發(fā)展可以看到
DPU
技術(shù)是由需求驅(qū)動,然后快速發(fā)展起來的新技術(shù)形態(tài)。近幾年來,經(jīng)過國內(nèi)外互聯(lián)網(wǎng)公司在不同應(yīng)用場景下的嘗試和驗證,取得了不錯的成本收益。例如在國外
AWS
使用
NitroDPU
系統(tǒng)把網(wǎng)絡(luò)、存儲、安全和監(jiān)控等功能分解并轉(zhuǎn)移到專用的硬件和軟件上,將服務(wù)器上幾乎所有資源都提供給服務(wù)實例,降低了數(shù)據(jù)中心總體的運行成本;在國內(nèi)阿里云發(fā)布了云基礎(chǔ)設(shè)施處理器
CIPU,實現(xiàn)了網(wǎng)絡(luò)、存儲、虛擬化全硬件卸載。17DPU
金融行業(yè)發(fā)展白皮書隨著
DPU
技術(shù)的不斷完善和功能定位的逐步明晰,DPU
的生態(tài)建設(shè)也在積極推進,在行業(yè)內(nèi)取得了很大的進展。在國外,首先
Nvidia
推動
DOCA
軟件棧的發(fā)展,促進和降低終端用戶對
DPU
的使用門檻。從
CUDA
軟件生態(tài)之于
Nvidia
GPU的作用,可以看到
DPU
軟件生態(tài)對
DPU
技術(shù)發(fā)展的重要性,因此DOCA
廣泛受到了業(yè)界的持續(xù)關(guān)注。其次,除了
DOCA
之外,OPI(Open
Programmable
Infrastructure,開放可編程基礎(chǔ)設(shè)施),在
2022
年
6
月由
Linux
基金會發(fā)布,旨在為基于
DPU/IPU
等可編程硬件承載的軟件開發(fā)框架培育一個由社區(qū)驅(qū)動的開放生態(tài),簡化應(yīng)用程序中的網(wǎng)絡(luò)、存儲和安全
API,從而在開發(fā)運維、安全運維以及網(wǎng)絡(luò)運維之間的云和數(shù)據(jù)中心中實現(xiàn)更具可移植性和高性能的應(yīng)用程序。在國內(nèi),也在積極推進
DPU
產(chǎn)業(yè)的軟件生態(tài)建設(shè)。例如,2023年
6
月
ODPU
作為算網(wǎng)云開源操作系統(tǒng)(CNCOS)項目
1.0
的子項進行了發(fā)布,在
DPU
管理、計算卸載、存儲卸載、網(wǎng)絡(luò)卸載、安全卸載和
RDMA
支持等方面提供通用軟件開發(fā)框架和兼容性接口。與此同時,如中國信息通信研究院、中國通信標(biāo)準(zhǔn)化協(xié)會等部門和組織,也在制定積極制定相應(yīng)的標(biāo)準(zhǔn),從多個維度,例如兼容性規(guī)范、硬件編程規(guī)范、應(yīng)用生態(tài)接口規(guī)范等維度,來實現(xiàn)
DPU的軟硬件解耦和互聯(lián)互通的互操作能力。當(dāng)前,國內(nèi)外都在圍繞著
DPU
這個新興技術(shù)積極推進相關(guān)軟硬件生態(tài)的開發(fā)和迭代。并且,立足于國內(nèi),無論從行業(yè)本身還18DPU
金融行業(yè)發(fā)展白皮書是來自政策的引導(dǎo),都在積極推動著
DPU
的生態(tài)建設(shè)和標(biāo)準(zhǔn)化進程。不過需要強調(diào)的是,目前
DPU
的生態(tài)發(fā)展還處在早期。軟硬件都還面臨諸多挑戰(zhàn)。例如在硬件層面,服務(wù)器中的電源管理、BMC
帶外管控邏輯與
DPU
的需求并不完全匹配;在軟件層面還沒有形成統(tǒng)一的軟件棧(包括
SDK
和運行時環(huán)境),也沒有完善的定義清晰的
API
接口實現(xiàn)與云平臺軟件系統(tǒng)的兼容性對接;在操作系統(tǒng)層面,例如
Linux、windows、VMware
以及各類國產(chǎn)操作系統(tǒng)(OpenEuler
等),也面臨適配的需求。長期來看,DPU
生態(tài)建設(shè)是一個不斷迭代長期完善的過程。(三)DPU
典型案例在
DPU
的設(shè)計、開發(fā)和使用中,國內(nèi)外芯片巨頭和頭部云服務(wù)商都投入了大量的研發(fā)資源,經(jīng)過不斷探索和實踐,取得了很好的成本收益。1.DPU在AWS(亞馬遜云)中的應(yīng)用AWS
是全球領(lǐng)先的云計算服務(wù)和解決方案提供商,AWS
NitroDPU
系統(tǒng)已經(jīng)成為
AWS
云服務(wù)的技術(shù)基石。AWS
借助
Nitro
DPU系統(tǒng)把網(wǎng)絡(luò)、存儲、安全和監(jiān)控等功能分解并轉(zhuǎn)移到專用的硬件和軟件上,將服務(wù)器上幾乎所有資源都提供給服務(wù)實例,極大地降低了成本。Nitro
DPU
在亞馬遜云中的應(yīng)用可以使一臺服務(wù)器每年可以多獲得幾千美元的收益。19DPU
金融行業(yè)發(fā)展白皮書圖
6
AWS
Nitro
DPU(來源
AWS
官網(wǎng))Nitro
DPU
系統(tǒng)主要分為以下幾個部分(如圖
6
所示)。(1)Nitro
卡。一系列用于網(wǎng)絡(luò)、存儲和管控的專用硬件,以提高整體系統(tǒng)性能。(2)Nitro
安全芯片。將虛擬化和安全功能轉(zhuǎn)移到專用的硬件和軟件上,減少攻擊面,實現(xiàn)安全的云平臺。(3)Nitro
控制卡。一種輕量型
Hypervisor
管理程序,可以管理內(nèi)存和
CPU
的分配,并提供與裸機無異的性能。Nitro
DPU
系統(tǒng)提供了密鑰、網(wǎng)絡(luò)、安全、服務(wù)器和監(jiān)控等功能支持,釋放了底層服務(wù)資源供客戶的虛擬機使用,并且
NitroDPU
使
AWS
可以提供更多的裸金屬實例類型,甚至將特定實例的網(wǎng)絡(luò)性能提升到
100Gbps。2.Nvidia
DPU的應(yīng)用Nvidia
是一家以設(shè)計和銷售圖形處理器
GPU
為主的半導(dǎo)體公司,GPU
產(chǎn)品在
AI
和高性能計算
HPC
領(lǐng)域被廣泛應(yīng)用。2020年
4
月,Nvidia
以
69
億美元的價格收購了網(wǎng)絡(luò)芯片和設(shè)備公司Mellanox,隨后陸續(xù)推出
BlueField
系列
DPU。20DPU
金融行業(yè)發(fā)展白皮書圖
7
Nvidia
BlueField-3
DPU
介紹(來源
Nvidia
官網(wǎng))Nvidia
BlueField-3
DPU(如圖
7
所示)延續(xù)了
BlueField-2DPU
的先進特性,是首款為
AI
和加速計算而設(shè)計的
DPU
。BlueField-3
DPU
提供了最高
400Gbps
網(wǎng)絡(luò)連接,可以卸載、加速和隔離,支持軟件定義網(wǎng)絡(luò)、存儲、安全和管控功能。3.Intel
IPU的應(yīng)用Intel
IPU
是一種具有硬化加速器和以太網(wǎng)連接的高級網(wǎng)絡(luò)設(shè)備,可使用緊密耦合的專用可編程內(nèi)核來加速和管理基礎(chǔ)設(shè)施功能。IPU
提供完整的基礎(chǔ)設(shè)施卸載,并充當(dāng)運行基礎(chǔ)設(shè)施應(yīng)用的主機控制點,以提供額外的安全層。使用
Intel
IPU,可以將全部基礎(chǔ)設(shè)施業(yè)務(wù)從服務(wù)器卸載到
IPU
上,釋放服務(wù)器
CPU
資源,也為云服務(wù)提供商提供了一個獨立且安全的控制點。21DPU
金融行業(yè)發(fā)展白皮書圖
8
Intel
IPU
產(chǎn)品
roadmap(來源
Intel
官網(wǎng))2021
年,Intel
在
Intel
Architecture
Day
上發(fā)布了
OakSprings
Canyon
和
Mount
Evans
IPU
產(chǎn)品(如圖
8
所示)。其中,Oak
Springs
Canyon
是基于
FPGA
的
IPU
產(chǎn)品,Mount
EvansIPU
是基于
ASIC
的
IPU
產(chǎn)品。Intel
Oak
Springs
Canyon
IPU
配備了
Intel
Agilex
FPGA和
Xeon-D
CPU。Intel
Mount
Evans
IPU
是
Intel
與
共同設(shè)計的
SoC
(System-on-a-Chip),Mount
Evans
主要分為
IO子系統(tǒng)和計算子系統(tǒng)兩個部分。網(wǎng)絡(luò)部分用
ASIC
進行數(shù)據(jù)包處理,性能相比
FPGA
高很多,且功耗更低。計算子系統(tǒng)使用了
16個
ARM
Neoverse
N1
核心,擁有極強的計算能力。4.DPU在阿里云中的應(yīng)用阿里云也在
DPU
的技術(shù)上不斷進行著探索。2022
年阿里云峰會上,阿里云正式發(fā)布了云基礎(chǔ)設(shè)施處理器
CIPU,CIPU
的前22DPU
金融行業(yè)發(fā)展白皮書身是基于神龍架構(gòu)的
MoC
卡(Micro
Server
on
a
Card),從功能和定位符合
DPU
的定義。MoC
卡擁有獨立的
IO、存儲和處理單元,承擔(dān)了網(wǎng)絡(luò)、存儲和設(shè)備虛擬化的工作。第一代和第二代MoC
卡解決了狹義上的計算虛擬化零開銷問題,網(wǎng)絡(luò)和存儲部分的虛擬化仍由軟件實現(xiàn)。第三代
MoC
卡實現(xiàn)了部分網(wǎng)絡(luò)轉(zhuǎn)發(fā)功能硬化,網(wǎng)絡(luò)性能大幅提升。第四代
MoC
卡實現(xiàn)了網(wǎng)絡(luò)、存儲全硬件卸載,還支持了
RDMA
能力。阿里云
CIPU
作為一顆為飛天系統(tǒng)設(shè)計的數(shù)據(jù)中心處理器系統(tǒng),對于阿里云構(gòu)建新一代完整的軟硬件云計算架構(gòu)體系有著重大意義。5.DPU在火山引擎中的應(yīng)用火山引擎同樣在不斷探索自研
DPU
的道路,其自研
DPU
采用軟硬一體虛擬化技術(shù),旨在為用戶提供可彈性伸縮的高性能計算服務(wù)。在火山引擎彈性計算產(chǎn)品中,第二代彈性裸金屬服務(wù)器和第三代云服務(wù)器都搭載了自研
DPU,在產(chǎn)品能力和應(yīng)用場景上進行了廣泛驗證。2022
年正式對外商用的火山引擎第二代
EBM
實例首次搭載火山自研
DPU,在整體性能上既保留了傳統(tǒng)物理機的穩(wěn)定性和安全性優(yōu)勢,能夠?qū)崿F(xiàn)安全物理隔離,又兼具虛擬機的彈性和靈活性優(yōu)勢,是新一代多優(yōu)勢兼具的高性能云服務(wù)器。2023
年上半年發(fā)布的火山引擎第三代
ECS
實例同樣結(jié)合了火山引擎自研最新
DPU
的架構(gòu)和自研虛擬交換機、虛擬化技術(shù),網(wǎng)絡(luò)及存儲
IO
性能均實現(xiàn)了大幅提升。23DPU
金融行業(yè)發(fā)展白皮書三、基于DPU構(gòu)建綠色低碳金融云近年來,為落實雙碳等國家重大戰(zhàn)略,金融業(yè)積極實施綠色發(fā)展轉(zhuǎn)型。數(shù)據(jù)中心作為金融業(yè)的關(guān)鍵基礎(chǔ)設(shè)施以及數(shù)字經(jīng)濟的重要基礎(chǔ),是金融業(yè)發(fā)展和數(shù)字化轉(zhuǎn)型中的重要抓手。而在數(shù)字化轉(zhuǎn)型中,數(shù)據(jù)中心一方面需要支撐大量數(shù)據(jù)吞吐和運算能力,另一方面還要面對來自服務(wù)器等
IT
產(chǎn)品的散熱與功耗挑戰(zhàn),需要大量運維成本和能源消耗,已經(jīng)成為金融機構(gòu)的主要開支。黨的二十大報告最新提出,要加快發(fā)展方式綠色轉(zhuǎn)型,完善支持綠色發(fā)展的金融政策和標(biāo)準(zhǔn)體系,發(fā)展綠色低碳產(chǎn)業(yè)。如何讓金融業(yè)數(shù)據(jù)中心建設(shè)既滿足大量數(shù)據(jù)吞吐和運算能力的要求,又滿足綠色低碳的發(fā)展方針成為當(dāng)前一大難題。當(dāng)前金融云計算平臺架構(gòu)體系可分為基礎(chǔ)硬件設(shè)施與設(shè)備、資源抽象與控制、云服務(wù)、運維運營管理等部分(如圖
9
所示)。圖
9
云計算平臺架構(gòu)體系DPU
具備高效數(shù)據(jù)處理、內(nèi)置安全、網(wǎng)絡(luò)可編程、彈性資源24DPU
金融行業(yè)發(fā)展白皮書調(diào)度等能力,作為資源調(diào)度的中心,可以將計算、存儲、網(wǎng)絡(luò)等硬件設(shè)備與云計算架構(gòu)中的資源抽象層有機結(jié)合起來(如圖
10所示),充分利用軟件定義計算、軟件定義網(wǎng)絡(luò)、軟件定義存儲等技術(shù)提升資源利用率,使得金融云更加靈活彈性,從而助力金融業(yè)建設(shè)綠色、安全和高效的數(shù)據(jù)中心,積極踐行國家戰(zhàn)略。圖
10
基于
DPU
的云平臺架構(gòu)體系(一)統(tǒng)一部署彈性調(diào)度隨著云原生技術(shù)的快速發(fā)展和大規(guī)模應(yīng)用,當(dāng)前云原生在金融行業(yè)中的落地應(yīng)用也越來越多,通過將云計算、大數(shù)據(jù)、區(qū)塊鏈等技術(shù)和云原生理念有機結(jié)合在一起,以實現(xiàn)數(shù)據(jù)中心計算、存儲、網(wǎng)絡(luò)等資源的彈性調(diào)度和彈性伸縮,從而構(gòu)建跨層級、跨區(qū)域的智能化云原生數(shù)據(jù)中心,最終提升金融行業(yè)的運營效率。云原生技術(shù)平臺可以通過混合云對接多種基礎(chǔ)設(shè)施,例如容器、虛擬機、裸金屬服務(wù)器等計算資源。用戶可以通過申請或釋25DPU
金融行業(yè)發(fā)展白皮書放云化的計算資源來實現(xiàn)成本的最優(yōu)化,同時通過云原生的混合調(diào)度能力實現(xiàn)各種資源的個性化配置,做到業(yè)務(wù)的多樣化部署。在傳統(tǒng)的數(shù)據(jù)中心中,要滿足云原生架構(gòu)下不同業(yè)務(wù)對計算資源的個性化需求,一般需要對整個數(shù)據(jù)中心的資源進行預(yù)先分配,劃分出容器、虛擬機、裸金屬服務(wù)器所占資源的比例,并以此比例注冊相應(yīng)的計算資源。同時,為了實現(xiàn)裸金屬服務(wù)器和虛擬化平臺或者容器云平臺的互通,一般需要為裸金屬服務(wù)器單獨劃定專用的物理交換機來實現(xiàn)裸金屬服務(wù)器與虛擬化網(wǎng)絡(luò)的互通(如圖
11
所示)。在這種架構(gòu)下,虛擬機、容器、裸金屬服務(wù)器所使用的資源都是預(yù)先固定的,因此計算資源的類型屬于不可調(diào)度狀態(tài),并不符合云原生的理念。在云原生時代,應(yīng)用的發(fā)展非常迅速,而計算資源實例類型的使用是不可預(yù)測的,很可能出現(xiàn)虛擬化資源不夠滿足需求的情況,而為了滿足虛擬化資源就只能通過增加虛擬化服務(wù)器來解決資源不足的問題。而此時,若裸金屬或者容器所預(yù)先分配的資源處于空閑狀態(tài),但因為物理上的預(yù)先限制而無法轉(zhuǎn)換為虛擬化所需要的資源,依然會占用數(shù)據(jù)中心的空間和運維等成本,導(dǎo)致計算資源沒有完全充分利用,最終出現(xiàn)數(shù)據(jù)中心的整體利用率不高,而所消耗的運維和能源成本卻很高的情況。26DPU
金融行業(yè)發(fā)展白皮書圖
11
傳統(tǒng)數(shù)據(jù)中心架構(gòu)為使云原生技術(shù)在金融行業(yè)實現(xiàn)標(biāo)計算資源標(biāo)準(zhǔn)化和更加靈活的彈性調(diào)度,并能更好地支撐對計算、網(wǎng)絡(luò)和存儲等資源進行彈性伸縮,同時又降本增效,讓數(shù)據(jù)中心的計算資源發(fā)揮更大的價值,DPU
應(yīng)運而生。在以
DPU
為中心構(gòu)建云原生金融數(shù)據(jù)中心的架構(gòu)下(如圖12
所示),數(shù)據(jù)中心的建設(shè)從一開始就不需要從硬件層面預(yù)分配虛擬機、容器、裸金屬服務(wù)器等計算資源,特別是裸金屬服務(wù)器不再需要為其單獨配置專用的交換機以及相應(yīng)的裸金屬鏡像PXE
服務(wù)器。通過
DPU
特有的云盤啟動能力支持,能夠以分鐘級提供裸金屬計算實例,同時
DPU
能夠為裸金屬實例提供彈性磁盤和彈性網(wǎng)卡,大幅降低了運維和部署的成本和復(fù)雜度。此外,DPU內(nèi)置虛擬交換機,用戶可以根據(jù)自己的需要配置相應(yīng)的虛擬網(wǎng)絡(luò),實現(xiàn)原先需要專用交換機才能實現(xiàn)的功能。27DPU
金融行業(yè)發(fā)展白皮書圖
12
基于
DPU
的金融云架構(gòu)通過
DPU
對數(shù)據(jù)中心的計算資源虛擬機、容器、裸金屬服務(wù)器進行統(tǒng)一并池管理,可以大幅提升數(shù)據(jù)中心空間利用率,降低數(shù)據(jù)中心能耗,使得數(shù)據(jù)中心運維更加簡單方便,實現(xiàn)從數(shù)據(jù)中心建設(shè)層面踐行云原生的理念,打造符合金融行業(yè)綠色、高效、靈活、高度集成的云原生數(shù)據(jù)中心。(二)計算實例高可用金融云平臺對外提供的計算實例主要包括虛擬機、容器
、裸金屬。在以
DPU
為中心構(gòu)建的數(shù)據(jù)中心,通過
DPU
的云盤啟動能力,每臺服務(wù)器可以進行分鐘級別的靈活調(diào)整,切換角色。根據(jù)該特性,云平臺對裸金屬實例進行生命周期管理,當(dāng)發(fā)現(xiàn)服務(wù)器故障或裸金屬實例不可達(dá)時,首先通過云平臺的高可用機制將業(yè)務(wù)引導(dǎo)到正常狀態(tài)節(jié)點,同時利用
DPU
提供的云盤啟動方式將故障的裸金屬實例在另外的服務(wù)器迅速拉起恢復(fù)業(yè)務(wù)集群到正常28DPU
金融行業(yè)發(fā)展白皮書狀態(tài),實現(xiàn)裸金屬實例的高可用。在虛擬機實例方面,DPU
提供硬件級熱遷移能力,可以將使用
Passthrough
技術(shù)的虛擬機根據(jù)需要遷移到合適的節(jié)點,在遷移過程中業(yè)務(wù)不中斷。依靠該特性,云平臺在監(jiān)控到宿主機異?;蛱摂M機異常后,對虛擬機進行熱遷移以實現(xiàn)虛擬機實例對外業(yè)務(wù)的高可用。在容器實例方面,通過把
service
mesh
卸載到
DPU
將多個由
DPU
提供網(wǎng)絡(luò)和存儲的容器構(gòu)建為一個服務(wù)網(wǎng)格,通過服務(wù)鏈的方式提供對外服務(wù),當(dāng)出現(xiàn)容器故障時,利用
service
mesh
的自動選路功能保證對外服務(wù)正常工作,同時利用云原生平臺提供的容器副本監(jiān)控機制可以快速的將故障容器進行重建,在這兩種機制的配合下保證容器實例的高可用。(三)加速云原生網(wǎng)絡(luò)隨著云計算和容器化技術(shù)的發(fā)展,云原生架構(gòu)已經(jīng)成為現(xiàn)代應(yīng)用程序的主流架構(gòu)之一。云原生網(wǎng)絡(luò)是一種專門為云原生應(yīng)用程序設(shè)計的網(wǎng)絡(luò)架構(gòu),是指在云環(huán)境下構(gòu)建、管理和運行應(yīng)用程序的網(wǎng)絡(luò)。這種網(wǎng)絡(luò)的特點是高度自動化和可編程,以適應(yīng)云原生下快速變化的應(yīng)用需求和規(guī)模。在云原生網(wǎng)絡(luò)中,網(wǎng)絡(luò)功能通常以虛擬化的方式存在,以提供更好的靈活性并做到兼容原有的物理網(wǎng)絡(luò)設(shè)備。在云原生大浪潮下,金融業(yè)務(wù)相較于傳統(tǒng)金融業(yè)務(wù)更加多元化和規(guī)模化,需要更靈活、敏捷的業(yè)務(wù)和技術(shù)架構(gòu)來支撐。傳統(tǒng)的集中式單體業(yè)務(wù)架構(gòu)和多層架構(gòu)已經(jīng)無法滿足業(yè)務(wù)變化和行29DPU
金融行業(yè)發(fā)展白皮書業(yè)發(fā)展的需求。云原生的應(yīng)用程序通常采用分布式微服務(wù)架構(gòu),一個應(yīng)用程序由多個微服務(wù)組成,這些微服務(wù)之間會頻繁地通信和交換,這種架構(gòu)的特點是能夠提升應(yīng)用程序的可伸縮性和靈活性,這就對網(wǎng)絡(luò)提出了更高的要求,要做到穩(wěn)定、高帶寬和低時延。目前主流的網(wǎng)絡(luò)方案還是基于內(nèi)核協(xié)議?;蛘咛摂M交換機,當(dāng)業(yè)務(wù)對帶寬和時延的要求比較高時,當(dāng)前架構(gòu)就無法滿足應(yīng)用程序?qū)W(wǎng)絡(luò)的需求。特別是在統(tǒng)一資源管理的需求下,容器
、虛擬機、裸金屬服務(wù)器需要在同一網(wǎng)絡(luò)平面下,若虛擬機使用虛擬網(wǎng)卡的方式接入網(wǎng)絡(luò),網(wǎng)絡(luò)的帶寬和時延都不能得到保證。為了滿足應(yīng)用程序的網(wǎng)絡(luò)需求,只能增加更多的工作負(fù)載,這在另一種程度上降低了數(shù)據(jù)中心的真實利用率,并帶來了更多的運維和能耗成本。DPU
作為數(shù)據(jù)處理的核心,借由半虛擬化幾乎能夠達(dá)到物理設(shè)備性能的特性,DPU
為主機側(cè)提供硬件實現(xiàn)的半虛擬化設(shè)備virtio-net,使容器、裸金屬服務(wù)器和虛擬機都使用統(tǒng)一的網(wǎng)絡(luò)設(shè)備類型進行通信。另外,DPU
內(nèi)置硬件包處理引擎,可以做到完全卸載虛擬交換機的快速路徑到硬件,實現(xiàn)高帶寬、低時延的可編程虛擬網(wǎng)絡(luò)(如圖
13
所示)。30DPU
金融行業(yè)發(fā)展白皮書圖
13
基于
DPU
的網(wǎng)絡(luò)卸載加速(四)加速云原生存儲云原生存儲是一種針對云原生應(yīng)用設(shè)計的存儲架構(gòu),可更好地適應(yīng)動態(tài)的云環(huán)境,提高應(yīng)用的可用性和可伸縮性。云原生存儲通常采用分布式存儲技術(shù),將數(shù)據(jù)分散存儲在多個節(jié)點上,提高存儲系統(tǒng)的可靠性和可用性,并支持動態(tài)擴展和收縮。常見的云原生存儲技術(shù)包括如下幾種。1.對象存儲(Object
Storage)。對象存儲是一種分布式存儲方式,將數(shù)據(jù)分散存儲在多個節(jié)點上,并使用元數(shù)據(jù)管理數(shù)據(jù)。對象存儲通常具有高可靠性、高擴展性、高性能和低成本等優(yōu)點,適用于存儲非結(jié)構(gòu)化數(shù)據(jù)。2.分布式塊存儲(Distributed
Block
Storage)。分布式塊存儲將數(shù)據(jù)分割成塊,然后將塊分散存儲在多個節(jié)點上,可以提供高可靠性和高性能,適用于存儲結(jié)構(gòu)化數(shù)據(jù)和虛擬機磁盤。3.分布式文件系統(tǒng)(Distributed
File
System)。分布式文件系統(tǒng)將文件分散存儲在多個節(jié)點上,并提供文件系統(tǒng)接口,31DPU
金融行業(yè)發(fā)展白皮書支持多個客戶端訪問,可以提供高可靠性和高性能,適用于存儲大型文件和共享文件。其中虛擬機、裸金屬服務(wù)器以及一些應(yīng)用對塊存儲的性能和延遲、兼容性和互操作性有強烈的需求。目前為了應(yīng)對這些挑戰(zhàn),普遍的做法是優(yōu)化存儲協(xié)議、緩存,采用支持多種存儲協(xié)議和接口的分布式存儲系統(tǒng)。但隨著數(shù)據(jù)規(guī)模和數(shù)量越來越大,各種應(yīng)用對存儲的帶寬、時延等性能指標(biāo)的要求越來越高,存儲系統(tǒng)也變得越來越龐大和復(fù)雜。DPU
作為數(shù)據(jù)處理的核心,一方面可以對裸金屬服務(wù)器、虛擬機提供標(biāo)準(zhǔn)的半虛擬化設(shè)備
virtio-blk
和
nvme
設(shè)備,同時這些設(shè)備的存儲后端通過
DPU
可連接各種存儲后端(如
iSCSI、NVME、RBD
等
),從而節(jié)省大量的非計算損耗。另一方面,通過
DPU
提供的
RDMA
技術(shù)和內(nèi)置的存儲協(xié)議加速引擎,為計算實例提供高帶寬、低時延的數(shù)據(jù)讀寫,提升數(shù)據(jù)中心存儲資源的效率,降低數(shù)據(jù)中心存儲資源的運維和能耗等成本(如圖
14
所示)。圖
14
基于
DPU
的存儲卸載加速32DPU
金融行業(yè)發(fā)展白皮書(五)加速微服務(wù)應(yīng)用伴隨著云原生和微服務(wù)的技術(shù)在金融行業(yè)的普及,以及服務(wù)網(wǎng)格(Service
Mesh)技術(shù)的逐漸成熟,解決了金融行業(yè)分布式系統(tǒng)的歷史包袱。服務(wù)網(wǎng)格架構(gòu)引入
SideCar
使現(xiàn)有的服務(wù)可以在不改造的情況下引入了服務(wù)治理能力,大大降低了中間件的研發(fā)投入和演進成本,也降低了業(yè)務(wù)和中間件的耦合,基礎(chǔ)架構(gòu)與業(yè)務(wù)架構(gòu)可以獨立演進。服務(wù)網(wǎng)格架構(gòu)也為多語言棧提供了服務(wù)治理能力。面向大規(guī)模金融級的微服務(wù)應(yīng)用,引入新系統(tǒng)架構(gòu)服務(wù)網(wǎng)格以實現(xiàn)分布式平臺的架構(gòu)轉(zhuǎn)型和技術(shù)組件能力進化。服務(wù)網(wǎng)格通過
SideCar
接管業(yè)務(wù)進程的出入口流量,將微服務(wù)治理的邏輯從業(yè)務(wù)中獨立出來,由服務(wù)網(wǎng)格框架提供服務(wù)鑒定、過載保護、負(fù)載均衡等分布式服務(wù)治理的功能。盡管
Sidecar
在服務(wù)網(wǎng)格中帶來許多好處,但它也可能會帶來一些缺點。其中一種常見的缺點是延遲,這主要是因為許多服務(wù)網(wǎng)格解決方案需要通過Sidecar
來處理網(wǎng)絡(luò)流量、域名解析和負(fù)載均衡等復(fù)雜的工作。當(dāng)本來應(yīng)該直接在進程內(nèi)部完成的工作被轉(zhuǎn)移到了
Sidecar
中時,會額外增加一定的延遲。另外,在高負(fù)載情況下,Sidecar
還可能成為瓶頸,導(dǎo)致服務(wù)的性能下降。并且,隨著微服務(wù)規(guī)模不斷擴大,服務(wù)網(wǎng)格資源占用量較大的問題逐漸凸顯,同時由于服務(wù)網(wǎng)格代理進程與業(yè)務(wù)進程部署在一起共享資源,也存在相互影響的情況。33DPU
金融行業(yè)發(fā)展白皮書利用
DPU
異構(gòu)計算進行卸載和加速的技術(shù)正不斷發(fā)展和演進,通過將
SideCar
卸載到
DPU
上,業(yè)務(wù)和服務(wù)網(wǎng)格的關(guān)系從“邏輯隔離”演進為“物理隔離”,服務(wù)器上只運行業(yè)務(wù)邏輯。在保持多語言的
RPC
SDK
向業(yè)務(wù)輸出能力的同時,對于卸載到DPU
上的
SideCar
部分,通過軟硬件結(jié)合等方式,將
SideCar重復(fù)性、高頻的操作用硬件卸載和加速,從而解決了服務(wù)網(wǎng)格鏈路延遲和資源隔離的問題。(六)加速云原生安全云原生作為一種新的軟件開發(fā)和部署理念,它強調(diào)應(yīng)用程序的可移植性、可擴展性和彈性。云原生環(huán)境中有許多不同的組件和服務(wù),包括容器、微服務(wù)、自動化部署工具等。這些新的組件和服務(wù)使得安全方面的需求也發(fā)生了變化。金融行業(yè)是對安全性要求最高的行業(yè)之一,因此金融行業(yè)的云原生架構(gòu)需要具備高可用、高可靠、高安全等特點,需要采用一系列安全解決方案來保證整個云原生平臺的安全性。在云原生網(wǎng)絡(luò)中,mTLS
是確保云原生應(yīng)用程序中微服務(wù)之間的通信安全的首選協(xié)議。DPU
作為云原生架構(gòu)中數(shù)據(jù)處理的核心,對虛擬機、容器、裸金屬網(wǎng)絡(luò)進行卸載加速的同時,可以將mTLS
卸載到
DPU
上,加速微服務(wù)安全應(yīng)用,可以將
IPS,防病毒,防火墻等安全軟件部署在
DPU
上并使用
DPI
硬件引擎進行加速,將計算實例產(chǎn)生的流量導(dǎo)入到這些安全軟件中,從而構(gòu)建零信任的網(wǎng)絡(luò)解決方案,對東西向流量進行節(jié)點級的防護。同時,DPU34DPU
金融行業(yè)發(fā)展白皮書支持國密硬件引擎,能夠為數(shù)據(jù)的加解密提供更高安全的防護。(七)加速大模型訓(xùn)練隨著
AI
模型的規(guī)模越來越大,分布式訓(xùn)練成為
AI
大模型訓(xùn)練的主要方式。所謂分布式訓(xùn)練,即跨越單臺
GPU
服務(wù)器的算力限制,使用數(shù)據(jù)中心不同的物理服務(wù)器的
GPU
算力卡,通過高速低延遲網(wǎng)絡(luò)及存儲構(gòu)建
GPU
計算集群,實現(xiàn)更大規(guī)模的、多機多卡的
GPU
并行計算。通過
GPU
分布式訓(xùn)練技術(shù),可以在更短時間內(nèi)將模型訓(xùn)練到滿足工業(yè)級應(yīng)用的精度。GPU
分布式訓(xùn)練優(yōu)化涉及計算、網(wǎng)絡(luò)、存儲硬件層面,也包括數(shù)據(jù)并行、模型并行、GPU參數(shù)同步通信的算法和軟件實現(xiàn)層面,GPU
集群任何一點出現(xiàn)性能短板,都可能會成為整體訓(xùn)練過程中的性能瓶頸關(guān)鍵點,其中,“內(nèi)存墻”與“通信墻”是
GPU
分布式訓(xùn)練最主要的性能瓶頸點。為了解決“內(nèi)存墻”與“通信墻”,通常會使用
RDMA
技術(shù)和
100G
帶寬的網(wǎng)卡。傳統(tǒng)的
RDMA
網(wǎng)卡通過
SR-IOV
技術(shù)可以拆分出多個
VF
以供虛擬機使用。在云原生架構(gòu)下,為了資源利用率的最大化,大模型的訓(xùn)練需要做到快速部署訓(xùn)練,需要每個容器、虛擬機都有使用
RDMA
設(shè)備的能力,DPU
通??梢灾С稚锨€
RDMA
設(shè)備可以充分滿足通信需求。同時,通過基于
DPU
的內(nèi)存和存儲交換方案,可以加速
GPU
與存儲設(shè)備之間,GPU
與
GPU之間的信息交換,降低通信時延,從而降低大模型訓(xùn)練的消耗時間。35DPU
金融行業(yè)發(fā)展白皮書(八)提升計算資源利用率虛擬化和容器化是云原生技術(shù)的核心技術(shù)之一,通過虛擬化技術(shù)和容器化技術(shù)提供的計算資源是云計算基礎(chǔ)設(shè)施的核心組成部分,也是計算能力的基礎(chǔ)。充分利用計算資源是云計算技術(shù)一直努力的方向。當(dāng)前主要通過以下途徑來提升計算資源的利用率。1.資源虛擬化。通過虛擬化技術(shù),可以將物理計算資源劃分為多個虛擬計算資源,從而使得計算資源可以更好地被多個租戶共享,提高計算資源的利用率。2.彈性計算。通過資源動態(tài)調(diào)度技術(shù),根據(jù)應(yīng)用程序的需要動態(tài)調(diào)整計算資源的分配,從而實現(xiàn)計算資源的最大化利用,減少計算資源浪費,提高計算資源利用率。3.自動化管理。通過自動化管理技術(shù),減少人工操作和管理通過自動化方式完成計算資源的管理和調(diào)度,提高計算資源的利用率。隨著云原生業(yè)務(wù)的發(fā)展和應(yīng)用,云原生業(yè)務(wù)也變得越來越龐大和復(fù)雜,各個應(yīng)用對網(wǎng)絡(luò)和存儲等
IO
的需求也越來越高,單臺服務(wù)的帶寬需求開始從
10Gb
到
25Gb
甚至
100Gb、200Gb
開始轉(zhuǎn)變。為了應(yīng)對網(wǎng)絡(luò)和存儲對帶寬的挑戰(zhàn),各種解決方案也應(yīng)運而生(如圖
15
所示),比如網(wǎng)絡(luò)使用
XDP
技術(shù)加速內(nèi)核協(xié)議棧,使用
DPDK
技術(shù)旁路內(nèi)核協(xié)議棧,存儲采用
RoCEv2
來加速存儲提供更低的帶寬和時延等。36DPU
金融行業(yè)發(fā)展白皮書圖
15
旁路內(nèi)核加速數(shù)據(jù)處理但這些軟件方案隨著云原生業(yè)務(wù)對帶寬的要求越來越高,也逐漸面臨很多問題。以一臺
56
核的服務(wù)器,采用
DPDK
技術(shù)對網(wǎng)絡(luò)進行加速為例:單服務(wù)器帶寬需求為
10Gb
時,需要消耗大概4
個核作為網(wǎng)絡(luò)轉(zhuǎn)發(fā)、52
核作為業(yè)務(wù),計算資源利用率為
92%;單服務(wù)器帶寬需求為
25Gb
時,需要消耗大概
10
個核作為網(wǎng)絡(luò)轉(zhuǎn)發(fā)、46
核作為業(yè)務(wù),計算資源利用率為
82%;當(dāng)服務(wù)器帶寬需求為
100Gb
時,可能需要消所有的
CPU
核作為網(wǎng)絡(luò)轉(zhuǎn)發(fā),已經(jīng)沒有資源留給業(yè)務(wù)了(如圖
16
所示)。37DPU
金融行業(yè)發(fā)展白皮書圖
16
基于
CPU
轉(zhuǎn)發(fā)的
CPU
利用率圖
12
基于
HOST
轉(zhuǎn)發(fā)的
CPU
利用率從以上案例中可以看到,隨著
IO
的越大,傳統(tǒng)的各種
IO
加速方案已經(jīng)不再適用,如果不引入新的解決方案,那么只能靠更多、更強的服務(wù)器來滿足業(yè)務(wù)的
IO
需求,這使得數(shù)據(jù)中心的真實計算資源利用率十分低下,并大幅提升數(shù)據(jù)中心的能耗和運維成本。DPU
作為數(shù)據(jù)處理的核心,內(nèi)置可編程報文處理引擎,可以將網(wǎng)絡(luò)、存儲所消耗的
IO
資源全部卸載到
DPU
上,完全釋放服務(wù)器的
CPU
資源,讓云原生業(yè)務(wù)可以
100%利用服務(wù)器的計算資源(如圖
17
所示)。38DPU
金融行業(yè)發(fā)展白皮書圖
17
基于
DPU
轉(zhuǎn)發(fā)的
CPU
利用率在以
DPU
為中心的數(shù)據(jù)中心架構(gòu)下,所有
IO
由
DPU
來處理和加速,一方面因為
DPU
低功耗的特點,數(shù)據(jù)中心
IO
的能耗可以大幅降低。另一方面,計算資源可以
100%用于計算,這提升了單臺服務(wù)器的計算密度,與同等規(guī)模的數(shù)據(jù)中心相比,該架構(gòu)可以提供更多的計算資源,提升數(shù)據(jù)中心的計算資源利用率。以構(gòu)建一個
1000
臺服務(wù)器的
IaaS
集群,每臺服務(wù)器
80core的硬件配置為例,每臺服務(wù)器要預(yù)留出
20%左右的資源給虛擬機的網(wǎng)絡(luò)、存儲和虛擬機生命周期管理。當(dāng)前服務(wù)器的網(wǎng)絡(luò)帶寬一般在
100
萬
pps
左右,按照
2vcore,4G
內(nèi)存的虛擬機規(guī)格可以分出
30
個左右網(wǎng)絡(luò)帶寬為
5MB(3
萬
pps)帶寬的虛擬機。宿主機
CPU
支持超分的能力,一般按
1
比
2
或者更多來超分虛擬機,但是由于網(wǎng)絡(luò)
IO
瓶頸的存在,無法充分利用
CPU
的能力。DPU可以提供超過
1000
萬
pps
的網(wǎng)絡(luò)性能,可以將虛擬機的超分比39DPU
金融行業(yè)發(fā)展白皮書做到
1
比
4
甚至
1
比
8?;谝陨希C合硬件和運維等成本因素,可以從兩個方面計算
DPU
所帶來的收益:在提供同等算力的情況下
DPU
可以節(jié)省20%的服務(wù)器數(shù)量,與之對應(yīng)的成本下降
13%,功耗下降
28%,空間收益
30%。在
1000
臺服務(wù)器數(shù)量不變的情況下,虛擬機的超分比可以進一步提升,可以新增
40%的虛擬機售賣資源(如圖
18所示)。圖
18
DPU
帶來的算力收益金融行業(yè)普遍都使用
Kubernetes
作為容器編排平臺,Kubernetes
通過節(jié)點組件(如
kubelet、containerd
和
runtime)來管理容器化應(yīng)用程序。盡管這些組件對于
Kubernetes
的正常運行至關(guān)重要,但它們也會占用大量的計算資源和存儲空間。在以
DPU
為中心的數(shù)據(jù)中心架構(gòu)下,通過將節(jié)點組件(如
kubelet、containerd
和
runtime)卸載到
DPU
上,可以釋放出較多計算資源和大量的存儲空間,從而提升主機資源售賣率。40DPU
金融行業(yè)發(fā)展白皮書在云原生應(yīng)用中,runV
容器是一種基于輕量級虛擬機技術(shù)的容器化解決方案。它利用虛擬化技術(shù)提升了容器的隔離性、穩(wěn)定性和安全性等,同時也支持彈性計算和自動化管理技術(shù),可以根據(jù)應(yīng)用程序的需要動態(tài)調(diào)整計算資源的分配,從而實現(xiàn)計算資源的最大化利用,減少計算資源浪費。并且
runV
容器與傳統(tǒng)虛擬機相比,具有單節(jié)點實例密度高的特點:傳統(tǒng)虛擬機一般最小支持一核的虛擬機,而
runV
容器可以支持小數(shù)核(例如
0.5
核)的虛擬機,進而使得單節(jié)點有著更高的實例密度;通過將
runV容器卸載到
DPU
上,可以實現(xiàn)更高效的網(wǎng)絡(luò)通信和存儲訪問,減少網(wǎng)絡(luò)和存儲對主機
CPU
的占用,從而提高容器實例密度以及
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基建科前期服務(wù)范本合同
- 綠色田園工程建設(shè)作業(yè)指導(dǎo)書
- 業(yè)主裝修工程合同
- 全新運輸合同終止協(xié)議書
- 物流行業(yè)最佳實踐指南
- 企業(yè)人力資源薪酬福利管理作業(yè)指導(dǎo)書
- 商品房買賣預(yù)售合同
- 旋挖鉆機買賣合同
- 個人股權(quán)轉(zhuǎn)讓協(xié)議書
- 借款合同法律常識
- SLT824-2024 水利工程建設(shè)項目文件收集與歸檔規(guī)范
- 2024年山東鐵投集團招聘筆試參考題庫含答案解析
- (完整word版)中國銀行交易流水明細(xì)清單模版
- DB43∕T 859-2014 高速公路機電工程概預(yù)算編制辦法及定額
- 七年級語文課外閱讀理解練習(xí)
- MIL-STD-1916 抽樣技術(shù) (C=0 零不良)
- 理解文中重要句子含義(課堂PPT)
- 膠合板公司人員招聘與配置(模板)
- 軟件功能點估算.xls
- 燃?xì)廨啓CLM2500介紹
- (精選)淺談在小學(xué)數(shù)學(xué)教學(xué)中如何進行有效提問
評論
0/150
提交評論