2024大模型混合云十大創(chuàng)新技術(shù)白皮書(shū)5.0_第1頁(yè)
2024大模型混合云十大創(chuàng)新技術(shù)白皮書(shū)5.0_第2頁(yè)
2024大模型混合云十大創(chuàng)新技術(shù)白皮書(shū)5.0_第3頁(yè)
2024大模型混合云十大創(chuàng)新技術(shù)白皮書(shū)5.0_第4頁(yè)
2024大模型混合云十大創(chuàng)新技術(shù)白皮書(shū)5.0_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

踐行深度用云DIRECTORYDIRECTORY105-091多樣性算力調(diào)度全局統(tǒng)籌,提升算力效率210-132云邊協(xié)同海量邊緣管理,模型邊用邊學(xué)

14-183AI-Native存儲(chǔ)3創(chuàng)新三層架構(gòu),數(shù)據(jù)快存快恢419-234增強(qiáng)AI網(wǎng)絡(luò)算網(wǎng)協(xié)同,高吞吐無(wú)阻塞網(wǎng)絡(luò)524-285算子加速融合優(yōu)化,實(shí)現(xiàn)高效算子供應(yīng)629-346全鏈路數(shù)據(jù)工程8大創(chuàng)新工具,構(gòu)建高質(zhì)量數(shù)據(jù)集735-387統(tǒng)一數(shù)據(jù)編碼創(chuàng)新多模數(shù)據(jù)統(tǒng)一編碼,預(yù)測(cè)最優(yōu)解

39-428精細(xì)視覺(jué)神經(jīng)網(wǎng)絡(luò)8對(duì)齊細(xì)節(jié),精準(zhǔn)識(shí)別943-469無(wú)感斷點(diǎn)續(xù)訓(xùn)分鐘級(jí)感知恢復(fù),保障長(zhǎng)穩(wěn)運(yùn)行47-54安全護(hù)欄立體檢測(cè),智能攔截多樣性算力調(diào)度全局統(tǒng)籌,提升算力效率業(yè)界難題在AI場(chǎng)景中,CPU扮演著指揮統(tǒng)籌與核心控制的角色,GPU/NPU負(fù)責(zé)核心AI大模型的并行高性能訓(xùn)練與推理計(jì)算??紤]到算力的供應(yīng)多樣性與長(zhǎng)期可獲得性,以x86和ARM為代表的通用算力和以GPU和NPU為代表的AI算力,將長(zhǎng)期協(xié)同發(fā)展與配合使用,因此需要考慮異構(gòu)算力的統(tǒng)一調(diào)度問(wèn)題:異構(gòu)算力管理的挑戰(zhàn)資源管理:集群管理的資源從通常的CPU+內(nèi)存,變?yōu)镃PU+內(nèi)存+AI算力卡等多種異構(gòu)硬件管理。除了多種型號(hào)的AI算力卡、同型號(hào)多代AI算力卡、還有整卡與切分卡的統(tǒng)一管理調(diào)度。拓?fù)涓兄捍竽P头植际接?xùn)練過(guò)程中,AI算力卡之間或AI服務(wù)器之間的帶寬并不完全一致。因此調(diào)度時(shí),必須考慮異構(gòu)資源的拓?fù)潢P(guān)系,才能獲得最佳的訓(xùn)練效率。分布式訓(xùn)練調(diào)度的挑戰(zhàn)資源爭(zhēng)奪沖突死鎖:傳統(tǒng)容器調(diào)度邏輯都是按照單個(gè)容器依次調(diào)度。而分布式AI訓(xùn)練容器必須同時(shí)運(yùn)行以進(jìn)行集合通信,且只能同時(shí)調(diào)度成功或調(diào)度失敗。否則,多個(gè)分布式作業(yè)在資源調(diào)度層面出現(xiàn)爭(zhēng)搶并導(dǎo)致死鎖,所有訓(xùn)練任務(wù)都無(wú)法得到有效調(diào)度。

AI資源碎片問(wèn)題:?jiǎn)蝹€(gè)訓(xùn)練/推理作業(yè)所需要的AI算力卡數(shù)典型值為1、2、4、8、n*8,大于8卡的作業(yè),需運(yùn)行在完全空閑的節(jié)點(diǎn)上。隨著多個(gè)任務(wù)的異步結(jié)束,集群中會(huì)出現(xiàn)資源碎片,即便整體上存在足夠的資源,需要多卡的作業(yè)也無(wú)法運(yùn)行,導(dǎo)致資源利用率降低。推理算力利用率提升的挑戰(zhàn)AI算力多團(tuán)隊(duì)共享問(wèn)題:集團(tuán)內(nèi)部需要考慮不同部門(mén)多個(gè)彼此隔離的AI小集群可能導(dǎo)致的整體資源利用率較低的問(wèn)題,資源池化按需調(diào)度是提升資源利用率的有效辦法。算力復(fù)用:在推理場(chǎng)景,需要實(shí)現(xiàn)推理卡的多路任務(wù)并行復(fù)用,即多個(gè)算法共用一張AI卡,以提升算力利用率。多樣性算力調(diào)度:全局統(tǒng)籌,提升算力效率華為云多樣性算力調(diào)度基于云原生集群管理框架,并融入面向AI場(chǎng)景的Volcano調(diào)度框架,實(shí)現(xiàn)分布式AI任務(wù)調(diào)度增強(qiáng)。同時(shí)還針對(duì)算力資源的利用率提升做了系列創(chuàng)新優(yōu)化,包括:邏輯子池、隊(duì)列優(yōu)先級(jí)、拓?fù)涓兄?、整柜親和、算力切分等。訓(xùn)練&推理任務(wù)多樣性算力調(diào)度訓(xùn)練&推理任務(wù)多樣性算力調(diào)度容器調(diào)度資源調(diào)度 調(diào)度控制模塊 調(diào)度策略模塊模型訓(xùn)推 模型開(kāi)發(fā) 模型訓(xùn)練 模型推理CPUAI任務(wù)實(shí)例GPUCPUAI任務(wù)實(shí)例GPUAI任務(wù)實(shí)例NPUAI任務(wù)實(shí)例節(jié)點(diǎn)2節(jié)點(diǎn)1通用服務(wù)器通用服務(wù)器節(jié)點(diǎn)2節(jié)點(diǎn)1通用服務(wù)器通用服務(wù)器CPU資源池節(jié)點(diǎn)5節(jié)點(diǎn)4AI服務(wù)器AI服務(wù)器NPU資源池AI服務(wù)器節(jié)點(diǎn)3GPU資源池圖1.1多樣算力資源池化傳統(tǒng)的K8s集群管理系統(tǒng)在啟動(dòng)容器時(shí),會(huì)將負(fù)載調(diào)度至合適的節(jié)點(diǎn)。但其調(diào)度的維度僅支持“CPU+內(nèi)存”,無(wú)法識(shí)別和調(diào)度“GPU/NPU”這種異構(gòu)算力資源。2啟動(dòng)容器2啟動(dòng)容器Master節(jié)點(diǎn)過(guò)濾節(jié)點(diǎn)3調(diào)度器調(diào)節(jié)-擴(kuò)展插件SchedExtenderNode節(jié)點(diǎn)1啟動(dòng)容器Kubelet 4異構(gòu)資源-擴(kuò)展DevicePlugin5啟動(dòng)+配置 分配“異構(gòu)資源”RunTime容器在分布式AI來(lái)避免多個(gè)分布式任務(wù)因爭(zhēng)搶資源而導(dǎo)致任務(wù)死鎖。華為云設(shè)計(jì)了Volcano調(diào)度功能并做了更多能力增強(qiáng):統(tǒng)一的作業(yè)管理:提供作業(yè)的全生命周期管理,支持所有主流的計(jì)算框架,如Pytorch、圖1.2GPU/NPU異構(gòu)資源識(shí)別和調(diào)度因此華為云引入了K8s的Device-plugin調(diào)度插件框架,并開(kāi)發(fā)了AI異構(gòu)算力插件,實(shí)時(shí)獲取和上報(bào)各異構(gòu)資源池中AI算力的狀態(tài),輔助完成異構(gòu)算力的混合調(diào)度。如常見(jiàn)的推理任務(wù)會(huì)包含LB負(fù)載均衡(通用算力調(diào)度)、AI推理多實(shí)例(AI算力調(diào)度),兩者共同配合完成。

豐富的高階調(diào)度策略:公平調(diào)度、任務(wù)拓?fù)湔{(diào)度、基于SLA調(diào)度、作業(yè)搶占、回填、彈性調(diào)度、混部等。細(xì)粒度的資源管理:提供作業(yè)隊(duì)列、隊(duì)列資源預(yù)留、隊(duì)列容量管理、多租戶(hù)的動(dòng)態(tài)資源共享。調(diào)度性能優(yōu)化:結(jié)合Kubernetes提供擴(kuò)展性、大吞吐等多項(xiàng)優(yōu)化。業(yè)務(wù)拓?fù)涓兄獦I(yè)務(wù)拓?fù)涓兄獀NPU調(diào)度硬件拓?fù)涓兄空{(diào)度AIvNPUvNPU算力切分nvlinknv-switchPIC-e1/7NPU1/7NPU1/4NPU1/2NPUGPUGPUGPUCPUNode拓?fù)涔芾?拓?fù)涔芾鞱ode圖1.3分布式AI訓(xùn)練的組調(diào)度算力切分在部分AI推理場(chǎng)景(如視頻推理)中,單NPU卡如果只承載1個(gè)AI推理應(yīng)用,會(huì)出現(xiàn)富裕算力的空置浪費(fèi)。可以將一張NPU卡切分為多張vNPU卡,每個(gè)vNPU卡運(yùn)行單獨(dú)的AI推理應(yīng)用,才能最大程度利用AI算力。在K8s設(shè)定的AI資源調(diào)度框架中只能為容器綁定整個(gè)AI卡資源,無(wú)法靈活綁定如1/2、1/4NPU卡資源。因此,華為云開(kāi)發(fā)了增強(qiáng)調(diào)度邏輯,在同一個(gè)集群中,實(shí)現(xiàn)了對(duì)NPU整卡和更小顆粒度的vNPU卡的靈活調(diào)度,確保為AI任務(wù)匹配顆粒度最合適的NPU資源,大幅提升NPU的算力利用率。容器容器容器容器容器容器App App App App App App容器容器容器容器容器容器App App App App App AppvNPU vNPU vNPU vNPU...vNPU1切多vNPU vNPU vNPU vNPU...vNPU1切多NPU NPU ... NPU 算力切分NPUNPU...NPU算力切分NPU NPU ... NPUNPUNPU...NPU節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)節(jié)點(diǎn)圖1.4NPU算力切分調(diào)度價(jià)值收益全局統(tǒng)籌,提升算力效率統(tǒng)一納管調(diào)度x86|ARM|GPU|NPU

47%千億模型訓(xùn)練算力利用率

1卡1任務(wù) 1卡多任務(wù)推理算力切分09云邊協(xié)同海量邊緣管理,模型邊用邊學(xué)業(yè)界難題隨著AI大模型逐步應(yīng)用到煤礦生產(chǎn)、電力巡檢、工業(yè)質(zhì)檢等工業(yè)場(chǎng)景,邊緣實(shí)時(shí)推理的需求日益凸顯。業(yè)界也在思考如何解決規(guī)?;渴鹋c運(yùn)維的效率問(wèn)題,并構(gòu)建異常樣本反饋與模型的快速迭代機(jī)制,讓模型常用常新。海量邊緣管理:面向工業(yè)場(chǎng)景的海量邊緣推理部署需求,傳統(tǒng)人工部署管理的方案,工作量大且上線慢。缺乏自動(dòng)化、可視化的管理技術(shù),將導(dǎo)致每一次后續(xù)模型迭代都需要重復(fù)操作,管理效率極低。

模型持續(xù)迭代:生產(chǎn)工況或者應(yīng)用現(xiàn)場(chǎng)情況復(fù)雜并多變,部分工業(yè)生產(chǎn)環(huán)境中缺少足量的異常樣本進(jìn)行訓(xùn)練,所以原始模型精度有限,并且隨著使用環(huán)境的變化,原始模型精度會(huì)下降。因此,模型精度需要不斷地通過(guò)異?,F(xiàn)場(chǎng)數(shù)據(jù)來(lái)進(jìn)行迭代訓(xùn)練,不斷地升級(jí)模型,實(shí)現(xiàn)精準(zhǔn)推理。綜上,需要?jiǎng)?chuàng)新模型訓(xùn)練、推理部署、長(zhǎng)期迭代的辦法,才能幫助政企行業(yè)真正實(shí)現(xiàn)AI智能化的規(guī)?;瘧?yīng)用。云邊協(xié)同:海量邊緣管理,模型邊用邊學(xué)華為混合云推出云邊協(xié)同方案,支持中心訓(xùn)練、邊緣推理以及模型邊學(xué)邊用、持續(xù)迭代。模型版本。AI應(yīng)用開(kāi)發(fā)數(shù)據(jù)使能①AI模型訓(xùn)練AI應(yīng)用開(kāi)發(fā)數(shù)據(jù)使能①AI模型訓(xùn)練智能邊端管理AI基礎(chǔ)設(shè)施中心云AI中心訓(xùn)練邊緣生產(chǎn)單位邊緣AI邊緣推理

②模型部署

智能邊端節(jié)點(diǎn)應(yīng)用運(yùn)行 ③AI推理 智能邊端節(jié)點(diǎn)應(yīng)用運(yùn)行 ③AI推理 運(yùn)維管AI基礎(chǔ)設(shè)施智能邊端節(jié)點(diǎn)應(yīng)用運(yùn)行 ③AI推理 運(yùn)維管AI基礎(chǔ)設(shè)施

智能邊端節(jié)點(diǎn)應(yīng)用運(yùn)行 智能邊端節(jié)點(diǎn)應(yīng)用運(yùn)行 ③AI推理 運(yùn)維管AI基礎(chǔ)設(shè)施

圖2.1云邊協(xié)同架構(gòu)邊緣推理:模型按需部署到指定邊緣節(jié)點(diǎn),完成推理識(shí)別到告警處置的端到端業(yè)務(wù)閉環(huán),推理和處置結(jié)果同步上報(bào)至中心云平臺(tái),實(shí)現(xiàn)中心統(tǒng)一管控。邊用邊學(xué):邊緣側(cè)將AI誤報(bào)、新增場(chǎng)景樣本數(shù)據(jù)反饋至中心側(cè)統(tǒng)一分析,重新訓(xùn)練升級(jí)模型,從而構(gòu)建高效反饋-迭代升級(jí)-部署應(yīng)用的循環(huán)升級(jí)機(jī)制。海量邊緣管理運(yùn)維能力:中心云設(shè)備接入與資源管理:邊緣節(jié)點(diǎn)以VPN或云專(zhuān)線方式接入邊緣管理平臺(tái),注冊(cè)后管理員可以通過(guò)可視化界面,統(tǒng)一對(duì)資源進(jìn)行管理,包括激活、查看、注銷(xiāo)邊緣節(jié)點(diǎn),以及一鍵升級(jí)中心云

邊緣節(jié)點(diǎn)的固件版本等。中心云可高效實(shí)現(xiàn)10萬(wàn)+海量邊緣節(jié)點(diǎn)的納管。AI模型部署:中心云將AI場(chǎng)景化工作流訓(xùn)練好的模型,一鍵式部署到指定邊緣節(jié)點(diǎn)??蓪?shí)現(xiàn)分鐘級(jí)模型持續(xù)更新,大幅降低上線時(shí)間和運(yùn)維成本。離線可用性:當(dāng)邊緣節(jié)點(diǎn)與中心的連線中斷后,邊緣業(yè)務(wù)可正常運(yùn)行;節(jié)點(diǎn)故障或業(yè)務(wù)異常后,可秒級(jí)恢復(fù)業(yè)務(wù)。模型邊用邊學(xué)基于云邊協(xié)同架構(gòu),通過(guò)持續(xù)異常/錯(cuò)誤樣據(jù)變化。邊緣節(jié)點(diǎn)邊緣節(jié)點(diǎn)樣本數(shù)據(jù)回傳樣本數(shù)據(jù)回傳收集數(shù)據(jù)樣本數(shù)據(jù)回傳樣本數(shù)據(jù)回傳收集數(shù)據(jù)開(kāi)發(fā)訓(xùn)練平臺(tái)統(tǒng)計(jì)數(shù)據(jù)模型下發(fā)是否誤報(bào)rtsp推送推理結(jié)果數(shù)據(jù)采集錄像儀邊緣側(cè)AI模型推理視頻流人工智能應(yīng)用平臺(tái)(生產(chǎn)端)邊緣計(jì)算節(jié)點(diǎn)現(xiàn)場(chǎng)設(shè)備 告警聯(lián)數(shù)據(jù)采集工業(yè)環(huán)網(wǎng)視頻流視頻流視頻流生產(chǎn)設(shè)備廣播攝像機(jī)3攝像機(jī)2攝像機(jī)1AI訓(xùn)練平臺(tái)邊用邊學(xué)工作流AI模型AI應(yīng)用平臺(tái)(集團(tuán)端)在線標(biāo)注邊網(wǎng)端邊緣回傳:在AI服務(wù)推理過(guò)程中,通過(guò)回傳接口將推理過(guò)程中識(shí)別的異常/錯(cuò)誤樣本回傳到中心側(cè)AI應(yīng)用平臺(tái)。樣本標(biāo)注:中心AI應(yīng)用平臺(tái)對(duì)異常/錯(cuò)誤樣本進(jìn)行快速?gòu)?fù)核和在線標(biāo)注后,回傳給中心AI訓(xùn)練平臺(tái)。模型迭代:中心AI訓(xùn)練平臺(tái)的工作流,調(diào)用標(biāo)注過(guò)的異常/錯(cuò)誤樣本數(shù)據(jù)對(duì)模型進(jìn)行再訓(xùn)練和評(píng)估,以?xún)r(jià)值收益海量邊緣管理,模型邊用邊學(xué)萬(wàn)+邊端推理設(shè)備納管

分鐘級(jí)模型一鍵式部署

毫秒級(jí)邊緣推理低時(shí)延

20%邊用邊學(xué)模型精度13AI-Native存儲(chǔ)創(chuàng)新三層架構(gòu),數(shù)據(jù)快存快恢業(yè)界難題隨著AI大模型參數(shù)量的增加,訓(xùn)練集群規(guī)模也不斷擴(kuò)大,存儲(chǔ)成為制約大模型訓(xùn)練效率提升的關(guān)鍵瓶頸:海量小文件加載慢:10億訓(xùn)練原始數(shù)據(jù)加載時(shí)間超過(guò)10小時(shí)。故障影響大、恢復(fù)慢,造成算力空轉(zhuǎn):分布式訓(xùn)練中出現(xiàn)故障時(shí),訓(xùn)練集群需要從存儲(chǔ)中讀取上一Checkpoint(訓(xùn)練任務(wù)檢查點(diǎn))重新執(zhí)行訓(xùn)練。Checkpoint讀取過(guò)程本身會(huì)產(chǎn)

生大量開(kāi)銷(xiāo),當(dāng)恢復(fù)時(shí)所有計(jì)算節(jié)點(diǎn)都來(lái)讀取Checkpoint文件,保存和恢復(fù)通常會(huì)成為瓶頸。目前業(yè)界典型的AI服務(wù)器年故障率10%至17%,大規(guī)模集群訓(xùn)練單次故障恢復(fù)需數(shù)小時(shí),其中檢查點(diǎn)的加載耗時(shí)占65%。傳統(tǒng)存儲(chǔ)從架構(gòu)上就已經(jīng)難以應(yīng)對(duì)超大規(guī)模AI集群數(shù)據(jù)快讀、Checkpoint快存、故障快速恢復(fù)的需求,業(yè)界亟需面向AI大模型場(chǎng)景更專(zhuān)業(yè)的存儲(chǔ)。AI-Native存儲(chǔ):創(chuàng)新三層架構(gòu),數(shù)據(jù)快存快恢本地盤(pán)主機(jī)CPUNPUNPU本地盤(pán)主機(jī)CPUNPU本地盤(pán)主機(jī)CPUNPUNPU本地盤(pán)主機(jī)CPUNPUNPUOBS數(shù)據(jù)湖分布式HDD存儲(chǔ)L1緩存SFSTurbo服務(wù)端SFSTurbo高性能并行文件系統(tǒng)主機(jī)主機(jī)L2緩存SFSTurbo客戶(hù)端內(nèi)存緩存SFSTurbo客戶(hù)端內(nèi)存緩存L3加速AITurbo AITurboSDK SDKAITurbo AITurboSDK SDKNPUNPUNPUNPU分布式SSD存儲(chǔ)算力層算力層對(duì)象存儲(chǔ)性能層容量層容量層圖3.1華為云AI-Native存儲(chǔ)三層架構(gòu)對(duì)象存儲(chǔ)性能層容量層容量層AI原始數(shù)據(jù)集通常存儲(chǔ)在大容量對(duì)象存儲(chǔ)上,然后通過(guò)單機(jī)拷貝到AI服務(wù)器的本地盤(pán),傳統(tǒng)的存儲(chǔ)架構(gòu)下,這一過(guò)程普遍需要10小時(shí)才能完成10億訓(xùn)練原始數(shù)據(jù)的讀取,無(wú)法滿(mǎn)足AI大模型的性能要求。華為云AI-Native存儲(chǔ),基于OBS數(shù)據(jù)湖、SFSTurbo高性能并行文件系統(tǒng)和AITurbo加速的創(chuàng)新三層架構(gòu),系統(tǒng)性地應(yīng)對(duì)大模型訓(xùn)練場(chǎng)景的挑戰(zhàn)。OBS數(shù)據(jù)湖:為數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、訓(xùn)練、推理、模型部署全流程提供海量數(shù)據(jù)的統(tǒng)一存儲(chǔ)底座。問(wèn)的加速層,滿(mǎn)足核心訓(xùn)練環(huán)節(jié)海量小文件高性能、低時(shí)延的加載訴求。AITurbo加速:將AITurboSDK部署到訓(xùn)練節(jié)點(diǎn),與AI框架配合讓存儲(chǔ)主動(dòng)感知模型的參數(shù)切分、冗余數(shù)據(jù)策略、訓(xùn)練任務(wù)的故障分類(lèi)、AI訓(xùn)練平臺(tái)的容器部署與回收等,為大模型訓(xùn)練和Checkpoint快存快恢加速。SFSTurbo:加速訓(xùn)練數(shù)據(jù)集訪問(wèn)AI訓(xùn)練數(shù)據(jù)集通常以KB級(jí)的小文件居多,因此AI訓(xùn)練訪問(wèn)數(shù)據(jù)集時(shí)存在緩存友好特征。在業(yè)務(wù)訪問(wèn)數(shù)據(jù)集文件時(shí),SFSTurbo會(huì)將NVMeSSD存儲(chǔ)池中的數(shù)據(jù)文件緩存到L1服務(wù)端分布式內(nèi)存緩存中,減少AI訓(xùn)練訪問(wèn)數(shù)據(jù)集的

通過(guò)分布式數(shù)據(jù)節(jié)點(diǎn)的云原生彈性擴(kuò)縮,將帶寬從GB級(jí)提升到TB級(jí),進(jìn)而充分發(fā)揮L1服務(wù)端TB級(jí)的內(nèi)存緩存帶寬優(yōu)勢(shì),實(shí)現(xiàn)比NVMeSSD硬盤(pán)層更大的吞吐能力。通過(guò)分布式元數(shù)據(jù)節(jié)點(diǎn)的云原生彈性擴(kuò)縮,將IOPS從50萬(wàn)級(jí)提升到千萬(wàn)級(jí),輕松應(yīng)對(duì)海量?jī)|級(jí)小文件并發(fā)處理。AITurbo:加速訓(xùn)練檢查點(diǎn)保存和加載部署到訓(xùn)練進(jìn)程中,感知和協(xié)同模型參數(shù)切分與并行策略、故障分類(lèi)等,最大程度減少Checkpoint保存耗時(shí)和故障恢復(fù)加載耗時(shí),減少訓(xùn)練任務(wù)阻塞。保存階段:如下圖所示,采用兩階段寫(xiě)的Checkpoint異步持久化方案,最大程度減少耗階段①寫(xiě)本地客戶(hù)端:各節(jié)點(diǎn)將自己的Checkpoint高速同步寫(xiě)入SFSTurbo客戶(hù)端本地內(nèi)存緩存,向上返回成功。階段②Checkpoint維度上Checkpoint相同的多個(gè)GPU/NPU作為一組,在組內(nèi)推舉1個(gè)代表節(jié)點(diǎn)執(zhí)行Checkpoint存儲(chǔ)持久化操作,將DP倍數(shù)寫(xiě)操作變?yōu)?次,有效降低對(duì)存儲(chǔ)的帶寬和容量的需求。OBS數(shù)據(jù)湖分布式HDD存儲(chǔ)SFSTurbo服務(wù)端內(nèi)存緩存分布式SSD存儲(chǔ)算力層數(shù)據(jù)并行組1(OBS數(shù)據(jù)湖分布式HDD存儲(chǔ)SFSTurbo服務(wù)端內(nèi)存緩存分布式SSD存儲(chǔ)算力層NPU組1代表節(jié)點(diǎn)NPUNPUNPU組2代表節(jié)點(diǎn)NPUNPUAITurboSDKAITurboSDKAITurboSDKAITurboSDKAITurboSDKAITurboSDKSFSTurbo客戶(hù)端內(nèi)存緩存SFSTurbo客戶(hù)端內(nèi)存緩存SFSTurbo客戶(hù)端內(nèi)存緩存SFSTurbo客戶(hù)端內(nèi)存緩存SFSTurbo客戶(hù)端內(nèi)存緩存SFSTurbo客戶(hù)端內(nèi)存緩存性能層容量層圖3.2Checkpoint異步持久化方案性能層容量層進(jìn)程級(jí)故障:硬件仍然健康的故障場(chǎng)景,主機(jī)側(cè)客戶(hù)端內(nèi)存緩存中的Checkpoint仍可正常訪問(wèn),直接加載Checkpoint進(jìn)行原地秒級(jí)快速恢復(fù)。任務(wù)級(jí)故障:硬件故障導(dǎo)致個(gè)別故障節(jié)點(diǎn)隔離甚至是整個(gè)集群機(jī)器均發(fā)生崩潰時(shí),此時(shí)將回

SFS的Checkpoint。如下圖所示,為避免所有GPU/NPU卡同時(shí)加載Checkpoint導(dǎo)致存儲(chǔ)帶寬成為瓶頸,選擇代表節(jié)點(diǎn)替代所有節(jié)點(diǎn)執(zhí)行加載Checkpoint操作,然后再利用空閑的計(jì)算集群的參數(shù)網(wǎng)絡(luò)將Checkpoint廣播到組內(nèi)其余節(jié)點(diǎn)上,從而顯著降低大規(guī)模訓(xùn)練集群故障恢復(fù)過(guò)程對(duì)遠(yuǎn)端服務(wù)端存儲(chǔ)帶寬的需求,加速Checkpoint恢復(fù)過(guò)程。組1代表節(jié)點(diǎn)NPUNPUNPU

NPU

NPU

組2代表節(jié)點(diǎn)NPUNPUNPUAITurboSDKAITurboSDKAITurboSDK

AITurbo

AITurbo

AITurboSDKAITurboSDK算力層通過(guò)參數(shù)網(wǎng)絡(luò)進(jìn)行組內(nèi)廣播AITurboSDK算力層

通過(guò)參數(shù)網(wǎng)絡(luò)進(jìn)行組內(nèi)廣播SFSTurbo內(nèi)存緩存SFSTurbo內(nèi)存緩存

SFSTurbo內(nèi)存緩存

SFSTurbo內(nèi)存緩存

SFSTurbo客戶(hù)端內(nèi)存緩存SFSSFSTurbo內(nèi)存緩存性能層SFSTurbo服務(wù)端內(nèi)存緩存分布式SSD存儲(chǔ)性能層圖3.3任務(wù)級(jí)故障Checkpoint快速加載與廣播價(jià)值收益創(chuàng)新三層架構(gòu),數(shù)據(jù)快存快恢倍加載效率

小時(shí)級(jí) 分鐘級(jí)集群故障恢復(fù)18增強(qiáng)AI網(wǎng)絡(luò)算網(wǎng)協(xié)同,高吞吐無(wú)阻塞網(wǎng)絡(luò)業(yè)界難題大模型的訓(xùn)練過(guò)程是計(jì)算和通信緊密耦合的,在諸如MLPerf、T5、GLaM等常見(jiàn)模型訓(xùn)練中,通信開(kāi)銷(xiāo)占比都達(dá)到了40%左右!其它時(shí)間GPT_1TMeena_500BMLPerf_200BT5_300BGLaM_1TBigSSL_10B

通信開(kāi)銷(xiāo)時(shí)間22%25%42%39%42%36%0% 25% 50% 75% 100%圖4.1模型通信時(shí)間在集群訓(xùn)練中的占比Source:Google《OverlapCommunicationwithDependentComputationviaDecompositioninLargeDeepLearningModels》隨著AI大模型參數(shù)量的增加,參數(shù)同步帶來(lái)的網(wǎng)絡(luò)通信開(kāi)銷(xiāo)也會(huì)同步大幅增加。為了降低通信時(shí)間,一方面可以?xún)?yōu)化計(jì)算平臺(tái),比如通過(guò)計(jì)算和網(wǎng)絡(luò)通信時(shí)間的重疊;另一方面,采用兼容成熟以太網(wǎng)生態(tài)的200G以上配置構(gòu)建無(wú)損大帶寬網(wǎng)絡(luò),也已經(jīng)成為業(yè)界共識(shí)。但AI大模型訓(xùn)練的流量特征是流數(shù)量少、周期性、大流為主,并行phase間有強(qiáng)同步性要求,通信效率取決于最慢的流。因此,大模型的高效訓(xùn)練要求參數(shù)面網(wǎng)絡(luò)無(wú)阻塞,保障整網(wǎng)設(shè)備之間通信達(dá)到滿(mǎn)吞吐。而傳統(tǒng)的

流量不均而網(wǎng)絡(luò)擁塞,使得“算等網(wǎng)”,拉低整體訓(xùn)練效率。因此,要實(shí)現(xiàn)大模型的高效訓(xùn)練,還需要?jiǎng)?chuàng)新增強(qiáng)AI網(wǎng)絡(luò)技術(shù)。AI智算網(wǎng)絡(luò)涉及參數(shù)面、樣本面、業(yè)務(wù)面和管理面網(wǎng)絡(luò),其中參數(shù)面網(wǎng)絡(luò)要求最高。參數(shù)面網(wǎng)絡(luò)主要用于AI集群分布式訓(xùn)練時(shí)參數(shù)交換,要求網(wǎng)絡(luò)具備高吞吐和無(wú)阻塞。網(wǎng)絡(luò)高吞吐體現(xiàn)在端口高吞吐和全網(wǎng)高吞吐:端口高吞吐從以前10G/25G到現(xiàn)在的200G/400G,并逐步向未來(lái)的800G演進(jìn)。112帶外管理網(wǎng)絡(luò)參數(shù)面網(wǎng)絡(luò)樣本面網(wǎng)絡(luò)存儲(chǔ)業(yè)務(wù)面網(wǎng)絡(luò)6345789帶外管理區(qū)AI訓(xùn)練集群區(qū)存儲(chǔ)區(qū)AI訓(xùn)練與管理平臺(tái)通用服務(wù)器計(jì)算業(yè)務(wù)面網(wǎng)絡(luò)AI大模型訓(xùn)練通用服務(wù)器1數(shù)據(jù)集及訓(xùn)練模型導(dǎo)入存儲(chǔ)系統(tǒng)4AI計(jì)算節(jié)點(diǎn)加載AI模型7AI訓(xùn)練中的CKPT文件寫(xiě)入存儲(chǔ)系統(tǒng)2AI平臺(tái)下發(fā)訓(xùn)練任務(wù)5AI計(jì)算節(jié)點(diǎn)讀取訓(xùn)練數(shù)據(jù)集8完成AI訓(xùn)練的模型寫(xiě)入存儲(chǔ)系統(tǒng)3AI計(jì)算節(jié)點(diǎn)加載訓(xùn)練任務(wù)鏡像6AI訓(xùn)練過(guò)程中完成模型的參數(shù)同步9導(dǎo)出訓(xùn)練好的模型業(yè)務(wù)流描述圖4.2AI大模型訓(xùn)練網(wǎng)絡(luò)業(yè)務(wù)流描述全網(wǎng)高吞吐是指基于全網(wǎng)進(jìn)行路徑規(guī)劃,使AI流量的吞吐達(dá)到全局最優(yōu)。傳統(tǒng)的ECMP是基于五元組的逐流Hash,在流數(shù)少的時(shí)候極易出現(xiàn)Hash不均的情況。AI訓(xùn)練場(chǎng)景特征就是流數(shù)少、單流帶寬大,因此傳統(tǒng)的ECMP基本無(wú)法使用。ECMP機(jī)制導(dǎo)致的流量不均,業(yè)界廠商主要從如下兩條技術(shù)路徑進(jìn)行突破:技術(shù)路線1:網(wǎng)絡(luò)級(jí)負(fù)載均衡技術(shù)通過(guò)繪制全局的流量矩陣,計(jì)算出最佳的流量分布,然后自動(dòng)進(jìn)行導(dǎo)流。也就是擁有縱觀全局的視角,從而達(dá)到全網(wǎng)吞吐最優(yōu)。

技術(shù)路線2:包級(jí)負(fù)載均衡技術(shù)將基于路徑的狀態(tài)信息,針對(duì)包進(jìn)行動(dòng)態(tài)選路,從而達(dá)到流量散列均衡。理論上均衡度最好,但實(shí)際在接收端側(cè)存在大量亂序問(wèn)題,嚴(yán)重依賴(lài)網(wǎng)卡的亂序重排能力,應(yīng)用案例極少。面向AI訓(xùn)練的2種場(chǎng)景,華為云基于ROCE無(wú)損網(wǎng)絡(luò)打造了全網(wǎng)負(fù)載均衡算法。場(chǎng)景1:主要針對(duì)單AI訓(xùn)練任務(wù),網(wǎng)絡(luò)本身即可實(shí)現(xiàn)高吞吐,不需要和AI調(diào)度平臺(tái)互動(dòng)。這種場(chǎng)景要求設(shè)備的上下行是1:1無(wú)收斂的,如圖中的Leaf1,接入的上行是4個(gè)端口,下行也是4Spine交換機(jī)LeafAI服務(wù)器

Spine1LeafLeaf1

Spine2LeafLeaf2場(chǎng)景2:通過(guò)AI調(diào)度平臺(tái)、網(wǎng)絡(luò)控制器、設(shè)備的統(tǒng)一協(xié)同,實(shí)現(xiàn)全網(wǎng)流量負(fù)載均衡。在支持多任務(wù)并行的同時(shí),相比逐流Hash,網(wǎng)絡(luò)性能實(shí)現(xiàn)大幅提升。網(wǎng)絡(luò)控制器3控制器獲取AI任務(wù)信息網(wǎng)絡(luò)控制器租戶(hù)、模型、IP

4控制器集中算路(核心算法)ModelArtsAI調(diào)度平臺(tái)2AI任務(wù)調(diào)度ModelArtsAI調(diào)度平臺(tái)2AI任務(wù)調(diào)度1控制器獲取網(wǎng)絡(luò)拓?fù)?控制器下發(fā)路徑1控制器獲取網(wǎng)絡(luò)拓?fù)?控制器下發(fā)路徑12345678step2step3圖4.4網(wǎng)絡(luò)負(fù)載均衡方案(算網(wǎng)協(xié)同)AI調(diào)度平臺(tái)把任務(wù)信息通知給網(wǎng)絡(luò)控制器,網(wǎng)絡(luò)控制器結(jié)合已經(jīng)建立的整網(wǎng)通信關(guān)系與拓?fù)湫畔ⅲㄟ^(guò)全網(wǎng)負(fù)載均衡算法,進(jìn)行整網(wǎng)路徑計(jì)算,得到最優(yōu)路徑并動(dòng)態(tài)下發(fā)網(wǎng)絡(luò),實(shí)現(xiàn)多任務(wù)全網(wǎng)負(fù)載均衡。價(jià)值收益算網(wǎng)協(xié)同,高吞吐無(wú)阻塞網(wǎng)絡(luò)100G 200G/400G無(wú)損大帶寬

30% 95%全網(wǎng)有效吞吐23算子加速融合優(yōu)化,實(shí)現(xiàn)高效算子供應(yīng)業(yè)界難題AI大模型訓(xùn)練效率提升,是一項(xiàng)復(fù)雜的系統(tǒng)工程,最關(guān)鍵的是要充分釋放AI硬件能力。華為云基于CANN異構(gòu)計(jì)算框架,讓盤(pán)古以及更多第三方大模型也能在華為混合云平臺(tái)上高效訓(xùn)練。但未經(jīng)調(diào)優(yōu)的模型,可能面臨性能差、開(kāi)發(fā)效率低等問(wèn)題,昇騰算力無(wú)法充分釋放。模型開(kāi)箱性能差:未經(jīng)過(guò)深度優(yōu)化的模型通常存在較多小算子,如果每個(gè)算子都在加速器上執(zhí)行輸入-計(jì)算-輸出這個(gè)過(guò)程,會(huì)有大量的輸入輸出開(kāi)銷(xiāo),造成性能下降。另外,若耗時(shí)較高的算子未命中最優(yōu)執(zhí)行策略,也會(huì)導(dǎo)致算力利用不充分。

算子開(kāi)發(fā)門(mén)檻高:算子開(kāi)發(fā)與傳統(tǒng)應(yīng)用開(kāi)發(fā)的編程方式存在較大的差異,需要管理多個(gè)性質(zhì)差異很大的存儲(chǔ)實(shí)體。在實(shí)際運(yùn)算過(guò)程是多個(gè)部件并行執(zhí)行,在邏輯和時(shí)序上也需依賴(lài)其他部件一起確定。因此每個(gè)微觀細(xì)節(jié)的調(diào)整,都會(huì)比較明顯影響到算力效率,導(dǎo)致算子開(kāi)發(fā)門(mén)檻高,典型場(chǎng)景算子開(kāi)發(fā)周期一般長(zhǎng)達(dá)1~2人月。因此,需要采用高效工具和方法論來(lái)提升模型性能、降低算子開(kāi)發(fā)門(mén)檻,實(shí)現(xiàn)高效的算子供應(yīng)。算子加速:融合優(yōu)化,實(shí)現(xiàn)高效算子供應(yīng)AI框架AI框架支持業(yè)界主流AI框架···融合算子庫(kù)融合算子庫(kù)FlashAttention等Transformer網(wǎng)絡(luò)加速算子,多模型/多尺寸/多shape全面支持,精度、性能持平業(yè)界自動(dòng)獲取最優(yōu)調(diào)度自動(dòng)化流水并行調(diào)度自動(dòng)獲取最優(yōu)調(diào)度自動(dòng)化流水并行調(diào)度簡(jiǎn)化算子編程邏輯結(jié)構(gòu)化函數(shù)編程符合開(kāi)發(fā)者編程習(xí)慣遵循C/C++標(biāo)準(zhǔn)規(guī)范AscendC支持算子極簡(jiǎn)開(kāi)發(fā)昇昇騰硬件···昇騰系列處理器···自適應(yīng)梯度切分使能處理器并行加速整圖下沉算子深度融合自動(dòng)流水圖5.1異構(gòu)計(jì)算架構(gòu)圖華為圍繞昇騰AI處理器打造了CANN異構(gòu)計(jì)算架構(gòu)。作為基礎(chǔ)使能軟件,CANN提供豐富的算子庫(kù)和AscendC算子編程語(yǔ)言,降低算子開(kāi)發(fā)門(mén)檻,幫助開(kāi)發(fā)者實(shí)現(xiàn)自定義算子的快速開(kāi)發(fā)與算法創(chuàng)新,最大程度發(fā)揮算力價(jià)值。融合算子庫(kù),提升模型開(kāi)箱性能針對(duì)大模型關(guān)鍵模塊的算子,設(shè)計(jì)出昇騰親和的算子融合算法,最大化利用帶寬、顯存和算力資源。Attention融合優(yōu)化:Attention是大模型Transformer結(jié)構(gòu)的核心組件,整網(wǎng)耗時(shí)占比超過(guò)50%,是影響整網(wǎng)性能和資源消耗的關(guān)鍵點(diǎn)。在算子優(yōu)化方面,通過(guò)更好的復(fù)用右矩

分,做到更精細(xì)的流水控制,減少其他計(jì)算組件的等待時(shí)間;在資源開(kāi)銷(xiāo)方面,通過(guò)減少Scalar操作、降低通信開(kāi)銷(xiāo)來(lái)進(jìn)一步壓縮資源的損耗。MoE-FFN融合:MoE結(jié)構(gòu)將稠密網(wǎng)絡(luò)的FFN層擴(kuò)展成具有相同結(jié)構(gòu)的專(zhuān)家網(wǎng)絡(luò),通過(guò)路由或門(mén)控網(wǎng)絡(luò)決定激活哪些專(zhuān)家進(jìn)行計(jì)算。基于巧妙的數(shù)學(xué)等價(jià)實(shí)現(xiàn)MoE-FFN融合,更Vector單元進(jìn)行計(jì)算,在進(jìn)行計(jì)算單元運(yùn)算時(shí)提前完成數(shù)據(jù)的搬運(yùn)。合理運(yùn)用L2綜合帶寬,減輕訪存耗時(shí)以實(shí)現(xiàn)Mac利用率提陣,減少Cube和Vector在特定配比下的資源

tiling切分,提升L1/L0的利用率,實(shí)現(xiàn)消耗。在流水方面,對(duì)消息粒度做進(jìn)一步的拆 y1y1y2yAdd+NormalizeAdd+NormalizeFFN1FFN2FFN3FFN4FFN1FFN2FFN3FFN4SwitchingFFNLayerp=0.65p=0.8Router RouterAdd+NormalizeAdd+NormalizeSelf-AttentionSelf-AttentionxPositionalembeddingPositionalembeddingx1x2MoreParameters通算融合:通過(guò)矩陣乘法與AllReduce實(shí)現(xiàn)計(jì)算和通信的并行流水,應(yīng)用于模型并行切分場(chǎng)景。將矩陣乘的A和B分別進(jìn)行切分并分配到不同的NPU上執(zhí)行乘法運(yùn)算,最后通過(guò)求和的AllReduce操作將結(jié)果匯總后再分配到各個(gè)節(jié)點(diǎn)上。MMtulB1A1MatMulNPU1NPU1AllReduceNPU1NPU1AllReduceNPU2NPU2AMMtulB2A2圖5.4MatMul與AllReduce算子融合示意AscendC算子編程語(yǔ)言,降低算子開(kāi)發(fā)門(mén)檻結(jié)構(gòu)化核函數(shù)編程結(jié)構(gòu)化核函數(shù)編程CPU/NPU提升算子開(kāi)發(fā)調(diào)試效率兩級(jí)并行調(diào)度獲得最優(yōu)執(zhí)行性能算子tiling策略簡(jiǎn)化繁瑣數(shù)據(jù)搬運(yùn)騰接口抽象隱藏復(fù)雜指令映射圖5.5AscendC算子編程語(yǔ)言能力棧AscendC使用C++語(yǔ)法和一組編程API,實(shí)現(xiàn)自動(dòng)流水同步和Buffer地址管理,并提供CPU調(diào)試能力,解決了算子開(kāi)發(fā)的關(guān)鍵技術(shù)難題。昇騰接口抽象:通過(guò)在類(lèi)庫(kù)中直接封裝intrin-sic方式提供一組編程API解決了內(nèi)存地址管理、流水同步的關(guān)鍵問(wèn)題。算子tiling策略:簡(jiǎn)化Buffer的使用,程序員

API進(jìn)而簡(jiǎn)化了難度。兩級(jí)并行調(diào)度:易于理解TPIPE流水編程范式解決流水并行問(wèn)題,引入Que操作和Buffer操作,解決流水同步問(wèn)題。結(jié)構(gòu)化核函數(shù)編程:提供CPU/NPU孿生調(diào)試能力,提升算子開(kāi)發(fā)調(diào)試效率。價(jià)值收益融合優(yōu)化,實(shí)現(xiàn)高效算子供應(yīng)50%常用模型性能提升

2人月 2人周算子開(kāi)發(fā)周期28全鏈路數(shù)據(jù)工程業(yè)界難題在AI的數(shù)據(jù)理論中,模型性能是由數(shù)據(jù)質(zhì)量和算法設(shè)計(jì)共同決定的。數(shù)據(jù)質(zhì)量直接決定了算法性能的上限,算法本身的設(shè)計(jì)僅決定了能多大程度接近這個(gè)上限。當(dāng)前,主要有三方面因素,制約數(shù)據(jù)質(zhì)量的提升:數(shù)據(jù)獲取難:在我國(guó),政府和企業(yè)的數(shù)據(jù)開(kāi)放率不足7%。行業(yè)大模型需要與場(chǎng)景化的數(shù)據(jù)結(jié)合才能更精準(zhǔn),然而這些數(shù)據(jù)往往散落在企業(yè)生產(chǎn)的各個(gè)環(huán)節(jié)中,缺少統(tǒng)一的匯聚和治理;甚至一些關(guān)鍵數(shù)據(jù)還需要從外部獲取,進(jìn)一步增加了數(shù)據(jù)獲取的難度。數(shù)據(jù)質(zhì)量差:AI訓(xùn)練開(kāi)始前,需要利用工具將

海量、多樣化的數(shù)據(jù)進(jìn)行集成、清洗、標(biāo)注,但這個(gè)過(guò)程往往因?yàn)楣ぞ吡闵ⅰ⑷斯ぬ幚淼葘?dǎo)致效率和質(zhì)量低下,僅15%的臟數(shù)據(jù)就可能導(dǎo)致模型準(zhǔn)確率下降高達(dá)50%。結(jié)果不準(zhǔn)確:模型訓(xùn)練通常用到大量公開(kāi)的數(shù)據(jù)集,這些數(shù)據(jù)集可能存在價(jià)值觀問(wèn)題,需要在訓(xùn)練時(shí)加以校正對(duì)齊;針對(duì)不同質(zhì)量和相關(guān)度的數(shù)據(jù),建立合理的配比模型,避免過(guò)擬合問(wèn)題。因此,要打造高質(zhì)量的AI大模型,企業(yè)必須面向數(shù)據(jù)量、數(shù)據(jù)質(zhì)量和數(shù)據(jù)價(jià)值觀等方向構(gòu)筑核心的數(shù)據(jù)工程能力,為大模型高質(zhì)量供數(shù)。全鏈路數(shù)據(jù)工程:8大創(chuàng)新工具,構(gòu)建高質(zhì)量數(shù)據(jù)集數(shù)據(jù)獲取體系化獲數(shù)數(shù)據(jù)加工智能加工科學(xué)利用安全合規(guī),好用好管數(shù)據(jù)獲取體系化獲數(shù)數(shù)據(jù)加工智能加工科學(xué)利用安全合規(guī),好用好管內(nèi)部數(shù)據(jù)集成批量集成增量集成數(shù)據(jù)清洗智能算子數(shù)據(jù)安全負(fù)向過(guò)濾風(fēng)險(xiǎn)管控智能標(biāo)注手動(dòng)標(biāo)注 數(shù)據(jù)標(biāo)注成分分析場(chǎng)景配比 智能配比數(shù)據(jù)膠囊外部數(shù)據(jù)流通質(zhì)量評(píng)估標(biāo)準(zhǔn)化檢測(cè)數(shù)據(jù)可視資產(chǎn)看板圖6.1全鏈路數(shù)據(jù)工程華為云從數(shù)據(jù)獲取、加工到利用三個(gè)階段開(kāi)展技術(shù)創(chuàng)新,打造大模型數(shù)據(jù)工程和8大工具,幫助企業(yè)構(gòu)建多維、體系化的語(yǔ)料供給體系,解決數(shù)據(jù)獲取難、質(zhì)量差、不準(zhǔn)確等問(wèn)題。數(shù)據(jù)獲取:2大工具構(gòu)建全鏈路體系化的數(shù)據(jù)獲取能力,包括內(nèi)部數(shù)據(jù)集成和外部數(shù)據(jù)流通,幫助企業(yè)擴(kuò)充多維模型訓(xùn)練數(shù)據(jù)源,提高獲數(shù)效率。數(shù)據(jù)加工:通過(guò)智能清洗、智能標(biāo)注和質(zhì)量評(píng)估3個(gè)工具,構(gòu)建數(shù)據(jù)全流程加工能力,實(shí)現(xiàn)圖、文、音、視頻等4類(lèi)數(shù)據(jù)10大場(chǎng)景的智能加工??茖W(xué)利用:基于數(shù)據(jù)安全合規(guī)、智能配比、數(shù)據(jù)可視等3大工具,建立全生命周期合規(guī)、合理、可視的優(yōu)質(zhì)數(shù)據(jù)集,保證模型價(jià)值觀和數(shù)據(jù)易用性。

2大數(shù)據(jù)獲取工具數(shù)據(jù)獲取工具旨在讓企業(yè)具備體系化數(shù)據(jù)獲取能力,包括內(nèi)部數(shù)據(jù)集成和外部數(shù)據(jù)流通,從而形成匹配自身業(yè)務(wù)特點(diǎn)的專(zhuān)屬數(shù)據(jù)集:內(nèi)部數(shù)據(jù)全域集成:數(shù)據(jù)集成工具提供IT/OT全域數(shù)據(jù)接入能力,支持結(jié)構(gòu)化、非結(jié)構(gòu)化等各類(lèi)數(shù)據(jù)的實(shí)時(shí)或離線接入。基于批量遷移、增量同步的獨(dú)創(chuàng)算法設(shè)計(jì),大大簡(jiǎn)化數(shù)據(jù)集成流程,減少50%手工操作。同時(shí)也支持對(duì)數(shù)據(jù)集成鏈路、安全入湖和數(shù)據(jù)同步質(zhì)量進(jìn)行實(shí)時(shí)管理,確保數(shù)據(jù)集成工作有序運(yùn)行。外部數(shù)據(jù)可信流通:基于隱私計(jì)算和區(qū)塊鏈技術(shù)打造數(shù)據(jù)膠囊,確保數(shù)據(jù)可用不可見(jiàn)。同時(shí)提供數(shù)據(jù)訪問(wèn)日期、訪問(wèn)次數(shù)、使用方式等20+數(shù)據(jù)訪問(wèn)策略,過(guò)期數(shù)據(jù)文件能夠自動(dòng)清除;數(shù)據(jù)和訪問(wèn)控制策略捆綁加密保存、安全策略強(qiáng)制執(zhí)行,并且數(shù)據(jù)使用過(guò)程上鏈審計(jì),確??勺匪?。非結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)離線資源池鏈路 安全 質(zhì)量管理 入湖 核對(duì)增量集成 實(shí)時(shí)批量集成任務(wù)統(tǒng)一配置內(nèi)部數(shù)據(jù)集成數(shù)據(jù)消費(fèi)方使用策略數(shù)據(jù)提供方數(shù)據(jù)消費(fèi)方使用策略數(shù)據(jù)提供方ABE解密驗(yàn)簽滿(mǎn)足securitylevel>4...數(shù)據(jù)膠囊數(shù)據(jù)膠囊ABE算法加密ABE解密驗(yàn)簽不滿(mǎn)足數(shù)據(jù)膠囊原始數(shù)據(jù)外部數(shù)據(jù)流通策略數(shù)據(jù)3大數(shù)據(jù)加工工具傳統(tǒng)大數(shù)據(jù)、數(shù)倉(cāng)和數(shù)據(jù)庫(kù)系統(tǒng)的優(yōu)勢(shì)在于處理結(jié)構(gòu)化數(shù)據(jù)處理,但在大模型場(chǎng)景下存在大量的文本、圖片、音視頻等非結(jié)構(gòu)化數(shù)據(jù),缺少合適的數(shù)據(jù)清洗、標(biāo)注和質(zhì)量評(píng)估的工具。為此,華為云打造了3大數(shù)據(jù)加工工具,幫助企業(yè)提升數(shù)據(jù)質(zhì)量。智能清洗:基于低代碼、可視化能力實(shí)現(xiàn)清洗任務(wù)編排,面向特定場(chǎng)景,用戶(hù)可以通過(guò)拖拉拽特定清洗算子實(shí)現(xiàn)數(shù)據(jù)自動(dòng)化清洗,目前已覆蓋90%以上的企業(yè)數(shù)據(jù)清洗場(chǎng)景。

等4大類(lèi)數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練形成智能標(biāo)注模型算質(zhì)量評(píng)估:質(zhì)量評(píng)估工具供標(biāo)準(zhǔn)化、自動(dòng)化的數(shù)據(jù)質(zhì)量評(píng)估功能,具有圖文格式、內(nèi)容信息、導(dǎo)向合規(guī)3大類(lèi)檢測(cè)能力,包含15類(lèi)指標(biāo)項(xiàng)47個(gè)檢測(cè)點(diǎn),讓數(shù)據(jù)質(zhì)量管理前移到數(shù)據(jù)獲取階段,從源頭優(yōu)化數(shù)據(jù)質(zhì)量。智能化清洗標(biāo)注|標(biāo)準(zhǔn)化質(zhì)量評(píng)估智能清洗算子豐富清洗算子|自動(dòng)化數(shù)據(jù)流水線

全流程標(biāo)注數(shù)據(jù)集和標(biāo)注任務(wù)解耦|智能標(biāo)注

數(shù)據(jù)質(zhì)量評(píng)估標(biāo)準(zhǔn)化評(píng)估|端到端迭代優(yōu)化資產(chǎn)管理 標(biāo)注交互層去重模型過(guò)濾規(guī)則過(guò)濾原始語(yǔ)料數(shù)據(jù)資產(chǎn)管理資產(chǎn)管理 標(biāo)注交互層去重模型過(guò)濾規(guī)則過(guò)濾原始語(yǔ)料

數(shù)據(jù)獲取

數(shù)據(jù)清洗

數(shù)據(jù)質(zhì)檢流程編排

分詞分詞

手動(dòng)標(biāo)注圖像聲音語(yǔ)音分割分類(lèi)內(nèi)容命名文本視頻實(shí)體三元組標(biāo)注處理算子

自動(dòng)標(biāo)注主動(dòng)學(xué)習(xí)預(yù)標(biāo)注交互式標(biāo)注

可信度過(guò)濾重復(fù)性過(guò)濾

文本重復(fù)通順性正確性?xún)?nèi)容歧義

平臺(tái)化自動(dòng)化處理層圖6.3智能數(shù)據(jù)加工處理層3大數(shù)據(jù)利用工具數(shù)據(jù)安全:數(shù)據(jù)安全工具面向事前、事中和事后三階段構(gòu)建核心能力。事前主動(dòng)構(gòu)建正向價(jià)值觀、負(fù)向數(shù)據(jù)和全量合規(guī)數(shù)據(jù)集,提供負(fù)向數(shù)據(jù)過(guò)濾和正向價(jià)值觀引導(dǎo)能力;事中通過(guò)正負(fù)向數(shù)據(jù)可視化配比,使模型知道什么是對(duì)的,什么錯(cuò)的,具備正向價(jià)值觀、辨別是非能力;事后通過(guò)風(fēng)險(xiǎn)管控能力,主動(dòng)攔截輸入輸出風(fēng)險(xiǎn)。智能配比:提供數(shù)據(jù)質(zhì)量分析、成分分析、場(chǎng)景配比和智能配比能力,能夠自動(dòng)推薦合適的

全生命周期數(shù)據(jù)安全合規(guī)|智能數(shù)據(jù)配比|企業(yè)級(jí)數(shù)據(jù)管理全生命周期數(shù)據(jù)安全合規(guī)|智能數(shù)據(jù)配比|企業(yè)級(jí)數(shù)據(jù)管理模型訓(xùn)練風(fēng)險(xiǎn)管控智能數(shù)據(jù)配比模型訓(xùn)練風(fēng)險(xiǎn)管控智能數(shù)據(jù)配比|行業(yè)數(shù)據(jù)集行業(yè)專(zhuān)屬大模型調(diào)優(yōu)反饋深度分析數(shù)據(jù)集,推薦配比數(shù)據(jù)和比例基于應(yīng)用效果反饋持續(xù)調(diào)優(yōu)效果反饋行業(yè)數(shù)據(jù)集企業(yè)級(jí)數(shù)據(jù)管理|全流程關(guān)系可視,雙向可溯源數(shù)據(jù)資產(chǎn)可視化管理,讓數(shù)據(jù)更好管全生命周期數(shù)據(jù)安全全生命周期數(shù)據(jù)安全|正向數(shù)據(jù)引導(dǎo)事前事中事后正向價(jià)值觀數(shù)據(jù) 配比負(fù)向數(shù)據(jù)全量安全合規(guī)數(shù)據(jù)事前構(gòu)建正向價(jià)值觀數(shù)據(jù),過(guò)濾負(fù)向數(shù)據(jù)價(jià)值收益8大創(chuàng)新工具,構(gòu)建高質(zhì)量數(shù)據(jù)集50%手工操作

倍+加工效率

95%準(zhǔn)確率34統(tǒng)一數(shù)據(jù)編碼創(chuàng)新多模數(shù)據(jù)統(tǒng)一編碼,預(yù)測(cè)最優(yōu)解業(yè)界難題業(yè)務(wù)數(shù)據(jù)通常以?xún)r(jià)值高的結(jié)構(gòu)化數(shù)據(jù)為主,在預(yù)測(cè)時(shí)主要基于結(jié)構(gòu)化數(shù)據(jù)結(jié)合人工經(jīng)驗(yàn)和工業(yè)機(jī)理,導(dǎo)致預(yù)測(cè)大模型技術(shù)的規(guī)模應(yīng)用仍然存在以下兩大挑戰(zhàn):數(shù)據(jù)種類(lèi)單一,預(yù)測(cè)精度低:業(yè)界通用預(yù)測(cè)模型僅支持結(jié)構(gòu)化數(shù)據(jù)結(jié)合工藝去預(yù)測(cè),缺少關(guān)鍵的過(guò)程圖文音視頻數(shù)據(jù)參與預(yù)測(cè)任務(wù),限制了預(yù)測(cè)大模型的應(yīng)用范圍和精度,通常僅能達(dá)到60%的精度。

數(shù)據(jù)來(lái)源多樣,人工適配工作量大:通常智能化場(chǎng)景多,不同領(lǐng)域?qū)λ惴ǖ囊笄Р钊f(wàn)別,傳統(tǒng)方法不具備根據(jù)場(chǎng)景自動(dòng)泛化能力,更無(wú)法統(tǒng)一建模,需要人工多次建模和調(diào)優(yōu)適配,開(kāi)發(fā)周期長(zhǎng),導(dǎo)致模型難以批量復(fù)制和大規(guī)模應(yīng)用。因此,需要統(tǒng)一數(shù)據(jù)編碼和統(tǒng)一預(yù)測(cè)大模型架構(gòu)來(lái)整合多樣、多源數(shù)據(jù)來(lái)提升預(yù)測(cè)精度和規(guī)模復(fù)制能力。統(tǒng)一數(shù)據(jù)編碼:創(chuàng)新多模數(shù)據(jù)統(tǒng)一編碼,預(yù)測(cè)最優(yōu)解1灰分X熱強(qiáng)21灰分X熱強(qiáng)2XX3耐磨性RXXXRXXXXXXXRTimeXRXXXRXXXXXXXXXXXXXXXXN…321N…耐磨性熱強(qiáng)灰分表格文本時(shí)間序列Value圖文音視頻更多類(lèi)型圖7.1統(tǒng)一數(shù)據(jù)編碼圖文音視頻更多類(lèi)型36統(tǒng)一數(shù)據(jù)編碼大模型混合云創(chuàng)新統(tǒng)一數(shù)據(jù)編碼技術(shù),將不同來(lái)源的數(shù)據(jù)進(jìn)行統(tǒng)一編碼轉(zhuǎn)換為三元組,使它們成為獨(dú)立的節(jié)點(diǎn),消除不同模態(tài)數(shù)據(jù)之間的差異,再將這些編碼的節(jié)點(diǎn)統(tǒng)一按圖的方式組織,形成一個(gè)統(tǒng)一的、多樣化、大規(guī)模的訓(xùn)練數(shù)據(jù)集,讓模型具備處理不同模態(tài)數(shù)據(jù)的能力,使多維訓(xùn)推數(shù)據(jù)參與預(yù)測(cè)過(guò)程,提升模型精準(zhǔn)度。常見(jiàn)的數(shù)據(jù)進(jìn)行統(tǒng)一三元組編碼轉(zhuǎn)化過(guò)程如下:結(jié)構(gòu)化數(shù)據(jù):將每一維特征作為一個(gè)節(jié)點(diǎn),特

征與特征之間通過(guò)可學(xué)習(xí)權(quán)重相連構(gòu)成三元組。由于結(jié)構(gòu)化數(shù)據(jù)拓?fù)浣Y(jié)構(gòu)的模糊性,這里采用可學(xué)習(xí)的參數(shù)表征三元組拓?fù)浣Y(jié)構(gòu)通過(guò)自學(xué)習(xí)確定對(duì)應(yīng)連接的值。時(shí)序數(shù)據(jù):時(shí)序數(shù)據(jù)以時(shí)間點(diǎn)作為節(jié)點(diǎn),臨近節(jié)點(diǎn)連接作為拓?fù)浣Y(jié)構(gòu)形成三元組。圖像數(shù)據(jù):圖像數(shù)據(jù)經(jīng)過(guò)切分,連接圖塊與其他臨近的圖塊,形成三元組。統(tǒng)一預(yù)測(cè)大模型架構(gòu)統(tǒng)一預(yù)訓(xùn)練大模型架構(gòu)主要由構(gòu)建統(tǒng)一三元組結(jié)構(gòu)、對(duì)三元組進(jìn)行遮罩及添加噪聲、訓(xùn)練預(yù)訓(xùn)練模型三個(gè)部分組成,通過(guò)重建遮罩的部分?jǐn)?shù)據(jù)完成模型的預(yù)訓(xùn)練,該方法實(shí)現(xiàn)了多種模態(tài)的統(tǒng)一預(yù)訓(xùn)練,通過(guò)遮罩三元組的節(jié)點(diǎn)或者邊使得預(yù)訓(xùn)練過(guò)程同時(shí)獲得數(shù)據(jù)的數(shù)值信息和拓?fù)浣Y(jié)構(gòu),得到更加準(zhǔn)確的預(yù)訓(xùn)練模型。

在提升精度的同時(shí),因?yàn)槠髽I(yè)復(fù)雜多樣的生產(chǎn)場(chǎng)景對(duì)模型的泛化能力也有著較高要求,盤(pán)古預(yù)測(cè)大模型提供針對(duì)任意下游任務(wù)微調(diào)的能力,支持全量微調(diào)、LoRA和部分參數(shù)的微調(diào),使客戶(hù)從傳統(tǒng)AI模型按場(chǎng)景單獨(dú)建模,走向通過(guò)微調(diào)即可快速完成新場(chǎng)景的訓(xùn)練,使下游任務(wù)統(tǒng)一建模,高精度預(yù)測(cè),實(shí)現(xiàn)“一模多用”。統(tǒng)一預(yù)測(cè)大模型架構(gòu)表格文本XXX時(shí)間序列關(guān)系網(wǎng)絡(luò)

最優(yōu)解L…編碼層L…編碼層L1編碼層LnLn解碼層圖7.2統(tǒng)一預(yù)測(cè)大模型架構(gòu)價(jià)值收益創(chuàng)新多模數(shù)據(jù)統(tǒng)一編碼,預(yù)測(cè)最優(yōu)解10%預(yù)測(cè)精度

天級(jí)微調(diào)上線38精細(xì)視覺(jué)神經(jīng)網(wǎng)絡(luò)對(duì)齊細(xì)節(jié),精準(zhǔn)識(shí)別業(yè)界難題視覺(jué)大模型已廣泛應(yīng)用在城市、政務(wù)、礦山、鐵路等領(lǐng)域,成為當(dāng)前應(yīng)用最廣泛的AI技術(shù)之一。但它也并不完美,尤其是在一些新的場(chǎng)景下,其精度和處理效率依然存在一些短板:泛化能力弱,精度差:傳統(tǒng)視覺(jué)模型的主要問(wèn)題是特征提取的語(yǔ)義粒度不完整和可重復(fù)性差。這主要是因?yàn)閭鹘y(tǒng)訓(xùn)練方法只關(guān)注全局圖像和語(yǔ)義的對(duì)齊,而忽略了局部區(qū)域和語(yǔ)義之

無(wú)法支撐視覺(jué)模型處理的規(guī)模使用。高分辨率圖像處理效率問(wèn)題:高分辨率的圖像具有更多細(xì)節(jié)特征信息,影響著視覺(jué)模型的精度和泛化性。而在視覺(jué)模型訓(xùn)推過(guò)程中,需要將圖像切分為圖塊處理,計(jì)算量和圖塊數(shù)量平方成正比,考慮到企業(yè)有限的計(jì)算資源,亟需破解高分辨率場(chǎng)景下算力消耗劇增的難題。傳統(tǒng)全局對(duì)齊方案 精細(xì)視覺(jué)神經(jīng)網(wǎng)絡(luò)中華田園犬文本編碼器中華田園犬文本編碼器 圖像編碼器 (全圖重建)特征提取不全忽略圖文空間位置狗貓文本編碼器細(xì)粒度 圖文對(duì)齊編碼器(視覺(jué)空間壓縮)精準(zhǔn)、全面訓(xùn)推上下文和空間位置關(guān)系對(duì)齊狗貓...圖8.1精細(xì)視覺(jué)神經(jīng)網(wǎng)絡(luò)針對(duì)視覺(jué)分析中特征提取粒度不完整導(dǎo)致的模型泛化性弱、精度差以及有限算力資源挑戰(zhàn),大模型混合云創(chuàng)新精細(xì)視覺(jué)神經(jīng)網(wǎng)絡(luò),能精準(zhǔn)、全面、高效地實(shí)現(xiàn)視覺(jué)任務(wù)的訓(xùn)練和推理,通過(guò)細(xì)粒度圖文對(duì)齊技術(shù),對(duì)像素、區(qū)域、全圖等不同

層級(jí)進(jìn)行對(duì)齊預(yù)訓(xùn)練,解決傳統(tǒng)方案忽視局部區(qū)域和語(yǔ)義之間的重要對(duì)齊關(guān)系問(wèn)題;通過(guò)視覺(jué)空間壓縮技術(shù),對(duì)圖像冗余信息進(jìn)行壓縮,解決高分辨率圖像處理效率問(wèn)題。40細(xì)粒度圖文對(duì)齊通過(guò)細(xì)粒度圖文對(duì)齊技術(shù)對(duì)訓(xùn)練的圖像數(shù)據(jù)先進(jìn)行局部信息提煉,再實(shí)現(xiàn)區(qū)域特征與圖像特征的對(duì)齊,在計(jì)算圖像與文本描述之間的對(duì)比損失后,得到局部物體與對(duì)應(yīng)類(lèi)別之間的對(duì)比損失,以及局部物體與局部文本描述之間的對(duì)比損失,

大幅度提高盤(pán)古視覺(jué)大模型在不同粒度任務(wù)上的泛化性和準(zhǔn)確性,該技術(shù)在圖像分類(lèi)、檢測(cè)、分割等不同粒度視覺(jué)任務(wù)上實(shí)現(xiàn)了技術(shù)領(lǐng)先,突破了傳統(tǒng)全局圖像表征與文本關(guān)系對(duì)齊的局限性,并且有效避免了噪聲的影響,使得80%以上的場(chǎng)景能夠開(kāi)箱即用。......細(xì)粒度圖文對(duì)齊編碼器ROIAlign圖像特征+圖像特征region-ioss圖片標(biāo)題圖片標(biāo)簽區(qū)域1/區(qū)域2/... 文本編碼器 文本特征Bbox2Bbox1Image-losstag/labelloss圖8.2細(xì)粒度圖文對(duì)齊視覺(jué)空間壓縮視覺(jué)圖像信號(hào)通常具有高度的空間冗余信息,通過(guò)視覺(jué)空間壓縮技術(shù),在保持圖像關(guān)鍵信息的前提下,通過(guò)選擇性舍棄不太重要的冗余的圖塊信息,降低計(jì)算復(fù)雜度,顯著加快訓(xùn)推速度。除此之外,通過(guò)無(wú)需監(jiān)督信號(hào)的丟棄策略,直接根據(jù)

圖像本身的相似性來(lái)選出冗余的圖像信息,這一策略在預(yù)訓(xùn)練和推理階段均取得了很好的效果,使得采用同一套策略打通了上下游任務(wù)。在實(shí)際測(cè)試中,通過(guò)視覺(jué)空間壓縮40%的圖像信息,訓(xùn)推速度提升近一倍。視覺(jué)空間壓縮傳統(tǒng)方案視覺(jué)空間壓縮*過(guò)程示意圖圖 漸像 進(jìn) Stage1 Stage2 Stage3切 壓分 縮計(jì)算量 計(jì)算量 計(jì)算量 計(jì)算量圖8.3視覺(jué)空間壓縮價(jià)值收益對(duì)齊細(xì)節(jié),精準(zhǔn)識(shí)別80%+場(chǎng)景開(kāi)箱即用

80%+新場(chǎng)景精度

40%計(jì)算量壓縮

1倍訓(xùn)推提速42無(wú)感斷點(diǎn)續(xù)訓(xùn)分鐘級(jí)感知恢復(fù),保障長(zhǎng)穩(wěn)運(yùn)行業(yè)界難題大模型訓(xùn)練任務(wù)通常需要連續(xù)執(zhí)行數(shù)天甚至數(shù)月,出現(xiàn)的任何故障都可能造成訓(xùn)練中斷,導(dǎo)致算力空轉(zhuǎn),需實(shí)現(xiàn)故障的快速感知和恢復(fù)還要解決如下兩個(gè)問(wèn)題:故障感知不全且感知慢:當(dāng)前業(yè)界方案僅能識(shí)別大約70%的常見(jiàn)故障,例如HBM多比特ECC故障、磁盤(pán)故障、網(wǎng)絡(luò)不通等。然而,

對(duì)于其他如網(wǎng)絡(luò)靜默丟包、網(wǎng)絡(luò)擁塞等不常見(jiàn)的故障,往往難以及時(shí)發(fā)現(xiàn),需數(shù)天時(shí)間才能感知。故障恢復(fù)僅支持重調(diào)度,耗時(shí)長(zhǎng):傳統(tǒng)故障恢復(fù)方案往往需要通過(guò)冷啟動(dòng)重調(diào)度,對(duì)作業(yè)任務(wù)重新調(diào)度。如果資源不足,故障作業(yè)無(wú)法及時(shí)恢復(fù)會(huì)導(dǎo)致大量資源被空置。無(wú)感斷點(diǎn)續(xù)訓(xùn):分鐘級(jí)感知恢復(fù),保障長(zhǎng)穩(wěn)運(yùn)行斷點(diǎn)續(xù)訓(xùn)全棧故障模式庫(kù)三級(jí)故障快恢架構(gòu)進(jìn)程級(jí)-原地恢復(fù)服務(wù)器(NPU)存儲(chǔ)交換機(jī)軟件節(jié)點(diǎn)級(jí)-備機(jī)恢復(fù)斷點(diǎn)續(xù)訓(xùn)全棧故障模式庫(kù)三級(jí)故障快恢架構(gòu)進(jìn)程級(jí)-原地恢復(fù)服務(wù)器(NPU)存儲(chǔ)交換機(jī)軟件節(jié)點(diǎn)級(jí)-備機(jī)恢復(fù)集群級(jí)-作業(yè)恢復(fù)分鐘級(jí)感知分鐘級(jí)恢復(fù)盤(pán)古大模型ModelArtsMindSpore盤(pán)古大模型ModelArtsMindSpore開(kāi)源AI框架計(jì)算 存儲(chǔ) 網(wǎng)絡(luò)計(jì)算 存儲(chǔ) 網(wǎng)絡(luò)圖9.1無(wú)感斷點(diǎn)續(xù)訓(xùn)44針對(duì)大模型訓(xùn)練過(guò)程中的故障感知和恢復(fù)慢的問(wèn)題,大模型混合云創(chuàng)新無(wú)感斷點(diǎn)續(xù)訓(xùn)技術(shù),具備全棧故障模式庫(kù)和三級(jí)自愈架構(gòu),將故障感知和恢復(fù)的時(shí)間從小時(shí)級(jí)降至分鐘級(jí),有效地避免因?yàn)楣收蠈?dǎo)致大量算力空置的問(wèn)題,從而提升大模型的穩(wěn)定性。全棧故障模式庫(kù)大模型訓(xùn)練故障往往涉及服務(wù)器、NPU、存儲(chǔ)、交換機(jī)、軟件等多個(gè)環(huán)節(jié),橫跨多個(gè)領(lǐng)域。業(yè)界通常僅有服務(wù)器和軟件2大類(lèi)300+故障模式庫(kù),華為提供跨領(lǐng)域的全棧模式庫(kù),覆蓋95%的常見(jiàn)問(wèn)題,實(shí)現(xiàn)最快1分鐘感知。常見(jiàn)故障分鐘級(jí)感知:結(jié)合華為長(zhǎng)期服務(wù)企業(yè)積累的算力、網(wǎng)絡(luò)、軟件的運(yùn)維經(jīng)驗(yàn),梳理包含服務(wù)器、NPU、存儲(chǔ)、交換機(jī)、軟件(包含操作系統(tǒng)、框架、平臺(tái)、大模型)的1000多種典型故障模式庫(kù),讓95%以上的常見(jiàn)故障能夠分鐘級(jí)感知。

復(fù)雜故障跨層跨域聯(lián)合感知:通過(guò)統(tǒng)一收集和管理計(jì)算、網(wǎng)絡(luò)、AI框架、AI開(kāi)發(fā)平臺(tái)故障,構(gòu)建故障傳播鏈,快速定位故障源頭,具備全??梢暬晥D,實(shí)現(xiàn)跨層跨域的故障感知能力,解決非常見(jiàn)故障發(fā)現(xiàn)難的問(wèn)題。網(wǎng)絡(luò)交換機(jī)網(wǎng)絡(luò)交換機(jī)MindSpore開(kāi)源AI框架…存儲(chǔ)盤(pán)古大模型ModelArts服務(wù)器軟件硬件4大類(lèi)1000+種全棧故障模式庫(kù)圖9.2全棧故障模式庫(kù)三級(jí)自愈架構(gòu)進(jìn)程級(jí)自愈:針對(duì)可自修復(fù)的故障,采用進(jìn)程自愈先掛起作業(yè),修復(fù)故障后再原地拉起進(jìn)程,覆蓋例如HBM多比特ECC、網(wǎng)絡(luò)閃斷等70%常見(jiàn)故障。節(jié)點(diǎn)級(jí)自愈:針對(duì)整機(jī)節(jié)點(diǎn)級(jí)故障,啟用節(jié)點(diǎn)自愈機(jī)制隔離故障節(jié)點(diǎn),僅需重新調(diào)度故障節(jié)

點(diǎn)的任務(wù),覆蓋例如NPU故障、內(nèi)存故障、磁盤(pán)故障等場(chǎng)景。集群級(jí)自愈:針對(duì)未知的故障,采用集群自愈重新拉起集群作業(yè)恢復(fù),提供圖編譯緩存、CKPT并行加載等加速技術(shù),讓最復(fù)雜的故障能從小時(shí)級(jí)降至分鐘級(jí)。三級(jí)自愈架構(gòu)進(jìn)程級(jí)自愈原地恢復(fù)

節(jié)點(diǎn)級(jí)自愈

集群級(jí)自愈多機(jī)隔離作業(yè)重調(diào)度JobJobJobJobJobJobJobJobJobJobJobJob恢復(fù)時(shí)JobJobJob正常狀態(tài)

隔離 隔離Job維修 維修Job正常節(jié)點(diǎn) 進(jìn)程級(jí)故障 故障節(jié)點(diǎn) 離線節(jié)點(diǎn)正常節(jié)點(diǎn) 進(jìn)程級(jí)故障 故障節(jié)點(diǎn) 離線節(jié)點(diǎn)圖9.3三級(jí)自愈架構(gòu)價(jià)值收益分鐘級(jí)感知恢復(fù),保障長(zhǎng)穩(wěn)運(yùn)行95%覆蓋常見(jiàn)故障

分鐘級(jí)故障感知

分鐘級(jí)故障恢復(fù)46安全護(hù)欄立體檢測(cè),智能攔截業(yè)界難題大模型廣泛進(jìn)入政企的生產(chǎn)系統(tǒng),在提升生產(chǎn)和工作效率的同時(shí),也引入了一些新的風(fēng)險(xiǎn):Prompt攻擊:大模型通常采用自然語(yǔ)言提供問(wèn)答對(duì)話服務(wù)作為入口,但是惡意用戶(hù)通過(guò)特定構(gòu)造Prompt提示詞,來(lái)欺騙模型使其產(chǎn)生錯(cuò)誤的結(jié)果,這種開(kāi)放域?qū)映霾桓F的攻擊手段往往難以及時(shí)應(yīng)對(duì)。隱私泄露風(fēng)險(xiǎn):大模型的訓(xùn)練和推理過(guò)程中,會(huì)涉及到大量的隱私數(shù)據(jù)、電子虛擬財(cái)產(chǎn)等信息,攻擊者可能會(huì)采用各種手段繞過(guò)檢測(cè),導(dǎo)致這些數(shù)據(jù)泄露,且在海量數(shù)據(jù)下難以甄別,帶來(lái)巨大的風(fēng)險(xiǎn)。

內(nèi)容合規(guī)風(fēng)險(xiǎn):在數(shù)據(jù)收集、處理和訓(xùn)練過(guò)程中,存在圖文音多樣性數(shù)據(jù)樣本不均衡、錯(cuò)誤價(jià)值觀等問(wèn)題,導(dǎo)致大模型輸出帶有偏見(jiàn)或不符合價(jià)值觀的結(jié)果,產(chǎn)生負(fù)面影響。鑒偽檢測(cè)難:大模型如今已經(jīng)可以快速生成海量音視頻,其中不乏錯(cuò)誤的信息。為保證模型可靠性,需要對(duì)信息進(jìn)行回溯和鑒偽,并及時(shí)糾正錯(cuò)誤。但在信息被修改、裁剪、二次創(chuàng)作等情況下,溯源變得困難。因此,建立全鏈路安全可信的大模型安全體系勢(shì)在必行,在確保大模型為政企業(yè)務(wù)創(chuàng)造價(jià)值的同時(shí),也能夠保障個(gè)人隱私、內(nèi)容合規(guī)和信息的本質(zhì)安全。安全護(hù)欄:立體檢測(cè),智能攔截********************90%+攔截攻擊30+種隱私數(shù)據(jù)保護(hù)95%+不良內(nèi)容攔截毫秒級(jí)鑒偽響應(yīng)輸出第一道防線第二道防線第三道防線第四道防線隱私數(shù)據(jù)偽造信息Prompt攻擊檢測(cè)隱私檢測(cè)脫敏內(nèi)容合規(guī)檢測(cè)生成式AI鑒偽正常 攻擊價(jià)值觀問(wèn)題檢測(cè)分類(lèi)模型

復(fù)雜語(yǔ)義檢測(cè)

內(nèi)容智能審核

鑒偽檢測(cè)模型安全護(hù)欄安全護(hù)欄1+7安全體系物理安全身份認(rèn)證運(yùn)維網(wǎng)絡(luò)應(yīng)用主機(jī)數(shù)據(jù)統(tǒng)一安全運(yùn)營(yíng)中心

圖10.1安全護(hù)欄華為云Stack在云平臺(tái)層面提供1個(gè)安全運(yùn)營(yíng)中心和物理安全、身份認(rèn)證、網(wǎng)絡(luò)、應(yīng)用、主機(jī)、數(shù)據(jù)、運(yùn)維7層安全體系,在此基礎(chǔ)上面向大模型新型攻擊提供安全護(hù)欄,是業(yè)界首個(gè)在中國(guó)信通院安全可信評(píng)測(cè)中達(dá)到5級(jí)的大模型安全方案,具有Prompt攻擊檢測(cè)、隱私檢測(cè)脫敏、內(nèi)容合規(guī)檢測(cè)、生成式AI鑒偽的大模型安全防護(hù)能力,內(nèi)置AI模型智能應(yīng)對(duì)新型攻擊。Prompt攻擊檢測(cè)檢測(cè)分類(lèi)模型:基于數(shù)萬(wàn)條安全數(shù)據(jù)訓(xùn)練出針對(duì)Prompt攻擊的檢測(cè)分類(lèi)AI模型,讓90%+的Prompt提示詞注入攻擊能夠自動(dòng)檢測(cè)攔截

過(guò)濾,強(qiáng)大的模型泛化性輕松應(yīng)對(duì)開(kāi)放域中不斷演變的新型Prompt新型攻擊。向量檢索與敏感詞匹配:在大模型運(yùn)行時(shí),基于檢測(cè)分類(lèi)模型,引入敏感詞匹配與向量檢索能力進(jìn)行綜合決策。通過(guò)向量檢索與敏感詞匹配,快速適配新型攻擊與未知問(wèn)題,反饋給模型,讓檢測(cè)模型越用越準(zhǔn)。通過(guò)攻擊檢測(cè)防范技術(shù)能夠在事前發(fā)現(xiàn)并阻止目標(biāo)劫持、反面誘導(dǎo)、初始肯定等攻擊,實(shí)現(xiàn)自動(dòng)化、智能化檢測(cè),顯著降低Pormpt提示詞注入攻擊的風(fēng)險(xiǎn)。拒絕回答拒絕回答描述和意圖不相干存在繞

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論