




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
一一--·1··02··03·一云多芯算力調(diào)度實(shí)踐探索案例實(shí)踐·04·智慧時(shí)代,計(jì)算力就是生產(chǎn)力。計(jì)算場(chǎng)景多樣化驅(qū)使算力體系架構(gòu)向異計(jì)算產(chǎn)業(yè)的核心關(guān)注點(diǎn)。隨著近年來(lái)信息技術(shù)產(chǎn)業(yè)發(fā)展邁入新階段,業(yè)內(nèi)對(duì)于一云多芯相關(guān)技術(shù)的研究及實(shí)踐也在不斷深入,用戶對(duì)于一云多芯的要求也在不斷提升。但是,由于異構(gòu)芯片間指令集千差萬(wàn)別、性能差異顯著,異一云多芯的最終目標(biāo)是支撐業(yè)務(wù)應(yīng)用在不同架構(gòu)處理器之間低成本、自為實(shí)現(xiàn)一云多芯的最終目標(biāo),算力作為一項(xiàng)核心資源,其調(diào)度能力至關(guān)重要。一云多芯算力調(diào)度倡導(dǎo)構(gòu)建分層解耦、開(kāi)放標(biāo)準(zhǔn)的整體架構(gòu),從基礎(chǔ)設(shè)施到應(yīng)用層的各層級(jí)能夠獨(dú)立運(yùn)行、獨(dú)立演化,同時(shí)支持開(kāi)放的協(xié)議、標(biāo)準(zhǔn)實(shí)現(xiàn)層間高效協(xié)同,兼容多樣化的硬件平臺(tái),從而提升整體系統(tǒng)的靈活性與可擴(kuò)展性。本報(bào)告針對(duì)算力調(diào)度架構(gòu)中的各個(gè)層級(jí)的實(shí)踐探索進(jìn)行了分析最后,本報(bào)告對(duì)一云多芯的未來(lái)進(jìn)行了展望。一云多芯勢(shì)在必行、任重道遠(yuǎn),不僅需要持續(xù)的原創(chuàng)性、引領(lǐng)性技術(shù)創(chuàng)新,也需要業(yè)內(nèi)廣泛聯(lián)合和生·05··06·場(chǎng)景呈現(xiàn)多樣化趨勢(shì),大數(shù)據(jù)、科學(xué)計(jì)算、人工智能訓(xùn)練、人工智能推理等新型計(jì)算模式不斷涌現(xiàn)。數(shù)據(jù)精度橫向擴(kuò)展、數(shù)據(jù)量級(jí)縱向增長(zhǎng),對(duì)計(jì)算的實(shí)時(shí)性要求也不斷提升,傳統(tǒng)的速處理器、神經(jīng)擬態(tài)芯片、可編程芯片、領(lǐng)域?qū)S眉铀傩酒榷喾NTB級(jí)X86大數(shù)據(jù)關(guān)鍵計(jì)算TB級(jí)X86大數(shù)據(jù)關(guān)鍵計(jì)算科學(xué)計(jì)算數(shù)據(jù)量級(jí)不斷提升,類型復(fù)雜AI引入新計(jì)算類型,跨度更大·07·靈活可定制性受到關(guān)注。伴隨計(jì)算場(chǎng)景的多樣化,數(shù)據(jù)中心正從以CPU為中心,向GPU、在多元異構(gòu)處理器功能、性能和可靠性存在差異的情況下,為滿足高效穩(wěn)定的技術(shù)需求、實(shí)高效適配、無(wú)損遷移與性能調(diào)優(yōu)成為重要關(guān)注點(diǎn)。行業(yè)客戶對(duì)于一云多芯的需求不再限定于基礎(chǔ)的多芯資源的管理和調(diào)度,而是衍生了因不同架構(gòu)之間差異導(dǎo)致的應(yīng)用性能優(yōu)化需求、向應(yīng)用的資源供給分配標(biāo)準(zhǔn)以及不同技術(shù)路線之間的高可用遷移方法,從而降低應(yīng)用適配改是保障應(yīng)用的跨架構(gòu)高效穩(wěn)定運(yùn)行,從而實(shí)現(xiàn)用戶體驗(yàn)的一致性。功能的等價(jià)性主要面臨的挑戰(zhàn)是異構(gòu)處理器之間指令集的差異,對(duì)于操作系統(tǒng)及應(yīng)用程序的跨架構(gòu)可運(yùn)行性提出了更高的要求;性能的等價(jià)性主要面臨的挑戰(zhàn)是異構(gòu)處理器之間性能的差異,通過(guò)建立科學(xué)、全面的算力量化評(píng)估模型,準(zhǔn)確分析不同架構(gòu)的處理能力、運(yùn)算速度等方面的特性,為應(yīng)用在·08·要推動(dòng)CPU、GPU等異構(gòu)算力提升,逐步提高自主研發(fā)算力的部署比例,推進(jìn)新型數(shù)據(jù)中展行動(dòng)計(jì)劃》,提出要推動(dòng)算力結(jié)構(gòu)多元配置,推動(dòng)不同計(jì)算架構(gòu)的智能算力與通用算力協(xié)同發(fā)展,滿足均衡型、計(jì)算和存儲(chǔ)密集型等各類業(yè)務(wù)算力需求。中國(guó)人民銀行印發(fā)的《金融科技發(fā)展規(guī)劃(2022-2025)》中提出,要切實(shí)保障供應(yīng)鏈穩(wěn)定可靠,不一云多芯的最終目標(biāo)是支撐用戶業(yè)務(wù)在不同架構(gòu)處理器之間的低成本切換或者自由切·09·第二階段第三階段第二階段第三階段資源混部,即在同一個(gè)云平臺(tái)中實(shí)現(xiàn)不同廠商、不同求,為客戶提供更加靈活、高效的資源調(diào)度策略,實(shí)現(xiàn)業(yè)務(wù)的靈活部署和快速迭代,從而提升資源的整體利用率,降低運(yùn)營(yíng)成本,增強(qiáng)市場(chǎng)競(jìng)爭(zhēng)力。對(duì)于一些對(duì)信息安全要求較高的行業(yè)(例如金融、政務(wù)等),多芯策略可以避免單一架構(gòu)的依賴,多樣化的技術(shù)路線有助于保在第一階段,用戶通過(guò)離線遷移、手動(dòng)切換等方式實(shí)現(xiàn)應(yīng)商、操作系統(tǒng)廠商、應(yīng)用廠商、數(shù)據(jù)庫(kù)/中間件廠商的廣泛配合。用戶通常難以預(yù)在第一階段的基礎(chǔ)上,為進(jìn)一步滿足應(yīng)用的·10·源層面,通過(guò)跨平臺(tái)的資源封裝分發(fā)和遷移實(shí)現(xiàn)應(yīng)用跨架構(gòu)部署和遷移;在平臺(tái)層面,實(shí)現(xiàn)有狀態(tài)/無(wú)狀態(tài)應(yīng)用的跨架構(gòu)混合部署;在應(yīng)用層面,可通過(guò)服務(wù)網(wǎng)格等技術(shù)實(shí)現(xiàn)應(yīng)用的跨在該階段,通過(guò)建立面向動(dòng)態(tài)異構(gòu)特征的算力量化框架,支持規(guī)格層算力測(cè)算,解決跨架構(gòu)算力表征及等價(jià)刻畫(huà)問(wèn)題;設(shè)計(jì)等價(jià)切換調(diào)度方法,基于同構(gòu)節(jié)點(diǎn)優(yōu)先及應(yīng)用副本數(shù)/規(guī)格動(dòng)態(tài)調(diào)整策略,保障算力一致;基于優(yōu)雅退出、探針、重試、預(yù)熱等操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件和應(yīng)用等產(chǎn)業(yè)鏈上下游的共同配合,實(shí)現(xiàn)應(yīng)用與處理器架構(gòu)的徹產(chǎn)業(yè)鏈上下游協(xié)同配合是第三階段的核心驅(qū)動(dòng)力。從上游的基礎(chǔ)軟件提供商,再到下游的各類應(yīng)用企業(yè)及終端用戶共同協(xié)同。芯片制造商及整機(jī)廠商供商整合硬件資源,優(yōu)化平臺(tái)架構(gòu),實(shí)現(xiàn)對(duì)多芯資源的高效管理與調(diào)度,支撐應(yīng)用的跨架構(gòu)等價(jià)運(yùn)行;下游應(yīng)用企業(yè)及終端用戶則從業(yè)務(wù)需求與使用體驗(yàn)角度出發(fā),作為業(yè)務(wù)話語(yǔ)權(quán)的在算力評(píng)估、標(biāo)準(zhǔn)和測(cè)評(píng)方面,研究多元異構(gòu)算力量化評(píng)估方法產(chǎn)業(yè)鏈上下游,建立一云多芯行業(yè)標(biāo)準(zhǔn)。建立行業(yè)大生態(tài),共同探索新的業(yè)務(wù)模式與應(yīng)用場(chǎng)景,提升整個(gè)云計(jì)算產(chǎn)業(yè)鏈的活力。促進(jìn)一云多芯的泛在落地,為數(shù)字經(jīng)濟(jì)的蓬勃發(fā)展提供不同芯片架構(gòu)在指令集、寄存器、內(nèi)存管理等以通過(guò)交叉編譯等方式實(shí)現(xiàn)面向不同架構(gòu)的二進(jìn)制的構(gòu)建,但程序本身源碼中架構(gòu)相關(guān)部分·11·并且不會(huì)產(chǎn)生編譯時(shí)錯(cuò)誤。使用了該數(shù)據(jù)類型的代碼構(gòu)建的面向X86平臺(tái)的二進(jìn)制程序在運(yùn)行時(shí),可能會(huì)與ARM平臺(tái)產(chǎn)生截然不同的結(jié)果。程序排錯(cuò)依賴于專家經(jīng)驗(yàn),導(dǎo)致應(yīng)用適遷移過(guò)程中,在新老副本切換流量過(guò)程中可能引發(fā)短暫的延遲、中斷或錯(cuò)誤,造成應(yīng)用響應(yīng)實(shí)現(xiàn)有狀態(tài)任務(wù)在異構(gòu)節(jié)點(diǎn)間高效一致性共識(shí)協(xié)商和數(shù)據(jù)同步,以及無(wú)狀態(tài)任務(wù)的非侵入流生態(tài)建設(shè)、激發(fā)產(chǎn)業(yè)鏈協(xié)同創(chuàng)新活力,也能夠?qū)崿F(xiàn)應(yīng)用在不同處理器架構(gòu)間的低成本切換,·12·制約著架構(gòu)的橫向協(xié)同,應(yīng)用同時(shí)適配多個(gè)指令集和操作系統(tǒng)的問(wèn)題依然很普遍。因此,IT產(chǎn)業(yè)需要新的理念、新的路徑、新的設(shè)計(jì),即以CPU為核心的設(shè)計(jì)模式轉(zhuǎn)變?yōu)橐韵到y(tǒng)為核支撐用戶業(yè)務(wù)在不同架構(gòu)處理器之間的低成本切換或者自由切換,因此,基于以系統(tǒng)為核心圖計(jì)算等面向不同場(chǎng)景的業(yè)務(wù)需求驅(qū)動(dòng)軟硬協(xié)同的系成接口標(biāo)準(zhǔn)、交互規(guī)范、算力規(guī)格、能效規(guī)范等標(biāo)準(zhǔn)或規(guī)范。其次,基于系統(tǒng)規(guī)格推導(dǎo)/定義芯片指令集標(biāo)準(zhǔn)和融合架構(gòu)整機(jī)系統(tǒng)設(shè)計(jì),實(shí)現(xiàn)資源融合池化、多元異構(gòu)協(xié)同、綠色節(jié)能高效。在異構(gòu)加速層面,結(jié)合智能網(wǎng)卡、加速卡深度學(xué)習(xí)流式計(jì)算深度學(xué)習(xí)流式計(jì)算場(chǎng)景驅(qū)動(dòng)軟硬協(xié)同設(shè)計(jì)場(chǎng)景驅(qū)動(dòng)軟硬協(xié)同設(shè)計(jì)·13·承擔(dān)其相應(yīng)的職責(zé)和功能。層與層之間通過(guò)標(biāo)準(zhǔn)協(xié)議實(shí)現(xiàn)協(xié)同和解耦。通過(guò)分層的層次實(shí)現(xiàn)了邏輯上的分離,每一層都可以獨(dú)立于其他層進(jìn)行開(kāi)發(fā)、部署和擴(kuò)展,消除單一口,實(shí)現(xiàn)不同技術(shù)、平臺(tái)和應(yīng)用之間的互操作性和可集成性,進(jìn)而實(shí)現(xiàn)產(chǎn)業(yè)鏈整體的標(biāo)準(zhǔn)規(guī)范。例如,芯片/整機(jī)層與OS之間通過(guò)形成統(tǒng)一指令集/虛擬指令集標(biāo)準(zhǔn)支撐上層應(yīng)用的);一云多芯的最終目標(biāo)是支撐用戶業(yè)務(wù)在不同架構(gòu)處理器之間的低成本切換或者自由切持續(xù)演進(jìn)。從混合部署、離線遷移和手動(dòng)切換,到基·14·算力調(diào)度通過(guò)智能感知的分配策略實(shí)現(xiàn)算力的靈活調(diào)配,滿足應(yīng)用多樣化的算力需求。一云多芯算力調(diào)度基于上述理念,倡導(dǎo)構(gòu)建分層解耦、開(kāi)放標(biāo)準(zhǔn)的整體架構(gòu),層的各層級(jí)能夠獨(dú)立運(yùn)行、獨(dú)立演化的同時(shí),通過(guò)標(biāo)準(zhǔn)化、規(guī)范化的協(xié)議、標(biāo)準(zhǔn)實(shí)現(xiàn)層間協(xié)·跨架構(gòu)可運(yùn)行性·分布式系統(tǒng)數(shù)據(jù)狀態(tài)同步·跨架構(gòu)流量分發(fā)治理·運(yùn)行時(shí)等價(jià)封裝·架構(gòu)感知的算力有向調(diào)度·層次化算力量化分析方法·跨架構(gòu)可運(yùn)行性·分布式系統(tǒng)數(shù)據(jù)狀態(tài)同步·跨架構(gòu)流量分發(fā)治理·運(yùn)行時(shí)等價(jià)封裝·架構(gòu)感知的算力有向調(diào)度·層次化算力量化分析方法·應(yīng)用跨架構(gòu)等價(jià)調(diào)度·跨架構(gòu)可運(yùn)行性·算力測(cè)算方法·跨架構(gòu)運(yùn)行調(diào)優(yōu)方法·性能及RAS設(shè)計(jì)·推動(dòng)垂直生態(tài)繁榮·構(gòu)建整機(jī)開(kāi)放標(biāo)準(zhǔn)云操作系統(tǒng)層、基礎(chǔ)應(yīng)用層、業(yè)務(wù)應(yīng)用層等,圍繞多芯場(chǎng)景下的業(yè)務(wù)應(yīng)用的運(yùn)行提供基礎(chǔ)運(yùn)行環(huán)境,是承上接下的關(guān)鍵核心;云操作系統(tǒng)層本身作為分布式·15·跨架構(gòu)主備跨架構(gòu)混部一云多芯云操作系統(tǒng)芯片廠商甲芯片廠商乙???芯片廠商丙芯片廠商丁芯片架構(gòu)A芯片架構(gòu)B跨架構(gòu)主備跨架構(gòu)混部一云多芯云操作系統(tǒng)芯片廠商甲芯片廠商乙???芯片廠商丙芯片廠商丁芯片架構(gòu)A芯片架構(gòu)B計(jì)算芯片層面,各計(jì)算芯片廠商通過(guò)自主設(shè)計(jì)格提升、生產(chǎn)工藝提升等方式,不斷提升性能規(guī)格及穩(wěn)定性,并在實(shí)際落地應(yīng)用過(guò)程中不斷迭代優(yōu)化。例如,龍芯研制了LoongArch指令系統(tǒng),具備高度的自主性與安全性,采用了采用模式識(shí)別等智能化技術(shù)實(shí)現(xiàn)高精度檢測(cè),確保整機(jī)在生產(chǎn)過(guò)程中的質(zhì)量控制。業(yè)內(nèi)也倡·16·導(dǎo)制定標(biāo)準(zhǔn)規(guī)范為相關(guān)工作提供指導(dǎo)和依據(jù),例如強(qiáng)制性國(guó)家標(biāo)準(zhǔn)《GB43630-2023塔式是推動(dòng)與主流操作系統(tǒng)的編譯適配和性能調(diào)優(yōu)。很多廠商不僅提供原廠適配的基礎(chǔ)版本操作核中合入。其次是推動(dòng)主流編程語(yǔ)言和應(yīng)用框架的適配,例如JDK等,以支持開(kāi)發(fā)人員快速構(gòu)建相應(yīng)架構(gòu)的應(yīng)用,并提供應(yīng)用跨架構(gòu)遷移和調(diào)優(yōu)的最佳實(shí)踐及便捷工具。最后是工具基于GCC推出了PhyGCC高性能編譯器,針對(duì)飛騰微架構(gòu)進(jìn)行了定向優(yōu)化,內(nèi)置了寄存器分配算法的優(yōu)選器,引入了數(shù)組重新映射特性,支持對(duì)特定負(fù)優(yōu)化組合的禁用,集成了優(yōu)化的數(shù)學(xué)庫(kù)和內(nèi)存分配庫(kù),在典型基準(zhǔn)測(cè)試程序上實(shí)現(xiàn)了進(jìn)一步的性能提升。推出適用于飛騰開(kāi)放化標(biāo)準(zhǔn)化逐漸成為整機(jī)廠商的共識(shí)。早在2011年,國(guó)際上就發(fā)起了開(kāi)放計(jì)算項(xiàng)目網(wǎng)卡等成功案例。2023年,中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、浪潮電子信息產(chǎn)業(yè)股份有限公司以開(kāi)放共建、協(xié)同創(chuàng)新為宗旨,構(gòu)建全球領(lǐng)先的規(guī)范和標(biāo)具備全球影響力的產(chǎn)業(yè)生態(tài)。同年,OCTC發(fā)布了首個(gè)面向通用市場(chǎng)建立的整機(jī)柜服務(wù)器的標(biāo)準(zhǔn)《T/CESA1293—2023整機(jī)柜服務(wù)器通用規(guī)范》,對(duì)推動(dòng)實(shí)現(xiàn)標(biāo)準(zhǔn)化具于處理器的標(biāo)準(zhǔn)化算力模組單元,通過(guò)統(tǒng)一不同處理器算力單元對(duì)外高速互連、管理協(xié)議、·17·態(tài)挑戰(zhàn)問(wèn)題,方便客戶根據(jù)人工智能、云計(jì)算、大數(shù)據(jù)等多樣化應(yīng)用場(chǎng)景,靈活、快速匹配服務(wù)器操作系統(tǒng)是硬件與軟件之間的紐帶,是承載境。多芯場(chǎng)景下,要求服務(wù)器操作系統(tǒng)廣泛兼容不同的硬件平臺(tái),并為承載的上層系統(tǒng)提供微架構(gòu)等方面存在天壤之別,如何在操作系統(tǒng)內(nèi)核層面兼容多種架構(gòu),在保障內(nèi)核高效穩(wěn)定運(yùn)行的同時(shí)能夠在Shell層面提供一致性的應(yīng)用程序運(yùn)行環(huán)境成為挑戰(zhàn)。此外,不同架構(gòu)、不同廠商的處理器的核心數(shù)、工作頻率、生產(chǎn)工藝、散熱設(shè)計(jì)以及工況的差異導(dǎo)致處理器提供的計(jì)算能力存在巨大差異,如何針對(duì)算力進(jìn)行客觀準(zhǔn)確的衡量、并提供應(yīng)用調(diào)優(yōu)的最佳實(shí)操作系統(tǒng)自身的跨架構(gòu)可運(yùn)行性由構(gòu)建時(shí)指定的指令集與之匹配的鏡像,實(shí)現(xiàn)操作系統(tǒng)本身在不同硬件平臺(tái)上的可運(yùn)行性,這涉及到操作系統(tǒng)內(nèi)核戰(zhàn)主要集中在多指令集支持上,不同指令集的差異導(dǎo)致內(nèi)核、驅(qū)動(dòng)也有第三方廠商硬件自身支持的架構(gòu)有限,適配情況參差不齊,成為瓶頸。一些架構(gòu)生態(tài)建調(diào)試的難度。為驗(yàn)證適配效果,主流操作系統(tǒng)提供了測(cè)試套件(例如LTP、KUnit等項(xiàng)目)構(gòu)可運(yùn)行性提出了要求。一般而言,使用更高層級(jí)語(yǔ)言(例如C語(yǔ)言、Java語(yǔ)言等)編寫(xiě)的程序往往具有更好的跨架構(gòu)兼容性,可通過(guò)交叉編譯等方式實(shí)現(xiàn)一套源代碼面向不同架構(gòu)的二進(jìn)制文件的構(gòu)建;而使用了低層級(jí)語(yǔ)言(也包括內(nèi)聯(lián)匯編等技術(shù))編寫(xiě)的程序往往需要進(jìn)行一定的適配工作。其次,需要操作系統(tǒng)提供跨架構(gòu)等價(jià)一致的應(yīng)用運(yùn)行環(huán)境或運(yùn)行時(shí)依·18·同架構(gòu)的內(nèi)核可能具有不同的系統(tǒng)調(diào)用約定,例如X86架構(gòu)下,參數(shù)通過(guò)寄存器傳遞,而ARM架構(gòu)下則結(jié)合堆棧實(shí)現(xiàn);二是浮點(diǎn)計(jì)算與對(duì)齊問(wèn)題,不同架構(gòu)的浮點(diǎn)計(jì)算方式和數(shù)據(jù)對(duì)齊要求存在差異,導(dǎo)致同樣的程序在不同架構(gòu)上行為不一致甚至崩潰;三是運(yùn)行時(shí)環(huán)境的兼容性,如動(dòng)態(tài)鏈接器、C標(biāo)準(zhǔn)庫(kù)和應(yīng)用依賴的第三方庫(kù),需在跨架構(gòu)場(chǎng)景下提供一致的行此外,操作系統(tǒng)也與處理器協(xié)同,提供二進(jìn)制翻譯方法跨架構(gòu)運(yùn)行。但是二進(jìn)制翻譯方法存在較高的性能損耗,也存在一些高級(jí)復(fù)雜指令無(wú)法直接翻譯的問(wèn)題。因此目前基于軟件或軟硬協(xié)同的指令集翻譯技術(shù)更多的應(yīng)用于終端應(yīng)用,距離基于操作系統(tǒng)層的性能測(cè)試是對(duì)器部件或整機(jī)進(jìn)行算以及一些更加綜合的測(cè)試工具,例如sysbench、unixbench而面向于特定的場(chǎng)景,業(yè)內(nèi)也有更加專業(yè)的測(cè)算方法或工具。例如SPECPower是由向人工智能計(jì)算場(chǎng)景的測(cè)算工具,以MLPerf為例,作為一款用于衡量機(jī)器學(xué)習(xí)硬件、軟件和服務(wù)性能的基準(zhǔn)測(cè)試平臺(tái),受到浪潮等業(yè)內(nèi)頭部廠商的關(guān)數(shù)據(jù)等場(chǎng)景,也有Linpack、HPCC等對(duì)應(yīng)的工具套件。擴(kuò)大到數(shù)據(jù)中心場(chǎng)景,不僅有對(duì)應(yīng)基于服務(wù)器操作系統(tǒng)的算力測(cè)算工具能夠直接反映各器部件或是面向復(fù)雜的分布式系統(tǒng)時(shí),面臨擴(kuò)展能力差等問(wèn)題,可通過(guò)云操作系運(yùn)行的同時(shí),也需要針對(duì)不同架構(gòu)的差異進(jìn)行定向優(yōu)化,為應(yīng)用提供最佳運(yùn)行環(huán)境。在多芯場(chǎng)景下,由于異構(gòu)芯片之間指令集及性能存在的差異,穩(wěn)定性及性能的保障及調(diào)優(yōu)成·19·為上層操作系統(tǒng)及應(yīng)用提供一致抽象的接口,減少硬件架構(gòu)變化對(duì)系統(tǒng)穩(wěn)定性的影響;二是保障系統(tǒng)的可靠穩(wěn)定運(yùn)行。并通過(guò)在線升級(jí)的方式,為用戶及時(shí)推送系統(tǒng)補(bǔ)丁。核熱升級(jí)技術(shù)近年來(lái)成為研究的熱點(diǎn),能夠?qū)崿F(xiàn)業(yè)務(wù)無(wú)感知的操作系統(tǒng)內(nèi)核升級(jí),保障業(yè)務(wù)操作系統(tǒng)也提供對(duì)應(yīng)的優(yōu)化策略。例如針對(duì)ARM架構(gòu),可充分利用其核心數(shù)量多的特點(diǎn),操作系統(tǒng)通過(guò)專業(yè)性能分析工具,提供多芯場(chǎng)景下的系統(tǒng)指標(biāo)采集和智能分析能力,有效識(shí)別和解決性能瓶頸,提高性能優(yōu)化的效率,例如浪潮信息云巒操作系統(tǒng)提供的全棧式智能調(diào)·20·跨架構(gòu)的安全等效性也是需要操作系統(tǒng)廠商重點(diǎn)關(guān)注的可信執(zhí)行環(huán)境的實(shí)現(xiàn)并沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),因此操作系統(tǒng)層需要通序提供安全等價(jià)的運(yùn)行環(huán)境。云巒操作系統(tǒng)在社區(qū)版基礎(chǔ)上增強(qiáng)內(nèi)生安全機(jī)制,通過(guò)eBPF安全技術(shù)、可信計(jì)算及機(jī)密計(jì)算方面技術(shù)創(chuàng)新,構(gòu)建并升級(jí)了雙保險(xiǎn)、可信任、高隱根據(jù)相關(guān)標(biāo)準(zhǔn)定義,云操作系統(tǒng)用于將物理設(shè)備以共享、彈理,提供人機(jī)界面以按需自服務(wù)可計(jì)量的方式為用戶提供計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)等基礎(chǔ)云服務(wù)資異構(gòu)計(jì)算資源,北向提供高效靈活的混合任務(wù)調(diào)度能力,通過(guò)對(duì)算力任務(wù)的動(dòng)態(tài)調(diào)整和資源跨平臺(tái)語(yǔ)言解決了應(yīng)用的跨架構(gòu)問(wèn)題,但依賴跨架構(gòu)用跨架構(gòu)的編譯,但也存在運(yùn)行時(shí)的動(dòng)態(tài)庫(kù)依賴問(wèn)題。因此,程序在多芯系統(tǒng)中的運(yùn)行不僅需要考慮自身的可運(yùn)行性,對(duì)于現(xiàn)代化的復(fù)雜應(yīng)用,還應(yīng)綜合考慮其依賴的運(yùn)行時(shí)。基于云操作系統(tǒng)提供的調(diào)度能力,結(jié)合標(biāo)準(zhǔn)化的容器方式對(duì)應(yīng)用程序及其運(yùn)行時(shí)依賴進(jìn)行封裝,形成原子性的資源封裝,成為實(shí)現(xiàn)應(yīng)用跨架構(gòu)部署及切換可行的路線。具體的,基于同一套應(yīng)用程序源代碼,針對(duì)不同的架構(gòu)構(gòu)建不同的容器鏡像,如果程序是基于跨平臺(tái)的語(yǔ)言構(gòu)建,則將程序腳本或中間代碼與運(yùn)行時(shí)封裝為容器;如果程序是基于非跨平臺(tái)的語(yǔ)言構(gòu)建的,則可以通過(guò)交叉編譯,構(gòu)建各種架構(gòu)下的二進(jìn)制文件,然后將其與依賴庫(kù)等封裝為容器。此流程可以通過(guò)一套流水線作業(yè)自動(dòng)構(gòu)建,并推送至鏡像倉(cāng)庫(kù)。在應(yīng)用編排時(shí),云操作系統(tǒng)根據(jù)架構(gòu)感知是一云多芯實(shí)現(xiàn)算力調(diào)度、界面功能自適應(yīng)展·21·性、實(shí)現(xiàn)資源封裝生命周期管理的基礎(chǔ),可通過(guò)收集器、調(diào)度器、攔截器實(shí)現(xiàn)。收集器采集并上報(bào)各節(jié)點(diǎn)的CPU架構(gòu)、硬件特性等信息,建立包含架構(gòu)特性的主機(jī)列表。調(diào)度器為各種粒度的資源封裝選擇匹配的主機(jī)節(jié)點(diǎn),采用級(jí)聯(lián)過(guò)濾器機(jī)制,加載多個(gè)獨(dú)立的過(guò)濾器,依次對(duì)創(chuàng)建請(qǐng)求與主機(jī)進(jìn)行匹配。在一云多芯場(chǎng)景下,通過(guò)級(jí)聯(lián)架構(gòu)感知過(guò)濾器,識(shí)別資源封裝創(chuàng)建請(qǐng)求中的鏡像架構(gòu)標(biāo)簽,根據(jù)CPU架構(gòu)特性匹配結(jié)果過(guò)濾出主機(jī)節(jié)點(diǎn)。攔截器用于攔截請(qǐng)求并將結(jié)果反饋展示,從而實(shí)現(xiàn)不同架構(gòu)功能差異化的自動(dòng)識(shí)別、動(dòng)態(tài)擴(kuò)展,屏蔽底測(cè)算對(duì)象量化方法測(cè)算工具規(guī)格算力從服務(wù)器系統(tǒng)資源層面測(cè)試評(píng)估計(jì)算能力磁盤和網(wǎng)絡(luò)等系統(tǒng)整機(jī)規(guī)格性能基準(zhǔn)測(cè)試SPECCPU,Stress有效算力從平臺(tái)層面測(cè)試評(píng)估中間件的資源封裝性能Kafka等中間件針對(duì)中間件的量等指標(biāo)進(jìn)行量化評(píng)估從應(yīng)用層面使用真實(shí)業(yè)務(wù)負(fù)載測(cè)試評(píng)估資源封裝計(jì)算能力客戶關(guān)系管理AI推理/訓(xùn)練等業(yè)務(wù)應(yīng)用針對(duì)業(yè)務(wù)事務(wù)處理能力指標(biāo)進(jìn)行量化評(píng)估Jmeter,·22·算力量化是實(shí)現(xiàn)應(yīng)用等價(jià)遷移的基礎(chǔ),包括基于測(cè)評(píng)反饋基于測(cè)評(píng)反饋的算力量化方法分別針對(duì)不同層級(jí)的算力,定義其量化方法及工具,采用基于實(shí)際測(cè)量的方式對(duì)其算力進(jìn)行量化。具體的,面向規(guī)格算力,采用基于SUnixBench等工具,對(duì)處理器等器部件的基礎(chǔ)性能進(jìn)行量化評(píng)估;面向有效算力,采用進(jìn)行測(cè)算。云操作系統(tǒng)支持提供面向動(dòng)態(tài)異構(gòu)特征的算力量化框架,支持規(guī)格層、服務(wù)級(jí)、算力量化的另一種方式是基于性能模型的算力量化方法,建立性能模型的方式,避免在線測(cè)評(píng)的開(kāi)銷(包括硬件成本及性能開(kāi)銷),實(shí)現(xiàn)跨架構(gòu)資源封裝規(guī)格的快速推理?;谛阅苣P偷姆椒▽?duì)于算力建模要求較高,浪潮云海云操作系統(tǒng)通并使用智能化的計(jì)算工作流對(duì)影響整機(jī)性能的因子進(jìn)行綜合計(jì)算,定義了通用性能調(diào)度指數(shù)基于云操作系統(tǒng)提供的面向動(dòng)態(tài)異構(gòu)特征的算力量化框架,·23·容器化封裝,解耦操作系統(tǒng)依賴。當(dāng)節(jié)點(diǎn)發(fā)生故障或計(jì)劃內(nèi)維護(hù)時(shí),針對(duì)應(yīng)用遷移過(guò)程中可能面臨服務(wù)性能基線降低的問(wèn)題,實(shí)現(xiàn)了等算力調(diào)度器,支持應(yīng)用優(yōu)先調(diào)度至等算力節(jié)點(diǎn),當(dāng)?shù)人懔?jié)點(diǎn)不滿足要求時(shí)(例如無(wú)法發(fā)現(xiàn)等算力節(jié)點(diǎn)),則跨架構(gòu)調(diào)度到異構(gòu)節(jié)點(diǎn),并基于節(jié)點(diǎn)算力動(dòng)態(tài)調(diào)整目標(biāo)架構(gòu)上的資源封裝規(guī)格或副本數(shù),保持應(yīng)用總算力不變,實(shí)數(shù)據(jù)庫(kù)集群1數(shù)據(jù)庫(kù)集群(數(shù)據(jù)庫(kù)集群1數(shù)據(jù)庫(kù)集群(節(jié)點(diǎn)n節(jié)點(diǎn)n數(shù)據(jù)庫(kù)集群2節(jié)點(diǎn)n節(jié)點(diǎn)n數(shù)據(jù)庫(kù)集群2節(jié)點(diǎn)n節(jié)點(diǎn)n數(shù)據(jù)庫(kù)集群主數(shù)據(jù)庫(kù)集群備節(jié)點(diǎn)n節(jié)點(diǎn)n數(shù)據(jù)庫(kù)集群主數(shù)據(jù)庫(kù)集群備節(jié)點(diǎn)n節(jié)點(diǎn)n·24·◆單架構(gòu)集群模式距小、網(wǎng)絡(luò)同域,部署形式不限于虛擬機(jī)、裸金屬或者容器化等形式。其優(yōu)點(diǎn)顯而易見(jiàn),即為便于部署,應(yīng)用廠商可能提供二進(jìn)制安裝包、虛擬機(jī)鏡像等不同的資源封裝形式。隨著云原生技術(shù)的不斷成熟,越來(lái)越多的廠商也選擇提供容器鏡像以及對(duì)應(yīng)的編排腳本的方式?;贠perator的編排方式則不僅能夠提供應(yīng)用的編排,也能夠?qū)崿F(xiàn)應(yīng)用的高階運(yùn)維能力,也逐漸成為開(kāi)發(fā)運(yùn)維工程師的首選。目前越來(lái)越多的開(kāi)源應(yīng)用提供了官方或社區(qū)版本的◆跨架構(gòu)主備部署模式在單架構(gòu)集群模式的基礎(chǔ)上,新建異構(gòu)資源池作為備集群。典型的,主集群基于X86架構(gòu)構(gòu)建,而備集群基于ARM集群構(gòu)建,集群之間通過(guò)架構(gòu)無(wú)關(guān)的網(wǎng)絡(luò)通訊協(xié)議進(jìn)行指令協(xié)同及數(shù)據(jù)同步。其優(yōu)點(diǎn)在于采用性能較優(yōu)的集群以保障系統(tǒng)性能及穩(wěn)定性,同時(shí)能夠降低該模式不僅滿足用戶對(duì)技術(shù)多樣性的期望,同時(shí)具備可靠客戶對(duì)于芯片架構(gòu)穩(wěn)定性和可靠性顧慮的方案之一。應(yīng)用提供商應(yīng)當(dāng)持續(xù)加強(qiáng)其在多架構(gòu)上),◆跨架構(gòu)混合部署模式即相同角色的節(jié)點(diǎn)分別分布在多種架構(gòu)上。以一個(gè)三節(jié)點(diǎn)集群為例,其X86節(jié)點(diǎn)作為由于節(jié)點(diǎn)間在指令集、算力等方面存在的差異,面臨非對(duì)等架構(gòu)下的分布式應(yīng)用狀態(tài)一致性保證問(wèn)題,給其穩(wěn)定性及可維護(hù)性帶來(lái)巨大挑戰(zhàn)。在一云多芯的當(dāng)前發(fā)展階段,往往僅在小非對(duì)等架構(gòu)下的分布式應(yīng)用狀態(tài)一致性保證問(wèn)題可通過(guò)分布式一致性算法解決。ACM圖靈獎(jiǎng)獲得者萊斯利·蘭伯特(LeslieLamport)提出了基于消息傳遞且具有高容錯(cuò)性的·25·在此基礎(chǔ)上,跨架構(gòu)的數(shù)據(jù)狀態(tài)同步需要進(jìn)一步考慮節(jié)點(diǎn)的非對(duì)稱特征。以Raft協(xié)議為例周期性發(fā)送心跳來(lái)保證主節(jié)點(diǎn)地位,當(dāng)一個(gè)從節(jié)點(diǎn)在一個(gè)超時(shí)周期內(nèi)沒(méi)有收到心跳,則該節(jié)點(diǎn)轉(zhuǎn)化為候選(Candidate)節(jié)點(diǎn)參與選舉。多芯系統(tǒng)中各節(jié)點(diǎn)的處理能力、網(wǎng)絡(luò)條件等不同導(dǎo)致超時(shí)影響差異化,可采用基于極大似然估計(jì)的適應(yīng)性方法,避免心跳延遲大、處理能力弱的節(jié)點(diǎn)頻繁觸發(fā)選舉,同時(shí)保證處理能力強(qiáng)的節(jié)點(diǎn)可快速發(fā)起選舉。對(duì)于投票策略,采業(yè)務(wù)應(yīng)用層承載具有實(shí)際業(yè)務(wù)價(jià)值的應(yīng)用程基于分布式一致性協(xié)議的基礎(chǔ)應(yīng)用簡(jiǎn)化了業(yè)務(wù)應(yīng)用的構(gòu)建態(tài)的工作負(fù)載,與復(fù)雜分布式的基礎(chǔ)應(yīng)用層相結(jié)合,組成了完整的業(yè)務(wù)應(yīng)用。如下是幾種典模塊B模塊B模塊B模塊B模塊B模塊B模塊B模塊B模塊B模塊B模塊B模塊B·26·◆單架構(gòu)模式◆跨架構(gòu)遠(yuǎn)程調(diào)用下,不同模塊分別運(yùn)行在不同架構(gòu)中,并通過(guò)架構(gòu)無(wú)關(guān)的網(wǎng)絡(luò)通訊協(xié)議或私有通訊協(xié)議進(jìn)行互聯(lián)互通互操作。典型的,高性能的X86架構(gòu)被用于部署數(shù)據(jù)庫(kù)集群,而擁有更多核心的ARM架構(gòu)則被用于部署無(wú)狀態(tài)的業(yè)務(wù)應(yīng)用,構(gòu)建整體的跨架構(gòu)應(yīng)用(集群成為目前主◆跨架構(gòu)混合部署與基礎(chǔ)應(yīng)用的跨架構(gòu)部署類似的,該模式下所有的模塊均跨架構(gòu)部署,是一種的部署模式。不僅面臨非對(duì)等架構(gòu)下的分布式應(yīng)用狀態(tài)一致性保證問(wèn)題,也的流量治理問(wèn)題,目前更多的處于探索和試驗(yàn)階段。需要基于云原生技術(shù),并借助云操作系并引流至對(duì)應(yīng)節(jié)點(diǎn)的副本上。為保證服務(wù)質(zhì)量不降級(jí),根據(jù)有效算力、業(yè)務(wù)算力量化分析確可采用服務(wù)網(wǎng)格的思想實(shí)現(xiàn)。控制面感知副本變化生成流量切分策略,下發(fā)至網(wǎng)絡(luò)代理關(guān)。對(duì)于東西向流量,網(wǎng)絡(luò)代理劫持流量并根據(jù)切分策略按比例轉(zhuǎn)發(fā)到不同的副本。對(duì)于南北向流量,網(wǎng)關(guān)在流量轉(zhuǎn)發(fā)時(shí)根據(jù)切分策略轉(zhuǎn)發(fā)到不同副本。在流量切分的瞬時(shí)過(guò)程中,受目標(biāo)節(jié)點(diǎn)副本未啟動(dòng)、TCP連接延遲等·27·復(fù)雜且海量。如何管理利用好海量數(shù)字基礎(chǔ)設(shè)施,通過(guò)新一代信息通信技術(shù)賦能千行百業(yè),二、跨域一體化。通信云的鮮明特點(diǎn)是地域跨度極三、易管理易運(yùn)維。地域跨度大也給管理運(yùn)維增加了難度。基于統(tǒng)一云平速上線,并實(shí)現(xiàn)跨域多數(shù)據(jù)中心的統(tǒng)一監(jiān)控、故障預(yù)持多元異構(gòu)資源的混合部署、統(tǒng)一調(diào)度、統(tǒng)一分發(fā),實(shí)現(xiàn)資源靈活調(diào)度及業(yè)務(wù)高效上云。其·28·安全保障體系安全保障體系跨域分布式云統(tǒng)一管理自用業(yè)務(wù)自用業(yè)務(wù)辦公類運(yùn)營(yíng)類......辦公類運(yùn)營(yíng)類......對(duì)外業(yè)務(wù)外網(wǎng)服務(wù)外網(wǎng)服務(wù)生態(tài)合作生態(tài)合作............數(shù)據(jù)庫(kù)服務(wù)數(shù)據(jù)庫(kù)服務(wù)服務(wù)容器服務(wù)行業(yè)生態(tài)資源數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)服務(wù)服務(wù)容器容器服務(wù)運(yùn)維運(yùn)營(yíng)體系運(yùn)維運(yùn)營(yíng)體系存儲(chǔ)資源池網(wǎng)絡(luò)資源池計(jì)算資源池存儲(chǔ)資源池網(wǎng)絡(luò)資源池計(jì)算資源池異構(gòu)處理器異構(gòu)處理器租賃機(jī)房租賃機(jī)房該架構(gòu)具有如下特點(diǎn)。首先,以一云多芯為理念,以云原生技術(shù)為底座,建設(shè)統(tǒng)統(tǒng)一監(jiān)控、統(tǒng)一運(yùn)維。最后,針對(duì)多元異構(gòu)計(jì)算·29·農(nóng)信是金融體系的重要組成部分,農(nóng)信的改革與建設(shè),是健全高質(zhì)量農(nóng)村金融供給的重要內(nèi)容,對(duì)強(qiáng)化鄉(xiāng)村振興金融服務(wù)具有重要意義。農(nóng)信網(wǎng)點(diǎn)分布廣盡管云數(shù)據(jù)中心已具備基礎(chǔ)的運(yùn)維監(jiān)控管理能力,但在多維度、高效、立體的自動(dòng)化、智能化運(yùn)維管理方面仍有待提升。因此,亟需優(yōu)化資源類型及利用率,構(gòu)建多元化的應(yīng)用運(yùn)行環(huán)一、一
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 海洋石油鉆采工程安全生產(chǎn)措施考核試卷
- 嵌入式系統(tǒng)信號(hào)處理模式考題及答案
- 公路工程未來(lái)趨勢(shì)試題及答案解析
- 豆類食品加工廠的安全生產(chǎn)標(biāo)準(zhǔn)化考核試卷
- 窄軌機(jī)車車輛制造中的技術(shù)創(chuàng)新與研發(fā)考核試卷
- 金屬?gòu)N房用具的經(jīng)銷商關(guān)系維護(hù)考核試卷
- 公路建設(shè)程序與審批試題及答案
- 數(shù)據(jù)庫(kù)維護(hù)與故障排查試題及答案
- 農(nóng)業(yè)作物病害診斷儀應(yīng)用考核試卷
- 數(shù)據(jù)庫(kù)性能監(jiān)控的重要性與實(shí)施方法試題及答案
- 設(shè)備技術(shù)規(guī)范書(shū)模板
- 2025年浙江寧波慈溪工貿(mào)集團(tuán)限公司面向社會(huì)公開(kāi)招聘工作人員16人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 公路橋梁工程前場(chǎng)安全培訓(xùn)
- 企業(yè)門衛(wèi)培訓(xùn)課件
- 企業(yè)門衛(wèi)培訓(xùn)內(nèi)容
- 年產(chǎn)1000噸方便面工廠設(shè)計(jì)說(shuō)明書(shū)
- 2024-2025學(xué)年數(shù)學(xué)滬科版七年級(jí)上冊(cè)期末綜合測(cè)試卷(四)(含答案)
- 2025年中考英語(yǔ)模擬試卷猜題卷(含答案)
- 《保護(hù)綠色地球》課件
- 2024-2030年中國(guó)天然靛藍(lán)行業(yè)深度調(diào)查及投資價(jià)值研究報(bào)告版
- 基礎(chǔ)護(hù)理學(xué)選擇試題庫(kù)+答案
評(píng)論
0/150
提交評(píng)論