版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
(19)中華人民共和國國家知識產(chǎn)權(quán)局
(12)發(fā)明專利申請
(10)申請公布號CN114217920A
(43)申請公布日2022.03.22
(21)申請?zhí)?02111353082.4
(22)申請日2021.11.16
(71)申請人曙光信息產(chǎn)業(yè)(北京)有限公司
地址100089北京市海淀區(qū)東北旺西路8號
院36號樓
(72)發(fā)明人蘇勇李博萬偉
(74)專利代理機構(gòu)華進聯(lián)合專利商標代理有限
公司44224
代理人賴遠龍
(51)Int.CI.
G06F9/48(2006.01)
G06F9/50(2006.01)
H04L67/5/(2022.01)
權(quán)利要求書2頁說明書20頁附圖6頁
(54)發(fā)明名稱
作業(yè)調(diào)度方法和裝置、計算機機群、計算機
可讀存儲介質(zhì)
(57)摘要?320
本申請涉及一種作業(yè)調(diào)度方法和裝置、計算
機機群、計算機可讀存儲介質(zhì),計算機機群包括
至少兩個不同通信帶寬的機群,各機群包括多個
同一通信帶寬的計算節(jié)點。該方法包括:獲取待
處理業(yè)務的服務級別;服務級別用于表征待處理
業(yè)務調(diào)用計算機機群中不同通信帶寬的計算節(jié)
點的優(yōu)先級順序;獲取計算機機群的多條通信鏈
路;多條通信鏈路包括多個不同通信帶寬的計算
節(jié)點;根據(jù)待處理業(yè)務所需的計算節(jié)點數(shù)目、待
處理業(yè)務的服務級別,從多條通信鏈路中確定目
標通信鏈路,將待處理業(yè)務分配至目標通信鏈路
V上的計算節(jié)點進行執(zhí)行。實現(xiàn)了在不同通信帶寬
0
Z
6的機群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模
Z
I
Z機群作業(yè)的優(yōu)化。
I寸
I
g
CN114217920A權(quán)利要求書1/2頁
1.一種作業(yè)調(diào)度方法,其特征在于,應用于計算機機群,所述計算機機群包括至少兩個
不同通信帶寬的機群,各所述機群包括多個同一通信帶寬的計算節(jié)點;所述方法包括:
獲取待處理業(yè)務的服務級別;所述服務級別用于表征所述待處理業(yè)務調(diào)用所述計算機
機群中不同通信帶寬的計算節(jié)點的優(yōu)先級順序;
獲取所述計算機機群的多條通信鏈路;所述多條通信鏈路包括從所述不同通信帶寬的
機群中所獲取的多個不同通信帶寬的計算節(jié)點;
根據(jù)所述待處理業(yè)務所需的計算節(jié)點數(shù)目、所述待處理業(yè)務的服務級別,從所述多條
通信鏈路中確定目標通信鏈路,將所述待處理業(yè)務分配至所述目標通信鏈路上的計算節(jié)點
進行執(zhí)行。
2.根據(jù)權(quán)利要求1所述的作業(yè)調(diào)度方法,其特征在于,所述方法還包括:
在所述計算機機群中,預先遍歷所述至少兩個不同通信帶寬的機群的網(wǎng)絡拓撲結(jié)構(gòu),
對所述網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條通信鏈路。
3.根據(jù)權(quán)利要求2所述的作業(yè)調(diào)度方法,其特征在于,所述在所述計算機機群中,預先
遍歷所述至少兩個不同通信帶寬的機群的網(wǎng)絡拓撲結(jié)構(gòu),對所述網(wǎng)絡拓撲結(jié)構(gòu)進行解析生
成多條通信鏈路,包括:
在所述計算機機群中,從預設根節(jié)點開始遍歷所述至少兩個不同通信帶寬的機群的網(wǎng)
絡拓撲結(jié)構(gòu),獲取所述至少兩個不同通信帶寬的機群中的網(wǎng)絡設備;
獲取所述網(wǎng)絡設備的端口連接關系,基于所述網(wǎng)絡設備、所述網(wǎng)絡設備的端口連接關
系構(gòu)建所述計算機機群的網(wǎng)絡拓撲結(jié)構(gòu);
遍歷所述計算機機群的網(wǎng)絡拓撲結(jié)構(gòu),對所述網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條通信鏈
路;所述通信鏈路包括從源節(jié)點到目標節(jié)點之間的網(wǎng)絡設備及所述網(wǎng)絡設備之間的鏈路信
,息、。
4.根據(jù)權(quán)利要求3所述的作業(yè)調(diào)度方法,其特征在于,所述方法還包括:
若所述計算機機群發(fā)生更新,則從預設根節(jié)點重新開始遍歷所述計算機機群,獲取所
述計算機機群中的網(wǎng)絡設備;
獲取所述網(wǎng)絡設備的端口連接關系,基于所述網(wǎng)絡設備、所述網(wǎng)絡設備的端口連接關
系重新構(gòu)建所述計算機機群的新的網(wǎng)絡拓撲結(jié)構(gòu);
遍歷所述計算機機群的新的網(wǎng)絡拓撲結(jié)構(gòu),對所述新的網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多
條新的通信鏈路。
5.根據(jù)權(quán)利要求1所述的作業(yè)調(diào)度方法,其特征在于,所述根據(jù)所述待處理業(yè)務所需的
計算節(jié)點數(shù)目、所述待處理業(yè)務的服務級別,從所述多條通信鏈路中確定目標通信鏈路,包
括:
獲取所述待處理業(yè)務所需的計算節(jié)點數(shù)目;
根據(jù)所述待處理業(yè)務所需的計算節(jié)點數(shù)目,從所述多條通信鏈路中確定候選通信鏈
路;所述候選通信鏈路所包含的計算節(jié)點的數(shù)目與所述待處理業(yè)務所需的計算節(jié)點數(shù)目相
同;
計算所述候選通信鏈路的帶寬資源代價;
根據(jù)所述待處理業(yè)務的服務級別及所述候選通信鏈路的帶寬資源代價,從所述候選通
信鏈路中確定所述帶寬資源代價與所述服務級別相匹配的目標通信鏈路。
2
CN114217920A權(quán)利要求書2/2頁
6.根據(jù)權(quán)利要求1所述的作業(yè)調(diào)度方法,其特征在于,所述獲取待處理業(yè)務的服務級
別,包括:
獲取所述待處理業(yè)務的通信帶寬需求;
根據(jù)所述待處理業(yè)務的通信帶寬需求,確定所述待處理業(yè)務的服務級別。
7.根據(jù)權(quán)利要求1所述的作業(yè)調(diào)度方法,其特征在于,所述方法還包括:
獲取所述待處理業(yè)務的數(shù)據(jù)通信特征;
根據(jù)所述待處理業(yè)務的數(shù)據(jù)通信特征,確定所述待處理業(yè)務的流量類型;
所述根據(jù)所述待處理業(yè)務所需的計算節(jié)點數(shù)目、所述待處理業(yè)務的服務級別,從所述
多條通信鏈路中確定目標通信鏈路,將所述待處理業(yè)務分配至所述目標通信鏈路上的計算
節(jié)點進行執(zhí)行,包括:
根據(jù)所述待處理業(yè)務所需的計算節(jié)點數(shù)目、所述待處理業(yè)務的服務級別及所述待處理
業(yè)務的流量類型,從所述多條通信鏈路中確定目標通信鏈路,將所述待處理業(yè)務分配至所
述目標通信鏈路上的計算節(jié)點進行執(zhí)行。
8.根據(jù)權(quán)利要求1所述的作業(yè)調(diào)度方法,其特征在于,所述多個不同通信帶寬的機群包
括第一機群、第二機群及第三機群;
所述第一機群中包括多個第一通信帶寬的計算節(jié)點;所述第二機群中包括多個第二通
信帶寬的計算節(jié)點;所述第三機群中包括多個第三通信帶寬的計算節(jié)點;所述第一通信帶
寬小于所述第二通信帶寬,所述第二通信帶寬小于所述第三通信帶寬。
9.一種作業(yè)調(diào)度裝置,其特征在于,應用于計算機機群,所述計算機機群包括至少兩個
不同通信帶寬的機群,各所述機群包括多個同一通信帶寬的計算節(jié)點;所述裝置包括:
服務級別獲取模塊,用于獲取待處理業(yè)務的服務級別;所述服務級別用于表征所述待
處理業(yè)務調(diào)用所述計算機機群中不同通信帶寬的計算節(jié)點的優(yōu)先級順序;
通信鏈路獲取模塊,用于獲取所述計算機機群的多條通信鏈路;所述多條通信鏈路包
括從所述不同通信帶寬的機群中所獲取的多個不同通信帶寬的計算節(jié)點;
目標通信鏈路確定模塊,用于根據(jù)所述待處理業(yè)務所需的計算節(jié)點數(shù)目、所述待處理
業(yè)務的服務級別,從所述多條通信鏈路中確定目標通信鏈路,將所述待處理業(yè)務分配至所
述目標通信鏈路上的計算節(jié)點進行執(zhí)行。
10.一種計算機機群,包括存儲器及處理器,所述存儲器中儲存有計算機程序,其特征
在于,所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行如權(quán)利要求1至8中任一
項所述的作業(yè)調(diào)度方法的步驟。
11.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序
被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至8中任一項所述的作業(yè)調(diào)度方法的步驟。
3
CN114217920A說明書1/20頁
作業(yè)調(diào)度方法和裝置'計算機機群'計算機可讀存儲介質(zhì)
技術(shù)領域
[0001]本申請涉及計算機技術(shù)領域,特別是涉及一種作業(yè)調(diào)度方法和裝置、計算機機群、
計算機可讀存儲介質(zhì)。
背景技術(shù)
[0002]隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,網(wǎng)絡設備也得到了快速地發(fā)展,隨之出現(xiàn)了各種各
樣高性能的網(wǎng)絡設備。
[0003]數(shù)據(jù)中心(DataCenter)通常是指在一個物理空間內(nèi)實現(xiàn)信息的集中處理、存儲、
傳輸、交換、管理的場所,由位于同一個機房的一個或者多個機群組成。機群是由眾多服務
器或工作站(workstation)通過高速網(wǎng)絡連接起來構(gòu)成的計算機系統(tǒng),構(gòu)成機群的服務器
或工作站被稱為節(jié)點。
[0004]近年來,互聯(lián)網(wǎng)應用發(fā)展迅速,呈現(xiàn)出應用類型多,應用規(guī)模大(活躍用戶量、訪問
量和業(yè)務數(shù)據(jù)量)等特征,使得支撐互聯(lián)網(wǎng)應用的數(shù)據(jù)中心規(guī)模急劇擴大,由幾百臺、幾千
臺擴展至幾萬臺甚至是幾十萬臺規(guī)模。
[0005]為了構(gòu)建更大規(guī)模的數(shù)據(jù)中心,一般會在早期的機群系統(tǒng)的基礎上進行擴展,而
早期的機群系統(tǒng)中的機群的通信帶寬一般較低,后期的機群系統(tǒng)中的機群的通信帶寬一般
較高。因此,基于早期的機群系統(tǒng)的基礎上進行擴展所形成的數(shù)據(jù)中心,會存在多個不同通
信帶寬的機群共存的情況。
[0006]由于擴展后的數(shù)據(jù)中心中包括多個不同通信帶寬的機群,因此,針對多個不同通
信帶寬的機群共存的數(shù)據(jù)中心,現(xiàn)有的作業(yè)調(diào)度系統(tǒng),不能在整個機群范圍內(nèi)進行作業(yè)調(diào)
度,實現(xiàn)大規(guī)模機群作業(yè)的優(yōu)化。
發(fā)明內(nèi)容
[0007]本申請實施例提供了一種作業(yè)調(diào)度方法和裝置、計算機機群、計算機可讀存儲介
質(zhì),能夠?qū)崿F(xiàn)在不同通信帶寬的機群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的
優(yōu)化。
[0008]在其中一個實施例中,提供了一種作業(yè)調(diào)度方法,應用于計算機機群,所述計算機
機群包括至少兩個不同通信帶寬的機群,各所述機群包括多個同一通信帶寬的計算節(jié)點;
所述方法包括:
[0009]獲取待處理業(yè)務的服務級別;所述服務級別用于表征所述待處理業(yè)務調(diào)用所述計
算機機群中不同通信帶寬的計算節(jié)點的優(yōu)先級順序;
[0010]獲取所述計算機機群的多條通信鏈路;所述多條通信鏈路包括從所述不同通信帶
寬的機群中所獲取的多個不同通信帶寬的計算節(jié)點;
[0011]根據(jù)所述待處理業(yè)務所需的計算節(jié)點數(shù)目、所述待處理業(yè)務的服務級別,從所述
多條通信鏈路中確定目標通信鏈路,將所述待處理業(yè)務分配至所述目標通信鏈路上的計算
節(jié)點進行執(zhí)行。
4
CN114217920A說明書2/20頁
[0012]本申請實施例中,首先,獲取待處理業(yè)務的服務級別。其次,預先獲取計算機機群
的多條通信鏈路,多條通信鏈路包括從不同通信帶寬的機群中所獲取的多個不同通信帶寬
的計算節(jié)點。最后,根據(jù)待處理業(yè)務所需的計算節(jié)點數(shù)目、待處理業(yè)務的服務級別,按照待
處理業(yè)務調(diào)用計算機機群中不同通信帶寬的計算節(jié)點的優(yōu)先級順序,從多條通信鏈路中確
定目標通信鏈路,將待處理業(yè)務分配至目標通信鏈路上的計算節(jié)點進行執(zhí)行o如此,就實現(xiàn)
了在不同通信帶寬的機群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。
[0013]在其中一個實施例中,所述方法還包括:
[0014]在所述計算機機群中,預先遍歷所述至少兩個不同通信帶寬的機群的網(wǎng)絡拓撲結(jié)
構(gòu),對所述網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條通信鏈路。
[0015]本申請實施例中,在后續(xù)進行作業(yè)調(diào)度時,可以基于作業(yè)所需的通信帶寬需求,從
至少兩個不同通信帶寬的機群中的多條通信鏈路里面篩選出匹配的通信鏈路。
[0016]在其中一個實施例中,所述在所述計算機機群中,預先遍歷所述至少兩個不同通
信帶寬的機群的網(wǎng)絡拓撲結(jié)構(gòu),對所述網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條通信鏈路,包括:
[0017]在所述計算機機群中,從預設根節(jié)點開始遍歷所述至少兩個不同通信帶寬的機群
的網(wǎng)絡拓撲結(jié)構(gòu),獲取所述至少兩個不同通信帶寬的機群中的網(wǎng)絡設備;
[0018]獲取所述網(wǎng)絡設備的端口連接關系,基于所述網(wǎng)絡設備、所述網(wǎng)絡設備的端口連
接關系構(gòu)建所述計算機機群的網(wǎng)絡拓撲結(jié)構(gòu);
[0019]遍歷所述計算機機群的網(wǎng)絡拓撲結(jié)構(gòu),對所述網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條通
信鏈路;所述通信鏈路包括從源節(jié)點到目標節(jié)點之間的網(wǎng)絡設備及所述網(wǎng)絡設備之間的鏈
路信息。
[0020]本申請實施例中,針對至少兩個不同通信帶寬的計算機機群,通過網(wǎng)絡拓撲結(jié)構(gòu)
發(fā)現(xiàn)的過程可以獲取計算機機群中的網(wǎng)絡設備。然后,再基于所獲取的網(wǎng)絡設備,構(gòu)建計算
機機群的網(wǎng)絡拓撲結(jié)構(gòu)。最后,遍歷計算機機群的網(wǎng)絡拓撲結(jié)構(gòu),對網(wǎng)絡拓撲結(jié)構(gòu)進行解析
生成多條通信鏈路。如此,就實現(xiàn)了在不同通信帶寬的計算機機群中解析出了多條通信鏈
路,以便在不同通信帶寬的機群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。
[0021]在其中一個實施例中,所述方法還包括:
[0022]若所述計算機機群發(fā)生更新,則從預設根節(jié)點重新開始遍歷所述計算機機群,獲
取所述計算機機群中的網(wǎng)絡設備;
[0023]獲取所述網(wǎng)絡設備的端口連接關系,基于所述網(wǎng)絡設備、所述網(wǎng)絡設備的端口連
接關系重新構(gòu)建所述計算機機群的新的網(wǎng)絡拓撲結(jié)構(gòu);
[0024]遍歷所述計算機機群的新的網(wǎng)絡拓撲結(jié)構(gòu),對所述新的網(wǎng)絡拓撲結(jié)構(gòu)進行解析生
成多條新的通信鏈路。
[0025]本申請實施例中,若具有不同通信帶寬的計算機機群發(fā)生更新,也依然可以及時
從新的計算機機群中解析出了多條通信鏈路,以便在新的計算機機群之間進行作業(yè)調(diào)度,
進而實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。
[0026]在其中一個實施例中,所述根據(jù)所述待處理業(yè)務所需的計算節(jié)點數(shù)目、所述待處
理業(yè)務的服務級別,從所述多條通信鏈路中確定目標通信鏈路,包括:
[0027]獲取所述待處理業(yè)務所需的計算節(jié)點數(shù)目;
[0028]根據(jù)所述待處理業(yè)務所需的計算節(jié)點數(shù)目,從所述多條通信鏈路中確定候選通信
5
CN114217920A說明書3/20頁
鏈路;所述候選通信鏈路所包含的計算節(jié)點的數(shù)目與所述待處理業(yè)務所需的計算節(jié)點數(shù)目
相同;
[0029]計算所述候選通信鏈路的帶寬資源代價;
[0030]根據(jù)所述待處理業(yè)務的服務級別及所述候選通信鏈路的帶寬資源代價,從所述候
選通信鏈路中確定所述帶寬資源代價與所述服務級別相匹配的目標通信鏈路。
[0031]本申請實施例中,針對各候選通信鏈路,首先計算候選通信鏈路的帶寬資源代價,
然后,再結(jié)合待處理業(yè)務的服務級別及候選通信鏈路的帶寬資源代價,從候選通信鏈路中
為待處理業(yè)務分配目標通信鏈路。如此,通過將帶寬資源代價與服務級別進行匹配,就能夠
實現(xiàn)在不同通信帶寬的計算機機群之間進行資源分配。也就實現(xiàn)了在不同通信帶寬的機群
之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。
[0032]在其中一個實施例中,所述獲取待處理業(yè)務的服務級別,包括:
[0033]獲取所述待處理業(yè)務的通信帶寬需求;
[0034]根據(jù)所述待處理業(yè)務的通信帶寬需求,確定所述待處理業(yè)務的服務級別。
[0035]本申請實施例中,基于通信帶寬需求確定了待處理業(yè)務的服務級別之后,后續(xù)就
可以基于待處理業(yè)務的服務級別從計算進機群中的多條通信鏈路中確定目標通信鏈路。并
將待處理業(yè)務分配至目標通信鏈路上的計算節(jié)點進行執(zhí)行,就實現(xiàn)了在不同通信帶寬的機
群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。
[0036]在其中一個實施例中,所述方法還包括:
[0037]獲取所述待處理業(yè)務的數(shù)據(jù)通信特征;
[0038]根據(jù)所述待處理業(yè)務的數(shù)據(jù)通信特征,確定所述待處理業(yè)務的流量類型;
[0039]所述根據(jù)所述待處理業(yè)務所需的計算節(jié)點數(shù)目、所述待處理業(yè)務的服務級別,從
所述多條通信鏈路中確定目標通信鏈路,將所述待處理業(yè)務分配至所述目標通信鏈路上的
計算節(jié)點進行執(zhí)行,包括:
[0040]根據(jù)所述待處理業(yè)務所需的計算節(jié)點數(shù)目、所述待處理業(yè)務的服務級別及所述待
處理業(yè)務的流量類型,從所述多條通信鏈路中確定目標通信鏈路,將所述待處理業(yè)務分配
至所述目標通信鏈路上的計算節(jié)點進行執(zhí)行。
[0041]本申請實施例中,因為各候選通信鏈路中包括不同通信帶寬的計算機機群中的計
算節(jié)點,所以,同樣數(shù)目的計算節(jié)點所能夠提供的帶寬資源代價是不同的。因此,針對各候
選通信鏈路,首先計算候選通信鏈路的帶寬資源代價,然后,再結(jié)合待處理業(yè)務的服務級別
及候選通信鏈路的帶寬資源代價,從候選通信鏈路中為待處理業(yè)務分配目標通信鏈路。
[0042]在其中一個實施例中,所述多個不同通信帶寬的機群包括第一機群、第二機群及
第三機群;
[0043]所述第一機群中包括多個第一通信帶寬的計算節(jié)點;所述第二機群中包括多個第
二通信帶寬的計算節(jié)點;所述第三機群中包括多個第三通信帶寬的計算節(jié)點;所述第一通
信帶寬小于所述第二通信帶寬,所述第二通信帶寬小于所述第三通信帶寬。
[0044]本申請實施例中,本申請中的作業(yè)調(diào)度方法,應用于包括至少兩個不同通信帶寬
的計算機機群。其中,至少兩個不同通信帶寬的機群包括早期的FDR機群、EDR機群及新的
HDR機群。因此,本申請中的作業(yè)調(diào)度方法,應用于包括早期的FDR機群、EDR機群及新的HDR
機群的計算機機群。從而,實現(xiàn)了在早期機群的基礎上,及時引進新的機群對計算機機群進
6
CN114217920A說明書4/20頁
行擴展,以滿足快速增長的計算需求。且通過本申請中的作用調(diào)度方法,能夠?qū)崿F(xiàn)在不同通
信帶寬的機群之間進行作業(yè)調(diào)度,提高了計算機機群中資源的利用率。
[0045]在其中一個實施例中,提供了一種作業(yè)調(diào)度裝置,應用于計算機機群,所述計算機
機群包括至少兩個不同通信帶寬的機群,各所述機群包括多個同一通信帶寬的計算節(jié)點;
所述裝置包括:
[0046]服務級別獲取模塊,用于獲取待處理業(yè)務的服務級別;所述服務級別用于表征所
述待處理業(yè)務調(diào)用所述計算機機群中不同通信帶寬的計算節(jié)點的優(yōu)先級順序;
[0047]通信鏈路獲取模塊,用于獲取所述計算機機群的多條通信鏈路;所述多條通信鏈
路包括從所述不同通信帶寬的機群中所獲取的多個不同通信帶寬的計算節(jié)點;
[0048]目標通信鏈路確定模塊,用于根據(jù)所述待處理業(yè)務所需的計算節(jié)點數(shù)目、所述待
處理業(yè)務的服務級別,從所述多條通信鏈路中確定目標通信鏈路,將所述待處理業(yè)務分配
至所述目標通信鏈路上的計算節(jié)點進行執(zhí)行。
[0049]一種計算機機群,包括存儲器及處理器,所述存儲器中儲存有計算機程序,所述計
算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行如上所述的作業(yè)調(diào)度方法的步驟。
[0050]一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述計算機程序被處理器執(zhí)
行時實現(xiàn)如上所述的作業(yè)調(diào)度方法的步驟。
[0051]一種計算機程序產(chǎn)品,包括計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上
所述的作業(yè)調(diào)度方法的步驟。
[0052]上述作業(yè)調(diào)度方法和裝置、計算機機群、計算機可讀存儲介質(zhì),計算機機群包括至
少兩個不同通信帶寬的機群,各機群包括多個同一通信帶寬的計算節(jié)點。該方法包括:獲取
待處理業(yè)務的服務級別;服務級別用于表征待處理業(yè)務調(diào)用計算機機群中不同通信帶寬的
計算節(jié)點的優(yōu)先級順序;獲取計算機機群的多條通信鏈路;多條通信鏈路包括多個不同通
信帶寬的計算節(jié)點;根據(jù)待處理業(yè)務所需的計算節(jié)點數(shù)目、待處理業(yè)務的服務級別,從多條
通信鏈路中確定目標通信鏈路,將待處理業(yè)務分配至目標通信鏈路上的計算節(jié)點進行執(zhí)
行。
[0053]傳統(tǒng)的作業(yè)調(diào)度方法,僅能夠在同一通信帶寬的機群內(nèi)部進行作業(yè)調(diào)度。而本申
請中的計算機機群包括至少兩個不同通信帶寬的機群,且各機群包括多個同一通信帶寬的
計算節(jié)點。因此,為了實現(xiàn)在不同通信帶寬的機群之間進行作業(yè)調(diào)度,首先,獲取待處理業(yè)
務的服務級別。其次,預先獲取計算機機群的多條通信鏈路,多條通信鏈路包括從不同通信
帶寬的機群中所獲取的多個不同通信帶寬的計算節(jié)點。最后,根據(jù)待處理業(yè)務所需的計算
節(jié)點數(shù)目、待處理業(yè)務的服務級別,按照待處理業(yè)務調(diào)用計算機機群中不同通信帶寬的計
算節(jié)點的優(yōu)先級順序,從多條通信鏈路中確定目標通信鏈路,將待處理業(yè)務分配至目標通
信鏈路上的計算節(jié)點進行執(zhí)行。如此,就實現(xiàn)了在不同通信帶寬的機群之間進行作業(yè)調(diào)度,
進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。
附圖說明
[0054]為了更清楚地說明本申請實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)
有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本
申請的一些實施例,對于本領域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以
7
CN114217920A說明書5/20頁
根據(jù)這些附圖獲得其他的附圖。
[0055]圖1為一個實施例中傳統(tǒng)的計算機機群的結(jié)構(gòu)示意圖;
[0056]圖2為一個實施例中作業(yè)調(diào)度方法的應用場景圖;
[0057]圖3為一個實施例中作業(yè)調(diào)度方法的流程圖;
[0058]圖4為一個實施例中在計算機機群中,預先遍歷至少兩個不同通信帶寬的機群的
網(wǎng)絡拓撲結(jié)構(gòu),對網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條通信鏈路方法的示意圖;
[0059]圖5為一個實施例中拓撲發(fā)現(xiàn)過程的流程示意圖;
[0060]圖6為圖3中根據(jù)待處理業(yè)務所需的計算節(jié)點數(shù)目、待處理業(yè)務的服務級別,從多
條通信鏈路中確定目標通信鏈路方法的流程圖;
[0061]圖7為另一個實施例中作業(yè)調(diào)度方法的流程圖;
[0062]圖8為一個具體的實施例中作業(yè)調(diào)度方法的示意圖;
[0063]圖9為一個實施例中作業(yè)調(diào)度裝置的結(jié)構(gòu)框圖;
[0064]圖10為另一個實施例中作業(yè)調(diào)度裝置的結(jié)構(gòu)框圖;
[0065]圖11為一個實施例中服務器的內(nèi)部結(jié)構(gòu)示意圖。
具體實施方式
[0066]為了使本申請的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對
本申請進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本申請,并
不用于限定本申請。
[0067]近年來,互聯(lián)網(wǎng)應用發(fā)展迅速,呈現(xiàn)出應用類型多,應用規(guī)模大(活躍用戶量、訪問
量和業(yè)務數(shù)據(jù)量)等特征,使得支撐互聯(lián)網(wǎng)應用的數(shù)據(jù)中心規(guī)模急劇擴大,由幾百臺、幾千
臺擴展至幾萬臺甚至是幾十萬臺規(guī)模。
[0068]為了構(gòu)建更大規(guī)模的數(shù)據(jù)中心,一般會在早期的機群系統(tǒng)的基礎上進行擴展,而
早期的機群系統(tǒng)中的機群的通信帶寬一般較低,后期的機群系統(tǒng)中的機群的通信帶寬一般
較高。因此,基于早期的機群系統(tǒng)的基礎上進行擴展所形成的數(shù)據(jù)中心,會存在多個不同通
信帶寬的機群共存的情況。
[0069]傳統(tǒng)的作業(yè)調(diào)度方法,僅能夠在同一通信帶寬的機群內(nèi)部進行作業(yè)調(diào)度。由于擴
展后的數(shù)據(jù)中心中包括多個不同通信帶寬的機群,因此,針對多個不同通信帶寬的機群共
存的數(shù)據(jù)中心,傳統(tǒng)的作業(yè)調(diào)度方法,不能在整個機群范圍內(nèi)進行作業(yè)調(diào)度,實現(xiàn)大規(guī)模機
群作業(yè)的優(yōu)化。
[0070]例如,以網(wǎng)絡標準infiniband為例,通信帶寬從早期的FDR機群中的計算節(jié)點的
56Gbps(每秒傳輸56X109比特數(shù)據(jù)),提升到EDR機群中的計算節(jié)點的lOOGbps,而最新的
HDR機群則可提供200Gbps的高速通信帶寬。為了構(gòu)建更大規(guī)模的計算機機群系統(tǒng),許多數(shù)
據(jù)中心會在早期的機群系統(tǒng)的基礎上進行擴展,于是許多數(shù)據(jù)中心存在FDR/EDR/HDR機群
這些各種時代產(chǎn)品共存的情況。
[0071]如圖1所示,為包括3個獨立的FDR/EDR/HDR機群的計算機機群的結(jié)構(gòu)示意圖。該計
算機機群包括1個FDR的機群-FDRCluster(一期建設)、1個EDR機群-EDRCluster(二期建
設)及1個HDR機群-HDRCluster(三期建設)。傳統(tǒng)的作業(yè)調(diào)度方法,例如,slrum(Simple
LinuxUtilityforResourceManagement)資源管理系統(tǒng),僅能夠在同一通信帶寬的機群
8
CN114217920A說明書6/20頁
內(nèi)部進行作業(yè)調(diào)度,不能在不同通信帶寬的機群之間進行作業(yè)調(diào)度。其中,Rack指的是機
柜,機柜中包括通過交換機連接的多個計算節(jié)點。其中,SW(switch)指的是交換機。這里,計
算節(jié)點可以是服務器或終端設備,其中,終端設備可以是臺式機電腦、筆記本電腦、平板電
腦、PDA(PersonalDigitalAssistant,個人數(shù)字助理)等終端設備,本申請對此不做限
定。
[0072]為了解決這個問題,本申請中提出了一種新的作業(yè)調(diào)度方法。圖2為一個實施例中
作業(yè)調(diào)度方法的應用場景圖,為包括通過網(wǎng)絡連接的FDR/EDR/HDR機群的計算機機群的示
意圖。通過增加部分HDR交換機208將3個二層胖樹網(wǎng)絡連接為一個三層胖樹網(wǎng)絡210。這里,
3個二層胖樹網(wǎng)絡分別指的是圖2中的3個獨立的FDR機群202、EDR機群204及HDR機群206。
其中,SystemCluster指的是通過網(wǎng)絡連接的FDR/EDR/HDR機群的計算機機群,具體指三層
胖樹網(wǎng)絡210。
[0073]因此,本申請實施例中提出了一種作業(yè)調(diào)度方法,可以在如圖2所示的計算機機群
中進行作業(yè)調(diào)度,實現(xiàn)在不同通信帶寬的機群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機
群作業(yè)的優(yōu)化。圖3為一個實施例中作業(yè)調(diào)度方法的流程圖。應用于計算機機群,計算機機
群包括至少兩個不同通信帶寬的機群,各機群包括多個同一通信帶寬的計算節(jié)點,該方法
包括以下步驟320至步驟360,其中,
[0074]步驟320,獲取待處理業(yè)務的服務級別;服務級別用于表征待處理業(yè)務調(diào)用計算機
機群中不同通信帶寬的計算節(jié)點的優(yōu)先級順序。
[0075]每個應用在運行過程中,實際是在執(zhí)行多個不同的業(yè)務。這里,待處理業(yè)務包括通
過計算機機群運行應用時,所執(zhí)行的多種業(yè)務,具體可以是計算業(yè)務等,本申請對此不做限
定。
[0076]其中,待處理業(yè)務的服務級別與待處理業(yè)務的通信帶寬需求相關。例如,待處理業(yè)
務主要用于發(fā)送較大的數(shù)據(jù)包,則待處理業(yè)務對通信帶寬的需求較大,同時預先為待處理
業(yè)務設置較高的服務級別;待處理業(yè)務主要用于發(fā)送較小的數(shù)據(jù)包,則待處理業(yè)務對通信
帶寬的需求較小,同時預先為待處理業(yè)務設置較低的服務級別。基于每個待處理業(yè)務及該
待處理業(yè)務的服務級別建立數(shù)據(jù)表,該數(shù)據(jù)表中存儲了每個待處理業(yè)務及該待處理業(yè)務的
服務級別的對應關系。
[0077]其中,服務級別用于表征待處理業(yè)務調(diào)用計算機機群中不同通信帶寬的計算節(jié)點
的優(yōu)先級順序。即服務級別越高的待處理業(yè)務,調(diào)用計算機機群中通信帶寬大的計算節(jié)點
的優(yōu)先級順序越高,即可以優(yōu)先調(diào)用計算機機群中通信帶寬大的計算節(jié)點。例如,可以為待
處理業(yè)務設置五級優(yōu)先級,包括第1級、第2級、第3級、第4級及第5級。其中,以上五級的優(yōu)先
級順序依次降低。即處于第1級的待處理業(yè)務調(diào)用計算機機群中通信帶寬大的計算節(jié)點的
優(yōu)先級順序最高,處于第2級的待處理業(yè)務調(diào)用計算機機群中通信帶寬大的計算節(jié)點的優(yōu)
先級順序次之,依次類推,處于第5級的待處理業(yè)務調(diào)用計算機機群中通信帶寬大的計算節(jié)
點的優(yōu)先級順序最低。
[0078]因此,在進行作業(yè)調(diào)度時,首先,就可以直接從該數(shù)據(jù)表中獲取預先為待處理業(yè)務
所設置的服務級別。并在獲取了待處理業(yè)務的服務級別之后,就可以確定待處理業(yè)務調(diào)用
計算機機群中通信帶寬大的計算節(jié)點的優(yōu)先級順序。以便后續(xù)根據(jù)該優(yōu)先級順序調(diào)用計算
機機群中不同的通信鏈路,這里,不同的通信鏈路可以提供不同的通信帶寬。
9
CN114217920A說明書7/20頁
[0079]步驟340,獲取計算機機群的多條通信鏈路;多條通信鏈路包括從不同通信帶寬的
機群中所獲取的多個不同通信帶寬的計算節(jié)點。
[0080]在進行作業(yè)調(diào)度時,首先,就可以直接從該數(shù)據(jù)表中獲取預先為待處理業(yè)務所設
置的服務級別。其次,獲取計算機機群的多條通信鏈路。其中,每個計算機機群都有特定的
網(wǎng)絡拓撲結(jié)構(gòu),基于該計算機機群特定的網(wǎng)絡拓撲結(jié)構(gòu),從根節(jié)點(源節(jié)點)開始遍歷整個
網(wǎng)絡拓撲結(jié)構(gòu)就可以得到多條通信鏈路。
[0081]由于計算機機群包括至少兩個不同通信帶寬的機群,各機群包括多個同一通信帶
寬的計算節(jié)點。因此,為了提高不同通信帶寬的機群中計算節(jié)點的資源利用率,在預先從計
算機機群中獲取通信鏈路時,可以分別從不同的通信帶寬的機群中獲取多個不同通信帶寬
的計算節(jié)點,基于這些多個不同通信帶寬的計算節(jié)點得到通信鏈路。從而,就可以形成多種
多樣、包含不同節(jié)點數(shù)目且不同通信帶寬的通信鏈路。
[0082]其中,每條通信鏈路均包括源節(jié)點、目標節(jié)點及從源節(jié)點到目標節(jié)點之間的網(wǎng)絡
設備及各網(wǎng)絡設備之間的鏈路信息。
[0083]步驟360,根據(jù)待處理業(yè)務所需的計算節(jié)點數(shù)目、待處理業(yè)務的服務級別,從多條
通信鏈路中確定目標通信鏈路,將待處理業(yè)務分配至目標通信鏈路上的計算節(jié)點進行執(zhí)
行。
[0084]獲取待處理業(yè)務所需的計算節(jié)點數(shù)目,其中,待處理業(yè)務所需的計算節(jié)點數(shù)目可
以是根據(jù)預設經(jīng)驗所設置的計算節(jié)點數(shù)目,或根據(jù)待處理業(yè)務的計算量大小來設置。例如,
A業(yè)務所需的計算節(jié)點數(shù)目為200個。
[0085]然后,就可以根據(jù)待處理業(yè)務所需的計算節(jié)點數(shù)目、待處理業(yè)務的服務級別,從多
條通信鏈路中確定目標通信鏈路。具體的,從該計算機機群的多條通信鏈路中,確定與待處
理業(yè)務所需的計算節(jié)點數(shù)目一致、與待處理業(yè)務的服務級別匹配的目標通信鏈路。換言之,
目標通信鏈路所包含的計算節(jié)點數(shù)目與待處理業(yè)務所需的計算節(jié)點數(shù)目一致,且目標通信
鏈路適配的服務級別與待處理業(yè)務的服務級別一致。
[0086]最后,將待處理業(yè)務分配至目標通信鏈路上的計算節(jié)點依次進行執(zhí)行。
[0087]傳統(tǒng)的作業(yè)調(diào)度方法,僅能夠在同一通信帶寬的機群內(nèi)部進行作業(yè)調(diào)度。而本申
請中的計算機機群包括至少兩個不同通信帶寬的機群,且各機群包括多個同一通信帶寬的
計算節(jié)點。因此,為了實現(xiàn)在不同通信帶寬的機群之間進行作業(yè)調(diào)度,本申請實施例中,首
先,獲取待處理業(yè)務的服務級別。其次,預先獲取計算機機群的多條通信鏈路,多條通信鏈
路包括從不同通信帶寬的機群中所獲取的多個不同通信帶寬的計算節(jié)點。最后,根據(jù)待處
理業(yè)務所需的計算節(jié)點數(shù)目、待處理業(yè)務的服務級別,按照待處理業(yè)務調(diào)用計算機機群中
不同通信帶寬的計算節(jié)點的優(yōu)先級順序,從多條通信鏈路中確定目標通信鏈路,將待處理
業(yè)務分配至目標通信鏈路上的計算節(jié)點進行執(zhí)行。如此,就實現(xiàn)了在不同通信帶寬的機群
之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。
[0088]在一個實施例中,提供了一種作業(yè)調(diào)度方法,還包括:
[0089]在計算機機群中,預先遍歷至少兩個不同通信帶寬的機群的網(wǎng)絡拓撲結(jié)構(gòu),對網(wǎng)
絡拓撲結(jié)構(gòu)進行解析生成多條通信鏈路。
[0090]具體的,針對每個計算機機群,在進行作業(yè)調(diào)度之前,需要預先遍歷至少兩個不同
通信帶寬的機群的網(wǎng)絡拓撲結(jié)構(gòu),對網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條通信鏈路。以便后續(xù)
10
CN114217920A說明書8/20頁
在進行作業(yè)調(diào)度時,可以從至少兩個不同通信帶寬的機群中的多條通信鏈路里面篩選出匹
配的通信鏈路。
[0091]其中,網(wǎng)絡拓撲結(jié)構(gòu)是指用傳輸介質(zhì)互連各種設備的物理布局。網(wǎng)絡中的計算機
等設備要實現(xiàn)互聯(lián),就需要以一定的結(jié)構(gòu)方式進行連接,這種連接方式就叫做“拓撲結(jié)構(gòu)”,
通俗地講就是這些網(wǎng)絡設備是如何連接在一起的。常見的網(wǎng)絡拓撲結(jié)構(gòu)主要有:總線型結(jié)
構(gòu)、環(huán)形結(jié)構(gòu)、星形結(jié)構(gòu)、樹形結(jié)構(gòu)和網(wǎng)狀結(jié)構(gòu)等。
[0092]首先,需要遍歷整個計算機機群,構(gòu)建計算機機群的網(wǎng)絡拓撲結(jié)構(gòu)。然后,就可以
對計算機機群的網(wǎng)絡拓撲結(jié)構(gòu)進行解析,生成多條通信鏈路。具體的,在預先從計算機機群
的網(wǎng)絡拓撲結(jié)構(gòu)中解析出通信鏈路時,可以分別從不同的通信帶寬的機群中獲取多個不同
通信帶寬的計算節(jié)點,基于這些多個不同通信帶寬的計算節(jié)點得到通信鏈路。從而,就可以
形成多種多樣、包含不同節(jié)點數(shù)目且不同通信帶寬的通信鏈路。其中,每條通信鏈路包括多
個網(wǎng)絡設備及網(wǎng)絡設備之間的鏈路信息(即連接信息)。
[0093]其中,對網(wǎng)絡拓撲結(jié)構(gòu)進行解析指的是需要將所收集到的網(wǎng)絡拓撲結(jié)構(gòu)轉(zhuǎn)化為作
業(yè)調(diào)度系統(tǒng)可識別的形式,匯總為各個源節(jié)點到目標節(jié)點的鏈路信息,使現(xiàn)有調(diào)度系統(tǒng)可
據(jù)此進行后續(xù)的資源分配。例如,以下為對計算機機群的網(wǎng)絡拓撲結(jié)構(gòu)進行解析,生成作業(yè)
調(diào)度系統(tǒng)可識別的多條通信鏈路的形式的示例:
[0094]Fromca{0xe612c24004120191}portnumHid82-82"L44HCA-2”
[0095][l]->switchport{0xlc34da03005127f4}[9]lid66-66/,SW200-R0-G0L0/,
/,,/
[0096][36]->switchPort{0xlc34da03006082c4}[26]lid62-62SW200-R0-G0Rl
[0097][34]->switchport{0xlc34da0300608244}[24]lid54-54^200-RO-GOLI"
[0098][H]->caport{Oxe612c24004120481}[1]lid44-44"L19HCA-2”
[0099]Toca{0xe612c24004120481}portnumHid44-44"L19HCA-2”
[0100]該通信鏈路的根節(jié)點為:計算節(jié)點L44中的HCA-2(編號為2的網(wǎng)卡)。該HCA-2的
LID(本地標識)為82。
[0101]然后,該完整的通信鏈路具體為:
[0102]從該根節(jié)點HCA-2的第1端口,指向設備名稱為“SW200-R0-G0L0”的路由器的第9端
口,該路由器”SW200-R0-G0L0”的設備GUID為{0xlc34da03005127f4};該路由器”SW200-
RO-GOLO”的LID(本地標識)為66;
[0103]從路由器“SW200-R0-G0L0”的第36端口指向設備名稱為"SW200-R0-G0R1”的路由
器的第26端口,該路由器“SW200-R0-G0R1”的設備GUID為{0xlc34da03006082c4};該路由器
“SW200-R0-G0R1”的LID(本地標識)為62;
[0104]從路由器“SW200-R0-G0R1”的第34端口,指向設備名稱為“SW200-R0-G0L1”的路由
器的第24端口,該路由器“SW200-R0-G0L1”的設備GUID為{0xlc34da0300608244};該路由器
“SW200-R0-G0L1”的LID(本地標識)為54;
[0105]從路由器“SW200-R0-G0L1”的第11端口,指向計算節(jié)點L19中的HCA-2(編號為2的
網(wǎng)卡)。該HCA-2的LID(本地標識)為44。
[0106]至此,該通信鏈路的末端節(jié)點為:計算節(jié)點L19中的HCA-2(編號為2的網(wǎng)卡)。
[0107]如此,在后續(xù)根據(jù)所述待處理業(yè)務所需的計算節(jié)點數(shù)目、所述待處理業(yè)務的服務
級別,從所述多條通信鏈路中確定目標通信鏈路時,就可以直接從這些預先建立的通信鏈
11
CN114217920A說明書9/20頁
路中直接確定。由于這些通信鏈路是從所述多個不同通信帶寬的機群中所獲取的,因此,就
可以實現(xiàn)在不同通信帶寬的機群之間進行作業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)
化。
[0108]本申請實施例中,針對每個計算機機群,在進行作業(yè)調(diào)度之前,需要在計算機機群
中,預先遍歷至少兩個不同通信帶寬的機群的網(wǎng)絡拓撲結(jié)構(gòu),對網(wǎng)絡拓撲結(jié)構(gòu)進行解析生
成多條通信鏈路。且這些通信鏈路中包括多個不同通信帶寬的計算節(jié)點。因此,在后續(xù)進行
作業(yè)調(diào)度時,可以基于作業(yè)所需的通信帶寬需求,從至少兩個不同通信帶寬的機群中的多
條通信鏈路里面篩選出匹配的通信鏈路。
[0109]在一個實施例中,如圖4所示,在計算機機群中,預先遍歷至少兩個不同通信帶寬
的機群的網(wǎng)絡拓撲結(jié)構(gòu),對網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條通信鏈路,包括:
[0110]步驟420,在計算機機群中,從預設根節(jié)點開始遍歷至少兩個不同通信帶寬的機群
的網(wǎng)絡拓撲結(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡設備。
tom]在預先對計算機機群的網(wǎng)絡拓撲結(jié)構(gòu)進行解析,生成多條通信鏈路時,首先,進行
網(wǎng)絡拓撲結(jié)構(gòu)發(fā)現(xiàn),即在計算機機群中,從預設根節(jié)點開始遍歷至少兩個不同通信帶寬的
機群的網(wǎng)絡拓撲結(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡設備。即在計算機機群
中,從預設根節(jié)點開始尋找與該預設根節(jié)點的端口相連的下一個網(wǎng)絡設備,基于該網(wǎng)絡設
備再尋找與該網(wǎng)絡設備的端口相連的下一個網(wǎng)絡設備,依次尋找下一個網(wǎng)絡設備,就實現(xiàn)
了在計算機機群中,從預設根節(jié)點開始遍歷至少兩個不同通信帶寬的機群的網(wǎng)絡拓撲結(jié)
構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡設備的過程。這里的網(wǎng)絡設備包括網(wǎng)卡設
備及交換機設備等,本申請對此不做限定。
[0112]然后,在基于網(wǎng)絡拓撲結(jié)構(gòu)發(fā)現(xiàn)得到的網(wǎng)絡設備,獲取該網(wǎng)絡設備之間的端口連
接關系?;诰W(wǎng)絡設備、網(wǎng)絡設備的端口連接關系構(gòu)建計算機機群的網(wǎng)絡拓撲結(jié)構(gòu)。最后,
就可以遍歷計算機機群的網(wǎng)絡拓撲結(jié)構(gòu),對網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條通信鏈路。
[0113]其中,拓撲發(fā)現(xiàn)算法的具體流程為:
[0114]1.首先,通過檢測函數(shù)檢測算法所在的節(jié)點信息,將其作為根節(jié)點;
[0115]2.然后,通過檢測函數(shù)從根節(jié)點開始對網(wǎng)絡設備進行搜索,遍歷全部網(wǎng)絡:并返回
每個設備的相關信息(例如,設備名稱,設備類型:FDR/EDR/HDR,全局唯一標識符GUID等);
[0116]3.再遍歷每個節(jié)點的全部端口,將節(jié)點的全部相鄰節(jié)點添加到節(jié)點列表,并獲取
每個鏈路端口的端口類型和帶寬信息,返回端口類型port_type和帶寬信息port_
bandwidth;
[0117]4.通過函數(shù)建立設備信息,并根據(jù)設備類型識別設備是交換機設備還是網(wǎng)卡設
備;
[0118]5.再調(diào)用函數(shù)對拓撲發(fā)現(xiàn)的設備進行坐標賦值和命名,并將其加入網(wǎng)絡拓撲結(jié)
構(gòu)。
[0119]6.最后,調(diào)用函數(shù)來構(gòu)建設備數(shù)組,將全部網(wǎng)絡設備映射到設備數(shù)組,即可完成拓
撲發(fā)現(xiàn)的過程。
[0120]其中,如圖6所示,為進行網(wǎng)絡拓撲結(jié)構(gòu)發(fā)現(xiàn)的過程的流程圖,即在計算機機群中,
從預設根節(jié)點開始遍歷至少兩個不同通信帶寬的機群的網(wǎng)絡拓撲結(jié)構(gòu),獲取至少兩個不同
通信帶寬的機群中的網(wǎng)絡設備過程的流程圖。其中,物理網(wǎng)絡結(jié)構(gòu)(Physical_Topology)是
12
CN114217920A說明書10/20頁
指計算機機群中實際網(wǎng)絡設備之間的連接關系,對應到某個交換機的某個端口連接到對端
的某個交換機的某個端口或者某個HCA(HostChannelAdapter)網(wǎng)卡的某個端口。邏輯網(wǎng)
絡結(jié)構(gòu)(Logical_Topology)是計算機機群中的作業(yè)調(diào)度系統(tǒng)可識別理解的邏輯形式,便
于進行作業(yè)調(diào)度。其中,物理網(wǎng)絡結(jié)構(gòu)與邏輯網(wǎng)絡結(jié)構(gòu)二者在對應關系上是完全一致的。將
所獲取的網(wǎng)絡設備數(shù)組,劃分為網(wǎng)卡設備數(shù)組及交換機設備數(shù)組。
[0121]步驟440,獲取網(wǎng)絡設備的端口連接關系,基于網(wǎng)絡設備、網(wǎng)絡設備的端口連接關
系構(gòu)建計算機機群的網(wǎng)絡拓撲結(jié)構(gòu)。
[0122]在進行網(wǎng)絡拓撲結(jié)構(gòu)發(fā)現(xiàn),即在計算機機群中,從預設根節(jié)點開始遍歷至少兩個
不同通信帶寬的機群的網(wǎng)絡拓撲結(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡設備之
后,構(gòu)建網(wǎng)絡拓撲結(jié)構(gòu)。具體的,基于進行網(wǎng)絡拓撲結(jié)構(gòu)發(fā)現(xiàn)所得到的網(wǎng)絡設備,遍歷整個
計算機機群,梳理出每條鏈路的連接關系,即梳理出每條鏈路上的網(wǎng)絡設備、網(wǎng)絡設備的端
口連接關系,就可以基于網(wǎng)絡設備、網(wǎng)絡設備的端口連接關系構(gòu)建計算機機群的網(wǎng)絡拓撲
結(jié)構(gòu)。
[0123]例如,可以以交換機為基礎單位,構(gòu)建每臺交換機的端口連接關系列表
topology.list,該端口連接關系列表topology.list中包括交換機名稱、設備類型、端口
號、端口類型、端口帶寬等信息,以供在進行作業(yè)調(diào)度時進行解析拓撲結(jié)構(gòu)。其中,端口連接
關系列表topology.list,具體如表1所示:
[0124]表1端口連接關系列表topology,list
設備命設備類對端設對端設備端口端口
設備名稱設備GUID對端GUID
名型備名稱類型類型帶寬
SW-HDSW200-a0x98039b0300bSW200-0x98039b0300b
SwitchSwitchHDR200G
R-01Olrl7d6deR017d6ee
SW-EDSW100-C0xb8599f03005SW100-0xb8599f03003
SwitchSwitchEDR100G
R-0202r323df8R02f7f36
..............................................................
[0126]其中,全局唯一標識符(GUI中GloballyUniqueIdentifier)是一種由算法生成
的二進制長度為128位的數(shù)字標識符。
[0127]步驟460,遍歷計算機機群的網(wǎng)絡拓撲結(jié)構(gòu),對網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條通
信鏈路;通信鏈路包括從源節(jié)點到目標節(jié)點之間的網(wǎng)絡設備及網(wǎng)絡設備之間的鏈路信息。
[0128]在計算機機群中,從預設根節(jié)點開始遍歷至少兩個不同通信帶寬的機群的網(wǎng)絡拓
撲結(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡設備之后,構(gòu)建了計算機機群的網(wǎng)絡
拓撲結(jié)構(gòu)。然后,遍歷整個網(wǎng)絡拓撲結(jié)構(gòu),對端口連接關系列表topology,list進行解析,生
成多條通信鏈路。即從源節(jié)點到目標節(jié)點,將網(wǎng)絡設備基于網(wǎng)絡設備之間的鏈路關系進行
連接起來。如下所示為所解析出的一條具體的通信鏈路1:
[0129]Fromca{0xe612c24004120191}portnum1lid82-82"L44HCA-2"
[0130][l]->switchport{0xlc34da03005127f4}[9]lid66-66,,SW200-R0-G0L0,/
[0131][36]->switchport{0xlc34da03006082c4}[26]lid62-62z,SW200-R0-G0Rl/,
[0132][34]->switchport{0xlc34da0300608244}[24]lid54-54^200-R0-GOLI"
[0133][H]->caport{Oxe612c24004120481}[1]lid44-44"L19HCA-2"
[0134]Toca{0xe612c24004120481}portnum1lid44-44"L19HCA-2"
[0135]對該通信鏈路的具體解釋,可以參考上文中的描述,在此處不再贅述。其中,若根
13
CN114217920A說明書11/20頁
據(jù)所述待處理業(yè)務所需的計算節(jié)點數(shù)目、所述待處理業(yè)務的服務級別,從所述多條通信鏈
路中確定目標通信鏈路為通信鏈路1,則將所述待處理業(yè)務分配至所述通信鏈路1進行執(zhí)
行。即待處理業(yè)務依次由通信鏈路1上計算節(jié)點L44的網(wǎng)卡HCA-2、路由器“SW200-R0-G0L0”、
路由器”SW200-R0-G0R1"、路由器"SW200-R0-G0L1”、計算節(jié)點L19中的HCA-2進行執(zhí)行,以完
成待處理業(yè)務的整個處理過程。
[0136]本申請實施例中,在計算機機群中,從預設根節(jié)點開始遍歷至少兩個不同通信帶
寬的機群的網(wǎng)絡拓撲結(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡設備。獲取網(wǎng)絡設
備的端口連接關系,基于網(wǎng)絡設備、網(wǎng)絡設備的端口連接關系構(gòu)建計算機機群的網(wǎng)絡拓撲
結(jié)構(gòu)。遍歷計算機機群的網(wǎng)絡拓撲結(jié)構(gòu),對網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條通信鏈路;通信
鏈路包括從源節(jié)點到目標節(jié)點之間的網(wǎng)絡設備及網(wǎng)絡設備之間的鏈路信息。針對至少兩個
不同通信帶寬的計算機機群,通過網(wǎng)絡拓撲結(jié)構(gòu)發(fā)現(xiàn)的過程可以獲取計算機機群中的網(wǎng)絡
設備。然后,再基于所獲取的網(wǎng)絡設備,構(gòu)建計算機機群的網(wǎng)絡拓撲結(jié)構(gòu)。最后,遍歷計算機
機群的網(wǎng)絡拓撲結(jié)構(gòu),對網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條通信鏈路。如此,就實現(xiàn)了在不同
通信帶寬的計算機機群中解析出了多條通信鏈路,以便在不同通信帶寬的機群之間進行作
業(yè)調(diào)度,進而也實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。
[0137]在一個實施例中,提供了一種作業(yè)調(diào)度方法,還包括:
[0138]若計算機機群發(fā)生更新,則從預設根節(jié)點重新開始遍歷計算機機群,獲取計算機
機群中的網(wǎng)絡設備;
[0139]獲取網(wǎng)絡設備的端口連接關系,基于網(wǎng)絡設備、網(wǎng)絡設備的端口連接關系重新構(gòu)
建計算機機群的新的網(wǎng)絡拓撲結(jié)構(gòu);
[0140]遍歷計算機機群的新的網(wǎng)絡拓撲結(jié)構(gòu),對新的網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條新
的通信鏈路。
[0141]具體的,計算機機群并不是一成不變的,計算機機群內(nèi)部的網(wǎng)絡設備會發(fā)生變更。
例如,在計算機機群中增加、減少或變更網(wǎng)絡設備,均為計算機機群發(fā)生了更新的情況,本
申請對此不做限定。
[0142]若計算機機群發(fā)生更新時,首先,需要重新在計算機機群中,從預設根節(jié)點開始遍
歷至少兩個不同通信帶寬的機群的網(wǎng)絡拓撲結(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的
網(wǎng)絡設備。如圖6所示,為進行網(wǎng)絡拓撲結(jié)構(gòu)發(fā)現(xiàn)的過程的流程圖,即從預設根節(jié)點開始遍
歷計算機機群,獲取計算機機群中的網(wǎng)絡設備過程的流程圖。
[0143]其次,在進行網(wǎng)絡拓撲結(jié)構(gòu)發(fā)現(xiàn),即在計算機機群中,從預設根節(jié)點開始遍歷至少
兩個不同通信帶寬的機群的網(wǎng)絡拓撲結(jié)構(gòu),獲取至少兩個不同通信帶寬的機群中的網(wǎng)絡設
備之后,構(gòu)建網(wǎng)絡拓撲結(jié)構(gòu)。具體的,基于進行網(wǎng)絡拓撲結(jié)構(gòu)發(fā)現(xiàn)所得到的網(wǎng)絡設備,遍歷
整個計算機機群,梳理出每條鏈路的連接關系,即梳理出每條鏈路上的網(wǎng)絡設備、網(wǎng)絡設備
的端口連接關系,就可以基于網(wǎng)絡設備、網(wǎng)絡設備的端口連接關系構(gòu)建計算機機群的網(wǎng)絡
拓撲結(jié)構(gòu)。
[0144]最后,遍歷整個網(wǎng)絡拓撲結(jié)構(gòu),對端口連接關系列表topology,list進行解析,生
成多條通信鏈路。即從源節(jié)點到目標節(jié)點,將網(wǎng)絡設備基于網(wǎng)絡設備之間的鏈路關系進行
連接起來。具體的解析算法,同上一個實施例中的記載,在此不再贅述。
[0145]本申請實施例中,若計算機機群發(fā)生更新,針對至少兩個不同通信帶寬的計算機
14
CN114217920A說明書12/20頁
機群,通過網(wǎng)絡拓撲結(jié)構(gòu)發(fā)現(xiàn)的過程可以獲取計算機機群中的網(wǎng)絡設備。然后,再基于所獲
取的網(wǎng)絡設備,構(gòu)建計算機機群的網(wǎng)絡拓撲結(jié)構(gòu)。最后,遍歷計算機機群的網(wǎng)絡拓撲結(jié)構(gòu),
對網(wǎng)絡拓撲結(jié)構(gòu)進行解析生成多條通信鏈路。如此,若具有不同通信帶寬的計算機機群發(fā)
生更新,也依然可以及時從新的計算機機群中解析出了多條通信鏈路,以便在新的計算機
機群之間進行作業(yè)調(diào)度,進而實現(xiàn)了大規(guī)模機群作業(yè)的優(yōu)化。
[0146]在一個實施例中,如圖6所示,步驟360,根據(jù)待處理業(yè)務所需的計算節(jié)點數(shù)目、待
處理業(yè)務的服務級別,從多條通信鏈路中確定目標通信鏈路,包括:
[0147]步驟362,獲取待處理業(yè)務所需的計算節(jié)點數(shù)目。
[0148]不同的業(yè)務的計算量是不同的,而不同的計算量顯然所需的計算節(jié)點數(shù)目也是不
同的。一般計算量越大則所需的計算節(jié)點數(shù)目越多。因此,可以基于業(yè)務的不同計算量確定
該業(yè)務所需的計算節(jié)點數(shù)目?;蛘?,預先對業(yè)務進行劃分類型,針對不同類型的業(yè)務確定其
所需的計算節(jié)點數(shù)目。
[0149]由于預先確定了不同業(yè)務所需的計算節(jié)點數(shù)目,因此,在進行作業(yè)調(diào)度過程中,就
可以根據(jù)待處理業(yè)務獲取到該待處
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024學校實驗室設備更新及維修服務合同3篇
- 2024店鋪轉(zhuǎn)讓協(xié)議書
- 2024模具智能制造技術(shù)研發(fā)合同
- 2024標準版兩居室房車短期租賃合同版
- 2024服裝工裝定制合同
- 2024青島運動會官方用車租賃服務協(xié)議3篇
- 2024年行車設備安裝與維護合同3篇
- 2024年版城市供水項目特許經(jīng)營權(quán)協(xié)議
- 2024運營總監(jiān)國際業(yè)務拓展與跨國合作合同3篇
- 2025年度網(wǎng)絡安全技術(shù)股權(quán)合作與轉(zhuǎn)讓合同3篇
- 配件供應技術(shù)服務和質(zhì)保期服務計劃方案
- 中藥房培訓課題
- 供電方案審批流程
- 球墨鑄鐵管行業(yè)分析及市場研究報告
- 市政道路改造施工合理化建議
- 2024年廣東省廣州城投投資有限有限公司招聘筆試參考題庫含答案解析
- 2024中國出口信用保險公司江蘇分公司勞務派遣人員招聘筆試參考題庫附帶答案詳解
- 自然情懷-主題作文訓練
- 智能智能化智能眼鏡
- 三年級下冊數(shù)學混合計算100題及答案
- 社會工作專業(yè)見習教學大綱
評論
0/150
提交評論