pbs作業(yè)管理系統(tǒng)-曙光_第1頁
pbs作業(yè)管理系統(tǒng)-曙光_第2頁
pbs作業(yè)管理系統(tǒng)-曙光_第3頁
pbs作業(yè)管理系統(tǒng)-曙光_第4頁
pbs作業(yè)管理系統(tǒng)-曙光_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

PBS作業(yè)管理系統(tǒng)內(nèi)容任務(wù)管理系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)作業(yè)調(diào)度系統(tǒng)的使用2024/3/152任務(wù)管理系統(tǒng)的功能單一系統(tǒng)映象機(jī)群松散的結(jié)構(gòu)的整合系統(tǒng)資源整合異構(gòu)系統(tǒng)的整合多用戶的管理用戶提交的任務(wù)的統(tǒng)一安排,防止沖突用戶權(quán)限的管理非授權(quán)用戶的控制2024/3/153任務(wù)管理系統(tǒng)的簡(jiǎn)史2024/3/154任務(wù)管理系統(tǒng)的分類基于進(jìn)程級(jí)別的調(diào)度由機(jī)群中的操作系統(tǒng)或者運(yùn)行時(shí)Runtime內(nèi)部支持,對(duì)運(yùn)行的作業(yè)進(jìn)行監(jiān)控;以實(shí)現(xiàn)機(jī)群內(nèi)的透明調(diào)度、以及自動(dòng)優(yōu)化進(jìn)程的分配和平衡負(fù)載基于作業(yè)級(jí)別的調(diào)度這種方式由獨(dú)立的作業(yè)管理系統(tǒng)實(shí)現(xiàn)。該系統(tǒng)通過專門的入口,接收用戶提交的任務(wù),送入相應(yīng)的隊(duì)列等待調(diào)度;并在適當(dāng)?shù)臅r(shí)機(jī)分配資源,為任務(wù)創(chuàng)立作業(yè),將作業(yè)提入運(yùn)行,在作業(yè)運(yùn)行結(jié)束后完成收尾工作,并提供記帳功能。管理員和用戶還可以在機(jī)群中查詢并預(yù)訂符合要求的資源,從而實(shí)現(xiàn)對(duì)作業(yè)和資源的全程交互控制。2024/3/155任務(wù)管理系統(tǒng)的比較2024/3/156內(nèi)容任務(wù)管理系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)作業(yè)調(diào)度系統(tǒng)的使用2024/3/157PBS作業(yè)調(diào)度系統(tǒng)PBS最初由NASA的Ames研究中心開發(fā),為了提供一個(gè)能滿足異構(gòu)計(jì)算網(wǎng)絡(luò)需要的軟件包。它力求提供對(duì)批處理的初始化和調(diào)度執(zhí)行的控制,允許作業(yè)在不同主機(jī)間的路由。2024/3/158PBS的技術(shù)特色力求控制對(duì)批處理的初始化和調(diào)度執(zhí)行,允許作業(yè)在不同主機(jī)間的路由。獨(dú)立的調(diào)度模塊存有各個(gè)可用的排隊(duì)作業(yè)、運(yùn)行作業(yè)和系統(tǒng)資源使用信息,并且允許系統(tǒng)管理員定義資源和每個(gè)作業(yè)可使用的數(shù)量。在作業(yè)調(diào)度策略上,PBS提供了默認(rèn)的公平共享和獨(dú)占FIFO調(diào)度策略,還提供了TCL、BACL、C三種過程語言和調(diào)度類,并定義了一些調(diào)度需要的函數(shù)和完整的API,方便實(shí)現(xiàn)新的調(diào)度策略。提供文件傳送,F(xiàn)ileStage-in和Stage-out。滿足POSIX1003.2d標(biāo)準(zhǔn),支持作業(yè)依賴,和完整的平安認(rèn)證。提供用戶映射功能,使PBS能用于用戶不一致的系統(tǒng)中。2024/3/159PBS的結(jié)構(gòu)2024/3/1510PBS的組成效勞器:pbs_server調(diào)度器:pbs_sched執(zhí)行器:pbs_mom命令行:用戶腳本,管理命令等2024/3/1511PBS的根本原理2024/3/1512PBS的優(yōu)缺點(diǎn)支持系統(tǒng)級(jí)檢查點(diǎn)功能〔需底層操作系統(tǒng)支持〕很好的大規(guī)模擴(kuò)展性獨(dú)立的調(diào)度模塊**支持作業(yè)依賴符合POSIX1003.2d標(biāo)準(zhǔn)--只支持Unix類操作系統(tǒng)--多集群協(xié)作功能有限--不支持用戶級(jí)檢查點(diǎn)功能2024/3/1513術(shù)語節(jié)點(diǎn)(node)一個(gè)單一的操作系統(tǒng)映像,一個(gè)統(tǒng)一的虛擬內(nèi)存映像一個(gè)或多個(gè)cpu,一個(gè)或多個(gè)IP地址的計(jì)算機(jī)系統(tǒng)被稱之為一個(gè)節(jié)點(diǎn)。通常執(zhí)行主機(jī)(executionhost)也被稱之為節(jié)點(diǎn)。節(jié)點(diǎn)屬性 隊(duì)列、效勞器和節(jié)點(diǎn)都有與自己相關(guān)的屬性,這些屬性提供控制信息。與節(jié)點(diǎn)相關(guān)的屬性有:狀態(tài)、類型、虛擬處理器的個(gè)數(shù)、作業(yè)列表(本節(jié)點(diǎn)被分配給的作業(yè))以及節(jié)點(diǎn)的特性?!?/p>

節(jié)點(diǎn)特性 為了提供一組節(jié)點(diǎn)的分配的方法,零個(gè)或者多個(gè)特性被賦給每個(gè)節(jié)點(diǎn)。這個(gè)特性不過是一串對(duì)于PBS沒有含義的字母和數(shù)字的組合(第一個(gè)字符必須是字母)。2024/3/1514PBS安裝解壓源文件包

[root@node1/public]#tar-zxvfopenpbs-2.3.16.tar.gz編譯設(shè)置

[root@node1/public/OpenPBS_2.3.16]#./configure--disable-gui--set-server_home=/var/spool/pbs--enable-docs--x-libraries=/usr/X11R6/lib64

其中,--x-libraries=/usr/X11R6/lib64是在X86_64(AMD64或EM64T)上安裝時(shí),需要指明系統(tǒng)64位庫(kù)的位置。編譯安裝

[root@node1/public/OpenPBS_2.3.16]#make [root@node1/public/OpenPBS_2.3.16]#makeinstall2024/3/1515PBS在機(jī)群上安裝

由于節(jié)點(diǎn)系統(tǒng)相同,因而可以用如下SHELLscript在node2~node8上安裝;

2024/3/1516效勞進(jìn)程配置和啟動(dòng)文件系統(tǒng)配置文件/etc/pbs.conf #!/bin/sh pbs_home=/var/spool/pbs指定系統(tǒng)的pbs的設(shè)置的目錄位置 pbs_exec=/usr/local指定pbs可執(zhí)行程序的目錄位置 start_server=1 start_sched=1當(dāng)為1是表示守護(hù)進(jìn)程啟動(dòng),0為守護(hù)進(jìn)程不啟動(dòng) start_mom=1

系統(tǒng)啟動(dòng)腳本/etc/init.d/openpbs

Server的系統(tǒng)啟動(dòng)腳本/etc/init.d/pbs_serverScheduler系統(tǒng)啟動(dòng)腳本/etc/init.d/pbs_schedMom系統(tǒng)啟動(dòng)腳本/etc/init.d/pbs_mom2024/3/1517Server端設(shè)置初始化server:(第一次運(yùn)行或者重新配置) /usr/local/sbin/pbs_server–tcreateServer配置目錄 /var/spool/pbs/server_priv/節(jié)點(diǎn)屬性聲明:/var/spool/pbs/server_priv/nodes

node2R220Anp=2 node3R220Anp=2 node4dualcorenp=4 node5dualcorenp=4 node6R4280Anp=4 node7R4280Anp=42024/3/1518mom端設(shè)置mom配置目錄:/var/spool/pbs/mom_priv/mom配置文件:/var/spool/pbs/mom_priv/config

2024/3/1519Server端的動(dòng)態(tài)設(shè)置PBS要能正常運(yùn)行還需要通過qmgr命令的server進(jìn)行配置,設(shè)置一些屬性。輸入qmgr命令進(jìn)入配置交互命令。下面是讓PBS可以正常運(yùn)行的一些步驟。2024/3/1520qmgr命令〔管理員使用〕輸入qmgr進(jìn)入交互式模式后即可輸入各種命令

qmgr動(dòng)作:對(duì)象類型和操作符

2024/3/1521PBS隊(duì)列設(shè)置導(dǎo)入server配置文件: [root@node1root]#qmgr<queue.conf輸出配置文件: [root@node1root]#qmgr–c“printserver”>queue.conf配置文件例子:

2024/3/1522Scheduler調(diào)度行為配置Scheduler的行為由配置目錄下的sched_priv/sched_config文件進(jìn)行控制Sort_by關(guān)鍵字控制調(diào)度算法可以選擇的選項(xiàng)為

no_sort,shortest_job_first,longest_job_first,smallest_memory_first,largest_memory_first,high_priority_first,low_priority_first,multi_sort,fair_share,large_walltime_first,short_walltime_first修改這個(gè)文件后重新啟動(dòng)scheduler即可。2024/3/1523內(nèi)容任務(wù)管理系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)作業(yè)調(diào)度系統(tǒng)的使用2024/3/1524PBS的使用步驟準(zhǔn)備:編寫描述改作業(yè)的腳本,包括作業(yè)名,需要的資源等。提交:使用qsub命令將該作業(yè)提交給PBS效勞器排隊(duì):效勞器將該任務(wù)排入適當(dāng)?shù)年?duì)列調(diào)度:效勞器檢查各工作節(jié)點(diǎn)的狀態(tài)是否符合該作業(yè)的要求,并進(jìn)行調(diào)度。執(zhí)行:當(dāng)條件滿足時(shí),作業(yè)被發(fā)給相應(yīng)的執(zhí)行效勞器執(zhí)行。程序運(yùn)行時(shí)執(zhí)行效勞器會(huì)收集程序的標(biāo)準(zhǔn)輸出和標(biāo)準(zhǔn)錯(cuò)誤流,等程序結(jié)束時(shí),將這些信息返回給用戶。查詢和調(diào)整:當(dāng)作業(yè)在運(yùn)行時(shí),用戶可以使用qstat進(jìn)行狀態(tài)查詢。用戶發(fā)現(xiàn)作業(yè)提交錯(cuò)誤時(shí),可以使用qdel刪除正在運(yùn)行的作業(yè)。查看結(jié)果:使用文本編輯軟件vi或者系統(tǒng)命令cat,less等查看輸出及錯(cuò)誤信息顯示。2024/3/1525PBS的根本命令在PBS系統(tǒng)中,用戶使用qsub命令提交用戶程序。用戶運(yùn)行程序的命令及PBS環(huán)境變量設(shè)置組成PBS作業(yè)腳本,作業(yè)腳本使用如下格式提交到PBS系統(tǒng)運(yùn)行:2024/3/1526qsub運(yùn)行參數(shù)2024/3/1527PBS作業(yè)腳本注釋,以“#”開頭PBS指令,以“#PBS”開頭SHELL命令2024/3/1528PBS的環(huán)境變量2024/3/1529PBS作業(yè)腳本注釋,以“#”開頭PBS指令,以“#PBS”開頭SHELL命令2024/3/1530PBS作業(yè)腳本舉例2024/3/1531詳細(xì)例如編輯PBS腳本內(nèi)容如下:〔注意,#PBS行不是注釋,所有說明行均以###開始,即紅色字體局部〕###聲明作業(yè)名為mpi#PBS-Nmpi###申請(qǐng)資源數(shù)為10個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)16個(gè)cpu#PBS-lnodes=10:ppn=16###將標(biāo)準(zhǔn)輸出信息與標(biāo)準(zhǔn)錯(cuò)誤信息合并輸出到文件中#PBS-joe###指定作業(yè)提交到low隊(duì)列#PBS–qlow###估計(jì)最大運(yùn)算時(shí)間為1000小時(shí),假設(shè)沒有設(shè)置這項(xiàng),系統(tǒng)為自動(dòng)按所在隊(duì)列默認(rèn)walltime處理#PBS-lwalltime=1000:00:002024/3/1532###在作業(yè)結(jié)束時(shí),給用戶發(fā)郵件#PBS-me###聲明郵箱地址,如test@hpc#PBS-Mtest@hpc###進(jìn)入作業(yè)調(diào)度目錄cd$PBS_O_WORKDIR###計(jì)算申請(qǐng)的cpu數(shù)目NP=`cat$PBS_NODEFILE|wc-l`###設(shè)置計(jì)算所需要的環(huán)境變量,如使用GNU版OpenMPI運(yùn)行程序###程序運(yùn)行局部,使用infiniband網(wǎng)運(yùn)行此程序mpirun-np$NP-machinefile$PBS_NODEFILE--mcabtlself,openibcpi-openmpi2024/3/1533一個(gè)復(fù)雜的PBS作業(yè)腳本2024/3/1534查詢和取消作業(yè)2024/3/1535查詢作業(yè)運(yùn)行的位置2024/3/1536ansys單節(jié)點(diǎn)計(jì)算ansys110-np4-iwing.inp跨節(jié)點(diǎn)計(jì)算:ansys110-dis-machinesnode22:4:node23:4-iwing.inp2024/3/1537ansys.pbs#!/bin/bash#PBS-Nansys_wing#PBS-lnodes=1:ppn=8#PBS-joermhost.list-rffornodein`cat$PBS_NODEFILE`doecho"-eMPI_REMSH=/usr/bin/rsh-h$node-np1/home/demo/fluent/bin/ansys_inc/v110/ansys/bin/ansysdis110-dis-mpiHPMPI"done>host.listansys110-mpifile./host.list-iwing.inp2024/3/1538創(chuàng)立ma-----------------------------------node22node23------------------------------------需要注意最后有一個(gè)空行。fluent3d–t16–cnf=./ma–p-g–ifluent.jou2024/3/1539fluent.pbs#!/bin/bash#PBS-Nfluent_8cpu#PBS-lnodes=2:ppn=4#PBS-joeNPROCS=`wc-l<$PBS_NODEFILE`cd$PBS_O_WORKDIRfluent3d-t$NPROCS-pib.ibv-cnf=$PBS_NODEFILE-g-im1>&m1_n2p8.out2024/3/1540cfxcfx5solve-defBenchmark.def-par-dist-start-method“HPMPIdistributedParallel”‘node1*2,node2*2’2024/3/1541cfx.pbs#!/bin/bash#PBS-NCFX_8cpu#PBS-lnodes=4:ppn=2CFX_DEF_FILE=Benchmark.def########################################################################Youdon'tneedtomodifythelinesbelow########################################################################PeHostfile2MachineFile(){cat$1|whilereadline;do#echo$linehost=`echo$line`2024/3/1542#addherecodetomapregularhostnamesintoATMhostnamesif[-z$mList];thenmList=$host"*1"elsemList=$mList,$host"*1"fiecho$mListdone}CFX_PBS_NODEFILE="/tmp/cfx_`whoami`_$PBS_JOBID"PeHostfile2MachineFile$PBS_NODEFILE>$CFX_PBS_NODEFILENPROCS=`wc-l$PBS_NODEFILE`cd$PBS_O_WORKDIR/public/software/ansys_inc/v110/CFX/bin/cfx5solve-def$CFX_DEF_FILE-par-dist`tail-n1$CFX_PBS_NODEFILE`-start-method"HPMPIDistributedParallel"2024/3/1543abaqus/public/software/ABAQUS/6.8-PF3/site/abaqus_v6.env-----------------------------------mp_mpi_implementation=HPhpmpipath=driverUtils.locateFile(os.environ.get('ABA_PATH',''),'External/mpi/hpmpi-2.2.5.1/bin','mpirun')mp_mpirun_path={HP:hpmpipath}mp_rsh_command='rsh-n-l%U%H%C'mp_host_list=[[‘node1’,8],[‘node2’,8]]-----------------------------------abq68pf3-jexamplecpus=162024/3/1544abaqus.pbs#!/bin/sh#PBS-NABAQUS_4cpu#PBS-lnodes=2:ppn=2#PBS-joeINPUT_FILE="circuit.inp"OUTPUT_FILE="abaqus.log"ABAQUS_EXEC="/public/software/abaqus/Commands/abaqus"ABAQUS_ENV="/public/software/abaqus/6.5-6/site/abaqus_v6.env"#forabaqus/standardABAQUS_STANDARD_MEMORY="4096mb"ABAQUS_PRE_MEMORY="4096mb"ABAQUS_SCRATCH="/tmp"ABAQUS_MP_MODE="THREADS"2024/3/1545#forabaqus/explictABAQUS_MP_MODE="MPI"########################################################################Youdon'tneedtomodifythelinesbelow########################################################################GetNodeList(){np=1whilereadline;dohost=$lineif[!-z$lasthost];thenif[$host=$lasthost];thennp=`expr$np+1`2024/3/1546elseif[-z$mList];thenmList=[\'$lasthost\',$np]elsemList=$mList,[\'$lasthost\',$np]finp=1fifilasthost=$hostdone<$12024/3/1547if[-z$mList];thenmList=[\'$lasthost\',$np]elsemList=$mList,[\'$lasthost\',$np]fiecho[$mList]}NODE_LIST=`GetNodeList$PBS_NODEFILE`NPROCS=`wc-l<$PBS_NODEFILE`cd$PBS_O_WORKDIR2024/3/1548cp$ABAQUS_ENVabaqus_v6.envcat<<EOF>>abaqus_v6.envstandard_memory="$ABAQUS_STANDARD_MEMORY"pre_memory="$ABAQUS_PRE_MEMORY"scratch="$ABAQUS_SCRATC

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論