作業(yè)管理系統(tǒng)課件_第1頁
作業(yè)管理系統(tǒng)課件_第2頁
作業(yè)管理系統(tǒng)課件_第3頁
作業(yè)管理系統(tǒng)課件_第4頁
作業(yè)管理系統(tǒng)課件_第5頁
已閱讀5頁,還剩48頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、PBS作業(yè)管理系統(tǒng)內(nèi) 容任務(wù)管理系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)作業(yè)調(diào)度系統(tǒng)的使用2022/9/212任務(wù)管理系統(tǒng)的功能單一系統(tǒng)映象機(jī)群松散的結(jié)構(gòu)的整合系統(tǒng)資源整合異構(gòu)系統(tǒng)的整合多用戶的管理用戶提交的任務(wù)的統(tǒng)一安排,避免沖突用戶權(quán)限的管理非授權(quán)用戶的控制2022/9/213任務(wù)管理系統(tǒng)的簡史2022/9/214任務(wù)管理系統(tǒng)的比較2022/9/216內(nèi) 容任務(wù)管理系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)作業(yè)調(diào)度系統(tǒng)的使用2022/9/217PBS的技術(shù)特色力求控制對批處理的初始化和調(diào)度執(zhí)行,允許作業(yè)在不同主機(jī)間的路由。獨(dú)立的調(diào)度模塊存有各個可用的排隊(duì)作業(yè)、運(yùn)行作業(yè)和系統(tǒng)資源使用信息,并且允許系統(tǒng)管理員定義資源和每個

2、作業(yè)可使用的數(shù)量。在作業(yè)調(diào)度策略上,PBS提供了默認(rèn)的公平共享和獨(dú)占FIFO調(diào)度策略,還提供了TCL、BACL、C三種過程語言和調(diào)度類,并定義了一些調(diào)度需要的函數(shù)和完整的API,方便實(shí)現(xiàn)新的調(diào)度策略。提供文件傳送,F(xiàn)ile Stage-in 和Stage-out。滿足POSIX1003.2d 標(biāo)準(zhǔn),支持作業(yè)依賴,和完整的安全認(rèn)證。提供用戶映射功能,使PBS 能用于用戶不一致的系統(tǒng)中。2022/9/219PBS的結(jié)構(gòu)2022/9/2110PBS 的組成服務(wù)器:pbs_server調(diào)度器:pbs_sched執(zhí)行器:pbs_mom命令行:用戶腳本,管理命令等2022/9/2111PBS 的基本原理2

3、022/9/2112PBS 的優(yōu)缺點(diǎn)支持系統(tǒng)級檢查點(diǎn)功能(需底層操作系統(tǒng)支持)很好的大規(guī)模擴(kuò)展性獨(dú)立的調(diào)度模塊*支持作業(yè)依賴 符合POSIX 1003.2d 標(biāo)準(zhǔn)-只支持Unix類操作系統(tǒng)-多集群協(xié)作功能有限-不支持用戶級檢查點(diǎn)功能2022/9/2113術(shù) 語節(jié)點(diǎn)(node) 一個單一的操作系統(tǒng)映像,一個統(tǒng)一的虛擬內(nèi)存映像一個或多個cpu,一個或多個IP地址的計(jì)算機(jī)系統(tǒng)被稱之為一個節(jié)點(diǎn)。通常執(zhí)行主機(jī)(execution host)也被稱之為節(jié)點(diǎn)。節(jié)點(diǎn)屬性 隊(duì)列、服務(wù)器和節(jié)點(diǎn)都有與自己相關(guān)的屬性,這些屬性提供控制信息。與節(jié)點(diǎn)相關(guān)的屬性有:狀態(tài)、類型、虛擬處理器的個數(shù)、作業(yè)列表(本節(jié)點(diǎn)被分配給的作

4、業(yè))以及節(jié)點(diǎn)的特性。 節(jié)點(diǎn)特性 為了提供一組節(jié)點(diǎn)的分配的方法,零個或者多個特性被賦給每個節(jié)點(diǎn)。這個特性不過是一串對于PBS沒有含義的字母和數(shù)字的組合(第一個字符必須是字母)。2022/9/2114PBS在機(jī)群上安裝由于節(jié)點(diǎn)系統(tǒng)相同,因而可以用如下SHELL script在node2node8上安裝; 2022/9/2116服務(wù)進(jìn)程配置和啟動文件系統(tǒng)配置文件/etc/pbs.conf #!/bin/sh pbs_home=/var/spool/pbs 指定系統(tǒng)的pbs的設(shè)置的目錄位置 pbs_exec=/usr/local 指定pbs可執(zhí)行程序的目錄位置 start_server=1 start

5、_sched=1 當(dāng)為1是表示守護(hù)進(jìn)程啟動,0為守護(hù)進(jìn)程不啟動 start_mom=1 系統(tǒng)啟動腳本 /etc/init.d/openpbs Server的系統(tǒng)啟動腳本 /etc/init.d/pbs_server Scheduler系統(tǒng)啟動腳本 /etc/init.d/pbs_sched Mom系統(tǒng)啟動腳本 /etc/init.d/pbs_mom 2022/9/2117mom端設(shè)置mom配置目錄: /var/spool/pbs/mom_priv/mom配置文件: /var/spool/pbs/mom_priv/config2022/9/2119Server端的動態(tài)設(shè)置PBS要能正常運(yùn)行還需要

6、通過qmgr命令的server進(jìn)行配置,設(shè)置一些屬性。輸入qmgr命令進(jìn)入配置交互命令。下面是讓PBS可以正常運(yùn)行的一些步驟。2022/9/2120qmgr命令(管理員使用)輸入qmgr進(jìn)入交互式模式后即可輸入各種命令 qmgr動作:對象類型和操作符 2022/9/2121PBS隊(duì)列設(shè)置導(dǎo)入server配置文件:rootnode1 root# qmgr queue.conf配置文件例子:2022/9/2122Scheduler調(diào)度行為配置Scheduler的行為由配置目錄下的sched_priv/sched_config文件進(jìn)行控制Sort_by關(guān)鍵字控制調(diào)度算法可以選擇的選項(xiàng)為 no_sor

7、t ,shortest_job_first,longest_job_first ,smallest_memory_first,largest_memory_first,high_priority_first,low_priority_first,multi_sort,fair_share,large_walltime_first,short_walltime_first修改這個文件后重新啟動scheduler即可。2022/9/2123內(nèi) 容任務(wù)管理系統(tǒng)概述PBS作業(yè)調(diào)度系統(tǒng)作業(yè)調(diào)度系統(tǒng)的使用2022/9/2124PBS 的基本命令在PBS系統(tǒng)中,用戶使用qsub 命令提交用戶程序。用戶運(yùn)行程

8、序的命令及PBS環(huán)境變量設(shè)置組成PBS作業(yè)腳本,作業(yè)腳本使用如下格式提交到PBS系統(tǒng)運(yùn)行:2022/9/2126qsub運(yùn)行參數(shù)2022/9/2127PBS的環(huán)境變量2022/9/2129PBS 作業(yè)腳本注釋,以“#”開頭PBS指令,以“#PBS”開頭SHELL命令2022/9/2130PBS 作業(yè)腳本舉例2022/9/2131詳細(xì)示例編輯PBS腳本內(nèi)容如下:(注意,#PBS行不是注釋,所有說明行均以#開始,即紅色字體部分)#聲明作業(yè)名為mpi#PBS -N mpi #申請資源數(shù)為10個節(jié)點(diǎn),每個節(jié)點(diǎn)16個cpu #PBS -l nodes=10:ppn=16#將標(biāo)準(zhǔn)輸出信息與標(biāo)準(zhǔn)錯誤信息合并

9、輸出到文件中#PBS -j oe#指定作業(yè)提交到low隊(duì)列#PBS q low#估計(jì)最大運(yùn)算時間為1000小時,若沒有設(shè)置這項(xiàng),系統(tǒng)為自動按所在隊(duì)列默認(rèn)walltime處理#PBS -l walltime=1000:00:002022/9/2132#在作業(yè)結(jié)束時,給用戶發(fā)郵件#PBS -m e#聲明郵箱地址,如#PBS -M #進(jìn)入作業(yè)調(diào)度目錄cd $PBS_O_WORKDIR#計(jì)算申請的cpu數(shù)目NP=cat $PBS_NODEFILE | wc -l#設(shè)置計(jì)算所需要的環(huán)境變量,如使用GNU版OpenMPI運(yùn)行程序source /public/software/mpi/openmpi1.4-

10、gnu.sh#程序運(yùn)行部分,使用infiniband網(wǎng)運(yùn)行此程序mpirun -np $NP -machinefile $PBS_NODEFILE -mca btl self,openib cpi-openmpi2022/9/2133一個復(fù)雜的PBS作業(yè)腳本2022/9/2134查詢和取消作業(yè)2022/9/2135查詢作業(yè)運(yùn)行的位置2022/9/2136ansys單節(jié)點(diǎn)計(jì)算ansys110 -np 4 -i wing.inp跨節(jié)點(diǎn)計(jì)算:ansys110 -dis -machines node22:4:node23:4 -i wing.inp2022/9/2137ansys.pbs#!/bin/

11、bash#PBS -N ansys_wing#PBS -l nodes=1:ppn=8#PBS -j oerm host.list -rffor node in cat $PBS_NODEFILEdoecho -e MPI_REMSH=/usr/bin/rsh -h $node -np 1 /home/demo/fluent/bin/ansys_inc/v110/ansys/bin/ansysdis110 -dis -mpi HPMPIdone host.listansys110 -mpifile ./host.list -i wing.inp2022/9/2138創(chuàng)建ma-node22nod

12、e23-需要注意最后有一個空行。fluent 3d t16 cnf=./ma p -g i fluent.jou2022/9/2139fluent.pbs#!/bin/bash#PBS -N fluent_8cpu#PBS -l nodes=2:ppn=4#PBS -j oeNPROCS=wc -l & m1_n2p8.out2022/9/2140cfxcfx5solve -def Benchmark.def -par-dist -start-method “HP MPI distributed Parallel” node1*2,node2*22022/9/2141cfx.pbs#!/bin

13、/bash#PBS -N CFX_8cpu#PBS -l nodes=4:ppn=2CFX_DEF_FILE=Benchmark.def# You dont need to modify the lines below #PeHostfile2MachineFile() cat $1 | while read line; do # echo $line host=echo $line2022/9/2142 # add here code to map regular hostnames into ATM hostnames if -z $mList ; then mList=$host*1 e

14、lse mList=$mList,$host*1 fi echo $mList doneCFX_PBS_NODEFILE=/tmp/cfx_whoami_$PBS_JOBIDPeHostfile2MachineFile $PBS_NODEFILE $CFX_PBS_NODEFILENPROCS=wc -l $PBS_NODEFILEcd $PBS_O_WORKDIR/public/software/ansys_inc/v110/CFX/bin/cfx5solve -def $CFX_DEF_FILE -par-dist tail -n1 $CFX_PBS_NODEFILE -start-met

15、hod HP MPI Distributed Parallel2022/9/2143abaqus/public/software/ABAQUS/6.8-PF3/site/abaqus_v6.env-mp_mpi_implementation = HPhpmpipath = driverUtils.locateFile(os.environ.get(ABA_PATH, ), External/mpi/hpmpi-/bin, mpirun)mp_mpirun_path = HP: hpmpipathmp_rsh_command = rsh -n -l %U %H %Cmp_host_list=no

16、de1,8,node2,8-abq68pf3 -j example cpus=162022/9/2144abaqus.pbs#!/bin/sh#PBS -N ABAQUS_4cpu#PBS -l nodes=2:ppn=2#PBS -j oeINPUT_FILE=circuit.inpOUTPUT_FILE=abaqus.logABAQUS_EXEC=/public/software/abaqus/Commands/abaqusABAQUS_ENV=/public/software/abaqus/6.5-6/site/abaqus_v6.env# for abaqus/standardABAQ

17、US_STANDARD_MEMORY=4096 mbABAQUS_PRE_MEMORY=4096 mbABAQUS_SCRATCH=/tmpABAQUS_MP_MODE=THREADS2022/9/2145# for abaqus/explictABAQUS_MP_MODE=MPI# You dont need to modify the lines below #GetNodeList() np=1 while read line; do host=$line if ! -z $lasthost ; then if $host = $lasthost ; then np=expr $np +

18、 12022/9/2146 else if -z $mList ; then mList=$lasthost,$np else mList=$mList,$lasthost,$np fi np=1 fi fi lasthost=$host done $12022/9/2147 if -z $mList ; then mList=$lasthost,$np else mList=$mList,$lasthost,$np fi echo $mListNODE_LIST=GetNodeList $PBS_NODEFILENPROCS=wc -l $PBS_NODEFILEcd $PBS_O_WORK

19、DIR2022/9/2148cp $ABAQUS_ENV abaqus_v6.envcat abaqus_v6.envstandard_memory=$ABAQUS_STANDARD_MEMORYpre_memory=$ABAQUS_PRE_MEMORYscratch=$ABAQUS_SCRATCHmp_mode=$ABAQUS_MP_MODEmp_host_list=$NODE_LISTEOFecho $ABAQUS_EXEC int j=$INPUT_FILE cpus=$NPROCS & $OUTPUT_FILE$ABAQUS_EXEC int j=$INPUT_FILE cpus=$NPROCS & $OUTPUT_FILE2022/9/2149feko.pbs#!/bin

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論