基于共享虛擬存儲系統(tǒng)的波導(dǎo)加載諧振腔諧振頻率的_第1頁
基于共享虛擬存儲系統(tǒng)的波導(dǎo)加載諧振腔諧振頻率的_第2頁
基于共享虛擬存儲系統(tǒng)的波導(dǎo)加載諧振腔諧振頻率的_第3頁
基于共享虛擬存儲系統(tǒng)的波導(dǎo)加載諧振腔諧振頻率的_第4頁
基于共享虛擬存儲系統(tǒng)的波導(dǎo)加載諧振腔諧振頻率的_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、基于共享虛擬存儲系統(tǒng)的波導(dǎo)加載諧振腔諧振頻率的的高效并行計算施巍松+,馬積幅*+中科院計算所高性能計算機研究中心, 北京,100080*中科院高功率微波與電磁輻射開放實驗室, 北京,100080摘 要本文介紹在曙光1000A工作站集群系統(tǒng)上時域有限差分(FDTD)并行計算的高效實現(xiàn),提出了在虛擬共享存儲系統(tǒng)(SVM)上實現(xiàn)并行的方案,將原來的串行程序移植到這種新的并行計算平臺上,具體計算了波導(dǎo)加載諧振腔的諧振頻率,獲得了正確的結(jié)果。性能分析表明,本文實現(xiàn)的加速比和公開報道的基于消息傳遞的同類算法所獲得的加速比可比。由于這種并行化方法幾乎不需要硬件投資(只要把已有的工作站充分利用即可),編程容易

2、(原來的串行程序只需很少改動即可),所以是一種值得大力推廣的并行化實現(xiàn)方法。1需求分析 通常,電磁場的數(shù)值方法有三個指標,即計算的可靠性,準確性和效率。時域有限差分算法(Finite Difference Time Domain, FDTD) 能在電磁場輻射和散射、微波和毫米波電路以及電磁兼容和電磁劑量學(xué)等十分廣泛的領(lǐng)域獲得成功的應(yīng)用,說明就可靠性和準確性而言,它是一種能基本滿足人們需要的有效的數(shù)值方法1,2,3。然而,對于目前普及使用的PC機來講,它在計算效率方面有所欠缺。較長的計算時間和較大的存儲空間是FDTD在這種系統(tǒng)上解決實際電大尺寸物體電磁場問題的瓶頸(實際上,這也不是FDTD獨有的

3、問題。需要較長的迭代時間是時域計算的共同特點。至于存儲空間,則幾乎所有數(shù)值方法都要求越大越好,比如矩量法(MOM)要求的存儲量正比于N的平方(N為離散網(wǎng)格的數(shù)目),F(xiàn)DTD所需的存儲空間正比于N,有限元(FEM)所需的存儲空間雖然也是正比于N,但是只有基于邊棱元的(Edge-based Element)FEM其要求的存儲空間與FDTD差不多,以往的基于結(jié)點(Node-based Element)的FEM所要求的存儲空間要比FDTD要求的大)。 為了在PC機上解決比較大的存儲空間的需求問題,人們嘗試了各種計算技巧。比如利用結(jié)構(gòu)的對稱性,可以成倍的減少存儲空間4。又如采用虛擬存儲技術(shù)(用一部分硬盤

4、空間虛擬內(nèi)存)或分段計算(將結(jié)構(gòu)分成數(shù)段,依次調(diào)入內(nèi)存計算)的方法。常見的第一種方法雖然有效,但是要分析的結(jié)構(gòu)畢竟不是都具備對稱條件的。 同樣,為了在PC機上解決比較長的運行時間問題,人們也嘗試了各種計算技巧。最常見的就是FDTD與譜估計結(jié)合的方法5,6,7。需要指出的是,這種方法只能在一定程度上緩解問題,而不能從根本上解決問題。為了克服上述兩個問題,需要從數(shù)值算法和計算技術(shù)兩個方面進行探討。從算法上講,并行FDTD算法將是解決電大尺寸電磁問題計算的重要途徑,已有許多人進行了這方面的探索8-11,充分說明了這一途徑的有效性。另一方面,從計算技術(shù)上講,高性能的計算技術(shù)是當(dāng)今計算機科學(xué)領(lǐng)域的熱點問

5、題之一,追求更快的運算速度,追求更大容量的內(nèi)存,是高性能計算機努力追求的方向。隨著單處理機的速度越來越趨近物理極限(如今最高的計算機主頻為1000MHz),高性能計算機必須走大規(guī)模并行處理之路13。所以對于從事電磁場計算的人來說,需要做的是在眾多的并行體系結(jié)構(gòu)中,選取一種合適的并行體系結(jié)構(gòu)進行并行運算。并且要求,硬件系統(tǒng)應(yīng)是通用的而不是專用的,軟件編程應(yīng)是方便的而不是煩瑣的,獲得的加速比應(yīng)是較高的。2. 背景知識21 實驗平臺 在過去的幾年里,MPP在超級計算機市場上取得了很大的成功。進入90年代后,隨著RISC技術(shù)的發(fā)展運用和高性能網(wǎng)絡(luò)產(chǎn)品的出現(xiàn),機群系統(tǒng)在性能價格比(Cost/Perfor

6、mance)、可擴展性(Scalability)、可用性(Availability)等方面都顯示了很強的競爭力,尤其是它在對現(xiàn)有單機上的軟硬件產(chǎn)品的繼承和對商用軟硬件最新研究成果的快速運用這兩方面表現(xiàn)出傳統(tǒng)MPP無法比擬的優(yōu)勢。目前,機群系統(tǒng)已在許多領(lǐng)域獲應(yīng)用。隨著計算機網(wǎng)絡(luò)技術(shù)的發(fā)展,特別是ATM、FastEthernet、Myrinet、千兆位以太網(wǎng)的問世, 以及各種軟硬件支持的增多和系統(tǒng)軟件、應(yīng)用軟件的豐富,新一代高性能機群系統(tǒng)逐漸成為高性能計算的一種主流平臺。 事實上,一般用戶所關(guān)心的只是編程環(huán)境,對低層硬件無須知道。目前有兩種編程模式,一種是消息傳遞(Message Passing)

7、的,另一種是共享存儲(Shared Memory)。在消息傳遞的編程模式下,用戶需要自己考慮到數(shù)據(jù)的分布、各個處理器的負載平衡和不同的處理器間的通信。而在共享存儲則無須考慮這些問題。消息傳遞的模式比較適合于分布式系統(tǒng)中,共享存儲的模式適合于集中存儲的系統(tǒng)中。 由于分布式存儲系統(tǒng)與集中式存儲系統(tǒng)各有優(yōu)缺點, 所以目前的趨勢是將兩者結(jié)合:系統(tǒng)含有上千個的處理器,雖然內(nèi)存物理上分布于各個處理器上,但在邏輯上給用戶提供統(tǒng)一的共享地址空間。這就是分布式共享存儲系統(tǒng)(Distributed Shared Memory: DSM)14。簡單的說,分布式共享存儲系統(tǒng)就是在邏輯上給用戶提供統(tǒng)一的共享地址空間,提

8、供共享存儲的編程模式,無須考慮在物理上各個存儲模塊是分布的。分布式共享存儲系統(tǒng)以其方便的編程接口及良好的可擴展性而越來越受到學(xué)術(shù)界和工業(yè)界的極大關(guān)注, 從而成為高性能計算機體系結(jié)構(gòu)發(fā)展的主流。分布式共享存儲系統(tǒng)包括兩類: 一類是由底層硬件實現(xiàn)的,具有統(tǒng)一的物理地址空間的系統(tǒng)。目前的共享存儲型MPP機器多采用這種結(jié)構(gòu)。另一類是由上層軟件實現(xiàn)的, 具有統(tǒng)一的虛擬地址空間的系統(tǒng),這一類稱為稱為虛擬共享存儲系統(tǒng)(Shared Virtual Memory:SVM), 又稱為軟件分布式共享存儲系統(tǒng)(Software DSM:SDSM)。其中有代表性的系統(tǒng)有Yale 大學(xué)的 Ivy,Rice 大學(xué)的 Tr

9、eadMarks, Munin,Maryland 大學(xué)的 CVM,Carnegie Mellon 大學(xué)的 Midway,中科院計算所高性能計算機研究中心的JIAJIA 系統(tǒng)。 處理機1處理機2處理機n本地存儲器本地存儲器本地存儲器虛擬共享存儲層虛擬共享存儲層虛擬共享存儲層虛擬共享存儲地址空間一個簡單的虛擬共享存儲系統(tǒng)如圖1所示。 所有的處理機可以共享由虛擬共享存儲系統(tǒng)提供的統(tǒng)一地址空間, 從程序員的角度來看, 任何處理機可以訪問整個地址空間的任何變量而無需考慮該變量位于哪個處理機上。 每個處理機都有一個虛擬共享存儲層, 這個虛擬共享存儲層不僅要負責(zé)本地存儲器與虛擬共享地址空間的映射, 而且還要

10、在本機發(fā)生共享數(shù)據(jù)不命中時, 到遠地將所需數(shù)據(jù)取回, 并及時維護整個地址空間的一致性。 圖1: 一個簡單的虛擬共享存儲系統(tǒng)22 相關(guān)的工作 目前在并行FDTD算法上許多人已作了大量的工作。大多數(shù)工作是在MPP上做的8-10。當(dāng)然在MPP上完成FDTD算法能獲得滿意的高效率,但是它存在這樣三個個不足之處:其一是MPP系統(tǒng)一般作為專用系統(tǒng)而遠非普及,其二是過程復(fù)雜,也就是把原來的串行程序改變?yōu)檫m合并行運算的過程復(fù)雜,需要熟悉MPP系統(tǒng)編程人員的專門指導(dǎo)下進行,其三是通用性差,因為不同的并行機有不同的體系結(jié)構(gòu),相應(yīng)的編程語言和編程策略也不同,所以針對不同的MPP系統(tǒng)需要分別對原串行程序進行移植。另有

11、一些并行FDTD算法是在陣列機上實現(xiàn)的,如11。由于陣列機是有專門用途的專用設(shè)備,一般是不容易用到的,所以我們不去關(guān)心這種系統(tǒng)上的FDTD并行的實現(xiàn)。 另一種FDTD并行算法是在工作站集群系統(tǒng)(Cluster)上進行的13-14。當(dāng)前在集群系統(tǒng)上的并行實現(xiàn)都是基于消息傳遞的編程模式。 在這種模式下,僅僅在程序中加入一定的消息傳遞還不足以達到高性能,原串行程序必須做很大的修改。編程者需要自己考慮數(shù)據(jù)的靜態(tài)分布和動態(tài)調(diào)度,在程序中通過調(diào)用函數(shù)來顯式的發(fā)出和接受消息。因此在這種模式下編程對從事計算電磁場的人來說是很不方便的。由于虛擬共享存儲系統(tǒng)能在集群系統(tǒng)上提供共享存儲的編程模式, 因此本文在最新的

12、虛擬共享存儲系統(tǒng)JIAJIA系統(tǒng)16,17上實現(xiàn)并行FDTD計算,以求解波導(dǎo)加載諧振腔的諧振頻率為例,說明算法的實際價值。3. FDTD分塊并行算法 在分布式系統(tǒng)上進行FDTD并行運算的基本原理是進行分塊計算11-12。具體做法如下。將計算空間分成N個區(qū)域(如圖2所示)。一個處理器對應(yīng)一個子空間,這個處理器負責(zé)自己子空間內(nèi)場量的運算和存儲。按照FDTD算法的特點,因為相鄰子空間的公共面上的場的迭代涉及相鄰的兩個子空間,所以相鄰的處理器需要通訊,以交換場量信息、保證整個場量的迭代同步進行。消息傳遞的系統(tǒng)上這個過程由兩個方面來完成,一是在計算場量的公式上,另一個是編程實現(xiàn)上。xyEyHxHxKz1

13、圖2: FDTD的區(qū)域分塊 圖3: 沿z向分塊舉N=2的情況說明(如圖3,圖中以kz1為界,大于kz1為II區(qū),小于kz1為I區(qū))。在編程實現(xiàn)時,首先場分量的數(shù)組和對應(yīng)的計算系數(shù)要分開定義,如場量Ex1(k,j,i)和系數(shù)cex1(k,j,i)為第一個處理器的場量和系數(shù),Hx2(k,j,i)和系數(shù)cux2(k,j,i)為第二個處理器的場量和系數(shù)。 其次,在計算公共邊上的Ey分量時,原來的串行的迭代公式(1)Ey(i,j,kz1)=cey(i,j,kz1)*(-dey(i,j,kz1)*Ey(i,j,kz1)(1)+(Hx(i,j,kz1)-Hx(i,j,kz1-1)/dlz-(Hz(i,j,k

14、z1)-Hz(i-1,j,kz1)/dlx)需要改變到并行的(2)Ey2(i,j,kz1)=cey2(i,j,kz1)*(-dey2(i,j,kz1)*Ey2(i,j,kz1)(2)+(Hx2(i,j,kz1)-Hx1(i,j,kz1-1)/dlz-(Hz2(i,j,kz1)-Hz2(i-1,j,kz1)/dlx)同樣,I區(qū)靠近邊界的Hx分量的迭代公式也要改變?yōu)椋?Hx1(i,j,kz1-1)=cux1(i,j,kz1-1)*(-dux1(i,j,kz1-1)*Hx1(i,j,kz1-1)+(Ey2(i,j,kz1)-Ey1(i,j,kz1-1)/dlz(3)-(Ez1(i,j+1,kz1-1

15、)-Ez1(i,j,kz1-1)/dly)最后,并行計算的過程中,完成相鄰區(qū)域邊界上場分量的計算所需要的信息交換在以前常采用的消息傳遞的編程模式下,編程者需要在程序中通過調(diào)用函數(shù)來顯式的發(fā)出和接受消息。對于從事計算電磁場的編程人員,這顯然是很高的要求了,因為這意味著需要學(xué)習(xí)新的語言環(huán)境??偟恼f來,在消息傳遞的系統(tǒng)中實現(xiàn)并行,場量和系數(shù)需要以下標分開,這導(dǎo)致:1.程序明顯增長,2. 需要考慮公共邊界上的條件,3. 依賴于處理器的個數(shù),處理器的個數(shù)不同需要重新修改程序。4. FDTD分塊并行算法的簡便實現(xiàn)我們在最新的虛擬共享存儲系統(tǒng)(Software DSM)JIAJIA系統(tǒng)上實現(xiàn)FDTD分塊并行

16、運算20-25。求解的實例是波導(dǎo)加載諧振腔,這里僅計算其諧振頻率,說明算法的實際價值。JIAJIA系統(tǒng)由中國科學(xué)院計算技術(shù)研究所高性能計算機中心研制,既可以運行于MPP如IBM SP2,又可以運行于工作站集群系統(tǒng)如: SUN SPARC/ULTRA 系列工作站,曙光1000A,Intel x86 系統(tǒng)(運行Linux操作系統(tǒng))等硬件平臺。目前支持C和 Fortran77等高級語言。其優(yōu)點主要是(1)易于編程,(2)性能較高,(3)可以提供大內(nèi)存。(JIAJIA 軟件系統(tǒng)的詳細資料可訪問http:/JIAJIA系統(tǒng)是作為一個運行庫,運行于操作系統(tǒng)的上層,用戶程序只需在連接時與庫連上即可。前已提及

17、它有三個主要的優(yōu)點,分別是易于編程、可獲得高性能和可以提供大內(nèi)存。易于編程指的是:原來串行的程序可以很容易的在該系統(tǒng)中實現(xiàn)并行。JIAJIA提供七個主要的函數(shù),它們是:jia_init(對Fortran 77使用jiaf_init), jia_alloc, jia_lock, jia_unlock, jia_barrier, jia_clock, jia_exit. 這些函數(shù)中只有jia_init是所有的程序都需要的,其余的則是可選的??梢垣@得高性能指的是:用戶不需要硬件的投資(因為JIAJIA系統(tǒng)是免費軟件,故亦不需要軟件投資,下載地址:http:/www),就可以獲得很好的性能,所以性能價

18、格比很好。可以提供大內(nèi)存指的是:可以盡量利用低層硬件所能提供的所有內(nèi)存,舉例來說,如果有一個8個結(jié)點的并行機或工作站集群系統(tǒng),每個結(jié)點有32MB的主存,那么JIAJIA系統(tǒng)就能支持32 X 8 = 256 MB的主存給用戶使用。 下面具體講述如何將原來串行的FDTD程序移植到JIAJIA并行系統(tǒng)下運行。4.1 FDTD算法:激勵源的和邊界條件的設(shè)置為了盡量減少程序中串行的部分,提高程序的并行程度,我們將腔體的激勵,由原來的由波導(dǎo)入射改變?yōu)樵谇惑w內(nèi)部設(shè)置一電脈沖。由于脈沖時間寬度很窄,經(jīng)較短的時間步后,腔內(nèi)即呈現(xiàn)自由振蕩,這樣由振蕩的時間序列就可以應(yīng)用MP方法18估計出諧振頻率。我們選取激勵脈沖

19、為高斯調(diào)制波:(4)通過適當(dāng)?shù)倪x取參數(shù)T(脈沖寬度)和f0(載波頻率),可以方便的控制激勵源的頻譜,防止過多的頻率成分在腔內(nèi)存在。其次,將原來的完純導(dǎo)體邊界由在程序中直接置零改為由迭代系數(shù)置零,以便導(dǎo)體邊界上的場和其它地方的一樣通過迭代求出,避免了直接置零的串行部分。 JIAJIA提供一個統(tǒng)一的共享地址空間,從程序員的角度來看,任何處理機可以訪問整個地址空間的任何變量而無需考慮該變量位于哪個處理機上。這就大大減輕了移植串行程序的負擔(dān):無須象上一節(jié)提到的那樣對串行程序進行改變。編程就象在PC上編程一樣,只需局部改變串行程序循環(huán)的始末值。假設(shè)只有z向進行了分塊,則原來串行的循環(huán)Do k=0,nz將

20、改為Do k = begin,end不同的begin,end的值對應(yīng)不同的處理器。所有的場分量以及系數(shù)的數(shù)組對各個處理器不再區(qū)分,即不用明確的定義不同的數(shù)組如Ex1,Ex2,Ex3等對應(yīng)不同的處理器。這是一種典型的SPMD(Single Program Multiple Data)編程模式。 之所以能這樣簡化的關(guān)鍵是JIAJIA系統(tǒng)能自動的維持邊界數(shù)據(jù)的一致性,并且提供了靈活的維護存儲器局部性(Locality)的機制。這里局部性的含義是:存儲一部分場分量和相應(yīng)系數(shù)的那個存儲模塊被分配在這樣一個處理器上:該處理器要用到或計算數(shù)據(jù)的這一部分??偟牟⑿羞\算的框架將是:在程序的開始,加了call j

21、iaf_init作為JIAJIA系統(tǒng)對FORTRAN的初始化。定義場分量及系數(shù)的數(shù)組并置初值的處理和串行程序一樣。不同的處理器開始同時計算分配給它的那部分子空間上的場量,在每一次場量的迭代運算進行之前,加了jia_barrier(),其目的是使所有的處理器得到它所需要的相鄰區(qū)域的場值。call jiaf_initdefine field arrays and set initial valuetime step Nt =010 compute H componentsNt=Nt+1call jia_barriercompute E componentscall jia_barrierif (N

22、t .le. Total_steps) goto 105. 并行計算結(jié)果和性能分析 我們運行的底層硬件是國家智能計算機研究中心研制的曙光1000A(DAWNING 1000A),目前它由8個基于PowerPC的結(jié)點經(jīng)由100Mbps交換以太網(wǎng)(Switch Ethernet)聯(lián)接構(gòu)成,每個結(jié)點有256M字節(jié)的主存。曙光1000A是一種典型的基于消息傳遞的系統(tǒng),前面我們提到在基于消息傳遞的系統(tǒng)上移植串行程序是很麻煩的。然而有了在這種硬件的頂層運行的JIAJIA系統(tǒng)后,我們可以較為輕松的完成并行化工作。 我們采用的計算模型如圖4所示,模型的尺寸是:a=25.0mm, b=10.00mm, c=50

23、.00mm (腔體), ad=30.0mm, bd=15.0mm (輸出波導(dǎo)), h=3.0mm, r=7.5mm (漂移管深入長度和半徑). 耦合窗的大小是12.00mm×5.00mm. FDTD網(wǎng)格模型如下:Dx = Dz = Dy = 0.5,Dt=Dy/2v,v為光速,因為網(wǎng)格的尺寸比較大,無法精確地模擬漂移管的細節(jié)結(jié)構(gòu),所以采取了以下的近似:(a) 漂移管認為是實心柱體,(b) 漂移管圓形截面用鋸齒網(wǎng)格模擬。在FDTD建模時,由于重入腔的第一個諧振頻率已經(jīng)小于波導(dǎo)基模的截止頻率,所以波導(dǎo)中將有較大的凋落波,為了有效的減少凋落波的影響,我們把現(xiàn)有的PML設(shè)置在離窗口較遠的地方

24、(D>100)。如果采用對凋落波有效的修正的PML,那么D可以減小??偟木W(wǎng)格模型的大小是60x30x400,并行分塊是在z軸方向進行的,即以垂直于z的平面將網(wǎng)格空間分成N個子空間, 其中N是處理機的個數(shù)。腔波導(dǎo)漂移管abcbdad圖4: 分析的結(jié)構(gòu)5.1驗證 為了檢驗并行運算的正確性,我們先以4機并行運算,將計算結(jié)果:電場分量的時域響應(yīng)和由此估計出的頻率與串行計算得出的結(jié)果18進行對照。圖5: 電場分量Ey的時域響應(yīng)圖5所示是腔內(nèi)觀察點處記錄的電場分量Ey的時間序列,其中實線是4機并行運算的結(jié)果,而虛線是前面串行程序得出的。這兩條線完全是重合的,因之,由時域響應(yīng)估計出的諧振頻率也是完全一

25、樣的(列于表1)。表1: 計算得出的諧振頻率模式1234頻率4.8795.6129.72510.772 并行程序性能的分析由并行算法的加速比來衡量。我們首先采用固定加速比Sf(Fixed Speedup),其次采用比例加速比Ss(Scaled Speedup),來評價我們的并行方案的實現(xiàn)。固定加速比衡量的是:在問題規(guī)模固定的情況下,隨著處理器個數(shù)的增加獲得加速比的情況。而比例加速比衡量的是:隨著處理器個數(shù)的增加,問題規(guī)模相應(yīng)增大獲得加速比的情況。比例加速比被普遍認為是更適合評價并行算法11,12,因為只有在保證每個處理器的計算量不變的情況下,才能評價并行計算的性能,也正是在這種情況下才能發(fā)揮并

26、行的優(yōu)勢。固定加速比Sf和比例加速比Ss分別為:Sf = T1/Tn,SS = n x T1/Tn,其中T1為單機運行所化的時間,Tn為n個處理器運行所化的時間。我們采用了三種規(guī)模的問題:?。?0x30x208),中(120x60x416),大(240x60x832)。其中規(guī)模的增大是通過加大網(wǎng)格密度的方法實現(xiàn)的。表2給出這三種規(guī)模問題的運行時間(均指運行6000步所化的時間)、固定加速比和內(nèi)存需求。表3給出了固定單機計算量為120x60x208時的比例加速比。由表2和表3可見:1 對小規(guī)模問題,四機獲得2.09的加速比,而八機時加速比反而下降。其原因是:八機時的運算/通信比率太低,極大的影響

27、了性能。實際上并行計算對小規(guī)模的問題是體現(xiàn)不出其優(yōu)越性的,因為運算的時間小于通信的時間,大部分時間化在不同處理器的通信上了。另一方面,小規(guī)模的問題在PC機上即可運行,如這里的只需要20MB,在PC上運行沒有問題。表2: 不同規(guī)模的計算模型的運行時間、加速比、和內(nèi)存需求規(guī)模串行時間 (s)4 機 /加速比8 機 /加速比內(nèi)存(MB)60x 30x 2086963.083410.09/2.093600.00/1.9320120x 60x41644710.6619200.00/2.3310920.01/4.09160240x60x832-614760.00/1.0045744.02/13.38660

28、表3: 可變規(guī)模問題的運行時間和比例加速比(120x 60x208)處理器個數(shù)1248時 間21661.8023754.6024384.0028650.03比例加速比1001823556052 當(dāng)問題規(guī)模增大時,加速比相應(yīng)的提高。對這里中規(guī)模的問題,4機獲得2.33的加速比,這個值比文獻19,20中的要高,比12中的略低。由于加速比與問題的規(guī)模有關(guān),所以我們認為這里實現(xiàn)的加速比和公開報道的基于消息傳遞的同類算法所獲得的加速比可比。3 前面提到,JIAJIA系統(tǒng)能提供大內(nèi)存,這對大規(guī)模問題的解決無疑是很有益處的。表中大規(guī)模的問題需要高達660MB的內(nèi)存,在曙光的單機(只有256MB的主存)上已經(jīng)

29、無法運行。所以對這個問題我們以4機為基準衡量8機的性能。發(fā)現(xiàn)獲得的加速比是超線性的(按理處理器個數(shù)增加一倍時,加速比理想的應(yīng)為2)。導(dǎo)致這種情況的原因歸于這個規(guī)模的問題需要的內(nèi)存太大。當(dāng)用4個處理器時,每個處理器上分配了約220MB的存儲量,占用了該機85.9%的內(nèi)存,因此在計算過程中出現(xiàn)內(nèi)存與磁盤之間不斷進行數(shù)據(jù)交換,從而影響了性能。而用8個處理器時,每個處理機的存儲空間只占了42.9%,所以性能就大為提高了。4 比較表2和表3,可見比例加速比更易于被接受。我們所獲得的比例加速比與12在PVM上獲得的結(jié)果是可比的。這反映了軟件式共享存儲系統(tǒng)在性能上與消息傳遞的模式也是可比的。由于軟件式共享存

30、儲系統(tǒng)編程容易,所以非常值得推廣。5.結(jié)論并行計算是計算電磁學(xué)發(fā)展的重要趨勢,是解決實際微波結(jié)構(gòu)的重要途徑。在新的虛擬共享存儲系統(tǒng)JIAJIA上可以非常方便的實現(xiàn)原來串行程序的并行化,并可以獲得很好的性能。因此在工作站集群系統(tǒng)上利用軟件支持共享存儲的編程界面是十分可行的一個方向。參考文獻1. Taflove, K. Umashankar, "Review of FDTD numerical modeling of electromagnetic wave scattering and radar cross section," Prod. IEEE, Vol. 77, pp

31、. 682-699, May 1989.2. 王長清,祝西里,電磁場計算中的時域有限差分法,北京:北京大學(xué)出版社,19943. 高本慶,時域有限差分法,北京:國防工業(yè)出版社,1995。4. E. K. Miller, "Solving bigger problems by decreasing the operation count and increasing the computation bandwidth," Proc. of IEEE Special Issue of Electromagnetics, Vol. 79, pp.1493-1504, Oct. 19

32、91.5. Zhiqiang Bi, Ying Shen, Keli Wu, John Litva, "Fast finite-difference time domain analysis of resonators using digital filtering and spectrum estimation techniques," IEEE Trans. Microwave Theory Tech., Vol. 39, 40. 1611-1619, Aug. 1992.6. J. A. Pereda, L. A. Vielva, A. Vegas and A. Pr

33、ieto, “Computation of resonant frequencies and quality factors of open dielectric resonators by a combination of the FDTD and Pronys method”, IEEE Microwave Guided Wave Lett., vol. 2, pp. 431-433, Nov. 1992.7. Jan Ritter, Fritz Arndt, “Efficient FDTD/Matrix-Pencil method for the full-wave scattering

34、 parameter analysis of waveguiding structures,” IEEE Trans. Microwave Theory Tech., vol. 44, Z. M. Liu, Ananda S. Mohan, et al, "Techniques for implementation of the FDTD method on a CM-5 parallel computer," IEEE Antennas and Propag. Magazine, Vol. 37, pp. 64-71, Oct. 1995.8. Z. M. Liu, An

35、anda S. Mohan, et al, "Techniques for implementation of the FDTD method on a CM-5 parallel computer," IEEE Antennas and Propag. Magazine, Vol. 37, pp. 64-71, Oct. 1995.9. A. Fijany, M. A. Jensen, Y. Rahmart-Samii, J. barhen, "A massively parallel computation strategy for FDTD: time an

36、d space parallelism applied to electromagnetic problems," IEEE Trans. on Antenna and Propag. Vol. 43, pp. 1441-1449, Dec. 1995.10. S. Gedney, "Finite-difference Time-domain analysis of microwave circuit devices on high performance vector/parallel computers," IEEE Trans. on Microwave T

37、heory Tech., Vol. 43, pp. 1441-1449, Oct. 1995.11. W. J. Buchanan, N. K. Gupta, "A novel prallel processing synchronization method for observing electric fields in and around PCBs," Int. J. Electronics, Vol. 82, pp.61-76, No. 1 1997.12. V. Varadarajan, R. Mittra, "Finite-difference time-domain analysis using distributed computing," IEEE Microwave Guided Wave Letter

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論