計算機系統(tǒng)結構課件:第9章 機群計算機_第1頁
計算機系統(tǒng)結構課件:第9章 機群計算機_第2頁
計算機系統(tǒng)結構課件:第9章 機群計算機_第3頁
計算機系統(tǒng)結構課件:第9章 機群計算機_第4頁
計算機系統(tǒng)結構課件:第9章 機群計算機_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第9章 機群計算機9.1 機群的基本概念和結構9.2 機群的特點9.3 機群的分類9.4 典型機群系統(tǒng)簡介目前流行的高性能并行計算機系統(tǒng)結構通??梢苑殖?類:并行向量處理機(PVP)對稱多處理機(SMP)大規(guī)模并行處理機(MPP)分布共享存儲多處理機(DSM)機群(Cluster)優(yōu)勢:低廉的價格、極強的靈活性和可擴縮性成為近年來發(fā)展勢頭最為強勁的系統(tǒng)結構全球Top500中機群計算機的數量和比例時間 1997.6 1997.11 1998.6 1998.11 1999.6 1999.11 2000.6 2000.11 數量 1112671128比例 0.2% 0.2% 0.2% 0.4% 1.

2、2% 1.4% 2.2% 5.6% 時間2001.6 2001.11 2002.6 2002.11 2003.6 2003.11 2004.6 2004.11 數量32438193149208289294比例6.4% 8.6% 16.2% 18.6% 29.8% 41.6% 57.8% 58.8% 時間2005.6 2005.11 2006.6 2006.11 數量304361364361比例60.8% 72.2% 72.8% 72.2% 機群一種價格低廉、易于構建、可擴縮性極強的并行計算機系統(tǒng)。由多臺同構或異構的獨立計算機通過高性能網絡或局域網互連在一起,協同完成特定的并行計算任務。從用戶的

3、角度來看,機群就是一個單一、集中的計算資源。9.1.1 機群的基本概念和結構9.1 機群的基本概念和結構9.1 機群的基本概念和結構一個簡單PC機群的邏輯結構4臺PC機通過交換機連接在一起。NIC表示網絡接口,PCI表示I/O總線。這是一種無共享的結構,大多數機群都采用這種結構。如果將下圖中的交換機換為共享磁盤,則可以得到共享磁盤的機群系統(tǒng)結構。 9.1 機群的基本概念和結構一個包含4個結點的簡單PC機群9.1 機群的基本概念和結構構成機群的每臺計算機都被稱為一個結點。每個結點都是一個完整的系統(tǒng),擁有本地磁盤和操作系統(tǒng),可以作為一個單獨的計算資源供用戶使用。除了PC機外,機群的結點還可以是工作

4、站,甚至是規(guī)模較大的對稱多處理機。機群的各個結點一般通過商品化網絡連接在一起。網絡接口與結點的I/O總線以松散耦合的方式相連。 9.1 機群的基本概念和結構機群操作系統(tǒng):在各結點的操作系統(tǒng)之上建立一層操作系統(tǒng)來管理整個機群。機群操作系統(tǒng)的功能 提供硬件管理、資源共享以及網絡通信 實現單一系統(tǒng)映象Single System Image,SSI一項重要功能機群的一個重要特征9.1.2 機群的軟件模型9.1 機群的基本概念和結構SSI包含四重含義單一系統(tǒng)單一控制邏輯上,最終用戶或系統(tǒng)用戶使用的服務都來自機群中唯一的位置。系統(tǒng)管理員通過一個唯一的控制點配置機群的所有軟、硬件組件。對稱性:用戶可以從任一

5、個結點上獲得機群服務。位置透明:用戶不必了解真正提供服務的物理設備的具體位置。 9.1 機群的基本概念和結構簡單機群系統(tǒng)中的SSI至少應該提供以下三種服務:單一登錄即用戶可以通過機群中的任何一個結點登錄,而且在整個作業(yè)執(zhí)行過程中只需登錄一次,不必因作業(yè)被分派到其他結點上執(zhí)行而重新登錄。單一文件系統(tǒng)在機群系統(tǒng)中,有一些對整個機群所有結點而言都相同的軟件,它們沒有必要在每一個結點上重復安裝。另外執(zhí)行并行作業(yè)時要求每個結點都可以訪問到可執(zhí)行文件,即這些軟件和可執(zhí)行文件在整個機群系統(tǒng)中應該只有一個唯一的副本。9.1 機群的基本概念和結構單一作業(yè)管理系統(tǒng)用戶可以透明地從任一結點提交作業(yè),作業(yè)可以以批處理

6、、交互或并行的方式被調度執(zhí)行。PBS、LSF、Condor和JOSS都是目前比較具有代表性的作業(yè)管理系統(tǒng)。 并行編程模型以及相關的并行編程環(huán)境 比較流行的并行編程工具: MPI、PVM、OpenMP、HPF 機群系統(tǒng)的軟件框架 9.1 機群的基本概念和結構機群系統(tǒng)的軟件框架機群系統(tǒng)的優(yōu)點系統(tǒng)開發(fā)周期短 結點采用商品化的PC機、工作站,通過商用網絡連接。系統(tǒng)開發(fā)的重點:通信子系統(tǒng)和并行編程環(huán)境可靠性高 每個結點都是獨立的PC機或工作站 可擴縮性強 機群的計算能力隨著結點數量的增加而增大機群結構靈活(結點之間以松耦合方式連接)機群系統(tǒng)的硬件容易擴充和替換,可以靈活配置。 9.2 機群的特點9.2

7、機群的特點性能價格比高 用戶編程方便機群的迅猛發(fā)展還得益于微處理器技術、網絡技術和并行程序設計技術的進步。微處理器技術的進步使得微處理器的性能不斷提高,價格不斷下降 。機群系統(tǒng)更容易融和到已有的網絡系統(tǒng)中,而且隨著網絡技術的進步和高性能通信協議的引入,機群結點間的通信帶寬進一步提高,通信延遲進一步縮短,逐步緩解了由于結點松散耦合引起的機群系統(tǒng)通信瓶頸問題。 9.2 機群的特點隨著PVM、MPI、HPF、OpenMP等并行編程模型的應用與成熟,使得在機群系統(tǒng)上開發(fā)并行應用更加方便。 機群的不足之處 由于機群由多臺完整的計算機組成,它的維護相當于要同時去管理多個計算機系統(tǒng),因此維護工作量較大,維護

8、費用也較高。 根據組成機群的各個結點和網絡是否相同,分為: 同構、異構根據結點是PC還是工作站,分為: PC機群、工作站機群 以機群系統(tǒng)的使用目的為依據,分為: 高可用性機群、負載均衡機群以及高性能機群 (最常用的分類方法 )9.3 機群的分類9.3 機群的分類高可用性機群 主要目的:當系統(tǒng)中某些結點出現故障的情況下,仍能繼續(xù)對外提供服務。 采用冗余機制當系統(tǒng)中某個結點由于軟、硬件故障而失效時,該結點上的任務將在最短的時間內被遷移到機群內另一個具有相同功能與結構的結點上繼續(xù)執(zhí)行。對于用戶而言,系統(tǒng)可以一直為其提供服務。適用于Web服務器、醫(yī)學監(jiān)測儀、銀行POS系統(tǒng)等要求持續(xù)提供服務的應用。 9

9、.3 機群的分類負載均衡機群主要目的:提供與結點個數成正比的負載能力要求:機群能夠根據系統(tǒng)中各個結點的負載情況實時地進行任務分配。專門設置了一個重要的監(jiān)控結點,負責監(jiān)控其余每個工作結點的負載和狀態(tài),并根據監(jiān)控結果將任務分派到不同的結點上。適合大規(guī)模網絡應用 如Web服務器或FTP服務器、大工作量的串行或批處理作業(yè)(如數據分析)9.3 機群的分類負載均衡機群適用于提供靜態(tài)數據的服務;而高可用性機群既適用于提供靜態(tài)數據的服務,又適用于提供動態(tài)數據的服務。 高性能計算機群主要目的:降低高性能計算的成本它通過高速的商用互連網絡,將數十臺乃至上千臺PC機或工作站連接在一起,可以提供接近甚至超過傳統(tǒng)并行計

10、算機系統(tǒng)的計算能力,但其價格卻僅是具有相同計算能力的傳統(tǒng)并行計算機系統(tǒng)的幾十分之一。 9.3 機群的分類按照構建方式將機群分為:(一種比較常用的分類方法)專用機群吞吐率較高,響應時間較短。專用機群的結點往往是同構的,一般采用集中控制,由一個(或一組)管理員統(tǒng)一管理,而且用戶一般需要通過一臺終端機來訪問它。 企業(yè)機群各結點之間一般通過標準的LAN或WAN互連通信開銷較大、延遲較長企業(yè)機群的各個結點一般是異構的 美國加州大學Berkeley分校開發(fā) 具有很多優(yōu)點:采用商用千兆以太網和主動消息通信協議支持有效的通信。通過用戶級整合機群軟件GLUNIX提供單一系統(tǒng)映象、資源管理和可用性,開發(fā)了一種新的

11、無服務器網絡文件系統(tǒng)xFS,以支持可擴縮性和單一文件層次的高可用性。 9.4 典型機群系統(tǒng)簡介9.4.1 Berkeley NOW9.4 典型機群系統(tǒng)簡介主動消息 實現低開銷通信的一種異步通信機制基本思想在消息頭部控制信息中攜帶一個用戶級子例程(稱作消息處理程序)的地址。當消息頭到達目的結點時,調用消息處理程序通過網絡獲取剩下的數據,并把它們集成到正在進行的計算中。主動消息相當高效和靈活,以至于各種系統(tǒng)都逐漸地用它作為基本的通信機制。 9.4 典型機群系統(tǒng)簡介GLUNIX 運行在工作站標準UNIX上的一個軟件層,屬于自包含軟件。主要思想機群操作系統(tǒng)應由底層和高層組成。其中底層是執(zhí)行在核模式下的

12、結點商用操作系統(tǒng),高層是能提供機群所需的一些功能的用戶級操作系統(tǒng)。特別地,這一軟件層能夠提供機群內結點的單一系統(tǒng)映象,使得所有的處理器、存儲器、網絡容量和磁盤帶寬均可以被分配給串行和并行應用。 9.4 典型機群系統(tǒng)簡介無服務器文件系統(tǒng)xFS一個無服務器的分布式文件系統(tǒng)。將文件服務的功能分布到機群的所有結點上,以提供低延遲高帶寬的文件系統(tǒng)服務功能。主要采用廉價冗余磁盤陣列、協同文件緩存和分布式管理等技術。 9.4 典型機群系統(tǒng)簡介目標 1G Flops的計算處理能力和10 GB的存儲容量價格不能過高一個具有16個結點的機群(Thomas Sterling與Don Becker二人構建)硬件:In

13、tel的DX4處理器以及10 Mbps的以太網軟件:基于Linux系統(tǒng)以及其他一些GNU軟件 9.4.2 Beowulf9.4 典型機群系統(tǒng)簡介將這個系統(tǒng)命名為Beowulf這種基于COTS(Commodity Off The Shelf)思想的技術也迅速由NASA傳播到其他科研機構。這類機群被稱為Beowulf機群。 (Beowulf Class Cluster Computers)Beowulf并不是一套具體的軟件包或是一種新的網絡拓撲結構,它只是一種思想。 在達到既定目標的前提下,把注意力集中在獲取更高的性能價格比上。 9.4 典型機群系統(tǒng)簡介使用低成本、小配置(28個處理器)的SMP來

14、構建機群系統(tǒng)逐漸成為主流。這種結構的系統(tǒng)被統(tǒng)稱為CLUMPs (CLUster of MultiProcessors)由于SMP結點內部與SMP結點之間通信能力往往不一致,CLUMPs一般使用專門的通信協議和通信算法。 9.4.3 LAMP9.4 典型機群系統(tǒng)簡介LAMP(Local Area MultiProcessor)由NEC實驗室構建,基于Pentium Pro PC機、SMP機群共有16個結點 每個結點包含兩個Pentium Pro 200 MHz的CPU以及256 MB內存。操作系統(tǒng)使用了支持SMP的Linux 2.0.34內核版本,提供MPICH 1.1.0并行程序開發(fā)環(huán)境。同一

15、個SMP結點內的兩個CPU之間采用基于共享存儲器的消息傳遞機制進行通信,而結點間通信則通過Myrinet完成。9.4 典型機群系統(tǒng)簡介深藍:采用30個RS/6000工作站(帶有專門設計的480片國際象棋芯片)的IBM SP2機群 異步的MIMD,具有分布式存儲器系統(tǒng)結構。9.4.4 IBM SP29.4 典型機群系統(tǒng)簡介結點:一臺RS/6000工作站,帶有自己的存儲器和本地磁盤。結點中采用的處理器:一臺6流出的超標量處理機 每個時鐘周期可以執(zhí)行6條指令,包括2條讀數寫數指令,2條浮點乘或加指令,1條變址增量指令和1條分支指令。每個結點配有一套完整的AIX操作系統(tǒng)(IBM的UNIX)。結點間的互連網絡接口是松散耦合的,通過結點本身的I/O微通道(MCC)接到網絡上,而不是通過本身的存儲器總線。9.4 典型機群系統(tǒng)簡介SP2的結點數可以從2個到512個不等,除了每個結點采用RS/6000工作站外,整個SP2系統(tǒng)還需要配置另外一臺RS/6000工作站作為系統(tǒng)控制臺 。SP2的結點可分為3類:寬結點、細結點、細2結點 它們都有:1個指令Cache1個數據Cache1個分支指令和轉移控制部件2個整數部件2個浮點部件9.4 典型機群系統(tǒng)簡介但它們在存儲器容量、數據寬度和I/O總

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論