Chapter 7 多核、多處理器和集群_第1頁
Chapter 7 多核、多處理器和集群_第2頁
Chapter 7 多核、多處理器和集群_第3頁
Chapter 7 多核、多處理器和集群_第4頁
Chapter 7 多核、多處理器和集群_第5頁
已閱讀5頁,還剩28頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

計(jì)算機(jī)組成與設(shè)計(jì)硬件/軟件接口第7章多核、多處理器和集群ComputerOrganizationandDesignTheHardware/SoftwareInterfaceDavidA.PattersonJohnL.Hennessy7.1引言目標(biāo):將多臺(tái)計(jì)算機(jī)連接起以期獲得更高的性能。

計(jì)算機(jī)集群多處理器多核處理器作業(yè)(Job)/進(jìn)程(Process)級(jí)的并行并行性高,因?yàn)樽鳂I(yè)相對(duì)獨(dú)立并行處理程序單個(gè)程序運(yùn)行在多個(gè)處理器上多核處理器在一個(gè)芯片上有多個(gè)處理器(核)7.1引言串行/并行程序都可以在串行/并行處理器上運(yùn)行挑戰(zhàn):如何更加有效地使用并行處理器并行編程應(yīng)顯著提高程序的執(zhí)行性(否則還不如用一個(gè)快一點(diǎn)的單處理器,因?yàn)檫@樣更容易)面臨的困難:調(diào)度、負(fù)載均衡、同步和通信開銷7.2創(chuàng)建并行處理程序的難點(diǎn)程序執(zhí)行的串行部分限制了加速比的提升。Amdahl定理Example:要在100個(gè)處理器上獲得加速比90,試計(jì)算順序執(zhí)行部分應(yīng)是多少?Amdahl定理Fp

=0.999∴順序執(zhí)行部分不能超過0.1%。問題規(guī)模工作負(fù)載:?jiǎn)翁幚砥鳎?/p>

10個(gè)標(biāo)量求和10×10二維矩陣求和10個(gè)處理器:

達(dá)到潛能的55%問題規(guī)模100個(gè)處理器:

達(dá)到潛能的10%工作負(fù)載:10個(gè)標(biāo)量求和100×100二維矩陣求和問題規(guī)模單處理器:

10個(gè)處理器:

達(dá)到潛能的99%100個(gè)處理器:

達(dá)到潛能的91%強(qiáng)比例與弱比例縮放強(qiáng)比例縮放:?jiǎn)栴}規(guī)模不變。如前面的例子所示

弱比例縮放:?jiǎn)栴}規(guī)模隨處理器數(shù)量比例變化。10個(gè)處理器,10×10二維矩陣求和

T=20tadd100個(gè)處理器,32×32二維矩陣求和T=10tadd+(32×32/100)tadd=20tadd思考題:排隊(duì)5分鐘1分鐘7.3共享存儲(chǔ)多處理器共享存儲(chǔ)多處理器

SMP-SharedMemoryMultiprocessor由硬件為所有的處理器提供單一的物理地址空間以塊為單位同步共享變量存儲(chǔ)器訪問時(shí)間統(tǒng)一存儲(chǔ)訪問(UMA):訪存時(shí)間大致相同非統(tǒng)一存儲(chǔ)訪問(NUMA):某些存儲(chǔ)訪問更快共享存儲(chǔ)多處理器的典型組成互連網(wǎng)絡(luò)存儲(chǔ)器I/O處理器Cache處理器Cache處理器Cache……處理器間的消息傳遞機(jī)制每個(gè)處理器都有自己的私有物理地址空間由硬件負(fù)責(zé)在處理器間的通信互連網(wǎng)絡(luò)……處理器Cache處理器處理器Cache處理器…處理器Cache處理器affordable松散耦合獨(dú)立的計(jì)算機(jī)通過網(wǎng)絡(luò)連接每個(gè)計(jì)算機(jī)都有自己的內(nèi)存和OS通過I/O系統(tǒng)連接(域局網(wǎng)、交換機(jī)、互聯(lián)網(wǎng))適合具有獨(dú)立任務(wù)的應(yīng)用Web服務(wù)器、數(shù)據(jù)庫、仿真具有高適應(yīng)性、擴(kuò)展性、成本低松散耦合主要問題管理開銷(主要是虛擬機(jī))連接帶寬低指令和數(shù)據(jù)流分類方式數(shù)據(jù)流一個(gè)多個(gè)指令流一個(gè)SISD:IntelPentium4SIMD:SSEinstr.ofx86多個(gè)MISD:目前無實(shí)例MIMD:IntelXeone5345SPMD:?jiǎn)纬绦蚨鄶?shù)據(jù)一個(gè)并行程序運(yùn)行在MIMD計(jì)算機(jī)上條件語句控制在不同處理器執(zhí)行不同代碼SIMD–單指令流多數(shù)據(jù)流所有的處理器在同一時(shí)間執(zhí)行相同指令每個(gè)處理器訪問的數(shù)據(jù)不同同步機(jī)制簡(jiǎn)單簡(jiǎn)化指令控制硬件最適于高數(shù)據(jù)并行應(yīng)用向量處理器高度流水線的功能單元數(shù)據(jù)流←→向量寄存器→處理單元數(shù)據(jù)←寄存器←存儲(chǔ)器結(jié)果→寄存器→存儲(chǔ)器例如:MIPS指令集體系結(jié)構(gòu)向量擴(kuò)展增加向量指令和向量寄存器可減少取指帶寬的要求向量與標(biāo)量的對(duì)比向量體系結(jié)構(gòu)和編譯器簡(jiǎn)單的數(shù)據(jù)并行編程明確的無循環(huán)間相關(guān)減少了硬件的檢測(cè)通過避免循環(huán),從而控制上的冒險(xiǎn)比自媒體擴(kuò)展(如:MMX、SSE)更通用與編譯技術(shù)配合更好GPU的歷史早期的視頻卡以幀為單位的顯示緩存3D圖形處理最初用在高端計(jì)算機(jī)上摩爾定律

低費(fèi)用、高密度3D圖形卡用于普通PC機(jī)和游戲終端GPU的歷史圖形處理單元面向3D圖形處理的處理器頂點(diǎn)/像素的處理、渲染、紋理映射、光柵化處理等計(jì)算機(jī)中的圖形系統(tǒng)計(jì)算機(jī)中的圖形系統(tǒng)計(jì)算機(jī)中的圖形系統(tǒng)GPU的體系結(jié)構(gòu)高度數(shù)據(jù)并行處理GPU是高度多線程結(jié)構(gòu)使用線程開關(guān)來隱藏存儲(chǔ)器的延時(shí)顯示緩存數(shù)據(jù)寬度大、傳輸速率高發(fā)展趨勢(shì):通用GPU多種型式的CPU/GPU系統(tǒng)CPU于用于順序代碼的執(zhí)行,GPU用于并行代碼的執(zhí)行GPU的體系結(jié)構(gòu)編程語言/APIDirectX、OpenGLCForGraphics(Cg)、HLSLCUDA(ComputeUnifiedDeviceArchitecture)NVIDIATesla8×流處理器NVIDIATesla流處理器SP單精度浮點(diǎn)運(yùn)算和整數(shù)運(yùn)算每個(gè)SP都是細(xì)粒度多線程Warp:32個(gè)線程一組以SIMD型式并行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論