并行計(jì)算29中科大教案體系結(jié)構(gòu)lec03evaluation

上傳人：湯*** IP屬地：北京上傳時(shí)間：2023-04-25 格式：PPTX 頁(yè)數(shù)：55 大小：449.97KB 積分：20 舉報(bào) 版權(quán)申訴

并行計(jì)算29中科大教案體系結(jié)構(gòu)lec03evaluation_第2頁(yè)

并行計(jì)算29中科大教案體系結(jié)構(gòu)lec03evaluation_第3頁(yè)

并行計(jì)算29中科大教案體系結(jié)構(gòu)lec03evaluation_第4頁(yè)

并行計(jì)算29中科大教案體系結(jié)構(gòu)lec03evaluation_第5頁(yè)

已閱讀5頁(yè)，還剩50頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶(hù)提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ParallelComputerArchitecture

并行計(jì)算機(jī)體系結(jié)構(gòu)

Lecture4OverviewReviewofLec2性能評(píng)測(cè)機(jī)器級(jí)性能評(píng)測(cè)算法級(jí)性能評(píng)測(cè)程序級(jí)性能評(píng)測(cè)ReviewofLec2FundamentalDesignIssuesNaming:Howarelogicallyshareddataand/orprocessesreferenced?Operations:WhatoperationsareprovidedonthesedataOrdering:Howareaccessestodataorderedandcoordinated?Replication:Howaredatareplicatedtoreducecommunication?CommunicationCost:Latency,bandwidth,overhead,occupancySequentialProgrammingmodelSASMessagePassingProgramexampleReviewoflec2(cont’d)MainParallelComputerArchitectureParallelComputingModel同步PRAM異步PRAMBSPLogPOtherissue:同步Moreissues(intextbook1.5)并行化技術(shù)相關(guān)性分析：流相關(guān)反相關(guān)輸出相關(guān)控制相關(guān)并行調(diào)試斷點(diǎn)調(diào)試事件分析重放相關(guān)性分析假定語(yǔ)句Sj繼Si之后執(zhí)行流相關(guān)（flowdependent)：如果從Si到Sj存在執(zhí)行通路，而且Si至少有一個(gè)輸出作為Sj的輸入。反相關(guān)(antidependent)：如果Sj緊接Si，Sj的輸出與Si的輸入重疊。輸出相關(guān)(outputdependent)：如果兩語(yǔ)句能產(chǎn)生統(tǒng)一輸出變量?？刂葡嚓P(guān)(controldependent)：如果語(yǔ)句Sj的執(zhí)行依賴(lài)于語(yǔ)句Si。例子代碼優(yōu)化代碼向量化代碼并行化并行程序的調(diào)試與分析：并行化導(dǎo)致程序語(yǔ)句執(zhí)行次序運(yùn)行不確定無(wú)法通過(guò)運(yùn)行測(cè)試來(lái)保證程序的正確性探針效應(yīng)三種方法：斷點(diǎn)調(diào)試、事件分析、重放靜態(tài)性能分析：模擬分析的方法對(duì)占用時(shí)間較多的程序結(jié)構(gòu)進(jìn)行分析。時(shí)間代價(jià)小。動(dòng)態(tài)性能分析：用硬件獲取運(yùn)行時(shí)數(shù)據(jù)，如有關(guān)CPU性能的參數(shù)、通信模式、訪(fǎng)存模式、同步通信頻率等，或軟件提供諸如并行度、負(fù)載平衡、等待時(shí)間等。國(guó)產(chǎn)曙光并行機(jī) 曙光一號(hào)：SMP,32CPU,<0.1G曙光1000：MPP,36CPU,2G曙光2000：Cluster,26CPU,25G小結(jié)Convergence軟硬件結(jié)合研究的幾個(gè)問(wèn)題：多節(jié)點(diǎn)系統(tǒng)節(jié)點(diǎn)內(nèi)的并行性并行機(jī)的存儲(chǔ)問(wèn)題格點(diǎn)計(jì)算并行計(jì)算模型若干新技術(shù)：光技術(shù)超導(dǎo)計(jì)算機(jī)量子計(jì)算機(jī)分子計(jì)算機(jī)OverviewReviewofLec2性能評(píng)測(cè)機(jī)器級(jí)性能評(píng)測(cè)算法級(jí)性能評(píng)測(cè)程序級(jí)性能評(píng)測(cè)Chapter2性能評(píng)測(cè)主要內(nèi)容什么是并行計(jì)算機(jī)的基本性能?為什么要研究機(jī)器的性能評(píng)測(cè)？如何評(píng)測(cè)計(jì)算機(jī)的性能？如何提高并行系統(tǒng)的性能計(jì)算機(jī)的性能Performance:

通常是指機(jī)器的速度，它是程序執(zhí)行時(shí)間的倒數(shù)。程序執(zhí)行時(shí)間：是指用戶(hù)的響應(yīng)時(shí)間(訪(fǎng)問(wèn)磁盤(pán)和訪(fǎng)問(wèn)存儲(chǔ)器的時(shí)間，CPU時(shí)間，I/O時(shí)間以及操作系統(tǒng)的開(kāi)銷(xiāo))CPU時(shí)間：它表示CPU的工作時(shí)間，不包括I/O等待時(shí)間和運(yùn)行其它任務(wù)的時(shí)間。

CPU性能公式機(jī)器的時(shí)鐘周期為T(mén)C，程序中指令總條數(shù)為IN，執(zhí)行每條指令所需的平均時(shí)鐘周期數(shù)為CPI，則一個(gè)程序在CPU上運(yùn)行的時(shí)間TCPU為：

TCPU=IN×CPI×TC

（2.1）

MIPS(MillionInstructionsPerSecond)MIPS=IN/（TE×106）=RC/（CPI×106

）(2.4)MIPSRel=（TRef/TV

）×MIPSRef

MFLOPS(MillionFloatingPointOperationsPerSecond)MFLOPS=IFN/（TE×106）并行機(jī)的性能指標(biāo)名

稱(chēng)符

號(hào)含

意單

位機(jī)器規(guī)模n處理器的數(shù)目無(wú)量綱時(shí)鐘速率f時(shí)鐘周期長(zhǎng)度的倒數(shù)MHZ工作負(fù)載W計(jì)算操作的數(shù)目Mflop順序執(zhí)行時(shí)間T1程序在單處理機(jī)上的運(yùn)行時(shí)間s（秒）并行執(zhí)行時(shí)間Tn程序在并行機(jī)上的運(yùn)行時(shí)間s（秒）速度Rn=W/Tn每秒百萬(wàn)次浮點(diǎn)運(yùn)算Mflop/s加速Sn=T1/Tn衡量并行機(jī)有多快無(wú)量綱效率En=Sn/n衡量處理器的利用率無(wú)量綱峰值速度Rpeak=nR’

peak所有處理器峰值速度之積，

R’peak為一個(gè)處理器的峰值速度Mflop/s利用率U=Rn/Rpeak可達(dá)速度與峰值速度之比無(wú)量綱通信延遲to傳送0-字節(jié)或單字的時(shí)間Μs漸近帶寬r∞傳送長(zhǎng)消息通信速率MB/s并行機(jī)性能評(píng)測(cè)的意義發(fā)揮并行機(jī)長(zhǎng)處，提高并行機(jī)的使用效率減少用戶(hù)購(gòu)機(jī)盲目性，降低投資風(fēng)險(xiǎn)改進(jìn)系統(tǒng)結(jié)構(gòu)設(shè)計(jì)，提高機(jī)器的性能促進(jìn)軟/硬件結(jié)合，合理功能劃分優(yōu)化“結(jié)構(gòu)-算法-應(yīng)用”的最佳組合提供客觀(guān)、公正的評(píng)價(jià)并行機(jī)的標(biāo)準(zhǔn)如何進(jìn)行并行機(jī)性能評(píng)測(cè)機(jī)器級(jí)性能評(píng)測(cè)：CPU和存儲(chǔ)器的某些基本性能指標(biāo)；并行和通信開(kāi)銷(xiāo)分析；并行機(jī)的可用性與好用性以及機(jī)器成本、價(jià)格與性/價(jià)比算法級(jí)性能評(píng)測(cè)：加速比、效率、擴(kuò)展性程序級(jí)性能評(píng)測(cè)：Benchmark機(jī)器級(jí)性能評(píng)測(cè)CPU的某些基本性能指標(biāo)工作負(fù)載執(zhí)行時(shí)間浮點(diǎn)運(yùn)算數(shù)指令數(shù)目并行執(zhí)行時(shí)間Tcomput

為計(jì)算時(shí)間，Tparo為并行開(kāi)銷(xiāo)時(shí)間，Tcomm為相互通信時(shí)間

Tn=Tcomput+Tparo+Tcomm機(jī)器級(jí)性能評(píng)測(cè)（cont)存儲(chǔ)器的層次結(jié)構(gòu)(C,L,B)估計(jì)存儲(chǔ)器的帶寬RISCaddr1,r2,r3register8bytes100MHzB=3*8*100*106B/s=2.4GB/s機(jī)器級(jí)性能評(píng)測(cè)（cont)并行和通信開(kāi)銷(xiāo)：相對(duì)于計(jì)算很大。

PowerPC(每個(gè)周期15ns執(zhí)行4flops;

創(chuàng)建一個(gè)進(jìn)程1.4ms可執(zhí)行372000flops)開(kāi)銷(xiāo)的測(cè)量：乒--乓方法（Ping-PongScheme）節(jié)點(diǎn)0發(fā)送m個(gè)字節(jié)給節(jié)點(diǎn)1；節(jié)點(diǎn)1從節(jié)點(diǎn)0接收m個(gè)字節(jié)后，立即將消息發(fā)回節(jié)點(diǎn)0。總的時(shí)間除以2，即可得到點(diǎn)到點(diǎn)通信時(shí)間，也就是執(zhí)行單一發(fā)送或接收操作的時(shí)間?？梢话慊癁闊嵬炼狗ǎ℉ot-Potato），也稱(chēng)為救火隊(duì)法（Fire-Brigade)0——1——2——

…

——-n-1——0Ping-PongSchemeif（my_node_id=0）then/*發(fā)送者*/ start_time=second（）

sendanm-bytemessagetonode1 receiveanm-bytemessagefromnode1 end_time=second（）

total_time=end_time–start_timecommunication_time[i]=total_time/2 elseif（my_node_id=1）then/*接收者*/ receiveanm-bytemessagefromnode0 sendanm-bytemessagetonode0 endif并行開(kāi)銷(xiāo)的表達(dá)式：點(diǎn)到點(diǎn)通信Transfertime(n)=T0+n/Busefulformessagepassing,memoryaccess,vectoropsetcAsnincreases,bandwidthapproachesasymptoticrateBHowquicklyitapproachesdependsonT0Sizeneededforhalfbandwidth(half-powerpoint):n1/2=T0Bπ0（MB/S），表示短消息帶寬T0=n1/2/B=1/π0

并行開(kāi)銷(xiāo)的表達(dá)式：整體通信典型的整體通信有：播送（Broadcasting）：處理器0發(fā)送m個(gè)字節(jié)給所有的n個(gè)處理器收集（Gather）：處理0接收所有n個(gè)處理器發(fā)來(lái)在消息，所以處理器0最終接收了mn個(gè)字節(jié)；散射（Scatter）：處理器0發(fā)送了m個(gè)字節(jié)的不同消息給所有n個(gè)處理器，因此處理器0最終發(fā)送了mn個(gè)字節(jié)；全交換（TotalExchange）：每個(gè)處理器均彼此相互發(fā)送m個(gè)字節(jié)的不同消息給對(duì)方，所以總通信量為mn2個(gè)字節(jié)；循環(huán)移位（Circular-shift）：處理器i發(fā)送m個(gè)字節(jié)給處理器i+1，處理器n-1發(fā)送m個(gè)字節(jié)給處理器0，所以通信量為mn個(gè)字節(jié)。

T（m，n）=t0（n）+m/r∞（n）（2.17）SP2機(jī)器整體通信和路障同步開(kāi)銷(xiāo)表達(dá)式整體通信操作表達(dá)式播送52logn+（0.029logn）m收集/散射（17logn+15）+（0.025n-0.02）m全交換80logn+（0.03n1.29）m循環(huán)移位（6logn+60）+（0.003logn+0.04）m路障同步94logn+10RAS可靠性（Reliability）：平均無(wú)故障時(shí)間MTTF（MeanTimeToFail）系指系統(tǒng)失效前平均正常運(yùn)行的時(shí)間；服務(wù)性（Serviceability）:平均修復(fù)時(shí)間MTTR（MeanTimeToRepair）來(lái)度量，系指系統(tǒng)失效后修理恢復(fù)正常工作的時(shí)間可用性（Availability）

Availability=MTTF/（MTTF+MTTR）并行機(jī)的好用性目前的用戶(hù)環(huán)境：遠(yuǎn)程登錄結(jié)合命令行GUI＋X協(xié)議客戶(hù)GUI＋服務(wù)器Web服務(wù)器＋瀏覽器用戶(hù)環(huán)境系統(tǒng)的好用性：靈活、易于擴(kuò)充和集成，單一系統(tǒng)映象SSI（SingleSystemImage）用戶(hù)界面的好用性：實(shí)用性、高效性、易學(xué)習(xí)性、交互性、美觀(guān)性用戶(hù)界面設(shè)計(jì)的理論模型：實(shí)現(xiàn)模型（ImplementationModel），顯示模型（ManifestModel）和概念模型（ConceptualModel）機(jī)器的成本、價(jià)格與性/價(jià)比

機(jī)器的成本與價(jià)格機(jī)器的性能/價(jià)格比Performance/CostRatio：系指用單位代價(jià)（通常以百萬(wàn)美元表示）所獲取的性能（通常以MIPS或MFLOPS表示）利用率（Utilization）：可達(dá)到的速度與峰值速度之比算法級(jí)性能評(píng)測(cè)加速比性能定律并行系統(tǒng)的加速比是指對(duì)于一個(gè)給定的應(yīng)用，并行算法（或并行程序）的執(zhí)行速度相對(duì)于串行算法（或串行程序）的執(zhí)行速度加快了多少倍。Amdahl定律Gustafson定律SunNi定律可擴(kuò)放性評(píng)測(cè)標(biāo)準(zhǔn)等效率度量標(biāo)準(zhǔn)等速度度量標(biāo)準(zhǔn)平均延遲度量標(biāo)準(zhǔn)Amdahl定律P：處理器數(shù)；W：?jiǎn)栴}規(guī)模（計(jì)算負(fù)載、工作負(fù)載，給定問(wèn)題的總計(jì)算量）；Ws：應(yīng)用程序中的串行分量，f是串行分量比例（f=Ws/W，Ws=W1）；WP：應(yīng)用程序中可并行化部分，1-f為并行分量比例；Ws+Wp=W；Ts=T1：串行執(zhí)行時(shí)間，Tp：并行執(zhí)行時(shí)間；S：加速比，E：效率；出發(fā)點(diǎn)：固定不變的計(jì)算負(fù)載；固定的計(jì)算負(fù)載分布在多個(gè)處理器上的，增加處理器加快執(zhí)行速度，從而達(dá)到了加速的目的。Amdahl定律（cont‘d)固定負(fù)載的加速公式：

Ws+Wp可相應(yīng)地表示為f+（1-f）

p→∞時(shí)，上式極限為：S=1/fWo為額外開(kāi)銷(xiāo) Amdahl’slaw(cont’d)Gustafson定律出發(fā)點(diǎn)：對(duì)于很多大型計(jì)算，精度要求很高，即在此類(lèi)應(yīng)用中精度是個(gè)關(guān)鍵因素，而計(jì)算時(shí)間是固定不變的。此時(shí)為了提高精度，必須加大計(jì)算量，相應(yīng)地亦必須增多處理器數(shù)才能維持時(shí)間不變；除非學(xué)術(shù)研究，在實(shí)際應(yīng)用中沒(méi)有必要固定工作負(fù)載而計(jì)算程序運(yùn)行在不同數(shù)目的處理器上，增多處理器必須相應(yīng)地增大問(wèn)題規(guī)模才有實(shí)際意義。

Gustafson加速定律:并行開(kāi)銷(xiāo)Wo：Gustafson定律（cont‘d)Sun和Ni定律基本思想：只要存儲(chǔ)空間許可，應(yīng)盡量增大問(wèn)題規(guī)模以產(chǎn)生更好和更精確的解（此時(shí)可能使執(zhí)行時(shí)間略有增加）。假定在單節(jié)點(diǎn)上使用了全部存儲(chǔ)容量M并在相應(yīng)于W的時(shí)間內(nèi)求解之，此時(shí)工作負(fù)載W=fW+（1-f）W。在p個(gè)節(jié)點(diǎn)的并行系統(tǒng)上，能夠求解較大規(guī)模的問(wèn)題是因?yàn)榇鎯?chǔ)容量可增加到pM。令因子G（p）反應(yīng)存儲(chǔ)容量增加到p倍時(shí)并行工作負(fù)載的增加量，所以擴(kuò)大后的工作負(fù)載W=fW+（1-f）G（p）W。存儲(chǔ)受限的加速公式：并行開(kāi)銷(xiāo)Wo:Sun和Ni定律(cont’d)G（p）=1時(shí)就是Amdahl加速定律；

G（p）=p變?yōu)閒+p（1-f），就是Gustafson加速定律G（p）>p時(shí)，相應(yīng)于計(jì)算機(jī)負(fù)載比存儲(chǔ)要求增加得快，此時(shí)Sun和Ni加速均比Amdahl加速和Gustafson加速為高。加速比討論參考的加速經(jīng)驗(yàn)公式：p/logp≤S≤P線(xiàn)性加速比：很少通信開(kāi)銷(xiāo)的矩陣相加、內(nèi)積運(yùn)算等p/logp的加速比：分治類(lèi)的應(yīng)用問(wèn)題通信密集類(lèi)的應(yīng)用問(wèn)題：S=1/C（p）超線(xiàn)性加速絕對(duì)加速：最佳并行算法與串行算法相對(duì)加速：同一算法在單機(jī)和并行機(jī)的運(yùn)行時(shí)間可擴(kuò)放性評(píng)測(cè)標(biāo)準(zhǔn)并行計(jì)算的可擴(kuò)放性（Scalability）也是主要性能指標(biāo)可擴(kuò)放性最簡(jiǎn)樸的含意是在確定的應(yīng)用背景下，計(jì)算機(jī)系統(tǒng)（或算法或程序等）性能隨處理器數(shù)的增加而按比例提高的能力影響加速比的因素：處理器數(shù)與問(wèn)題規(guī)模求解問(wèn)題中的串行分量并行處理所引起的額外開(kāi)銷(xiāo)（通信、等待、競(jìng)爭(zhēng)、冗余操作和同步等）加大的處理器數(shù)超過(guò)了算法中的并發(fā)程度增加問(wèn)題的規(guī)模有利于提高加速的因素：較大的問(wèn)題規(guī)模可提供較高的并發(fā)度；額外開(kāi)銷(xiāo)的增加可能慢于有效計(jì)算的增加；算法中的串行分量比例不是固定不變的（串行部分所占的比例隨著問(wèn)題規(guī)模的增大而縮?。?。增加處理器數(shù)會(huì)增大額外開(kāi)銷(xiāo)和降低處理器利用率，所以對(duì)于一個(gè)特定的并行系統(tǒng)（算法或程序），它們能否有效利用不斷增加的處理器的能力應(yīng)是受限的，而度量這種能力就是可擴(kuò)放性這一指標(biāo)?？蓴U(kuò)放性評(píng)測(cè)標(biāo)準(zhǔn)（cont‘d)可擴(kuò)放性:調(diào)整什么和按什么比例調(diào)整并行計(jì)算要調(diào)整的是處理數(shù)p和問(wèn)題規(guī)模W，兩者可按不同比例進(jìn)行調(diào)整，此比例關(guān)系（可能是線(xiàn)性的，多項(xiàng)式的或指數(shù)的等）就反映了可擴(kuò)放的程度。并行算法和體系結(jié)構(gòu)可擴(kuò)放性研究的主要目的：確定解決某類(lèi)問(wèn)題用何種并行算法與何種并行體系結(jié)構(gòu)的組合，可以有效地利用大量的處理器；對(duì)于運(yùn)行于某種體系結(jié)構(gòu)的并行機(jī)上的某種算法當(dāng)移植到大規(guī)模處理機(jī)上后運(yùn)行的性能；對(duì)固定的問(wèn)題規(guī)模，確定在某類(lèi)并行機(jī)上最優(yōu)的處理器數(shù)與可獲得的最大的加速比；用于指導(dǎo)改進(jìn)并行算法和并行機(jī)體系結(jié)構(gòu)，以使并行算法盡可能地充分利用可擴(kuò)充的大量處理器目前無(wú)一個(gè)公認(rèn)的、標(biāo)準(zhǔn)的和被普遍接受的嚴(yán)格定義和評(píng)判它的標(biāo)準(zhǔn)等效率度量標(biāo)準(zhǔn)令tie

和tio

分別是并行系統(tǒng)上第i個(gè)處理器的有用計(jì)算時(shí)間和額外開(kāi)銷(xiāo)時(shí)間（包括通信、同步和空閑等待時(shí)間等）Tp

是p個(gè)處理器系統(tǒng)上并行算法的運(yùn)行時(shí)間，對(duì)于任意i顯然有Tp=tie+tio

，且Te+To=pTp問(wèn)題的規(guī)模W為最佳串行算法所完成的計(jì)算量W=Te

如果問(wèn)題規(guī)模W保持不變，處理器數(shù)p增加，開(kāi)銷(xiāo)To增大，效率E下降。為了維持一定的效率（介于0與1之間），當(dāng)處理數(shù)p增大時(shí)，需要相應(yīng)地增大問(wèn)題規(guī)模W的值。由此定義函數(shù)fE（p）為問(wèn)題規(guī)模W隨處理器數(shù)p變化的函數(shù)，為等效率函數(shù)（ISO-efficiencyFunction）（Kumar1987）等效率度量標(biāo)準(zhǔn)（cont‘d)曲線(xiàn)1表示算法具有很好的擴(kuò)放性；曲線(xiàn)2表示算法是可擴(kuò)放的；曲線(xiàn)3表示算法是不可擴(kuò)放的。優(yōu)點(diǎn)：簡(jiǎn)單可定量計(jì)算的、少量的參數(shù)計(jì)算等效率函數(shù)缺點(diǎn)：如果To無(wú)法計(jì)算出等速度度量標(biāo)準(zhǔn)p表示處理器個(gè)數(shù)，W表示要求解問(wèn)題的工作量或稱(chēng)問(wèn)題規(guī)模（在此可指浮點(diǎn)操作個(gè)數(shù)），T為并行執(zhí)行時(shí)間，定義并行計(jì)算的速度V為工作量W除以并行時(shí)間Tp個(gè)處理器的并行系統(tǒng)的平均速度定義為并行速度V除以處理器個(gè)數(shù)p：W是使用p個(gè)處理器時(shí)算法的工作量，令W’表示當(dāng)處理數(shù)從p增大到p’時(shí)，為了保持整個(gè)系統(tǒng)的平均速度不變所需執(zhí)行的工作量，則可得到處理器數(shù)從p到p’時(shí)平均速度可擴(kuò)放度量標(biāo)準(zhǔn)公式等速度度量標(biāo)準(zhǔn)（cont’d）平均延遲度量標(biāo)準(zhǔn)Ti為Pi的執(zhí)行時(shí)間，包括包括延遲Li，Pi的總延遲時(shí)間為“Li+啟動(dòng)時(shí)間+停止時(shí)間”。定義系統(tǒng)平均延遲時(shí)間為pTpara=To+Ts

在p個(gè)處理器上求解工作量為W問(wèn)題的平均延遲在p’個(gè)處理器上求解工作量為W’問(wèn)題的平均延遲當(dāng)處理器數(shù)由p變到p’，而推持并行執(zhí)行效率不變，則定義平均延遲可擴(kuò)放性度量標(biāo)準(zhǔn)為程序級(jí)性能評(píng)測(cè)基準(zhǔn)測(cè)試程序（Benchmark）一組標(biāo)準(zhǔn)的測(cè)試程序提供一組控制測(cè)試條件步驟的規(guī)則說(shuō)明（測(cè)試平臺(tái)環(huán)境、輸入數(shù)據(jù)、輸出結(jié)果和性能指標(biāo)等）基準(zhǔn)測(cè)試程序的分類(lèi)真實(shí)程序：Ccompiler,Texteditor,spice核心程序:Livermore24loops,Linpack小測(cè)試程序:皇后問(wèn)題、排序問(wèn)題、求素?cái)?shù)合成測(cè)試程序:Whetstone、Dhrystone應(yīng)用：科學(xué)計(jì)算、商業(yè)應(yīng)用、網(wǎng)絡(luò)服務(wù)、多媒體應(yīng)用宏觀(guān)測(cè)試程序（Macro-benchmark）：計(jì)算機(jī)系統(tǒng)作為一個(gè)整體來(lái)測(cè)試其性能微觀(guān)測(cè)試程序（Micro-benchmark：測(cè)試機(jī)器的某一特定方面的性質(zhì)BenchmarkSuites程序級(jí)性能評(píng)測(cè)（cont‘d)類(lèi)

型名

稱(chēng)意

義

用

途宏觀(guān)測(cè)試程序PARKBENCH并行計(jì)算NAS并行計(jì)算CFDSPEC混合基準(zhǔn)測(cè)試程序Splash并行計(jì)算STAP信號(hào)處理TPC商業(yè)應(yīng)用微觀(guān)測(cè)試程序LINPACK數(shù)值計(jì)算（線(xiàn)性代數(shù)）LMBECH系統(tǒng)調(diào)用和數(shù)據(jù)移動(dòng)（UNIX）STREAM存儲(chǔ)器帶寬Whetstone和Dhrystone測(cè)試程序Whetstone：浮點(diǎn)性能合成測(cè)試程序最早用Algol-60寫(xiě)成，后用Fortran改寫(xiě)英國(guó)國(guó)立物理實(shí)驗(yàn)室最頻繁使用的數(shù)值計(jì)算程序段。轉(zhuǎn)換到稱(chēng)之為Whetstone虛擬計(jì)算機(jī)上的指令包括整數(shù)運(yùn)算、浮點(diǎn)運(yùn)算，涉及到數(shù)組下標(biāo)索引、子程序調(diào)用、參數(shù)傳遞、條件轉(zhuǎn)移和三角/超越函數(shù)等，使用Kwhetstone/s數(shù)來(lái)度量。Dhrystone測(cè)試整數(shù)與邏輯運(yùn)算性能合成測(cè)試程序用Ada、C和Pascal寫(xiě)成CPU密集（CPU-intensive）型測(cè)試程序，包括很多整型語(yǔ)句與邏輯語(yǔ)句的小循環(huán)，使用KDhrystone/s數(shù)來(lái)度量VAX11/780（1MIPS)的性能為1.7KDhrystone/sWhetstone和Dhrystone的缺點(diǎn)：它們不能預(yù)測(cè)用戶(hù)程序性能，對(duì)編譯程序比較敏感。LINPACK測(cè)試程序機(jī)器名稱(chēng)處理器數(shù)Rmax（Gflops）Nmax（階數(shù)）N1/2（階數(shù)）Rpeak（Gflops）IntelASCIoptionRed7264.1068215，00053，4001，453CP-PACS2048368.2103，68030，720614IntelParagonXP/SMP6768281.1128，60025，700338NumericalWindTunned167229.766，13218，018281FujitsuVpp500/153153200.662，73017，000245CrayT3D10241024100.581，92010，2241521BMSP2-T251288.473，50020，150136NECSX-4/323266.5315，3601，79264Fortran語(yǔ)言求解線(xiàn)性代數(shù)方程組的子程序，于1979年正式發(fā)布了LinPACK包,使用BLAS1測(cè)試的基準(zhǔn)是用全精度64位字長(zhǎng)的子程序求解100階線(xiàn)性方程組的速度，測(cè)試的結(jié)果以MflopsLAPACK測(cè)試程序和ScaLAPACK測(cè)試程序LAPACK:LinPACK作為測(cè)試程序現(xiàn)在仍很有生命力，但作為實(shí)際求解線(xiàn)性代數(shù)問(wèn)題的軟件包已經(jīng)落伍了。1992年推出了代替LinPACK及EisPACK（特征值軟件包）的LAPACK，它使用了數(shù)值線(xiàn)性代數(shù)中最新、最精確的算法，同時(shí)采用了將大型矩陣分解成小塊矩陣的方法,從而可有效地使用存儲(chǔ)器。LAPACK是建立在BLAS1、BLAS2和BLS3基礎(chǔ)上的，其中BLS2執(zhí)行矩陣-向量運(yùn)算，BLS3執(zhí)行矩陣-矩陣運(yùn)算ScaLAPACK:LAPACK的增強(qiáng)版，主要為可擴(kuò)放的、分布存儲(chǔ)的并行計(jì)算機(jī)而設(shè)計(jì)ScaLAPACK支持稠密和帶狀矩陣上各類(lèi)操作，諸如乘法、轉(zhuǎn)置和分解等。在國(guó)際上，ScaLAPACK例程可以加入多個(gè)并行算法，并且可根據(jù)數(shù)據(jù)分布、問(wèn)題規(guī)模和機(jī)器大小選擇這些算法，然而用戶(hù)卻不必關(guān)心這些細(xì)節(jié)LMBENCH和STREAM測(cè)試程序LMBENCHSGI的LarryMcVoy所維護(hù)用于測(cè)試不同Unix平臺(tái)上OS開(kāi)銷(xiāo)以及處理器、高速緩存、主存、網(wǎng)絡(luò)和磁盤(pán)之間數(shù)據(jù)傳輸能力STREAMSGI的JohnMcCalpin所維護(hù)。測(cè)試可持續(xù)的存儲(chǔ)帶寬（MB/s）及其相應(yīng)的計(jì)算速率迭代地執(zhí)行4種向量操作屬

性IntelAlderSunUltraIBM990帶寬（MB/s）存儲(chǔ)器復(fù)制5285242文件讀5285187管道（pipe）386184TCP205110延遲（μs）存儲(chǔ)器讀0.280.270.26文件生成23，80918，18113，333管道1016291TCP305162332系統(tǒng)開(kāi)銷(xiāo)（μs）空系統(tǒng)調(diào)用7516進(jìn)程生成4，5003，7001，200現(xiàn)場(chǎng)交換361413并行基準(zhǔn)測(cè)試程序NPB測(cè)試程序NAS（NumericalAerodynamicSimulation）ParallelBenchmark8個(gè)程序組成，測(cè)試范圍從整數(shù)排序到復(fù)雜的數(shù)值計(jì)算EPMGCGFTISLUSPBTPARKBENCH測(cè)試程序PARallelKernelsandBENCHmarks目前分布存儲(chǔ)的多計(jì)算機(jī)編寫(xiě)，使用Fortran77加上PVM或MPI底層基準(zhǔn)程序、核心基準(zhǔn)程序、密集應(yīng)用基準(zhǔn)程序、HPF編譯基準(zhǔn)程序STAP測(cè)試程序Space-TimeAdaptiveProcessingAPT（AddtiveProcessingTestbed）、HO-PD（High-OrderPost-Doppler）、BM-stag（BeamSpacePRI-StaggeredPostDoppler）、EL-stag（ElementSpacePRI-StaggeredPostDoppler）、GEN（General）商用基準(zhǔn)測(cè)試程序TPCTransactionProcessingPerformanceCouncilTPC已發(fā)布了4個(gè)基準(zhǔn)測(cè)試程序，TPC-A和TPC-B于1995年6月廢棄；TPC-C用于測(cè)試事務(wù)處理系統(tǒng)的性能與價(jià)格/性能比；而TPC-D測(cè)試決策支持系統(tǒng)的性能。TPC-C是目前最流行的在線(xiàn)事務(wù)處理（OLTP）商用基準(zhǔn)測(cè)試程序，能模擬一個(gè)大公司的整個(gè)銷(xiāo)售環(huán)境（倉(cāng)庫(kù)、區(qū)域、用戶(hù)、定單、各種事務(wù)的比例、響應(yīng)時(shí)間）性能結(jié)果tpmC：描述了系統(tǒng)在執(zhí)行Payment、Order-status、Delivery、Stock-Level這四種交易的同時(shí)，每分鐘可以處理多少個(gè)New-Order交易。所有交易的響應(yīng)時(shí)間必須滿(mǎn)足TPC-C測(cè)試規(guī)范的要求。流量指標(biāo)值越大越好。和價(jià)格/性能結(jié)果＄/tpmC：性?xún)r(jià)比越小越好各廠(chǎng)商的TPC-C測(cè)試結(jié)果都按TPC組織規(guī)定的兩種形式發(fā)布：測(cè)試結(jié)果概要(ExecutiveSummary)和詳細(xì)測(cè)試報(bào)告(FullDisclosureReport)。測(cè)試結(jié)果概要中描述了主要的測(cè)試指標(biāo)、測(cè)試環(huán)境示意圖以及完整的系統(tǒng)配置與報(bào)價(jià)，而詳細(xì)測(cè)試報(bào)告中除了包含上述內(nèi)容外，還詳細(xì)說(shuō)明了整個(gè)測(cè)試環(huán)境的設(shè)置與測(cè)試過(guò)程TPC-C允許被測(cè)系統(tǒng)放大和縮小，但終端數(shù)和數(shù)據(jù)庫(kù)規(guī)模也必須按比例調(diào)整SPEC測(cè)試程序StandardPerformanceEvaluationCooperation第一組基準(zhǔn)程序叫作SPEC89，包含10個(gè)程序；SPEC92擴(kuò)充至20個(gè)程序，6個(gè)整數(shù)程序和

人人文庫(kù)> 全部分類(lèi)> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

并行計(jì)算29中科大教案體系結(jié)構(gòu)lec03evaluation

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

并行計(jì)算29中科大教案體系結(jié)構(gòu)lec03evaluation

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔