高性能計算發(fā)展概述_第1頁
高性能計算發(fā)展概述_第2頁
高性能計算發(fā)展概述_第3頁
高性能計算發(fā)展概述_第4頁
高性能計算發(fā)展概述_第5頁
已閱讀5頁,還剩65頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

高性能計算及應(yīng)用任課教師王云嵐EMAIL:wangyl@

趙天海EMAIL:zhaoth@nwpu.高性能計算研究與發(fā)展中心辦公室:勇字樓3樓 電話:88493434(O)2課程目標掌握高性能計算編程工具,解決相關(guān)問題課程主要內(nèi)容:介紹高性能計算系統(tǒng)體系結(jié)構(gòu)、高性能并行程序程序設(shè)計方法及高性能計算技術(shù)最新方向。主要包括:高性能處理機、多處理機系統(tǒng);集群計算系統(tǒng)、Linux集群系統(tǒng)配置方法,集群資源管理與作業(yè)調(diào)度,多線程編程及性能優(yōu)化等;并行編程程序工具:OpenMP、MPI、CUDA、MapReduce等。交流平臺2013年高性能計算課程qq群:158463721作業(yè)高性能計算相關(guān)研究熱點的技術(shù)報告云計算CPU/GPU技術(shù)虛擬化…實驗報告集群環(huán)境構(gòu)建并行應(yīng)用編程:MPI,openMP,Cuda…高性能計算及應(yīng)用課程1:高性能計算發(fā)展概述課程內(nèi)容提綱應(yīng)用需求計算機體系結(jié)構(gòu)的發(fā)展高性能計算的核心技術(shù):并行計算并行編程的重要性應(yīng)用需求

Highperformancecomputing高性能計算與科研,產(chǎn)業(yè)…——需求與意義基礎(chǔ)科研領(lǐng)域的計算需求物理化學生物材料工業(yè)領(lǐng)域的需求銀行輔助設(shè)計醫(yī)藥石油氣象在線服務(wù)信息安全傳統(tǒng)的科學研究difficult,例如建造大型風洞expensive,例如建造樣機slow,例如等待氣候的變化,天體的演化dangerous,例如武器開發(fā),藥品,大氣試驗,電力系統(tǒng)分析基于計算科學的科學研究物理原理和數(shù)值方法理論分析設(shè)計試驗富有挑戰(zhàn)性的計算問題遍及科學與工程的各個領(lǐng)域ScienceGlobalclimatemodelingAstrophysicalmodelingBiology:genomics;proteinfolding;drugdesignComputationalChemistryComputationalMaterialSciencesandNanosciencesEngineeringCrashsimulationSemiconductordesignEarthquakeandstructuralmodelingComputationfluiddynamics(airplanedesign)Combustion(enginedesign)OilfieldapplicationsBusinessFinancialandeconomicmodelingTransactionprocessing,webservicesandsearchenginesDefenseNuclearweapons--testbysimulationsCryptographyUnitsofHighPerformanceComputing計算能力存儲能力全球氣候模擬計算問題:f(經(jīng)度,緯度,海拔,時間)

溫度,氣壓,適度,風速做法:域的離散化分解,10公里解析度(Discretizethedomain,e.g.,ameasurementpointevery10km)給定時間t設(shè)計算法預(yù)測t+dt的天氣(Deviseanalgorithmtopredictweatherattimet+dtgivent)應(yīng)用:主要事件預(yù)測(Predictmajorevents,e.g.,ElNino)用于確定大氣散射標準(Useinsettingairemissionsstandards)大氣環(huán)流模擬需求解Navier-Stokes方程1分鐘時間間隔100個浮點運算/網(wǎng)格點對計算的需求為確保時效需1分鐘執(zhí)行5x1011flops= 8Gflop/s以天為單位的7天天氣預(yù)報需要

56Gflop/s以月為單位的50年氣候預(yù)測需要 4.8Tflop/s以12小時為單位的50年預(yù)測 288Tflop/s如果提高網(wǎng)格解析度則計算復(fù)雜性將呈8x,16x增加更高的精確預(yù)測模型則需要綜合考慮大氣,海洋,冰川,陸地,加上地球化學等因素千年氣候模型分析目前無法對此進行有效計算全球氣候模擬高性能計算已經(jīng)成為復(fù)雜系統(tǒng)工程的必備手段航空高性能計算領(lǐng)域高端需求主要集中在CAE領(lǐng)域氣動力計算結(jié)構(gòu)計算氣動彈性分析多學科設(shè)計優(yōu)化飛行載荷計算隱身設(shè)計計算穩(wěn)定性和操縱計算需求飛行仿真其他高性能計算需求數(shù)字化裝配數(shù)字樣機主要特點計算能力vs計算規(guī)模先導性研究vs工程應(yīng)用超音速巡航大攻角機動武器系統(tǒng)內(nèi)埋式發(fā)射CFD終極目標:虛擬飛行試驗虛擬風洞(CFD)設(shè)計經(jīng)驗風洞試驗虛擬飛行試驗計算設(shè)備/用戶/內(nèi)容Today2015Source:IDF2012大數(shù)據(jù)現(xiàn)象“Dataarebecomingthenewrawmaterialofbusiness:aneconomicinputalmostonaparwithcapitalandlabor”

—TheEconomist,2010“Informationwillbethe‘oilofthe21stcentury”

—Gartner,2010Source:IDF20122015CloudVisionCoexistenceofOpportunitiesandChallengesSource:IDF2012TrendstoExascalePerformanceRoughly10xperformanceevery4years,predictsthatwe’llhitExascaleperformancein2018-19Source:IDF2012計算機體系結(jié)構(gòu)的發(fā)展計算機體系結(jié)構(gòu)的發(fā)展趨勢體系結(jié)構(gòu)的改進將技術(shù)創(chuàng)新轉(zhuǎn)變?yōu)橛嬎銠C的處理性能計算機體系結(jié)構(gòu)歷史:電子管、晶體管、集成電路、大規(guī)模集成電路超大規(guī)模集成電路(VeryLargeScaleIntegration)的發(fā)展階段可以看做為并行處理的探索過程并行處理是提高計算機處理性能的核心技術(shù)體系結(jié)構(gòu)的發(fā)展:并行方法的探索GreatesttrendinVLSIgenerationisincreaseinparallelism1970-1985:位級并行(bitlevelparallelism)

4-bit->8bit->16-bitslowsafter32bitadoptionof64-bitnowunderway,128-bitfar(notperformanceissue)80年代中期to90年代中期:指令級別并行(instructionlevelparallelism)pipeliningandsimpleinstructionsets,+compileradvances(RISC)on-chipcachesandfunctionalunits=>superscalarexecutiongreatersophistication:outoforderexecution,speculation,predictiontodealwithcontroltransferandlatencyproblemsNow:線程級并行(threadlevelparallelism)VLSI三個階段Threephases:Bit-levelInstruction-levelThread-levelVLSITechnologyTrendsIntelannouncedthattheyhavereach1.7billionwithItaniumprocessorGigascaleIntegration(GSI)=1billiontransistorsperchip/~jeff/ece4420/technology.pdf單處理器的性能增長變化VAX:25%/year1978to1986RISC+x86:52%/year1986to2002RISC+x86:??%/year2002topresent處理器功耗發(fā)展的趨勢不在提供時鐘頻率,而轉(zhuǎn)變?yōu)槊總€芯片的CPU數(shù)量風冷芯片最大功耗的瓶頸RecentIntelProcessors“Wearededicatingallofourfutureproductdevelopmenttomulticoredesigns.Webelievethisisakeyinflectionpointfortheindustry.”IntelPresidentPaulOtellini,IDF2005ProcessorsYearFabrication(nm)Clock(GHz)Power(W)Pentium420001801.80-4.0035-115PentiumM200390/1301.00-2.265-27Core2Duo2006652.60-2.9010-65Core2Quad2006652.60-2.9045-105Corei7(Quad)2008452.93-3.6095-130Corei5(Quad)2009453.20-3.6073-95PentiumDual-Core2010452.80-3.3365-130Corei3(Duo)2010322.93-3.3318-732ndGeni3(Duo)2011322.50-3.4035-652ndGeni5(Quad)2011323.10-3.8045-952ndGeni7(Quad/Hexa)2011323.80-3.9065-1303rdGeni3(Duo)201222/322.80-3.4035-553rdGeni5(Quad)201222/323.20-3.8035-773rdGeni7(Quad/Hexa)201222/323.70-3.9045-77XeonE5(8-cores)2013221.80-2.9060-130XeonPhi(60-cores)2013221.10300Intel'sManyCoreandMulti-coreIntel80-coreTeraScaleProcessor(Vangaletal.2008)億級處理器developedasolver(singleprecision)forthischipthatranat1TFLOPwithonly97WattsSource:TimMattson,IntelLabsTrendsareputtingallontoonechipThefuturebelongstoheterogeneous,manycoreSOCasthestandardbuildingblockofcomputingSOC=systemonachipSource:TimMattson,IntelLabs集群系統(tǒng)的發(fā)展趨勢Large-ScaleComputingSystems大規(guī)模集群計算系統(tǒng)Franklin(NERSC-5):CrayXT49,532computenodes;38,128coresEachnodehasanAMDquadcoreprocessor and8GBofmemory~25Tflop/sonapplications;352Tflop/speakHPSSArchivalStorage40PBcapacity4TapelibrariesNERSCGlobalFilesystem(NGF)UsesIBM’sGPFS1.5PB;5.5GB/sClusters105TflopstotalCarverIBMiDataplexclusterPDSF(HEP/NP)Linuxcluster(~1Kcores)MagellanCloudtestbedIBMiDataplexclusterAnalyticsEuclid(512GBsharedmemory)DiracGPUtestbed(48nodes)Hopper(NERSC-6):CrayXE6Phase1:CrayXT5,668nodes,5344coresPhase2:>1Pflop/speak(2sockets/node,12cores/socket)Tianhe-I(A)6,144computenodes;24576cores2560AMDRadeonHD4870*2GPU98TBmemoryintotalRpeak:4.700pflops;Rmax:2.566pflopsJaguar:(CrayXT5)224,256x86-basedAMDOpteronprocessorcoresRpeak:2.331pflops;Rmax:1.759pflops西工大高性能計算中心高性能集群設(shè)備浪潮天梭TS10000NX5440刀片計算節(jié)點浪潮TS10KClusters計算能力:73Tflopstotal153計算刀片3MIC加速節(jié)點4GPU加速節(jié)點并行存儲179TB光纖存儲系統(tǒng)40TBLinux操作系統(tǒng)集群的基本組成光纖存儲系統(tǒng)管理、登錄、IO節(jié)點計算節(jié)點并行存儲Top10listinJune2012RankSiteComputer1DOE/NNSA/LLNL

UnitedStatesSequoia-BlueGene/Q,PowerBQC16C1.60GHz,Custom

IBM2RIKENAdvancedInstituteforComputationalScience(AICS)

JapanKcomputer,SPARC64VIIIfx2.0GHz,Tofuinterconnect

Fujitsu3DOE/SC/ArgonneNationalLaboratory

UnitedStatesMira-BlueGene/Q,PowerBQC16C1.60GHz,Custom

IBM4LeibnizRechenzentrum

GermanySuperMUC-iDataPlexDX360M4,XeonE5-26808C2.70GHz,InfinibandFDR

IBM5NationalSupercomputingCenterinTianjin

ChinaTianhe-1A-NUDTYHMPP,XeonX56706C2.93GHz,NVIDIA2050

NUDT6DOE/SC/OakRidgeNationalLaboratory

UnitedStatesJaguar-CrayXK6,Opteron627416C2.200GHz,CrayGeminiinterconnect,NVIDIA2090

CrayInc.7CINECA

ItalyFermi-BlueGene/Q,PowerBQC16C1.60GHz,Custom

IBM8ForschungszentrumJuelich(FZJ)

GermanyJuQUEEN-BlueGene/Q,PowerBQC16C1.60GHz,Custom

IBM9CEA/TGCC-GENCI

FranceCuriethinnodes-BullxB510,XeonE5-26808C2.700GHz,InfinibandQDR

Bull10NationalSupercomputingCentreinShenzhen(NSCS)

ChinaNebulae-DawningTC3600BladeSystem,XeonX56506C2.66GHz,InfinibandQDR,NVIDIA2050

Dawning2011年6月,我國進入Top500的高性能計算機2NationalSupercomputingCenterinTianjinNUDTProprietaryProprietary4NationalSupercomputingCentreinShenzhen(NSCS)DawningInfinibandInfinibandQDR33InstituteofProcessEngineering,ChineseAcademyofSciencesIPE,Nvidia,TyanInfinibandInfinibandQDR40ShanghaiSupercomputerCenterDawningInfinibandInfinibandDDR82ComputerNetworkInformationCenter,ChineseAcademyofScienceLenovoInfinibandInfiniband97TsinghuaUniversityInspurInfinibandInfinibandQDR143NetworkCompanyIBMGigabitEthernetGigabitEthernet164InternetServiceIBMGigabitEthernetGigabitEthernet199WebCompany(C)Hewlett-PackardGigabitEthernetGigabitEthernet201InternetServiceIBMGigabitEthernetGigabitEthernet202InternetServiceIBMGigabitEthernetGigabitEthernetIPE:中國科學院過程工程研究所(原化工冶金研究所)RankSiteSystemCoresRmax(TFlop/s)Rpeak(TFlop/s)Power(kW)10NationalSupercomputingCentreinShenzhen(NSCS)

ChinaNebulae-DawningTC3600BladeSystem,XeonX56506C2.66GHz,InfinibandQDR,NVIDIA2050

Dawning1206401271.02984.3258026NationalSupercomputingCenterinJinan

ChinaSunwayBlueLight-SunwayBlueLightMPP,ShenWeiprocessorSW1600975.00MHz,InfinibandQDR

NationalResearchCenterofParallelComputerEngineering&Technology137200795.91070.2107437InstituteofProcessEngineering,ChineseAcademyofSciences

ChinaMole-8.5-Mole-8.5Cluster,XeonX55204C2.27GHz,InfinibandQDR,NVIDIA2050

IPE,Nvidia,Tyan29440496.51012.654094ShanghaiSupercomputerCenter

ChinaMagicCube-Dawning5000A,QCOpteron1.9Ghz,Infiniband,WindowsHPC2008

Dawning30720180.6233.5122Government

ChinaSunway4000HCluster,XeonX56xx(Westmere-EP)2.93GHz,InfinibandQDR

NationalResearchCenterofParallelComputerEngineering&Technology14280145.6167.4127ResearchCenter

ChinaClusterPlatformSL250sGen8,XeonE5-26608C2.200GHz,InfinibandFDR,NVIDIA2090

Hewlett-Packard8064135.4270.7132InternetService

ChinaxSeriesx3650Cluster,XeonE56496C2.530GHz,GigabitEthernet

IBM23316131.4236.0707.32012年6月,我國進入TOP500的部分超級計算機/sublistTOP500(2011年6月)中的集群

星群系統(tǒng)(Constellations)包含了一個超大容量交換系統(tǒng),可以同時管理數(shù)千個計算引擎之間的高速數(shù)據(jù)傳輸;大規(guī)模并行機(MPP):由許多松耦合的處理單元組成,每個單元內(nèi)的CPU都有自己私有的資源,如總線,內(nèi)存,硬盤等,每個處理單位只有一個微內(nèi)核;集群(Cluster):每個節(jié)點有完整的操作系統(tǒng)。2012年6月數(shù)據(jù),TOP500中有407套系統(tǒng)為ClusterArchitectureCountShare%RmaxSum(GF)RpeakSum(GF)ProcessorSumConstellations20.40%9497011294717648MPP8717.40%19293725255504292984630Cluster41182.20%39541331595165734777646Totals500100%58930025.5985179949.007779924Top500國家分布TOP500過去19年體系結(jié)構(gòu)演化TOP500過去19年體系結(jié)構(gòu)演化2013年6月,cluster

417,MPP

83

從TOP500看集群系統(tǒng)在高性能計算領(lǐng)域,集群系統(tǒng)已經(jīng)成為主流的系統(tǒng)結(jié)構(gòu),并將進一步擴大其所占份額在Top500中,集群結(jié)構(gòu)占了絕對大多數(shù),說明在構(gòu)建超大規(guī)模計算系統(tǒng)的時候,集群是主要的系統(tǒng)構(gòu)成方式集群系統(tǒng)的發(fā)展趨勢64位系統(tǒng)逐漸成為主流多種商業(yè)化的高速互連網(wǎng)絡(luò)SAN系統(tǒng)作為集群的存儲設(shè)備64位:突破2GB的系統(tǒng)內(nèi)存瓶頸科學計算大規(guī)模模擬應(yīng)用三維網(wǎng)格模擬應(yīng)用所需的內(nèi)存可以輕易突破2GB生物信息學基因拼接等應(yīng)用需要大量的內(nèi)存,實際應(yīng)用中內(nèi)存不足是主要問題之一素數(shù)運算需要用到大量64位整數(shù)運算和大內(nèi)存商業(yè)應(yīng)用海量數(shù)據(jù)處理DBinmemory媒體播放服務(wù)器大內(nèi)存高內(nèi)存帶寬減少訪問磁盤次數(shù),可將性能提高近一個數(shù)量級64位:突破2GB的系統(tǒng)內(nèi)存瓶頸64位:新的設(shè)計理念引發(fā)新的設(shè)計理念現(xiàn)有的很多算法是基于內(nèi)存不足設(shè)計的,因此很多精力花費在用時間換取空間上64位系統(tǒng)提供了訪問更大內(nèi)存的機會,因此很多應(yīng)用可能要基于新的理念進行設(shè)計,以獲得64位所帶來的好處64位:不是萬能靈藥并非所有用戶都需要現(xiàn)在就轉(zhuǎn)向64位代碼膨脹,性能反而可能會下降需要根據(jù)自己的應(yīng)用特性來分析是否需要2GB以上的內(nèi)存是否有大量64位整數(shù)運算如果上述問題的答案都是否,那么不一定能夠從64位系統(tǒng)中得到預(yù)期的好處某些應(yīng)用可以從特定的64位處理器獲得很大的性能提高,但這不是64位本身的特性,而是依賴于特定處理器,需要具體分析實際情況集群系統(tǒng)的互連網(wǎng)絡(luò)評價互連網(wǎng)絡(luò)的指標延遲帶寬功能支持價格集群系統(tǒng)的互連網(wǎng)絡(luò)InterconnectInterfaceMPILatency(us)Uni-directionalBandwidth(MB/s)說明GBEtherPCI~30-50100最便宜MyrinetPCI-X6248SCIPCI1.4326延遲最小QuadricsIIIPCI5340InfiniBand4xPCI-X7.5805帶寬最高集群系統(tǒng)的互連網(wǎng)絡(luò)功能支持都支持MPI,除GBEthernet外都實現(xiàn)了高效率的通信協(xié)議SCI和Quadrics還提供了共享內(nèi)存的支持,但是其遠程通信延遲仍然在us數(shù)量級,對于細粒度的共享內(nèi)存程序,仍然無法很好地支持(對比SGIAltrix系列的遠程訪問延遲在200ns以下)集群系統(tǒng)所面臨的挑戰(zhàn)能耗問題不僅僅是集群系統(tǒng)的問題從芯片,單機和集群系統(tǒng)等多個層次來共同解決這個問題管理性監(jiān)控自我修復(fù)管理信息的過濾與提取分區(qū)ExecutionisnotjustabouthardwareModernprogrammerdoesnotseeassemblylanguageManydonotevensee“l(fā)ow-level”languageslike“C”什么是并行編程?WhyparallelprogrammingWhatisParallelComputing?Traditionally,softwarehasbeenwrittenforserialcomputationToberunonasinglecomputerhavingasingleCentralProcessingUnit(CPU)AproblemisbrokenintoadiscreteseriesofinstructionsInstructionsareexecutedoneafteranotherOnlyoneinstructionmayexecuteatanymomentintimeForexample:發(fā)工資程序ParallelComputing同時使用多個計算資源來處理一個計算任務(wù)ToberunusingmultipleCPUsAproblemisbrokenintodiscretepartsthatcanbesolvedconcurrentlyEachpartisfurtherbrokendowntoaseriesofinstructionsInstructionsfromeachpartexecutesimultaneouslyondifferentCPUsExampleExampleThecomputeresourcesmightbeAsinglecomputerwithmultipleprocessorsAnarbitrarynumberofcomputersconnectedbyanetworkAcombinationofbothThecomputationalproblemshouldbeabletoBebrokenapartintodiscretepiecesofworkthatcanbesolvedsimultaneouslyExecutemultipleprograminstructionsatanymomentintimeBesolvedinlesstimewithmultiplecomputeresourcesthanwithasinglecomputeresource加速比Goalofapplicationsinusingparallelmachines:SpeedupForafixedproblemsize(inputdataset),performance=1/time并行編程的重要性WhyparallelprogrammingNowwecanget:single-sourceapproachtomulti-andmany-coreSource:IDF2012However,the

ParallelizingCompilersAfter30yearsofintensiveresearchonlylimitedsuccessi

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論