版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
5-10不需別人用pthread_join清理門戶,自己了斷了。由于線程也占用資源,如果你不設(shè)置成為detach狀態(tài),那么當(dāng)你的線程推出后,你必須執(zhí)行
pthread_join調(diào)用才能釋放這些被占用的資源,如果設(shè)置成detach狀態(tài),線程再推出后將自動(dòng)釋放自己占用的資源
這些占用的資源不包括使用malloc分配的內(nèi)存和ipc資源
5-39其實(shí)函數(shù)的執(zhí)行過(guò)程非常簡(jiǎn)單,在第一個(gè)線程執(zhí)行到pthread_cond_wait(&cond,&mut)時(shí),此時(shí)如果X<=Y,則此函數(shù)就將mut互斥量解鎖,再將cond條件變量加鎖,此時(shí)第一個(gè)線程掛起(不占用任何CPU周期)。
而在第二個(gè)線程中,本來(lái)因?yàn)閙ut被第一個(gè)線程鎖住而阻塞,此時(shí)因?yàn)閙ut已經(jīng)釋放,所以可以獲得鎖mut,并且進(jìn)行修改X和Y的值,在修改之后,一個(gè)IF語(yǔ)句判定是不是X>Y,如果是,則此時(shí)pthread_cond_signal()函數(shù)會(huì)喚醒第一個(gè)線程,并在下一句中釋放互斥量mut。然后第一個(gè)線程開(kāi)始從pthread_cond_wait()執(zhí)行,首先要再次鎖mut,如果鎖成功,再進(jìn)行條件的判斷(至于為什么用WHILE,即在被喚醒之后還要再判斷,后面有原因分析),如果滿足條件,則被喚醒進(jìn)行處理,最后釋放互斥量mut。
至于為什么在被喚醒之后還要再次進(jìn)行條件判斷(即為什么要使用while循環(huán)來(lái)判斷條件),是因?yàn)榭赡苡小绑@群效應(yīng)”。有人覺(jué)得此處既然是被喚醒的,肯定是滿足條件了,其實(shí)不然。如果是多個(gè)線程都在等待這個(gè)條件,而同時(shí)只能有一個(gè)線程進(jìn)行處理,此時(shí)就必須要再次條件判斷,以使只有一個(gè)線程進(jìn)入臨界區(qū)處理。6-20Sectionsaredistributedamongthethreadsintheparallelteam.Eachsectionisexecutedonlyonceandeachthreadmayexecutezeroormoresections.It’snotpossibletodeterminewhetherornotasectionwillbeexecutedbeforeanother.Therefore,theoutputofonesectionshouldnotserveastheinputtoanother.Instead,thesectionthatgeneratesoutputshouldbemovedbeforethesectionsconstruct.6-22DataScopeAttributesAlldataclausesapplytoparallelregionsandworksharingconstructsexcept“shared,”whichonlyappliestoparallelregions.6-23PrivateCauseFor-loopiterationvariableisPRIVATEbydefault.6-29AtomicConstructSinceindex[i]canbethesamefordifferentIvalues,theupdatetoxmustbeprotected.Useofacriticalsectionwouldserializeupdatestox.Atomicprotectsindividualelementsofxarray,sothatifmultiple,concurrentinstancesofindex[i]aredifferent,updatescanstillbedoneinparallel.7-4We’vealreadydefinedspeeduptobethesequentialexecutiontimedividedbytheparallelexecutiontime.Wejustpluginthenumeratorandthedenominatorfromthepreviousslide.Sincethevalueinthedenominatorisalowerbound,thequotient(i.e.,thespeedup)isanupperbound.7-2首先我們介紹一下為什么要使用gpu進(jìn)行計(jì)算,gpu計(jì)算比傳統(tǒng)的cpu計(jì)算好在哪里。然后是gpu的基本架構(gòu),然后介紹一下有哪些常用的調(diào)用gpu的方法。后兩部分使我們的重點(diǎn),首先介紹一下cuda的編程模型,這一章有4個(gè)小節(jié),講到這的時(shí)候再細(xì)說(shuō)。然后就是怎么用cuda編程,我們?cè)谶@里介紹一些基本的編程方法,還有一些比較高級(jí)的用法,如果有時(shí)間的話就將,沒(méi)時(shí)間的話,大家看一下文檔。7-3三個(gè)整數(shù)數(shù)組,我們想要計(jì)算A[i]+B[i]然后將結(jié)果存入C[i]中,我們首先看一下傳統(tǒng)的編程方法7-4這是一個(gè)傳統(tǒng)的做法,需要迭代N次,時(shí)間復(fù)雜度O(N)。在這個(gè)循環(huán)中,我們發(fā)現(xiàn),A[i]+B[i]和A[i-1]+B[i-1]是沒(méi)有關(guān)系的。這就意味著這些運(yùn)算是可以并行處理的。這時(shí)候我們就可以用多線程。7-6一些大型的應(yīng)用程序,例如計(jì)算化學(xué),用來(lái)計(jì)算分子間是如何相互作用的,還有天氣和氣候的模擬程序,等等一些其它的大型程序,它們要處理的數(shù)據(jù)量都是百萬(wàn),上億級(jí)別的數(shù)據(jù)。需要數(shù)千個(gè)線程同時(shí)執(zhí)行,這已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了cpu的負(fù)載能力。而且操作系統(tǒng)也不支持。我們需要一個(gè)專門的硬件來(lái)處理這種大規(guī)模的數(shù)據(jù)。而gpu正是一個(gè)非常好的選擇。因?yàn)間pu本來(lái)是為游戲設(shè)計(jì)的,而游戲中最多的操作就是圖像的矩陣運(yùn)算,而且是大規(guī)模的矩陣運(yùn)算,和我們要處理的數(shù)據(jù)非常類似,因此gpu也就有了另外一個(gè)功能,用于高性能計(jì)算。英偉達(dá)也開(kāi)發(fā)了cuda用于gpu編程。下面介紹一下gpu的基本架構(gòu)。7-8一個(gè)cpu可以有2個(gè),4個(gè),8個(gè),甚至更多個(gè)核,cpu可以做任何類型的計(jì)算,串行的,并行的,各種IO操作,能夠進(jìn)行指令預(yù)取,指令流水,分支預(yù)測(cè),亂序執(zhí)行等等一些其它的功能,在同樣的芯片面積上,gpu去掉了一些cpu中的功能,或者簡(jiǎn)化了一些cpu中的功能,取而代之的是更多的計(jì)算核心,一個(gè)gpu一般都含有幾千個(gè)核,能夠同時(shí)運(yùn)行10000個(gè)線程,因此,GPU是專門用來(lái)處理大規(guī)模的計(jì)算密集型程序。這些程序能夠高度的并行化。運(yùn)行在gpu上會(huì)獲得非常高的加速比。7-9這個(gè)是英偉達(dá)特斯拉顯卡核心GP100的架構(gòu)圖,這個(gè)核心由6個(gè)GPC組成,這些概念不重要,了解一下就行。每個(gè)GPC包含5個(gè)TPC,每個(gè)TPC包含2個(gè)SM單元,這里面最重要的就是SM概念。整個(gè)gp100核心包含了60個(gè)SM單元,這里展示的是一個(gè)完整的gp100核心,總共包含60個(gè)SM單元,不同的產(chǎn)品可能會(huì)有不同個(gè)數(shù)的SM單元。對(duì)于gp100核心的產(chǎn)品,最多是60個(gè)SM單元。下面詳細(xì)介紹一下SM單元。7-10每一個(gè)sm單元被分成了兩個(gè)處理器塊,每個(gè)處理器塊包含了32個(gè)單精度CUDA核(圖中綠色方塊)、一個(gè)指令緩存、一個(gè)warp調(diào)度(后面會(huì)介紹warp的概念)、兩個(gè)指令分發(fā)單元8個(gè)ld/st單元,用來(lái)計(jì)算訪存地址,8個(gè)sfu單元,specialfunctionunit,特殊函數(shù)單元,例如cos,sin,平方根等等。合起來(lái)一個(gè)SM單元里總共包含64個(gè)單精度浮點(diǎn)cuda核心,因此,也就有32個(gè)雙精度浮點(diǎn)cuda核心。整個(gè)gp100核心總過(guò)有3840個(gè)單精度和1920個(gè)雙精度cuda核心。一個(gè)gp100核心,它的雙精度浮點(diǎn)的峰值運(yùn)算速度為5300GFLOPs。以上是gp100核心的一個(gè)簡(jiǎn)單介紹,更詳細(xì)的架構(gòu)信息可以再官方的白皮書(shū)中找到,在百度上搜pascal-architecture-whitepaper7-11下面我們介紹一下三種不同的調(diào)用gpu的方法7-12這是三種常用的調(diào)用gpu的方法,cudaoptimizedlibraries,openacc,programminglanguages,下面我們?cè)敿?xì)的介紹一下7-13為了讓gpu能夠被廣泛的應(yīng)用,英偉達(dá)用cuda重新編寫(xiě)了一些常用的庫(kù)函數(shù),例如BLAS(BasicLinerAlgebraSubprograms基本線性代數(shù)程序,FFTW(FastFourierTransformintheWest)快速傅里葉變換程序,等等一些其它的數(shù)學(xué)函數(shù)庫(kù),雖然英偉達(dá)重寫(xiě)了這些函數(shù)庫(kù),但是他們沒(méi)有修改這些函數(shù)的調(diào)用接口,因此我們不需要要修改源程序,只需要在編譯程序時(shí)告訴編譯器使用cuda數(shù)學(xué)函數(shù)庫(kù),而不是普通的數(shù)學(xué)函數(shù)庫(kù)。這樣我們編譯出來(lái)的程序就能調(diào)用gpu了。這種方法是最簡(jiǎn)單的,但同時(shí)也是限制最多的,因?yàn)楹芏鄷r(shí)候我們要做的計(jì)算不是一個(gè)數(shù)學(xué)函數(shù)就能解決的。所以這種方法非常有局限性,但是如果你的程序中需要用到數(shù)學(xué)函數(shù),可以考慮使用cuda的數(shù)學(xué)函數(shù)庫(kù)。這個(gè)不是我們的重點(diǎn)。7-14openacc是一個(gè)基于預(yù)編譯指令的編程模型,我們需要在代碼中插入一些openacc的預(yù)編譯指令來(lái)指導(dǎo)編譯器進(jìn)行并行化處理,因此,我們需要專門的編譯器,openacc來(lái)編譯程序??匆幌伦筮叺睦?,源程序就是一個(gè)簡(jiǎn)單的for循環(huán)結(jié)構(gòu)。我們?nèi)绻胱屵@個(gè)循環(huán)并行執(zhí)行呢,就需要插入圖中的那些預(yù)編譯指令,openacc會(huì)自動(dòng)的對(duì)這些結(jié)構(gòu)進(jìn)行并行化處理。這種方法比較實(shí)用于那些已經(jīng)完成的代碼,如果用cuda將這些代碼重寫(xiě)一遍,會(huì)非常的耗時(shí)耗力,那么通過(guò)openacc這種自動(dòng)化的并行處理,能夠省去很多的人力物力。但是這種方法只適用于一些簡(jiǎn)單的結(jié)構(gòu),對(duì)于復(fù)雜的結(jié)構(gòu),例如dowhile循環(huán),openacc就無(wú)能為力了,只能靠人來(lái)進(jìn)行手工并行化了。這個(gè)也不是我們的重點(diǎn)。7-15cuda支持的編程語(yǔ)言很多,第一個(gè)是cuda對(duì)Fortran語(yǔ)言的擴(kuò)展,雖然Fortran語(yǔ)言很古老,比你們熟悉的C語(yǔ)言還要早10幾年,但是在科學(xué)計(jì)算領(lǐng)域,fortran一直都被廣泛地應(yīng)用著。第二個(gè)是對(duì)腳本語(yǔ)言python的擴(kuò)展,在科學(xué)計(jì)算領(lǐng)域應(yīng)用的比較少,第三個(gè)是opencl,opencl是為異構(gòu)編程而設(shè)計(jì)的,什么是異構(gòu)編程呢,假如我們有多個(gè)計(jì)算設(shè)備,例如cpu,英偉達(dá)的gpu,或者是amd的gpu,如何將這些設(shè)備統(tǒng)一起來(lái)呢,opencl便提供了一個(gè)標(biāo)準(zhǔn),這個(gè)標(biāo)準(zhǔn)規(guī)定了軟硬件api的規(guī)范,但它不提供具體的實(shí)現(xiàn),每個(gè)廠商根據(jù)這個(gè)規(guī)范來(lái)編寫(xiě)具體的實(shí)現(xiàn)代碼。程序員只需要調(diào)用統(tǒng)一的api就行,不同的設(shè)備會(huì)調(diào)用不同的實(shí)現(xiàn)來(lái)完成。第四個(gè)是cuda對(duì)C和C++的擴(kuò)展。我們后面只講如何利用c和c++進(jìn)行cuda編程。其它的有興趣的可以自己去看。7-17在這一章,我們會(huì)介紹cudacc++的編程模型。首先我們介紹一下cuda編程時(shí)需要用到哪些軟硬件環(huán)境,然后在介紹cuda程序的執(zhí)行過(guò)程,cpu和gpu之間是如何協(xié)同工作的。然后我們?cè)敿?xì)講一下cuda中線程的概念,以及和線程相關(guān)的一些其它重要的概念,這些都是和后面的編程緊密相關(guān)的。在這一章的最后,我們介紹一下cuda的內(nèi)存模型,訪存的速度一直都是程序的瓶頸,要想寫(xiě)出高效的程序,就一定要了解設(shè)備的存儲(chǔ)結(jié)構(gòu),充分的利用cache,提高程序的效率。7-18要想利用cuda進(jìn)行編程,首先,你要有一塊英偉達(dá)的顯卡,AMD的不行,cuda不支持。這塊顯卡可以是專門的gpu計(jì)算顯卡,例如我們前面介紹的TeslaPascalGP100,不過(guò)這種專門計(jì)算的顯卡一般都非常貴,普通用戶是買不起的,普通用戶買來(lái)也沒(méi)什么用,這種gpu計(jì)算卡一般都是給高性能計(jì)算的集群使用的。但這并不意味著我們不能用cuda編程了,普通用戶可以利用英偉達(dá)的游戲顯卡來(lái)進(jìn)行cuda編程,例如我們筆記本里面的GT系列的顯卡,還有更好的GTX系列的顯卡都可以用來(lái)進(jìn)行g(shù)pu編程,但是一些太老的顯卡呢,就不行了。如果你想看一下你的顯卡是否支持cuda編程,可以上這個(gè)網(wǎng)站,然后點(diǎn)擊cuda-enabledgeforceproducts,如果在里面找到了你的顯卡型號(hào),那么你的顯卡就可以用來(lái)cuda編程。7-19利用cuda編程,我們需要安裝cudatoolkit,這個(gè)軟件包會(huì)為我們安裝一些cuda程序編譯,運(yùn)行會(huì)用到的庫(kù),它還會(huì)更新顯卡驅(qū)動(dòng),以便能夠運(yùn)行cuda程序。如果你的操作系統(tǒng)是windows的話,要想編譯cuda程序,你可能還要安裝visualstudio,vs是對(duì)cuda支持最好的ide。如果你不想安裝vs,你也可以直接從命令行調(diào)用cuda的編譯器nvcc。Nvcc.exe可能沒(méi)在你默認(rèn)的系統(tǒng)路徑里面,你需要自己找到nvcc.exe的位置,一般在它的安裝目錄下都能找到。如果是在linux平臺(tái)的話,安裝完cudatoolkit之后,可以在終端里直接敲命令nvcc來(lái)編譯cuda程序。7-21一個(gè)cuda程序主要是由兩部分組成,串行部分和并行部分。串行部分在cpu上執(zhí)行,并行部分在gpu上執(zhí)行。大多數(shù)時(shí)候,我們稱cpu為host,gpu為device。串行部分主要進(jìn)行邏輯控制,例如if語(yǔ)句,switch語(yǔ)句,還有輸入輸出,包括讀取數(shù)據(jù),向屏幕顯示信息。并行部分最主要的工作就是是計(jì)算。例如矩陣相乘。Cuda程序在運(yùn)行的過(guò)程中,普通指令就在cpu上執(zhí)行,當(dāng)遇到cuda指令時(shí),便將代碼和數(shù)據(jù)發(fā)送到gpu上,然后調(diào)用gpu進(jìn)行進(jìn)行計(jì)算。Gpu計(jì)算完成后,返回到cpu中,cpu繼續(xù)執(zhí)行。這個(gè)過(guò)程和普通的函數(shù)調(diào)用沒(méi)有什么區(qū)別,只不過(guò)被調(diào)用的函數(shù)是在gpu上執(zhí)行的。這是一個(gè)大致的cuda程序的執(zhí)行過(guò)程,下面我們看一下具體是如何工作的。7-22當(dāng)cpu要調(diào)用gpu進(jìn)行計(jì)算時(shí),首先要將程序和數(shù)據(jù)拷貝到gpu的內(nèi)存中。因?yàn)镚pu在進(jìn)行計(jì)算時(shí),需要從自己的內(nèi)存中讀數(shù)據(jù)。因?yàn)間pu是通過(guò)pcie接口和cpu相連的,如果gpu直接從cpu的內(nèi)存中讀數(shù)據(jù),需要不斷的通過(guò)pcie來(lái)進(jìn)行數(shù)據(jù)傳輸。這個(gè)過(guò)程消耗的時(shí)間要遠(yuǎn)大于我們直接將數(shù)據(jù)拷貝到gpu內(nèi)存的時(shí)間。而且也會(huì)造成gpu要等待數(shù)據(jù)這樣的時(shí)間浪費(fèi)。因此,我們需要現(xiàn)將數(shù)據(jù)通過(guò)pcie拷貝到gpu的內(nèi)存中,然后進(jìn)行計(jì)算。7-23準(zhǔn)備好數(shù)據(jù)之后,cpu發(fā)送指令,命令gpu開(kāi)始進(jìn)行計(jì)算,計(jì)算時(shí),gpu就不需要和cpu進(jìn)行通信了。直接在自己的內(nèi)存中讀寫(xiě)數(shù)據(jù)。7-24Gpu計(jì)算完之后,便將結(jié)果從自己的內(nèi)存中拷貝到cpu內(nèi)存中。具體的執(zhí)行過(guò)程會(huì)在后面體現(xiàn)出來(lái)。下面我們進(jìn)入cuda編程中最重要的一部分,cudathreads。7-25與傳統(tǒng)的cpu線程相比,cuda線程更加的輕量化,能夠快速的創(chuàng)建幾千個(gè)線程,并且能夠快速地進(jìn)行上下文切換,因此,盡量讓cuda線程做計(jì)算工作,讓cpu做邏輯工作。7-26在介紹cudathreads之前,先普及以下cudakernel地概念.程序中可以并行執(zhí)行地部分成為cudakernel,一般情況下,cudakernel都是一個(gè)函數(shù),函數(shù)里面時(shí)可以并行執(zhí)行地代碼。Cpu調(diào)用這個(gè)函數(shù),函數(shù)里面地cudaapi便在gpu上執(zhí)行。Gpu上所有地線程都執(zhí)行相同地代碼,但是可以選擇不同地路徑,比如遇到分支語(yǔ)句,可能偶數(shù)線程和奇數(shù)線程執(zhí)行地時(shí)不同地代碼。和cpu線程一樣,每個(gè)cuda線程都有一個(gè)唯一地標(biāo)識(shí)。右圖是一個(gè)簡(jiǎn)單的cudakernel例子。我們有四個(gè)線程,threadIdx.x表示每個(gè)線程地id,首先在輸入數(shù)組中取出數(shù)據(jù),0號(hào)線程取得第0號(hào)數(shù)據(jù),1號(hào)線程取得第1號(hào)數(shù)據(jù),依次類推。每個(gè)線程調(diào)用func函數(shù)來(lái)處理數(shù)據(jù),然后將結(jié)果存到輸出數(shù)組的相應(yīng)位置。這是一個(gè)簡(jiǎn)單的例子,我們只用到了四個(gè)進(jìn)程,真正運(yùn)行在gpu上的程序都會(huì)用到幾百個(gè),上千個(gè)線程。為了高效地管理這些線程,Cuda采用了層次化的管理方式。7-27首先將線程分為warp,每32個(gè)線程分為一個(gè)warp,一個(gè)warp是cuda任務(wù)調(diào)度,程序執(zhí)行的最小單元。AwarpinCUDA,then,isagroupof32threads,whichistheminimumsizeofthedataprocessedinSIMDfashionbyaCUDAmultiprocessor.但是在編程時(shí),我們不需要考慮warp。我們需要考慮的是blocks。一個(gè)或者多個(gè)warps構(gòu)成了一個(gè)block7-28程序執(zhí)行時(shí),至少使用一個(gè)warp,既32個(gè)線程。這是cuda里最小的調(diào)度和執(zhí)行單位。如果你的程序連32線程都不到,那么cpu完全能滿足你的需求,不需要將程序遷移到gpu上,這樣反而會(huì)使程序運(yùn)行變慢。在一個(gè)warp里面的線程的線程號(hào)是連續(xù)遞增的。但是我們編程時(shí)并不會(huì)直接操作warp,我們操作的是block。7-29一個(gè)block內(nèi)的線程可以通過(guò)共享內(nèi)存來(lái)進(jìn)行數(shù)據(jù)交換和同步操作,也可以通過(guò)調(diào)用同步api來(lái)進(jìn)行同步。相比之下,通過(guò)共享內(nèi)存來(lái)同步會(huì)更快一些。由于硬件資源的限制呢,一個(gè)線程塊最多可以包含1024個(gè)線程每個(gè)線程塊內(nèi)的新城id都是從0開(kāi)始的。并且在這個(gè)線程塊內(nèi)是唯一的7-30一個(gè)或多個(gè)block構(gòu)成了一個(gè)grid。具體包含多少個(gè)block,是在編程時(shí)指定的,每個(gè)block里包含多少個(gè)線程也是在編程時(shí)指定的,但必須是32的整數(shù)倍。因?yàn)閎lock是由warp組成的。當(dāng)我們提交一個(gè)kernel到gpu上運(yùn)行時(shí),需要指定一個(gè)grid里包含多少個(gè)block,一個(gè)block里包含多少個(gè)thread。然后整個(gè)kernel被當(dāng)作一個(gè)grid載入到gpu上運(yùn)行。好了,到現(xiàn)在我們已經(jīng)了解了cudakernel,線程,線程塊,grid,這些概念了,那么接下來(lái)我們看一個(gè)更加具體的kernel的執(zhí)行過(guò)程。7-31當(dāng)我們向gpu提交了一個(gè)kernel時(shí),這個(gè)kernel被看做是一個(gè)grid,假設(shè)我們指定Grid里面有8個(gè)block,如果你的GPU含有兩個(gè)SM單元,向SM單元分配任務(wù)時(shí),都是直接將一個(gè)block分配給一個(gè)SM單元。那么在這個(gè)例子里面,每個(gè)SM單元會(huì)被分配4個(gè)block,每個(gè)SM單元中的block順序執(zhí)行。而不同SM單元中的block并行執(zhí)行。Block0和block1就是并行執(zhí)行的。7-32如果我們有4個(gè)SM單元,每個(gè)SM單元執(zhí)行兩個(gè)block,每個(gè)SM單元內(nèi)的block順序執(zhí)行。我們知道block是由warp組成的,那么這些warp是如何執(zhí)行的呢?7-33先回憶一下SM單元的結(jié)構(gòu)。一個(gè)SM單元里包含了兩個(gè)warp調(diào)度器,每個(gè)warp調(diào)度器又有兩個(gè)指令分發(fā)單元,每個(gè)warp調(diào)度器還對(duì)應(yīng)著32個(gè)單精度的浮點(diǎn)cuda核。當(dāng)一個(gè)SM單元被分配了一個(gè)block執(zhí)行時(shí),7-34當(dāng)一個(gè)block在SM單元上運(yùn)行時(shí),它首先被分解成多個(gè)warp,然后warp調(diào)度器來(lái)決定哪個(gè)warp可以執(zhí)行。一個(gè)SM單元每次可以同時(shí)執(zhí)行兩個(gè)warp,當(dāng)一個(gè)warp被調(diào)度運(yùn)行時(shí),warp中的所有線程都會(huì)執(zhí)行同一個(gè)指令,如果執(zhí)行到一條分支指令的話,分支指令的所有路徑都會(huì)被順序執(zhí)行,不符合當(dāng)前路徑的線程會(huì)處于阻塞狀態(tài)。我們看一下下面的例子,7-36如果我們的kernel中有一段代碼,用來(lái)區(qū)別偶數(shù)進(jìn)程和奇數(shù)進(jìn)程。那么這段代碼會(huì)在block中差生兩個(gè)執(zhí)行路徑,一個(gè)用來(lái)執(zhí)行奇數(shù)進(jìn)程,一個(gè)用來(lái)執(zhí)行偶數(shù)進(jìn)程,如下圖所示7-37假設(shè)warp里面有8個(gè)線程,這8個(gè)線程執(zhí)行上面的代碼,從開(kāi)始執(zhí)行到分支語(yǔ)句之前,這8個(gè)進(jìn)程每次都是執(zhí)行相同的指令,但是當(dāng)執(zhí)行到分支語(yǔ)句的時(shí)候,就出現(xiàn)問(wèn)題了,這個(gè)if語(yǔ)句一共有兩個(gè)分支,它首先執(zhí)行第一個(gè)分支,既偶數(shù)進(jìn)程分支,那么這8個(gè)進(jìn)程中一共有4個(gè)進(jìn)程符合次分支,因此,這4個(gè)進(jìn)程首先執(zhí)行,而另外4個(gè)進(jìn)程則等待。當(dāng)這4個(gè)進(jìn)程執(zhí)行結(jié)束后。再執(zhí)行第二個(gè)分支,既奇數(shù)進(jìn)程分支,這時(shí),另外4個(gè)處于等待的進(jìn)程開(kāi)始執(zhí)行,而首先執(zhí)行的那4個(gè)進(jìn)程則進(jìn)入等待狀態(tài)。當(dāng)奇數(shù)進(jìn)程執(zhí)行完后,這8個(gè)進(jìn)程再同時(shí)執(zhí)行后面的指令。這中情況會(huì)造成50%的性能損失。那么如何避免呢。7-38這段代碼依然會(huì)在block產(chǎn)生兩個(gè)分支,但是與前一個(gè)不同的是,同一個(gè)warp內(nèi)的線程,它們會(huì)選擇相同的路徑,這樣在一個(gè)warp內(nèi),就不產(chǎn)生branchdivergence了。當(dāng)然了,實(shí)際情況可能不會(huì)這么簡(jiǎn)單,我們可能還需要改變?cè)械臄?shù)據(jù)結(jié)構(gòu)和算法,這些都需要根據(jù)實(shí)際情況來(lái)定。但是我們遵循的一個(gè)原則是,讓warp內(nèi)的線程做同樣的工作。以上便是cuda線程的所有內(nèi)容了。下面我們介紹cuda的內(nèi)存模型7-39與傳統(tǒng)的cpu線程相比,cuda線程更加的輕量化,能夠快速的創(chuàng)建幾千個(gè)線程,并且能夠快速地進(jìn)行上下文切換,因此,盡量讓cuda線程做計(jì)算工作,讓cpu做邏輯工作。7-40GPU的全局內(nèi)存是GPU的主要的存儲(chǔ)器,之所以是全局的,主要是因?yàn)镚PU與CPU都可以對(duì)它進(jìn)行寫(xiě)操作。任何設(shè)備都可以通過(guò)PCI-E總線對(duì)其進(jìn)行訪問(wèn)。全局內(nèi)存的功能類似于C語(yǔ)言程序中的堆。cudaMalloc()hastwoparameters:AddressofapointertotheallocatedobjectSizeofallocatedobjectintermsofbytesTheaddressofthepointervariableshouldbecastto(void**)becausethefunctionexpectsagenericpointer;thememoryallocationfunctionisagenericfunctionthatisnotrestrictedtoanyparticulartypeofobjectscudaFree()hasoneparameter:Pointertofreedobject7-41Oncethehostcodehasallocateddevicememoryforthedataobjects,itcanrequestthatdatabetransferredfromhosttodevice.ThisisaccomplishedbycallingoneoftheCUDAAPIfunctions,cudaMemory().PleasenotecudaMemcpycurrentlycannotbeusedtocopybetweendifferentGPU’sinmultiGPUsystems右圖是CPU和GPU之間傳輸關(guān)系圖,可以看出來(lái),CPU和GPU之前傳輸速度相對(duì)很差。GPU和GPUmemory傳輸速度要快得多,所以,對(duì)于編程來(lái)說(shuō),要時(shí)刻考慮減少CPU和GPU之間的數(shù)據(jù)傳輸。7-42常量?jī)?nèi)存其實(shí)是全局內(nèi)存的一種虛擬地址形式,并沒(méi)有特殊保留的常量?jī)?nèi)存塊。常量?jī)?nèi)存有幾個(gè)特性,第一個(gè)是高速緩存,第二個(gè)時(shí)只讀,第三個(gè)是它支持將單個(gè)值廣播到線程束中的每個(gè)線程。常量?jī)?nèi)存的大小比較小,一般被限制為64KB。常量?jī)?nèi)存的聲明方式有兩種,一種是在編譯時(shí)聲明,需要用到“__constant__”關(guān)鍵字;另一種是在運(yùn)行時(shí)通過(guò)主機(jī)端定義為只讀內(nèi)存,使用cudaMemcpyToSymbol函數(shù)。7-43textureMemory駐留在deviceMemory中,并且使用一個(gè)只讀cache(per-SM)。textureMemory實(shí)際上也是globalMemory在一塊,但是他有自己專有的只讀cache。這個(gè)cache在浮點(diǎn)運(yùn)算很有用。textureMemory是針對(duì)2D或3D空間局部性的優(yōu)化策略,所以thread要獲取2D或3D數(shù)據(jù)就可以使用textureMemory來(lái)達(dá)到很高的性能.Globalmemory沒(méi)有Cache,訪問(wèn)速度很慢,Sharedmemory訪問(wèn)速度很快,但是容量很小,對(duì)于較大的數(shù)組,將其綁定至texturememory往往是個(gè)不錯(cuò)的選擇。Texturememory可以cache,而且容量很大。7-44Sharedmemory可以用于block內(nèi)線程之間的數(shù)據(jù)共享。Sharedmemory實(shí)際上是可受用戶控制的一級(jí)緩存。每個(gè)SM中的一級(jí)緩存與Sharedmemory共享一個(gè)64KB的內(nèi)存段。其訪問(wèn)速度僅次于registers,延遲較低。需要注意的是SM=Streamingmultiprocessor而不是SharedMemory。Sharedmemoryisanefficientmeansforthreadstocooperatebysharingtheirinputdataandintermediateresults.Canallocatesharedmemorystatically(sizeknownatcompiletime)ordynamically(sizenotknownuntilruntime)each“__’’consistsoftwo“_’’characters.Onecanalsoaddanoptional“__device__”infrontof“__shared__”inthedeclarationtoachievethesameeffect.7-45這里是計(jì)算強(qiáng)度的計(jì)算方法,所謂的計(jì)算強(qiáng)度,就是浮點(diǎn)計(jì)算次數(shù)/IO次數(shù),就是平均每個(gè)數(shù)據(jù)所參與的浮點(diǎn)計(jì)算操作的次數(shù)。當(dāng)計(jì)算強(qiáng)度>1時(shí),說(shuō)明每個(gè)數(shù)據(jù)參與超過(guò)一個(gè)浮點(diǎn)計(jì)算。這種情況下,就需要盡量使用sharedmemoryload,來(lái)減少訪存延遲。7-46這兩種內(nèi)存屬于不能操作的內(nèi)存,是由一套自動(dòng)機(jī)制來(lái)達(dá)到很好的性能。7-47這里我們對(duì)CUDA內(nèi)存模型進(jìn)行總結(jié)。包括每一類內(nèi)存的位置、訪問(wèn)權(quán)限、變量的生存周期等。其中registers和localmemory是由編譯器控制和分配(Non-programmable),而shared,global,constant和texturememory可受程序員控制(Programmable)。Registers和local是On-chip內(nèi)存,Loal,global,constant,和texturememory是設(shè)備內(nèi)存。7-48下面我們開(kāi)始將cuda編程的基本語(yǔ)法,其實(shí)和c語(yǔ)言的語(yǔ)法一樣,只是增加了一些cuda的api,7-49在這一章,我們只介紹一些基本的cuda編程的api,以及一些特殊內(nèi)存的使用方法。7-50我們看第一個(gè)例子,數(shù)組求和。有兩個(gè)數(shù)組,a,b,將他們對(duì)應(yīng)的元素相加,然后將結(jié)果存入c中。右圖所示的是一個(gè)傳統(tǒng)的單線程的編程方法。這是一個(gè)簡(jiǎn)單串行的例子,可以看到程序中做主要工作的是add函數(shù),并行化的工作也就集中在了add函數(shù)上。我們首先考慮一個(gè)雙核的cpu,如何讓兩個(gè)核同時(shí)工作呢。7-51其中一個(gè)方法是,一個(gè)核處理奇數(shù)索引的數(shù)據(jù),另一個(gè)核處理偶數(shù)索引的數(shù)據(jù)。這兩個(gè)代碼只是兩個(gè)例子,實(shí)際寫(xiě)多線程代碼時(shí)是不一樣。如果我們需要處理的數(shù)據(jù)量太大了,需要用到幾千個(gè)核,這時(shí),我們需要將這個(gè)代碼改成cuda程序了。7-52我們首先看一下main函數(shù)要如何修改。我們先說(shuō)一下大致過(guò)程,cudaapi的具體信息后面再介紹。首先是定義三個(gè)數(shù)組,然后時(shí)三個(gè)指針,每個(gè)指針都以dev開(kāi)頭,很明顯這三個(gè)指針是要在gpu上用到的。不是一定要以dev開(kāi)頭,只要符合c語(yǔ)言命名規(guī)則的都可以,以dev開(kāi)頭是為了和cpu上的變量區(qū)分開(kāi)。下一條語(yǔ)句,很明顯是cudaapi了,一般情況下cudaapi都會(huì)以cuda開(kāi)頭。這個(gè)api是用來(lái)在gpu上開(kāi)辟內(nèi)存空間的。A,b,c這三個(gè)數(shù)組不僅在cpu上會(huì)用到,在gpu上也會(huì)用到,因此我們也需要在gpu上開(kāi)辟空間,要注意的是于c語(yǔ)言的malloc不同,cuda的malloc函數(shù)需要多傳遞一個(gè)指針的指針最為參數(shù),具體語(yǔ)言后面會(huì)說(shuō)到。為b,c數(shù)組開(kāi)辟空間的語(yǔ)句直接省略了。下一條語(yǔ)句是初始化,初始化只需要做一次就行,既可以在cpu上完成初始化,也可以在gpu上完成初始化。如果在gpu上初始化會(huì)更快一些,但是這不是我們關(guān)注的地方。所以我們?cè)赾pu上完成初始化。在cpu上完成初始化之后,我們需要將數(shù)據(jù)拷貝到gpu中,cudamemcpy就是用來(lái)再cpu和gpu之間傳遞數(shù)據(jù)的,最后一個(gè)參數(shù)是用來(lái)指定傳輸方向的,從cpu到gpu或者從gpu到cpu。下一條語(yǔ)句就是告訴gpu要再gpu上執(zhí)行哪個(gè)函數(shù)。我們這個(gè)例子中是add函數(shù)。我們前面講過(guò)一個(gè)kernel被當(dāng)作一個(gè)grid來(lái)執(zhí)行。現(xiàn)在呢,add函數(shù)就是一個(gè)kernel,尖括號(hào)里的內(nèi)容就是grid的大小,第一個(gè)參數(shù)N指定了一個(gè)grid有多少個(gè)block,第二個(gè)參數(shù)1指定了每個(gè)block里有幾個(gè)線程。雖然我們指定了每個(gè)block里有一個(gè)線程,但是由于warp是執(zhí)行和調(diào)度的最小單元,因此,每個(gè)SM單元還是會(huì)開(kāi)啟32個(gè)線程,只不過(guò),32個(gè)線程只有一個(gè)做真正的任務(wù),其余的一直處于等待狀態(tài)。這里我們指定每個(gè)block里有一個(gè)線程只是一個(gè)例子,你們寫(xiě)真正的cuda代碼時(shí)千萬(wàn)不要這樣寫(xiě),盡量讓每個(gè)block里的線程數(shù)能被32整除。在下一條語(yǔ)句是將結(jié)果從gpu拷貝到cpu中。最后一條語(yǔ)句是釋放gpu上的空間,b,c也要釋放,我這里注釋掉了。下面我們看一下這幾個(gè)cudaapi的具體使用方法。7-53C語(yǔ)言中的malloc函數(shù)會(huì)返回一個(gè)指針,但是因?yàn)閏uda的api全都會(huì)返回一個(gè)錯(cuò)誤碼,所以只能傳遞一個(gè)指針的指針,用來(lái)存儲(chǔ)開(kāi)辟的內(nèi)存空間的地址。如果只有__device__修飾符,表明了這個(gè)函數(shù)只能在gpu上調(diào)用,并且只能運(yùn)行在gpu上,如果只有一個(gè)__host__修飾符,表明這個(gè)函數(shù)只能在cpu上調(diào)用和執(zhí)行。7-54在gpu上運(yùn)行add函數(shù)時(shí)需要加幾個(gè)尖括號(hào),這幾個(gè)尖括號(hào)被稱為executionconfiguration。Dg,db,都是3維數(shù)據(jù)結(jié)構(gòu),dg指明了grid的三個(gè)維度的大小,db指明了block三個(gè)維度的大小,Ns指明了每個(gè)block使用的共享內(nèi)存是多少,這是一個(gè)可選參數(shù),默認(rèn)是0。S指明了與這個(gè)kernel相關(guān)的cudastream是什么,默認(rèn)是0,cudastream是比較高級(jí)的內(nèi)容,我們不會(huì)講到,感興趣的可以自己在網(wǎng)上查一下。我們重點(diǎn)看一下dim3這個(gè)類型,我們?cè)谡{(diào)用add函數(shù)時(shí),只傳遞了兩個(gè)整形變量,N和1.這時(shí)候,編譯器會(huì)自動(dòng)將這兩個(gè)整型變量轉(zhuǎn)換成兩個(gè)dim3類型變量,分別代表grid和block的維度,grid的x維賦予N,其它兩個(gè)維度都是1,block的x維度賦予1,其它兩個(gè)維度都是1.如果我們不想讓其它兩個(gè)維度是一,可以用下面的代碼。7-55聲明兩個(gè)dim3的變量,然后對(duì)它們的各個(gè)維度分別賦值。7-56Cudamemcpy只有一個(gè)host修飾符,意味著這個(gè)cuda函數(shù)只能在cpu端調(diào)用。它不僅能在cpu和gpu之間傳遞數(shù)據(jù),還能在cpu內(nèi)存上進(jìn)行數(shù)據(jù)復(fù)制,也能在gpu內(nèi)存上進(jìn)行數(shù)據(jù)復(fù)制。只要指定傳輸?shù)姆较蚣纯?。下面我們看一下add函數(shù)是如何定義的。7-57我們看到add函數(shù)定義的時(shí)候多了一個(gè)__global__修飾符,global修飾符表明了這個(gè)函數(shù)要在gpu上執(zhí)行,但是可以在cpu上調(diào)用。一般kernel函數(shù)都要加上__global__修飾符。使用global修飾符對(duì)函數(shù)也有一些要求。首先,global函數(shù)的返回值必須是void,其次,在調(diào)用global函數(shù)的地方必須指明它的executionconfiguration。最后,global函數(shù)的調(diào)用是異步的,意思是,一旦我們將這個(gè)函數(shù)交給gpu執(zhí)行后,調(diào)用語(yǔ)句馬上返回,不會(huì)等到gpu執(zhí)行完才返回。我們看一下add函數(shù)內(nèi)部。7-58Add函數(shù)里用到了一個(gè)變量blockIdx.x,這是由cuda定義的全局變量,指明了當(dāng)前線程所屬的block的索引,除了blockidx.x外,還有blockidx.y和blockidx.z,分別指明了x,y,z這三個(gè)維度的索引。除了blockidx還有threadidx,指明了當(dāng)前thread在block內(nèi)的索引。同樣也有三個(gè),分別是threadidx.x,threadidx.y,threadidx.z。在我們這個(gè)例子里面呢,grid只有一維,其它兩個(gè)維度的大小都是一。而每個(gè)block里只有一個(gè)線程,所以blockidx.x的索引就相當(dāng)于是線程的索引了。Add函數(shù)很簡(jiǎn)單,對(duì)于小于N的線程做加法操作。為什么寫(xiě)小于N呢,雖然我們可以肯定tid不會(huì)超過(guò)N,但是有可能由于我們的疏忽tid超過(guò)N了,這會(huì)在gpu上造成數(shù)組訪問(wèn)越界。如果你確定不會(huì)超過(guò)N,也可以不加這個(gè)判斷。這一節(jié)到這里就介紹完了,下面我們講一下如何使用gpu的共享內(nèi)存和同步操作。7-62下面我們?cè)敿?xì)的講一下這個(gè)過(guò)程,假設(shè)我們由N個(gè)線程,兩個(gè)數(shù)組x,y的大小都是N*M,這兩個(gè)數(shù)組都是一維數(shù)組。這N個(gè)線程每次可以同時(shí)處理N組數(shù)據(jù),我們一共有N*M組數(shù)據(jù),總共需要M次迭代。第一次迭代,這N個(gè)線程分別處理的是x1*y1,x2*y2一直到xN*yN。第二次迭代就是從xN+1*yN+1開(kāi)始,一直到x2N*y2N。每個(gè)進(jìn)程迭代M次,迭代結(jié)束后,再將每個(gè)進(jìn)程的累加和加起來(lái),得到最后的結(jié)果。下面我們看一下具體的代碼怎么寫(xiě)。7-63首先看一下main函數(shù)的結(jié)構(gòu),這是前半部分的代碼,一直到調(diào)用點(diǎn)乘函數(shù)。N代表了數(shù)據(jù)規(guī)模,blockspergrid表示grid里由多少個(gè)block,threadperblock表示每個(gè)block里由多少個(gè)thread。Main函數(shù)的結(jié)構(gòu)呢和我們上一個(gè)數(shù)組相加的結(jié)構(gòu)是一樣的,不同的是這個(gè)例子中的C數(shù)組的大小并不是N,而是blockspergrid,后面會(huì)講到為什么是這個(gè),我們先看一下dot函數(shù)的結(jié)構(gòu)7-64前面講過(guò),cuda會(huì)為每個(gè)block來(lái)分配一塊共享內(nèi)存,block里的所有線程共享這塊內(nèi)存,因此,在dot函數(shù)的開(kāi)頭,我們?yōu)閎lock里的每一個(gè)線程申請(qǐng)了一個(gè)共享內(nèi)存,共享內(nèi)存的總大小為threadsperblock。下一步是要計(jì)算線程的全局id,threadidx表示的是當(dāng)前線程在block內(nèi)的索引,我們?nèi)?shù)據(jù)時(shí)需要用到當(dāng)前thread在整個(gè)grid中的索引是多少,blockdim.x表示block的x維度的大小。整個(gè)計(jì)算過(guò)程就相當(dāng)于將二維數(shù)組的坐標(biāo)轉(zhuǎn)換成一維數(shù)組一樣,我們這里就不再說(shuō)了。下一個(gè)是cacheindex,表示當(dāng)前線程在共享內(nèi)存中的位置,因?yàn)槊總€(gè)block有一塊共享內(nèi)存,所以我們只需要threadidx來(lái)索引即可。下一步便是遍歷這個(gè)線程需要處理的數(shù)據(jù),進(jìn)行累加操作。以0號(hào)線程為例,第一次處理a[0],b[0],第二次處理a[n],b[n],間隔是總的進(jìn)程數(shù),代碼里面總的進(jìn)程數(shù)就是用blockdim.x*griddim.x來(lái)表示的,因?yàn)間rid和block都是一維的。如果它們是二維或者三維的,還需要加上其它維度的大小。最后每個(gè)進(jìn)程將累加和存入相應(yīng)的共享內(nèi)存中。下一步就是要對(duì)共享內(nèi)存中的數(shù)據(jù)進(jìn)行累加,計(jì)算出這個(gè)blcok的累加和是多少。因?yàn)橹挥挟?dāng)所有進(jìn)程的數(shù)據(jù)都寫(xiě)入共享內(nèi)存之后,我們才能開(kāi)始累加操作。所以在此處要有一個(gè)同步操作。只有當(dāng)所有進(jìn)程都到達(dá)這個(gè)同步點(diǎn)的時(shí)候,所有的進(jìn)程再同時(shí)執(zhí)行下面的指令。執(zhí)行到這里的時(shí)候,是一個(gè)多線程的環(huán)境,我們可以充分的利用多線程來(lái)累加共享內(nèi)存中的數(shù)據(jù)。下面我們看一下累加操作。7-65這是共享內(nèi)存cache中的數(shù)據(jù),假設(shè)cache一共有8個(gè)數(shù)據(jù)需要累加,也就是說(shuō)我們由8個(gè)線程,每個(gè)線程對(duì)著一個(gè)數(shù)據(jù),累加的過(guò)程就是前一半的線程將自己的數(shù)據(jù)和后一半的數(shù)據(jù)相加。現(xiàn)在是8個(gè)數(shù)據(jù),8個(gè)線程,第一次是迭代是前4個(gè)線程自己的4個(gè)數(shù)據(jù)和后4個(gè)數(shù)據(jù)相加,結(jié)果存入到前4個(gè)數(shù)據(jù)中。然后我們只需要累加4個(gè)數(shù)據(jù)了,不斷的重復(fù)次過(guò)程,直到結(jié)果都存在了第一個(gè)數(shù)據(jù)中。這里我們要注意需要同步一下。7-66Dot函數(shù)的最后一步操作,將cache[0]的數(shù)據(jù)存入數(shù)c中,7-67然后將數(shù)據(jù)傳輸?shù)絚pu端,在cpu上進(jìn)行最后的累加操作。以上便是共享內(nèi)存的使用。7-71Image中的每一個(gè)方格都是一個(gè)像素,我們假設(shè)每個(gè)像素都能發(fā)射出一個(gè)平行的光,當(dāng)一束光遇到場(chǎng)景中的物體時(shí),會(huì)產(chǎn)生一個(gè)或多個(gè)焦點(diǎn),我們找到離image最遠(yuǎn)的那個(gè)交點(diǎn)。7-72為了方便,我們場(chǎng)景中的物體全是球形物體7-73Hit函數(shù)用來(lái)計(jì)算這個(gè)表面與ox,oy這條射線有沒(méi)有相交,如果相交的話,交點(diǎn)的深度是多少,既交點(diǎn)到image的距離是多少。下面我們看一下沒(méi)有使用contantmemory的主程序7-74Cudaevent函數(shù)主要是用來(lái)計(jì)時(shí)的,cudaeventrecord函數(shù)里的0代表是是哪個(gè)cudastream,cudastream我們就不再講了。還有cpubitmap結(jié)構(gòu),這是一個(gè)像素矩陣,我們直到這是一個(gè)二維矩陣就夠了,這個(gè)不是cuda定義的。從代碼中可以看到,我們?cè)赾pu和gpu端分別定義了20個(gè)球體。For循環(huán)是對(duì)這20個(gè)球體進(jìn)行初始化。7-75然后將初始化后的球體拷貝到gpu端。下面就是計(jì)算每個(gè)像素點(diǎn)與每個(gè)物體的交點(diǎn)了,kernel函數(shù)我們就不再展示了。我們看紅色框里的內(nèi)容也是用來(lái)計(jì)時(shí)的,它和前面的計(jì)時(shí)的相對(duì)應(yīng),我們把這個(gè)用法記住就行了。這是普通的寫(xiě)法,我們知道contantmemory是用來(lái)存儲(chǔ)常量的。那么程序里面哪些是不會(huì)改變的呢,球體這個(gè)數(shù)組,一旦我們初始化之后,球體數(shù)組就不再改變了。下面我們看一下怎么修改主程序,kernel函數(shù)不需要修改。7-76左邊的是修改后的代碼,右邊是原來(lái)的代碼,我們來(lái)看一下不同之處,我們?cè)陂_(kāi)頭多了一個(gè)constant的聲明,這表明這個(gè)球體數(shù)組存儲(chǔ)在了constantmemory上。并且constantmemory必須聲明維全局變量。Constantmemory的初始化還和以前一樣,當(dāng)然了,為了更快的初始化,我們也可以在gpu上完成初始化。將constantmemory拷貝到gpu上時(shí),要用特殊的拷貝函數(shù),用法和傳統(tǒng)的cudamemcpy一樣,只不過(guò)cudamemcpytosymbol不需要指明拷貝的方向,因?yàn)橹荒軓腸pu端拷貝到gpu端。其它的沒(méi)有任何區(qū)別了,以上便是contantmemory的用法了。7-80我們用一個(gè)heatingmodel來(lái)說(shuō)明如何利用texturememory7-81不同的顏色
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 物流設(shè)計(jì)與規(guī)劃課程設(shè)計(jì)
- 組態(tài)與變頻課程設(shè)計(jì)
- 硬件課程設(shè)計(jì)智能風(fēng)扇
- 流水燈設(shè)計(jì)課程設(shè)計(jì)
- 環(huán)境課程設(shè)計(jì)總結(jié)
- 智能供熱課課程設(shè)計(jì)
- 液化石油氣生產(chǎn)過(guò)程質(zhì)量控制考核試卷
- 水果削皮課程設(shè)計(jì)思路
- 煉鐵行業(yè)的組織文化建設(shè)與員工發(fā)展管理考核試卷
- 海洋課程設(shè)計(jì)模板
- 江蘇省徐州市2023-2024學(xué)年高一上學(xué)期1月期末抽測(cè)試題 生物 含解析
- Unit 1 You and Me Section B (1a~1d) 說(shuō)課稿 2024-2025學(xué)年人教版(2024)七年級(jí)英語(yǔ)上冊(cè)
- 心電圖使用 課件
- 建筑起重機(jī)械安裝拆卸工程的專項(xiàng)施工方案
- 園林灌溉施工合同范例
- 《自貢市醫(yī)療服務(wù)項(xiàng)目?jī)r(jià)格匯編(2023版)》
- 磁力聚星星選達(dá)人認(rèn)證考試-初階
- 行政人事2024年終總結(jié)
- 藝術(shù)畫(huà)廊會(huì)員特權(quán)方案
- 小區(qū)物業(yè)、紅色物業(yè)服務(wù)方案投標(biāo)方案(技術(shù)方案)
- 云南2025年中國(guó)工商銀行云南分行秋季校園招聘650人筆試歷年參考題庫(kù)解題思路附帶答案詳解
評(píng)論
0/150
提交評(píng)論