高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述GPU發(fā)展_第1頁
高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述GPU發(fā)展_第2頁
高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述GPU發(fā)展_第3頁
高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述GPU發(fā)展_第4頁
高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述GPU發(fā)展_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、北京科技大學(xué)高等計(jì)算機(jī)體系結(jié)構(gòu)文獻(xiàn)綜述題目:GPU的發(fā)展研究學(xué) 院計(jì)算機(jī)與通信工程學(xué)院班級(jí)124班學(xué)號(hào) S20121170姓名陳叁時(shí)間 2012年11月02日引言隨著半導(dǎo)體工藝的發(fā)展,芯片上集成的晶體管數(shù)目按照摩爾定律增加,各種處理器的存儲(chǔ)和計(jì)算能力也因此不斷提高。作為最常用的兩類處理器芯片,CPU和GPU的性能發(fā)展呈現(xiàn)不同的規(guī)律。CPU是計(jì)算機(jī)的主控處理部件,需要應(yīng)對(duì)各種復(fù)雜的控制過程,追求的標(biāo)量性能注重通用性,因此在其芯片體系結(jié)構(gòu)設(shè)計(jì)時(shí),不得不將大量的芯片資源用于分支預(yù)測(cè)、亂序 執(zhí)行等復(fù)雜的控制邏輯,從而限制了其計(jì)算性能的提升。而 GPU原本只負(fù)責(zé)加速圖形計(jì)算, 功能相對(duì)比較單一,芯片的控

2、制邏輯比較簡(jiǎn)單,主要的芯片資源都用于提升計(jì)算性能,因此 其計(jì)算能力發(fā)展更為迅速。例如,AMD公司2009年第一季度發(fā)布的專業(yè)級(jí)流處理GPUFireSt ream 9270 i的單精度浮點(diǎn)峰值性能達(dá)到1.2T Flo ps,而Intel公司頂級(jí)的Core2 Ex tr eme 9650四核處理器的浮點(diǎn) 處理能力僅有96GFlo ps,可見在計(jì)算性能方面,GPU要高出CPU整整一個(gè)數(shù)量級(jí)。計(jì)算性 能增長(zhǎng)的同時(shí),GPU的存儲(chǔ)性能也在不斷提升,2 4GB的存儲(chǔ)容量、256 512位寬的存儲(chǔ) 總線都為GPU發(fā)揮出強(qiáng)大的計(jì)算能力提供了充分的保證。除了計(jì)算性能外,從性/價(jià)比和性能/功耗比上看,GPU相對(duì)于通

3、用CPU同樣擁有明顯的優(yōu)勢(shì)。這些特性都使得GPU成為 搭建超級(jí)計(jì)算機(jī)的良好選擇,可以在有限的系統(tǒng)規(guī)模和金錢開銷的限制下達(dá)到非常高的峰 值計(jì)算性能,因此越來越受到高性能計(jì)算領(lǐng)域的關(guān)注。計(jì)算性能不斷提升的同時(shí),限制GPU廣泛應(yīng)用的另一制約因素 )可編程性,也在不斷提高。早期的GPU僅負(fù)責(zé)圖形加速,流水 線的功能固定,只能執(zhí)行有限的幾個(gè)操作以完成圖像的生成。硬件工藝的進(jìn)步使得GPU內(nèi)處理單元的結(jié)構(gòu)越來越復(fù)雜 ,功能也越來越靈活,其流水線具備了執(zhí)行用戶自定義程序的能 力,從而具備了初步的可編程性。從最初的底層圖形API發(fā)展到現(xiàn)在高度抽象的 CUDA0、Broo k + 司以及OpenCL 4, GPU

4、的可編程性得到了極大的提升 ,已經(jīng)具備了開發(fā)非圖形領(lǐng) 域應(yīng)用的基本能力,GPU上的通用計(jì)算(General Purpose computat io n on GPU s, 簡(jiǎn)稱 GPGPU 5)也成為體系結(jié)構(gòu)、編程及編譯等領(lǐng)域熱點(diǎn)的研究方向之一。二、 C P U/GP U協(xié)同并行計(jì)算研究進(jìn)展a) GP3義及相關(guān)技術(shù)GPU文全稱(Graphic ProcessingUnit), 中文翻譯為“圖形處理器"。GPUl相對(duì)于CPU勺一個(gè)概念,由于在現(xiàn)代的計(jì)算機(jī)中圖形的處理變得越來越重要,需要一個(gè)專門的圖形的核心處理器。GP電顯示卡的“大腦”,它決定了該顯卡的檔次和大部分性能,同時(shí)也是2D顯示

5、卡和3D顯示卡的區(qū)別依據(jù)。 GPU使顯卡減少了對(duì)C P U 的依賴,并進(jìn)行部分原本CPU勺工作,尤其是在3D圖形處理時(shí)。GP所采用的核心技 術(shù)有硬體T&L、立方環(huán)境材質(zhì)貼圖和頂點(diǎn)混合、紋理壓縮和凹凸映射貼圖雙重紋理四像素256位渲染引擎等,而硬體T&戰(zhàn)術(shù)可以說是G P U的標(biāo)志。T& L技術(shù)是最近在圖形加速卡上都可以看得到的規(guī)格名稱之一,這個(gè)名詞的原來意義是:Transforming以及Lighting ,光影轉(zhuǎn)換。在圖形加速卡中,T&L的最大功能是處理圖形的整體角度旋轉(zhuǎn)以及光源陰影等三維效果。3D圖上有許多的連結(jié)點(diǎn),每一個(gè)連結(jié)點(diǎn)都可視為一條線的轉(zhuǎn)折點(diǎn),通過這些

6、連結(jié)點(diǎn),圖形芯片可以很清楚地將整個(gè)對(duì)象的結(jié)構(gòu)辨識(shí)出來。然而,這些連結(jié)點(diǎn)在這張3D殳計(jì)圖上的位置是固定不動(dòng)的,換句話說,不管我們從任何一個(gè)角度來看這個(gè)對(duì)象, 連結(jié)點(diǎn)的位置并沒有變動(dòng),變動(dòng)的只有角度的不同。不過,對(duì)象圖案若只進(jìn)行到Transforming的階段,在對(duì)象的表面也只有連結(jié)點(diǎn)而已,并沒有加上顏色色塊或任何材質(zhì)的貼圖表現(xiàn),因此,很像是立體的3腌視圖。一般來說,T& L的效能常用單位時(shí)間內(nèi)所能處理多少個(gè)多邊形的連結(jié)點(diǎn)變化以及光源運(yùn)算為基準(zhǔn)。像 nVidia的GeForce 2便能在每秒鐘處理2500萬個(gè)多邊形,而有 的產(chǎn)品甚至能達(dá)到3000萬個(gè)多邊形的效能。紋理壓縮中將壓縮后的數(shù)據(jù)存

7、儲(chǔ)進(jìn)顯存并不是終結(jié)。重要的是需要用顯示芯片把這些壓縮后的數(shù)據(jù)進(jìn)行解壓縮,再經(jīng)過運(yùn)算貼圖到3D莫型上。這個(gè)過程就需要顯示芯片在硬件上支持了,如果不支持,對(duì)于壓縮后的數(shù)據(jù)無法識(shí)別,照樣不能完成紋理 壓縮,也不能發(fā)揮出紋理壓縮的優(yōu)勢(shì)。凹凸貼圖(bump mapping),又稱為皺面貼圖,是一項(xiàng)計(jì)算機(jī)圖形學(xué)技術(shù),在這項(xiàng) 技術(shù)中每個(gè)待渲染的像素在計(jì)算照明之前都要加上一個(gè)從高度圖中找到的擾動(dòng)。這 樣得到的結(jié)果表面表現(xiàn)更加豐富、細(xì)致,更加接近物體在自然界本身的模樣 b) 協(xié)同計(jì)算概念CPU/GPU協(xié)同并行計(jì)算,其關(guān)鍵在于如何實(shí)現(xiàn)兩者的高效“協(xié)同”。從國內(nèi)外大量的研究工作來看,“協(xié)同”分為兩個(gè)層次:1) CP

8、 U僅負(fù)責(zé)管理G P U的工作,為GPU 提供數(shù)據(jù)并接收GPU傳回的數(shù)據(jù),由GPU 承擔(dān)整個(gè)計(jì)算任務(wù);2)除管理GPU外,CPU還負(fù)責(zé)一部分計(jì)算任務(wù),與GPU共同完成計(jì)算。第一層次的“協(xié)同”比較簡(jiǎn)單,CPU與GPU 間分工明確,但浪費(fèi)了寶貴的CPU計(jì)算資源。如IBM 的Power7處理器具有32個(gè)核心,因此CPU也具有強(qiáng)大的 計(jì)算能力??梢姡诙哟蔚摹皡f(xié)同”是未來協(xié)同并行計(jì)算的發(fā)展方向三、GPGPO系結(jié)構(gòu)目前可以生產(chǎn)支持通用計(jì)算的 GPU廠家主要有AMD、NVIDIA和Intel。我們將簡(jiǎn)要介紹這陳希2012年11月2日三個(gè)廠商目前主流 GPU的核心體系結(jié)構(gòu)。1. AMD: APU為進(jìn)一步提

9、升處理器的工作效率,AMD公司將CPU和GPU的核心進(jìn)行融合(Fusion),推出了 APU7 ( Accelerated Processing Unit s)系列處理器,以加速多媒體和向量處理能力。業(yè)界有觀點(diǎn)認(rèn)為,這種融合的體系結(jié)構(gòu)是未來處理器的發(fā)展方向。SEMD cnu jncpijnorminterfilesv si cm mem or v圖1 AMD APU結(jié)構(gòu)示意圖從圖1可以看出,APU處理器將多核的x 86 CPU核心、GPU處理器核心(SIMD引擎陣 列)、高速總線以及存控融合在一塊單一芯片上,可以實(shí)現(xiàn)數(shù)據(jù)在不同處理核心間的高速傳輸,大大緩解了目前CPU和GPU之間的通信受限于外

10、部總線的問題。2. NVIDIA: FermiFermi是NVIDIA公司推出的最新一代 GPU,提供了強(qiáng)大的雙精度浮點(diǎn)計(jì)算能力。Fermi較之以往GPU的不同之處在于:首先,為面向?qū)?shù)據(jù)精確度要求較高的應(yīng)用,F(xiàn)ermi首次在GPU勺存儲(chǔ)器中引入了 ECC校驗(yàn)的功能;其次,F(xiàn)ermi在保持了主流GPU中使用 的Shared Memory作為片上存儲(chǔ)層次外,還首次引入了通用的數(shù)據(jù) Cache,以更好地支 持通用計(jì)算。Fermi中的Cache包含被SM私有的L1 Cache和被所有SM享的L2 Cache。 此外,F(xiàn)ermi中的Shared Memory和Cache可以通過配置互相轉(zhuǎn)化。最后 ,F(xiàn)

11、ermi支持 多Kernel同時(shí)執(zhí)行。圖2 NVIDIA Fermi 體系結(jié)構(gòu)示意圖圖2給出了 Fermi的體系結(jié)構(gòu)框圖。圖中包含16個(gè)SM,分布在共享的L2 Cache周圍,每SM均包含L1 Cache、寄存器文件等私有存儲(chǔ)資源,32個(gè)流處理核心構(gòu)成的計(jì)算陣列和線程調(diào)度單元。處理器的外圍則分布著DRAM Host和線程調(diào)度等接口。值得注意的是,Fermi之前的GPU中SM內(nèi)大多包含8個(gè)流處理核心,如GT 200,因此需要4拍才能發(fā)射一個(gè)w arp,而Fermi中將流處理核心數(shù)提升至32個(gè),而且采用雙發(fā)射技術(shù),使得每拍可以發(fā)射2個(gè) warp,極大提升了線程發(fā)射效率。四、CUD陶介CU DA 全

12、稱統(tǒng)一計(jì)算設(shè)備框架 (Compute UnifiedDevice Architecture,簡(jiǎn)稱 CU DA ), 是NVIDIA公司針對(duì)其GPU設(shè)計(jì)提出的GPGPU程卞II型,它也以笊言為基礎(chǔ),降低了編程難 度。在CUDA計(jì)算模型中,應(yīng)用程序分為host端和device端,前者是指運(yùn)行于CPU上的部 分,后者則是運(yùn)行于GPU上的部分,這部分代碼稱為核心(Kernel)函數(shù)。CPU代碼準(zhǔn)備好 數(shù)據(jù)后,復(fù)制到顯卡的存儲(chǔ)器中,再調(diào)用核心函數(shù)進(jìn)行執(zhí)行,執(zhí)行完畢后再由CPU代碼將 計(jì)算結(jié)果拷貝回主存。在CU DA計(jì)算模型下,GPU執(zhí)行的最小單位是線程,多個(gè)線程組成一個(gè)線程塊,線程塊中線程可以共享一片存

13、儲(chǔ)器,并以任意順序執(zhí)行,在硬件資源受限的情況下甚至可以串行執(zhí)行。一個(gè)核心程序由一個(gè)或多個(gè)線程塊組成,一個(gè)應(yīng)用則由若干個(gè)核心程序構(gòu)成。block(2.0)blockKernel nthread(n, I)thread(n, n)圖3 CUDA計(jì)算模型示意圖從CUDA體系結(jié)構(gòu)的組成來說,包含了三個(gè)部分:開發(fā)庫、運(yùn)行期環(huán)境和驅(qū)動(dòng)。開發(fā)庫是基于CUDA技術(shù)所提供的應(yīng)用開發(fā)庫。目前CUDA的1.1版提供了兩個(gè)標(biāo)準(zhǔn)的數(shù)學(xué)運(yùn)算庫FFT (離散快速傅立葉變換)和CUBLAS離散基本線性計(jì)算)的實(shí)現(xiàn)。這兩個(gè)數(shù)學(xué)運(yùn)算庫所解決的是典型的大規(guī)模的并行計(jì)算問題,也是在密集數(shù)據(jù)計(jì)算中非常常見的計(jì)算類型。開發(fā)人員在開發(fā)庫的基礎(chǔ)上可以快速方便的建立起自己的計(jì)算應(yīng)用此外開發(fā)人員也可以在C U DA的技術(shù)基礎(chǔ)上實(shí)現(xiàn)出更多的開發(fā)庫。運(yùn)行期環(huán)境提供了應(yīng)用開發(fā)接口和運(yùn)行期組件,包括基本數(shù)據(jù)類型的定義和各類計(jì)算、類型轉(zhuǎn)換、內(nèi)存管理、設(shè)備訪問和執(zhí)行調(diào)度等函數(shù)?;贑 UDA開發(fā)的程序代碼在實(shí)際執(zhí)行中分為兩種,一種是運(yùn)行在C戶U上的宿主代碼,一種是運(yùn)行在G p U上的設(shè)備代碼。不同類型的代碼由于其運(yùn)行的物理位置不同,能夠訪問到的資源不同因此對(duì)應(yīng)的運(yùn)行期組件也分為公共組件、宿主組件和設(shè)備組件三個(gè)部分,基本上囊括了所有在GPGPU發(fā)中所需要的功能和能夠使用到的資源接口,開發(fā)人員可以通過運(yùn)行期環(huán)境的編

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論