AMD和NVIDIA的GPU特點(diǎn)及優(yōu)勢(shì)

上傳人：t*** IP屬地：天津上傳時(shí)間：2022-10-29 格式：DOCX 頁數(shù)：5 大?。?5.08KB 積分：9.6 舉報(bào) 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

AMD和NVIDIA的GPU特點(diǎn)及優(yōu)勢(shì)發(fā)表時(shí)間：2011-4-25作者:熊東旭來源:e-works關(guān)鍵字:GPU關(guān)鍵字:GPU圖形處理器AMDGPUNV」DIAGPU作為圖形工作站標(biāo)志性的配件，專業(yè)顯卡良好的抗鋸齒功能幫助圖形工作站處理復(fù)雜的三維模型，保證線條的光滑。除線條抗鋸齒功能，專業(yè)顯卡對(duì)重疊圖形、動(dòng)態(tài)光源、圖形剖切等操作的處理，與普通顯卡也有著非常大的不同。作為專業(yè)顯卡領(lǐng)域僅有的兩家廠商，AMD和NVIDIA的專業(yè)顯卡在性能和價(jià)格上都日益趨于同質(zhì)化，純粹的從性能和價(jià)格兩方面來討論兩家產(chǎn)品孰優(yōu)孰劣已不合適。為了更加深入的了解兩家廠商專業(yè)級(jí)顯卡產(chǎn)品的硬件特性，e-works將從兩家廠商的GPU架構(gòu)著手來討論兩家產(chǎn)品的優(yōu)勢(shì)及不足。一、GPU與顯卡簡(jiǎn)單來說，GPU與顯卡的關(guān)系就好比CPU與主板的關(guān)系，主板有了CPU才有了動(dòng)力之源，利用CPU提供的動(dòng)能，主板才可以實(shí)現(xiàn)各種功能。同理，顯卡之所以能加速圖形圖像處理，也是因?yàn)镚PU為顯卡提供了強(qiáng)大的運(yùn)算能力。專業(yè)顯卡發(fā)展到今天，無論是AMD還是NVIDIA，功能上已經(jīng)日趨同質(zhì)化，NVIDIA專業(yè)顯卡能實(shí)現(xiàn)的功能，AMD也能實(shí)現(xiàn)，但從GPU運(yùn)算能力來講，兩家廠商還是有一定可比較性。二、AMD與NVIDIA的GPU架構(gòu)對(duì)于像素的特點(diǎn)，相關(guān)的文章也討論的比較多。任何一個(gè)像素都包含著兩種不同的屬性信息，即色彩和坐標(biāo)。色彩信息包括RGB三原色和一個(gè)信息通道Alpha；坐標(biāo)信息包括XYZ三維坐標(biāo)信息和一個(gè)重力元素W。為對(duì)像素完成一次色彩計(jì)算和坐標(biāo)轉(zhuǎn)換，GPU的頂點(diǎn)著色單元和像素著色單元從一開始就被設(shè)計(jì)成為一個(gè)周期內(nèi)具備4次運(yùn)算能力的邏輯運(yùn)算器，這便是4D矢量邏輯運(yùn)算器的由來。（1）AMD基于SIMD結(jié)構(gòu)的流處理器AMD的GPU采用的是SIMD架構(gòu)模式，SIMD即SingleInstructionMultipleData,單指令多數(shù)據(jù)，這種架構(gòu)能很好的對(duì)像素的色彩和坐標(biāo)所包含的四維數(shù)據(jù)進(jìn)行運(yùn)算。傳統(tǒng)的頂點(diǎn)單元和像素單元中的ALU都能在一個(gè)周期內(nèi)完成對(duì)4D矢量數(shù)據(jù)的運(yùn)算。因此，通常稱這種邏輯運(yùn)算器為4DALU。圖1SIMD架構(gòu)圖1為SIMD架構(gòu)流處理器的運(yùn)算模式，通過唯一的指令發(fā)射端向所屬的ALU發(fā)送運(yùn)算需求，ALU在接收到運(yùn)算指令后開始并行計(jì)算。需要注意的是，4DSIMD架構(gòu)雖然很適合處理4D指令，但遇到1D指令的時(shí)候效率便會(huì)降為原來的1/4。此時(shí)的ALU， 3/4的資源都被閑置。為了提高像素單元和頂點(diǎn)單元執(zhí)行1D2D3D指令時(shí)的資源利用率，從DirectX9時(shí)代開始，AMD的GPU通常采用1D+3D或2D+2DALU。這便是Co-issue技術(shù)。這種ALU對(duì)4D指令的計(jì)算時(shí)仍然效能與傳統(tǒng)的ALU相同，但當(dāng)遇到1D2D3D指令時(shí)效率則會(huì)高不少，例如如下指令：

ADDR0.xyz,R0,R1〃此指令是將RO,R1矢量的x,y,z值相加結(jié)果賦值給R0ADDR3.x,R2,R3〃此指令是將R2R3矢量的w值相加結(jié)果賦值給R3對(duì)于傳統(tǒng)的4DALU,顯然需要兩個(gè)周期才能完成，第一個(gè)周期ALU利用率75%,第二個(gè)周期利用率25%。而對(duì)于1D+3D的ALU,這兩條指令可以融合為一條4D指令，因而只需要一個(gè)周期便可以完成，ALU利用率100%。但當(dāng)然，即使采用co-issue,ALU利用率也不可能總達(dá)到100%，這涉及到指令并行的相關(guān)性等問題，而且，更直觀的，上述兩條指令顯然不能被2D+2DALU一周期完成，而且同樣，兩條2D指令也不能被1D+3DALU一周期完成。傳統(tǒng)GPU在對(duì)非4D指令的處理顯然不是很靈活。previnstructprevinstructprevinstructloadA(1)loadA(2)loadA(n)loadB(1)loadB(2)loadB(n)C(2)=A(2)*B(2)C(n)=A(n)^B(n)storeC(1)storeC(2)starsC(n)nextinstructnextinstructnextinstructP1圖2AMDEDALU流處理器卩fl為進(jìn)一步改善流處理器的運(yùn)算性能，AMD推出了代號(hào)為R600的顯卡核心，該GPU采用了統(tǒng)一渲染架構(gòu)，采用了5路超標(biāo)量運(yùn)算單元，通過在流處理器內(nèi)部集成5個(gè)1D標(biāo)量運(yùn)算單元，每一個(gè)流處理器都能進(jìn)行1+1+1+1+1或1+4或2+3等方式搭配運(yùn)算。同時(shí)，為提升ALU運(yùn)算效率，AMD采用了VLIW體系設(shè)計(jì)，將多個(gè)短指令合并為一個(gè)超長指令交給流處理器去執(zhí)行。對(duì)于下述指令：ADDR0.xyz,R0,R1//3DADDR4.x,R4,R5//1DADDR2.x,R2,R3 //1DR600也可以將其集成為一條VLIW指令在一個(gè)周期完成。綜上：R600的架構(gòu)可以用64X5D的方式來描述。previnstructprevinstructprevinstructloadA(1)loadA(2)loadB(1)loadB(2)C(2)=A(2fB(2)storeC(1)storeC(2)nextinstructSinextinstructP2nextinstructPn~loadA(n)previnstructprevinstructprevinstructloadA(1)loadA(2)loadB(1)loadB(2)C(2)=A(2fB(2)storeC(1)storeC(2)nextinstructSinextinstructP2nextinstructPn~loadA(n)loadB(n)C(n)=A(n)*B(n)storeC(n)圖3R600流處理器R600采用SIMD架構(gòu)，擁有64個(gè)SP,每個(gè)SP中有5個(gè)1DALU，因而通常聲稱R600有320個(gè)PSU，每個(gè)SP只能處理一條指令,ATI采用VLIW體系將短指令集成為長的VLIW

指令來提高資源利用率，例如5條1D標(biāo)量指令可以被集成為一條VLIW指令送入SP中在一個(gè)周期完成。(2)NVIDIA基于MIMD結(jié)構(gòu)的流處理器與AMDGPU的SIMD架構(gòu)不同，NVIDIAGPU所采用的是MIMD架構(gòu)，即多指令多數(shù)據(jù)。這種指令架構(gòu)，使NVIDIAGPU的指令控制系統(tǒng)要比AMDGPU復(fù)雜。在NVIDIA看來，一味的追求流處理器數(shù)量，并不意味著高效率的計(jì)算性能。previnstructprevinstructprevinstructloadA(1)loadA(2)loadB⑵C(2)=A(2)*B(2)storeC(2)storeC(1)nextinstructnextinstructP2nextinstruct-Pn~loadA(n)loadB(n)previnstructprevinstructprevinstructloadA(1)loadA(2)loadB⑵C(2)=A(2)*B(2)storeC(2)storeC(1)nextinstructnextinstructP2nextinstruct-Pn~loadA(n)loadB(n)C(n)=A(n)*B(n)storeC(n)圖4G80核心架構(gòu)從G80核心開始，NVIDIA的GPU采用了統(tǒng)一運(yùn)算單元，并開始走徹底標(biāo)量化路線，在G80GPU內(nèi)部，NVIDIA將ALU拆分為最基本的1D標(biāo)量運(yùn)算單元，實(shí)現(xiàn)了128個(gè)標(biāo)量流處理器，所有的運(yùn)算指令都會(huì)被拆分為1D標(biāo)量指令進(jìn)行運(yùn)算，理想情況下，能保證所有運(yùn)算效率都達(dá)到100%。例如一個(gè)4D矢量指令A(yù)DDRO.xyzw,RO,R1R0與R1矢量相加,結(jié)果賦R0G80的編譯器會(huì)將其拆分為4個(gè)1D標(biāo)量運(yùn)算指令并將其分派給4個(gè)SP：ADDR0.x,R0,R1ADDR0.y,R0,R1ADDR0.z,R0,R1ADDR0.w,R0,R1綜上：G80的架構(gòu)可以用128X1D來描述。這種流處理器設(shè)計(jì)方式拋棄了單獨(dú)追求浮點(diǎn)吞吐的目標(biāo)，轉(zhuǎn)而優(yōu)化流處理器內(nèi)部結(jié)構(gòu)來換取更高的執(zhí)行效率。但是它也有明顯的問題就是需要使用更多發(fā)射端和周邊寄存器資源來支撐這種被“打散”的流處理器運(yùn)行，芯片集成度和面積相對(duì)于ATI都有較大提升，必須嚴(yán)格控制發(fā)熱和功耗。三、兩家GPU架構(gòu)的優(yōu)勢(shì)和不足現(xiàn)在的AMD，最大的追求就是在盡可能保證小尺寸核心的基礎(chǔ)上，提供盡可能多的性能?；蛘哌@話應(yīng)該換一種方式說??堆垛晶體管的臨界點(diǎn)，出現(xiàn)在增加晶體管所導(dǎo)致的性能增加出現(xiàn)拐點(diǎn)的那一刻。當(dāng)堆垛晶體管所能夠換來的性能增幅明顯下降的時(shí)候，就停止堆垛晶體管。瘋狂的ALU運(yùn)算器規(guī)模堆砌，讓NVIDIA毫無招架之力，同時(shí)堅(jiān)持以效率致勝的MIMD結(jié)構(gòu)流處理器長期無法擺脫晶體管占用量大的煩惱，運(yùn)算器規(guī)模無法快速增長。Fermi架構(gòu)完全放棄了一味追求吞吐的架構(gòu)設(shè)計(jì)方向，這一點(diǎn)在通用計(jì)算或者說復(fù)雜的Shader領(lǐng)域值得肯定，但是遇到傳統(tǒng)編程方式的圖形運(yùn)算，還是因?yàn)榧軜?gòu)過于超前顯得適應(yīng)性不足。RV770可以說是AMD化腐朽為神奇的力作，較之R600,RV770不僅將公共汽車一般緩慢的Ringbus換成了高速直連的Crossbar，而且還追加了大量的資源，比如為16個(gè)VLIWCORE配置了16K的LocalDataShare，同時(shí)將原有的GlobalDataShare容量翻倍到了16K，在此基礎(chǔ)上，還將VLIWCORE規(guī)模整體放大到了R600的250%(320個(gè)提升到800個(gè))，另外，在后端配置的RBE單元以及更加完善的TA/TF也促成了RV770的脫胎換骨。在擴(kuò)展ALU資源的基礎(chǔ)之上，AMD還在做著另外一件事，那就是盡一切可能逐步優(yōu)化較為古老和低效的SIMD結(jié)構(gòu)。在RV7中對(duì)LDS的空間直接讀寫操作管理等改進(jìn)就是這類努力地開始。這導(dǎo)致了R600和R770在ShaderProgram執(zhí)行方面有很大差別。R600的ShaderProgram是VerticalMode(5D)+HorizontalMode(16x5D)的混合模式。而RV770是單純的VerticalMode(16x4D=64D&16*1D=16D，即64D+16D)。簡(jiǎn)單的說，RV770更加趨緊于NV50ShaderUnit的執(zhí)行方式，而R600則相去甚遠(yuǎn)?？偟膩碚f，NV更加趨緊于使用基于硬件調(diào)度器的Superscalar方式來開發(fā)ILP，而AMD更加趨緊于基于軟件編譯器調(diào)度的VLIW方式來開發(fā)ILP。到了RV870架構(gòu)，AMD控制甚至緊縮資源，然后靠制程來拼規(guī)模，并最終讓SIMD盡可能接近通過暴力吞吐掩蓋延遲的最理想結(jié)局。然后就出現(xiàn)了我們現(xiàn)在看到的擁有1600個(gè)流處理器，體積卻依然小于Fermi架構(gòu)GF100的RadeonHD5870顯卡。AMD從R600核心開始，一直延續(xù)著上述理念設(shè)計(jì)GPU產(chǎn)品，R600身上有很多傳統(tǒng)GPU的影子，其StreamProcessingUnits很像上代的ShaderUnits，它依然是傳統(tǒng)的SIMD架構(gòu)。這些SIMD架構(gòu)的5DALU使用VLIW技術(shù)，可以用一條指令完成多個(gè)對(duì)數(shù)值的計(jì)算。由于內(nèi)部的5個(gè)1DALU共享同一個(gè)指令發(fā)射端口，因此宏觀上R600應(yīng)該算是SIMD(單指令多數(shù)據(jù)流)的5D矢量架構(gòu)。但是R600內(nèi)部的這5個(gè)ALU與傳統(tǒng)GPU的ALU有所不同，它們是各自獨(dú)立能夠處理任意組合的1D/2D/3D/4D/5D指令，完美支持Co-issue(矢量指令和標(biāo)量指令并行執(zhí)行)，因此微觀上可以將其稱為5DSuperscalar超標(biāo)量架構(gòu)。previnstructprevinstructprevinstructloadA(1)loadA(2)loadA(n)loadB(1)load日(2)loadB(n)C(2)=A(2)*B(2)C(n)=A(n)*B(n)storeC(1)store0(2)storeC(n)nextinstructnextinstructnextinstruct圖5AMD的流處理器結(jié)構(gòu)變化"SIMD雖然很大程度上緩解了標(biāo)量指令執(zhí)行效率低下的問題，但依然無法最大限度的發(fā)揮ALU運(yùn)算能力，尤其是一旦遇上循環(huán)嵌套分支等情況，SIMD在矢量處理方面高效能的優(yōu)勢(shì)將會(huì)被損失殆盡。同時(shí)VLIW的效率依賴于指令系統(tǒng)和編譯器的效率。SIMD加VLIW在通用計(jì)算上弱勢(shì)的原因就在于打包發(fā)送和拆包過程。NVIDIA從G80開始架構(gòu)作了變化，把原來的4D著色單元徹底打散，流處理器不再針對(duì)矢量設(shè)計(jì)，而是統(tǒng)統(tǒng)改成了標(biāo)量運(yùn)算單元。每一個(gè)ALU都有自己的專屬指令發(fā)射器，

人人文庫> 全部分類> 行業(yè)資料 > 各類標(biāo)準(zhǔn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

AMD和NVIDIA的GPU特點(diǎn)及優(yōu)勢(shì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

AMD和NVIDIA的GPU特點(diǎn)及優(yōu)勢(shì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔