




下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
AMD和NVIDIA的GPU特點(diǎn)及優(yōu)勢(shì)發(fā)表時(shí)間:2011-4-25作者:熊東旭來源:e-works關(guān)鍵字:GPU關(guān)鍵字:GPU圖形處理器AMDGPUNV」DIAGPU作為圖形工作站標(biāo)志性的配件,專業(yè)顯卡良好的抗鋸齒功能幫助圖形工作站處理復(fù)雜的三維模型,保證線條的光滑。除線條抗鋸齒功能,專業(yè)顯卡對(duì)重疊圖形、動(dòng)態(tài)光源、圖形剖切等操作的處理,與普通顯卡也有著非常大的不同。作為專業(yè)顯卡領(lǐng)域僅有的兩家廠商,AMD和NVIDIA的專業(yè)顯卡在性能和價(jià)格上都日益趨于同質(zhì)化,純粹的從性能和價(jià)格兩方面來討論兩家產(chǎn)品孰優(yōu)孰劣已不合適。為了更加深入的了解兩家廠商專業(yè)級(jí)顯卡產(chǎn)品的硬件特性,e-works將從兩家廠商的GPU架構(gòu)著手來討論兩家產(chǎn)品的優(yōu)勢(shì)及不足。一、GPU與顯卡簡(jiǎn)單來說,GPU與顯卡的關(guān)系就好比CPU與主板的關(guān)系,主板有了CPU才有了動(dòng)力之源,利用CPU提供的動(dòng)能,主板才可以實(shí)現(xiàn)各種功能。同理,顯卡之所以能加速圖形圖像處理,也是因?yàn)镚PU為顯卡提供了強(qiáng)大的運(yùn)算能力。專業(yè)顯卡發(fā)展到今天,無論是AMD還是NVIDIA,功能上已經(jīng)日趨同質(zhì)化,NVIDIA專業(yè)顯卡能實(shí)現(xiàn)的功能,AMD也能實(shí)現(xiàn),但從GPU運(yùn)算能力來講,兩家廠商還是有一定可比較性。二、AMD與NVIDIA的GPU架構(gòu)對(duì)于像素的特點(diǎn),相關(guān)的文章也討論的比較多。任何一個(gè)像素都包含著兩種不同的屬性信息,即色彩和坐標(biāo)。色彩信息包括RGB三原色和一個(gè)信息通道Alpha;坐標(biāo)信息包括XYZ三維坐標(biāo)信息和一個(gè)重力元素W。為對(duì)像素完成一次色彩計(jì)算和坐標(biāo)轉(zhuǎn)換,GPU的頂點(diǎn)著色單元和像素著色單元從一開始就被設(shè)計(jì)成為一個(gè)周期內(nèi)具備4次運(yùn)算能力的邏輯運(yùn)算器,這便是4D矢量邏輯運(yùn)算器的由來。(1)AMD基于SIMD結(jié)構(gòu)的流處理器AMD的GPU采用的是SIMD架構(gòu)模式,SIMD即SingleInstructionMultipleData,單指令多數(shù)據(jù),這種架構(gòu)能很好的對(duì)像素的色彩和坐標(biāo)所包含的四維數(shù)據(jù)進(jìn)行運(yùn)算。傳統(tǒng)的頂點(diǎn)單元和像素單元中的ALU都能在一個(gè)周期內(nèi)完成對(duì)4D矢量數(shù)據(jù)的運(yùn)算。因此,通常稱這種邏輯運(yùn)算器為4DALU。圖1SIMD架構(gòu)圖1為SIMD架構(gòu)流處理器的運(yùn)算模式,通過唯一的指令發(fā)射端向所屬的ALU發(fā)送運(yùn)算需求,ALU在接收到運(yùn)算指令后開始并行計(jì)算。需要注意的是,4DSIMD架構(gòu)雖然很適合處理4D指令,但遇到1D指令的時(shí)候效率便會(huì)降為原來的1/4。此時(shí)的ALU, 3/4的資源都被閑置。為了提高像素單元和頂點(diǎn)單元執(zhí)行1D2D3D指令時(shí)的資源利用率,從DirectX9時(shí)代開始,AMD的GPU通常采用1D+3D或2D+2DALU。這便是Co-issue技術(shù)。這種ALU對(duì)4D指令的計(jì)算時(shí)仍然效能與傳統(tǒng)的ALU相同,但當(dāng)遇到1D2D3D指令時(shí)效率則會(huì)高不少,例如如下指令:
ADDR0.xyz,R0,R1〃此指令是將RO,R1矢量的x,y,z值相加結(jié)果賦值給R0ADDR3.x,R2,R3〃此指令是將R2R3矢量的w值相加結(jié)果賦值給R3對(duì)于傳統(tǒng)的4DALU,顯然需要兩個(gè)周期才能完成,第一個(gè)周期ALU利用率75%,第二個(gè)周期利用率25%。而對(duì)于1D+3D的ALU,這兩條指令可以融合為一條4D指令,因而只需要一個(gè)周期便可以完成,ALU利用率100%。但當(dāng)然,即使采用co-issue,ALU利用率也不可能總達(dá)到100%,這涉及到指令并行的相關(guān)性等問題,而且,更直觀的,上述兩條指令顯然不能被2D+2DALU一周期完成,而且同樣,兩條2D指令也不能被1D+3DALU一周期完成。傳統(tǒng)GPU在對(duì)非4D指令的處理顯然不是很靈活。previnstructprevinstructprevinstructloadA(1)loadA(2)loadA(n)loadB(1)loadB(2)loadB(n)C(2)=A(2)*B(2)C(n)=A(n)^B(n)storeC(1)storeC(2)starsC(n)nextinstructnextinstructnextinstructP1圖2AMDEDALU流處理器卩fl為進(jìn)一步改善流處理器的運(yùn)算性能,AMD推出了代號(hào)為R600的顯卡核心,該GPU采用了統(tǒng)一渲染架構(gòu),采用了5路超標(biāo)量運(yùn)算單元,通過在流處理器內(nèi)部集成5個(gè)1D標(biāo)量運(yùn)算單元,每一個(gè)流處理器都能進(jìn)行1+1+1+1+1或1+4或2+3等方式搭配運(yùn)算。同時(shí),為提升ALU運(yùn)算效率,AMD采用了VLIW體系設(shè)計(jì),將多個(gè)短指令合并為一個(gè)超長指令交給流處理器去執(zhí)行。對(duì)于下述指令:ADDR0.xyz,R0,R1//3DADDR4.x,R4,R5//1DADDR2.x,R2,R3 //1DR600也可以將其集成為一條VLIW指令在一個(gè)周期完成。綜上:R600的架構(gòu)可以用64X5D的方式來描述。previnstructprevinstructprevinstructloadA(1)loadA(2)loadB(1)loadB(2)C(2)=A(2fB(2)storeC(1)storeC(2)nextinstructSinextinstructP2nextinstructPn~loadA(n)previnstructprevinstructprevinstructloadA(1)loadA(2)loadB(1)loadB(2)C(2)=A(2fB(2)storeC(1)storeC(2)nextinstructSinextinstructP2nextinstructPn~loadA(n)loadB(n)C(n)=A(n)*B(n)storeC(n)圖3R600流處理器R600采用SIMD架構(gòu),擁有64個(gè)SP,每個(gè)SP中有5個(gè)1DALU,因而通常聲稱R600有320個(gè)PSU,每個(gè)SP只能處理一條指令,ATI采用VLIW體系將短指令集成為長的VLIW
指令來提高資源利用率,例如5條1D標(biāo)量指令可以被集成為一條VLIW指令送入SP中在一個(gè)周期完成。(2)NVIDIA基于MIMD結(jié)構(gòu)的流處理器與AMDGPU的SIMD架構(gòu)不同,NVIDIAGPU所采用的是MIMD架構(gòu),即多指令多數(shù)據(jù)。這種指令架構(gòu),使NVIDIAGPU的指令控制系統(tǒng)要比AMDGPU復(fù)雜。在NVIDIA看來,一味的追求流處理器數(shù)量,并不意味著高效率的計(jì)算性能。previnstructprevinstructprevinstructloadA(1)loadA(2)loadB⑵C(2)=A(2)*B(2)storeC(2)storeC(1)nextinstructnextinstructP2nextinstruct-Pn~loadA(n)loadB(n)previnstructprevinstructprevinstructloadA(1)loadA(2)loadB⑵C(2)=A(2)*B(2)storeC(2)storeC(1)nextinstructnextinstructP2nextinstruct-Pn~loadA(n)loadB(n)C(n)=A(n)*B(n)storeC(n)圖4G80核心架構(gòu)從G80核心開始,NVIDIA的GPU采用了統(tǒng)一運(yùn)算單元,并開始走徹底標(biāo)量化路線,在G80GPU內(nèi)部,NVIDIA將ALU拆分為最基本的1D標(biāo)量運(yùn)算單元,實(shí)現(xiàn)了128個(gè)標(biāo)量流處理器,所有的運(yùn)算指令都會(huì)被拆分為1D標(biāo)量指令進(jìn)行運(yùn)算,理想情況下,能保證所有運(yùn)算效率都達(dá)到100%。例如一個(gè)4D矢量指令A(yù)DDRO.xyzw,RO,R1R0與R1矢量相加,結(jié)果賦R0G80的編譯器會(huì)將其拆分為4個(gè)1D標(biāo)量運(yùn)算指令并將其分派給4個(gè)SP:ADDR0.x,R0,R1ADDR0.y,R0,R1ADDR0.z,R0,R1ADDR0.w,R0,R1綜上:G80的架構(gòu)可以用128X1D來描述。這種流處理器設(shè)計(jì)方式拋棄了單獨(dú)追求浮點(diǎn)吞吐的目標(biāo),轉(zhuǎn)而優(yōu)化流處理器內(nèi)部結(jié)構(gòu)來換取更高的執(zhí)行效率。但是它也有明顯的問題就是需要使用更多發(fā)射端和周邊寄存器資源來支撐這種被“打散”的流處理器運(yùn)行,芯片集成度和面積相對(duì)于ATI都有較大提升,必須嚴(yán)格控制發(fā)熱和功耗。三、兩家GPU架構(gòu)的優(yōu)勢(shì)和不足現(xiàn)在的AMD,最大的追求就是在盡可能保證小尺寸核心的基礎(chǔ)上,提供盡可能多的性能?;蛘哌@話應(yīng)該換一種方式說??堆垛晶體管的臨界點(diǎn),出現(xiàn)在增加晶體管所導(dǎo)致的性能增加出現(xiàn)拐點(diǎn)的那一刻。當(dāng)堆垛晶體管所能夠換來的性能增幅明顯下降的時(shí)候,就停止堆垛晶體管。瘋狂的ALU運(yùn)算器規(guī)模堆砌,讓NVIDIA毫無招架之力,同時(shí)堅(jiān)持以效率致勝的MIMD結(jié)構(gòu)流處理器長期無法擺脫晶體管占用量大的煩惱,運(yùn)算器規(guī)模無法快速增長。Fermi架構(gòu)完全放棄了一味追求吞吐的架構(gòu)設(shè)計(jì)方向,這一點(diǎn)在通用計(jì)算或者說復(fù)雜的Shader領(lǐng)域值得肯定,但是遇到傳統(tǒng)編程方式的圖形運(yùn)算,還是因?yàn)榧軜?gòu)過于超前顯得適應(yīng)性不足。RV770可以說是AMD化腐朽為神奇的力作,較之R600,RV770不僅將公共汽車一般緩慢的Ringbus換成了高速直連的Crossbar,而且還追加了大量的資源,比如為16個(gè)VLIWCORE配置了16K的LocalDataShare,同時(shí)將原有的GlobalDataShare容量翻倍到了16K,在此基礎(chǔ)上,還將VLIWCORE規(guī)模整體放大到了R600的250%(320個(gè)提升到800個(gè)),另外,在后端配置的RBE單元以及更加完善的TA/TF也促成了RV770的脫胎換骨。在擴(kuò)展ALU資源的基礎(chǔ)之上,AMD還在做著另外一件事,那就是盡一切可能逐步優(yōu)化較為古老和低效的SIMD結(jié)構(gòu)。在RV7中對(duì)LDS的空間直接讀寫操作管理等改進(jìn)就是這類努力地開始。這導(dǎo)致了R600和R770在ShaderProgram執(zhí)行方面有很大差別。R600的ShaderProgram是VerticalMode(5D)+HorizontalMode(16x5D)的混合模式。而RV770是單純的VerticalMode(16x4D=64D&16*1D=16D,即64D+16D)。簡(jiǎn)單的說,RV770更加趨緊于NV50ShaderUnit的執(zhí)行方式,而R600則相去甚遠(yuǎn)??偟膩碚f,NV更加趨緊于使用基于硬件調(diào)度器的Superscalar方式來開發(fā)ILP,而AMD更加趨緊于基于軟件編譯器調(diào)度的VLIW方式來開發(fā)ILP。到了RV870架構(gòu),AMD控制甚至緊縮資源,然后靠制程來拼規(guī)模,并最終讓SIMD盡可能接近通過暴力吞吐掩蓋延遲的最理想結(jié)局。然后就出現(xiàn)了我們現(xiàn)在看到的擁有1600個(gè)流處理器,體積卻依然小于Fermi架構(gòu)GF100的RadeonHD5870顯卡。AMD從R600核心開始,一直延續(xù)著上述理念設(shè)計(jì)GPU產(chǎn)品,R600身上有很多傳統(tǒng)GPU的影子,其StreamProcessingUnits很像上代的ShaderUnits,它依然是傳統(tǒng)的SIMD架構(gòu)。這些SIMD架構(gòu)的5DALU使用VLIW技術(shù),可以用一條指令完成多個(gè)對(duì)數(shù)值的計(jì)算。由于內(nèi)部的5個(gè)1DALU共享同一個(gè)指令發(fā)射端口,因此宏觀上R600應(yīng)該算是SIMD(單指令多數(shù)據(jù)流)的5D矢量架構(gòu)。但是R600內(nèi)部的這5個(gè)ALU與傳統(tǒng)GPU的ALU有所不同,它們是各自獨(dú)立能夠處理任意組合的1D/2D/3D/4D/5D指令,完美支持Co-issue(矢量指令和標(biāo)量指令并行執(zhí)行),因此微觀上可以將其稱為5DSuperscalar超標(biāo)量架構(gòu)。previnstructprevinstructprevinstructloadA(1)loadA(2)loadA(n)loadB(1)load日(2)loadB(n)C(2)=A(2)*B(2)C(n)=A(n)*B(n)storeC(1)store0(2)storeC(n)nextinstructnextinstructnextinstruct圖5AMD的流處理器結(jié)構(gòu)變化"SIMD雖然很大程度上緩解了標(biāo)量指令執(zhí)行效率低下的問題,但依然無法最大限度的發(fā)揮ALU運(yùn)算能力,尤其是一旦遇上循環(huán)嵌套分支等情況,SIMD在矢量處理方面高效能的優(yōu)勢(shì)將會(huì)被損失殆盡。同時(shí)VLIW的效率依賴于指令系統(tǒng)和編譯器的效率。SIMD加VLIW在通用計(jì)算上弱勢(shì)的原因就在于打包發(fā)送和拆包過程。NVIDIA從G80開始架構(gòu)作了變化,把原來的4D著色單元徹底打散,流處理器不再針對(duì)矢量設(shè)計(jì),而是統(tǒng)統(tǒng)改成了標(biāo)量運(yùn)算單元。每一個(gè)ALU都有自己的專屬指令發(fā)射器,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 肝性腦病護(hù)理
- 成人有創(chuàng)機(jī)械通氣氣道內(nèi)吸引技術(shù)操作護(hù)理團(tuán)標(biāo)解讀
- 情緒管理報(bào)告范文
- 二零二五年度智能交通系統(tǒng)客戶引薦提成協(xié)議
- 二零二五年度機(jī)關(guān)炊事員健康體檢聘用合同
- 美容美發(fā)店員工入股分紅及管理權(quán)移交合同(2025年)
- 二零二五年度生物醫(yī)藥產(chǎn)業(yè)抵押貸款合同
- 二零二五年度跨境運(yùn)輸汽車指標(biāo)租賃管理協(xié)議
- 二零二五年度家庭房產(chǎn)贈(zèng)與及后續(xù)維護(hù)服務(wù)合同
- 二零二五年度航空航天知識(shí)產(chǎn)權(quán)使用授權(quán)合同
- 小學(xué)生寒假生活成長冊(cè)PPT
- GB/T 25775-2010焊接材料供貨技術(shù)條件產(chǎn)品類型、尺寸、公差和標(biāo)志
- 全省檢察機(jī)關(guān)公訴業(yè)務(wù)知識(shí)考試試卷
- 10KV開關(guān)柜教學(xué)講解課件
- 損傷疼痛病(軟組織損傷)中醫(yī)臨床路徑
- 航模隊(duì)第一講-飛機(jī)基本原理和彈射機(jī)制作
- 花城版三年級(jí)下冊(cè)音樂教學(xué)計(jì)劃
- 全國計(jì)算機(jī)等級(jí)證書樣本
- 說明書-prsPRS-7177電能質(zhì)量監(jiān)測(cè)裝置
- 知名房地產(chǎn)抖音代運(yùn)營方案
- ISO 9001:2015新版質(zhì)量管理體系詳解與案例文件匯編
評(píng)論
0/150
提交評(píng)論