12.現(xiàn)代微機(jī)結(jié)構(gòu)-64位處理器_第1頁(yè)
12.現(xiàn)代微機(jī)結(jié)構(gòu)-64位處理器_第2頁(yè)
12.現(xiàn)代微機(jī)結(jié)構(gòu)-64位處理器_第3頁(yè)
12.現(xiàn)代微機(jī)結(jié)構(gòu)-64位處理器_第4頁(yè)
12.現(xiàn)代微機(jī)結(jié)構(gòu)-64位處理器_第5頁(yè)
已閱讀5頁(yè),還剩47頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

—Alpha21064和MIPSR4000第四章64位微處理器64位處理器的先驅(qū):相繼有:—HP的PA-RISC8000系列—Alpha2164—Sun的UltraSPARC—IBM的PowerG4—

Intel的Itanium(HP與Intel合作)—AMD的Opteron和Athlon64一、Itanium處理器基于EPIC(EPIC_ExplicitlyParallelnstructionComputing;顯性并行指令計(jì)算)的Itanium體系結(jié)構(gòu)(2001年5月)。Itanium體系結(jié)構(gòu)設(shè)計(jì)基于如下的原則:實(shí)現(xiàn)持續(xù)高性能;隨著技術(shù)發(fā)展而進(jìn)一步提高性能潛力;支持顯性并行指令計(jì)算(EPIC);提供一系列有利于增強(qiáng)指令級(jí)并行的特性;重點(diǎn)放在提高應(yīng)用軟件實(shí)際運(yùn)行的性能。EPIC既不是RISC也不是CISC,是一種吸收兩者優(yōu)勢(shì)的一種體系結(jié)構(gòu)。(一)Itanium1的主要特點(diǎn):1、顯性并行指令計(jì)算(EPIC)亂序執(zhí)行技術(shù)是當(dāng)前32位處理器和64位RISC芯片設(shè)計(jì)的主流;但缺點(diǎn)是(Intel公司認(rèn)為):(1)要求處理器具有較高的智能和復(fù)雜的邏輯,使芯片的結(jié)構(gòu)越來(lái)越復(fù)雜,也妨礙了主頻和性能的提高;(2)設(shè)計(jì)難度越來(lái)越大,使芯片的設(shè)計(jì)周期越來(lái)越長(zhǎng),難以滿足應(yīng)用發(fā)展的需要;(3)處理器運(yùn)行時(shí),未充分利用編譯技術(shù)來(lái)提高指令并行度,使軟硬件相結(jié)合的能力沒(méi)有得到充分發(fā)揮。EPIC體系結(jié)構(gòu)的基本設(shè)計(jì)思想是:(1)利用編譯程序和處理器協(xié)同能力,來(lái)提高指令并行度。(2)簡(jiǎn)化芯片邏輯結(jié)構(gòu),進(jìn)一步提高主頻和性能。EPIC體系結(jié)構(gòu)采用充分利用編譯程序提供的信息和調(diào)度能力來(lái)提高指令并行度(如:編譯時(shí)所產(chǎn)生程序運(yùn)行線路的猜測(cè)信息、編譯程序?qū)Τ绦驁?zhí)行過(guò)程的調(diào)度能力)。同時(shí)保證在程序運(yùn)行過(guò)程中發(fā)現(xiàn)猜測(cè)和調(diào)度有錯(cuò)時(shí),處理器仍然給出正確的結(jié)果。(3)提供大量的資源來(lái)實(shí)現(xiàn)EPIC,包括:

存儲(chǔ)編譯程序提供的信息為提高并行計(jì)算效率所需的處理單元大容量高速緩存(三級(jí)Cache:L0L1L3)128個(gè)64位整數(shù)寄存器128個(gè)82位浮點(diǎn)寄存器64個(gè)1位預(yù)測(cè)寄存器8個(gè)轉(zhuǎn)移寄存器128個(gè)專門的應(yīng)用寄存器。每條指令可引用2個(gè)輸入寄存器和1個(gè)輸出寄存器。2、指令集的體系結(jié)構(gòu)引入64位尋址和新的指令集,也包含一個(gè)IA-32模式的指令集,所有IA-64處理器都能執(zhí)行IA-32程序;指令長(zhǎng)度41位;采用存取式體系結(jié)構(gòu);由編譯程序,把可并行執(zhí)行程序段提交給硬件,以提高處理器并行執(zhí)行指令的能力;即“指令斷定”的技術(shù)(指令預(yù)測(cè)的改進(jìn)):重排指令順序,使多個(gè)分支能同時(shí)執(zhí)行。編譯程序還具有消除某些轉(zhuǎn)移指令的能力,以提高指令效率。

比如:IA-64設(shè)置一條比較指令來(lái)產(chǎn)生預(yù)測(cè)結(jié)果。該指令可以抽象為以下形式:pT,pFCMP(crelr2,r3)該指令用比較規(guī)則crel比較r2和r3。比較結(jié)果寫入預(yù)測(cè)寄存器pT,相反狀態(tài)寫入預(yù)測(cè)寄存器pF。對(duì)于指令:if(a>b)thenc=c+1elsed=de+f

用以下三條指令完成:

pT,pF=CMP(a>b)if(pT)c=c+1if(pF)d=de+f

從而消除了轉(zhuǎn)移。此外,編譯程序可以讓第二條和第三條指令并行執(zhí)行,然后視pT和pF的狀態(tài),采用正確結(jié)果。

每條指令需要有一個(gè)6位的預(yù)測(cè)標(biāo)識(shí)符,從一個(gè)64項(xiàng)的預(yù)測(cè)寄存器中選擇一個(gè)預(yù)測(cè)結(jié)果,支持實(shí)現(xiàn)指令斷定執(zhí)行、高效函數(shù)調(diào)用和軟件流水線等一系列先進(jìn)功能。3.高并行性

Itanium1允許以包(bundels)的形式(每個(gè)包有3條指令)發(fā)射不相關(guān)的、可并行執(zhí)行的指令,每個(gè)時(shí)鐘周期可發(fā)射2個(gè)包,即每時(shí)鐘周期發(fā)射6條指令。但由于資源的限制,發(fā)送6條指令的概率為25%,每周期平均發(fā)送3.85條指令。(二)Itanium2的主要特點(diǎn)其性能在不經(jīng)過(guò)任何調(diào)試和優(yōu)化的條件下比Itanium1提高50%到100%。

速度更快的高速緩存系統(tǒng)、每秒執(zhí)行更多指令的能力以及與系統(tǒng)其它組件間更高的通信帶寬。

1、新的高速緩存結(jié)構(gòu)

更高效檢索機(jī)制,約為Itanium1Cache的2倍

片內(nèi)集成3MBL3高速緩存2、每時(shí)鐘周期執(zhí)行更多指令

Itanium2每個(gè)時(shí)鐘周期最多也能發(fā)送6條指令,但發(fā)送6條指令的概率為90%,平均可以發(fā)送5.7條指令。3、更高的并行能力增加了2個(gè)指令整數(shù)單元,進(jìn)一步提高了指令并行能力。

4、提高了帶寬和吞吐量前端總線頻率由266MHz提高到400MHz、帶寬由64位提高到128位,整體帶寬提高了3倍。Itaniuml和Itanium2的基本參數(shù)對(duì)照:處理器Itanium-1Itanium-2主頻

800MHz1GHz線寬

0.18微米0.18微米晶體管數(shù)

25M214M前端總線

266MHz400MHz系統(tǒng)總線接口

64位128位最大帶寬

2.1GB/s6.4GB/s一級(jí)緩存

32KB(芯片內(nèi))32KB(芯片內(nèi))二級(jí)緩存

96KB(芯片內(nèi))256KB(芯片內(nèi))三級(jí)緩存

4MB(外置)3MB(芯片內(nèi))流水線級(jí)數(shù)

108寄存器328個(gè)328個(gè)執(zhí)行單元

4個(gè)整數(shù)單元2FP/2SIMD6個(gè)整數(shù)單元/2FP/2SIMD二、PowerPC970處理器

PowerPC970是Apple第5代產(chǎn)品(ApplePowerMacG5),屬于RISC體系的64位處理器,是第一種進(jìn)入個(gè)人電腦領(lǐng)域的64位處理器。0.13微米的生產(chǎn)工藝(Prescott為0.09微米),結(jié)合了SOI與9層銅導(dǎo)線互連(Prescott采用7層銅互連)。

1.執(zhí)行單元

2個(gè)整數(shù)運(yùn)算單元和2個(gè)雙精度浮點(diǎn)運(yùn)算單元

超標(biāo)量體系結(jié)構(gòu)

8級(jí)流水線結(jié)構(gòu)

硬件調(diào)度的指令亂序執(zhí)行2.緩存系統(tǒng)采用64KB一級(jí)數(shù)據(jù)緩存,64KB一級(jí)指令緩存,512KB二級(jí)緩存,系統(tǒng)工作時(shí),L1數(shù)據(jù)緩存可以同時(shí)預(yù)先讀取8個(gè)數(shù)據(jù)。3.

1GHz前端總線頻率比較:Pentium4前端總線頻率經(jīng)歷了從400MHz

533MHz

800MHz的過(guò)程。4.高分支預(yù)測(cè)精度精度達(dá)95%的分支預(yù)測(cè)邏輯數(shù)據(jù)帶寬達(dá)8GB/s。PowerPC的設(shè)計(jì)理念與IA-64有三點(diǎn)主要差異:

PowerPC的設(shè)計(jì)更注重線程級(jí)并行而不是指令級(jí)并行,因此不追求很高的流水線級(jí)數(shù);通過(guò)硬件實(shí)現(xiàn)指令亂序比靜態(tài)EPIC更有效;系統(tǒng)的瓶頸在于處理器與存儲(chǔ)器的接口,而不是處理器指令執(zhí)行的速度。三、AMD64位處理器

(一)AMD64位Opteron處理器(皓龍)1.主要技術(shù)特點(diǎn)

(1)既可以運(yùn)行32位程序,也可以運(yùn)行64位程序,并且在64位模式下,兼容X86指令集,與SSE2技術(shù)全兼容。

(2)直接連接結(jié)構(gòu)(DirectConnectArchitecture)減少系統(tǒng)瓶頸。包括:

存儲(chǔ)器與CPU直接連接,以優(yōu)化存儲(chǔ)器性能;

I/O與CPU直接連接,有利于I/O吞吐量;

CPU直接與CPU連接,有利于SMP的設(shè)計(jì)。Opteron處理器結(jié)構(gòu)框圖:集成DDR存儲(chǔ)器控制器

AMD64核L1指令

CacheL1數(shù)據(jù)

Cache

HyperTransport

L2Cache直接連接結(jié)構(gòu)(3)HyperTransport技術(shù)

HyperTransport技術(shù)是指:高速、高性能的主板上點(diǎn)對(duì)點(diǎn)互連集成電路。這一技術(shù)在同等條件下比PCI總線的速度有顯著提高。

HyperTransport為在處理器、I/O、子系統(tǒng)與它芯片之間的互聯(lián)提供了可伸縮的帶寬。Opteron可支持達(dá)3條的HyperTransport關(guān)聯(lián)鏈路,為處理器提供了19.2GB/s的帶寬。(4)采用90nmSOI工藝技術(shù),為L(zhǎng)1和L2數(shù)據(jù)Cache提供ECC校驗(yàn)(ErrorCorrectingCode).(5)三個(gè)整數(shù)執(zhí)行單元(12級(jí)流水線)和三個(gè)浮點(diǎn)執(zhí)行單元(18級(jí)流水線)。2.AMDx86的64位擴(kuò)展(1)指令擴(kuò)展通常所說(shuō)的64位指令,并不是指指令的全長(zhǎng)或操作碼的長(zhǎng)度為64位,而是指操作數(shù)所能達(dá)到的最大位數(shù)為64位。

AMD64在進(jìn)行64位擴(kuò)展時(shí),將8個(gè)通用寄存器增加到了64位,同時(shí)將指令指針和地址長(zhǎng)度增加到64位。為x86-64架構(gòu)添加了一個(gè)稱為“長(zhǎng)模式”的新模式,以便擴(kuò)展標(biāo)準(zhǔn)的x86架構(gòu)。長(zhǎng)模式由一個(gè)稱為L(zhǎng)MA(長(zhǎng)模式有效LongModeActive)的控制位來(lái)啟動(dòng)。當(dāng)LMA關(guān)閉時(shí)(LMA=0):處理器按照標(biāo)準(zhǔn)x86處理器工作,即傳統(tǒng)模式。這時(shí)處理器與所有的16、32位操作系統(tǒng)以及應(yīng)用程序兼容,不能執(zhí)行64位功能。如果長(zhǎng)模式啟動(dòng)(LMA=1):64位處理器的擴(kuò)展便可進(jìn)行操作,使系統(tǒng)按照處理器的能力自動(dòng)重新配置。長(zhǎng)模式包含兩種子模式:64位模式和兼容模式。用戶可以利用代碼段描述子中的兩個(gè)標(biāo)志來(lái)設(shè)定這兩種模式的代碼。如果啟動(dòng)長(zhǎng)模式:設(shè)定L=1且D=0,則按照64位模式進(jìn)行操作。設(shè)定L=0,處理器便按照兼容模式進(jìn)行操作。操作系統(tǒng)可與現(xiàn)有的16位及32位x86應(yīng)用程序二進(jìn)制兼容,應(yīng)用程序可獲的采用長(zhǎng)模式的64位操作系統(tǒng)支持,而無(wú)需重新編譯。第一個(gè)標(biāo)志是代碼段描述子中的“D”位;第二個(gè)位稱為“L位”,是代碼段描述子中并未使用的位(位53),它用以確定應(yīng)用程序能否獲得64位架構(gòu)的支持。兼容模式與64位模式的不同點(diǎn):兼容模式采用了16位或32位的保護(hù)模式規(guī)則,從應(yīng)用程序的角度來(lái)看,兼容模式沿用了舊的x86保護(hù)模式。從操作系統(tǒng)來(lái)看,地址變換、中斷以及系統(tǒng)數(shù)據(jù)結(jié)構(gòu)都采用64位長(zhǎng)模式機(jī)制。64位模式支持64位虛擬地址空間,因此需要采用64位的操作系統(tǒng)及相應(yīng)工具。部分指令操作碼及前綴字節(jié)為此也需要重新設(shè)定,以便可以將寄存器擴(kuò)展并執(zhí)行64位尋址功能。(2)寄存器擴(kuò)展AMD的x86-64架構(gòu)將目前用于16位以及32位指令的尋址方式進(jìn)行擴(kuò)展。用于16位操作,寄存器A的2個(gè)字節(jié)定義為AX

用于32位操作,寄存器A的4個(gè)字節(jié)定義為EAX

用于64位操作,寄存器A的8個(gè)字節(jié)定義為RAX

在64位模式操作時(shí),通用寄存器擴(kuò)展至64位,即RAX、RBX、RCX、RDX、RDI、RSI、RBP、RSP、RIP、以及RFLAGS。此外,新添加了8個(gè)64位通用寄存器R8~R15。寄存器擴(kuò)展還增加8個(gè)新的SIMD寄存器XMM8至XMM15。(二)AMDAthlon64位處理器(速龍)AMD的64位桌面型處理器,其基本結(jié)構(gòu)和工作模式與Opteron處理器基本相同。AMD雙核Athlon64處理器—Athlon64X2Athlon64X2內(nèi)部整合了兩個(gè)重要部件:

仲裁部件(SystemRequestQueue-SRQ)作用是對(duì)兩個(gè)核心的任務(wù)進(jìn)行仲裁交叉開(kāi)關(guān)(CrossbarSwitch)其作用是對(duì)兩個(gè)核心之間的通信進(jìn)行協(xié)調(diào)仲裁模塊和交叉開(kāi)關(guān)與內(nèi)存控制器以及HyperTransport配合,可讓每個(gè)核心都有獨(dú)享的I/O帶寬、避免資源爭(zhēng)搶,減少內(nèi)存延遲。硬件自動(dòng)完成任務(wù)在兩個(gè)核之間分配。Athlon64X2內(nèi)部架構(gòu)如下圖所示:存儲(chǔ)器控制器

HT鏈路處理器核心11ML2Cache64K64K指令Cache數(shù)據(jù)Cache處理器核心21ML2Cache64K64K指令Cache數(shù)據(jù)Cache系統(tǒng)請(qǐng)求隊(duì)列(SystemRequestQueue)AMD雙核心強(qiáng)調(diào)是真正將兩個(gè)核心整合在一個(gè)硅晶片上,更真正發(fā)揮雙核心效率。這種結(jié)構(gòu)的另一個(gè)優(yōu)點(diǎn)是,由于Athlon64X2兩顆核心并不需要通過(guò)外部FSB通信這一途徑,所有進(jìn)程都在CPU核心范圍之內(nèi)完成。因此,在高負(fù)載的多線程/多任務(wù)環(huán)境下可以獲得較高的性能。與Athlon64X2不同的是,PentiumD處理器將任務(wù)分配控制單元和仲裁單元從CPU中脫離出來(lái),放在北橋芯片中。因此,實(shí)現(xiàn)任務(wù)在兩個(gè)內(nèi)核之間的分配是在處理器之外進(jìn)行的。四、UltraSpaceIV處理器1.UltraSpaceIV的主要特點(diǎn):(1)主頻1.2GHz,0.13微米制造工藝。(2)模塊化架構(gòu)具有4個(gè)功能單元(4路超標(biāo)量)。(3)多級(jí)并行性在數(shù)據(jù)級(jí)具有SIMD指令;指令級(jí)具有4路超標(biāo)量;在線程執(zhí)行級(jí)具有多線程軟件支持。(4)對(duì)媒體數(shù)據(jù)的支持各功能單元,都能執(zhí)行的SIMD指令。(5)與數(shù)據(jù)類型無(wú)關(guān)的寄存器通用寄存器可保存任意數(shù)據(jù)類型,可被任意指令訪問(wèn),沒(méi)有整數(shù)和浮點(diǎn)寄存器的區(qū)別,允許寄存器按各個(gè)應(yīng)用程序的需要分配。(6)指令成組主要通過(guò)編譯器將指令成組,使對(duì)應(yīng)的功能單元并行執(zhí)行。(7)線程級(jí)推測(cè)執(zhí)行包括:

時(shí)空計(jì)算技術(shù)(Space-TimeComputing)

通用多線程技術(shù)(VerticalMultithreading)

時(shí)空計(jì)算技術(shù)主要指多線程在各處理器單元間推測(cè)執(zhí)行,如果當(dāng)前正在執(zhí)行的線程由于某種原因暫時(shí)停滯,處理器可以從線程組中取出它認(rèn)為將要執(zhí)行的線程,并將其分配給處理器單元執(zhí)行。

通用多線程技術(shù)主要解決單個(gè)處理單元內(nèi)多個(gè)線程執(zhí)行時(shí)延。如果當(dāng)前執(zhí)行的線程由于Cache未命中(等待從系統(tǒng)存儲(chǔ)器中裝入數(shù)據(jù)),處理器單元可以立即切換到執(zhí)行其它的線程,如象線程流水線。2.MAJC架構(gòu)設(shè)計(jì)

MAJC是專門為Java語(yǔ)言設(shè)計(jì)的處理器芯片。設(shè)計(jì)時(shí)采用模塊式結(jié)構(gòu)(類似于芯片級(jí)并行處理機(jī)),MAJC結(jié)構(gòu)芯片有望產(chǎn)生出一個(gè)基于Java語(yǔ)言的微處理器家族。MAJC采用靜態(tài)調(diào)度的超長(zhǎng)指令字VLIW(與Itanium相似),有別于動(dòng)態(tài)超標(biāo)量指令調(diào)度。

如下圖所示:編譯器指令重調(diào)度(硬件邏輯)CPU執(zhí)行單元執(zhí)行單元執(zhí)行單元執(zhí)行單元?jiǎng)討B(tài)超標(biāo)量調(diào)度

靜態(tài)超標(biāo)量調(diào)度

編譯器CPU執(zhí)行單元執(zhí)行單元執(zhí)行單元執(zhí)行單元超長(zhǎng)指令字VLIW是一個(gè)128位的指令包(MAJC稱為packet,IA-64稱為bundele),每個(gè)指令包含34條不相關(guān)可并行執(zhí)行的指令(MAJC是4條,IA-64是3條)。通過(guò)將指令集中的指令分類,并建立與指令執(zhí)行功能單元的對(duì)應(yīng)關(guān)系,編譯器可靜態(tài)調(diào)度指令(優(yōu)化代碼),使多個(gè)功能單元滿負(fù)荷并行工作。

在超長(zhǎng)指令字VLIW方面,MAJC與IA-64有相似之處,但有以下區(qū)別:(1)IA-64是定長(zhǎng)128位的指令包,并行指令不足時(shí),需要插入NOP指令;MAJC是可變長(zhǎng)指令包(32到128位),無(wú)須插入NOP指令。(2)IA-64的每個(gè)功能單元基本專用(如整數(shù)、浮點(diǎn)、SIMD單元),且通用寄存器也是由各功能單元共用。(3)MAJC的每個(gè)功能單元的數(shù)據(jù)類型無(wú)關(guān),任意功能單元可操作任意數(shù)據(jù)類型,即實(shí)際運(yùn)行中可以同時(shí)使用所有功能單元。每個(gè)功能單元有自己的非共享局部寄存器、局部控制邏輯(指令/譯碼)、局部狀態(tài)信息和局部連線。(4)MAJC的寄存器與數(shù)據(jù)類型無(wú)關(guān),每個(gè)功能單元除了訪問(wèn)自己私有的局部寄存器,還可以訪問(wèn)全局的通用寄存器。

寄存器文件(全局)寄存器文件(局部)寄存器文件(局部)寄存器文件(局部)寄存器文件(局部)執(zhí)行單元MAJC的處理器單元執(zhí)行單元執(zhí)行單元執(zhí)行單元新一代UltraSPARCⅣ+處理器采用0.9微米的工藝,主頻從1.8GHz起始。該UltraSPARCⅣ+擴(kuò)展了高速緩存,改進(jìn)了轉(zhuǎn)移預(yù)測(cè)機(jī)制,增強(qiáng)指令預(yù)取能力以及新的計(jì)算方法等新技術(shù),使UltraSPARCⅣ+的應(yīng)用吞吐量比現(xiàn)有的UltraSPARCⅣ處理器提高了一倍。五、Alpha212641999年推出,也稱為EV6,改型有EV67、EV68C和EV68A。

主頻達(dá)到1GHz,0.18m工藝。芯片上集成1500萬(wàn)只晶體管;地址總線和數(shù)據(jù)總線均為64位(全64位處理器);擁有4個(gè)整數(shù)運(yùn)算單元和2個(gè)浮點(diǎn)運(yùn)算單元。具有完善的指令預(yù)測(cè)能力高存儲(chǔ)系統(tǒng)帶寬(超過(guò)1GB/s),增加了處理視頻信息的功能,使其多媒體處理能力增強(qiáng)?;咎攸c(diǎn):其它特點(diǎn):

亂序執(zhí)行能力強(qiáng)Alpha21264能夠重調(diào)度80條指令。與之相比的同時(shí)期處理器如:Intel的P6架構(gòu)能夠調(diào)度40條指令HP的PA-8x00能夠調(diào)度56條指令MIPS的R12000能夠調(diào)度48條指令I(lǐng)BM的Power3能夠調(diào)度32條指令PowerPCG4只能調(diào)度5條指令

Sun的UltraSPARCII不支持亂序執(zhí)行。分支預(yù)測(cè)邏輯采用2級(jí)預(yù)測(cè)體系,即本地預(yù)測(cè)器和全局預(yù)測(cè)器,分別記錄有1024條和4096條記錄。兩者采用不同預(yù)測(cè)算法并獨(dú)立運(yùn)行。本地預(yù)測(cè)器用于每一個(gè)分支預(yù)測(cè),全局預(yù)測(cè)器則用于跟蹤整個(gè)分支序列。如果本地預(yù)測(cè)器和全局預(yù)測(cè)器的預(yù)測(cè)結(jié)果不一致,則選擇記錄多的預(yù)測(cè)器的結(jié)論,以得到更精確的結(jié)果。采用兩個(gè)不同級(jí)別的分支預(yù)測(cè)器協(xié)調(diào)工作,降低了分支預(yù)測(cè)失敗的的次數(shù)。可運(yùn)行多種操作系統(tǒng)21264芯片保持了Alpha處理器可以運(yùn)行多種操作系統(tǒng)的特點(diǎn),包括Tru64Unix、OpenVMS和Linux等,這也是Alpha處理器的一個(gè)優(yōu)勢(shì)。

從2001年開(kāi)始,IBM、SONY和東芝開(kāi)始Cell多核處理器的開(kāi)發(fā)。設(shè)計(jì)目標(biāo)是大幅度提高多媒體應(yīng)用的性能。目前,Cell處理器每秒可以執(zhí)行2560億次計(jì)算,遠(yuǎn)超過(guò)安騰2。

六、多核CELL處理器

Cell處理器是一種向量化處理器。向量處理指令可以順序處理同一向量的每個(gè)分量,即一條向量指令可處理n個(gè)或n對(duì)操作數(shù)。向量處理與指令流水線處理的異同:從并行處理的角度,向量處理屬于“運(yùn)算流水線”類型,即在向量運(yùn)算的流水線中,設(shè)置幾個(gè)專用的運(yùn)算單元,對(duì)數(shù)據(jù)進(jìn)行流水線作業(yè)處理,從而可實(shí)現(xiàn)對(duì)數(shù)據(jù)的并行重疊處理。而指令流水線是將指令的執(zhí)行過(guò)程分解成處理時(shí)間大致相等的幾個(gè)步驟(如取指、譯碼、執(zhí)行等)。幾個(gè)步驟的處理分別由專用的硬件來(lái)承擔(dān),以達(dá)到并行處理并提高CPU速度的目的。向量處理器的結(jié)構(gòu)如下圖所示:A(6)A(7)…向量A…B(6)B(7)…向量BC(0)向量C階數(shù)比較A(5)B(5)B(4)A(4)對(duì)階加法運(yùn)算B(3)A(3)規(guī)格化C(2)C(1)………指令流水線處理器的結(jié)構(gòu)如下圖所示:ADDSUBMOV取指執(zhí)行譯碼SUBADD….試產(chǎn)的Cell處理器:

集成2.34億只晶體管,采用0.09m及SOI工藝;

具有9個(gè)處理器核心(1個(gè)主處理器搭配8個(gè)協(xié)處理器);

時(shí)鐘頻率可達(dá)4GHz以上;

可根據(jù)性能需求增加或減少協(xié)處理器的數(shù)量;主處理器可同時(shí)運(yùn)行2個(gè)線程,其余8個(gè)協(xié)處理器可各處理1個(gè)線程(即可同時(shí)運(yùn)行10個(gè)線程)Cell處理器的結(jié)構(gòu):其中:SPESPESPESPESPESPESPESPE總線接口控制XIO接口L1CacheL2Cache

PXUPPE單元連接總線EIB(416字節(jié)數(shù)據(jù)環(huán))

(1)PPE是處理器的RISC核心該核心兼容PowerPC指令的雙線程雙發(fā)射順序執(zhí)行(無(wú)硬件的指令重調(diào)度支持)。PPE核心主要包含3個(gè)部分:

L2Cache512K

32KBL1指令和數(shù)據(jù)Cache

執(zhí)行單元PXU

CELL設(shè)計(jì)者認(rèn)為:即使4發(fā)射甚至8發(fā)射的亂序執(zhí)行核心,在單一程序上的IPC也很少能超過(guò)2。但是發(fā)射寬度加倍之后,增加的設(shè)計(jì)工作復(fù)雜度要遠(yuǎn)遠(yuǎn)超過(guò)一倍。PPE包含VMX(PowerPC上的多媒體擴(kuò)展)。VMX是一個(gè)向量處理單元,類似于SSE/SSE2的SIMD擴(kuò)展。PPE中的VMX向量單元加上8個(gè)SPE向量處理單元共計(jì)9個(gè)處理單元,各處理單元都可并行運(yùn)行。

VMX有32個(gè)128位寄存器,每個(gè)寄存器可以保存16個(gè)8位,或者8個(gè)16位或者4個(gè)32位數(shù)據(jù)。與x86中的MMX、SSE、SSE2/SSE3相比,VMX有更多的寄存器。(2)8個(gè)向量化SPE處理單元簡(jiǎn)單定義:

標(biāo)量處理:一次可處理一個(gè)或一對(duì)數(shù)據(jù)向量處理:一次可處理N個(gè)或N對(duì)數(shù)據(jù)

CELL的8個(gè)SPE是相互獨(dú)立,向量寬度為寄存器寬度(128位),一個(gè)SPE中有

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論