計(jì)算機(jī)組成與結(jié)構(gòu):第十八章 多核計(jì)算機(jī)_第1頁(yè)
計(jì)算機(jī)組成與結(jié)構(gòu):第十八章 多核計(jì)算機(jī)_第2頁(yè)
計(jì)算機(jī)組成與結(jié)構(gòu):第十八章 多核計(jì)算機(jī)_第3頁(yè)
計(jì)算機(jī)組成與結(jié)構(gòu):第十八章 多核計(jì)算機(jī)_第4頁(yè)
計(jì)算機(jī)組成與結(jié)構(gòu):第十八章 多核計(jì)算機(jī)_第5頁(yè)
已閱讀5頁(yè),還剩24頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

WilliamStallings

ComputerOrganization

andArchitecture

8thEdition第18章多核計(jì)算機(jī)硬件性能問(wèn)題微處理器系統(tǒng)在執(zhí)行性能上已經(jīng)歷了指數(shù)增長(zhǎng)芯片處理器結(jié)構(gòu)上的精練時(shí)鐘頻率的提高增加并行流水線超標(biāo)量并發(fā)多線程(SMT)功耗芯片上晶體管數(shù)目增加需要采取更精細(xì)化設(shè)計(jì)芯片密度和時(shí)鐘頻率增加更難設(shè)計(jì)、制造以及調(diào)試芯片結(jié)構(gòu)方案Intel硬件趨勢(shì)增加復(fù)雜性芯片密度和時(shí)鐘頻率的增加伴隨功的需求成指數(shù)增長(zhǎng)Cache存儲(chǔ)器使用更多的芯片面積內(nèi)存晶體管較小功密度的數(shù)量級(jí)低于邏輯2015300平方米裸片上有大約1000億晶體管的微處理器芯片100MBcache內(nèi)存邏輯部分10億晶體管Pollack規(guī)則:性能增長(zhǎng)與復(fù)雜度增加的平方根嚴(yán)格地成比例兩倍處理器核中邏輯部分,增加40%的性能多核潛在地提供了性能的近線性(near-linear)提高任何一個(gè)執(zhí)行線程不可能有效利用所有內(nèi)存功耗內(nèi)存考察晶體管芯片利用情況軟件性能問(wèn)題多核結(jié)構(gòu)潛在性能受益于有效開(kāi)發(fā)應(yīng)用程序并行資源的能力甚至連一小段連續(xù)代碼都產(chǎn)生了值得關(guān)注的影響如果代碼只有10%是固定連續(xù)的(f=0.9),那么該程序在一個(gè)8核處理器系統(tǒng)上僅能獲得4.7倍的性能提升多處理器上通信和任務(wù)分配會(huì)導(dǎo)致軟件開(kāi)銷,以及內(nèi)存一致性開(kāi)銷一些應(yīng)用能有效開(kāi)發(fā)一個(gè)多核系統(tǒng)多線程有效應(yīng)用數(shù)據(jù)庫(kù)并行處理多個(gè)相對(duì)獨(dú)立交易的服務(wù)器多線程本地應(yīng)用LotusDomino,SiebelCRM多處理應(yīng)用Oracle數(shù)據(jù)庫(kù),SAP,PeopleSoftJava應(yīng)用Java虛擬機(jī)是一個(gè)提供調(diào)度和Java應(yīng)用內(nèi)存管理的多線程處理Sun的Java應(yīng)用服務(wù)器,BEA的Weblogic,IBM的Websphere,以及開(kāi)源的Tomcat應(yīng)用服務(wù)器多實(shí)例應(yīng)用并行運(yùn)行多個(gè)應(yīng)用實(shí)例的多核結(jié)構(gòu)E.g.Value游戲軟件多核組織結(jié)構(gòu)芯片上核處理器的數(shù)目Cache內(nèi)存的級(jí)數(shù)共享cache內(nèi)存的數(shù)目he多核系統(tǒng)的常見(jiàn)結(jié)構(gòu):(a)ARM11MPCore(b)AMDOpteron(c)IntelCoreDuo(d)IntelCorei7多核系統(tǒng)結(jié)構(gòu)方案共享二級(jí)cache的優(yōu)勢(shì)建設(shè)性的相互作用能夠減少整體失效率一個(gè)相關(guān)的優(yōu)勢(shì)是被多核共享的數(shù)據(jù)在共享的內(nèi)存層上不會(huì)被復(fù)制合適的幀替換算法,分配給每個(gè)核的共享cache數(shù)目是動(dòng)態(tài)的存儲(chǔ)器訪問(wèn)局部性不強(qiáng)的線程能夠占用更多的Cache空間通過(guò)共享內(nèi)存空間,處理器內(nèi)部通信容易實(shí)現(xiàn)使用一個(gè)共享的二級(jí)cache限制了對(duì)于一級(jí)cache的內(nèi)存一致性問(wèn)題,從而提供一些額外性能優(yōu)勢(shì)擁有專門二級(jí)cache的一個(gè)潛在優(yōu)勢(shì)是每個(gè)核享有對(duì)其私有二級(jí)cache更快速的訪問(wèn)線程展示強(qiáng)大局部性的優(yōu)勢(shì)所在一個(gè)共享三級(jí)cache能提供更好的性能單核結(jié)構(gòu)IntelCoreDuo采用超標(biāo)量核IntelCorei7使用SMT核SMT能按比例提高多核系統(tǒng)支持的硬件層上線程的數(shù)目每個(gè)核支持四個(gè)并發(fā)線程的多核系統(tǒng),在應(yīng)用層看來(lái)與一個(gè)擁有16個(gè)核的多核系統(tǒng)相同Intelx86多核結(jié)構(gòu)

(1)2006兩個(gè)

x86超標(biāo)量處理器,一個(gè)共享二級(jí)cache每個(gè)核有它自己的專門一級(jí)cache每個(gè)核有一個(gè)32KB指令cache和一個(gè)32KB的數(shù)據(jù)cache每個(gè)核有一個(gè)32KB指令cache和一個(gè)32KB的數(shù)據(jù)cache管理芯片散熱獲取最大處理器性能提高人類工程學(xué)高級(jí)可編程中斷控制

(APIC)提供一個(gè)內(nèi)部處理器中斷接受I/O中斷,發(fā)送這些給合適的核每個(gè)APIC包括一個(gè)定時(shí)器,它能通過(guò)OS設(shè)置以產(chǎn)生一個(gè)中斷給本地核Intelx86多核結(jié)構(gòu)

(2)功耗管理邏輯監(jiān)視熱量條件以及CPU活動(dòng)調(diào)節(jié)電壓和功耗能在單個(gè)的邏輯控制中切換共享的2MB二級(jí)cache空間動(dòng)態(tài)分配附帶一級(jí)cache的MESI協(xié)議擴(kuò)展協(xié)議以支持多芯片被組織為一個(gè)對(duì)稱多處理器(SMP)系統(tǒng)二級(jí)cache在本地和外部共享總線接口Intelx86多核結(jié)構(gòu)-

Corei72008.114個(gè)

x86SMT處理器專門二級(jí)cache,共享的三級(jí)cacheCache預(yù)取機(jī)制DDR3內(nèi)存控制器支持三個(gè)8字節(jié)寬的通道,因此總的總線位寬為192位,總數(shù)據(jù)速率達(dá)到32GB/S無(wú)需FSB快速路徑互聯(lián)(QPI)cache一致,點(diǎn)到點(diǎn)的鏈接在連接的芯片之間進(jìn)行高速通信鏈接工作在6.4GB/S(每秒傳輸量),每傳送16位增加到12.8GB/S總的帶寬達(dá)到25.6GB/SARM11MPCore可以被配置達(dá)到每個(gè)芯片上有著四個(gè)處理器,每個(gè)處理器擁有自己的一級(jí)指令和數(shù)據(jù)cache分布式中斷控制器(DIC)定時(shí)器看門狗軟件出錯(cuò)時(shí)發(fā)出警報(bào)設(shè)置它一個(gè)預(yù)定的值,然后計(jì)數(shù)遞減直到0看門狗的值達(dá)到0,則發(fā)出一個(gè)警報(bào)CPU接口處理中斷響應(yīng),中斷屏蔽(masking),以及中斷競(jìng)爭(zhēng)響應(yīng)CPU單個(gè)ARM11處理器,各個(gè)CPU都作為一個(gè)MP11CPU向量浮點(diǎn)(VFP)單元硬件上實(shí)現(xiàn)浮點(diǎn)運(yùn)算的協(xié)處理器一級(jí)cache監(jiān)聽(tīng)控制單元(SCU)一級(jí)數(shù)據(jù)cache的一致性ARM11

MPCore

方塊圖ARM11MPCore中斷處理DIC比較來(lái)自大量資源中的中斷屏蔽中端區(qū)分中斷優(yōu)先級(jí)分配中斷給目標(biāo)

MP11CPU跟蹤中斷狀態(tài)軟件產(chǎn)生中斷MP11CPU有多種獨(dú)立的中斷內(nèi)存映射MP11CPU通過(guò)SCU使用一個(gè)私有接口訪問(wèn)DIC提供發(fā)送一個(gè)中斷需求給一個(gè)單個(gè)CPU或多個(gè)CPU的一種方法提供一種處理器間通信的方法提供一種處理器間通信的方法DIC路由一個(gè)中斷僅能被直接發(fā)送給一個(gè)特殊處理器一個(gè)中斷被直接發(fā)送給一個(gè)被定義的處理器組一個(gè)中斷能被直接發(fā)送給所有處理器OS可以產(chǎn)生中斷給:所有(除了特殊)特殊其它CPU運(yùn)行在不同CPU上的線程通信,中斷機(jī)制為消息傳遞采用了共享內(nèi)存一個(gè)線程被一個(gè)處理器間通信中斷給打斷時(shí),它會(huì)讀取合適的共享內(nèi)存塊,以從觸發(fā)該中斷的線程中找回消息中斷狀態(tài)非活動(dòng)未聲明在多處理環(huán)境已完全中被一CPU處理,但仍然在某些CPU內(nèi)是在等待或活動(dòng),因而在中斷資源上可能未被清除的中斷等待已被聲明CPU上沒(méi)有開(kāi)始處理的中斷活動(dòng)在一CPU上已開(kāi)始處理,但未處理完的中斷當(dāng)一個(gè)新的高優(yōu)先級(jí)中斷打斷MP11CPU中斷處理時(shí),它能搶占一個(gè)活動(dòng)中斷Interrupt來(lái)源處理器間的中斷

(IPI)私有中斷ID0-ID15僅能被軟件觸發(fā)一個(gè)IPI的優(yōu)先級(jí)根據(jù)接收的CPU確定,而不是發(fā)送的私有定時(shí)器和(或)看門狗中斷ID29和

ID30繼承FIQ行在繼承IRQ方式中,繼承的FIQ引腳在每個(gè)CPU基礎(chǔ)上,繞過(guò)中斷分配邏輯,并直接驅(qū)動(dòng)中斷需求給CPU硬件中斷硬件中斷被連接中斷輸入行的可編程事件觸發(fā)lines支持最大224個(gè)中斷輸入行硬件從ID32開(kāi)始ARM11MPCore中斷分布內(nèi)存一致性監(jiān)聽(tīng)控制單元(SCU)設(shè)計(jì)用來(lái)解決許多與共享數(shù)據(jù)訪問(wèn)和一致性擁塞帶來(lái)的可測(cè)量性限制相關(guān)的傳統(tǒng)瓶頸問(wèn)題一級(jí)cache一致性方案是基于MESI協(xié)議直接數(shù)據(jù)插入(DDI)從一CPU的一級(jí)數(shù)據(jù)cache復(fù)制清除的數(shù)據(jù)到另一CPU的一級(jí)數(shù)據(jù)cache減少了從一級(jí)cache到二級(jí)cache的讀行為一個(gè)本地一級(jí)cache的失效被一個(gè)遠(yuǎn)程一級(jí)cache而不是通過(guò)訪問(wèn)共享二級(jí)cache以解決標(biāo)簽

RAMs副本一個(gè)cache內(nèi)每行的主存位置是被該行一個(gè)標(biāo)簽所定義標(biāo)簽?zāi)茏鳛橐粋€(gè)與cache中行數(shù)同樣長(zhǎng)度的獨(dú)立RAM塊被實(shí)現(xiàn)SCU使用的一級(jí)標(biāo)簽RAM的副本,用來(lái)在發(fā)送一致性命令給相關(guān)CPU之前,檢查數(shù)據(jù)可獲得性

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論