下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、 多核處理器的九大關(guān)鍵技術(shù) 王飆陳皖蘇與單核處理器相比,多核處理器在體系結(jié)構(gòu)、軟件、功耗和安全性設(shè)計等方面面臨著巨大的挑戰(zhàn),但也蘊含著巨大的潛能。cmp和smt一樣,致力于發(fā)掘計算的粗粒度并行性。cmp可以看做是隨著大規(guī)模集成電路技術(shù)的發(fā)展,在芯片容量足夠大時,就可以將大規(guī)模并行處理機結(jié)構(gòu)中的smp(對稱多處理機)或dsm(分布共享處理機)節(jié)點集成到同一芯片內(nèi),各個處理器并行執(zhí)行不同的線程或進程。在基于smp結(jié)構(gòu)的單芯片多處理機中,處理器之間通過片外cache或者是片外的共享存儲器來進行通信。而基于dsm結(jié)構(gòu)的單芯片多處理器中,處理器間通過連
2、接分布式存儲器的片內(nèi)高速交叉開關(guān)網(wǎng)絡(luò)進行通信。由于smp和dsm已經(jīng)是非常成熟的技術(shù)了,cmp結(jié)構(gòu)設(shè)計比較容易,只是后端設(shè)計和芯片制造工藝的要求較高而已。正因為這樣,cmp成為了最先被應(yīng)用于商用cpu的“未來”高性能處理器結(jié)構(gòu)。 雖然多核能利用集成度提高帶來的諸多好處,讓芯片的性能成倍地增加,但很明顯的是原來系統(tǒng)級的一些問題便引入到了處理器內(nèi)部。 1 核結(jié)構(gòu)研究: 同構(gòu)還是異構(gòu) cmp的構(gòu)成分成同構(gòu)和異構(gòu)兩類,同構(gòu)是指內(nèi)部核的結(jié)構(gòu)是相同的,而異構(gòu)是指內(nèi)部的核結(jié)構(gòu)是不同的。為此,面對不同的應(yīng)用研究核結(jié)構(gòu)的實現(xiàn)對未來微處理器的性能至關(guān)重要。核本身的結(jié)構(gòu),關(guān)系到整個芯片的面積、功耗和性能。怎樣繼承和
3、發(fā)展傳統(tǒng)處理器的成果,直接影響多核的性能和實現(xiàn)周期。同時,根據(jù)amdahl定理,程序的加速比決定于串行部分的性能,所以,從理論上來看似乎異構(gòu)微處理器的結(jié)構(gòu)具有更好的性能。 核所用的指令系統(tǒng)對系統(tǒng)的實現(xiàn)也是很重要的,采用多核之間采用相同的指令系統(tǒng)還是不同的指令系統(tǒng),能否運行操作系統(tǒng)等,也將是研究的內(nèi)容之一。 2 程序執(zhí)行模型 多核處理器設(shè)計的首要問題是選擇程序執(zhí)行模型。程序執(zhí)行模型的適用性決定多核處理器能否以最低的代價提供最高的性能。程序執(zhí)行模型是編譯器設(shè)計人員與系統(tǒng)實現(xiàn)人員之間的接口。編譯器設(shè)計人員決定如何將一種高級語言程序按一種程序執(zhí)行模型轉(zhuǎn)換成一種目標機器語言程序; 系統(tǒng)實現(xiàn)人員則決定該程
4、序執(zhí)行模型在具體目標機器上的有效實現(xiàn)。當目標機器是多核體系結(jié)構(gòu)時,產(chǎn)生的問題是: 多核體系結(jié)構(gòu)如何支持重要的程序執(zhí)行模型?是否有其他的程序執(zhí)行模型更適于多核的體系結(jié)構(gòu)?這些程序執(zhí)行模型能多大程度上滿足應(yīng)用的需要并為用戶所接受? 3 cache設(shè)計: 多級cache設(shè)計與一致性問題 處理器和主存間的速度差距對cmp來說是個突出的矛盾,因此必須使用多級cache來緩解。目前有共享一級cache的cmp、共享二級cache的cmp以及共享主存的cmp。通常,cmp采用共享二級cache的cmp結(jié)構(gòu),即每個處理器核心擁有私有的一級cache,且所有處理器核心共享二級cache。 cache自身的體系結(jié)
5、構(gòu)設(shè)計也直接關(guān)系到系統(tǒng)整體性能。但是在cmp結(jié)構(gòu)中,共享cache或獨有cache孰優(yōu)孰劣、需不需要在一塊芯片上建立多級cache,以及建立幾級cache等等,由于對整個芯片的尺寸、功耗、布局、性能以及運行效率等都有很大的影響,因而這些都是需要認真研究和探討的問題。 另一方面,多級cache又引發(fā)一致性問題。采用何種cache一致性模型和機制都將對cmp整體性能產(chǎn)生重要影響。在傳統(tǒng)多處理器系統(tǒng)結(jié)構(gòu)中廣泛采用的cache一致性模型有: 順序一致性模型、弱一致性模型、釋放一致性模型等。與之相關(guān)的cache一致性機制主要有總線的偵聽協(xié)議和基于目錄的目錄協(xié)議。目前的cmp系統(tǒng)大多采用基于總線的偵聽協(xié)議
6、。 4 核間通信技術(shù) cmp處理器的各cpu核心執(zhí)行的程序之間有時需要進行數(shù)據(jù)共享與同步,因此其硬件結(jié)構(gòu)必須支持核間通信。高效的通信機制是cmp處理器高性能的重要保障,目前比較主流的片上高效通信機制有兩種,一種是基于總線共享的cache結(jié)構(gòu),一種是基于片上的互連結(jié)構(gòu)。 總線共享cache結(jié)構(gòu)是指每個cpu內(nèi)核擁有共享的二級或三級cache,用于保存比較常用的數(shù)據(jù),并通過連接核心的總線進行通信。這種系統(tǒng)的優(yōu)點是結(jié)構(gòu)簡單,通信速度高,缺點是基于總線的結(jié)構(gòu)可擴展性較差。 基于片上互連的結(jié)構(gòu)是指每個cpu核心具有獨立的處理單元和cache,各個cpu核心通過交叉開關(guān)或片上網(wǎng)絡(luò)等方式連接在一起。各個cp
7、u核心間通過消息通信。這種結(jié)構(gòu)的優(yōu)點是可擴展性好,數(shù)據(jù)帶寬有保證; 缺點是硬件結(jié)構(gòu)復(fù)雜,且軟件改動較大。 也許這兩者的競爭結(jié)果不是互相取代而是互相合作,例如在全局范圍采用片上網(wǎng)絡(luò)而局部采用總線方式,來達到性能與復(fù)雜性的平衡。 5 總線設(shè)計 傳統(tǒng)微處理器中,cache不命中或訪存事件都會對cpu的執(zhí)行效率產(chǎn)生負面影響,而總線接口單元(biu)的工作效率會決定此影響的程度。當多個cpu核心同時要求訪問內(nèi)存或多個cpu核心內(nèi)私有cache同時出現(xiàn)cache不命中事件時,biu對這多個訪問請求的仲裁機制以及對外存儲訪問的轉(zhuǎn)換機制的效率決定了cmp系統(tǒng)的整體性能。因此尋找高效的多端口總線接口單元(biu
8、)結(jié)構(gòu),將多核心對主存的單字訪問轉(zhuǎn)為更為高效的猝發(fā)(burst)訪問; 同時尋找對cmp處理器整體效率最佳的一次burst訪問字的數(shù)量模型以及高效多端口biu訪問的仲裁機制將是cmp處理器研究的重要內(nèi)容。 6 操作系統(tǒng)設(shè)計: 任務(wù)調(diào)度、中斷處理、同步互斥 對于多核cpu,優(yōu)化操作系統(tǒng)任務(wù)調(diào)度算法是保證效率的關(guān)鍵。一般任務(wù)調(diào)度算法有全局隊列調(diào)度和局部隊列調(diào)度。前者是指操作系統(tǒng)維護一個全局的任務(wù)等待隊列,當系統(tǒng)中有一個cpu核心空閑時,操作系統(tǒng)就從全局任務(wù)等待隊列中選取就緒任務(wù)開始在此核心上執(zhí)行。這種方法的優(yōu)點是cpu核心利用率較高。后者是指操作系統(tǒng)為每個cpu內(nèi)核維護一個局部的任務(wù)等待隊列,當系
9、統(tǒng)中有一個cpu內(nèi)核空閑時,便從該核心的任務(wù)等待隊列中選取恰當?shù)娜蝿?wù)執(zhí)行,這種方法的優(yōu)點是任務(wù)基本上無需在多個cpu核心間切換,有利于提高cpu核心局部cache命中率。目前多數(shù)多核cpu操作系統(tǒng)采用的是基于全局隊列的任務(wù)調(diào)度算法。 多核的中斷處理和單核有很大不同。多核的各處理器之間需要通過中斷方式進行通信,所以多個處理器之間的本地中斷控制器和負責仲裁各核之間中斷分配的全局中斷控制器也需要封裝在芯片內(nèi)部。 另外,多核cpu是一個多任務(wù)系統(tǒng)。由于不同任務(wù)會競爭共享資源,因此需要系統(tǒng)提供同步與互斥機制。而傳統(tǒng)的用于單核的解決機制并不能滿足多核,需要利用硬件提供的“讀修改寫”的原子操作或其他同步互斥
10、機制來保證。 7 低功耗設(shè)計 半導體工藝的迅速發(fā)展使微處理器的集成度越來越高,同時處理器表面溫度也變得越來越高并呈指數(shù)級增長,每三年處理器的功耗密度就能翻一番。目前,低功耗和熱優(yōu)化設(shè)計已經(jīng)成為微處理器研究中的核心問題。cmp的多核心結(jié)構(gòu)決定了其相關(guān)的功耗研究是一個至關(guān)重要的課題。 低功耗設(shè)計是一個多層次問題,需要同時在操作系統(tǒng)級、算法級、結(jié)構(gòu)級、電路級等多個層次上進行研究。每個層次的低功耗設(shè)計方法實現(xiàn)的效果不同抽象層次越高,功耗和溫度降低的效果越明顯。 8 存儲器墻 為了使芯片內(nèi)核充分地工作,最起碼的要求是芯片能提供與芯片性能相匹配的存儲器帶寬,雖然內(nèi)部cache的容量能解決一些問題,但隨著性能的進一步提高,必須有其他一些手段來提高存儲器接口的帶寬,如增加單個管腳帶寬的ddr、ddr2、qdr、xdr等。同樣,系統(tǒng)也必須有能提供高帶寬的存儲器。所以,芯片對封裝的要求也越來越高,雖然封裝的管腳數(shù)每年以20%的數(shù)目提升,但還不能完全解決問題,而且還帶來了成本提高的問題,為此,怎樣提供一個高帶寬,低延遲的接口帶寬,是必須解決的一個重要問題。 9 可靠性及安全性設(shè)計 隨著技術(shù)革新的發(fā)展,處理器的應(yīng)用滲透到現(xiàn)代社會的各個層面,但是在安全性方面卻存在著很大的隱患。一方面,處理器結(jié)構(gòu)自身的可靠性低下,由于超微細化與時鐘設(shè)計的高速化、低電源電壓化,設(shè)計上的安全系數(shù)越來越難以保證,故障的發(fā)生率逐
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025版新型食用菌保健品區(qū)域總代銷售與售后服務(wù)合同3篇
- 二零二五年度環(huán)保節(jié)能產(chǎn)品推廣合同4篇
- 2025年陶瓷原料質(zhì)量檢測與認證合同2篇
- 2025年度門禁系統(tǒng)設(shè)備租賃與運營維護協(xié)議4篇
- 二手車交易市場租賃合同范本2024年適用
- 二零二五年度辦公樓窗簾節(jié)能改造承包合同4篇
- 2025年度智慧停車場設(shè)計與運營服務(wù)合同4篇
- 2025年文化中心場地租賃合同終止及合作開發(fā)意向書3篇
- 天津市應(yīng)急保障2025年度專用車輛租賃合同2篇
- 二零二五年度土地承包經(jīng)營權(quán)轉(zhuǎn)讓合同流轉(zhuǎn)規(guī)范版
- 2024-2025學年山東省濰坊市高一上冊1月期末考試數(shù)學檢測試題(附解析)
- 江蘇省揚州市蔣王小學2023~2024年五年級上學期英語期末試卷(含答案無聽力原文無音頻)
- 數(shù)學-湖南省新高考教學教研聯(lián)盟(長郡二十校聯(lián)盟)2024-2025學年2025屆高三上學期第一次預(yù)熱演練試題和答案
- 決勝中層:中層管理者的九項修煉-記錄
- 幼兒園人民幣啟蒙教育方案
- 單位就業(yè)人員登記表
- 衛(wèi)生監(jiān)督協(xié)管-醫(yī)療機構(gòu)監(jiān)督
- 記錄片21世紀禁愛指南
- 腰椎間盤的診斷證明書
- 移動商務(wù)內(nèi)容運營(吳洪貴)任務(wù)七 裂變傳播
- 單級倒立擺系統(tǒng)建模與控制器設(shè)計
評論
0/150
提交評論