版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
可配置可擴展T*CORE處理器
及在天文圖像處理中的應(yīng)用-面向AST3項目的硬件加速器設(shè)計郭煒天津大學(xué)VLSI設(shè)計與應(yīng)用研究所天文信息技術(shù)聯(lián)合實驗室可配置可擴展T*CORE處理器
及在天文圖像處理中的應(yīng)用-面?zhèn)鬏斢|發(fā)體系結(jié)構(gòu)與T*CORE內(nèi)容大綱1面向天文圖像處理的T*CORE設(shè)計2傳輸觸發(fā)體系結(jié)構(gòu)與T*CORE內(nèi)容大綱1面向天文圖像處理的T未來芯片將整合數(shù)千個小核心未來芯片將整合數(shù)千個小核,而不是只依賴于某個單一的復(fù)雜核。
多任務(wù)處理技術(shù)可使整體的運算吞吐量高很多。許多小核及小的存儲器的芯片,芯片面積減少,功耗大為降低。
-Intelfellow
ShekharBorkar未來芯片將整合數(shù)千個小核心未來芯片將整合數(shù)千個小核,而不是嵌入式解決方案專用芯片(ASIC:ApplicationSpecificIntegratedCircuit)缺少靈活性通用處理器(CPU,DSP)效率低、功耗大專用指令集處理器(ASP/ASIP:ApplicationSpecificInstructionprocessor)兼顧靈活性、高性能、低功耗等優(yōu)點傳輸觸發(fā)體系結(jié)構(gòu):TransportTriggeredArchitecture(TTA)由TUDelft的H.Corporaal等在1991年提出屬于ASP/ASIP嵌入式解決方案傳輸觸發(fā)體系結(jié)構(gòu)(TTA)傳輸觸發(fā)體系結(jié)構(gòu)(TTA)TTA處理器指令格式instructionoperationsourceTTA處理器只包含一種操作:數(shù)據(jù)傳輸操作MOVE超長指令字(VLIW)TTA處理器指令格式instructionoperation模塊化松耦合可配置可擴展高性能低成本低功耗TTA處理器的優(yōu)勢/劣勢架構(gòu)組合和設(shè)計空間不確定編譯器設(shè)計復(fù)雜代碼優(yōu)化的困難指令膨脹迅速模塊化TTA處理器的優(yōu)勢/劣勢架構(gòu)組合和設(shè)計空間不確定T*CORE處理器T*CORE是基于TTA架構(gòu)可配置可擴展的處理器一種處理器模板更多的可配置性與擴展性更靈活的指令架構(gòu)特制的軟硬件協(xié)同設(shè)計流程及相關(guān)工具集硬件模塊庫T*CORE處理器T*CORE是基于TTA架構(gòu)可配置可擴展T*CORE處理器設(shè)計的關(guān)鍵可配置性可擴展性擴大了T*CORE處理器架構(gòu)的選擇范圍,進(jìn)行設(shè)計空間探索尤為重要。需要在更高的抽象層次上對架構(gòu)進(jìn)行仿真,通過設(shè)計空間探測獲得最優(yōu)架構(gòu)方案支持自定義的指令及更多可見的編程細(xì)節(jié)使得手工編程幾乎成為不可能。一個高效的可重定目標(biāo)編譯器是T*CORE處理器的性能得以充分發(fā)揮的關(guān)鍵高效的軟硬件協(xié)同設(shè)計方法及相關(guān)工具集的設(shè)計是決定T*CORE能否被廣泛應(yīng)用的關(guān)鍵.T*CORE處理器設(shè)計的關(guān)鍵可配置性可擴展性擴大了T*COR軟硬件協(xié)同設(shè)計流程及工具集軟硬件協(xié)同設(shè)計流程及工具集T*COREA0424v1芯片面向音頻解碼(mp3)的應(yīng)用2009年6月,采用GSMC0.13umCMOS工藝,成功MPW流片T*COREA0424v1芯片面向音頻解碼(mp3)的應(yīng)用MP3解碼性能分析計算密集型部分采用硬件加速器–Tcore協(xié)處理器MP3解碼性能分析計算密集型部分采用硬件加速器–Tcor面向MP3解碼SoC架構(gòu)實現(xiàn)實時MP3解碼的工作頻率:30MHz;功耗:<1W面向MP3解碼SoC架構(gòu)實現(xiàn)實時MP3解碼的工作頻率:30MT*COREA0424v1硬件架構(gòu)T*COREA0424v1硬件架構(gòu)T*COREA0424v1指令架構(gòu)指令寬度96-bit,分為4個slot,寬度分別為16-bit,16-bit,32bit,32bit只有slot1可以執(zhí)行跳轉(zhuǎn)操作各個slot所支持的立即數(shù)寬度不同T*COREA0424v1指令架構(gòu)指令寬度96-bit,分實現(xiàn)指令壓縮提高代碼密度T*COREA0424v1空操作復(fù)用空指令復(fù)用+特殊的load/store單元設(shè)計:DCT32節(jié)省81%實現(xiàn)指令壓縮T*COREA0424v1空操作復(fù)用空指令復(fù)用T*COREA0424v1版圖T*COREA0424v1版圖傳輸觸發(fā)體系結(jié)構(gòu)與T*CORE內(nèi)容大綱1面向天文圖像處理的T*CORE設(shè)計2傳輸觸發(fā)體系結(jié)構(gòu)與T*CORE內(nèi)容大綱1面向天文圖像處理的T天文圖像空間變換核降晰算法天文圖像相減:同一天區(qū)不同時刻拍攝的天文照片(源圖像)同模板圖像(參考圖像)進(jìn)行差異比較,分析出不同時刻星跡變化情況。降晰處理:由于氣象、背景光線等因素導(dǎo)致圖像清晰度不同,每個恒星的點擴散函數(shù)不同,因此在相減之前必須對模板圖像進(jìn)行降晰處理。Alard等人提出的空間變換核降晰算法:在時間空間(而不是在傅立葉空間)完成卷積核的計算執(zhí)行降晰運算,即執(zhí)行卷積運算:最后對C和源圖像執(zhí)行相減操作,得到變源。其中,R:模版圖像;K:核函數(shù);C:降晰后的模版圖像天文圖像空間變換核降晰算法天文圖像相減:其中,R:模空間變換核降晰算法各模塊所占計算比重對使用Alard算法所實現(xiàn)的軟件ISIS分析功能所占計算比重求局部核函數(shù)16.2%求局部核函數(shù)系數(shù)5.6%求解核函數(shù)3.9%執(zhí)行降晰運算74.3%
空間變換核降晰算法各模塊所占計算比重對使用Alard算法所計算量最大部分為執(zhí)行降晰運算以圖像大小為2K×2K、卷積核為19×19為例,執(zhí)行降晰運算時需要的計算為2K×2K×19×19=1.51×109次
計算量最大部分為執(zhí)行降晰運算以圖像大小為2K×2K、卷積核降晰運算的硬件設(shè)計自定義的浮點數(shù)格式將雙精度64-bit浮點格式的數(shù)據(jù)變?yōu)樽远x32-bit浮點格式的數(shù)據(jù),硬件面積減少約一倍。對精度的影響類型SNR(db)單精度75.220086自定義93.263391降晰運算的硬件設(shè)計自定義的浮點數(shù)格式類型SNR(db)單降晰運算的硬件設(shè)計數(shù)據(jù)存儲方式和計算流程根據(jù)所采用的降晰運算的規(guī)律,分析了數(shù)據(jù)復(fù)用的可行性,在設(shè)計Tcore處理器的應(yīng)用軟件時,采用特殊的數(shù)據(jù)存儲方式降晰運算的硬件設(shè)計數(shù)據(jù)存儲方式和計算流程降晰運算的硬件設(shè)計Tcore協(xié)處理器內(nèi)部架構(gòu)降晰運算的硬件設(shè)計Tcore協(xié)處理器內(nèi)部架構(gòu)降晰運算的硬件設(shè)計硬件系統(tǒng)結(jié)構(gòu)圖
降晰運算的硬件設(shè)計硬件系統(tǒng)結(jié)構(gòu)圖性能比較(僅卷積運算部分)方案主頻(HZ)功耗(W)計算時間(ms)純軟件2.66G13061062本文設(shè)計125M1.793301性能比較(僅卷積運算部分)方案主頻(HZ)功耗(W)計有待解決的問題大尺寸圖像(10Kx10K),卷積核(30x30).多個T*CORE架構(gòu)問題:圖像劃分,核間通訊,存儲墻有待解決的問題大尺寸圖像(10Kx10K),卷積核(3謝謝!謝謝!可配置可擴展T*CORE處理器
及在天文圖像處理中的應(yīng)用-面向AST3項目的硬件加速器設(shè)計郭煒天津大學(xué)VLSI設(shè)計與應(yīng)用研究所天文信息技術(shù)聯(lián)合實驗室可配置可擴展T*CORE處理器
及在天文圖像處理中的應(yīng)用-面?zhèn)鬏斢|發(fā)體系結(jié)構(gòu)與T*CORE內(nèi)容大綱1面向天文圖像處理的T*CORE設(shè)計2傳輸觸發(fā)體系結(jié)構(gòu)與T*CORE內(nèi)容大綱1面向天文圖像處理的T未來芯片將整合數(shù)千個小核心未來芯片將整合數(shù)千個小核,而不是只依賴于某個單一的復(fù)雜核。
多任務(wù)處理技術(shù)可使整體的運算吞吐量高很多。許多小核及小的存儲器的芯片,芯片面積減少,功耗大為降低。
-Intelfellow
ShekharBorkar未來芯片將整合數(shù)千個小核心未來芯片將整合數(shù)千個小核,而不是嵌入式解決方案專用芯片(ASIC:ApplicationSpecificIntegratedCircuit)缺少靈活性通用處理器(CPU,DSP)效率低、功耗大專用指令集處理器(ASP/ASIP:ApplicationSpecificInstructionprocessor)兼顧靈活性、高性能、低功耗等優(yōu)點傳輸觸發(fā)體系結(jié)構(gòu):TransportTriggeredArchitecture(TTA)由TUDelft的H.Corporaal等在1991年提出屬于ASP/ASIP嵌入式解決方案傳輸觸發(fā)體系結(jié)構(gòu)(TTA)傳輸觸發(fā)體系結(jié)構(gòu)(TTA)TTA處理器指令格式instructionoperationsourceTTA處理器只包含一種操作:數(shù)據(jù)傳輸操作MOVE超長指令字(VLIW)TTA處理器指令格式instructionoperation模塊化松耦合可配置可擴展高性能低成本低功耗TTA處理器的優(yōu)勢/劣勢架構(gòu)組合和設(shè)計空間不確定編譯器設(shè)計復(fù)雜代碼優(yōu)化的困難指令膨脹迅速模塊化TTA處理器的優(yōu)勢/劣勢架構(gòu)組合和設(shè)計空間不確定T*CORE處理器T*CORE是基于TTA架構(gòu)可配置可擴展的處理器一種處理器模板更多的可配置性與擴展性更靈活的指令架構(gòu)特制的軟硬件協(xié)同設(shè)計流程及相關(guān)工具集硬件模塊庫T*CORE處理器T*CORE是基于TTA架構(gòu)可配置可擴展T*CORE處理器設(shè)計的關(guān)鍵可配置性可擴展性擴大了T*CORE處理器架構(gòu)的選擇范圍,進(jìn)行設(shè)計空間探索尤為重要。需要在更高的抽象層次上對架構(gòu)進(jìn)行仿真,通過設(shè)計空間探測獲得最優(yōu)架構(gòu)方案支持自定義的指令及更多可見的編程細(xì)節(jié)使得手工編程幾乎成為不可能。一個高效的可重定目標(biāo)編譯器是T*CORE處理器的性能得以充分發(fā)揮的關(guān)鍵高效的軟硬件協(xié)同設(shè)計方法及相關(guān)工具集的設(shè)計是決定T*CORE能否被廣泛應(yīng)用的關(guān)鍵.T*CORE處理器設(shè)計的關(guān)鍵可配置性可擴展性擴大了T*COR軟硬件協(xié)同設(shè)計流程及工具集軟硬件協(xié)同設(shè)計流程及工具集T*COREA0424v1芯片面向音頻解碼(mp3)的應(yīng)用2009年6月,采用GSMC0.13umCMOS工藝,成功MPW流片T*COREA0424v1芯片面向音頻解碼(mp3)的應(yīng)用MP3解碼性能分析計算密集型部分采用硬件加速器–Tcore協(xié)處理器MP3解碼性能分析計算密集型部分采用硬件加速器–Tcor面向MP3解碼SoC架構(gòu)實現(xiàn)實時MP3解碼的工作頻率:30MHz;功耗:<1W面向MP3解碼SoC架構(gòu)實現(xiàn)實時MP3解碼的工作頻率:30MT*COREA0424v1硬件架構(gòu)T*COREA0424v1硬件架構(gòu)T*COREA0424v1指令架構(gòu)指令寬度96-bit,分為4個slot,寬度分別為16-bit,16-bit,32bit,32bit只有slot1可以執(zhí)行跳轉(zhuǎn)操作各個slot所支持的立即數(shù)寬度不同T*COREA0424v1指令架構(gòu)指令寬度96-bit,分實現(xiàn)指令壓縮提高代碼密度T*COREA0424v1空操作復(fù)用空指令復(fù)用+特殊的load/store單元設(shè)計:DCT32節(jié)省81%實現(xiàn)指令壓縮T*COREA0424v1空操作復(fù)用空指令復(fù)用T*COREA0424v1版圖T*COREA0424v1版圖傳輸觸發(fā)體系結(jié)構(gòu)與T*CORE內(nèi)容大綱1面向天文圖像處理的T*CORE設(shè)計2傳輸觸發(fā)體系結(jié)構(gòu)與T*CORE內(nèi)容大綱1面向天文圖像處理的T天文圖像空間變換核降晰算法天文圖像相減:同一天區(qū)不同時刻拍攝的天文照片(源圖像)同模板圖像(參考圖像)進(jìn)行差異比較,分析出不同時刻星跡變化情況。降晰處理:由于氣象、背景光線等因素導(dǎo)致圖像清晰度不同,每個恒星的點擴散函數(shù)不同,因此在相減之前必須對模板圖像進(jìn)行降晰處理。Alard等人提出的空間變換核降晰算法:在時間空間(而不是在傅立葉空間)完成卷積核的計算執(zhí)行降晰運算,即執(zhí)行卷積運算:最后對C和源圖像執(zhí)行相減操作,得到變源。其中,R:模版圖像;K:核函數(shù);C:降晰后的模版圖像天文圖像空間變換核降晰算法天文圖像相減:其中,R:??臻g變換核降晰算法各模塊所占計算比重對使用Alard算法所實現(xiàn)的軟件ISIS分析功能所占計算比重求局部核函數(shù)16.2%求局部核函數(shù)系數(shù)5.6%求解核函數(shù)3.9%執(zhí)行降晰運算74.3%
空間變換核降晰算法各模塊所占計算比重對使用Alard算法所計算量最大部分為執(zhí)行降晰運算以圖像大小為2K×2K、卷積核為19×19為例,執(zhí)行降晰運算時需要的計算為2K×2K×19×19=1.51×
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024預(yù)制板購銷合同
- 2025年度瓷磚研發(fā)中心實驗室建設(shè)與運營合同3篇
- 2025年度危險化學(xué)品儲存安全管理承包合同4篇
- 2025年度智能物流中心建設(shè)與運營管理合同4篇
- 2025年度商業(yè)地產(chǎn)租賃代理服務(wù)合同模板4篇
- 2024物業(yè)項目策劃2024委托代理合同
- 2025年度醫(yī)療器械代生產(chǎn)加工合同范本4篇
- 2025年度特殊用途車牌租賃與押金管理協(xié)議4篇
- 2025年度展會現(xiàn)場安保及應(yīng)急預(yù)案服務(wù)合同3篇
- 2024鐵路鋼軌鋪設(shè)及維護(hù)工程協(xié)議細(xì)則
- 勞動合同續(xù)簽意見單
- 大學(xué)生國家安全教育意義
- 2024年保育員(初級)培訓(xùn)計劃和教學(xué)大綱-(目錄版)
- 河北省石家莊市2023-2024學(xué)年高二上學(xué)期期末考試 語文 Word版含答案
- 企業(yè)正確認(rèn)識和運用矩陣式管理
- 分布式光伏高處作業(yè)專項施工方案
- 陳閱增普通生物學(xué)全部課件
- 檢驗科主任就職演講稿范文
- 人防工程主體監(jiān)理質(zhì)量評估報告
- 20225GRedCap通信技術(shù)白皮書
- 燃?xì)庥邢薰究蛻舴?wù)規(guī)范制度
評論
0/150
提交評論