2020人工智能Al芯片技術選型目錄

上傳人：1*** IP屬地：山西上傳時間：2024-03-19 格式：DOCX 頁數(shù)：100 大?。?.66MB 積分：15 舉報 版權申訴

已閱讀5頁，還剩95頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟AI芯片技術選型目錄（2020年）CONTENTS目錄中產(chǎn)品順序不分先后一、引言 1二、云端/數(shù)據(jù)中心 5云端訓練 6北京百度網(wǎng)訊科技有限公司-百度昆侖1芯片 6上海燧原科技有限公司-邃思通用人工智能訓練芯片 7NVIDIA-NVIDIAA100/V100/T4TensorCoreGPUs 8云端推斷 10賽靈思-Alveo 10中科寒武紀科技股份有限公司-寒武紀思元100 14中科寒武紀科技股份有限公司-寒武紀思元270 15北京比特大陸科技有限公司-比特大陸算豐TPU芯片BM1684 16深圳鯤云信息科技有限公司-星空x3加速卡 18華為技術有限公司-昇騰310AI處理器 202.3小結 22三、邊緣計算 24上海天數(shù)智芯半導體有限公司-天數(shù)智芯IluvatarCoreXI芯片 25NVIDIA-NVIDIAJetson，NVIDIAT4TensorCoreGPUs 27紫光展銳-虎賁T710 29中科寒武紀科技股份有限公司-寒武紀思元220M.2 30華為技術有限公司-昇騰310AI處理器 31深圳鯤云信息科技有限公司-星空x3加速卡 333.7小結 36四、終端 38通用端側產(chǎn)品 39NVIDIA-NVIDIAJetson 39華為技術有限公司-昇騰310AI處理器 41瑞芯微電子股份有限公司-RK1808AIoT芯片方案 43瑞芯微電子股份有限公司-RK3399Pro人工智能端側芯片方案 45上海天數(shù)智芯半導體有限公司-天數(shù)智芯IluvatarCoreXI芯片 47智能駕駛 49思-NVIDIA-A 安防、機器人、車載 54司-銳-賁司-司-司-司-司-司-司-司-4.4手機 68司-司-龍4.5語音 72司-片司-司-4.6小結 78五、IP技術 80安謀科技（中國）有限公司-周易AIPU 81司-列5.3小結 86附錄 88說明說明圖1產(chǎn)品驗證測試logoI12AIIADNNbenchmarklogoI2\h（/benchmark）。CHAPTERCHAPTER1引言AI芯片技術選型目錄背景與意義背景與意義當前隨著人工智能理論和技術的日益成熟，應用范圍不斷擴大，目前已廣泛應用于計算機科學、金融貿易、醫(yī)藥、診斷、重工業(yè)、運輸、遠程通訊、在線和電話服務、法律、科學發(fā)現(xiàn)、玩具和游戲、音樂等諸多方面。算力作為承載人工智能應用的平臺和基礎，其發(fā)展推動了整個人工智能系統(tǒng)的進步和快速演進，是人工智能最核心的要素之一。以人工智能應用為主要任務的，面向智能計算的處理器的相關設計方法與技術已成為國內外工業(yè)界和學術界共同角逐的熱點，國內外企業(yè)紛紛布局AI芯片。AI產(chǎn)品日趨豐富。除了追求性能提升外，AIAI（下簡稱“AIIA”或聯(lián)盟）計算架構與芯片推進組啟動“AI（AI內容與目的內容與目的選型目錄在1年前開始面向全球企業(yè)征集，內容包含AI芯片產(chǎn)品的：AIAIAI/AI專利狀態(tài)：作為選填項，披露產(chǎn)品專利狀態(tài)AI學習計算能力及工藝等。AIIAtestedbyAIA”loo1AI圖1產(chǎn)品驗證測試logo22引言引言為了幫助企業(yè)、系統(tǒng)集成廠商、開發(fā)者等準確評價芯片的技術水平和在國際上行業(yè)內的地位，AIA2017AIANNbenhmrkIAIAIIADNNbenchmarkAI“AIIADNNbenchmark”logo體現(xiàn)在產(chǎn)品介紹頁，如圖2所示，代表該芯片可從AIIADNNbenchmark官網(wǎng)\h查到測試數(shù)據(jù)（/benchmark）。2AIIADNNbenchmarklogo經(jīng)過近半年的籌備工作，推進組完成材料匯總，測試驗證并組織行業(yè)內專家對目錄內容進行專家評審工作。AIA2020AI2249AI1946AI人工智能芯片按照目前的應用場景來看，主要分為訓練和推斷兩類場景，按部署位置又可分為云端、邊緣和終端。AIAAI邊緣和終端推斷的四大產(chǎn)品形態(tài)。又依據(jù)行業(yè)應用，AI3給出。圖3AI芯片根據(jù)行業(yè)應用分類圖AIIA“AIAIAIADNNbenchmarkAIAI同時推動符合用戶需求的測試評估，以促進產(chǎn)業(yè)健康發(fā)展，同時助力人工智能生態(tài)建設。33 AI芯片技術選型目錄 44CHAPTERCHAPTER2//數(shù)據(jù)中心/數(shù)據(jù)中心 PAGE11PAGE11AIAIPAGE10PAGE10云端訓練1【技術概述】1I架構，既可以用于訓練，也可以用于推理，能全面支持語音，圖像，自然語言處理等應用。【技術指標】1XPU14nm，HBM2PCIE4.0可編程等優(yōu)勢?！井a(chǎn)品信息】

【應用案例】ERIE場景。百度網(wǎng)盤里的圖像模型；百度云主機；百度云的工業(yè)質檢客戶。【產(chǎn)品特征/技術特點】256Tops；512GB/s；高度可編程性，能提供CC++用戶可以自由開發(fā)自己的算子?！緦＠麪顟B(tài)】（未提供）芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32百度昆侖1150W16GB512GB/s201911256Tops64Tops16Tops14nm邃思通用人工智能訓練芯片【技術概述】/向量運算核心，支持各類數(shù)據(jù)精度的主流深度學習訓練負載?！炯夹g指標】邃思芯片采用工藝封裝，總計億個晶體管。其宣稱單芯片提供及的算力，最大功耗190W。邃思芯片主要技術特點包括：自主指令集的神經(jīng)元處理器，可編程的通用張量//向量/神經(jīng)元處理集群8自主研發(fā)系統(tǒng)穩(wěn)定性控制，支持服務器級別,yd支持等網(wǎng)

支持數(shù)據(jù)類型【應用案例】（未提供）【產(chǎn)品特征/技術特點】T10是基于邃思芯片打造的人工智能訓練加速卡，20TFLOPS@FP32，最大功耗225W，支持FP32/FP16/BF16/INT8/INT16/INT32PCIe4.064GB200GB/s馭算計算和編程平臺主要包含分布式調度、軟件開發(fā)包（SDK）和設備驅動層，用戶可以將已有訓練系統(tǒng)，無縫遷移至邃思平臺上運行，無需二次開發(fā)或者模型轉換工作。T10療、工業(yè)及政務等人工智能訓練場景?！緦＠麪顟B(tài)】燧原科技及其子公司目前已獲得24項授權專1920正在申請進程中?！井a(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32邃思190W（最大功耗）16GBHBM512GB/s2020年6月80TOPS80TFLOPS20TFLOPSGF12nmFinFETNVIDIA-NVIDIAA100/V100/T4TensorCoreGPUs【技術概述】為數(shù)據(jù)中心GPU，可加快AI、高性能計算(HPC)和圖形技術的發(fā)展。【技術指標】NVIDIAAmpereGPU5407GPU、TF32、結構化稀疏等特性。NVIDIAVoltaGPU640個Tensor內核，可提供每秒超過100萬億次(TFLOPSNVIDIAPascal5NVIDIATuringGPU架構支持實時光線追蹤、AI、模擬和光柵化技術。【應用案例】NVIDIAA100/V100/T4GPU可以更快速地處理要求最嚴格的高性能計算(PC)

大規(guī)模數(shù)據(jù)中心工作負載?，F(xiàn)在，數(shù)據(jù)科學家和研究人員可以在能源勘探和深度學習等應用場合中解PBCPU量級。NVIDIAA100/V100/T4加速器可以超快速NVIDIAGPU還能為虛擬桌面、應用程序和工作站提供超高性能和用戶密度。【產(chǎn)品特征/技術特點】NVIDIAA100采用了NVIDIAAmpere架構的突破性設計，集AI訓練和推理于一身，宣稱其性能相比于前代產(chǎn)品提升了20倍。作為一款通用型工作負載加速器，A100還被設計用于數(shù)據(jù)分析、科學計算和云圖形。NVIDIAV100運用NVIDIAVolta架構，擁有640個Tensor內核，是世界上第一個突破100萬億次(TFLOPS)深度學習性能障礙的GPU。NVIDIAT4GPUNVIDIATuringTensorCore，提供多精度推理性能，以加速人工智能的各種應用?！緦＠麪顟B(tài)】（未提供）【產(chǎn)品信息】芯片名稱功耗顯存帶寬上市時間深度學習計算能力工藝INT8FP32FP64TF32FP64TensorCoreNVIDIAA100400w40GBHBM21555GB/s2020年5月624TOPS|1248TOPS*（*疏技術）19.5TFLOPS9.7TFLOPS312TFLOPS（*采用稀疏技術）19.5TFLOPS7nmNVIDIAV100(NVLink)300w32/16HBM2900GB/s2017年5月15.7TFLOPS7.8TFLOPS12nmNVIDIAV100(PCIe)250w32/16HBM2900GB/s2017年5月14TFLOPS7TFLOPS12nmNVIDIAV100S250w32GBHBM21134GB/s2019年11月16.4TFLOPS8.2TFLOPS12nmNVIDIAT470w16GBGDDR6320+GB/s2018年3月130TOPS8.1TFLOPS12nm云端推斷云端推斷Alveo【技術概述】AlveoTM數(shù)據(jù)中心加速器卡專為現(xiàn)代數(shù)據(jù)中心多樣的應用需求而設計。Aveo在降低總成本的同時，靈活支持各類工作負載。賽靈思推出的its統(tǒng)一軟件平臺為各類I推理應用開發(fā)提供統(tǒng)一編程模型，幫助用戶加速實現(xiàn)從C/C++、Python、Caffe、Tensorflow【技術指標】賽靈思數(shù)據(jù)中心加速器卡基于片互聯(lián))技術來實現(xiàn)A容、帶寬和功耗域o加速卡旨在加速服務器或工作站中的機器學

AlveoU50XCU50FPGA2SLR，PCIeGen48GHBM2，每秒100G75金融計算、機器學習、計算存儲以及數(shù)據(jù)搜索與分析工作負載提供優(yōu)化加速。AlveoU200XCU200FPGA3SLRAlveoU250XCU250FPGA包4SLR。二者均可連接到PCIExpress168GT/s(Gen3)，也可以4DDR416GB2400MT/s64(ECCDIMM，64GBDDR4。ALveoU280XCU280包括三個SLR(SLR0HBM控制器，8GBHBM2SLRPCIExpress16個通道，這些通16GT/s(Gen4的速度運行。SLR0SLR1DDR416GB2400MT/s64位含糾錯碼(ECCDIMM32GB的DDR4。【應用案例】Aveo加速卡已經(jīng)開發(fā)和認證的關鍵應用A/ML、視頻轉碼、數(shù)據(jù)分析、金融風險建模、安全和基因組學等。Algo-LogicSystemsInc、Bigstream、BlackLynxInc.、CTAccel、FalconComputing、MaxelerTechnologies、Mipsology、NGCodec、Skreens、SumUpAnalytics、TitanIC、VitesseData、VYUsyncXeleraTechnologies等合作伙伴開發(fā)完成的應用已經(jīng)投入部署。此外，DellEMC、FujitsuLimitedIBMOEM廠商也在同賽靈思合作，認證采用Aleo加速器卡的多個服務器SKU。一，Alveo-Mipsology,Zebra搭載AlveoU50數(shù)據(jù)中心加速卡用于神經(jīng)網(wǎng)絡推理，板卡功耗75W，關鍵功能：(CNN——Zebra支持所有神經(jīng)網(wǎng)絡——Zebra可加速任何CNN的所有層級；易于使用——Zebra是“即插即用”的解決方案，無需對神經(jīng)網(wǎng)絡進行修改或再訓練；不改變軟件環(huán)境——無新語言、框架或工具。Zebra在TensorFlow、PyTorch、ONNX、Caffe和MXNet模型內運行；可擴展性、靈活性和適應性——Zebra可替GPUCPU。二，Aveo-SK電訊基于人工智能的實時物AlveoU250加速器卡，可提供充足的吞吐量與精準度。

【產(chǎn)品特征/技術特點】AlveoU50數(shù)據(jù)中心加速器卡采用賽靈思UltraScale+ 架構，使用半高半長的外形尺寸和低于75瓦的低包絡功耗。該卡支持第四代PCIe及高帶寬存儲器每秒100G網(wǎng)絡連接面向各種類型的服務器部署。AlveoU50加速器卡產(chǎn)品詳細介紹：規(guī)格U50產(chǎn)品SKUA-U50-P00G-PQ-G卡總耗電量175W散熱解決方案被動重量300g–325g外形尺寸半高半長網(wǎng)絡接口1xQSFP28PCIe接口2,3Gen3x16,Gen4x8,CCIXHBM2總容量8GBHBM2帶寬201GB/s4查找表(LUTs)872K寄存器1,743KDSPslices5,952最高分布.RAM24.6Mb36KbRAM1344(47.3Mb)288KbUltraRAM640(180.0Mb)GTY收發(fā)器20符合部署條件有注釋：AlveoU50卡為FPGA結構與HBM存儲器分別搭配了單獨的電源供電線。開發(fā)者必須確保他們的設計不會從每條供電線汲取過多電源。如需了解更多信息，請參閱《AlveoU50卡安裝指南》(UG1370)。PCIe接口可以配置為支持各種鏈接寬度和速度。最高為Gen3(8Gt/s)x16、Gen4(16Gt/s)x8或以16GT/sx8運行的CCIX。PCIe接口還可以配置為雙x8PCIe此塊在兼容模式下以16.0Gt/s(Gen4)的速度運行。請參閱《UltraScale+DevicesIntegratedBlockforPCIExpressLogiCOREIP產(chǎn)品指南》(PG213)通過PCIe3.3V電源供電線提供的HBM2功耗僅限為10W。使用HBM2可實現(xiàn)的性能受限于此功耗限制，并且因設計而異。HBM2的額定帶寬為201GB/s。在不兼容PCIe的規(guī)格中，針對A-U50DD-P00G-ES3-G和A-U50-P00G-PQ-GHBM2316GB/s。AlveoU200U250數(shù)據(jù)中心加速器卡采

用PCIeGen3x16，設計用于加速高計算強度應用，如機器學習、數(shù)據(jù)分析和視頻處理。注釋:電源獲取連接器電源獲取另外AlveoU200/U250加速器卡產(chǎn)品詳細介紹規(guī)格U200U250U200U250動散熱版被動散熱版主動散熱版被動散熱版產(chǎn)品SKUA-U200-A64G-PQ-GA-U200-P64G-PQ-GA-U250-A64G-PQ-GA-U250-P64G-PQ-G散熱解決方案主動被動主動被動1122g1066g1122g1066g外形尺寸全高、全長、雙寬度全高、長、雙寬度全高、全長、雙寬度全高、長、雙寬度卡總耗電量1225W225W網(wǎng)絡接口2xQSFP282xQSFP28PCIe接口Gen3x16Gen3x16查找表(LUT)1,182K1,728K寄存器2,364K3,456KDSPslice6,84012,288UltraRAM9601,280DDR總容量64GB64GBDDRDDR最大數(shù)據(jù)率2400MT/s2400MT/sDDR總帶寬77GB/s77GB/sAlveoU2808GBHBM232GBDDR41.1MLUT8.5kDSP100GPCIeCCIX互聯(lián)標準。AlveoU280加速器卡產(chǎn)品詳細介紹：規(guī)格1主動散熱版被動散熱版產(chǎn)品SKUA-U280-A32G-DEV-G3A-U280-P32G-PQ-G3卡總耗電量2225W225W散熱解決方案主動被動重量1187g1130g外形尺寸全高、全長、雙寬度全高、長、雙寬度網(wǎng)絡接口2xQSFP28PCIe接口4,5Gen3x16,Gen4x8,CCIXHBM2總容量8GBHBM2帶寬460GB/s查找表(LUTs)1,079K寄存器2,607KDSPslices9,024UltraRAMs960DDR總容量32GBDDR最大數(shù)據(jù)率2400MT/sDDR總帶寬38GB/s注釋:規(guī)格適用于量產(chǎn)U280卡。U280ES1卡規(guī)格和功能的任何差異都記錄在U280ES1已知問題71975卡通過標準連接器電源獲取，通過連接器主動器件編號包含一條

信息，請聯(lián)系您當?shù)氐馁愳`思銷售代表。(8))x8或以16x8x8+IP)了【專利狀態(tài)】（未提供）【產(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32AlveoU50(VU35P)50W8GB316GB/s2019年8月16.2//16nmUltraScaleAlveoU200(VU9P)100W64GB77GB/s2018年10月18.6//AlveoU250(VU13P)110W64GB77GB/s2018年10月33.3//AlveoU280(VU37P)100W//2018年11月24.5//100【技術概述】為云端推理提供運算能力支撐?！炯夹g指標】INT832TOPS,【應用案例】計算機視覺、語音識別、自然語言處理。

【產(chǎn)品特征/技術特點】1．通用智能，支持計算機視覺、語音識別、自然語言處理等多模態(tài)智能處理；具有更優(yōu)的能效比；完善軟件開發(fā)環(huán)境NeuWare，包括應用開發(fā)、功能調試、性能調優(yōu)等?！緦＠麪顟B(tài)】（未提供）【產(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32思元10075w8GB/16GB102GB/s2018年05月32TOPS16TFLOPS/16nm270【技術概述】為高能效比AI推理設計的數(shù)據(jù)中心級PCIe智能加速卡?！炯夹g指標】支持多種精度，比上一代加速芯片計算能力提高4倍，INT8算力128TOPS。【應用案例】AI推理平臺實現(xiàn)高能效比。

【產(chǎn)品特征/技術特點】INT16、INT8、INT4、FP32、FP16多種精度；2．CPU前處理負載和PCIe帶寬占用；3．計算彈性，支持多類神經(jīng)網(wǎng)絡，寒武紀Neuware軟件棧部署推理環(huán)境；4．Bang算資源定制，滿足多樣化需求?！緦＠麪顟B(tài)】（未提供）【產(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP3227070w16GB102GB/s201906128TOPS//16nm.4TPUBM1684【技術概述】BM1684是比特大陸面向深度學習領域自主研發(fā)的第三代張量處理器（TPU），像分析的云端及邊緣的人工智能推理芯片?！炯夹g指標】芯片：BM1684端及邊緣的人工智能推理芯片；AI算力卷5AITPU架構；典型功耗：16W；H264/H2658192x8192，4K/8K。H2643230FPS@1080P，可處理數(shù)十路視頻智能分析全流程；JPEG480/@1080P；

CPU：A53，2.3GHz；內存：LPDDR4X，68.3GB/s；【應用案例】AIPaddleTPU計算集群，處理千路級別的高清視頻結構化。AITPU計算集群，處理上千路的高清視頻結構化、人臉識別等。AITPU計算集群，處理千路級別的高清視頻結構化。TPU超分辨率等。某新零售客戶新零售貨柜的邊緣計算盒子，可進行商品自動識別?！井a(chǎn)品特征/技術特點】BM1684芯片技術特點是：1）TPU2702）16W35.2T（Winograd）；3）32H264H26530FPS@1080P硬解碼；/人臉分析路數(shù)；5）AI，Caffe,Tensorflow,PyTorch，MXNet，PaddlePaddle都支持；7）使用靈活，可工作于PCIESOC主設備模式；板卡產(chǎn)品特色：1）75WPCIE2）宣稱其性能趕上并部分超越英偉達推

GPUT4；3）視頻解碼路數(shù)多，9630FPS模組產(chǎn)品特色：AI邊緣計算模組，17.6T/35.2T；2）32H264H26530FPS@1080P硬解碼；3）16~32/人臉分析；盒子產(chǎn)品特色：AI邊緣計算盒子，17.6T/35.2T；2）16~32/人臉分析；3）可室外部署，無風扇散熱，-20℃至+60℃寬溫；4）接口支持USB/HDMI/RS-485/RS-232【專利狀態(tài)】TPU270項以上；【產(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP3212nmBM168416W12GBLPDDR4X68.3GB/s2019年9月17.6T(普通模式)；35.2T（Winograd加速模式）2.2T深圳鯤云信息科技有限公司-星空x3加速卡【技術概述】X3加速卡為鯤云推出的面向邊緣端和數(shù)據(jù)中心進行深度學習推斷的IAIA集的架構方式，為支持深度學習的邊緣和數(shù)據(jù)中心服務器提供計算加速方案。【技術指標】支等多個主流RainBuilder編譯工具鏈，支持端到端算法開發(fā)和部署TensorFlow、CaffePyTorchONX(Xet)模型

95.4%【應用案例】工業(yè)領域：鯤云與合作方針對某電容上激光刻蝕字符推出基于深度學習的OCR案，識別算法采用了深度學習方法，可識別字母、數(shù)字以及數(shù)十種特殊字符，字符識別精度可達到9.99%。采用搭載鯤云CASA芯片的星空加速卡，識別延遲可以降低到50ms，識別速度可達到20pcs/s。電力領域：鯤云與合作方通過研究適用于電力無人機巡檢的目標檢測深度學習算法，實現(xiàn)基于人工智能技術的電力無人機智能巡檢、數(shù)據(jù)采集，并在服務器端進行高質量的圖片數(shù)據(jù)分析，提高巡檢效率，降低巡檢工作量。/技術特點】其宣稱芯片利用率可達95.4%；時延：3ms

習算法；Batchsize5溫度范圍：-20℃~70℃6實測Benchmark：算法網(wǎng)絡ResNet-50ResNet-152YOLOv3SSD-ResNet50U-NetIndustrial延時3.05ms8.68ms31.06ms20.8ms74.07ms吞吐率1306.93FPS460.27FPS125.75FPS182.16FPS54.01FPS芯片利用率92.32%95.43%82.37%77.06%64.97%注：Batch=4，INT8【專利狀態(tài)】已申請專利110件，包括109件發(fā)明專利、1件外觀設計專利；【產(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32星空加速x3峰值56WDDR4SDRAM，8GB32Gbps2020610.9TOPSN/AN/A28nm-昇騰310AI處理器【技術概述】昇騰AI處理器的主要架構組成：CPU（ControlCPU）AI（AICoreAICPU）區(qū)（Buffer）數(shù)字視覺預處理模塊（DigitalVisionPre-Processing，DVPP）等【技術指標】規(guī)格描述架構達芬奇性能Upto8T@FP16Upto16T@INT8媒體16ChannelDecoder–H.264/2651080P301ChannelEncoder內存LPDDR4X2*64bit@3733MT/S接口PCIe3.0/USB3.0/GE封裝15mm*15mm功耗8TOPS@4W,16TOPS@8W工藝12nmFFC【應用案例】華為針對其昇騰AI芯片的計算架構專門構建了完整的軟件棧，兼容各個深度學習框架并能夠高效運行在昇騰AI芯片上，讓開發(fā)者能夠快速開發(fā)推理應用，為開發(fā)者提供便利的解決方案。當前主流的深度學習應用，包括圖像分類、人臉識別、目

標檢測、光學字符識別、視頻處理和自然語言處理領域的各個模型，均可以在昇騰310處理器上得到很好的技術支持?！井a(chǎn)品特征/技術特點】達芬奇架構主要由計算單元、存儲系統(tǒng)和控制單元三部分構成。其中計算單元又分為：矩陣計算單元、向量計算單元、標量計算單元，分別對應矩陣、向量和標量三種常見的計算模式。矩陣計算單元（CubeUnit）：矩陣計算單元和累加器主要完成矩陣相關運算。一拍完成一個FP1616x1616x16陣乘（4096）；INT832*16（8192）；向量計算單元（VectorUnit）：實現(xiàn)向量和標量，或雙向量之間的計算，功能覆蓋各種基本的計算類型和許多定制的計算類型，主要包括FP16/FP32/INT32/INT8等數(shù)據(jù)類型的計算；標量計算單元（ScalarUnit）：CPUAICre為Cube/Vector

以及基本的算術運算?！緦＠麪顟B(tài)】（未提供）【產(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32昇騰310AI處理器8TOPS@4W16TOPS@8WLPDDR4X2*64bit@3733MT/S2019年16T8T12nmFFC2.3小結云端/中心公司名稱芯片名稱功耗內存帶寬云端訓練北京百度網(wǎng)訊科技有限公司百度昆侖1150W16GB512GB/s上海燧原科技有限公司邃思190W(最大功耗)16GBHBM512GB/sNVIDIANVIDIAA100400W40GBHBM21555GB/sNVIDIAV100(NVLink)300W32/16GBHBM2900GB/sNVIDIAV100(PCIe)25032/16GBHBM2900GB/sNVIDIAV100S250W32GBHBM21134GB/s云端推斷NVIDIANVIDIAT470W16GBGDDR6320+GB/s賽靈思AlveoU50(VU35P)50W8GB316GB/sAlveoU200(VU9P)100W64GB77GB/sAlveoU250(VU13P)110W64GB77GB/sAlveoU280(VU37P)100W//中科寒武紀科技股份有限公司思元10075W8GB/16GB102GB/s思元27070W16GB102GB/s北京比特大陸科技有限公司BM168416W12GBLPDDR4X68.3GB/s深圳鯤云信息科技有限公司星空加速卡X3峰值56WDDR4SDRAM，8GB/DDR32GB/s華為技術有限公司昇騰310AI處理器8TOPS@4W16TOPS@8WLPDDR4X2*64bit@3733MT/S上市時間深度學習計算能力工藝INT8FP16FP32FP64TF32FP64TensorCore201911256TOPS64TOPS16TOPS14nm2020680TOPS80TFLOPS20TFLOPSGF12nmFinFET20205"624TOPS|1248TOPS*（*采用稀疏技術）"312TF|624TF*（*采用稀疏技術）19.5TFOPS9.7TFOPS"312（*19.5TFOPS7nm20175125TFLOPS15.7TFLOPS7.8TFLOPS12nm20175112TFLOPS14TFLOPS7TFLOPS12nm201911130TFLOPS16.4TFLOPS8.2TFLOPS12nm20183130TOPS65TFLOPS8.1TFLOPS12nm2019816.2TOPS//16nmUltraScale?20181018.6TOPS//16nmUltraScale?20181033.3TOPS//16nmUltraScale?20181124.5TOPS//16nmUltraScale?2018532TOPS16TFLOPS/16nm20196128TOPS//16nm20199"17.6TOPS35.2TOPS2.2T12nm2020610.9TOPSN/AN/A28nm2019年16T8T12nmFFCCHAPTERCHAPTER3邊緣計算邊緣計算邊緣計算 IluvatarCoreXI 【技術概述】IluvatarCoreXI芯片是聚焦于邊緣應用的高精度深度學習推理人工智能芯片，針對市CNN網(wǎng)絡模型算法進行了優(yōu)化，可以減少存儲單元延遲，增加運算并行度，最終提高邊緣端人工智能應用的實際性能?！炯夹g指標】CNN5W4.8TFLOPS的半精度浮點AI(FP16)，16GB/s的雙向IO8GBARM、X86CPU。

【應用案例】智慧新零售、基于人臉識別的智慧園區(qū)、智能垃圾分類、智慧醫(yī)療等基于視頻與圖像識別的應用場景?！井a(chǎn)品特征/技術特點】IluvatarCoreXI芯片是基于數(shù)據(jù)流的深度神CNN網(wǎng)絡模型的邊緣側人工智能推理?？捎糜谥悄苤圃?、智慧新零售、智慧醫(yī)療、智慧園區(qū)、智能垃圾分類等多個行業(yè)及領域的應用，助力產(chǎn)業(yè)智能化升級。該芯片具有以下主要特征：1．支持基于深度學習算法的視頻圖像類推理應用；2525邊緣計算邊緣計算 PAGE27PAGE27AIAIPAGE26PAGE26主流深度神經(jīng)網(wǎng)絡架構支持，如YoloV2，4.8TFLOPSFP16，32路并行計算應對數(shù)據(jù)處理；；5W統(tǒng)；【產(chǎn)品信息】

PCIe4.0可支持芯片間及卡間互聯(lián)擴展；Tensorflow原生框架擴展，支持客戶開發(fā)環(huán)境無痛遷移?！緦＠麪顟B(tài)】17芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32IluvatarCoreXI峰值5W8GB273Gb/s2019年10月NA4.8TNAT16NVIDIA-NVIDIAJetson，NVIDIAT4TensorCoreGPUs【技術概述】NVIDIAJetson：NVIDIAJetson系統(tǒng)所提供的性能和能效可提高自主機器軟件的運行速度，而且功耗更低。每個系統(tǒng)都是一個完備的模塊化系統(tǒng)(SOM)，具備CPU、GPU、PMIC、DRAM和閃存。NVIDIAJetson具備可擴展性。選擇適合應用場合的SOM，構建自定義系統(tǒng)，滿足特定的應用需求。NVIDIAT4TensorCoreGPUs:數(shù)據(jù)中心和圖形技術的發(fā)展?！炯夹g指標】NVIDIAJetson：JetsonNanoNVIDIAMaxwell128NVIDIACUDA核心。JetsonTX2NVIDIAPascal

256NVIDIACUDA核心。JetsonXavierNXNVIDIAVolta架384NVIDIACUDA核心和48JetsonAGXXavierNVIDIAVolta512NVIDIACUDA核心和64NVIDIAT4GPU:NVIDIATuringGPU架構成功將實時光線追蹤、AI、模擬和光柵化技術集成于一身。【應用案例】NVIDIAJetson:NVIDIAJetson平臺是NVIDIAAI邊緣平臺，可以覆蓋不同領域、不同行業(yè)。目前比較集中應用于兩個領域：自主機器和高清傳感器及視頻分析。其中包括小型商用機器人、無人機、智能高分辨率傳感器（用于工廠物流和生產(chǎn)線）、光學檢測、網(wǎng)絡錄像機，便攜式醫(yī)療設備以及其他工業(yè)物聯(lián)網(wǎng)（IoT）系統(tǒng)。NVIDIAT4GPU:T4PB快幾A4【產(chǎn)品特征/技術特點】NVIDIAJetson:I

JetsonTX2AINX是一種外形小巧的模塊，AIJetsonAGXXavierNVIDIAT4GPU:NVIDIAT4GPUNVIDIATuringTensorCore加速現(xiàn)代人工智能的各種應用?！緦＠麪顟B(tài)】（未提供）【產(chǎn)品信息】芯片名稱功耗內存帶寬深度學習計算能力工藝INT8FP16FP32JetsonNano5W|10W4GB64-bitLPDDR425.6GB/s2019年3月0.5TFLOPSJetsonTX27.5W|15W8GB128-bitLPDDR458.4GB/s2017年3月1.3TFLOPSJetsonXavier10W|15W8GB128-bitLPDDR451.2GB/s2019年11月14|21TOPSJetsonAGX10W|15W|30W16GB256-bitLPDDR4137GB/s2018年12月32TOPS16TFLOPSJetsonAGX10W|20W8GB256-bitLPDDR485GB/s2019年19.3TOPS9.6TFLOPSNVIDIAT470w16GBGDDR6320+GB/s2018年3月130TOPS65TFLOPS8.1TFLOPS12nmT710【技術概述】T710采用8CPU構，由4ArmCortex-A7541.8GHzArmCortex-A559446圖形處理器?；①ST710包含了CPU、GPU、NPU、IP、DPAI提供了高效能、低功耗的技術基礎。【技術指標】CPU:\h4xA75@2.0GHz\h4xA55@1.8GHzGPU:PowerVRGM9446@800MHzLCDQHD+(3200x1440)Camera:24M+8M/16M+16MNPU3.2TOPS@INT8800MHz網(wǎng)絡制式:GSM/WCDMA/TDSCDMA/TDD-LTE/FDD-LTE/Wi-Fi:802.11a,b,g,n,11acBluetooth:5.0【應用案例】虎賁T710已經(jīng)在智能醫(yī)療，智能零售和智能

安防多個領域內得到應用?！井a(chǎn)品特征/技術特點】采用異構雙核架構，虎賁T710的計算能效比超過2.5TOPS/W，INT4INT8，IT6，F(xiàn)16支持4K@30幀視頻編解碼,WiFi11AC和BT5.0等多種無線連接技術?！緦＠麪顟B(tài)】（未提供）【產(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32虎賁T710<2.3WLPDDR4X186615Gbps2019年8月3.2TOPS0.5TOPS12nm220M.2【技術概述】基于寒武紀最新一代MLUv02架構，實現(xiàn)終端設備和邊緣端設備的AI賦能?！炯夹g指標】專門用于深度學習的SOCI/O【應用案例】可應用于智能制造、無人零售、智能交通、【產(chǎn)品信息】

無人機等邊緣計算場景，支持視覺、語音、自然語言處理以及傳統(tǒng)機器學習等多樣化的人工智能應用，實現(xiàn)各種業(yè)務的邊緣端智能化解決方案?！井a(chǎn)品特征/技術特點】1．MLUv02架構，提升緩存有效容量和帶寬；2．U盤大小尺寸可提供8路高清視頻分析；3．計算可編程，滿足多樣化AI定制要求。【專利狀態(tài)】（未提供）芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32思元220M.28.25W4GB29GB/s2019118TOPS//16nmPAGE31PAGE31PAGE32PAGE32 -昇騰310AI處理器【技術概述】昇騰AI處理器的主要架構組成：CPU（ControlCPU）AI（AICoreAICPU）區(qū)（Buffer）規(guī)格描述架構規(guī)格描述架構達芬奇性能Upto8T@FP16Upto16T@INT8媒體16ChannelDecoder–H.264/2651080P301ChannelEncoder內存LPDDR4X2*64bit@3733MT/S接口PCIe3.0/USB3.0/GE封裝15mm*15mm功耗8TOPS@4W,16TOPS@8W工藝12nmFFC【應用案例】華為針對其昇騰AI芯片的計算架構專門構建了完整的軟件棧，兼容各個深度學習框架并能夠高效運行在昇騰AI芯片上，讓開發(fā)者能夠快速開發(fā)推理應用，為開發(fā)者提供便利的解決方案。當前主

流的深度學習應用，包括圖像分類、人臉識別、目標檢測、光學字符識別、視頻處理和自然語言處理領域的各個模型，均可以在昇騰310處理器上得到很好的技術支持?！井a(chǎn)品特征/技術特點】達芬奇架構主要由計算單元、存儲系統(tǒng)和控制單元三部分構成。其中計算單元又分為：矩陣計算單元、向量計算單元、標量計算單元，分別對應矩陣、向量和標量三種常見的計算模式。矩陣計算單元（CubeUnit）：矩陣計算單元和累加器主要完成矩陣相關運算。一拍完成一個FP1616x1616x16陣乘（4096）；INT832*16（8192）；向量計算單元（VectorUnit）：實現(xiàn)向量和標量，或雙向量之間的計算，功能覆蓋各種基本的計算類型和許多定制的計算類型，主要包括FP16/FP32/INT32/INT8等數(shù)據(jù)類型的計算；標量計算單元（ScalarUnit）：CPUAICre為Cube/Vector以及基本的算術運算。邊緣計算邊緣計算 AIAI【專利狀態(tài)】（未提供）【產(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32騰310AI處理器8TOPS@4W16TOPS@8WLPDDR4X2*64bit@3733MT/S2019年16T8T12nmFFCPAGE33PAGE33PAGE34PAGE34深圳鯤云信息科技有限公司-星空x3加速卡【技術概述】X3加速卡為鯤云推出的面向邊緣端和數(shù)據(jù)中心進行深度學習推斷的IAIA集的架構方式，為支持深度學習的邊緣和數(shù)據(jù)中心服務器提供計算加速方案?！炯夹g指標】ResNet、VGG、YOLOCNN網(wǎng)絡RainBuilder編譯工具鏈，支持端到端算法開發(fā)和部署TensorFlow、Caffe、PyTorchONX（XNet）等主流深度學習框架開發(fā)的算法模型95.4%

【應用案例】工業(yè)領域：鯤云與合作方針對某電容上激光刻蝕字符推出基于深度學習的OCR案，識別算法采用了深度學習方法，可識別字母、數(shù)字以及數(shù)十種特殊字符，字符識別精度可達到9.99%。采用搭載鯤云CASA芯片的星空加速卡，識別延遲可以降低到50ms，識別速度可達到20pcs/s。電力領域：鯤云與合作方通過研究適用于電力無人機巡檢的目標檢測深度學習算法，實現(xiàn)基于人工智能技術的電力無人機智能巡檢、數(shù)據(jù)采集，并在服務器端進行高質量的圖片數(shù)據(jù)分析，提高巡檢效率，降低巡檢工作量。【產(chǎn)品特征/技術特點】1其宣稱芯片利用率可達95.4%；時延：3ms支持分類、目標檢測以及語義分割類深度學習算法；Batchsize5溫度范圍：-20℃~70℃6實測Benchmark：算法網(wǎng)絡ResNet-50ResNet-152YOLOv3SSD-ResNet50U-NetIndustrial延時3.05ms8.68ms31.06ms20.8ms74.07ms吞吐率1306.93FPS460.27FPS125.75FPS182.16FPS54.01FPS芯片利用率92.32%95.43%82.37%77.06%64.97%注：Batch=4，INT8【專利狀態(tài)】已申請專利110件，包括109件發(fā)明專利、1件外觀設計專利；【產(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32星空加速卡X3峰值56WDDR4SDRAM，8GB32Gbps2020年6月10.9TOPSN/AN/A28nm小結邊緣計算公司名稱芯片名稱功耗內存帶寬上海天數(shù)智芯科技有限公司IluvatarCoreXI峰值5W8GB273Gb/sNVIDIAJetsonNano5W|10W4GB64-bitLPDDR425.6GB/sJetsonTX27.5W|15W8GB128-bitLPDDR458.4GB/sJetsonXavierNX10W|15W8GB128-bitLPDDR451.2GB/sJetsonAGXXavier10W|15W|30W16GB256-bitLPDDR4137GB/sJetsonAGXXavier10W|20W8GB256-bitLPDDR485GB/sNVIDIAT470W16GBGDDR6320+GB/s紫光展銳虎賁T710<2.3WLPDDR4X186615Gbps中科寒武紀科技股份有限公司220M.28.25W4GB29GB/s華為技術有限公司310AI器"8Tops@4W16Tops@8W"LPDDR4X2*64bit@3733MT/S深圳鯤云信息科技有限公司星空加速卡X3峰值56W兩組DDR4SDRAM，8GB/DDR32GB/s上市時間深度學習計算能力工藝INT8FP16FP32FP64TF32FP64TensorCore2019年10月NA4.8TFLOPSNAT162019年3月0.5TFLOPS2017年3月1.3TFLOPS2019年11月14|21TOPS2018年12月32TOPS16TFLOPS2019年19.3TOPS9.6TFLOPS2018年3月130TOPS65TFLOPS8.1TFLOPS12nm2019年8月3.2TOPS0.5TOPS12nm2019年11月8TOPS//16nm2019年16TOPS8TFLOPS12nmFFC2020年6月10.9TOPSN/AN/A28nmCHAPTERCHAPTER4終端終端終端通用端側產(chǎn)品NVIDIA-NVIDIAJetson【技術概述】NVIDIAJetson系統(tǒng)所提供的性能和能效可提高自主機器軟件的運行速度，而且功耗更低。每個系統(tǒng)都是一個完備的模塊化系統(tǒng)(SOM)，具備CPU、GPU、PMIC、DRAM和閃存。NVIDIAJetson具備可擴展性。通過選擇適合應用場合的SOM，即能夠以此為基礎構建自定義系統(tǒng)，滿足特定的應用需求。

【技術指標】JetsonNanoNVIDIAMaxwell128NVIDIACUDA核心。JetsonTX2NVIDIAPascal256NVIDIACUDA核心。JetsonXavierNXNVIDIAVolta架384NVIDIACUDA核心和48 3939終端終端 PAGE41PAGE41AIAIPAGE40PAGE40JetsonAGXXavierNVIDIAVolta512NVIDIACUDA核心和64【應用案例】NVIDIAJetson平臺是NVIDIAAI絡錄像機，便攜式醫(yī)療設備以及其他工業(yè)物聯(lián)網(wǎng)（IoT）系統(tǒng)?！井a(chǎn)品特征/技術特點】JetsonNano助力開發(fā)數(shù)百萬個新的小型、

AI及具備全面分析功能的智能網(wǎng)關等場景得以應用。JetsonTX2AI供相應的速度和能效。提供豐富的標準硬件接口，AIJetsonXavierNX外形小巧，它能并行運行多個現(xiàn)代神經(jīng)網(wǎng)絡，處理來自多個高分辨率傳感器AIJetsonAGXXavier【專利狀態(tài)】（未提供）【產(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32JetsonNano5W|10W4GBLPDDR4LPDDR425.6GB/s2019年3月0.5TFLOPSJetsonTX27.5W|15W8GB128-bitLPDDR458.4GB/s2017年3月1.3TFLOPSJetsonXavierNX10W8GB128-bit51.2GB/s2019年14|21|15WLPDDR411月TOPSJetsonAGX10W|15W|30W16GB256-bitLPDDR4137GB/s2018年12月32TOPS16TFLOPSJetsonAGXXavier10W|20W8GB256-bitLPDDR485GB/s2019年19.3TOPS9.6TFLOPS310AI【技術概述】昇騰AI處理器的主要架構組成：CPU（ControlCPU）AI（AICoreAICPU）區(qū)（Buffer）數(shù)字視覺預處理模塊（DigitalVisionPre-Processing，DVPP）等【技術指標】規(guī)格描述架構達芬奇性能Upto8T@FP16Upto16T@INT8媒體16ChannelDecoder–H.264/2651080P301ChannelEncoder內存LPDDR4X2*64bit@3733MT/S接口PCIe3.0/USB3.0/GE封裝15mm*15mm功耗8TOPS@4W,16TOPS@8W工藝12nmFFC【應用案例】華為昇騰AI芯片的計算架構具有完整的軟件棧，其宣稱兼容各個深度學習框架并能夠高效運行

AI用，為開發(fā)者提供便利的解決方案。當前主流的深光學字符識別、視頻處理和自然語言處理領域的各個模型，均可以在昇騰310處理器上得到很好的技術支持。達芬奇架構主要由計算單元、存儲系統(tǒng)和控制單元三部分構成。其中計算單元又分為：矩陣計算單元、向量計算單元、標量計算單元，分別對應矩陣、向量和標量三種常見的計算模式。矩陣計算單元（CubeUnit）：矩陣計算單元和累加器主要完成矩陣相關運算。一拍完成一個FP1616x1616x16陣乘（4096）；INT832x16（8192）；向量計算單元（VectorUnit）：實現(xiàn)向量和標量，或雙向量之間的計算，功能覆蓋各種基本的計算類型和許多定制的計算類型，主要包括FP16/FP32/INT32/INT8等數(shù)據(jù)類型的計算；標量計算單元（ScalarUnit）：CPUAICre【產(chǎn)品信息】

為Cube/Vector提供數(shù)據(jù)地址和相關參數(shù)的計算，以及基本的算術運算。【專利狀態(tài)】（未提供）芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32310AI處理器8TOPS@4W16TOPS@8WLPDDR4X2*64bit@3733MT/S2019年16T8T12nmFFC終端 4.1.3終端 4.1.3PAGE43PAGE43AIAIPAGE44PAGE44RK1808AIoT芯片方案【技術概述】RK1808芯片采用22FDX工藝，內嵌64Cortex-A35CPU和在人工智能應用場景下深度學習大量使用的神經(jīng)網(wǎng)絡運算加速引擎（NPU），實現(xiàn)運算力的同時滿足端側產(chǎn)品的功耗需求，達到功耗、成本、性能的有效平衡。其宣稱具有高性能的神經(jīng)網(wǎng)絡運算單元的SoC架構設計；多形態(tài)靈活可擴展等特性?！炯夹g指標】Cortex-A35，1.6GHzNPUINT8/INT16/FP16NPU算力：3TOPSforINT8/300GOPSforINT16/100GFLOPSforFP16；支持RKNN/OpenCL/OpenVX編程接口；支持TensorFlow、Caffe、ONNX、Darknet內存支持800MHz32-bitLPDDR2/LPDDR3/DDR3/DDR3L/DDR4；

支持SerialSPINOR/NANDFlash,EMMC；7.視頻支持1080p@60FPSH.264解碼，1080p@30FPSH.264ISP2MPixelAE/AWB/AF；視頻輸入4-lane，MIPI-CSI/MIPI-DSI，支持VirtualChannel，支持BT.601/BT.656/BT.1120；4-lane，MIPI-DSI，1920*1080；8-bitParallelRGBpanel，1280*720；USB3.0/PCIe2.1&8-chI2S&8-chPDM，VAD8xUART/3xSPI/6xI2C/11xPWM/4xSARADC等豐富低速外設接口；【應用案例】ToybrickM1808AIADAS/DSM設備；動作識別智能攝像頭；【產(chǎn)品特征/技術特點】RK1808芯片支持目標圖像識別、視覺處理、語音識別、語義分析等人工智能應用，設計乘加運算(MAC)架構及高效的調度單元，能滿足目前大部分算法和應用對較高神經(jīng)網(wǎng)絡推理算力和效率的【產(chǎn)品信息】

需求，可以發(fā)揮硬件運算單元的能力，在單位時鐘周期內盡可能讓更多的運算單元處于工作狀態(tài)，同時兼容考慮各種不同算法或模型的情況。該項目設計的人工智能硬件加速引擎，可以達到理論上單芯片3.0TOPS的運算能力。【專利狀態(tài)】（未提供）芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8INT16FP16RK18083WLPDDR2/LPDDR3DDR3/DDR3L/DDR46.4GBytes/s2019年6月3TOPS300GOPS100GFLOPS22nm終端終端 PAGE45PAGE45AIAIPAGE46PAGE46瑞芯微電子股份有限公司-RK3399Pro【技術概述】RK3399ProCPUbig.LITTLECortex-A72+Cortex-A53，在GPUARM新一代高端圖像處理器Mali-T860，集成更多帶寬壓縮技術，整體性能優(yōu)異，適合于電子白板、電子書包，人臉識別設備、無人機、機器人、游戲終端、游戲外設類、手游掛機服務器、家/POS瘦客戶機（云端服務）、VOPOK/監(jiān)控/警務、工控類、IoT物聯(lián)網(wǎng)領域、VR錄像、VR等近百行業(yè)應用產(chǎn)品?！炯夹g指標】Cortex-A72+Cortex-A53大小CPU1.8GHz；GPU為四核Mali-T860，支持OpenGLES1.1/2.0/3.0/3.1OpenVG1.1,OpenCL,DX11；AFBC（幀緩沖壓縮）；NPUINT8/INT16/FP16NPU算力：3TOPSforINT8/300GOPSforINT16/100GFLOPSforFP16；內存支持雙通道DDR3-1866/DDR3L-1866/LPDDR3-1866/LPDDR4；支持eMMC5.1，SDIO3.0;支持4KVP9and4K10bitsH265/H264，60fps；P,1/2/4VP8)；8P8視頻后期處理器：反交錯、去噪、邊緣/色彩優(yōu)化；VOP顯示：分辨率分別支持4096x21602560x1600；MIPI-DSI（4）；顯示支持：eDP1.3（4線，10.8Gbps）；HDMI2.04K60HzHDCP1.4/2.2DisplayPort1.244K60HzRec.2020Rec.709色域轉換；接口支持雙ISP像素處理能力13MPix/s，支持雙路攝像頭數(shù)據(jù)同時輸入；支持SB.0Type-CPCIe2.14full-duplexlanesMCU；8路數(shù)字麥克風陣列輸入；【應用案例】RK3399Pro平臺聯(lián)合黑芝麻提供ADAS/DSM3399ProAI6AIADASDSM【產(chǎn)品特征/技術特點】R399ro應用特性，技術特點體現(xiàn)在多顯示接口、GPU音視頻解碼、人工智能以及與用于多終端互聯(lián)、人機交互上?！緦＠麪顟B(tài)】（未提供）【產(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8INT16FP16雙通道DDR3-1866/RK3399Pro10WDDR3L-1866/14.9GBytes/s201813T0.3T0.1T28nmLPDDR3-1866/LPDDR4上海天數(shù)智芯半導體有限公司IluvatarCoreXI【技術概述】IluvatarCoreXI芯片是聚焦于邊緣應用的高精度深度學習推理人工智能芯片，針對市CNN網(wǎng)絡模型算法進行了優(yōu)化，可以有效減少存儲單元延遲，增加運算并行度，最終大幅提高邊緣端人工智能應用的實際性能?！炯夹g指標】CNN等卷積類矩陣運算，可應用于圖像識別與部分語音識別人工智能應用場景。在W48TFOSAIIO8GB的本地存儲容量，并已適配包括ARM、X86CPU?！緫冒咐恐腔坌铝闶?、基于人臉識別的智慧園區(qū)、智能

垃圾分類、智慧醫(yī)療等基于視頻與圖像識別的應用場景?！井a(chǎn)品特征/技術特點】IluvatarCoreXI芯片是基于數(shù)據(jù)流的深度神CNN網(wǎng)絡模型的邊緣側人工智能推理，具有高精度、高性能垃圾分類等多個行業(yè)及領域的應用，助力產(chǎn)業(yè)智能化升級。該芯片具有以下主要特征：1．支持基于深度學習算法的視頻圖像類推理應用；主流深度神經(jīng)網(wǎng)絡架構支持，如YoloV2，4.8TFLOPSFP16運算能力，32路并行計算應對海量數(shù)據(jù)處理；5W統(tǒng)；PCIe4.0

Tensorflow原生框架擴展，支持客戶開發(fā)環(huán)境無痛遷移?！緦＠麪顟B(tài)】17可支持芯片間及卡間互聯(lián)擴展；【產(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32IluvatarCoreXI峰值5W8GB273Gb/s201910月NA4.8TNAT16智能駕駛賽靈思-ZU7EV（ZynqUltraScale+MPSoC）基于這兩款芯片，賽靈思現(xiàn)可提供：從支持邊緣傳感器的小型器件到用于集中式域控制器的新型高性能器件，通過全方位的產(chǎn)品線，滿足汽車對安全、質量和可靠性的各種要求?！炯夹g指標】制造工藝，在單個器件中高度集成卡）視、波形與數(shù)據(jù)包處系列更可以廣泛用于各種端側應，包括【技術概述】賽靈思推出的兩款車規(guī)級芯片(X)ynqUltraScale+ MPSoC7EV和11EG，可提供優(yōu)異的可編程能力、性能和I/O功能，面向L2+到L4的高級駕駛員輔助系統(tǒng)（ADAS）應用和自動駕駛（AD）應用提供高速數(shù)據(jù)匯總、預處理和分配（DAPD）功能以及計算加速功能。

/在S+前視攝像頭前視攝像頭GEN3:Zynq?UltraScale+?MPSoC4M像素保護范圍更大：例如對行人和騎車人的保護汽車便捷性控制：例如塞車小幫手Xilinx價值：異構處理器緊密耦合的應用軟件及自定義硬件加速器FuSa3D

GEN3Zynq?UltraScale+?障礙物探測顯示：全高清及以上攝像頭：4ch+2MPixel特性：3D周圍環(huán)境視圖（飛速攝像頭）高分辨率圖形動畫高級拖車掛接裝置傳感器融合機器視覺目標檢測，可為低速行駛實現(xiàn)車輛控制和自動緊急(AEB)FuSa標準結合VITISAD/ADAS場景下各類神經(jīng)網(wǎng)絡模型加速。Zynq?UltraScale+TMMPSoCDPU性能DevicePeakTOPSTypicalPower(Watt)XA(functionalsafetyqualified)HardenedvideocodecZU20.55YZU30.96YZU41.27YYZU51.47.5YYZU62.710ZU72.710YYZU94.112ZU114.316YZU155.4/【應用案例】ACU自主泊車專用車載計算平臺ZynqUltraScale+MPSoC正在為百度量產(chǎn)型自主泊車（AutomatedValetACU-Advanced（ApolloComputingUnit提供強大動力。ACU-AdvancedAVPACU-AdvancedZynqUltraScale+EV平臺強AI（proof-of-concepts，POC）GPU。而且，該平臺與百度深度學習平臺框架百度飛漿（aiuadleadle）512個超聲波雷達，支持零下40度至零上85度的工作溫度范圍，可以完全滿足嚴苛的車規(guī)量產(chǎn)要求。1Zynq?UltraScale+MPSoC的百度量產(chǎn)型自主泊車專用ACU-Advanced2Zynq?UltraScale+MPSoCACU-Advanced也是業(yè)界首款基于賽靈思ZynqUltraScaleMPSoC5EV器件而量產(chǎn)的AVP專用車載計算平臺。MBUX車載系統(tǒng)MBUX車載系統(tǒng)（interiorassistant）手勢以及車內偏好等，讓車輛可以預測駕駛員和乘功能，用戶晚上想看車內情況，MBUXInteriorassistnt手臂就可自動打開或者關閉燈光來響應。MBUX

車載系統(tǒng)還包含一個帶觸摸屏操作、增強現(xiàn)實技術導航顯示、智能語音控制等功能的高分辨率寬屏駕駛艙。車內駕駛員及乘客監(jiān)控系統(tǒng)在依靠AI推斷的同時受功耗限制，需要節(jié)能解決方案，特別是在受到不良熱環(huán)境限制時。同時，系統(tǒng)還需要低時延來提供對使用者手勢的快速響應。賽靈思車規(guī)級Zynq?UltraScale+MPSoC是人工智能加速的理想平臺，可提供更高的靈活性，滿足定制車內體驗的需求。MBUX車內助手功能：基于人工智能的手勢輸入系統(tǒng)，由ZynqUltraScale+MPSoC提供支持AI來減少時延識別乘客的自然動作，以便汽車預測司機和乘客的請求區(qū)分司機和乘客的手勢對肢體語言做出反應，使舒適功能自動化/技術特點】XAZynq?UltraScaleMPSoC提供了高度IO聚合、預處理和分發(fā)（DAPD）L2L4應用的計算加速。XAZynq?UltraScaleMPSoC產(chǎn)品列表：可編輯邏輯(PL)ZU5EVZU7EVZU11EG系統(tǒng)邏輯單元256504653內存（Mb）23.138.043.6DSPSlice1,2481,7282,928視頻代碼單元（VCU）11最大I/O引腳252204464處理系統(tǒng)（PS）特性所有器件應用處理單元CoreSightARMCortex-A53MPCore；NEON/32KB/32KBL1Cache1MBL2Cache實時處理單元CoreSightARMCortex-R5/雙高精度浮點；32KB/32KBL1CacheTCM嵌入式和外部256KB片上內存w/ECC;外部DDR4;DDR3;DDR3L;LPDDR4;LPDDR3;外部Quad-SPI;NAND;eMMC通用連接214PSI/O;UART;CANUSB2.0I2C;SPI;32bGPIO;WatchDog計時器;三態(tài)計時器高速連接功能4PS-GTR;PCIeGen1/2;SerialATA3.1;DisplayPort1.2a;USB3.0;SGMII圖像處理單元ARMMali -400MP2;64KBL2Cache應用處理單元CoreSightARMCortex-A53MPCore；NEON/32KB/32KBL1Cache1MBL2Cache【專利狀態(tài)】（未提供）【產(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP3216nmUltraScaleZU7EV10//2019.11///ZU11EG16//2019.11///.2NVIDIA-NVIDIADRIVE【技術概述】DRIVEAGXPegasusDRIVEAGXXavierNVIDIADRIVE自動駕駛運算硬件平臺，由自動駕駛處理芯片XavierXavier擁有超過90億個晶體管，可以處理海量數(shù)據(jù)。XavierSOCAI【技術指標】XvirPVA（可編程視覺加速器）、DLA（深度學習加速器）、CUDAGPUCPU，4030DIVEX210應用于先進的生產(chǎn)車型中?！緫冒咐縓vier【產(chǎn)品信息】

的應用程序，NVIDIA也一直致力于實現(xiàn)安全的自動駕駛?！井a(chǎn)品特征/技術特點】DRIVEAGXPegasusXavierTensorCoreGPU（320TOPS）AIDRIVEAGXXavier30TOPS的性能，30XavierSoC【專利狀態(tài)】（未提供）運算平臺名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32DRIVEAGXPegasus300WLPDDR4+GDDR61TB/s2018年11月320TOPS12nmDRIVEAGXXavier30W16GB256-bitLPDDR4137GB/s2018年11月30TOPS12nm安防、機器人、車載-面向計算機視覺的深度學習神經(jīng)網(wǎng)絡處理器【技術概述】（以下簡稱DeepEye1000）是一款面向視覺的，自主可編程，用于深度學習神經(jīng)網(wǎng)絡推理加速的，高性能異構SoC處理器芯片?！炯夹g指標】云天勵飛自主產(chǎn)權神經(jīng)網(wǎng)絡處理器（NNP）ASIP深度定制指令集，支持靈活可編通過計算存儲深度融合，配合智能算子引擎、動態(tài)任務調度、高效存儲調度，可以大幅減少外部存儲訪問帶寬，可以高效執(zhí)行各種深度算法的推理計算，實現(xiàn)高性能、低功耗的CNN網(wǎng)絡模型

推理計算加速；采用阿里平頭哥玄鐵處理器（CPU）負責整個SoC系統(tǒng)的任務調度和分配；視覺數(shù)字信號處理器（DSP）OpenCVH.265/H.264/MJPEG等多種格式的視頻及圖片解碼功能；DeepEye1000支持豐富的外設接口，包括USB3.0/USB2.0、SDIO、UART、I2C等；為了方便DeepEye1000DeepEye1000TVM打造的芯片工具鏈和軟件開發(fā)包（SDK）Caffe，MxNET，TensorFlow，ONNX支持一鍵部署；【應用案例】1．DeepEye1000智能視覺后置協(xié)處理解決方案圖1DeepEye1000智能視覺協(xié)處理解決方案說明：DeepEye1000AIMIPI，BT1120，USB3.0AIUSBSPI4K@30fpsYUV、RGBRAW2．DeepEye1000AI圖2DeepEye1000智能視覺前置AI相機解決方案說明：DeepEye1000通過MIPICSI或BT1120成像視頻流進行視覺AIAIUSB、UARTDeepEye1000通過MIPICSI3DRGB3D3DDAIUSB、UARTSPIDeepEye1000感器端完成實時的視覺IP幾乎沒有要求，可以搭載到任意主控AP，極大的豐富了方案的靈活度；芯片集成基于2D/D生物識別算法，能被廣泛用于人臉支付、商業(yè)零售、人臉門禁、智慧醫(yī)療、商業(yè)零售、AI芯片開發(fā)的工具鏈支持其他計算機視覺CNN智慧物流等領域。3．人臉識別模組方案圖3人臉識別模組方案

說明：（1）支持200萬像素、1920×1080視頻分辨率單場景可支持40+人臉抓拍、20臉的本地特征提取和識別5大于99%（5）支持遠程人臉庫管理功能4．PCI-E4PCI-E說明：內置“云天初芯”芯片，支持16DeepEye1000SDK，適用于智能工業(yè)檢測，邊緣計算視頻結構化加速等場景。5．邊緣計算協(xié)處理方案度學習框架；Invasivenon-InvasiveDebug支持處理器級聯(lián)擴展、支持協(xié)處理器擴圖5邊緣計算協(xié)處理方案說明：支持多人像的動態(tài)抓拍、VP數(shù)統(tǒng)計、支持人臉、年齡、性別、人眼關注度等屬SDK，易于集成開發(fā)?？土鞣治龅取！井a(chǎn)品特征/技術特點】1．處理器內核32位超高性能嵌入式C810CPU玄鐵處理器；16/32RISCL1I/D32KByte，L2128KByte，主頻1.2GHz；2.5DMIPS/MHz；（5）支持大端和小端模式；（6）內部硬件調試模塊支持片上硬件調試；（7）支持多電壓、多時鐘管理的低功耗技術；2．神經(jīng)網(wǎng)絡處理器（1）內含自研四核NNP神經(jīng)網(wǎng)絡處理器，主頻最高800Mhz；（2）自定義神經(jīng)網(wǎng)絡處理器指令集和架構；INT16/INT12/INT8CNN算法所需的指令集；weightfeaturemap壓縮；支持caffe/tensorflow/mxnet

展；時鐘門控、電源門控、多電壓、MVT等典型低功耗技術；3．DSP處理器（1）VisionProcessorDSP，主頻最600Mhz；（2）32KBI-Cache/64KBITCM/256KBDTCM；（3）支持OpenCV、OpenVX；4．視頻編解碼H.264、H.265JTAGx16K分辨率8Kx8K5．視頻輸入接口支持I2X4e4KP30；BT1120視頻輸入接口，性能為1080P60；SDIO3.0USBWIFI支持USB轉EMAC6．存儲單元DDR4/DDR3/DDR3L/LPDDR32677Mbps；支持SPI_NOR/SPI_NAND/EMMC/SD7．外設接口USB3.0/2.0Host/Device支持UART/GPIO/SPI/I2C等通用的低速接口；8．其它說明Temp_sensor，支持功耗動態(tài)管理；SPI_NorFlash/SPI_NandFlashSD/EMMC/USB/Boot（3）支持版本在線升級。【專利狀態(tài)】公司芯片專項發(fā)明專利近200件，并獲得2019年度深圳市專利獎?！井a(chǎn)品信息】芯片名稱功耗內存帶寬上市時間深度學習計算能力工藝INT8FP16FP32DeepEye1000云天初芯典型功耗2W支持最大4GB8GBps2019年9月支持支持不支持22nmT710【技術概述】T710采用8CPU構，由4ArmCortex-A7541.8GHzArmCortex-A559446圖形處理器。虎賁T710包含了CPU、GPU、NPU、IP、DPAI提供了高效能、低功耗的技術基礎。【技術指標】CPU:\h4xA75@2.0GHz\h4xA55@1.8GHzGPU:PowerVRGM944

人人文庫> 全部分類> 行業(yè)資料 > 機電工程

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2020人工智能Al芯片技術選型目錄

文檔簡介

溫馨提示

最新文檔

評論

2020人工智能Al芯片技術選型目錄

文檔簡介

溫馨提示

最新文檔

評論

相關文檔