2020年AI芯片行業(yè)報告:AI芯片技術(shù)選型目錄_第1頁
2020年AI芯片行業(yè)報告:AI芯片技術(shù)選型目錄_第2頁
2020年AI芯片行業(yè)報告:AI芯片技術(shù)選型目錄_第3頁
2020年AI芯片行業(yè)報告:AI芯片技術(shù)選型目錄_第4頁
2020年AI芯片行業(yè)報告:AI芯片技術(shù)選型目錄_第5頁
已閱讀5頁,還剩89頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟 AI 芯片技術(shù)選型目錄(2020) 編寫專家委員會 鄭南寧 黃 如 楚 慶 陳云霽 汪 玉 中國工程院院士 中國科學(xué)院院士 紫光展銳首席執(zhí)行官 中國科學(xué)院計算技術(shù)研究所所長助理、智能處理器研究中心主任 清華大學(xué)電子工程系主任、信息科學(xué)技術(shù)學(xué)院副院長 編寫委員會主席 任鵬舉 張蔚敏 西安交通大學(xué)人工智能與機(jī)器人研究所副所長 / 副教授、博導(dǎo) 中國信息通信研究院 工程師 編寫成員單位 / 個人(按名稱的首字母來排序) 安謀科技(中國)有限公司 北京百度網(wǎng)訊科技有限公司 北京比特大陸科技有限公司 北京清微智能科技有限公司 成都啟英泰倫科技有限公司 瑞芯微電子股份有限公司 高

2、通信息科技(上海)有限公司 華為技術(shù)有限公司 深圳鯤云信息科技有限公司 賽靈思 上海海思技術(shù)有限公司 上海天數(shù)智芯半導(dǎo)體有限公司 上海深聰半導(dǎo)體有限責(zé)任公司 上海燧原科技有限公司 深圳云天勵飛技術(shù)有限公司 穎脈信息技術(shù)(上海)有限公司 NVIDIA 紫光展銳 中科寒武紀(jì)科技股份有限公司 CONTENTS目 錄 目錄中產(chǎn)品順序不分先后 一、引言1 二、云端 / 數(shù)據(jù)中心 2.1 云端訓(xùn)練 5 6 2.1.1 北京百度網(wǎng)訊科技有限公司 - 百度昆侖 1 芯片6 2.1.2 上海燧原科技有限公司 - 邃思通用人工智能訓(xùn)練芯片 2.1.3 NVIDIA-NVIDIA A100/V100/T4 Tens

3、or Core GPUs 7 8 2.2 云端推斷10 10 14 15 16 18 20 2.2.1 賽靈思 - Alveo 2.2.2 中科寒武紀(jì)科技股份有限公司 - 寒武紀(jì)思元 100 2.2.3 中科寒武紀(jì)科技股份有限公司 - 寒武紀(jì)思元 270 2.2.4 北京比特大陸科技有限公司 - 比特大陸算豐 TPU 芯片 BM1684 2.2.5 深圳鯤云信息科技有限公司 - 星空 x3 加速卡 2.2.6 華為技術(shù)有限公司 - 昇騰 310AI 處理器 2.3 小結(jié)22 三、邊緣計算24 25 27 29 30 31 3.1 上海天數(shù)智芯半導(dǎo)體有限公司 - 天數(shù)智芯 Iluvatar Co

4、reX I 芯片 3.2 NVIDIA-NVIDIA Jetson ,NVIDIA T4 Tensor Core GPUs 3.3 紫光展銳 - 虎賁 T710 3.4 中科寒武紀(jì)科技股份有限公司 - 寒武紀(jì)思元 220 M.2 3.5 華為技術(shù)有限公司 - 昇騰 310AI 處理器 3.6 深圳鯤云信息科技有限公司 - 星空 x3 加速卡 3.7 小結(jié) 33 36 四、終端38 4.1 通用端側(cè)產(chǎn)品39 39 41 4.1.1 NVIDIA-NVIDIA Jetson 4.1.2 華為技術(shù)有限公司 - 昇騰 310AI 處理器 4.1.3 瑞芯微電子股份有限公司 - RK1808 AIoT

5、芯片方案 4.1.4 瑞芯微電子股份有限公司 - RK3399 Pro 人工智能端側(cè)芯片方案 4.1.5 上海天數(shù)智芯半導(dǎo)體有限公司 - 天數(shù)智芯 Iluvatar CoreX I 芯片 43 45 47 4.2 智能駕駛49 49 53 4.2.1 賽靈思 - ZU7EV(Zynq UltraScale+ MPSoC) 4.2.2 NVIDIA - NVIDIA DRIVE 4.3 安防、機(jī)器人、車載54 54 59 60 61 4.3.1 深圳云天勵飛技術(shù)有限公司 - 面向計算機(jī)視覺的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)處理器 4.3.2 紫光展銳 - 虎賁 T710 4.3.3 上海海思技術(shù)有限公司 - H

6、i3516D V300 4.3.4 上海海思技術(shù)有限公司 - Hi3519A V100 4.3.5 上海海思技術(shù)有限公司 - Hi3559A V100 4.3.6 上海海思技術(shù)有限公司 - Hi3562 V100 4.3.7 上海海思技術(shù)有限公司 - Hi3566 V100 4.3.8 上海海思技術(shù)有限公司 - Hi3568 V100 4.3.9 上海海思技術(shù)有限公司 - Hi3569 V100 4.3.10 北京清微智能科技有限公司 - TX510 62 63 64 65 66 67 4.4 手機(jī)68 68 70 4.4.1 華為技術(shù)有限公司 - Kirin 990 5G 處理器 4.4.2

7、 高通信息科技(上海)有限公司 - 高通驍龍 865 移動平臺 4.5 語音72 72 75 4.5.1 成都啟英泰倫科技有限公司 - 人工智能語音識別降噪一體芯片 CI1103 4.5.2 上海深聰半導(dǎo)體有限責(zé)任公司 - 人工智能語音芯片 4.5.3 北京清微智能科技有限公司 - TX21077 4.6 小結(jié)78 80五、IP 技術(shù) 5.1 安謀科技(中國)有限公司 - 周易 AIPU 5.2 穎脈信息技術(shù)(上海)有限公司 - PowerVR NNA 神經(jīng)網(wǎng)路加速器系列 IP 5.3 小結(jié) 81 83 86 88附錄 說明 圖 1 產(chǎn)品驗證測試 logo AI 芯片技術(shù)前有圖 1 logo,

8、代表企業(yè)在報名提交產(chǎn)品文本資料后,同時提供產(chǎn)品技術(shù)測試報 告并參與由 AIIA 委托中國信息通信研究院進(jìn)行的驗證測試,但具體實測性能不公開。 圖 2 AIIA DNN benchmark 項目 logo AI 芯片技術(shù)前有圖 2 logo,代表在企業(yè)提交產(chǎn)品資料介紹時,同時提交產(chǎn)品技術(shù)測試報告, 并參與 AIIA DNN benchmark 項目測試,具體實測性能在 AIIA DNN benchmark 官網(wǎng)可查看 (http:/ 聲明:本選型目錄的編寫工作以企業(yè)自愿報名方式開展,所有相關(guān)產(chǎn)品的數(shù)據(jù)文本資料均由企 業(yè)提供且經(jīng)企業(yè)審核,如因內(nèi)容不當(dāng)造成直接或間接損失,AIIA 不承擔(dān)任何責(zé)任。

9、CHAPTER 1 引言 AI 芯片技術(shù)選型目錄 背景與意義 當(dāng)前隨著人工智能理論和技術(shù)的日益成熟,應(yīng)用范圍不斷擴(kuò)大,目前已廣泛應(yīng)用于計算機(jī)科學(xué)、金融 貿(mào)易、醫(yī)藥、診斷、重工業(yè)、運(yùn)輸、遠(yuǎn)程通訊、在線和電話服務(wù)、法律、科學(xué)發(fā)現(xiàn)、玩具和游戲、音樂等 諸多方面。 算力作為承載人工智能應(yīng)用的平臺和基礎(chǔ),其發(fā)展推動了整個人工智能系統(tǒng)的進(jìn)步和快速演進(jìn),是人 工智能最核心的要素之一。以人工智能應(yīng)用為主要任務(wù)的,面向智能計算的處理器的相關(guān)設(shè)計方法與技術(shù) 已成為國內(nèi)外工業(yè)界和學(xué)術(shù)界共同角逐的熱點,國內(nèi)外企業(yè)紛紛布局 AI 芯片。 AI 芯片的應(yīng)用場景不再局限于云端,部署于智能手機(jī)、安防攝像頭、及自動駕駛汽車等終

10、端的各項 產(chǎn)品日趨豐富。除了追求性能提升外,AI 芯片也逐漸專注于特殊場景的優(yōu)化。 為了進(jìn)一步促進(jìn)供需對接,為 AI 芯片供應(yīng)商和需求商提供交流的平臺,中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟(以 下簡稱“AIIA”或聯(lián)盟)計算架構(gòu)與芯片推進(jìn)組啟動“AI 芯片技術(shù)選型目錄”(以下簡稱“選型目錄”) 的工作,希望為 AI 芯片的可持續(xù)發(fā)展,服務(wù)和促進(jìn)相關(guān)產(chǎn)業(yè)發(fā)展壯大貢獻(xiàn)一份力量。 內(nèi)容與目的 選型目錄在 1 年前開始面向全球企業(yè)征集,內(nèi)容包含 AI 芯片產(chǎn)品的: 技術(shù)概述:主要介紹 AI 芯片產(chǎn)品的技術(shù)特點與應(yīng)用場景及功能概述; 技術(shù)指標(biāo):主要介紹 AI 芯片產(chǎn)品實現(xiàn)的技術(shù)及其特點; 應(yīng)用案例:主要介紹該款 A

11、I 芯片產(chǎn)品已經(jīng)應(yīng)用的場景與經(jīng)典的案例介紹; 產(chǎn)品特征 / 技術(shù)特點:詳細(xì)介紹 AI 芯片產(chǎn)品的各項指標(biāo)或特定應(yīng)用領(lǐng)域的技術(shù)描述; 專利狀態(tài):作為選填項,披露產(chǎn)品專利狀態(tài) 產(chǎn)品信息:以列表形式,展示 AI 芯片的主要產(chǎn)品信息,包括功耗、芯片特征、上市時間、深度 學(xué)習(xí)計算能力及工藝等。 征集 AI 芯片產(chǎn)品信息后,由 AIIA 委托中國信息通信研究院進(jìn)行芯片驗證測試。參與產(chǎn)品驗證測試的 AI 芯片,將以“tested by AIIA”logo 體現(xiàn)在產(chǎn)品介紹頁,如圖 1 所示,代表該 AI 芯片有真實產(chǎn)品但真 實性不能公開。 圖 1 產(chǎn)品驗證測試 logo 2 引言 為了幫助企業(yè)、系統(tǒng)集成廠商、

12、開發(fā)者等準(zhǔn)確評價芯片的技術(shù)水平和在國際上行業(yè)內(nèi)的地位,AIIA 于 2017 年發(fā)起的 AIIA DNN benchmark 也為 AI 芯片選型目錄工作提供技術(shù)支撐。為了進(jìn)一步幫助企 業(yè)產(chǎn)品宣傳,幫助用戶了解 AI 芯片的真實性能表現(xiàn),參與 AIIA DNN benchmark 的 AI 芯片,將以“AIIA DNN benchmark”logo 體現(xiàn)在產(chǎn)品介紹頁,如圖 2 所示,代表該芯片可從 AIIA DNN benchmark 官網(wǎng) 查到測試數(shù)據(jù)(http:/ 圖 2 AIIA DNN benchmark 項目 logo 經(jīng)過近半年的籌備工作,推進(jìn)組完成材料匯總,測試驗證并組織行業(yè)內(nèi)專

13、家對目錄內(nèi)容進(jìn)行專家評審 工作。AIIA 2020 年度首批“AI 芯片技術(shù)選型目錄”,共收到 22 家企業(yè)報名,反饋 49 款 AI 芯片相關(guān) 產(chǎn)品技術(shù),經(jīng)過測試、評審首批目錄包含 19 家企業(yè)共 46 款 AI 芯片產(chǎn)品技術(shù)。 人工智能芯片按照目前的應(yīng)用場景來看,主要分為訓(xùn)練和推斷兩類場景,按部署位置又可分為云端、 邊緣和終端。AIIA “AI 芯片技術(shù)選型目錄”具體根據(jù)應(yīng)用場景與部署位置,包含云端訓(xùn)練、基于云端、 邊緣和終端推斷的四大產(chǎn)品形態(tài)。又依據(jù)行業(yè)應(yīng)用,AI 芯片技術(shù)選型目錄根據(jù)垂直應(yīng)用場景如圖 3 所示 給出。 圖 3 AI 芯片根據(jù)行業(yè)應(yīng)用分類圖 AIIA 希望通過“AI 芯片

14、選型目錄”的工作,一方面提供選型參考,希望收入 AI 芯片目錄的產(chǎn)品信息 可以作為用戶選型依據(jù)之一;另一方面是幫助芯片企業(yè)宣傳產(chǎn)品,同時通過測試驗證以及依托 AIIA DNN benchmark 項目,來切實反映當(dāng)前 AI 芯片的真實性能。 后續(xù)技術(shù)選型目錄將以聯(lián)盟內(nèi) AI 芯片供應(yīng)商和需求商的真實案例為切入點,繼續(xù)迭代更新目錄內(nèi)容, 同時推動符合用戶需求的測試評估,以促進(jìn)產(chǎn)業(yè)健康發(fā)展,同時助力人工智能生態(tài)建設(shè)。 3 AI 芯片技術(shù)選型目錄 4 CHAPTER 2 云端 / 數(shù)據(jù)中心 AI 芯片技術(shù)選型目錄 2.1 云端訓(xùn)練 2.1.1 北京百度網(wǎng)訊科技有限公司 - 百度昆侖 1 芯片 【技術(shù)

15、概述】【應(yīng)用案例】 百度昆侖 1 芯片面向 AI 通用計算,基于百度百度 ERNIE 模型,應(yīng)用于翻譯、搜索排序等 場景。百度網(wǎng)盤里的圖像模型;百度云主機(jī);百度 云的工業(yè)質(zhì)檢客戶。 XPU 架構(gòu),既可以用于訓(xùn)練,也可以用于推理, 能全面支持語音,圖像,自然語言處理等應(yīng)用。 【技術(shù)指標(biāo)】【產(chǎn)品特征 / 技術(shù)特點】 百度昆侖 1 芯片基于百度 XPU 架構(gòu),采用三 星 14nm 工藝,HBM2 和 PCIE4.0 等技術(shù),給用 戶提供高性能、高帶寬、低功耗、高靈活性、高度 可編程等優(yōu)勢。 1高性能,峰值 256Tops; 2高帶寬,片外內(nèi)存帶寬 512GB/s; 3高度可編程性,能提供 C/C+

16、的編程, 用戶可以自由開發(fā)自己的算子。 【專利狀態(tài)】(未提供) 【產(chǎn)品信息】 深度學(xué)習(xí)計算能力 工藝 芯片名稱功耗內(nèi)存帶寬上市時間 INT8FP16FP32 百度昆侖 1150W16GB512GB/s 2019 年 11 月 256Tops64Tops16Tops14nm 6 云端 / 數(shù)據(jù)中心 2.1.2 上海燧原科技有限公司 - 邃思通用人工智能訓(xùn)練芯片 【技術(shù)概述】 邃思芯片集成神經(jīng)元處理器架構(gòu)和數(shù)據(jù)處理引 擎,通過可編程的通用張量 / 向量運(yùn)算核心,支持 各類數(shù)據(jù)精度的主流深度學(xué)習(xí)訓(xùn)練負(fù)載。 【技術(shù)指標(biāo)】 支持?jǐn)?shù)據(jù)類型:FP32/FP16/BF16/INT8/ 邃思芯片采用 12nm

17、FinFET 工藝,2.5D 封 INT16/INT32 等 裝,總計 141 億個晶體管。其宣稱單芯片提供 20TFLOPSFP32 及 80TFLOPSBF16/FP16 的算力,最大功耗 190W。 【應(yīng)用案例】(未提供) 【產(chǎn)品特征 / 技術(shù)特點】 邃思芯片主要技術(shù)特點包括: 云燧 T10 是基于邃思芯片打造的人工智 能 訓(xùn) 練 加 速 卡,20TFLOPSFP32, 最 大 功 耗 225W, 支 持 FP32/FP16/BF16/INT8/INT16/ INT32 等多種數(shù)據(jù)類型;支持 PCIe 4.0 接口,提 供 64GB 帶寬以及 200GB/s 片間互聯(lián)帶寬; 馭算計算和編

18、程平臺主要包含分布式調(diào) 度、軟件開發(fā)包(SDK)和設(shè)備驅(qū)動層,用戶可以 將已有訓(xùn)練系統(tǒng),無縫遷移至邃思平臺上運(yùn)行,無 需二次開發(fā)或者模型轉(zhuǎn)換工作。 自主指令集的神經(jīng)元處理器(SIP),可 編程的通用張量 / 向量運(yùn)算核心,支持張量 / 向量 / 標(biāo)量計算; 神經(jīng)元處理集群(SIC),由 8 個神經(jīng)元 處理器構(gòu)成,4MB 共享集群緩存; 自主研發(fā) 2.5D 封裝,集成 16GB HBM 存儲, 提供 512GB/s 帶寬; 自主 ESL(燧原智能互聯(lián),Enflame Smart Link)片間互聯(lián)引擎,每通道雙向 50GB/s,4 通道 總共 200GB/s 接口帶寬,通道延時小于 1s; 系統(tǒng)

19、穩(wěn)定性控制,支持服務(wù)器級別 RAS 需求(Reliability, Availability and Serviceability, RAS)。 云燧 T10 人工智能訓(xùn)練加速卡面向云端 數(shù)據(jù)中心,可廣泛應(yīng)用于互聯(lián)網(wǎng)、金融、教育、醫(yī) 療、工業(yè)及政務(wù)等人工智能訓(xùn)練場景。 【專利狀態(tài)】 燧原科技及其子公司目前已獲得 24 項授權(quán)專 利,其中包括 19 項發(fā)明專利,另有近 20 件專利 正在申請進(jìn)程中。 支 持 CNN、RNN、LSTM、BERT 等 網(wǎng) 絡(luò)模型 【產(chǎn)品信息】 深度學(xué)習(xí)計算能力 工藝 芯片名稱 邃思 功耗內(nèi)存帶寬上市時間 INT8FP16FP32 190W(最 16GB 大功耗) H

20、BM 2020 年 6 月 512GB /s80TOPS 80TFLOPS 20TFLOPS GF 12nm FinFET 7 AI 芯片技術(shù)選型目錄 2.1.3 NVIDIA-NVIDIA A100/V100/T4 Tensor Core GPUs 【技術(shù)概述】 大規(guī)模數(shù)據(jù)中心工作負(fù)載?,F(xiàn)在,數(shù)據(jù)科學(xué)家和研 為數(shù)據(jù)中心 GPU,可加快 AI、高性能計算 (HPC) 和圖形技術(shù)的發(fā)展。 究人員可以在能源勘探和深度學(xué)習(xí)等應(yīng)用場合中解 析 PB 級的數(shù)據(jù),速度比使用傳統(tǒng) CPU 快幾個數(shù) 量級。NVIDIA A100/V100/T4 加速器可以超快速 度運(yùn)行更大型的模擬。此外, NVIDIA GP

21、U 還能 為虛擬桌面、應(yīng)用程序和工作站提供超高性能和用 戶密度。 【技術(shù)指標(biāo)】 NVIDIA Ampere GPU 架構(gòu)配備 540 億個晶 體管,為 7 納米芯片架構(gòu),集訓(xùn)練和推理于一身, 具有多實例 GPU、TF32、結(jié)構(gòu)化稀疏等特性。 NVIDIA Volta GPU 架 構(gòu) 配 備 640個【產(chǎn)品特征 / 技術(shù)特點】 Tensor 內(nèi) 核, 可 提 供 每 秒 超 過 100 萬 億 次 (TFLOPS) 的深度學(xué)習(xí)性能,是上一代 NVIDIA Pascal 架構(gòu)的 5 倍以上。 NVIDIA A100 采用了 NVIDIA Ampere 架構(gòu) 的突破性設(shè)計,集 AI 訓(xùn)練和推理于一身

22、,宣稱其 性能相比于前代產(chǎn)品提升了 20 倍。作為一款通用 型工作負(fù)載加速器,A100 還被設(shè)計用于數(shù)據(jù)分析、 科學(xué)計算和云圖形。 NVIDIA Turing GPU 架構(gòu)支持實時光線追 蹤、AI、模擬和光柵化技術(shù)。 【應(yīng)用案例】NVIDIA V100 運(yùn) 用 NVIDIA Volta 架 構(gòu), 擁有 640 個 Tensor 內(nèi)核,是世界上第一個突 破 100 萬億次 (TFLOPS) 深度學(xué)習(xí)性能障礙的 利 用 NVIDIA A100/V100/T4 GPU 可 以 更 快速地處理要求最嚴(yán)格的高性能計算 (HPC) 和超 8 云端 / 數(shù)據(jù)中心 GPU。 NVIDIA T4 GPU 推理加

23、速器搭載 NVIDIA Turing Tensor Core,提供多精度推理性能,以加速人 工智能的各種應(yīng)用。 【專利狀態(tài)】(未提供) 【產(chǎn)品信息】 深度學(xué)習(xí)計算能力 FP64 芯片名稱功耗顯存帶寬上市時間工藝 INT8FP32 19.5 FP64TF32Tensor Core 624 TOPS | 1248312TFLOPS (* 采用 NVIDIA A100 40GB HBM2 2020 年 5 月 9.719.5 400w 300w 1555 GB/sTOPS*7nm TFLOPS TFLOPSTFLOPS (* 采用稀 疏技術(shù)) 稀疏技術(shù)) NVIDIA V100 32/16 GB H

24、BM2 2017 年 5 月 15.77.8 900 GB/s 900 GB/s 12nm 12nm TFLOPS TFLOPS (NVLink) NVIDIA V100 32/16 GB HBM2 2017 年 5 月 147 250w 250w TFLOPS TFLOPS (PCIe) NVIDIA V100S 32 GB HBM2 16 GB 2019 年 11 月 2018 年 3 月 16.4 8.2 1134 GB/s 320+ GB/s 12nm 12nm TFLOPS TFLOPS 8.1 NVIDIA T4 70w130TOPS GDDR6TFLOPS 9 AI 芯片技術(shù)選型

25、目錄 2.2 云端推斷 2.2.1 賽靈思 - Alveo 【技術(shù)概述】 AlveoU50 卡 采 用 XCU50 FPGA 包 括 2 個 SLR,配備 PCIe Gen4 和 8G HBM2,每秒 100G 網(wǎng)絡(luò)連接,以高效能 75 瓦、小尺寸形式為 金融計算、機(jī)器學(xué)習(xí)、計算存儲以及數(shù)據(jù)搜索與分 析工作負(fù)載提供優(yōu)化加速。 賽靈思 AlveoTM 數(shù)據(jù)中心加速器卡專為現(xiàn)代 數(shù)據(jù)中心多樣的應(yīng)用需求而設(shè)計。Alveo 加速器卡 可通過對加速資源的重新配置,適應(yīng)持續(xù)算法優(yōu)化, 在降低總成本的同時,靈活支持各類工作負(fù)載。 賽 靈 思 推 出 的 Vitis 統(tǒng) 一 軟 件 平 臺 為 各 類 軟件和

26、 AI 推理應(yīng)用開發(fā)提供統(tǒng)一編程模型,幫 助 用 戶 加 速 實 現(xiàn) 從 C/C+、Python、Caffe、 Tensorflow 到差異化應(yīng)用落地的開發(fā)過程。 Alveo U200 卡采用 XCU200 FPGA 包括 3 個 SLR , Alveo U250 卡使用 XCU250 FPGA 包 括 4 個 SLR。二者均可連接到 PCI Express的 16 個通道,最高運(yùn)行速度 8GT/s(Gen3),也可以 連接到 4 根 DDR4 16 GB 2400 MT/s 64 位含糾 錯碼 (ECC) 的 DIMM,總計 64 GB 的 DDR4。 ALveo U280 加速卡采用 XC

27、U280 包括三個 SLR,底部 SLR (SLR0) 集成一個 HBM 控制器, 與相鄰的 8 GB HBM2 內(nèi)存接口連接。底部 SLR 還連接到 PCI Express 的 16 個通道,這些通 道可以最高 16 GT/s (Gen4) 的速度運(yùn)行。SLR0 和 SLR1 都連接到 DDR4 16 GB 2400 MT/s 64 【技術(shù)指標(biāo)】 賽 靈 思 Alveo 數(shù) 據(jù) 中 心 加 速 器 卡 基 于 Xilinx16nm UltraScale 架構(gòu),使用賽靈思堆疊硅 片互聯(lián) (SSI) 技術(shù)來實現(xiàn) FPGA 容量、帶寬和功耗 效率,通過結(jié)合多個超邏輯區(qū)域 (SLR) 來增大密度。

28、Alveo 加速卡旨在加速服務(wù)器或工作站中的機(jī)器學(xué) 習(xí)、數(shù)據(jù)分析和視頻處理等計算密集型應(yīng)用。 10 云端 / 數(shù)據(jù)中心 位含糾錯碼 (ECC) 的 DIMM, 總 計 32 GB 的 DDR4。 【產(chǎn)品特征 / 技術(shù)特點】 Alveo U50 數(shù)據(jù)中心加速器卡采用賽靈思 UltraScale+ 架構(gòu),使用半高半長的外形尺寸和 低于 75 瓦的低包絡(luò)功耗。該卡支持第四代 PCIe 及高帶寬存儲器(HBM2),每秒 100G 網(wǎng)絡(luò)連接, 面向各種類型的服務(wù)器部署。 【應(yīng)用案例】 Alveo 加速卡已經(jīng)開發(fā)和認(rèn)證的關(guān)鍵應(yīng)用 涵蓋 AI/ML、視頻轉(zhuǎn)碼、數(shù)據(jù)分析、金融風(fēng)險建 模、 安 全 和 基 因

29、組 學(xué) 等。Algo-Logic Systems Inc、Bigstream、BlackLynx Inc.、CTAccel、 Falcon Computing、Maxeler Technologies、 Mipsology、NGCodec、Skreens、SumUp Analytics、Titan IC、Vitesse Data、VYUsync 和 Xelera Technologies 等合作伙伴開發(fā)完成的 應(yīng)用已經(jīng)投入部署。此外,Dell EMC、Fujitsu Limited 和 IBM 等頂級 OEM 廠商也在同賽靈思 合作,認(rèn)證采用 Alveo 加速器卡的多個服務(wù)器 SKU。 Alv

30、eo U50 加速器卡產(chǎn)品詳細(xì)介紹: 規(guī)格 產(chǎn)品 SKU U50 A-U50-P00G-PQ-G 75W卡總耗電量 1 散熱解決方案 重量 外形尺寸 網(wǎng)絡(luò)接口 被動 300g 325g 半高半長 1x QSFP28 Gen3 x16, Gen4 x8, CCIX 8 GB 201 GB/s 872K PCIe 接口 2, 3 HBM2 總?cè)萘?HBM2 帶寬 查找表 (LUTs) 寄存器 4 1,743K 5,952DSP slices 最高分布 . RAM 36 Kb 塊 RAM 288 Kb UltraRAM GTY 收發(fā)器 24.6 Mb 1344 (47.3 Mb) 640 (180.

31、0 Mb) 20 有 一,Alveo-Mipsology, Zebra 搭 載 Alveo U50 數(shù)據(jù)中心加速卡用于神經(jīng)網(wǎng)絡(luò)推理,板卡功 耗 75W,關(guān)鍵功能:符合部署條件 快速卷積神經(jīng)網(wǎng)絡(luò) (CNN) 推理Zebra 設(shè) 立了新的性能標(biāo)準(zhǔn); 注釋: 1. Alveo U50 卡為 FPGA 結(jié)構(gòu)與 HBM 存儲器 分別搭配了單獨(dú)的電源供電線。開發(fā)者必須確保他 們的設(shè)計不會從每條供電線汲取過多電源。如需了 解 更多信息,請參閱Alveo U50 數(shù)據(jù)中心加速器 卡安裝指南(UG1370)。 支持所有神經(jīng)網(wǎng)絡(luò)Zebra 可加速任何 CNN 的所有層級; 易于使用Zebra 是“即插即用”的解決

32、 方案,無需對神經(jīng)網(wǎng)絡(luò)進(jìn)行修改或再訓(xùn)練; 不改變軟件環(huán)境無新語言、框架或工具。 Zebra 在 TensorFlow、PyTorch、ONNX、 Caffe 和 MXNet 模型內(nèi)運(yùn)行; 2. PCIe 接口可以配置為支持各種鏈接寬度和 速度。最高為 Gen3 (8 Gt/s) x16、Gen4 (16 Gt/s) x8 或以 16 GT/s x8 運(yùn)行的 CCIX。PCIe 接口還可以 配置為雙 x8 接口,并連接到支持 PCIe 分叉的主機(jī)。 3. 此塊在兼容模式下以 16.0 Gt/s (Gen4) 的 速度運(yùn)行。請參閱UltraScale+ Devices Integrated Blo

33、ck for PCI Express LogiCORE IP 產(chǎn) 品 指 南 (PG213) 了解兼容模式的詳情。 可擴(kuò)展性、靈活性和適應(yīng)性Zebra 可替 代 GPU 或在任何位置補(bǔ)充 CPU。 二,Alveo-SK 電訊基于人工智能的實時物 理入侵和盜竊檢測服務(wù), 基于賽靈思 Alveo U250 加速器卡,可提供充足的吞吐量與精準(zhǔn)度。 11 AI 芯片技術(shù)選型目錄 4. 通過 PCIe 3.3V 電源供電線提供的 HBM2 功耗僅限為 10W。使用 HBM2 可實現(xiàn)的性能受限 于此功耗限制,并且因設(shè)計而異。HBM2 的額定 帶寬為 201 GB/s。在不兼容 PCIe 的規(guī)格中,針對 A

34、-U50DD-P00G-ES3-G 和 A-U50-P00G-PQ-G 卡測得的 HBM2 帶寬峰值為 316 GB/s。 用 PCIe Gen3 x16,設(shè)計用于加速高計算強(qiáng)度應(yīng) 用,如機(jī)器學(xué)習(xí)、數(shù)據(jù)分析和視頻處理。 注釋 : 1225W PCIe CEM 卡通過標(biāo)準(zhǔn)連接器 12V 電 源獲取 65W,通過 AUX 連接器 12V 電源獲取另外 150W。此卡上不使用標(biāo)準(zhǔn)連接器提供的 3.3V 電源。 CEM 卡需將 150W PCIe AUX 電源線纜連接到本卡。Alveo U200 和 U250 數(shù)據(jù)中心加速器卡采 Alveo U200/U250 加速器卡產(chǎn)品詳細(xì)介紹 U200 U250

35、 規(guī)格 U200 U250 動散熱版 A-U200- A64G-PQ-G 主動 被動散熱版主動散熱版 A-U250- A64G-PQ-G 主動 被動散熱版 A-U250-A-U200- P64G-PQ-G 被動 產(chǎn)品 SKU P64G-PQ-G 被動散熱解決方案 1122g1066g1122g1066g 全高、全長、 雙寬度 全高、 長、 雙寬度 全高、全長、 雙寬度 全高、 長、 雙寬度 外形尺寸 卡總耗電量 網(wǎng)絡(luò)接口 PCIe 接口 1 225W225W 2x QSFP28 Gen3 x16 1,182K 2,364K 6,840 2x QSFP28 Gen3 x16 1,728K 3,4

36、56K 12,288 查找表 (LUT) 寄存器 DSP slice UltraRAM DDR 總?cè)萘?DDR 最大數(shù)據(jù)率 DDR 總帶寬 960 64 GB 2400 MT/s 77 GB/s 1,280 64 GB DDR 2400 MT/s 77 GB/s Alveo U280 數(shù)據(jù)中心加速器卡專為計算和存儲工作負(fù)載而設(shè)計,擁有 8GB HBM2 + 32GB DDR4 內(nèi)存、1.1M LUT、8.5k DSP 片、每秒 100G 雙網(wǎng)絡(luò)連接,并支持第四代 PCIe 和 CCIX 互聯(lián)標(biāo)準(zhǔn)。 Alveo U280 加速器卡產(chǎn)品詳細(xì)介紹: 規(guī)格 1 主動散熱版 A-U280-A32G-DE

37、V-G 225W 被動散熱版 A-U280-P32G-PQ-G 225W 產(chǎn)品 SKU 卡總耗電量 33 2 散熱解決方案 重量 主動 1187g 被動 1130g 外形尺寸 網(wǎng)絡(luò)接口 全高、全長、雙寬度 2x QSFP28 全高、 長、雙寬度 PCIe 接口 4,5 HBM2 總?cè)萘?HBM2 帶寬 查找表 (LUTs) 寄存器 DSP slices UltraRAMs DDR 總?cè)萘?DDR 最大數(shù)據(jù)率 DDR 總帶寬 Gen3 x16, Gen4 x8, CCIX 8 GB 460 GB/s 1,079K 2,607K 9,024 960 32 GB 2400 MT/s 38 GB/s

38、12 云端 / 數(shù)據(jù)中心 注釋 :信息,請聯(lián)系您當(dāng)?shù)氐馁愳`思銷售代表。 1. 規(guī)格適用于量產(chǎn) U280 卡。U280 ES1 卡規(guī) 格和功能的任何差異都記錄在 U280 ES1 已知問題 賽靈思答復(fù)記錄 71975 中。 4. PCIe 接口可以配置為支持各種鏈接寬度和速 度。最高為 Gen3 (8 Gt/s) x16、Gen4 (16 Gt/s) x8 或 以 16 GT/s x8 運(yùn)行的 CCIX。PCIe 接口還可以 配置 為雙 x8 接口,并連接到支持 PCIe 分叉的主機(jī)。 5. 此塊在兼容模式下以 16.0 Gt/s (Gen4) 的速度 運(yùn) 行。 請 參 閱UltraScale+

39、 Devices Integrated Block 2. 225W PCIe CEM 卡通過標(biāo)準(zhǔn)連接器 12V 電 源獲取 65W,通過 AUX 連接器 12V 電源獲取另外 150W。此卡上不使用標(biāo)準(zhǔn)連接器提供的 3.3V 電源。 CEM 卡需將 150W PCIe AUX 電源線纜連接到本卡。 for PCI Express LogiCORE IP 產(chǎn)品指南 (PG213) 了 3. 被動散熱卡和主動散熱卡都符合部署條件。 主動 DEV 器件編號包含一條 USB 線用于開發(fā)。如 需了解有關(guān)不含 USB 線的主動卡的批量訂購選項的 解兼容模式的詳情。 【專利狀態(tài)】(未提供) 【產(chǎn)品信息】 芯

40、片深度學(xué)習(xí)計算能力 功耗 50W 內(nèi)存 8GB 64GB 64GB / 帶寬 316GB/s 77GB/s 77GB/s / 上市時間工藝 名稱 INT8FP16FP32 Alveo U50 (VU35P ) Alveo U200 (VU9P ) Alveo U250 (VU13P ) 2019 年 8 月 2018 年 10 月 2018 年 10 月 2018 年 11 月 16.2/ 100W 110W 100W 18.6 33.3 24.5 / / / / / / 16nm UltraScale Alveo U280 (VU37P ) 13 AI 芯片技術(shù)選型目錄 2.2.2 中科寒武

41、紀(jì)科技股份有限公司 - 寒武紀(jì)思元 100 【技術(shù)概述】【產(chǎn)品特征 / 技術(shù)特點】 為云端推理提供運(yùn)算能力支撐。1通用智能,支持計算機(jī)視覺、語音識別、 自然語言處理等多模態(tài)智能處理; 2針對深度學(xué)習(xí)定制的指令集和處理器架構(gòu), 具有更優(yōu)的能效比; 【技術(shù)指標(biāo)】 INT8 算力 32TOPS, 內(nèi)置硬件編解碼引擎 【應(yīng)用案例】 3完善軟件開發(fā)環(huán)境 NeuWare,包括應(yīng)用 開發(fā)、功能調(diào)試、性能調(diào)優(yōu)等。計算機(jī)視覺、語音識別、自然語言處理。 【專利狀態(tài)】(未提供) 【產(chǎn)品信息】 深度學(xué)習(xí)計算能力 芯片名稱 思元 100 功耗 75w 內(nèi)存帶寬上市時間工藝 INT8FP16FP32 8GB/16GB 1

42、02GB/s 2018 年 05 月 32TOPS 16TFLOPS /16nm 14 云端 / 數(shù)據(jù)中心 2.2.3 中科寒武紀(jì)科技股份有限公司 - 寒武紀(jì)思元 270 【技術(shù)概述】【產(chǎn)品特征 / 技術(shù)特點】 為高能效比 AI 推理設(shè)計的數(shù)據(jù)中心級 PCIe1支持 INT16、INT8、INT4、FP32、 FP16 多種精度;智能加速卡。 2內(nèi)置視頻和圖片編解碼器,有效降低 CPU 前處理負(fù)載和 PCIe 帶寬占用; 3計算彈性,支持多類神經(jīng)網(wǎng)絡(luò),寒武紀(jì) Neuware 軟件棧部署推理環(huán)境; 【技術(shù)指標(biāo)】 支持多種精度,比上一代加速芯片計算能力提 高 4 倍,INT8 算力 128TOPS

43、。 【應(yīng)用案例】 4可編程,基于 Bang 語言編程環(huán)境可對計 算資源定制,滿足多樣化需求。廣泛支持視覺、語音、自然語言處理以及傳統(tǒng) 機(jī)器學(xué)習(xí)等高度多樣化的人工智能應(yīng)用,幫助 AI 推理平臺實現(xiàn)高能效比。 【專利狀態(tài)】(未提供) 【產(chǎn)品信息】 深度學(xué)習(xí)計算能力 工藝 芯片名稱功耗內(nèi)存帶寬上市時間 INT8FP16 / FP32 /思元 270 70w16GB 102GB/s 2019 年 06 月128 TOPS16nm 15 AI 芯片技術(shù)選型目錄 2.2.4 北京比特大陸科技有限公司 - 比特大陸算豐 TPU 芯片 BM1684 【技術(shù)概述】 7. CPU:八核 A53,主頻 2.3GHz

44、; 8. 內(nèi)存:LPDDR4X,帶寬 68.3GB/s; 9. AI 框架支持:Caffe, Tensorflow, PyTorch, MXNet,PaddlePaddle 飛槳等; BM1684 是比特大陸面向深度學(xué)習(xí)領(lǐng)域自主 研發(fā)的第三代張量處理器(TPU),是聚焦視頻圖 像分析的云端及邊緣的人工智能推理芯片。 【應(yīng)用案例】 【技術(shù)指標(biāo)】 1. 北京海淀城市大腦中的 AI 計算推理,百度 大腦 Paddle 1. 芯片:BM1684 聚焦視頻圖像分析,是云 端及邊緣的人工智能推理芯片; TPU 計算集群,處理千路級別的高清視頻結(jié) 構(gòu)化。 2. AI 算力:17.6TOPS INT8,Win

45、ograd 卷 積加速下最高可達(dá) 35.2TOPS,實測推理性能較上 一代提升約 5 倍以上; 2. 福州長樂區(qū)的 AI 算力中心 TPU 計算集群,處理上千路的高清視頻結(jié)構(gòu) 化、人臉識別等。 3. AI 架構(gòu):本芯片基于自主研發(fā)的 TPU 架 構(gòu); 3. 福州城市大腦的 AI 計算推理 TPU 計算集群,處理千路級別的高清視頻結(jié) 構(gòu)化。 4. 典型功耗:16W; 5. 視頻解碼:支持 H264 / H265 解碼,最 大分辨率 8192x8192,支持 4K/8K。H264 和 H265 解碼都支持 32 路高清 30FPS 1080P, 可處理數(shù)十路視頻智能分析全流程; 6. 圖像解碼:支

46、持 JPEG 解碼和編碼,均可 支持 480 張 / 秒 1080P; 4. 優(yōu)必達(dá)(Ubitus)的互聯(lián)網(wǎng)云端游戲 AI 加速 TPU 加速游戲中的圖像特征提取,畫面增強(qiáng), 超分辨率等。 5. 某新零售客戶 16 云端 / 數(shù)據(jù)中心 新零售貨柜的邊緣計算盒子,可進(jìn)行商品自動 識別。 理 GPU T4; 3)視頻解碼路數(shù)多,96 路高清視頻 30FPS 解碼; 3. 模組產(chǎn)品特色: 【產(chǎn)品特征 / 技術(shù)特點】 1. BM1684 芯片技術(shù)特點是: 1)TPU 芯片架構(gòu)自主研發(fā),相關(guān)專利申 請達(dá)到 270 項以上; 1)AI 邊緣計算模組,17.6T/35.2T; 2)視頻解碼支持 32 路 H

47、264 和 H265 高清 30FPS 1080P 硬解碼; 3)視頻全流程處理可達(dá)到 1632 路典型 視頻結(jié)構(gòu)化 / 人臉分析; 2)性能功耗比高,在 16W 情況下,最 高可達(dá)到 35.2T 性能(Winograd 加速); 3)視頻解碼路數(shù)多,支持 32 路 H264 和 H265 高清 30FPS 1080P 硬解碼; 4)視頻全流程處理能力強(qiáng),可達(dá)到 1632 路典型視頻結(jié)構(gòu)化 / 人臉分析路數(shù); 5)AI 工具鏈完備,Caffe, Tensorflow, PyTorch,MXNet,PaddlePaddle 都支持; 6)部署場景靈活,云端和邊緣均可部署; 7)使用靈活,可工作于

48、 PCIE 從設(shè)備模 式或者 SOC 主設(shè)備模式; 4. 盒子產(chǎn)品特色: 1)AI 邊緣計算盒子,17.6T/35.2T; 2)視頻全流程處理能力可達(dá)到 1632 路 典型視頻結(jié)構(gòu)化 / 人臉分析; 3)可室外部署,無風(fēng)扇散熱,-20至 +60寬溫; 4)接口支持 USB/HDMI/RS-485/RS- 232 等; 【專利狀態(tài)】 2. 板卡產(chǎn)品特色: 1)75W 半高半長 PCIE 小卡,峰值算力 105.6T,無需外接供電; 比特大陸自主研發(fā)的 TPU 芯片,自主研發(fā)架 構(gòu),相關(guān)專利申請達(dá)到 270 項以上; 2)宣稱其性能趕上并部分超越英偉達(dá)推 【產(chǎn)品信息】 深度學(xué)習(xí)計算能力 上市時間

49、工藝 芯片名稱 BM1684 功耗內(nèi)存帶寬 INT8FP16FP32 2.2T 17.6T ( 普通 12 12GB模式 );35.2T 16W68.3GB/s2019 年 9 月nm LPDDR4X(Winograd 加 速模式) 17 AI 芯片技術(shù)選型目錄 2.2.5 深圳鯤云信息科技有限公司 - 星空 x3 加速卡 【技術(shù)概述】 4. 其宣稱芯片利用率可達(dá) 95.4% 【應(yīng)用案例】星空 X3 加速卡為鯤云推出的面向邊緣端和數(shù) 據(jù)中心進(jìn)行深度學(xué)習(xí)推斷的 AI 計算加速卡,搭載 鯤云自研的定制數(shù)據(jù)流 CAISA 芯片,采用無指令 集的架構(gòu)方式,為支持深度學(xué)習(xí)的邊緣和數(shù)據(jù)中心 服務(wù)器提供計算

50、加速方案。 1. 工業(yè)領(lǐng)域:鯤云與合作方針對某電容上 激光刻蝕字符推出基于深度學(xué)習(xí)的 OCR 識別方 案,識別算法采用了深度學(xué)習(xí)方法,可識別字母、 數(shù)字以及數(shù)十種特殊字符,字符識別精度可達(dá)到 99.99%。采用搭載鯤云 CAISA 芯片的星空加速 卡,識別延遲可以降低到 50ms,識別速度可達(dá)到 20pcs/s。 【技術(shù)指標(biāo)】 1支持 ResNet、VGG、YOLO 等多個主流 CNN 算法模型 2. 電力領(lǐng)域: 2. 提供 RainBuilder 編譯工具鏈,支持端到 端算法開發(fā)和部署 鯤云與合作方通過研究適用于電力無人機(jī)巡檢 的目標(biāo)檢測深度學(xué)習(xí)算法,實現(xiàn)基于人工智能技術(shù) 的電力無人機(jī)智能巡

51、檢、數(shù)據(jù)采集,并在服務(wù)器端 進(jìn)行高質(zhì)量的圖片數(shù)據(jù)分析,提高巡檢效率,降低 3. 支持 TensorFlow、Caffe 、PyTorch 及 ONNX (MXNet) 等主流深度學(xué)習(xí)框架開發(fā)的算法 模型 18 云端 / 數(shù)據(jù)中心 巡檢工作量。3 支持分類、目標(biāo)檢測以及語義分割類深度學(xué) 習(xí)算法; 【產(chǎn)品特征 / 技術(shù)特點】 4 Batch size 不敏感; 5 溫度范圍:-20 70 6 實測 Benchmark: 1 其宣稱芯片利用率可達(dá) 95.4%; 2 時延:3ms 分類延時; SSD-U-Net Industrial 74.07 ms 54.01 FPS 64.97% 算法網(wǎng)絡(luò)ResN

52、et-50ResNet-152YOLOv3 ResNet50 20.8 ms 182.16 FPS 77.06% 延時 吞吐率 芯片利用率 3.05 ms 1306.93 FPS 92.32% 8.68 ms 460.27 FPS 95.43% 31.06 ms 125.75 FPS 82.37% 注:Batch=4,INT 8 【專利狀態(tài)】 已申請專利 110 件,包括 109 件發(fā)明專利、1 件外觀設(shè)計專利; 【產(chǎn)品信息】 深度學(xué)習(xí)計算能力 FP16 芯片名稱功耗內(nèi)存帶寬上市時間工藝 INT8FP32 N/A 兩組 DDR4 SDRAM, 8GB 星 空 加 速 峰值 卡 x3 56W 1

53、0.9 32Gbps 2020 年 6 月N/A28nm TOPS 19 AI 芯片技術(shù)選型目錄 2.2.6 華為技術(shù)有限公司 - 昇騰 310AI 處理器 【技術(shù)概述】 昇騰 AI 處理器的主要架構(gòu)組成: 芯片系統(tǒng)控制 CPU(Control CPU) AI 計算引擎(包括 AI Core 和 AI CPU) 多層級的片上系統(tǒng)緩存(Cache)或緩沖 區(qū)(Buffer) 數(shù) 字 視 覺 預(yù) 處 理 模 塊(Digital Vision Pre-Processing,DVPP)等 USB接口網(wǎng)卡PCIe接口 昇騰AI芯片 任務(wù) 調(diào)度器 AI CoreAI CPU控制CPU 總線 標(biāo)檢測、光學(xué)字

54、符識別、視頻處理和自然語言處理 領(lǐng)域的各個模型,均可以在昇騰 310 處理器上得 到很好的技術(shù)支持。 數(shù)字視覺 預(yù)處理模塊 GPIO/I2C 等 主存L2 緩沖區(qū) DDR/HBM接口 【產(chǎn)品特征 / 技術(shù)特點】 【技術(shù)指標(biāo)】 達(dá)芬奇架構(gòu)主要由計算單元、存儲系統(tǒng)和控制 單元三部分構(gòu)成。其中計算單元又分為:矩陣計算 單元、向量計算單元、標(biāo)量計算單元,分別對應(yīng)矩 陣、向量和標(biāo)量三種常見的計算模式。 規(guī)格 架構(gòu) 描述 達(dá)芬奇 Up to 8T FP16 Up to 16TINT8 性能 16 Channel Decoder H.264/265 1080P30 1 Channel Encoder 媒體

55、矩陣計算單元(Cube Unit): LPDDR4X 2*64bit 3733MT/S PCIe3.0 /USB 3.0/GE 15mm*15mm 矩陣計算單元和累加器主要完成矩陣相關(guān)運(yùn) 算。一拍完成一個 FP16 的 16x16 與 16x16 矩 陣乘(4096); 如果是 INT8 輸入,則一拍完成 16*32 與 32*16 矩陣乘(8192); 內(nèi)存 接口 封裝 功耗 工藝 8TOPS4W, 16TOPS8W 12nm FFC 【應(yīng)用案例】 向量計算單元(Vector Unit): 華為針對其昇騰 AI 芯片的計算架構(gòu)專門構(gòu)建 了完整的軟件棧,兼容各個深度學(xué)習(xí)框架并能夠高 效運(yùn)行在昇

56、騰 AI 芯片上,讓開發(fā)者能夠快速開發(fā) 推理應(yīng)用,為開發(fā)者提供便利的解決方案。當(dāng)前主 流的深度學(xué)習(xí)應(yīng)用,包括圖像分類、人臉識別、目 實現(xiàn)向量和標(biāo)量,或雙向量之間的計算,功能 覆蓋各種基本的計算類型和許多定制的計算類型, 主要包括 FP16/FP32/INT32/INT8 等數(shù)據(jù)類型的 計算; 標(biāo)量計算單元(Scalar Unit): 20 云端 / 數(shù)據(jù)中心 相當(dāng)于一個微型 CPU,控制整個 AI Core 的 運(yùn)行,完成整個程序的循環(huán)控制、分支判斷,可以 為Cube/Vector提供數(shù)據(jù)地址和相關(guān)參數(shù)的計算, 以及基本的算術(shù)運(yùn)算。 【專利狀態(tài)】(未提供) 【產(chǎn)品信息】 深度學(xué)習(xí)計算能力 上市

57、時間芯片名稱功耗內(nèi)存帶寬工藝 INT8 FP16FP32 昇騰 8TOPS2*64bit 310AI 處理器 LPDDR4X2019 年16T8T12nm FFC 4W16TOPS8W3733MT/S 21 AI 芯片技術(shù)選型目錄 2.3 小結(jié) 公司名稱芯片名稱功耗內(nèi)存帶寬 北京百度網(wǎng)訊科技有限公司 上海燧原科技有限公司 百度昆侖 1 邃思 150W16GB512GB/s 512GB /s 190W 16GB HBM ( 最大功耗 ) NVIDIA A100400W40GB HBM21555 GB/s 云端 訓(xùn)練 NVIDIA V100(NVLink) NVIDIA V100(PCIe) 30

58、0W 250 32/16 GB HBM2 32/16 GB HBM2 900 GB/s 900 GB/s NVIDIA NVIDIA V100S250W32 GB HBM21134 GB/s 云端 / 數(shù)據(jù) 中心 NVIDIA 賽靈思 NVIDIA T470W 50W 100W 110W 100W 16 GB GDDR6320+ GB/s 316GB/s 77GB/s 77GB/s / Alveo U50 (VU35P ) Alveo U200 (VU9P ) Alveo U250 (VU13P ) Alveo U280 (VU37P ) 8GB 64GB 64GB / 思元 100 思元 2

59、70 75W 70W 8GB/16GB 16GB 102GB/s 102GB/s 中科寒武紀(jì)科技股份有限公司 北京比特大陸科技有限公司 云端 推斷 BM168416W12GB LPDDR4X 68.3GB/s 兩組 DDR4 深圳鯤云信息科技有限公司 華為技術(shù)有限公司 星空加速卡 X3峰值 56WSDRAM, 8GB/DDR 32GB/s 8TOPS2*64bit 昇騰 310AI 處理器LPDDR4X 4W16TOPS8W3733MT/S 22 云端 / 數(shù)據(jù)中心 上市時間深度學(xué)習(xí)計算能力 FP32 FP64 Tensor Core 工藝 INT8FP16FP64TF32 64 TOPS 8

60、0 16 TOPS 20 2019 年 11 月 2020 年 6 月 256TOPS 80TOPS 14nm GF 12nm FinFET TFLOPSTFLOPS 624 TOPS | 1248 TOPS* 312 TF | 624 TF*(* 采用稀疏 技術(shù)) 312 19.59.719.5 2020 年 5 月TFOPS (* 采 用稀疏技術(shù)) 7nm TFOPSTFOPSTFOPS (* 采用稀疏技術(shù)) 125 TFLOPS 112 15.77.8 TFLOPS 7 2017 年 5 月 2017 年 5 月 12nm 12nm TFLOPS 14 TFLOPS TFLOPSTFLO

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論