電子行業(yè)深度報(bào)告:GPU研究框架_第1頁
電子行業(yè)深度報(bào)告:GPU研究框架_第2頁
電子行業(yè)深度報(bào)告:GPU研究框架_第3頁
電子行業(yè)深度報(bào)告:GPU研究框架_第4頁
電子行業(yè)深度報(bào)告:GPU研究框架_第5頁
已閱讀5頁,還剩102頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、目錄一、GPU投資邏輯框架GPU:專用計(jì)算時(shí)代的剛需GPU投資地圖:寡頭壟斷下高速發(fā)展 GPU產(chǎn)業(yè)鏈縱深:紡錘狀的三大路線 GPU產(chǎn)業(yè)鏈:先進(jìn)制程數(shù)字芯片產(chǎn)業(yè)鏈二、詳解GPU:專用計(jì)算時(shí)代的“畫師”三、知己知彼:GPU的全球格局與行業(yè)龍頭 四、國產(chǎn)GPU自主之路:詳解國產(chǎn)GPUGPU:專用計(jì)算時(shí)代的剛需資料來源:方正證券研究所通用1971-2006專用 2006年之后通用 CPUGPUCPUNPUFPGAASIC計(jì)算器電視機(jī)電話機(jī)專用 1970年之前晶體管 計(jì)算機(jī)錄音機(jī)馮諾依曼體系結(jié)構(gòu)專用組合通用技術(shù)周期衰弱通用技術(shù) 周期衰弱 異構(gòu)崛起CPU汽車智能駕駛 異構(gòu)計(jì)算GPUNPUISP存儲控 制芯

2、片相機(jī)IFDLA視頻解碼芯片系統(tǒng)安 全芯片PVA 處理器芯片經(jīng)歷了從專用到通用,再從通用到專用的2次轉(zhuǎn)變。其中,可存儲指令的馮諾依曼體系和1971年X86CPU的誕生是第一次轉(zhuǎn)折的誘因;摩爾定律的減速和以GPU為代表的異構(gòu)運(yùn)算的崛起是第二次轉(zhuǎn)折的誘因。 異構(gòu)時(shí)代,芯片需集成多個(gè)模塊來滿足不同的需求。例如汽車芯片集成了GPU、CPU、NPU等至少10種處理單元。從GPU應(yīng)用看GPU投資地圖PC254億美元2020年1853億美元2027年資料來源:方正證券研究所全球GPU市場規(guī)模移動端游戲主機(jī)汽車服務(wù)器獨(dú)立GPU集成GPU獨(dú)立GPU+集成 GPU全球GPU市場前景GPU應(yīng)用場景GPU接入方式GP

3、U供應(yīng)商G P U三 寡 頭其 他 中 國 大 陸 企 業(yè)GPU被廣泛地運(yùn)用于PC、游戲主機(jī)、汽車、服務(wù)器、移動等領(lǐng)域。其中注重算力的服務(wù)器和注重便攜性的移動端分別采用獨(dú)立和集成GPU,而汽車、游戲主機(jī)、PC等主要采用獨(dú)立+集成的GPU接入方式。 全球GPU市場表現(xiàn)為寡頭壟斷下的高增長,年復(fù)合增速超過30%,主要市場份額被英偉達(dá)等美系企業(yè)占領(lǐng)。在此宏觀 背景下,國產(chǎn)GPU企業(yè)蓬勃發(fā)展,在GPU軟硬件方面同時(shí)出擊,呈現(xiàn)“星星之火,可以燎原”之勢。GPU產(chǎn)業(yè)鏈縱深資料來源:方正證券研究所核心代表廠商各產(chǎn)業(yè)環(huán)節(jié)特點(diǎn)特點(diǎn):專注于GPU驅(qū) 動等相關(guān)軟件,不涉 及GPU硬件設(shè)計(jì)核心壁壘:GPU API 和

4、GPU驅(qū)動協(xié)同優(yōu)化特點(diǎn):GPU硬件設(shè)計(jì)和GPU軟件同步推進(jìn),發(fā)揮協(xié)同效應(yīng)核心壁壘:GPU微架 構(gòu)設(shè)計(jì)和GPU驅(qū)動優(yōu) 化特點(diǎn):專注于GPU制 造和封裝,不涉及 GPU軟件編程核心壁壘:掌握GPU 的先進(jìn)制造和先進(jìn)封 裝“SaaS” GPU軟件“PaaS”GPU硬件+GPU軟件“IaaS” GPU硬件GPU三大發(fā)展模式資料來源:方正證券研究所國產(chǎn)GPU產(chǎn)業(yè)鏈先進(jìn)制程數(shù)字芯片產(chǎn)業(yè)鏈GPU是數(shù)字芯片,基于制程越小,性能越好的規(guī)律,GPU產(chǎn)業(yè)鏈?zhǔn)窍冗M(jìn)制程數(shù)字芯片產(chǎn)業(yè)鏈。 當(dāng)前國產(chǎn)GPU產(chǎn)業(yè)鏈進(jìn)口替代:設(shè)計(jì)環(huán)節(jié),景嘉微等龍頭在不斷追趕,封測環(huán)節(jié),通富承接AMD 7nm GPU封測,14nm及以下結(jié)點(diǎn)的先進(jìn)

5、制程,設(shè)備、材料、EDA/IP、制造等環(huán)節(jié)與國外領(lǐng)先龍頭差距較大, 目前仍采用“外循環(huán)為主+內(nèi)循環(huán)為輔”的模式。北方 華創(chuàng)華海清科華峰測控屹唐盛美中微萬業(yè) 企業(yè)至純 科技精測 電子設(shè)備材料EDA/IP滬硅 產(chǎn)業(yè)江豐 電子神工股份安集 鼎龍金宏氣體雅克 科技寒 武紀(jì)芯原 股份芯 華章芯動 科技制造封測中芯 國際長電 科技通富微電設(shè)計(jì)景嘉微航錦 科技兆芯中船 重工龍芯芯瞳半導(dǎo)體華天 科技資料來源:方正證券研究所海外GPU產(chǎn)業(yè)鏈先進(jìn)制程數(shù)字芯片產(chǎn)業(yè)鏈GPU產(chǎn)業(yè)鏈的巨頭大多集中在海外,它們位居產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)核心, 對全球GPU行業(yè)起著決定性的作用。設(shè)計(jì)環(huán)節(jié):NVIDIA、AMD幾乎壟斷獨(dú)立GPU的市場

6、,英特爾、AMD幾乎壟斷集成GPU市場;設(shè)備、材料、EDA/IP等環(huán)節(jié)國內(nèi)龍頭與國外龍頭差距較大,國產(chǎn)化率較低;制造環(huán)節(jié):目前只有臺積電和三星有5nm 制程生產(chǎn)能力,但均需使用美國設(shè)備;封測環(huán)節(jié):目前中國臺灣、中國大陸、美國三分天下。設(shè)備材料EDA/IP信越化學(xué)SUMCO卡 博特陶氏住友化學(xué)新思 科技鏗騰 電子ImaginationARM設(shè)計(jì)英偉達(dá)AMD英特爾蘋果高通制造臺 積電英 特爾三星格羅 方德封測日 月光安靠矽品 精密英特爾三星應(yīng)用 材料阿 斯麥東京電子LAM科天愛德萬泰瑞達(dá)目錄一、GPU投資邏輯框架二、詳解GPU:專用計(jì)算時(shí)代的“畫師”GPU 的 構(gòu) 成 : 微 架 構(gòu) 、 API

7、“XPU”的競爭:GPU對比CPU、FPGA、ASIC以史為鏡:分析GPU微架構(gòu)、制程、API發(fā)展趨勢 GPU供需分析:5大驅(qū)動力,2大生產(chǎn)方式三、知己知彼:GPU的全球格局與行業(yè)龍頭四、國產(chǎn)GPU自主之路:詳解國產(chǎn)GPUGPU定義和內(nèi)部結(jié)構(gòu)資料來源:維基,Extremetech,方正證券研究所整理GPU(graphics processing unit)圖形處理器,又稱顯示核心、視覺處理器、顯示芯片,是一種在個(gè)人電腦、 工作站、游戲機(jī)和一些移動設(shè)備(如平板電腦、智能手機(jī)等)上做圖像和圖形相關(guān)運(yùn)算工作的微處理器。GPU通常包括圖形顯存控制器、壓縮單元、BIOS、圖形和計(jì)算整列、總線接口、電源管

8、理單元、視頻管理單元、顯示界面。GPU的出現(xiàn)使計(jì)算機(jī)減少了對CPU的依賴,并解放了部分原本CPU的工作。在3D圖形處理時(shí),GPU采用的核心技 術(shù)有硬件T&L(幾何轉(zhuǎn)換和光照處理)、立方環(huán)境材質(zhì)貼圖和頂點(diǎn)混合、紋理壓縮和凹凸映射貼圖、雙重紋理四 像素256位渲染引擎等,而硬件T&L技術(shù)可以說是GPU的標(biāo)志。圖像和計(jì)算陣列壓縮單元圖形顯存控制器總線接口顯示接口VGA BIOS電源管理單元視頻管理單元GPU的內(nèi)部組成部份GPU核心及PCB板資料來源:NVIDIA白皮書,方正證券研究所整理GPU的構(gòu)成:微架構(gòu)概述GPU的微架構(gòu)(Micro Architecture)一種給定的指令集和圖形函數(shù)集合在處理

9、器中執(zhí)行的方法。圖形函數(shù)主要 用于繪制各種圖形所需要的運(yùn)算。當(dāng)前和像素、光影處理、3D坐標(biāo)變換等相關(guān)運(yùn)算由GPU硬件加速來實(shí)現(xiàn)。相同 的指令集和圖形函數(shù)集合可以在不同的微架構(gòu)中執(zhí)行,但實(shí)施的目的和效果可能不同。優(yōu)秀的微架構(gòu)對GPU性能 和效能的提升發(fā)揮著至關(guān)重要的作用。 我們認(rèn)為,GPU體系是GPU微架構(gòu)和圖形API的集合。以目前最新的英偉達(dá)安培微架構(gòu)為例,GPU微架構(gòu)的運(yùn)算部份由流處理器(Stream Processor,SP)、紋理單元 (Texture mapping unit, TMU)、張量單元(Tensor Core)、光線追蹤單元(RT Cores)、光柵化處理單元 (ROPs)

10、組成。這些運(yùn)算單元中,張量單元,光線追蹤單元由NVIDIA在伏特/圖靈微架構(gòu)引入。除了上述運(yùn)算單元外,GPU的微架構(gòu)還包含L0/L1操作緩存、Warp調(diào)度器、分配單元(Dispatch Unit)、寄存器 堆(register file)、特殊功能單元(Special function unit,SFU)、存取單元、顯卡互聯(lián)單元(NV Link)、 PCIe總線接口、L2緩存、二代高位寬顯存(HBM2)等接口。英偉達(dá)安培內(nèi)核概覽英偉達(dá)安培內(nèi)核“SM”單元GPU的構(gòu)成:詳解微架構(gòu)SP、ROPs、TMU資料來源: NVIDIA白皮書,videocardz,方正證券研究所整理GPU的流處理器單元是N

11、VIDIA對其統(tǒng)一架構(gòu)GPU內(nèi)通用標(biāo)量著色器的命名。SP單元是全新的全能渲染單元,是繼Pixel Pipelines(像素管線)和Vertex Pipelines(頂點(diǎn)管線)之后新一代的顯卡渲染技術(shù)指標(biāo)。SP單元既可以完成VS(Vertex Shader,頂點(diǎn)著色器)運(yùn)算,也可以完成PS(Pixel Shader,像素著色器)運(yùn)算,而且可以根據(jù)需要組成任意VS/PS比例,從而給開發(fā)者更廣闊的發(fā)揮空間。 流處理器單元首次出現(xiàn)于DirectX 10時(shí)代的G80核心的Nvidia GeForce 8800GTX顯卡,是顯卡發(fā)展史上一次重大的革新 。之后AMD/ATI的顯卡也引入了這一概念,但是流處理

12、器在橫向和縱向都不可類比,大量的流處理器是GPU性能強(qiáng)勁的必 要非充分條件。 紋理映射單元(TMU)作為GPU的部件,它能夠?qū)ΧM(jìn)制圖像旋轉(zhuǎn)、縮放、扭曲,然后將其作為紋理放置到給定3D模型的 任意平面,這個(gè)過程稱為紋理映射。紋理映射單元不可簡單跨平臺橫向比較,大量的紋理映射單元是GPU性能強(qiáng)勁的必要 非充分條件。 光柵化處理單元(ROPs)主要負(fù)責(zé)游戲中的光線和反射運(yùn)算,兼顧AA、高分辨率、煙霧、火焰等效果。游戲里的抗鋸齒 和光影效果越厲害,對ROPs的性能要求就越高,否則可能導(dǎo)致幀數(shù)的急劇下降。NVIDIA的ROPs單元是和流處理器進(jìn)行捆 綁的,二者同比例增減。在AMD GPU中,ROPs單

13、元和流處理器單元沒有直接捆綁關(guān)系。流處理器光柵化處理單元紋理映射單元英偉達(dá)安培內(nèi)核SP、ROPs、TMU拆解英偉達(dá)RTX 3080 GPU-Z參數(shù)8704個(gè)統(tǒng)一流處理器96個(gè)光柵化處 理單元272個(gè)紋理映 射單元GPU的構(gòu)成:詳解微架構(gòu)光線追蹤單元和張量單元資料來源:英偉達(dá)白皮書,方正證券研究所整理 消費(fèi)GPU的實(shí)時(shí)光線追蹤在2018年由英偉達(dá)的“圖靈”GPU首 次引入,光追單元(RT Cores)在此過程中發(fā)揮著決定性的作 用。圖靈GPU的光追單元支持邊界體積層次加速,實(shí)時(shí)陰影、 環(huán)境光、照明和反射,光追單元和光柵單元可以協(xié)同工作,進(jìn) 一步提高幀數(shù)和陰影的真實(shí)感。 光追單元在英偉達(dá)的RTX光

14、線追蹤技術(shù)、微軟DXR API、英偉 達(dá)Optix API和Vulkan光追API的支持下可以充分發(fā)揮性能。 擁有68個(gè)光追單元的RTX2080Ti在光線處理性能上較無光追單 元的GTX1080Ti強(qiáng)10倍。 張量單元(Tensor Core)在2017年由英偉達(dá)的“伏特”GPU 中被首次引入。張量單元主要用于實(shí)時(shí)深度學(xué)習(xí),服務(wù)于人工 智能,大型矩陣運(yùn)算和深度學(xué)習(xí)超級采樣(DLSS),可以帶來 驚人的游戲和專業(yè)圖像顯示,同時(shí)提供基于云系統(tǒng)的快速人工 智能。英偉達(dá)圖靈GPU光追單元運(yùn)作流程英偉達(dá)圖靈GPU張量單元提供多精度AI英偉達(dá)RTX2080Ti張量單元算力峰值FP16 張量 TFLOPS(

15、帶有FP16累加)107.6峰值FP16 張量 TFLOPS(帶有FP32累加)53.8峰值INT8 張量 TOPS215.2峰值INT4 張量 TOPS430.3GPU的構(gòu)成:API概述資料來源:極客灣數(shù)碼港,方正證券研究所整理GPU的API(Application Programming Interface)應(yīng)用程序接口發(fā)揮著連接應(yīng)用程序和顯卡驅(qū)動的橋梁作用 。不過隨著系統(tǒng)優(yōu)化的深入,API也可以直接統(tǒng)籌管理高級語言、顯卡驅(qū)動和底層匯編語言。3D API能夠讓編程人員所設(shè)計(jì)的3D軟件只需調(diào)動其API內(nèi)的程序,讓API自動和硬件的驅(qū)動程序溝通,啟動3D芯 片內(nèi)強(qiáng)大的3D圖形處理功能,從而大幅

16、地提高3D程序的設(shè)計(jì)效率。同樣的,GPU廠家也可以根據(jù)API標(biāo)準(zhǔn)來設(shè)計(jì) GPU芯片,以達(dá)到在API調(diào)用硬件資源時(shí)的最優(yōu)化,獲得更好的性能。3D API可以實(shí)現(xiàn)不同廠家的硬件、軟件最 大范圍兼容。如果沒有API,那么開發(fā)人員必須對不同的硬件進(jìn)行一對一的編碼,這樣會帶來大量的軟件適配問題 和編碼成本。 目前GPU API可以分為2大陣營和若干其他類。2大陣營分別是微軟的DirectX標(biāo)準(zhǔn)和KhronosGroup標(biāo)準(zhǔn),其他 類包括蘋果的Metal API、AMD的Mantle(地幔)API、英特爾的One API等。高級語言(游戲引擎等)API顯卡驅(qū)動底層語言(匯編/機(jī)器碼)傳統(tǒng)API在GPU的地

17、位微軟DirectX和Khronos Group API組合對比廠家標(biāo)準(zhǔn)應(yīng)用領(lǐng)域微軟DirectXDirect3D3D圖形Direct2D2D圖形DirectCompute通用計(jì)算XAudio音頻XInputXbox手柄Khronos GroupOpenGL圖形Vulkan圖形OpenGL ES移動圖形WebGL網(wǎng)頁圖形OpenCL通用計(jì)算GPU的構(gòu)成:DrirectX API和OpenGL API特點(diǎn)OpenGLDirectX頂點(diǎn)混合/是多種操作系統(tǒng)是否拓展機(jī)制是是開發(fā)多個(gè)會員微軟完整規(guī)格是否雙邊光照是否體積紋理是否硬件獨(dú)立Z緩沖是否累計(jì)緩沖是否全屏抗鋸齒是是動態(tài)模糊是是景深是是立體渲染是否

18、點(diǎn)大小/線寬屬性是否采集是否參數(shù)曲線和曲面是否緩存幾何顯示列表頂點(diǎn)緩沖系統(tǒng)模擬硬件不存在由應(yīng)用決定端口程序調(diào)動通訊端口更新升級每年每年源代碼樣品SDK實(shí)施學(xué)習(xí)門檻低高效率較低較高DirectX和OpenGL特點(diǎn)對比DirectX是Direct eXtension的簡稱,作 為一種API,是由微軟公司創(chuàng)建的多媒體編 程接口。DirectX可以讓以Windows為平 臺的游戲或多媒體程序獲得更高的執(zhí)行效 率,加強(qiáng)3D圖形和聲音效果,并提供設(shè)計(jì) 人員一個(gè)共同的硬件驅(qū)動標(biāo)準(zhǔn),讓游戲開 發(fā)者不必為每一品牌的硬件來寫不同的驅(qū) 動程序,也降低用戶安裝及設(shè)置硬件的復(fù) 雜度。DirectX已被廣泛使用于Wind

19、ows 操作系統(tǒng)和Xbox主機(jī)的電子游戲開發(fā)。OpenGL是Open Graphics Library的簡 稱,是用于渲染2D、3D矢量圖形的跨語言 、跨平臺的應(yīng)用程序編程接口(API),相 比DirectX更加開放。這個(gè)接口由近350個(gè) 不同的函數(shù)調(diào)用組成,用來繪制從簡單的 二維圖形到復(fù)雜的三維景象。OpenGL常 用于CAD、虛擬現(xiàn)實(shí)、科學(xué)可視化程序和 電子游戲開發(fā)。 正是由于OpenGL的開放,所以它可以被 運(yùn)行在Windows、MacOS、Linux、安 卓、iOS等多個(gè)操作系統(tǒng)上,學(xué)習(xí)門檻也比 DirectX更低。但是,效率低是OpenGL的 主要缺點(diǎn)。資料來源:Cprogrammi

20、ng,百度百科,方正證券研究所整理GPU的構(gòu)成:蘋果Metal API和Vulkan API資料來源:維基,驅(qū)動之家,方正證券研究所整理Metal是Apple在2014年創(chuàng)建的接近底層的,低開 銷的硬件加速3D圖形和計(jì)算著色器API。Metal在 iOS 8中首次亮相。Metal在一個(gè)API中結(jié)合了類似 于OpenGL和OpenCL的功能。它旨在通過為iOS, iPadOS,macOS和tvOS上的應(yīng)用程序提供對GPU 硬件的底層訪問來提高性能。 相較于OpenGL ES, Metal減少了10倍的代碼擁擠,提供了更好的解決 方案,并將會在蘋果設(shè)備中取代OpenGL。Metal 也支持英特爾H

21、D和IRIS系列GPU、AMD的GCN和 RDNA GPU、NVIDIA GPU。Metal也是可以使用 Swift或Objective-C編程語言調(diào)用的面向?qū)ο蟮腁PI。GPU的全部操作是通過Metal著色語言控制的。2017年,蘋果推出了Metal的升級版Metal2,兼 容前代Metal硬件,支持iOS11,MacOS和 tvOS11。Metal2可以在Xcode中更有效地進(jìn)行配 置和調(diào)試,加快機(jī)器學(xué)習(xí)速度,降低CPU工作量, 在MacOS上支持VR,充分發(fā)揮A11 GPU的特性。Vulkan是一種低開銷,跨平臺的3D圖像和計(jì)算API 。Vulkan面向跨所有平臺的高性能實(shí)時(shí)3D圖形應(yīng)用

22、 程序,如視頻游戲和交互式媒體。與OpenGL, Direct3D 11和Metal相比,Vulkan旨在提供更高的 性能和更平衡的CPU/GPU用法。除了較低的CPU使 用外,Vulkan還旨在使開發(fā)人員更好地在多核CPU 中分配工作。Vulkan源自并基于AMD的Mantle API組件,最初 的版本被稱為OpenGL的下一代。最新的Vulkan 1.2發(fā)布于2020年1月15日,該版本整合了23個(gè)額 外經(jīng)常被使用的Vulkan拓展。OpenGLVulkan單一全局狀態(tài)基于對象,沒有全局狀態(tài)狀態(tài)與單一環(huán)境相聯(lián)系所有狀態(tài)概念都可以本地化 到命令緩沖區(qū)操作只能順序執(zhí)行可以進(jìn)行多線程編程GPU的

23、內(nèi)存和同步通常是被 隱藏的清晰的顯存管理和同步化控 制廣泛的錯(cuò)誤檢查Vulkan驅(qū)動程序在運(yùn)行時(shí)不 進(jìn)行錯(cuò)誤檢查;有一個(gè)針對 開發(fā)人員的驗(yàn)證層OpenGL和Vulkan對比Metal與OpenGL性能對比500450400350300250200150100500iPad Air 2(Metal)iPhone 6 Plus(Metal)iPhone 5siPhone 6(Metal)(Metal)iPad Air 2iPhone 6iPhone 6 PlusiPhone 5s系統(tǒng)開銷測試(幀數(shù))GPU生態(tài)資料來源: Statcounter ,超能網(wǎng),方正證券研究所整理 軟件生態(tài)方面,GPU無法

24、單獨(dú)工作,必須由CPU進(jìn)行控制調(diào)用才能工作,而CPU在處理大量類型一致的數(shù)據(jù) 時(shí),則可調(diào)用GPU進(jìn)行并行計(jì)算。所以,GPU的生態(tài)和CPU的生態(tài)是高度相關(guān)的。 近年來,在摩爾定律演進(jìn)的放緩和GPU在通用計(jì)算領(lǐng)域的高速發(fā)展的此消彼長之下,通用圖形處理器( GPGPU)逐漸“反客為主”,利用GPU來計(jì)算原本由CPU處理的通用計(jì)算任務(wù)。目前,各個(gè)GPU廠商的GPGPU的實(shí)現(xiàn)方法不盡相同,如NVIDIA使用的CUDA(compute unified device architecture)技術(shù)、原ATI的ATI Stream技術(shù)、Open CL聯(lián)盟、微軟的DirectCompute技術(shù)。這些技術(shù)可以 讓

25、GPU在媒體編碼加速、視頻補(bǔ)幀與畫面優(yōu)化、人工智能與深度學(xué)習(xí)、科研領(lǐng)域、超級計(jì)算機(jī)等方面發(fā)揮異 構(gòu)加速的優(yōu)勢。以上4種技術(shù)中,只有OpenCL支持跨平臺和開放標(biāo)注的特性,還可以使用專門的可編程電路 來加速計(jì)算,業(yè)界支持非常廣泛。DirectX和OpenGL生態(tài)對比OpenCL聯(lián)盟生態(tài)API操作系統(tǒng)各操作系統(tǒng)占比0.86%1.51%7.14%DirectX16.4740.30%32.46%Open GL安卓WindowsIOSOSXChrome OS其他GPU的分類資料來源:架構(gòu)師技術(shù)聯(lián)盟,techpowerup,NVIDIA,方正證券研究所整理GPU根據(jù)接入方式可以劃分為獨(dú)立GPU和集成GPU

26、。獨(dú)立 GPU一般封裝在獨(dú)立的顯卡電路板上,擁有獨(dú)立顯存,而集成 GPU常和CPU共用一個(gè)Die,共享系統(tǒng)內(nèi)存。GPU根據(jù)應(yīng)用端可以劃分為PC GPU、服務(wù)器GPU、移動GPU。PC GPU,在輕度辦公場景下會優(yōu)先考慮集成GPU,提高效 能;在重度辦公場景下會優(yōu)先考慮獨(dú)立GPU,保證性能輸出。 服務(wù)器GPU可做專業(yè)圖形處理、計(jì)算加速、深度學(xué)習(xí)等應(yīng)用, 根據(jù)云計(jì)算、人工智能等一系列技術(shù)的發(fā)展,服務(wù)器GPU將以 獨(dú)立GPU為主。移動GPU由于專注輕薄,內(nèi)部空間緊湊,所以 一般采用集成GPU。GPU的主要分類類別主要廠商、產(chǎn)品(及客戶)接入方式獨(dú)立GPUAMD(Radeon系列)、 NVIDIA(G

27、eforce系列)集成GPU英特爾(HD系列)、AMD(APU系列)應(yīng)用端PC GPU英特爾、NVIDIA、AMD服務(wù)器GPUNVIDIA(Tesla)、AMD(FireStream)移動GPUImagination(PowerVR系 列);高通驍龍(Adreno系列);ARM(公版Mali系列) 蘋果A系列自研GPU;集成GPU Die獨(dú)立GPUGPU的顯存資料來源:維基,方正證券研究所整理GPU顯存是用來存儲顯卡芯片處理過或者即將 提取的渲染數(shù)據(jù),是GPU正常運(yùn)作不可或缺的 核心部件之一。GPU的顯存可以分為獨(dú)立顯存和集成顯存兩種 。目前,獨(dú)立顯存主要采用GDDR3、GDDR5、GDDR5

28、X、GDDR6,而集成顯存主要采用 DDR3、DDR4。服務(wù)器GPU偏好使用Chiplet 形式的HBM顯存,最大化吞吐量。 集成顯存受制于64位操作系統(tǒng)的限制,即便組 成2通道甚至4通道,與獨(dú)立顯存的帶寬仍有相 當(dāng)差距。通常這也造成了獨(dú)立GPU的性能強(qiáng)于 集成GPU。顯存的主要分類類型存儲頻率(MHz)帶寬(GB/S)DDR200-4001.6-3.2DDR2400-1066.673.2-8.533DDR3800-2133.336.4-17.067DDR41600-486612.8-25.6GDDR43000-4000160-256GDDR51000-2000288-336.5GDDR5X1

29673GDDR61365-1770336-672HBM250-1000512-1024獨(dú)立顯存的工作方式集成顯存的工作方式集成顯卡和獨(dú)立顯卡對比資料來源:方正證券研究所區(qū)別集成顯卡獨(dú)立顯卡與CPU的關(guān)系集成在CPU里面的圖像處理單元,構(gòu)成 CPU的一部分單獨(dú)插在主板上的圖像處理單元,其接口是PCIe 是一個(gè)獨(dú)立的電腦組件價(jià)格低高兼容性較好較差性能較差較好升級成本低高功耗低高是否占用電腦內(nèi)存是否主要生產(chǎn)商與產(chǎn)品英特爾(HD系列)、AMD(APU系列)AMD(Radeon系列)、NVIDIA(Geforce系 列等)主要應(yīng)用領(lǐng)域移動計(jì)算市場,如筆記本和智能手機(jī)高性能游戲電腦

30、,VR/AR,人工智能,集成顯卡和獨(dú)立顯卡對比 集成顯卡是指一般不帶顯存,而是使用系統(tǒng)的一部分主內(nèi)存作為顯存的顯卡。集成顯卡可以被整合進(jìn)主板作為北 橋芯片的一部分,也可以和CPU集成在同一個(gè)Die中。集成顯卡的顯存一般根據(jù)系統(tǒng)軟件和應(yīng)用軟件的需求自動調(diào) 整。如果顯卡運(yùn)行需要占用大量內(nèi)存空間,那么整個(gè)系統(tǒng)運(yùn)行會受限,此外系統(tǒng)內(nèi)存的頻率通常比獨(dú)立顯卡的顯 存低很多,因此集成顯卡的性能比獨(dú)立顯卡要遜色一些。 獨(dú)立顯卡是將顯示芯片及相關(guān)器件制作成一個(gè)獨(dú)立于電腦主板的板卡,成為專業(yè)的圖像處理硬件設(shè)備。獨(dú)立顯卡 因?yàn)榫邆涓呶粚?、高頻獨(dú)立顯存和更多的處理單元,性能遠(yuǎn)比集成顯卡優(yōu)越,不僅可用于一般性的工作,還

31、具有 完善的2D效果和很強(qiáng)的3D水平,因此常應(yīng)用于高性能臺式機(jī)和筆記本電腦,主要的接口為PCIe。 如今,獨(dú)立顯卡與集成顯卡已經(jīng)不是2個(gè)完全割裂,各自為營的圖像處理單元了。二者在微軟DX12的支持下也可 以實(shí)現(xiàn)獨(dú)核顯交火,同時(shí)AMD和NVIDIA的顯卡也可實(shí)現(xiàn)混合交火。GPU對比CPU資料來源: Slideplayer,方正證券研究所整理 從芯片設(shè)計(jì)思路看,CPU是以低延遲為導(dǎo)向的計(jì)算 單元,通常由專為串行處理而優(yōu)化的幾個(gè)核心組成, 而GPU是以吞吐量為導(dǎo)向的計(jì)算單元,由數(shù)以千計(jì) 的更小、更高效的核心組成,專為并行多任務(wù)設(shè)計(jì)。CPU和GPU設(shè)計(jì)思路的不同導(dǎo)致微架構(gòu)的不同。 CPU的緩存大于GP

32、U,但在線程數(shù),寄存器數(shù)和 SIMD(單指令多數(shù)據(jù)流)方面GPU遠(yuǎn)強(qiáng)于CPU。 微架構(gòu)的不同最終導(dǎo)致CPU中大部分的晶體管用于 構(gòu)建控制電路和緩存,只有少部分的晶體管完成實(shí)際 的運(yùn)算工作,功能模塊很多,擅長分支預(yù)測等復(fù)雜操 作。GPU的流處理器和顯存控制器占據(jù)了絕大部分 晶體管,而控制器相對簡單,擅長對大量數(shù)據(jù)進(jìn)行簡 單操作,擁有遠(yuǎn)勝于CPU的強(qiáng)大浮點(diǎn)計(jì)算能力。GPU和CPU的核心設(shè)計(jì)思路對比強(qiáng)勁的算術(shù)邏輯單元:減少運(yùn)行延遲大緩存:將長延遲的存儲訪問轉(zhuǎn)換 為低延遲的緩存訪問復(fù)雜控制器:分支預(yù)測來減少分支 延遲數(shù)據(jù)推進(jìn)來減少數(shù)據(jù) 延時(shí)CPUGPUGPU和CPU的核心對比小緩存:提高存儲吞吐量簡單

33、控制器:沒有分支預(yù)測沒有數(shù)據(jù)推進(jìn)高效能算數(shù)邏輯單元: 大量長延遲但高度流水線 化的單元實(shí)現(xiàn)高吞吐需要大量線程來承受高 延遲:邏輯線程化線程狀態(tài)低延遲核心以吞吐量為導(dǎo)向的核心單指令多數(shù) 據(jù)流單元單指令多數(shù)據(jù)流 單元核心計(jì)算單元本地緩存緩存/本地存儲控制線 程寄存器寄存器資料來源:維基,中關(guān)村在線,方正證券研究所整理GPU對比CPU 后摩爾時(shí)代,隨著GPU的可編程性不斷增強(qiáng),GPU的應(yīng)用能力已經(jīng)遠(yuǎn)遠(yuǎn)超出了圖形渲染,部份GPU被用于圖形渲 染以外領(lǐng)域的計(jì)算成為GPGPU。與此同時(shí),CPU為了追求通用性,只有少部分晶體管被用于完成運(yùn)算,而大部分 晶體管被用于構(gòu)建控制電路和高速緩存。但是 由于GPU對C

34、PU的依附性以及GPU相較CPU更高的開發(fā)難度,所以 GPU不可能完全取代CPU。我們認(rèn)為未來計(jì)算架構(gòu)將是GPU+CPU的異構(gòu)運(yùn)算體系。 在GPU+CPU的異構(gòu)運(yùn)算中,GPU和CPU之間可以無縫地共享數(shù)據(jù),而無需內(nèi)存拷貝和緩存刷新,因?yàn)槿蝿?wù)以極 低的開銷被調(diào)度到合適的處理器上。CPU憑借多個(gè)專為串行處理而優(yōu)化的核心運(yùn)行程序的串行部份,而GPU使用 數(shù)以千計(jì)的小核心運(yùn)行程序的并行部分,充分發(fā)揮協(xié)同效應(yīng)和比較優(yōu)勢。 異構(gòu)運(yùn)算除了需要相關(guān)的CPU和GPU等硬件支持,還需要能將它們有效組織的軟件編程。OpenCL是(Open Computing Language)的簡稱,它是第一個(gè)為異構(gòu)系統(tǒng)的通用并行

35、編程而產(chǎn)生的統(tǒng)一的、免費(fèi)的標(biāo)準(zhǔn)。 OpenCL支持由多核的CPU、GPU、Cell架構(gòu)以及信號處理器(DSP)等其他并行設(shè)備組成的異構(gòu)系統(tǒng)。開始工作結(jié)束工作結(jié)果HAS軟件排隊(duì)作業(yè)應(yīng)用CPU運(yùn)行的操作系統(tǒng)OpenCL異構(gòu)運(yùn)算構(gòu)成異構(gòu)運(yùn)算下的GPU工作流程GPU與ASIC和FPGA的對比資料來源:智能計(jì)算芯世界,方正證券研究所整理應(yīng)用場景芯片需求典型計(jì)算能力典型功耗終端低功耗、推 理任務(wù)為主, 成本敏感8TOPS30TOPS50瓦邊緣端要求介于終 端與云之間、 推理為主5TOPS至30TOPS4-15瓦不同應(yīng)用場景AI芯片性能需求和具體指標(biāo)芯片種類GPUFPGAASIC芯片架構(gòu)晶體管大部分構(gòu)建計(jì)算

36、單元,運(yùn) 算復(fù)雜度低,適合大規(guī)模并行計(jì) 算可編程邏輯,計(jì)算效率高,更接 近底層IO,通過冗余晶體管和連 線實(shí)現(xiàn)邏輯可編程晶體管根據(jù)算法定制,不會有冗 余,功耗低、計(jì)算性能高、計(jì)算 效率高擅長領(lǐng)域圖像處理、“粗粒度并行”計(jì)算算法更新頻繁或市場規(guī)模小的專 用領(lǐng)域市場需求量大的專用領(lǐng)域優(yōu)點(diǎn)并行運(yùn)算能力強(qiáng)計(jì)算效率比CPU和GPU更高,更 接近IO體積小、功耗低、計(jì)算性能高、 計(jì)算效率高、芯片出貨量越大成 本越低缺點(diǎn)價(jià)格貴、功耗散熱高編程門檻高、峰值性能不如ASIC、量產(chǎn)成本高算法固定、開發(fā)周期長、上市速度慢、一次性成本高、風(fēng)險(xiǎn)大GPU、FPGA、ASIC AI芯片對比 數(shù)據(jù)、算力和算法是AI三大要素,

37、CPU配合加速芯片的模式 成為典型的AI部署方案,CPU提供算力,加速芯片提升算力 并助推算法的產(chǎn)生。常見的AI加速芯片包括GPU、FPGA、 ASIC三類。GPU用于大量重復(fù)計(jì)算,由數(shù)以千計(jì)的更小、更高效的核心 組成大規(guī)模并行計(jì)算架構(gòu),配備GPU的服務(wù)器可取代數(shù)百臺通 用CPU服務(wù)器來處理HPC和AI業(yè)務(wù)。FPGA是一種半定制芯片,靈活性強(qiáng)集成度高,但運(yùn)算量小, 量產(chǎn)成本高,適用于算法更新頻繁或市場規(guī)模小的專用領(lǐng)域。ASIC專用性強(qiáng),市場需求量大的專用領(lǐng)域,但開發(fā)周期較長 且難度極高。 在AI訓(xùn)練階段需要大量數(shù)據(jù)運(yùn)算,GPU預(yù)計(jì)占64%左右市場 份額,F(xiàn)PGA和ASIC分別為22%和14%。

38、推理階段無需大量 數(shù)據(jù)運(yùn)算,GPU將占據(jù)42%左右市場,F(xiàn)PGA和ASIC分別為 34%和24%?!翱脊拧盙PU:GPU發(fā)展歷史資料來源:維基,方正證券研究所整理 在PC誕生之初,并不存在GPU的概念,所有的圖形和多媒體運(yùn)算都由CPU負(fù)責(zé)。但是由于X86 CPU的暫存器數(shù)量 有限,適合串行計(jì)算而不適合并行計(jì)算,雖然以英特爾為代表的廠商多次推出SSE等多媒體拓展指令集試圖彌補(bǔ) CPU的缺陷,但是僅僅在指令集方面的改進(jìn)不能起到根本效果,所以誕生了圖形加速器作為CPU的輔助運(yùn)算單元。GPU的發(fā)展史概括說來就是NVIDIA、AMD(ATI)的發(fā)展史,在此過程中曾經(jīng)的GPU巨頭Imagination、3

39、dfx、 東芝等紛紛被后輩超越。如今獨(dú)立顯卡領(lǐng)域主要由英偉達(dá)和AMD控制,而集成顯卡領(lǐng)域由英特爾和AMD控制。GPU的發(fā)展史時(shí)間產(chǎn)品特征英偉達(dá)AMD/ATI英特爾1999年之前2D加速與3D加速分離固定管線NV 1RIVA TNTRIVA TNT2Wonder系列Mach系列Rage系列I740i7521999-20072D與3D加速融合管線時(shí)代(像素管線、頂點(diǎn) 管線等)GeForce 256GeForce 2系列GeForce 3系列GeForce 4系列GeForce FX系列GeForce 6系列GeForce 7系列R100系列R200系列R300系列R400系列R500系列i845G

40、/E芯片組i865G芯片組GMA900GMA950GMA X3000系列2007-2017顯卡管線時(shí)代結(jié)束,進(jìn)入流 處理器單元時(shí)代G80系列G90系列特斯拉系列費(fèi)米系列開普勒系列麥克斯韋爾系列帕斯卡系列Radeon HD 2000系列Radeon HD 3000系列Radeon HD 4000系列Radeon HD 5000系列Radeon HD 6000系列GCN 1代GCN 2代GCN 3代GCN 4代GCN 5代GMA X4500系列HD Graphics系列HD Graphics 2000/3000HD Graphics 4000系列HD Graphics 5000系列HD Graph

41、ics 6000系列Iris 5000系列Iris 6000系列HD500/UHD500系列HD600/UHD600系列Iris600系列2018至今光線追蹤人工智能圖靈系列安培系列RDNA系列RDNA2系列UHD Graphics系列Iris Plus Graphics系列GPU發(fā)展史:NVIDIA GPU微架構(gòu)回顧時(shí)間費(fèi)米開普勒麥克斯韋爾帕斯卡安培第一個(gè)統(tǒng) 一著色器 微架構(gòu)CUDA單 元引入首次支持 DX10著色器模 型4.0特斯拉20082010資料來源:維基,方正證券研究所整理201220142016圖靈201820202008-2020英偉達(dá)GPU微架構(gòu)進(jìn)化性能首次支持 DX11支持

42、GDDR5顯存雙精度浮點(diǎn)(FP64) 性能提升ECC支持統(tǒng)一64位內(nèi)存尋址能耗比較費(fèi)米翻倍支持PCIe 3.0動態(tài)并行 計(jì)算極致流式 多處理器GPU動態(tài) 超頻能效較開 普勒翻倍支持DX12SMM流處理器動態(tài)高分 辨率技術(shù)HBMNV linkGDDR5X顯存GPU動態(tài) 超頻3.0二代Tensor單元RT單元GDDR6顯存HBM2深度學(xué)習(xí)超采 樣(DLSS)三代Tensor單 元二代RT單元GDDR6X顯存HBM2深度學(xué)習(xí)超采 樣(DLSS)PCIe4.0 英偉達(dá)的GPU架構(gòu)自2008年以來幾乎一直保持著每2年一次大更新的節(jié)奏,帶來更多更新的運(yùn)算單元和更 好的API適配性。在每次的大換代之間,不乏

43、有一次的小升級,如采用開普勒二代微架構(gòu)的GK110核心相 較于采用初代開普勒微架構(gòu)的GK104核心,升級了顯卡智能動態(tài)超頻技術(shù),CUDA運(yùn)算能力提升至3.5代,極致流式多處理器(SMX)的浮點(diǎn)運(yùn)算單元提升8倍,加入了Hyper-Q技術(shù)提高GPU的利用率并削減了閑置,更新了網(wǎng)格管理單元(Grid Management Unit),為動態(tài)并行技術(shù)提供了靈活性。 英偉達(dá)GPU微架構(gòu)的持續(xù)更新,使英偉達(dá)GPU的能效提升了數(shù)十倍,占領(lǐng)了獨(dú)立顯卡技術(shù)的制高點(diǎn)。GPU發(fā)展史:微軟DirectX API回顧 圖形API在GPU的運(yùn)算過程中發(fā)揮著連接高級語言、顯卡驅(qū)動乃至底層匯編語言的作用,充當(dāng)GPU運(yùn)行和開發(fā)

44、的 “橋梁”和“翻譯官”。微軟DirectX標(biāo)準(zhǔn)可以劃分為顯示部份、聲音部份、輸入部分和網(wǎng)絡(luò)部分,其中與GPU具 有最直接關(guān)系的是顯示部分。顯示部份可分為DirectDraw和Direct3D等標(biāo)準(zhǔn),前者主要負(fù)責(zé)2D圖像加速,后者主 要負(fù)責(zé)3D效果顯示。 從1995年發(fā)布的初代DirectX 1.0開始微軟的DirectX已經(jīng)更新到了DirectX 12。在此過程中,DirectX不斷完善 對各類GPU的兼容,增加開發(fā)人員的權(quán)限,提高GPU的顯示質(zhì)量和運(yùn)行幀數(shù)。DirectX一般和Windows操作系統(tǒng)同步更新,如Windows 7推出了DX11、Windows 10推出了DX12。時(shí)間199

45、8-2014微軟DirectX進(jìn)化性能DirectX 7DirectX 8DirectX 9DirectX 10DirectX 12DirectX 11加入了雙 線性過濾 和三線性 過濾3D游戲走 向成熟支持坐標(biāo) 轉(zhuǎn)換和光 源(T&L)2D和3D 組件分離 的最后一 版2D和3D 組件集成 的第一版引入像素渲染首次支持 動態(tài)光影取消傳統(tǒng)(T&L)著色器模 型3.0取消指令數(shù)限制位移貼圖 等新技術(shù)并行GPU 支持增加幾何渲染單元統(tǒng)一渲染 架構(gòu)曲面細(xì)分技術(shù)著色器模型5.0多線程資源利 用強(qiáng)化計(jì)算著色器紋理壓縮改進(jìn)底層API支 持多線程效率 提升光線追蹤可變速率著 色取樣器反饋DirectX 619

46、9819992000資料來源:百度百科,維基,方正證券研究所整理2002200620092014GPU發(fā)展史:NVIDIA GPU制程回顧時(shí)間2008-2020英偉達(dá)GPU主要制程和晶體管數(shù)進(jìn)化性能90納米、 65納米、 55納米、最多14億 晶體管40納米、 28納米最多30億 晶體管臺積電28納米最多71億 晶體管臺積電28 納米最多80億晶體管臺積電16 納米最多153 億晶體管臺積電12 納米最多186億 晶體管臺積電7納米三星8納米最多283億 晶體管費(fèi)米開普勒麥克斯韋爾帕斯卡安培圖靈特斯拉20082010資料來源:維基,方正證券研究所整理20122014201620182020GP

47、U和CPU都是以先進(jìn)制程為導(dǎo)向的數(shù)字芯片。先進(jìn)制程可以在控制發(fā)熱和電能消耗的同時(shí),在有限的 Die中放入盡可能多的晶體管,提高GPU的性能和能效。NVIDIA的GPU從2008年GT200系列的65納米制程歷經(jīng)12年逐步升級到了RTX3000系列的7/8納米制程 ,在整個(gè)過程中,晶體管數(shù)量提升了20多倍,逐步確立了在獨(dú)立GPU的市場龍頭地位。同時(shí)在整個(gè)過程中,NVIDIA一直堅(jiān)持不采用IDM的模式,而是讓臺積電負(fù)責(zé)GPU的制造,自生專注于芯 片設(shè)計(jì),充分發(fā)揮比較優(yōu)勢。GPU微架構(gòu)升級趨勢:更多、更專、更智能資料來源:英偉達(dá)白皮書,維基,英偉達(dá)官網(wǎng),方正證券研究所整理 根據(jù)前12年的GPU發(fā)展軌

48、跡來看,我們認(rèn)為,GPU微架構(gòu)的升級趨勢可以簡要地概括為”更多 ”、”更?!薄ⅰ备悄堋?。 “更多”是指晶體管數(shù)量和運(yùn)算單元的增加,其中 包括流處理器單元、紋理單元、光柵單元等數(shù)量上 升。 “更?!笔侵赋顺R?guī)的計(jì)算單元,GPU還會增 加新的運(yùn)算單元。例如,英偉達(dá)的圖靈架構(gòu)相較于 帕斯卡架構(gòu)新增加了光追單元和張量單元,分別處 理實(shí)時(shí)光線追蹤和人工智能運(yùn)算。 “更智能”是指GPU的AI運(yùn)算能力上升。如第三 代的張量單元相較于上代在吞吐量上提升了1倍。英偉達(dá)伏特微架構(gòu)對比安培微架構(gòu)AI加速性能英偉達(dá)GTX1080對比RTX2080RTX 1080RTX 2080流處理器25602944紋理單元16

49、0184光柵單元6464光線追蹤單元046張量單元0368處理性能(單精度 GFLOPS)82288920光追運(yùn)算(萬億)060英偉達(dá)安培架構(gòu)提升GPU API升級趨勢:更貼近底層資料來源:維基,極客灣,方正證券研究所整理 綜合分析微軟的DirectX12、蘋果的Metal2、Khronos Group的Vulkan API分別相較于前代DirectX 11、Metal、OpenGL的升級,我們認(rèn)為GPU API的升級趨勢是提高GPU的運(yùn)行效率、增加高級語言和 顯卡驅(qū)動之間的連接、優(yōu)化視覺特效等。其中,提供更底層的支持:統(tǒng)籌高級語言、顯卡驅(qū)動和底層語言 是幾乎所有API升級的主要方向。 不過提

50、供更底層的支持只是更高的幀數(shù)或更好的畫質(zhì)的必要非充分條件。在整個(gè)軟件的開發(fā)過程中,軟件 開發(fā)商需要比驅(qū)動程序和系統(tǒng)層更好地調(diào)度硬件資源,才能充分發(fā)揮底層API的效果。 在顯示質(zhì)量方面,DirectX 12 Ultimate采用當(dāng)下最新的圖形硬件技術(shù),支持光線追蹤、網(wǎng)格著色器和可 變速率著色,PC和Xbox共用同一個(gè)API,堪稱次世代游戲的全新黃金標(biāo)準(zhǔn)。高級語言(游戲引擎等)顯卡驅(qū)動底層語言(匯編/機(jī)器碼)高級語言(游戲引擎等)顯卡驅(qū)動底層語言(匯編/機(jī)器碼)非底層DirectX 11對比底層DirectX 12DirectX 12 Ultimate新特性著色器模型6.5光線追蹤1.1版網(wǎng)格著色

51、可變速率著色采樣反饋資源捆綁3.03D材質(zhì)傳統(tǒng)光柵3.040比特虛擬地址空間GPU制造升級趨勢:以先進(jìn)制程為導(dǎo)向資料來源:eetimes ,CNX ,方正證券研究所整理 我們認(rèn)為GPU性能的三大決定因素為主頻、微架構(gòu)、API。這些因素中主頻通常是由GPU的制程決定的。 制程在過去通常表示晶體管或柵極長度等特征尺寸,不過出于營銷的需要,現(xiàn)在的制程已經(jīng)偏離了本意,因此單純 比較納米數(shù)沒有意義。按英特爾的觀點(diǎn),每平方毫米內(nèi)的晶體管數(shù)(百萬)更能衡量制程。據(jù)此,臺積電和三星的 7nm工藝更接近英特爾的10nm工藝。 先進(jìn)的制程可以降低每一個(gè)晶體管的成本,提升晶體管密度,在GPU Die體積不變下實(shí)現(xiàn)更

52、高的性能;先進(jìn)制程可 以提升處理器的效能,在性能不變的情況下,減少發(fā)熱或在發(fā)熱不變的情況下,通過提升主頻來拉高性能。 先進(jìn)制程的主要目的是降低平面結(jié)構(gòu)帶來的漏電率問題,提升方案可以通過改變工藝,如采用FinFET(鰭式場效應(yīng) 晶體管)或GAA(環(huán)繞式柵極);或采用特殊材料,如FD-SOI(基于SOI的超薄絕緣層上硅體技術(shù))。先進(jìn)制程工藝之FinFET英特爾10nm先進(jìn)制程帶來的性能和效能提升資料來源:英偉達(dá)白皮書,AMD官網(wǎng),方正證券研究所整理GPU制造升級趨勢:Chiplet化 高位寬內(nèi)存(HBM)是小芯片(Chiplet)在GPU中的常見 應(yīng)用。HBM是一種高速計(jì)算機(jī)存儲器3D堆棧SDRA

53、M接口 。首款HBM于2013年推出,第二代HBM2已于2016年被 JEDEC接受。目前,HBM主要應(yīng)用在高端獨(dú)立顯卡和服務(wù)器 顯卡。HBM通過3D堆疊4個(gè)DRAM Die和1片邏輯Die組成一個(gè) Chiplet,其中每片DRAM具有2個(gè)128位通道,通過TSV( 硅通孔)相連。所以,一片Chiplet總共8個(gè)128位通道,總 位寬1024比特。每片Chiplet又與GPU封裝在同一中介層( Interposer)連接GPU芯片。相比之下,GDDR5內(nèi)存的總 線寬度為32位,帶有512位內(nèi)存接口的顯卡也只有16個(gè)通道,而且采用傳統(tǒng)的FBGA封裝。HBM與GDDR5相比,每GB 的表面積減少9

54、4%,每GB/S帶寬的能效提升2倍多。HBM支持最多每個(gè)Chiplet 4GB的存儲,HBM2在HBM的 基礎(chǔ)上將每片Chiplet的最大容量提升至了8GB,顯存主頻提升1倍,同時(shí)總位寬保持不變。GDDR5對比HBMHBM先進(jìn)封裝結(jié)構(gòu)HBM的GPU應(yīng)用資料來源:只談科技,方正證券研究所整理GPU制造的發(fā)展趨勢:Fab+Fabless為導(dǎo)向GPU制造可分為IDM和Fab+Fabless。IDM集芯片設(shè)計(jì)、芯片制造、芯片封裝和測試等多個(gè)產(chǎn)業(yè)鏈環(huán)節(jié)于一身。英特爾為IDM的代表。Fabless只負(fù)責(zé)芯片的電路設(shè)計(jì)與銷售,將生產(chǎn)、測試、封裝等環(huán)節(jié)外包。蘋果和AMD為Fabless的代表。Foundry只

55、 負(fù)責(zé)制造,不負(fù)責(zé)芯片設(shè)計(jì),可以同時(shí)為多家設(shè)計(jì)公司服務(wù),但受制于公司間的競爭關(guān)系。臺積電為Foundry的代表。 目前英特爾GPU落后的主要原因是GPU制程的落后,根本原因是英特爾受困于IDM運(yùn)作模式。隨著28納米以下先進(jìn)制 程的發(fā)展,芯片的制造成本和設(shè)計(jì)成本成指數(shù)級上升。同時(shí),一條12英寸晶圓的生產(chǎn)線從建設(shè)到生產(chǎn)的周期約2年,投 資至少30-50億美元,資本支出占比80%,整體風(fēng)險(xiǎn)非常大。英特爾以有限的資源不支持它持續(xù)的設(shè)計(jì)和生產(chǎn)的的兩線 作戰(zhàn)。Fab+Fabless的模式通過充分發(fā)揮比較優(yōu)勢,分散了GPU設(shè)計(jì)和制造的風(fēng)險(xiǎn),符合半導(dǎo)體分工的大趨勢。CPU制造優(yōu)勢劣勢海外公司中國大陸公司IDM

56、設(shè)計(jì)和 制造協(xié) 同優(yōu)化規(guī)模過 大成本高回報(bào)率 低Fab+Fa bless設(shè)計(jì)和 制造分 開,發(fā) 揮比較 優(yōu)勢多樣化 制造和 設(shè)計(jì)組 合,風(fēng) 險(xiǎn)分散溝通成 本大協(xié)作難 度大IDM與Fab+Fabless對比芯片設(shè)計(jì)費(fèi)用趨勢(億美元)資料來源:英偉達(dá)白皮書,方正證券研究所整理GPU需求概述GPU對電子計(jì)算行業(yè)的底層支撐現(xiàn)代云計(jì)算中GPU加速的剛需圖形云游戲基因?qū)W5G私人網(wǎng)絡(luò)邊緣AI視頻分析AI深度學(xué)習(xí)訓(xùn)練數(shù)據(jù)分析科學(xué)計(jì)算經(jīng)典機(jī)器學(xué)習(xí)AI深度學(xué)習(xí)界面 過去20多年里,GPU的基本需求源于視 頻加速,2D/3D游戲。隨后GPU運(yùn)用自 身在并行處理和通用計(jì)算的優(yōu)勢,逐步開 拓服務(wù)器、汽車、礦機(jī)、人工智能

57、、邊緣 計(jì)算等領(lǐng)域的衍生需求。 雖然GPU無法離開CPU獨(dú)立運(yùn)作,但是在 當(dāng)前“云化”加速的時(shí)代,離開了GPU的 CPU也無法勝任龐大的計(jì)算需求。所以 GPU和CPU組成了異構(gòu)運(yùn)算體系,從底層 經(jīng)由系統(tǒng)軟件和驅(qū)動層支持著上層的各種 應(yīng)用。GPU已經(jīng)成為了專用計(jì)算時(shí)代的剛 需。應(yīng)用層汽車智能手表軍用顯控手機(jī)游戲主機(jī)人工智能電腦服務(wù)器礦機(jī)Windows、安卓、IOS、Linux等GPU系統(tǒng)軟件 驅(qū)動硬件層GPU需求的演化3D加速2D加速通用計(jì)算AI資料來源:方正證券研究所GPU供給概述GPU產(chǎn)業(yè)鏈全球GPU設(shè)計(jì)廠商全球GPU制造廠商全球GPU封測廠商GPU的供給涉及設(shè)計(jì)、制造、封測三個(gè)主要環(huán)節(jié),整

58、體供給模式有IDM和Fab+Fabless兩種。IDM模式將設(shè)計(jì)、制造和封測集中在一起,代表廠商有英特爾。Fab+Fabless模式的代表有AMD設(shè)計(jì),臺積電制造,通富 微電封測;ARM陣營的蘋果設(shè)計(jì),臺積電制造,日月光封測。 目前GPU的先進(jìn)設(shè)計(jì)、先進(jìn)制造主要被美系、韓系和中國臺灣所控制。中國大陸企業(yè)華為和中芯國際遭到美國實(shí)體清單限制,未來發(fā)展艱難。封測方面,長電科技和通富微電已經(jīng)掌握先進(jìn)封測技術(shù),已經(jīng)有能力為蘋果、AMD提供封測技術(shù)支持。資料來源:博世,Cypress官網(wǎng),方正證券研究所整理GPU的需求側(cè)推動:汽車GPU概述 汽車GPU的用例幾乎涵蓋了從ADAS到自動駕駛,從儀表到中控信息

59、系統(tǒng)等多個(gè)車載系統(tǒng)。在實(shí)際大規(guī)模量產(chǎn)領(lǐng)域,基于深度學(xué)習(xí)的ADAS系統(tǒng)是GPU的主力戰(zhàn)場。 不同于消費(fèi)級GPU,汽車GPU需要滿足諸如AEC-Q100等車規(guī)認(rèn)證,快速生成冗余備份,在冗余備份中進(jìn)行二次 處理,確保功能的安全執(zhí)行。安全關(guān)鍵圖形和計(jì)算能力是下一代車載系統(tǒng)的要求。為了提高汽車GPU的速度,實(shí)現(xiàn) 圖形和視頻流之間快速切換,汽車GPU需要專用的圖形API,如Imagination專用汽車GPU的OpenGLSC2.0 API。通過GPU的硬件虛擬化解決方案,多屏幕、多操作和多個(gè)應(yīng)用程序都能在一個(gè)GPU上運(yùn)行而沒有性能損失。 隨著汽車的含硅量上升、功能的多樣化,汽車CPU將和汽車GPU組成S

60、oC,從分布式向中心化發(fā)展,統(tǒng)籌計(jì)算整車 數(shù)據(jù)。以新能源車的標(biāo)桿特斯拉為例,下代HW4.0將同時(shí)集成ADAS(先進(jìn)輔助駕駛)、電動汽車動力傳動、車載 信息娛樂系統(tǒng)和車身電子四大功能。汽車GPU作為主要算力的提供方,對整個(gè)汽車行業(yè)具有決定性作用。 目前汽車GPU可以分為2派。其一,是以特斯拉為代表的“自主”派,采用類似于蘋果公司的模式,自主設(shè)計(jì)芯片,不對外開放技術(shù),軟硬件的整合在公司內(nèi)部完成。 其二,是以英偉達(dá)為代表的“開放”派,采用類似于安卓的模式,對外開放技術(shù),服務(wù)其他車企,自己不造整車。具體模式的選擇需要綜合地權(quán)衡靈活性和契合度。汽車電子工程中心化車載ADAS系統(tǒng)的GPUGPU的需求側(cè)推動

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論