先進(jìn)計(jì)算技術(shù)發(fā)展研究報(bào)告(2024年)_第1頁
先進(jìn)計(jì)算技術(shù)發(fā)展研究報(bào)告(2024年)_第2頁
先進(jìn)計(jì)算技術(shù)發(fā)展研究報(bào)告(2024年)_第3頁
先進(jìn)計(jì)算技術(shù)發(fā)展研究報(bào)告(2024年)_第4頁
先進(jìn)計(jì)算技術(shù)發(fā)展研究報(bào)告(2024年)_第5頁
已閱讀5頁,還剩78頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

先進(jìn)計(jì)算技術(shù)發(fā)展研究報(bào)告版權(quán)聲明本研究報(bào)告版權(quán)屬于先進(jìn)計(jì)算產(chǎn)業(yè)發(fā)展聯(lián)盟,并受法律保護(hù)。轉(zhuǎn)載、摘編或利用其它方式使用本研究報(bào)告文字或者觀點(diǎn)的,應(yīng)注明“來源:先進(jìn)計(jì)算產(chǎn)業(yè)發(fā)展聯(lián)盟”。違反上述聲明者,將追究其相關(guān)法律責(zé)任。前言為把握新一輪科技革命和產(chǎn)業(yè)變革機(jī)遇,推進(jìn)先進(jìn)計(jì)算技術(shù)創(chuàng) 2 4 6 8 1),2中心項(xiàng)目近70個(gè),全國(guó)一體化的算力網(wǎng)絡(luò)體系正在逐步央處理器(CentralProcessingUnit,C這導(dǎo)致CPU在進(jìn)行數(shù)據(jù)輸入或輸出時(shí)可能會(huì)處于長(zhǎng)時(shí)間的空閑狀3和為數(shù)據(jù)和指令提供單獨(dú)緩存的哈佛結(jié)構(gòu)等技術(shù)雖在一定程度上緩人工智能的快速發(fā)展對(duì)計(jì)算技術(shù)提出更高要求。在數(shù)字經(jīng)濟(jì)時(shí)節(jié)點(diǎn)跨服務(wù)器通信的額外負(fù)擔(dān),由數(shù)百?gòu)垐D形處理器(GraphicsProcessingUnit,GPU)卡所構(gòu)成的算力集群在進(jìn)行大模型訓(xùn)練任務(wù)4移動(dòng)計(jì)算等新型計(jì)算場(chǎng)景的興起,計(jì)算環(huán)境的多元化對(duì)計(jì)算資源的需求各異,從高性能5),6和專用集成電路(ASIC)等計(jì)算芯片;存儲(chǔ)芯片指內(nèi)存、閃存等數(shù)長(zhǎng)期以來制造工藝的進(jìn)步與處理器架構(gòu)的創(chuàng)新都是推動(dòng)計(jì)算硬爾定律”開始放緩,但這一演進(jìn)方式也將在今后多年持續(xù)。同時(shí),針SSD和Optane存儲(chǔ)技術(shù),提高了數(shù)據(jù)讀寫速封裝技術(shù)實(shí)現(xiàn)了更高的芯片集成密度,實(shí)現(xiàn)更短的數(shù)據(jù)傳輸路徑,Chiplet小芯片設(shè)計(jì)方法支持模塊化型流量的增長(zhǎng),CPU和GPU需分擔(dān)數(shù)據(jù)傳輸任務(wù),以便更好地專注于自身的計(jì)算責(zé)任,DPU的引入將有效減輕這一負(fù)擔(dān)。二是智算從7力資源無法滿足需求,迫切需要構(gòu)建高性能的數(shù)據(jù)中心互聯(lián)網(wǎng)絡(luò)),對(duì)地域、時(shí)間、天氣等對(duì)綠電供給影響較大的問題,通過8控制器、寄存器等模塊。其中運(yùn)算器和控制器是CPU的核心模塊,調(diào)與管理作用。先進(jìn)制程持續(xù)進(jìn)步是CPU技術(shù)發(fā)展的主線,然而隨的單核CPU以依靠制程工藝進(jìn)步方式帶來的性通過結(jié)合多處理器核集成和多線程并行設(shè)計(jì)、新指令集架構(gòu)、程序/編譯器優(yōu)化設(shè)計(jì)等技術(shù)實(shí)現(xiàn)了CPU性能和能效的進(jìn)一步提升。X86大。面對(duì)更多場(chǎng)景應(yīng)用的出現(xiàn)以及AI大模型帶來的算CPU在性能增強(qiáng)的同時(shí)逐漸向CPU+XPU異構(gòu)集成融合計(jì)算發(fā)展。9),模塊化架構(gòu),將CPU、核顯、輸入輸出等各自獨(dú)立,以提高集成度憑借多核架構(gòu)下高效并行計(jì)算能力及其靈活可編程特性,GPU當(dāng)前型應(yīng)用場(chǎng)景不斷攀升的算力需求驅(qū)動(dòng)下,GPU在制程工藝提升的同夠更佳適配于推理訓(xùn)練的更高精度的浮點(diǎn)計(jì)算能力,同時(shí)擁有更直接、迅速訪問緩存的能力。國(guó)際各大廠商也不斷推出新型GPU計(jì)算勢(shì)明顯。NVIDIACUDA生態(tài)從2006年的類計(jì)算生態(tài)蓬勃發(fā)展并處于快速推廣階段。在集群互聯(lián)規(guī)模化方NVIDIA是引領(lǐng)GPU產(chǎn)品技術(shù)創(chuàng)新的典范,通過微架構(gòu)計(jì)算性能通過NVIDIA高帶寬接口(NV-HBI)以10TB/s片間互聯(lián)。Blackwell式外,與Hopper芯片相比,Bl率和SM數(shù)量。借助Blackwell架構(gòu),NVIDIA推出第五代NvLink),),器學(xué)習(xí)領(lǐng)域的應(yīng)用日益增加,尤其是在邊緣計(jì)算和實(shí)時(shí)處理等場(chǎng)景NPU是一類基于DSA領(lǐng)域?qū)S眉軜?gòu)技術(shù)的專門設(shè)計(jì)用于加速神經(jīng)網(wǎng)絡(luò)計(jì)算的處理器。NPU通過專門的硬件架構(gòu)和指令集,能夠高等。NPU的架構(gòu)則專為神經(jīng)網(wǎng)絡(luò)計(jì)算優(yōu)化,其設(shè)計(jì)理念是在電路層有百萬級(jí)的并行計(jì)算單元,其算力與數(shù)據(jù)吞吐量之比有數(shù)百倍提升,型和多模態(tài)模型日益增強(qiáng)的計(jì)算性能和能效要求,NPU將向進(jìn)一步提升綜合能效、統(tǒng)一架構(gòu)下泛化處理能力增強(qiáng)、NPU與其他處理器高通推出驍龍XElite處理器集成ARMCPU與AI引擎NPU,其單NPU模塊算力高達(dá)16TOPS,總算力達(dá)到75TOPS。類似地,AMDAI技術(shù)的不斷發(fā)展,NPU將迎來更多的應(yīng)用場(chǎng)景。律放緩使得通用CPU性能增長(zhǎng)的邊際成本迅速上升芯片普遍面臨內(nèi)存墻瓶頸,導(dǎo)致計(jì)算資源的浪費(fèi)和計(jì)算效率的(專用集成電路)、FPGA(現(xiàn)場(chǎng)可編程邏輯門陣列)等技術(shù)路線實(shí)目前市場(chǎng)上主要的DPU技術(shù)路線分為基于FP采用Arm架構(gòu)的DPUSoC產(chǎn)品?;贔PGA的技術(shù)路線具有較高的靈活性和可編程性,但成本和功耗較高;而DPUSoC產(chǎn)品則兼顧了高ROCE網(wǎng)絡(luò)等高級(jí)特性。DPU的性能不斷提升,產(chǎn)品從2*25G向?qū)捄透偷难舆t,滿足智算中心等高性能應(yīng)用場(chǎng)景的需求。DPU產(chǎn)和應(yīng)用場(chǎng)景。UNIX和Linux以其開放性和穩(wěn)定性獲得里巴巴于2019年正式推出了龍蜥(Anolis)開源社區(qū),專注于構(gòu)建開源社區(qū),支持鯤鵬、x86等多種處理器架構(gòu),為云計(jì)算、大數(shù)據(jù)、OpenCloud開源社區(qū),專注于云計(jì)算國(guó)外數(shù)據(jù)庫(kù)市場(chǎng)競(jìng)爭(zhēng)激烈,涵蓋多種類型。包括關(guān)系型數(shù)數(shù)據(jù)湖(如AWSS3、GoogleCloudStorage)和數(shù)據(jù)倉(cāng)庫(kù)(如Snowflake、GoogleBigQuery)在數(shù)據(jù)分析和商業(yè)智能中越來越重要。云數(shù)據(jù)庫(kù)服務(wù)(如AmazonRDS、AzureSQLDatabase、庫(kù)架構(gòu)(如AWSAuroraServerless)以及人工智能與數(shù)據(jù)庫(kù)的結(jié)也在快速發(fā)展,MySQL、PostgreSQL等被廣泛應(yīng)用,而TiDB和擴(kuò)展性上的需求。云數(shù)據(jù)庫(kù)服務(wù)(如阿里云RDS、騰訊云數(shù)據(jù)庫(kù)、華為云GaussDB)也在迅猛增長(zhǎng),企業(yè)越來越多采用DBaaS模式以在國(guó)際領(lǐng)域,GCC和Clang/LLVM是兩大主流開源編譯器,廣泛應(yīng)用于各種操作系統(tǒng)和硬件平臺(tái)。GCC以其成熟的多語言支持和良語言如現(xiàn)代C++、Rust和Kotlin的編譯支持程語言的崛起促進(jìn)了編譯技術(shù)的不斷革新,特別是在Rust編譯器對(duì)不同指令集架構(gòu)(ISA)的適應(yīng)能力成為設(shè)計(jì)的關(guān)鍵考量。LLVM靜態(tài)分析工具的整合使得編譯器能夠在編譯階段提前識(shí)別潛在的安的CC二代編譯器,致力于提供對(duì)國(guó)產(chǎn)硬件的優(yōu)化支持,尤其在RISC-V和其他新興架構(gòu)上取得了顯著進(jìn)展。開源社區(qū)的參與進(jìn)一步合由具有強(qiáng)大并行處理能力的GPU來完成;而對(duì)于控制流密集型的操作,則更適合交由擅長(zhǎng)邏輯控制的CPU處理。這種根據(jù)任務(wù)特性圖一英偉達(dá)GraceHopperCPU+GPU異構(gòu)芯片隨著AI與大數(shù)據(jù)業(yè)務(wù)持續(xù)發(fā)展,芯片間的高速互聯(lián)技術(shù)成為系統(tǒng)性能瓶頸的關(guān)鍵突破點(diǎn)。高速互聯(lián)技術(shù)發(fā)展路線主要包含兩個(gè)方絡(luò),通常稱作Scale-out網(wǎng)絡(luò);二是基于一致性訪存的總線技術(shù)突破可以實(shí)現(xiàn)超節(jié)點(diǎn)內(nèi)跨GPU之間的內(nèi)存的讀寫,即所謂的后端網(wǎng)絡(luò),前先進(jìn)計(jì)算領(lǐng)域的迫切需求。異構(gòu)設(shè)備間的互聯(lián)技術(shù)以NVLink、外設(shè)、GPU與GPU之間的數(shù)據(jù)傳輸問題,以PCIe為代表寬更是達(dá)到了256GB/s,充分展示了其在性能和擴(kuò)展性上的持續(xù)領(lǐng)先。然而,PCIe總線的樹形拓?fù)浜投说蕉藗鬏敺绞揭矌砹艘欢ǖ南拗?,特別是在連接數(shù)量和傳輸速度方面。在多GPU系統(tǒng)內(nèi)部,英偉達(dá)的NVLink技術(shù)自2014年首次亮相以來,經(jīng)歷了顯著的演擴(kuò)展性和靈活性。同時(shí),隨著技術(shù)的不斷進(jìn)步,NVL了其應(yīng)用范圍,從最初的單機(jī)內(nèi)GPU間互連,到如今的NVL72、NVL576等超大規(guī)模的GPU縱向擴(kuò)展的一體式機(jī)架設(shè)備,單體算力密度獲得質(zhì)的飛躍,為業(yè)界提供了新型總線技術(shù)發(fā)展的標(biāo)桿。在數(shù)據(jù)傳輸、網(wǎng)絡(luò)穩(wěn)定性等指標(biāo)表現(xiàn)顯著均優(yōu)于其他節(jié)點(diǎn)間互聯(lián)方遲和高性能。有兩種主要的RoCE版本:RoCEv1使用第2層以太圖三服務(wù)器間互聯(lián)發(fā)展情況InfiniBand除了具有很強(qiáng)的網(wǎng)絡(luò)性能以外,還直接繼承了總線的高帶寬和低時(shí)延。總線技術(shù)中采用的DMA技術(shù)在InfiniBand中以RDMA的形式得以實(shí)現(xiàn)。InfiniBandTradeAssociatio目。該網(wǎng)絡(luò)通過專門設(shè)計(jì)的InfiniBand適配器或交換機(jī)實(shí)現(xiàn)高效的數(shù)卡、InfiniBand交換設(shè)備以及專用的InfiniBand線纜與光達(dá)在推動(dòng)高性能計(jì)算和AI領(lǐng)域發(fā)展的同時(shí),也成為了提供一系列InfiniBand網(wǎng)卡解決方案的主要力量。其中包括正在快速演進(jìn)的200GbpsHDR技術(shù)及已大規(guī)模商業(yè)部署的400G與以太網(wǎng)不同,InfiniBand交換機(jī)不運(yùn)行傳統(tǒng)路由協(xié)議中式管理機(jī)制,由子網(wǎng)管理器負(fù)責(zé)整個(gè)網(wǎng)絡(luò)轉(zhuǎn)發(fā)表的計(jì)算與分發(fā)工策略和服務(wù)質(zhì)量(QoS)。構(gòu)建InfiniBand網(wǎng)絡(luò)時(shí),必須使用專為InfiniBand設(shè)計(jì)的電纜和光模塊來確保交換機(jī)之間以及交換機(jī)與網(wǎng)卡RoCE的供應(yīng)商較多,也因此具有相對(duì)較強(qiáng)的性價(jià)比優(yōu)勢(shì)。海外由人工智能、云計(jì)算和高性能計(jì)算公司成立UEC聯(lián)盟,開展針對(duì)機(jī)間層技術(shù)進(jìn)行全棧優(yōu)化以解決當(dāng)前組網(wǎng)中的問題,以增強(qiáng)以太網(wǎng)英偉達(dá)華為英特爾谷歌AWS阿里協(xié)議棧自研QuantumIB/SpectrumRoCERoCEHCCSRoCE棧1RMA/Falcon協(xié)議棧SRDRoCE協(xié)議棧Solar組網(wǎng)架構(gòu)Fat-TreeFat-TreeFat-TreeDragonfly+Fat-TreeFat-TreeFat-Tree智能網(wǎng)卡/DPUConnect-X、Bluefield無網(wǎng)卡,GPU直出RoCE互連直出RoCE互連DPU與Leaf合一交換網(wǎng)絡(luò)帶寬800G200G800G未披露800G只提及單服務(wù)器出800G擁塞控制DCQCNTimelyTimelyHPCC負(fù)載均衡自適應(yīng)路由逐流負(fù)載均衡+流量預(yù)先規(guī)劃未披露報(bào)文噴射報(bào)文噴射報(bào)文噴射報(bào)文排序有序有序有序無序無序無序QP連接可擴(kuò)展性RC、DCT、XRCRCRCRDRDRD圖四Scaleout互聯(lián)發(fā)展情況其主要的技術(shù)路線有3D堆疊和存內(nèi)處理,3D堆疊是將內(nèi)存直接堆圖五存算一體的技術(shù)路線存內(nèi)計(jì)算、NorFlash存內(nèi)計(jì)算都有成熟落地的產(chǎn)品。ReRAM與MRAM等新型存儲(chǔ)介質(zhì)具有優(yōu)異的讀寫特性、功耗特性、非易失特藝的MRAM陣列芯片運(yùn)行了手寫數(shù)字識(shí)別和人臉檢測(cè)等AI算法,RISC-V向更高性能和AI領(lǐng)域拓展。云計(jì)算、大數(shù)據(jù)、人工智能高度集成的CPU市場(chǎng)需求持續(xù)攀升,推動(dòng)RISC-V架構(gòu)向更高性能領(lǐng)域探索。一方面,RISC-V架構(gòu)簡(jiǎn)潔、更低的能耗成本;另一方面,數(shù)據(jù)中心服務(wù)器生態(tài)大多為開源,對(duì)跑線上,典型代表有阿里巴巴達(dá)摩院、開芯RISC-V軟件生態(tài)逐步完善。參考Android系統(tǒng)軟件生態(tài)發(fā)展歷一步完善了RISC-V軟件生態(tài)系統(tǒng)。三是生態(tài)伙伴協(xié)同方面,大量項(xiàng)目和商業(yè)軟件開始移植到RISC-V平臺(tái),許多AI框架、數(shù)據(jù)庫(kù)系統(tǒng)、云計(jì)算解決方案成功運(yùn)行于RISC-V處理器上,編譯器、編譯環(huán)境、RISC-V工委會(huì)都在聚合企業(yè)和科研院所,推動(dòng)整個(gè)產(chǎn)業(yè)形成合力,化等一系列配套資源,進(jìn)而推動(dòng)整個(gè)生態(tài)環(huán)境的豐RISC-V應(yīng)用規(guī)模和適配程度不斷提高。在科研側(cè),眾多高校與圍內(nèi)如雨后春筍般涌現(xiàn),涵蓋從微控制器到高性能計(jì)算等多個(gè)操作系統(tǒng)開始全面支持RISC-V架構(gòu)。開源社區(qū)Debian已首次把RISC-V作為官方支持的指令集架構(gòu),OpenEuler社區(qū)、Google的善,進(jìn)一步提升了RISC-V架構(gòu)在市場(chǎng)上的適配程度。在產(chǎn)業(yè)側(cè),AI等領(lǐng)域開拓和發(fā)力,RISC-V以開源的方式,正吸收著全球的知為主流架構(gòu),走在實(shí)現(xiàn)三分天下有其一的路可重構(gòu)數(shù)據(jù)流技術(shù)的技術(shù)源頭可追溯到20世紀(jì)80年代末誕生的推出Handel-C語言。經(jīng)過學(xué)術(shù)界不斷研究由谷歌TPU負(fù)責(zé)人JonathanRoss帶領(lǐng)核心團(tuán)隊(duì)成立的Groq公能芯片主流架構(gòu)為基于GPU與TensorCore的指令集架構(gòu),其中個(gè)時(shí)鐘周期,平均66.8%-92%的計(jì)算單元處于閑置狀態(tài),計(jì)算資源最先進(jìn)的工藝等)。可重構(gòu)數(shù)據(jù)流架構(gòu)(CustomizedAIStreaming圖六CAISA3.0架構(gòu)示意圖展和國(guó)產(chǎn)冷卻液性能的提升,單相浸沒式液冷的應(yīng)用場(chǎng)景將逐步擴(kuò)了廣泛的關(guān)注和投資??萍季揞^如英特爾、AMD和ARM等都在其處理器中集成了TEE技術(shù),以提供更高級(jí)別的安全性。例如,英特爾的軟件保護(hù)擴(kuò)展(SoftwareGuardExtensions,SGX)就是一個(gè)典型TEE正在朝著更加完善和高效的方向發(fā)展。隨著量子計(jì)算技術(shù)的興隱私計(jì)算作為一種新的技術(shù)體系,在全球范圍內(nèi)引起了廣泛關(guān)應(yīng)速度和效率。其涵蓋了從硬件設(shè)備到軟件平節(jié)點(diǎn)則能夠?qū)崟r(shí)處理本地?cái)?shù)據(jù),快速響應(yīng)本地?cái)?shù)據(jù)可以在邊緣和云端之間進(jìn)行合理的分配和案能夠有效地降低能耗,提高系統(tǒng)穩(wěn)定性。單路CPU性能和核數(shù)的在內(nèi)存方面,支持12通道/16通道的DDR內(nèi)存成為未來發(fā)展的技術(shù)更新。在智能化方面,通用服務(wù)器正逐步融入AI智能管理、故勢(shì)。根據(jù)市場(chǎng)研究報(bào)告,到2025年,全球服務(wù)器市場(chǎng)規(guī)AI服務(wù)器技術(shù)已經(jīng)成為推動(dòng)人工智能發(fā)展的核心驅(qū)動(dòng)力之一,其發(fā)展現(xiàn)狀顯示出多樣化和高速發(fā)展的特點(diǎn)。目前模組和PCIe標(biāo)卡兩種形態(tài),而非NV陣營(yíng)則選擇了OAI2.0規(guī)范來需求。然而,隨著GPU功耗的不斷提升,散熱技術(shù)也面臨著巨大的以應(yīng)對(duì)高達(dá)1200W甚至更高的功耗需求。這種置,尤其是64卡及以上的配置,往往以整機(jī)柜的總線(水電和網(wǎng)絡(luò)總線)盲插技術(shù)支持,整機(jī)柜的功耗往往高于隨著技術(shù)的發(fā)展,AI服務(wù)器將與大數(shù)據(jù)平臺(tái)更加緊密地融合。AI服務(wù)器將朝著智能化和自主化方向發(fā)展,通過自動(dòng)化管理和自適態(tài)優(yōu)化等技術(shù)將使得AI服務(wù)器能夠更好地適應(yīng)不斷變化的計(jì)算需數(shù)據(jù)隱私保護(hù)法規(guī)的實(shí)施和意識(shí)的提升,AI服務(wù)器的安全性將成為云邊端協(xié)同等挑戰(zhàn),融合類產(chǎn)品成為邊緣微數(shù)據(jù)中心的重要發(fā)展方運(yùn)維、云邊協(xié)同、云原生災(zāi)備等能力,支持DPU算力卸載和硬件性求千差萬別,這種多樣性要求邊緣服務(wù)器具備高度的靈活性和適應(yīng)與云服務(wù)的深度整合,智能網(wǎng)聯(lián)汽車正在成為高性能計(jì)算的關(guān)鍵設(shè)備。為實(shí)現(xiàn)L5級(jí)自動(dòng)駕駛,車輛將配備包括攝像頭、Radar等在內(nèi)智能化程度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論