人工智能教學實訓綜合應用平臺需求說明_第1頁
人工智能教學實訓綜合應用平臺需求說明_第2頁
人工智能教學實訓綜合應用平臺需求說明_第3頁
人工智能教學實訓綜合應用平臺需求說明_第4頁
人工智能教學實訓綜合應用平臺需求說明_第5頁
免費預覽已結(jié)束,剩余2頁可下載查看

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

人工智能教學實訓綜合應用平臺需求說明一、建設背景與目標2024年,全國共有618所高職院校備案人工智能技術應用(服務)專業(yè),占全國1547所高職院校的近40%;高職院校紛紛抓住“人工智能”這把打開未來之門的鑰匙,從找準定位,培養(yǎng)人工智能產(chǎn)業(yè)鏈上的技能人才,到持續(xù)探索,應對“人工智能+”的全面來臨;人工智能教學實訓綜合應用平臺,可服務全校師生的科研任務,提供大模型訓練、人工智能內(nèi)容生成、圖像渲染等任務;同時,可服務于電子信息專業(yè)群開設人工智能實訓課程(含大數(shù)據(jù)技術、計算機網(wǎng)絡技術、電子信息工程技術、集成電路技術等4個專業(yè)學生),預計可服務人數(shù)450人/年;二、設備清單序號設備名稱數(shù)量單位1教學實訓科研綜合平臺1套2AI計算節(jié)點12臺3AI計算節(jié)點21臺4存儲節(jié)點1臺5萬兆交換機2臺三、技術參數(shù)序號設備名稱技術參數(shù)1教學實訓科研綜合平臺1.總體要求:采用國產(chǎn)AI算法集群管理平臺,面向深度學習開發(fā)場景,實現(xiàn)從數(shù)據(jù)管理、模型開發(fā)、模型訓練、模型管理、模型測試及發(fā)布的全生命周期管理;為了保證軟件的成熟度及可迭代,須提供商業(yè)版人工智能開發(fā)平臺軟件;2.通過容器快速創(chuàng)建計算環(huán)境,基于Kubernetes進行可移植容器的編排管理,計算環(huán)境隔離互不影響,內(nèi)置各種AI框架鏡像,例如TensorFlow、Caffe、PyTorch、PaddlePaddle、MXNet、昇思等主流框架,兼容web開源鏡像和用戶自定義鏡像;3.環(huán)境軟件應提供最近一年的版本,并可持續(xù)升級更新;4.提供集群資源統(tǒng)一調(diào)度,能夠多用戶,多作業(yè)同時運行,通過調(diào)度器來給作業(yè)動態(tài)分配資源,提供單節(jié)點單GPU,單節(jié)點多GPU,多節(jié)點多GPU以及多節(jié)點GPU,以及CPU/GPU混合的多種調(diào)度方式;5.數(shù)據(jù)管理:提供基于Web的文件管理功能,提供文件和文件夾的創(chuàng)建、刪除、重命名、在線編輯、權限設置,提供文件批量上傳和打包下載;平臺提供數(shù)據(jù)隔離與協(xié)同,個人數(shù)據(jù)可通過共享提供給平臺其他人員使用;平臺提供模型開發(fā)時的數(shù)據(jù)加速功能,用戶可直接使用遠端共享存儲上的文件,也可以將遠端存儲的文件拉取到計算節(jié)點本地參加計算,從而提升計算性能,同時減輕高并發(fā)下存儲Server端的I/O壓力;6.交互式開發(fā):用戶通過平臺內(nèi)置AI鏡像或用戶自定義鏡像進行環(huán)境創(chuàng)建交互式開發(fā)環(huán)境,環(huán)境實例可以使用CPU資源也可以使用GPU資源;開發(fā)環(huán)境提供Jupyter、webshell等在線交互開發(fā),支持對接第三方開發(fā)工具(如VSCode、PyCharm等);平臺提供開發(fā)實例的持久化功能,在實例中安裝的軟件包在下次創(chuàng)建啟動后可以繼續(xù)使用;7.模型訓練:提供基于容器的模型訓練功能;對TensorFlow、Caffe、PyTorch、PaddlePaddle、MXNet等框架,用戶可自定義訓練使用的框架版本,容器數(shù)量,GPU數(shù)量,內(nèi)存,指定不同的GPU型號資源,并且可以實時查看訓練日志,監(jiān)控各容器內(nèi)資源使用狀況;提供AI模型的多機分布式訓練,提供模板可以提交TensorFlow、Caffe、PyTorch、PaddlePaddle、MXNet等框架的分布式訓練作業(yè);8.資源調(diào)度能力:提供任務級別的資源調(diào)度方式功能,提供指定節(jié)點、GPU型號親和調(diào)度、數(shù)據(jù)親和調(diào)度策略,提供用戶資源配額,用戶組輪詢調(diào)度等策略,高/中/低優(yōu)先調(diào)度、支持緊急任務調(diào)度;9.GPU利用率:為了更好的支持教學和科研,平臺須提供基于web的GPU細粒度調(diào)度設置,允許多個任務指定GPU顯存,調(diào)度到同一張GPU卡,GPU切分需同時支持:1)MIG模式:每張卡獨立配置MIG方案;2)GPU顯存切分(隔離模式):按GPU顯存進行任意大小的切分,支持切分顯存≥1GB;3)復用率:按GPU上并發(fā)任務個數(shù)進行配置;10.在進行訓練任務時,業(yè)務應用支持資源彈性使用,用戶可基于業(yè)務需求對任務進行擴縮容管理,提升GPU使用效率;11.提供大模型訓練容錯,平臺自動檢測異常訓練節(jié)點、出現(xiàn)異常節(jié)點自動業(yè)務遷移,自動加載斷點重新發(fā)起任務;12.報表統(tǒng)計:從集群、資源組、節(jié)點三個維度進行計算資源的性能及使用統(tǒng)計,包括CPU利用率、GPU利用率、CPU使用核數(shù)、GPU使用卡數(shù)信息;對集群周期內(nèi)的任務情況進行統(tǒng)計,按任務規(guī)模和任務時長進行數(shù)量統(tǒng)計;用戶和用戶組統(tǒng)計周期內(nèi)的資源使用明細,包括任務總量、任務總機時、任務總CPU核時、任務總GPU卡時、數(shù)據(jù)存儲;13.兼容性:提供異構GPU管理,包括英偉達GPU和國產(chǎn)主流GPU(支持昇騰、天數(shù)智芯,燧原,昆侖芯等GPU卡)的統(tǒng)一管理與監(jiān)控;在界面能夠顯示納管的不同類型GPU型號、數(shù)量;14.提供對接多種存儲系統(tǒng),包括NFS、BeeGFS、HDFS等;支持通過界面配置同時對接多個存儲系統(tǒng);15.提供高可用:平臺自動檢測主備機狀態(tài)及HA服務狀態(tài),當發(fā)現(xiàn)主機存在異常需要切換備機時,HA模塊會自動切換管理服務到備機,并且在切換過程中不影響用戶運行任務;16.提供自動告警功能,能夠提供物理節(jié)點或容器的CPU、網(wǎng)絡、GPU、磁盤使用的實時數(shù)據(jù)統(tǒng)計,達到告警閾值時自動告警;17.提供集群橫向擴展:當系統(tǒng)出現(xiàn)性能瓶頸,可以通過新增節(jié)點,添加到集群中實時擴展;18.提供數(shù)據(jù)緩存加速機制,數(shù)據(jù)集可高速并行緩存到計算節(jié)點本地,并提供緩存數(shù)據(jù)的生命周期管理,支持緩存進度查看,可進行緩存數(shù)據(jù)的增量更新、手動清理等;19.提供斷點續(xù)訓,針對長時間多機多卡分布式訓練場景的斷點續(xù)訓功能;在出現(xiàn)硬件故障或其他導致訓練任務異常中斷的情況下,具備在上一次訓練狀態(tài)的基礎上繼續(xù)訓練的能力,避免從頭開始訓練;20.提供用戶對大語言模型進行微調(diào)功能,支持主流的SFT任務,可以選擇Full、Freeze、LoRA等多種微調(diào)方法,滿足不同業(yè)務場景訴求;提供圖形化界面,降低用戶使用門檻;21.提供5年軟件升級維護;2AI計算節(jié)點11.總體要求:機架式服務器,高度≥4U;2.處理器:配置≥兩顆Intel處理器,單顆處理器主頻≥2.1GHz,核數(shù)≥48核;3.內(nèi)存:配置≥1TBDDR5內(nèi)存,單條內(nèi)存≥64GB,頻率≥5600MHz,支持≥32個內(nèi)存插槽;4.硬盤:支持≥12塊2.5寸硬盤或24塊2.5寸硬盤,支持≥8塊NVME硬盤;本次配置≥2*960GSSD硬盤,≥4*7.68TNVMeSSD,配置Raid卡(含≥4G緩存);5.GPU擴展:8張GPU卡(單張顯存≥48GB,帶寬≥864GB/s,F(xiàn)P32≥91TFLOPS,F(xiàn)P16≥733TFLOPS),提供PCIEswitch模塊,能夠?qū)崿F(xiàn)卡間的P2P通訊;6.網(wǎng)卡:≥2張雙口萬兆光口(含光模塊),≥1塊雙口千兆以太網(wǎng)端口;7.電源:配置≥4個2000W熱插拔冗余電源;8.5年原廠硬件保修;3AI計算節(jié)點21、CPU、AI處理器使用國產(chǎn)自研芯片;2.處理器:配置≥4顆處理器,單顆處理器主頻≥2.6GHz,單顆處理器核心數(shù)≥48核;3.內(nèi)存:配置≥512GBDDR4內(nèi)存,單條內(nèi)存≥32GB,頻率≥3200MHz;4.存儲:配置≥2塊960GBSSD硬盤,≥4塊7.68TBNVMeSSD硬盤;5.AI加速模組:配置8塊AI模組卡(單顆AI處理器提供不低于32GBHBM,速度不低于800GB/S,單顆AI處理器FP16算力≥280TFLOPS,F(xiàn)P32算力≥75TFLOPS),提供≥4.4POPSNT8或2.2PFLOPSFP16或0.6PFLOPSFP32;6.網(wǎng)卡:≥4個萬兆以太網(wǎng)端口(含光模塊);7.服務器管理系統(tǒng)支持國產(chǎn)自研管理芯片;

8.支持中文BIOS界面;9.需提供配套國產(chǎn)AI并行計算調(diào)度框架;10.RAID:raid卡采用國產(chǎn)自主可控芯片;11.電源:滿配冗余熱插拔電源,并提供配套的電源連接線:4個熱插拔2600W交流電源模塊,支持2+2冗余;12.5年原廠硬件保修;4存儲節(jié)點1.控制器框提供≥25個硬盤槽位;2.每個控制器均可提供NAS協(xié)議(包括NFS、CIFS以及NDMP)、不需單獨NAS網(wǎng)關;3.支持控制器擴展,最大支持≥8控;4.配置2個控制器,控制器采用多核處理器,且單控控制器處理器核心數(shù)≥16核,CPU主頻率≥2.0GHz;5.系統(tǒng)內(nèi)總一級緩存容量配置≥128GB,且任意控制器一級緩存容量≥64GB(不含任何性能加速模塊、FlashCache、PAM卡,SSDCache、SCM等);6.配置≥4*10GbpsEthernet接口(滿配多模光模塊),≥8*1GbpsEthernet接口;7.配置≥

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論