H3C-人工智能解決方案介紹_第1頁
H3C-人工智能解決方案介紹_第2頁
H3C-人工智能解決方案介紹_第3頁
H3C-人工智能解決方案介紹_第4頁
H3C-人工智能解決方案介紹_第5頁
已閱讀5頁,還剩26頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、logoH3C 人工智能平臺解決方案02人工智能需求背景01H3C 人工智能解決03案例分享AI無處不在無人駕駛媒體、娛樂生命科學工業(yè)機器人人工智能三大要素深度學習算法:神經(jīng)網(wǎng)絡(luò)算法大數(shù)據(jù):15萬職業(yè)棋手棋譜+百萬業(yè)余棋手棋譜超算體系:1202個CPU+176個GPU +高速互聯(lián)算據(jù)算法算力深度學習是人工智能的子集 機器學習的典型特征為利用簡單模型描述復雜特征深度學習的典型特征是通過簡單特征加上復雜模型深度學習是一種實現(xiàn)機器學習的技術(shù),計算能力增強解決了機器學習的瓶頸,從而推動深度學習的蓬勃發(fā)展,目前人工智能前沿是在深度學習Artifical Intelligence 人工智能Machine

2、Learning機器學習Deep Learning深度學習深度學習的計算需求6Step1:訓練階段Step2:推理階段高性能集群計算單機和邊緣計算模型架構(gòu)和參數(shù)AI平臺Cat人工智能模型訓練、推理流程用戶業(yè)務(wù)推理服務(wù)業(yè)務(wù)訓練數(shù)據(jù)AI訓練平臺AI模型AI模型AI模型在線預測部署輸入生成發(fā)布模型評估AI模型模型庫 AI全棧式方案基礎(chǔ)平臺服務(wù)(AI產(chǎn)品)機器學習深度學習通用服務(wù)(算法模型)圖像識別目標檢測OCR、NLP語音識別行業(yè)場景解決方案(行業(yè)業(yè)務(wù)系統(tǒng)或者應(yīng)用)智能稅務(wù)智能公安智能檢務(wù)智能金融業(yè)務(wù)問題AI建模模型訓練模型評估模型發(fā)布部署服務(wù)應(yīng)用(機器學習 /深度學習)教育公安信用AI企業(yè)用戶面臨

3、的挑戰(zhàn)GPU是AI科研必不可少的、緊缺且昂貴的部件;GPU資源缺少統(tǒng)一管理和調(diào)度,硬件資源利用率低AI相關(guān)的軟件組件眾多,數(shù)據(jù)建模和訓練以及部署復雜;易用性較差、問題定位困難、無法聚焦算法研究機器/深度學習算法庫和算法框架繁多,無從選擇TensorFlow/Caffe/MXNet/等;無法訓練出高質(zhì)量的模型,科研水平難以提升開發(fā)上手困難科研效率低算法框架選擇困難算法價值無法體現(xiàn)GPU管理困難教學科研成本高01人工智能需求背景02H3C 人工智能解決方案03案例分享H3C AIOS 人工智能平臺三大應(yīng)用場景云上AI服務(wù)人工智能平臺AI一體機為CloudOS云平臺的人工智能服務(wù),和大數(shù)據(jù)平臺、云平

4、臺共提供ABC融合方案主要數(shù)字化轉(zhuǎn)型的企事業(yè)單位,智慧類項目面向科研市場,搭建人工智能實驗室等科研場所,需求大規(guī)模AI集群的應(yīng)用場景主要面向教育行業(yè)和研究所基于H3C UIS 5300 G3 和AIOS軟件產(chǎn)品共同推出軟硬件一體化的AI解決方案,主要面向構(gòu)建AI基礎(chǔ)機構(gòu)的傳統(tǒng)及新型企業(yè)我們目前聚焦AI平臺層,提供平臺產(chǎn)品,上層的行業(yè)場景化AI服務(wù),可合作。H3C AIOS 人工智能產(chǎn)品系統(tǒng)架構(gòu)管理員/用戶AI API ServiceAI Resource Manager Service(基于kubernetes+docker的H3C容器平臺)平臺層應(yīng)用層通用AI應(yīng)用圖像/視頻/語音/自然語言處

5、理/數(shù)據(jù)管理模型訓練在線/離線開發(fā)可視化模型驗證AI市場超參數(shù)搜索模型評估AI組件層計算框架模型托管模型部署在線預測服務(wù)服務(wù)監(jiān)控服務(wù)使用者云計算資源池服務(wù)器存儲網(wǎng)絡(luò)異構(gòu)計算資源池GPUFPGATPU作業(yè)調(diào)度集群分區(qū)存儲服務(wù)多級配額 任務(wù)流引擎日志服務(wù)ML/DL算法庫鏡像倉庫行業(yè)解決方案智慧金融/醫(yī)療/公安/氣象/TensorflowCaffeCaffe2PyTorchMXnet更易用的AI平臺模型訓練在線推理 算法機器/深度學習庫多框架 算力GPU硬件賦能云計算資源池 H3C AIOS人工智能平臺核心功能人工智能平臺AIOS提供深度學習可視化訓練平臺(Horovod分布式特性,集成Tensor

6、Flow、Pytorch等框架),支持多機多卡,支持RDMA特性、超參搜索,內(nèi)置通用框架組件及模板可視化訓練環(huán)境支持在線/離線開發(fā)、拖拽式和編碼式建模,支持遠程桌面和SSH等連接方式;支持JupyterLab交互式編程,支持用戶自定義開發(fā)環(huán)境自定義開發(fā)環(huán)境提供統(tǒng)一的模型庫管理以及模型部署服務(wù),支持多種模型格式的在線推理服務(wù),支持多實例部署模式統(tǒng)一推理環(huán)境為多租戶提供開發(fā)環(huán)境和存儲資源的統(tǒng)一調(diào)配及安全隔離;對GPU計算資源提供統(tǒng)一的資源共享及調(diào)度模式支持人工智能平臺AIOS統(tǒng)一監(jiān)控運維AI建模體系統(tǒng)一開發(fā)環(huán)境:編碼式建模離線環(huán)境在線環(huán)境鏡像選擇:用戶可以使用內(nèi)置鏡像或者是自定義鏡像目錄掛載:支持

7、用戶空間工作目錄掛載jupyterlab:內(nèi)置鏡像支持jupyterlab/jupyter平臺端本地開發(fā)命令行:文件上傳命令行:提交訓練命令行:查看訓練日志統(tǒng)一開發(fā)環(huán)境:拖拽式建模任務(wù)流引擎調(diào)度器Scheduler節(jié)點Executor作業(yè)DriverJobHandler(通用pod執(zhí)行組件)Container(task1)Container(task2)數(shù)據(jù)算子數(shù)據(jù)算子算法庫數(shù)據(jù)處理深度學習機器學習模型評估用戶空間數(shù)據(jù)腳本公共文件易用性:拖拉拽式任務(wù)流建模,支持內(nèi)置算法組件,支持用戶自定義腳本訓練;擴展性:算法組件可擴展、作業(yè)類型可擴展;用戶自定義組件(規(guī)劃中);靈活性:支持全局變量、內(nèi)置變量

8、;支持手動運行、批量運行、定時運行;可控性:任務(wù)流引擎與用戶資源配額相結(jié)合,滿足平臺對用戶的資源控制。深度學習開發(fā)平臺在線編輯系統(tǒng)提供web端腳本在線編輯器,并提供常用API的代碼自動補全功能,方便用戶隨時調(diào)整訓練腳本,修改網(wǎng)絡(luò)結(jié)構(gòu),并及時運行腳本可視化訓練提供可視化的深度學習訓練過程,用戶可以配置數(shù)據(jù)集、腳本、超參數(shù)、計算資源;也可以實時監(jiān)控訓練進度,查看資源利用率圖表、損失圖表、訓練日志等等分布式多機多卡系統(tǒng)針對Tensorflow提供分布式GPU多機多卡訓練支持,有效利用計算資源,極大的縮短了模型訓練的過程,提高了資源利用率,節(jié)省了建模時間超參數(shù)搜索系統(tǒng)提供強大的超參數(shù)搜索功能,支持常見

9、的網(wǎng)格搜索、隨機搜索,以及貝葉斯搜索等搜索算法;并提供搜索之后的優(yōu)化建議統(tǒng)一AI多集群管理靈活的作業(yè)調(diào)度策略(先進先出/搶占/共享)實時的資源監(jiān)控平臺多維度自定義告警機制穩(wěn)定健康可控多租戶資源隔離統(tǒng)一AI計算資源管理配置項單實例限額:并發(fā)實例不能超過10個免申請規(guī)格:單實例免工單申請的規(guī)格(2核|4G|1卡)用戶資源總量:單用戶運行資源總量限額(10核|20G|5卡)業(yè)務(wù)維度開發(fā)環(huán)境:即用戶創(chuàng)建的jupyterlab環(huán)境訓練環(huán)境:即用戶進行任務(wù)流建模訓練的環(huán)境TensorBoard:即用戶創(chuàng)建的TB實例環(huán)境推理環(huán)境:即用戶創(chuàng)建的在線推理服務(wù)環(huán)境 工單用戶組限額全局限額用戶限額平臺采用遞進式資源

10、分配機制,管理員可根據(jù)不同的業(yè)務(wù),進行配置項的全局限額設(shè)置;同時,管理員也可以對有特殊需求的用戶組或者個人進行單獨限額設(shè)置;最后,用戶可以通過工單申請審批機制,請求獲取更大的資源配額。多層級資源分配機制,即保證了平臺在資源控制上的靈活性,也大大提高普通用戶使用平臺的易用性!分區(qū)、用戶組、資源分配鏡像倉庫管理公共/內(nèi)置鏡像由管理員進行管理的平臺內(nèi)置鏡像倉庫,與平臺各項業(yè)務(wù)功能能更好的交互。私有鏡像由個人用戶自己制作上傳的鏡像,滿足用戶特定場景下的需求。外部鏡像網(wǎng)絡(luò)允許的情況下,用戶可以使用公網(wǎng)中的鏡像源。鏡像市場個人用戶可以將自己的鏡像共享給指定用戶,甚至公布到平臺鏡像市場中。AI推理服務(wù)推理服

11、務(wù)模型TensorFlowPyTorchMXNet推理鏡像服務(wù)在線推理離線:推理鏡像共享發(fā)布獨占發(fā)布Tensorflow ServingTensorRTOpenVinoAI市場市場用戶數(shù)據(jù)集用戶模型用戶鏡像數(shù)據(jù)集模型鏡像公布公布公布H3C AIOS 人工智能平臺核心特點低成本:GPU資源池化共享,降低硬件成本,提供資源利用率高效率:支持多機多卡模型訓練, 大幅度縮短建模時間多層次:面向技能型、應(yīng)用型、科研型等多層次人才易擴展:基于容器的彈性擴展,支持獨立部署和云上部署可持續(xù):H3C AIOS 實力的支持,平臺可持續(xù)演進易操作:基于WEB操作管理,簡單易用易科研:全面支持主流AI框架和版本,靈活

12、復制適合的腳手架工程易開發(fā):支持在線、離線、命令行開發(fā),訓練日志和模型可視化,模型溯源、指標跟蹤、提供神經(jīng)網(wǎng)絡(luò)算法和超參數(shù)優(yōu)化建議多級配額:多層級資源分配機制, 靈活控制資源,提高易用性人工智能創(chuàng)新開發(fā)平臺AIOS業(yè)務(wù)需求數(shù)據(jù)處理設(shè)計模型并調(diào)優(yōu)模型訓練及評估部署模型并上線調(diào)整模型釋放平臺計算能力,深度聚焦應(yīng)用集中建設(shè),彈性擴展集中建設(shè)一套人工智能平臺,改變分散構(gòu)建開發(fā)平臺的模式,通過容器化技術(shù),實現(xiàn)資源彈性伸縮,按需擴展,提升資源利用率,大幅降低成本。一鍵部署,快速交付環(huán)境目錄服務(wù)提供便捷的環(huán)境依賴組件目錄, 工具集、系統(tǒng)鏡像,方便用戶個 性化定制或者統(tǒng)一規(guī)范使用。通過統(tǒng)一服務(wù)目錄管理,高效的

13、集群管理系統(tǒng),實現(xiàn)一鍵部署,快速安裝上線。大幅度提高自動化程度,提升效率,降低人工維 護成本。多租戶服務(wù), 資源靈活獲取區(qū)分不同用戶分權(quán)限,自動化獲取計算資源,掌握專業(yè)開發(fā)者自動化和靈活可控的平衡。124310GE交換機10GE 業(yè)務(wù)網(wǎng)絡(luò)GE管理監(jiān)控網(wǎng)絡(luò)GE交換機交換網(wǎng)絡(luò)模型訓練子系統(tǒng)多臺高性能GPU服務(wù)器(2個GPU卡以上)異構(gòu)計算資源池H3C AIOS 人工智能平臺部署規(guī)劃管理子系統(tǒng)X86服務(wù)器1臺.02人工智能需求背景03H3C 人工智能解決方案01案例分享案例1:XX大學人工智能實驗室項目項目背景及需求XX大學是教育部直屬的全國重點高校、國家“211工程”、“985優(yōu)勢學科創(chuàng)新平臺項目

14、”和國家“雙一流”建設(shè)高校??蛻粜枨笥嬎銠C學院構(gòu)建人工智能實驗室,為全院老師提供統(tǒng)一的AI平臺進行前沿的科學研究,對GPU資源進行統(tǒng)一調(diào)度與管理,建設(shè)一體化深度學習科研平臺。解決方案及價值解決方案:一期:提供3臺管理節(jié)點、15臺GPU訓練節(jié)點(每臺3個P100 GPU卡)的服務(wù)器與18個節(jié)點的H3C公共科學計算AIOS軟件,二期:提供11個AIOS節(jié)點+11臺高性能GPU服務(wù)器(每臺8卡)。項目在中標后,一周時間內(nèi)進行硬件安裝與軟件部署,順利完成項目驗收。價值:為客戶提供一體化的深度學習科研平臺,對132塊GPU卡統(tǒng)一調(diào)度與管理,提供深度學習可視化訓練與開發(fā)環(huán)境,滿足計算機學院老師進行目標追蹤

15、與檢測、遙感圖像分析與視頻分割等方向的AI科研需求,大大降低AI實驗室的構(gòu)建成本、提升學校的科研創(chuàng)新能力。XX大學人工實驗室實驗室建設(shè)介紹礦大人工智能實驗室配有29臺H3C NaviData 5200計算節(jié)點,包含3個獨立的管理節(jié)點和26個獨立的GPU節(jié)點。通過H3C人工智能軟件管理平臺AIOS實現(xiàn)集群資源的管理和GPU資源的調(diào)度。整個系統(tǒng)的計算資源超過1000物理核,可提供超過30Tflops的單精度浮點計算整體理論峰值。內(nèi)存容量超過7.5T,物理可用空間超過300T,包含45塊Nvidia Tesla P100 GPU卡、80塊Nvidia Geforce 2080Ti GPU卡。整個系統(tǒng)

16、通過高速萬兆網(wǎng)絡(luò)互聯(lián),該平臺承載XX大學計算機學院的科研和部分教學應(yīng)用。目前主要在計算機視覺和深度學習領(lǐng)域針對遙感影像智能解譯和視頻安防進行研究與探索。XX大學人工智能實驗室部署架構(gòu)10GE交換機10GE 業(yè)務(wù)網(wǎng)絡(luò)GE管理監(jiān)控網(wǎng)絡(luò)GE交換機交換網(wǎng)絡(luò)深度學習訓練節(jié)點(訓練集群/計算集群)15臺GPU高性能服務(wù)器(一期)+ 10臺高性能GPU服務(wù)器(二期)UIS3000,每臺3塊P100 GPU卡(一期)+ 80GPU卡(二期)管理節(jié)點3臺服務(wù)器UIS3000 人工智能平臺AIOS項目背景及需求隨著教學和科研的深入,XX需要在機器學習、深度學習、科學計算、視頻編解碼等多種場景下提供快速、穩(wěn)定、彈性的計算服務(wù),滿足如人臉識別、數(shù)據(jù)分析、矩陣計算等方面日益增長的教學和科研需求。該項目客戶需求使用高性能GPU服務(wù)器和AI平臺進行前沿的科

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論