




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2022年中國數(shù)智融合發(fā)展洞察
數(shù)智融合I研究洞察
核心摘要:
VUCA時(shí)代,市場變化加速。企業(yè)需要更加敏捷而準(zhǔn)確的數(shù)智化決策,這些決
策應(yīng)當(dāng)是分鐘級(jí)的而非天級(jí)的,應(yīng)當(dāng)是基于全量數(shù)據(jù)的而非局部數(shù)據(jù)的,應(yīng)當(dāng)
是基于準(zhǔn)確數(shù)據(jù)的而非基于"臟數(shù)據(jù)"的,應(yīng)當(dāng)是業(yè)務(wù)人員和數(shù)據(jù)分析人員任意
發(fā)起的而非是通過復(fù)雜流程和多部門配合才能實(shí)現(xiàn)的。
傳統(tǒng)的數(shù)倉或者湖倉分離架構(gòu)讓數(shù)智融合和企業(yè)敏捷決策變得困難:數(shù)據(jù)孤島
存在,決策無法基于全量數(shù)據(jù);數(shù)據(jù)來回流轉(zhuǎn),成本高、周期長、時(shí)效差。基
于存儲(chǔ)-緩存-計(jì)算分離,湖-倉-AI數(shù)據(jù)統(tǒng)一元數(shù)據(jù)管理的Serverless,可在數(shù)
據(jù)量、成本、效率、敏捷方面取得最優(yōu)解。
開源為教智生態(tài)貢獻(xiàn)重要力量,但這不預(yù)示所有企業(yè)需通過開源產(chǎn)品自建數(shù)智
平臺(tái)。實(shí)際上,大多企業(yè)聚焦自己核心業(yè)務(wù),選擇性能穩(wěn)定、無須運(yùn)維、數(shù)智
融合、端到端自動(dòng)化與智能化的商業(yè)化數(shù)智平臺(tái),ROI會(huì)更高。當(dāng)然,平臺(tái)應(yīng)
與主流開源產(chǎn)品具有良好繼承性,如此,更加靈活開放,企業(yè)的IT人才補(bǔ)給成
本也更低。
07
-中--國--數(shù)--智--融--合--發(fā)--展--背景1
數(shù)據(jù)量和非結(jié)構(gòu)化數(shù)據(jù)占比上升
統(tǒng)一管理,統(tǒng)一查詢使用,成為新的挑戰(zhàn)
全球數(shù)據(jù)量以59%以上的年增長率快速增長,其中80%是非結(jié)構(gòu)化
和半結(jié)構(gòu)化數(shù)據(jù),中國數(shù)據(jù)量的上升較全球更為迅速。數(shù)據(jù)量和非結(jié)
構(gòu)化數(shù)據(jù)的上升,使得基于對(duì)象存儲(chǔ)的數(shù)據(jù)湖越來越為普及。此時(shí),
如何使用統(tǒng)一管理,統(tǒng)一查詢使用,成為新的挑戰(zhàn)。
2015-2030年中國數(shù)據(jù)量規(guī)模及全球占比
來源:中國電信陶股說明書,艾瑞咨洌研四及給制.
C2022.7iResearchInc
企業(yè)內(nèi)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)占比及使用情況
結(jié)構(gòu)化
非結(jié)構(gòu)化數(shù)據(jù)
在企業(yè)的數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)企業(yè)長期以來,受技術(shù)影響,
僅占20%,其余80%都是以文對(duì)結(jié)構(gòu)化數(shù)據(jù)的利用率均高
件、語音、圖片等形式存在的于對(duì)非結(jié)構(gòu)化數(shù)據(jù)的利用率.
非結(jié)構(gòu)化數(shù)據(jù).且非結(jié)構(gòu)化數(shù)但實(shí)際上,非結(jié)構(gòu)化數(shù)據(jù)的
據(jù)的增速遠(yuǎn)遠(yuǎn)高于結(jié)構(gòu)化數(shù)據(jù),體量與其包含的信息量都更
隨落時(shí)間的推移,非結(jié)構(gòu)化數(shù)據(jù)多,是企業(yè)未得到充分利用
所占的比例將會(huì)越來越高.的寶貴資產(chǎn).
非結(jié)構(gòu)化
雌,80%
70%
來源艾瑞咨卿究院自主研究51融
?20227iResearchInc
數(shù)據(jù)多源異構(gòu)成為常態(tài)
數(shù)據(jù)從“匯聚才可被用"到"鏈接即可被用”
在傳統(tǒng)數(shù)倉中,多源數(shù)據(jù)經(jīng)ETL過程并集中入倉,方可被使用。該方
式有許多不足:第一,因有復(fù)雜的ETL過程及大量數(shù)據(jù)的傳輸,數(shù)據(jù)
實(shí)時(shí)性難以保障,因此分析常必須T+1才可完成;第二,數(shù)據(jù)的全量
存儲(chǔ)和存儲(chǔ)成本之間難以取舍,因此必須提前抉擇保留哪些數(shù)據(jù),隨
著數(shù)據(jù)種類的逐漸增多,這很難做到;第三,對(duì)于異常值的下鉆、回
溯等,無法回溯到最為原始的數(shù)據(jù)。隨著應(yīng)用場景的增多,數(shù)據(jù)庫的
種類也逐漸豐富,如更適應(yīng)物聯(lián)網(wǎng)場景的時(shí)序數(shù)據(jù)庫、更適應(yīng)知識(shí)譜
圖應(yīng)用的圖數(shù)據(jù)庫,等等。
綜上,多源異構(gòu)、分布存儲(chǔ)、現(xiàn)用現(xiàn)傳、統(tǒng)一查詢與應(yīng)用的架構(gòu),逐
漸被敏捷型企業(yè)認(rèn)可。
數(shù)據(jù)倉庫vs數(shù)據(jù)湖vs湖倉一體
BI報(bào)表
__/。BI
接口
咨國報(bào)表
鈉化/半雌倉庫
結(jié)構(gòu)化數(shù)據(jù)
數(shù)GBI
據(jù)t
處B
理t
報(bào)
表
結(jié)構(gòu)化/半結(jié)構(gòu)化/數(shù)據(jù)湖
非結(jié)構(gòu)化數(shù)據(jù)
數(shù)倉百數(shù)湖集群
數(shù)據(jù)倉庫VS湖倉一體數(shù)據(jù)湖VS湖倉一體
“湖倉一體”作為數(shù)據(jù)處理統(tǒng)一底座,提供實(shí)時(shí)處“湖倉一體"彌補(bǔ)Hadoop下數(shù)據(jù)湖實(shí)時(shí)降處理的
理多引擎、多數(shù)據(jù)類型能力,避免數(shù)據(jù)移動(dòng)建模,缺失,闡氐事后數(shù)據(jù)治理難度,提升了大數(shù)據(jù)應(yīng)用
降低數(shù)據(jù)處理的成本.性能.
來源:艾璃咨踴潮波自主研究及繪制.
C2O2Z7(ResearchInccn
數(shù)據(jù)庫的多源性
來源:艾瑞咨聞研究院自主研究及繪覲
?2022.7iResearchInc.
大數(shù)據(jù)的5V價(jià)值有待進(jìn)一步釋放
可從平臺(tái)性工具入手,進(jìn)而解決思維和技能的問題
大數(shù)據(jù)產(chǎn)業(yè)作為以數(shù)據(jù)生成、采集、存儲(chǔ)、加工、分析、服務(wù)為主的
戰(zhàn)略性新興產(chǎn)業(yè),提供全鏈條技術(shù)、工具和平臺(tái),孕育數(shù)據(jù)要素市場
主體,深度參與數(shù)據(jù)要素全生命周期活動(dòng),是激活數(shù)據(jù)要素潛能的關(guān)
鍵支撐,是數(shù)據(jù)要素市場培育的重要內(nèi)容。目前,大數(shù)據(jù)產(chǎn)業(yè)仍存在
數(shù)據(jù)壁壘突出、碎片化問題嚴(yán)重等瓶頸約束,大數(shù)據(jù)容量大、類型
多、速度快、精度準(zhǔn)、價(jià)值高的5V特性未能得到充分釋放。這其中
既有思維、技能的要素,又有工具的要素,三者也并非割裂存在,一
般來說,性能穩(wěn)定、簡單易用的全鏈條平臺(tái)工具有助于消除思維的“不
敢”和技能的“不會(huì)”,化解掉5V特性釋放的原始阻力,使得大數(shù)據(jù)更
加普適化。
大數(shù)據(jù)5V特性
速度(Velocity)
?批處理
?涮
?多進(jìn)程
?數(shù)據(jù)流
價(jià)值(Value)
優(yōu)
計(jì)學(xué)
事
件性
性
相關(guān)
性
假諛
02022.7iResearcnInc
云原生:從微服務(wù)走向Serverless
從PaaS到FaaS,基礎(chǔ)設(shè)施被更深層次地托管和“屏蔽”
當(dāng)前,微服務(wù)的生態(tài)和實(shí)踐已經(jīng)比較成熟,其設(shè)計(jì)方法、開發(fā)框架、
CI/CD工具、基礎(chǔ)設(shè)施管理工具等,都可以幫助企業(yè)順利實(shí)施,然而
其仍有許多不足:(1)粒度仍然比較大。(2)開發(fā)仍有較高門檻。
(3)微服務(wù)基礎(chǔ)設(shè)施管理、高可用和彈性仍然很難保證。(4)基礎(chǔ)
設(shè)施的成本依然較高。而Serverless中,開發(fā)者不再需要將時(shí)間和資
源花費(fèi)在服務(wù)器調(diào)配、維護(hù)、更新、擴(kuò)展和容量規(guī)劃上,這些任務(wù)都
由平臺(tái)處理,開發(fā)者只需要專注于編寫應(yīng)用程序的業(yè)務(wù)邏輯。如果再
結(jié)合低零代碼,則“編寫應(yīng)用程序”的難度也大為降低,企業(yè)內(nèi)的技術(shù)
人員更加貼近業(yè)務(wù)。
微服務(wù)中,大量運(yùn)維仍未被托管
開發(fā)/DevOps
DevOps
基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)
云供應(yīng)商
?2022.7(ResearchInccn
典型的serverless架構(gòu)
函數(shù)編程模型
defhandler(event.context)
evzentcontext
觸發(fā)器
事件FaaS
控制器異步/同步
云存儲(chǔ)
身份認(rèn)證
BaaS平臺(tái)
來源:,華為servede”檢心技術(shù)與實(shí)踐》,艾瑞語麗麗蚪及繪制.
02022.7iResearchInc.
人工智能:需要大規(guī)模準(zhǔn)確數(shù)據(jù)哺育
人工智能應(yīng)用引發(fā)數(shù)據(jù)治理需求
企業(yè)在部署AI應(yīng)用時(shí),數(shù)據(jù)資源的優(yōu)劣極大程度決定了AI應(yīng)用的落
地效果。因此,為推進(jìn)AI應(yīng)用的高質(zhì)量落地,開展針對(duì)性的數(shù)據(jù)治
理工作為首要且必要的環(huán)節(jié)。而對(duì)于企業(yè)本身已搭建的傳統(tǒng)數(shù)據(jù)治理
體系,目前多停留在對(duì)于結(jié)構(gòu)性數(shù)據(jù)的治理優(yōu)化,在數(shù)據(jù)質(zhì)量、數(shù)據(jù)
字段豐富度、數(shù)據(jù)分布和數(shù)據(jù)實(shí)時(shí)性等維度尚難滿足AI應(yīng)用對(duì)數(shù)據(jù)
的高質(zhì)量要求。為保證AI應(yīng)用的高質(zhì)效落地,企業(yè)仍需進(jìn)行面向人
工智能應(yīng)用的二次數(shù)據(jù)治理工作。
Al應(yīng)用對(duì)數(shù)據(jù)治理需求
AI應(yīng)用的故據(jù)要求基于AI應(yīng)用的數(shù)據(jù)治理需求
all數(shù)據(jù)烷模接入多源異構(gòu)數(shù)據(jù)源
傳銳數(shù)據(jù)治理多以人為面向?qū)ο螅谟邢迶?shù)據(jù)容?進(jìn)行聚挖掘企業(yè)內(nèi)夕腳信息,納入結(jié)構(gòu)化數(shù)據(jù)、
合類信息展示,AI可I妾納數(shù)據(jù)■遠(yuǎn)遠(yuǎn)大于人所接納的數(shù)螃量半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),提升與
和信息?,目可用高質(zhì)蒙數(shù)據(jù)越多,模型匿曷和準(zhǔn)確性越好.數(shù)AI模型相關(guān)的數(shù)據(jù)枳累.數(shù)握訓(xùn)蝎?模
據(jù)獷張,數(shù)據(jù)類型異構(gòu),數(shù)據(jù)曝聲指數(shù)級(jí)
治憎加,對(duì)此建立針對(duì)性的數(shù)據(jù)治理體系
AI應(yīng)用,尤其是知識(shí)圖請(qǐng)搭建,需要大量半結(jié)構(gòu)化和非結(jié)構(gòu)理
化數(shù)據(jù)支持來開展工作.因此AI應(yīng)用在結(jié)構(gòu)化數(shù)據(jù)基礎(chǔ)上,的
姓幽蟠?結(jié)構(gòu)化數(shù)據(jù)納入頤源井支持上層分析應(yīng)用.需
求
傳
Al模型對(duì)數(shù)據(jù)高度敏感,其質(zhì)?優(yōu)劣極大程度影響AI模型的導(dǎo)
應(yīng)用效果,因此AI數(shù)據(jù)源需極力規(guī)避-garbagein,
garbageout"的問題發(fā)生,多堆度的質(zhì)審檢直成為必修課.
⑦敗據(jù)實(shí)時(shí)性
AI模型對(duì)實(shí)時(shí)性要求高,大部分應(yīng)用需基于實(shí)時(shí)數(shù)據(jù)實(shí)現(xiàn)分
析,推薦和預(yù)警等目的,支持AI應(yīng)用的數(shù)據(jù)源更強(qiáng)調(diào)具備實(shí)
時(shí)性接入能力,_____________
”艾比它閭研究儂主際及ST
020227iResearchInc.
業(yè)務(wù)敏捷需要IT架構(gòu)“去過程化”
通過抽象解耦、水平擴(kuò)展、自動(dòng)化與智能化實(shí)現(xiàn)去過程化
VUCA時(shí)代,市場變化加速,通過數(shù)據(jù)來分析和決策的需求,也有了
更高的不確定性。當(dāng)這些需求提出,通過一套復(fù)雜的IT流程和漫長的
等待,變得不再現(xiàn)實(shí),IT架構(gòu)的去過程化變得極為重要。去過程化是
指減少或完全去掉原始數(shù)據(jù)/原子能力與業(yè)務(wù)需求之間的中間數(shù)據(jù)/步
驟,或使中間數(shù)據(jù)/步驟無須人為干預(yù),自動(dòng)化、智能化完成。其可實(shí)
現(xiàn)架構(gòu)的簡單化、扁平化,同時(shí)可對(duì)業(yè)務(wù)需求實(shí)時(shí)響應(yīng),以進(jìn)一步實(shí)
現(xiàn)敏捷和創(chuàng)新。架構(gòu)一開始就放棄“精細(xì)梳理方可使用”以及“梳理完成
千萬別動(dòng)''思想,用全量原始數(shù)據(jù)保障讀時(shí)模式,有助于打破“僵''與
“亂”的悖論,使得企業(yè)用更少的“能量”便可以維持?jǐn)?shù)字化系統(tǒng)的持續(xù)
運(yùn)行。
去過程化四大支撐
抽象與解耦
將IT架構(gòu)抽象成存儲(chǔ)、處理、應(yīng)用三層,處理層又拆分成原子能力和數(shù)據(jù)模型,當(dāng)不確定的需求來臨,現(xiàn)將數(shù)據(jù).
能力、展現(xiàn)與應(yīng)用形式進(jìn)行蛆合進(jìn)行處理。
穩(wěn)定且可水平擴(kuò)展的基礎(chǔ)設(shè)施
應(yīng)用的敏來自于基礎(chǔ)的穩(wěn),上層的簡來自于底層的繁,基礎(chǔ)設(shè)施穩(wěn)定性更加重要.
高性能計(jì)算與網(wǎng)絡(luò)
存算分離和讀時(shí)模式往往存在更多的重復(fù)數(shù)據(jù)傳輸與計(jì)算,對(duì)網(wǎng)絡(luò)和計(jì)算要求更高.
自動(dòng)化與智能化
通過智能化完成基礎(chǔ)性能優(yōu)化,降低硬件壓力或硬件成本;通過智能化完成部分過程的自動(dòng)化,從而屏蔽“人”
視角下的該過程。
東航艾瑞咨詢研究院自主研究及培制.
020227iResearchInc.
去過程化分層示例
敏捷的展現(xiàn)交互層/應(yīng)用層
敏捷BI低/無代碼應(yīng)用物聯(lián)網(wǎng)應(yīng)用
人看數(shù)/用數(shù)人用數(shù)/產(chǎn)數(shù)設(shè)備用數(shù)/產(chǎn)數(shù)
02022.7iRe?earchIncwww.iresearc
相關(guān)標(biāo)簽
低代碼/無代碼統(tǒng)一查詢語亳冷榭S數(shù)據(jù)分層對(duì)象存儲(chǔ)/數(shù)螃湖
敏捷BI統(tǒng)一接口泛化模型RDMA數(shù)據(jù)倉庫
GraphQL/JsonAPI統(tǒng)一角色與權(quán)限智能決策存其分離湖倉一體
來源:立哈闔研5我自主研究及縊M.
62022.7iResearchInc
-------------------------------------02
企業(yè)數(shù)智融合的痛點(diǎn)及應(yīng)對(duì)
痛點(diǎn)一:數(shù)據(jù)量-成本-效率難以兼得
不可能三角需要更高維的技術(shù)去打破
在傳統(tǒng)架構(gòu)中,數(shù)據(jù)量、存儲(chǔ)成本和計(jì)算效率是一組不可能三角。如
果不考慮數(shù)據(jù)量和數(shù)據(jù)類型,那么一個(gè)傳統(tǒng)的數(shù)倉或者單體的DBMS
即可滿足;不考慮計(jì)算效率,那么基于HDFS或者公有云對(duì)象存儲(chǔ)即
可滿足,當(dāng)下價(jià)格僅約0.1元/G/月,并持續(xù)下降,歸檔存儲(chǔ)等價(jià)格更
低;不考慮存儲(chǔ)成本,可使用非易失性存儲(chǔ),其擁有一般硬盤的無限
容量和斷電保護(hù)特性,卻有接近于內(nèi)存的性能。
傳統(tǒng)架構(gòu)下數(shù)據(jù)量、存儲(chǔ)成本和計(jì)算效率的不可能三角
來鼐:艾瑞咨詢研究院自主研克婚制.
C2O22.7iResearchInc
應(yīng)對(duì)一:存儲(chǔ)-緩存-計(jì)算三層分離
以內(nèi)存為中心的架構(gòu),在大數(shù)據(jù)量下降低成本、保持性能
為了使數(shù)據(jù)充分共享,降低均攤成木且打破數(shù)據(jù)孤島,存算分離架構(gòu)
產(chǎn)生,存儲(chǔ)和計(jì)算各自彈性伸縮,按需使用。但此時(shí),因存儲(chǔ)拉遠(yuǎn),
IO成為瓶頸,性能有所下降,因此需要緩存層來存儲(chǔ)高IO的熱數(shù)
據(jù),并最終形成以內(nèi)存為中心的架構(gòu)。
從必要性看,以計(jì)算為中心架構(gòu)已經(jīng)無法適應(yīng)當(dāng)前數(shù)據(jù)生態(tài)發(fā)展:數(shù)
據(jù)方面,大數(shù)據(jù)、人工智能等以數(shù)據(jù)為中心的工作負(fù)載快速發(fā)展;云
方面,數(shù)據(jù)湖存算分離架構(gòu)存儲(chǔ)訪問性能低,不支持實(shí)時(shí)分析。從可
行性看,介質(zhì)、網(wǎng)絡(luò)、協(xié)議的高速發(fā)展驅(qū)動(dòng)架構(gòu)轉(zhuǎn)型:SCM填補(bǔ)了內(nèi)
存縱向擴(kuò)展的介質(zhì)空白;緩存一致性標(biāo)準(zhǔn)的爭奪進(jìn)入白熱化;高速內(nèi)
存直連協(xié)議及技術(shù)(如華為1520,InfiniBand,ConvergedEthernet)
使得內(nèi)存的遠(yuǎn)程直接訪問不再是障礙。
以內(nèi)存為中心的系統(tǒng)架構(gòu)示意圖
計(jì)算(內(nèi)存中心期)
CPUCPUCPU
緩存緩存緩存
~———————————————————―————————————————————
RDMA,加載/存儲(chǔ)
內(nèi)存內(nèi)存內(nèi)存
存儲(chǔ)池
來海:艾瑞咨詢研究院自主研究及蛤制.
?2022.7iResearchInc
以內(nèi)存為中心的架構(gòu)技術(shù)優(yōu)勢
核心價(jià)值與技術(shù)優(yōu)勢
性能:成本:
內(nèi)存密集型和分布式應(yīng)用減少數(shù)據(jù)搬運(yùn)/拷貝、提升性能內(nèi)存池化和升級(jí)
?HPE以內(nèi)存為中心系統(tǒng)提升Spark性能15倍?內(nèi)存池化提升內(nèi)存資源利用率
?HPE分布式圖計(jì)算場景性能提升128倍?通過更低成本的SCM獲得大容量內(nèi)存擴(kuò)展能力
?MemVerge分級(jí)大內(nèi)存提升深度學(xué)習(xí)性能2睹故障解耦合:
CPU和內(nèi)存的故障不相互影響
彈性增強(qiáng):
CPU和內(nèi)存可獨(dú)立擴(kuò)縮容
來源:文瑞杏黃網(wǎng)究隴自主研究及繪制.
02022.7iResearchInc
痛點(diǎn)二:倉-湖-AI數(shù)據(jù)形成新孤島
要么隔離,要么遷移,均無法適應(yīng)全量、敏捷、低成本需求
數(shù)據(jù)分析和AI分析經(jīng)過多年的發(fā)展,出現(xiàn)了很多面向不同任務(wù)的專
用數(shù)據(jù)系統(tǒng):數(shù)倉系統(tǒng)處理結(jié)構(gòu)化數(shù)據(jù),規(guī)模不夠大;基于對(duì)象存儲(chǔ)
的大數(shù)據(jù)系統(tǒng)處理海量數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);AI系統(tǒng)一般是數(shù)據(jù)存儲(chǔ)
在本地。這些專用系統(tǒng)要么無法打通,形成新的數(shù)據(jù)孤島,要么不同
業(yè)務(wù)的開發(fā)要遷移數(shù)據(jù),耗費(fèi)存儲(chǔ)和網(wǎng)絡(luò)資源,數(shù)據(jù)準(zhǔn)備慢、等待周
期長,且面臨后期數(shù)據(jù)不一致的風(fēng)險(xiǎn),發(fā)現(xiàn)異常時(shí)數(shù)據(jù)的下鉆、溯源
等也相對(duì)困難,無法適應(yīng)市場環(huán)境快速變化下敏捷數(shù)據(jù)分析的需求。
數(shù)倉、數(shù)據(jù)湖和Al數(shù)據(jù)形成新的數(shù)據(jù)孤島
來源:艾瑞省河研究院自主研究及繪制.
02022.7(ResearchInc.
數(shù)據(jù)遷移導(dǎo)致副本增多、資源浪費(fèi)、管理困難
來源文瑞咨詢研欣自主研究及繪制.
02022.7iResearchInc.
應(yīng)對(duì)二:統(tǒng)一元數(shù)據(jù)到中心節(jié)點(diǎn)
Master-Slave架構(gòu),以集中管理代替集中存儲(chǔ)
把數(shù)倉、數(shù)據(jù)湖、AI數(shù)據(jù)的目錄、數(shù)據(jù)權(quán)限、事務(wù)一致性、多版本管
理等能力都統(tǒng)一到一個(gè)中心點(diǎn),依賴于這個(gè)中心點(diǎn)來訪問數(shù)據(jù),這樣
數(shù)據(jù)的利用就不會(huì)被孤立的系統(tǒng)束縛。這種分布式存儲(chǔ),統(tǒng)一管理的
Master-Slave架構(gòu),類似于計(jì)算領(lǐng)域的Mapreduce。這種方式:首
先,可以打破數(shù)據(jù)孤島、讓一份數(shù)據(jù)在多個(gè)引擎間自由共享,例如同
一個(gè)表格可以被不同的分析工具做分析,既可以跑數(shù)倉任務(wù),也可以
做大數(shù)據(jù)和機(jī)器學(xué)習(xí)任務(wù),不同的用戶角色不管用什么工具訪問數(shù)
據(jù),都有一致的權(quán)限,一致的事務(wù)控制;其次,可以避免數(shù)據(jù)來回遷
移而造成資源的浪費(fèi);再次,任何環(huán)節(jié)都可以看到自己權(quán)限下的全量
數(shù)據(jù),例如ML工程師可以利用整個(gè)數(shù)據(jù)湖的數(shù)據(jù)做特征訓(xùn)練;最
后,所有模型均基于唯一事實(shí)來源(原始數(shù)據(jù)),避免不同團(tuán)隊(duì)基于
不同數(shù)據(jù)分析造成結(jié)果不一致,且一旦發(fā)現(xiàn)異??梢员憬莸叵裸@、回
溯。
統(tǒng)一元數(shù)據(jù)示意圖
大數(shù)據(jù)任務(wù)機(jī)器學(xué)習(xí)任務(wù)其他應(yīng)用和任務(wù)
Master節(jié)點(diǎn):統(tǒng)圖目錄/數(shù)據(jù)權(quán)限/事務(wù)一致性;多版本管理)
來源:艾瑞咨詞研劉院自主研究及培制.
?2022.7(ResearchInc.cn
痛點(diǎn)三:開源產(chǎn)品豐富,但開發(fā)運(yùn)維難
開發(fā)成本高,運(yùn)維成本高,技術(shù)與時(shí)俱進(jìn)難,風(fēng)險(xiǎn)大
盡管在云、數(shù)、智體系下,開源產(chǎn)品極為豐富,但企業(yè)安全、穩(wěn)定地
駕馭,TCO并不低。在開發(fā)上,企業(yè)一般需花費(fèi)2()-1000人力年的時(shí)
間,不能滿足業(yè)務(wù)敏捷性;在運(yùn)維上,人工運(yùn)維,事后補(bǔ)救,宕機(jī)頻
繁,耗時(shí)耗力;在技術(shù)更新上,開發(fā)人員難以與時(shí)俱進(jìn),資源浪費(fèi)嚴(yán)
重;在IT風(fēng)險(xiǎn)上,企業(yè)將面對(duì)IT團(tuán)隊(duì)自身的風(fēng)險(xiǎn)(復(fù)雜架構(gòu)下,團(tuán)
隊(duì)離職無人接手)以及開源產(chǎn)品的漏洞風(fēng)險(xiǎn)(如Iog4j4漏洞事件),
還可能面對(duì)因經(jīng)驗(yàn)不足選型錯(cuò)誤的風(fēng)險(xiǎn);在體驗(yàn)上,因產(chǎn)品自產(chǎn)自
用,復(fù)用率低,技術(shù)團(tuán)隊(duì)一般只保障基礎(chǔ)需求,對(duì)于降低業(yè)務(wù)人員使
用難度、提升使用體驗(yàn)的附加性需求響應(yīng)度低。并且,這些基礎(chǔ)的開
發(fā)、運(yùn)維等,與企業(yè)核心業(yè)務(wù)常無必然聯(lián)系,并不會(huì)帶來企業(yè)核心競
爭力的提升,導(dǎo)致企業(yè)數(shù)智化的ROI較低。
企業(yè)利用開源產(chǎn)品自行搭建數(shù)智平臺(tái)面臨的困難
來源:艾瑞咨詢研究院自主研究及給制.
C2022.7(ResearchInccn
應(yīng)對(duì)三:DataOps和MLOps融合
享受成熟產(chǎn)品的紅利,兼顧與開源產(chǎn)品的繼承和包容性
企業(yè)在數(shù)智化選型中,應(yīng)首先明確自身的核心競爭力和能力邊界,摒
棄"重即好"思想,以更加輕盈的Serverless、Lowcode/Nocode、SaaS
等方式享受社會(huì)分工和先進(jìn)技術(shù)的紅利。以數(shù)智融合為例,拋開laaS
層,企業(yè)自研還需掌握Kubernetes+Docker生態(tài)、Java+Hadoop生
態(tài)、Python+Pytorch/Tensorflow生態(tài)、SQL生態(tài)...即便成功對(duì)接,
往往也離好用、敏捷相去甚遠(yuǎn),最終往往只形成指標(biāo)長期不變的靜態(tài)
報(bào)表。而與此同時(shí).,業(yè)界已存在較為領(lǐng)先的一站式數(shù)智平臺(tái),讓數(shù)據(jù)
工程師甚至業(yè)務(wù)人員以簡單、熟悉的工具/語言,甚至拖拉拽即可在全
域數(shù)據(jù)內(nèi)使用預(yù)置AI算法,打通大數(shù)據(jù)和人工智能,使得DataOps
和MLOps融合,使數(shù)據(jù)和模型的開發(fā)成本大為降低,周期大為縮
企業(yè)選擇基于開源產(chǎn)品自研,不少時(shí)候是出于一種怕被“綁架”的防御
心態(tài),以化解供應(yīng)商倒閉或漲價(jià)等風(fēng)險(xiǎn)。為此,企業(yè)可從供應(yīng)商綜合
實(shí)力,與開源產(chǎn)品的包容度和繼承性等方面綜合考慮,做到可組可
分,靈活裝配。
將大數(shù)據(jù)和人工智能打通的DataOps和M
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度綜合性醫(yī)院消毒滅菌專業(yè)服務(wù)合同
- 2025年度農(nóng)業(yè)土地整治土地承包合同
- 2025年度抵押車個(gè)人車輛抵押權(quán)解除后續(xù)貸合同模板
- 寵物運(yùn)輸司機(jī)勞務(wù)協(xié)議
- 2025年廣東生態(tài)工程職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫必考題
- 2025年二手房市場分析:二手房市場降幅收窄
- 2024年三季度報(bào)重慶地區(qū)A股主營業(yè)務(wù)利潤排名前十大上市公司
- 2024-2025學(xué)年福建省福州市馬尾第一中學(xué)等六校高二上學(xué)期期中聯(lián)考生物試卷
- 2023-2024學(xué)年湖南省衡陽市祁東縣高考考前仿真聯(lián)考三生物試卷
- 意見征詢稿回復(fù)函
- 跨云平臺(tái)的DevOps集成
- 紡織染整行業(yè)安全培訓(xùn)
- 小學(xué)綜合實(shí)踐活動(dòng)《察探究活動(dòng)跟著節(jié)氣去探究》課教案
- 水工建筑物維護(hù)技術(shù)
- 載重汽車的安全操作規(guī)程范本
- 平臺(tái)對(duì)接技術(shù)方案
- 化妝品包裝相容性評(píng)估方法
- 安全生產(chǎn)法律法規(guī)、標(biāo)準(zhǔn)清單
- 消防車輛與泵裝備的配置與選用與更新的技術(shù)要求與管理辦法
- 學(xué)校重大事項(xiàng)議事決策制度
- 英納能特種防護(hù)材料珠海產(chǎn)研生態(tài)基地建設(shè)項(xiàng)目(一期)環(huán)境影響報(bào)告表
評(píng)論
0/150
提交評(píng)論