2022年中國數(shù)智融合發(fā)展洞察_第1頁
2022年中國數(shù)智融合發(fā)展洞察_第2頁
2022年中國數(shù)智融合發(fā)展洞察_第3頁
2022年中國數(shù)智融合發(fā)展洞察_第4頁
2022年中國數(shù)智融合發(fā)展洞察_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2022年中國數(shù)智融合發(fā)展洞察

數(shù)智融合I研究洞察

核心摘要:

VUCA時(shí)代,市場變化加速。企業(yè)需要更加敏捷而準(zhǔn)確的數(shù)智化決策,這些決

策應(yīng)當(dāng)是分鐘級(jí)的而非天級(jí)的,應(yīng)當(dāng)是基于全量數(shù)據(jù)的而非局部數(shù)據(jù)的,應(yīng)當(dāng)

是基于準(zhǔn)確數(shù)據(jù)的而非基于"臟數(shù)據(jù)"的,應(yīng)當(dāng)是業(yè)務(wù)人員和數(shù)據(jù)分析人員任意

發(fā)起的而非是通過復(fù)雜流程和多部門配合才能實(shí)現(xiàn)的。

傳統(tǒng)的數(shù)倉或者湖倉分離架構(gòu)讓數(shù)智融合和企業(yè)敏捷決策變得困難:數(shù)據(jù)孤島

存在,決策無法基于全量數(shù)據(jù);數(shù)據(jù)來回流轉(zhuǎn),成本高、周期長、時(shí)效差。基

于存儲(chǔ)-緩存-計(jì)算分離,湖-倉-AI數(shù)據(jù)統(tǒng)一元數(shù)據(jù)管理的Serverless,可在數(shù)

據(jù)量、成本、效率、敏捷方面取得最優(yōu)解。

開源為教智生態(tài)貢獻(xiàn)重要力量,但這不預(yù)示所有企業(yè)需通過開源產(chǎn)品自建數(shù)智

平臺(tái)。實(shí)際上,大多企業(yè)聚焦自己核心業(yè)務(wù),選擇性能穩(wěn)定、無須運(yùn)維、數(shù)智

融合、端到端自動(dòng)化與智能化的商業(yè)化數(shù)智平臺(tái),ROI會(huì)更高。當(dāng)然,平臺(tái)應(yīng)

與主流開源產(chǎn)品具有良好繼承性,如此,更加靈活開放,企業(yè)的IT人才補(bǔ)給成

本也更低。

07

-中--國--數(shù)--智--融--合--發(fā)--展--背景1

數(shù)據(jù)量和非結(jié)構(gòu)化數(shù)據(jù)占比上升

統(tǒng)一管理,統(tǒng)一查詢使用,成為新的挑戰(zhàn)

全球數(shù)據(jù)量以59%以上的年增長率快速增長,其中80%是非結(jié)構(gòu)化

和半結(jié)構(gòu)化數(shù)據(jù),中國數(shù)據(jù)量的上升較全球更為迅速。數(shù)據(jù)量和非結(jié)

構(gòu)化數(shù)據(jù)的上升,使得基于對(duì)象存儲(chǔ)的數(shù)據(jù)湖越來越為普及。此時(shí),

如何使用統(tǒng)一管理,統(tǒng)一查詢使用,成為新的挑戰(zhàn)。

2015-2030年中國數(shù)據(jù)量規(guī)模及全球占比

來源:中國電信陶股說明書,艾瑞咨洌研四及給制.

C2022.7iResearchInc

企業(yè)內(nèi)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)占比及使用情況

結(jié)構(gòu)化

非結(jié)構(gòu)化數(shù)據(jù)

在企業(yè)的數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)企業(yè)長期以來,受技術(shù)影響,

僅占20%,其余80%都是以文對(duì)結(jié)構(gòu)化數(shù)據(jù)的利用率均高

件、語音、圖片等形式存在的于對(duì)非結(jié)構(gòu)化數(shù)據(jù)的利用率.

非結(jié)構(gòu)化數(shù)據(jù).且非結(jié)構(gòu)化數(shù)但實(shí)際上,非結(jié)構(gòu)化數(shù)據(jù)的

據(jù)的增速遠(yuǎn)遠(yuǎn)高于結(jié)構(gòu)化數(shù)據(jù),體量與其包含的信息量都更

隨落時(shí)間的推移,非結(jié)構(gòu)化數(shù)據(jù)多,是企業(yè)未得到充分利用

所占的比例將會(huì)越來越高.的寶貴資產(chǎn).

非結(jié)構(gòu)化

雌,80%

70%

來源艾瑞咨卿究院自主研究51融

?20227iResearchInc

數(shù)據(jù)多源異構(gòu)成為常態(tài)

數(shù)據(jù)從“匯聚才可被用"到"鏈接即可被用”

在傳統(tǒng)數(shù)倉中,多源數(shù)據(jù)經(jīng)ETL過程并集中入倉,方可被使用。該方

式有許多不足:第一,因有復(fù)雜的ETL過程及大量數(shù)據(jù)的傳輸,數(shù)據(jù)

實(shí)時(shí)性難以保障,因此分析常必須T+1才可完成;第二,數(shù)據(jù)的全量

存儲(chǔ)和存儲(chǔ)成本之間難以取舍,因此必須提前抉擇保留哪些數(shù)據(jù),隨

著數(shù)據(jù)種類的逐漸增多,這很難做到;第三,對(duì)于異常值的下鉆、回

溯等,無法回溯到最為原始的數(shù)據(jù)。隨著應(yīng)用場景的增多,數(shù)據(jù)庫的

種類也逐漸豐富,如更適應(yīng)物聯(lián)網(wǎng)場景的時(shí)序數(shù)據(jù)庫、更適應(yīng)知識(shí)譜

圖應(yīng)用的圖數(shù)據(jù)庫,等等。

綜上,多源異構(gòu)、分布存儲(chǔ)、現(xiàn)用現(xiàn)傳、統(tǒng)一查詢與應(yīng)用的架構(gòu),逐

漸被敏捷型企業(yè)認(rèn)可。

數(shù)據(jù)倉庫vs數(shù)據(jù)湖vs湖倉一體

BI報(bào)表

__/。BI

接口

咨國報(bào)表

鈉化/半雌倉庫

結(jié)構(gòu)化數(shù)據(jù)

數(shù)GBI

據(jù)t

處B

理t

報(bào)

結(jié)構(gòu)化/半結(jié)構(gòu)化/數(shù)據(jù)湖

非結(jié)構(gòu)化數(shù)據(jù)

數(shù)倉百數(shù)湖集群

數(shù)據(jù)倉庫VS湖倉一體數(shù)據(jù)湖VS湖倉一體

“湖倉一體”作為數(shù)據(jù)處理統(tǒng)一底座,提供實(shí)時(shí)處“湖倉一體"彌補(bǔ)Hadoop下數(shù)據(jù)湖實(shí)時(shí)降處理的

理多引擎、多數(shù)據(jù)類型能力,避免數(shù)據(jù)移動(dòng)建模,缺失,闡氐事后數(shù)據(jù)治理難度,提升了大數(shù)據(jù)應(yīng)用

降低數(shù)據(jù)處理的成本.性能.

來源:艾璃咨踴潮波自主研究及繪制.

C2O2Z7(ResearchInccn

數(shù)據(jù)庫的多源性

來源:艾瑞咨聞研究院自主研究及繪覲

?2022.7iResearchInc.

大數(shù)據(jù)的5V價(jià)值有待進(jìn)一步釋放

可從平臺(tái)性工具入手,進(jìn)而解決思維和技能的問題

大數(shù)據(jù)產(chǎn)業(yè)作為以數(shù)據(jù)生成、采集、存儲(chǔ)、加工、分析、服務(wù)為主的

戰(zhàn)略性新興產(chǎn)業(yè),提供全鏈條技術(shù)、工具和平臺(tái),孕育數(shù)據(jù)要素市場

主體,深度參與數(shù)據(jù)要素全生命周期活動(dòng),是激活數(shù)據(jù)要素潛能的關(guān)

鍵支撐,是數(shù)據(jù)要素市場培育的重要內(nèi)容。目前,大數(shù)據(jù)產(chǎn)業(yè)仍存在

數(shù)據(jù)壁壘突出、碎片化問題嚴(yán)重等瓶頸約束,大數(shù)據(jù)容量大、類型

多、速度快、精度準(zhǔn)、價(jià)值高的5V特性未能得到充分釋放。這其中

既有思維、技能的要素,又有工具的要素,三者也并非割裂存在,一

般來說,性能穩(wěn)定、簡單易用的全鏈條平臺(tái)工具有助于消除思維的“不

敢”和技能的“不會(huì)”,化解掉5V特性釋放的原始阻力,使得大數(shù)據(jù)更

加普適化。

大數(shù)據(jù)5V特性

速度(Velocity)

?批處理

?涮

?多進(jìn)程

?數(shù)據(jù)流

價(jià)值(Value)

優(yōu)

計(jì)學(xué)

件性

相關(guān)

假諛

02022.7iResearcnInc

云原生:從微服務(wù)走向Serverless

從PaaS到FaaS,基礎(chǔ)設(shè)施被更深層次地托管和“屏蔽”

當(dāng)前,微服務(wù)的生態(tài)和實(shí)踐已經(jīng)比較成熟,其設(shè)計(jì)方法、開發(fā)框架、

CI/CD工具、基礎(chǔ)設(shè)施管理工具等,都可以幫助企業(yè)順利實(shí)施,然而

其仍有許多不足:(1)粒度仍然比較大。(2)開發(fā)仍有較高門檻。

(3)微服務(wù)基礎(chǔ)設(shè)施管理、高可用和彈性仍然很難保證。(4)基礎(chǔ)

設(shè)施的成本依然較高。而Serverless中,開發(fā)者不再需要將時(shí)間和資

源花費(fèi)在服務(wù)器調(diào)配、維護(hù)、更新、擴(kuò)展和容量規(guī)劃上,這些任務(wù)都

由平臺(tái)處理,開發(fā)者只需要專注于編寫應(yīng)用程序的業(yè)務(wù)邏輯。如果再

結(jié)合低零代碼,則“編寫應(yīng)用程序”的難度也大為降低,企業(yè)內(nèi)的技術(shù)

人員更加貼近業(yè)務(wù)。

微服務(wù)中,大量運(yùn)維仍未被托管

開發(fā)/DevOps

DevOps

基礎(chǔ)設(shè)施運(yùn)維團(tuán)隊(duì)

云供應(yīng)商

?2022.7(ResearchInccn

典型的serverless架構(gòu)

函數(shù)編程模型

defhandler(event.context)

evzentcontext

觸發(fā)器

事件FaaS

控制器異步/同步

云存儲(chǔ)

身份認(rèn)證

BaaS平臺(tái)

來源:,華為servede”檢心技術(shù)與實(shí)踐》,艾瑞語麗麗蚪及繪制.

02022.7iResearchInc.

人工智能:需要大規(guī)模準(zhǔn)確數(shù)據(jù)哺育

人工智能應(yīng)用引發(fā)數(shù)據(jù)治理需求

企業(yè)在部署AI應(yīng)用時(shí),數(shù)據(jù)資源的優(yōu)劣極大程度決定了AI應(yīng)用的落

地效果。因此,為推進(jìn)AI應(yīng)用的高質(zhì)量落地,開展針對(duì)性的數(shù)據(jù)治

理工作為首要且必要的環(huán)節(jié)。而對(duì)于企業(yè)本身已搭建的傳統(tǒng)數(shù)據(jù)治理

體系,目前多停留在對(duì)于結(jié)構(gòu)性數(shù)據(jù)的治理優(yōu)化,在數(shù)據(jù)質(zhì)量、數(shù)據(jù)

字段豐富度、數(shù)據(jù)分布和數(shù)據(jù)實(shí)時(shí)性等維度尚難滿足AI應(yīng)用對(duì)數(shù)據(jù)

的高質(zhì)量要求。為保證AI應(yīng)用的高質(zhì)效落地,企業(yè)仍需進(jìn)行面向人

工智能應(yīng)用的二次數(shù)據(jù)治理工作。

Al應(yīng)用對(duì)數(shù)據(jù)治理需求

AI應(yīng)用的故據(jù)要求基于AI應(yīng)用的數(shù)據(jù)治理需求

all數(shù)據(jù)烷模接入多源異構(gòu)數(shù)據(jù)源

傳銳數(shù)據(jù)治理多以人為面向?qū)ο螅谟邢迶?shù)據(jù)容?進(jìn)行聚挖掘企業(yè)內(nèi)夕腳信息,納入結(jié)構(gòu)化數(shù)據(jù)、

合類信息展示,AI可I妾納數(shù)據(jù)■遠(yuǎn)遠(yuǎn)大于人所接納的數(shù)螃量半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),提升與

和信息?,目可用高質(zhì)蒙數(shù)據(jù)越多,模型匿曷和準(zhǔn)確性越好.數(shù)AI模型相關(guān)的數(shù)據(jù)枳累.數(shù)握訓(xùn)蝎?模

據(jù)獷張,數(shù)據(jù)類型異構(gòu),數(shù)據(jù)曝聲指數(shù)級(jí)

治憎加,對(duì)此建立針對(duì)性的數(shù)據(jù)治理體系

AI應(yīng)用,尤其是知識(shí)圖請(qǐng)搭建,需要大量半結(jié)構(gòu)化和非結(jié)構(gòu)理

化數(shù)據(jù)支持來開展工作.因此AI應(yīng)用在結(jié)構(gòu)化數(shù)據(jù)基礎(chǔ)上,的

姓幽蟠?結(jié)構(gòu)化數(shù)據(jù)納入頤源井支持上層分析應(yīng)用.需

Al模型對(duì)數(shù)據(jù)高度敏感,其質(zhì)?優(yōu)劣極大程度影響AI模型的導(dǎo)

應(yīng)用效果,因此AI數(shù)據(jù)源需極力規(guī)避-garbagein,

garbageout"的問題發(fā)生,多堆度的質(zhì)審檢直成為必修課.

⑦敗據(jù)實(shí)時(shí)性

AI模型對(duì)實(shí)時(shí)性要求高,大部分應(yīng)用需基于實(shí)時(shí)數(shù)據(jù)實(shí)現(xiàn)分

析,推薦和預(yù)警等目的,支持AI應(yīng)用的數(shù)據(jù)源更強(qiáng)調(diào)具備實(shí)

時(shí)性接入能力,_____________

”艾比它閭研究儂主際及ST

020227iResearchInc.

業(yè)務(wù)敏捷需要IT架構(gòu)“去過程化”

通過抽象解耦、水平擴(kuò)展、自動(dòng)化與智能化實(shí)現(xiàn)去過程化

VUCA時(shí)代,市場變化加速,通過數(shù)據(jù)來分析和決策的需求,也有了

更高的不確定性。當(dāng)這些需求提出,通過一套復(fù)雜的IT流程和漫長的

等待,變得不再現(xiàn)實(shí),IT架構(gòu)的去過程化變得極為重要。去過程化是

指減少或完全去掉原始數(shù)據(jù)/原子能力與業(yè)務(wù)需求之間的中間數(shù)據(jù)/步

驟,或使中間數(shù)據(jù)/步驟無須人為干預(yù),自動(dòng)化、智能化完成。其可實(shí)

現(xiàn)架構(gòu)的簡單化、扁平化,同時(shí)可對(duì)業(yè)務(wù)需求實(shí)時(shí)響應(yīng),以進(jìn)一步實(shí)

現(xiàn)敏捷和創(chuàng)新。架構(gòu)一開始就放棄“精細(xì)梳理方可使用”以及“梳理完成

千萬別動(dòng)''思想,用全量原始數(shù)據(jù)保障讀時(shí)模式,有助于打破“僵''與

“亂”的悖論,使得企業(yè)用更少的“能量”便可以維持?jǐn)?shù)字化系統(tǒng)的持續(xù)

運(yùn)行。

去過程化四大支撐

抽象與解耦

將IT架構(gòu)抽象成存儲(chǔ)、處理、應(yīng)用三層,處理層又拆分成原子能力和數(shù)據(jù)模型,當(dāng)不確定的需求來臨,現(xiàn)將數(shù)據(jù).

能力、展現(xiàn)與應(yīng)用形式進(jìn)行蛆合進(jìn)行處理。

穩(wěn)定且可水平擴(kuò)展的基礎(chǔ)設(shè)施

應(yīng)用的敏來自于基礎(chǔ)的穩(wěn),上層的簡來自于底層的繁,基礎(chǔ)設(shè)施穩(wěn)定性更加重要.

高性能計(jì)算與網(wǎng)絡(luò)

存算分離和讀時(shí)模式往往存在更多的重復(fù)數(shù)據(jù)傳輸與計(jì)算,對(duì)網(wǎng)絡(luò)和計(jì)算要求更高.

自動(dòng)化與智能化

通過智能化完成基礎(chǔ)性能優(yōu)化,降低硬件壓力或硬件成本;通過智能化完成部分過程的自動(dòng)化,從而屏蔽“人”

視角下的該過程。

東航艾瑞咨詢研究院自主研究及培制.

020227iResearchInc.

去過程化分層示例

敏捷的展現(xiàn)交互層/應(yīng)用層

敏捷BI低/無代碼應(yīng)用物聯(lián)網(wǎng)應(yīng)用

人看數(shù)/用數(shù)人用數(shù)/產(chǎn)數(shù)設(shè)備用數(shù)/產(chǎn)數(shù)

02022.7iRe?earchIncwww.iresearc

相關(guān)標(biāo)簽

低代碼/無代碼統(tǒng)一查詢語亳冷榭S數(shù)據(jù)分層對(duì)象存儲(chǔ)/數(shù)螃湖

敏捷BI統(tǒng)一接口泛化模型RDMA數(shù)據(jù)倉庫

GraphQL/JsonAPI統(tǒng)一角色與權(quán)限智能決策存其分離湖倉一體

來源:立哈闔研5我自主研究及縊M.

62022.7iResearchInc

-------------------------------------02

企業(yè)數(shù)智融合的痛點(diǎn)及應(yīng)對(duì)

痛點(diǎn)一:數(shù)據(jù)量-成本-效率難以兼得

不可能三角需要更高維的技術(shù)去打破

在傳統(tǒng)架構(gòu)中,數(shù)據(jù)量、存儲(chǔ)成本和計(jì)算效率是一組不可能三角。如

果不考慮數(shù)據(jù)量和數(shù)據(jù)類型,那么一個(gè)傳統(tǒng)的數(shù)倉或者單體的DBMS

即可滿足;不考慮計(jì)算效率,那么基于HDFS或者公有云對(duì)象存儲(chǔ)即

可滿足,當(dāng)下價(jià)格僅約0.1元/G/月,并持續(xù)下降,歸檔存儲(chǔ)等價(jià)格更

低;不考慮存儲(chǔ)成本,可使用非易失性存儲(chǔ),其擁有一般硬盤的無限

容量和斷電保護(hù)特性,卻有接近于內(nèi)存的性能。

傳統(tǒng)架構(gòu)下數(shù)據(jù)量、存儲(chǔ)成本和計(jì)算效率的不可能三角

來鼐:艾瑞咨詢研究院自主研克婚制.

C2O22.7iResearchInc

應(yīng)對(duì)一:存儲(chǔ)-緩存-計(jì)算三層分離

以內(nèi)存為中心的架構(gòu),在大數(shù)據(jù)量下降低成本、保持性能

為了使數(shù)據(jù)充分共享,降低均攤成木且打破數(shù)據(jù)孤島,存算分離架構(gòu)

產(chǎn)生,存儲(chǔ)和計(jì)算各自彈性伸縮,按需使用。但此時(shí),因存儲(chǔ)拉遠(yuǎn),

IO成為瓶頸,性能有所下降,因此需要緩存層來存儲(chǔ)高IO的熱數(shù)

據(jù),并最終形成以內(nèi)存為中心的架構(gòu)。

從必要性看,以計(jì)算為中心架構(gòu)已經(jīng)無法適應(yīng)當(dāng)前數(shù)據(jù)生態(tài)發(fā)展:數(shù)

據(jù)方面,大數(shù)據(jù)、人工智能等以數(shù)據(jù)為中心的工作負(fù)載快速發(fā)展;云

方面,數(shù)據(jù)湖存算分離架構(gòu)存儲(chǔ)訪問性能低,不支持實(shí)時(shí)分析。從可

行性看,介質(zhì)、網(wǎng)絡(luò)、協(xié)議的高速發(fā)展驅(qū)動(dòng)架構(gòu)轉(zhuǎn)型:SCM填補(bǔ)了內(nèi)

存縱向擴(kuò)展的介質(zhì)空白;緩存一致性標(biāo)準(zhǔn)的爭奪進(jìn)入白熱化;高速內(nèi)

存直連協(xié)議及技術(shù)(如華為1520,InfiniBand,ConvergedEthernet)

使得內(nèi)存的遠(yuǎn)程直接訪問不再是障礙。

以內(nèi)存為中心的系統(tǒng)架構(gòu)示意圖

計(jì)算(內(nèi)存中心期)

CPUCPUCPU

緩存緩存緩存

~———————————————————―————————————————————

RDMA,加載/存儲(chǔ)

內(nèi)存內(nèi)存內(nèi)存

存儲(chǔ)池

來海:艾瑞咨詢研究院自主研究及蛤制.

?2022.7iResearchInc

以內(nèi)存為中心的架構(gòu)技術(shù)優(yōu)勢

核心價(jià)值與技術(shù)優(yōu)勢

性能:成本:

內(nèi)存密集型和分布式應(yīng)用減少數(shù)據(jù)搬運(yùn)/拷貝、提升性能內(nèi)存池化和升級(jí)

?HPE以內(nèi)存為中心系統(tǒng)提升Spark性能15倍?內(nèi)存池化提升內(nèi)存資源利用率

?HPE分布式圖計(jì)算場景性能提升128倍?通過更低成本的SCM獲得大容量內(nèi)存擴(kuò)展能力

?MemVerge分級(jí)大內(nèi)存提升深度學(xué)習(xí)性能2睹故障解耦合:

CPU和內(nèi)存的故障不相互影響

彈性增強(qiáng):

CPU和內(nèi)存可獨(dú)立擴(kuò)縮容

來源:文瑞杏黃網(wǎng)究隴自主研究及繪制.

02022.7iResearchInc

痛點(diǎn)二:倉-湖-AI數(shù)據(jù)形成新孤島

要么隔離,要么遷移,均無法適應(yīng)全量、敏捷、低成本需求

數(shù)據(jù)分析和AI分析經(jīng)過多年的發(fā)展,出現(xiàn)了很多面向不同任務(wù)的專

用數(shù)據(jù)系統(tǒng):數(shù)倉系統(tǒng)處理結(jié)構(gòu)化數(shù)據(jù),規(guī)模不夠大;基于對(duì)象存儲(chǔ)

的大數(shù)據(jù)系統(tǒng)處理海量數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);AI系統(tǒng)一般是數(shù)據(jù)存儲(chǔ)

在本地。這些專用系統(tǒng)要么無法打通,形成新的數(shù)據(jù)孤島,要么不同

業(yè)務(wù)的開發(fā)要遷移數(shù)據(jù),耗費(fèi)存儲(chǔ)和網(wǎng)絡(luò)資源,數(shù)據(jù)準(zhǔn)備慢、等待周

期長,且面臨后期數(shù)據(jù)不一致的風(fēng)險(xiǎn),發(fā)現(xiàn)異常時(shí)數(shù)據(jù)的下鉆、溯源

等也相對(duì)困難,無法適應(yīng)市場環(huán)境快速變化下敏捷數(shù)據(jù)分析的需求。

數(shù)倉、數(shù)據(jù)湖和Al數(shù)據(jù)形成新的數(shù)據(jù)孤島

來源:艾瑞省河研究院自主研究及繪制.

02022.7(ResearchInc.

數(shù)據(jù)遷移導(dǎo)致副本增多、資源浪費(fèi)、管理困難

來源文瑞咨詢研欣自主研究及繪制.

02022.7iResearchInc.

應(yīng)對(duì)二:統(tǒng)一元數(shù)據(jù)到中心節(jié)點(diǎn)

Master-Slave架構(gòu),以集中管理代替集中存儲(chǔ)

把數(shù)倉、數(shù)據(jù)湖、AI數(shù)據(jù)的目錄、數(shù)據(jù)權(quán)限、事務(wù)一致性、多版本管

理等能力都統(tǒng)一到一個(gè)中心點(diǎn),依賴于這個(gè)中心點(diǎn)來訪問數(shù)據(jù),這樣

數(shù)據(jù)的利用就不會(huì)被孤立的系統(tǒng)束縛。這種分布式存儲(chǔ),統(tǒng)一管理的

Master-Slave架構(gòu),類似于計(jì)算領(lǐng)域的Mapreduce。這種方式:首

先,可以打破數(shù)據(jù)孤島、讓一份數(shù)據(jù)在多個(gè)引擎間自由共享,例如同

一個(gè)表格可以被不同的分析工具做分析,既可以跑數(shù)倉任務(wù),也可以

做大數(shù)據(jù)和機(jī)器學(xué)習(xí)任務(wù),不同的用戶角色不管用什么工具訪問數(shù)

據(jù),都有一致的權(quán)限,一致的事務(wù)控制;其次,可以避免數(shù)據(jù)來回遷

移而造成資源的浪費(fèi);再次,任何環(huán)節(jié)都可以看到自己權(quán)限下的全量

數(shù)據(jù),例如ML工程師可以利用整個(gè)數(shù)據(jù)湖的數(shù)據(jù)做特征訓(xùn)練;最

后,所有模型均基于唯一事實(shí)來源(原始數(shù)據(jù)),避免不同團(tuán)隊(duì)基于

不同數(shù)據(jù)分析造成結(jié)果不一致,且一旦發(fā)現(xiàn)異??梢员憬莸叵裸@、回

溯。

統(tǒng)一元數(shù)據(jù)示意圖

大數(shù)據(jù)任務(wù)機(jī)器學(xué)習(xí)任務(wù)其他應(yīng)用和任務(wù)

Master節(jié)點(diǎn):統(tǒng)圖目錄/數(shù)據(jù)權(quán)限/事務(wù)一致性;多版本管理)

來源:艾瑞咨詞研劉院自主研究及培制.

?2022.7(ResearchInc.cn

痛點(diǎn)三:開源產(chǎn)品豐富,但開發(fā)運(yùn)維難

開發(fā)成本高,運(yùn)維成本高,技術(shù)與時(shí)俱進(jìn)難,風(fēng)險(xiǎn)大

盡管在云、數(shù)、智體系下,開源產(chǎn)品極為豐富,但企業(yè)安全、穩(wěn)定地

駕馭,TCO并不低。在開發(fā)上,企業(yè)一般需花費(fèi)2()-1000人力年的時(shí)

間,不能滿足業(yè)務(wù)敏捷性;在運(yùn)維上,人工運(yùn)維,事后補(bǔ)救,宕機(jī)頻

繁,耗時(shí)耗力;在技術(shù)更新上,開發(fā)人員難以與時(shí)俱進(jìn),資源浪費(fèi)嚴(yán)

重;在IT風(fēng)險(xiǎn)上,企業(yè)將面對(duì)IT團(tuán)隊(duì)自身的風(fēng)險(xiǎn)(復(fù)雜架構(gòu)下,團(tuán)

隊(duì)離職無人接手)以及開源產(chǎn)品的漏洞風(fēng)險(xiǎn)(如Iog4j4漏洞事件),

還可能面對(duì)因經(jīng)驗(yàn)不足選型錯(cuò)誤的風(fēng)險(xiǎn);在體驗(yàn)上,因產(chǎn)品自產(chǎn)自

用,復(fù)用率低,技術(shù)團(tuán)隊(duì)一般只保障基礎(chǔ)需求,對(duì)于降低業(yè)務(wù)人員使

用難度、提升使用體驗(yàn)的附加性需求響應(yīng)度低。并且,這些基礎(chǔ)的開

發(fā)、運(yùn)維等,與企業(yè)核心業(yè)務(wù)常無必然聯(lián)系,并不會(huì)帶來企業(yè)核心競

爭力的提升,導(dǎo)致企業(yè)數(shù)智化的ROI較低。

企業(yè)利用開源產(chǎn)品自行搭建數(shù)智平臺(tái)面臨的困難

來源:艾瑞咨詢研究院自主研究及給制.

C2022.7(ResearchInccn

應(yīng)對(duì)三:DataOps和MLOps融合

享受成熟產(chǎn)品的紅利,兼顧與開源產(chǎn)品的繼承和包容性

企業(yè)在數(shù)智化選型中,應(yīng)首先明確自身的核心競爭力和能力邊界,摒

棄"重即好"思想,以更加輕盈的Serverless、Lowcode/Nocode、SaaS

等方式享受社會(huì)分工和先進(jìn)技術(shù)的紅利。以數(shù)智融合為例,拋開laaS

層,企業(yè)自研還需掌握Kubernetes+Docker生態(tài)、Java+Hadoop生

態(tài)、Python+Pytorch/Tensorflow生態(tài)、SQL生態(tài)...即便成功對(duì)接,

往往也離好用、敏捷相去甚遠(yuǎn),最終往往只形成指標(biāo)長期不變的靜態(tài)

報(bào)表。而與此同時(shí).,業(yè)界已存在較為領(lǐng)先的一站式數(shù)智平臺(tái),讓數(shù)據(jù)

工程師甚至業(yè)務(wù)人員以簡單、熟悉的工具/語言,甚至拖拉拽即可在全

域數(shù)據(jù)內(nèi)使用預(yù)置AI算法,打通大數(shù)據(jù)和人工智能,使得DataOps

和MLOps融合,使數(shù)據(jù)和模型的開發(fā)成本大為降低,周期大為縮

企業(yè)選擇基于開源產(chǎn)品自研,不少時(shí)候是出于一種怕被“綁架”的防御

心態(tài),以化解供應(yīng)商倒閉或漲價(jià)等風(fēng)險(xiǎn)。為此,企業(yè)可從供應(yīng)商綜合

實(shí)力,與開源產(chǎn)品的包容度和繼承性等方面綜合考慮,做到可組可

分,靈活裝配。

將大數(shù)據(jù)和人工智能打通的DataOps和M

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論