版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
中國(guó)云原生數(shù)據(jù)湖應(yīng)用洞察白皮書(shū)PAGE2PAGE2摘要概念界定:數(shù)據(jù)湖是面向大數(shù)據(jù)場(chǎng)景的創(chuàng)新解決方案,采用了與傳統(tǒng)數(shù)倉(cāng)不同的設(shè)計(jì)架構(gòu),具有「數(shù)據(jù)多源異構(gòu)、統(tǒng)一存儲(chǔ)管理、多范式計(jì)算、schema后置和應(yīng)用廣泛」的特性。云原生是數(shù)據(jù)湖未來(lái)部署的必然形態(tài),具有「建立統(tǒng)一數(shù)據(jù)資產(chǎn)、低成本使用基礎(chǔ)資源、高性能計(jì)算體驗(yàn)升級(jí)和敏捷創(chuàng)新賦能」的核心價(jià)值。市場(chǎng)現(xiàn)狀:年云原生數(shù)據(jù)湖市場(chǎng)規(guī)模(含生態(tài))達(dá)124億,預(yù)計(jì)未來(lái)三年將以39.7%的復(fù)合增長(zhǎng)率快速擴(kuò)張。競(jìng)爭(zhēng)格局:中國(guó)云原生數(shù)據(jù)湖還處于發(fā)展的早期,能夠提供整體解決方案的獨(dú)立廠商還較少,市場(chǎng)較為集中,競(jìng)爭(zhēng)主要圍繞頭部云廠商展開(kāi)。以營(yíng)收口徑核算,2020年云廠商在中國(guó)云原生數(shù)據(jù)湖市場(chǎng)(不包含生態(tài)支持部分)的份額達(dá)到了82.4%。應(yīng)用現(xiàn)狀:現(xiàn)階段,云原生數(shù)據(jù)湖主要應(yīng)用于泛互聯(lián)網(wǎng)行業(yè)(40.7%)及傳統(tǒng)行業(yè)的互聯(lián)網(wǎng)場(chǎng)景(泛政務(wù)、金融、工業(yè)、醫(yī)療、汽車等),未來(lái)將向更多具有大數(shù)據(jù)和高價(jià)值屬性的行業(yè)拓展。選型建議:企業(yè)在布局?jǐn)?shù)字化轉(zhuǎn)型時(shí),面對(duì)多元且快速迭代的業(yè)務(wù)需求,一方面需建設(shè)統(tǒng)一的數(shù)據(jù)底座,另一方面需關(guān)注DT能力的開(kāi)放性、敏捷性和創(chuàng)新性。在選型云原生數(shù)據(jù)湖時(shí),除內(nèi)部能力評(píng)估外,還需要考慮服務(wù)商的服務(wù)半徑和發(fā)展路徑。趨勢(shì)展望:在云原生與大數(shù)據(jù)背景下,云原生數(shù)據(jù)湖成為企業(yè)智勝未來(lái)的新一代生產(chǎn)力工具,市場(chǎng)即將迎來(lái)爆發(fā)期。盡管數(shù)據(jù)湖與云和大數(shù)據(jù)天然契合(海量、彈性、簡(jiǎn)單、敏捷),但在具體業(yè)務(wù)場(chǎng)景落地中,仍有許多實(shí)際問(wèn)題需要解決。未來(lái),云原生數(shù)據(jù)湖廠商需與開(kāi)發(fā)者、ISV和SI共同努力,在企業(yè)級(jí)生產(chǎn)環(huán)境中不斷探索,生態(tài)共贏驅(qū)動(dòng)云原生數(shù)據(jù)湖解決方案日臻完善。PAGEPAGE3云原生數(shù)據(jù)湖概念界定云原生數(shù)據(jù)湖概念界定1云原生數(shù)據(jù)湖市場(chǎng)現(xiàn)狀2云原生數(shù)據(jù)湖競(jìng)爭(zhēng)分析3云原生數(shù)據(jù)湖行業(yè)應(yīng)用與最佳實(shí)踐云原生數(shù)據(jù)湖市場(chǎng)現(xiàn)狀2云原生數(shù)據(jù)湖競(jìng)爭(zhēng)分析3云原生數(shù)據(jù)湖行業(yè)應(yīng)用與最佳實(shí)踐4云原生數(shù)據(jù)湖選型建議與典型企業(yè)5云原生數(shù)據(jù)湖發(fā)展趨勢(shì)6數(shù)據(jù)湖的定義數(shù)據(jù)湖的定義PAGE4PAGE4數(shù)據(jù)湖是面向大數(shù)據(jù)場(chǎng)景的創(chuàng)新解決方案早期,業(yè)界和用戶多把數(shù)據(jù)湖定義為一個(gè)儲(chǔ)存原始格式數(shù)據(jù)的系統(tǒng),可容納結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化及二進(jìn)制的數(shù)據(jù)。隨著大數(shù)據(jù)技術(shù)的融合發(fā)展,數(shù)據(jù)湖的邊界不斷擴(kuò)展,內(nèi)涵也發(fā)生了變化。數(shù)據(jù)湖開(kāi)始匯集各方面技術(shù),逐步演進(jìn)成為集多源異構(gòu)數(shù)據(jù)統(tǒng)一儲(chǔ)存、多范式計(jì)算分析及統(tǒng)一管理調(diào)用的大數(shù)據(jù)綜合解決方案。它可以更加高效率低成本地管理海量多源異構(gòu)數(shù)據(jù),打通數(shù)據(jù)孤島,釋放數(shù)據(jù)價(jià)值,助力新時(shí)代下各行業(yè)企業(yè)的數(shù)字化轉(zhuǎn)型。數(shù)據(jù)湖典型構(gòu)架及特性數(shù)據(jù)庫(kù)數(shù)倉(cāng)數(shù)據(jù)湖接入層數(shù)據(jù)庫(kù)數(shù)倉(cāng)APP日志……APP日志
數(shù)據(jù)湖調(diào)度層統(tǒng)一的API接口任務(wù)管理流程編排質(zhì)量管理數(shù)據(jù)治理數(shù)據(jù)接入數(shù)據(jù)搬遷訪問(wèn)控制資產(chǎn)目錄元數(shù)據(jù)管理③多范式計(jì)算:支持多種計(jì)算引擎,滿足不同數(shù)據(jù)計(jì)算分析需求,支持批處理、流處理、機(jī)器學(xué)習(xí)等。統(tǒng)一的API接口任務(wù)管理流程編排質(zhì)量管理數(shù)據(jù)治理數(shù)據(jù)接入數(shù)據(jù)搬遷訪問(wèn)控制資產(chǎn)目錄元數(shù)據(jù)管理③多范式計(jì)算:支持多種計(jì)算引擎,滿足不同數(shù)據(jù)計(jì)算分析需求,支持批處理、流處理、機(jī)器學(xué)習(xí)等。數(shù)據(jù)湖管理層數(shù)據(jù)湖計(jì)算層離線計(jì)算MapReduceSpark …實(shí)時(shí)計(jì)算Storm FlinkSparkStreaming ②數(shù)據(jù)統(tǒng)一存儲(chǔ)管理:對(duì)內(nèi)以O(shè)SS為中心,進(jìn)行統(tǒng)一存儲(chǔ),對(duì)接多范式計(jì)算引擎,對(duì)外提供統(tǒng)一的API接口實(shí)時(shí)
數(shù)據(jù)湖應(yīng)用層BI報(bào)表BI報(bào)表數(shù)據(jù)大屏數(shù)據(jù)大屏數(shù)據(jù)挖掘數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)IoT分析IoT分析數(shù)據(jù)科學(xué)……①數(shù)據(jù)多源異構(gòu):可容納海量數(shù)據(jù),且無(wú)存儲(chǔ)格式要求,接收結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化及二進(jìn)制數(shù)據(jù)入湖。 數(shù)據(jù)湖存儲(chǔ)層①數(shù)據(jù)多源異構(gòu):可容納海量數(shù)據(jù),且無(wú)存儲(chǔ)格式要求,接收結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化及二進(jìn)制數(shù)據(jù)入湖。數(shù)據(jù)湖存儲(chǔ)層OSS④Schema后置:數(shù)據(jù)湖存儲(chǔ)數(shù)據(jù)不需要滿足特定的范式,支持在讀取數(shù)據(jù)的時(shí)候schema。⑤應(yīng)用廣泛:支持使用者通過(guò)自助訪問(wèn)業(yè)務(wù)數(shù)據(jù),支持?jǐn)?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等未知探索訴求。來(lái)源:艾瑞咨詢研究院自主研究及繪制。數(shù)據(jù)湖vs數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)湖vs數(shù)據(jù)倉(cāng)庫(kù)誕生背景、設(shè)計(jì)思路及使用場(chǎng)景各不相同數(shù)據(jù)倉(cāng)庫(kù)是誕生于數(shù)據(jù)庫(kù)時(shí)代,應(yīng)企業(yè)分析訴求而生的數(shù)據(jù)產(chǎn)品,它的核心思路是把數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行一定格式轉(zhuǎn)換后,定時(shí)地復(fù)制至另一個(gè)庫(kù)里做列式存儲(chǔ),從而滿足企業(yè)查詢和數(shù)據(jù)分析的訴求。隨著互聯(lián)網(wǎng)的發(fā)展,數(shù)據(jù)量暴增,非結(jié)構(gòu)化數(shù)據(jù)越來(lái)越多,企業(yè)業(yè)務(wù)變化越來(lái)越快,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)無(wú)法適應(yīng)大數(shù)據(jù)和現(xiàn)代化企業(yè)對(duì)于實(shí)時(shí)、交互式分析等方面的訴求。隨之,數(shù)據(jù)湖誕生。它選擇了“前松后緊”的設(shè)計(jì)思路,初始化階段放棄嚴(yán)格的模式,后置schema,從而獲取更強(qiáng)的靈活性;同時(shí)通過(guò)統(tǒng)一存儲(chǔ)管理和計(jì)算優(yōu)化來(lái)保證數(shù)據(jù)的一致性和性能。數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)對(duì)比數(shù)據(jù)源數(shù)據(jù)處理適用場(chǎng)景性價(jià)比數(shù)據(jù)倉(cāng)庫(kù)支持處理過(guò)后的結(jié)構(gòu)化/半結(jié)構(gòu)化數(shù)據(jù);來(lái)自業(yè)務(wù)系統(tǒng)寫(xiě)時(shí)建模(Schema-on-write)傳統(tǒng)行業(yè),以及企業(yè)的穩(wěn)態(tài)業(yè)務(wù);數(shù)據(jù)量少,數(shù)據(jù)結(jié)構(gòu)化,穩(wěn)定可預(yù)測(cè),對(duì)執(zhí)行實(shí)時(shí)性要求不高建設(shè)成本低擴(kuò)容成本高高度監(jiān)管與嚴(yán)格事前控制,滿足企業(yè)級(jí)訴求;數(shù)據(jù)與模式穩(wěn)定,引擎優(yōu)化表現(xiàn)較好。BI數(shù)據(jù)源ETL 數(shù)據(jù)倉(cāng)庫(kù) 報(bào)表……數(shù)據(jù)湖支持未經(jīng)處理的結(jié)構(gòu)化/半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù);來(lái)自IoTWeb、APP和業(yè)務(wù)系統(tǒng)等讀時(shí)建模(Schema-on-read)泛互聯(lián)網(wǎng)行業(yè)以及傳統(tǒng)行業(yè)的互聯(lián)網(wǎng)場(chǎng)景;海量數(shù)據(jù),迭代速度快,需要實(shí)時(shí)分析擴(kuò)容成本低建設(shè)成本高可針對(duì)特定業(yè)務(wù)需求進(jìn)行重新配置,靈活性和可擴(kuò)展性較強(qiáng)。數(shù)據(jù)源數(shù)據(jù)湖數(shù)據(jù)處理……BI報(bào)表來(lái)源:艾瑞咨詢研究院自主研究及繪制。?2022.4iResearchInc. 5云原生數(shù)據(jù)湖云原生數(shù)據(jù)湖PAGEPAGE6云原生部署是數(shù)據(jù)湖未來(lái)的必然形態(tài)近年來(lái),在數(shù)字經(jīng)濟(jì)的背景下,互聯(lián)網(wǎng)行業(yè)及傳統(tǒng)企業(yè)加速云化轉(zhuǎn)型,中國(guó)整體云服務(wù)市場(chǎng)的規(guī)模逐年擴(kuò)增,云成為新一代IT基礎(chǔ)設(shè)施已經(jīng)成為不爭(zhēng)的事實(shí)。其中,企業(yè)云化轉(zhuǎn)型的深入以及用云思維的轉(zhuǎn)變,驅(qū)動(dòng)了PaaS市場(chǎng)份額的增長(zhǎng),基于云的能力創(chuàng)新已成為基礎(chǔ)云發(fā)展新的增長(zhǎng)引擎。云特有的“池化、彈性、成本、敏捷”等優(yōu)勢(shì)讓數(shù)據(jù)層與應(yīng)用層的很多設(shè)想得以實(shí)現(xiàn),擁抱云原生成為數(shù)據(jù)湖乃至大數(shù)據(jù)的必然選擇。2015-2024年中國(guó)整體云服務(wù)市場(chǎng)規(guī)模及增速
2015-2024年中國(guó)整體IaaS和PaaS市場(chǎng)規(guī)模及增速57.1%48.1%39.9%57.1%48.1%39.9%43.8%44.5%40.7%40.7%32.1%33.2%47.2%
70.4%
50.7%
49.0%51.5%49.8%49.6%9286
32.6%33.3%31.7%38.1%
27.0%
47.8%39.4%2285
45.0%3314
26.8%4203
31.5%5527659846902256324539465984690225632453945216931026161254 71 105
16391088184
405
613
918
13742015201620172018201920202021e2022e2023e2024e整體云服務(wù)市場(chǎng)規(guī)模(億元) 整體云服務(wù)市場(chǎng)增速(%)
2015201620172018201920202021e2022e2023e2024eIaaS市場(chǎng)規(guī)模(億元) PaaS市場(chǎng)規(guī)模(億元IaaS市場(chǎng)增速(%) PaaS市場(chǎng)增速(%)云原生數(shù)據(jù)湖核心價(jià)值一:數(shù)據(jù)資產(chǎn)云原生數(shù)據(jù)湖核心價(jià)值一:數(shù)據(jù)資產(chǎn)PAGE7PAGE7集中存儲(chǔ)、統(tǒng)一管理,建立高質(zhì)量的數(shù)據(jù)資產(chǎn)隨著數(shù)字轉(zhuǎn)型化進(jìn)入深水區(qū),“數(shù)據(jù)”已經(jīng)成為企業(yè)的核心生產(chǎn)要素,打通各部門(mén)、各應(yīng)用系統(tǒng),建立企業(yè)級(jí)的統(tǒng)一數(shù)據(jù)資產(chǎn)已經(jīng)成為業(yè)內(nèi)的共識(shí)?;谠粕系募写鎯?chǔ)和數(shù)據(jù)湖,企業(yè)可以更絲滑地實(shí)現(xiàn)數(shù)據(jù)多源聚合,對(duì)內(nèi)外部數(shù)據(jù)進(jìn)行全生命周期的管理,從而沉淀為數(shù)據(jù)資產(chǎn),賦能業(yè)務(wù)應(yīng)用,釋放數(shù)據(jù)價(jià)值。同時(shí),基于云原生數(shù)據(jù)湖部署的云原生應(yīng)用天然可以實(shí)現(xiàn)數(shù)據(jù)的無(wú)界流動(dòng),數(shù)用一體為企業(yè)打造了高效的價(jià)值閉環(huán)?;谠圃鷶?shù)據(jù)湖的統(tǒng)一資產(chǎn)建設(shè)ERP CRM……結(jié)構(gòu)化數(shù)據(jù)WebEmail化ERP CRM……結(jié)構(gòu)化數(shù)據(jù)WebEmail化半結(jié)構(gòu)……數(shù)據(jù)非結(jié)構(gòu)Media IoT 化數(shù)…… 據(jù)云原生應(yīng)用…數(shù)據(jù)庫(kù)傳輸、日志、IoT源接入等業(yè)務(wù)賦能價(jià)值閉環(huán)業(yè)務(wù)賦能價(jià)值閉環(huán)數(shù)據(jù)沉淀數(shù)據(jù)資產(chǎn) 集中存儲(chǔ)、統(tǒng)一管理統(tǒng)一調(diào)度、數(shù)據(jù)共享、API接口等數(shù)據(jù)存儲(chǔ)海量數(shù)據(jù)、冷熱分層、多種訪問(wèn)方式等數(shù)據(jù)計(jì)算異構(gòu)數(shù)據(jù)轉(zhuǎn)換、OCR、NLP等數(shù)據(jù)質(zhì)量數(shù)據(jù)轉(zhuǎn)換、逆向解析、目錄管理等數(shù)據(jù)安全安全密鑰、權(quán)限管理、監(jiān)控預(yù)警等……云原生數(shù)據(jù)湖核心價(jià)值二:低成本云原生數(shù)據(jù)湖核心價(jià)值二:低成本PAGE8PAGE8通過(guò)云的方式,更低成本地使用存儲(chǔ)和計(jì)算資源云原生數(shù)據(jù)湖是基于云環(huán)境構(gòu)建的低成本大數(shù)據(jù)解決方案。于存儲(chǔ)上,云原生數(shù)據(jù)湖使用對(duì)象存儲(chǔ),實(shí)現(xiàn)了無(wú)限擴(kuò)容(理論上)和更低的價(jià)格,同時(shí)云上統(tǒng)一存儲(chǔ)也簡(jiǎn)化了之后數(shù)據(jù)調(diào)用的復(fù)雜度;于計(jì)算上,云原生數(shù)據(jù)湖采用計(jì)算存儲(chǔ)分離的架構(gòu),讓計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)可以分別彈性伸縮,避免了存算需求不同造成的浪費(fèi);于用云策略上,云原生數(shù)據(jù)湖通過(guò)Serverless的模式,根據(jù)請(qǐng)求量自動(dòng)進(jìn)行毫秒級(jí)的彈性擴(kuò)容,解決波峰資源短缺、波谷資源浪費(fèi)的問(wèn)題,實(shí)現(xiàn)最小單元的成本最優(yōu)。云原生數(shù)據(jù)湖成本優(yōu)化剖析存儲(chǔ)成本OSS
塊存儲(chǔ) 文件存儲(chǔ) 對(duì)象存儲(chǔ)
不同于直接操作物理磁盤(pán)的塊存儲(chǔ),或基于文件路徑訪問(wèn)的文件存儲(chǔ),對(duì)象存儲(chǔ)通過(guò)唯一標(biāo)識(shí)符(Key)映射尋址,存取都非常靈活和簡(jiǎn)單。這種方法對(duì)在云計(jì)算環(huán)境中自動(dòng)化和簡(jiǎn)化數(shù)據(jù)存儲(chǔ)都大有裨益,體現(xiàn)在用戶側(cè)即表現(xiàn)為理論上無(wú)限的擴(kuò)容可能性和更低廉的存儲(chǔ)成本。計(jì)算成本用云成本Serverless
計(jì)算存儲(chǔ)耦合資源短缺資源浪費(fèi)預(yù)留實(shí)際計(jì)算存儲(chǔ)資源短缺資源浪費(fèi)預(yù)留實(shí)際
計(jì)算存儲(chǔ)分離
隨著移動(dòng)互聯(lián)網(wǎng)、產(chǎn)業(yè)互聯(lián)網(wǎng)、5G的發(fā)展,個(gè)人端和企計(jì)算資源和存儲(chǔ)資源是緊耦合的,只能同步擴(kuò)容,這造成了計(jì)算資源的過(guò)剩。存算分離后,計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)都可以按需彈性擴(kuò)容,大大降低了計(jì)算的成本?,F(xiàn)階段定時(shí)等云資源調(diào)用機(jī)制具有一定的滯后性,為了保證高可用,企業(yè)往往選擇采取冗余的伸縮策略,這造成用云成本的上升。Serverless模式下,資源消耗隨著應(yīng)用程序的需求(請(qǐng)求數(shù)量)變化自動(dòng)擴(kuò)展或縮減,計(jì)費(fèi)精確到毫秒級(jí),大大降低了企業(yè)數(shù)據(jù)湖用云成本高企的問(wèn)題。云原生數(shù)據(jù)湖核心價(jià)值三:高性能云原生數(shù)據(jù)湖核心價(jià)值三:高性能云湖共生,帶來(lái)大數(shù)據(jù)應(yīng)用的高性能體驗(yàn)數(shù)據(jù)湖“統(tǒng)一→簡(jiǎn)單、松耦合→彈性、敏捷→探索”的設(shè)計(jì)思路與云計(jì)算天然契合,當(dāng)數(shù)據(jù)湖以云原生的方式部署時(shí),其強(qiáng)大的性能優(yōu)勢(shì)可以被最大化釋放。一方面,數(shù)據(jù)湖上云后可以享受云本身帶來(lái)的性能提升,如高可用、彈性、敏捷等;另一方面,數(shù)據(jù)湖在云原生的環(huán)境中可以做更多性能優(yōu)化的工作,如豐富的上下文帶來(lái)的分析加速,流批融合帶來(lái)的實(shí)時(shí)數(shù)據(jù)價(jià)值釋放,一站式數(shù)據(jù)管理方案帶來(lái)的安全和質(zhì)量改善等。高可用相較自建IDC,云環(huán)境擁有更多的資源冗余,一節(jié)點(diǎn)發(fā)生故障能無(wú)縫切換到其他節(jié)點(diǎn),從而對(duì)企業(yè)側(cè)體現(xiàn)為高可用,確保了業(yè)務(wù)的連續(xù)性。彈性云計(jì)算具備動(dòng)態(tài)擴(kuò)充性與可負(fù)擔(dān)性,可以解決海量業(yè)務(wù)帶來(lái)的吞吐和IO性能瓶頸,滿足大數(shù)據(jù)分析所需資源的龐大規(guī)模與突發(fā)性質(zhì)的需求。高可用相較自建IDC,云環(huán)境擁有更多的資源冗余,一節(jié)點(diǎn)發(fā)生故障能無(wú)縫切換到其他節(jié)點(diǎn),從而對(duì)企業(yè)側(cè)體現(xiàn)為高可用,確保了業(yè)務(wù)的連續(xù)性。彈性云計(jì)算具備動(dòng)態(tài)擴(kuò)充性與可負(fù)擔(dān)性,可以解決海量業(yè)務(wù)帶來(lái)的吞吐和IO性能瓶頸,滿足大數(shù)據(jù)分析所需資源的龐大規(guī)模與突發(fā)性質(zhì)的需求。敏捷云讓企業(yè)得以從重復(fù)、復(fù)雜的底層IT工作中釋放出來(lái),同時(shí)其模塊化、松耦合的敏捷架構(gòu)有利于數(shù)據(jù)產(chǎn)品的快速迭代、部署、運(yùn)維和創(chuàng)新。01 OnCloud本身帶來(lái)的性能提升加速一方面,云原生數(shù)據(jù)湖提供了比以往更豐富的上下文,有助于加速分析實(shí)驗(yàn);另一方面,它統(tǒng)一了流式處理和批式處理,可以為企業(yè)提供更實(shí)時(shí)的數(shù)據(jù)價(jià)值體驗(yàn)。多范式云原生數(shù)據(jù)湖基于云環(huán)境統(tǒng)一了企業(yè)數(shù)據(jù)資產(chǎn)和多范式計(jì)算引擎,從而可以支持企業(yè)對(duì)任何數(shù)據(jù)類型執(zhí)行任何分析。同時(shí)其可擴(kuò)展的架構(gòu)也為企業(yè)使用AI進(jìn)行探索做好了準(zhǔn)備。安全云原生數(shù)據(jù)湖提供了簡(jiǎn)單、強(qiáng)大的數(shù)據(jù)管理解決方案,以全保真的方式存儲(chǔ)任何類型或數(shù)量的數(shù)據(jù),有助于企業(yè)加強(qiáng)安全和治理。02 InCloud更進(jìn)一步地性能優(yōu)化?2022.4iResearchInc. 9云原生數(shù)據(jù)湖核心價(jià)值四:敏捷創(chuàng)新云原生數(shù)據(jù)湖核心價(jià)值四:敏捷創(chuàng)新PAGEPAGE10重塑IT部門(mén)定位與價(jià)值,賦能業(yè)務(wù)應(yīng)用敏捷創(chuàng)新云服務(wù)重塑了IT產(chǎn)業(yè)的分工和企業(yè)IT部門(mén)工作的內(nèi)容和方式,企業(yè)IT部門(mén)越來(lái)越少地關(guān)注復(fù)雜的底層技術(shù),轉(zhuǎn)而向應(yīng)用創(chuàng)新聚焦,充分釋放其業(yè)務(wù)賦能價(jià)值。通過(guò)統(tǒng)一對(duì)象存儲(chǔ)、多引擎兼容、數(shù)據(jù)智能管理,云原生數(shù)據(jù)湖基于云的環(huán)境進(jìn)一步釋放了企業(yè)IT的生產(chǎn)力。IT部門(mén)無(wú)需再關(guān)注基礎(chǔ)資源和數(shù)據(jù)層的大多問(wèn)題,如存儲(chǔ)擴(kuò)容、計(jì)算優(yōu)化等,可以將更多的精力放在業(yè)務(wù)支持、應(yīng)用創(chuàng)新上,實(shí)現(xiàn)真正的數(shù)據(jù)驅(qū)動(dòng)企業(yè)發(fā)展。企業(yè)IT部門(mén)定位變化 云原生數(shù)據(jù)湖的應(yīng)用創(chuàng)新價(jià)值價(jià)值導(dǎo)向?qū)⒃圃鷶?shù)據(jù)湖作為企業(yè)大數(shù)據(jù)的解決方案,可以更進(jìn)一步地屏蔽底層的復(fù)雜性,聚焦于價(jià)值導(dǎo)向?qū)⒃圃鷶?shù)據(jù)湖作為企業(yè)大數(shù)據(jù)的解決方案,可以更進(jìn)一步地屏蔽底層的復(fù)雜性,聚焦于業(yè)務(wù)服務(wù)。基于彈性的IT基礎(chǔ)資源和柔性的數(shù)據(jù)資產(chǎn),IT可以更敏捷地進(jìn)行應(yīng)用創(chuàng)新。應(yīng)用層應(yīng)用層計(jì)算層在云原生的環(huán)境下,企業(yè)可以在統(tǒng)一的控制臺(tái)上簡(jiǎn)單地(寫(xiě)SQL一種語(yǔ)言即可)進(jìn)行多范式計(jì)算,根據(jù)業(yè)務(wù)需求和數(shù)據(jù)屬性自動(dòng)/半自動(dòng)地選擇適合的計(jì)算引擎,無(wú)需IT部門(mén)再花費(fèi)額外的學(xué)習(xí)成本去進(jìn)行計(jì)算優(yōu)化。計(jì)算層在云原生的環(huán)境下,企業(yè)可以在統(tǒng)一的控制臺(tái)上簡(jiǎn)單地(寫(xiě)SQL一種語(yǔ)言即可)進(jìn)行多范式計(jì)算,根據(jù)業(yè)務(wù)需求和數(shù)據(jù)屬性自動(dòng)/半自動(dòng)地選擇適合的計(jì)算引擎,無(wú)需IT部門(mén)再花費(fèi)額外的學(xué)習(xí)成本去進(jìn)行計(jì)算優(yōu)化。IT時(shí)代職能中心DT時(shí)代創(chuàng)新中心云計(jì)算的發(fā)展加速了IT部門(mén)定位的變化,企業(yè)對(duì)其的訴求更多地由成本轉(zhuǎn)向價(jià)值支持,IT部門(mén)正在由職能中心向創(chuàng)新中心過(guò)渡。IT時(shí)代職能中心DT時(shí)代創(chuàng)新中心云計(jì)算的發(fā)展加速了IT部門(mén)定位的變化,企業(yè)對(duì)其的訴求更多地由成本轉(zhuǎn)向價(jià)值支持,IT部門(mén)正在由職能中心向創(chuàng)新中心過(guò)渡。成本導(dǎo)向存儲(chǔ)層基于云原生對(duì)象存儲(chǔ)的方式,企業(yè)無(wú)需擔(dān)心數(shù)據(jù)增長(zhǎng)帶來(lái)的擴(kuò)容問(wèn)題,無(wú)需關(guān)注數(shù)據(jù)存放的物理位置,只需要將云當(dāng)作是一個(gè)無(wú)限擴(kuò)展、簡(jiǎn)單存取、彈性伸縮的“網(wǎng)盤(pán)”即可。PAGEPAGE11云原生數(shù)據(jù)湖概念界定云原生數(shù)據(jù)湖概念界定1云原生數(shù)據(jù)湖市場(chǎng)現(xiàn)狀2云原生數(shù)據(jù)湖競(jìng)爭(zhēng)分析3云原生數(shù)據(jù)湖行業(yè)應(yīng)用與最佳實(shí)踐云原生數(shù)據(jù)湖市場(chǎng)現(xiàn)狀2云原生數(shù)據(jù)湖競(jìng)爭(zhēng)分析3云原生數(shù)據(jù)湖行業(yè)應(yīng)用與最佳實(shí)踐4云原生數(shù)據(jù)湖選型建議與典型企業(yè)5云原生數(shù)據(jù)湖發(fā)展趨勢(shì)6發(fā)展歷程發(fā)展歷程PAGE12PAGE12產(chǎn)品隨市場(chǎng)需求不斷演進(jìn),國(guó)內(nèi)數(shù)據(jù)湖尚處于發(fā)展初期中國(guó)數(shù)據(jù)湖技術(shù)正在逐年發(fā)展及突破,公有云廠商及其他行業(yè)廠商紛紛在做嘗試。但目前在數(shù)據(jù)感知收集及歸類清洗方面存在壁壘和難度,數(shù)據(jù)湖建模經(jīng)驗(yàn)不足,因此我國(guó)數(shù)據(jù)湖市場(chǎng)整體發(fā)展處于初期階段,未來(lái)發(fā)展空間廣闊。大數(shù)據(jù)技術(shù)1960s~2000s大數(shù)據(jù)技術(shù)1960s~2000s20世紀(jì)60年代,計(jì)算機(jī)開(kāi)始廣泛地應(yīng)用于數(shù)據(jù)管理,能夠統(tǒng)一管理和共享數(shù)據(jù)的數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)誕生。20世紀(jì)90年代,為滿足企業(yè)數(shù)據(jù)分析的訴求,數(shù)據(jù)倉(cāng)庫(kù)誕生。2000s~2010s:互聯(lián)網(wǎng)蓬勃發(fā)展,數(shù)據(jù)量爆發(fā)式增長(zhǎng),數(shù)據(jù)庫(kù)/難以承載海量數(shù)據(jù),大數(shù)據(jù)時(shí)代開(kāi)啟;以Hadoop(開(kāi)源)、Google、MicrosoftCosmos2010s~2020s:??數(shù)據(jù)倉(cāng)庫(kù)不斷演進(jìn),在性能、成本、數(shù)據(jù)管理能力等方面不斷優(yōu)化,GoogleBigQuery、Snowflake等優(yōu)秀產(chǎn)品面市;以開(kāi)源Hadoop體系為代表的開(kāi)放式HDFS存儲(chǔ)、開(kāi)放的文件格式、開(kāi)放的元數(shù)據(jù)服務(wù)以及多種引擎(Presto、Spark、Flink等)協(xié)同工作的模式,形成了數(shù)據(jù)湖的雛形。2020s~:等更加全面的企業(yè)級(jí)生產(chǎn)的要求;云上純托管的存儲(chǔ)系統(tǒng)逐步取代HDFS,引擎豐富度也不斷擴(kuò)展,數(shù)據(jù)湖“云湖共生”階段;湖倉(cāng)一體的解決方案在業(yè)界開(kāi)始應(yīng)用。數(shù)據(jù)庫(kù)時(shí)代大數(shù)據(jù)技術(shù)的「探索期」大數(shù)據(jù)技術(shù)的「發(fā)展期」大數(shù)據(jù)技術(shù)的「普及期」數(shù)據(jù)湖基于數(shù)據(jù)湖戰(zhàn)略,EMC推出三款新的Isilon軟件產(chǎn)品SDEdge、第8代Isilon操作系統(tǒng)和IsilonCloudPools數(shù)據(jù)湖2016年
亞馬遜云科技LakeFormation2018年
亞馬遜云科技宣布Formation全面上市青云QingCloud聯(lián)合HashData發(fā)布基于云模2019年
阿里云推出業(yè)內(nèi)首個(gè)云原生企業(yè)級(jí)數(shù)據(jù)湖解決方案IBM推出面向數(shù)據(jù)湖的新一代存儲(chǔ)解決方案百度云推出百度數(shù)據(jù)湖管理與分析平臺(tái)EasyDAP華為云推出數(shù)據(jù)湖治理中心DGC,將原FusionInsightHD與MRS全面升級(jí)到FusionInsightMRS原生架構(gòu)2020年
阿里云定義了數(shù)據(jù)湖3.0,為用戶提供以O(shè)SS為中心,多種元數(shù)據(jù)統(tǒng)一管理,并結(jié)合云原生進(jìn)一步實(shí)現(xiàn)實(shí)時(shí)化、AI化、生態(tài)化的綜合性解決方案。騰訊云首次對(duì)外展示完整的云端數(shù)據(jù)湖產(chǎn)品圖譜,并推出數(shù)據(jù)湖計(jì)算DLC和數(shù)據(jù)湖構(gòu)建DLF產(chǎn)品2021年來(lái)源:公開(kāi)資料,專家訪談,艾瑞咨詢研究院自主研究及繪制。政策政策PAGE13PAGE13法律法規(guī)不斷落地,推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)走向成熟2015年出臺(tái)的《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》呈現(xiàn)“一體兩翼一尾”的格局,首次將大數(shù)據(jù)發(fā)展提升至國(guó)家戰(zhàn)略層面,奠定了大數(shù)據(jù)未來(lái)發(fā)展的總體基調(diào)。2021年5月印發(fā)的《全國(guó)一體化大數(shù)據(jù)中心協(xié)同創(chuàng)新體系算力樞紐實(shí)施方案》提出加快建設(shè)全國(guó)一體化大數(shù)據(jù)中心算力樞紐體系,同時(shí)加強(qiáng)對(duì)基礎(chǔ)網(wǎng)絡(luò)、數(shù)據(jù)中心、云平臺(tái)、數(shù)據(jù)和應(yīng)用的一體化安全保障,提高大數(shù)據(jù)安全可靠水平。近五年間,國(guó)家出臺(tái)多條產(chǎn)業(yè)政策及法規(guī),不僅從方針上引領(lǐng)大數(shù)據(jù)產(chǎn)業(yè)高效、合規(guī)發(fā)展,同時(shí)也將該產(chǎn)業(yè)布局至政務(wù)、金融、工業(yè)、醫(yī)療、旅游服務(wù)、氣象管理等多個(gè)細(xì)分領(lǐng)域。2015年-2021年中國(guó)大數(shù)據(jù)重點(diǎn)法律法規(guī)和產(chǎn)業(yè)政策脈絡(luò)《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020年)》:5-10年內(nèi)大數(shù)據(jù)發(fā)展
戰(zhàn)略綱要》
《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃年);
《關(guān)于加快推進(jìn)國(guó)有
施方案》據(jù)的“云端”分析處理,至國(guó)家戰(zhàn)略層面
強(qiáng)大數(shù)據(jù)、云計(jì)算、推進(jìn)大數(shù)據(jù)技術(shù)產(chǎn)品創(chuàng)
企業(yè)數(shù)字化轉(zhuǎn)型工作
重點(diǎn)支持對(duì)海量規(guī)模數(shù)據(jù)《生態(tài)環(huán)境大數(shù)據(jù)建設(shè)總體方案》總 ;首次提出發(fā)展基 態(tài)大數(shù)據(jù),建立
寬帶網(wǎng)絡(luò)協(xié)同發(fā)展
新發(fā)展,加強(qiáng)大數(shù)據(jù)在重點(diǎn)行業(yè)領(lǐng)域的深入應(yīng)用,構(gòu)建強(qiáng)有力的大數(shù)據(jù)安全保障體系
的通知》:強(qiáng)化數(shù)據(jù)驅(qū)動(dòng)、集成創(chuàng)新;建設(shè)大數(shù)據(jù)平臺(tái)
《關(guān)于加強(qiáng)互聯(lián)網(wǎng)信的指導(dǎo)意見(jiàn)》;廣大網(wǎng)民積極參與算調(diào) 個(gè)機(jī)制、兩套體系、三個(gè)平臺(tái)
《科學(xué)數(shù)據(jù)管理辦法》
法安全治理工作2015.8 2016.12016.32016.62016.7 2017.1 2017.11 2018.3 2020.92020.10 2021.5 2021.9子賽 關(guān)于印發(fā)推進(jìn)普惠金融
醫(yī)療大數(shù)據(jù)-提出
《關(guān)于加快推進(jìn)交道 發(fā)展規(guī)劃(2016-2020)建設(shè)人體健康信息
通旅游服務(wù)大數(shù)據(jù)的通知:鼓勵(lì)金融機(jī)構(gòu)
平臺(tái),促進(jìn)醫(yī)療大
應(yīng)用試點(diǎn)工作的通氣象數(shù)據(jù)管理辦法;運(yùn)用大數(shù)據(jù)、云計(jì)算等新興信息技術(shù),打造互聯(lián)網(wǎng)金融服務(wù)平臺(tái)。
數(shù)據(jù)開(kāi)放共享
知》深入建設(shè)工業(yè)大數(shù)據(jù)平臺(tái)
《關(guān)于深化“互聯(lián)網(wǎng)+旅游”推動(dòng)旅游業(yè)高質(zhì)量發(fā)展的意見(jiàn)》來(lái)源:中國(guó)政務(wù)網(wǎng)國(guó)務(wù)院政策文件庫(kù),艾瑞咨詢研究院自主研究及繪制。投融資投融資PAGE14PAGE14資本市場(chǎng)活躍,數(shù)據(jù)湖商業(yè)價(jià)值逐步凸顯據(jù)統(tǒng)計(jì),近年來(lái)數(shù)據(jù)服務(wù)行業(yè)投融資事件數(shù)和金額整體呈上升趨勢(shì),并在2019年達(dá)到了巔峰,投資金額超過(guò)了300億元人民幣。2020年,受到疫情等外部因素的影響,投融資事件數(shù)和金額數(shù)均有所下降。但隨著國(guó)內(nèi)疫情的穩(wěn)定和經(jīng)濟(jì)的回暖,2021年,數(shù)據(jù)服務(wù)行業(yè)的投融資再次展現(xiàn)出上升的態(tài)勢(shì)。放眼全球云原生數(shù)據(jù)湖市場(chǎng),初創(chuàng)數(shù)據(jù)湖廠商Databricks、Upsolver等都獲得了上億美元的融資。該領(lǐng)域的資本市場(chǎng)活躍,數(shù)據(jù)湖的商業(yè)價(jià)值逐漸凸顯。2011-2021年中國(guó)數(shù)據(jù)服務(wù)行業(yè)投資情況及294.1135.157.1294.1135.157.166.6106.4123.25.0 4.26.418.421222517120914813016080191638
348.220112012201320142015201620172018201920202021投資事件數(shù)(件)
20112012201320142015201620172018201920202021投資金額(億元)Databricks截至2021.9,完成七輪融資共計(jì)億美元Databricks截至2021.9,完成七輪融資共計(jì)億美元F輪E輪H輪G輪D輪C輪B輪輪Upsolver截至2021.4成四輪(兩輪次種子輪)融資共計(jì)4.2千萬(wàn)美元A輪B輪種子輪來(lái)源:IT桔子,Crunchbase,艾瑞咨詢研究院自主研究及繪制。中國(guó)云原生數(shù)據(jù)湖市場(chǎng)規(guī)模中國(guó)云原生數(shù)據(jù)湖市場(chǎng)規(guī)模PAGE15PAGE152020年規(guī)模達(dá)124億,預(yù)計(jì)未來(lái)三年維持39.7%的快速增長(zhǎng)據(jù)艾瑞統(tǒng)計(jì),中國(guó)云原生數(shù)據(jù)湖2020年整體規(guī)模達(dá)124.8億元。目前行業(yè)正處于初期發(fā)展階段,由于國(guó)家政策利好、互聯(lián)網(wǎng)技術(shù)高速發(fā)展的驅(qū)動(dòng)、企業(yè)數(shù)字化轉(zhuǎn)型加速等因素,預(yù)計(jì)中國(guó)云原生數(shù)據(jù)湖市場(chǎng)未來(lái)三年會(huì)以39.7%的復(fù)合增長(zhǎng)率快速發(fā)展。2018-2023年中國(guó)云原生數(shù)據(jù)湖市場(chǎng)規(guī)模及增速CAGR=73.1%
CAGR=60%
CAGR=39.7%76.8% 69.4%
61.9% 58.2%
40.8% 40.0% 43.7% 40.7% 38.7%350196761241967612415264425217912563892018 2019 2020 2021e 2022e 2023e云原生數(shù)據(jù)湖市場(chǎng)規(guī)模——不含生態(tài)(億元)增長(zhǎng)率(%)
2018 2019 2020 2021e 2022e 2023e云原生數(shù)據(jù)湖市場(chǎng)規(guī)?!鷳B(tài)(億元)增長(zhǎng)率(%)注釋:云原生數(shù)據(jù)湖市場(chǎng)規(guī)?!缓鷳B(tài)統(tǒng)計(jì)口徑為2020自然年全年各廠商在中國(guó)內(nèi)地(不含港澳臺(tái))銷售云原生數(shù)據(jù)湖解決方案的營(yíng)業(yè)收入,合同簽署地點(diǎn)和交付地點(diǎn)都位于中國(guó)內(nèi)地區(qū)域。不包含云原生數(shù)據(jù)湖組件(包括存儲(chǔ)、計(jì)算、管理及調(diào)度層)發(fā)生于其他解決方案(例:數(shù)據(jù)倉(cāng)庫(kù))的營(yíng)收,不包含云原生數(shù)據(jù)湖生態(tài)支持廠商部分。注釋:云原生數(shù)據(jù)湖市場(chǎng)規(guī)?!鷳B(tài)統(tǒng)計(jì)口徑為注釋1中包含云原生數(shù)據(jù)湖組件(包括存儲(chǔ)、計(jì)算、管理及調(diào)度層)發(fā)生于其他解決方案(例:數(shù)據(jù)倉(cāng)庫(kù))的營(yíng)收,且包含云原生數(shù)據(jù)湖生態(tài)支持廠商部分。來(lái)源:艾瑞長(zhǎng)期基礎(chǔ)云服務(wù)數(shù)據(jù)監(jiān)測(cè),結(jié)合公開(kāi)資料、專家訪談,根據(jù)數(shù)據(jù)測(cè)算模型,自主研究及繪制。增長(zhǎng)機(jī)遇增長(zhǎng)機(jī)遇PAGE16PAGE16數(shù)據(jù)變革與企業(yè)數(shù)字化轉(zhuǎn)型加速云原生數(shù)據(jù)湖的應(yīng)用IoT、移動(dòng)互聯(lián)網(wǎng)和5G的發(fā)展,帶動(dòng)數(shù)據(jù)量爆發(fā),如何從數(shù)據(jù)海嘯中挖掘數(shù)據(jù)價(jià)值成了企業(yè)亟待解決的難題。在此背景下,企業(yè)亟需新的大數(shù)據(jù)架構(gòu)來(lái)處理數(shù)據(jù),這為數(shù)據(jù)湖市場(chǎng)發(fā)展帶來(lái)契機(jī)。互聯(lián)網(wǎng)的發(fā)展加速了時(shí)代數(shù)字化發(fā)展,同時(shí)也深刻地改變了企業(yè)的業(yè)務(wù)模式。以“敏捷、創(chuàng)新、數(shù)據(jù)驅(qū)動(dòng)”為導(dǎo)向的數(shù)字化轉(zhuǎn)型需要新的生產(chǎn)力工具來(lái)打破數(shù)據(jù)孤島、沉淀數(shù)據(jù)資產(chǎn)、完成數(shù)據(jù)價(jià)值反哺企業(yè)。云原生數(shù)據(jù)湖的各部分組件為數(shù)字化轉(zhuǎn)型的每一階段提供技術(shù)支持,完成“數(shù)”與云原生數(shù)據(jù)湖接入層存儲(chǔ)層計(jì)算層應(yīng)用層云原生數(shù)據(jù)湖接入層存儲(chǔ)層計(jì)算層應(yīng)用層遷移上云靈活 支持多源異構(gòu)數(shù) 多范式計(jì)算, 統(tǒng)一調(diào)用元數(shù)據(jù)平滑,使企業(yè) 據(jù)的存儲(chǔ),并提 支持實(shí)時(shí)分析 通過(guò)BI、數(shù)據(jù)大輕松實(shí)現(xiàn)數(shù)據(jù) 供數(shù)據(jù)“冷熱分 及交互式分析, 屏、AI、機(jī)器學(xué)多源聚合。 離”存儲(chǔ),沉淀 更有效形成及 習(xí)等多種落地場(chǎng)數(shù)據(jù)以形成資產(chǎn)。管理數(shù)據(jù)資產(chǎn)。 景為決策賦能。數(shù)字化數(shù)據(jù)采集數(shù)據(jù)傳輸數(shù)據(jù)存儲(chǔ)數(shù)據(jù)計(jì)算數(shù)據(jù)應(yīng)用數(shù)字化轉(zhuǎn)型信息鏈接打通軟硬件之間、企業(yè)各部門(mén)間的數(shù)據(jù)壁壘。資產(chǎn)形成信息反饋將各種來(lái)源、不 將原始數(shù)據(jù)資產(chǎn)根決策賦能將可讀數(shù)據(jù)進(jìn)一步同格式的數(shù)據(jù)進(jìn) 據(jù)使用者需求進(jìn)行計(jì)算分析,提取數(shù)行統(tǒng)一存儲(chǔ),初 整合、調(diào)度、模擬,據(jù)價(jià)值,展示規(guī)律,步形成數(shù)據(jù)資產(chǎn)。輸出可讀的形式。 應(yīng)用于商業(yè)決策。來(lái)源:艾瑞咨詢研究院自主研究及繪制。
云原生數(shù)據(jù)湖為企業(yè)數(shù)字化轉(zhuǎn)型各環(huán)節(jié)提供技術(shù)支持?jǐn)?shù)智結(jié)合,實(shí)現(xiàn)閉環(huán)數(shù)智結(jié)合,實(shí)現(xiàn)閉環(huán)半結(jié)構(gòu)化數(shù)據(jù)暴增,為企業(yè)更好地利用數(shù)據(jù)價(jià)值、賦能業(yè)務(wù)提出了更高要求。傳統(tǒng)大數(shù)據(jù)架構(gòu)已無(wú)法滿足海量多源異構(gòu)數(shù)據(jù)處理需求,取而代之的將是更能順應(yīng)互聯(lián)網(wǎng)時(shí)代的云原生數(shù)據(jù)湖解決方案。數(shù)據(jù)業(yè)務(wù)痛點(diǎn)改進(jìn)痛點(diǎn)改進(jìn)PAGE17PAGE17在數(shù)據(jù)治理、全鏈路、安全等方面仍待持續(xù)改進(jìn)從應(yīng)用現(xiàn)狀來(lái)看,數(shù)據(jù)湖在國(guó)內(nèi)的落地還存在許多痛點(diǎn)。產(chǎn)品層面,數(shù)據(jù)湖的數(shù)據(jù)治理能力和全鏈路能力仍需進(jìn)一步的加強(qiáng),客戶方更亟需智能化、一站式的解決方案;應(yīng)用層面,云原生數(shù)據(jù)湖的行業(yè)認(rèn)知和人才培養(yǎng)較為單薄,仍待市場(chǎng)的進(jìn)一步培育。另外,近期安全隱私法律法規(guī)不斷落地,企業(yè)主對(duì)云原生數(shù)據(jù)湖的安全監(jiān)管也提出了更高的要求。云原生數(shù)據(jù)湖應(yīng)用的集中痛點(diǎn)人才缺失目前大數(shù)據(jù)、AI技術(shù)棧創(chuàng)數(shù)據(jù)治理數(shù)據(jù)治理要求在目錄中包含數(shù)據(jù)的分類、規(guī)則,若企業(yè)對(duì)于數(shù)據(jù)湖的掌控能力不足,會(huì)導(dǎo)致數(shù)據(jù)湖目錄及整體構(gòu)架設(shè)計(jì)不良、湖內(nèi)數(shù)據(jù)未得到充分歸檔或維護(hù),容易形成數(shù)據(jù)沼澤。因缺少上下文元數(shù)據(jù)關(guān)聯(lián),數(shù)據(jù)沼澤就無(wú)法進(jìn)行數(shù)據(jù)檢索,致使用戶無(wú)法有效分析和利用數(shù)據(jù)。
全鏈路能力現(xiàn)階段國(guó)內(nèi)可以提供全鏈路云原生數(shù)據(jù)湖服務(wù)的供應(yīng)商較少,大多廠商僅提供數(shù)據(jù)湖組件的支持,因此下游需求企業(yè)只能采購(gòu)多家供應(yīng)商來(lái)滿足自身從數(shù)據(jù)采集治理到分析可視化的需求。尤其是技術(shù)水平較弱的企業(yè)更為希望廠商可以提供全面的服務(wù)。
新日新月異,企業(yè)缺乏專管理者對(duì)數(shù)據(jù)治理一知半解,若在沒(méi)有深入梳理企業(yè)業(yè)務(wù)現(xiàn)狀及需求的情況下盲目搭建數(shù)據(jù)湖、追求“大而全”的概念,可能
行業(yè)認(rèn)知盡管數(shù)據(jù)的價(jià)值屬性已經(jīng)獲得業(yè)界的廣泛共識(shí),但是選擇觀望的企業(yè)依舊占據(jù)大多數(shù),數(shù)據(jù)湖在認(rèn)知和推廣上仍然面臨著多方面的挑戰(zhàn)。
安全監(jiān)管“數(shù)據(jù)”已經(jīng)成為市場(chǎng)和企業(yè)的核心生產(chǎn)要素。數(shù)據(jù)湖的最大風(fēng)險(xiǎn)之一就是安全性和訪問(wèn)控制。大量數(shù)據(jù)可以在沒(méi)有任何監(jiān)督的情況下流入湖泊,一旦某些數(shù)據(jù)包含其他數(shù)據(jù)所沒(méi)有的隱私和法規(guī)要求,將會(huì)有一定幾率發(fā)生數(shù)據(jù)泄露或者遺失,后果不可估量。來(lái)源:公開(kāi)資料,專家訪談,艾瑞咨詢研究院自主研究及繪制。PAGEPAGE18云原生數(shù)據(jù)湖概念界定云原生數(shù)據(jù)湖概念界定1云原生數(shù)據(jù)湖市場(chǎng)現(xiàn)狀2云原生數(shù)據(jù)湖競(jìng)爭(zhēng)分析3云原生數(shù)據(jù)湖行業(yè)應(yīng)用與最佳實(shí)踐云原生數(shù)據(jù)湖市場(chǎng)現(xiàn)狀2云原生數(shù)據(jù)湖競(jìng)爭(zhēng)分析3云原生數(shù)據(jù)湖行業(yè)應(yīng)用與最佳實(shí)踐4云原生數(shù)據(jù)湖選型建議與典型企業(yè)5云原生數(shù)據(jù)湖發(fā)展趨勢(shì)6產(chǎn)業(yè)圖譜產(chǎn)業(yè)圖譜PAGE19PAGE19中國(guó)云原生數(shù)據(jù)湖產(chǎn)業(yè)圖譜其他廠商大數(shù)據(jù)廠商其他廠商大數(shù)據(jù)廠商云廠商數(shù)據(jù)湖綜合解決方案廠商存儲(chǔ)(包括部分開(kāi)源項(xiàng)目)計(jì)算管理應(yīng)用數(shù)據(jù)湖生態(tài)廠商及開(kāi)源項(xiàng)目(部分)注釋:此頁(yè)主要表現(xiàn)云原生數(shù)據(jù)湖及其生態(tài)的布局情況,僅展示部分典型企業(yè),圖譜中所展示的公司logo順序及大小并無(wú)實(shí)際意義。來(lái)源:艾瑞咨詢研究院自主研究及繪制。競(jìng)爭(zhēng)格局競(jìng)爭(zhēng)格局PAGE20PAGE20先發(fā)優(yōu)勢(shì),云廠商市占率達(dá)82.4%整體來(lái)看,中國(guó)云原生數(shù)據(jù)湖還處于發(fā)展的早期,能夠提供整體解決方案的獨(dú)立廠商還較少,市場(chǎng)較為集中,競(jìng)爭(zhēng)主要圍繞頭部云廠商展開(kāi)。以營(yíng)收為核算口徑,2020年云廠商在中國(guó)云原生數(shù)據(jù)湖市場(chǎng)(不包含生態(tài)支持部分)的份額達(dá)到了82.4%。一方面,于先發(fā)優(yōu)勢(shì)上,云計(jì)算具有彈性算力支持、數(shù)據(jù)聚合的特性,與數(shù)據(jù)湖思路天然契合;另一方面,于布局實(shí)踐上,“春江水暖鴨先知”,出于服務(wù)自身或互聯(lián)網(wǎng)客戶的動(dòng)因,云廠商率先基于云原生進(jìn)行了能力的整合,在對(duì)象存儲(chǔ)、多范式計(jì)算、大數(shù)據(jù)管理等云原生數(shù)據(jù)湖核心技術(shù)上都更為成熟。2020年中國(guó)云原生數(shù)據(jù)湖市場(chǎng)(不含生態(tài)部分)競(jìng)爭(zhēng)格局82.4%82.4%云廠商17.6%17.6%獨(dú)立廠商多云、混合云管理能力獨(dú)立廠商具有第三方中立性,可以支持多云部署管理,解決企業(yè)供應(yīng)商綁定的后顧之憂。輕量與專注多云、混合云管理能力獨(dú)立廠商具有第三方中立性,可以支持多云部署管理,解決企業(yè)供應(yīng)商綁定的后顧之憂。輕量與專注與云廠商從云出發(fā)到數(shù)據(jù)服務(wù)的視角不同,獨(dú)立廠商大多從數(shù)據(jù)服務(wù)出發(fā),業(yè)務(wù)更加輕量與專注。由于數(shù)據(jù)湖較其他大數(shù)據(jù)產(chǎn)品更強(qiáng)調(diào)“海量異構(gòu)數(shù)據(jù)統(tǒng)一存儲(chǔ)、多源數(shù)據(jù)統(tǒng)一管理、多計(jì)算引擎統(tǒng)一調(diào)用”的能力,故而對(duì)于第三方獨(dú)立廠商而言,解決“海量存儲(chǔ)、計(jì)算優(yōu)化、生態(tài)建設(shè)”的成本都會(huì)更高,市場(chǎng)進(jìn)入的難度也更大?;A(chǔ)資源支持云基礎(chǔ)資源池化、存算分離的特性,可以最大程度上彈性、低成本地支持?jǐn)?shù)據(jù)湖的各種工作。數(shù)據(jù)聚合優(yōu)勢(shì)基于云的形式,企業(yè)可以更絲滑地實(shí)現(xiàn)各系統(tǒng)相通,解決數(shù)據(jù)孤島問(wèn)題。能力統(tǒng)一調(diào)度在云原生的環(huán)境下,企業(yè)可以以統(tǒng)一視角,更優(yōu)雅地調(diào)用多種計(jì)算引擎。國(guó)內(nèi)市場(chǎng)環(huán)境復(fù)雜多變,在行業(yè)應(yīng)用、客戶服務(wù)等領(lǐng)域,云廠商還需要更多的生態(tài)廠商的補(bǔ)足。注釋:此市占率統(tǒng)計(jì)口徑為2020自然年全年各廠商在中國(guó)內(nèi)地(不含港澳臺(tái))銷售云原生數(shù)據(jù)湖解決方案的營(yíng)業(yè)收入,合同簽署地點(diǎn)和交付地點(diǎn)都位于中國(guó)內(nèi)地區(qū)域。注釋:此市占率統(tǒng)計(jì)口徑不包含云原生數(shù)據(jù)湖組件發(fā)生于其他解決方案(例:數(shù)據(jù)倉(cāng)庫(kù))的營(yíng)收,不包含云原生數(shù)據(jù)湖生態(tài)支持廠商部分。來(lái)源:艾瑞長(zhǎng)期基礎(chǔ)云服務(wù)數(shù)據(jù)監(jiān)測(cè),結(jié)合公開(kāi)資料、專家訪談,根據(jù)數(shù)據(jù)測(cè)算模型,自主研究及繪制。競(jìng)爭(zhēng)要素剖析競(jìng)爭(zhēng)要素剖析PAGE21PAGE21技術(shù)+解決方案+應(yīng)用構(gòu)成云原生數(shù)據(jù)湖的核心競(jìng)爭(zhēng)力云原生數(shù)據(jù)湖是一套完整的云上大數(shù)據(jù)解決方案,可以服務(wù)企業(yè)的多種數(shù)據(jù)訴求,其競(jìng)爭(zhēng)要素可以歸類為技術(shù)、解決方案、應(yīng)用三層。在技術(shù)層,云原生數(shù)據(jù)湖需要具備穩(wěn)定、高性價(jià)比的存儲(chǔ)服務(wù)、多引擎兼容的計(jì)算優(yōu)化服務(wù)以及全生命周期的智能化數(shù)據(jù)管理服務(wù);在解決方案層,廠商需要貼近業(yè)務(wù),面向特定場(chǎng)景和特定行業(yè)提供豐富、可落地的架構(gòu)方案;在應(yīng)用層,廠商需要通過(guò)生態(tài)或自建等方式提供更多的應(yīng)用服務(wù),不斷擴(kuò)大自己的服務(wù)半徑,向終端客戶展示更全面的能力。云原生數(shù)據(jù)湖競(jìng)爭(zhēng)分析框架 管理 技術(shù)解決方案應(yīng)用技術(shù)解決方案應(yīng)用 存儲(chǔ) 行業(yè)解決方案行業(yè)解決方案
透析數(shù)據(jù)湖產(chǎn)品,其核心技術(shù)主要包括存儲(chǔ)、計(jì)算和管理三個(gè)維度:管理指對(duì)湖內(nèi)數(shù)據(jù)的全生命周期管理,具體包括一鍵入湖、元數(shù)據(jù)管理、數(shù)據(jù)血緣、權(quán)限分級(jí)、質(zhì)量控制等;計(jì)算指對(duì)多范式計(jì)算引擎的統(tǒng)一管理、智能調(diào)用、性能優(yōu)化、智能化、開(kāi)源兼容、成本優(yōu)化等;存儲(chǔ)指以O(shè)SS為中心的,穩(wěn)定、安全、彈性、高性價(jià)比的存儲(chǔ)服務(wù)。場(chǎng)景解決方案除了存儲(chǔ)、計(jì)算、管理等核心技術(shù)外,作為面向市場(chǎng)的解決方案,數(shù)據(jù)湖還具有產(chǎn)品屬性,需要通過(guò)一定的架構(gòu)將各種組件組織起來(lái),從而為用戶提供可用、易用的平臺(tái)。具體維度包括面向特定場(chǎng)景(推薦、查詢、實(shí)時(shí)分析等)和特定行業(yè)(游戲、金融等)的解決方案。場(chǎng)景解決方案自身應(yīng)用支持生態(tài)體系建設(shè)從終端客戶視角來(lái)看,數(shù)據(jù)湖是服務(wù)業(yè)務(wù)的綜合大數(shù)據(jù)解決方案。故而落到實(shí)際實(shí)踐中,還需要豐富多樣的應(yīng)用支持到業(yè)務(wù)側(cè)。供應(yīng)商應(yīng)用層的競(jìng)爭(zhēng)力主要體現(xiàn)在自身應(yīng)用的豐富度以及生態(tài)體系建設(shè)的完整自身應(yīng)用支持生態(tài)體系建設(shè)競(jìng)爭(zhēng)要素一:技術(shù)競(jìng)爭(zhēng)要素一:技術(shù)PAGE22PAGE22統(tǒng)一可靠存儲(chǔ)+多元彈性計(jì)算+一站式智能管理剖析云原生數(shù)據(jù)湖的核心技術(shù),主要從存儲(chǔ)、計(jì)算和管理三個(gè)維度去評(píng)估市面上的廠商。除了大數(shù)據(jù)產(chǎn)品通用的性能、可用性、安全及成本外,云原生數(shù)據(jù)湖還需要關(guān)注一些特定的競(jìng)爭(zhēng)要素,如:存儲(chǔ)層需要做前置的擴(kuò)展性、性能和成本優(yōu)化,以屏蔽硬件復(fù)雜性,支持多范式計(jì)算和大數(shù)據(jù)環(huán)境;計(jì)算層需要做多計(jì)算引擎優(yōu)化和智能駕駛艙來(lái)簡(jiǎn)化企業(yè)使用流程;管理層需要支持多源湖外數(shù)據(jù)兼容和湖內(nèi)數(shù)據(jù)全生命周期的一站式管理。云原生數(shù)據(jù)湖核心技術(shù)管理兼容:提供足夠強(qiáng)大、豐富、高效(no-code)的連接器和轉(zhuǎn)換工具,支持更多數(shù)據(jù)源的接入,支持更多種類的數(shù)據(jù)轉(zhuǎn)換,滿足各種場(chǎng)景訴求。管理一站式:具備入湖、元數(shù)據(jù)、權(quán)限、血緣、質(zhì)量、探索等數(shù)據(jù)湖所需的完備功能,提供一站式服務(wù)。兼容|一站式|安全計(jì)算計(jì)算多元融合|簡(jiǎn)單智能|成本優(yōu)化存儲(chǔ)存儲(chǔ)穩(wěn)定|擴(kuò)展|簡(jiǎn)單|高效|性價(jià)比來(lái)源:艾瑞咨詢研究院自主研究及繪制。
安全:支持?jǐn)?shù)據(jù)任務(wù)看板、作業(yè)進(jìn)度統(tǒng)計(jì)、日志審計(jì)、資源消耗統(tǒng)計(jì)、數(shù)據(jù)全鏈路展示、數(shù)字字典回溯追蹤等功能,確保數(shù)據(jù)全生命周期的安全。多元融合:可以兼容多種開(kāi)源/商業(yè)計(jì)算引擎,滿足企業(yè)數(shù)據(jù)處理的多種訴求,且進(jìn)行了優(yōu)化工作,使得多范式計(jì)算對(duì)客戶側(cè)表現(xiàn)為統(tǒng)一和簡(jiǎn)單。簡(jiǎn)單智能:通過(guò)AI和Serverless,實(shí)現(xiàn)自動(dòng)預(yù)配和管理計(jì)算資源,智能彈性伸縮工作負(fù)載以最大化資源利用率,簡(jiǎn)化運(yùn)營(yíng)運(yùn)維工作,讓團(tuán)隊(duì)可以專注于編程,不必管理服務(wù)器集群。成本優(yōu)化:資源自動(dòng)伸縮疊加費(fèi)用優(yōu)化的批流引擎調(diào)用處理方案,讓數(shù)據(jù)湖可以更為靈活地處理請(qǐng)求,在保證結(jié)果滿意的前提下實(shí)現(xiàn)成本最優(yōu)。穩(wěn)定:具備成熟的物理冗余、傳輸校驗(yàn)、角色權(quán)限、安全加密方案,確保存儲(chǔ)的最終穩(wěn)定性。擴(kuò)展:數(shù)據(jù)湖承載的數(shù)據(jù)量每天都在持續(xù)增長(zhǎng),需要可以按容量靈活擴(kuò)展的存儲(chǔ)系統(tǒng)進(jìn)行支持。簡(jiǎn)單:面對(duì)應(yīng)用對(duì)持久性、可用性和延遲的多樣化要求,以及物理硬件復(fù)雜性,需要從存儲(chǔ)層就著手進(jìn)行優(yōu)化,減少處理硬件資源復(fù)雜性的相關(guān)難題,使各應(yīng)用程序都可以輕松獲取和使用所需存儲(chǔ)。高效:面對(duì)海量數(shù)據(jù),需要智能的冷熱分層策略實(shí)現(xiàn)資源的均衡配置,提高服務(wù)效率、降低延遲。性價(jià)比:海量數(shù)據(jù)帶來(lái)對(duì)存儲(chǔ)資源的大量需求,需要配置以相應(yīng)的成本優(yōu)化方案。競(jìng)爭(zhēng)要素二:解決方案競(jìng)爭(zhēng)要素二:解決方案PAGE23PAGE23多場(chǎng)景挖掘+行業(yè)貼身服務(wù)從市場(chǎng)現(xiàn)狀來(lái)看,云原生數(shù)據(jù)湖并不是一個(gè)標(biāo)準(zhǔn)化的產(chǎn)品,而是一套松耦合、多模塊、服務(wù)化的解決方案,在具體應(yīng)用中還需要根據(jù)企業(yè)具體需求,進(jìn)行組件調(diào)整和架構(gòu)設(shè)計(jì)。因而,客戶在選型采購(gòu)時(shí),除了關(guān)注廠商的技術(shù)實(shí)力,還會(huì)關(guān)注其解決方案的成熟度。具體評(píng)估維度包括2個(gè)方面:①?gòu)S商對(duì)數(shù)據(jù)湖典型適用場(chǎng)景的提取能力和方法論總結(jié),這可以幫助項(xiàng)目更快速地實(shí)施;②廠商對(duì)具體行業(yè)業(yè)務(wù)的理解以及相應(yīng)的實(shí)施思路,這可以幫助企業(yè)切實(shí)解決其痛點(diǎn)。云原生數(shù)據(jù)湖典型解決方案場(chǎng)景維度 行業(yè)維度海量數(shù)據(jù)交互式查詢 社交在一些業(yè)務(wù)環(huán)節(jié),如廣告投放、用戶運(yùn)營(yíng)、周報(bào)/月報(bào)等,需要對(duì)來(lái)自各個(gè)渠道的實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù)進(jìn)行交互式查詢分析。云原生數(shù)據(jù)湖架構(gòu)下,企業(yè)能夠調(diào)用分布式的查詢引擎,更加靈活、快速、準(zhǔn)確的進(jìn)行查詢分析,支持業(yè)務(wù)決策。企業(yè)級(jí)大數(shù)據(jù)治理 游戲隨著互聯(lián)網(wǎng)的發(fā)展,企業(yè)內(nèi)部積累了大量的數(shù)據(jù),數(shù)據(jù)存儲(chǔ)的成本愈發(fā)高昂,但數(shù)據(jù)價(jià)值卻難以被全部釋放。數(shù)據(jù)湖冷熱分層的存儲(chǔ)方案可以幫助企業(yè)將數(shù)據(jù)低成本的“存下來(lái)”,統(tǒng)一管理的架構(gòu)讓數(shù)據(jù)可以隨時(shí)“用的到”,多種計(jì)算引擎兼容讓數(shù)據(jù)可以“用的好”。機(jī)器學(xué)習(xí)與AI探索 汽車在風(fēng)控、推薦、預(yù)測(cè)等場(chǎng)景,往往會(huì)需要機(jī)器學(xué)習(xí)加以支持。然而機(jī)器學(xué)習(xí)與AI探索會(huì)消耗GPU等大量的算力資源。云原生數(shù)據(jù)湖Serverless按需付費(fèi)、自動(dòng)擴(kuò)容的方案降低了企業(yè)進(jìn)行機(jī)器學(xué)習(xí)的TCO;同時(shí)schema后置的架構(gòu)也讓未知探索變得更加靈活。
基于移動(dòng)互聯(lián)網(wǎng)的社交平臺(tái)近年來(lái)快速發(fā)展,短視頻、直播、圖片、資訊等構(gòu)成了其服務(wù)的內(nèi)容,大量非結(jié)構(gòu)化數(shù)據(jù)的審核處理、實(shí)時(shí)分析、精準(zhǔn)推薦為其帶來(lái)挑戰(zhàn)與機(jī)遇。云原生數(shù)據(jù)湖冷熱分層存儲(chǔ)、上下文關(guān)聯(lián)分析、實(shí)時(shí)推薦的功能大幅提升了其內(nèi)容創(chuàng)新和用戶運(yùn)營(yíng)的效果,并降低了成本。5G、云、社會(huì)娛樂(lè)方式、出海等因素共同驅(qū)動(dòng)了游戲產(chǎn)業(yè)的快速發(fā)展。游戲大數(shù)據(jù)需要更智能、靈活、低成本的數(shù)據(jù)湖解決方案來(lái)進(jìn)行實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)、用戶畫(huà)像和運(yùn)營(yíng)分析,從而降低獲客成本、改善游戲體驗(yàn)、留存現(xiàn)有玩家、提升付費(fèi)轉(zhuǎn)換率。汽車正在成為未來(lái)生活的第三空間,車聯(lián)網(wǎng)產(chǎn)業(yè)進(jìn)入快車道,新型應(yīng)用蓬勃發(fā)展,產(chǎn)業(yè)規(guī)模不斷擴(kuò)大。云原生數(shù)據(jù)湖可以實(shí)時(shí)地接收和存儲(chǔ)車聯(lián)網(wǎng)PB~EB級(jí)的數(shù)據(jù),以低成本的方式進(jìn)行資源調(diào)度,支持自動(dòng)駕駛、智能交通等業(yè)務(wù)需求。競(jìng)爭(zhēng)要素三:應(yīng)用競(jìng)爭(zhēng)要素三:應(yīng)用PAGE24PAGE24自研深耕+生態(tài)補(bǔ)充就當(dāng)今市場(chǎng)環(huán)境來(lái)看,大多廠商和企業(yè)都把數(shù)據(jù)湖定位為數(shù)據(jù)基座,但就實(shí)際使用來(lái)說(shuō),基座還需要配合具體的應(yīng)用,才能真正地賦能業(yè)務(wù)。出于發(fā)展初期或產(chǎn)業(yè)分工的原因,現(xiàn)在云原生數(shù)據(jù)湖綜合解決方案廠商還不具備提供完備應(yīng)用服務(wù)的能力。且由于市場(chǎng)環(huán)境復(fù)雜,企業(yè)需求多變,在未來(lái)一段時(shí)間內(nèi),也很難有“一應(yīng)俱全”的廠商出現(xiàn)。故而,除了關(guān)注客戶需求,不斷自研深耕外,廠商還需要通過(guò)生態(tài)建設(shè),補(bǔ)足自己的服務(wù)半徑,增強(qiáng)企業(yè)服務(wù)的競(jìng)爭(zhēng)力。C客戶視角下廠商的能力對(duì)于終端客戶來(lái)說(shuō),其關(guān)注的重點(diǎn)往往在于供應(yīng)商最后提供的應(yīng)用服務(wù),而非其服務(wù)內(nèi)容背后的關(guān)系分配。C客戶視角下廠商的能力對(duì)于終端客戶來(lái)說(shuō),其關(guān)注的重點(diǎn)往往在于供應(yīng)商最后提供的應(yīng)用服務(wù),而非其服務(wù)內(nèi)容背后的關(guān)系分配。無(wú)論廠商是通過(guò)傳統(tǒng)招兵買馬的方式,還是借助開(kāi)源社區(qū)力量,或者發(fā)展生態(tài)合作體系,在客戶視角下,它們都共同包含在廠商的服務(wù)能力半徑內(nèi)。AAB客戶視角下廠商的能力
Max服務(wù)半徑
A自身能力關(guān)注客戶訴求,持續(xù)研發(fā)迭代:A自身能力關(guān)注客戶訴求,持續(xù)研發(fā)迭代:無(wú)論是對(duì)廠商還是對(duì)企業(yè)來(lái)說(shuō),云原生數(shù)據(jù)湖的應(yīng)用都并非是一蹴而就的事情。中國(guó)的數(shù)據(jù)湖產(chǎn)業(yè)還處于發(fā)展的前期,某種程度上,廠商在與企業(yè)共同成長(zhǎng)。未來(lái),廠商還需要更加關(guān)注客戶訴求,不斷打磨基礎(chǔ)平臺(tái),豐富應(yīng)用服務(wù)。B生態(tài)能力明晰邊界定位,實(shí)現(xiàn)生態(tài)共贏:B生態(tài)能力明晰邊界定位,實(shí)現(xiàn)生態(tài)共贏:對(duì)于云原生數(shù)據(jù)湖來(lái)說(shuō),作為企業(yè)級(jí)的大數(shù)據(jù)解決方案,具有價(jià)值鏈長(zhǎng)、工程復(fù)雜、周期長(zhǎng)及金額高的特點(diǎn),單獨(dú)廠商能力往往難以支持全部工作。且在互聯(lián)網(wǎng)背景下,外部市場(chǎng)環(huán)境正在變得越來(lái)越復(fù)雜。現(xiàn)階段來(lái)看,明晰自己的邊界和定位,充分發(fā)揮生態(tài)的力量對(duì)數(shù)據(jù)湖廠商來(lái)說(shuō),不妨是一條高效共贏的捷徑。來(lái)源:艾瑞咨詢研究院自主研究及繪制。PAGEPAGE25云原生數(shù)據(jù)湖概念界定云原生數(shù)據(jù)湖概念界定1云原生數(shù)據(jù)湖市場(chǎng)現(xiàn)狀2云原生數(shù)據(jù)湖競(jìng)爭(zhēng)分析3云原生數(shù)據(jù)湖行業(yè)應(yīng)用與最佳實(shí)踐云原生數(shù)據(jù)湖市場(chǎng)現(xiàn)狀2云原生數(shù)據(jù)湖競(jìng)爭(zhēng)分析3云原生數(shù)據(jù)湖行業(yè)應(yīng)用與最佳實(shí)踐4云原生數(shù)據(jù)湖選型建議與典型企業(yè)5云原生數(shù)據(jù)湖發(fā)展趨勢(shì)6行業(yè)分布行業(yè)分布PAGE26PAGE26現(xiàn)階段主要應(yīng)用于泛互聯(lián)網(wǎng)行業(yè)及傳統(tǒng)行業(yè)的互聯(lián)網(wǎng)場(chǎng)景據(jù)調(diào)研,中國(guó)云原生數(shù)據(jù)湖的下游應(yīng)用主要分布于泛互聯(lián)網(wǎng)(電商、網(wǎng)絡(luò)廣告、社交媒體、游戲、互聯(lián)網(wǎng)金融等)、泛政務(wù)(智慧城市、智慧政府、交通等)、金融(銀行、保險(xiǎn)等)、工業(yè)(工業(yè)互聯(lián)網(wǎng)、能源、制造等)、醫(yī)療(基因、影像治療、診斷等)、汽車(車聯(lián)網(wǎng)等)以及零售、運(yùn)營(yíng)商等其他行業(yè)。其中,泛互聯(lián)網(wǎng)企業(yè)出于數(shù)據(jù)量大、非結(jié)構(gòu)化數(shù)據(jù)多、迭代速度快等原因,率先應(yīng)用云原生數(shù)據(jù)湖架構(gòu)于推薦、搜索、監(jiān)控等業(yè)務(wù)環(huán)節(jié),是現(xiàn)階段數(shù)據(jù)湖市場(chǎng)的主要客戶。2020年中國(guó)云原生數(shù)據(jù)湖市場(chǎng)(不含生態(tài)部分)下游行業(yè)分布73.5%73.5%3.7% 100.0%11.9%6.4%4.5%16.3%16.5%40.7%包含混合云模式部署的數(shù)據(jù)湖工業(yè)醫(yī)療汽車其他總計(jì)金融泛政務(wù)泛互聯(lián)網(wǎng)注釋:此下游分布口徑為2020自然年全年各廠商在中國(guó)內(nèi)地(不含港澳臺(tái))銷售云原生數(shù)據(jù)湖解決方案的營(yíng)業(yè)收入,合同簽署地點(diǎn)和交付地點(diǎn)都位于中國(guó)內(nèi)地區(qū)域。注釋:此下游分布統(tǒng)計(jì)口徑不包含云原生數(shù)據(jù)湖組件發(fā)生于其他解決方案(例:數(shù)據(jù)倉(cāng)庫(kù))的營(yíng)收,不包含云原生數(shù)據(jù)湖生態(tài)支持廠商部分。來(lái)源:艾瑞長(zhǎng)期基礎(chǔ)云服務(wù)數(shù)據(jù)監(jiān)測(cè),結(jié)合公開(kāi)資料、專家訪談,根據(jù)數(shù)據(jù)測(cè)算模型,自主研究及繪制。未來(lái)滲透未來(lái)滲透PAGE27PAGE27向更多具有大數(shù)據(jù)和高價(jià)值屬性的行業(yè)拓展海量、高頻、多源異構(gòu)的大數(shù)據(jù)為企業(yè)帶來(lái)了成本、性能和價(jià)值挖掘的問(wèn)題,在現(xiàn)有數(shù)據(jù)庫(kù)+數(shù)倉(cāng)的架構(gòu)下,企業(yè)難以實(shí)現(xiàn)底層架構(gòu)的彈性和優(yōu)化,無(wú)法支持快速發(fā)展的業(yè)務(wù)。云原生數(shù)據(jù)湖云上部署、存算分離和事后schema的特性可以幫助企業(yè)更好地應(yīng)用數(shù)據(jù),未來(lái)有望在互聯(lián)網(wǎng)、汽車、政府、工業(yè)等具有大數(shù)據(jù)和高價(jià)值屬性的行業(yè)得到更廣泛的應(yīng)用。云原生數(shù)據(jù)湖的行業(yè)應(yīng)用展望云原生數(shù)據(jù)湖解決了什么問(wèn)題 哪些企業(yè)痛點(diǎn)與之匹配 未來(lái)行業(yè)滲透展望數(shù)據(jù)海量→成本上升數(shù)據(jù)量爆發(fā)式的增長(zhǎng),導(dǎo)致對(duì)存儲(chǔ)和算力資源需求的上升,無(wú)論是縱向還是橫向擴(kuò)張,帶來(lái)成本的疊加都十分驚人。數(shù)據(jù)多源異構(gòu)→性能下降隨著互聯(lián)網(wǎng)的發(fā)展,企業(yè)外部鏈接愈發(fā)復(fù)雜,內(nèi)部需要處理的數(shù)據(jù)也愈發(fā)多元,包括來(lái)自媒體的非結(jié)構(gòu)化數(shù)據(jù)、web的半結(jié)構(gòu)化數(shù)據(jù)、物聯(lián)網(wǎng)的IoT數(shù)據(jù)、以及來(lái)自企業(yè)業(yè)務(wù)系統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)等。多源異構(gòu)環(huán)境下,數(shù)據(jù)處理的性能下降,導(dǎo)致企業(yè)應(yīng)用效果不佳。數(shù)據(jù)價(jià)值兩極化→實(shí)時(shí)與聚合大數(shù)據(jù)背景下,數(shù)據(jù)價(jià)值愈發(fā)向兩極聚焦,現(xiàn)有處理架構(gòu)不能很好地滿足實(shí)時(shí)、聚合分析的訴求,充分釋放數(shù)據(jù)價(jià)值。價(jià)值實(shí)時(shí)分析 聚合分析時(shí)間
業(yè)務(wù)具有大數(shù)據(jù)特性,現(xiàn)有架構(gòu)擴(kuò)展具有局限性許多企業(yè)在數(shù)字化轉(zhuǎn)型的過(guò)程中,開(kāi)始嘗試信息流廣告、直播電商、遠(yuǎn)程辦公等數(shù)字化模式,但底層IT架構(gòu)和數(shù)據(jù)架構(gòu)不能承載海量數(shù)據(jù),擴(kuò)展也存在局限。大數(shù)據(jù)處理的成本愈發(fā)高昂,亟需成本優(yōu)化解決方案企業(yè)通過(guò)增加硬件資源、中間件改造的方式,對(duì)數(shù)據(jù)庫(kù)、數(shù)倉(cāng)做橫向擴(kuò)展或者縱向優(yōu)化,成本都十分高昂,企業(yè)用于數(shù)據(jù)的支出日益高企,難以承擔(dān)。缺乏DT實(shí)力和人才,難以進(jìn)行大數(shù)據(jù)性能優(yōu)化,數(shù)據(jù)價(jià)值不能釋放企業(yè)缺乏完整的大數(shù)據(jù)和AI團(tuán)隊(duì),不具備足夠的積累去應(yīng)用前沿大數(shù)據(jù)和AI技術(shù)、搭建面向未來(lái)的新架構(gòu),故而數(shù)據(jù)的價(jià)值
高價(jià)值
互聯(lián)網(wǎng)需要云原生數(shù)據(jù)湖架構(gòu)來(lái)支持業(yè)務(wù)的快速迭代發(fā)展。汽車資源擴(kuò)容與處理速度跟不上業(yè)務(wù)發(fā)展,數(shù)據(jù)湖應(yīng)用空間廣。政府在政策的驅(qū)動(dòng)下,以智慧城市/政務(wù)為中心的信息化建設(shè)正在加速推進(jìn),城市統(tǒng)一數(shù)據(jù)中心需求旺盛。工業(yè)工業(yè)數(shù)據(jù)價(jià)值高,標(biāo)準(zhǔn)與治理痛點(diǎn)突出,基于云原生數(shù)據(jù)湖可以幫助其在云上進(jìn)行數(shù)據(jù)統(tǒng)一治理。來(lái)源:艾瑞咨詢研究院自主研究及繪制。金融科技×數(shù)禾金融科技×數(shù)禾PAGE28PAGE28計(jì)算性能與數(shù)據(jù)權(quán)限隔離能力共同提升,顯著降低成本數(shù)禾科技成立于2015年,公司以大數(shù)據(jù)和技術(shù)為驅(qū)動(dòng),為銀行、信托、消費(fèi)金融公司、保險(xiǎn)、小貸公司等持牌金融機(jī)構(gòu)提供高效的智能零售金融解決方案,包括營(yíng)銷獲客、風(fēng)險(xiǎn)防控、運(yùn)營(yíng)管理等服務(wù),賦能金融機(jī)構(gòu)數(shù)字化轉(zhuǎn)型,在消費(fèi)信貸、小微企業(yè)信貸、場(chǎng)景分期、財(cái)富管理等多個(gè)領(lǐng)域中均有應(yīng)用。由于金融行業(yè)涉及的數(shù)據(jù)繁多,安全隱私要求程度高,在機(jī)構(gòu)數(shù)字化轉(zhuǎn)型過(guò)程中,存在運(yùn)維成本高、數(shù)據(jù)權(quán)限隔離、性能要求高等一系列業(yè)務(wù)難點(diǎn)。通過(guò)與阿里云JindoFS的合作,數(shù)禾對(duì)數(shù)據(jù)計(jì)算性能的需求得到了滿足;同時(shí),圍繞ApacheRanger開(kāi)發(fā)權(quán)限方案,數(shù)禾對(duì)數(shù)據(jù)湖數(shù)據(jù)權(quán)限進(jìn)行嚴(yán)格管控;利用EMR企業(yè)能力協(xié)助進(jìn)行不同部門(mén)的資源隔離能力和分賬能力;并采用彈性伸縮成本節(jié)約模式,兼顧了穩(wěn)定性和成本。
基于MaxCompute+DLF+EMR+OSS的湖倉(cāng)一體架構(gòu)業(yè)務(wù)業(yè)務(wù)RDS業(yè)務(wù)業(yè)務(wù)RDSOSS 智能數(shù)據(jù)構(gòu)建與管理數(shù)據(jù)中臺(tái) 元數(shù)據(jù)統(tǒng)一ODS貼源層計(jì)算流動(dòng)VDM沙箱層ADS應(yīng)用層CDM數(shù)倉(cāng)層OneData建模機(jī)器學(xué)習(xí)EMR即席查詢EMR數(shù)據(jù)同步EMREMR(數(shù)據(jù)湖)MaxCompute(數(shù)據(jù)倉(cāng)庫(kù))Jupvter機(jī)器學(xué)習(xí)統(tǒng)一用數(shù)交互式查詢行業(yè)特性&業(yè)務(wù)難點(diǎn)需要同時(shí)運(yùn)維兩套系統(tǒng),運(yùn)維成本過(guò)大;基于HDFS的存儲(chǔ)和不夠靈活的計(jì)算資源,成本遇到極大挑戰(zhàn),需要根據(jù)任務(wù)自動(dòng)大規(guī)模彈性擴(kuò)縮容;客戶服務(wù)了大量?jī)?nèi)部和外部用戶,且數(shù)據(jù)較為敏感,要求嚴(yán)格的數(shù)據(jù)權(quán)限隔離;大量OSS的rename等操作,性能要求高元數(shù)據(jù)管理+湖加速JIndoFS+MC數(shù)據(jù)庫(kù)智能Cache 冷熱分層 冷熱緩存加速DLF數(shù)據(jù)湖構(gòu)建元數(shù)據(jù)管理+湖加速JIndoFS+MC數(shù)據(jù)庫(kù)智能Cache 冷熱分層 冷熱緩存加速DLF數(shù)據(jù)湖構(gòu)建元數(shù)據(jù)管理 數(shù)據(jù)血緣管理 數(shù)據(jù)權(quán)限管理解決方案&產(chǎn)品價(jià)值通過(guò)JindoFS與OSS配合,在存算分離的架構(gòu)下,滿足了用戶的數(shù)據(jù)計(jì)算性能需求;圍繞ApacheRanger開(kāi)發(fā)權(quán)限方案,圍繞數(shù)據(jù)湖數(shù)據(jù)權(quán)限嚴(yán)格管控;利用EMR企業(yè)能力如資源組、標(biāo)簽等的支持,協(xié)助不同部門(mén)進(jìn)行資源隔離能力和分賬能力的建設(shè);采用彈性伸縮成本節(jié)約模式,兼顧穩(wěn)定性和成本,壓縮成本達(dá)20%。來(lái)源:阿里云,艾瑞咨詢研究院自主研究及繪制。在線教育×流利說(shuō)在線教育×流利說(shuō)PAGE29PAGE29EMR提供計(jì)算和存儲(chǔ)的彈性拓展能力,助力企業(yè)成本優(yōu)化流利說(shuō)成立于2012年9月,是由王翌博士和胡哲人、林暉博士共同創(chuàng)立的科技驅(qū)動(dòng)的教育公司,2018年9月,流利說(shuō)正式掛牌紐交所,以其獨(dú)創(chuàng)的教育3.0模式,被譽(yù)為“AI+教育”第一股。企業(yè)希望提高數(shù)據(jù)質(zhì)量并完善數(shù)據(jù)處理方案,提高計(jì)算效率。阿里云EMR+OSS云上數(shù)據(jù)湖架構(gòu)為企業(yè)提供了計(jì)算彈性拓展與存儲(chǔ)彈性拓展能力,減少了流利說(shuō)對(duì)底層基礎(chǔ)建設(shè)運(yùn)維的投入?;诎⒗镌艵MR,流利說(shuō)搭建了Spark、Hive、Presto等大數(shù)據(jù)處理框架,對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,通過(guò)智能算法分析學(xué)生學(xué)習(xí)質(zhì)量,提供相應(yīng)指導(dǎo)。此外,流利說(shuō)基于阿里云OSS對(duì)在線教育場(chǎng)景下多種類型數(shù)據(jù)進(jìn)行集中存GatewayEMR…EMRETLworkerGatewayGatewayEMRDWSGatewayEMR…EMRETLworkerGatewayGatewayEMRDWS企業(yè)需求為了提升商業(yè)轉(zhuǎn)化效率和公司運(yùn)營(yíng)效率,流利說(shuō)需要打通多業(yè)務(wù)數(shù)據(jù)源,統(tǒng)一存儲(chǔ)多種應(yīng)用的各類數(shù)據(jù)??蛻羰芟抻跀?shù)據(jù)質(zhì)量和計(jì)算成本,期望借助云計(jì)算廠商的能力提高數(shù)據(jù)質(zhì)量,優(yōu)化數(shù)據(jù)處理方案。解決方案與效果數(shù)據(jù)入湖,從DataX全量Dump的方式轉(zhuǎn)變?yōu)镈ataX與Delta相結(jié)合的方式,成本節(jié)省70%以上;數(shù)據(jù)平臺(tái)計(jì)算集群成本下降50%;80%的平臺(tái)任務(wù)從Hive遷移到Spark,整體任務(wù)時(shí)間提升30%。ApacheAirflowworkerworkerworkerGatewayGatewayGatewayoss來(lái)源:艾瑞咨詢研究院自主研究及繪制。oss
流利說(shuō)基于EMR+OSS的云上數(shù)據(jù)湖架構(gòu)智能營(yíng)銷×匯量科技智能營(yíng)銷×匯量科技PAGE30PAGE30數(shù)據(jù)處理能力顯著提升,快速構(gòu)建數(shù)據(jù)智能應(yīng)用匯量科技有限公司(Mobvista)成立于2013年3月,是一個(gè)全球性技術(shù)平臺(tái),通過(guò)為企業(yè)打造增長(zhǎng)賦能的“SaaS工具生態(tài)”,提供包括移動(dòng)營(yíng)銷、統(tǒng)計(jì)歸因、創(chuàng)意自動(dòng)化、流量變現(xiàn)、云架構(gòu)成本優(yōu)化等一系列產(chǎn)品和服務(wù),助力企業(yè)在全球范圍內(nèi)的增長(zhǎng)。目前企業(yè)數(shù)字化轉(zhuǎn)型進(jìn)入深水區(qū),營(yíng)銷場(chǎng)景往往是轉(zhuǎn)型落地的第一目標(biāo)。在此過(guò)程中,企業(yè)業(yè)務(wù)快速擴(kuò)展,衍生數(shù)據(jù)的爆發(fā)式增長(zhǎng)帶來(lái)了迫切的數(shù)據(jù)處理分析需求;而傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)強(qiáng)調(diào)結(jié)構(gòu)化數(shù)據(jù),這在互聯(lián)網(wǎng)應(yīng)用中會(huì)導(dǎo)致建模繁瑣、流批架構(gòu)復(fù)雜等問(wèn)題;同時(shí),傳統(tǒng)的hive等方案也不再適配云原生的演進(jìn)趨勢(shì)。通過(guò)與阿里云數(shù)據(jù)湖合作,匯量科技實(shí)現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)的處理、流批一體化;并且使得計(jì)算和存儲(chǔ)分離,實(shí)現(xiàn)了資源的快速擴(kuò)展;另外,寬表的實(shí)時(shí)多流攝入能力得以優(yōu)化,能夠統(tǒng)一支撐分析和科學(xué)AI的應(yīng)用場(chǎng)景。StarLakeMindAlpha匯量科技基于EMR+OSS的云上數(shù)據(jù)湖架構(gòu)StarLakeMindAlpha解決方案云原生數(shù)據(jù)湖解決了傳統(tǒng)數(shù)倉(cāng)部分問(wèn)題,解決方案云原生數(shù)據(jù)湖解決了傳統(tǒng)數(shù)倉(cāng)部分問(wèn)題,現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的處理、流批一體化;計(jì)算和存儲(chǔ)實(shí)現(xiàn)分離,資源可快速擴(kuò)展;優(yōu)化寬表的實(shí)時(shí)多流攝入能力AI的應(yīng)用場(chǎng)景。
Integrated
Helm
業(yè)務(wù)難點(diǎn)業(yè)務(wù)快速擴(kuò)展業(yè)務(wù)難點(diǎn)業(yè)務(wù)快速擴(kuò)展,衍生數(shù)據(jù)爆發(fā)式增長(zhǎng),處理分析需求迫切;傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)強(qiáng)調(diào)結(jié)構(gòu)化數(shù)據(jù),在互聯(lián)網(wǎng)應(yīng)用中會(huì)導(dǎo)致傳統(tǒng)的hive等方案勢(shì)。Zeppelin
Jupyter
Airflow
Spark開(kāi)發(fā)者
阿里云ACK容器引擎
readwrite
數(shù)據(jù)湖阿里云OSS來(lái)源:阿里云,艾瑞咨詢研究院自主研究及繪制。新零售×百草味新零售×百草味PAGE31PAGE31構(gòu)建靈活穩(wěn)定的大數(shù)據(jù)平臺(tái),實(shí)時(shí)精準(zhǔn)響應(yīng)不同場(chǎng)景需求百草味是以休閑食品研發(fā)、加工、生產(chǎn)、貿(mào)易、倉(cāng)儲(chǔ)、物流為主體,集互聯(lián)網(wǎng)商務(wù)經(jīng)營(yíng)模式、新零售為一體的全渠道品牌和綜合型品牌,目前擁有全品類零食產(chǎn)品1000+SKU,致力于領(lǐng)跑中國(guó)休閑食品走向全新格局。企業(yè)希望對(duì)接多個(gè)第三方系統(tǒng),滿足不同場(chǎng)景對(duì)數(shù)據(jù)時(shí)效性和精準(zhǔn)性的要求,減輕團(tuán)隊(duì)工作負(fù)擔(dān)。通過(guò)與阿里云的合作,百草味利用對(duì)象存儲(chǔ)OSS,構(gòu)建DLF,實(shí)現(xiàn)統(tǒng)一元數(shù)據(jù)管理和統(tǒng)一權(quán)限控制。同時(shí),DDI數(shù)據(jù)洞察和EMR-Presto交互式分析在保證軟件產(chǎn)品功能和性能領(lǐng)先的基礎(chǔ)上,還提供了全托管免運(yùn)維服務(wù),使百草味最終實(shí)現(xiàn)實(shí)時(shí)、精準(zhǔn)對(duì)接各個(gè)場(chǎng)景,全面提高企業(yè)運(yùn)行效率。解決方案與效果統(tǒng)一存儲(chǔ):對(duì)象存儲(chǔ)OSS,存儲(chǔ)任意規(guī)模的數(shù)據(jù);對(duì)接業(yè)務(wù)應(yīng)用、各類計(jì)算分析平臺(tái)。數(shù)據(jù)湖構(gòu)建與管理:數(shù)據(jù)湖構(gòu)建DLF一元數(shù)據(jù)管理、統(tǒng)一權(quán)限控制等關(guān)鍵問(wèn)題;數(shù)據(jù)湖格式解決方案與效果統(tǒng)一存儲(chǔ):對(duì)象存儲(chǔ)OSS,存儲(chǔ)任意規(guī)模的數(shù)據(jù);對(duì)接業(yè)務(wù)應(yīng)用、各類計(jì)算分析平臺(tái)。數(shù)據(jù)湖構(gòu)建與管理:數(shù)據(jù)湖構(gòu)建DLF一元數(shù)據(jù)管理、統(tǒng)一權(quán)限控制等關(guān)鍵問(wèn)題;數(shù)據(jù)湖格式:Deltalake,支持?jǐn)?shù)據(jù)的增量更新和消費(fèi),從而避免了使用Lamda架構(gòu)的兩條鏈路來(lái)支持離線和實(shí)時(shí)的數(shù)據(jù)計(jì)算;數(shù)據(jù)分析計(jì)算引擎:DDI數(shù)據(jù)洞察+EMR-Presto交互式分析,保證軟件產(chǎn)品功能和性能領(lǐng)先,并提供了全托管免運(yùn)維的服務(wù),同時(shí)有SLA;數(shù)據(jù)開(kāi)發(fā)與調(diào)度:EMR提供交互式開(kāi)發(fā)、作業(yè)提交、作業(yè)調(diào)試和工作流一站式數(shù)據(jù)開(kāi)發(fā)體驗(yàn)。OSS對(duì)象存儲(chǔ)標(biāo)準(zhǔn) 低頻 歸檔 云上關(guān)系數(shù)據(jù)庫(kù)MongoDBOracleADBRDSIDC自建Hadoop集群HMSDBDLF數(shù)據(jù)湖構(gòu)建統(tǒng)一元數(shù)據(jù) 湖數(shù)據(jù)治理 HDFS/Hive一站式入湖 緩存加速權(quán)限控制全量/增量入湖EMRStudio銷售大屏決策中心會(huì)員中心監(jiān)控中心企業(yè)需求為了滿足不同場(chǎng)景對(duì)數(shù)據(jù)時(shí)效性和精準(zhǔn)性的要求,百草味需要構(gòu)建靈活、穩(wěn)定的大數(shù)據(jù)平臺(tái)??蛻羰芟抻谶\(yùn)維難度及成本和系統(tǒng)安全性,期望借助云計(jì)算廠商的能力實(shí)現(xiàn)成本優(yōu)化和多場(chǎng)景數(shù)據(jù)分析。 DDI數(shù)據(jù)洞察DDI數(shù)據(jù)洞察EMR交互式分析來(lái)源:阿里云,艾瑞咨詢研究院自主研究及繪制?;ヂ?lián)網(wǎng)社交平臺(tái)×Soul互聯(lián)網(wǎng)社交平臺(tái)×SoulPAGE32PAGE32提高平臺(tái)穩(wěn)定性,降低運(yùn)維難度,保障APP穩(wěn)定運(yùn)營(yíng)Soul成立于2016年,是基于興趣圖譜和游戲化玩法的產(chǎn)品設(shè)計(jì),屬于新一代年輕人的虛擬社交網(wǎng)絡(luò),致力于打造一個(gè)“年輕人的社交元宇宙”。企業(yè)希望提高運(yùn)維效率,減少ETL任務(wù)耗時(shí),建立穩(wěn)定的系統(tǒng)架構(gòu)支撐APP在各個(gè)時(shí)段正常運(yùn)營(yíng)。通過(guò)與阿里云的合作,Soul利用EMRDelta打造實(shí)時(shí)數(shù)倉(cāng),提升了業(yè)務(wù)指標(biāo)的實(shí)時(shí)性;利用JindoFS從HDFS3副本的架構(gòu)遷移到OSS,優(yōu)化了存儲(chǔ)成本;同時(shí),通過(guò)計(jì)存分離降低運(yùn)維難度和計(jì)算成本,最終實(shí)現(xiàn)APP的穩(wěn)定運(yùn)營(yíng)。企業(yè)需求為了滿足業(yè)務(wù)高速迭代和業(yè)務(wù)體量的上漲,企業(yè)需求為了滿足業(yè)務(wù)高速迭代和業(yè)務(wù)體量的上漲,Soul需要構(gòu)建低成本、穩(wěn)定的平臺(tái)并降低運(yùn)維難度。客戶受限于人力、工具的短缺和架構(gòu)的缺失,期望借助云計(jì)算廠商的能力,在短期內(nèi)提升運(yùn)維效率、優(yōu)化成本及APP的穩(wěn)定運(yùn)營(yíng)。實(shí)時(shí)計(jì)算PAIDataWorks推薦計(jì)算集群TensorFlow彈性伸縮推薦計(jì)算集群TensorFlow彈性伸縮數(shù)據(jù)集群EMRHadoopEMRGateway提交業(yè)務(wù)作業(yè)跨集群訪問(wèn)大數(shù)據(jù)集群EMRHadoopMapReduceHiveTezHBaseSpark EMRJindoFS(熱數(shù)據(jù)緩存) 阿里云OSS 標(biāo)準(zhǔn)型XPB 低頻型XPB 歸檔型XPB 解決方案與效果通過(guò)EMRDelta打造實(shí)時(shí)數(shù)倉(cāng),提升業(yè)務(wù)指標(biāo)的實(shí)時(shí)性,滿足更多實(shí)時(shí)場(chǎng)景對(duì)數(shù)據(jù)的需求;利用JindoFS從HDFS3副本的架構(gòu)遷移到OSS,以及基于OSS的歸檔能力,降低20%的存儲(chǔ)成本;采用計(jì)存分離的架構(gòu),降低計(jì)算成本和運(yùn)維復(fù)雜度。自動(dòng)駕駛×小鵬汽車自動(dòng)駕駛×小鵬汽車PAGE33PAGE33數(shù)據(jù)傳輸、處理、存儲(chǔ)能力同步提升,輕松實(shí)現(xiàn)各種訓(xùn)練小鵬汽車正式成立于2015年,是一家專注未來(lái)出行的科技公司,目前已成為中國(guó)領(lǐng)先的智能電動(dòng)汽車公司之一。公司一直堅(jiān)持飽和式研發(fā)投入,構(gòu)建全棧自研的核心能力,致力于用科技為人類創(chuàng)造更便捷愉悅的出行生活。在智能化、網(wǎng)聯(lián)化、電動(dòng)化、共享化的背景下,自動(dòng)駕駛成為智能網(wǎng)聯(lián)汽車行業(yè)的重點(diǎn),也成為了下一代汽車行業(yè)轉(zhuǎn)型升級(jí)的技術(shù)高地。自動(dòng)駕駛過(guò)程中,車輛每天會(huì)產(chǎn)生大量采集數(shù)據(jù)。對(duì)于這些分布在不同地域的數(shù)據(jù),如何及時(shí)合規(guī)地存儲(chǔ)以及高效便捷地計(jì)算是一大業(yè)務(wù)難點(diǎn)。通過(guò)與阿里云閃電立方合作,多區(qū)域上傳節(jié)點(diǎn),小鵬汽車實(shí)現(xiàn)了大批量采集數(shù)據(jù)快速上傳到云上數(shù)據(jù)湖;進(jìn)入湖中的采集數(shù)據(jù),通過(guò)云上EMR、Maxcompute進(jìn)行大規(guī)模處理和標(biāo)注,處理后的數(shù)據(jù)持久存儲(chǔ)到OSS;數(shù)據(jù)湖通過(guò)與文件存儲(chǔ)CPFS數(shù)據(jù)流動(dòng),湖中數(shù)據(jù)更加輕松的與GPU算力對(duì)接,實(shí)現(xiàn)各種訓(xùn)練。小鵬汽車云上數(shù)據(jù)湖架構(gòu)拉取訓(xùn)練數(shù)據(jù)歸檔對(duì)象存儲(chǔ)拉取訓(xùn)練數(shù)據(jù)歸檔對(duì)象存儲(chǔ)OSS文件存儲(chǔ)CPFS自動(dòng)駕駛閃電立方數(shù)據(jù)上云數(shù)據(jù)采集云上歸檔 清洗標(biāo)注 云上訓(xùn)練GPU集群EMR MaxCompute阿里云解決方案阿里云閃電立方解決了自動(dòng)駕駛車輛終端采集難題,通過(guò)阿里云多區(qū)域上傳節(jié)點(diǎn),大批量采集數(shù)據(jù)得以快速上傳到云上數(shù)據(jù)湖;進(jìn)入到數(shù)據(jù)湖的采集數(shù)據(jù),通過(guò)云上EMR、Maxcompute進(jìn)行大規(guī)模的數(shù)據(jù)處理和標(biāo)注,處理后的數(shù)據(jù)持久存儲(chǔ)到OSS;數(shù)據(jù)湖通過(guò)與文件存儲(chǔ)CPFS數(shù)據(jù)流動(dòng),讓數(shù)據(jù)湖中數(shù)據(jù)更加輕松地與GPU算力對(duì)接,實(shí)現(xiàn)各種訓(xùn)練,訓(xùn)練后的數(shù)據(jù)再歸檔到OSS,高性能文件存儲(chǔ)只需要存儲(chǔ)臨時(shí)少量熱數(shù)據(jù)。業(yè)務(wù)難點(diǎn)車輛每天產(chǎn)生大量采集數(shù)據(jù),這些分布在不同的地域數(shù)據(jù)需要及時(shí)完成合規(guī)存儲(chǔ),讓采集設(shè)備能投入下一個(gè)采集周期;存儲(chǔ)的數(shù)據(jù)需要能有便捷的方式與計(jì)算能力對(duì)接,應(yīng)用到自動(dòng)駕駛數(shù)據(jù)清洗、標(biāo)注、訓(xùn)練等多種不同場(chǎng)景中;需要豐富的計(jì)算引擎和強(qiáng)大算力來(lái)全面覆蓋仿真、訓(xùn)練、標(biāo)注等各種數(shù)據(jù)處理與分析場(chǎng)景。PAGEPAGE34云原生數(shù)據(jù)湖概念界定云原生數(shù)據(jù)湖概念界定1云原生數(shù)據(jù)湖市場(chǎng)現(xiàn)狀2云原生數(shù)據(jù)湖競(jìng)爭(zhēng)分析3云原生數(shù)據(jù)湖行業(yè)應(yīng)用與最佳實(shí)踐云原生數(shù)據(jù)湖市場(chǎng)現(xiàn)狀2云原生數(shù)據(jù)湖競(jìng)爭(zhēng)分析3云原生數(shù)據(jù)湖行業(yè)應(yīng)用與最佳實(shí)踐4云原生數(shù)據(jù)湖選型建議與典型企業(yè)5云原生數(shù)據(jù)湖發(fā)展趨勢(shì)6建議一:戰(zhàn)略規(guī)劃建議一:戰(zhàn)略規(guī)劃PAGE35PAGE35建立統(tǒng)一的數(shù)據(jù)底座,支持企業(yè)向數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)型對(duì)于現(xiàn)代化企業(yè)來(lái)說(shuō),需要面對(duì)愈發(fā)復(fù)雜多元、高頻迭代的內(nèi)外部環(huán)境,僅依靠人力難以跟上市場(chǎng)的發(fā)展,“數(shù)據(jù)驅(qū)動(dòng)”成為企業(yè)的必然選擇。而“數(shù)據(jù)驅(qū)動(dòng)”落在實(shí)踐中還存在很多的問(wèn)題,并非根據(jù)現(xiàn)在的業(yè)務(wù)需求,采購(gòu)一些數(shù)字化工具即可完成的轉(zhuǎn)型。針對(duì)具有“變化、挖掘、未知”特性的需求,企業(yè)需要建立統(tǒng)一、彈性、智能的數(shù)據(jù)底座,以“不變應(yīng)萬(wàn)變”,從而支持?jǐn)?shù)據(jù)驅(qū)動(dòng),讓數(shù)據(jù)釋放價(jià)值。建立基于統(tǒng)一底座的數(shù)據(jù)驅(qū)動(dòng)策略現(xiàn)代化企業(yè)面臨來(lái)自內(nèi)外部的挑戰(zhàn) 統(tǒng)一數(shù)據(jù)底座對(duì)“數(shù)據(jù)驅(qū)動(dòng)”的重要性現(xiàn)代化企業(yè)面臨越發(fā)易變、模這從外部驅(qū)動(dòng)企業(yè)業(yè)務(wù)和應(yīng)用也必須快速迭代,及時(shí)響應(yīng)客戶,才能在快速發(fā)展的市場(chǎng)上獲得優(yōu)勢(shì)。外部競(jìng)爭(zhēng):為了應(yīng)對(duì)越來(lái)越多種類的數(shù)據(jù),以及越來(lái)復(fù)雜場(chǎng)景的訴求,大數(shù)據(jù)、AI技術(shù)棧呈指數(shù)增長(zhǎng)。多種框架并存是未來(lái)IT的必然狀態(tài),為企業(yè)帶來(lái)了技術(shù)部署的挑戰(zhàn)。技術(shù)部署:現(xiàn)代化企業(yè)面臨越發(fā)易變、模這從外部驅(qū)動(dòng)企業(yè)業(yè)務(wù)和應(yīng)用也必須快速迭代,及時(shí)響應(yīng)客戶,才能在快速發(fā)展的市場(chǎng)上獲得優(yōu)勢(shì)。外部競(jìng)爭(zhēng):為了應(yīng)對(duì)越來(lái)越多種類的數(shù)據(jù),以及越來(lái)復(fù)雜場(chǎng)景的訴求,大數(shù)據(jù)、AI技術(shù)棧呈指數(shù)增長(zhǎng)。多種框架并存是未來(lái)IT的必然狀態(tài),為企業(yè)帶來(lái)了技術(shù)部署的挑戰(zhàn)。技術(shù)部署:隨著企業(yè)的發(fā)展和多輪信息化改造、數(shù)字化升級(jí),內(nèi)部IT部署很難保持一致和清晰。無(wú)論是部署環(huán)境,數(shù)據(jù)存算,還是業(yè)務(wù)應(yīng)用都在某種程度上呈現(xiàn)“混亂”的狀態(tài),造成了降本增效的困難。內(nèi)部管理:除了基于現(xiàn)有IT資源和業(yè)務(wù)進(jìn)行經(jīng)營(yíng)性的“降本提效”外,現(xiàn)代化企業(yè)還需要考慮差異化競(jìng)爭(zhēng)力的打造,通過(guò)技術(shù)、產(chǎn)品、商業(yè)創(chuàng)新,發(fā)展第二增長(zhǎng)曲線。而通過(guò)數(shù)據(jù)驅(qū)動(dòng)尋找創(chuàng)新點(diǎn),在為企業(yè)帶來(lái)機(jī)遇的同時(shí)也提出了更高的要求。發(fā)展創(chuàng)新:統(tǒng)一統(tǒng)一的數(shù)據(jù)底座可以屏蔽底層部署的復(fù)雜性,為應(yīng)用層帶來(lái)更一致的體驗(yàn),無(wú)論是經(jīng)營(yíng)型還是創(chuàng)新型應(yīng)用都能獲得更高效的支持。彈性在業(yè)務(wù)應(yīng)用多變的背景下,靈活、可擴(kuò)展的彈性數(shù)據(jù)架構(gòu)成為了剛需。智能在數(shù)據(jù)層解決上下復(fù)雜性的問(wèn)題需要更松耦合的設(shè)計(jì)與更智能的調(diào)度機(jī)制組合。經(jīng)營(yíng)型業(yè)務(wù) 創(chuàng)新型業(yè)務(wù) 運(yùn)營(yíng)支持應(yīng)用 創(chuàng)新支持應(yīng)用 來(lái)源:專家訪談,公開(kāi)資料,艾瑞咨詢研究院自主研究及繪制。
統(tǒng)一、彈性、智能的數(shù)據(jù)底座建議二:執(zhí)行路線建議二:執(zhí)行路線PAGE36PAGE36站在長(zhǎng)期視角,著重考慮DT能力的開(kāi)放性、敏捷性與創(chuàng)新性在市場(chǎng)快速發(fā)展的背景下,企業(yè)進(jìn)行DT能力建設(shè)時(shí),需要更加看重技術(shù)路線的開(kāi)放性和擴(kuò)展性,為難以預(yù)測(cè)的未來(lái)探索做好準(zhǔn)備,去支持應(yīng)用和業(yè)務(wù)的創(chuàng)新。在應(yīng)用實(shí)施及之后的運(yùn)營(yíng)時(shí),企業(yè)開(kāi)發(fā)者一方面可以以更開(kāi)放的態(tài)度去擁抱云原生與開(kāi)源,另一方面可以對(duì)自身的技術(shù)進(jìn)行抽象、分層和服務(wù)化,以更簡(jiǎn)單的方式提升效率和效益。云原生數(shù)據(jù)湖架構(gòu)開(kāi)放、敏捷,是企業(yè)建設(shè)DT能力很好的選擇之一。企業(yè)DT能力建設(shè)的執(zhí)行實(shí)踐擁抱云原生云原生是后云計(jì)算時(shí)代新一輪生產(chǎn)力的釋放,包含容器、微服務(wù)、Serverless、DevOps等天然具有敏捷彈性優(yōu)勢(shì)的技術(shù)、工具和方法論,是IT發(fā)展的必然趨勢(shì)。基于云原生,進(jìn)行數(shù)據(jù)存儲(chǔ)、計(jì)算、治理、架構(gòu)等方面的優(yōu)化和創(chuàng)新,是大數(shù)據(jù)發(fā)展的必然之路。擁抱開(kāi)源開(kāi)源是學(xué)習(xí)成本縮減、技術(shù)創(chuàng)新加速的高效生產(chǎn)方式,愈發(fā)被國(guó)內(nèi)市場(chǎng)所接受。開(kāi)發(fā)者可以通過(guò)開(kāi)源社區(qū)快速、低成本的學(xué)習(xí)前沿技術(shù)。對(duì)于缺乏IT積累和專業(yè)人才的企業(yè),可以選擇更開(kāi)源兼容的服務(wù)商共同進(jìn)步。抽象、分層與服務(wù)化站在開(kāi)發(fā)者視角,需要意識(shí)到企業(yè)應(yīng)用和大數(shù)據(jù)的標(biāo)準(zhǔn)在短時(shí)間內(nèi)是難以實(shí)現(xiàn)統(tǒng)一的,且很難回到過(guò)去一家之言成為行業(yè)標(biāo)準(zhǔn)的時(shí)代。為了更好地應(yīng)對(duì)標(biāo)準(zhǔn)和需求的復(fù)雜,企業(yè)可以對(duì)自己的IT能力進(jìn)行抽象和分層,通過(guò)模塊的標(biāo)準(zhǔn)化來(lái)實(shí)現(xiàn)效率,通過(guò)組合的創(chuàng)新來(lái)實(shí)現(xiàn)效益,通過(guò)交付服務(wù)化實(shí)現(xiàn)便捷。如何保持擁抱云原生云原生是后云計(jì)算時(shí)代新一輪生產(chǎn)力的釋放,包含容器、微服務(wù)、Serverless、DevOps等天然具有敏捷彈性優(yōu)勢(shì)的技術(shù)、工具和方法論,是IT發(fā)展的必然趨勢(shì)?;谠圃M(jìn)行數(shù)據(jù)存儲(chǔ)、計(jì)算、治理、架構(gòu)等方面的優(yōu)化和創(chuàng)新,是大數(shù)據(jù)發(fā)展的必然之路。擁抱開(kāi)源開(kāi)源是學(xué)習(xí)成本縮減、技術(shù)創(chuàng)新加速的高效生產(chǎn)方式,愈發(fā)被國(guó)內(nèi)市場(chǎng)所接受。開(kāi)發(fā)者可以通過(guò)開(kāi)源社區(qū)快速、低成本的學(xué)習(xí)前沿技術(shù)。對(duì)于缺乏IT積累和專業(yè)人才的企業(yè),可以選擇更開(kāi)源兼容的服務(wù)商共同進(jìn)步。抽象、分層與服務(wù)化站在開(kāi)發(fā)者視角,需要意識(shí)到企業(yè)應(yīng)用和大數(shù)據(jù)的標(biāo)準(zhǔn)在短時(shí)間內(nèi)是難以實(shí)現(xiàn)統(tǒng)一的,且很難回到過(guò)去一家之言成為行業(yè)標(biāo)準(zhǔn)的時(shí)代。為了更好地應(yīng)對(duì)標(biāo)準(zhǔn)和需求的復(fù)雜,企業(yè)可以對(duì)自己的IT能力進(jìn)行抽象和分層,通過(guò)模塊的標(biāo)準(zhǔn)化來(lái)實(shí)現(xiàn)效率,通過(guò)組合的創(chuàng)新來(lái)實(shí)現(xiàn)效益,通過(guò)交付服務(wù)化實(shí)現(xiàn)便捷。建議三:具體選型建議三:具體選型PAGE37PAGE37選擇服務(wù)半徑更廣,發(fā)展路徑更契合的服務(wù)商云原生數(shù)據(jù)湖是企業(yè)級(jí)的綜合大數(shù)據(jù)解決方案,且實(shí)踐具有長(zhǎng)期性,伴隨企業(yè)的長(zhǎng)期IT能力升級(jí)。故而除了內(nèi)部能力(技術(shù)、產(chǎn)品、解決方案等)的評(píng)估外,云原生數(shù)據(jù)湖選型還需要格外關(guān)注廠商的外部能力和未來(lái)能力:是否有足夠豐富的生態(tài)合作伙伴來(lái)滿足企業(yè)不同場(chǎng)景的需求?技術(shù)演進(jìn)路線是否與企業(yè)匹配?是否能支持企業(yè)業(yè)務(wù)未來(lái)的拓展?企業(yè)需要更綜合的考慮,選擇整體服務(wù)能力更廣的服務(wù)商。云原生數(shù)據(jù)湖的選型矩陣發(fā)展路徑
廠商A
發(fā)展路徑
廠商B
發(fā)展路徑
廠商C內(nèi)部能力評(píng)估評(píng)估廠商本身的能力,包括云原生數(shù)據(jù)湖核心技術(shù)組件(存儲(chǔ)、計(jì)算、管理等)的性能和功能,以及整體解決方案的成熟性和性價(jià)比。生態(tài)能力評(píng)估云原生數(shù)據(jù)湖不是單一的存儲(chǔ)或者數(shù)據(jù)庫(kù)產(chǎn)品,而是面向企業(yè)大數(shù)據(jù)應(yīng)用的全生命周期解決方案。故而,企業(yè)在進(jìn)行選型時(shí),除了廠商本身的能力,還需要關(guān)注廠商的生態(tài)能力,是否有足夠的生態(tài)合作伙伴來(lái)共同支持企業(yè)的多元需求。內(nèi)部能力評(píng)估評(píng)估廠商本身的能力,包括云原生數(shù)據(jù)湖核心技術(shù)組件(存儲(chǔ)、計(jì)算、管理等)的性能和功能,以及整體解決方案的成熟性和性價(jià)比。生態(tài)能力評(píng)估云原生數(shù)據(jù)湖不是單一的存儲(chǔ)或者數(shù)據(jù)庫(kù)產(chǎn)品,而是面向企業(yè)大數(shù)據(jù)應(yīng)用的全生命周期解決方案。故而,企業(yè)在進(jìn)行選型時(shí),除了廠商本身的能力,還需要關(guān)注廠商的生態(tài)能力,是否有足夠的生態(tài)合作伙伴來(lái)共同支持企業(yè)的多元需求。未來(lái)能力評(píng)估云原生數(shù)據(jù)湖的部署并非一次性結(jié)束的短期項(xiàng)目,涉及企業(yè)長(zhǎng)期數(shù)據(jù)能力的發(fā)展,故而企業(yè)在選型時(shí)還需要關(guān)注廠商未來(lái)的發(fā)展路徑是否與自己的發(fā)展路線契合,是否能支持自身業(yè)務(wù)未來(lái)的拓展。選型矩陣闡述選擇整體服務(wù)能力更廣的服務(wù)商。生態(tài)能力來(lái)源:艾瑞咨詢研究院自主研究及繪制。PAGEPAGE38典型企業(yè)展示阿里云DatabricksCloudera阿里云阿里云PAGE39PAGE39率先入局?jǐn)?shù)據(jù)湖市場(chǎng),持續(xù)迭代服務(wù)全行業(yè)客戶數(shù)字化升級(jí)面對(duì)企業(yè)數(shù)據(jù)治理挑戰(zhàn)嚴(yán)峻、產(chǎn)品部署成本高企、大數(shù)據(jù)管理實(shí)施復(fù)雜和落地效果不及預(yù)期的痛點(diǎn),作為中國(guó)云計(jì)算與大數(shù)據(jù)前瞻的踐行者,阿里云率先布局?jǐn)?shù)據(jù)湖領(lǐng)域?;谑嗄甏髷?shù)據(jù)技術(shù)的實(shí)踐與探索,阿里云云原生數(shù)據(jù)湖解決方案不斷迭代升級(jí),至今已經(jīng)歷了三代發(fā)展,實(shí)現(xiàn)了存儲(chǔ)服務(wù)化、管理智能化、計(jì)算多元化等方面的日益完善,具備松耦合、積木化、廣兼容及低運(yùn)維的優(yōu)勢(shì)。在演進(jìn)的過(guò)程中,阿里云積累了互娛、社區(qū)、電商、金融、制造等多行業(yè)的服務(wù)案例,未來(lái)將在serverless化、智能化、實(shí)時(shí)化、平臺(tái)化、生態(tài)化等方面繼續(xù)深耕,持續(xù)賦能全行業(yè)客戶的數(shù)字化轉(zhuǎn)型升級(jí)。阿里云云原生數(shù)據(jù)湖解決方案:發(fā)展歷程與演進(jìn)路線Hive:基于
Presto:
E-MapReduce:
DeltaLake:存Serverless化將一切狀態(tài)化、分散化、不利于用戶運(yùn)維的產(chǎn)品繼續(xù)Serverless化Serverless化將一切狀態(tài)化、分散化、不利于用戶運(yùn)維的產(chǎn)品繼續(xù)Serverless化智能化產(chǎn)品部署、資源調(diào)用、后期運(yùn)維更加智能平臺(tái)化抽象大數(shù)據(jù)平臺(tái)底座,兼容不同能力資源生態(tài)化以湖為中心,提供多范式、生態(tài)化產(chǎn)品
開(kāi)源大數(shù)據(jù)開(kāi)發(fā)
儲(chǔ)層,實(shí)現(xiàn)數(shù)據(jù)可提供簡(jiǎn)單的SQL查
布式SQL
Spark:支持離平臺(tái)。
實(shí)時(shí)同步。詢功能。
查詢引擎。線批處理、SQL
Atlas
Hudi:流式數(shù)據(jù)湖平臺(tái)。Apache
Flink:開(kāi)
流式/實(shí)時(shí)等計(jì)
Ranger
Iceberg:提供Hadoop第一個(gè)版本發(fā)布。
源流處理框架。
算方式的引擎。Airflow:開(kāi)源的分布式任務(wù)調(diào)度框架。
于數(shù)據(jù)治理,開(kāi)放的通用表格式??蓪?shí)現(xiàn)基于分類的、跨組件式??蓪?shí)現(xiàn)基于分的權(quán)限控制。JindoFS:云上大數(shù)據(jù)存算分離方案。
DLF:業(yè)內(nèi)首個(gè)云原生企業(yè)級(jí)數(shù)據(jù)湖解決方案2006
2010
2011
2013 2014 2016 2017 2019 20202021務(wù),大規(guī)模、高性能。 數(shù)據(jù)湖1.0 2019 據(jù)湖2.0 存儲(chǔ) 存算分離,冷熱分層,以Hadoop生態(tài)為主。 對(duì)象存儲(chǔ)為中心,統(tǒng)一存儲(chǔ)承載生產(chǎn)業(yè)務(wù),大規(guī)模、高性能。
2021 據(jù)湖3.0 對(duì)象存儲(chǔ)OSS為中心,構(gòu)建企業(yè)級(jí)數(shù)據(jù)湖,全兼容、多協(xié)議、統(tǒng)一元數(shù)據(jù)。計(jì)算引擎以Hadoop和Spark為主,初步實(shí)現(xiàn)云原生化,但缺乏彈性及多樣性。計(jì)算管理熱數(shù)據(jù)存儲(chǔ)的Hadoop需要投入大量管理硬管理件運(yùn)維和擴(kuò)容任務(wù)。
云原生化、彈性化,但用戶仍需在計(jì)算側(cè)進(jìn)行自行搭建,且數(shù)據(jù)無(wú)法統(tǒng)一管理。元數(shù)據(jù)管理和協(xié)議轉(zhuǎn)換需用戶自行搭建,數(shù)據(jù)管理無(wú)法和對(duì)象存儲(chǔ)實(shí)現(xiàn)無(wú)縫融合。
與DLF、EMR等計(jì)算引擎無(wú)縫對(duì)接,不僅云原生化、彈性化,同時(shí)實(shí)時(shí)化、AI化、生態(tài)化。智能“建湖”和“治湖”:面向湖存儲(chǔ)+計(jì)算的一站式湖構(gòu)建和管理。來(lái)源:阿里云,艾瑞咨詢研究院自主研究及繪制。兼容、彈性、一站式的大數(shù)據(jù)架構(gòu),滿足企業(yè)多元洞察訴求基于云原生相關(guān)技術(shù)和計(jì)算存儲(chǔ)分離架構(gòu),阿里云推出了云原生企業(yè)級(jí)數(shù)據(jù)湖解決方案。在該架構(gòu)下,數(shù)據(jù)湖直接對(duì)接企業(yè)業(yè)務(wù)生產(chǎn)中心多源異構(gòu)的海量數(shù)據(jù),統(tǒng)一存儲(chǔ)于阿里云對(duì)象存儲(chǔ)OSS,彈性調(diào)用阿里云EMR、MaxCompute、PAI,以及Flink、Spark等主流開(kāi)源計(jì)算引擎,一站式滿足企業(yè)實(shí)時(shí)分析、交互查詢、智能探索等高
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度企業(yè)裁員補(bǔ)償解除勞動(dòng)合同賠償協(xié)議
- 二零二五年度鐵路貨運(yùn)合同貨物運(yùn)輸合同糾紛解決機(jī)制協(xié)議
- 2025年度消防隊(duì)與地方旅游企業(yè)共建消防安全協(xié)議書(shū)
- 二零二五年度美發(fā)店租賃合同附贈(zèng)營(yíng)銷策劃支持服務(wù)
- 2025年度醫(yī)藥衛(wèi)生行業(yè)競(jìng)業(yè)限制協(xié)議敬業(yè)精神規(guī)范書(shū)
- 2025年度文化娛樂(lè)產(chǎn)業(yè)股權(quán)收購(gòu)意向書(shū)
- 二零二五年度管道維修工程進(jìn)度管理與監(jiān)督合同
- 二零二五年度蔬菜產(chǎn)品追溯系統(tǒng)升級(jí)改造合同2025
- 2025星巴克加盟店環(huán)保責(zé)任履行合同3篇
- 二零二五版房地產(chǎn)測(cè)繪及不動(dòng)產(chǎn)登記信息共享服務(wù)合同3篇
- 農(nóng)藥合成研發(fā)項(xiàng)目流程
- 機(jī)電安裝工程安全管理
- 2024年上海市第二十七屆初中物理競(jìng)賽初賽試題及答案
- 信息技術(shù)部年終述職報(bào)告總結(jié)
- 理光投影機(jī)pj k360功能介紹
- 六年級(jí)數(shù)學(xué)上冊(cè)100道口算題(全冊(cè)完整版)
- 八年級(jí)數(shù)學(xué)下冊(cè)《第十九章 一次函數(shù)》單元檢測(cè)卷帶答案-人教版
- 帕薩特B5維修手冊(cè)及帕薩特B5全車電路圖
- 小學(xué)五年級(jí)解方程應(yīng)用題6
- 年月江西省南昌市某綜合樓工程造價(jià)指標(biāo)及
- 作物栽培學(xué)課件棉花
評(píng)論
0/150
提交評(píng)論