2022云原生湖倉一體白皮書

上傳人：策*** IP屬地：山西上傳時間：2023-02-05 格式：DOCX 頁數(shù)：56 大?。?.12MB 積分：19.9 舉報 版權(quán)申訴

已閱讀5頁，還剩51頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

(2022年)CloudNativeIndustryAlliance，CNIA編制說明峰、楊哲、丁冉、張立群、前言促進(jìn)數(shù)據(jù)基礎(chǔ)設(shè)施、關(guān)鍵技術(shù)、應(yīng)用治理等方面的健康有序發(fā)展。伴隨著行業(yè)用戶對于數(shù)據(jù)價值的深入挖掘，數(shù)據(jù)平臺和產(chǎn)品正在發(fā)揮著不可替代的創(chuàng)新引領(lǐng)作用。本白皮書首先介紹了數(shù)據(jù)平臺發(fā)展的三個重要階段，通過對于發(fā)展歷程的總結(jié)，引出了行業(yè)用戶在進(jìn)行數(shù)據(jù)分析和處理中面臨的瓶頸難題，并且重點(diǎn)從主要架構(gòu)、關(guān)鍵技術(shù)、方案特征、應(yīng)用價值等方面代表廠商和代表解決方案的分析，力求反應(yīng)現(xiàn)階段國內(nèi)湖倉生態(tài)現(xiàn)狀。最后，從銀行、保險、證券用戶單位的不同角度出發(fā)，開展了較為詳實(shí)的場景化應(yīng)用分析，并進(jìn)行了總結(jié)與展望。 (一)萌芽期：數(shù)據(jù)倉庫初探數(shù)據(jù)價值 1(二)上升期：大數(shù)據(jù)平臺挖掘數(shù)據(jù)價值 3(三)成熟期：湖倉一體全面展現(xiàn)數(shù)據(jù)價值 5 (一)行業(yè)用戶數(shù)據(jù)處理五大難題 7(二)解決數(shù)據(jù)處理瓶頸的最佳方案 11(三)云原生湖倉一體主要技術(shù)路線 23(四)云原生湖倉一體方案應(yīng)用價值 25 (一)國內(nèi)湖倉生態(tài)版圖 28(二)國際湖倉典型應(yīng)用 29 34 在全球數(shù)據(jù)產(chǎn)業(yè)蓬勃發(fā)展的背景下，數(shù)據(jù)系統(tǒng)正在發(fā)揮關(guān)鍵的支撐賦能作用，對于數(shù)據(jù)價值挖掘和業(yè)務(wù)創(chuàng)新發(fā)展起到重要影響。為了應(yīng)對各類用戶需求，衍生出了聚焦聯(lián)機(jī)事務(wù)處理、聯(lián)機(jī)分析計算、事務(wù)分析混合等不同場景的數(shù)據(jù)平臺。數(shù)據(jù)平臺作為企業(yè)數(shù)字化轉(zhuǎn)型的重要基礎(chǔ)設(shè)施，決定了企業(yè)對數(shù)據(jù)這一新興生產(chǎn)要素的應(yīng)用能力，對企業(yè)數(shù)字化轉(zhuǎn)型的成敗起到了至關(guān)重要的作用，其發(fā)展經(jīng)歷了三個時期。1.發(fā)展背景上世紀(jì)50-60年代，數(shù)據(jù)管理工具以“數(shù)據(jù)庫”的形式首次問世，先后基于網(wǎng)狀模型、層次模型、關(guān)系模型等不同的數(shù)據(jù)結(jié)構(gòu)，出現(xiàn)了er具代表性的傳統(tǒng)關(guān)系型數(shù)據(jù)庫，本質(zhì)上是通過結(jié)構(gòu)化查詢語句，對數(shù)、查操作，以實(shí)現(xiàn)在OLTP聯(lián)機(jī)事務(wù)處理場景下對于關(guān)系型表結(jié)構(gòu)數(shù)據(jù)的存儲和利用。業(yè)務(wù)數(shù)據(jù)庫產(chǎn)生負(fù)載，導(dǎo)致業(yè)務(wù)系統(tǒng)運(yùn)行速度降低。在日益激烈的市場競爭中，企業(yè)需要對積累的數(shù)據(jù)進(jìn)行分析，獲取更加準(zhǔn)確的決策信息來完成市場推廣、運(yùn)營管理等工作。由此，提出將歷史數(shù)據(jù)存儲到1OLAP系統(tǒng)數(shù)據(jù)庫性能的同時，可以更專注的提升數(shù)據(jù)分析效率，輔助企業(yè)決策。2.技術(shù)特性傳統(tǒng)關(guān)系型數(shù)據(jù)庫的技術(shù)架構(gòu)，尤其是OLTP數(shù)據(jù)庫在海量數(shù)據(jù)的存儲、查閱以及分析方面出現(xiàn)了明顯的性能瓶頸。隨著分布式技術(shù)的產(chǎn)生和發(fā)展，出現(xiàn)了以Teradata為代表的MPP一體機(jī)數(shù)據(jù)庫，以及Greenplum和Vertica等軟硬件分離的MPP數(shù)據(jù)庫，采用無共享架構(gòu)(Share-nothing)以支持?jǐn)?shù)據(jù)倉庫的建設(shè)。這個階段的主要任務(wù)是數(shù)據(jù)分析和決策支持類系統(tǒng)的建設(shè)，如數(shù)據(jù)倉庫、ODS、數(shù)據(jù)集市、應(yīng)用數(shù)據(jù)庫、歷史數(shù)據(jù)庫以及報表、分析報告、數(shù)據(jù)挖掘、客戶標(biāo)簽畫像等。3.階段特點(diǎn)該階段早期，不少企業(yè)直接采用了共享存儲(share-disk)架構(gòu)的Oracle和DB2，或是采用MPP無共享(Share-nothing)架構(gòu)的Teradata等產(chǎn)品，通?；谲浻惨惑w的專有服務(wù)器和昂貴的存儲，后雖然引入2點(diǎn)體現(xiàn)為：數(shù)據(jù)以結(jié)構(gòu)化為主，集群的擴(kuò)展能力有限。開始呈現(xiàn)出海量、異構(gòu)、多源等特點(diǎn)，傳統(tǒng)數(shù)據(jù)倉庫擴(kuò)容困難、處理數(shù)據(jù)類型單一的缺點(diǎn)開始逐漸暴露出來，也無法支撐越來越豐富的業(yè)務(wù)分析需求。1.發(fā)展背景展，數(shù)據(jù)規(guī)模呈幾何倍數(shù)增長，數(shù)據(jù)種類也變得更加豐富。傳統(tǒng)數(shù)據(jù)倉庫側(cè)重結(jié)構(gòu)化據(jù)處理時效性的需求，由此帶來了海量異構(gòu)數(shù)據(jù)存儲和處理等的諸多3大數(shù)據(jù)平臺開始受到關(guān)注，尤其受互聯(lián)網(wǎng)行業(yè)迅速發(fā)展的影響，大數(shù)據(jù)平臺迎來快速發(fā)展期。2.技術(shù)特性Hadoop平臺使用HDFS實(shí)現(xiàn)數(shù)據(jù)的分布式存儲，有效解決海量數(shù)據(jù)的存儲問題。與傳統(tǒng)數(shù)據(jù)倉庫相比，HDFS在支持存儲結(jié)構(gòu)化數(shù)據(jù)的同時還實(shí)現(xiàn)了非結(jié)構(gòu)化數(shù)據(jù)的存儲。HDFS不是一個單機(jī)文件系數(shù)據(jù)將分布在多個節(jié)點(diǎn)上。讀取文件時，數(shù)據(jù)從多個節(jié)點(diǎn)讀取。duceSpark且可以對存儲的數(shù)據(jù)進(jìn)行大規(guī)模并行處理。通過切片將大量復(fù)雜的任務(wù)分解成多個少量簡單的任務(wù)進(jìn)行處理，再對處理完成后的任務(wù)結(jié)果進(jìn)行匯總分類。3.階段特點(diǎn)apReduce量的不斷增大以及對于數(shù)據(jù)處理時效性的需求不斷升高。計算和存儲組件也在不斷的變化，以適應(yīng)不同場景的數(shù)據(jù)存儲與處理需求。大數(shù)據(jù)平臺底層存儲經(jīng)過了十余年發(fā)展，一直是HDFS一枝獨(dú)秀。大數(shù)據(jù)平臺在計算方面發(fā)展迅速，由于最初的MapReduce大規(guī)模批處理無法滿足海量數(shù)據(jù)處理的實(shí)時性，業(yè)界在計算方面設(shè)計了Spark快速批處理、Flink實(shí)時數(shù)據(jù)處理等計算框架。配合這些計算框4架的，還有像Sqoop這樣的數(shù)據(jù)流轉(zhuǎn)采集組件。在大數(shù)據(jù)分析和處理領(lǐng)域，Hadoop兼容體系已經(jīng)成為一個非常成熟的生態(tài)圈。Hadoop的誕生改變了企業(yè)對數(shù)據(jù)的存儲、處理和分析的過程，加速了大數(shù)據(jù)的發(fā)展，受到廣泛的應(yīng)用，給整個行業(yè)帶來了變革。隨著云計算時代的到來，企業(yè)開始對Hadoop的架構(gòu)進(jìn)行從基于物理集群到云原生化的改造。1.發(fā)展背景經(jīng)過前兩個階段的嘗試，更多的企業(yè)發(fā)現(xiàn)獨(dú)立構(gòu)建大數(shù)據(jù)平臺與數(shù)據(jù)倉庫平臺的技術(shù)架構(gòu)，已經(jīng)無法滿足某些場景下的業(yè)務(wù)需求。企ETL，完成湖倉獨(dú)立部署，這就是業(yè)內(nèi)常說的“Hadoop+MPP”模式,我們稱之為湖倉分體模式。湖倉分體模式最大的問題就是數(shù)據(jù)孤島和業(yè)務(wù)實(shí)時數(shù)據(jù)分析能力不足，因此面臨著數(shù)據(jù)多集群冗余存儲、集群規(guī)模受5限、業(yè)務(wù)的實(shí)時性不足、業(yè)務(wù)應(yīng)用開發(fā)敏捷需求不足等問題，這些需求和痛點(diǎn)促進(jìn)了湖倉一體技術(shù)的發(fā)展。2．技術(shù)特性湖倉一體方案應(yīng)該在數(shù)據(jù)和查詢層面形成一體化架構(gòu)，徹底解決實(shí)時性和并發(fā)度，以及集群規(guī)模受限、非結(jié)構(gòu)化數(shù)據(jù)無法整合、建模路徑冗長、數(shù)據(jù)一致性弱、性能瓶頸等問題，有效降低IT運(yùn)維成本和數(shù)據(jù)管理的技術(shù)門檻。所以，新時代需求的湖倉一體方案應(yīng)具備實(shí)時處理、數(shù)據(jù)共享、高并發(fā)、云原生等特性。3.階段特點(diǎn)云的普及讓業(yè)務(wù)上云成為趨勢，為了實(shí)現(xiàn)數(shù)據(jù)湖的靈活性和數(shù)倉的易用性、規(guī)范性、高性能結(jié)合起來的融合架構(gòu)，并且保證存儲和計算可以獨(dú)立的彈性擴(kuò)展和伸縮，數(shù)據(jù)平臺的設(shè)計出現(xiàn)了一個嶄新的架構(gòu)，即存算分離架構(gòu)。在此階段，Snowflake、Amazon、阿里云、偶數(shù)等企業(yè)相繼突破了傳統(tǒng)MPP和Hadoop的局限性，實(shí)現(xiàn)了存算分，優(yōu)勢明顯，缺點(diǎn)也同樣突出，而更為先進(jìn)的“湖倉原生一體”架構(gòu)在未來將更加契合用戶對于數(shù)據(jù)價值挖掘的訴求。6融行業(yè)的運(yùn)營管理人員每天都會采用報表數(shù)據(jù)來指導(dǎo)決策，由于業(yè)務(wù)的不斷增長，采集的數(shù)據(jù)復(fù)雜度越來越高，管理者希望能第一時間掌握市場動態(tài)，以便及時做出有利于業(yè)務(wù)發(fā)展的決策。為了滿足業(yè)務(wù)應(yīng)用發(fā)展要求，數(shù)據(jù)處理通常會遇到各種挑戰(zhàn)。數(shù)據(jù)加工過程中，需要耗費(fèi)大量時間，完成各種業(yè)務(wù)數(shù)據(jù)加工處故障，造成數(shù)據(jù)不一致，從而影響數(shù)據(jù)分析結(jié)果；數(shù)據(jù)應(yīng)用過程中，都要通過各種條件限制，以控制查詢的數(shù)據(jù)規(guī)模；數(shù)據(jù)系統(tǒng)升級過程段數(shù)據(jù)處理瓶頸的五大難題。1.數(shù)據(jù)處理面臨數(shù)據(jù)孤島的難題很多企業(yè)的數(shù)據(jù)平臺都是經(jīng)過多次系統(tǒng)迭代和技術(shù)升級后建設(shè)業(yè)的數(shù)據(jù)平臺往往存在多個數(shù)據(jù)庫集群，每個數(shù)據(jù)庫就是一個數(shù)據(jù)孤7島和煙囪，甚至因數(shù)據(jù)庫產(chǎn)品的擴(kuò)展性，還可能導(dǎo)致MPP和Hadoop集群建設(shè)多套的情況，形成更多的孤島和煙囪。這些數(shù)據(jù)孤島和煙囪的出現(xiàn)在存儲、開發(fā)、運(yùn)維、治理等多個方面帶來了影響。數(shù)據(jù)存儲方面，多個獨(dú)立數(shù)據(jù)庫集群中都放了同樣的的資源成本的浪費(fèi)。數(shù)雜，不同集群之間的時序、數(shù)據(jù)同步流程多。這種情況會導(dǎo)致數(shù)據(jù)庫產(chǎn)品技術(shù)門檻多，對于技術(shù)人員的素質(zhì)要求高；集群之間需要大量的據(jù)開發(fā)的總體工作量大約增加了1倍左右。從項(xiàng)目管理的角度看大約增加了1倍的成本；同時，作業(yè)的鏈路延長，大大降低了數(shù)據(jù)時效。比較多。數(shù)據(jù)治理方面，基于多份數(shù)據(jù)進(jìn)行維護(hù)，可能會導(dǎo)致數(shù)據(jù)不一致，數(shù)據(jù)質(zhì)量等問題，數(shù)據(jù)治理難度大，浪費(fèi)的成本難以估量。82.數(shù)據(jù)處理面臨性能瓶頸的難題傳統(tǒng)數(shù)據(jù)平臺的計算性能不能滿足業(yè)務(wù)需求，大體上有兩種情況：一方面因數(shù)據(jù)平臺的數(shù)據(jù)處理、業(yè)務(wù)查詢時間長，性能慢，無法滿足業(yè)務(wù)需求，需要在業(yè)務(wù)流程和用戶端進(jìn)行規(guī)避，導(dǎo)致用戶體驗(yàn)很差。另一方面部分企業(yè)為了提高性能，在數(shù)據(jù)平臺之上架設(shè)一個或多個內(nèi)存查詢引擎，這種方式犧牲了ACID和兼容性。性能不足的問題影響運(yùn)營、決策效率、無法支撐業(yè)務(wù)運(yùn)行對時延語法兼容性；部分計算引擎只支持簡單查詢，缺少復(fù)雜關(guān)聯(lián)分析能力。3.數(shù)據(jù)處理面臨高并發(fā)復(fù)雜查詢的難題隨著移動互聯(lián)網(wǎng)的發(fā)展，很多業(yè)務(wù)逐步開放至更多的人員參與，上市公司數(shù)據(jù)等各類場景。但是傳統(tǒng)數(shù)倉、Hadoop僅支持幾十并發(fā)，導(dǎo)致分庫、分表，限制業(yè)務(wù)部門使用，限制查詢，對很多新型的業(yè)務(wù)沒有很好的支撐。為了保證各類查詢同時進(jìn)行，采用很多計算引擎分流的方式實(shí)現(xiàn)，如：實(shí)時計算、批處理、固定報表、即席查詢等廠家分別由不同計算撐多業(yè)務(wù)場景。4.數(shù)據(jù)處理面臨實(shí)時處理的難題9Gartner定義的實(shí)時數(shù)據(jù)處理的包括三個階段：第一階段，Real-TimeContinuousIntelligence：對事件做出實(shí)時處理響應(yīng)，包括指標(biāo)對比，告警，趨勢分析，自動決策；第二階段，Real-Time,On-DemandIntelligence：生成報告，支持即席查詢，延伸數(shù)據(jù)探索，記錄操作流程；查詢，實(shí)時決策，建模及長期決策；對應(yīng)的在實(shí)時分析處理中按照事件的發(fā)生時間長短可以總結(jié)為：事件發(fā)生同時的實(shí)時流處理、事件發(fā)生短時間內(nèi)的實(shí)時按需分析、事件發(fā)生后較長時間的離線分析。傳統(tǒng)數(shù)據(jù)處理平臺不能完全滿足實(shí)時數(shù)據(jù)分析需求，存在以下問題：實(shí)時數(shù)據(jù)與批量數(shù)據(jù)的關(guān)聯(lián)查詢，有實(shí)時數(shù)據(jù)與維表關(guān)聯(lián)查詢，有實(shí)時數(shù)據(jù)與事實(shí)數(shù)據(jù)關(guān)聯(lián)查詢，離線數(shù)據(jù)量大現(xiàn)有平臺難以支撐；多庫數(shù)據(jù)無法實(shí)時歸集，按需查詢需求無法滿足；交易型數(shù)據(jù)庫無法支持頻繁、復(fù)雜的查詢，為保證數(shù)據(jù)庫的穩(wěn)定，只能限制查詢；現(xiàn)有基于Flink和Kafka的流處理平臺，不支持?jǐn)?shù)據(jù)血緣，不能支持即席按需查詢分析等。5.數(shù)據(jù)處理面臨資源彈性伸縮的難題傳統(tǒng)數(shù)據(jù)平臺因技術(shù)架構(gòu)的局限性，對敏捷彈性資源管理支持度捷管理難題基本可以分為敏捷應(yīng)用響應(yīng)難題、如何實(shí)現(xiàn)資源彈性合理調(diào)配使用。敏捷應(yīng)用響應(yīng)難題主要體現(xiàn)為：傳統(tǒng)MPP上線新應(yīng)用的資源分配周期長，無法滿足業(yè)務(wù)端快速試錯、快速布局的訴求；超過集群規(guī)模上限時，性能不增反減，約減少50%以上；集群擴(kuò)容耗時很長，停機(jī)維護(hù)影響業(yè)務(wù)等。要體現(xiàn)為：在非云環(huán)境，資源不能共享，資源以獨(dú)占的方式使用，利用率很低；資源不夠時無法彈性擴(kuò)展，資源空閑時無法分配給需要的用戶，無法做到削峰填谷，提高資源利用率。通過對于現(xiàn)階段數(shù)據(jù)分析存在的瓶頸和難題進(jìn)行深入分析，我們發(fā)現(xiàn)，為了解決數(shù)據(jù)孤島、性能不足、高并發(fā)、實(shí)時處理和資源彈性問題，可以嘗試以下的解決方案：要引入多主節(jié)點(diǎn)技術(shù)實(shí)現(xiàn)分析型數(shù)據(jù)平臺上的高并發(fā)，將并發(fā)，無法同時處理實(shí)時和數(shù)據(jù)規(guī)模比較大的歷史數(shù)據(jù)相結(jié)合的實(shí)時業(yè)務(wù)場景，需要引進(jìn)支持海量數(shù)據(jù)下實(shí)現(xiàn)高性能高并發(fā)以及具備資源隔離的支持多租戶各自獨(dú)立擴(kuò)展，同時，對于資源的使用無法實(shí)現(xiàn)根據(jù)業(yè)務(wù)需要同時考慮到以上計算存儲分離、彈性可擴(kuò)展架構(gòu)、ACID特性、SQL標(biāo)準(zhǔn)支持、高性能并行執(zhí)行等方面的能力，基于云原生技術(shù)架構(gòu)的云原生湖倉一體產(chǎn)品，可以通過云平臺構(gòu)建、部署和交付的數(shù)據(jù)服務(wù)，提供可擴(kuò)展的、高可靠的數(shù)據(jù)解決方案。1.云原生湖倉一體典型架構(gòu)Gartner認(rèn)為湖倉一體是將數(shù)據(jù)湖的靈活性和數(shù)倉的易用性、規(guī)范性、高性能結(jié)合起來的融合架構(gòu)，無數(shù)據(jù)孤島。云原生湖倉一體就數(shù)據(jù)湖和數(shù)據(jù)倉庫兩個平臺合為一個平臺，并依托云原生的特性，支持基于數(shù)據(jù)湖的普通存儲硬件和存儲引擎以及數(shù)據(jù)倉庫的多功能高性能分析引擎，實(shí)現(xiàn)對海量原始數(shù)據(jù)(結(jié)構(gòu)化、非結(jié)構(gòu)化、流式數(shù)據(jù)、圖數(shù)據(jù))以及潔凈數(shù)據(jù)(對原始數(shù)據(jù)進(jìn)行治理和分析后的數(shù)據(jù))統(tǒng)一存儲、分析、管理，集群可在線擴(kuò)容到幾千節(jié)點(diǎn)。支持?jǐn)?shù)據(jù)倉庫ETL及數(shù)據(jù)資產(chǎn)動化機(jī)器學(xué)習(xí)，支持無代碼/低代碼數(shù)2.云原生湖倉一體關(guān)鍵技術(shù)(1)存算分離技術(shù)在云原生數(shù)據(jù)庫出現(xiàn)之前，由于單機(jī)吞吐量和集群網(wǎng)絡(luò)帶寬限制等因素，數(shù)據(jù)庫集群部署都是存儲和計算在一起，讓計算靠近數(shù)據(jù)，而不是將數(shù)據(jù)傳輸?shù)接嬎愎?jié)點(diǎn)，這種方式可以產(chǎn)生更少的數(shù)據(jù)遷移，降低機(jī)器間、機(jī)柜間的網(wǎng)絡(luò)帶寬消耗。隨著數(shù)據(jù)量的增長，無論是計算還是存儲先達(dá)到瓶頸，都必須同時對計算和擴(kuò)展進(jìn)行擴(kuò)展，因此就會存在不少浪費(fèi)，并且擴(kuò)展需要大量數(shù)據(jù)移動，非常不方便。計算與存儲的解耦，可以讓我們更加方便的管理計算與存儲資源。在大規(guī)模數(shù)據(jù)處理場景下，管理員可以快速的單獨(dú)擴(kuò)展計算或存儲資了統(tǒng)一存儲，可以被多種計算引擎所共享。因此，存算分離是湖倉一體平臺必備的技術(shù)之一。算層與存儲層的映射關(guān)系，節(jié)點(diǎn)異常處理、如何保證讀寫一致等問題。通常是云原生數(shù)據(jù)庫的重要特性之一。(2)高性能計算引擎技術(shù)存算分離以后勢必帶來更多的網(wǎng)絡(luò)開銷，影響數(shù)據(jù)庫集群的整體性能。因而需要通過其他方面的增強(qiáng)來彌補(bǔ)這一損耗。其中一個重要的途徑就是通過優(yōu)化計算引擎來增強(qiáng)性能。采用基于代價的優(yōu)化器(CBO)，通過算法來動態(tài)選擇每個SQL的最優(yōu)查詢計劃，彈性的執(zhí)行引擎可以動態(tài)調(diào)整計算單元，使得資源使用更加合理和高效。在計算層通過使用向量化執(zhí)行器可以大大提升SQL的執(zhí)行速度，由于存算分離會帶來額外的網(wǎng)絡(luò)開銷，因此計算層采用分布式的緩存服務(wù)，采用基于LRU協(xié)議的緩存管理機(jī)制，用戶還可根據(jù)情況動態(tài)配置緩存空間的大小，緩存支持使用內(nèi)存和計算節(jié)點(diǎn)的本地磁盤空間。節(jié)點(diǎn)之間的通訊協(xié)議，改為采用UDP的互聯(lián)協(xié)議，可以大大提升通訊效率。性能的提升意味著在單位時間內(nèi)云原生湖倉一體平臺可以處理更多的數(shù)據(jù)。(3)多活主節(jié)點(diǎn)支持超高并發(fā)云原生湖倉一體平臺的主節(jié)點(diǎn)采用多活主節(jié)點(diǎn)集群部署，主節(jié)點(diǎn)采用無狀態(tài)設(shè)計，各主節(jié)點(diǎn)之間沒有相互依賴關(guān)系，不存儲任何元數(shù)據(jù)。用戶可以非常方便的對主節(jié)點(diǎn)集群進(jìn)行擴(kuò)展，以處理更多的連接請求(JDBC/ODBC)。主節(jié)點(diǎn)可以在線增減，實(shí)現(xiàn)資源的動態(tài)調(diào)度。例如當(dāng)用戶請求越來越多時，用戶可以根據(jù)情況隨意增加一個或多個主節(jié)點(diǎn)，反之則可以減少一個或多個主節(jié)點(diǎn)。主節(jié)點(diǎn)的動態(tài)增減不會影響數(shù)據(jù)庫的服務(wù)。當(dāng)主節(jié)點(diǎn)集群中某個節(jié)點(diǎn)出現(xiàn)故障時，也不會影響整個集群的可用性。支持用戶可視化的方式輕松完成擴(kuò)容。(4)元數(shù)據(jù)集群高可用元數(shù)據(jù)集群架構(gòu)采用P2P去中心化完全對等網(wǎng)絡(luò)架構(gòu)，集群內(nèi)無固定主節(jié)點(diǎn)，通過一致性協(xié)議算法實(shí)現(xiàn)節(jié)點(diǎn)的數(shù)據(jù)同步，當(dāng)某一節(jié)點(diǎn)保了元數(shù)據(jù)的安全。各個主節(jié)點(diǎn)將同時并發(fā)連接每個元數(shù)據(jù)節(jié)點(diǎn)，因此，元數(shù)據(jù)集群內(nèi)不存在單點(diǎn)瓶頸，實(shí)現(xiàn)了元數(shù)據(jù)讀寫的負(fù)載均衡。(5)多虛擬計算集群支持混合負(fù)載在存算分離基礎(chǔ)上，多虛擬計算集群支持對用戶訪問的CPU和內(nèi)存資源的物理隔離。多虛擬計算集群(VirtualCluster)可以將一個超大規(guī)模計算節(jié)點(diǎn)根據(jù)負(fù)載情況劃分為多個虛擬計算子集群。數(shù)據(jù)庫管理員可通過配置，將用戶與某個VC進(jìn)行綁定。當(dāng)用戶發(fā)起執(zhí)行請對應(yīng)的VC資源來執(zhí)行，當(dāng)VC資源不速增加從其他VC中調(diào)度計算資源來給VC進(jìn)行擴(kuò)以大大提高資源利用率，從而減少硬件資源的投入。(6)可插拔存儲框架可插拔存儲框架實(shí)現(xiàn)計算資源可同時訪問不同類型的存儲，如：HDFS存儲、基于S3協(xié)議的對象存儲以及分布式表存儲。通過可插通過配置，新增一套或多套存儲系統(tǒng)，并且這種異構(gòu)的存儲對于用戶訪問是透明的，即用戶無需知道數(shù)據(jù)存放在哪種存儲上，而是直接通過表名讀寫數(shù)據(jù)。可插拔存儲框架還可以支持二次開發(fā)，用戶可通過二次開發(fā)使得計算引擎對接未來新出現(xiàn)的存儲系統(tǒng)。平臺可以對接多套HDFS，并且對用戶無感。(7)多虛擬存儲集群實(shí)現(xiàn)磁盤IO的隔離上述的可插拔存儲框架實(shí)現(xiàn)了計算資源與存儲的對接，但是在實(shí)際使用中，依然存在著存儲中磁盤IO資源的競爭，因此多虛擬存儲的功能實(shí)現(xiàn)類似于HDFS的聯(lián)邦功能。多虛擬存儲集群支持用戶將多套HDFS集群或分布式表存儲集群劃分為一套虛擬存儲集群(VirtualStorageCluster)。開發(fā)人員在進(jìn)行數(shù)據(jù)建模時，可以根據(jù)磁盤IO的負(fù)載情況，將不同負(fù)載的表建在不同的VSC中，就可實(shí)現(xiàn)負(fù)載的隔綁定關(guān)系，可以被任意的計算資源訪問，保證了數(shù)據(jù)的共享。同時，云原生湖倉一體平臺根據(jù)使用量自動將不同的表分布到統(tǒng)一VSC中的不同HDFS集群或分布式表存儲集群中，從而實(shí)現(xiàn)數(shù)據(jù)的均勻分布?；谶@個特性，用戶在進(jìn)行存儲擴(kuò)容時就實(shí)現(xiàn)在線的秒級擴(kuò)容而無須進(jìn)行數(shù)據(jù)重分布。當(dāng)某一VSC存儲空間不夠時，用戶可以新部署一套HDFS集群加入到VSC中，即實(shí)現(xiàn)了存儲空間的擴(kuò)容，又無須進(jìn)行人工干預(yù)。(8)高性能分布式表存儲支持實(shí)時數(shù)據(jù)讀寫在實(shí)時場景中，數(shù)據(jù)往往是逐條進(jìn)行插入、更新或刪除，這種對HDFS或?qū)ο蟠鎯H適合對景的業(yè)務(wù)需求。因此，云原生湖倉一體平臺需要引入分布式表存儲支持高并發(fā)、事務(wù)以及提供索引，并且原生支持?jǐn)?shù)據(jù)更新和刪除。在云湖倉一體平臺的架構(gòu)中，分布式表存儲與HDFS、對象存儲平行，是能夠獨(dú)立運(yùn)行的存儲系統(tǒng)，不依賴第三方組件。分布式表存儲的主要特性有：?采用完全點(diǎn)對點(diǎn)(P2P)無中心分布式存儲(相比主從架構(gòu)更容易管理更容易擴(kuò)展)?結(jié)構(gòu)化數(shù)據(jù)定義存儲(不是簡單鍵值對形式存儲)?支持?jǐn)?shù)據(jù)的增刪改查(提供真正的INSERTUPDATEDELETE?支持基于Raft協(xié)議數(shù)據(jù)復(fù)制實(shí)現(xiàn)數(shù)據(jù)存儲和訪問服務(wù)的高可用?支持基于多版本MVCC的分布式事務(wù)特性?目前提供針對分析型負(fù)載的高性能數(shù)據(jù)查詢能力(行列混合存儲格式)?支持?jǐn)?shù)據(jù)索引功能(包括主鍵索引，非主鍵索引)?整合數(shù)據(jù)預(yù)處理技術(shù)提升數(shù)據(jù)查詢性能(非純粹的數(shù)據(jù)存儲實(shí)現(xiàn)，具有內(nèi)建計算能力)?便捷的集群動態(tài)擴(kuò)展?自動集群容錯和負(fù)載均衡能力從讀寫性能的角度比較，分布式表存儲的性能優(yōu)于HDFS，HDFS的性能優(yōu)于對象存儲。因此，在實(shí)際使用中通常會把T+0的實(shí)時數(shù)據(jù)寫入分布式表存儲，T+1的批量數(shù)據(jù)寫入HDFS，而對象存儲由于更據(jù)。從用戶視角看，開發(fā)人員需要基于不同使用場景把不同的表建立到不同的存儲中，在之后的使用中則不再感知異構(gòu)的存儲，也就是說用戶直接通過表名即可查詢各種類型存儲中的數(shù)據(jù)，也可以把存儲在不同類型存儲中的數(shù)據(jù)進(jìn)行關(guān)聯(lián)查詢、計算、比較等不同的操作。如下圖所示：(9)Hadoop生態(tài)兼容能力云原生湖倉一體平臺可以直接使用Hadoop生態(tài)普遍使用的HDFS來作為數(shù)據(jù)存儲，同時存儲格式使用開源社區(qū)比較通用的orc理的數(shù)據(jù)表也同樣可以被Hive訪問。程或結(jié)果數(shù)據(jù)，另一類是通過CDC工具采集的實(shí)時變化的數(shù)據(jù)。云原生湖倉一體平臺支持這兩類數(shù)據(jù)的同時讀寫。例如：Flink可直接使用SQL直接查詢。此外，云原生湖倉一體平臺支持使用Hudi、Iceberg開源數(shù)據(jù)湖格式，用戶也可以選擇將實(shí)時數(shù)據(jù)直接寫為Hudi或Iceberg格式，這樣可以將數(shù)據(jù)統(tǒng)一存儲到HDFS中，實(shí)現(xiàn)數(shù)據(jù)的物理統(tǒng)一。3.云原生湖倉一體六大特性對于上述云原生湖倉一體的關(guān)鍵技術(shù)，我們從用戶角度概括成六個代表字母的ANCHOR特性。A(AllDataTypes:支持多類型數(shù)據(jù))、N(NativeonCloud:云原生)、C(Consistency:數(shù)據(jù)一致性)、H(HighConcurrency:超高并發(fā))、O(OneCopyofData:一份數(shù)據(jù))、R(Real-Time:實(shí)時T+0)。?支持多類型數(shù)據(jù)(AllDataTypes,Structured&Unstructured)：支持關(guān)系表、文本、圖像、視頻等結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)?云原生(NativeonCloud)：適合云環(huán)境，自由增減計算和存?數(shù)據(jù)一致性(Consistency)：通過完善的事務(wù)機(jī)制，保障不同用戶同時查詢和更新同一份數(shù)據(jù)時的一致性。?超高并發(fā)(HighConcurrency)：支持?jǐn)?shù)十萬用戶使用復(fù)雜分析查詢并發(fā)訪問同一份數(shù)據(jù)。?一份數(shù)據(jù)(OneCopyofData)：所有用戶(BI用戶、數(shù)據(jù)科學(xué)家等)可以共享同一份數(shù)據(jù)，避免數(shù)據(jù)孤島。?實(shí)時T+0(Real-Time)：通過全量數(shù)據(jù)T+0的流處理和實(shí)時據(jù)的事前預(yù)測、事中判斷和事后分析。1.主要技術(shù)路線對比分析目前，常見的湖倉一體技術(shù)方案主要有兩大類型：基于傳統(tǒng)Hadoop架構(gòu)的方案，以及基于云原生數(shù)據(jù)倉庫架構(gòu)的方案?；趥鹘y(tǒng)Hadoop的方案主要從事務(wù)特性出發(fā)進(jìn)行優(yōu)化，基于HDFS或S3實(shí)現(xiàn)一個支持事務(wù)的存儲層，其他方面與Hadoop區(qū)別不大。而云原生數(shù)據(jù)倉庫，其存算分離特性更具有技術(shù)前瞻性，該架構(gòu)將是未來的發(fā)展趨勢。傳統(tǒng)數(shù)據(jù)倉庫傳統(tǒng)數(shù)據(jù)湖平臺進(jìn)性離高中低高低低事務(wù)ACID事務(wù)ACID支持差模>1000001001000L非引擎儲：HDFSS/Magma儲FSS格式Hudi等否否一體ushuDB否否一份數(shù)據(jù)低低高度低低高2.云原生湖倉一體的建設(shè)路徑從云原生湖倉一體平臺的建設(shè)方式上，企業(yè)可以結(jié)合業(yè)務(wù)情況、已有數(shù)據(jù)平臺情況等方面出發(fā)進(jìn)行建設(shè)路徑的規(guī)劃，主要有以下三種建設(shè)途徑：?從數(shù)據(jù)倉庫到云原生湖倉一體企業(yè)目前數(shù)據(jù)類應(yīng)用主要集中在數(shù)據(jù)倉庫，而且總體數(shù)據(jù)量也不生的湖倉一體平臺建設(shè)。首先從數(shù)據(jù)倉庫開始進(jìn)行技術(shù)平臺的升級，選擇云原生的數(shù)據(jù)庫產(chǎn)品進(jìn)行數(shù)據(jù)倉庫的遷移替換，將底層“倉”的存儲和“湖”的存儲現(xiàn)數(shù)據(jù)打通，建立統(tǒng)一的數(shù)據(jù)模型。?從數(shù)據(jù)湖到云原生湖倉一體采用從數(shù)據(jù)湖到湖倉一體的建設(shè)方式，最終實(shí)現(xiàn)云原生湖倉一體平臺。在現(xiàn)有的數(shù)據(jù)湖上進(jìn)行技術(shù)平臺升級，在湖上增加具備數(shù)據(jù)倉庫計算能力的組件并將新的業(yè)務(wù)應(yīng)用部署到湖倉一體平臺上，逐步將原有的數(shù)據(jù)倉庫和集市的數(shù)據(jù)和應(yīng)用都遷移到湖倉一體平臺上。?數(shù)據(jù)湖和數(shù)據(jù)倉庫融合建設(shè)倉融合為一個產(chǎn)品的解決方案，底層的數(shù)據(jù)產(chǎn)品均具備云原生特性、計算存儲分離彈性可擴(kuò)展架構(gòu)、強(qiáng)ACID特性、強(qiáng)SQL標(biāo)準(zhǔn)支持、高性能并行執(zhí)行能力。使用一個入口，并保證強(qiáng)事務(wù)一致性。一的數(shù)據(jù)模型進(jìn)行管理，并只保留一份。工序，數(shù)據(jù)存儲原則等。最終完成云原生湖倉一體平臺的建設(shè)。1.用戶體驗(yàn)的提升云原生湖倉一體平臺能夠大大提升用戶的數(shù)據(jù)服務(wù)體驗(yàn)：管理人員：一個湖倉一體的平臺可以統(tǒng)一運(yùn)營企業(yè)內(nèi)所有應(yīng)用的數(shù)據(jù)，不需要單獨(dú)考慮不同數(shù)據(jù)平臺產(chǎn)品的部署、招標(biāo)采購、擴(kuò)容等問題，提升了管理決策的效率，降低了管理運(yùn)營的成本。降低。而且湖倉一體平臺存算分離的架構(gòu)，支持計算資源與存儲資源的單獨(dú)橫向擴(kuò)容和縮容，給日常的升級維護(hù)帶來極大的便利。業(yè)務(wù)人員：湖倉一體平臺實(shí)現(xiàn)超高的并發(fā)，一個平臺支撐所有數(shù)據(jù)存儲、計算、分析的需求，并提供面向業(yè)務(wù)部門的自助數(shù)據(jù)分析服務(wù)，在實(shí)際工作中不需要切換平臺進(jìn)行業(yè)務(wù)實(shí)現(xiàn)；數(shù)據(jù)底層共用一份數(shù)據(jù)，用戶之間可以很方便地共享數(shù)據(jù)。2.數(shù)據(jù)平臺運(yùn)營成本下降云原生湖倉一體平臺支持資源物理隔離，按照業(yè)務(wù)需求分配資源，大大提升資源利用率、硬件資源池按需建設(shè)，采購規(guī)模下降、折舊減少。通過湖倉一體平臺可以有效降低數(shù)據(jù)平臺運(yùn)營成本，主要體現(xiàn)在?湖倉一體平臺完成了數(shù)據(jù)倉庫、數(shù)據(jù)集市和數(shù)據(jù)湖的數(shù)據(jù)整省大約3倍-5倍存儲空間和資源成本。?平臺基于一份數(shù)據(jù)，避免了不同數(shù)據(jù)平臺間的數(shù)據(jù)傳輸和拷貝，一般在數(shù)據(jù)處理任務(wù)中數(shù)據(jù)同步作業(yè)占到總作業(yè)量50%左右。開發(fā)工作量可以節(jié)省1倍左右、平臺算力資源節(jié)省1?湖倉一體平臺基于云平臺進(jìn)行部署，不再依賴底層單節(jié)點(diǎn)的計算和存儲資源，由云平臺統(tǒng)一進(jìn)行合理的安排和管理。不同配置的服務(wù)器都可以通過云平臺提供算力資源和存儲資源。3.管理、開發(fā)和運(yùn)維的效率提升和業(yè)務(wù)部門的協(xié)同工作效率，降低管理成本，具體體現(xiàn)在以下方面：?管理人員相比原來的平臺可以近乎實(shí)時的了解企業(yè)業(yè)務(wù)現(xiàn)狀，第一時間做出決策；?運(yùn)維人員僅需維護(hù)和管理一個平臺，極大地減少了運(yùn)維壓力?湖倉一體平臺能夠超高并發(fā)的處理多業(yè)務(wù)場景，不需要額外學(xué)習(xí)其他產(chǎn)品，有效地降低了技術(shù)開發(fā)門檻。?平臺基于一份數(shù)據(jù)，還降低了數(shù)據(jù)治理難度。降低了數(shù)據(jù)治理類項(xiàng)目成本投入；避免了數(shù)據(jù)同步作業(yè)開發(fā)，開發(fā)工作量節(jié)省1倍左右、減少1倍左右的項(xiàng)目成本；同時，作業(yè)的鏈?云原生湖倉一體平臺具備的實(shí)時特性支持業(yè)務(wù)創(chuàng)新，增強(qiáng)用戶體驗(yàn)，可以讓用戶與金融行業(yè)的企業(yè)之間互動更加頻繁，帶來最佳用戶體驗(yàn)，形成業(yè)務(wù)發(fā)展的新模式，帶來新價值。覆蓋銀行、券商、保險等細(xì)分領(lǐng)域，可以幫助企業(yè)應(yīng)對數(shù)字化轉(zhuǎn)型過程中的創(chuàng)新難題。2020年，大數(shù)據(jù)DataBricks公司首次提出了湖倉一體(Data出就得到眾多廠商的推崇。湖倉一體技術(shù)依托硬件層提供的計算、存儲、網(wǎng)絡(luò)能力，實(shí)現(xiàn)數(shù)據(jù)采集、匯聚、計算、分析，是整個“湖倉一體”的生態(tài)基石。湖倉一體通過基礎(chǔ)軟件層的技術(shù)創(chuàng)新，打破了數(shù)據(jù)湖與數(shù)據(jù)倉庫在存儲、計算、網(wǎng)絡(luò)三個層面割裂的體系，并將數(shù)據(jù)湖的靈活性、生態(tài)豐富能力與數(shù)據(jù)倉庫的企業(yè)級部署能力進(jìn)行融合，構(gòu)建了數(shù)據(jù)湖和數(shù)據(jù)倉庫相融合的數(shù)據(jù)管理平臺。“湖倉一體”繼承了數(shù)據(jù)倉庫的數(shù)據(jù)處理和管理優(yōu)勢，打通了數(shù)據(jù)湖和數(shù)據(jù)倉庫兩套體系，讓數(shù)據(jù)和計算在湖和倉之間自由流動，既能面向業(yè)務(wù)實(shí)現(xiàn)高并發(fā)、精準(zhǔn)化、高性能的數(shù)據(jù)實(shí)時查詢服務(wù)，又能承載分析報表、批處理、數(shù)據(jù)挖掘等分析型業(yè)務(wù)。軟件層面，企業(yè)在數(shù)據(jù)接入、數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)分析等不同技術(shù)方向做出了新的嘗試。在服務(wù)層面，根據(jù)不同行業(yè)場景的具體應(yīng)用需求，各大廠商紛紛為用戶提供行業(yè)定制化的解決方案，幫助企業(yè)解決數(shù)據(jù)孤島、實(shí)時數(shù)據(jù)分析、高性能處理、高并發(fā)查詢、資源彈性伸縮等難題。為企業(yè)提供安全可靠的“湖倉一體解決方案”，構(gòu)建融合創(chuàng)新的新一代數(shù)據(jù)平1.Lambda數(shù)據(jù)框架Lambda數(shù)據(jù)處理框架由Storm的作者NathanMarz首次提出，目標(biāo)是設(shè)計出一個能滿足實(shí)時大數(shù)據(jù)系統(tǒng)關(guān)鍵特性的架構(gòu)，整合離線計算和實(shí)時計算，讀寫分離和復(fù)雜性隔離等，可集成Hadoop，Kafka，Storm，Spark，Hbase等各類大數(shù)據(jù)組件。Lambda架構(gòu)通過把數(shù)據(jù)分解為服務(wù)層(ServingLayer)、速度層(SpeedLayer，亦即流處理層)、批處理層(BatchLayer)三層來解決不同數(shù)據(jù)集的數(shù)據(jù)需求。在批處理層主要對離線數(shù)據(jù)進(jìn)行處理，將接進(jìn)行完整的計算，最后以批視圖的形式提供給業(yè)務(wù)應(yīng)用。由于服務(wù)層通常使用MySQL，HBase等實(shí)現(xiàn)，供業(yè)務(wù)應(yīng)用查詢圖通常就是MySQL中的表信息，流處理作業(yè)在新數(shù)據(jù)到來后不停更戶需求把批處理層和流處理層產(chǎn)生的數(shù)據(jù)合并到一起得到最終的數(shù)2.Kappa數(shù)據(jù)框架Kappa架構(gòu)在Lambda架構(gòu)的基礎(chǔ)上移除了批處理層，利用流計a處理的對象是所有歷史數(shù)據(jù)和當(dāng)前數(shù)據(jù)，其產(chǎn)生的結(jié)果我們稱之為實(shí)時批視圖(Realtime_Batch_View)。ka (StreamJob_Version_N+1),該作業(yè)會從Kafka中讀取所有歷史數(shù)據(jù)和新增數(shù)據(jù)，直到追上舊版本作業(yè)(StreamJob_Version_N)，舊的作業(yè)版本才會停止。Kappa架構(gòu)通過這種方法升級流處理程序，架構(gòu)的流處理系統(tǒng)通常使用SparkStreaming或者Flink等實(shí)現(xiàn)，服務(wù)層通常當(dāng)前各行各業(yè)的云原生湖倉一體建設(shè)剛起步，本次白皮書重點(diǎn)介紹金融行業(yè)場景，選擇了中國建設(shè)銀行、中國人壽、中信建投等金融機(jī)構(gòu)，分析最近3年在云原生湖倉一體技術(shù)上的研究成果和實(shí)踐探索。當(dāng)前，金融行業(yè)普遍存在數(shù)據(jù)倉庫和大數(shù)據(jù)平臺兩套數(shù)據(jù)平臺各司其職的情況。在湖倉一體建設(shè)思路上，由于歷史包袱沉重，多數(shù)企業(yè)規(guī)劃將兩套數(shù)據(jù)平臺體系通過統(tǒng)一的云平臺以及軟件工具實(shí)現(xiàn)一定程度的資源共享和數(shù)據(jù)互訪。但是，數(shù)據(jù)平臺的五大難題依然存在。從云原生湖倉一體建設(shè)的六大特性來看，企業(yè)選擇轉(zhuǎn)型為云原生湖倉一體可以為企業(yè)帶來巨大的經(jīng)濟(jì)效益和社會效益。因此，我們建議企業(yè)可以將云原生湖倉一體平臺的建設(shè)確定為企業(yè)數(shù)據(jù)平臺建設(shè)平臺的平穩(wěn)過渡，可以考慮將業(yè)務(wù)部門的新業(yè)務(wù)、傳統(tǒng)領(lǐng)域中的創(chuàng)新業(yè)務(wù)，以及傳統(tǒng)業(yè)務(wù)中對性能要求高、對數(shù)據(jù)共享能力要求高的業(yè)務(wù)遷移到新建的云原生湖倉一體平臺上，以實(shí)現(xiàn)企業(yè)云原生湖倉一體平臺價值的最大化，并在后續(xù)的運(yùn)營中形成符合企業(yè)獨(dú)有特色的云原生湖倉一體平臺。中國建設(shè)銀行在多年的數(shù)據(jù)平臺建設(shè)中，逐步匯聚了多種數(shù)據(jù)平臺的技術(shù)棧，積累了PB級的海量數(shù)據(jù)，同時也帶來了數(shù)據(jù)冗余、加工流程復(fù)雜、數(shù)據(jù)服務(wù)效率無法滿足業(yè)務(wù)需求等一些亟待解決的問題。建行于2019年提出了關(guān)于“數(shù)據(jù)供應(yīng)鏈的時效性和可用性”的要求，確定了加快推進(jìn)“數(shù)據(jù)湖建設(shè)”的決議。同年，啟動了數(shù)據(jù)湖建設(shè)技術(shù)路線的研究工作，并確定了云原生、高性能、穩(wěn)定安全、自主可控的技術(shù)原則。開源的數(shù)據(jù)湖方案。經(jīng)過多輪全面的測試和對比確定了以ApacheHAWQ作為建行未來湖倉一體建設(shè)的基礎(chǔ)技術(shù)方案，打造建行自主可控的云原生數(shù)據(jù)庫產(chǎn)品CHAWQ作為建行湖倉一體數(shù)據(jù)平臺建設(shè)的整體解決方案。2020年隨著CHAWQ產(chǎn)品在行內(nèi)部署上線，建行啟動將多個業(yè)務(wù)應(yīng)用遷移到湖倉一體平臺上，由此相比原來的業(yè)務(wù)運(yùn)運(yùn)營成本。由此，建行基于云原生數(shù)據(jù)庫產(chǎn)品CHAWQ走出了一條適合建行發(fā)展的湖倉一體技術(shù)發(fā)展之路。截至2022年底，建行湖倉一體平臺可供數(shù)據(jù)湖上數(shù)百個分析類應(yīng)用場景使用，包括營銷、風(fēng)險管理等，支撐了萬億級別的交易明細(xì)業(yè)數(shù)量減少了近十萬，大大降低了數(shù)據(jù)平臺運(yùn)營成本。中國人壽作為國家大型金融保險企業(yè)，2018年集團(tuán)公司合并營業(yè)收入7684億元，合并保費(fèi)收入6463億元，合并總資產(chǎn)近4萬億圍全面涵蓋壽險、財險、企業(yè)和職業(yè)年金、銀行、基金、資產(chǎn)管理、財富管理、實(shí)業(yè)投資、海外業(yè)務(wù)等多個領(lǐng)域多家公司和機(jī)構(gòu)。集團(tuán)目前采用了SQLSERVER數(shù)據(jù)庫采集各個省級分公司的數(shù)據(jù)，并建立了數(shù)據(jù)倉庫平臺用于報表的匯總統(tǒng)計分析。業(yè)務(wù)創(chuàng)新的需求驅(qū)動下，國壽推出用戶權(quán)益視圖的數(shù)據(jù)服務(wù)，對數(shù)據(jù)平臺的實(shí)時采集能力、海量歷史數(shù)據(jù)的流批一體實(shí)時計算能力，以及高并發(fā)高性能的秒級響應(yīng)查詢能力提出了更高的技術(shù)能力要求。經(jīng)過充分的研究和必選，最終確定了云原生湖倉一體的技術(shù)方向，通過與相關(guān)廠商開展深入探索和測試，對未來云原生湖倉一體的平臺建設(shè)進(jìn)行了架構(gòu)規(guī)劃設(shè)計，并從業(yè)務(wù)角度進(jìn)行創(chuàng)新設(shè)計，逐步發(fā)揮云原生湖倉一體平臺在業(yè)務(wù)領(lǐng)域的巨大價值。中信建投證券在“科技賦能、運(yùn)營升級，以數(shù)字化轉(zhuǎn)型助推客戶服務(wù)體系建設(shè)”的戰(zhàn)略目標(biāo)指引下，持續(xù)進(jìn)行數(shù)據(jù)平臺的升級和建設(shè)，逐步建設(shè)了基于GP的數(shù)據(jù)倉庫、基于Hadoop的數(shù)據(jù)湖和基于Flink+kafka的實(shí)時數(shù)倉，支撐了公司從各業(yè)務(wù)線到管理的所有應(yīng)用。，平臺內(nèi)存在多個數(shù)據(jù)孤島，造成大量的數(shù)據(jù)冗余，從而不斷推升了運(yùn)營成本。同時分散的數(shù)據(jù)也給數(shù)據(jù)管理帶來了巨大的挑戰(zhàn)，為了維護(hù)數(shù)據(jù)的質(zhì)量通常需要花費(fèi)大量的人力和物力成本，并且收效甚微，數(shù)據(jù)質(zhì)量難以保障。進(jìn)入2022年，中信建投緊跟國家信創(chuàng)戰(zhàn)略的發(fā)展方向，使用國產(chǎn)的云原生數(shù)據(jù)庫替換現(xiàn)有數(shù)據(jù)倉庫集群，實(shí)現(xiàn)數(shù)倉應(yīng)用的平滑過渡，由于云原生數(shù)據(jù)庫可直接訪問并使用數(shù)據(jù)湖進(jìn)行數(shù)據(jù)存儲，從而實(shí)現(xiàn)存儲，數(shù)據(jù)應(yīng)用可根據(jù)業(yè)務(wù)需求選擇使用SQL引擎、機(jī)器學(xué)習(xí)引擎或流處理引擎來加工處理所需要的數(shù)據(jù)，各引擎之間可共享一份業(yè)務(wù)數(shù)據(jù)，數(shù)據(jù)不再需要跨集群流動，從而大大增加了數(shù)據(jù)處理的效率，同時也減少了數(shù)據(jù)冗余。下一步，中信建投證券將繼續(xù)探索數(shù)據(jù)倉庫供給效率，從而加速數(shù)據(jù)這一生產(chǎn)要素在企業(yè)內(nèi)部的應(yīng)用和流動。國公有云IaaS市場規(guī)模達(dá)1614.7億元，同比增長80.4%；PaaS市場比增

人人文庫> 全部分類> 行業(yè)資料 > 管理策劃

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

2022云原生湖倉一體白皮書

文檔簡介

溫馨提示

最新文檔

評論

2022云原生湖倉一體白皮書

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔