數(shù)據(jù)湖架構(gòu)落地實戰(zhàn)_第1頁
數(shù)據(jù)湖架構(gòu)落地實戰(zhàn)_第2頁
數(shù)據(jù)湖架構(gòu)落地實戰(zhàn)_第3頁
數(shù)據(jù)湖架構(gòu)落地實戰(zhàn)_第4頁
數(shù)據(jù)湖架構(gòu)落地實戰(zhàn)_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)湖架構(gòu)落地實戰(zhàn)與傳統(tǒng)的數(shù)據(jù)架構(gòu)要求整合、面向主題、固定分層等特點不同,數(shù)據(jù)湖為企業(yè)全員獨立參與數(shù)據(jù)運營和應(yīng)用創(chuàng)新提供了極大的靈活性,并可優(yōu)先確保數(shù)據(jù)的低時延、高質(zhì)量和高可用,給運營商數(shù)據(jù)架構(gòu)優(yōu)化提供了很好的參考思路。運營商數(shù)據(jù)架構(gòu)的現(xiàn)狀及挑戰(zhàn)從數(shù)據(jù)的系統(tǒng)歸屬上看,運營商數(shù)據(jù)可分為MSS(管理支撐系統(tǒng))的面向人、財、物管理類數(shù)據(jù),BSS(業(yè)務(wù)支撐系統(tǒng))的面向客戶和產(chǎn)品的營銷及客戶服務(wù)數(shù)據(jù),OSS(運營支撐系統(tǒng))的面向產(chǎn)品和網(wǎng)絡(luò)的功能及運營服務(wù)數(shù)據(jù),三者之間既相對松耦合,又有著緊密的協(xié)作關(guān)系,BSS和OSS的銜接點主要在產(chǎn)品及開通、排障服務(wù),MSS和BSS、OSS的銜接點主要在參與人和資源。從數(shù)據(jù)分類來看,運營商的數(shù)據(jù)可分為作為企業(yè)核心的功能類實體數(shù)據(jù)、表示企業(yè)所有運營過程的活動類數(shù)據(jù)、體現(xiàn)內(nèi)外部客戶感知并圍繞兩大主線所產(chǎn)生的感知類指標數(shù)據(jù)以及與管理相關(guān)的人、財、物及流程數(shù)據(jù)。電信運營商數(shù)據(jù)范圍示例如圖1所示。由于國內(nèi)運營商以兩級經(jīng)營模式為主體,系統(tǒng)的集約化建設(shè)程度相對較低,以分域(M/B/O)、分省建設(shè)為主,即便是同類系統(tǒng)的數(shù)據(jù),因為分31個省市建設(shè),各省市的業(yè)務(wù)管理模式、數(shù)據(jù)模型標準、主數(shù)據(jù)等千差萬別,跨省、跨域、跨系統(tǒng)的模型標準統(tǒng)一非常困難,即便通過數(shù)據(jù)副本的模式進行整合匯聚,也存在轉(zhuǎn)換不專業(yè)和數(shù)據(jù)失真等問題。同時,域與域之間雖是松耦合的,但因為使用者和建設(shè)者的不同,相互之間會冗余存儲對方數(shù)據(jù),而建模和主數(shù)據(jù)又不同,跨域之間數(shù)據(jù)的關(guān)聯(lián)整合非常復雜,跨域、跨省的端到端應(yīng)用困難。運營商的數(shù)據(jù)還有一個顯著的特點,就是與網(wǎng)絡(luò)密切相關(guān),網(wǎng)絡(luò)運行數(shù)據(jù)和網(wǎng)絡(luò)拓撲數(shù)據(jù)需要與網(wǎng)絡(luò)保持實時一致,且數(shù)據(jù)量比較大,網(wǎng)絡(luò)智能化后的實時數(shù)據(jù)應(yīng)用需求也越來越多。通信網(wǎng)絡(luò)是一張大網(wǎng),即便引入云計算、虛擬化技術(shù),依然有大量網(wǎng)絡(luò)節(jié)點遍布31個省市,海量網(wǎng)絡(luò)數(shù)據(jù)的實時采集、處理及應(yīng)用也是運營商數(shù)據(jù)架構(gòu)需要考慮的一個重要因素。國內(nèi)運營商目前都不同程度地建立了自己的企業(yè)級大數(shù)據(jù)平臺,有的分總部/省兩級部署,支撐兩級數(shù)據(jù)分析,統(tǒng)一全網(wǎng)的架構(gòu)、來源、算法、規(guī)則,總部數(shù)據(jù)輕度匯總,按需采集匯聚高價值詳單數(shù)據(jù);有的采用1+N模式,建設(shè)總部和省互補協(xié)作平臺,總部提供跨域數(shù)據(jù)和特定的大數(shù)據(jù)能力,作為N的省向總部提供本地化數(shù)據(jù)能力與自定義算法。電信運營商數(shù)據(jù)平臺架構(gòu)示例如圖2所示。不管采用哪種模式,都不同程度地存在其下屬各專業(yè)公司、各部門根據(jù)各自需要,或在生產(chǎn)系統(tǒng)內(nèi)構(gòu)建含大數(shù)據(jù)技術(shù)的混搭數(shù)據(jù)架構(gòu),或建設(shè)域內(nèi)自用的大數(shù)據(jù)平臺,因此有很多數(shù)據(jù)未進入企業(yè)級大數(shù)據(jù)平臺,或數(shù)據(jù)平臺的應(yīng)用未達到預期。其原因可歸結(jié)為如下幾點平臺數(shù)據(jù)質(zhì)量不高平臺數(shù)據(jù)來自于M/B/O的生產(chǎn)系統(tǒng),而運營商分兩級31省市建設(shè)的生產(chǎn)系統(tǒng),不但數(shù)據(jù)模型、主數(shù)據(jù)標準不統(tǒng)一,業(yè)務(wù)管理模式的差異也很大。數(shù)據(jù)經(jīng)過多次模型轉(zhuǎn)換,存在嚴重失真的問題,且很難對數(shù)據(jù)質(zhì)量問題追蹤溯源。平臺數(shù)據(jù)不夠?qū)崟r數(shù)據(jù)經(jīng)過多級采集匯聚,處理環(huán)節(jié)多,采集周期長。網(wǎng)絡(luò)相關(guān)海量數(shù)據(jù)跨省傳輸,占用大量帶寬,數(shù)據(jù)時延較大。數(shù)據(jù)平臺目前只能以支撐離線的決策分析為主,難以滿足SDN/NFV/云網(wǎng)絡(luò)及物聯(lián)網(wǎng)等實時/準實時數(shù)據(jù)應(yīng)用需求。平臺的靈活性不足數(shù)據(jù)平臺的建設(shè)以存儲計算一體化架構(gòu)為主,平臺與應(yīng)用緊耦合,多基于公共數(shù)據(jù)平臺和整合后的數(shù)據(jù)支撐應(yīng)用創(chuàng)新。對于新的數(shù)據(jù)整合、數(shù)據(jù)計算分析技術(shù)引入、平臺擴容支撐等需求響應(yīng)不靈活,導致數(shù)據(jù)平臺應(yīng)用不足。平臺和應(yīng)用互鎖,形成惡性循環(huán)企業(yè)級數(shù)據(jù)平臺難以滿足生產(chǎn)系統(tǒng)數(shù)據(jù)應(yīng)用需求,生產(chǎn)系統(tǒng)就沒有動力將自身數(shù)據(jù)和應(yīng)用遷入數(shù)據(jù)平臺,進而數(shù)據(jù)平臺的數(shù)據(jù)質(zhì)量和可用性越來越差。同時,還導致生產(chǎn)系統(tǒng)和各個大數(shù)據(jù)平臺的數(shù)據(jù)重復采集、重復存儲,且相互之間數(shù)據(jù)訪問技術(shù)和管理壁壘嚴重,建設(shè)和維護成本大幅提高。數(shù)據(jù)湖方案的價值及可行性分析數(shù)據(jù)湖推崇存儲原生數(shù)據(jù),對不同結(jié)構(gòu)的數(shù)據(jù)統(tǒng)一存儲,使不同數(shù)據(jù)有一致的存儲方式,在使用時方便連接,真正解決數(shù)據(jù)集成問題。數(shù)據(jù)湖的本質(zhì)是一種數(shù)據(jù)管理的思路,利用低成本技術(shù)來捕捉、提煉和探索大規(guī)模、長期的原始數(shù)據(jù)存儲的方法與技術(shù)。數(shù)據(jù)湖可存儲任何種類的數(shù)據(jù),高質(zhì)量、高效率地存儲數(shù)據(jù),更快速、更廉價地處理數(shù)據(jù),將建模應(yīng)用問題丟給最終開發(fā)者。數(shù)據(jù)湖的方案應(yīng)用可以帶來如下幾個顯著的好處規(guī)模大、成本低全企業(yè)海量數(shù)據(jù)統(tǒng)一存儲,采用開源技術(shù),基于低成本硬件資源,建立和維護成本相比數(shù)據(jù)倉庫低一個數(shù)量級。數(shù)據(jù)“原汁原味”數(shù)據(jù)湖以原始形式保存數(shù)據(jù),并在整個數(shù)據(jù)生命周期捕獲對數(shù)據(jù)和上下文語義的更改,尤其便于進行合規(guī)性和內(nèi)部審計。如果數(shù)據(jù)經(jīng)歷了轉(zhuǎn)換、聚合和更新,將很難在需求出現(xiàn)時將數(shù)據(jù)拼湊在一起,而且?guī)缀鯖]有希望確定清晰出處。數(shù)據(jù)方便易用結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)都是原樣加載和存儲,以后再進行轉(zhuǎn)換,開發(fā)和保存成本低,產(chǎn)生和使用之間時延小??蛻?、供應(yīng)商和數(shù)據(jù)運營者不需要數(shù)據(jù)擁有者提供太多幫助即可整合數(shù)據(jù),消除了數(shù)據(jù)共享的內(nèi)部政治或技術(shù)障礙。應(yīng)用按需建模數(shù)據(jù)湖提供數(shù)據(jù)給靈活的、面向任務(wù)的結(jié)構(gòu)化應(yīng)用,詳細的業(yè)務(wù)需求和艱苦的數(shù)據(jù)建模都不是數(shù)據(jù)湖的先決條件。數(shù)據(jù)湖給予最終用戶最大的靈活度來處理數(shù)據(jù),對于同一份原始數(shù)據(jù),不同的用戶可能有不同的理解。目前,大部分運營商采用傳統(tǒng)的以數(shù)據(jù)為中心的處理架構(gòu)(存儲計算一體化,如主流MPP、Hive和分布式計算廠商產(chǎn)品),好處是計算效率高、技術(shù)成熟,缺點也很明顯,如靈活性不足,使得數(shù)據(jù)應(yīng)用適用于少數(shù)人,這也制約了原生數(shù)據(jù)提供者向平臺提供的積極性,進而導致數(shù)據(jù)的質(zhì)量、數(shù)據(jù)的全面性都得不到很好的保障。引入數(shù)據(jù)湖概念的一個顯著特點就是存儲和計算松耦合,可采用以計算為中心的處理模式(存儲與計算分離,如Spark技術(shù)及AWS、阿里云等云服務(wù)提供商產(chǎn)品),使得運營商可以更加專注于數(shù)據(jù)的存儲和管理,存儲和計算不用相互制約,從而優(yōu)先確保數(shù)據(jù)的高質(zhì)量、低時延、高可用,并為數(shù)據(jù)應(yīng)用的快速構(gòu)建提供了極大的靈活性。數(shù)據(jù)湖按照成熟度可劃分為4個階段:第一個階段,應(yīng)用程序獨立建設(shè),部分應(yīng)用將數(shù)據(jù)提供給數(shù)據(jù)倉庫,基于數(shù)據(jù)倉庫構(gòu)建分析應(yīng)用;第二個階段,數(shù)據(jù)湖和數(shù)據(jù)倉庫并存,應(yīng)用程序向數(shù)據(jù)湖提供副本數(shù)據(jù),基于數(shù)據(jù)湖開發(fā)分析型應(yīng)用,數(shù)據(jù)倉庫和應(yīng)用也可從數(shù)據(jù)湖提取數(shù)據(jù);第三個階段,新系統(tǒng)以數(shù)據(jù)湖為中心構(gòu)建,應(yīng)用通過數(shù)據(jù)湖交互彼此數(shù)據(jù),數(shù)據(jù)湖成為數(shù)據(jù)架構(gòu)的核心,數(shù)據(jù)倉庫基于數(shù)據(jù)湖提供特定的應(yīng)用需求,數(shù)據(jù)治理變得重要;第四個階段,所有新的應(yīng)用均基于數(shù)據(jù)湖構(gòu)建,數(shù)據(jù)湖成為彈性的分布式平臺,數(shù)據(jù)的治理和安全需持續(xù)加強,支撐企業(yè)的數(shù)據(jù)運營和分析能力。電信運營商目前普遍處于第二個階段向第三個階段演進的過程中,在構(gòu)建數(shù)據(jù)技術(shù)方案方面具備較好的基礎(chǔ)條件。電信運營商數(shù)據(jù)湖建設(shè)思路及實施要點調(diào)整現(xiàn)有分析型數(shù)據(jù)平臺建設(shè)思路,將其數(shù)據(jù)與應(yīng)用解耦,引入數(shù)據(jù)湖概念,強調(diào)原生數(shù)據(jù)入湖,并與全網(wǎng)生產(chǎn)系統(tǒng)模型和主數(shù)據(jù)標準化協(xié)同推進,兼顧層次化的傳統(tǒng)數(shù)據(jù)架構(gòu)和扁平化的數(shù)據(jù)湖架構(gòu)的優(yōu)點,SchemaonRead和SchemaonWrite并存,統(tǒng)一支撐企業(yè)實時、準實時和離線數(shù)據(jù)應(yīng)用快速創(chuàng)新,是電信運營商實現(xiàn)以數(shù)據(jù)為中心IT架構(gòu)轉(zhuǎn)型的有效途徑。數(shù)據(jù)湖作為運營商數(shù)據(jù)存儲和訪問的唯一出口,成為所有IT系統(tǒng)共享的基礎(chǔ)設(shè)施,統(tǒng)一存儲全企業(yè)IT和網(wǎng)絡(luò)數(shù)據(jù),通過開放架構(gòu)支撐智慧運營,并可作為IT系統(tǒng)集約化演進的紐帶。數(shù)據(jù)統(tǒng)一存儲統(tǒng)一存儲MSS、BSS、OSS及網(wǎng)元平臺的實時、歷史、在線、離線數(shù)據(jù),全網(wǎng)的原生數(shù)據(jù)只存儲一份在邏輯統(tǒng)一的分布式數(shù)據(jù)湖內(nèi),原生數(shù)據(jù)與生產(chǎn)系統(tǒng)數(shù)據(jù)模型標準和主數(shù)據(jù)一致,新IT系統(tǒng)/網(wǎng)元平臺的生產(chǎn)數(shù)據(jù)直接使用數(shù)據(jù)湖存儲。數(shù)據(jù)統(tǒng)一管理所有入湖數(shù)據(jù)的目錄、元數(shù)據(jù)、數(shù)據(jù)應(yīng)用及數(shù)據(jù)質(zhì)量、數(shù)據(jù)標準、數(shù)據(jù)安全必須統(tǒng)一管理。數(shù)據(jù)模型標準和主數(shù)據(jù)動態(tài)維護,數(shù)據(jù)質(zhì)量集中治理,原生系統(tǒng)的數(shù)據(jù)問題溯源處理,生產(chǎn)系統(tǒng)建設(shè)者全程參與數(shù)據(jù)管理,責任權(quán)利保持一致。數(shù)據(jù)統(tǒng)一標準生產(chǎn)系統(tǒng)管理部門負責31省市系統(tǒng)模型和主數(shù)據(jù)的標準化;數(shù)據(jù)湖統(tǒng)一管理生產(chǎn)系統(tǒng)的數(shù)據(jù)模型及主數(shù)據(jù);暫未進行標準化的生產(chǎn)系統(tǒng)數(shù)據(jù)模型,由對應(yīng)系統(tǒng)的管理部門負責數(shù)據(jù)模型的轉(zhuǎn)換和運營,協(xié)調(diào)推進生產(chǎn)系統(tǒng)數(shù)據(jù)標準進程。數(shù)據(jù)近源采集提供數(shù)據(jù)統(tǒng)一采集、實時訂閱分發(fā)框架,支撐實時/準實時數(shù)據(jù)、離線數(shù)據(jù)的采集。各網(wǎng)元/平臺數(shù)據(jù)采集能力以組件方式納入數(shù)據(jù)湖,分專業(yè)采集、預處理加工,海量實時數(shù)可靠近網(wǎng)絡(luò)近源部署前置采集模塊。非網(wǎng)絡(luò)類數(shù)據(jù)(如BSS、MSS、OSS流程等),初期以副本采集方式匯聚入湖,遠期直接以服務(wù)交互方式入湖。數(shù)據(jù)與應(yīng)用分離數(shù)據(jù)應(yīng)用環(huán)境與數(shù)據(jù)存儲環(huán)境分離,按應(yīng)用計算的網(wǎng)絡(luò)帶寬需要就近部署。提供統(tǒng)一的服務(wù)化訪問、小批量數(shù)據(jù)訂閱、數(shù)據(jù)分析計算云平臺環(huán)境。基于云平臺環(huán)境,應(yīng)用開發(fā)者可自行整合數(shù)據(jù)、構(gòu)建應(yīng)用,數(shù)據(jù)存儲、數(shù)據(jù)整合、平臺組件、數(shù)據(jù)應(yīng)用間相互解耦,建設(shè)的進程不會相互制約。同時,建立全生命周期數(shù)據(jù)目錄,統(tǒng)一標識各項數(shù)據(jù),完善數(shù)據(jù)治理機制,管理數(shù)據(jù)湖數(shù)據(jù)的生產(chǎn)加工流程,對各項數(shù)據(jù)生成和使用過程進行跟蹤記錄,支撐數(shù)據(jù)的應(yīng)用和溯源,是數(shù)據(jù)湖方案順利實施的關(guān)鍵要素。并且還需要加強數(shù)據(jù)標準的全生命周期流程以及數(shù)據(jù)標準的元數(shù)據(jù)及數(shù)據(jù)質(zhì)量問題收集、自動稽核、問題溯源、影響分析及跟蹤處理等數(shù)據(jù)管理能力。可以采用爬蟲的方式生成數(shù)據(jù)目錄,在不影響數(shù)據(jù)所有者或用戶的情況下自動生成,決定數(shù)據(jù)湖能否順利實施的因素有很多,包括數(shù)據(jù)湖涵蓋哪些數(shù)據(jù)及如何分區(qū)存儲、數(shù)據(jù)湖如何分布式部署、紛繁復雜的現(xiàn)有IT系統(tǒng)數(shù)據(jù)如何入湖、數(shù)據(jù)和應(yīng)用能否分離、數(shù)據(jù)湖與現(xiàn)有各類數(shù)據(jù)平臺的演進關(guān)系等。當然,更重要的是數(shù)據(jù)管理思維的轉(zhuǎn)變,這是一切的基礎(chǔ)。針對運營商數(shù)據(jù)湖的實施,提出如下4個方面的關(guān)鍵要點及建議。要點1:數(shù)據(jù)湖分區(qū)數(shù)據(jù)湖邏輯上可劃分為生產(chǎn)數(shù)據(jù)區(qū)、原生數(shù)據(jù)區(qū)、整合數(shù)據(jù)區(qū)、匯總數(shù)據(jù)區(qū)4個大的存儲區(qū)域。數(shù)據(jù)湖的應(yīng)用可基于PaaS平臺按需使用各個區(qū)的數(shù)據(jù),4個區(qū)的數(shù)據(jù)目錄、元數(shù)據(jù)、數(shù)據(jù)加工處理流程及數(shù)據(jù)應(yīng)用需要統(tǒng)一管理、維護和治理。生產(chǎn)數(shù)據(jù)區(qū)M/B/O系統(tǒng)生產(chǎn)數(shù)據(jù)的存儲區(qū)域,涵蓋實時交易型數(shù)據(jù)、實時/準實時網(wǎng)絡(luò)采集數(shù)據(jù)等,可以是關(guān)系型和非關(guān)系型混搭的存儲結(jié)構(gòu),各生產(chǎn)系統(tǒng)需要進行架構(gòu)優(yōu)化,數(shù)據(jù)與應(yīng)用分層解耦,將數(shù)據(jù)存入生產(chǎn)數(shù)據(jù)區(qū)。原生數(shù)據(jù)區(qū)將各系統(tǒng)的生產(chǎn)數(shù)據(jù)直接寫入數(shù)據(jù)湖原生數(shù)據(jù)區(qū),以非關(guān)系型數(shù)據(jù)格式存儲生產(chǎn)系統(tǒng)數(shù)據(jù),方便各數(shù)據(jù)應(yīng)用使用,生產(chǎn)數(shù)據(jù)和原生數(shù)據(jù)模型標準、主數(shù)據(jù)一致。原生數(shù)據(jù)區(qū)涵蓋企業(yè)的任何內(nèi)容,無限接近企業(yè)各系統(tǒng)、部門的敏感信息。供數(shù)據(jù)湖科學家和技術(shù)人員訪問使用。整合數(shù)據(jù)區(qū)存儲按照數(shù)據(jù)分析需求建模加工后的公用數(shù)據(jù)。模型從生產(chǎn)/原生數(shù)據(jù)模型派生而來,被業(yè)務(wù)和IT部門熟知,可供企業(yè)各種應(yīng)用程序使用。原生數(shù)據(jù)區(qū)中依然有很多數(shù)據(jù)或?qū)傩詻]有被真正理解,并未完全包含在這個數(shù)據(jù)區(qū)的模型中。匯總數(shù)據(jù)區(qū)存儲按需求分析匯總的結(jié)果數(shù)據(jù),一般可存儲在關(guān)系型數(shù)據(jù)存儲內(nèi),便于數(shù)據(jù)服務(wù)的快速加載呈現(xiàn)。數(shù)據(jù)湖生產(chǎn)數(shù)據(jù)區(qū)和原生數(shù)據(jù)區(qū)作為最重要的數(shù)據(jù)分區(qū),是數(shù)據(jù)湖內(nèi)數(shù)據(jù)整合和匯總的源頭數(shù)據(jù),數(shù)據(jù)質(zhì)量必須得到保障。另外,數(shù)據(jù)湖雖不鼓勵應(yīng)用特定模型,但也可劃分特定數(shù)據(jù)區(qū)給私有應(yīng)用使用,提供快速構(gòu)建數(shù)據(jù)應(yīng)用的途徑,這些應(yīng)用獲取數(shù)據(jù)湖數(shù)據(jù)且具有數(shù)據(jù)處理能力,數(shù)據(jù)湖構(gòu)建初期,可將已有業(yè)務(wù)應(yīng)用數(shù)據(jù)導入數(shù)據(jù)湖特定數(shù)據(jù)區(qū)中。電信運營商數(shù)據(jù)湖數(shù)據(jù)分區(qū)示例如圖4所示。要點2:數(shù)據(jù)湖部署數(shù)據(jù)湖部署方案的設(shè)計需要考慮如下要素:現(xiàn)有BSS/OSS系統(tǒng)分省/總部兩級建設(shè)和維護,源系統(tǒng)模型屬地管理;網(wǎng)絡(luò)/平臺數(shù)據(jù)量大,且貼近網(wǎng)絡(luò)建設(shè)歸屬地,屬地應(yīng)用占比大;M/B/O及網(wǎng)絡(luò)/平臺之間數(shù)據(jù)松耦合,主要通過企業(yè)主數(shù)據(jù)進行銜接。數(shù)據(jù)湖原生數(shù)據(jù)區(qū)和生產(chǎn)數(shù)據(jù)區(qū)與數(shù)據(jù)源系統(tǒng)就近分布式部署(總部1+省市31模式)。生產(chǎn)數(shù)據(jù)云節(jié)點由生產(chǎn)系統(tǒng)按需分區(qū)、分片部署,即支撐生產(chǎn)應(yīng)用交易處理,也支撐實時網(wǎng)絡(luò)數(shù)據(jù)采集和應(yīng)用。原生數(shù)據(jù)云節(jié)點與生產(chǎn)數(shù)據(jù)云節(jié)點就近、集中部署,靠近數(shù)據(jù)歸屬地,數(shù)據(jù)實時從生產(chǎn)數(shù)據(jù)云節(jié)點寫入原生數(shù)據(jù)云節(jié)點。原生數(shù)據(jù)云節(jié)點可再細分為核心數(shù)據(jù)區(qū)(如客戶、銷售品、產(chǎn)品、服務(wù)、資源、組織、人員等)、BSS數(shù)據(jù)區(qū)、OSS數(shù)據(jù)區(qū)、MSS數(shù)據(jù)區(qū)、網(wǎng)絡(luò)/平臺數(shù)據(jù)區(qū)。數(shù)據(jù)湖整合、匯總數(shù)據(jù)云節(jié)點采用1+N模式部署,統(tǒng)一管理、控制和調(diào)度節(jié)點環(huán)境,兼顧全網(wǎng)統(tǒng)一和個性化應(yīng)用需求,數(shù)據(jù)科學家逐步探索和建模數(shù)據(jù),開放數(shù)據(jù)應(yīng)用。1+N模式中的“1”支撐全網(wǎng)應(yīng)用,“N”支撐省內(nèi)應(yīng)用,并作為創(chuàng)新基地,有條件、數(shù)據(jù)量大、應(yīng)用豐富的省可選擇建設(shè)N分區(qū)。分區(qū)節(jié)點內(nèi)可按照應(yīng)用范圍(全局需求、特定需求)、地域歸屬(集團、?。?、數(shù)據(jù)層次(整合、匯總)、數(shù)據(jù)分級(普通、密級)等進一步分區(qū)存儲。電信運營商數(shù)據(jù)湖部署方案示例如圖5所示。要點3:IT系統(tǒng)數(shù)據(jù)入湖數(shù)據(jù)湖的建設(shè)不可能一蹴而就,需要根據(jù)運營商IT系統(tǒng)建設(shè)情況分別采用不同策略進行數(shù)據(jù)入湖演進。電信運營商IT系統(tǒng)入湖方案示例如圖6所示。方式一:數(shù)據(jù)同步方式。適合交易型系統(tǒng)已存在、數(shù)據(jù)模型和主數(shù)據(jù)已全網(wǎng)統(tǒng)一的場景,生產(chǎn)數(shù)據(jù)直接同步寫入原生數(shù)據(jù)區(qū),如BSS、MSS、傳統(tǒng)OSS。方式二:數(shù)據(jù)同步/轉(zhuǎn)換方式。適合交易型系統(tǒng)已存在、數(shù)據(jù)模型和主數(shù)據(jù)并未全網(wǎng)統(tǒng)一的場景,如BSS、MSS、傳統(tǒng)OSS。將非標準生產(chǎn)數(shù)據(jù)寫入原生數(shù)據(jù)區(qū),支撐省內(nèi)整合匯總應(yīng)用及集團標準的寬表需求;將非標準生產(chǎn)數(shù)據(jù)按全網(wǎng)統(tǒng)一標準轉(zhuǎn)換,提供給全網(wǎng)數(shù)據(jù)整合匯總及數(shù)據(jù)治理使用。方式三:數(shù)據(jù)正本方式。適合交易型系統(tǒng)新建模式,如新一代OSS資源、編排、告警等。正本數(shù)據(jù)寫入生產(chǎn)數(shù)據(jù)區(qū),統(tǒng)一模型和主數(shù)據(jù)標準,基于交易型PaaS平臺完成應(yīng)用;生產(chǎn)數(shù)據(jù)區(qū)數(shù)據(jù)直接寫入原生數(shù)據(jù)區(qū)。方式四:采集入庫方式。適合網(wǎng)絡(luò)監(jiān)控分析型系統(tǒng)新建模式,如新一代OSS的網(wǎng)絡(luò)采集數(shù)據(jù)、資源拓撲、深度分組檢測(DPI)數(shù)據(jù)等。數(shù)據(jù)采集文件、流數(shù)據(jù)等暫存在生產(chǎn)數(shù)據(jù)區(qū);寫入原生數(shù)據(jù)區(qū)后,生產(chǎn)數(shù)據(jù)區(qū)不再保留;統(tǒng)一原生數(shù)據(jù)模型和主數(shù)據(jù)標準,基于實時和非實時PaaS平臺完成分析型應(yīng)用。要點4:數(shù)據(jù)湖數(shù)據(jù)與應(yīng)用分離數(shù)據(jù)湖通過數(shù)據(jù)服務(wù)平臺、數(shù)據(jù)共享平臺及統(tǒng)一數(shù)據(jù)應(yīng)用環(huán)境按需支持交易類、實時監(jiān)控類、分析類應(yīng)用。數(shù)據(jù)增、刪、改、查服務(wù)統(tǒng)一部署在數(shù)據(jù)服務(wù)平臺上,供交易類應(yīng)用訪問調(diào)用;通過訂閱需要監(jiān)控的數(shù)據(jù),由數(shù)據(jù)共享平臺將數(shù)據(jù)實時分發(fā)給監(jiān)控類應(yīng)用使用;數(shù)據(jù)的加工整合、分析應(yīng)用、海量搜索、人工智能等應(yīng)用均可部署在應(yīng)用環(huán)境內(nèi),按需動態(tài)加載并臨時存儲數(shù)據(jù),結(jié)果寫回到數(shù)據(jù)湖存儲環(huán)境,以服務(wù)方式啟動任務(wù)和查詢結(jié)果數(shù)據(jù)。其中,應(yīng)用環(huán)境公共組件隨著技術(shù)的更新不斷疊加,逐漸平臺化共享,暫時無法滿足應(yīng)用需求的可由應(yīng)用在統(tǒng)一環(huán)境內(nèi)部署組件及加載數(shù)據(jù)。數(shù)據(jù)湖應(yīng)用加載數(shù)據(jù)的方式可分為實時增量加載、準實時增量/全量加載、離線批量加載等,數(shù)據(jù)可按需全量或增量短期加載。對于應(yīng)用和數(shù)據(jù)無法解耦的組件(如Hive、MPP等),按需復制數(shù)據(jù),以空間換數(shù)據(jù)管理和應(yīng)用的靈活性;對于應(yīng)用和數(shù)據(jù)可以有效解耦的組件(如Spark等),可以按需動態(tài)、實時加載數(shù)據(jù)。應(yīng)用組件逐漸由與數(shù)據(jù)緊耦合的組件向與數(shù)據(jù)松耦合的組件演進。數(shù)據(jù)湖采用讀寫分離、應(yīng)用計算與數(shù)據(jù)存儲分離、關(guān)系數(shù)據(jù)與非關(guān)系數(shù)據(jù)存儲并存的模式,并提供數(shù)據(jù)存儲節(jié)點分布式部署、服務(wù)化訪問及統(tǒng)一數(shù)據(jù)加載、共享及分發(fā)能力,降低數(shù)據(jù)湖數(shù)據(jù)存儲訪問負載,提升數(shù)據(jù)的可用性及數(shù)據(jù)訪問效率。由數(shù)據(jù)湖提供數(shù)據(jù)的統(tǒng)一遷移,包括主從庫的復制、關(guān)系庫到非關(guān)系庫的數(shù)據(jù)轉(zhuǎn)換等;提供統(tǒng)一的關(guān)系和非關(guān)系庫數(shù)據(jù)訪問及分布式數(shù)據(jù)路由以及數(shù)據(jù)共享開放和訂閱分發(fā)管理框架,實現(xiàn)高效的數(shù)據(jù)訪問;提供統(tǒng)一的數(shù)據(jù)應(yīng)用環(huán)境管理,包括配額管理、數(shù)據(jù)訪問權(quán)限管理、數(shù)據(jù)回寫節(jié)點分配管理等,獨立部署分析計算類應(yīng)用,分析計算節(jié)點與數(shù)據(jù)湖數(shù)據(jù)存儲節(jié)點分離;提供統(tǒng)一的分布式服務(wù)運行框架,基于服務(wù)調(diào)用實現(xiàn)交易類增、刪、改、查應(yīng)用的數(shù)據(jù)訪問,避免直接操作數(shù)據(jù)。電信運營商數(shù)據(jù)湖應(yīng)用方案示例如圖7所示。要點5:數(shù)據(jù)湖數(shù)據(jù)統(tǒng)一管理數(shù)據(jù)湖的實施,需要實現(xiàn)模型和主數(shù)據(jù)標準的動態(tài)維護以及數(shù)據(jù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論