數(shù)據(jù)交換過程詳解_第1頁
數(shù)據(jù)交換過程詳解_第2頁
數(shù)據(jù)交換過程詳解_第3頁
數(shù)據(jù)交換過程詳解_第4頁
數(shù)據(jù)交換過程詳解_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)交換過程詳解前言:本文主要介紹數(shù)據(jù)交換過程中常用的數(shù)據(jù)交換方法和方式以及數(shù)據(jù)交換在新技術(shù)下所 面對的“挑戰(zhàn)”,方便大家深入理解數(shù)據(jù)交換過程。普元實施數(shù)據(jù)交換項目已有多年成功經(jīng) 驗,本文也將分享大數(shù)據(jù)時代數(shù)據(jù)交換所遇到的問題和應(yīng)對策略。目錄:1、為什么要進(jìn)行數(shù)據(jù)交換2、數(shù)據(jù)交換存在的問題3、數(shù)據(jù)交換面臨的挑戰(zhàn)4、數(shù)據(jù)交換破解“數(shù)據(jù)孤島”5、總結(jié)為什么要進(jìn)行數(shù)據(jù)交換企業(yè)大量的IT投資建立了眾多的信息系統(tǒng),但是隨著信息系統(tǒng)的增加,各自孤立工作 的信息系統(tǒng)將會造成大量的冗余數(shù)據(jù)和業(yè)務(wù)人員的重復(fù)勞動。企業(yè)急需通過建立底層數(shù)據(jù)集 成平臺來聯(lián)系橫貫整個企業(yè)的異構(gòu)系統(tǒng)、應(yīng)用、數(shù)據(jù)源等,完成在企業(yè)內(nèi)部的ER

2、P、CRM、SCM、數(shù)據(jù)庫、數(shù)據(jù)倉庫,以及其它重要的內(nèi)部系統(tǒng)之間無縫的共享和交換數(shù)據(jù)。數(shù)據(jù)是在流通、應(yīng)用中創(chuàng)造價值的,這就涉及“數(shù)據(jù)共享”和“數(shù)據(jù)交換”。在實施數(shù) 據(jù)交換的過程中,不同的數(shù)據(jù)內(nèi)容、數(shù)據(jù)格式和數(shù)據(jù)質(zhì)量千差萬別,有時甚至?xí)龅綌?shù)據(jù)格 式不能轉(zhuǎn)換或數(shù)據(jù)轉(zhuǎn)換格式后丟失信息等棘手問題,嚴(yán)重阻礙了數(shù)據(jù)在各部門和各應(yīng)用系統(tǒng) 中的流動與共享。因此,對企業(yè)內(nèi)各系統(tǒng)異構(gòu)底層數(shù)據(jù)進(jìn)行有效的整合已成為增強(qiáng)企業(yè)商業(yè) 競爭力的必然選擇。數(shù)據(jù)交換存在的問題企業(yè)對數(shù)據(jù)服務(wù)的需求日趨迫切,如何有效的管理數(shù)據(jù)、高效的提供數(shù)據(jù)服務(wù)是目前企 業(yè)對所面臨的關(guān)鍵挑戰(zhàn)。目前集團(tuán)層面客戶信息分散,各子公司之間的客戶信息無共享

3、。內(nèi) 部系統(tǒng)獲取客戶數(shù)據(jù)來源系統(tǒng)分散,方式多樣難以管理,且獲取客戶數(shù)據(jù)時效性較低,供數(shù) 標(biāo)準(zhǔn)不統(tǒng)一,缺乏統(tǒng)一的客戶數(shù)據(jù)服務(wù)平臺。數(shù)據(jù)平臺中數(shù)據(jù)內(nèi)容繁多,難以全面掌控。通過多年的信息化建設(shè)和運(yùn)營,企業(yè)已經(jīng)建立了完善的業(yè)務(wù)應(yīng)用系統(tǒng),有效的支撐 了核心業(yè)務(wù)的創(chuàng)新和發(fā)展,但隨著應(yīng)用系統(tǒng)的增多,數(shù)據(jù)量和數(shù)據(jù)應(yīng)用環(huán)境增大,在對 這些數(shù)據(jù)進(jìn)行使用的過程中逐漸存在不合理、不統(tǒng)一的問題。數(shù)據(jù)平臺中數(shù)據(jù)的流轉(zhuǎn)和邏輯過程復(fù)雜,難以追溯數(shù)據(jù)來源。許多企業(yè)目前沒有統(tǒng)一的數(shù)據(jù)資產(chǎn)標(biāo)準(zhǔn),各業(yè)務(wù)系統(tǒng)中數(shù)據(jù)質(zhì)量參差不齊,存在信 息孤島現(xiàn)象,不同部門同一名稱數(shù)據(jù)可能有不同的含義,同一個數(shù)據(jù)可能又有不同的命 名,數(shù)據(jù)有效交互和共享

4、存在問題。存在部分系統(tǒng)數(shù)據(jù)更新不及時的問題,核心業(yè)務(wù)數(shù) 據(jù)無法朔源,數(shù)據(jù)的準(zhǔn)確性和及時性較低,現(xiàn)有報表在建模時幾乎每個報表都要重復(fù)建 模,人為參與工作過多且層次復(fù)雜,無法高效的對流程及指標(biāo)進(jìn)行精確監(jiān)控及分析,數(shù) 據(jù)的利用效率和模型重復(fù)使用率較低。業(yè)務(wù)部門對數(shù)據(jù)結(jié)構(gòu)和質(zhì)量無法管控目前數(shù)據(jù)管控的發(fā)展方向和需求是由業(yè)務(wù)部門提出,但業(yè)務(wù)人員對公司復(fù)雜的系統(tǒng) 無法進(jìn)行全面深入掌握,特別是技術(shù)層面。為了使業(yè)務(wù)部門從數(shù)據(jù)結(jié)構(gòu)到數(shù)據(jù)質(zhì)量上更 好的管控,梳理業(yè)務(wù)系統(tǒng)與數(shù)據(jù)庫結(jié)構(gòu)關(guān)系,成為目前急需解決的問題之一。數(shù)據(jù)交換面臨的挑戰(zhàn)隨著互聯(lián)網(wǎng)以及大數(shù)據(jù)等諸多新技術(shù)的發(fā)展,傳統(tǒng)的數(shù)據(jù)交換面臨著許多挑戰(zhàn)。傳統(tǒng)方法11挑

5、戰(zhàn)單表數(shù)據(jù)交換整庫數(shù)據(jù)交換手工編寫交換模型自助化批量模型生成實時數(shù)據(jù)同步操作復(fù)雜實時數(shù)據(jù)通道PB級數(shù)據(jù)交換效率低分段并行交換業(yè)務(wù)能力低通過業(yè)務(wù)模板創(chuàng)建模型手工編寫腳本保證數(shù)據(jù)安全數(shù)據(jù)自動脫敏區(qū)域內(nèi)數(shù)據(jù)同步跨區(qū)域數(shù)據(jù)同步傳統(tǒng)方式一般是以單表數(shù)據(jù)交換作為單位進(jìn)行作業(yè)開發(fā),隨著企業(yè)中數(shù)據(jù)庫以及表 的增多這種方式的開發(fā)效率低下、容易出錯。整庫數(shù)據(jù)交換時工作量巨大傳統(tǒng)方式下開發(fā)交換模型只能手工一個一個進(jìn)行,任務(wù)多、易出錯。需要一種能夠 在同一種業(yè)務(wù)下批量進(jìn)行開發(fā)的模式在進(jìn)行實時數(shù)據(jù)同步時需要許多額外的操作配合才能完成,過程復(fù)雜,對人員技術(shù) 要求高,在進(jìn)行PB級數(shù)據(jù)交換時傳統(tǒng)交換方式效率較低,需要很長時間

6、才能完成。傳統(tǒng)的數(shù)據(jù)交換工具不具備業(yè)務(wù)化的開發(fā)能力,遇到相同的數(shù)據(jù)交換需求需要重頭 開發(fā)。在安全保障上傳統(tǒng)的方式是手工編寫加密、脫敏的腳本來實現(xiàn)進(jìn)行跨區(qū)域數(shù)據(jù)同步時需要多種技術(shù)配合,實現(xiàn)方案復(fù)雜。4.數(shù)據(jù)交換破解“數(shù)據(jù)孤島”1數(shù)據(jù)標(biāo)準(zhǔn)為保證各應(yīng)用系統(tǒng)中的代碼表對同一業(yè)務(wù)信息定義一致,確保數(shù)據(jù)消費(fèi)系統(tǒng)可以根據(jù)業(yè) 務(wù)代碼辨別數(shù)據(jù)的確切業(yè)務(wù)含義,應(yīng)提供可配置的功能,基于一定的標(biāo)準(zhǔn)對數(shù)據(jù)供應(yīng)系統(tǒng)代碼進(jìn)行轉(zhuǎn)換,使數(shù)據(jù)存儲和數(shù)據(jù)消費(fèi)系統(tǒng)按照統(tǒng)一標(biāo)準(zhǔn)來理解數(shù)據(jù)。數(shù)據(jù)交換離不開數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)未動標(biāo)準(zhǔn)先行是構(gòu)建優(yōu)質(zhì)數(shù)據(jù)交換的前提。但現(xiàn)實中許 多企業(yè)沒有做好數(shù)據(jù)標(biāo)準(zhǔn),導(dǎo)致這些標(biāo)準(zhǔn)是在進(jìn)行數(shù)據(jù)交換或數(shù)據(jù)采集的時候進(jìn)

7、行,影響了 數(shù)據(jù)的質(zhì)量。一旦出現(xiàn)數(shù)據(jù)被篡改、被泄露等安全性問題,輕的影響業(yè)務(wù)開展,嚴(yán)重的泄露 核心機(jī)密造成企業(yè)重大損失。拷貝的數(shù)據(jù)難以控制準(zhǔn)確性和合規(guī)性,拷貝的數(shù)據(jù)流向哪里也 無法控制,是誰拷貝了信息也無法掌控。一旦出現(xiàn)信息泄露,無法追責(zé)。統(tǒng)一指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn), 可以規(guī)范業(yè)務(wù)統(tǒng)計分析語言,幫助企業(yè)提升分析應(yīng)用和監(jiān)管報送的數(shù)據(jù)質(zhì)量,進(jìn)而提高全行 數(shù)據(jù)質(zhì)量和數(shù)據(jù)資產(chǎn)價值。2自動采集元數(shù)據(jù)數(shù)據(jù)交換依托于元數(shù)據(jù),數(shù)據(jù)交換的本質(zhì)是基于元數(shù)據(jù)的交換。對半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù) 據(jù)自動采集。元數(shù)據(jù)是關(guān)于數(shù)據(jù)、操縱數(shù)據(jù)的數(shù)據(jù)和數(shù)據(jù)庫系統(tǒng)的結(jié)構(gòu)和意義的描述信息, 重要目標(biāo)就是提供數(shù)據(jù)資源的全面指南。元數(shù)據(jù)不僅定義了數(shù)據(jù)交

8、換中的數(shù)據(jù)模式、 來源以及抽取轉(zhuǎn)換規(guī)則等,而且整個數(shù)據(jù)交換系統(tǒng)的運(yùn)行都應(yīng)該是基于元數(shù)據(jù)的, 是元數(shù)據(jù)把數(shù)據(jù)交換系統(tǒng)中各個松散的組件聯(lián)系起來,組成了一個有機(jī)的整體。通 過自動化的元數(shù)據(jù)采集完成部門核心職能的業(yè)務(wù)梳理及其對應(yīng)的信息資源梳理,編 制部門信息資源目錄,摸清信息資源有什么、在哪里,提高信息資源共享程度,建 立信息資源共享機(jī)制和管理制度。結(jié)合企業(yè)內(nèi)部信息系統(tǒng)中的數(shù)據(jù)現(xiàn)狀和企業(yè)業(yè)務(wù) 屬性、技術(shù)屬性的要求形成企業(yè)數(shù)據(jù)標(biāo)準(zhǔn)的業(yè)務(wù)屬性和技術(shù)屬性,制定有效合理的 指標(biāo)數(shù)據(jù)規(guī)范要求。4.3數(shù)據(jù)交換方式和方法不同類型數(shù)據(jù)交換方式新的數(shù)據(jù)交換平臺提供數(shù)據(jù)、報文文件等多種數(shù)據(jù)交換服務(wù),能夠快速建立跨 硬件平

9、臺、數(shù)據(jù)庫和操作系統(tǒng)的可交互操作的數(shù)據(jù)交換與信息共享平臺,交換平臺 提供了一個開放的環(huán)境,支持多樣的客戶機(jī)、數(shù)據(jù)庫、網(wǎng)絡(luò)和通訊協(xié)議,通過可視 化配置實現(xiàn)與數(shù)據(jù)庫、文件以及web接口的數(shù)據(jù)交互。使得數(shù)據(jù)交換與業(yè)務(wù)邏輯的 個性有機(jī)結(jié)合,快速響應(yīng)數(shù)據(jù)集成和外部數(shù)據(jù)交換的需求。數(shù)據(jù)交換的方式一般是根據(jù)數(shù)據(jù)的類型來進(jìn)行區(qū)分,如結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù) 據(jù)可通過ETL的數(shù)據(jù)交換方式進(jìn)行,非結(jié)構(gòu)化的數(shù)據(jù)像壓縮文件、電影、圖片等采 用文件傳輸?shù)姆绞竭M(jìn)行交換,而對于一些實時性較高的交換一般采用接口形式進(jìn)行。 例如:restfull、webservice等。結(jié)構(gòu)化數(shù)據(jù)交換方法結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)交換數(shù)據(jù)中心時間戮 全

10、文比對 觸發(fā)器 CDC增量 全量同步主要有:時間戳同步、全文比對同步、觸發(fā)器同步、CDC增量同步、全量同步。Oracle Mysql SqIServerMongoDBHBaseS Hive這里我們對幾種做一個比較:全量同步全量抽取一般適用于統(tǒng)計分析或無需進(jìn)行二次更新的業(yè)務(wù)需求,通過全量抽取一次 或多次將業(yè)務(wù)系統(tǒng)數(shù)據(jù)源在不做任何操作的情況下直接抽取過來,全量數(shù)據(jù)抽取方 式雖然較簡單、直接、快速。通過系統(tǒng)中的采集組件,無需增加過濾條件,即可對 數(shù)據(jù)庫中的全量文件進(jìn)行一次性采集。全量采集比較適合于數(shù)據(jù)業(yè)務(wù)量小的業(yè)務(wù)需 求。這種方式不能增量的進(jìn)行數(shù)據(jù)同步,對于大數(shù)據(jù)量下的同步并不適用。時間戳同步使用這

11、種方式進(jìn)行增量數(shù)據(jù)抽取的前提是源數(shù)據(jù)庫與目標(biāo)數(shù)據(jù)庫都必須有時間戳字 段。先讀取目標(biāo)數(shù)據(jù)庫中的最大時間,然后以這個時間作為參數(shù)從源數(shù)據(jù)庫中讀取 大于這個時間的所有數(shù)據(jù)?;跁r間戳的方法需要相關(guān)應(yīng)用系統(tǒng)中的每個表中都有 一個時間戳字段,以記錄每個表的修改時間。這種方法不影響原有應(yīng)用的運(yùn)行效率, 但如果表中沒有時間戳的字段卻需要對原有系統(tǒng)做較大的調(diào)整,這種方式不能捕獲 到那些并非通過應(yīng)用系統(tǒng)引起的操作數(shù)據(jù)變化。優(yōu)點(diǎn):處理諫度快,數(shù)據(jù)處理邏輯相對簡單。缺點(diǎn):源數(shù)據(jù)庫沒有時間戳字段的表需要更改表結(jié)構(gòu),而且需要源數(shù)據(jù)庫來維護(hù)時 間戳字段;無法實現(xiàn)數(shù)據(jù)同步,因為使用時間戳字段無法獲取刪除后的數(shù)據(jù)。CDC增量

12、同步通過分析數(shù)據(jù)庫日志的信息來捕獲復(fù)制對象的變化序列。這種方法不僅方便,也不 會占用太多額外的系統(tǒng)資源,對任何類型的復(fù)制都適合,不但能提高效率和保證數(shù) 據(jù)的完整性,還能在對等式復(fù)制時提供詳細(xì)的控制信息。但由于數(shù)據(jù)庫日志的格式 是不公開的,因而不得不基于某一固定的數(shù)據(jù)庫日志分析工具或接口,這給異構(gòu)數(shù) 據(jù)庫復(fù)制帶來了問題。優(yōu)點(diǎn):可靠性強(qiáng),對源系統(tǒng)沒有影響。缺點(diǎn)各數(shù)據(jù)庫系統(tǒng)的日志文件絕大部分都是私有的,并且日志格式都不一樣,因 此捕獲這些日志需要有專門有針對性的組件來進(jìn)行,個別數(shù)據(jù)庫還需要管理員權(quán)限 進(jìn)行配合才能實現(xiàn)。對于沒有提供日志分析接口的數(shù)據(jù)源,開發(fā)的難度比較大 觸發(fā)器同步在業(yè)務(wù)數(shù)據(jù)表中創(chuàng)建相

13、應(yīng)的觸發(fā)器,當(dāng)提取、復(fù)制對象進(jìn)行變更(插入、修改、刪 除)時,由觸發(fā)器觸發(fā)提數(shù)程序,將變化寫入目標(biāo)數(shù)據(jù)庫中。這種方案可用于同步 復(fù)制、增量復(fù)制。優(yōu)點(diǎn):借助數(shù)據(jù)庫本身的機(jī)制,可靠性強(qiáng)。缺點(diǎn):對源系統(tǒng)有影響,需要建立觸發(fā)器以及臨時表或臨時數(shù)據(jù)存儲文件全文比對同步對前后兩個時間點(diǎn)取業(yè)務(wù)數(shù)據(jù)表的全量進(jìn)行數(shù)據(jù)比對,比對出來有差異的部分就是 數(shù)據(jù)增量的部分。此法可以用于一段時間后進(jìn)行數(shù)據(jù)的強(qiáng)制同步,但由于消耗資源 較大,因此一般建議用于業(yè)務(wù)空閑期使用。優(yōu)點(diǎn):對源系統(tǒng)沒有任何影響。缺點(diǎn):面對海量數(shù)據(jù)(千萬級、萬萬級)進(jìn)行比對時有一定的性能問題。這些同步方式除了全量同步,其他幾種都需要業(yè)務(wù)表有主鍵。這些同步的

14、方式 各有優(yōu)缺點(diǎn),在實際使用中應(yīng)根據(jù)企業(yè)系統(tǒng)自身實際情況來采取適合的交換方法。 網(wǎng)上有許多人推薦使用CDC的方式,CDC這種架構(gòu)下數(shù)據(jù)寫入主存儲后會由主存儲 再向輔存儲進(jìn)行同步,對應(yīng)用層是最友好的,只需要與主存儲打交道。主存儲到輔 存儲的數(shù)據(jù)同步,則可以再利用異步隊列復(fù)制技術(shù)來做。不過這種方案對主存儲的 能力有很高的要求,必須要求主存儲能支持CDC技術(shù)。另外這種方式在一些數(shù)據(jù)庫 中需要有DBA的權(quán)限配合才能夠完成,所以在進(jìn)行CDC同步的時候首先就需要考慮 數(shù)據(jù)庫的環(huán)境是否有條件能夠完成CDC的配置。觸發(fā)器、時間戳、全文比對以及方式都能夠支持?jǐn)帱c(diǎn)續(xù)傳,所使用的方式各不 相同。觸發(fā)器數(shù)據(jù)同步的過程

15、是先將增量數(shù)據(jù)同步到臨時表中,這個臨時表會增加兩 個字段,一個是所做操作的標(biāo)識(標(biāo)識有:insert、update和delete),另一個是自 增的列。在進(jìn)行同步時是查詢這張臨時表來進(jìn)行的,再查臨時表時會使用自增的列 進(jìn)行排序進(jìn)行查詢,檢查尋到的增量數(shù)據(jù)通過組件到目標(biāo)庫中根據(jù)操作標(biāo)識進(jìn)行相 應(yīng)的操作,操作完成后如果成功執(zhí)行則會去臨時表把已經(jīng)同步的增量數(shù)據(jù)按照自增 列的值進(jìn)行刪除。如果這個過程中在向目標(biāo)同步數(shù)據(jù)時出現(xiàn)異常,則這張臨時表中 的數(shù)據(jù)不會被刪除掉。而我們在進(jìn)行作業(yè)觸發(fā)時一般使用的都是按照頻度、計劃去 定期執(zhí)行,當(dāng)前這次同步失敗后,在下一次計劃觸發(fā)執(zhí)行時由于上一次所執(zhí)行的作 業(yè)最后并沒有

16、將臨時表中的作業(yè)刪除,在這次作業(yè)執(zhí)行時上一次沒有同步的數(shù)據(jù)還 在。所以這次執(zhí)行時就會從斷點(diǎn)位置開始再次進(jìn)行同步。時間戳數(shù)據(jù)同步的過程是首先到目標(biāo)表去根據(jù)時間戳使用數(shù)據(jù)庫中的獲取最大 值的函數(shù)(一般數(shù)據(jù)庫使用MAX函數(shù))來查找時間戳里的最大值,然后使用這個最大 值去源表找大于這個值的數(shù)據(jù)(同時需要根據(jù)這個時間戳進(jìn)行排序),這些查找到的 數(shù)據(jù)就是我們需要同步的增量數(shù)據(jù),時間戳這種方式不能區(qū)分這些數(shù)據(jù)是插入還是 更新的操作。那么接下來使用的是數(shù)據(jù)平臺提供的插入更新組件,這個組件會在執(zhí) 行操作前先根據(jù)主鍵到數(shù)據(jù)庫中查尋一下數(shù)據(jù)如果有則執(zhí)行更新,如果沒有則執(zhí)行 插入。這樣進(jìn)行數(shù)據(jù)同步,如果在執(zhí)行過程中出

17、現(xiàn)異常那么目標(biāo)數(shù)據(jù)庫就沒有同步 這些增量數(shù)據(jù)。同樣我們在進(jìn)行作業(yè)觸發(fā)時使用的都是按照頻度、計劃去定期執(zhí)行, 當(dāng)前這次同步失敗后,在下一次計劃觸發(fā)執(zhí)行時由于上一次所執(zhí)行的作業(yè)沒有進(jìn)入 目標(biāo)表,在這次執(zhí)行作業(yè)時從目標(biāo)表查找的最大值就沒有變化。所以這次執(zhí)行時就 會從斷點(diǎn)位置開始再次進(jìn)行同步。全文比對的過程是先從源和目標(biāo)中將數(shù)據(jù)按照排序字段先進(jìn)行排序然后抽取出 來,經(jīng)過比對組件計算得到變化的狀態(tài)(insert、update和delete),最后根據(jù)得到 的變化狀態(tài)將數(shù)據(jù)同步到目標(biāo)表。如果在這一過程中發(fā)生異常,那么這次同步的數(shù) 據(jù)就沒有進(jìn)入目標(biāo)表,在下一次計劃觸發(fā)執(zhí)行時由于上一次所執(zhí)行的作業(yè)沒有進(jìn)入 目

18、標(biāo)表,在這次執(zhí)行作業(yè)時又會重新進(jìn)行比對得到斷點(diǎn)位置又會再次進(jìn)行數(shù)據(jù)同步。CDC數(shù)據(jù)同步的執(zhí)行過程是根據(jù)日志記錄的偏移來從日志中找出需要同步的增 量數(shù)據(jù),然后到目標(biāo)表根據(jù)操作標(biāo)識進(jìn)行數(shù)據(jù)同步完成后修改日志記錄的偏移,那么作業(yè)在執(zhí)行過程中出現(xiàn)異常時,這個日志的偏移量沒有改變。在進(jìn)行性下一次數(shù)據(jù)交換時還會從這個偏移量的位置進(jìn)行,從而實現(xiàn)斷點(diǎn)續(xù)傳。非結(jié)構(gòu)化數(shù)據(jù)交換以前的非結(jié)構(gòu)化的數(shù)據(jù)交換,常常使用網(wǎng)盤或者FTP傳輸文件時,尤其是大文 件,容易出現(xiàn)中斷,嚴(yán)重影響工作效率和業(yè)務(wù)。文件校驗W加密傳輸僉文件切片壓縮傳輸至數(shù)據(jù)中心斷點(diǎn)續(xù)傳.壓縮文件蜀二進(jìn)制文件崔電影:圖片資源目錄交換中心共享中心數(shù)據(jù)交換平臺中采

19、用了數(shù)字簽名、時間戳、報文加密的方式對傳輸?shù)南⑦M(jìn)行 完整性驗證,防止消息在傳輸過程中被篡改。通過數(shù)據(jù)交換平臺可以驗證消息確實 來自于其真正的發(fā)送者而非假冒;確保消息的內(nèi)容沒有被修改;防止以插入、刪除、 調(diào)換或修改等方式篡改消息。交換平臺中的文件傳輸具有以下特點(diǎn):數(shù)據(jù)包裹傳輸方式防止數(shù)據(jù)被篡改采用全新數(shù)字包裹數(shù)據(jù)傳輸方式,有效防止數(shù)據(jù)被惡意篡改。加密傳輸和存儲保障數(shù)據(jù)安全性提供文件安全交換加密傳輸和存儲。采用私有文件傳輸協(xié)議和SSL安全協(xié)議訪問。 提供文件效期控制,支持文件自動清除銷毀。支持?jǐn)帱c(diǎn)續(xù)傳錯誤重傳確保數(shù)據(jù)高效流轉(zhuǎn)采用超高速傳輸協(xié)議,支持超大文件和海量文件傳輸。支持?jǐn)帱c(diǎn)續(xù)傳,錯誤重傳,

20、 文件秒傳和文件校驗。下面列舉了平臺中文件傳輸中所使用到的技術(shù):文件校驗平臺采用單向散列算法用于文件的完整性驗證,在文件傳輸之前會使用單向散列算 法生成文件唯一摘要信息,在文件傳輸后會將收到的文件再次使用單向散列算法生 成摘要信息和之前的摘要信息進(jìn)行比較。斷點(diǎn)續(xù)傳:斷點(diǎn)續(xù)傳是在下載或上傳時,將下載或上傳任務(wù)(一個文件或一個壓縮包)人為的 劃分為幾個部分,每一個部分采用一個線程進(jìn)行上傳或下載,如果碰到網(wǎng)絡(luò)故障, 可以從已經(jīng)上傳或下載的部分開始繼續(xù)上傳下載未完成的部分,而沒有必要從頭開 始上傳下載。用戶可以節(jié)省時間,提高速度。壓縮傳輸:在文件傳輸時先將文件進(jìn)行壓縮,然后傳送壓縮文件到目標(biāo),最后進(jìn)行

21、解壓和清除 工作,壓縮傳輸能有效減小文件體積節(jié)省傳輸帶寬。文件切片:切片傳輸是將文件進(jìn)行切片,每一片形成一個傳輸線程進(jìn)行傳輸。采用并行的數(shù)據(jù) 流傳輸管道,有效地將傳輸速率最大化。實時數(shù)據(jù)交換打破信息壁壘和信息孤島,實現(xiàn)統(tǒng)一高效、互聯(lián)互通、安全可靠的數(shù)據(jù)資源體 系,實時數(shù)據(jù)交換是推動信息跨部門跨層級共享共用數(shù)據(jù)中心的重要環(huán)節(jié)。實時數(shù) 據(jù)交換適用于對于數(shù)據(jù)時效要求快速、高頻度、少量數(shù)據(jù)傳輸?shù)膱鼍?。實時數(shù)據(jù)交 換通過將數(shù)據(jù)中心庫中的數(shù)據(jù)快速的發(fā)布出來提供給外部系統(tǒng)共享調(diào)用,同時能夠監(jiān)控外部調(diào)用數(shù)據(jù)的情況提升數(shù)據(jù)的價值。在新的Web服務(wù)共享下數(shù)據(jù)交換平能夠自助的、一鍵式將數(shù)據(jù)中心庫(包括常見的關(guān)系型數(shù)

22、據(jù)庫 mysql、oracle、sqlserver 等,或 Hbase、Hive、MongoDB) 中的數(shù)據(jù)通過標(biāo)準(zhǔn)的Web服務(wù)發(fā)布出來。用戶只需要配置發(fā)布數(shù)據(jù)中表和表之間 的關(guān)系以及發(fā)布的字段就能夠?qū)崿F(xiàn)單表、多表或數(shù)據(jù)實體的發(fā)布。發(fā)布出的服務(wù) 帶有對輸入輸出以及調(diào)用url的詳細(xì)描述信息,消費(fèi)方能夠很方便的對這些信息 進(jìn)行查看和訂閱。服務(wù)方能夠?qū)τ嗛喌男畔⑦M(jìn)行審批,審批通過后消費(fèi)方才能根據(jù)審批信息, 配置服務(wù)調(diào)用參數(shù)調(diào)用服務(wù)。服務(wù)方通過對訂閱信息的管理和監(jiān)控能更好的掌握 和發(fā)掘數(shù)據(jù)的價值。數(shù)據(jù)驅(qū)動的交換變化數(shù)據(jù)捕獲簡稱CDC,這種方式主要應(yīng)用于增量數(shù)據(jù)同步并且實時性要求 較高的場景。這種架構(gòu)下

23、數(shù)據(jù)寫入主存儲后會由主存儲再向輔存儲進(jìn)行同步,對 應(yīng)用層是最友好的,只需要與主存儲打交道。主存儲到輔存儲的數(shù)據(jù)同步,則可 以再利用異步隊列復(fù)制技術(shù)來做。不過這種方案對主存儲的能力有很高的要求, 必須要求主存儲能支持CDC技術(shù)。而目前每種數(shù)據(jù)庫實現(xiàn)CDC的方式和方法各不 相同,于是就需要根據(jù)數(shù)據(jù)庫類型定制化的進(jìn)行CDC的開發(fā)。CDC的數(shù)據(jù)同步具有低影響、低延遲、高性能等特點(diǎn)。這里以mysql為例采 用Canal來說明實現(xiàn)CDC數(shù)據(jù)同步。canal利用了 mysql的slave協(xié)議將自己偽 裝為mysql的一個子服務(wù)器,向mysql master 發(fā)送dump協(xié)議mysql master 收 到d

24、ump請求,就會將記錄的日志信息給slave(也就是canal),canal解析日志 信息獲取需要同步的數(shù)據(jù),數(shù)據(jù)交換平臺通過Canal組件監(jiān)聽Canal服務(wù)獲取到 變化數(shù)據(jù)交給之后的增量數(shù)據(jù)輸出組件根據(jù)CDC所捕獲的操作類型(類型有: insert,update,delete) 對目標(biāo)數(shù)據(jù)庫進(jìn)行相同的操作來完成數(shù)據(jù)同步。這里 Canal通過對日志數(shù)據(jù)的監(jiān)聽觸發(fā)。指定周期的交換數(shù)據(jù)交換平臺作為一個批量數(shù)據(jù)處理系統(tǒng),每天都會進(jìn)行大量的數(shù)據(jù)處理作 業(yè),這些作業(yè)之間可能存在復(fù)雜的時序關(guān)聯(lián),因此必須有一個具備一定自動化程 度的調(diào)度層,來實現(xiàn)作業(yè)有序、高效的執(zhí)行。作業(yè)在運(yùn)行前都需要在統(tǒng)一調(diào)度系 統(tǒng)中注冊

25、,注冊成功后再由調(diào)度系統(tǒng)自身的調(diào)度管理根據(jù)配置的任務(wù)計劃決定作 業(yè)的執(zhí)行次序進(jìn)行資源調(diào)配。調(diào)度包含以下內(nèi)容:觸發(fā)方式:在調(diào)度管理中定期根據(jù)日歷、頻度進(jìn)行作業(yè)觸發(fā)。作業(yè)次序:觸發(fā)后作業(yè)會根據(jù)之前設(shè)定好的數(shù)據(jù)性進(jìn)行作業(yè)排序調(diào)整作業(yè)次序。任務(wù)計劃:任務(wù)計劃會按照配置好的任務(wù)執(zhí)行周期來進(jìn)行任務(wù)調(diào)度。資源調(diào)配:在執(zhí)行調(diào)度的時候會根據(jù)注冊的作業(yè)服務(wù)器的狀況進(jìn)行資源分配執(zhí)行 傳輸任務(wù)。事件驅(qū)動的交換數(shù)據(jù)交換平臺在與用戶的系統(tǒng)進(jìn)行集成式往往會遇到客戶系統(tǒng)需要直接運(yùn) 行交換作業(yè)的情況,為此數(shù)據(jù)交換平臺提供了一套基于事件觸發(fā)的作業(yè)運(yùn)行機(jī)制。能夠通過文件監(jiān)聽或者h(yuǎn)ttp調(diào)用來與用戶的系統(tǒng)進(jìn)行集成。交換服務(wù)能夠通過監(jiān)

26、聽文件目錄或端口,當(dāng)目錄中有符合作業(yè)觸發(fā)規(guī)范的文 件時或接口被調(diào)用時,對文件中描述的計劃按照之前設(shè)定好的數(shù)據(jù)性進(jìn)行作業(yè)排 序調(diào)整作業(yè)次序觸發(fā)執(zhí)行,并刪除監(jiān)聽到的文件。整個觸發(fā)執(zhí)行過程都會進(jìn)入日 志信進(jìn)行留痕。4.4新方式迎接數(shù)據(jù)挑戰(zhàn)批量數(shù)據(jù)交換在進(jìn)行數(shù)據(jù)交換時往往遇到的情況是要將整個庫中所有的表進(jìn)行遷移或同 步,這些遷移或同步的大體邏輯往往相同,但庫中的表非常多,傳統(tǒng)的數(shù)據(jù)交換 中是一張源表對一張目標(biāo)表進(jìn)行作業(yè)任務(wù)開發(fā),造成開發(fā)人員巨大的工作量,表 中的字段和和類型在進(jìn)行配置時容易出錯,效率低下。業(yè)務(wù)系統(tǒng)數(shù)據(jù)交換0 CDC增量同步 口全量同步 全文比對同步 時間戳同步 觸發(fā)器同步 數(shù)據(jù)脫敏數(shù)據(jù)

27、中心批量數(shù)據(jù)交換采用作業(yè)模板作為業(yè)務(wù)規(guī)格定義,結(jié)合資源目錄能夠通過簡單地可視化操作批量數(shù)據(jù)源,對數(shù)據(jù)源進(jìn)行批量的數(shù)據(jù)交換處理。批量數(shù)據(jù)交換有 以下特性:基于作業(yè)模板實現(xiàn)業(yè)務(wù)能力定義可批量進(jìn)行整庫的數(shù)據(jù)交換自動控制數(shù)據(jù)交換中的各種數(shù)據(jù)轉(zhuǎn)換自動進(jìn)行數(shù)據(jù)分批次交換傳輸對交換的數(shù)據(jù)可配置數(shù)據(jù)脫敏通過批量數(shù)據(jù)交換加強(qiáng)了大數(shù)據(jù)量的交換能力。配置、部署、運(yùn)維簡單,能 夠有效提升開發(fā)人員的開發(fā)效率和質(zhì)量。跨區(qū)域數(shù)據(jù)交換跨域的數(shù)據(jù)交換在實際應(yīng)用中,每個單位或部門從安全的角度考慮,都會設(shè) 置前置機(jī)和防火墻,以及根據(jù)需求雙方商定通訊方式編制相應(yīng)的交換策略。因此, 實施難度會加大,實施進(jìn)度也會拉長。以前遇到跨區(qū)域數(shù)據(jù)

28、同步往往是先將數(shù)據(jù)轉(zhuǎn)換為文件,然后通過p2p文件傳 輸將文件發(fā)送到目標(biāo)節(jié)點(diǎn),最后目標(biāo)節(jié)點(diǎn)拿到文件再將文件通過轉(zhuǎn)換導(dǎo)入到目標(biāo) 數(shù)據(jù)源中。新的模式對下面幾個因素都要考慮周全。簡單。交互的設(shè)計要簡單,這對調(diào)用雙方都有好處。安全性。如何保證數(shù)據(jù)在交互過程中出現(xiàn)各種異常的情況下,數(shù)據(jù)不出錯、不丟 失。性能。在選擇的時候,要考慮數(shù)據(jù)量的大小,以決定一種合適的交換方式(比如: 一次調(diào)用請求的數(shù)據(jù)量,請求調(diào)用的頻率)。在新的交換模式下通過對節(jié)點(diǎn)的管理和注冊,結(jié)合了文件傳輸高效、安全、 穩(wěn)定的特性,在進(jìn)行跨區(qū)域數(shù)據(jù)同步時只需要配置源和目標(biāo)的數(shù)據(jù)庫信息按照既 定的業(yè)務(wù)邏輯就能夠完成跨節(jié)點(diǎn)的數(shù)據(jù)交換,文件傳輸?shù)倪^程自動交由數(shù)據(jù)交換 平臺完成,減輕了跨域數(shù)據(jù)同步的復(fù)雜度。應(yīng)對大數(shù)據(jù)的挑戰(zhàn)傳統(tǒng)ETL主要以SQL為主要技術(shù)手段,把數(shù)據(jù)經(jīng)抽取、清洗轉(zhuǎn)換之后加載到數(shù)據(jù)倉庫。但是在如今移動互聯(lián)網(wǎng)大力發(fā)展的場景下,產(chǎn)生大量碎片化和不 規(guī)則的數(shù)據(jù)。這中間的數(shù)據(jù)導(dǎo)入和SQL ETL的提取的過程,大量消耗IO性能 和計算資源,在很多場景下已經(jīng)是數(shù)據(jù)處理的瓶頸所在。SpOfk + Flume + Xm I數(shù)據(jù)中心Spark通過在數(shù)據(jù)處理過程中成本更低的洗牌(Shuffle )方式,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論