多源數(shù)據(jù)融合平臺(tái)建設(shè)方案_第1頁(yè)
多源數(shù)據(jù)融合平臺(tái)建設(shè)方案_第2頁(yè)
多源數(shù)據(jù)融合平臺(tái)建設(shè)方案_第3頁(yè)
多源數(shù)據(jù)融合平臺(tái)建設(shè)方案_第4頁(yè)
多源數(shù)據(jù)融合平臺(tái)建設(shè)方案_第5頁(yè)
已閱讀5頁(yè),還剩34頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

多源數(shù)據(jù)融合平臺(tái)建設(shè)方案2019年12月目錄TOC\o"1-2"\h\u28909一、元數(shù)據(jù)管理子系統(tǒng) 3279961.元數(shù)據(jù)管理 3237732.數(shù)據(jù)定義 3288923.元數(shù)據(jù)存儲(chǔ) 467944.元數(shù)據(jù)查詢 412645.元數(shù)據(jù)維護(hù) 515726.元數(shù)據(jù)檢查 574937.元數(shù)據(jù)分析 513274二、數(shù)據(jù)采集子系統(tǒng) 660501.采集方式 68662.采集技術(shù) 645533.采集功能 827859三、數(shù)據(jù)清洗加工子系統(tǒng) 95986數(shù)據(jù)清洗結(jié)構(gòu)設(shè)計(jì) 10146861.清洗轉(zhuǎn)換 10123862.數(shù)據(jù)加工 12119333.數(shù)據(jù)加載 12234354.數(shù)據(jù)校驗(yàn) 14106445.異常處理 1576656.數(shù)據(jù)標(biāo)準(zhǔn)化 1620129四、數(shù)據(jù)質(zhì)量管理子系統(tǒng) 16224451.數(shù)據(jù)質(zhì)量 16240352.數(shù)據(jù)評(píng)估 18202613.稽核管理 1930691五、統(tǒng)一調(diào)度子系統(tǒng) 20121751.統(tǒng)一調(diào)度功能 21154942.調(diào)度配置 22237103.調(diào)度運(yùn)行 22160174.調(diào)度策略 23195725.調(diào)度監(jiān)控 2322597六、數(shù)據(jù)共享交換子系統(tǒng) 24251701.數(shù)據(jù)交換 2445722.數(shù)據(jù)共享 2622430七、數(shù)據(jù)存儲(chǔ)子系統(tǒng) 31一、元數(shù)據(jù)管理子系統(tǒng)1.元數(shù)據(jù)管理元數(shù)據(jù)的范圍包括數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)詞典、字段維度、程序映射邏輯、數(shù)據(jù)生命周期等。元數(shù)據(jù)管理包括元數(shù)據(jù)定義、存儲(chǔ)、查詢、維護(hù)、檢查和分析應(yīng)用。2.數(shù)據(jù)定義元數(shù)據(jù)的定義可參考以下步驟:(1)基礎(chǔ)分類信息制定設(shè)置基本的分類編碼信息。如主題的分類,層次的分類,表級(jí)別分類配置管理。(2)元模型制定根據(jù)管理需要,自定義元模型信息。元模型是指管理數(shù)據(jù)的基本信息模型,配置了表元模型的信息要素,規(guī)范管理要素等。(3)數(shù)據(jù)分層定義歸納分類是認(rèn)識(shí)和理解對(duì)一個(gè)復(fù)雜的對(duì)象的最有效的辦法,在對(duì)數(shù)據(jù)進(jìn)行管理我們認(rèn)為從分層、再分主題對(duì)數(shù)據(jù)進(jìn)行分類是行之有效的方法,制定好數(shù)據(jù)分層分主題,每個(gè)表歸屬到層次和主題上。(4)數(shù)據(jù)主題管理根據(jù)數(shù)據(jù)交換共享數(shù)據(jù)目錄為基礎(chǔ),按照相關(guān)業(yè)務(wù),劃分主題并對(duì)各主題進(jìn)行管理。通過(guò)分類來(lái)約定表數(shù)據(jù)資源的存儲(chǔ)周期;預(yù)置多個(gè)表資源分類(層次、主題、存儲(chǔ)周期等),分類可動(dòng)態(tài)擴(kuò)展,通過(guò)分類的表命名規(guī)則,可以快速把表資源歸屬到各個(gè)分類下。(5)模型規(guī)范制定制定表的命名規(guī)范,字段的命名規(guī)范。解決各源系統(tǒng)不規(guī)范的命名方式,避免同名不同義,同義不同名的現(xiàn)象。(6)維表管理從各層次、主題,提取出公共維度和維度的統(tǒng)一編碼,以了解系統(tǒng)數(shù)據(jù)的非常關(guān)鍵的內(nèi)容。(7)指標(biāo)管理從各層次、主題提取基礎(chǔ)的指標(biāo),并定義其業(yè)務(wù)含義,技術(shù)口徑。另外,元數(shù)據(jù)定義主要需實(shí)現(xiàn)兩類規(guī)則定義:標(biāo)準(zhǔn)化的命名規(guī)則和統(tǒng)一的擴(kuò)展規(guī)則。(8)標(biāo)準(zhǔn)化的命名規(guī)則標(biāo)準(zhǔn)化數(shù)據(jù)的名稱、編碼、層級(jí)、層的屬性名稱,確保協(xié)調(diào)一致,統(tǒng)一管理,解決各源系統(tǒng)不規(guī)范的命名方式,避免同名不同義,同義不同名的現(xiàn)象,解決系統(tǒng)之間數(shù)據(jù)集成的標(biāo)準(zhǔn),解決跨部門數(shù)據(jù)分析時(shí)數(shù)據(jù)一致理解,同時(shí)也是溝通IT和業(yè)務(wù)的一致理解。(9)提供統(tǒng)一數(shù)據(jù)擴(kuò)展規(guī)則系統(tǒng)對(duì)指標(biāo)代碼,元數(shù)據(jù),子類等擴(kuò)展要素的擴(kuò)展規(guī)則進(jìn)行統(tǒng)一限定,保證后續(xù)數(shù)據(jù)的持續(xù)規(guī)范管理。3.元數(shù)據(jù)存儲(chǔ)元數(shù)據(jù)存儲(chǔ)的信息管理范圍:數(shù)據(jù)源接口、ETL和前端展現(xiàn)等全部數(shù)據(jù)處理環(huán)節(jié),并提供對(duì)技術(shù)元數(shù)據(jù)及業(yè)務(wù)元數(shù)據(jù)存儲(chǔ)。(1)業(yè)務(wù)元數(shù)據(jù)面向業(yè)務(wù)分析人員,是數(shù)據(jù)中心數(shù)據(jù)處理規(guī)則的業(yè)務(wù)化描述,主要包括業(yè)務(wù)規(guī)則、業(yè)務(wù)術(shù)語(yǔ)、業(yè)務(wù)指標(biāo)、信息分類等;業(yè)務(wù)指標(biāo)基本屬性包括:指標(biāo)標(biāo)識(shí)、指標(biāo)名稱、指標(biāo)描述、指標(biāo)數(shù)據(jù)來(lái)源、指標(biāo)業(yè)務(wù)口徑、指標(biāo)統(tǒng)計(jì)周期、指標(biāo)度量單位、指標(biāo)創(chuàng)建日期、指標(biāo)最后修訂日期和指標(biāo)備注等。維度數(shù)據(jù)基本屬性包括:維度標(biāo)識(shí)、維度名稱、維度描述、維度層級(jí)數(shù)、維度生效時(shí)間和維度失效時(shí)間等。(2)技術(shù)元數(shù)據(jù)面向運(yùn)維技術(shù)人員,偏重?cái)?shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)處理細(xì)節(jié)方面的技術(shù)化描述,是用于開發(fā)和維護(hù)的基本信息,主要包括源系統(tǒng)接口規(guī)范、數(shù)據(jù)結(jié)構(gòu)的描述以及數(shù)據(jù)處理過(guò)程的描述等信息。4.元數(shù)據(jù)查詢?cè)獢?shù)據(jù)查詢必須支持對(duì)元數(shù)據(jù)庫(kù)中的元數(shù)據(jù)基本信息進(jìn)行查詢與檢索的功能,可查詢數(shù)據(jù)庫(kù)表、維表、指標(biāo)、過(guò)程及參與的輸入輸出對(duì)象信息,以及其它納入管理的對(duì)象基本信息,查詢的信息按處理的層次及業(yè)務(wù)主題進(jìn)行組織,查詢功能返回實(shí)體及其所屬的相關(guān)信息。提供可視化的界面,實(shí)現(xiàn)元數(shù)據(jù)信息的查詢展現(xiàn),支持按照元數(shù)據(jù)的查詢、按指標(biāo)定義和指標(biāo)名稱的查詢。查詢的信息內(nèi)容包括:數(shù)據(jù)字典、數(shù)據(jù)目錄、服務(wù)目錄等。提供對(duì)歷史信息的查詢,方便維護(hù)人員了解具體對(duì)象的歷史變更情況。查詢功能包括快速查詢功能和屬性查詢。查詢功能表查詢功能描述快速查詢以關(guān)鍵字為核心,通過(guò)對(duì)元數(shù)據(jù)的關(guān)鍵屬性進(jìn)行模糊查詢,返回符合條件的元數(shù)據(jù)列表,查看某一元數(shù)據(jù)的詳細(xì)信息。屬性查詢指定元數(shù)據(jù)類型、元數(shù)據(jù)屬性,并輸入查詢屬性的值,對(duì)該類型元數(shù)據(jù)進(jìn)行模糊查詢,返回符合條件的元數(shù)據(jù)列表,查看某元數(shù)據(jù)的詳細(xì)信息。5.元數(shù)據(jù)維護(hù)隨著本項(xiàng)目的深入,元數(shù)據(jù)是動(dòng)態(tài)更新的,因此元數(shù)據(jù)的維護(hù)需提供對(duì)元數(shù)據(jù)的增加、刪除和修改等基本操作。對(duì)于元數(shù)據(jù)的增量維護(hù),可以保留歷史版本信息。用戶使用元數(shù)據(jù)基本維護(hù)功能,可以統(tǒng)一管理所有系統(tǒng)中的元數(shù)據(jù)。元數(shù)據(jù)的維護(hù)操作是原子操作,這些原子操作可通過(guò)服務(wù)封裝的形式向性能管理系統(tǒng)的其它模塊提供元數(shù)據(jù)維護(hù)接口。使用者可基于業(yè)務(wù)和管理的層面對(duì)業(yè)務(wù)、管理需求進(jìn)行建模,定義元數(shù)據(jù)的屬性;支持Excel批量操作和外部接口導(dǎo)入功能。6.元數(shù)據(jù)檢查數(shù)據(jù)質(zhì)量檢查機(jī)制能及時(shí)發(fā)現(xiàn)、報(bào)告和處理元數(shù)據(jù)的數(shù)據(jù)質(zhì)量問(wèn)題,因此,平臺(tái)應(yīng)提供對(duì)元數(shù)據(jù)數(shù)據(jù)質(zhì)量的檢查手段,在元數(shù)據(jù)上線時(shí),對(duì)元數(shù)據(jù)進(jìn)行稽核檢查,保證元數(shù)據(jù)信息的完整性,合理性。元數(shù)據(jù)檢查應(yīng)包括SQL解析成功率、表級(jí)關(guān)系完整率、字段關(guān)系完整率等評(píng)估指標(biāo)進(jìn)行元數(shù)據(jù)質(zhì)量檢查。7.元數(shù)據(jù)分析當(dāng)數(shù)據(jù)出現(xiàn)問(wèn)題時(shí),元數(shù)據(jù)管理能夠通過(guò)血緣分析和影響分析,定位數(shù)據(jù)問(wèn)題產(chǎn)生的路徑,并評(píng)估出該問(wèn)題對(duì)平臺(tái)其他數(shù)據(jù)或應(yīng)用的影響。數(shù)據(jù)采集子系統(tǒng)1.采集方式通過(guò)多源數(shù)據(jù)采集接口,與其他系統(tǒng)對(duì)接,系統(tǒng)提供多種類型的采集手段,以滿足IT系統(tǒng)對(duì)數(shù)據(jù)采集現(xiàn)狀的要求,如:采集手段可包括“推”模式、“拉”模式、web上傳模式、直連模式等,如下圖所示:數(shù)據(jù)采集方式示意圖2.采集技術(shù)如何快速?gòu)臉I(yè)務(wù)系統(tǒng)獲取采集實(shí)時(shí)數(shù)據(jù),而不能對(duì)源業(yè)務(wù)系統(tǒng)產(chǎn)生大的性能影響。數(shù)據(jù)共享交換平臺(tái)數(shù)據(jù)采集可參考以下關(guān)鍵技術(shù):(1)服務(wù)接口的數(shù)據(jù)采集服務(wù)接口數(shù)據(jù)采集方法原理優(yōu)點(diǎn)缺點(diǎn)基于快照法快照是數(shù)據(jù)庫(kù)中存儲(chǔ)對(duì)象在某一時(shí)刻的即時(shí)映像。周期性的提取源數(shù)據(jù)庫(kù)系統(tǒng)中的數(shù)據(jù)快照加載到目標(biāo)數(shù)據(jù)庫(kù)中它不需要依賴于特別的機(jī)制,系統(tǒng)資源占用較小,容易管理和操作由于對(duì)于快照對(duì)象并不區(qū)分具體的變動(dòng)記錄,而且采用快照集合完全刷新,因此效率較低基于觸發(fā)器法在源數(shù)據(jù)庫(kù)為同步對(duì)象創(chuàng)建相應(yīng)的觸發(fā)器,當(dāng)對(duì)同步對(duì)象進(jìn)行修改、插入或刪除等DML命令時(shí),觸發(fā)器被喚醒,將變化傳播到目標(biāo)數(shù)據(jù)庫(kù)極大提高了系統(tǒng)效率使用的系統(tǒng)資源比較多,需要對(duì)系統(tǒng)進(jìn)行改動(dòng)基于日志法數(shù)據(jù)庫(kù)日志作為維護(hù)數(shù)據(jù)完整性和數(shù)據(jù)庫(kù)恢復(fù)的重要工具,其中已經(jīng)包含了全部成功提交的數(shù)據(jù)庫(kù)操作記錄信息?;谌罩痉ň褪峭ㄟ^(guò)分析數(shù)據(jù)庫(kù)日志的這些信息來(lái)捕獲復(fù)制對(duì)象的變化序列?;谌罩痉ú粌H方便,而且也不會(huì)占用太多額外的系統(tǒng)資源,對(duì)任何類型的復(fù)制都適合,不但能提高效率和保證數(shù)據(jù)的完整性,還能在對(duì)等式復(fù)制時(shí)提供詳細(xì)的控制信息數(shù)據(jù)庫(kù)日志的格式是不公開的,因而不得不基于某一同定的數(shù)據(jù)庫(kù)日志分析工具或接口,這給異構(gòu)數(shù)據(jù)庫(kù)復(fù)制帶來(lái)了問(wèn)題?;贏PI法在大部分應(yīng)用程序和數(shù)據(jù)庫(kù)之間引入一類中間件,由它提供一系列API(包括ODBC/JDBC驅(qū)動(dòng)程序),這些中間件在完成應(yīng)用程序?qū)?shù)據(jù)庫(kù)修改的同時(shí),也把復(fù)制對(duì)象的變化序列記錄下來(lái),從而達(dá)到捕獲的目的不需要改變現(xiàn)有的數(shù)據(jù)庫(kù),也不依賴具體的數(shù)據(jù)庫(kù)對(duì)那些不經(jīng)過(guò)API操作進(jìn)行的SQL語(yǔ)句而產(chǎn)生的數(shù)據(jù)變化基于影子表法影子表法是在初始化時(shí)為復(fù)制對(duì)象表T

建立一張影子表S,也就是作一份當(dāng)時(shí)的拷貝,以后就可在適當(dāng)時(shí)機(jī)通過(guò)比較當(dāng)前T

和S

的內(nèi)容來(lái)獲取凈變化信息能在任何數(shù)據(jù)庫(kù)上實(shí)現(xiàn)資源開銷比較大基于時(shí)間戳法基于表中數(shù)據(jù)的時(shí)間戳增量提取變化的內(nèi)容能在任何數(shù)據(jù)庫(kù)上實(shí)現(xiàn)依賴于源系統(tǒng)表結(jié)構(gòu)設(shè)計(jì)(2)FTP文件采集文本文件輸入:處理有列分隔符(限定符、逃逸字符)的文本文件。功能選項(xiàng)豐富、有錯(cuò)誤處理機(jī)制。CSV文件輸入:簡(jiǎn)化了文本文件輸入通過(guò)NIO、并行、延遲轉(zhuǎn)換提高性能固定寬度:列固定寬度的文件,不用解析字符串,性能好。(3)Socket消息采集Socket消息采集模塊主要功能:1、Socket客戶端接收流量系統(tǒng)提供的A信令消息保存到本地文件。2、Socket服務(wù)端將接收的A信令消息實(shí)時(shí)傳輸數(shù)據(jù)給下游其他系統(tǒng),同時(shí)支持將本地文件轉(zhuǎn)為消息后轉(zhuǎn)發(fā)。(4)Sqoop數(shù)據(jù)高速同步采集可采用開源的Sqoop來(lái)實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)和DB2庫(kù)、HBASE的高效數(shù)據(jù)同步。共用基礎(chǔ)平臺(tái)數(shù)據(jù)分發(fā)的功能。應(yīng)用場(chǎng)景:可以使用于數(shù)據(jù)抽取,或從數(shù)據(jù)中心同步到其他數(shù)據(jù)庫(kù)。3.采集功能(1)離線采集離線采集,即非實(shí)時(shí)采集;采集可分為“推”模式和“拉”模式兩種。離線采集“推”模式:即,各行政單位定期將數(shù)據(jù)推送到數(shù)據(jù)交換共享平臺(tái)指定的前置機(jī)存儲(chǔ)設(shè)備進(jìn)行存儲(chǔ),可采用FTP可SFTP等相關(guān)方式;平臺(tái)負(fù)責(zé)周轉(zhuǎn)前置機(jī)設(shè)備實(shí)現(xiàn)數(shù)據(jù)的入庫(kù)等相關(guān)操作。離線采集“拉”模式:即,各行政單位具備自有IT系統(tǒng)數(shù)據(jù)緩沖前置機(jī)的,由數(shù)據(jù)交換共享平臺(tái)定期到指定設(shè)備進(jìn)行數(shù)據(jù)采集。(2)實(shí)時(shí)采集實(shí)時(shí)采集主要以“推”模為主,即在數(shù)據(jù)交換共享平臺(tái)前置設(shè)備建立數(shù)據(jù)監(jiān)聽機(jī)制,監(jiān)聽各行政單位是否將數(shù)據(jù)推送到數(shù)據(jù)交換共享平臺(tái)指定的前置機(jī)存儲(chǔ)位置,當(dāng)發(fā)現(xiàn)存儲(chǔ)設(shè)備有數(shù)據(jù)產(chǎn)生時(shí),實(shí)時(shí)地將數(shù)據(jù)采集到數(shù)據(jù)交換共享平臺(tái),用于數(shù)據(jù)的處理工作。(3)WEB服務(wù)采集針對(duì)各行政單位IT系統(tǒng)無(wú)法提供數(shù)據(jù)文件的,通過(guò)數(shù)據(jù)交換共享平臺(tái)提供WEB采集系統(tǒng),用戶登錄系統(tǒng),可進(jìn)行數(shù)據(jù)錄入或直接上傳文件數(shù)據(jù)?;赪EB的采集,系統(tǒng)提供自定義表單的功能,以滿足不同行政單位數(shù)據(jù)采集的需要。(4)接口服務(wù)采集基于各行政單位IT系統(tǒng)提供的數(shù)據(jù)接口,數(shù)據(jù)交換共享平臺(tái)通過(guò)調(diào)用接口服務(wù),實(shí)現(xiàn)數(shù)據(jù)文件的采集。(5)采集異常處理系統(tǒng)提供采集異常處理機(jī)制,包括:采集任務(wù)中斷、采集數(shù)據(jù)失敗等相關(guān)異常現(xiàn)象時(shí),實(shí)現(xiàn)相關(guān)的補(bǔ)采機(jī)制,或通過(guò)告警的方式通知系統(tǒng)用戶;如采集各行政單位數(shù)據(jù)時(shí),系統(tǒng)監(jiān)聽采集任務(wù)中斷或網(wǎng)絡(luò)中斷等異常故障時(shí),系統(tǒng)可智能觸發(fā)補(bǔ)采機(jī)制,若無(wú)法補(bǔ)采,可通知系統(tǒng)用戶進(jìn)行故障檢查,以保障源數(shù)據(jù)采集的可靠性。(6)配置管理配置觸發(fā)采集的方式,如:實(shí)時(shí)采集、按小時(shí)采集、按天采集、按月采集等不同的時(shí)間方式。配置各行政單位數(shù)據(jù)采集的存儲(chǔ)位置,以便于安全存放與管理。三、數(shù)據(jù)清洗加工子系統(tǒng)處理采集過(guò)來(lái)的數(shù)據(jù),實(shí)現(xiàn)數(shù)據(jù)的清洗、轉(zhuǎn)換、加載功能,一方面保障采集的數(shù)據(jù)能正確、完整、規(guī)范地加載到目的地;另一方面,實(shí)現(xiàn)數(shù)據(jù)整合過(guò)程中的異常處理機(jī)制,如:處理傳輸異常、數(shù)據(jù)加載異常、數(shù)據(jù)結(jié)構(gòu)與質(zhì)量異常等。圖5-42數(shù)據(jù)清洗整體能力結(jié)構(gòu)圖建議采用成熟的ETL工具實(shí)現(xiàn)數(shù)據(jù)的清洗整理過(guò)程。數(shù)據(jù)清洗結(jié)構(gòu)設(shè)計(jì)1.清洗轉(zhuǎn)換數(shù)據(jù)清洗轉(zhuǎn)換指對(duì)前端采集過(guò)來(lái)的數(shù)據(jù)進(jìn)行清洗與轉(zhuǎn)換處理,包括數(shù)據(jù)過(guò)濾、數(shù)據(jù)剔重、類型轉(zhuǎn)換、編碼映射、文件拆分與合并、維度轉(zhuǎn)換等功能。數(shù)據(jù)清洗轉(zhuǎn)換的任務(wù)主要是進(jìn)行不一致的數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)粒度的轉(zhuǎn)換、數(shù)據(jù)去臟和一些轉(zhuǎn)換規(guī)則的計(jì)算。其中不一致轉(zhuǎn)換過(guò)程是數(shù)據(jù)整合的過(guò)程,側(cè)重于將來(lái)源于不同業(yè)務(wù)系統(tǒng)的相同類型的數(shù)據(jù)進(jìn)行統(tǒng)一處理;數(shù)據(jù)粒度轉(zhuǎn)換需要對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一歸整;轉(zhuǎn)換規(guī)則計(jì)算按照設(shè)計(jì)的計(jì)算歸則對(duì)數(shù)據(jù)進(jìn)行重新計(jì)算。系統(tǒng)支持批量清洗和實(shí)時(shí)清洗,針對(duì)批量離線數(shù)據(jù)進(jìn)行分布式并行清洗轉(zhuǎn)換,針對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行不落地清洗轉(zhuǎn)換。(1)轉(zhuǎn)換規(guī)則配置數(shù)據(jù)清洗系統(tǒng)提供數(shù)據(jù)轉(zhuǎn)換規(guī)則配置,以圖形化的界面來(lái)實(shí)現(xiàn)靈活的數(shù)據(jù)處理規(guī)則配置,主要提供的數(shù)據(jù)轉(zhuǎn)換規(guī)則設(shè)置包括:對(duì)數(shù)據(jù)進(jìn)行計(jì)算、合并、拆分的規(guī)則配置、對(duì)空值替換規(guī)則的配置、對(duì)數(shù)據(jù)格式化規(guī)則的配置等。(2)處理過(guò)程記錄數(shù)據(jù)清洗系統(tǒng)提供數(shù)據(jù)處理過(guò)程記錄功能,支持對(duì)數(shù)據(jù)處理過(guò)程的日志進(jìn)行記錄,記錄的信息主要包括:元數(shù)據(jù)記錄、轉(zhuǎn)換后數(shù)據(jù)記錄、運(yùn)用的轉(zhuǎn)換規(guī)則、轉(zhuǎn)換的時(shí)間等內(nèi)容。(3)數(shù)據(jù)轉(zhuǎn)換組件數(shù)據(jù)清洗系統(tǒng)提供豐富的數(shù)據(jù)轉(zhuǎn)換處理組件,主要包含如下:1)支持任意合理的數(shù)據(jù)格式轉(zhuǎn)換,包括但不限于:時(shí)間類型的轉(zhuǎn)換、字符編碼轉(zhuǎn)換、數(shù)據(jù)類型轉(zhuǎn)換;2)支持統(tǒng)一編碼映射,為了保障數(shù)據(jù)的一致性,需要對(duì)不同來(lái)源的數(shù)據(jù)進(jìn)行統(tǒng)一的編碼,如公民唯一標(biāo)識(shí),各種緯度參數(shù)等。3)支持多字段的混合運(yùn)算,運(yùn)算規(guī)則可靈活配置,包括但不限于:sum、max、min、avg等;4)支持各種字符操作,包括但不限于:字符替換、字符截取、字符連接;5)支持?jǐn)?shù)據(jù)粒度的轉(zhuǎn)換,保證轉(zhuǎn)換后的誤差在規(guī)定的范圍內(nèi);6)支持?jǐn)?shù)據(jù)格式化,包括時(shí)間、數(shù)值、字符、計(jì)量單位等數(shù)據(jù);7)支持復(fù)雜條件過(guò)濾,過(guò)濾條件可靈活配置;8)支持?jǐn)?shù)據(jù)去重處理,可按照用戶定義的規(guī)則自動(dòng)判斷重復(fù)數(shù)據(jù),并按照用戶定義的規(guī)則處理重復(fù)的數(shù)據(jù);9)支持記錄間合并、支持將一條記錄按照可配置的規(guī)則拆分為多條記錄;10)支持行、列變換;11)支持?jǐn)?shù)據(jù)清洗及標(biāo)準(zhǔn)化;12)支持處理過(guò)程支持各種字符集的轉(zhuǎn)換等。13)硬編碼數(shù)據(jù)轉(zhuǎn)換14)基于硬編碼實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換依托于插件方式來(lái)實(shí)現(xiàn),采用將不同的數(shù)據(jù)轉(zhuǎn)換過(guò)程通過(guò)硬編碼的形式封裝為相應(yīng)的處理插件置入到數(shù)據(jù)處理工作流程,針對(duì)此類模式主要支撐以下應(yīng)用場(chǎng)景:15)時(shí)間類型的轉(zhuǎn)換;16)碼表映射;17)記錄拆分;18)字符集轉(zhuǎn)換(4)庫(kù)外數(shù)據(jù)轉(zhuǎn)換基于庫(kù)外計(jì)算進(jìn)行數(shù)據(jù)轉(zhuǎn)換操作,需要借助Hadoop、流式計(jì)算引擎等海量數(shù)據(jù)計(jì)算處理平臺(tái)來(lái)完成,借助并行計(jì)算處理能力來(lái)滿足復(fù)雜數(shù)據(jù)轉(zhuǎn)換來(lái)進(jìn)行。主要支撐以下業(yè)務(wù)應(yīng)用場(chǎng)景:1)多字段的混合運(yùn)算。2)過(guò)濾、去重、清洗。3)復(fù)雜條件過(guò)濾。4)排序、統(tǒng)計(jì)、合并計(jì)算、行列變換等。2.數(shù)據(jù)加工數(shù)據(jù)加工是指對(duì)采集數(shù)據(jù)庫(kù)和基礎(chǔ)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行加工,匯總到綜合指標(biāo)數(shù)據(jù)庫(kù),并在此基礎(chǔ)上進(jìn)一步挖掘分析,按照主題邏輯設(shè)計(jì)和轉(zhuǎn)換規(guī)則設(shè)計(jì),形成主題數(shù)據(jù)庫(kù)的過(guò)程。如下圖所示,包含了主題加工流程管理、數(shù)據(jù)加工設(shè)計(jì)、數(shù)據(jù)加工實(shí)現(xiàn)。建議采用成熟的ETL工具實(shí)現(xiàn)數(shù)據(jù)加工的過(guò)程。在實(shí)現(xiàn)數(shù)據(jù)加工活動(dòng)時(shí),定義數(shù)據(jù)加工相關(guān)的元數(shù)據(jù)并將元數(shù)據(jù)存儲(chǔ)于元數(shù)據(jù)庫(kù)中,與基于數(shù)據(jù)倉(cāng)庫(kù)的其他應(yīng)用元數(shù)據(jù)統(tǒng)一進(jìn)行管理和使用。數(shù)據(jù)加工元數(shù)據(jù)主要可分為:對(duì)象描述元數(shù)據(jù)和運(yùn)行管理元數(shù)據(jù)。對(duì)象描述元數(shù)據(jù)用于描述主題派生分組、主題派生指標(biāo)、主題轉(zhuǎn)換規(guī)則、流程定義等信息。運(yùn)行管理元數(shù)據(jù)用于描述流程執(zhí)行記錄等操作信息。3.數(shù)據(jù)加載數(shù)據(jù)加載主要指將采集與清洗轉(zhuǎn)換的數(shù)據(jù),準(zhǔn)確、及時(shí)地存儲(chǔ)到不同目標(biāo)庫(kù)中(如:RDBMS、MPP、Hadoop等)中,依據(jù)數(shù)據(jù)的加載方式包括文件加載、流加載、壓縮加載、不落地加載等。依據(jù)數(shù)據(jù)加載技術(shù)特點(diǎn),可分為全量數(shù)據(jù)加載、流式(實(shí)時(shí))數(shù)據(jù)加載、文件落地雙加載、內(nèi)存不落地加載。對(duì)于不同的數(shù)據(jù)庫(kù)加載、不同的方式加載,在數(shù)據(jù)加載過(guò)程的工作原理基本相同,數(shù)據(jù)加載能力要求包含:1)默認(rèn)情況下提供基礎(chǔ)通用的加載控件,支持將數(shù)據(jù)源加載到不同的數(shù)據(jù)庫(kù)中,加載的數(shù)據(jù)支持接口、文件加載策略或流式策略。2)加載方式支持全量或?qū)崟r(shí)方式,全量加載方式則采用落地加載策略,并且需要結(jié)合運(yùn)用不同平臺(tái)的加載工具;實(shí)時(shí)加載與實(shí)時(shí)采集必須配套使用,二者之間共享內(nèi)存實(shí)現(xiàn)同步數(shù)據(jù)交換,通過(guò)引入插件機(jī)制來(lái)屏敝不同數(shù)據(jù)源差異性。3)支持加載時(shí)事物提交的參數(shù)配置,允許設(shè)定數(shù)據(jù)文件相關(guān)輸入路徑與加載文件匹配規(guī)則等信息,由數(shù)據(jù)裝載完成發(fā)現(xiàn)文件、文件獲取、加載數(shù)據(jù)、數(shù)據(jù)校驗(yàn)等操作流程后完成數(shù)據(jù)入庫(kù)操作。4)在加載實(shí)現(xiàn)過(guò)程中支持提供SQL、HQL、SHELL等不同類別的行為定義腳本,數(shù)據(jù)加載執(zhí)行組件將根據(jù)定義行為腳本類型調(diào)起相應(yīng)的腳本執(zhí)行來(lái)加載到數(shù)據(jù)。5)數(shù)據(jù)加載結(jié)束或失敗時(shí),都需要記錄操作日志,為后續(xù)數(shù)據(jù)稽核與問(wèn)題排查提供詳細(xì)信息。6)在加載觸發(fā)模式上支持自動(dòng)加載與手工執(zhí)行的二大類型。支持?jǐn)?shù)據(jù)自動(dòng)加載的設(shè)計(jì)與執(zhí)行,當(dāng)數(shù)據(jù)加載出錯(cuò)時(shí),應(yīng)提供操作界面以人工干預(yù)的方式來(lái)重新啟動(dòng)數(shù)據(jù)的接收和加載。(1)全量數(shù)據(jù)加載全量加載是將數(shù)據(jù)一次性加載到接口機(jī)上,是準(zhǔn)實(shí)時(shí)加載,主要應(yīng)對(duì)數(shù)據(jù)加載數(shù)據(jù)源以較大文件形式對(duì)外提供數(shù)據(jù)時(shí)可采用此種采集模式,全量數(shù)據(jù)加載取具備多協(xié)議數(shù)據(jù)加載和并發(fā)加載控制兩種能力,多協(xié)議數(shù)據(jù)加載提供了文件和數(shù)據(jù)庫(kù)等多種目標(biāo)數(shù)據(jù)庫(kù)進(jìn)行加載,包括支持:高性能關(guān)系型數(shù)據(jù)倉(cāng)庫(kù)、MPP分布式數(shù)據(jù)倉(cāng)庫(kù)、HDFS等,接口協(xié)議可以根據(jù)需要隨時(shí)添加;并發(fā)加載控制是運(yùn)用大規(guī)模并行計(jì)算多個(gè)加載任務(wù)發(fā)布到集群中并行處理,可控制并發(fā)數(shù)和任務(wù)優(yōu)先級(jí)。(2)流式(實(shí)時(shí))數(shù)據(jù)加載流式數(shù)據(jù)加載主要應(yīng)對(duì)海量數(shù)據(jù),采用流式計(jì)算方法進(jìn)行高性能的實(shí)時(shí)計(jì)算實(shí)時(shí)加載。(3)文件落地雙加載包括文件從接口機(jī)到ETL服務(wù)器不同的傳輸方式;管道、FTP傳輸、CFS傳輸?shù)葌鬏敺绞?;雙進(jìn)程異步方式讀取接口文件多節(jié)點(diǎn)/多分區(qū)加載到雙庫(kù),兩個(gè)進(jìn)程互不影響。(4)內(nèi)存不落地加載不落地實(shí)時(shí)加載主要是采用分布式內(nèi)存數(shù)據(jù)計(jì)算,以多進(jìn)程管道方式并行讀取不同的接口文件,每個(gè)接口文件以KEY<VALUE>的方式分塊計(jì)算,計(jì)算完把各節(jié)點(diǎn)上聚合結(jié)果匯總到內(nèi)存池,調(diào)用LOADAPI加載到數(shù)據(jù)庫(kù)。(5)數(shù)據(jù)加載過(guò)程控制數(shù)據(jù)裝載過(guò)程中,針對(duì)數(shù)據(jù)加載中斷或者出錯(cuò),支持采用斷點(diǎn)續(xù)傳、一致性保障等方法進(jìn)行過(guò)程控制,避免重新啟動(dòng)數(shù)據(jù)的接收和加載。數(shù)據(jù)裝載過(guò)程控制主要包括如下功能:1)斷點(diǎn)續(xù)傳:由于網(wǎng)絡(luò)中斷或者其他原因造成傳輸中斷,提供斷點(diǎn)續(xù)傳功能,在下次傳輸時(shí)能夠接著前面的傳輸進(jìn)度繼續(xù)進(jìn)行,節(jié)省時(shí)間,提高速度。2)一致性保障:支持兩階段提交,提供訪問(wèn)的多種數(shù)據(jù)源發(fā)起兩階段提交任務(wù),兩階段提交可以保證在多個(gè)數(shù)據(jù)源上執(zhí)行的任務(wù)包含在一個(gè)事務(wù)中,當(dāng)一個(gè)數(shù)據(jù)源加載失敗時(shí),其他數(shù)據(jù)源可做數(shù)據(jù)回滾,確保多個(gè)數(shù)據(jù)源的數(shù)據(jù)保持一致。4.數(shù)據(jù)校驗(yàn)數(shù)據(jù)校驗(yàn)包括數(shù)據(jù)采集、數(shù)據(jù)加載、數(shù)據(jù)分發(fā)等過(guò)程中數(shù)據(jù)校驗(yàn)。在數(shù)據(jù)采集過(guò)程中通過(guò)對(duì)數(shù)據(jù)源與目標(biāo)數(shù)據(jù)庫(kù)之間的數(shù)據(jù)進(jìn)行對(duì)比分析,從而進(jìn)一步來(lái)分析、發(fā)現(xiàn)與解決在數(shù)據(jù)抽取過(guò)程可能產(chǎn)生的異常錯(cuò)誤信息。數(shù)據(jù)校驗(yàn)包含以下能力:數(shù)據(jù)校驗(yàn)?zāi)芰π蛱?hào)功能功能描述1數(shù)據(jù)校驗(yàn)記錄文件獲取與信息解析支持對(duì)數(shù)據(jù)抽取過(guò)程中記錄的文件進(jìn)行獲取,并對(duì)信息記錄進(jìn)行解析提取,為后續(xù)分析提供輸入數(shù)據(jù);2提供豐富的數(shù)據(jù)校驗(yàn)手段支持?jǐn)?shù)據(jù)文件級(jí)校驗(yàn);支持?jǐn)?shù)據(jù)文件分隔符校驗(yàn);支持記錄級(jí)校驗(yàn);包括但不限于:格式校驗(yàn)、類型校驗(yàn)、取值范圍校驗(yàn)、長(zhǎng)度校驗(yàn)、非空校驗(yàn)、字段關(guān)系校驗(yàn)、異常值校驗(yàn)、按照用戶定義的邏輯規(guī)則校驗(yàn)等。3提供靈活的數(shù)據(jù)校驗(yàn)規(guī)則設(shè)置支持對(duì)數(shù)據(jù)校驗(yàn)規(guī)則進(jìn)行靈活定義,可以自定義數(shù)據(jù)校驗(yàn)規(guī)則結(jié)構(gòu);提供圖形化數(shù)據(jù)校驗(yàn)規(guī)則設(shè)置功能,允許對(duì)校驗(yàn)規(guī)則進(jìn)行維護(hù)、優(yōu)化等處理。4依托數(shù)據(jù)校驗(yàn)提供全面的數(shù)據(jù)質(zhì)量監(jiān)控管理能夠根據(jù)設(shè)置的數(shù)據(jù)校驗(yàn)與監(jiān)控規(guī)則或算法,對(duì)需要進(jìn)行校驗(yàn)的數(shù)據(jù)進(jìn)行采集后執(zhí)行相應(yīng)校驗(yàn)檢查,并依據(jù)稽核和檢查過(guò)程中發(fā)現(xiàn)的數(shù)據(jù)質(zhì)量異常情況進(jìn)行告警過(guò)程。數(shù)據(jù)校驗(yàn)從校驗(yàn)對(duì)象細(xì)粒度維度分析,支持文件級(jí)校驗(yàn)與記錄級(jí)校驗(yàn)二大類。數(shù)據(jù)校驗(yàn)?zāi)K還內(nèi)置了部分的數(shù)據(jù)檢查功能,如數(shù)據(jù)唯一性檢查、外鍵完整性檢查。數(shù)據(jù)校驗(yàn)內(nèi)容有類型,長(zhǎng)度,是否為空,精度,范圍,格式等信息。如果數(shù)據(jù)不符合,會(huì)進(jìn)行過(guò)濾,只有正確的數(shù)據(jù)才能繼續(xù)使用。對(duì)于錯(cuò)誤的數(shù)據(jù),可以進(jìn)行輸出,包括錯(cuò)誤原因和錯(cuò)誤字段序號(hào)等信息。相關(guān)的錯(cuò)誤類型和數(shù)量等統(tǒng)計(jì)信息也會(huì)綁定到流程變量中,以便后續(xù)節(jié)點(diǎn)進(jìn)行判斷使用。5.異常處理在數(shù)據(jù)整合過(guò)程中會(huì)出現(xiàn)不同種類的異?,F(xiàn)象,如:數(shù)據(jù)節(jié)點(diǎn)異常、數(shù)據(jù)清洗轉(zhuǎn)換異常、數(shù)據(jù)加載異常等,系統(tǒng)通過(guò)異常處理機(jī)制來(lái)保障系統(tǒng)的穩(wěn)定性。(1)計(jì)算節(jié)點(diǎn)異常針對(duì)數(shù)據(jù)計(jì)算節(jié)點(diǎn)異常,如:作業(yè)過(guò)程采用分布式多節(jié)點(diǎn)并發(fā)作業(yè)來(lái)提升系統(tǒng)處理速度,在作業(yè)過(guò)程中某個(gè)節(jié)點(diǎn)失效會(huì)導(dǎo)致作業(yè)中斷或掛起現(xiàn)象,處理機(jī)制如下:1)Agent節(jié)點(diǎn)與Master節(jié)點(diǎn)通過(guò)Heartbeat進(jìn)行狀態(tài)通信,使Master第一時(shí)間掌握節(jié)點(diǎn)狀態(tài)。2)Agent節(jié)點(diǎn)所有Task皆由Master分發(fā),并周期性向Master匯報(bào)每個(gè)Task執(zhí)行狀態(tài)。3)當(dāng)Agent1節(jié)點(diǎn)出現(xiàn)異常,將由Master重新將Task分發(fā)到其它節(jié)點(diǎn)重新運(yùn)行。(2)數(shù)據(jù)清洗轉(zhuǎn)換異常針對(duì)數(shù)據(jù)清洗轉(zhuǎn)換:支持校驗(yàn)點(diǎn),當(dāng)外部數(shù)據(jù)記錄特別龐大時(shí),如果因?yàn)槟撤N原因發(fā)生故障中斷后,可以從最近的校驗(yàn)點(diǎn)開始恢復(fù)處理。(3)數(shù)據(jù)加載異常針對(duì)數(shù)據(jù)裝載過(guò)程中異常:支持異常自動(dòng)重試、超時(shí)重試、將任務(wù)轉(zhuǎn)移到其它節(jié)點(diǎn)執(zhí)行、任務(wù)掛起等待人工介入等異常處理機(jī)制,執(zhí)行器數(shù)據(jù)轉(zhuǎn)載支持分布式數(shù)據(jù)轉(zhuǎn)載,在單一節(jié)點(diǎn)數(shù)據(jù)轉(zhuǎn)載異常情況下,可實(shí)現(xiàn)將轉(zhuǎn)載工作轉(zhuǎn)發(fā)到其它節(jié)點(diǎn)重新執(zhí)行。在任務(wù)內(nèi)數(shù)據(jù)裝載,采用雙向加載線程同時(shí)檢查、匯報(bào)機(jī)制,只有最終狀態(tài)一致,工作任務(wù)才宣告完成,否則將進(jìn)行重試等操作。6.數(shù)據(jù)標(biāo)準(zhǔn)化對(duì)清洗后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,以解決系統(tǒng)之間數(shù)據(jù)差異問(wèn)題,解決跨部門數(shù)據(jù)調(diào)用時(shí)數(shù)據(jù)一致問(wèn)題。通過(guò)技術(shù)工具實(shí)現(xiàn)標(biāo)準(zhǔn)化數(shù)據(jù)處理,是對(duì)政府?dāng)?shù)據(jù)交換共享標(biāo)準(zhǔn)規(guī)范體系的有效執(zhí)行,也是溝通業(yè)務(wù)和IT一致理解、有機(jī)融合的關(guān)鍵。標(biāo)準(zhǔn)化處理過(guò)程包括標(biāo)準(zhǔn)的執(zhí)行、標(biāo)準(zhǔn)的控制、標(biāo)準(zhǔn)執(zhí)行和稽核,以及標(biāo)準(zhǔn)化問(wèn)題的管理。四、數(shù)據(jù)質(zhì)量管理子系統(tǒng)1.數(shù)據(jù)質(zhì)量(1)質(zhì)量規(guī)則管理1)質(zhì)量規(guī)則配置依據(jù)質(zhì)量需求,靈活配置質(zhì)量規(guī)則。如開發(fā)質(zhì)量規(guī)則(如命名不規(guī)范、不必要的跨層數(shù)據(jù)訪問(wèn)、不合理的大表關(guān)聯(lián)操作)、數(shù)據(jù)波動(dòng)規(guī)則(接口/指標(biāo)數(shù)據(jù)同環(huán)比)。2)質(zhì)量規(guī)則自動(dòng)優(yōu)化根據(jù)歷史運(yùn)行信息,自動(dòng)給出調(diào)整監(jiān)控算法、閥值、優(yōu)先級(jí)建議,使得規(guī)則更合理。(2)質(zhì)量規(guī)則執(zhí)行依據(jù)質(zhì)量規(guī)則執(zhí)行的時(shí)機(jī)需求,配置執(zhí)行方式,依據(jù)執(zhí)行規(guī)則,管控平臺(tái)自動(dòng)執(zhí)行質(zhì)量規(guī)則檢查。質(zhì)量規(guī)則執(zhí)行觸發(fā)方式支撐按固定時(shí)間周期(如月、周、日)、事件觸發(fā)等執(zhí)行方式。(3)數(shù)據(jù)質(zhì)量監(jiān)控依據(jù)質(zhì)量檢查規(guī)則對(duì)數(shù)據(jù)質(zhì)量進(jìn)行監(jiān)控,如接口波動(dòng)率的監(jiān)控,如果發(fā)現(xiàn)異?,F(xiàn)象可及時(shí)告知或預(yù)警相關(guān)人員可參考檢查方法列表數(shù)據(jù)質(zhì)量檢查方法檢查方法檢查描述適用場(chǎng)景數(shù)值檢查指標(biāo)數(shù)值與閾值上下限的比較,閾值可以手工錄入經(jīng)驗(yàn)值或采用n個(gè)周期內(nèi)指標(biāo)的最大最小值作為閾值的上下限,需要考慮周末和節(jié)假日對(duì)指標(biāo)的影響等主要適用變化趨勢(shì)平穩(wěn)的業(yè)務(wù)關(guān)鍵指標(biāo)波動(dòng)檢查波動(dòng)檢查包括同比波動(dòng)檢查和環(huán)比波動(dòng)檢查,先計(jì)算指標(biāo)的同比或環(huán)比波動(dòng)率,然后與預(yù)定的波動(dòng)率上下限(閾值)進(jìn)行比較,閾值可以手工錄入經(jīng)驗(yàn)值或采用n個(gè)周期內(nèi)指標(biāo)的最大最小值作為閾值的上下限,需要考慮周末和節(jié)假日對(duì)指標(biāo)的影響等如業(yè)務(wù)發(fā)展類指標(biāo)、用戶數(shù)類指標(biāo)等平衡性檢查通過(guò)對(duì)若干個(gè)指標(biāo)值的簡(jiǎn)單四則運(yùn)算(加、減、乘、除),來(lái)檢驗(yàn)各個(gè)指標(biāo)間潛在的平衡或其他比較關(guān)系需要進(jìn)行相關(guān)性檢查的指標(biāo),如日指標(biāo)匯總與月指標(biāo)的平衡檢查加權(quán)波動(dòng)檢查通過(guò)對(duì)單個(gè)指標(biāo)的基礎(chǔ)檢查結(jié)果和影響因素的加權(quán)計(jì)算分析,綜合檢查指標(biāo)的波動(dòng)和變化情況關(guān)聯(lián)性檢查定義相關(guān)性指標(biāo),和指標(biāo)相關(guān)系數(shù),如正強(qiáng)相關(guān),負(fù)相關(guān),定義兩個(gè)指標(biāo)當(dāng)前值是否滿足相關(guān)性的特點(diǎn)主要用于考察多個(gè)指標(biāo)之間的邏輯關(guān)系是否符合規(guī)律,如量收匹配的問(wèn)題一致性檢查計(jì)算一個(gè)指標(biāo)在不同的采集計(jì)算點(diǎn)的值是否一致在倉(cāng)庫(kù)底層的值,在應(yīng)用匯總表值,在前臺(tái)應(yīng)用1,應(yīng)用2中的值是否一致值域評(píng)判直接對(duì)某個(gè)值進(jìn)行評(píng)判或是否在允許的取值范圍內(nèi)容進(jìn)行評(píng)判(4)質(zhì)量問(wèn)題管理統(tǒng)一收集數(shù)據(jù)質(zhì)量問(wèn)題、形成數(shù)據(jù)質(zhì)量知識(shí)庫(kù),提升數(shù)據(jù)質(zhì)量問(wèn)題解決效率。(5)質(zhì)量評(píng)估報(bào)告依據(jù)質(zhì)量檢查評(píng)估規(guī)則對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)估,形成數(shù)據(jù)質(zhì)量評(píng)估報(bào)告,定期對(duì)評(píng)估報(bào)告進(jìn)行分析得出優(yōu)化建議,并付諸優(yōu)化動(dòng)作,持續(xù)改進(jìn)數(shù)據(jù)質(zhì)量。2.數(shù)據(jù)評(píng)估(1)數(shù)據(jù)使用評(píng)估對(duì)數(shù)據(jù)及應(yīng)用使用情況進(jìn)行評(píng)估,并據(jù)此數(shù)據(jù)存儲(chǔ)、處理、應(yīng)用進(jìn)行優(yōu)化。以下為數(shù)據(jù)評(píng)估示例:數(shù)據(jù)評(píng)估方法科目分?jǐn)偡椒〝?shù)據(jù)評(píng)估前臺(tái)應(yīng)用使用次數(shù)應(yīng)用的點(diǎn)擊次數(shù)平均分?jǐn)偨o應(yīng)用鏈路上的所有表分發(fā)給外部系統(tǒng)接口數(shù)據(jù)(分發(fā)給外部表,平均分?jǐn)偨o分發(fā)接口表鏈路上的所有表)*加權(quán)系數(shù)采集外部系統(tǒng)數(shù)據(jù)(采集外部表,平均分?jǐn)偨o采集接口表鏈路上的所有表)*加權(quán)系數(shù)外部應(yīng)用調(diào)用次數(shù)(外部應(yīng)用調(diào)用表次數(shù)平均分?jǐn)偨o應(yīng)用表鏈路上的所有表)*加權(quán)系數(shù)(2)數(shù)據(jù)關(guān)系評(píng)估數(shù)據(jù)關(guān)系的類別可以分為以下幾種:1)主外鍵關(guān)系。2)參考關(guān)系。主要描述實(shí)體表與維度表的關(guān)系。3)輸入與輸出。4)歷史拍照。5)冗余備份。從目的可以劃分為:分工提速、轉(zhuǎn)儲(chǔ)優(yōu)化、應(yīng)用分流、數(shù)據(jù)統(tǒng)計(jì)臨時(shí)備份。數(shù)據(jù)交換共享平臺(tái)通過(guò)建立處理程序解析、元數(shù)據(jù)解析、及上線登記等方式實(shí)現(xiàn)數(shù)據(jù)關(guān)系評(píng)估。(3)時(shí)效性評(píng)估通過(guò)對(duì)數(shù)據(jù)關(guān)系的分析,發(fā)現(xiàn)孤立表或無(wú)效表。根據(jù)表名判斷此表大約含義,建表日期、狀態(tài)日期,表內(nèi)數(shù)據(jù)時(shí)間等判斷此表最后更新時(shí)間。通過(guò)數(shù)據(jù)的使用日志,對(duì)孤立表和無(wú)效表進(jìn)行判斷是否有使用。(4)冗余數(shù)據(jù)評(píng)估數(shù)據(jù)交換共享平臺(tái)將來(lái)納入大量數(shù)據(jù),可能存在著大量冗余的數(shù)據(jù)。冗余數(shù)據(jù)一方面給數(shù)據(jù)的精確性和可靠性將帶來(lái)影響,同時(shí)也影響著數(shù)據(jù)庫(kù)的性能。系統(tǒng)必須要解決冗余問(wèn)題,主要有兩個(gè)環(huán)節(jié):發(fā)現(xiàn)冗余數(shù)據(jù)和冗余進(jìn)行消除合并。圖5-45冗余數(shù)據(jù)評(píng)估(5)重要性評(píng)估在數(shù)據(jù)使用過(guò)程中和數(shù)據(jù)應(yīng)用中對(duì)表和數(shù)據(jù)的重要性進(jìn)行評(píng)估,通過(guò)訪問(wèn)頻次,數(shù)據(jù)質(zhì)量,數(shù)據(jù)熱度,數(shù)據(jù)標(biāo)準(zhǔn)化等指標(biāo),進(jìn)行全面評(píng)估,并輸出表重要性級(jí)別。3.稽核管理根據(jù)預(yù)先配置的規(guī)則、算法和質(zhì)量檢查度量,對(duì)數(shù)據(jù)的準(zhǔn)確性、合理性等多角度的檢查,以及時(shí)發(fā)現(xiàn)問(wèn)題,解決問(wèn)題。對(duì)于稽核結(jié)果,進(jìn)行統(tǒng)計(jì)分析,形成結(jié)果報(bào)告,為以后的數(shù)據(jù)倉(cāng)庫(kù)建設(shè)、實(shí)施和維護(hù)的改進(jìn)打下堅(jiān)實(shí)的基礎(chǔ)。(1)稽核規(guī)則管理接口數(shù)據(jù)檢驗(yàn):對(duì)接口數(shù)據(jù)的過(guò)程進(jìn)行稽核和校驗(yàn),分為文件接口,DB-LINK接口,其他異構(gòu)數(shù)據(jù)庫(kù)接口。處理過(guò)程檢驗(yàn):對(duì)數(shù)據(jù)處理過(guò)程進(jìn)行監(jiān)控和稽核,分為JOB稽核,工作流稽核,其他處理方式稽核等。處理環(huán)境檢驗(yàn):對(duì)數(shù)據(jù)處理環(huán)境進(jìn)行檢查,針對(duì)不同的應(yīng)用環(huán)境,主要分為數(shù)據(jù)庫(kù)系統(tǒng)檢查、主機(jī)系統(tǒng)檢查、接口機(jī)檢查、應(yīng)用服務(wù)器檢查。日志監(jiān)控:在平臺(tái)運(yùn)行的過(guò)程中可能出現(xiàn)各種各樣的錯(cuò)誤,通過(guò)檢測(cè)運(yùn)行過(guò)程的日志可以判斷出過(guò)程輸出的目標(biāo)表數(shù)據(jù)是否完整。提供選擇日志監(jiān)控的各種信息供選擇,如:過(guò)程名、所屬模塊、執(zhí)行時(shí)間、完成時(shí)間、執(zhí)行時(shí)長(zhǎng)、執(zhí)行用戶、執(zhí)行結(jié)果、預(yù)警等。維度檢驗(yàn):如:所屬模塊、日期、表名、維度名稱、緯度格式、緯度說(shuō)明、緯度關(guān)聯(lián)編碼表、各緯度記錄分布情況、是否有空值、空值記錄數(shù)、空值率、預(yù)警區(qū)間等指標(biāo)。指標(biāo)值檢驗(yàn):包括數(shù)據(jù)量校驗(yàn)、單指標(biāo)校驗(yàn)、交叉校驗(yàn)等。(2)稽核任務(wù)調(diào)度在設(shè)定數(shù)據(jù)稽核的模板后,可以對(duì)稽核任務(wù)實(shí)行自動(dòng)化處理,也可以通過(guò)定制方式來(lái)完成,可以定時(shí)調(diào)用或觸發(fā)。由不同類型數(shù)據(jù)檢驗(yàn)確定。(3)稽核結(jié)果分析對(duì)于稽核的結(jié)果,進(jìn)行統(tǒng)計(jì)分析,回答經(jīng)典的“4W”問(wèn)題:該報(bào)表是否異常、該報(bào)表在哪里發(fā)生、該報(bào)表什么時(shí)候發(fā)生異常和為什么該報(bào)表會(huì)發(fā)生異常。(4)數(shù)據(jù)問(wèn)題管理對(duì)系統(tǒng)使用者或數(shù)據(jù)倉(cāng)庫(kù)開發(fā)者遇到的問(wèn)題及解決方案,進(jìn)行收集和整理,形成知識(shí)庫(kù),便于用戶咨詢,同時(shí)也提高開發(fā)團(tuán)隊(duì)的效率,避免很多重復(fù)工作。五、統(tǒng)一調(diào)度子系統(tǒng)統(tǒng)一調(diào)度指完成多源數(shù)據(jù)融合平臺(tái)所有數(shù)據(jù)處理工作的統(tǒng)一執(zhí)行調(diào)度,包括采集任務(wù)調(diào)度、資源調(diào)度、優(yōu)先級(jí)設(shè)定等,統(tǒng)一調(diào)度能力包括統(tǒng)一調(diào)度配置、統(tǒng)一調(diào)度運(yùn)行、資源控制、調(diào)度策略、調(diào)度監(jiān)控等功能。利用統(tǒng)一調(diào)度可視化界面創(chuàng)建任務(wù),支持基于內(nèi)部調(diào)度任務(wù),也支持基于外部接口的任務(wù),在此基礎(chǔ)上可將任務(wù)進(jìn)行細(xì)分成多個(gè)任務(wù),形成調(diào)度任務(wù)線程池。如下圖所示:圖5-46任務(wù)調(diào)度步驟任務(wù)管理相關(guān)功能依據(jù)所配置的任務(wù)驅(qū)動(dòng)條件啟動(dòng)調(diào)度任務(wù),對(duì)調(diào)度流程的新增、修改、刪除,調(diào)度任務(wù)分配執(zhí)行,并向執(zhí)行代理客戶端發(fā)送任務(wù),代理執(zhí)行完成后返回任務(wù)執(zhí)行結(jié)果和日志。1.統(tǒng)一調(diào)度功能(1)跨平臺(tái)統(tǒng)一調(diào)度:能夠跨平臺(tái)的統(tǒng)一任務(wù)作業(yè)調(diào)度能力。(2)統(tǒng)一調(diào)度配置:通過(guò)對(duì)圖形化組件進(jìn)行拖拽、流程連接等頁(yè)面操作,完成調(diào)度配置。(3)智能調(diào)度運(yùn)行:傳統(tǒng)的調(diào)度平臺(tái)需要人工去配置作業(yè)流程、運(yùn)行時(shí)間窗口。調(diào)度系統(tǒng)能夠?qū)Y源情況智能調(diào)度運(yùn)行。(4)資源控制:可以將各種運(yùn)行操作資源、權(quán)限合理的分配給作業(yè),使核心權(quán)限得到有效保護(hù),資源得到合理利用。(5)優(yōu)先級(jí)管理評(píng)估:根據(jù)靜態(tài)優(yōu)先級(jí)評(píng)估計(jì)算、動(dòng)態(tài)優(yōu)先級(jí)評(píng)估計(jì)算,實(shí)現(xiàn)調(diào)度系統(tǒng)根據(jù)優(yōu)先級(jí)執(zhí)行任務(wù)。(6)調(diào)度策略管控:前臺(tái)頁(yè)面提供簡(jiǎn)單任務(wù)邏輯的組合處理及配置,支持多個(gè)平臺(tái)獨(dú)立調(diào)度,及多個(gè)平臺(tái)間依賴調(diào)度,對(duì)各種各樣的調(diào)度情況提供統(tǒng)一的策略管控。(7)調(diào)度全面監(jiān)控:能夠監(jiān)控多種作業(yè)的執(zhí)行情況,并分析作業(yè)執(zhí)行效率,發(fā)現(xiàn)作業(yè)執(zhí)行的關(guān)鍵環(huán)節(jié)。(8)集中的作業(yè)告警與錯(cuò)誤反饋:統(tǒng)一的作業(yè)告警,支持多種告警方式,并集中作業(yè)運(yùn)行錯(cuò)誤反饋,將問(wèn)題日志抓取在平臺(tái)統(tǒng)一查看。2.調(diào)度配置在統(tǒng)一調(diào)度平臺(tái)中以數(shù)據(jù)流作為驅(qū)動(dòng),通過(guò)控制中心統(tǒng)一進(jìn)行調(diào)度配置、進(jìn)行作業(yè)命令下發(fā)、狀態(tài)收集進(jìn)行控制,達(dá)到Agent調(diào)度。圖5-47agent調(diào)度以一個(gè)業(yè)務(wù)量生產(chǎn)過(guò)程為例。統(tǒng)一調(diào)度平臺(tái)圍繞作業(yè)(Job)與任務(wù)(Task)為核心展開整個(gè)調(diào)度執(zhí)行流程。通過(guò)Server服務(wù)器,將一個(gè)作業(yè)分布到Agent集群上,再由Agent根據(jù)資源控制、調(diào)度策略等,分發(fā)到一個(gè)或多個(gè)節(jié)點(diǎn)(node)上。Server服務(wù)器根據(jù)Job描述文件將不同任務(wù)分發(fā)至多個(gè)節(jié)點(diǎn)(node)執(zhí)行,任務(wù)執(zhí)行嚴(yán)格按照依賴關(guān)系執(zhí)行并實(shí)時(shí)返回狀態(tài)。同時(shí),Server服務(wù)器實(shí)時(shí)采集Agent節(jié)點(diǎn)的系統(tǒng)資源與任務(wù)執(zhí)行狀態(tài)數(shù)據(jù),并形成任務(wù)執(zhí)行預(yù)警信息及時(shí)告警給運(yùn)維人員。3.調(diào)度運(yùn)行支持基于shell腳本的調(diào)度,簡(jiǎn)化調(diào)度過(guò)程并判斷任務(wù)成功與否;支持基于存儲(chǔ)過(guò)程的調(diào)度,如:支持調(diào)用Oracle、DB2等傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)系統(tǒng)中的存儲(chǔ)過(guò)程,并且需要支持調(diào)用GreenPlum,Vertica等MPP數(shù)據(jù)庫(kù)系統(tǒng)中的腳本;支持外部程序的調(diào)度,如:開發(fā)IDE觸發(fā)ETL調(diào)度流程實(shí)現(xiàn)調(diào)度的運(yùn)行。(1)數(shù)據(jù)存儲(chǔ)模塊通過(guò)不同方式進(jìn)行數(shù)據(jù)的入庫(kù),實(shí)現(xiàn)自動(dòng)入庫(kù)和手動(dòng)入庫(kù),在數(shù)據(jù)入庫(kù)的過(guò)程中,需要對(duì)采集的數(shù)據(jù)進(jìn)行校驗(yàn),同時(shí)還需要實(shí)現(xiàn)數(shù)據(jù)的出庫(kù)功能。(2)數(shù)據(jù)管理模塊構(gòu)建基于云的分布式數(shù)據(jù)庫(kù)系統(tǒng),實(shí)現(xiàn)對(duì)采集存儲(chǔ)的各類數(shù)據(jù)進(jìn)行增加、刪除、修改和查詢功能;建立數(shù)據(jù)庫(kù)索引,提高數(shù)據(jù)庫(kù)信息檢索效率。(3)數(shù)據(jù)維護(hù)歸檔模塊圍繞儲(chǔ)存在數(shù)據(jù)綜合管理系統(tǒng)中的數(shù)據(jù),通過(guò)質(zhì)量檢測(cè)、標(biāo)準(zhǔn)化處理、歸檔、遷移等方法,實(shí)現(xiàn)對(duì)各類數(shù)據(jù)的編目存檔,并對(duì)歸檔的數(shù)據(jù)進(jìn)行質(zhì)量檢測(cè)及管理。對(duì)存儲(chǔ)的數(shù)據(jù)實(shí)現(xiàn)數(shù)據(jù)的備份和恢復(fù),達(dá)到對(duì)數(shù)據(jù)進(jìn)行更新和維護(hù)的功能。(4)數(shù)據(jù)安全模塊對(duì)應(yīng)用軟件和數(shù)據(jù)庫(kù)操作情況等內(nèi)容進(jìn)行監(jiān)視和控制,對(duì)操作行為信息進(jìn)行授權(quán)權(quán)限方面的審計(jì)跟蹤。(5)數(shù)據(jù)檢索模塊通過(guò)模糊檢索、分類檢索、高級(jí)復(fù)合檢索等多種檢索途徑,實(shí)現(xiàn)檢索服務(wù),它接受用戶的查詢請(qǐng)求,并根據(jù)高效的優(yōu)化算法從數(shù)據(jù)庫(kù)中提取出符合條件的記錄并顯示。4.調(diào)度策略依據(jù)業(yè)務(wù)要求,調(diào)度策略可分為:時(shí)間調(diào)度、手工調(diào)度、消息/API接口調(diào)度、優(yōu)先級(jí)調(diào)度等。時(shí)間調(diào)度:源系統(tǒng)每天都在不斷產(chǎn)生新的數(shù)據(jù),系統(tǒng)需要將數(shù)據(jù)及時(shí)同步的目標(biāo)系統(tǒng)中。系統(tǒng)需要支持周期性自動(dòng)進(jìn)行數(shù)據(jù)處理,以減少維護(hù)工程師的工作量。支持以年、月、日、小時(shí)、分鐘為單位進(jìn)行周期性調(diào)度。手工調(diào)度:對(duì)于某些一次性的數(shù)據(jù)處理任務(wù),系統(tǒng)支持手工調(diào)度功能,用戶可以隨時(shí)啟動(dòng)這些數(shù)據(jù)處理任務(wù)。消息/API接口調(diào)度:對(duì)于其他系統(tǒng)需要調(diào)用企業(yè)級(jí)ETL的流程進(jìn)行數(shù)據(jù)處理的情況,可以由第三方系統(tǒng)發(fā)送消息或者調(diào)用API,由統(tǒng)一調(diào)度進(jìn)行處理流程的調(diào)度。優(yōu)先級(jí)調(diào)度:為避免服務(wù)器負(fù)荷過(guò)載,甚至導(dǎo)致系統(tǒng)崩潰,一方面系統(tǒng)需要提供最大任務(wù)并發(fā)數(shù)限制,另一方面要防止任務(wù)擁塞的問(wèn)題。通過(guò)提供流程優(yōu)先級(jí)控制功能,當(dāng)資源消耗達(dá)到系統(tǒng)上限時(shí),系統(tǒng)需要優(yōu)先保障優(yōu)先級(jí)較高的任務(wù)執(zhí)行,讓優(yōu)先級(jí)較低的任務(wù)處于等待狀態(tài),直到其它任務(wù)釋放出足夠的資源。5.調(diào)度監(jiān)控(1)總體任務(wù)監(jiān)控:系統(tǒng)支持對(duì)所有任務(wù)按照系統(tǒng)、按日期對(duì)任務(wù)總體運(yùn)行情況進(jìn)行匯總展現(xiàn),使得總體任務(wù)執(zhí)行情況一目了然。(2)作業(yè)組監(jiān)控:系統(tǒng)支持對(duì)作業(yè)任務(wù)的分組,展現(xiàn)不同組作業(yè)的執(zhí)行情況,方便系統(tǒng)使用用戶、使用角色快速實(shí)現(xiàn)對(duì)所關(guān)心的作業(yè)的監(jiān)控與處理。任務(wù)組監(jiān)控內(nèi)容包括作業(yè)總數(shù)、掛起作業(yè)數(shù)、運(yùn)行作業(yè)數(shù)、延時(shí)作業(yè)數(shù)、停止作業(yè)數(shù)、暫停作業(yè)等指標(biāo)??赏ㄟ^(guò)可視化界面查看具體作業(yè)的作業(yè)執(zhí)行狀態(tài)、執(zhí)行進(jìn)度、執(zhí)行節(jié)點(diǎn)數(shù)、成功任務(wù)數(shù)、正在執(zhí)行數(shù)、失敗任務(wù)數(shù)、延時(shí)任務(wù)數(shù)、未執(zhí)行任務(wù)數(shù)等。(3)使用用戶可通過(guò)選擇具體作業(yè)或者批量作業(yè),完成對(duì)相關(guān)作業(yè)的啟動(dòng)、停止、手工運(yùn)行等操作。(4)作業(yè)運(yùn)行監(jiān)控任務(wù)狀態(tài)監(jiān)控指前臺(tái)通過(guò)表格形式實(shí)時(shí)展現(xiàn)任務(wù)的運(yùn)行狀態(tài),通過(guò)前端頁(yè)面監(jiān)控各個(gè)任務(wù)的實(shí)時(shí)運(yùn)行狀態(tài)及運(yùn)行日志。(5)集群監(jiān)控系統(tǒng)可通過(guò)調(diào)度中心的自定義集群監(jiān)控功能實(shí)現(xiàn)對(duì)主、從服務(wù)器的監(jiān)控,如服務(wù)器的內(nèi)存使用率、I/O吞吐量、CPU使用率、物理機(jī)器資源占用等信息。六、數(shù)據(jù)共享交換子系統(tǒng)數(shù)據(jù)交換依據(jù)數(shù)據(jù)提供單位、數(shù)據(jù)使用單位的特點(diǎn),數(shù)據(jù)交換主要提供三種服務(wù)能力,即:(1)對(duì)接入的各IT系統(tǒng)提供公共基礎(chǔ)數(shù)據(jù),為IT系統(tǒng)提供通用信息資源以及數(shù)據(jù)的導(dǎo)入;(2)對(duì)大數(shù)據(jù)主題應(yīng)用提供元數(shù)據(jù)信息及主題數(shù)據(jù)信息;(3)對(duì)前端門戶界面展示提供數(shù)據(jù)傳輸服務(wù)??傮w如下圖所示數(shù)據(jù)共享交換平臺(tái)數(shù)據(jù)交換示意圖1)數(shù)據(jù)交換請(qǐng)求管理用戶通過(guò)門戶發(fā)起數(shù)據(jù)交換請(qǐng)求,該請(qǐng)求總體分為兩大類:第一類指數(shù)據(jù)傳輸采集交換,即由接入單位的IT系統(tǒng)、大數(shù)據(jù)主題應(yīng)用發(fā)起數(shù)據(jù)采集請(qǐng)求;該請(qǐng)求通過(guò)審核審批后,直接傳輸?shù)綌?shù)據(jù)采集抽取系統(tǒng);第二類指數(shù)據(jù)界面展現(xiàn)請(qǐng)求,即用戶通過(guò)門戶查詢基礎(chǔ)數(shù)據(jù)、主題數(shù)據(jù)及目錄數(shù)據(jù)等,通過(guò)API形式(含jdbc等)將數(shù)據(jù)傳輸?shù)介T戶界面進(jìn)行展示,該請(qǐng)求無(wú)須審核,根據(jù)用戶的權(quán)限進(jìn)行數(shù)據(jù)展示。系統(tǒng)提供數(shù)據(jù)交換請(qǐng)求的管理與審批。2)ETL數(shù)據(jù)抽取與加載服務(wù)ETL采集與抽取工具,接收到數(shù)據(jù)采集指令后,執(zhí)行數(shù)據(jù)采集任務(wù),對(duì)基礎(chǔ)數(shù)據(jù)、主題數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行采集,支持離線批量采集與實(shí)時(shí)采集;采集完成的數(shù)據(jù)通過(guò)ETL工具壓縮進(jìn)行傳輸。采集的數(shù)據(jù)由ETL傳輸?shù)綌?shù)據(jù)交換共享平臺(tái)的前置服務(wù)設(shè)備進(jìn)行存儲(chǔ),待接入單位或主題應(yīng)用單位進(jìn)行采集。3)消息通知服務(wù)用戶請(qǐng)求交換的數(shù)據(jù)完成采集后,系統(tǒng)通知相關(guān)用戶,告知用戶數(shù)據(jù)已完成采集,由用戶自行到數(shù)據(jù)交換共享平臺(tái)的前置服務(wù)設(shè)備進(jìn)行下載。4)API數(shù)據(jù)交換服務(wù)用戶通過(guò)門戶檢索、查詢目錄系統(tǒng)等相關(guān)數(shù)據(jù)時(shí),由系統(tǒng)自動(dòng)調(diào)用API服務(wù),根據(jù)數(shù)據(jù)量、計(jì)算規(guī)模的大小,實(shí)時(shí)或非實(shí)時(shí)地將數(shù)據(jù)推送給門戶界面。數(shù)據(jù)共享(1)共享服務(wù)提供圖5-49共享服務(wù)數(shù)據(jù)共享基于數(shù)據(jù)虛擬化過(guò)程實(shí)現(xiàn)。數(shù)據(jù)虛擬化管理包括數(shù)據(jù)發(fā)現(xiàn)和注冊(cè),數(shù)據(jù)目錄,共享管理及租戶管理。(2)數(shù)據(jù)注冊(cè)平臺(tái)在復(fù)雜數(shù)據(jù)環(huán)境中定位多個(gè)數(shù)據(jù)孤島中的相關(guān)實(shí)體,自動(dòng)完成數(shù)據(jù)匹配工作,發(fā)現(xiàn)可用數(shù)據(jù),建立隱藏關(guān)系,并注冊(cè)在數(shù)據(jù)虛擬化平臺(tái),形成邏輯上的數(shù)據(jù)倉(cāng)庫(kù)。(3)數(shù)據(jù)目錄針對(duì)平臺(tái)發(fā)布的可共享數(shù)據(jù)接口,將數(shù)據(jù)接口最終封裝成一個(gè)一個(gè)的服務(wù)包對(duì)外發(fā)布,并進(jìn)行分類整理。以數(shù)據(jù)目錄形式,提供在線服務(wù)查詢索引、服務(wù)展示及數(shù)據(jù)調(diào)用功能。(4)共享服務(wù)1)查詢服務(wù)對(duì)上層業(yè)務(wù)提供靈活的數(shù)據(jù)查詢,屏蔽下層不同存儲(chǔ)處理方式的查詢。通過(guò)統(tǒng)一的接口讓使用者和物理數(shù)據(jù)源隔離了開來(lái)。使不同的數(shù)據(jù)結(jié)構(gòu)或異構(gòu)的數(shù)據(jù)存儲(chǔ),都不會(huì)對(duì)使用者產(chǎn)生不利影響。半/非結(jié)構(gòu)化數(shù)據(jù)查詢:使用OpenApi的形式,通過(guò)HTTP協(xié)議來(lái)查詢小批量數(shù)據(jù),系統(tǒng)提供高穩(wěn)定性與低延遲的性能保證。適用與指標(biāo)庫(kù)、標(biāo)簽庫(kù)等類應(yīng)用的數(shù)據(jù)訪問(wèn)。結(jié)構(gòu)化數(shù)據(jù)查詢:使用各種復(fù)雜的SQL中聚合分組語(yǔ)法來(lái)獲取數(shù)據(jù),導(dǎo)出XML、JSON等格式數(shù)據(jù),適用于稍大數(shù)據(jù)量的即時(shí)分析類查詢需求。以下為數(shù)據(jù)查詢的典型業(yè)務(wù)場(chǎng)景示例:指標(biāo)類API使用同步HTTP協(xié)議來(lái)查詢單個(gè)指標(biāo)數(shù)據(jù),該類接口要求系統(tǒng)提供高穩(wěn)定性及低延遲的性能保證。實(shí)體數(shù)據(jù)由云平臺(tái)完成運(yùn)算后分發(fā)到關(guān)系數(shù)據(jù)庫(kù)中。查詢返回的數(shù)據(jù)為對(duì)象數(shù)據(jù)結(jié)構(gòu)。2)資料服務(wù)對(duì)上層應(yīng)用提供幫助文檔信息,主要包含數(shù)據(jù)模型:把元數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)表、模型定義信息通過(guò)接口開放給業(yè)務(wù)使用者,可以查詢出來(lái)表定義相關(guān)的數(shù)據(jù)處理流程指標(biāo)口徑:開放指標(biāo)的口徑信息,清晰的表達(dá)出來(lái)指標(biāo)代表的含義API文檔:API列表,可以在線查詢API的參數(shù),幫助信息,并提供在線測(cè)試用戶界面。3)文件接口服務(wù)支持在內(nèi)外部系統(tǒng)的不同存儲(chǔ)間(如Hadoop、DB2等),進(jìn)行數(shù)據(jù)的交換、同步、分發(fā)。交換可以通過(guò)接口文件、JDBC等多種方式。針對(duì)大批量數(shù)據(jù)的交互,應(yīng)通過(guò)調(diào)用底層事件服務(wù)與分發(fā)服務(wù),提交一個(gè)異步分發(fā)請(qǐng)求,如輸入分發(fā)腳本、分發(fā)目錄包裝成消息,提交到事件服務(wù),數(shù)據(jù)導(dǎo)出完成后分發(fā)到相應(yīng)的主機(jī)目錄。4)數(shù)據(jù)權(quán)限管理主要面向平臺(tái)使用者和數(shù)據(jù)資源管理人員,提供信息資源查詢和展現(xiàn)能力,以及相應(yīng)的信息資源權(quán)限管控。平臺(tái)使用者快速目錄檢索:通過(guò)數(shù)據(jù)資源目錄,由平臺(tái)實(shí)現(xiàn)數(shù)據(jù)快速檢索功能;權(quán)限快速申請(qǐng):提供權(quán)限申請(qǐng)調(diào)用接口,用戶在圖列表中點(diǎn)擊申請(qǐng)權(quán)限,完成申請(qǐng)信息提交,由管理員進(jìn)行審批。權(quán)限管控對(duì)內(nèi)數(shù)據(jù)權(quán)限管控,驗(yàn)證內(nèi)部用戶是否有能夠訪問(wèn)當(dāng)前數(shù)據(jù)的權(quán)限。在具備權(quán)限條件下,才允許調(diào)用共享服務(wù)。提供待審批列表數(shù)據(jù)資源管理員通過(guò)待審批列表快速瀏覽到待審批的權(quán)限申請(qǐng),包括申請(qǐng)時(shí)間、申請(qǐng)人帳號(hào)、表資產(chǎn)名稱、所屬庫(kù)、所屬表空間、權(quán)限狀態(tài)(待審批/已審批)、用途說(shuō)明等,并能夠支持根據(jù)關(guān)鍵選項(xiàng)快速檢索;提供已審批列表查看已審批的數(shù)據(jù)權(quán)限列表;提供權(quán)限審批支持打開申請(qǐng)記錄,審批申請(qǐng)人的數(shù)據(jù)權(quán)限,完成授權(quán);提供歷史審批查詢根據(jù)時(shí)間范圍、表資產(chǎn)、所屬庫(kù)等關(guān)鍵條件查詢歷史權(quán)限審批列表。(5)租戶管理共享服務(wù)調(diào)用通過(guò)多租戶形式進(jìn)行管理。多租戶是將數(shù)據(jù)查詢、數(shù)據(jù)處理和數(shù)據(jù)調(diào)用能力按需、可控的進(jìn)行開放,在保障數(shù)據(jù)安全性、數(shù)據(jù)可控性的前提下,通過(guò)租戶的方式實(shí)現(xiàn)用戶及用戶組管理,以達(dá)到資源管控及數(shù)據(jù)權(quán)限控制的目的。多租戶注冊(cè),由管理員創(chuàng)建并維護(hù),每個(gè)租戶都被分配一定的計(jì)算資源和存儲(chǔ)資源,可以根據(jù)應(yīng)用情況動(dòng)態(tài)的調(diào)整。使用開發(fā)平臺(tái)的賬號(hào),用戶

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論