版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
BKR體系下的數據血緣指標分析
王樹明吳濟勝鄧夢航(1.中國煙草總公司湖北省煙草專賣局信息中心湖北省武漢市430030)(2.武漢楚煙信息技術有限公司湖北省武漢市430030)黨的十九大報告提出要“推動互聯(lián)網、大數據、人工智能和實體經濟深度融合”[1]。數據成為企業(yè)數字化時代的重要資源,它以產品或服務的形態(tài)為企業(yè)創(chuàng)造價值,為企業(yè)轉型升級發(fā)揮重要作用[2]。數據不是孤立存在的,數據從產生、處理、加工、融合、流轉,到最終消亡,會形成一種關系鏈路,這就是數據血緣[3]。數據血緣分析就是在溯源過程中找到相關數據之間的聯(lián)系,比如,當數據發(fā)生異常,需要能追蹤到異常發(fā)生的原因,把風險控制在適當的水平[4]。數據血緣分析能幫助我們追蹤數據的來源、處理的過程,這對于數據質量的監(jiān)控、數據處理性能的調優(yōu)和數據資產價值的評估等,都有非常重要的作用。湖北煙草已經構建了一套覆蓋全業(yè)務鏈條的完整數據中心[5],包括一體化數據存儲、一體化數據管理和一體化數據分析三部分內容。然而,由于歷史、管理等多方面原因,數據中心依然面臨數據加工無序、數據獲取與開發(fā)不規(guī)范等現(xiàn)象,血緣分析是規(guī)范化數據治理的一個有效工具[6]。1數據中心分層現(xiàn)狀傳統(tǒng)數據中心的構建包括下面六個層次:最底層是部門的業(yè)務數據庫(DB),數據經過抽取轉換層(ETL)[7]進入操作性數據層(ODS)[8],然后經過明細數據層(DWD)[9],再進入輕度匯總層(DWA)[10],最后進入數據集市(DM)[11]。其中,每層的具體任務如表1所示。表1:數據中心層次結構這種層次結構定義了不同模塊的職能劃分,有利于數據規(guī)范化的管理。但是這種劃分形式也存在部分功能重疊的問題,并且過于精細的劃分不利于系統(tǒng)的物理實現(xiàn)。湖北煙草數據中心則從項目實施的角度對系統(tǒng)按照操作方式進行了三層劃分,即針對傳統(tǒng)數據中心的頂上四層,按照BKR體系進行重新分層和命名。BKR體系是描述數據加工、分級存儲的體系。其中,B層(Base)是基礎業(yè)務數據層,K層(KPI,KeyPerformanceIndicators)是關鍵指標層,R層(Reports)是靈活運用層。BKR體系有著嚴格的轉換規(guī)則,以確保數據分層的合理性:K可由B、K加工而成;R可由B、K加工而成;R不能生成R,如圖1所示。圖1:BKR分層規(guī)范BKR體系有著一套嚴格的命名規(guī)范:B表命名相對簡單,業(yè)務數據接口表入庫后,命名為B表;R表命名業(yè)務含義明顯;K表共享程度高,業(yè)務含義也豐富。對數據加工的治理,就是監(jiān)督和檢查BKR是否嚴格按照規(guī)則轉換。基于命名規(guī)范,機器能夠快速甄別出不合理的結構設計。2基于BKR的血緣分析數據血緣(Lineage,Provenance,Pedigree,Consanguinity)亦可譯為(血統(tǒng)、起源、世系、譜系)[12],是近幾年隨著數據庫和網絡普及而發(fā)展起來的一個研究領域。大數據時代,數據爆發(fā)性增長,海量的、各種類型的數據在快速產生,這些龐大復雜的數據信息,通過聯(lián)姻融合、轉換變換、流轉流通,又生成新的數據,匯聚成數據的海洋。數據的產生、加工融合、流轉流通,到最終消亡,數據之間自然會形成一種關系,即數據的血緣關系。與人類社會中的血緣關系不同,數據的血緣關系還包含了一些特有的特征[13]:(1)歸屬性:特定的數據歸屬特定的組織或者個人。(2)多源性:數據可以有多個來源,即由多個源頭經過加工而成。(3)追溯性:在數據的生命周期內,即從產生到消亡的整個過程中,具備可追溯性。(4)層次性:是血緣分析細膩程度的一個指標,由粗到細分別為:所有者、數據庫/文件服務器、表/文件目錄、字段/文件。本文是在BKR體系下,針對“表”這個層次的約束關系進行血緣分析。2.1出度與入度數據血緣存在多種分析層級,其中“表”這一級的粒度大小適中,被廣泛采用,本文就是針對“表”這個級別進行研究的。本文提到的“數據”就是指BKR體系中的“表”。向數據的上游追溯,查看哪些數據在提供信源,是一種共享性的探查[14]。同時,向數據的下游追溯,查看哪些數據在匯集信息,是一種依賴性的評價。為了定量的描述這兩種特性,我們在數據之間增加有向邊,即以自身為起點,指向外鍵所代表的表,如圖2所示。表的外鍵是追溯上游數據的線索,意味著每條線段指向的表,是分享信息的,因此被越多外鍵指向,即表的入度越大,其共享性也越大。從邊的反方向來看,表的外鍵意味數據依賴于另外一張表,表的外鍵越多,即表的出度越大,其依賴性也越大。因此,可以用入度來衡量一個數據的共享程度,用出度來衡量一個數據的依賴程度。圖2:BKR體系的PageRank模型本研究的設計理念是“高內聚、松耦合”[15],即高共享、低依賴。入度大,意味著數據被更多的表利用,說明數據的共享性好,具有較高的使用價值。出度小,意味著數據來源單純,依賴性小,易于維護。為了從血緣的角度來評估BKR體系設計的優(yōu)劣,需要為每一張表建立全局性的指標,來表明其共享程度和依賴程度,為后續(xù)系統(tǒng)的迭代和優(yōu)化提供指導依據。2.2共享指標模型雖然表的共享程度與表的入度正相關,但是直接用入度來代表共享度,只能反應局部屬性,因為一張表不僅有前驅數據,還有后續(xù)數據,他們都會對這張表在系統(tǒng)中的地位產生影響,所以要想客觀的表達當前表格的共享程度,應該從全局的角度來考慮。將BKR系統(tǒng)看成一個有向圖,如圖2所示,這與網頁跳轉圖的形式非常接近,因此本研究將在經典的網頁排名算法PageRank[16]的基礎上,計算全局共享指標。PageRank是利用網頁的超鏈接來調整網頁的權重,從而給網頁進行排名的一種算法。該算法被Google首次引入搜索引擎,用它來計算網頁的相關性和重要性,并取得了卓有成效的效果。PageRank的思想是模擬上網者隨機打開一個網頁,然后通過超鏈接跳轉其他網頁的過程,通過計算每個網頁的被訪問概率來代表網頁的重要程度。將圖2看作簡單的PageRank模型,每張表類似一個網頁結點。表1的出度為2,如果以平均概率計算,表1各有1/2的概率到達表2和表3,同理分析表2、表3、表4,得到狀態(tài)轉移矩陣M,其中每一列表示該列所代表的結點到其它結點(行代表的結點)的概率分布。同時,還規(guī)定每個結點的訪問概率是由指向它的結點的訪問概率的累加和,比如:假設每個結點的初始概率都相同,即1/N,N為結點的總數,則每個結點的新概率值就是狀態(tài)轉移矩陣M乘以當前結點的概率向量,向量V0是所有結點的初始概率,向量V1是所有結點的第一次迭代后的概率。每次結點更新后的概率只與上一次的概率有關,這個迭代過程是一個馬爾科夫過程[17],該過程被證明具有收斂性。經過若干次迭代后,圖2中的結點概率就穩(wěn)定在[0.31,0.15,0.23,0.31]附近。該數值表明,表1與表4的共享度最高,表3次之,表2最低。這些穩(wěn)定值并不直接與入度相關,而是一個全局評估后的結果。馬爾科夫過程的收斂條件要求跳轉關系是強聯(lián)通圖,即從圖中任意結點起始,能夠到達所有其它結點,如果不滿足這個條件,則不能正常收斂[18],圖3展示了不能正常收斂的情況。圖3:非收斂的情況2.2.1純輸出結點當網絡中出現(xiàn)純輸出點,如圖3中的表1所示,表1的入度為0,意味表1只有跳出,沒有任何跳入,則表1最終的概率只會是0。2.2.2純輸入結點當網絡中出現(xiàn)純輸入結點,如圖3中的表4所示,表4出度為0,意味著所有的跳轉概率都會匯聚到表4,并且不再跳出,則其他表的概率都收斂到0,進而造成表4的概率也收斂到0。上述這幾種情況在BKR體系中會經常出現(xiàn),為了解決這些特殊情況,PageRank算法的改進思路是將狀態(tài)轉移方程用兩部分組成,如公式(1)所示。第一部的主體是原狀態(tài)矩陣計算結果,第二部分的主體表示每個結點以平均概率的方式訪問其它結點。兩個部分被分別乘以系數α和(1-α),表示狀態(tài)轉移的總體概率是由兩個部分加權求和組成。一般α取值0.8。雖然這次改進解決了收斂到0的不正常情況,但是所有結點的概率的累加和并沒有收斂到1,究其原因還是因為表4的出度為0。為了解決這個特殊情況,我們提出再次改進的思路,即為出度為0的結點添加一個指向自己的邊,如圖4中表4所示。圖4:給出度為0的結點添加指向自己的邊這樣概率迭代公式就變?yōu)椋和ㄟ^分析新的穩(wěn)定值,我們發(fā)現(xiàn)表4處于共享鏈條的最頂斷,為下游所有結點提供信息,因此共享度最大,而表1則處在共享鏈條的最低層,不為任何其他結點提供數據,因此共享度最小。同時,表3有兩條共享鏈,分別為表1和表2提供信息,所以比只有1條共享鏈的表2的共享度大。每個結點都收斂到一個有意義的值,并且收斂值之和為1。至此,通過改進后的算法,我們得到了每張表的基于全局的共享指標。2.3依賴指標模型在BKR體系的血緣分析中,還有一個重要的指標——依賴度。對于圖3來說,依賴度與出度正相關。但是與全局共享指標一樣,一張表的全局依賴度也受到前驅數據和后續(xù)數據的影響。通過分析圖3的出度與入度,我們發(fā)現(xiàn)“共享”與“依賴”互為對偶關系,因此對圖3中共享模型稍作修改,如圖5所示,就可以直接套用計算共享指標的方法來計算依賴指標。圖5:依賴模型轉換為共享模型圖3是從外鍵的視角對表添加有向邊,如果從主鍵的視角添加有向邊,則圖3可以轉換為圖5(a),其中表2的主鍵被表1引用,即繪制從表2到表1的有向邊,表示表1對表2有依賴。對其他結點進行類似操作可以發(fā)現(xiàn),將圖3中的所有邊進行反向,即得到圖5(a),此時結點的入度就與依賴度正相關了。為了能夠順利地計算收斂值,將圖5(a)中出度為0的表1也添加一個指向自己的邊,得到圖5(b),接著就可以按照公式(1)來計算全局依賴度了。圖5(b)的狀態(tài)轉移矩陣為:經過若干次迭代,圖5(b)中的結點概率穩(wěn)定在[0.782,0.098,0.070,0.050]附近,其中表1的依賴度最大,這符合表1是依賴鏈關系的起始端的本質。同時,表4的依賴度最小,這也符合表4是依賴關系的末端的本質。3案例分析針對煙草物流領域中的配送業(yè)務,進行全局共享度和依賴度的分析。該業(yè)務模塊包含,倉庫信息、貨物明細、配送清單、送貨車輛、送貨任務、送貨班組、員工信息、日志記錄等19張表格。將該業(yè)務數據以外鍵的視角添加有向邊,形成共享鏈條,用入度表示共享性、出度表示依賴性,通過公式(1)計算得到所有表的依賴指標和共享指標,如圖6所示。圖6:配送業(yè)務指標模型通過觀察圖6中各表的指標數可以發(fā)現(xiàn),共享值較大的表,主要集中在數據流的主干上,并且越靠近數據流的末尾,共享值越大,如表3、表4、表8、表11、表17、表18,其中表3和表18的共享值更突出一些,因為它倆是數據流的末端。同理,依賴值較大的表分布在數據流的外圍,如表0、表1、表2、表6、表9、表10、表12等,就像樹冠上的葉片一樣,需要主干為其提供更多的支撐。共享指標和依賴指標可以代表每張表在BKR體系中的血緣地位。這兩個指標可以作為血緣分析的一個可視化元素[19],給用戶提供一個全局的視野來審視整個系統(tǒng)的重心分布,也可以作為系統(tǒng)更新和優(yōu)化時的一個參考指標,比較更新前后,數據的血緣地位在系統(tǒng)中的升降變化。4結語本研究從優(yōu)化湖北煙草數據中心項目建設的實
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度個人勞務合同(網絡主播專用范本)4篇
- 二零二五年度網絡安全責任合同標準文本
- 2025年浙江房產稅收改革7月1日起適用合同規(guī)定3篇
- 2024年09月2024中國建設銀行廈門市分行校園招聘120人筆試歷年參考題庫附帶答案詳解
- 加油站的市場份額和盈利模式
- 2025年海南鮮品品牌產品線規(guī)劃與調整合同3篇
- 2024-2025年中國雷達行業(yè)發(fā)展前景預測及投資戰(zhàn)略研究報告
- 中國紫草種植市場發(fā)展前景預測及投資戰(zhàn)略咨詢報告
- 公路貨物運輸管理
- 2025年度臨時消防演習策劃與執(zhí)行合同4篇
- 2022年睪丸腫瘤診斷治療指南
- 被執(zhí)行人給法院執(zhí)行局寫申請范本
- 主變壓器試驗報告模板
- 安全防護通道施工方案
- 視覺元素對心理感知的影響
- 飯店管理基礎知識(第三版)中職PPT完整全套教學課件
- 柴油供貨運輸服務方案
- 2023年重慶市中考物理A卷試卷【含答案】
- 110應急聯(lián)動預案
- 光伏發(fā)電監(jiān)理規(guī)劃
- 清洗劑msds清洗劑MSDS
評論
0/150
提交評論