版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)治理平臺建設(shè)方案
目錄
1.大數(shù)據(jù)治理平臺的現(xiàn)狀...........................................................3
2.大數(shù)據(jù)治理的概述................................................................5
2.1大數(shù)據(jù)治理概念.............................................................6
2.2大數(shù)據(jù)治理目標..............................................................7
2.3大數(shù)據(jù)治理模型..............................................................7
3.大數(shù)據(jù)治理體系.................................................................23
3.1數(shù)據(jù)連接...................................................................24
3.2數(shù)據(jù)建模...................................................................24
3.3統(tǒng)計報表...................................................................25
3.4決策儀表板.................................................................25
3.5數(shù)據(jù)大屏...................................................................25
4.大數(shù)據(jù)治理核心領(lǐng)域.............................................................26
4.1大數(shù)據(jù)模型.................................................................26
4.2大數(shù)據(jù)生命周期.............................................................27
4.3大數(shù)據(jù)標準.................................................................28
4.4主大數(shù)據(jù)...................................................................30
4.5大數(shù)據(jù)質(zhì)量.................................................................31
4.6大數(shù)據(jù)服務.................................................................33
4.7大數(shù)據(jù)安全.................................................................34
5.大數(shù)據(jù)治理保障機制............................................................35
5.1制度章程...................................................................35
5.1.1規(guī)章制度............................................................35
5.1.2管控辦法............................................................35
5.1.3考核機制............................................................35
5.2大數(shù)據(jù)治理組織............................................................37
5.2.1組織架構(gòu)............................................................37
5.2.2組織層次............................................................38
5.2.3組織職責............................................................39
5.3流程管理...................................................................41
5.4IT技術(shù)應用................................................................42
5.4.1支撐平臺............................................................42
5.4.2技術(shù)規(guī)范............................................................44
附件A大數(shù)據(jù)治理平臺規(guī)范...........................................................46
附件B大數(shù)據(jù)質(zhì)量評估辦法............................................................65
附件C大數(shù)據(jù)質(zhì)量管理流程............................................................69
關(guān)于大數(shù)據(jù)治理的理解
面對我們身邊每時每刻迅速增長的龐大數(shù)據(jù),因為其數(shù)量大、
速度快、種類多和準確性的特征,如何更好地利用大數(shù)據(jù)創(chuàng)造出有
意義的價值,一直是我們探索的重要話題。而在這之前,就需要用
科學正確的方法策略對大數(shù)據(jù)進行治理。大數(shù)據(jù)治理是指制定與大
數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私保護與數(shù)據(jù)變現(xiàn)的政策,是傳統(tǒng)信息治
理的延續(xù)和擴展,也是大數(shù)據(jù)分析的基礎(chǔ),還是連接大數(shù)據(jù)科學和
應用的橋梁,因此大數(shù)據(jù)治理是大數(shù)據(jù)再創(chuàng)高峰的“必修課”。
(狹義)大數(shù)據(jù)是指無法使用傳統(tǒng)流程或工具在合理的時間和
成本內(nèi)處理或分析的信息,這些信息將用來幫助企業(yè)更智慧地經(jīng)營
和決策。而廣義的大數(shù)據(jù)更是指企業(yè)需要處理的海量數(shù)據(jù),包括傳
統(tǒng)數(shù)據(jù)以及狹義的大數(shù)據(jù)。(廣義)大數(shù)據(jù)可以分為五個類型:Web
和社交媒體數(shù)據(jù)、機器對機器(M2M)數(shù)據(jù)、海量交易數(shù)據(jù)、生物計
量學數(shù)據(jù)和人工生成的數(shù)據(jù)。
Web和社交媒體數(shù)據(jù):比如各種微博、博客、社交網(wǎng)站、購物網(wǎng)
站中的數(shù)據(jù)和內(nèi)容。
M2M數(shù)據(jù):也就是機器對機器的數(shù)據(jù),比如RFID數(shù)據(jù)、GPS數(shù)
據(jù)、智能儀表、監(jiān)控記錄數(shù)據(jù)以及其他各種傳感器、監(jiān)控器的數(shù)據(jù)。
海量交易數(shù)據(jù):是各種海量的交易記錄以及交易相關(guān)的半結(jié)構(gòu)
化和非結(jié)構(gòu)化數(shù)據(jù),比如電信行業(yè)的CDR、3G上網(wǎng)記錄等,金融行
第1頁
業(yè)的網(wǎng)上交易記錄、corebanking記錄、理財記錄等,保險行業(yè)的各
種理賠等。
生物計量學數(shù)據(jù):是指和人體識別相關(guān)的生物識別信息,如指
紋、DNA、虹膜、視網(wǎng)膜、人臉、聲音模式、筆跡等。
人工生成的數(shù)據(jù):比如各種調(diào)查問卷、電子郵件、紙質(zhì)文件、
掃描件、錄音和電子病歷等。
在各行各業(yè)中,隨處可見因數(shù)量、速度、種類和準確性結(jié)合帶
來的大數(shù)據(jù)問題,為了更好地利用大數(shù)據(jù),大數(shù)據(jù)治理逐漸提上日
程。在傳統(tǒng)系統(tǒng)中,數(shù)據(jù)需要先存儲到關(guān)系型數(shù)據(jù)庫/數(shù)據(jù)倉庫后再
進行各種查詢和分析,這些數(shù)據(jù)我們稱之為靜態(tài)數(shù)據(jù)。而在大數(shù)據(jù)
時代,除了靜態(tài)數(shù)據(jù)以外,還有很多數(shù)據(jù)對實時性要求非常高,需
要在采集數(shù)據(jù)時就進行相應的處理,處理結(jié)果存入到關(guān)系型數(shù)據(jù)庫
/數(shù)據(jù)倉庫、MPP數(shù)據(jù)庫、Hadoop平臺、各種NoSQL數(shù)據(jù)庫等,這些
數(shù)據(jù)我們稱之為動態(tài)數(shù)據(jù)。比如高鐵機車的關(guān)鍵零部件上裝有成百
上千的傳感器,每時每刻都在生成設(shè)備狀態(tài)信息,企業(yè)需要實時收
集這些數(shù)據(jù)并進行分析,當發(fā)現(xiàn)設(shè)備可能出現(xiàn)問題時及時告警。再
比如在電信行業(yè),基于用戶通信行為的精準營銷、位置營銷等,都
會實時的采集用戶數(shù)據(jù)并根據(jù)業(yè)務模型進行相應的營銷活動。
大數(shù)據(jù)治理的核心是為業(yè)務提供持續(xù)的、可度量的價值。大數(shù)
據(jù)治理人員需要定期與企業(yè)高層管理人員進行溝通,保證大數(shù)據(jù)治
第2頁
理計劃可以持續(xù)獲得支持和幫助。相信隨著時間的推移,大數(shù)據(jù)將
成為主流,企業(yè)可以從海量的數(shù)據(jù)中獲得更多的價值,而大數(shù)據(jù)治
理的范圍和嚴格程度也將逐步上升。為了更好地幫助企業(yè)進行大數(shù)
據(jù)治理,在IBM數(shù)據(jù)治理統(tǒng)一流程模型基礎(chǔ)上結(jié)合在電信、金融、
政府等行業(yè)進行大數(shù)據(jù)治理的經(jīng)驗,整理了大數(shù)據(jù)治理統(tǒng)一流程參
考模型,整個參考模型分為必選步驟和可選步驟兩部分。
1.大數(shù)據(jù)治理平臺的現(xiàn)狀
根據(jù)行業(yè)信息化發(fā)展的現(xiàn)狀,結(jié)合當今行業(yè)大數(shù)據(jù)治理的要求,
大型集團或政務管理部門現(xiàn)階段大數(shù)據(jù)治理平臺方面存在以下的不
足:
(1)大數(shù)據(jù)多頭管理,缺少專門對大數(shù)據(jù)治理平臺進行監(jiān)督
和控制的組織。信息系統(tǒng)的建設(shè)和管理職能分散在各部門,致使大
數(shù)據(jù)治理平臺的職責分散,權(quán)責不明確。組織機構(gòu)各部門關(guān)注大數(shù)
據(jù)的角度不一樣,缺少一個組織從全局的視角對大數(shù)據(jù)進行管理,
導致無法建立統(tǒng)一的大數(shù)據(jù)治理平臺規(guī)程、標準等,相應的大數(shù)據(jù)
治理平臺監(jiān)督措施無法得到落實。組織機構(gòu)的大數(shù)據(jù)考核體系也尚
未建立,無法保障大數(shù)據(jù)治理平臺標準和規(guī)程的有效執(zhí)行。
(2)多系統(tǒng)分散建設(shè),沒有規(guī)范統(tǒng)一的省級大數(shù)據(jù)標準和大
數(shù)據(jù)模型。組織機構(gòu)為應對迅速變化的市場和社會需求,逐步建立
了各自的信息系統(tǒng),各部門站在各自的立場生產(chǎn)、使用和管理大數(shù)
第3頁
據(jù),使得大數(shù)據(jù)分散在不同的部門和信息系統(tǒng)中,缺乏統(tǒng)一的大數(shù)
據(jù)規(guī)劃、可信的大數(shù)據(jù)來源和大數(shù)據(jù)標準,導致大數(shù)據(jù)不規(guī)范、不
一致、冗余、無法共享等問題出現(xiàn),組織機構(gòu)各部門對大數(shù)據(jù)的理
解難以應用一致的語言來描述,導致理解不一致。
(3)缺少統(tǒng)一的主大數(shù)據(jù),組織機構(gòu)核心系統(tǒng)間的人員等主
要信息并不是存儲在一個獨立的系統(tǒng)中,或者不是通過統(tǒng)一的業(yè)務
管理流程在系統(tǒng)間維護。缺乏對集團公司或政務單位主大數(shù)據(jù)的管
理,就無法保障主大數(shù)據(jù)在整個業(yè)務范圍內(nèi)保持一致、完整和可控,
導致業(yè)務大數(shù)據(jù)正確性無法得到保障。
(4)缺乏統(tǒng)一的集團型大數(shù)據(jù)質(zhì)量管理流程體系。當前現(xiàn)狀
中大數(shù)據(jù)質(zhì)量管理主要由各組織部門分頭進行;跨局跨部門的大數(shù)
據(jù)質(zhì)量溝通機制不完善;缺乏清晰的跨局跨部門的大數(shù)據(jù)質(zhì)量管控
規(guī)范與標準,大數(shù)據(jù)分析隨機性強,存在業(yè)務需求不清的現(xiàn)象,影
響大數(shù)據(jù)質(zhì)量;大數(shù)據(jù)的自動采集尚未全面實現(xiàn),處理過程存在人
為干預問題,很多部門存在大數(shù)據(jù)質(zhì)量管理人員不足、知識與經(jīng)驗
不夠、監(jiān)管方式不全面等問題;缺乏完善的大數(shù)據(jù)質(zhì)量管控流程和
系統(tǒng)支撐能力。
(5)大數(shù)據(jù)全生命周期管理不完整。目前,大型集團或政務
單位,大數(shù)據(jù)的產(chǎn)生、使用、維護、備份到過時被銷毀的大數(shù)據(jù)生
命周期管理規(guī)范和流程還不完善,不能確定過期和無效大數(shù)據(jù)的識
第4頁
別條件,且非結(jié)構(gòu)化大數(shù)據(jù)未納入大數(shù)據(jù)生命周期的管理范疇;無
信息化工具支撐大數(shù)據(jù)生命周期狀態(tài)的查詢,未有效利用元大數(shù)據(jù)
治理平臺。
2.大數(shù)據(jù)治理的概述
通過靈活的數(shù)據(jù)交互和探索分析能力,以及OEM白標集成的
方式,全面滿足行業(yè)應用軟件的數(shù)據(jù)分析需求。它提供多源數(shù)據(jù)整
合、報表統(tǒng)計、數(shù)據(jù)可視化、自助式BI分析、以及數(shù)據(jù)填報等功能,
幫助用戶挖掘數(shù)據(jù)的潛在價值,為管理者制定決策提供數(shù)據(jù)支撐。
多數(shù)據(jù)源整合,為決策分析提供完整數(shù)據(jù)支持
通過數(shù)據(jù)查詢設(shè)計器,有效整合您分散在企業(yè)內(nèi)外的各種數(shù)據(jù)。
包括數(shù)據(jù)庫、云端數(shù)據(jù)、本地存放的文件數(shù)據(jù)以及JSON/OData等
程序數(shù)據(jù)。既能通過拖拽操作完成跨源的數(shù)據(jù)建模,也支持直接編
寫查詢語句。最終,通過數(shù)據(jù)模型訪問控制和行級數(shù)據(jù)安全管理,
分享給BI分析或報表統(tǒng)計者使用。
自助式BI,強大的交互分析和自由數(shù)據(jù)探索能力
自助式BI,讓最終用戶毫無約束的與數(shù)據(jù)交互,任意探索數(shù)
據(jù)背后的真正原因,發(fā)覺價值,為決策制定找到有效的數(shù)據(jù)支撐。
在Dashboard的設(shè)計和分析階段,均提供圖表聯(lián)動、數(shù)據(jù)鉆取、數(shù)
據(jù)切片器、OLAP等交互式分析功能,僅需通過極少的操作便能找到
最有價值的數(shù)據(jù),并能與企業(yè)成員進行協(xié)同討論分析。
第5頁
數(shù)據(jù)可視化,讓數(shù)據(jù)之間的關(guān)系更加清晰明了、便于理解
具有多屏自適應能力的儀表板,內(nèi)置豐富的數(shù)據(jù)可視化類型,
而且開放的數(shù)據(jù)可視化插件功能,幾乎可以將任意的可視化組件庫
集成到產(chǎn)品中,比如:Echarts,D3,ChartJS,三維模型等,充分
滿足數(shù)據(jù)可視化大屏等場景的需要。
在線報表,最終用戶和實施人員都能設(shè)計報表
創(chuàng)新的在線報表設(shè)計功能,類似微軟Office產(chǎn)品的使用體驗,
功能豐富卻極易上手。從此,對軟件公司而言,客戶定制化報表需
求再也不用修改軟件源代碼;對企業(yè)IT部門而言,讓業(yè)務部門自
主設(shè)計所需報表的暢想變得可能。
嵌入式分析,滿足軟件項目的深度集成和OEM合作需要
幾乎可以將WynEnterprise的全部功能集成到您自己的軟件
產(chǎn)品中。對您的用戶而言,他們完全感覺不到我們的存在;對您的
技術(shù)人員而言,我們提供靜默安裝、軟件界面定制、單點登錄、報
表/儀表板的設(shè)計器和查看器的集成等開箱即用的功能,大大節(jié)省系
統(tǒng)集成所花的時間。
2.1大數(shù)據(jù)治理概念
大數(shù)據(jù)治理是指將大數(shù)據(jù)作為組織資產(chǎn)而展開的一系列的具體
化工作,是對大數(shù)據(jù)的全生命周期管理。
大數(shù)據(jù)治理體系是指從組織架構(gòu)、管理制度、操作規(guī)范、IT應
第6頁
用技術(shù)、績效考核支持等多個維度對組織的大數(shù)據(jù)模型、大數(shù)據(jù)架
構(gòu)、大數(shù)據(jù)質(zhì)量、大數(shù)據(jù)安全、大數(shù)據(jù)生命周期等各方面進行全面
的梳理、建設(shè)以及持續(xù)改進的體系。
2.2大數(shù)據(jù)治理目標
大數(shù)據(jù)治理的目標是提高大數(shù)據(jù)的質(zhì)量(準確性和完整性),保
證大數(shù)據(jù)的安全性(保密性、完整性及可用性),實現(xiàn)大數(shù)據(jù)資源在
各組織機構(gòu)部門的共享;推進信息資源的整合、對接和共享,從而
提升集團公司或政務單位信息化水平,充分發(fā)揮信息化作用。
2.3大數(shù)據(jù)治理模型
如圖1所示,大數(shù)據(jù)治理統(tǒng)一流程參考模型必要步驟分為兩個
方向:一條子線是在制定元數(shù)據(jù)管理策略和確立體系結(jié)構(gòu)的基礎(chǔ)上
實施全面的元數(shù)據(jù)管理,另一條子線是在定義業(yè)務問題、執(zhí)行成熟
度評估的基礎(chǔ)上定義數(shù)據(jù)治理路線圖以及定義數(shù)值治理相關(guān)的度量
值。在11個必要步驟的基礎(chǔ)上,企業(yè)可以在7個可選步驟中選擇一
個或多個途徑進行特定領(lǐng)域的數(shù)據(jù)治理,可選步驟為:主數(shù)據(jù)監(jiān)管、
(狹義)大數(shù)據(jù)監(jiān)管、信息單一視圖監(jiān)管、運營分析監(jiān)管、預測分
析監(jiān)管、管理安全與隱私以及監(jiān)管信息生命周期。企業(yè)需要定期對
大數(shù)據(jù)治理統(tǒng)一流程進行度量并將結(jié)果發(fā)送給主管級發(fā)起人。
第7頁
12.1)委海12.
國
義
大
12.2)大敷冬
成.曾理數(shù)
據(jù)
監(jiān)
實■
12.3)首
大K據(jù)管理
圖1大數(shù)據(jù)治理統(tǒng)一流程參考模型
第一步:明確元數(shù)據(jù)管理策略
在最開始的時候,元數(shù)據(jù)(MetaData)是指描述數(shù)據(jù)的數(shù)據(jù),
通常由信息結(jié)構(gòu)的描述組成,隨著技術(shù)的發(fā)展元數(shù)據(jù)內(nèi)涵有了非常
大的擴展,比如UML模型、數(shù)據(jù)交易規(guī)則、用Java,.NET,C++等編
寫的APIs、業(yè)務流程和工作流模型、產(chǎn)品配置描述和調(diào)優(yōu)參數(shù)以及
各種業(yè)務規(guī)則、術(shù)語和定義等[1]。在大數(shù)據(jù)時代,元數(shù)據(jù)還應該包
括對各種新數(shù)據(jù)類型的描述,如對位置、名字、用戶點擊次數(shù)、音
頻、視頻、圖片、各種無線感知設(shè)備數(shù)據(jù)和各種監(jiān)控設(shè)備數(shù)據(jù)等的
描述等。元數(shù)據(jù)通常分為業(yè)務元數(shù)據(jù)、技術(shù)元數(shù)據(jù)和操作元數(shù)據(jù)等。
第8頁
業(yè)務元數(shù)據(jù)主要包括業(yè)務規(guī)則、定義、術(shù)語、術(shù)語表、運算法則和
系統(tǒng)使用業(yè)務語言等,主要使用者是業(yè)務用戶。技術(shù)元數(shù)據(jù)主要用
來定義信息供應鏈(InformationSupplyChain,ISC)各類組成部
分元數(shù)據(jù)結(jié)構(gòu),具體包括各個系統(tǒng)表和字段結(jié)構(gòu)、屬性、出處、依
賴性等,以及存儲過程、函數(shù)、序列等各種對象。操作元數(shù)據(jù)是指
應用程序運行信息,比如其頻率、記錄數(shù)以及各個組件的分析和其
它統(tǒng)計信息等。
從整個企業(yè)層面來說,各種工具軟件和應用程序越來越復雜,
相互依存度逐年增加,相應的追蹤整個信息供應鏈各組件之間數(shù)據(jù)
流動、了解數(shù)據(jù)元素含義和上下文的需求越來越強烈。在從應用議
程往信息議程的轉(zhuǎn)變過程中,元數(shù)據(jù)管理也逐漸從局部存儲和管理
轉(zhuǎn)向共享。從總量上來看,整個企業(yè)的元數(shù)據(jù)越來越多,光現(xiàn)有的
數(shù)據(jù)模型中就包含了成千上萬的表,同時還有更多的模型等著上線,
同時隨著大數(shù)據(jù)時代的來臨,企業(yè)需要處理的數(shù)據(jù)類型越來越多。
為了企業(yè)更高效地運轉(zhuǎn),企業(yè)需要明確元數(shù)據(jù)管理策略和元數(shù)據(jù)集
成體系結(jié)構(gòu),依托成熟的方法論和工具實現(xiàn)元數(shù)據(jù)管理,并有步驟
的提升其元數(shù)據(jù)管理成熟度。
為了實現(xiàn)大數(shù)據(jù)治理,構(gòu)建智慧的分析洞察,企業(yè)需要實現(xiàn)貫
穿整個企業(yè)的元數(shù)據(jù)集成,建立完整且一致的元數(shù)據(jù)管理策略,該
策略不僅僅針對某個數(shù)據(jù)倉庫項目、業(yè)務分析項目、某個大數(shù)據(jù)項
第9頁
目或某個應用單獨制定一個管理策略,而是針對整個企業(yè)構(gòu)建完整
的管理策略。元數(shù)據(jù)管理策略也不是技術(shù)標準或某個軟件工具可以
取代的,無論軟件工具功能多強大都不能完全替代一個完整一致的
元數(shù)據(jù)管理策略,反而在定義元數(shù)據(jù)集成體系結(jié)構(gòu)以及選購元數(shù)據(jù)
管理工具之前需要定義元數(shù)據(jù)管理策略。
元數(shù)據(jù)管理策略需要明確企業(yè)元數(shù)據(jù)管理的愿景、目標、需求、
約束和策略等,依據(jù)企業(yè)自身當前以及未來的需要確定要實現(xiàn)的元
數(shù)據(jù)管理成熟度以及實現(xiàn)目標成熟度的路線圖,完成基礎(chǔ)本體、領(lǐng)
域本體、任務本體和應用本體的構(gòu)建,確定元數(shù)據(jù)管理的安全策略、
版本控制、元數(shù)據(jù)訂閱推送等。企業(yè)需要對業(yè)務術(shù)語、技術(shù)術(shù)語中
的敏感數(shù)據(jù)進行標記和分類,制定相應的數(shù)據(jù)隱私保護政策,確保
企業(yè)在隱私保護方面符合當?shù)仉[私方面的法律法規(guī),如果企業(yè)有跨
國數(shù)據(jù)交換、元數(shù)據(jù)交換的需求,也要遵循涉及國家的法律法規(guī)要
求。企業(yè)需要保證每個元數(shù)據(jù)元素在信息供應鏈中每個組件中語義
上保持一致,也就是語義等效(semanticequivalence)。語義等效
可以強也可以弱,在一個元數(shù)據(jù)集成方案中,語義等效(平均)越
強則整個方案的效率越高。語義等效的強弱程度直接影響元數(shù)據(jù)的
共享和重用。
本體(人工智能和計算機科學)
本體(Ontology)源自哲學本體論,而哲學本體論則是源自哲
第10頁
學中“形而上學”分支。本體有時也被翻譯成本體論,在人工智能
和計算機科學領(lǐng)域本體最早源于上世紀70年代中期,隨著人工智能
的發(fā)展人們發(fā)現(xiàn)知識的獲取是構(gòu)建強大人工智能系統(tǒng)的關(guān)鍵,于是
開始將新的本體創(chuàng)建為計算機模型從而實現(xiàn)特定類型的自動化推理。
之后到了上世紀80年代,人工智能領(lǐng)域開始使用本體表示模型化時
間的一種理論以及知識系統(tǒng)的一種組件,認為本體(人工智能)是
一種應用哲學。
最早的本體(人工智能和計算機科學)定義是Neches等人在
1991給出的:“一個本體定義了組成主題領(lǐng)域的詞匯的基本術(shù)語和
關(guān)系,以及用于組合術(shù)語和關(guān)系以及定義詞匯外延的規(guī)則”。而第
一次被業(yè)界廣泛接受的本體定義出自TomGruber,其在1993年提
出:“本體是概念化的顯式的表示(規(guī)格說明)"。Borst在1997
年對TomGruber的本體定義做了進一步的擴展,認為:“本體是共
享的、概念化的一個形式的規(guī)范說明”。在前人的基礎(chǔ)上,Stude在
1998年進一步擴展了本體的定義,這也是今天被廣泛接受的一個定
義:“本體是共享概念模型的明確形式化規(guī)范說明”。本體提供一
個共享詞匯表,可以用來對一個領(lǐng)域建模,具體包括那些存在的對
象或概念的類型、以及他們的屬性和關(guān)系[2]。一個簡單的本體示例
發(fā)票概念及其相互關(guān)系所構(gòu)成的語義網(wǎng)絡如圖2所示:
第11頁
郵電通訊業(yè)定額發(fā)票
(卷式)/
、濟在城市所住城市
濟南市/
圖2簡單本體(發(fā)票)示例
隨著時間的推移和技術(shù)的發(fā)展,本體從最開始的人工智能領(lǐng)域
逐漸擴展到圖書館學、情報學、軟件工程、信息架構(gòu)、生物醫(yī)學和
信息學等越來越多的學科。與哲學本體論類似,本體(人工智能和
計算機科學)依賴某種類別體系來表達實體、概念、事件及其屬性
和關(guān)系。本體的核心是知識共享和重用,通過減少特定領(lǐng)域內(nèi)概念
或術(shù)語上的分歧,使不同的用戶之間可以順暢的溝通和交流并保持
語義等效性,同時讓不同的工具軟件和應用系統(tǒng)之間實現(xiàn)互操作。
根據(jù)研究層次可以將本體的種類劃分為“頂級本體”(top-
levelontology應用本體(applicationontology),領(lǐng)域本體
(domainontology)和任務本體(taskontology),各個種類之間
第12頁
的層次關(guān)系如圖3所示。
圖3本體層次關(guān)系
頂級本體,也被稱為上層本體(upperontology)或基礎(chǔ)本體
(foundationontology),是指獨立于具體的問題或領(lǐng)域,在所有
領(lǐng)域都適用的共同對象或概念所構(gòu)成的模型,主要用來描述高級別
且通用的概念以及概念之間的關(guān)系。
領(lǐng)域本體是指對某個特定的領(lǐng)域建模,顯式的實現(xiàn)對領(lǐng)域的定
義,確定該領(lǐng)域內(nèi)共同認可的詞匯、詞匯業(yè)務含義和對應的信息資
產(chǎn)等,提供對該領(lǐng)域知識的共同理解。領(lǐng)域本體所表達的是適合自
己領(lǐng)域的術(shù)語的特定含義,缺乏兼容性,因而在其他領(lǐng)域往往不適
用。在同一領(lǐng)域內(nèi),由于文化背景、語言差異、受教育程度或意識
形態(tài)的差異,也可能會出現(xiàn)不同的本體。很多時候,隨著依賴領(lǐng)域
本體系統(tǒng)的擴展,需要將不同的領(lǐng)域本體合并為更通用的規(guī)范說明,
對并非基于同一頂級本體所構(gòu)建的本體進行合并是一項非常具有挑
戰(zhàn)的任務,很多時候需要靠手工來完成,相反,對那些基于同一頂
第13頁
級本體構(gòu)建的領(lǐng)域本體可以實現(xiàn)自動化的合并。
任務本體是針對任務元素及其之間關(guān)系的規(guī)范說明或詳細說明,
用來解釋任務存在的條件以及可以被用在哪些領(lǐng)域或環(huán)境中。是一
個通用術(shù)語的集合用來描述關(guān)于任務的定義和概念等。
應用本體:描述依賴于特定領(lǐng)域和任務的概念及概念之間的關(guān)
系,是用于特定應用或用途的本體,其范疇可以通過可測試的用例
來指定。
從詳細程度上來分,本體又可以分為參考本體(reference
ontologies)和共享本體(shareontologies),參考本體的詳細程
度高,而共享本體的詳細程度低。
本體(哲學)
哲學中的本體(ontology)也被稱為存在論,源自哲學中“形
而上學”分支,主要探討存在的本質(zhì),也就是存在的存在。英文
ontology實際上就是來源于希臘文“。v”(存在)和“入6Y。q”
(學科)的組合。本體是由早期希臘哲學在公元前6世紀到公元前
4世紀提出的“始基”延伸出來的。始基(Principle,又稱本原)
最早由泰勒斯(米利都學派)最早提出來,認為萬物由水而生,其
學生阿那克西曼德認為萬物由一種簡單的原質(zhì)組成,該原質(zhì)不是水
:3]o而畢達哥拉斯(學派)認為“萬物都是數(shù)”,數(shù)不僅被看作萬
物的本原,而且被看作萬物的原型、世界的本體。后來巴門尼德(愛
第14頁
利亞學派)提出了“存在”的概念,認為存在才是唯一真正存在的
真理,其創(chuàng)造了一種形而上學論證方式,之后的哲學一直到近時期
為止,都從巴門尼德處接受了其“實體的不可毀滅性”。蘇格拉底
繼承了巴門尼德的存在概念,主張“真正的善”并完善了巴門尼德
弟子芝諾的辯證法,其學生柏拉圖提出了“理念論”,認為只要若
干個個體擁有一個共同的名字,它們就有一個共同的理念或形式。
亞里士多德(柏拉圖學生)總結(jié)了先哲們的思想,完成了《形而上
學》,并將本體總結(jié)為:對世界上客觀存在事物的系統(tǒng)的描述,即存
在論,也就是最形而上學的知識。形而上學不是指孤立、靜止之類
的意思,而是指超越具體形態(tài)的抽象意思,是關(guān)于物質(zhì)世界最普遍
的、最一般的、最不具體的規(guī)律的學問。
第二步:元數(shù)據(jù)集成體系結(jié)構(gòu)
在明確了元數(shù)據(jù)管理策略后需要確定實現(xiàn)該管理策略所需的技
術(shù)體系結(jié)構(gòu),即元數(shù)據(jù)集成體系結(jié)構(gòu)。各個企業(yè)的元數(shù)據(jù)管理策略
和元數(shù)據(jù)管理成熟度差別較大,因此元數(shù)據(jù)集成體系結(jié)構(gòu)也多種多
樣。大體上元數(shù)據(jù)集成體系結(jié)構(gòu)可以分為點對點的元數(shù)據(jù)集成體系
結(jié)構(gòu)、中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)、基于CWM(CommonWarehouse
MetaModel,公共倉庫元模型)模型驅(qū)動的點對點元數(shù)據(jù)集成體系
結(jié)構(gòu)、基于CWM模型驅(qū)動的中央存儲庫元數(shù)據(jù)集成體系結(jié)構(gòu)、分布
式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)
第15頁
等。
針對信息供應鏈中不同的組件,為了實現(xiàn)跨組件的元數(shù)據(jù)交換
和集成,最開始人們采用點對點的方式進行,也就是每一對組件之
間通過一個獨立的元數(shù)據(jù)橋(metadatabridge)進行元數(shù)據(jù)交換,
橋一般是雙向的能夠理解兩個方向的元數(shù)據(jù)映射[4]。點對點的元數(shù)
據(jù)集成體系結(jié)構(gòu)幫助用戶實現(xiàn)了跨企業(yè)的元數(shù)據(jù)集成和元數(shù)據(jù)交換,
對提升信息化水平提供了巨大幫助。這種體系結(jié)構(gòu)在應用過程中,
也暴露了很多問題,比如元數(shù)據(jù)橋的構(gòu)建工作量和耗時都非常大,
對中間件廠商、應用廠商、集成商和用戶來說都是一個巨大的挑戰(zhàn),
而且構(gòu)建元數(shù)據(jù)橋還必須具有所有者的元數(shù)據(jù)模型和接口的詳細信
息。構(gòu)建完成的橋很多時候無法在構(gòu)建其他元數(shù)據(jù)橋時進行重用,
因此開發(fā)和維護費用大幅度增加,用戶投資回報率(ROD不高。以
動態(tài)數(shù)據(jù)倉庫為例,其點對點的元數(shù)據(jù)集成體系結(jié)構(gòu)具體如圖4所
示,信息供應鏈各組件之間的空心箭頭表示全部的數(shù)據(jù)流,實心箭
頭表示不同的元數(shù)據(jù)橋和與之關(guān)聯(lián)的元數(shù)據(jù)流。
第16頁
<5=4><?e>o=^>0mme>
Bridges
圖4點對點的元數(shù)據(jù)集成體系結(jié)構(gòu)
通過使用中央元數(shù)據(jù)存儲庫(centralmetadatarepository)
取代各個工具軟件和應用程序之間的點對點連接方式,改成中央元
數(shù)據(jù)存儲庫與各個工具軟件和應用程序?qū)崿F(xiàn)元數(shù)據(jù)交換的訪問層
(也是一種橋),可以有效降低總成本,減少建立點對點元數(shù)據(jù)橋的
工作,提高投資回報率。信息供應鏈各組件可以從存儲庫訪問元數(shù)
據(jù),不必與其他產(chǎn)品進行點對點交互。這種使用中央元數(shù)據(jù)存儲庫
方式進行元數(shù)據(jù)集成的方式就是中央輻射式元數(shù)據(jù)體系結(jié)構(gòu)(hub-
and-spokemetadataarchitecture),具體如圖5所示。由于特定
的元數(shù)據(jù)存儲庫是圍繞其自身的元模型、接口和交付服務建立的,
所以仍需要建立元數(shù)據(jù)橋?qū)崿F(xiàn)與ISC各組件的互相訪問。
第17頁
采用模型驅(qū)動的元數(shù)據(jù)集成方法(比如使用CWM)可以有效降
低元數(shù)據(jù)集成的成本和復雜度,無論點對點元數(shù)據(jù)集成體系結(jié)構(gòu)還
是中央輻射式元數(shù)據(jù)集成體系結(jié)構(gòu)都可以因此受益。在點對點體系
結(jié)構(gòu)中,通過使用基于模型的方法可以不必在每一對需要集成的產(chǎn)
品之間構(gòu)建元數(shù)據(jù)橋,每個產(chǎn)品只需要提供一個適配器(adapter)
即可實現(xiàn)各個產(chǎn)品之間的元數(shù)據(jù)交換,適配器既了解公共的元模型
也了解本產(chǎn)品元模型的內(nèi)部實現(xiàn)。如圖6所示,基于CWM模型驅(qū)動
點對點元數(shù)據(jù)集成體系結(jié)構(gòu)使用通用元模型,不再需要在各個產(chǎn)品
間建立元數(shù)據(jù)橋,在各個產(chǎn)品之間通過適配器實現(xiàn)了語義等價性。
第18頁
圖6基于CWM模型驅(qū)動的點對點元數(shù)據(jù)集成體系結(jié)構(gòu)
如圖7所示,在基于模型驅(qū)動(比如CWM)的中央輻射式元數(shù)
據(jù)體系結(jié)構(gòu)中,中央存儲庫包含公共元模型和整個領(lǐng)域(domain)
用到的該元模型的各個實例(模型)、存儲庫自身元模型及其實例、
理解元模型(公共元模型和自身元模型)的適配器層,當然存儲庫
也可以直接實現(xiàn)公共元模型的某些內(nèi)部表示。
第19頁
圖7基于CWM模型驅(qū)動的中央存儲庫元數(shù)據(jù)集成體系結(jié)構(gòu)
如圖8所示,這種體系架構(gòu)是基于CWM模型驅(qū)動的中央存儲庫
元數(shù)據(jù)集成體系結(jié)構(gòu)的一個變種,兩個中央輻射式的拓撲結(jié)構(gòu)通過
各自的元數(shù)據(jù)存儲庫連接起來,也被稱為分布式(Distributed)或
聯(lián)邦(Federated)體系結(jié)構(gòu)。兩個元數(shù)據(jù)存儲庫之間通過元數(shù)據(jù)橋
連接,兩個存儲庫使用相同的元模型和接口,也可以使用不同的元
模型和接口。建立分布式元數(shù)據(jù)集成體系結(jié)構(gòu)的原因有很多種,比
如企業(yè)基于多個區(qū)域單獨部署自己的應用,每個區(qū)域有自己的數(shù)據(jù)
中心。
第20頁
<
CWM兀數(shù)據(jù)交換(基于
XYL或標準APIUI用)
圖8分布式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)
如圖9所示,這種體系結(jié)構(gòu)是分布式體系結(jié)構(gòu)的變體,根存儲
庫實現(xiàn)了元模型的公共部分(橫跨整個企業(yè)),葉子存儲庫實現(xiàn)了一
個或多個特定的公共元模型子集,并只保存這些自己所對應的元數(shù)
第21頁
據(jù)實例。特定客戶可以主要訪問其感興趣的元數(shù)據(jù)所在的葉子存儲
庫,也可以訪問其它葉子存儲庫和根存儲庫。這種體系結(jié)構(gòu)被稱為
結(jié)束語
本文詳細介紹了大數(shù)據(jù)治理的基本概念和統(tǒng)一流程參考模型,
并闡述了該模型的第一步“明確元數(shù)據(jù)管理策略”和第二步“元數(shù)
據(jù)集成體系結(jié)構(gòu)”等內(nèi)容。在第一步“明確元數(shù)據(jù)管理策略”中講
述了元數(shù)據(jù)的基本概念以及本體在人工智能/計算機科學和哲學中
的含義。在第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”講述了元數(shù)據(jù)集成體系
結(jié)構(gòu)的六種示例,分別為:點對點的元數(shù)據(jù)集成體系結(jié)構(gòu)、中央輻
射式元數(shù)據(jù)體系結(jié)構(gòu)、基于CWM模型驅(qū)動的點對點元數(shù)據(jù)集成體系
結(jié)構(gòu)、基于C恤模型驅(qū)動的中央存儲庫元數(shù)據(jù)集成體系結(jié)構(gòu)、分布
式(聯(lián)邦式)元數(shù)據(jù)集成體系結(jié)構(gòu)和層次/星型元數(shù)據(jù)集成體系結(jié)構(gòu)。
第22頁
在本系列文章的下一部分將繼續(xù)介紹大數(shù)據(jù)治理統(tǒng)一流程參考模型
第二步“元數(shù)據(jù)集成體系結(jié)構(gòu)”,具體包括元模型、元-元模型、公
共倉庫元模型(CWM)、CWM發(fā)展史、OMG的模型驅(qū)動體系結(jié)構(gòu)
(ModelDrivenArchitecture,MDA)O
3.大數(shù)據(jù)治理體系
大數(shù)據(jù)治理體系包含兩個方面,一是大數(shù)據(jù)質(zhì)量核心領(lǐng)域,二
是大數(shù)據(jù)質(zhì)量保障機制。
制度章程組織
?規(guī)章制度?組織架構(gòu)
?管控辦法?組織層次
?考核機制?組織職責
數(shù)
據(jù)
主數(shù)
據(jù)
數(shù)
安
據(jù)
全
標
數(shù)據(jù)
準
元
通過靈活的數(shù)據(jù)交互和探索分析能力,以及OEM白標集成
第23頁
的方式,全面滿足行業(yè)應用軟件的數(shù)據(jù)分析需求。它提供多源數(shù)
據(jù)整合、報表統(tǒng)計、數(shù)據(jù)可視化、自助式BI分析、以及數(shù)據(jù)填
報等功能,幫助用戶挖掘數(shù)據(jù)的潛在價值,為管理者制定決策提
供數(shù)據(jù)支撐。
整體應用流程:
3.1數(shù)據(jù)連接
通過數(shù)據(jù)連接引擎建立與Oracle、Mysql.SqlServer等各
種關(guān)系型數(shù)據(jù)庫、API、ODBC或者Excel、JSON、XML等數(shù)據(jù)文件
等不同來源的數(shù)據(jù)連接,支持跨源,用于數(shù)據(jù)建模。
3.2數(shù)據(jù)建模
將填報采集的數(shù)據(jù)和已有業(yè)務系統(tǒng)如OA、ERP、CRM數(shù)據(jù)庫
的數(shù)據(jù),通過可視化數(shù)據(jù)模型設(shè)計器或者自定義SQL數(shù)據(jù)集,建
立多表關(guān)聯(lián)模型,并對模型進行字段重命名、二次計算、分組計
第24頁
算等操作,添加參數(shù)及篩選過濾,形成最終用于設(shè)計報表和儀表
板的數(shù)據(jù)集。
3.3統(tǒng)計報表
為業(yè)務層的日常運營提供必備的明細報表,以滿足數(shù)據(jù)查詢、
報表打印等需要。包括典型的Excel類中國式復雜報表、合同文
檔類報表、分組報表、明細報表、圖表、分欄報表等各種報表類
型。
3.4決策儀表板
以高度交互與自由數(shù)據(jù)探索的管理看板為基礎(chǔ),輔助決策的
制定。通過靈活自由的布局頁面,拖拽可視化組件,綁定數(shù)據(jù),
生成儀表板。瀏覽者在查看時,可以通過條件過濾、條件格式化、
排序、圖表切換、調(diào)整數(shù)據(jù)綁定等組件,多維自由的從不同視角
進行數(shù)據(jù)分析。儀表板自帶的聯(lián)動和鉆取分析,深入探查數(shù)據(jù)背
后的原因。指導管理層科學決策。
3.5數(shù)據(jù)大屏
通過可視化大屏,對企業(yè)綜合信息進行展示,滿足企業(yè)內(nèi)、
外部信息共享與交流的需要。通過各種酷炫的可視化組件,將企
業(yè)核心經(jīng)營指標、KPI指標、綜合管控指標等直觀的展示到總經(jīng)
第25頁
理辦公室、會議室或者會客大廳等,方便管理層掌握企業(yè)經(jīng)營情
況。
4.大數(shù)據(jù)治理核心領(lǐng)域
為了有效管理信息資源,必須構(gòu)集團級大數(shù)據(jù)治理體系。大數(shù)
據(jù)治理體系包含大數(shù)據(jù)治理組織、大數(shù)據(jù)構(gòu)架管理、主大數(shù)據(jù)治理
平臺、大數(shù)據(jù)質(zhì)量管理、大數(shù)據(jù)服務管理及大數(shù)據(jù)安全管理內(nèi)容,
這些內(nèi)容既有機結(jié)合,又相互支撐。
4.1大數(shù)據(jù)模型
大數(shù)據(jù)模型是大數(shù)據(jù)構(gòu)架中重要一部分,包括概念大數(shù)據(jù)模型
和邏輯大數(shù)據(jù)模型,是大數(shù)據(jù)治理的關(guān)鍵、重點。理想的大數(shù)據(jù)模
型應該具有非冗余、穩(wěn)定、一致、易用等特征。邏輯大數(shù)據(jù)模型能
涵蓋整個集團的業(yè)務范圍,以一種清晰的表達方式記錄跟蹤集團單
位的重要大數(shù)據(jù)元素及其變動,并利用它們之間各種可能的限制條
件和關(guān)系來表達重要的業(yè)務規(guī)則。大數(shù)據(jù)模型必須在設(shè)計過程中保
持統(tǒng)一的業(yè)務定義。為了滿足將來不同的應用分析需要,邏輯大數(shù)
據(jù)模型的設(shè)計應該能夠支持最小粒度的詳細大數(shù)據(jù)的存儲,以支持
各種可能的分析查詢。同時保障邏輯大數(shù)據(jù)模型能夠最大程度上減
少冗余,并保障結(jié)構(gòu)具有足夠的靈活性和擴展性
第26頁
4.2大數(shù)據(jù)生命周期
一般包括大數(shù)據(jù)生成及傳輸、大數(shù)據(jù)存儲、大數(shù)據(jù)處理及應用、
大數(shù)據(jù)銷毀四個方面。
(1)大數(shù)據(jù)生成及傳輸
大數(shù)據(jù)應該能夠按照大數(shù)據(jù)質(zhì)量標準和發(fā)展需要產(chǎn)生,應采取
措施保證大數(shù)據(jù)的準確性和完整性,業(yè)務系統(tǒng)上線前應該進行必要
的安全測試,以保證上述措施的有效性。對于手工流程中產(chǎn)生的大
數(shù)據(jù)在相關(guān)制度中明確要求,并通過事中復核、事后檢查等手段保
證其準確性和完整性。大數(shù)據(jù)傳輸過程中需要考慮保密性和完整性
的問題,對不同種類的大數(shù)據(jù)分別采取不同的措施防止大數(shù)據(jù)泄漏
或大數(shù)據(jù)被篡改。
(2)大數(shù)據(jù)存儲
這個階段除了關(guān)注保密性、完整性之外,更要關(guān)心大數(shù)據(jù)的可
用性,對于大部分大數(shù)據(jù)應采取分級存儲的方式,不僅存儲在本地
磁盤上,還應該在磁帶上,甚至遠程復制到磁盤陣列中,或者采用
光盤庫進行存儲。對于存儲備份的大數(shù)據(jù)要定期進行測試,確保其
可訪問其大數(shù)據(jù)完整。大數(shù)據(jù)的備份恢復策略應該由大數(shù)據(jù)的責任
部門或責任人負責制定,信息化管理部門可以給予相應的支持。同
時還需要注意因為部門需要或故障處理的需要,可能對大數(shù)據(jù)進行
修改,必須在大數(shù)據(jù)治理平臺辦法中明確大數(shù)據(jù)修改的申請審批流
第27頁
程,審慎對待后臺大數(shù)據(jù)修改。
(3)大數(shù)據(jù)處理和應用
信息化相關(guān)部門需要對大數(shù)據(jù)進行分析處理,以挖掘出對于管
理及業(yè)務開展有價值的信息,為保證過程中大數(shù)據(jù)的安全性,一般
應采用聯(lián)機處理,系統(tǒng)只輸出分析處理的結(jié)果。但是實際中,因為
相關(guān)大數(shù)據(jù)分析系統(tǒng)建設(shè)不到位,需要從大數(shù)據(jù)庫中提取大數(shù)據(jù)后
再對大數(shù)據(jù)進行必要的分析處理,在這個過程中就需要關(guān)注大數(shù)據(jù)
提取操作是否可能對大數(shù)據(jù)庫造成破壞、提取出的大數(shù)據(jù)在交付給
分析處理人員的過程中其安全性是否會降低、大數(shù)據(jù)分析處理的環(huán)
境安全性等等。
(4)大數(shù)據(jù)銷毀
這個階段主要涉及大數(shù)據(jù)的保密性。應明確大數(shù)據(jù)銷毀的流程,
采用必要的工具,大數(shù)據(jù)的銷毀應該有完整的記錄。尤其是對于需
要送出外部修理的存儲設(shè)備,送修之前應該對大數(shù)據(jù)進行可靠的銷
毀。
4.3大數(shù)據(jù)標準
大數(shù)據(jù)標準是集團單位建立的一套符合自身實際,涵蓋定義、
操作、應用多層次大數(shù)據(jù)的標準化體系。
大數(shù)據(jù)標準的建立是集團單位信息化、數(shù)字化建設(shè)的一項重要
工作,行業(yè)的各類大數(shù)據(jù)必須遵循一個統(tǒng)一的標準進行組織,才能
第28頁
構(gòu)成一個可流通、可共享的信息平臺。
大數(shù)據(jù)治理對標準的需求可以劃分為兩類,即基礎(chǔ)性標準和應
用性標準。前者主要用于在不同系統(tǒng)間,形成信息的一致理解和統(tǒng)
一的坐標參照系統(tǒng),是信息匯集、交換以及應用的基礎(chǔ),包括大數(shù)
據(jù)分類與編碼、大數(shù)據(jù)字典、數(shù)字地圖標準;后者是為平臺功能發(fā)
揮所涉及的各個環(huán)節(jié),提供一定的標準規(guī)范,以保證信息的高效匯
集和交換,包括元大數(shù)據(jù)標準、大數(shù)據(jù)交換技術(shù)規(guī)范、大數(shù)據(jù)傳輸
協(xié)議、大數(shù)據(jù)質(zhì)量標準等。
(1)大數(shù)據(jù)分類與編碼
大數(shù)據(jù)分類與編碼標準是信息化建設(shè)中標準化的一項基礎(chǔ)工作,
該類標準規(guī)定平臺匯集、交換相關(guān)信息統(tǒng)一的分類系統(tǒng)和排列順序
以及編碼規(guī)則,目的是在不同系統(tǒng)和用戶之間建立交通大數(shù)據(jù)的一
致參照,對提高大數(shù)據(jù)采集、處理和大數(shù)據(jù)交換效率具有重要作用。
大數(shù)據(jù)分類與編碼標準的制定將有力推進平臺標準化及交通信息化
建設(shè)標準化的進程。
(2)大數(shù)據(jù)字典
針對實際需求,定義大數(shù)據(jù)集,建立各個領(lǐng)域的大數(shù)據(jù)字典,
規(guī)范大數(shù)據(jù)概念和大數(shù)據(jù)定義。在此基礎(chǔ)上,形成完備的集團單位
大數(shù)據(jù)集和大數(shù)據(jù)字典。
(3)元大數(shù)據(jù)標準
第29頁
元大數(shù)據(jù)標準是描述大數(shù)據(jù)資源的具體對象時所有規(guī)則的集合,
它包括了完整描述一個具體大數(shù)據(jù)對象時所需要的大數(shù)據(jù)項集合。
針對各種信息資源分別制定適當?shù)脑髷?shù)據(jù)標準,可為信息的管理、
發(fā)現(xiàn)和獲取提供一種實際而簡便的方法,從而提高大數(shù)據(jù)交換效率。
(4)大數(shù)據(jù)交換標準
為了保證大數(shù)據(jù)共享和交換的順利實現(xiàn),必須明確定義和規(guī)范
大數(shù)據(jù)交換的相關(guān)標準。大數(shù)據(jù)交換的標準規(guī)范是集團單位綜合信
息平臺的核心標準。其中應當包括大數(shù)據(jù)交換內(nèi)容、大數(shù)據(jù)交換格
式、大數(shù)據(jù)傳輸方式、各類中心間大數(shù)據(jù)接口的標準化等方面。
(5)大數(shù)據(jù)質(zhì)量標準
由于大數(shù)據(jù)采集任務通常由其他二級平臺完成,大數(shù)據(jù)治理平
臺的標準方法主要集中在大數(shù)據(jù)的加工和管理上。應該重點開發(fā)的
一個領(lǐng)域是大數(shù)據(jù)質(zhì)量控制方法。應當從三個方面對大數(shù)據(jù)質(zhì)量方
法進行研究:“壞大數(shù)據(jù)”或“不可靠大數(shù)據(jù)”的識別,錯誤大數(shù)
據(jù)的編輯方法,以及缺少值的處理。
4.4主大數(shù)據(jù)
主大數(shù)據(jù)治理平臺要做的就是從各部門的多個業(yè)務系統(tǒng)中整合
最核心的、最需要共享的大數(shù)據(jù)(主大數(shù)據(jù)),集中進行大數(shù)據(jù)的清
洗和豐富,并且以服務的方式把統(tǒng)一的、完整的、準確的、具有權(quán)
威性的主大數(shù)據(jù)傳送給集團單位范圍內(nèi)需要使用這些大數(shù)據(jù)的操作
第30頁
型應用系統(tǒng)和分析型應用系統(tǒng)。
主大數(shù)據(jù)治理平臺的信息流應為:
1)某個業(yè)務系統(tǒng)觸發(fā)對主大數(shù)據(jù)的改動;
2)主大數(shù)據(jù)治理平臺系統(tǒng)將整合之后完整、準確的主大數(shù)據(jù)傳
送給所有有關(guān)的應用系統(tǒng)
3)主大數(shù)據(jù)治理平臺系統(tǒng)為決策支持和大數(shù)據(jù)倉庫系統(tǒng)提供
準確的大數(shù)據(jù)源。
因此對于主大數(shù)據(jù)治理平臺要考慮運用主大數(shù)據(jù)治理平臺系統(tǒng)
實現(xiàn),主大數(shù)據(jù)治理平臺系統(tǒng)的建設(shè),要從建設(shè)初期就考慮整體的
平臺框架和技術(shù)實現(xiàn)。
4.5大數(shù)據(jù)質(zhì)量
大數(shù)據(jù)質(zhì)量不高將影響大數(shù)據(jù)倉庫應用程度不高。低下的大數(shù)
據(jù)質(zhì)量往往造成開發(fā)出來的系統(tǒng)與用戶的預期大相徑庭,大數(shù)據(jù)質(zhì)
量關(guān)系建設(shè)有關(guān)分析型信息系統(tǒng)成敗,同時大數(shù)據(jù)資源是集團單位
的戰(zhàn)略資源,合理有效的使用正確的大數(shù)據(jù)能指導集團單位做出正
確的決策,提高省綜合競爭力。不合理的使用不正確的大數(shù)據(jù)(即
差的大數(shù)據(jù)質(zhì)量)可導致決策的失敗,正可謂差之毫厘、謬以千里。
大數(shù)據(jù)質(zhì)量管理包含對大數(shù)據(jù)的絕對質(zhì)量管理、過程質(zhì)量管理。
絕對質(zhì)量即大數(shù)據(jù)的真實性、完備性、自治性是大數(shù)據(jù)本身應具有
的屬性。過程質(zhì)量即使用質(zhì)量、存儲質(zhì)量和傳輸質(zhì)量,大數(shù)據(jù)的使
第31頁
用質(zhì)量是指大數(shù)據(jù)被正確的使用。再正確的大數(shù)據(jù),如果被錯誤的
使用,就不可能得出正確的結(jié)論。大數(shù)據(jù)的存貯質(zhì)量指大數(shù)據(jù)被安
全的存貯在適當?shù)慕橘|(zhì)上。所謂存貯在適當?shù)慕橘|(zhì)上是指當需要大
數(shù)據(jù)的時候能及時方便的取出。大數(shù)據(jù)的傳輸質(zhì)量是指大數(shù)據(jù)在傳
輸過程中的效率和正確性。
高質(zhì)量的交通運輸行業(yè)大數(shù)據(jù)至少有如下幾項要求:
一是正確性,在轉(zhuǎn)換、分析、存儲、傳輸、應用流程中不存在
錯誤;
二是完整性,大數(shù)據(jù)庫應用或要求的所有記錄、字段都存在;
三是一致性,體現(xiàn)在整個大數(shù)據(jù)庫的定義和維護方面,確保大
數(shù)據(jù)在使用的整個過程中是一致的;
四是時效性,衡量指標是在指定的大數(shù)據(jù)與真實的業(yè)務情況同
步的時間容忍度內(nèi),即指定的更新頻度內(nèi),及時被刷新的大數(shù)據(jù)的
百分比;
五是可靠性,提供大數(shù)據(jù)的大數(shù)據(jù)源必須能夠可靠穩(wěn)定地提供
大數(shù)據(jù)。
大數(shù)據(jù)質(zhì)量管理的規(guī)劃和實施包括以下內(nèi)容:
一是大數(shù)據(jù)質(zhì)量管控體系的建立,包括大數(shù)據(jù)質(zhì)量的評估體系,
定期評估大數(shù)據(jù)質(zhì)量狀況;
二是在部門各個應用系統(tǒng)中的落實,包括每個應用系統(tǒng)中的大
第32頁
數(shù)據(jù)質(zhì)量檢查等;
三是在最開始建立大數(shù)據(jù)質(zhì)量管理系統(tǒng)的時候,借助大數(shù)據(jù)治
理平臺上,通過建立大數(shù)據(jù)質(zhì)量管理的規(guī)則來集中化地建立大數(shù)據(jù)
質(zhì)量管理系統(tǒng),發(fā)現(xiàn)問題并持續(xù)改進;
四是大數(shù)據(jù)質(zhì)量管理與業(yè)務稽核的結(jié)合,通過業(yè)務規(guī)則的稽核
來發(fā)現(xiàn)大數(shù)據(jù)質(zhì)量深層次的問題,將大數(shù)據(jù)質(zhì)量與業(yè)務一線結(jié)合起
來,使業(yè)務人員對大數(shù)據(jù)質(zhì)量問題有更加清晰和明確的認識。
完善的大數(shù)據(jù)質(zhì)量管理是保障各項大數(shù)據(jù)治理工作能夠得到有
效落實,達到大數(shù)據(jù)準確、完整的目標,并能夠提供有效的增值服
務的重要基礎(chǔ)。
4.6大數(shù)據(jù)服務
大數(shù)據(jù)整理最終目的就是要服務于各部門單位、人員等,能更
準確更快更方便的服務是大數(shù)據(jù)服務管理的目標。
大數(shù)據(jù)服務管理是指針對內(nèi)部積累多年的大數(shù)據(jù),研究如何能
夠充分利用這些大數(shù)據(jù),分析行業(yè)業(yè)務流程優(yōu)化業(yè)務流程。大數(shù)據(jù)
使用的方式通常包括對大數(shù)據(jù)的深度加工和分析,包括通過各種報
表、工具來分析運營層面的問題,還包括通過大數(shù)據(jù)挖掘等工具對
大數(shù)據(jù)進行深度加工,從而更好的管理者服務。通過建立統(tǒng)一的大
數(shù)據(jù)服務平臺來滿足針對跨部門、跨系統(tǒng)的大數(shù)據(jù)應用。通過統(tǒng)一
的大數(shù)據(jù)服務平臺來統(tǒng)一大數(shù)據(jù)源,變多源為單源,加快大數(shù)據(jù)流
第33頁
轉(zhuǎn)速度,提升大數(shù)據(jù)服務的效率。
4.7大數(shù)據(jù)安全
由于集團單位的重要且敏感信息大部分集中在應用系統(tǒng)中,大
數(shù)據(jù)安全更是至關(guān)重要。如何保障大數(shù)據(jù)不被泄露和非法訪問,是
非常關(guān)鍵的問題。大數(shù)據(jù)安全管理主要解決的就是大數(shù)據(jù)在保存、
使用和交換過程中的安全問題。
大數(shù)據(jù)安全管理主要體現(xiàn)在以下六個方面:
一是大數(shù)據(jù)使用的安全性,包括基礎(chǔ)大數(shù)據(jù)的保存、訪問和權(quán)
限管理;
二是大數(shù)據(jù)隱私問題,系統(tǒng)中采集的證件號碼、銀行賬號等信
息在下游分析系統(tǒng)和內(nèi)部管理系統(tǒng)中,是否要進行加密,以避免大
數(shù)據(jù)被非法訪問;
三是訪問權(quán)限統(tǒng)一管理,包括單點登錄問題及用戶名、大數(shù)據(jù)
和應用的訪問授權(quán)統(tǒng)一管理;
四是大數(shù)據(jù)安全審計,為大數(shù)據(jù)修改、使用等環(huán)節(jié)設(shè)置審計方
法,事后進行審計和責任追究;
五是制度及流程建立,逐步建立大數(shù)據(jù)安全性的管理辦法、系
統(tǒng)開發(fā)規(guī)范、大數(shù)據(jù)隱私管理辦法及相應的應用系統(tǒng)規(guī)范、在管理
決策和分析類系統(tǒng)中的審計管理辦法等;
六是應用系統(tǒng)權(quán)限的訪問控制,建立集團級權(quán)限管理系統(tǒng),增
第34頁
加數(shù)字水印等技術(shù)在應用系統(tǒng)中的使用。
5.大數(shù)據(jù)治理保障機制
5.1制度章程
5.1.1規(guī)章制度
大數(shù)據(jù)治理章程類似于企業(yè)的公司條例。該章程闡明大數(shù)據(jù)治
理的主要目標、相關(guān)工作人員、職責、決策權(quán)利和度量標準。
具體可參見附件大數(shù)據(jù)治理平臺規(guī)范
5.1.2管控辦法
管控辦法是基于規(guī)章制度與工具的結(jié)合,可落地的操作的辦法。
具體可參見附件大數(shù)據(jù)質(zhì)量評估辦法
5.1.3考核機制
考核是是保障制度落實的根本,建立明確的考核制度,實際操
作中可根據(jù)集團單位情況,建立相應的針對大數(shù)據(jù)治理方面的考核
辦法,并與個人績效相關(guān)聯(lián)??蓞⒖脊芾韺W中相關(guān)考核、績效管理
相關(guān)部分。
對于大數(shù)據(jù)治理的考核,可見下圖進行理解:
第35頁
執(zhí)行是管控體系落地的關(guān)鍵
業(yè)務梳理
以績效的手段促i
管理,栩噓生產(chǎn)者、使用者.管
理者及擁有者關(guān)聯(lián)起來,形成T
可持續(xù)有好執(zhí)行的執(zhí)行體系,保障
持續(xù)的高數(shù)據(jù)質(zhì)量
0楣理核心業(yè)務源.數(shù)據(jù)流
0制定數(shù)姻管控指標(數(shù)據(jù)標準)
o以標準對數(shù)堀進行質(zhì)量探套.處理.
分析
o則則對數(shù)據(jù)流進行監(jiān)控.預.
o集成高質(zhì)fll班
J心,蹲哄事、
o以績效手段促茲保障數(shù)搪管
iswma有蛇行
-a^MKN
考核51掩數(shù)據(jù)負責人
發(fā)生數(shù)據(jù)質(zhì)俄考核標準:
月35扣分項
1.發(fā)現(xiàn)f數(shù)據(jù)質(zhì)量問圖01分;
2.越物,as本完為止;
考德對象:數(shù)據(jù)負責人
考核標準:
1.數(shù)據(jù)質(zhì)量問題能響30%以下(含30%)
僖息系統(tǒng),扣5分;
數(shù)據(jù)質(zhì)量何)胭2.■確影響30%~70%(含70%)
月25扣分項
信息系統(tǒng),捫15分;
3.數(shù)據(jù)質(zhì)量問題影峋70%1壯信息系蜿,
扣25分;
4.按月統(tǒng)計,以單次數(shù)據(jù)質(zhì)蛔題影響范
圍最大的數(shù)據(jù)為準;
考叨掩數(shù)據(jù)負責人
嚴重程度考咳板也以造成的峻濟損失為考核依據(jù),年扣分項
依企業(yè)情況自定義;人工考修
考倭對象:數(shù)據(jù)負責人
考核標準:,c
i.在規(guī)定時間內(nèi)處理完成ftoas*問月B”加分項
國,加1分;5W不力吩;
第36頁
考段對象數(shù)據(jù)管理員
問題預警、分L備g現(xiàn)數(shù)據(jù)質(zhì)量I礴時,在規(guī)定時間段
發(fā)
內(nèi),及時預警并通知相關(guān)人員處理,不扣分;
5W,扣3分;
5.2大數(shù)據(jù)治理組織
5.2.1組織架構(gòu)
有效的組織機構(gòu)是項目成功的有力保證,為了達到項目預期目
標,在項目開始之前對于組織機構(gòu)及其責任分工做出規(guī)劃是非常必
要的,大數(shù)據(jù)治理項目管理組織建議宜采用如圖所示的組織結(jié)構(gòu):
第37頁
5.2.2組織層次
大數(shù)據(jù)治理委員會由集團公司的高層領(lǐng)導者組成。委員會定義
大數(shù)據(jù)治理愿景和目標;組織內(nèi)跨業(yè)務部門和IT部門進行協(xié)調(diào);
設(shè)置大數(shù)據(jù)治理計劃的總體方向;在發(fā)生策略分歧時進行協(xié)調(diào)。此
委員會也將包含來自部門或子公司的領(lǐng)導代表,以及來自各單位視
大數(shù)據(jù)為機構(gòu)資產(chǎn)的信息科技部門的代表。這些高層管理人員是大
數(shù)據(jù)治理計劃的所有擁護者,確保在整個組織內(nèi)獲得支持。
大數(shù)據(jù)治理工作組是組織內(nèi)委員會下面的下一個級別。工作組
第38頁
執(zhí)行大數(shù)據(jù)治理計劃。工作組負責監(jiān)督大數(shù)據(jù)治理平臺員工作。大
數(shù)據(jù)治理工作組由大數(shù)據(jù)治理委員會中各局領(lǐng)導主持。
每各業(yè)務部門有至少一位業(yè)務分析員,信息科技部門設(shè)置大數(shù)
據(jù)質(zhì)量分析員、大數(shù)據(jù)治理平臺員、集成開發(fā)人員。各工作人員負
責本部門大數(shù)據(jù)的質(zhì)量,履行職責,解決具體的問題。
5.2.3組織職責
根據(jù)大數(shù)據(jù)治理平臺工作的實際需要,在業(yè)務管理部門、技術(shù)
管理部門和業(yè)務應用部門確定各工作人員的職責。
大數(shù)據(jù)治理委員會的職責范圍:
1)從戰(zhàn)略角度來統(tǒng)籌和規(guī)劃,對大數(shù)據(jù)資產(chǎn)和系統(tǒng)進行清理,
確定大數(shù)據(jù)治理的范圍;明確大數(shù)據(jù)源的出處、使用和管理的流程
及職責;
2)明確大數(shù)據(jù)治理的組織、功能、角色和職責;
3)負責各工作組成員的培訓工作;
4)負責審查各工作小組的目標、原則,批準大數(shù)據(jù)治理平臺的
相關(guān)制度、標準及流程;
5)負責確定大數(shù)據(jù)治理的工具、技術(shù)和平臺;
6)負責制定大數(shù)據(jù)治理的評估指標、方法。
大數(shù)據(jù)治理工作小組,其主要工作職責是:
負責大數(shù)據(jù)治理的牽頭,組織、指導和協(xié)調(diào)本單位的大數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度農(nóng)業(yè)生態(tài)保護承包協(xié)議3篇
- 專項2024進出口貿(mào)易合作勞動協(xié)議版A版
- 專業(yè)防水服務協(xié)議規(guī)范版B版
- 專業(yè)土方買賣協(xié)議指導文本(2024版)版B版
- 專業(yè)方木買賣:2024年協(xié)議范本一
- 2025年度歷史文化街區(qū)拆遷承包合同4篇
- 2025年度展覽館場地借用及展覽策劃服務合同4篇
- 二零二四商標權(quán)轉(zhuǎn)讓與市場推廣服務合同范本3篇
- 二零二五年度文化產(chǎn)業(yè)園項目合作協(xié)議3篇
- 不動產(chǎn)居間服務協(xié)議模板2024版B版
- 智慧財務綜合實訓
- 安徽省合肥市2021-2022學年七年級上學期期末數(shù)學試題(含答案)3
- 教育專家報告合集:年度得到:沈祖蕓全球教育報告(2023-2024)
- 肝臟腫瘤護理查房
- 護士工作壓力管理護理工作中的壓力應對策略
- 2023年日語考試:大學日語六級真題模擬匯編(共479題)
- 皮帶拆除安全技術(shù)措施
- ISO9001(2015版)質(zhì)量體系標準講解
- 《培訓資料緊固》課件
- 黑龍江省政府采購評標專家考試題
- 成品煙道安裝施工方案
評論
0/150
提交評論