互聯(lián)網(wǎng)大廠數(shù)據(jù)治理及數(shù)據(jù)分類管理實踐_第1頁
互聯(lián)網(wǎng)大廠數(shù)據(jù)治理及數(shù)據(jù)分類管理實踐_第2頁
互聯(lián)網(wǎng)大廠數(shù)據(jù)治理及數(shù)據(jù)分類管理實踐_第3頁
互聯(lián)網(wǎng)大廠數(shù)據(jù)治理及數(shù)據(jù)分類管理實踐_第4頁
互聯(lián)網(wǎng)大廠數(shù)據(jù)治理及數(shù)據(jù)分類管理實踐_第5頁
已閱讀5頁,還剩25頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

作為一家巨型跨國企業(yè),互聯(lián)網(wǎng)大廠在170多個國家同時開展各種業(yè)態(tài)的業(yè)務,互聯(lián)網(wǎng)大廠的數(shù)據(jù)底座是支撐互聯(lián)網(wǎng)大廠業(yè)務運營的關(guān)鍵。因此,互聯(lián)網(wǎng)大廠的數(shù)字化轉(zhuǎn)型成為行業(yè)競相研究的標桿。應行業(yè)要求,互聯(lián)網(wǎng)大廠對內(nèi)部數(shù)字化轉(zhuǎn)型和數(shù)據(jù)治理的經(jīng)驗進行了系統(tǒng)梳理,全部呈現(xiàn)在了《華為數(shù)據(jù)之道》一書中,本文選取了部分內(nèi)容?;ヂ?lián)網(wǎng)大廠數(shù)據(jù)治理實踐個人、每個家庭、每個組織,構(gòu)建萬物互聯(lián)的智能世界"。的智能互聯(lián)網(wǎng)大廠,成為行業(yè)標桿”的數(shù)字化轉(zhuǎn)型目標(如圖1生產(chǎn)生產(chǎn)服務&運營(研發(fā)MKTN四交付店后/時務外R)X隨后,互聯(lián)網(wǎng)大廠基于愿景確定了數(shù)字化轉(zhuǎn)型的藍圖和框架,統(tǒng)一規(guī)劃、分層次開展,最終實現(xiàn)客戶交互方式的轉(zhuǎn)變,實現(xiàn)內(nèi)部運營效率和效益的提升?;ヂ?lián)網(wǎng)大廠數(shù)字化轉(zhuǎn)型藍圖①①)客戶)員工P合作伙伴供應商消費者在線體驗聯(lián)合網(wǎng)規(guī)在線交易在線交付開發(fā)者社區(qū)合作伙伴8U②面向市場創(chuàng)新的主業(yè)務流8U②面向市場創(chuàng)新的主業(yè)務流分營銷平臺銷售平臺交付平臺運維平臺渠道平臺銷項目解決方案銷項目解決方案3服項目管理售后網(wǎng)規(guī)網(wǎng)設(shè)網(wǎng)絡部暑和集成務資源管理合作伙伴管理運維備件管理渠道數(shù)據(jù)服務數(shù)數(shù)據(jù)資產(chǎn)管理數(shù)據(jù)底座產(chǎn)品客戶供給資源員數(shù)圖2互聯(lián)網(wǎng)大廠數(shù)字化轉(zhuǎn)型藍圖其中,舉措4涉及數(shù)據(jù)治理和數(shù)字化運營,是互聯(lián)網(wǎng)大廠數(shù)字化轉(zhuǎn)型的關(guān)鍵,承接了打破數(shù)據(jù)孤島、確保源頭數(shù)據(jù)準確、促進數(shù)據(jù)共享、保障數(shù)據(jù)隱私與安全等目標?;ヂ?lián)網(wǎng)大廠從2007年開始啟動數(shù)據(jù)治理,歷經(jīng)兩個階段的持續(xù)變革,系統(tǒng)地建立了互聯(lián)網(wǎng)大廠數(shù)據(jù)管理體系。第一階段:2007~2016年理框架,發(fā)布數(shù)據(jù)管理政策,任命數(shù)據(jù)Owner,通過統(tǒng)一信息架構(gòu)與標準、唯一可信的數(shù)據(jù)源、有效的數(shù)據(jù)質(zhì)共享。第二階段:2017年至今數(shù)據(jù)價值。業(yè)務可視,能夠快速、準確決策:通過數(shù)據(jù)匯聚,實現(xiàn)業(yè)務狀態(tài)透明可視,提供基于"事實"的決策支持依據(jù)。人工智能,實現(xiàn)業(yè)務自動化:通過業(yè)務規(guī)則數(shù)字化、算法化,嵌入業(yè)務流,逐步替代人工判斷。數(shù)據(jù)創(chuàng)新,成為差異化競爭優(yōu)勢:基于數(shù)據(jù)的用戶洞察,發(fā)現(xiàn)新的市場機會點。數(shù)據(jù)分析與洞察業(yè)務可視,能夠快速、準確決策·通過數(shù)據(jù)匯聚,實現(xiàn)業(yè)務狀態(tài)透明基于“事實”的決策支持依據(jù)。人工智能,實現(xiàn)業(yè)務自動化數(shù)據(jù)分析與洞察業(yè)務可視,能夠快速、準確決策·通過數(shù)據(jù)匯聚,實現(xiàn)業(yè)務狀態(tài)透明基于“事實”的決策支持依據(jù)。人工智能,實現(xiàn)業(yè)務自動化·通過業(yè)務規(guī)則數(shù)字化、算法化,逐步替代人工判斷。數(shù)據(jù)創(chuàng)新,成為差異化競爭優(yōu)勢數(shù)據(jù)清潔與貫通數(shù)據(jù)全流程貫通,提升業(yè)務運作交·通過業(yè)務數(shù)字化、標準化,借助現(xiàn)業(yè)務上下游信息快速傳遞、共數(shù)據(jù)質(zhì)量持續(xù)提升,減少糾錯成才反映業(yè)務(“賬實”一致),降低照藏分折呀?jīng)Q眼照藏分折呀?jīng)Q眼第第二階段第一階段瑞暴與指兒賢教瑞暴與指兒賢教數(shù)據(jù)產(chǎn)生與打通產(chǎn)品員工主題主睛數(shù)據(jù)產(chǎn)生與打通產(chǎn)品描述:發(fā)生了什么珍浙:為什么發(fā)生預離:什么將發(fā)莊指號:該做什么機會點客戶合同機會點人工介入決人工介入決自合同客戶姑點PAC→洞察後洞察後測開票觸發(fā)圖3互聯(lián)網(wǎng)大廠數(shù)據(jù)治理的發(fā)展歷程廣告贏在大數(shù)據(jù):中國大數(shù)據(jù)發(fā)展藍皮書作者:陳新河編著當當當當購買廣告互聯(lián)網(wǎng)大廠互聯(lián)網(wǎng)大廠數(shù)據(jù)之道互聯(lián)網(wǎng)大廠官方出品當當購買互聯(lián)網(wǎng)大廠根據(jù)數(shù)據(jù)特性及治理方法的不同對數(shù)據(jù)進行了分類定義:內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)、元數(shù)據(jù)。其中,結(jié)構(gòu)化數(shù)據(jù)又進一步劃分為基礎(chǔ)數(shù)據(jù)、主數(shù)據(jù)、事務數(shù)據(jù)、報告數(shù)據(jù)、觀測數(shù)據(jù)和規(guī)則數(shù)據(jù)?;ヂ?lián)網(wǎng)大廠數(shù)據(jù)分類管理框架如圖4所示。ReportData(報告數(shù)據(jù))圖4互聯(lián)網(wǎng)大廠數(shù)據(jù)分類管理框架不同分類的數(shù)據(jù),其治理方法有所不同。如基礎(chǔ)數(shù)據(jù)內(nèi)容的變更通常會對現(xiàn)有流程、IT系統(tǒng)產(chǎn)生影響,因此基礎(chǔ)數(shù)據(jù)的管理重點在于變更管理和統(tǒng)一標準管控。主數(shù)據(jù)的錯誤可能會導致成百上千的事務數(shù)據(jù)錯誤,因此主數(shù)據(jù)的管理重點是確保同源多用、重點進行數(shù)據(jù)內(nèi)容的結(jié)構(gòu)化數(shù)據(jù)管理(以統(tǒng)一語言為核心)結(jié)構(gòu)化數(shù)據(jù)包括基礎(chǔ)數(shù)據(jù)、主數(shù)據(jù)、事務數(shù)據(jù)、報告數(shù)據(jù)、觀測數(shù)據(jù)、規(guī)則數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)的共同特點是以信息架構(gòu)為基礎(chǔ),建立統(tǒng)一的數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)標準與模型。下面將重點介紹六類結(jié)構(gòu)化數(shù)據(jù)的治理方法。1.基礎(chǔ)數(shù)據(jù)治理基礎(chǔ)數(shù)據(jù)用于對其他數(shù)據(jù)進行分類,在業(yè)界也稱作參考數(shù)據(jù)。基礎(chǔ)數(shù)據(jù)通常是靜態(tài)的(如國家、幣種),一般在業(yè)務事件發(fā)生之前就已經(jīng)預先定義。它的可選值數(shù)量有限,可以用作業(yè)務或IT的開關(guān)和判斷條件。當基礎(chǔ)數(shù)據(jù)的取值發(fā)生變化的時候,通常需要對流程和IT系統(tǒng)進行分析和修改,以滿足業(yè)務需求。因此,基礎(chǔ)數(shù)據(jù)的管理重點在于變更管理和統(tǒng)一標準管控?;A(chǔ)數(shù)據(jù)在支撐場景分流、流程自動化、提升分析質(zhì)量方面起著關(guān)鍵作用,治理基礎(chǔ)數(shù)據(jù)的價值如圖5所示。使得對外部世界的描述統(tǒng)一,滿足外部遵從性使得對外部世界的描述統(tǒng)一,滿足外部遵從性例如:基礎(chǔ)數(shù)據(jù)“貿(mào)易術(shù)語”在國際貿(mào)易中用于說明買賣雙方在交接應承擔的責任、費用和風險的統(tǒng)一術(shù)語。結(jié)構(gòu)化分流業(yè)務場景,提高業(yè)務敏捷性例如:基礎(chǔ)數(shù)據(jù)“采購業(yè)務類型”被用于結(jié)構(gòu)化的描述采購業(yè)務場景綜合采購類、工程采購類、基建采購類、后勤采購類等),以承載不同及運作。簡化業(yè)務規(guī)則判斷,業(yè)務規(guī)則可配置例如:基礎(chǔ)數(shù)據(jù)“供應商認證類型”被用于判斷在履行系統(tǒng)中是否可下發(fā)采購業(yè)務負責人。減少分析前的清洗和轉(zhuǎn)換,支撐E2E的業(yè)務分析和決策例如:基礎(chǔ)數(shù)據(jù)“BG”是互聯(lián)網(wǎng)大廠經(jīng)營和運營報告常見的維度之一,在交相同的BG簡碼,才能免去對數(shù)據(jù)多余的清洗和轉(zhuǎn)換。圖5基礎(chǔ)數(shù)據(jù)治理的價值管理工作內(nèi)容管理工作內(nèi)容因此,有效地管理基礎(chǔ)數(shù)據(jù)對企業(yè)來說可以產(chǎn)生巨大的收益?;ヂ?lián)網(wǎng)大廠建立了一個完整的基礎(chǔ)數(shù)據(jù)管理框架(如圖6所示),通過明確各方的管理責任、發(fā)布相關(guān)的流程和效管理。焦點焦點減少分析有管理基礎(chǔ)數(shù)據(jù)版本管理基礎(chǔ)數(shù)據(jù)的關(guān)聯(lián)及映射關(guān)系流流程平臺組織基礎(chǔ)數(shù)據(jù)管理規(guī)范數(shù)據(jù)專業(yè)組織基礎(chǔ)數(shù)據(jù)維護流程圖6基礎(chǔ)數(shù)據(jù)治理框架2.主數(shù)據(jù)治理不會影響流程和IT系統(tǒng)的變化。但是,主數(shù)據(jù)的錯誤可能導致成百上千的事務數(shù)據(jù)錯誤,因此主數(shù)據(jù)最重要的管理要求是確保同源多用和重點進行數(shù)據(jù)內(nèi)容的校驗。互聯(lián)網(wǎng)大廠的主數(shù)據(jù)管理策略如圖7所示。主數(shù)據(jù)應該代表企業(yè)中的某個業(yè)務對象的唯一實例,以對應真實世界的主數(shù)據(jù)應該代表企業(yè)中的某個業(yè)務對象的唯一實例,以對應真實世界的對象。重復創(chuàng)建實例將導致數(shù)據(jù)的不一致,進而給業(yè)務流程和報告帶來聯(lián)邦管控模型代表在中央制定政策、標準和模型,在地方由數(shù)據(jù)管家和用戶一起在流程的各個層級中來實施這些政策、標準和模型。為確保數(shù)據(jù)跨系統(tǒng)、跨流程的唯一性和一致性,需要為每個屬性的創(chuàng)建、更新和讀取確定一個應用系統(tǒng)作為數(shù)據(jù)源。正確的數(shù)據(jù)需要在正確的流程中創(chuàng)建、更新和使用,井在正確的應用系統(tǒng)中落地,這種協(xié)同將確保全公司范圍內(nèi)的數(shù)據(jù)質(zhì)量。應該在數(shù)據(jù)創(chuàng)建階段就主動管理數(shù)據(jù)質(zhì)量,而非在問題出現(xiàn)后被動解決。圖7主數(shù)據(jù)治理策略互聯(lián)網(wǎng)大廠的主數(shù)據(jù)范圍包括客戶、產(chǎn)品、供應商、組織、人員主題,每個主數(shù)據(jù)都有相應的架構(gòu)、流程及管控組織來負責管理。鑒于主數(shù)據(jù)管理的重要性,對于每個重要的主數(shù)據(jù),都會發(fā)布相應的管理規(guī)范,數(shù)據(jù)管家依據(jù)數(shù)據(jù)質(zhì)量標準定期進行數(shù)據(jù)質(zhì)量的度量與改進。同時,對于主數(shù)據(jù)的集成消費按照如下管理框架進行管數(shù)據(jù)消費層:數(shù)據(jù)消費層包括所有消費數(shù)據(jù)的IT產(chǎn)品團隊,負責提出數(shù)據(jù)集成需求和集成接口實施。數(shù)據(jù)消費層數(shù)據(jù)消費層管控層圖8主數(shù)據(jù)治理框架主數(shù)據(jù)服務實施層:負責主數(shù)據(jù)集成解決方案的落地,包括數(shù)據(jù)服務的IT實施和數(shù)據(jù)服務的配置管理。主數(shù)據(jù)服務設(shè)計層:為需要集成主數(shù)據(jù)的IT產(chǎn)品團隊3.事務數(shù)據(jù)治理例,核心屬性有32個,其中調(diào)用基礎(chǔ)數(shù)據(jù)和主數(shù)據(jù)24個,占75%;客戶框架合同本身特有的屬性8個,占有的。對于引用的基礎(chǔ)數(shù)據(jù)和主數(shù)據(jù),要盡可能調(diào)用而4.報告數(shù)據(jù)治理報告數(shù)據(jù)是指對數(shù)據(jù)進行處理加工后,用作業(yè)務決策依據(jù)的數(shù)據(jù)。它用于支持報告和報表的生成。用于報告和報表的數(shù)據(jù)可以分為如下幾種:用于報表項數(shù)據(jù)生成的事實表、指標數(shù)據(jù)、維度。用于報表項統(tǒng)計和計算的統(tǒng)計函數(shù)、趨勢函數(shù)及報告規(guī)用于報表和報告展示的序列關(guān)系數(shù)據(jù)。用于報表項描述的主數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、事務數(shù)據(jù)、觀測用于對報告進行補充說明的非結(jié)構(gòu)化數(shù)據(jù)。報告數(shù)據(jù)涵蓋的范圍較廣,如主數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)等,這些數(shù)據(jù)類別本身已經(jīng)有相應的管理機制和規(guī)范,這里我們重點對部分新的細分數(shù)據(jù)類型進行說明。事實表:從業(yè)務活動或者事件中提煉出來的性能度量。其特點為:每個事實表由顆粒度屬性、維度屬性、事務描述屬性、度量屬性組成;事實表可以分為基于明細構(gòu)建的事實表和基于明細做過匯聚的事實表。維度:用于觀察和分析業(yè)務數(shù)據(jù)的視角,支持對數(shù)據(jù)進行匯聚、鉆取、切片分析。其特點為:維度的數(shù)據(jù)一般來源于基礎(chǔ)數(shù)據(jù)和主數(shù)據(jù);維度的數(shù)據(jù)一般用于分析視角的分類;新的維度。統(tǒng)計型函數(shù):與指標高度相關(guān),是對指標數(shù)量特征進一步的數(shù)學統(tǒng)計,例如均值、中位數(shù)、總和、方差等。其特點為:趨勢型函數(shù):反映指標在時間維度上變化情況的統(tǒng)計方式,例如同比、環(huán)比、定基比等。其特點為:其計算數(shù)值在報告中通常呈現(xiàn)為圖表中的趨勢線。報告規(guī)則數(shù)據(jù):一種描述業(yè)務決策或過程的陳述,通常是基于某些約束下產(chǎn)生的結(jié)論或需要采取的某種措施。其特點為:將業(yè)務邏輯通過函數(shù)運算體現(xiàn),通常一個規(guī)則包含多個運算規(guī)則的計算結(jié)果一般不直接輸出,需要基于計算結(jié)果翻譯成規(guī)則通常與參數(shù)表密切相關(guān)。序列關(guān)系數(shù)據(jù):反映報告中指標及其他數(shù)據(jù)序列關(guān)系的數(shù)觀測數(shù)據(jù)是通過觀測工具獲取的數(shù)據(jù),觀測對象一般為相比傳統(tǒng)數(shù)據(jù),觀測數(shù)據(jù)通常數(shù)據(jù)量較大且是過程性的,由機器自動采集生成。不同感知方式獲取的觀測數(shù)據(jù),其數(shù)據(jù)資產(chǎn)管理要素不同。觀測數(shù)據(jù)的感知方式可分為軟感知和硬感知。軟感知是使用軟件或者各種技術(shù)進行數(shù)據(jù)收集,收集的對象存在于數(shù)字世界,通常不依賴于物理設(shè)備,一般是自動運行的程序或腳本;硬感知是利用設(shè)備或裝置進行數(shù)據(jù)收集,收集的對象為物理世界中的物理實體,或者是以物理實體為載體的信息,其數(shù)據(jù)的感知過程是數(shù)據(jù)從物理世界向數(shù)字世界的轉(zhuǎn)化過程。觀測數(shù)據(jù)的特征有如下幾點:觀測數(shù)據(jù)通常數(shù)據(jù)量較大且是過程性的,主要用作監(jiān)控分析。例如,視頻監(jiān)控器產(chǎn)生的視頻數(shù)據(jù)、操作系統(tǒng)產(chǎn)生的日志記錄數(shù)據(jù)等。管軟感知硬感知環(huán)境人事物原則上,觀測對象要定義成業(yè)務對象進行管理,這是觀測數(shù)據(jù)管理的前提條件。觀測數(shù)據(jù)需要記錄觀測工具、觀測對象。針對不同感知方式獲取的觀測數(shù)據(jù),其資產(chǎn)管理方案也不盡相同。例如,以用戶界面瀏覽記錄為例,如果是對銷售機會點的查詢訪問觀測,應當歸屬到相應業(yè)務領(lǐng)域;如果是對頁面性能、頁面UV、PV的觀測,應當歸屬到IT部門。6.規(guī)則數(shù)據(jù)治理文件中承載,難以遵守""各國規(guī)則均不同,IT能否一國一策、快速上線"等問題。規(guī)則數(shù)據(jù)是結(jié)構(gòu)化描述業(yè)務規(guī)則變量(一般為決策表、關(guān)聯(lián)關(guān)系表、評分卡等形式)的數(shù)據(jù),是實現(xiàn)業(yè)務規(guī)則的核心數(shù)據(jù),如業(yè)務中普遍存在的基線數(shù)據(jù)。規(guī)則數(shù)據(jù)主要有以下特征:規(guī)則數(shù)據(jù)不可實例化;規(guī)則數(shù)據(jù)包含判斷條件和決策結(jié)果兩部分信息,區(qū)別于描述事物分類信息的基礎(chǔ)數(shù)據(jù);規(guī)則數(shù)據(jù)的結(jié)構(gòu)在縱向(列)、橫向(行)兩個維度上相對穩(wěn)定,變化形式多為內(nèi)容刷新;規(guī)則數(shù)據(jù)的變更對業(yè)務活動的影響是大范圍的。規(guī)則數(shù)據(jù)的管理是為了支撐業(yè)務規(guī)則的結(jié)構(gòu)化、信息化、數(shù)字化,目標是實現(xiàn)規(guī)則的可配置、可視化、可追溯。不同于標準化的信息架構(gòu)管理,規(guī)則數(shù)據(jù)的管理具有輕量化、分級的特點。重要的、調(diào)用量大、變動頻繁的業(yè)務規(guī)則需要通過規(guī)則數(shù)據(jù)管理,使其從代碼中解耦,進行資產(chǎn)注冊;使用廣泛的、有分析需求的規(guī)則數(shù)據(jù)需要通過注冊入湖,實現(xiàn)共享和復用。業(yè)務規(guī)則在架構(gòu)層次上與流程中的業(yè)務活動相關(guān)聯(lián),是業(yè)務活動的指導和依據(jù),業(yè)務活動的結(jié)果通過該業(yè)務活動的相關(guān)業(yè)務對象的屬性來記錄。業(yè)務規(guī)則通過業(yè)務活動對業(yè)務事實、業(yè)務行為進行限制,業(yè)務人員可以根據(jù)業(yè)務規(guī)則判斷業(yè)務情況,采取具體行動。業(yè)務規(guī)則包含規(guī)則變量和變量之間的關(guān)系,規(guī)則數(shù)據(jù)主要描述規(guī)則的變量部分,是支撐業(yè)務規(guī)則的核心數(shù)據(jù)(如遵從性評分規(guī)則)遵從性評分卡)圖10業(yè)務規(guī)則與規(guī)則數(shù)據(jù)之間的關(guān)系此外,運行規(guī)則所需要的輸入數(shù)據(jù)、輸出數(shù)據(jù),包括動態(tài)數(shù)據(jù)庫訪問對象、內(nèi)存表緩存、Excel、XML處理類等,主要起支撐作用,不在規(guī)則數(shù)據(jù)的范疇。規(guī)則數(shù)據(jù)必須有唯一的數(shù)據(jù)Owner,其負責開展規(guī)則數(shù)據(jù)的信息架構(gòu)建設(shè)與維護、數(shù)據(jù)質(zhì)量的監(jiān)控與保障、數(shù)據(jù)服務建設(shè)、數(shù)據(jù)安全授權(quán)與定密等工作。相應的數(shù)據(jù)管家支持數(shù)據(jù)Owner對所管轄的業(yè)務中的規(guī)則數(shù)據(jù)進規(guī)則數(shù)據(jù)的元數(shù)據(jù)要記錄與業(yè)務規(guī)則的關(guān)系(規(guī)則數(shù)據(jù)要求(包括明確規(guī)則數(shù)據(jù)的Owner、制定數(shù)據(jù)標準、明確數(shù)據(jù)源等),按照信息安全要求定密,以方便規(guī)則數(shù)等多種異構(gòu)的格式文件,較之結(jié)構(gòu)化數(shù)據(jù),其更難標準(郵件、Excel、Word、PPT)、圖片、音頻、視頻等。還需對數(shù)據(jù)內(nèi)容的客觀理解進行管理,如標簽、相似性檢索、相似性連接等,以便于用戶搜索和消費使用。因管理模型如圖11所示。非結(jié)構(gòu)化數(shù)據(jù)覆蓋范圍非結(jié)構(gòu)化數(shù)據(jù)覆蓋范圍解析分析算法非結(jié)構(gòu)化數(shù)分析算法&神經(jīng)網(wǎng)略回歸強元數(shù)據(jù)基本特征類(客觀)Owne/等內(nèi)容增強類(主觀)數(shù)據(jù)內(nèi)容描述非結(jié)構(gòu)元數(shù)據(jù)明確圖11非結(jié)構(gòu)化數(shù)據(jù)管理模型非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)可以分為基本特征類(客觀)和內(nèi)容增強類(主觀)兩類。內(nèi)容增強類:基于非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容的上下文語境,解析目標文件對象的數(shù)據(jù)內(nèi)容,加深對目標對象的客觀理解,如標簽、相似性檢索、相似性連接等。非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管理采用統(tǒng)分統(tǒng)管的原則,即基本特征類屬性由公司進行統(tǒng)一管理,內(nèi)容增強類屬性由相關(guān)承擔數(shù)據(jù)分析工作的項目組自行設(shè)計,但其分析結(jié)果都應由公司元數(shù)據(jù)管理平臺自動采集后進行統(tǒng)一存類元數(shù)據(jù)流"兩條線來實現(xiàn)對非結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)管基本特征類元數(shù)據(jù)流元數(shù)據(jù)管理平臺基于收集到的各類非結(jié)構(gòu)化數(shù)據(jù)源信息,自動完成基礎(chǔ)特征類元數(shù)據(jù)的采集工作,按照管理規(guī)范和要求通過標準化、整合后存儲在元數(shù)據(jù)管理平臺中,并在完成元數(shù)據(jù)過濾、排序后將結(jié)果在元數(shù)據(jù)報告中進行可視化展示,以供用戶消費使用。內(nèi)容增強類元數(shù)據(jù)流基于元數(shù)據(jù)管理平臺中基本特征類元數(shù)據(jù)的信息,各數(shù)據(jù)分析項目組解析目標非結(jié)構(gòu)化對象的數(shù)據(jù)內(nèi)容,并將分析結(jié)果通過元數(shù)據(jù)采集、元數(shù)據(jù)標準化&整合后統(tǒng)一存放在元數(shù)據(jù)管理平臺中,以供用戶一并消費使用,增外部數(shù)據(jù)是指互聯(lián)網(wǎng)大廠公司引入的外部組織或者個人擁有處置權(quán)利的數(shù)據(jù),如供應商資質(zhì)證明、消費者洞察報告等。外部數(shù)據(jù)治理的出發(fā)點是合規(guī)遵從優(yōu)先,與內(nèi)部數(shù)據(jù)治理的目的不同。外部數(shù)據(jù)的治理主要遵循以下原則。合規(guī)優(yōu)先原則:遵從法律法規(guī)、采購合同、客戶授權(quán)、公司信息安全與公司隱私保護政策等相關(guān)規(guī)定。責任明確原則:所有引入的外部數(shù)據(jù)都要有明確的管理責任主體,承擔數(shù)據(jù)引入方式、數(shù)據(jù)安全要求、數(shù)據(jù)隱私要求、數(shù)據(jù)共享范圍、數(shù)據(jù)使用授權(quán)、數(shù)據(jù)質(zhì)量監(jiān)管、數(shù)據(jù)退出銷毀等責任。有效流動原則:使用方優(yōu)先使用公司已有數(shù)據(jù)資產(chǎn),避免重復采購、重復建設(shè)。到外部數(shù)據(jù)使用有記錄、可審計、可追溯。受控審批原則:在授權(quán)范圍內(nèi),外部數(shù)據(jù)管理責任主體應合理審批使用方的數(shù)據(jù)獲取要求。在以上原則指導下,我們要求所有采購的外部數(shù)據(jù)要注冊,在合規(guī)的前提下鼓勵數(shù)據(jù)共享,避免重復采購。其他方式引入的外部數(shù)據(jù),由管理責任主體決定登記方式。根據(jù)法律條款和授權(quán)范圍,外部數(shù)據(jù)管理責任主體有權(quán)決定外部數(shù)據(jù)是否入數(shù)據(jù)湖,如果需要入數(shù)據(jù)湖,必須遵從數(shù)據(jù)湖建設(shè)相應的流程和規(guī)范。同時,外部數(shù)據(jù)管理責任主體有義務告知使用方合規(guī)使用外部數(shù)據(jù),對于承擔責任。的全生命周期。1.元數(shù)據(jù)治理的痛點與挑戰(zhàn)會陷入數(shù)據(jù)沼澤中。元數(shù)據(jù)管理的痛點如圖12所示。為解決以上痛點,互聯(lián)網(wǎng)大廠建立了公司級的元數(shù)據(jù)管理機制。制定了統(tǒng)一的元數(shù)據(jù)管理方法、機制和平臺,拉通業(yè)務語言和機器語言。確保數(shù)據(jù)“入湖有依據(jù),出湖可檢索”成為互聯(lián)網(wǎng)大廠元數(shù)據(jù)管理的使命與目標?;诟哔|(zhì)量的元數(shù)據(jù),通過數(shù)據(jù)地圖就能在企業(yè)內(nèi)部實現(xiàn)方便的數(shù)據(jù)搜索。元數(shù)據(jù)是描述數(shù)據(jù)的數(shù)據(jù),用于打破業(yè)務和IT之間的語言障礙,幫助業(yè)務更好地理解數(shù)據(jù)。元數(shù)據(jù)通常分為業(yè)務、技術(shù)和操作三類。業(yè)務元數(shù)據(jù):用戶訪問數(shù)據(jù)時了解業(yè)務含義的途徑,包括資產(chǎn)目錄、Own

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論