數(shù)據(jù)工程 白皮書_第1頁
數(shù)據(jù)工程 白皮書_第2頁
數(shù)據(jù)工程 白皮書_第3頁
數(shù)據(jù)工程 白皮書_第4頁
數(shù)據(jù)工程 白皮書_第5頁
已閱讀5頁,還剩55頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

DataandDataand數(shù)據(jù)項目投資收益周沒有獲取對等的業(yè)務(wù)

數(shù)據(jù)平臺層產(chǎn)生價值的速度跟不上業(yè)務(wù)需

才的時間和成本居高站在企業(yè)的視角,結(jié)合Thoughtworks近些年服務(wù)的客戶以及對市場的持續(xù)觀察,我們發(fā)現(xiàn),超半數(shù)的企業(yè)認(rèn),4311~2第1章介紹了數(shù)據(jù)作為新興生產(chǎn)資料在企業(yè)中逐漸占據(jù)更重要的位置,第2章從企業(yè)視角描述了數(shù)據(jù)在企2部分為第33部分為第4引 什么是數(shù) 數(shù)字化轉(zhuǎn)型浪潮下的企業(yè)數(shù) 企業(yè)數(shù)據(jù)流轉(zhuǎn)鏈路分 數(shù)據(jù)工程概 什么是數(shù)據(jù)工 數(shù)據(jù)工程價 數(shù)據(jù)工程落地與能力建 數(shù)據(jù)工程落 數(shù)據(jù)工程能力建 數(shù)據(jù)工程展 202111生產(chǎn)要 復(fù)雜程 結(jié)構(gòu)化數(shù)據(jù):通常由明確定義的信息組成,這些信息可以通過高度組織化的表格或數(shù)據(jù)庫進(jìn)行搜索、維護(hù)Excel格等。數(shù)據(jù)產(chǎn)生:一般而言,企業(yè)數(shù)據(jù)由生產(chǎn)活動以及服務(wù)客戶的過程產(chǎn)生,不同行業(yè)的數(shù)據(jù)產(chǎn)生特點也不相同。ERP、CRM由傳感器產(chǎn)生。此時數(shù)據(jù)還相對原始,其形態(tài)可能有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。含的信息缺失。最后是可追溯原則,收集來的數(shù)據(jù)可以進(jìn)行冷熱備份,但不進(jìn)行任何刪除操作,便于審計、回溯等。數(shù)據(jù)服務(wù)或者應(yīng)用的方式,使得數(shù)據(jù)價值能夠自動、高效落地。我們常見的數(shù)據(jù)API、BIAI數(shù)據(jù)治理:數(shù)據(jù)治理嚴(yán)格來說并不能算作數(shù)據(jù)生命周期中的某一環(huán),數(shù)據(jù)治理是貫穿整個數(shù)據(jù)生命周期的。數(shù)據(jù)質(zhì)量、元數(shù)據(jù)、數(shù)據(jù)安全與隱私等,我們將這些工作統(tǒng)一劃歸到數(shù)據(jù)治理的范疇之中。從數(shù)據(jù)產(chǎn)生到數(shù)據(jù)價值落地的過程中,數(shù)據(jù)的信息密度越來越高,其中蘊(yùn)含的知識也越來越豐富。雖然并不是所有的企業(yè)在數(shù)據(jù)工程落地過程中都需要對數(shù)據(jù)全生命周期進(jìn)行分析與管理,但是如果不去分析數(shù)據(jù)的全生命很容易導(dǎo)致“一葉障目不見泰山析企業(yè)數(shù)據(jù)全流程,企業(yè)可以識別薄弱環(huán)節(jié),抓住重點環(huán)節(jié),因地制宜的制定數(shù)據(jù)工程落地規(guī)劃,所以說數(shù)據(jù)全流程分析,是每個企業(yè)在進(jìn)行數(shù)據(jù)工程落地之前的“必修課。高煉煉低通過數(shù)據(jù)描述企業(yè)正在發(fā)生什么,清楚地了解企業(yè)的“經(jīng)歷過類似“手工Excel維護(hù)表格只需2為什么要3天時間做報表”的靈魂拷問,這里2小時也好3天也罷要從實際的訴求出發(fā),仍有企業(yè)僅需手工維護(hù)的方式就能滿足訴求,因此我們也并不推薦為了做報要解釋數(shù)據(jù)工程是什么,就需要從軟件工程說起。從軟件開發(fā)出現(xiàn)到軟件開發(fā)逐步規(guī)?;倪^程中,IT在企業(yè)層面,數(shù)據(jù)工程的實現(xiàn)從業(yè)務(wù)出發(fā),在企業(yè)層面打造高響應(yīng)力且更加智慧的業(yè)務(wù),加速從數(shù)據(jù)到價值的服務(wù)產(chǎn)生過程。數(shù)據(jù)工程化的實現(xiàn),能將分散在企業(yè)內(nèi)部各業(yè)務(wù)系統(tǒng)中的信息流數(shù)據(jù)進(jìn)行融合、打通,對內(nèi)實現(xiàn)共享的數(shù)據(jù)入口進(jìn)行統(tǒng)一化、標(biāo)準(zhǔn)化。同時,標(biāo)準(zhǔn)化的入口支持企業(yè)外部系統(tǒng)或數(shù)據(jù)的快速接入。通過收集、“以客戶為中心。最終數(shù)據(jù)工程可以挖掘數(shù)據(jù)的價值,幫助企業(yè)創(chuàng)新業(yè)務(wù)、提高效率,將數(shù)據(jù)從成本變成資產(chǎn)。數(shù)據(jù)工程的?回顧Thoughtworks在對上百家企業(yè)進(jìn)行數(shù)字化轉(zhuǎn)型的咨詢與交付中,我們發(fā)現(xiàn)由于所處行業(yè)特色、企業(yè)組織工具&價值場景探 優(yōu)先級排價值場景探 優(yōu)先級排確定數(shù)據(jù)分類一方面可以更好的理解業(yè)務(wù)和數(shù)據(jù),從而更清晰的得到數(shù)據(jù)全景圖,為后續(xù)的數(shù)據(jù)處理和使用做準(zhǔn)備,從公開數(shù)據(jù)、內(nèi)部數(shù)據(jù)、機(jī)密數(shù)據(jù)等級別進(jìn)行劃分,從而決定后續(xù)的數(shù)據(jù)共享策略。Owne在業(yè)務(wù)流程中,不同的部門和系統(tǒng)會使用已有的數(shù)據(jù),并可能會對已有的數(shù)據(jù)在某個業(yè)務(wù)流程的節(jié)點上進(jìn)行修改,同時也可能基于現(xiàn)有數(shù)據(jù)產(chǎn)生新的數(shù)據(jù)。那么面對多版本、多邊界的實體數(shù)據(jù),如何保證使用數(shù)據(jù)的部門和系統(tǒng)所使用的數(shù)據(jù)就是所期望的數(shù)據(jù)呢?因此我們需要進(jìn)行數(shù)據(jù)的wnerwnewnerwner數(shù)據(jù)或者是一類數(shù)據(jù)。企業(yè)根據(jù)數(shù)據(jù)wnerwnerwner定義數(shù)據(jù)的業(yè)務(wù)含義、業(yè)務(wù)邊界、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)的使用權(quán)限等。數(shù)據(jù)系 數(shù)據(jù)分級分 統(tǒng)一口 約定數(shù)據(jù)管理 構(gòu)建數(shù)據(jù)標(biāo)準(zhǔn)管理體數(shù)據(jù)架構(gòu)是一個比較泛指的概念,當(dāng)前權(quán)威組織對于數(shù)據(jù)架構(gòu)內(nèi)容的定義也有所差異,如《數(shù)據(jù)治理:工業(yè)企《AMA知識體系指南》提到的數(shù)據(jù)架構(gòu)指的是數(shù)據(jù)模型和數(shù)據(jù)流設(shè)計,而這里我們說的數(shù)據(jù)架構(gòu)設(shè)計主要從數(shù)據(jù)存儲模式、時效性和分布模式三個架構(gòu)設(shè)計和數(shù)據(jù)建模視角來描述。schema而數(shù)據(jù)倉庫是用于分析結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),通常數(shù)倉的數(shù)據(jù)已經(jīng)定義好其schema,總結(jié)數(shù)據(jù)倉庫的特通常需要通過ETL或者ELT對數(shù)據(jù)進(jìn)行清洗和加工數(shù)據(jù)分析&應(yīng)采 采使用時定義數(shù)據(jù)結(jié) 入倉時定義數(shù)據(jù)結(jié)數(shù)據(jù)量。數(shù)據(jù)分布模式即數(shù)據(jù)模型在前期的頂層設(shè)計面向企業(yè)的整體數(shù)據(jù)設(shè)計面向領(lǐng)域的敏捷數(shù)據(jù)設(shè)計 數(shù)據(jù)管理模式不同:分布式采用分而治之的思想,圍繞領(lǐng)域劃分,將數(shù)據(jù)的所有權(quán)交給了領(lǐng)域團(tuán)隊,遵從“數(shù)據(jù)在接近其來源的地方進(jìn)行管理”管理數(shù)據(jù),業(yè)務(wù)團(tuán)隊僅僅作為業(yè)務(wù)的輸入方來參與數(shù)據(jù)工程,此時數(shù)據(jù)團(tuán)隊?wèi)?yīng)當(dāng)具備一定的業(yè)務(wù)領(lǐng)域知識。領(lǐng)域-領(lǐng)域-領(lǐng)域-領(lǐng)域-領(lǐng)域-領(lǐng)域-上述提到的數(shù)據(jù)湖和數(shù)據(jù)倉庫、流處理和批處理以及分布式架構(gòu)和集中式架構(gòu),這些都是需要基于場景以及需d為,需要確保其數(shù)據(jù)源、數(shù)據(jù)owner、數(shù)據(jù)粒度及其屬性的邊界等。物理建模目標(biāo)是基于邏輯建模對業(yè)務(wù)的認(rèn)模型的可擴(kuò)展:在建模階段,我們需要基于業(yè)務(wù)而非需求進(jìn)行建模,需求的變化是遠(yuǎn)遠(yuǎn)快于業(yè)務(wù)的,因此,模型及其對應(yīng)的初始化數(shù)據(jù),已滿足需求的快速響應(yīng)。PII數(shù)據(jù)以及對其是否需要進(jìn)行特殊處理以滿足監(jiān)管要求。滿足ETLETLETL運(yùn)維需求都意味著ETL可能會隨時停止、隨時啟動,那么如何在ETL重復(fù)多次執(zhí)行的情況下確保數(shù)據(jù)的準(zhǔn)確性和一致性就極為關(guān)鍵。滿足ETL冪等性的核心邏輯在于處理數(shù)據(jù)階段待處理批次的數(shù)據(jù)隊列清晰有序且可控,同時對于所涉及數(shù)據(jù)要滿足業(yè)務(wù)依賴。從運(yùn)維視角看,運(yùn)維人員可以在不同需求場景下對ETL進(jìn)ETLETLETLIT性,并有助于提高用戶追蹤異常及異常數(shù)據(jù)的效率。組件的過度依賴以防止ETL的部署遷移或組件替換時,由于組件的高度耦合導(dǎo)致成本變高??膳渲迷瓌t:ETLETLETLETL審在傳統(tǒng)軟件開發(fā)過程中,測試金字塔理論已經(jīng)成為經(jīng)典測試?yán)碚撝笇?dǎo)著測試的推進(jìn)。其最早由MikeCohn于2009年的著作《SucceedingwithAgile:SoftwareDevelopmentusingScrum》提出,其表現(xiàn)形式為一個三層金字塔結(jié)構(gòu),從下到上依次為UnitTest(單元測試、IntegrationTest(集成測試、EndtoEndTest(端單元測試為基礎(chǔ)確保最小邏輯的準(zhǔn)確。其涵蓋兩方面:一、數(shù)據(jù)工程的基礎(chǔ)是ETL,大部分?jǐn)?shù)據(jù)工程均會有一些工具來自動生成ETL,而ETL自動生成代碼,就必然少不了單元測試。二、有了ETL之后,ETL內(nèi)部ETL編碼成本較低,可以以小的代價運(yùn)行。并且ETL為數(shù)據(jù)工程事實上的基本單位,對其進(jìn)行的單元測試可以Bughappypath?個步?個步?個環(huán)?個環(huán)數(shù)據(jù)安全要融入企業(yè)安全體系中:數(shù)據(jù)產(chǎn)生于業(yè)務(wù),又是業(yè)務(wù)的一部分,故而數(shù)據(jù)安全應(yīng)與企業(yè)資產(chǎn)安全新產(chǎn)品是其核心競爭力,有著最高安全級別,相應(yīng)的,其新產(chǎn)品對應(yīng)的研發(fā)數(shù)據(jù)也應(yīng)該做到最高安全級別,而其營銷數(shù)據(jù)的安全級別可能就不需要那么高的要求。就行的狀態(tài),對數(shù)據(jù)安全還沒有明確統(tǒng)一的認(rèn)知。早期建立的數(shù)據(jù)安全體系不一定適應(yīng)現(xiàn)在的數(shù)據(jù)安全要求。隨著技術(shù)壁壘的打破、新技術(shù)的更新迭代,數(shù)據(jù)安全策略需要持續(xù)的提升和優(yōu)化。但是對于企業(yè)來講,對安全要求程度的把控和預(yù)期要有一定的控制。所以在這里提出結(jié)合我們的經(jīng)驗和實踐站在安全視角下的考察維度。數(shù)據(jù)傳輸:數(shù)據(jù)存儲:管理平臺:數(shù)據(jù)安全:數(shù)據(jù)管理:據(jù)API更要關(guān)注隱私信息安全,包含:基礎(chǔ)能力復(fù)用:對于數(shù)據(jù)工程開發(fā)過程中的最佳實踐,我們可以將其沉淀為數(shù)據(jù)開發(fā)工具,例如數(shù)據(jù)運(yùn)維、ETL具需要滿足可配置性、低耦合等特性。制。方法是:基于解決方案的通用流程制定新流程,羅列共性模塊與特性模塊,在復(fù)用數(shù)據(jù)平臺的基礎(chǔ)上,挑選合適的基礎(chǔ)能力,快速實現(xiàn)配置與開發(fā)。解決方案復(fù)用平臺能力復(fù)用,ETLETL明確數(shù)據(jù)owner。對于一些臨時需求,如需要重刷歷史某天的數(shù)據(jù),需要做到快速相應(yīng),如可以以最少的安全規(guī)范掃描、依賴代碼升級、密鑰信息的安全處理、機(jī)密信息的加密處理、PII的數(shù)據(jù)服務(wù)也是需要跟著變化的,這里就要看數(shù)據(jù)服務(wù)在被使用的頻率來評估是否要對數(shù)據(jù)服務(wù)進(jìn)行擴(kuò)縮容;對數(shù)據(jù)服務(wù)使用的正常和異常進(jìn)行監(jiān)控。提供數(shù)據(jù)自服務(wù)實驗室,可以讓業(yè)務(wù)人員通過可視化的方式結(jié)合自身對業(yè)務(wù)的理解來敏捷高效地探索數(shù)據(jù),從而更大的發(fā)揮數(shù)據(jù)價值。求以及對于數(shù)據(jù)價值的挖掘持續(xù)的探索和演進(jìn)新的智能應(yīng)用,并通過智能應(yīng)用的構(gòu)建和演進(jìn)來應(yīng)對新的市場和大環(huán)境帶來的挑戰(zhàn)、改善用戶體驗。數(shù)據(jù)工程能力定位。也很可能會貫穿企業(yè)數(shù)據(jù)與業(yè)務(wù)部門,因此數(shù)據(jù)能力應(yīng)該以中心化的方式還是以去中心化的方式需要結(jié)合企業(yè)內(nèi)部實際情況來進(jìn)行評估,但是企業(yè)需要有明確的數(shù)據(jù)能力沉淀方向。數(shù)據(jù)工程人員培養(yǎng)。數(shù)據(jù)工程的落地,歸根結(jié)底還是需要由人來完成。構(gòu)建企業(yè)自身的人員能力培養(yǎng)機(jī)制、搭建企業(yè)人員數(shù)據(jù)能力提升通道是數(shù)據(jù)工程能力持續(xù)迭代的重要保障,如下圖所示的數(shù)據(jù)工程師能力模型,企業(yè)需要明確自身發(fā)展路徑上的數(shù)據(jù)工程能力訴求,以便更好的尋找和培養(yǎng)數(shù)據(jù)工程人才?;?熟基 熟基 熟數(shù)據(jù)工程知識沉淀。知識沉淀提出了新的挑戰(zhàn),即當(dāng)人員流動時、外部環(huán)境變化時,企業(yè)是否能夠快速的沉淀、積累相關(guān)知識,并與上述人員培養(yǎng)機(jī)制相結(jié)合,完成知識到應(yīng)用的過程。人人技術(shù)生態(tài)繁雜單傳統(tǒng)批數(shù)據(jù)處理工具就有Hadoop“動物園”數(shù)十種工具鏈更不用說在機(jī)器學(xué)習(xí)領(lǐng)域的境搭建工具,并能夠提供完整的DevOps能力。工具是在數(shù)據(jù)領(lǐng)域抽象出來的一系列研發(fā)能力集合。大多程過少會導(dǎo)致管理手段失效,在軟件研發(fā)領(lǐng)域經(jīng)常提到的敏捷、SCRU、瀑布等都是流程與協(xié)作的經(jīng)典模點的企業(yè),可能瀑布模式就是一個比較適合的模式。研發(fā)效能評價體系。數(shù)據(jù)運(yùn)營評價體系。標(biāo)體系構(gòu)建亦可參見研發(fā)效能指標(biāo)體系的維度,如速率類、數(shù)量類、比率類等

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論