版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
卓越夢(mèng)想大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理和挖掘解決方案卓越夢(mèng)想大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理和挖掘解決方案大數(shù)據(jù)治理框架大數(shù)據(jù)治理框架由三大部分組成:大數(shù)據(jù)類(lèi)型、大數(shù)據(jù)治理領(lǐng)域、行業(yè)與功能2產(chǎn)業(yè)和功能場(chǎng)景保險(xiǎn)業(yè)電信業(yè)零售業(yè)公共事業(yè)醫(yī)療保健業(yè)組織元數(shù)據(jù)隱私數(shù)據(jù)質(zhì)量大數(shù)據(jù)類(lèi)型web和社交媒體數(shù)據(jù)機(jī)器對(duì)機(jī)器的數(shù)據(jù)生物計(jì)量學(xué)數(shù)據(jù)大體量交易數(shù)據(jù)人工生成的數(shù)據(jù)信息治理大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。傳統(tǒng)的數(shù)據(jù)治理領(lǐng)域同樣適用于大數(shù)據(jù)大數(shù)據(jù)分析受用例驅(qū)動(dòng),用例的具體情況因產(chǎn)業(yè)和功能而異??蛻?hù)服務(wù)IT業(yè)務(wù)流程整合情緒分析Facebook忠誠(chéng)度計(jì)劃客戶(hù)流失分析索賠調(diào)查IT日志分析車(chē)載通信技術(shù)位置服務(wù)索賠欺詐分析智能儀表患者監(jiān)測(cè)索賠分析客戶(hù)流失分析通話(huà)質(zhì)量保證基因測(cè)試人臉識(shí)別承保電子病歷RFI日志大數(shù)據(jù)治理框架大數(shù)據(jù)治理框架由三大部分組成:大數(shù)據(jù)類(lèi)型、大數(shù)Contents目錄大數(shù)據(jù)綜述2341大數(shù)據(jù)平臺(tái)解決方案大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理方法請(qǐng)輸入第四部分標(biāo)題Contents目錄大數(shù)據(jù)綜述2341大數(shù)據(jù)平臺(tái)解決方01大數(shù)據(jù)綜述01大數(shù)據(jù)綜述數(shù)據(jù)處理思維轉(zhuǎn)變少量的樣本數(shù)據(jù)數(shù)據(jù)關(guān)系力求明確清晰探求難以捉摸的因果關(guān)系要求數(shù)據(jù)精確無(wú)誤全量數(shù)據(jù)
樂(lè)于接受數(shù)據(jù)的紛繁復(fù)雜轉(zhuǎn)而關(guān)注事物的關(guān)聯(lián)關(guān)系
數(shù)據(jù)的精確不是那么重要了?
谷歌翻譯系統(tǒng)為了訓(xùn)練其系統(tǒng),收集其能找到的所有翻譯;?
谷歌收集了上萬(wàn)億頁(yè)的語(yǔ)料庫(kù),包括質(zhì)量參差不齊的文檔;?
上萬(wàn)億的語(yǔ)料庫(kù),相當(dāng)于950億句英語(yǔ);?
相對(duì)而言,谷歌的翻譯質(zhì)量還是最好的;?
谷歌翻譯之所以更好,不是因?yàn)樗鼡碛幸粋€(gè)更好的算法機(jī)制,而是增加了各種各樣的數(shù)據(jù),包括有錯(cuò)誤的數(shù)據(jù);?
在谷歌的翻譯團(tuán)隊(duì)中,大多數(shù)工程師并不懂其翻譯出來(lái)的語(yǔ)言;數(shù)據(jù)處理思維轉(zhuǎn)變傳統(tǒng)數(shù)據(jù)分析思維大數(shù)據(jù)分析思維案例一?
聘請(qǐng)了20多名書(shū)評(píng)家和編輯組成的團(tuán)隊(duì),在網(wǎng)頁(yè)上創(chuàng)立“亞馬遜的聲音”向客戶(hù)推薦新書(shū),寫(xiě)書(shū)評(píng);?
通過(guò)客戶(hù)的購(gòu)買(mǎi)歷史,尋找客戶(hù)的相似性,對(duì)客戶(hù)分群進(jìn)行產(chǎn)品推薦,推薦的總是與以往購(gòu)買(mǎi)的相似或略有區(qū)別;?
通過(guò)大量的數(shù)據(jù)分析,找出書(shū)籍之間的關(guān)聯(lián)關(guān)系,即“item-to-item”,時(shí)亞馬遜發(fā)生了天翻地覆的變化。?
AMAZON銷(xiāo)售額的三分之一來(lái)自于“item-to-item”的推薦系統(tǒng)。?
AMAZON最終放棄了在線(xiàn)書(shū)評(píng),書(shū)評(píng)團(tuán)隊(duì)被解散。案例二數(shù)據(jù)處理思維轉(zhuǎn)變少量的樣本數(shù)據(jù)數(shù)據(jù)關(guān)系力求明確清晰探求難以捉數(shù)據(jù)處理思維轉(zhuǎn)變數(shù)據(jù)處理思維轉(zhuǎn)變關(guān)聯(lián)關(guān)系,預(yù)測(cè)的關(guān)鍵。很多時(shí)候,知道“是什么”就夠了,沒(méi)必要知道“為什么”。一旦我們完成了“關(guān)聯(lián)關(guān)系”分析,我們就可以繼續(xù)向更深層次研究因果關(guān)系,找出背后的“為什么”?
沃爾瑪:請(qǐng)把蛋撻和颶風(fēng)用品擺在一起,請(qǐng)把啤酒和尿片擺在一起;?
某信用評(píng)分公司,利用Facebook的社交圈來(lái)預(yù)測(cè)個(gè)人償還債務(wù)的可能性;?
對(duì)沖基金通過(guò)分析Twitter微博的數(shù)據(jù)文本,作為股市投資的信號(hào);?
某信用評(píng)分公司,利用Facebook的社交圈來(lái)預(yù)測(cè)個(gè)人償還債務(wù)的可能性;?
對(duì)沖基金通過(guò)分析Twitter微博的數(shù)據(jù)文本,作為股市投資的信號(hào);其它案例數(shù)據(jù)處理思維轉(zhuǎn)變?沃爾瑪:請(qǐng)把蛋撻和颶風(fēng)用品擺在一起,請(qǐng)把大數(shù)據(jù)與BI融合*大數(shù)據(jù)與BI融合*大數(shù)據(jù)的商業(yè)價(jià)值大數(shù)據(jù)的商業(yè)價(jià)值大數(shù)據(jù)主要廠(chǎng)商
大型企業(yè)和機(jī)構(gòu)在尋求解決棘手的大數(shù)據(jù)問(wèn)題時(shí),往往會(huì)使用開(kāi)源軟件基礎(chǔ)架構(gòu)Hadoop的服務(wù)。由于Hadoop深受歡迎,許多公司都推出了各自版本的Hadoop,也有一些公司則圍繞Hadoop提供解決方案。Hadoop的發(fā)行版除了社區(qū)的Apachehadoop外,cloudera,IBM,ORACLE等都提供了自己的商業(yè)版本。商業(yè)版主要是提供Hadoop專(zhuān)業(yè)的技術(shù)支持,這對(duì)一些大型企業(yè)尤其重要。ClouderaEMC。。。IBMOracle大數(shù)據(jù)主要廠(chǎng)商大型企業(yè)和機(jī)構(gòu)在尋求解決棘手的大數(shù)據(jù)問(wèn)題時(shí),大數(shù)據(jù)生態(tài)HIVEBigDataApplicationsPig!ZooKeeperSQLRAW非結(jié)構(gòu)化資料匯入SQL資料匯入分散式檔案系統(tǒng)類(lèi)SQL資料庫(kù)系統(tǒng)(非即時(shí)性)分散式資料庫(kù)(即時(shí)性)并行計(jì)算框架資料處理語(yǔ)言數(shù)據(jù)挖掘程序庫(kù)大數(shù)據(jù)生態(tài)HIVEBigDataApplications大數(shù)據(jù)治理體系與數(shù)據(jù)治理體系的聯(lián)系與區(qū)別大數(shù)據(jù)治理是一項(xiàng)系統(tǒng)工程,大到大數(shù)據(jù)技術(shù)平臺(tái)的搭建、組織的變革、政策的制定、流程的重組,小到元數(shù)據(jù)的管理、主數(shù)據(jù)的整合、各種類(lèi)型大數(shù)據(jù)的個(gè)性化治理和大數(shù)據(jù)的行業(yè)應(yīng)用。組織必須治理全部大數(shù)據(jù),將大數(shù)據(jù)治理定義如下:
大數(shù)據(jù)治理是廣義數(shù)據(jù)治理計(jì)劃的一部分,即制定與大數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私保護(hù)與數(shù)據(jù)變現(xiàn)的政策。將上述大數(shù)據(jù)治理的定義分解為以下部分:
大數(shù)據(jù)是廣義數(shù)據(jù)治理計(jì)劃的一部分?jǐn)?shù)據(jù)治理機(jī)構(gòu)必須采取以下措施,以將大數(shù)據(jù)整合到既有的數(shù)據(jù)治理框架中:
擴(kuò)展數(shù)據(jù)治理憲章的外延,將大數(shù)據(jù)治理納入其中;
拓寬數(shù)據(jù)治理委員會(huì)成員的范圍,將數(shù)據(jù)科學(xué)家等大數(shù)據(jù)的超級(jí)用戶(hù)吸納進(jìn)來(lái);
任命處理社交媒體等特定大數(shù)據(jù)的主管;
將大數(shù)據(jù)與元數(shù)據(jù)、隱私、數(shù)據(jù)質(zhì)量和主數(shù)據(jù)等數(shù)據(jù)治理準(zhǔn)則結(jié)合。大數(shù)據(jù)治理關(guān)乎政策制定政策包括人們?cè)谔囟ㄇ樾蜗氯绾巫鳛榈某晌暮头浅晌牡男?。譬如,大?shù)據(jù)治理政策可能申明,未經(jīng)顧客知情并同意,組織不得將顧客的Facebook資料整合到其主數(shù)據(jù)記錄中。大數(shù)據(jù)必須優(yōu)化考慮一下組織是如何將現(xiàn)實(shí)世界的準(zhǔn)則應(yīng)用到大數(shù)據(jù)治理中的。公司設(shè)計(jì)了精致的企業(yè)資產(chǎn)管理計(jì)劃,對(duì)機(jī)器、飛機(jī)、交通工具和其他資產(chǎn)進(jìn)行妥善管理。與對(duì)實(shí)物資產(chǎn)進(jìn)行登記類(lèi)似,組織必須對(duì)大數(shù)據(jù)進(jìn)行如下優(yōu)化:
元數(shù)據(jù)——建立大數(shù)據(jù)類(lèi)別信息;
數(shù)據(jù)質(zhì)量管理——像公司對(duì)實(shí)物資產(chǎn)進(jìn)行定期檢修一樣,定期凈化大數(shù)據(jù);
信息生命周期管理——對(duì)大數(shù)據(jù)進(jìn)行存檔,并在沒(méi)必要繼續(xù)保存某些數(shù)據(jù)時(shí),將其刪除。大數(shù)據(jù)隱私至關(guān)重要組織同樣必須建立旨在防止大數(shù)據(jù)誤用的適當(dāng)政策。組織在處理社交媒體、地理定位、生物計(jì)量學(xué)和其他形式的個(gè)人可識(shí)別信息(PII)時(shí),必須考慮涉及的聲譽(yù)、規(guī)制和法律風(fēng)險(xiǎn)。大數(shù)據(jù)必須變現(xiàn)所謂變現(xiàn),就是將數(shù)據(jù)等資產(chǎn)轉(zhuǎn)化為現(xiàn)金的過(guò)程,變現(xiàn)的方式可以是將數(shù)據(jù)賣(mài)給第三方,也可以是利用數(shù)據(jù)開(kāi)發(fā)新的服務(wù)。在當(dāng)下,公司意識(shí)到,必須將大數(shù)據(jù)視為具有財(cái)務(wù)價(jià)值的企業(yè)資產(chǎn)。例如,運(yùn)營(yíng)部門(mén)可以通過(guò)傳感器數(shù)據(jù),根據(jù)定期檢修計(jì)劃,提高設(shè)備正常運(yùn)行時(shí)間。呼叫中心可以分析客戶(hù)代表的記錄,通過(guò)了解顧客呼叫的原因,降低呼叫量。此外,零售商可以使用主數(shù)據(jù)激活Facebook的應(yīng)用程序,提升顧客忠誠(chéng)度。大數(shù)據(jù)治理體系與數(shù)據(jù)治理體系的聯(lián)系與區(qū)別大數(shù)據(jù)治理是一項(xiàng)系統(tǒng)02大數(shù)據(jù)平臺(tái)解決方案02大數(shù)據(jù)平臺(tái)解決方案大數(shù)據(jù)平臺(tái)整體架構(gòu)大數(shù)據(jù)平臺(tái)整體架構(gòu)大數(shù)據(jù)處理流程建立對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行SQL語(yǔ)法查詢(xún)的支持,實(shí)現(xiàn)與結(jié)構(gòu)化數(shù)據(jù)的集成關(guān)聯(lián)(key)主分類(lèi)關(guān)鍵詞標(biāo)簽地名人名全國(guó)統(tǒng)一分類(lèi)分詞,倒排搜索共性、個(gè)性文本識(shí)別處理功能模塊網(wǎng)頁(yè)分類(lèi)反向搜索關(guān)鍵詞分析日志關(guān)聯(lián)內(nèi)容分詞索引建立索引分析日志合并用戶(hù)類(lèi)別標(biāo)簽摘要結(jié)構(gòu)化元信息網(wǎng)頁(yè)信息分類(lèi)數(shù)據(jù)獲取語(yǔ)義分析數(shù)據(jù)解析
非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)獲取結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)集市數(shù)據(jù)集市EDW結(jié)構(gòu)化元數(shù)據(jù)Hadoop建立非結(jié)構(gòu)化信息的標(biāo)簽、摘要、索引、日志、內(nèi)容等提取結(jié)構(gòu)化的元數(shù)據(jù)信息,如類(lèi)別、標(biāo)引、摘要等;實(shí)現(xiàn)與結(jié)構(gòu)化數(shù)據(jù)的整合ODSSQL聲譽(yù)度分析品牌分析服務(wù)質(zhì)量分析競(jìng)爭(zhēng)產(chǎn)品分析產(chǎn)品評(píng)價(jià)市場(chǎng)動(dòng)態(tài)跟蹤ETL網(wǎng)絡(luò)爬蟲(chóng)大數(shù)據(jù)處理流程主分類(lèi)關(guān)鍵詞標(biāo)簽地名人名全國(guó)統(tǒng)一分類(lèi)分詞,倒排大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)關(guān)鍵技術(shù)-Hadoop大數(shù)據(jù)關(guān)鍵技術(shù)-HadoopHadoop系統(tǒng)工作原理Hadoop系統(tǒng)工作原理大數(shù)據(jù)關(guān)鍵技術(shù)-網(wǎng)絡(luò)數(shù)據(jù)獲取分布式網(wǎng)絡(luò)爬蟲(chóng)分布式文件系統(tǒng)分布式存儲(chǔ)橫向擴(kuò)容(Scale-out)架構(gòu)分布式軟件架構(gòu)并行計(jì)算框架大數(shù)據(jù)關(guān)鍵技術(shù)-網(wǎng)絡(luò)數(shù)據(jù)獲取分布式網(wǎng)絡(luò)爬蟲(chóng)分布式文件系統(tǒng)分布大數(shù)據(jù)關(guān)鍵技術(shù)-兩種平臺(tái)相互集成大數(shù)據(jù)關(guān)鍵技術(shù)-兩種平臺(tái)相互集成大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)應(yīng)用功能數(shù)據(jù)查詢(xún)數(shù)據(jù)統(tǒng)計(jì)信息檢索數(shù)據(jù)分析語(yǔ)義分析數(shù)據(jù)挖掘經(jīng)營(yíng)管理市場(chǎng)活動(dòng)市場(chǎng)口碑分銷(xiāo)管理決策支持用戶(hù)服務(wù)大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)應(yīng)用功能數(shù)據(jù)查詢(xún)數(shù)據(jù)統(tǒng)計(jì)信息檢索數(shù)據(jù)分析大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)管控大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)管控03大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理方法03大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理方法傳統(tǒng)數(shù)據(jù)平臺(tái)與大數(shù)據(jù)分布式平臺(tái)特性差異傳統(tǒng)數(shù)據(jù)平臺(tái)與大數(shù)據(jù)分布式平臺(tái)特性差異大數(shù)據(jù)分析與傳統(tǒng)BI分析差異結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)規(guī)模一般為T(mén)B規(guī)模集中式,為了分析進(jìn)行大量數(shù)據(jù)移動(dòng),數(shù)據(jù)向計(jì)算靠近批處理為主結(jié)構(gòu)化/非結(jié)構(gòu)化混合分析的能力數(shù)據(jù)規(guī)模從數(shù)十TB到PB級(jí)別分布式,計(jì)算向數(shù)據(jù)靠近支持流式分析事務(wù)關(guān)系型數(shù)據(jù)庫(kù)批處理數(shù)據(jù)倉(cāng)庫(kù)分析集群化非結(jié)構(gòu)化流式多種數(shù)據(jù)源分析(MapReduce)組織傳統(tǒng)BI分析大數(shù)據(jù)分析大數(shù)據(jù)分析與傳統(tǒng)BI分析差異結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化/非結(jié)構(gòu)化混合分大數(shù)據(jù)處理和管理體系-多結(jié)構(gòu)化大數(shù)據(jù)處理和管理體系-多結(jié)構(gòu)化大數(shù)據(jù)實(shí)施建議第一階段:應(yīng)用場(chǎng)景驅(qū)動(dòng)的大數(shù)據(jù)開(kāi)發(fā)第二階段:各業(yè)務(wù)系統(tǒng)、各渠道系統(tǒng)等配合大數(shù)據(jù)改造優(yōu)化第三階段:管理信息體系下的大數(shù)據(jù)平臺(tái)建設(shè)第四階段(目標(biāo)):以大數(shù)據(jù)驅(qū)動(dòng)的,實(shí)時(shí)的、整體聯(lián)動(dòng)的IT解決方案Think
big,
start
small.大處著眼,小處著手。大數(shù)據(jù)實(shí)施建議第一階段:應(yīng)用場(chǎng)景驅(qū)動(dòng)第二階段:各渠道系統(tǒng)等第大數(shù)據(jù)實(shí)施方法論大數(shù)據(jù)業(yè)務(wù)戰(zhàn)略大數(shù)據(jù)建設(shè)目標(biāo)大數(shù)據(jù)架構(gòu)設(shè)計(jì)大數(shù)據(jù)實(shí)施大數(shù)據(jù)運(yùn)維企業(yè)戰(zhàn)略目標(biāo)業(yè)務(wù)目標(biāo)業(yè)務(wù)模式大數(shù)據(jù)治理目標(biāo)應(yīng)用場(chǎng)景服務(wù)模式服務(wù)對(duì)象大數(shù)據(jù)服務(wù)定義大數(shù)據(jù)信息模型大數(shù)據(jù)管理定義技術(shù)選擇驗(yàn)證測(cè)試容量規(guī)劃安裝,配置驗(yàn)收測(cè)試系統(tǒng)上線(xiàn)大數(shù)據(jù)服務(wù)管理服務(wù)性能管理生命周期管理資源調(diào)度系統(tǒng)監(jiān)控大數(shù)據(jù)持續(xù)改進(jìn)業(yè)務(wù)調(diào)整服務(wù)改進(jìn)技術(shù)升級(jí)架構(gòu)優(yōu)化大數(shù)據(jù)實(shí)施方法論大數(shù)據(jù)業(yè)務(wù)戰(zhàn)略大數(shù)據(jù)建設(shè)目標(biāo)大數(shù)據(jù)架構(gòu)設(shè)計(jì)大大數(shù)據(jù)的角色和技能大數(shù)據(jù)的角色和技能大數(shù)據(jù)治理成熟度模型實(shí)施大數(shù)據(jù)治理的第一步,是評(píng)估大數(shù)據(jù)治理成熟度的當(dāng)前狀態(tài)和期望的未來(lái)狀態(tài)?,F(xiàn)將某信息治理委員會(huì)的成熟度模型用于成熟度評(píng)估。該模型設(shè)立了4個(gè)領(lǐng)域的11個(gè)大數(shù)據(jù)治理成熟度指標(biāo)。29支持準(zhǔn)則數(shù)據(jù)架構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)審計(jì)信息日志和報(bào)告核心準(zhǔn)則數(shù)據(jù)質(zhì)量管理信息生命周期管理信息安全與隱私支持要素管理人員數(shù)據(jù)風(fēng)險(xiǎn)管理政策目標(biāo)業(yè)務(wù)成果要求支持增強(qiáng)組織機(jī)構(gòu)和認(rèn)識(shí)元數(shù)據(jù)大數(shù)據(jù)治理成熟度模型實(shí)施大數(shù)據(jù)治理的第一步,是評(píng)估大數(shù)據(jù)治理大數(shù)據(jù)治理成熟度模型介紹及問(wèn)題示例30目標(biāo)目標(biāo)指信息治理計(jì)劃的預(yù)期結(jié)果。目標(biāo)傾向于關(guān)注降低風(fēng)險(xiǎn)與提升價(jià)值,這反過(guò)來(lái)又受降低成本和提高收入的驅(qū)動(dòng)。業(yè)務(wù)成果:代表信息治理計(jì)劃的目標(biāo)和目的。業(yè)務(wù)成果:A是否已經(jīng)確定了大數(shù)據(jù)治理計(jì)劃的關(guān)鍵業(yè)務(wù)關(guān)聯(lián)方?B是否對(duì)大數(shù)據(jù)治理可帶來(lái)的財(cái)務(wù)收益進(jìn)行了量化?支持要素核心準(zhǔn)則支持準(zhǔn)則組織結(jié)構(gòu)和認(rèn)識(shí):指業(yè)務(wù)部門(mén)和IT部門(mén)間的相互責(zé)任,以及對(duì)治理不同管理層次中數(shù)據(jù)的信托責(zé)任的認(rèn)識(shí)。管理人員:旨在保證數(shù)據(jù)監(jiān)護(hù),實(shí)現(xiàn)資產(chǎn)增值、風(fēng)險(xiǎn)消解和組織控制的質(zhì)量控制準(zhǔn)則。數(shù)據(jù)風(fēng)險(xiǎn)管理:據(jù)以識(shí)別、保留、量化、規(guī)避、接受、消解和轉(zhuǎn)嫁風(fēng)險(xiǎn)的方法論。政策:期望得到落實(shí)的組織行為的書(shū)面表達(dá)。數(shù)據(jù)結(jié)構(gòu)和認(rèn)識(shí):如關(guān)鍵角色的職位說(shuō)明中,是否包含大數(shù)據(jù)治理,如配備首席數(shù)據(jù)官和信息治理官?管理人員:是否已經(jīng)建立了責(zé)任分配(RACI)矩陣,以定義針對(duì)大數(shù)據(jù)關(guān)鍵屬性的角色和責(zé)任?數(shù)據(jù)風(fēng)險(xiǎn)管理:是否在大數(shù)據(jù)治理與風(fēng)險(xiǎn)治理之間建立了聯(lián)系?政策:是否已經(jīng)歸檔了一組大數(shù)據(jù)治理政策?數(shù)據(jù)質(zhì)量管理:指測(cè)量、提高和保證產(chǎn)品數(shù)據(jù)、測(cè)試數(shù)據(jù)和歸檔數(shù)據(jù)的質(zhì)量和集成性的方法。信息生命周期管理:有關(guān)信息采集、使用、保留和刪除的系統(tǒng)化的、基于策略的方法。信息安全與隱私:組織用于消解風(fēng)險(xiǎn)和保護(hù)數(shù)據(jù)資產(chǎn)的策略、實(shí)踐和控制手段。數(shù)據(jù)質(zhì)量管理:對(duì)于與大數(shù)據(jù)相關(guān)的質(zhì)量問(wèn)題(數(shù)據(jù)價(jià)值不高或不顯著),是否達(dá)成了一致意見(jiàn)?信息生命周期管理:是否制定了流程,根據(jù)法律和業(yè)務(wù)要求合法處理不再需要的大數(shù)據(jù)?信息安全和隱私:首席信息安全官是否是大數(shù)據(jù)治理計(jì)劃的關(guān)鍵支持者?數(shù)據(jù)架構(gòu):結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)及應(yīng)用的架構(gòu)式設(shè)計(jì),用于實(shí)現(xiàn)數(shù)據(jù)的可用性,并將數(shù)據(jù)分配給合適的用戶(hù)。元數(shù)據(jù):指用于創(chuàng)建常見(jiàn)的語(yǔ)義定義、IT術(shù)語(yǔ)、數(shù)據(jù)模型和數(shù)據(jù)庫(kù)的方法和工具。審計(jì)信息日志和報(bào)告:指監(jiān)測(cè)和測(cè)量數(shù)據(jù)價(jià)值、風(fēng)險(xiǎn)和信息治理有效性的組織流程。數(shù)據(jù)架構(gòu):Hadoop、NoSQL以及與當(dāng)前架構(gòu)相關(guān)的其他新興大數(shù)據(jù)技術(shù)的共存戰(zhàn)略是怎樣的?分類(lèi)和元數(shù)據(jù):業(yè)務(wù)詞庫(kù)是否包含與大數(shù)據(jù)相關(guān)的關(guān)鍵業(yè)務(wù)術(shù)語(yǔ)(如針對(duì)點(diǎn)擊流數(shù)據(jù)的“獨(dú)立訪(fǎng)客”)?審計(jì)信息日志和報(bào)告:企業(yè)如何檢測(cè)特權(quán)用戶(hù)對(duì)醫(yī)保索賠和通話(huà)詳單等敏感大數(shù)據(jù)的訪(fǎng)問(wèn)?問(wèn)題示例模型介紹大數(shù)據(jù)治理成熟度模型介紹及問(wèn)題示例30目標(biāo)目標(biāo)指信息治理計(jì)劃案例某大型金融機(jī)構(gòu)資金管理部的大數(shù)據(jù)治理路線(xiàn)圖31創(chuàng)建Hadoop基礎(chǔ)設(shè)施大數(shù)據(jù)治理的演進(jìn)關(guān)鍵活動(dòng)每日頭寸快照社交媒體和非結(jié)構(gòu)化內(nèi)容治理大數(shù)據(jù)某大型金融機(jī)構(gòu)的資金管理部,為大中型企業(yè)提供現(xiàn)金管理和流動(dòng)性管理的綜合服務(wù)。該部門(mén)處于部署大數(shù)據(jù)計(jì)劃的早期階段,其最初的大數(shù)據(jù)治理路線(xiàn)圖如右圖所示:第1-6個(gè)月構(gòu)建技術(shù)基礎(chǔ)設(shè)施,獲得Linux服務(wù)器和ApacheHadoop發(fā)行版。由于大數(shù)據(jù)是一個(gè)新事物,在切入業(yè)務(wù)前,必須設(shè)計(jì)一個(gè)可行的用例,并進(jìn)行財(cái)務(wù)可行性論證。此外,組織要認(rèn)真審視數(shù)據(jù)管理的傳統(tǒng)方面:怎樣將數(shù)據(jù)導(dǎo)入并導(dǎo)出Hadoop?Hadoop中的數(shù)據(jù)質(zhì)量如何?大數(shù)據(jù)的元數(shù)據(jù)是怎樣的?如何將大數(shù)據(jù)整合到未來(lái)12個(gè)月將要部署的主數(shù)據(jù)管理數(shù)據(jù)庫(kù)中?大數(shù)據(jù)已經(jīng)成為主流媒體的熱門(mén)詞匯,高管層至少很有可能同意支持一個(gè)大數(shù)據(jù)試點(diǎn)項(xiàng)目。因此,數(shù)據(jù)治理團(tuán)隊(duì)需要及時(shí)更新路線(xiàn)圖,將與大數(shù)據(jù)有關(guān)的人員、流程和技術(shù)計(jì)劃納入其中。第6-12個(gè)月引入詳細(xì)的交易記錄,以分析每日頭寸快照。受傳統(tǒng)基礎(chǔ)設(shè)施成本高昂的影響,以往的金融機(jī)構(gòu)從未進(jìn)行這樣細(xì)致入微的分析。第12-24個(gè)月將社交媒體數(shù)據(jù)和其他非結(jié)構(gòu)化內(nèi)容引入Hadoop環(huán)境。由于金融機(jī)構(gòu)的大多數(shù)客戶(hù)是大企業(yè),對(duì)交易對(duì)手的10-K和10-Q歸檔等非結(jié)構(gòu)化內(nèi)容,進(jìn)行探索性分析。第24-36個(gè)月資金管理部已經(jīng)有了現(xiàn)成的聚焦于大企業(yè)客戶(hù)的主數(shù)據(jù)的信息治理計(jì)劃。案例某大型金融機(jī)構(gòu)資金管理部的大數(shù)據(jù)治理路線(xiàn)圖31創(chuàng)建Had大數(shù)據(jù)處理框架的組成32大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。我們將大數(shù)據(jù)分為五種:web和社交媒體數(shù)據(jù)、機(jī)器對(duì)機(jī)器的數(shù)據(jù)、大體量交易數(shù)據(jù)、生物計(jì)量學(xué)數(shù)據(jù)和人工生成的數(shù)據(jù)。大數(shù)據(jù)類(lèi)型信息治理準(zhǔn)則產(chǎn)業(yè)與功能傳統(tǒng)的信息治理準(zhǔn)則,同樣適用于大數(shù)據(jù),相關(guān)準(zhǔn)則包括組織、元數(shù)據(jù)、隱私、數(shù)據(jù)質(zhì)量、業(yè)務(wù)流程整合、主數(shù)據(jù)整合和信息生命周期管理。大數(shù)據(jù)分析是受例驅(qū)動(dòng)的,用例的具體情況因產(chǎn)能和功能而異。限于篇幅,我們只列出了部分的產(chǎn)業(yè)和功能。大數(shù)據(jù)處理框架的組成32大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。我大數(shù)據(jù)的類(lèi)型大數(shù)據(jù)大體可分為五種類(lèi)型33Web和社交媒體數(shù)據(jù)二的點(diǎn)擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點(diǎn)擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容機(jī)器對(duì)機(jī)器的數(shù)據(jù)二的公用事業(yè)智能儀表讀數(shù)RFID讀數(shù)石油鉆探設(shè)備傳感器讀數(shù)網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點(diǎn)擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點(diǎn)擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容類(lèi)型大數(shù)據(jù)的類(lèi)型大數(shù)據(jù)大體可分為五種類(lèi)型33Web和社交媒體數(shù)據(jù)職責(zé)分配(RACI)所代表的內(nèi)涵34應(yīng)負(fù)責(zé)方(Responsible)指授權(quán)管理某屬性的人。(一種屬性可有多個(gè)負(fù)責(zé)人)最終負(fù)責(zé)方(Accountable)指數(shù)據(jù)屬性承擔(dān)最終責(zé)任的人。咨詢(xún)方(Consulted)指通過(guò)雙向溝通接受咨詢(xún)的某人或某些人。被告知方(Informed)指通過(guò)單向溝通被告知的某人或某些人。職責(zé)分配(RACI)所代表的內(nèi)涵34應(yīng)負(fù)責(zé)方(Respons大數(shù)據(jù)治理計(jì)劃需要實(shí)施的最佳實(shí)踐351324創(chuàng)建一個(gè)體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語(yǔ)的業(yè)務(wù)定義的詞庫(kù)。理解對(duì)ApacheHadoop中元數(shù)據(jù)的持續(xù)支持。對(duì)業(yè)務(wù)詞庫(kù)中的敏感大數(shù)據(jù)進(jìn)行標(biāo)記。從相關(guān)的大數(shù)據(jù)存儲(chǔ)中輸入技術(shù)元數(shù)據(jù)。將相關(guān)的數(shù)據(jù)元與業(yè)務(wù)詞庫(kù)中的術(shù)語(yǔ)進(jìn)行鏈接。5768使用運(yùn)營(yíng)元數(shù)據(jù)監(jiān)測(cè)大數(shù)據(jù)的流動(dòng)。保留技術(shù)元數(shù)據(jù),以支持?jǐn)?shù)據(jù)血統(tǒng)和影響分析。從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索。擴(kuò)展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中。9元數(shù)據(jù)是描述數(shù)據(jù)產(chǎn)品特征的任何信息,如名字、位置、可感知的、重要性、質(zhì)量、對(duì)企業(yè)的價(jià)值,以及與企業(yè)認(rèn)為值得管理的其他數(shù)據(jù)產(chǎn)品的關(guān)系等。元數(shù)據(jù)決定信息架構(gòu)的如何滿(mǎn)足業(yè)務(wù)需求,因此元數(shù)據(jù)是信息治理計(jì)劃的關(guān)鍵。大數(shù)據(jù)治理計(jì)劃需要實(shí)施的最佳實(shí)踐351324創(chuàng)建一個(gè)體現(xiàn)關(guān)鍵業(yè)務(wù)詞庫(kù)36業(yè)務(wù)詞庫(kù)業(yè)務(wù)詞庫(kù)是企業(yè)用于傳達(dá)其對(duì)信息的認(rèn)識(shí)的語(yǔ)言。創(chuàng)建并維護(hù)該層業(yè)務(wù)元數(shù)據(jù),對(duì)表達(dá)要求的含義和描述IT系統(tǒng)可用的信息至關(guān)重要。業(yè)務(wù)詞庫(kù)保證了信息開(kāi)發(fā)的準(zhǔn)確性和速度。術(shù)語(yǔ)代表著企業(yè)和業(yè)務(wù)層面對(duì)信息的理解,所以許多組織傾向于自下而上創(chuàng)建數(shù)據(jù)詞典,對(duì)已有的信息進(jìn)行歸類(lèi)。在處理大數(shù)據(jù)時(shí),業(yè)務(wù)驅(qū)動(dòng)的數(shù)據(jù)定義和數(shù)據(jù)目錄之間的區(qū)別尤為重要業(yè)務(wù)詞庫(kù)保證了信息開(kāi)發(fā)的準(zhǔn)確性和速度。在處理大數(shù)據(jù)時(shí),業(yè)務(wù)驅(qū)動(dòng)的數(shù)據(jù)定義和數(shù)據(jù)目錄之間的區(qū)別尤為重要。業(yè)務(wù)詞庫(kù)36業(yè)務(wù)詞庫(kù)業(yè)務(wù)詞庫(kù)是企業(yè)用于傳達(dá)其對(duì)信息的認(rèn)識(shí)的語(yǔ)對(duì)業(yè)務(wù)詞庫(kù)中的敏感數(shù)據(jù)37對(duì)敏感的大數(shù)據(jù)進(jìn)行分類(lèi)發(fā)現(xiàn)敏感數(shù)據(jù)對(duì)業(yè)務(wù)詞庫(kù)中的敏感數(shù)據(jù)進(jìn)行標(biāo)記執(zhí)行大數(shù)據(jù)隱私政策進(jìn)行分類(lèi)大數(shù)據(jù)治理計(jì)劃需要對(duì)社會(huì)保險(xiǎn)號(hào)碼等敏感數(shù)據(jù)進(jìn)行分類(lèi)。分類(lèi)應(yīng)來(lái)自業(yè)務(wù)詞庫(kù)模型并被傳承到不同數(shù)據(jù)庫(kù)中數(shù)據(jù)的所有物理實(shí)例中。敏感的大數(shù)據(jù)可能隱藏在非結(jié)構(gòu)化文本中。大數(shù)據(jù)治理計(jì)劃應(yīng)考慮數(shù)據(jù)分析工具的利用,以便自動(dòng)發(fā)現(xiàn)非結(jié)構(gòu)化字段的敏感數(shù)據(jù)。首席信息安全官制定有關(guān)敏感數(shù)據(jù)的政策。只有在識(shí)別到敏感數(shù)據(jù)的位置時(shí),組織才能執(zhí)行政策,因此,在業(yè)務(wù)詞庫(kù)中標(biāo)記敏感數(shù)據(jù)就非常關(guān)鍵。大數(shù)據(jù)治理團(tuán)隊(duì)可以通過(guò)使用數(shù)據(jù)分析工具發(fā)現(xiàn)敏感的大數(shù)據(jù),以監(jiān)督對(duì)政策的遵從度。對(duì)業(yè)務(wù)詞庫(kù)中的敏感數(shù)據(jù)37對(duì)敏感的大數(shù)據(jù)進(jìn)行分類(lèi)發(fā)現(xiàn)敏感數(shù)據(jù)從相關(guān)的大數(shù)據(jù)存儲(chǔ)中輸入技術(shù)元數(shù)據(jù)38在創(chuàng)建業(yè)務(wù)詞庫(kù)后大數(shù)據(jù)治理團(tuán)隊(duì)需要從大數(shù)據(jù)源中采集合用的、相關(guān)的元數(shù)據(jù)。大數(shù)據(jù)源Hadoop文件商業(yè)智能報(bào)告應(yīng)用數(shù)據(jù)庫(kù)數(shù)據(jù)模型準(zhǔn)結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化信息管理經(jīng)銷(xiāo)商元數(shù)據(jù)中央存儲(chǔ)庫(kù)橋接器連接器從相關(guān)的大數(shù)據(jù)存儲(chǔ)中輸入技術(shù)元數(shù)據(jù)38在創(chuàng)建業(yè)務(wù)詞庫(kù)后大數(shù)據(jù)元數(shù)據(jù)39元數(shù)據(jù)創(chuàng)建一個(gè)體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語(yǔ)的業(yè)務(wù)定義的詞庫(kù)理解對(duì)ApacheHadoop中元數(shù)據(jù)的持續(xù)支持對(duì)業(yè)務(wù)詞庫(kù)中的敏感大數(shù)據(jù)進(jìn)行標(biāo)記從相關(guān)的大數(shù)據(jù)存儲(chǔ)中輸入技術(shù)元數(shù)據(jù)將相關(guān)的數(shù)據(jù)元與業(yè)務(wù)詞庫(kù)的術(shù)語(yǔ)進(jìn)行鏈接使用運(yùn)營(yíng)元數(shù)據(jù)監(jiān)測(cè)大數(shù)據(jù)的流動(dòng)保留技術(shù)元數(shù)據(jù),以支持?jǐn)?shù)據(jù)血統(tǒng)和影響分析元數(shù)據(jù)39元數(shù)據(jù)創(chuàng)建一個(gè)體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語(yǔ)的業(yè)務(wù)定義的詞庫(kù)理從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索創(chuàng)建非結(jié)構(gòu)化數(shù)據(jù)的索引,也是元數(shù)據(jù)的一種形式,許多企業(yè)的搜索供應(yīng)商已開(kāi)發(fā)相應(yīng)工具。40保險(xiǎn)業(yè)通過(guò)向呼叫人員提供客服關(guān)懷、告警、保單和客戶(hù)信息文件等多個(gè)文件庫(kù)的可搜索訪(fǎng)問(wèn),可將平均處理時(shí)間減少三秒,年節(jié)約數(shù)百萬(wàn)美元。通過(guò)提供對(duì)EMCDocumentum、文件系統(tǒng)、微軟Share-Point、內(nèi)網(wǎng)和外部數(shù)據(jù)庫(kù)中客戶(hù)、患者和研究數(shù)據(jù)的快速訪(fǎng)問(wèn),加快科研進(jìn)程。讓臨床醫(yī)生可訪(fǎng)問(wèn)來(lái)自醫(yī)學(xué)刊物和其他文件庫(kù)的最新研究成果。制藥業(yè)醫(yī)療保險(xiǎn)業(yè)從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索創(chuàng)建非結(jié)構(gòu)化數(shù)據(jù)的索拓展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中信息治理團(tuán)隊(duì)可能安排許多與原數(shù)據(jù)相關(guān)的角色。組織需考慮這些角色進(jìn)行拓展,以將大數(shù)據(jù)治理納入進(jìn)來(lái)。41業(yè)務(wù)詞庫(kù)管理者數(shù)據(jù)科學(xué)家元數(shù)據(jù)管理者數(shù)據(jù)血統(tǒng)管理者數(shù)據(jù)主管數(shù)據(jù)架構(gòu)師本角色負(fù)責(zé)保管應(yīng)將大數(shù)據(jù)術(shù)語(yǔ)包含在內(nèi)的業(yè)務(wù)詞庫(kù)。本角色負(fù)責(zé)在相關(guān)數(shù)據(jù)源識(shí)別和輸入技術(shù)元數(shù)據(jù)。數(shù)據(jù)血統(tǒng)管理者與數(shù)據(jù)管理者配合,確保數(shù)據(jù)血統(tǒng)分析中數(shù)據(jù)源之間的數(shù)據(jù)流可得到準(zhǔn)確地反映。本角色參與大數(shù)據(jù)特別是關(guān)鍵業(yè)務(wù)術(shù)語(yǔ)定義的管理。本角色監(jiān)督元數(shù)據(jù)模型的創(chuàng)建及其與企業(yè)數(shù)據(jù)模型的連接。本角色縮短了大數(shù)據(jù)原始卷和使其有用的業(yè)務(wù)洞察間的距離,其通過(guò)創(chuàng)造力和想象力創(chuàng)建原型,以揭開(kāi)大數(shù)據(jù)中的秘密。拓展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中信息治理團(tuán)隊(duì)可能安排許大數(shù)據(jù)質(zhì)量42維度傳統(tǒng)數(shù)據(jù)的質(zhì)量大數(shù)據(jù)的質(zhì)量處理頻率處理是面向批量的處理是實(shí)時(shí)的或面向批量的數(shù)據(jù)多樣性數(shù)據(jù)格式大部分是結(jié)構(gòu)化的數(shù)據(jù)格式可能是結(jié)構(gòu)化的、準(zhǔn)結(jié)構(gòu)化的或非結(jié)構(gòu)化的置信度數(shù)據(jù)需處于原始階段,以方便數(shù)據(jù)倉(cāng)庫(kù)的分析糟糕的數(shù)據(jù)質(zhì)量可能會(huì)阻礙分析工具獲得業(yè)務(wù)洞察數(shù)據(jù)進(jìn)化的時(shí)間選擇在下載到數(shù)據(jù)倉(cāng)庫(kù)前數(shù)據(jù)需要進(jìn)化數(shù)據(jù)的體量和速度可能要求采取流式的、內(nèi)存中的分析來(lái)進(jìn)化數(shù)據(jù)、從而降低存儲(chǔ)要求關(guān)鍵數(shù)據(jù)元素評(píng)估客戶(hù)地址等關(guān)鍵數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量數(shù)據(jù)可能被模糊定義或錯(cuò)誤定義,關(guān)鍵數(shù)據(jù)元素可能會(huì)反復(fù)變化分析位置數(shù)據(jù)遷移到數(shù)據(jù)質(zhì)量和分析引擎數(shù)據(jù)質(zhì)量和分析引擎可進(jìn)入數(shù)據(jù)中,以保證可接受的處理速度管理工作數(shù)據(jù)主管可管理大部分?jǐn)?shù)據(jù)由于體量大和速度快,數(shù)據(jù)主管只能管理相對(duì)更小的數(shù)據(jù)數(shù)據(jù)質(zhì)量管理是測(cè)度、提高、驗(yàn)證質(zhì)量以及整合組織數(shù)據(jù)的方法等一套行為準(zhǔn)則。體量極大、速度極快和多樣的特點(diǎn),決定了大數(shù)據(jù)質(zhì)量所需的處理有別于傳統(tǒng)信息治理計(jì)劃的質(zhì)量管理。大數(shù)據(jù)質(zhì)量42維度傳統(tǒng)數(shù)據(jù)的質(zhì)量大數(shù)據(jù)的質(zhì)量處理頻率處理是面大數(shù)據(jù)治理計(jì)劃必須采取的實(shí)踐439.1與商業(yè)上的利益攸關(guān)者協(xié)作,建立并測(cè)度大數(shù)據(jù)質(zhì)量的置信區(qū)間9.2利用準(zhǔn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),提高人口稀疏的結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量9.3使用流數(shù)據(jù)分析技術(shù)解決內(nèi)存中的數(shù)據(jù)質(zhì)量問(wèn)題,無(wú)需將中間結(jié)果輸入硬盤(pán)9.4任命對(duì)信息治理委員會(huì)負(fù)責(zé)的主管,由其負(fù)責(zé)提高大數(shù)據(jù)治理計(jì)劃必須采取的實(shí)踐439.1與商業(yè)上的利益攸關(guān)者業(yè)務(wù)流程整合
4410.1識(shí)別將會(huì)受到大數(shù)據(jù)治理影響的關(guān)鍵流程10.2建立關(guān)鍵合同的流程圖10.3針對(duì)業(yè)務(wù)流程中的關(guān)鍵步驟,制定大數(shù)據(jù)治理政策業(yè)務(wù)流程整合4410.1識(shí)別將會(huì)受到大數(shù)據(jù)治理影響的關(guān)鍵流1.大數(shù)據(jù)源圖21.1大數(shù)據(jù)技術(shù)參考架構(gòu)45Web和社交媒體數(shù)據(jù)機(jī)器對(duì)機(jī)器的數(shù)據(jù)大體量交易數(shù)據(jù)生物計(jì)量學(xué)數(shù)據(jù)人工生成的數(shù)據(jù)15.大數(shù)據(jù)安全和隱私16.大數(shù)據(jù)生命周期管理17.云2.開(kāi)源的基礎(chǔ)組件HDFSMapReduceHadoopCommonHBaseOthers5.數(shù)據(jù)庫(kù)NoSQLIn-MemoryRelationalLegacy6.大數(shù)據(jù)整合批量遷移復(fù)制虛擬化7.文本分析8.大數(shù)據(jù)發(fā)現(xiàn)9.大數(shù)據(jù)質(zhì)量10.元數(shù)據(jù)11.信息政策管理12.主數(shù)據(jù)管理13.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市14.大數(shù)據(jù)分析和報(bào)告3.Hadoop發(fā)行版4.流媒體分析18.大數(shù)據(jù)標(biāo)準(zhǔn)8.大數(shù)據(jù)發(fā)現(xiàn)9.大數(shù)據(jù)質(zhì)量1.大數(shù)據(jù)源圖21.1大數(shù)據(jù)技術(shù)參考架構(gòu)45Web和社交媒微軟的大數(shù)據(jù)平臺(tái)461.微軟Hadoop發(fā)行版6.WindowsAzureExcel5.大數(shù)據(jù)分析與報(bào)告SQLServerAnalysisServicesSQLServerParallelEditionSQLServerReportingServices4.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市3.大數(shù)據(jù)整合2.數(shù)據(jù)庫(kù)開(kāi)源基礎(chǔ)組件大數(shù)據(jù)源SQLServerIntegrationServicesSQLServer微軟的大數(shù)據(jù)平臺(tái)461.微軟Hadoop發(fā)行版6.Windo理解對(duì)ApacheHadoop中元數(shù)據(jù)的持續(xù)支持47名稱(chēng)節(jié)點(diǎn)數(shù)據(jù)塊A數(shù)據(jù)節(jié)點(diǎn)機(jī)架1數(shù)據(jù)塊B數(shù)據(jù)塊C數(shù)據(jù)塊A數(shù)據(jù)節(jié)點(diǎn)機(jī)架2數(shù)據(jù)塊B數(shù)據(jù)塊C數(shù)據(jù)塊A數(shù)據(jù)節(jié)點(diǎn)機(jī)架3數(shù)據(jù)塊B數(shù)據(jù)塊C圖:Hadoop分布式文件系統(tǒng)(HDFS)的技術(shù)構(gòu)架作為Hadoop關(guān)鍵支持要素的元數(shù)據(jù)如圖Hadoop分布式文件系統(tǒng)(HDFS)是一個(gè)帶單個(gè)名稱(chēng)節(jié)點(diǎn)和多個(gè)數(shù)據(jù)結(jié)點(diǎn)的主/從架構(gòu)。單點(diǎn)故障因?yàn)镠DFS很容易受到名稱(chēng)節(jié)點(diǎn)故障的損害,所以Hadoop經(jīng)銷(xiāo)商建議管理者存儲(chǔ)一些不同本地硬盤(pán)的備份可拓展性隨著數(shù)據(jù)存儲(chǔ)動(dòng)能的擴(kuò)大,主服務(wù)器名稱(chēng)節(jié)點(diǎn)可能出現(xiàn)可拓展性的問(wèn)題,主服務(wù)器名稱(chēng)節(jié)點(diǎn)必須將所有元數(shù)據(jù)保存在內(nèi)存中。HCatalogHcatalog項(xiàng)目是Apache孵化器的一部分,旨在解決Hadoop中缺乏元數(shù)據(jù)支持的問(wèn)題。理解對(duì)ApacheHadoop中元數(shù)據(jù)的持續(xù)支持47名稱(chēng)節(jié)大數(shù)據(jù)安全與隱私48部分漏洞變通方案HDFS沒(méi)有授權(quán)系統(tǒng),注冊(cè)用戶(hù)可以在群中讀寫(xiě)任何數(shù)據(jù)Hadoop注冊(cè)用戶(hù)通過(guò)“whoami”命令訪(fǎng)問(wèn),這是不安全的Hbase沒(méi)有訪(fǎng)問(wèn)控制,Hadoop群中任何工作運(yùn)行均可以訪(fǎng)問(wèn)群中任何數(shù)據(jù)……不要在Hadoop中存儲(chǔ)任何敏感數(shù)據(jù)對(duì)敏感數(shù)據(jù)進(jìn)行加密,包括隱藏文本和非結(jié)構(gòu)歐化領(lǐng)域的內(nèi)容將每個(gè)數(shù)據(jù)置于自己的群中,以便用戶(hù)僅可以訪(fǎng)問(wèn)被授權(quán)的數(shù)據(jù)……Hadoop是一項(xiàng)新技術(shù),我們預(yù)計(jì)隨著大公司和供應(yīng)鏈的介入,上述問(wèn)題將被得到解決。大數(shù)據(jù)安全與隱私48部分漏洞變通方案HDFS沒(méi)有授權(quán)系統(tǒng),04大數(shù)據(jù)質(zhì)量管理平臺(tái)04大數(shù)據(jù)質(zhì)量管理平臺(tái)數(shù)據(jù)質(zhì)量管理平臺(tái)技術(shù)架構(gòu)數(shù)據(jù)質(zhì)量檢查規(guī)則執(zhí)行模塊作為多個(gè)ETL任務(wù)部署在工商數(shù)據(jù)平臺(tái)ETL服務(wù)器上,由Automation工作流調(diào)度服務(wù)統(tǒng)一調(diào)度運(yùn)行,實(shí)現(xiàn)各個(gè)數(shù)據(jù)區(qū)技術(shù)和業(yè)務(wù)數(shù)據(jù)質(zhì)量檢查數(shù)據(jù)質(zhì)量管理系統(tǒng)元模型包含檢查規(guī)則、檢查執(zhí)行結(jié)果、分析報(bào)告,模型作為一個(gè)獨(dú)立的Schema部署在決策分析報(bào)表平臺(tái)的數(shù)據(jù)庫(kù)數(shù)據(jù)質(zhì)量檢查規(guī)則配置模塊作為JavaWeb應(yīng)用部署在工商數(shù)據(jù)平臺(tái)Tomcat集群上,數(shù)據(jù)質(zhì)量管理員通過(guò)統(tǒng)一的Web服務(wù)訪(fǎng)問(wèn),實(shí)現(xiàn)檢查規(guī)則的維護(hù)數(shù)據(jù)質(zhì)量分析報(bào)告展現(xiàn)模塊作為JavaWeb應(yīng)用部署在工商數(shù)據(jù)平臺(tái)Tomcat集群上,用戶(hù)通過(guò)統(tǒng)一的Web服務(wù)訪(fǎng)問(wèn),實(shí)現(xiàn)日?qǐng)?bào)、月報(bào)的瀏覽、下載等功能數(shù)據(jù)質(zhì)量分析報(bào)告生成模塊作為一個(gè)ETL任務(wù)部署在決策分析報(bào)表平臺(tái)ETL服務(wù)器上,由Automation工作流調(diào)度服務(wù)統(tǒng)一調(diào)度運(yùn)行,按照每日、每月生成各數(shù)據(jù)區(qū)數(shù)據(jù)質(zhì)量檢查報(bào)告數(shù)據(jù)質(zhì)量管理平臺(tái)以元信息模型為核心,由規(guī)則配置管理模塊、檢查執(zhí)行模塊、分析報(bào)告生成模塊和分析報(bào)告展現(xiàn)模塊四部分構(gòu)成。整個(gè)數(shù)據(jù)質(zhì)量檢查過(guò)程以ETL任務(wù)的形式統(tǒng)一調(diào)度執(zhí)行。數(shù)據(jù)質(zhì)量管理平臺(tái)技術(shù)架構(gòu)數(shù)據(jù)質(zhì)量檢查規(guī)則執(zhí)行模塊作為多個(gè)ET數(shù)據(jù)質(zhì)量檢查執(zhí)行服務(wù)數(shù)據(jù)質(zhì)量管理的規(guī)則執(zhí)行服務(wù)作為ETL任務(wù)部署在ETL服務(wù)器上在整個(gè)數(shù)據(jù)處理過(guò)程中,設(shè)置4類(lèi)檢查點(diǎn)在不同的檢查點(diǎn)由TaskAutomation工作流統(tǒng)一調(diào)度執(zhí)行檢查結(jié)果統(tǒng)一存入數(shù)據(jù)質(zhì)量管理資料庫(kù)1234數(shù)據(jù)質(zhì)量檢查執(zhí)行服務(wù)數(shù)據(jù)質(zhì)量管理的規(guī)則執(zhí)行服務(wù)作為ETL任務(wù)檢查規(guī)則執(zhí)行服務(wù)檢查點(diǎn)1云數(shù)據(jù)推送平臺(tái)接口文件級(jí)規(guī)范性檢查任務(wù)說(shuō)明任務(wù)類(lèi)型ETL任務(wù)——技術(shù)型檢查ETL階段云數(shù)據(jù)推送平臺(tái)->工商數(shù)據(jù)交換平臺(tái)NAS存儲(chǔ)指定目錄執(zhí)行頻率每日?qǐng)?zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在ETL服務(wù)器上執(zhí)行檢查對(duì)象云數(shù)據(jù)推送平臺(tái)按照接口規(guī)范導(dǎo)出的業(yè)務(wù)系統(tǒng)每日增量數(shù)據(jù)文件和控制文件檢查內(nèi)容接口文件是否存在,接口文件名稱(chēng)是否正確,接口文件是否通過(guò)MD5校驗(yàn)實(shí)現(xiàn)技術(shù)Linux腳本語(yǔ)言,Perl或Python成功閾值所有規(guī)則通過(guò)檢查依賴(lài)任務(wù)N/A觸發(fā)任務(wù)數(shù)據(jù)加載檢查規(guī)則執(zhí)行服務(wù)檢查點(diǎn)1云數(shù)據(jù)推送平臺(tái)接口文件級(jí)規(guī)范性檢查任檢查規(guī)則執(zhí)行服務(wù)檢查點(diǎn)2臨時(shí)區(qū)數(shù)據(jù)技術(shù)性檢查任務(wù)說(shuō)明任務(wù)類(lèi)型ETL任務(wù)——技術(shù)型檢查ETL階段臨時(shí)數(shù)據(jù)區(qū)->貼源整合數(shù)據(jù)區(qū)執(zhí)行頻率每日?qǐng)?zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在Hadoop集群上執(zhí)行檢查對(duì)象云數(shù)據(jù)推送平臺(tái)按照接口規(guī)范導(dǎo)出的業(yè)務(wù)系統(tǒng)每日增量數(shù)據(jù)檢查內(nèi)容日期、時(shí)間格式檢查;主鍵唯一型檢查;外鍵參照完整型檢查;關(guān)鍵字段取值完整性檢查實(shí)現(xiàn)技術(shù)HiveSQL成功閾值90%記錄通過(guò)檢查異常處理未通過(guò)檢查的記錄存入指定錯(cuò)誤明細(xì)表依賴(lài)任務(wù)接口文件級(jí)規(guī)范性檢查任務(wù)觸發(fā)任務(wù)貼源數(shù)據(jù)整合任務(wù)檢查規(guī)則執(zhí)行服務(wù)檢查點(diǎn)2臨時(shí)區(qū)數(shù)據(jù)技術(shù)性檢查任務(wù)說(shuō)明任務(wù)類(lèi)型檢查規(guī)則執(zhí)行服務(wù)檢查點(diǎn)3匯總區(qū)業(yè)務(wù)性檢查任務(wù)內(nèi)容說(shuō)明任務(wù)類(lèi)型ETL任務(wù)——業(yè)務(wù)型檢查ETL階段貼源整合數(shù)據(jù)區(qū)->匯總數(shù)據(jù)區(qū)執(zhí)行頻率每日/月/季執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在Hadoop集群上執(zhí)行檢查對(duì)象匯總數(shù)據(jù)區(qū)的數(shù)據(jù)檢查內(nèi)容業(yè)務(wù)邏輯檢查:通過(guò)對(duì)若干個(gè)匯總值/指標(biāo)值的運(yùn)算,來(lái)檢驗(yàn)各個(gè)匯總值/指標(biāo)間潛在的平衡或其他比較關(guān)系實(shí)現(xiàn)技術(shù)HiveSQL成功閾值90%記錄通過(guò)檢查異常處理未通過(guò)檢查的記錄存入指定錯(cuò)誤明細(xì)表依賴(lài)任務(wù)貼源整合數(shù)據(jù)區(qū)數(shù)據(jù)處理完成觸發(fā)任務(wù)集市數(shù)據(jù)區(qū)應(yīng)用數(shù)據(jù)生成檢查規(guī)則執(zhí)行服務(wù)檢查點(diǎn)3匯總區(qū)業(yè)務(wù)性檢查任務(wù)內(nèi)容說(shuō)明任務(wù)類(lèi)型檢查規(guī)則執(zhí)行服務(wù)檢查點(diǎn)4.1應(yīng)用集市區(qū)技術(shù)性檢查任務(wù)內(nèi)容說(shuō)明任務(wù)類(lèi)型ETL任務(wù)——業(yè)務(wù)型檢查ETL階段匯總數(shù)據(jù)區(qū)->應(yīng)用集市數(shù)據(jù)區(qū)執(zhí)行頻率每日/月/季執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在應(yīng)用集市數(shù)據(jù)庫(kù)集群上執(zhí)行檢查對(duì)象應(yīng)用集市數(shù)據(jù)區(qū)的數(shù)據(jù)檢查內(nèi)容主鍵唯一型檢查;外鍵參照完整型檢查;關(guān)鍵字段取值完整性檢查實(shí)現(xiàn)技術(shù)SQL成功閾值90%記錄通過(guò)檢查異常處理未通過(guò)檢查的記錄存入指定錯(cuò)誤明細(xì)表依賴(lài)任務(wù)匯總數(shù)據(jù)區(qū)數(shù)據(jù)處理完成觸發(fā)任務(wù)N/A檢查規(guī)則執(zhí)行服務(wù)檢查點(diǎn)4.1應(yīng)用集市區(qū)技術(shù)性檢查任務(wù)內(nèi)容說(shuō)明檢查規(guī)則執(zhí)行服務(wù)檢查點(diǎn)4.2應(yīng)用集市區(qū)業(yè)務(wù)性檢查任務(wù)內(nèi)容說(shuō)明任務(wù)類(lèi)型ETL任務(wù)——業(yè)務(wù)型檢查ETL階段匯總數(shù)據(jù)區(qū)->應(yīng)用集市數(shù)據(jù)區(qū)執(zhí)行頻率每日/月/季執(zhí)行執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在應(yīng)用集市數(shù)據(jù)庫(kù)集群上執(zhí)行檢查對(duì)象應(yīng)用集市數(shù)據(jù)區(qū)的數(shù)據(jù)檢查內(nèi)容業(yè)務(wù)邏輯檢查:通過(guò)對(duì)若干個(gè)指標(biāo)值的運(yùn)算,來(lái)檢驗(yàn)各個(gè)指標(biāo)間潛在的平衡或其他比較關(guān)系數(shù)值檢查:主要是通過(guò)對(duì)單個(gè)指標(biāo)值的監(jiān)控來(lái)發(fā)現(xiàn)數(shù)據(jù)的異常、突變等情況波動(dòng)檢查:通過(guò)對(duì)單個(gè)指標(biāo)值一段時(shí)間內(nèi)的數(shù)值變化情況來(lái)檢查數(shù)據(jù)的波動(dòng)、變化情況一致性檢查:通過(guò)對(duì)兩個(gè)指標(biāo)按某幾個(gè)維度展開(kāi)后的增減幅度來(lái)發(fā)現(xiàn)數(shù)據(jù)的波動(dòng)、變化情況實(shí)現(xiàn)技術(shù)SQL成功閾值90%記錄通過(guò)檢查異常處理未通過(guò)檢查的記錄存入指定錯(cuò)誤明細(xì)表依賴(lài)任務(wù)匯總數(shù)據(jù)區(qū)數(shù)據(jù)處理完成觸發(fā)任務(wù)N/A檢查規(guī)則執(zhí)行服務(wù)檢查點(diǎn)4.2應(yīng)用集市區(qū)業(yè)務(wù)性檢查任務(wù)內(nèi)容說(shuō)明數(shù)據(jù)質(zhì)量管理分析報(bào)告生成服務(wù)分析報(bào)告生成服務(wù)是部署在ETL服務(wù)器上的ETL任務(wù),按照任務(wù)流程被TaskAutomation統(tǒng)一調(diào)度執(zhí)行,生成以下三類(lèi)報(bào)告:源系統(tǒng)數(shù)據(jù)交換質(zhì)量日?qǐng)?bào)該報(bào)告匯總了報(bào)告生成當(dāng)天源系統(tǒng)的數(shù)據(jù)接口校驗(yàn)結(jié)果,包括針對(duì)每個(gè)接口單元的表及記錄級(jí)校驗(yàn)錯(cuò)誤的統(tǒng)計(jì)數(shù)據(jù)和指標(biāo)日平均值數(shù)據(jù)質(zhì)量匯總?cè)請(qǐng)?bào)該報(bào)告依照每日各源系統(tǒng)數(shù)據(jù)交換評(píng)價(jià)指標(biāo)的平均值及當(dāng)天的貼源數(shù)據(jù)、匯總數(shù)據(jù)和數(shù)據(jù)集市質(zhì)量檢查結(jié)果匯總生成數(shù)據(jù)質(zhì)量匯總月報(bào)該報(bào)告依照當(dāng)月的日?qǐng)?bào)結(jié)果,取各項(xiàng)指標(biāo)的平均值和數(shù)據(jù)統(tǒng)計(jì)的匯總值生成數(shù)據(jù)質(zhì)量管理分析報(bào)告生成服務(wù)分析報(bào)告生成服務(wù)是部署在ETL服數(shù)據(jù)質(zhì)量管理分析報(bào)告指標(biāo)定義指標(biāo)分類(lèi)指標(biāo)名稱(chēng)指標(biāo)說(shuō)明對(duì)應(yīng)報(bào)告接口單元級(jí)評(píng)價(jià)指標(biāo)接口傳輸及時(shí)率指在最后截止時(shí)間前完成上傳的接口單元數(shù)量與時(shí)限內(nèi)要求上傳的接口單元數(shù)的比率。《源系統(tǒng)數(shù)據(jù)交換質(zhì)量日?qǐng)?bào)(XX系統(tǒng))》接口傳輸完整率指在數(shù)據(jù)質(zhì)量日?qǐng)?bào)告生成之前,成功上傳的接口單元數(shù)量與要求上傳的接口單元數(shù)量的比率?!对聪到y(tǒng)數(shù)據(jù)交換質(zhì)量日?qǐng)?bào)(XX系統(tǒng))》接口準(zhǔn)確率指與接口校驗(yàn)內(nèi)容描述一致的接口單元數(shù)量與要求上傳的接口單元數(shù)量的比率?!对聪到y(tǒng)數(shù)據(jù)交換質(zhì)量日?qǐng)?bào)(XX系統(tǒng))》記錄級(jí)評(píng)價(jià)指標(biāo)記錄正確率正確的記錄數(shù)與全部記錄數(shù)的比值。每條記錄只要違反任一條檢查規(guī)則(例如:主鍵唯一、業(yè)務(wù)規(guī)則等),就被計(jì)入錯(cuò)誤日志。每個(gè)接口單元的最大允許出錯(cuò)閾值由數(shù)據(jù)質(zhì)量檢查規(guī)則確定。計(jì)算公式如下:當(dāng)Ec<Emax時(shí):記錄正確率=當(dāng)Ec>=Emax時(shí):記錄正確率=0說(shuō)明:Ec—出錯(cuò)記錄數(shù)Et—記錄總數(shù)Emax—最大允許出錯(cuò)閾值《源系統(tǒng)數(shù)據(jù)交換質(zhì)量日?qǐng)?bào)(XX系統(tǒng))》《數(shù)據(jù)質(zhì)量匯總?cè)請(qǐng)?bào)》《數(shù)據(jù)質(zhì)量匯總月報(bào)》數(shù)據(jù)質(zhì)量管理分析報(bào)告指標(biāo)定義指標(biāo)分類(lèi)指標(biāo)名稱(chēng)指標(biāo)說(shuō)明對(duì)應(yīng)報(bào)告分析報(bào)告生成服務(wù):源系統(tǒng)數(shù)據(jù)交換質(zhì)量日?qǐng)?bào)明細(xì)報(bào)告生成任務(wù)內(nèi)容說(shuō)明任務(wù)類(lèi)型ETL任務(wù)——明細(xì)日?qǐng)?bào)生成ETL階段分析報(bào)告生成階段執(zhí)行頻率每日?qǐng)?zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在數(shù)據(jù)質(zhì)量管理元數(shù)據(jù)庫(kù)上執(zhí)行評(píng)價(jià)對(duì)象數(shù)據(jù)質(zhì)量檢查點(diǎn)1、2對(duì)應(yīng)的檢查任務(wù)執(zhí)行結(jié)果評(píng)價(jià)指標(biāo)接口傳輸及時(shí)率、接口傳輸完整率、接口準(zhǔn)確率實(shí)現(xiàn)技術(shù)MySQLSQL命令依賴(lài)任務(wù)ETL處理完成觸發(fā)任務(wù)數(shù)據(jù)質(zhì)量匯總?cè)請(qǐng)?bào)生成任務(wù)分析報(bào)告生成服務(wù):源系統(tǒng)數(shù)據(jù)交換質(zhì)量日?qǐng)?bào)明細(xì)報(bào)告生成任務(wù)內(nèi)容分析報(bào)告生成服務(wù):數(shù)據(jù)質(zhì)量匯總?cè)請(qǐng)?bào)數(shù)據(jù)質(zhì)量匯總?cè)請(qǐng)?bào)生成任務(wù)內(nèi)容說(shuō)明任務(wù)類(lèi)型ETL任務(wù)——匯總?cè)請(qǐng)?bào)生成ETL階段分析報(bào)告生成階段執(zhí)行頻率每日?qǐng)?zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在數(shù)據(jù)質(zhì)量管理元數(shù)據(jù)庫(kù)上執(zhí)行評(píng)價(jià)對(duì)象數(shù)據(jù)質(zhì)量檢查點(diǎn)2、3、4對(duì)應(yīng)的檢查任務(wù)執(zhí)行結(jié)果評(píng)價(jià)指標(biāo)記錄正確率實(shí)現(xiàn)技術(shù)MySQLSQL命令依賴(lài)任務(wù)源系統(tǒng)數(shù)據(jù)交換質(zhì)量日?qǐng)?bào)生成觸發(fā)任務(wù)數(shù)據(jù)質(zhì)量匯總月報(bào)生成任務(wù)分析報(bào)告生成服務(wù):數(shù)據(jù)質(zhì)量匯總?cè)請(qǐng)?bào)數(shù)據(jù)質(zhì)量匯總?cè)請(qǐng)?bào)生成任務(wù)內(nèi)分析報(bào)告生成服務(wù):數(shù)據(jù)質(zhì)量匯總月報(bào)任務(wù)內(nèi)容說(shuō)明任務(wù)類(lèi)型ETL任務(wù)——匯總月報(bào)生成ETL階段分析報(bào)告生成階段執(zhí)行頻率每月月初執(zhí)行方式由TaskAutomation工作流引擎根據(jù)工作流定義統(tǒng)一調(diào)度,在數(shù)據(jù)質(zhì)量管理元數(shù)據(jù)庫(kù)上執(zhí)行評(píng)價(jià)對(duì)象當(dāng)月所有數(shù)據(jù)質(zhì)量檢查點(diǎn)對(duì)應(yīng)的檢查任務(wù)執(zhí)行結(jié)果評(píng)價(jià)指標(biāo)記錄正確率實(shí)現(xiàn)技術(shù)MySQLSQL命令依賴(lài)任務(wù)數(shù)據(jù)質(zhì)量匯總?cè)請(qǐng)?bào)生成任務(wù)觸發(fā)任務(wù)N/A分析報(bào)告生成服務(wù):數(shù)據(jù)質(zhì)量匯總月報(bào)任務(wù)內(nèi)容說(shuō)明任務(wù)類(lèi)型ETL數(shù)據(jù)質(zhì)量管理元信息庫(kù)采用MySQL數(shù)據(jù)庫(kù),存儲(chǔ)數(shù)據(jù)質(zhì)量檢查規(guī)則、數(shù)據(jù)質(zhì)量檢查結(jié)果、數(shù)據(jù)質(zhì)量檢查報(bào)告示例數(shù)據(jù)質(zhì)量管理元信息庫(kù)采用MySQL數(shù)據(jù)庫(kù),存儲(chǔ)數(shù)據(jù)質(zhì)量檢查規(guī)檢查規(guī)則配置管理模塊說(shuō)明模塊名稱(chēng)接口單元級(jí)技術(shù)檢查規(guī)則配置管理模塊實(shí)現(xiàn)功能該模塊的主要任務(wù)是用web界面方式引導(dǎo)用戶(hù)完成數(shù)據(jù)質(zhì)量檢查規(guī)則的配置,主要包括檢查規(guī)則的唯一標(biāo)識(shí)、檢查規(guī)則簡(jiǎn)單描述、檢查類(lèi)型、檢查對(duì)象、生效標(biāo)志、檢查規(guī)則(如:SQL命令)等。模塊需要實(shí)現(xiàn)如下功能:規(guī)則新增;增加一條檢查規(guī)則規(guī)則修改;修改規(guī)則內(nèi)容規(guī)則刪除;刪除已有的規(guī)則規(guī)則生效:設(shè)置規(guī)則的狀態(tài)為生效或無(wú)效規(guī)則搜索:按規(guī)則ID、接口名稱(chēng)搜索規(guī)則實(shí)現(xiàn)技術(shù)J2EE運(yùn)行方式作為WAR包部署在Tomcat集群上發(fā)布鏈接到工商數(shù)據(jù)平臺(tái)門(mén)戶(hù)上用戶(hù)通過(guò)B/S方式登錄平臺(tái)執(zhí)行配置管理使用對(duì)象數(shù)據(jù)質(zhì)量管理員檢查規(guī)則配置管理模塊說(shuō)明模塊名稱(chēng)接口單元級(jí)技術(shù)檢查規(guī)則配置管數(shù)據(jù)質(zhì)量管理分析報(bào)告展現(xiàn)模塊說(shuō)明模塊名稱(chēng)源系統(tǒng)數(shù)據(jù)交換質(zhì)量日?qǐng)?bào)、數(shù)據(jù)質(zhì)量匯總?cè)請(qǐng)?bào)、數(shù)據(jù)質(zhì)量匯總月報(bào)展現(xiàn)模塊實(shí)現(xiàn)功能該模塊的主要任務(wù)是用web界面方式引導(dǎo)用戶(hù)提交查詢(xún)條件,查看滿(mǎn)足條件的數(shù)據(jù)質(zhì)量管理分析。模塊需要實(shí)現(xiàn)如下功能:報(bào)告查詢(xún);按照時(shí)間、報(bào)告名稱(chēng)報(bào)告查看;在線(xiàn)查看報(bào)告內(nèi)容報(bào)告下載;將報(bào)告下載到本地查看錯(cuò)誤明細(xì)下載;下載未通過(guò)數(shù)據(jù)質(zhì)量檢查的出錯(cuò)記錄明細(xì)有效時(shí)間每日或月ETL處理結(jié)束后實(shí)現(xiàn)技術(shù)J2EE運(yùn)行方式作為WAR包部署在Tomcat集群上發(fā)布鏈接到工商數(shù)據(jù)平臺(tái)門(mén)戶(hù)上用戶(hù)通過(guò)B/S方式登錄平臺(tái)執(zhí)行配置管理使用對(duì)象源系統(tǒng)維護(hù)人員(查看相關(guān)源系統(tǒng)日?qǐng)?bào))、數(shù)據(jù)質(zhì)量管理員、ETL管理員、公司領(lǐng)導(dǎo)數(shù)據(jù)質(zhì)量管理分析報(bào)告展現(xiàn)模塊說(shuō)明模塊名稱(chēng)源系統(tǒng)數(shù)據(jù)交換質(zhì)量日卓越夢(mèng)想演示完畢感謝觀(guān)看卓越夢(mèng)想演示完畢感謝觀(guān)卓越夢(mèng)想大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理和挖掘解決方案卓越夢(mèng)想大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理和挖掘解決方案大數(shù)據(jù)治理框架大數(shù)據(jù)治理框架由三大部分組成:大數(shù)據(jù)類(lèi)型、大數(shù)據(jù)治理領(lǐng)域、行業(yè)與功能67產(chǎn)業(yè)和功能場(chǎng)景保險(xiǎn)業(yè)電信業(yè)零售業(yè)公共事業(yè)醫(yī)療保健業(yè)組織元數(shù)據(jù)隱私數(shù)據(jù)質(zhì)量大數(shù)據(jù)類(lèi)型web和社交媒體數(shù)據(jù)機(jī)器對(duì)機(jī)器的數(shù)據(jù)生物計(jì)量學(xué)數(shù)據(jù)大體量交易數(shù)據(jù)人工生成的數(shù)據(jù)信息治理大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。傳統(tǒng)的數(shù)據(jù)治理領(lǐng)域同樣適用于大數(shù)據(jù)大數(shù)據(jù)分析受用例驅(qū)動(dòng),用例的具體情況因產(chǎn)業(yè)和功能而異??蛻?hù)服務(wù)IT業(yè)務(wù)流程整合情緒分析Facebook忠誠(chéng)度計(jì)劃客戶(hù)流失分析索賠調(diào)查IT日志分析車(chē)載通信技術(shù)位置服務(wù)索賠欺詐分析智能儀表患者監(jiān)測(cè)索賠分析客戶(hù)流失分析通話(huà)質(zhì)量保證基因測(cè)試人臉識(shí)別承保電子病歷RFI日志大數(shù)據(jù)治理框架大數(shù)據(jù)治理框架由三大部分組成:大數(shù)據(jù)類(lèi)型、大數(shù)Contents目錄大數(shù)據(jù)綜述2341大數(shù)據(jù)平臺(tái)解決方案大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理方法請(qǐng)輸入第四部分標(biāo)題Contents目錄大數(shù)據(jù)綜述2341大數(shù)據(jù)平臺(tái)解決方01大數(shù)據(jù)綜述01大數(shù)據(jù)綜述數(shù)據(jù)處理思維轉(zhuǎn)變少量的樣本數(shù)據(jù)數(shù)據(jù)關(guān)系力求明確清晰探求難以捉摸的因果關(guān)系要求數(shù)據(jù)精確無(wú)誤全量數(shù)據(jù)
樂(lè)于接受數(shù)據(jù)的紛繁復(fù)雜轉(zhuǎn)而關(guān)注事物的關(guān)聯(lián)關(guān)系
數(shù)據(jù)的精確不是那么重要了?
谷歌翻譯系統(tǒng)為了訓(xùn)練其系統(tǒng),收集其能找到的所有翻譯;?
谷歌收集了上萬(wàn)億頁(yè)的語(yǔ)料庫(kù),包括質(zhì)量參差不齊的文檔;?
上萬(wàn)億的語(yǔ)料庫(kù),相當(dāng)于950億句英語(yǔ);?
相對(duì)而言,谷歌的翻譯質(zhì)量還是最好的;?
谷歌翻譯之所以更好,不是因?yàn)樗鼡碛幸粋€(gè)更好的算法機(jī)制,而是增加了各種各樣的數(shù)據(jù),包括有錯(cuò)誤的數(shù)據(jù);?
在谷歌的翻譯團(tuán)隊(duì)中,大多數(shù)工程師并不懂其翻譯出來(lái)的語(yǔ)言;數(shù)據(jù)處理思維轉(zhuǎn)變傳統(tǒng)數(shù)據(jù)分析思維大數(shù)據(jù)分析思維案例一?
聘請(qǐng)了20多名書(shū)評(píng)家和編輯組成的團(tuán)隊(duì),在網(wǎng)頁(yè)上創(chuàng)立“亞馬遜的聲音”向客戶(hù)推薦新書(shū),寫(xiě)書(shū)評(píng);?
通過(guò)客戶(hù)的購(gòu)買(mǎi)歷史,尋找客戶(hù)的相似性,對(duì)客戶(hù)分群進(jìn)行產(chǎn)品推薦,推薦的總是與以往購(gòu)買(mǎi)的相似或略有區(qū)別;?
通過(guò)大量的數(shù)據(jù)分析,找出書(shū)籍之間的關(guān)聯(lián)關(guān)系,即“item-to-item”,時(shí)亞馬遜發(fā)生了天翻地覆的變化。?
AMAZON銷(xiāo)售額的三分之一來(lái)自于“item-to-item”的推薦系統(tǒng)。?
AMAZON最終放棄了在線(xiàn)書(shū)評(píng),書(shū)評(píng)團(tuán)隊(duì)被解散。案例二數(shù)據(jù)處理思維轉(zhuǎn)變少量的樣本數(shù)據(jù)數(shù)據(jù)關(guān)系力求明確清晰探求難以捉數(shù)據(jù)處理思維轉(zhuǎn)變數(shù)據(jù)處理思維轉(zhuǎn)變關(guān)聯(lián)關(guān)系,預(yù)測(cè)的關(guān)鍵。很多時(shí)候,知道“是什么”就夠了,沒(méi)必要知道“為什么”。一旦我們完成了“關(guān)聯(lián)關(guān)系”分析,我們就可以繼續(xù)向更深層次研究因果關(guān)系,找出背后的“為什么”?
沃爾瑪:請(qǐng)把蛋撻和颶風(fēng)用品擺在一起,請(qǐng)把啤酒和尿片擺在一起;?
某信用評(píng)分公司,利用Facebook的社交圈來(lái)預(yù)測(cè)個(gè)人償還債務(wù)的可能性;?
對(duì)沖基金通過(guò)分析Twitter微博的數(shù)據(jù)文本,作為股市投資的信號(hào);?
某信用評(píng)分公司,利用Facebook的社交圈來(lái)預(yù)測(cè)個(gè)人償還債務(wù)的可能性;?
對(duì)沖基金通過(guò)分析Twitter微博的數(shù)據(jù)文本,作為股市投資的信號(hào);其它案例數(shù)據(jù)處理思維轉(zhuǎn)變?沃爾瑪:請(qǐng)把蛋撻和颶風(fēng)用品擺在一起,請(qǐng)把大數(shù)據(jù)與BI融合*大數(shù)據(jù)與BI融合*大數(shù)據(jù)的商業(yè)價(jià)值大數(shù)據(jù)的商業(yè)價(jià)值大數(shù)據(jù)主要廠(chǎng)商
大型企業(yè)和機(jī)構(gòu)在尋求解決棘手的大數(shù)據(jù)問(wèn)題時(shí),往往會(huì)使用開(kāi)源軟件基礎(chǔ)架構(gòu)Hadoop的服務(wù)。由于Hadoop深受歡迎,許多公司都推出了各自版本的Hadoop,也有一些公司則圍繞Hadoop提供解決方案。Hadoop的發(fā)行版除了社區(qū)的Apachehadoop外,cloudera,IBM,ORACLE等都提供了自己的商業(yè)版本。商業(yè)版主要是提供Hadoop專(zhuān)業(yè)的技術(shù)支持,這對(duì)一些大型企業(yè)尤其重要。ClouderaEMC。。。IBMOracle大數(shù)據(jù)主要廠(chǎng)商大型企業(yè)和機(jī)構(gòu)在尋求解決棘手的大數(shù)據(jù)問(wèn)題時(shí),大數(shù)據(jù)生態(tài)HIVEBigDataApplicationsPig!ZooKeeperSQLRAW非結(jié)構(gòu)化資料匯入SQL資料匯入分散式檔案系統(tǒng)類(lèi)SQL資料庫(kù)系統(tǒng)(非即時(shí)性)分散式資料庫(kù)(即時(shí)性)并行計(jì)算框架資料處理語(yǔ)言數(shù)據(jù)挖掘程序庫(kù)大數(shù)據(jù)生態(tài)HIVEBigDataApplications大數(shù)據(jù)治理體系與數(shù)據(jù)治理體系的聯(lián)系與區(qū)別大數(shù)據(jù)治理是一項(xiàng)系統(tǒng)工程,大到大數(shù)據(jù)技術(shù)平臺(tái)的搭建、組織的變革、政策的制定、流程的重組,小到元數(shù)據(jù)的管理、主數(shù)據(jù)的整合、各種類(lèi)型大數(shù)據(jù)的個(gè)性化治理和大數(shù)據(jù)的行業(yè)應(yīng)用。組織必須治理全部大數(shù)據(jù),將大數(shù)據(jù)治理定義如下:
大數(shù)據(jù)治理是廣義數(shù)據(jù)治理計(jì)劃的一部分,即制定與大數(shù)據(jù)有關(guān)的數(shù)據(jù)優(yōu)化、隱私保護(hù)與數(shù)據(jù)變現(xiàn)的政策。將上述大數(shù)據(jù)治理的定義分解為以下部分:
大數(shù)據(jù)是廣義數(shù)據(jù)治理計(jì)劃的一部分?jǐn)?shù)據(jù)治理機(jī)構(gòu)必須采取以下措施,以將大數(shù)據(jù)整合到既有的數(shù)據(jù)治理框架中:
擴(kuò)展數(shù)據(jù)治理憲章的外延,將大數(shù)據(jù)治理納入其中;
拓寬數(shù)據(jù)治理委員會(huì)成員的范圍,將數(shù)據(jù)科學(xué)家等大數(shù)據(jù)的超級(jí)用戶(hù)吸納進(jìn)來(lái);
任命處理社交媒體等特定大數(shù)據(jù)的主管;
將大數(shù)據(jù)與元數(shù)據(jù)、隱私、數(shù)據(jù)質(zhì)量和主數(shù)據(jù)等數(shù)據(jù)治理準(zhǔn)則結(jié)合。大數(shù)據(jù)治理關(guān)乎政策制定政策包括人們?cè)谔囟ㄇ樾蜗氯绾巫鳛榈某晌暮头浅晌牡男?。譬如,大?shù)據(jù)治理政策可能申明,未經(jīng)顧客知情并同意,組織不得將顧客的Facebook資料整合到其主數(shù)據(jù)記錄中。大數(shù)據(jù)必須優(yōu)化考慮一下組織是如何將現(xiàn)實(shí)世界的準(zhǔn)則應(yīng)用到大數(shù)據(jù)治理中的。公司設(shè)計(jì)了精致的企業(yè)資產(chǎn)管理計(jì)劃,對(duì)機(jī)器、飛機(jī)、交通工具和其他資產(chǎn)進(jìn)行妥善管理。與對(duì)實(shí)物資產(chǎn)進(jìn)行登記類(lèi)似,組織必須對(duì)大數(shù)據(jù)進(jìn)行如下優(yōu)化:
元數(shù)據(jù)——建立大數(shù)據(jù)類(lèi)別信息;
數(shù)據(jù)質(zhì)量管理——像公司對(duì)實(shí)物資產(chǎn)進(jìn)行定期檢修一樣,定期凈化大數(shù)據(jù);
信息生命周期管理——對(duì)大數(shù)據(jù)進(jìn)行存檔,并在沒(méi)必要繼續(xù)保存某些數(shù)據(jù)時(shí),將其刪除。大數(shù)據(jù)隱私至關(guān)重要組織同樣必須建立旨在防止大數(shù)據(jù)誤用的適當(dāng)政策。組織在處理社交媒體、地理定位、生物計(jì)量學(xué)和其他形式的個(gè)人可識(shí)別信息(PII)時(shí),必須考慮涉及的聲譽(yù)、規(guī)制和法律風(fēng)險(xiǎn)。大數(shù)據(jù)必須變現(xiàn)所謂變現(xiàn),就是將數(shù)據(jù)等資產(chǎn)轉(zhuǎn)化為現(xiàn)金的過(guò)程,變現(xiàn)的方式可以是將數(shù)據(jù)賣(mài)給第三方,也可以是利用數(shù)據(jù)開(kāi)發(fā)新的服務(wù)。在當(dāng)下,公司意識(shí)到,必須將大數(shù)據(jù)視為具有財(cái)務(wù)價(jià)值的企業(yè)資產(chǎn)。例如,運(yùn)營(yíng)部門(mén)可以通過(guò)傳感器數(shù)據(jù),根據(jù)定期檢修計(jì)劃,提高設(shè)備正常運(yùn)行時(shí)間。呼叫中心可以分析客戶(hù)代表的記錄,通過(guò)了解顧客呼叫的原因,降低呼叫量。此外,零售商可以使用主數(shù)據(jù)激活Facebook的應(yīng)用程序,提升顧客忠誠(chéng)度。大數(shù)據(jù)治理體系與數(shù)據(jù)治理體系的聯(lián)系與區(qū)別大數(shù)據(jù)治理是一項(xiàng)系統(tǒng)02大數(shù)據(jù)平臺(tái)解決方案02大數(shù)據(jù)平臺(tái)解決方案大數(shù)據(jù)平臺(tái)整體架構(gòu)大數(shù)據(jù)平臺(tái)整體架構(gòu)大數(shù)據(jù)處理流程建立對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行SQL語(yǔ)法查詢(xún)的支持,實(shí)現(xiàn)與結(jié)構(gòu)化數(shù)據(jù)的集成關(guān)聯(lián)(key)主分類(lèi)關(guān)鍵詞標(biāo)簽地名人名全國(guó)統(tǒng)一分類(lèi)分詞,倒排搜索共性、個(gè)性文本識(shí)別處理功能模塊網(wǎng)頁(yè)分類(lèi)反向搜索關(guān)鍵詞分析日志關(guān)聯(lián)內(nèi)容分詞索引建立索引分析日志合并用戶(hù)類(lèi)別標(biāo)簽摘要結(jié)構(gòu)化元信息網(wǎng)頁(yè)信息分類(lèi)數(shù)據(jù)獲取語(yǔ)義分析數(shù)據(jù)解析
非結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)獲取結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)集市數(shù)據(jù)集市EDW結(jié)構(gòu)化元數(shù)據(jù)Hadoop建立非結(jié)構(gòu)化信息的標(biāo)簽、摘要、索引、日志、內(nèi)容等提取結(jié)構(gòu)化的元數(shù)據(jù)信息,如類(lèi)別、標(biāo)引、摘要等;實(shí)現(xiàn)與結(jié)構(gòu)化數(shù)據(jù)的整合ODSSQL聲譽(yù)度分析品牌分析服務(wù)質(zhì)量分析競(jìng)爭(zhēng)產(chǎn)品分析產(chǎn)品評(píng)價(jià)市場(chǎng)動(dòng)態(tài)跟蹤ETL網(wǎng)絡(luò)爬蟲(chóng)大數(shù)據(jù)處理流程主分類(lèi)關(guān)鍵詞標(biāo)簽地名人名全國(guó)統(tǒng)一分類(lèi)分詞,倒排大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)關(guān)鍵技術(shù)-Hadoop大數(shù)據(jù)關(guān)鍵技術(shù)-HadoopHadoop系統(tǒng)工作原理Hadoop系統(tǒng)工作原理大數(shù)據(jù)關(guān)鍵技術(shù)-網(wǎng)絡(luò)數(shù)據(jù)獲取分布式網(wǎng)絡(luò)爬蟲(chóng)分布式文件系統(tǒng)分布式存儲(chǔ)橫向擴(kuò)容(Scale-out)架構(gòu)分布式軟件架構(gòu)并行計(jì)算框架大數(shù)據(jù)關(guān)鍵技術(shù)-網(wǎng)絡(luò)數(shù)據(jù)獲取分布式網(wǎng)絡(luò)爬蟲(chóng)分布式文件系統(tǒng)分布大數(shù)據(jù)關(guān)鍵技術(shù)-兩種平臺(tái)相互集成大數(shù)據(jù)關(guān)鍵技術(shù)-兩種平臺(tái)相互集成大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)應(yīng)用功能數(shù)據(jù)查詢(xún)數(shù)據(jù)統(tǒng)計(jì)信息檢索數(shù)據(jù)分析語(yǔ)義分析數(shù)據(jù)挖掘經(jīng)營(yíng)管理市場(chǎng)活動(dòng)市場(chǎng)口碑分銷(xiāo)管理決策支持用戶(hù)服務(wù)大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)應(yīng)用功能數(shù)據(jù)查詢(xún)數(shù)據(jù)統(tǒng)計(jì)信息檢索數(shù)據(jù)分析大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)管控大數(shù)據(jù)關(guān)鍵技術(shù)-數(shù)據(jù)管控03大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理方法03大數(shù)據(jù)平臺(tái)數(shù)據(jù)治理方法傳統(tǒng)數(shù)據(jù)平臺(tái)與大數(shù)據(jù)分布式平臺(tái)特性差異傳統(tǒng)數(shù)據(jù)平臺(tái)與大數(shù)據(jù)分布式平臺(tái)特性差異大數(shù)據(jù)分析與傳統(tǒng)BI分析差異結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)規(guī)模一般為T(mén)B規(guī)模集中式,為了分析進(jìn)行大量數(shù)據(jù)移動(dòng),數(shù)據(jù)向計(jì)算靠近批處理為主結(jié)構(gòu)化/非結(jié)構(gòu)化混合分析的能力數(shù)據(jù)規(guī)模從數(shù)十TB到PB級(jí)別分布式,計(jì)算向數(shù)據(jù)靠近支持流式分析事務(wù)關(guān)系型數(shù)據(jù)庫(kù)批處理數(shù)據(jù)倉(cāng)庫(kù)分析集群化非結(jié)構(gòu)化流式多種數(shù)據(jù)源分析(MapReduce)組織傳統(tǒng)BI分析大數(shù)據(jù)分析大數(shù)據(jù)分析與傳統(tǒng)BI分析差異結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化/非結(jié)構(gòu)化混合分大數(shù)據(jù)處理和管理體系-多結(jié)構(gòu)化大數(shù)據(jù)處理和管理體系-多結(jié)構(gòu)化大數(shù)據(jù)實(shí)施建議第一階段:應(yīng)用場(chǎng)景驅(qū)動(dòng)的大數(shù)據(jù)開(kāi)發(fā)第二階段:各業(yè)務(wù)系統(tǒng)、各渠道系統(tǒng)等配合大數(shù)據(jù)改造優(yōu)化第三階段:管理信息體系下的大數(shù)據(jù)平臺(tái)建設(shè)第四階段(目標(biāo)):以大數(shù)據(jù)驅(qū)動(dòng)的,實(shí)時(shí)的、整體聯(lián)動(dòng)的IT解決方案Think
big,
start
small.大處著眼,小處著手。大數(shù)據(jù)實(shí)施建議第一階段:應(yīng)用場(chǎng)景驅(qū)動(dòng)第二階段:各渠道系統(tǒng)等第大數(shù)據(jù)實(shí)施方法論大數(shù)據(jù)業(yè)務(wù)戰(zhàn)略大數(shù)據(jù)建設(shè)目標(biāo)大數(shù)據(jù)架構(gòu)設(shè)計(jì)大數(shù)據(jù)實(shí)施大數(shù)據(jù)運(yùn)維企業(yè)戰(zhàn)略目標(biāo)業(yè)務(wù)目標(biāo)業(yè)務(wù)模式大數(shù)據(jù)治理目標(biāo)應(yīng)用場(chǎng)景服務(wù)模式服務(wù)對(duì)象大數(shù)據(jù)服務(wù)定義大數(shù)據(jù)信息模型大數(shù)據(jù)管理定義技術(shù)選擇驗(yàn)證測(cè)試容量規(guī)劃安裝,配置驗(yàn)收測(cè)試系統(tǒng)上線(xiàn)大數(shù)據(jù)服務(wù)管理服務(wù)性能管理生命周期管理資源調(diào)度系統(tǒng)監(jiān)控大數(shù)據(jù)持續(xù)改進(jìn)業(yè)務(wù)調(diào)整服務(wù)改進(jìn)技術(shù)升級(jí)架構(gòu)優(yōu)化大數(shù)據(jù)實(shí)施方法論大數(shù)據(jù)業(yè)務(wù)戰(zhàn)略大數(shù)據(jù)建設(shè)目標(biāo)大數(shù)據(jù)架構(gòu)設(shè)計(jì)大大數(shù)據(jù)的角色和技能大數(shù)據(jù)的角色和技能大數(shù)據(jù)治理成熟度模型實(shí)施大數(shù)據(jù)治理的第一步,是評(píng)估大數(shù)據(jù)治理成熟度的當(dāng)前狀態(tài)和期望的未來(lái)狀態(tài)?,F(xiàn)將某信息治理委員會(huì)的成熟度模型用于成熟度評(píng)估。該模型設(shè)立了4個(gè)領(lǐng)域的11個(gè)大數(shù)據(jù)治理成熟度指標(biāo)。94支持準(zhǔn)則數(shù)據(jù)架構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)審計(jì)信息日志和報(bào)告核心準(zhǔn)則數(shù)據(jù)質(zhì)量管理信息生命周期管理信息安全與隱私支持要素管理人員數(shù)據(jù)風(fēng)險(xiǎn)管理政策目標(biāo)業(yè)務(wù)成果要求支持增強(qiáng)組織機(jī)構(gòu)和認(rèn)識(shí)元數(shù)據(jù)大數(shù)據(jù)治理成熟度模型實(shí)施大數(shù)據(jù)治理的第一步,是評(píng)估大數(shù)據(jù)治理大數(shù)據(jù)治理成熟度模型介紹及問(wèn)題示例95目標(biāo)目標(biāo)指信息治理計(jì)劃的預(yù)期結(jié)果。目標(biāo)傾向于關(guān)注降低風(fēng)險(xiǎn)與提升價(jià)值,這反過(guò)來(lái)又受降低成本和提高收入的驅(qū)動(dòng)。業(yè)務(wù)成果:代表信息治理計(jì)劃的目標(biāo)和目的。業(yè)務(wù)成果:A是否已經(jīng)確定了大數(shù)據(jù)治理計(jì)劃的關(guān)鍵業(yè)務(wù)關(guān)聯(lián)方?B是否對(duì)大數(shù)據(jù)治理可帶來(lái)的財(cái)務(wù)收益進(jìn)行了量化?支持要素核心準(zhǔn)則支持準(zhǔn)則組織結(jié)構(gòu)和認(rèn)識(shí):指業(yè)務(wù)部門(mén)和IT部門(mén)間的相互責(zé)任,以及對(duì)治理不同管理層次中數(shù)據(jù)的信托責(zé)任的認(rèn)識(shí)。管理人員:旨在保證數(shù)據(jù)監(jiān)護(hù),實(shí)現(xiàn)資產(chǎn)增值、風(fēng)險(xiǎn)消解和組織控制的質(zhì)量控制準(zhǔn)則。數(shù)據(jù)風(fēng)險(xiǎn)管理:據(jù)以識(shí)別、保留、量化、規(guī)避、接受、消解和轉(zhuǎn)嫁風(fēng)險(xiǎn)的方法論。政策:期望得到落實(shí)的組織行為的書(shū)面表達(dá)。數(shù)據(jù)結(jié)構(gòu)和認(rèn)識(shí):如關(guān)鍵角色的職位說(shuō)明中,是否包含大數(shù)據(jù)治理,如配備首席數(shù)據(jù)官和信息治理官?管理人員:是否已經(jīng)建立了責(zé)任分配(RACI)矩陣,以定義針對(duì)大數(shù)據(jù)關(guān)鍵屬性的角色和責(zé)任?數(shù)據(jù)風(fēng)險(xiǎn)管理:是否在大數(shù)據(jù)治理與風(fēng)險(xiǎn)治理之間建立了聯(lián)系?政策:是否已經(jīng)歸檔了一組大數(shù)據(jù)治理政策?數(shù)據(jù)質(zhì)量管理:指測(cè)量、提高和保證產(chǎn)品數(shù)據(jù)、測(cè)試數(shù)據(jù)和歸檔數(shù)據(jù)的質(zhì)量和集成性的方法。信息生命周期管理:有關(guān)信息采集、使用、保留和刪除的系統(tǒng)化的、基于策略的方法。信息安全與隱私:組織用于消解風(fēng)險(xiǎn)和保護(hù)數(shù)據(jù)資產(chǎn)的策略、實(shí)踐和控制手段。數(shù)據(jù)質(zhì)量管理:對(duì)于與大數(shù)據(jù)相關(guān)的質(zhì)量問(wèn)題(數(shù)據(jù)價(jià)值不高或不顯著),是否達(dá)成了一致意見(jiàn)?信息生命周期管理:是否制定了流程,根據(jù)法律和業(yè)務(wù)要求合法處理不再需要的大數(shù)據(jù)?信息安全和隱私:首席信息安全官是否是大數(shù)據(jù)治理計(jì)劃的關(guān)鍵支持者?數(shù)據(jù)架構(gòu):結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)及應(yīng)用的架構(gòu)式設(shè)計(jì),用于實(shí)現(xiàn)數(shù)據(jù)的可用性,并將數(shù)據(jù)分配給合適的用戶(hù)。元數(shù)據(jù):指用于創(chuàng)建常見(jiàn)的語(yǔ)義定義、IT術(shù)語(yǔ)、數(shù)據(jù)模型和數(shù)據(jù)庫(kù)的方法和工具。審計(jì)信息日志和報(bào)告:指監(jiān)測(cè)和測(cè)量數(shù)據(jù)價(jià)值、風(fēng)險(xiǎn)和信息治理有效性的組織流程。數(shù)據(jù)架構(gòu):Hadoop、NoSQL以及與當(dāng)前架構(gòu)相關(guān)的其他新興大數(shù)據(jù)技術(shù)的共存戰(zhàn)略是怎樣的?分類(lèi)和元數(shù)據(jù):業(yè)務(wù)詞庫(kù)是否包含與大數(shù)據(jù)相關(guān)的關(guān)鍵業(yè)務(wù)術(shù)語(yǔ)(如針對(duì)點(diǎn)擊流數(shù)據(jù)的“獨(dú)立訪(fǎng)客”)?審計(jì)信息日志和報(bào)告:企業(yè)如何檢測(cè)特權(quán)用戶(hù)對(duì)醫(yī)保索賠和通話(huà)詳單等敏感大數(shù)據(jù)的訪(fǎng)問(wèn)?問(wèn)題示例模型介紹大數(shù)據(jù)治理成熟度模型介紹及問(wèn)題示例30目標(biāo)目標(biāo)指信息治理計(jì)劃案例某大型金融機(jī)構(gòu)資金管理部的大數(shù)據(jù)治理路線(xiàn)圖96創(chuàng)建Hadoop基礎(chǔ)設(shè)施大數(shù)據(jù)治理的演進(jìn)關(guān)鍵活動(dòng)每日頭寸快照社交媒體和非結(jié)構(gòu)化內(nèi)容治理大數(shù)據(jù)某大型金融機(jī)構(gòu)的資金管理部,為大中型企業(yè)提供現(xiàn)金管理和流動(dòng)性管理的綜合服務(wù)。該部門(mén)處于部署大數(shù)據(jù)計(jì)劃的早期階段,其最初的大數(shù)據(jù)治理路線(xiàn)圖如右圖所示:第1-6個(gè)月構(gòu)建技術(shù)基礎(chǔ)設(shè)施,獲得Linux服務(wù)器和ApacheHadoop發(fā)行版。由于大數(shù)據(jù)是一個(gè)新事物,在切入業(yè)務(wù)前,必須設(shè)計(jì)一個(gè)可行的用例,并進(jìn)行財(cái)務(wù)可行性論證。此外,組織要認(rèn)真審視數(shù)據(jù)管理的傳統(tǒng)方面:怎樣將數(shù)據(jù)導(dǎo)入并導(dǎo)出Hadoop?Hadoop中的數(shù)據(jù)質(zhì)量如何?大數(shù)據(jù)的元數(shù)據(jù)是怎樣的?如何將大數(shù)據(jù)整合到未來(lái)12個(gè)月將要部署的主數(shù)據(jù)管理數(shù)據(jù)庫(kù)中?大數(shù)據(jù)已經(jīng)成為主流媒體的熱門(mén)詞匯,高管層至少很有可能同意支持一個(gè)大數(shù)據(jù)試點(diǎn)項(xiàng)目。因此,數(shù)據(jù)治理團(tuán)隊(duì)需要及時(shí)更新路線(xiàn)圖,將與大數(shù)據(jù)有關(guān)的人員、流程和技術(shù)計(jì)劃納入其中。第6-12個(gè)月引入詳細(xì)的交易記錄,以分析每日頭寸快照。受傳統(tǒng)基礎(chǔ)設(shè)施成本高昂的影響,以往的金融機(jī)構(gòu)從未進(jìn)行這樣細(xì)致入微的分析。第12-24個(gè)月將社交媒體數(shù)據(jù)和其他非結(jié)構(gòu)化內(nèi)容引入Hadoop環(huán)境。由于金融機(jī)構(gòu)的大多數(shù)客戶(hù)是大企業(yè),對(duì)交易對(duì)手的10-K和10-Q歸檔等非結(jié)構(gòu)化內(nèi)容,進(jìn)行探索性分析。第24-36個(gè)月資金管理部已經(jīng)有了現(xiàn)成的聚焦于大企業(yè)客戶(hù)的主數(shù)據(jù)的信息治理計(jì)劃。案例某大型金融機(jī)構(gòu)資金管理部的大數(shù)據(jù)治理路線(xiàn)圖31創(chuàng)建Had大數(shù)據(jù)處理框架的組成97大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。我們將大數(shù)據(jù)分為五種:web和社交媒體數(shù)據(jù)、機(jī)器對(duì)機(jī)器的數(shù)據(jù)、大體量交易數(shù)據(jù)、生物計(jì)量學(xué)數(shù)據(jù)和人工生成的數(shù)據(jù)。大數(shù)據(jù)類(lèi)型信息治理準(zhǔn)則產(chǎn)業(yè)與功能傳統(tǒng)的信息治理準(zhǔn)則,同樣適用于大數(shù)據(jù),相關(guān)準(zhǔn)則包括組織、元數(shù)據(jù)、隱私、數(shù)據(jù)質(zhì)量、業(yè)務(wù)流程整合、主數(shù)據(jù)整合和信息生命周期管理。大數(shù)據(jù)分析是受例驅(qū)動(dòng)的,用例的具體情況因產(chǎn)能和功能而異。限于篇幅,我們只列出了部分的產(chǎn)業(yè)和功能。大數(shù)據(jù)處理框架的組成32大數(shù)據(jù)治理需要高度聚焦于數(shù)據(jù)本身。我大數(shù)據(jù)的類(lèi)型大數(shù)據(jù)大體可分為五種類(lèi)型98Web和社交媒體數(shù)據(jù)二的點(diǎn)擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點(diǎn)擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容機(jī)器對(duì)機(jī)器的數(shù)據(jù)二的公用事業(yè)智能儀表讀數(shù)RFID讀數(shù)石油鉆探設(shè)備傳感器讀數(shù)網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點(diǎn)擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容Web和社交媒體數(shù)據(jù)二的點(diǎn)擊流數(shù)據(jù)TwitterFeedsFacebook帖子網(wǎng)絡(luò)內(nèi)容類(lèi)型大數(shù)據(jù)的類(lèi)型大數(shù)據(jù)大體可分為五種類(lèi)型33Web和社交媒體數(shù)據(jù)職責(zé)分配(RACI)所代表的內(nèi)涵99應(yīng)負(fù)責(zé)方(Responsible)指授權(quán)管理某屬性的人。(一種屬性可有多個(gè)負(fù)責(zé)人)最終負(fù)責(zé)方(Accountable)指數(shù)據(jù)屬性承擔(dān)最終責(zé)任的人。咨詢(xún)方(Consulted)指通過(guò)雙向溝通接受咨詢(xún)的某人或某些人。被告知方(Informed)指通過(guò)單向溝通被告知的某人或某些人。職責(zé)分配(RACI)所代表的內(nèi)涵34應(yīng)負(fù)責(zé)方(Respons大數(shù)據(jù)治理計(jì)劃需要實(shí)施的最佳實(shí)踐1001324創(chuàng)建一個(gè)體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語(yǔ)的業(yè)務(wù)定義的詞庫(kù)。理解對(duì)ApacheHadoop中元數(shù)據(jù)的持續(xù)支持。對(duì)業(yè)務(wù)詞庫(kù)中的敏感大數(shù)據(jù)進(jìn)行標(biāo)記。從相關(guān)的大數(shù)據(jù)存儲(chǔ)中輸入技術(shù)元數(shù)據(jù)。將相關(guān)的數(shù)據(jù)元與業(yè)務(wù)詞庫(kù)中的術(shù)語(yǔ)進(jìn)行鏈接。5768使用運(yùn)營(yíng)元數(shù)據(jù)監(jiān)測(cè)大數(shù)據(jù)的流動(dòng)。保留技術(shù)元數(shù)據(jù),以支持?jǐn)?shù)據(jù)血統(tǒng)和影響分析。從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索。擴(kuò)展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中。9元數(shù)據(jù)是描述數(shù)據(jù)產(chǎn)品特征的任何信息,如名字、位置、可感知的、重要性、質(zhì)量、對(duì)企業(yè)的價(jià)值,以及與企業(yè)認(rèn)為值得管理的其他數(shù)據(jù)產(chǎn)品的關(guān)系等。元數(shù)據(jù)決定信息架構(gòu)的如何滿(mǎn)足業(yè)務(wù)需求,因此元數(shù)據(jù)是信息治理計(jì)劃的關(guān)鍵。大數(shù)據(jù)治理計(jì)劃需要實(shí)施的最佳實(shí)踐351324創(chuàng)建一個(gè)體現(xiàn)關(guān)鍵業(yè)務(wù)詞庫(kù)101業(yè)務(wù)詞庫(kù)業(yè)務(wù)詞庫(kù)是企業(yè)用于傳達(dá)其對(duì)信息的認(rèn)識(shí)的語(yǔ)言。創(chuàng)建并維護(hù)該層業(yè)務(wù)元數(shù)據(jù),對(duì)表達(dá)要求的含義和描述IT系統(tǒng)可用的信息至關(guān)重要。業(yè)務(wù)詞庫(kù)保證了信息開(kāi)發(fā)的準(zhǔn)確性和速度。術(shù)語(yǔ)代表著企業(yè)和業(yè)務(wù)層面對(duì)信息的理解,所以許多組織傾向于自下而上創(chuàng)建數(shù)據(jù)詞典,對(duì)已有的信息進(jìn)行歸類(lèi)。在處理大數(shù)據(jù)時(shí),業(yè)務(wù)驅(qū)動(dòng)的數(shù)據(jù)定義和數(shù)據(jù)目錄之間的區(qū)別尤為重要業(yè)務(wù)詞庫(kù)保證了信息開(kāi)發(fā)的準(zhǔn)確性和速度。在處理大數(shù)據(jù)時(shí),業(yè)務(wù)驅(qū)動(dòng)的數(shù)據(jù)定義和數(shù)據(jù)目錄之間的區(qū)別尤為重要。業(yè)務(wù)詞庫(kù)36業(yè)務(wù)詞庫(kù)業(yè)務(wù)詞庫(kù)是企業(yè)用于傳達(dá)其對(duì)信息的認(rèn)識(shí)的語(yǔ)對(duì)業(yè)務(wù)詞庫(kù)中的敏感數(shù)據(jù)102對(duì)敏感的大數(shù)據(jù)進(jìn)行分類(lèi)發(fā)現(xiàn)敏感數(shù)據(jù)對(duì)業(yè)務(wù)詞庫(kù)中的敏感數(shù)據(jù)進(jìn)行標(biāo)記執(zhí)行大數(shù)據(jù)隱私政策進(jìn)行分類(lèi)大數(shù)據(jù)治理計(jì)劃需要對(duì)社會(huì)保險(xiǎn)號(hào)碼等敏感數(shù)據(jù)進(jìn)行分類(lèi)。分類(lèi)應(yīng)來(lái)自業(yè)務(wù)詞庫(kù)模型并被傳承到不同數(shù)據(jù)庫(kù)中數(shù)據(jù)的所有物理實(shí)例中。敏感的大數(shù)據(jù)可能隱藏在非結(jié)構(gòu)化文本中。大數(shù)據(jù)治理計(jì)劃應(yīng)考慮數(shù)據(jù)分析工具的利用,以便自動(dòng)發(fā)現(xiàn)非結(jié)構(gòu)化字段的敏感數(shù)據(jù)。首席信息安全官制定有關(guān)敏感數(shù)據(jù)的政策。只有在識(shí)別到敏感數(shù)據(jù)的位置時(shí),組織才能執(zhí)行政策,因此,在業(yè)務(wù)詞庫(kù)中標(biāo)記敏感數(shù)據(jù)就非常關(guān)鍵。大數(shù)據(jù)治理團(tuán)隊(duì)可以通過(guò)使用數(shù)據(jù)分析工具發(fā)現(xiàn)敏感的大數(shù)據(jù),以監(jiān)督對(duì)政策的遵從度。對(duì)業(yè)務(wù)詞庫(kù)中的敏感數(shù)據(jù)37對(duì)敏感的大數(shù)據(jù)進(jìn)行分類(lèi)發(fā)現(xiàn)敏感數(shù)據(jù)從相關(guān)的大數(shù)據(jù)存儲(chǔ)中輸入技術(shù)元數(shù)據(jù)103在創(chuàng)建業(yè)務(wù)詞庫(kù)后大數(shù)據(jù)治理團(tuán)隊(duì)需要從大數(shù)據(jù)源中采集合用的、相關(guān)的元數(shù)據(jù)。大數(shù)據(jù)源Hadoop文件商業(yè)智能報(bào)告應(yīng)用數(shù)據(jù)庫(kù)數(shù)據(jù)模型準(zhǔn)結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化信息管理經(jīng)銷(xiāo)商元數(shù)據(jù)中央存儲(chǔ)庫(kù)橋接器連接器從相關(guān)的大數(shù)據(jù)存儲(chǔ)中輸入技術(shù)元數(shù)據(jù)38在創(chuàng)建業(yè)務(wù)詞庫(kù)后大數(shù)據(jù)元數(shù)據(jù)104元數(shù)據(jù)創(chuàng)建一個(gè)體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語(yǔ)的業(yè)務(wù)定義的詞庫(kù)理解對(duì)ApacheHadoop中元數(shù)據(jù)的持續(xù)支持對(duì)業(yè)務(wù)詞庫(kù)中的敏感大數(shù)據(jù)進(jìn)行標(biāo)記從相關(guān)的大數(shù)據(jù)存儲(chǔ)中輸入技術(shù)元數(shù)據(jù)將相關(guān)的數(shù)據(jù)元與業(yè)務(wù)詞庫(kù)的術(shù)語(yǔ)進(jìn)行鏈接使用運(yùn)營(yíng)元數(shù)據(jù)監(jiān)測(cè)大數(shù)據(jù)的流動(dòng)保留技術(shù)元數(shù)據(jù),以支持?jǐn)?shù)據(jù)血統(tǒng)和影響分析元數(shù)據(jù)39元數(shù)據(jù)創(chuàng)建一個(gè)體現(xiàn)關(guān)鍵大數(shù)據(jù)術(shù)語(yǔ)的業(yè)務(wù)定義的詞庫(kù)理從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索創(chuàng)建非結(jié)構(gòu)化數(shù)據(jù)的索引,也是元數(shù)據(jù)的一種形式,許多企業(yè)的搜索供應(yīng)商已開(kāi)發(fā)相應(yīng)工具。105保險(xiǎn)業(yè)通過(guò)向呼叫人員提供客服關(guān)懷、告警、保單和客戶(hù)信息文件等多個(gè)文件庫(kù)的可搜索訪(fǎng)問(wèn),可將平均處理時(shí)間減少三秒,年節(jié)約數(shù)百萬(wàn)美元。通過(guò)提供對(duì)EMCDocumentum、文件系統(tǒng)、微軟Share-Point、內(nèi)網(wǎng)和外部數(shù)據(jù)庫(kù)中客戶(hù)、患者和研究數(shù)據(jù)的快速訪(fǎng)問(wèn),加快科研進(jìn)程。讓臨床醫(yī)生可訪(fǎng)問(wèn)來(lái)自醫(yī)學(xué)刊物和其他文件庫(kù)的最新研究成果。制藥業(yè)醫(yī)療保險(xiǎn)業(yè)從非結(jié)構(gòu)化文件中采集元數(shù)據(jù),支持企業(yè)搜索創(chuàng)建非結(jié)構(gòu)化數(shù)據(jù)的索拓展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中信息治理團(tuán)隊(duì)可能安排許多與原數(shù)據(jù)相關(guān)的角色。組織需考慮這些角色進(jìn)行拓展,以將大數(shù)據(jù)治理納入進(jìn)來(lái)。106業(yè)務(wù)詞庫(kù)管理者數(shù)據(jù)科學(xué)家元數(shù)據(jù)管理者數(shù)據(jù)血統(tǒng)管理者數(shù)據(jù)主管數(shù)據(jù)架構(gòu)師本角色負(fù)責(zé)保管應(yīng)將大數(shù)據(jù)術(shù)語(yǔ)包含在內(nèi)的業(yè)務(wù)詞庫(kù)。本角色負(fù)責(zé)在相關(guān)數(shù)據(jù)源識(shí)別和輸入技術(shù)元數(shù)據(jù)。數(shù)據(jù)血統(tǒng)管理者與數(shù)據(jù)管理者配合,確保數(shù)據(jù)血統(tǒng)分析中數(shù)據(jù)源之間的數(shù)據(jù)流可得到準(zhǔn)確地反映。本角色參與大數(shù)據(jù)特別是關(guān)鍵業(yè)務(wù)術(shù)語(yǔ)定義的管理。本角色監(jiān)督元數(shù)據(jù)模型的創(chuàng)建及其與企業(yè)數(shù)據(jù)模型的連接。本角色縮短了大數(shù)據(jù)原始卷和使其有用的業(yè)務(wù)洞察間的距離,其通過(guò)創(chuàng)造力和想象力創(chuàng)建原型,以揭開(kāi)大數(shù)據(jù)中的秘密。拓展既有的元數(shù)據(jù)角色,將大數(shù)據(jù)納入其中信息治理團(tuán)隊(duì)可能安排許大數(shù)據(jù)質(zhì)量107維度傳統(tǒng)數(shù)據(jù)的質(zhì)量大數(shù)據(jù)的質(zhì)量處理頻率處理是面向批量的處理是實(shí)時(shí)的或面向批量的數(shù)據(jù)多樣性數(shù)據(jù)格式大部分是結(jié)構(gòu)化的數(shù)據(jù)格式可能是結(jié)構(gòu)化的、準(zhǔn)結(jié)構(gòu)化的或非結(jié)構(gòu)化的置信度數(shù)據(jù)需處于原始階段,以方便數(shù)據(jù)倉(cāng)庫(kù)的分析糟糕的數(shù)據(jù)質(zhì)量可能會(huì)阻礙分析工具獲得業(yè)務(wù)洞察數(shù)據(jù)進(jìn)化的時(shí)間選擇在下載到數(shù)據(jù)倉(cāng)庫(kù)前數(shù)據(jù)需要進(jìn)化數(shù)據(jù)的體量和速度可能要求采取流式的、內(nèi)存中的分析來(lái)進(jìn)化數(shù)據(jù)、從而降低存儲(chǔ)要求關(guān)鍵數(shù)據(jù)元素評(píng)估客戶(hù)地址等關(guān)鍵數(shù)據(jù)元素的數(shù)據(jù)質(zhì)量數(shù)據(jù)可能被模糊定義或錯(cuò)誤定義,關(guān)鍵數(shù)據(jù)元素可能會(huì)反復(fù)變化分析位置數(shù)據(jù)遷移到數(shù)據(jù)質(zhì)量和分析引擎數(shù)據(jù)質(zhì)量和分析引擎可進(jìn)入數(shù)據(jù)中,以保證可接受的處理速度管理工作數(shù)據(jù)主管可管理大部分?jǐn)?shù)據(jù)由于體量大和速度快,數(shù)據(jù)主管只能管理相對(duì)更小的數(shù)據(jù)數(shù)據(jù)質(zhì)量管理是測(cè)度、提高、驗(yàn)證質(zhì)量以及整合組織數(shù)據(jù)的方法等一套行為準(zhǔn)則。體量極大、速度極快和多樣的特點(diǎn),決定了大數(shù)據(jù)質(zhì)量所需的處理有別于傳統(tǒng)信息治理計(jì)劃的質(zhì)量管理。大數(shù)據(jù)質(zhì)量42維度傳統(tǒng)數(shù)據(jù)的質(zhì)量大數(shù)據(jù)的質(zhì)量處理頻率處理是面大數(shù)據(jù)治理計(jì)劃必須采取的實(shí)踐1089.1與商業(yè)上的利益攸關(guān)者協(xié)作,建立并測(cè)度大數(shù)據(jù)質(zhì)量的置信區(qū)間9.2利用準(zhǔn)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),提高人口稀疏的結(jié)構(gòu)化數(shù)據(jù)的質(zhì)量9.3使用流數(shù)據(jù)分析技術(shù)解決內(nèi)存中的數(shù)據(jù)質(zhì)量問(wèn)題,無(wú)需將中間結(jié)果輸入硬盤(pán)9.4任命對(duì)信息治理委員會(huì)負(fù)責(zé)的主管,由其負(fù)責(zé)提高大數(shù)據(jù)治理計(jì)劃必須采取的實(shí)踐439.1與商業(yè)上的利益攸關(guān)者業(yè)務(wù)流程整合
10910.1識(shí)別將會(huì)受到大數(shù)據(jù)治理影響的關(guān)鍵流程10.2建立關(guān)鍵合同的流程圖10.3針對(duì)業(yè)務(wù)流程中的關(guān)鍵步驟,制定大數(shù)據(jù)治理政策業(yè)務(wù)流程整合4410.1識(shí)別將會(huì)受到大數(shù)據(jù)治理影響的關(guān)鍵流1.大數(shù)據(jù)源圖21.1大數(shù)據(jù)技術(shù)參考架構(gòu)110Web和社交媒體數(shù)據(jù)機(jī)器對(duì)機(jī)器的數(shù)據(jù)大體量交易數(shù)據(jù)生物計(jì)量學(xué)數(shù)據(jù)人工生成的數(shù)據(jù)15.大數(shù)據(jù)安全和隱私16.大數(shù)據(jù)生命周期管理17.云2.開(kāi)源的基礎(chǔ)組件HDFSMapReduceHadoopCommonHBaseOthers5.數(shù)據(jù)庫(kù)NoSQLIn-MemoryRelationalLegacy6.大數(shù)據(jù)整合批量遷移復(fù)制虛擬化7.文本分析8.大數(shù)據(jù)發(fā)現(xiàn)9.大數(shù)據(jù)質(zhì)量10.元數(shù)據(jù)11.信息政策管理12.主數(shù)據(jù)管理13.數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市14.大數(shù)據(jù)分析和報(bào)告3.Hadoop發(fā)行版4.流媒體分析18.大數(shù)據(jù)標(biāo)準(zhǔn)8.大數(shù)據(jù)發(fā)現(xiàn)9.大數(shù)據(jù)質(zhì)量1.大數(shù)據(jù)源圖21.1大數(shù)據(jù)技術(shù)參考架構(gòu)45Web和社交媒微軟的大數(shù)據(jù)平臺(tái)1111.微軟Hadoop發(fā)行版6.WindowsAzureExcel5.大數(shù)據(jù)分析與報(bào)告SQLServerAnalysisServicesSQLServerParallelEditionSQLServerReportingServices4.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)集市3.大數(shù)據(jù)整合2.數(shù)據(jù)庫(kù)開(kāi)源基礎(chǔ)組件大數(shù)據(jù)源SQLServerIntegrationServicesSQLServer微軟的大數(shù)據(jù)平臺(tái)461.微軟Hadoop發(fā)行版6.Windo理解對(duì)ApacheHadoop中元數(shù)據(jù)的持續(xù)支持112名稱(chēng)節(jié)點(diǎn)數(shù)據(jù)塊A數(shù)據(jù)節(jié)點(diǎn)機(jī)架1數(shù)據(jù)塊B數(shù)據(jù)塊C數(shù)據(jù)塊A數(shù)據(jù)節(jié)點(diǎn)機(jī)架2數(shù)據(jù)塊B數(shù)據(jù)塊C數(shù)據(jù)塊A數(shù)據(jù)節(jié)點(diǎn)機(jī)架3數(shù)據(jù)塊B數(shù)據(jù)塊C圖:Hadoop分布式文件系統(tǒng)(HDFS)的技術(shù)構(gòu)架作為Hadoop關(guān)鍵支持要素的元數(shù)據(jù)如圖Hadoop分布式文件系統(tǒng)(HDFS)是一個(gè)帶單個(gè)名稱(chēng)節(jié)點(diǎn)和多個(gè)數(shù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 貴陽(yáng)幼兒師范高等專(zhuān)科學(xué)?!秳?dòng)畫(huà)場(chǎng)景設(shè)計(jì)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025山西省安全員C證(專(zhuān)職安全員)考試題庫(kù)
- 硅湖職業(yè)技術(shù)學(xué)院《面向?qū)ο蠹夹g(shù)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025甘肅省建筑安全員考試題庫(kù)
- 廣州幼兒師范高等專(zhuān)科學(xué)校《綠色建筑與綠色施工》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025年四川建筑安全員-B證(項(xiàng)目經(jīng)理)考試題庫(kù)
- 廣州衛(wèi)生職業(yè)技術(shù)學(xué)院《溫病學(xué)》2023-2024學(xué)年第一學(xué)期期末試卷
- 2025貴州建筑安全員B證(項(xiàng)目經(jīng)理)考試題庫(kù)
- 2025黑龍江省安全員-C證(專(zhuān)職安全員)考試題庫(kù)
- 《ESD知識(shí)和控制》課件
- 人教版四年級(jí)上冊(cè)豎式計(jì)算400題及答案
- 重慶開(kāi)縣2023-2024學(xué)年七年級(jí)上學(xué)期期末數(shù)學(xué)檢測(cè)卷(含答案)
- 血?dú)夥治鼋Y(jié)果判讀及臨床應(yīng)用護(hù)理課件
- 智能船舶與海洋工程:物聯(lián)網(wǎng)在船舶與海洋工程中的應(yīng)用
- 高速服務(wù)區(qū)經(jīng)營(yíng)分析報(bào)告
- 浙江省湖州市2022-2023學(xué)年四年級(jí)上學(xué)期數(shù)學(xué)期末試卷(含答案)
- 建井施工方案
- YMO青少年數(shù)學(xué)思維28屆五年級(jí)全國(guó)總決賽試卷
- 個(gè)人業(yè)績(jī)相關(guān)信息采集表
- 過(guò)敏性紫癜課件PPT
- 大學(xué)生暑期社會(huì)實(shí)踐證明模板(20篇)
評(píng)論
0/150
提交評(píng)論