版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
4大數(shù)據(jù)參考架構(gòu)和關(guān)鍵技術(shù)4.1大數(shù)據(jù)參考架構(gòu)大數(shù)據(jù)作為一個(gè)新興技術(shù),現(xiàn)在還未形成完善、達(dá)成共識(shí)技術(shù)標(biāo)準(zhǔn)體系。本章結(jié)合NIST和JTC1/SC32研究結(jié)果,結(jié)合我們對大數(shù)據(jù)了解和分析,提出了大數(shù)據(jù)參考架構(gòu)(見圖5)。圖5大數(shù)據(jù)參考架構(gòu)圖大數(shù)據(jù)參考架構(gòu)總體上能夠概括為“一個(gè)概念體系,二個(gè)價(jià)值鏈維度”。“一個(gè)概念體系”是指它為大數(shù)據(jù)參考架構(gòu)中使用概念提供了一個(gè)構(gòu)件層級(jí)分類體系,即“角色—活動(dòng)—功效組件”,用于描述參考架構(gòu)中邏輯構(gòu)件及其關(guān)系;“二個(gè)價(jià)值鏈維度”分別為“IT價(jià)值鏈”和“信息價(jià)值鏈”,其中“IT價(jià)值鏈”反應(yīng)是大數(shù)據(jù)作為一個(gè)新興數(shù)據(jù)應(yīng)用范式對IT技術(shù)產(chǎn)生新需求所帶來價(jià)值,“信息價(jià)值鏈”反應(yīng)是大數(shù)據(jù)作為一個(gè)數(shù)據(jù)科學(xué)方法論對數(shù)據(jù)到知識(shí)處理過程中所實(shí)現(xiàn)信息流價(jià)值。這些內(nèi)涵在大數(shù)據(jù)參考模型圖中得到了表現(xiàn)。大數(shù)據(jù)參考架構(gòu)是一個(gè)通用大數(shù)據(jù)系統(tǒng)概念模型。它表示了通用、技術(shù)無關(guān)大數(shù)據(jù)系統(tǒng)邏輯功效構(gòu)件及構(gòu)件之間互操作接口,能夠作為開發(fā)各種詳細(xì)類型大數(shù)據(jù)應(yīng)用系統(tǒng)架構(gòu)通用技術(shù)參考框架。其目標(biāo)是建立一個(gè)開放大數(shù)據(jù)技術(shù)參考架構(gòu),使系統(tǒng)工程師、數(shù)據(jù)科學(xué)家、軟件開發(fā)人員、數(shù)據(jù)架構(gòu)師和高級(jí)決議者,能夠在能夠互操作大數(shù)據(jù)生態(tài)系統(tǒng)中制訂一個(gè)處理方案,處理由各種大數(shù)據(jù)特征融合而帶來需要使用多個(gè)方法問題。它提供了一個(gè)通用大數(shù)據(jù)應(yīng)用系統(tǒng)框架,支持各種商業(yè)環(huán)境,包含緊密集成企業(yè)系統(tǒng)和渙散耦合垂直行業(yè),有利于了解大數(shù)據(jù)系統(tǒng)怎樣補(bǔ)充并有別于已經(jīng)有分析、商業(yè)智能、數(shù)據(jù)庫等傳統(tǒng)數(shù)據(jù)應(yīng)用系統(tǒng)。大數(shù)據(jù)參考架構(gòu)采取構(gòu)件層級(jí)結(jié)構(gòu)來表示大數(shù)據(jù)系統(tǒng)高層概念和通用構(gòu)件分類法。從組成上看,大數(shù)據(jù)參考架構(gòu)是由一系列在不一樣概念層級(jí)上邏輯構(gòu)件組成。這些邏輯構(gòu)件被劃分為三個(gè)層級(jí),從高到低依次為角色、活動(dòng)和功效組件。最頂層級(jí)邏輯構(gòu)件是角色,包含系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者、數(shù)據(jù)消費(fèi)者、安全和隱私、管理。第二層級(jí)邏輯構(gòu)件是每個(gè)角色執(zhí)行活動(dòng)。第三層級(jí)邏輯構(gòu)件是執(zhí)行每個(gè)活動(dòng)需要功效組件。大數(shù)據(jù)參考架構(gòu)圖整體布局按照代表大數(shù)據(jù)價(jià)值鏈兩個(gè)維度來組織,即信息價(jià)值鏈(水平軸)和IT價(jià)值鏈(垂直軸)。在信息價(jià)值鏈維度上,大數(shù)據(jù)價(jià)值經(jīng)過數(shù)據(jù)搜集、預(yù)處理、分析、可視化和訪問等活動(dòng)來實(shí)現(xiàn)。在IT價(jià)值鏈維度上,大數(shù)據(jù)價(jià)值經(jīng)過為大數(shù)據(jù)應(yīng)用提供存放和運(yùn)行大數(shù)據(jù)網(wǎng)絡(luò)、基礎(chǔ)設(shè)施、平臺(tái)、應(yīng)用工具以及其余IT服務(wù)來實(shí)現(xiàn)。大數(shù)據(jù)應(yīng)用提供者處于兩個(gè)維交叉點(diǎn)上,表明大數(shù)據(jù)分析及其實(shí)施為兩個(gè)價(jià)值鏈上大數(shù)據(jù)利益相關(guān)者提供了價(jià)值。五個(gè)主要模型構(gòu)件代表在每個(gè)大數(shù)據(jù)系統(tǒng)中存在不一樣技術(shù)角色:系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者和數(shù)據(jù)消費(fèi)者。另外兩個(gè)非常主要模型構(gòu)件是安全隱私與管理,代表能為大數(shù)據(jù)系統(tǒng)其余五個(gè)主要模型構(gòu)件提供服務(wù)和功效構(gòu)件。這兩個(gè)關(guān)鍵模型構(gòu)件功效極其主要,所以也被集成在任何大數(shù)據(jù)處理方案中。參考架構(gòu)能夠用于多個(gè)大數(shù)據(jù)系統(tǒng)組成復(fù)雜系統(tǒng)(如堆疊式或鏈?zhǔn)较到y(tǒng)),這么其中一個(gè)系統(tǒng)大數(shù)據(jù)使用者能夠作為另外一個(gè)系統(tǒng)大數(shù)據(jù)提供者。參考架構(gòu)邏輯構(gòu)件之間關(guān)系用箭頭表示,包含三類關(guān)系:“數(shù)據(jù)”、“軟件”和“服務(wù)使用”?!皵?shù)據(jù)”表明在系統(tǒng)主要構(gòu)件之間流動(dòng)數(shù)據(jù),能夠是實(shí)際數(shù)值或引用地址?!败浖北砻髟诖髷?shù)據(jù)處理過程中支撐軟件工具?!胺?wù)使用”代表軟件程序接口。即使此參考架構(gòu)主要用于描述大數(shù)據(jù)實(shí)時(shí)運(yùn)行環(huán)境,但也可用于配置階段。大數(shù)據(jù)系統(tǒng)中包括人工協(xié)議和人工交互沒有被包含在此參考架構(gòu)中。(1)系統(tǒng)協(xié)調(diào)者系統(tǒng)協(xié)調(diào)者角色提供系統(tǒng)必須滿足整體要求,包含政策、治理、架構(gòu)、資源和業(yè)務(wù)需求,以及為確保系統(tǒng)符合這些需求而進(jìn)行監(jiān)控和審計(jì)活動(dòng)。系統(tǒng)協(xié)調(diào)者角色飾演者包含業(yè)務(wù)領(lǐng)導(dǎo)、咨詢師、數(shù)據(jù)科學(xué)家、信息架構(gòu)師、軟件架構(gòu)師、安全和隱私架構(gòu)師、網(wǎng)絡(luò)架構(gòu)師等。系統(tǒng)協(xié)調(diào)者定義和整合所需數(shù)據(jù)應(yīng)用活動(dòng)到運(yùn)行垂直系統(tǒng)中。系統(tǒng)協(xié)調(diào)者通常會(huì)包括到更多詳細(xì)角色,由一個(gè)或多個(gè)角色飾演者管理和協(xié)調(diào)大數(shù)據(jù)系統(tǒng)運(yùn)行。這些角色飾演者能夠是人,軟件或二者結(jié)合。系統(tǒng)協(xié)調(diào)者功效是配置和管理大數(shù)據(jù)架構(gòu)其余組件,來執(zhí)行一個(gè)或多個(gè)工作負(fù)載。這些由系統(tǒng)協(xié)調(diào)者管理工作負(fù)載,在較低層能夠是把框架組件分配或調(diào)配到個(gè)別物理或虛擬節(jié)點(diǎn)上,在較高層能夠是提供一個(gè)圖形用戶界面來支持連接多個(gè)應(yīng)用程序和組件工作流規(guī)范。系統(tǒng)協(xié)調(diào)者也能夠經(jīng)過管理角色監(jiān)控工作負(fù)載和系統(tǒng),以確認(rèn)每個(gè)工作負(fù)載都達(dá)成了特定服務(wù)質(zhì)量要求,還可能彈性地分配和提供額外物理或虛擬資源,以滿足由改變/激增數(shù)據(jù)或用戶/交易數(shù)量而帶來工作負(fù)載需求。(2)數(shù)據(jù)提供者數(shù)據(jù)提供者角色為大數(shù)據(jù)系統(tǒng)提供可用數(shù)據(jù)。數(shù)據(jù)提供者角色飾演者包含企業(yè)、公共代理機(jī)構(gòu)、研究人員和科學(xué)家、搜索引擎、Web/FTP和其余應(yīng)用、網(wǎng)絡(luò)運(yùn)行商、終端用戶等。在一個(gè)大數(shù)據(jù)系統(tǒng)中,數(shù)據(jù)提供者活動(dòng)通常包含采集數(shù)據(jù)、持久化數(shù)據(jù)、對敏感信息進(jìn)行轉(zhuǎn)換和清洗、創(chuàng)建數(shù)據(jù)源元數(shù)據(jù)及訪問策略、訪問控制、經(jīng)過軟件可編程接口接口實(shí)現(xiàn)推或拉式數(shù)據(jù)訪問、公布數(shù)據(jù)可用及訪問方法信息等。數(shù)據(jù)提供者通常需要為各種數(shù)據(jù)源(原始數(shù)據(jù)或由其它系統(tǒng)預(yù)先轉(zhuǎn)換數(shù)據(jù))創(chuàng)建一個(gè)抽象數(shù)據(jù)源,經(jīng)過不一樣接口提供發(fā)覺和訪問數(shù)據(jù)功效。這些接口通常包含一個(gè)注冊表,使得大數(shù)據(jù)應(yīng)用程序能夠找到數(shù)據(jù)提供者、確定包含感興趣數(shù)據(jù)、了解允許訪問類型、了解所支持分析類型、定位數(shù)據(jù)源、確定數(shù)據(jù)訪問方法、識(shí)別數(shù)據(jù)安全要求、識(shí)別數(shù)據(jù)保密要求以及其余相關(guān)信息。所以,該接口將提供注冊數(shù)據(jù)源、查詢注冊表、識(shí)別注冊表中包含標(biāo)準(zhǔn)數(shù)據(jù)集等功效。針對大數(shù)據(jù)4V特征和系統(tǒng)設(shè)計(jì)方面考慮,暴露和訪問數(shù)據(jù)接口需要依照改變復(fù)雜性采取推和拉兩種軟件機(jī)制。這兩種軟件機(jī)制包含訂閱事件、監(jiān)聽數(shù)據(jù)饋送、查詢特定數(shù)據(jù)屬性或內(nèi)容,以及提交一段代碼來執(zhí)行數(shù)據(jù)處理功效。因?yàn)樾枰紤]大數(shù)據(jù)量跨網(wǎng)絡(luò)移動(dòng)經(jīng)濟(jì)性,接口還能夠允許提交分析請求(比如,執(zhí)行一段實(shí)現(xiàn)特定算法軟件代碼),只把結(jié)果返回給請求者。數(shù)據(jù)訪問可能不總是自動(dòng)進(jìn)行,能夠讓人類角色登錄到系統(tǒng)提供新數(shù)據(jù)應(yīng)傳送方式(比如,基于數(shù)據(jù)饋送建立訂閱電子郵件)。(3)大數(shù)據(jù)應(yīng)用提供者大數(shù)據(jù)應(yīng)用提供者在數(shù)據(jù)生命周期中執(zhí)行一系列操作,以滿足系統(tǒng)協(xié)調(diào)者建立系統(tǒng)要求及安全和隱私要求。大數(shù)據(jù)應(yīng)用提供者經(jīng)過把大數(shù)據(jù)框架中通常性資源和服務(wù)能力相結(jié)合,把業(yè)務(wù)邏輯和功效封裝成架構(gòu)組件,結(jié)構(gòu)出特定大數(shù)據(jù)應(yīng)用系統(tǒng)。大數(shù)據(jù)應(yīng)用提供者角色飾演者包含應(yīng)用程序教授、平臺(tái)教授、咨詢師等。大數(shù)據(jù)應(yīng)用提供者角色執(zhí)行活動(dòng)包含數(shù)據(jù)搜集、預(yù)處理、分析、可視化和訪問。大數(shù)據(jù)應(yīng)用程序提供者能夠是單個(gè)實(shí)例,也能夠是一組更細(xì)粒度大數(shù)據(jù)應(yīng)用提供者實(shí)例集合,集合中每個(gè)實(shí)例執(zhí)行數(shù)據(jù)生命周期中不一樣活動(dòng)。每個(gè)大數(shù)據(jù)應(yīng)用提供者活動(dòng)可能是由系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者或數(shù)據(jù)消費(fèi)者調(diào)用通常服務(wù),如Web服務(wù)器、文件服務(wù)器、一個(gè)或多個(gè)應(yīng)用程序集合或組合。每個(gè)活動(dòng)能夠由多個(gè)不一樣實(shí)例執(zhí)行,或者單個(gè)程序也可能執(zhí)行多個(gè)活動(dòng)。每個(gè)活動(dòng)都能夠與大數(shù)據(jù)框架提供者、數(shù)據(jù)提供者以及數(shù)據(jù)消費(fèi)者交互。這些活動(dòng)能夠并行執(zhí)行,也能夠按照任意數(shù)字次序執(zhí)行,活動(dòng)之間經(jīng)常需要經(jīng)過大數(shù)據(jù)框架提供者消息和通信框架進(jìn)行通信。大數(shù)據(jù)應(yīng)用提供者執(zhí)行活動(dòng)和功效,尤其是數(shù)據(jù)搜集和數(shù)據(jù)訪問活動(dòng),需要與安全和隱私角色進(jìn)行交互,執(zhí)行認(rèn)證/授權(quán)并統(tǒng)計(jì)或維護(hù)數(shù)據(jù)出處。搜集活動(dòng)用于處理與數(shù)據(jù)提供者接口。它能夠是通常服務(wù),如由系統(tǒng)協(xié)調(diào)者配置用于接收或執(zhí)行數(shù)據(jù)搜集任務(wù)文件服務(wù)器或Web服務(wù)器;也能夠是特定于應(yīng)用服務(wù),如用來從數(shù)據(jù)提供者拉數(shù)據(jù)或接收數(shù)據(jù)提供者推送數(shù)據(jù)服務(wù)。搜集活動(dòng)執(zhí)行任務(wù)類似于ETL抽?。╡xtraction)步驟。搜集活動(dòng)接收到數(shù)據(jù)通常需要大數(shù)據(jù)框架提供者處理框架來執(zhí)行內(nèi)存隊(duì)列緩存或其余數(shù)據(jù)持久化服務(wù)。預(yù)處理活動(dòng)執(zhí)行任務(wù)類似于ETL轉(zhuǎn)換(transformation)步驟,包含數(shù)據(jù)驗(yàn)證、清洗、去除異常值、標(biāo)準(zhǔn)化、格式化或封裝。預(yù)處理活動(dòng)也是大數(shù)據(jù)框架提供者歸檔存放數(shù)據(jù)起源,這些數(shù)據(jù)出處信息通常也要被驗(yàn)證并附加到數(shù)據(jù)存放中。預(yù)處理活動(dòng)也可能聚集來自不一樣數(shù)據(jù)提供者數(shù)據(jù),利用元數(shù)據(jù)鍵來創(chuàng)建一個(gè)擴(kuò)展和增強(qiáng)數(shù)據(jù)集。分析活動(dòng)任務(wù)是實(shí)現(xiàn)從數(shù)據(jù)中提取出知識(shí)。這需要有特定數(shù)據(jù)處理算法對數(shù)據(jù)進(jìn)行處理,方便從數(shù)據(jù)中得出能夠處理技術(shù)目標(biāo)新洞察。分析活動(dòng)包含對大數(shù)據(jù)系統(tǒng)低級(jí)別業(yè)務(wù)邏輯進(jìn)行編碼(更高級(jí)別業(yè)務(wù)流程邏輯由系統(tǒng)協(xié)調(diào)者進(jìn)行編碼),它利用大數(shù)據(jù)框架提供者處理框架來實(shí)現(xiàn)這些關(guān)聯(lián)邏輯,通常會(huì)包括到在批處理或流處理組件上實(shí)現(xiàn)分析邏輯軟件。分析活動(dòng)還能夠使用大數(shù)據(jù)框架提供者消息和通信框架在應(yīng)用邏輯中傳遞數(shù)據(jù)和控制功效。可視化活動(dòng)任務(wù)是將分析活動(dòng)結(jié)果以最利于溝通和了解知識(shí)方式展現(xiàn)給數(shù)據(jù)消費(fèi)者。可視化功效包含生成基于文本匯報(bào)或者以圖形方式渲染分析結(jié)果??梢暬Y(jié)果能夠是靜態(tài),存放在大數(shù)據(jù)框架提供者中供以后訪問。更多情況下,可視化活動(dòng)經(jīng)常要與數(shù)據(jù)消費(fèi)者、大數(shù)據(jù)分析活動(dòng)以及大數(shù)據(jù)提供者處理框架和平臺(tái)進(jìn)行交互,這就需要基于數(shù)據(jù)消費(fèi)者設(shè)置數(shù)據(jù)訪問參數(shù)來提供交互式可視化伎倆??梢暬顒?dòng)能夠完全由應(yīng)用程序?qū)崿F(xiàn),也能夠使用大數(shù)據(jù)框架提供者提供專門可視化處理框架實(shí)現(xiàn)。訪問活動(dòng)主要集中在與數(shù)據(jù)消費(fèi)者通信和交互。與數(shù)據(jù)搜集活動(dòng)類似,訪問活動(dòng)能夠是由系統(tǒng)協(xié)調(diào)者配置通常服務(wù),如Web服務(wù)器或應(yīng)用服務(wù)器,用于接收數(shù)據(jù)消費(fèi)者請求。訪問活動(dòng)還能夠作為可視化活動(dòng)、分析活動(dòng)界面來響應(yīng)數(shù)據(jù)消費(fèi)者請求,并使用大數(shù)據(jù)框架提供者處理框架和平臺(tái)來檢索數(shù)據(jù),向數(shù)據(jù)消費(fèi)者請求作出響應(yīng)。另外,訪問活動(dòng)還要確保為數(shù)據(jù)消費(fèi)者提供描述性和管理性元數(shù)據(jù),并把這些元數(shù)據(jù)作為數(shù)據(jù)傳送給數(shù)據(jù)消費(fèi)者。訪問活動(dòng)與數(shù)據(jù)消費(fèi)者接口能夠是同時(shí)或異步,也能夠使用拉或推軟件機(jī)制進(jìn)行數(shù)據(jù)傳輸。(4)大數(shù)據(jù)框架提供者大數(shù)據(jù)框架提供者角色為大數(shù)據(jù)應(yīng)用提供者在創(chuàng)建特定大數(shù)據(jù)應(yīng)用系統(tǒng)時(shí)提供通常資源和服務(wù)能力。大數(shù)據(jù)框架提供者角色飾演者包含數(shù)據(jù)中心、云提供商、自建服務(wù)器集群等。大數(shù)據(jù)框架提供者執(zhí)行活動(dòng)和功效包含提供基礎(chǔ)設(shè)施(物理資源、虛擬資源)、數(shù)據(jù)平臺(tái)(文件存放、索引存放)、處理框架(批處理、交互、流處理)、消息和通信框架、資源管理等。基礎(chǔ)設(shè)施為其余角色執(zhí)行活動(dòng)提供存放和運(yùn)行大數(shù)據(jù)系統(tǒng)所需要資源。通常情況下,這些資源是物理資源某種組合,用來支持相同虛擬資源。資源通常能夠分為網(wǎng)絡(luò)、計(jì)算、存放和環(huán)境。網(wǎng)絡(luò)資源負(fù)責(zé)數(shù)據(jù)在基礎(chǔ)設(shè)施組件之間傳送;計(jì)算資源包含物理處理器和內(nèi)存,負(fù)責(zé)執(zhí)行和保持大數(shù)據(jù)系統(tǒng)其余組件軟件;存放資源為大數(shù)據(jù)系統(tǒng)提供數(shù)據(jù)持久化能力;環(huán)境資源是在考慮建立大數(shù)據(jù)系統(tǒng)時(shí)需要實(shí)體工廠資源,如供電、制冷等。數(shù)據(jù)平臺(tái)經(jīng)過相關(guān)應(yīng)用編程接口(API)或其余方式,提供數(shù)據(jù)邏輯組織和分發(fā)服務(wù)。它也可能提供數(shù)據(jù)注冊、元數(shù)據(jù)以及語義數(shù)據(jù)描述等服務(wù)。邏輯數(shù)據(jù)組織范圍涵蓋從簡單分隔符平面文件到完全分布式關(guān)系存放或列存放。數(shù)據(jù)訪問方式能夠是文件存取API或查詢語言(如SQL)。通常情況下,實(shí)現(xiàn)大數(shù)據(jù)系統(tǒng)既能支持任何基本文件系統(tǒng)存放,也支持內(nèi)存存放、索引文件存放等方式。處理框架提供必要基礎(chǔ)軟件以支持實(shí)現(xiàn)應(yīng)用能夠處理具備4V特征大數(shù)據(jù)。處理框架定義了數(shù)據(jù)計(jì)算和處理是怎樣組織。大數(shù)據(jù)應(yīng)用依賴于各種平臺(tái)和技術(shù),以應(yīng)對可擴(kuò)展數(shù)據(jù)處理和分析挑戰(zhàn)。處理框架通常能夠分為批處理(batch)、流處理(streaming)和交互式(interactive)三種類型。消息和通信框架為可水平伸縮集群結(jié)點(diǎn)之間提供可靠隊(duì)列、傳輸、數(shù)據(jù)接收等功效。它通常有2種實(shí)現(xiàn)模式,即點(diǎn)對點(diǎn)(point-to-point)模式和存放-轉(zhuǎn)發(fā)(store-and-forward)模式。點(diǎn)對點(diǎn)模式不考慮消息恢復(fù)問題,數(shù)據(jù)直接從發(fā)送者傳送給接收者。存放-轉(zhuǎn)發(fā)模式提供消息持久化和恢復(fù)機(jī)制,發(fā)送者把數(shù)據(jù)發(fā)送給中介代理,中介代理先存放消息然后再轉(zhuǎn)發(fā)給接收者。資源管理活動(dòng)負(fù)責(zé)處理因?yàn)榇髷?shù)據(jù)數(shù)據(jù)量和速度特征而帶來對CPU、內(nèi)存、I/O等資源管理問題。有兩種不一樣資源管理方式,分別是框架內(nèi)(intra-framework)資源管理和框架間(inter-framework)資源管理??蚣軆?nèi)資源管理負(fù)責(zé)框架本身內(nèi)部各組件之間資源分配,由框架負(fù)載驅(qū)動(dòng),通常會(huì)為了最小化框架整體需求或降低運(yùn)行成本而關(guān)閉不需要資源??蚣荛g資源管理負(fù)責(zé)大數(shù)據(jù)系統(tǒng)多個(gè)存放框架和處理框架之間資源調(diào)度和優(yōu)化管理,通常包含管理框架資源請求、監(jiān)控框架資源使用,以及在一些情況下對申請使用資源應(yīng)用隊(duì)列進(jìn)行管理等。尤其,針對大數(shù)據(jù)系統(tǒng)負(fù)載多變、用戶多樣、規(guī)模較大特點(diǎn),應(yīng)采取愈加經(jīng)濟(jì)有效資源構(gòu)架和管理方案?,F(xiàn)在大數(shù)據(jù)軟件框架,其亮點(diǎn)在于高可擴(kuò)展性,而本質(zhì)訴求依然是怎樣實(shí)現(xiàn)并行化,即對數(shù)據(jù)進(jìn)行分片、并為每一個(gè)分片分配對應(yīng)當(dāng)?shù)赜?jì)算資源。所以,對于基礎(chǔ)架構(gòu)而言,為了支持大數(shù)據(jù)軟件框架,最直接實(shí)現(xiàn)方式就是將一份計(jì)算資源和一份存放資源進(jìn)行綁定,組成一個(gè)資源單位(如,服務(wù)器),以取得盡可能高當(dāng)?shù)財(cái)?shù)據(jù)訪問性能。不過,這種基礎(chǔ)架構(gòu)因?yàn)橛?jì)算同存放之間緊耦合且百分比固定,逐步暴露出資源利用率低、重構(gòu)時(shí)靈活性差等問題。所以,未來應(yīng)經(jīng)過硬件及軟件各方面技術(shù)創(chuàng)新,在確保當(dāng)?shù)財(cái)?shù)據(jù)訪問性能同時(shí),實(shí)現(xiàn)計(jì)算與存放資源之間松耦合,即:能夠按需調(diào)配整個(gè)大數(shù)據(jù)系統(tǒng)中資源百分比,及時(shí)適應(yīng)該前業(yè)務(wù)對計(jì)算和存放真實(shí)需要;同時(shí),能夠?qū)ο到y(tǒng)計(jì)算部分進(jìn)行快速切換,真正滿足數(shù)據(jù)技術(shù)(DT)時(shí)代對“以數(shù)據(jù)為中心、按需投入計(jì)算”業(yè)務(wù)要求。(5)數(shù)據(jù)消費(fèi)者數(shù)據(jù)消費(fèi)者角色接收大數(shù)據(jù)系統(tǒng)輸出。與數(shù)據(jù)提供者類似,數(shù)據(jù)消費(fèi)者能夠是終端用戶或者其它應(yīng)用系統(tǒng)。數(shù)據(jù)消費(fèi)者執(zhí)行活動(dòng)通常包含搜索/檢索、下載、當(dāng)?shù)胤治觥⑸蓞R報(bào)、可視化等。數(shù)據(jù)消費(fèi)者利用大數(shù)據(jù)應(yīng)用提供者提供界面或服務(wù)訪問他感興趣信息,這些界面包含數(shù)據(jù)報(bào)表、數(shù)據(jù)檢索、數(shù)據(jù)渲染等。數(shù)據(jù)消費(fèi)者角色也會(huì)經(jīng)過數(shù)據(jù)訪問活動(dòng)與大數(shù)據(jù)應(yīng)用提供者交互,執(zhí)行其提供數(shù)據(jù)分析和可視化功效。交互能夠是基于需要(demand-based),包含交互式可視化、創(chuàng)建匯報(bào),或者利用大數(shù)據(jù)提供者提供商務(wù)智能(BI)工具對數(shù)據(jù)進(jìn)行鉆?。╠rill-down)操作等。交互功效也能夠是基于流處理(streaming-based)或推(push-based)機(jī)制,這種情況下消費(fèi)者只需要訂閱大數(shù)據(jù)應(yīng)用系統(tǒng)輸出即可。(6)安全和隱私在大數(shù)據(jù)參考架構(gòu)圖中,安全和隱私角色覆蓋了其它五個(gè)主要角色,即系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)框架提供者、大數(shù)據(jù)應(yīng)用提供者、數(shù)據(jù)消費(fèi)者,表明這五個(gè)主要角色活動(dòng)都要受到安全和隱私角色影響。安全和隱私角色處于管理角色之中,也意味著安全和隱私角色與大數(shù)據(jù)參考架構(gòu)中全部活動(dòng)和功效都相互關(guān)聯(lián)。在安全和隱私管理模塊,經(jīng)過不一樣技術(shù)伎倆和安全方法,構(gòu)筑大數(shù)據(jù)系統(tǒng)全方位、立體安全防護(hù)體系,同時(shí)應(yīng)提供一個(gè)合理災(zāi)備框架,提升災(zāi)備恢復(fù)能力,實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)異地容災(zāi)功效。大數(shù)據(jù)安全和隱私詳細(xì)討論見4.3。(7)管理管理角色包含二個(gè)活動(dòng)組:系統(tǒng)管理和大數(shù)據(jù)生命周期管理。系統(tǒng)管理活動(dòng)組包含調(diào)配、配置、軟件包管理、軟件管理、備份管理、能力管理、資源管理和大數(shù)據(jù)基礎(chǔ)設(shè)施性能管理等活動(dòng)。大數(shù)據(jù)生命周期管理涵蓋了大數(shù)據(jù)生命周期中全部處理過程,其活動(dòng)和功效是驗(yàn)證數(shù)據(jù)在生命周期每個(gè)過程是否都能夠被大數(shù)據(jù)系統(tǒng)正確地處理。因?yàn)榇髷?shù)據(jù)基礎(chǔ)設(shè)施分布式和復(fù)雜性,系統(tǒng)管理依賴于兩點(diǎn):使用標(biāo)準(zhǔn)協(xié)議如SNMP把資源狀態(tài)和犯錯(cuò)信息傳送給管理組件;經(jīng)過可布署代理或管理連接子(connector)允許管理角色監(jiān)視甚至控制大數(shù)據(jù)處理框架元素。系統(tǒng)管理功效是監(jiān)視各種計(jì)算資源運(yùn)行情況,應(yīng)對出現(xiàn)性能或故障事件,從而能夠滿足大數(shù)據(jù)應(yīng)用提供者服務(wù)質(zhì)量(QoS)需求。在云服務(wù)提供商提供能力管理接口時(shí),經(jīng)過管理連接子對云基礎(chǔ)設(shè)施提供自助服務(wù)、自我調(diào)整、自我修復(fù)等能力進(jìn)行利用和管理。大型基礎(chǔ)設(shè)施通常包含數(shù)以千計(jì)計(jì)算和存放節(jié)點(diǎn),所以應(yīng)用程序和工具調(diào)配應(yīng)盡可能自動(dòng)化。軟件安裝、應(yīng)用配置以及補(bǔ)丁維護(hù)也應(yīng)該以自動(dòng)方式推送到各結(jié)點(diǎn)并實(shí)現(xiàn)自動(dòng)地跨結(jié)點(diǎn)復(fù)制。還能夠利用虛擬化技術(shù)虛擬映像,加緊恢復(fù)進(jìn)程和提供有效系統(tǒng)修補(bǔ),以最大程度地降低定時(shí)維護(hù)時(shí)停機(jī)時(shí)間。系統(tǒng)管理模塊應(yīng)能夠提供統(tǒng)一運(yùn)維管理,能夠?qū)Π瑪?shù)據(jù)中心、基礎(chǔ)硬件、平臺(tái)軟件(存放、計(jì)算)和應(yīng)用軟件進(jìn)行集中運(yùn)維、統(tǒng)一管理,實(shí)現(xiàn)安裝布署、參數(shù)配置、系統(tǒng)監(jiān)控等功效。應(yīng)提供自動(dòng)化運(yùn)維能力,經(jīng)過對多個(gè)數(shù)據(jù)中心資源進(jìn)行統(tǒng)一管理,合理分配和調(diào)度業(yè)務(wù)所需要資源,做到自動(dòng)化按需分配。同時(shí)提供對多個(gè)數(shù)據(jù)中心IT基礎(chǔ)設(shè)施進(jìn)行集中運(yùn)維能力,自動(dòng)化監(jiān)控?cái)?shù)據(jù)中心內(nèi)各種IT設(shè)備事件、告警、性能,實(shí)現(xiàn)從業(yè)務(wù)維度來進(jìn)行運(yùn)維能力。大數(shù)據(jù)生命周期管理活動(dòng)負(fù)責(zé)驗(yàn)證數(shù)據(jù)在生命周期中每個(gè)過程是否都能夠被大數(shù)據(jù)系統(tǒng)正確地處理,它覆蓋了數(shù)據(jù)從數(shù)據(jù)提供者那里被攝取到系統(tǒng),一直到數(shù)據(jù)被處理或從系統(tǒng)中刪除整個(gè)生命周期。因?yàn)榇髷?shù)據(jù)生命周期管理任務(wù)能夠分布在大數(shù)據(jù)計(jì)算環(huán)境中不一樣組織和個(gè)體,從遵照政策、法規(guī)和安全要求視角,大數(shù)據(jù)生命周期管理包含以下活動(dòng)或功效:政策管理(數(shù)據(jù)遷移及處置策略)、元數(shù)據(jù)管理(管理數(shù)據(jù)標(biāo)識(shí)、質(zhì)量、訪問權(quán)限等元數(shù)據(jù)信息)、可訪問管理(依據(jù)時(shí)間改變數(shù)據(jù)可訪問性)、數(shù)據(jù)恢復(fù)(災(zāi)難或系統(tǒng)犯錯(cuò)時(shí)對數(shù)據(jù)進(jìn)行恢復(fù))、保護(hù)管理(維護(hù)數(shù)據(jù)完整性)。從大數(shù)據(jù)系統(tǒng)要應(yīng)對大數(shù)據(jù)4V特征來看,大數(shù)據(jù)生命周期管理活動(dòng)和功效還包含與系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)框架提供者、大數(shù)據(jù)應(yīng)用提供者、數(shù)據(jù)消費(fèi)者以及安全和隱私角色之間交互。4.2大數(shù)據(jù)關(guān)鍵技術(shù)4.2.1數(shù)據(jù)搜集大數(shù)據(jù)時(shí)代,數(shù)據(jù)起源極其廣泛,數(shù)據(jù)有不一樣類型和格式,同時(shí)展現(xiàn)暴發(fā)性增加態(tài)勢,這些特征對數(shù)據(jù)搜集技術(shù)也提出了更高要求。數(shù)據(jù)搜集需要從不一樣數(shù)據(jù)源實(shí)時(shí)或及時(shí)搜集不一樣類型數(shù)據(jù)并發(fā)送給存放系統(tǒng)或數(shù)據(jù)中間件系統(tǒng)進(jìn)行后續(xù)處理。數(shù)據(jù)搜集通??煞譃樵O(shè)備數(shù)據(jù)搜集和Web數(shù)據(jù)爬取兩類,常慣用數(shù)據(jù)搜集軟件有Splunk、Sqoop、Flume、Logstash、Kettle以及各種網(wǎng)絡(luò)爬蟲,如Heritrix、Nutch等。4.2.2數(shù)據(jù)預(yù)處理數(shù)據(jù)質(zhì)量對數(shù)據(jù)價(jià)值大小有直接影響,低質(zhì)量數(shù)據(jù)將造成低質(zhì)量分析和挖掘結(jié)果。廣義數(shù)據(jù)質(zhì)量包括許多原因,如數(shù)據(jù)準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性與可解釋性等。大數(shù)據(jù)系統(tǒng)中數(shù)據(jù)通常具備一個(gè)或多個(gè)數(shù)據(jù)源,這些數(shù)據(jù)源能夠包含同構(gòu)/異構(gòu)(大)數(shù)據(jù)庫、文件系統(tǒng)、服務(wù)接口等。這些數(shù)據(jù)源中數(shù)據(jù)起源現(xiàn)實(shí)世界,輕易受到噪聲數(shù)據(jù)、數(shù)據(jù)值缺失與數(shù)據(jù)沖突等影響。另外數(shù)據(jù)處理、分析、可視化過程中算法與實(shí)現(xiàn)技術(shù)復(fù)雜多樣,往往需要對數(shù)據(jù)組織、數(shù)據(jù)表示形式、數(shù)據(jù)位置等進(jìn)行一些前置處理。數(shù)據(jù)預(yù)處理引入,將有利于提升數(shù)據(jù)質(zhì)量,并使得后繼數(shù)據(jù)處理、分析、可視化過程愈加輕易、有效,有利于取得愈加好用戶體驗(yàn)。數(shù)據(jù)預(yù)處理形式上包含數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉(zhuǎn)換等階段。數(shù)據(jù)清理技術(shù)包含數(shù)據(jù)不一致性檢測技術(shù)、臟數(shù)據(jù)識(shí)別技術(shù)、數(shù)據(jù)過濾技術(shù)、數(shù)據(jù)修正技術(shù)、數(shù)據(jù)噪聲識(shí)別與平滑技術(shù)等。數(shù)據(jù)集成把來自多個(gè)數(shù)據(jù)源數(shù)據(jù)進(jìn)行集成,縮短數(shù)據(jù)之間物理距離,形成一個(gè)集中統(tǒng)一(同構(gòu)/異構(gòu))數(shù)據(jù)庫、數(shù)據(jù)立方體、數(shù)據(jù)寬表與文件等。數(shù)據(jù)歸約技術(shù)能夠在不損害挖掘結(jié)果準(zhǔn)確性前提下,降低數(shù)據(jù)集規(guī)模,得到簡化數(shù)據(jù)集。歸約策略與技術(shù)包含維歸約技術(shù)、數(shù)值歸約技術(shù)、數(shù)據(jù)抽樣技術(shù)等。經(jīng)過數(shù)據(jù)轉(zhuǎn)換處理后,數(shù)據(jù)被變換或統(tǒng)一。數(shù)據(jù)轉(zhuǎn)換不但簡化處理與分析過程、提升時(shí)效性,也使得分析挖掘模式更輕易被了解。數(shù)據(jù)轉(zhuǎn)換處理技術(shù)包含基于規(guī)則或元數(shù)據(jù)轉(zhuǎn)換技術(shù)、基于模型和學(xué)習(xí)轉(zhuǎn)換技術(shù)等。4.2.3數(shù)據(jù)存放分布式存放與訪問是大數(shù)據(jù)存放關(guān)鍵技術(shù),它具備經(jīng)濟(jì)、高效、容錯(cuò)好等特點(diǎn)。分布式存放技術(shù)與數(shù)據(jù)存放介質(zhì)類型和數(shù)據(jù)組織管理形式直接相關(guān)。現(xiàn)在主要數(shù)據(jù)存放介質(zhì)類型包含內(nèi)存、磁盤、磁帶等;主要數(shù)據(jù)組織管理形式包含按行組織、按列組織、按鍵值組織和按關(guān)系組織;主要數(shù)據(jù)組織管理層次包含按塊級(jí)組織、文件級(jí)組織以及數(shù)據(jù)庫級(jí)組織等。不一樣存放介質(zhì)和組織管理形式對應(yīng)于不一樣大數(shù)據(jù)特征和應(yīng)用特點(diǎn)。(1)分布式文件系統(tǒng)分布式文件系統(tǒng)是由多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)組成向上層應(yīng)用提供統(tǒng)一文件服務(wù)文件系統(tǒng)。分布式文件系統(tǒng)中每個(gè)節(jié)點(diǎn)能夠分布在不一樣地點(diǎn),經(jīng)過網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)間通信和數(shù)據(jù)傳輸。分布式文件系統(tǒng)中文件在物理上可能被分散存放在不一樣節(jié)點(diǎn)上,在邏輯上依然是一個(gè)完整文件。使用分布式文件系統(tǒng)時(shí),無需關(guān)心數(shù)據(jù)存放在哪個(gè)節(jié)點(diǎn)上,只需像當(dāng)?shù)匚募到y(tǒng)一樣管理和存放文件系統(tǒng)數(shù)據(jù)。分布式文件系統(tǒng)性能與成本是線性增加關(guān)系,它能夠在信息爆炸時(shí)代有效處理數(shù)據(jù)存放和管理。分布式文件系統(tǒng)在大數(shù)據(jù)領(lǐng)域是最基礎(chǔ),最關(guān)鍵功效組件之一,怎樣實(shí)現(xiàn)一個(gè)高擴(kuò)展,高性能,高可用分布式文件系統(tǒng)是大數(shù)據(jù)領(lǐng)域最關(guān)鍵問題之一。現(xiàn)在慣用分布式磁盤文件系統(tǒng)有HDFS(Hadoop分布式文件系統(tǒng))、GFS(Goolge分布式文件系統(tǒng))、KFS(Kosmosdistributedfilesystem)等;慣用分布式內(nèi)存文件系統(tǒng)有Tachyon等。(2)文檔存放文檔存放支持對結(jié)構(gòu)化數(shù)據(jù)訪問,不一樣于關(guān)系模型是,文檔存放沒有強(qiáng)制架構(gòu)。實(shí)際上,文檔存放以封包鍵值正確方式進(jìn)行存放。在這種情況下,應(yīng)用對要檢索封包采取一些約定,或者利用存放引擎能力將不一樣文檔劃分成不一樣集合,以管理數(shù)據(jù)。與關(guān)系模型不一樣是,文檔存放模型支持嵌套結(jié)構(gòu)。比如,文檔存放模型支持XML和JSON文檔,字段“值”又能夠嵌套存放其它文檔。文檔存放模型也支持?jǐn)?shù)組和列值鍵。與鍵值存放不一樣是,文檔存放關(guān)心文檔內(nèi)部結(jié)構(gòu)。這使得存放引擎能夠直接支持二級(jí)索引,從而允許對任意字段進(jìn)行高效查詢。支持文檔嵌套存放能力,使得查詢語言具備搜索嵌套對象能力,XQuery就是一個(gè)例子。主流文檔數(shù)據(jù)庫有MongoDB、CouchDB、Terrastore、RavenDB等。(3)列式存放列式存放將數(shù)據(jù)按行排序,按列存放,將相同字段數(shù)據(jù)作為一個(gè)列族來聚合存放。當(dāng)只查詢少數(shù)列族數(shù)據(jù)時(shí),列式數(shù)據(jù)庫能夠降低讀取數(shù)據(jù)量,降低數(shù)據(jù)裝載和讀入讀出時(shí)間,提升數(shù)據(jù)處理效率。按列存放還能夠承載更大數(shù)據(jù)量,取得高效垂直數(shù)據(jù)壓縮能力,降低數(shù)據(jù)存放開銷。使用列式存放數(shù)據(jù)庫產(chǎn)品有傳統(tǒng)數(shù)據(jù)倉庫產(chǎn)品,如SybaseIQ、InfiniDB、Vertica等,也有開源數(shù)據(jù)庫產(chǎn)品,如HadoopHbase、Infobright等。(4)鍵值存放鍵值存放,即Key-Value存放,簡稱KV存放,它是NoSQL存放一個(gè)方式。它數(shù)據(jù)按照鍵值正確形式進(jìn)行組織、索引和存放。KV存放非常適合不包括過多數(shù)據(jù)關(guān)系和業(yè)務(wù)關(guān)系業(yè)務(wù)數(shù)據(jù),同時(shí)能有效降低讀寫磁盤次數(shù),比SQL數(shù)據(jù)庫存放擁有愈加好讀寫性能。鍵值存放通常不提供事務(wù)處理機(jī)制。主流鍵值數(shù)據(jù)庫產(chǎn)品有Redis、ApacheCassandra、谷歌Bigtable等。(5)圖形數(shù)據(jù)庫圖形數(shù)據(jù)庫是主要用于存放事物及事物之間相關(guān)關(guān)系,這些事物整體上展現(xiàn)復(fù)雜網(wǎng)絡(luò)關(guān)系,能夠簡單稱之為圖形數(shù)據(jù)。使用傳統(tǒng)關(guān)系數(shù)據(jù)庫技術(shù)已經(jīng)無法很好滿足超大量圖形數(shù)據(jù)存放、查詢等需求,比如上百萬或上千萬個(gè)節(jié)點(diǎn)圖形關(guān)系,而圖形數(shù)據(jù)庫采取不一樣技術(shù)來很好處理圖形數(shù)據(jù)查詢,遍歷,求最短路徑等需求。在圖形數(shù)據(jù)庫領(lǐng)域,有不一樣圖模型來映射這些網(wǎng)絡(luò)關(guān)系,比如超圖模型,以及包含節(jié)點(diǎn)、關(guān)系及屬性信息屬性圖模型等。圖形數(shù)據(jù)庫可用于對真實(shí)世界各種對象進(jìn)行建模,如社交圖譜,以反應(yīng)這些事物之間相互關(guān)系。主流圖形數(shù)據(jù)庫有谷歌Pregel、Neo4j、InfiniteGraph、DEX、InfoGrid、AllegroGraph、GraphDB、HyperGraphDB等。(6)關(guān)系數(shù)據(jù)庫關(guān)系模型是最傳統(tǒng)數(shù)據(jù)存放模型,它使用統(tǒng)計(jì)(由元組組成)按行進(jìn)行存放,統(tǒng)計(jì)存放在表中,表由架構(gòu)界定。表中每個(gè)列都有名稱和類型,表中全部統(tǒng)計(jì)都要符合表定義。SQL是專門查詢語言,提供對應(yīng)語法查找符合條件統(tǒng)計(jì),如表聯(lián)接(Join)。表聯(lián)接能夠基于表之間關(guān)系在多表之間查詢統(tǒng)計(jì)。表中統(tǒng)計(jì)能夠被創(chuàng)建和刪除,統(tǒng)計(jì)中字段也能夠單獨(dú)更新。關(guān)系模型數(shù)據(jù)庫通常提供事務(wù)處理機(jī)制,這為包括多條統(tǒng)計(jì)自動(dòng)化處理提供了處理方案。對不一樣編程語言而言,表能夠被看成數(shù)組、統(tǒng)計(jì)列表或者結(jié)構(gòu)。表能夠使用B樹和哈希表進(jìn)行索引,以應(yīng)對高性能訪問。傳統(tǒng)關(guān)系型數(shù)據(jù)庫廠商結(jié)合其它技術(shù)改進(jìn)關(guān)系型數(shù)據(jù)庫,比如分布式集群、列式存放,支持XML,Json等數(shù)據(jù)存放。(7)內(nèi)存存放內(nèi)存存放是指內(nèi)存數(shù)據(jù)庫(MMDB)將數(shù)據(jù)庫工作版本放在內(nèi)存中,因?yàn)閿?shù)據(jù)庫操作都在內(nèi)存中進(jìn)行,從而磁盤I/O不再是性能瓶頸,內(nèi)存數(shù)據(jù)庫系統(tǒng)設(shè)計(jì)目標(biāo)是提升數(shù)據(jù)庫效率和存放空間利用率。內(nèi)存存放關(guān)鍵是內(nèi)存存放管理模塊,其管理策略優(yōu)劣直接關(guān)系到內(nèi)存數(shù)據(jù)庫系統(tǒng)性能。基于內(nèi)存存放內(nèi)存數(shù)據(jù)庫產(chǎn)品有OracleTimesTen、Altibase、eXtremeDB、Redis、RaptorDB、MemCached等產(chǎn)品。4.2.4數(shù)據(jù)處理分布式數(shù)據(jù)處理技術(shù)首先與分布式存放形式直接相關(guān),另首先也與業(yè)務(wù)數(shù)據(jù)溫度類型(冷數(shù)據(jù)、熱數(shù)據(jù))相關(guān)?,F(xiàn)在主要數(shù)據(jù)處理計(jì)算模型包含MapReduce計(jì)算模型、DAG計(jì)算模型、BSP計(jì)算模型等。(1)MapReduce分布式計(jì)算框架MapReduce是一個(gè)高性能批處理分布式計(jì)算框架,用于對海量數(shù)據(jù)進(jìn)行并行分析和處理。與傳統(tǒng)數(shù)據(jù)倉庫和分析技術(shù)相比,MapReduce適合處理各種類型數(shù)據(jù),包含結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),而且能夠處理數(shù)據(jù)量為TB和PB級(jí)別超大規(guī)模數(shù)據(jù)。MapReduce分布式計(jì)算框架將計(jì)算任務(wù)分為大量并行Map和Reduce兩類任務(wù),并將Map任務(wù)布署到分布式集群中不一樣計(jì)算機(jī)節(jié)點(diǎn)上并發(fā)運(yùn)行,然后由Reduce任務(wù)對全部Map任務(wù)執(zhí)行結(jié)果進(jìn)行匯總,得到最終分析結(jié)果。MapReduce分布式計(jì)算框架可動(dòng)態(tài)增加或降低計(jì)算節(jié)點(diǎn),具備很高計(jì)算彈性,而且具備很好任務(wù)調(diào)度能力和資源分配能力,具備很好擴(kuò)展性和容錯(cuò)性。MapReduce分布式計(jì)算框架是大數(shù)據(jù)時(shí)代最為經(jīng)典,應(yīng)用最廣泛分布式運(yùn)行框架之一。最流行MapReduce分布式計(jì)算框架是由Hadoop實(shí)現(xiàn)MapReduce框架。HadoopMapReduce基于HDFS和HBase等存放技術(shù)確保數(shù)據(jù)存放有效性,計(jì)算任務(wù)會(huì)被安排在離數(shù)據(jù)最近節(jié)點(diǎn)上運(yùn)行,降低數(shù)據(jù)在網(wǎng)絡(luò)中傳輸開銷,同時(shí)還能夠重新運(yùn)行失敗任務(wù)。HadoopMapReduce已經(jīng)在各個(gè)行業(yè)得到了廣泛應(yīng)用,是最成熟和最流行大數(shù)據(jù)處理技術(shù)。(2)分布式內(nèi)存計(jì)算系統(tǒng)使用分布式共享內(nèi)存進(jìn)行計(jì)算能夠有效降低數(shù)據(jù)讀寫和移動(dòng)開銷,極大提升數(shù)據(jù)處理性能。支持基于內(nèi)存數(shù)據(jù)計(jì)算,兼容多個(gè)分布式計(jì)算框架通用計(jì)算平臺(tái)是大數(shù)據(jù)領(lǐng)域所必需主要關(guān)鍵技術(shù)。除了支持內(nèi)存計(jì)算商業(yè)工具(如SAPHANA、OracleBigDataAppliance等),Spark則是此種技術(shù)開源實(shí)當(dāng)代表,它是當(dāng)今大數(shù)據(jù)領(lǐng)域最熱門基于內(nèi)存計(jì)算分布式計(jì)算系統(tǒng)。相比傳統(tǒng)HadoopMapReduce批量計(jì)算模型,Spark使用DAG、迭代計(jì)算和內(nèi)存計(jì)算方式能夠帶來一到兩個(gè)數(shù)量級(jí)效率提升。(3)分布式流計(jì)算系統(tǒng)在大數(shù)據(jù)時(shí)代,數(shù)據(jù)增加速度超出了存放容量增加,在不遠(yuǎn)未來,人們將無法存放全部數(shù)據(jù),同時(shí),數(shù)據(jù)價(jià)值會(huì)伴隨時(shí)間流逝而不停降低,另外,很多數(shù)據(jù)包括用戶隱私無法進(jìn)行存放。對數(shù)據(jù)流進(jìn)行實(shí)時(shí)處理技術(shù)取得了人們越來越多關(guān)注。數(shù)據(jù)實(shí)時(shí)處理是一個(gè)很有挑戰(zhàn)性工作,數(shù)據(jù)流本身具備連續(xù)達(dá)成、速度快且規(guī)模巨大等特點(diǎn),所以需要分布式流計(jì)算技術(shù)對數(shù)據(jù)流進(jìn)行實(shí)時(shí)處理。數(shù)據(jù)流理論及技術(shù)研究已經(jīng)有十幾年歷史,現(xiàn)在依舊是研究熱點(diǎn)。當(dāng)前得到廣泛應(yīng)用很多系統(tǒng)多數(shù)為支持分布式、并行處理流計(jì)算系統(tǒng),比較代表性商用軟件包含IBMStreamBase和InfoSphereStreams,開源系統(tǒng)則包含TwitterStorm、YahooS4、SparkStreaming等。4.2.5數(shù)據(jù)分析大數(shù)據(jù)分析技術(shù)包含已經(jīng)有數(shù)據(jù)信息分布式統(tǒng)計(jì)分析技術(shù),以及未知數(shù)據(jù)信息分布式挖掘和深度學(xué)習(xí)技術(shù)。分布式統(tǒng)計(jì)分析技術(shù)基本都可藉由數(shù)據(jù)處理技術(shù)直接完成,分布式挖掘和深度學(xué)習(xí)技術(shù)則能夠深入細(xì)分為:(1)聚類聚類指將物理或抽象對象集合分組成為由類似對象組成多個(gè)類過程。它是一個(gè)主要人類行為。聚類與分類不一樣在于,聚類所要求劃分類是未知。聚類是將數(shù)據(jù)分類到不一樣類或者簇這么一個(gè)過程,所以同一個(gè)簇中對象有很大相同性,而不一樣簇間對象有很大相異性。聚類是數(shù)據(jù)挖掘主要任務(wù)之一。聚類能夠作為一個(gè)獨(dú)立工具取得數(shù)據(jù)分布情況,觀察每一簇?cái)?shù)據(jù)特征,集中對特定聚簇集合作深入地分析。聚類還能夠作為其余算法(如分類和定性歸納算法)預(yù)處理步驟。聚類是數(shù)據(jù)挖掘中一個(gè)很活躍研究領(lǐng)域,傳統(tǒng)聚類算法能夠被分為五類:劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法和基于模型方法。傳統(tǒng)聚類算法已經(jīng)比較成功處理了低維數(shù)據(jù)聚類問題。不過因?yàn)閷?shí)際應(yīng)用中數(shù)據(jù)復(fù)雜性,在處理許多問題時(shí),現(xiàn)有算法經(jīng)常失效,尤其是對于高維數(shù)據(jù)和大型數(shù)據(jù)情況。數(shù)據(jù)挖掘中聚類研究主要集中在針對海量數(shù)據(jù)有效和實(shí)用聚類方法上,聚類方法可伸縮性、高維聚類分析、分類屬性數(shù)據(jù)聚類、具備混合屬性數(shù)據(jù)聚類和非距離含糊聚類等問題是現(xiàn)在數(shù)據(jù)挖掘研究人員最為感興趣方向。(2)分類分類是指在一定有監(jiān)督學(xué)習(xí)前提下,將物體或抽象對象集合分成多個(gè)類過程。也能夠認(rèn)為,分類是一個(gè)基于訓(xùn)練樣本數(shù)據(jù)(這些數(shù)據(jù)已經(jīng)被預(yù)先貼上了標(biāo)簽)區(qū)分另外樣本數(shù)據(jù)標(biāo)簽過程,即另外樣本數(shù)據(jù)應(yīng)該怎樣貼標(biāo)簽。用于處理分類問題方法非常多,慣用分類方法主要有決議樹,貝葉斯,人工神經(jīng)網(wǎng)絡(luò),K-近鄰,支持向量機(jī),邏輯回歸,隨機(jī)森林等方法。決議樹是用于分類和預(yù)測主要技術(shù)之一,決議樹學(xué)習(xí)是以實(shí)例為基礎(chǔ)歸納學(xué)習(xí)算法,它著眼于從一組無次序、無規(guī)則實(shí)例中推理出以決議樹表示分類規(guī)則。結(jié)構(gòu)決議樹目標(biāo)是找出屬性和類別間關(guān)系,用它來預(yù)測未來未知類別統(tǒng)計(jì)類別。它采取自頂向下遞歸方式,在決議樹內(nèi)部節(jié)點(diǎn)進(jìn)行屬性比較,并依照不一樣屬性值判斷從該節(jié)點(diǎn)向下分支,在決議樹葉節(jié)點(diǎn)得到結(jié)論。貝葉斯(Bayes)分類算法是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類算法,如樸素貝葉斯(NaiveBayes)算法。這些算法主要利用Bayes定理來預(yù)測一個(gè)未知類別樣本屬于各個(gè)類別可能性,選擇其中可能性最大一個(gè)類別作為該樣本最終類別。人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANN)是一個(gè)應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接結(jié)構(gòu)進(jìn)行信息處理數(shù)學(xué)模型。在這種模型中,大量節(jié)點(diǎn)(或稱“神經(jīng)元”,或“單元”)之間相互聯(lián)接組成網(wǎng)絡(luò),即“神經(jīng)網(wǎng)絡(luò)”,以達(dá)四處理信息目標(biāo)。神經(jīng)網(wǎng)絡(luò)通常需要進(jìn)行訓(xùn)練,訓(xùn)練過程就是網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)過程。訓(xùn)練改變了網(wǎng)絡(luò)節(jié)點(diǎn)連接權(quán)值使其具備分類功效,經(jīng)過訓(xùn)練網(wǎng)絡(luò)就可用于對象識(shí)別?,F(xiàn)在,神經(jīng)網(wǎng)絡(luò)已經(jīng)有上百種不一樣模型,常見有BP網(wǎng)絡(luò)、徑向基RBF網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò)、隨機(jī)神經(jīng)網(wǎng)絡(luò)(Boltzmann機(jī))、競爭神經(jīng)網(wǎng)絡(luò)(Hamming網(wǎng)絡(luò),自組織映射網(wǎng)絡(luò))等。不過當(dāng)前神經(jīng)網(wǎng)絡(luò)仍普遍存在收斂速度慢、計(jì)算量大、訓(xùn)練時(shí)間長和不可解釋等缺點(diǎn)。k-近鄰(kNN,k-NearestNeighbors)算法是一個(gè)基于實(shí)例分類方法。該方法就是找出與未知樣本x距離最近k個(gè)訓(xùn)練樣本,看這k個(gè)樣本中多數(shù)屬于哪一類,就把x歸為那一類。k-近鄰方法是一個(gè)懶惰學(xué)習(xí)方法,它存放樣本,直到需要分類時(shí)才進(jìn)行分類,假如樣本集比較復(fù)雜,可能會(huì)造成很大計(jì)算開銷,所以無法應(yīng)用到實(shí)時(shí)性很強(qiáng)場所。支持向量機(jī)(SVM,SupportVectorMachine)是Vapnik依照統(tǒng)計(jì)學(xué)習(xí)理論提出一個(gè)新學(xué)習(xí)方法,它最大特點(diǎn)是依照結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,以最大化分類間隔結(jié)構(gòu)最優(yōu)分類超平面來提升學(xué)習(xí)機(jī)泛化能力,很好地處理了非線性、高維數(shù)、局部極小點(diǎn)等問題。對于分類問題,支持向量機(jī)算法依照區(qū)域中樣本計(jì)算該區(qū)域決議曲面,由此確定該區(qū)域中未知樣本類別。邏輯回歸是一個(gè)利用預(yù)測變量(數(shù)值型或離散型)來預(yù)測事件出現(xiàn)概率模型,主要應(yīng)用于生產(chǎn)欺詐檢測,廣告質(zhì)量估量,以及定位產(chǎn)品預(yù)測等。(3)關(guān)聯(lián)分析關(guān)聯(lián)分析是一個(gè)簡單、實(shí)用分析技術(shù),就是發(fā)覺存在于大量數(shù)據(jù)集中關(guān)聯(lián)性或相關(guān)性,從而描述了一個(gè)事物中一些屬性同時(shí)出現(xiàn)規(guī)律和模式。關(guān)聯(lián)分析在數(shù)據(jù)挖掘領(lǐng)域也稱為關(guān)聯(lián)規(guī)則挖掘。關(guān)聯(lián)分析是從大量數(shù)據(jù)中發(fā)覺項(xiàng)集之間有趣關(guān)聯(lián)和相關(guān)聯(lián)絡(luò)。關(guān)聯(lián)分析一個(gè)經(jīng)典例子是購物籃分析。該過程經(jīng)過發(fā)覺用戶放人其購物籃中不一樣商品之間聯(lián)絡(luò),分析用戶購置習(xí)慣。經(jīng)過了解哪些商品頻繁地被用戶同時(shí)購置,這種關(guān)聯(lián)發(fā)覺能夠幫助零售商制訂營銷策略。其余應(yīng)用還包含價(jià)目表設(shè)計(jì)、商品促銷、商品排放和基于購置模式用戶劃分。關(guān)聯(lián)分析算法主要分為廣度優(yōu)先算法和深度優(yōu)先算法兩大類。應(yīng)用最廣泛廣度優(yōu)先算法有Apriori,AprioriTid,AprioriHybrid,Partition,Sampling,DIC(DynamicItemsetCounting)等算法。主要深度優(yōu)先算法有FP-growth,Eclat(EquivalenceCLAssTransformation),H-Mine等算法。Apriori算法是一個(gè)廣度優(yōu)先挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項(xiàng)集算法,也是最著名關(guān)聯(lián)規(guī)則挖掘算法之一。FP-growth算法是一個(gè)深度優(yōu)先關(guān)聯(lián)分析算法,于由HanJiawei等人提出,F(xiàn)P-growth算法基于頻繁模式樹(FrequentPatternTree,簡稱為FP-tree)發(fā)覺頻繁模式。(4)深度學(xué)習(xí)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中一個(gè)新領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),它模仿人腦機(jī)制來解釋數(shù)據(jù),比如圖像,聲音和文本。深度學(xué)習(xí)實(shí)質(zhì),是經(jīng)過構(gòu)建具備很多隱層機(jī)器學(xué)習(xí)模型和海量訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用特征,從而最終提升分類或預(yù)測準(zhǔn)確性。深度學(xué)習(xí)(DL,DeepLearning)概念由Hinton等人于提出,是一個(gè)使用深層神經(jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)模型。深層神經(jīng)網(wǎng)絡(luò)是指包含很多隱層人工神經(jīng)網(wǎng)絡(luò),它具備優(yōu)異特征學(xué)習(xí)能力,學(xué)習(xí)得到特征對數(shù)據(jù)有更本質(zhì)刻畫,從而有利于可視化或分類。同機(jī)器學(xué)習(xí)方法一樣,深度機(jī)器學(xué)習(xí)方法也有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之分。不一樣學(xué)習(xí)框架下建立學(xué)習(xí)模型很是不一樣。比如,卷積神經(jīng)網(wǎng)絡(luò)(Convolutionalneuralnetworks,簡稱CNNs)就是一個(gè)深度監(jiān)督學(xué)習(xí)下機(jī)器學(xué)習(xí)模型,而深度置信網(wǎng)(DeepBeliefNets,簡稱DBNs)就是一個(gè)無監(jiān)督學(xué)習(xí)下機(jī)器學(xué)習(xí)模型。當(dāng)前深度學(xué)習(xí)被用于計(jì)算機(jī)視覺,語音識(shí)別,自然語言處理等領(lǐng)域,并取得了大量突破性結(jié)果。利用深度學(xué)習(xí)技術(shù),我們能夠從大數(shù)據(jù)中發(fā)掘出更多有價(jià)值信息和知識(shí)。4.2.6數(shù)據(jù)可視化數(shù)據(jù)可視化(DataVisualization)利用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)換為圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理。它包括到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)視覺及人機(jī)交互等多個(gè)技術(shù)領(lǐng)域。數(shù)據(jù)可視化概念首先來自科學(xué)計(jì)算可視化(VisualizationinScientificComputing),科學(xué)家們不但需要經(jīng)過圖形圖像來分析由計(jì)算機(jī)算出數(shù)據(jù),而且需要了解在計(jì)算過程中數(shù)據(jù)改變。伴隨計(jì)算機(jī)技術(shù)發(fā)展,數(shù)據(jù)可視化概念已大大擴(kuò)展,它不但包含科學(xué)計(jì)算數(shù)據(jù)可視化,而且包含工程數(shù)據(jù)和測量數(shù)據(jù)可視化。學(xué)術(shù)界常把這種空間數(shù)據(jù)可視化稱為體視化(VolumeVisualization)技術(shù)。近年來,伴隨網(wǎng)絡(luò)技術(shù)和電子商務(wù)發(fā)展,提出了信息可視化(InformationVisualization)要求。經(jīng)過數(shù)據(jù)可視化技術(shù),發(fā)覺大量金融、通信和商業(yè)數(shù)據(jù)中隱含規(guī)律信息,從而為決議提供依據(jù)。這已成為數(shù)據(jù)可視化技術(shù)中新熱點(diǎn)。清楚而有效地在大數(shù)據(jù)與用戶之間傳遞和溝通信息是數(shù)據(jù)可視化主要目標(biāo),數(shù)據(jù)可視化技術(shù)將數(shù)據(jù)庫中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元元素表示,大量數(shù)據(jù)集組成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)各個(gè)屬性值以多維數(shù)據(jù)形式表示,能夠從不一樣維度觀察數(shù)據(jù),從而對數(shù)據(jù)進(jìn)行更深入觀察和分析。數(shù)據(jù)可視化關(guān)鍵技術(shù)包含:(1)數(shù)據(jù)信息符號(hào)表示技術(shù)。除了常規(guī)文字符號(hào)和幾何圖形符號(hào),各類坐標(biāo)、圖像陣列、圖像動(dòng)畫等符號(hào)技術(shù)都能夠用來表示數(shù)據(jù)信息。尤其是多樣符號(hào)綜合使用,往往能讓用戶取得不一樣溝通體驗(yàn)。各數(shù)據(jù)類型詳細(xì)符號(hào)表示技術(shù)形式包含各類報(bào)表、儀表盤、坐標(biāo)曲線、地圖、譜圖、圖像幀等。(2)數(shù)據(jù)渲染技術(shù)。比如各類符號(hào)到屏幕圖形陣列2D平面渲染技術(shù)、3D立體渲染技術(shù)等。渲染關(guān)鍵技術(shù)還和詳細(xì)媒介相關(guān),比如手機(jī)等移動(dòng)終端上渲染技術(shù)等。(3)數(shù)據(jù)交互技術(shù)。除了各類PC設(shè)備和移動(dòng)終端上鼠標(biāo)、鍵盤與屏幕交互技術(shù)形式,可能還包含語音、指紋等交互技術(shù)。(4)數(shù)據(jù)表示模型技術(shù)。數(shù)據(jù)可視化表示模型描述了數(shù)據(jù)展示給用戶所需要語言文字和圖形圖像等符號(hào)信息,以及符號(hào)表示邏輯信息和數(shù)據(jù)交互方式信息等。其中數(shù)據(jù)矢量從多維信息空間到視覺符號(hào)空間映射與轉(zhuǎn)換關(guān)系,是表示模型最主要內(nèi)容。另外,除了數(shù)據(jù)值表示技術(shù),數(shù)據(jù)趨勢、數(shù)據(jù)對比、數(shù)據(jù)關(guān)系等表示技術(shù)都是表示模型中主要內(nèi)容。大數(shù)據(jù)可視化與傳統(tǒng)數(shù)據(jù)可視化不一樣。傳統(tǒng)數(shù)據(jù)可視化技術(shù)和軟件工具(如BI)通常對數(shù)據(jù)庫或數(shù)據(jù)倉庫中數(shù)據(jù)進(jìn)行抽取、歸納和組合,經(jīng)過不一樣展現(xiàn)方式提供給用戶,用于發(fā)覺數(shù)據(jù)之間關(guān)聯(lián)信息。而大數(shù)據(jù)時(shí)代數(shù)據(jù)可視化技術(shù)則需要結(jié)合大數(shù)據(jù)多類型、大致量、高速率、易改變等特征,能夠快速搜集、篩選、分析、歸納、展現(xiàn)決議者所需要信息,支持交互式可視化分析,并依照新增數(shù)據(jù)進(jìn)行實(shí)時(shí)更新。數(shù)據(jù)可視化技術(shù)在當(dāng)前是一個(gè)正在快速發(fā)展新興領(lǐng)域,已經(jīng)出現(xiàn)了眾多數(shù)據(jù)可視化軟件和工具,如Tableau、Datawatch、Platfora、R、D3.js、Processing.js、Gephi、ECharts、大數(shù)據(jù)魔鏡等。許多商業(yè)大數(shù)據(jù)挖掘和分析軟件也包含了數(shù)據(jù)可視化功效,如IBMSPSS、SASEnterpriseMiner等。4.3大數(shù)據(jù)安全與隱私4.3.1大數(shù)據(jù)時(shí)代面臨挑戰(zhàn)大數(shù)據(jù)應(yīng)用會(huì)帶來巨大社會(huì)價(jià)值和商業(yè)利益,受價(jià)值利益驅(qū)動(dòng),大數(shù)據(jù)系統(tǒng)也必定會(huì)晤臨大量而且復(fù)雜風(fēng)險(xiǎn)。舉例來說,假如某一大數(shù)據(jù)系統(tǒng)產(chǎn)生價(jià)值足以左右企業(yè)發(fā)展,那么它所面臨風(fēng)險(xiǎn)就可能是一個(gè)企業(yè)層面價(jià)值角力,小至個(gè)人、大至國家也是如此。大數(shù)據(jù)系統(tǒng)同時(shí)是復(fù)雜,由傳統(tǒng)信息存放檢索變?yōu)閺?fù)雜信息技術(shù)系統(tǒng),進(jìn)而可能是龐大社會(huì)工程,由此也帶來了很多安全及隱私方面挑戰(zhàn)。大數(shù)據(jù)安全性已上升到國家戰(zhàn)略層面。在大數(shù)據(jù)時(shí)代,信息化已完全深入到國民經(jīng)濟(jì)與國防建設(shè)方方面面,從智能家居、智慧城市甚至到智慧地球,個(gè)人、企業(yè)、團(tuán)體等海量數(shù)據(jù)為國家建設(shè)和決議提供了宏觀數(shù)據(jù)依據(jù),大數(shù)據(jù)安全問題將會(huì)越來越多地對國家戰(zhàn)略產(chǎn)生直接或間接影響。大數(shù)據(jù)價(jià)值表現(xiàn)是一個(gè)從隱性價(jià)值到顯性價(jià)值動(dòng)態(tài)過程。有兩個(gè)關(guān)鍵性原因影響大數(shù)據(jù)價(jià)值表現(xiàn):數(shù)據(jù)“由量變到質(zhì)變”動(dòng)態(tài)演變以及相關(guān)數(shù)據(jù)處理技術(shù)不停升級(jí)。單個(gè)數(shù)據(jù)統(tǒng)計(jì)對大數(shù)據(jù)結(jié)果并無太大影響,只有數(shù)據(jù)統(tǒng)計(jì)集合數(shù)據(jù)量積累到一定程度時(shí),數(shù)據(jù)才有可能“被挖掘”從而表現(xiàn)其價(jià)值。伴隨數(shù)據(jù)處理技術(shù)不停發(fā)展,當(dāng)今看似“雜亂無序”數(shù)據(jù),未來會(huì)變成一座“金礦”。現(xiàn)有信息安全管理體系重點(diǎn)保護(hù)數(shù)據(jù)顯性價(jià)值,對數(shù)據(jù)隱形價(jià)值及動(dòng)態(tài)性管理及防護(hù)不足。大數(shù)據(jù)信息竊取伎倆愈加隱蔽和多元化。不法分子從大量公開數(shù)據(jù)中經(jīng)過數(shù)據(jù)關(guān)聯(lián)伎倆能夠獲取相關(guān)個(gè)體隱性數(shù)據(jù),從而造成個(gè)人隱私泄露。經(jīng)過分析金融交易數(shù)據(jù)、交通運(yùn)輸信息包含軌跡信息,能夠得知一個(gè)城市或地域經(jīng)濟(jì)活動(dòng)狀態(tài)和趨勢。大數(shù)據(jù)獨(dú)有“數(shù)據(jù)污染”問題會(huì)造成嚴(yán)重社會(huì)資源浪費(fèi)。一些惡意攻擊型“數(shù)據(jù)污染”會(huì)影響到企業(yè)、團(tuán)體乃至國家政治及經(jīng)濟(jì)方面決議,從而造成嚴(yán)重后果。4.3.2針對安全和隱私考慮大數(shù)據(jù)商業(yè)價(jià)值是毋庸置疑。經(jīng)過大數(shù)據(jù)挖掘,企業(yè)所表現(xiàn)出控制力量遠(yuǎn)超以往。數(shù)據(jù)開始成為企業(yè)關(guān)鍵資產(chǎn),甚至企業(yè)金礦就蘊(yùn)含在數(shù)據(jù)之中,而數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理正成為企業(yè)掘金主要伎倆和工具,是企業(yè)能否把握大數(shù)據(jù)機(jī)遇主要抓手。然而,數(shù)據(jù)質(zhì)量提升和數(shù)據(jù)治理優(yōu)化,又不完全取決于企業(yè)本身努力。大數(shù)據(jù)商業(yè)價(jià)值在于不停開發(fā),而大數(shù)據(jù)應(yīng)用作為新業(yè)態(tài)、新模式、新應(yīng)用,痛點(diǎn)和難點(diǎn)不但在于技術(shù),更主要是不論是數(shù)據(jù)采集、整理和挖掘,還是數(shù)據(jù)產(chǎn)品推廣、應(yīng)用,企業(yè)都將面臨法律天花板,而隱私問題無疑是很多法律問題中主要一環(huán)。在互聯(lián)網(wǎng)時(shí)代人們似乎是以為自己隱私受到了威脅,而移動(dòng)互聯(lián)網(wǎng)與大數(shù)據(jù)時(shí)代無疑加深了這種威脅。大數(shù)據(jù)時(shí)代,數(shù)據(jù)被奉為一切服務(wù)起點(diǎn)與終點(diǎn)。人們似乎生活在一個(gè)360度無死角監(jiān)控環(huán)境里,周圍好像有千萬雙眼睛在盯著你,以全景式方式洞察著你,同時(shí)又有從四面八方涌來信息將你完全淹沒其中。對于置身其中用戶而言,首先渴望大數(shù)據(jù)時(shí)代,給自己帶來更為貼心便捷服務(wù);另首先,又時(shí)刻擔(dān)憂著自己隱私安全遭受侵犯。這種焦慮從前年谷歌眼鏡在公布過程中頻頻受挫就能表現(xiàn),即使谷歌眼鏡實(shí)際上什么也沒有做,還是無法阻擋人們對數(shù)據(jù)安全擔(dān)憂。對于政府管理部門而言,首先政府已經(jīng)意識(shí)到數(shù)據(jù)保護(hù)和隱私保護(hù)方面制度不完善,并開始不停強(qiáng)調(diào)個(gè)人信息和隱私保護(hù)主要性,另首先政府似乎依然沒有從傳統(tǒng)社會(huì)治理方式與管控思維中解脫出來,制度上滯后帶來不不過灰色地帶,還有風(fēng)險(xiǎn)。于大數(shù)據(jù)時(shí)代而言,這在本質(zhì)上,就是一場商家與商家之間,用戶與商家之間、政府與商家之間隱私之戰(zhàn)。對于商家來說,誰更靠近用戶隱私,誰就占據(jù)更多機(jī)會(huì);于用戶而言,保護(hù)隱私,似乎從一開始就是個(gè)偽命題;于政府而言,安全與發(fā)展似乎總是難以抉擇。普林斯頓大學(xué)計(jì)算機(jī)科學(xué)家阿爾文德?納拉亞南(ArvindNarayanan)稱,只要有合理商業(yè)動(dòng)機(jī)來推進(jìn)數(shù)據(jù)挖掘進(jìn)程,任何形式隱私都是“算法上不可能”(algorithmicallyimpossible)。我們無法回避這么事實(shí),即數(shù)據(jù)絕不是中立,它極難保持匿名。大數(shù)據(jù)與隱私之間關(guān)系,怎樣進(jìn)行平衡,怎樣把握尺度,這已成為各國立法、司法和執(zhí)法部門面臨共同難題,當(dāng)然也是企業(yè)不得不思索問題。現(xiàn)在歐盟模式和美國模式是個(gè)人數(shù)據(jù)保護(hù)方面全球最有影響兩種模式。歐盟模式是由國家主導(dǎo)立法模式,國家經(jīng)過立法確定個(gè)人數(shù)據(jù)保護(hù)各項(xiàng)基本標(biāo)準(zhǔn)和詳細(xì)法律要求。早在1981年歐盟理事會(huì)經(jīng)過了《關(guān)于個(gè)人數(shù)據(jù)自動(dòng)化處理個(gè)人保護(hù)協(xié)定》,1995年歐盟經(jīng)過了《關(guān)于與個(gè)人數(shù)據(jù)處理相關(guān)個(gè)人數(shù)據(jù)保護(hù)及這類數(shù)據(jù)自由流動(dòng)指令》,歐盟日后又制訂了一系列個(gè)人數(shù)據(jù)保護(hù)相關(guān)法律法規(guī)。美國是行業(yè)自律模式提倡者,經(jīng)過行業(yè)內(nèi)部行為規(guī)則、規(guī)范、標(biāo)準(zhǔn)和行業(yè)協(xié)會(huì)監(jiān)督,實(shí)現(xiàn)行業(yè)內(nèi)個(gè)人數(shù)據(jù)保護(hù)自我約束。行業(yè)自律模式是在充分確保個(gè)人數(shù)據(jù)自由流動(dòng)基礎(chǔ)上保護(hù)個(gè)人數(shù)據(jù),從而保護(hù)行業(yè)利益。我國對于個(gè)人數(shù)據(jù)保護(hù)立法起步較晚,現(xiàn)在還沒有專門《個(gè)人信息保護(hù)法》?,F(xiàn)在國內(nèi)關(guān)于個(gè)人數(shù)據(jù)相關(guān)法律法規(guī)主要是后頒布三部:①全國人大常委會(huì)公布《關(guān)于加強(qiáng)網(wǎng)絡(luò)信息保護(hù)決定》;②工信部公布《信息安全技術(shù)公共及商用服務(wù)信息系統(tǒng)個(gè)人信息保護(hù)指南》(這份標(biāo)準(zhǔn)不具備法律約束力);③工信部公布《電信和互聯(lián)網(wǎng)用戶個(gè)人信息保護(hù)要求》。在立法缺位情況下,輕易出現(xiàn)“遵法成本高、違法成本低”怪相。今年國家在個(gè)人數(shù)據(jù)保護(hù)立法方面有很多新舉措,國內(nèi)個(gè)人數(shù)據(jù)保護(hù)立法在逐步加強(qiáng)。3月15日生效《網(wǎng)絡(luò)交易管理方法》深入要求了網(wǎng)絡(luò)交易中個(gè)人信息保護(hù)要求。3月15日生效新《消費(fèi)者權(quán)益保費(fèi)法》授予工商部門對“侵害消費(fèi)者個(gè)人信息依法得到保護(hù)權(quán)利”執(zhí)法權(quán)。10月10日最高人民法院公布《關(guān)于審理利用信息網(wǎng)絡(luò)侵害人身權(quán)益民事糾紛案件適使用方法律若干問題要求》明確了用戶個(gè)人信息及隱私被侵犯訴權(quán)。10月27國家網(wǎng)信辦表示將出臺(tái)App應(yīng)用程序發(fā)展管理方法,監(jiān)管移動(dòng)應(yīng)用行業(yè)各種亂象。11月3日全國人大常委會(huì)首次審議《中華人民共和國刑法修正案(九)(草案)》,并向社會(huì)公開征求意見;《草案》包含出售、非法提供公民個(gè)人信息罪修正案。11月4日工信部公布《通信短信息服務(wù)管理要求(征求意見稿)》向社會(huì)公開征求意見。《意見稿》要求,任何組織或者個(gè)人不得將采取人工搜集、在線自動(dòng)搜集、數(shù)字任意組合等伎倆取得他人電話號(hào)碼用于出售、共享和交換,或者向經(jīng)過上述方式取得電話號(hào)碼發(fā)送短信息。從大數(shù)據(jù)關(guān)鍵技術(shù)來看,其數(shù)據(jù)搜集、存放、處理分析、可視化展現(xiàn)等步驟面臨著不一樣風(fēng)險(xiǎn)、安全和隱私需求。(1)數(shù)據(jù)搜集依照數(shù)據(jù)起源不一樣,大致可分為兩類,一是社會(huì)團(tuán)體對本身數(shù)據(jù)采集,如企業(yè)自己生產(chǎn)、運(yùn)行等數(shù)據(jù);二是社會(huì)團(tuán)體對他人數(shù)據(jù)采集,如本企業(yè)對其它企業(yè)、社會(huì)公眾、第三方系統(tǒng)等數(shù)據(jù)采集。對于前者,企業(yè)擁有正當(dāng)?shù)夭杉?、處置?quán)利,但對于后者,牽涉到他方甚至多方,數(shù)據(jù)對企業(yè)存在潛在價(jià)值而進(jìn)行采集同時(shí),是否會(huì)影響他方利益應(yīng)在考慮范圍之內(nèi)。尤其在雙方不對等情況下,如企業(yè)對個(gè)人,被采集方應(yīng)保留被通知甚至授權(quán)權(quán)利,數(shù)據(jù)采集行為應(yīng)該接收社會(huì)公信力量(如政府、行業(yè)協(xié)會(huì)等)監(jiān)管和公告,以確保被采集方利益不受侵害,限制企業(yè)不搜集、統(tǒng)計(jì)敏感信息以保護(hù)被采集方隱私信息不受侵犯。同時(shí),數(shù)據(jù)搜集過程中,應(yīng)注意對數(shù)據(jù)起源進(jìn)行甄別
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鈾礦開采石方施工協(xié)議
- 建筑制冷承攬施工合同
- 臨時(shí)展覽LED屏幕租賃合同
- 文化傳媒合同專用章管理指南
- 船舶電氣系統(tǒng)安裝合同
- 影劇院隔墻施工合同
- 挖掘機(jī)跨國作業(yè)合同范本
- 車禍病人出院協(xié)議書(2篇)
- 土地違約解除合同通知書
- 集合資產(chǎn)管理計(jì)劃資產(chǎn)管理合同審查要點(diǎn)
- 灌入式復(fù)合路面施工指南
- 2023級(jí)高數(shù)(上)試卷及答案
- 數(shù)控車床上下料機(jī)械手設(shè)計(jì)說明書
- 高中數(shù)學(xué)公開課優(yōu)質(zhì)課1.3.0探究與發(fā)現(xiàn)“楊輝三角”中的一些秘密【市一等獎(jiǎng)】優(yōu)質(zhì)課
- 100KW分布式光伏電站設(shè)計(jì)方案
- 2010版GMP附錄:計(jì)算機(jī)化系統(tǒng)整體及條款解讀(完整精華版)
- 網(wǎng)吧企業(yè)章程范本
- 商業(yè)綜合體、購物中心、百貨商場商業(yè)運(yùn)營項(xiàng)目收益測算模板
- 丙烯儲(chǔ)罐畢業(yè)設(shè)計(jì)
- 水工建筑物水泥灌漿施工技術(shù)規(guī)范
- 鋼質(zhì)焊接氣瓶設(shè)計(jì)和制造培訓(xùn)教材(共36頁).ppt
評論
0/150
提交評論