大數(shù)據(jù)架構(gòu)與關(guān)鍵技術(shù)_第1頁
大數(shù)據(jù)架構(gòu)與關(guān)鍵技術(shù)_第2頁
大數(shù)據(jù)架構(gòu)與關(guān)鍵技術(shù)_第3頁
大數(shù)據(jù)架構(gòu)與關(guān)鍵技術(shù)_第4頁
大數(shù)據(jù)架構(gòu)與關(guān)鍵技術(shù)_第5頁
已閱讀5頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

4大數(shù)據(jù)參考架構(gòu)和關(guān)鍵技術(shù)4.1大數(shù)據(jù)參考架構(gòu)大數(shù)據(jù)作為一種新興技術(shù),目前尚未形成完善、達(dá)成共識(shí)的技術(shù)標(biāo)準(zhǔn)體系。本章結(jié)合NIST和JTC1/SC32的研究成果,結(jié)合我們對(duì)大數(shù)據(jù)的理解和分析,提出了大數(shù)據(jù)參考架構(gòu)(見圖5)。圖5大數(shù)據(jù)參考架構(gòu)圖大數(shù)據(jù)參考架構(gòu)總體上可以概括為“一個(gè)概念體系,二個(gè)價(jià)值鏈維度”?!耙粋€(gè)概念體系”是指它為大數(shù)據(jù)參考架構(gòu)中使用的概念提供了一個(gè)構(gòu)件層級(jí)分類體系,即“角色—活動(dòng)—功能組件”,用于描述參考架構(gòu)中的邏輯構(gòu)件及其關(guān)系;“二個(gè)價(jià)值鏈維度”分別為“IT價(jià)值鏈”和“信息價(jià)值鏈”,其中“IT價(jià)值鏈”反映的是大數(shù)據(jù)作為一種新興的數(shù)據(jù)應(yīng)用范式對(duì)IT技術(shù)產(chǎn)生的新需求所帶來的價(jià)值,“信息價(jià)值鏈”反映的是大數(shù)據(jù)作為一種數(shù)據(jù)科學(xué)方法論對(duì)數(shù)據(jù)到知識(shí)的處理過程中所實(shí)現(xiàn)的信息流價(jià)值。這些內(nèi)涵在大數(shù)據(jù)參考模型圖中得到了體現(xiàn)。大數(shù)據(jù)參考架構(gòu)是一個(gè)通用的大數(shù)據(jù)系統(tǒng)概念模型。它表示了通用的、技術(shù)無關(guān)的大數(shù)據(jù)系統(tǒng)的邏輯功能構(gòu)件及構(gòu)件之間的互操作接口,可以作為開發(fā)各種具體類型大數(shù)據(jù)應(yīng)用系統(tǒng)架構(gòu)的通用技術(shù)參考框架。其目標(biāo)是建立一個(gè)開放的大數(shù)據(jù)技術(shù)參考架構(gòu),使系統(tǒng)工程師、數(shù)據(jù)科學(xué)家、軟件開發(fā)人員、數(shù)據(jù)架構(gòu)師和高級(jí)決策者,能夠在可以互操作的大數(shù)據(jù)生態(tài)系統(tǒng)中制定一個(gè)解決方案,解決由各種大數(shù)據(jù)特征融合而帶來的需要使用多種方法的問題。它提供了一個(gè)通用的大數(shù)據(jù)應(yīng)用系統(tǒng)框架,支持各種商業(yè)環(huán)境,包括緊密集成的企業(yè)系統(tǒng)和松散耦合的垂直行業(yè),有助于理解大數(shù)據(jù)系統(tǒng)如何補(bǔ)充并有別于已有的分析、商業(yè)智能、數(shù)據(jù)庫等傳統(tǒng)的數(shù)據(jù)應(yīng)用系統(tǒng)。大數(shù)據(jù)參考架構(gòu)采用構(gòu)件層級(jí)結(jié)構(gòu)來表達(dá)大數(shù)據(jù)系統(tǒng)的高層概念和通用的構(gòu)件分類法。從構(gòu)成上看,大數(shù)據(jù)參考架構(gòu)是由一系列在不同概念層級(jí)上的邏輯構(gòu)件組成的。這些邏輯構(gòu)件被劃分為三個(gè)層級(jí),從高到低依次為角色、活動(dòng)和功能組件。最頂層級(jí)的邏輯構(gòu)件是角色,包括系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者、數(shù)據(jù)消費(fèi)者、安全和隱私、管理。第二層級(jí)的邏輯構(gòu)件是每個(gè)角色執(zhí)行的活動(dòng)。第三層級(jí)的邏輯構(gòu)件是執(zhí)行每個(gè)活動(dòng)需要的功能組件。大數(shù)據(jù)參考架構(gòu)圖的整體布局按照代表大數(shù)據(jù)價(jià)值鏈的兩個(gè)維度來組織,即信息價(jià)值鏈(水平軸)和IT價(jià)值鏈(垂直軸)。在信息價(jià)值鏈維度上,大數(shù)據(jù)的價(jià)值通過數(shù)據(jù)的收集、預(yù)處理、分析、可視化和訪問等活動(dòng)來實(shí)現(xiàn)。在IT價(jià)值鏈維度上,大數(shù)據(jù)價(jià)值通過為大數(shù)據(jù)應(yīng)用提供存放和運(yùn)行大數(shù)據(jù)的網(wǎng)絡(luò)、基礎(chǔ)設(shè)施、平臺(tái)、應(yīng)用工具以及其他IT服務(wù)來實(shí)現(xiàn)。大數(shù)據(jù)應(yīng)用提供者處在兩個(gè)維的交叉點(diǎn)上,表明大數(shù)據(jù)分析及其實(shí)施為兩個(gè)價(jià)值鏈上的大數(shù)據(jù)利益相關(guān)者提供了價(jià)值。五個(gè)主要的模型構(gòu)件代表在每個(gè)大數(shù)據(jù)系統(tǒng)中存在的不同技術(shù)角色:系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)應(yīng)用提供者、大數(shù)據(jù)框架提供者和數(shù)據(jù)消費(fèi)者。另外兩個(gè)非常重要的模型構(gòu)件是安全隱私與管理,代表能為大數(shù)據(jù)系統(tǒng)其他五個(gè)主要模型構(gòu)件提供服務(wù)和功能的構(gòu)件。這兩個(gè)關(guān)鍵模型構(gòu)件的功能極其重要,因此也被集成在任何大數(shù)據(jù)解決方案中。參考架構(gòu)可以用于多個(gè)大數(shù)據(jù)系統(tǒng)組成的復(fù)雜系統(tǒng)(如堆疊式或鏈?zhǔn)较到y(tǒng)),這樣其中一個(gè)系統(tǒng)的大數(shù)據(jù)使用者可以作為另外一個(gè)系統(tǒng)的大數(shù)據(jù)提供者。參考架構(gòu)邏輯構(gòu)件之間的關(guān)系用箭頭表示,包括三類關(guān)系:“數(shù)據(jù)”、“軟件”和“服務(wù)使用”。“數(shù)據(jù)”表明在系統(tǒng)主要構(gòu)件之間流動(dòng)的數(shù)據(jù),可以是實(shí)際數(shù)值或引用地址?!败浖北砻髟诖髷?shù)據(jù)處理過程中的支撐軟件工具?!胺?wù)使用”代表軟件程序接口。雖然此參考架構(gòu)主要用于描述大數(shù)據(jù)實(shí)時(shí)運(yùn)行環(huán)境,但也可用于配置階段。大數(shù)據(jù)系統(tǒng)中涉及的人工協(xié)議和人工交互沒有被包含在此參考架構(gòu)中。(1)系統(tǒng)協(xié)調(diào)者系統(tǒng)協(xié)調(diào)者角色提供系統(tǒng)必須滿足的整體要求,包括政策、治理、架構(gòu)、資源和業(yè)務(wù)需求,以及為確保系統(tǒng)符合這些需求而進(jìn)行的監(jiān)控和審計(jì)活動(dòng)。系統(tǒng)協(xié)調(diào)者角色的扮演者包括業(yè)務(wù)領(lǐng)導(dǎo)、咨詢師、數(shù)據(jù)科學(xué)家、信息架構(gòu)師、軟件架構(gòu)師、安全和隱私架構(gòu)師、網(wǎng)絡(luò)架構(gòu)師等。系統(tǒng)協(xié)調(diào)者定義和整合所需的數(shù)據(jù)應(yīng)用活動(dòng)到運(yùn)行的垂直系統(tǒng)中。系統(tǒng)協(xié)調(diào)者通常會(huì)涉及到更多具體角色,由一個(gè)或多個(gè)角色扮演者管理和協(xié)調(diào)大數(shù)據(jù)系統(tǒng)的運(yùn)行。這些角色扮演者可以是人,軟件或二者的結(jié)合。系統(tǒng)協(xié)調(diào)者的功能是配置和管理大數(shù)據(jù)架構(gòu)的其他組件,來執(zhí)行一個(gè)或多個(gè)工作負(fù)載。這些由系統(tǒng)協(xié)調(diào)者管理的工作負(fù)載,在較低層可以是把框架組件分配或調(diào)配到個(gè)別物理或虛擬節(jié)點(diǎn)上,在較高層可以是提供一個(gè)圖形用戶界面來支持連接多個(gè)應(yīng)用程序和組件的工作流規(guī)范。系統(tǒng)協(xié)調(diào)者也可以通過管理角色監(jiān)控工作負(fù)載和系統(tǒng),以確認(rèn)每個(gè)工作負(fù)載都達(dá)到了特定的服務(wù)質(zhì)量要求,還可能彈性地分配和提供額外的物理或虛擬資源,以滿足由變化/激增的數(shù)據(jù)或用戶/交易數(shù)量而帶來的工作負(fù)載需求。(2)數(shù)據(jù)提供者數(shù)據(jù)提供者角色為大數(shù)據(jù)系統(tǒng)提供可用的數(shù)據(jù)。數(shù)據(jù)提供者角色的扮演者包括企業(yè)、公共代理機(jī)構(gòu)、研究人員和科學(xué)家、搜索引擎、Web/FTP和其他應(yīng)用、網(wǎng)絡(luò)運(yùn)營(yíng)商、終端用戶等。在一個(gè)大數(shù)據(jù)系統(tǒng)中,數(shù)據(jù)提供者的活動(dòng)通常包括采集數(shù)據(jù)、持久化數(shù)據(jù)、對(duì)敏感信息進(jìn)行證數(shù)據(jù)在生命周期的每個(gè)過程是否都能夠被大數(shù)據(jù)系統(tǒng)正確地處理。由于大數(shù)據(jù)基礎(chǔ)設(shè)施的分布式和復(fù)雜性,系統(tǒng)管理依賴于兩點(diǎn):使用標(biāo)準(zhǔn)的協(xié)議如SNMP把資源狀態(tài)和出錯(cuò)信息傳送給管理組件;通過可部署的代理或管理連接子(connector)允許管理角色監(jiān)視甚至控制大數(shù)據(jù)處理框架元素。系統(tǒng)管理的功能是監(jiān)視各種計(jì)算資源的運(yùn)行狀況,應(yīng)對(duì)出現(xiàn)的性能或故障事件,從而能夠滿足大數(shù)據(jù)應(yīng)用提供者的服務(wù)質(zhì)量(QoS)需求。在云服務(wù)提供商提供能力管理接口時(shí),通過管理連接子對(duì)云基礎(chǔ)設(shè)施提供的自助服務(wù)、自我調(diào)整、自我修復(fù)等能力進(jìn)行利用和管理。大型基礎(chǔ)設(shè)施通常包括數(shù)以千計(jì)的計(jì)算和存儲(chǔ)節(jié)點(diǎn),因此應(yīng)用程序和工具的調(diào)配應(yīng)盡可能自動(dòng)化。軟件安裝、應(yīng)用配置以及補(bǔ)丁維護(hù)也應(yīng)該以自動(dòng)的方式推送到各結(jié)點(diǎn)并實(shí)現(xiàn)自動(dòng)地跨結(jié)點(diǎn)復(fù)制。還可以利用虛擬化技術(shù)的虛擬映像,加快恢復(fù)進(jìn)程和提供有效的系統(tǒng)修補(bǔ),以最大限度地減少定期維護(hù)時(shí)的停機(jī)時(shí)間。系統(tǒng)管理模塊應(yīng)能夠提供統(tǒng)一的運(yùn)維管理,能夠?qū)Π〝?shù)據(jù)中心、基礎(chǔ)硬件、平臺(tái)軟件(存儲(chǔ)、計(jì)算)和應(yīng)用軟件進(jìn)行集中運(yùn)維、統(tǒng)一管理,實(shí)現(xiàn)安裝部署、參數(shù)配置、系統(tǒng)監(jiān)控等功能。應(yīng)提供自動(dòng)化運(yùn)維的能力,通過對(duì)多個(gè)數(shù)據(jù)中心的資源進(jìn)行統(tǒng)一管理,合理的分配和調(diào)度業(yè)務(wù)所需要的資源,做到自動(dòng)化按需分配。同時(shí)提供對(duì)多個(gè)數(shù)據(jù)中心的IT基礎(chǔ)設(shè)施進(jìn)行集中運(yùn)維的能力,自動(dòng)化監(jiān)控?cái)?shù)據(jù)中心內(nèi)各種IT設(shè)備的事件、告警、性能,實(shí)現(xiàn)從業(yè)務(wù)維度來進(jìn)行運(yùn)維的能力。大數(shù)據(jù)生命周期管理活動(dòng)負(fù)責(zé)驗(yàn)證數(shù)據(jù)在生命周期中的每個(gè)過程是否都能夠被大數(shù)據(jù)系統(tǒng)正確地處理,它覆蓋了數(shù)據(jù)從數(shù)據(jù)提供者那里被攝取到系統(tǒng),一直到數(shù)據(jù)被處理或從系統(tǒng)中刪除的整個(gè)生命周期。由于大數(shù)據(jù)生命周期管理的任務(wù)可以分布在大數(shù)據(jù)計(jì)算環(huán)境中的不同組織和個(gè)體,從遵循政策、法規(guī)和安全要求的視角,大數(shù)據(jù)生命周期管理包括以下活動(dòng)或功能:政策管理(數(shù)據(jù)遷移及處置策略)、元數(shù)據(jù)管理(管理數(shù)據(jù)標(biāo)識(shí)、質(zhì)量、訪問權(quán)限等元數(shù)據(jù)信息)、可訪問管理(依據(jù)時(shí)間改變數(shù)據(jù)的可訪問性)、數(shù)據(jù)恢復(fù)(災(zāi)難或系統(tǒng)出錯(cuò)時(shí)對(duì)數(shù)據(jù)進(jìn)行恢復(fù))、保護(hù)管理(維護(hù)數(shù)據(jù)完整性)。從大數(shù)據(jù)系統(tǒng)要應(yīng)對(duì)大數(shù)據(jù)的4V特征來看,大數(shù)據(jù)生命周期管理活動(dòng)和功能還包括與系統(tǒng)協(xié)調(diào)者、數(shù)據(jù)提供者、大數(shù)據(jù)框架提供者、大數(shù)據(jù)應(yīng)用提供者、數(shù)據(jù)消費(fèi)者以及安全和隱私角色之間的交互。4.2大數(shù)據(jù)關(guān)鍵技術(shù)4.2.1數(shù)據(jù)收集大數(shù)據(jù)時(shí)代,數(shù)據(jù)的來源極其廣泛,數(shù)據(jù)有不同的類型和格式,同時(shí)呈現(xiàn)爆發(fā)性增長(zhǎng)的態(tài)勢(shì),這些特性對(duì)數(shù)據(jù)收集技術(shù)也提出了更高的要求。數(shù)據(jù)收集需要從不同的數(shù)據(jù)源實(shí)時(shí)的或及時(shí)的收集不同類型的數(shù)據(jù)并發(fā)送給存儲(chǔ)系統(tǒng)或數(shù)據(jù)中間件系統(tǒng)進(jìn)行后續(xù)處理。數(shù)據(jù)收集一般可分為設(shè)備數(shù)據(jù)收集和Web數(shù)據(jù)爬取兩類,常常用的數(shù)據(jù)收集軟件有Splunk、Sqoop、Flume、Logstash、Kettle以及各種網(wǎng)絡(luò)爬蟲,如Heritrix、Nutch等。4.2.2數(shù)據(jù)預(yù)處理數(shù)據(jù)的質(zhì)量對(duì)數(shù)據(jù)的價(jià)值大小有直接影響,低質(zhì)量數(shù)據(jù)將導(dǎo)致低質(zhì)量的分析和挖掘結(jié)果。廣義的數(shù)據(jù)質(zhì)量涉及許多因素,如數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性與可解釋性等。大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)通常具有一個(gè)或多個(gè)數(shù)據(jù)源,這些數(shù)據(jù)源可以包括同構(gòu)/異構(gòu)的(大)數(shù)據(jù)庫、文件系統(tǒng)、服務(wù)接口等。這些數(shù)據(jù)源中的數(shù)據(jù)來源現(xiàn)實(shí)世界,容易受到噪聲數(shù)據(jù)、數(shù)據(jù)值缺失與數(shù)據(jù)沖突等的影響。此外數(shù)據(jù)處理、分析、可視化過程中的算法與實(shí)現(xiàn)技術(shù)復(fù)雜多樣,往往需要對(duì)數(shù)據(jù)的組織、數(shù)據(jù)的表達(dá)形式、數(shù)據(jù)的位置等進(jìn)行一些前置處理。數(shù)據(jù)預(yù)處理的引入,將有助于提升數(shù)據(jù)質(zhì)量,并使得后繼數(shù)據(jù)處理、分析、可視化過程更加容易、有效,有利于獲得更好的用戶體驗(yàn)。數(shù)據(jù)預(yù)處理形式上包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉(zhuǎn)換等階段。數(shù)據(jù)清理技術(shù)包括數(shù)據(jù)不一致性檢測(cè)技術(shù)、臟數(shù)據(jù)識(shí)別技術(shù)、數(shù)據(jù)過濾技術(shù)、數(shù)據(jù)修正技術(shù)、數(shù)據(jù)噪聲的識(shí)別與平滑技術(shù)等。數(shù)據(jù)集成把來自多個(gè)數(shù)據(jù)源的數(shù)據(jù)進(jìn)行集成,縮短數(shù)據(jù)之間的物理距離,形成一個(gè)集中統(tǒng)一的(同構(gòu)/異構(gòu))數(shù)據(jù)庫、數(shù)據(jù)立方體、數(shù)據(jù)寬表與文件等。數(shù)據(jù)歸約技術(shù)可以在不損害挖掘結(jié)果準(zhǔn)確性的前提下,降低數(shù)據(jù)集的規(guī)模,得到簡(jiǎn)化的數(shù)據(jù)集。歸約策略與技術(shù)包括維歸約技術(shù)、數(shù)值歸約技術(shù)、數(shù)據(jù)抽樣技術(shù)等。經(jīng)過數(shù)據(jù)轉(zhuǎn)換處理后,數(shù)據(jù)被變換或統(tǒng)一。數(shù)據(jù)轉(zhuǎn)換不僅簡(jiǎn)化處理與分析過程、提升時(shí)效性,也使得分析挖掘的模式更容易被理解。數(shù)據(jù)轉(zhuǎn)換處理技術(shù)包括基于規(guī)則或元數(shù)據(jù)的轉(zhuǎn)換技術(shù)、基于模型和學(xué)習(xí)的轉(zhuǎn)換技術(shù)等。4.2.3數(shù)據(jù)存儲(chǔ)分布式存儲(chǔ)與訪問是大數(shù)據(jù)存儲(chǔ)的關(guān)鍵技術(shù),它具有經(jīng)濟(jì)、高效、容錯(cuò)好等特點(diǎn)。分布式存儲(chǔ)技術(shù)與數(shù)據(jù)存儲(chǔ)介質(zhì)的類型和數(shù)據(jù)的組織管理形式直接相關(guān)。目前的主要數(shù)據(jù)存儲(chǔ)介質(zhì)類型包括內(nèi)存、磁盤、磁帶等;主要數(shù)據(jù)組織管理形式包括按行組織、按列組織、按鍵值組織和按關(guān)系組織;主要數(shù)據(jù)組織管理層次包括按塊級(jí)組織、文件級(jí)組織以及數(shù)據(jù)庫級(jí)組織等。不同的存儲(chǔ)介質(zhì)和組織管理形式對(duì)應(yīng)于不同的大數(shù)據(jù)特征和應(yīng)用特點(diǎn)。(1)分布式文件系統(tǒng)分布式文件系統(tǒng)是由多個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)組成的向上層應(yīng)用提供統(tǒng)一的文件服務(wù)的文件系統(tǒng)。分布式文件系統(tǒng)中的每個(gè)節(jié)點(diǎn)可以分布在不同的地點(diǎn),通過網(wǎng)絡(luò)進(jìn)行節(jié)點(diǎn)間的通信和數(shù)據(jù)傳輸。分布式文件系統(tǒng)中的文件在物理上可能被分散存儲(chǔ)在不同的節(jié)點(diǎn)上,在邏輯上仍然是一個(gè)完整的文件。使用分布式文件系統(tǒng)時(shí),無需關(guān)心數(shù)據(jù)存儲(chǔ)在哪個(gè)節(jié)點(diǎn)上,只需像本地文件系統(tǒng)一樣管理和存儲(chǔ)文件系統(tǒng)的數(shù)據(jù)。分布式文件系統(tǒng)的性能與成本是線性增長(zhǎng)的關(guān)系,它能夠在信息爆炸時(shí)代有的效解決數(shù)據(jù)的存儲(chǔ)和管理。分布式文件系統(tǒng)在大數(shù)據(jù)領(lǐng)域是最基礎(chǔ)的,最核心的功能組件之一,如何實(shí)現(xiàn)一個(gè)高擴(kuò)展,高性能,高可用的分布式文件系統(tǒng)是大數(shù)據(jù)領(lǐng)域最關(guān)鍵的問題之一。目前常用的分布式磁盤文件系統(tǒng)有HDFS(Hadoop分布式文件系統(tǒng))、GFS(Goolge分布式文件系統(tǒng))、KFS(Kosmosdistributedfilesystem)等;常用的分布式內(nèi)存文件系統(tǒng)有Tachyon等。(2)文檔存儲(chǔ)文檔存儲(chǔ)支持對(duì)結(jié)構(gòu)化數(shù)據(jù)的訪問,不同于關(guān)系模型的是,文檔存儲(chǔ)沒有強(qiáng)制的架構(gòu)。事實(shí)上,文檔存儲(chǔ)以封包鍵值對(duì)的方式進(jìn)行存儲(chǔ)。在這種情況下,應(yīng)用對(duì)要檢索的封包采取一些約定,或者利用存儲(chǔ)引擎的能力將不同的文檔劃分成不同的集合,以管理數(shù)據(jù)。與關(guān)系模型不同的是,文檔存儲(chǔ)模型支持嵌套結(jié)構(gòu)。例如,文檔存儲(chǔ)模型支持XML和JSON文檔,字段的“值”又可以嵌套存儲(chǔ)其它文檔。文檔存儲(chǔ)模型也支持?jǐn)?shù)組和列值鍵。與鍵值存儲(chǔ)不同的是,文檔存儲(chǔ)關(guān)心文檔的內(nèi)部結(jié)構(gòu)。這使得存儲(chǔ)引擎可以直接支持二級(jí)索引,從而允許對(duì)任意字段進(jìn)行高效查詢。支持文檔嵌套存儲(chǔ)的能力,使得查詢語言具有搜索嵌套對(duì)象的能力,XQuery就是一個(gè)例子。主流的文檔數(shù)據(jù)庫有MongoDB、CouchDB、Terrastore、RavenDB等。(3)列式存儲(chǔ)列式存儲(chǔ)將數(shù)據(jù)按行排序,按列存儲(chǔ),將相同字段的數(shù)據(jù)作為一個(gè)列族來聚合存儲(chǔ)。當(dāng)只查詢少數(shù)列族數(shù)據(jù)時(shí),列式數(shù)據(jù)庫可以減少讀取數(shù)據(jù)量,減少數(shù)據(jù)裝載和讀入讀出的時(shí)間,提高數(shù)據(jù)處理效率。按列存儲(chǔ)還可以承載更大的數(shù)據(jù)量,獲得高效的垂直數(shù)據(jù)壓縮能力,降低數(shù)據(jù)存儲(chǔ)開銷。使用列式存儲(chǔ)的數(shù)據(jù)庫產(chǎn)品有傳統(tǒng)的數(shù)據(jù)倉庫產(chǎn)品,如SybaseIQ、InfiniDB、Vertica等,也有開源的數(shù)據(jù)庫產(chǎn)品,如HadoopHbase、Infobright等。(4)鍵值存儲(chǔ)鍵值存儲(chǔ),即Key-Value存儲(chǔ),簡(jiǎn)稱KV存儲(chǔ),它是NoSQL存儲(chǔ)的一種方式。它的數(shù)據(jù)按照鍵值對(duì)的形式進(jìn)行組織、索引和存儲(chǔ)。KV存儲(chǔ)非常適合不涉及過多數(shù)據(jù)關(guān)系和業(yè)務(wù)關(guān)系的業(yè)務(wù)數(shù)據(jù),同時(shí)能有效減少讀寫磁盤的次數(shù),比SQL數(shù)據(jù)庫存儲(chǔ)擁有更好的讀寫性能。鍵值存儲(chǔ)一般不提供事務(wù)處理機(jī)制。主流的鍵值數(shù)據(jù)庫產(chǎn)品有Redis、ApacheCassandra、GoogleBigtable等。(5)圖形數(shù)據(jù)庫圖形數(shù)據(jù)庫是主要用于存儲(chǔ)事物及事物之間的相關(guān)關(guān)系,這些事物整體上呈現(xiàn)復(fù)雜的網(wǎng)絡(luò)關(guān)系,可以簡(jiǎn)單的稱之為圖形數(shù)據(jù)。使用傳統(tǒng)的關(guān)系數(shù)據(jù)庫技術(shù)已經(jīng)無法很好的滿足超大量圖形數(shù)據(jù)的存儲(chǔ)、查詢等需求,比如上百萬或上千萬個(gè)節(jié)點(diǎn)的圖形關(guān)系,而圖形數(shù)據(jù)庫采用不同的技術(shù)來很好的解決圖形數(shù)據(jù)的查詢,遍歷,求最短路徑等需求。在圖形數(shù)據(jù)庫領(lǐng)域,有不同的圖模型來映射這些網(wǎng)絡(luò)關(guān)系,比如超圖模型,以及包含節(jié)點(diǎn)、關(guān)系及屬性信息的屬性圖模型等。圖形數(shù)據(jù)庫可用于對(duì)真實(shí)世界的各種對(duì)象進(jìn)行建模,如社交圖譜,以反應(yīng)這些事物之間的相互關(guān)系。主流的圖形數(shù)據(jù)庫有GooglePregel、Neo4j、InfiniteGraph、DEX、InfoGrid、AllegroGraph、GraphDB、HyperGraphDB等。(6)關(guān)系數(shù)據(jù)庫關(guān)系模型是最傳統(tǒng)的數(shù)據(jù)存儲(chǔ)模型,它使用記錄(由元組組成)按行進(jìn)行存儲(chǔ),記錄存儲(chǔ)在表中,表由架構(gòu)界定。表中的每個(gè)列都有名稱和類型,表中的所有記錄都要符合表的定義。SQL是專門的查詢語言,提供相應(yīng)的語法查找符合條件的記錄,如表聯(lián)接(Join)。表聯(lián)接可以基于表之間的關(guān)系在多表之間查詢記錄。表中的記錄可以被創(chuàng)建和刪除,記錄中的字段也可以單獨(dú)更新。關(guān)系模型數(shù)據(jù)庫通常提供事務(wù)處理機(jī)制,這為涉及多條記錄的自動(dòng)化處理提供了解決方案。對(duì)不同的編程語言而言,表可以被看成數(shù)組、記錄列表或者結(jié)構(gòu)。表可以使用B樹和哈希表進(jìn)行索引,以應(yīng)對(duì)高性能訪問。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫廠商結(jié)合其它技術(shù)改進(jìn)關(guān)系型數(shù)據(jù)庫,比如分布式集群、列式存儲(chǔ),支持XML,Json等數(shù)據(jù)的存儲(chǔ)。(7)內(nèi)存存儲(chǔ)內(nèi)存存儲(chǔ)是指內(nèi)存數(shù)據(jù)庫(MMDB)將數(shù)據(jù)庫的工作版本放在內(nèi)存中,由于數(shù)據(jù)庫的操作都在內(nèi)存中進(jìn)行,從而磁盤I/O不再是性能瓶頸,內(nèi)存數(shù)據(jù)庫系統(tǒng)的設(shè)計(jì)目標(biāo)是提高數(shù)據(jù)庫的效率和存儲(chǔ)空間的利用率。內(nèi)存存儲(chǔ)的核心是內(nèi)存存儲(chǔ)管理模塊,其管理策略的優(yōu)劣直接關(guān)系到內(nèi)存數(shù)據(jù)庫系統(tǒng)的性能。基于內(nèi)存存儲(chǔ)的內(nèi)存數(shù)據(jù)庫產(chǎn)品有OracleTimesTen、Altibase、eXtremeDB、Redis、RaptorDB、MemCached等產(chǎn)品。4.2.4數(shù)據(jù)處理分布式數(shù)據(jù)處理技術(shù)一方面與分布式存儲(chǔ)形式直接相關(guān),另一方面也與業(yè)務(wù)數(shù)據(jù)的溫度類型(冷數(shù)據(jù)、熱數(shù)據(jù))相關(guān)。目前主要的數(shù)據(jù)處理計(jì)算模型包括MapReduce計(jì)算模型、DAG計(jì)算模型、BSP計(jì)算模型等。(1)MapReduce分布式計(jì)算框架MapReduce是一個(gè)高性能的批處理分布式計(jì)算框架,用于對(duì)海量數(shù)據(jù)進(jìn)行并行分析和處理。與傳統(tǒng)數(shù)據(jù)倉庫和分析技術(shù)相比,MapReduce適合處理各種類型的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并且可以處理數(shù)據(jù)量為TB和PB級(jí)別的超大規(guī)模數(shù)據(jù)。MapReduce分布式計(jì)算框架將計(jì)算任務(wù)分為大量的并行Map和Reduce兩類任務(wù),并將Map任務(wù)部署到分布式集群中的不同計(jì)算機(jī)節(jié)點(diǎn)上并發(fā)運(yùn)行,然后由Reduce任務(wù)對(duì)所有Map任務(wù)的執(zhí)行結(jié)果進(jìn)行匯總,得到最后的分析結(jié)果。MapReduce分布式計(jì)算框架可動(dòng)態(tài)增加或減少計(jì)算節(jié)點(diǎn),具有很高的計(jì)算彈性,并且具備很好的任務(wù)調(diào)度能力和資源分配能力,具有很好的擴(kuò)展性和容錯(cuò)性。MapReduce分布式計(jì)算框架是大數(shù)據(jù)時(shí)代最為典型的,應(yīng)用最廣泛的分布式運(yùn)行框架之一。最流行的MapReduce分布式計(jì)算框架是由Hadoop實(shí)現(xiàn)的MapReduce框架。HadoopMapReduce基于HDFS和HBase等存儲(chǔ)技術(shù)確保數(shù)據(jù)存儲(chǔ)的有效性,計(jì)算任務(wù)會(huì)被安排在離數(shù)據(jù)最近的節(jié)點(diǎn)上運(yùn)行,減少數(shù)據(jù)在網(wǎng)絡(luò)中的傳輸開銷,同時(shí)還能夠重新運(yùn)行失敗的任務(wù)。HadoopMapReduce已經(jīng)在各個(gè)行業(yè)得到了廣泛的應(yīng)用,是最成熟和最流行的大數(shù)據(jù)處理技術(shù)。(2)分布式內(nèi)存計(jì)算系統(tǒng)使用分布式共享內(nèi)存進(jìn)行計(jì)算可以有效的減少數(shù)據(jù)讀寫和移動(dòng)的開銷,極大的提高數(shù)據(jù)處理的性能。支持基于內(nèi)存的數(shù)據(jù)計(jì)算,兼容多種分布式計(jì)算框架的通用計(jì)算平臺(tái)是大數(shù)據(jù)領(lǐng)域所必需的重要關(guān)鍵技術(shù)。除了支持內(nèi)存計(jì)算的商業(yè)工具(如SAPHANA、OracleBigDataAppliance等),Spark則是此種技術(shù)的開源實(shí)現(xiàn)代表,它是當(dāng)今大數(shù)據(jù)領(lǐng)域最熱門的基于內(nèi)存計(jì)算的分布式計(jì)算系統(tǒng)。相比傳統(tǒng)的HadoopMapReduce批量計(jì)算模型,Spark使用DAG、迭代計(jì)算和內(nèi)存計(jì)算的方式可以帶來一到兩個(gè)數(shù)量級(jí)的效率提升。(3)分布式流計(jì)算系統(tǒng)在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的增長(zhǎng)速度超過了存儲(chǔ)容量的增長(zhǎng),在不遠(yuǎn)的將來,人們將無法存儲(chǔ)所有的數(shù)據(jù),同時(shí),數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而不斷減少,此外,很多數(shù)據(jù)涉及用戶的隱私無法進(jìn)行存儲(chǔ)。對(duì)數(shù)據(jù)流進(jìn)行實(shí)時(shí)處理的技術(shù)獲得了人們?cè)絹碓蕉嗟年P(guān)注。數(shù)據(jù)的實(shí)時(shí)處理是一個(gè)很有挑戰(zhàn)性的工作,數(shù)據(jù)流本身具有持續(xù)達(dá)到、速度快且規(guī)模巨大等特點(diǎn),所以需要分布式的流計(jì)算技術(shù)對(duì)數(shù)據(jù)流進(jìn)行實(shí)時(shí)處理。數(shù)據(jù)流的理論及技術(shù)研究已經(jīng)有十幾年的歷史,目前仍舊是研究熱點(diǎn)。當(dāng)前得到廣泛應(yīng)用的很多系統(tǒng)多數(shù)為支持分布式、并行處理的流計(jì)算系統(tǒng),比較代表性的商用軟件包括IBMStreamBase和InfoSphereStreams,開源系統(tǒng)則包括TwitterStorm、YahooS4、SparkStreaming等。4.2.5數(shù)據(jù)分析大數(shù)據(jù)分析技術(shù)包括已有數(shù)據(jù)信息的分布式統(tǒng)計(jì)分析技術(shù),以及未知數(shù)據(jù)信息的分布式挖掘和深度學(xué)習(xí)技術(shù)。分布式統(tǒng)計(jì)分析技術(shù)基本都可藉由數(shù)據(jù)處理技術(shù)直接完成,分布式挖掘和深度學(xué)習(xí)技術(shù)則可以進(jìn)一步細(xì)分為:(1)聚類聚類指將物理或抽象對(duì)象的集合分組成為由類似的對(duì)象組成的多個(gè)類的過程。它是一種重要的人類行為。聚類與分類的不同在于,聚類所要求劃分的類是未知的。聚類是將數(shù)據(jù)分類到不同的類或者簇這樣的一個(gè)過程,所以同一個(gè)簇中的對(duì)象有很大的相似性,而不同簇間的對(duì)象有很大的相異性。聚類是數(shù)據(jù)挖掘的主要任務(wù)之一。聚類能夠作為一個(gè)獨(dú)立的工具獲得數(shù)據(jù)的分布狀況,觀察每一簇?cái)?shù)據(jù)的特征,集中對(duì)特定的聚簇集合作進(jìn)一步地分析。聚類還可以作為其他算法(如分類和定性歸納算法)的預(yù)處理步驟。聚類是數(shù)據(jù)挖掘中的一個(gè)很活躍的研究領(lǐng)域,傳統(tǒng)的聚類算法可以被分為五類:劃分方法、層次方法、基于密度方法、基于網(wǎng)格方法和基于模型方法。傳統(tǒng)的聚類算法已經(jīng)比較成功的解決了低維數(shù)據(jù)的聚類問題。但是由于實(shí)際應(yīng)用中數(shù)據(jù)的復(fù)雜性,在處理許多問題時(shí),現(xiàn)有的算法經(jīng)常失效,特別是對(duì)于高維數(shù)據(jù)和大型數(shù)據(jù)的情況。數(shù)據(jù)挖掘中的聚類研究主要集中在針對(duì)海量數(shù)據(jù)的有效和實(shí)用的聚類方法上,聚類方法的可伸縮性、高維聚類分析、分類屬性數(shù)據(jù)聚類、具有混合屬性數(shù)據(jù)的聚類和非距離模糊聚類等問題是目前數(shù)據(jù)挖掘研究人員最為感興趣的方向。(2)分類分類是指在一定的有監(jiān)督的學(xué)習(xí)前提下,將物體或抽象對(duì)象的集合分成多個(gè)類的過程。也可以認(rèn)為,分類是一種基于訓(xùn)練樣本數(shù)據(jù)(這些數(shù)據(jù)已經(jīng)被預(yù)先貼上了標(biāo)簽)區(qū)分另外的樣本數(shù)據(jù)標(biāo)簽的過程,即另外的樣本數(shù)據(jù)應(yīng)該如何貼標(biāo)簽。用于解決分類問題的方法非常多,常用的分類方法主要有決策樹,貝葉斯,人工神經(jīng)網(wǎng)絡(luò),K-近鄰,支持向量機(jī),邏輯回歸,隨機(jī)森林等方法。決策樹是用于分類和預(yù)測(cè)的主要技術(shù)之一,決策樹學(xué)習(xí)是以實(shí)例為基礎(chǔ)的歸納學(xué)習(xí)算法,它著眼于從一組無次序、無規(guī)則的實(shí)例中推理出以決策樹表示的分類規(guī)則。構(gòu)造決策樹的目的是找出屬性和類別間的關(guān)系,用它來預(yù)測(cè)將來未知類別的記錄的類別。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點(diǎn)進(jìn)行屬性的比較,并根據(jù)不同屬性值判斷從該節(jié)點(diǎn)向下的分支,在決策樹的葉節(jié)點(diǎn)得到結(jié)論。貝葉斯(Bayes)分類算法是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法,如樸素貝葉斯(NaiveBayes)算法。這些算法主要利用Bayes定理來預(yù)測(cè)一個(gè)未知類別的樣本屬于各個(gè)類別的可能性,選擇其中可能性最大的一個(gè)類別作為該樣本的最終類別。人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetworks,ANN)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型。在這種模型中,大量的節(jié)點(diǎn)(或稱“神經(jīng)元”,或“單元”)之間相互聯(lián)接構(gòu)成網(wǎng)絡(luò),即“神經(jīng)網(wǎng)絡(luò)”,以達(dá)到處理信息的目的。神經(jīng)網(wǎng)絡(luò)通常需要進(jìn)行訓(xùn)練,訓(xùn)練的過程就是網(wǎng)絡(luò)進(jìn)行學(xué)習(xí)的過程。訓(xùn)練改變了網(wǎng)絡(luò)節(jié)點(diǎn)的連接權(quán)的值使其具有分類的功能,經(jīng)過訓(xùn)練的網(wǎng)絡(luò)就可用于對(duì)象的識(shí)別。目前,神經(jīng)網(wǎng)絡(luò)已有上百種不同的模型,常見的有BP網(wǎng)絡(luò)、徑向基RBF網(wǎng)絡(luò)、Hopfield網(wǎng)絡(luò)、隨機(jī)神經(jīng)網(wǎng)絡(luò)(Boltzmann機(jī))、競(jìng)爭(zhēng)神經(jīng)網(wǎng)絡(luò)(Hamming網(wǎng)絡(luò),自組織映射網(wǎng)絡(luò))等。但是當(dāng)前的神經(jīng)網(wǎng)絡(luò)仍普遍存在收斂速度慢、計(jì)算量大、訓(xùn)練時(shí)間長(zhǎng)和不可解釋等缺點(diǎn)。k-近鄰(kNN,k-NearestNeighbors)算法是一種基于實(shí)例的分類方法。該方法就是找出與未知樣本x距離最近的k個(gè)訓(xùn)練樣本,看這k個(gè)樣本中多數(shù)屬于哪一類,就把x歸為那一類。k-近鄰方法是一種懶惰學(xué)習(xí)方法,它存放樣本,直到需要分類時(shí)才進(jìn)行分類,如果樣本集比較復(fù)雜,可能會(huì)導(dǎo)致很大的計(jì)算開銷,因此無法應(yīng)用到實(shí)時(shí)性很強(qiáng)的場(chǎng)合。支持向量機(jī)(SVM,SupportVectorMachine)是Vapnik根據(jù)統(tǒng)計(jì)學(xué)習(xí)理論提出的一種新的學(xué)習(xí)方法,它的最大特點(diǎn)是根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則,以最大化分類間隔構(gòu)造最優(yōu)分類超平面來提高學(xué)習(xí)機(jī)的泛化能力,較好地解決了非線性、高維數(shù)、局部極小點(diǎn)等問題。對(duì)于分類問題,支持向量機(jī)算法根據(jù)區(qū)域中的樣本計(jì)算該區(qū)域的決策曲面,由此確定該區(qū)域中未知樣本的類別。邏輯回歸是一種利用預(yù)測(cè)變量(數(shù)值型或離散型)來預(yù)測(cè)事件出現(xiàn)概率的模型,主要應(yīng)用于生產(chǎn)欺詐檢測(cè),廣告質(zhì)量估計(jì),以及定位產(chǎn)品預(yù)測(cè)等。(3)關(guān)聯(lián)分析關(guān)聯(lián)分析是一種簡(jiǎn)單、實(shí)用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。關(guān)聯(lián)分析在數(shù)據(jù)挖掘領(lǐng)域也稱為關(guān)聯(lián)規(guī)則挖掘。關(guān)聯(lián)分析是從大量數(shù)據(jù)中發(fā)現(xiàn)項(xiàng)集之間有趣的關(guān)聯(lián)和相關(guān)聯(lián)系。關(guān)聯(lián)分析的一個(gè)典型例子是購物籃分析。該過程通過發(fā)現(xiàn)顧客放人其購物籃中的不同商品之間的聯(lián)系,分析顧客的購買習(xí)慣。通過了解哪些商品頻繁地被顧客同時(shí)購買,這種關(guān)聯(lián)的發(fā)現(xiàn)可以幫助零售商制定營(yíng)銷策略。其他的應(yīng)用還包括價(jià)目表設(shè)計(jì)、商品促銷、商品的排放和基于購買模式的顧客劃分。關(guān)聯(lián)分析的算法主要分為廣度優(yōu)先算法和深度優(yōu)先算法兩大類。應(yīng)用最廣泛的廣度優(yōu)先算法有Apriori,AprioriTid,AprioriHybrid,Partition,Sampling,DIC(DynamicItemsetCounting)等算法。主要的深度優(yōu)先算法有FP-growth,Eclat(EquivalenceCLAssTransformation),H-Mine等算法。Apriori算法是一種廣度優(yōu)先的挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項(xiàng)集的算法,也是最著名的關(guān)聯(lián)規(guī)則挖掘算法之一。FP-growth算法是一種深度優(yōu)先的關(guān)聯(lián)分析算法,于2000年由HanJiawei等人提出,F(xiàn)P-growth算法基于頻繁模式樹(FrequentPatternTree,簡(jiǎn)稱為FP-tree)發(fā)現(xiàn)頻繁模式。(4)深度學(xué)習(xí)深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。深度學(xué)習(xí)的實(shí)質(zhì),是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性。深度學(xué)習(xí)(DL,DeepLearning)的概念由Hinton等人于2006年提出,是一種使用深層神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)模型。深層神經(jīng)網(wǎng)絡(luò)是指包含很多隱層的人工神經(jīng)網(wǎng)絡(luò),它具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類。同機(jī)器學(xué)習(xí)方法一樣,深度機(jī)器學(xué)習(xí)方法也有監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)之分。不同的學(xué)習(xí)框架下建立的學(xué)習(xí)模型很是不同。例如,卷積神經(jīng)網(wǎng)絡(luò)(Convolutionalneuralnetworks,簡(jiǎn)稱CNNs)就是一種深度的監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型,而深度置信網(wǎng)(DeepBeliefNets,簡(jiǎn)稱DBNs)就是一種無監(jiān)督學(xué)習(xí)下的機(jī)器學(xué)習(xí)模型。當(dāng)前深度學(xué)習(xí)被用于計(jì)算機(jī)視覺,語音識(shí)別,自然語言處理等領(lǐng)域,并取得了大量突破性的成果。運(yùn)用深度學(xué)習(xí)技術(shù),我們能夠從大數(shù)據(jù)中發(fā)掘出更多有價(jià)值的信息和知識(shí)。4.2.6數(shù)據(jù)可視化數(shù)據(jù)可視化(DataVisualization)運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)換為圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理。它涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)視覺及人機(jī)交互等多個(gè)技術(shù)領(lǐng)域。數(shù)據(jù)可視化概念首先來自科學(xué)計(jì)算可視化(VisualizationinScientificComputing),科學(xué)家們不僅需要通過圖形圖像來分析由計(jì)算機(jī)算出的數(shù)據(jù),而且需要了解在計(jì)算過程中數(shù)據(jù)的變化。隨著計(jì)算機(jī)技術(shù)的發(fā)展,數(shù)據(jù)可視化概念已大大擴(kuò)展,它不僅包括科學(xué)計(jì)算數(shù)據(jù)的可視化,而且包括工程數(shù)據(jù)和測(cè)量數(shù)據(jù)的可視化。學(xué)術(shù)界常把這種空間數(shù)據(jù)的可視化稱為體視化(VolumeVisualization)技術(shù)。近年來,隨著網(wǎng)絡(luò)技術(shù)和電子商務(wù)的發(fā)展,提出了信息可視化(InformationVisualization)的要求。通過數(shù)據(jù)可視化技術(shù),發(fā)現(xiàn)大量金融、通信和商業(yè)數(shù)據(jù)中隱含的規(guī)律信息,從而為決策提供依據(jù)。這已成為數(shù)據(jù)可視化技術(shù)中新的熱點(diǎn)。清晰而有效地在大數(shù)據(jù)與用戶之間傳遞和溝通信息是數(shù)據(jù)可視化的重要目標(biāo),數(shù)據(jù)可視化技術(shù)將數(shù)據(jù)庫中每一個(gè)數(shù)據(jù)項(xiàng)作為單個(gè)圖元元素表示,大量的數(shù)據(jù)集構(gòu)成數(shù)據(jù)圖像,同時(shí)將數(shù)據(jù)的各個(gè)屬性值以多維數(shù)據(jù)的形式表示,可以從不同的維度觀察數(shù)據(jù),從而對(duì)數(shù)據(jù)進(jìn)行更深入的觀察和分析。數(shù)據(jù)可視化的關(guān)鍵技術(shù)包括:(1)數(shù)據(jù)信息的符號(hào)表達(dá)技術(shù)。除了常規(guī)的文字符號(hào)和幾何圖形符號(hào),各類坐標(biāo)、圖像陣列、圖像動(dòng)畫等符號(hào)技術(shù)都可以用來表達(dá)數(shù)據(jù)信息。特別是多樣符號(hào)的綜合使用,往往能讓用戶獲得不一樣的溝通體驗(yàn)。各數(shù)據(jù)類型具體的符號(hào)表達(dá)技術(shù)形式包括各類報(bào)表、儀表盤、坐標(biāo)曲線、地圖、譜圖、圖像幀等。(2)數(shù)據(jù)渲染技術(shù)。例如各類符號(hào)到屏幕圖形陣列的2D平面渲染技術(shù)、3D立體渲染技術(shù)等。渲染關(guān)鍵技術(shù)還和具體媒介相關(guān),例如手機(jī)等移動(dòng)終端上的渲染技術(shù)等。(3)數(shù)據(jù)交互技術(shù)。除了各類PC設(shè)備和移動(dòng)終端上的鼠標(biāo)、鍵盤與屏幕的交互技術(shù)形式,可能還包括語音、指紋等交互技術(shù)。(4)數(shù)據(jù)表達(dá)模型技術(shù)。數(shù)據(jù)可視化表達(dá)模型描述了數(shù)據(jù)展示給用戶所需要的語言文字和圖形圖像等符號(hào)信息,以及符號(hào)表達(dá)的邏輯信息和數(shù)據(jù)交互方式信息等。其中數(shù)據(jù)矢量從多維信息空間到視覺符號(hào)空間的映射與轉(zhuǎn)換關(guān)系,是表達(dá)模型最重要的內(nèi)容。此外,除了數(shù)據(jù)值的表達(dá)技術(shù),數(shù)據(jù)趨勢(shì)、數(shù)據(jù)對(duì)比、數(shù)據(jù)關(guān)系等表達(dá)技術(shù)都是表達(dá)模型中的重要內(nèi)容。大數(shù)據(jù)可視化與傳統(tǒng)數(shù)據(jù)可視化不同。傳統(tǒng)數(shù)據(jù)可視化技術(shù)和軟件工具(如BI)通常對(duì)數(shù)據(jù)庫或數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行抽取、歸納和組合,通過不同的展現(xiàn)方式提供給用戶,用于發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)信息。而大數(shù)據(jù)時(shí)代的數(shù)據(jù)可視化技術(shù)則需要結(jié)合大數(shù)據(jù)多類型、大體量、高速率、易變化等特征,能夠快速的收集、篩選、分析、歸納、展現(xiàn)決策者所需要的信息,支持交互式可視化分析,并根據(jù)新增的數(shù)據(jù)進(jìn)行實(shí)時(shí)更新。數(shù)據(jù)可視化技術(shù)在當(dāng)前是一個(gè)正在迅速發(fā)展的新興領(lǐng)域,已經(jīng)出現(xiàn)了眾多的數(shù)據(jù)可視化軟件和工具,如Tableau、Datawatch、Platfora、R、D3.js、Processing.js、Gephi、ECharts、大數(shù)據(jù)魔鏡等。許多商業(yè)的大數(shù)據(jù)挖掘和分析軟件也包括了數(shù)據(jù)可視化功能,如IBMSPSS、SASEnterpriseMiner等。4.3大數(shù)據(jù)安全與隱私4.3.1大數(shù)據(jù)時(shí)代面臨的挑戰(zhàn)大數(shù)據(jù)的應(yīng)用會(huì)帶來巨大社會(huì)價(jià)值和商業(yè)利益,受價(jià)值利益驅(qū)動(dòng),大數(shù)據(jù)系統(tǒng)也必然會(huì)面臨大量而且復(fù)雜的風(fēng)險(xiǎn)。舉例來說,如果某一大數(shù)據(jù)系統(tǒng)產(chǎn)生的價(jià)值足以左右公司的發(fā)展,那么它所面臨的風(fēng)險(xiǎn)就可能是一個(gè)公司層面價(jià)值的角力,小至個(gè)人、大至國(guó)家也是如此。大數(shù)據(jù)系統(tǒng)同時(shí)是復(fù)雜的,由傳統(tǒng)的信息存儲(chǔ)檢索變?yōu)閺?fù)雜的信息技術(shù)系統(tǒng),進(jìn)而可能是龐大的社會(huì)工程,由此也帶來了諸多安全及隱私方面的挑戰(zhàn)。大數(shù)據(jù)的安全性已上升到國(guó)家戰(zhàn)略層面。在大數(shù)據(jù)時(shí)代,信息化已完全深入到國(guó)民經(jīng)濟(jì)與國(guó)防建設(shè)的方方面面,從智能家居、智慧城市甚至到智慧地球,個(gè)人、企業(yè)、團(tuán)體等的海量數(shù)據(jù)為國(guó)家建設(shè)和決策提供了宏觀的數(shù)據(jù)依據(jù),大數(shù)據(jù)的安全問題將會(huì)越來越多地對(duì)國(guó)家戰(zhàn)略產(chǎn)生直接或間接的影響。大數(shù)據(jù)的價(jià)值體現(xiàn)是一個(gè)從隱性價(jià)值到顯性價(jià)值的動(dòng)態(tài)過程。有兩個(gè)關(guān)鍵性因素影響大數(shù)據(jù)的價(jià)值體現(xiàn):數(shù)據(jù)“由量變到質(zhì)變”的動(dòng)態(tài)演變以及相關(guān)數(shù)據(jù)處理技術(shù)的不斷升級(jí)。單個(gè)的數(shù)據(jù)記錄對(duì)大數(shù)據(jù)結(jié)果并無太大影響,只有數(shù)據(jù)記錄集合的數(shù)據(jù)量積累到一定程度時(shí),數(shù)據(jù)才有可能“被挖掘”從而體現(xiàn)其價(jià)值。隨著數(shù)據(jù)處理技術(shù)的不斷發(fā)展,當(dāng)今看似“雜亂無序”的數(shù)據(jù),將來會(huì)變成一座“金礦”。現(xiàn)有的信息安全管理體系重點(diǎn)保護(hù)數(shù)據(jù)的顯性價(jià)值,對(duì)數(shù)據(jù)的隱形價(jià)值及動(dòng)態(tài)性管理及防護(hù)不足。大數(shù)據(jù)的信息竊取手段更加隱蔽和多元化。不法分子從大量的公開數(shù)據(jù)中通過數(shù)據(jù)關(guān)聯(lián)手段可以獲取相關(guān)個(gè)體的隱性數(shù)據(jù),從而導(dǎo)致個(gè)人的隱私泄露。通過分析金融交易數(shù)據(jù)、交通運(yùn)輸信息包含軌跡信息,可以得知一個(gè)城市或地區(qū)的經(jīng)濟(jì)活動(dòng)狀態(tài)和趨勢(shì)。大數(shù)據(jù)獨(dú)有的“數(shù)據(jù)污染”問題會(huì)造成嚴(yán)重的社會(huì)資源浪費(fèi)。一些惡意攻擊型的“數(shù)據(jù)污染”會(huì)影響到企業(yè)、團(tuán)體乃至國(guó)家政治及經(jīng)濟(jì)方面的決策,從而導(dǎo)致嚴(yán)重的后果。4.3.2針對(duì)安全和隱私的考慮大數(shù)據(jù)的商業(yè)價(jià)值是毋庸置疑的。通過大數(shù)據(jù)挖掘,企業(yè)所表現(xiàn)出控制力量遠(yuǎn)超以往。數(shù)據(jù)開始成為企業(yè)的核心資產(chǎn),甚至企業(yè)的金礦就蘊(yùn)含在數(shù)據(jù)之中,而數(shù)據(jù)質(zhì)量和數(shù)據(jù)治理正成為企業(yè)掘金的重要手段和工具,是企業(yè)能否把握大數(shù)據(jù)機(jī)遇的重要抓手。然而,數(shù)據(jù)質(zhì)量的提升和數(shù)據(jù)治理的優(yōu)化,又不完全取決于企業(yè)自身的努力。大數(shù)據(jù)商業(yè)價(jià)值在于不斷開發(fā),而大數(shù)據(jù)應(yīng)用作為新業(yè)態(tài)、新模式、新應(yīng)用,痛點(diǎn)和難點(diǎn)不僅在于技術(shù),更重要的是無論是數(shù)據(jù)采集、整理和挖掘,還是數(shù)據(jù)產(chǎn)品的推廣、應(yīng)用,企業(yè)都將面臨法律的天花板,而隱私問題無疑是諸多法律問題中的重要一環(huán)。在互聯(lián)網(wǎng)時(shí)代人們似乎是覺得自己的隱私受到了威脅,而移動(dòng)互聯(lián)網(wǎng)與大數(shù)據(jù)時(shí)代無疑加深了這種威脅。大數(shù)據(jù)時(shí)代,數(shù)據(jù)被奉為一切服務(wù)的起點(diǎn)與終點(diǎn)。人們似乎生活在一個(gè)360度無死角監(jiān)控的環(huán)境里,周邊仿佛有千萬雙眼睛在盯著你,以全景式方式洞察著你,同時(shí)又有從四面八方涌來的信息將你完全淹沒其中。對(duì)于置身其中的用戶而言,一方面渴望大數(shù)據(jù)時(shí)代,給自己帶來更為貼心便捷的服務(wù);另一方面,又時(shí)刻擔(dān)憂著自己的隱私安全遭受侵犯。這種焦慮從前年谷歌眼鏡在發(fā)布過程中屢屢受挫就能體現(xiàn),即使谷歌眼鏡事實(shí)上什么也沒有做,還是無法阻擋人們對(duì)數(shù)據(jù)安全的擔(dān)憂。對(duì)于政府管理部門而言,一方面政府已經(jīng)意識(shí)到數(shù)據(jù)保護(hù)和隱私保護(hù)方面的制度不完善,并開始不斷強(qiáng)調(diào)個(gè)人信息和隱私保護(hù)的重要性,另一方面政府似乎仍然沒有從傳統(tǒng)社會(huì)的治理方式與管控思維中解脫出來,制度上的滯后帶來的不僅是灰色地帶,還有風(fēng)險(xiǎn)。于大數(shù)據(jù)時(shí)代而言,這在本質(zhì)上,就是一場(chǎng)商家與商家之間,用戶與商家之間、政府與商家之間的隱私之戰(zhàn)。對(duì)于商家來說,誰更靠近用戶的隱私,誰就占據(jù)更多的機(jī)會(huì);于用戶而言,保護(hù)隱私,似乎從一開始就是個(gè)偽命題;于政府而言,安全與發(fā)展似乎總是難以抉擇。普林斯頓大學(xué)的計(jì)算機(jī)科學(xué)家阿爾文德?納拉亞南(ArvindNarayanan)稱,只要有合理的商業(yè)動(dòng)機(jī)來推動(dòng)數(shù)據(jù)挖掘的進(jìn)程,任何形式的隱私都是“算法上不可能”(algorithmicallyimpossible)的。我們無法回避這樣的事實(shí),即數(shù)據(jù)絕不是中立的,它很難保持匿名。大數(shù)據(jù)與隱私之間的關(guān)系,如何進(jìn)行平衡,如何把握尺度,這已成為各國(guó)立法、司法和執(zhí)法部門面臨的共同難題,當(dāng)然也是企業(yè)不得不思考的問題。目前歐盟模式和美國(guó)模式是個(gè)人數(shù)據(jù)保護(hù)方面全球最有影響的兩種模式。歐盟模式是由國(guó)家主導(dǎo)的立法模式,國(guó)家通過立法確定個(gè)人數(shù)據(jù)保護(hù)的各項(xiàng)基本原則和具體法律規(guī)定。早在1981年歐盟理事會(huì)通過了《有關(guān)個(gè)人數(shù)據(jù)自動(dòng)化處理的個(gè)人保護(hù)協(xié)定》,1995年歐盟通過了《關(guān)于與個(gè)人數(shù)據(jù)處理相關(guān)的個(gè)人數(shù)據(jù)保護(hù)及此類數(shù)據(jù)自由流動(dòng)的指令》,歐盟后來又制定了一系列個(gè)人數(shù)據(jù)保護(hù)相關(guān)的法律法規(guī)。美國(guó)是行業(yè)自律模式的倡導(dǎo)者,通過行業(yè)內(nèi)部的行為規(guī)則、規(guī)范、標(biāo)準(zhǔn)和行業(yè)協(xié)會(huì)的監(jiān)督,實(shí)現(xiàn)行業(yè)內(nèi)個(gè)人數(shù)據(jù)保護(hù)的自我約束。行業(yè)自律模式是在充分保證個(gè)人數(shù)據(jù)自由流動(dòng)的基礎(chǔ)上保護(hù)個(gè)人數(shù)據(jù),從而保護(hù)行業(yè)利益。我國(guó)對(duì)于個(gè)人數(shù)據(jù)保護(hù)的立法起步較晚,目前還沒有專門的《個(gè)人信息保護(hù)法》。目前國(guó)內(nèi)關(guān)于個(gè)人數(shù)據(jù)相關(guān)的法律法規(guī)主要是2012年后頒布的三部:①2012年全國(guó)人大常委會(huì)發(fā)布的《關(guān)于加強(qiáng)網(wǎng)絡(luò)信息保護(hù)的決定》;②2013年工信部發(fā)布的《信息安全技術(shù)公共及商用服務(wù)信息系統(tǒng)個(gè)人信息保護(hù)指南》(這份標(biāo)準(zhǔn)不具有法律約束力);③2013年工信部發(fā)布的《電信和互聯(lián)網(wǎng)用戶個(gè)人信息保護(hù)規(guī)定》。在立法缺位的情況下,容易出現(xiàn)“守法成本高、違法成本低”的怪相。今年國(guó)家在個(gè)人數(shù)據(jù)保護(hù)立法方面有很多新舉措,國(guó)內(nèi)個(gè)人數(shù)據(jù)保護(hù)的立法在逐步加強(qiáng)。3月15日生效的《網(wǎng)絡(luò)交易管理辦法》進(jìn)一步規(guī)定了網(wǎng)絡(luò)交易中個(gè)人信息保護(hù)的要求。3月15日生效的新《消費(fèi)者權(quán)益保費(fèi)法》授予工商部門對(duì)“侵害消費(fèi)者個(gè)人信息依法得到保護(hù)的權(quán)利”的執(zhí)法權(quán)。10月10日最高人民法院發(fā)布的《關(guān)于審理利用信息網(wǎng)絡(luò)侵害人身權(quán)益民事糾紛案件適用法律若干問題的規(guī)定》明確了用戶個(gè)人信息及隱私被侵犯的訴權(quán)。10月27國(guó)家網(wǎng)信辦表示將出臺(tái)App應(yīng)用程序發(fā)展管理辦法,監(jiān)管移動(dòng)應(yīng)用行業(yè)的各種亂象。11月3日全國(guó)人大常委會(huì)初次審議《中華人民共和國(guó)刑法修正案(九)(草案)》,并向社會(huì)公開征求意見;《草案》包括出售、非法提供公民個(gè)人信息罪的修正案。11月4日工信部發(fā)布《通信短信息服務(wù)管理規(guī)定(征求意見稿)》向社會(huì)公開征求意見。《意見稿》規(guī)定,任何組織或者個(gè)人不得將采用人工收集、在線自動(dòng)收集、數(shù)字任意組合等手段獲得的他人的電話號(hào)碼用于出售、共享和交換,或者向通過上述方式獲得的電話號(hào)碼發(fā)送短信息。從大數(shù)據(jù)關(guān)鍵技術(shù)來看,其數(shù)據(jù)的收集、存儲(chǔ)、處理分析、可視化呈現(xiàn)等環(huán)節(jié)面臨著不同的風(fēng)險(xiǎn)、安全和隱私需求。(1)數(shù)據(jù)收集根據(jù)數(shù)據(jù)來源不同,大體可分為兩類,一是社會(huì)團(tuán)體對(duì)自身數(shù)據(jù)的采集,如企業(yè)自己的生產(chǎn)、運(yùn)營(yíng)等數(shù)據(jù);二是社會(huì)團(tuán)體對(duì)他人數(shù)據(jù)的采集,如本企業(yè)對(duì)其它企業(yè)、社會(huì)公眾、第三方系統(tǒng)等的數(shù)據(jù)采集。對(duì)于前者,企業(yè)擁有正當(dāng)?shù)夭杉?、處置?quán)利,但對(duì)于后者,牽涉到他方甚至多方,數(shù)據(jù)對(duì)企業(yè)存在潛在價(jià)值而進(jìn)行采集的同時(shí),是否會(huì)影響他方的利益應(yīng)在考慮范圍之內(nèi)。尤其在雙方不對(duì)等的情況下,如企業(yè)對(duì)個(gè)人,被采集方應(yīng)保留被告知甚至授權(quán)的權(quán)利,數(shù)據(jù)采集行為應(yīng)該接受社會(huì)公信力量(如政府、行業(yè)協(xié)會(huì)等)的監(jiān)管和公示,以保證被采集方的利益不受侵害,限制企業(yè)不收集、統(tǒng)計(jì)敏感信息以保護(hù)被采集方的隱私信息不受侵犯。同時(shí),數(shù)據(jù)收集過程中,應(yīng)注意對(duì)數(shù)據(jù)來源進(jìn)行甄別和驗(yàn)證,保證數(shù)據(jù)的真實(shí)性和有效性。(2)數(shù)據(jù)存儲(chǔ)已采集并存儲(chǔ)下來的數(shù)據(jù),是真正的價(jià)值所在,也是大數(shù)據(jù)一切行為和價(jià)值的基礎(chǔ)。對(duì)于此,可以參考傳統(tǒng)的信息安全手段,以保證數(shù)據(jù)的可用性、完整性、私密性為其目標(biāo)。當(dāng)前已有的技術(shù)手段可提供相應(yīng)的安全保障,可用性通過冗余設(shè)置,完整性有校驗(yàn)技術(shù);對(duì)于私密性,因大數(shù)據(jù)體量巨大的特性,傳統(tǒng)的加密技術(shù)會(huì)犧牲大量的計(jì)算資源,可行性較差,應(yīng)重點(diǎn)使用訪問控制技術(shù)和安全審計(jì)功能來保障安全。由于大數(shù)據(jù)通常的體量巨大,很難被完全復(fù)制,因此可以通過可行的審計(jì)途徑及時(shí)發(fā)現(xiàn)惡意行為來提高數(shù)據(jù)的安全性。(3)數(shù)據(jù)處理分析處理分析行為直接對(duì)大數(shù)據(jù)執(zhí)行讀寫操作,應(yīng)設(shè)置完備的權(quán)限管理,進(jìn)行明確地授權(quán)后才能完成相應(yīng)操作。具體到大數(shù)據(jù)分析,不同的分析策略會(huì)產(chǎn)生不同的結(jié)果和價(jià)值,通過策略制定、執(zhí)行過程進(jìn)而獲取結(jié)果,策略的有效性直接關(guān)聯(lián)到結(jié)果的可用性,策略制定階段,應(yīng)考慮通過應(yīng)用不同的策略對(duì)結(jié)果進(jìn)行相互驗(yàn)證,以保證分析結(jié)果的正確可用。同時(shí),分析策略制定也是一個(gè)優(yōu)化的過

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論