大數(shù)據(jù)架構(gòu)和模式_第1頁
大數(shù)據(jù)架構(gòu)和模式_第2頁
大數(shù)據(jù)架構(gòu)和模式_第3頁
大數(shù)據(jù)架構(gòu)和模式_第4頁
大數(shù)據(jù)架構(gòu)和模式_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、大數(shù)據(jù)架構(gòu)和模式(一):大數(shù)據(jù)分類和架構(gòu)介紹1.本文中的大數(shù)據(jù)有哪些分類?2.數(shù)據(jù)分類后,如何匹配合適的大數(shù)據(jù)模式?如何將大數(shù)據(jù)分成不同的類別大數(shù)據(jù)問題的分析和解決通常是復雜的。大數(shù)據(jù)的數(shù)量、速度和種類使其難以提取信息和獲得業(yè)務洞察力。以下操作是一個良好的開端:根據(jù)必須處理的數(shù)據(jù)的格式、要應用的分析類型、使用的處理技術(shù)以及目標系統(tǒng)獲取、加載、處理、分析和存儲數(shù)據(jù)所需的數(shù)據(jù)源,對大數(shù)據(jù)問題進行分類。摘要大數(shù)據(jù)可以以多種方式存儲、獲取、處理和分析。每個大數(shù)據(jù)源都有不同的特征,包括數(shù)據(jù)的頻率、量、速度、類型和真實性。在處理和存儲大數(shù)據(jù)時,會涉及到更多的維度,比如治理、安全、策略等。選擇架構(gòu)和構(gòu)建合適

2、的大數(shù)據(jù)解決方案極具挑戰(zhàn)性,因為需要考慮許多因素。這個“大數(shù)據(jù)架構(gòu)和模式”系列提供了一種結(jié)構(gòu)化和基于模式的方法來簡化定義完整大數(shù)據(jù)架構(gòu)的任務。因為評估業(yè)務場景是否存在大數(shù)據(jù)問題非常重要,所以我們提供了一些線索來幫助確定哪些業(yè)務問題適合采用大數(shù)據(jù)解決方案。從大數(shù)據(jù)分類到選擇大數(shù)據(jù)解決方案如果你花時間研究大數(shù)據(jù)解決方案,那么你必須知道這不是一項簡單的任務。本系列將介紹尋找滿足您需求的大數(shù)據(jù)解決方案的主要步驟。我們先介紹一下“大數(shù)據(jù)”這個術(shù)語所描述的數(shù)據(jù)類型。為了簡化各種大數(shù)據(jù)類型的復雜性,我們根據(jù)各種參數(shù)對大數(shù)據(jù)進行分類,并為任何大數(shù)據(jù)解決方案中涉及的所有層和高級組件提供邏輯框架。接下來,我們提出

3、了一種通過定義原子和復合分類模式來對大數(shù)據(jù)業(yè)務問題進行分類的結(jié)構(gòu)。這些模式有助于確定要應用的合適的解決方案模式。我們提供各行各業(yè)的商業(yè)問題樣本。最后,對于每個組件和模式,我們提供具有相關(guān)功能的產(chǎn)品。第1部分將介紹如何對大數(shù)據(jù)進行分類。本系列的后續(xù)文章將介紹以下主題:定義大數(shù)據(jù)解決方案的層和組件的邏輯架構(gòu)了解大數(shù)據(jù)解決方案的原子模型了解大數(shù)據(jù)解決方案的復合(或混合)模型為大數(shù)據(jù)解決方案選擇解決方案模型。確定使用大數(shù)據(jù)解決方案解決業(yè)務問題的可行性選擇合適的產(chǎn)品來實現(xiàn)大數(shù)據(jù)解決方案根據(jù)大數(shù)據(jù)類型對業(yè)務問題進行分類業(yè)務問題可以分為不同類型的大數(shù)據(jù)問題。未來,我們將使用此類型來確定適當?shù)姆诸惸J?原子或

4、復合)和適當?shù)拇髷?shù)據(jù)解決方案。但第一步是將業(yè)務問題映射到其大數(shù)據(jù)類型。下表列出了常見的業(yè)務問題,并為每個問題指定了大數(shù)據(jù)類型。按類型對大數(shù)據(jù)問題進行分類,可以更容易地看到每個數(shù)據(jù)的特征。這些特性可以幫助我們了解如何獲取數(shù)據(jù),以及如何將數(shù)據(jù)處理成合適的格式,以匹配新數(shù)據(jù)的出現(xiàn)頻率。不同來源的數(shù)據(jù)有不同的特點;例如,社交媒體數(shù)據(jù)包含不斷傳入的視頻、圖像和非結(jié)構(gòu)化文本(如博客帖子)。表1。不同類型的大數(shù)據(jù)業(yè)務問題我們根據(jù)這些共同特征來評估數(shù)據(jù),這將在下一節(jié)中詳細描述:容量的格式的數(shù)據(jù)類型(例如,交易數(shù)據(jù)、歷史數(shù)據(jù)或主數(shù)據(jù))將提供數(shù)據(jù)的頻率。意圖:需要如何處理數(shù)據(jù)(例如,數(shù)據(jù)的即席查詢)處理是否必須實

5、時、接近實時或成批執(zhí)行。使用大數(shù)據(jù)類型對大數(shù)據(jù)要素進行分類。從特定方向分析大數(shù)據(jù)的特征會有幫助,比如以下特征:數(shù)據(jù)是如何收集、分析和處理的。對數(shù)據(jù)進行分類后,您可以將其與適當?shù)拇髷?shù)據(jù)模式進行匹配:1.分析類型數(shù)據(jù)的實時分析或批量分析。請仔細考慮分析類型的選擇,因為它會影響其他一些關(guān)于產(chǎn)品、工具、硬件、數(shù)據(jù)源和預期數(shù)據(jù)頻率的決策。一些用例可能需要兩種類型的混合:2.欺詐檢測;分析必須實時或接近實時地完成。3.戰(zhàn)略商業(yè)決策的趨勢分析;批處理模式可用于分析。4.處理方法應用于處理數(shù)據(jù)的技術(shù)類型(如預測、分析、即席查詢和報告)。業(yè)務需求決定了適當?shù)奶幚矸椒?。各種技術(shù)可以結(jié)合使用。處理方法的選擇有助于確

6、定要在您的大數(shù)據(jù)解決方案中使用的適當工具和技術(shù)。5.數(shù)據(jù)頻率和大小預期的數(shù)據(jù)量以及數(shù)據(jù)到達的頻率。了解頻率和大小有助于確定存儲機制、存儲格式和所需的預處理工具。數(shù)據(jù)的頻率和大小取決于數(shù)據(jù)源:按需分析,如社交媒體數(shù)據(jù)實時和連續(xù)供應(天氣數(shù)據(jù)、交易數(shù)據(jù))時間序列(基于時間的數(shù)據(jù))6.數(shù)據(jù)類型-要處理的數(shù)據(jù)類型-交易、歷史、主數(shù)據(jù)等。了解數(shù)據(jù)類型有助于隔離存儲中的數(shù)據(jù)。7.內(nèi)容格式(輸入數(shù)據(jù)的格式)結(jié)構(gòu)化(如RDMBS)、非結(jié)構(gòu)化(如音頻、視頻和圖像)或半結(jié)構(gòu)化。格式?jīng)Q定了需要如何處理傳入的數(shù)據(jù),這是從業(yè)務角度選擇工具和技術(shù)來定義解決方案的關(guān)鍵。8.數(shù)據(jù)源數(shù)據(jù)的來源(生成數(shù)據(jù)的地方),如Web和社交

7、媒體、機器生成、人類生成等。識別所有數(shù)據(jù)源有助于從業(yè)務角度識別數(shù)據(jù)范圍。該圖顯示了最廣泛使用的數(shù)據(jù)源。9.數(shù)據(jù)用戶已處理數(shù)據(jù)的所有可能用戶的列表:業(yè)務流程商業(yè)用戶企業(yè)應用擔任各種業(yè)務角色的人員部分處理流程其他數(shù)據(jù)存儲庫或企業(yè)應用程序10.硬件將在其上實施大數(shù)據(jù)解決方案的硬件類型,包括商用硬件或最先進的硬件。了解硬件的局限性有助于指導大數(shù)據(jù)解決方案的選擇。圖1描繪了用于對大數(shù)據(jù)進行分類的各種類別。定義大數(shù)據(jù)模式的關(guān)鍵類別已經(jīng)確定,并在藍框中突出顯示。大數(shù)據(jù)模式(將在下一篇文章中定義)來自這些類別的組合。圖一。大數(shù)據(jù)分類結(jié)束語和評論。在本系列的其余部分,我們將介紹大數(shù)據(jù)解決方案的邏輯架構(gòu)和層次,從

8、訪問到使用大數(shù)據(jù)。我們將提供完整的數(shù)據(jù)源列表,介紹關(guān)注大數(shù)據(jù)解決方案每個重要方面的原子模式。我們還將介紹復合模式,并解釋如何組合原子模式來解決特定的大數(shù)據(jù)用例。在本系列的最后,將提供一些解決方案模式,以建立廣泛使用的用例與各種產(chǎn)品之間的對應關(guān)系。我感受到了Rakesh R. Shinde在定義這個系列的整體結(jié)構(gòu)時所提供的指導,以便回顧這個系列并提供有價值的評論。大數(shù)據(jù)架構(gòu)和模型(2)如何知道大數(shù)據(jù)解決方案是否適合您的組織1.如何判斷大數(shù)據(jù)問題是否需要大數(shù)據(jù)解決方案?2.如何評價大數(shù)據(jù)解決方案的可行性?3.通過大數(shù)據(jù)技術(shù)可以獲得哪些洞察?4.是不是所有的大數(shù)據(jù)都有大數(shù)據(jù)問題?簡介在決定投資大數(shù)據(jù)

9、解決方案之前,評估可供分析的數(shù)據(jù);通過分析這些數(shù)據(jù)獲得的見解;擁有可用于定義、設(shè)計、創(chuàng)建和部署大數(shù)據(jù)平臺的資源。問正確的問題是一個很好的起點。使用本文中的問題將指導您完成調(diào)查。答案會揭示這些數(shù)據(jù)的更多特征以及你試圖解決的問題。雖然組織對要分析的數(shù)據(jù)類型一般都有一些模糊的認識,但具體細節(jié)很可能并不清楚。畢竟,數(shù)據(jù)可能有以前未發(fā)現(xiàn)的模式的關(guān)鍵,一旦模式被識別,額外分析的需要將變得明顯。為了幫助揭示這些未知的未知信息,我們首先需要實現(xiàn)一些基本的用例。在這個過程中,我們可以收集以前無法獲得的數(shù)據(jù)。在構(gòu)建數(shù)據(jù)存儲庫并收集更多數(shù)據(jù)后,數(shù)據(jù)科學家可以更好地識別關(guān)鍵數(shù)據(jù),并更好地構(gòu)建預測和統(tǒng)計模型,從而獲得更

10、多見解。組織可能已經(jīng)知道它不知道的信息。為了解決這些已知的未知問題,組織必須首先與數(shù)據(jù)科學家合作,以確定外部或第三方數(shù)據(jù)源,并實現(xiàn)一些依賴于這些外部數(shù)據(jù)的用例。首先,本文試圖回答大多數(shù)首席信息官在實施大數(shù)據(jù)計劃之前通常會問的問題。然后,本文將重點介紹一種基于維度的方法,這種方法將有助于評估大數(shù)據(jù)解決方案對組織的可行性。我的大數(shù)據(jù)問題需要大數(shù)據(jù)解決方案嗎?大數(shù)據(jù),曾幾何時,似乎很少見。大多數(shù)組織將選擇逐步實施大數(shù)據(jù)解決方案。并非所有分析和報告需求都需要大數(shù)據(jù)解決方案。對于對大型數(shù)據(jù)集或來自多個數(shù)據(jù)源的臨時報告執(zhí)行并行處理的項目,可能沒有必要使用大數(shù)據(jù)解決方案。隨著大數(shù)據(jù)技術(shù)的出現(xiàn),組織會問自己,

11、“大數(shù)據(jù)是我業(yè)務問題的正確解決方案,還是為我提供了商機?”大數(shù)據(jù)中是否隱藏著商機?以下是我從首席信息官那里聽到的一些典型問題:如果我使用大數(shù)據(jù)技術(shù),我可能會獲得什么樣的洞察力和商業(yè)價值?它能擴展我現(xiàn)有的數(shù)據(jù)倉庫嗎?我如何評估擴展當前環(huán)境或采用新解決方案的成本?對我現(xiàn)有的IT治理有什么影響?我能否逐步實施大數(shù)據(jù)解決方案?我需要掌握哪些具體技能來理解和分析構(gòu)建和維護大數(shù)據(jù)解決方案的需求?我現(xiàn)有的企業(yè)數(shù)據(jù)可以用來提供業(yè)務見解嗎?各種來源的數(shù)據(jù)越來越復雜。大數(shù)據(jù)解決方案對我有幫助嗎?維度可以幫助評估大數(shù)據(jù)解決方案的可行性。為了回答這些問題,本文提出了一種結(jié)構(gòu)化方法,根據(jù)下圖所示的維度來評估大數(shù)據(jù)解決方

12、案的可行性。通過分析數(shù)據(jù)獲得的洞察力帶來的商業(yè)價值新數(shù)據(jù)源和數(shù)據(jù)使用的治理考慮事項具有相關(guān)技能和贊助商承諾的人員捕獲的數(shù)據(jù)量各種數(shù)據(jù)源、數(shù)據(jù)類型和數(shù)據(jù)格式數(shù)據(jù)生成的速度、需要對其執(zhí)行操作的速度或數(shù)據(jù)變化的速度。數(shù)據(jù)的真實性,或數(shù)據(jù)的不確定性和可靠性對于每個維度,我們給出了一些關(guān)鍵問題。根據(jù)業(yè)務環(huán)境,為每個維度分配權(quán)重和優(yōu)先級。評估將因業(yè)務案例和組織而異。您可以考慮在一系列研討會中與相關(guān)的業(yè)務和IT利益相關(guān)者討論這些問題。商業(yè)價值:通過大數(shù)據(jù)技術(shù)可以獲得哪些洞察?許多組織希望知道他們所尋求的業(yè)務洞察力是否可以通過大數(shù)據(jù)解決方案來解決。沒有權(quán)威的指南可以用來定義可以從大數(shù)據(jù)中獲得的洞察力。特定的場

13、景需要由組織來確定,并且這些場景是不斷發(fā)展的。在識別和確定實施后將為企業(yè)帶來巨大價值的業(yè)務用例及場景的過程中,數(shù)據(jù)科學家發(fā)揮著至關(guān)重要的作用。數(shù)據(jù)科學家必須能夠理解關(guān)鍵性能指標,并將統(tǒng)計和復雜算法應用于數(shù)據(jù),以獲得用例列表。使用案例因行業(yè)和業(yè)務而異。研究市場競爭者的行為和起作用的市場力量將有助于發(fā)現(xiàn)顧客在尋找什么。下表給出了各行各業(yè)的用例示例。表1。來自各行各業(yè)的示例用例潛在客戶正在社交網(wǎng)絡(luò)和評論網(wǎng)站上產(chǎn)生大量新數(shù)據(jù)。在企業(yè)中,隨著客戶轉(zhuǎn)向在線渠道開展業(yè)務并與公司進行交互,交易數(shù)據(jù)和Web日志與日俱增。確定數(shù)據(jù)的優(yōu)先級。首先,創(chuàng)建企業(yè)中現(xiàn)有數(shù)據(jù)的列表。識別系統(tǒng)和應用程序中存在的數(shù)據(jù),以便與從第

14、三方導入的數(shù)據(jù)進行比較。如果業(yè)務問題可以通過使用現(xiàn)有數(shù)據(jù)來解決,那么就沒有必要使用外部來源的數(shù)據(jù)。請考慮構(gòu)建大數(shù)據(jù)解決方案的成本,并根據(jù)為業(yè)務部門帶來的新見解權(quán)衡其價值。當在關(guān)于現(xiàn)有客戶的存檔數(shù)據(jù)的上下文中分析這些新數(shù)據(jù)時,業(yè)務人員將洞察新的業(yè)務機會。主要滿足以下條件,大數(shù)據(jù)可以提供可行的解決方案:從數(shù)據(jù)中開發(fā)的洞察所產(chǎn)生的價值值得投資于大數(shù)據(jù)解決方案的資本成本。面向客戶的場景可以證明洞察的潛在價值。在評估通過大數(shù)據(jù)解決方案獲得的商業(yè)價值時,請考慮您當前的環(huán)境是否可擴展,并權(quán)衡此項投資的成本。我當前的環(huán)境可以擴展嗎?詢問以下問題以確定您是否可以擴展您現(xiàn)有的數(shù)據(jù)倉庫平臺?現(xiàn)在的數(shù)據(jù)集是不是很大,

15、達到TB或者PB的量級?現(xiàn)有倉庫環(huán)境是否包含所有生成或獲取的數(shù)據(jù)的存儲庫?是不是有很多冷冰冰的數(shù)據(jù)或者人們很少接觸的數(shù)據(jù)沒有被分析過,而商業(yè)洞察可以通過分析這些數(shù)據(jù)獲得?是否需要因為數(shù)據(jù)無法存儲或處理而丟棄數(shù)據(jù)?您希望能夠?qū)碗s的海量數(shù)據(jù)進行數(shù)據(jù)探索嗎?您希望能夠?qū)Ψ沁\營數(shù)據(jù)執(zhí)行分析嗎?您對使用數(shù)據(jù)執(zhí)行傳統(tǒng)和新型分析感興趣嗎?您是否試圖推遲升級您現(xiàn)有的數(shù)據(jù)倉庫?您是否在尋找降低執(zhí)行分析的總體成本的方法?如果這些問題的答案是肯定的,那么您可以探索擴展現(xiàn)有數(shù)據(jù)倉庫環(huán)境的方法。擴展我當前環(huán)境的成本是多少?擴展現(xiàn)有數(shù)據(jù)倉庫平臺或IT環(huán)境以及實現(xiàn)大數(shù)據(jù)解決方案的成本和可行性取決于:現(xiàn)有的工具和技術(shù)現(xiàn)有系

16、統(tǒng)的可擴展性現(xiàn)有環(huán)境的處理能力現(xiàn)有平臺的存儲容量治理和執(zhí)行戰(zhàn)略現(xiàn)有IT應用程序的異構(gòu)性組織中現(xiàn)有的技術(shù)和業(yè)務技能。它還取決于從新數(shù)據(jù)源收集的數(shù)據(jù)量、業(yè)務用例的復雜性、處理的分析復雜性,以及獲取數(shù)據(jù)和擁有適當技能的人員的成本。現(xiàn)有資源池能否開發(fā)新的大數(shù)據(jù)技能,或者能否從外部聘用技能稀缺的人員?請注意,大數(shù)據(jù)計劃將對其他正在進行的項目產(chǎn)生影響。從新的來源獲取數(shù)據(jù)成本很高。首先你要識別系統(tǒng)和應用部門存在的數(shù)據(jù),以便和目前收到的第三方數(shù)據(jù)進行對比,這一點很重要。如果業(yè)務問題可以通過使用現(xiàn)有數(shù)據(jù)來解決,那么就沒有必要使用外部來源的數(shù)據(jù)。在生成新的工具和應用程序之前,請評估您組織的應用程序組合。比如一個普

17、通的Hadoop平臺可能無法滿足你的需求,你可能要購買專業(yè)的工具。或者相對來說,Hadoop的商業(yè)版對于當前的用例來說可能比較貴,但是可能需要作為長期投資來支撐一個戰(zhàn)略性的大數(shù)據(jù)平臺??紤]大數(shù)據(jù)工具和技術(shù)所需的基礎(chǔ)設(shè)施、硬件、軟件和維護成本。數(shù)據(jù)的治理和控制:對現(xiàn)有IT治理有什么影響?在決定是否實施大數(shù)據(jù)平臺時,組織可能會考慮新的數(shù)據(jù)源和新的數(shù)據(jù)元素類型,但這些信息的當前所有權(quán)尚未明確定義。一些行業(yè)法規(guī)會限制組織可以獲取和使用的數(shù)據(jù)。例如,在醫(yī)療行業(yè),通過訪問患者數(shù)據(jù)來獲得洞察力是否合法?相似的規(guī)則約束著所有的行業(yè)。除了IT治理問題,組織的業(yè)務流程也可能需要重新定義和修改,以使組織能夠獲取、存

18、儲和訪問外部數(shù)據(jù)。請根據(jù)您的情況考慮以下與治理相關(guān)的問題:安全性和隱私為了遵守當?shù)胤ㄒ?guī),該解決方案可以訪問哪些數(shù)據(jù)?可以存儲哪些數(shù)據(jù)?移動時應該加密哪些數(shù)據(jù)?靜態(tài)數(shù)據(jù)呢?誰可以查看原始數(shù)據(jù)和見解?數(shù)據(jù)標準化是否有標準的約束數(shù)據(jù)?數(shù)據(jù)有專門的格式嗎?有些數(shù)據(jù)是非標準格式的嗎?數(shù)據(jù)可用的時間段數(shù)據(jù)是否在允許操作的時間段內(nèi)可用?數(shù)據(jù)所有權(quán)誰擁有數(shù)據(jù)?解決方案是否具有使用數(shù)據(jù)的適當訪問權(quán)限?允許的用途:允許如何使用這些數(shù)據(jù)?我能否逐步實施大數(shù)據(jù)解決方案?大數(shù)據(jù)解決方案可以逐步實施。清楚地定義業(yè)務問題的范圍并以可測量的方式設(shè)置預期的業(yè)務收入增長是有幫助的。對于基本業(yè)務案例,請仔細列出問題的范圍以及解決方

19、案的預期收益。如果范圍太小,就無法實現(xiàn)業(yè)務收入;如果范圍太大,在適當?shù)钠谙迌?nèi)獲得資金和完成項目將是一個挑戰(zhàn)。在項目的第一次迭代中定義核心功能,這樣可以很容易地贏得涉眾的信任。人事:有沒有拿到合適的技能,調(diào)整到合適的人員?理解和分析需求以及維護大數(shù)據(jù)解決方案需要特定的技能。這些技能包括行業(yè)知識、領(lǐng)域?qū)I(yè)知識以及關(guān)于大數(shù)據(jù)工具和技術(shù)的技術(shù)知識。擁有建模、統(tǒng)計、分析和數(shù)學專業(yè)經(jīng)驗的數(shù)據(jù)科學家是任何大數(shù)據(jù)計劃成功的關(guān)鍵。在實施新的大數(shù)據(jù)項目之前,請確保安排了合適的人員:你有股東和其他愿意投資這個項目的商業(yè)贊助者的支持嗎?您是否有熟悉這一領(lǐng)域、能夠分析大量數(shù)據(jù)、能夠識別從數(shù)據(jù)中生成有意義和有用的見解的方

20、法的數(shù)據(jù)科學家?您是否有可用于獲得洞察力的現(xiàn)有數(shù)據(jù)?所有組織都有大量不用于獲取業(yè)務洞察力的數(shù)據(jù)。這些數(shù)據(jù)包括來自應用程序的日志文件、錯誤文件和操作數(shù)據(jù)。不要忽視這些數(shù)據(jù),它是有價值信息的潛在來源。數(shù)據(jù)復雜度是否在增加?尋找數(shù)據(jù)復雜性增長的線索,尤其是在數(shù)據(jù)量、種類、速度和真實性方面。數(shù)據(jù)增加了嗎?如果滿足以下條件,您可能需要考慮大數(shù)據(jù)解決方案:數(shù)據(jù)規(guī)模達到PB和EB級別,在不久的將來,可能會增長到ZB級別。這種數(shù)據(jù)量給使用傳統(tǒng)方法(如關(guān)系數(shù)據(jù)庫引擎)存儲、搜索、共享、分析和可視化數(shù)據(jù)帶來了技術(shù)和經(jīng)濟挑戰(zhàn)。目前,數(shù)據(jù)處理可以在可用的硬件上使用大規(guī)模并行處理能力。數(shù)據(jù)的種類增加了嗎?如果滿足以下條

21、件,各種數(shù)據(jù)都可能需要大數(shù)據(jù)解決方案:數(shù)據(jù)和結(jié)構(gòu)是無法預期或預測的。數(shù)據(jù)格式多種多樣,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。用戶和機器可以生成任何格式的數(shù)據(jù),例如:Microsoft Word文件、Microsoft Excel電子表格、Microsoft PowerPoint演示文稿、PDF文件、社交媒體、網(wǎng)絡(luò)和軟件日志、電子產(chǎn)品、來自相機的照片和視頻、信息感知移動設(shè)備、無線傳感技術(shù)、基因組和醫(yī)療記錄。以前沒有被挖掘以獲得洞察力的數(shù)據(jù)源正在不斷產(chǎn)生新的數(shù)據(jù)類型。Domain在不同的上下文中有不同的含義。數(shù)據(jù)速度提高了還是變了?考慮您的數(shù)據(jù)是否:在快速變化的情況下,你必須立即做出反應。傳統(tǒng)的技術(shù)

22、和方法太多了,已經(jīng)不足以實時處理傳入的數(shù)據(jù)。你的數(shù)據(jù)可信嗎?如果滿足以下條件,請考慮使用大數(shù)據(jù)解決方案:數(shù)據(jù)的真實性或準確性不得而知。數(shù)據(jù)包含不明確的信息。不清楚數(shù)據(jù)是否完整。如果數(shù)據(jù)的數(shù)量、種類、速度或真實性相當復雜,那么就有可能適當?shù)夭捎么髷?shù)據(jù)解決方案。對于更復雜的數(shù)據(jù),需要評估與實施大數(shù)據(jù)解決方案相關(guān)的任何風險。對于不太復雜的數(shù)據(jù),應該評估傳統(tǒng)的解決方案。是不是所有的大數(shù)據(jù)都有大數(shù)據(jù)問題?并非所有大數(shù)據(jù)情況都需要大數(shù)據(jù)解決方案。請在市場中尋找線索。競爭對手在做什么?什么市場力量在起作用?客戶想要什么?使用本文中的問題來幫助確定大數(shù)據(jù)解決方案是否適合您的業(yè)務情況和您需要的業(yè)務洞察力。如果您

23、認為是時候?qū)嵤┐髷?shù)據(jù)項目了,請閱讀下一篇文章,其中將介紹如何定義邏輯架構(gòu)并確定您的大數(shù)據(jù)解決方案所需的關(guān)鍵組件。Divakar和其他來源:DeveloperWorks結(jié)束。大數(shù)據(jù)架構(gòu)和模型(3)了解大數(shù)據(jù)解決方案的架構(gòu)層問題指南1.大數(shù)據(jù)解決方案通常由哪些邏輯層組成?2.這篇文章的大數(shù)據(jù)來源是什么?3.大數(shù)據(jù)治理包括哪些因素?摘要“大數(shù)據(jù)架構(gòu)和模式”系列的第2部分介紹了一種基于維度的方法來評估大數(shù)據(jù)解決方案的可行性。如果您已經(jīng)使用上一篇文章中的問題和提示分析了您的情況,并且您已經(jīng)決定開始構(gòu)建新的(或更新您現(xiàn)有的)大數(shù)據(jù)解決方案,那么下一步就是確定定義您項目的大數(shù)據(jù)解決方案所需的組件。大數(shù)據(jù)解決

24、方案的邏輯層邏輯層提供了一種組織組件的方式。這些層提供了一種組織執(zhí)行特定功能的組件的方法。這些層只是邏輯層;這并不意味著每一層的功能都支持在獨立的機器或獨立的進程上運行。大數(shù)據(jù)解決方案通常由以下邏輯層組成:1.大數(shù)據(jù)源2.數(shù)據(jù)消息和存儲層3.分析層4.使用層大數(shù)據(jù)源:考慮可以用于分析的所有來源的所有數(shù)據(jù)。請組織中的數(shù)據(jù)科學家闡明執(zhí)行所需分析類型所需的數(shù)據(jù)。數(shù)據(jù)的格式和來源不同:格式結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化。速度和數(shù)據(jù)量-數(shù)據(jù)到達的速度和傳輸?shù)乃俾室驍?shù)據(jù)源而異。收集點直接或通過數(shù)據(jù)提供者實時或以批處理模式收集數(shù)據(jù)的位置。數(shù)據(jù)可以來自主要來源,例如天氣狀況,或者輔助來源,例如由媒體贊助的天氣頻道

25、。數(shù)據(jù)源的位置數(shù)據(jù)源可能位于企業(yè)內(nèi)部或外部。確定您有權(quán)訪問的數(shù)據(jù),因為對數(shù)據(jù)的訪問將影響可用于分析的數(shù)據(jù)范圍。數(shù)據(jù)變更和存儲層:這一層負責從數(shù)據(jù)源獲取數(shù)據(jù),并在必要時將其轉(zhuǎn)換為適合數(shù)據(jù)分析的格式。例如,在存儲到Hadoop分布式文件系統(tǒng)(HDFS)存儲或關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)倉庫進行進一步處理之前,可能需要對圖形進行轉(zhuǎn)換。法規(guī)遵從性系統(tǒng)和治理策略要求為不同的數(shù)據(jù)類型提供適當?shù)拇鎯?。分析?分析層讀取數(shù)據(jù)變化,存儲摘要層的數(shù)據(jù)。在某些情況下,分析層直接從數(shù)據(jù)源訪問數(shù)據(jù)。設(shè)計層需要精心策劃,提前規(guī)劃。必須決定如何管理以下任務:生成所需的分析。從數(shù)據(jù)中獲得洞察力查找所需的實體。找到可以為這

26、些實體提供數(shù)據(jù)的數(shù)據(jù)源。了解執(zhí)行分析需要哪些算法和工具。使用層:該層使用分析層提供的輸出。消費者可以是可視化應用程序、人、業(yè)務流程或服務??梢暬瘓D層的結(jié)果可能具有挑戰(zhàn)性。有時候,看看相似市場中的競爭對手是如何做的會有所幫助。每一層都包含各種組件類型,這將在下面描述。圖一。邏輯層和垂直層的組件圖中顯示了邏輯層和垂直層的組件。大數(shù)據(jù)源這一層包含所有必要的數(shù)據(jù)源,并提供解決業(yè)務問題所需的洞察力。它是結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并且有許多來源:1.企業(yè)遺留系統(tǒng)這些系統(tǒng)是企業(yè)應用程序,它們執(zhí)行業(yè)務需求分析并獲得所需的洞察力:crm系統(tǒng)結(jié)算操作大型機應用程序企業(yè)資源計劃Web應用程序開發(fā)Web應用程序

27、和其他數(shù)據(jù)源擴展了企業(yè)擁有的數(shù)據(jù)。這些應用程序可以使用自定義協(xié)議和機制來公開數(shù)據(jù)。2.數(shù)據(jù)管理系統(tǒng)(DMS)數(shù)據(jù)管理系統(tǒng)存儲邏輯數(shù)據(jù)、流程、策略和各種其他類型的文檔:Microsoft Excel電子表格Microsoft Word文檔這些文檔可以轉(zhuǎn)換成用于分析的結(jié)構(gòu)化數(shù)據(jù)。文檔可以作為域?qū)嶓w公開,或者數(shù)據(jù)修改和存儲層可以將其轉(zhuǎn)換為域?qū)嶓w。3.數(shù)據(jù)存儲數(shù)據(jù)存儲包括企業(yè)數(shù)據(jù)倉庫、運營數(shù)據(jù)庫和交易數(shù)據(jù)庫。這些數(shù)據(jù)通常是結(jié)構(gòu)化數(shù)據(jù),可以直接使用或根據(jù)需要輕松轉(zhuǎn)換。這些數(shù)據(jù)不一定存儲在分布式文件系統(tǒng)中,而是取決于上下文。4.智能設(shè)備智能設(shè)備可以用最廣泛使用的協(xié)議和格式來捕獲、處理和傳輸信息。這方面的例

28、子包括智能、儀器和醫(yī)療設(shè)備。這些設(shè)備可用于進行各種類型的分析。大多數(shù)智能設(shè)備執(zhí)行實時分析,但來自智能設(shè)備的信息也可以批量分析。5.聚合數(shù)據(jù)提供者這些提供者擁有或獲取數(shù)據(jù),并通過特定的過濾器以復雜的格式和所需的頻率公開數(shù)據(jù)。每天都會產(chǎn)生海量的數(shù)據(jù),這些數(shù)據(jù)有不同的格式,以不同的速度產(chǎn)生,由各種數(shù)據(jù)提供商、傳感器和現(xiàn)有企業(yè)提供。其他數(shù)據(jù)源有許多來自自動化來源的數(shù)據(jù):地理信息:地圖區(qū)域詳細信息位置詳細信息我的詳細信息生成的人員能力:社會化媒體電子博客在線信息傳感器數(shù)據(jù):環(huán)境:天氣、降雨、濕度、光線電:電流、勢能等。導航設(shè)備電離輻射、亞原子粒子等接近、存在等。位置、角度、位移、距離、速度、加速度聲音、

29、聲振動等。汽車、交通等。熱度,熱度,溫度光學、光、成像、可見度化學壓流量、液體、速度力、密度水平等。來自傳感器供應商的其他數(shù)據(jù)數(shù)據(jù)變更和存儲層由于傳入數(shù)據(jù)可能具有不同的特征,因此數(shù)據(jù)變更和存儲層中的組件必須能夠讀取各種頻率、格式、大小和各種通信信道上的數(shù)據(jù):獲取數(shù)據(jù)從各種數(shù)據(jù)源獲取數(shù)據(jù),并將其發(fā)送到數(shù)據(jù)整理組件或存儲在指定位置。該組件必須足夠智能,能夠選擇是否存儲傳入數(shù)據(jù)以及存儲在哪里。它必須能夠確定數(shù)據(jù)是否應該在存儲之前進行更改,或者數(shù)據(jù)是否可以直接發(fā)送到業(yè)務分析層。數(shù)據(jù)整理負責將數(shù)據(jù)修改成所需的格式,以便進行分析。該組件可以使用簡單的轉(zhuǎn)換邏輯或復雜的統(tǒng)計算法來轉(zhuǎn)換源數(shù)據(jù)。分析引擎將確定所需

30、的特定數(shù)據(jù)格式。主要挑戰(zhàn)是適應非結(jié)構(gòu)化數(shù)據(jù)格式,如圖像、音頻、視頻和其他二進制格式。分布式數(shù)據(jù)存儲負責存儲來自數(shù)據(jù)源的數(shù)據(jù)。通常,這一層有幾種數(shù)據(jù)存儲選項,如分布式文件存儲(DFS)、云、結(jié)構(gòu)化數(shù)據(jù)源、NoSQL等。分析層這是從數(shù)據(jù)中提取業(yè)務洞察力的一層:分析層實體標識-負責標識和填充上下文實體。這是一項復雜的任務,需要高效和高性能的流程。數(shù)據(jù)排序組件應補充實體標識組件,并將數(shù)據(jù)修改為所需的格式。分析引擎將需要上下文實體來執(zhí)行分析。分析引擎-使用其他組件(具體來說,包括實體識別、模型管理和分析算法)來處理和執(zhí)行分析。分析引擎可以具有支持并行處理的各種工作流、算法和工具。模型管理負責維護各種統(tǒng)計

31、模型,并對這些模型進行驗證和測試,通過對模型的不斷訓練來提高精度。然后,模型管理組件將提升這些模型,實體識別或分析引擎組件可以使用這些模型。使用層這一層使用從分析應用程序中獲得的業(yè)務洞察力。組織的各種用戶和組織外的實體(如客戶、供應商、合作伙伴和提供商)使用分析的結(jié)果。這種洞察力可用于向客戶提供產(chǎn)品營銷信息。例如,通過從分析中獲得的洞察力,公司可以使用客戶偏好數(shù)據(jù)和位置感知,在客戶通過渠道或商店時向他們提供個性化的營銷信息。這種洞察力可用于檢測欺詐,實時攔截交易,并將它們與使用企業(yè)中已存儲的數(shù)據(jù)構(gòu)建的視圖相關(guān)聯(lián)。當欺詐交易發(fā)生時,可以通知客戶可能的欺詐,以便同時采取糾正措施。此外,還可以根據(jù)數(shù)

32、據(jù)變更層完成的分析觸發(fā)業(yè)務流程??梢詥幼詣踊襟E,例如,如果客戶接受可以自動觸發(fā)的營銷消息,則需要創(chuàng)建新訂單,如果客戶報告欺詐,則可以觸發(fā)阻止信用卡使用。分析的輸出還可以被推薦引擎使用,推薦引擎可以為客戶匹配他們喜歡的產(chǎn)品。推薦引擎分析可用信息,并提供個性化的實時推薦。使用層還為用戶提供了理解、查找和導航企業(yè)外部的鏈信息的能力。對于部門用戶,為業(yè)務用戶構(gòu)建報告和儀表板的能力使利益相關(guān)者能夠做出明智的決策和設(shè)計適當?shù)牟呗?。為了提高運營效率,可以根據(jù)數(shù)據(jù)生成實時業(yè)務警告,并監(jiān)控運營關(guān)鍵績效指標:事務攔截器(transaction Interceptor)該組件可以實時攔截高容量的事務,并將其轉(zhuǎn)換

33、為分析層易于理解的實時格式,以便對傳入的數(shù)據(jù)進行實時分析。Transaction interceptor應該能夠集成和處理來自各種來源的數(shù)據(jù),例如傳感器、智能儀表、麥克風、攝像頭、GPS設(shè)備、ATM和圖像掃描儀。您可以使用各種類型的適配器和API來連接數(shù)據(jù)源。各種加速器也可以用來簡化開發(fā),例如實時優(yōu)化和流分析、視頻分析、銀行、保險、零售、電信和公共交通中的加速器、社交媒體分析和情感分析。流程管理流程業(yè)務流程執(zhí)行語言(BPEL)流程、API或其他業(yè)務流程可以使用來自分析層的見解,通過自動化上游和下游IT應用程序、人員和流程的功能來進一步獲得業(yè)務價值。實時監(jiān)控您可以使用分析得出的數(shù)據(jù)生成實時警告。

34、警報可以發(fā)送給感興趣的用戶和設(shè)備,如智能電腦和平板電腦。從分析組件生成的數(shù)據(jù)洞察可用于定義和監(jiān)控關(guān)鍵性能指標,以確定運營有效性。實時數(shù)據(jù)可以以儀表板的形式從各種來源披露給業(yè)務用戶,以便監(jiān)控系統(tǒng)的健康狀況或衡量營銷活動的有效性。報告引擎生成類似于傳統(tǒng)商業(yè)智能報告的報告的能力至關(guān)重要。用戶可以根據(jù)從分析層獲得的信息創(chuàng)建臨時報告、計劃報告或自助查詢和分析。推薦引擎基于來自分析層的分析結(jié)果,推薦引擎可以向購物者提供實時、相關(guān)和個性化的推薦,并提高電子商務交易中的轉(zhuǎn)化率和每筆訂單的平均值。該引擎實時處理可用信息并動態(tài)響應每個用戶,根據(jù)用戶的實時活動響應存儲在CRM系統(tǒng)中的注冊客戶信息,從而與非注冊客戶建

35、立社交簡檔??梢暬l(fā)現(xiàn)數(shù)據(jù)可以在企業(yè)外部的各種聯(lián)邦數(shù)據(jù)源中導航。數(shù)據(jù)可能有不同的內(nèi)容和格式,所有的數(shù)據(jù)(結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化)都可以組合起來可視化提供給用戶。這種功能使組織能夠?qū)⑵鋫鹘y(tǒng)的企業(yè)內(nèi)容(包括在企業(yè)內(nèi)容管理系統(tǒng)和數(shù)據(jù)倉庫中)與新的社交內(nèi)容(如tweet和博客帖子)結(jié)合到單個用戶界面中。垂直層影響邏輯層(大數(shù)據(jù)源、數(shù)據(jù)變更和存儲、分析和使用層)的所有組件的所有方面都包含在垂直層中:信息集成大數(shù)據(jù)治理系統(tǒng)管理服務質(zhì)量信息集成大數(shù)據(jù)應用從各種數(shù)據(jù)源、提供商和數(shù)據(jù)源獲取數(shù)據(jù),并將其存儲在HDFS、NoSQL和MongoDB等數(shù)據(jù)存儲系統(tǒng)中。這個垂直層可以被各種組件(如數(shù)據(jù)采集、數(shù)據(jù)整理、

36、模型管理和事務攔截器)使用,并負責連接各種數(shù)據(jù)源。集成來自具有不同特征(如協(xié)議和連接性)的數(shù)據(jù)源的信息需要高質(zhì)量的連接器和適配器。您可以使用加速器連接到大多數(shù)已知和廣泛使用的資源。這些加速器包括社交媒體適配器和天氣數(shù)據(jù)適配器。各種組件也可以使用該層在大數(shù)據(jù)存儲中存儲信息,并從大數(shù)據(jù)存儲中檢索信息,以便處理這些信息。大多數(shù)大數(shù)據(jù)存儲提供服務和API來存儲和檢索這些信息。大數(shù)據(jù)治理數(shù)據(jù)治理包括定義指導方針,以幫助企業(yè)做出正確的數(shù)據(jù)決策。大數(shù)據(jù)治理有助于處理來自企業(yè)或外部來源的數(shù)據(jù)的復雜性、數(shù)量和多樣性。當數(shù)據(jù)進入企業(yè)進行處理、存儲、分析和清理或歸檔時,需要強有力的指導原則和流程來監(jiān)控、構(gòu)建、存儲和

37、保護數(shù)據(jù)。除了常規(guī)的數(shù)據(jù)治理考慮事項,大數(shù)據(jù)治理還包含其他因素:1.管理各種格式的大量數(shù)據(jù)。2.持續(xù)培訓和管理必要的統(tǒng)計模型,以便預處理非結(jié)構(gòu)化數(shù)據(jù)和分析。記住,在處理非結(jié)構(gòu)化數(shù)據(jù)時,設(shè)置一個重要的步驟。3.為外部數(shù)據(jù)的保留和使用建立策略和法規(guī)遵從性系統(tǒng)。4.定義數(shù)據(jù)歸檔和清理策略。5.創(chuàng)建關(guān)于如何跨不同系統(tǒng)復制數(shù)據(jù)的策略。6.設(shè)置數(shù)據(jù)加密策略。服務質(zhì)量層這一層定義了數(shù)據(jù)質(zhì)量、隱私和安全政策、數(shù)據(jù)頻率、每次抓取的數(shù)據(jù)大小以及數(shù)據(jù)過濾器:數(shù)據(jù)質(zhì)量1.完全識別所有必要的數(shù)據(jù)元素。2.以可接受的新鮮度提供數(shù)據(jù)的時間線。3.根據(jù)數(shù)據(jù)準確性規(guī)則驗證數(shù)據(jù)的準確性。4.采用通用語言(數(shù)據(jù)元組滿足簡單業(yè)務語言

38、表達的需求)5.根據(jù)數(shù)據(jù)一致性規(guī)則驗證來自多個系統(tǒng)的數(shù)據(jù)一致性。6.基于數(shù)據(jù)法規(guī)和信息架構(gòu)指南的技術(shù)合規(guī)性。隱私和安全策略需要策略來保護敏感數(shù)據(jù)。從外部機構(gòu)和提供商獲得的數(shù)據(jù)可能包含敏感數(shù)據(jù)(如臉書用戶的聯(lián)系信息或產(chǎn)品定價信息)。數(shù)據(jù)可以來自不同的地區(qū)和國家,但必須進行相應的處理。必須做出關(guān)于數(shù)據(jù)屏蔽和此類數(shù)據(jù)存儲的決定??紤]以下數(shù)據(jù)訪問策略:一、數(shù)據(jù)可用性b、數(shù)據(jù)關(guān)鍵性c、數(shù)據(jù)真實性d、數(shù)據(jù)共享和發(fā)布E.數(shù)據(jù)存儲和保留,包括外部數(shù)據(jù)是否可以存儲。如果數(shù)據(jù)可以存儲,可以存儲多久?可以存儲什么類型的數(shù)據(jù)?F.數(shù)據(jù)提供者的限制(政策、技術(shù)和區(qū)域)G.社交媒體的使用條款數(shù)據(jù)頻率提供新鮮數(shù)據(jù)的頻率是多

39、少?是按需、持續(xù)還是離線?捕獲數(shù)據(jù)的大小。該屬性有助于定義可以捕獲的數(shù)據(jù)以及每次捕獲后可以使用的數(shù)據(jù)大小。過濾器過濾器將刪除數(shù)據(jù)中不需要的數(shù)據(jù)和干擾數(shù)據(jù),只留下分析所需的數(shù)據(jù)。系統(tǒng)管理系統(tǒng)管理對于大數(shù)據(jù)至關(guān)重要,因為它涉及跨企業(yè)集群和邊界的許多系統(tǒng)。監(jiān)控整個大數(shù)據(jù)生態(tài)系統(tǒng)的運行狀況包括:A.管理系統(tǒng)日志、虛擬機、應用程序和其他設(shè)備。B.關(guān)聯(lián)各種日志以幫助調(diào)查和監(jiān)控特定情況。c、監(jiān)控實時預警和通知D.使用顯示各種參數(shù)的實時儀表板。E.引用相關(guān)系統(tǒng)的報告和詳細分析。F.制定并遵守服務水平協(xié)議g、管理存儲和容量g、歸檔和管理檔案檢索執(zhí)行系統(tǒng)恢復、集群管理和網(wǎng)絡(luò)管理。J.戰(zhàn)略管理結(jié)束語對于開發(fā)人員來說

40、,該層提供了一種對大數(shù)據(jù)解決方案必須執(zhí)行的功能進行分類的方法,并為組織執(zhí)行這些功能提供了必要的代碼。然而,對于希望從大數(shù)據(jù)中獲得洞察力的業(yè)務用戶來說,考慮大數(shù)據(jù)的要求和范圍通常是有幫助的。原子模式解決了大數(shù)據(jù)的訪問、處理、存儲和使用機制,為業(yè)務用戶提供了解決需求和要求的途徑。下一篇文章將介紹用于此目的的原子模式。Divakar和其他來源:DeveloperWorks結(jié)束。大數(shù)據(jù)架構(gòu)和模式(四)大數(shù)據(jù)解決方案的原子和復合模式1.原子模式大數(shù)據(jù)解決方案有什么特點?2.原子模式下的樣本模式有哪些?3.復合模型的特點是什么?簡介本系列的第3部分介紹了大數(shù)據(jù)解決方案的邏輯層。這些層定義并分類各種組件,這

41、些組件必須處理給定業(yè)務用例的功能性和非功能性需求。基于層和組件的概念,本文介紹了解決方案中使用的典型原子模式和復合模式。通過將建議的解決方案映射到這里提供的模式,用戶可以知道如何設(shè)計組件,以及從功能的角度將它們放在哪里。模式有助于定義大數(shù)據(jù)解決方案的架構(gòu)。使用原子模式和復合模式有助于進一步完善大數(shù)據(jù)解決方案各組件的角色和職責。本文介紹了原子模式和復合模式。本系列的最后一篇文章將介紹解決方案模式。圖一。模式的類別該圖顯示了以下模式:原子模式、復合模式和解決方案模式。原子模式對于大數(shù)據(jù)環(huán)境中經(jīng)常出現(xiàn)的問題,原子模式有助于確定數(shù)據(jù)是如何被使用、處理、存儲和訪問的。它們還有助于確定所需的組件。需要不同

42、的方法來訪問、存儲和處理來自不同數(shù)據(jù)源的各種數(shù)據(jù)。每種模式都用于滿足特定需求:例如,可視化、歷史數(shù)據(jù)分析、社交媒體數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲。多種原子模式可以組合形成復合模式。這些原子模式?jīng)]有分層或排序。例如,可視化模式可以直接與社交媒體的數(shù)據(jù)訪問模式進行交互,可視化模式也可以與高級分析處理模式進行交互。圖二。數(shù)據(jù)使用、處理、數(shù)據(jù)訪問和存儲的原子模式的例子該圖顯示了每個原子模式中的樣本模式列表。使用模式這種類型的模式處理使用各種方式的數(shù)據(jù)分析結(jié)果。本節(jié)中包含的數(shù)據(jù)使用模式可以滿足幾個要求??梢暬J綌?shù)據(jù)可視化的傳統(tǒng)方式是基于圖表、儀表板和摘要報告。這些傳統(tǒng)方法并不總是可視化數(shù)據(jù)的最佳方式。大數(shù)據(jù)

43、可視化的典型要求(包括新興要求)如下:1.執(zhí)行流數(shù)據(jù)的實時分析和顯示。2.基于上下文的交互式數(shù)據(jù)挖掘。3.執(zhí)行高級搜索并獲取建議。4.信息的并行可視化5.獲得先進的硬件來支持未來的可視化需求。正在進行研究以確定人類和機器如何使用大數(shù)據(jù)洞察力。這些挑戰(zhàn)包括涉及的數(shù)據(jù)量,以及將數(shù)據(jù)與上下文相關(guān)聯(lián)的需要。見解必須在適當?shù)谋尘跋抡故?。?shù)據(jù)可視化的目的是更容易和更直觀地使用數(shù)據(jù),因此報告和儀表板可以提供全高清觀看效果和3d交互式視頻,并可以為用戶提供通過使用應用程序來控制業(yè)務活動和結(jié)果的能力。臨時發(fā)現(xiàn)模式創(chuàng)建滿足所有業(yè)務需求的標準報表往往是不可行的,因為企業(yè)的業(yè)務數(shù)據(jù)查詢會有不同的需求。當用戶查找特定信

44、息時,他們可能需要根據(jù)問題的上下文執(zhí)行特定查詢的能力。即席分析可以幫助數(shù)據(jù)科學家和關(guān)鍵業(yè)務用戶了解業(yè)務數(shù)據(jù)的行為。即興處理的復雜性來自許多因素:1.在同一個域中可以使用多個數(shù)據(jù)源。2.一個查詢可以有多個結(jié)果。3.輸出可以是靜態(tài)的,有多種格式(視頻、音頻、圖形和文本)。4.輸出可以是動態(tài)的和交互式的。加強傳統(tǒng)數(shù)據(jù)存儲在大數(shù)據(jù)的初步探索中,很多企業(yè)選擇利用現(xiàn)有的分析平臺來降低成本,依靠現(xiàn)有的技能。加強現(xiàn)有數(shù)據(jù)存儲有助于擴大現(xiàn)有分析可用的數(shù)據(jù)范圍,包括駐留在組織邊界之外的數(shù)據(jù),如社交媒體數(shù)據(jù),這些數(shù)據(jù)可以豐富主數(shù)據(jù)。通過擴大數(shù)據(jù)范圍以包括現(xiàn)有存儲中的新事實表、維度和主數(shù)據(jù),并從社交媒體獲取客戶數(shù)據(jù),

45、組織可以獲得更深入的客戶洞察。但是請記住,新的數(shù)據(jù)集通常很大,現(xiàn)有的提取、轉(zhuǎn)換和加載工具可能不足以處理它。您可能需要使用具有大規(guī)模并行處理能力的高級工具來解決數(shù)據(jù)量、多樣性、真實性和速度特性。通知模式大數(shù)據(jù)洞察使人、企業(yè)和機器能夠通過使用事件通知立即采取行動。通知平臺必須能夠及時處理預期數(shù)量的通知。這些通知不同于群發(fā)或群發(fā)短信,因為內(nèi)容通常是特定于用戶的。例如,推薦引擎可以提供對全球大量客戶群的洞察,并可以向這些客戶發(fā)送通知。啟動自動響應模式。從大數(shù)據(jù)中獲得的業(yè)務洞察力可用于觸發(fā)或啟動其他業(yè)務流程或交易。處理模式無論數(shù)據(jù)是靜止的還是運動的,都可以處理大數(shù)據(jù)。根據(jù)分析的復雜程度,可能不需要實時處

46、理數(shù)據(jù)。這種模式解決了大數(shù)據(jù)實時、近實時或批量處理的問題。以下高級大數(shù)據(jù)處理類別適用于大多數(shù)分析。這些類別通常也適用于基于RDBMS的傳統(tǒng)系統(tǒng)。唯一不同的是巨大的數(shù)據(jù)規(guī)模、多樣性和速度。在處理大數(shù)據(jù)時,要使用機器學習、復雜事件處理、事件流處理、決策管理、統(tǒng)計模型管理等技術(shù)。歷史數(shù)據(jù)分析模式傳統(tǒng)的歷史數(shù)據(jù)分析僅限于預定義的數(shù)據(jù)時間段,這通常取決于數(shù)據(jù)保留策略。由于處理和存儲的限制,超過此時間段的數(shù)據(jù)通常會被存檔或清除?;贖adoop的系統(tǒng)和其他等效系統(tǒng)可以克服這些限制,因為它們具有豐富的存儲和分布式大規(guī)模并行處理能力。來自運營、業(yè)務和數(shù)據(jù)倉庫的數(shù)據(jù)被移動到大數(shù)據(jù)存儲,你通過使用大數(shù)據(jù)平臺功能來

47、處理它們。歷史分析包括分析給定時間段、季節(jié)組合和產(chǎn)品的歷史趨勢,并將其與最新可用數(shù)據(jù)進行比較。為了能夠存儲和處理如此龐大的數(shù)據(jù),您可以使用HDFS、NoSQL、SPSS和InfoSphere BigInsights。高級分析模式大數(shù)據(jù)為創(chuàng)造性的洞察力提供了許多機會。的不同數(shù)據(jù)集可以在各種上下文中相關(guān)聯(lián)。發(fā)現(xiàn)這些關(guān)系需要創(chuàng)新和復雜的算法和技術(shù)。高級分析包括預測、決策、推理過程、模擬、上下文信息識別和實體分析。高級分析的應用包括生物特征數(shù)據(jù)分析(例如,DNA分析)、空間分析、基于位置的分析、科學分析、研究等。高級分析需要大量計算來管理大量數(shù)據(jù)。數(shù)據(jù)科學家可以指導您確定適當?shù)募夹g(shù)、算法和數(shù)據(jù)集,以匹

48、配在給定背景下解決問題所需的數(shù)據(jù)源。SPSS、InfoSphere Streams和infospherebigfinsights等工具提供了這樣的功能。這些工具訪問存儲在大數(shù)據(jù)存儲系統(tǒng)(如BigTable、HBase等)中的非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)(如JSON數(shù)據(jù))。).預處理原始數(shù)據(jù)模式大數(shù)據(jù)解決方案主要由基于MapReduce的Hadoop系統(tǒng)和技術(shù)組成,MapReduce是一種開箱即用的分布式存儲和處理解決方案。然而,從非結(jié)構(gòu)化數(shù)據(jù)(例如,圖像、音頻、視頻、二進制饋送甚至文本)中提取數(shù)據(jù)是一項復雜的任務,它需要機器學習的能力和掌握自然語言處理等技術(shù)。另一個主要挑戰(zhàn)是如何驗證這些技術(shù)和算法

49、輸出的準確性和正確性。要對任何數(shù)據(jù)執(zhí)行分析,數(shù)據(jù)必須采用某種結(jié)構(gòu)化格式。從多個數(shù)據(jù)源訪問的非結(jié)構(gòu)化數(shù)據(jù)可以按原樣存儲,然后轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)(如JSON)再次存儲在大數(shù)據(jù)存儲系統(tǒng)中。非結(jié)構(gòu)化文本可以轉(zhuǎn)換成半結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)。同樣,圖像、音頻和視頻數(shù)據(jù)需要轉(zhuǎn)換成可用于分析的格式。此外,使用預測和統(tǒng)計算法的高級分析的準確性和正確性取決于用于訓練其模型的數(shù)據(jù)量和算法。以下列表顯示了將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)所需的算法和活動:1.文件和文本的分類2.特征抽出3.圖像和文本分割4.關(guān)聯(lián)特征、變量和時間,然后提取包括時間在內(nèi)的值。5.通過使用混淆矩陣和其他手動活動來檢查輸出的準確性。數(shù)據(jù)科學家可以幫助

50、用戶選擇合適的技術(shù)和算法。即席分析模式大數(shù)據(jù)的即席查詢帶來的挑戰(zhàn)不同于結(jié)構(gòu)化數(shù)據(jù)的即席查詢所面臨的挑戰(zhàn)。因為數(shù)據(jù)源和數(shù)據(jù)格式不是固定的,所以需要不同的機制來檢索和處理數(shù)據(jù)。雖然大數(shù)據(jù)提供商可以處理簡單的即席查詢,但在大多數(shù)情況下,查詢是復雜的,因為數(shù)據(jù)、算法、格式和實體解析必須在運行時動態(tài)發(fā)現(xiàn)。因此,有必要利用數(shù)據(jù)科學家和業(yè)務用戶的專業(yè)知識來定義以下任務所需的分析:1.識別和發(fā)現(xiàn)計算和算法。2.識別和發(fā)現(xiàn)數(shù)據(jù)源。3.定義計算可以使用的所需格式。4.對數(shù)據(jù)執(zhí)行并行計算。存取方式在大數(shù)據(jù)解決方案中,有許多數(shù)據(jù)源和許多訪問數(shù)據(jù)的方式。本節(jié)將介紹最常見的幾種。和網(wǎng)絡(luò)社交媒體訪問模式?;ヂ?lián)網(wǎng)是一個數(shù)據(jù)源

51、,提供了許多現(xiàn)有的見解。幾乎所有分析都使用網(wǎng)絡(luò)和社交媒體,但需要不同的訪問機制來獲取這些數(shù)據(jù)。在所有數(shù)據(jù)源中,網(wǎng)絡(luò)和社交媒體因其多樣性、速度和數(shù)量而最為復雜。大概有40-50個類別,每個類別需要使用不同的方式訪問數(shù)據(jù)。本節(jié)將列出這些類別,并介紹一些訪問機制。從大數(shù)據(jù)的角度來看,高級的類別是商業(yè)網(wǎng)站和社交媒體網(wǎng)站,它們不同于那些具有特定和常見組件的網(wǎng)站。相關(guān)的訪問機制如圖3所示。如果需要,在預處理之后,被訪問的數(shù)據(jù)可以被存儲在數(shù)據(jù)存儲中。圖3。網(wǎng)絡(luò)和社交媒體訪問圖中顯示了Web和社交媒體數(shù)據(jù)訪問。訪問網(wǎng)絡(luò)媒體信息需要以下步驟。圖4。大數(shù)據(jù)訪問步驟非結(jié)構(gòu)化數(shù)據(jù)存儲中的Web媒體訪問邁步A-1。爬蟲

52、讀取原始數(shù)據(jù)。步驟A-2。數(shù)據(jù)存儲在非結(jié)構(gòu)化存儲中。Web access為結(jié)構(gòu)化存儲預處理數(shù)據(jù)。步驟B-1。爬蟲讀取原始數(shù)據(jù)。B-2。預處理數(shù)據(jù)。步驟B-3。數(shù)據(jù)存儲在結(jié)構(gòu)化存儲器中。媒體訪問預處理非結(jié)構(gòu)化數(shù)據(jù)步驟C-1。在極少數(shù)情況下,來自供應商的數(shù)據(jù)可能是非結(jié)構(gòu)化數(shù)據(jù)。C2。預處理數(shù)據(jù)。步驟C-3。數(shù)據(jù)存儲在結(jié)構(gòu)化存儲器中。對非結(jié)構(gòu)化或結(jié)構(gòu)化數(shù)據(jù)的Web媒體訪問步驟D-1。數(shù)據(jù)提供者提供結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。步驟D-2。數(shù)據(jù)存儲在結(jié)構(gòu)化或非結(jié)構(gòu)化存儲中。媒體訪問預處理非結(jié)構(gòu)化數(shù)據(jù)邁步E-1。存儲時未經(jīng)預處理的非結(jié)構(gòu)化數(shù)據(jù)不能使用,除非它是結(jié)構(gòu)化格式的數(shù)據(jù)。E-2。預處理數(shù)據(jù)。步驟E-3。預

53、處理的結(jié)構(gòu)化數(shù)據(jù)被存儲在結(jié)構(gòu)化存儲中。如圖所示,數(shù)據(jù)可以直接存儲在內(nèi)存中,也可以經(jīng)過預處理,轉(zhuǎn)換成中間格式或標準格式,然后存儲。在分析數(shù)據(jù)之前,數(shù)據(jù)格式必須可用于實體分析或查詢所需數(shù)據(jù)。該預處理數(shù)據(jù)可以存儲在存儲系統(tǒng)中。雖然預處理通常被認為是微不足道的,但它可能非常復雜和耗時。設(shè)備生成的數(shù)據(jù)模式產(chǎn)生的設(shè)備量包括來自傳感器的數(shù)據(jù),這些數(shù)據(jù)是從諸如天氣信息、電氣儀器和污染數(shù)據(jù)等數(shù)據(jù)源檢測到的,并由傳感器捕獲。這些數(shù)據(jù)可以是照片、視頻、文本和其他二進制格式。下圖說明了處理機器生成數(shù)據(jù)的典型過程。圖5。設(shè)備生成的數(shù)據(jù)訪問該圖顯示設(shè)備產(chǎn)生的數(shù)據(jù)已經(jīng)過處理。圖5示出了從傳感器訪問數(shù)據(jù)的過程。傳感器捕獲的數(shù)

54、據(jù)可以發(fā)送到設(shè)備網(wǎng)關(guān),設(shè)備網(wǎng)關(guān)將對數(shù)據(jù)進行一些初始預處理,并緩沖高速數(shù)據(jù)。機器生成的大部分數(shù)據(jù)是二進制格式(音頻、視頻和傳感器讀數(shù))或文本格式。這些數(shù)據(jù)可以先存儲在存儲系統(tǒng)中,也可以經(jīng)過預處理后再存儲。對于分析,需要進行預處理。交易、操作和倉庫數(shù)據(jù)模式您可以存儲現(xiàn)有的事務、操作和倉庫數(shù)據(jù),避免清除或歸檔數(shù)據(jù)(由于存儲和處理限制),或者在其他用戶訪問數(shù)據(jù)時減少傳統(tǒng)存儲的負載。對于大多數(shù)企業(yè)來說,交易、運營、主數(shù)據(jù)和倉庫信息是所有分析的核心。如果在互聯(lián)網(wǎng)上使用,或者通過傳感器和智能設(shè)備提供的非結(jié)構(gòu)化數(shù)據(jù)增強外部數(shù)據(jù),它可以幫助組織獲得準確的洞察力并執(zhí)行高級分析。使用多個數(shù)據(jù)庫供應商提供的標準連接器

55、,可以將事務和倉庫數(shù)據(jù)推入存儲。預處理事務性數(shù)據(jù)要容易得多,因為大多數(shù)數(shù)據(jù)都是結(jié)構(gòu)化的。您可以使用簡單的提取、轉(zhuǎn)換和加載過程將交易數(shù)據(jù)移入存儲。事務可以很容易地轉(zhuǎn)換成JSON和CSV格式。使用Sqoop之類的工具可以更容易地將交易數(shù)據(jù)推送到HBase和HDFS之類的存儲系統(tǒng)中。數(shù)據(jù)訪問模式的特殊變化:生物特征數(shù)據(jù)訪問這些信息的數(shù)據(jù)訪問與機器生成的數(shù)據(jù)非常相似。生物特征數(shù)據(jù)分為生理和行為數(shù)據(jù),大量的數(shù)據(jù)可以通過多種方式進行分析。有些數(shù)據(jù)可以通過傳感器獲得,有些則需要身體樣本(血液、尿液等。).處理生物特征數(shù)據(jù)(如DNA數(shù)據(jù))需要更長的時間。生理數(shù)據(jù)包括指紋、掌紋、氣味和香味的信息,這些信息與面部

56、、聲音、視網(wǎng)膜和虹膜特征有關(guān)。這些數(shù)據(jù)包括打字模式、打字節(jié)奏、說話、走路、簽名匹配和步態(tài)。存儲模式存儲模式有助于確定存儲各種數(shù)據(jù)的適當類型和格式。數(shù)據(jù)可以按原樣存儲,根據(jù)鍵值對存儲,或者以預定義的格式存儲。分布式文件系統(tǒng)(如GFS和HDFS)可以存儲任何類型的數(shù)據(jù)。但是,高效檢索或查詢數(shù)據(jù)的能力會影響性能。技術(shù)的選擇很重要。分布式非結(jié)構(gòu)化數(shù)據(jù)的存儲模式大部分大數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),對于不同的上下文,可以用不同的方式提取其信息。大多數(shù)情況下,非結(jié)構(gòu)化數(shù)據(jù)必須按原樣和原始格式存儲。這些數(shù)據(jù)可以存儲在分布式文件系統(tǒng)(比如HDFS)和NoSQL文檔存儲(比如MongoDB)中。這些系統(tǒng)提供了檢索非結(jié)構(gòu)化

57、數(shù)據(jù)的有效方法。分布式結(jié)構(gòu)化數(shù)據(jù)的存儲模式結(jié)構(gòu)化數(shù)據(jù)包括來自數(shù)據(jù)源的結(jié)構(gòu)化格式的數(shù)據(jù),以及經(jīng)過預處理并轉(zhuǎn)換成JSON數(shù)據(jù)的非結(jié)構(gòu)化數(shù)據(jù)。必須存儲轉(zhuǎn)換后的數(shù)據(jù),以避免從原始數(shù)據(jù)到結(jié)構(gòu)化數(shù)據(jù)的頻繁數(shù)據(jù)轉(zhuǎn)換??梢允褂肎oogle的BigTable技術(shù)來存儲結(jié)構(gòu)化數(shù)據(jù)。BigTable是一個大規(guī)模的容錯自管理系統(tǒng),包括TB級存儲和PB級存儲。Hadoop中的HBase堪比BigTable。它使用HDFS作為底層存儲。傳統(tǒng)數(shù)據(jù)存儲的存儲模式對于存儲大數(shù)據(jù)來說,傳統(tǒng)的數(shù)據(jù)存儲并不是最好的選擇,但是在前期數(shù)據(jù)探索的情況下,企業(yè)可能會選擇使用現(xiàn)有的數(shù)據(jù)倉庫、RDBMS系統(tǒng)等存儲。這些現(xiàn)有的存儲系統(tǒng)可以用來存儲

58、大數(shù)據(jù)平臺消化過濾的數(shù)據(jù)。不要以為傳統(tǒng)的數(shù)據(jù)存儲系統(tǒng)適合大數(shù)據(jù)。云存儲的存儲模式許多云計算基礎(chǔ)設(shè)施供應商都有分布式結(jié)構(gòu)化和非結(jié)構(gòu)化存儲功能。從傳統(tǒng)的配置、維護、系統(tǒng)管理、編程建模的角度來看,大數(shù)據(jù)技術(shù)有點不一樣。此外,實施大數(shù)據(jù)解決方案所需的技能稀缺且昂貴。探索大數(shù)據(jù)技術(shù)的企業(yè)可以使用云解決方案來提供大數(shù)據(jù)的存儲、維護和系統(tǒng)管理。要存儲的數(shù)據(jù)通常是敏感數(shù)據(jù),包括醫(yī)療記錄和生物特征數(shù)據(jù)。您需要考慮數(shù)據(jù)安全性、數(shù)據(jù)共享、數(shù)據(jù)治理和其他與數(shù)據(jù)相關(guān)的政策,尤其是在將云視為大數(shù)據(jù)存儲庫時。傳輸大量數(shù)據(jù)的能力是云存儲的另一個重要考慮因素。復合模式原子模式側(cè)重于提供執(zhí)行各種功能所需的能力。然而,復合模式是基

59、于端到端解決方案進行分類的。每個復合模式應該考慮一個或多個維度。將復合模式應用于每個模式時,會有許多變化。復合模式可以映射到一個或多個原子模式,以解決給定的業(yè)務問題。本文中描述的復合模式列表是基于經(jīng)常出現(xiàn)的典型業(yè)務問題,但它不是復合模式的完整列表。和存儲發(fā)現(xiàn)模式。如果業(yè)務問題需要存儲大量新數(shù)據(jù)和現(xiàn)有數(shù)據(jù),而這些數(shù)據(jù)之前由于缺乏足夠的存儲和分析能力而沒有被使用過,那么這種模型就非常有用。此模式旨在減輕現(xiàn)有數(shù)據(jù)存儲的負載。存儲的數(shù)據(jù)可用于初步探索和即興發(fā)現(xiàn)。用戶可以推導出報告,并通過進一步處理來分析數(shù)據(jù)的質(zhì)量和價值。您可以使用ETL工具在任何類型的分析之前預處理和凈化原始數(shù)據(jù)。圖6。存儲和探索復合

60、模式該圖顯示,模式的維度僅包括存儲、處理和使用。圖6展示了這個模式的多個方面。數(shù)據(jù)使用的目的可能是存儲它,也可能是處理和使用它。存儲的唯一例子是,獲取和存儲數(shù)據(jù)只是為了滿足將來的法規(guī)遵從性或法律要求。在處理和使用的情況下,可以對分析結(jié)果進行處理和使用??梢詮淖罱l(fā)現(xiàn)的來源或現(xiàn)有的數(shù)據(jù)存儲中訪問數(shù)據(jù)。和可預測的分析復合模式。在使用這種模式的情況下,使用多種處理技術(shù)來執(zhí)行分析,因此可以用新的見解來豐富現(xiàn)有數(shù)據(jù)或創(chuàng)建可由各種用戶使用的輸出。這種分析可以在事件發(fā)生的同時實時進行,也可以使用批處理模式根據(jù)收集的數(shù)據(jù)獲得洞察力。作為可以分析的靜態(tài)數(shù)據(jù)的例子,電信公司可以建立客戶流失模型,包括分析呼叫數(shù)據(jù)記

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論