版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、大數(shù)據(jù)架構(gòu)和模式(一): 大數(shù)據(jù)分類和架構(gòu)簡(jiǎn)介1.本文對(duì)大數(shù)據(jù)做了哪些分類?2.對(duì)數(shù)據(jù)進(jìn)行分類后,如何將它與合適的大數(shù)據(jù)模式匹配?如何將大數(shù)據(jù)分分為不同的類類別大數(shù)據(jù)問(wèn)題的分分析和解決通通常很復(fù)雜。大大數(shù)據(jù)的量、速速度和種類使使得提取信息息和獲得業(yè)務(wù)務(wù)洞察變得很很困難。以下下操作是一個(gè)個(gè)良好的開(kāi)端端:依據(jù)必須須處理的數(shù)據(jù)據(jù)的格式、要要應(yīng)用的分析析類型、使用用的處理技術(shù)術(shù),以及目標(biāo)標(biāo)系統(tǒng)需要獲獲取、加載、處處理、分析和和存儲(chǔ)數(shù)據(jù)的的數(shù)據(jù)源,對(duì)對(duì)大數(shù)據(jù)問(wèn)題題進(jìn)行分類。概述大數(shù)據(jù)可通過(guò)許許多方式來(lái)存存儲(chǔ)、獲取、處處理和分析。每每個(gè)大數(shù)據(jù)來(lái)來(lái)源都有不同同的特征,包包括數(shù)據(jù)的頻頻率、量、速速度、類型和和
2、真實(shí)性。處處理并存儲(chǔ)大大數(shù)據(jù)時(shí),會(huì)會(huì)涉及到更多多維度,比如如治理、安全全性和策略。選選擇一種架構(gòu)構(gòu)并構(gòu)建合適適的大數(shù)據(jù)解解決方案極具具挑戰(zhàn),因?yàn)闉樾枰紤]非非常多的因素素。這個(gè) “大數(shù)據(jù)據(jù)架構(gòu)和模式式” 系列提提供了一種結(jié)結(jié)構(gòu)化和基于于模式的方法法來(lái)簡(jiǎn)化定義義完整的大數(shù)數(shù)據(jù)架構(gòu)的任任務(wù)。因?yàn)樵u(píng)評(píng)估一個(gè)業(yè)務(wù)務(wù)場(chǎng)景是否存存在大數(shù)據(jù)問(wèn)問(wèn)題很重要,所所以我們包含含了一些線索索來(lái)幫助確定定哪些業(yè)務(wù)問(wèn)問(wèn)題適合采用用大數(shù)據(jù)解決決方案。從分分類大數(shù)據(jù)到到選擇大數(shù)據(jù)據(jù)解決方案如果您花時(shí)間研研究過(guò)大數(shù)據(jù)據(jù)解決方案,那那么您一定知知道它不是一一個(gè)簡(jiǎn)單的任任務(wù)。本系列列將介紹查找找滿足您需求求的大數(shù)據(jù)解解決方案所涉涉
3、及的主要步步驟。我們首先介紹術(shù)術(shù)語(yǔ) “大數(shù)數(shù)據(jù)” 所描描述的數(shù)據(jù)類類型。為了簡(jiǎn)簡(jiǎn)化各種大數(shù)數(shù)據(jù)類型的復(fù)復(fù)雜性,我們們依據(jù)各種參參數(shù)對(duì)大數(shù)據(jù)據(jù)進(jìn)行了分類類,為任何大大數(shù)據(jù)解決方方案中涉及的的各層和高級(jí)級(jí)組件提供一一個(gè)邏輯架構(gòu)構(gòu)。接下來(lái),我我們通過(guò)定義義原子和復(fù)合合分類模式,提提出一種結(jié)構(gòu)構(gòu)來(lái)分類大數(shù)數(shù)據(jù)業(yè)務(wù)問(wèn)題題。這些模式式有助于確定定要應(yīng)用的合合適的解決方方案模式。我我們提供了來(lái)來(lái)自各行各業(yè)業(yè)的示例業(yè)務(wù)務(wù)問(wèn)題。最后后,對(duì)于每個(gè)個(gè)組件和模式式,我們給出出了提供了相相關(guān)功能的產(chǎn)產(chǎn)品。第 1 部分將將介紹如何對(duì)對(duì)大數(shù)據(jù)進(jìn)行行分類。本系系列的后續(xù)文文章將介紹以以下主題:定義大數(shù)據(jù)解決決方案的各層層和組
4、件的邏邏輯架構(gòu)理解大數(shù)據(jù)解決決方案的原子子模式理解用于大數(shù)據(jù)據(jù)解決方案的的復(fù)合(或混混合)模式為大數(shù)據(jù)解決方方案選擇一種種解決方案模模式確定使用一個(gè)大大數(shù)據(jù)解決方方案解決一個(gè)個(gè)業(yè)務(wù)問(wèn)題的的可行性選擇正確的產(chǎn)品品來(lái)實(shí)現(xiàn)大數(shù)數(shù)據(jù)解決方案案依據(jù)大數(shù)據(jù)類型型對(duì)業(yè)務(wù)問(wèn)題題進(jìn)行分類業(yè)務(wù)問(wèn)題可分類類為不同的大大數(shù)據(jù)問(wèn)題類類型。以后,我我們將使用此此類型確定合合適的分類模模式(原子或或復(fù)合)和合合適的大數(shù)據(jù)據(jù)解決方案。但但第一步是將將業(yè)務(wù)問(wèn)題映映射到它的大大數(shù)據(jù)類型。下下表列出了常常見(jiàn)的業(yè)務(wù)問(wèn)問(wèn)題并為每個(gè)個(gè)問(wèn)題分配了了一種大數(shù)據(jù)據(jù)類型。按類類型對(duì)大數(shù)據(jù)據(jù)問(wèn)題分類,更更容易看到每每種數(shù)據(jù)的特特征。這些特特征可幫
5、助我我們了解如何何獲取數(shù)據(jù),如如何將它處理理為合適的格格式,以及新新數(shù)據(jù)出現(xiàn)的的頻率。來(lái)自自不同來(lái)源的的數(shù)據(jù)具有不不同的特征;例如,社交交媒體數(shù)據(jù)包包含不斷傳入入的視頻、圖圖像和非結(jié)構(gòu)構(gòu)化文本(比比如博客文章章)。表 1. 不同同類型的大數(shù)數(shù)據(jù)業(yè)務(wù)問(wèn)題題我們依據(jù)這些常常見(jiàn)特征來(lái)評(píng)評(píng)估數(shù)據(jù),下下一節(jié)將詳細(xì)細(xì)介紹這些特特征:內(nèi)容的格式數(shù)據(jù)的類型(例例如,交易數(shù)數(shù)據(jù)、歷史數(shù)數(shù)據(jù)或主數(shù)據(jù)據(jù))將提供該數(shù)據(jù)的的頻率意圖:數(shù)據(jù)需要要如何處理(例例如對(duì)數(shù)據(jù)的的臨時(shí)查詢)處理是否必須實(shí)實(shí)時(shí)、近實(shí)時(shí)時(shí)還是按批次次執(zhí)行。使用大數(shù)據(jù)類型型對(duì)大數(shù)據(jù)特特征進(jìn)行分類類按特定方向分析析大數(shù)據(jù)的特特征會(huì)有所幫幫助,例如以以下特
6、征:數(shù)數(shù)據(jù)如何收集集、分析和處處理。對(duì)數(shù)據(jù)據(jù)進(jìn)行分類后后,就可以將將它與合適的的大數(shù)據(jù)模式式匹配:1、分析類型 對(duì)數(shù)據(jù)據(jù)執(zhí)行實(shí)時(shí)分分析還是批量量分析。請(qǐng)仔仔細(xì)考慮分析析類型的選擇擇,因?yàn)檫@會(huì)會(huì)影響一些有有關(guān)產(chǎn)品、工工具、硬件、數(shù)數(shù)據(jù)源和預(yù)期期的數(shù)據(jù)頻率率的其他決策策。一些用例例可能需要混混合使用兩種種類型:2、欺詐檢測(cè);分析必須實(shí)實(shí)時(shí)或近實(shí)時(shí)時(shí)地完成。3、針對(duì)戰(zhàn)略性性業(yè)務(wù)決策的的趨勢(shì)分析;分析可采用用批量模式。4、處理方法 要應(yīng)用用來(lái)處理數(shù)據(jù)據(jù)的技術(shù)類型型(比如預(yù)測(cè)測(cè)、分析、臨臨時(shí)查詢和報(bào)報(bào)告)。業(yè)務(wù)務(wù)需求確定了了合適的處理理方法??山Y(jié)結(jié)合使用各種種技術(shù)。處理理方法的選擇擇,有助于識(shí)識(shí)別要在您
7、的的大數(shù)據(jù)解決決方案中使用用的合適的工工具和技術(shù)。5、數(shù)據(jù)頻率和和大小 預(yù)計(jì)有多少少數(shù)據(jù)和數(shù)據(jù)據(jù)到達(dá)的頻率率多高。知道道頻率和大小小,有助于確確定存儲(chǔ)機(jī)制制、存儲(chǔ)格式式和所需的預(yù)預(yù)處理工具。數(shù)數(shù)據(jù)頻率和大大小依賴于數(shù)數(shù)據(jù)源:按需分析,與社社交媒體數(shù)據(jù)據(jù)一樣實(shí)時(shí)、持續(xù)提供供(天氣數(shù)據(jù)據(jù)、交易數(shù)據(jù)據(jù))時(shí)序(基于時(shí)間間的數(shù)據(jù))6、數(shù)據(jù)類型 要處理理數(shù)據(jù)類型 交易、歷歷史、主數(shù)據(jù)據(jù)等。知道數(shù)數(shù)據(jù)類型,有有助于將數(shù)據(jù)據(jù)隔離在存儲(chǔ)儲(chǔ)中。7、內(nèi)容格式(傳傳入數(shù)據(jù)的格格式)結(jié)構(gòu)化化(例如 RRDMBS)、非非結(jié)構(gòu)化(例例如音頻、視視頻和圖像)或或半結(jié)構(gòu)化。格格式確定了需需要如何處理理傳入的數(shù)據(jù)據(jù),這是選擇擇工
8、具、技術(shù)術(shù)以及從業(yè)務(wù)務(wù)角度定義解解決方案的關(guān)關(guān)鍵。8、數(shù)據(jù)源 數(shù)據(jù)的來(lái)來(lái)源(生成數(shù)數(shù)據(jù)的地方),比比如 Webb 和社交媒媒體、機(jī)器生生成、人類生生成等。識(shí)別別所有數(shù)據(jù)源源有助于從業(yè)業(yè)務(wù)角度識(shí)別別數(shù)據(jù)范圍。該該圖顯示了使使用最廣泛的的數(shù)據(jù)源。9、數(shù)據(jù)使用者者 處理理的數(shù)據(jù)的所所有可能使用用者的列表:業(yè)務(wù)流程業(yè)務(wù)用戶企業(yè)應(yīng)用程序各種業(yè)務(wù)角色中中的各個(gè)人員員部分處理流程其他數(shù)據(jù)存儲(chǔ)庫(kù)庫(kù)或企業(yè)應(yīng)用用程序10、硬件 將在其上上實(shí)現(xiàn)大數(shù)據(jù)據(jù)解決方案的的硬件類型,包包括商用硬件件或最先進(jìn)的的硬件。理解解硬件的限制制,有助于指指導(dǎo)大數(shù)據(jù)解解決方案的選選擇。圖 1 描繪用用于分類大數(shù)數(shù)據(jù)的各種類類別。定義大大
9、數(shù)據(jù)模式的的關(guān)鍵類別已已識(shí)別并在藍(lán)藍(lán)色方框中突突出顯示。大大數(shù)據(jù)模式(將將在下一篇文文章中定義)來(lái)來(lái)自這些類別別的組合。圖 1. 大數(shù)數(shù)據(jù)分類結(jié)束語(yǔ)和致謝在本系列剩余部部分中,我們們將介紹大數(shù)數(shù)據(jù)解決方案案的邏輯架構(gòu)構(gòu)和各層,從從訪問(wèn)到使用用大數(shù)據(jù)。我我們將提供數(shù)數(shù)據(jù)源的完整整列表,介紹紹專注于大數(shù)數(shù)據(jù)解決方案案的每個(gè)重要要方面的原子子模式。我們們還將介紹復(fù)復(fù)合模式,解解釋可如何結(jié)結(jié)合使用原子子模式來(lái)解決決特定的大數(shù)數(shù)據(jù)用例。本本系列最后將將提供一些解解決方案模式式,在廣泛使使用的用例與與各個(gè)產(chǎn)品之之間建立對(duì)應(yīng)應(yīng)關(guān)系。感謝 Rakeesh R. Shinnde 在定定義本系列的的整體結(jié)構(gòu)上上提
10、供的指導(dǎo)導(dǎo),以及對(duì)本本系列的審閱閱和提供的寶寶貴評(píng)論。大數(shù)據(jù)架構(gòu)和模模式(二)如如何知道一個(gè)個(gè)大數(shù)據(jù)解決決方案是否適適合您的組織織1.如何判斷大大數(shù)據(jù)問(wèn)題是是否需要大數(shù)數(shù)據(jù)解決方案案?2.如何何評(píng)估大數(shù)據(jù)據(jù)解決方案的的可行性?33.可通過(guò)大大數(shù)據(jù)技術(shù)獲獲取何種洞察察?4.是否否所有大數(shù)據(jù)據(jù)都存在大數(shù)數(shù)據(jù)問(wèn)題?簡(jiǎn)介在確定投資大數(shù)數(shù)據(jù)解決方案案之前,評(píng)估估可用于分析析的數(shù)據(jù);通通過(guò)分析這些些數(shù)據(jù)而獲得得的洞察;以以及可用于定定義、設(shè)計(jì)、創(chuàng)創(chuàng)建和部署大大數(shù)據(jù)平臺(tái)的的資源。詢問(wèn)問(wèn)正確的問(wèn)題題是一個(gè)不錯(cuò)錯(cuò)的起點(diǎn)。使使用本文中的的問(wèn)題將指導(dǎo)導(dǎo)您完成調(diào)查查。答案將揭揭示該數(shù)據(jù)和和您嘗試解決決的問(wèn)題的更更多特
11、征。盡管組織一般情情況對(duì)需要分分析的數(shù)據(jù)類類型有一些模模糊的理解,但但具體的細(xì)節(jié)節(jié)很可能并不不清晰。畢竟竟,數(shù)據(jù)可能能具有之前未未發(fā)現(xiàn)的模式式的關(guān)鍵,一一旦識(shí)別了一一種模式,對(duì)對(duì)額外分析的的需求就會(huì)變變得很明顯。要要幫助揭示這這些未知的未未知信息,首首先需要實(shí)現(xiàn)現(xiàn)一些基本用用例,在此過(guò)過(guò)程中,可以以收集以前不不可用的數(shù)據(jù)據(jù)。構(gòu)建數(shù)據(jù)據(jù)存儲(chǔ)庫(kù)并收收集更多數(shù)據(jù)據(jù)后,數(shù)據(jù)科科學(xué)家就能夠夠更好地確定定關(guān)鍵的數(shù)據(jù)據(jù),更好地構(gòu)構(gòu)建將生成更更多洞察的預(yù)預(yù)測(cè)和統(tǒng)計(jì)模模型。組織可能也已知知道它有哪些些信息是不知知道的。要解解決這些已知知的未知,組組織首先必須須與數(shù)據(jù)科學(xué)學(xué)家合作,識(shí)識(shí)別外部或第第三方數(shù)據(jù)源源,實(shí)
12、現(xiàn)一些些依賴于此外外部數(shù)據(jù)的用用例。本文首先嘗試回回答大多數(shù) CIO 在在實(shí)施大數(shù)據(jù)據(jù)舉措之前通通常會(huì)提出的的問(wèn)題,然后后,本文將重重點(diǎn)介紹一種種將幫助評(píng)估估大數(shù)據(jù)解決決方案對(duì)組織織的可行性的的基于維度的的方法。我的大數(shù)據(jù)問(wèn)題題是否需要大大數(shù)據(jù)解決方方案?大數(shù)據(jù),曾幾何何時(shí)似乎很少少出現(xiàn)組織多半會(huì)選擇擇以增量方式式實(shí)現(xiàn)大數(shù)據(jù)據(jù)解決方案。不不是每個(gè)分析析和報(bào)告需求求都需要大數(shù)數(shù)據(jù)解決方案案。如果對(duì)于于對(duì)大型數(shù)據(jù)據(jù)集或來(lái)自多多個(gè)數(shù)據(jù)源的的臨時(shí)報(bào)告執(zhí)執(zhí)行并行處理理的項(xiàng)目,那那么可能沒(méi)有有必要使用大大數(shù)據(jù)解決方方案。隨著大數(shù)據(jù)技術(shù)術(shù)的到來(lái),組組織會(huì)問(wèn)自己己:“大數(shù)據(jù)據(jù)是否是我的的業(yè)務(wù)問(wèn)題的的正確解決方
13、方案,或者它它是否為我提提供了業(yè)務(wù)機(jī)機(jī)會(huì)?”大數(shù)數(shù)據(jù)中是否隱隱藏著業(yè)務(wù)機(jī)機(jī)會(huì)?以下是是我從 CIIO 那里聽(tīng)聽(tīng)到的一些典典型問(wèn)題:如果我使用大數(shù)數(shù)據(jù)技術(shù),可可能會(huì)獲得何何種洞察和 業(yè)務(wù)價(jià)值?它是否可以擴(kuò)充充我 現(xiàn)有的的數(shù)據(jù)倉(cāng)庫(kù)?我如何評(píng)估 擴(kuò)擴(kuò)展當(dāng)前環(huán)境境 或采用新新解決方案的的成本?對(duì)我現(xiàn)有的 IIT 治理 有何影響?我能否 以增量量方式實(shí)現(xiàn) 大數(shù)據(jù)解決決方案?我需要掌握哪些些 具體的技技能 來(lái)理解解和分析構(gòu)建建和維護(hù)大數(shù)數(shù)據(jù)解決方案案的需求?我的 現(xiàn)有企業(yè)業(yè)數(shù)據(jù) 能否否用于提供業(yè)業(yè)務(wù)洞察?來(lái)自各種來(lái)源的的 數(shù)據(jù)的復(fù)復(fù)雜性 在不不斷增長(zhǎng)。大大數(shù)據(jù)解決方方案對(duì)我有幫幫助嗎?維度可幫助評(píng)估估大數(shù)
14、據(jù)解決決方案的可行行性為了回答這些問(wèn)問(wèn)題,本文提提出了一種依依據(jù)下圖中所所示的維度來(lái)來(lái)評(píng)估大數(shù)據(jù)據(jù)解決方案的的可行性的結(jié)結(jié)構(gòu)化方法。來(lái)自可通過(guò)分析析數(shù)據(jù)獲得的的洞察的業(yè)務(wù)務(wù)價(jià)值針對(duì)新數(shù)據(jù)來(lái)源源和數(shù)據(jù)使用用方式的治理理考慮因素?fù)碛邢嚓P(guān)技能和和贊助商的承承諾的人員捕獲的數(shù)據(jù)量各種各樣的數(shù)據(jù)據(jù)源、數(shù)據(jù)類類型和數(shù)據(jù)格格式生成數(shù)據(jù)的速度度,需要對(duì)它它執(zhí)行操作的的速度,或者者它更改的速速度數(shù)據(jù)的真實(shí)性,或或者數(shù)據(jù)的不不確定性和可可信賴性對(duì)于每個(gè)維度,我我們都給出了了一些關(guān)鍵問(wèn)問(wèn)題。依據(jù)業(yè)業(yè)務(wù)上下文,為為每個(gè)維度分分配一個(gè)權(quán)重重和優(yōu)先級(jí)。評(píng)評(píng)估會(huì)因業(yè)務(wù)務(wù)案例和組織織的不同而有有所不同。您您可以考慮在在與相關(guān)
15、的業(yè)業(yè)務(wù)和 ITT 利益相關(guān)關(guān)者召開(kāi)的一一系列研討會(huì)會(huì)中探討這些些問(wèn)題。業(yè)務(wù)價(jià)值:可通通過(guò)大數(shù)據(jù)技技術(shù)獲取何種種洞察?許多組織想知道道,他們?cè)趯ふ业臉I(yè)務(wù)洞洞察能否通過(guò)過(guò)大數(shù)據(jù)解決決方案解決。沒(méi)沒(méi)有權(quán)威的指指南能夠用來(lái)來(lái)定義可從大大數(shù)據(jù)獲取的的洞察。具體體場(chǎng)景需要由由組織識(shí)別,而而且這些場(chǎng)景景在不斷演變變。在確定和和識(shí)別在實(shí)現(xiàn)現(xiàn)后會(huì)給企業(yè)業(yè)帶來(lái)重大價(jià)價(jià)值的業(yè)務(wù)用用例和場(chǎng)景的的過(guò)程中,數(shù)數(shù)據(jù)科學(xué)家起起著至關(guān)重要要的作用。數(shù)據(jù)科學(xué)家必須須能夠理解關(guān)關(guān)鍵績(jī)效指標(biāo)標(biāo),對(duì)數(shù)據(jù)應(yīng)應(yīng)用統(tǒng)計(jì)算法法和復(fù)雜算法法來(lái)獲得一個(gè)個(gè)用例列表。用用例因行業(yè)和和業(yè)務(wù)不同而而有所不同。研研究市場(chǎng)競(jìng)爭(zhēng)爭(zhēng)對(duì)手的行動(dòng)動(dòng)、發(fā)揮作用用的
16、市場(chǎng)力量量,以及客戶戶在尋找什么么,會(huì)很有幫幫助。下表給給出了來(lái)自各各行各業(yè)的用用例示例。表 1. 來(lái)自自各行各業(yè)的的示例用例潛在的客戶正在在社交網(wǎng)絡(luò)和和評(píng)論站點(diǎn)上上生成大量新新數(shù)據(jù)。在企企業(yè)內(nèi),隨著著客戶切換到到在線渠道來(lái)來(lái)執(zhí)行業(yè)務(wù)和和與公司交互互,交易數(shù)據(jù)據(jù)和 Webb 日志與日日俱增。確定數(shù)據(jù)的優(yōu)先先級(jí)首先為企業(yè)內(nèi)存存在的數(shù)據(jù)創(chuàng)創(chuàng)建一個(gè)清單單。識(shí)別內(nèi)部部系統(tǒng)和應(yīng)用用程序中存在在的數(shù)據(jù)以及及從第三方傳傳入的數(shù)據(jù)。如如果業(yè)務(wù)問(wèn)題題可使用現(xiàn)有有數(shù)據(jù)解決,那那么有可能不不需要使用來(lái)來(lái)自外部來(lái)源源的數(shù)據(jù)。請(qǐng)考慮構(gòu)建一個(gè)個(gè)大數(shù)據(jù)解決決方案的成本本,并權(quán)衡它它與帶給業(yè)務(wù)務(wù)部門(mén)的新洞洞察的價(jià)值。在有關(guān)現(xiàn)
17、有客戶戶的歸檔數(shù)據(jù)據(jù)的上下文中中分析此新數(shù)數(shù)據(jù)時(shí),業(yè)務(wù)務(wù)人員將獲得得對(duì)新業(yè)務(wù)機(jī)機(jī)會(huì)的洞察。主要滿足以下條條件,大數(shù)據(jù)據(jù)可提供可行行的解決方案案:從數(shù)據(jù)中開(kāi)發(fā)的的洞察所生成成的價(jià)值,值值得在大數(shù)據(jù)據(jù)解決方案中中投入的資本本成本面向客戶的場(chǎng)景景可證明來(lái)自自洞察的潛在在價(jià)值評(píng)估通過(guò)大數(shù)據(jù)據(jù)解決方案獲獲取的業(yè)務(wù)價(jià)價(jià)值時(shí),請(qǐng)考考慮您當(dāng)前的的環(huán)境是否可可擴(kuò)展并權(quán)衡衡此投資的成成本。我當(dāng)前的環(huán)境能能否擴(kuò)展?詢問(wèn)以下問(wèn)題,確確定您能否擴(kuò)擴(kuò)充現(xiàn)有的數(shù)數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)臺(tái)?當(dāng)前的數(shù)據(jù)集是是否非常大,是是否達(dá)到了 TB 或 PB 數(shù)量量級(jí)?現(xiàn)有的倉(cāng)庫(kù)環(huán)境境是否包含生生成或獲取的的所有 數(shù)據(jù)據(jù)的存儲(chǔ)庫(kù)?是否有大量冷數(shù)數(shù)據(jù)或
18、人們很很少接觸的數(shù)數(shù)據(jù)未分析,可可以通過(guò)分析析這些數(shù)據(jù)獲獲得業(yè)務(wù)洞察察?您是否需要丟棄棄數(shù)據(jù),因?yàn)闉闊o(wú)法存儲(chǔ)或或處理它?您是否希望能夠夠在復(fù)雜且大大量的數(shù)據(jù)上上執(zhí)行數(shù)據(jù)探探索?您是否希望能夠夠?qū)Ψ遣僮鲾?shù)數(shù)據(jù)執(zhí)行分析析?您是否有興趣使使用數(shù)據(jù)執(zhí)行行傳統(tǒng)和新類類型的分析?您是否試圖延遲遲對(duì)現(xiàn)有數(shù)據(jù)據(jù)倉(cāng)庫(kù)的升級(jí)級(jí)?您是否在尋求途途徑降低執(zhí)行行分析的總體體成本?如果任何這些問(wèn)問(wèn)題的答案是是 “是”,那那么您就可以以探索擴(kuò)充現(xiàn)現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)庫(kù)環(huán)境的方式式。擴(kuò)展我當(dāng)前的環(huán)環(huán)境的成本是是多少?擴(kuò)展現(xiàn)有數(shù)據(jù)倉(cāng)倉(cāng)庫(kù)平臺(tái)或 IT 環(huán)境境與實(shí)現(xiàn)大數(shù)數(shù)據(jù)解決方案案的成本和可可行性取決于于:現(xiàn)有工具和技術(shù)術(shù)現(xiàn)有系統(tǒng)的可伸
19、伸縮性現(xiàn)有環(huán)境的處理理能力現(xiàn)有平臺(tái)的存儲(chǔ)儲(chǔ)能力執(zhí)行的治理和策策略現(xiàn)有 IT 應(yīng)應(yīng)用程序的異異構(gòu)性組織中存在的技技術(shù)和業(yè)務(wù)技技能。它還依賴于將從從新數(shù)據(jù)來(lái)源源收集的數(shù)據(jù)據(jù)量、業(yè)務(wù)用用例的復(fù)雜性性、處理的分分析復(fù)雜性,以以及獲取數(shù)據(jù)據(jù)和擁有恰當(dāng)當(dāng)技能集的人人員的成本?,F(xiàn)現(xiàn)有的資源池池能否開(kāi)發(fā)新新的大數(shù)據(jù)技技能,或者是是否可從外部部雇傭擁有稀稀缺技能的人人員?請(qǐng)注意,大數(shù)據(jù)據(jù)舉措會(huì)對(duì)其其他正在實(shí)施施的項(xiàng)目產(chǎn)生生影響。從新新的來(lái)源獲取取數(shù)據(jù)具有很很高的成本。您您首先應(yīng)當(dāng)識(shí)識(shí)別系統(tǒng)和應(yīng)應(yīng)用程序內(nèi)部部存在的數(shù)據(jù)據(jù),以及目前前收到的第三三方數(shù)據(jù),這這一點(diǎn)很重要要。如果業(yè)務(wù)務(wù)問(wèn)題可以使使用現(xiàn)有數(shù)據(jù)據(jù)解決,那么
20、么有可能不需需要使用來(lái)自自外部來(lái)源的的數(shù)據(jù)。在生成新工具和和應(yīng)用程序之之前,請(qǐng)?jiān)u估估組織的應(yīng)用用程序組合。例例如,一個(gè)普普通的 Haadoop 平臺(tái)可能無(wú)無(wú)法滿足您的的需求,您可可能必須購(gòu)買(mǎi)買(mǎi)專業(yè)的工具具?;蛘呦鄬?duì)對(duì)而言,Haadoop 的商業(yè)版本本對(duì)當(dāng)前用例例而言可能很很昂貴,但可可能需要用作作長(zhǎng)期投資來(lái)來(lái)支持一個(gè)戰(zhàn)戰(zhàn)略性的大數(shù)數(shù)據(jù)平臺(tái)??伎紤]大數(shù)據(jù)工工具和技術(shù)需需要的基礎(chǔ)架架構(gòu)、硬件、軟軟件和維護(hù)的的成本。對(duì)數(shù)據(jù)的治理和和控制:對(duì)現(xiàn)現(xiàn)有的 ITT 治理有何何影響?在決定是否實(shí)現(xiàn)現(xiàn)一個(gè)大數(shù)據(jù)據(jù)平臺(tái)時(shí),組組織可能會(huì)查查看新數(shù)據(jù)源源和新的數(shù)據(jù)據(jù)元素類型,而而這些信息當(dāng)當(dāng)前的所有權(quán)權(quán)尚未明確定定義
21、。一些行行業(yè)制度會(huì)約約束組織獲取取和使用的數(shù)數(shù)據(jù)。例如,在在醫(yī)療行業(yè),通通過(guò)訪問(wèn)患者者數(shù)據(jù)來(lái)從中中獲取洞察是是否合法?類類似的規(guī)則約約束著所有行行業(yè)。除了 IT 治理理問(wèn)題之外,組組織的業(yè)務(wù)流流程可能也需需要重新定義義和修改,讓讓組織能夠獲獲取、存儲(chǔ)和和訪問(wèn)外部數(shù)數(shù)據(jù)。請(qǐng)?jiān)谀那闆r的的上下文中考考慮以下治理理相關(guān)問(wèn)題:安全性和隱私 為了與當(dāng)當(dāng)?shù)胤ㄒ?guī)一致致,解決方案案可以訪問(wèn)哪哪些數(shù)據(jù)?可可以存儲(chǔ)哪些些數(shù)據(jù)?哪些些數(shù)據(jù)應(yīng)在移移動(dòng)過(guò)程中加加密?靜止數(shù)數(shù)據(jù)呢?誰(shuí)可可以查看原始始數(shù)據(jù)和洞察察?數(shù)據(jù)的標(biāo)準(zhǔn)化 是否有標(biāo)標(biāo)準(zhǔn)約束數(shù)據(jù)據(jù)?數(shù)據(jù)是否否具有專用的的格式?是否否有部分?jǐn)?shù)據(jù)據(jù)為非標(biāo)準(zhǔn)格格式?數(shù)據(jù)可用的
22、時(shí)段段 數(shù)據(jù)在在一個(gè)允許及及時(shí)采取操作作的時(shí)段是否否可用?數(shù)據(jù)的所有權(quán) 誰(shuí)擁有該該數(shù)據(jù)?解決決方案是否擁?yè)碛羞m當(dāng)?shù)脑L訪問(wèn)權(quán)和權(quán)限限來(lái)使用數(shù)據(jù)據(jù)?允許的用法:允允許如何使用用該數(shù)據(jù)?我能否增量地實(shí)實(shí)現(xiàn)大數(shù)據(jù)解解決方案?大數(shù)據(jù)解決方案案可以采用增增量方式實(shí)現(xiàn)現(xiàn)。明確地定定義業(yè)務(wù)問(wèn)題題的范圍,并并以可度量的的方式設(shè)置預(yù)預(yù)期的業(yè)務(wù)收收入提升,這這樣做會(huì)很有有幫助。對(duì)于基礎(chǔ)業(yè)務(wù)案案例,請(qǐng)仔細(xì)細(xì)列出問(wèn)題的的范圍和解決決方案帶來(lái)的的預(yù)期收益。如如果該范圍太太小,業(yè)務(wù)收收益將無(wú)法實(shí)實(shí)現(xiàn),如果范范圍太大,獲獲得資金和在在恰當(dāng)?shù)钠谙尴迌?nèi)完成項(xiàng)目目就會(huì)很有挑挑戰(zhàn)性。在項(xiàng)項(xiàng)目的第一次次迭代中定義義核心功能,以以便能夠
23、輕松松地贏得利益益相關(guān)者的信信任。人員:是否已有有恰當(dāng)?shù)募寄苣懿⒄{(diào)整了合合適的人員?需要特定的技能能來(lái)理解和分分析需求,并并維護(hù)大數(shù)據(jù)據(jù)解決方案。這這些技能包括括行業(yè)知識(shí)、領(lǐng)領(lǐng)域?qū)iL(zhǎng),以以及有關(guān)大數(shù)數(shù)據(jù)工具和技技術(shù)的技術(shù)知知識(shí)。擁有建建模、統(tǒng)計(jì)、分分析和數(shù)學(xué)方方面的專業(yè)經(jīng)經(jīng)驗(yàn)的數(shù)據(jù)科科學(xué)家,是任任何大數(shù)據(jù)舉舉措成功的關(guān)關(guān)鍵。在實(shí)施一個(gè)新的的大數(shù)據(jù)項(xiàng)目目之前,確保保已安排了合合適的人員:您是否獲得利益益相關(guān)者和其其他愿意投資資該項(xiàng)目的業(yè)業(yè)務(wù)贊助者的的支持?是否擁有熟悉該該領(lǐng)域、能分分析大量數(shù)據(jù)據(jù)、而且能識(shí)識(shí)別從數(shù)據(jù)生生成有意義且且有用的洞察察的途徑的數(shù)數(shù)據(jù)科學(xué)家?是否擁有可用于于獲取洞察的的現(xiàn)有
24、數(shù)據(jù)?所有組織都擁有有大量未用于于獲取業(yè)務(wù)洞洞察的數(shù)據(jù)。這這些數(shù)據(jù)包括括日志文件、錯(cuò)錯(cuò)誤文件和來(lái)來(lái)自應(yīng)用程序序的操作數(shù)據(jù)據(jù)。不要忽略略此數(shù)據(jù),它它是寶貴信息息的潛在來(lái)源源。數(shù)據(jù)復(fù)雜性是否否在增長(zhǎng)?查找數(shù)據(jù)復(fù)雜性性增長(zhǎng)的線索索,尤其是在在數(shù)據(jù)量、種種類、速度和和真實(shí)性方面面。數(shù)據(jù)量是否已增增長(zhǎng)?如果滿足以下條條件,您可能能希望考慮大大數(shù)據(jù)解決方方案:數(shù)據(jù)大小達(dá)到 PB 和 EB 級(jí),而而且在不久的的將來(lái),它們們可能增長(zhǎng)到到 ZB 級(jí)級(jí)別。這一數(shù)據(jù)量給使使用傳統(tǒng)方法法(比如關(guān)系系數(shù)據(jù)庫(kù)引擎擎)存儲(chǔ)、搜搜索、共享、分分析和可視化化數(shù)據(jù)帶來(lái)的的技術(shù)和經(jīng)濟(jì)濟(jì)挑戰(zhàn)。數(shù)據(jù)處理目前可可使用可用硬硬件上的大規(guī)規(guī)
25、模并行處理理能力。數(shù)據(jù)種類是否已已增多?如果滿足以下條條件,各種各各樣的數(shù)據(jù)可可能都需要大大數(shù)據(jù)解決方方案:數(shù)據(jù)內(nèi)容和結(jié)構(gòu)構(gòu)無(wú)法預(yù)期或或預(yù)測(cè)。數(shù)據(jù)格式各不相相同,包括結(jié)結(jié)構(gòu)化、半結(jié)結(jié)構(gòu)化和非結(jié)結(jié)構(gòu)化數(shù)據(jù)。用戶和機(jī)器能夠夠以任何格式式生成數(shù)據(jù),例例如:Miccrosofft Woord 文件件、Micrrosoftt Exceel 電子子表格、Miicrosooft PoowerPooint 演演示文稿、PPDF 文件件、社交媒體體、Web 和軟件日志志、電子郵件件、來(lái)自相機(jī)機(jī)的照片和視視頻、信息感感知的移動(dòng)設(shè)設(shè)備、空中感感知技術(shù)、基基因組和醫(yī)療療記錄。以前沒(méi)有為了獲獲得洞察而被被挖掘的數(shù)據(jù)據(jù)來(lái)
26、源不斷地地在產(chǎn)生新的的數(shù)據(jù)類型。領(lǐng)域?qū)嶓w在不同同的上下文中中具有不同的的含義。數(shù)據(jù)的速度是否否已增長(zhǎng)或改改變?考慮您的數(shù)據(jù)是是否:在快速更改,必必須立即響應(yīng)應(yīng)擁有過(guò)多的傳統(tǒng)統(tǒng)技術(shù)和方法法,它們不再再足以實(shí)時(shí)處處理傳入的數(shù)數(shù)據(jù)您的數(shù)據(jù)是否值值得信賴?如果滿足以下條條件,那么請(qǐng)請(qǐng)考慮使用大大數(shù)據(jù)解決方方案:數(shù)據(jù)的真實(shí)性或或準(zhǔn)確性未知知。數(shù)據(jù)包含模糊不不清的信息。不清楚數(shù)據(jù)是否否完整。如果數(shù)據(jù)的量、種種類、速度或或真實(shí)性具有有合理的復(fù)雜雜性,那么有有可能會(huì)適合合地采用大數(shù)數(shù)據(jù)解決方案案。對(duì)于更復(fù)復(fù)雜的數(shù)據(jù),需需要評(píng)估與實(shí)實(shí)現(xiàn)大數(shù)據(jù)解解決方案關(guān)聯(lián)聯(lián)的任何風(fēng)險(xiǎn)險(xiǎn)。對(duì)于不太太復(fù)雜的數(shù)據(jù)據(jù),則應(yīng)該評(píng)評(píng)估傳統(tǒng)
27、的解解決方案。是否所有大數(shù)據(jù)據(jù)都存在大數(shù)數(shù)據(jù)問(wèn)題?不是所有大數(shù)據(jù)據(jù)情形都需要要大數(shù)據(jù)解決決方案。請(qǐng)?jiān)谠谑袌?chǎng)中尋找找線索。競(jìng)爭(zhēng)爭(zhēng)對(duì)手在做什什么?哪些市市場(chǎng)力量在發(fā)發(fā)揮作用?客客戶想要什么么?使用本文中的問(wèn)問(wèn)題,幫助確確定大數(shù)據(jù)解解決方案是否否適合于您的的業(yè)務(wù)情形和和您需要的業(yè)業(yè)務(wù)洞察。如如果認(rèn)為是時(shí)時(shí)候?qū)嵤┐髷?shù)數(shù)據(jù)項(xiàng)目了,請(qǐng)請(qǐng)閱讀下一篇篇文章,其中中會(huì)介紹如何何定義一個(gè)邏邏輯架構(gòu),而而且將會(huì)確定定您的大數(shù)據(jù)據(jù)解決方案需需要的關(guān)鍵組組件。作者: Divvakar等等來(lái)源: DeveeloperrWorkssEnd.大數(shù)據(jù)架構(gòu)和模模式(三)理理解大數(shù)據(jù)解解決方案的架架構(gòu)層問(wèn)題導(dǎo)讀1.大數(shù)據(jù)解決決方案
28、通常哪哪些邏輯層組組成?2.本文講了大大數(shù)據(jù)來(lái)源有有哪些?3.大數(shù)據(jù)治理理包含哪些因因素?概述這個(gè) “大數(shù)據(jù)據(jù)架構(gòu)和模式式” 系列的的 第 2 部分 介紹紹了一種評(píng)估估大數(shù)據(jù)解決決方案可行性性的基于維度度的方法。如如果您已經(jīng)使使用上一篇文文章中的問(wèn)題題和提示分析析了自己的情情況,并且已已經(jīng)決定開(kāi)始始構(gòu)建新的(或或更新現(xiàn)有的的)大數(shù)據(jù)解解決方案,那那么下一步就就是識(shí)別定義義項(xiàng)目的大數(shù)數(shù)據(jù)解決方案案所需的組件件。大數(shù)據(jù)解決方案案的邏輯層邏輯層提供了一一種組織您的的組件的方式式。這些層提提供了一種方方法來(lái)組織執(zhí)執(zhí)行特定功能能的組件。這這些層只是邏邏輯層;這并并不意味著支支持每層的功功能在獨(dú)立的的機(jī)器
29、或獨(dú)立立的進(jìn)程上運(yùn)運(yùn)行。大數(shù)據(jù)據(jù)解決方案通通常由以下邏邏輯層組成:1、大數(shù)據(jù)來(lái)源源2、數(shù)據(jù)改動(dòng) (masssagingg) 和存儲(chǔ)儲(chǔ)層3、分析層4、使用層大數(shù)據(jù)來(lái)源:考考慮來(lái)自所有有渠道的,所所有可用于分分析的數(shù)據(jù)。要要求組織中的的數(shù)據(jù)科學(xué)家家闡明執(zhí)行您您需要的分析析類型所需的的數(shù)據(jù)。數(shù)據(jù)據(jù)的格式和起起源各不相同同:格式 結(jié)構(gòu)化化、半結(jié)構(gòu)化化或非結(jié)構(gòu)化化。速度和數(shù)據(jù)量 數(shù)據(jù)到達(dá)達(dá)的速度和傳傳送它的速率率因數(shù)據(jù)源不不同而不同。收集點(diǎn) 收集集數(shù)據(jù)的位置置,直接或通通過(guò)數(shù)據(jù)提供供程序,實(shí)時(shí)時(shí)或以批量模模式收集數(shù)據(jù)據(jù)。數(shù)據(jù)可能能來(lái)自某個(gè)主主要來(lái)源,比比如天氣條件件,也有可能能來(lái)自一個(gè)輔輔助來(lái)源,比比如
30、媒體贊助助的天氣頻道道。數(shù)據(jù)源的位置 數(shù)據(jù)源可可能位于企業(yè)業(yè)內(nèi)或外部。識(shí)識(shí)別您具有有有限訪問(wèn)權(quán)的的數(shù)據(jù),因?yàn)闉閷?duì)數(shù)據(jù)的訪訪問(wèn)會(huì)影響可可用于分析的的數(shù)據(jù)范圍。數(shù)據(jù)改動(dòng)和存儲(chǔ)儲(chǔ)層:此層負(fù)負(fù)責(zé)從數(shù)據(jù)源源獲取數(shù)據(jù),并并在必要時(shí),將將它轉(zhuǎn)換為適適合數(shù)據(jù)分析析方式的格式式。例如,可可能需要轉(zhuǎn)換換一幅圖,才才能將它存儲(chǔ)儲(chǔ)在 Haddoop DDistriibutedd Filee Systtem (HHDFS) 存儲(chǔ)或關(guān)系系數(shù)據(jù)庫(kù)管理理系統(tǒng) (RRDBMS) 倉(cāng)庫(kù)中,以以供進(jìn)一步處處理。合規(guī)性性制度和治理理策略要求為為不同的數(shù)據(jù)據(jù)類型提供合合適的存儲(chǔ)。分析層:分析層層讀取數(shù)據(jù)改改動(dòng)和存儲(chǔ)層層整理 (ddig
31、estt) 的數(shù)據(jù)據(jù)。在某些情情況下,分析析層直接從數(shù)數(shù)據(jù)源訪問(wèn)數(shù)數(shù)據(jù)。設(shè)計(jì)分分析層需要認(rèn)認(rèn)真地進(jìn)行事事先籌劃和規(guī)規(guī)劃。必須制制定如何管理理以下任務(wù)的的決策:生成想要的分析析從數(shù)據(jù)中獲取洞洞察找到所需的實(shí)體體定位可提供這些些實(shí)體的數(shù)據(jù)據(jù)的數(shù)據(jù)源理解執(zhí)行分析需需要哪些算法法和工具。使用層:此層使用了分析析層所提供的的輸出。使用用者可以是可可視化應(yīng)用程程序、人類、業(yè)業(yè)務(wù)流程或服服務(wù)??梢暬治鰧拥慕Y(jié)結(jié)果可能具有有挑戰(zhàn)。有時(shí)時(shí),看看類似似市場(chǎng)中的競(jìng)競(jìng)爭(zhēng)對(duì)手是如如何做的會(huì)有有所幫助。每一層包含多種種組件類型,下下面將會(huì)介紹紹這些類型。圖 1. 邏輯輯和垂直層的的組件該圖顯示了邏輯輯和垂直層的的組件大
32、數(shù)據(jù)來(lái)源此層包含所有必必要的數(shù)據(jù)源源,提供了解解決業(yè)務(wù)問(wèn)題題所需的洞察察。數(shù)據(jù)是結(jié)結(jié)構(gòu)化、半結(jié)結(jié)構(gòu)化和非結(jié)結(jié)構(gòu)化的數(shù)據(jù)據(jù),而且來(lái)自自許多來(lái)源:1、企業(yè)遺留系系統(tǒng)這些些系統(tǒng)是企業(yè)業(yè)應(yīng)用程序,執(zhí)執(zhí)行業(yè)務(wù)需要要的分析并獲獲取需要的洞洞察:客戶關(guān)系管理系系統(tǒng)結(jié)算操作大型機(jī)應(yīng)用程序序企業(yè)資源規(guī)劃Web 應(yīng)用程程序開(kāi)發(fā)Web 應(yīng)用程程序和其他數(shù)數(shù)據(jù)來(lái)源擴(kuò)充充了企業(yè)擁有有的數(shù)據(jù)。這這些應(yīng)用程序序可使用自定定義的協(xié)議和和機(jī)制來(lái)公開(kāi)開(kāi)數(shù)據(jù)。2、數(shù)據(jù)管理系系統(tǒng) (DMMS) 數(shù)數(shù)據(jù)管理系統(tǒng)統(tǒng)存儲(chǔ)邏輯數(shù)數(shù)據(jù)、流程、策策略和各種其其他類型的文文檔:Microsooft EExcel 電子表格格Microsooft W
33、oord 文檔檔這些文檔可以轉(zhuǎn)轉(zhuǎn)換為可用于于分析的結(jié)構(gòu)構(gòu)化數(shù)據(jù)。文文檔數(shù)據(jù)可公公開(kāi)為領(lǐng)域?qū)崒?shí)體,或者數(shù)數(shù)據(jù)改動(dòng)和存存儲(chǔ)層可將它它轉(zhuǎn)換為領(lǐng)域域?qū)嶓w。3、數(shù)據(jù)存儲(chǔ) 數(shù)據(jù)存儲(chǔ)儲(chǔ)包含企業(yè)數(shù)數(shù)據(jù)倉(cāng)庫(kù)、操操作數(shù)據(jù)庫(kù)和和事務(wù)數(shù)據(jù)庫(kù)庫(kù)。此數(shù)據(jù)通通常是結(jié)構(gòu)化化數(shù)據(jù),可直直接使用或輕輕松地轉(zhuǎn)換來(lái)來(lái)滿足需求。這這些數(shù)據(jù)不一一定存儲(chǔ)在分分布式文件系系統(tǒng)中,具體體依賴于所處處的上下文。4、智慧設(shè)備 智慧設(shè)備備能夠捕獲、處處理和傳輸使使用最廣泛的的協(xié)議和格式式的信息。這這方面的示例例包括智能電電話、儀表和和醫(yī)療設(shè)備。這這些設(shè)備可用用于執(zhí)行各種種類型的分析析。絕大多數(shù)數(shù)智慧設(shè)備都都會(huì)執(zhí)行實(shí)時(shí)時(shí)分析,但從從智慧設(shè)備傳傳來(lái)的信
34、息也也可批量分析析。5、聚合的數(shù)據(jù)據(jù)提供程序 這些提供供程序擁有或或獲取數(shù)據(jù),并并以復(fù)雜的格格式和所需的的頻率通過(guò)特特定的過(guò)濾器器公開(kāi)它。每每天都會(huì)產(chǎn)生生海量的數(shù)據(jù)據(jù),它們具有有不同的格式式,以不同的的速度生成,而而且通過(guò)各種種數(shù)據(jù)提供程程序、傳感器器和現(xiàn)有企業(yè)業(yè)提供。其他數(shù)據(jù)源 有許多數(shù)據(jù)據(jù)來(lái)自自動(dòng)化化的來(lái)源:地理信息:地圖地區(qū)詳細(xì)信息位置詳細(xì)信息礦井詳細(xì)信息人類生成的內(nèi)容容:社交媒體電子郵件博客在線信息傳感器數(shù)據(jù):環(huán)境:天氣、降降雨量、濕度度、光線電氣:電流、能能源潛力等導(dǎo)航裝置電離輻射、亞原原子粒子等靠近、存在等位置、角度、位位移、距離、速速度、加速度度聲音、聲震動(dòng)等等汽車(chē)、運(yùn)輸?shù)葻崃俊?/p>
35、熱度、溫溫度光學(xué)、光、成像像、見(jiàn)光度化學(xué)壓力流動(dòng)、流體、速速度力、密度級(jí)別等等來(lái)自傳感器供應(yīng)應(yīng)商的其他數(shù)數(shù)據(jù)數(shù)據(jù)改動(dòng)和存儲(chǔ)儲(chǔ)層因?yàn)閭魅氲臄?shù)據(jù)據(jù)可能具有不不同的特征,所所以數(shù)據(jù)改動(dòng)動(dòng)和存儲(chǔ)層中中的組件必須須能夠以各種種頻率、格式式、大小和在在各種通信渠渠道上讀取數(shù)數(shù)據(jù):數(shù)據(jù)獲取 從從各種數(shù)據(jù)源源獲取數(shù)據(jù),并并將其發(fā)送到到數(shù)據(jù)整理組組件或存儲(chǔ)在在指定的位置置中。此組件件必須足夠智智能,能夠選選擇是否和在在何處存儲(chǔ)傳傳入的數(shù)據(jù)。它它必須能夠確確定數(shù)據(jù)在存存儲(chǔ)前是否應(yīng)應(yīng)改動(dòng),或者者數(shù)據(jù)是否可可直接發(fā)送到到業(yè)務(wù)分析層層。數(shù)據(jù)整理 負(fù)負(fù)責(zé)將數(shù)據(jù)修修改為需要的的格式,以實(shí)實(shí)現(xiàn)分析用途途。此組件可可擁有簡(jiǎn)單的
36、的轉(zhuǎn)換邏輯或或復(fù)雜的統(tǒng)計(jì)計(jì)算法來(lái)轉(zhuǎn)換換源數(shù)據(jù)。分分析引擎將會(huì)會(huì)確定所需的的特定的數(shù)據(jù)據(jù)格式。主要要的挑戰(zhàn)是容容納非結(jié)構(gòu)化化數(shù)據(jù)格式,比比如圖像、音音頻、視頻和和其他二進(jìn)制制格式。分布式數(shù)據(jù)存儲(chǔ)儲(chǔ) 負(fù)責(zé)存存儲(chǔ)來(lái)自數(shù)據(jù)據(jù)源的數(shù)據(jù)。通通常,這一層層中提供了多多個(gè)數(shù)據(jù)存儲(chǔ)儲(chǔ)選項(xiàng),比如如分布式文件件存儲(chǔ) (DDFS)、云云、結(jié)構(gòu)化數(shù)數(shù)據(jù)源、NooSQL 等等。分析層這是從數(shù)據(jù)中提提取業(yè)務(wù)洞察察的層:分析層實(shí)體識(shí)別別 負(fù)責(zé)識(shí)識(shí)別和填充上上下文實(shí)體。這這是一個(gè)復(fù)雜雜的任務(wù),需需要高效的高高性能流程。數(shù)數(shù)據(jù)整理組件件應(yīng)為這個(gè)實(shí)實(shí)體識(shí)別組件件提供補(bǔ)充,將將數(shù)據(jù)修改為為需要的格式式。分析引擎擎將需要上下下文實(shí)體來(lái)
37、執(zhí)執(zhí)行分析。分析引擎 使使用其他組件件(具體來(lái)講講,包括實(shí)體體鑒別、模型型管理和分析析算法)來(lái)處處理和執(zhí)行分分析。分析引引擎可具有支支持并行處理理的各種不同同的工作流、算算法和工具。模型管理 負(fù)負(fù)責(zé)維護(hù)各種種統(tǒng)計(jì)模型,驗(yàn)驗(yàn)證和檢驗(yàn)這這些模型,通通過(guò)持續(xù)培訓(xùn)訓(xùn)模型來(lái)提高高準(zhǔn)確性。然然后,模型管管理組件會(huì)推推廣這些模型型,它們可供供實(shí)體識(shí)別或或分析引擎組組件使用。使用層這一層使用了從從分析應(yīng)用程程序獲取的業(yè)業(yè)務(wù)洞察。分分析的結(jié)果由由組織內(nèi)的各各個(gè)用戶和組組織外部的實(shí)實(shí)體(比如客客戶、供應(yīng)商商、合作伙伴伴和提供商)使使用。此洞察察可用于針對(duì)對(duì)客戶提供產(chǎn)產(chǎn)品營(yíng)銷(xiāo)信息息。例如,借借助從分析中中獲取的洞察
38、察,公司可以以使用客戶偏偏好數(shù)據(jù)和位位置感知,在在客戶經(jīng)過(guò)通通道或店鋪時(shí)時(shí)向他們提供供個(gè)性化的營(yíng)營(yíng)銷(xiāo)信息。該洞察可用于檢檢測(cè)欺詐,實(shí)實(shí)時(shí)攔截交易易,并將它們們與使用已存存儲(chǔ)在企業(yè)中中的數(shù)據(jù)構(gòu)建建的視圖進(jìn)行行關(guān)聯(lián)。在欺欺詐性交易發(fā)發(fā)生時(shí),可以以告知客戶可可能存在欺詐詐,以便及時(shí)時(shí)采取更正操操作。此外,可以根據(jù)據(jù)在數(shù)據(jù)改動(dòng)動(dòng)層完成的分分析來(lái)觸發(fā)業(yè)業(yè)務(wù)流程??煽梢詥?dòng)自動(dòng)動(dòng)化的步驟 例如,如如果客戶接受受了一條可自自動(dòng)觸發(fā)的營(yíng)營(yíng)銷(xiāo)信息,則則需要?jiǎng)?chuàng)建一一個(gè)新訂單,如如果客戶報(bào)告告了欺詐,那那么可以觸發(fā)發(fā)對(duì)信用卡使使用的阻止。分析的輸出也可可由推薦引擎擎使用,該引引擎可將客戶戶與他們喜歡歡的產(chǎn)品相匹匹配
39、。推薦引引擎分析可用用的信息,并并提供個(gè)性化化且實(shí)時(shí)的推推薦。使用層還為內(nèi)部部用戶提供了了理解、找到到和導(dǎo)航企業(yè)業(yè)內(nèi)外的鏈鎖鎖信息的能力力。對(duì)于內(nèi)部部使用者,為為業(yè)務(wù)用戶構(gòu)構(gòu)建報(bào)告和儀儀表板的能力力使得利益相相關(guān)者能夠制制定精明的決決策并設(shè)計(jì)恰恰當(dāng)?shù)膽?zhàn)略。為為了提高操作作有效性,可可以從數(shù)據(jù)中中生成實(shí)時(shí)業(yè)業(yè)務(wù)警告,而而且可以監(jiān)視視操作性的關(guān)關(guān)鍵績(jī)效指標(biāo)標(biāo):交易攔截器 此組件可實(shí)實(shí)時(shí)攔截高容容量交易,將將它們轉(zhuǎn)換為為一種容易被被分析層理解解的實(shí)時(shí)格式式,以便在傳傳入數(shù)據(jù)上執(zhí)執(zhí)行實(shí)時(shí)分析析。事務(wù)攔截截器應(yīng)能夠集集成并處理來(lái)來(lái)自各種來(lái)源源的數(shù)據(jù),比比如傳感器、智智能儀表、麥麥克風(fēng)、攝像像頭、GPSS
40、 設(shè)備、AATM 和圖圖像掃描儀??煽梢允褂酶鞣N種類型的適配配器和 APPI 來(lái)連接接到數(shù)據(jù)源。也也可以使用各各種加速器來(lái)來(lái)簡(jiǎn)化開(kāi)發(fā),比比如實(shí)時(shí)優(yōu)化化和流分析,視視頻分析,銀銀行、保險(xiǎn)、零零售、電信和和公共運(yùn)輸領(lǐng)領(lǐng)域的加速器器,社交媒體體分析,以及及情緒分析。業(yè)務(wù)流程管理流流程 來(lái)自自分析層的洞洞察可供業(yè)務(wù)務(wù)流程執(zhí)行語(yǔ)語(yǔ)言 (BPPEL) 流流程、APII 或其他業(yè)業(yè)務(wù)流程使用用,通過(guò)自動(dòng)動(dòng)化上游和下下游 IT 應(yīng)用程序、人人員和流程的的功能,進(jìn)一一步獲取業(yè)務(wù)務(wù)價(jià)值。實(shí)時(shí)監(jiān)視 可可以使用從分分析中得出的的數(shù)據(jù)來(lái)生成成實(shí)時(shí)警告。可可以將警告發(fā)發(fā)送給感興趣趣的使用者和和設(shè)備,比如如智能電話和和平板
41、電腦。可可以使用從分分析組件生成成的數(shù)據(jù)洞察察,定義并監(jiān)監(jiān)視關(guān)鍵績(jī)效效指標(biāo),以便便確定操作有有效性。實(shí)時(shí)時(shí)數(shù)據(jù)可從各各種來(lái)源以儀儀表板的形式式向業(yè)務(wù)用戶戶公開(kāi),以便便監(jiān)視系統(tǒng)的的健康或度量量營(yíng)銷(xiāo)活動(dòng)的的有效性。報(bào)告引擎 生生成與傳統(tǒng)商商業(yè)智能報(bào)告告類似的報(bào)告告的能力至關(guān)關(guān)重要。用戶戶可基于從分分析層中得到到的洞察,創(chuàng)創(chuàng)建臨時(shí)報(bào)告告、計(jì)劃的報(bào)報(bào)告或自助查查詢和分析。推薦引擎 基基于來(lái)自分析析層的分析結(jié)結(jié)果,推薦引引擎可向購(gòu)物物者提供實(shí)時(shí)時(shí)的、相關(guān)的的和個(gè)性化的的推薦,提高高電子商務(wù)交交易中的轉(zhuǎn)換換率和每個(gè)訂訂單的平均價(jià)價(jià)值。該引擎擎實(shí)時(shí)處理可可用信息并動(dòng)動(dòng)態(tài)地響應(yīng)每每個(gè)用戶,響響應(yīng)基于用戶戶的實(shí)
42、時(shí)活動(dòng)動(dòng)、存儲(chǔ)在 CRM 系系統(tǒng)中的注冊(cè)冊(cè)客戶信息,以以及非注冊(cè)客客戶的社交概概況。可視化和發(fā)現(xiàn) 數(shù)據(jù)可跨跨企業(yè)內(nèi)外的的各種聯(lián)邦的的數(shù)據(jù)源進(jìn)行行導(dǎo)航。數(shù)據(jù)據(jù)可能具有不不同的內(nèi)容和和格式,所有有數(shù)據(jù)(結(jié)構(gòu)構(gòu)化、半結(jié)構(gòu)構(gòu)化和非結(jié)構(gòu)構(gòu)化)可組合合來(lái)進(jìn)行可視視化并提供給給用戶。此能能力使得組織織能夠?qū)⑵鋫鱾鹘y(tǒng)的企業(yè)內(nèi)內(nèi)容(包含在在企業(yè)內(nèi)容管管理系統(tǒng)和數(shù)數(shù)據(jù)倉(cāng)庫(kù)中)與與新的社交內(nèi)內(nèi)容(例如 tweett 和博客文文章)組合到到單個(gè)用戶界界面中。垂直層影響邏輯層(大大數(shù)據(jù)來(lái)源、數(shù)數(shù)據(jù)改動(dòng)和存存儲(chǔ)、分析和和使用層)的的所有組件的的各方面都包包含在垂直層層中:信息集成大數(shù)據(jù)治理系統(tǒng)管理服務(wù)質(zhì)量信息集成大數(shù)據(jù)應(yīng)
43、用程序序從各種數(shù)據(jù)據(jù)起源、提供供程序和數(shù)據(jù)據(jù)源獲取數(shù)據(jù)據(jù),并存儲(chǔ)在在 HDFSS、NoSQQL 和 MMongoDDB 等數(shù)據(jù)據(jù)存儲(chǔ)系統(tǒng)中中。這個(gè)垂直直層可供各種種組件使用(例例如數(shù)據(jù)獲取取、數(shù)據(jù)整理理、模型管理理和交易攔截截器),負(fù)責(zé)責(zé)連接到各種種數(shù)據(jù)源。集集成將具有不不同特征(例例如協(xié)議和連連接性)的數(shù)數(shù)據(jù)源的信息息,需要高質(zhì)質(zhì)量的連接器器和適配器??煽梢允褂眉铀偎倨鬟B接到大大多數(shù)已知和和廣泛使用的的來(lái)源。這些些加速器包括括社交媒體適適配器和天氣氣數(shù)據(jù)適配器器。各種組件件還可以使用用這一層在大大數(shù)據(jù)存儲(chǔ)中中存儲(chǔ)信息,從從大數(shù)據(jù)存儲(chǔ)儲(chǔ)中檢索信息息,以便處理理這些信息。大大多數(shù)大數(shù)據(jù)據(jù)存儲(chǔ)都提
44、供供了服務(wù)和 API 來(lái)來(lái)存儲(chǔ)和檢索索該信息。大數(shù)據(jù)治理數(shù)據(jù)治理涉及到到定義指南來(lái)來(lái)幫助企業(yè)制制定有關(guān)數(shù)據(jù)據(jù)的正確決策策。大數(shù)據(jù)治治理有助于處處理企業(yè)內(nèi)或或從外部來(lái)源源傳入的數(shù)據(jù)據(jù)的復(fù)雜性、量量和種類。在在將數(shù)據(jù)傳入入企業(yè)進(jìn)行處處理、存儲(chǔ)、分分析和清除或或歸檔時(shí),需需要強(qiáng)有力的的指南和流程程來(lái)監(jiān)視、構(gòu)構(gòu)建、存儲(chǔ)和和保護(hù)數(shù)據(jù)。除了正常的數(shù)據(jù)據(jù)治理考慮因因素之外,大大數(shù)據(jù)治理還還包含其他因因素:1、管理各種格格式的大量數(shù)數(shù)據(jù)。2、持續(xù)培訓(xùn)和和管理必要的的統(tǒng)計(jì)模型,以以便對(duì)非結(jié)構(gòu)構(gòu)化數(shù)據(jù)和分分析進(jìn)行預(yù)處處理。請(qǐng)記住住,設(shè)置處理理非結(jié)構(gòu)化數(shù)數(shù)據(jù)時(shí)的重要要一步。3、為外部數(shù)據(jù)據(jù)設(shè)置有關(guān)其其保留和使用用的
45、策略和合合規(guī)性制度。4、定義數(shù)據(jù)歸歸檔和清除策策略。5、創(chuàng)建如何跨跨各種系統(tǒng)復(fù)復(fù)制數(shù)據(jù)的策策略。6、設(shè)置數(shù)據(jù)加加密策略。服務(wù)質(zhì)量層此層復(fù)雜定義數(shù)數(shù)據(jù)質(zhì)量、圍圍繞隱私和安安全性的策略略、數(shù)據(jù)頻率率、每次抓取取的數(shù)據(jù)大小小和數(shù)據(jù)過(guò)濾濾器:數(shù)據(jù)質(zhì)量1、完整地識(shí)別別所有必要的的數(shù)據(jù)元素2、以可接受的的新鮮度提供供數(shù)據(jù)的時(shí)間間軸3、依照數(shù)據(jù)準(zhǔn)準(zhǔn)確性規(guī)則來(lái)來(lái)驗(yàn)證數(shù)據(jù)的的準(zhǔn)確性4、采用一種通通用語(yǔ)言(數(shù)數(shù)據(jù)元組滿足足使用簡(jiǎn)單業(yè)業(yè)務(wù)語(yǔ)言所表表達(dá)的需求)5、依據(jù)數(shù)據(jù)一一致性規(guī)則驗(yàn)驗(yàn)證來(lái)自多個(gè)個(gè)系統(tǒng)的數(shù)據(jù)據(jù)一致性6、在滿足數(shù)據(jù)據(jù)規(guī)范和信息息架構(gòu)指南基基礎(chǔ)上的技術(shù)術(shù)符合性圍繞隱私和安全全的策略需要策略來(lái)保護(hù)護(hù)敏感數(shù)
46、據(jù)。從從外部機(jī)構(gòu)和和提供程序獲獲取的數(shù)據(jù)可可能包含敏感感數(shù)據(jù)(比如如 Faceebook 用戶的聯(lián)系系信息或產(chǎn)品品定價(jià)信息)。數(shù)數(shù)據(jù)可以來(lái)源源于不同的地地區(qū)和國(guó)家,但但必須進(jìn)行相相應(yīng)的處理。必必須制定有關(guān)關(guān)數(shù)據(jù)屏蔽和和這類數(shù)據(jù)的的存儲(chǔ)的決策策。考慮以下下數(shù)據(jù)訪問(wèn)策策略:A、數(shù)據(jù)可用性性B、數(shù)據(jù)關(guān)鍵性性C、數(shù)據(jù)真實(shí)性性D、數(shù)據(jù)共享和和發(fā)布E、數(shù)據(jù)存儲(chǔ)和和保留,包括括能否存儲(chǔ)外外部數(shù)據(jù)等問(wèn)問(wèn)題。如果能能夠存儲(chǔ)數(shù)據(jù)據(jù),數(shù)據(jù)可存存儲(chǔ)多長(zhǎng)時(shí)間間?可存儲(chǔ)何何種類型的數(shù)數(shù)據(jù)?F、數(shù)據(jù)提供程程序約束(政政策、技術(shù)和和地區(qū))G、社交媒體使使用條款數(shù)據(jù)頻率提供新鮮數(shù)據(jù)的的頻率是多少少?它是按需需、連續(xù)還是是離線的
47、?抓取的數(shù)據(jù)大小小此屬性有助于定定義可抓取的的數(shù)據(jù)以及每每次抓取后可可使用的數(shù)據(jù)據(jù)大小。過(guò)濾器標(biāo)準(zhǔn)過(guò)濾器會(huì)刪刪除不想要的的數(shù)據(jù)和數(shù)據(jù)據(jù)中的干擾數(shù)數(shù)據(jù),僅留下下分析所需的的數(shù)據(jù)。系統(tǒng)管理系統(tǒng)管理對(duì)大數(shù)數(shù)據(jù)至關(guān)重要要,因?yàn)樗嫔婕暗娇缙髽I(yè)業(yè)集群和邊界界的許多系統(tǒng)統(tǒng)。對(duì)整個(gè)大大數(shù)據(jù)生態(tài)系系統(tǒng)的健康的的監(jiān)視包括:A、管理系統(tǒng)日日志、虛擬機(jī)機(jī)、應(yīng)用程序序和其他設(shè)備備B、關(guān)聯(lián)各種日日志,幫助調(diào)調(diào)查和監(jiān)視具具體情形C、監(jiān)視實(shí)時(shí)警警告和通知D、使用顯示各各種參數(shù)的實(shí)實(shí)時(shí)儀表板E、引用有關(guān)系系統(tǒng)的報(bào)告和和詳細(xì)分析F、設(shè)定和遵守守服務(wù)水平協(xié)協(xié)議G、管理存儲(chǔ)和和容量G、歸檔和管理理歸檔檢索I、執(zhí)行系統(tǒng)恢恢復(fù)、集群管
48、管理和網(wǎng)絡(luò)管管理J、策略管理結(jié)束語(yǔ)對(duì)開(kāi)發(fā)人員而言言,層提供了了一種對(duì)大數(shù)數(shù)據(jù)解決方案案必須執(zhí)行的的功能進(jìn)行分分類的途徑,為為組織建議必必需執(zhí)行這些些功能所需的的代碼。但是是,對(duì)于想要要從大數(shù)據(jù)獲獲取洞察的業(yè)業(yè)務(wù)用戶,考考慮大數(shù)據(jù)需需求和范圍通通常會(huì)有所幫幫助。原子模模式解決了訪訪問(wèn)、處理、存存儲(chǔ)和使用大大數(shù)據(jù)的機(jī)制制,為業(yè)務(wù)用用戶提供了一一種解決需求求和范圍的途途徑。下一篇篇文章將介紹紹用于此用途途的原子模式式。作者: Divvakar等等來(lái)源: DeveeloperrWorkssEnd.大數(shù)據(jù)架構(gòu)和模模式(四)大大數(shù)據(jù)解決方方案的原子模模式和復(fù)合模模式1.原子模式大大數(shù)據(jù)解決方方案有什么特特
49、點(diǎn)?2.原原子模式下的的樣例模式有有哪些?3.復(fù)合模式有有什么特點(diǎn)?簡(jiǎn)介本系列的 第 3 部分 介紹了大數(shù)數(shù)據(jù)解決方案案的邏輯層。這這些層定義了了各種組件,并并對(duì)它們進(jìn)行行分類,這些些組件必須處處理某個(gè)給定定業(yè)務(wù)用例的的功能性和非非功能性需求求。本文基于于層和組件的的概念,介紹紹了解決方案案中所用的典典型原子模式式和復(fù)合模式式。通過(guò)將所所提出的解決決方案映射到到此處提供的的模式,讓用用戶了解需要要如何設(shè)計(jì)組組件,以及從從功能角度考考慮,應(yīng)該將將它們放置在在何處。模式式有助于定義義大數(shù)據(jù)解決決方案的架構(gòu)構(gòu)。利用原子子模式和復(fù)合合模式可以幫幫助進(jìn)一步完完善大數(shù)據(jù)解解決方案的每每個(gè)組件的角角色和責(zé)任
50、。本文介紹原子模模式和復(fù)合模模式。本系列列的最后一篇篇文章將介紹紹解決方案模模式。圖 1. 模式式的類別該圖顯示了一下下模式:原子子模式、復(fù)合合模式和解決決方案模式原子模式對(duì)于大數(shù)據(jù)上下下文中經(jīng)常出出現(xiàn)的問(wèn)題,原原子模式 有有助于識(shí)別數(shù)數(shù)據(jù)如何是被被使用、處理理、存儲(chǔ)和訪訪問(wèn)的。它們們還有助于識(shí)識(shí)別所需的組組件。訪問(wèn)、存存儲(chǔ)和處理來(lái)來(lái)自不同數(shù)據(jù)據(jù)源的多種數(shù)數(shù)據(jù)需要不同同的方法。每每種模式都用用于滿足特定定的需求:例例如,可視化化、歷史數(shù)據(jù)據(jù)分析、社交交媒體數(shù)據(jù)和和非結(jié)構(gòu)化數(shù)數(shù)據(jù)的存儲(chǔ)??煽梢詫⒍喾N原原子模式結(jié)合合使用,組成成一個(gè)復(fù)合模模式。這些原原子模式?jīng)]有有進(jìn)行分層或或排序。例如如,可視化模
51、模式可以與社社交媒體的數(shù)數(shù)據(jù)訪問(wèn)模式式直接交互,可可視化模式還還可以與高級(jí)級(jí)分析處理模模式進(jìn)行交互互。圖 2. 用于于數(shù)據(jù)使用、處處理、數(shù)據(jù)訪訪問(wèn)和存儲(chǔ)的的原子模式的的示例該圖顯示了每種種原子模式下下的樣例模式式的列表數(shù)據(jù)使用模式這種類型的模式式處理使用數(shù)數(shù)據(jù)分析結(jié)果果的各種方式式。本節(jié)包括括的數(shù)據(jù)使用用模式可以滿滿足幾個(gè)需求求。可視化模式可視化數(shù)據(jù)的傳傳統(tǒng)方式以圖圖表、儀表板板和摘要報(bào)告告為基礎(chǔ)。這這些傳統(tǒng)的方方法并不總是是用來(lái)可視化化數(shù)據(jù)的最佳佳方式。大數(shù)據(jù)可視化的的典型需求(包包括新出現(xiàn)的的需求)如下下所示:1、執(zhí)行流數(shù)據(jù)據(jù)的實(shí)時(shí)分析析和顯示2、基于上下文文,以交互方方式挖掘數(shù)據(jù)據(jù)3、執(zhí)
52、行高級(jí)搜搜索,并獲得得建議4、并行可視化化信息5、獲得先進(jìn)的的硬件,支持持未來(lái)的可視視化需求正在進(jìn)行研究,以以確定人類和和機(jī)器如何使使用大數(shù)據(jù)洞洞察。這些挑挑戰(zhàn)包括所涉涉及的數(shù)據(jù)量量,并且需要要將數(shù)據(jù)與上上下文相關(guān)聯(lián)聯(lián)。必須在適適當(dāng)?shù)纳舷挛奈闹酗@示洞察察??梢暬瘮?shù)據(jù)的目目的是為了更更容易、更直直觀地使用數(shù)數(shù)據(jù),因此報(bào)報(bào)告和儀表板板可能提供全全高清的觀看看效果和 33-D 互動(dòng)動(dòng)視頻,并且且可以為用戶戶提供使用應(yīng)應(yīng)用程序控制制業(yè)務(wù)活動(dòng)和和結(jié)果的能力力。即席發(fā)現(xiàn)模式創(chuàng)建滿足所有業(yè)業(yè)務(wù)需求的標(biāo)標(biāo)準(zhǔn)報(bào)告往往往是不可行的的,因?yàn)槠髽I(yè)業(yè)的業(yè)務(wù)數(shù)據(jù)據(jù)查詢會(huì)有不不同的需求。用用戶在查找特特定信息時(shí),可可能需要
53、獲得得根據(jù)問(wèn)題的的上下文執(zhí)行行即席查詢的的能力。即席分析可以幫幫助數(shù)據(jù)科學(xué)學(xué)家和關(guān)鍵業(yè)業(yè)務(wù)用戶了解解業(yè)務(wù)數(shù)據(jù)的的行為。即席席處理中涉及及的復(fù)雜性來(lái)來(lái)自多種因素素:1、多個(gè)數(shù)據(jù)源源可用于相同同的域。2、單一的查詢?cè)兛梢杂卸鄠€(gè)個(gè)結(jié)果。3、輸出可以是是靜態(tài)的,并并具有多種格格式(視頻、音音頻、圖形和和文本)。4、輸出可以是是動(dòng)態(tài)和交互互式的。加強(qiáng)傳統(tǒng)的數(shù)據(jù)據(jù)存儲(chǔ)在大數(shù)據(jù)的初步步探索中,許許多企業(yè)選擇擇使用現(xiàn)有的的分析平臺(tái)來(lái)來(lái)降低成本,并并依賴于現(xiàn)有有的技能。加加強(qiáng)現(xiàn)有的數(shù)數(shù)據(jù)存儲(chǔ)有助助于拓寬可用用于現(xiàn)有分析析的數(shù)據(jù)的范范圍,包括駐駐留在組織邊邊界內(nèi)外的數(shù)數(shù)據(jù),比如社社交媒體數(shù)據(jù)據(jù),它可以豐豐富主數(shù)據(jù)
54、。通通過(guò)拓寬數(shù)據(jù)據(jù)范圍,使之之包含現(xiàn)有存存儲(chǔ)中的新事事實(shí)表、維度度和主數(shù)據(jù),并并從社交媒體體獲取客戶數(shù)數(shù)據(jù),組織可可以獲得更深深入的客戶洞洞察。但要牢記的是,新新的數(shù)據(jù)集通通常比較大,而而現(xiàn)有的提取取、轉(zhuǎn)換和加加載工具可能能不足以處理理它。您可能能需要使用具具有大規(guī)模并并行處理能力力的高級(jí)工具具來(lái)解決數(shù)據(jù)據(jù)的數(shù)量、多多樣性、真實(shí)實(shí)性和速度特特征。通知模式大數(shù)據(jù)洞察使人人類、企業(yè)和和機(jī)器可以通通過(guò)使用事件件通知而立即即采取行動(dòng)。通通知平臺(tái)必須須能夠處理及及時(shí)發(fā)送出去去的預(yù)計(jì)數(shù)量量的通知。這這些通知與大大量郵件或群群發(fā)短信不同同,因?yàn)閮?nèi)容容一般是特定定于使用者的的。例如,推推薦引擎可以以提供有關(guān)世
55、世界各地的龐龐大客戶群的的洞察,而且且可以將通知知發(fā)送給這樣樣的客戶。啟動(dòng)一個(gè)自動(dòng)響響應(yīng)模式從大數(shù)據(jù)獲得的的業(yè)務(wù)洞察,可可用于觸發(fā)或或啟動(dòng)其他業(yè)業(yè)務(wù)流程或事事務(wù)。處理模式無(wú)論數(shù)據(jù)是處于于靜止?fàn)顟B(tài)還還是在運(yùn)動(dòng)中中,都可以處處理大數(shù)據(jù)。具具體情況取決決于分析的復(fù)復(fù)雜性,有可可能不需要對(duì)對(duì)數(shù)據(jù)進(jìn)行實(shí)實(shí)時(shí)處理。這這種模式解決決了對(duì)大數(shù)據(jù)據(jù)進(jìn)行實(shí)時(shí)、近近實(shí)時(shí)或批量量處理的方式式。以下高級(jí)的大數(shù)數(shù)據(jù)處理類別別適用于大多多數(shù)分析。這這些類別通常常也適用于基基于 RDBBMS 的傳傳統(tǒng)系統(tǒng)。惟惟一的區(qū)別是是龐大規(guī)模的的數(shù)據(jù)、多樣樣性和速度。在在處理大數(shù)據(jù)據(jù)時(shí),要使用用機(jī)器學(xué)習(xí)、復(fù)復(fù)雜事件處理理、事件流處處理、
56、決策管管理和統(tǒng)計(jì)模模型管理等技技術(shù)。歷史數(shù)據(jù)分析模模式傳統(tǒng)的歷史數(shù)據(jù)據(jù)分析僅限于于預(yù)定義的數(shù)數(shù)據(jù)時(shí)間段,這這通常取決于于數(shù)據(jù)保留策策略。由于處處理和存儲(chǔ)的的限制,超出出此時(shí)間段的的數(shù)據(jù)通常會(huì)會(huì)被歸檔或清清除。基于 Hadooop 的系統(tǒng)統(tǒng)和其他等效效的系統(tǒng)可以以克服這些限限制,因?yàn)樗鼈兙哂胸S富富的存儲(chǔ)以及及分布式大規(guī)規(guī)模并行處理理能力。運(yùn)營(yíng)營(yíng)、業(yè)務(wù)和數(shù)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)數(shù)據(jù)被移動(dòng)到到大數(shù)據(jù)存儲(chǔ)儲(chǔ),您通過(guò)使使用大數(shù)據(jù)平平臺(tái)功能對(duì)它它們進(jìn)行處理理。歷史分析包括分分析給定時(shí)間間段、季節(jié)組組合和產(chǎn)品的的歷史趨勢(shì),并并與最新的可可用數(shù)據(jù)進(jìn)行行比較。為了了能夠存儲(chǔ)和和處理如此龐龐大的數(shù)據(jù),您您可以使用 HDF
57、S、NNoSQL、SSPSS 和 InffoSpheere BBigInssightss。高級(jí)分析模式大數(shù)據(jù)提供了很很多實(shí)現(xiàn)創(chuàng)意意洞察的機(jī)會(huì)會(huì)。不同的數(shù)數(shù)據(jù)集可以在在多種上下文文中存在關(guān)聯(lián)聯(lián)。發(fā)現(xiàn)這些些關(guān)系需要?jiǎng)?chuàng)創(chuàng)新的復(fù)雜算算法和技術(shù)。高級(jí)分析包括預(yù)預(yù)測(cè)、決策、推推理過(guò)程、模模擬、上下文文信息標(biāo)識(shí)和和實(shí)體解析。高高級(jí)分析的應(yīng)應(yīng)用包括生物物統(tǒng)計(jì)數(shù)據(jù)分分析(例如,DDNA 分析析)、空間分分析、基于位位置的分析、科科學(xué)分析、研研究,等等。高高級(jí)分析要求求大量的計(jì)算算來(lái)管理大量量的數(shù)據(jù)。數(shù)據(jù)科學(xué)家可以以指導(dǎo)您識(shí)別別合適的技術(shù)術(shù)、算法和數(shù)數(shù)據(jù)集,以及及在給定上下下文中解決問(wèn)問(wèn)題所需的數(shù)數(shù)據(jù)源。比如如
58、SPSSS、InfooSpherre Strreams 和 InffoSpheere BiigInsiights 等工具提供供了這類功能能。這些工具具訪問(wèn)存儲(chǔ)在在大數(shù)據(jù)存儲(chǔ)儲(chǔ)系統(tǒng)(比如如 BigTTable、HHBase,等等等)中的非非結(jié)構(gòu)化數(shù)據(jù)據(jù)和結(jié)構(gòu)化數(shù)數(shù)據(jù)(例如,JJSON 數(shù)數(shù)據(jù))。預(yù)處理原始數(shù)據(jù)據(jù)模式大數(shù)據(jù)解決方案案主要由基于于 MapRReducee 的 Haadoop 系統(tǒng)和技術(shù)術(shù)組成,MaapReduuce 是開(kāi)開(kāi)箱即用的分分布式存儲(chǔ)和和處理解決方方案。然而,從從非結(jié)構(gòu)化數(shù)數(shù)據(jù)提取數(shù)據(jù)據(jù)(例如,圖圖像、音頻、視視頻、二進(jìn)制制提要,甚至至是文本)是是一項(xiàng)復(fù)雜的的任務(wù),需要要具有
59、機(jī)器學(xué)學(xué)習(xí)能力并掌掌握自然語(yǔ)言言處理等技術(shù)術(shù)。另一個(gè)主主要挑戰(zhàn)是如如何驗(yàn)證這些些技術(shù)和算法法的輸出的準(zhǔn)準(zhǔn)確度和正確確性。要對(duì)任何數(shù)據(jù)執(zhí)執(zhí)行分析,數(shù)數(shù)據(jù)都必須是是某種結(jié)構(gòu)化化格式。從多多個(gè)數(shù)據(jù)源訪訪問(wèn)的非結(jié)構(gòu)構(gòu)化數(shù)據(jù)可以以按原樣存儲(chǔ)儲(chǔ),然后被轉(zhuǎn)轉(zhuǎn)化成結(jié)構(gòu)化化數(shù)據(jù)(例如如 JSONN),并被再再次存儲(chǔ)到大大數(shù)據(jù)存儲(chǔ)系系統(tǒng)中。非結(jié)結(jié)構(gòu)化文本可可以轉(zhuǎn)換成半半結(jié)構(gòu)化或結(jié)結(jié)構(gòu)化數(shù)據(jù)。同同樣,圖像、音音頻和視頻數(shù)數(shù)據(jù)需要轉(zhuǎn)換換成可用于分分析的格式。此此外,使用預(yù)預(yù)測(cè)和統(tǒng)計(jì)算算法的高級(jí)分分析的準(zhǔn)確性性和正確性取取決于用來(lái)訓(xùn)訓(xùn)練其模型的的數(shù)據(jù)和算法法的數(shù)量。下面的列表顯示示了將非結(jié)構(gòu)構(gòu)化數(shù)據(jù)轉(zhuǎn)換換成結(jié)構(gòu)化數(shù)數(shù)據(jù)
60、所需的算算法和活動(dòng):1、文檔和文本本分類2、特征提取3、圖像和文本本分割4、關(guān)聯(lián)特征、變變量和時(shí)間,然然后提取包含含時(shí)間的值5、輸出的準(zhǔn)確確度檢查使用用了混淆矩陣陣(conffusionn matrrix)等技技術(shù)和其他手手動(dòng)活動(dòng)數(shù)據(jù)科學(xué)家可以以幫助用戶選選擇合適的技技術(shù)和算法。即席分析模式處理大數(shù)據(jù)的即即席查詢所帶帶來(lái)的挑戰(zhàn)不不同于對(duì)結(jié)構(gòu)構(gòu)化數(shù)據(jù)執(zhí)行行即席查詢時(shí)時(shí)所面臨的挑挑戰(zhàn),由于數(shù)數(shù)據(jù)源和數(shù)據(jù)據(jù)格式不是固固定的,所以以需要使用不不同的機(jī)制來(lái)來(lái)檢索和處理理數(shù)據(jù)。雖然大數(shù)據(jù)供應(yīng)應(yīng)商可以處理理簡(jiǎn)單的即席席查詢,但在在大多數(shù)情況況下,查詢是是復(fù)雜的,因因?yàn)楸仨氃谶\(yùn)運(yùn)行時(shí)動(dòng)態(tài)地地發(fā)現(xiàn)數(shù)據(jù)、算算法、
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025至2031年中國(guó)汽車(chē)功放散熱器行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2031年中國(guó)棒式磁選機(jī)行業(yè)投資前景及策略咨詢研究報(bào)告
- 2024年石料運(yùn)輸服務(wù)協(xié)議2篇
- 體育培訓(xùn)行業(yè)學(xué)員意外傷害預(yù)防與免責(zé)協(xié)議
- 企業(yè)綠色采購(gòu)供應(yīng)鏈合作協(xié)議
- 通信設(shè)備銷(xiāo)售及安裝合同
- 二零二五年度大型商業(yè)項(xiàng)目裝修施工安裝合同范本2篇
- 工程項(xiàng)目設(shè)計(jì)咨詢服務(wù)合同
- 2024年試驗(yàn)檢測(cè)設(shè)備租賃與技術(shù)服務(wù)協(xié)議版B版
- 文化創(chuàng)意產(chǎn)業(yè)園區(qū)運(yùn)營(yíng)協(xié)議
- 客服年終總結(jié)不足之處及改進(jìn)計(jì)劃(五篇)
- 錨桿支護(hù)質(zhì)量檢查驗(yàn)收表
- GB/T 17238-2008鮮、凍分割牛肉
- 神通數(shù)據(jù)庫(kù)管理系統(tǒng)v7.0企業(yè)版-2實(shí)施方案
- 人體內(nèi)臟器官結(jié)構(gòu)分布圖詳解
- 八年級(jí)上冊(cè)科學(xué)(浙教版)復(fù)習(xí)提綱
- 基金會(huì)項(xiàng)目基金捐贈(zèng)立項(xiàng)表
- OCT青光眼及視野報(bào)告
- 人音版小學(xué)音樂(lè)四年級(jí)下冊(cè)課程綱要
- 初中語(yǔ)文人教七年級(jí)上冊(cè)朝花夕拾學(xué)生導(dǎo)讀單
- 山西鄉(xiāng)寧焦煤集團(tuán)臺(tái)頭煤焦公司礦井兼并重組整合項(xiàng)目初步設(shè)計(jì)安全專篇
評(píng)論
0/150
提交評(píng)論