大數(shù)據(jù)分析解決方案50_第1頁
大數(shù)據(jù)分析解決方案50_第2頁
大數(shù)據(jù)分析解決方案50_第3頁
大數(shù)據(jù)分析解決方案50_第4頁
大數(shù)據(jù)分析解決方案50_第5頁
已閱讀5頁,還剩42頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)分析解決方案50

【文章摘要】大數(shù)據(jù)的性質(zhì)是有他的三個特點(數(shù)據(jù)量大、種類多、處理速度快)決定的,

數(shù)據(jù)分析的角色與作用理所當(dāng)然是由大數(shù)據(jù)的性質(zhì)決定的。當(dāng)數(shù)據(jù)分析作用于大數(shù)據(jù)時,大

數(shù)據(jù)務(wù)必身兼數(shù)職。意思就是數(shù)據(jù)分析在一個組織中扮演著多種角色與擔(dān)負(fù)著多重責(zé)任。

數(shù)據(jù)分析的職位是由DJPatil與JeffHammerbacher制定的,他們試圖稱呼數(shù)據(jù)組的同事

們,而又不想由于稱呼而限制他們的能力o(becauseofimproperjobtitlelikebusinessanalyst

orresearchscientistBuildingDataScienceTeams)

隨著大數(shù)據(jù)在驅(qū)動企業(yè)成功中越來越有決定性作用,數(shù)據(jù)分析也變得越來越受歡迎。然

而,一些領(lǐng)導(dǎo)者對數(shù)據(jù)分析扮演的角色與它所起的作用仍然不是很了解,就像很多時候領(lǐng)

導(dǎo)者不明白怎么從大數(shù)據(jù)中抽取有用的信息,盡管很清晰的明白這些大數(shù)據(jù)是很可信的。他

們的腳步落后了一一他們的眼光在大數(shù)據(jù)的利用上其實是模糊的。

大數(shù)據(jù)的性質(zhì)是有他的三個特點(數(shù)據(jù)量大、種類多、處理速度快)決定的,數(shù)據(jù)分析

的角色與作用理所當(dāng)然是由大數(shù)據(jù)的性質(zhì)決定的。當(dāng)數(shù)據(jù)分析作用于大數(shù)據(jù)時,大數(shù)據(jù)務(wù)必

身兼數(shù)職。意思就是數(shù)據(jù)分析在一個組織中扮演著多種角色與擔(dān)負(fù)著多重責(zé)任。

多種知識的掌握

為熟悉決數(shù)據(jù)量大的問題,大數(shù)據(jù)平臺(比如:ApacheHadoop>L函sNexisHPPC)要求

數(shù)據(jù)是被整理過的。數(shù)據(jù)分析員應(yīng)該具有大數(shù)據(jù)平臺應(yīng)用的全方位知識,這樣才能熟練的應(yīng)

用數(shù)據(jù)平臺處理大數(shù)據(jù)。數(shù)據(jù)分析元應(yīng)當(dāng)具有下列知識:

1、熟悉大數(shù)據(jù)平臺的框架,比如:DFS與MapReduce,他們的編程框架提供強大的應(yīng)

用程序設(shè)計。這就意味著數(shù)據(jù)分析員還要有軟件構(gòu)筑與設(shè)計的能力。

2、熟知大數(shù)據(jù)平臺支持的編程語言,比如:Java,Python,C++,orECL,等等。

3、具有熟練的數(shù)據(jù)庫知識,特別是用到SQL語言的數(shù)據(jù)庫,像:HBase,CouchDB,等等。

由于大數(shù)據(jù)平臺經(jīng)常需要數(shù)據(jù)庫來存儲與轉(zhuǎn)換數(shù)據(jù)。

4、具有數(shù)學(xué)/統(tǒng)計學(xué)、機器學(xué)習(xí)、數(shù)據(jù)挖掘領(lǐng)域的專業(yè)知識。

一個企業(yè)的成功不是由數(shù)據(jù)量決定的,而是由能否成功的從大數(shù)據(jù)中發(fā)現(xiàn)與抽取有用的

知識模式與關(guān)系決定的,然后用這些有價值的信息制造出有價值的產(chǎn)品。統(tǒng)計學(xué)、機器學(xué)

習(xí)與數(shù)據(jù)挖掘能夠很好的用于懂得數(shù)據(jù)與發(fā)掘數(shù)據(jù)的價值。自然,為了成功數(shù)據(jù)分析者務(wù)必

具備這些領(lǐng)域的專門知識。會使用一些數(shù)據(jù)挖掘工具或者者平臺(比如:R,Excel,SPSSand

SAS)是最好的,能夠《TopAnalyticsandbigdatasoftwaretools》這本書。

5、熟練應(yīng)用自然語言處理的軟件或者工具。大數(shù)據(jù)的內(nèi)容大都來自于文本文件、新聞、

社交媒體與報告、建議書等等。因此熟悉與掌握至少一種自然語言處理軟件或者工具關(guān)于做

一個成功的分析者起著決定性的作用。

6、應(yīng)用至少一種數(shù)據(jù)可視化工具。為了更有效的演示數(shù)據(jù)存在的模式與關(guān)系,能應(yīng)用

好數(shù)據(jù)可視化工具無疑是對數(shù)據(jù)分析員的一個加分。這里有20款數(shù)據(jù)可視化工具的鏈接。

創(chuàng)新----好奇

隨著數(shù)據(jù)變化速度的加快,經(jīng)常也會有新的發(fā)現(xiàn)與問題出現(xiàn),數(shù)據(jù)分析員應(yīng)該對那些變

化敏感、對新發(fā)現(xiàn)好奇,同時找出應(yīng)對新問題的方法。他/她也要熱情的及時相互溝通,從

新問題中探索新產(chǎn)品的思路與解決方案,成為產(chǎn)品創(chuàng)新的駕馭者。

商業(yè)技能

首先,數(shù)據(jù)分析員多元化的性質(zhì)決定了數(shù)據(jù)分析員要好很強的溝通能力,在企業(yè)里數(shù)據(jù)

分析員務(wù)必與不一致的人溝通,其中包含:溝通與懂得業(yè)務(wù)需求、應(yīng)用程序的要求、把數(shù)

據(jù)的模式與關(guān)系翻譯給市場部、產(chǎn)品開發(fā)組與公司高管看。關(guān)于企業(yè)來說有效的溝通是及時

采取行動應(yīng)對大數(shù)據(jù)新發(fā)現(xiàn)的關(guān)鍵。數(shù)據(jù)分析員應(yīng)該是能聯(lián)系所有,很好的溝通者。

第二、數(shù)據(jù)分析員要具有良好的規(guī)劃與組織能力。這樣他/她才能巧妙地處理多個任務(wù)、

樹立正確的優(yōu)先順序、保證按時完成任務(wù)。

第三,數(shù)據(jù)分析員應(yīng)該具有說服力、激情、與演講能力。才能引導(dǎo)人們基于數(shù)據(jù)的發(fā)現(xiàn)

做出正確的決定,讓人們相信新發(fā)現(xiàn)的價值。數(shù)據(jù)分析員在某種意義上說是領(lǐng)導(dǎo)者,驅(qū)動產(chǎn)

品創(chuàng)新。

所有這些大數(shù)據(jù)的性質(zhì)決定了數(shù)據(jù)分析員該具備的技巧與他們在企業(yè)中扮演的角色。

當(dāng)數(shù)據(jù)以成百上千TB不斷增長的時候,我們需要一種特殊技術(shù)來應(yīng)對這種前所未有的挑戰(zhàn)。

大數(shù)據(jù)分析迎來大時代

全球各行各業(yè)的組織機構(gòu)已經(jīng)意識到,最準(zhǔn)確的商務(wù)決策來自于事實,而不是憑空臆想。這

也就意味著,他們需要在內(nèi)部交易系統(tǒng)的歷史信息之外,使用基于數(shù)據(jù)分析的決策模型與技

術(shù)支持?;ヂ?lián)網(wǎng)點擊數(shù)據(jù)、傳感數(shù)據(jù)、日志文件、具有豐富地理空間信息的移動數(shù)據(jù)與涉及

網(wǎng)絡(luò)的各類評論,成為了海量信息的多種形式。

極具挑戰(zhàn)性的是,傳統(tǒng)的數(shù)據(jù)庫部署不能處理數(shù)TB數(shù)據(jù),也不能很好的支持高級別的數(shù)據(jù)

分析。在過去十幾年中,大規(guī)模并行處理(MPP)平臺與列存儲數(shù)據(jù)庫開啟了新一輪數(shù)據(jù)

分析史上的革命。而且近年來技術(shù)不斷進展,我們開始看到,技術(shù)升級帶來的已知架構(gòu)之間

的界限變得更加模糊。更為重要的是,開始逐步出現(xiàn)了處理半結(jié)構(gòu)化與非結(jié)構(gòu)化信息的

NoSQL等平臺。

圖3

.||todsstorenowquery

mobiledatabases&compressionb,e

由jH蚓您e產(chǎn)朝abase

processing

■■information

analysis1

examplecolumn-store

大數(shù)據(jù)分析迎來大時代

本文中,我們將向大家介紹迄今為止,包含EMC的Greenplum、Hadoop與MapReduce

等提供大數(shù)據(jù)分析的產(chǎn)品。此外,惠普前段時間收購實時分析平臺Vertica、舊M獨立的基

于DB2智能分析系統(tǒng)與Netezza的有關(guān)產(chǎn)品。當(dāng)然,也有微軟的ParallelDataWarehouse、

SAP旗下公司Sybase的SybaseIQ數(shù)據(jù)倉庫分析工具等。下面,就讓我們來熟悉業(yè)界大

數(shù)據(jù)分析的這十二大產(chǎn)品:

1.模塊化EMCAppliance處理多種數(shù)據(jù)類型

2010年EMC收購了Greenplum,隨后,利用EMC自身存儲硬件與支持復(fù)制與備份功能

的Greenplum大規(guī)模并行處理(MPP)數(shù)據(jù)庫,推出了EMCGreenplumDataComputing

Appliance(DCA)。通過與SAS與MapR等合作伙伴,DCA擴大了對Greenplum的數(shù)據(jù)庫

支持。

支持大數(shù)據(jù)分析的EMCAppliance

今年5月,EMC推出了自己的Hadoop軟件工具,而且該公司還承諾,今年秋季公布的模

塊化DCA將支持GreenplumSQL/關(guān)系型數(shù)據(jù)庫,Hadoop部署也能在同樣的設(shè)備上得到

支持。借助Hadoop,EMC能夠解決諸如網(wǎng)絡(luò)點擊數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)等真正大數(shù)據(jù)分析的

困難。模塊化的DCA也能夠在同樣的設(shè)備上支持長期保留的高容量的存儲模塊,從而滿足

監(jiān)測需求。

2.Hadoop與MapReduce提煉大數(shù)據(jù)

Hadoop是一個開放源碼的分布式數(shù)據(jù)處理系統(tǒng)架構(gòu),要緊面向存儲與處理結(jié)構(gòu)化、半結(jié)構(gòu)

化或者非結(jié)構(gòu)化、真正意義上的大數(shù)據(jù)(通常成百上千的TB甚至PB級別數(shù)據(jù))應(yīng)用。網(wǎng)

絡(luò)點擊與社交媒體分析應(yīng)用,正在極大地推動應(yīng)用需求。Hadoop提供的MapReduce(與

其他一些環(huán)境)是處理大數(shù)據(jù)集理想解決方案。

MapReduce能將大數(shù)據(jù)問題分解成多個子問題,將它們分配到成百上千個處理節(jié)點之上,

然后將結(jié)果匯合到一個小數(shù)據(jù)集當(dāng)中,從而更容易分析得出最后的結(jié)果。

MapReduce

?simpleprogrammingmodel

?generalizescommonpattern

MapReduce結(jié)構(gòu)圖

Hadoop能夠運行在低成本的硬件產(chǎn)品之上,通過擴展能夠成為商業(yè)存儲與數(shù)據(jù)分析的替代

方案。它已經(jīng)成為很多互聯(lián)網(wǎng)巨頭,比如AOL、eHarmony(美國在線約會網(wǎng)站)、易趣、

Facebook.Twitter與NeMix大數(shù)據(jù)分析的要緊解決方案。也有更多傳統(tǒng)的巨頭公司比如摩

根大通銀行,也正在考慮使用這一解決方案。

3.惠普Vertica電子商務(wù)分析

今年二月被惠普收購的Vertica,是能提供高效數(shù)據(jù)存儲與快速查詢的列存儲數(shù)據(jù)庫實時分

析平臺。相比傳統(tǒng)的關(guān)系數(shù)據(jù)庫,更低的保護與運營成本,就能夠獲得更快速的部署、運行

與保護。該數(shù)據(jù)庫還支持大規(guī)模并行處理(MPP)。在收購之后,惠普隨即推出了基于x86

硬件的HPVertica,通過MPP的擴展性能夠讓Vertica為高端數(shù)字營銷、電子商務(wù)客戶(比

如AOL、Twitter.Groupon)分析處理的數(shù)據(jù)達到PB級。

TheAnalyticsPlatform

Real-TimeAnalytics

FastestAgile

Time-to-ValueEnvironment

惠普Vertica實時分析平臺

事實上,早在惠普收購之前,Vertica就推出有包含內(nèi)存、閃存快速分析等一系列創(chuàng)新產(chǎn)品。

它是首個新增Hadoop鏈接支持客戶管理關(guān)系型數(shù)據(jù)的產(chǎn)品之一,也是首個基于云部署風(fēng)險

的產(chǎn)品平臺之一。目前,Vertica支持惠普的云服務(wù)自動化解決方案。

4.IBM提供運維與分析數(shù)據(jù)倉庫

去年,舊M推出了基于DB2的SmartAnalyticSystem(圖中左側(cè)),那么它為何還要收購

另外的Netezza方案平臺呢?由于前者是具備高擴展性企業(yè)數(shù)據(jù)倉庫的平臺,能夠支持成

千上萬的用戶與各類應(yīng)用操作。比如,呼叫中心通常擁有大量的雇員需要快速回?fù)芸蛻舻臍v

史通話記錄。SmartAnalyticSystem提供了整合信息的DB2數(shù)據(jù)庫,預(yù)配置CognosBl

軟件模塊,能夠在舊MPowerSystem(RISC或者者X86架構(gòu))上運行。

IB"NOIQZZm4gh

CapacityApphanco

?to10?Ft

TheIBMN?t*zza,000Extendsth*>pc*>nc?

tsah>gf>p??form>n<?fttwhionewthemes

0,3(“?(電

botitmtan3MKs3

im

SmartAnalyticSystem及Netezza

Netezza致力于為數(shù)字化營銷公司、電信、與其他挖掘成百上千TB甚至PB級別數(shù)據(jù)的公

司,提供高可擴展分析應(yīng)用的解決方案。舊M的NetezzaTwinFin數(shù)據(jù)倉庫設(shè)備,支持大規(guī)

模并行處理,能夠在一天時間內(nèi)部署完畢。Netezza支持多種語言與方式進行數(shù)據(jù)庫分析,

其中包含Java、C、C++、Python與MapReduce。與此同時,它還支持如SAS,IBMSPSS

使用的矩陣操作方法與R編程語言。舊MNetezza最近增加了一個高容量長期存檔設(shè)備以

滿足更多要求。

5.lnfobright減少DBA工作量與查詢時間

Infobright列存儲數(shù)據(jù)庫,旨在為數(shù)十TB級別數(shù)據(jù)提供各類分析服務(wù)。而這一塊也正是甲

骨文與微軟SQLServer的核心市場之一。InfoBright還表示,建立在MySQL基礎(chǔ)之上的

數(shù)據(jù)庫也提供了另外--種選擇,它專門針對分析應(yīng)用、低成本簡化勞動力工作、交付高性能

的服務(wù)進行設(shè)計。

列存儲數(shù)據(jù)庫能夠自動創(chuàng)建索引,而且無需進行數(shù)據(jù)分區(qū)與DBA調(diào)整。相比傳統(tǒng)數(shù)據(jù)庫,

它能夠減少90%的人工工作量,而且由于其使用高數(shù)據(jù)壓縮,在數(shù)據(jù)庫許可與存儲等方面

的開支也能夠減少一半。

TheKnowledgeGridResolvesQueries

CompressedDatay

KnowledgeGrid查詢引擎

InfoBright最新的4.0版本產(chǎn)品,新增了一個DomainExpert的功能。企業(yè)用戶能夠借此忽

略不斷重復(fù)的那些數(shù)據(jù),比如郵箱地址、URL與IP地址。與此同時,公司還能夠增加與

呼叫記錄、業(yè)務(wù)交易或者者地理位置信息有關(guān)的數(shù)據(jù)。KowledgeGrid查詢引擎則能夠幫助

過濾那些靜態(tài)數(shù)據(jù)而只關(guān)注那些變化的數(shù)據(jù)。也就是說,它能夠幫助節(jié)約數(shù)據(jù)查詢的時間,

由于那些無關(guān)的數(shù)據(jù)無需進行解壓縮與篩選。

6.Kognitio提供三倍速度與虛擬多維數(shù)據(jù)集

Kognitio是一家本身不生產(chǎn)硬件產(chǎn)品的數(shù)據(jù)庫廠商,它看到了客戶對快速部署的廣泛興趣與

市場需求,推出了在惠普、舊M硬件產(chǎn)品上預(yù)配置有WX2數(shù)據(jù)庫的Lakes.Rivers與Rapids

解決方案。

Lakes能夠以低成本、10TB數(shù)據(jù)存儲與每個模塊48個運算核心提供大容量存儲服務(wù)。電

信或者金融服務(wù)公司,能夠使用這種配置來掃描大量的分支結(jié)構(gòu)的各類信息記錄。Rivers

則提供了容量與速度之間的平衡,預(yù)配置為2.5TB存儲容量,它的每個模塊擁有48個運算

核心。而追求查詢性能的Rapids,其預(yù)配置提供有96個運算核心,每個模塊僅僅為1.5TB。

該產(chǎn)品方案要緊針對金融公司在算法交易或者者其他高性能要求方面的需求。

kognitioCompetitiveAdvantagefromData

TrainofThoughtAnalytics

usingVirtualCubes

poweredbyWX2

L9"nAboutP?Mo.th?

bEM09皿tuppoHir9contpitiOLAP

butKMMth?MMxh*of

WMtbouvnaMaS*r?TQ<WXTh物MArMtiCBmmg

CMbyWX?

In-MemoryDataWarehousingandDataAnalytics

Kognitio基于內(nèi)存運算的數(shù)據(jù)倉庫與數(shù)據(jù)分析

今年,Kognitio新增了一個虛擬化OLAP風(fēng)格的Pablo分析引擎。它提供了靈活的、為企

業(yè)用戶進行分析的解決方案。用戶可升級選用WX2構(gòu)建一個虛擬多維數(shù)據(jù)集。因此,WX2

數(shù)據(jù)庫中任何一個維度的數(shù)據(jù)都可在內(nèi)存中用于快速分析。這種分析的前端接口是我們常見

的MicrosoftExcel0

7.微軟SQLServer新增PDW功能

今年年初微軟公布的SQLServerR2ParallelDataWarehouse(PDW,并行數(shù)據(jù)倉庫),

一改以往SQLServer部署時間需要花費兩年半時間的歷史,它能夠幫助客戶擴展部署數(shù)

百TB級別數(shù)據(jù)的分析解決方案。支持這一產(chǎn)品的包含有合作伙伴惠普的硬件平臺。公布之

初,盡管微軟官網(wǎng)提供有讓利折扣,但PDW售價仍超過13000美元/TB(用戶與硬件訪問

量)。

*'Server2ooe

Report^Serwc?

SQLServer2008

FasthackDataWarehouse

SQLServerPDW

與很多產(chǎn)品一樣,PDW使用了大規(guī)模并行處理來支持高擴展性,但微軟進入這一市場實屬

“姍姍來遲”,而且在一定程度上說,數(shù)據(jù)倉庫分析與內(nèi)存分析計算市場落下了后腿。目前,

微軟寄希望于其整體數(shù)據(jù)庫平臺在市場上帶來的差異化競爭力。這意味著,所有沿襲了基于

微軟平臺的數(shù)據(jù)與數(shù)據(jù)管理,將被廣泛應(yīng)用在信息集成領(lǐng)域——ReportingandAnalysis

Services,而這一切都基于SQLServer數(shù)據(jù)庫。

微軟在今年10月12日通過推出ApacheHadoop與有關(guān)的SQLAzureHadoop服務(wù),宣

布進入大數(shù)據(jù)領(lǐng)域。Azure服務(wù)將在2011年底亮相,而相應(yīng)的本地配套軟件要在明年上半

年推出,現(xiàn)在也不清晰微軟是否會與其他硬件合作伙伴或者者有關(guān)大數(shù)據(jù)設(shè)備廠商合作。

8.甲骨文講述EngineeredSystems的故事

甲骨文表示,Exadata(圖中左側(cè))是迄今以來公布的產(chǎn)品中最為成功的產(chǎn)品,自從2008

年推出以來,已經(jīng)擁有超過1000名客戶。而engineeredsystem使得甲骨文11g數(shù)據(jù)庫,

能夠支持基于X86的數(shù)據(jù)處理與磁盤存儲層,其閃存緩存也使得能夠?qū)崿F(xiàn)超快速查詢處理。

它既可應(yīng)用在任意事務(wù)環(huán)境中,也能夠應(yīng)用在數(shù)據(jù)倉庫(但不能同時進行)。Exadata的混

合柱狀壓縮能夠?qū)崿F(xiàn)列存儲數(shù)據(jù)庫的某些高效率特點,提供高達10:1的壓縮比,而大部分

行存儲數(shù)據(jù)庫的平均壓縮比為4:1。

甲骨文在9月通過宣布OracleSuperCluster(圖中右側(cè)),擴展了engineeredsystems產(chǎn)

品家族。它使用了最新的SunSparcT-4芯片。SuperCluster支持全機架/半機架配置,而

且用戶能夠在半機架容量基礎(chǔ)上進行擴容。滿額配置提供有1200個CPU線程,4TB內(nèi)存,

97TB至198TB磁盤存儲,8.66TB閃存。

OracleExadataDatabastMachineX2*8OracleSPARCT4-4

甲骨文大數(shù)據(jù)分析系統(tǒng)設(shè)施

甲骨文聲稱,SuperCluster事務(wù)處理與數(shù)據(jù)倉庫性能相比傳統(tǒng)服務(wù)器架構(gòu)能分別帶來10倍

與50倍速度提升。但作為一個專有的Unix機器,甲骨文想通過SuperCluster,在面向x86

硬件的數(shù)據(jù)倉庫部署遷移大潮中力挽狂瀾。甲骨文的Exadata與Exalogic都基于x86架構(gòu)

而且運行Linux系統(tǒng)。

在十月召開的OracleOpenWorld中,甲骨文宣布將新增一個分布式pacheHadoop軟件與

有關(guān)的大數(shù)據(jù)設(shè)備。甲骨文也計劃推出一個獨立的基于開源BerkeleyDB產(chǎn)品的NoSQL。

9.ParAccel大打列存儲、MPP與數(shù)據(jù)庫分析組合拳

ParAccel是ParAccelAnalyticDatabase(PADB)的開發(fā)廠商----提供快速、選擇性查詢

與列存儲數(shù)據(jù)庫,并基于大規(guī)模并行處理優(yōu)勢特點的產(chǎn)品。該公式表示,其平臺支持一系列

針對各類復(fù)雜、先進應(yīng)用的工作負(fù)載報告與分析。

ParAccel大數(shù)據(jù)解決方案

內(nèi)置的分析算法能夠為分析師提供高級數(shù)學(xué)運算、數(shù)據(jù)統(tǒng)計、與數(shù)據(jù)挖掘等各類功能,同時,

它還提供一個開放的API,能夠擴展數(shù)據(jù)庫的各類數(shù)據(jù)處理能力與第三方分析應(yīng)用。

Tablefunctions被用來傳送與接收第三方與使用C、C++等編寫的定制算法的數(shù)據(jù)結(jié)果.

ParAccel與FuzzyLogix——一家提供各類描述統(tǒng)計學(xué)、統(tǒng)計實驗?zāi)M與模式識別功能庫功

能的服務(wù)商。此外,Tablefunctions還支持MapReduce與廣泛應(yīng)用在金融服務(wù)的700多

種分析技術(shù)。

10.Sybase推進IQ列存儲數(shù)據(jù)庫

SAP旗下的Sybase是列存儲數(shù)據(jù)庫管理系統(tǒng)的首批廠商,而且目前仍然是擁有2000多個

客戶的暢銷廠商。今年夏天推出了SybaseIQ15.3版本,該版本產(chǎn)品能夠處理更多數(shù)據(jù)與

更多數(shù)據(jù)類型,也能勝任更多查詢,當(dāng)然這要緊得益于其包含了一個名叫PlexQ的大規(guī)模

并行處理功能。

基于MPP大規(guī)模并行處理的PlexQ分布式查詢平臺,通過將任務(wù)分散到網(wǎng)格配置中的多臺

計算機,加速了高度復(fù)雜的查詢。有報道說,它能提供比現(xiàn)有的IQ部署快12倍的交付能

力。

Mui崢DataLoMngColumn-BasedU$ers

SourcesSoluttooAnalyticsServer

SybaseIQ

為了支持不一致的分析,15.3版本的產(chǎn)品增加了分布式處理功能,來執(zhí)行PlexQ網(wǎng)格中跨

CPU的查詢服務(wù)。為了確保實現(xiàn)最快速度的查詢,PlexQ包含了一個邏輯服務(wù)器——讓管

理員對PlexQ網(wǎng)格的物理服務(wù)器構(gòu)成虛擬群集,以便優(yōu)化分析工作負(fù)載、用戶需求與應(yīng)用

程序。

SybaseIQ與其他大多數(shù)的支持MPP功能的產(chǎn)品之間區(qū)別要緊在于,它使用了全共享的方

式。全共享的缺點是CPU會爭相訪問共享存儲(通常是SAN),而這會降低查詢性能。只

是Sybase堅持認(rèn)為,從優(yōu)化查詢的角度來說全共享會更加靈活,由于所有的CPU都會訪

問所有的數(shù)據(jù)。因此,我們能夠?qū)δ硞€特定的查詢盡可能多(或者者少)地分配計算資源。

11.Teradata從EDWs跨入大規(guī)模分析領(lǐng)域

一旦成為企業(yè)級數(shù)據(jù)倉庫(EDW)的宣傳者,近年來Teradata就已經(jīng)放松了擴展Teradata

數(shù)據(jù)庫產(chǎn)品家族的步伐。該公司的高性能、高容量產(chǎn)品被廣泛使用與復(fù)制,由于其中包含了

很多企業(yè)工作量管理的功能模塊,包含虛擬OLAP(三維立體式)分析模型。

Teradata在數(shù)據(jù)庫分析領(lǐng)域不斷推陳出新,但在結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與大部分非結(jié)

構(gòu)化數(shù)據(jù)領(lǐng)域幾乎沒有很大成果。這也就是為什么該公司要收購AsterData——一家提供

SQL-MapReduce框架的公司。MapReduce處理擁有廣泛的市場需求,由于存在著大量的

互聯(lián)網(wǎng)點擊數(shù)據(jù)、傳感數(shù)據(jù)與社交媒體內(nèi)容。

]TeradataPurpose-BuiltPlatformFamily

ExtremeDataExtremeActivo

DataMart

DataWarehousePerformance

ApplianceEnterpri?eData

ApplianceApplianceAppliancvWdnshouse

TeM/AnalyticsonDataEnterpriseScale

Extrema

DevelopmentExtremeWarehouseforStrategic

PurposeDataVolumesorP?rform*ne?forandOperational

Operational

orSmallerfromNewDepartmentalIntelligence

Annlytle?

DataMartsDataTypesDataMartsEDW/ADW

ScalabiHtyUpto12TBUpto186PBUpto343TBUpto17TBUpto92P8

StrategicActiveWoHdo田,

DepartmentalOperational

AnatytlcalInteIRgenre,Real-TlHMUpd?t?.

SubAnalytics,Xnl*ili9?nc?,

Archive,DeepDecisionSupportTacticaland

enlry-lvvvlLow?rVulu?n??

SegmentOiveAnalyticsSystem,F>?t

EDWHighPtrfornen.,?mse

Scan

Teradata平臺產(chǎn)品家族

Teradata日前宣布了一項AsterDataMapReduce產(chǎn)品的計戈U,它建立在以往產(chǎn)品同樣的

硬件平臺之上,而且在Teradata與AsterData之間新增了兩種集成方法。通過收購,

Teradata打破了在數(shù)據(jù)倉儲業(yè)被認(rèn)為最廣泛、最具擴展性的界限。

12.1010data提供基于云計算大數(shù)據(jù)分析

正如標(biāo)題所說,101Odata能夠提供基于云計算的大數(shù)據(jù)分析平臺。很大數(shù)據(jù)庫平臺供應(yīng)商

提供基于云的沙箱測試與開發(fā)環(huán)境,但101Odata的管理數(shù)據(jù)庫服務(wù),要緊針對將整個工

作負(fù)載遷移到云的全過程。

該服務(wù)支持一種提供“豐富而又高級的內(nèi)置分析功能”,其中包含有預(yù)測分析。其一大賣點是

服務(wù)包含了數(shù)據(jù)建模與設(shè)計、信息集成與數(shù)據(jù)轉(zhuǎn)換。

JSl:Bun

lOlOdatagivesyouthefastesttimetoinsight.

WiOdata-Days

▲A▲

SuMertettUMT^Oatt

Ooud.UetSrtveW?r*

H

OlhcrSolutions?Months

fivyftMartfav*

8ScAwv?

DatabaseSolutions.Analyze.Research.Imagine

1010data提供基于云計算大數(shù)據(jù)分析

其客戶包含有對沖基金、全球各大銀行、證券交易商,零售商與包裝消費品公司。

何謂大數(shù)據(jù)?

大數(shù)據(jù),也就是國外常說的BigData。舊M把大數(shù)據(jù)概括成了三個V,即大量化(Volume)、

多樣化(Variety)與快速化(Velocity)。這些特點也反映了大數(shù)據(jù)所潛藏的價值(Value),

我們也能夠認(rèn)為,四個V高度概括了大數(shù)據(jù)的基本特征。

業(yè)界比較一致對大數(shù)據(jù)的定義是:大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進

行抓取、管理與處理的數(shù)據(jù)集合。

大數(shù)據(jù)時代分析技術(shù)如何進化

2012-06-1907:30比特網(wǎng)袁斌

費埃哲(FICO)公司首席執(zhí)行官WillLansing先生

問:在大數(shù)據(jù)的分析方面,數(shù)學(xué)模型非常重要。我們明白,費埃哲公司在金融領(lǐng)域有很

深的積存。那么,這種積存如何推廣到其他行業(yè)?

答:費埃哲公司在垂直行業(yè)已經(jīng)有很長時間的積存了,這也是我們能夠?qū)I(yè)務(wù)拓展到非

金融行業(yè)的一大原因。我們公司非常擅長分析一些復(fù)雜、困難的問題,這些分析技巧不僅適

用于金融行業(yè),也適用于其他多個行業(yè)。比如,我們關(guān)于客戶行為的熟悉,就不局限于金融

行業(yè),還包含保險行業(yè)與零售行業(yè)。在保險行業(yè)當(dāng)中,某些欺詐的行為與在銀行業(yè)當(dāng)中的信

用卡欺詐的用戶行為是非常類似的。而在營銷解決方案方面,很多零售行業(yè)的客戶行為與銀

行客戶的行為也非常近似。因此,我們在金融行業(yè)的客戶管理經(jīng)驗,也能夠應(yīng)用到零售行業(yè)。

以費埃哲公司在中國的業(yè)務(wù)進展為例,銀行業(yè)務(wù)是最傳統(tǒng)的領(lǐng)域。但從一年前開始,費

埃哲就開始把我們成熟的技術(shù)推向保險領(lǐng)域,協(xié)助保險公司做理賠的反欺詐。盡管保險行業(yè)

的業(yè)務(wù)特點跟銀行不太一樣,但我們的技術(shù)是同樣適用的,而且我們在國外的保險行業(yè)也有

所積存。因此,費埃哲在國內(nèi)的保險理賠反欺詐的案例就非常成功一一客戶回訪時,他們表

示,現(xiàn)在能夠通過數(shù)據(jù)分析,實時抓住大批量的理賠欺詐。

問:我們也注意到,您提到了信用卡反欺詐這個大數(shù)據(jù)應(yīng)用。但相對而言,這都是針對

結(jié)構(gòu)化數(shù)據(jù)的,針對郵件、文本這些非結(jié)構(gòu)化的數(shù)據(jù),費埃哲公司將使用什么解決方案去處

理?

答:大數(shù)據(jù)的定義當(dāng)中,包含3個V(高容量、高速度、多類型)。盡管費埃哲的信用卡

反欺詐解決方案只是針對結(jié)構(gòu)化數(shù)據(jù),但我們已經(jīng)能夠處理大容量數(shù)據(jù)與高速的數(shù)據(jù)。到目

前為止,我們還是使用相對傳統(tǒng)的方式,將數(shù)據(jù)簡化到一個智能的、可操作的層面,然后基

于這些數(shù)據(jù)來做出快速決策。盡管我們現(xiàn)在只能做到這三個V當(dāng)中的兩個,但我們非常接

近完美地來解決這個問題的。隨著基礎(chǔ)架構(gòu)不斷的完善與演進,費埃哲的解決方案也會發(fā)生

變化。

問:在數(shù)據(jù)爆發(fā)的時代,我們進行數(shù)據(jù)分析的方式需要改變嗎?

答:我們關(guān)于大數(shù)據(jù)的絕大多數(shù)討論都集中在數(shù)據(jù)的規(guī)模,并沒有相應(yīng)關(guān)注在數(shù)據(jù)分析

方式的改變。''數(shù)據(jù)流"的分析關(guān)于FICO并不陌生,其中最好的應(yīng)用莫過于我們的反欺詐

解決方案一一FICOFalconFraudManager,Falcon模型依靠交易特征,它概括了數(shù)據(jù)

在交易過程中的特征,以便計算有關(guān)的欺詐特點的變量,而不依靠由此生成的既有數(shù)據(jù)。

最近,我們在自己開發(fā)的自我校正分析技術(shù)上取得了重大進展。已申請專利的''多層自

我校正分析技術(shù)"的體系結(jié)構(gòu)與神經(jīng)網(wǎng)絡(luò)模式類似,但與之不一致的是新模式能夠在數(shù)據(jù)流

中自我校正。使用多層自我校正模式將需要更少的數(shù)據(jù)采樣,同時能夠直接與自習(xí)慣分析技

術(shù)聯(lián)合使用,能夠更為動態(tài)地發(fā)現(xiàn)欺詐。將''多層自我校對系統(tǒng)”與目前通用的技術(shù)相比,我

們預(yù)見未來的分析技術(shù)將大幅提高。

問:更進一步地說,現(xiàn)在的大數(shù)據(jù)分析,都是數(shù)據(jù)進行篩選、過濾到數(shù)據(jù)倉庫當(dāng)中,然

后進行分析。隨著硬件設(shè)備在性能與容量上不斷提升,還有必要對傳統(tǒng)分析技術(shù)進行大規(guī)模

改進嗎?

問:那么,您認(rèn)為機器學(xué)習(xí)與傳統(tǒng)模型這兩種數(shù)據(jù)分析方式,哪種更有進展前途?

另一種模型就是一種不是基于假設(shè)的模型,確切地說,是一種機器學(xué)習(xí)的模型。這種模

型跟假設(shè)模型完全不一致。我并不認(rèn)為這兩種模型能夠相互替代。從長期來看,一定會有更

多的數(shù)據(jù)需要我們?nèi)リP(guān)注。對大數(shù)據(jù)來說,它能夠不斷的增加變量,幫助我們基于這些數(shù)據(jù)

做出更好的決策,這是它特別有優(yōu)勢的一個地方。我個人認(rèn)為,在比較長的一段時間之后,

機器學(xué)習(xí)的這種方式,有可能會取代假設(shè)的這種模型。

問:在金融領(lǐng)域的機器學(xué)習(xí)應(yīng)該具有什么特性?

答:以小額貸款的機器學(xué)習(xí)為例,這需要非??焖儆^察與衡量,能夠迅速發(fā)現(xiàn)壞帳,這

樣才能夠快速學(xué)習(xí)、調(diào)整。盡管目前也有一些公司推出了所謂的機器學(xué)習(xí),但這是非常有局

限性的,要緊是用于展示,展示出新科技所帶來的可能性,并告訴客戶這個新科技能夠不斷

完善,同時最終能夠降低風(fēng)險。

技術(shù)基礎(chǔ):大數(shù)據(jù)分析技術(shù)的進展

ZDNet存儲系統(tǒng)來源:賽迪網(wǎng)2012年05月16日評論(0)

關(guān)鍵詞:大數(shù)據(jù)MapReduceGoogle

本文摘要

大數(shù)據(jù)分析技術(shù)最初起源于互聯(lián)網(wǎng)行業(yè)。網(wǎng)頁存檔、用戶點擊、商品信息、用戶關(guān)系等數(shù)據(jù)

形成了持續(xù)增長的海量數(shù)據(jù)集。這些大數(shù)據(jù)中蘊臧著大量能夠用于增強用戶體驗、提高服務(wù)

質(zhì)量與開發(fā)新型應(yīng)用的知識,而如何高效與準(zhǔn)確的發(fā)現(xiàn)這些知識就基本決定了各大互聯(lián)網(wǎng)公

司在猛烈競爭環(huán)境中的位置。首先,以Google為首的技術(shù)型互聯(lián)網(wǎng)公司提出了MapReduce

的技術(shù)框架,利用廉價的PC服務(wù)器集群,大規(guī)模并發(fā)處理批量事務(wù)。

大數(shù)據(jù)分析技術(shù)最初起源于互聯(lián)網(wǎng)行業(yè)。網(wǎng)頁存檔、用戶點擊、商品信息、用戶關(guān)系等數(shù)據(jù)

形成了持續(xù)增長的海量數(shù)據(jù)集。這些大數(shù)據(jù)中蘊藏著大量能夠用于增強用戶體驗、提高服務(wù)

質(zhì)量與開發(fā)新型應(yīng)用的知識,而如何高效與準(zhǔn)確的發(fā)現(xiàn)這些知識就基本決定了各大互聯(lián)網(wǎng)公

司在猛烈競爭環(huán)境中的位置。首先,以Google為首的技術(shù)型互聯(lián)網(wǎng)公司提出了MapReduce

的技術(shù)框架,利用廉價的PC服務(wù)器集群,大規(guī)模并發(fā)處理批量事務(wù)。

利用文件系統(tǒng)存放非結(jié)構(gòu)化數(shù)據(jù),加上完善的備份與容災(zāi)策略,這套經(jīng)濟實惠的大數(shù)據(jù)解決

方案與之前昂貴的企業(yè)小型機集群+商業(yè)數(shù)據(jù)庫方案相比,不僅沒有丟失性能,而且還贏在

了可擴展性上。之前,我們在設(shè)計一個數(shù)據(jù)中心解決方案的前期,就要考慮到方案實施后的

可擴展性。通常的方法是預(yù)估今后一段時期內(nèi)的業(yè)務(wù)量與數(shù)據(jù)量,加入多余的計算單元(CPU)

與存儲,以備不時只需。

這樣的方式直接導(dǎo)致了前期一次性投資的巨大,同時即使這樣也依然無法保證計算需求與存

儲超出設(shè)計量時的系統(tǒng)性能。而一旦需要擴容,問題就會接踵而來。首先是商業(yè)并行數(shù)據(jù)庫

通常需要各節(jié)點物理同構(gòu),也就是具有近似的計算與存儲能力。而隨著硬件的更新,我們通

常加入的新硬件都會強于已有的硬件。這樣,舊硬件就成為了系統(tǒng)的瓶頸。為了保證系統(tǒng)性

能,我們不得不把舊硬件逐步替換掉,經(jīng)濟成本缺失巨大。其次,即使是當(dāng)前最強的商業(yè)并

行數(shù)據(jù)庫,其所能管理的數(shù)據(jù)節(jié)點也只是在幾十或者上百這個數(shù)量級,這要緊是由于架構(gòu)上

的設(shè)計問題,因此其可擴展性必定有限。

而MapReduce+GFS框架,不受上述問題的困擾。需要擴容了,只需增加個機柜,加入適當(dāng)

的計算單元與存儲,集群系統(tǒng)會自動分配與調(diào)度這些資源,絲毫不影響現(xiàn)有系統(tǒng)的運行。如

今,我們用得更多的是GoogleMapReduce的開源實現(xiàn),即Hadoop。除了計算模型的進展,

與此同時.,人們也在關(guān)注著數(shù)據(jù)存儲模型。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫由于其規(guī)范的設(shè)計、友好的

查詢語言、高效的數(shù)據(jù)處理在線事務(wù)的能力,長時間地占據(jù)了市場的主導(dǎo)地位。

然而,其嚴(yán)格的設(shè)計定式、為保證強一致性而放棄性能、可擴展性差等問題在大數(shù)據(jù)分析中

被逐步暴露。隨之而來,NoSQL數(shù)據(jù)存儲模型開始風(fēng)行。NoSQL,也有人懂得為NotOnlySQL,

并不是一種特定的數(shù)據(jù)存儲模型,它是一類非關(guān)系型數(shù)據(jù)庫的統(tǒng)稱。其特點是:沒有固定的

數(shù)據(jù)表模式、能夠分布式與水平擴展。NoSQL并不是單純的反對關(guān)系型數(shù)據(jù)庫,而是針對其

缺點的一種補充與擴展。典型的NoSQL數(shù)據(jù)存儲模型有文檔存儲、鍵-值存儲、圖存儲、對

象數(shù)據(jù)庫、列存儲等。而比較流行的,不得不提到Google提出的Bigtable。

Bigtable是一種用于管理海量結(jié)構(gòu)化數(shù)據(jù)的分布式存儲系統(tǒng),其數(shù)據(jù)通常能夠跨成千個節(jié)點

進行分布式存儲,總數(shù)據(jù)量可達PB級(10的15次方字節(jié),106GB)。HBase是其開源實現(xiàn)。

如今,在開源社區(qū),圍繞GoogleMapReduce框架,成長出了一批優(yōu)秀的開源項目。這些項

目在技術(shù)與實現(xiàn)上相互支持與依托,逐步形成了一個特有的生態(tài)系統(tǒng)。這里借用Cbudera

所描繪的架構(gòu)圖來展現(xiàn)Hadoop生態(tài)系統(tǒng)。這個系統(tǒng)為我們實現(xiàn)優(yōu)質(zhì)廉價的大數(shù)據(jù)分析提供

了堅實的技術(shù)基礎(chǔ)。

使用Storm實現(xiàn)實時大數(shù)據(jù)分析!

摘要:隨著數(shù)據(jù)體積的越來越大,實時處理成為了許多機構(gòu)需要面對的首要挑戰(zhàn)。Shruthi

Kumar與SiddharthPatankar在Dr.Dobb's上結(jié)合了汽車超速監(jiān)視,為我們演示了使用

Storm進行實時大數(shù)據(jù)分析。CSDN在此編譯、整理。

簡單與明了,Storm讓大數(shù)據(jù)分析變得輕松加愉快。

ShruthiKumar,SiddharthPatankar共同效力于Infosys,分別從事技術(shù)分析與研發(fā)工作。

本文詳述了Storm的使用方法,例子中的項目名稱之“超速報警系統(tǒng)(SpeedingAlert

System)我們想實現(xiàn)的功能是:實時分析過往車輛的數(shù)據(jù),一旦車輛數(shù)據(jù)超過預(yù)設(shè)的臨

界值——便觸發(fā)一個trigger并把有關(guān)的數(shù)據(jù)存入數(shù)據(jù)庫。

Storm

對比Hadoop的批處理,Storm是個實時的、分布式與具備高容錯的計算系統(tǒng)。同Hadoop

一樣Storm也能夠處理大批量的數(shù)據(jù),然而Storm在保證高可靠性的前提下還能夠讓處理

進行的更加實時;也就是說,所有的信息都會被處理。Storm同樣還具備容錯與分布計算這

些特性,這就讓Storm能夠擴展到不一致的機器上進行大批量的數(shù)據(jù)處理。他同樣還有下

列的這些特性:

?易于擴展。關(guān)于擴展,你只需要添加機器與改變對應(yīng)的topology(拓?fù)?設(shè)置。Storm

使用HadoopZookeeper進行集群協(xié)調(diào),這樣能夠充分的保證大型集群的良好運行。

?每條信息的處理都能夠得到保證。

?Storm集群管理簡易。

?Storm的容錯機能:一旦topology遞交,Storm會-一直運行它直到topology被廢止或者

者被關(guān)閉。而在執(zhí)行中出現(xiàn)錯誤時,也會由Storm重新分配任務(wù)。

?盡管通常使用Java,Storm中的topology能夠用任何語言設(shè)計。

當(dāng)然為了更好的懂得文章,你首先需要安裝與設(shè)置Storm。需要通過下列幾個簡單的步驟:

?將bin/directory解壓到你的PATH上,并保證bin/storm腳本是可執(zhí)行的。

Storm組件

Storm集群要緊由一個主節(jié)點與一群工作節(jié)點(workernode)構(gòu)成,通過Zookeeper進行

協(xié)調(diào)。

主節(jié)點:

主節(jié)點通常運行一個后臺程序——Nimbus,用于響應(yīng)分布在集群中的節(jié)點,分配任務(wù)與

監(jiān)測故障。這個很類似于Hadoop中的JobTracker,

工作節(jié)點:

工作節(jié)點同樣會運行一個后臺程序——Supervisor,用于收聽工作指派并基于要求運行工

作進程。每個工作節(jié)點都是topology中一個子集的實現(xiàn)。而Nimbus與Supervisor之間的

協(xié)調(diào)則通過Zookeeper系統(tǒng)或者者集群。

Zookeeper

Zookeeper是完成Supervisor與Nimbus之間協(xié)調(diào)的服務(wù)。而應(yīng)用程序?qū)崿F(xiàn)實時的邏輯則

被封裝進Storm中的"topology"。topology則是一組由Spouts(數(shù)據(jù)源)與Bolts(數(shù)據(jù)操

作)通過StreamGroupings進行連接的圖。下面對出現(xiàn)的術(shù)語進行更深刻的解析。

Spout:

簡而言之,Spout從來源處讀取數(shù)據(jù)并放入topology。Spout分成可靠與不可靠兩種;當(dāng)

Storm接收失敗時,可靠的Spout會對tuple(元組,數(shù)據(jù)項構(gòu)成的列表)進行重發(fā):而不

可靠的Spout不可能考慮接收成功與否只發(fā)射一次。而Spout中最要緊的方法就是

nextTuple(),該方法會發(fā)射一個新的tuple到topology,假如沒有新tuple發(fā)射則會簡單

的返回。

Bolt:

Topology中所有的處理都由Bolt完成。Bolt能夠完成任何事,比如:連接的過濾、聚合、

訪問文件/數(shù)據(jù)庫、等等。Bolt從Spout中接收數(shù)據(jù)并進行處理,假如遇到復(fù)雜流的處理也

可能將tuple發(fā)送給另一個Bolt進行處理。而Bolt中最重要的方法是execute(),以新的

tuple作為參數(shù)接收。不管是Spout還是Bolt,假如將tuple發(fā)射成多個流,這些流都能夠

通過declareStream()來聲明。

StreamGroupings:

1.隨機分組(Shufflegrouping):隨機分發(fā)tuple到Bolt的任務(wù),保證每個任務(wù)獲得相等

數(shù)量的tuple。

2.字段分組(Fieldsgrouping):根據(jù)指定字段分割數(shù)據(jù)流,并分組。比如,根據(jù)“user-id”

字段,相同"user-id”的元組總是分發(fā)到同一個任務(wù),不一致"user-id”的元組可能分發(fā)到不一

致的任務(wù)。

3.全部分組(Allgrouping):tuple被復(fù)制到bolt的所有任務(wù)。這種類型需要慎重使用。

4.全局分組(Globalgrouping):全部流都分配到bolt的同一個任務(wù)。明確地說,是分配

給ID最小的那個task。

5.無分組(Nonegrouping):你不需要關(guān)心流是如何分組。目前,無分組等效于隨機分組。

但最終,Storm將把無分組的Bolts放到Bolts或者Spouts訂閱它們的同一線程去執(zhí)行(假

如可能)。

6.直接分組(Directgrouping):這是一個特別的分組類型。元組生產(chǎn)者決定tuple由哪個

元組處理者任務(wù)接收。

當(dāng)然還能夠?qū)崿F(xiàn)CustomStreamGroupimg接口來定制自己需要的分組。

項目實施

當(dāng)下情況我們需要給Spout與Bolt設(shè)計一種能夠處理大量數(shù)據(jù)(日志文件)的topology,

當(dāng)一個特定數(shù)據(jù)值超過預(yù)設(shè)的臨界值時促發(fā)警報。使用Storm的topology,逐行讀入日志

文件同時監(jiān)視輸入數(shù)據(jù)。在Storm組件方面,Spout負(fù)責(zé)讀入輸入數(shù)據(jù)。它不僅從現(xiàn)有的文

件中讀入數(shù)據(jù),同時還監(jiān)視著新文件。文件一旦被修改Spout會讀入新的版本同時覆蓋之

前的tuple(能夠被Bolt讀入的格式),將tuple發(fā)射給Bolt進行臨界分析,這樣就能夠發(fā)

現(xiàn)所有可能超臨界的記錄。

下一節(jié)將對用例進行全面介紹。

臨界分析

這一節(jié),將要緊聚焦于臨界值的兩種分析類型:瞬間臨界(instantthershold)與時間序列

臨界(timeseriesthreshold)。

?瞬間臨界值監(jiān)測:一個字段的值在那個瞬間超過了預(yù)設(shè)的臨界值,假如條件符合的話則

觸發(fā)一個trigger。舉個例子當(dāng)車輛超越80公里每小時,則觸發(fā)trigger。

?時間序列臨界監(jiān)測:字段的值在一個給定的時間段內(nèi)超過了預(yù)設(shè)的臨界值,假如條件符

合則觸發(fā)一個觸發(fā)器。比如:在5分鐘類,時速超過80KM兩次及以上的車輛。

ListingOne顯示了我們將使用的一個類型日志,其中包含的車輛數(shù)據(jù)信息有:車牌號、車

輛行駛的速度與數(shù)據(jù)獲取的位置。

AB12360Northcity

BC12370Southcity

CD23440Southcity

DE12340Eastcity

EF12390Southcity

GH12350Westcity

這里將創(chuàng)建一個對應(yīng)的XML文件,這將包含引入數(shù)據(jù)的模式。這個XML將用于日志文件

的解析。XML的設(shè)計模式與對應(yīng)的說明請見下表。

<TUPLEINFO>Nameofobjectthatholdsthedataoneach

tuple.ObjeaiscreatedbyparsingXMLfile

<FIELDLIST>Consistsofalistoffields

<FIELD>FieldshasthedetailsaboutColumnNameand

ColumnType

<C0LUMNNAME>VehicleNi2mber</C0LUMNNAl-ffi>Nameofthecolumn

<COLUMNTYPE>string</COLUMNTYPE>Typeofthecolumn

<DELIMITER>I〈/DELIMITER〉Indicatesthateachcolumnisdelimitedbythe

delimiterspecifiedhere

XML文件與日志文件都存放在Spout能夠隨時監(jiān)測的目錄下,用以關(guān)注文件的實時更新。

而這個用例中的topology請見下圖。

FileListenerSpoutThresholdCalculatorBoltDBWriterBolt

Figure1:Storm中建立的topology,用以實現(xiàn)數(shù)據(jù)實時處理

如圖所示:FilelistenerSpout接收輸入日志并進行逐行的讀入,接著將數(shù)據(jù)發(fā)射給

ThresoldCalculatorBolt進行更深一步的臨界值處理。一旦處理完成,被計算行的數(shù)據(jù)將發(fā)

送給DBWhterBolt,然后由DBWriterBolt存入給數(shù)據(jù)庫。下面將對這個過程的實現(xiàn)進行全

面的解析。

Spout的實現(xiàn)

Spout以日志文件與XML描述文件作為接收對象。XML文件包含了與日志一致的設(shè)計模式。

不妨設(shè)想一下一個示例日志文件,包含了車輛的車牌號、行駛速度、與數(shù)據(jù)的捕獲位置。(看

下圖)

Systemtocapture

dataforvehicles

crossingthe

checkpoint.

FileListenerSpout

[AB123,90,NCity]

LogFile

BOLT

[AB123,90,NCity][CD234,60,SCity]

[CD234,60,SCity][PQ453,70,NCity]

[PQ453,70,NCity]

Figure2:數(shù)據(jù)從日志文件到Spout的流程圖

ListingTwo顯示了tuple對應(yīng)的XML,其中指定了字段、將日志文件切割成字段的定界符

與字段的類型。XML文件與數(shù)據(jù)都被儲存到Spout指定的路徑。

ListingTwo:用以描述日志文件的XML文件。

1.<TUPLEINFO>

2.<FIELDLIST>

3.<FIELD>

4.<COLUMNNAME>vehic1e_number</COLUMNNAME>

5.<COLUMNTYPE>string</COLUMNTYPE>

6.</FIELD>

7.

8.<FIELD>

9.<COLUMNNAME>speed</COLUMNNAME>

10.<COLUMNTYPE>int</COLUMNTYPE>

11.</FIELD>

12.

13.<FIELD>

14.<COLUMNNAME>location</COLUMNNAME>

15.<COLUMNTYPE>string</COLUMNTYPE>

16.</FIELD>

17.</FIELDLIST>

18.<DELIMITER>,</DELIMITER>

19.</TUPLEINFO>

Spout的實現(xiàn)步驟:

?對文件的改變進行分開的監(jiān)聽,并監(jiān)視目錄下有無新日志文件添加。

?在數(shù)據(jù)得到了字段的說明后,將其轉(zhuǎn)換成tuple。

?聲明Spout與Bolt之間的分組,并決定tuple發(fā)送給Bolt的途徑。

Spout的具體編碼在ListingThree中顯示。

ListingThree:Spout中open、nextTuple與delcareOutp

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論