




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)分析三個技巧:03起源:CIO時代網(wǎng)【文章摘要】大數(shù)據(jù)性質(zhì)是有他三個特點(diǎn)(數(shù)據(jù)量大、種類多、處理速度快)決定,數(shù)據(jù)分析角色和作用理所當(dāng)然是由大數(shù)據(jù)性質(zhì)決定。當(dāng)數(shù)據(jù)分析作用于大數(shù)據(jù)時,大數(shù)據(jù)必須身兼數(shù)職。意思就是數(shù)據(jù)分析在一個組織中飾演著多個角色和擔(dān)負(fù)著多重責(zé)任。數(shù)據(jù)分析職位是由DJPatil和JeffHammerbacher制訂,他們試圖稱呼數(shù)據(jù)組同事們,而又不想因?yàn)榉Q呼而限制他們能力。(becauseofimproperjobtitlelikebusinessanalystorresearchscientistBuildingDataScienceTeams)伴隨大數(shù)據(jù)在驅(qū)動企業(yè)成功中越來越有決定性作用,數(shù)據(jù)分析也變得越來越受歡迎。然而,一些領(lǐng)導(dǎo)者對數(shù)據(jù)分析飾演角色和它所起作用依然不是很了解,就像很多時候領(lǐng)導(dǎo)者不知道怎么從大數(shù)據(jù)中抽取有用信息,即使很清楚知道這些大數(shù)據(jù)是很可信。他們腳步落后了——他們眼光在大數(shù)據(jù)利用上其實(shí)是含糊。大數(shù)據(jù)性質(zhì)是有他三個特點(diǎn)(數(shù)據(jù)量大、種類多、處理速度快)決定,數(shù)據(jù)分析角色和作用理所當(dāng)然是由大數(shù)據(jù)性質(zhì)決定。當(dāng)數(shù)據(jù)分析作用于大數(shù)據(jù)時,大數(shù)據(jù)必須身兼數(shù)職。意思就是數(shù)據(jù)分析在一個組織中飾演著多個角色和擔(dān)負(fù)著多重責(zé)任。多個知識掌握為了處理數(shù)據(jù)量大問題,大數(shù)據(jù)平臺(比如:ApacheHadoop、LexisNexisHPPC)要求數(shù)據(jù)是被整理過。數(shù)據(jù)分析員應(yīng)該具備大數(shù)據(jù)平臺應(yīng)用全方位知識,這么才能熟練應(yīng)用數(shù)據(jù)平臺處理大數(shù)據(jù)。數(shù)據(jù)分析元應(yīng)該具備以下知識:1、了解大數(shù)據(jù)平臺框架,比如:DFS和MapReduce,他們編程框架提供強(qiáng)大應(yīng)用程序設(shè)計(jì)。這就意味著數(shù)據(jù)分析員還要有軟件構(gòu)筑和設(shè)計(jì)能力。2、精通大數(shù)據(jù)平臺支持編程語言,比如:Java,Python,C++,orECL,等等。3、具備熟練數(shù)據(jù)庫知識,尤其是用到SQL語言數(shù)據(jù)庫,像:HBase,CouchDB,等等。因?yàn)榇髷?shù)據(jù)平臺經(jīng)常需要數(shù)據(jù)庫來存放和轉(zhuǎn)換數(shù)據(jù)。4、具備數(shù)學(xué)/統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘領(lǐng)域?qū)I(yè)知識。一個企業(yè)成功不是由數(shù)據(jù)量決定,而是由能否成功從大數(shù)據(jù)中發(fā)覺和抽取有用知識模式和關(guān)系決定,然后用這些有價值信息創(chuàng)造出有價值產(chǎn)品。統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘能夠很好用于了解數(shù)據(jù)和發(fā)掘數(shù)據(jù)價值。自然,為了成功數(shù)據(jù)分析者必須具備這些領(lǐng)域?qū)iT知識。會使用一些數(shù)據(jù)挖掘工具或者平臺(比如:R,Excel,SPSSandSAS)是最好,能夠《TopAnalyticsandbigdatasoftwaretools》這本書。5、熟練應(yīng)用自然語言處理軟件或工具。大數(shù)據(jù)內(nèi)容大都來自于文本文件、新聞、社交媒體和匯報(bào)、提議書等等。所以了解和掌握最少一個自然語言處理軟件或工具對于做一個成功分析者起著決定性作用。6、應(yīng)用最少一個數(shù)據(jù)可視化工具。為了更有效演示數(shù)據(jù)存在模式和關(guān)系,能應(yīng)用好數(shù)據(jù)可視化工具無疑是對數(shù)據(jù)分析員一個加分。這里有20款數(shù)據(jù)可視化工具鏈接。創(chuàng)新——好奇伴隨數(shù)據(jù)改變速度加緊,經(jīng)常也會有新發(fā)覺和問題出現(xiàn),數(shù)據(jù)分析員應(yīng)該對那些改變敏感、對新發(fā)覺好奇,而且找出應(yīng)對新問題方法。他/她也要熱情及時相互溝通,從新問題中探索新產(chǎn)品思緒和處理方案,成為產(chǎn)品創(chuàng)新駕馭者。商業(yè)技能首先,數(shù)據(jù)分析員多元化性質(zhì)決定了數(shù)據(jù)分析員要好很強(qiáng)溝通能力,在企業(yè)里數(shù)據(jù)分析員必須和不一樣人溝通,其中包含:溝通和了解業(yè)務(wù)需求、應(yīng)用程序要求、把數(shù)據(jù)模式和關(guān)系翻譯給市場部、產(chǎn)品開發(fā)組和企業(yè)高管看。對于企業(yè)來說有效溝通是及時采取行動應(yīng)對大數(shù)據(jù)新發(fā)覺關(guān)鍵。數(shù)據(jù)分析員應(yīng)該是能聯(lián)絡(luò)全部,很好溝通者。第二、數(shù)據(jù)分析員要具備良好規(guī)劃和組織能力。這么他/她才能巧妙地處理多個任務(wù)、樹立正確優(yōu)先次序、確保按時完成任務(wù)。第三,數(shù)據(jù)分析員應(yīng)該具備說服力、激情、和演講能力。才能引導(dǎo)人們基于數(shù)據(jù)發(fā)覺做出正確決定,讓人們相信新發(fā)覺價值。數(shù)據(jù)分析員在某種意義上說是領(lǐng)導(dǎo)者,驅(qū)動產(chǎn)品創(chuàng)新。全部這些大數(shù)據(jù)性質(zhì)決定了數(shù)據(jù)分析員該具備技巧和他們在企業(yè)中飾演角色。盤點(diǎn)大數(shù)據(jù)分析十二大殺手锏分類:
BI
MapReduce-11-1913:12
218人閱讀
評論(0)
\o"收藏"收藏
\o"舉報(bào)"舉報(bào)
當(dāng)數(shù)據(jù)以成百上千TB不停增加時候,我們需要一個獨(dú)特技術(shù)來應(yīng)對這種前所未有挑戰(zhàn)。大數(shù)據(jù)分析迎來大時代全球各行各業(yè)組織機(jī)構(gòu)已經(jīng)意識到,最準(zhǔn)確商務(wù)決議來自于事實(shí),而不是憑空臆想。這也就意味著,他們需要在內(nèi)部交易系統(tǒng)歷史信息之外,采取基于數(shù)據(jù)分析決議模型和技術(shù)支持?;ヂ?lián)網(wǎng)點(diǎn)擊數(shù)據(jù)、傳感數(shù)據(jù)、日志文件、具備豐富地理空間信息移動數(shù)據(jù)和包括網(wǎng)絡(luò)各類評論,成為了海量信息多個形式。極具挑戰(zhàn)性是,傳統(tǒng)數(shù)據(jù)庫布署不能處理數(shù)TB數(shù)據(jù),也不能很好支持高級別數(shù)據(jù)分析。在過去十幾年中,大規(guī)模并行處理(MPP)平臺和列存放數(shù)據(jù)庫開啟了新一輪數(shù)據(jù)分析史上革命。而且近年來技術(shù)不停發(fā)展,我們開始看到,技術(shù)升級帶來已知架構(gòu)之間界限變得愈加含糊。更為主要是,開始逐步出現(xiàn)了處理半結(jié)構(gòu)化和非結(jié)構(gòu)化信息NoSQL等平臺。大數(shù)據(jù)分析迎來大時代本文中,我們將向大家介紹迄今為止,包含EMCGreenplum、Hadoop和MapReduce等提供大數(shù)據(jù)分析產(chǎn)品。另外,惠普前段時間收購實(shí)時分析平臺Vertica、IBM獨(dú)立基于DB2智能分析系統(tǒng)和Netezza相關(guān)產(chǎn)品。當(dāng)然,也有微軟ParallelDataWarehouse、SAP旗下企業(yè)SybaseSybaseIQ數(shù)據(jù)倉庫分析工具等。下面,就讓我們來了解業(yè)界大數(shù)據(jù)分析這十二大產(chǎn)品:1.模塊化EMCAppliance處理多個數(shù)據(jù)類型EMC收購了Greenplum,隨即,利用EMC本身存放硬件和支持復(fù)制與備份功效Greenplum大規(guī)模并行處理(MPP)數(shù)據(jù)庫,推出了EMCGreenplumDataComputingAppliance(DCA)。經(jīng)過與SAS和MapR等合作搭檔,DCA擴(kuò)大了對Greenplum數(shù)據(jù)庫支持。支持大數(shù)據(jù)分析EMCAppliance今年5月,EMC推出了自己Hadoop軟件工具,而且該企業(yè)還承諾,今年秋季公布模塊化DCA將支持GreenplumSQL/關(guān)系型數(shù)據(jù)庫,Hadoop布署也能在一樣設(shè)備上得到支持。借助Hadoop,EMC能夠處理諸如網(wǎng)絡(luò)點(diǎn)擊數(shù)據(jù)、非結(jié)構(gòu)數(shù)據(jù)等真正大數(shù)據(jù)分析困難。模塊化DCA也能夠在一樣設(shè)備上支持長久保留高容量存放模塊,從而滿足監(jiān)測需求。2.Hadoop和MapReduce提煉大數(shù)據(jù)Hadoop是一個開放源碼分布式數(shù)據(jù)處理系統(tǒng)架構(gòu),主要面向存放和處理結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化、真正意義上大數(shù)據(jù)(通常成百上千TB甚至PB級別數(shù)據(jù))應(yīng)用。網(wǎng)絡(luò)點(diǎn)擊和社交媒體分析應(yīng)用,正在極大地推進(jìn)應(yīng)用需求。Hadoop提供MapReduce(和其余一些環(huán)境)是處理大數(shù)據(jù)集理想處理方案。MapReduce能將大數(shù)據(jù)問題分解成多個子問題,將它們分配到成百上千個處理節(jié)點(diǎn)之上,然后將結(jié)果聚集到一個小數(shù)據(jù)集當(dāng)中,從而更輕易分析得出最終結(jié)果。MapReduce結(jié)構(gòu)圖Hadoop能夠運(yùn)行在低成本硬件產(chǎn)品之上,經(jīng)過擴(kuò)展能夠成為商業(yè)存放和數(shù)據(jù)分析代替方案。它已經(jīng)成為很多互聯(lián)網(wǎng)巨頭,比如AOL、eHarmony(美國在線約會網(wǎng)站)、易趣、Facebook、Twitter和Netflix大數(shù)據(jù)分析主要處理方案。也有更多傳統(tǒng)巨頭企業(yè)比如摩根大通銀行,也正在考慮采取這一處理方案。3.惠普Vertica電子商務(wù)分析今年二月被惠普收購Vertica,是能提供高效數(shù)據(jù)存放和快速查詢列存放數(shù)據(jù)庫實(shí)時分析平臺。相比傳統(tǒng)關(guān)系數(shù)據(jù)庫,更低維護(hù)和運(yùn)行成本,就能夠取得更加快速布署、運(yùn)行和維護(hù)。該數(shù)據(jù)庫還支持大規(guī)模并行處理(MPP)。在收購之后,惠普隨即推出了基于x86硬件HPVertica。經(jīng)過MPP擴(kuò)展性能夠讓Vertica為高端數(shù)字營銷、電子商務(wù)客戶(比如AOL、Twitter、Groupon)分析處理數(shù)據(jù)達(dá)成PB級?;萜誚ertica實(shí)時分析平臺其實(shí),早在惠普收購之前,Vertica就推出有包含內(nèi)存、閃存快速分析等一系列創(chuàng)新產(chǎn)品。它是首個新增Hadoop鏈接支持客戶管理關(guān)系型數(shù)據(jù)產(chǎn)品之一,也是首個基于云布署風(fēng)險產(chǎn)品平臺之一?,F(xiàn)在,Vertica支持惠普云服務(wù)自動化處理方案。4.IBM提供運(yùn)維和分析數(shù)據(jù)倉庫去年,IBM推出了基于DB2SmartAnalyticSystem(圖中左側(cè)),那么它為何還要收購另外Netezza方案平臺呢?因?yàn)榍罢呤蔷邆涓邤U(kuò)展性企業(yè)數(shù)據(jù)倉庫平臺,能夠支持成千上萬用戶和各類應(yīng)用操作。比如,呼叫中心通常擁有大量雇員需要快速回?fù)芸蛻魵v史通話統(tǒng)計(jì)。SmartAnalyticSystem提供了整合信息DB2數(shù)據(jù)庫,預(yù)配置CognosBI軟件模塊,能夠在IBMPowerSystem(RISC或者X86架構(gòu))上運(yùn)行。SmartAnalyticSystem及NetezzaNetezza致力于為數(shù)字化營銷企業(yè)、電信、和其余挖掘成百上千TB甚至PB級別數(shù)據(jù)企業(yè),提供高可擴(kuò)展分析應(yīng)用處理方案。IBMNetezzaTwinFin數(shù)據(jù)倉庫設(shè)備,支持大規(guī)模并行處理,能夠在一天時間內(nèi)布署完成。Netezza支持多個語言和方式進(jìn)行數(shù)據(jù)庫分析,其中包含Java、C、C++、Python和MapReduce。與此同時,它還支持如SAS,IBMSPSS使用矩陣操作方法和R編程語言。IBMNetezza最近增加了一個高容量長久存檔設(shè)備以滿足更多要求。5.Infobright降低DBA工作量和查詢時間Infobright列存放數(shù)據(jù)庫,意在為數(shù)十TB級別數(shù)據(jù)提供各類分析服務(wù)。而這一塊也正是甲骨文和微軟SQLServer關(guān)鍵市場之一。InfoBright還表示,建立在MySQL基礎(chǔ)之上數(shù)據(jù)庫也提供了另外一個選擇,它專門針對分析應(yīng)用、低成本簡化勞動力工作、交付高性能服務(wù)進(jìn)行設(shè)計(jì)。列存放數(shù)據(jù)庫能夠自動創(chuàng)建索引,而且無需進(jìn)行數(shù)據(jù)分區(qū)和DBA調(diào)整。相比傳統(tǒng)數(shù)據(jù)庫,它能夠降低90%人工工作量,而且由于其采取高數(shù)據(jù)壓縮,在數(shù)據(jù)庫許可和存放等方面開支也能夠降低二分之一。KnowledgeGrid查詢引擎InfoBright最新4.0版本產(chǎn)品,新增了一個DomainExpert功效。企業(yè)用戶能夠借此忽略不停重復(fù)那些數(shù)據(jù),比如郵箱地址、URL和IP地址。與此同時,企業(yè)還能夠增加與呼叫統(tǒng)計(jì)、業(yè)務(wù)交易或者地理位置信息相關(guān)數(shù)據(jù)。KowledgeGrid查詢引擎則能夠幫助過濾那些靜態(tài)數(shù)據(jù)而只關(guān)注那些改變數(shù)據(jù)。也就是說,它能夠幫助節(jié)約數(shù)據(jù)查詢時間,因?yàn)槟切o關(guān)數(shù)據(jù)無需進(jìn)行解壓縮和篩選。6.Kognitio提供三倍速度和虛擬多維數(shù)據(jù)集Kognitio是一家本身不生產(chǎn)硬件產(chǎn)品數(shù)據(jù)庫廠商,它看到了客戶對快速布署廣泛興趣和市場需求,推出了在惠普、IBM硬件產(chǎn)品上預(yù)配置有WX2數(shù)據(jù)庫Lakes、Rivers和Rapids處理方案。Lakes能夠以低成本、10TB數(shù)據(jù)存放和每個模塊48個運(yùn)算關(guān)鍵提供大容量存放服務(wù)。電信或金融服務(wù)企業(yè),能夠使用這種配置來掃描大量分支結(jié)構(gòu)各種信息統(tǒng)計(jì)。Rivers則提供了容量和速度之間平衡,預(yù)配置為2.5TB存放容量,它每個模塊擁有48個運(yùn)算關(guān)鍵。而追求查詢性能Rapids,其預(yù)配置提供有96個運(yùn)算關(guān)鍵,每個模塊僅僅為1.5TB。該產(chǎn)品方案主要針對金融企業(yè)在算法交易或者其余高性能要求方面需求。Kognitio基于內(nèi)存運(yùn)算數(shù)據(jù)倉庫和數(shù)據(jù)分析今年,Kognitio新增了一個虛擬化OLAP格調(diào)Pablo分析引擎。它提供了靈活、為企業(yè)用戶進(jìn)行分析處理方案。用戶可升級選取WX2構(gòu)建一個虛擬多維數(shù)據(jù)集。所以,WX2數(shù)據(jù)庫中任何一個維度數(shù)據(jù)都可在內(nèi)存中用于快速分析。這種分析前端接口是我們常見MicrosoftExcel。7.微軟SQLServer新增PDW功效今年年初微軟公布SQLServerR2ParallelDataWarehouse(PDW,并行數(shù)據(jù)倉庫),一改以往SQLServer布署時間需要花費(fèi)兩年半時間歷史,它能夠幫助客戶擴(kuò)展布署數(shù)百TB級別數(shù)據(jù)分析處理方案。支持這一產(chǎn)品包含有合作搭檔惠普硬件平臺。公布之初,即使微軟官網(wǎng)提供有讓利折扣,但PDW售價仍超出13000美元/TB(用戶和硬件訪問量)。SQLServerPDW和很多產(chǎn)品一樣,PDW使用了大規(guī)模并行處理來支持高擴(kuò)展性,但微軟進(jìn)入這一市場實(shí)屬“姍姍來遲”,而且在一定程度上說,數(shù)據(jù)倉庫分析和內(nèi)存分析計(jì)算市場落下了后腿?,F(xiàn)在,微軟寄希望于其整體數(shù)據(jù)庫平臺在市場上帶來差異化競爭力。這意味著,全部沿襲了基于微軟平臺數(shù)據(jù)和數(shù)據(jù)管理,將被廣泛應(yīng)用在信息集成領(lǐng)域——ReportingandAnalysisServices,而這一切都基于SQLServer數(shù)據(jù)庫。微軟在今年10月12日經(jīng)過推出ApacheHadoop和相關(guān)SQLAzureHadoop服務(wù),宣告進(jìn)入大數(shù)據(jù)領(lǐng)域。Azure服務(wù)將在底亮相,而對應(yīng)當(dāng)?shù)嘏涮总浖诿髂晟狭鶄€月推出,現(xiàn)在也不清楚微軟是否會與其余硬件合作搭檔或者相關(guān)大數(shù)據(jù)設(shè)備廠商合作。8.甲骨文講述EngineeredSystems故事甲骨文表示,Exadata(圖中左側(cè))是迄今以來公布產(chǎn)品中最為成功產(chǎn)品,自從推出以來,已經(jīng)擁有超出1000名客戶。而engineeredsystem使得甲骨文11g數(shù)據(jù)庫,能夠支持基于X86數(shù)據(jù)處理和磁盤存放層,其閃存緩存也使得能夠?qū)崿F(xiàn)超快速查詢處理。它既可應(yīng)用在任意事務(wù)環(huán)境中,也能夠應(yīng)用在數(shù)據(jù)倉庫(但不能同時進(jìn)行)。Exadata混合柱狀壓縮能夠?qū)崿F(xiàn)列存放數(shù)據(jù)庫一些高效率特點(diǎn),提供高達(dá)10:1壓縮比,而大部分行存放數(shù)據(jù)庫平均壓縮比為4:1。甲骨文在9月經(jīng)過宣告OracleSuperCluster(圖中右側(cè)),擴(kuò)展了engineeredsystems產(chǎn)品家族。它采取了最新SunSparcT-4芯片。SuperCluster支持全機(jī)架/半機(jī)架配置,而且用戶能夠在半機(jī)架容量基礎(chǔ)上進(jìn)行擴(kuò)容。滿額配置提供有1200個CPU線程,4TB內(nèi)存,97TB至198TB磁盤存放,8.66TB閃存。甲骨文大數(shù)據(jù)分析系統(tǒng)設(shè)施甲骨文聲稱,SuperCluster事務(wù)處理和數(shù)據(jù)倉庫性能相比傳統(tǒng)服務(wù)器架構(gòu)能分別帶來10倍和50倍速度提升。但作為一個專有Unix機(jī)器,甲骨文想經(jīng)過SuperCluster,在面向x86硬件數(shù)據(jù)倉庫布署遷移大潮中力挽狂瀾。甲骨文Exadata和Exalogic都基于x86架構(gòu)而且運(yùn)行Linux系統(tǒng)。在十月召開OracleOpenWorld中,甲骨文宣告將新增一個分布式pacheHadoop軟件和相關(guān)大數(shù)據(jù)設(shè)備。甲骨文也計(jì)劃推出一個獨(dú)立基于開源BerkeleyDB產(chǎn)品NoSQL。9.ParAccel大打列存放、MPP和數(shù)據(jù)庫分析組合拳ParAccel是ParAccelAnalyticDatabase(PADB)開發(fā)廠商——提供快速、選擇性查詢和列存放數(shù)據(jù)庫,并基于大規(guī)模并行處理優(yōu)勢特點(diǎn)產(chǎn)品。該公式表示,其平臺支持一系列針對各種復(fù)雜、先進(jìn)應(yīng)用工作負(fù)載匯報(bào)和分析。ParAccel大數(shù)據(jù)處理方案內(nèi)置分析算法能夠?yàn)榉治鰩熖峁└呒墧?shù)學(xué)運(yùn)算、數(shù)據(jù)統(tǒng)計(jì)、和數(shù)據(jù)挖掘等各種功效,同時,它還提供一個開放API,能夠擴(kuò)展數(shù)據(jù)庫各種數(shù)據(jù)處理能力和第三方分析應(yīng)用。Tablefunctions被用來傳送和接收第三方和采取C、C++等編寫定制算法數(shù)據(jù)結(jié)果。ParAccel與FuzzyLogix——一家提供各種描述統(tǒng)計(jì)學(xué)、統(tǒng)計(jì)試驗(yàn)?zāi)M和模式識別功效庫功效服務(wù)商。另外,Tablefunctions還支持MapReduce和廣泛應(yīng)用在金融服務(wù)700多個分析技術(shù)。10.Sybase推進(jìn)IQ列存放數(shù)據(jù)庫SAP旗下Sybase是列存放數(shù)據(jù)庫管理系統(tǒng)首批廠商,而且現(xiàn)在依然是擁有多個客戶暢銷廠商。今年夏天推出了SybaseIQ15.3版本,該版本產(chǎn)品能夠處理更多數(shù)據(jù)和更多數(shù)據(jù)類型,也能勝任更多查詢,當(dāng)然這主要得益于其包含了一個名叫PlexQ大規(guī)模并行處理功效?;贛PP大規(guī)模并行處理PlexQ分布式查詢平臺,經(jīng)過將任務(wù)分散到網(wǎng)格配置中多臺計(jì)算機(jī),加速了高度復(fù)雜查詢。有報(bào)道說,它能提供比現(xiàn)有IQ布署快12倍交付能力。SybaseIQ為了支持不一樣分析,15.3版本產(chǎn)品增加了分布式處理功效,來執(zhí)行PlexQ網(wǎng)格中跨CPU查詢服務(wù)。為了確保實(shí)現(xiàn)最快速度查詢,PlexQ包含了一個邏輯服務(wù)器——讓管理員對PlexQ網(wǎng)格物理服務(wù)器組成虛擬群集,方便優(yōu)化分析工作負(fù)載、用戶需求和應(yīng)用程序。SybaseIQ和其余大多數(shù)支持MPP功效產(chǎn)品之間區(qū)分主要在于,它采取了全共享方式。全共享缺點(diǎn)是CPU會爭相訪問共享存放(通常是SAN),而這會降低查詢性能。不過Sybase堅(jiān)持認(rèn)為,從優(yōu)化查詢角度來說全共享會愈加靈活,因?yàn)槿緾PU都會訪問全部數(shù)據(jù)。所以,我們能夠?qū)δ硞€特定查詢盡可能多(或者少)地分配計(jì)算資源。11.Teradata從EDWs跨入大規(guī)模分析領(lǐng)域一旦成為企業(yè)級數(shù)據(jù)倉庫(EDW)宣傳者,近年來Teradata就已經(jīng)放松了擴(kuò)展Teradata數(shù)據(jù)庫產(chǎn)品家族步伐。該企業(yè)高性能、高容量產(chǎn)品被廣泛采取和復(fù)制,因?yàn)槠渲邪撕芏嗥髽I(yè)工作量管理功效模塊,包含虛擬OLAP(三維立體式)分析模型。Teradata在數(shù)據(jù)庫分析領(lǐng)域不停推陳出新,但在結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和大部分非結(jié)構(gòu)化數(shù)據(jù)領(lǐng)域幾乎沒有很大結(jié)果。這也就是為何該企業(yè)要收購AsterData——一家提供SQL-MapReduce框架企業(yè)。MapReduce處理擁有廣泛市場需求,因?yàn)榇嬖谥罅炕ヂ?lián)網(wǎng)點(diǎn)擊數(shù)據(jù)、傳感數(shù)據(jù)和社交媒體內(nèi)容。Teradata平臺產(chǎn)品家族Teradata日前宣告了一項(xiàng)AsterDataMapReduce產(chǎn)品計(jì)劃,它建立在以往產(chǎn)品一樣硬件平臺之上,而且在Teradata和AsterData之間新增了兩種集成方法。經(jīng)過收購,Teradata打破了在數(shù)據(jù)倉儲業(yè)被認(rèn)為最廣泛、最具擴(kuò)展性界限。12.1010data提供基于云計(jì)算大數(shù)據(jù)分析正如標(biāo)題所說,1010data能夠提供基于云計(jì)算大數(shù)據(jù)分析平臺。很大數(shù)據(jù)庫平臺供給商提供基于云沙箱測試和開發(fā)環(huán)境,但1010data管理數(shù)據(jù)庫服務(wù),主要針對將整個工作負(fù)載遷移到云全過程。該服務(wù)支持一個提供“豐富而又高級內(nèi)置分析功效”,其中包含有預(yù)測分析。其一大賣點(diǎn)是服務(wù)包含了數(shù)據(jù)建模和設(shè)計(jì)、信息集成和數(shù)據(jù)轉(zhuǎn)換。1010data提供基于云計(jì)算大數(shù)據(jù)分析其客戶包含有對沖基金、全球各大銀行、證券交易商,零售商和包裝消費(fèi)品企業(yè)。何謂大數(shù)據(jù)?大數(shù)據(jù),也就是國外常說BigData。IBM把大數(shù)據(jù)概括成了三個V,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。這些特點(diǎn)也反應(yīng)了大數(shù)據(jù)所潛藏價值(Value),我們也能夠認(rèn)為,四個V高度概括了大數(shù)據(jù)基本特征。業(yè)界比較一致對大數(shù)據(jù)定義是:大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理數(shù)據(jù)集合。大數(shù)據(jù)時代分析技術(shù)怎樣進(jìn)化-06-1907:30比特網(wǎng)袁斌關(guān)鍵字:FICO
大數(shù)據(jù)
費(fèi)埃哲當(dāng)你在應(yīng)用信用卡進(jìn)行交易時,你可能沒有意識到,這筆交易是否成功,是由費(fèi)埃哲(FICO)企業(yè)產(chǎn)品在后臺進(jìn)行智能判斷和監(jiān)測?,F(xiàn)在,費(fèi)埃哲企業(yè)Falcon處理方案在幫助客戶監(jiān)控全球2/3信用卡交易,并從中分辨欺詐活動。顯然,這是一個非常經(jīng)典大數(shù)據(jù)應(yīng)用——銀行天天信用卡交易數(shù)都是一個天文數(shù)字,怎樣有效處理和判別這些數(shù)據(jù),幫助企業(yè)做出正確決議?在非結(jié)構(gòu)化數(shù)據(jù)洶涌增加今天,費(fèi)埃哲企業(yè)又是怎樣判斷大數(shù)據(jù)時代分析技術(shù)進(jìn)展?日前,比特網(wǎng)記者采訪了費(fèi)埃哲(FICO)企業(yè)首席執(zhí)行官WillLansing先生。費(fèi)埃哲(FICO)企業(yè)首席執(zhí)行官WillLansing先生問:大數(shù)據(jù)對軟件和硬件都有非常強(qiáng)挑戰(zhàn),所以現(xiàn)在業(yè)界有一個趨勢,要做軟硬件結(jié)合,以更緊密一體機(jī)形式來提供分析服務(wù)。最經(jīng)典產(chǎn)品,比如甲骨文企業(yè)Exalytics系統(tǒng)。那么,您是怎樣對待這一趨勢?費(fèi)埃哲企業(yè)會怎樣愈加好地與硬件進(jìn)行優(yōu)化整合?答:這是一個非常好問題。就費(fèi)埃哲企業(yè)而言,基礎(chǔ)架構(gòu)并不是我們專長,所以我們要和我們客戶去合作?,F(xiàn)在,我們有一些合作方式是基于SaaS,也有一些是基于其它各類處理方案。費(fèi)埃哲企業(yè)并不強(qiáng)制客戶使用某種特定基礎(chǔ)架構(gòu)來運(yùn)行我們應(yīng)用、捕捉應(yīng)用數(shù)據(jù),而是在客戶現(xiàn)有基礎(chǔ)架構(gòu)運(yùn)行優(yōu)化、進(jìn)行合作。實(shí)際上,費(fèi)埃哲企業(yè)也在和一些試驗(yàn)室合作,比如Cloudera,借此來拓展我們能力,消除我們(對硬件基礎(chǔ)設(shè)施在了解上)不足。問:在大數(shù)據(jù)分析方面,數(shù)學(xué)模型非常主要。我們知道,費(fèi)埃哲企業(yè)在金融領(lǐng)域有很深積累。那么,這種積累怎樣推廣到其余行業(yè)?答:費(fèi)埃哲企業(yè)在垂直行業(yè)已經(jīng)有很長時間積累了,這也是我們能夠?qū)I(yè)務(wù)拓展到非金融行業(yè)一大原因。我們企業(yè)非常擅長分析一些復(fù)雜、困難問題,這些分析技巧不但適適用于金融行業(yè),也適適用于其余多個行業(yè)。比如,我們對于客戶行為了解,就不局限于金融行業(yè),還包含保險行業(yè)和零售行業(yè)。在保險行業(yè)當(dāng)中,一些欺詐行為和在銀行業(yè)當(dāng)中信用卡欺詐用戶行為是非常類似。而在營銷處理方案方面,很多零售行業(yè)客戶行為和銀行客戶行為也非常近似。所以,我們在金融行業(yè)客戶管理經(jīng)驗(yàn),也能夠應(yīng)用到零售行業(yè)。以費(fèi)埃哲企業(yè)在中國業(yè)務(wù)發(fā)展為例,銀行業(yè)務(wù)是最傳統(tǒng)領(lǐng)域。但從一年前開始,費(fèi)埃哲就開始把我們成熟技術(shù)推向保險領(lǐng)域,幫助保險企業(yè)做理賠反欺詐。盡管保險行業(yè)業(yè)務(wù)特點(diǎn)跟銀行不太一樣,但我們技術(shù)是一樣適用,而且我們在國外保險行業(yè)也有所積累。所以,費(fèi)埃哲在國內(nèi)保險理賠反欺詐案例就非常成功——客戶回訪時,他們表示,現(xiàn)在能夠經(jīng)過數(shù)據(jù)分析,實(shí)時抓住大批量理賠欺詐。問:我們也注意到,您提到了信用卡反欺詐這個大數(shù)據(jù)應(yīng)用。但相對而言,這都是針對結(jié)構(gòu)化數(shù)據(jù),針對郵件、文本這些非結(jié)構(gòu)化數(shù)據(jù),費(fèi)埃哲企業(yè)將采取哪些處理方案去處理?答:大數(shù)據(jù)定義當(dāng)中,包含3個V(高容量、高速度、多類型)。即使費(fèi)埃哲信用卡反欺詐處理方案只是針對結(jié)構(gòu)化數(shù)據(jù),但我們已經(jīng)能夠處理大容量數(shù)據(jù)和高速數(shù)據(jù)。到現(xiàn)在為止,我們還是采取相對傳統(tǒng)方式,將數(shù)據(jù)簡化到一個智能、可操作層面,然后基于這些數(shù)據(jù)來做出快速決議。盡管我們現(xiàn)在只能做到這三個V當(dāng)中兩個,但我們非常靠近完美地來處理這個問題。伴隨基礎(chǔ)架構(gòu)不停完善和演進(jìn),費(fèi)埃哲處理方案也會發(fā)生改變。問:在數(shù)據(jù)暴發(fā)時代,我們進(jìn)行數(shù)據(jù)分析方式需要改變嗎?答:我們關(guān)于大數(shù)據(jù)絕大多數(shù)討論都集中在數(shù)據(jù)規(guī)模,并沒有對應(yīng)關(guān)注在數(shù)據(jù)分析方式改變。“數(shù)據(jù)流”分析對于FICO并不陌生,其中最好應(yīng)用莫過于我們反欺詐處理方案——FICOFalconFraudManager。Falcon模型依靠交易特征,它概括了數(shù)據(jù)在交易過程中特征,方便計(jì)算相關(guān)欺詐特點(diǎn)變量,而不依賴由此生成現(xiàn)有數(shù)據(jù)。我們在數(shù)據(jù)流特征分析領(lǐng)域不停推進(jìn)創(chuàng)新,尤其在反欺詐領(lǐng)域。這些創(chuàng)新技術(shù)包含:全球智能特征識別技術(shù)。它能夠自動發(fā)覺銀行卡交易、ATM和商戶交易中不正常行為。再比如FICO企業(yè)開發(fā)自我校正分析技術(shù),它能夠伴隨客戶行為模式改變,服務(wù)渠道改變而改進(jìn)偵測準(zhǔn)確性。另一個由大數(shù)據(jù)帶來改變是分析必須降低對于固有數(shù)據(jù)依賴。分析模型將能夠依照數(shù)據(jù)流中動態(tài)數(shù)據(jù)自我調(diào)整。為了應(yīng)對不停增加數(shù)據(jù)流中動態(tài)數(shù)據(jù),我們集中研發(fā)了自我學(xué)習(xí)一些技術(shù),包含:自適應(yīng)分析和自我矯正分析技術(shù)。我們堅(jiān)信這些關(guān)鍵技術(shù)將填補(bǔ)傳統(tǒng)方式不足。自學(xué)習(xí)技術(shù)甚至將可能在一些領(lǐng)域取代傳統(tǒng)模式。最近,我們在自己開發(fā)自我校正分析技術(shù)上取得了重大進(jìn)展。已申請專利“多層自我校正分析技術(shù)”體系結(jié)構(gòu)與神經(jīng)網(wǎng)絡(luò)模式類似,但與之不一樣是新模式能夠在數(shù)據(jù)流中自我校正。使用多層自我校正模式將需要更少數(shù)據(jù)采樣,而且能夠直接與自適應(yīng)分析技術(shù)聯(lián)合使用,能夠更為動態(tài)地發(fā)覺欺詐。將“多層自我校對系統(tǒng)”與現(xiàn)在通用技術(shù)相比,我們預(yù)見未來分析技術(shù)將大幅提升。問:更深入地說,現(xiàn)在大數(shù)據(jù)分析,都是數(shù)據(jù)進(jìn)行篩選、過濾到數(shù)據(jù)倉庫當(dāng)中,然后進(jìn)行分析。伴隨硬件設(shè)備在性能和容量上不停提升,還有必要對傳統(tǒng)分析技術(shù)進(jìn)行大規(guī)模改進(jìn)嗎?答:今天大數(shù)據(jù)分析情況確實(shí)如你所說這么。但我相信,在不遠(yuǎn)未來,我們會需要直接對大數(shù)據(jù)進(jìn)行分析。這種分析可能有兩種方式:一個是伴隨數(shù)據(jù)集不停增加,我們需要重新建?!跀?shù)據(jù)集不停增加情況下,可能需要考慮應(yīng)用Hadoop技術(shù)進(jìn)行存放,不然我們就沒有容量足夠大存放空間;另一個方式則是采取基于機(jī)器學(xué)習(xí)方法,來進(jìn)行大數(shù)據(jù)處理和分析。至于硬件性能,可能現(xiàn)在還不是問題,但當(dāng)我們考慮全部數(shù)據(jù),并從中找出最有價值地方時,用現(xiàn)有基礎(chǔ)架構(gòu)就會顯得遠(yuǎn)遠(yuǎn)不夠。比如,今天銀行客戶,他們已經(jīng)知道,未來他們數(shù)據(jù)是分散、遍布各地,可能在銀行內(nèi)部,可能在局域網(wǎng)或者在云里面,他們希望這些數(shù)據(jù)都能夠被讀取,都對數(shù)據(jù)進(jìn)行分析。顯然,這是今天架構(gòu)無法完成,這需要未來才能夠?qū)崿F(xiàn)。問:那么,您認(rèn)為機(jī)器學(xué)習(xí)和傳統(tǒng)模型這兩種數(shù)據(jù)分析方式,哪種更有發(fā)展前途?答:大數(shù)據(jù)最終目標(biāo)就是利用各種數(shù)據(jù)來做出最好決議。大數(shù)據(jù)最美地方,就是我們不再受數(shù)據(jù)容量局限,它能夠不停增加一些變量,然后增加價值,幫助我們做出愈加好決議。如你所提到,現(xiàn)在我們有兩種模型,一個是基于假設(shè)模型,比如前幾年麥肯錫提出來假設(shè)模型,說我們要關(guān)注哪些高價值數(shù)據(jù),關(guān)注相關(guān)領(lǐng)域數(shù)據(jù),關(guān)注那些能夠提升效率數(shù)據(jù)。另一個模型就是一個不是基于假設(shè)模型,確切地說,是一個機(jī)器學(xué)習(xí)模型。這種模型跟假設(shè)模型完全不一樣。我并不認(rèn)為這兩種模型能夠相互代替。從長久來看,一定會有更多數(shù)據(jù)需要我們?nèi)リP(guān)注。對大數(shù)據(jù)來說,它能夠不停增加變量,幫助我們基于這些數(shù)據(jù)做出愈加好決議,這是它尤其有優(yōu)勢一個地方。我個人認(rèn)為,在比較長一段時間之后,機(jī)器學(xué)習(xí)這種方式,有可能會取代假設(shè)這種模型。問:在金融領(lǐng)域機(jī)器學(xué)習(xí)應(yīng)該具備什么特征?答:以小額貸款機(jī)器學(xué)習(xí)為例,這需要非??焖儆^察和衡量,能夠快速發(fā)覺壞帳,這么才能夠快速學(xué)習(xí)、調(diào)整。盡管現(xiàn)在也有一些企業(yè)推出了所謂機(jī)器學(xué)習(xí),但這是非常有不足,主要是用于展示,展示出新科技所帶來可能性,并告訴客戶這個新科技能夠不停完善,而且最終能夠降低風(fēng)險。技術(shù)基礎(chǔ):大數(shù)據(jù)分析技術(shù)發(fā)展ZDNet存放系統(tǒng)起源:賽迪網(wǎng)05月16日評論(0)關(guān)鍵詞:大數(shù)據(jù)MapReduce谷歌本文摘要大數(shù)據(jù)分析技術(shù)最初起源于互聯(lián)網(wǎng)行業(yè)。網(wǎng)頁存檔、用戶點(diǎn)擊、商品信息、用戶關(guān)系等數(shù)據(jù)形成了連續(xù)增加海量數(shù)據(jù)集。這些大數(shù)據(jù)中蘊(yùn)藏著大量能夠用于增強(qiáng)用戶體驗(yàn)、提升服務(wù)質(zhì)量和開發(fā)新型應(yīng)用知識,而怎樣高效和準(zhǔn)確發(fā)覺這些知識就基本決定了各大互聯(lián)網(wǎng)企業(yè)在激烈競爭環(huán)境中位置。首先,以谷歌為首技術(shù)型互聯(lián)網(wǎng)企業(yè)提出了MapReduce技術(shù)框架,利用廉價PC服務(wù)器集群,大規(guī)模并發(fā)處理批量事務(wù)。大數(shù)據(jù)分析技術(shù)最初起源于互聯(lián)網(wǎng)行業(yè)。網(wǎng)頁存檔、用戶點(diǎn)擊、商品信息、用戶關(guān)系等數(shù)據(jù)形成了連續(xù)增加海量數(shù)據(jù)集。這些大數(shù)據(jù)中蘊(yùn)藏著大量能夠用于增強(qiáng)用戶體驗(yàn)、提升服務(wù)質(zhì)量和開發(fā)新型應(yīng)用知識,而怎樣高效和準(zhǔn)確發(fā)覺這些知識就基本決定了各大互聯(lián)網(wǎng)企業(yè)在激烈競爭環(huán)境中位置。首先,以谷歌為首技術(shù)型互聯(lián)網(wǎng)企業(yè)提出了MapReduce技術(shù)框架,利用廉價PC服務(wù)器集群,大規(guī)模并發(fā)處理批量事務(wù)。利用文件系統(tǒng)存放非結(jié)構(gòu)化數(shù)據(jù),加上完善備份和容災(zāi)策略,這套經(jīng)濟(jì)實(shí)惠大數(shù)據(jù)處理方案與之前昂貴企業(yè)小型機(jī)集群+商業(yè)數(shù)據(jù)庫方案相比,不但沒有丟失性能,而且還贏在了可擴(kuò)展性上。之前,我們在設(shè)計(jì)一個數(shù)據(jù)中心處理方案前期,就要考慮到方案實(shí)施后可擴(kuò)展性。通常方法是預(yù)估今后一段時期內(nèi)業(yè)務(wù)量和數(shù)據(jù)量,加入多出計(jì)算單元(CPU)和存放,以備不時只需。這么方式直接造成了前期一次性投資巨大,而且即使這么也依然無法確保計(jì)算需求和存放超出設(shè)計(jì)量時系統(tǒng)性能。而一旦需要擴(kuò)容,問題就會接踵而來。首先是商業(yè)并行數(shù)據(jù)庫通常需要各節(jié)點(diǎn)物理同構(gòu),也就是具備近似計(jì)算和存放能力。而伴隨硬件更新,我們通常加入新硬件都會強(qiáng)于已經(jīng)有硬件。這么,舊硬件就成為了系統(tǒng)瓶頸。為了確保系統(tǒng)性能,我們不得不把舊硬件逐步替換掉,經(jīng)濟(jì)成本損失巨大。其次,即使是當(dāng)前最強(qiáng)商業(yè)并行數(shù)據(jù)庫,其所能管理數(shù)據(jù)節(jié)點(diǎn)也只是在幾十或上百這個數(shù)量級,這主要是因?yàn)榧軜?gòu)上設(shè)計(jì)問題,所以其可擴(kuò)展性必定有限。而MapReduce+GFS框架,不受上述問題困擾。需要擴(kuò)容了,只需增加個機(jī)柜,加入適當(dāng)計(jì)算單元和存放,集群系統(tǒng)會自動分配和調(diào)度這些資源,絲毫不影響現(xiàn)有系統(tǒng)運(yùn)行。如今,我們用得更多是谷歌MapReduce開源實(shí)現(xiàn),即Hadoop。除了計(jì)算模型發(fā)展,與此同時,人們也在關(guān)注著數(shù)據(jù)存放模型。傳統(tǒng)關(guān)系型數(shù)據(jù)庫因?yàn)槠湟?guī)范設(shè)計(jì)、友好查詢語言、高效數(shù)據(jù)處理在線事務(wù)能力,長時間地占據(jù)了市場主導(dǎo)地位。然而,其嚴(yán)格設(shè)計(jì)定式、為確保強(qiáng)一致性而放棄性能、可擴(kuò)展性差等問題在大數(shù)據(jù)分析中被逐步暴露。隨之而來,NoSQL數(shù)據(jù)存放模型開始風(fēng)靡。NoSQL,也有些人了解為NotOnlySQL,并不是一個特定數(shù)據(jù)存放模型,它是一類非關(guān)系型數(shù)據(jù)庫統(tǒng)稱。其特點(diǎn)是:沒有固定數(shù)據(jù)表模式、能夠分布式和水平擴(kuò)展。NoSQL并不是單純反對關(guān)系型數(shù)據(jù)庫,而是針對其缺點(diǎn)一個補(bǔ)充和擴(kuò)展。經(jīng)典NoSQL數(shù)據(jù)存放模型有文檔存放、鍵-值存放、圖存放、對象數(shù)據(jù)庫、列存放等。而比較流行,不得不提到谷歌提出Bigtable。Bigtable是一個用于管理海量結(jié)構(gòu)化數(shù)據(jù)分布式存放系統(tǒng),其數(shù)據(jù)通常能夠跨成千個節(jié)點(diǎn)進(jìn)行分布式存放,總數(shù)據(jù)量可達(dá)PB級(1015次方字節(jié),106GB)。HBase是其開源實(shí)現(xiàn)。如今,在開源小區(qū),圍繞谷歌MapReduce框架,成長出了一批優(yōu)異開源項(xiàng)目。這些項(xiàng)目在技術(shù)和實(shí)現(xiàn)上相互支持和依靠,逐步形成了一個特有生態(tài)系統(tǒng)。這里借用Cloudera所描繪架構(gòu)圖來展現(xiàn)Hadoop生態(tài)系統(tǒng)。這個系統(tǒng)為我們實(shí)現(xiàn)優(yōu)質(zhì)廉價大數(shù)據(jù)分析提供了堅(jiān)實(shí)技術(shù)基礎(chǔ)。使用Storm實(shí)現(xiàn)實(shí)時大數(shù)據(jù)分析!實(shí)時Storm大數(shù)據(jù)摘要:伴隨數(shù)據(jù)體積越來越大,實(shí)時處理成為了許多機(jī)構(gòu)需要面正確首要挑戰(zhàn)。ShruthiKumar和SiddharthPatankar在Dr.Dobb’s上結(jié)合了汽車超速監(jiān)視,為我們演示了使用Storm進(jìn)行實(shí)時大數(shù)據(jù)分析。CSDN在此編譯、整理。簡單和明了,Storm讓大數(shù)據(jù)分析變得輕松加愉快。當(dāng)今世界,企業(yè)日常運(yùn)行經(jīng)常會生成TB級別數(shù)據(jù)。數(shù)據(jù)起源囊括了互聯(lián)網(wǎng)裝置能夠捕捉任何類型數(shù)據(jù),網(wǎng)站、社交媒體、交易型商業(yè)數(shù)據(jù)以及其它商業(yè)環(huán)境中創(chuàng)建數(shù)據(jù)??紤]到數(shù)據(jù)生成量,實(shí)時處理成為了許多機(jī)構(gòu)需要面正確首要挑戰(zhàn)。我們經(jīng)慣用一個非常有效開源實(shí)時計(jì)算工具就是Storm
——Twitter開發(fā),通常被比作“實(shí)時Hadoop”。然而Storm遠(yuǎn)比Hadoop來簡單,因?yàn)橛盟幚泶髷?shù)據(jù)不會帶來新老技術(shù)交替。ShruthiKumar、SiddharthPatankar共同效力于Infosys,分別從事技術(shù)分析和研發(fā)工作。本文詳述了Storm使用方法,例子中項(xiàng)目名稱為“超速報(bào)警系統(tǒng)(SpeedingAlertSystem)”。我們想實(shí)現(xiàn)功效是:實(shí)時分析過往車輛數(shù)據(jù),一旦車輛數(shù)據(jù)超出預(yù)設(shè)臨界值——便觸發(fā)一個trigger并把相關(guān)數(shù)據(jù)存入數(shù)據(jù)庫。Storm對比Hadoop批處理,Storm是個實(shí)時、分布式以及具備高容錯計(jì)算系統(tǒng)。同Hadoop一樣Storm也能夠處理大批量數(shù)據(jù),然而Storm在確保高可靠性前提下還能夠讓處理進(jìn)行愈加實(shí)時;也就是說,全部信息都會被處理。Storm一樣還具備容錯和分布計(jì)算這些特征,這就讓Storm能夠擴(kuò)展到不一樣機(jī)器上進(jìn)行大批量數(shù)據(jù)處理。他一樣還有以下這些特征:易于擴(kuò)展。對于擴(kuò)展,你只需要添加機(jī)器和改變對應(yīng)topology(拓?fù)洌┰O(shè)置。Storm使用HadoopZookeeper進(jìn)行集群協(xié)調(diào),這么能夠充分確保大型集群良好運(yùn)行。每條信息處理都能夠得到確保。Storm集群管理簡易。Storm容錯機(jī)能:一旦topology遞交,Storm會一直運(yùn)行它直到topology被廢除或者被關(guān)閉。而在執(zhí)行中出現(xiàn)錯誤時,也會由Storm重新分配任務(wù)。盡管通常使用Java,Storm中topology能夠用任何語言設(shè)計(jì)。當(dāng)然為了愈加好了解文章,你首先需要安裝和設(shè)置Storm。需要經(jīng)過以下幾個簡單步驟:從Storm官方下載Storm安裝文件將bin/directory解壓到你PATH上,并確保bin/storm腳本是可執(zhí)行。Storm組件Storm集群主要由一個主節(jié)點(diǎn)和一群工作節(jié)點(diǎn)(workernode)組成,經(jīng)過Zookeeper進(jìn)行協(xié)調(diào)。主節(jié)點(diǎn):主節(jié)點(diǎn)通常運(yùn)行一個后臺程序——Nimbus,用于響應(yīng)分布在集群中節(jié)點(diǎn),分配任務(wù)和監(jiān)測故障。這個很類似于Hadoop中JobTracker。工作節(jié)點(diǎn):工作節(jié)點(diǎn)一樣會運(yùn)行一個后臺程序——Supervisor,用于收聽工作指派并基于要求運(yùn)行工作進(jìn)程。每個工作節(jié)點(diǎn)都是topology中一個子集實(shí)現(xiàn)。而Nimbus和Supervisor之間協(xié)調(diào)則經(jīng)過Zookeeper系統(tǒng)或者集群。ZookeeperZookeeper是完成Supervisor和Nimbus之間協(xié)調(diào)服務(wù)。而應(yīng)用程序?qū)崿F(xiàn)實(shí)時邏輯則被封裝進(jìn)Storm中“topology”。topology則是一組由Spouts(數(shù)據(jù)源)和Bolts(數(shù)據(jù)操作)經(jīng)過StreamGroupings進(jìn)行連接圖。下面對出現(xiàn)術(shù)語進(jìn)行更深刻解析。Spout:簡而言之,Spout從起源處讀取數(shù)據(jù)并放入topology。Spout分成可靠和不可靠兩種;當(dāng)Storm接收失敗時,可靠Spout會對tuple(元組,數(shù)據(jù)項(xiàng)組成列表)進(jìn)行重發(fā);而不可靠Spout不會考慮接收成功是否只發(fā)射一次。而Spout中最主要方法就是nextTuple(),該方法會發(fā)射一個新tuple到topology,假如沒有新tuple發(fā)射則會簡單返回。Bolt:Topology中全部處理都由Bolt完成。Bolt能夠完成任何事,比如:連接過濾、聚合、訪問文件/數(shù)據(jù)庫、等等。Bolt從Spout中接收數(shù)據(jù)并進(jìn)行處理,假如碰到復(fù)雜流處理也可能將tuple發(fā)送給另一個Bolt進(jìn)行處理。而Bolt中最主要方法是execute(),以新tuple作為參數(shù)接收。不論是Spout還是Bolt,假如將tuple發(fā)射成多個流,這些流都能夠經(jīng)過declareStream()來申明。StreamGroupings:StreamGrouping定義了一個流在Bolt任務(wù)間該怎樣被切分。這里有Storm提供6個StreamGrouping類型:1.隨機(jī)分組(Shufflegrouping):隨機(jī)分發(fā)tuple到Bolt任務(wù),確保每個任務(wù)取得相等數(shù)量tuple。2.字段分組(Fieldsgrouping):依照指定字段分割數(shù)據(jù)流,并分組。比如,依照“user-id”字段,相同“user-id”元組總是分發(fā)到同一個任務(wù),不一樣“user-id”元組可能分發(fā)到不一樣任務(wù)。3.全部分組(Allgrouping):tuple被復(fù)制到bolt全部任務(wù)。這種類型需要慎重使用。4.全局分組(Globalgrouping):全部流都分配到bolt同一個任務(wù)。明確地說,是分配給ID最小那個task。5.無分組(Nonegrouping):你不需要關(guān)心流是怎樣分組?,F(xiàn)在,無分組等效于隨機(jī)分組。但最終,Storm將把無分組Bolts放到Bolts或Spouts訂閱它們同一線程去執(zhí)行(假如可能)。6.直接分組(Directgrouping):這是一個尤其分組類型。元組生產(chǎn)者決定tuple由哪個元組處理者任務(wù)接收。當(dāng)然還能夠?qū)崿F(xiàn)CustomStreamGroupimg接口來定制自己需要分組。項(xiàng)目實(shí)施當(dāng)下情況我們需要給Spout和Bolt設(shè)計(jì)一個能夠處理大量數(shù)據(jù)(日志文件)topology,當(dāng)一個特定數(shù)據(jù)值超出預(yù)設(shè)臨界值時促發(fā)警報(bào)。使用Stormtopology,逐行讀入日志文件而且監(jiān)視輸入數(shù)據(jù)。在Storm組件方面,Spout負(fù)責(zé)讀入輸入數(shù)據(jù)。它不但從現(xiàn)有文件中讀入數(shù)據(jù),同時還監(jiān)視著新文件。文件一旦被修改Spout會讀入新版本而且覆蓋之前tuple(能夠被Bolt讀入格式),將tuple發(fā)射給Bolt進(jìn)行臨界分析,這么就能夠發(fā)覺全部可能超臨界統(tǒng)計(jì)。下一節(jié)將對用例進(jìn)行詳細(xì)介紹。臨界分析這一節(jié),將主要聚焦于臨界值兩種分析類型:瞬間臨界(instantthershold)和時間序列臨界(timeseriesthreshold)。瞬間臨界值監(jiān)測:一個字段值在那個瞬間超出了預(yù)設(shè)臨界值,假如條件符合話則觸發(fā)一個trigger。舉個例子當(dāng)車輛超越80公里每小時,則觸發(fā)trigger。時間序列臨界監(jiān)測:字段值在一個給定時間段內(nèi)超出了預(yù)設(shè)臨界值,假如條件符合則觸發(fā)一個觸發(fā)器。比如:在5分鐘類,時速超出80KM兩次及以上車輛。ListingOne顯示了我們將使用一個類型日志,其中包含車輛數(shù)據(jù)信息有:車牌號、車輛行駛速度以及數(shù)據(jù)獲取位置。AB12360NorthcityBC12370SouthcityCD23440SouthcityDE12340East
cityEF12390SouthcityGH12350West
city這里將創(chuàng)建一個對應(yīng)XML文件,這將包含引入數(shù)據(jù)模式。這個XML將用于日志文件解析。XML設(shè)計(jì)模式和對應(yīng)說明請見下表。XML文件和日志文件都存放在Spout能夠隨時監(jiān)測目錄下,用以關(guān)注文件實(shí)時更新。而這個用例中topology請見下列圖。Figure1:Storm中建立topology,用以實(shí)現(xiàn)數(shù)據(jù)實(shí)時處理如圖所表示:FilelistenerSpout接收輸入日志并進(jìn)行逐行讀入,接著將數(shù)據(jù)發(fā)射給ThresoldCalculatorBolt進(jìn)行更深一步臨界值處理。一旦處理完成,被計(jì)算行數(shù)據(jù)將發(fā)送給DBWriterBolt,然后由DBWriterBolt存入給數(shù)據(jù)庫。下面將對這個過程實(shí)現(xiàn)進(jìn)行詳細(xì)解析。Spout實(shí)現(xiàn)Spout以日志文件和XML描述文件作為接收對象。XML文件包含了與日志一致設(shè)計(jì)模式。不妨構(gòu)想一下一個示例日志文件,包含了車輛車牌號、行駛速度、以及數(shù)據(jù)捕捉位置。(看下列圖)Figure2:數(shù)據(jù)從日志文件到Spout流程圖ListingTwo顯示了tuple對應(yīng)XML,其中指定了字段、將日志文件切割成字段定界符以及字段類型。XML文件以及數(shù)據(jù)都被保留到Spout指定路徑。ListingTwo:用以描述日志文件XML文件。<TUPLEINFO>
<FIELDLIST>
<FIELD>
<COLUMNNAME>vehicle_number</COLUMNNAME>
<COLUMNTYPE>string</COLUMNTYPE>
</FIELD>
<FIELD><COLUMNNAME>speed</COLUMNNAME>
<COLUMNTYPE>int</COLUMNTYPE>
</FIELD>
<FIELD>
<COLUMNNAME>location</COLUMNNAME>
<COLUMNTYPE>string</COLUMNTYPE>
</FIELD>
</FIELDLIST>
<DELIMITER>,</DELIMITER>
</TUPLEINFO>
經(jīng)過結(jié)構(gòu)函數(shù)及它參數(shù)Directory、PathSpout和TupleInfo對象創(chuàng)建Spout對象。TupleInfo儲存了日志文件字段、定界符、字段類型這些很必要信息。這個對象經(jīng)過XSTream序列化XML時建立。Spout實(shí)現(xiàn)步驟:對文件改變進(jìn)行分開監(jiān)聽,并監(jiān)視目錄下有沒有新日志文件添加。在數(shù)據(jù)得到了字段說明后,將其轉(zhuǎn)換成tuple。申明Spout和Bolt之間分組,并決定tuple發(fā)送給Bolt路徑。Spout詳細(xì)編碼在ListingThree中顯示。ListingThree:Spout中open、nextTuple和delcareOutputFields方法邏輯。public
void
open(
Map
conf,
TopologyContext
context,SpoutOutputCollector
collector
)
{
_collector
=
collector;
try
{
fileReader
=
new
BufferedReader(new
FileReader(new
File(file)));
}
catch
(FileNotFoundException
e)
{
System.exit(1);
}
}
public
void
nextTuple()
{
protected
void
ListenFile(File
file)
{
Utils.sleep();
RandomAccessFile
access
=
null;
String
line
=
null;
try
{
while
((line
=
access.readLine())
!=
null)
{
if
(line
!=null)
{
String[]
fields=null;
if
(tupleInfo.getDelimiter().equals("|"))
fields
=
line.split("\\"+tupleInfo.getDelimiter());
else
fields
=
line.split
(tupleInfo.getDelimiter());
if
(tupleInfo.getFieldList().size()
==
fields.length)
_collector.emit(new
Values(fields));
}
}
}
catch
(IOException
ex){
}
}
}
public
void
declareOutputFields(OutputFieldsDeclarer
declarer)
{
String[]
fieldsArr
=
new
String
[tupleInfo.getFieldList().size()];
for(int
i=0;
i<tupleInfo.getFieldList().size();
i++)
{
fieldsArr[i]
=
tupleInfo.getFieldList().get(i).getColumnName();
}
declarer.declare(new
Fields(fieldsArr));
}
declareOutputFileds()決定了tuple發(fā)射格式,這么話Bolt就能夠用類似方法將tuple譯碼。Spout連續(xù)對日志文件數(shù)據(jù)變更進(jìn)行監(jiān)聽,一旦有添加Spout就會進(jìn)行讀入而且發(fā)送給Bolt進(jìn)行處理。Bolt實(shí)現(xiàn)Spout輸出結(jié)果將給予Bolt進(jìn)行更深一步處理。經(jīng)過對用例思索,我們topology中需要如Figure3中兩個Bolt。Figure3:Spout到Bolt數(shù)據(jù)流程。ThresholdCalculatorBoltSpout將tuple發(fā)出,由ThresholdCalculatorBolt接收并進(jìn)行臨界值處理。在這里,它將接收好幾項(xiàng)輸入進(jìn)行檢驗(yàn);分別是:臨界值檢驗(yàn)臨界值欄數(shù)檢驗(yàn)(拆分成字段數(shù)目)臨界值數(shù)據(jù)類型(拆分后字段類型)臨界值出現(xiàn)頻數(shù)臨界值時間段檢驗(yàn)ListingFour中類,定義用來保留這些值。ListingFour:ThresholdInfo類public
class
ThresholdInfo
implementsSerializable
{
private
String
action;
private
String
rule;
private
Object
thresholdValue;
private
int
thresholdColNumber;
private
Integer
timeWindow;
private
int
frequencyOfOccurence;
}
基于字段中提供值,臨界值檢驗(yàn)將被ListingFive中execute()方法執(zhí)行。代碼大部分功效是解析和接收值檢測。ListingFive:臨界值檢測代碼段public
void
execute(Tuple
tuple,
BasicOutputCollector
collector)
{
if(tuple!=null)
{
List<Object>
inputTupleList
=
(List<Object>)
tuple.getValues();
int
thresholdColNum
=
thresholdInfo.getThresholdColNumber();
Object
thresholdValue
=
thresholdInfo.getThresholdValue();
String
thresholdDataType
=
tupleInfo.getFieldList().get(thresholdColNum-1).getColumnType();
Integer
timeWindow
=
thresholdInfo.getTimeWindow();
int
frequency
=
thresholdInfo.getFrequencyOfOccurence();
if(thresholdDataType.equalsIgnoreCase("string"))
{
String
valueToCheck
=
inputTupleList.get(thresholdColNum-1).toString();
String
frequencyChkOp
=
thresholdInfo.getAction();
if(timeWindow!=null)
{
long
curTime
=
System.currentTimeMillis();
long
diffInMinutes
=
(curTime-startTime)/(1000);
if(diffInMinutes>=timeWindow)
{
if(frequencyChkOp.equals("=="))
{
if(valueToCheck.equalsIgnoreCase(thresholdValue.toString()))
{
count.incrementAndGet();
if(count.get()
>
frequency)
splitAndEmit(inputTupleList,collector);
}
}
else
if(frequencyChkOp.equals("!="))
{
if(!valueToCheck.equalsIgnoreCase(thresholdValue.toString()))
{
count.incrementAndGet();
if(count.get()
>
frequency)
splitAndEmit(inputTupleList,collector);
}
}
else
System.out.println("Operator
not
supported");
}
}
else
{
if(frequencyChkOp.equals("=="))
{
if(valueToCheck.equalsIgnoreCase(thresholdValue.toString()))
{
count.incrementAndGet();
if(count.get()
>
frequency)
splitAndEmit(inputTupleList,collector);
}
}
else
if(frequencyChkOp.equals("!="))
{
if(!valueToCheck.equalsIgnoreCase(thresholdValue.toString()))
{
count.incrementAndGet();
if(count.get()
>
frequency)
splitAndEmit(inputTupleList,collector);
}
}
}
}
else
if(thresholdDataType.equalsIgnoreCase("int")
||
thresholdDataType.equalsIgnoreCase("double")
||
thresholdDataType.equalsIgnoreCase("float")
||
thresholdDataType.equalsIgnoreCase("long")
||
thresholdDataType.equalsIgnoreCase("short"))
{
String
frequencyChkOp
=
thresholdInfo.getAction();
if(timeWindow!=null)
{
long
valueToCheck
=
Long.parseLong(inputTupleList.get(thresholdColNum-1).toString());
long
curTime
=
System.currentTimeMillis();
long
diffInMinutes
=
(curTime-startTime)/(1000);
System.out.println("Difference
in
minutes="+diffInMinutes);
if(diffInMinutes>=timeWindow)
{
if(frequencyChkOp.equals("<"))
{
if(valueToCheck
<
Double.parseDouble(thresholdValue.toString()))
{
count.incrementAndGet();
if(count.get()
>
frequency)
splitAndEmit(inputTupleList,collector);
}
}
else
if(frequencyChkOp.equals(">"))
{
if(valueToCheck
>
Double.parseDouble(thresholdValue.toString()))
{
count.incrementAndGet();
if(count.get()
>
frequency)
splitAndEmit(inputTupleList,collector);
}
}
else
if(frequencyChkOp.equals("=="))
{
if(valueToCheck
==
Double.parseDouble(thresholdValue.toString()))
{
count.incrementAndGet();
if(count.get()
>
frequency)
splitAndEmit(inputTupleList,collector);
}
}
else
if(frequencyChkOp.equals("!="))
{
.
.
.
}
}
}
else
splitAndEmit(null,collector);
}
else
{
System.err.println("Emitting
null
in
bolt");
splitAndEmit(null,collector);
}
}
經(jīng)由Bolt發(fā)送tuple將會傳遞到下一個對應(yīng)Bolt,在我們用例中是DBWriterBolt。DBWriterBolt經(jīng)過處理tuple必須被持久化方便于觸發(fā)tigger或者更深層次使用。DBWiterBolt做了這個持久化工作并把tuple存入了數(shù)據(jù)庫。表建立由prepare()函數(shù)完成,這也將是topology調(diào)用第一個方法。方法編碼如ListingSix所表示。ListingSix:建表編碼。public
void
prepare(
Map
StormConf,
TopologyContext
context
)
{
try
{
Class.forName(dbClass);
}
catch
(ClassNotFoundException
e)
{
System.out.println("Driver
not
found");
e.printStackTrace();
}
try
{
connection
driverManager.getConnection(
"jdbc:mysql://"+databaseIP+":"+databasePort+"/"+databaseName,
userName,
pwd);
connection.prepareStatement("DROP
TABLE
IF
EXISTS
"+tableName).execute();
StringBuilder
createQuery
=
new
StringBuilder(
"CREATE
TABLE
IF
NOT
EXISTS
"+tableName+"(");
for(Field
fields
:
tupleInfo.getFieldList())
{
if(fields.getColumnType().equalsIgnoreCase("String"))
createQuery.append(fields.getColumnName()+"
VARCHAR(500),");
else
createQuery.append(fields.getColumnName()+"
"+fields.getColumnType()+",");
}
createQuery.append("thresholdTimeStamp
timestamp)");
connection.prepareStatement(createQuery.toString()).execute();
//
Insert
Query
StringBuilder
insertQuery
=
new
StringBuilder("INSERT
INTO
"+tableName+"(");
String
tempCreateQuery
=
new
String();
for(Field
fields
:
tupleInfo.getFieldList())
{
insertQuery.append(fields.getColumnName()+",");
}
insertQuery.append("thresholdTimeStamp").append(")
values
(");
for(Field
fields
:
tupleInfo.getFieldList())
{
insertQuery.append("?,");
}
insertQuery.append("?)"
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 新解讀《CB-T 3859 - 1999錨鏈產(chǎn)品質(zhì)量評級》新解讀
- DBJ04-T489-2025 《智慧園林建設(shè)標(biāo)準(zhǔn)》
- 三級安全教育考試題
- AI技術(shù)服務(wù)合同
- 浙江省杭州市上城區(qū)2023-2024學(xué)年四年級下學(xué)期數(shù)學(xué)期末試卷(含答案)
- Brand KPIs for health insurance:State Farm in the United States-英文培訓(xùn)課件2025.4
- 初中英語八年級下冊統(tǒng)編教案 uunit1
- 初中英語七年級下冊統(tǒng)編教案 七下Unit6 Outdoor fun第3課時
- 從加強(qiáng)支部活動方案
- 倉儲超市開業(yè)活動方案
- 國際化創(chuàng)新型人才培養(yǎng)模式與中俄合作辦學(xué)實(shí)踐案例分析
- 附件6工貿(mào)高風(fēng)險企業(yè)高危領(lǐng)域較大以上安全風(fēng)險管控清單
- 一次性使用無菌醫(yī)療器械管理制度
- 2025甘肅省安全員《B證》考試題庫
- 大學(xué)物理畢奧-薩伐爾定律
- 電動車售后維修流程與服務(wù)質(zhì)量提升
- 食品安全防護(hù)計(jì)劃評估表
- 《美國西部拓荒運(yùn)動》課件
- 2025年華僑港澳臺學(xué)生聯(lián)招考試英語試卷試題(含答案詳解)
- 2025年益陽市中心醫(yī)院公開招聘工作人員歷年高頻重點(diǎn)提升(共500題)附帶答案詳解
- 建筑法知識培訓(xùn)課件
評論
0/150
提交評論