![大數(shù)據(jù)技術(shù)綜述_第1頁](http://file4.renrendoc.com/view8/M03/17/2D/wKhkGWbGARSAXxxuAAMu8eqHkg4373.jpg)
![大數(shù)據(jù)技術(shù)綜述_第2頁](http://file4.renrendoc.com/view8/M03/17/2D/wKhkGWbGARSAXxxuAAMu8eqHkg43732.jpg)
![大數(shù)據(jù)技術(shù)綜述_第3頁](http://file4.renrendoc.com/view8/M03/17/2D/wKhkGWbGARSAXxxuAAMu8eqHkg43733.jpg)
![大數(shù)據(jù)技術(shù)綜述_第4頁](http://file4.renrendoc.com/view8/M03/17/2D/wKhkGWbGARSAXxxuAAMu8eqHkg43734.jpg)
![大數(shù)據(jù)技術(shù)綜述_第5頁](http://file4.renrendoc.com/view8/M03/17/2D/wKhkGWbGARSAXxxuAAMu8eqHkg43735.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
趙勇等:大數(shù)據(jù)技術(shù)綜述PAGE17PAGE18
大數(shù)據(jù)技術(shù)綜述Abstract: Weareenteringintoa“bigdata”era.Duetothebottlenecks,suchaspoorscalability,installationandmaintenancedifficulties,faulttoleranceandlowperformance,intraditionalinformationtechniqueframework,weneedtoleveragethecloudcomputingtechniquesandsolutionstodealwithbigdataproblems.Cloudcomputingandbigdataarecomplementarytoeachotherandhaveinherentconnectionofdialecticalunity.Thebreakthroughofbigdatatechniqueswillnotonlyresolvethecurrentsituation,butalsopromotethewideapplicationofcloudcomputingandtheinternetofthingstechniques.Wefocusondiscussingthedevelopmentandthepivotaltechniquesofbigdata.Andprovideacomprehensivedescriptionofbigdatafromseveralperspectives,includingthedevelopmentofbigdata,thecurrentdata-burstsituation,therelationshipbetweenbigdataandcloudcomputingandthebigdatatechniques.Finally,weintroducetherelatedtechniqueresearchesandourcurrentwork.Keywords: bigdatatechnique;cloudcomputing;dataacquisition;datastorage;datacomputation;presentationandinteraction摘要: 我們正在進(jìn)入一個“大數(shù)據(jù)”時代,傳統(tǒng)的信息技術(shù)架構(gòu),存在著擴(kuò)展性差、容錯性差、性能低、安裝部署及維護(hù)困難等諸多瓶頸,需要以現(xiàn)代云計算手段和技術(shù)來解決大數(shù)據(jù)問題.云計算與大數(shù)據(jù)是相輔相成、辨證統(tǒng)一的關(guān)系,大數(shù)據(jù)技術(shù)的突破不僅能解決現(xiàn)實困難,同時也會促使云計算、物聯(lián)網(wǎng)技術(shù)真正落地并深入推廣和應(yīng)用.針對大數(shù)據(jù)的發(fā)展歷程以及關(guān)鍵性的大數(shù)據(jù)技術(shù)進(jìn)行探討,從大數(shù)據(jù)的發(fā)展歷程、當(dāng)前面臨的大數(shù)據(jù)問題、大數(shù)據(jù)與云計算的關(guān)系以及大數(shù)據(jù)技術(shù)等方面進(jìn)行綜合描述.歸納總結(jié)相關(guān)的技術(shù)研究和我們的研究成果.關(guān)鍵詞: 大數(shù)據(jù)技術(shù);云計算;數(shù)據(jù)采集;數(shù)據(jù)存儲;數(shù)據(jù)計算;展現(xiàn)與交互中圖法分類號: TP301文獻(xiàn)標(biāo)識碼:A大數(shù)據(jù)的發(fā)展背景及定義當(dāng)今,信息技術(shù)為人類步入智能社會開啟了大門,帶動了互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電子商務(wù)、現(xiàn)代物流、網(wǎng)絡(luò)金融等現(xiàn)代服務(wù)業(yè)發(fā)展,催生了車聯(lián)網(wǎng)、智能電網(wǎng)、新能源、智能交通、智能城市、高端裝備制造等新興產(chǎn)業(yè)發(fā)展.現(xiàn)代信息技術(shù)正成為各行各業(yè)運營和發(fā)展的引擎.但這個引擎正面臨著大數(shù)據(jù)這個巨大的考驗[57].各種業(yè)務(wù)數(shù)據(jù)正以幾何級數(shù)的形式爆發(fā)[1],其格式、收集、儲存、檢索、分析、應(yīng)用等諸多問題,不再能以傳統(tǒng)的信息處理技術(shù)加以解決,對人類實現(xiàn)數(shù)字社會、網(wǎng)絡(luò)社會和智能社會帶來了極大的障礙.紐約證券交易所每天產(chǎn)生1TB的交易數(shù)據(jù);Twitter每天就會生成超過7TB的數(shù)據(jù);Facebook每天會產(chǎn)生超過10TB的數(shù)據(jù);位于歐洲粒子物理實驗室的大型強(qiáng)子對撞機(jī)每年產(chǎn)生約15PB的數(shù)據(jù).根據(jù)著名咨詢公司IDC的調(diào)查與統(tǒng)計,07年全球信息量約為165EB,即使在全球遭遇金融危機(jī)的2009年,全球信息量仍達(dá)到800EB,比上一年度增長62%;未來每隔18個月,整個世界的數(shù)據(jù)總量就會翻倍;預(yù)計2020年這一數(shù)字將達(dá)到35ZB,約為2007年的230倍,而人類歷史5000年的文字記載只有5EB數(shù)據(jù).上述統(tǒng)計與調(diào)查預(yù)示著TB、PB、EB的時代已經(jīng)成為過去,全球?qū)⒄竭M(jìn)入數(shù)據(jù)存儲的“澤它(Zetta)時代”.從2009年開始,“大數(shù)據(jù)”成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯,大數(shù)據(jù)起初成熟應(yīng)用多在互聯(lián)網(wǎng)行業(yè),互聯(lián)網(wǎng)上的數(shù)據(jù)每年增長50%,每兩年翻一番,全球互聯(lián)網(wǎng)企業(yè)都意識到“大數(shù)據(jù)”時代的來臨,數(shù)據(jù)對于企業(yè)有著重要意義.2011年5月,麥肯錫全球研究院發(fā)布題為《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》[2]的報告.報告發(fā)布后,“大數(shù)據(jù)”迅速成為計算機(jī)行業(yè)的熱門概念.2012年4月美國奧巴馬政府推出”大數(shù)據(jù)研究和發(fā)展倡議”[3],并劃撥2億美元的專項資金之后,在全球掀起了一股大數(shù)據(jù)的熱潮.根據(jù)Wikibon2011年發(fā)布的大數(shù)據(jù)報告[4],大數(shù)據(jù)市場正處在井噴式增長的前夕,未來五年全球大數(shù)據(jù)市場價值將高達(dá)500億美元.2012年初,大數(shù)據(jù)相關(guān)軟件、硬件和服務(wù)的收入總和只有約50億美元.但隨著企業(yè)逐漸認(rèn)識到大數(shù)據(jù)和相關(guān)分析將形成新的差異化競爭優(yōu)勢,提升運營效率,大數(shù)據(jù)相關(guān)技術(shù)和服務(wù)將獲得長足發(fā)展,大數(shù)據(jù)將逐漸落地,并在未來五年保持58%的驚人復(fù)合增長速度.投資銀行JMPSecurities分析師GregMcDowell則表示大數(shù)據(jù)工具市場預(yù)計將在10年內(nèi)由去年的90億美元增長至860億美元.到2020年,企業(yè)在大數(shù)據(jù)工具方面的投資將占整體企業(yè)IT開支的11%.目前,業(yè)界對大數(shù)據(jù)還沒有一個統(tǒng)一的定義,常見的大數(shù)據(jù)定義如下:“大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合.”——麥肯錫.“大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容迚行抓取、管理和處理的數(shù)據(jù)集.”——維基百科“大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn).”Gartner大數(shù)據(jù)具備Volume、Velocity、Variety和Value四個特征[47](簡稱為“4V”,即數(shù)據(jù)體量巨大、處理速度快、數(shù)據(jù)類型繁多和價值密度低),下面對每個特征分別作簡要描述.Volume:表示大數(shù)據(jù)的數(shù)據(jù)量巨大.數(shù)據(jù)集合的規(guī)模不斷擴(kuò)大,已從GB到TB再到PB級,甚至開始以EB和ZB來計數(shù).比如一個中型城市的視頻監(jiān)控頭每天就能產(chǎn)生幾十TB的數(shù)據(jù).Variety:表示大數(shù)據(jù)的類型復(fù)雜.以往我們產(chǎn)生或者處理的數(shù)據(jù)類型較為單一,大部分是結(jié)構(gòu)化數(shù)據(jù).而如今,社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、移動計算、在線廣告等新的渠道和技術(shù)不斷涌現(xiàn),產(chǎn)生大量半結(jié)構(gòu)化或者非結(jié)構(gòu)化數(shù)據(jù),如XML、郵件、博客、即時消息等,導(dǎo)致了新數(shù)據(jù)類型的劇增.企業(yè)需要整合并分析來自復(fù)雜的傳統(tǒng)和非傳統(tǒng)信息源的數(shù)據(jù),包括企業(yè)內(nèi)部和外部的數(shù)據(jù).隨著傳感器、智能設(shè)備和社會協(xié)同技術(shù)的爆炸性增長,數(shù)據(jù)的類型無以計數(shù),包括:文本、微博、傳感器數(shù)據(jù)、音頻、視頻、點擊流、日志文件等.Velocity:數(shù)據(jù)產(chǎn)生、處理和分析的速度持續(xù)在加快,數(shù)據(jù)流量大.加速的原因是數(shù)據(jù)創(chuàng)建的實時性天性,以及需要將流數(shù)據(jù)結(jié)合到業(yè)務(wù)流程和決策過程中的要求.數(shù)據(jù)處理速度快,處理能力從批處理轉(zhuǎn)向流處理.業(yè)界對大數(shù)據(jù)的處理能力有一個稱謂——“1秒定律”,也就充分說明了大數(shù)據(jù)的處理能力,體現(xiàn)出它與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的區(qū)別;Value:大數(shù)據(jù)由于體量不斷加大,單位數(shù)據(jù)的價值密度在不斷降低,然而數(shù)據(jù)的整體價值在提高.有人甚至將大數(shù)據(jù)等同于黃金和石油,表示大數(shù)據(jù)當(dāng)中蘊含了無限的商業(yè)價值.根據(jù)IDC調(diào)研報告中預(yù)測,大數(shù)據(jù)技術(shù)與服務(wù)市場將從2010年的32億美元攀升至2015年的169億美元,實現(xiàn)年增長率達(dá)40%,并且將會是整個IT與通信產(chǎn)業(yè)增長率的7倍.通過對大數(shù)據(jù)進(jìn)行處理,找出其中潛在的商業(yè)價值,將會產(chǎn)生巨大的商業(yè)利潤.大數(shù)據(jù)處理技術(shù)在具體的應(yīng)用方面,可以為國家支柱企業(yè)的數(shù)據(jù)分析和處理提供技術(shù)和平臺支持,為企業(yè)進(jìn)行數(shù)據(jù)分析、處理、挖掘,提取出重要的信息和知識,再轉(zhuǎn)化為有用的模型,應(yīng)用到研究、生產(chǎn)、運營和銷售過程中.同時,國家大力倡導(dǎo)“智慧城市”建設(shè),在城市化與信息化融合等背景下,圍繞改善民生、增強(qiáng)企業(yè)競爭力、促進(jìn)城市可持續(xù)發(fā)展等關(guān)注點,綜合利用物聯(lián)網(wǎng)、云計算等信息技術(shù)手段,結(jié)合城市現(xiàn)有信息化基礎(chǔ),融合先進(jìn)的城市運營服務(wù)理念,建立廣泛覆蓋和深度互聯(lián)的城市信息網(wǎng)絡(luò),對城市的資源、環(huán)境、基礎(chǔ)設(shè)施、產(chǎn)業(yè)等多方面要素進(jìn)行全面感知,并整合構(gòu)建協(xié)同共享的城市信息平臺,對信息進(jìn)行智能處理利用,從而為城市運行和資源配置提供智能響應(yīng)控制,為政府社會管理和公共服務(wù)提供智能決策依據(jù)及手段,為企業(yè)和個人提供智能信息資源及開放式信息應(yīng)用平臺的綜合性區(qū)域信息化發(fā)展過程.數(shù)據(jù)無疑是新型信息技術(shù)服務(wù)和科學(xué)研究的基石,而大數(shù)據(jù)處理技術(shù)理所當(dāng)然地成為當(dāng)今信息技術(shù)發(fā)展的核心熱點,大數(shù)據(jù)處理技術(shù)的蓬勃發(fā)展也預(yù)示著又一次信息技術(shù)革命的到來.另一方面,隨著國家經(jīng)濟(jì)結(jié)構(gòu)調(diào)整、產(chǎn)業(yè)升級的不斷深化,信息處理技術(shù)的作用將日益凸顯,而大數(shù)據(jù)處理技術(shù)無疑將成為在國民經(jīng)濟(jì)支柱產(chǎn)業(yè)信息化建設(shè)中實現(xiàn)核心技術(shù)的彎道追趕、跟隨發(fā)展、應(yīng)用突破、減少綁架的最佳突破點[16].大數(shù)據(jù)問題大數(shù)據(jù)因為它所蘊含的潛在價值,正在成為企業(yè)的隱形“金礦”.隨著生產(chǎn)、運營、管理、監(jiān)控、銷售、客服等各個環(huán)節(jié)的數(shù)據(jù)不斷累積和增長,以及用戶數(shù)的不斷上升,通過從龐大的數(shù)據(jù)中分析出相關(guān)模式以及趨勢,可以實現(xiàn)高效管理、精準(zhǔn)營銷,成為企業(yè)打開這一“金礦”的鑰匙.然而傳統(tǒng)的IT基礎(chǔ)架構(gòu)和數(shù)據(jù)管理分析方法已經(jīng)不能適應(yīng)大數(shù)據(jù)的快速增長.大數(shù)據(jù)的爆發(fā)是我們在信息化和社會發(fā)展中遇到的棘手問題,需要我們采用新的數(shù)據(jù)管理模式,研究和發(fā)展新一代的信息技術(shù)才能解決.我們把大數(shù)據(jù)問題歸納為表1中所列7類:Table1Problemsofbigdata表1大數(shù)據(jù)問題大數(shù)據(jù)問題分類大數(shù)據(jù)問題描述速度方面的問題導(dǎo)入導(dǎo)出問題統(tǒng)計分析問題檢索查詢問題實時響應(yīng)問題種類及架構(gòu)問題多源問題異構(gòu)問題原系統(tǒng)的底層架構(gòu)問題體量及靈活性問題線性擴(kuò)展問題動態(tài)調(diào)度問題成本問題大機(jī)與小型服務(wù)器的成本對比原有系統(tǒng)改造的成本把控價值挖掘問題數(shù)據(jù)分析與挖掘問題數(shù)據(jù)挖掘后的實際增效問題存儲及安全問題結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)安全隱私安全互聯(lián)互通與數(shù)據(jù)共享問題數(shù)據(jù)標(biāo)準(zhǔn)與接口共享協(xié)議訪問權(quán)限速度方面的問題傳統(tǒng)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS)一般都是集中式的存儲和處理,沒有采用分布式架構(gòu),在很多大型企業(yè)中的配置往往都是基于IOE(IBM服務(wù)器,Oracle數(shù)據(jù)庫,EMC存儲).在這種典型配置中單臺服務(wù)器的配置通常都很高,可以多達(dá)幾十個CPU核,內(nèi)存也能達(dá)到上百GB;數(shù)據(jù)庫的存儲放在高速大容量的磁陣上,存儲空間可達(dá)TB級.這種配置對于傳統(tǒng)的信息管理系統(tǒng)(MIS)需求來說是可以滿足需求的,然而面對不斷增長的數(shù)據(jù)量和動態(tài)數(shù)據(jù)使用場景,這種集中式的處理方式就日益成為瓶頸,尤其是在速度響應(yīng)方面捉襟見肘.在面對大數(shù)據(jù)量的導(dǎo)入導(dǎo)出、統(tǒng)計分析、檢索查詢方面,由于依賴于集中式的數(shù)據(jù)存儲和索引,性能隨著數(shù)據(jù)量的增長而急速下降,對于需要實時響應(yīng)的統(tǒng)計及查詢場景更是無能為力.比如在物聯(lián)網(wǎng)中,傳感器的數(shù)據(jù)可以多達(dá)幾十億條,對這些數(shù)據(jù)需要進(jìn)行實時入庫、查詢及分析,傳統(tǒng)的RDBMS就不再適合應(yīng)用需求.種類及架構(gòu)問題RDMBS對于結(jié)構(gòu)化的、固定模式的數(shù)據(jù),已經(jīng)形成了相當(dāng)成熟的存儲、查詢、統(tǒng)計處理方式.隨著物聯(lián)網(wǎng)、互聯(lián)網(wǎng)以及移動通信網(wǎng)絡(luò)的飛速發(fā)展,數(shù)據(jù)的格式及種類在不斷變化和發(fā)展.在智能交通領(lǐng)域,所涉及的數(shù)據(jù)可能包含文本、日志、圖片、視頻、矢量地圖等來自不同數(shù)據(jù)采集監(jiān)控源的,不同種類的數(shù)據(jù).這些數(shù)據(jù)的格式通常都不是固定的,如果采用結(jié)構(gòu)化的存儲模式將很難應(yīng)對不斷變化的需求.因此對于這些種類各異的多源異構(gòu)數(shù)據(jù),需要采用不同的數(shù)據(jù)和存儲處理模式,結(jié)合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲.在整體的數(shù)據(jù)管理模式和架構(gòu)上,也需要采用新型的分布式文件系統(tǒng)及分布式NoSQL數(shù)據(jù)庫架構(gòu),才能適應(yīng)大數(shù)據(jù)量及變化的結(jié)構(gòu).體量及靈活性問題如前所述,大數(shù)據(jù)由于總體的體量巨大,采用集中式的存儲,在速度、響應(yīng)方面都存在問題.當(dāng)數(shù)據(jù)量越來越大,并發(fā)讀寫量也越來越大時,集中式的文件系統(tǒng)或單數(shù)據(jù)庫操作將成為致命的性能瓶頸,畢竟單臺機(jī)器的承受壓力是有限的.我們可以采用線性擴(kuò)展的架構(gòu)和方式,把數(shù)據(jù)的壓力分散到很多臺機(jī)器上,直到可以承受,這樣就可以根據(jù)數(shù)據(jù)量和并發(fā)量來動態(tài)增加和減少文件或數(shù)據(jù)庫服務(wù)器,實現(xiàn)線性擴(kuò)展.在數(shù)據(jù)的存儲方面,需要采用分布式可擴(kuò)展的架構(gòu),比如大家所熟知的Hadoop文件系統(tǒng)[25],和HBase數(shù)據(jù)庫[27].同時在數(shù)據(jù)的處理方面,也需要采用分布式的架構(gòu),把數(shù)據(jù)處理任務(wù),分配到很多計算節(jié)點上,同時還需考慮數(shù)據(jù)存放節(jié)點和計算節(jié)點之間的位置相關(guān)性.在計算領(lǐng)域中,資源分配,任務(wù)的分配實際上是一個任務(wù)調(diào)度問題.其主要任務(wù)是根據(jù)當(dāng)前集群中各個節(jié)點上面的資源(包括CPU、內(nèi)存、存儲空間和網(wǎng)絡(luò)資源等)的占用情況,和各個用戶作業(yè)服務(wù)質(zhì)量要求,在資源和作業(yè)或者任務(wù)之間做出最優(yōu)的匹配.由于用戶對作業(yè)服務(wù)質(zhì)量的要求是多樣化的,同時資源的狀態(tài)也在不斷變化,因此,為分布式數(shù)據(jù)處理找到合適的資源是一個動態(tài)調(diào)度問題.成本問題集中式的數(shù)據(jù)存儲和處理,在硬件軟件選型時,基本采用的方式都是配置相當(dāng)高的大型機(jī)或小型機(jī)服務(wù)器,以及訪問速度快、保障性高的磁盤陣列,來保障數(shù)據(jù)處理性能.這些硬件設(shè)備都非常昂貴,動輒高達(dá)數(shù)百萬元,同時軟件也經(jīng)常是國外大廠商如Oracle,IBM,SAP,微軟等的產(chǎn)品,對于服務(wù)器及數(shù)據(jù)庫的維護(hù)也需要專業(yè)技術(shù)人員,投入及運維成本很高.在面對海量數(shù)據(jù)處理的挑戰(zhàn)時,這些廠商也推出了形似龐然大物的“一體機(jī)”解決方案,如Oracle的Exadata,SAP的Hana等,通過把多服務(wù)器、大規(guī)模內(nèi)存、閃存、高速網(wǎng)絡(luò)等硬件進(jìn)行堆疊,來緩解數(shù)據(jù)壓力,然而在硬件成本上,更是大幅跳高,一般的企業(yè)很難承受.新型的分布式存儲架構(gòu)、分布式數(shù)據(jù)庫如HDFS,HBase,Cassandra[28],MongoDB[29]等由于大多采用去中心化的、海量并行處理MPP架構(gòu),在數(shù)據(jù)處理上不存在集中處理和匯總的瓶頸,同時具備線性擴(kuò)展能力,能有效地應(yīng)對大數(shù)據(jù)的存儲和處理問題.在軟件架構(gòu)上,也都實現(xiàn)了一些自管理、自恢復(fù)的機(jī)制,以面對大規(guī)模節(jié)點中容易出現(xiàn)的偶發(fā)故障,保障系統(tǒng)整體的健壯性,因此對每個節(jié)點的硬件配置,要求并不高,甚至可以使用普通的PC作為服務(wù)器,因此在服務(wù)器成本上可以大大節(jié)省,在軟件方面開源軟件也占據(jù)非常大的價格優(yōu)勢.當(dāng)然,在談及成本問題時,我們不能簡單地進(jìn)行硬件軟件的成本對比.要把原有的系統(tǒng)及應(yīng)用遷移到新的分布式架構(gòu)上,從底層平臺到上層應(yīng)用都需要做很大的調(diào)整.尤其是在數(shù)據(jù)庫模式以及應(yīng)用編程接口方面,新型的NoSQL數(shù)據(jù)庫與原來的RDBMS存在較大的差別,企業(yè)需要評估遷移及開發(fā)成本、周期及風(fēng)險.除此之外,還需考慮服務(wù)、培訓(xùn)、運維方面的成本.但在總體趨勢上,隨著這些新型數(shù)據(jù)架構(gòu)及產(chǎn)品的逐漸成熟與完善,以及一些商業(yè)運營公司基于開源基礎(chǔ)為企業(yè)提供專業(yè)的數(shù)據(jù)庫開發(fā)及咨詢服務(wù),新型的分布式、可擴(kuò)展數(shù)據(jù)庫模式必將在大數(shù)據(jù)浪潮中勝出,從成本到性能方面完勝傳統(tǒng)的集中式大機(jī)模式.價值挖掘問題大數(shù)據(jù)由于體量巨大,同時又在不斷增長,因此單位數(shù)據(jù)的價值密度在不斷降低.但同時大數(shù)據(jù)的整體價值在不斷提高,大數(shù)據(jù)被類比為石油和黃金,因此從中可以發(fā)掘巨大的商業(yè)價值[54].要從海量數(shù)據(jù)中找到潛藏的模式,需要進(jìn)行深度的數(shù)據(jù)挖掘和分析.大數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘模式也存在較大的區(qū)別:傳統(tǒng)的數(shù)據(jù)挖掘一般數(shù)據(jù)量較小,算法相對復(fù)雜,收斂速度慢.然而大數(shù)據(jù)的數(shù)據(jù)量巨大,在對數(shù)據(jù)的存儲、清洗、ETL(抽取、轉(zhuǎn)換、加載)方面都需要能夠應(yīng)對大數(shù)據(jù)量的需求和挑戰(zhàn),在很大程度上需要采用分布式并行處理的方式,比如Google,微軟的搜索引擎,在對用戶的搜索日志進(jìn)行歸檔存儲時,就需要多達(dá)幾百臺甚至上千臺服務(wù)器同步工作,才能應(yīng)付全球上億用戶的搜索行為.同時,在對數(shù)據(jù)進(jìn)行挖掘時,也需要改造傳統(tǒng)數(shù)據(jù)挖掘算法以及底層處理架構(gòu),同樣采用并行處理的方式才能對海量數(shù)據(jù)進(jìn)行快速計算分析.Apache的Mahout[30]項目就提供了一系列數(shù)據(jù)挖掘算法的并行實現(xiàn).在很多應(yīng)用場景中,甚至需要挖掘的結(jié)果能夠?qū)崟r反饋回來,這對系統(tǒng)提出了很大的挑戰(zhàn),因為數(shù)據(jù)挖掘算法通常需要較長的時間,尤其是在大數(shù)據(jù)量的情況下,在這種情形下,可能需要結(jié)合大批量的離線處理和實時計算才可能滿足需求.數(shù)據(jù)挖掘的實際增效也是我們在進(jìn)行大數(shù)據(jù)價值挖掘之前需要仔細(xì)評估的問題.并不見得所有的數(shù)據(jù)挖掘計劃都能得到理想的結(jié)果.首先需要保障數(shù)據(jù)本身的真實性和全面性,如果所采集的信息本身噪音較大,或者一些關(guān)鍵性的數(shù)據(jù)沒有被包含進(jìn)來,那么所挖掘出來的價值規(guī)律也就大打折扣.其次也要考慮價值挖掘的成本和收益,如果對挖掘項目投入的人力物力、硬件軟件平臺耗資巨大,項目周期也較長,而挖掘出來的信息對于企業(yè)生產(chǎn)決策、成本效益等方面的貢獻(xiàn)不大,那么片面地相信和依賴數(shù)據(jù)挖掘的威力,也是不切實際和得不償失的.存儲及安全問題在大數(shù)據(jù)的存儲及安全保障方面,大數(shù)據(jù)由于存在格式多變、體量巨大的特點,也帶來了很多挑戰(zhàn).針對結(jié)構(gòu)化數(shù)據(jù),關(guān)系型數(shù)據(jù)庫管理系統(tǒng)RDBMS經(jīng)過幾十年的發(fā)展,已經(jīng)形成了一套完善的存儲、訪問、安全與備份控制體系.由于大數(shù)據(jù)的巨大體量,也對傳統(tǒng)RDBMS造成了沖擊,如前所述,集中式的數(shù)據(jù)存儲和處理也在轉(zhuǎn)向分布式并行處理.大數(shù)據(jù)更多的時候是非結(jié)構(gòu)化數(shù)據(jù),因此也衍生了許多分布式文件存儲系統(tǒng),分布式NoSQL數(shù)據(jù)庫等來應(yīng)對這類數(shù)據(jù).然而這些新興系統(tǒng),在用戶管理、數(shù)據(jù)訪問權(quán)限、備份機(jī)制、安全控制等各方面還需進(jìn)一步完善.安全問題,如果簡而言之,一是要保障數(shù)據(jù)不丟失,對海量的結(jié)構(gòu)、非結(jié)構(gòu)化數(shù)據(jù),需要有合理的備份冗余機(jī)制,在任何情況下數(shù)據(jù)不能丟.二是要保障數(shù)據(jù)不被非法訪問和竊取,只有對數(shù)據(jù)有訪問權(quán)限的用戶,才能看到數(shù)據(jù),拿到數(shù)據(jù).由于大量的非結(jié)構(gòu)化數(shù)據(jù)可能需要不同的存儲和訪問機(jī)制,因此要形成對多源、多類型數(shù)據(jù)的統(tǒng)一安全訪問控制機(jī)制,還是亟待解決的問題.大數(shù)據(jù)由于將更多更敏感的數(shù)據(jù)匯集在一起,對潛在攻擊者的吸引力更大;若攻擊者成功實施一次攻擊,將能得到更多的信息,“性價比”更高,這些都使得大數(shù)據(jù)更易成為被攻擊的目標(biāo).LinkedIn在2012年被曝650萬用戶賬戶密碼泄露;雅虎遭到網(wǎng)絡(luò)攻擊,致使45萬用戶ID泄露.2011年12月,CSDN的安全系統(tǒng)遭到黑客攻擊,600萬用戶的登錄名、密碼及郵箱遭到泄漏.與大數(shù)據(jù)緊密相關(guān)的還有隱私問題.由于物聯(lián)網(wǎng)技術(shù)和互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,與我們工作生活相關(guān)各類信息都被采集和存儲下來,我們隨時暴露在“第三只眼”下面.不管我們是在上網(wǎng)、打電話、發(fā)微博、微信,還是在購物、旅游,我們的行為都在隨時被監(jiān)控分析.對用戶行為的深入分析和建模,可以更好地服務(wù)用戶,實施精準(zhǔn)營銷,然而如果信息泄露或被濫用,則會直接侵犯到用戶的隱私,對用戶形成惡劣的影響,甚至帶來生命財產(chǎn)的損失.2006年,美國DVD租賃商Netflix公司舉辦了一個算法競賽.該公司公布了大約來自50萬用戶的一億條租賃記錄,并且公開懸賞100萬美金,舉辦一個軟件設(shè)計大賽來提高他們的電影推薦系統(tǒng)的準(zhǔn)確度,勝利的條件是把準(zhǔn)確度提高10%.盡管該公司對數(shù)據(jù)進(jìn)行了精心的匿名化處理,還是被一個用戶認(rèn)出來了,一個化名“無名氏”的未出柜的同性戀母親起訴了Netflix公司,她來自保守的美國中西部.在美國的微博網(wǎng)站T上面,很多用戶習(xí)慣隨時發(fā)布他們的位置和動態(tài)信息,結(jié)果有幾家網(wǎng)站,如“PleaseRobM”-請來搶劫我,“WeKnowYourH”-我知道你的家,能夠根據(jù)用戶所發(fā)的信息,推測出用戶不在家的時間,找到用戶的準(zhǔn)確家庭住址,甚至把房子的照片都能找出來.他們的做法旨在提醒大家我們隨時暴露在公眾視線下,如果不培養(yǎng)安全和隱私意識,將會給自身帶來災(zāi)難.目前世界的很多國家,包括中國,都在完善與數(shù)據(jù)使用及隱私相關(guān)的法律,來保護(hù)隱私信息不被濫用.互聯(lián)互通與數(shù)據(jù)共享問題在我國的企業(yè)信息化建設(shè)過程中,普遍存在條塊分割和信息孤島的現(xiàn)象.不同行業(yè)之間的系統(tǒng)與數(shù)據(jù)幾乎沒有交集,同一行業(yè),比如交通、社保系統(tǒng)內(nèi)部等,也是按行政領(lǐng)域進(jìn)行劃分建設(shè),跨區(qū)域的信息交互和協(xié)同非常困難.嚴(yán)重的甚至在同一單位內(nèi),比如一些醫(yī)院的信息系統(tǒng)建設(shè),病歷管理、病床信息、藥品管理等子系統(tǒng)都是分立建設(shè)的,沒有實現(xiàn)信息共享和互通.“智慧城市”是我國十二五信息化建設(shè)的重點,而智慧城市的根本,是要實現(xiàn)信息的互聯(lián)互通和數(shù)據(jù)共享,基于數(shù)據(jù)融合實現(xiàn)智能化的電子政務(wù)、社會化管理和民生改善.因此在城市數(shù)字化的基礎(chǔ)上,還需實現(xiàn)互聯(lián)化,打通各行各業(yè)的數(shù)據(jù)接口,實現(xiàn)互聯(lián)互通,在此之上才能實現(xiàn)智慧化.比如在城市應(yīng)急管理方面,就需要交通、人口、公安、消防、醫(yī)療衛(wèi)生等各個方面的數(shù)據(jù)和協(xié)助.當(dāng)前美國聯(lián)邦政府建立的數(shù)據(jù)共享平臺,我國北京市政府?dāng)?shù)據(jù)資源網(wǎng)()等都是朝著數(shù)據(jù)開放、數(shù)據(jù)共享的有力的嘗試.為實現(xiàn)跨行業(yè)的數(shù)據(jù)整合,需要制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)、交換接口以及共享協(xié)議,這樣不同行業(yè)、不同部門、不同格式的數(shù)據(jù)才能基于一個統(tǒng)一的基礎(chǔ)進(jìn)行訪問、交換和共享.對于數(shù)據(jù)訪問,還需制定細(xì)致的訪問權(quán)限,規(guī)定什么樣的用戶在什么樣的場景下,可以訪問什么類型的數(shù)據(jù).在大數(shù)據(jù)及云計算時代,不同行業(yè)、企業(yè)的數(shù)據(jù)可能存放在統(tǒng)一的平臺和數(shù)據(jù)中心之上,需要對一些敏感信息進(jìn)行保護(hù),比如涉及到企業(yè)商業(yè)機(jī)密及交易信息方面的數(shù)據(jù),雖然是依托平臺來進(jìn)行處理,但是除了企業(yè)自身的授權(quán)人員之外,要保證平臺管理員以及其他企業(yè)都不能訪問此類數(shù)據(jù).大數(shù)據(jù)與云計算的辯證關(guān)系云計算技術(shù)自2007年以來取得了蓬勃的發(fā)展.云計算的核心模式是大規(guī)模分布式計算,將計算、存儲、網(wǎng)絡(luò)等資源以服務(wù)的模式提供給多用戶,按需使用[5].云計算為企業(yè)和用戶提供高可擴(kuò)展性、高可用性和高可靠性,提高資源使用效率,降低企業(yè)信息化建設(shè)、投入和維護(hù)成本.隨著美國亞馬遜、Google、以及微軟公司提供的公共云服務(wù)的不斷成熟與完善,越來越多的企業(yè)正在朝著云計算平臺上遷移.由于國家的戰(zhàn)略規(guī)劃需要以及積極引導(dǎo),云計算及技術(shù)在我國近幾年來取得了長足的發(fā)展.我國設(shè)立了北京、上海、深圳、杭州、無錫作為第一批云計算示范城市,北京的“祥云”計劃,上海的“云海”計劃,深圳的“云計算國際聯(lián)合實驗室”,無錫的“元云計算項目”,以及杭州的“西湖云計算公共服務(wù)平臺”也先后啟動和上線,其他城市如天津、廣州、武漢、西安、重慶、成都等也都推出了相應(yīng)的云計算發(fā)展計劃或成立了云計算聯(lián)盟,積極開展云計算的研究開發(fā)和產(chǎn)業(yè)試點.然而中國云計算的普及在很大程度上仍然局限在基礎(chǔ)設(shè)施的建設(shè)方面,缺乏規(guī)模性的行業(yè)應(yīng)用,沒有真正實現(xiàn)云計算的落地.究其原因,物聯(lián)網(wǎng)及云計算技術(shù)的全面普及是我們的美好愿景,能夠?qū)崿F(xiàn)信息采集、信息處理,以及信息應(yīng)用的規(guī)?;?、泛在化、協(xié)同化.然而其應(yīng)用的前提是大部分行業(yè)、企業(yè)在信息化建設(shè)方面已經(jīng)具備良好的基礎(chǔ)和經(jīng)驗,有著迫切的需求去改造現(xiàn)有系統(tǒng)架構(gòu),提高現(xiàn)有系統(tǒng)的效率.而現(xiàn)實情況是我們的大部分中小企業(yè)在信息化建設(shè)方面還才剛剛起步,只有一些大型企業(yè)和國家部委在信息化建設(shè)方面具備基礎(chǔ).大數(shù)據(jù)的爆發(fā)則是社會和行業(yè)信息化發(fā)展中遇到的棘手問題.由于數(shù)據(jù)流量和體量增長迅速,數(shù)據(jù)格式存在多源異構(gòu)的特點,而我們對數(shù)據(jù)處理又要求能夠準(zhǔn)確實時,能夠幫助我們發(fā)掘出大體量數(shù)據(jù)中潛在的價值.傳統(tǒng)的信息技術(shù)架構(gòu),已無法處理大數(shù)據(jù)問題,存在著擴(kuò)展性差、容錯性差、性能低、安裝部署及維護(hù)困難等諸多瓶頸.由于物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、移動通信網(wǎng)絡(luò)技術(shù)在近些年來的迅猛發(fā)展,造成數(shù)據(jù)產(chǎn)生和傳輸?shù)念l度和速度都大大加快,催生了大數(shù)據(jù)問題,而數(shù)據(jù)的二次開發(fā),深度循環(huán)利用則讓大數(shù)據(jù)問題日益突出.我們認(rèn)為云計算與大數(shù)據(jù)是相輔相成、辨證統(tǒng)一的關(guān)系.云計算、物聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用是我們的愿景,而大數(shù)據(jù)的爆發(fā)則是發(fā)展中遇到的棘手問題;前者是人類文明追求的夢想,后者是社會發(fā)展亟待解決的瓶頸;云計算是技術(shù)發(fā)展趨勢,大數(shù)據(jù)是現(xiàn)代信息社會飛速發(fā)展的必然現(xiàn)象.解決大數(shù)據(jù)問題,又需要以現(xiàn)代云計算的手段和技術(shù).大數(shù)據(jù)技術(shù)的突破不僅能解決現(xiàn)實困難,同時也會促使云計算、物聯(lián)網(wǎng)技術(shù)真正落地并深入推廣和應(yīng)用.從現(xiàn)代IT技術(shù)的發(fā)展中,我們能總結(jié)出幾個規(guī)律:(1)大型機(jī)與個人PC之爭,以個人PC完勝為終局.蘋果iOS和Android之爭,開放的Android平臺在2-3年內(nèi)即搶占了1/3的市場份額.Nokia的塞班操作系統(tǒng)因為不開放,現(xiàn)在處于淘汰邊緣.這些都體現(xiàn)了現(xiàn)代IT技術(shù)需要本著開放、眾包的觀念,才能取得長足發(fā)展.(2)現(xiàn)有的常規(guī)技術(shù)同云計算技術(shù)的碰撞與之相類似,云計算技術(shù)的優(yōu)勢在于利用眾包理論和開源體系,建設(shè)基于開放平臺和開源新技術(shù)的分布式架構(gòu)之上,能夠解決現(xiàn)有集中式的大機(jī)處理方式難以解決或不能解決的問題.像淘寶、騰訊等大型互聯(lián)網(wǎng)公司也曾經(jīng)依賴于Sun,Oracle,EMC這樣的大公司專有解決方案,后來都因為成本太貴而采用開源技術(shù),自身的產(chǎn)品最終也貢獻(xiàn)給開源界,也反映了信息技術(shù)發(fā)展的趨勢.(3)傳統(tǒng)行業(yè)巨頭已經(jīng)向開源體系傾斜,這是利于追趕的歷史機(jī)遇.傳統(tǒng)的行業(yè)巨頭、大型央企如國家電網(wǎng)、電信、銀行、民航等因為歷史原因過度依賴外企成熟的專有方案,造成創(chuàng)新性不足,被外企產(chǎn)品綁架的格局.從破解問題的方案路徑上分析,解決大數(shù)據(jù)問題,必須逐漸放棄傳統(tǒng)信息技術(shù)架構(gòu),利用以“云”技術(shù)為代表的新一代信息技術(shù)來解決大數(shù)據(jù)問題.盡管先進(jìn)的云計算技術(shù)主要還是發(fā)源于美國,但是基于開源基礎(chǔ),我們與發(fā)達(dá)技術(shù)的差距并不大,將云計算技術(shù)應(yīng)用于大型行業(yè)中的迫切的大數(shù)據(jù)問題,也是我們實現(xiàn)創(chuàng)新突破、打破壟斷、追趕國際先進(jìn)技術(shù)的歷史契機(jī).大數(shù)據(jù)技術(shù)大數(shù)據(jù)帶來的不僅是機(jī)遇,同時也是挑戰(zhàn).傳統(tǒng)的數(shù)據(jù)處理手段已經(jīng)無法滿足大數(shù)據(jù)的海量實時需求,需要采用新一代的信息技術(shù)來應(yīng)對大數(shù)據(jù)的爆發(fā).我們把大數(shù)據(jù)技術(shù)歸納為五大類,如表2中所示.Table2Classificationofbigdatatechniques表2大數(shù)據(jù)技術(shù)分類大數(shù)據(jù)技術(shù)分類大數(shù)據(jù)技術(shù)與工具基礎(chǔ)架構(gòu)支持云計算平臺云存儲虛擬化技術(shù)網(wǎng)絡(luò)技術(shù)資源監(jiān)控技術(shù)數(shù)據(jù)采集數(shù)據(jù)總線ETL工具數(shù)據(jù)存儲分布式文件系統(tǒng)關(guān)系型數(shù)據(jù)庫NoSQL技術(shù)關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫融合內(nèi)存數(shù)據(jù)庫數(shù)據(jù)計算數(shù)據(jù)查詢、統(tǒng)計與分析數(shù)據(jù)預(yù)測與挖掘圖譜處理BI商業(yè)智能展現(xiàn)與交互圖形與報表可視化工具增強(qiáng)現(xiàn)實技術(shù)基礎(chǔ)架構(gòu)支持.主要包括為支撐大數(shù)據(jù)處理的基礎(chǔ)架構(gòu)級數(shù)據(jù)中心管理、云計算平臺、云存儲設(shè)備及技術(shù)、網(wǎng)絡(luò)技術(shù)、資源監(jiān)控等技術(shù).大數(shù)據(jù)處理需要擁有大規(guī)模物理資源的云數(shù)據(jù)中心和具備高效的調(diào)度管理功能的云計算平臺的支撐.數(shù)據(jù)采集技術(shù).數(shù)據(jù)采集技術(shù)是數(shù)據(jù)處理的必備條件,首先需要有數(shù)據(jù)采集的手段,把信息收集上來,才能應(yīng)用上層的數(shù)據(jù)處理技術(shù).數(shù)據(jù)采集除了各類傳感設(shè)備等硬件軟件設(shè)施之外,主要涉及到的是數(shù)據(jù)的ETL(采集、轉(zhuǎn)換、加載)過程,能對數(shù)據(jù)進(jìn)行清洗、過濾、校驗、轉(zhuǎn)換等各種預(yù)處理,將有效的數(shù)據(jù)轉(zhuǎn)換成適合的格式和類型.同時,為了支持多源異構(gòu)的數(shù)據(jù)采集和存儲訪問,還需設(shè)計企業(yè)的數(shù)據(jù)總線,方便企業(yè)各個應(yīng)用和服務(wù)之間數(shù)據(jù)的交換和共享.數(shù)據(jù)存儲技術(shù).數(shù)據(jù)經(jīng)過采集和轉(zhuǎn)換之后,需要存儲歸檔.針對海量的大數(shù)據(jù),一般可以采用分布式文件系統(tǒng)和分布式數(shù)據(jù)庫的存儲方式,把數(shù)據(jù)分布到多個存儲節(jié)點上,同時還需提供備份、安全、訪問接口及協(xié)議等機(jī)制.數(shù)據(jù)計算.我們把與數(shù)據(jù)查詢、統(tǒng)計、分析、預(yù)測、挖掘、圖譜處理、BI商業(yè)智能等各項相關(guān)的技術(shù)統(tǒng)稱為數(shù)據(jù)計算技術(shù).數(shù)據(jù)計算技術(shù)涵蓋數(shù)據(jù)處理的方方面面,也是大數(shù)據(jù)技術(shù)的核心.數(shù)據(jù)展現(xiàn)與交互.數(shù)據(jù)展現(xiàn)與交互在大數(shù)據(jù)技術(shù)中也至關(guān)重要,因為數(shù)據(jù)最終需要為人們所使用,為生產(chǎn)、運營、規(guī)劃提供決策支持.選擇恰當(dāng)?shù)?、生動直觀的展示方式能夠幫助我們更好地理解數(shù)據(jù)及其內(nèi)涵和關(guān)聯(lián)關(guān)系,也能夠更有效地解釋和運用數(shù)據(jù),發(fā)揮其價值.在展現(xiàn)方式上,除了傳統(tǒng)的報表、圖形之外,我們還可以結(jié)合現(xiàn)代化的可視化工具及人機(jī)交互手段,甚至是基于最新的如Google眼鏡等增強(qiáng)現(xiàn)實手段,來實現(xiàn)數(shù)據(jù)與現(xiàn)實的無縫接口.基礎(chǔ)架構(gòu)支持大數(shù)據(jù)處理需要擁有大規(guī)模物理資源的云數(shù)據(jù)中心和具備高效的調(diào)度管理功能的云計算平臺的支撐.云計算管理平臺能為大型數(shù)據(jù)中心及企業(yè)提供靈活高效的部署、運行和管理環(huán)境,通過虛擬化技術(shù)支持異構(gòu)的底層硬件及操作系統(tǒng),為應(yīng)用提供安全、高性能、高可擴(kuò)展、高可靠和高伸縮性的云資源管理解決方案,降低應(yīng)用系統(tǒng)開發(fā)、部署、運行和維護(hù)的成本,提高資源使用效率.作為新興的計算模式,云計算在學(xué)術(shù)界和業(yè)界獲得巨大的發(fā)展動力.政府、研究機(jī)構(gòu)和行業(yè)領(lǐng)跑者正在積極的嘗試應(yīng)用云計算來解決網(wǎng)絡(luò)時代日益增長的計算和存儲問題.除了亞馬遜的AWS、Google的AppEngine和Microsoft的WindowsAzureServices等商業(yè)云平臺之外,還有一些如OpenNebula[6][7]、Eucalyptus[12]、Nimbus[9]、和OpenStack[8]等開源的云計算平臺,每個平臺都有其顯著的特點和不斷發(fā)展的社區(qū).亞馬遜的AWS可以說是當(dāng)前最主流的云計算平臺,2013年上半年其平臺及云計算服務(wù)等收入17億美元,同比增長60%.其系統(tǒng)架構(gòu)最大的特點就是通過WebService接口開放數(shù)據(jù)和功能,并通過SOA的架構(gòu)使系統(tǒng)達(dá)到松耦合.AWS提供的WebService??煞譃樗膶?訪問層:提供管理控制臺,API和各種命令行等通用服務(wù)層:包括身份認(rèn)證、監(jiān)控、部署和自動化等PaaS層服務(wù):包括并行處理、內(nèi)容傳輸和消息服務(wù)等IaaS層服務(wù):包括云計算平臺EC2、云存儲服務(wù)S3/EBS、網(wǎng)絡(luò)服務(wù)VPC/ELB、數(shù)據(jù)庫服務(wù)等Eucalyptus是試圖克隆AWS的開源云計算平臺,實現(xiàn)了類似AmazonEC2的功能,用來通過計算集群或工作站群實現(xiàn)彈性的、使用的云計算.它提供了與EC2和存儲系統(tǒng)S3的接口兼容性.使用這些接口的應(yīng)用可以直接與Eucalyptus進(jìn)行交互,支持Xen[10]和KVM[11]虛擬技術(shù),還有用于系統(tǒng)管理和用戶結(jié)算的云管理工具.Eucalyptus包含五個主要組件,分別為云控制器CLC、云存儲服務(wù)Walrus、集群控制器CC、存儲控制器SC和節(jié)點控制器NC.Eucalyptus通過Agent的方式來管理計算資源,組件能相互協(xié)作共同提供所需的云服務(wù).OpenNebula是2005年歐洲研究學(xué)會發(fā)起的虛擬基礎(chǔ)設(shè)備和云端運算計劃的虛擬化管理層的開源實現(xiàn).它是一個用來創(chuàng)建IaaS私有云、公有云和混合云的開源工具,同時還是一個可以實現(xiàn)多種不同云架構(gòu)并和多種數(shù)據(jù)中心服務(wù)進(jìn)行交互的模塊化系統(tǒng).OpenNebula集成了存儲、網(wǎng)絡(luò)、虛擬化、監(jiān)測和安全技術(shù),可以根據(jù)分配策略,以虛擬機(jī)形式在分布式基礎(chǔ)設(shè)施上部署多層次服務(wù).OpenNebula分為三層,即接口層、核心層和驅(qū)動層.接口層提供原生的XML-RPC接口,同時實現(xiàn)了EC2、OCCI(開放云計算接口)和OpenNebulaCloudAPI(OCA)等多種API,為用戶訪問提供了多種選擇.核心層提供統(tǒng)一的插件管理、請求管理、VM生命周期管理、Hypervisor管理、網(wǎng)絡(luò)資源管理和存儲資源管理等核心功能.最底層是由各種驅(qū)動構(gòu)成的驅(qū)動層與虛擬化軟件(KVM、XEN)和物理基礎(chǔ)設(shè)施交互.OpenStack是一個開源云計算虛擬架構(gòu),用戶可以使用它來建立并運行他們的云計算和存儲架構(gòu).用戶通過AmazonEC2/S3兼容的API來使用OpenStack提供的云計算服務(wù),并使得為亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)所寫的客戶工具也可以和OpenStack一起使用.OpenStack在SOA和服務(wù)化組件解耦上是做得最好的.OpenStack整體架構(gòu)分也3層,最上層為應(yīng)用程序和管理門戶(Horizon)、API等接入層;核心層包括計算服務(wù)(Nova)、存儲服務(wù)(包括對象存儲服務(wù)Swift和塊存儲服務(wù)Cinder)和網(wǎng)絡(luò)服務(wù)(Quantum);第3層為共享服務(wù),現(xiàn)在為賬戶權(quán)限管理服務(wù)(keystone)和鏡像服務(wù)(Glance).Nimbus系統(tǒng)是一個開源系統(tǒng),提供和AmazonEC2兼容的接口,能夠快速方便地生成一個虛擬機(jī)集群,這樣就可以像普通集群一樣使用集群調(diào)度系統(tǒng)在上面進(jìn)行任務(wù)調(diào)度.Nimbus也支持不同的虛擬實現(xiàn)(Xen和KVM).它主要被應(yīng)用在科學(xué)計算領(lǐng)域.數(shù)據(jù)采集 足夠的數(shù)據(jù)量是企業(yè)大數(shù)據(jù)戰(zhàn)略建設(shè)的基礎(chǔ),因此數(shù)據(jù)采集就成了大數(shù)據(jù)分析的前站.采集是大數(shù)據(jù)價值挖掘重要的一環(huán),其后的分析挖掘都建立在采集的基礎(chǔ)上.大數(shù)據(jù)技術(shù)的意義確實不在于掌握規(guī)模龐大的數(shù)據(jù)信息,而在于對這些數(shù)據(jù)進(jìn)行智能處理,從中分析和挖掘出有價值的信息,但前提是擁有大量的數(shù)據(jù).絕大多數(shù)的企業(yè)現(xiàn)在還很難判斷,到底哪些數(shù)據(jù)未來將成為資產(chǎn),通過什么方式將數(shù)據(jù)提煉為現(xiàn)實收入.對于這一點即便是大數(shù)據(jù)服務(wù)企業(yè)也很難給出確定的答案.但有一點是肯定的,大數(shù)據(jù)時代,誰掌握了足夠的數(shù)據(jù),誰就有可能掌握未來,現(xiàn)在的數(shù)據(jù)采集就是將來的資產(chǎn)積累.數(shù)據(jù)的采集有基于物聯(lián)網(wǎng)傳感器的采集,也有基于網(wǎng)絡(luò)信息的數(shù)據(jù)采集.比如在智能交通中,數(shù)據(jù)的采集有基于GPS的定位信息采集、基于交通攝像頭的視頻采集,基于交通卡口的圖像采集,基于路口的線圈信號采集等.而在互聯(lián)網(wǎng)上的數(shù)據(jù)采集是對各類網(wǎng)絡(luò)媒介,如搜索引擎、新聞網(wǎng)站、論壇、微博、博客、電商網(wǎng)站等的各種頁面信息和用戶訪問信息進(jìn)行采集,采集的內(nèi)容主要有文本信息、URL、訪問日志、日期和圖片等.之后我們需要把采集到的各類數(shù)據(jù)進(jìn)行清洗、過濾、去重等各項預(yù)處理并分類歸納存儲.數(shù)據(jù)采集過程中的ETL工具負(fù)責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的不同種類和結(jié)構(gòu)的數(shù)據(jù)如文本數(shù)據(jù)、關(guān)系數(shù)據(jù)、以及圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)等抽取到臨時中間層后進(jìn)行清洗、轉(zhuǎn)換、分類、集成,最后加載到對應(yīng)的數(shù)據(jù)存儲系統(tǒng)如數(shù)據(jù)倉庫或數(shù)據(jù)集市中,成為聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘的基礎(chǔ).針對大數(shù)據(jù)的ETL工具同時又有別于傳統(tǒng)的ETL處理過程,因為一方面大數(shù)據(jù)的體量巨大,另一方面數(shù)據(jù)的產(chǎn)生速度也非常快,比如一個城市的視頻監(jiān)控頭、智能電表每一秒鐘都在產(chǎn)生大量的數(shù)據(jù),對數(shù)據(jù)的預(yù)處理需要實時快速,因此在ETL的架構(gòu)和工具選擇上,也會采用如分布式內(nèi)存數(shù)據(jù)庫、實時流處理系統(tǒng)等現(xiàn)代信息技術(shù).現(xiàn)代企業(yè)中存在各種不同的應(yīng)用和各種數(shù)據(jù)格式及存儲需求,但在企業(yè)之間、企業(yè)內(nèi)部都存在條塊分割、信息孤島的現(xiàn)象,各個企業(yè)之間的數(shù)據(jù)不能實現(xiàn)可控的數(shù)據(jù)交換和共享,而且各個應(yīng)用之間由于涉及到開發(fā)技術(shù)和環(huán)境的限制也為企業(yè)的數(shù)據(jù)共享設(shè)置了障礙,阻礙了企業(yè)各個應(yīng)用之間和數(shù)據(jù)交換和共享,也阻礙了企業(yè)對數(shù)據(jù)可控,數(shù)據(jù)管理,數(shù)據(jù)安全方面的需求.為實現(xiàn)跨行業(yè)跨部門的數(shù)據(jù)整合,尤其是在智慧城市建設(shè)中,需要制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)、交換接口以及共享協(xié)議,這樣不同行業(yè)、不同部門、不同格式的數(shù)據(jù)才能基于一個統(tǒng)一的基礎(chǔ)進(jìn)行訪問、交換和共享.通過實現(xiàn)企業(yè)數(shù)據(jù)總線(EDS),可以提供對企業(yè)應(yīng)用中各類數(shù)據(jù)的存取功能,把企業(yè)數(shù)據(jù)的存取集成與企業(yè)的功能集成分離開來.企業(yè)數(shù)據(jù)總線有效地創(chuàng)建了一層數(shù)據(jù)訪問抽象層,使業(yè)務(wù)功能避開企業(yè)數(shù)據(jù)訪問的細(xì)節(jié).業(yè)務(wù)組件只需包含服務(wù)功能組件(用以實現(xiàn)現(xiàn)有服務(wù)功能)和數(shù)據(jù)訪問組件(通過使用企業(yè)數(shù)據(jù)總線的方式).通過企業(yè)數(shù)據(jù)總線這種方式,為企業(yè)的管理數(shù)據(jù)模型和應(yīng)用系統(tǒng)數(shù)據(jù)模型間提供了一個統(tǒng)一的轉(zhuǎn)換接口,并有效減少了各應(yīng)用服務(wù)之間的耦合度.在大數(shù)據(jù)場景下,企業(yè)數(shù)據(jù)總線上會存在大量的同步的數(shù)據(jù)訪問請求,總線上任何一個模塊性能下降,都會大大影響總線功能,因此企業(yè)數(shù)據(jù)總線也需要采用大規(guī)模并發(fā)式、具備高可擴(kuò)展性的實現(xiàn)方式.數(shù)據(jù)存儲 大數(shù)據(jù)每年都在激增龐大的信息量,加上已有的歷史數(shù)據(jù)信息,對整個業(yè)界的數(shù)據(jù)存儲、處理帶來了很大的機(jī)遇與挑戰(zhàn).為了滿足快速增長的存儲需求,云存儲需要具備高擴(kuò)展性、高可靠性、高可用性、低成本、自動容錯和去中心化等特點.常見的云存儲形式可以分為分布式文件系統(tǒng)和分布式數(shù)據(jù)庫.其中,分布式文件系統(tǒng)采用大規(guī)模的分布式存儲節(jié)點來滿足存儲大量文件的需求,而分布式的NoSQL數(shù)據(jù)庫則為大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)的處理和分析提供支持.Google在早期面對海量互聯(lián)網(wǎng)網(wǎng)頁的存儲及分析難題時,率先開發(fā)出了Google文件系統(tǒng)GFS[13]以及基于GFS的MapReduce分布式計算分析模型[15,18,31].由于一部分的Google應(yīng)用程序需要處理大量的格式化以及半格式化數(shù)據(jù),Google又構(gòu)建了弱一致性要求的大規(guī)模數(shù)據(jù)庫系統(tǒng)BigTable[14],能夠?qū)A繑?shù)據(jù)進(jìn)行索引、查詢和分析.Google的這一系列產(chǎn)品,開創(chuàng)了云計算時代大規(guī)模數(shù)據(jù)存儲、查詢和處理的先河,也成為了這個領(lǐng)域的事實上的標(biāo)準(zhǔn),在技術(shù)上一直保持領(lǐng)先地位.由于Google的技術(shù)并不對外開放,因此Yahoo以及開源社區(qū)協(xié)同開發(fā)了Hadoop系統(tǒng),相當(dāng)于GFS和MapReduce的開源實現(xiàn).其底層的Hadoop文件系統(tǒng)HDFS和GFS的設(shè)計原理完全是一致的,同時也實現(xiàn)了Bigtable的開源系統(tǒng)HBase分布式數(shù)據(jù)庫.Hadoop以及HBase自推出以來在全世界得到了廣泛的應(yīng)用,現(xiàn)在已經(jīng)由Apache基金會管理,Yahoo本身的搜索系統(tǒng)就是運行在上萬臺的Hadoop集群之上.Google文件系統(tǒng)充分考慮了在一個大規(guī)模數(shù)據(jù)集群中運行分布式文件系統(tǒng)所面對的非常嚴(yán)酷的環(huán)境:1)充分考慮到大量節(jié)點的失效問題,需要通過軟件將容錯以及自動恢復(fù)功能集成在系統(tǒng)中;2)構(gòu)造特殊的文件系統(tǒng)參數(shù),文件通常大小以G字節(jié)計,并包含大量小文件;3)充分考慮應(yīng)用的特性,增加文件追加操作,優(yōu)化順序讀寫速度;4)文件系統(tǒng)的某些具體操作不再透明,需要應(yīng)用程序的協(xié)助完成.Fig.1SystemarchitectureofGoogle圖1Google的系統(tǒng)架構(gòu)圖1描述了Google的系統(tǒng)架構(gòu),即一個GFS集群包含一個主服務(wù)器(GFSMaster)和多個塊服務(wù)器(GFSchunkserver),被多個客戶端訪問(GFSClient).大文件被分割成固定尺寸的塊,塊服務(wù)器把塊作為Linux文件保存在本地硬盤上,并根據(jù)指定的塊句柄和字節(jié)范圍來讀寫塊數(shù)據(jù).為了保證可靠性,每個塊被缺省保存三個備份.主服務(wù)器管理文件系統(tǒng)所有的元數(shù)據(jù),包括名字空間,訪問控制,文件到塊的映射,塊物理位置等相關(guān)信息.通過服務(wù)器端和客戶端的聯(lián)合設(shè)計,GFS對應(yīng)用支持達(dá)到性能與可用性最優(yōu).GFS是為Google應(yīng)用程序本身而設(shè)計的,在內(nèi)部部署了許多GFS集群.有的集群擁有超過幾千個的存儲節(jié)點,超過PB的存儲空間,被不同機(jī)器上的數(shù)千個客戶端連續(xù)不斷的頻繁訪問著.為了應(yīng)對海量數(shù)據(jù)的挑戰(zhàn),一些商業(yè)數(shù)據(jù)庫系統(tǒng)試圖結(jié)合傳統(tǒng)的RDBMS技術(shù)和分布式及并行計算技術(shù),來處理大數(shù)據(jù)的需求.很多系統(tǒng)還是從硬件層面來對數(shù)據(jù)處理進(jìn)行加速.比較典型的系統(tǒng)有IBM的Netezza,Oracle的Exadata,EMC的Greenplum,HP的Vertica,以及Teradata.這些系統(tǒng)從功能上來講,能夠繼續(xù)支持傳統(tǒng)數(shù)據(jù)庫及數(shù)據(jù)倉庫的操作語義和分析模式,而在擴(kuò)展性上,也能利用大規(guī)模的集群資源對數(shù)據(jù)進(jìn)行并行處理,大大加速數(shù)據(jù)的加載、索引和查詢處理時間.Netezza和Exadata都是采用的數(shù)據(jù)倉庫一體機(jī)的方案.把軟件與硬件結(jié)合在一起,無縫的整合數(shù)據(jù)庫管理系統(tǒng)(DBMS)、服務(wù)器(Server)、存儲設(shè)備(Storage)及網(wǎng)絡(luò).對于最終用戶來說一體機(jī)能夠快速簡易的安裝,通過標(biāo)準(zhǔn)的接口和簡單的操作來滿足用戶的需求.然而這些一體機(jī)解決方案存在硬件價格昂貴,系統(tǒng)開銷能耗大,系統(tǒng)服務(wù)費昂貴,系統(tǒng)升級擴(kuò)容時也需要整體購置等缺點.Oracle的Exadata最大的問題還是在于SharedEverything的架構(gòu),導(dǎo)致IO的處理能力有限,而且擴(kuò)展能力也有限.Exadata的儲存層不能互相通信,任何中間計算的結(jié)果必須先從儲存層傳遞到RACNode,然后通過RACNode傳遞到對應(yīng)的儲存層Node,然后計算.大量的數(shù)據(jù)移動又造成了不必要的IO和網(wǎng)絡(luò)資源消耗.Exadata在查詢性能上不太穩(wěn)定,在性能調(diào)優(yōu)方面也需要經(jīng)驗和深入的知識.NoSQL數(shù)據(jù)庫,顧名思義就是打破了傳統(tǒng)的關(guān)系數(shù)據(jù)庫的范式約束.很多NoSQL數(shù)據(jù)庫從數(shù)據(jù)存儲的角度來看,也不是關(guān)系型的數(shù)據(jù)庫,而是key-value數(shù)據(jù)格式的散列數(shù)據(jù)庫.由于放棄了關(guān)系數(shù)據(jù)庫強(qiáng)大的SQL查詢語言和事務(wù)一致性以及范式的約束,NoSQL數(shù)據(jù)庫可以在很大程度上解決傳統(tǒng)關(guān)系數(shù)據(jù)庫面臨的諸多挑戰(zhàn).在設(shè)計上,它們非常關(guān)注對數(shù)據(jù)高并發(fā)地讀寫和對海量數(shù)據(jù)的存儲等,與關(guān)系型數(shù)據(jù)庫相比,在擴(kuò)展性、并發(fā)性及容錯性等方面具有很大優(yōu)勢.現(xiàn)在主流NoSQL數(shù)據(jù)庫有Google開發(fā)的BigTable,以及類似BigTable的開源實現(xiàn)HBase、和出自Facebook的Cassandra等.由于一部分的Google應(yīng)用程序需要處理大量的格式化以及半格式化數(shù)據(jù),Google構(gòu)建了弱一致性要求的大規(guī)模數(shù)據(jù)庫系統(tǒng)BigTable.BigTable的應(yīng)用包括搜索日志,地圖,Orkut網(wǎng)絡(luò)社區(qū),RSS閱讀器等.Fig.2DatamodelinBigTable圖2BigTable的數(shù)據(jù)模型圖2中描述了在BigTable模型中應(yīng)用的數(shù)據(jù)模型.數(shù)據(jù)模型包括行列以及相應(yīng)的時間戳,所有的數(shù)據(jù)都存放在表格單元中.BigTable的內(nèi)容按照行來劃分,將多個行組成一個小表,保存到某一個服務(wù)器節(jié)點中.這一個小表就被稱為Tablet.與前述的系統(tǒng)類似,BigTable也是客戶端和服務(wù)器端的聯(lián)合設(shè)計,使得性能能夠最大程度地符合應(yīng)用的需求.BigTable系統(tǒng)依賴于集群系統(tǒng)的底層結(jié)構(gòu),一個是分布式的集群任務(wù)調(diào)度器,一個是前述的Google文件系統(tǒng),還有一個分布式的鎖服務(wù)Chubby.Chubby是一個非常健壯的粗粒度鎖,BigTable使用Chubby來保存根數(shù)據(jù)表格的指針,即用戶可以首先從Chubby鎖服務(wù)器中獲得根表的位置,進(jìn)而對數(shù)據(jù)進(jìn)行訪問.BigTable使用一臺服務(wù)器作為主服務(wù)器,用來保存和操作元數(shù)據(jù).主服務(wù)器除了管理元數(shù)據(jù)之外,還負(fù)責(zé)對于tablet服務(wù)器(即一般意義上的數(shù)據(jù)服務(wù)器)進(jìn)行遠(yuǎn)程管理與負(fù)載調(diào)配.客戶端通過編程接口與主服務(wù)器進(jìn)行元數(shù)據(jù)通信,與tablet服務(wù)器進(jìn)行數(shù)據(jù)通信.在大規(guī)模分布式數(shù)據(jù)庫方面,HBase及Cassandra等主流NoSQL數(shù)據(jù)庫主要是提供高可擴(kuò)展性支持,在一致性和可用性方面會做相應(yīng)的犧牲,在對傳統(tǒng)的RDBMS的ACID語義、事務(wù)支持等方面存在不足.Google的Megastore[32]則是努力把NoSQL與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫融合,并為一致性和高可用性提供了強(qiáng)有力的保證.Megastore使用同步復(fù)制來達(dá)到高可用性和數(shù)據(jù)的一致性視圖.簡而言之,MegaStore對“不同地域的低延遲性的數(shù)據(jù)副本”提供了完全的串行化ACID語義來支持交互的在線服務(wù).Megastore兼具了NoSQL和RDBMS兩者的優(yōu)點,在保障一致性的原則下,又能滿足高可擴(kuò)展性、高容錯性和低延遲,為Google的上百個生產(chǎn)應(yīng)用提供服務(wù).數(shù)據(jù)計算面向大數(shù)據(jù)處理的數(shù)據(jù)查詢、統(tǒng)計、分析、挖掘等需求,促生了大數(shù)據(jù)計算的不同計算模式,整體上我們把大數(shù)據(jù)計算分為離線批處理計算、實時交互計算和流計算三種.離線批處理隨著云計算技術(shù)到廣泛的應(yīng)用的發(fā)展,基于開源的Hadoop分布式存儲系統(tǒng)和MapReduce數(shù)據(jù)處理模式的分析系統(tǒng)也得到了廣泛的應(yīng)用.Hadoop通過數(shù)據(jù)分塊及自恢復(fù)機(jī)制,能支持PB級的分布式的數(shù)據(jù)存儲,以及基于MapReduce分布式處理模式對這些數(shù)據(jù)進(jìn)行分析和處理.MapReduce編程模型可以很容易的將多個通用批數(shù)據(jù)處理任務(wù)和操作在大規(guī)模集群上并行化,而且有自動化的故障轉(zhuǎn)移功能.MapReduce編程模型在Hadoop這樣的開源軟件帶動下被廣泛采用,應(yīng)用到Web搜索、欺詐檢測等各種各樣的實際應(yīng)用中.Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,而且是以一種可靠、高效、可伸縮的方式進(jìn)行處理,依靠橫向擴(kuò)展,通過不斷增加廉價的商用服務(wù)器來提高計算和存儲能力.用戶可以輕松地在上面開發(fā)和運行處理海量數(shù)據(jù)的應(yīng)用程序,我們總結(jié)出Hadoop主要有以下幾個優(yōu)點:高可靠性:按位存儲和處理數(shù)據(jù)的能力值得人們信賴;高擴(kuò)展性:在可用的計算機(jī)集群中分配數(shù)據(jù)并完成計算任務(wù),這些集群可以方便地擴(kuò)展到數(shù)以千計的節(jié)點規(guī)模;高效性:能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非???高容錯性:能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配.Fig.3TheHadoopecosystem圖3Hadoop生態(tài)圈以Hadoop平臺為代表的大數(shù)據(jù)處理平臺技術(shù)[61]包括MapReduce,HDFS,HBase,Hive,Zookeeper,Avro[48]和Pig等,已經(jīng)形成了一個Hadoop生態(tài)圈,如圖3所示.MapReduce編程模型是Hadoop的心臟,用于大規(guī)模數(shù)據(jù)集的并行運算.正是這種編程模式,實現(xiàn)了跨越一個Hadoop集群中數(shù)百或數(shù)千臺服務(wù)器的大規(guī)模擴(kuò)展性;分布式文件系統(tǒng)HDFS提供基于Hadoop處理平臺的海量數(shù)據(jù)存儲,其中的NameNode提供元數(shù)據(jù)服務(wù),DataNode用于存儲文件系統(tǒng)的文件塊;HBase是建立在HDFS之上,用于提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數(shù)據(jù)庫系統(tǒng),可以存儲非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù);Hive[17]是基于Hadoop的大型數(shù)據(jù)倉庫,可以用來進(jìn)行數(shù)據(jù)的提取、轉(zhuǎn)化和加載(ETL),存儲、查詢和分析存儲在Hadoop中的大規(guī)模數(shù)據(jù);Pig[21]是基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,可以把類SQL的數(shù)據(jù)分析請求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運算,為復(fù)雜的海量數(shù)據(jù)并行計算提供了一個簡單的操作和編程接口;Zookeeper[19]是高效、可靠的協(xié)同工作系統(tǒng),用于協(xié)調(diào)分布式應(yīng)用上的各種服務(wù),利用Zookeeper可以構(gòu)建一個有效防止單點失效及處理負(fù)載均衡的協(xié)調(diào)服務(wù);Avro作為二進(jìn)制的高性能的通訊中間件,提供了Hadoop平臺間的數(shù)據(jù)序列化功能和RPC服務(wù).但Hadoop平臺主要是面向離線批處理應(yīng)用的,典型的是通過調(diào)度批量任務(wù)操作靜態(tài)數(shù)據(jù),計算過程相對緩慢,有的查詢可能會花幾小時甚至更長時間才能產(chǎn)生結(jié)果,對于實時性要求更高的應(yīng)用和服務(wù)則顯得力不從心.MapReduce是一種很好的集群并行編程模型,能夠滿足大部分應(yīng)用的需求.雖然MapReduce是分布式/并行計算方面一個很好的抽象,但它并不一定適合解決計算領(lǐng)域的任何問題.例如,對于那些需要實時獲取計算結(jié)果的應(yīng)用,像基于流量的點擊付費模式的廣告投放,基于實時用戶行為數(shù)據(jù)分析的社交推薦,基于網(wǎng)頁檢索和點擊流量的反作弊統(tǒng)計等等.對于這些實時應(yīng)用,MapReduce并不能提供高效處理,因為處理這些應(yīng)用邏輯需要執(zhí)行多輪作業(yè),或者需要將輸入數(shù)據(jù)的粒度切分到很小.MapReduce模型存在以下局限性:中間數(shù)據(jù)傳輸難以充分優(yōu)化;單獨任務(wù)重啟開銷很大;中間數(shù)據(jù)存儲開銷大;主控節(jié)點容易成為瓶頸;僅支持統(tǒng)一的文件分片大小,很難處理大小不一的復(fù)雜文件集合;難以對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行直接存儲和訪問.除了MapReduce計算模型之外,以Swift[38,39]為代表的工作流計算模式,Pregel[20]為代表的圖計算模式,也都可以處理包含大規(guī)模的計算任務(wù)的應(yīng)用流程和圖算法.Swift系統(tǒng)作為科學(xué)工作流和并行計算之間的橋梁,是一個面向大規(guī)??茖W(xué)和工程工作流的快速、可靠的定義、執(zhí)行和管理的并行化編程工具.Swift采用結(jié)構(gòu)化的方法管理工作流的定義、調(diào)度和執(zhí)行,它包含簡單的腳本語言SwiftScript,SwiftScript可以用來簡潔的描述基于數(shù)據(jù)集類型和迭代的復(fù)雜并行計算[40],同時還可以對不同數(shù)據(jù)格式的大規(guī)模數(shù)據(jù)進(jìn)行動態(tài)的數(shù)據(jù)集映射.運行時系統(tǒng)提供一個高效的工作流引擎用來進(jìn)行調(diào)度和負(fù)載均衡,它還可以與PBS和Condor等資源管理系統(tǒng)進(jìn)行交互,完成任務(wù)執(zhí)行.Pregel是一種面向圖算法的分布式編程框架,可以用于圖遍歷、最短路徑、PageRank計算等.它采用迭代的計算模型:在每一輪,每個頂點處理上一輪收到的消息,并發(fā)出消息給其它頂點,并更新自身狀態(tài)和拓?fù)浣Y(jié)構(gòu)(出、入邊)等.實時交互計算當(dāng)今的實時計算一般都需要針對海量數(shù)據(jù)進(jìn)行,除了要滿足非實時計算的一些需求(如計算結(jié)果準(zhǔn)確)以外,實時計算最重要的一個需求是能夠?qū)崟r響應(yīng)計算結(jié)果,一般要求為秒級.實時計算一般可以分為以下兩種應(yīng)用場景:數(shù)據(jù)量巨大且不能提前計算出結(jié)果的,但要求對用戶的響應(yīng)時間是實時的主要用于特定場合下的數(shù)據(jù)分析處理.當(dāng)數(shù)據(jù)量龐大,同時發(fā)現(xiàn)無法窮舉所有可能條件的查詢組合,或者大量窮舉出來的條件組合無用的時候,實時計算就可以發(fā)揮作用,將計算過程推遲到查詢階段進(jìn)行,但需要為用戶提供實時響應(yīng).這種情形下,也可以將一部分?jǐn)?shù)據(jù)提前進(jìn)行處理,再結(jié)合實時計算結(jié)果,以提高處理效率.數(shù)據(jù)源是實時的不間斷的,要求對用戶的響應(yīng)時間也是實時的數(shù)據(jù)源實時不間斷的也稱為流式數(shù)據(jù).所謂流式數(shù)據(jù)是指將數(shù)據(jù)看作是數(shù)據(jù)流的形式來處理.數(shù)據(jù)流是在時間分布和數(shù)量上無限的一系列數(shù)據(jù)記錄的集合體;數(shù)據(jù)記錄是數(shù)據(jù)流的最小組成單元.例如,在物聯(lián)網(wǎng)領(lǐng)域傳感器產(chǎn)生的數(shù)據(jù)可能是源源不斷的.對于流式處理系統(tǒng)我們將分開在下一節(jié)具體介紹.實時的數(shù)據(jù)計算和分析可以動態(tài)實時地對數(shù)據(jù)進(jìn)行分析統(tǒng)計,對于系統(tǒng)的狀態(tài)監(jiān)控、調(diào)度管理具有重要的實際意義.海量數(shù)據(jù)的實時計算過程可以被劃分為以下三個階段:數(shù)據(jù)的產(chǎn)生與收集階段、傳輸與分析處理階段、存儲和對外提供服務(wù)階段.如圖4所示.Fig.4Theprocessofreal-timecalculation圖4實時計算過程數(shù)據(jù)實時采集在功能上需要保證可以完整地收集到所有數(shù)據(jù),為實時應(yīng)用提供實時數(shù)據(jù);響應(yīng)時間上要保證實時性、低延遲;配置簡單,部署容易;系統(tǒng)穩(wěn)定可靠等.目前,互聯(lián)網(wǎng)企業(yè)的海量數(shù)據(jù)采集工具,有Facebook開源的Scribe[50]、LinkedIn開源的Kafka[34]、Cloudera開源的Flume[35]、淘寶開源的TimeTunnel[36]、Hadoop的Chukwa[37]等,均可以滿足每秒數(shù)百MB的日志數(shù)據(jù)采集和傳輸需求.數(shù)據(jù)實時計算:傳統(tǒng)的數(shù)據(jù)操作,首先將數(shù)據(jù)采集并存儲在數(shù)據(jù)庫管理系統(tǒng)(DBMS)中,然后通過query和DBMS進(jìn)行交互,得到用戶想要的答案.整個過程中,用戶是主動的,而DBMS系統(tǒng)是被動的.但是,對于現(xiàn)在大量存在的實時數(shù)據(jù),這類數(shù)據(jù)實時性強(qiáng),數(shù)據(jù)量大,數(shù)據(jù)格式多種多樣,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫架構(gòu)并不合適.新型的實時計算架構(gòu)一般都是采用海量并行處理MPP的分布式架構(gòu),數(shù)據(jù)的存儲及處理會分配到大規(guī)模的節(jié)點上進(jìn)行,以滿足實時性要求,在數(shù)據(jù)的存儲上,則采用大規(guī)模分布式文件系統(tǒng),比如Hadoop的HDFS文件系統(tǒng),或是新型的NoSQL分布式數(shù)據(jù)庫.實時查詢服務(wù)的實現(xiàn)可以分為三種方式:1)全內(nèi)存:直接提供數(shù)據(jù)讀取服務(wù),定期dump到磁盤或數(shù)據(jù)庫進(jìn)行持久化.2)半內(nèi)存:使用Redis、Memcache、MongoDB、BerkeleyDB等數(shù)據(jù)庫提供數(shù)據(jù)實時查詢服務(wù),由這些系統(tǒng)進(jìn)行持久化操作.3)全磁盤:使用HBase等以分布式文件系統(tǒng)(HDFS)為基礎(chǔ)的NoSQL數(shù)據(jù)庫,對于key-value引擎,關(guān)鍵是設(shè)計好key的分布.實時和交互式計算技術(shù)中,Google的Dremel[40]系統(tǒng)表現(xiàn)最為突出.Dremel是Google的“交互式”數(shù)據(jù)分析系統(tǒng).可以組建成規(guī)模上千的集群,處理PB級別的數(shù)據(jù).作為MapReduce的發(fā)起人,Google開發(fā)了Dremel系統(tǒng)將處理時間縮短到秒級,作為MapReduce的有力補充.Dremel作為GoogleBigQuery的report引擎,獲得了很大的成功.和MapReduce一樣,Dremel也需要和數(shù)據(jù)運行在一起,將計算移動到數(shù)據(jù)上面.它需要GFS這樣的文件系統(tǒng)作為存儲層.Dremel支持一個嵌套(nested)的數(shù)據(jù)模型,類似于JSON.而傳統(tǒng)的關(guān)系模型,由于不可避免的有大量的Join操作,在處理如此大規(guī)模的數(shù)據(jù)的時候,往往是有心無力的.Dremel同時還使用列式存儲,分析的時候,可以只掃描需要的那部分?jǐn)?shù)據(jù),減少CPU和磁盤的訪問量.同時列式存儲是壓縮友好的,使用壓縮,可以減少存儲量,發(fā)揮最大的效能.Spark[41]是由加州大學(xué)伯克利分校AMP實驗室開發(fā)的實時數(shù)據(jù)分析系統(tǒng),采用一種與Hadoop相似的開源集群計算環(huán)境,但是Spark在任務(wù)調(diào)度、工作負(fù)載優(yōu)化方面設(shè)計和表現(xiàn)更加優(yōu)越.Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載[46].Spark是在Scala語言中實現(xiàn)的,它將Scala用作其應(yīng)用程序框架.Spark和Scala能夠緊密集成,其中的Scala可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集.創(chuàng)建Spark可以支持分布式數(shù)據(jù)集上的迭代作業(yè),是對Hadoop的有效補充,支持對數(shù)據(jù)的快速統(tǒng)計分析.它也可以在Hadoop文件系統(tǒng)中并行運行,通過名為Mesos的第三方集群框架支持此功能.Spark可用來構(gòu)建大型的、低延遲的數(shù)據(jù)分析應(yīng)用程序.由Cloudera公司最近發(fā)布的Impala[42]系統(tǒng),類似于Google的Dremel系統(tǒng),是一個有效的大數(shù)據(jù)實時查詢工具.Impala能在HDFS或HBase上提供快速、交互式SQL查詢,它除了使用統(tǒng)一的存儲平臺,還使用了與Hive相同的Metastore及SQL語法等,為批處理和實時查詢提供了一個統(tǒng)一的平臺.流計算在很多實時應(yīng)用場景中,比如實時交易系統(tǒng)、實時詐騙分析、實時廣告推送[23]、實時監(jiān)控、社交網(wǎng)絡(luò)實時分析等,存在數(shù)據(jù)量大,實時性要求高,而且數(shù)據(jù)源是實時不間斷的.新到的數(shù)據(jù)必須馬上處理完,不然后續(xù)的數(shù)據(jù)就會堆積起來,永遠(yuǎn)也處理不完.反應(yīng)時間經(jīng)常要求在秒級以下,甚至是毫秒級,這就需要一個高度可擴(kuò)展的流式計算解決方案.流計算[24]就是針對實時連續(xù)的數(shù)據(jù)類型而準(zhǔn)備的.在流數(shù)據(jù)不斷變化的運動過程中實時地進(jìn)行分析,捕捉到可能對用戶有用的信息,并把結(jié)果發(fā)送出去.整個過程中,數(shù)據(jù)分析處理系統(tǒng)是主動的,而用戶卻是處于被動接收的狀態(tài).如圖5所示.Fig.5Theprocessofflowcalculation圖5流計算過程傳統(tǒng)的流式計算系統(tǒng),一般是基于事件機(jī)制,所處理的數(shù)據(jù)量也不大.新型的流處理技術(shù),如Yahoo的S4[22][26]主要解決的是高數(shù)據(jù)率和大數(shù)據(jù)量的流式處理.S4是一個通用的、分布式的、可擴(kuò)展的、部分容錯的,可插拔的平臺.開發(fā)者可以很容易的在其上開發(fā)面向無界不間斷流數(shù)據(jù)處理的應(yīng)用.數(shù)據(jù)事件被分類路由到處理單元(processingElements,PEs),處理單元消費這些事件,并作如下的處理:發(fā)出一個或多個可能被其他PE處理的事件;發(fā)布結(jié)果.S4的設(shè)計主要由大規(guī)模應(yīng)用在生產(chǎn)環(huán)境中的數(shù)據(jù)采集和機(jī)器學(xué)習(xí)所驅(qū)動.其主要特點有:提供一種簡單的編程接口來處理數(shù)據(jù)流設(shè)計一個可以在普通硬件之上可擴(kuò)展的高可用集群.通過在每個處理節(jié)點使用本地內(nèi)存,避免磁盤I/O瓶頸達(dá)到最小化延遲使用一個去中心的,對等架構(gòu);所有節(jié)點提供相同的功能和職責(zé).沒有擔(dān)負(fù)特殊責(zé)任的中心節(jié)點.這大大簡化了部署和維護(hù).使用可插拔的架構(gòu),使設(shè)計盡可能的既通用又可定制化.友好的設(shè)計理念,易于編程,具有靈活的彈性.S4的設(shè)計和IBM的流處理核心SPC中間件[53]有很多相同的特性.兩個系統(tǒng)都是為了大數(shù)據(jù)量設(shè)計的.都具有使用用戶定義的操作在持續(xù)數(shù)據(jù)流上采集信息的能力.兩者主要的區(qū)別在架構(gòu)的設(shè)計上,SPC的設(shè)計源于Publish/Subscribe模式,而S4的設(shè)計是源于MapReduce和Actor模式的結(jié)合.Yahoo!相信因為其對等的結(jié)構(gòu),S4的設(shè)計達(dá)到了非常高程度的簡單性.集群中的所有節(jié)點都是等同的,沒有中心控制.SPC是一種分布式的流處理中間件,用于支持從大規(guī)模的數(shù)據(jù)流中抽取信息的應(yīng)用.SPC包含了為實現(xiàn)分布式的、動態(tài)的、可擴(kuò)展的應(yīng)用而提供的編程模式和開發(fā)環(huán)境,其編程模式包括用于申明和創(chuàng)建處理單元(PE)的API,以及組裝、測試、調(diào)試和部署應(yīng)用的工具集.與其他流處理中間件不同的是,SPC除了支持關(guān)系型的操作符外,還支持非關(guān)系型的操作符和用戶自定義函數(shù).Storm[43]是Twitter開源的一個類似于Hadoop的實時數(shù)據(jù)處理框架,這種高可拓展性,能處理高頻數(shù)據(jù)和大規(guī)模數(shù)據(jù)的實時流計算解決方案將應(yīng)用于實時搜索,高頻交易和社交網(wǎng)絡(luò)上.Storm有三大作用領(lǐng)域:信息流處理(StreamProcessing)Storm可以用來實時處理新數(shù)據(jù)和更新數(shù)據(jù)庫,兼具容錯性和可擴(kuò)展性.連續(xù)計算(ContinuousComputation)Storm可以進(jìn)行連續(xù)查詢并把結(jié)果即時反饋給客戶,比如將Twitter上的熱門話題發(fā)送到客戶端.分布式遠(yuǎn)程過程調(diào)用(DistributedRPC)Storm可以用來并行處理密集查詢,Storm的拓?fù)浣Y(jié)構(gòu)是一個等待調(diào)用信息的分布函數(shù),當(dāng)它收到一條調(diào)用信息后,會對查詢進(jìn)行計算,并返回查詢結(jié)果.數(shù)據(jù)展現(xiàn)與交互計算結(jié)果需要以簡單直觀的方式展現(xiàn)出來,才能最終為用戶所理解和使用,形成有效的統(tǒng)計、分析、預(yù)測及決策,應(yīng)用到生產(chǎn)實踐和企業(yè)運營中,因此大數(shù)據(jù)的展現(xiàn)技術(shù),以及與數(shù)據(jù)的交互技術(shù)在大數(shù)據(jù)全局中也占據(jù)重要的位置.Excel形式的表格和圖形化展示方式是人們熟知和使用已久的數(shù)據(jù)展示方式,也為日常的簡單數(shù)據(jù)應(yīng)用提供了極大的方便.華爾街的很多交易員還都依賴Excel和他們很多年積累和總結(jié)出來的公式來進(jìn)行大宗的股票交易,而微軟公司和一些創(chuàng)業(yè)者也看到市場潛力,在開發(fā)以Excel為展示和交互方式,結(jié)合Hadoop等技術(shù)的大數(shù)據(jù)處理平臺.人腦對圖形的理解和處理速度,大大高于文字.因此,通過視覺化呈現(xiàn)數(shù)據(jù),可以深入展現(xiàn)數(shù)據(jù)中的潛在的或復(fù)雜的模式和關(guān)系.隨著大數(shù)據(jù)的興起,也涌現(xiàn)了很多新型的數(shù)據(jù)展現(xiàn)和交互方式,和專注于這方面的一些創(chuàng)業(yè)公司.這些新型方式包括交互式圖表,可以在網(wǎng)頁上呈現(xiàn),并支持交互,可以操作、控制圖標(biāo)、動畫和演示.另外交互式地圖應(yīng)用如Google地圖,可以動態(tài)標(biāo)記、生成路線、疊加全景航拍圖等,由于其開放的API接口,可以跟很多用戶地圖和基于位置的服務(wù)應(yīng)用結(jié)合,因而獲得了廣泛的應(yīng)用.GoogleChartTools也給網(wǎng)站數(shù)據(jù)可視化提供了很多種靈活的方式.從簡單的線圖、Geo圖、gauges(測量儀),到復(fù)雜的樹圖,GoogleChartTools提供了大量設(shè)計優(yōu)良的圖表工具.誕生于斯坦福大學(xué)中的大數(shù)據(jù)創(chuàng)業(yè)公司Tableau[44]正逐漸成為優(yōu)秀的數(shù)據(jù)分析工具之一.Tableau將數(shù)據(jù)運算與美觀的圖表完美地接合在一起,如圖6所示.公司可以用它將大量數(shù)據(jù)拖放到數(shù)字“畫布”上,轉(zhuǎn)眼間就能創(chuàng)建好各種圖表.Tableau的設(shè)計與實現(xiàn)理念是:界面上的數(shù)據(jù)越容易操控,公司對自己在所在業(yè)務(wù)領(lǐng)域里的所作所為到底是正確還是錯誤,就能了解得越透徹.快速處理,便捷共享,是Tableau的另一大特性.僅需幾秒鐘,TableauServer就可以將交互控制面板發(fā)布在網(wǎng)上,用戶只需要一個瀏覽器,就可以方便的過濾、選擇數(shù)據(jù)并且對他們的問題得到回應(yīng),這將使得用戶使用數(shù)據(jù)的積極性大大增加.另一家大數(shù)據(jù)可視化創(chuàng)業(yè)公司Visual.ly[45]以豐富的信息圖資源而著稱.它是一個社會化的信息圖創(chuàng)作分享平臺.我們生活在數(shù)據(jù)收集和內(nèi)容創(chuàng)作的時代,Visual.ly正是這個數(shù)據(jù)時代的產(chǎn)物,一個全新的可視化信息圖新平臺,很多用戶樂意把自己制作的信息圖上傳到網(wǎng)站中與他人分享.信息圖形將極大的刺激視覺表現(xiàn),促進(jìn)用戶間相互學(xué)習(xí)、討論.擁有探索分享及推廣的可視化服務(wù).用Visual.ly制作信息圖并不復(fù)雜,它是一個自動化工具,讓人快速而簡易插入不同種類的數(shù)據(jù),并通過圖形把數(shù)據(jù)表達(dá)出來.Fig.6ThevisualizationexamplesofTableau圖6Tableau可視化示例 此外,3D數(shù)字化渲染技術(shù)也被廣泛地應(yīng)用在很多領(lǐng)域,如數(shù)字城市、數(shù)字園區(qū)、模擬與仿真、設(shè)計制造等,具備很高的直觀操作性.現(xiàn)代的增強(qiáng)現(xiàn)實AR技術(shù),它通過電腦技術(shù),將虛擬的信息應(yīng)用到真實世界,真實的環(huán)境和虛擬的物體實時地疊加到了同一個畫面或空間同時存在.結(jié)合虛擬3D的數(shù)字模型和真實生活中的場景,提供了更好的現(xiàn)場感和互動性.通過AR技術(shù),用戶可以和虛擬的物體進(jìn)行交互,如試戴虛擬眼鏡、試穿虛擬衣服、駕駛模擬飛行器等.在德國,工程技術(shù)人員,在進(jìn)行機(jī)械安裝、維修、調(diào)式時,通過頭盔顯示器,可以將原來不能呈現(xiàn)的機(jī)器內(nèi)部結(jié)構(gòu),以及它的相關(guān)信息、數(shù)據(jù)完全呈現(xiàn)出來.現(xiàn)代的體感技術(shù),如微軟的Kinect以及Leap公司的LeapMotion體感控制器,能夠檢測和感知到人體的動作及手勢,進(jìn)而將動作轉(zhuǎn)化為對電腦及系統(tǒng)的控制,使人們擺脫了鍵盤、鼠標(biāo)、遙控器等傳統(tǒng)交互設(shè)備的束縛,直接用身體和手勢來與電腦和數(shù)據(jù)交互.當(dāng)今熱門的可穿戴式技術(shù),如Google眼鏡,則有機(jī)地結(jié)合了大數(shù)據(jù)技術(shù)、增強(qiáng)現(xiàn)實、以及體感技術(shù).隨著數(shù)據(jù)的完善和技術(shù)的成熟,我們可以實時地感知我們周圍的現(xiàn)實環(huán)境,并且通過大數(shù)據(jù)搜索、計算,實現(xiàn)對周遭的建筑、商家、人群、物體的實時識別和數(shù)據(jù)獲取,并疊加投射在我們的視網(wǎng)膜上,這樣可以實時地幫助我們工作、購物、休閑等,提供極大的便利.當(dāng)然這種新型設(shè)備和技術(shù)的弊端也是顯而易見,我們處在一個隨時被監(jiān)控、隱私被刺探、侵犯的狀態(tài),所以大數(shù)據(jù)技術(shù)所帶來的安全性問題也不容忽視.相關(guān)研究與我們的工作大數(shù)據(jù)的規(guī)模效應(yīng)給數(shù)據(jù)存儲管理以及數(shù)據(jù)分析帶來了極大的挑戰(zhàn),數(shù)據(jù)管理方式上的變革正在醞釀和發(fā)生,孟曉峰等學(xué)者對大數(shù)據(jù)的基本概念進(jìn)行剖析并對大數(shù)據(jù)的主要應(yīng)用作簡單對比,闡述并分析了大數(shù)據(jù)處理的基本框架和云計算技術(shù)對大數(shù)據(jù)時代數(shù)據(jù)管理所產(chǎn)生的作用,同時歸納總結(jié)大數(shù)據(jù)時代所面臨的新挑戰(zhàn)[49].陶雪嬌等人[51]介紹并分析了大數(shù)據(jù)的相關(guān)概念、特點、大數(shù)據(jù)技術(shù)特別是在數(shù)據(jù)挖掘方面國內(nèi)外發(fā)展?fàn)顩r以及我們在大數(shù)據(jù)時代面臨的挑戰(zhàn).同時,有些學(xué)者指出面對數(shù)據(jù)處理的實時性有效性需求,我們需要根據(jù)大數(shù)據(jù)特點對傳統(tǒng)的常規(guī)數(shù)據(jù)處理技術(shù)進(jìn)行技術(shù)變革,形成適用于大數(shù)據(jù)收集、存儲、管理、處理、分析、共享和可視化的技術(shù)[52].上述綜述性論文更加注重于分析大數(shù)據(jù)技術(shù)的特點和發(fā)展趨勢,對大數(shù)據(jù)技術(shù)面臨的問題和分類介紹概括不夠完善.大數(shù)據(jù)分析相比于傳統(tǒng)的數(shù)據(jù)倉庫應(yīng)用,具有數(shù)據(jù)量大、查詢分析復(fù)雜等特點,從大數(shù)據(jù)分析和數(shù)據(jù)倉庫架構(gòu)設(shè)計角度,文獻(xiàn)[33]首先列舉了大數(shù)據(jù)分析平臺需要具備的幾個重要特性,并對當(dāng)前的主流實現(xiàn)平臺并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)行了分析歸納,指出了各自的優(yōu)勢及不足,HadoopDB[59][60]正是兩種架構(gòu)相結(jié)合的一種嘗試.一些學(xué)者從RDBMS和MapReduce的競爭與共生關(guān)系進(jìn)行探討,分析二者在發(fā)展過程中遇到的挑戰(zhàn)并指出關(guān)系數(shù)據(jù)管理技術(shù)和非關(guān)系數(shù)據(jù)管理技術(shù)在不斷的競爭中互相取長補短,在新的大數(shù)據(jù)分析生態(tài)系統(tǒng)內(nèi)找到自己的位置[55][58].在NoSQL系統(tǒng)的研究上,申德榮等[56]學(xué)者系統(tǒng)性總結(jié)了NoSQL系統(tǒng)的相關(guān)研究,包括體系結(jié)構(gòu)、數(shù)據(jù)模型、訪問方式、索引技術(shù)、事務(wù)特性、系統(tǒng)彈性、動態(tài)負(fù)載均衡、副本策略、數(shù)據(jù)一致性策略、基于flash的多級緩存機(jī)制、基于MapReduce的數(shù)據(jù)處理策略和新一代數(shù)據(jù)管理系統(tǒng).上述綜述性論文更多的偏向于介紹面向海量數(shù)據(jù)的數(shù)據(jù)存儲,分析不同的存儲策略和優(yōu)缺點,缺少對大數(shù)據(jù)技術(shù)的全面性闡述,忽略了不同大數(shù)據(jù)技術(shù)之間以及大數(shù)據(jù)技術(shù)與云計算的協(xié)同作用.21世紀(jì)的現(xiàn)代科學(xué)給科學(xué)研究人員帶來了巨大的挑戰(zhàn).科學(xué)界正面臨著來自實驗數(shù)據(jù)、模擬數(shù)據(jù)、傳感器數(shù)據(jù)和衛(wèi)星數(shù)據(jù)等“數(shù)據(jù)泛濫”問題[1],數(shù)據(jù)規(guī)模、科學(xué)分析和處理復(fù)雜度呈指數(shù)級增長.科學(xué)工作流管理系統(tǒng)(SWFMS)為科學(xué)計算提供了如數(shù)據(jù)管理、任務(wù)相關(guān)性、作業(yè)調(diào)度與執(zhí)行、資源跟蹤等必要的支持.Taverna[65],Kepler[63],Vistrails[64],Pegasus[62],Swift[39],VIEW[66]等工作流系統(tǒng)在許多領(lǐng)域都有廣泛的應(yīng)用,如物理學(xué)、天文學(xué)、生物信息學(xué)、神經(jīng)科學(xué)、地球?qū)W和社會科學(xué)等.同時,科學(xué)設(shè)備和網(wǎng)絡(luò)計算的發(fā)展向可靠的工作流系統(tǒng)在數(shù)據(jù)規(guī)模和應(yīng)用復(fù)雜度方面發(fā)起了新的挑戰(zhàn).我們將科學(xué)工作流系統(tǒng)與云平臺結(jié)合并作為云計算中的一項服務(wù)[67],來處理日益增長的數(shù)據(jù)量和分析復(fù)雜度,擁
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球及中國瓦楞紙板輸送帶行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025-2030全球RF IC 設(shè)計服務(wù)行業(yè)調(diào)研及趨勢分析報告
- 2025年全球及中國拖拽式滴鹽撒播機(jī)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 2025年全球及中國運水式模溫機(jī)行業(yè)頭部企業(yè)市場占有率及排名調(diào)研報告
- 中國居民膳食指南準(zhǔn)則一食物多樣合理搭配講解
- 作用于中樞神經(jīng)系統(tǒng)的藥物講解
- 2025軟件產(chǎn)品代理版合同書
- 安防設(shè)備采購政府采購合同
- 2025房屋抵押貸款的合同范本
- 2025承運合同書范本范文
- 施工現(xiàn)場人力資源施工機(jī)具材料設(shè)備等管理計劃
- 第八章《運動和力》達(dá)標(biāo)測試卷(含答案)2024-2025學(xué)年度人教版物理八年級下冊
- GB/T 13813-2023煤礦用金屬材料摩擦火花安全性試驗方法和判定規(guī)則
- 動物檢疫技術(shù)-動物檢疫的方法方式(動物防疫與檢疫技術(shù))
- DB31 SW-Z 017-2021 上海市排水檢測井圖集
- 日語專八分類詞匯
- GB/T 707-1988熱軋槽鋼尺寸、外形、重量及允許偏差
- GB/T 33084-2016大型合金結(jié)構(gòu)鋼鍛件技術(shù)條件
- 高考英語課外積累:Hello,China《你好中國》1-20詞塊摘錄課件
- 茶文化與茶健康教學(xué)課件
- 降水預(yù)報思路和方法
評論
0/150
提交評論