大數(shù)據(jù)的概念、流程與關鍵技術_第1頁
大數(shù)據(jù)的概念、流程與關鍵技術_第2頁
大數(shù)據(jù)的概念、流程與關鍵技術_第3頁
大數(shù)據(jù)的概念、流程與關鍵技術_第4頁
大數(shù)據(jù)的概念、流程與關鍵技術_第5頁
已閱讀5頁,還剩10頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

大數(shù)據(jù)的概念、流程與關鍵技術

隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云技術的快速發(fā)展,云時代的開始也開始了,大數(shù)據(jù)也越來越受到限制。作為1982年世界預測大師和未來學者約翰納斯比特的著作《新生活》(johnnaisberbam)提到的,“我們現(xiàn)在生產(chǎn)了大量的信息,就像我們以前生產(chǎn)的汽車一樣?!薄叭藗冋噲D沉迷于信息,但他們正在厭倦知識?!钡阮A測已經(jīng)被充分證實,這只表明世界處于信息爆炸的時代。Internet的出現(xiàn)縮短了人與人、人與世界之間的距離,整個世界連成一個“地球村”,人們通過網(wǎng)絡無障礙交流、交換信息和協(xié)同工作.與此同時,借助Internet的高速發(fā)展、數(shù)據(jù)庫技術的成熟和普及、高內(nèi)存高性能的存儲設備和存儲介質(zhì)的出現(xiàn),人類在日常學習、生活、工作中產(chǎn)生的數(shù)據(jù)量正以指數(shù)形式增長,呈現(xiàn)“爆炸”狀態(tài).“大數(shù)據(jù)問題”(BigDataProblem)就是在這樣的背景下產(chǎn)生的,成為科研學術界和相關產(chǎn)業(yè)界的熱門話題,并作為信息技術領域的重要前沿課題之一,吸引著越來越多的科學家研究大數(shù)據(jù)帶來的相關問題.著名未來學家阿爾文·托夫勒在《第三次浪潮》一書中,將大數(shù)據(jù)熱情贊頌為“第三次浪潮的華彩樂章”.著名期刊《Nature》和《Science》針對大數(shù)據(jù)分別出版了專刊“BigData”和“DealingwithData”,從互聯(lián)網(wǎng)技術、互聯(lián)網(wǎng)經(jīng)濟學、超級計算、環(huán)境科學、生物醫(yī)藥等多個方面討論了大數(shù)據(jù)處理面臨的各種問題.2011年5月,全球知名咨詢公司麥肯錫(MckenseyandCompany)在美國拉斯維加斯舉辦了第11屆EMCWorld年度大會,設定的主題為“云計算相遇大數(shù)據(jù)”,發(fā)布了“Bigdata:Thenextfrontierforinnovation,competitionandproductivity”的報告,首次提出“大數(shù)據(jù)”的概念,并在報告中指出:“數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)因素,而人們對于海量數(shù)據(jù)的運用將預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來”.世界經(jīng)濟論壇(WorldEconomicForum)2012年發(fā)布的“Bigdata,bigimpact:Newpossibilitiesforinternationaldevelopment”報告,指出了大數(shù)據(jù)的發(fā)展為世界帶來的新機遇;美國政府在2012年3月29日發(fā)布了“大數(shù)據(jù)研究發(fā)展倡議”(Bigdataresearchanddevelopmentinitiative),正式啟動“大數(shù)據(jù)發(fā)展計劃”,擬投資2億美元在大數(shù)據(jù)的研究上,以培養(yǎng)更多的大數(shù)據(jù)研發(fā)與應用人才;聯(lián)合國在2012年5月公布了“Challengesandopportunitieswithbigdata”白皮書,分析了大數(shù)據(jù)的處理流程以及可能面臨的挑戰(zhàn);互聯(lián)網(wǎng)數(shù)據(jù)中心(InternetDataCenter,IDC)在2012年5月發(fā)布《中國互聯(lián)網(wǎng)市場洞見:互聯(lián)網(wǎng)大數(shù)據(jù)技術創(chuàng)新研究》報告,報告中指出大數(shù)據(jù)將引領中國互聯(lián)網(wǎng)行業(yè)新一輪技術浪潮.不僅如此,世界范圍內(nèi)對大數(shù)據(jù)的關注已從經(jīng)濟領域上升到了政治領域.美國總統(tǒng)科技顧問委員會在2010年就撰寫了一份報告給當時的奧巴馬總統(tǒng),報告名為“Designingadigitalfuture:Federallyfundedresearchanddevelopmentinnetworkingandinformationtechnology”,報告中指出:數(shù)據(jù)正在以指數(shù)形式迅速增長,如何收集、管理和分析數(shù)據(jù)日漸成為網(wǎng)絡信息研究的重點,聯(lián)邦政府的每一個機構(gòu)和部門都應該制定應對大數(shù)據(jù)的戰(zhàn)略計劃.同時,美國聯(lián)邦政府建立統(tǒng)一的門戶開放網(wǎng)站———Data.Gov,開放政府擁有的公共數(shù)據(jù),鼓勵民眾對其進行自由開發(fā),進一步推進政府數(shù)據(jù)開放;美國政府各部門也紛紛有所行動,美國國家科學基金委員會(NSF)、美國國家衛(wèi)生研究院(NIH)、美國能源部(DOE)、美國國防部(DOD)、美國國防部高級研究計劃局(DARPA)、美國地質(zhì)勘探局(USGS)等6個部門聯(lián)合推出了大數(shù)據(jù)計劃,旨在提升從大量復雜數(shù)據(jù)中獲取知識和洞見的能力.處于發(fā)展中國家前列的中國,大數(shù)據(jù)的應用處于起步階段.在工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃中,把信息處理技術作為4項關鍵技術創(chuàng)新工程之一提出,其中包括了海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘、圖像視頻智能分析,這都是大數(shù)據(jù)的重要組成部分.而另外3項:信息感知技術、信息傳輸技術、信息安全技術,也與“大數(shù)據(jù)”密切相關.同時,為推動大數(shù)據(jù)在我國的發(fā)展,2012年8月,中國科學院啟動了“面向感知中國的新一代信息技術研究”戰(zhàn)略性先導科技專項,其任務之一就是研制用于大數(shù)據(jù)采集、存儲、處理、分析和挖掘的未來數(shù)據(jù)系統(tǒng);同時,中國計算機學會成立了大數(shù)據(jù)專家委員會(CCFBigDataTaskForce,CCFBDTF);為探討中國大數(shù)據(jù)的發(fā)展戰(zhàn)略,中科院計算機研究所舉辦了以“網(wǎng)絡數(shù)據(jù)科學與工程———一門新興的交叉學科?”為主題的會議,與國內(nèi)外知名專家學者一起為中國大數(shù)據(jù)發(fā)展戰(zhàn)略建言獻計;2013年,科技部正式啟動863項目“面向大數(shù)據(jù)的先進存儲結(jié)構(gòu)及關鍵技術”,啟動5個大數(shù)據(jù)課題.由此可見,大數(shù)據(jù)的發(fā)展已經(jīng)得到了世界范圍內(nèi)的廣泛關注,發(fā)展趨勢勢不可擋.如何將巨大的原始數(shù)據(jù)進行有效地利用和分析,使之轉(zhuǎn)變成可以被利用的知識和價值,解決日常生活和工作中的難題,成為國內(nèi)外共同關注的重要課題,同時也是大數(shù)據(jù)最重要的研發(fā)意義所在.1大數(shù)據(jù)的內(nèi)涵現(xiàn)在的社會是一個信息化、數(shù)字化的社會,互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和云計算技術的迅猛發(fā)展,使得數(shù)據(jù)充斥著整個世界,與此同時,數(shù)據(jù)也成為一種新的自然資源,亟待人們對其加以合理、高效、充分的利用,使之能夠給人們的生活工作帶來更大的效益和價值.在這種背景下,數(shù)據(jù)的數(shù)量不僅以指數(shù)形式遞增,而且數(shù)據(jù)的結(jié)構(gòu)越來越趨于復雜化,這就賦予了“大數(shù)據(jù)”不同于以往普通“數(shù)據(jù)”更加深層的內(nèi)涵.1.1物聯(lián)網(wǎng)時代的大數(shù)據(jù)在科學研究(天文學、生物學、高能物理等)、計算機仿真、互聯(lián)網(wǎng)應用、電子商務等領域,數(shù)據(jù)量呈現(xiàn)快速增長的趨勢.美國互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%以上,每2年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的.數(shù)據(jù)并非單純指人們在互聯(lián)網(wǎng)上發(fā)布的信息,全世界的工業(yè)設備、汽車、電表上有著無數(shù)的數(shù)碼傳感器,隨時測量和傳遞有關位置、運動、震動、溫度、濕度乃至空氣中化學物質(zhì)的變化等也產(chǎn)生了海量的數(shù)據(jù)信息.1)科學研究產(chǎn)生大數(shù)據(jù).現(xiàn)在的科研工作比以往任何時候都依賴大量的數(shù)據(jù)信息交流處理,尤其是各大科研實驗室之間研究信息的遠程傳輸.比如類似希格斯玻粒子的發(fā)現(xiàn)就需要每年36個國家的150多個計算中心之間進行約26PB(26×1015B)的數(shù)據(jù)交流.在過去的10年間,連接超過40個國家實驗室、超級計算中心和科學儀器的能源科學網(wǎng)(Esnet)上的流量每年以72%的速度增長,2012年11月Esnet將升級為100Gbps.2)物聯(lián)網(wǎng)的應用產(chǎn)生大數(shù)據(jù).物聯(lián)網(wǎng)(theInternetofthings)是新一代信息技術的重要組成部分,解決了物與物、人與物、人與人之間的互聯(lián).本質(zhì)而言,人與機器、機器與機器的交互,大都是為了實現(xiàn)人與人之間的信息交互而產(chǎn)生的.在這種信息交互的過程中,催生了從信息傳送到信息感知再到面向分析處理的應用.人們接受日常生活中的各種信息,將這些信息傳送到數(shù)據(jù)中心,利用數(shù)據(jù)中心的智能分析決策得出信息處理結(jié)果,再通過互聯(lián)網(wǎng)等信息通信網(wǎng)絡將這些數(shù)據(jù)信息傳遞到四面八方,而在互聯(lián)網(wǎng)終端的設備利用傳感網(wǎng)等設施接受信息并進行有用的信息提取,得到自己想要的數(shù)據(jù)結(jié)果.目前,物聯(lián)網(wǎng)在智能工業(yè)、智能農(nóng)業(yè)、智能交通、智能電網(wǎng)、節(jié)能建筑、安全監(jiān)控等行業(yè)都有應用.巨大連接的網(wǎng)絡使得網(wǎng)絡上流通的數(shù)據(jù)大幅度增長,從而催生了大數(shù)據(jù)的出現(xiàn).3)海量網(wǎng)絡信息的產(chǎn)生催生大數(shù)據(jù).移動互聯(lián)時代,數(shù)以百億計的機器、企業(yè)、個人隨時隨地都會獲取和產(chǎn)生新的數(shù)據(jù).互聯(lián)網(wǎng)搜索的巨頭Google現(xiàn)在能夠處理的網(wǎng)頁數(shù)量是在千億以上,每月處理的數(shù)據(jù)超過400PB,并且呈繼續(xù)高速增長的趨勢;Youtube每天上傳7萬小時的視頻;淘寶網(wǎng)在2010年就擁有3.7億會員,在線商品8.8億件,每天交易超過數(shù)千萬筆,單日數(shù)據(jù)產(chǎn)生量超過50TB(50×1012B),存儲量40PB;2011年InternetWorld統(tǒng)計互聯(lián)網(wǎng)用戶近20億,Facebook注冊用戶超過8.5億,每天上傳3億張照片,每天生成300TB日志數(shù)據(jù);新浪微博每天有數(shù)十億的外部網(wǎng)頁和API接口訪問需求,每分鐘都會發(fā)出數(shù)萬條微博;百度目前數(shù)據(jù)總量接近1000PB,存儲網(wǎng)頁數(shù)量接近1萬億,每天大約要處理60億次搜索請求,幾十PB數(shù)據(jù);據(jù)IDC的研究結(jié)果,2011年創(chuàng)造的信息數(shù)量達到1800EB(1800×1018B),每年產(chǎn)生的數(shù)字信息量還在以60%的速度增長,到2020年,全球每年產(chǎn)生的數(shù)據(jù)信息將達到35ZB((35×1021B)……所有的這些都是海量數(shù)據(jù)的呈現(xiàn).隨著社交網(wǎng)絡的成熟、傳統(tǒng)互聯(lián)網(wǎng)到移動互聯(lián)網(wǎng)的轉(zhuǎn)變、移動寬帶的迅速提升,除了個人電腦、智能手機、平板電腦等常見的客戶終端之外,更多更先進的傳感設備、智能設備,比如智能汽車、智能電視、工業(yè)設備和手持設備等都將接入網(wǎng)絡,由此產(chǎn)生的數(shù)據(jù)量及其增長速度比以往任何時期都要多,互聯(lián)網(wǎng)上的數(shù)據(jù)流量正在迅猛增長.1.2數(shù)據(jù)的研究范式1989年,GartnerGroup的HowardDresner首次提出“商業(yè)智能”(BusinessIntelligence)這一術語.商業(yè)智能通常被理解為企業(yè)中現(xiàn)有的數(shù)據(jù)轉(zhuǎn)化為知識、幫助企業(yè)做出明智的業(yè)務經(jīng)營決策的工具,主要目標是將企業(yè)所掌握的的信息轉(zhuǎn)換成競爭優(yōu)勢,提高企業(yè)決策能力、決策效率、決策準確性.為了將數(shù)據(jù)轉(zhuǎn)化為知識,需要利用數(shù)據(jù)倉庫、聯(lián)機分析處理(OLAP)工具和數(shù)據(jù)挖掘(DataMining)等技術.隨著互聯(lián)網(wǎng)絡的發(fā)展,企業(yè)收集到的數(shù)據(jù)越來越多、數(shù)據(jù)結(jié)構(gòu)越來越復雜,一般的數(shù)據(jù)挖掘技術已經(jīng)不能滿足大型企業(yè)的需要,這就使得企業(yè)在收集數(shù)據(jù)之余,也開始有意識的尋求新的方法來解決大量數(shù)據(jù)無法存儲和處理分析的問題.由此,IT界誕生了一個新的名詞———“大數(shù)據(jù)”.對于“大數(shù)據(jù)”的概念目前來說并沒有一個明確的定義.經(jīng)過多個企業(yè)、機構(gòu)和數(shù)據(jù)科學家對于大數(shù)據(jù)的理解闡述,雖然描述不一,但都存在一個普遍共識,即“大數(shù)據(jù)”的關鍵是在種類繁多、數(shù)量龐大的數(shù)據(jù)中,快速獲取信息.維基百科中將大數(shù)據(jù)定義為:所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理,并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊.IDC將大數(shù)據(jù)定義為:為更經(jīng)濟地從高頻率的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價值而設計的新一代架構(gòu)和技術.信息專家涂子沛在著作《大數(shù)據(jù)》中認為:“大數(shù)據(jù)”之“大”,并不僅僅指“容量大”,更大的意義在于通過對海量數(shù)據(jù)的交換、整合和分析,發(fā)現(xiàn)新的知識,創(chuàng)造新的價值,帶來“大知識”、“大科技”、“大利潤”和“大發(fā)展”.從“數(shù)據(jù)”到“大數(shù)據(jù)”,不僅僅是數(shù)量上的差別,更是數(shù)據(jù)質(zhì)量的提升.傳統(tǒng)意義上的數(shù)據(jù)處理方式包括數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、聯(lián)機分析處理(OLAP)等,而在“大數(shù)據(jù)時代”,數(shù)據(jù)已經(jīng)不僅僅是需要分析處理的內(nèi)容,更重要的是人們需要借助專用的思想和手段從大量看似雜亂、繁復的數(shù)據(jù)中,收集、整理和分析數(shù)據(jù)足跡,以支撐社會生活的預測、規(guī)劃和商業(yè)領域的決策支持等.著名數(shù)據(jù)庫專家、圖靈獎的獲得者JimGray博士總結(jié)出,在人類的科學研究史上,先后經(jīng)歷了實驗(Empirical)、理論(Theoretical)和計算(Computational)3種范式,而在數(shù)據(jù)量不斷增加和數(shù)據(jù)結(jié)構(gòu)愈加復雜的今天,這3種范式已經(jīng)不足以在新的研究領域得到更好地運用,所以JimGray博士提出了科學的“第4種范式”(TheFouthParadigm)這一新型的數(shù)據(jù)研究方式,即“數(shù)據(jù)探索”(DataExporation),用以指導和更新領域的科學研究.4種科學范式的比較如表1所示.1.3數(shù)據(jù)安全與交互作用在日新月異的IT業(yè)界,各個企業(yè)對大數(shù)據(jù)都有著自己不同的解讀.但大家都普遍認為,大數(shù)據(jù)有著4“V”特征,即Volume(容量大)、Variety(種類多)、Velocity(速度快)和最重要的Value(價值密度低).Volume是指大數(shù)據(jù)巨大的數(shù)據(jù)量與數(shù)據(jù)完整性.十幾年前,由于存儲方式、科技手段和分析成本等的限制,使得當時許多數(shù)據(jù)都無法得到記錄和保存.即使是可以保存的信號,也大多采用模擬信號保存,當其轉(zhuǎn)變?yōu)閿?shù)字信號的時候,由于信號的采樣和轉(zhuǎn)換,都不可避免存在數(shù)據(jù)的遺漏與丟失.那么現(xiàn)在,大數(shù)據(jù)的出現(xiàn),使得信號得以以最原始的狀態(tài)保存下來,數(shù)據(jù)量的大小已不是最重要的,數(shù)據(jù)的完整性才是最重要的.Variety意味著要在海量、種類繁多的數(shù)據(jù)間發(fā)現(xiàn)其內(nèi)在關聯(lián).在互聯(lián)網(wǎng)時代,各種設備連成一個整體,個人在這個整體中既是信息的收集者也是信息的傳播者,加速了數(shù)據(jù)量的爆炸式增長和信息多樣性.這就必然促使我們要在各種各樣的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)信息之間的相互關聯(lián),把看似無用的信息轉(zhuǎn)變?yōu)橛行У男畔?從而做出正確的判斷.Velocity可以理解為更快地滿足實時性需求.目前,對于數(shù)據(jù)智能化和實時性的要求越來越高,比如開車時會查看智能導航儀查詢最短路線,吃飯時會了解其他用戶對這家餐廳的評價,見到可口的食物會拍照發(fā)微博等諸如此類的人與人、人與機器之間的信息交流互動,這些都不可避免帶來數(shù)據(jù)交換.而數(shù)據(jù)交換的關鍵是降低延遲,以近乎實時的方式呈獻給用戶.大數(shù)據(jù)特征里最關鍵的一點,就是Value.Value的意思是指大數(shù)據(jù)的價值密度低.大數(shù)據(jù)時代數(shù)據(jù)的價值就像沙子淘金,數(shù)據(jù)量越大,里面真正有價值的東西就越少.現(xiàn)在的任務就是將這些ZB、PB級的數(shù)據(jù),利用云計算、智能化開源實現(xiàn)平臺等技術,提取出有價值的信息,將信息轉(zhuǎn)化為知識,發(fā)現(xiàn)規(guī)律,最終用知識促成正確的決策和行動.1.4.提升綜合競爭力.有助于提高政府管制能力,提高各個領域運行效率.發(fā)展大數(shù)據(jù)產(chǎn)業(yè)將推動世界經(jīng)濟的發(fā)展方式由粗放型到集約型的轉(zhuǎn)變,這對于提升企業(yè)綜合競爭力和政府的管制能力具有深遠意義的影響.將大量的原始數(shù)據(jù)匯集在一起,通過智能分析、數(shù)據(jù)挖掘等技術分析數(shù)據(jù)中潛在的規(guī)律,以預測以后事物的發(fā)展趨勢,有助于人們做出正確的決策,從而提高各個領域的運行效率,取得更大的收益.1.4.1“啤酒與后期”的作品分析商業(yè)是大數(shù)據(jù)應用最廣泛的領域.沃爾瑪(Walmart)通過對消費者購物行為等這種非結(jié)構(gòu)化數(shù)據(jù)進行分析,了解顧客購物習慣,公司從銷售數(shù)據(jù)分析適合搭配在一起買的商品,創(chuàng)造了“啤酒與尿布”的經(jīng)典商業(yè)案例;淘寶服務于賣家的大數(shù)據(jù)平臺———“淘寶數(shù)據(jù)魔方”有一個“無量神針———傾聽用戶的痛”屏幕,監(jiān)聽著幾百萬淘寶買家的心跳,收集分析買家的購物行為,找出問題的先兆,避免“惡拍”(買家拍下產(chǎn)品但拒收)發(fā)生,淘寶還針對買家設置大數(shù)據(jù)平臺,為買家量身打造完善網(wǎng)購體驗的產(chǎn)品.1.4.2quefax公司大數(shù)據(jù)在金融業(yè)也有著相當重要的作用.華爾街“德溫特資本市場”公司分析全球3.4億微博賬戶的留言,判斷民眾情緒,人們高興的時候會買股票,而焦慮的時候會拋售股票,依此決定公司股票的買入或賣出,該公司2012年第一季度獲得了7%的收益率.Equifax公司是美國三大征信所之一,其存儲的財務數(shù)據(jù)覆蓋了所有美國成年人,包括全球5億個消費者和8100萬家企業(yè).在它的數(shù)據(jù)庫中與財務有關的記錄包括貸款申請、租賃、房地產(chǎn)、購買零售商品、納稅申報、費用繳付、報紙與雜志訂閱等,看似雜亂無章的共26PB數(shù)據(jù),經(jīng)過交叉分享和索引處理,能夠得出消費者的個人信用評分,從而推斷客戶支付意向與支付能力,發(fā)現(xiàn)潛在的欺詐.另外,為了實現(xiàn)醫(yī)院之間對病患信息的共享,2010年我國公布的“十二五”規(guī)劃中指出要重點建設國家級、省級和地市級三級衛(wèi)生信息平臺,建設電子檔案和電子病歷兩個基礎數(shù)據(jù)庫等.隨著國家逐漸加大對電子病歷的投入,各級醫(yī)院也將加大在數(shù)據(jù)中心、醫(yī)療信息倉庫等領域的投入,醫(yī)療信息存儲將越來越受重視,醫(yī)療信息中心的關注點也將由傳統(tǒng)“計算”領域轉(zhuǎn)移到“存儲”領域上來.1.4.4從流程管理向流程管理轉(zhuǎn)變,建立以流程建設和全生命周期數(shù)據(jù)架構(gòu)為中國制造業(yè)的相關企業(yè)隨著ERP、PLM等信息化系統(tǒng)的部署完成,管理方式由粗放式管理逐步轉(zhuǎn)為精細化管理,新產(chǎn)品的研發(fā)速度和設計效率有了大幅提升,企業(yè)在實現(xiàn)對業(yè)務數(shù)據(jù)進行有效管理的同時,積累了大量的數(shù)據(jù)信息,產(chǎn)生了利用現(xiàn)代信息技術收集、管理和展示分析結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)和信息的訴求,企業(yè)需要信息化技術幫助決策者在儲存的海量信息中挖掘出需要的信息,并且對這些信息進行分析,通過分析工具加快報表進程從而推動決策、規(guī)避風險,并且獲取重要的信息,因此,越來越多的企業(yè)在原有的各種控制系統(tǒng)(DCS、FCS、CIPS等)和各種生產(chǎn)經(jīng)營管理系統(tǒng)(MIS、MRPⅡ、CRM、ERP等)的基礎上,管理重心從以前的以流程建設為主,轉(zhuǎn)換為以流程建設和全生命周期數(shù)據(jù)架構(gòu)建設并行的模式,在關注流程的質(zhì)量和效率的同時,又關注全流程上數(shù)據(jù)的質(zhì)量和效率,建立以產(chǎn)品為核心的覆蓋產(chǎn)品全生命周期的數(shù)據(jù)結(jié)構(gòu),用企業(yè)級PLM系統(tǒng)來支撐這些數(shù)據(jù)結(jié)構(gòu),有效地提高了企業(yè)滿足市場需求的響應速度,更加經(jīng)濟地從多樣化的數(shù)據(jù)源中獲得更大價值.2大數(shù)據(jù)處理流程從大數(shù)據(jù)的特征和產(chǎn)生領域來看,大數(shù)據(jù)的來源相當廣泛,由此產(chǎn)生的數(shù)據(jù)類型和應用處理方法千差萬別.但是總的來說,大數(shù)據(jù)的基本處理流程大都是一致的.目前,中國人民大學網(wǎng)絡與移動數(shù)據(jù)管理實驗室(WAMDM)開發(fā)了一個學術空間“ScholarSpace”,從計算機領域收集的相關文獻可以總結(jié)出大數(shù)據(jù)處理的一般流程.在此基礎上,作者認為大數(shù)據(jù)的處理流程基本可劃分為數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋4個階段.整個大數(shù)據(jù)處理流程如圖1所示,即經(jīng)數(shù)據(jù)源獲取的數(shù)據(jù),因為其數(shù)據(jù)結(jié)構(gòu)不同(包括結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)),用特殊方法進行數(shù)據(jù)處理和集成,將其轉(zhuǎn)變?yōu)榻y(tǒng)一標準的數(shù)據(jù)格式方便以后對其進行處理;然后用合適的數(shù)據(jù)分析方法將這些數(shù)據(jù)進行處理分析,并將分析的結(jié)果利用可視化等技術展現(xiàn)給用戶,這就是整個大數(shù)據(jù)處理的流程.2.1數(shù)據(jù)處理流程大數(shù)據(jù)的“大”,原本就意味著數(shù)量多、種類復雜,因此,通過各種方法獲取數(shù)據(jù)信息便顯得格外重要.數(shù)據(jù)采集是大數(shù)據(jù)處理流程中最基礎的一步,目前常用的數(shù)據(jù)采集手段有傳感器收取、射頻識別(RFID)、數(shù)據(jù)檢索分類工具如百度和谷歌等搜索引擎,以及條形碼技術等.并且由于移動設備的出現(xiàn),如智能手機和平板電腦的迅速普及,使得大量移動軟件被開發(fā)應用,社交網(wǎng)絡逐漸龐大,這也加速了信息的流通速度和采集精度.2.2通過數(shù)據(jù)處理與集成數(shù)據(jù)的處理與集成主要是完成對于已經(jīng)采集到的數(shù)據(jù)進行適當?shù)奶幚怼⑶逑慈ピ胍约斑M一步的集成存儲.根據(jù)前文所述,大數(shù)據(jù)特點之一是“Variety”,也就是大數(shù)據(jù)的多樣性.這就決定了經(jīng)過各種渠道獲取的數(shù)據(jù)種類和結(jié)構(gòu)都非常復雜,給之后的數(shù)據(jù)分析處理帶了極大的困難.通過數(shù)據(jù)處理與集成這一步驟,首先將這些結(jié)構(gòu)復雜的數(shù)據(jù)轉(zhuǎn)換為單一的或是便于處理的結(jié)構(gòu),為以后的數(shù)據(jù)分析打下良好的基礎,因為這些數(shù)據(jù)里并不是所有的信息都是必需的,而是會摻雜很多噪音和干擾項,因此,還需對這些數(shù)據(jù)進行“去噪”和清洗,以保證數(shù)據(jù)的質(zhì)量以及可靠性.常用的方法是在數(shù)據(jù)處理的過程中設計一些數(shù)據(jù)過濾器,通過聚類或關聯(lián)分析的規(guī)則方法將無用或錯誤的離群數(shù)據(jù)挑出來過濾掉,防止其對最終數(shù)據(jù)結(jié)果產(chǎn)生不利影響;然后將這些整理好的數(shù)據(jù)進行集成和存儲,這是很重要的一步,若是單純隨意的放置,則會對以后的數(shù)據(jù)取用造成影響,很容易導致數(shù)據(jù)訪問性的問題,現(xiàn)在一般的解決方法是針對特定種類的數(shù)據(jù)建立專門的數(shù)據(jù)庫,將這些不同種類的數(shù)據(jù)信息分門別類的放置,可以有效地減少數(shù)據(jù)查詢和訪問的時間,提高數(shù)據(jù)提取速度.2.3基于監(jiān)測數(shù)據(jù)分析的方法數(shù)據(jù)分析是整個大數(shù)據(jù)處理流程里最核心的部分,因為在數(shù)據(jù)分析的過程中,會發(fā)現(xiàn)數(shù)據(jù)的價值所在.經(jīng)過上一步驟數(shù)據(jù)的處理與集成后,所得的數(shù)據(jù)便成為數(shù)據(jù)分析的原始數(shù)據(jù),根據(jù)所需數(shù)據(jù)的應用需求對數(shù)據(jù)進行進一步的處理和分析.傳統(tǒng)的數(shù)據(jù)處理分析方法有數(shù)據(jù)挖掘、機器學習、智能算法、統(tǒng)計分析等,而這些方法已經(jīng)不能滿足大數(shù)據(jù)時代數(shù)據(jù)分析的需求.在數(shù)據(jù)分析技術方面,Google公司無疑是做得最先進的一個.Google作為互聯(lián)網(wǎng)大數(shù)據(jù)應用最為廣泛的公司,于2006年率先提出了“云計算”的概念,其內(nèi)部各種數(shù)據(jù)的應用都是依托Google自己內(nèi)部研發(fā)的一系列云計算技術,例如分布式文件系統(tǒng)GFS、分布式數(shù)據(jù)庫BigTable、批處理技術MapReduce,以及開源實現(xiàn)平臺Hadoop等.這些技術平臺的產(chǎn)生,提供了對大數(shù)據(jù)進行處理、分析很好的手段.2.4可視化技術向數(shù)據(jù)可視化服務對于廣大的數(shù)據(jù)信息用戶來講,最關心的并非是數(shù)據(jù)的分析處理過程,而是對大數(shù)據(jù)分析結(jié)果的解釋與展示,因此,在一個完善的數(shù)據(jù)分析流程中,數(shù)據(jù)結(jié)果的解釋步驟至關重要.若數(shù)據(jù)分析的結(jié)果不能得到恰當?shù)娘@示,則會對數(shù)據(jù)用戶產(chǎn)生困擾,甚至會誤導用戶.傳統(tǒng)的數(shù)據(jù)顯示方式是用文本形式下載輸出或用戶個人電腦顯示處理結(jié)果.但隨著數(shù)據(jù)量的加大,數(shù)據(jù)分析結(jié)果往往也越復雜,用傳統(tǒng)的數(shù)據(jù)顯示方法已經(jīng)不足以滿足數(shù)據(jù)分析結(jié)果輸出的需求,因此,為了提升數(shù)據(jù)解釋、展示能力,現(xiàn)在大部分企業(yè)都引入了“數(shù)據(jù)可視化技術”作為解釋大數(shù)據(jù)最有力的方式.通過可視化結(jié)果分析,可以形象地向用戶展示數(shù)據(jù)分析結(jié)果,更方便用戶對結(jié)果的理解和接受.常見的可視化技術有基于集合的可視化技術、基于圖標的技術、基于圖像的技術、面向像素的技術和分布式技術,等等.3分布式數(shù)據(jù)庫的建立在大數(shù)據(jù)處理流程中,最核心的部分就是對于數(shù)據(jù)信息的分析處理,所以其中所運用到的處理技術也就至關重要.提起大數(shù)據(jù)的處理技術,就不得不提起“云計算”,這是大數(shù)據(jù)處理的基礎,也是大數(shù)據(jù)分析的支撐技術.分布式文件系統(tǒng)為整個大數(shù)據(jù)提供了底層的數(shù)據(jù)貯存支撐架構(gòu);為了方便數(shù)據(jù)管理,在分布式文件系統(tǒng)的基礎上建立分布式數(shù)據(jù)庫,提高數(shù)據(jù)訪問速度;在一個開源的數(shù)據(jù)實現(xiàn)平臺上利用各種大數(shù)據(jù)分析技術可以對不同種類、不同需求的數(shù)據(jù)進行分析整理得出有益信息,最終利用各種可視化技術形象地顯示給數(shù)據(jù)用戶,滿足用戶的各種需求.3.1云計算和模糊負載3.1.1云計算設備的運維Google作為大數(shù)據(jù)應用最為廣泛的互聯(lián)網(wǎng)公司之一,2006年率先提出“云計算”的概念.所謂“云計算”,根據(jù)文獻對云計算的定義來看,云計算是一種大規(guī)模的分布式模型,通過網(wǎng)絡將抽象的、可伸縮的、便于管理的數(shù)據(jù)能源、服務、存儲方式等傳遞給終端用戶.根據(jù)維基百科的說法,狹義云計算是指IT基礎設施的交付和使用模式,指通過網(wǎng)絡以按照需求量的方式和易擴展的方式獲得所需資源;廣義云計算指服務的交付和使用模式,指通過網(wǎng)絡以按照需求量和易擴展的方式獲得所需服務.目前,云計算可以認為包含3個層次的內(nèi)容:服務(IaaS)、平臺即服務(PaaS)和軟件即服務(SaaS).國內(nèi)的“阿里云”與云谷公司的XenSystem,以及在國外已經(jīng)非常成熟的Intel和IBM都是“云計算”的忠實開發(fā)者和使用者.云計算是大數(shù)據(jù)分析處理技術的核心原理,也是大數(shù)據(jù)分析應用的基礎平臺.Google內(nèi)部的各種大數(shù)據(jù)處理技術和應用平臺都是基于云計算,最典型的就是以分布式文件系統(tǒng)GFS、批處理技術MapReduce、分布式數(shù)據(jù)庫BigTable為代表的大數(shù)據(jù)處理技術以及在此基礎上產(chǎn)生的開源數(shù)據(jù)處理平臺Hadoop.3.1.2map以及rin-pcr系統(tǒng)的組成結(jié)構(gòu)MapReduce技術是Google公司于2004年提出,作為一種典型的數(shù)據(jù)批處理技術被廣泛的應用于數(shù)據(jù)挖掘、數(shù)據(jù)分析、機器學習等領域,并且,MapReduce因為它并行式數(shù)據(jù)處理的方式已經(jīng)成為大數(shù)據(jù)處理的關鍵技術.MapReduce的數(shù)據(jù)分析流程如圖2所示.由圖可以看出,MapReduce系統(tǒng)主要由兩個部分組成:Map和Reduce.MapReduce的核心思想在于“分而治之”,也就是說,首先將數(shù)據(jù)源分為若干部分,每個部分對應一個初始的鍵-值(Key/Value)對,并分別給不同的Map任務區(qū)處理,這時的Map對初始的鍵-值(Key/Value)對進行處理,產(chǎn)生一系列中間結(jié)果Key/Value對,MapReduce的中間過程Shuffle將所有具有相同Key值的Value值組成一個集合傳遞給Reduce環(huán)節(jié);Reduce接收這些中間結(jié)果,并將相同的Value值合并,形成最終的較小Value值的集合.MapReduce系統(tǒng)的提出簡化了數(shù)據(jù)的計算過程,避免了數(shù)據(jù)傳輸過程中大量的通信開銷,使得MapReduce可以運用到多種實際問題的解決方案里,公布之后獲得了極大的關注,在各個領域均有廣泛的應用.3.2gfs體系結(jié)構(gòu)在Google之前,沒有哪一個公司曾需要處理數(shù)量如此多、種類如此繁雜的數(shù)據(jù),因此,Google公司結(jié)合自己的實際應用情況,自行開發(fā)了一種分布式文件系統(tǒng)GFS(GoogleFileSystem).這個分布式文件系統(tǒng)是個基于分布式集群的大型分布式處理系統(tǒng),作為上層應用的支撐,為MapReduce計算框架提供低層數(shù)據(jù)存儲和數(shù)據(jù)可靠性的保障.GFS同傳統(tǒng)的分布式文件系統(tǒng)有共同之處,比如性能、可伸縮性、可用性等.然而,根據(jù)應用負載和技術環(huán)境的影響,GFS和傳統(tǒng)的分布式文件系統(tǒng)的不同之處使其在大數(shù)據(jù)時代得到了更加廣泛的應用.GFS采用廉價的組成硬件并將系統(tǒng)某部分出錯作為常見情況加以處理,因此具有良好的容錯功能.從傳統(tǒng)的數(shù)據(jù)標準來看,GFS能夠處理的文件很大,尺寸通常都是100MB以上,數(shù)GB也很常見,而且大文件在GFS中可以被有效地管理.另外,GFS主要采取主從結(jié)構(gòu)(Master-Slave),通過數(shù)據(jù)分塊、追加更新等方式實現(xiàn)海量數(shù)據(jù)的高速存儲.GFS體系結(jié)構(gòu)圖如圖3所示.隨著數(shù)據(jù)量的逐漸加大、數(shù)據(jù)結(jié)構(gòu)的愈加復雜,最初的GFS架構(gòu)已經(jīng)無法滿足對數(shù)據(jù)分析處理的需求,Google公司在原先的基礎上對GFS進行了重新設計,升級為Colosuss,單點故障和海量小文件存儲的問題在這個新的系統(tǒng)里得到了很好的解決.除了Google的GFS以及Colosuss,HDFS、FastDFS和CloudStore等都是類似于GFS的開源實現(xiàn).由于GFS及其類似的文件處理系統(tǒng)主要用于處理大文件,對圖片存儲、文檔傳輸?shù)群A啃∥募膽脠龊蟿t處理效率很低,因此,Facebook開發(fā)了專門針對海量小文件處理的文件系統(tǒng)Haystack,通過多個邏輯文件共享同一個物理文件,增加緩存層、部分元數(shù)據(jù)加載到內(nèi)存等方式有效地解決了海量小文件存儲的問題;此外,淘寶也推出了類似的文件系統(tǒng)TFS(TaobaoFileSystem),針對淘寶海量的非結(jié)構(gòu)化數(shù)據(jù),提供海量小文件存儲,滿足了淘寶對小文件存儲的需求,被廣泛地應用在淘寶各項業(yè)務中.3.3監(jiān)測數(shù)據(jù)處理由上述數(shù)據(jù)處理過程可看出,從數(shù)據(jù)源處獲得的原始數(shù)據(jù)存儲在分布式文件系統(tǒng)中,但是用戶的習慣是從數(shù)據(jù)庫中存取文件.傳統(tǒng)的關系型分布式數(shù)據(jù)庫已經(jīng)不能適應大數(shù)據(jù)時代的數(shù)據(jù)存儲要求,主要原因如下:1)數(shù)據(jù)規(guī)模變大.大數(shù)據(jù)時代的特征之一“Volume”,就是指巨大的數(shù)據(jù)量,因此必須采用分布式存儲方式.傳統(tǒng)的數(shù)據(jù)庫一般采用的是縱向擴展(scale-up)的方法,這種方法對性能的增加速度遠遠低于所需處理數(shù)據(jù)的增長速度,因此不具有良好的擴展性.大數(shù)據(jù)時代需要的是具備良好橫向拓展(scale-out)性能的分布式并行數(shù)據(jù)庫.2)數(shù)據(jù)種類增多.大數(shù)據(jù)時代的特征之二“Variety”,就是指數(shù)據(jù)種類的多樣化.也就是說,大數(shù)據(jù)時代的數(shù)據(jù)類型已經(jīng)不再局限于結(jié)構(gòu)化的數(shù)據(jù),各種半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)紛紛涌現(xiàn).如何高效地處理這些具有復雜數(shù)據(jù)類型、價值密度低的海量數(shù)據(jù),是現(xiàn)在必須面對的重大挑戰(zhàn)之一.3)設計理念的差異.傳統(tǒng)的關系型數(shù)據(jù)庫講求的是“Onesizeforall”,即用一種數(shù)據(jù)庫適用所有類型的數(shù)據(jù).但在大數(shù)據(jù)時代,由于數(shù)據(jù)類型的增多、數(shù)據(jù)應用領域的擴大,對數(shù)據(jù)處理技術的要求以及處理時間方面均存在較大差異,用一種數(shù)據(jù)存儲方式適用所有的數(shù)據(jù)處理場合明顯是不可能的,因此,很多公司已經(jīng)開始嘗試“Onesizeforone”的設計理念,并產(chǎn)生了一系列技術成果,取得了顯著成效.為了解決上述問題,Google公司無疑又走在了時代的前列,它提出了BigTable的數(shù)據(jù)庫系統(tǒng)解決方案,為用戶提供了簡單的數(shù)據(jù)模型,這主要是運用一個多維數(shù)據(jù)表,表中通過行、列關鍵字和時間戳來查詢定位,用戶可以自己動態(tài)控制數(shù)據(jù)的分布和格式.BigTable的基本架構(gòu)如圖4所示.BigTable中的數(shù)據(jù)均以子表形式保存于子表服務器上,主服務器創(chuàng)建子表,最終將數(shù)據(jù)以GFS形式存儲于GFS文件系統(tǒng)中;同時客戶端直接和子表服務器通信,Chubby服務器用來對子表服務器進行狀態(tài)監(jiān)控;主服務器可以查看Chubby服務器以觀測子表狀態(tài)檢查是否存在異常,若有異常則會終止故障的子服務器并將其任務轉(zhuǎn)移至其余服務器.除了BigTable之外,很多互聯(lián)網(wǎng)公司也紛紛研發(fā)可適用于大數(shù)據(jù)存儲的數(shù)據(jù)庫系統(tǒng),比較知名的有Yahoo!的PNUTS和Amazon的Dynamo.這些數(shù)據(jù)庫的成功應用促進了對非關系型數(shù)據(jù)庫的開發(fā)與運用的熱潮,這些非關系型數(shù)據(jù)庫方案現(xiàn)在被統(tǒng)稱為NoSQL(NotOnlySQL).就目前來說,對于NoSQL沒有一個確切的定義,一般普遍認為NoSQL數(shù)據(jù)庫應該具有以下特征:模式自由(schema-free)、支持簡易備份(easyreplicationsupport)、簡單的應用程序接口(simpleAPI)、一致性、支持海量數(shù)據(jù)(hugeamountofdata).目前典型的NoSQL的分類如表2所示.3.4基于ha的大數(shù)據(jù)處理平臺大數(shù)據(jù)時代對于數(shù)據(jù)分析、管理都提出了不同程度的新要求,許多傳統(tǒng)的數(shù)據(jù)分析技術和數(shù)據(jù)庫技術已經(jīng)不足以滿足現(xiàn)代數(shù)據(jù)應用的需求.為了給大數(shù)據(jù)處理分析提供一個性能更高、可靠性更好的平臺,DougCutting模仿GFS,為MapReduce開發(fā)了一個云計算開源平臺Hadoop,用Java編寫,可移植性強.現(xiàn)在Hadoop已經(jīng)發(fā)展為一個包括分布式文件系統(tǒng)(HadoopDistributedFileSystem,HDFS)、分布式數(shù)據(jù)庫(HBase、Cassandra)以及數(shù)據(jù)分析處理MapReduce等功能模塊在內(nèi)的完整生態(tài)系統(tǒng)(Ecosystem),現(xiàn)已經(jīng)發(fā)展成為目前最流行的大數(shù)據(jù)處理平臺.Intel公司根據(jù)Hadoop的系統(tǒng)構(gòu)造,給出了一種Hadoop的實現(xiàn)結(jié)構(gòu),如圖5所示.在這個系統(tǒng)中,以MapReduce算法為計算框架,HDFS是一種類似于GFS的分布式文件系統(tǒng),可以為大規(guī)模的服務器集群提供高速度的文件讀寫訪問.HBase是一種與BigTable類似的分布式并行數(shù)據(jù)庫系統(tǒng),可以提供海量數(shù)據(jù)的存儲和讀寫,而且兼容各種結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù).Mahout是ApacheSoftwareFoundation(ASF)旗下的一個開源項目,對海量數(shù)據(jù)進行挖掘的一種方式,提供數(shù)據(jù)挖掘、機器學習等領域中經(jīng)典算法的實現(xiàn).Hive是一種基于Hadoop的大數(shù)據(jù)分布式數(shù)據(jù)倉庫引擎,它使用SQL語言對海量數(shù)據(jù)信息進行統(tǒng)計分析、查詢等操作,并且將數(shù)據(jù)存儲在相應的分布式數(shù)據(jù)庫或分布式文件系統(tǒng)中.為了對大規(guī)模數(shù)據(jù)進行分析就要用到相關的數(shù)據(jù)分析處理語言PigLatin,它借鑒了SQL和MapReduce兩者的優(yōu)點,既可以像SQL語言那樣靈活可變,又有過程式語言數(shù)據(jù)流的特點.Zookeeper是分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),可以提供包括配置維護、名字服務、分布式同步、組服務等在內(nèi)的相關功能,封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶.Sqoop是一個用來將Hadoop和關系型數(shù)據(jù)庫中的數(shù)據(jù)雙向轉(zhuǎn)移的工具,可以將一個關系型數(shù)據(jù)庫(MySQL,Oracle,Postgres等)中的數(shù)據(jù)導入到Hadoop的HDFS中,也可以將HDFS的數(shù)據(jù)導入到關系型數(shù)據(jù)庫中,還可以在傳輸過程中實現(xiàn)數(shù)據(jù)轉(zhuǎn)換等功能.Flume是一種分布式日志采集系統(tǒng),特點是高可靠性、高可用性,它的作用是從不同的數(shù)據(jù)源系統(tǒng)中采集、集成、運送大量的日志數(shù)據(jù)到一個集中式數(shù)據(jù)存儲器中.3.5大數(shù)據(jù)時代的用戶體驗可視化技術作為解釋大數(shù)據(jù)最有效的手段之一最初是被科學與計算領域運用,它對分析結(jié)果的形象化處理和顯示,在很多領域得到了迅速而廣泛應用.數(shù)據(jù)可視化(DataVisualization)技術是指運用計算機圖形學和圖像處理技術,將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像在屏幕上顯示出來,并進行交互處理的理論、方法和技術.由于圖形化的方式比文字更容易被用戶理解和接受,數(shù)據(jù)可視化就是借助人腦的視覺思維能力,將抽象的數(shù)據(jù)表現(xiàn)成為可見的圖形或圖像,幫助人們發(fā)現(xiàn)數(shù)據(jù)中隱藏的內(nèi)在規(guī)律.可視分析起源于2005年,它是一門通過交互可視界面來分析、推理和決策的科學,通過將可視化和數(shù)據(jù)處理分析方法相結(jié)合,提高可視化質(zhì)量的同時也為用戶提供更完整的大規(guī)模數(shù)據(jù)解決方案.如今,針對可視分析的研究和應用逐步發(fā)展,已經(jīng)覆蓋科學數(shù)據(jù)、社交網(wǎng)絡數(shù)據(jù)、電力等多個行業(yè).面對海量數(shù)據(jù)的涌現(xiàn),如何將其恰當、清楚地展現(xiàn)給用戶是大數(shù)據(jù)時代的一個重要挑戰(zhàn).學術科研界以及工業(yè)界都在不停致力于大數(shù)據(jù)可視化的研究,已經(jīng)有了很多經(jīng)典成功的應用案例.1)互聯(lián)網(wǎng)宇宙(TheInternetMap).為了探究互聯(lián)網(wǎng)這個龐大的宇宙,俄羅斯工程師RuslanEnikeev根據(jù)2011年底的數(shù)據(jù),將196個國家的35萬個網(wǎng)站數(shù)據(jù)整合起來,并根據(jù)這些網(wǎng)站相互之間的鏈接關系將這些“星球”聯(lián)系起來,命名為“TheInternetMap”,如圖6所示.一個“星球”代表一個網(wǎng)站,每一個“星球”的大小根據(jù)其網(wǎng)站流量來決定,而“星球之間”的距離遠近則根據(jù)鏈接出現(xiàn)的頻率、強度和用戶跳轉(zhuǎn)時創(chuàng)建的鏈接等因素決定.2)標簽云(TagCloud).標簽云的本質(zhì)就是一種“標簽”,用不同的標簽標示不同的對象.標簽的排序一般按照字典的順序排列,并根據(jù)其熱門程度確定字體的顏色和大小,出現(xiàn)頻率越高的詞語字體就越大,反之越小,這就方便用戶按照字典或是該標簽的熱門程度來尋找信息.3)歷史流圖(HistoryFlow).在文獻中提出了一種用于可視化文檔編輯的“歷史流圖”,這樣的一個流程,意味著這是一個面向廣大用戶的開放型文檔,用戶可以在其中自由地編輯和查閱,隨時根據(jù)自己的理解進行增加和刪除操作.在歷史流圖中,用一個坐標軸表示對一篇文檔做出任何修改的行為:橫坐標表示時間,縱坐標表示修改的人員;隨著時間的推移,橫坐標越來越長,文檔內(nèi)容也隨著不斷變化,修改的人員也隨之增加,可以很容易看出每個人對這篇文檔的貢獻.最顯著的應用案例就是“維基百科”的注釋文檔,“歷史流圖”的效果很明顯.關于大數(shù)據(jù)可視化的研究依然在繼續(xù),比如大眾點評網(wǎng)上,可以輕松的根據(jù)地理信息找到附近的餐廳、KTV、商店等,用戶可以根據(jù)自己的體驗對這些店鋪進行評價,這些反饋信息就在網(wǎng)絡上留下了痕跡,為后來的用戶使用提供了參考,這種常見的社交網(wǎng)絡或生活消費類應用與數(shù)字網(wǎng)絡地圖的疊加,就是多維疊加式數(shù)據(jù)可視化應用;另外,支付寶的電子對賬單通過用戶一段時間(一般是1個月)的支付寶使用信息,自動生成專門針對此用戶的本月消費產(chǎn)品數(shù)據(jù)圖表,可以幫助用戶分析其自身的消費情況,這是一種即時的關聯(lián)規(guī)則下可視化技術的應用,通過對那些彼此間存在關聯(lián)性的數(shù)據(jù)進行分析處理,挖掘出數(shù)據(jù)間聯(lián)系并預測出發(fā)展趨勢,隨后即時生成可視化方案反饋給用戶,可以給客戶下個月的消費管理提供參考意見.4大數(shù)據(jù)的概念及其對數(shù)據(jù)利用的意義隨著近年來大數(shù)據(jù)熱潮的不斷升溫,人們認識到“大數(shù)據(jù)”并非是指“大規(guī)模的數(shù)據(jù)”,更加代表了其本質(zhì)含義:思維、商業(yè)和管理領域前所未有的大變革.在這次變革中,大數(shù)據(jù)的出現(xiàn),對產(chǎn)業(yè)界、學術界和教育界都正在產(chǎn)生巨大影響.隨著科學家們對大數(shù)據(jù)研究的不斷深入,人們越來越意識到對數(shù)據(jù)的利用可以為其生產(chǎn)生活帶來巨大便利的同時,也帶來了不小的挑戰(zhàn).4.1大數(shù)據(jù)時代隱私保護的技術隨著大數(shù)據(jù)的發(fā)展,數(shù)據(jù)的來源和應用領域越來越廣泛:在互聯(lián)網(wǎng)上隨意瀏覽網(wǎng)頁,就會留下一連串的瀏覽痕跡;在網(wǎng)絡中登錄相關網(wǎng)站需要輸入個人的重要信息,例如用戶名密碼、身份證號、手機號、住址、銀行卡密碼等;隨處可見的攝像頭和傳感器會記錄下個人的行為和位置信息,等等.通過相關的數(shù)據(jù)分析,數(shù)據(jù)專家就可以輕易挖掘出人們的行為習慣和個人重要信息.如果這些信息運用得當,可以幫助相關領域的企業(yè)隨時了解客戶的需求和習慣,便于企業(yè)調(diào)整相應的產(chǎn)品生產(chǎn)計劃,取得更大的經(jīng)濟效益;但若是這些重要的信息被不良分子竊取,隨之而來的就是個人信息、財產(chǎn)等的安全性問題.為了解決大數(shù)據(jù)時代的數(shù)據(jù)隱私問題,學術界和工業(yè)界紛紛提出自己的解決辦法.Lindell等提出了保護隱私的數(shù)據(jù)挖掘(PrivacyPreservingDataMining)概念;Sweeney針對位置服務的安全性問題,提出了一種k-匿名方法,即將自己與周圍的(k-1)個用戶組合成一個數(shù)據(jù)集合,從而模糊了自己的位置概念;差分隱私(DifferentialPrivacy)保護技術可能是解決大數(shù)據(jù)隱私問題的有力武器,Dwork在2006年提出了一種新的差分隱私方法,Roy等于2010年提出了一種隱私保護系統(tǒng)Airavat,將集中信息流控制和差分隱私保護技術融入云計算的數(shù)據(jù)生成與計算階段,防止MapReduce計算過程中的數(shù)據(jù)隱私泄露.此外,大數(shù)據(jù)時代數(shù)據(jù)的更新變化速度加快,而一般的數(shù)據(jù)隱私保護技術大都基于靜態(tài)數(shù)據(jù)保護,這就給隱私保護帶來了新的挑戰(zhàn).在復雜變化的條件下如何實現(xiàn)數(shù)據(jù)隱私安全的保護,這將是未來大數(shù)據(jù)研究的重點方向之一.4.2大數(shù)據(jù)時代傳統(tǒng)數(shù)據(jù)安全的“保護”與數(shù)據(jù)清洗縱觀大數(shù)據(jù)的發(fā)展歷程,大數(shù)據(jù)的來源與應用越來越廣泛,為了把散布于不同的數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)收集起來統(tǒng)一整理,就有必要進行數(shù)據(jù)的集成與管理.雖然對數(shù)據(jù)的集成和管理已經(jīng)有了很多的方法,但是傳統(tǒng)的數(shù)據(jù)存儲方法已經(jīng)不能滿足大數(shù)據(jù)時代數(shù)據(jù)的處理需求,這就面臨著新的挑戰(zhàn).1)數(shù)據(jù)存儲.在大數(shù)據(jù)時代,大數(shù)據(jù)的特征之一就是數(shù)據(jù)類型的多樣性.數(shù)據(jù)類型由傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)逐漸轉(zhuǎn)變?yōu)榘虢Y(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù).另外,數(shù)據(jù)的來源也逐漸多樣化,傳統(tǒng)的數(shù)據(jù)大都來自于少部分軍事企業(yè)或是研究所的電腦終端;現(xiàn)在,隨著互聯(lián)網(wǎng)和移動設備在全球的普及,平板電腦、手機、GPS等產(chǎn)生的數(shù)據(jù)呈“井噴”狀態(tài),因此,數(shù)據(jù)的存儲就顯得格外重要.由前文可看出,傳統(tǒng)的數(shù)據(jù)存儲方式已經(jīng)不足以滿足現(xiàn)在的數(shù)據(jù)存儲需求,為了應對越來越多的海量數(shù)據(jù)和日漸復雜的數(shù)據(jù)結(jié)構(gòu),很多公司都著手研發(fā)適用于大數(shù)據(jù)時代的分布式文件系統(tǒng)和分布式并行數(shù)據(jù)庫,如HDFS、BigTable等.在數(shù)據(jù)存儲過程中,數(shù)據(jù)格式的轉(zhuǎn)換是必要的,而且是非常關鍵和復雜的,這就對數(shù)據(jù)存儲系統(tǒng)提出了更高的要求.2)數(shù)據(jù)清洗.大數(shù)據(jù)時代數(shù)據(jù)的特征“Value”,是大數(shù)據(jù)低價值密度的體現(xiàn).也就是說,大數(shù)據(jù)量并不意味著大信息量,很多時候它意味著冗余數(shù)據(jù)的增多、垃圾價值的泛濫,因此,對數(shù)據(jù)進行篩選、清理是十分必要的,否則過多的干擾信息一方面會占據(jù)大量的存儲空間,造成存儲資源的浪費,另一方面這些垃圾數(shù)據(jù)會對真正有用的信息造成干擾,影響數(shù)據(jù)分析結(jié)果.大數(shù)據(jù)時代的數(shù)據(jù)清洗過程必須更加細致和專業(yè),即在數(shù)據(jù)清洗過程中,既不能清洗地過細,因為這會增加數(shù)據(jù)清洗的復雜度,甚至有可能會把有用的信息過濾掉;也不能清洗的不細致,因為要保證數(shù)據(jù)篩選的效果.4.3積極推進關系型數(shù)據(jù)庫的數(shù)據(jù)融合大數(shù)據(jù)因其獨特的特征對數(shù)據(jù)分析處理系統(tǒng)提出了極高的要求,無論是存儲、傳輸還是計算,在大數(shù)據(jù)分析技術平臺上,將會是一個技術的激烈交鋒.因為現(xiàn)有的數(shù)據(jù)中心技術難以滿足大數(shù)據(jù)的處理需求,所以IT架構(gòu)的革命性重構(gòu)勢在必行.美國的6個部門共同啟動的大數(shù)據(jù)研究計劃中,絕大部分的研究項目都是針對大數(shù)據(jù)帶來的技術挑戰(zhàn),主要應對大數(shù)據(jù)分析算法和系統(tǒng)的效率問題.1)大數(shù)據(jù)分析技術.目前來看,海量數(shù)據(jù)中超過85%的數(shù)據(jù)都是半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),傳統(tǒng)的關系型數(shù)據(jù)庫已經(jīng)無法處理.根據(jù)CAP理論(Consistency,Availability,Partitionstolerance),一致性、可用性和容錯性不可兼得,因此,關系型數(shù)據(jù)庫沒有良好的可擴展性.以MapReduce和Hadoop為代表的非關系型數(shù)據(jù)庫的非關系型分析技術因其具

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論