大數(shù)據(jù)云計算文獻綜述_第1頁
大數(shù)據(jù)云計算文獻綜述_第2頁
大數(shù)據(jù)云計算文獻綜述_第3頁
大數(shù)據(jù)云計算文獻綜述_第4頁
大數(shù)據(jù)云計算文獻綜述_第5頁
已閱讀5頁,還剩37頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)云計算文獻綜述一個大數(shù)據(jù)的調(diào)查摘要:在這篇論文中,我們將回顧大數(shù)據(jù)的背景以及當前發(fā)展狀況。我們首先介紹大數(shù)據(jù)的一般應(yīng)用背景以及回顧涉及到的技術(shù),例如:云計算、物聯(lián)網(wǎng)、數(shù)據(jù)中心,以及Hadoop。接下來我們著重大數(shù)據(jù)價值鏈的四個階段,也就是:數(shù)據(jù)生成,數(shù)據(jù)采集,數(shù)據(jù)存儲和數(shù)據(jù)分析。對于每個階段,我們介紹應(yīng)用背景,討論技術(shù)難題以及回顧最新技術(shù)。最后,我們介紹幾個大數(shù)據(jù)的代表性應(yīng)用,包括企業(yè)管理,物聯(lián)網(wǎng),在線社交網(wǎng)絡(luò),媒體應(yīng)用,集成智慧,以及智能電網(wǎng)。這些討論旨在提供一個全面的概述以及對讀者感興趣的領(lǐng)域的藍圖。這個調(diào)查包括了對開放問題和未來方向的討論。關(guān)鍵字大數(shù)據(jù)云計算物聯(lián)網(wǎng)數(shù)據(jù)中心Hadoop智能電網(wǎng)大數(shù)據(jù)分析1、背景1.1大數(shù)據(jù)時代的曙光在過去的二十年,數(shù)據(jù)在各種各樣的領(lǐng)域內(nèi)爆炸式增長。按照2011年來自國際數(shù)據(jù)公司(IDC)的報告,世界上總共的創(chuàng)建及復(fù)制的數(shù)據(jù)量達到1.8zb,在五年內(nèi)增長了大約九倍[1]。在未來這個數(shù)字至少每兩年增加一倍。在全球數(shù)據(jù)的爆炸增長下,大數(shù)據(jù)這個詞主要來描述巨大的數(shù)據(jù)集。與傳統(tǒng)的數(shù)據(jù)集相比,大數(shù)據(jù)通常包括非結(jié)構(gòu)化數(shù)據(jù),這需要更實時的分析。另外,大數(shù)據(jù)也能在發(fā)現(xiàn)新價值上帶來新優(yōu)勢,幫助我們幫助我們獲得一個深入隱藏價值的認識,也導(dǎo)致新挑戰(zhàn),例如,如何有效地組織和管理這樣的數(shù)據(jù)集。

近日,行業(yè)產(chǎn)生興趣的大數(shù)據(jù)的高潛力,許多政府機構(gòu)公布主要計劃加快大數(shù)據(jù)的研究和應(yīng)用[2]。此外,大數(shù)據(jù)問題往往覆蓋在公共媒體,如經(jīng)濟學(xué)[3,4],紐約時報[5],和全國公共廣播電臺[6,7]。這兩個主要的科學(xué)期刊,Nature和Science,還開通了專欄討論大數(shù)據(jù)的挑戰(zhàn)和影響[8,9]。大數(shù)據(jù)的時代已經(jīng)到來超越一切質(zhì)疑[10]。目前,與互聯(lián)網(wǎng)公司的業(yè)務(wù)相關(guān)聯(lián)的大數(shù)據(jù)快速增長。例如,谷歌處理的數(shù)據(jù)達數(shù)百拍字節(jié)(PB),Facebook的生成日志數(shù)據(jù)每月有超過10PB,百度一家中國公司百度,業(yè)務(wù)流程有數(shù)十PB的數(shù)據(jù),而阿里巴巴的子公司淘寶每天的網(wǎng)上交易產(chǎn)生幾十太字節(jié)(TB)的數(shù)據(jù)。圖1示出的全球數(shù)據(jù)量的熱潮。當大型數(shù)據(jù)集的數(shù)量急劇上升,它也帶來了許多具有挑戰(zhàn)性的問題,解決方案如下:ThePhenomenonofBFgData1.8ZD2Q9blllEon.ThenumbercfRFtD-n2021{I£millioninMIL)SI>Cibilliondollarsilargcrthoci1he才工yrriii口m口lhi*dFLkitoFitirntlieoriyinciuiliiationto2003]750millionZ09PB$32+B1.8ZD2Q9blllEon.ThenumbercfRFtD-n2021{I£millioninMIL)SI>Cibilliondollarsilargcrthoci1he才工yrriii口m口lhi*dFLkitoFitirntlieoriyinciuiliiationto2003]750millionZ09PB$32+B[n(hestwigrMpdlf口FAmericanrnanutacturingin^ustr>'TlieamountofdatageneratedhymjrTianur+snprpjirctinChin^Theamountglpi甕un?uploadedtDF^cebcak300blll1<)4idollpr?Patsd艸EoeckHdynngwcomputergeeks?45Qthousandhijurs200>TBPersonatlocationin10yearsMedicnienp已nsesavin-gbybigdataaiutysi^ihAi^tricaooTihepurchaseamountofthe4bigddmpani£|rt2010□D"Datsdrebecomingthenewf^vjm^terisIofbuSin^ss:EconomicinpulisalmosleflUEvalenttocapitalan<llabor"-^氐叩。舊屁>〉,^010"Informationwillbethe21thCenturyoil"-Garnercaf^pan};2010圖一、持續(xù)增長的數(shù)據(jù)信息技術(shù)的最新發(fā)展(IT)使其更容易以產(chǎn)生數(shù)據(jù)。例如,每分鐘有平均72個小時的視頻上傳到Y(jié)ouTube[11]。因此,我們面臨的主要挑戰(zhàn)是從廣泛分布的數(shù)據(jù)源中收集和整合大量的數(shù)據(jù)。云計算和物聯(lián)網(wǎng)(IOT)的快速發(fā)展進一步促進數(shù)據(jù)的大幅增長。云計算提供了安全措施,訪問網(wǎng)站以及數(shù)據(jù)資產(chǎn)的渠道。在物聯(lián)網(wǎng)的典范,遍布世界各地的傳感器正在收集和傳送數(shù)據(jù)到云端進行存儲和處理。這樣的數(shù)據(jù)在數(shù)量和相互關(guān)系將遠遠超過對IT架構(gòu)和現(xiàn)有企業(yè)的基礎(chǔ)設(shè)施的能力,以及它的實時要求也將極大地強調(diào)可用的計算能力。日益增長的數(shù)據(jù)造成怎樣在當前硬件和軟件的基礎(chǔ)上存儲和管理如此龐大的異構(gòu)數(shù)據(jù)集的問題??紤]到大數(shù)據(jù)的異質(zhì)性,可擴展性,實時性,復(fù)雜性和保密性,我們將有效地通過在不同層面分析,建模,可視化和預(yù)測,進而“開采”數(shù)據(jù)集,從而揭示其內(nèi)在的性能以及完善決策。1.2、大數(shù)據(jù)的定義和特點大數(shù)據(jù)是一個抽象的概念。除了大量的數(shù)據(jù),它也有一些其他的功能,這決定本身和“海量數(shù)據(jù)”或之間的差異“很大的數(shù)據(jù)?!蹦壳?,雖然大的數(shù)據(jù)的重要性已經(jīng)成為共識,人們?nèi)匀粚λ亩x有不同意見。一般情況下,大數(shù)據(jù)是指不能由傳統(tǒng)IT和軟件/硬件工具在允許的時間內(nèi)處理察覺,獲取,管理的數(shù)據(jù)集。因為不同的關(guān)注點,科技企業(yè),研究學(xué)者,數(shù)據(jù)分析,技術(shù)從業(yè)人員對大數(shù)據(jù)有不同的定義。以下定義可以幫助我們有一個在更好地理解大數(shù)據(jù)在社會,經(jīng)濟里的技術(shù)內(nèi)涵。2010年,ApacheHadoop將大數(shù)據(jù)定義為“大數(shù)據(jù)是指不能由傳統(tǒng)IT和軟件/硬件工具在允許的時間內(nèi)處理察覺,獲取,管理的數(shù)據(jù)集?!痹谶@一定義的基礎(chǔ)上,在2011年5月,麥肯錫公司,一個全球咨詢機構(gòu)宣布大數(shù)據(jù)作為下一個前沿創(chuàng)新,競爭和生產(chǎn)力。大數(shù)據(jù)系也可指可能用經(jīng)典數(shù)據(jù)庫軟件無法獲得、存儲、管理的數(shù)據(jù)集,這個定義包括兩個含義:一是數(shù)據(jù)集“卷符合大數(shù)據(jù)的標準正在發(fā)生變化,可隨著時間的推移或技術(shù)的進步;其次,數(shù)據(jù)集“卷順應(yīng)大標準在不同的應(yīng)用數(shù)據(jù)彼此不同。在目前,大數(shù)據(jù)一般為幾個TB到幾PB[10]。從麥肯錫公司的定義,可以看出,一個數(shù)據(jù)集的體積不是唯一標準大數(shù)據(jù)。日益增長的數(shù)據(jù)規(guī)模不能由傳統(tǒng)的處理,并對其管理數(shù)據(jù)庫技術(shù)是接下來的兩個關(guān)鍵特性。事實上,早在2001年,META的分析師(現(xiàn)Gartner公司)道格?萊尼通過3VS模型將大數(shù)據(jù)定義為挑戰(zhàn)和機遇。即,增加的數(shù)據(jù)數(shù)量,速度和品種,在研究報告中[12],盡管這種最初不是用模型來定義大數(shù)據(jù),未來十年里,Gartner等多家企業(yè),其中包括IBM[13]和微軟的[14]研究部門仍然采用的是“3VS”模型來描述大數(shù)據(jù)。在“3VS”的模式中,數(shù)據(jù)卷是指,與人民群眾的產(chǎn)生和收集數(shù)據(jù),數(shù)據(jù)規(guī)模越來越大;速度意味著大數(shù)據(jù)的時效性,具體而言,數(shù)據(jù)采集和分析等必須迅速和及時進行的從而為最大限度地利用大數(shù)據(jù)的商業(yè)價值;各種指示各種類型的數(shù)據(jù),其中包括半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),例如音頻,視頻,網(wǎng)頁,和文字,以及傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)。然而,其他人有不同的意見,包括IDC,—個在大數(shù)據(jù)和研究領(lǐng)域最有影響力的領(lǐng)導(dǎo)人之一。2011年,IDC的報告定義大數(shù)據(jù)為“大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu),旨在在經(jīng)濟上提取捕捉,發(fā)現(xiàn),和/或分析非常大量的各種數(shù)據(jù)的“[1]根據(jù)這個定義,大數(shù)據(jù)的特點可以概括為4Vs時,即體積(大體積),品種(各種形式),速度(快速生成),和價值(巨大的價值,但很低密度)。如圖2,這類4Vs定義被廣泛認可它強調(diào)大數(shù)據(jù),即意義和必要性,探索隱藏的巨大價值。這個定義說明在大數(shù)據(jù)中最關(guān)鍵的問題,是如何在一個巨大的規(guī)模,各類型和快速生成的數(shù)據(jù)集中發(fā)現(xiàn)價值。至于周帕瑞克,F(xiàn)acebook的副總監(jiān)工程師說,“如果你不利用所收集的數(shù)據(jù),你只能擁有的數(shù)據(jù)不是大數(shù)據(jù),“。[11]此外,NIST的定義大數(shù)據(jù)“大數(shù)據(jù)應(yīng)其中,平均數(shù)據(jù)的數(shù)據(jù)量,采集速度,或數(shù)據(jù)表示限制使用傳統(tǒng)的能力關(guān)系的方法來進行有效的分析或數(shù)據(jù)這可能有重要的水平縮放技術(shù)“,其重點是技術(shù)得到有效處理大數(shù)據(jù)方面。它表明,有效的

方法或技術(shù)需要開發(fā)并用于分析和處理大數(shù)據(jù),已經(jīng)有來自大量討論。工業(yè)界和學(xué)術(shù)界對大數(shù)據(jù)[16,17]的定義。除了制定一個適當?shù)亩x,大數(shù)據(jù)如何研究還應(yīng)該著眼于如何提取它的價值,使用數(shù)據(jù),以及如何將“一堆數(shù)據(jù)”變成“大數(shù)據(jù)。”圖2、大數(shù)據(jù)的4Vs模型321Onesecondrule圖2、大數(shù)據(jù)的4Vs模型321OnesecondruleGetrequiredinforrnatianinreal-time0TheDClatestdigitaluncverseresearchreporttheglobaldatausagewillIncreaseby44times,about35.2Z0.1?3大數(shù)據(jù)的價值麥肯錫公司觀察到大數(shù)據(jù)創(chuàng)造價值觀對美國醫(yī)療保健的深入研究后,歐盟公共部門管理,美國零售業(yè)、全球制造,和全球個人位置數(shù)據(jù)。通過對代表全球經(jīng)濟的五大核心產(chǎn)業(yè)的研究,麥肯錫的報告指出,大數(shù)據(jù)可以充分發(fā)揮經(jīng)濟職能,我證明了企業(yè)和公共部門的生產(chǎn)力和競爭力,為消費者創(chuàng)造了巨大的利益。在[10],麥肯錫總結(jié)大數(shù)據(jù)可以創(chuàng)造的價值:如果大數(shù)據(jù)c將創(chuàng)造性和有效利用來提高效率和質(zhì)量,美國的醫(yī)療行業(yè)通過獲得的數(shù)據(jù)可能會超過300美元億美元的潛在價值,從而減少花費引言美國醫(yī)療8%以上;零售商充分利用大數(shù)據(jù)可以提高超過60%的利潤;也可以利用大數(shù)據(jù)來提高政府的效率,歌劇在歐洲,這樣的發(fā)達經(jīng)濟體可以節(jié)省超過100歐元億美元(不包括減少欺詐、錯誤和稅收差異影響)。麥肯錫的報告被視為前瞻性和預(yù)測性,而下面的事實可以驗證大數(shù)據(jù)值。2009流感大流行期間,谷歌獲得及時的信息,通過分析化大數(shù)據(jù),甚至提供比由疾病預(yù)防中心提供更多有價值的信息。幾乎所有國家所需的醫(yī)院通知機構(gòu),如疾病預(yù)防中心流感病例的新類型。然而,患者通常沒有立即看醫(yī)生的時候,感染。同時也花了一些時間從醫(yī)院到疾病預(yù)防的信息中心和疾病預(yù)防中心分析總結(jié)等信息。因此,當公眾意識到新流感的大流行,這種疾病可能已經(jīng)一到兩周的時間,一個滯后的性質(zhì)。谷歌發(fā)現(xiàn),在流感的傳播,作品經(jīng)常尋求在其搜索引擎將不同于那些普通的鈦MES和參賽作品的使用頻率相關(guān)的流感傳播的時間和地點。谷歌發(fā)現(xiàn)45的搜索條目組密切相關(guān)的疫情流感和將它們在具體的數(shù)學(xué)模型來預(yù)測流感的傳播,甚至預(yù)測流感傳播的地方。相關(guān)研究成果已發(fā)表的他在自然[18]。2008,微軟收購了Farecast,美國科技公司Farecast的機票預(yù)測系統(tǒng),預(yù)測趨勢和上升/下降的機票價格范圍。該系統(tǒng)已被納入微軟的必應(yīng)搜索引擎。到2012時,該系統(tǒng)已節(jié)省近50美元每名乘客的門票,與預(yù)測精度高達75%。目前,數(shù)據(jù)已成為重要的生產(chǎn)因素,可能是與物質(zhì)資產(chǎn)和人力資本。多媒體、社交媒體、物聯(lián)網(wǎng)是發(fā)展,企業(yè)將收集沒有更多的信息,領(lǐng)先指數(shù)增長的數(shù)據(jù)量。大數(shù)據(jù)將有一個巨大的和不斷增加的潛力,為企業(yè)和消費者創(chuàng)造價值。1.4大數(shù)據(jù)的發(fā)展在上世紀70年代末,出現(xiàn)“數(shù)據(jù)庫機器”的概念,是一種專門用于存儲和分析數(shù)據(jù)的技術(shù)。隨著數(shù)據(jù)量的增加,存儲和處理能力單一主機系統(tǒng)的一個不充分。在上世紀80年代,人們提出了“無共享,“并行數(shù)據(jù)庫系統(tǒng),以滿足日益增長的數(shù)據(jù)量需求[19]。分享沒有系統(tǒng)的架構(gòu)是基于集群的使用,每個機器都有自己的處理器,存儲和磁盤。Teradata系統(tǒng)是第一個成功的商業(yè)并行數(shù)據(jù)庫系統(tǒng)。蘇最近的數(shù)據(jù)庫變得非常流行。1986年6月2日,一個具有里程碑意義的事件發(fā)生時,Teradata交付第一并行數(shù)據(jù)庫系統(tǒng)的存儲容量1TB凱馬特幫助大通用電氣規(guī)模在北美國的零售公司,以擴大其數(shù)據(jù)倉庫[20]。在20世紀90年代末,并行數(shù)據(jù)庫的優(yōu)勢在數(shù)據(jù)庫領(lǐng)域得到了廣泛的認可。然而,許多大數(shù)據(jù)的挑戰(zhàn)出現(xiàn)了。隨著互聯(lián)網(wǎng)服務(wù)的發(fā)展,索引和查詢內(nèi)容的迅速增長。因此,搜索引擎公司不得不面對的挑戰(zhàn)處理這些大數(shù)據(jù)。谷歌創(chuàng)造了GFS[21]和[22]編程模型MapReduce處理所帶來的數(shù)據(jù)管理和分析在互聯(lián)網(wǎng)規(guī)模的挑戰(zhàn)。此外,內(nèi)容由用戶生成,傳感器,和其他無處不在的數(shù)據(jù)源也要壓倒性的數(shù)據(jù)流,這需要一個根本性的變化,在計算架構(gòu)和大型數(shù)據(jù)庫加工機理。在一月2007,吉姆灰色,數(shù)據(jù)庫軟件的先驅(qū),這種轉(zhuǎn)變稱為“第四范式”[23]。他還認為,應(yīng)對這種范式的唯一途徑是開發(fā)新一代的計算工具來管理,可視化和分析質(zhì)量我的數(shù)據(jù)o2011年六月,另一個具有里程碑意義的事件發(fā)生;EMC/IDC發(fā)表題為從混沌[1]提取價值的研究報告,其中介紹的概念和對F大數(shù)據(jù)潛力第一次。本研究報告引發(fā)了業(yè)界和學(xué)術(shù)界對大數(shù)據(jù)的極大興趣。在過去的幾年中,幾乎所有的大公司,包括EMC、Oracle、IBM、微軟、谷歌、AMAZON,和Facebook等已經(jīng)開始了他們的大數(shù)據(jù)項目。以IBM為例,自2005,IBM已經(jīng)投資16美元億30收購大數(shù)據(jù)相關(guān)。在學(xué)術(shù)界,大數(shù)據(jù)也在聚光燈下。在2008,自然發(fā)表了一個大數(shù)據(jù)的特殊問題。2011、科學(xué)性在大數(shù)據(jù)的“數(shù)據(jù)處理”的關(guān)鍵技術(shù),推出了一個特殊的問題。2012、歐洲信息學(xué)與數(shù)學(xué)研究協(xié)會(會)新聞出版大型特刊數(shù)據(jù)。在2012年初,一份題為“大數(shù)據(jù)”的大沖擊在瑞士達沃斯論壇上發(fā)表,宣布大數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟資產(chǎn),就像貨幣一樣或黃金。一個國際研究機構(gòu)Gartner,發(fā)出炒作周期從2012到2013,其中大數(shù)據(jù)計算、社會分析、存儲數(shù)據(jù)分析等48個新興技術(shù)值得最關(guān)注。許多國家的政府,如美國也非常重視大數(shù)據(jù)。月2012日,奧巴馬政府宣布了2億美元的投資,推出“大數(shù)據(jù)研究和去發(fā)展計劃,“這是一次重大科技發(fā)展計劃1993“信息高速公路”的倡議后。七月2012,“轟轟烈烈的日本通信技術(shù)”項目發(fā)出由日本內(nèi)政部和交通部表示,大數(shù)據(jù)的發(fā)展應(yīng)該是一個國家戰(zhàn)略和應(yīng)用技術(shù)應(yīng)該是重點。在七月2012,聯(lián)合國有限的國家發(fā)行的大數(shù)據(jù)的發(fā)展報告,總結(jié)了各國政府如何利用大數(shù)據(jù)更好地服務(wù)和保護他們的人。1.5大數(shù)據(jù)的挑戰(zhàn)急劇增長的海量數(shù)據(jù)在大數(shù)據(jù)時代,對數(shù)據(jù)的采集、存儲的巨大挑戰(zhàn),管理和分析。傳統(tǒng)的數(shù)據(jù)管理和分析系統(tǒng)的基礎(chǔ)上關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)。然而,這樣的關(guān)系數(shù)據(jù)庫管理系統(tǒng)只適用于結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)比其他。此外,越來越多地利用關(guān)系數(shù)據(jù)庫管理系統(tǒng)越來越貴的硬件。這是明顯地,傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng)無法處理大數(shù)據(jù)量大、異質(zhì)性大。研究界提出了一些解決方案,從不同的視角。例如,云計算是用來滿足對胸骨的要求對于大數(shù)據(jù),例如,成本效率,彈性結(jié)構(gòu),平滑升級/降級。對于大規(guī)模無序數(shù)據(jù)集、分布式文件系統(tǒng)的永久存儲和管理解決方案的[24][25]和NoSQL數(shù)據(jù)庫都是不錯的選擇。這樣的程序明框架,在處理集群的任務(wù),特別是對網(wǎng)頁排名取得了很大的成功。各種大數(shù)據(jù)應(yīng)用可以基于這些創(chuàng)新技術(shù)或平臺開發(fā)。此外,它是不平凡的部署大數(shù)據(jù)分析系統(tǒng)。一些文獻[26,28]討論大數(shù)據(jù)應(yīng)用程序開發(fā)中的障礙。面臨的主要挑戰(zhàn)如下:-數(shù)據(jù)表示:許多數(shù)據(jù)集具有異質(zhì)性的類型、結(jié)構(gòu)、語義、組織、粒度一定的水平,和可訪問性。數(shù)據(jù)表示的目的是使數(shù)據(jù)更有意義計算機分析與用戶解釋。然而,不適當?shù)臄?shù)據(jù)表示將減少原始數(shù)據(jù)的價值甚至可能阻礙有效的數(shù)據(jù)分析。高效數(shù)據(jù)表示應(yīng)反映數(shù)據(jù)結(jié)構(gòu)、類和類型,以及集成技術(shù),以便在不同的數(shù)據(jù)集上進行高效的操作。-冗余以及數(shù)據(jù)壓縮:總的來說,有一個高水平的冗余數(shù)據(jù)。減少冗余和數(shù)據(jù)壓縮是有效的降低企業(yè)的間接成本對這些數(shù)據(jù)的潛在價值不受影響的前提下IRE系統(tǒng)。例如,大多數(shù)數(shù)據(jù)所產(chǎn)生的傳感器網(wǎng)絡(luò)是高度冗余的,可過濾和壓縮在奧德震級的。-數(shù)據(jù)生命周期管理:與相對緩慢的進步存儲系統(tǒng)相比,無處不在的傳感和計算在數(shù)據(jù)速率和規(guī)模產(chǎn)生了前所未有的。我們面臨有很多緊迫的挑戰(zhàn),其中之一是目前的存儲系統(tǒng)不能支持這樣的海量數(shù)據(jù)。一般而言,隱藏在大數(shù)據(jù)的值依賴于數(shù)據(jù)的新鮮度。因此,E、數(shù)據(jù)重要性原理來分析價值相關(guān)應(yīng)決定哪些數(shù)據(jù)將存儲的數(shù)據(jù)將被丟棄。——分析機理:大數(shù)據(jù)分析系統(tǒng)在有限時間內(nèi)處理大量的數(shù)據(jù)。然而,傳統(tǒng)的關(guān)系數(shù)據(jù)庫管理系統(tǒng),嚴格的設(shè)計與缺乏可擴展性和可擴展性,不能滿足性能要求。非關(guān)系數(shù)據(jù)庫在非結(jié)構(gòu)化數(shù)據(jù)處理中顯示出其獨特的優(yōu)勢。開始成為主流的大數(shù)據(jù)分析。即便如此,仍有非關(guān)系型數(shù)據(jù)庫的性能問題和一些特定的應(yīng)用。我們會找到一個妥協(xié)的關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫之間的解。例如,一些企業(yè)利用混合數(shù)據(jù)庫體系結(jié)構(gòu),集成了數(shù)據(jù)庫類型(例如,F(xiàn)acebook的優(yōu)勢和淘寶。在內(nèi)存數(shù)據(jù)庫和基于近似分析的樣本數(shù)據(jù)的基礎(chǔ)上,需要進行更多的研究。數(shù)據(jù)機密性:目前大多數(shù)大數(shù)據(jù)服務(wù)供應(yīng)商或業(yè)主不能有效地維護和分析這些龐大的數(shù)據(jù)集,因為他們的能力有限。他們必須依靠專業(yè)onals或工具來分析這些數(shù)據(jù),從而增加了潛在的安全風(fēng)險。例如,事務(wù)性數(shù)據(jù)集一般包括一組完整的操作數(shù)據(jù)來驅(qū)動關(guān)鍵業(yè)務(wù)流程專家。這些數(shù)據(jù)包含了最低的粒度和一些敏感信息,如信用卡號碼。因此,大數(shù)據(jù)的分析,可以提供給三分之一方處理采取適當?shù)念A(yù)防措施來保護這些敏感數(shù)據(jù),以確保其安全。能源管理:主要框架計算系統(tǒng)的能源消耗,從經(jīng)濟和環(huán)境角度都受到了很大的關(guān)注。隨著數(shù)據(jù)量和分析需求的增長而且,處理,存儲,和大數(shù)據(jù)的傳輸會消耗更多的電能。因此,系統(tǒng)級的功耗控制和管理機制應(yīng)該是電子建立大數(shù)據(jù)的可擴展性和可訪問性,保證了。-的可擴充性和可擴展性:大數(shù)據(jù)分析系統(tǒng)必須支持當前和未來的數(shù)據(jù)集。解析算法必須能夠處理日益擴大和更為復(fù)雜的Datasets。-合作:大數(shù)據(jù)分析是一個跨學(xué)科的研究,這需要不同領(lǐng)域的專家合作,收獲大數(shù)據(jù)的潛力。一個全面的大數(shù)據(jù)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)構(gòu)必須建立有助于各種領(lǐng)域的科學(xué)家和工程師訪問不同類型的數(shù)據(jù),充分利用他們的專業(yè)知識,以配合完成分析的目的專家。2、相關(guān)技術(shù)為了深入理解大數(shù)據(jù),這一秒,將介紹一些基本的技術(shù),是密切相關(guān)的大數(shù)據(jù)包括云計算,物聯(lián)網(wǎng),數(shù)據(jù)中心,和Hadoop。2.1、云計算與大數(shù)據(jù)的關(guān)系云計算與大數(shù)據(jù)有著密切的關(guān)系。云計算的關(guān)鍵組成部分如圖3所示。大數(shù)據(jù)是計算密集型操作的對象和應(yīng)力的存儲電容“云系統(tǒng)。云計算的主要目的是在集中管理利用巨大的計算和存儲資源,從而提供大數(shù)據(jù)應(yīng)用的細粒度的計算t-ing能力。云計算的發(fā)展為大數(shù)據(jù)的存儲和處理提供了解決方案。另一方面,大數(shù)據(jù)的出現(xiàn)也加速了云的發(fā)展計算?;谠朴嬎愕姆植际酱鎯夹g(shù)能夠有效的人年齡大的數(shù)據(jù);通過云計算的并行計算能力的美德可以提高ACQ效率大數(shù)據(jù)的采集和分析。盡管有很多重疊的技術(shù)在云計算和大數(shù)據(jù),他們在如下兩方面的不同。首先,概念在一定程度上是不同的。云計算入門ansformsIT體系結(jié)構(gòu)而影響商業(yè)決策的大數(shù)據(jù)。然而,大數(shù)據(jù)依賴于云計算作為基礎(chǔ)設(shè)施的順利運作。其次,大數(shù)據(jù)和云計算有不同的目標客戶。云計算是一種技術(shù)和產(chǎn)品向首席信息官(CIO)作為一種先進的IT解決方案。大數(shù)據(jù)是一個產(chǎn)品針對首席執(zhí)行官(CEO)重點業(yè)務(wù)。由于決策者可以直接感受到來自市場競爭的壓力,他們必須打敗商的反對在競爭更加激烈的方式。隨著大數(shù)據(jù)和云計算的發(fā)展,這兩種技術(shù)都是肯定和越來越糾纏對方。云計算,其職能類似于為t計算機和操作系統(tǒng)的軟管,提供系統(tǒng)級資源;大數(shù)據(jù)在云計算支持的上層提供的功能類似于數(shù)據(jù)庫和高效的數(shù)據(jù)處理能力。電磁兼容的總裁基辛格表示,美聯(lián)社大數(shù)據(jù)的應(yīng)用必須基于云計算。大數(shù)據(jù)的演變是由快速增長的應(yīng)用需求和云計算從虛擬化技術(shù)發(fā)展。因此,云計算不僅提供了計算對大數(shù)據(jù)的處理,也是一種服務(wù)模式。在一定程度上,云計算的進步也促進了大數(shù)據(jù)的發(fā)展,兩者相輔相成。

ClaudcomputingmanagementInquiry,analysisandexcavateparallelalgorittimVirtualresourcesClaudmurity

managementParallelGcmputingAexiNeresourceschedulingman^genieiitDistributedstorageClaudcomputingmanagementInquiry,analysisandexcavateparallelalgorittimVirtualresourcesClaudmurity

managementParallelGcmputingAexiNeresourceschedulingman^genieiitDistributedstorageCkudcomputingResourcesandplatform圖3云計算的關(guān)鍵組成部分2?2物聯(lián)網(wǎng)與大數(shù)據(jù)的關(guān)系在物聯(lián)網(wǎng)的范例中,大量的網(wǎng)絡(luò)傳感器被嵌入到不同的設(shè)備和機器中,在現(xiàn)實世界中。這樣的傳感器部署在不同的領(lǐng)域可能會收集各種類型的ATA,如環(huán)境數(shù)據(jù)、地理數(shù)據(jù)、天文數(shù)據(jù)、物流數(shù)據(jù)。移動設(shè)備、交通設(shè)施、公用設(shè)施、家用電器都是數(shù)據(jù)采集在物聯(lián)網(wǎng)方面的設(shè)備,如圖4所示。通過物聯(lián)網(wǎng)大數(shù)據(jù)具有不同的特點,與一般的大數(shù)據(jù)相比,由于數(shù)據(jù)收集的不同類型,其中最典型的特征包括他均質(zhì)、品種、非結(jié)構(gòu)化特征,噪聲和冗余度高。雖然目前物聯(lián)網(wǎng)數(shù)據(jù)不占主導(dǎo)地位的大數(shù)據(jù),由2030,數(shù)量傳感器將達到一兆,然后物聯(lián)網(wǎng)數(shù)據(jù)將是大數(shù)據(jù)的最重要的一部分,根據(jù)前投。來自英特爾的一份報告指出,大數(shù)據(jù)在物聯(lián)網(wǎng)有三大壯舉符合大數(shù)據(jù)模式的特性:(一)豐富的終端產(chǎn)生大量的數(shù)據(jù);(二)物聯(lián)網(wǎng)所產(chǎn)生的數(shù)據(jù)通常是半結(jié)構(gòu)化或非結(jié)構(gòu)化的;(三)物聯(lián)網(wǎng)的數(shù)據(jù)是有用的,只有當它被分析。目前,物聯(lián)網(wǎng)的數(shù)據(jù)處理能力已經(jīng)收集到的數(shù)據(jù)背后,是加速大數(shù)據(jù)技術(shù)的發(fā)展推動了我介紹迫在眉睫加班。物聯(lián)網(wǎng)的許多運營商實現(xiàn)大數(shù)據(jù)由于物聯(lián)網(wǎng)的成功是依賴于大數(shù)據(jù)和云計算的有效整合的重要性。物聯(lián)網(wǎng)的廣泛部署將也帶來許多城市進入大數(shù)據(jù)時代。有一個令人信服的需要采取大數(shù)據(jù)的物聯(lián)網(wǎng)應(yīng)用,而大數(shù)據(jù)的發(fā)展已經(jīng)落后于。它已被廣泛認可,這兩種技術(shù)是相互依賴的凹痕應(yīng)共同開發(fā):一方面,物聯(lián)網(wǎng)的廣泛部署驅(qū)動在數(shù)量和范疇數(shù)據(jù)的高增長,從而提供了機會,為應(yīng)用大數(shù)據(jù)的發(fā)展;另一方面,大數(shù)據(jù)技術(shù)在物聯(lián)網(wǎng)中的應(yīng)用也加快了物聯(lián)網(wǎng)的研究進展和業(yè)務(wù)模式。

tensariInUlligMtcarWindowcEattiMobilephon電windowHealldfiSmartcarMoHto

campubrigtensariInUlligMtcarWindowcEattiMobilephon電windowHealldfiSmartcarMoHto

campubrig圖4物聯(lián)網(wǎng)數(shù)據(jù)采集設(shè)備的說明2?3數(shù)據(jù)中心在大數(shù)據(jù)模式,數(shù)據(jù)中心不僅是一個數(shù)據(jù)集中存儲平臺,同時也承擔(dān)更多的責(zé)任,如獲取數(shù)據(jù)、管理數(shù)據(jù)、組織數(shù)據(jù),一利用數(shù)據(jù)值和函數(shù)。數(shù)據(jù)中心主要關(guān)注“數(shù)據(jù)”而非“中心”。它有大量數(shù)據(jù)、組織和人的年齡數(shù)據(jù)根據(jù)其核心目的和發(fā)展新臺幣的路徑,這比擁有一個好的網(wǎng)站和資源更有價值。大數(shù)據(jù)的出現(xiàn)帶來了良好的發(fā)展機遇和巨大挑戰(zhàn)的數(shù)據(jù)中心。大數(shù)據(jù)是一個新興數(shù)據(jù)中心的爆炸式增長,促進了基礎(chǔ)設(shè)施和相關(guān)軟件的爆炸性增長。物理數(shù)據(jù)中心網(wǎng)絡(luò)是支持大數(shù)據(jù)的核心,但目前,是最迫切需要的關(guān)鍵基礎(chǔ)設(shè)施[29]。大數(shù)據(jù)需要數(shù)據(jù)中心提供強大的后臺支持。大數(shù)據(jù)技術(shù)具有非紳士的要求對存儲容量和處理能力,以及網(wǎng)絡(luò)傳輸容量。企業(yè)必須把數(shù)據(jù)中心的發(fā)展納入考慮,以提高在有限的價格/性能比下快速、有效地處理大數(shù)據(jù)的能力。這個數(shù)據(jù)中心應(yīng)為基礎(chǔ)設(shè)施提供大量的節(jié)點,建立一個高速的內(nèi)部網(wǎng)絡(luò),有效的散熱,有效的備份數(shù)據(jù)。只有當一個高能源效率耳鼻喉、穩(wěn)定、安全、可擴展,和冗余的數(shù)據(jù)中心建設(shè),大數(shù)據(jù)應(yīng)用的正常運行,可以保證。大數(shù)據(jù)應(yīng)用的增長加速了數(shù)據(jù)中心的革命和創(chuàng)新。許多大數(shù)據(jù)應(yīng)用具有獨特的體系結(jié)構(gòu)和直接促進發(fā)展數(shù)據(jù)中心的存儲、網(wǎng)絡(luò)和計算技術(shù)的應(yīng)用。隨著結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增長,以及各種來源的分析數(shù)據(jù),數(shù)據(jù)處理和計算能力的數(shù)據(jù)中心,將大大提高。此外,隨著數(shù)據(jù)中心規(guī)模的不斷擴大,如何對數(shù)據(jù)中心進行研究也成為一個重要的課題降低數(shù)據(jù)中心發(fā)展的運營成本。-大數(shù)據(jù)賦予更多的功能到數(shù)據(jù)中心。在大數(shù)據(jù)模式,數(shù)據(jù)中心不僅要關(guān)注硬件設(shè)施也加強軟能力,即能力大數(shù)據(jù)的獲取、處理、組織、分析和應(yīng)用。數(shù)據(jù)中心可以幫助業(yè)務(wù)人員分析現(xiàn)有的數(shù)據(jù),發(fā)現(xiàn)企業(yè)經(jīng)營的問題,和發(fā)展從大數(shù)據(jù)的運算解決方案。2.4Hadoop和大數(shù)據(jù)之間的關(guān)系目前,Hadoop是廣泛應(yīng)用于大數(shù)據(jù)應(yīng)用的行業(yè),例如,垃圾郵件過濾、網(wǎng)絡(luò)搜索、點擊流分析、社會推薦。此外,相當學(xué)術(shù)研究了基于Hadoop的。一些代表性的病例是在下面。在2012六月宣布,雅虎運行Hadoop42000服務(wù)器在四個數(shù)據(jù)中心,以支持其產(chǎn)品和服務(wù),如例如,搜索和垃圾郵件過濾,等。目前,最大的Hadoop集群有4000個節(jié)點,而節(jié)點的數(shù)量將增加至10000與Hadoop2版本。在同一個月,英足總cebook宣布他們的Hadoop集群可以處理100PB的數(shù)據(jù),增長了0.5,鉛每天2012十一月。一些知名的機構(gòu)使用Hadoop進行分布式計算的李以[30]。此外,許多公司提供的Hadoop商業(yè)執(zhí)行和/或支持,包括Cloudera,IBM,MAPR,EMC,Oracle。現(xiàn)代工業(yè)機械系統(tǒng)中,傳感器被廣泛應(yīng)用于環(huán)境監(jiān)測、故障預(yù)測等收集信息,bahga和別人在[31]提出了一個框架網(wǎng)絡(luò)的數(shù)據(jù)組織和云計算基礎(chǔ)設(shè)施,稱為云景。云觀采用混合結(jié)構(gòu),局部節(jié)點,基于Hadoop的遠程集群分析機器生成的數(shù)據(jù)。本地節(jié)點用于實時失敗的預(yù)測;基于Hadoop集群用于復(fù)雜的離線分析,例如,案例驅(qū)動的數(shù)據(jù)分析?;蚪M數(shù)據(jù)的指數(shù)增長和測序成本的急劇下降,將生物科學(xué)和生物醫(yī)藥的數(shù)據(jù)轉(zhuǎn)換為數(shù)據(jù)驅(qū)動的科學(xué)。gunarathne等人。在[32]利用云計算基礎(chǔ)設(shè)施三、亞馬遜AWS、微軟azune,和數(shù)據(jù)處理框架基于MapReduce,Hadoop和微軟的DryadLINQ跑兩平行生物醫(yī)藥應(yīng)用:(我)基因組片段組裝;(ii)在化學(xué)結(jié)構(gòu)分析的降維。在隨后的應(yīng)用中,使用166-d數(shù)據(jù)包括26000000個數(shù)據(jù)點。作者比較了所有的性能效率,成本和可用性方面的框架。根據(jù)這項研究,作者得出結(jié)論,松散耦合將越來越多地應(yīng)用于電子云的研究,和磷并行編程技術(shù)(MapReduce)的框架,可以為用戶提供更方便的服務(wù)界面和減少不必要的成本。3大數(shù)據(jù)的生成與獲取我們已經(jīng)介紹了幾種關(guān)鍵技術(shù)與大數(shù)據(jù)、云計算、物聯(lián)網(wǎng),即數(shù)據(jù)中心,和Hadoop。下一步,我們將重點放在價值鏈的大數(shù)據(jù),這一般可以分為四個階段:數(shù)據(jù)生成、數(shù)據(jù)采集、數(shù)據(jù)存儲和數(shù)據(jù)分析。如果我們把數(shù)據(jù)作為原材料,數(shù)據(jù)生成和數(shù)據(jù)采集是一個開發(fā)在處理過程中,數(shù)據(jù)存儲是一個存儲過程,數(shù)據(jù)分析是利用原材料來創(chuàng)造新的價值的生產(chǎn)過程。3.1數(shù)據(jù)生成數(shù)據(jù)生成是大數(shù)據(jù)的第一步。以互聯(lián)網(wǎng)數(shù)據(jù)為例,在搜索條目、互聯(lián)網(wǎng)論壇帖子、聊天記錄、微博留言等方面的數(shù)據(jù)量巨大產(chǎn)生。這些數(shù)據(jù)與人們的日常生活密切相關(guān),具有高價值、低密度的特征。這樣的數(shù)據(jù)可能是毫無價值的個人,但通過開發(fā)并積累了大量數(shù)據(jù),有用的信息,如習(xí)慣和愛好的用戶可以被識別,它甚至可以預(yù)測用戶的行為和情緒。此外,通過縱向和/或分布式數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)集更大規(guī)模、高度多樣化的,復(fù)雜的。這些數(shù)據(jù)源包括傳感器、視頻、點擊流,和/或?qū)⑵渌捎玫臄?shù)據(jù)源。目前,大數(shù)據(jù)的主要來源是經(jīng)營和交易信息在企業(yè)、物流和傳感器在物聯(lián)網(wǎng)信息,人機交互信息在互聯(lián)網(wǎng)世界中離子和位置信息,并在科學(xué)研究中產(chǎn)生的數(shù)據(jù),遠超等通過它的架構(gòu)和基礎(chǔ)設(shè)施現(xiàn)有EN容量信息企業(yè),而實時的要求也大大強調(diào)了現(xiàn)有的計算能力。企業(yè)數(shù)據(jù)2013,IBM發(fā)布分析:大數(shù)據(jù)在現(xiàn)實世界的應(yīng)用程序,這表明企業(yè)內(nèi)部數(shù)據(jù)是大數(shù)據(jù)的主要來源。企業(yè)內(nèi)部數(shù)據(jù)主要包括網(wǎng)上交易數(shù)據(jù)和在線數(shù)據(jù)分析,其中大部分是歷史上的靜態(tài)數(shù)據(jù),通過結(jié)構(gòu)化的方式關(guān)系型數(shù)據(jù)庫管理。此外,生產(chǎn)數(shù)據(jù),庫存達Ta、銷售數(shù)據(jù)、財務(wù)數(shù)據(jù),等等,也構(gòu)成了企業(yè)內(nèi)部的數(shù)據(jù),其目的是獲取企業(yè)信息化和數(shù)據(jù)驅(qū)動的活動,以記錄所有活動在企業(yè)內(nèi)部數(shù)據(jù)的形式。在過去的幾十年里,它和數(shù)字數(shù)據(jù)做出貢獻的很多改善的盈利業(yè)務(wù)部門。據(jù)估計,世界上所有公司的業(yè)務(wù)數(shù)據(jù)量Y每1.2年翻一番[10],其中,營業(yè)額通過互聯(lián)網(wǎng),企業(yè)對企業(yè),企業(yè)對消費者每天將達到450美元億[33]。連續(xù)提高業(yè)務(wù)數(shù)據(jù)量要求更有效的實時分析,以便充分收獲它的潛力。例如,亞馬遜處理數(shù)以百萬計的終端操作和超過500000查詢從第三方賣家每天[12]。沃爾瑪過程之一萬客戶交易每小時交易數(shù)據(jù)導(dǎo)入到一個容量超過2.5PB數(shù)據(jù)庫[3]。Akamai分析75元每天的事件,其目標廣告[13]。物聯(lián)網(wǎng)數(shù)據(jù)作為討論,物聯(lián)網(wǎng)是大數(shù)據(jù)的重要來源。在智能城市構(gòu)建了基于物聯(lián)網(wǎng)、大數(shù)據(jù)可能來自工業(yè)、農(nóng)業(yè)、交通、運輸、醫(yī)療、公共部門和家庭等根據(jù)物聯(lián)網(wǎng)的數(shù)據(jù)采集和傳輸過程,將其網(wǎng)絡(luò)結(jié)構(gòu)分為傳感層、網(wǎng)絡(luò)層和應(yīng)用層三層。這個傳感層負責(zé)數(shù)據(jù)采集,主要由傳感器網(wǎng)絡(luò)。網(wǎng)絡(luò)層負責(zé)信息的傳輸和處理,在近距離傳輸可能R伊利在傳感器網(wǎng)絡(luò)和遠程傳輸必須依賴網(wǎng)絡(luò)。最后,應(yīng)用層支持物聯(lián)網(wǎng)的具體應(yīng)用。根據(jù)物聯(lián)網(wǎng)的特點,物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)有以下幾個特點:-大規(guī)模數(shù)據(jù):在物聯(lián)網(wǎng)、數(shù)據(jù)采集設(shè)備的群眾是分布式部署的,可獲得簡單的數(shù)值數(shù)據(jù),如位置;或復(fù)雜的多媒體數(shù)據(jù),如監(jiān)控視頻E0。為了滿足分析和處理的需求,不僅是目前所獲得的數(shù)據(jù),而且在一定時間內(nèi)的歷史數(shù)據(jù)存儲。因此,產(chǎn)生的數(shù)據(jù)通過物聯(lián)網(wǎng)的特點是大尺度。-異質(zhì)性:由于各種數(shù)據(jù)采集裝置,所獲得的數(shù)據(jù)也不同,這樣的數(shù)據(jù)特征的異質(zhì)性。在物聯(lián)網(wǎng)中,每一個數(shù)據(jù)采集設(shè)備都放置在一個特定的地理位置,每一塊數(shù)據(jù)都有時間戳。時間和空間相關(guān)性是一個即時通訊數(shù)據(jù)來自物聯(lián)網(wǎng)的重要性質(zhì)。在數(shù)據(jù)分析和處理過程中,時間和空間也是統(tǒng)計分析的重要維度。-有效數(shù)據(jù)只占一小部分的大數(shù)據(jù):發(fā)生在數(shù)據(jù)的采集和物聯(lián)網(wǎng)傳輸大量的噪音。通過收購獲得的數(shù)據(jù)集設(shè)備,只有少量的異常數(shù)據(jù)是有價值的。例如,交通視頻的采集過程中,一些視頻幀捕獲違反交通運輸管理法規(guī)和交通事故的價值比那些只捕捉到正常的流量。生物醫(yī)療數(shù)據(jù)作為一系列高通量生物測量技術(shù)在開始的第二十一個世紀的創(chuàng)新發(fā)展,在生物醫(yī)藥領(lǐng)域的前沿研究也進入大時代數(shù)據(jù)。通過構(gòu)建智能、高效、和生物醫(yī)藥應(yīng)用準確的分析模型和理論體系,基本治理機制復(fù)雜的生物學(xué)現(xiàn)象背后的馬被揭露。不僅生物醫(yī)藥未來的發(fā)展是可以確定的,也是主要的角色可以在一系列重要的戰(zhàn)略產(chǎn)業(yè)發(fā)展方面相關(guān)的假設(shè)國民經(jīng)濟,人民生活,國家安全,具有重要的應(yīng)用,如醫(yī)療保健,新藥研發(fā),糧食生產(chǎn)(例如,轉(zhuǎn)基因作物)。人類基因組計劃的完成(人類基因組計劃)和測序技術(shù)的不斷發(fā)展也導(dǎo)致在大數(shù)據(jù)領(lǐng)域的廣泛應(yīng)用。由基因產(chǎn)生的數(shù)據(jù)的質(zhì)量測序經(jīng)過專門分析根據(jù)不同的應(yīng)用需求,結(jié)合臨床基因診斷和早期診斷提供有價值的信息和形象化治療疾病。一個測序人類基因可能產(chǎn)生100個600GB數(shù)據(jù)。在深圳的中國國家種質(zhì)庫,有1.3百萬人樣本樣本包括115萬獅子150000種動物,植物和微生物樣本。到2013年底,1000萬個可追溯的生物樣品將被存儲,并由2015年底,這一數(shù)字將達到3000萬。它是預(yù)先確定性,隨著生物醫(yī)藥技術(shù)的發(fā)展,基因測序?qū)⒆兊酶涌旖莺头奖?,從而使生物醫(yī)藥大數(shù)據(jù)不斷增長毫無疑問。此外,臨床醫(yī)療保健和醫(yī)療研發(fā)所產(chǎn)生的數(shù)據(jù)也迅速上升。例如,匹茲堡醫(yī)學(xué)中心大學(xué)(UPMC)存儲2TB的數(shù)據(jù)。Explorys,美國人我公司提供的平臺配置的臨床數(shù)據(jù),操作和維護數(shù)據(jù)和財務(wù)數(shù)據(jù)。目前,大約有13百萬人的信息已經(jīng)被配置,44arti-cLES數(shù)據(jù)在約60TB規(guī)模,這將在2013達到70TB。實踐融合,另一個美國的公司,管理約200000名患者的電子病歷。除了這些中小企業(yè),其他知名IT公司,如谷歌,微軟,IBM已經(jīng)投入廣泛的方法和計算分析研究興高采烈的高通量生物大數(shù)據(jù),對股票市場的巨大而作為“新一代互聯(lián)網(wǎng)?!盜BM預(yù)測,在2013戰(zhàn)略發(fā)布會上,以醫(yī)學(xué)影像和電子病歷的急劇增加,醫(yī)療專業(yè)人員可以利用大數(shù)據(jù)提取合同有用的臨床信息從大量的數(shù)據(jù)中獲取病史和預(yù)測治療效果,從而改善病人護理,降低成本。預(yù)計,2015,平均每一個醫(yī)院的年齡數(shù)據(jù)量將增加到665tb167tb。3.1.4數(shù)據(jù)生成其他領(lǐng)域隨著科學(xué)應(yīng)用的不斷增加,數(shù)據(jù)集的規(guī)模也逐漸擴大,一些學(xué)科的發(fā)展,很大程度上依賴于對數(shù)據(jù)的分析。在這里,我們研究分析在這樣的應(yīng)用。雖然在不同的科學(xué)領(lǐng)域,應(yīng)用程序有類似的和不斷增加的數(shù)據(jù)分析的需求。第一個例子涉及到計算生物學(xué)。玄葉NK細胞是一種核苷酸序列數(shù)據(jù)庫由美國國家生物技術(shù)創(chuàng)新中心保持。數(shù)據(jù)庫中的數(shù)據(jù)可能每10個月翻一番。2009八月,GenBank已超過250千兆從150000個不同的生物[34]的基礎(chǔ)上。二個例子與天文學(xué)有關(guān)。Sloan數(shù)字巡天(SDSS),最大的天文巡天項目,已經(jīng)從125tb數(shù)據(jù)記錄998至2008。作為望遠鏡的分辨率大大提高,2004,數(shù)據(jù)批量生成每晚將超過19。最后一個應(yīng)用程序涉及到高能量物理。在開始2008、大型強子對撞機(LHC)的ATLAS實驗的歐洲核子研究組織產(chǎn)生的原始數(shù)據(jù)在2/s和10TB數(shù)據(jù)處理每年商店。此外,無處不在的傳感和計算之間的自然、商業(yè)、互聯(lián)網(wǎng)、政府、社會環(huán)境都產(chǎn)生了前所未有的異構(gòu)數(shù)據(jù)的復(fù)雜性。這些數(shù)據(jù)集有自己獨特的數(shù)據(jù)特點,在規(guī)模、時間維度和數(shù)據(jù)類。例如,移動數(shù)據(jù)的位置,記錄運動,近似度,通信、M多媒體、應(yīng)用程序的使用,和音頻環(huán)境[108]。根據(jù)應(yīng)用環(huán)境和要求,這樣的數(shù)據(jù)集分成不同的類別,從而選擇合適的和可行的大數(shù)據(jù)的電子解決方案。3.2大數(shù)據(jù)采集作為大數(shù)據(jù)系統(tǒng)的第二階段,大數(shù)據(jù)采集包括數(shù)據(jù)采集、數(shù)據(jù)傳輸和數(shù)據(jù)預(yù)處理。大數(shù)據(jù)的采集過程中,一旦我們收集的原始數(shù)據(jù),我們的廳利用一種高效的傳輸機制,將其發(fā)送到一個適當?shù)拇鎯芾硐到y(tǒng),以支持不同的分析應(yīng)用程序。將收集到的數(shù)據(jù)可能包含很多冗余劑或無用的數(shù)據(jù),不必要地增加存儲空間,并影響后續(xù)的數(shù)據(jù)分析。例如,高度冗余的環(huán)境監(jiān)測傳感器收集的數(shù)據(jù)集是很常見的監(jiān)測。數(shù)據(jù)壓縮技術(shù)可以應(yīng)用于減少冗余度。因此,數(shù)據(jù)預(yù)處理操作是必不可少的,以確保有效的數(shù)據(jù)存儲和開發(fā)。3.2.1數(shù)據(jù)采集數(shù)據(jù)采集是利用特殊的數(shù)據(jù)采集技術(shù)來從一個特定的數(shù)據(jù)生成的環(huán)境中獲取原始數(shù)據(jù)。四種常用的數(shù)據(jù)采集方法如下。-日志文件:作為一種廣泛使用的數(shù)據(jù)收集方法,日志文件是由數(shù)據(jù)源系統(tǒng)自動生成記錄文件,以便記錄活動,隨后交付文件格式耳鼻喉分析。日志文件通常用于幾乎所有的數(shù)字設(shè)備。例如,Web服務(wù)器的日志文件記錄的點擊數(shù)、點擊率,網(wǎng)站用戶的訪問,和[其它財產(chǎn)記錄35]。在網(wǎng)站采集活動的用戶,Web服務(wù)器主要包括以下三個日志文件格式:公用日志文件格式(NCSA),擴展日志格式(W3C),和IIS日志格式(MIC工作)。在ASCII文本格式的所有三種類型的日志文件。除了文本文件以外,其他的數(shù)據(jù)庫有時也可用于存儲日志信息以提高大規(guī)模的查詢效率商店[36,37]。也有基于數(shù)據(jù)收集的一些其他日志文件,包括在網(wǎng)絡(luò)監(jiān)控和交通運行狀態(tài)的金融應(yīng)用和測定指標股Ffic管理。感測:傳感器在日常生活中是很常見的,用于測量物理量,將物理量轉(zhuǎn)換為可讀的數(shù)字信號,以供后續(xù)處理(和存儲)。感覺數(shù)據(jù)可能被分類為聲波,聲音,振動,汽車,化學(xué),電流,天氣,壓力,溫度等信息被傳送到一個數(shù)據(jù)采集點通過有線或無線網(wǎng)絡(luò)。對于應(yīng)用程序,可以很容易地部署和管理,例如,視頻監(jiān)控系統(tǒng)[38],有線傳感器網(wǎng)絡(luò)是一個方便的解決方案,以獲取相關(guān)信息。有時一個特定的現(xiàn)象的精確位置是未知的,有時監(jiān)測環(huán)境沒有精力或通信基礎(chǔ)設(shè)施。然后無線通信必須使用在有限的能量和通信能力的情況下,使傳感器節(jié)點之間的數(shù)據(jù)傳輸。近年來,無線傳感器網(wǎng)絡(luò)已收到相當大的國際間,并已應(yīng)用于許多應(yīng)用,這樣的;如此的;這么大的;非常的;這樣的事物[人];作為環(huán)境研究[39,40],水質(zhì)監(jiān)測[41],土木工程[42,43],[44]習(xí)慣和野生動物監(jiān)測。無線傳感器網(wǎng)絡(luò)通常由大量的地理分布分布式傳感器節(jié)點,每一個都是一個由電池供電的微型裝置。這種傳感器被部署在指定的位置所需的應(yīng)用程序收集遙感數(shù)據(jù)。一旦傳感器被eployed,基站會對網(wǎng)絡(luò)配置/管理或數(shù)據(jù)采集傳感器節(jié)點發(fā)送控制信息?;谶@樣的控制信息,感官數(shù)據(jù)被組裝在地不同的傳感器節(jié)點和送回基站進行進一步的處理。有興趣的讀者參考[45]更詳細的討論。獲取網(wǎng)絡(luò)數(shù)據(jù)-方法:目前,網(wǎng)絡(luò)數(shù)據(jù)采集是使用web爬蟲組合完成,分詞系統(tǒng),任務(wù)系統(tǒng),和指標體系等Web爬行是一個用于搜索引擎下載和存儲網(wǎng)頁的程序[46]。一般而言,網(wǎng)絡(luò)爬蟲從初始網(wǎng)頁的統(tǒng)一資源定位器(網(wǎng)址)開始訪問其他鏈接的網(wǎng)頁,在它的存儲和序列的所有檢索的網(wǎng)址。網(wǎng)絡(luò)爬蟲通過一個網(wǎng)址隊列獲取一個網(wǎng)址,然后通過一個網(wǎng)址下載網(wǎng)頁,并確定一個網(wǎng)址我將在已下載的網(wǎng)頁上的網(wǎng)址,并提取新的網(wǎng)址被放在隊列中。這個過程是重復(fù)的,直到網(wǎng)絡(luò)爬蟲被停止。通過網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)的廣泛應(yīng)用基于網(wǎng)頁的應(yīng)用,如搜索引擎或網(wǎng)頁緩存。傳統(tǒng)的網(wǎng)頁提取技術(shù)具有多個有效的解決方案,并已完成了大量的研究,在他的田地。隨著越來越多的先進的網(wǎng)頁應(yīng)用程序正在出現(xiàn),一些提取策略,提出了在[47],以應(yīng)付豐富的互聯(lián)網(wǎng)應(yīng)用。當前的網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)主要包括傳統(tǒng)的基于Libpcap捕包技術(shù),零拷貝數(shù)據(jù)包捕獲技術(shù),以及一些專門的網(wǎng)絡(luò)監(jiān)控G軟件如wiresharkSmartsniff,和winnetcap。-Libpcap捕包技術(shù):基于Libpcap(數(shù)據(jù)包捕獲庫)是一種廣泛使用的網(wǎng)絡(luò)數(shù)據(jù)包捕獲函數(shù)庫。這是一個一般的工具,不依賴于任何特定的系統(tǒng)透射電子顯微鏡主要用于數(shù)據(jù)鏈路層中的數(shù)據(jù)捕獲。它具有簡單、易用、攜帶方便,但有一個相對低效率。因此,高速網(wǎng)絡(luò)環(huán)境下彪,大量丟包時可能出現(xiàn)的libpcap的使用。-零拷貝數(shù)據(jù)包捕獲技術(shù):所謂的零拷貝(ZC)意味著沒有副本之間的任何內(nèi)部的記憶發(fā)生在數(shù)據(jù)包接收和發(fā)送在一個節(jié)點。在發(fā)送數(shù)據(jù)包直接從用戶緩沖區(qū)開始,通過網(wǎng)絡(luò)接口,到達一個外部網(wǎng)絡(luò)。在接收時,網(wǎng)絡(luò)接口直接向美國發(fā)送數(shù)據(jù)包SER緩沖。零拷貝的基本思想是減少數(shù)據(jù)拷貝次數(shù),減少系統(tǒng)調(diào)用,并減少CPU的負載,而ddatagrams從網(wǎng)絡(luò)設(shè)備傳遞到用戶程序空間。零拷貝技術(shù)首先利用直接存儲器存?。―MA)技術(shù)的網(wǎng)絡(luò)數(shù)據(jù)包直接發(fā)送到一個地址空間預(yù)分配的系統(tǒng)內(nèi)核,以避免CPU的參與。同時,它映射的數(shù)據(jù)報內(nèi)部存儲器在系統(tǒng)內(nèi)核的檢測程序,或建立一個緩沖區(qū)在用戶空間和內(nèi)核空間映射到。然后檢測程序直接訪問內(nèi)部存儲器,從而減少系統(tǒng)內(nèi)核對用戶空間的內(nèi)存拷貝,減少系統(tǒng)調(diào)用的數(shù)量。——移動設(shè)備:目前,移動設(shè)備的使用越來越廣泛。由于移動設(shè)備的功能日益強大,他們的功能更復(fù)雜,多手段的數(shù)據(jù)采集,以及由于數(shù)據(jù)種類多。移動設(shè)備可以通過定位系統(tǒng)獲取地理位置信息;通過麥克風(fēng)采集音頻信息;獲取圖片、視頻、streetscap是的,二維條形碼,和其他多媒體信息通過攝像頭;獲取用戶手勢和其他肢體語言信息通過觸摸屏和重力傳感器。多年來,我們無線運營商通過獲取和分析這些信息提高了移動網(wǎng)絡(luò)的服務(wù)水平。例如,iPhone本身就是一個“手機間諜”。它可能會收集無線數(shù)據(jù)和地理地形位置信息,然后把這些信息帶回蘋果加工,其中用戶是不知道。除了蘋果,智能手機操作系統(tǒng)如AndroidGOOGLE和Windows手機的微軟也以類似的方式,信息的收集。除了上述三種數(shù)據(jù)采集方法的主要數(shù)據(jù)來源外,還有許多其他的數(shù)據(jù)采集方法或系統(tǒng)。例如,在科學(xué)實驗中,許多特殊的工具可用于收集實驗數(shù)據(jù),如磁儀和射電望遠鏡。我們可以從不同的角度對數(shù)據(jù)采集方法進行分類。從數(shù)據(jù)源的角度是的,收集數(shù)據(jù)的方法可以分為兩類:收集方法記錄通過數(shù)據(jù)源收集方法記錄通過其他輔助工具。3.2.2數(shù)據(jù)傳輸原始數(shù)據(jù)收集完成后,將數(shù)據(jù)傳送到一個數(shù)據(jù)存儲基礎(chǔ)設(shè)施進行處理和分析。正如2.3節(jié)所討論的,大數(shù)據(jù)主要存儲在一個數(shù)據(jù)的分中急診室數(shù)據(jù)布局應(yīng)進行調(diào)整,提高了計算效率和便于硬件維護。也就是說,內(nèi)部數(shù)據(jù)傳輸可能發(fā)生在數(shù)據(jù)中心。因此,數(shù)據(jù)傳輸傳輸分為兩個階段:DCNDCN傳輸傳輸間內(nèi)。-DCNDCN間傳輸:間傳輸是從數(shù)據(jù)源到數(shù)據(jù)中心,它一般是與現(xiàn)有的物理網(wǎng)絡(luò)基礎(chǔ)設(shè)施實現(xiàn)。由于快速增長的交通需求,在世界上大多數(shù)地區(qū)的物理網(wǎng)絡(luò)基礎(chǔ)設(shè)施的高容量、高速率和低成本的構(gòu)成,光纖傳輸系統(tǒng)。過去20爺ARS,先進的管理設(shè)備和技術(shù),如基于IP的波分復(fù)用(WDM)網(wǎng)絡(luò)架構(gòu),進行智能控制與管理的選擇化學(xué)纖維網(wǎng)絡(luò)[48,49]。WDM技術(shù)是將多個光載波信號耦合到不同的波長和光鏈路的光纖。在這樣的技術(shù),不同波長的激光進行不同的信號。目前,骨干網(wǎng)已經(jīng)部署的WDM光傳輸系統(tǒng)單信道速率40Gb/s的公關(guān)目前,100Gb/s商業(yè)接口可與100Gb/s系統(tǒng)(或TB/S系統(tǒng))將在不久的將來,[50]可。然而,傳統(tǒng)的光傳輸技術(shù)是有限的Y的電子瓶頸[51]帶寬。最近,正交頻分復(fù)用(OFDM),最初設(shè)計的無線系統(tǒng),被視為一個主要候選技術(shù)未來的高速光傳輸技術(shù)。OFDM是一種多載波并行傳輸技術(shù)。它將一個高速數(shù)據(jù)流分割成一個高速數(shù)據(jù)流,將其轉(zhuǎn)化為低速子數(shù)據(jù)流,以不被傳播到多個正交的子載波[52]。隨著WDM固定信道間隔相比,OFDM允許子信道的頻譜互相重疊,[53]。因此,它是一個靈活的穩(wěn)定高效的光網(wǎng)絡(luò)技術(shù)。-內(nèi)DCN傳輸:傳輸幀內(nèi)DCN在數(shù)據(jù)中心的數(shù)據(jù)通信流量。內(nèi)DCN傳輸取決于溝通在數(shù)據(jù)中心機構(gòu)(即物理上的連接板、芯片、數(shù)據(jù)服務(wù)器、數(shù)據(jù)中心、網(wǎng)絡(luò)體系結(jié)構(gòu)和通信協(xié)議的內(nèi)部記憶)。數(shù)據(jù)中心多接口包括磨碎的服務(wù)器機柜內(nèi)部連接網(wǎng)絡(luò)的互連。目前,大多數(shù)數(shù)據(jù)中心的內(nèi)部連接網(wǎng)絡(luò)的胖樹,雙層或三層基于多商品網(wǎng)絡(luò)流的結(jié)構(gòu)研究[51,54]。在兩層拓撲結(jié)構(gòu),可由1Gbps的頂級機架交換機連接(TOR),那么這樣的頂級機架交換機連接從10Gbps匯聚交換機的拓撲結(jié)構(gòu)。三層拓撲結(jié)構(gòu)是一種結(jié)構(gòu)增加一層對兩層拓撲結(jié)構(gòu)上這些層通過10Gbps或100Gbps的核心交換機構(gòu)成的連接拓撲結(jié)構(gòu)匯聚交換機。還有其他拓撲結(jié)構(gòu),其目的是提高數(shù)據(jù)的并行[58]55-中心網(wǎng)絡(luò)。由于電子數(shù)據(jù)包交換的不足,很難提高通信帶寬,同時保持能耗低。多年來,由于巨大的成功,通過光學(xué)技術(shù)實現(xiàn),在數(shù)據(jù)中心之間的網(wǎng)絡(luò)互連引起了很大的關(guān)注。光學(xué)互連是一種高通量、低延時,和低能耗解決方案。目前,光學(xué)技術(shù)僅用于數(shù)據(jù)中心的點對點連接。這樣的光鏈路提供使用低成本的多開關(guān)連接TI的單模光纖(MMF)lOGbps的數(shù)據(jù)速率。光互連(在光域內(nèi)切換)在數(shù)據(jù)中心網(wǎng)絡(luò)是一個可行的解決方案,它可以提供Tbps級別的傳輸帶能耗低的寬度。最近,許多光互連計劃提出的數(shù)據(jù)中心網(wǎng)絡(luò)[59]。有的計劃增加光路,以提升現(xiàn)有的凈工作,和其他的和完全取代目前的開關(guān)59-[64]。作為一種強化技術(shù),周等。在[65]采用60GHz頻率頻段的無線鏈路增強有線鏈路。網(wǎng)絡(luò)虛擬tualiza還應(yīng)考慮提高數(shù)據(jù)中心網(wǎng)絡(luò)的效率和利用率。3.2.3數(shù)據(jù)預(yù)處理由于數(shù)據(jù)來源廣泛,收集到的數(shù)據(jù)對于噪音、冗余不同,和一致性,等等,這無疑是商店的平均ingless數(shù)據(jù)浪費。另外一些分析方法對數(shù)據(jù)質(zhì)量有嚴重的要求。因此,為了使有效的數(shù)據(jù)分析,我們將預(yù)處理數(shù)據(jù)在許多情況下,將數(shù)據(jù)從不同的源數(shù)據(jù)中整合,不僅可以降低存儲費用,而且可以提高分析精度。一些關(guān)系數(shù)據(jù)預(yù)處理技術(shù)討論如下。-集成:數(shù)據(jù)集成是現(xiàn)代商業(yè)信息學(xué)的基石,涉及來自不同來源的數(shù)據(jù)相結(jié)合,為用戶提供了數(shù)據(jù)的統(tǒng)一視圖,[66]。這是傳統(tǒng)數(shù)據(jù)庫的一個成熟的研究領(lǐng)域。在歷史上,2種方法得到了廣泛的認可:數(shù)據(jù)倉庫和數(shù)據(jù)聯(lián)合會。數(shù)據(jù)倉庫包含一個過程稱為ETL(E提取、轉(zhuǎn)換和加載)。提取涉及的源系統(tǒng),選擇,收集,分析和處理所需的數(shù)據(jù)。轉(zhuǎn)型是一系列規(guī)則,TR的執(zhí)行換成標準格式數(shù)據(jù)的提取。加載裝置將提取和轉(zhuǎn)換的數(shù)據(jù)導(dǎo)入到目標存儲結(jié)構(gòu)中。加載是三個最復(fù)雜的過程,其中包括轉(zhuǎn)換、復(fù)制、清除、標準化、篩選、數(shù)據(jù)組織等操作??梢詷?gòu)建一個虛擬的數(shù)據(jù)庫,以查詢和聚合來自不同數(shù)據(jù)的數(shù)據(jù)資源,但這樣的數(shù)據(jù)庫不包含數(shù)據(jù)。相反,它包括信息或?qū)嶋H的數(shù)據(jù)和相關(guān)的元數(shù)據(jù)的位置。這兩“存儲閱讀”方法不滿足日數(shù)據(jù)流或搜索程序和應(yīng)用程序的高性能要求。與查詢相比,在這類方法中的數(shù)據(jù)更具動態(tài)性,在數(shù)據(jù)傳輸過程中必須處理。GEn-erally,數(shù)據(jù)集成方法都伴隨著流處理引擎和搜索引擎[30,67]。-清洗:數(shù)據(jù)清洗是一個過程,以確定文協(xié)副牧師,不完整,或不合理的數(shù)據(jù),然后修改或刪除這些數(shù)據(jù)來提高數(shù)據(jù)質(zhì)量。一般情況下,數(shù)據(jù)清洗包括五個共同mplementary程序[68]:定義和確定錯誤類型,搜索和識別錯誤,修正錯誤,醫(yī)生umenting錯誤實例和錯誤類型和模式、數(shù)據(jù)錄入程序減少未來的錯誤。在清洗過程中,數(shù)據(jù)的格式、完整性、合理性和限制,應(yīng)檢查。數(shù)據(jù)清洗是保持數(shù)據(jù)一致性的關(guān)鍵,這是一廣泛應(yīng)用于許多領(lǐng)域,如銀行、保險、零售業(yè)、電信和交通控制。在電子商務(wù)中,大多數(shù)數(shù)據(jù)是電子收集,這可能會造成嚴重的數(shù)據(jù)質(zhì)量問題。經(jīng)典的數(shù)據(jù)質(zhì)量問題主要來自軟件缺陷、定制錯誤或系統(tǒng)錯誤—配置。作者在[69]討論了數(shù)據(jù)清理在電子商務(wù)中的爬蟲和定期重新復(fù)制客戶和帳戶信息在[70],對射頻識別數(shù)據(jù)的問題進行了檢查。RFID技術(shù)被廣泛用于許多應(yīng)用,例如,庫存管理和目標跟蹤。然而,原有的RFID功能的低質(zhì)量,WH我的資料包括了許多不正常的數(shù)據(jù),受環(huán)境噪聲影響的物理設(shè)計和環(huán)境噪聲的影響。在[71],概率模型,以應(yīng)付在移動環(huán)境中的數(shù)據(jù)丟失。khoussainova等人。在[72]提出了一個系統(tǒng)來自動糾正錯誤的輸入數(shù)據(jù),通過定義全局完整性約束。赫伯特[73]提出了一個框架,稱為bio-ajax規(guī)范生物數(shù)據(jù),以便進行進一步的計算和提高搜索質(zhì)量。與bio-ajax,一些錯誤和重復(fù)可以ELIM-inated,和常見的數(shù)據(jù)挖掘技術(shù)可以更有效地執(zhí)行。-冗余消除:數(shù)據(jù)冗余是指數(shù)據(jù)重復(fù)或盈余,這通常發(fā)生在許多數(shù)據(jù)集。數(shù)據(jù)冗余可以增加不必要的數(shù)據(jù)傳輸費用和原因E缺陷的存儲系統(tǒng),例如,存儲空間的浪費,導(dǎo)致數(shù)據(jù)不一致、數(shù)據(jù)可靠性降低,數(shù)據(jù)損壞。因此,各種冗余的還原方法已被磷提出,如冗余檢測,數(shù)據(jù)過濾,數(shù)據(jù)壓縮。這樣的方法可以適用于不同的數(shù)據(jù)集或應(yīng)用環(huán)境。然而,冗余減少也可能帶來抗體出了一定的負面影響。例如,數(shù)據(jù)壓縮和解壓縮造成額外的計算負擔(dān)。因此,減少冗余的和成本效益應(yīng)仔細B均衡。來自不同領(lǐng)域的數(shù)據(jù)將越來越多地出現(xiàn)在圖像或視頻格式。眾所周知,圖像和視頻中含有一定的冗余,包括時間冗余Y,空間冗余、統(tǒng)計冗余,冗余和感知。視頻壓縮是廣泛用于降低視頻數(shù)據(jù)中的冗余,在許多視頻編碼標準的規(guī)定(MPEG-2MPeg-4,H.263,H.264/AVC)。在[74],作者考察了與視頻傳感器網(wǎng)絡(luò)的視頻監(jiān)控系統(tǒng)中視頻壓縮問題。作者提出了一種新的基于MPEG-4的方法通過調(diào)查背景和前景在一個場景中的背景冗余。被伊娃證明的低復(fù)雜度和該方法的低壓縮比評價結(jié)果。廣義數(shù)據(jù)傳輸或存儲,重復(fù)數(shù)據(jù)刪除是一種特殊的數(shù)據(jù)壓縮技術(shù),其目的是消除重復(fù)數(shù)據(jù)拷貝[75]。重復(fù)數(shù)據(jù)刪除,個人數(shù)據(jù)塊或數(shù)據(jù)段會被分配相同標識符(例如,使用一個哈希算法)將標識符添加到標識列表中。如重復(fù)數(shù)據(jù)刪除繼續(xù)分析,如果一個新的數(shù)據(jù)塊的標識符是在IDE上市相同識別表,新的數(shù)據(jù)塊將被視為多余的,將由相應(yīng)的存儲數(shù)據(jù)塊替換。重復(fù)的數(shù)據(jù)刪除可以大大降低存儲要求,這是一個AR的重要的一個大的數(shù)據(jù)存儲系統(tǒng)。除了上述的數(shù)據(jù)預(yù)處理方法,具體的數(shù)據(jù)對象必須經(jīng)過一些其他手術(shù)如特征提取。這樣的操作中起著重要的作用,多媒體搜索和DNA分析[76,78]-。通常的高維特征向量(或高維特征點)是用來描述數(shù)據(jù)對象和系統(tǒng)存儲未來檢索維特征向量。數(shù)據(jù)傳輸通常用于處理分布式的異構(gòu)數(shù)據(jù)源,特別是業(yè)務(wù)數(shù)據(jù)[79]。作為事實上,在考慮各種數(shù)據(jù)集,這是不平凡的,或者是不可能的,建立一個統(tǒng)一的數(shù)據(jù)前處理步驟和技術(shù),是酌收所有類型的數(shù)據(jù)集的在具體的特征、問題、性能要求等方面對數(shù)據(jù)集進行分析,從而選擇一個合適的數(shù)據(jù)預(yù)處理策略。4大數(shù)據(jù)存儲數(shù)據(jù)的爆炸性增長對存儲和管理有更嚴格的要求。在這一節(jié)中,我們把重點放在存儲大數(shù)據(jù)。大數(shù)據(jù)存儲是指大的存儲與管理GE規(guī)模數(shù)據(jù)而實現(xiàn)的可靠性和數(shù)據(jù)可用性。我們將回顧重要的問題,包括大規(guī)模的存儲系統(tǒng),分布式存儲系統(tǒng),和大數(shù)據(jù)存儲機制。一方面,存儲基礎(chǔ)設(shè)施需要提供可靠的存儲空間的信息存儲服務(wù);另一方面,它必須提供一個強大的訪問接口進行查詢并分析了大量的數(shù)據(jù)。傳統(tǒng)上,作為服務(wù)器的輔助設(shè)備,數(shù)據(jù)存儲設(shè)備是用來存儲、管理、查找、分析數(shù)據(jù)和結(jié)構(gòu)化的關(guān)系數(shù)據(jù)庫管理系統(tǒng)。隨著數(shù)據(jù)的急劇增長,數(shù)據(jù)存儲設(shè)備是變得越來越重要,許多互聯(lián)網(wǎng)公司追求的存儲容量大是有競爭力的。因此,對數(shù)據(jù)存儲的研究有著迫切的需要。4.1海量數(shù)據(jù)存儲系統(tǒng)各種存儲系統(tǒng)的出現(xiàn),以滿足海量數(shù)據(jù)的需求?,F(xiàn)有的海量存儲技術(shù)可分為直接連接存儲(DAS)、網(wǎng)絡(luò)存儲,網(wǎng)絡(luò)存儲可以進一步分為網(wǎng)絡(luò)附加存儲(NAS)和存儲區(qū)域網(wǎng)絡(luò)(SAN)。在DAS、各種硬盤直接連接服務(wù)器和數(shù)據(jù)管理是以服務(wù)器為中心的,如存儲設(shè)備的外圍設(shè)備,都需要一定的I/OR資源,是由一個單獨的應(yīng)用軟件管理。因為這個原因,這只適用于小規(guī)模的互連服務(wù)器。然而,由于其較低的可擴展性,這將顯示出你ndesirable效率時,存儲容量的增加,即,升級和擴展性受到很大限制。因此,這主要是用于個人電腦和小型服務(wù)器。網(wǎng)絡(luò)存儲是利用網(wǎng)絡(luò)為用戶提供數(shù)據(jù)訪問和共享的聯(lián)合接口。網(wǎng)絡(luò)存儲設(shè)備包括專用數(shù)據(jù)交換設(shè)備、磁盤陣列、帶庫、和其他存儲介質(zhì),以及特殊的存儲軟件。它的特點是具有很強的可擴展性。NAS實際上是一個網(wǎng)絡(luò)輔助存儲設(shè)備。它是直接連接到網(wǎng)絡(luò)通過集線器或交換機通過TCP/IP協(xié)議。在NAS,數(shù)據(jù)傳送文件的形式。與DAS、I/O負擔(dān)在NAS服務(wù)器從服務(wù)器訪問存儲設(shè)備,通過網(wǎng)絡(luò)廣泛的減少。而NAS是面向網(wǎng)絡(luò)的,三是專為數(shù)據(jù)存儲具有可擴展性和帶寬密集型網(wǎng)絡(luò),例如,一個與光纖連接的高速網(wǎng)絡(luò)。在美國,數(shù)據(jù)存儲年齡管理是相對獨立的存儲區(qū)域網(wǎng)內(nèi),在基于多路徑的任何內(nèi)部節(jié)點間數(shù)據(jù)交換來實現(xiàn)數(shù)據(jù)共享,最大程度數(shù)據(jù)管理。從一個數(shù)據(jù)存儲系統(tǒng),組織DAS,NAS和SAN,都可以分為三個部分:(一)磁盤陣列:它是一個存儲系統(tǒng)的基礎(chǔ)和數(shù)據(jù)的基本保證存儲;(二)連接和網(wǎng)絡(luò)子系統(tǒng),它提供一個或多個磁盤陣列和服務(wù)器之間的連接;(三)存儲管理軟件,它處理數(shù)據(jù)共享,災(zāi)難恢復(fù),多服務(wù)器的其他存儲管理任務(wù)。4.2分布式存儲系統(tǒng)第一個挑戰(zhàn)所帶來的大數(shù)據(jù)是如何開發(fā)一個大型的分布式存儲系統(tǒng)的高效數(shù)據(jù)處理與分析。使用分布式系統(tǒng)存儲海量數(shù)據(jù)時,應(yīng)考慮以下因素:-一致性:分布式存儲系統(tǒng)需要多臺服務(wù)器協(xié)同存儲數(shù)據(jù)。由于有更多的服務(wù)器,服務(wù)器故障的概率將更大。通常數(shù)據(jù)是分在服務(wù)器故障的情況下,將存儲在不同的服務(wù)器上的多個片段以確??捎眯?。然而,服務(wù)器故障和并行存儲可能會導(dǎo)致不同的副本不一致相同數(shù)據(jù)。一致性是指保證相同數(shù)據(jù)的多個副本相同?!捎眯裕涸诙嗵追?wù)器上運行的分布式存儲系統(tǒng)。隨著服務(wù)器的使用,服務(wù)器故障是不可避免的。如果整個系統(tǒng)都不認真,那將是可取的影響在閱讀和寫作方面滿足客戶的要求。此屬性稱為可用性。分區(qū)容忍:分布式存儲系統(tǒng)中的多個服務(wù)器通過網(wǎng)絡(luò)連接。網(wǎng)絡(luò)可能鏈路/節(jié)點故障或臨時擁堵。分布式系統(tǒng)應(yīng)該有有一定的耐受水平通過網(wǎng)絡(luò)失敗造成的問題。這將是可取的,分布式存儲仍然工作時,網(wǎng)絡(luò)被劃分。EricBrewer提出第[80,81]理論在2000,這表明一個分布式系統(tǒng)不能同時示滿足一致性,可用性和分區(qū)的要求,在寬容;大多數(shù)的三個要求可以同時滿足。塞思Gilbert和南希林奇來自麻省理工學(xué)院的證明理論的正確性2002帽。由于一致性,可用性和分區(qū)寬容是不可能實現(xiàn)的同時,我們可以通過忽略分區(qū)耐受性有一個CA系統(tǒng),忽視可用性CP系統(tǒng),和AP系統(tǒng),忽略了一致性,根據(jù)不同的設(shè)計目標。在以下三個系統(tǒng)中進行了討論。沒有分區(qū)的公差,即,他們不能處理網(wǎng)絡(luò)故障。因此,CA系統(tǒng)一般被認為是一個單一的服務(wù)器存儲系統(tǒng),如傳統(tǒng)的商城規(guī)模關(guān)系數(shù)據(jù)庫。這樣的系統(tǒng)功能單一的數(shù)據(jù)副本,這樣的一致性是很容易保證??捎眯允潜WC關(guān)系數(shù)據(jù)庫的優(yōu)秀設(shè)計。不過由于不能處理網(wǎng)絡(luò)故障,不能擴展到多個服務(wù)器。因此,大多數(shù)大型存儲系統(tǒng)都是系統(tǒng)和應(yīng)用系統(tǒng)。與CA系統(tǒng)相比,CP系統(tǒng)確保部分公差。因此,可以擴展到分布式系統(tǒng)的系統(tǒng)。CP系統(tǒng)一般維持相同的數(shù)據(jù)的多個副本為了保證容錯水平。CP系統(tǒng)也保證了數(shù)據(jù)的一致性,即同一數(shù)據(jù)的多個副本的保證是完全相同的。然而,不能保證聲音的可用性高成本的原因,一致性保證。因此,CP系統(tǒng)的場景,但在中度負荷數(shù)據(jù)精度的嚴格要求是有用的(例如,交易數(shù)據(jù))。Bigtable和HBase是兩種流行的CP系統(tǒng)。美聯(lián)社系統(tǒng)也確保分區(qū)容忍。然而,美聯(lián)社系統(tǒng)不同于在美聯(lián)社系統(tǒng)中的系統(tǒng),也保證了可用性。然而,美聯(lián)社系統(tǒng)只確保最終的一致性,而不是漢強一致性前2個系統(tǒng)。因此,美聯(lián)社系統(tǒng)只適用于頻繁請求的情況下,但不是非常高的要求的準確性。例如,在網(wǎng)上的社會互聯(lián)網(wǎng)絡(luò)的組網(wǎng)服務(wù)(SNS)的系統(tǒng)中,有許多并行訪問的數(shù)據(jù),但一定量的數(shù)據(jù)的誤差是可以接受的。此外,因為美聯(lián)社系統(tǒng)確保最終的一致性,準確數(shù)據(jù)可以在一定量的延遲后得到。因此,不嚴格的實時要求的情況下,美聯(lián)社系統(tǒng)也可以使用。發(fā)電機和卡桑德拉的兩種群美聯(lián)社系統(tǒng)。4.3大數(shù)據(jù)存儲機制大數(shù)據(jù)的大量研究促進了大數(shù)據(jù)存儲機制的發(fā)展?,F(xiàn)有的大數(shù)據(jù)存儲機制可以分為三個層次:(我)上的文件系統(tǒng),(二)數(shù)據(jù)庫,和(三)編程模型。文件系統(tǒng)是上層應(yīng)用程序的基礎(chǔ)。谷歌的GFS是一個可擴展的分布式文件系統(tǒng)支持大規(guī)模、分布式的數(shù)據(jù)密集型應(yīng)用程序[25]。GFS我們廉價的商品服務(wù)器,以實現(xiàn)容錯能力,并為客戶提供高性能服務(wù)。GFS支持大型文件應(yīng)用比讀寫更頻繁。然而R,GFS也有一定的局限性,如單點失效和小文件性能差。這樣的局限性已經(jīng)被巨人[82]克服,GFS的繼任者。此外,其他公司和研究人員也有他們的解決方案,以滿足不同的需求,對存儲的大數(shù)據(jù)。例如,HDFS和kosmosfs是衍生物對GF的開放源代碼美國微軟開發(fā)的宇宙[83]來支持它的搜索和廣告業(yè)務(wù)。Facebook利用草堆[84]存儲大量小型照片。淘寶還開發(fā)了TFS和Fas個TDFs??傊?,分布式文件系統(tǒng)已經(jīng)相對成熟后,業(yè)務(wù)經(jīng)營發(fā)展年。因此,我們將集中在這段休息的其他兩個層次古斯堪的那維亞語(OldNorse);4.3.1數(shù)據(jù)庫技術(shù)數(shù)據(jù)庫技術(shù)已經(jīng)發(fā)展了30多年了。開發(fā)用于處理數(shù)據(jù)在不同尺度和支持各種應(yīng)用各種數(shù)據(jù)庫系統(tǒng)。傳統(tǒng)的關(guān)系l數(shù)據(jù)庫不能滿足大數(shù)據(jù)帶來的類別和尺度的挑戰(zhàn)。NoSQL數(shù)據(jù)庫(即,非傳統(tǒng)的關(guān)系型數(shù)據(jù)庫)是大數(shù)據(jù)存儲變得越來越受歡迎。NoSQL數(shù)據(jù)庫特征方式靈活,簡單和容易復(fù)制、簡單的API,最終一致性的支持,并支持大數(shù)據(jù)量。NoSQL數(shù)據(jù)庫成為B的核心技術(shù)免疫球蛋白。我們將探討以下這段三個主要NoSQL數(shù)據(jù)庫:鍵值數(shù)據(jù)庫,面向列的數(shù)據(jù)庫和面向文檔的數(shù)據(jù)庫,每個基于一定的數(shù)據(jù)模型。-鍵值數(shù)據(jù)庫:鍵值數(shù)據(jù)庫控制措施的一個簡單的數(shù)據(jù)模型和數(shù)據(jù)存儲對應(yīng)的鍵值。每一個關(guān)鍵是獨特的,客戶可以輸入查詢的值到鑰匙。這樣的數(shù)據(jù)庫功能的簡單結(jié)構(gòu)和現(xiàn)代核心價值的數(shù)據(jù)庫具有高擴展性和查詢響應(yīng)時間小于關(guān)系數(shù)據(jù)庫。在過去的幾年中,許多關(guān)鍵的價值數(shù)據(jù)庫已經(jīng)出現(xiàn)的動機由亞馬遜的發(fā)電機系統(tǒng)[85]。我們將介紹發(fā)電機和其他幾個有代表性的主要價值數(shù)據(jù)庫。-發(fā)電機:發(fā)電機是一個高度可用和可擴展的分布式key-value數(shù)據(jù)存儲系統(tǒng)。它是用來存儲和管理的一些核心服務(wù)的狀態(tài),可與所實現(xiàn)的關(guān)鍵年代,在亞馬遜電子商務(wù)平臺。關(guān)系型數(shù)據(jù)庫的公共模式可能會產(chǎn)生無效的數(shù)據(jù)和限制數(shù)據(jù)的規(guī)模和可用性,而發(fā)電機可以用一個簡單的密鑰來解決這些問題對象的接口,這是通過簡單的構(gòu)成按讀寫操作。通過數(shù)據(jù)分區(qū)、數(shù)據(jù)復(fù)制、對象編輯機制,實現(xiàn)彈性和效用。Dy納摩比肩天信計劃依賴于一致性哈希[86],其中有一個節(jié)點傳遞荷蘭國際集團不僅直接影響到相鄰的節(jié)點,不影響其他節(jié)點,劃分負載含多處主要優(yōu)勢電子主要存儲設(shè)備。將數(shù)據(jù)復(fù)制到服務(wù)器的一組數(shù)據(jù)中,在該服務(wù)器中,該數(shù)據(jù)是一個可配置的參數(shù)以實現(xiàn)高可用性和耐久性。發(fā)電機系統(tǒng)還提供了最終的一致性,以便在所有副本上進行異步更新。-伏地魔,伏地魔也是一個關(guān)鍵值存儲系統(tǒng),這是最初開發(fā)的,仍用Linkedln。在伏地魔的關(guān)鍵字和值復(fù)合對象由表胚胎和影像。伏地魔的接口包括三個簡單的操作:閱讀,寫作,和刪除,所有這一切都是由關(guān)鍵詞確認。伏地魔提供異步更新并行有限控制多個版本,但不保證數(shù)據(jù)的一致性。然而,伏地魔支持樂觀鎖一致多記錄更新。當更新和一個其他歌劇全文,更新操作將退出。對伏地魔的數(shù)據(jù)復(fù)制機制,發(fā)電機相同。伏地魔不僅存儲在RAM中的數(shù)據(jù),允許數(shù)據(jù)被插入一個存儲通用電氣發(fā)動機。特別是,伏地魔支持兩個存儲引擎包括伯克利DB和隨機存取文件。關(guān)鍵價值數(shù)據(jù)庫出現(xiàn)了幾年前。亞馬遜DynamoDB的深刻影響,其他關(guān)鍵值存儲系統(tǒng)包括Redis,東京canbinet和東京的暴君,Memcached和MemcacheDB,Riak的一二大蚊,所有這些都提供擴展的關(guān)鍵詞為節(jié)點分配。伏地魔,Riak,東京柜,和memecached可以利用附加存儲設(shè)備在內(nèi)存或磁盤存儲數(shù)據(jù)。其他存儲系統(tǒng)存儲在內(nèi)存中的數(shù)據(jù),并提供磁盤備份,或依靠復(fù)制和恢復(fù),以避免備份?!嫦蛄械臄?shù)據(jù)庫:面向列的數(shù)據(jù)庫存儲和處理數(shù)據(jù),根據(jù)行。兩列和行分割在多個節(jié)點實現(xiàn)可擴展性。T他面向列的數(shù)據(jù)庫主要是由谷歌的BigTable。在這一部分中,我們首先討論了Bigtable然后介紹幾種衍生工具。-Bigtable:Bigtable是一個分布式的、結(jié)構(gòu)化的數(shù)據(jù)存儲系統(tǒng),它的設(shè)計過程的大型(PB級)成千上萬的商業(yè)服務(wù)器[87]中的數(shù)據(jù)?;緮?shù)據(jù)結(jié)構(gòu)FBigtable是一個多維度的排序映射稀疏,分布,和持久性存儲。指數(shù)映射行鍵,列鍵,時間戳,和映射的每個值是一個unana-l分析的字節(jié)數(shù)組。在Bigtable中每一行的關(guān)鍵是一個64KB的字符串。通過lexicograph政治秩序,行存儲不斷分割成片(即單位分布)負載平衡。因此,讀取短行的數(shù)據(jù)可以非常有效,因為它不僅涉及通信與機器的一小部分。列是根據(jù)鍵前綴分組,從而形成列族。這些列的家庭?謊言是訪問控制的基本單位。時間戳是64位的整數(shù)來區(qū)分不同版本的單元格的值??蛻艨梢造`活地確定存儲的單元格版本的數(shù)量。THESE版本在時間戳降序排序,所以最新的版本都會讀。BigtableAPI的創(chuàng)作特征和片劑和列族的缺失以及集群中,表的元數(shù)據(jù)的修改,和列族。客戶端應(yīng)用程序可以插入或刪除Bigtable的E值,從列的查詢值,或瀏覽子數(shù)據(jù)表中。Bigtable還支持一些其他的特點,如在一行中的事務(wù)處理。用戶可以利用澤這樣的特性來進行更復(fù)雜的數(shù)據(jù)處理。每一個程序執(zhí)行的Bigtable包括三個主要組成部分:主服務(wù)器,平板電腦,服務(wù)器,客戶端庫。就只允許一組主服務(wù)器被分配負責(zé)佛R不同片片檢測服務(wù)器,添加或刪除服務(wù)器進行負載均衡的平板電腦。此外,它還可以MODIFYBigtable架構(gòu),例如,創(chuàng)建表和列的發(fā)科、垃圾收集以及刪除或禁用文件保存在GFS和Bigtable使用它們的具體實例。每一片一片設(shè)置服務(wù)器管理和負責(zé)的原因一個裝著的平板電腦。當平板電腦太大,他們將被分割的服務(wù)器。應(yīng)用客戶端庫是用來溝通Bigtable的實例。Bigtable是基于谷歌的許多基本組件,包括GFS[25],集群管理系統(tǒng),用于墊SSTable文件,和胖乎乎的[88]。GFS是用來存儲數(shù)據(jù)和日志文件。群馬管理系統(tǒng)負責(zé)任務(wù)調(diào)度、資源共享、機器故障處理,和機器狀態(tài)監(jiān)測。SSTable文件格式用于內(nèi)部存儲Bigtable數(shù)據(jù),它提供了映射之間的持久性,測序,和不變的鍵和值的任何字節(jié)字符串。Bigtable利用小胖在服務(wù)器以下任務(wù):1)確保至多有一個活躍的主副本在任何時間;2)存儲Bigtable數(shù)據(jù)引導(dǎo)位置;3)查片服務(wù)器;4)在臺服務(wù)器的情況下進行錯誤恢復(fù)失敗的原因;5)存儲Bigtable架構(gòu)信息信息;6)存儲訪問控制表。-卡桑德拉:Cassandra是一個分布式的存儲系統(tǒng)來管理構(gòu)造了數(shù)據(jù)分布的多個商業(yè)服務(wù)器[89]之間的巨大。該系統(tǒng)是由Facebook成為發(fā)達一個開源工具,在2008。它所采用的思路和亞馬遜Dynamo和谷歌的BigTable的概念,發(fā)電機分布式系統(tǒng)技術(shù)與數(shù)據(jù)集成模型Bigtable特別厄爾尼諾。表在Cassandra是在分布式四維結(jié)構(gòu)圖的形式,其中的四個維度包括行、列、列族,和超柱。一排被區(qū)分一個任意長度的字符串鍵。無論是讀寫的列的量,行的操作是自動的。列可能構(gòu)成一個簇,這是所謂的列家庭,和類似于Bigtable的數(shù)據(jù)模型。Cassandra提供兩種列家庭:家庭和超柱柱。超級欄包括與相同名稱相關(guān)的任意數(shù)量的列。一列家族包括列和超級欄,可在運行時連續(xù)地插入到列族中。分區(qū)和復(fù)制機制卡桑德拉非常相似,對發(fā)電機,以實現(xiàn)一致性。-衍生工具就從Bigtable代碼不能通過開放源碼許可證獲得的,一些開源項目競爭實現(xiàn)Bigtable概念開發(fā)類似的系統(tǒng)女士,如HBase和Hypertable。HBase是BigTable的克隆版的程序,用java是Apache的HadoopMapReduce框架[90]的一部分。HBaseGFS和HDFS替換。它將最新的內(nèi)容寫入內(nèi)存,并定期更新在磁盤上的文件。行操作是原子操作,配有行級鎖和事務(wù)處理,這是大尺度的可選擇。分區(qū)和分布的透明操作,有客戶端散列或固定密鑰空間。Hypertable是開發(fā)類似于Bigtable獲得一套高性能、可擴展性、分布式存儲和處理結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)[91]系統(tǒng)。Hypertable是On分布式文件系統(tǒng)HDFS和分布式鎖管理器,例如。數(shù)據(jù)表示、處理、分配機制類似于Bigtable。Hypertable有自己的查詢語言,CAlledHypertable的查詢語言(HQL),并允許用戶創(chuàng)建、修改和查詢基礎(chǔ)表。由于列存儲數(shù)據(jù)庫主要模仿BigTable,他們的設(shè)計都是相似的,除了并發(fā)機制等幾個特點。例如,卡桑德拉強調(diào)弱一致性的多版本并發(fā)控制而HBase和Hypertable重點強一致性通過鎖和日志記錄。-文檔數(shù)據(jù)庫:關(guān)鍵值存儲相比,文件存儲可以支持更復(fù)雜的數(shù)據(jù)形式。由于文件不遵循嚴格的模式,沒有必要進行模式遷移。在此外,鍵-值對仍然可以保存。我們將檢查文件儲存系統(tǒng),即,MongoDB,SimpleDB的三重要的代表,與CouchDB。-MongoDB:MongoDB是開源的、面向文檔的數(shù)據(jù)庫[92]。MongoDB文檔存儲為二進制JSON對象(BSON)[93],這是類似的對象。每個文件都有一個標識字段作為公共關(guān)系關(guān)鍵的關(guān)鍵。在MongoDB查詢與綜合稅類似于JSON表示。一個數(shù)據(jù)庫驅(qū)動程序發(fā)送查詢?yōu)锽SON對象MongoDB。該系統(tǒng)可以查詢所有文件,包括嵌入式對象陣列和陣列。為了使快速查詢,索引可以在查詢字段創(chuàng)建文件。在MongoDB的復(fù)制操作可以執(zhí)行,支持所有H的主要節(jié)點的日志文件高水平的數(shù)據(jù)庫進行操作。在復(fù)制過程中,奴隸販子查詢所有寫操作自上次同步的掌握和執(zhí)行操作日志文件的地方數(shù)據(jù)庫。MongoDB支持橫向擴展自動共享分發(fā)了數(shù)千個節(jié)點之間數(shù)據(jù)的自動負載平衡和故障轉(zhuǎn)移。-SimpleDB:SimpleDB是一個分布式數(shù)據(jù)庫和亞馬遜Web服務(wù)[94]。數(shù)據(jù)被組織成各種SimpleDB的領(lǐng)域中,數(shù)據(jù)可以存儲、獲取和查詢。域包括不同的正確聯(lián)系和名稱/值對套的項目。數(shù)據(jù)復(fù)制到不同的機器上以不同的數(shù)據(jù)中心,保證數(shù)據(jù)的安全性和提高性能。這個系統(tǒng)不支持自動分區(qū),因此不能擴展數(shù)據(jù)量的變化。SimpleDB允許用戶查詢與SQL。值得注意的是,云計算可以保證最終一致性但不支持穆蒂版本的并發(fā)控制(MVCC)。因此,無法從客戶端檢測到?jīng)_突。功能,即地圖和減少,這兩者都是由用戶編程。圖函數(shù)處理輸入鍵-值對,并生成中間鍵-值對。然后,MapReduce將結(jié)合所有的T他中間值相同的密鑰相關(guān)的傳輸給reduce函數(shù),從而進一步壓縮到一個較小的值設(shè)置。MapReduce的優(yōu)點是,它避免了并發(fā)癥復(fù)雜的開發(fā)過程的并行應(yīng)用程序,例如,數(shù)據(jù)調(diào)度、容錯性和節(jié)點間通信。用戶只需要程序的兩個功能開發(fā)并行應(yīng)用-和灰。最初的MapReduce框架不支持多個數(shù)據(jù)集的一個任務(wù),這已經(jīng)被最近的一些增強功能[96]減輕,97。在過去的幾十年中,程序員都熟悉SQL的高級陳述性語言,通常用在關(guān)系數(shù)據(jù)庫中,對任務(wù)的描述和-CouchDB:ApacheCouchDB是一個文件的數(shù)據(jù)集分析。然而,簡潔的MapReduce面向?qū)ο髷?shù)據(jù)庫在Erlang編寫的[95]。數(shù)據(jù)在CouchDB組織成文件即場的鑰匙/名稱和值命名,這為JSON對象的存儲和訪問。每一個文件沒有提供一個唯一的標識符。CouchDB允許訪問數(shù)據(jù)庫文件通過RESTfulHTTPAPI。如果一個文件需要修改,客戶端必須下載整個文件里去修改它,然后將它發(fā)送回數(shù)據(jù)庫。在一個文檔重寫一次之后,該標識符將被更新。CouchDB采用最優(yōu)復(fù)制獲得scalabil性沒有共享機制機制。由于各種couchdbs會隨著其他交易同時執(zhí)行,任何一種復(fù)制拓撲可建。對CouchDB的一致性依賴于復(fù)制機制。CouchDB支持MVCC散列記錄歷史。大數(shù)據(jù)通常存儲在數(shù)百甚至你的商業(yè)服務(wù)器的沙子。因此,傳統(tǒng)的并行模型,如消息傳遞接口(MPI)和開放式多處理(OpenMP),可能不足以支持大規(guī)模并行程序。最近,一些提出的并行編程模型有效提高NoSQL性能、降低

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論