大數(shù)據(jù)將給我們帶來怎樣的變化_第1頁
大數(shù)據(jù)將給我們帶來怎樣的變化_第2頁
大數(shù)據(jù)將給我們帶來怎樣的變化_第3頁
大數(shù)據(jù)將給我們帶來怎樣的變化_第4頁
大數(shù)據(jù)將給我們帶來怎樣的變化_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)將給我們帶來怎樣的變化?摘要:我們都聽過這個預(yù)測:到2020年,電子數(shù)據(jù)存儲量將在2009年的基礎(chǔ)上增加44倍,達(dá)到35萬億GB。根據(jù)IDC數(shù)據(jù)顯示,截止到2010年,這個數(shù)字已經(jīng)達(dá)到了120萬PB,或1.2ZB。標(biāo)簽:大數(shù)據(jù)我們都聽過這個預(yù)測:到2020年,電子數(shù)據(jù)存儲量將在2009年的基礎(chǔ)上增加44倍,達(dá)到35萬億GB。根據(jù)IDC數(shù)據(jù)顯示,截止到2010年,這個數(shù)字已經(jīng)達(dá)到了120萬PB,或1.2ZB。如果把所有這些數(shù)據(jù)都存入DVD光盤,光盤高度將等同于從地球到月球的一個來回——也就是大約480,000英里。對于那些喜歡杞人憂天的人來說,這是數(shù)據(jù)存儲的末日即將到來的不祥預(yù)兆。而對于機(jī)會主義者們而言,這就好比是個信息金礦,隨著技術(shù)的進(jìn)步,金礦開采會變得越來越容易。走進(jìn)大數(shù)據(jù)--一種新興的數(shù)據(jù)挖掘技術(shù),它正在讓數(shù)據(jù)處理和分析變得更便宜更快速。大數(shù)據(jù)技術(shù)一旦進(jìn)入超級計算時代,很快便可應(yīng)用于普通企業(yè),在遍地開花的過程中,它將改變許多行業(yè)業(yè)務(wù)經(jīng)營的模式。在計算機(jī)世界里,大數(shù)據(jù)被定義為一種使用非傳統(tǒng)的數(shù)據(jù)過濾工具,對大量有序或無序數(shù)據(jù)集合進(jìn)行的挖掘過程,它包括但不僅限于分布式計算(Hadoop)。大數(shù)據(jù)已經(jīng)站在了數(shù)據(jù)存儲宣傳的風(fēng)口浪尖,也存在著大量不確定因素,這點上非常像“云”。我們請教了一些分析人士和大數(shù)據(jù)愛好者,請他們解釋一下大數(shù)據(jù)究竟是什么,以及它對于未來數(shù)據(jù)存儲的意義。大數(shù)據(jù)走進(jìn)歷史舞臺適用于企業(yè)的大數(shù)據(jù)已經(jīng)出現(xiàn),這在部分程度上要歸功于計算能耗的降低以及系統(tǒng)已具備執(zhí)行多重處理的能力這樣一個事實。而且隨著主存儲器成本的不斷下降,和過去相比,公司可以將更多的數(shù)據(jù)存到存儲器中。并且,將多臺計算機(jī)連到服務(wù)器集群也變得更容易了。這三個變化加在一起成就了大數(shù)據(jù),IDC數(shù)據(jù)庫管理分析師CarlOlofson如是說。“我們不僅要把這些事情做好,還要能承受得起相應(yīng)的開支”,他說。“過去的某些超級計算機(jī)也具有執(zhí)行系統(tǒng)多重處理的能力,(這些系統(tǒng)緊密相連,形成了一個集群)但因為要使用專門的硬件,它的成本高達(dá)幾十萬美元甚至更多?!爆F(xiàn)在我們可以使用普通硬件完成相同的配置。正因為這樣,我們能更快更省得處理更多數(shù)據(jù)。"大數(shù)據(jù)技術(shù)還沒有在有大型數(shù)據(jù)倉庫的公司中得到廣泛普及。IDC認(rèn)為,想讓大數(shù)據(jù)技術(shù)得到認(rèn)可,首先技術(shù)本身一定要足夠便宜,然后,必須滿足IBM稱之為3V標(biāo)準(zhǔn)中的2V,即:類型(variety),量(volume)和速度(velocity)。種類要求指的是待存儲數(shù)據(jù)的類型分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。量是指存儲和分析的數(shù)據(jù)量可以很龐大?!皵?shù)據(jù)量不只是幾百TB,”O(jiān)lofson說:“要視具體情況而定,因為速度和時間的關(guān)系,有時幾百GB可能就算很多了。如果我現(xiàn)在一秒能完成過去要花一小時才能完成的300GB的數(shù)據(jù)分析,那結(jié)果將大為不同。大數(shù)據(jù)就是這樣一種技術(shù),它可以滿足這三個要求中的至少兩個,并且普通企業(yè)也能夠部署?!标P(guān)于大數(shù)據(jù)的三大誤解對于大數(shù)據(jù)是什么以及大數(shù)據(jù)能干什么存在很多誤會。下面就是有關(guān)大數(shù)據(jù)的三個誤解:1、關(guān)系數(shù)據(jù)庫無法大幅增容,因此不能被認(rèn)為是大數(shù)據(jù)技術(shù)(不對)2、無需考慮工作負(fù)載或具體使用情況,Hadoop或以此類推的任何MapReduce都是大數(shù)據(jù)的最佳選擇。(也不對)3、圖解式管理系統(tǒng)時代已經(jīng)結(jié)束。圖解的發(fā)展只會成為大數(shù)據(jù)應(yīng)用的攔路虎。(可笑的錯誤)大數(shù)據(jù)與開源的關(guān)系“很多人認(rèn)為Hadoop和大數(shù)據(jù)基本上是一個意思。這是錯誤的,”O(jiān)lofson說。并解釋道:Teradata,MySQL和“智能聚合技術(shù)”的某些安裝啟用都用不到Hadoop,但它們也可以被認(rèn)為是大數(shù)據(jù)。Hadoop是一種用于大數(shù)據(jù)的應(yīng)用程序,因為它是建立在MapReduce基礎(chǔ)上的,所以引起了極大的關(guān)注。(MapReduce是一種用于超級計算的普通方法,之后經(jīng)過了主要由Google資助的一個項目的優(yōu)化,因此被簡化并變得考究了。)Hadoop是幾個緊密關(guān)聯(lián)的Apache項目組成的混合體的主要安裝啟用程序,其中包括MapReduce環(huán)境中的HBase數(shù)據(jù)庫。為了充分利用Hadoop和類似的先進(jìn)技術(shù),軟件開發(fā)商們絞盡腦汁研發(fā)出了各種各樣的技術(shù),其中很多都是在開源社區(qū)里開發(fā)出來的。Olofson說“他們已經(jīng)開發(fā)出了大量的所謂noSQL數(shù)據(jù)庫,種類之多讓人眼花繚亂,其中大部分都是鍵值配對數(shù)據(jù)庫,能利用多種技術(shù)對性能或種類或容量進(jìn)行優(yōu)化?!遍_源技術(shù)還沒有得到商業(yè)支持?!八栽谶@方面還需要經(jīng)過一段時間的發(fā)展完善,這一過程可能需要幾年。基于這個原因,大數(shù)據(jù)可能需要一些時日才能在市場上走向成熟”他補(bǔ)充道。據(jù)IDC預(yù)計,年內(nèi)至少有三家商業(yè)公司能以某種方式給予Hadoop支持

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論