大數(shù)據(jù)技術(shù)概述_第1頁
大數(shù)據(jù)技術(shù)概述_第2頁
大數(shù)據(jù)技術(shù)概述_第3頁
大數(shù)據(jù)技術(shù)概述_第4頁
大數(shù)據(jù)技術(shù)概述_第5頁
已閱讀5頁,還剩8頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)概述數(shù)據(jù)世界的本質(zhì)是數(shù)據(jù)!

--維克托·邁爾-舍恩伯格維克托·邁爾-舍恩伯格維克托·邁爾-舍恩伯格是十余年潛心研究數(shù)據(jù)科學(xué)的技術(shù)權(quán)威,是最早洞見大數(shù)據(jù)時代發(fā)展趨勢的數(shù)據(jù)科學(xué)家之一,也是最受人尊敬的權(quán)威發(fā)言人之一。文本圖像聲音視頻動畫……數(shù)據(jù)我們周圍到底有多少數(shù)據(jù)?增長的速度有多快?我國網(wǎng)民數(shù)量居世界之首,每天產(chǎn)生的數(shù)據(jù)量也位于世界前列。單日數(shù)據(jù)產(chǎn)生量超過5萬GB存儲量4000萬GB淘寶網(wǎng)站目前數(shù)據(jù)總量10億GB存儲網(wǎng)頁1萬億頁每天大約要處理60億次搜索請求百度公司身邊的數(shù)據(jù)我們周圍到底有多少數(shù)據(jù)?增長的速度有多快?我國網(wǎng)民數(shù)量居世界之首,每天產(chǎn)生的數(shù)據(jù)量也位于世界前列。一個小時能產(chǎn)生3.6GB的數(shù)據(jù)一個城市每月產(chǎn)生的數(shù)據(jù)達上千萬GB一個8Mbps的攝像頭一個病人的CT影像數(shù)據(jù)量達幾十GB全國每年需保存的數(shù)據(jù)達上百億GB醫(yī)院身邊的數(shù)據(jù)身邊的數(shù)據(jù)全球:35ZB(2020)百度:74PB、8PB阿里:60PB,7.2PB騰訊:100PB,4PB需永久存儲的數(shù)據(jù)量每天高峰處理的數(shù)據(jù)量數(shù)據(jù)單位單位等價關(guān)系1Byte8bit1KB1024Byte1MB1024KB1GB1024MB1TB1024GB1PB1024TB單位等價關(guān)系1EB1024PB1ZB1024EB1YB1024ZB1BB1024YB1NB1024BB1DB1024NB目前的大數(shù)據(jù)應(yīng)用,數(shù)據(jù)量主要集中在PB/EB/ZB級別大數(shù)據(jù)據(jù)IDC發(fā)布《數(shù)據(jù)時代2025》的報告顯示,全球每年產(chǎn)生的數(shù)據(jù)將從2018年的33ZB增長到175ZB,相當(dāng)于每天產(chǎn)生491EB的數(shù)據(jù)。175ZB的數(shù)據(jù)到底有多大呢?1ZB相當(dāng)于1.1萬億GB。如果把175ZB全部存在DVD光盤中,那么DVD疊加起來的高度將是地球和月球距離的23倍(月地最近距離約39.3萬公里),或者繞地球222圈(一圈約為四萬公里)。如果平均網(wǎng)速為25Mb/秒,一個人要下載完這175ZB的數(shù)據(jù),需要18億年。大數(shù)據(jù)大數(shù)據(jù)或稱海量數(shù)據(jù),是指涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理并處理成為幫助用戶經(jīng)營決策更積極目的的信息。大數(shù)據(jù)是一個體量和數(shù)據(jù)類別特別大的數(shù)據(jù)集,無法用傳統(tǒng)數(shù)據(jù)庫工具對其內(nèi)容進行抓取、管理和處理。大數(shù)據(jù)本質(zhì)上和傳統(tǒng)的數(shù)據(jù)本無差異,他們大多是結(jié)構(gòu)化、半結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)。只是因為他們的數(shù)量級增長太快,我們需要用全新的方式來計算這些數(shù)據(jù)。大數(shù)據(jù)大數(shù)據(jù)(bigdata),是指無法在一定時間內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,因此需要新的處理模式,該處理模式就是大數(shù)據(jù).單機計算模式和傳統(tǒng)的數(shù)據(jù)分析算法①采用集群的方法來獲取強大的數(shù)據(jù)分析能力;②研究面向大數(shù)據(jù)的新的數(shù)據(jù)分析算法大數(shù)據(jù)的特點大數(shù)據(jù)1.Volume2.

Variety3.Varacity4.Velocity結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)如今的數(shù)據(jù)類型早已不是單一的文本形式,訂單、日志、音頻,能力提出了更高的要求沙里淘金,價值密度低以視頻為例,一部一小時的視頻,在連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”是目前大數(shù)據(jù)洶涌背景下亟待解決的難題實時獲取需要的信息大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)最顯著的特征。如今已是ZB時代,在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命數(shù)據(jù)量巨大全球在2010年正式進入ZB時代,IDC預(yù)計到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量大數(shù)據(jù)解決什么問題?大數(shù)據(jù)云計算是硬件資源的虛擬化,而大數(shù)據(jù)是海量數(shù)據(jù)的高效處理。大數(shù)據(jù)著眼于數(shù)據(jù),云計算著眼于計算,數(shù)據(jù)是計算的對象。大數(shù)據(jù)的總體架構(gòu)包括三層:數(shù)據(jù)存儲,數(shù)據(jù)處理和數(shù)據(jù)分析。分布式數(shù)據(jù)挖掘分布式處理分布式數(shù)據(jù)庫云存儲虛擬化如:Mahout如:MapReduc

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論