第1章大數(shù)據(jù)的起源和發(fā)展_第1頁
第1章大數(shù)據(jù)的起源和發(fā)展_第2頁
第1章大數(shù)據(jù)的起源和發(fā)展_第3頁
第1章大數(shù)據(jù)的起源和發(fā)展_第4頁
第1章大數(shù)據(jù)的起源和發(fā)展_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第1章大數(shù)據(jù)的起源和發(fā)展起源和發(fā)展大數(shù)據(jù)特征2大數(shù)據(jù)構(gòu)成3大數(shù)據(jù)起源及定義1大數(shù)據(jù)面臨的機(jī)遇和挑戰(zhàn)41.1大數(shù)據(jù)起源及定義1.大數(shù)據(jù)起源

半個(gè)世紀(jì)以來,隨著計(jì)算機(jī)技術(shù)全面融入社會(huì)生活,信息爆炸已經(jīng)積累到了一個(gè)開始引發(fā)變革的程度。它不僅使世界充斥著比以往更多的信息,而且其增長(zhǎng)速度也在加快?;ヂ?lián)網(wǎng)(社交、搜索、電商)、移動(dòng)互聯(lián)網(wǎng)(微博)、物聯(lián)網(wǎng)(傳感器,智慧地球)、車聯(lián)網(wǎng)、GPS、醫(yī)學(xué)影像、安全監(jiān)控、金融(銀行、股市、保險(xiǎn))、電信(通話、短信)都在瘋狂產(chǎn)生著數(shù)據(jù)。全球每秒鐘發(fā)送2.9百萬封電子郵件,一分鐘讀一篇的話,足夠一個(gè)人晝夜不息的讀5.5年…每天會(huì)有2.88萬個(gè)小時(shí)的視頻上傳到Y(jié)outube,足夠一個(gè)人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬條消息,假設(shè)10秒鐘瀏覽一條信息,這些消息足夠一個(gè)人晝夜不息的瀏覽16年…每天亞馬遜上將產(chǎn)生6.3百萬筆訂單…每個(gè)月網(wǎng)民在Facebook上要花費(fèi)7千億分鐘,被移動(dòng)互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)1.3EB…Google上每天需要處理24PB的數(shù)據(jù)…數(shù)據(jù)量增加TBPBZBEB根據(jù)IDC監(jiān)測(cè),人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長(zhǎng),大約每?jī)赡攴环?,這個(gè)速度在2020年之前會(huì)繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長(zhǎng)這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇大數(shù)據(jù)時(shí)代正在來臨…1.大數(shù)據(jù)起源20世紀(jì)90年代,數(shù)據(jù)倉庫之父的BillInmon就經(jīng)常提及BigData。2011年5月,在“云計(jì)算相遇大數(shù)據(jù)”為主題的EMCWorld2011會(huì)議中,EMC拋出了BigData概念。1.大數(shù)據(jù)起源2.大數(shù)據(jù)在計(jì)算機(jī)科學(xué)中處于最前沿定義一:大數(shù)據(jù)指的是那些大小超過標(biāo)準(zhǔn)數(shù)據(jù)庫工具軟件能夠收集、存儲(chǔ)、管理和分析的數(shù)據(jù)集。——摘自麥肯錫

定義二:在信息技術(shù)中,“大數(shù)據(jù)”是指一些使用目前現(xiàn)有數(shù)據(jù)庫管理工具或傳統(tǒng)數(shù)據(jù)處理應(yīng)用很難處理的大型而復(fù)雜的數(shù)據(jù)集。其挑戰(zhàn)包括采集、管理、存儲(chǔ)、搜索、共享、分析和可視化。

——摘自WIKI定義三:"大數(shù)據(jù)"是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看,"大數(shù)據(jù)"指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶采用非傳統(tǒng)處理方法的數(shù)據(jù)集?!訥artner定義四:大數(shù)據(jù)本質(zhì)上是數(shù)據(jù)交叉、方法交叉、知識(shí)交叉、領(lǐng)域交叉、學(xué)科交叉,從而產(chǎn)生新的科學(xué)研究方法、新的管理決策方法、新的經(jīng)濟(jì)增長(zhǎng)方式、新的社會(huì)發(fā)展方式等等。

——摘自復(fù)旦大學(xué)朱揚(yáng)勇教授3.大數(shù)據(jù)定義1.2大數(shù)據(jù)特征大數(shù)據(jù)的4V特征大體量(Volume)、多樣性(Variety)、快速化(Velocity)、價(jià)值密度低(Value)”就是“大數(shù)據(jù)”的顯著特征,簡(jiǎn)稱4V特征。大體量(Volume)數(shù)據(jù)基本單位換算:1B(byte字節(jié))=8b(bit位)1KB(Kilobyte千字節(jié))=1024B1MB(Megabyte,簡(jiǎn)稱“兆”)=1024KB1GB(Gigabyte,

簡(jiǎn)稱“吉”,又稱“千兆”)=1024MB1TB(Trillionbyte,簡(jiǎn)稱“太”)=1024GB≈10^3GB1PB(Petabyte,簡(jiǎn)稱“拍”字節(jié))=1024TB≈10^6GB1EB(Exabyte,簡(jiǎn)稱“艾”字節(jié))=1024PB≈10^9GB1ZB(Zettabyte,簡(jiǎn)稱“澤”字節(jié))=1024EB≈10^12GB大體量(Volume)在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個(gè)數(shù)字達(dá)到了1.8ZB。而根據(jù)知名市場(chǎng)研究機(jī)構(gòu)IDC的預(yù)測(cè),到2020年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB(1ZB=10億TB)。多樣性(Variety)互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、車聯(lián)網(wǎng)等等各種數(shù)據(jù)來源大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)更加多樣化:圖像、視頻、微博評(píng)價(jià)、郵件PDF、office文檔(word,excel,ppt)手機(jī)呼叫、短信網(wǎng)頁點(diǎn)擊搜索(html,搜索行為)地圖gps……非結(jié)構(gòu)化數(shù)據(jù)增長(zhǎng)率就達(dá)80%,而傳統(tǒng)的數(shù)據(jù)樣式:多半是數(shù)據(jù)庫表和xml??焖倩?Velocity)每秒鐘,人們發(fā)送290封電子郵件;每分鐘人們?cè)趛outube上傳20小時(shí)的視頻;人們每月在總共在facebook上瀏覽7000億分鐘;移動(dòng)互聯(lián)網(wǎng)網(wǎng)用戶發(fā)送和上傳的數(shù)據(jù)量達(dá)到1.3exabytes,相當(dāng)于10的18次方;每秒淘寶商城成交178筆訂單……實(shí)時(shí)股票分析(過期無用)實(shí)時(shí)路況信息(過期無用)……數(shù)據(jù)的快速產(chǎn)生和實(shí)時(shí)響應(yīng)是一大特征價(jià)值密度低(Value)挖掘大數(shù)據(jù)的價(jià)值類似沙里淘金比如用戶評(píng)價(jià)分析,幾百萬的評(píng)價(jià)記錄,真正有借鑒意義的就幾句比如視頻監(jiān)控,每天產(chǎn)生24小時(shí)的視頻數(shù)據(jù),真正有價(jià)值的就幾秒鐘。1.3大數(shù)據(jù)的構(gòu)成大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型的數(shù)據(jù)大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集大數(shù)據(jù)的構(gòu)成海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了解過去發(fā)生了什么。海量交互數(shù)據(jù):源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸ManageFileTransfer協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等。可以告訴我們未來會(huì)發(fā)生什么。海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運(yùn)行的ApacheHadoop。1.4大數(shù)據(jù)面臨的機(jī)遇和挑戰(zhàn)機(jī)遇一:如何使用數(shù)據(jù)資產(chǎn)?包括個(gè)人信息、消費(fèi)記錄在內(nèi)的海量數(shù)據(jù)當(dāng)中,蘊(yùn)含著大量有價(jià)值的信息,可以為企業(yè)經(jīng)營、管理提供參考互聯(lián)網(wǎng)最為本質(zhì)的一點(diǎn),就是網(wǎng)民真實(shí)的展示了個(gè)人的想法,并能迅速為人所知。心理學(xué)家說人類的細(xì)微行為,直接暴露內(nèi)心的想法。挖出真正有價(jià)值的“鉆石”——數(shù)據(jù)挖掘和預(yù)測(cè)性分析,成為了決定組織在新時(shí)代成敗的關(guān)鍵如何盤活數(shù)據(jù)資產(chǎn),使其為國家治理、企業(yè)決策乃至個(gè)人生活服務(wù),是“大數(shù)據(jù)”時(shí)代的核心問題機(jī)遇二:大數(shù)據(jù)賦予我們洞察未來的能力?馬云成功預(yù)測(cè)2008年經(jīng)濟(jì)危機(jī)“2008年初,阿里巴巴平臺(tái)上整個(gè)買家詢盤數(shù)急劇下滑,歐美對(duì)中國采購在下滑。海關(guān)是賣了貨,出去以后再獲得數(shù)據(jù);而我們提前半年時(shí)間從詢盤上推斷大數(shù)據(jù)帶來的機(jī)遇判斷出世界貿(mào)易發(fā)生變化了。”挑戰(zhàn)一:大數(shù)據(jù)中有用信息的準(zhǔn)確提取數(shù)據(jù)收集(1)利用大數(shù)據(jù)的開放性,全面收集各種多源異構(gòu)數(shù)據(jù)集;(2)從數(shù)據(jù)質(zhì)量角度分析數(shù)據(jù)源的準(zhǔn)確性、一致性、及時(shí)性、相關(guān)性等特性,以獲取高質(zhì)量的數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)(1)用冗余配置、分布化和云計(jì)算技術(shù)對(duì)數(shù)據(jù)進(jìn)行預(yù)處理;(2)存儲(chǔ)時(shí)對(duì)數(shù)據(jù)進(jìn)行分類,通過過濾和去重,減少存儲(chǔ)量,并加入便于檢索的標(biāo)簽。數(shù)據(jù)處理

大數(shù)據(jù)的復(fù)雜性使得難以用傳統(tǒng)的方法描述與度量,需要將高維圖像等多媒體數(shù)據(jù)降維后度量與處理,利用上下文關(guān)聯(lián)進(jìn)行語義分析,從大量動(dòng)態(tài)及可能模棱兩可的數(shù)據(jù)中綜合信息,并導(dǎo)出可理解的內(nèi)容??梢暬尸F(xiàn)

(1)可視化目的是使結(jié)果更直觀以便于洞察。(2)目前計(jì)算機(jī)只能針對(duì)小規(guī)模、結(jié)構(gòu)化或類結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析,無法深層次數(shù)據(jù)挖掘。(3)現(xiàn)有的數(shù)據(jù)挖掘算法在不同行業(yè)中難以通用。挑戰(zhàn)二:大數(shù)據(jù)的信息安全隱私泄露風(fēng)險(xiǎn)加?。?)大量數(shù)據(jù)的集中存儲(chǔ)增加了其泄露的風(fēng)險(xiǎn);(2)一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)并沒有清晰界定?,F(xiàn)有存儲(chǔ)與安防措施帶考驗(yàn)(1)復(fù)雜的數(shù)據(jù)存儲(chǔ)在一起,可能造成企業(yè)安全管理不合規(guī);(2)安全防護(hù)手段更新升級(jí)慢,存在漏洞。數(shù)據(jù)本身成為攻擊手段(1)黑客可收集更多有用信息,大數(shù)據(jù)分析讓攻擊更精準(zhǔn);(2)大數(shù)據(jù)為黑客發(fā)起攻擊提供了更多機(jī)會(huì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論