版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
大數(shù)據(jù)技術–導論周可k.zhou@華中科技大學1內(nèi)容什么是大數(shù)據(jù)研究背景深入思考23什么是大數(shù)據(jù)定義1:
大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進行抓取、管理和處理的數(shù)據(jù)集合(維基百科定義)Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.---Wiki4什么是大數(shù)據(jù)定義2:3VBigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization--Gartner
大數(shù)據(jù)的4V特性VolumeVolumeVarietyVolume模態(tài)多樣VeracityVolume真?zhèn)坞y辨VelocityVolume速度極快體量巨大文本視頻圖片音頻到2020年,數(shù)據(jù)總量達40ZB,人均5.2TB分享的內(nèi)容條目超過25億個/天,增加數(shù)據(jù)超過500TB/天5大數(shù)據(jù)及其4V特征海量數(shù)據(jù)規(guī)模(volume):TB級PB級快速處理(velocity):快速數(shù)據(jù)流轉(zhuǎn)和動態(tài)數(shù)據(jù)體系多樣數(shù)據(jù)類型(variety):數(shù)據(jù)類型繁雜巨大數(shù)據(jù)價值(value):價值稀疏、多樣、不確定值得關注的大數(shù)據(jù)的若干研究方向分布式數(shù)據(jù)存儲與管理:對大數(shù)據(jù)進行存儲與管理數(shù)據(jù)挖掘與商務智能:對大數(shù)據(jù)規(guī)律進行挖掘與發(fā)現(xiàn)物聯(lián)網(wǎng)與CPS:產(chǎn)生與形成大數(shù)據(jù)云計算及服務平臺:存儲和處理大數(shù)據(jù)及其業(yè)務關注點:海量數(shù)據(jù)處理=>分布式存儲與管理=>云計算=>
數(shù)據(jù)挖掘與分析=>海量業(yè)務處理=>大服務7什么是大數(shù)據(jù)定義3:
當數(shù)據(jù)的規(guī)模和性能要求成為數(shù)據(jù)管理分析系統(tǒng)的重要設計和決定因素時,這樣的數(shù)據(jù)就被稱為大數(shù)據(jù)不是簡單地以數(shù)據(jù)規(guī)模來界定大數(shù)據(jù),要考慮數(shù)據(jù)查詢與分析的復雜程度以目前計算機硬件的發(fā)展水平看針對簡單查詢(如關鍵字搜索),數(shù)據(jù)量為TB至PB級時可稱為大數(shù)據(jù)針對復雜查詢(如數(shù)據(jù)挖掘),數(shù)據(jù)量為GB至TB級時即可稱為大數(shù)據(jù)8什么是大數(shù)據(jù)定義4:
大數(shù)據(jù)有兩個基本特征不同于傳統(tǒng)的數(shù)據(jù)集:
1.大數(shù)據(jù)不一定存儲于固定的數(shù)據(jù)庫,而是分布在不同地方的網(wǎng)絡空間
2.大數(shù)據(jù)以半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)為主,具有較高的復雜性。內(nèi)容什么是大數(shù)據(jù)研究背景深入思考9克強指數(shù)(Likeqiangindex):耗電量鐵路貨運量銀行貸款發(fā)放量英國著名政經(jīng)雜志《經(jīng)濟學人》認為:克強指數(shù)比官方GDP數(shù)字更能反映中國經(jīng)濟的現(xiàn)實狀況?;ㄆ煦y行在編制時將各自權(quán)重分別設定為40%、25%和35%。12大數(shù)據(jù)涉及諸多不同的領域
用戶生成數(shù)據(jù)DeepWeb數(shù)據(jù)多模態(tài)內(nèi)容數(shù)據(jù)天文氣象基因醫(yī)學經(jīng)濟物理其他領域網(wǎng)絡與關系數(shù)據(jù)13大數(shù)據(jù)的價值科研價值1998年圖靈獎得主、數(shù)據(jù)庫技術奠基人JimGray認為數(shù)據(jù)驅(qū)動的研究將是第四種科學研究范式”TheFourthParadigm:Data-IntensiveScientificDiscovery”大數(shù)據(jù)已為多個不同學科的研究工作提供了寶貴機遇經(jīng)濟價值麥肯錫全球研究院:大數(shù)據(jù)可為世界經(jīng)濟創(chuàng)造巨大價值,提高企業(yè)和公共部門的生產(chǎn)率和競爭力,并為消費者創(chuàng)造巨大的經(jīng)濟利益著名Gartner公司:到2015年,采用大數(shù)據(jù)和海量信息管理的公司將在各項財務指標上,超過未做準備的競爭對手20%工業(yè)價值分析使用:揭示隱藏其中的信息,例如零售業(yè)中對門店銷售、地理和社會信息的分析能提升對客戶的理解二次開發(fā):創(chuàng)造出新產(chǎn)品和服務。例如Facebook通過結(jié)合大量用戶信息,定制出高度個性化的用戶體驗,并創(chuàng)造出一種新的廣告模式社會價值例如:2009年淘寶網(wǎng)推出淘寶CPI來反映網(wǎng)絡購物的消費趨勢和價格動態(tài)其他價值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名出版公司O‘Reilly的創(chuàng)始人TimO‘Reilly深網(wǎng)挖掘深空探索2012年我國神州九號進入太空深海探測2012年我國蛟龍?zhí)柼綔y水下7000米實現(xiàn)大數(shù)據(jù)價值的
深度挖據(jù)和高度利用!大數(shù)據(jù)的戰(zhàn)略意義大數(shù)據(jù)的深度資源挖掘與價值利用是國家戰(zhàn)略從深空
+
深海深網(wǎng)14大數(shù)據(jù)的現(xiàn)實需求:感知現(xiàn)在15感知現(xiàn)在:歷史數(shù)據(jù)與當前數(shù)據(jù)的融合,潛在線索與模式的挖掘,
事件、群體與社會發(fā)展狀態(tài)的感知中國發(fā)展指數(shù)(物價、環(huán)境、健康)需求:掌握現(xiàn)狀,如淘寶CPI、環(huán)境指數(shù)難點:PB級社會媒體數(shù)據(jù),百億級日志數(shù)據(jù),結(jié)構(gòu)與非結(jié)構(gòu)數(shù)據(jù)關聯(lián),歷史與流式數(shù)據(jù)并存犯罪線索挖掘需求:發(fā)現(xiàn)線索,如罪犯行為軌跡難點:PB級日志數(shù)據(jù)、EB級監(jiān)控數(shù)據(jù)中發(fā)現(xiàn)嫌疑人及其行為模式猶如大海撈針問題與挑戰(zhàn):數(shù)據(jù)規(guī)模巨大、模態(tài)多樣、關聯(lián)復雜、真?zhèn)坞y辨
現(xiàn)有數(shù)據(jù)處理方法感知度量難、特征融合難、模式挖掘難15大數(shù)據(jù)的現(xiàn)實需求:預測未來聯(lián)合國“全球脈動”(GlobalPulse):利用網(wǎng)絡大數(shù)據(jù)預測失業(yè)率與疾病爆發(fā)等現(xiàn)象,利用數(shù)字化的早期預警信號來提前指導援助項目。問題與挑戰(zhàn):數(shù)據(jù)交互性強、實時性強、動態(tài)演變,導致傳統(tǒng)數(shù)據(jù)計算方法:
數(shù)據(jù)生命周期的割裂、時效性與準確性難以兼顧、演變趨勢難以預測基于Twitter數(shù)據(jù)的選舉結(jié)果預測:通過對Twitter等網(wǎng)上公開數(shù)據(jù)的實時感知、動態(tài)獲取與綜合分析,結(jié)合仿真調(diào)控,預測大選結(jié)果。預測未來:全量數(shù)據(jù)、流式數(shù)據(jù)、離線數(shù)據(jù)的關聯(lián)分析,態(tài)勢與效應的判定與調(diào)控,揭示事物發(fā)展的演變規(guī)律,進而對事物發(fā)展趨勢進行預測1617美國的大數(shù)據(jù)規(guī)劃-大數(shù)據(jù)上升為國家意志2012年3月29日,美國聯(lián)邦政府整合6個部門宣布2億美元的“BigDataResearchandDevelopmentInitiative”促進采集、存儲、維護、管理、分析和共享海量數(shù)據(jù)的核心技術;利用以上技術來加速科學與工程發(fā)現(xiàn)的步伐,強化國家安全,改變教育和學習;培養(yǎng)開發(fā)和使用大數(shù)據(jù)技術的人力資源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA18歐盟的大數(shù)據(jù)規(guī)劃-基礎設施是先導Horizon2020-TheFrameworkProgrammeforResearchandInnovation面向大數(shù)據(jù)的數(shù)據(jù)信息化基礎設施(E-Infrastructure)是優(yōu)先資助領域GRDI2020-GlobalResearchDataInfrastructures建立針對科研大數(shù)據(jù)的基礎設施,實現(xiàn)數(shù)據(jù)管理系統(tǒng)、數(shù)字數(shù)據(jù)圖書館、研究圖書館、數(shù)據(jù)工具和研究團體的整合FP7Call8IntelligentInformationManagement-BigData預算5千萬歐元,2012-1-17截止目標:提升發(fā)現(xiàn)、分析、開采、使用大數(shù)據(jù)及其基礎設施的能力通過對大數(shù)據(jù)收集與分析創(chuàng)造更大價值探索基于大規(guī)模互聯(lián)數(shù)據(jù)資源與專用基礎設施的新型科學研究面向大數(shù)據(jù)的人力資源開發(fā)19學術界對大數(shù)據(jù)的關注2012年1月,NaturePhysics上出版專刊“Complexity”特別指出大數(shù)據(jù)為科學研究,特別是復雜性科學的研究提供了史無前例的機遇2008年,Nature出版??癇igData”從互聯(lián)網(wǎng)技術、互聯(lián)網(wǎng)經(jīng)濟學、超級計算、環(huán)境科學、生物醫(yī)藥等多個方面介紹了大數(shù)據(jù)所帶來的技術挑戰(zhàn)2011年,Science刊登??癉ealingwithData”討論了數(shù)據(jù)洪流(Datadeluge)所帶來的挑戰(zhàn),也特別指出倘若能夠更有效地組織和使用這些數(shù)據(jù),人們將得到更多的機會發(fā)揮科學技術對社會發(fā)展的巨大推動作用2012年4月,歐洲信息學與數(shù)學研究協(xié)會會刊ERCIMNews上出版??癇igData”討論了大數(shù)據(jù)時代的數(shù)據(jù)管理、數(shù)據(jù)密集型研究的創(chuàng)新數(shù)據(jù)庫技術等問題,并介紹了歐洲科研機構(gòu)開展的研究活動和取得的創(chuàng)新性進展20大數(shù)據(jù)會議/WorkshopBDA:InternationalConferenceonBigDataAnalyticshttp://cs.du.ac.in/BDA2012/bda12.html2012:12月24-26日,印度;第1屆BigMine:WorkshoponBigData,StreamsandHeterogeneousSourceMining:Algorithms,Systems,ProgrammingModelsandApplications/2012:與SIGKDD合辦;8月12日,北京;第1屆BigDataEurope系列會議/展示大數(shù)據(jù)實踐與方案;加強業(yè)界人員交流2012:
Zurich,Vienna,Paris,Frankfurt,London2013:Stockholm,Warsaw,IstanbulBigDataAnalytics2012http://www.whitehallmedia.co.uk/bda/6月20日,倫敦學術會議工業(yè)會議內(nèi)容什么是大數(shù)據(jù)研究背景深入思考2224大數(shù)據(jù)總量增長態(tài)勢25目前大數(shù)據(jù)的規(guī)模IDC公司發(fā)布的數(shù)字宇宙研究報告稱:全球信息總量每兩年就會增長一倍,2011年全球被創(chuàng)建和被復制的數(shù)據(jù)總量為1.8ZB(1021)。IDC認為,到下一個十年(2020年),全球所有IT部門擁有服務器的總量將會比現(xiàn)在多出10倍,所管理的數(shù)據(jù)將會比現(xiàn)在多出50倍。預計到2020年,全球?qū)⒖偣矒碛?5ZB的數(shù)據(jù)量2011年企業(yè)創(chuàng)造、采集、管理和儲存信息的成本已經(jīng)下降到2005年的1/6,而同期企業(yè)關于數(shù)據(jù)的總投資自2005年以來卻反而上升了50%。數(shù)據(jù)成本的下降助推了數(shù)據(jù)量的增長,而新的數(shù)據(jù)源和數(shù)據(jù)采集技術的出現(xiàn)則大大增加了未來數(shù)據(jù)的類型,數(shù)據(jù)類型的增加導致現(xiàn)有數(shù)據(jù)空間維度增加,極大地增加了未來大數(shù)據(jù)的復雜度。26目前大數(shù)據(jù)規(guī)模─示例天文觀測數(shù)據(jù):SloanDigitalSkySurvey:2000年部署幾周收集的數(shù)據(jù)比歷史上收集的數(shù)據(jù)還多每晚收集200G的數(shù)據(jù),已收集了140TB=1.4x105GB的數(shù)據(jù)LargeSynopticSurveyTelescope:2016年完成部署每5天可收集105GB的數(shù)據(jù)物理實驗數(shù)據(jù):LargeHadronCollider:2010年一年產(chǎn)生13PB=1.3x107GB數(shù)據(jù)互聯(lián)網(wǎng)數(shù)據(jù):Facebook:用戶超7億,每月上傳10億照片,每天生成3x105GB日志數(shù)據(jù)淘寶:有3.7億會員,在線商品8.8億,每天交易數(shù)千萬,產(chǎn)生2x104GB數(shù)據(jù)IBM估計:全球每天生成2.5EB=2.5x109GB數(shù)據(jù),90%的已有數(shù)據(jù)是過去兩年生成的Cisco預測:到2013年,互聯(lián)網(wǎng)上的數(shù)據(jù)將達到667EB=6.67x1011GB27收集的數(shù)據(jù)還沒有實現(xiàn)高度共享和深度利用
2.超大規(guī)模:為保證可靠性,需要存儲數(shù)據(jù)副本,實際存儲的數(shù)據(jù)量數(shù)倍于凈數(shù)據(jù)量
3.時空屬性:包含時間與位置信息
4.模糊高維:數(shù)據(jù)未必精確和完整:傳感器誤差,網(wǎng)絡中斷……
5.數(shù)據(jù)維度高:例如一次體檢可以得到數(shù)百項生命體征數(shù)據(jù)大數(shù)據(jù)特點28大數(shù)據(jù)與常規(guī)數(shù)據(jù)的對比常規(guī)數(shù)據(jù)范圍廣模態(tài)多增長快關聯(lián)繁數(shù)據(jù)規(guī)模較小模態(tài)屬性受限增長速度較慢關聯(lián)相對簡單稠密與稀疏共存冗余與缺失并在動態(tài)與靜態(tài)互現(xiàn)顯式與隱藏均有特性問題描述與存儲的挑戰(zhàn)分析與理解的挑戰(zhàn)挖掘與預測的挑戰(zhàn)挑戰(zhàn)大數(shù)據(jù)應用目標相對比較明確數(shù)據(jù)結(jié)構(gòu)相對比較簡單時序長持續(xù)時間較短處理方法通常為模型化、參數(shù)化
錢學森“綜合集成”理論的啟示
一個科學新領域------開放的復雜巨系統(tǒng)及其方法論錢學森-戴汝為:“綜合集成”(meta-synthesis)科學方法論
“綜合集成”可以解讀為從定性到定量的科學研討廳(hallforworkshop)“綜合集成”方法論:1+1>2[J].自然雜志,1990大數(shù)據(jù)時代的軟件服務工程
拓新“綜合集成的迭代整合”科學方法論“綜合集成”可拓展為以科研社交網(wǎng)絡的民主形式,從定性到定量的科研整合“定性”:是指面向領域或主題、運用專家的定性智慧,建立大數(shù)據(jù)處理知識的聚類,形成少數(shù)幾種可能的大數(shù)據(jù)價值服務的基本解決方案及其本體。
面向領域或主題的大數(shù)據(jù)服務的共性需求解決方案“定量”:細化解決方案本體,對同類或異類方案之間的關聯(lián),通過語義互操作構(gòu)造與管理的關聯(lián)計算,建立大數(shù)據(jù)處理的基本知識;隨著時間與空間的變化,不斷吸收與迭代整合:來自歷史大數(shù)據(jù)的知識與基于運行時反射機理的用戶網(wǎng)頁個性化標注的相關內(nèi)容,動態(tài)演化生長
形成面向領域或主題的大數(shù)據(jù)服務的富知識從定性到定量整合的科學研討廳(hallforworkshop)
:支撐領域或主題大數(shù)據(jù)處理知識的規(guī)?;霞捌溲莼腜aaS(平臺作為服務),并接入面向多樣價值目標的異域異構(gòu)大數(shù)據(jù)服務SaaS(軟件作為服務)綜合與互操作實現(xiàn)。
PaaS+SaaS厚積簿發(fā):面向領域或主題的富知識,實現(xiàn)在線流式大數(shù)據(jù)分析的可伸縮、可選擇的按需價值服務科學家與鞋匠所見略同“定性”:鞋匠按手工方式做鞋,因各人尺寸各異,覺得鞋子采用個案生產(chǎn),天經(jīng)地義;但做到第10000雙時,感悟復雜中存在簡單,幾十種鞋碼足以滿足大眾個
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024年特殊崗位人員返聘勞動合同2篇
- 政府購買服務崗位人員勞務合同(2篇)
- 打機井協(xié)議書(2篇)
- 2024年文藝晚會演出委托制作與執(zhí)行協(xié)議3篇
- 2025年重慶模擬考貨運從業(yè)資格
- 2025年南寧貨運從業(yè)資格證考試題及答案解析
- 2025年阿壩貨運從業(yè)資格證怎么考
- 七年級下冊語文第2課 說和做
- 2024年樓宇自動化監(jiān)控設備供應合同
- 《春季食療養(yǎng)生》課件
- 2023《科學家精神進校園》團課學習PPT
- 2023屆高考英語復習完形填空講評課課件
- 社群營銷與運營PPT完整全套教學課件
- 關于成立物業(yè)管理公司的方案及架構(gòu)
- 甘肅銀行2023年招聘250名工作人員歷年試題(??键c甄選)含答案帶詳解-1
- 電子汽車衡-課件
- 修理廠突發(fā)事件應急預案范文
- 輸電線路常用禁止標識及設置規(guī)范
- 工程數(shù)學第5次作業(yè)(工程數(shù)學(本)形成性考核作業(yè)5)-國開輔導資料
- 《大數(shù)據(jù)財務分析-基于Python》課后習題答案
- 個人資料表(美國-DS-160新表格)
評論
0/150
提交評論