第14章-大數(shù)據(jù)管理PPT_第1頁
第14章-大數(shù)據(jù)管理PPT_第2頁
第14章-大數(shù)據(jù)管理PPT_第3頁
第14章-大數(shù)據(jù)管理PPT_第4頁
第14章-大數(shù)據(jù)管理PPT_第5頁
已閱讀5頁,還剩29頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)據(jù)庫系統(tǒng)概論

AnIntroductiontoDatabaseSystem第14章大數(shù)據(jù)管理xxxxx1

目錄

大數(shù)據(jù)概述

大數(shù)據(jù)的應(yīng)用

大數(shù)據(jù)管理系統(tǒng)

小結(jié)2023/9/3大數(shù)據(jù)概述什么是大數(shù)據(jù)?2023/9/3什么是大數(shù)據(jù)

2023/9/3什么是大數(shù)據(jù)分類:按大數(shù)據(jù)的應(yīng)用類型將大數(shù)據(jù)分為海量交易數(shù)據(jù)(企業(yè)OLTP應(yīng)用)、海量交互數(shù)據(jù)(社交網(wǎng)、傳感器、全球定位系統(tǒng)、Web信息)和海量處理數(shù)據(jù)(企業(yè)OLAP應(yīng)用)。2023/9/3大數(shù)據(jù)的特征巨量(Volume)多樣(Variety)快變(Velocity)價值(Value)2023/9/3大數(shù)據(jù)的特征—巨量大數(shù)據(jù)的首要特征是數(shù)據(jù)量巨大,而且在持續(xù)、急劇地膨脹。大規(guī)模數(shù)據(jù)的幾個主要來源有:科學(xué)研究、互聯(lián)網(wǎng)應(yīng)用和電子商務(wù)領(lǐng)域、傳感器數(shù)據(jù)、網(wǎng)站點擊流數(shù)據(jù)、移動設(shè)備數(shù)據(jù)、無線射頻識別數(shù)據(jù)等。2023/9/3大數(shù)據(jù)的特征—巨量觀點:大是相對的,是和當時的計算機處理能力相關(guān)的,超過了現(xiàn)有技術(shù)的能力。但是,“大規(guī)模”又是大數(shù)據(jù)的基本要求。80年代,百萬條記錄就是VERYLARGEDATA00年代,TB級別就是DATAINTENSIVE10年代,100T以上,甚至PB級才能夠算得上是大數(shù)據(jù)從現(xiàn)在起,每18個月,新增的存儲量等于有史以來存儲量之和!——1998年圖靈獎獲得者JimGray2023/9/3大數(shù)據(jù)的特征—多樣數(shù)據(jù)的多樣性通常是指異構(gòu)的數(shù)據(jù)類型、不同的數(shù)據(jù)表示和語義解釋?,F(xiàn)在,越來越多的應(yīng)用所產(chǎn)生的數(shù)據(jù)類型不再是純粹的關(guān)系數(shù)據(jù),更多的是非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),如文本、圖形、圖像、音頻、視頻、網(wǎng)頁、推特、和博客等。2023/9/3大數(shù)據(jù)的特征—快變大數(shù)據(jù)的快變性也稱為實時性,一方面指數(shù)據(jù)到達的速度很快,另一方面指能夠進行處理的時間很短,或者要求響應(yīng)速度很快,即實時響應(yīng)。數(shù)據(jù)到達或者產(chǎn)生的速度太快,對系統(tǒng)處理造成巨大的壓力。例如,入庫速度要求:100GB/S。2023/9/3大數(shù)據(jù)的特征—快變時間交易額描述0時0分52秒超過10億一分鐘超10億的交易額0時14分16秒超19億超過2012年雙十一全天交易額1時突破353億超過2013年雙十一全天交易額6時54分53秒超571億超過2014年雙十一全天交易額15時19分13秒912億超過2015年雙十一全天交易額24時超1207億交易額翻了一番無線交易額占比81.87%,覆蓋235個國家和地區(qū)“現(xiàn)象級”應(yīng)用:在某一個時期,對系統(tǒng)的壓力突然暴增,極易導(dǎo)致系統(tǒng)的崩潰。2023/9/3大數(shù)據(jù)的特征—價值大數(shù)據(jù)的價值是潛在的、巨大的。大數(shù)據(jù)不僅具有經(jīng)濟價值和產(chǎn)業(yè)價值,還具有科學(xué)價值。這是大數(shù)據(jù)最重要的特點,也是大數(shù)據(jù)的魅力所在。2023/9/3大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)的應(yīng)用特征:大數(shù)據(jù)作為一種新的戰(zhàn)略資源,要重視對數(shù)據(jù)對象的管理、重視數(shù)據(jù)治理。大數(shù)據(jù)作為一種新的研究方法,已經(jīng)在許多學(xué)科領(lǐng)域取得成效在:第四研究范型大數(shù)據(jù)作為一種新的信息化的思維,強調(diào)跨界應(yīng)用,數(shù)據(jù)整合基礎(chǔ)上的創(chuàng)新。2023/9/3大數(shù)據(jù)的應(yīng)用應(yīng)用案例:感知現(xiàn)在預(yù)測未來——互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘數(shù)據(jù)服務(wù)實時推薦——基于大數(shù)據(jù)分析的用戶建模2023/9/3互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘互聯(lián)網(wǎng)媒體文本大數(shù)據(jù)應(yīng)用:時事探針高速發(fā)展的互聯(lián)網(wǎng)媒體在給人們獲取信息帶來便利的同時,也帶來了新的挑戰(zhàn),其中之一便是“信息過載”問題。當一個重要新聞事件發(fā)生后,各種互聯(lián)網(wǎng)媒體會有大量相關(guān)報道。時事探針系統(tǒng)可以實時監(jiān)控、收集互聯(lián)網(wǎng)媒體數(shù)據(jù),并對數(shù)據(jù)進行深入的挖掘和分析。其主要功能包括動態(tài)數(shù)據(jù)抓取、歷史數(shù)據(jù)保留、數(shù)據(jù)深度智能分析、數(shù)據(jù)可視化展示、敏感信息實時捕捉、預(yù)定閾值報警等。2023/9/3互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘互聯(lián)網(wǎng)媒體文本大數(shù)據(jù)應(yīng)用:時事探針該系統(tǒng)可以有效地幫助用戶、企業(yè)以及政府機構(gòu)對所關(guān)注的新聞話題在互聯(lián)網(wǎng)媒體中的報道進行感知、獲取、跟蹤、預(yù)警和深入分析,具有極大應(yīng)用價值。2023/9/3互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘互聯(lián)網(wǎng)文本大數(shù)據(jù)管理的挑戰(zhàn)無法事先預(yù)定義關(guān)系模式和值域無法直接用關(guān)系型數(shù)據(jù)進行存儲和查詢可擴展性和實時性要求高對于文本大數(shù)據(jù)處理,目前廣泛使用的互聯(lián)網(wǎng)搜索引擎只是對文本數(shù)據(jù)的簡單索引和查找,不能滿足用戶對所關(guān)注的話題進行實時監(jiān)測、深入分析以及決策支持等需求。2023/9/3互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘互聯(lián)網(wǎng)文本大數(shù)據(jù)管理系統(tǒng)時事探針系統(tǒng)時事探針系統(tǒng)是一個面向互聯(lián)網(wǎng)文本大數(shù)據(jù)的通用的管理和分析平臺。整個系統(tǒng)分為離線處理和在線處理兩個部分。其中離線部分是設(shè)計的重點,主要功能有:多源異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)的感知和獲取文檔理解及結(jié)構(gòu)化數(shù)據(jù)抽取和集成數(shù)據(jù)存儲和索引離線主題文本立方體建立及更新2023/9/3互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘互聯(lián)網(wǎng)文本大數(shù)據(jù)管理的特點:互聯(lián)網(wǎng)文本大數(shù)據(jù)蘊含著豐富的社會信息,可以看作是對真實社會的網(wǎng)絡(luò)映射實時、深入分析互聯(lián)網(wǎng)文本大數(shù)據(jù),幫助人們在海量數(shù)據(jù)中獲取有價值的信息,發(fā)現(xiàn)蘊含的規(guī)律,可以更好地感知現(xiàn)在、預(yù)測未來,體現(xiàn)了第四范式數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的研究方式和思維方式。互聯(lián)網(wǎng)文本大數(shù)據(jù)管理對大數(shù)據(jù)系統(tǒng)和技術(shù)的挑戰(zhàn)是全面的、跨學(xué)科領(lǐng)域的,需要創(chuàng)新,也需要繼承傳統(tǒng)數(shù)據(jù)管理技術(shù)和數(shù)據(jù)倉庫分析技術(shù)的精華。2023/9/3基于大數(shù)據(jù)分析的用戶建模面向用戶建模的大數(shù)據(jù)系統(tǒng)架構(gòu)面向大眾的信息服務(wù)類應(yīng)用在為大規(guī)模的用戶提供信息服務(wù)的同時,通過用戶原創(chuàng)內(nèi)容(UserGeneratedContent,UGC)或者系統(tǒng)日志等方式不斷地收集數(shù)據(jù)。這些數(shù)據(jù)與用戶的行為緊密相關(guān),被用來分析用戶的興趣特征,創(chuàng)建用戶的描述文件,這就是基于大數(shù)據(jù)分析的用戶建模。2023/9/3基于大數(shù)據(jù)分析的用戶建模面向用戶建模的大數(shù)據(jù)系統(tǒng)架構(gòu)用戶建模的目標是為了準確地把握用戶的行為特征、興趣愛好等,進而較為精準地向用戶提供個性化地信息服務(wù)或信息推薦。2023/9/3基于大數(shù)據(jù)分析的用戶建模面向用戶建模的大數(shù)據(jù)系統(tǒng)架構(gòu)上層應(yīng)用(信息推薦等)數(shù)據(jù)服務(wù)(用戶興趣模型表)在線分析離線分析實時大數(shù)據(jù)歷史大數(shù)據(jù)面向用戶建模的大數(shù)據(jù)系統(tǒng)架構(gòu)示意圖2023/9/3基于大數(shù)據(jù)分析的用戶建模數(shù)據(jù)分析:用戶建模的基礎(chǔ)工具一大類用戶建模方法采用的是批處理方式的離線分析方法,對結(jié)構(gòu)化或半結(jié)構(gòu)化的歷史日志數(shù)據(jù)進行SQL分析或者使用數(shù)據(jù)挖掘和機器學(xué)習(xí)的深度分析方法。特點:當數(shù)據(jù)量很大時,很耗時;其次,這類離線分析方法復(fù)雜度高、處理代價巨大,不能夠頻繁調(diào)用;實時性較差。主要適合分析那些通過大規(guī)模數(shù)據(jù)得出的相對穩(wěn)定的用戶屬性。2023/9/3基于大數(shù)據(jù)分析的用戶建模數(shù)據(jù)分析:用戶建模的基礎(chǔ)工具另一大類用戶建模方法則采用實時的在線分析方法,數(shù)據(jù)即來即分析,更強調(diào)數(shù)據(jù)的實時分析處理能力。特點:實時性較好;當處理用戶規(guī)模很大時,其代價是昂貴的。這類方法適合于捕捉一些時效性強的用戶屬性,比如用戶當前的位置、手機信號強度等。2023/9/3基于大數(shù)據(jù)分析的用戶建模數(shù)據(jù)服務(wù):用戶建模的價值體現(xiàn)特點:模型的建立來自對大數(shù)據(jù)的分析結(jié)果。建模的過程是動態(tài)的,隨著實際對象地變化,模型也在變化。數(shù)據(jù)處理既有對歷史數(shù)據(jù)的離線分析和挖掘,又有對實時流數(shù)據(jù)的在線采集和分析,體現(xiàn)了大數(shù)據(jù)上不同層次的分析:流分析、SQL分析、深度分析的需求。用戶模型本身也是大數(shù)據(jù),緯度高,信息稀疏,用戶模型的存儲、管理是數(shù)據(jù)服務(wù)的重要任務(wù),要滿足大規(guī)模應(yīng)用需求的高并發(fā)數(shù)據(jù)更新與讀取。2023/9/3大數(shù)據(jù)管理系統(tǒng)數(shù)據(jù)管理技術(shù)和系統(tǒng)是大數(shù)據(jù)應(yīng)用系統(tǒng)的基礎(chǔ)。為了應(yīng)對大數(shù)據(jù)應(yīng)用的迫切需求,人們研究和發(fā)展了以Key/Value非關(guān)系數(shù)據(jù)模型和MapReduce并行編程模型為代表的眾多新技術(shù)和新系統(tǒng)。2023/9/3大數(shù)據(jù)管理系統(tǒng)NoSQL數(shù)據(jù)管理系統(tǒng)NewSQL數(shù)據(jù)庫系統(tǒng)MapReduce技術(shù)大數(shù)據(jù)管理系統(tǒng)的新格局2023/9/3大數(shù)據(jù)管理系統(tǒng)NoSQL數(shù)據(jù)管理系統(tǒng)NoSQL是以互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用為背景發(fā)展起來的分布式數(shù)據(jù)管理系統(tǒng)。NoSQL有兩種解釋:一種是Non-Relational,即非關(guān)系數(shù)據(jù)庫;另一種是NotOnlySQL,即數(shù)據(jù)管理技術(shù)不僅僅是SQL。目前第二種解釋更為流行。NoSQL系統(tǒng)支持的數(shù)據(jù)模型通常分為Key-Value模型、BigTable模型、文檔模型和圖模型4種模型。2023/9/3大數(shù)據(jù)管理系統(tǒng)NewSQL數(shù)據(jù)庫系統(tǒng)NewSQL系統(tǒng)是融合了NoSQL系統(tǒng)和傳統(tǒng)數(shù)據(jù)庫事務(wù)管理功能的新型數(shù)據(jù)庫系統(tǒng)。2023/9/3大數(shù)據(jù)管理系統(tǒng)系統(tǒng)名稱易用性對事物的支持擴展性數(shù)據(jù)量成本代表系統(tǒng)操作方式一致性、并發(fā)控制經(jīng)典關(guān)系數(shù)據(jù)庫系統(tǒng)SQL系統(tǒng)易用SQLACID強一致性<1000結(jié)點TB高Oracle,DB2,GreenplumNoSQL系統(tǒng)Get/Put等存取原語弱一致性最終一致性>10000結(jié)點PB低BigTable,PNUTSNewSQL系統(tǒng)SQLACID>10000結(jié)點PB低VoltDB,SpannerSQL系統(tǒng)、NoSQL系統(tǒng)、NewSQL系統(tǒng)的比較2023/9/3大數(shù)據(jù)管理系統(tǒng)MapReduce技術(shù)MapReduce技術(shù)是Google公司于2004年提出的大規(guī)模并行計算解決方案,主要應(yīng)用于大規(guī)模廉價集群上的大數(shù)據(jù)并行處理。MapReduce是一種并行編程模型。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論