




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
大數(shù)據(jù)技術發(fā)展數(shù)據(jù)庫技術發(fā)展歷史無庫時代層次狀數(shù)據(jù)庫網(wǎng)狀數(shù)據(jù)庫關系型數(shù)據(jù)庫分布式數(shù)據(jù)庫層次型數(shù)據(jù)庫
關系型數(shù)據(jù)庫之父:E.F.Codd關系型數(shù)據(jù)庫
1970年,Codd劃時代的論文《用于大型共享數(shù)據(jù)庫的關系數(shù)據(jù)模型》關系與關系代數(shù)
SQL之父唐·錢伯林(DonChamberlin),是IBMFellow,ACM及IEEE特別會員。
他是SQL關系數(shù)據(jù)庫語言的發(fā)明人之一,也是XQuery語言的設計基礎Quilt
語言的發(fā)明人之一。Don擁有加利福尼亞大學博士學位。他目前在
IBMAlmaden研究中心工作,在過去幾年中,他代表IBM參與W3CXMLQuery
工作組的工作。左起EdOates、BruceScott、BobMiner、LarryEllison
Oracle
CEOLarryEllison變化來了之一:數(shù)據(jù)量爆炸增長全球每秒鐘發(fā)送290萬封電子郵件,一分鐘讀一篇的話,足夠一個人晝夜不息的讀5.5年…每天會有2.88萬個小時的視頻上傳到Y(jié)outube,足夠一個人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬條消息,假設10秒鐘瀏覽一條信息,這些消息足夠一個人晝夜不息的瀏覽16年…每天亞馬遜上將產(chǎn)生6.3百萬筆訂單…每個月網(wǎng)民在Facebook上要花費7千億分鐘,被移動互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達1.3EBGoogle上每天需要處理24PB的數(shù)據(jù)…大數(shù)據(jù)時代到來變化來只二:非結(jié)構(gòu)化類型增加成主流大數(shù)據(jù)來源TBPBZBEB大量新數(shù)據(jù)源的出現(xiàn)則導致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長根據(jù)IDC監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長,大約每兩年翻一番,這個速度在2020年之前會繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當于之前產(chǎn)生的全部數(shù)據(jù)量數(shù)據(jù)量增加數(shù)據(jù)結(jié)構(gòu)日趨復雜這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠遠超越了目前人力所能處理的范疇大數(shù)據(jù)時代已經(jīng)來臨..大數(shù)據(jù)的興起“大數(shù)據(jù)或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時間內(nèi)達到截取、管理、處理、并整理成為人類所能解讀的信息?!保ňS基百科)“大數(shù)據(jù)是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊?!保ò俣劝倏疲按髷?shù)據(jù)是人們獲得新認知、創(chuàng)造新價值的源泉,還是改變市場組織機構(gòu),以及政府與公民關系的方法
?!保ā洞髷?shù)據(jù)時代》)“大數(shù)據(jù)是數(shù)據(jù)量在10TB以上、需要采用新興的大數(shù)據(jù)技術加以收集、處理和應用,以展現(xiàn)更多社會、商業(yè)價值的數(shù)據(jù)?!保▊€人總結(jié))大數(shù)據(jù)的詮釋非結(jié)構(gòu)化處理案例(BigTable)數(shù)據(jù)變革的現(xiàn)實驅(qū)動力數(shù)據(jù)量爆炸性增長
需要分布式存儲數(shù)據(jù)類型增加需要半結(jié)構(gòu)化存儲數(shù)據(jù)模型日漸復雜弱化關聯(lián)的需求PC服務器成本下降PC服務器大行其道數(shù)據(jù)變革的理論驅(qū)動力-CAP理論CAP(Consistency,Availability,Patitiontolerance)又叫做布魯爾定理(Brewer'stheorem),它指出對于一個分布式計算系統(tǒng)來說,不可能同時滿足以下三點理論論述的是在任何分布式系統(tǒng)中,只可能滿足一致性,可用性及分區(qū)容忍性三者中的兩者,不可能全部都滿足。所以不用花時間精力在如何滿足所有三者上面。對于分布式數(shù)據(jù)系統(tǒng),分區(qū)容忍性是基本要求對于大多數(shù)web應用,犧牲一致性而換取高可用性,是目前多數(shù)分布式數(shù)據(jù)庫產(chǎn)品的方向。變革的方向NOSQL?NEWSQL?Nosql是notonlysql,并不是沒有sql,是一種菲關系型數(shù)據(jù)庫Nosql希望從內(nèi)核與理念上打破關系模型、設計出一套更適合分布式存儲,支持多樣化數(shù)據(jù)的存儲體系。
MongoDB
Hbase
RedisNEWSQL希望以盡可能兼容原有體系的基礎上,逐漸過渡到分布式存儲VoltDB
MEMsql變革方法縱向擴展(很難分布式部署、無Master架構(gòu))
---
橫向擴展分庫分表—分片行式存儲----列式存儲ACID-BASE無需預定義模式、不需建立確定的列NoSQL數(shù)據(jù)模型及分類NoSQL運動兩個核心理論基礎:Google的BigTable
BigTable提出了一種很有趣的數(shù)據(jù)模型,它將各列數(shù)據(jù)進行排序存儲。數(shù)據(jù)值按范圍分布在多臺機器,數(shù)據(jù)更新操作有嚴格的一致性保證。Amazon的Dynamo Dynamo使用的是另外一種分布式模型。Dynamo的模型更簡單,它將數(shù)據(jù)按key進行hash存儲。其數(shù)據(jù)分片模型有比較強的容災性,因此它實現(xiàn)的是相對松散的弱一致性:最終一致性。NoSQL數(shù)據(jù)模型及分類
類型部分代表特點列存儲HbaseCassandraHypertable顧名思義,是按列存儲數(shù)據(jù)的。最大的特點是方便存儲結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),方便做數(shù)據(jù)壓縮,對針對某一列或者某幾列的查詢有非常大的IO優(yōu)勢。文檔存儲MongoDBCouchDB文檔存儲一般用類似json的格式存儲,存儲的內(nèi)容是文檔型的。這樣也就有有機會對某些字段建立索引,實現(xiàn)關系數(shù)據(jù)庫的某些功能。key-value存儲TokyoCabinet/TyrantBerkeleyDBMemcacheDBRedis可以通過key快速查詢到其value。一般來說,存儲不管value的格式,照單全收。(Redis包含了其他功能)圖存儲Neo4JFlockDBInfoGrid圖形關系的最佳存儲。使用傳統(tǒng)關系數(shù)據(jù)庫來解決的話性能低下,而且設計使用不方便。對象存儲db4oVersant通過類似面向?qū)ο笳Z言的語法操作數(shù)據(jù)庫,通過對象的方式存取數(shù)據(jù)。xml數(shù)據(jù)庫BerkeleyDBXMLBaseX高效的存儲XML數(shù)據(jù),并支持XML的內(nèi)部查詢語法,比如XQuery,Xpath。NoSQL應用現(xiàn)狀
大數(shù)據(jù)應用領域29綜合來看,未來幾年大數(shù)據(jù)在商業(yè)智能,公共服務和市場營銷三個領域的應用非常值得看好,大多數(shù)大數(shù)據(jù)案例和預算將發(fā)生在這三個領域。數(shù)據(jù)來源:CCWResearch,2012/4制造行業(yè)最關注的大數(shù)據(jù)應用場景大數(shù)據(jù)應用前景在河北廊坊郊區(qū),農(nóng)田里安裝了內(nèi)置攝像頭的傳感器,通過傳感器、攝像頭等終端應用收集、采集農(nóng)產(chǎn)品的各項指標,并將數(shù)據(jù)匯聚到云端進行實時監(jiān)測、分析和管理,比如每天的氣溫、濕度、雨量等信息,還向農(nóng)民發(fā)放智能手機和平板電腦,讓大家隨時記錄工作成果和現(xiàn)場注意到的問題。農(nóng)業(yè)管理采用條形碼及RFID技術進行記錄、監(jiān)督,從而實現(xiàn)針對生產(chǎn)、收獲、庫存、流通和食品安全等的管理,再根據(jù)不同地區(qū)、不同作物類型進行相應的數(shù)據(jù)信息調(diào)整,以便監(jiān)控管理軟件能夠很好地幫助農(nóng)戶種植和管理作物。糧食安全、農(nóng)業(yè)結(jié)構(gòu)調(diào)整等方面的管理問題,都可通過大數(shù)據(jù)研究預測和解決。兩會期間,通過“網(wǎng)友熱搜的兩會關鍵詞”,了解老百姓關注的熱點、精神和解讀,為制定工作目標提供決策依據(jù)。創(chuàng)建環(huán)境監(jiān)控物聯(lián)網(wǎng)系統(tǒng),利用大數(shù)據(jù)手段監(jiān)控、評估、分析誘因(地域氣象條件、生產(chǎn)生活方式、植被治理模式,城市建設方式),找到解決方案。政府治理大數(shù)據(jù)提高政府社會治理水平2009年,Google不借助任何醫(yī)療手段,僅通過5000萬條用戶檢索關鍵詞,比美國疾控中心提前數(shù)周預測H1N1流感的爆發(fā)!中英人壽保險有限公司分析客戶多種生活數(shù)據(jù)(愛好、常瀏覽網(wǎng)站、??垂?jié)目等),找出更有可能患高血壓、糖尿病和抑郁癥的人。醫(yī)療健康通過大數(shù)據(jù)預測疾病,定位患者商業(yè)營銷淘寶、亞馬遜等電商企業(yè),通過客戶商品瀏覽與購買行為,進行偏好分析,并準確的預測客戶的產(chǎn)品購買意向,進行相關推送。精準營銷:北美折扣零售商Target在完全不和準媽媽對話的前提下,僅分析顧客的購買習慣,并進行“懷孕趨勢”評分,能較準確地預測預產(chǎn)期,以便在孕期寄送相應的優(yōu)惠券。通過客戶行為特征分析,進行產(chǎn)品推薦,實現(xiàn)精準營銷。交易風險監(jiān)控:交易所對于實時交易數(shù)據(jù)進行及時撲捉,對金融期貨等異常交易行為、持倉、資金、行情風險進行監(jiān)控,及時制止擾亂市場的行為。同時通過對海量交易數(shù)據(jù)的存儲進行交易反演,旨在挖掘風險監(jiān)控的最優(yōu)閥值,提升風控可靠性。風險溢價計量:在小微企業(yè)業(yè)務方面,銀行可以在準確計量風險溢價的基礎上,構(gòu)建自動審批模
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 臨床試驗結(jié)果分析原則考核試卷
- 農(nóng)機租賃市場定位與租賃服務網(wǎng)絡布局分析考核試卷
- 講座教育的評價體系考核試卷
- 交通規(guī)劃與災害恢復重建規(guī)劃協(xié)調(diào)考核試卷
- 產(chǎn)科病房護士工作總結(jié)10篇
- 會計專業(yè)考試初級會計實務試卷與參考答案(2025年)
- 湖南省名校聯(lián)考聯(lián)合體2024-2025學年高一下學期第二次聯(lián)考物理試卷(A)(含解析)
- 歌曲活動策劃方案
- 植樹節(jié)汽車養(yǎng)護活動方案
- 民政服務活動方案
- 預制梁首件施工方案
- 問題解決型護理品管圈QCC成果匯報之提高痰標本采集合格率
- 電網(wǎng)公司項目管理標準手冊
- 四渡赤水課件(共25張PPT)
- 《石油化工企業(yè)儲運罐區(qū)罐頂油氣連通安全技術要求》
- (高清正版)JJF(浙)1080—2012明渠流量計在線校準規(guī)范(電子版)
- 《希臘神話與西方文化》教學大綱
- 生活飲用水衛(wèi)生標準GB5749-2006
- 過渡金屬能級圖數(shù)據(jù)庫2
- GB-T-12137-2015-氣瓶氣密性試驗方法
- 戰(zhàn)鍋策火鍋店項目策劃書
評論
0/150
提交評論