大數(shù)據(jù)技術(shù)的發(fā)展35_第1頁
大數(shù)據(jù)技術(shù)的發(fā)展35_第2頁
大數(shù)據(jù)技術(shù)的發(fā)展35_第3頁
大數(shù)據(jù)技術(shù)的發(fā)展35_第4頁
大數(shù)據(jù)技術(shù)的發(fā)展35_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)發(fā)展數(shù)據(jù)庫技術(shù)發(fā)展歷史無庫時(shí)代層次狀數(shù)據(jù)庫網(wǎng)狀數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫分布式數(shù)據(jù)庫層次型數(shù)據(jù)庫

關(guān)系型數(shù)據(jù)庫之父:E.F.Codd關(guān)系型數(shù)據(jù)庫

1970年,Codd劃時(shí)代的論文《用于大型共享數(shù)據(jù)庫的關(guān)系數(shù)據(jù)模型》關(guān)系與關(guān)系代數(shù)

SQL之父唐·錢伯林(DonChamberlin),是IBMFellow,ACM及IEEE特別會(huì)員。

他是SQL關(guān)系數(shù)據(jù)庫語言的發(fā)明人之一,也是XQuery語言的設(shè)計(jì)基礎(chǔ)Quilt

語言的發(fā)明人之一。Don擁有加利福尼亞大學(xué)博士學(xué)位。他目前在

IBMAlmaden研究中心工作,在過去幾年中,他代表IBM參與W3CXMLQuery

工作組的工作。左起EdOates、BruceScott、BobMiner、LarryEllison

Oracle

CEOLarryEllison變化來了之一:數(shù)據(jù)量爆炸增長全球每秒鐘發(fā)送290萬封電子郵件,一分鐘讀一篇的話,足夠一個(gè)人晝夜不息的讀5.5年…每天會(huì)有2.88萬個(gè)小時(shí)的視頻上傳到Y(jié)outube,足夠一個(gè)人晝夜不息的觀看3.3年…推特上每天發(fā)布5千萬條消息,假設(shè)10秒鐘瀏覽一條信息,這些消息足夠一個(gè)人晝夜不息的瀏覽16年…每天亞馬遜上將產(chǎn)生6.3百萬筆訂單…每個(gè)月網(wǎng)民在Facebook上要花費(fèi)7千億分鐘,被移動(dòng)互聯(lián)網(wǎng)使用者發(fā)送和接收的數(shù)據(jù)高達(dá)1.3EBGoogle上每天需要處理24PB的數(shù)據(jù)…大數(shù)據(jù)時(shí)代到來變化來只二:非結(jié)構(gòu)化類型增加成主流大數(shù)據(jù)來源TBPBZBEB大量新數(shù)據(jù)源的出現(xiàn)則導(dǎo)致了非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)爆發(fā)式的增長根據(jù)IDC監(jiān)測,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級(jí)增長,大約每兩年翻一番,這個(gè)速度在2020年之前會(huì)繼續(xù)保持下去。這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量數(shù)據(jù)量增加數(shù)據(jù)結(jié)構(gòu)日趨復(fù)雜這些由我們創(chuàng)造的信息背后產(chǎn)生的這些數(shù)據(jù)早已經(jīng)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇大數(shù)據(jù)時(shí)代已經(jīng)來臨..大數(shù)據(jù)的興起“大數(shù)據(jù)或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無法通過人工在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。”(維基百科)“大數(shù)據(jù)是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的資訊?!保ò俣劝倏疲按髷?shù)據(jù)是人們獲得新認(rèn)知、創(chuàng)造新價(jià)值的源泉,還是改變市場組織機(jī)構(gòu),以及政府與公民關(guān)系的方法

。”(《大數(shù)據(jù)時(shí)代》)“大數(shù)據(jù)是數(shù)據(jù)量在10TB以上、需要采用新興的大數(shù)據(jù)技術(shù)加以收集、處理和應(yīng)用,以展現(xiàn)更多社會(huì)、商業(yè)價(jià)值的數(shù)據(jù)?!保▊€(gè)人總結(jié))大數(shù)據(jù)的詮釋非結(jié)構(gòu)化處理案例(BigTable)數(shù)據(jù)變革的現(xiàn)實(shí)驅(qū)動(dòng)力數(shù)據(jù)量爆炸性增長

需要分布式存儲(chǔ)數(shù)據(jù)類型增加需要半結(jié)構(gòu)化存儲(chǔ)數(shù)據(jù)模型日漸復(fù)雜弱化關(guān)聯(lián)的需求PC服務(wù)器成本下降PC服務(wù)器大行其道數(shù)據(jù)變革的理論驅(qū)動(dòng)力-CAP理論CAP(Consistency,Availability,Patitiontolerance)又叫做布魯爾定理(Brewer'stheorem),它指出對(duì)于一個(gè)分布式計(jì)算系統(tǒng)來說,不可能同時(shí)滿足以下三點(diǎn)理論論述的是在任何分布式系統(tǒng)中,只可能滿足一致性,可用性及分區(qū)容忍性三者中的兩者,不可能全部都滿足。所以不用花時(shí)間精力在如何滿足所有三者上面。對(duì)于分布式數(shù)據(jù)系統(tǒng),分區(qū)容忍性是基本要求對(duì)于大多數(shù)web應(yīng)用,犧牲一致性而換取高可用性,是目前多數(shù)分布式數(shù)據(jù)庫產(chǎn)品的方向。變革的方向NOSQL?NEWSQL?Nosql是notonlysql,并不是沒有sql,是一種菲關(guān)系型數(shù)據(jù)庫Nosql希望從內(nèi)核與理念上打破關(guān)系模型、設(shè)計(jì)出一套更適合分布式存儲(chǔ),支持多樣化數(shù)據(jù)的存儲(chǔ)體系。

MongoDB

Hbase

RedisNEWSQL希望以盡可能兼容原有體系的基礎(chǔ)上,逐漸過渡到分布式存儲(chǔ)VoltDB

MEMsql變革方法縱向擴(kuò)展(很難分布式部署、無Master架構(gòu))

---

橫向擴(kuò)展分庫分表—分片行式存儲(chǔ)----列式存儲(chǔ)ACID-BASE無需預(yù)定義模式、不需建立確定的列NoSQL數(shù)據(jù)模型及分類NoSQL運(yùn)動(dòng)兩個(gè)核心理論基礎(chǔ):Google的BigTable

BigTable提出了一種很有趣的數(shù)據(jù)模型,它將各列數(shù)據(jù)進(jìn)行排序存儲(chǔ)。數(shù)據(jù)值按范圍分布在多臺(tái)機(jī)器,數(shù)據(jù)更新操作有嚴(yán)格的一致性保證。Amazon的Dynamo Dynamo使用的是另外一種分布式模型。Dynamo的模型更簡單,它將數(shù)據(jù)按key進(jìn)行hash存儲(chǔ)。其數(shù)據(jù)分片模型有比較強(qiáng)的容災(zāi)性,因此它實(shí)現(xiàn)的是相對(duì)松散的弱一致性:最終一致性。NoSQL數(shù)據(jù)模型及分類

類型部分代表特點(diǎn)列存儲(chǔ)HbaseCassandraHypertable顧名思義,是按列存儲(chǔ)數(shù)據(jù)的。最大的特點(diǎn)是方便存儲(chǔ)結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),方便做數(shù)據(jù)壓縮,對(duì)針對(duì)某一列或者某幾列的查詢有非常大的IO優(yōu)勢。文檔存儲(chǔ)MongoDBCouchDB文檔存儲(chǔ)一般用類似json的格式存儲(chǔ),存儲(chǔ)的內(nèi)容是文檔型的。這樣也就有有機(jī)會(huì)對(duì)某些字段建立索引,實(shí)現(xiàn)關(guān)系數(shù)據(jù)庫的某些功能。key-value存儲(chǔ)TokyoCabinet/TyrantBerkeleyDBMemcacheDBRedis可以通過key快速查詢到其value。一般來說,存儲(chǔ)不管value的格式,照單全收。(Redis包含了其他功能)圖存儲(chǔ)Neo4JFlockDBInfoGrid圖形關(guān)系的最佳存儲(chǔ)。使用傳統(tǒng)關(guān)系數(shù)據(jù)庫來解決的話性能低下,而且設(shè)計(jì)使用不方便。對(duì)象存儲(chǔ)db4oVersant通過類似面向?qū)ο笳Z言的語法操作數(shù)據(jù)庫,通過對(duì)象的方式存取數(shù)據(jù)。xml數(shù)據(jù)庫BerkeleyDBXMLBaseX高效的存儲(chǔ)XML數(shù)據(jù),并支持XML的內(nèi)部查詢語法,比如XQuery,Xpath。NoSQL應(yīng)用現(xiàn)狀

大數(shù)據(jù)應(yīng)用領(lǐng)域29綜合來看,未來幾年大數(shù)據(jù)在商業(yè)智能,公共服務(wù)和市場營銷三個(gè)領(lǐng)域的應(yīng)用非常值得看好,大多數(shù)大數(shù)據(jù)案例和預(yù)算將發(fā)生在這三個(gè)領(lǐng)域。數(shù)據(jù)來源:CCWResearch,2012/4制造行業(yè)最關(guān)注的大數(shù)據(jù)應(yīng)用場景大數(shù)據(jù)應(yīng)用前景在河北廊坊郊區(qū),農(nóng)田里安裝了內(nèi)置攝像頭的傳感器,通過傳感器、攝像頭等終端應(yīng)用收集、采集農(nóng)產(chǎn)品的各項(xiàng)指標(biāo),并將數(shù)據(jù)匯聚到云端進(jìn)行實(shí)時(shí)監(jiān)測、分析和管理,比如每天的氣溫、濕度、雨量等信息,還向農(nóng)民發(fā)放智能手機(jī)和平板電腦,讓大家隨時(shí)記錄工作成果和現(xiàn)場注意到的問題。農(nóng)業(yè)管理采用條形碼及RFID技術(shù)進(jìn)行記錄、監(jiān)督,從而實(shí)現(xiàn)針對(duì)生產(chǎn)、收獲、庫存、流通和食品安全等的管理,再根據(jù)不同地區(qū)、不同作物類型進(jìn)行相應(yīng)的數(shù)據(jù)信息調(diào)整,以便監(jiān)控管理軟件能夠很好地幫助農(nóng)戶種植和管理作物。糧食安全、農(nóng)業(yè)結(jié)構(gòu)調(diào)整等方面的管理問題,都可通過大數(shù)據(jù)研究預(yù)測和解決。兩會(huì)期間,通過“網(wǎng)友熱搜的兩會(huì)關(guān)鍵詞”,了解老百姓關(guān)注的熱點(diǎn)、精神和解讀,為制定工作目標(biāo)提供決策依據(jù)。創(chuàng)建環(huán)境監(jiān)控物聯(lián)網(wǎng)系統(tǒng),利用大數(shù)據(jù)手段監(jiān)控、評(píng)估、分析誘因(地域氣象條件、生產(chǎn)生活方式、植被治理模式,城市建設(shè)方式),找到解決方案。政府治理大數(shù)據(jù)提高政府社會(huì)治理水平2009年,Google不借助任何醫(yī)療手段,僅通過5000萬條用戶檢索關(guān)鍵詞,比美國疾控中心提前數(shù)周預(yù)測H1N1流感的爆發(fā)!中英人壽保險(xiǎn)有限公司分析客戶多種生活數(shù)據(jù)(愛好、常瀏覽網(wǎng)站、??垂?jié)目等),找出更有可能患高血壓、糖尿病和抑郁癥的人。醫(yī)療健康通過大數(shù)據(jù)預(yù)測疾病,定位患者商業(yè)營銷淘寶、亞馬遜等電商企業(yè),通過客戶商品瀏覽與購買行為,進(jìn)行偏好分析,并準(zhǔn)確的預(yù)測客戶的產(chǎn)品購買意向,進(jìn)行相關(guān)推送。精準(zhǔn)營銷:北美折扣零售商Target在完全不和準(zhǔn)媽媽對(duì)話的前提下,僅分析顧客的購買習(xí)慣,并進(jìn)行“懷孕趨勢”評(píng)分,能較準(zhǔn)確地預(yù)測預(yù)產(chǎn)期,以便在孕期寄送相應(yīng)的優(yōu)惠券。通過客戶行為特征分析,進(jìn)行產(chǎn)品推薦,實(shí)現(xiàn)精準(zhǔn)營銷。交易風(fēng)險(xiǎn)監(jiān)控:交易所對(duì)于實(shí)時(shí)交易數(shù)據(jù)進(jìn)行及時(shí)撲捉,對(duì)金融期貨等異常交易行為、持倉、資金、行情風(fēng)險(xiǎn)進(jìn)行監(jiān)控,及時(shí)制止擾亂市場的行為。同時(shí)通過對(duì)海量交易數(shù)據(jù)的存儲(chǔ)進(jìn)行交易反演,旨在挖掘風(fēng)險(xiǎn)監(jiān)控的最優(yōu)閥值,提升風(fēng)控可靠性。風(fēng)險(xiǎn)溢價(jià)計(jì)量:在小微企業(yè)業(yè)務(wù)方面,銀行可以在準(zhǔn)確計(jì)量風(fēng)險(xiǎn)溢價(jià)的基礎(chǔ)上,構(gòu)建自動(dòng)審批模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論