云數(shù)據(jù)庫(kù)Cloud Database課件_第1頁(yè)
云數(shù)據(jù)庫(kù)Cloud Database課件_第2頁(yè)
云數(shù)據(jù)庫(kù)Cloud Database課件_第3頁(yè)
云數(shù)據(jù)庫(kù)Cloud Database課件_第4頁(yè)
云數(shù)據(jù)庫(kù)Cloud Database課件_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)技術(shù)基礎(chǔ)云數(shù)據(jù)庫(kù)提綱 云數(shù)據(jù)庫(kù)的特性 云數(shù)據(jù)庫(kù)是海量存儲(chǔ)需求的必然選擇 云數(shù)據(jù)庫(kù)與傳統(tǒng)的分布式數(shù)據(jù)庫(kù) 云數(shù)據(jù)庫(kù)的影響 云數(shù)據(jù)庫(kù)產(chǎn)品 數(shù)據(jù)模型 數(shù)據(jù)訪問(wèn)方法 編程模型本講義PPT存在配套教材,由林子雨通過(guò)大量 閱讀、收集、整理各種資料后編寫(xiě)而成 下載配套教材請(qǐng)?jiān)L問(wèn)大數(shù)據(jù)技術(shù)基礎(chǔ)2013 班級(jí)網(wǎng)站:/node/423大數(shù)據(jù)技術(shù)基礎(chǔ)廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)系 云數(shù)據(jù)庫(kù)概述ziyulin2013年9月第一版林子雨云數(shù)據(jù)庫(kù)概念和特點(diǎn)云數(shù)據(jù)庫(kù)概念云數(shù)據(jù)庫(kù)是部署和虛擬化在 云計(jì)算環(huán)境中的數(shù)據(jù)庫(kù)云數(shù)據(jù)庫(kù)特點(diǎn)動(dòng)態(tài)可擴(kuò)展高可用性較低的使用代價(jià)易用性大規(guī)模并行處理云數(shù)據(jù)庫(kù)應(yīng)用示意圖在云數(shù)據(jù)庫(kù)應(yīng)用中,客戶(hù)端不需要了解

2、云數(shù)據(jù)庫(kù)的底 層細(xì)節(jié),所有的底層硬件都已經(jīng)被虛擬化,對(duì)客戶(hù)端 而言是透明的,它就像在使用一個(gè)運(yùn)行在單一服務(wù)器 上的數(shù)據(jù)庫(kù)一樣,非常方便容易,同時(shí)又可以獲得理 論上近乎無(wú)限的存儲(chǔ)和處理能力。海量存儲(chǔ)需求的必然選擇大數(shù)據(jù)技術(shù)基礎(chǔ)廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)系Cloud Databaseziyulin2013年9月第一版林子雨云數(shù)據(jù)庫(kù)與傳統(tǒng)的分布式數(shù)據(jù)庫(kù)DB1網(wǎng) 絡(luò)服務(wù)器2服務(wù)器3DB2DB3客戶(hù)客 戶(hù)客 戶(hù)圖分布式數(shù)據(jù)庫(kù)系統(tǒng)示意圖大數(shù)據(jù)技術(shù)基礎(chǔ)廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)系-分布式數(shù)據(jù)庫(kù)概念-分布式數(shù)據(jù)庫(kù)是計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境中各場(chǎng)地或節(jié)點(diǎn) 上的數(shù)據(jù)庫(kù)的邏輯集合。邏輯上它們屬于同一系 統(tǒng),而物理上它們分散在用計(jì)算機(jī)網(wǎng)絡(luò)連接

3、的多 個(gè)節(jié)點(diǎn)場(chǎng)地,并統(tǒng)一由一個(gè)分布式數(shù)據(jù)庫(kù)管理 系統(tǒng)管理。-云數(shù)據(jù)庫(kù)和分布式數(shù)據(jù)庫(kù)的共同點(diǎn)-云數(shù)據(jù)庫(kù)和傳統(tǒng)的分布式數(shù)據(jù)庫(kù)有著相似的地方, 比如,都把數(shù)據(jù)存放到不同的節(jié)點(diǎn)上。-云數(shù)據(jù)庫(kù)和分布式數(shù)據(jù)庫(kù)的區(qū)別-分布式數(shù)據(jù)庫(kù)在可擴(kuò)展性方面是無(wú)法和云數(shù)據(jù)庫(kù) 相比的:由于需要考慮數(shù)據(jù)同步和分區(qū)失敗等開(kāi)銷(xiāo),前 者隨著節(jié)點(diǎn)的增加,會(huì)導(dǎo)致DDB性能快速下降。而云數(shù)據(jù)庫(kù)則具有很好的可擴(kuò)展性,因?yàn)楹笳?在設(shè)計(jì)的時(shí)候,就已經(jīng)避免了許多會(huì)影響到可擴(kuò) 展性的因素,比如采用更加簡(jiǎn)單的數(shù)據(jù)模型、對(duì) 元數(shù)據(jù)和應(yīng)用數(shù)據(jù)進(jìn)行分離以及放松對(duì)一致性的 要求等等。服務(wù)器1ziyulin2013年9月第一版林子雨云數(shù)據(jù)庫(kù)的影響影響大數(shù)據(jù)技

4、術(shù)基礎(chǔ)廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)系1、極大地改變企業(yè)管理數(shù)據(jù)的方式Forrester Research分析師Noel2、催生新一代的數(shù)據(jù)庫(kù)技術(shù)3、數(shù)據(jù)庫(kù)市場(chǎng)份額面臨重新分配Yuhanna指出,18%的企業(yè)正在 把目光投向云數(shù)據(jù)庫(kù)。中小企業(yè)會(huì)更多地 采用云數(shù)據(jù)庫(kù)產(chǎn)品, 但是,對(duì)于大企業(yè)而 言,云數(shù)據(jù)庫(kù)并非首 選,因?yàn)榇笃髽I(yè)通常 自己建造數(shù)據(jù)中心。第一代是20世紀(jì)70年代的早期關(guān)系數(shù)據(jù)庫(kù)第二代是80到90年代的更加先進(jìn)的關(guān)系模型第三代的數(shù)據(jù)庫(kù)技術(shù),要求數(shù)據(jù)庫(kù)能夠靈活 處理各種類(lèi)型的數(shù)據(jù),而不是強(qiáng)制讓數(shù)據(jù)去適 應(yīng)預(yù)先定制的數(shù)據(jù)結(jié)構(gòu)。從數(shù)據(jù)模型設(shè)計(jì)方式來(lái)看,已經(jīng)有些產(chǎn)品(比如SimpleDB、HBase、 D

5、ynamo、BigTable)放棄傳統(tǒng)的行存儲(chǔ)方式,而采用鍵/值存儲(chǔ),從而可 以在分布式的云環(huán)境中獲得更好的性能。此前,Teradata、Oracle、IBM DB2、 Microsoft SQL Server、Sybase等傳統(tǒng)數(shù)據(jù)庫(kù) 廠商壟斷市場(chǎng)Amazon和Google扮演引領(lǐng)者角色新的云數(shù)據(jù)庫(kù)廠商開(kāi)始出現(xiàn) Vertica和EnterpriseDBCloudDatabaseziyulin2013年9月第一版林子雨云數(shù)據(jù)庫(kù)產(chǎn)品云數(shù)據(jù)庫(kù)市場(chǎng)先行者云數(shù)據(jù)庫(kù)市場(chǎng)重要參與者云數(shù)據(jù)庫(kù)市場(chǎng)主力軍云數(shù)據(jù)庫(kù)市場(chǎng)主力軍提供著名的S3存儲(chǔ)服務(wù)和EC2 計(jì)算服務(wù),提供基于云的數(shù)據(jù) 庫(kù)服務(wù)SimpleDBAmaz

6、on EC2應(yīng)用托管服務(wù)可 以部署多種數(shù)據(jù)庫(kù)產(chǎn)品,如 SQL Server、Oracle 11g、 MySQL和IBM DB2等數(shù)據(jù)庫(kù)平 臺(tái)HBaseCryansAA08和Hypertable 利用開(kāi)源MapReduce平臺(tái)Hadoop 提供了類(lèi)似于BigTable的可伸縮 數(shù)據(jù)庫(kù)實(shí)現(xiàn)甲骨文開(kāi)源數(shù)據(jù)庫(kù)產(chǎn)品 BerkelyDB也提供了云計(jì)算環(huán)境 中的實(shí)現(xiàn)Google BigTable是一種滿(mǎn)足弱一致性 要求的大規(guī)模數(shù)據(jù)庫(kù)系統(tǒng)Google開(kāi)發(fā)的另一款云計(jì)算數(shù)據(jù)庫(kù)產(chǎn) 品是Fusion Tables,采用了基于數(shù)據(jù)空 間的技術(shù)SQL AZure可以允許用戶(hù)通過(guò)網(wǎng)絡(luò) 在云中創(chuàng)建、查詢(xún)和使用SQL SER

7、VER數(shù)據(jù)庫(kù)屬于關(guān)系型數(shù)據(jù)庫(kù)支持云中的事務(wù)(局部事務(wù))支持存儲(chǔ)過(guò)程云數(shù)據(jù)庫(kù)產(chǎn)品大數(shù)據(jù)技術(shù)基礎(chǔ)廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)系A(chǔ)mazonGoogle開(kāi)源Microsoftziyulin2013年9月第一版林子雨云數(shù)據(jù)庫(kù)領(lǐng)域的研究問(wèn)題數(shù)據(jù)模型事務(wù)一致性云數(shù)據(jù)庫(kù)的重點(diǎn)研究問(wèn)題體系結(jié)構(gòu)編程模型大數(shù)據(jù)技術(shù)基礎(chǔ)廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)系z(mì)iyulin2013年9月第一版林子雨云數(shù)據(jù)庫(kù)領(lǐng)域的研究問(wèn)題-數(shù)據(jù)模型BigTable大數(shù)據(jù)技術(shù)基礎(chǔ)廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)系Row KeyTimestampColumn Familycontents:anchor:anchor:my.look.can.wwwt9CNNt8CNN.comt7t

8、6t5t4t3ziyulin2013年9月第一版林子雨云數(shù)據(jù)庫(kù)領(lǐng)域的研究問(wèn)題-數(shù)據(jù)模型表:一個(gè)表是一個(gè)邏輯關(guān)系,它包含一 個(gè)分區(qū)鍵,用來(lái)對(duì)表進(jìn)行分區(qū)。表組:具有相同分區(qū)鍵的多個(gè)表的集合, 稱(chēng)為表組。行組:在表組中,具有相同分區(qū)鍵值的 多個(gè)行的集合,稱(chēng)為行組。一個(gè)行組中包 含的行,總是被分配到同一個(gè)數(shù)據(jù)節(jié)點(diǎn)上。 每個(gè)表組會(huì)包含多個(gè)行組,這些行組會(huì)被 分配到不同的數(shù)據(jù)節(jié)點(diǎn)上。數(shù)據(jù)分區(qū):一個(gè)數(shù)據(jù)分區(qū)包含了多個(gè)行 組。因此,每個(gè)數(shù)據(jù)節(jié)點(diǎn)都存儲(chǔ)了位于某 個(gè)分區(qū)鍵值區(qū)間內(nèi)的所有行。關(guān)系模型大數(shù)據(jù)技術(shù)基礎(chǔ)廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)系z(mì)iyulin2013年9月第一版林子雨云數(shù)據(jù)庫(kù)領(lǐng)域的研究問(wèn)題-體系架構(gòu)實(shí)際上,為了

9、改進(jìn)性能,同時(shí)也為了避免管理器的性能瓶頸,通常會(huì)在客戶(hù)端緩存常用的分 區(qū)映射圖,這樣,客戶(hù)端在很多情況下不用與管理器交互就可以直接訪問(wèn)相應(yīng)的數(shù)據(jù)節(jié)點(diǎn)。1、客戶(hù)端首先向管理器請(qǐng)求一份分區(qū)映射圖2、管理器向客戶(hù)端發(fā)送分區(qū)映射圖3、客戶(hù)端在映射圖中根據(jù)鍵值找到所需數(shù)據(jù)的存儲(chǔ)位置4、客戶(hù)端到指定的數(shù)據(jù)節(jié)點(diǎn)請(qǐng)求數(shù)據(jù)5、由該數(shù)據(jù)節(jié)點(diǎn)把數(shù)據(jù)返回給客戶(hù)端數(shù)據(jù)訪問(wèn)方法大數(shù)據(jù)技術(shù)基礎(chǔ)廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)系z(mì)iyulin2013年9月第一版林子雨云數(shù)據(jù)庫(kù)領(lǐng)域的研究問(wèn)題-編程模型假設(shè)關(guān)系R(A,B)和S(B,C)都存儲(chǔ)在一個(gè)文件中。為了聯(lián)接這些關(guān)系,必須把來(lái)自每個(gè)關(guān)系的各個(gè)元組都和一個(gè)key關(guān)聯(lián),這個(gè)key就是屬性B的

10、值??梢允褂靡粋€(gè)Map進(jìn)程集合,把來(lái)自R的每個(gè)元組(a,b)轉(zhuǎn)換成一個(gè)key-value 對(duì),其中的key就是b,值就是(a,R)。注意,這里把關(guān)系R包含到value中,這 樣做使得我們可以在Reduce階段,只把那些來(lái)自R的元組和來(lái)自S的元組進(jìn) 行匹配。類(lèi)似地,可以使用一個(gè)Map進(jìn)程集合,把來(lái)自S的每個(gè)元組(b,c ),轉(zhuǎn)換成一 個(gè)key-value對(duì),key是b,value是(c,S)。這里把關(guān)系名字包含在屬性值中, 可以使得在Reduce階段只把那些來(lái)自不同關(guān)系的元組進(jìn)行合并。Reduce進(jìn)程的任務(wù)就是,把來(lái)自關(guān)系R和S的具有共同屬性B值的元組進(jìn)行合 并。這樣,所有具有特定B值的元組必須被發(fā)送到同一個(gè)Reduce進(jìn)程。假設(shè)使用k個(gè)Reduce進(jìn)程。這里選擇一個(gè)哈希函數(shù)h,它可以把屬性B的值映 射到k個(gè)哈希桶,每個(gè)哈希值對(duì)應(yīng)一個(gè)Reduce進(jìn)程。每個(gè)Map進(jìn)程把key是b 的key-value對(duì),都發(fā)送到與哈希值h(b)對(duì)應(yīng)的Reduce進(jìn)程。Reduce進(jìn)程把 聯(lián)接后的元組(a,b,c),寫(xiě)到一個(gè)單獨(dú)的輸出文件中。MapReduce在MapReduce環(huán)境下執(zhí)行兩個(gè)關(guān)系的聯(lián)接操作大數(shù)據(jù)技術(shù)基礎(chǔ)廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)系z(mì)iyulin2013年9月第一版林子雨主講教師和助教主講教師:林子雨單位:廈門(mén)大學(xué)計(jì)算機(jī)科學(xué)系E-mail: ziyulin個(gè)人網(wǎng)頁(yè):/linziyu

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論