版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
主講人:雷明大數(shù)據(jù)與云計(jì)算知識(shí)點(diǎn)HBASE數(shù)據(jù)庫(kù)簡(jiǎn)介存儲(chǔ)與管理貫穿大數(shù)據(jù)處理過(guò)程的始終。引言傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)難以應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)。我們知道一臺(tái)普通PC機(jī)的硬盤(pán)大概可以存儲(chǔ)1Tb的數(shù)據(jù),那么10Tb,100Tb,1000Tb怎么辦?再比如現(xiàn)在我們大多數(shù)同學(xué)都有云存儲(chǔ)空間,而且還不小有50GB的空間,那么10個(gè)、100個(gè)、10000個(gè)同學(xué)呢?我們說(shuō)1萬(wàn)個(gè)同學(xué)就有1萬(wàn)個(gè)50GB大小的空間,也就是500TB,這500TB的信息顯然不可能在一臺(tái)計(jì)算機(jī)上存儲(chǔ)。那又該如何存儲(chǔ),如何查詢(xún)呢?分布式數(shù)據(jù)庫(kù)HBase是一個(gè)分布式的非關(guān)系型數(shù)據(jù)庫(kù),一個(gè)高可靠、高性能、可伸縮的分布式數(shù)據(jù)庫(kù),是Nosql數(shù)據(jù)庫(kù),也就是NotOnly的縮寫(xiě)。它的擴(kuò)展性強(qiáng),并發(fā)性能好,數(shù)據(jù)模型靈活。屬于Hadoop的組件,它使用Java語(yǔ)言編寫(xiě),需要運(yùn)行在HDFS文件系統(tǒng)之上,使用Zookeeper作為協(xié)同服務(wù)組件。HBase與Hadoop當(dāng)中的其他組件一樣,可以運(yùn)行在多臺(tái)計(jì)算機(jī)上,可以提供數(shù)10億行乘以數(shù)百萬(wàn)列的大數(shù)據(jù)存儲(chǔ)、管理,以及隨機(jī)訪問(wèn)和實(shí)時(shí)讀、寫(xiě)的能力。分布式數(shù)據(jù)庫(kù)數(shù)據(jù)庫(kù)的核心目的是實(shí)現(xiàn)數(shù)據(jù)的高效管理,傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)一度占據(jù)商業(yè)數(shù)據(jù)庫(kù)應(yīng)用的主流位置分布式數(shù)據(jù)庫(kù)完備的關(guān)系理論基礎(chǔ)事務(wù)管理機(jī)制的支持高效的查詢(xún)優(yōu)化機(jī)制隨著web2.0應(yīng)用的發(fā)展,關(guān)系數(shù)據(jù)庫(kù)逐漸呈現(xiàn)不足:Schema-lessScalableNotransactions
Semi-structuredSchema
Hardtoscale
TransactionalStructured并發(fā)性可擴(kuò)展性可用性分布式數(shù)據(jù)庫(kù)HBase的原型是Google的分布式存儲(chǔ)系統(tǒng)BigTableBigTable使用谷歌分布式文件系統(tǒng)GFS作為底層數(shù)據(jù)存儲(chǔ),配合MapReduce分布式并行計(jì)算模型來(lái)處理海量數(shù)據(jù),采用Chubby提供協(xié)同服務(wù)管理可以擴(kuò)展到PB級(jí)別的數(shù)據(jù)和上千臺(tái)機(jī)器,具備廣泛應(yīng)用性、可擴(kuò)展性、高性能和高可用性等特點(diǎn)。作為BigTable的開(kāi)源實(shí)現(xiàn),HBase是一個(gè)高可靠、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫(kù),主要用來(lái)存儲(chǔ)非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)。HBase的目標(biāo)是處理非常龐大的表,通過(guò)水平擴(kuò)展的方式,利用廉價(jià)計(jì)算機(jī)集群處理由超過(guò)10億行數(shù)據(jù)和數(shù)百萬(wàn)列屬性組成的數(shù)據(jù)表數(shù)據(jù)類(lèi)型:關(guān)系數(shù)據(jù)庫(kù)采用關(guān)系模型,具有豐富的數(shù)據(jù)類(lèi)型和存儲(chǔ)方式,比如我們剛才說(shuō)的同學(xué)的成績(jī),這個(gè)就是整型的數(shù)據(jù)類(lèi)型,只能是整數(shù)。姓名就是字符型,長(zhǎng)度也可以固定,比如10個(gè)字符(5個(gè)漢字的長(zhǎng)度)。HBase則采用了更加簡(jiǎn)單的數(shù)據(jù)模型,它把數(shù)據(jù)存儲(chǔ)為未經(jīng)解釋的字符串,全部都是字符串。HBase與關(guān)系數(shù)據(jù)庫(kù)的區(qū)別數(shù)據(jù)操作:關(guān)系數(shù)據(jù)庫(kù)中包含了豐富的操作,其中會(huì)涉及復(fù)雜的多表連接。比如我們?cè)陉P(guān)系型數(shù)據(jù)庫(kù)中有兩張表,有一張是我們的成績(jī)信息,有一張表是我們的寢室信息家庭信息等等。這兩張表有一個(gè)相同的字段姓名,這樣我們就可以通過(guò)這個(gè)相同的字段把兩張表連接起來(lái)。HBase操作則不存在復(fù)雜的表與表之間的關(guān)系,只有簡(jiǎn)單的插入、查詢(xún)、刪除、清空等,因?yàn)镠Base在設(shè)計(jì)上就避免了復(fù)雜的表和表之間的關(guān)系。所以HBase也就不支持復(fù)雜的條件查詢(xún),只能是通過(guò)行鍵查詢(xún)。存儲(chǔ)模式:關(guān)系數(shù)據(jù)庫(kù)是基于行模式存儲(chǔ)的。我們說(shuō)每一行就是一條記錄。HBase是基于列存儲(chǔ)的,每個(gè)列簇都由幾個(gè)文件保存,不同列簇的文件是分離的。并且列簇中的列是可以動(dòng)態(tài)增加的,而關(guān)系數(shù)據(jù)庫(kù)需要一開(kāi)始就設(shè)計(jì)好。除此之外,HBase可以自動(dòng)切分?jǐn)?shù)據(jù),關(guān)系型數(shù)據(jù)庫(kù)則需要我們?nèi)斯で蟹謹(jǐn)?shù)據(jù)。數(shù)據(jù)索引:關(guān)系數(shù)據(jù)庫(kù)通??梢葬槍?duì)不同列構(gòu)建復(fù)雜的多個(gè)索引,以提高數(shù)據(jù)訪問(wèn)性能。HBase只有一個(gè)索引——行鍵,通過(guò)巧妙的設(shè)計(jì),HBase中的所有訪問(wèn)方法,或者通過(guò)行鍵訪問(wèn),或者通過(guò)行鍵掃描,從而使得整個(gè)系統(tǒng)不會(huì)慢下來(lái)??缮炜s性:關(guān)系數(shù)據(jù)庫(kù)很難實(shí)現(xiàn)橫向擴(kuò)展,縱向擴(kuò)展的空間也比較有限。相反,HBase分布式數(shù)據(jù)庫(kù)就是為了實(shí)現(xiàn)靈活的水平擴(kuò)展而開(kāi)發(fā)的,能夠輕易地通過(guò)在集群中增加或者減少硬件數(shù)量來(lái)實(shí)現(xiàn)性能的伸縮。數(shù)據(jù)維護(hù):在關(guān)系數(shù)據(jù)庫(kù)中,更新操作會(huì)用最新的當(dāng)前值去替換記錄中原來(lái)的舊值,舊值被覆蓋后就不會(huì)存在。而在HBase中執(zhí)行更新操作時(shí),并不會(huì)刪除數(shù)據(jù)舊的版本,而是生成一個(gè)新的版本,舊的版本仍然保留。數(shù)據(jù)庫(kù)的核心目的是實(shí)現(xiàn)數(shù)據(jù)的高效管理,傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)一度占據(jù)商業(yè)數(shù)據(jù)庫(kù)應(yīng)用的主流位置完備的關(guān)系理論基礎(chǔ)事務(wù)管理機(jī)制的支持高效的查詢(xún)優(yōu)化機(jī)制隨著信息化浪潮和互聯(lián)網(wǎng)應(yīng)用的興起,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)在一些業(yè)務(wù)上開(kāi)始呈現(xiàn)不足:無(wú)法滿(mǎn)足海量數(shù)據(jù)的管理需求無(wú)法滿(mǎn)足數(shù)據(jù)高并發(fā)的需求無(wú)法滿(mǎn)足高可擴(kuò)展性和高可用性的需求NoSQL最初被理解為一味用新型數(shù)據(jù)庫(kù)替代傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),但兩者各有優(yōu)缺點(diǎn),無(wú)法完全取代NoSQL是對(duì)非關(guān)系型數(shù)據(jù)庫(kù)的統(tǒng)稱(chēng),具有以下幾個(gè)特點(diǎn):靈活的可擴(kuò)展性靈活的數(shù)據(jù)模型與云計(jì)算緊密融合典型的NoSQL數(shù)據(jù)庫(kù)通常包括:鍵值數(shù)據(jù)庫(kù)列存儲(chǔ)數(shù)據(jù)庫(kù)文檔數(shù)據(jù)庫(kù)圖數(shù)據(jù)庫(kù)典型NoSQL數(shù)據(jù)庫(kù)鍵值數(shù)據(jù)庫(kù)(Key-Value)將數(shù)據(jù)存儲(chǔ)為鍵值對(duì)集合,其中鍵作為唯一標(biāo)識(shí)符,可以用來(lái)定位值。鍵值數(shù)據(jù)庫(kù)值對(duì)數(shù)據(jù)庫(kù)而言是不可見(jiàn)的,不能對(duì)值進(jìn)行索引和查詢(xún)。鍵是一個(gè)字符串對(duì)象,值可以是任意類(lèi)型的數(shù)據(jù),比如整型、字符型、數(shù)組、列表、集合等鍵值數(shù)據(jù)庫(kù)可以進(jìn)一步分為內(nèi)存鍵值數(shù)據(jù)庫(kù)和持久化鍵值數(shù)據(jù)庫(kù)內(nèi)存鍵值數(shù)據(jù)庫(kù)。鍵值數(shù)據(jù)庫(kù)是高度可分區(qū)的,具有高可擴(kuò)展性。列存儲(chǔ)數(shù)據(jù)庫(kù)列存儲(chǔ)數(shù)據(jù)庫(kù)主要面向海量數(shù)據(jù)的分布式存儲(chǔ)。列存儲(chǔ)數(shù)據(jù)庫(kù)一般采用列族數(shù)據(jù)庫(kù)模型,數(shù)據(jù)庫(kù)由多行構(gòu)成,每行數(shù)據(jù)包含多個(gè)列族,不同行可具有不同數(shù)量的列。每行數(shù)據(jù)通過(guò)行鍵進(jìn)行定位,行鍵對(duì)應(yīng)多個(gè)列,列以列族為單位組織存儲(chǔ)。典型的列數(shù)據(jù)庫(kù)包括Cassandra,HBase,HyperTable等。{"firstName":
"Bob","lastName":
"Smith","address":
{"street":"21
2ndStreet","city":
"New
York","state":
"NY","postalCode":
"10021"},"phoneNumbers":
[{"type":
“cell","number":
"(123)
555-0178"},{"type":
"Work","number":
"(890)
555-0133"},]}<contact><firstname>Bob</firstname><lastname>Smith</lastname><phone
type="Cell">(123)
555-0178</phone><phone
type="Work">(890)
555-0133</phone><address><type>Home</type><street>21
2nd
Street</street><city>New
York</city><state>NY</state><zip>10021</zip><country>US</country></address></contact>文檔數(shù)據(jù)庫(kù)“文檔”是處理信息的基本單位,相當(dāng)于關(guān)系數(shù)據(jù)庫(kù)中的一條記錄。旨在將半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)為文檔,通常用XML、JSON等文檔格式來(lái)封裝和編碼數(shù)據(jù)文檔數(shù)據(jù)庫(kù)用于存儲(chǔ)、檢索和管理面向文檔的信息。使用文檔內(nèi)容來(lái)構(gòu)建索引典型的文檔數(shù)據(jù)庫(kù)包括CouchDB,MongoDB,RavenDB等文檔數(shù)據(jù)庫(kù)文檔能夠?qū)Π臄?shù)據(jù)類(lèi)型和內(nèi)容進(jìn)行“自我描述”。文檔數(shù)據(jù)庫(kù)一個(gè)文檔可以包含非常復(fù)雜的數(shù)據(jù)結(jié)構(gòu),如嵌套對(duì)象,且每個(gè)文檔可以有完全不同的數(shù)據(jù)結(jié)構(gòu)。文檔數(shù)據(jù)庫(kù)圖數(shù)據(jù)庫(kù)圖數(shù)據(jù)庫(kù)(GraphDatabase)使用圖作為數(shù)據(jù)模型,通過(guò)節(jié)點(diǎn)、邊和屬性來(lái)表示和存儲(chǔ)數(shù)據(jù)。圖數(shù)據(jù)庫(kù)專(zhuān)門(mén)用于管理具有高度相互關(guān)聯(lián)關(guān)系的數(shù)據(jù)。如社交網(wǎng)絡(luò)、依賴(lài)分析、推薦系統(tǒng)以及路徑尋找等問(wèn)題。典型的圖數(shù)據(jù)庫(kù)包括Neo4J、InfiniteGraph、GraphDB等。NoSQL對(duì)比關(guān)系數(shù)據(jù)庫(kù)關(guān)系數(shù)據(jù)庫(kù)優(yōu)勢(shì)以完善的關(guān)系代數(shù)理論作為基礎(chǔ),有嚴(yán)格的標(biāo)準(zhǔn),支持事務(wù)ACID,借助索引機(jī)制可以實(shí)現(xiàn)高效的查詢(xún),技術(shù)成熟,有專(zhuān)業(yè)公司的技術(shù)支持??蓴U(kuò)展性較差,無(wú)法較好支持海量數(shù)據(jù)存儲(chǔ),數(shù)據(jù)模型不夠靈活、無(wú)法較好支持Web2.0應(yīng)用,事務(wù)機(jī)制影響了系統(tǒng)的整體性能等。劣勢(shì)NoSQL對(duì)比關(guān)系數(shù)據(jù)庫(kù)NoSQL數(shù)據(jù)庫(kù)優(yōu)勢(shì)可以支持超大規(guī)模數(shù)據(jù)存儲(chǔ),靈活的數(shù)據(jù)模型可以很好地支持Web2.0應(yīng)用,具有強(qiáng)大的橫向擴(kuò)展能力等。缺乏數(shù)學(xué)理論基礎(chǔ),復(fù)雜查詢(xún)性能不高,大都不能實(shí)現(xiàn)事務(wù)強(qiáng)一致性,很難實(shí)現(xiàn)數(shù)據(jù)完整性,缺乏專(zhuān)業(yè)團(tuán)隊(duì)的技術(shù)支持,維護(hù)較困難等。劣勢(shì)存儲(chǔ)業(yè)務(wù)數(shù)據(jù):交通工具GPS信息,司機(jī)點(diǎn)位信息,訂單信息,物流信息,設(shè)備訪問(wèn)信息,用戶(hù)行為信息等存儲(chǔ)日志數(shù)據(jù):架構(gòu)監(jiān)控?cái)?shù)據(jù)(登錄日志,中間件訪問(wèn)日志,推送日志,短信郵件發(fā)送記錄等),業(yè)務(wù)操作日志信息等存儲(chǔ)業(yè)務(wù)附件:UDFS系統(tǒng)存儲(chǔ)圖像,視頻
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《肺特殊CT征象》課件
- 《電能計(jì)量技術(shù)》課件
- 《家具的加工工藝》課件
- 第19課 七七事變與全民族抗戰(zhàn)(解析版)
- 《衛(wèi)生經(jīng)濟(jì)管理系統(tǒng)》課件
- 寒假自習(xí)課 25春初中道德與法治八年級(jí)下冊(cè)教學(xué)課件 第一單元 大單元整體設(shè)計(jì)
- 銀行宣傳推廣總結(jié)
- 《皮膚生理學(xué)》課件
- 素描藝術(shù)探索
- 風(fēng)險(xiǎn)監(jiān)測(cè)與追蹤培訓(xùn)
- 廣東省廣州市名校聯(lián)盟重點(diǎn)名校2024屆中考化學(xué)全真模擬試卷含解析
- 中考語(yǔ)文-排序題(30題含答案)-閱讀理解及答案
- 大學(xué)校園交通安全現(xiàn)狀調(diào)查分析
- (高清版)TDT 1013-2013 土地整治項(xiàng)目驗(yàn)收規(guī)程
- 我國(guó)農(nóng)村社會(huì)保障制度存在的問(wèn)題分析及對(duì)策樣本
- 西晉的短暫統(tǒng)一和北方各族的內(nèi)遷 一等獎(jiǎng)
- 語(yǔ)文新課標(biāo)背景下單元整體教學(xué):六下第4單元大單元設(shè)計(jì)
- 最高人民法院民事審判第一庭裁判觀點(diǎn)侵權(quán)責(zé)任卷
- 提高自我意識(shí)的方法
- 長(zhǎng)租公寓課件
- 《康復(fù)護(hù)理專(zhuān)科》課件
評(píng)論
0/150
提交評(píng)論