14.2 Hive數(shù)據(jù)存儲模型_第1頁
14.2 Hive數(shù)據(jù)存儲模型_第2頁
14.2 Hive數(shù)據(jù)存儲模型_第3頁
14.2 Hive數(shù)據(jù)存儲模型_第4頁
14.2 Hive數(shù)據(jù)存儲模型_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Hive的數(shù)據(jù)存儲模型Hive的數(shù)據(jù)存儲模型

Hive中所有的數(shù)據(jù)都被存儲在HDFS中,沒有專門的數(shù)據(jù)存儲格式(可支持Text、Avro、ORC、SequenceFile、ParquetFile、RCFile等),只需要在創(chuàng)建表時(shí)指定Hive數(shù)據(jù)中的列分隔符和行分隔符,Hive就可以解析數(shù)據(jù)。Hive的數(shù)據(jù)存儲模型創(chuàng)建一個(gè)內(nèi)部表cityInfo(cityID,cityName,population),代碼如下:createtablecityInfo(>cityIDstring,>cityNamestring,>populationint)>rowformatdelimited>fieldsterminatedby','>storedastextfile;Hive的數(shù)據(jù)存儲模型Hive中的數(shù)據(jù)模型包括數(shù)據(jù)庫(Database)、表(Table)、分區(qū)(Partition)和桶(Bucket)。Hive的數(shù)據(jù)存儲模型(1)數(shù)據(jù)庫(Database):在HDFS中,數(shù)據(jù)庫表現(xiàn)為${hive.Metastore.warehouse.dir}目錄下的一個(gè)文件夾。在創(chuàng)建表時(shí),如果不指定數(shù)據(jù)庫,則默認(rèn)為“default”數(shù)據(jù)庫。(2)表(Table):在HDFS中,表表現(xiàn)為所屬數(shù)據(jù)庫目錄下的一個(gè)文件夾。Hive中默認(rèn)創(chuàng)建的是內(nèi)部表,這種表的數(shù)據(jù)由Hive來管理。當(dāng)刪除表時(shí),表的數(shù)據(jù)和元數(shù)據(jù)都會被刪除。Hive的數(shù)據(jù)存儲模型(3)分區(qū)(Partition):在Hive表查詢時(shí),可能只需要掃描表中的某部分?jǐn)?shù)據(jù),不需要掃描表中的全部內(nèi)容,因此在建表時(shí)引入了分區(qū)的概念。在Hive表查詢時(shí),如果指定了分區(qū)字段作為篩選條件,那么只需要到對應(yīng)的分區(qū)目錄中檢索數(shù)據(jù)即可,減少了處理的數(shù)據(jù)量,從而有效地提高了效率。Hive的數(shù)據(jù)存儲模型(4)桶(Bucket):桶可以被理解為將“大表”細(xì)分為“小表”的一種數(shù)據(jù)結(jié)構(gòu)。這種設(shè)計(jì)主要是為了提高查詢效率,使得進(jìn)行抽樣查詢時(shí)更加便捷。Hive的數(shù)據(jù)存儲模型桶是Hive數(shù)據(jù)模型中的最小單元。當(dāng)某數(shù)據(jù)被加載到桶中時(shí),首先會根據(jù)字段的值對其進(jìn)行哈希處理,然后用哈希結(jié)果除以桶的數(shù)量來決定該數(shù)據(jù)應(yīng)該存儲在哪個(gè)桶中。這樣就確保了每個(gè)桶中都有數(shù)據(jù),但每個(gè)桶中的數(shù)據(jù)條數(shù)可能并不相等。Hive的數(shù)據(jù)存儲模型數(shù)據(jù)加載-哈希取值-分桶Hive的數(shù)據(jù)存儲模型桶是一種技術(shù),用于將數(shù)據(jù)分解為更小、更易管

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論