版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Hive的數(shù)據(jù)存儲模型Hive的數(shù)據(jù)存儲模型
Hive中所有的數(shù)據(jù)都被存儲在HDFS中,沒有專門的數(shù)據(jù)存儲格式(可支持Text、Avro、ORC、SequenceFile、ParquetFile、RCFile等),只需要在創(chuàng)建表時(shí)指定Hive數(shù)據(jù)中的列分隔符和行分隔符,Hive就可以解析數(shù)據(jù)。Hive的數(shù)據(jù)存儲模型創(chuàng)建一個(gè)內(nèi)部表cityInfo(cityID,cityName,population),代碼如下:createtablecityInfo(>cityIDstring,>cityNamestring,>populationint)>rowformatdelimited>fieldsterminatedby','>storedastextfile;Hive的數(shù)據(jù)存儲模型Hive中的數(shù)據(jù)模型包括數(shù)據(jù)庫(Database)、表(Table)、分區(qū)(Partition)和桶(Bucket)。Hive的數(shù)據(jù)存儲模型(1)數(shù)據(jù)庫(Database):在HDFS中,數(shù)據(jù)庫表現(xiàn)為${hive.Metastore.warehouse.dir}目錄下的一個(gè)文件夾。在創(chuàng)建表時(shí),如果不指定數(shù)據(jù)庫,則默認(rèn)為“default”數(shù)據(jù)庫。(2)表(Table):在HDFS中,表表現(xiàn)為所屬數(shù)據(jù)庫目錄下的一個(gè)文件夾。Hive中默認(rèn)創(chuàng)建的是內(nèi)部表,這種表的數(shù)據(jù)由Hive來管理。當(dāng)刪除表時(shí),表的數(shù)據(jù)和元數(shù)據(jù)都會被刪除。Hive的數(shù)據(jù)存儲模型(3)分區(qū)(Partition):在Hive表查詢時(shí),可能只需要掃描表中的某部分?jǐn)?shù)據(jù),不需要掃描表中的全部內(nèi)容,因此在建表時(shí)引入了分區(qū)的概念。在Hive表查詢時(shí),如果指定了分區(qū)字段作為篩選條件,那么只需要到對應(yīng)的分區(qū)目錄中檢索數(shù)據(jù)即可,減少了處理的數(shù)據(jù)量,從而有效地提高了效率。Hive的數(shù)據(jù)存儲模型(4)桶(Bucket):桶可以被理解為將“大表”細(xì)分為“小表”的一種數(shù)據(jù)結(jié)構(gòu)。這種設(shè)計(jì)主要是為了提高查詢效率,使得進(jìn)行抽樣查詢時(shí)更加便捷。Hive的數(shù)據(jù)存儲模型桶是Hive數(shù)據(jù)模型中的最小單元。當(dāng)某數(shù)據(jù)被加載到桶中時(shí),首先會根據(jù)字段的值對其進(jìn)行哈希處理,然后用哈希結(jié)果除以桶的數(shù)量來決定該數(shù)據(jù)應(yīng)該存儲在哪個(gè)桶中。這樣就確保了每個(gè)桶中都有數(shù)據(jù),但每個(gè)桶中的數(shù)據(jù)條數(shù)可能并不相等。Hive的數(shù)據(jù)存儲模型數(shù)據(jù)加載-哈希取值-分桶Hive的數(shù)據(jù)存儲模型桶是一種技術(shù),用于將數(shù)據(jù)分解為更小、更易管
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 小數(shù)點(diǎn)位置移動引起小數(shù)大小的變化課件
- 新生兒氣道管理課件
- 焊接工藝課件-焊條電弧焊V形坡口板對接橫焊
- 《慢阻肺gold指南》課件
- 《草帽圖解析話術(shù)》課件
- 《心理學(xué)章》課件
- 【課件】發(fā)現(xiàn)你的優(yōu)勢
- 【大學(xué)課件】建筑電氣安裝工程定額計(jì)價(jià)
- 單位管理制度展示匯編【人力資源管理】
- 單位管理制度展示大全職工管理篇
- 無錫市區(qū)2024-2025學(xué)年四年級上學(xué)期數(shù)學(xué)期末試題一(有答案)
- 血液凈化中心院內(nèi)感染控制課件
- 年產(chǎn)1.5萬噸長鏈二元酸工程建設(shè)項(xiàng)目可研報(bào)告
- 紡織廠消防管道安裝協(xié)議
- 【MOOC】思辨式英文寫作-南開大學(xué) 中國大學(xué)慕課MOOC答案
- 期末測試卷(試題)-2024-2025學(xué)年五年級上冊數(shù)學(xué)北師大版
- 2024年下半年中國石油大連石化分公司招聘30人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 國有企業(yè)品牌建設(shè)策略方案
- 2024年河南省公務(wù)員考試《行測》真題及答案解析
- 家政培訓(xùn)講師課件
- 廣東省深圳市龍華區(qū)2023-2024學(xué)年八年級下學(xué)期期中數(shù)學(xué)試題
評論
0/150
提交評論