版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
Hive簡介Hive簡介
Hive是Facebook為了解決海量數(shù)據(jù)的統(tǒng)計分析。而開發(fā)的構(gòu)建在Hadoop之上的一個大數(shù)據(jù)分析和統(tǒng)計工具。Hive在某種程度上可以被看作用戶編程接口,采用了SQL的查詢語言HQL(HiveQL),便于熟悉SQL的用戶查詢數(shù)據(jù)。Hive簡介Hive本身并不能存儲和處理數(shù)據(jù),它依賴于HDFS,又不能直接訪問HDFS數(shù)據(jù),需要先把HQL語句轉(zhuǎn)換成MapReduce任務(wù),然后采用批處理的方式在Hadoop上對海量數(shù)據(jù)進(jìn)行處理。Hive工作流程Hive工作流程
Hive通過其提供的一系列交互接口,接收用戶的SQL指令。它使用自己的Driver程序,結(jié)合元數(shù)據(jù)(Metastore),將這些指令翻譯為MapReduce任務(wù)。然后,Hive將這些任務(wù)提交到Hadoop集群中執(zhí)行。最后,執(zhí)行結(jié)果會被返回給用戶交互接口,供用戶查看和使用。Hive工作流程在整個過程中,Hive充當(dāng)了用戶與Hadoop之間的橋梁,使得用戶能夠通過簡單的SQL指令對大規(guī)模數(shù)據(jù)進(jìn)行查詢和分析。
Hive的數(shù)據(jù)存儲模型Hive的數(shù)據(jù)存儲模型
Hive中所有的數(shù)據(jù)都被存儲在HDFS中,沒有專門的數(shù)據(jù)存儲格式(可支持Text、Avro、ORC、SequenceFile、ParquetFile、RCFile等),只需要在創(chuàng)建表時指定Hive數(shù)據(jù)中的列分隔符和行分隔符,Hive就可以解析數(shù)據(jù)。Hive的數(shù)據(jù)存儲模型創(chuàng)建一個內(nèi)部表cityInfo(cityID,cityName,population),代碼如下:createtablecityInfo(>cityIDstring,>cityNamestring,>populationint)>rowformatdelimited>fieldsterminatedby','>storedastextfile;Hive的數(shù)據(jù)存儲模型Hive中的數(shù)據(jù)模型包括數(shù)據(jù)庫(Database)、表(Table)、分區(qū)(Partition)和桶(Bucket)。Hive的數(shù)據(jù)存儲模型(1)數(shù)據(jù)庫(Database):在HDFS中,數(shù)據(jù)庫表現(xiàn)為${hive.Metastore.warehouse.dir}目錄下的一個文件夾。在創(chuàng)建表時,如果不指定數(shù)據(jù)庫,則默認(rèn)為“default”數(shù)據(jù)庫。(2)表(Table):在HDFS中,表表現(xiàn)為所屬數(shù)據(jù)庫目錄下的一個文件夾。Hive中默認(rèn)創(chuàng)建的是內(nèi)部表,這種表的數(shù)據(jù)由Hive來管理。當(dāng)刪除表時,表的數(shù)據(jù)和元數(shù)據(jù)都會被刪除。Hive的數(shù)據(jù)存儲模型(3)分區(qū)(Partition):在Hive表查詢時,可能只需要掃描表中的某部分?jǐn)?shù)據(jù),不需要掃描表中的全部內(nèi)容,因此在建表時引入了分區(qū)的概念。在Hive表查詢時,如果指定了分區(qū)字段作為篩選條件,那么只需要到對應(yīng)的分區(qū)目錄中檢索數(shù)據(jù)即可,減少了處理的數(shù)據(jù)量,從而有效地提高了效率。Hive的數(shù)據(jù)存儲模型(4)桶(Bucket):桶可以被理解為將“大表”細(xì)分為“小表”的一種數(shù)據(jù)結(jié)構(gòu)。這種設(shè)計主要是為了提高查詢效率,使得進(jìn)行抽樣查詢時更加便捷。Hive的數(shù)據(jù)存儲模型桶是Hive數(shù)據(jù)模型中的最小單元。當(dāng)某數(shù)據(jù)被加載到桶中時,首先會根據(jù)字段的值對其進(jìn)行哈希處理,然后用哈希結(jié)果除以桶的數(shù)量來決定該數(shù)據(jù)應(yīng)該存儲在哪個桶中。這樣就確保了每個桶中都有數(shù)據(jù),但每個桶中的數(shù)據(jù)條數(shù)可能并不相等。Hive的數(shù)據(jù)存儲模型數(shù)據(jù)加載-哈希取值-分桶Hive的數(shù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2024版石灰石供應(yīng)合同模板
- 二零二五年度應(yīng)急管理及救援裝備租賃合同3篇
- 2025年度人工智能專利池共享與許可合同3篇
- 2025年度城市公共交通設(shè)施建設(shè)合同規(guī)范3篇
- 二零二四年商業(yè)地產(chǎn)項目新型業(yè)態(tài)招商代理服務(wù)合同樣本3篇
- 年度芳香除臭化學(xué)品:空氣清新劑產(chǎn)業(yè)分析報告
- 2025年新型材料現(xiàn)貨購銷合同標(biāo)準(zhǔn)范本3篇
- 2024-2025學(xué)年高中歷史第二單元古希臘和古羅馬的政治制度單元總結(jié)學(xué)案含解析岳麓版必修1
- 2025年度校園配送服務(wù)食品安全快速檢測質(zhì)量管理體系建設(shè)合同3篇
- 2025年度人工智能算法工程師保密協(xié)議及知識產(chǎn)權(quán)保護(hù)合同3篇
- 2025年病案編碼員資格證試題庫(含答案)
- 企業(yè)財務(wù)三年戰(zhàn)略規(guī)劃
- 提高膿毒性休克患者1h集束化措施落實率
- 山東省濟(jì)南市天橋區(qū)2024-2025學(xué)年八年級數(shù)學(xué)上學(xué)期期中考試試題
- 主播mcn合同模板
- 新疆2024年中考數(shù)學(xué)試卷(含答案)
- 2024測繪個人年終工作總結(jié)
- DB11 637-2015 房屋結(jié)構(gòu)綜合安全性鑒定標(biāo)準(zhǔn)
- 制造業(yè)生產(chǎn)流程作業(yè)指導(dǎo)書
- DB34∕T 4444-2023 企業(yè)信息化系統(tǒng)上云評估服務(wù)規(guī)范
- 福建中閩能源股份有限公司招聘筆試題庫2024
評論
0/150
提交評論