Hive 核心知識(shí)點(diǎn)靈魂 16 問(wèn)_第1頁(yè)
Hive 核心知識(shí)點(diǎn)靈魂 16 問(wèn)_第2頁(yè)
Hive 核心知識(shí)點(diǎn)靈魂 16 問(wèn)_第3頁(yè)
Hive 核心知識(shí)點(diǎn)靈魂 16 問(wèn)_第4頁(yè)
Hive 核心知識(shí)點(diǎn)靈魂 16 問(wèn)_第5頁(yè)
已閱讀5頁(yè),還剩5頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Hive核心知識(shí)點(diǎn)靈魂16問(wèn)本文目錄No1.請(qǐng)談一下Hive的特點(diǎn)No2.Hive底層與數(shù)據(jù)庫(kù)交互原理?No3.Hive的HSQL轉(zhuǎn)換為MapReduce的過(guò)程?No4.Hive的兩張表關(guān)聯(lián),使用MapReduce怎么實(shí)現(xiàn)?No5.請(qǐng)說(shuō)明hive中SortBy,OrderBy,ClusterBy,DistrbuteBy各代表什么意思?No6.寫(xiě)出hive中split、coalesce及collect_list函數(shù)的用法(可舉例)?No7.Hive有哪些方式保存元數(shù)據(jù),各有哪些特點(diǎn)?No.8內(nèi)部表和外部表的區(qū)別,以及各自的使用場(chǎng)景No9.Hive中的壓縮格式TextFile、SequenceFile、RCfile、ORCfile各有什么區(qū)別?1.TextFile2.SequenceFile3.

RCFile4.

ORCFileNo10.所有的Hive任務(wù)都會(huì)有MapReduce的執(zhí)行嗎?No11.Hive的函數(shù):UDF、UDAF、UDTF的區(qū)別?No12.說(shuō)說(shuō)對(duì)Hive桶表的理解?No13.Hive表關(guān)聯(lián)查詢(xún),如何解決數(shù)據(jù)傾斜的問(wèn)題?No14.了解過(guò)Hive的哪些窗口函數(shù)No.15小文件是如何產(chǎn)生的,解決方案No.16Tez引擎優(yōu)點(diǎn)1請(qǐng)談一下Hive的特點(diǎn)

hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫(kù)表,并提供完整的sql查詢(xún)功能,可以將sql語(yǔ)句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行。

其優(yōu)點(diǎn)是學(xué)習(xí)成本低,可以通過(guò)類(lèi)SQL語(yǔ)句快速實(shí)現(xiàn)簡(jiǎn)單的MapReduce統(tǒng)計(jì),不必開(kāi)發(fā)專(zhuān)門(mén)的MapReduce應(yīng)用,十分適合數(shù)據(jù)倉(cāng)庫(kù)的統(tǒng)計(jì)分析,但是Hive不支持實(shí)時(shí)查詢(xún)。

2Hive底層與數(shù)據(jù)庫(kù)交互原理?

由于Hive的元數(shù)據(jù)可能要面臨不斷地更新、修改和讀取操作,所以它顯然不適合使用Hadoop文件系統(tǒng)進(jìn)行存儲(chǔ)。

目前Hive將元數(shù)據(jù)存儲(chǔ)在RDBMS中,比如存儲(chǔ)在MySQL、Derby中。元數(shù)據(jù)信息包括:存在的表、表的列、權(quán)限和更多的其他信息。3Hive的HSQL轉(zhuǎn)換為MapReduce的過(guò)程?

HiveSQL->AST(抽象語(yǔ)法樹(shù))->QB(查詢(xún)塊)->OperatorTree(操作樹(shù))->優(yōu)化后的操作樹(shù)->mapreduce任務(wù)樹(shù)->優(yōu)化后的mapreduce任務(wù)樹(shù)

過(guò)程描述如下:

SQLParser:Antlr定義SQL的語(yǔ)法規(guī)則,完成SQL詞法,語(yǔ)法解析,將SQL轉(zhuǎn)化為抽象語(yǔ)法樹(shù)ASTTree;

SemanticAnalyzer:遍歷ASTTree,抽象出查詢(xún)的基本組成單元QueryBlock;

Logicalplan:遍歷QueryBlock,翻譯為執(zhí)行操作樹(shù)OperatorTree;

Logicalplanoptimizer:邏輯層優(yōu)化器進(jìn)行OperatorTree變換,合并不必要的ReduceSinkOperator,減少shuffle數(shù)據(jù)量;

Physicalplan:遍歷OperatorTree,翻譯為MapReduce任務(wù);

Logicalplanoptimizer:物理層優(yōu)化器進(jìn)行MapReduce任務(wù)的變換,生成最終的執(zhí)行計(jì)劃;4Hive的兩張表關(guān)聯(lián),使用MapReduce怎么實(shí)現(xiàn)?

如果其中有一張表為小表,直接使用map端join的方式(map端加載小表)進(jìn)行聚合。

如果兩張都是大表,例如分別是客戶(hù)表和訂單表。那么采用聯(lián)合key,聯(lián)合key的第一個(gè)組成部分是joinon中的公共字段,第二部分是一個(gè)flag,0代表表A,1代表表B,由此讓Reduce區(qū)分客戶(hù)信息和訂單信息;在Mapper中同時(shí)處理兩張表的信息,將joinon公共字段相同的數(shù)據(jù)劃分到同一個(gè)分區(qū)中,進(jìn)而傳遞到一個(gè)Reduce中,然后在Reduce中實(shí)現(xiàn)聚合。5請(qǐng)說(shuō)明hive中SortBy,OrderBy,ClusterBy,DistrbuteBy各代表什么意思?

orderby:會(huì)對(duì)輸入做全局排序,因此只有一個(gè)reducer(多個(gè)reducer無(wú)法保證全局有序)。只有一個(gè)reducer,會(huì)導(dǎo)致當(dāng)輸入規(guī)模較大時(shí),需要較長(zhǎng)的計(jì)算時(shí)間。

sortby:分區(qū)內(nèi)有序,不是全局排序,其在數(shù)據(jù)進(jìn)入reducer前完成排序

distributeby:按照指定的字段對(duì)數(shù)據(jù)進(jìn)行劃分輸出到不同的reduce中,結(jié)合soryby使用

clusterby:當(dāng)Distributeby和Sortsby字段相同時(shí),可以使用Clusterby方式。Clusterby除了具有Distributeby的功能外還兼具Sortby的功能。但是排序只能是升序排序,不能指定排序規(guī)則為ASC或者DESC。6寫(xiě)出hive中split、coalesce及collect_list函數(shù)的用法(可舉例)?

split將字符串轉(zhuǎn)化為數(shù)組,即:split('a,b,c,d',',')==>["a","b","c","d"]

coalesce(Tv1,Tv2,…)返回參數(shù)中的第一個(gè)非空值;如果所有值都為NULL,那么返回NULL。

collect_list列出該字段所有的值,不去重=>selectcollect_list(id)fromtable7Hive有哪些方式保存元數(shù)據(jù),各有哪些特點(diǎn)?

Hive支持三種不同的元存儲(chǔ)服務(wù)器,分別為:內(nèi)嵌式元存儲(chǔ)服務(wù)器、本地元存儲(chǔ)服務(wù)器、遠(yuǎn)程元存儲(chǔ)服務(wù)器,每種存儲(chǔ)方式使用不同的配置參數(shù)。

內(nèi)嵌式元存儲(chǔ)主要用于單元測(cè)試,在該模式下每次只有一個(gè)進(jìn)程可以連接到元存儲(chǔ),Derby是內(nèi)嵌式元存儲(chǔ)的默認(rèn)數(shù)據(jù)庫(kù)。

在本地模式下,每個(gè)Hive客戶(hù)端都會(huì)打開(kāi)到數(shù)據(jù)存儲(chǔ)的連接并在該連接上請(qǐng)求SQL查詢(xún)。

在遠(yuǎn)程模式下,所有的Hive客戶(hù)端都將打開(kāi)一個(gè)到元數(shù)據(jù)服務(wù)器的連接,該服務(wù)器依次查詢(xún)?cè)獢?shù)據(jù),元數(shù)據(jù)服務(wù)器和客戶(hù)端之間使用Thrift協(xié)議通信。8內(nèi)部表和外部表的區(qū)別,以及各自的使用場(chǎng)景內(nèi)部表

如果Hive中沒(méi)有特別指定,則默認(rèn)創(chuàng)建的表都是管理表,也稱(chēng)內(nèi)部表。由Hive負(fù)責(zé)管理表中的數(shù)據(jù),管理表不共享數(shù)據(jù)。刪除管理表時(shí),會(huì)刪除管理表中的數(shù)據(jù)和元數(shù)據(jù)信息。外部表

當(dāng)一份數(shù)據(jù)需要被共享時(shí),可以創(chuàng)建一個(gè)外部表指向這份數(shù)據(jù)。

刪除該表并不會(huì)刪除掉原始數(shù)據(jù),刪除的是表的元數(shù)據(jù)。這樣外部表相對(duì)來(lái)說(shuō)更加安全些,數(shù)據(jù)組織也更加靈活,方便共享源數(shù)據(jù)。當(dāng)表結(jié)構(gòu)或者分區(qū)數(shù)發(fā)生變化時(shí),需要進(jìn)行一步修復(fù)的操作。9Hive中的壓縮格式TextFile、SequenceFile、RCfile、ORCfile各有什么區(qū)別? 1.TextFile

默認(rèn)格式,存儲(chǔ)方式為行存儲(chǔ),數(shù)據(jù)不做壓縮,磁盤(pán)開(kāi)銷(xiāo)大,數(shù)據(jù)解析開(kāi)銷(xiāo)大??山Y(jié)合Gzip、Bzip2使用(系統(tǒng)自動(dòng)檢查,執(zhí)行查詢(xún)時(shí)自動(dòng)解壓),但使用這種方式,壓縮后的文件不支持split,Hive不會(huì)對(duì)數(shù)據(jù)進(jìn)行切分,從而無(wú)法對(duì)數(shù)據(jù)進(jìn)行并行操作。并且在反序列化過(guò)程中,必須逐個(gè)字符判斷是不是分隔符和行結(jié)束符,因此反序列化開(kāi)銷(xiāo)會(huì)比SequenceFile高幾十倍。 2.SequenceFile

SequenceFile是HadoopAPI提供的一種二進(jìn)制文件支持,存儲(chǔ)方式為行存儲(chǔ),其具有使用方便、可分割、可壓縮的特點(diǎn)。

SequenceFile支持三種壓縮選擇:NONE,RECORD,BLOCK。Record壓縮率低,一般建議使用BLOCK壓縮。

優(yōu)勢(shì)是文件和hadoopapi中的MapFile是相互兼容的。 3、RCFile

存儲(chǔ)方式:數(shù)據(jù)按行分塊,每塊按列存儲(chǔ)。結(jié)合了行存儲(chǔ)和列存儲(chǔ)的優(yōu)點(diǎn):

首先,RCFile保證同一行的數(shù)據(jù)位于同一節(jié)點(diǎn),因此元組重構(gòu)的開(kāi)銷(xiāo)很低;

其次,像列存儲(chǔ)一樣,RCFile能夠利用列維度的數(shù)據(jù)壓縮,并且能跳過(guò)不必要的列讀?。?4、ORCFile

存儲(chǔ)方式:數(shù)據(jù)按行分塊每塊按照列存儲(chǔ)。

壓縮快、快速列存取。

效率比rcfile高,是rcfile的改良版本??偨Y(jié):

相比TEXTFILE和SEQUENCEFILE,RCFILE由于列式存儲(chǔ)方式,數(shù)據(jù)加載時(shí)性能消耗較大,但是具有較好的壓縮比和查詢(xún)響應(yīng)。

數(shù)據(jù)倉(cāng)庫(kù)的特點(diǎn)是一次寫(xiě)入、多次讀取,因此,整體來(lái)看,RCFILE相比其余兩種格式具有較明顯的優(yōu)勢(shì)。10所有的Hive任務(wù)都會(huì)有MapReduce的執(zhí)行嗎?

不是,從Hive0.10.0版本開(kāi)始,對(duì)于簡(jiǎn)單的不需要聚合的類(lèi)似SELECTfromLIMITn語(yǔ)句,不需要起MapReducejob,直接通過(guò)Fetchtask獲取數(shù)據(jù)。

11Hive的函數(shù):UDF、UDAF、UDTF的區(qū)別?

UDF:?jiǎn)涡羞M(jìn)入,單行輸出

UDAF:多行進(jìn)入,單行輸出

UDTF:?jiǎn)涡休斎耄嘈休敵?2說(shuō)說(shuō)對(duì)Hive桶表的理解?

桶表是對(duì)數(shù)據(jù)進(jìn)行哈希取值,然后放到不同文件中存儲(chǔ)。

數(shù)據(jù)加載到桶表時(shí),會(huì)對(duì)字段取hash值,然后與桶的數(shù)量取模。把數(shù)據(jù)放到對(duì)應(yīng)的文件中。物理上,每個(gè)桶就是表(或分區(qū))目錄里的一個(gè)文件,一個(gè)作業(yè)產(chǎn)生的桶(輸出文件)和reduce任務(wù)個(gè)數(shù)相同。

桶表專(zhuān)門(mén)用于抽樣查詢(xún),是很專(zhuān)業(yè)性的,不是日常用來(lái)存儲(chǔ)數(shù)據(jù)的表,需要抽樣查詢(xún)時(shí),才創(chuàng)建和使用桶表。13

Hive表關(guān)聯(lián)查詢(xún),如何解決數(shù)據(jù)傾斜的問(wèn)題?

定位原因:

map輸出數(shù)據(jù)按keyHash的分配到reduce中,由于key分布不均勻、業(yè)務(wù)數(shù)據(jù)本身的特點(diǎn)、建表時(shí)考慮不周、某些SQL語(yǔ)句本身就有數(shù)據(jù)傾斜等原因造成的reduce上的數(shù)據(jù)量差異過(guò)大。

如何避免:

對(duì)于key為空產(chǎn)生的數(shù)據(jù)傾斜,可以對(duì)其賦予一個(gè)隨機(jī)值

解決方案:(1)參數(shù)調(diào)節(jié):hive.map.aggr=true

hive.groupby.skewindata=true

有數(shù)據(jù)傾斜的時(shí)候進(jìn)行負(fù)載均衡,當(dāng)選項(xiàng)設(shè)定位true,生成的查詢(xún)計(jì)劃會(huì)有兩個(gè)MRJob。第一個(gè)MRJob中,Map的輸出結(jié)果集合會(huì)隨機(jī)分布到Reduce中,每個(gè)Reduce做部分聚合操作,并輸出結(jié)果,這樣處理的結(jié)果是相同的GroupByKey有可能被分發(fā)到不同的Reduce中,從而達(dá)到負(fù)載均衡的目的;

第二個(gè)MRJob再根據(jù)預(yù)處理的數(shù)據(jù)結(jié)果按照GroupByKey分布到Reduce中(這個(gè)過(guò)程可以保證相同的GroupByKey被分布到同一個(gè)Reduce中),最后完成最終的聚合操作(2)SQL語(yǔ)句調(diào)節(jié):①選用joinkey分布最均勻的表作為驅(qū)動(dòng)表。做好列裁剪和filter操作,以達(dá)到兩表做join的時(shí)候,數(shù)據(jù)量相對(duì)變小的效果。②大小表Join:使用mapjoin讓小的維度表(1000條以下的記錄條數(shù))先進(jìn)內(nèi)存。在map端完成reduce。③大表Join大表:把空值的key變成一個(gè)字符串加上隨機(jī)數(shù),把傾斜的數(shù)據(jù)分到不同的reduce上,由于null值關(guān)聯(lián)不上,處理后并不影響最終結(jié)果。④countdistinct大量相同特殊值:countdistinct時(shí),將值為空的情況單獨(dú)處理,如果是計(jì)算countdistinct,可以不用處理,直接過(guò)濾,在最后結(jié)果中加1。如果還有其他計(jì)算,需要進(jìn)行g(shù)roupby,可以先將值為空的記錄單獨(dú)處理,再和其他計(jì)算結(jié)果進(jìn)行union。更多調(diào)優(yōu)技巧可以關(guān)注大數(shù)據(jù)夢(mèng)想家公眾號(hào),后臺(tái)回復(fù)“hive調(diào)優(yōu)”即可解鎖“hive性能調(diào)優(yōu)指南”.pdf14了解過(guò)Hive的哪些窗口函數(shù)1)Rank

(1)RANK()排序相同時(shí)會(huì)重復(fù),總數(shù)不會(huì)變

(2)DENSE_RANK()排序相同時(shí)會(huì)重復(fù),總數(shù)會(huì)減少

(3)ROW_NUMBER()會(huì)根據(jù)順序計(jì)算2)OVER()

指定分析函數(shù)工作的數(shù)據(jù)窗口大小,這個(gè)數(shù)據(jù)窗口大小可能會(huì)隨著行的變而變化

(1)CURRENTROW:當(dāng)前行

(2)nPRECEDING:往前n行數(shù)據(jù)

(3)nFOLLOWING:往后n行數(shù)據(jù)

(4)UNBOUNDED:起點(diǎn),UNBOUNDEDPRECEDING表示從前面的起點(diǎn),UNBOUNDEDFOLLOWING表示到后面的終點(diǎn)

(5)LAG(col,n):往前第n行數(shù)據(jù)

(6)LEAD(col,n):往后第n行數(shù)據(jù)

(7)NTILE(n):把有序分區(qū)中的行分發(fā)到指定數(shù)據(jù)的組中,各個(gè)組有編號(hào),編號(hào)從1開(kāi)始,對(duì)于每一行,NTILE返回此行所屬的組的編號(hào)。注意:n必須為int類(lèi)型。15小文件是如何產(chǎn)生的,解決方案

定位原因:

(1)動(dòng)態(tài)分區(qū)插入數(shù)據(jù),產(chǎn)生大量的小文件,從而導(dǎo)致map數(shù)量劇增;

(2)reduce數(shù)量越多,小文件也越多(reduce的個(gè)數(shù)和輸出文件是對(duì)應(yīng)的)

(3)數(shù)據(jù)源本身就包含大量的小文件。

解決方案:

(1)在Map執(zhí)行前合并小文件,減少M(fèi)ap數(shù):CombineHiveInputFormat具有對(duì)小文件進(jìn)行合并的功能(系統(tǒng)默認(rèn)的格式)。H

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論