Hadoop試題試題庫完整

上傳人：無*** IP屬地：河北上傳時間：2024-03-14 格式：PDF 頁數(shù)：14 大?。?.99MB 積分：12 舉報 版權(quán)申訴

已閱讀5頁，還剩9頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

1.以下哪一項不屬于Hadoop可以運行的模式__C_o

A.單機（本地）模式

B.偽分布式模式

C.互聯(lián)模式

D.分布式模式

2.Hadoop的作者是下面哪一位—B___。

A.MartinFowler

B.Dougcutting

C.KentBeck

D.GraceHopper

3.下列哪個程序通常與NameNode在同一個節(jié)點啟動__D.

A.TaskTracker

B.DataNode

C.SecondaryNameNode

D.Jobtracker

4.HDFS默認BlockSize的大小是___B__o

A.32MB

B.64MB

C.128MB

D.256M

5.下列哪項通常是集群的最主要瓶頸C__o

A.CPU

B.網(wǎng)絡

C.磁盤10

D.內(nèi)存

6.下列關于MapReduce說法不正確的是C_o

A.MapReduce是一種計算框架

B.MapReduce來源于google的學術(shù)論文

C.MapReduce程序只能用java語言編寫

D.MapReduce隱藏了并行計算的細節(jié)，方便使用

8.HDFS是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的，具有高容錯、高可靠性、

高可擴展性、高吞吐率等特征，適合的讀寫任務是__D____o

A.一次寫入，少次讀

B.多次寫入，少次讀

C.多次寫入，多次讀

D.一次寫入，多次讀

9.HBase依靠_A___存儲底層數(shù)據(jù)。

A.HDFS

B.Hadoop

C.Memory

D.MapReduce

10.HBase依賴__D__提供強大的計算能力。

A.Zookeeper

B.Chubby

C.RPC

D.MapReduce

11.HBase依賴__A__提供消息通信機制

A.Zookeeper

B.Chubby

C.RPC

D.Socket

12.下面與HDFS類似的框架是_C___?

A.NTFS

B.FAT32

C.GFS

D.EXT3

13.關于SecondaryNameNode下面哪項是正確的C。

A.它是NameNode的熱備

B.它對內(nèi)存沒有要求

C.它的目的是幫助NameNode合并編輯日志，減少NameNode啟動時間

D.SecondaryNameNode應與NameNode部署到一個節(jié)點

14.大數(shù)據(jù)的特點不包括下面哪一項___D__o

A.巨大的數(shù)據(jù)量

B.多結(jié)構(gòu)化數(shù)據(jù)

C.增長速度快

D.價值密度高

HBase測試題

1.HBase來源于哪一項？C

ATheGoogleFileSystem

BMapReduce

CBigTable

DChubby

2.下面對HBase的描述哪些是正確的？B、C、D

A不是開源的

B是面向列的

C是分布式的

D是一種NoSQL數(shù)據(jù)庫

3.HBase依靠（）存儲底層數(shù)據(jù)A

AHDFS

BHadoop

CMemory

DMapReduce

4.HBase依賴。提供消息通信機制A

AZookeeper

BChubby

CRPC

DSocket

5.HBase依賴（）提供強大的計算能力D

AZookeeper

BChubby

CRPC

DMapReduce

6.MapReduce與HBase的關系，哪些描述是正確的？B、C

A兩者不可或缺，MapReduce是HBase可以正常運行的保證

B兩者不是強關聯(lián)關系，沒有MapReduce,HBase可以正常運行

CMapReduce可以直接訪問HBase

D它們之間沒有任何關系

7.下面哪些選項正確描述了HBase的特性？A、B、C、D

A高可靠性

B高性能

C面向列

D可伸縮

8.下面與Zookeeper類似的框架是？D

AProtobuf

BJava

CKafka

DChubby

9.下面與HDFS類似的框架是？C

ANTFS

BFAT32

CGFS

DEXT3

10.下面哪些概念是HBase框架中使用的？A、C

AHDFS

BGridFS

CZookeeper

DEXT3

第二部分：HBase核心知識點

C平衡二叉樹

D基于日志結(jié)構(gòu)的合并樹

12.下面對LSM結(jié)構(gòu)描述正確的是？A、C

A順序存儲

B直接寫硬盤

C需要將數(shù)據(jù)Flush到磁盤

D是一種搜索平衡樹

13.LSM更能保證哪種操作的性能？B

A讀

B寫

C隨機讀

D合并

14.LSM的讀操作和寫操作是獨立的？A

A是。

B否。

CLSM并不區(qū)分讀和寫

DLSM中讀寫是同一種操作

15.LSM結(jié)構(gòu)的數(shù)據(jù)首先存儲在()。B

A硬盤上

B內(nèi)存中

C磁盤陣列中

D閃存中

16HFile數(shù)據(jù)格式中的Data字段用于（）。A

A存儲實際的KeyValue數(shù)據(jù)

B存儲數(shù)據(jù)的起點

C指定字段的長度

D存儲數(shù)據(jù)塊的起點

17HFile數(shù)據(jù)格式中的Metaindex字段用于（）。D

AMeta塊的長度

BMeta塊的結(jié)束點

CMeta塊數(shù)據(jù)內(nèi)容

DMeta塊的起始點

B存儲數(shù)據(jù)的起點

C存儲數(shù)據(jù)塊的起點

D指定字段的長度

19HFile數(shù)據(jù)格式中的KeyValue數(shù)據(jù)格式，下列選項描述正確的是（）。A、D

A是byte口數(shù)組

B沒有固定的結(jié)構(gòu)

C數(shù)據(jù)的大小是定長的

D有固定的結(jié)構(gòu)

第三部分：HBase高級應用介紹

31HBase中的批量加載底層使用0實現(xiàn)。A

AMapReduce

BHive

CCoprocessor

DBloomFilter

32.HBase性能優(yōu)化包含下面的哪些選項？A、B、C、D

A讀優(yōu)化

B寫優(yōu)化

C配置優(yōu)化

DJVM優(yōu)化

33.Rowkey設計的原則，下列哪些選項的描述是正確的？A、B、C

A盡量保證越短越好

B可以使用漢字

C可以使用字符串

D本身是無序的

34.HBase構(gòu)建二級索引的實現(xiàn)方式有哪些？A、B

AMapReduce

BCoprocessor

CBloomFilter

DFilter

35.關于HBase二級索引的描述，哪些是正確的？A、B

A核心是倒排表

B二級索引概念是對應Rowkey這個“一級”索引

C二級索引使用平衡二叉樹

D二級索引使用LSM結(jié)構(gòu)

36.下列關于BloomFilter的描述正確的是？A、C

A是一個很長的二進制向量和一系列隨機映射函數(shù)

B沒有誤算率

C有一定的誤算率

D可以在BloomFilter中刪除元素

第四部分：HBase安裝、部署、啟動

37.HBase官方版本可以安裝在什么操作系統(tǒng)上？A、B、C

ACentOS

BUbuntu

CRedHat

DWindows

38.HBase虛擬分布式模式需要。個節(jié)點？A

D最少3個

39.HBase分布式模式最好需要。個節(jié)點？C

D最少

關于hadoop的選擇題

1、DougCutting所創(chuàng)立的項目的名稱都受到其家人的啟發(fā)，以下項目不是由他

創(chuàng)立的項目是

A.Hadoop

B.Nutch

C.Lucene

D.Solr

答案：D

2、配置Hadoop時，JAVA_H0ME包含在哪一個配置文件中

A.hadoop-defau11.xml

B.hadoop-env.sh

C.hadoop-site.xml

D.configuration,xsl

答案：B

知識點：hadoop配置

3、Hadoop配置文件中，hadoop-site.xml顯示覆蓋hadoop-default.xml里的內(nèi)

容。在版本0.20中，hadoop-site.xml被分離成三個XML文件，不包括

A.conf-site,xml

B.mapred-site.xml

C.core-site,xml

D.hdfs-site.xml

答案：A

知識點：hadoop配置

4、HDFS默認的當前工作目錄是/user/$USER,fs.default,name的值需要在哪個

配置文件內(nèi)說明

A.mapred-site.xml

B.core-site,xml

C.hdfs-site.xml

D.以上均不是

答案：B

知識點：hadoop配置

5、關于Hadoop單機模式和偽分布式模式的說法，正確的是

A.兩者都起守護進程，且守護進程運行在一臺機器上

B.單機模式不使用HDFS,但加載守護進程

C.兩者都不與守護進程交互，避免復雜性

D.后者比前者增加了HDFS輸入輸出以及可檢查內(nèi)存使用情況

答案：D

知識點：hadoop配置

6、下列關于HadoopAPI的說法錯誤的是

A.Hadoop的文件API不是通用的，只用于HDFS文件系統(tǒng)

B.Configuration類的默認實例化方法是以HDFS系統(tǒng)的資源配置為基礎的

C.FileStatus對象存儲文件和目錄的元數(shù)據(jù)

D.FSDatalnputStream是java.io.DatalnputStream的子類

答案：A

//HDFS

7、HDFS的NameNode負責管理文件系統(tǒng)的命名空間，將所有的文件和文件夾的

元數(shù)據(jù)保存在一個文件系統(tǒng)樹中，這些信息也會在硬盤上保存成以下文件：

A.日志

B.命名空間鏡像

C.兩者都是

答案：C

知識點：

8,HDFS的namenode保存了一個文件包括哪些數(shù)據(jù)塊，分布在哪些數(shù)據(jù)節(jié)點上，

這些信息也存儲在硬盤上。

A.正確

B.錯誤

答案：B

知識點：在系統(tǒng)啟動的時候從數(shù)據(jù)節(jié)點收集而成的

9、Secondarynamenode就是namenode出現(xiàn)問題時的備用節(jié)點

A.正確

B.錯誤

答案：B

知識點：它和元數(shù)據(jù)節(jié)點負責不同的事情。其主要功能就是周期性將元數(shù)據(jù)節(jié)點

的命名空間鏡像文件和修改日志合并，以防日志文件過大。合并過后的命名空間

鏡像文件也在Secondarynamenode保存了一份，以防namenode失敗的時候，可

以恢復。

10、出現(xiàn)在datanode的VERSION文件格式中但不出現(xiàn)在namenode的VERSION

文件格式中的是

A.namespacelD

B.storagelD

C.storageType

D.layoutVersion

答案：B

知識點：其他三項是公有的。layoutVersion是一個負整數(shù)，保存了HDFS的持

續(xù)化在硬盤上的數(shù)據(jù)結(jié)構(gòu)的格式版本號；namespacelD是文件系統(tǒng)的唯一標識符,

是在文件系統(tǒng)初次格式化時生成的；storageType表示此文件夾中保存的是數(shù)據(jù)

節(jié)點的類型

11、Client在HDFS上進行文件寫入時，namenode根據(jù)文件大小和配置情況，返

學習.參考

回部分datanode信息，誰負責將文件劃分為多個Block,根據(jù)DataNode的地址

信息，按順序?qū)懭氲矫恳粋€DataNode塊

A.Client

B.Namenode

C.Datanode

D.Secondarynamenode

答案：A

知識點：HDFS文件寫入

12、HDFS的是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的，默認的最

基本的存儲單位是64M,具有高容錯、高可靠性、高可擴展性、高吞吐率等特征，

適合的讀寫任務是

A.一次寫入，少次讀寫

B.多次寫入，少次讀寫

C.一次寫入，多次讀寫

D.多次寫入，多次讀寫

答案：C

知識點：HDFS特性

13、HDFS無法高效存儲大量小文件，想讓它能處理好小文件，比較可行的改進

策略不包括

A.利用SequenceFile、MapFi1e>Har等方式歸檔小文件

B.多Master設計

C.Block大小適當調(diào)小

D.調(diào)大namenode內(nèi)存或?qū)⑽募到y(tǒng)元數(shù)據(jù)存到硬盤里

答案：D

知識點：HDFS特性

14、關于HDFS的文件寫入，正確的是

A.支持多用戶對同一文件的寫操作

B.用戶可以在文件任意位置進行修改

C.默認將文件塊復制成三份存放

D.復制的文件塊默認都存在同一機架上

答案：C

知識點：在HDFS的一個文件中只有一個寫入者，而且寫操作只能在文件末尾完

成，即只能執(zhí)行追加操作。默認三份文件塊兩塊在同一機架上，另一份存放在其

他機架上。

15、Hadoopfs中的-get和-put命令操作對象是

A.文件

B.目錄

C.兩者都是

答案：C

知識點：HDFS命令

學習.參考

16、Namenode在啟動時自動進入安全模式，在安全模式階段，說法錯誤的是

A.安全模式目的是在系統(tǒng)啟動時檢查各個DataNode上數(shù)據(jù)塊的有效性

B.根據(jù)策略對數(shù)據(jù)塊進行必要的復制或刪除

C.當數(shù)據(jù)塊最小百分比數(shù)滿足的最小副本數(shù)條件時，會自動退出安全模式

D.文件系統(tǒng)允許有修改

答案：D

知識點：HDFS安全模式

//MapReduce

17、MapReduce框架提供了一種序列化鍵/值對的方法，支持這種序列化的類能

夠在Map和Reduce過程中充當鍵或值，以下說法錯誤的是

A.實現(xiàn)Writable接口的類是值

B.實現(xiàn)討!'遷21916(3011^2班1316〈1'〉接口的類可以是值或鍵

C.Hadoop的基本類型Text并不實現(xiàn)WritableComparableVT〉接口

D.鍵和值的數(shù)據(jù)類型可以超出Hadoop自身支持的基本類型

答案：C

18、以下四個Hadoop預定義的Mapper實現(xiàn)類的描述錯誤的是

A.IdentityMapper<K,V>實現(xiàn)Mapper<K,V,K,V>,將輸入直接映射到輸出

B.InverseMapper<K,V〉實現(xiàn)Mapper<K,V,K,V>,反轉(zhuǎn)鍵/值對

C.RegexMapper〈K>實現(xiàn)Mapper<K,Text,Text,LongWritable>,為每個常

規(guī)表達式的匹配項生成一個(match,1)對

D.TokenCountMapperVK〉實現(xiàn)Mapper<K,Text,Text,LongWritable>,當輸

入的值為分詞時，生成(taken,1)對

答案：B

知識點：InverseMapper<K,V〉實現(xiàn)Mapper<K,V,V,K>

19、下列關于HDFS為存儲MapReduce并行切分和處理的數(shù)據(jù)做的設計，錯誤的

是

A.FSDatalnputStream擴展了DatalnputStream以支持隨機讀

B.為實現(xiàn)細粒度并行，輸入分片(InputSplit)應該越小越好

C.一臺機器可能被指派從輸入文件的任意位置開始處理一個分片

D.輸入分片是一種記錄的邏輯劃分，而HDFS數(shù)據(jù)塊是對輸入數(shù)據(jù)的物理分割

答案：B

知識點：每個分片不能太小，否則啟動與停止各個分片處理所需的開銷將占很大

一部分執(zhí)行時間

20、針對每行數(shù)據(jù)內(nèi)容為"TimestampUri”的數(shù)據(jù)文件，在用JobConf對象conf

設置conf.setlnputFormat(WhichlnputFormat.class)來讀取這個文件時，

WhichlnputFormat應該為以下的

A.TextlnputFormat

B.KeyValueTextlnputFormat

C.SequenceFilelnputFormat

學習.參考

D.NLinelnputFormat

答案：B

知識點：四項主要的InputFormat類。KeyValueTextlnputFormat以每行第一個

分隔符為界，分隔符前為key,之后為value,默認制表符為\t

21、有關MapReduce的輸入輸出，說法錯誤的是

A.鏈接多個MapReduce作業(yè)時，序列文件是首選格式

B.FilelnputFormat中實現(xiàn)的getSplits()可以把輸入數(shù)據(jù)劃分為分片，分片

數(shù)目和大小任意定義

C.想完全禁止輸出，可以使用NullOutputFormat

D.每個reduce需將它的輸出寫入自己的文件中，輸出無需分片

答案：B

知識點：分片數(shù)目在numSplits中限定，分片大小必須大于mapred.min.size

個字節(jié)，但小于文件系統(tǒng)的塊

22、HadoopStreaming支持腳本語言編寫簡單MapReduce程序，以下是一個例

子：

bin/hadoopjarcontrib/streaming/hadoop-O.20-streaming.jar

一inputinput/filename

一outputoutput

■—mapper'dosth.py5'

—filedosth.py

一Dmapred.reduce,tasks-1

23、以下說法不正確的是

A.HadoopStreaming使用Unix中的流與程序交互

B.HadoopStreaming允許我們使用任何可執(zhí)行腳本語言處理數(shù)據(jù)流

C.采用腳本語言時必須遵從UNIX的標準輸入STDIN,并輸出到STDOUT

D.Reduce沒有設定，上述命令運行會出現(xiàn)問題

答案：D

知識點：沒有設定特殊的reducer,默認使用IdentityReducer

24、在高階數(shù)據(jù)處理中，往往無法把整個流程寫在單個MapReduce作業(yè)中，下列

關于鏈接MapReduce作業(yè)的說法，不正確的是

A.Job和JobControl類可以管理非線性作業(yè)之間的依賴

B.ChainMapper和ChainReducer類可以用來簡化數(shù)據(jù)預處理和后處理的構(gòu)成

C.使用ChainReducer時，每個mapper和reducer對象都有一個本地JobConf

對象

D.ChainReducer.addMapper()方法中，一般對鍵/值對發(fā)送設置成值傳遞，性能

好且安全性高

答案：D

知識點：ChainReducer.addMapper()方法中，值傳遞安全性高，引用傳遞性能高

25、下面哪個程序負責HDFS數(shù)據(jù)存儲。答案Cdatanode

學習.參考

a)NameNode

b)Jobtracker

c)Datanode

d)secondaryNameNode

e)tasktracker

26.HDfS中的block默認保存幾份？答案A默認3分

a)3份

b)2份

c)1份

d)不確定

27.下列哪個程序通常與NameNode在一個節(jié)點啟動？答案D

a)SecondaryNameNode

b)DataNode

c)TaskTracker

d)Jobtracker

28.Hadoop作者答案CDougcutting

a)MartinFowler

b)KentBeck

c)Dougcutting

29.HDFS默認BlockSize答案：B

a)32MB

b)64MB

c)128MB

30、下列哪項通常是集群的最主要瓶頸：答案：C磁盤

a)CPU

b)網(wǎng)絡

c)磁盤10

d)內(nèi)存

31.關于SecondaryNameNode哪項是正確的？答案C

a)它是NameNode的熱備

b)它對內(nèi)存沒有要求

c)它的目的是幫助NameNode合并編輯日志，減少NameNode啟動時間

學習.參考

d）SecondaryNameNode應與NameNode部署到一個節(jié)點。

多選題：

1.下列哪項可以作為集群的管理？答案：ABD

a）Puppet

b）Pdsh

c）ClouderaManager

d）Zookeeper

2.配置機架感知的下面哪項正確：答案ABC

a）如果一個機架出問題，不會影響數(shù)據(jù)讀寫

b）寫入數(shù)據(jù)的時候會寫到不同機架的DataNode中

c）MapReduce會根據(jù)機架獲取離自己比較近的網(wǎng)絡數(shù)據(jù)

3.Client端上傳文件的時候下列哪項正確？答案B

a）數(shù)據(jù)經(jīng)過NameNode傳遞給DataNode

b）Client端將文件切分為Block,依次上傳

c）Client只上傳數(shù)據(jù)到一臺DataNode,然后由NameNode負責Block復制工

作

4.下列哪個是Hadoop運行的模式：答案ABC

a）單機版

b）偽分布式

c）分布式

5.Cloudera提供哪幾種安裝CDH的方法？答案：ABCD

a）Clouderamanager

b）Tarball

c）Yum

d）Rpm

判斷題：

1.Ganglia不僅可以進行監(jiān)控，也可以進行告警。（正確）

2.BlockSize是不可以修改的。（錯誤）

3.N

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Hadoop試題試題庫完整

文檔簡介

溫馨提示

最新文檔

評論

Hadoop試題試題庫完整

文檔簡介

溫馨提示

最新文檔

評論

相關文檔