




已閱讀5頁(yè),還剩1頁(yè)未讀, 繼續(xù)免費(fèi)閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)計(jì)算課程考試題目一、選擇題1.下面哪個(gè)程序負(fù)責(zé) HDFS 數(shù)據(jù)存儲(chǔ)。a)NameNode b)Jobtracker c)Datanode d)SecondaryNameNode e)tasktracker答案: C Datanode2. HDFS 中的 block 默認(rèn)保存幾份?a)3 份 b)2 份 c)1 份 d)不確定答案: A 默認(rèn) 3 份3. Hadoop 作者a)Martin Fowler b)Kent Beck c)Doug cutting答案: C Doug cutting4.關(guān)于 SecondaryNameNode 哪項(xiàng)是正確的?a)它是 NameNode 的熱備 b)它對(duì)內(nèi)存沒有要求c)它的目的是幫助 NameNode 合并編輯日志,減少 NameNode 啟動(dòng)時(shí)間d)SecondaryNameNode 應(yīng)與 NameNode 部署到一個(gè)節(jié)點(diǎn)答案: C。5.下列哪項(xiàng)通常是集群的最主要瓶頸a)CPU b)網(wǎng)絡(luò) c)磁盤IO d)內(nèi)存答案:C 磁盤首先集群的目的是為了節(jié)省成本,用廉價(jià)的 pc 機(jī),取代小型機(jī)及大型機(jī)。小型機(jī)和大型機(jī)有什么特點(diǎn)?1.cpu 處理能力強(qiáng)2.內(nèi)存夠大,所以集群的瓶頸不可能是 a 和 d3.如果是互聯(lián)網(wǎng)有瓶頸,可以讓集群搭建內(nèi)網(wǎng)。每次寫入數(shù)據(jù)都要通過網(wǎng)絡(luò)(集群是內(nèi)網(wǎng)),然后還要寫入 3 份數(shù)據(jù),所以 IO 就會(huì)打折扣。二、填空題1. Hadoop三種運(yùn)行的模式: 單機(jī)版 、 偽分布式 和 分布式 。2.HDFS 默認(rèn) Block Size是 64 MB。(填128也正確)3. MapReduce任務(wù)過程分為兩個(gè)處理階段:map階段和reduce階段。4.Map/Reduce框架由一個(gè)單獨(dú)的masterJobTracker和每個(gè)集群節(jié)點(diǎn)一個(gè)slaveTaskTracker共同組成。5.MapReduce確保每個(gè)reducer的輸入都是按鍵排序的。系統(tǒng)執(zhí)行排序的過程(即將map輸出作為輸入傳給reducer)稱為shuffle。一、簡(jiǎn)答題題目1:什么是分布式計(jì)算答:分布式計(jì)算是一門計(jì)算機(jī)科學(xué),主要研究分布式系統(tǒng)。一個(gè)分布式系統(tǒng)包括若干通過網(wǎng)絡(luò)互聯(lián)的計(jì)算機(jī)。這些計(jì)算機(jī)互相配合以完成一個(gè)共同的目標(biāo)(我們將這個(gè)共同的目標(biāo)稱為“項(xiàng)目”)。具體的過程是:將需要進(jìn)行大量計(jì)算的項(xiàng)目數(shù)據(jù)分割成小塊,由多臺(tái)計(jì)算機(jī)分別計(jì)算,再上傳運(yùn)算結(jié)果后統(tǒng)一合并得出數(shù)據(jù)結(jié)論。在分布式系統(tǒng)上運(yùn)行的計(jì)算機(jī)程序稱為分布式計(jì)算程序;分布式編程就是編寫上述程序的過程。題目2:假如Namenode中沒有數(shù)據(jù)會(huì)怎么樣?沒有數(shù)據(jù)的Namenode就不能稱之為Namenode,通常情況下,Namenode肯定會(huì)有數(shù)據(jù)。題目3:在Hadoop HDFS中,集群中的DataNode節(jié)點(diǎn)需要周期性地向NameNode發(fā)送什么信息?答:在Hadoop HDFS中,DataNode需要周期性地向集群中的DataNode Master節(jié)點(diǎn)發(fā)送心跳信息和塊報(bào)告。接收到心跳信息,說明該DataNode節(jié)點(diǎn)工作正常;塊報(bào)告包含了DataNode節(jié)點(diǎn)上所有塊的列表以及塊id與磁盤文件存儲(chǔ)的映射關(guān)系。題目4:在Hadoop HDFS中,SecondaryNameNode的主要作用是什么? 答:輔助NameNode,分擔(dān)其工作量;定期合并鏡像文件(fsimage)和編輯日志文件(fsedits),并推送給NameNode;在緊急情況下,可輔助恢復(fù)NameNode節(jié)點(diǎn)。題目5:請(qǐng)簡(jiǎn)要說明Hadoop YARN的一級(jí)調(diào)度管理與二級(jí)調(diào)度管理?答:YARN作為分布式集群資源管理框架,可用于集群資源的管理以及應(yīng)用的調(diào)度。YARN的一級(jí)調(diào)度管理包括計(jì)算資源管理和Application生命周期的管理;二級(jí)調(diào)度管理包括Application內(nèi)部計(jì)算模型的管理以及多樣化計(jì)算模型的管理。二、論述題題目1:MapReduce中排序發(fā)生在哪幾個(gè)階段? 答:一個(gè)MapReduce作業(yè)由Map階段和Reduce階段兩部分組成,這兩個(gè)階段會(huì)對(duì)數(shù)據(jù)排序,從這個(gè)意義上說,MapReduce框架本質(zhì)上就是一個(gè)Distributed Sort。在Map階段,Map Task會(huì)在本地磁盤輸出一個(gè)按照key排序(采用的是快速排序)的文件(中間可能產(chǎn)生多個(gè)文件,但最終會(huì)合并成一個(gè)),在Reduce階段,每個(gè)Reduce Task會(huì)對(duì)收到的數(shù)據(jù)排序,這樣,數(shù)據(jù)便按照key分成了若干組,之后以組為單位交給reduce()處理。很多人的誤解在Map階段,以為如果不使用Combiner便不會(huì)排序,這是錯(cuò)誤的,不管你用不用Combiner,Map Task均會(huì)對(duì)產(chǎn)生的數(shù)據(jù)進(jìn)行排序(如果沒有Reduce Task,則不會(huì)排序,實(shí)際上Map階段的排序就是為了減輕Reduce端排序負(fù)載)。題目2:請(qǐng)畫出云計(jì)算的三層服務(wù)模型?答:一般而言,云計(jì)算架構(gòu)可以用三層SPI模型來表述。1基礎(chǔ)設(shè)施即服務(wù)(IaaS,Infrastructrue as a Service)這種把主機(jī)集中管理,以市場(chǎng)機(jī)制通過虛擬化層對(duì)外提供服務(wù),用按使用量收費(fèi)的盈利模式,形成了云計(jì)算的基礎(chǔ)層。這就是基礎(chǔ)設(shè)施即服務(wù)(IaaS,Infrastructrue as a Service),構(gòu)成了云計(jì)算的基礎(chǔ)層。2平臺(tái)即服務(wù)(PaaS,Platform as a Service)平臺(tái)即服務(wù)(PaaS)是指把一個(gè)完整的應(yīng)用程序運(yùn)行平臺(tái)作為一種服務(wù)提供給客戶。在這種服務(wù)模式中,客戶不需要購(gòu)買底層硬件和平臺(tái)軟件,只需要利用PaaS平臺(tái),就能夠創(chuàng)建、測(cè)試和部署應(yīng)用程序。3軟件即服務(wù)(SaaS,Software as a Service)在其概念可以這樣來定義:把軟件部署為托管服務(wù),用戶不需要購(gòu)買軟件,可以通過網(wǎng)絡(luò)訪問所需要的服務(wù),或者把各種服務(wù)綜合成自己的需要,而客戶按照使用量付費(fèi)。SaaS的出現(xiàn)徹底顛覆了傳統(tǒng)軟件的運(yùn)營(yíng)模式。它不僅僅從價(jià)格上,交付模式上,實(shí)施風(fēng)險(xiǎn)上帶來了明顯改觀。在云計(jì)算上,SaaS有了更好的發(fā)展空間。而云計(jì)算的推出,給SaaS提供了更好的生態(tài)環(huán)境。這就形成了云計(jì)算的第三層:軟件即服務(wù)(SaaS,Software as a Service)。 這三個(gè)層結(jié)合起來,就形成了典型的云計(jì)算的SPI模型??梢灶A(yù)期,在這個(gè)模型上,大量的創(chuàng)新企業(yè)可以獲得更好的生存空間。題目3:CF(協(xié)同過濾)的原理?協(xié)同過濾的主要目標(biāo):由于網(wǎng)絡(luò)信息量的增多,用戶往往被淹沒在信息的海洋里,很難很輕易的找到自己感興趣的topic。協(xié)同過濾就是為了把用戶最可能感興趣的信息推送給用戶。協(xié)同過濾的方法: model-base,user-base,item-base,content-base。1user-based:搜集用戶profile。對(duì)于一個(gè)active user,找到與其比較接近(或者相似)的幾個(gè)neighbour。使用這些neibour 對(duì)active user 的interest 進(jìn)行預(yù)測(cè),把那些潛在的interest推薦給active user。3item-base:與user-based 相對(duì)應(yīng)。協(xié)同過濾推薦根據(jù)用戶對(duì)相似項(xiàng)的評(píng)分預(yù)測(cè)該用戶對(duì)目標(biāo)項(xiàng)的評(píng)分,它基于這樣一個(gè)假設(shè):如果大部分用戶對(duì)一些項(xiàng)的評(píng)分比較相似,則當(dāng)前用戶對(duì)這些項(xiàng)的評(píng)分也比較相似。對(duì)每個(gè)item 尋找?guī)讉€(gè)neighbour。例如如果item A 與item B是一個(gè)neighbour pair,對(duì)于一個(gè)active user,如果其對(duì)A 評(píng)價(jià)很高,或者有很高的興趣,那么它極可能對(duì)B 感興趣,這樣B 就是一個(gè)潛在的interest.4content-based:根據(jù)item 的內(nèi)容與用戶歷史興趣度進(jìn)行分析關(guān)聯(lián),它的一個(gè)前提假設(shè)就是如果一個(gè)用戶在過去一段時(shí)間對(duì)某item 有較高的評(píng)價(jià),那么在未來也會(huì)保持這種interest。這樣就可以根據(jù)item 之間的內(nèi)容接近程度進(jìn)行推薦。它有很大的缺陷,首先沒有結(jié)合用戶反饋,雖然一個(gè)item 具有很高的可推薦性,但是如果大家都對(duì)其評(píng)價(jià)較差,那么這也許是一個(gè)不好的推薦item;其次就是其對(duì)item 內(nèi)容進(jìn)行分析也只能是一個(gè)方面,不能全面深刻的描述一個(gè)item;再一個(gè)就是推薦的內(nèi)容有限;當(dāng)系統(tǒng)僅僅根據(jù)用戶資料或項(xiàng)目描述來進(jìn)行推薦的時(shí)候,用戶被限制在只能得到與以往熟悉的內(nèi)容相類似的項(xiàng)目。這樣不利于挖掘用戶潛在的興趣。題目4:請(qǐng)談一談你對(duì)HDFS的認(rèn)識(shí)?HDFS采用的是Maser/Slave模型,一個(gè)HDFS cluster包含一個(gè)NameNode和一些列的DataNode,其中NameNode充當(dāng)?shù)氖荕aser的角色,主要負(fù)責(zé)管理HDFS文件系統(tǒng)。里面存儲(chǔ)著描述信息,處理來自客戶端的請(qǐng)求;DataNode主要是用來存儲(chǔ)數(shù)據(jù)文件,HDFS將一個(gè)文件分割成多個(gè)Block,這些Block可能存儲(chǔ)在一個(gè)DataNode上或者是多個(gè)DataNode上。HDFS支持傳統(tǒng)文件系統(tǒng)的目錄結(jié)構(gòu),應(yīng)用程序能夠創(chuàng)建目錄directory,在這些目錄中存儲(chǔ)文件,創(chuàng)建文件,移動(dòng)文件和刪除文件,重命名文件,但是不支持硬鏈接和軟連接。系統(tǒng)需要進(jìn)行分布式管理,這樣可以通過高性能的Map-Reduce對(duì)系統(tǒng)的數(shù)據(jù)進(jìn)行高效地管理和處理,使數(shù)據(jù)分散地存儲(chǔ)到每個(gè)節(jié)點(diǎn)上,也令每個(gè)任務(wù)在節(jié)點(diǎn)上并行執(zhí)行,減少系統(tǒng)的開銷。由于HDFS系統(tǒng)存儲(chǔ)的數(shù)據(jù)量非常大,為了保證數(shù)據(jù)的完整性和數(shù)據(jù)在破壞或者丟失后能夠充分地恢復(fù),所以需要加入冗余和容錯(cuò)技術(shù)。冗余是指?jìng)浞輸?shù)據(jù)和信息。容錯(cuò)是指通過備份的數(shù)據(jù)和信息,使系統(tǒng)自動(dòng)恢復(fù)到事故發(fā)生之前的狀態(tài)。HDFS將一個(gè)發(fā)文件分割成Block,然后將這些Block存儲(chǔ)到不同的DataNode中,那么如何保證如果一個(gè)DataNode死掉,保證數(shù)據(jù)的完整性,通常的技術(shù)就是進(jìn)行數(shù)據(jù)的備份,HDFS同樣使用的是這一策略。題目5:請(qǐng)簡(jiǎn)述Map-Reduce算法的原理?Map-Reduce的目標(biāo)是在面對(duì)節(jié)點(diǎn)失效的情況時(shí)能夠保證大量的文件和數(shù)據(jù)依然可用。初始化時(shí)數(shù)據(jù)被分割成許多分塊的小數(shù)據(jù),這些數(shù)據(jù)都是以的形式存儲(chǔ)。用戶程序會(huì)分配一個(gè)Maser 進(jìn)程和許多worker 進(jìn)程。任務(wù)開始時(shí),Maser 將用戶程序的工作分成兩種類型的任務(wù)(map 任務(wù)和reduce 任務(wù)),并將這些任務(wù)分配給相應(yīng)的工人(workers)。Maser 的責(zé)任如下:給map 工人和reduce 工人分配相應(yīng)的任務(wù),檢測(cè)是否有工人進(jìn)程死掉,將Map 任務(wù)處理后的結(jié)果通知給Reduce 任務(wù)。得到Maser 的Map 工作任務(wù)的指令后,Map 工人開始工作。Map 工人從input中獲取分塊的數(shù)據(jù),并通過其中數(shù)據(jù)存儲(chǔ)的方式對(duì)數(shù)據(jù)進(jìn)行處理,并將處理的中間結(jié)果(形成的鏈表)存放在本地磁盤中。得到Maser 的有關(guān)Map 處理結(jié)果的通知后,Reduce 任務(wù)開始工作。Reduce 工人把每個(gè)map 工人的本地磁盤中的內(nèi)容進(jìn)行整合,形成有序的最終結(jié)果,并將結(jié)果寫入到輸出文件中。假如一個(gè)工人進(jìn)程失敗了,該工人的任務(wù)就被分配給其他的工人進(jìn)程。如果一個(gè)Maser 進(jìn)程失敗了,那么整個(gè)Map-Reduce任務(wù)就會(huì)終止。1輸入文件分成M 塊,每塊大概16M64MB(可以通過參數(shù)決定),接著在集群的機(jī)器上執(zhí)行分派處理程序。2M 個(gè)Map 任務(wù)和R 個(gè)Reduce 任務(wù)需要分派,Maser 選擇空閑Worker 來分配這些Map 或Reduce 任務(wù)。3Worker 讀取并處理相關(guān)輸入塊,Map 函數(shù)產(chǎn)生的中間結(jié)果對(duì)暫時(shí)緩沖到內(nèi)存。4中間結(jié)果定時(shí)寫到本地硬盤,分區(qū)函數(shù)將其分成R 個(gè)區(qū)。中間結(jié)果在本地硬盤的位置信息將被發(fā)送回Maser,然后Maser 負(fù)責(zé)把這些位置信息傳送給ReduceWorker。5當(dāng)Maser 通知執(zhí)行Reduce 的Worker 關(guān)于中間對(duì)的位置時(shí),它調(diào)用遠(yuǎn)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2019-2025年注冊(cè)土木工程師(水利水電)之基礎(chǔ)知識(shí)過關(guān)檢測(cè)試卷B卷附答案
- 2024屆貴州省織金縣市級(jí)名校中考聯(lián)考數(shù)學(xué)試題含解析
- 2025年農(nóng)機(jī)銷售企業(yè)合同印花稅稅率
- 2025店面租賃合同簡(jiǎn)易版范本
- 重慶煙草筆試題目及答案
- 中專畢業(yè)考試試題及答案
- DB13T 5437-2021 高陡巖壁綠化木質(zhì)藤本植物栽植技術(shù)規(guī)程
- 2025合同模板制造業(yè)簡(jiǎn)易設(shè)備租賃合同書范本
- 安全上崗證試題及答案
- 貴州機(jī)電職業(yè)技術(shù)學(xué)院《數(shù)據(jù)分析與處理技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 科研倫理與學(xué)術(shù)規(guī)范(研究生)期末試題
- 林下中藥材種植項(xiàng)目可行性研究報(bào)告
- 2024年全國(guó)職業(yè)院校技能大賽高職組(環(huán)境檢測(cè)與監(jiān)測(cè)賽項(xiàng))考試題庫(kù)(含答案)
- 腰椎間盤突出癥護(hù)理查房
- 國(guó)開電大專科《人文英語1》一平臺(tái)機(jī)考總題庫(kù)(珍藏版)
- 吸痰法《經(jīng)口鼻腔氣管插管吸痰法》
- 有機(jī)化學(xué)(下)(華東理工大學(xué))智慧樹知到答案2024年華東理工大學(xué)
- 圍術(shù)期下肢深靜脈血栓預(yù)防的術(shù)中護(hù)理
- 2025年安徽省合肥市蜀山區(qū)重點(diǎn)中學(xué)中考模擬調(diào)研卷生物試題(一)含解析
- 金融糾紛和解協(xié)議書范本
- AQ/T 1089-2020 煤礦加固煤巖體用高分子材料(正式版)
評(píng)論
0/150
提交評(píng)論