版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
項(xiàng)目一
1.大數(shù)據(jù)的特性有哪些?
答:Volume(數(shù)據(jù)量大)、Variety(數(shù)據(jù)類型繁多)、Velocity(處理
速度快)、Value(價(jià)值密度低)、Online(在線)。
2.大數(shù)據(jù)時(shí)代產(chǎn)生的原因有哪些?
答:外部原因:(1)存儲(chǔ)設(shè)備容量不斷增加。(2)CPU處理能力大幅提升。
(3)網(wǎng)絡(luò)帶寬不斷增加。根本原因:數(shù)據(jù)產(chǎn)生方式的巨大變化是大數(shù)據(jù)時(shí)
代產(chǎn)生的本質(zhì)原因。
3.一般情況下,大數(shù)據(jù)處理流程分為哪幾個(gè)階段?
答:大數(shù)據(jù)處理流程分為五步,分別是數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)
和數(shù)據(jù)計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)可視化。
4.谷歌公司在大數(shù)據(jù)的發(fā)展中起了重要作用,谷歌“三架馬車”指的是
什么?
答:在2003年,谷歌公司發(fā)表了谷歌分布式文件系統(tǒng)(GoogleFileSystem,
GFS)的論文。在2004年,谷歌又發(fā)表了谷歌大數(shù)據(jù)分布式計(jì)算框架
MapReduce的論文。在2006年,谷歌又發(fā)表了大表BigTable的論文。這
三篇論文是大數(shù)據(jù)技術(shù)發(fā)展史上重要的里程碑,史稱谷歌大數(shù)據(jù)的“三架
馬車”。
5.請(qǐng)結(jié)合自己的專業(yè)談?wù)勅绾卫么髷?shù)據(jù)技術(shù)解決具體問題。
答:略
項(xiàng)目二
1.敘述大數(shù)據(jù)處理和傳統(tǒng)數(shù)據(jù)處理有什么不同?
答:傳統(tǒng)數(shù)據(jù)處理平臺(tái)在大數(shù)據(jù)時(shí)代將面臨嚴(yán)重挑戰(zhàn)。主要在以下幾個(gè)方
面:
(1)由于傳統(tǒng)數(shù)據(jù)處理平臺(tái)多部署于單機(jī)環(huán)境下,用于處理結(jié)構(gòu)化數(shù)據(jù)。
計(jì)算數(shù)據(jù)量也較小,數(shù)據(jù)存儲(chǔ)大多采用關(guān)系型數(shù)據(jù)庫。數(shù)據(jù)計(jì)算效率依賴單
機(jī)的性能,數(shù)據(jù)處理速度方面存在瓶頸,對(duì)于大數(shù)據(jù)量的處理無法達(dá)到實(shí)時(shí)
性要求。
(2)傳統(tǒng)的數(shù)據(jù)處理方法以計(jì)算為中心,所有數(shù)據(jù)必須匯總傳輸?shù)揭慌_(tái)
機(jī)器進(jìn)行計(jì)算,計(jì)算完畢后再返回,增加了數(shù)據(jù)傳輸時(shí)間,隨著數(shù)據(jù)量的增
加,處理速度會(huì)越來越慢。
(3)傳統(tǒng)數(shù)據(jù)處理平臺(tái)數(shù)據(jù)來源單一,多用于處理結(jié)構(gòu)化數(shù)據(jù),對(duì)于非
結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)無能為力。
大數(shù)據(jù)處理平臺(tái)具有以下特點(diǎn)。
(1)分布式數(shù)據(jù)計(jì)算
(2)動(dòng)態(tài)擴(kuò)展性
(3)容錯(cuò)性強(qiáng)
(4)I/O傳輸速度快
2.Hadoop的設(shè)計(jì)思想是什么?
答:Hadoop的設(shè)計(jì)思想如下。
(1)能夠大幅度降低高性能計(jì)算成本
用戶可以通過家庭或者工作中普通的PC機(jī)組成大數(shù)據(jù)服務(wù)集群,集群節(jié)
點(diǎn)數(shù)量根據(jù)機(jī)器性能可以達(dá)到數(shù)千個(gè)。不必花費(fèi)高昂的代價(jià)去購買集群服務(wù)
器用于環(huán)境搭建。使高性能計(jì)算實(shí)現(xiàn)成本降低,適用面更廣泛。
(2)具有良好的穩(wěn)定性和可靠性
爭(zhēng)對(duì)集群中單個(gè)或多個(gè)服務(wù)器節(jié)點(diǎn)失效問題,Hadoop具有自動(dòng)維護(hù)數(shù)據(jù)
的多份復(fù)本,同時(shí)在任務(wù)失敗后能夠重新部署計(jì)算任務(wù)的機(jī)制,從而保障了
服務(wù)器集群的穩(wěn)定性和可靠性。
(3)能夠大幅度提高數(shù)據(jù)計(jì)算和存儲(chǔ)效率
Hadoop采用并行數(shù)據(jù)處理機(jī)制,把海量數(shù)據(jù)分割成多個(gè)小型的數(shù)據(jù)塊,
并通過數(shù)據(jù)分發(fā)機(jī)制,把數(shù)據(jù)分發(fā)給集群上面的其他節(jié)點(diǎn)進(jìn)行處理,減少了
系統(tǒng)對(duì)于海量數(shù)據(jù)存儲(chǔ)和處理的時(shí)間。
(4)以數(shù)據(jù)為中心
秉承機(jī)柜內(nèi)數(shù)據(jù)傳輸速度大于機(jī)柜間傳輸速度的思想(即移動(dòng)計(jì)算比移
動(dòng)數(shù)據(jù)更高效),對(duì)于海量數(shù)據(jù)采用“一次寫,多次讀”的方式,使文件不
會(huì)被頻繁寫入和修改,保證了集群各個(gè)節(jié)點(diǎn)的數(shù)據(jù)處理的高效性。
3.大數(shù)據(jù)有幾種計(jì)算模式?代表技術(shù)分別是什么?
計(jì)算模式應(yīng)用場(chǎng)景實(shí)時(shí)代表技術(shù)
性
批處理計(jì)算模大規(guī)模數(shù)據(jù)的不高M(jìn)apReduce、Spark、Flink
式離線批量處理等
流計(jì)算模式流數(shù)據(jù)的在線高StormxFlink、
實(shí)時(shí)計(jì)算Spark-Streaming>S4等
圖計(jì)算大規(guī)模圖結(jié)構(gòu)不高PregeRGiraph>GraphX
數(shù)據(jù)的處理等
交互查詢分析大規(guī)模數(shù)據(jù)的較高Hive^Impala等
模式交互查詢分析
4.敘述大數(shù)據(jù)處理平臺(tái)5種主流架構(gòu)和各自的特點(diǎn)?
答:
(1)傳統(tǒng)大數(shù)據(jù)架構(gòu)
傳統(tǒng)大數(shù)據(jù)架構(gòu)主耍為了解決傳統(tǒng)BI的問題,傳統(tǒng)BI經(jīng)過長期的發(fā)展
已經(jīng)形成了一套成熟和穩(wěn)定的系統(tǒng),但是隨著大數(shù)據(jù)時(shí)代的到來,傳統(tǒng)BI系
統(tǒng)遇到諸多挑戰(zhàn)。由于傳統(tǒng)BI系統(tǒng)處理數(shù)據(jù)量較少,且多為結(jié)構(gòu)化數(shù)據(jù)的處
理。在大數(shù)據(jù)時(shí)代面對(duì)大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)和文件、圖片、視頻等非結(jié)構(gòu)化
數(shù)據(jù)的沖擊,傳統(tǒng)BI遇到性能瓶頸問題。因此,我們必須對(duì)傳統(tǒng)BI系統(tǒng)進(jìn)
行升級(jí)改造,引入大數(shù)據(jù)處理技術(shù)搭建架構(gòu),稱之為傳統(tǒng)大數(shù)據(jù)架構(gòu)。傳統(tǒng)
大數(shù)據(jù)架構(gòu)與傳統(tǒng)BI相比,在數(shù)據(jù)分析的業(yè)務(wù)上沒有發(fā)生任何變化,僅僅是
為了增加系統(tǒng)的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理能力,提升了系統(tǒng)性能。由于
傳統(tǒng)BI業(yè)務(wù)數(shù)據(jù)多為離線批處理,對(duì)實(shí)時(shí)性要求不高。所以傳統(tǒng)大數(shù)據(jù)架構(gòu)
也以批處理為主,不具備實(shí)時(shí)性,一般采用MapReduce、Spark等技術(shù)進(jìn)行批
處理。這種架構(gòu)主要應(yīng)用在以B1為主的業(yè)務(wù)需求上,不過僅用于數(shù)據(jù)處理性
能遇到瓶頸問題時(shí)的系統(tǒng)改造上。
(2)流式架構(gòu)
隨著大數(shù)據(jù)時(shí)代的發(fā)展和傳感器的廣泛應(yīng)用,出現(xiàn)了越來越多的實(shí)時(shí)處
理數(shù)據(jù)需求,比如實(shí)時(shí)監(jiān)控預(yù)警,實(shí)時(shí)路徑規(guī)劃,實(shí)時(shí)在線報(bào)表等。傳統(tǒng)大
數(shù)據(jù)架構(gòu)為批量數(shù)據(jù)處理,無法滿足實(shí)時(shí)性的需求。這時(shí)就需要搭建能夠?qū)?/p>
數(shù)據(jù)進(jìn)行實(shí)時(shí)處理,時(shí)延小的系統(tǒng)架構(gòu),這就是流式架構(gòu)。流式架構(gòu),顧名
思義就是整個(gè)架構(gòu)只具備對(duì)數(shù)據(jù)的實(shí)時(shí)流計(jì)算功能,而不具備對(duì)數(shù)據(jù)的批量
處理功能。在流式架構(gòu)中,數(shù)據(jù)全程以流的形式處理,沒有ETL過程。經(jīng)過
流處理加工后的數(shù)據(jù),被直接推送顯示出來。流式架構(gòu)僅以窗口的形式進(jìn)行
存儲(chǔ),本身不支持歷史數(shù)據(jù)的重演和統(tǒng)計(jì)分析,不過我們可以根據(jù)實(shí)際需求,
在數(shù)據(jù)直接實(shí)時(shí)推送顯示出來時(shí),把符合我們預(yù)設(shè)條件的,有價(jià)值的數(shù)據(jù)存
入數(shù)據(jù)庫中,以便后續(xù)數(shù)據(jù)分析和應(yīng)用。流式架構(gòu)數(shù)據(jù)處理一般采用的流計(jì)
算框架比如SparkStreaming、Storm>Flink等。流式架構(gòu)多用于實(shí)時(shí)預(yù)警,實(shí)
時(shí)監(jiān)控等對(duì)數(shù)據(jù)處理實(shí)時(shí)性要求比較高,同時(shí)又不需要支持歷史數(shù)據(jù)統(tǒng)計(jì)分
析和重演的系統(tǒng)。
(3)Lambda架構(gòu)
Lambda架構(gòu)是現(xiàn)今企業(yè)用的最多的主流大數(shù)據(jù)架構(gòu)。很多企業(yè)大數(shù)據(jù)架
構(gòu)基本都是Lambda架構(gòu)或者其變種。Lambda架構(gòu)主要運(yùn)用于同時(shí)需要實(shí)時(shí)
流處理和離線批量處理的場(chǎng)景。為了保證數(shù)據(jù)的實(shí)時(shí)處理和批量處理二者并
存,Lambda架構(gòu)的數(shù)據(jù)通道分為兩條:實(shí)時(shí)流和離線。實(shí)時(shí)流依照流式架構(gòu)
處理,進(jìn)行實(shí)時(shí)在線流計(jì)算,以增量計(jì)算為主。而離線則主要為數(shù)據(jù)批量處
理,以全量計(jì)算為主保障數(shù)據(jù)一致性。
(4)K叩pa架構(gòu)
Lambda架構(gòu)運(yùn)用非常廣泛,也能解決大多數(shù)業(yè)務(wù)場(chǎng)景的實(shí)時(shí)和批量處理
需求。但是Lambda架構(gòu)也有其自身不足。Lambda查詢結(jié)果來自于批處理層
和快速計(jì)算層。而批處理層多用MapReduce、Spark等批處理技術(shù),而快速計(jì)
算層多用Flink、SparkStreaming和Storm等流計(jì)算技術(shù)。系統(tǒng)開發(fā)時(shí)就需要
開發(fā)兩種完全不同的代碼,這非常不方便。因此,在Lambda架構(gòu)的基礎(chǔ)上
又提出了Kappa架構(gòu)。Kappa架構(gòu)的變革就是,在批處理層不再使用批處理
技術(shù),而也使用快速處理層的流計(jì)算技術(shù)。這樣一來,批處理層和快速處理
層都是使用了相同的流處理邏輯,實(shí)現(xiàn)框架統(tǒng)一化,從而簡化了系統(tǒng)開發(fā)工
作。
(5)Unifield架構(gòu)
在傳統(tǒng)Lambda架構(gòu)下,理論上快速處理層的輸出結(jié)果與批處理層的輸
出結(jié)果在業(yè)務(wù)意義上是完全相同,如果我們分別用兩張數(shù)據(jù)庫的表來存儲(chǔ)批
處理層和快速處理層的計(jì)算結(jié)果,那么這兩張數(shù)據(jù)庫表的表結(jié)構(gòu)應(yīng)該是相同
的。只是數(shù)據(jù)記錄不一樣。但在實(shí)際應(yīng)用中我們需要根據(jù)自己的需求對(duì)快速
處理層做出改動(dòng)。Unifield架構(gòu)就是以Lambda架構(gòu)為基礎(chǔ),對(duì)其進(jìn)行進(jìn)一步
改造,在快速處理層新增了機(jī)器學(xué)習(xí)模型。
5.Hadoop生態(tài)系統(tǒng)組件有哪些,各自的作用是什么?
(1)底層
底層結(jié)構(gòu)包括HDFS,MapReduce和Zookeepero其中,HDFS是Hadoop
分布式文件存儲(chǔ)系統(tǒng)。MapReduce是Hadoop的分布式并行運(yùn)算框架。
Zookeeper是一種基于HDFS和HBase的開源的分布式協(xié)調(diào)服務(wù)組件,由
Facebook貢獻(xiàn)給Apache基金會(huì)。Zookeeper對(duì)Hadoop集群提供分布式鎖服
務(wù),用于解決多個(gè)進(jìn)程同步控制問題,防止“臟數(shù)據(jù)”,保證分布式任務(wù)執(zhí)
行的一致性。
(2)數(shù)據(jù)收集處理轉(zhuǎn)換層
數(shù)據(jù)收集處理轉(zhuǎn)換層結(jié)構(gòu)包括HBaseHive>PigMahoutSqoop和Flume。
HBase(分布式列存數(shù)據(jù)庫)是一個(gè)針對(duì)結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、
高性能、分布式和面向列的動(dòng)態(tài)模式數(shù)據(jù)庫。和傳統(tǒng)關(guān)系數(shù)據(jù)庫不同,HBase
采用了BigTable的數(shù)據(jù)模型,即增強(qiáng)的稀疏排序映射表(Key/Vahie)。在
HBase中,數(shù)據(jù)的鍵由行關(guān)犍字、列關(guān)鍵字和時(shí)間戳構(gòu)成,HBase提供了對(duì)
大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問,同時(shí),HBase中保存的數(shù)據(jù)可以使用
M叩Reduce來處理。
Hive是一種基于平面文件而構(gòu)建的分布式數(shù)據(jù)倉庫,主要用于數(shù)據(jù)展示,
Hive提供了基于SQL的數(shù)據(jù)庫查詢語言,簡化了MapReduce編程難度。利
用Hive,用戶只需寫SQL語句,而不需要編寫復(fù)雜的MapReduce程序就能
運(yùn)行MapReduce任務(wù)。
Pig是一種基于大數(shù)據(jù)集的批量數(shù)據(jù)處理平臺(tái),用于提供數(shù)據(jù)流處理的語
言和運(yùn)行環(huán)境,Pig提供一種專用的語言PigLatin。Pig主要用于數(shù)據(jù)準(zhǔn)備階
段,提供數(shù)據(jù)加載、合并、過濾排序等數(shù)據(jù)操作功能。
Sqoop是一個(gè)數(shù)據(jù)接口,主要用來對(duì)HDFS和傳統(tǒng)關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)
進(jìn)行數(shù)據(jù)傳輸。在數(shù)據(jù)傳輸過程中,也可以利用Sqoop來做數(shù)據(jù)清洗。
Flume是一種分布式海量日志采集和傳輸?shù)南到y(tǒng)。用于對(duì)日志數(shù)據(jù)的收
集和簡單的處理。它將數(shù)據(jù)從產(chǎn)生、傳輸、處理并最終寫入目標(biāo)的路徑的過
程抽象為一條數(shù)據(jù)流,在數(shù)據(jù)流中,數(shù)據(jù)源是數(shù)據(jù)發(fā)送方,F(xiàn)lume支持收集
各種不同協(xié)議數(shù)據(jù)源數(shù)據(jù)。收集完數(shù)據(jù)后,F(xiàn)lume數(shù)據(jù)流能夠?qū)θ罩緮?shù)據(jù)進(jìn)
行簡單處理,例如過濾、格式轉(zhuǎn)換等。隨后,F(xiàn)lume數(shù)據(jù)流能夠?qū)⑻幚砗玫?/p>
數(shù)據(jù)寫往各種數(shù)據(jù)庫??偟膩碚f,F(xiàn)lume是一個(gè)可擴(kuò)展、適合復(fù)雜環(huán)境的海
量日志收集工具。
(3)數(shù)據(jù)挖掘?qū)?/p>
數(shù)據(jù)挖掘?qū)又饕抢脭?shù)據(jù)挖掘組件Mahout執(zhí)行數(shù)據(jù)挖掘任務(wù)。Mahout
是Apache旗下的一個(gè)開源算法庫,主要用來做數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí),Mahout
中包含許多已實(shí)現(xiàn)的算法,例如分類、回歸、聚類、協(xié)同過濾等。傳統(tǒng)的Mahout
是提供的是Java的API,用戶應(yīng)用會(huì)編譯成MapReduce的工作任務(wù),運(yùn)行在
MapReduce的框架上,計(jì)算效率低。現(xiàn)在,Spark的出現(xiàn)基本替代了
MapReduce,Mahout也已經(jīng)停止接受新的MapReduce算法了,轉(zhuǎn)向支持Sparko
(4)監(jiān)控和運(yùn)維層
監(jiān)控和運(yùn)維層主要是利用監(jiān)控和運(yùn)維組件對(duì)整個(gè)集群資源調(diào)度和任務(wù)運(yùn)
行進(jìn)行監(jiān)控。在MRvl中一般使用Ambari來對(duì)集群進(jìn)行監(jiān)控。Ambari是一
款Hadoop集群監(jiān)控工具,提供對(duì)Hadoop集群進(jìn)行部署,配置,升級(jí)和監(jiān)控
的服務(wù)。
HadoopMRv2版本生態(tài)系統(tǒng)在MRvl的基礎(chǔ)上引入了Yarn框架進(jìn)行集群
的資源管理調(diào)度。因?yàn)镸apReduce本質(zhì)上是一個(gè)大數(shù)據(jù)批處理平臺(tái)。隨著社
會(huì)的發(fā)展,批處理框架也越來越多,例如Spark、Flink等。同時(shí),數(shù)據(jù)在線
實(shí)時(shí)處理需求大幅增加。而MRvl不擅長處理實(shí)時(shí)數(shù)據(jù),同時(shí)還有一些機(jī)器
學(xué)習(xí)類的任務(wù)也不太適合用MRvl執(zhí)行。所以,Strom、Flink和SparkStreaming
等實(shí)時(shí)計(jì)算框架應(yīng)運(yùn)而生,
6.敘述實(shí)時(shí)計(jì)算和批量計(jì)算的定義和區(qū)別。
答:批量計(jì)算指大規(guī)模數(shù)據(jù)的離線批量計(jì)算,計(jì)算數(shù)據(jù)量大,實(shí)時(shí)性要求不
高,時(shí)延一般為小時(shí)級(jí)。實(shí)時(shí)計(jì)算指數(shù)據(jù)的在線實(shí)時(shí)計(jì)算,數(shù)據(jù)計(jì)算量較大,
但是實(shí)時(shí)要求非常高,時(shí)延一般為秒級(jí)或毫秒級(jí)。
7.畫出Hadoop2.x生態(tài)系統(tǒng)架構(gòu)圖
Ambari
(安裝部B工具)
Oozie
作業(yè)流詡度系統(tǒng)
MapReduceTezSpark
(離我計(jì)算)(DAGitO|存計(jì)算)
YAERN
(分布式計(jì)算概架)
HDFS
(分布式存儲(chǔ)系統(tǒng))
項(xiàng)目三
l.Hadoop開發(fā)環(huán)境單機(jī)、偽分布式、完全分布式的差別是什么?
答:單機(jī)模式下Hadoop運(yùn)行只有一個(gè)Java進(jìn)程,單機(jī)模式Hadoop只
能讀取系統(tǒng)目錄下的本地文件。偽分布式配置Hadoop進(jìn)程運(yùn)行包含多個(gè)
Java進(jìn)程,節(jié)點(diǎn)既作為NameNode,也作為DataNode,偽分布式配置Hadoop
可以讀取本地文件也可以讀取HDFS文件。完全分布式配置Hadoop進(jìn)程運(yùn)
行包含多個(gè)Java進(jìn)程,NameNode和DataNode節(jié)點(diǎn)由不同的機(jī)器擔(dān)任,完
全分布式配置Hadoop可以讀取本地文件也可以讀取HDFS文件。
2.Hadoop偽分布式環(huán)境為什么要設(shè)置免密碼登錄?
答:Hadoop集群運(yùn)行時(shí),NameNode要遠(yuǎn)程啟動(dòng)DataNode守護(hù)進(jìn)程,
NameNode和DataNode之間需要遠(yuǎn)程SSH通信。所以我們需要安裝SSH。但
是Hadoop沒有區(qū)分完全分布式和偽分布式,對(duì)于偽分布式Hadoop仍然會(huì)采
用與集群相同的處理方式,按次序啟動(dòng)DataNode進(jìn)程,只不過在偽分布式中
NameNode和DataNode都為localhost,所以對(duì)于偽分布式,也必須要安裝SSH。
3.Hadoop偽分布式core-site.xml需要配置哪些屬性,每個(gè)屬性的作用是
什么?
答:<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usnrlocal/hadoop//hadoop-2.7.1/tmp</value>
〈description〉設(shè)置hadoop默認(rèn)配置目錄〈/description〉
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
〈description〉設(shè)置hdfs集群訪問路徑〈/description〉
</property>
</configuration>
hadoop.tmp.dir用于設(shè)置hadoop默認(rèn)配置目錄,fs.defaultFS用于設(shè)置hdfs
集群訪問路徑。
4.Hadoop偽分布式hdfs-site.xml需要配置哪些屬性,每個(gè)屬性的作用是
什么?
答:<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>.dir</name>
<value>file:/usr/local/hadoop/hadoop-2.7.1/tmp/dfs/name</value>
</property>
〈property?
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/hadoop-2.7.1/tmp/dfs/data</value>
</property>
</configuration>
dfs.replication用于設(shè)置文件備份副本數(shù),.dir是保存
Fslmage鏡像的目錄,作用是存放hadoop的名稱節(jié)點(diǎn)namenode里的metadata;
dfs.datanode.data.dir是存放HDFS文件系統(tǒng)數(shù)據(jù)文件的目錄,作用是存放
hadoop的數(shù)據(jù)節(jié)點(diǎn)datanode里的多個(gè)數(shù)據(jù)塊。
5.使用HDFS命令進(jìn)行如下操作:在HDFS上創(chuàng)建一個(gè)文件夾test,本地
上傳一個(gè)文件到test目錄下,瀏覽該文件的內(nèi)容。
答:可以參考如下格式
hdfsdfs-mkdir/test
hdfsdfs-put./test.txt/test
hdfsdfs-cat/test/test.txt
項(xiàng)目四
1.常用的大數(shù)據(jù)采集工具有哪些?
答:Flume和Kafka,scribe等。
2.數(shù)據(jù)預(yù)處理的作用是什么,有哪幾種數(shù)據(jù)預(yù)處理的方法?
答:從數(shù)據(jù)源采集的原始數(shù)據(jù)一般都是“臟”的,所謂“臟”就是數(shù)據(jù)
不正常,會(huì)影響后續(xù)數(shù)據(jù)存儲(chǔ)和處理過程,甚至數(shù)據(jù)分析的準(zhǔn)確性。常見的
“臟”數(shù)據(jù)有數(shù)據(jù)缺失、數(shù)據(jù)值異常、數(shù)據(jù)格式不合要求等,這時(shí)候就需要
我們對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理操作,保證數(shù)據(jù)采集的數(shù)據(jù)質(zhì)量,以便后續(xù)
步驟的順利進(jìn)行。
一般數(shù)據(jù)預(yù)處理主要分為以下幾個(gè)方面數(shù)據(jù)清洗,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)集成,
數(shù)據(jù)規(guī)約。
3.什么是爬蟲,爬蟲的作用是什么?
答:網(wǎng)絡(luò)爬蟲是一個(gè)模擬人類請(qǐng)求網(wǎng)站行為的程序或腳本。網(wǎng)絡(luò)爬蟲可
以自動(dòng)請(qǐng)求網(wǎng)頁并使用一定的規(guī)則把我們所需要的有價(jià)并值的數(shù)據(jù)抓取下
來。
4.網(wǎng)頁的基本結(jié)構(gòu)包含哪些?
答:網(wǎng)頁一般由三部分組成,分別是HTML(超文本標(biāo)記語言)、CSS(層
疊樣式表)和JavaScript(活動(dòng)腳本語言)。其中,HTML是整個(gè)網(wǎng)頁的框
架。整個(gè)網(wǎng)頁由一些成對(duì)出現(xiàn)的HTML標(biāo)簽組成。一個(gè)網(wǎng)頁一般分為有head
和body兩部分,body內(nèi)部可以包含一些HTML標(biāo)簽,HTML標(biāo)簽里填充具體
的網(wǎng)頁內(nèi)容,同時(shí)HTML標(biāo)簽可以具有屬性,比如href屬性用于設(shè)置該標(biāo)簽
被點(diǎn)擊時(shí)進(jìn)行超鏈接跳轉(zhuǎn)。CSS主要負(fù)責(zé)定義網(wǎng)頁的外觀樣式,比如長,寬,
顏色等等。
5.爬蟲程序如何進(jìn)行數(shù)據(jù)爬?。?/p>
答:爬蟲爬取網(wǎng)頁數(shù)據(jù)的基本過程類似于我們?yōu)g覽網(wǎng)頁的過程。主要分
為兩個(gè)步驟。
(1)Http-Request
在Http-Request階段,爬蟲程序?qū)π枰廊?shù)據(jù)的網(wǎng)頁服務(wù)器發(fā)送Http
請(qǐng)求,并等待網(wǎng)頁服務(wù)器的Http響應(yīng)。
(2)Http-Response
在Http-Response階段,網(wǎng)頁服務(wù)器接收到請(qǐng)求后,驗(yàn)證請(qǐng)求的合法性,
然后將爬蟲程序請(qǐng)求的網(wǎng)頁數(shù)據(jù)封裝好,發(fā)送Http響應(yīng)。爬蟲程序接收網(wǎng)頁
服務(wù)器響應(yīng),經(jīng)過程序代碼的解析處理,獲取需要爬取的網(wǎng)頁內(nèi)容。
項(xiàng)目五
1.大數(shù)據(jù)計(jì)算框架的類別有哪些?常見的大數(shù)據(jù)計(jì)算框架有哪些?
2.畫出HDFS架構(gòu)圖。
DataNodrDataNode各.份
客戶端
3.什么叫NoSQL數(shù)據(jù)庫,NoSQL數(shù)據(jù)庫的作用是什么?
答:非關(guān)系(NoSQL)數(shù)據(jù)庫是一種易擴(kuò)展、大數(shù)據(jù)量、高性能和靈活
數(shù)據(jù)模型的數(shù)據(jù)庫。NoSQL數(shù)據(jù)庫主要用于存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)
據(jù)。
4.HBase數(shù)據(jù)庫前身是什么?
答:谷歌bigtableo
5.HBase數(shù)據(jù)庫是哪種NoSQL數(shù)據(jù)庫?HBase如何標(biāo)識(shí)每條數(shù)據(jù)?
答:HBase是基于Hadoop的面向列的NoSQL數(shù)據(jù)庫。HBase的數(shù)據(jù)存
儲(chǔ)在數(shù)據(jù)單元中,每個(gè)數(shù)據(jù)單元通過行鍵、列簇、列限定符和時(shí)間戳共同
組成的索引來標(biāo)識(shí)的。
6.敘述HBase數(shù)據(jù)庫如何進(jìn)行數(shù)據(jù)存儲(chǔ)。
答:假設(shè)有一張表,HBase會(huì)根據(jù)行鍵的值對(duì)該表中的行進(jìn)行分區(qū),每個(gè)
行區(qū)間構(gòu)成一個(gè)分區(qū)(Region),分區(qū)內(nèi)包含了位于這個(gè)行區(qū)間內(nèi)的所有
數(shù)據(jù)。默認(rèn)一張表的初始分區(qū)數(shù)為2個(gè),隨著表中數(shù)據(jù)不斷增加,Region
不斷增大,當(dāng)增大到超過閾值的時(shí)候,一個(gè)Region就會(huì)分為兩個(gè)Region。
表中的行越來越多,Region就越來越多。這么多Region需要一個(gè)“管家”
來管理,這個(gè)管家就是RegionServeroRegionServer的管理原則為每個(gè)
RegionServer負(fù)責(zé)管理一個(gè)或多個(gè)Region0不同的Region可以分布在不
同的RegionServer上,但一個(gè)Region不會(huì)拆分到多個(gè)RegionServer上。
Region并不是數(shù)據(jù)存儲(chǔ)的最小單元。Region往下還可以細(xì)分,每個(gè)Region
又由一個(gè)或者多個(gè)Store組成,每個(gè)Store保存一個(gè)列族的數(shù)據(jù)。每個(gè)Store
又由一個(gè)MemStore和零或多個(gè)StoreFile組成,StoreFile以文件格式保
存在HDFS上。
項(xiàng)目六
1.什么是數(shù)據(jù)分析?傳統(tǒng)數(shù)據(jù)分析和大數(shù)據(jù)分析的異同點(diǎn)有哪些?
答:數(shù)據(jù)分析是指用統(tǒng)計(jì)分析方法和工具對(duì)收集來的數(shù)據(jù)進(jìn)行分析,從中
提取有用信息,從而形成分析結(jié)論的過程。傳統(tǒng)的數(shù)據(jù)分析大多基于聯(lián)機(jī)分
析處理技術(shù)(OLAP),分析的數(shù)據(jù)是結(jié)構(gòu)化的關(guān)系數(shù)據(jù),數(shù)據(jù)結(jié)構(gòu)清晰一致,
數(shù)據(jù)量一般不大,利用單一機(jī)器即可進(jìn)行數(shù)據(jù)分析工作,在數(shù)據(jù)分析中會(huì)伴
隨著數(shù)據(jù)挖掘以及機(jī)器學(xué)習(xí)相關(guān)算法的使用,這些算法大多基于統(tǒng)計(jì)學(xué)理論
的抽樣分析
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 浙江省衢州市(2024年-2025年小學(xué)六年級(jí)語文)部編版期中考試((上下)學(xué)期)試卷及答案
- 2025年上半年遼寧錦州義縣事業(yè)單位面向社會(huì)公開招聘工作人員15人重點(diǎn)基礎(chǔ)提升(共500題)附帶答案詳解-1
- 2025年上半年遼寧省阜新市大數(shù)據(jù)管理中心招聘專業(yè)技術(shù)人員7人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年上半年遼寧省朝陽凌源市為三家子蒙古族鄉(xiāng)政府招聘8人(勞務(wù)派遣)易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年上半年贛州經(jīng)濟(jì)技術(shù)開發(fā)區(qū)招商局(商務(wù)局)招考易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年上半年贛州市上猶縣招考兼職講解員易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年上半年貴州黔西南州晴隆縣引進(jìn)人才擬聘(第六號(hào))易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年上半年貴州遵義余慶縣招聘事業(yè)單位人員擬聘人員(十)重點(diǎn)基礎(chǔ)提升(共500題)附帶答案詳解-1
- 2025年上半年貴州省貴陽市白云區(qū)沙文政府招聘27人易考易錯(cuò)模擬試題(共500題)試卷后附參考答案
- 2025年上半年貴州省畢節(jié)市赫章縣招聘事業(yè)單位22人(第二批)重點(diǎn)基礎(chǔ)提升(共500題)附帶答案詳解-1
- 軟件項(xiàng)目應(yīng)急措施及方案
- 2025河北邯鄲經(jīng)開國控資產(chǎn)運(yùn)營管理限公司招聘專業(yè)技術(shù)人才5名高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024年民法典知識(shí)競(jìng)賽考試題庫及答案(共50題)
- 2025老年公寓合同管理制度
- 2024-2025學(xué)年人教版數(shù)學(xué)六年級(jí)上冊(cè) 期末綜合卷(含答案)
- 鈑金設(shè)備操作培訓(xùn)
- 感染性腹瀉的護(hù)理查房
- 中考英語688高頻詞大綱詞頻表
- 九年級(jí)初三中考物理綜合復(fù)習(xí)測(cè)試卷3套(含答案)
- 管理制度評(píng)價(jià)表(填寫模板)
- 工地設(shè)計(jì)代表服務(wù)記錄
評(píng)論
0/150
提交評(píng)論