第8章 大數(shù)據(jù)采集-習(xí)題答案_第1頁
第8章 大數(shù)據(jù)采集-習(xí)題答案_第2頁
第8章 大數(shù)據(jù)采集-習(xí)題答案_第3頁
第8章 大數(shù)據(jù)采集-習(xí)題答案_第4頁
第8章 大數(shù)據(jù)采集-習(xí)題答案_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第8章大數(shù)據(jù)釆集習(xí)題8.1選擇題數(shù)據(jù)采集的數(shù)據(jù)對象類型包括(D)。A.結(jié)構(gòu)化數(shù)據(jù) B.半結(jié)構(gòu)化數(shù)據(jù) C.非結(jié)構(gòu)化數(shù)據(jù)D,以上都是3、4、5、8、數(shù)據(jù)采集的主要性能要求不包括以下的(B)。A.全面性 B.安全性 C.多維性大數(shù)據(jù)釆集相對于傳統(tǒng)數(shù)據(jù)釆集的優(yōu)勢不包括(C)。A.數(shù)據(jù)源廣泛B.安全性 C.速度有限大數(shù)據(jù)采集和傳統(tǒng)數(shù)據(jù)采集的區(qū)別可以從下面的(B)看出。①數(shù)據(jù)源 ②數(shù)據(jù)量 ③數(shù)據(jù)類型④數(shù)據(jù)產(chǎn)生速度A.①②③B.①②③Q)⑤D.高效性D.數(shù)據(jù)類型豐富⑤數(shù)據(jù)存儲D.②③④⑤下面不屬于Scrapy的組件的是(A)A.傳感器 B.引擎C.下載器D.Spider下面選項(xiàng)屬于典型的網(wǎng)絡(luò)數(shù)據(jù)釆集工具的是(A)。A.Scrapy B.Fluentd目前傳感器的主要組件不包括(D)A.敏感元件B.轉(zhuǎn)換元件下面不屬于典型日志系統(tǒng)的是(D)A.Fluentd B.LogstashNutch的主要特點(diǎn)不包括(C)。A.伸縮性強(qiáng)B,可靠性高C.LogstashD.FlumeC.信號調(diào)理轉(zhuǎn)換電路D.二極管C.ScribeD.NutchC.安全性強(qiáng)D.速度快10、定向數(shù)據(jù)釆集特別重視(A)。A.頁面與主題的相關(guān)度B,鏈接的安全性C.系統(tǒng)的運(yùn)行時間D,數(shù)據(jù)量的大小8.2填空題1、數(shù)據(jù)采集的對象類型包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、(非結(jié)構(gòu)化數(shù)據(jù))。2、數(shù)據(jù)釆集三個基本的性能要求:全面性、多維性)、高效性。3、傳感器一般由敏感元件、(轉(zhuǎn)換原件 )、信號調(diào)理轉(zhuǎn)換電路組成,有時還需外加輔助電源來提供轉(zhuǎn)換能量。4、 分布式釆集系統(tǒng)的主要特點(diǎn)包括(伸縮性強(qiáng))、可靠性高、速度快。5、 分布式數(shù)據(jù)釆集系統(tǒng)常常采用(主從式)和對等式這兩種架構(gòu)。8.3簡答題1、 請簡述網(wǎng)絡(luò)爬蟲的基本原理。答:網(wǎng)絡(luò)爬蟲又稱為網(wǎng)纟各蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一種按照一定的規(guī)則自動地抓取Web數(shù)據(jù)的程序或者腳本。網(wǎng)絡(luò)爬蟲會從一個或若干初始頁面的統(tǒng)一資源定位器開始,獲得初始頁面上的數(shù)據(jù),并且在抓取頁面數(shù)據(jù)的過程中,不斷從當(dāng)前頁面中抽取新的URL并放入URL隊列,直到滿足設(shè)置的停止條件為止。2、 請簡述系統(tǒng)日志的概念及作用。答:系統(tǒng)日志用于在時間上連續(xù)地記錄由系統(tǒng)指定的對象的動作及動作結(jié)果。系統(tǒng)日志可以記錄系統(tǒng)進(jìn)程和設(shè)備驅(qū)動程序的活動,包括系統(tǒng)服務(wù)的開啟、關(guān)閉、暫停等狀態(tài),以及設(shè)備驅(qū)動程序啟動、自檢、故障等情況。操作系統(tǒng)、數(shù)據(jù)庫、網(wǎng)絡(luò)系統(tǒng)等平臺每天都會產(chǎn)生大量的系統(tǒng)日志,收集、存儲、處理和管理這些系統(tǒng)日志需要特定的日志系統(tǒng)。3、 請描述分布式數(shù)據(jù)釆集系統(tǒng)的兩種典型架構(gòu)。答:對于主從式架構(gòu)而言,由一臺專門的主服務(wù)器來維護(hù)待抓取的URL隊列,該服務(wù)器負(fù)責(zé)將URL分發(fā)到不同的工作服務(wù)器,而工作服務(wù)器則負(fù)責(zé)頁面下載的工作。主服務(wù)器除了維護(hù)待抓取的URL隊列以及分發(fā)URL,還要負(fù)責(zé)調(diào)節(jié)各個工作服務(wù)器的負(fù)載情況。基于主從式架構(gòu)的分布式數(shù)據(jù)采集系統(tǒng)的優(yōu)點(diǎn)是結(jié)構(gòu)簡單,容易管理和配置;其缺點(diǎn)是主服務(wù)器容易成為系統(tǒng)性能的瓶頸,特別是當(dāng)工作服務(wù)器數(shù)量過于龐大時。?基于對等式架構(gòu)的分布式數(shù)據(jù)釆集系統(tǒng)沒有主服務(wù)器,所有的抓取服務(wù)器在分工上沒有區(qū)別,分別負(fù)責(zé)不同部分的網(wǎng)絡(luò)數(shù)據(jù)的抓取。每一臺抓取服務(wù)器都可以從待抓取的URL隊列中利用Hash等方式獲取需要負(fù)責(zé)抓取的部分URL,然后并行抓取。8.4解答題1、在大數(shù)據(jù)時代,數(shù)據(jù)釆集的工具多種多樣。網(wǎng)絡(luò)爬蟲是一種按照一定的規(guī)則自動地抓取Web數(shù)據(jù)的程序或者腳本。請描述網(wǎng)絡(luò)爬蟲的工作流程。答:選取一部分種子URL。將這些URL放入待抓取URL隊列。從待抓取URL隊列取出待抓取URL,通過域名解析,得到主機(jī)的IP地址,將URL對應(yīng)的頁面下載下來,并存儲到巳下載的頁面庫中。將這些URL放入已抓取URL隊列。分析已抓取URL隊列中的URL,分析其中的其他URL,并且將這些URL放入待抓取URL隊列,進(jìn)入下一輪循環(huán)。2、 Fluentd是Apache2.0協(xié)議許可的開源日志數(shù)據(jù)收集器,支持用戶實(shí)時地從數(shù)千臺機(jī)器收集數(shù)據(jù),主要特色包括哪些?答:使用JSON格式統(tǒng)一日志記錄。Fluentd將數(shù)據(jù)結(jié)構(gòu)化為JSON格式,不僅可以更容易地統(tǒng)一處理日志數(shù)據(jù)的收集、過濾、緩沖和輸出,還可以保留靈活的模式??刹灏渭軜?gòu)。Fluentd擁有靈活的插件系統(tǒng),用戶可以通過插件更好地使用日志??刹灏渭軜?gòu),F(xiàn)luentd的眾多插件使其可以兼容數(shù)十種數(shù)據(jù)源和數(shù)據(jù)輸出,插件也很容易編寫和部署。節(jié)省資源開銷。Fluentd是釆用C語言和Ruby語言編寫的,需要較少系統(tǒng)資源,實(shí)例可以運(yùn)行在數(shù)十MB的內(nèi)存上,每個引擎每秒可以處理數(shù)以萬計的事件?;趦?nèi)存和文件的緩存。Fluentd支持基于內(nèi)存和文件的緩存,可防止數(shù)據(jù)丟失。數(shù)據(jù)源與后端系統(tǒng)分離。Fluentd通過在數(shù)據(jù)源與后端系統(tǒng)之間提供統(tǒng)一的日志層來將二者分離。日志層允許開發(fā)人員和數(shù)據(jù)分析師使用多種類型的日志,可以更好地利用日志數(shù)據(jù)。3、 基于Hadoop平臺的Nutch能夠?qū)崿F(xiàn)分布式數(shù)據(jù)的采集。請具體描述Nulch的運(yùn)行流程。答:Nutch的工作主要可以分為兩個環(huán)節(jié):首先釆集相關(guān)的頁面,然后將釆集的頁面數(shù)據(jù)存放在本地,并建立索引。建立初始種子鏈接的URL集合,將URL集合存放在文本,然后上傳至HDFSo執(zhí)行Inject的操作,將種子URL集合注入URL隊列。執(zhí)行Generate的操作,通過URL隊列生成采集所需的鏈接列表。?執(zhí)行Fetch的操作,根據(jù)鏈接列表的種子鏈接釆集相關(guān)的頁面內(nèi)容。執(zhí)行Parse的操作,解析釆集到的頁面數(shù)據(jù),然后生成parsedata和parsetex兩個文件目錄,分別存放頁面文本內(nèi)容和頁面中的超鏈接等信息。執(zhí)行Update的操作,將抽取的新鏈接更新到始種子鏈接隊列。循環(huán)執(zhí)行步驟3到步驟6,當(dāng)滿足設(shè)定的條件時,結(jié)束數(shù)據(jù)釆集工作。4、 請分析何謂通用數(shù)據(jù)釆集,何謂定向數(shù)據(jù)釆集;請描述定向數(shù)據(jù)釆集算法的典型步驟。答:通用數(shù)據(jù)采集的對象是從特定的種子鏈接開始的,采用廣度搜索的方式,其目標(biāo)是采集互聯(lián)網(wǎng)上的全部頁面。與通用數(shù)據(jù)釆集相對的是以聚焦網(wǎng)絡(luò)爬蟲為核心的定向數(shù)據(jù)釆集。定向數(shù)據(jù)采集服務(wù)于特定的專業(yè)群體,采集的數(shù)據(jù)只局限于某個主題或者與其相關(guān)的領(lǐng)域。定向數(shù)據(jù)釆集算法的步驟包括:將初始的種子URL全部放入鏈接隊列,根據(jù)初始的種子URL進(jìn)行頁面數(shù)據(jù)的采集,提取錨文本的內(nèi)容、頁面的標(biāo)題及正文。?對正文進(jìn)行分詞的操作,計算關(guān)鍵字的權(quán)重和文本的相關(guān)度。利用文本聚類算法將相關(guān)度高文本聚集在一起。根據(jù)聚類好的文本,利用樸素貝葉斯算法計算待抓取的頁面屬于該主題的概率。?通過歸類完成的與主題相關(guān)的頁面生成頁面主題評價器,假設(shè)所采集頁面的數(shù)量小于預(yù)先設(shè)定的最大頁面數(shù)量,則循環(huán)執(zhí)行以下步驟。從鏈接集合中選出得分最高的鏈接,采集該鏈接對應(yīng)頁面的數(shù)據(jù),抽取對應(yīng)頁面中的鏈接并插入鏈接隊列。計算頁面的主題相關(guān)度,若大于閾值,則保存所對應(yīng)的頁面,否則進(jìn)行父叉和變異操作。?及時調(diào)整當(dāng)前頁面得分,重新計算從當(dāng)前頁面抽取的鏈接對應(yīng)頁面的得分。根據(jù)最新的頁面得分重排鏈接隊列中的所有鏈接,把與主題相關(guān)的頁面放入訓(xùn)練集合中,獲取最新的頁面主題評價器。比較計算出的相關(guān)度與闕值,大于闕值的鏈接則重新返回步驟1;小于闕值的鏈接則直接舍棄。按照上述的步驟,對頁面進(jìn)行定向數(shù)據(jù)采集,直到采集的頁面數(shù)量大于或等于預(yù)先設(shè)定的最大頁面數(shù)量為止。大數(shù)據(jù)安全分析05_數(shù)據(jù)采集技術(shù)大數(shù)據(jù)分析中的數(shù)據(jù)采集方式包括Logstash、Flume、Fluentd.Logtail等,本文對這幾種數(shù)據(jù)采集技術(shù)進(jìn)行簡要介紹。LogstashLogstash是一個具備實(shí)時處理能力的開源的數(shù)據(jù)收集引擎??梢詣討B(tài)地從不同的來源收集數(shù)據(jù),將數(shù)據(jù)處理(過濾、變形)過之后統(tǒng)一輸出到某個特定地址,為將來更多樣化的數(shù)據(jù)分析做準(zhǔn)備。Logstash的作用包括:收集各類系統(tǒng)日志:如Apache日志、Iog4j(Java程序日志)、Windows系統(tǒng)事件日志。通過Filebeat能夠?qū)崿F(xiàn)安全、快速的的日志傳輸。能夠與很多釆用UDP及TCP協(xié)議的工具對接,如JMX、NetFlow等等。Elasticsearch的數(shù)據(jù)采集的利器,可以配合Elasticsearch和Kibana使用;對input、filter及output部分可以使用多種插件靈活配合部署用以實(shí)現(xiàn)不同功能。在Web接口服務(wù)中,可以收集HTTP請求。能夠與各類SQL或非SQL數(shù)據(jù)庫對接,只要這個數(shù)據(jù)庫支持JDBC接口。FlumeFlume是由Cloudera公司開源的,分布式可靠,高可用的系統(tǒng),它能夠?qū)⒉煌瑪?shù)據(jù)源的海量日志數(shù)據(jù)進(jìn)行高效收集、聚合、移動、最后存儲到一個中心化數(shù)據(jù)存儲系統(tǒng)中。由原來的Flume0G到現(xiàn)在的FlumeNG,進(jìn)行了架構(gòu)重構(gòu),并且現(xiàn)在NG版本完全不兼容原來的0G版本,經(jīng)過架構(gòu)重構(gòu)后,F(xiàn)lumeNG更像是一個輕量級的小工具,適應(yīng)各種方式的日志收集,并支持failover和負(fù)載均衡。FlumeNG的特點(diǎn):NG只有一種角色的節(jié)點(diǎn):代理節(jié)點(diǎn)(Agent)沒有collector,master節(jié)點(diǎn),這是核心組件最核心的變化去除了physicalnodesjocalnodes的概念和相關(guān)內(nèi)容agent節(jié)點(diǎn)的組成也發(fā)生了變化,脫離了zookeeperFluentdFluentd是一個日志收集系統(tǒng),通過豐富的插件,可以收集來自于各種系統(tǒng)或應(yīng)用的日志,然后根據(jù)用戶定義將日志做分類處理。通過Fluentd,你可以非常輕易的實(shí)現(xiàn)像追蹤日志文件并將其過濾后轉(zhuǎn)存到MongoDB這樣的操作oFluentd可以徹底的將你從繁瑣的日志處理中解放出來。本質(zhì)上,Fluentd可以分為客戶端和服務(wù)端兩種模塊??蛻舳藶榘惭b在被采集系統(tǒng)中的程序,用于讀取log文件等信息,并發(fā)送到Fluentd的服務(wù)端。服務(wù)端則是一個收集器。在Fluentd服務(wù)端,我們可以進(jìn)行相應(yīng)的配置,使其可以對收集到的數(shù)據(jù)進(jìn)行過濾和處理,并最終路由到下一跳。下一跳可以是用于存儲的數(shù)據(jù)庫,如MongoDB,AmazonS3,也可以是其他的數(shù)據(jù)處理平臺,比如HadoopoFluentd有四個關(guān)鍵功能,使其適合構(gòu)建清潔,可靠的日志管道:使用JSON進(jìn)行統(tǒng)一日志記錄:Fluentd嘗試盡可能地將數(shù)據(jù)結(jié)構(gòu)化為JSON:這允許Fluentd統(tǒng)一處理日志數(shù)據(jù)的所有方面:收集,過濾,緩沖和跨多個源和目標(biāo)(統(tǒng)一日志層)輸出日志。使用JSON可以更輕松地進(jìn)行下游數(shù)據(jù)處理,因?yàn)樗哂凶銐虻慕Y(jié)構(gòu),可以在保留靈活模式的同時進(jìn)行訪問??刹灏渭軜?gòu):Fluentd擁有靈活的插件系統(tǒng),允許社區(qū)擴(kuò)展其功能。我們的500多個社區(qū)貢獻(xiàn)插件連接了數(shù)十個數(shù)據(jù)源和數(shù)據(jù)輸岀。通過利用插件,您可以立即開始更好地使用日志。所需的資源較少:Fluentd是用C語言和Ruby組合編寫的,只需要很少的系統(tǒng)資源。vanilla實(shí)例運(yùn)行30-40MB內(nèi)存,可處理13,000個事件/秒/核心。內(nèi)置可靠性:Fluentd支持基于內(nèi)存和文件的緩沖,以防止節(jié)點(diǎn)間數(shù)據(jù)丟失。Fluentd還支持強(qiáng)大的故障轉(zhuǎn)移功能,可以設(shè)置為高可用性。LogtailLogtail是日志服務(wù)提供的一種便于日志接入的日志釆集客戶端。通過在您的機(jī)器上安裝Logtail來監(jiān)聽指定的日志文件并自動把新寫入到文件的日志上傳到您所指定的日志庫。Logtail的功能優(yōu)勢主要包括以下幾個方面:基于日志文件、無侵入式的收集日志。用戶無需修改應(yīng)用程序代碼,且日志收集不會影響用戶應(yīng)用程序的運(yùn)行邏輯。除支持文本日志采集外,還支持binlog、http、容器stdout等采集方式。對于容器支持友好,支持

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論