版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
大數(shù)據(jù)導(dǎo)論數(shù)
據(jù)
采
集數(shù)據(jù)采集概述目錄01采集技術(shù)概述
02采集的特點(diǎn)
03采集的數(shù)據(jù)類型
04采集的范圍
05采集的流程
數(shù)據(jù)采集又稱數(shù)據(jù)獲取,是利用一種程序或裝置從系統(tǒng)外部采集數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終輸入到存儲系統(tǒng)中的一種過程。c以大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能、5G為核心特征的數(shù)字化浪潮正席卷全球,隨著網(wǎng)絡(luò)和信息技術(shù)的不斷普及,人類產(chǎn)生的數(shù)據(jù)量正在呈指數(shù)級增長。大約每兩年翻一番,這意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量。面對如此海量的數(shù)據(jù),與之相關(guān)的采集、存儲、分析等等環(huán)節(jié)產(chǎn)生了一系列的問題。如何收集有效的數(shù)據(jù)并且進(jìn)行轉(zhuǎn)換分析存儲以及有效率的分析成為巨大的挑戰(zhàn)。數(shù)據(jù)采集概述數(shù)據(jù)采集技術(shù)FilebeatXPATH爬蟲原理正則表達(dá)式HTTPFluentdSyslogFlumeBeautifulSoupLogstash相關(guān)技術(shù)和工具數(shù)據(jù)采集的特點(diǎn)以自動(dòng)化手段為主,擺脫人工錄入的方式自動(dòng)化以全量采集和增量采集并存的方式,不對采集的數(shù)據(jù)進(jìn)行采樣采集方式采集方式多樣化、內(nèi)容豐富化豐富多樣針對日志數(shù)據(jù)的采集,使用數(shù)據(jù)管道直達(dá)數(shù)據(jù)庫實(shí)時(shí)性高傳統(tǒng)的數(shù)據(jù)采集來源單一,且存儲、管理和分析數(shù)據(jù)量也相對較小,大多采用關(guān)系型數(shù)據(jù)庫和并行數(shù)據(jù)倉庫即可處理。在依靠并行計(jì)算提升數(shù)據(jù)處理速度方面,傳統(tǒng)的并行數(shù)據(jù)庫技術(shù)追求的是高度一致性和容錯(cuò)性,從而難以保證其可用性和擴(kuò)展性。數(shù)據(jù)采集的數(shù)據(jù)類型結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)具有固定格式或有限長度的數(shù)據(jù)
。例如:數(shù)據(jù)庫,元數(shù)據(jù)等。非關(guān)系模型的、有基本固定結(jié)構(gòu)模式的數(shù)據(jù)。例如:日志文件、XML文檔、JSON文檔、Email等。數(shù)據(jù)結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型。例如:所有格式的辦公文檔、文本、圖片、HTML、各類報(bào)表、圖像和音頻/視頻信息等等。采集的范圍數(shù)據(jù)庫數(shù)據(jù)互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)系統(tǒng)日志數(shù)據(jù)內(nèi)部業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫企業(yè)內(nèi)部的各個(gè)獨(dú)立的業(yè)務(wù)系統(tǒng),在各類數(shù)據(jù)庫中存儲了大量的數(shù)據(jù)互聯(lián)網(wǎng)對外公開內(nèi)容
凡是可以通過瀏覽器或者移動(dòng)APP公開訪問的互聯(lián)網(wǎng)內(nèi)容操作系統(tǒng)及業(yè)務(wù)系統(tǒng)日志自身操作系統(tǒng)或者自有業(yè)務(wù)系統(tǒng)的日常日志記錄數(shù)據(jù)互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)系統(tǒng)日志數(shù)據(jù)網(wǎng)絡(luò)設(shè)備日志網(wǎng)絡(luò)設(shè)備記錄的訪問日志、流量日志、攻擊日志等等設(shè)備狀態(tài)數(shù)據(jù)分布式運(yùn)算框架物聯(lián)網(wǎng)感知設(shè)備數(shù)據(jù)
物聯(lián)網(wǎng)的感知層設(shè)備采集的各類傳感數(shù)據(jù)采集的流程不同的數(shù)據(jù)對象,其采集流程不盡相同,這里僅介紹網(wǎng)頁內(nèi)容采集流程及系統(tǒng)日志的采集流程。網(wǎng)頁爬取的采集流程系統(tǒng)日志的采集流程網(wǎng)頁爬取的采集流程分析采集對象構(gòu)建采集請求獲取響應(yīng)內(nèi)容針對一個(gè)網(wǎng)頁,需要分析其網(wǎng)頁結(jié)構(gòu),明確要采集的對象清單,采集清單相關(guān)法律法規(guī)評估,同時(shí)確定目標(biāo)數(shù)據(jù)是否在同一個(gè)頁面中。通過HTTP協(xié)議向目標(biāo)站點(diǎn)發(fā)起請求,也就是發(fā)送一個(gè)Request,請求可以包含額外的header等信息,等待服務(wù)器響應(yīng)如果服務(wù)器能正常響應(yīng),會(huì)得到一個(gè)Response,Response的內(nèi)容便是所要獲取的頁面內(nèi)容,類型可能是HTML,Json字符串,二進(jìn)制數(shù)據(jù)(圖片或者視頻)等類型過濾解析內(nèi)容存儲采集數(shù)據(jù)保存形式多樣,可以存為文本,也可以保存到數(shù)據(jù)庫,或者保存特定格式的文件,如果是海量數(shù)據(jù),則可以存儲到HDFS文件系統(tǒng)或者HIVE數(shù)據(jù)庫中。得到的內(nèi)容可能是HTML文本,可以用正則表達(dá)式、BeautifulSoup、XPath進(jìn)行解析,可能是Json,可以直接轉(zhuǎn)換為Json對象解析,可能是二進(jìn)制數(shù)據(jù),可以做保存或者進(jìn)一步的處理系統(tǒng)日志的采集流程STEP1分析日志規(guī)模及實(shí)時(shí)性,選擇適合的日志采集工具。STEP2確定數(shù)據(jù)采集的輸入端、輸出端。STEP3配置日志采集器文件,明確
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年度個(gè)人房產(chǎn)購銷擔(dān)保服務(wù)合同3篇
- 2025版新能源汽車租賃服務(wù)合同范本3篇
- 成套配電柜安裝施工方案
- 2025年度信報(bào)箱工程節(jié)能降耗合作協(xié)議2篇
- 鋼結(jié)構(gòu)梁施工方案
- 2025年度知識產(chǎn)權(quán)與創(chuàng)新創(chuàng)業(yè)合作協(xié)議3篇
- 二零二五年度bot應(yīng)用軟件實(shí)施與運(yùn)維合同2篇
- 2025年度創(chuàng)業(yè)孵化器租賃合同3篇
- 2025年度無財(cái)產(chǎn)離婚協(xié)議書專業(yè)律師指導(dǎo)3篇
- 二零二五年度企業(yè)項(xiàng)目融資保證金質(zhì)押合同樣本3篇
- 海域使用分類體系(全)
- 魯教版必修一第二單元第二節(jié)大氣運(yùn)動(dòng)——熱力環(huán)流(共28張PPT)
- 解除限制消費(fèi)申請書
- 汽車整車廠和動(dòng)力總成廠房火災(zāi)危險(xiǎn)性分類
- 7實(shí)用衛(wèi)生統(tǒng)計(jì)學(xué)總-國家開放大學(xué)2022年1月期末考試復(fù)習(xí)資料-護(hù)理本復(fù)習(xí)資料
- 精品資料(2021-2022年收藏)集團(tuán)各控股子公司董事會(huì)議事規(guī)則
- t-橋式起重機(jī)設(shè)計(jì)計(jì)算書
- 全口義齒印模及頜位關(guān)系記錄ppt課件
- 定點(diǎn)洗車協(xié)議書(共2頁)
- 電除塵器計(jì)算
- 桿塔選型(高度、形式、基礎(chǔ))
評論
0/150
提交評論