《數(shù)據(jù)采集技術(shù)》課件-初識(shí)數(shù)據(jù)采集_第1頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-初識(shí)數(shù)據(jù)采集_第2頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-初識(shí)數(shù)據(jù)采集_第3頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-初識(shí)數(shù)據(jù)采集_第4頁(yè)
《數(shù)據(jù)采集技術(shù)》課件-初識(shí)數(shù)據(jù)采集_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

初識(shí)數(shù)據(jù)采集Contents知識(shí)目標(biāo)掌握數(shù)據(jù)采集的定義、范圍技能目標(biāo)熟悉數(shù)據(jù)采集的流程素養(yǎng)目標(biāo)培養(yǎng)良好的信息素養(yǎng)和道德意識(shí)初識(shí)數(shù)據(jù)采集數(shù)據(jù)采集,又稱數(shù)據(jù)獲取,是利用一種程序或裝置從系統(tǒng)外部采集數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終輸入到存儲(chǔ)系統(tǒng)中。定義特點(diǎn)將大量的信息自動(dòng)獲取并整合為有價(jià)值的數(shù)據(jù),大大提高工作效率。通過程序自動(dòng)獲取信息,避免人工操作中出現(xiàn)的錯(cuò)誤。實(shí)時(shí)監(jiān)控信息更新情況,保證所采集到的數(shù)據(jù)是最新的。高效性準(zhǔn)確性實(shí)時(shí)性初識(shí)數(shù)據(jù)采集數(shù)據(jù)的類型(從結(jié)構(gòu)上區(qū)分)結(jié)構(gòu)化數(shù)據(jù)指具有固定字段和格式的數(shù)據(jù)。半結(jié)構(gòu)化數(shù)據(jù)指具有一定結(jié)構(gòu),但字段和格式不固定的數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)指沒有固定字段和格式的數(shù)據(jù)。數(shù)據(jù)庫(kù)中的表格CSV文件JSONXMLCSV文本圖像音頻視頻初識(shí)數(shù)據(jù)采集數(shù)據(jù)的類型(從來源上區(qū)分)業(yè)務(wù)數(shù)據(jù)行業(yè)數(shù)據(jù)線上行為數(shù)據(jù)線下行為數(shù)據(jù)內(nèi)容數(shù)據(jù)思考采集范圍采集流程采集方法?數(shù)據(jù)采集范圍數(shù)據(jù)庫(kù)采集關(guān)系型數(shù)據(jù)庫(kù)、NoSQL數(shù)據(jù)庫(kù)。系統(tǒng)日志采集離線大數(shù)據(jù)分析系統(tǒng)、在線大數(shù)據(jù)分析系統(tǒng)。滿足高可用性、高可靠性、高可拓展性。網(wǎng)絡(luò)數(shù)據(jù)采集通過網(wǎng)絡(luò)爬蟲或者網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息的過程。將非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中提取出來。感知設(shè)備數(shù)據(jù)采集通過傳感器、攝像頭和其他智能終端自動(dòng)采集信號(hào)、圖片或錄像來獲取數(shù)據(jù)。對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理。采集流程(多領(lǐng)域范圍)(驗(yàn)證、拆分、過濾)(靈活、合理)數(shù)據(jù)采集數(shù)據(jù)清洗數(shù)據(jù)存儲(chǔ)數(shù)據(jù)清洗指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤的最后一道程序。檢查數(shù)據(jù)一致性處理無效值和缺失值包括:采集流程網(wǎng)頁(yè)爬取的采集流程1.網(wǎng)頁(yè)抓取2.數(shù)據(jù)提取3.數(shù)據(jù)存儲(chǔ)采集流程網(wǎng)頁(yè)爬取的采集流程1.網(wǎng)頁(yè)抓取主要目的是通過網(wǎng)絡(luò)請(qǐng)求獲取網(wǎng)頁(yè)的原始內(nèi)容。網(wǎng)頁(yè)發(fā)送HTTP請(qǐng)求獲取HTML代碼常用的Python庫(kù),如Requests、urllib等。2.數(shù)據(jù)提取3.數(shù)據(jù)存儲(chǔ)爬蟲需要設(shè)置合理的請(qǐng)求頭為了避免對(duì)目標(biāo)網(wǎng)站造成過大的壓力或被封禁,可以設(shè)置合適的請(qǐng)求間隔、使用代理IP等。采集流程網(wǎng)頁(yè)爬取的采集流程1.網(wǎng)頁(yè)抓取網(wǎng)絡(luò)爬蟲的核心環(huán)節(jié)2.數(shù)據(jù)提取3.數(shù)據(jù)存儲(chǔ)網(wǎng)頁(yè)提取出有用的數(shù)據(jù)常見提取方式包括正則表達(dá)式、XPath、CSS選擇器等。爬蟲采集流程網(wǎng)頁(yè)爬取的采集流程1.網(wǎng)頁(yè)抓取目的是將抓取到的數(shù)據(jù)保存下來,以備后續(xù)的分析和應(yīng)用。2.數(shù)據(jù)提取3.數(shù)據(jù)存儲(chǔ)網(wǎng)頁(yè)數(shù)據(jù)保存常見的數(shù)據(jù)存儲(chǔ)方式包括文件存儲(chǔ)、數(shù)據(jù)庫(kù)存儲(chǔ)等。爬蟲采集流程采集搜索類日志數(shù)據(jù)涉及以下步驟:1.數(shù)據(jù)源確定2.日志配置3.數(shù)據(jù)篩選4.數(shù)據(jù)轉(zhuǎn)換5.數(shù)據(jù)存儲(chǔ)本講小結(jié)123數(shù)據(jù)采集的定義、類型數(shù)據(jù)采集的流程數(shù)據(jù)采集的方法思政意識(shí)提升我國(guó)在抗擊疫情的嚴(yán)峻斗爭(zhēng)中所表現(xiàn)出的制度優(yōu)勢(shì)、大國(guó)擔(dān)當(dāng),以及大數(shù)據(jù)在疫情監(jiān)測(cè)分析、人員管控、醫(yī)療救治、復(fù)工復(fù)產(chǎn)等方面發(fā)揮了巨大作用,我們要厚植家國(guó)情懷,鑄牢中華民族共同體意識(shí)。課后作業(yè)使用八爪魚采集器采集任一網(wǎng)址數(shù)據(jù),了解什么是數(shù)據(jù)采集、數(shù)據(jù)采集的流程和方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論