版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
ETL數(shù)據(jù)預(yù)處理技術(shù)主講人:曾凡晉任務(wù)一了解數(shù)據(jù)預(yù)處理基礎(chǔ)1.2數(shù)據(jù)清洗定義及對象數(shù)據(jù)清洗定義對于數(shù)據(jù)的“靈魂兩問”:難道數(shù)據(jù)也會變“臟”嗎?所有的數(shù)據(jù)都需要清洗嗎?01.數(shù)據(jù)清洗定義02.目錄數(shù)據(jù)清洗對象CONTENTS子任務(wù)1.2.1數(shù)據(jù)清洗定義數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。與問卷審核不同,錄入后的數(shù)據(jù)清理一般是由計算機而不是人工完成。數(shù)據(jù)清洗(Datacleansing/Datacleaning/Datascrubbing)可以有多種表述方式,其定義依賴于具體的應(yīng)用。因此,數(shù)據(jù)清洗的定義在不同的應(yīng)用領(lǐng)域不完全相同。目前業(yè)界一般認為,數(shù)據(jù)清洗的含義是檢測和去除數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù),以及去除空白數(shù)據(jù)域和知識背景下的白噪聲。數(shù)據(jù)預(yù)處理在大數(shù)據(jù)分析應(yīng)用中的環(huán)節(jié)子任務(wù)1.2.2數(shù)據(jù)清洗對象數(shù)據(jù)預(yù)處理的任務(wù)是對不滿足數(shù)據(jù)挖掘要求的數(shù)據(jù)進行清洗,將清洗的結(jié)果交給數(shù)據(jù)挖掘的下一個環(huán)節(jié)。這些不滿足要求的數(shù)據(jù)可以統(tǒng)稱為“臟數(shù)據(jù)”。通常,對于這些“臟數(shù)據(jù)”主要關(guān)注其來源及其清洗方式。這些數(shù)據(jù)對象有如下分類:基于清洗方式的臟數(shù)據(jù)分類基于數(shù)據(jù)源的臟數(shù)據(jù)分類基于數(shù)據(jù)源的清洗對象通常有單數(shù)據(jù)源、多數(shù)據(jù)源兩種。實際應(yīng)用中,對于一些有常規(guī)要求的最好給出約束條件,避免輸入錯誤單數(shù)據(jù)源單個數(shù)據(jù)源的數(shù)據(jù)質(zhì)量,主要取決于它的模式設(shè)定,以及數(shù)據(jù)源中的數(shù)據(jù)完整性約束的控制,如果一個數(shù)據(jù)源沒有數(shù)據(jù)模式,則對于輸入或存儲的數(shù)據(jù)缺乏相應(yīng)的限制,這樣出現(xiàn)數(shù)據(jù)不一致性或錯誤的幾率就大大增加。多數(shù)據(jù)源來源于多個業(yè)務(wù)系統(tǒng)的數(shù)據(jù),由于各業(yè)務(wù)系統(tǒng)在設(shè)計、實現(xiàn)時的功能需求、設(shè)計重點不同,多數(shù)據(jù)源存在的問題主要是名稱沖突、屬性值和結(jié)構(gòu)的沖突名稱沖突問題最常見,通常遵循“見名知義”原則,從字段含義的角度命名基于數(shù)據(jù)源的清洗對象通常有單數(shù)據(jù)源、多數(shù)據(jù)源兩種。概括來講,數(shù)據(jù)預(yù)處理主要針對有如下特點的數(shù)據(jù):殘缺數(shù)據(jù):這一類數(shù)據(jù)主要是一些應(yīng)該有的信息缺失,如供應(yīng)商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務(wù)系統(tǒng)中主表與明細表不能匹配等。此員工表“部門”、“性別”數(shù)據(jù)不完整概括來講,數(shù)據(jù)預(yù)處理主要針對有如下特點的數(shù)據(jù):錯誤數(shù)據(jù):這一類錯誤產(chǎn)生的原因是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒有進行判斷直接寫入后臺數(shù)據(jù)庫造成的數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串數(shù)據(jù)后面有一個回車操作、日期格式不正確、日期越界等。概括來講,數(shù)據(jù)預(yù)處理主要針對有如下特點的數(shù)據(jù):重復數(shù)據(jù):這一類數(shù)據(jù)是指在同一個數(shù)據(jù)表中相同數(shù)據(jù)出現(xiàn)多次的情況雙胞胎√重復數(shù)據(jù)×小結(jié)數(shù)據(jù)清洗定義修正不符合要求的數(shù)據(jù),不同應(yīng)用領(lǐng)域表述方式不同數(shù)據(jù)清洗對象
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年人教五四新版八年級地理下冊階段測試試卷含答案
- 2025年牛津上海版九年級地理下冊月考試卷含答案
- 2025年上教版選修3生物上冊階段測試試卷含答案
- 2025年滬科版必修3生物下冊階段測試試卷
- 2025年浙教版必修3生物上冊月考試卷含答案
- 二零二五年度爬架租賃與施工安全防護方案合同4篇
- 抽沙工程合同(2篇)
- 2024版違約合同的民事起訴狀
- 2025年度柑橘滯銷產(chǎn)品“搶購”線上線下聯(lián)動合同2篇
- 二零二五版屋頂廣告位使用權(quán)租賃與管理合同3篇
- 垃圾處理廠工程施工組織設(shè)計
- 天皰瘡患者護理
- 2025年高考物理復習壓軸題:電磁感應(yīng)綜合問題(原卷版)
- 2025年蛇年新年金蛇賀歲金蛇狂舞春添彩玉樹臨風福滿門模板
- 《建筑制圖及陰影透視(第2版)》課件 4-直線的投影
- 2024-2030年中國IVD(體外診斷)測試行業(yè)市場發(fā)展趨勢與前景展望戰(zhàn)略分析報告
- 碎紙機設(shè)計說明書
- 裝修家庭風水學入門基礎(chǔ)
- 移動商務(wù)內(nèi)容運營(吳洪貴)任務(wù)二 社群的種類與維護
- 《詩詞寫作常識 詩詞中國普及讀物 》讀書筆記思維導圖
- 一站到底試題及答案完整版(第2801-2900題)
評論
0/150
提交評論