任務(wù)1.2數(shù)據(jù)清洗定義及對象_第1頁
任務(wù)1.2數(shù)據(jù)清洗定義及對象_第2頁
任務(wù)1.2數(shù)據(jù)清洗定義及對象_第3頁
任務(wù)1.2數(shù)據(jù)清洗定義及對象_第4頁
任務(wù)1.2數(shù)據(jù)清洗定義及對象_第5頁
已閱讀5頁,還剩11頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ETL數(shù)據(jù)預(yù)處理技術(shù)主講人:曾凡晉任務(wù)一了解數(shù)據(jù)預(yù)處理基礎(chǔ)1.2數(shù)據(jù)清洗定義及對象數(shù)據(jù)清洗定義對于數(shù)據(jù)的“靈魂兩問”:難道數(shù)據(jù)也會變“臟”嗎?所有的數(shù)據(jù)都需要清洗嗎?01.數(shù)據(jù)清洗定義02.目錄數(shù)據(jù)清洗對象CONTENTS子任務(wù)1.2.1數(shù)據(jù)清洗定義數(shù)據(jù)清洗是指發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識別的錯誤的最后一道程序,包括檢查數(shù)據(jù)一致性,處理無效值和缺失值等。與問卷審核不同,錄入后的數(shù)據(jù)清理一般是由計算機而不是人工完成。數(shù)據(jù)清洗(Datacleansing/Datacleaning/Datascrubbing)可以有多種表述方式,其定義依賴于具體的應(yīng)用。因此,數(shù)據(jù)清洗的定義在不同的應(yīng)用領(lǐng)域不完全相同。目前業(yè)界一般認為,數(shù)據(jù)清洗的含義是檢測和去除數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù),以及去除空白數(shù)據(jù)域和知識背景下的白噪聲。數(shù)據(jù)預(yù)處理在大數(shù)據(jù)分析應(yīng)用中的環(huán)節(jié)子任務(wù)1.2.2數(shù)據(jù)清洗對象數(shù)據(jù)預(yù)處理的任務(wù)是對不滿足數(shù)據(jù)挖掘要求的數(shù)據(jù)進行清洗,將清洗的結(jié)果交給數(shù)據(jù)挖掘的下一個環(huán)節(jié)。這些不滿足要求的數(shù)據(jù)可以統(tǒng)稱為“臟數(shù)據(jù)”。通常,對于這些“臟數(shù)據(jù)”主要關(guān)注其來源及其清洗方式。這些數(shù)據(jù)對象有如下分類:基于清洗方式的臟數(shù)據(jù)分類基于數(shù)據(jù)源的臟數(shù)據(jù)分類基于數(shù)據(jù)源的清洗對象通常有單數(shù)據(jù)源、多數(shù)據(jù)源兩種。實際應(yīng)用中,對于一些有常規(guī)要求的最好給出約束條件,避免輸入錯誤單數(shù)據(jù)源單個數(shù)據(jù)源的數(shù)據(jù)質(zhì)量,主要取決于它的模式設(shè)定,以及數(shù)據(jù)源中的數(shù)據(jù)完整性約束的控制,如果一個數(shù)據(jù)源沒有數(shù)據(jù)模式,則對于輸入或存儲的數(shù)據(jù)缺乏相應(yīng)的限制,這樣出現(xiàn)數(shù)據(jù)不一致性或錯誤的幾率就大大增加。多數(shù)據(jù)源來源于多個業(yè)務(wù)系統(tǒng)的數(shù)據(jù),由于各業(yè)務(wù)系統(tǒng)在設(shè)計、實現(xiàn)時的功能需求、設(shè)計重點不同,多數(shù)據(jù)源存在的問題主要是名稱沖突、屬性值和結(jié)構(gòu)的沖突名稱沖突問題最常見,通常遵循“見名知義”原則,從字段含義的角度命名基于數(shù)據(jù)源的清洗對象通常有單數(shù)據(jù)源、多數(shù)據(jù)源兩種。概括來講,數(shù)據(jù)預(yù)處理主要針對有如下特點的數(shù)據(jù):殘缺數(shù)據(jù):這一類數(shù)據(jù)主要是一些應(yīng)該有的信息缺失,如供應(yīng)商的名稱、分公司的名稱、客戶的區(qū)域信息缺失、業(yè)務(wù)系統(tǒng)中主表與明細表不能匹配等。此員工表“部門”、“性別”數(shù)據(jù)不完整概括來講,數(shù)據(jù)預(yù)處理主要針對有如下特點的數(shù)據(jù):錯誤數(shù)據(jù):這一類錯誤產(chǎn)生的原因是業(yè)務(wù)系統(tǒng)不夠健全,在接收輸入后沒有進行判斷直接寫入后臺數(shù)據(jù)庫造成的數(shù)值數(shù)據(jù)輸成全角數(shù)字字符、字符串數(shù)據(jù)后面有一個回車操作、日期格式不正確、日期越界等。概括來講,數(shù)據(jù)預(yù)處理主要針對有如下特點的數(shù)據(jù):重復數(shù)據(jù):這一類數(shù)據(jù)是指在同一個數(shù)據(jù)表中相同數(shù)據(jù)出現(xiàn)多次的情況雙胞胎√重復數(shù)據(jù)×小結(jié)數(shù)據(jù)清洗定義修正不符合要求的數(shù)據(jù),不同應(yīng)用領(lǐng)域表述方式不同數(shù)據(jù)清洗對象

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論