數(shù)據(jù)清洗概述_第1頁(yè)
數(shù)據(jù)清洗概述_第2頁(yè)
數(shù)據(jù)清洗概述_第3頁(yè)
數(shù)據(jù)清洗概述_第4頁(yè)
數(shù)據(jù)清洗概述_第5頁(yè)
已閱讀5頁(yè),還剩14頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

講師:黃珊財(cái)務(wù)大數(shù)據(jù)分析基礎(chǔ)數(shù)據(jù)清洗概述1了解數(shù)據(jù)清洗含義2熟悉數(shù)據(jù)清洗主要內(nèi)容及處理方法學(xué)習(xí)目標(biāo)3理解數(shù)據(jù)清洗設(shè)計(jì)原則課程導(dǎo)入此數(shù)據(jù)集存在哪些問(wèn)題?學(xué)號(hào)姓名性別年齡分?jǐn)?shù)(百分制)01王思男207802李明男208603黃肖女1909804陳辰女1820005席蒙男

20數(shù)據(jù)清洗含義PART01正文講解數(shù)據(jù)清洗含義是對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過(guò)程,是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別錯(cuò)誤的最后一道程序,按照一定的規(guī)則把“臟數(shù)據(jù)”“洗掉”。含義:

錯(cuò)誤的、數(shù)據(jù)間有沖突的、非需求的數(shù)據(jù),是我們不想要的,稱為“臟數(shù)據(jù)”。臟數(shù)據(jù)來(lái)源:最根本原因是數(shù)據(jù)源多樣,使得數(shù)據(jù)的標(biāo)準(zhǔn)、格式、統(tǒng)計(jì)方法不一樣;其次,錄入錯(cuò)誤,計(jì)算數(shù)據(jù)的代碼錯(cuò)誤。數(shù)據(jù)清洗主要內(nèi)容及處理方法PART02數(shù)據(jù)清洗主要內(nèi)容(5)關(guān)聯(lián)性驗(yàn)證(1)缺失值(2)格式內(nèi)容(3)邏輯錯(cuò)誤(4)非需求性數(shù)據(jù)數(shù)據(jù)清洗主要內(nèi)容數(shù)據(jù)清洗處理方法缺失值的處理去除不需要的字段填充缺失內(nèi)容重新取數(shù)2341確定缺失值范圍數(shù)據(jù)清洗處理方法格式內(nèi)容231內(nèi)容與該字段應(yīng)有內(nèi)容不符內(nèi)容中有不該存在的字符時(shí)間、日期、數(shù)值、全半角等顯示格式不一致詳細(xì)識(shí)別后再處理去除即可處理成一致的某種格式數(shù)據(jù)清洗處理方法邏輯錯(cuò)誤231修正矛盾值去除或重構(gòu)不可靠去除不合理值刪除或按缺失值處理去重放在格式內(nèi)容清洗之后數(shù)據(jù)清洗處理方法非需求性數(shù)據(jù)某字段覺(jué)得很有用,但又不知怎么用,不知是否刪除誤刪錯(cuò)別字段231看上去不重要但實(shí)際上對(duì)業(yè)務(wù)很重要的字段刪除了勤備份數(shù)據(jù)能不刪的字段盡量不刪能不刪的字段盡量不刪數(shù)據(jù)清洗處理方法如果數(shù)據(jù)有多個(gè)來(lái)源,則必要對(duì)數(shù)據(jù)之間進(jìn)行關(guān)聯(lián)性驗(yàn)證。調(diào)整or去除數(shù)據(jù)清洗設(shè)計(jì)原則PART03數(shù)據(jù)清洗設(shè)計(jì)原則IPO模型數(shù)據(jù)清洗不是一次性工作,需要多次、多環(huán)節(jié)進(jìn)行。因此,要做好數(shù)據(jù)清洗、保證數(shù)據(jù)質(zhì)量,那么首先需要對(duì)整個(gè)數(shù)據(jù)處理的流程進(jìn)行設(shè)計(jì)或了解,在了解了數(shù)據(jù)流程后再在相應(yīng)的環(huán)節(jié)設(shè)計(jì)數(shù)據(jù)清洗的流程。數(shù)據(jù)清洗設(shè)計(jì)原則一個(gè)清洗步驟就用一條清洗規(guī)則多拆分清洗步驟,每個(gè)步驟備份數(shù)據(jù),方便出問(wèn)題時(shí)回退一般先做全局清洗(即對(duì)全部數(shù)據(jù)),再做個(gè)別字段的清洗清洗的輸出結(jié)果不要直接放在正式數(shù)據(jù)流\正式文件中,先用測(cè)試環(huán)境\臨時(shí)文件充分驗(yàn)證后上正式環(huán)境(一)數(shù)據(jù)清洗設(shè)計(jì)原則數(shù)據(jù)清洗設(shè)計(jì)原則(二)數(shù)據(jù)清洗原則少量數(shù)據(jù)。先合并、聯(lián)接再清洗大量數(shù)據(jù)源接入。先按照統(tǒng)一標(biāo)準(zhǔn)清洗,再接入每個(gè)數(shù)據(jù)計(jì)算層。先清洗再計(jì)算分析結(jié)果發(fā)現(xiàn)數(shù)據(jù)問(wèn)題。向前溯源,新增、修訂清洗規(guī)則課程小結(jié)01.數(shù)據(jù)清洗概述02.數(shù)據(jù)清洗主要內(nèi)容及處理方法03.數(shù)據(jù)清洗設(shè)計(jì)原則思考題(可選

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論