版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、目 錄一、數(shù)據(jù)清洗工作流程一、數(shù)據(jù)清洗工作流程二、數(shù)據(jù)清洗內(nèi)容二、數(shù)據(jù)清洗內(nèi)容三、數(shù)據(jù)清洗規(guī)則三、數(shù)據(jù)清洗規(guī)則四、數(shù)據(jù)清洗策略四、數(shù)據(jù)清洗策略五、證件號碼清洗報告五、證件號碼清洗報告一、數(shù)據(jù)清洗工作流程 (一)(一)必錄項及重要指標項空缺必錄項及重要指標項空缺 (二)指標值異常(二)指標值異常 (三)指標值之間邏輯關(guān)系異常(三)指標值之間邏輯關(guān)系異常 (四)業(yè)務邏輯關(guān)系異常(四)業(yè)務邏輯關(guān)系異常 (五)貧困戶、貧困人口重復(五)貧困戶、貧困人口重復二、數(shù)據(jù)清洗內(nèi)容 (一)必錄項及重要指標項空缺(一)必錄項及重要指標項空缺 1. 1.貧困戶識別標準為空貧困戶識別標準為空 2. 2.貧困戶屬性為空
2、貧困戶屬性為空 3. 3.主要致貧原因為空主要致貧原因為空 4. 4.脫貧狀態(tài)標識為空脫貧狀態(tài)標識為空 5. 5.行政區(qū)劃為空行政區(qū)劃為空 6. 6.證件號碼為空證件號碼為空三、數(shù)據(jù)清洗規(guī)則 (一)必錄項及重要指標項空缺(一)必錄項及重要指標項空缺 7. 7.文化程度為空文化程度為空 8. 8.健康狀況為空健康狀況為空 9. 9.勞動技能為空勞動技能為空 10. 10.務工狀況為空務工狀況為空 11. 11.在校生情況為空在校生情況為空 三、數(shù)據(jù)清洗規(guī)則 (二)指標值異常(二)指標值異常 1. 1.證件號碼不符合校驗規(guī)則證件號碼不符合校驗規(guī)則 2. 2.其他致貧原因超過兩項其他致貧原因超過兩項
3、 3. 3.出生日期與身份證號中的出生日期不符出生日期與身份證號中的出生日期不符 三、數(shù)據(jù)清洗規(guī)則 (二)指標值異常(二)指標值異常 4. 4.務工時間不符合指標采集規(guī)范務工時間不符合指標采集規(guī)范 5. 5.人均純收入為人均純收入為0 0或超或超5 5位數(shù)位數(shù) 6. 6.與村主干路距離超過與村主干路距離超過5050公里公里 三、數(shù)據(jù)清洗規(guī)則 (三)指標值之間邏輯關(guān)系異常(三)指標值之間邏輯關(guān)系異常 1. 1.務工狀況為務工狀況為“非務工非務工”,務工時間不為,務工時間不為0 0 2. 2.貧困戶無務工人員,卻有工資性收入貧困戶無務工人員,卻有工資性收入 3. 3.貧困人口喪勞,有外出務工情況貧
4、困人口喪勞,有外出務工情況 三、數(shù)據(jù)清洗規(guī)則 (三)指標值之間邏輯關(guān)系異常(三)指標值之間邏輯關(guān)系異常 4. 4.年收入邏輯關(guān)系異常年收入邏輯關(guān)系異常 5. 5.人均純收入邏輯關(guān)系異常人均純收入邏輯關(guān)系異常 6. 6.低保貧困戶無低保金低保貧困戶無低保金 三、數(shù)據(jù)清洗規(guī)則 (三)指標值之間邏輯關(guān)系異常(三)指標值之間邏輯關(guān)系異常 7. 7. “ “與戶主關(guān)系與戶主關(guān)系”和和“性別性別”不符不符 8. 8.貧困戶貧困戶“家庭人數(shù)家庭人數(shù)”與實際人口數(shù)不符與實際人口數(shù)不符 9. 9.貧困戶存在多個戶主貧困戶存在多個戶主 10. 10. 殘疾人無殘疾證殘疾人無殘疾證 三、數(shù)據(jù)清洗規(guī)則 (四)業(yè)務邏輯
5、關(guān)系異常(四)業(yè)務邏輯關(guān)系異常 1. 1.貧困戶家庭無在校生,主要致貧原因為貧困戶家庭無在校生,主要致貧原因為“因?qū)W因?qū)W” 2. 2.貧困戶家庭無殘疾人,主要致貧原因為貧困戶家庭無殘疾人,主要致貧原因為“因殘因殘” 3. 3.貧困戶家庭成員健康狀況全部為貧困戶家庭成員健康狀況全部為“健康健康”, 主要致貧原因為主要致貧原因為“因病因病”。三、數(shù)據(jù)清洗規(guī)則 (四)業(yè)務邏輯關(guān)系異常(四)業(yè)務邏輯關(guān)系異常 4. 4.返貧戶在上一年度貧困戶屬性非返貧戶在上一年度貧困戶屬性非“已脫貧已脫貧” 5. 5.貧困戶空掛貧困戶空掛 7. 7.脫貧戶人均純收入低于國家貧困標準脫貧戶人均純收入低于國家貧困標準 8.
6、 8.年齡在年齡在16-6016-60周歲的健康人口勞動能力為周歲的健康人口勞動能力為“喪勞喪勞” 9. 9.五保戶(含五保貧困戶、五保農(nóng)戶)存在年齡在五保戶(含五保貧困戶、五保農(nóng)戶)存在年齡在16-6016-60周歲的勞動力周歲的勞動力 三、數(shù)據(jù)清洗規(guī)則 (五)貧困戶、貧困人口重復(五)貧困戶、貧困人口重復 (1 1)姓名不一致,如:王思妍,王恩妍)姓名不一致,如:王思妍,王恩妍 (2 2)性別不一致)性別不一致 (3 3)文化程度不一致)文化程度不一致 (4 4) 三、數(shù)據(jù)清洗規(guī)則 (五)貧困戶、貧困人口重復(五)貧困戶、貧困人口重復 (5 5)多省交界處,戶籍地混亂)多省交界處,戶籍地混
7、亂 三、數(shù)據(jù)清洗規(guī)則 (6 6)僅)僅“識別標準識別標準”不同不同 (7 7)僅)僅“家庭人員數(shù)量家庭人員數(shù)量”不同不同 (8 8)家庭成員互為戶主)家庭成員互為戶主 (9 9)拆戶分戶情況拆戶分戶情況 (1010)嫁娶、改嫁,戶口遷移情況)嫁娶、改嫁,戶口遷移情況三、數(shù)據(jù)清洗規(guī)則 (一)后臺批量處理(一)后臺批量處理 1. 1.指標值含有空字符指標值含有空字符 2. 2.指標值含有特殊字符指標值含有特殊字符 3. 3.非指標體系代碼選項非指標體系代碼選項 4. 4.指標值間存在邏輯關(guān)系,指標值間存在邏輯關(guān)系, 如錯誤出生日期可從正確身份證中提取如錯誤出生日期可從正確身份證中提取 并做更新處理
8、并做更新處理四、數(shù)據(jù)清洗策略 (二)前臺核實修改(二)前臺核實修改 1. 1.提取待清洗數(shù)據(jù)逐級下發(fā)提取待清洗數(shù)據(jù)逐級下發(fā) 2. 2.基層扶貧部門核實修改基層扶貧部門核實修改 (三)前臺采集補錄(三)前臺采集補錄 1. 1.將應填未填項逐級下發(fā)將應填未填項逐級下發(fā) 2. 2.基層扶貧部門采集錄入基層扶貧部門采集錄入四、數(shù)據(jù)清洗策略 (一)清洗內(nèi)容(一)清洗內(nèi)容 1. 1.證件號碼重復證件號碼重復 2. 2.證件號碼有誤證件號碼有誤 3. 3.證件類型值異常證件類型值異常 4. 4.證件類型與證件號碼不符證件類型與證件號碼不符五、證件號碼清洗報告 (二)清洗規(guī)則(二)清洗規(guī)則 1. 1.證件號碼
9、重復證件號碼重復 2. 2.證件號碼包含空字符證件號碼包含空字符 3. 3.證件號碼位數(shù)非證件號碼位數(shù)非1515、1818、2020位位 4. 18 4. 18位身份證是否符合校驗規(guī)則位身份證是否符合校驗規(guī)則 5. 20 5. 20位殘疾證是否符合校驗位及殘疾類型、等級規(guī)則位殘疾證是否符合校驗位及殘疾類型、等級規(guī)則 6. 6.證件類型為空或非指標體系代碼項證件類型為空或非指標體系代碼項 7. 7.證件類型與證件號碼不符證件類型與證件號碼不符五、證件號碼清洗報告 (五)清洗策略(五)清洗策略 1. 1.證件號碼清洗證件號碼清洗 (1 1)證件號碼重復的,提取問題數(shù)據(jù)并提供修改建議)證件號碼重復的
10、,提取問題數(shù)據(jù)并提供修改建議,逐級下發(fā),由基層扶貧部門核實后在前臺修改,逐級下發(fā),由基層扶貧部門核實后在前臺修改 (2 2)證件號碼未采集的(空值),將問題數(shù)據(jù)逐級下)證件號碼未采集的(空值),將問題數(shù)據(jù)逐級下發(fā),由基層扶貧部門進行前臺采集補錄發(fā),由基層扶貧部門進行前臺采集補錄 (3 3)證件號碼包含空字符的,首先從后臺批量剔除空)證件號碼包含空字符的,首先從后臺批量剔除空字符,然后再進行一輪數(shù)據(jù)清洗處理字符,然后再進行一輪數(shù)據(jù)清洗處理 五、證件號碼清洗報告 (五)清洗策略(五)清洗策略 1. 1.證件號碼清洗證件號碼清洗 (4 4)非)非1515、1818、2020位的證件號碼,除中國人民解
11、放軍軍位的證件號碼,除中國人民解放軍軍官證以外,其他證件類型的證件號碼,提取問題數(shù)據(jù)逐級官證以外,其他證件類型的證件號碼,提取問題數(shù)據(jù)逐級下發(fā),前臺核實修改下發(fā),前臺核實修改 (5 5)1515位證件號碼,需升級為位證件號碼,需升級為1818位,將問題數(shù)據(jù)逐級下位,將問題數(shù)據(jù)逐級下發(fā),前臺采集補錄發(fā),前臺采集補錄 五、證件號碼清洗報告 (五)清洗策略(五)清洗策略 1. 1.證件號碼清洗證件號碼清洗 (6 6)對于證件號碼為)對于證件號碼為1818、2020位的錯誤數(shù)據(jù),證件號碼中位的錯誤數(shù)據(jù),證件號碼中第第1818位校驗碼應為位校驗碼應為“X”X”,但原采集錄入為,但原采集錄入為“、全角、全
12、角、* *、”等字符的,可通過后臺批量處理,統(tǒng)一替換為等字符的,可通過后臺批量處理,統(tǒng)一替換為英文半角大寫英文半角大寫X X;其他情況需提取問題數(shù)據(jù)逐級下發(fā),由;其他情況需提取問題數(shù)據(jù)逐級下發(fā),由基層扶貧部門核實后在前臺修改基層扶貧部門核實后在前臺修改五、證件號碼清洗報告 (五)清洗策略(五)清洗策略 2. 2.證件類型清洗證件類型清洗 (1 1)證件類型為空的,如果證件號碼符合身份證和殘疾)證件類型為空的,如果證件號碼符合身份證和殘疾人證校驗規(guī)則,可以通過后臺批量處理;否則逐級下發(fā)問人證校驗規(guī)則,可以通過后臺批量處理;否則逐級下發(fā)問題數(shù)據(jù),通過前臺采集補錄題數(shù)據(jù),通過前臺采集補錄 (2 2)
13、證件類型非指標體系代碼項的數(shù)據(jù),如指標值記錄)證件類型非指標體系代碼項的數(shù)據(jù),如指標值記錄為為“1 1”的數(shù)據(jù),且證件類型確應為的數(shù)據(jù),且證件類型確應為“居民身份證(戶口居民身份證(戶口簿)簿)”,通過后臺批量處理,統(tǒng)一將證件類型修改為,通過后臺批量處理,統(tǒng)一將證件類型修改為“01”01”五、證件號碼清洗報告 (五)清洗策略(五)清洗策略 3. 3.證件類型與證件號碼不符證件類型與證件號碼不符 (1 1)已通過身份證規(guī)則校驗的)已通過身份證規(guī)則校驗的1818位證件號碼,若證件類位證件號碼,若證件類型為型為“殘疾人證殘疾人證” ” ,且健康狀況為,且健康狀況為“殘疾殘疾” ” ,屬殘疾人,屬殘疾人無殘疾證范疇,與殘聯(lián)進行比對后更新。其他情況,統(tǒng)一無殘疾證范疇,與殘聯(lián)進行比對后更新。其他情況,統(tǒng)一批量修改為批量修改為“居民身份證(戶口簿)居民身份證(戶口簿)” (2 2)已通過殘疾證規(guī)則校驗的)已通過殘疾證規(guī)則校驗的2020位證件號碼,證件類型位證件號碼,證件類型批量修改為批量修改為“殘疾人證殘疾人證”,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 壓縮感知在自適應信號處理中的應用-洞察分析
- 《歐美建筑特點》課件
- 寫給對象的道歉信(15篇)
- 數(shù)字政府法律框架構(gòu)建-洞察分析
- 外語學校品牌建設(shè)策略-洞察分析
- 性別視角下的家庭敘事研究-洞察分析
- 天然氣液化技術(shù)發(fā)展趨勢-洞察分析
- 《電源系統(tǒng)培訓》課件
- 企業(yè)文化在客戶服務中的作用
- 辦公自動化與小設(shè)備的智能設(shè)計與實施案例分享
- PS平面設(shè)計練習題庫(附參考答案)
- 混合云架構(gòu)整體設(shè)計及應用場景介紹
- 六年級上冊分數(shù)乘除混合運算300題帶答案
- 北京市西城區(qū)2022-2023學年六年級上學期語文期末試卷(含答案)
- 小王子-英文原版
- 墊付協(xié)議合同范例
- 2024年高一語文期末復習訓練-非連續(xù)性文本閱讀
- 統(tǒng)編版2024-2025學年語文五年級上冊日積月累專項訓練練習題
- 2024年新人教版三年級數(shù)學上冊《第8單元第8課時 分數(shù)的初步認識復習》教學課件
- 2024-2030年中國混凝土管樁行業(yè)發(fā)展分析及發(fā)展前景與趨勢預測研究報告
- 全區(qū)國有企業(yè)資產(chǎn)全面清查工作方案
評論
0/150
提交評論