DB37T 4646.2-2023 公共數據 數據治理規(guī)范 第2部分:數據清洗比對_第1頁
DB37T 4646.2-2023 公共數據 數據治理規(guī)范 第2部分:數據清洗比對_第2頁
DB37T 4646.2-2023 公共數據 數據治理規(guī)范 第2部分:數據清洗比對_第3頁
DB37T 4646.2-2023 公共數據 數據治理規(guī)范 第2部分:數據清洗比對_第4頁
DB37T 4646.2-2023 公共數據 數據治理規(guī)范 第2部分:數據清洗比對_第5頁
已閱讀5頁,還剩13頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS35.240CCSL67ICS35.240CCSL67山 東 省 地 方 標 準DB37/T4646.2—2023公共數據 數據治規(guī)第2部分:數據洗比Publicdata—Datagovernancespecification—Part2:Datacleaningandcomparison2023-12-28發(fā)布 2024-01-28實施山東省場監(jiān)理局 發(fā)布DB37/T4646.2DB37/T4646.2—2023II目 次前言 II引言 III112范引文件 13語定義 1415據查 16據量查 1檢規(guī)制定 1質檢實施 27題據正 2數修要求 2數修方法 28據換 69據全 6附錄A(范)數清洗對程 7附錄B(料)數探查單例 8附錄C(料)數質量查則例 9附錄D(料)數質量查告例 10附錄E(料)數轉換則例 11參考獻 12DB37/T4646.2DB37/T4646.2—2023IIII前 言本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定起草。DB37/TDB37/T4646——第1部分:數據歸集;——第2部分:數據清洗比對;——第3部分:數據返還;——第4部分:資源服務目錄。DB37/T4646.2DB37/T4646.2—2023IIIIII引 言2021〕128號)DB37/T4646《公共數據數據DB37/T46461234DB37/T4646.2DB37/T4646.2—2023PAGEPAGE10公共數據 數據治理規(guī)范 第2部分:數據清洗比對范圍(GB/T2261.1—2003個人基本信息分類與代碼第1部分:個人性別代碼GB/T22239—2019信息安全技術網絡安全等級保護基本要求GB/T35273—2020信息安全技術個人信息安全規(guī)范GB/T36344—2018信息技術數據質量評價指標DB37/T4646.1—2023公共數據數據治理規(guī)范第1部分:數據歸集DB37/T4646.1—2023界定的以及下列術語和定義適用于本文件。3.1數據準 datastandardGB/T36344—2018,2.8]概述5.1B。5.2

應根據數據庫表結構、數據字典等,對歸集數據進行數據探查,形成數據探查清單,示例見附錄如存在數據探查清單與數據庫表結構不一致、數據字典缺失等情況,應進行補充修改。GB/T36344檢查規(guī)則示例見附錄CD出現以下情況可刪除空缺記錄:可對空缺值進行常量填充,即使用一個常量填充該字段所有空缺值。可對該字段中非空缺值進行統計,根據統計結果選擇空缺值填充內容,要求包括但不限于:可根據該條記錄中其它非空字段的特點,設置關聯條件,對空缺值進行填充。設定A字段為待填充的含空缺值的字段,B為關聯字段,要求包括但不限于:BABABABA可選擇分析字段,設置分析方法進行分析并填充,方法包括但不限于:可按照相關國家標準、行業(yè)標準和地方標準等規(guī)范文件中的規(guī)則和要求或者預設的規(guī)則進行填充,如人的性別名稱為缺失值,性別代碼為1,按照GB/T2261.1—2003規(guī)則,對應填充性別名稱為男性。7.2.2 出現以下情況可刪除違規(guī)記錄:330******1420量“00000183可設置規(guī)則后刪除違規(guī)字符,或直接將違規(guī)字符替換為空,出現以下情況可刪除違規(guī)字符:X數據量較小,違規(guī)值較少的情況可采用人工校驗修改方式,如自然人出生日期為“2010-12/12”,可人工修改為“2010-12-12”,人工修改違規(guī)值應保證修正值的準確度??蓪⑦`規(guī)字符進行替換,替換方法包括但不限于:7~14&&***”(*對于數據內容不在字典內的字段,可選擇字典匹配方式處理,匹配方式包括但不限于:精確匹配:新增規(guī)則字典,設置匹配規(guī)則后做精確對應,如章丘行政區(qū)劃由“370181為“370114100處理違規(guī)值的其他方式包括但不限于:185~88回歸分析:通過回歸函數擬合數據,光滑違規(guī)值,如幼兒園兒童入學年齡數據中,有一條數185~8統計分析:依據統計的方法修改違規(guī)值,如將違規(guī)值修改為正常值的平均值,如幼兒園兒童185~87185~867.2.3 對于重復字段,可選擇保留某一字段,刪除其它重復的字段,方式包括但不限于:多條記錄出現同一字段重復時,可選擇關鍵字段進行排重,方式包括但不限于:可根據記錄的重復情況進行排重,包括但不限于:7.2.4 對于同一字段來自多個部門時,以權威部門來源為準。如“身份證件號碼”以公安部門提供的數據為準。1.7m1m,取1.7果等形成日志保存,并為查詢、導出和刪除等日志操作設置權限。GB/T22239—2019GB/T35273—2020附錄A()開始數據歸集圖A.1規(guī)定了數據清洗比對流程。開始數據歸集質量檢查實施質量檢查實施存在問題檢查規(guī)則制定數據探查問題數據修正不存在問題結束結束數據轉換圖A.1數據清洗比對流程附錄B()數據探查清單包括數據表探查清單和數據字段探查清單。數據表探查清單示例見表B.1。數據字段探查清單示例見表B.2。表B.1數據表探查清單示例所屬部門表名表注釋最后更新時間數據量是否更新更新周期XXX部門XXX_XX_XXXX信息202X-XX-XX10000是每月XXX局XX_XXXXXXXXXX變更信息202X-XX-XX10000是實時表B.2數據字段探查清單示例表名字段名字段注釋數據類型空值數量空值率是否允許空值是否有重復數據是否使用字典值域樣例數據XXXX_XXId主鍵ID;自增數值00.00%否是否否—100XXXX_XX未刪除;1刪除數值00.00%否否是是0、10附錄C(資料性)數據質量檢查規(guī)則示例數據質量檢查規(guī)則示例見表C.1。表C.1數據質量檢查規(guī)則示例規(guī)則名稱規(guī)則說明字段完整檢查規(guī)則檢查字段數量與數據探查清單相比是否一致記錄完整檢查規(guī)則檢查記錄數量與數據探查清單相比是否一致空缺值檢查規(guī)則檢查值的填充是否完整,是否存在空缺值邏輯檢查規(guī)則檢查數據是否存在邏輯或常識性錯誤,如幼兒園入學年齡為18歲格式檢查規(guī)則檢查數據是否存在格式錯誤,如身份證件號碼長度大于18位值域檢查規(guī)則檢查數據的值是否在允許取值的范圍之內字段重復檢查規(guī)則檢查字段是否存在重復記錄重復檢查規(guī)則檢查記錄是否存在重復數據沖突檢查規(guī)則檢查分布在不同表中的相同數據是否一致數據更新檢查規(guī)則檢查數據是否已按照要求進行更新附錄D(資料性)數據質量檢查報告示例數據質量檢查報告示例見表D.1。表D.1數據質量檢查報告示例數據質量檢查報告202X年XX月XX總體情況:202XXXXXXX:XXXXXXXXXXX問題主要集中在XXXX規(guī)則上。數據時效性校驗通過率為XX.XXXX%,更新情況較差。表數據量及問題率統計序號來源部門名稱數據資源名稱表名質檢數據量(條問題數據量(條)問題率(%)1XXX部門XXXX信息xx_xx_xxxx9999854785.479%2XXXX部門XXX信息xxx_xxxxxx9900.000%數據質量問題序號表名字段名質檢規(guī)則問題數據量(條合格率(%)檢查時間1xxx_xxxxxxlianxidianhua271397.683%202X年XX月XX日2xxx_xxxxxxchuanzhen傳真號碼格式校驗2629177.555%202X年XX月XX日附錄E()數據轉換規(guī)則示例見表E.1。表E.1數據轉換規(guī)則示例規(guī)則類型規(guī)則名稱規(guī)則說明格式轉換規(guī)則日期型統一格式轉換將各類日期型數據統一轉換為符合GB/T7408—2005YYYYMMDD時間型統一格式轉換將各類時間型數據統一轉換為符合GB/T7408—2005的時間型數據,如hhmmss日期時間型統一格式轉換將各類日期時間型數據統一轉換為符合GB/T7408—2005YYYYMMDDThhmmss代碼轉換規(guī)則性別數據統一代碼轉換將人員性別代碼按照GB/T2261.1—2003中“性別代碼”進行統一轉換民族數據統一代碼轉換將人員的民族代碼按照GB/T3304—1991中“民族數字代碼”進行統一轉換婚姻狀況數據統一代碼轉換將人員的婚姻狀態(tài)代碼按照GB/T2261.2—2003換機構性質數據統一代碼轉換將法人單位的機構性質代碼按照GB/T36104—2018中“登記業(yè)務類型”進行統一轉換參 考 文 獻[1]GB/T2261.2—2003個人基本信息分類與代碼第2部分:婚姻狀況代碼[2]GB/T3304—1991中國各民族名稱的羅馬字母拼寫法和代碼[3]GB/T7408—2005數據元和交換格式信息交換日期和時間表

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論