DB35T 2240-2024公共數(shù)據(jù)清洗技術要求_第1頁
DB35T 2240-2024公共數(shù)據(jù)清洗技術要求_第2頁
DB35T 2240-2024公共數(shù)據(jù)清洗技術要求_第3頁
DB35T 2240-2024公共數(shù)據(jù)清洗技術要求_第4頁
DB35T 2240-2024公共數(shù)據(jù)清洗技術要求_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

ICS01.040.35CCSL7035TechnicalrequirementsforpublicdataIDB35/T2240—2024前言 2規(guī)范性引用文件 3術語和定義 4基本原則 25過程要求 26方法要求 57安全要求 7附錄A(資料性)數(shù)據(jù)清洗的常見方法 8參考文獻 9DB35/T2240—2024本文件按照GB/T1.1—2020《標準化工作導則第1部分:標準化文件的結構和起草規(guī)則》的規(guī)定起草。請注意本文件的某些內容可能涉及專利。本文件的發(fā)布機構不承擔識別專利的責任。本文件由福建大數(shù)據(jù)一級開發(fā)有限公司提出。本文件由福建省信息化標準化技術委員會(SAFJ/TC11)歸口。本文件起草單位:福建大數(shù)據(jù)一級開發(fā)有限公司、福建省數(shù)字經(jīng)濟發(fā)展促進中心、福建省市場監(jiān)督管理局行政服務中心、福建省網(wǎng)絡與信息安全測評中心、福建省建設信息中心、福建奇比特信息科技有限公司。本文件主要起草人:李喆、陳國清、徐侃、涂平、王宇奇、鄒建紅、黃煒、石福仁、游鄂平、梁煜、張鎮(zhèn)暉、李元、傅騰宇、李海、吳春華、馬騰、陳閃閃、謝丹丹、張健文。公共數(shù)據(jù)清洗技術要求GB/T35274信息安全技術大數(shù)據(jù)服務安全能力要求GB/T36344—2018信息技術數(shù)據(jù)質量評價公共數(shù)據(jù)資源目錄publicdata源的特征,便于公共數(shù)據(jù)資源的檢索、定位與數(shù)據(jù)集存在兩條及以上完全相同的記錄,或在某一字段內存在多個相2DB35/T2240—20244基本原則數(shù)據(jù)在清洗過程中應防止數(shù)據(jù)泄露、篡改或非法訪問。4.2合法性數(shù)據(jù)清洗過程和數(shù)據(jù)內容應符合《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護法》等相關法律法規(guī)的要求。4.3可審計性數(shù)據(jù)清洗的全過程應跟蹤和記錄,確保數(shù)據(jù)的來源、處理步驟、結果輸出等可追溯。5過程要求數(shù)據(jù)清洗基本流程應包含檢測分析、確定清洗范圍、定義清洗規(guī)則、數(shù)據(jù)抽取、清洗轉換、結果核驗、數(shù)據(jù)標識和數(shù)據(jù)加載等環(huán)節(jié)(見圖1)。5.2檢測分析b)從數(shù)據(jù)量、類型、內容、關系、數(shù)值范圍等維度進行檢測分析;c)檢測分析顆粒度達到字段級別,對數(shù)據(jù)中的每個字段、每個值進行檢測分析;e)檢測分析結果包含數(shù)據(jù)基本屬性分析、數(shù)據(jù)的分布情況、數(shù)據(jù)的相關性和趨勢、檢測時間、5.3確定清洗范圍c)將不符合業(yè)務使用目標的數(shù)據(jù)存入問題數(shù)據(jù)庫表,用于后續(xù)查證或重新使用。5.4定義清洗規(guī)則a)缺失值清洗規(guī)則:根據(jù)業(yè)務規(guī)則,對缺失數(shù)據(jù)進行填充或刪除;b)重復值清洗規(guī)則:根據(jù)唯一性約束,去除數(shù)據(jù)集的重復值;c)異常值清洗規(guī)則:根據(jù)業(yè)務邏輯和規(guī)則,對異常數(shù)據(jù)進行刪除、修正、標記;d)數(shù)據(jù)格式清洗規(guī)則:根據(jù)業(yè)務規(guī)則,5.5數(shù)據(jù)抽取5.6清洗轉換c)數(shù)據(jù)清洗轉換任務結束后,及時刪除5.7結果核驗5.7.1核驗內容a)檢查數(shù)據(jù)集是否存在缺失值、重復值、異常值;b)檢查字段的類型與預期的數(shù)據(jù)類型是否一致,字段的長度是否符合預定的長度限制;c)檢查數(shù)據(jù)集的記錄數(shù)量或總數(shù)據(jù)量是否符合預期值;d)檢查數(shù)據(jù)是否滿足特定的業(yè)務規(guī)則,包括數(shù)據(jù)依賴關系是否正確,數(shù)據(jù)的時序性是否合理,5.7.2核驗要求d)當數(shù)據(jù)核驗不通過時,進行數(shù)據(jù)標識。5.8數(shù)據(jù)加載b)明確數(shù)據(jù)安全加載的具體要求、規(guī)則c)通過對比源數(shù)據(jù)和目標環(huán)境中的數(shù)據(jù)來確認數(shù)據(jù)的完整性、準確性和一致性等進行數(shù)據(jù)加載d)詳細記錄加載過程中出現(xiàn)的異常狀況,包括異常類型、發(fā)生時間、影響范圍等信息;f)提供數(shù)據(jù)加載通道的冗余備份機制,防g)加載完成后,刪除數(shù)據(jù)加載通道中的緩存數(shù)據(jù),釋放系統(tǒng)資源。5.9數(shù)據(jù)標識a)對每個核驗不通過的數(shù)據(jù)進行唯一性標識;c)對標識的數(shù)據(jù)進行檢測分析,以確定a)根據(jù)業(yè)務規(guī)則,使用編程語言的庫函數(shù)或數(shù)據(jù)庫處理工具掃描數(shù)據(jù)集并標識缺失值;b)利用統(tǒng)計工具及可視化方法(如箱線圖、散點圖)對數(shù)據(jù)集的缺失數(shù)據(jù)進行統(tǒng)計和識別。a)當數(shù)據(jù)集某個字段的缺失率超過預設的閾值,且該字段對業(yè)務分析的重要性較低時,直接刪b)通過插值、固定值、均值、中位數(shù)、眾數(shù)等方法補齊無法刪除的缺失值,常見的缺失值補全b)對比處理前后的非空值數(shù)量或缺失值比例,檢查填充后的值是a)通過編程語言的庫函數(shù)或數(shù)據(jù)庫處理工具,比較數(shù)據(jù)集的所有字段或選定的關鍵字段,識別b)利用統(tǒng)計工具計算每列(或每行)的重復數(shù)據(jù)的數(shù)量或比例,通過模糊匹配技術處理拼寫錯b)重復數(shù)據(jù)中包含不同的信息,根據(jù)業(yè)務規(guī)則和數(shù)據(jù)統(tǒng)一性約束,將信息合并成一條記錄。a)對比處理前后的重復數(shù)量或重復數(shù)據(jù)比例,計算出重復數(shù)據(jù)去除率;a)根據(jù)業(yè)務規(guī)則,識別數(shù)據(jù)中的異常值,如超出預定范圍的數(shù)值、邏輯錯誤的數(shù)據(jù)等;b)利用統(tǒng)計方法、聚類方法、密度估計方法及機器學習模型識別異常值,常見的異常值識別方b)異常值為關鍵重要信息時,根據(jù)業(yè)務規(guī)則采用固定值、均值、中位數(shù)、眾數(shù)等方法進行修正a)根據(jù)業(yè)務邏輯和規(guī)則對清洗結果進行核驗;b)對比處理前后的異常值數(shù)量,核驗所有異常值是否已被正確刪a)利用編程語言的庫函數(shù)或數(shù)據(jù)庫處理工具,將數(shù)據(jù)與元數(shù)據(jù)進行對比,識別出格式不一致的b)通過預設的數(shù)據(jù)驗證規(guī)則,如數(shù)據(jù)類型、數(shù)據(jù)單位和數(shù)據(jù)值范圍等,利用規(guī)則引擎對數(shù)據(jù)集b)利用規(guī)則引擎匹配和替換不符合要求的數(shù)據(jù),在替換過程中,新數(shù)據(jù)要符合數(shù)據(jù)規(guī)范和質量a)與原始數(shù)據(jù)比對確認數(shù)據(jù)格式已修正;數(shù)據(jù)清洗過程應符合GB/T35274數(shù)據(jù)清洗網(wǎng)絡安全等級保護應符合GB/T22239的相a)記錄管理員和用戶的各類操作日志,對身份鑒別、策略管理、備份作業(yè)、恢復作業(yè)、數(shù)據(jù)庫A.1常見的缺失值補全方法缺失值的補全方法需要根據(jù)數(shù)據(jù)的性質以及缺失值的分布情況進行評估,包括但不限于:a)均值/中位數(shù)/眾數(shù)填充:根據(jù)數(shù)據(jù)分布特性,選擇合適的統(tǒng)計量填充缺失值;e)K近鄰填充:根據(jù)數(shù)據(jù)點的相似性,使用K個最近鄰的數(shù)據(jù)點填充缺失值;A.2常見的異常值識別方法異常值的識別方法需要根據(jù)具體的數(shù)據(jù)集和業(yè)務背景來決定,包括c)百分位數(shù)法:選擇將超過某個上/下分位數(shù)閾值的數(shù)據(jù)點視為異常d)密度估計法:利用概率密度函數(shù)估):A.3常見的數(shù)據(jù)格式處理方法a)日期時間格式處理:將包含日期和時間的數(shù)據(jù)轉換為統(tǒng)一的日期時間格式,如將字符串類型b)字符串處理:對數(shù)據(jù)中的字符串進行清理和處理,如去除多余空格、刪除特殊字符、轉換大d)數(shù)據(jù)單位轉換:統(tǒng)一數(shù)據(jù)中的單位,如將溫度從攝氏度轉換為華氏度,或將長度從厘米轉換9DB35/

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論