DB35T 2240-2024公共數(shù)據(jù)清洗技術(shù)要求_第1頁
DB35T 2240-2024公共數(shù)據(jù)清洗技術(shù)要求_第2頁
DB35T 2240-2024公共數(shù)據(jù)清洗技術(shù)要求_第3頁
DB35T 2240-2024公共數(shù)據(jù)清洗技術(shù)要求_第4頁
DB35T 2240-2024公共數(shù)據(jù)清洗技術(shù)要求_第5頁
已閱讀5頁,還剩7頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ICS01.040.35CCSL7035TechnicalrequirementsforpublicdataIDB35/T2240—2024前言 2規(guī)范性引用文件 3術(shù)語和定義 4基本原則 25過程要求 26方法要求 57安全要求 7附錄A(資料性)數(shù)據(jù)清洗的常見方法 8參考文獻(xiàn) 9DB35/T2240—2024本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。本文件由福建大數(shù)據(jù)一級(jí)開發(fā)有限公司提出。本文件由福建省信息化標(biāo)準(zhǔn)化技術(shù)委員會(huì)(SAFJ/TC11)歸口。本文件起草單位:福建大數(shù)據(jù)一級(jí)開發(fā)有限公司、福建省數(shù)字經(jīng)濟(jì)發(fā)展促進(jìn)中心、福建省市場(chǎng)監(jiān)督管理局行政服務(wù)中心、福建省網(wǎng)絡(luò)與信息安全測(cè)評(píng)中心、福建省建設(shè)信息中心、福建奇比特信息科技有限公司。本文件主要起草人:李喆、陳國清、徐侃、涂平、王宇奇、鄒建紅、黃煒、石福仁、游鄂平、梁煜、張鎮(zhèn)暉、李元、傅騰宇、李海、吳春華、馬騰、陳閃閃、謝丹丹、張健文。1公共數(shù)據(jù)清洗技術(shù)要求GB/T35274信息安全技術(shù)大數(shù)據(jù)服務(wù)安全能力要求GB/T36344—2018信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)公共數(shù)據(jù)資源目錄publicdata源的特征,便于公共數(shù)據(jù)資源的檢索、定位與數(shù)據(jù)集存在兩條及以上完全相同的記錄,或在某一字段內(nèi)存在多個(gè)相2DB35/T2240—20244基本原則安全性數(shù)據(jù)在清洗過程中應(yīng)防止數(shù)據(jù)泄露、篡改或非法訪問。合法性數(shù)據(jù)清洗過程和數(shù)據(jù)內(nèi)容應(yīng)符合《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個(gè)人信息保護(hù)法》等相關(guān)法律法規(guī)的要求??蓪徲?jì)性數(shù)據(jù)清洗的全過程應(yīng)跟蹤和記錄,確保數(shù)據(jù)的來源、處理步驟、結(jié)果輸出等可追溯。5過程要求基本流程數(shù)據(jù)清洗基本流程應(yīng)包含檢測(cè)分析、確定清洗范圍、定義清洗規(guī)則、數(shù)據(jù)抽取、清洗轉(zhuǎn)換、結(jié)果核驗(yàn)、數(shù)據(jù)標(biāo)識(shí)和數(shù)據(jù)加載等環(huán)節(jié)(見圖1)。35.2檢測(cè)分析b)從數(shù)據(jù)量、類型、內(nèi)容、關(guān)系、數(shù)值范圍等維度進(jìn)行檢測(cè)分析;c)檢測(cè)分析顆粒度達(dá)到字段級(jí)別,對(duì)數(shù)據(jù)中的每個(gè)字段、每個(gè)值進(jìn)行檢測(cè)分析;e)檢測(cè)分析結(jié)果包含數(shù)據(jù)基本屬性分析、數(shù)據(jù)的分布情況、數(shù)據(jù)的相關(guān)性和趨勢(shì)、檢測(cè)時(shí)間、5.3確定清洗范圍4c)將不符合業(yè)務(wù)使用目標(biāo)的數(shù)據(jù)存入問題數(shù)據(jù)庫表,用于后續(xù)查證或重新使用。5.4定義清洗規(guī)則a)缺失值清洗規(guī)則:根據(jù)業(yè)務(wù)規(guī)則,對(duì)缺失數(shù)據(jù)進(jìn)行填充或刪除;b)重復(fù)值清洗規(guī)則:根據(jù)唯一性約束,去除數(shù)據(jù)集的重復(fù)值;c)異常值清洗規(guī)則:根據(jù)業(yè)務(wù)邏輯和規(guī)則,對(duì)異常數(shù)據(jù)進(jìn)行刪除、修正、標(biāo)記;d)數(shù)據(jù)格式清洗規(guī)則:根據(jù)業(yè)務(wù)規(guī)則,5.5數(shù)據(jù)抽取5.6清洗轉(zhuǎn)換c)數(shù)據(jù)清洗轉(zhuǎn)換任務(wù)結(jié)束后,及時(shí)刪除5.7結(jié)果核驗(yàn)5.7.1核驗(yàn)內(nèi)容a)檢查數(shù)據(jù)集是否存在缺失值、重復(fù)值、異常值;b)檢查字段的類型與預(yù)期的數(shù)據(jù)類型是否一致,字段的長(zhǎng)度是否符合預(yù)定的長(zhǎng)度限制;c)檢查數(shù)據(jù)集的記錄數(shù)量或總數(shù)據(jù)量是否符合預(yù)期值;d)檢查數(shù)據(jù)是否滿足特定的業(yè)務(wù)規(guī)則,包括數(shù)據(jù)依賴關(guān)系是否正確,數(shù)據(jù)的時(shí)序性是否合理,5.7.2核驗(yàn)要求a)按GB/T36344—2018第5章中的數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)制定核驗(yàn)規(guī)則;d)當(dāng)數(shù)據(jù)核驗(yàn)不通過時(shí),進(jìn)行數(shù)據(jù)標(biāo)識(shí)。5.8數(shù)據(jù)加載5b)明確數(shù)據(jù)安全加載的具體要求、規(guī)則c)通過對(duì)比源數(shù)據(jù)和目標(biāo)環(huán)境中的數(shù)據(jù)來確認(rèn)數(shù)據(jù)的完整性、準(zhǔn)確性和一致性等進(jìn)行數(shù)據(jù)加載d)詳細(xì)記錄加載過程中出現(xiàn)的異常狀況,包括異常類型、發(fā)生時(shí)間、影響范圍等信息;f)提供數(shù)據(jù)加載通道的冗余備份機(jī)制,防g)加載完成后,刪除數(shù)據(jù)加載通道中的緩存數(shù)據(jù),釋放系統(tǒng)資源。5.9數(shù)據(jù)標(biāo)識(shí)a)對(duì)每個(gè)核驗(yàn)不通過的數(shù)據(jù)進(jìn)行唯一性標(biāo)識(shí);c)對(duì)標(biāo)識(shí)的數(shù)據(jù)進(jìn)行檢測(cè)分析,以確定a)根據(jù)業(yè)務(wù)規(guī)則,使用編程語言的庫函數(shù)或數(shù)據(jù)庫處理工具掃描數(shù)據(jù)集并標(biāo)識(shí)缺失值;b)利用統(tǒng)計(jì)工具及可視化方法(如箱線圖、散點(diǎn)圖)對(duì)數(shù)據(jù)集的缺失數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和識(shí)別。a)當(dāng)數(shù)據(jù)集某個(gè)字段的缺失率超過預(yù)設(shè)的閾值,且該字段對(duì)業(yè)務(wù)分析的重要性較低時(shí),直接刪b)通過插值、固定值、均值、中位數(shù)、眾數(shù)等方法補(bǔ)齊無法刪除的缺失值,常見的缺失值補(bǔ)全b)對(duì)比處理前后的非空值數(shù)量或缺失值比例,檢查填充后的值是a)通過編程語言的庫函數(shù)或數(shù)據(jù)庫處理工具,比較數(shù)據(jù)集的所有字段或選定的關(guān)鍵字段,識(shí)別6b)利用統(tǒng)計(jì)工具計(jì)算每列(或每行)的重復(fù)數(shù)據(jù)的數(shù)量或比例,通過模糊匹配技術(shù)處理拼寫錯(cuò)b)重復(fù)數(shù)據(jù)中包含不同的信息,根據(jù)業(yè)務(wù)規(guī)則和數(shù)據(jù)統(tǒng)一性約束,將信息合并成一條記錄。a)對(duì)比處理前后的重復(fù)數(shù)量或重復(fù)數(shù)據(jù)比例,計(jì)算出重復(fù)數(shù)據(jù)去除率;a)根據(jù)業(yè)務(wù)規(guī)則,識(shí)別數(shù)據(jù)中的異常值,如超出預(yù)定范圍的數(shù)值、邏輯錯(cuò)誤的數(shù)據(jù)等;b)利用統(tǒng)計(jì)方法、聚類方法、密度估計(jì)方法及機(jī)器學(xué)習(xí)模型識(shí)別異常值,常見的異常值識(shí)別方b)異常值為關(guān)鍵重要信息時(shí),根據(jù)業(yè)務(wù)規(guī)則采用固定值、均值、中位數(shù)、眾數(shù)等方法進(jìn)行修正a)根據(jù)業(yè)務(wù)邏輯和規(guī)則對(duì)清洗結(jié)果進(jìn)行核驗(yàn);b)對(duì)比處理前后的異常值數(shù)量,核驗(yàn)所有異常值是否已被正確刪a)利用編程語言的庫函數(shù)或數(shù)據(jù)庫處理工具,將數(shù)據(jù)與元數(shù)據(jù)進(jìn)行對(duì)比,識(shí)別出格式不一致的b)通過預(yù)設(shè)的數(shù)據(jù)驗(yàn)證規(guī)則,如數(shù)據(jù)類型、數(shù)據(jù)單位和數(shù)據(jù)值范圍等,利用規(guī)則引擎對(duì)數(shù)據(jù)集7b)利用規(guī)則引擎匹配和替換不符合要求的數(shù)據(jù),在替換過程中,新數(shù)據(jù)要符合數(shù)據(jù)規(guī)范和質(zhì)量a)與原始數(shù)據(jù)比對(duì)確認(rèn)數(shù)據(jù)格式已修正;數(shù)據(jù)清洗過程應(yīng)符合GB/T35274、GB/T37973、GB/T39477、GB/T43697數(shù)據(jù)清洗網(wǎng)絡(luò)安全等級(jí)保護(hù)應(yīng)符合GB/T22239的相a)記錄管理員和用戶的各類操作日志,對(duì)身份鑒別、策略管理、備份作業(yè)、恢復(fù)作業(yè)、數(shù)據(jù)庫8A.1常見的缺失值補(bǔ)全方法缺失值的補(bǔ)全方法需要根據(jù)數(shù)據(jù)的性質(zhì)以及缺失值的分布情況進(jìn)行評(píng)估,包括但不限于:a)均值/中位數(shù)/眾數(shù)填充:根據(jù)數(shù)據(jù)分布特性,選擇合適的統(tǒng)計(jì)量填充缺失值;e)K近鄰填充:根據(jù)數(shù)據(jù)點(diǎn)的相似性,使用K個(gè)最近鄰的數(shù)據(jù)點(diǎn)填充缺失值;f)模型預(yù)測(cè)填充:建立預(yù)測(cè)模型,根據(jù)其他字段的值預(yù)測(cè)缺失值。A.2常見的異常值識(shí)別方法異常值的識(shí)別方法需要根據(jù)具體的數(shù)據(jù)集和業(yè)務(wù)背景來決定,包括c)百分位數(shù)法:選擇將超過某個(gè)上/下分位數(shù)閾值的數(shù)據(jù)點(diǎn)視為異常d)密度估計(jì)法:利用概率密度函數(shù)估):A.3常見的數(shù)據(jù)格式處理方法a)日期時(shí)間格式處理:將包含日期和時(shí)間的數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的日期時(shí)間格式,如將字符串類型b)字符串處理:對(duì)數(shù)據(jù)中的字符串進(jìn)行清理和處理,如去除多余空格、刪除特殊字符、轉(zhuǎn)換大d)數(shù)據(jù)單位轉(zhuǎn)換:統(tǒng)一數(shù)據(jù)中的單位,如將溫度從攝氏度轉(zhuǎn)換為華氏度,或?qū)㈤L(zhǎng)度從厘米轉(zhuǎn)換DB

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論