《智慧電子商務(wù)園區(qū)大數(shù)據(jù)平臺(tái)數(shù)據(jù)接入質(zhì)量規(guī)范》_第1頁
《智慧電子商務(wù)園區(qū)大數(shù)據(jù)平臺(tái)數(shù)據(jù)接入質(zhì)量規(guī)范》_第2頁
《智慧電子商務(wù)園區(qū)大數(shù)據(jù)平臺(tái)數(shù)據(jù)接入質(zhì)量規(guī)范》_第3頁
《智慧電子商務(wù)園區(qū)大數(shù)據(jù)平臺(tái)數(shù)據(jù)接入質(zhì)量規(guī)范》_第4頁
《智慧電子商務(wù)園區(qū)大數(shù)據(jù)平臺(tái)數(shù)據(jù)接入質(zhì)量規(guī)范》_第5頁
已閱讀5頁,還剩9頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

ICS35.240

CCSL70

T/CASME

中國中小商業(yè)企業(yè)協(xié)會(huì)團(tuán)體標(biāo)準(zhǔn)

T/CASMEXXX—2024

智慧電子商務(wù)園區(qū)大數(shù)據(jù)平臺(tái)數(shù)據(jù)接入質(zhì)

量規(guī)范

Dataaccessqualityspecificationforbigdataplatforminsmarte-

commercepark

(征求意見稿)

2024-XX-XX發(fā)布2024-XX-XX實(shí)施

中國中小商業(yè)企業(yè)協(xié)會(huì)發(fā)布

T/CASMEXXX—2024

前言

本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定

起草。

請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。

本文件由中移物聯(lián)網(wǎng)有限公司提出。

本文件由中國中小商業(yè)企業(yè)協(xié)會(huì)歸口。

本文件起草單位:中移物聯(lián)網(wǎng)有限公司、XXX。

本文件主要起草人:XXX。

II

T/CASMEXXX—2024

智慧電子商務(wù)園區(qū)大數(shù)據(jù)平臺(tái)數(shù)據(jù)接入質(zhì)量規(guī)范

1范圍

本文件規(guī)定了智慧電子商務(wù)園區(qū)大數(shù)據(jù)平臺(tái)(以下簡(jiǎn)稱“大數(shù)據(jù)平臺(tái)”)的數(shù)據(jù)質(zhì)量評(píng)價(jià)維度、數(shù)

據(jù)接入質(zhì)量技術(shù)要求、數(shù)據(jù)質(zhì)量評(píng)價(jià)方法和安全要求。

本文件適用于智慧電子商務(wù)園區(qū)接入大數(shù)據(jù)平臺(tái)過程中的數(shù)據(jù)質(zhì)量保障工作。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T5271.1信息技術(shù)詞匯第1部分:基本術(shù)語

GB/T24662電子商務(wù)產(chǎn)品核心元數(shù)據(jù)

GB/T24663電子商務(wù)企業(yè)核心元數(shù)據(jù)

GB/T36318—2018電子商務(wù)平臺(tái)數(shù)據(jù)開放總體要求

GB/T36344信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)

GB/T37973信息安全技術(shù)大數(shù)據(jù)安全管理指南

3術(shù)語和定義

GB/T5271.1和GB/T36344界定的術(shù)語和定義適用于本文件。

4概述

大數(shù)據(jù)平臺(tái)支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等異構(gòu)數(shù)據(jù)源采集數(shù)據(jù),實(shí)現(xiàn)各類離線

數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)的采集與接入。針對(duì)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)接入,執(zhí)行相應(yīng)的質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),保證數(shù)據(jù)質(zhì)量,

為智慧電子商務(wù)園區(qū)提供優(yōu)質(zhì)的數(shù)據(jù)服務(wù)。

5數(shù)據(jù)質(zhì)量評(píng)價(jià)維度

指標(biāo)框架

數(shù)據(jù)質(zhì)量的評(píng)價(jià)主要包括八個(gè)維度:完整性、規(guī)范性、一致性、準(zhǔn)確性、唯一性、關(guān)聯(lián)性、時(shí)效性

和可訪問性,數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)框架見圖1。

1

T/CASMEXXX—2024

數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)框架

完規(guī)一準(zhǔn)唯關(guān)時(shí)可

整范致確一聯(lián)效訪

性問

性性性

圖1數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)框架

指標(biāo)說明

5.2.1完整性

按數(shù)據(jù)規(guī)則要求,數(shù)據(jù)信息不應(yīng)存在缺失的狀況,數(shù)據(jù)缺失的情況可能是整個(gè)數(shù)據(jù)記錄缺失,也可

能是數(shù)據(jù)中某個(gè)字段信息的記錄缺失。不完整的數(shù)據(jù)所能借鑒的價(jià)值會(huì)大大降低。完整性評(píng)價(jià)指標(biāo)見表

1。

表1完整性評(píng)價(jià)指標(biāo)

指標(biāo)名稱指標(biāo)描述計(jì)算方法

計(jì)算公式:?=?/?

按照業(yè)務(wù)規(guī)則要求,數(shù)據(jù)集中應(yīng)被賦值的數(shù)據(jù)元素的賦式中:

數(shù)據(jù)元素完整性

值程度。A=被賦值的數(shù)據(jù)集中元素的個(gè)數(shù);

B=預(yù)期被賦值的數(shù)據(jù)集中元素的個(gè)數(shù)

計(jì)算公式:?=?/?

按照業(yè)務(wù)規(guī)則要求,數(shù)據(jù)集中應(yīng)被賦值的數(shù)據(jù)記錄的賦式中:

數(shù)據(jù)記錄完整性

值程度。A=被賦值的數(shù)據(jù)集中元素的個(gè)數(shù);

B=預(yù)期被賦值的數(shù)據(jù)集中元素的個(gè)數(shù)

5.2.2規(guī)范性

5.2.2.1數(shù)據(jù)應(yīng)符合數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)模型、業(yè)務(wù)規(guī)則、元數(shù)據(jù)或權(quán)威參考數(shù)據(jù),規(guī)范性評(píng)價(jià)指標(biāo)見表

2。

5.2.2.2電子商務(wù)園區(qū)企業(yè)核心元數(shù)據(jù)應(yīng)符合GB/T24663的規(guī)定,產(chǎn)品核心元數(shù)據(jù)應(yīng)符合GB/T24662

的規(guī)定。

表2規(guī)范性評(píng)價(jià)指標(biāo)

指標(biāo)名稱指標(biāo)描述計(jì)算方法

數(shù)據(jù)符合數(shù)據(jù)標(biāo)準(zhǔn)的度量

注1:評(píng)價(jià)數(shù)據(jù)質(zhì)量時(shí)需要收集數(shù)據(jù)在命名、創(chuàng)建、定計(jì)算公式:?=?/?

義、更新和歸檔時(shí)遵循的標(biāo)準(zhǔn),包括國際標(biāo)準(zhǔn)、國家標(biāo)式中:

數(shù)據(jù)標(biāo)準(zhǔn)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)、地方標(biāo)準(zhǔn)或相關(guān)規(guī)定等。A=滿足數(shù)據(jù)標(biāo)準(zhǔn)要求的數(shù)據(jù)集中元素的

注2:和數(shù)據(jù)歸檔一樣甚至更重要,在一個(gè)完整的數(shù)據(jù)個(gè)數(shù);

規(guī)則中,舊數(shù)據(jù)的銷毀一般也有一個(gè)比較詳細(xì)且具有可B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

行性的規(guī)定。

2

T/CASMEXXX—2024

表2規(guī)范性評(píng)價(jià)指標(biāo)(續(xù))

指標(biāo)名稱指標(biāo)描述計(jì)算方法

數(shù)據(jù)符合數(shù)據(jù)模型的度量計(jì)算公式:?=?/?

注1:數(shù)據(jù)模型是一種直觀描述組織數(shù)據(jù)結(jié)構(gòu)的手段,式中:

數(shù)據(jù)模型是數(shù)據(jù)表達(dá)的規(guī)范。A=滿足數(shù)據(jù)模型要求的數(shù)據(jù)集中元素的

注2:評(píng)價(jià)數(shù)據(jù)質(zhì)量時(shí)需要檢查是否存在清晰且可理解個(gè)數(shù);

的數(shù)據(jù)模型定義以及這些數(shù)據(jù)的組織形式。B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

計(jì)算公式:?=?/?

數(shù)據(jù)符合元數(shù)據(jù)定義的度量

式中:

注:元數(shù)據(jù)標(biāo)注、描述或刻畫其他數(shù)據(jù)、以使檢索或

元數(shù)據(jù)A=滿足元數(shù)據(jù)定義的數(shù)據(jù)集中元素的個(gè)

使用數(shù)據(jù)更容易。評(píng)價(jià)數(shù)據(jù)質(zhì)量時(shí)需要檢查是否提供可

數(shù);

解讀的元數(shù)據(jù)文檔。

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

數(shù)據(jù)符合業(yè)務(wù)規(guī)則的度量

計(jì)算公式:?=?/?

注1:業(yè)務(wù)規(guī)則是一種權(quán)威性原則或業(yè)務(wù)方針,用來描

式中:

述業(yè)務(wù)交互,并建立行動(dòng)和數(shù)據(jù)行為結(jié)果及完整性的規(guī)

業(yè)務(wù)規(guī)則A=滿足業(yè)務(wù)規(guī)則的數(shù)據(jù)集中元素的個(gè)

則。

數(shù);

注2:評(píng)價(jià)數(shù)據(jù)質(zhì)量時(shí)需要檢查是否存在良好歸檔的業(yè)

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

務(wù)規(guī)則。

計(jì)算公式:?=?/?

參考數(shù)據(jù)是系統(tǒng)、應(yīng)用軟件、數(shù)據(jù)庫、流程、報(bào)告及交式中:

權(quán)威參考數(shù)據(jù)易記錄和主記錄用來參考的數(shù)值集合和分類表A=滿足參考數(shù)據(jù)規(guī)則的數(shù)據(jù)集中元素的

注:評(píng)價(jià)數(shù)據(jù)質(zhì)量時(shí)需要收集參考數(shù)據(jù)列表。個(gè)數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

計(jì)算公式:?=?/?

式中:

安全規(guī)則是安全和隱私方面的規(guī)則,包括數(shù)據(jù)權(quán)限管

安全規(guī)則A=滿足安全規(guī)范的數(shù)據(jù)集中元素的個(gè)

理數(shù)據(jù)脫敏處理等

數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

5.2.3一致性

數(shù)據(jù)與其他特定上下文中使用的數(shù)據(jù)應(yīng)無矛盾,即數(shù)據(jù)是否遵循了統(tǒng)一的規(guī)范,數(shù)據(jù)集合是否保持

了統(tǒng)一的格式。數(shù)據(jù)質(zhì)量的一致性主要體現(xiàn)在數(shù)據(jù)記錄的規(guī)范和數(shù)據(jù)是否符合邏輯。一致性評(píng)價(jià)指標(biāo)見

3。

表3-致性評(píng)價(jià)指標(biāo)

指標(biāo)名稱指標(biāo)描述計(jì)算方法

計(jì)算公式:?=?/?

同一數(shù)據(jù)在不同位置存儲(chǔ)或被不同應(yīng)用或用戶使用式中:

相同數(shù)據(jù)一致性時(shí),數(shù)據(jù)的一致性,數(shù)據(jù)發(fā)生變化時(shí),存儲(chǔ)在不同位A=滿足一致性要求的數(shù)據(jù)集中元素的個(gè)

置的數(shù)據(jù)的同一數(shù)據(jù)被同步修改數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

3

T/CASMEXXX—2024

表3-致性評(píng)價(jià)指標(biāo)(續(xù))

指標(biāo)名稱指標(biāo)描述計(jì)算方法

計(jì)算公式:?=?/?

式中:

關(guān)聯(lián)數(shù)據(jù)一致性根據(jù)一致性約束規(guī)則檢查關(guān)聯(lián)數(shù)據(jù)的一致性A=滿足一致性要求的數(shù)據(jù)集中元素的個(gè)

數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

5.2.4準(zhǔn)確性

數(shù)據(jù)應(yīng)準(zhǔn)確表示所描述的真實(shí)實(shí)體(實(shí)際對(duì)象)真實(shí)值,即指數(shù)據(jù)記錄的信息不應(yīng)存在異?;蝈e(cuò)誤。

準(zhǔn)確性評(píng)價(jià)指標(biāo)見表4。

表4準(zhǔn)確性評(píng)價(jià)指標(biāo)

指標(biāo)名稱指標(biāo)描述計(jì)算方法

計(jì)算公式:?=?/?

式中:

數(shù)據(jù)內(nèi)容正確性數(shù)據(jù)內(nèi)容是否是預(yù)期數(shù)據(jù)A=滿足數(shù)據(jù)正確性要求的數(shù)據(jù)集中元素

的個(gè)數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

計(jì)算公式:?=?/?

式中:

數(shù)據(jù)格式包含(數(shù)據(jù)類型、數(shù)據(jù)范圍、數(shù)據(jù)長(zhǎng)度、精

數(shù)據(jù)格式合規(guī)性A=滿足一滿足格式要求的數(shù)據(jù)集中元素

度等)是否滿足預(yù)期要求

的個(gè)數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

計(jì)算公式:?=?/?

式中:

數(shù)據(jù)重復(fù)率特定字段、記錄、文件或數(shù)據(jù)集意外重復(fù)的度量

A=重復(fù)數(shù)據(jù)集中元素的個(gè)數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

計(jì)算公式:?=?/?

式中:

數(shù)據(jù)唯一性特定字段、記錄、文件或數(shù)據(jù)集唯一性的度量A=滿足唯一性要求的數(shù)據(jù)集中元素的個(gè)

數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

計(jì)算公式:?=?/?

式中:

臟數(shù)據(jù)出現(xiàn)率正確字段、記錄、文件或數(shù)據(jù)集之外無效數(shù)據(jù)的度量A=有臟數(shù)據(jù)出現(xiàn)的數(shù)據(jù)集中元素的個(gè)

數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

5.2.5唯一性

4

T/CASMEXXX—2024

應(yīng)度量哪些數(shù)據(jù)是重復(fù)數(shù)據(jù)或者數(shù)據(jù)的哪些屬性是重復(fù)的。

5.2.6關(guān)聯(lián)性

應(yīng)度量哪些關(guān)聯(lián)的數(shù)據(jù)缺失或者未建立索引,關(guān)聯(lián)性評(píng)價(jià)因素如下:

——查找到的信息和主題不完全一致,但確是其中某一方面的闡述;

——查找到的信息集合多數(shù)在用戶需要的檢索主題內(nèi);

——提供的信息主題與用戶檢索主題相匹配;

——查找到的信息多數(shù)與用戶需要的信息無關(guān);

——信息應(yīng)和用戶需求有相關(guān)性。

5.2.7時(shí)效性

時(shí)效性評(píng)價(jià)指標(biāo)見表5。

表5時(shí)效性評(píng)價(jià)指標(biāo)

指標(biāo)名稱指標(biāo)描述計(jì)算方法

計(jì)算公式:?=?/?

式中:

基于日期范圍內(nèi)的記錄數(shù)或頻率分布符合業(yè)務(wù)需求的程

基于時(shí)間段的正確性A=有臟數(shù)據(jù)出現(xiàn)的數(shù)據(jù)集中元素的個(gè)

數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

計(jì)算公式:?=?/?

式中:

基于時(shí)間戳的記錄數(shù)、頻率分布或延時(shí)時(shí)間符合業(yè)務(wù)需

基于時(shí)間點(diǎn)的及時(shí)性A=有臟數(shù)據(jù)出現(xiàn)的數(shù)據(jù)集中元素的個(gè)

求的程度

數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

計(jì)算公式:?=?/?

式中:

時(shí)序性數(shù)據(jù)集中同一實(shí)體的數(shù)據(jù)元素之間的相對(duì)時(shí)序關(guān)系A(chǔ)=有臟數(shù)據(jù)出現(xiàn)的數(shù)據(jù)集中元素的個(gè)

數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

5.2.8可訪問性

可訪問性評(píng)價(jià)指標(biāo)見表6。

表6可訪問性評(píng)價(jià)指標(biāo)

指標(biāo)名稱指標(biāo)描述計(jì)算方法

計(jì)算公式:?=?/?

式中:

可訪問數(shù)據(jù)在需要時(shí)的可獲取性A=滿足可訪問性要求的數(shù)據(jù)集中元素的

個(gè)數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

5

T/CASMEXXX—2024

表6可訪問性評(píng)價(jià)指標(biāo)(續(xù))

指標(biāo)名稱指標(biāo)描述計(jì)算方法

計(jì)算公式:?=?/?

式中:

可用性數(shù)據(jù)在設(shè)定有效生存周期內(nèi)的可使用性A=滿足可用性要求的數(shù)據(jù)集中元素的個(gè)

數(shù);

B=被評(píng)價(jià)的數(shù)據(jù)集中元素個(gè)數(shù)

6數(shù)據(jù)接入質(zhì)量技術(shù)要求

總則

大數(shù)據(jù)平臺(tái)為了保障數(shù)據(jù)質(zhì)量,應(yīng)從四個(gè)層面進(jìn)行數(shù)據(jù)質(zhì)量控制,數(shù)據(jù)標(biāo)準(zhǔn)體系質(zhì)量控制、數(shù)據(jù)采

集質(zhì)量控制、數(shù)據(jù)存儲(chǔ)質(zhì)量控制、數(shù)據(jù)使用質(zhì)量控制進(jìn)行全流程數(shù)據(jù)質(zhì)量管控。

數(shù)據(jù)標(biāo)準(zhǔn)體系質(zhì)量控制

6.2.1標(biāo)準(zhǔn)制定

6.2.1.1數(shù)據(jù)標(biāo)準(zhǔn)的制定按照數(shù)據(jù)標(biāo)準(zhǔn)管理的業(yè)務(wù)分類和定義規(guī)范指導(dǎo)要求,基于電子商務(wù)數(shù)據(jù)管控

需求,進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的制定,要求大數(shù)據(jù)平臺(tái)按照該標(biāo)準(zhǔn)規(guī)范進(jìn)行統(tǒng)一的數(shù)據(jù)管理。

6.2.1.2數(shù)據(jù)標(biāo)準(zhǔn)制定包括數(shù)據(jù)標(biāo)準(zhǔn)的編制、審核、發(fā)布。數(shù)據(jù)標(biāo)準(zhǔn)化管理組織將數(shù)據(jù)標(biāo)準(zhǔn)以正式發(fā)

文的方式在內(nèi)部進(jìn)行發(fā)布,并在發(fā)布后將數(shù)據(jù)標(biāo)準(zhǔn)、版本說明保存?zhèn)浒浮W罱K將發(fā)布的數(shù)據(jù)標(biāo)準(zhǔn)更新至

數(shù)據(jù)標(biāo)準(zhǔn)管理模塊中。

6.2.2標(biāo)準(zhǔn)執(zhí)行

數(shù)據(jù)標(biāo)準(zhǔn)執(zhí)行的流程步驟描述如下:

——數(shù)據(jù)標(biāo)準(zhǔn)制定發(fā)布后,將數(shù)據(jù)標(biāo)準(zhǔn)錄入到數(shù)據(jù)標(biāo)準(zhǔn)管理模塊;

——數(shù)據(jù)標(biāo)準(zhǔn)管理執(zhí)行者按照發(fā)布的數(shù)據(jù)標(biāo)準(zhǔn),制定和發(fā)布數(shù)據(jù)標(biāo)準(zhǔn)接口;

——數(shù)據(jù)標(biāo)準(zhǔn)管理模塊將標(biāo)準(zhǔn)要求提供給數(shù)據(jù)質(zhì)量管理,根據(jù)已錄入系統(tǒng)的數(shù)據(jù)標(biāo)準(zhǔn)形成稽查規(guī)

則,對(duì)數(shù)據(jù)標(biāo)準(zhǔn)管理執(zhí)行者制定和發(fā)布的數(shù)據(jù)標(biāo)準(zhǔn)接口中的內(nèi)容進(jìn)行相關(guān)的標(biāo)準(zhǔn)核監(jiān)控;

——將標(biāo)準(zhǔn)稽核結(jié)果發(fā)送給數(shù)據(jù)標(biāo)準(zhǔn)管理模塊,并反饋給數(shù)據(jù)標(biāo)準(zhǔn)管理決策者和數(shù)據(jù)標(biāo)準(zhǔn)管理執(zhí)

行者。

6.2.3標(biāo)準(zhǔn)維護(hù)

數(shù)據(jù)標(biāo)準(zhǔn)維護(hù)流程描述如下:

——對(duì)執(zhí)行的相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行變更請(qǐng)求的申請(qǐng),組織該數(shù)據(jù)標(biāo)準(zhǔn)相關(guān)執(zhí)行層和各數(shù)據(jù)運(yùn)維者進(jìn)

行討論和變更需求匯總;

——由數(shù)據(jù)標(biāo)準(zhǔn)管理組織協(xié)調(diào)機(jī)構(gòu)進(jìn)行標(biāo)準(zhǔn)變更的審核;

——討論審議數(shù)據(jù)標(biāo)準(zhǔn)項(xiàng)的變更內(nèi)容,并形成標(biāo)準(zhǔn)變更需求審批表提交給數(shù)據(jù)標(biāo)準(zhǔn)管理決策層進(jìn)

行審批;

——決策層將審批結(jié)果反饋給標(biāo)準(zhǔn)管理組織協(xié)調(diào)者,并由其進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)發(fā)布及版本維護(hù)。

6.2.4標(biāo)準(zhǔn)監(jiān)控

6

T/CASMEXXX—2024

數(shù)據(jù)標(biāo)準(zhǔn)監(jiān)控實(shí)現(xiàn)對(duì)數(shù)據(jù)標(biāo)準(zhǔn)執(zhí)行過程的監(jiān)控,包括對(duì)數(shù)據(jù)標(biāo)準(zhǔn)的執(zhí)行、效果、問題進(jìn)行監(jiān)控管理,

為后期數(shù)據(jù)標(biāo)準(zhǔn)維護(hù)管理提供依據(jù)。數(shù)據(jù)標(biāo)準(zhǔn)的監(jiān)控通過數(shù)據(jù)標(biāo)準(zhǔn)管理和元數(shù)據(jù)管理、數(shù)據(jù)質(zhì)量管理協(xié)

司實(shí)現(xiàn)落地。

數(shù)據(jù)采集質(zhì)量控制

6.3.1數(shù)據(jù)采集

6.3.1.1數(shù)據(jù)采集活動(dòng)的目標(biāo)是獲得數(shù)據(jù),數(shù)據(jù)采集方式包括但不限于:

——網(wǎng)絡(luò)數(shù)據(jù)采集:通過網(wǎng)絡(luò)爬蟲或公開API等方式獲取數(shù)據(jù);

——從其他組織獲?。和ㄟ^線上或線下等方式從組織外獲取數(shù)據(jù);

——通過傳感器獲?。簜鞲衅靼囟葌鞲衅?、電視、汽車、攝像頭等公共和個(gè)人的智能設(shè)備;

——系統(tǒng)數(shù)據(jù):組織內(nèi)部的系統(tǒng)在運(yùn)行過程中采集和產(chǎn)生的業(yè)務(wù)數(shù)據(jù),以及各種系統(tǒng)、程序和服

務(wù)運(yùn)行產(chǎn)生的大量運(yùn)維和日志數(shù)據(jù)等。

6.3.1.2數(shù)據(jù)采集活動(dòng)主要操作包括但不限于:發(fā)現(xiàn)數(shù)據(jù)源、傳輸數(shù)據(jù)、生成數(shù)據(jù)、緩存數(shù)據(jù)、創(chuàng)建

元數(shù)據(jù)、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)完整性驗(yàn)證等。

6.3.2質(zhì)量控制

6.3.2.1待采集數(shù)據(jù)字段長(zhǎng)度、精度、類型等應(yīng)優(yōu)先遵循國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)的約定。

6.3.2.2采集過程支持元數(shù)據(jù)的保留,包含技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。

6.3.2.3支持對(duì)元數(shù)據(jù)的監(jiān)控,控制數(shù)據(jù)庫和表結(jié)構(gòu)的異常修改,保證數(shù)據(jù)質(zhì)量。

6.3.2.4支持采集階段初步數(shù)據(jù)檢核。

數(shù)據(jù)存儲(chǔ)質(zhì)量控制

6.4.1一般要求

6.4.1.1數(shù)據(jù)存儲(chǔ)指將數(shù)據(jù)靜態(tài)保存在大數(shù)據(jù)平臺(tái),存儲(chǔ)的數(shù)據(jù)包括采集的數(shù)據(jù)、分析和處理的結(jié)果

數(shù)據(jù)等。存儲(chǔ)系統(tǒng)可以是關(guān)系數(shù)據(jù)庫、非關(guān)系數(shù)據(jù)庫等,應(yīng)支持對(duì)不同類型和格式的數(shù)據(jù)存儲(chǔ),且提供

多種數(shù)據(jù)訪問接口,如文件系統(tǒng)接口、數(shù)據(jù)庫接口等。直到數(shù)據(jù)被徹底刪除之前,存儲(chǔ)的數(shù)據(jù)均應(yīng)由大

數(shù)據(jù)平臺(tái)提供恰當(dāng)?shù)陌踩Wo(hù)。

6.4.1.2數(shù)據(jù)存儲(chǔ)活動(dòng)的主要操作包括但不限于:數(shù)據(jù)編解碼、數(shù)據(jù)加解密、冷熱數(shù)據(jù)分級(jí)存儲(chǔ)、數(shù)

據(jù)歸檔持久存儲(chǔ)、數(shù)據(jù)備份、數(shù)據(jù)更新、數(shù)據(jù)訪問等。

6.4.2檢核要求

大數(shù)據(jù)平臺(tái)在數(shù)據(jù)存儲(chǔ)階段需通過多種檢核規(guī)則及任務(wù)調(diào)度方式對(duì)數(shù)據(jù)進(jìn)行檢核,數(shù)據(jù)存儲(chǔ)階段

要求如下:

——保證數(shù)據(jù)完整性、規(guī)范性、準(zhǔn)確性、唯一性、關(guān)聯(lián)性;

——檢核規(guī)則包含空值校驗(yàn)、值域校驗(yàn)、格式校驗(yàn)、長(zhǎng)度校驗(yàn)、精度校驗(yàn)、唯一性約束校驗(yàn)主外

鍵校驗(yàn);

——自定義檢核規(guī)則指根據(jù)具體業(yè)務(wù)場(chǎng)景,用戶可以通過自定義SQL語句的方式完成對(duì)數(shù)據(jù)質(zhì)量

的檢核;

——支持檢核任務(wù)的創(chuàng)建,檢核規(guī)則的設(shè)定;

——支持檢核任務(wù)的創(chuàng)建和檢核任務(wù)調(diào)度方式的設(shè)定;

——支持對(duì)數(shù)據(jù)質(zhì)量報(bào)告的查看的下載;

——支持?jǐn)?shù)據(jù)的全生命周期管理;

7

T/CASMEXXX—2024

——支持對(duì)元數(shù)據(jù)的版本管理。

6.4.3檢核流程

質(zhì)量檢核流程如下:

——接入待檢核數(shù)據(jù)源;

——?jiǎng)?chuàng)建檢核方案;

——關(guān)聯(lián)檢核方案,創(chuàng)建檢核任務(wù);

——配置檢核任務(wù)的調(diào)度方式,可通過定時(shí)器實(shí)現(xiàn)自動(dòng)調(diào)度,亦可通過人為實(shí)現(xiàn)手工調(diào)度;

——任務(wù)被調(diào)度后是查看任務(wù)執(zhí)行日志;

——生成數(shù)據(jù)質(zhì)量報(bào)告并提供下載,基于質(zhì)量報(bào)告可實(shí)現(xiàn)異常數(shù)據(jù)發(fā)現(xiàn)并處理。

數(shù)據(jù)使用質(zhì)量控制

6.5.1要求

數(shù)據(jù)使用要求如下:

——支持對(duì)數(shù)據(jù)進(jìn)行監(jiān)控,明確數(shù)據(jù)的來源和去向;

——支持?jǐn)?shù)據(jù)地圖、血緣分析、影響分析等方式的數(shù)據(jù)展現(xiàn);

——支持對(duì)數(shù)據(jù)資產(chǎn)的安全性管控;

——支持對(duì)操作日志以及用戶登錄、退出的日志審計(jì);

——支持?jǐn)?shù)據(jù)質(zhì)量報(bào)告分析的查看及下載;

——支持問題數(shù)據(jù)的告警;

——支持對(duì)問題數(shù)據(jù)進(jìn)行整改分析;

——在數(shù)據(jù)采集和數(shù)據(jù)存儲(chǔ)基礎(chǔ)上,實(shí)現(xiàn)血緣分析、數(shù)據(jù)地圖、影響分析、版本管理、質(zhì)量報(bào)

告、問題數(shù)據(jù)整改分析、數(shù)據(jù)告警、質(zhì)量評(píng)分;

——使用階段支持?jǐn)?shù)據(jù)及功能的權(quán)限控制;

——支持系統(tǒng)審計(jì),包含操作日志審計(jì)和登錄登出日志審計(jì)。

6.5.2使用

大數(shù)據(jù)平臺(tái)數(shù)據(jù)使用應(yīng)符合GB/T36318—2018中5.1.3的規(guī)定。

7數(shù)據(jù)質(zhì)量評(píng)價(jià)方法

重復(fù)值分析法

在非冗余的情況下,將每條數(shù)據(jù)記錄中的部分?jǐn)?shù)據(jù)項(xiàng)或者所有數(shù)據(jù)項(xiàng)的取值,與所有的數(shù)據(jù)記錄進(jìn)

行逐一比對(duì),識(shí)別重復(fù)記錄。

缺失值分析法

對(duì)每條數(shù)據(jù)記錄的所有數(shù)據(jù)項(xiàng)進(jìn)行逐一檢查,識(shí)別數(shù)據(jù)記錄的數(shù)據(jù)項(xiàng)是否為空。

值域分析法

將數(shù)據(jù)項(xiàng)的取值與字段的取值區(qū)間進(jìn)行比對(duì),識(shí)別是否超出取值區(qū)間。

邏輯關(guān)系分析法

8

T/CASMEXXX—2024

通過對(duì)數(shù)據(jù)記錄中相關(guān)數(shù)據(jù)項(xiàng)取值的內(nèi)在邏輯關(guān)系進(jìn)行分析,識(shí)別違背邏輯關(guān)系的數(shù)據(jù)記錄。

詞組比對(duì)分析法

將數(shù)據(jù)記錄目標(biāo)數(shù)據(jù)項(xiàng)的取值與目標(biāo)敏感詞、常見錯(cuò)詞等詞庫內(nèi)容進(jìn)行比對(duì),識(shí)別與詞庫相同的數(shù)

據(jù)記錄。

實(shí)驗(yàn)觀察法

設(shè)置某些條件,通過控制行為過程,觀察符合條件的結(jié)果是否出現(xiàn)。

經(jīng)驗(yàn)分析法

對(duì)比驗(yàn)證數(shù)據(jù)取值與日常生產(chǎn)生活中產(chǎn)生的經(jīng)驗(yàn)取值,證實(shí)或證偽數(shù)據(jù)內(nèi)容。經(jīng)驗(yàn)分析法常與邏輯

關(guān)系分析法、詞組比對(duì)分析法聯(lián)合使用。

8安全要求

大數(shù)據(jù)平臺(tái)進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)存儲(chǔ)等的安全要求應(yīng)符合GB/T37973的規(guī)定。

9

T/CASMEXXX—2024

目次

前言.................................................................................II

1范圍...............................................................................1

2規(guī)范性引用文件.....................................................................1

3術(shù)語和定義.........................................................................1

4概述...............................................................................1

5數(shù)據(jù)質(zhì)量評(píng)價(jià)維度...................................................................1

指標(biāo)框架.......................................................................1

指標(biāo)說明.......................................................................2

6數(shù)據(jù)接入質(zhì)量技術(shù)要求...............................................................6

總則...........................................................................6

數(shù)據(jù)標(biāo)準(zhǔn)體系質(zhì)量控制...........................................................6

數(shù)據(jù)采集質(zhì)量控制...............................................................7

數(shù)據(jù)存儲(chǔ)質(zhì)量控制...............................................................7

數(shù)據(jù)使用質(zhì)量控制...............................................................8

7數(shù)據(jù)質(zhì)量評(píng)價(jià)方法...................................................................8

重復(fù)值分析法...................................................................8

缺失值分析法...................................................................8

值域分析法.....................................................................8

邏輯關(guān)系分析法.................................................................8

詞組比對(duì)分析法.................................................................9

實(shí)驗(yàn)觀察法.....................................................................9

經(jīng)驗(yàn)分析法.....................................................................9

8安全要求...........................................................................9

I

T/CASMEXXX—2024

智慧電子商務(wù)園區(qū)大數(shù)據(jù)平臺(tái)數(shù)據(jù)接入質(zhì)量規(guī)范

1范圍

本文件規(guī)定了智慧電子商務(wù)園區(qū)大數(shù)據(jù)平臺(tái)(以下簡(jiǎn)稱“大數(shù)據(jù)平臺(tái)”)的數(shù)據(jù)質(zhì)量評(píng)價(jià)維度、數(shù)

據(jù)接入質(zhì)量技術(shù)要求、數(shù)據(jù)質(zhì)量評(píng)價(jià)方法和安全要求。

本文件適用于智慧電子商務(wù)園區(qū)接入大數(shù)據(jù)平臺(tái)過程中的數(shù)據(jù)質(zhì)量保障工作。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T5271.1信息技術(shù)詞匯第1部分:基本術(shù)語

GB/T24662電子商務(wù)產(chǎn)品核心元數(shù)據(jù)

GB/T24663電子商務(wù)企業(yè)核心元數(shù)據(jù)

GB/T36318—2018電子商務(wù)平臺(tái)數(shù)據(jù)開放總體要求

GB/T36344信息技術(shù)數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)

GB/T37973信息安全技術(shù)大數(shù)據(jù)安全管理指南

3術(shù)語和定義

GB/T5271.1和GB/T36344界定的術(shù)語和定義適用于本文件。

4概述

大數(shù)據(jù)平臺(tái)支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)等異構(gòu)數(shù)據(jù)源采集數(shù)據(jù),實(shí)現(xiàn)各類離線

數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)的采集與接入。針對(duì)大數(shù)據(jù)平臺(tái)的數(shù)據(jù)接入,執(zhí)行相應(yīng)的質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn),保證數(shù)據(jù)質(zhì)量,

為智慧電子商務(wù)園區(qū)提供優(yōu)質(zhì)的數(shù)據(jù)服務(wù)。

5數(shù)據(jù)質(zhì)量評(píng)價(jià)維度

指標(biāo)框架

數(shù)據(jù)質(zhì)量的評(píng)價(jià)主要包括八個(gè)維度:完整性、規(guī)范性、一致性、準(zhǔn)確性、唯一性、關(guān)聯(lián)性、時(shí)效性

和可訪問性,數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)框架見圖1。

1

T/CASMEXXX—2024

數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)框架

完規(guī)一準(zhǔn)唯關(guān)時(shí)可

整范

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論