《面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求》_第1頁
《面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求》_第2頁
《面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求》_第3頁
《面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求》_第4頁
《面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求》_第5頁
已閱讀5頁,還剩1頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

ICS35.240

CCSL70

團(tuán)體標(biāo)準(zhǔn)

T/CESAXXXX—202X

面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求

Dataqualityrequirementsforheterogeneouscomputing

(征求意見稿)

在提交反饋意見時(shí),請(qǐng)將您知道的相關(guān)專利連同支持性文件一并附上。

已授權(quán)的專利證明材料為專利證書復(fù)印件或扉頁,已公開但尚未授權(quán)的專利申請(qǐng)

證明材料為專利公開通知書復(fù)印件或扉頁,未公開的專利申請(qǐng)的證明材料為專利申請(qǐng)

號(hào)和申請(qǐng)日期。

202X-XX-XX發(fā)布202X-XX-XX實(shí)施

中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)發(fā)布

T/CESAXXXX—202X

面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求

1范圍

本文件規(guī)定了針對(duì)異構(gòu)智能計(jì)算訓(xùn)練場(chǎng)景的數(shù)據(jù)質(zhì)量的要求,包含智能計(jì)算訓(xùn)練過程的輸入數(shù)據(jù)質(zhì)

量要求和輸出數(shù)據(jù)質(zhì)量要求。

本文件適用于異構(gòu)智能計(jì)算訓(xùn)練場(chǎng)景中的數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)評(píng)估。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T35273信息安全技術(shù)個(gè)人信息安全規(guī)范

GB/T41867-2022信息技術(shù)人工智能術(shù)語

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

異構(gòu)計(jì)算heterogeneouscomputing

一種計(jì)算方式,它使用可由具有不同類型指令集和體系架構(gòu)的計(jì)算單元組成的獨(dú)立的或分布式系統(tǒng)

進(jìn)行計(jì)算。

注:常見的計(jì)算單元類別包括CPU、GPU、NPU、DSP等處理器以及ASIC、FPGA等芯片。

3.2

深度學(xué)習(xí)deeplearning

通過訓(xùn)練具有許多隱層的神經(jīng)網(wǎng)絡(luò)來創(chuàng)建豐富層次表示的方法。

注:深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集

[來源:GB/T41867-2022,3.2.27]

3.3

異構(gòu)智能計(jì)算heterogeneousintelligentcomputing

一種面向深度學(xué)習(xí)任務(wù)的異構(gòu)計(jì)算范式,涉及到在不同類型指令集和體系架構(gòu)的計(jì)算單元上進(jìn)行深

度學(xué)習(xí)相關(guān)的計(jì)算任務(wù)。

3.4

原始數(shù)據(jù)rawdata

為訓(xùn)練所使用和存儲(chǔ)的未經(jīng)處理的數(shù)據(jù)。

1

T/CESAXXXX—202X

注:原始數(shù)據(jù)可以包括多種形式,例如視頻數(shù)據(jù)、圖像數(shù)據(jù)、音頻數(shù)據(jù)和文本數(shù)據(jù)以及它們的組合。

3.5

標(biāo)簽label

對(duì)于原始數(shù)據(jù)的一個(gè)或多個(gè)特性的具體描述,以指定模型的上下文,從而允許訓(xùn)練得到的模型做出

準(zhǔn)確的預(yù)測(cè)。

3.6

結(jié)構(gòu)化數(shù)據(jù)structureddata

行數(shù)據(jù),可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。

3.7

非結(jié)構(gòu)化數(shù)據(jù)unstructureddata

不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。

注:常見的非結(jié)構(gòu)化數(shù)據(jù)包括文本、語音、圖片、圖像等。

3.8

輸入數(shù)據(jù)inputdata

指用于智能計(jì)算的訓(xùn)練過程的輸入數(shù)據(jù),通常為對(duì)于多源異構(gòu)數(shù)據(jù)經(jīng)過處理后的數(shù)據(jù)集。

3.9

輸出數(shù)據(jù)outputdata

指經(jīng)過智能計(jì)算的訓(xùn)練過程得到的模型。

3.10

數(shù)據(jù)集dataset

對(duì)原始數(shù)據(jù)進(jìn)行統(tǒng)一預(yù)處理的數(shù)據(jù)集合,每項(xiàng)數(shù)據(jù)可能還包括其對(duì)應(yīng)的標(biāo)簽。

3.11

模型model

經(jīng)過訓(xùn)練后得到的神經(jīng)網(wǎng)絡(luò)數(shù)據(jù),它包括網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)重參數(shù),能夠?qū)τ陬A(yù)期任務(wù)進(jìn)行預(yù)測(cè)。

3.12

攻擊者attacker

試圖損害、破壞深度學(xué)習(xí)的訓(xùn)練過程或未經(jīng)授權(quán)訪問、篡改訓(xùn)練模型的個(gè)人或組織。

3.13

臟標(biāo)簽投毒攻擊dirtylabelpoisonattack

一種攻擊方式,攻擊者通過惡意篡改數(shù)據(jù)的標(biāo)簽并與干凈的數(shù)據(jù)混為一體進(jìn)行訓(xùn)練來達(dá)到攻擊的目

的。

3.14

干凈標(biāo)簽投毒攻擊cleanlabelpoisonattack

2

T/CESAXXXX—202X

一種攻擊方式,攻擊者通過精心設(shè)計(jì)惡意數(shù)據(jù)并添加到訓(xùn)練數(shù)據(jù)中來達(dá)到攻擊的目的。

3.15

數(shù)據(jù)后門投毒攻擊databackdoorpoisonattack

一種攻擊方式,攻擊者修改原始訓(xùn)練數(shù)據(jù)集的單個(gè)特征或小區(qū)域,然后將其作為后門嵌入模型中來

達(dá)到攻擊目的。

3.16

對(duì)抗樣本攻擊adversarialexampleattack

一種攻擊方式,攻擊者在原始樣本中添加肉眼不可見或在經(jīng)處理不影響整體的肉眼可見的細(xì)微擾

動(dòng),致使訓(xùn)練好的模型以高置信度給出與原樣本不同的分類輸出。

4數(shù)據(jù)質(zhì)量概述

多源異構(gòu)智能計(jì)算場(chǎng)景下,訓(xùn)練過程的數(shù)據(jù)主要分為輸入數(shù)據(jù)和輸出數(shù)據(jù)。數(shù)據(jù)質(zhì)量應(yīng)符合表1要

求。

表1面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求

數(shù)據(jù)階段質(zhì)量要求

1)準(zhǔn)確性要求

2)完整性要求

3)一致性要求

輸入數(shù)據(jù)4)可訪問性要求

5)隱私性要求

6)安全性要求

7)可溯源性要求

1)準(zhǔn)確性要求

2)完整性要求

3)可訪問性要求

輸出數(shù)據(jù)

4)隱私性要求

5)安全性要求

6)可溯源性要求

5輸入數(shù)據(jù)質(zhì)量要求

5.1準(zhǔn)確性要求

輸入數(shù)據(jù)的準(zhǔn)確性符合以下要求:

a)對(duì)于描述客觀真實(shí)世界或信息的場(chǎng)景,數(shù)據(jù)應(yīng)是來自真實(shí)世界的異構(gòu)數(shù)據(jù)或基于真實(shí)世界的異

構(gòu)數(shù)據(jù)采用數(shù)據(jù)增強(qiáng)等技術(shù)生成的異構(gòu)數(shù)據(jù);

b)對(duì)于結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)中的數(shù)據(jù)值應(yīng)處于預(yù)期的區(qū)間內(nèi);

c)對(duì)于非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)中存在的噪聲不應(yīng)對(duì)數(shù)據(jù)的分布產(chǎn)生偏移的影響;

3

T/CESAXXXX—202X

d)若每項(xiàng)數(shù)據(jù)存在對(duì)應(yīng)的標(biāo)簽,標(biāo)簽的準(zhǔn)確度應(yīng)該大于99.9%;

e)數(shù)據(jù)中應(yīng)避免包含重復(fù)的數(shù)據(jù)元素。

5.2完整性要求

輸入數(shù)據(jù)的完整性符合以下要求:

a)對(duì)于結(jié)構(gòu)化數(shù)據(jù),針對(duì)具體訓(xùn)練任務(wù)需要的數(shù)據(jù)項(xiàng)應(yīng)完整;

b)針對(duì)具體訓(xùn)練任務(wù),若每項(xiàng)數(shù)據(jù)存在標(biāo)簽,標(biāo)簽應(yīng)完整。

5.3一致性要求

輸入數(shù)據(jù)的一致性符合以下要求:

a)對(duì)于結(jié)構(gòu)化數(shù)據(jù),不同數(shù)據(jù)元素中相同數(shù)據(jù)項(xiàng)的數(shù)據(jù)格式應(yīng)當(dāng)一致;

b)對(duì)于非結(jié)構(gòu)化數(shù)據(jù),同類數(shù)據(jù)中的數(shù)據(jù)格式應(yīng)當(dāng)一致。

5.4可訪問性要求

輸入數(shù)據(jù)的可訪問性符合以下要求:

a)輸入數(shù)據(jù)應(yīng)當(dāng)能夠被預(yù)期用戶所訪問;

b)輸入數(shù)據(jù)應(yīng)當(dāng)能夠被預(yù)期設(shè)備所訪問。

5.5隱私性要求

輸入數(shù)據(jù)的隱私性符合以下要求:

a)對(duì)于結(jié)構(gòu)化數(shù)據(jù),輸入數(shù)據(jù)不應(yīng)包含確切能推斷出具體用戶身份的內(nèi)容,包括但不限于姓名、

身份證號(hào)、手機(jī)號(hào)、卡號(hào)、客戶號(hào)信息等;

b)對(duì)于非結(jié)構(gòu)化數(shù)據(jù),對(duì)于具體訓(xùn)練任務(wù)和法律法規(guī)明確要求進(jìn)行保護(hù)的內(nèi)容,輸入數(shù)據(jù)不應(yīng)直

接包含這些內(nèi)容,應(yīng)采用包括但不限于加密、數(shù)據(jù)脫敏等隱私技術(shù)對(duì)于這些內(nèi)容進(jìn)行保護(hù);

c)對(duì)于模態(tài)異構(gòu)的數(shù)據(jù),不應(yīng)包含可通過不同模態(tài)間數(shù)據(jù)組合的方式推斷出具體用戶身份的內(nèi)容

或其它對(duì)于具體訓(xùn)練任務(wù)明確要求進(jìn)行保護(hù)的內(nèi)容。

5.6安全性要求

輸入數(shù)據(jù)的安全性符合以下要求:

a)輸入數(shù)據(jù)的使用過程應(yīng)確保合規(guī),即對(duì)于異構(gòu)數(shù)據(jù)的采集、使用和傳輸應(yīng)符合相關(guān)法律法規(guī)的

要求,涉及個(gè)人信息應(yīng)遵守GB/T35273的要求;

b)應(yīng)根據(jù)安全策略,采取口令、權(quán)限管理等技術(shù)措施,對(duì)輸入數(shù)據(jù)進(jìn)行安全保護(hù);

c)輸入數(shù)據(jù)的內(nèi)容應(yīng)確保合規(guī),即異構(gòu)數(shù)據(jù)中不應(yīng)包含非法、惡意的數(shù)據(jù)內(nèi)容;

d)對(duì)于獨(dú)立同分布的輸入數(shù)據(jù),數(shù)據(jù)之間不應(yīng)出現(xiàn)特征分布偏移的情況;

e)對(duì)于非獨(dú)立同分布的輸入數(shù)據(jù),當(dāng)數(shù)據(jù)之間存在特征分布的偏移時(shí),不同的特征分布均應(yīng)符合

真實(shí)情況,不應(yīng)出現(xiàn)偽造的數(shù)據(jù)特征分布;

f)對(duì)于非獨(dú)立同分布的輸入數(shù)據(jù),當(dāng)數(shù)據(jù)之間存在標(biāo)簽分布的偏移時(shí),不同的標(biāo)簽分布均應(yīng)符合

真實(shí)情況,不應(yīng)出現(xiàn)偽造的數(shù)據(jù)標(biāo)簽分布;

g)對(duì)于非獨(dú)立同分布的輸入數(shù)據(jù),當(dāng)數(shù)據(jù)中出現(xiàn)標(biāo)簽相同特征不同的數(shù)據(jù)時(shí),不同的特征均應(yīng)符

合真實(shí)情況,不應(yīng)出現(xiàn)偽造的數(shù)據(jù)特征;

h)對(duì)于非獨(dú)立同分布的輸入數(shù)據(jù),當(dāng)數(shù)據(jù)中出現(xiàn)特征相同標(biāo)簽不同的數(shù)據(jù)時(shí),不同的標(biāo)簽均應(yīng)當(dāng)

符合真實(shí)情況,不應(yīng)出現(xiàn)偽造的數(shù)據(jù)標(biāo)簽;

4

T/CESAXXXX—202X

i)應(yīng)對(duì)輸入數(shù)據(jù)進(jìn)行質(zhì)量檢測(cè)和過濾,防止數(shù)據(jù)投毒攻擊,包括臟標(biāo)簽投毒攻擊、干凈標(biāo)簽投毒

攻擊、數(shù)據(jù)后門投毒攻擊等。

5.7可溯源性要求

輸入數(shù)據(jù)的可溯源性符合以下要求:

a)異構(gòu)數(shù)據(jù)的來源應(yīng)當(dāng)明確,以支持根據(jù)數(shù)據(jù)追溯到該數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)提供方;

b)如異構(gòu)數(shù)據(jù)中包含數(shù)據(jù)標(biāo)簽,數(shù)據(jù)標(biāo)簽的來源應(yīng)當(dāng)明確,以支持根據(jù)數(shù)據(jù)標(biāo)簽追溯到對(duì)應(yīng)的標(biāo)

簽標(biāo)定方。

6輸出數(shù)據(jù)質(zhì)量要求

6.1準(zhǔn)確性要求

輸出數(shù)據(jù)的準(zhǔn)確率應(yīng)當(dāng)達(dá)到任務(wù)的預(yù)期精度,任務(wù)的預(yù)期準(zhǔn)確率由具體場(chǎng)景和任務(wù)而定。

6.2完整性要求

應(yīng)采取加密存儲(chǔ)、訪問控制等措施,保護(hù)輸出數(shù)據(jù)的模型的結(jié)構(gòu)和參數(shù)不被攻擊者非法篡改。

6.3可訪問性要求

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論