《面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求》

上傳人：1*** IP屬地：浙江上傳時(shí)間：2025-01-06 格式：PDF 頁數(shù)：6 大?。?41.59KB 積分：11 舉報(bào) 版權(quán)申訴

《面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求》_第2頁

《面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求》_第3頁

《面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求》_第4頁

《面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求》_第5頁

已閱讀5頁，還剩1頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

ICS35.240

CCSL70

團(tuán)體標(biāo)準(zhǔn)

T/CESAXXXX—202X

面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求

Dataqualityrequirementsforheterogeneouscomputing

（征求意見稿）

在提交反饋意見時(shí)，請(qǐng)將您知道的相關(guān)專利連同支持性文件一并附上。

已授權(quán)的專利證明材料為專利證書復(fù)印件或扉頁，已公開但尚未授權(quán)的專利申請(qǐng)

證明材料為專利公開通知書復(fù)印件或扉頁，未公開的專利申請(qǐng)的證明材料為專利申請(qǐng)

號(hào)和申請(qǐng)日期。

202X-XX-XX發(fā)布202X-XX-XX實(shí)施

中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)發(fā)布

T/CESAXXXX—202X

面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求

1范圍

本文件規(guī)定了針對(duì)異構(gòu)智能計(jì)算訓(xùn)練場(chǎng)景的數(shù)據(jù)質(zhì)量的要求，包含智能計(jì)算訓(xùn)練過程的輸入數(shù)據(jù)質(zhì)

量要求和輸出數(shù)據(jù)質(zhì)量要求。

本文件適用于異構(gòu)智能計(jì)算訓(xùn)練場(chǎng)景中的數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)評(píng)估。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中，注日期的引用文件，

僅該日期對(duì)應(yīng)的版本適用于本文件；不注日期的引用文件，其最新版本（包括所有的修改單）適用于本

文件。

GB/T35273信息安全技術(shù)個(gè)人信息安全規(guī)范

GB/T41867-2022信息技術(shù)人工智能術(shù)語

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

異構(gòu)計(jì)算heterogeneouscomputing

一種計(jì)算方式，它使用可由具有不同類型指令集和體系架構(gòu)的計(jì)算單元組成的獨(dú)立的或分布式系統(tǒng)

進(jìn)行計(jì)算。

注：常見的計(jì)算單元類別包括CPU、GPU、NPU、DSP等處理器以及ASIC、FPGA等芯片。

3.2

深度學(xué)習(xí)deeplearning

通過訓(xùn)練具有許多隱層的神經(jīng)網(wǎng)絡(luò)來創(chuàng)建豐富層次表示的方法。

注：深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集

[來源：GB/T41867-2022，3.2.27]

3.3

異構(gòu)智能計(jì)算heterogeneousintelligentcomputing

一種面向深度學(xué)習(xí)任務(wù)的異構(gòu)計(jì)算范式，涉及到在不同類型指令集和體系架構(gòu)的計(jì)算單元上進(jìn)行深

度學(xué)習(xí)相關(guān)的計(jì)算任務(wù)。

3.4

原始數(shù)據(jù)rawdata

為訓(xùn)練所使用和存儲(chǔ)的未經(jīng)處理的數(shù)據(jù)。

T/CESAXXXX—202X

注：原始數(shù)據(jù)可以包括多種形式，例如視頻數(shù)據(jù)、圖像數(shù)據(jù)、音頻數(shù)據(jù)和文本數(shù)據(jù)以及它們的組合。

3.5

標(biāo)簽label

對(duì)于原始數(shù)據(jù)的一個(gè)或多個(gè)特性的具體描述，以指定模型的上下文，從而允許訓(xùn)練得到的模型做出

準(zhǔn)確的預(yù)測(cè)。

3.6

結(jié)構(gòu)化數(shù)據(jù)structureddata

行數(shù)據(jù)，可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。

3.7

非結(jié)構(gòu)化數(shù)據(jù)unstructureddata

不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。

注：常見的非結(jié)構(gòu)化數(shù)據(jù)包括文本、語音、圖片、圖像等。

3.8

輸入數(shù)據(jù)inputdata

指用于智能計(jì)算的訓(xùn)練過程的輸入數(shù)據(jù)，通常為對(duì)于多源異構(gòu)數(shù)據(jù)經(jīng)過處理后的數(shù)據(jù)集。

3.9

輸出數(shù)據(jù)outputdata

指經(jīng)過智能計(jì)算的訓(xùn)練過程得到的模型。

3.10

數(shù)據(jù)集dataset

對(duì)原始數(shù)據(jù)進(jìn)行統(tǒng)一預(yù)處理的數(shù)據(jù)集合，每項(xiàng)數(shù)據(jù)可能還包括其對(duì)應(yīng)的標(biāo)簽。

3.11

模型model

經(jīng)過訓(xùn)練后得到的神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)，它包括網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)重參數(shù)，能夠?qū)τ陬A(yù)期任務(wù)進(jìn)行預(yù)測(cè)。

3.12

攻擊者attacker

試圖損害、破壞深度學(xué)習(xí)的訓(xùn)練過程或未經(jīng)授權(quán)訪問、篡改訓(xùn)練模型的個(gè)人或組織。

3.13

臟標(biāo)簽投毒攻擊dirtylabelpoisonattack

一種攻擊方式，攻擊者通過惡意篡改數(shù)據(jù)的標(biāo)簽并與干凈的數(shù)據(jù)混為一體進(jìn)行訓(xùn)練來達(dá)到攻擊的目

的。

3.14

干凈標(biāo)簽投毒攻擊cleanlabelpoisonattack

T/CESAXXXX—202X

一種攻擊方式，攻擊者通過精心設(shè)計(jì)惡意數(shù)據(jù)并添加到訓(xùn)練數(shù)據(jù)中來達(dá)到攻擊的目的。

3.15

數(shù)據(jù)后門投毒攻擊databackdoorpoisonattack

一種攻擊方式，攻擊者修改原始訓(xùn)練數(shù)據(jù)集的單個(gè)特征或小區(qū)域，然后將其作為后門嵌入模型中來

達(dá)到攻擊目的。

3.16

對(duì)抗樣本攻擊adversarialexampleattack

一種攻擊方式，攻擊者在原始樣本中添加肉眼不可見或在經(jīng)處理不影響整體的肉眼可見的細(xì)微擾

動(dòng)，致使訓(xùn)練好的模型以高置信度給出與原樣本不同的分類輸出。

4數(shù)據(jù)質(zhì)量概述

多源異構(gòu)智能計(jì)算場(chǎng)景下，訓(xùn)練過程的數(shù)據(jù)主要分為輸入數(shù)據(jù)和輸出數(shù)據(jù)。數(shù)據(jù)質(zhì)量應(yīng)符合表1要

求。

表1面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求

數(shù)據(jù)階段質(zhì)量要求

1）準(zhǔn)確性要求

2）完整性要求

3）一致性要求

輸入數(shù)據(jù)4）可訪問性要求

5）隱私性要求

6）安全性要求

7）可溯源性要求

1）準(zhǔn)確性要求

2）完整性要求

3）可訪問性要求

輸出數(shù)據(jù)

4）隱私性要求

5）安全性要求

6）可溯源性要求

5輸入數(shù)據(jù)質(zhì)量要求

5.1準(zhǔn)確性要求

輸入數(shù)據(jù)的準(zhǔn)確性符合以下要求：

a)對(duì)于描述客觀真實(shí)世界或信息的場(chǎng)景，數(shù)據(jù)應(yīng)是來自真實(shí)世界的異構(gòu)數(shù)據(jù)或基于真實(shí)世界的異

構(gòu)數(shù)據(jù)采用數(shù)據(jù)增強(qiáng)等技術(shù)生成的異構(gòu)數(shù)據(jù)；

b)對(duì)于結(jié)構(gòu)化數(shù)據(jù)，數(shù)據(jù)中的數(shù)據(jù)值應(yīng)處于預(yù)期的區(qū)間內(nèi)；

c)對(duì)于非結(jié)構(gòu)化數(shù)據(jù)，數(shù)據(jù)中存在的噪聲不應(yīng)對(duì)數(shù)據(jù)的分布產(chǎn)生偏移的影響；

T/CESAXXXX—202X

d)若每項(xiàng)數(shù)據(jù)存在對(duì)應(yīng)的標(biāo)簽，標(biāo)簽的準(zhǔn)確度應(yīng)該大于99.9%；

e)數(shù)據(jù)中應(yīng)避免包含重復(fù)的數(shù)據(jù)元素。

5.2完整性要求

輸入數(shù)據(jù)的完整性符合以下要求：

a)對(duì)于結(jié)構(gòu)化數(shù)據(jù)，針對(duì)具體訓(xùn)練任務(wù)需要的數(shù)據(jù)項(xiàng)應(yīng)完整；

b)針對(duì)具體訓(xùn)練任務(wù)，若每項(xiàng)數(shù)據(jù)存在標(biāo)簽，標(biāo)簽應(yīng)完整。

5.3一致性要求

輸入數(shù)據(jù)的一致性符合以下要求：

a)對(duì)于結(jié)構(gòu)化數(shù)據(jù)，不同數(shù)據(jù)元素中相同數(shù)據(jù)項(xiàng)的數(shù)據(jù)格式應(yīng)當(dāng)一致；

b)對(duì)于非結(jié)構(gòu)化數(shù)據(jù)，同類數(shù)據(jù)中的數(shù)據(jù)格式應(yīng)當(dāng)一致。

5.4可訪問性要求

輸入數(shù)據(jù)的可訪問性符合以下要求：

a)輸入數(shù)據(jù)應(yīng)當(dāng)能夠被預(yù)期用戶所訪問；

b)輸入數(shù)據(jù)應(yīng)當(dāng)能夠被預(yù)期設(shè)備所訪問。

5.5隱私性要求

輸入數(shù)據(jù)的隱私性符合以下要求：

a)對(duì)于結(jié)構(gòu)化數(shù)據(jù)，輸入數(shù)據(jù)不應(yīng)包含確切能推斷出具體用戶身份的內(nèi)容，包括但不限于姓名、

身份證號(hào)、手機(jī)號(hào)、卡號(hào)、客戶號(hào)信息等；

b)對(duì)于非結(jié)構(gòu)化數(shù)據(jù)，對(duì)于具體訓(xùn)練任務(wù)和法律法規(guī)明確要求進(jìn)行保護(hù)的內(nèi)容，輸入數(shù)據(jù)不應(yīng)直

接包含這些內(nèi)容，應(yīng)采用包括但不限于加密、數(shù)據(jù)脫敏等隱私技術(shù)對(duì)于這些內(nèi)容進(jìn)行保護(hù)；

c)對(duì)于模態(tài)異構(gòu)的數(shù)據(jù)，不應(yīng)包含可通過不同模態(tài)間數(shù)據(jù)組合的方式推斷出具體用戶身份的內(nèi)容

或其它對(duì)于具體訓(xùn)練任務(wù)明確要求進(jìn)行保護(hù)的內(nèi)容。

5.6安全性要求

輸入數(shù)據(jù)的安全性符合以下要求：

a)輸入數(shù)據(jù)的使用過程應(yīng)確保合規(guī)，即對(duì)于異構(gòu)數(shù)據(jù)的采集、使用和傳輸應(yīng)符合相關(guān)法律法規(guī)的

要求，涉及個(gè)人信息應(yīng)遵守GB/T35273的要求；

b)應(yīng)根據(jù)安全策略，采取口令、權(quán)限管理等技術(shù)措施，對(duì)輸入數(shù)據(jù)進(jìn)行安全保護(hù)；

c)輸入數(shù)據(jù)的內(nèi)容應(yīng)確保合規(guī)，即異構(gòu)數(shù)據(jù)中不應(yīng)包含非法、惡意的數(shù)據(jù)內(nèi)容；

d)對(duì)于獨(dú)立同分布的輸入數(shù)據(jù)，數(shù)據(jù)之間不應(yīng)出現(xiàn)特征分布偏移的情況；

e)對(duì)于非獨(dú)立同分布的輸入數(shù)據(jù)，當(dāng)數(shù)據(jù)之間存在特征分布的偏移時(shí)，不同的特征分布均應(yīng)符合

真實(shí)情況，不應(yīng)出現(xiàn)偽造的數(shù)據(jù)特征分布；

f)對(duì)于非獨(dú)立同分布的輸入數(shù)據(jù)，當(dāng)數(shù)據(jù)之間存在標(biāo)簽分布的偏移時(shí)，不同的標(biāo)簽分布均應(yīng)符合

真實(shí)情況，不應(yīng)出現(xiàn)偽造的數(shù)據(jù)標(biāo)簽分布；

g)對(duì)于非獨(dú)立同分布的輸入數(shù)據(jù)，當(dāng)數(shù)據(jù)中出現(xiàn)標(biāo)簽相同特征不同的數(shù)據(jù)時(shí)，不同的特征均應(yīng)符

合真實(shí)情況，不應(yīng)出現(xiàn)偽造的數(shù)據(jù)特征；

h)對(duì)于非獨(dú)立同分布的輸入數(shù)據(jù)，當(dāng)數(shù)據(jù)中出現(xiàn)特征相同標(biāo)簽不同的數(shù)據(jù)時(shí)，不同的標(biāo)簽均應(yīng)當(dāng)

符合真實(shí)情況，不應(yīng)出現(xiàn)偽造的數(shù)據(jù)標(biāo)簽；

T/CESAXXXX—202X

i)應(yīng)對(duì)輸入數(shù)據(jù)進(jìn)行質(zhì)量檢測(cè)和過濾，防止數(shù)據(jù)投毒攻擊，包括臟標(biāo)簽投毒攻擊、干凈標(biāo)簽投毒

攻擊、數(shù)據(jù)后門投毒攻擊等。

5.7可溯源性要求

輸入數(shù)據(jù)的可溯源性符合以下要求：

a)異構(gòu)數(shù)據(jù)的來源應(yīng)當(dāng)明確，以支持根據(jù)數(shù)據(jù)追溯到該數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)提供方；

b)如異構(gòu)數(shù)據(jù)中包含數(shù)據(jù)標(biāo)簽，數(shù)據(jù)標(biāo)簽的來源應(yīng)當(dāng)明確，以支持根據(jù)數(shù)據(jù)標(biāo)簽追溯到對(duì)應(yīng)的標(biāo)

簽標(biāo)定方。

6輸出數(shù)據(jù)質(zhì)量要求

6.1準(zhǔn)確性要求

輸出數(shù)據(jù)的準(zhǔn)確率應(yīng)當(dāng)達(dá)到任務(wù)的預(yù)期精度，任務(wù)的預(yù)期準(zhǔn)確率由具體場(chǎng)景和任務(wù)而定。

6.2完整性要求

應(yīng)采取加密存儲(chǔ)、訪問控制等措施，保護(hù)輸出數(shù)據(jù)的模型的結(jié)構(gòu)和參數(shù)不被攻擊者非法篡改。

6.3可訪問性要求

人人文庫> 全部分類> 專業(yè)文獻(xiàn) > 工程機(jī)械

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

《面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求》

文檔簡介

溫馨提示

最新文檔

評(píng)論

《面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求》

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔