版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
ICS35.240
CCSL70
團(tuán)體標(biāo)準(zhǔn)
T/CESAXXXX—202X
面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求
Dataqualityrequirementsforheterogeneouscomputing
(征求意見稿)
在提交反饋意見時(shí),請(qǐng)將您知道的相關(guān)專利連同支持性文件一并附上。
已授權(quán)的專利證明材料為專利證書復(fù)印件或扉頁,已公開但尚未授權(quán)的專利申請(qǐng)
證明材料為專利公開通知書復(fù)印件或扉頁,未公開的專利申請(qǐng)的證明材料為專利申請(qǐng)
號(hào)和申請(qǐng)日期。
202X-XX-XX發(fā)布202X-XX-XX實(shí)施
中國電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)發(fā)布
T/CESAXXXX—202X
面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求
1范圍
本文件規(guī)定了針對(duì)異構(gòu)智能計(jì)算訓(xùn)練場(chǎng)景的數(shù)據(jù)質(zhì)量的要求,包含智能計(jì)算訓(xùn)練過程的輸入數(shù)據(jù)質(zhì)
量要求和輸出數(shù)據(jù)質(zhì)量要求。
本文件適用于異構(gòu)智能計(jì)算訓(xùn)練場(chǎng)景中的數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)評(píng)估。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T35273信息安全技術(shù)個(gè)人信息安全規(guī)范
GB/T41867-2022信息技術(shù)人工智能術(shù)語
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
異構(gòu)計(jì)算heterogeneouscomputing
一種計(jì)算方式,它使用可由具有不同類型指令集和體系架構(gòu)的計(jì)算單元組成的獨(dú)立的或分布式系統(tǒng)
進(jìn)行計(jì)算。
注:常見的計(jì)算單元類別包括CPU、GPU、NPU、DSP等處理器以及ASIC、FPGA等芯片。
3.2
深度學(xué)習(xí)deeplearning
通過訓(xùn)練具有許多隱層的神經(jīng)網(wǎng)絡(luò)來創(chuàng)建豐富層次表示的方法。
注:深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子集
[來源:GB/T41867-2022,3.2.27]
3.3
異構(gòu)智能計(jì)算heterogeneousintelligentcomputing
一種面向深度學(xué)習(xí)任務(wù)的異構(gòu)計(jì)算范式,涉及到在不同類型指令集和體系架構(gòu)的計(jì)算單元上進(jìn)行深
度學(xué)習(xí)相關(guān)的計(jì)算任務(wù)。
3.4
原始數(shù)據(jù)rawdata
為訓(xùn)練所使用和存儲(chǔ)的未經(jīng)處理的數(shù)據(jù)。
1
T/CESAXXXX—202X
注:原始數(shù)據(jù)可以包括多種形式,例如視頻數(shù)據(jù)、圖像數(shù)據(jù)、音頻數(shù)據(jù)和文本數(shù)據(jù)以及它們的組合。
3.5
標(biāo)簽label
對(duì)于原始數(shù)據(jù)的一個(gè)或多個(gè)特性的具體描述,以指定模型的上下文,從而允許訓(xùn)練得到的模型做出
準(zhǔn)確的預(yù)測(cè)。
3.6
結(jié)構(gòu)化數(shù)據(jù)structureddata
行數(shù)據(jù),可以用二維表結(jié)構(gòu)來邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù)。
3.7
非結(jié)構(gòu)化數(shù)據(jù)unstructureddata
不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)。
注:常見的非結(jié)構(gòu)化數(shù)據(jù)包括文本、語音、圖片、圖像等。
3.8
輸入數(shù)據(jù)inputdata
指用于智能計(jì)算的訓(xùn)練過程的輸入數(shù)據(jù),通常為對(duì)于多源異構(gòu)數(shù)據(jù)經(jīng)過處理后的數(shù)據(jù)集。
3.9
輸出數(shù)據(jù)outputdata
指經(jīng)過智能計(jì)算的訓(xùn)練過程得到的模型。
3.10
數(shù)據(jù)集dataset
對(duì)原始數(shù)據(jù)進(jìn)行統(tǒng)一預(yù)處理的數(shù)據(jù)集合,每項(xiàng)數(shù)據(jù)可能還包括其對(duì)應(yīng)的標(biāo)簽。
3.11
模型model
經(jīng)過訓(xùn)練后得到的神經(jīng)網(wǎng)絡(luò)數(shù)據(jù),它包括網(wǎng)絡(luò)結(jié)構(gòu)和權(quán)重參數(shù),能夠?qū)τ陬A(yù)期任務(wù)進(jìn)行預(yù)測(cè)。
3.12
攻擊者attacker
試圖損害、破壞深度學(xué)習(xí)的訓(xùn)練過程或未經(jīng)授權(quán)訪問、篡改訓(xùn)練模型的個(gè)人或組織。
3.13
臟標(biāo)簽投毒攻擊dirtylabelpoisonattack
一種攻擊方式,攻擊者通過惡意篡改數(shù)據(jù)的標(biāo)簽并與干凈的數(shù)據(jù)混為一體進(jìn)行訓(xùn)練來達(dá)到攻擊的目
的。
3.14
干凈標(biāo)簽投毒攻擊cleanlabelpoisonattack
2
T/CESAXXXX—202X
一種攻擊方式,攻擊者通過精心設(shè)計(jì)惡意數(shù)據(jù)并添加到訓(xùn)練數(shù)據(jù)中來達(dá)到攻擊的目的。
3.15
數(shù)據(jù)后門投毒攻擊databackdoorpoisonattack
一種攻擊方式,攻擊者修改原始訓(xùn)練數(shù)據(jù)集的單個(gè)特征或小區(qū)域,然后將其作為后門嵌入模型中來
達(dá)到攻擊目的。
3.16
對(duì)抗樣本攻擊adversarialexampleattack
一種攻擊方式,攻擊者在原始樣本中添加肉眼不可見或在經(jīng)處理不影響整體的肉眼可見的細(xì)微擾
動(dòng),致使訓(xùn)練好的模型以高置信度給出與原樣本不同的分類輸出。
4數(shù)據(jù)質(zhì)量概述
多源異構(gòu)智能計(jì)算場(chǎng)景下,訓(xùn)練過程的數(shù)據(jù)主要分為輸入數(shù)據(jù)和輸出數(shù)據(jù)。數(shù)據(jù)質(zhì)量應(yīng)符合表1要
求。
表1面向異構(gòu)計(jì)算的數(shù)據(jù)質(zhì)量要求
數(shù)據(jù)階段質(zhì)量要求
1)準(zhǔn)確性要求
2)完整性要求
3)一致性要求
輸入數(shù)據(jù)4)可訪問性要求
5)隱私性要求
6)安全性要求
7)可溯源性要求
1)準(zhǔn)確性要求
2)完整性要求
3)可訪問性要求
輸出數(shù)據(jù)
4)隱私性要求
5)安全性要求
6)可溯源性要求
5輸入數(shù)據(jù)質(zhì)量要求
5.1準(zhǔn)確性要求
輸入數(shù)據(jù)的準(zhǔn)確性符合以下要求:
a)對(duì)于描述客觀真實(shí)世界或信息的場(chǎng)景,數(shù)據(jù)應(yīng)是來自真實(shí)世界的異構(gòu)數(shù)據(jù)或基于真實(shí)世界的異
構(gòu)數(shù)據(jù)采用數(shù)據(jù)增強(qiáng)等技術(shù)生成的異構(gòu)數(shù)據(jù);
b)對(duì)于結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)中的數(shù)據(jù)值應(yīng)處于預(yù)期的區(qū)間內(nèi);
c)對(duì)于非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)中存在的噪聲不應(yīng)對(duì)數(shù)據(jù)的分布產(chǎn)生偏移的影響;
3
T/CESAXXXX—202X
d)若每項(xiàng)數(shù)據(jù)存在對(duì)應(yīng)的標(biāo)簽,標(biāo)簽的準(zhǔn)確度應(yīng)該大于99.9%;
e)數(shù)據(jù)中應(yīng)避免包含重復(fù)的數(shù)據(jù)元素。
5.2完整性要求
輸入數(shù)據(jù)的完整性符合以下要求:
a)對(duì)于結(jié)構(gòu)化數(shù)據(jù),針對(duì)具體訓(xùn)練任務(wù)需要的數(shù)據(jù)項(xiàng)應(yīng)完整;
b)針對(duì)具體訓(xùn)練任務(wù),若每項(xiàng)數(shù)據(jù)存在標(biāo)簽,標(biāo)簽應(yīng)完整。
5.3一致性要求
輸入數(shù)據(jù)的一致性符合以下要求:
a)對(duì)于結(jié)構(gòu)化數(shù)據(jù),不同數(shù)據(jù)元素中相同數(shù)據(jù)項(xiàng)的數(shù)據(jù)格式應(yīng)當(dāng)一致;
b)對(duì)于非結(jié)構(gòu)化數(shù)據(jù),同類數(shù)據(jù)中的數(shù)據(jù)格式應(yīng)當(dāng)一致。
5.4可訪問性要求
輸入數(shù)據(jù)的可訪問性符合以下要求:
a)輸入數(shù)據(jù)應(yīng)當(dāng)能夠被預(yù)期用戶所訪問;
b)輸入數(shù)據(jù)應(yīng)當(dāng)能夠被預(yù)期設(shè)備所訪問。
5.5隱私性要求
輸入數(shù)據(jù)的隱私性符合以下要求:
a)對(duì)于結(jié)構(gòu)化數(shù)據(jù),輸入數(shù)據(jù)不應(yīng)包含確切能推斷出具體用戶身份的內(nèi)容,包括但不限于姓名、
身份證號(hào)、手機(jī)號(hào)、卡號(hào)、客戶號(hào)信息等;
b)對(duì)于非結(jié)構(gòu)化數(shù)據(jù),對(duì)于具體訓(xùn)練任務(wù)和法律法規(guī)明確要求進(jìn)行保護(hù)的內(nèi)容,輸入數(shù)據(jù)不應(yīng)直
接包含這些內(nèi)容,應(yīng)采用包括但不限于加密、數(shù)據(jù)脫敏等隱私技術(shù)對(duì)于這些內(nèi)容進(jìn)行保護(hù);
c)對(duì)于模態(tài)異構(gòu)的數(shù)據(jù),不應(yīng)包含可通過不同模態(tài)間數(shù)據(jù)組合的方式推斷出具體用戶身份的內(nèi)容
或其它對(duì)于具體訓(xùn)練任務(wù)明確要求進(jìn)行保護(hù)的內(nèi)容。
5.6安全性要求
輸入數(shù)據(jù)的安全性符合以下要求:
a)輸入數(shù)據(jù)的使用過程應(yīng)確保合規(guī),即對(duì)于異構(gòu)數(shù)據(jù)的采集、使用和傳輸應(yīng)符合相關(guān)法律法規(guī)的
要求,涉及個(gè)人信息應(yīng)遵守GB/T35273的要求;
b)應(yīng)根據(jù)安全策略,采取口令、權(quán)限管理等技術(shù)措施,對(duì)輸入數(shù)據(jù)進(jìn)行安全保護(hù);
c)輸入數(shù)據(jù)的內(nèi)容應(yīng)確保合規(guī),即異構(gòu)數(shù)據(jù)中不應(yīng)包含非法、惡意的數(shù)據(jù)內(nèi)容;
d)對(duì)于獨(dú)立同分布的輸入數(shù)據(jù),數(shù)據(jù)之間不應(yīng)出現(xiàn)特征分布偏移的情況;
e)對(duì)于非獨(dú)立同分布的輸入數(shù)據(jù),當(dāng)數(shù)據(jù)之間存在特征分布的偏移時(shí),不同的特征分布均應(yīng)符合
真實(shí)情況,不應(yīng)出現(xiàn)偽造的數(shù)據(jù)特征分布;
f)對(duì)于非獨(dú)立同分布的輸入數(shù)據(jù),當(dāng)數(shù)據(jù)之間存在標(biāo)簽分布的偏移時(shí),不同的標(biāo)簽分布均應(yīng)符合
真實(shí)情況,不應(yīng)出現(xiàn)偽造的數(shù)據(jù)標(biāo)簽分布;
g)對(duì)于非獨(dú)立同分布的輸入數(shù)據(jù),當(dāng)數(shù)據(jù)中出現(xiàn)標(biāo)簽相同特征不同的數(shù)據(jù)時(shí),不同的特征均應(yīng)符
合真實(shí)情況,不應(yīng)出現(xiàn)偽造的數(shù)據(jù)特征;
h)對(duì)于非獨(dú)立同分布的輸入數(shù)據(jù),當(dāng)數(shù)據(jù)中出現(xiàn)特征相同標(biāo)簽不同的數(shù)據(jù)時(shí),不同的標(biāo)簽均應(yīng)當(dāng)
符合真實(shí)情況,不應(yīng)出現(xiàn)偽造的數(shù)據(jù)標(biāo)簽;
4
T/CESAXXXX—202X
i)應(yīng)對(duì)輸入數(shù)據(jù)進(jìn)行質(zhì)量檢測(cè)和過濾,防止數(shù)據(jù)投毒攻擊,包括臟標(biāo)簽投毒攻擊、干凈標(biāo)簽投毒
攻擊、數(shù)據(jù)后門投毒攻擊等。
5.7可溯源性要求
輸入數(shù)據(jù)的可溯源性符合以下要求:
a)異構(gòu)數(shù)據(jù)的來源應(yīng)當(dāng)明確,以支持根據(jù)數(shù)據(jù)追溯到該數(shù)據(jù)對(duì)應(yīng)的數(shù)據(jù)提供方;
b)如異構(gòu)數(shù)據(jù)中包含數(shù)據(jù)標(biāo)簽,數(shù)據(jù)標(biāo)簽的來源應(yīng)當(dāng)明確,以支持根據(jù)數(shù)據(jù)標(biāo)簽追溯到對(duì)應(yīng)的標(biāo)
簽標(biāo)定方。
6輸出數(shù)據(jù)質(zhì)量要求
6.1準(zhǔn)確性要求
輸出數(shù)據(jù)的準(zhǔn)確率應(yīng)當(dāng)達(dá)到任務(wù)的預(yù)期精度,任務(wù)的預(yù)期準(zhǔn)確率由具體場(chǎng)景和任務(wù)而定。
6.2完整性要求
應(yīng)采取加密存儲(chǔ)、訪問控制等措施,保護(hù)輸出數(shù)據(jù)的模型的結(jié)構(gòu)和參數(shù)不被攻擊者非法篡改。
6.3可訪問性要求
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 小學(xué)學(xué)校章程
- 肇慶醫(yī)學(xué)高等??茖W(xué)?!豆沤y(cè)繪與制圖》2023-2024學(xué)年第一學(xué)期期末試卷
- 區(qū)塊鏈技術(shù)應(yīng)用前景定量分析報(bào)告
- 財(cái)稅規(guī)劃報(bào)告模板
- DB2201T 66.5-2024 肉牛牛舍建設(shè)規(guī)范 第5部分:育肥牛
- 專業(yè)案例(動(dòng)力專業(yè))-專業(yè)案例(動(dòng)力專業(yè))押題密卷2
- 二零二五年酒店客房租賃及場(chǎng)地使用規(guī)則協(xié)議3篇
- 陽泉師范高等??茖W(xué)校《工程測(cè)量綜合實(shí)訓(xùn)》2023-2024學(xué)年第一學(xué)期期末試卷
- 二零二五版房地產(chǎn)項(xiàng)目整合營銷策劃合同3篇
- 二零二五年快餐連鎖餐飲外包合作協(xié)議書2篇
- 菏澤2024年山東菏澤市中心血站招聘15人筆試歷年典型考點(diǎn)(頻考版試卷)附帶答案詳解版
- 供熱通風(fēng)與空調(diào)工程施工企業(yè)生產(chǎn)安全事故隱患排查治理體系實(shí)施指南
- 精-品解析:廣東省深圳市羅湖區(qū)2023-2024學(xué)年高一上學(xué)期期末考試化學(xué)試題(解析版)
- 記賬實(shí)操-基金管理公司的會(huì)計(jì)處理分錄示例
- 中國慢性便秘診治指南
- 沐足行業(yè)嚴(yán)禁黃賭毒承諾書
- 2025年蛇年紅色喜慶中國風(fēng)春節(jié)傳統(tǒng)節(jié)日介紹
- 河北省承德市2023-2024學(xué)年高一上學(xué)期期末物理試卷(含答案)
- 山西省2024年中考物理試題(含答案)
- 危險(xiǎn)化學(xué)品目錄2023
- FZ/T 81024-2022機(jī)織披風(fēng)
評(píng)論
0/150
提交評(píng)論