《針對內(nèi)容安全的人工智能數(shù)據(jù)標注指南》_第1頁
《針對內(nèi)容安全的人工智能數(shù)據(jù)標注指南》_第2頁
《針對內(nèi)容安全的人工智能數(shù)據(jù)標注指南》_第3頁
《針對內(nèi)容安全的人工智能數(shù)據(jù)標注指南》_第4頁
《針對內(nèi)容安全的人工智能數(shù)據(jù)標注指南》_第5頁
已閱讀5頁,還剩3頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

ICS35.240.20

L60

團體標準

T/ISC0005—2020

針對內(nèi)容安全的人工智能

數(shù)據(jù)標注指南

GuidelinesforAIdataannotationincontentsecurity

2020-09-24發(fā)布2020-12-01實施

中國互聯(lián)網(wǎng)協(xié)會發(fā)布

T/ISC0005—2020

針對內(nèi)容安全的人工智能數(shù)據(jù)標注指南

1范圍

本文件規(guī)定了針對內(nèi)容安全的人工智能數(shù)據(jù)標注主要過程,以及過程中的相關(guān)活動。

本文件適用于因業(yè)務(wù)需要使用人工智能技術(shù)進行內(nèi)容安全審核,提供第三方數(shù)據(jù)標注服務(wù),以及設(shè)

計開發(fā)數(shù)據(jù)標注服務(wù)平臺的組織等。

2規(guī)范性引用文件

下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,

僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本

文件。

GB/T35273-2020信息安全技術(shù)個人信息安全規(guī)范

GB/T37964-2019信息安全技術(shù)個人信息去標識化指南

3術(shù)語和定義

下列術(shù)語和定義適用于本文件。

3.1

數(shù)據(jù)標注dataannotation

對文本、圖像、語音、視頻、3D點云等原始數(shù)據(jù)進行歸類、整理、糾錯、轉(zhuǎn)錄、翻譯和添加標簽等

操作,以生成滿足機器學習訓練要求的、機器可識別的數(shù)據(jù)編碼。

3.2

標簽label

標識數(shù)據(jù)的特征、類別和屬性等,可用于建立數(shù)據(jù)及機器學習訓練要求所定義的機器可讀數(shù)據(jù)編碼

間的聯(lián)系。標簽是數(shù)據(jù)標注的結(jié)果,是機器學習訓練所需的輸入之一。

3.3

標注過程annotationprocess

按照數(shù)據(jù)標注規(guī)范對指定數(shù)據(jù)集進行標注的過程。

3.4

標注工具annotationtool

數(shù)據(jù)標注員完成標注任務(wù)產(chǎn)生標注結(jié)果時所需的工具和軟件。

1

T/ISC0005—2020

注1:標注工具可生成標簽并提供參考模板。

注2:不同的數(shù)據(jù)類型和標注任務(wù)需要不同的標注工具。標注工具按自動化程度可分為手動、半自動、自動三種。

3.5

標注平臺annotationplatform

開展標注任務(wù)的系統(tǒng)化框架。

注1:標注平臺在包含標注工具全部功能的基礎(chǔ)上將所有標注環(huán)節(jié)工具化,可有效地對標注任務(wù)進行全局管理和跟

蹤。

3.6

數(shù)據(jù)預(yù)處理datapreprocessing

為提升數(shù)據(jù)標注的效率、質(zhì)量、降低人力參與強度,對原始數(shù)據(jù)進行預(yù)先處理,其中包括:數(shù)據(jù)篩

選、數(shù)據(jù)切分、機器半自動預(yù)標等過程。

3.7

訓練樣本trainingsample

數(shù)據(jù)標注后提交給需求方做模型訓練樣本的數(shù)據(jù)。

3.8

數(shù)據(jù)標注員/團隊datalabeler/team

對文本、圖像、音頻、視頻、3D點云等原始數(shù)據(jù)進行歸類、整理、糾錯、轉(zhuǎn)錄、翻譯、編輯和添加

標簽等操作的工作人員或團隊。

4概述

本文件給出了針對內(nèi)容安全的人工智能數(shù)據(jù)標注的主要過程,其中包括:需求承接、標注準備、正

式標注、驗收交付、訓練模型、上線準備等。數(shù)據(jù)標注流程架構(gòu)見圖1:

圖1數(shù)據(jù)標注流程架構(gòu)

5需求承接

5.1需求接收

標注團隊與需求方應(yīng)明確標注規(guī)模、標注形式、標注方法、標簽標準、數(shù)據(jù)安全要求、標注復(fù)雜度、

標注數(shù)據(jù)格式、工期約定、準確率要求、數(shù)據(jù)交付格式、說明文檔以及培訓細節(jié)。

2

T/ISC0005—2020

5.2需求評估

標注團隊應(yīng)對承接的需求進行評估,形成評估結(jié)論。

評估結(jié)論應(yīng)包括現(xiàn)有資源能否承接該需求,需求實現(xiàn)路徑,以及評估新增需求對現(xiàn)有需求的影響范

圍,需求承接方案等內(nèi)容。

5.3需求確認

標注團隊應(yīng)與需求方協(xié)商一致,將最終確認的需求形成文檔并留存。

6標注準備

6.1數(shù)據(jù)獲取

標注團隊應(yīng)根據(jù)需求內(nèi)容,識別可獲取的標注數(shù)據(jù)源渠道,評估數(shù)據(jù)源渠道的可行性,確認完成標

注需求所需標注數(shù)據(jù)源構(gòu)成。

數(shù)據(jù)獲取過程中個人信息保護,應(yīng)滿足GB/T35273-2020。

數(shù)據(jù)去標識化處理的方法,應(yīng)滿足GB/T37964-2019。

6.2數(shù)據(jù)預(yù)處理

標注團隊應(yīng)根據(jù)標注需求以及標注數(shù)據(jù)的特性,通過數(shù)據(jù)聚類、組合排列、數(shù)據(jù)雜質(zhì)去除等方法,

提高標注數(shù)據(jù)的有效性、標注效率、標注質(zhì)量。數(shù)據(jù)預(yù)處理方法參見表1:

表1數(shù)據(jù)預(yù)處理方法

維度方法詳細內(nèi)容

數(shù)據(jù)去重MD5特征值去重,相似度去重

針對初步具備識別能力的模型,通過模型預(yù)

模型預(yù)處理

測結(jié)果進行篩選,進行樣本標注

通用數(shù)據(jù)預(yù)處理流程數(shù)據(jù)分類共性無效樣本分類識別

數(shù)據(jù)聚類基于相似度的聚類處理

針對初步具備識別能力的模型,通過模型標

主動學習

注,人工修正的方式,進行樣本標注

針對特殊業(yè)務(wù)形式,數(shù)據(jù)類型進行

專項數(shù)據(jù)預(yù)處理流程多模態(tài)技術(shù)疊加,多個數(shù)據(jù)預(yù)處理流程疊加

專項數(shù)據(jù)預(yù)處理流程研究

6.3操作規(guī)程

標注團隊應(yīng):

a)根據(jù)已確認的標注需求,形成標準化的操作規(guī)程;

b)確保執(zhí)行數(shù)據(jù)標注任務(wù)的相關(guān)人員了解操作規(guī)程。

6.4質(zhì)檢方案

標注團隊應(yīng):

a)制定質(zhì)檢方案,確保標注結(jié)果質(zhì)量。方案內(nèi)容包括但不限于:

——質(zhì)量責任人;

3

T/ISC0005—2020

——抽樣理論依據(jù),如置信度和誤差是否在可接受的范圍;

——抽樣方式,如隨機抽樣、分層抽樣等;

——抽樣量級,如確定整體抽樣量級、階段性抽樣量級等;

——抽樣頻次,如按時間周期抽樣、階段性抽樣等;

——反饋機制,如按時間周期反饋、階段性反饋等;

——指標/閾值的計算方法。

b)保留質(zhì)檢方案的相關(guān)成文信息。

6.5工具/平臺

標注團隊應(yīng)根據(jù)需求準備相應(yīng)的標注工具/平臺,如線下工具、平臺復(fù)用、平臺優(yōu)化、平臺新建等

方式。

標注工具/平臺應(yīng)具備以下能力,具備包括但不限于如下能力:

a)對文本、圖像、視頻、音頻、3D點云數(shù)據(jù)等各類數(shù)據(jù)進行標注;

b)權(quán)限管理,包括:創(chuàng)建賬號、授權(quán)管理、權(quán)限審批、角色配置;

c)人員管理,包括:角色配置、績效管理;

d)流程管理,可以根據(jù)標注需求進行流程調(diào)整;

e)版本管理,對標注內(nèi)容和結(jié)果進行版本管理和控制。

6.6人員能力

標注團隊應(yīng):

a)確定數(shù)據(jù)標注員和質(zhì)檢人員所需具備的能力,這些人員從事的工作影響標注的質(zhì)量和有效性;

b)基于適當?shù)慕逃?、培訓和?jīng)驗(知識庫),確保這些人員是勝任的;

c)跟蹤培訓的效果,并評價其有效性;

d)保留適當?shù)某晌男畔?,作為人員能力的證據(jù)。

6.7試標注

標注團隊應(yīng):

a)在正式標注前,小范圍抽取數(shù)據(jù)標注員進行試標注、質(zhì)檢團隊試質(zhì)檢,試運行標注的全過程;

b)對試標注的數(shù)據(jù)量的大小、百分比等因素進行限定;

c)保留試標注以及因試標注引起的對標注需求、標注操作規(guī)程、質(zhì)檢方案變更相關(guān)的成文信息。

6.8制定標注方案

標注團隊應(yīng)針對特定需求制定相應(yīng)的標注方案,包括但不限于:

a)資源規(guī)劃,如數(shù)據(jù)源、標注工具/平臺;

b)人力資源規(guī)劃;

c)項目進度規(guī)劃;

d)項目質(zhì)量規(guī)劃;

e)風險控制措施;

f)應(yīng)急預(yù)案等。

7標注

7.1實施標注

4

T/ISC0005—2020

按照已定標注方案,協(xié)調(diào)安排標注人員進行正式標注活動。其中包括:

a)數(shù)據(jù)導(dǎo)入;

b)任務(wù)安排;

c)人工標注。

7.2進度管理

標注團隊應(yīng)在標注過程中實時監(jiān)控、管理標注的實際進度,并根據(jù)實際進度分析、預(yù)警風險,制定

相應(yīng)方案。

7.3質(zhì)量控制

標注團隊應(yīng)按照已定的質(zhì)檢方案進行質(zhì)量控制。質(zhì)量控制方法包括但不限于如下方式,見表2:

表2質(zhì)量控制方法

質(zhì)量控制方法詳細描述

多人驗證多人做同一個子任務(wù),通過標注工具的功能自動或人工輔助選

擇出最優(yōu)、最正確的標注結(jié)果。

埋題驗證在任務(wù)進行期間,除了常規(guī)標注子任務(wù)外,在任務(wù)中混進若干

已知結(jié)果的測試題,以此驗證一線操作標注人員的標注水平。

標注人員狀態(tài)驗證通過一定方法對標注人員的操作規(guī)范性、實時注意力狀態(tài)、標

注準確率等方面進行檢查與監(jiān)測,及時發(fā)現(xiàn)操作違規(guī)問題,保

證數(shù)據(jù)質(zhì)量。

機器驗證在任務(wù)進行期間使用機器學習方法,得到數(shù)據(jù)準確率,一旦發(fā)

現(xiàn)離群點或明顯的降低趨勢,及時對標注人員預(yù)警和警告。

7.4交付、驗收

標注團隊應(yīng)按照事先確認的最終需求進行交付。

需求方應(yīng)按照要求進行驗收,如驗收數(shù)據(jù)質(zhì)量未達到預(yù)期,數(shù)據(jù)需求方可要求標注團隊對標注數(shù)據(jù)

進行修正。

雙方應(yīng)保留相關(guān)成文信息。

8模型訓練

8.1模型訓練

數(shù)據(jù)使用方通過運用人工標注結(jié)果數(shù)據(jù),利用卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等算法模型學習標注后

的數(shù)據(jù)特征,實現(xiàn)對目標樣本具有一定的預(yù)測能力。

8.2模型驗證

數(shù)據(jù)使用方應(yīng)對數(shù)據(jù)預(yù)測效果對模型能力進行分析評估,評價模型效果。

9上線運行

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論