




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
ICS35.240在提交反饋意見(jiàn)時(shí),請(qǐng)將您知道的相關(guān)專(zhuān)利連同
L70支持性文件一并附上
團(tuán)體標(biāo)準(zhǔn)
T/CESAXXXX—XXXX
信息技術(shù)人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)
標(biāo)注規(guī)程
Informationtechnology-Artificialintelligence-Guidelineofdataannotationfor
machinelearning
(征求意見(jiàn)稿)
XXXX-XX-XX發(fā)布XXXX-XX-XX實(shí)施
中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)發(fā)布
T/XXXXXXXX—XXXX
前??言
本部分按照GB/T1.1—2009給出的規(guī)則起草。
請(qǐng)注意本文件的某些內(nèi)容可能涉及專(zhuān)利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別這些專(zhuān)利的責(zé)任。
本標(biāo)準(zhǔn)由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院提出并歸口。
本標(biāo)準(zhǔn)起草單位:
本標(biāo)準(zhǔn)主要起草人:
III
T/XXXXXXXX—XXXX
信息技術(shù)人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程
1范圍
本標(biāo)準(zhǔn)給出了面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注流程框架,包括數(shù)據(jù)標(biāo)注前期準(zhǔn)備、數(shù)據(jù)標(biāo)注任務(wù)執(zhí)行以及
標(biāo)注數(shù)據(jù)結(jié)果輸出三個(gè)階段。
本標(biāo)準(zhǔn)適用于面向人工智能研究或開(kāi)發(fā)應(yīng)用等需要實(shí)施數(shù)據(jù)標(biāo)注的企業(yè)、高校、科研院所、政府機(jī)
構(gòu)等。
2規(guī)范性引用文件
下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
3術(shù)語(yǔ)和定義
下列術(shù)語(yǔ)和定義適用于本文件。
3.1
數(shù)據(jù)標(biāo)注dataannotation
對(duì)文本、圖像、語(yǔ)音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類(lèi)、整理、編輯、糾錯(cuò)、標(biāo)記和批注等操作,為待
標(biāo)注數(shù)據(jù)增加標(biāo)簽,生成滿足機(jī)器學(xué)習(xí)訓(xùn)練要求的機(jī)器可讀數(shù)據(jù)編碼。
3.2
標(biāo)簽label
標(biāo)識(shí)數(shù)據(jù)的特征、類(lèi)別和屬性等,可用于建立數(shù)據(jù)及機(jī)器學(xué)習(xí)訓(xùn)練要求所定義的機(jī)器可讀數(shù)據(jù)編碼
間的聯(lián)系。
3.3
標(biāo)注任務(wù)annotationtask
按照數(shù)據(jù)標(biāo)注規(guī)范對(duì)指定數(shù)據(jù)集進(jìn)行標(biāo)注的過(guò)程。
3.4
數(shù)據(jù)標(biāo)注員datalabeler
負(fù)責(zé)對(duì)文本、圖像、語(yǔ)音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類(lèi)、整理、編輯、糾錯(cuò)、標(biāo)記和批注等操作的
工作人員。
1
T/XXXXXXXX—XXXX
3.5
標(biāo)注工具annotationtool
數(shù)據(jù)標(biāo)注員完成標(biāo)注任務(wù)產(chǎn)生標(biāo)注結(jié)果時(shí)所需的工具和軟件。
注1:標(biāo)注工具可生成標(biāo)簽并提供參考模板。
注2:不同的數(shù)據(jù)類(lèi)型和標(biāo)注任務(wù)需要不同的標(biāo)注工具。標(biāo)注工具按自動(dòng)化程度可分為手動(dòng)、半自動(dòng)、自動(dòng)三種。
3.6
標(biāo)注平臺(tái)annotationplatform
開(kāi)展標(biāo)注任務(wù)的系統(tǒng)化框架。
注:標(biāo)注平臺(tái)在包含標(biāo)注工具全部功能的基礎(chǔ)上將所有標(biāo)注環(huán)節(jié)工具化,可有效地對(duì)標(biāo)注任務(wù)進(jìn)行全局管理和跟
蹤。
3.7
標(biāo)注說(shuō)明規(guī)則annotationinstruction
數(shù)據(jù)需求方用于明確標(biāo)注任務(wù)和標(biāo)注數(shù)據(jù)的書(shū)面陳述,包含執(zhí)行標(biāo)注任務(wù)所需的標(biāo)注工具、任務(wù)描
述、標(biāo)注方法、正確示例、常見(jiàn)錯(cuò)誤等內(nèi)容。
3.8
標(biāo)注方法annotationmethod
定義數(shù)據(jù)標(biāo)注員進(jìn)行數(shù)據(jù)標(biāo)注時(shí)的環(huán)境和流程,應(yīng)包含標(biāo)注對(duì)象定義、所用標(biāo)注工具和標(biāo)注平臺(tái)、
標(biāo)注格式、標(biāo)注前的準(zhǔn)備工作、標(biāo)注后的處理工作等。
3.9
眾包標(biāo)注crowdsourcingannotation
數(shù)據(jù)需求方公開(kāi)發(fā)布標(biāo)注任務(wù),數(shù)據(jù)標(biāo)注員申領(lǐng)標(biāo)注任務(wù)并在規(guī)定時(shí)間內(nèi)完成標(biāo)注任務(wù)發(fā)回?cái)?shù)據(jù)數(shù)
據(jù)需求方,數(shù)據(jù)需求方收集整理后獲得用于機(jī)器學(xué)習(xí)訓(xùn)練的標(biāo)注數(shù)據(jù)集的數(shù)據(jù)標(biāo)注過(guò)程。
3.10
半自動(dòng)標(biāo)注semi-automaticannotation
使用人工結(jié)合自動(dòng)化工具的方式進(jìn)行數(shù)據(jù)標(biāo)注。
4概述
本標(biāo)準(zhǔn)給出了數(shù)據(jù)標(biāo)注的流程框架,它包括標(biāo)注項(xiàng)目的前期準(zhǔn)備工作(包括對(duì)于所需數(shù)據(jù)的定義、
標(biāo)注規(guī)則的制定、標(biāo)注人力的確定);標(biāo)注任務(wù)的創(chuàng)建、分發(fā),開(kāi)展、回收和標(biāo)注結(jié)果的質(zhì)檢和質(zhì)量控
制;標(biāo)注結(jié)果輸出的建議格式和交付。數(shù)據(jù)標(biāo)注流程框架見(jiàn)圖1:
a)定義所需數(shù)據(jù);
b)確定標(biāo)注說(shuō)明規(guī)則;
c)確定標(biāo)注人力的供給方式;
2
T/XXXXXXXX—XXXX
d)標(biāo)注工具和平臺(tái)的選擇;
e)標(biāo)注任務(wù)的創(chuàng)建、分發(fā)、開(kāi)展和回收;
f)標(biāo)注結(jié)果的質(zhì)檢和質(zhì)量控制;
g)標(biāo)注結(jié)果的輸出格式建議;
h)標(biāo)注數(shù)據(jù)的交付和驗(yàn)收。
圖1數(shù)據(jù)標(biāo)注流程框架
5數(shù)據(jù)標(biāo)注流程
5.1定義所需數(shù)據(jù)和預(yù)估數(shù)據(jù)量
數(shù)據(jù)標(biāo)注前應(yīng)完成以下五項(xiàng)準(zhǔn)備工作:
a)對(duì)解決的問(wèn)題進(jìn)行分析,明確機(jī)器學(xué)習(xí)和模型訓(xùn)練過(guò)程中所需的標(biāo)注數(shù)據(jù)類(lèi)型、量級(jí)、用途及
應(yīng)用場(chǎng)景。分析維度包括:業(yè)務(wù)場(chǎng)景的針對(duì)性、標(biāo)注樣本的平衡性、前期經(jīng)驗(yàn)及改進(jìn)措施的借
鑒等;
b)對(duì)數(shù)據(jù)進(jìn)行整理,明確數(shù)據(jù)與標(biāo)簽文件存放目錄結(jié)構(gòu),在任務(wù)分配與回收的時(shí)候應(yīng)按指定的目
錄進(jìn)行數(shù)據(jù)組織;
c)明確數(shù)據(jù)與標(biāo)簽文件的命名規(guī)則,命名規(guī)則應(yīng)避免數(shù)據(jù)更新迭代時(shí)的重名,便于數(shù)據(jù)追蹤、標(biāo)
注追蹤,數(shù)據(jù)文件名與標(biāo)簽文件名應(yīng)保持一致;
d)根據(jù)標(biāo)注任務(wù)的人力獲取模式、工具的選擇、標(biāo)注任務(wù)的類(lèi)型、算法選擇以及整個(gè)項(xiàng)目的成本
對(duì)所需標(biāo)注數(shù)據(jù)量進(jìn)行預(yù)估;
e)與標(biāo)注人員溝通,明確標(biāo)注數(shù)據(jù)的定義并確定最終的需求量。
5.2確定標(biāo)注說(shuō)明規(guī)則
5.2.1標(biāo)注說(shuō)明規(guī)則的職責(zé)分工
3
T/XXXXXXXX—XXXX
數(shù)據(jù)需求方即業(yè)務(wù)數(shù)據(jù)需求方,指需要利用人工智能技術(shù)解決實(shí)際業(yè)務(wù)問(wèn)題的業(yè)務(wù)團(tuán)隊(duì)。數(shù)據(jù)需求
方應(yīng)負(fù)責(zé)確保數(shù)據(jù)標(biāo)注的規(guī)則符合該領(lǐng)域的業(yè)務(wù)和專(zhuān)業(yè)常識(shí),并根據(jù)標(biāo)注規(guī)則,檢查所標(biāo)注的數(shù)據(jù)是否
滿足數(shù)據(jù)需求方。
數(shù)據(jù)使用方指需要使用標(biāo)注數(shù)據(jù)訓(xùn)練人工智能模型的研發(fā)團(tuán)隊(duì)。數(shù)據(jù)使用方應(yīng)從機(jī)器學(xué)習(xí)算法角
度,確保標(biāo)注規(guī)則可滿足機(jī)器學(xué)習(xí)模型的訓(xùn)練要求,并根據(jù)該標(biāo)注規(guī)則,檢查標(biāo)注的數(shù)據(jù)支撐機(jī)器學(xué)習(xí)
模型達(dá)到數(shù)據(jù)需求方期望的精度。
數(shù)據(jù)需求方、數(shù)據(jù)使用方及數(shù)據(jù)標(biāo)注團(tuán)隊(duì)?wèi)?yīng)共同參與標(biāo)注說(shuō)明規(guī)則的制定、調(diào)整、迭代、執(zhí)行的各
個(gè)環(huán)節(jié)。數(shù)據(jù)標(biāo)注團(tuán)隊(duì)?wèi)?yīng)從實(shí)際標(biāo)注角度出發(fā),確保標(biāo)注規(guī)則清晰、明確,以避免數(shù)據(jù)標(biāo)注員理解偏差,
進(jìn)而導(dǎo)致標(biāo)注結(jié)果不符合預(yù)期。
5.2.2標(biāo)注說(shuō)明規(guī)則的定義
標(biāo)注說(shuō)明規(guī)則應(yīng)明確項(xiàng)目的背景、意義及數(shù)據(jù)的應(yīng)用場(chǎng)景,且包含項(xiàng)目的標(biāo)注工具、任務(wù)描述、標(biāo)
注方法、正確示例、常見(jiàn)錯(cuò)誤等內(nèi)容。
標(biāo)注說(shuō)明規(guī)則應(yīng)有可變更性,該變更應(yīng)由相關(guān)方評(píng)審?fù)夂螅俑乱?guī)則文檔,且相關(guān)方應(yīng)沿用制
定規(guī)則時(shí)的基本原則及方法。
5.2.3標(biāo)注說(shuō)明規(guī)則的內(nèi)容
標(biāo)準(zhǔn)說(shuō)明規(guī)則包括但不限于:
a)項(xiàng)目背景:概述標(biāo)注項(xiàng)目的背景或數(shù)據(jù)標(biāo)注需求產(chǎn)生的場(chǎng)景;
b)版本信息:標(biāo)注該說(shuō)明的當(dāng)前版本編號(hào)、發(fā)布日期、發(fā)布人、發(fā)布備注(發(fā)布原因或迭代原因)
及歷史迭代信息(歷代版本編號(hào)、發(fā)布日期、發(fā)布人、發(fā)布備注等);
c)任務(wù)描述:概括標(biāo)注項(xiàng)目的主要任務(wù),包括標(biāo)注項(xiàng)目的關(guān)鍵信息、數(shù)據(jù)形式、標(biāo)注平臺(tái)、主要
標(biāo)注方法、期望交付時(shí)間、正確率要求等;
d)保密責(zé)任:對(duì)于數(shù)據(jù)的密級(jí)程度,數(shù)據(jù)需求方須在規(guī)則中列明,明確保密責(zé)任,標(biāo)注方對(duì)當(dāng)前
承擔(dān)的數(shù)據(jù)標(biāo)注任務(wù)承擔(dān)保密職責(zé)(例如雷達(dá)數(shù)據(jù)標(biāo)注等任務(wù)需要);
e)標(biāo)注方法:給出數(shù)據(jù)需求方所需數(shù)據(jù)對(duì)象的嚴(yán)謹(jǐn)定義,明確在協(xié)定的標(biāo)注平臺(tái)上使用何種標(biāo)注
組件、標(biāo)簽及全部操作。標(biāo)注方法的衡量標(biāo)準(zhǔn),以標(biāo)注人員掌握標(biāo)注方法后,能立刻正確操作
一次標(biāo)注;
f)正確示例:通過(guò)圖片、圖文、視頻等的形式,示范正確的標(biāo)注方法或成果,數(shù)據(jù)需求方應(yīng)明確
數(shù)據(jù)產(chǎn)出,標(biāo)注方應(yīng)明確標(biāo)注認(rèn)識(shí),標(biāo)注樣例應(yīng)覆蓋特殊樣本的標(biāo)注示例;
g)注意事項(xiàng):標(biāo)注方的錯(cuò)誤預(yù)警有警示作用,規(guī)則制定者在注意事項(xiàng)中,列出標(biāo)注方應(yīng)避免的錯(cuò)
誤、標(biāo)注方法中應(yīng)注意的細(xì)節(jié)及額外處理方式等;
h)質(zhì)量要求:數(shù)據(jù)標(biāo)注規(guī)則應(yīng)對(duì)項(xiàng)目的預(yù)期質(zhì)量有合理的定量預(yù)估。審核質(zhì)檢應(yīng)遵循質(zhì)量要求。
5.2.4執(zhí)行方法及注意事項(xiàng)
數(shù)據(jù)標(biāo)注員應(yīng)學(xué)習(xí)規(guī)則文檔,執(zhí)行培訓(xùn)以保證每個(gè)標(biāo)注人員理解標(biāo)注說(shuō)明規(guī)則和滿足技能要求。
數(shù)據(jù)需求方宜要求標(biāo)注方檢驗(yàn)標(biāo)注培訓(xùn)的效果,在標(biāo)注之前及時(shí)發(fā)現(xiàn)問(wèn)題,并把問(wèn)題及應(yīng)對(duì)措施,
整理歸檔。數(shù)據(jù)需求方宜要求標(biāo)注方對(duì)含特殊樣例的小樣本數(shù)據(jù)集進(jìn)行預(yù)標(biāo)注,并對(duì)標(biāo)注結(jié)果進(jìn)行審核。
標(biāo)注方滿足審核標(biāo)準(zhǔn)后,數(shù)據(jù)需求方再正式向其分發(fā)標(biāo)注任務(wù)。
標(biāo)注方按照給定規(guī)則標(biāo)注時(shí)發(fā)現(xiàn)存疑數(shù)據(jù),應(yīng)及時(shí)記錄。數(shù)據(jù)需求方應(yīng)明確此類(lèi)數(shù)據(jù)的記錄規(guī)則、
保存路徑及后續(xù)處理方法等。采用多人標(biāo)注或定期集中反饋等方法,處理問(wèn)題數(shù)據(jù)。
標(biāo)注說(shuō)明規(guī)則的細(xì)則應(yīng)有可調(diào)整性,對(duì)調(diào)整后的規(guī)則細(xì)則,應(yīng)保證參與者及標(biāo)注方充分理解。發(fā)現(xiàn)
規(guī)則未涵蓋的情況或?qū)嵗龝r(shí),標(biāo)注方應(yīng)及時(shí)向數(shù)據(jù)需求方反饋、溝通和處理。
4
T/XXXXXXXX—XXXX
5.2.5標(biāo)注說(shuō)明中術(shù)語(yǔ)體系的規(guī)范化
術(shù)語(yǔ)體系的規(guī)范化至少應(yīng)滿足:
a)應(yīng)遵從國(guó)家法規(guī)和行業(yè)規(guī)范;
b)應(yīng)建立統(tǒng)一的標(biāo)注術(shù)語(yǔ)字典,確保數(shù)據(jù)標(biāo)注人員對(duì)術(shù)語(yǔ)定義的理解一致;
c)在學(xué)習(xí)標(biāo)注說(shuō)明規(guī)則及進(jìn)行相應(yīng)的培訓(xùn)后,數(shù)據(jù)標(biāo)注人員能夠規(guī)范地使用標(biāo)注術(shù)語(yǔ)完成任務(wù);
d)應(yīng)被標(biāo)注項(xiàng)目的相關(guān)方認(rèn)可。
5.3確定標(biāo)注人力供給方式
應(yīng)根據(jù)標(biāo)注任務(wù)的數(shù)據(jù)量級(jí)、保密性與資質(zhì)要求、對(duì)業(yè)務(wù)流程的理解程度、成本預(yù)算以及交付時(shí)間
等各類(lèi)因素評(píng)價(jià)并確認(rèn)標(biāo)注人力供給方式。標(biāo)注人力模式可包括:內(nèi)部自營(yíng)標(biāo)注、第三方標(biāo)注、眾包標(biāo)
注等。標(biāo)注人力模式的特點(diǎn)見(jiàn)表1。
表1標(biāo)注人力模式
類(lèi)型適合任務(wù)(并列表示“和/或”)特點(diǎn)
內(nèi)部自營(yíng)標(biāo)注人(1)符合業(yè)務(wù)流程需求;
要求熟悉業(yè)務(wù)流程并及時(shí)溝通反饋的標(biāo)注任務(wù)
力(2)溝通協(xié)調(diào)效率高
(1)對(duì)業(yè)務(wù)流程理解要求低的標(biāo)注任務(wù);(1)項(xiàng)目管理成本低;
第三方標(biāo)注人力(2)內(nèi)部自營(yíng)標(biāo)注人力不擅長(zhǎng)的標(biāo)注任務(wù);(2)可作為其他標(biāo)注人力的補(bǔ)充或作為有
(3)有專(zhuān)業(yè)資質(zhì)要求的標(biāo)注任務(wù)。資質(zhì)的審查人員參與質(zhì)量控制和檢查環(huán)節(jié)。
(1)時(shí)間緊迫且標(biāo)注數(shù)據(jù)量大的標(biāo)注任務(wù);
(1)成本低,速度快,標(biāo)注質(zhì)量參差不齊;
眾包標(biāo)注人力(2)需從大量用戶或場(chǎng)景中采集或標(biāo)注的任務(wù);
(2)難以滿足保密性及專(zhuān)業(yè)資質(zhì)要求。
(3)保密和隱私要求低的標(biāo)注任務(wù)。
5.4標(biāo)注工具和標(biāo)注平臺(tái)的選擇
標(biāo)注工具應(yīng)滿足以下條件:
a)易操作性:標(biāo)注工具應(yīng)降低標(biāo)注人員的操作難度,提供交互方式的自有標(biāo)注;
b)輸出數(shù)據(jù)的規(guī)范性:標(biāo)注工具的數(shù)據(jù)導(dǎo)出格式,應(yīng)滿足或可轉(zhuǎn)換到本標(biāo)準(zhǔn)指定的格式要求;
c)高效性:標(biāo)注工具應(yīng)保證標(biāo)注任務(wù)的完成效率。
標(biāo)注平臺(tái)包含標(biāo)注工具全部功能、團(tuán)隊(duì)管理、任務(wù)分發(fā)、質(zhì)量審核等環(huán)節(jié)的模塊,且將所有標(biāo)注環(huán)
節(jié)工具化。規(guī)模較大的平臺(tái)可完成圖像、文本、語(yǔ)音或視頻等不同任務(wù)的標(biāo)注。對(duì)保密數(shù)據(jù),標(biāo)注平臺(tái)
要保證標(biāo)注數(shù)據(jù)的安全性。
當(dāng)數(shù)據(jù)量相對(duì)較小、數(shù)據(jù)類(lèi)型相對(duì)單一、標(biāo)注周期較短時(shí),宜選擇標(biāo)注工具進(jìn)行標(biāo)注。當(dāng)標(biāo)注量較
大、數(shù)據(jù)類(lèi)型較多、標(biāo)注難度較大且周期較長(zhǎng)時(shí),宜選擇標(biāo)注平臺(tái)進(jìn)行標(biāo)注。
在醫(yī)學(xué)、金融和其它關(guān)鍵領(lǐng)域,標(biāo)注工具或平臺(tái)應(yīng)滿足相關(guān)法規(guī)要求,具備資質(zhì)/資格證書(shū)、許可
證等。如:當(dāng)涉及醫(yī)學(xué)倫理標(biāo)注時(shí),標(biāo)注工具或平臺(tái)的使用應(yīng)通過(guò)相應(yīng)機(jī)構(gòu)的倫理委員會(huì)的論證流程。
5.5標(biāo)注任務(wù)的創(chuàng)建、分發(fā)、開(kāi)展和回收
5.5.1標(biāo)注任務(wù)的創(chuàng)建
5
T/XXXXXXXX—XXXX
創(chuàng)建標(biāo)注任務(wù)前,將待標(biāo)注數(shù)據(jù)上傳。上傳的導(dǎo)入方式有兩種:本地上傳(適用于數(shù)據(jù)在本地設(shè)備
上,包括電腦、U盤(pán)、移動(dòng)設(shè)備等);云端上傳(適用于數(shù)據(jù)在云端,包括公有云和私有云)。當(dāng)待標(biāo)注
數(shù)據(jù)量較大時(shí),采用云端上傳數(shù)據(jù)。
標(biāo)注數(shù)據(jù)上傳成功后,當(dāng)僅靠標(biāo)注工具完成標(biāo)注時(shí),在創(chuàng)建任務(wù)的過(guò)程中,任務(wù)責(zé)任人要事先明確
標(biāo)注任務(wù)的目的以及標(biāo)注規(guī)范等。當(dāng)使用標(biāo)注平臺(tái)進(jìn)行標(biāo)注時(shí),可根據(jù)上傳的不同類(lèi)型的數(shù)據(jù),劃分不
同任務(wù)模塊,再進(jìn)行相關(guān)任務(wù)的創(chuàng)建。
創(chuàng)建任務(wù)包括:
a)明確任務(wù)基本信息:包含任務(wù)目的、任務(wù)需求(任務(wù)的優(yōu)先級(jí),對(duì)標(biāo)注人員能力要求的級(jí)別等)、
任務(wù)描述等;
b)任務(wù)配置:根據(jù)不同的任務(wù)需求,匹配不同的標(biāo)注工具,添加與標(biāo)注任務(wù)相關(guān)的標(biāo)注標(biāo)簽;
c)將數(shù)據(jù)路徑上傳至平臺(tái);
d)通過(guò)版本控制,確保版本編號(hào)的一致。
5.5.2標(biāo)注任務(wù)的分發(fā)
根據(jù)任務(wù)發(fā)布者確定的參數(shù)及需求,將標(biāo)注任務(wù)分發(fā)給標(biāo)注人員。
標(biāo)注任務(wù)發(fā)布者在發(fā)布數(shù)據(jù)時(shí),要明確以下幾項(xiàng)與標(biāo)注任務(wù)相關(guān)的參數(shù):
a)參與標(biāo)注人數(shù);
b)任務(wù)中子任務(wù)數(shù)量;
c)數(shù)據(jù)標(biāo)注員每人每天工作量;
d)回收子任務(wù)時(shí)間點(diǎn);
e)任務(wù)結(jié)束時(shí)間點(diǎn)。
標(biāo)注任務(wù)的分發(fā)對(duì)象包含標(biāo)注人員和審核人員。標(biāo)注任務(wù)分發(fā)給標(biāo)注人員時(shí),也應(yīng)將任務(wù)分發(fā)給審
核人。在標(biāo)注過(guò)程中,同時(shí)進(jìn)行標(biāo)注的審核工作,以便及時(shí)發(fā)現(xiàn)和解決問(wèn)題,提高標(biāo)注效率。
在任務(wù)分發(fā)前,需確定每一個(gè)子任務(wù)分發(fā)標(biāo)注的人數(shù),如同一個(gè)子任務(wù)分發(fā)給多人參與,則需對(duì)每
個(gè)子任務(wù)的回收結(jié)果進(jìn)行比對(duì),不同標(biāo)注任務(wù)可根據(jù)具體情況(如成本和時(shí)間需求)決定同一個(gè)子任務(wù)
是否需多人標(biāo)注。
分發(fā)時(shí),按照任務(wù)具體信息和標(biāo)注需求,分配給相應(yīng)的數(shù)據(jù)標(biāo)注員,實(shí)現(xiàn)數(shù)據(jù)標(biāo)注任務(wù)的優(yōu)化調(diào)度,
提高數(shù)據(jù)標(biāo)注的效率和質(zhì)量。
不同標(biāo)注人力的供給方式也會(huì)影響標(biāo)注任務(wù)的分發(fā)形式:如使用第三方標(biāo)注服務(wù)公司的服務(wù),則只
需把標(biāo)注任務(wù)發(fā)送給第三方標(biāo)注服務(wù)公司,它會(huì)將標(biāo)注任務(wù)分發(fā)到具體標(biāo)注參與人員。
在標(biāo)注分發(fā)過(guò)程中,采用主動(dòng)學(xué)習(xí)技術(shù)將提升標(biāo)注任務(wù)分發(fā)的效率。完成數(shù)據(jù)標(biāo)注前,通過(guò)標(biāo)注平
臺(tái)的主動(dòng)學(xué)習(xí),模型可在剩余的待標(biāo)注數(shù)據(jù)中,篩選出對(duì)模型重要的數(shù)據(jù),優(yōu)先分發(fā)給標(biāo)注人員;其它
數(shù)據(jù)則可延后分發(fā),或不再分發(fā)給標(biāo)注人員。
5.5.3標(biāo)注任務(wù)的開(kāi)展
標(biāo)注任務(wù)中數(shù)據(jù)標(biāo)注方法大致分為兩種:全人工標(biāo)注;半自動(dòng)標(biāo)注。
全人工標(biāo)注的方式主要依靠人力進(jìn)行標(biāo)注,其標(biāo)注的數(shù)據(jù)較精準(zhǔn),當(dāng)標(biāo)注數(shù)據(jù)量較大時(shí),會(huì)耗費(fèi)較
多人力。
半自動(dòng)標(biāo)注的方式采用訓(xùn)練好的模型對(duì)目標(biāo)數(shù)據(jù)進(jìn)行檢測(cè),并用標(biāo)注工具完善。半自動(dòng)標(biāo)注適用于
標(biāo)注數(shù)據(jù)量較大,標(biāo)注任務(wù)較簡(jiǎn)單的標(biāo)注。半自動(dòng)標(biāo)注建立在較成熟模型的基礎(chǔ)上,若檢測(cè)結(jié)果的準(zhǔn)確
度不夠,會(huì)增加工作量。
6
T/XXXXXXXX—XXXX
在全人工標(biāo)注中若對(duì)標(biāo)注結(jié)果準(zhǔn)確率要求較高,在標(biāo)注前需對(duì)標(biāo)注人員進(jìn)行相關(guān)任務(wù)培訓(xùn)。培訓(xùn)內(nèi)
容為標(biāo)注工具或平臺(tái)的使用方法及規(guī)定、標(biāo)注的任務(wù)目的、標(biāo)注內(nèi)容和標(biāo)準(zhǔn)(依據(jù)不同標(biāo)注任務(wù)制定不
同標(biāo)注計(jì)劃)。
在標(biāo)注人員標(biāo)注前期,需建立標(biāo)注者與標(biāo)注數(shù)據(jù)使用者之間的反饋機(jī)制,確保兩者間信息同步。這
可有效解決標(biāo)注者在標(biāo)注過(guò)程中出現(xiàn)的信息不對(duì)稱(chēng)(如標(biāo)注數(shù)據(jù)使用者對(duì)標(biāo)注者最新的標(biāo)注要求)等問(wèn)
題。
標(biāo)注時(shí),可根據(jù)標(biāo)注規(guī)則對(duì)少量樣本先行試標(biāo)注,將試標(biāo)注結(jié)果反饋給數(shù)據(jù)需求方,確認(rèn)標(biāo)注結(jié)果
正確無(wú)誤后,再批量開(kāi)展數(shù)據(jù)標(biāo)注任務(wù)。
5.5.4標(biāo)注任務(wù)的回收
在項(xiàng)目協(xié)定的任務(wù)將要完成時(shí),項(xiàng)目負(fù)責(zé)人需回收標(biāo)注作業(yè),且需保證已分配的任務(wù)能被完整交付。
自營(yíng)的標(biāo)注團(tuán)隊(duì)可直接向標(biāo)注人員或標(biāo)注小組負(fù)責(zé)人收??;第三方標(biāo)注服務(wù)公司需提前聯(lián)系項(xiàng)目負(fù)責(zé)
人,保證外部團(tuán)隊(duì)能按時(shí)交付;眾包平臺(tái)的回收任務(wù)只需保證任務(wù)完成的時(shí)間設(shè)置合理、參與者能及時(shí)
提交任務(wù)即可?;厥窄h(huán)節(jié)中需注意個(gè)別情況和變化的出現(xiàn),如果標(biāo)注人員未能按時(shí)交付,則需由候補(bǔ)成
員繼續(xù)完成剩余任務(wù),以保證標(biāo)注任務(wù)進(jìn)度。
5.6標(biāo)注結(jié)果的質(zhì)檢和質(zhì)量控制
5.6.1質(zhì)量檢查
質(zhì)量檢查能夠確保數(shù)據(jù)標(biāo)注結(jié)果有價(jià)值,符合數(shù)據(jù)需求方的特定應(yīng)用目的。根據(jù)項(xiàng)目特性,質(zhì)量檢
查方法可以歸納為以下幾種,標(biāo)注項(xiàng)目負(fù)責(zé)人需要根據(jù)場(chǎng)景需求及項(xiàng)目特點(diǎn)進(jìn)行選擇:
a)逐條檢查:即對(duì)整個(gè)標(biāo)注項(xiàng)目所包含的所有標(biāo)注子任務(wù)逐一核查并確認(rèn)。適用于項(xiàng)目量級(jí)不大、
人力資源充沛、時(shí)間節(jié)點(diǎn)不緊張、對(duì)標(biāo)注數(shù)據(jù)結(jié)果的準(zhǔn)確率要求極高的標(biāo)注項(xiàng)目。這種方法覆
蓋的質(zhì)檢范圍最全,同時(shí)也適用于任何形式的數(shù)據(jù)標(biāo)注場(chǎng)景。該方法可確保標(biāo)注數(shù)據(jù)輸出的最
高質(zhì)量,尤其對(duì)于數(shù)據(jù)格式主觀成分較多、應(yīng)用場(chǎng)景較復(fù)雜的任務(wù)更有效;
b)按比例抽查:即從全部標(biāo)注數(shù)據(jù)中科學(xué)地抽取樣本,對(duì)樣本中的數(shù)據(jù)逐條檢查,以此評(píng)判全部
標(biāo)注數(shù)據(jù)的質(zhì)量。樣本量的選擇需符合統(tǒng)計(jì)學(xué)基本原理,足以代表全部標(biāo)注數(shù)據(jù)。抽查審核時(shí),
項(xiàng)目負(fù)責(zé)人可指派較有經(jīng)驗(yàn)的審核員完成,從而確保交付質(zhì)量;
c)抽樣檢驗(yàn)又可分為以下三種:
1)簡(jiǎn)單抽樣:以等概率抽取n件待檢測(cè)樣本的方法,必須注意:不能有意識(shí)抽取好的或差的,
也不能僅抽取表面擺放的或容易抽取的;
2)系統(tǒng)抽樣:每隔一定時(shí)間或一定編號(hào)進(jìn)行檢測(cè),而每一次又是從一定時(shí)間間隔內(nèi)生產(chǎn)出的
產(chǎn)品或一段編號(hào)產(chǎn)品中任意抽取一個(gè)或幾個(gè)樣本的方法;
3)分層抽樣:當(dāng)不同類(lèi)型產(chǎn)品有不同的加工環(huán)境(如操作者、不同算法)時(shí),對(duì)其質(zhì)量進(jìn)行
評(píng)估時(shí)的抽樣方法。
d)機(jī)器驗(yàn)證:通過(guò)機(jī)器學(xué)習(xí),包括使用已訓(xùn)練模型進(jìn)行檢查或使用遷移學(xué)習(xí)、在線學(xué)習(xí)等方法對(duì)
人工標(biāo)注的數(shù)據(jù)做質(zhì)量檢查,實(shí)現(xiàn)全自動(dòng)或輔助人工質(zhì)檢方式。機(jī)器學(xué)習(xí)方法輸出的準(zhǔn)確率不
能完全代表數(shù)據(jù)集的準(zhǔn)確率,但能在一定程度上反映數(shù)據(jù)集的質(zhì)量。
在質(zhì)量檢查過(guò)程中,需要設(shè)定質(zhì)檢間隔,防止由于一次性不合格數(shù)據(jù)積壓過(guò)多而導(dǎo)致延誤交付。還
需要根據(jù)算法要求設(shè)定質(zhì)檢合格率,增加標(biāo)注人員容錯(cuò)率。
5.6.2質(zhì)量控制
7
T/XXXXXXXX—XXXX
與質(zhì)檢面向結(jié)果不同,質(zhì)量控制面向過(guò)程,確保標(biāo)注過(guò)程可控,并產(chǎn)生預(yù)期的結(jié)果。在標(biāo)注過(guò)程中,
需要對(duì)數(shù)據(jù)質(zhì)量及其行為進(jìn)行規(guī)范和檢測(cè),及時(shí)預(yù)警反饋,查明低質(zhì)量數(shù)據(jù)原因,以此控制標(biāo)注數(shù)據(jù)的
質(zhì)量。質(zhì)量控制的方法根據(jù)項(xiàng)目特性可歸納為以下四種:
a)多人驗(yàn)證:即在任務(wù)進(jìn)行期間,安排超過(guò)一名人員做同一個(gè)子任務(wù),通過(guò)標(biāo)注工具的功能自動(dòng)
或人工輔助選擇出最優(yōu)、最正確的標(biāo)注結(jié)果;
b)埋題驗(yàn)證:即在任務(wù)進(jìn)行期間,除了常規(guī)標(biāo)注子任務(wù)外,在任務(wù)中混進(jìn)若干已知結(jié)果的測(cè)試題,
以此驗(yàn)證一線操作標(biāo)注人員的標(biāo)注水平。這種方法適用于標(biāo)注作業(yè)進(jìn)行中,有助于項(xiàng)目負(fù)責(zé)人
監(jiān)控標(biāo)注人員的水平,及時(shí)發(fā)現(xiàn)潛在問(wèn)題。雖然這種方法不能完全代表標(biāo)注數(shù)據(jù)成果的質(zhì)量,
但在一定程度上說(shuō)明標(biāo)注人員的認(rèn)真程度及標(biāo)注能力;
c)標(biāo)注人員狀態(tài)驗(yàn)證:通過(guò)一定方法對(duì)標(biāo)注人員的操作規(guī)范性、實(shí)時(shí)注意力狀態(tài)、標(biāo)注準(zhǔn)確率等
方面進(jìn)行檢查與監(jiān)測(cè),及時(shí)發(fā)現(xiàn)操作違規(guī)問(wèn)題,保證數(shù)據(jù)質(zhì)量;
d)機(jī)器驗(yàn)證:在任務(wù)進(jìn)行期間使用機(jī)器學(xué)習(xí)方法,得到數(shù)據(jù)準(zhǔn)確率,一旦發(fā)現(xiàn)離群點(diǎn)或明顯的降
低趨勢(shì),及時(shí)對(duì)標(biāo)注人員預(yù)警和警告。
5.6.3質(zhì)量檢查與控制中合格標(biāo)準(zhǔn)的確認(rèn)
在標(biāo)注結(jié)果的質(zhì)量檢查和控制環(huán)節(jié),需在抽查前建立并確認(rèn)合格標(biāo)準(zhǔn),并在相關(guān)環(huán)節(jié)貫徹實(shí)施。合
格標(biāo)準(zhǔn)應(yīng)具備可量化特性;在醫(yī)學(xué)和其他關(guān)鍵行業(yè),數(shù)據(jù)標(biāo)注質(zhì)量的合格標(biāo)準(zhǔn)還需遵從國(guó)家法規(guī)和行業(yè)
規(guī)范的約束,如數(shù)據(jù)標(biāo)注結(jié)果需由有資質(zhì)的第三方邀請(qǐng)有資質(zhì)和從業(yè)經(jīng)驗(yàn)的專(zhuān)家進(jìn)行驗(yàn)證。從而確保標(biāo)
注結(jié)果的質(zhì)量,并使得標(biāo)注結(jié)果的質(zhì)量檢查和控制流程有據(jù)可依。
5.7標(biāo)注結(jié)果輸出交付規(guī)范
5.7.1圖像類(lèi)型的數(shù)據(jù)
圖像類(lèi)標(biāo)注任務(wù)的數(shù)據(jù)結(jié)果為帶有標(biāo)簽的數(shù)據(jù),包含標(biāo)簽的具體內(nèi)容,及此圖像標(biāo)簽對(duì)應(yīng)的圖像空
間位置(可選)。不同的標(biāo)注任務(wù)和要求會(huì)產(chǎn)出不同的結(jié)果,但不影響定義數(shù)據(jù)格式及組成部分。
輸出格式推薦使用易解析、易存儲(chǔ)的數(shù)據(jù)格式,格式包括但不限于json或xml。標(biāo)注文件應(yīng)該包含
標(biāo)注詳細(xì)的標(biāo)簽信息。每個(gè)獨(dú)立的標(biāo)簽需包含以下的信息:
a)標(biāo)簽id:每個(gè)標(biāo)簽的獨(dú)立編號(hào);
b)文件路徑:待標(biāo)注圖像的名稱(chēng)或路徑;
c)置信度:各標(biāo)簽的置信度;
d)每個(gè)標(biāo)簽中可能包含多個(gè)對(duì)象,對(duì)于每個(gè)對(duì)象需要定義:
1)對(duì)象類(lèi)型:比如bounding_box或者keypoint;
2)對(duì)象詳情:為對(duì)象的空間信息、內(nèi)容信息,或與其它對(duì)象的關(guān)系信息。每個(gè)對(duì)象的詳情因
其類(lèi)型而異。
5.7.2文本類(lèi)型的數(shù)據(jù)
文本類(lèi)標(biāo)注任務(wù)的數(shù)據(jù)結(jié)果包含文本標(biāo)簽的位置和標(biāo)簽的具體內(nèi)容。不同標(biāo)注任務(wù)和要求會(huì)產(chǎn)出不
同的結(jié)果,但不影響定義數(shù)據(jù)格式及組成部分。
標(biāo)注文件的輸出格式推薦使用易解析、易存儲(chǔ)的數(shù)據(jù)格式,包括json、xml、txt等。標(biāo)注文件應(yīng)該
包含詳細(xì)的標(biāo)簽信息。每個(gè)獨(dú)立的label需包含以下的信息:
a)標(biāo)簽id:每個(gè)標(biāo)簽的獨(dú)立編號(hào);
b)文件路徑:待標(biāo)注文本的文件鏈接;
c)原始文本:待標(biāo)注文本的全部?jī)?nèi)容(文本標(biāo)注任務(wù)僅需提供文件路徑或原始文本中的一個(gè));
8
T/XXXXXXXX—XXXX
d)置信度:為標(biāo)簽的置信度;
e)每個(gè)標(biāo)簽中可能包含多個(gè)對(duì)象,對(duì)于每個(gè)對(duì)象需要定義:
1)對(duì)象類(lèi)型:比如text_classification或者text_tag;
2)對(duì)象詳情:對(duì)象的具體文本位置和內(nèi)容信息,或與其它對(duì)象的關(guān)系信息。每個(gè)對(duì)象的詳情
因其類(lèi)型而異。
5.7.3語(yǔ)音類(lèi)型的數(shù)據(jù)
語(yǔ)音類(lèi)標(biāo)注任務(wù)的數(shù)據(jù)結(jié)果包含語(yǔ)音標(biāo)簽的時(shí)間位置和標(biāo)簽的具體內(nèi)容(例如轉(zhuǎn)寫(xiě)內(nèi)容、說(shuō)話人信
息、噪聲等)。不同標(biāo)注任務(wù)和要求會(huì)產(chǎn)出不同的結(jié)果,但不影響定義數(shù)據(jù)格式及組成部分。
標(biāo)注文件的輸出格式為json文件或其他通用輸出格式,其中文件應(yīng)詳細(xì)的標(biāo)簽信息。每個(gè)獨(dú)立的標(biāo)
簽需包含以下的信息:
a)標(biāo)簽id:每個(gè)標(biāo)簽的獨(dú)立編號(hào);
b)文件路徑:待標(biāo)注音頻名稱(chēng)或路徑;
c)置信度:標(biāo)簽的置信度;
d)如果是單句錄音,則每個(gè)標(biāo)簽中包含一個(gè)對(duì)象;如果是多句錄音,則每個(gè)標(biāo)簽中包含多個(gè)對(duì)象。
每個(gè)標(biāo)注對(duì)象應(yīng)包括:
1)對(duì)象類(lèi)型,比如speech_to_text;
2)對(duì)象詳情,包括對(duì)象具體時(shí)間位置和內(nèi)容信息,或與其他對(duì)象的關(guān)系信息;每個(gè)對(duì)象的詳
情因其類(lèi)型而異,說(shuō)話者的信息以及噪音標(biāo)簽等都可以放在對(duì)象詳情中。
5.7.4視頻類(lèi)型的數(shù)據(jù)
視頻類(lèi)標(biāo)注任務(wù)的數(shù)據(jù)結(jié)果可包含視頻標(biāo)簽的時(shí)間位置、空間位置和標(biāo)簽信息等內(nèi)容。不同標(biāo)注任
務(wù)和要求會(huì)產(chǎn)出不同的結(jié)果,但不影響定義數(shù)據(jù)格式及組成部分。
標(biāo)注文件的輸出格式推薦使用易解析、易存儲(chǔ)的數(shù)據(jù)格式,包括json、xml等。標(biāo)注文件應(yīng)該包含
詳細(xì)的標(biāo)簽信息。每個(gè)獨(dú)立的標(biāo)簽需包含以下的信息:
a)標(biāo)簽:id每個(gè)標(biāo)簽的獨(dú)立編號(hào);
b)文件路徑:待標(biāo)注視頻文件名稱(chēng)或路徑;
c)置信度:為標(biāo)簽的置信度;
d)每個(gè)標(biāo)簽中可能包含多個(gè)對(duì)象,對(duì)于每個(gè)對(duì)象需包含:
1)對(duì)象類(lèi)型:例如scene_classification;
2)對(duì)象詳情:具體描述對(duì)象的時(shí)間、空間信息和內(nèi)容信息,或與其他object的關(guān)系信息;
每個(gè)對(duì)象的詳情因其類(lèi)型而異。對(duì)于視頻中起始和結(jié)束幀的位置描述也應(yīng)該放到對(duì)象詳情
中,比如Object_frame_index_start以及Object_frame_index_end。
5.7.5其它
醫(yī)學(xué)影像數(shù)據(jù)具有其特殊性,因此在此單獨(dú)定義輸出標(biāo)準(zhǔn)。
對(duì)于DICOM類(lèi)型的數(shù)據(jù),按照ISO12052的要求,參照前述圖像、文本、語(yǔ)音和視頻數(shù)據(jù)的輸出格
式,存儲(chǔ)在DICOM數(shù)據(jù)格式的相應(yīng)標(biāo)簽和數(shù)據(jù)集合中。
5.8數(shù)據(jù)交付和驗(yàn)收
5.8.1數(shù)據(jù)交付
數(shù)據(jù)交付時(shí),標(biāo)注團(tuán)隊(duì)需對(duì)最終提交的數(shù)據(jù)量進(jìn)行說(shuō)明。交付的內(nèi)容包括:
9
T/XXXXXXXX—XXXX
a)標(biāo)注結(jié)果(必選);
b)交付和說(shuō)明文檔(可選);
c)關(guān)于標(biāo)注數(shù)據(jù)的Metadata(非必選),包括描述原始數(shù)據(jù)的元信息,比如圖像的采集地點(diǎn)、
光線、拍攝角度或音頻的采集時(shí)間、聲道數(shù)量等;
d)原始數(shù)據(jù)(非必選,有時(shí)數(shù)據(jù)使用方可直接訪問(wèn)原始數(shù)據(jù),則無(wú)需單獨(dú)交付原始數(shù)據(jù))。
交付的文件存儲(chǔ)結(jié)構(gòu)可參考以下:
圖2參考交付文件
說(shuō)明:
Data——數(shù)據(jù)文件夾
doc——說(shuō)明文檔文件夾(可選)
.json——(或.xsml等)標(biāo)注結(jié)果文件,可以每一個(gè)label單存一個(gè)標(biāo)注結(jié)果文件,或者是所有l(wèi)abel
的結(jié)果在一個(gè)標(biāo)注文件中
原始文件——為單條標(biāo)注結(jié)果對(duì)應(yīng)的原始文件,如圖片、音頻、文本、視頻
metadata——原始文件元信息(非必備)
5.8.2數(shù)據(jù)驗(yàn)收
數(shù)據(jù)標(biāo)注團(tuán)隊(duì)在交付數(shù)據(jù)后,數(shù)據(jù)需求方應(yīng)在數(shù)據(jù)驗(yàn)收期內(nèi)完成對(duì)數(shù)據(jù)標(biāo)注結(jié)果的驗(yàn)收工作,驗(yàn)收
方式包括抽樣驗(yàn)收和逐一驗(yàn)收兩種。若驗(yàn)收數(shù)據(jù)質(zhì)量未達(dá)到預(yù)期值,數(shù)據(jù)需求方可要求數(shù)據(jù)服務(wù)提供商
對(duì)數(shù)據(jù)進(jìn)行修正。
_________________________________
10
T/XXXXXXXX—XXXX
中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)(CESA)是全國(guó)電子信息產(chǎn)業(yè)標(biāo)準(zhǔn)化組織和標(biāo)準(zhǔn)化工作者自愿組成的
社會(huì)團(tuán)體。廣泛聯(lián)系全國(guó)電子信息產(chǎn)業(yè)標(biāo)準(zhǔn)化機(jī)構(gòu)和標(biāo)準(zhǔn)化工作者,協(xié)助政府部門(mén)搞好電子信息產(chǎn)業(yè)標(biāo)
準(zhǔn)化工作,開(kāi)拓信息技術(shù)領(lǐng)域的標(biāo)準(zhǔn)化工作是中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)的主要工作內(nèi)容之一。中國(guó)
境內(nèi)從事科研開(kāi)發(fā)、制造、營(yíng)銷(xiāo)和服務(wù)的企事業(yè)單位、高等院校、社會(huì)組織和個(gè)人均可隨時(shí)向中國(guó)電子
工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)團(tuán)體標(biāo)準(zhǔn)工作部提出團(tuán)體標(biāo)準(zhǔn)項(xiàng)目建議。
中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)標(biāo)準(zhǔn)按照《電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)協(xié)會(huì)團(tuán)體標(biāo)準(zhǔn)管理辦法》進(jìn)行制
定和管理。
在本標(biāo)準(zhǔn)實(shí)施過(guò)程中,如發(fā)現(xiàn)需要修改或補(bǔ)充之處,請(qǐng)將意見(jiàn)和有關(guān)資料寄至中國(guó)電子工業(yè)標(biāo)準(zhǔn)化
技術(shù)協(xié)會(huì),以便修訂時(shí)參考。
本標(biāo)準(zhǔn)版權(quán)歸中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)所有。
中國(guó)電子工業(yè)標(biāo)準(zhǔn)化技術(shù)協(xié)會(huì)地址:北京市海淀區(qū)萬(wàn)壽路27號(hào)
電話子郵箱:standards@
網(wǎng)址:
11
T/XXXXXXXX—XXXX
目??次
前??言.............................................................................................................................................................III
1范圍...................................................................................................................................................................1
2規(guī)范性引用文件...............................................................................................................................................1
3術(shù)語(yǔ)和定義.......................................................................................................................................................1
4概述...................................................................................................................................................................2
5數(shù)據(jù)標(biāo)注流程...................................................................................................................................................3
5.1定義所需數(shù)據(jù)和預(yù)估數(shù)據(jù)量...................................................................................................................3
5.2確定標(biāo)注說(shuō)明規(guī)則...................................................................................................................................3
5.3確定標(biāo)注人力供給方式...........................................................................................................................5
5.4標(biāo)注工具和標(biāo)注平臺(tái)的選擇...................................................................................................................5
5.5標(biāo)注任務(wù)的創(chuàng)建、分發(fā)、開(kāi)展和回收...................................................................................................5
5.6標(biāo)注結(jié)果的質(zhì)檢和質(zhì)量控制...................................................................................................................7
5.7標(biāo)注結(jié)果輸出交付規(guī)范...........................................................................................................................8
5.8數(shù)據(jù)交付和驗(yàn)收.......................................................................................................................................9
II
T/XXXXXXXX—XXXX
信息技術(shù)人工智能面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注規(guī)程
1范圍
本標(biāo)準(zhǔn)給出了面向機(jī)器學(xué)習(xí)的數(shù)據(jù)標(biāo)注流程框架,包括數(shù)據(jù)標(biāo)注前期準(zhǔn)備、數(shù)據(jù)標(biāo)注任務(wù)執(zhí)行以及
標(biāo)注數(shù)據(jù)結(jié)果輸出三個(gè)階段。
本標(biāo)準(zhǔn)適用于面向人工智能研究或開(kāi)發(fā)應(yīng)用等需要實(shí)施數(shù)據(jù)標(biāo)注的企業(yè)、高校、科研院所、政府機(jī)
構(gòu)等。
2規(guī)范性引用文件
下列文件對(duì)于本文件的應(yīng)用是必不可少的。凡是注日期的引用文件,僅注日期的版本適用于本文件。
凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
3術(shù)語(yǔ)和定義
下列術(shù)語(yǔ)和定義適用于本文件。
3.1
數(shù)據(jù)標(biāo)注dataannotation
對(duì)文本、圖像、語(yǔ)音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類(lèi)、整理、編輯、糾錯(cuò)、標(biāo)記和批注等操作,為待
標(biāo)注數(shù)據(jù)增加標(biāo)簽,生成滿足機(jī)器學(xué)習(xí)訓(xùn)練要求的機(jī)器可讀數(shù)據(jù)編碼。
3.2
標(biāo)簽label
標(biāo)識(shí)數(shù)據(jù)的特征、類(lèi)別和屬性等,可用于建立數(shù)據(jù)及機(jī)器學(xué)習(xí)訓(xùn)練要求所定義的機(jī)器可讀數(shù)據(jù)編碼
間的聯(lián)系。
3.3
標(biāo)注任務(wù)annotationtask
按照數(shù)據(jù)標(biāo)注規(guī)范對(duì)指定數(shù)據(jù)集進(jìn)行標(biāo)注的過(guò)程。
3.4
數(shù)據(jù)標(biāo)注員datalabeler
負(fù)責(zé)對(duì)文本、圖像、語(yǔ)音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類(lèi)、整理、編輯、糾錯(cuò)、標(biāo)記和批注等操作的
工作人員。
1
T/XXXXXXXX—XXXX
3.5
標(biāo)注工具annotationtool
數(shù)據(jù)標(biāo)注員完成標(biāo)注任務(wù)產(chǎn)生標(biāo)注結(jié)果時(shí)所需的工具和軟件。
注1:標(biāo)注工具可生成標(biāo)簽并提供參考模板。
注2:不同的數(shù)據(jù)類(lèi)型和標(biāo)注任務(wù)需要不同的標(biāo)注工具。標(biāo)注工具按自動(dòng)化程度可分為手動(dòng)、半自動(dòng)、自動(dòng)三種。
3.6
標(biāo)注平臺(tái)annotationplatform
開(kāi)展標(biāo)注任務(wù)的系統(tǒng)化框架。
注:標(biāo)注平臺(tái)在包含標(biāo)注工具全部功能的基礎(chǔ)上將所有標(biāo)注環(huán)節(jié)工具化,可有效地對(duì)標(biāo)注任務(wù)進(jìn)行全局管理和跟
蹤。
3.7
標(biāo)注說(shuō)明規(guī)則annotationinstruction
數(shù)據(jù)需求方用于明確標(biāo)注任務(wù)和標(biāo)注數(shù)據(jù)的書(shū)面陳述,包含執(zhí)行標(biāo)注任務(wù)所需的標(biāo)注工具、任務(wù)描
述、標(biāo)注方法、正確示例、常見(jiàn)錯(cuò)誤等內(nèi)容。
3.8
標(biāo)注方法annotationmethod
定義數(shù)據(jù)標(biāo)注員進(jìn)行數(shù)據(jù)標(biāo)注時(shí)的環(huán)境和流程,應(yīng)包含標(biāo)注對(duì)象定義、所用標(biāo)注工具和標(biāo)注平臺(tái)、
標(biāo)注格式、標(biāo)注前的準(zhǔn)備工作、標(biāo)注后的處理工作等。
3.9
眾包標(biāo)注crowdsourcingannotation
數(shù)據(jù)需求方公開(kāi)發(fā)布標(biāo)注任務(wù),數(shù)據(jù)標(biāo)注員申領(lǐng)標(biāo)注任務(wù)并在規(guī)定時(shí)間內(nèi)完成標(biāo)注任務(wù)發(fā)回?cái)?shù)據(jù)數(shù)
據(jù)需求方,數(shù)據(jù)需求方收集整理后獲得用于機(jī)器學(xué)習(xí)訓(xùn)練的標(biāo)注數(shù)據(jù)集的數(shù)據(jù)標(biāo)注過(guò)程。
3.10
半自動(dòng)標(biāo)注semi-automaticannotation
使用人工結(jié)合自動(dòng)化工具的方式進(jìn)行數(shù)據(jù)標(biāo)注。
4概述
本標(biāo)準(zhǔn)給出了數(shù)據(jù)標(biāo)注的流程框架,它包括標(biāo)注項(xiàng)目的前期準(zhǔn)備工作(包括對(duì)于所需數(shù)據(jù)的定義、
標(biāo)注規(guī)則的制定、標(biāo)注人力的確定);標(biāo)注任務(wù)的創(chuàng)建、分發(fā),開(kāi)展、回收和標(biāo)注結(jié)果的質(zhì)檢和質(zhì)量控
制;標(biāo)注結(jié)果輸出的建議格式和交付。數(shù)據(jù)標(biāo)注流程框架見(jiàn)圖1:
a)定義所需數(shù)據(jù);
b)確定標(biāo)注說(shuō)明規(guī)則;
c)確定標(biāo)注人力的供給方式;
2
T/XXXXXXXX—XXXX
d)標(biāo)注工具和平臺(tái)的選擇;
e)標(biāo)注任務(wù)的創(chuàng)建、分發(fā)、開(kāi)展和回收;
f)標(biāo)注結(jié)果的質(zhì)檢和質(zhì)量控制;
g)標(biāo)注結(jié)果的輸出格式建議;
h)標(biāo)注數(shù)據(jù)的交付和驗(yàn)收。
圖1數(shù)據(jù)標(biāo)注流程框架
5數(shù)據(jù)標(biāo)注流程
5.1定義所需數(shù)據(jù)和預(yù)估數(shù)據(jù)量
數(shù)據(jù)標(biāo)注前應(yīng)完成以下五項(xiàng)準(zhǔn)備工作:
a)對(duì)解決的問(wèn)題進(jìn)行分析,明確機(jī)器學(xué)習(xí)和模型訓(xùn)練過(guò)程中所需的標(biāo)注數(shù)據(jù)類(lèi)型、量級(jí)、用途及
應(yīng)用場(chǎng)景。分析維度包括:業(yè)務(wù)場(chǎng)景的針對(duì)性、標(biāo)注樣本的平衡性、前期經(jīng)驗(yàn)及改進(jìn)措施的借
鑒等;
b)對(duì)數(shù)據(jù)進(jìn)行整理,明確數(shù)據(jù)與標(biāo)簽文件存放目錄結(jié)構(gòu),在任務(wù)分配與回收的時(shí)候應(yīng)按指定的目
錄進(jìn)行數(shù)據(jù)組織;
c)明確數(shù)據(jù)與標(biāo)簽文件的命名規(guī)則,命名規(guī)則應(yīng)避免數(shù)據(jù)更新迭代時(shí)的重名,便于數(shù)據(jù)追蹤、標(biāo)
注追蹤,數(shù)據(jù)文件名與標(biāo)簽文件名應(yīng)保持一致;
d)根據(jù)標(biāo)注任務(wù)的人力獲取模式、工具的選擇、標(biāo)注任務(wù)的類(lèi)型、算法選擇以及整個(gè)項(xiàng)目的成本
對(duì)所需標(biāo)注數(shù)據(jù)量進(jìn)行預(yù)估;
e)與標(biāo)注人員溝通,明確標(biāo)注數(shù)據(jù)的定義并確定最終的需求量。
5.2確定標(biāo)注說(shuō)明規(guī)則
5.2.1標(biāo)注說(shuō)明規(guī)則的職責(zé)分工
3
T/XXXXXXXX—XXXX
數(shù)據(jù)需求方即業(yè)務(wù)數(shù)據(jù)需求方,指需要利用人工智能技術(shù)解決實(shí)際業(yè)務(wù)問(wèn)題的業(yè)務(wù)團(tuán)隊(duì)。數(shù)據(jù)需求
方應(yīng)負(fù)責(zé)確保數(shù)據(jù)標(biāo)注的規(guī)則符合該領(lǐng)域的業(yè)務(wù)和專(zhuān)業(yè)常識(shí),并根據(jù)標(biāo)注規(guī)則,檢查所標(biāo)注的數(shù)據(jù)是否
滿足數(shù)據(jù)需求方。
數(shù)據(jù)使用方指需要使用標(biāo)注數(shù)據(jù)訓(xùn)練人工智能模型的研發(fā)團(tuán)隊(duì)。數(shù)據(jù)使用方應(yīng)從機(jī)器學(xué)習(xí)算法角
度,確保標(biāo)注規(guī)則可滿足機(jī)器學(xué)習(xí)模型的訓(xùn)練要求,并根據(jù)該標(biāo)注規(guī)則,檢查標(biāo)注的數(shù)據(jù)支撐機(jī)器學(xué)習(xí)
模型達(dá)到數(shù)據(jù)需求方期望的精度。
數(shù)據(jù)需求方、數(shù)據(jù)使用方及數(shù)據(jù)標(biāo)注團(tuán)隊(duì)?wèi)?yīng)共同參與標(biāo)注說(shuō)明規(guī)則的制定、調(diào)整、迭代、執(zhí)行的各
個(gè)環(huán)節(jié)。數(shù)據(jù)標(biāo)注團(tuán)隊(duì)?wèi)?yīng)從實(shí)際標(biāo)注角度出發(fā),確保標(biāo)注規(guī)則清晰、明確,以避免數(shù)據(jù)標(biāo)注員理解偏差,
進(jìn)而導(dǎo)致標(biāo)注結(jié)果不符合預(yù)期。
5.2.2標(biāo)注說(shuō)明規(guī)則的定義
標(biāo)注說(shuō)明規(guī)則應(yīng)明確項(xiàng)目的背景、意義及數(shù)據(jù)的應(yīng)用場(chǎng)景,且包含項(xiàng)目的標(biāo)注工具、任務(wù)描述、標(biāo)
注方法、正確示例、常見(jiàn)錯(cuò)誤等內(nèi)容。
標(biāo)注說(shuō)明規(guī)則應(yīng)有可變更性,該變更應(yīng)由相關(guān)方評(píng)審?fù)夂?,再更新?guī)則文檔,且相關(guān)方應(yīng)沿用制
定規(guī)則時(shí)的基本原則及方法。
5.2.3標(biāo)注說(shuō)明規(guī)則的內(nèi)容
標(biāo)準(zhǔn)說(shuō)明規(guī)則包括但不限于:
a)項(xiàng)目背景:概述標(biāo)注項(xiàng)目的背景或數(shù)據(jù)標(biāo)注需求產(chǎn)生的場(chǎng)景;
b)版本信息:標(biāo)注該說(shuō)明的當(dāng)前版本編號(hào)、發(fā)布日期、發(fā)布人、發(fā)布備注(發(fā)布原因或迭代原因)
及歷史迭代信息(歷代版本編號(hào)、發(fā)布日期、發(fā)布人、發(fā)布備注等);
c)任務(wù)描述:概括標(biāo)注項(xiàng)目的主要任務(wù),包括標(biāo)注項(xiàng)目的關(guān)鍵信息、數(shù)據(jù)形式、標(biāo)注平臺(tái)、主要
標(biāo)注方法、期望交付時(shí)間、正確率要求等;
d)保密責(zé)任:對(duì)于數(shù)據(jù)的密級(jí)程度,數(shù)據(jù)需求方須在規(guī)則中列明,明確保密責(zé)任,標(biāo)注方對(duì)當(dāng)前
承擔(dān)的數(shù)據(jù)標(biāo)注任務(wù)承擔(dān)保密職責(zé)(例如雷達(dá)數(shù)據(jù)標(biāo)注等任務(wù)需要);
e)標(biāo)注方法:給出數(shù)據(jù)需求方所需數(shù)據(jù)對(duì)象的嚴(yán)謹(jǐn)定義,明確在協(xié)定的標(biāo)注平臺(tái)上使用何種標(biāo)注
組件、標(biāo)簽及全部操作。標(biāo)注方法的衡量標(biāo)準(zhǔn),以標(biāo)注人員掌握標(biāo)注方法后,能立刻正確操作
一次標(biāo)注;
f)正確示例:通過(guò)圖片、圖文、視頻等的形式,示范正確的標(biāo)注方法或成果,數(shù)據(jù)需求方應(yīng)明確
數(shù)據(jù)產(chǎn)出,標(biāo)注方應(yīng)明確標(biāo)注認(rèn)識(shí),標(biāo)注樣例應(yīng)覆蓋
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 法制宣傳進(jìn)校園精彩講話稿范文(5篇)
- 知識(shí)產(chǎn)權(quán)戰(zhàn)略在環(huán)境保護(hù)中的作用
- 采購(gòu)晶格玻璃合同范本
- 個(gè)人解除物業(yè)合同范本
- 社交網(wǎng)絡(luò)游戲市場(chǎng)現(xiàn)狀及用戶行為分析
- 農(nóng)村小院個(gè)人出售合同范本
- 公司出資協(xié)議合同范本
- 農(nóng)村房屋借貸抵押合同范本
- 養(yǎng)魚(yú)維護(hù)保養(yǎng)合同范本
- pet采購(gòu)合同范例
- 中華人民共和國(guó)保守國(guó)家秘密法實(shí)施條例培訓(xùn)課件
- 2024年全國(guó)統(tǒng)一高考英語(yǔ)試卷(新課標(biāo)Ⅰ卷)含答案
- 2024年認(rèn)證行業(yè)法律法規(guī)及認(rèn)證基礎(chǔ)知識(shí) CCAA年度確認(rèn) 試題與答案
- 2024年濰坊工程職業(yè)學(xué)院高職單招(英語(yǔ)/數(shù)學(xué)/語(yǔ)文)筆試歷年參考題庫(kù)含答案解析
- 部編版一年級(jí)語(yǔ)文下冊(cè)全冊(cè)分層作業(yè)設(shè)計(jì)
- T∕ACSC 01-2022 輔助生殖醫(yī)學(xué)中心建設(shè)標(biāo)準(zhǔn)(高清最新版)
- 線性空間的定義與性質(zhì)
- 化妝品批生產(chǎn)記錄
- Excel數(shù)據(jù)透視表培訓(xùn)PPT課件
- 化工車(chē)間布置原則
- 硬筆書(shū)法紙(A3)
評(píng)論
0/150
提交評(píng)論