![《電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)》標(biāo)準(zhǔn)_第1頁](http://file4.renrendoc.com/view2/M00/30/19/wKhkFmYd0KqAU79oAAC9hs2tUWY465.jpg)
![《電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)》標(biāo)準(zhǔn)_第2頁](http://file4.renrendoc.com/view2/M00/30/19/wKhkFmYd0KqAU79oAAC9hs2tUWY4652.jpg)
![《電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)》標(biāo)準(zhǔn)_第3頁](http://file4.renrendoc.com/view2/M00/30/19/wKhkFmYd0KqAU79oAAC9hs2tUWY4653.jpg)
![《電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)》標(biāo)準(zhǔn)_第4頁](http://file4.renrendoc.com/view2/M00/30/19/wKhkFmYd0KqAU79oAAC9hs2tUWY4654.jpg)
![《電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)》標(biāo)準(zhǔn)_第5頁](http://file4.renrendoc.com/view2/M00/30/19/wKhkFmYd0KqAU79oAAC9hs2tUWY4655.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
T/CEC
中國電力企業(yè)聯(lián)合會標(biāo)準(zhǔn)
T/CEC2022-1139
電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)
(征求意見稿)
20XX—XX—XX發(fā)布20XX—XX—XX實(shí)施
中國電力企業(yè)聯(lián)合會發(fā)布
T/CEC
前言
本文件按照GB/T1.1-2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起
草。
請注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識別這些專利的責(zé)任。
本文件由中國電力企業(yè)聯(lián)合會提出。
本文件由***技術(shù)委員會歸口。
本文件起草單位:南方電網(wǎng)數(shù)字電網(wǎng)研究院有限公司
本文件主要起草人:
本文件首次發(fā)布。
本文件在執(zhí)行過程中的意見或建議反饋至中國電力企業(yè)聯(lián)合會標(biāo)準(zhǔn)化管理中心(北京市白廣路二條
一號,100761)
II
T/CEC
電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)
1范圍
人工智能圖像、語音訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)明確了電力企業(yè)人工智能訓(xùn)練數(shù)據(jù)標(biāo)注工作涉及的數(shù)據(jù)收
集整理、標(biāo)注環(huán)境及工具選用、標(biāo)注任務(wù)執(zhí)行、標(biāo)注結(jié)果質(zhì)量控制、標(biāo)注結(jié)果交付等技術(shù)要求。
本標(biāo)準(zhǔn)適用于電力業(yè)務(wù)場景下的人工智能訓(xùn)練數(shù)據(jù)集歸集。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T38318-2019《電力監(jiān)控系統(tǒng)網(wǎng)絡(luò)安全評估指南》
GB/T15237.1《術(shù)語工作詞匯第1部分:理論與應(yīng)用》
GB/T5271.1《信息技術(shù)詞匯第1部分:基本術(shù)語》
GB/T5271.28《信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)》
GB/T5271.29《信息技術(shù)詞匯第29部分:人工智能語音識別與合成》
GB/T5271.31《信息技術(shù)詞匯第31部分:人工智能機(jī)器學(xué)習(xí)》
GB/T5271.34《信息技術(shù)詞匯第34部分:人工智能神經(jīng)網(wǎng)絡(luò)》
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
智能組件intelligentcomponent
智能組件是基于人工智能對數(shù)據(jù)和函數(shù)的封裝。包括調(diào)用API組件、下載的工具組件、SDK組件。
3.2
圖像分類imageclassification
圖像分類通過手工特征或特征學(xué)習(xí)方法對整個圖像進(jìn)行全部描述,然后使用分類器判別物體類別。
3.3
光學(xué)字符識別opticalcharacterrecognition(OCR)
光學(xué)字符識別,是指利用深度學(xué)習(xí)技術(shù),將圖片上的文字內(nèi)容,智能識別成為可編輯的文本。
3.4
語音speech
某一給定自然語言的話音、模式、或模擬這類模式的聲學(xué)信號。
3.5
語音識別speechrecognition
通過功能單元對人的語音所表示信息的感知與分析。要識別的信息可以是預(yù)定義的字序列中的一個
字,或是預(yù)定義的語言中的一個音素,有時(shí)可通過說話者的聲音特征對說話者進(jìn)行標(biāo)識。
3.6
1
T/CEC
數(shù)據(jù)標(biāo)注dataannotation
對文本、圖像、語音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類、整理、編輯、糾錯、標(biāo)記和批注等操作,為待
標(biāo)注數(shù)據(jù)增加標(biāo)簽,生成滿足機(jī)器學(xué)習(xí)訓(xùn)練要求的機(jī)器可讀數(shù)據(jù)編碼。
3.7
標(biāo)簽label
標(biāo)識數(shù)據(jù)的特征、類別和屬性等,可用于建立數(shù)據(jù)及機(jī)器學(xué)習(xí)訓(xùn)練要求所定義的機(jī)器可讀數(shù)據(jù)編碼
間的聯(lián)系。
3.8
標(biāo)注任務(wù)annotationtask
按照數(shù)據(jù)標(biāo)注規(guī)范對指定數(shù)據(jù)集進(jìn)行標(biāo)注的過程。
3.9
標(biāo)注工具annotationtool
數(shù)據(jù)標(biāo)注員完成標(biāo)注任務(wù)產(chǎn)生標(biāo)注結(jié)果時(shí)所需的工具和軟件。標(biāo)注工具可生成標(biāo)簽并提供參考模板。
不同的數(shù)據(jù)類型和標(biāo)注任務(wù)需要不同的標(biāo)注工具。標(biāo)注工具按自動化程度可分為全人工標(biāo)注、半自動標(biāo)
注。
3.10
標(biāo)注平臺annotationplatform
開展標(biāo)注任務(wù)的系統(tǒng)化框架。標(biāo)注平臺在包含標(biāo)注工具全部功能的基礎(chǔ)上將所有標(biāo)注環(huán)節(jié)工具化,
可有效地對標(biāo)注任務(wù)進(jìn)行全局管理和跟蹤。
3.11
標(biāo)注描述說明annotationinstruction
數(shù)據(jù)需求方用于明確標(biāo)注任務(wù)和標(biāo)注數(shù)據(jù)的書面陳述,包含執(zhí)行標(biāo)注任務(wù)所需的標(biāo)注工具、任務(wù)描
述、標(biāo)注方法、正確示例、常見錯誤等內(nèi)容。
3.12
標(biāo)注方法annotationmethod
定義數(shù)據(jù)標(biāo)注員進(jìn)行數(shù)據(jù)標(biāo)注時(shí)的環(huán)境和流程,應(yīng)包含標(biāo)注對象定義、所用標(biāo)注工具和標(biāo)注平臺、
標(biāo)注格式、標(biāo)注前的準(zhǔn)備工作、標(biāo)注后的處理工作等。
3.13
全人工標(biāo)注full-manualannotation
指完全依靠人力對全部待標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注。
3.14
半自動標(biāo)注semi-automaticannotation
使用人工結(jié)合自動化工具或訓(xùn)練模型的方式進(jìn)行數(shù)據(jù)標(biāo)注。
3.15
結(jié)果文件resultfile
指待標(biāo)注數(shù)據(jù)在完成標(biāo)注工作后產(chǎn)生帶有標(biāo)簽信息的文件。
3.16
2
T/CEC
數(shù)據(jù)標(biāo)注員datalabeler
負(fù)責(zé)對文本、圖像、語音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類、整理、編輯、糾錯、標(biāo)記和批注等操作的
工作人員。
4標(biāo)注任務(wù)技術(shù)說明文件要求
在進(jìn)行相關(guān)機(jī)器學(xué)習(xí)數(shù)據(jù)標(biāo)注任務(wù)前,應(yīng)明確本次標(biāo)注工作的技術(shù)標(biāo)準(zhǔn),生成詳細(xì)的技術(shù)說明文件。
標(biāo)注任務(wù)的技術(shù)說明文件應(yīng)包含本次描述文件的版本信息、標(biāo)注工作的任務(wù)背景、標(biāo)注數(shù)據(jù)的應(yīng)用場景、
標(biāo)注數(shù)據(jù)的類型、標(biāo)注方式、導(dǎo)入導(dǎo)出格式、標(biāo)注結(jié)果格式、標(biāo)注結(jié)果可選值、標(biāo)注工作的實(shí)施環(huán)境、
數(shù)據(jù)保密規(guī)則、標(biāo)注的正確示例、標(biāo)注的錯誤示例以及術(shù)語體系規(guī)范化要求。
(1)版本信息
描述說明文件應(yīng)詳細(xì)記錄說明文件當(dāng)前的版本、編輯時(shí)間、通過審批時(shí)間、修訂時(shí)間等。
(2)工作背景
概括性描述本次任務(wù)的產(chǎn)生原因、標(biāo)注數(shù)據(jù)的來源等。
(3)數(shù)據(jù)應(yīng)用場景
概括性描述本次數(shù)據(jù)標(biāo)注完成后的應(yīng)用方式或應(yīng)用場景。
(4)數(shù)據(jù)類型
確定本次標(biāo)注數(shù)據(jù)的數(shù)據(jù)類型如圖片、文字、語音、視頻等,提供數(shù)據(jù)類型展示實(shí)例。
(5)標(biāo)注方式
明確本次采用全人工或半人工方式進(jìn)行標(biāo)注并確定需要使用的工具。
(6)導(dǎo)入導(dǎo)出格式
應(yīng)明確提出本次待標(biāo)注數(shù)據(jù)導(dǎo)入或?qū)С鰳?biāo)注工具的格式。
(7)標(biāo)注結(jié)果格式
應(yīng)明確提出本次標(biāo)注結(jié)果輸出格式。
(8)標(biāo)注結(jié)果可選值
如標(biāo)注結(jié)果存在可選值范圍,應(yīng)明確列出。
(9)實(shí)施環(huán)境
描述標(biāo)注工作的實(shí)施環(huán)境,如電力行業(yè)的敏感數(shù)據(jù)應(yīng)在內(nèi)網(wǎng)環(huán)境下進(jìn)行標(biāo)注工作,而非敏感數(shù)據(jù)則
可以到相關(guān)方任何的標(biāo)注環(huán)境中進(jìn)行標(biāo)注。
(10)標(biāo)注正確示例
應(yīng)提供標(biāo)注任務(wù)正確標(biāo)注或有效標(biāo)注的實(shí)例。
(11)標(biāo)注錯誤示例
應(yīng)提供標(biāo)注任務(wù)錯誤標(biāo)注或無效標(biāo)注的實(shí)例。
(12)數(shù)據(jù)保密規(guī)則
應(yīng)根據(jù)《數(shù)據(jù)資產(chǎn)管理辦法》判定數(shù)據(jù)是否涉密,并根據(jù)規(guī)定對標(biāo)注數(shù)據(jù)進(jìn)行保護(hù)。
(13)標(biāo)注開始時(shí)間
描述本次標(biāo)注任務(wù)的具體開始時(shí)間。
(14)期望交付時(shí)間
3
T/CEC
描述本次標(biāo)注任務(wù)的期望交付時(shí)間。
(15)術(shù)語體系規(guī)范化要求
在標(biāo)注過程中使用的術(shù)語體系需要規(guī)范化,至少應(yīng)滿足下列要求:
1)應(yīng)遵從國家法規(guī)和行業(yè)規(guī)范。
2)應(yīng)符合企業(yè)內(nèi)部管理規(guī)范及要求。
3)應(yīng)建立統(tǒng)一的標(biāo)注術(shù)語字典,確保數(shù)據(jù)標(biāo)注人員對術(shù)語定義的理解一致。
4)在學(xué)習(xí)標(biāo)注說明規(guī)則及進(jìn)行相應(yīng)的培訓(xùn)后,數(shù)據(jù)標(biāo)注人員能夠規(guī)范地使用標(biāo)注術(shù)語完成任務(wù)。
5)應(yīng)被標(biāo)注任務(wù)的發(fā)布方及相關(guān)方認(rèn)可。
5待標(biāo)注數(shù)據(jù)整理技術(shù)要求
5.1電力業(yè)務(wù)數(shù)據(jù)收集
標(biāo)注數(shù)據(jù)收集工作應(yīng)以業(yè)務(wù)為導(dǎo)向開展,主要涉及生產(chǎn)領(lǐng)域圖像、視頻、點(diǎn)云數(shù)據(jù),營銷場景語音、
文本等,根據(jù)標(biāo)注任務(wù)的業(yè)務(wù)場景、標(biāo)注樣本或前期經(jīng)驗(yàn)進(jìn)行數(shù)據(jù)收集分析,數(shù)據(jù)收集需明確的要素包
括但不限于類型、量級、數(shù)據(jù)涉密程度、工作量估算、用途及應(yīng)用場景。
5.1.1類型
應(yīng)明確標(biāo)注數(shù)據(jù)類型如圖像、音頻、文本、視頻等。
5.1.2量級
本次標(biāo)注任務(wù)待標(biāo)注數(shù)據(jù)的數(shù)量。
5.1.3來源業(yè)務(wù)系統(tǒng)
本次標(biāo)注任務(wù)數(shù)據(jù)所產(chǎn)生的源業(yè)務(wù)系統(tǒng),一般生產(chǎn)類數(shù)據(jù)來自電網(wǎng)管理平臺相關(guān)應(yīng)用系統(tǒng),營銷類
數(shù)據(jù)來自客戶服務(wù)平臺相關(guān)應(yīng)用系統(tǒng),例如變電站設(shè)備、表計(jì)讀數(shù)圖像來自變電站智能巡檢系統(tǒng)、95598
語音數(shù)據(jù)來自95598智能客服系統(tǒng)等。
5.1.4數(shù)據(jù)產(chǎn)生方式
本次標(biāo)注任務(wù)數(shù)據(jù)的產(chǎn)生方式,如客戶來電錄音、服務(wù)工單等。
5.1.5數(shù)據(jù)文件命名規(guī)則
本次標(biāo)注任務(wù)數(shù)據(jù)文件的命名規(guī)律或規(guī)范說明。
5.1.6數(shù)據(jù)保密程度
應(yīng)根據(jù)《數(shù)據(jù)資產(chǎn)管理辦法》判定數(shù)據(jù)是否涉密。
5.1.7用途
確認(rèn)標(biāo)注結(jié)果將作為模型的測試集或訓(xùn)練集。
5.1.8應(yīng)用場景
確認(rèn)標(biāo)注結(jié)果的應(yīng)用場景如絕緣子的破損檢測、施工人員人臉識別、設(shè)備儀表數(shù)值狀態(tài)檢測等。
5.1.9標(biāo)注領(lǐng)域
應(yīng)明確標(biāo)注領(lǐng)域,如圖片分類、語音識別、語音匹配等。
5.1.10工作量估算
根據(jù)標(biāo)注數(shù)據(jù)的類型、量級、用途、標(biāo)注任務(wù)人員來源、標(biāo)注平臺、標(biāo)注組件等要素確定本次任務(wù)
工作量。
5.2電力業(yè)務(wù)數(shù)據(jù)整理
4
T/CEC
在進(jìn)行標(biāo)注數(shù)據(jù)整理過程中,應(yīng)明確數(shù)據(jù)與結(jié)果文件存放目錄結(jié)構(gòu),在任務(wù)分配與回收的時(shí)候按指
定的目錄進(jìn)行數(shù)據(jù)組織,數(shù)據(jù)的整理應(yīng)體現(xiàn)業(yè)務(wù)需求,存放整理后有利于根據(jù)業(yè)務(wù)開展后續(xù)工作,例如
生產(chǎn)域不同類型場景分別存放,同樣場景一起存放。
數(shù)據(jù)整理應(yīng)符合以下要求:
(1)文件夾及各級子目錄名稱首選簡潔的拼音首字母組合標(biāo)識。
(2)數(shù)據(jù)整理目錄首選按照類別分類,簡化目錄級別。
(3)子目錄等級最深不超過4級。
5.3電力業(yè)務(wù)數(shù)據(jù)文件命名規(guī)則
標(biāo)注任務(wù)的數(shù)據(jù)文件及結(jié)果文件命名規(guī)則應(yīng)符合以下要求:
(1)要標(biāo)注的文件名稱應(yīng)簡短(最長不能超過32個字符)且只能包含字母、數(shù)字、下劃線、中
間杠。
(2)待標(biāo)注數(shù)據(jù)文件與結(jié)果文件命名應(yīng)進(jìn)行區(qū)分,數(shù)據(jù)文件應(yīng)使用“data_”為前綴,結(jié)果文件應(yīng)
使用“result_”為前綴。
(3)為避免出現(xiàn)標(biāo)注數(shù)據(jù)重名,應(yīng)在基礎(chǔ)文件名后添加唯一標(biāo)識碼,標(biāo)識碼生成應(yīng)按十進(jìn)制順序
遞增規(guī)則生成四位數(shù)或以上唯一標(biāo)識碼,如:000001、000002、000003等等,標(biāo)識碼具體位數(shù)可根據(jù)
文件數(shù)據(jù)量級進(jìn)行增加。
6標(biāo)注環(huán)境及工具選用要求
6.1標(biāo)注環(huán)境選擇標(biāo)準(zhǔn)
數(shù)據(jù)標(biāo)注任務(wù)具有一定特殊性,部分企業(yè)內(nèi)部數(shù)據(jù)具有較高保密要求,應(yīng)根據(jù)《數(shù)據(jù)資產(chǎn)管理辦法》
規(guī)定對標(biāo)注環(huán)境進(jìn)行選擇。
應(yīng)根據(jù)標(biāo)注數(shù)據(jù)不同涉密情況選擇以下環(huán)境進(jìn)行標(biāo)注:
(1)涉密數(shù)據(jù):標(biāo)注工作應(yīng)在可信任的企業(yè)內(nèi)部環(huán)境或任務(wù)發(fā)布方指定的可信任外部環(huán)境下進(jìn)行。
(2)非涉密數(shù)據(jù):標(biāo)注團(tuán)隊(duì)可根據(jù)具體情況選擇標(biāo)注環(huán)境。
6.2標(biāo)注工具選擇標(biāo)準(zhǔn)
在進(jìn)行相關(guān)數(shù)據(jù)標(biāo)注工作過程中,選擇標(biāo)注工具應(yīng)符合安全性、易操作性、數(shù)據(jù)輸入輸出規(guī)范性、
統(tǒng)一性以及合法性標(biāo)準(zhǔn)。
6.2.1安全性
應(yīng)選用安全可信的標(biāo)注工具進(jìn)行標(biāo)注工作,避免數(shù)據(jù)泄露造成安全事故。
6.2.2易操作性
標(biāo)注工具應(yīng)具有提高標(biāo)注效率的功能,在減少標(biāo)注人員工作量的同時(shí)確保標(biāo)注質(zhì)量。
6.2.3數(shù)據(jù)輸入輸出規(guī)范性
標(biāo)注工具應(yīng)支持導(dǎo)入及導(dǎo)出功能,可導(dǎo)入指定格式的數(shù)據(jù)??蓪?dǎo)出符合要求格式及質(zhì)量要求的數(shù)據(jù)。
6.2.4統(tǒng)一性
標(biāo)注工具應(yīng)優(yōu)先選用企業(yè)統(tǒng)一的人工智能平臺提供的標(biāo)注工具,若平臺未包含特定數(shù)據(jù)類型的標(biāo)注
工具,可選用其他標(biāo)注工具進(jìn)行標(biāo)注,但同類型的數(shù)據(jù)標(biāo)注工作應(yīng)優(yōu)先采用同款標(biāo)注工具進(jìn)行標(biāo)示,確
保輸入輸出格式的統(tǒng)一。
6.2.5合法性
標(biāo)注工具或平臺應(yīng)具備資質(zhì)/資格證書、許可證、版權(quán)等。
7標(biāo)注任務(wù)執(zhí)行技術(shù)要求
7.1標(biāo)注子任務(wù)創(chuàng)建
5
T/CEC
進(jìn)行數(shù)據(jù)標(biāo)注子任務(wù)創(chuàng)建時(shí),應(yīng)按照不同類別或任務(wù)編號對標(biāo)注數(shù)據(jù)進(jìn)行整理及劃分,方便標(biāo)注團(tuán)
隊(duì)按自身任務(wù)獲取對應(yīng)標(biāo)注數(shù)據(jù)。
數(shù)據(jù)標(biāo)注子任務(wù)目標(biāo)說明宜采用文件形式進(jìn)行描述,應(yīng)至少包含明確的標(biāo)注任務(wù)信息、標(biāo)注方式指
引以及標(biāo)注結(jié)果存放位置。
7.1.1明確的標(biāo)注任務(wù)信息
包括本次標(biāo)注的主要目標(biāo)、標(biāo)注需求(需要完成的標(biāo)注數(shù)據(jù)量級、任務(wù)的優(yōu)先級,對標(biāo)注結(jié)果質(zhì)量
的要求、對標(biāo)注完成時(shí)間的要求)、任務(wù)描述等。
7.1.2標(biāo)注方式指引
根據(jù)當(dāng)前標(biāo)注數(shù)據(jù)的任務(wù),明確標(biāo)注方式(全人工或半人工)、標(biāo)注工具、標(biāo)注環(huán)境的指引,方便
標(biāo)注人員開展標(biāo)注任務(wù)。
7.1.3標(biāo)注結(jié)果存放位置
指定標(biāo)注完成后的結(jié)果存放位置,方便標(biāo)注結(jié)果的收集。
7.2標(biāo)注數(shù)據(jù)移交
進(jìn)行標(biāo)注數(shù)據(jù)移交工作前,應(yīng)先根據(jù)公司《數(shù)據(jù)資產(chǎn)管理辦法》確認(rèn)標(biāo)注數(shù)據(jù)是否涉密再確定數(shù)據(jù)
移交方式。標(biāo)注數(shù)據(jù)的移交工作應(yīng)至少符合以下技術(shù)要求:
7.2.1使用可信存儲設(shè)備
包括使用可信的辦公電腦、安全移動硬盤、安全U盤進(jìn)行標(biāo)注文件的轉(zhuǎn)移及提交。
7.2.2使用可信內(nèi)部網(wǎng)絡(luò)
包括使用可信的內(nèi)部網(wǎng)絡(luò)進(jìn)行標(biāo)注數(shù)據(jù)的傳輸、使用安全可信的內(nèi)部溝通工具進(jìn)行文件發(fā)送、使用
可信的軟件平臺進(jìn)行上傳及下載、使用已加密的共享目錄進(jìn)行數(shù)據(jù)共享。
7.3標(biāo)注任務(wù)分發(fā)
根據(jù)標(biāo)注發(fā)布者確定的要求及任務(wù)描述,應(yīng)按之前的數(shù)據(jù)標(biāo)注子任務(wù)目標(biāo)說明把任務(wù)分派給標(biāo)注人
員。標(biāo)注任務(wù)發(fā)布者在進(jìn)行標(biāo)注數(shù)據(jù)分發(fā)時(shí),宜采用文件形式,說明宜包括人員數(shù)量、任務(wù)數(shù)量、任務(wù)
節(jié)點(diǎn)、回收時(shí)間、結(jié)束時(shí)間以及標(biāo)注任務(wù)開展方式等相關(guān)信息。
7.3.1人員數(shù)量
本次參與標(biāo)注任務(wù)的標(biāo)注人員數(shù)量。
7.3.2任務(wù)數(shù)量
本次任務(wù)主體劃分后的子任務(wù)數(shù)量。
7.3.3任務(wù)節(jié)點(diǎn)
每位數(shù)據(jù)標(biāo)注人員需完成的任務(wù)總數(shù)及每個時(shí)間節(jié)點(diǎn)要求完成的任務(wù)數(shù)。
7.3.4回收時(shí)間
任務(wù)目標(biāo)回收時(shí)間及最遲回收時(shí)間。
7.3.5結(jié)束時(shí)間
任務(wù)整體結(jié)束時(shí)間。
7.4標(biāo)注任務(wù)開展方式
在標(biāo)注任務(wù)開展過程中,標(biāo)注方式分為全人工方式標(biāo)注及半人工方式標(biāo)注兩種方式,選擇的標(biāo)注方
式區(qū)別如下:
7.4.1全人工標(biāo)注
6
T/CEC
全人工標(biāo)注的方式指全部待標(biāo)注的數(shù)據(jù)均由標(biāo)注人員進(jìn)行審核分類及標(biāo)注。
7.4.2半人工標(biāo)注方式
半人工標(biāo)注方式指使用有一定判斷能力訓(xùn)練模型,對待標(biāo)注數(shù)據(jù)進(jìn)行分類,標(biāo)注人員只對模型識別
準(zhǔn)確率較低或無法進(jìn)行識別的數(shù)據(jù)進(jìn)行人工識別。
8結(jié)果質(zhì)量保障技術(shù)要求
8.1結(jié)果質(zhì)量檢查
在標(biāo)注任務(wù)開展及回收的過程中,應(yīng)對標(biāo)注結(jié)果進(jìn)行質(zhì)量控制以確保最終的標(biāo)注結(jié)果,達(dá)到交付標(biāo)
準(zhǔn)。標(biāo)注結(jié)果的質(zhì)量檢查方法分為按比例抽查和機(jī)器驗(yàn)證。
8.1.1按比例抽查
按本次任務(wù)的準(zhǔn)確度要求情況確定抽樣比例,對抽樣的標(biāo)注結(jié)果進(jìn)行人工檢查。
8.1.2機(jī)器驗(yàn)證
通過已訓(xùn)練的模型對標(biāo)注結(jié)果進(jìn)行檢查,對于機(jī)器標(biāo)注與人工標(biāo)注有差異的標(biāo)注結(jié)果進(jìn)行人工檢查。
8.2質(zhì)量控制
在標(biāo)注任務(wù)開展過程中,除需要進(jìn)行質(zhì)量檢查外,還需對標(biāo)注結(jié)果進(jìn)行質(zhì)量控制。質(zhì)量檢查主要針
對標(biāo)注結(jié)果,而質(zhì)量控制主要面向標(biāo)注過程,實(shí)時(shí)確保標(biāo)注工作能產(chǎn)生預(yù)期結(jié)果。
標(biāo)注任務(wù)質(zhì)量控制方式可選用多人驗(yàn)證和埋題驗(yàn)證兩種方式進(jìn)行。
8.2.1多人驗(yàn)證
相同任務(wù)安排給不同的標(biāo)注人員,關(guān)注標(biāo)注結(jié)果不一致的情況。
8.2.2埋題驗(yàn)證
預(yù)先在任務(wù)中插入已知結(jié)果的標(biāo)注任務(wù),當(dāng)完成標(biāo)注任務(wù)時(shí)與已知結(jié)果進(jìn)行比對,關(guān)注與已知結(jié)果
不一致的情況。
9結(jié)果交付技術(shù)要求
9.1數(shù)據(jù)標(biāo)注結(jié)果通用技術(shù)要求
標(biāo)注結(jié)果輸出格式應(yīng)使用易閱讀、易解析、易存儲的數(shù)據(jù)格式,格式包括但不限于excel、json
或xml等。輸出的結(jié)果文件應(yīng)包含以下內(nèi)容:
9.1.1標(biāo)簽編號
每個標(biāo)注對象的獨(dú)立編號。
9.1.2標(biāo)注人員
進(jìn)行該對象標(biāo)注的標(biāo)注人員信息。
9.1.3標(biāo)注審核人員
進(jìn)行該標(biāo)注結(jié)果審核的人員信息。
9.1.4原始待標(biāo)注文件路徑
待標(biāo)注對象的名稱或路徑。
9.1.5標(biāo)注結(jié)果文件存放路徑
標(biāo)注完成的結(jié)果存放路徑。
7
T/CEC
9.1.6置信度
標(biāo)簽的置信度。
9.1.7備注
對該標(biāo)注對象的補(bǔ)充說明信息。
9.2常見數(shù)據(jù)類型標(biāo)注結(jié)果技術(shù)要求
常見數(shù)據(jù)類型包括圖像類型數(shù)據(jù)、文本類型數(shù)據(jù)以及語音類型數(shù)據(jù)。
9.2.1圖像類型數(shù)據(jù)標(biāo)注結(jié)果技術(shù)要求
針對標(biāo)注任務(wù),進(jìn)行圖像類標(biāo)注任務(wù)時(shí),標(biāo)注結(jié)果應(yīng)包含圖片信息標(biāo)簽及標(biāo)簽的具體圖像范圍與位
置(范圍與位置可用矩形工具標(biāo)出)。
圖像類型數(shù)據(jù)標(biāo)注結(jié)果文件應(yīng)包含以下內(nèi)容:
(1)圖像對象類型:比如bounding_box或者keypoint。
(2)圖像對象詳情:為對象的空間信息、內(nèi)容信息,或與其它對象的關(guān)系信息。每個對象的詳情
因其類型而異。
9.2.2文本類型數(shù)據(jù)標(biāo)注結(jié)果技術(shù)要求
針對標(biāo)注任務(wù),進(jìn)行文本類標(biāo)注任務(wù)時(shí),標(biāo)注結(jié)果應(yīng)包含文本的意圖匹配結(jié)果標(biāo)識,有多個匹配結(jié)
果的應(yīng)全部進(jìn)行記錄并確定置信度最高的匹配標(biāo)簽。
文本類型數(shù)據(jù)標(biāo)注結(jié)果文件應(yīng)包含以下內(nèi)容:
(1)文本對象類型:比如text_classification或者text_tag。
(2)文本對象詳情:對象的具體文本位置、分類信息、匹配信息,或與其它對象的關(guān)系信息。每
個對象的詳情因其類型而異。
9.2.3語音類型數(shù)據(jù)標(biāo)注結(jié)果技術(shù)要求
語音類標(biāo)注任務(wù)的數(shù)據(jù)結(jié)果應(yīng)包含但不限于語音標(biāo)簽的時(shí)間位置、轉(zhuǎn)寫內(nèi)容、話者分離信息、話者
語速等信息。
語音類型數(shù)據(jù)標(biāo)注結(jié)果文件應(yīng)包含以下內(nèi)容:
(1)語音對象類型:比如speech_to_text。
(2)語音對象詳情:包括對象具體時(shí)間位置和轉(zhuǎn)譯內(nèi)容信息,或與其他對象的關(guān)系信息,每個對
象的詳情因其類型而異,話者分離信息以及噪音標(biāo)簽等如存在,則都應(yīng)在對象詳情中記錄。
9.3數(shù)據(jù)交付技術(shù)參數(shù)要求
數(shù)據(jù)標(biāo)注任務(wù)交付時(shí)應(yīng)向任務(wù)發(fā)布方提供技術(shù)參數(shù)如下:
9.3.1計(jì)劃標(biāo)注數(shù)
統(tǒng)計(jì)本次標(biāo)注任務(wù)原計(jì)劃標(biāo)注的數(shù)據(jù)總數(shù)。
9.3.2實(shí)際標(biāo)注數(shù)
統(tǒng)計(jì)本次標(biāo)注任務(wù)實(shí)際完成的標(biāo)注數(shù)據(jù)總數(shù)。
9.3.3異常或無效數(shù)據(jù)數(shù)
統(tǒng)計(jì)本次標(biāo)注任務(wù)過程中發(fā)現(xiàn)的異?;驘o效數(shù)據(jù)總數(shù)。
9.3.4異?;驘o效數(shù)據(jù)說明
描述本次標(biāo)注任務(wù)過程中發(fā)現(xiàn)的異常或無效數(shù)據(jù)情況。
9.3.5標(biāo)注數(shù)據(jù)類型
描述本次標(biāo)注任務(wù)的標(biāo)注數(shù)據(jù)類型。
8
T/CEC
9.3.6標(biāo)注環(huán)境
描述本次標(biāo)注任務(wù)的實(shí)際標(biāo)注環(huán)境。
9.3.7標(biāo)注工具
描述本次標(biāo)注任務(wù)的實(shí)際使用的標(biāo)注工具。
9.3.8標(biāo)注人員
描述本次標(biāo)注任務(wù)實(shí)際使用的標(biāo)注人員情況。
9.3.9標(biāo)注審核人員
描述本次標(biāo)注任務(wù)標(biāo)注結(jié)果審核人員的情況。
9.3.10數(shù)據(jù)總體置信度
統(tǒng)計(jì)本次標(biāo)注任務(wù)標(biāo)注結(jié)果的總體置信度。
9.3.11標(biāo)注結(jié)果交付方式
描述本次標(biāo)注任務(wù)完成后標(biāo)注結(jié)果的交付方式。
9.3.12標(biāo)注數(shù)據(jù)質(zhì)檢結(jié)果
描述本次標(biāo)注任務(wù)的標(biāo)注結(jié)果質(zhì)量檢查情況。
9.3.13標(biāo)注開始時(shí)間
描述本次標(biāo)注任務(wù)的實(shí)際開始時(shí)間。
9.3.14標(biāo)注交付時(shí)間
描述本次標(biāo)注任務(wù)的實(shí)際完成及交付時(shí)間。
10安全技術(shù)要求
(1)應(yīng)根據(jù)企業(yè)《數(shù)據(jù)資產(chǎn)管理辦法》對標(biāo)注數(shù)據(jù)是否涉密進(jìn)行判定,并根據(jù)辦法對標(biāo)注數(shù)據(jù)進(jìn)行
保護(hù)。
(2)本標(biāo)準(zhǔn)的任何技術(shù)要求和工作均應(yīng)符合電力企業(yè)信息化建設(shè)與網(wǎng)絡(luò)安全管理原則要求。
9
T/CEC
目次
前言..............................................................................II
1.范圍................................................................................1
2.規(guī)范性引用文件......................................................................1
3.術(shù)語和定義..........................................................................1
4.標(biāo)注任務(wù)技術(shù)說明要求................................................................3
5.待標(biāo)注數(shù)據(jù)整理技術(shù)要求..............................................................4
5.1.電力業(yè)務(wù)數(shù)據(jù)收集................................................................4
5.2.電力業(yè)務(wù)數(shù)據(jù)整理................................................................4
5.3.電力業(yè)務(wù)數(shù)據(jù)文件命名規(guī)則........................................................5
6.標(biāo)注環(huán)境及工具選用要求...............................................................5
6.1.標(biāo)注環(huán)境選擇標(biāo)準(zhǔn)................................................................5
6.2.標(biāo)注工具選擇標(biāo)準(zhǔn)................................................................5
7.標(biāo)注任務(wù)執(zhí)行技術(shù)要求.................................................................5
7.1.標(biāo)注子任務(wù)創(chuàng)建..................................................................5
7.2.標(biāo)注數(shù)據(jù)移交....................................................................6
7.3.標(biāo)注任務(wù)分發(fā)....................................................................6
7.4.標(biāo)注任務(wù)開展....................................................................6
8.結(jié)果質(zhì)量保障技術(shù)要求................................................................7
8.1.質(zhì)量檢查........................................................................7
8.2.質(zhì)量控制........................................................................7
9.結(jié)果交付技術(shù)要求....................................................................7
9.1.數(shù)據(jù)標(biāo)注結(jié)果通用技術(shù)要求........................................................7
9.2.常見數(shù)據(jù)類型標(biāo)注結(jié)果技術(shù)要求....................................................8
9.3.數(shù)據(jù)交付技術(shù)參數(shù)要求............................................................8
10.安全技術(shù)要求........................................................................9
I
T/CEC
電力人工智能訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)
1范圍
人工智能圖像、語音訓(xùn)練數(shù)據(jù)集歸集標(biāo)準(zhǔn)明確了電力企業(yè)人工智能訓(xùn)練數(shù)據(jù)標(biāo)注工作涉及的數(shù)據(jù)收
集整理、標(biāo)注環(huán)境及工具選用、標(biāo)注任務(wù)執(zhí)行、標(biāo)注結(jié)果質(zhì)量控制、標(biāo)注結(jié)果交付等技術(shù)要求。
本標(biāo)準(zhǔn)適用于電力業(yè)務(wù)場景下的人工智能訓(xùn)練數(shù)據(jù)集歸集。
2規(guī)范性引用文件
下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,
僅該日期對應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本
文件。
GB/T38318-2019《電力監(jiān)控系統(tǒng)網(wǎng)絡(luò)安全評估指南》
GB/T15237.1《術(shù)語工作詞匯第1部分:理論與應(yīng)用》
GB/T5271.1《信息技術(shù)詞匯第1部分:基本術(shù)語》
GB/T5271.28《信息技術(shù)詞匯第28部分:人工智能基本概念與專家系統(tǒng)》
GB/T5271.29《信息技術(shù)詞匯第29部分:人工智能語音識別與合成》
GB/T5271.31《信息技術(shù)詞匯第31部分:人工智能機(jī)器學(xué)習(xí)》
GB/T5271.34《信息技術(shù)詞匯第34部分:人工智能神經(jīng)網(wǎng)絡(luò)》
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
智能組件intelligentcomponent
智能組件是基于人工智能對數(shù)據(jù)和函數(shù)的封裝。包括調(diào)用API組件、下載的工具組件、SDK組件。
3.2
圖像分類imageclassification
圖像分類通過手工特征或特征學(xué)習(xí)方法對整個圖像進(jìn)行全部描述,然后使用分類器判別物體類別。
3.3
光學(xué)字符識別opticalcharacterrecognition(OCR)
光學(xué)字符識別,是指利用深度學(xué)習(xí)技術(shù),將圖片上的文字內(nèi)容,智能識別成為可編輯的文本。
3.4
語音speech
某一給定自然語言的話音、模式、或模擬這類模式的聲學(xué)信號。
3.5
語音識別speechrecognition
通過功能單元對人的語音所表示信息的感知與分析。要識別的信息可以是預(yù)定義的字序列中的一個
字,或是預(yù)定義的語言中的一個音素,有時(shí)可通過說話者的聲音特征對說話者進(jìn)行標(biāo)識。
3.6
1
T/CEC
數(shù)據(jù)標(biāo)注dataannotation
對文本、圖像、語音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類、整理、編輯、糾錯、標(biāo)記和批注等操作,為待
標(biāo)注數(shù)據(jù)增加標(biāo)簽,生成滿足機(jī)器學(xué)習(xí)訓(xùn)練要求的機(jī)器可讀數(shù)據(jù)編碼。
3.7
標(biāo)簽label
標(biāo)識數(shù)據(jù)的特征、類別和屬性等,可用于建立數(shù)據(jù)及機(jī)器學(xué)習(xí)訓(xùn)練要求所定義的機(jī)器可讀數(shù)據(jù)編碼
間的聯(lián)系。
3.8
標(biāo)注任務(wù)annotationtask
按照數(shù)據(jù)標(biāo)注規(guī)范對指定數(shù)據(jù)集進(jìn)行標(biāo)注的過程。
3.9
標(biāo)注工具annotationtool
數(shù)據(jù)標(biāo)注員完成標(biāo)注任務(wù)產(chǎn)生標(biāo)注結(jié)果時(shí)所需的工具和軟件。標(biāo)注工具可生成標(biāo)簽并提供參考模板。
不同的數(shù)據(jù)類型和標(biāo)注任務(wù)需要不同的標(biāo)注工具。標(biāo)注工具按自動化程度可分為全人工標(biāo)注、半自動標(biāo)
注。
3.10
標(biāo)注平臺annotationplatform
開展標(biāo)注任務(wù)的系統(tǒng)化框架。標(biāo)注平臺在包含標(biāo)注工具全部功能的基礎(chǔ)上將所有標(biāo)注環(huán)節(jié)工具化,
可有效地對標(biāo)注任務(wù)進(jìn)行全局管理和跟蹤。
3.11
標(biāo)注描述說明annotationinstruction
數(shù)據(jù)需求方用于明確標(biāo)注任務(wù)和標(biāo)注數(shù)據(jù)的書面陳述,包含執(zhí)行標(biāo)注任務(wù)所需的標(biāo)注工具、任務(wù)描
述、標(biāo)注方法、正確示例、常見錯誤等內(nèi)容。
3.12
標(biāo)注方法annotationmethod
定義數(shù)據(jù)標(biāo)注員進(jìn)行數(shù)據(jù)標(biāo)注時(shí)的環(huán)境和流程,應(yīng)包含標(biāo)注對象定義、所用標(biāo)注工具和標(biāo)注平臺、
標(biāo)注格式、標(biāo)注前的準(zhǔn)備工作、標(biāo)注后的處理工作等。
3.13
全人工標(biāo)注full-manualannotation
指完全依靠人力對全部待標(biāo)注數(shù)據(jù)進(jìn)行標(biāo)注。
3.14
半自動標(biāo)注semi-automaticannotation
使用人工結(jié)合自動化工具或訓(xùn)練模型的方式進(jìn)行數(shù)據(jù)標(biāo)注。
3.15
結(jié)果文件resultfile
指待標(biāo)注數(shù)據(jù)在完成標(biāo)注工作后產(chǎn)生帶有標(biāo)簽信息的文件。
3.16
2
T/CEC
數(shù)據(jù)標(biāo)注員datalabeler
負(fù)責(zé)對文本、圖像、語音、視頻等待標(biāo)注數(shù)據(jù)進(jìn)行歸類、整理、編輯、糾錯、標(biāo)記和批注等操作的
工作人員。
4標(biāo)注任務(wù)技術(shù)說明文件要求
在進(jìn)行相關(guān)機(jī)器學(xué)習(xí)數(shù)據(jù)標(biāo)注任務(wù)前,應(yīng)明確本次標(biāo)注工作的技術(shù)標(biāo)準(zhǔn),生成詳細(xì)的技術(shù)說明文件。
標(biāo)注任務(wù)的技術(shù)說明文件應(yīng)包含本次描述文件的版本信息、標(biāo)注工作的任務(wù)背景、標(biāo)注數(shù)據(jù)的應(yīng)用場景、
標(biāo)注數(shù)據(jù)的類型、標(biāo)注方式、導(dǎo)入導(dǎo)出格式、標(biāo)注結(jié)果格式、標(biāo)注結(jié)果可選值、標(biāo)注工作的實(shí)施環(huán)境、
數(shù)據(jù)保密規(guī)則、標(biāo)注的正確示例、標(biāo)注的錯誤示例以及術(shù)語體系規(guī)范化要求。
(1)版本信息
描述說明文件應(yīng)詳細(xì)記錄說明文件當(dāng)前的版本、編輯時(shí)間、通過審批時(shí)間、修訂時(shí)間等。
(2)工作背景
概括性描述本次任務(wù)的產(chǎn)生原因、標(biāo)注數(shù)據(jù)的來源等。
(3)數(shù)據(jù)應(yīng)用場景
概括性描述本次數(shù)據(jù)標(biāo)注完成后的應(yīng)用方式或應(yīng)用場景。
(4)數(shù)據(jù)類型
確定本次標(biāo)注數(shù)據(jù)的數(shù)據(jù)類型如圖片、文字、語音、視頻等,提供數(shù)據(jù)類型展示實(shí)例。
(5)標(biāo)注方式
明確本次采用全人工或半人工方式進(jìn)行標(biāo)注并確定需要使用的工具。
(6)導(dǎo)入導(dǎo)出格式
應(yīng)明確提出本次待標(biāo)注數(shù)據(jù)導(dǎo)入或?qū)С鰳?biāo)注工具的格式。
(7)標(biāo)注結(jié)果格式
應(yīng)明確提出本次標(biāo)注結(jié)果輸出格式。
(8)標(biāo)注結(jié)果可選值
如標(biāo)注結(jié)果存在可選值范圍,應(yīng)明確列出。
(9)實(shí)施環(huán)境
描述標(biāo)注工作的實(shí)施環(huán)境,如電力行業(yè)的敏感數(shù)據(jù)應(yīng)在內(nèi)網(wǎng)環(huán)境下進(jìn)行標(biāo)注工作,而非敏感數(shù)據(jù)則
可以到相關(guān)方任何的標(biāo)注環(huán)境中進(jìn)行標(biāo)注。
(10)標(biāo)注正確示例
應(yīng)提供標(biāo)注任務(wù)正確標(biāo)注或有效標(biāo)注的實(shí)例。
(11)標(biāo)注錯誤示例
應(yīng)提供標(biāo)注任務(wù)錯誤標(biāo)注或無效標(biāo)注的實(shí)例。
(12)數(shù)據(jù)保密規(guī)則
應(yīng)根據(jù)《數(shù)據(jù)資產(chǎn)管理辦法》判定數(shù)據(jù)是否涉密,并根據(jù)規(guī)定對標(biāo)注數(shù)據(jù)進(jìn)行保護(hù)。
(13)標(biāo)注開始時(shí)間
描述本次標(biāo)注任務(wù)的具體開始時(shí)間。
(14)期望交付時(shí)間
3
T/CEC
描述本次標(biāo)注任務(wù)的期望交付時(shí)間。
(15)術(shù)語體系規(guī)范化要求
在標(biāo)注過程中使用的術(shù)語體系需要規(guī)范化,至少應(yīng)滿足下列要求:
1)應(yīng)遵從國家法規(guī)和行業(yè)規(guī)范。
2)應(yīng)符合企業(yè)內(nèi)部管理規(guī)范及要求。
3)應(yīng)建立統(tǒng)一的標(biāo)注術(shù)語字典,確保數(shù)據(jù)標(biāo)注人員對術(shù)語定義的理解一致。
4)在學(xué)習(xí)標(biāo)注說明規(guī)則及進(jìn)行相應(yīng)的培訓(xùn)后,數(shù)據(jù)標(biāo)注人員能夠規(guī)范地使用標(biāo)注術(shù)語完成任務(wù)。
5)應(yīng)被標(biāo)注任務(wù)的發(fā)布方及相關(guān)方認(rèn)可。
5待標(biāo)注數(shù)據(jù)整理技術(shù)要求
5.1電力業(yè)務(wù)數(shù)據(jù)收集
標(biāo)注數(shù)據(jù)收集工作應(yīng)以業(yè)務(wù)為導(dǎo)向開展,主要涉及生產(chǎn)領(lǐng)域圖像、視頻、點(diǎn)云數(shù)據(jù),營銷場景語音、
文本等,根據(jù)標(biāo)注任務(wù)的業(yè)務(wù)場景、標(biāo)注樣本或前期經(jīng)驗(yàn)進(jìn)行數(shù)據(jù)收集分析,數(shù)據(jù)收集需明確的要素包
括但不限于類型、量級、數(shù)據(jù)涉密程度、工作量估算、用途及應(yīng)用場景。
5.1.1類型
應(yīng)明確標(biāo)注數(shù)據(jù)類型如圖像、音頻、文本、視頻等。
5.1.2量級
本次標(biāo)注任務(wù)待標(biāo)注數(shù)據(jù)的數(shù)量。
5.1.3來源業(yè)務(wù)系統(tǒng)
本次標(biāo)注任務(wù)數(shù)據(jù)所產(chǎn)生的源業(yè)務(wù)系統(tǒng),一般生產(chǎn)類數(shù)據(jù)來自電網(wǎng)管理平臺相關(guān)應(yīng)用系統(tǒng),營銷類
數(shù)據(jù)來自客戶服務(wù)平臺相關(guān)應(yīng)用系統(tǒng),例如變電站設(shè)備、表計(jì)讀數(shù)圖像來自變電站智能巡檢系統(tǒng)、95598
語音數(shù)據(jù)來自95598智能客服系統(tǒng)等。
5.1.4數(shù)據(jù)產(chǎn)生方式
本次標(biāo)注任務(wù)數(shù)據(jù)的產(chǎn)生方式,如客戶來電錄音、服務(wù)工單等。
5.1.5數(shù)據(jù)文件命名規(guī)則
本次標(biāo)注任務(wù)數(shù)據(jù)文件的命名規(guī)律或規(guī)范說明。
5.1.6數(shù)據(jù)保密程度
應(yīng)根據(jù)《數(shù)據(jù)資產(chǎn)管理辦法》判定數(shù)據(jù)是否涉密。
5.1.7用途
確認(rèn)標(biāo)注結(jié)果將作為模型的測試集或訓(xùn)練集。
5.1.8應(yīng)用場景
確認(rèn)標(biāo)注結(jié)果的應(yīng)用場景如絕緣子的破損檢測、施工人員人臉識別、設(shè)備儀表數(shù)值狀態(tài)檢測等。
5.1.9標(biāo)注領(lǐng)域
應(yīng)明確標(biāo)注領(lǐng)域,如圖片分類、語音識別、語音匹配等。
5.1.10工作量估算
根據(jù)標(biāo)注數(shù)據(jù)的類型、量級、用途、標(biāo)注任務(wù)人員來源、標(biāo)注平臺、標(biāo)注組件等要素確定本次任務(wù)
工作量。
5.2電力業(yè)務(wù)數(shù)據(jù)整理
4
T/CEC
在進(jìn)行標(biāo)注數(shù)據(jù)整理過程中,應(yīng)明確數(shù)據(jù)與結(jié)果文件存放目錄結(jié)構(gòu),在任務(wù)分配與回收的時(shí)候按指
定的目錄進(jìn)行數(shù)據(jù)組織,數(shù)據(jù)的整理應(yīng)體現(xiàn)業(yè)務(wù)需求,存放整理后有利于根據(jù)業(yè)務(wù)開展后續(xù)工作,例如
生產(chǎn)域不同類型場景分別存放,同樣場景一起存放。
數(shù)據(jù)整理應(yīng)符合以下要求:
(1)文件夾及各級子目錄名稱首選簡潔的拼音首字母組合標(biāo)識。
(2)數(shù)據(jù)整理目錄首選按照類別分類,簡化目錄級別。
(3)子目錄等級最深不超過4級。
5.3電力業(yè)務(wù)數(shù)據(jù)文件命名規(guī)則
標(biāo)注任務(wù)的數(shù)據(jù)文件及結(jié)果文件命名規(guī)則應(yīng)符合以下要求:
(1)要標(biāo)注的文件名稱應(yīng)簡短(最長不能超過32個字符)且只能包含字母、數(shù)字、下劃線、中
間杠。
(2)待標(biāo)注數(shù)據(jù)文件與結(jié)果文件命名應(yīng)進(jìn)行區(qū)分,數(shù)據(jù)文件應(yīng)使用“data_”為前綴,結(jié)果文件應(yīng)
使用“result_”為前綴。
(3)為避免出現(xiàn)標(biāo)注數(shù)據(jù)重名,應(yīng)在基礎(chǔ)文件名后添加唯一標(biāo)識碼,標(biāo)識碼生成應(yīng)按十進(jìn)制順序
遞增規(guī)則生成四位數(shù)或以上唯一標(biāo)識碼,如:000001、000002、000003等等,標(biāo)識碼具體位數(shù)可根據(jù)
文件數(shù)據(jù)量級進(jìn)行增加。
6標(biāo)注環(huán)境及工具選用要求
6.1標(biāo)注環(huán)境選擇標(biāo)準(zhǔn)
數(shù)據(jù)標(biāo)注任務(wù)具有一定特殊性,部分企業(yè)內(nèi)部數(shù)據(jù)具有較高保密要求,應(yīng)根據(jù)《數(shù)據(jù)資產(chǎn)管理辦法》
規(guī)定對標(biāo)注環(huán)境進(jìn)行選擇。
應(yīng)根據(jù)標(biāo)注數(shù)據(jù)不同涉密情況選擇以下環(huán)境進(jìn)行標(biāo)注:
(1)涉密數(shù)據(jù):標(biāo)注工作應(yīng)在可信任的企業(yè)內(nèi)部環(huán)境或任務(wù)發(fā)布方指定的可信任外部環(huán)境下進(jìn)行。
(2)非涉密數(shù)據(jù):標(biāo)注團(tuán)隊(duì)可根據(jù)具體情況選擇標(biāo)注環(huán)境。
6.2標(biāo)注工具選擇標(biāo)準(zhǔn)
在進(jìn)行相關(guān)數(shù)據(jù)標(biāo)注工作過程中,選擇標(biāo)注工具應(yīng)符合安全性、易操作性、數(shù)據(jù)輸入輸出規(guī)范性、
統(tǒng)一性以及合法性標(biāo)準(zhǔn)。
6.2.1安全性
應(yīng)選用安全可信的標(biāo)注工具進(jìn)行標(biāo)注工作,避免數(shù)據(jù)泄露造成安全事故。
6.2.2易操作性
標(biāo)注工具應(yīng)具有提高標(biāo)注效率的功能,在減少標(biāo)注人員工作量的同時(shí)確保標(biāo)注質(zhì)量。
6.2.3數(shù)據(jù)輸入輸出規(guī)范性
標(biāo)注工具應(yīng)支持導(dǎo)入及導(dǎo)出功能,可導(dǎo)入指定格式的數(shù)據(jù)??蓪?dǎo)出符合要求格式及質(zhì)量要求的數(shù)據(jù)。
6.2.4統(tǒng)一性
標(biāo)注工具應(yīng)優(yōu)先選用企業(yè)統(tǒng)一的人工智能平臺提供的標(biāo)注工具,若平臺未包含特定數(shù)據(jù)類型的標(biāo)注
工具,可選用其他標(biāo)注工具進(jìn)行標(biāo)注,但同類型的數(shù)據(jù)標(biāo)注工作應(yīng)優(yōu)先采用同款標(biāo)注工具進(jìn)行標(biāo)示,確
保輸入輸出格式的統(tǒng)一。
6.2.5合法性
標(biāo)注工具或平臺應(yīng)具備資質(zhì)/資格證書、許可證、版權(quán)等。
7標(biāo)注任務(wù)執(zhí)行技術(shù)要求
7.1標(biāo)注子任務(wù)創(chuàng)建
5
T/CEC
進(jìn)行數(shù)據(jù)標(biāo)注子任務(wù)創(chuàng)建時(shí),應(yīng)按照不同類別或任務(wù)編號對標(biāo)注數(shù)據(jù)進(jìn)行整理及劃分,方便標(biāo)注團(tuán)
隊(duì)按自身任務(wù)獲取對應(yīng)標(biāo)注數(shù)據(jù)。
數(shù)據(jù)標(biāo)注子任務(wù)目標(biāo)說明宜采用文件形式進(jìn)行描述,應(yīng)至少包含明確的標(biāo)注任務(wù)信息、標(biāo)注方式指
引以及標(biāo)注結(jié)果存放位置。
7.1.1明確的標(biāo)注任務(wù)信息
包括本次標(biāo)注的主要目標(biāo)、標(biāo)注需求(需要完成的標(biāo)注數(shù)據(jù)量級、任務(wù)的優(yōu)先級,對標(biāo)注結(jié)果質(zhì)量
的要求、對標(biāo)注完成時(shí)間的要求)、任務(wù)描述等。
7.1.2標(biāo)注方式指引
根據(jù)當(dāng)前標(biāo)注數(shù)據(jù)的任務(wù),明確標(biāo)注方式(全人工或半人工)、標(biāo)注工具、標(biāo)注環(huán)境的指引,方便
標(biāo)注人員開展標(biāo)注任務(wù)。
7.1.3標(biāo)注結(jié)果存放位置
指定標(biāo)注完成后的結(jié)果存放位置,方便標(biāo)注結(jié)果的收集。
7.2標(biāo)注數(shù)據(jù)移交
進(jìn)行標(biāo)注數(shù)據(jù)移交工作前,應(yīng)先根據(jù)公司《數(shù)據(jù)資產(chǎn)管理辦法》確認(rèn)標(biāo)注數(shù)據(jù)是否涉密再確定數(shù)據(jù)
移交方式。標(biāo)注數(shù)據(jù)的移交工作應(yīng)至少符合以下技術(shù)要求:
7.2.1使用可信存儲設(shè)備
包括使用可信的辦公電腦、安全移動硬盤、安全U盤進(jìn)行標(biāo)注文件的轉(zhuǎn)移及提交。
7.2.2使用可信內(nèi)部網(wǎng)絡(luò)
包括使用可信的內(nèi)部網(wǎng)絡(luò)進(jìn)行標(biāo)注數(shù)據(jù)的傳輸、使用安全可信的內(nèi)部溝通工具進(jìn)行文件發(fā)送、使用
可信的軟件平臺進(jìn)行上傳及下載、使用已加密的共享目錄進(jìn)行數(shù)據(jù)共享。
7.3標(biāo)注任務(wù)分發(fā)
根據(jù)標(biāo)注發(fā)布者確定的要求及任務(wù)描述,應(yīng)按之前的數(shù)據(jù)標(biāo)注子任務(wù)目標(biāo)說明把任務(wù)分派給標(biāo)注人
員。標(biāo)注任務(wù)發(fā)布者在進(jìn)行標(biāo)注數(shù)據(jù)分發(fā)時(shí),宜采用文件形式,說明宜包括人員數(shù)量、任務(wù)數(shù)量、任務(wù)
節(jié)點(diǎn)、回收時(shí)間、結(jié)束時(shí)間以及標(biāo)注任務(wù)開展方式等相關(guān)信息。
7.3.1人員數(shù)量
本次參與標(biāo)注任務(wù)的標(biāo)注人員數(shù)量。
7.3.2任務(wù)數(shù)量
本次任務(wù)主體劃分后的子任務(wù)數(shù)量。
7.3.3任務(wù)節(jié)點(diǎn)
每位數(shù)據(jù)標(biāo)注人員需完成的任務(wù)總數(shù)及每個時(shí)間節(jié)點(diǎn)要求完成的任務(wù)數(shù)。
7.3.4回收時(shí)間
任務(wù)目標(biāo)回收時(shí)間及最遲回收時(shí)間。
7.3.5結(jié)束時(shí)間
任務(wù)整體結(jié)束時(shí)間。
7.4標(biāo)注任務(wù)開展方式
在標(biāo)注任務(wù)開展過程中,標(biāo)注方式分為全人工方式標(biāo)注及半人工方式標(biāo)注兩種方式,選擇的標(biāo)注方
式區(qū)別如下:
7.4.1全
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年度臨時(shí)倉庫租賃合同集合(含倉儲數(shù)據(jù)分析)3篇
- 二零二五年度固體廢棄物處理與利用合同3篇
- 2025年度家具設(shè)計(jì)與制造質(zhì)量控制合同協(xié)議
- 2025年度高新技術(shù)研發(fā)合作合同協(xié)議
- 2025年度鍋爐設(shè)備租賃與維護(hù)一體化服務(wù)合同
- 2025年度綠色建筑設(shè)計(jì)與施工合同補(bǔ)充條款范本
- 2025年度汽車零部件進(jìn)出口貿(mào)易合同8篇
- 二零二四年綠色施工技術(shù)示范項(xiàng)目分包合同3篇
- 2025年上海辦公室租賃合同樣本(2篇)
- 二零二四年度互聯(lián)網(wǎng)體育賽事推廣合同3篇
- 第六章-主成分分析法
- 2024簡單的租房合同樣本下載
- 中考數(shù)學(xué)計(jì)算題練習(xí)100道(2024年中考真題)
- 新人教版五年級上冊數(shù)學(xué)應(yīng)用題大全及答案
- 【家庭教育】0-3歲嬰幼兒早教訓(xùn)練方案
- 國家中長期科技發(fā)展規(guī)劃(2021-2035)
- 經(jīng)營范圍登記規(guī)范表述目錄(試行)(V1.0.2版)
- 2023年山東省威海市中考物理真題(附答案詳解)
- 第八講 發(fā)展全過程人民民主PPT習(xí)概論2023優(yōu)化版教學(xué)課件
- 王崧舟:學(xué)習(xí)任務(wù)群與課堂教學(xué)變革 2022版新課程標(biāo)準(zhǔn)解讀解析資料 57
- 招投標(biāo)現(xiàn)場項(xiàng)目經(jīng)理答辯(完整版)資料
評論
0/150
提交評論