![《移動端智能交互訓練語料基本要求與規(guī)范》_第1頁](http://file4.renrendoc.com/view6/M03/10/01/wKhkGWeQXAKAW7YbAADxa4iG2hE524.jpg)
![《移動端智能交互訓練語料基本要求與規(guī)范》_第2頁](http://file4.renrendoc.com/view6/M03/10/01/wKhkGWeQXAKAW7YbAADxa4iG2hE5242.jpg)
![《移動端智能交互訓練語料基本要求與規(guī)范》_第3頁](http://file4.renrendoc.com/view6/M03/10/01/wKhkGWeQXAKAW7YbAADxa4iG2hE5243.jpg)
![《移動端智能交互訓練語料基本要求與規(guī)范》_第4頁](http://file4.renrendoc.com/view6/M03/10/01/wKhkGWeQXAKAW7YbAADxa4iG2hE5244.jpg)
![《移動端智能交互訓練語料基本要求與規(guī)范》_第5頁](http://file4.renrendoc.com/view6/M03/10/01/wKhkGWeQXAKAW7YbAADxa4iG2hE5245.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
35.240.99
L70
CEST/CXXX
團體標準
T/CESXXX-XXXX
移動端智能交互訓練語料基本要求與
規(guī)范
Basicrequirementsand
specificationsofmobileterminal
intelligentinteractivetraining
corpus
(征求意見稿)
XXXX-XX-XX發(fā)布XXXX-XX-XX實施
Ⅱ
T/CESXXXXXXX
-
1范圍
本標準規(guī)定了移動端智能交互訓練時自然語言處理樣本(對話機器人交互文本意圖識別
樣本)的基本要求、標注要求和標注流程。
本標準適用于各單位進行移動端智能交互訓練模型開發(fā)時樣本標注和樣本入庫的統(tǒng)一
管理,包括樣本的質(zhì)量管控、樣本標注的技術(shù)要求和流程管控。
2規(guī)范性引用文件
下列文件對于本文件的應用是必不可少的。凡是注日期的引用文件,僅注日期的版本適
用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T1.1-2009標準化工作導則第1部分:標準的結(jié)構(gòu)和編寫
GB/T5271.28—2001信息技術(shù)詞匯第28部分;人工智能基本概念與專家系統(tǒng)
ZYF001-2018語料庫通用技術(shù)規(guī)范
T/CESA1040—2019信息技術(shù)人工智能面向機器學習的數(shù)據(jù)標注規(guī)程
Q/GDW1560.1—2014輸電線路圖像/視頻監(jiān)控裝置技術(shù)規(guī)范第1部分:圖像監(jiān)控裝置
Q/GDW1906—2013輸變電一次設備缺陷分類標準
3術(shù)語和定義
下列術(shù)語和定義適用于本文件。
3.1
人工智能artificialintelligence
一門交叉學科,通常視為計算機科學的分支,研究表現(xiàn)出與人類智能(如推理和學習)
相關(guān)的各種功能的模型和系統(tǒng)。
3.2
自然語言處理naturallanguageprocess
是計算機科學領域與人工智能領域中的一個重要方向,能實現(xiàn)人與計算機之間用自然語
言進行有效通信的各種理論和方法。
1
T/CESXXXXXXX
-
3.3
樣本數(shù)據(jù)sampledata:[Q/GDW12118.1—2021,定義3.5]
其具備的特征能夠反映總體數(shù)據(jù)情況的一部分個體數(shù)據(jù)。
3.4
標注corpusannotation:[Q/GDW1906—2013,定義3.5]
采用人工或計算機自動方式對樣本的屬性或特征進行描述,可用于實用的目的,如客戶
服務或資訊獲取等。
3.5
標簽label:[T/CESA1040—2019定義3.2]
標識數(shù)據(jù)的特征、類別和屬性等內(nèi)容,可用于建立數(shù)據(jù)及深度學習訓練要求所定義的機
器可讀數(shù)據(jù)編碼間的聯(lián)系。
3.6
智能交互intelligentinteraction
智能交互一般指智能語音交互。智能語音交互是基于語音輸入的新一代交互模式,通
過說話就可以得到反饋結(jié)果。
3.7
語料corpus
即語言材料,是語言學研究的內(nèi)容,也是構(gòu)成語料庫的基本單元。
3.8
語料庫corpora
語料庫指經(jīng)科學取樣和加工的大規(guī)模電子文本庫,其中存放的是在語言的實際使用中真
實出現(xiàn)過的語言材料。
2
T/CESXXXXXXX
-
3.9
意圖intent
用戶表達的句子希望達到某種目的打算。
3.10
槽位slot
在用戶表達意圖的句子中,用來準確表達該意圖的關(guān)鍵信息的標識。
3.11
標注工具annotationtool:[T/CESA1040—2019定義3.5]
標注人員執(zhí)行標注任務生成標注結(jié)果的過程中使用的工具和軟件。標注工具按照自動化
程度分手動、半自動和自動三種。
3.12
半自動化標注semi-automaticannotation
基于少量人工標注、機器預標注來訓練標注模型,用于批量標注樣本數(shù)據(jù)的半人工智能
標注方法。
3.13
特色語種speciallanguage
漢語普通話外的其他語種。
4縮略語
下列縮略語適用于本文件。
BIOES:BIOES標注模式(B-begin,I-inside,O-outside,E-end,S-single)屬于序列標注模
式之一,其中B-begin表示標注元素的開頭,I-inside表示標注元素的中間或結(jié)尾,O-outside
表示不屬于待標注內(nèi)容,E-end表示標注元素的結(jié)尾,S-single表示單個字符且本身就是一
個標注元素。
BIO:BIO標注模式(B-begin,I-inside,O-outside)屬于序列標注模式之一,其中B-begin
表示標注元素的開頭,I-inside表示標注元素的中間或結(jié)尾,O-outside表示不屬于待標注內(nèi)
3
T/CESXXXXXXX
-
容。
JSON:JavaScript對象表示法(JavaScriptObjectNotation),是一種輕量級的文本數(shù)據(jù)交
換格式
5總則
本文件共分為樣本基本要求、樣本標注要求、樣本標注流程三部分,具體內(nèi)容組織框架
見圖1:
圖1組織框架
6文本類樣本基本要求
6.1文本文件存儲格式要求
文本樣本數(shù)據(jù)應采用txt、csv、Json、xlsx、xls、xml存儲格式。
6.2文本文件命名要求
文本文件名稱應由四個部分組成:
a)第一部分為項目命名詞或文本來源;
b)第二部分為當前文本文件的專業(yè)信息;
c)第三部分為原始源文件生成時的日期,日期格式:YYYY-MM-DD;
4
T/CESXXXXXXX
-
d)第四部分為文件唯一性編號,從1開始計數(shù);
e)這四部分用下劃線連接,且文件名稱長度和擴展名在內(nèi)最大長度不超過100個字符
(包含中英文字符和特殊字符);
f)文件命名舉例:××項目_酒店預訂語料_2022-06-08_1。
6.3文本類樣本質(zhì)量要求
文本類樣本質(zhì)量應滿足下述要求:
a)應支持計算機正常讀取,文本內(nèi)容無亂碼;
b)內(nèi)容應滿足相關(guān)業(yè)務需求;
c)應使用UTF-8編碼。
6.4文本樣本描述文件
每批次文本樣本集應有一個描述文件,應滿足下述要求:
a)存儲格式應為txt格式;
b)命名應由三個部分組成:
1)項目命名詞或樣本來源;
2)本文件創(chuàng)建的日期,日期格式:YYYY-MM-DD;
3)文件唯一性編號,從1開始計數(shù);
4)文件名的各部分用下劃線連接,文件命名示例:××項目_2022-06-08_1。
c)文檔內(nèi)容應描述本樣本集的基本信息,應包括樣本所屬項目、樣本來源、創(chuàng)建日期、
聯(lián)系人、樣本標注信息、標注格式、樣本用途等信息。
7文本類樣本標注要求
7.1基本要求
應滿足標注對象范圍、標注方式、標注文件命名要求。具體要求包括:
a)文本語料樣本標注應支持意圖、槽位等信息的標注;
b)文本語料樣本標注應支持序列標注、指針標注等多種標注方式;
c)標注可通過線上標注(樣本+標注平臺)和線下標注(線下小工具和線下文本txt、csv、
Json)實現(xiàn);
d)序列標注應采用B、I、E、O、S標簽列表,宜采用BIO、BIOES標簽方案進行標
注;
5
T/CESXXXXXXX
-
f)已完成標注的文本文件應按照規(guī)定的命名格式命名。
7.2意圖標注要求
樣本意圖標注應滿足下述要求:
a)樣本標注前應確定意圖類別數(shù)和意圖類別名稱;
b)樣本意圖類型的確定需要結(jié)合具體的應用場景和待標注樣本數(shù)據(jù);
c)若一條樣本可標注為多個意圖類別時,應根據(jù)應用場景將該樣本標注為一個可能性最
大的意圖類別,必要時可由多位標注人員共同確定待標注樣本的意圖類別;
d)每條語料樣本都應標注出其意圖類別,若一條語料意圖不屬于已定義的意圖中的任何
一類則可將該語料刪除,或者新增一個意圖類別以將語料樣本中不屬于已定義意圖類別的語
料樣本均歸類于該意圖類別;
e)標注時應做到準確標注意圖類別;
f)應用場景如:新增日程、查詢?nèi)粘?/p>
7.3槽位標注要求
樣本槽位標注應滿足下述要求:
a)樣本標注前應定義槽位的類別數(shù)和類別名稱;
b)一條待標注樣本中有可能存在多個槽位,應標出所有的槽位信息;
c)一條樣本中可能不存在槽位信息,應允許槽位信息為空;
d)樣本中的槽位信息可能存在重疊,對存在重疊的槽位信息是否標注以及怎樣標注需
要根據(jù)具體情況確定;
e)標注槽位信息要準確、全面;
f)應用場景如:“定一個早上九點在北京評審的日程”,需要標注的槽位信息為:“早上
九點”、“北京”、“評審”,標注結(jié)果:“定一個[早上九點](TIME)在[北京](address)[評審](Theme)
的日程”。
7.4標注文件命名與存儲要求
標注文件應由兩部分組成,第一部分與對應標注文本命名一致,第二部分為“-bz”,應
保存為txt等滿足應用需求的格式,具體如:××項目_酒店預訂語料_2022-06-08_1-bz。
6
T/CESXXXXXXX
-
8樣本標注流程
8.1總體要求
樣本標注應包含語料樣本獲取、語料樣本檢查、安全管控、標注工具選擇、語料樣本標
注、標注結(jié)果收集和標注結(jié)果核查等環(huán)節(jié),具體如圖所示:
圖2樣本標注流程
8.2樣本獲取
根據(jù)應用場景搜集整理相關(guān)語料樣本數(shù)據(jù),并按照第6章內(nèi)容樣本文件進行樣本文件命
名、創(chuàng)建樣本描述文件等操作。
8.3樣本檢查
在樣本標注前應按照本文第6章要求對待標注樣本進行檢查,應根據(jù)業(yè)務需求和樣本的
數(shù)量采用全量檢查或抽樣檢查,方式如下:
a)全量檢查應對指定范圍內(nèi)的所有樣本進行逐條檢查;
b)抽樣檢查可采用隨機抽樣或分層抽樣,方式如下:
1)隨機抽樣,即:針對不同業(yè)務類型的數(shù)據(jù)樣本采用隨機抽樣進行檢查;
2)分層抽樣,即:針對同一業(yè)務類型的樣本數(shù)據(jù),根據(jù)樣本類型不同采取分層抽
樣的方式進行檢查。
7
T/CESXXXXXXX
-
8.4安全管控
應滿足對標注環(huán)境及標注人員的安全管控要求。具體要求包括:
a)標注過程應在內(nèi)網(wǎng)環(huán)境下的指定機器中進行,機器應開啟防火墻,安裝殺毒軟件,
并禁用USB接口功能。機器中的所有數(shù)據(jù)文件需定期做好數(shù)據(jù)備份,不得擅自拷貝、傳輸,
防止數(shù)據(jù)丟失或泄露;
b)標注人員應經(jīng)過標注工作培訓獲得相關(guān)單位資格認證并簽署樣本標注保密協(xié)議后才
可上崗操作。
8.5標注工具選擇
應使用標注格式通用、易操作的標注工具進行標注。
8.6語料樣本標注
8.6.1基本要求
應根據(jù)業(yè)務需求和標注任務難易度選擇人工標注或半自動化標注。
8.6.2人工標注
人工標注任務應按照試標注、批量標注順序執(zhí)行,具體要求如下:
a)試標注:
1)從標注任務的待標注樣本中抽取試標注樣本??刹捎秒S機抽樣或分層抽樣方法
抽取樣本,抽取比例不宜低于待標注樣本總量的1%;
2)標注人員對抽取樣本進行標注;
3)標注項目負責人對標注結(jié)果進行確認;
4)標注人員重復執(zhí)行標注錯誤的標注任務,直至標注項目負責人確認無誤。
b)標注人員批量執(zhí)行標注任務。
8.6.3.半自動化標注
半自動標注任務應按照樣本構(gòu)建、模型構(gòu)建、模型批量標注順序執(zhí)行,具體要求如下:
a)樣本構(gòu)建:
8
T/CESXXXXXXX
-
1)從待標注樣本中抽取訓練樣本和測試樣本??刹捎秒S機抽樣或分層抽樣方法抽取樣
本,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/Z 44938.2-2024機械電氣安全第2部分:保護人員安全的傳感器的應用示例
- α-Apooxytetracycline-生命科學試劑-MCE-3621
- PB-22-7-Hydroxyisoquinoline-isomer-生命科學試劑-MCE-3092
- L-Arginyl-L-alanine-生命科學試劑-MCE-1970
- BDW-OH-生命科學試劑-MCE-6441
- 4-Chlorocathinone-hydrochloride-生命科學試劑-MCE-4146
- 1-Methyl-3-amino-4-cyanopyrazole-生命科學試劑-MCE-7778
- 2025年度智能城市基礎設施合作框架協(xié)議
- 二零二五年度茶葉種植基地租賃與經(jīng)營管理合同
- 二零二五年度貨車駕駛員勞動合同(貨車駕駛與車輛融資租賃)
- 2024-2025學年廣東省深圳市南山區(qū)監(jiān)測數(shù)學三年級第一學期期末學業(yè)水平測試試題含解析
- 廣東2024年廣東金融學院招聘專職輔導員9人筆試歷年典型考點(頻考版試卷)附帶答案詳解
- 2025年研究生考試考研英語(二204)試卷與參考答案
- DB31∕731-2020 船舶修正總噸單位產(chǎn)品能源消耗限額
- 2024-年全國醫(yī)學博士外語統(tǒng)一入學考試英語試題
- 天津市-2024年-社區(qū)工作者-上半年筆試真題卷
- 2024年衛(wèi)生專業(yè)技術(shù)資格考試衛(wèi)生檢驗技術(shù)(初級(師)211)相關(guān)專業(yè)知識試題及答案指導
- 公務用車分時租賃實施方案
- 《手衛(wèi)生知識培訓》培訓課件
- 《祛痘產(chǎn)品祛痘產(chǎn)品》課件
- 江蘇省南京鼓樓區(qū)2024年中考聯(lián)考英語試題含答案
評論
0/150
提交評論