(高清版)GBT 41813.2-2022 信息技術(shù) 智能語音交互測(cè)試方法 第2部分:語義理解_第1頁
(高清版)GBT 41813.2-2022 信息技術(shù) 智能語音交互測(cè)試方法 第2部分:語義理解_第2頁
(高清版)GBT 41813.2-2022 信息技術(shù) 智能語音交互測(cè)試方法 第2部分:語義理解_第3頁
(高清版)GBT 41813.2-2022 信息技術(shù) 智能語音交互測(cè)試方法 第2部分:語義理解_第4頁
(高清版)GBT 41813.2-2022 信息技術(shù) 智能語音交互測(cè)試方法 第2部分:語義理解_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息技術(shù)智能語音交互測(cè)試方法2022-10-12發(fā)布IGB/T41813.2—2022前言 2規(guī)范性引用文件 13術(shù)語和定義 14概述 5測(cè)試準(zhǔn)備和執(zhí)行 25.1測(cè)試數(shù)據(jù)集 25.2測(cè)試工具 35.3測(cè)試環(huán)境 35.4測(cè)試執(zhí)行 35.5結(jié)果判定 36功能測(cè)試方法 36.1意圖理解 36.2命名實(shí)體識(shí)別 36.3敏感信息辨別 46.4語義拒識(shí) 46.5信息檢索 46.6文本相似度計(jì)算 46.7文本修改 46.8語義修正 46.9自然語言生成 56.10邏輯推理 56.11對(duì)話引導(dǎo) 56.12上下文相關(guān)的多輪會(huì)話 57性能測(cè)試方法 57.1語義理解效果 57.2語義理解效率 87.3系統(tǒng)穩(wěn)定性 9附錄A(規(guī)范性)主觀體驗(yàn)測(cè)試 A.1概述 A.2測(cè)試項(xiàng) A.3測(cè)試方法 參考文獻(xiàn) Ⅲ本文件按照GB/T1.1—2020《標(biāo)準(zhǔn)化工作導(dǎo)則第1部分:標(biāo)準(zhǔn)化文件的結(jié)構(gòu)和起草規(guī)則》的規(guī)定起草。本文件是GB/T41813《信息技術(shù)智能語音交互測(cè)試方法》的第2部分。GB/T41813已經(jīng)發(fā)布了以下部分:——第1部分:語音識(shí)別;請(qǐng)注意本文件的某些內(nèi)容可能涉及專利。本文件的發(fā)布機(jī)構(gòu)不承擔(dān)識(shí)別專利的責(zé)任。本文件由全國(guó)信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會(huì)(SAC/TC28)提出并歸口。本文件起草單位:中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院、科大訊飛股份有限公司、小米通訊技術(shù)有限公司、華為終端有限公司、深圳市優(yōu)必選科技股份有限公司、中國(guó)電信集團(tuán)有限公司、思必馳科技股份有限公司、中國(guó)科學(xué)院自動(dòng)化研究所、中國(guó)醫(yī)學(xué)科學(xué)院生物醫(yī)學(xué)工程研究所、哈爾濱工業(yè)大學(xué)、海信視像科技股份有限公司、馬上消費(fèi)金融股份有限公司、騰訊科技(北京)有限公司、沈陽新松機(jī)器人自動(dòng)化股份有限公司、深圳市人馬互動(dòng)科技有限公司、平安科技(深圳)有限公司、安徽咪鼠科技有限公司、涇豐科技(深圳)有限公司、北京捷通華聲科技股份有限公司、北京百度網(wǎng)訊科技有限公司、深圳市北科瑞聲科技股份有限公司、阿里云計(jì)算有限公司、云從科技集團(tuán)股份有限公司、上海計(jì)算機(jī)軟件技術(shù)開發(fā)中心、網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司、南京云問網(wǎng)絡(luò)技術(shù)有限公司、聯(lián)想(北京)有限公司、福州數(shù)據(jù)技術(shù)研究院有限公司、國(guó)家網(wǎng)絡(luò)軟件產(chǎn)品質(zhì)量監(jiān)督檢驗(yàn)中心(濟(jì)南)、華南理工大學(xué)、山東省計(jì)算中心(國(guó)家超級(jí)計(jì)算濟(jì)南中心)、神思電子技術(shù)股份有限公司、鄭州中業(yè)科技股份有限公司、中汽數(shù)據(jù)(天津)有限公司、中國(guó)電器科學(xué)研究院有限公司、中汽研(天津)汽車工程研究院有限公司、中科極限元(杭州)智能科技股份有限公司、北京愛數(shù)智慧科技有限公司。本文件主要起草人:徐洋、馬萬鐘、吳國(guó)綱、朱亞軍、賈一君、周立君、宋文林、袁杰、楊震、田定書、錢彥旻、陶建華、花云飛、蒲江波、李海峰、王峰、楊春勇、蘇丹、張鋒、馮海洪、劉國(guó)濤、任軍民、陳楠、機(jī)器人等諸多領(lǐng)域應(yīng)用廣泛,已成為當(dāng)前人機(jī)交互的重要方式之一。隨著智能語音交互的深入,需要對(duì)智能語音交互的系統(tǒng)參考框架、基礎(chǔ)技術(shù)要求、互聯(lián)網(wǎng)接口要求等進(jìn)行統(tǒng)一規(guī)范,在這方面,國(guó)家已制定了支撐智能語音交互系統(tǒng)的基礎(chǔ)性國(guó)家標(biāo)準(zhǔn)。在此基礎(chǔ)上,也需要用統(tǒng)一的測(cè)試方法和評(píng)價(jià)標(biāo)準(zhǔn)來對(duì)智能語音交互系統(tǒng)的能力進(jìn)行評(píng)測(cè),為智能語音交互相關(guān)的產(chǎn)品和服務(wù)提供評(píng)測(cè)的基礎(chǔ)方法和依據(jù)。GB/T41813《信息技術(shù)智能語音交互測(cè)試方法》為GB/T36464(所有部分)《信息技術(shù)智能語音交互系統(tǒng)》提供基礎(chǔ)通用的測(cè)試方法。智能語音交互包括語音識(shí)別、語義理解和語音合成三個(gè)基本環(huán)節(jié),各環(huán)節(jié)所涉及的測(cè)試對(duì)象、測(cè)試項(xiàng)目、測(cè)試環(huán)境和測(cè)試方法均有所不同。GB/T41813《信息技術(shù)智能語音交互測(cè)試方法》旨在確立和描述適用于智能語音交互各環(huán)節(jié)的通用測(cè)試項(xiàng)和通用測(cè)試方法,擬由三個(gè)部分構(gòu)成?!?部分:語音識(shí)別。目的在于為智能語音交互應(yīng)用中的語音識(shí)別環(huán)節(jié)提供通用測(cè)試項(xiàng)和通用測(cè)試方法。 第2部分:語義理解。目的在于為智能語音交互應(yīng)用中的語義理解環(huán)節(jié)提供通用測(cè)試項(xiàng)和通用測(cè)試方法?!?部分:語音合成。目的在于為智能語音交互應(yīng)用中的語音合成環(huán)節(jié)提供通用測(cè)試項(xiàng)和通用測(cè)試方法。1信息技術(shù)智能語音交互測(cè)試方法1范圍本文件描述了智能語音交互測(cè)試中語義理解系統(tǒng)的通用測(cè)試項(xiàng)和通用測(cè)試方法。本文件適用于智能語音服務(wù)提供商、用戶和第三方檢測(cè)機(jī)構(gòu)對(duì)智能語音交互應(yīng)用的語義理解系統(tǒng)測(cè)試的設(shè)計(jì)和實(shí)施。2規(guī)范性引用文件下列文件中的內(nèi)容通過文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。GB/T36464(所有部分)信息技術(shù)智能語音交互系統(tǒng)3術(shù)語和定義GB/T36464(所有部分)界定的以及下列術(shù)語和定義適用于本文件。語義理解semanticunderstanding使功能單元理解人說話的意圖。具有特指或唯一含義的指稱名字的實(shí)體。意圖intention語音交互過程中需要系統(tǒng)執(zhí)行的任務(wù)或達(dá)成目標(biāo)。4概述智能語音交互測(cè)試中的語義理解測(cè)試主要包括功能測(cè)試與性能測(cè)試,具體如下:——功能測(cè)試用于檢查被測(cè)系統(tǒng)是否提供了語義理解相關(guān)的各項(xiàng)功能,包括:意圖理解、命名實(shí)體成、邏輯推理、對(duì)話引導(dǎo)和上下文相關(guān)的多輪對(duì)話;——性能測(cè)試用于檢查被測(cè)系統(tǒng)中語義理解相關(guān)的各項(xiàng)性能,包括:語義理解效果、語義理解效率和系統(tǒng)穩(wěn)定性。測(cè)試過程中,應(yīng)依據(jù)被測(cè)系統(tǒng)技術(shù)規(guī)范進(jìn)行在線/離線的功能和性能測(cè)試。可使用主觀體驗(yàn)的方法進(jìn)行測(cè)試,主觀體驗(yàn)測(cè)試應(yīng)按照附錄A描述的測(cè)試項(xiàng)和測(cè)試方法執(zhí)行。本文件所列測(cè)試項(xiàng)可用于對(duì)2GB/T36464(所有部分)中語義理解相關(guān)的功能和性能要求進(jìn)行測(cè)試。注:本文件對(duì)所列出的功能測(cè)試項(xiàng)選擇不做要求,實(shí)際測(cè)試時(shí)根據(jù)被測(cè)系統(tǒng)的功能要求和測(cè)試需求進(jìn)行選擇。5測(cè)試準(zhǔn)備和執(zhí)行5.1測(cè)試數(shù)據(jù)集在測(cè)試開始前,應(yīng)通過人工編寫或采集的方式制作測(cè)試數(shù)據(jù)集??筛鶕?jù)不同測(cè)試項(xiàng)劃分出多個(gè)測(cè)試數(shù)據(jù)集,在實(shí)際測(cè)試時(shí)可根據(jù)需要選擇測(cè)試數(shù)據(jù)集。測(cè)試數(shù)據(jù)集類型和要求應(yīng)符合表1和表2的要求。表1測(cè)試文本類型和要求序號(hào)文本分類數(shù)量1常用文本具有意圖表示的單字、詞語文本每類不少于5條2短語文本3單句文本4對(duì)話文本5段落文本6文章文本7特殊文本敏感信息文本每類不少于1000條8命名實(shí)體文本,如:人名、地名等,覆蓋已定義業(yè)務(wù)相關(guān)命名實(shí)體9特殊格式文本,如:數(shù)字、日期時(shí)間、英文大小寫等每類不少于5條特定語種文本,如:中文、英文、韓文等特殊字符集編碼文本特殊符號(hào)文本,如:逗號(hào)、句號(hào)、問號(hào)等異常文本亂碼文本每類不少于5條不支持語種文本表2測(cè)試數(shù)據(jù)集類型和要求序號(hào)測(cè)試數(shù)據(jù)分類文本要求數(shù)量1已定義場(chǎng)景或業(yè)務(wù)文本數(shù)據(jù)已定義場(chǎng)景或業(yè)務(wù)的文本數(shù)據(jù)應(yīng)在數(shù)據(jù)較多情況下,統(tǒng)計(jì)文本長(zhǎng)度分布,根據(jù)此分布來控制文本長(zhǎng)度數(shù)量分布;否則應(yīng)根據(jù)常用文本長(zhǎng)度平均值的正態(tài)分布,控制不同文本長(zhǎng)度數(shù)量分布文本類型應(yīng)符合表1的要求文本內(nèi)容宜為語音識(shí)別的輸出結(jié)果每個(gè)業(yè)務(wù)不少于200條人工編寫數(shù)據(jù),可直接使用已有真實(shí)數(shù)據(jù)2已定義場(chǎng)景或業(yè)務(wù)的常用文本數(shù)據(jù)每個(gè)業(yè)務(wù)至少覆蓋3條已有真實(shí)數(shù)據(jù),可持續(xù)收集3未定義場(chǎng)景或業(yè)務(wù)文本數(shù)據(jù)同領(lǐng)域,未定義場(chǎng)景或業(yè)務(wù)的一般文本數(shù)據(jù)每個(gè)業(yè)務(wù)至少覆蓋3條真實(shí)數(shù)據(jù),可持續(xù)收集4同領(lǐng)域,未定義場(chǎng)景或業(yè)務(wù)的常用文本數(shù)據(jù)每個(gè)業(yè)務(wù)至少覆蓋3條真實(shí)數(shù)據(jù),可持續(xù)收集5閑聊平均不少于5個(gè)字符不少于1000條人工編寫數(shù)據(jù)6異常文本數(shù)據(jù)每一條均不少于5個(gè)字符不少于100條人工編寫數(shù)據(jù)35.2測(cè)試工具語義理解測(cè)試工具包括可編程測(cè)試工具、測(cè)試統(tǒng)計(jì)工具和資源監(jiān)測(cè)工具,應(yīng)符合下列要求。a)可編程測(cè)試工具要求如下:●應(yīng)能調(diào)用被測(cè)系統(tǒng)開放接口;●應(yīng)能對(duì)工具配置文件進(jìn)行定制;●應(yīng)能接收文本數(shù)據(jù)并將其輸入至被測(cè)系統(tǒng);●應(yīng)能進(jìn)行功能測(cè)試及其相應(yīng)的性能測(cè)試;●應(yīng)能以文本形式獲取被測(cè)系統(tǒng)運(yùn)行結(jié)果。b)測(cè)試統(tǒng)計(jì)工具要求如下:●應(yīng)能自動(dòng)對(duì)不同測(cè)試項(xiàng)的系統(tǒng)運(yùn)行結(jié)果進(jìn)行統(tǒng)計(jì)和分析;●應(yīng)能自動(dòng)對(duì)系統(tǒng)運(yùn)行結(jié)果和標(biāo)準(zhǔn)結(jié)果對(duì)比文件進(jìn)行比對(duì)。c)資源監(jiān)測(cè)工具應(yīng)能監(jiān)測(cè)內(nèi)存、中央處理單元(CPU)、圖形處理單元(GPU)、句柄數(shù)等系統(tǒng)資源參數(shù)。5.3測(cè)試環(huán)境應(yīng)根據(jù)被測(cè)系統(tǒng)的功能和性能要求,以及應(yīng)用場(chǎng)景配置相應(yīng)的軟硬件環(huán)境。5.4測(cè)試執(zhí)行應(yīng)使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到在線/離線狀態(tài)的被測(cè)系統(tǒng)中并獲取運(yùn)行結(jié)果。5.5結(jié)果判定應(yīng)根據(jù)被測(cè)系統(tǒng)技術(shù)要求對(duì)系統(tǒng)在各測(cè)試項(xiàng)上的運(yùn)行結(jié)果進(jìn)行記錄、分析和判定,形成測(cè)試結(jié)果。6功能測(cè)試方法6.1意圖理解測(cè)試內(nèi)容:檢查被測(cè)系統(tǒng)是否提供理解說話人的意圖的功能,包括但不限于以下具體功能。a)模糊識(shí)別:能正確處理錯(cuò)別字、同義詞、多字和少字等問題。b)語義抽?。耗艹槿≌Z義要素和說話人關(guān)鍵意圖,包括:●命名實(shí)體抽取,被測(cè)系統(tǒng)能自動(dòng)對(duì)文本中表達(dá)關(guān)鍵意圖的命名實(shí)體進(jìn)行抽取;●關(guān)鍵詞抽取,被測(cè)系統(tǒng)能自動(dòng)對(duì)文本中表達(dá)意圖的關(guān)鍵詞進(jìn)行抽?。弧裾Z義關(guān)系抽取,被測(cè)系統(tǒng)能自動(dòng)對(duì)文本中表達(dá)語義關(guān)系的三元組進(jìn)行抽取。c)語義排序:被測(cè)系統(tǒng)能在語義理解結(jié)果中給出多個(gè)排序后的理解結(jié)果,供說話人進(jìn)行選擇或二次確認(rèn)。d)意圖分類:被測(cè)系統(tǒng)能對(duì)說話人的關(guān)鍵意圖進(jìn)行預(yù)測(cè),將輸入的文本數(shù)據(jù)對(duì)應(yīng)到一個(gè)或多個(gè)預(yù)定的意圖上,并標(biāo)記文本數(shù)據(jù)所屬意圖類別。測(cè)試方法:按照表2中的已定義場(chǎng)景或業(yè)務(wù)文本數(shù)據(jù)的要求制作測(cè)試數(shù)據(jù)集,使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,按照測(cè)試內(nèi)容的描述對(duì)結(jié)果進(jìn)行判定。6.2命名實(shí)體識(shí)別測(cè)試內(nèi)容:檢查被測(cè)系統(tǒng)是否提供在文本中找出并準(zhǔn)確標(biāo)注命名實(shí)體的功能。4測(cè)試方法:按照表1中的中命名實(shí)體文本的要求制作測(cè)試數(shù)據(jù)集,使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,按照測(cè)試內(nèi)容的描述對(duì)結(jié)果進(jìn)行判定。6.3敏感信息辨別測(cè)試內(nèi)容:檢查被測(cè)系統(tǒng)是否提供根據(jù)上下文對(duì)輸入文本中的敏感內(nèi)容進(jìn)行分辨的功能。注:敏感內(nèi)容包括涉及黃色、暴力、恐怖和國(guó)家安全等信息的內(nèi)容。測(cè)試方法:按照表1中的敏感信息文本的要求制作測(cè)試數(shù)據(jù)集,使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,按照測(cè)試內(nèi)容的描述對(duì)結(jié)果進(jìn)行判定。6.4語義拒識(shí)測(cè)試內(nèi)容:檢查被測(cè)系統(tǒng)是否提供對(duì)無法處理或不應(yīng)當(dāng)處理的無效文本輸入內(nèi)容進(jìn)行分辨和拒識(shí)的功能。注:無法處理的內(nèi)容包括被測(cè)系統(tǒng)不支持的或與業(yè)務(wù)無關(guān)的內(nèi)容;不應(yīng)當(dāng)處理的內(nèi)容包括完全無意義的內(nèi)容。測(cè)試方法:按照表2中的未定義場(chǎng)景或業(yè)務(wù)文本數(shù)據(jù)的要求制作測(cè)試數(shù)據(jù)集,使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,按照測(cè)試內(nèi)容的描述對(duì)結(jié)果進(jìn)行判定。6.5信息檢索測(cè)試內(nèi)容:檢查被測(cè)系統(tǒng)是否提供信息檢索的功能,包括但不限于以下具體功能。a)個(gè)性化詞典檢索:如聯(lián)系人列表、歌曲列表和興趣點(diǎn)(POI)等。c)自定義知識(shí)庫檢索。測(cè)試方法:按照表2中的已定義場(chǎng)景或業(yè)務(wù)文本數(shù)據(jù)的要求制作測(cè)試數(shù)據(jù)集,使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,按照測(cè)試內(nèi)容的描述對(duì)結(jié)果進(jìn)行判定。6.6文本相似度計(jì)算測(cè)試內(nèi)容:檢查被測(cè)系統(tǒng)是否提供根據(jù)輸入的文本數(shù)據(jù),計(jì)算其與已有文本的語義信息一致性程度的功能。語義信息一致性類型包括但不限于以下具體方面。a)句子用詞發(fā)生了變化,但語義信息相似。b)句子結(jié)構(gòu)發(fā)生了變化,但語義信息相似。c)句子用詞和結(jié)構(gòu)相似,但語義信息不相似。測(cè)試方法:按照表2中的已定義場(chǎng)景或業(yè)務(wù)文本數(shù)據(jù)的要求制作測(cè)試數(shù)據(jù)集,使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,按照測(cè)試內(nèi)容的描述對(duì)結(jié)果進(jìn)行判定。測(cè)試內(nèi)容:檢查被測(cè)系統(tǒng)是否提供對(duì)對(duì)話中的前一句文本進(jìn)行修改的功能。測(cè)試方法:按照表2中的已定義場(chǎng)景或業(yè)務(wù)文本數(shù)據(jù)的要求制作測(cè)試數(shù)據(jù)集,使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,按照測(cè)試內(nèi)容的描述對(duì)結(jié)果進(jìn)行判定。6.8語義修正測(cè)試內(nèi)容:檢查被測(cè)系統(tǒng)是否提供對(duì)語義理解錯(cuò)誤的結(jié)果進(jìn)行自動(dòng)校正的功能。注:語義理解錯(cuò)誤包括句法錯(cuò)誤、中文分詞錯(cuò)誤、指代消歧錯(cuò)誤等。測(cè)試方法:按照表2中的已定義場(chǎng)景或業(yè)務(wù)文本數(shù)據(jù)的要求制作測(cè)試數(shù)據(jù)集,使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,按照測(cè)試內(nèi)容的描述對(duì)結(jié)果進(jìn)行判定。56.9自然語言生成測(cè)試內(nèi)容:檢查被測(cè)系統(tǒng)是否提供根據(jù)語義理解結(jié)果生成自然語言文本,符合說話人的意圖、滿足語音交互響應(yīng)的功能。注:自然語言文本內(nèi)容包括:a)簡(jiǎn)單答復(fù)文本;b)根據(jù)預(yù)定義模板的答復(fù)文本;c)理解和符合說話人的意圖的答復(fù)文本;d)說話人的意圖不明確時(shí)給出的合理的引導(dǎo)或推薦的答復(fù)文本。測(cè)試方法:按照表2中的已定義場(chǎng)景或業(yè)務(wù)文本數(shù)據(jù)的要求制作測(cè)試數(shù)據(jù)集,使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,按照測(cè)試內(nèi)容的描述對(duì)結(jié)果進(jìn)行判定。6.10邏輯推理測(cè)試內(nèi)容:檢查被測(cè)系統(tǒng)是否提供對(duì)文本內(nèi)容的邏輯計(jì)算和推導(dǎo)的功能。示例:2020年是閏年;爸爸的媽媽叫奶奶。測(cè)試方法:按照表2中的已定義場(chǎng)景或業(yè)務(wù)文本數(shù)據(jù)的要求制作測(cè)試數(shù)據(jù)集,使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,按照測(cè)試內(nèi)容的描述對(duì)結(jié)果進(jìn)行判定。6.11對(duì)話引導(dǎo)測(cè)試內(nèi)容:檢查被測(cè)系統(tǒng)是否提供根據(jù)說話人的意圖和場(chǎng)景需求動(dòng)態(tài)生成引導(dǎo)提示用語,引導(dǎo)用戶對(duì)其最終目的進(jìn)行陳述的功能。引導(dǎo)提示用語包含但不限于以下具體內(nèi)容:a)個(gè)性化詞典;b)根據(jù)用戶行為習(xí)慣挖掘歸類的信息;c)已定義知識(shí)庫內(nèi)的知識(shí);d)第三方信源信息;e)海量數(shù)據(jù)的檢索得到的關(guān)聯(lián)信息;f)拒識(shí)提示。測(cè)試方法:按照表2中的已定義場(chǎng)景或業(yè)務(wù)文本數(shù)據(jù)的要求制作測(cè)試數(shù)據(jù)集,使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,按照測(cè)試內(nèi)容的描述對(duì)結(jié)果進(jìn)行判定。6.12上下文相關(guān)的多輪會(huì)話測(cè)試內(nèi)容:檢查被測(cè)系統(tǒng)是否提供上下文相關(guān)的多輪會(huì)話處理能力,包含但不限于以下具體功能:a)對(duì)話狀態(tài)跟蹤;b)對(duì)話策略管理;d)歷史信息繼承。測(cè)試方法:按照表2中的已定義場(chǎng)景或業(yè)務(wù)文本數(shù)據(jù)的要求制作測(cè)試數(shù)據(jù)集,使用可編程測(cè)試工具和測(cè)試統(tǒng)計(jì)工具將測(cè)試數(shù)據(jù)集輸入到被測(cè)系統(tǒng)并獲取運(yùn)行結(jié)果,按照測(cè)試內(nèi)容的描述對(duì)結(jié)果進(jìn)行判定。7性能測(cè)試方法7.1語義理解效果測(cè)試內(nèi)容:語義理解效果測(cè)試項(xiàng)用精確率、召回率、拒識(shí)率、準(zhǔn)確率、F?值、平均排序倒數(shù)和歸一化6GB/T41813.2—2022折損累計(jì)增益等參數(shù)表征,具體參數(shù)描述和計(jì)算方法如下。a)精確率:檢測(cè)被測(cè)系統(tǒng)的語義理解能力,即被測(cè)系統(tǒng)對(duì)有效文本實(shí)際響應(yīng)正確的次數(shù)占所有文本響應(yīng)正確的總次數(shù)的比率。參數(shù)值計(jì)算方法見公式(1):式中:Pss——語義理解精確率;Nss——有效文本實(shí)際響應(yīng)正確的次數(shù);Ns——所有文本響應(yīng)正確的總次數(shù)。b)召回率:檢測(cè)被測(cè)系統(tǒng)的語義理解能力,即被測(cè)系統(tǒng)對(duì)有效文本實(shí)際響應(yīng)正確的次數(shù)占應(yīng)響應(yīng)正確的總次數(shù)的比率。參數(shù)值計(jì)算方法見公式(2):…………(2)式中:Rss——語義理解召回率;Nss——有效文本實(shí)際響應(yīng)正確的次數(shù);Nsc——有效文本應(yīng)響應(yīng)正確的總次數(shù)。c)拒識(shí)率:檢測(cè)被測(cè)系統(tǒng)的語義拒識(shí)能力,即被測(cè)系統(tǒng)對(duì)無效文本實(shí)際響應(yīng)正確的次數(shù)占無效文本輸入的總次數(shù)的比率。其中,無效文本包括被測(cè)系統(tǒng)不支持的或業(yè)務(wù)無關(guān)的文本數(shù)據(jù)和完全無意義的噪音數(shù)據(jù)。參數(shù)值計(jì)算方法見公式(3):式中:SR——語義拒識(shí)率;Nsr——無效文本實(shí)際響應(yīng)正確的次數(shù);Ng——無效文本輸入的總次數(shù)。d)準(zhǔn)確率:檢測(cè)被測(cè)系統(tǒng)的語義理解能力,即被測(cè)系統(tǒng)對(duì)所有文本實(shí)際響應(yīng)正確次數(shù)占所有文本響應(yīng)的總次數(shù)的比率。參數(shù)值計(jì)算方法見公式(4):式中:Ass——語義理解準(zhǔn)確率;Nss——有效文本實(shí)際響應(yīng)正確的次數(shù);Nsr——無效文本實(shí)際響應(yīng)正確的次數(shù);N——所有文本響應(yīng)的總次數(shù)?!璭)F?值:檢測(cè)被測(cè)系統(tǒng)的語義理解能力,即被測(cè)系統(tǒng)的語義理解精確率和語義理解召回率的加權(quán)調(diào)和平均值。參數(shù)值計(jì)算方法見公式(5):式中:F?——Pss——Rss——語義理解F?值;語義理解精確率;語義理解召回率。f)平均排序倒數(shù):檢測(cè)被測(cè)系統(tǒng)的信息檢索能力,即正確結(jié)果在被測(cè)系統(tǒng)給出結(jié)果中的排序位置7倒數(shù)的平均值。參數(shù)值計(jì)算方法見公式(6):式中:MRR——平均排序倒數(shù);Q——信息檢索的總次數(shù);i——第i次信息檢索;rank;——在第i次信息檢索中正確結(jié)果出現(xiàn)的排序位置。g)歸一化折損累計(jì)增益:檢測(cè)被測(cè)系統(tǒng)的信息檢索能力,即被測(cè)系統(tǒng)給出結(jié)果的排序相關(guān)性評(píng)分與理想結(jié)果的排序相關(guān)性評(píng)分的比值。參數(shù)值計(jì)算方法見公式(7)、公式(8)和公式(9):式中:DCG——折損累計(jì)增益;K——信息檢索結(jié)果個(gè)數(shù);j——第j個(gè)檢索結(jié)果;rel;——第j個(gè)檢索結(jié)果的相關(guān)性評(píng)分?!街校篒DCG——理想結(jié)果折損累計(jì)增益;|RELk|——信息檢索結(jié)果個(gè)數(shù)按照相關(guān)性評(píng)分從大到小排序;j——第j個(gè)檢索結(jié)果;rel;——第j個(gè)檢索結(jié)果的相關(guān)性評(píng)分。NDCG=DCG/IDCG式中:NDCG——?dú)w一化折損累計(jì)增益;DCG——折損累計(jì)增益;IDCG——理想結(jié)果折損累計(jì)增益。測(cè)試方法:語義理解效果測(cè)試可根據(jù)不同功能選擇適用測(cè)試指標(biāo)進(jìn)行測(cè)試,不同功能及其適用的效果測(cè)試指標(biāo)對(duì)應(yīng)情況見表3。表3不同功能及其適用的效果測(cè)試指標(biāo)功能精確率召回率拒識(shí)率準(zhǔn)確率F1值平均排序倒數(shù)歸一化折損累計(jì)增益意圖理解“必選必選可選可選可選命名實(shí)體識(shí)別'必選必選可選可選可選敏感信息辨別必選必選可選可選可選——語義拒識(shí)———必選——————信息檢索可選可選可選———可選必選文本修改可選必選可選可選可選語義修正必選必選可選可選可選8GB/T41813.2—2022表3不同功能及其適用的效果測(cè)試指標(biāo)(續(xù))功能精確率召回率拒識(shí)率準(zhǔn)確率平均排序倒數(shù)歸一化折損累計(jì)增益邏輯推理必選必選可選可選可選—上下文相關(guān)的多輪對(duì)話“可選可選可選必選可選——只測(cè)語義抽取功能,語義信息抽取正確即為正確,不關(guān)注意圖理解是否正確。’只測(cè)命名實(shí)體識(shí)別功能,命名實(shí)體識(shí)別正確即為正確,不關(guān)注意圖理解是否正確。多輪對(duì)話測(cè)試中,應(yīng)選擇對(duì)話是否最終達(dá)成說話人的意圖來判斷是否正確。語義理解效果測(cè)試方法如下:——測(cè)試數(shù)據(jù):按照表2的要求制作測(cè)試數(shù)據(jù)集,對(duì)各測(cè)試數(shù)據(jù)集所有的文本內(nèi)容進(jìn)行人工標(biāo)注,并制作成標(biāo)準(zhǔn)結(jié)果對(duì)比文件;——測(cè)試工具:符合5.2的要求;——測(cè)試環(huán)境:符合5.3的要求;——測(cè)試執(zhí)行:按照5.4的要求對(duì)被測(cè)系統(tǒng)進(jìn)行測(cè)試;——結(jié)果判定:按照表3給出的適用關(guān)系和測(cè)試內(nèi)容描述的方法得出系統(tǒng)運(yùn)行結(jié)果并生成結(jié)果文件,包括測(cè)試數(shù)據(jù)集名稱、測(cè)試數(shù)據(jù)集數(shù)量、指標(biāo)項(xiàng)結(jié)果等。系統(tǒng)運(yùn)行結(jié)果符合被測(cè)系統(tǒng)技術(shù)要求或相關(guān)標(biāo)準(zhǔn)規(guī)范則測(cè)試通過,否則不通過。7.2語義理解效率測(cè)試內(nèi)容:語義理解效率測(cè)試項(xiàng)用語義理解平均響應(yīng)時(shí)間、語義理解響應(yīng)時(shí)間分布和語義理解吞吐率等參數(shù),具體參數(shù)描述如下。a)語義理解平均響應(yīng)時(shí)間:語義理解響應(yīng)時(shí)間指的是在輸入一條文本后,被測(cè)系統(tǒng)給出該條文本的語義理解結(jié)果的時(shí)間;語義理解平均響應(yīng)時(shí)間是測(cè)試數(shù)據(jù)集上所有語義理解響應(yīng)時(shí)間與輸入測(cè)試文本總條數(shù)的比值。參數(shù)值計(jì)算方法見公式(10):…………(10)式中:Tau——語義理解平均響應(yīng)時(shí)間;W——測(cè)試集;T;——測(cè)試樣本i對(duì)應(yīng)的語義理解時(shí)長(zhǎng);N——輸入測(cè)試文本總條數(shù)。b)語義理解響應(yīng)時(shí)間分布:此參數(shù)顯示測(cè)試數(shù)據(jù)集上所有語義理解響應(yīng)時(shí)間分布及其占比情況。宜統(tǒng)計(jì)100ms以下占比,100ms~200ms占比和200ms以上占比情況,實(shí)際測(cè)試時(shí)可根據(jù)需要?jiǎng)澐植煌憫?yīng)時(shí)間區(qū)間。c)語義理解吞吐率:此參數(shù)描述一次性輸入包含大量(業(yè)務(wù)相關(guān))的測(cè)試文本數(shù)據(jù)集并一次性給出語義理解結(jié)果的效率,即被測(cè)系統(tǒng)在單位響應(yīng)時(shí)間內(nèi)語義理解的文本大小。參數(shù)值計(jì)算方法見公式(11):式中:TP——語義理解吞吐率;9W——測(cè)試集;S;——測(cè)試集上樣本i對(duì)應(yīng)文本的大小,單位為千字節(jié);T;——測(cè)試樣本i對(duì)應(yīng)的語義理解時(shí)長(zhǎng)。測(cè)試方法:理解效率測(cè)試方法如下。——測(cè)試數(shù)據(jù):按照表2的要求制作測(cè)試數(shù)據(jù)集。——測(cè)試工具:符合5.2的要求?!獪y(cè)試環(huán)境:符合5.3的要求?!獪y(cè)試執(zhí)行:按照5.4的要求對(duì)被測(cè)系統(tǒng)進(jìn)行測(cè)試?!Y(jié)果判定:按照測(cè)試內(nèi)容描述的方法得出系統(tǒng)運(yùn)行結(jié)果并生成結(jié)果文件,包括測(cè)試數(shù)據(jù)集名稱、測(cè)試數(shù)據(jù)集數(shù)量、指標(biāo)項(xiàng)結(jié)果等。系統(tǒng)運(yùn)行結(jié)果符合被測(cè)系統(tǒng)技術(shù)要求或相關(guān)標(biāo)準(zhǔn)規(guī)范則7.3系統(tǒng)穩(wěn)定性測(cè)試內(nèi)容:系統(tǒng)穩(wěn)定性測(cè)試項(xiàng)包括穩(wěn)定運(yùn)行和資源使用等參數(shù)。a)穩(wěn)定運(yùn)行:檢測(cè)在給定的軟硬件配置和系統(tǒng)并發(fā)路數(shù)的條件下,被測(cè)系統(tǒng)運(yùn)行6.1~6.12描述的各項(xiàng)功能,未出現(xiàn)崩潰、假死或功能異常,能持續(xù)正常運(yùn)行的能力。給定的軟硬件配置和系統(tǒng)并發(fā)路數(shù)需滿足被測(cè)系統(tǒng)正常運(yùn)行的能力。b)資源使用:檢測(cè)在給定的軟硬件配置和系統(tǒng)并發(fā)路數(shù)的條件下,被測(cè)系統(tǒng)運(yùn)行6.1~6.12描述的各項(xiàng)功能,系統(tǒng)物理內(nèi)存、虛擬內(nèi)存、CPU、GPU、句柄、網(wǎng)絡(luò)資源等各項(xiàng)資源使用率持續(xù)平穩(wěn)的能力。給定的軟硬件配置和系統(tǒng)并發(fā)路數(shù)需滿足被測(cè)系統(tǒng)正常運(yùn)行的能力。測(cè)試方法:系統(tǒng)穩(wěn)定性測(cè)試方法如下?!獪y(cè)試數(shù)據(jù):按照測(cè)試項(xiàng)要求準(zhǔn)備測(cè)試數(shù)據(jù)集,并明確軟硬件配置和系統(tǒng)并發(fā)路數(shù)?!獪y(cè)試工具:符合5.2的要求?!獪y(cè)試環(huán)境:符合5.3的要求?!獪y(cè)試執(zhí)行:按照5.4的要求對(duì)被測(cè)系統(tǒng)進(jìn)行測(cè)試,在線場(chǎng)景下持續(xù)7天、離線場(chǎng)景下持續(xù)3d連續(xù)不間斷向被測(cè)系統(tǒng)循環(huán)輸入測(cè)試文本,連續(xù)監(jiān)測(cè)系統(tǒng)運(yùn)行情況和物理內(nèi)存、虛擬內(nèi)存、CPU、GPU、句柄、網(wǎng)絡(luò)資源等各項(xiàng)資源使用率變化情況。 結(jié)果判定:按照測(cè)試內(nèi)容描述的方法得出系統(tǒng)運(yùn)行結(jié)果并生成結(jié)果文件,包括測(cè)試數(shù)據(jù)集名稱、測(cè)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論