數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例 課件 第6章 文本數(shù)據(jù)標(biāo)注_第1頁
數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例 課件 第6章 文本數(shù)據(jù)標(biāo)注_第2頁
數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例 課件 第6章 文本數(shù)據(jù)標(biāo)注_第3頁
數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例 課件 第6章 文本數(shù)據(jù)標(biāo)注_第4頁
數(shù)據(jù)標(biāo)注工程-概念、方法、工具與案例 課件 第6章 文本數(shù)據(jù)標(biāo)注_第5頁
已閱讀5頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

人工智能技術(shù)應(yīng)用核心課程系列教材數(shù)據(jù)標(biāo)注工程——概念、方法、工具與案例第6章文本數(shù)據(jù)標(biāo)注6.2文本數(shù)據(jù)標(biāo)注工具人工智能技術(shù)應(yīng)用核心課程系列教材6.1文本數(shù)據(jù)標(biāo)注簡介6.3序列標(biāo)注方法舉例6.4關(guān)系標(biāo)注方法舉例6.5屬性標(biāo)注方法案例6.6本章小結(jié)6.7作業(yè)與練習(xí)文本數(shù)據(jù)標(biāo)注作為最常見的數(shù)據(jù)標(biāo)注類型之一,是指將文字、符號在內(nèi)的文本進行標(biāo)注,讓計算機能夠讀懂并識別。從本質(zhì)上來看,文本數(shù)據(jù)標(biāo)注就是一個監(jiān)督學(xué)習(xí)的過程,而標(biāo)注問題就是更復(fù)雜結(jié)構(gòu)預(yù)測問題的簡單形式。標(biāo)注問題的目的在于學(xué)習(xí)模型,使該模型能夠?qū)τ^測序列給出標(biāo)記序列作為預(yù)測。這也決定了標(biāo)注問題的工作流程,即輸入是一個觀測序列,之后輸出是一個標(biāo)記序列或者狀態(tài)序列。需要注意的是,標(biāo)記個數(shù)是有限的,但其組合所成的標(biāo)記序列的個數(shù)是依照序列長度呈指數(shù)級增長的。6.1

文本數(shù)據(jù)標(biāo)注簡介第6章文本數(shù)據(jù)標(biāo)注(1)自然語言對話是網(wǎng)絡(luò)大數(shù)據(jù)語義理解的主要挑戰(zhàn)之一,被譽為人工智能皇冠上的寶石,而文本數(shù)據(jù)標(biāo)注就是這一系列工作中最基礎(chǔ)、最重要的環(huán)節(jié)。文本數(shù)據(jù)標(biāo)注就是為了讓機器準(zhǔn)確識別人類的自然語言,并促使機器對人類的自然語言做出精準(zhǔn)定位。(2)近二三十年的研究成果顯示,自然語言對話系統(tǒng)歷經(jīng)了由基于概率決策過程的多輪對話系統(tǒng)到基于深度學(xué)習(xí)的生成式對話系統(tǒng)、再到將深度學(xué)習(xí)和符號處理相融合的神經(jīng)符號對話系統(tǒng)的快速發(fā)展。但是,無論系統(tǒng)發(fā)展的如何迅速、無論系統(tǒng)朝著何種方向發(fā)展,自然語言對話系統(tǒng)的核心推動力從未改變,即更好地進行自然語言理解、知識表示和邏輯推理。6.1.1發(fā)展與研究現(xiàn)狀6.1

文本數(shù)據(jù)標(biāo)注簡介第6章文本數(shù)據(jù)標(biāo)注文本數(shù)據(jù)標(biāo)注類型包括:序列標(biāo)注、關(guān)系標(biāo)注、屬性標(biāo)注和類別標(biāo)注。具體介紹如下:(1)序列標(biāo)注:是一個比較簡單的自然語言處理(NaturalLanguageProcessing,NLP)NLP任務(wù),也是最基礎(chǔ)的任務(wù)。序列標(biāo)注的涵蓋范圍非常廣泛,包括分詞、實體、關(guān)鍵字、韻律、意圖理解等;(2)關(guān)系標(biāo)注:對復(fù)句的句法關(guān)聯(lián)和語義關(guān)聯(lián)做出重要標(biāo)示的一種任務(wù),是復(fù)句自動分析的形式標(biāo)記。關(guān)系標(biāo)注包括:指向關(guān)系、修飾關(guān)系、平行語料等等。(3)屬性標(biāo)注:對事物屬性進行標(biāo)簽,屬性標(biāo)注包括:文本類別、新聞、娛樂等;(4)類別標(biāo)注:對文章的類別進行標(biāo)注,例如篇章級的閱讀理解等。6.1.2基本概念6.1

文本數(shù)據(jù)標(biāo)注簡介第6章文本數(shù)據(jù)標(biāo)注文本項目數(shù)據(jù)標(biāo)注的大致流程為,預(yù)處理、標(biāo)注、線上標(biāo)注、線下標(biāo)注、質(zhì)檢、驗收、數(shù)據(jù)處理和數(shù)據(jù)交付。具體到各個步驟,操作細(xì)節(jié)如下,:(1)預(yù)處理:根據(jù)數(shù)據(jù)的規(guī)范要求,對數(shù)據(jù)進行算法的初步處理;(2)標(biāo)注:根據(jù)項目要求,可以將標(biāo)注分為線上標(biāo)注(數(shù)據(jù)+平臺)和線下標(biāo)注:①線上標(biāo)注:將源數(shù)據(jù)上傳到“數(shù)據(jù)+平臺”,通過互聯(lián)網(wǎng)進行操作;②線下標(biāo)注:通過線下小工具或線下文本(TXT、Excel等)進行操作;(3)質(zhì)檢:根據(jù)數(shù)據(jù)合格率要求,由定義規(guī)范理解的人員對已經(jīng)標(biāo)注數(shù)據(jù)進行抽查;(4)驗收:由數(shù)據(jù)質(zhì)量中心對質(zhì)檢合格數(shù)據(jù)進行再次驗證;(5)數(shù)據(jù)處理:利用技術(shù)處理成客戶需要的格式(如:JSON、UTF-8文本或Excel等);(6)數(shù)據(jù)交付:數(shù)據(jù)加密后交付客戶。6.1.3流程介紹6.1

文本數(shù)據(jù)標(biāo)注簡介第6章文本數(shù)據(jù)標(biāo)注文本類標(biāo)注任務(wù)的數(shù)據(jù)結(jié)果包含文本標(biāo)簽的位置和標(biāo)簽的具體內(nèi)容。標(biāo)注文件的輸岀格式推薦使用易解析、易存儲的數(shù)據(jù)格式,包括JSON、XML、TXT等。標(biāo)注文件應(yīng)該包含詳細(xì)的標(biāo)簽信息。每個獨立標(biāo)簽應(yīng)包含以下信息:(1)標(biāo)簽id:每個標(biāo)簽的獨立編號;(2)文件路徑:待標(biāo)注文本的文件鏈接;(3)原始文本:待標(biāo)注文本的全部內(nèi)容(文本數(shù)據(jù)標(biāo)注任務(wù)僅需提供文件路徑或原始文本中的一個);(4)置信度:為標(biāo)簽的置信度;(5)每個標(biāo)簽中可能包含多個對象,對于每個對象需要定義:①對象類型:比如text_classification或者text_tag;②對象詳情:對象的具體文本位置和內(nèi)容信息,或與其他對象的關(guān)系信息。6.1.4

交付格式6.1

文本數(shù)據(jù)標(biāo)注簡介第6章文本數(shù)據(jù)標(biāo)注數(shù)據(jù)交付時,標(biāo)注團隊需對最終提交的數(shù)據(jù)量進行說明。交付的內(nèi)容應(yīng)包括:(1)標(biāo)注結(jié)果(必選);(2)交付和說明文檔(可選);(3)關(guān)于標(biāo)注數(shù)據(jù)的Metadata(可選),包括描述原始數(shù)據(jù)的元信息;(4)原始數(shù)據(jù)(可選,有時數(shù)據(jù)使用方可直接訪問原始數(shù)據(jù),則無須單獨交付原始數(shù)據(jù))。6.1.4

交付格式6.1

文本數(shù)據(jù)標(biāo)注簡介第6章文本數(shù)據(jù)標(biāo)注文本數(shù)據(jù)標(biāo)注是最常見的數(shù)據(jù)標(biāo)注類型之一,在現(xiàn)實生活中也得到了充分應(yīng)用。具體來說,文本數(shù)據(jù)標(biāo)注應(yīng)用比較多的場景包括:新零售、客服行業(yè)、廣告營銷、金融行業(yè)和醫(yī)療行業(yè)等,具體介紹如下:(1)新零售行業(yè):新零售需要重塑零售行業(yè)的服務(wù)模式,因此需要對客戶的問題進行精準(zhǔn)定位,既需要對客戶的問題進行量身定制,又需要考慮多數(shù)客戶的共性要求,這就需要借助文本數(shù)據(jù)標(biāo)注的方法,將顧客的相應(yīng)問題做出標(biāo)記。(2)客服行業(yè):隨著互聯(lián)網(wǎng)技術(shù)的興起,電子客服越來越多的取締了人工客服。電子客服同樣也可進行文字客服、視頻客服和語音客服三類,這就需要機器對客戶說話方式進行識別。考慮到不同人的說話方式不同、說話習(xí)慣不同,因此,對于同一個問題提問的方式也會不同。但是對于機器而言,面對同一問題,顧客提問方式雖然不同,但做出的回答應(yīng)該是完全相同的。這就要求把對同一問題的不同提問方式進行學(xué)習(xí),從而做出回復(fù)。6.1.5應(yīng)用場景6.1

文本數(shù)據(jù)標(biāo)注簡介第6章文本數(shù)據(jù)標(biāo)注(3)廣告行業(yè):對某產(chǎn)品進行廣告設(shè)計時,通常會把類別相近的且銷量較高的商品文案相互借鑒,把已經(jīng)有的單個商品文案進行綜合,取其精華、去其糟粕,通過文本數(shù)據(jù)標(biāo)注把文案中的“精華”與“糟粕”標(biāo)記出來,這讓文案設(shè)計工作者可以在案例中進行提取綜合,這無疑提高了工作人員的工作效率。(4)金融行業(yè):在企業(yè)的商務(wù)合同中,關(guān)鍵信息的讀取顯得尤為重要。例如:合同中提到的公司名稱、合同編號、發(fā)票編號、相關(guān)金額、到期日期和風(fēng)險提示等內(nèi)容,這些內(nèi)容囊括了甲乙雙方公司的核心信息。對于一個規(guī)模較大的公司來說,每天的簽約合同非常之多,這時用人工智能對合同中的相關(guān)信息進行提取,可以大幅減少勞動力,降低人力成本、提高工作效率。6.1.5應(yīng)用場景6.1

文本數(shù)據(jù)標(biāo)注簡介第6章文本數(shù)據(jù)標(biāo)注第6章文本數(shù)據(jù)標(biāo)注6.1文本數(shù)據(jù)標(biāo)注簡介人工智能技術(shù)應(yīng)用核心課程系列教材6.2文本數(shù)據(jù)標(biāo)注工具6.3序列標(biāo)注方法舉例6.4關(guān)系標(biāo)注方法舉例6.5屬性標(biāo)注方法案例6.6本章小結(jié)6.7作業(yè)與練習(xí)常用的開源文本標(biāo)注工具包括:Doccano、YEDDA、Chinese-Annotator、IEPY、DeepDive和BRAT,具體介紹如下。(1)Doccano:是一個開源文本標(biāo)注工具,它提供了文本分類、序列標(biāo)記和序列到序列任務(wù)的標(biāo)注功能。因此,可以為情感分析、命名實體識別、文本摘要等標(biāo)注任務(wù)創(chuàng)建帶標(biāo)簽的數(shù)據(jù)。Doccano序列標(biāo)注任務(wù)界面如下圖所示。6.2.1開源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(2)YEDDA:是一個針對實體類的開源文本注釋工具,它提供了序列標(biāo)記的標(biāo)注功能。YEDDA為文本跨度標(biāo)注提供了一個系統(tǒng)的解決方案,從協(xié)作用戶標(biāo)注到管理員評估和分析。它克服了傳統(tǒng)文本注釋工具效率低下的問題,通過命令行和快捷鍵對實體進行注釋,這些實體可配置自定義標(biāo)簽。下圖為YEDDA進行序列標(biāo)注任務(wù)的界面。6.2.1開源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(3)

Chinese-Annotator:是一款智能中文文本標(biāo)注工具,擁有簡潔的標(biāo)注環(huán)境與智能的學(xué)習(xí)算法,能夠進行線下學(xué)習(xí)。該標(biāo)注工具標(biāo)注界面顯而易見地友好,讓標(biāo)注操作盡可能簡便和符合直覺。標(biāo)注框架是一個較為完整的系統(tǒng),包括前端、后臺與數(shù)據(jù)庫。下圖為Chinese-Annotator的標(biāo)注界面。6.2.1開源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(4)

IEPY:是一個專注于關(guān)系提取的信息提取開源工具。操作界面如下圖所示。6.2.1開源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(5)

DeepDive:與IEPY類似,也是針對信息抽取類型任務(wù)的開源標(biāo)注工具,DeepDive非常適合信息抽取,是構(gòu)建知識庫的利器。能夠基于詞性標(biāo)注、句法分析等通過各種文本規(guī)則實現(xiàn)實體之間關(guān)系的抽取,同時可面向異構(gòu)、海量的數(shù)據(jù)。下圖為DeepDive的標(biāo)注界面。6.2.1開源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(6)

BRAT:這個工具可以用于各種自然語言處理(NLP)任務(wù),該工具是為實體識別和關(guān)系抽取設(shè)計的。BRAT服務(wù)器是一個Python程序,默認(rèn)情況使用烏班圖(Ubuntu)操作系統(tǒng),網(wǎng)頁瀏覽器使用谷歌瀏覽器。下圖為BRAT的標(biāo)注界面。6.2.1開源文本數(shù)據(jù)標(biāo)注工具匯總6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注本部分以數(shù)據(jù)堂的文本數(shù)據(jù)標(biāo)注工具為樣例介紹典型的幾種文本數(shù)據(jù)標(biāo)注工具。(1)韻律標(biāo)注:韻律原指詩詞中的平仄格式和押韻規(guī)則,后引申為音響的節(jié)奏規(guī)律。這里的韻律是指句子中字詞之間的停頓,大多數(shù)情況下,我們不能完全沒有停頓地說一句話,總會或長或短的有些停頓,這些停頓就是我們要標(biāo)注韻律符號的位置,根據(jù)停頓長度不同,韻律符號也會相應(yīng)發(fā)生變化。韻律標(biāo)注界面如下圖所示。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(2)詞性標(biāo)注:詞性標(biāo)注是文本數(shù)據(jù)標(biāo)注的一種形式,詞性標(biāo)注工具可對文本內(nèi)容進行實體名稱、實體屬性、實體關(guān)系標(biāo)注,下圖為實體標(biāo)注工具,實體標(biāo)注工具具有實體名稱列表、文本顯示區(qū)、屬性編輯框、標(biāo)注列表、工具欄等,能夠進行選中文本、新建/編輯/刪除實體標(biāo)注操作,同時支持自定義標(biāo)簽功能。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(3)詞性(實體)關(guān)系標(biāo)注:需要先對文本進行實體標(biāo)注,然后對實體之間進行實體的關(guān)系標(biāo)注。相關(guān)聯(lián)的實體會通過一條線進行關(guān)聯(lián),示意圖如下。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(4)音調(diào)多音字標(biāo)注:通俗地講,就是給一個多音字加讀音,例如“駢”讀音(pián),便(pián)宜等。通過音調(diào)多音字標(biāo)注工具,實現(xiàn)快速的標(biāo)注。首先通過算法把一段文本的多音字識別出來,與原始文本一起導(dǎo)入平臺,模板會同時將文本和讀音加載顯示在標(biāo)注頁面。多音字標(biāo)注平臺示意圖如下。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(5)語義標(biāo)注:是文本數(shù)據(jù)標(biāo)注的一種形式,針對交互的短文本進行理解,標(biāo)注出文本的意圖。語義標(biāo)注工具可進行意圖標(biāo)注以及設(shè)置自定義標(biāo)簽。語義標(biāo)注首先是要自定義標(biāo)簽,自定義標(biāo)簽包括意圖級別配置、功能配置、預(yù)識別配置等,語義標(biāo)注平臺如下圖所示。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(6)閱讀理解:模板區(qū)域和實體標(biāo)注的基本一致,不同之處在于右側(cè)顯示的是問答標(biāo)注列表,可以在該處進行問答填寫,同時底部也沒有工具欄,下圖展示的是閱讀理解標(biāo)注展示界面。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注(7)標(biāo)注準(zhǔn)確率計算:數(shù)據(jù)質(zhì)檢完成后,根據(jù)標(biāo)注結(jié)果與質(zhì)檢結(jié)果比對情況,計算標(biāo)注的準(zhǔn)確率,標(biāo)注人員和質(zhì)檢人員均可以在任務(wù)執(zhí)行情況頁面查看實時的準(zhǔn)確率,準(zhǔn)確率統(tǒng)計界面如下圖所示。6.2.2文本數(shù)據(jù)標(biāo)注工具使用介紹6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注標(biāo)注工具對于數(shù)據(jù)產(chǎn)品生產(chǎn)任務(wù)至關(guān)重要,一個好的標(biāo)注工具能夠大大減少標(biāo)注過程中出現(xiàn)的問題,減少標(biāo)注人員出現(xiàn)的錯誤,提高數(shù)據(jù)產(chǎn)品生產(chǎn)效率與數(shù)據(jù)質(zhì)量。那么一款優(yōu)秀的標(biāo)注工具應(yīng)當(dāng)具備什么樣的條件呢?這里給出以下幾個思考方面:(1)擴展性強;(2)操作便捷;(3)容錯性強;(4)數(shù)據(jù)存儲穩(wěn)定;(5)數(shù)據(jù)導(dǎo)出格式多樣;(6)支持預(yù)識別算法;(7)支持多語種;(8)網(wǎng)頁版。6.2.3優(yōu)秀的標(biāo)注工具應(yīng)具備的條件6.2文本數(shù)據(jù)標(biāo)注工具第6章文本數(shù)據(jù)標(biāo)注第6章文本數(shù)據(jù)標(biāo)注6.2文本數(shù)據(jù)標(biāo)注工具人工智能技術(shù)應(yīng)用核心課程系列教材6.3序列標(biāo)注方法舉例6.6本章小結(jié)6.4關(guān)系標(biāo)注方法舉例6.5屬性標(biāo)注方法案例6.1文本數(shù)據(jù)標(biāo)注簡介6.7作業(yè)與練習(xí)項目背景:顧客在點外賣時,首先考慮的第一個問題是要買什么,即商品的類別是什么,第二個問題就是商品的品牌是什么、規(guī)格怎樣,第三個問題就是顧客本身對某些特定產(chǎn)品的偏好。而商家在接到顧客的外賣訂單時,考慮到的第一個問題就是顧客的需求如何,應(yīng)該提供什么樣的商品,第二個問題就是顧客的位置,如何給顧客送達。標(biāo)注目的:標(biāo)注結(jié)果用于訓(xùn)練外賣成分識別模型,優(yōu)化來自外賣意圖的召回和排序效果。標(biāo)注內(nèi)容:在句中劃詞并選擇標(biāo)簽。標(biāo)注?員需要對用戶搜索的意圖進行推斷,確定查詢詞的邊界以及對應(yīng)的成分類型;對于模糊查詢,需要借助搜索引擎來判斷查詢的意圖;如果存在多種分析結(jié)果,就填寫多次,按粗粒度、細(xì)粒度順序填寫外賣成分識別標(biāo)注案例6.3序列標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注流程:根據(jù)項目要求,需要標(biāo)注的內(nèi)容如下表所示。外賣成分識別標(biāo)注案例6.3序列標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注內(nèi)容符號地址L品牌B其它U品類C口味AT商品描述屬性AS用戶需求屬性AU規(guī)格AQ食物類別S標(biāo)注結(jié)果:部分標(biāo)注結(jié)果如下表所示。外賣成分識別標(biāo)注案例6.3序列標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注querylabel新都榴蓮蛋糕新都/L;榴蓮/AS;蛋糕/S睡眠美白面膜睡眠/AU;美白/AU;面膜/S秦鎮(zhèn)米皮臘汁肉夾饃秦鎮(zhèn)/L;米皮/S;臘汁/AS;肉夾饃/S第6章文本數(shù)據(jù)標(biāo)注6.2文本數(shù)據(jù)標(biāo)注工具人工智能技術(shù)應(yīng)用核心課程系列教材6.4關(guān)系標(biāo)注方法舉例6.3序列標(biāo)注方法舉例6.6本章小結(jié)6.5屬性標(biāo)注方法案例6.1文本數(shù)據(jù)標(biāo)注簡介6.7作業(yè)與練習(xí)標(biāo)注內(nèi)容:給定新聞文章內(nèi)容,要求標(biāo)注員根據(jù)文章內(nèi)容提出問題,并對問題進行回答。標(biāo)注過程:一次標(biāo)注過程中,系統(tǒng)會在頁面左側(cè)顯示文章內(nèi)容并按照段落劃分好。(1)標(biāo)注者快速閱讀段落內(nèi)容。(2)提問。標(biāo)注員在右側(cè)輸入框內(nèi)輸入標(biāo)注者根據(jù)段落內(nèi)容想到的問題,要求問題與段落內(nèi)容相關(guān),標(biāo)注員自己組織語言提問,不得復(fù)制文章內(nèi)容當(dāng)作問題,問題表述與段落內(nèi)容差異越大越好。(3)標(biāo)記問題答案。標(biāo)注員根據(jù)問題和段落內(nèi)容,在段落中選擇答案所在位置。要求選出所有答案,在選擇過程中按照答案與問題匹配程度的由高到低選取。段落開頭有類似“####”的特殊標(biāo)記,標(biāo)注者首先選擇可以正確回答問題的答案,然后選擇這個特殊標(biāo)記作為分隔,之后選出看似是答案但是實際不能正確回答問題的可以答案。中文閱讀理解分析案例6.4

關(guān)系標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注示例:段落內(nèi)容為:####石墨烯如此低的電阻率自然是動力電池的最好材料,也有數(shù)據(jù)顯示,石墨烯聚合材料電池的重量僅為傳統(tǒng)電池50%,成本將比鋰電池低77%,且石墨烯鋰電池充電一次,耗時也不超過10分鐘。不過有關(guān)石墨烯電池的說法已經(jīng)流傳了很久,至今沒有實際的落地,榮耀手機不大可能會進行“技術(shù)大躍進”。標(biāo)注員給出問題及答案示例如下:問題1:石墨烯電池的成本怎么樣?答案1:比鋰電池低77%答案2:####答案3:僅為傳統(tǒng)電池50%(解釋:答案1為問題的正確回答,答案2是正確答案與可疑答案的分隔,答案3是可疑答案,因為僅看答案貌似可以回答問題,但是結(jié)合段落上下文可知50%是指重量,非成本。)中文閱讀理解分析案例6.4

關(guān)系標(biāo)注方法舉例第6章文本數(shù)據(jù)標(biāo)注第6章文本數(shù)據(jù)標(biāo)注6.2文本數(shù)據(jù)標(biāo)注工具人工智能技術(shù)應(yīng)用核心課程系列教材6.5屬性標(biāo)注方法案例6.3序列標(biāo)注方法舉例6.6本章小結(jié)6.4關(guān)系標(biāo)注方法舉例6.1文本數(shù)據(jù)標(biāo)注簡介6.7作業(yè)與練習(xí)項目背景:在人與機器的語音通話中,能夠?qū)㈩櫩蛦栴}精準(zhǔn)定位是十分必要的??紤]到不同人的說話方式不同、說話習(xí)慣不同,因此,對于同一個問題提問的方式也會不同。但是對于機器而言,面對同一問題,顧客提問方式雖然不同,但做出的回答應(yīng)該是完全相同的。這就要求把對同一問題的不同提問方式進行學(xué)習(xí),從而進行回復(fù)。標(biāo)注需求:在電話對話場景下,語音轉(zhuǎn)為文本作為數(shù)據(jù),因此標(biāo)注過程中需要充分考慮到這一環(huán)境,對可能存在的干擾數(shù)據(jù)進行排除。6.5.1語音文本判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注規(guī)范:(1)在各個類別中,每個類別代表一個用戶意圖,其對應(yīng)的句子語義表達跟類別意圖相同或不相同。需要將與意圖相同的句子標(biāo)注為1,與意圖不相同的標(biāo)注為0;(2)表達語義明確,但存在干擾信息的句子中,與意圖相同的句子標(biāo)注為1,與意圖不相同的標(biāo)注為0;(3)表達語義不明確的句子,按照不相關(guān)進行處理,即標(biāo)注為”0”;(4)數(shù)據(jù)標(biāo)注準(zhǔn)確率要求達到98%.6.5.1語音文本判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注結(jié)果示例:客戶-客戶在忙標(biāo)注6.5.1語音文本判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注結(jié)果示例:公司—什么公司標(biāo)注6.5.1語音文本判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注項目背景:近年來,隨著論壇、點評、微博、微信和QQ等語言社交軟件平臺的快速發(fā)展。在社交平臺上的帖子直接關(guān)系到了企業(yè)形象的重塑等相關(guān)問題討論,這些帖子在無形中左右了公眾的情緒和情感,深刻地影響了我們社會發(fā)展。當(dāng)我們在感嘆人言可畏的同時,對政府的輿情系統(tǒng)也提出了重大考驗。社交平臺上公眾發(fā)表的帖子就是文本數(shù)據(jù),通過對文本數(shù)據(jù)進行情感分析,可以實時把控群眾的情感變化或者是輿論趨勢,以此避免發(fā)生惡性事件或者虛假事件。標(biāo)注需求:對平臺上獲得的文本數(shù)據(jù)進行情感判別,可以在此基礎(chǔ)上進行情感分析。6.5.2文本情感分析判別標(biāo)注案例6.5屬性標(biāo)注方法案例第6章文本數(shù)據(jù)標(biāo)注標(biāo)注規(guī)范:(1)比較多的事件信息判斷有誤,比如上市、漲停、公司合作、增持等均屬于利好事件,比較突出的是很多漲停事件全部標(biāo)記為負(fù)面;(2)比較傾向性的情感描述,比如有望、史上最大、看好、合作、騰飛等描述,均可以視作利好,這種描述表達了作者對市場的看好情緒,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論