

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、PAGE 19 -面向?qū)W科領(lǐng)域的學術(shù)文獻語義標注框架研究海量的學術(shù)文獻為科研工的研究帶來了困難。語義標注是實現(xiàn)學術(shù)文獻的快速閱讀和知識的快速獲取的基礎(chǔ),因此,本文旨在構(gòu)建一個面向?qū)W科領(lǐng)域的學術(shù)文獻語義標注框架,以規(guī)范和豐富學術(shù)文獻的標注體系。本文從三個方面進行了研究:一是學術(shù)文獻標注本體的構(gòu)建,二是學科領(lǐng)域本體的構(gòu)建,三是標注本體與領(lǐng)域本體的關(guān)聯(lián)實例。本文從學術(shù)文獻內(nèi)容定位、概念關(guān)聯(lián)、方法流程標注及引文標注幾個方面給出了標注的實例。1 引言20世紀80年代起,隨著互聯(lián)網(wǎng)及計算機軟硬件的發(fā)展,數(shù)字出版的基礎(chǔ)設(shè)施逐步發(fā)展成熟,數(shù)字學術(shù)出版物應(yīng)運而生,而隨之帶來的是數(shù)字學術(shù)出版物在數(shù)量上呈現(xiàn)爆發(fā)式增
2、長。2022年STM報告:科技及學術(shù)期刊出版概述指出:截至2022年,CrossRef數(shù)據(jù)庫包含超過7100萬個DOI號,Google學術(shù)索引了1億1.6億的學術(shù)資源(包括期刊文獻、書籍和灰色文獻),Web of Science數(shù)據(jù)庫中包含了約9000萬條記錄;截至2022年9月,中國學術(shù)期刊(網(wǎng)絡(luò)版)共收錄接近5000萬篇中文學術(shù)文獻。在這種背景下,學術(shù)交流產(chǎn)生了重大的變革。研究者可以從網(wǎng)絡(luò)文獻數(shù)據(jù)庫中獲取到大量的學術(shù)文獻,這為研究者的研究工作提供了非常好的基礎(chǔ),但同時如此大體量的資源為學術(shù)工作的展開也帶來了困難。首先,新概念的產(chǎn)生或者新涉足某一領(lǐng)域時,研究者需要學習大量的已有知識才能跟上現(xiàn)
3、有的研究進展。而且,研究者的時間是有限的,獲取到的文獻越多,分配到單篇學術(shù)文獻閱讀的時間則相應(yīng)減少,Tenopir等1的研究就證實了這一假設(shè)研,研究者閱讀文獻不再是閱讀全文,而是獲取感興趣的內(nèi)容進行閱讀:研究者通過瀏覽許多文章的部分來尋找、評估和利用一系列的信息2,這種閱讀方式也被稱作碎片化閱讀。因此,第一個問題就是如何快速定位到文章的有用部分。另外,學術(shù)文獻中的知識元存在大量的關(guān)聯(lián)性,如引文關(guān)聯(lián)、相關(guān)概念等,如何組織這些相關(guān)的知識元是研究者面臨的第二個問題。因此,Renear等3提出了“策略閱讀”的概念,采用學科本體來表示及鏈接科學數(shù)據(jù)可以提高研究者閱讀學術(shù)文獻的效率,即需要利用學科本體對學
4、術(shù)文獻中的相關(guān)內(nèi)容進行語義標注(Semantic Annotation)。語義標注就是將本體或元數(shù)據(jù)中的概念與資源建立聯(lián)系的一個過程。其中,語義標注的核心是學科領(lǐng)域本體,本體最廣泛的定義是“本體是概念模型的明確的規(guī)范說明”4,它可以靈活地定義事物結(jié)構(gòu),以元數(shù)據(jù)的模式,提供概念受控詞表,每個概念都包括一個明確定義的機器可理解的語義,且概念與概念之間的關(guān)聯(lián)也顯式地進行了定義,這樣的結(jié)構(gòu)能夠讓計算機進行推理應(yīng)用。學術(shù)文獻的語義標注就是借助領(lǐng)域本體,將學術(shù)文獻中的相關(guān)內(nèi)容與本體中的知識元(概念或關(guān)系)進行鏈接,當讀者需要獲取文獻中知識元對應(yīng)的描述時,可以借助語義本體從對應(yīng)的知識庫中進行獲取。例如,Te
5、xtpresso5就是一個與本體關(guān)聯(lián)的數(shù)據(jù)挖掘系統(tǒng),它所包含的學術(shù)文獻集依據(jù)本體中的術(shù)語分為了33個類別,用戶輸入一個或多個標記或關(guān)鍵詞集合就可以定位到學術(shù)文獻中特定的句子,并可獲取本體中詞對應(yīng)的含義,支持語義查詢。預(yù)先對學術(shù)文獻的結(jié)構(gòu)、內(nèi)容或引文信息進行標注后,讀者可以通過這些標注信息快速定位到文章的部分內(nèi)容實現(xiàn)“策略閱讀”。目前,已有一些研究針對資源語義標注框架提出了標注本體的概念,標注本體旨在針對學術(shù)文獻提出一個規(guī)范的本體框架,進而采用標注本體中的概念對學術(shù)文獻的內(nèi)容進行標注。目前已有的標注本體有PAV6、PROV-O7以及AO8本體等。其中,PAV本體用于獲取數(shù)字科技資源的出處、以及版
6、本信息,用以區(qū)別資源被獲取、轉(zhuǎn)換以及消費的過程;PROV-O是W3C小組制定的用于統(tǒng)一資源交換的本體;AO本體提供了用于標注生物醫(yī)學領(lǐng)域科技文獻的概念及關(guān)系。但是,現(xiàn)有的研究主要集中在標注本體的制定上,而如何對學術(shù)文獻進行標注的研究比較少。為了實現(xiàn)學術(shù)文獻的語義標注,首先需要明確學術(shù)文獻所包含的知識元類型,在繼承已有標注本體的基礎(chǔ)上構(gòu)建一個面向?qū)W術(shù)文獻標注的標注本體,除了包含學術(shù)文獻的一些標準元數(shù)據(jù)信息(、創(chuàng)建者、創(chuàng)建時間)以外,還包括了學術(shù)文獻中的主題、發(fā)現(xiàn)、方法論等;其次,需要構(gòu)建一個與某一學術(shù)領(lǐng)域相關(guān)專業(yè)術(shù)語的領(lǐng)域本體,包含該領(lǐng)域的概念及概念間的關(guān)聯(lián);最后,要將學術(shù)文獻中的內(nèi)容與本體中的
7、概念一一對應(yīng),從而可以通過標注信息實現(xiàn)文獻的快速瀏覽,也可以通過URI對相應(yīng)概念做進一步了解。因此,本文旨在構(gòu)建學科領(lǐng)域?qū)W術(shù)文獻語義標注框架,提出適用于學術(shù)文獻語義標注的標注本體,以及針對學術(shù)文獻具體內(nèi)容(如引文信息、內(nèi)容信息等)進行語義標注的方法。本文提出的學術(shù)文獻語義標注框架也是實現(xiàn)文獻語義檢索的基礎(chǔ),通過語義標注,給予機器可以理解的語義,讓使用者更方便更有效地利用學術(shù)文獻,另外,提出的學術(shù)文獻標注本體,可以被其他標注本體進行繼承和擴展,具有較高的實踐價值。2 相關(guān)研究2.1 學術(shù)文獻語義標注方法相關(guān)研究學術(shù)文獻標注主要有兩種方法:一是社會標注,研究者在學術(shù)文獻閱讀過程中使用輔助閱讀或管理
8、的軟件進行標注;二是采用機器自動進行學術(shù)文獻的標注。社會標注,即folksonomies,目前已有一些面向?qū)W術(shù)文獻的標注軟件,如Utopia、Mendeley,這些軟件可以自動獲取到文章的一些元數(shù)據(jù)信息,如題名、摘要、DOI、URL等,也可以獲取讀者的統(tǒng)計數(shù)據(jù)以及讀者對文章內(nèi)容的標注。這類軟件有利于資源的分類和組織,標簽可以提升檢索效率,也促進了以同一興趣標簽的社交網(wǎng)絡(luò)生成。但是社會標注有一些缺陷,不同的表達、詞的歧義、不同粒度,都為標簽的共享和重用帶來困難。機器學習方法進行標注可以減少人工標注的成本。Boella等9提出了一種結(jié)合語言學及機器學習的方法來進行語義標注,語言學方法主要依賴于PO
9、S標注以及句法分析,再將這些元素轉(zhuǎn)化為特征集,采用支持向量機來對文本進行語義標注。段宇鋒等10結(jié)合樸素貝葉斯和弱監(jiān)督學習方法Bootstrapping來迭代學習和標注中文物種領(lǐng)域的文本。Vidal等11提出了一種基于圖的方法來對e-Learning領(lǐng)域的教學資源文檔進行標注,每個相關(guān)術(shù)語鏈接到本體中的子圖,這一擴展過程中,排除與文檔主題不相關(guān)的信息,因而有一系列本體子圖標注文檔,最后取這些本體子圖的交集作為文檔的語義標注。2.2 學術(shù)文獻元數(shù)據(jù)或標注本體相關(guān)研究目前,針對資源描述出現(xiàn)了一些元數(shù)據(jù)以及標注本體。都柏林核心元數(shù)據(jù)適用于描述和管理數(shù)字資源及館藏資源,包括題名、創(chuàng)建者、主題及關(guān)鍵詞、說
10、明、出版者等15個廣義元數(shù)據(jù)。PROV本體(PROV-O)是針對不同系統(tǒng)不同內(nèi)容生成的信息進行表示、交換或集成的本體,由W3C小組開發(fā)、管理和維護。PAV本體是用于獲取網(wǎng)絡(luò)資源的出處、以及版本信息的本體。標注本體(AO)是與標注相關(guān)的本體,包括評論、實體標注(或語義標注)、文本標注(經(jīng)典標記)、筆記等用于部分或全部電子文檔(文本、圖片、聲音、表格等)的標注信息。SWAN12本體描述了艾滋海默癥領(lǐng)域的知識,它作為一個知識支撐系統(tǒng)能夠有效地支持艾滋海默領(lǐng)域研究,并且它與SIOC本體進行了本體對齊,為不同粒度級別的科學論述的表示提供了一個完整的模型。SPAR本體是用于描述出版領(lǐng)域的本體,它為語義出版
11、和引文提供了一套可以機讀的RDF元數(shù)據(jù)集,包括文檔的描述,文獻目錄識別,引文的類型和相關(guān)內(nèi)容,書目引文,文檔的部分及狀態(tài),個體的角色及貢獻,文獻計量學數(shù)據(jù)及工作流程。SPAR本體包括下述子本體:FaBiO是用于描述出版或者潛在出版實體的本體;CiTO是一種引文本體,用來描述引文的特性及類型,并允許標注者標記引文鏈接和引用意圖;BiRO是用于描述書目記錄及參考文獻的本體;C4O是用于描述參考文獻引文的本體,如文本內(nèi)部參考文獻指針、文本被引用文獻引用的次數(shù)等;DoCO提供了文檔結(jié)構(gòu)元素的詞表,如段落、節(jié)或列表等;PSO是用于描述文件出版狀態(tài)或者出版過程中不同階段的出版實體的本體,如提交、審稿中、拒
12、稿、接收等;PRO是用于描述個體出版過程中(如、編輯、評審等)的角色的本體;PWO13是用于描述出版實體在出版過程中的步驟的本體,如文章在審稿中、印刷、發(fā)表等;DEO為文件中的修飾元素提供了一個結(jié)構(gòu)化的詞表,如引言、討論、致謝、參考文獻列表、附錄等;SCoRO是用于描述學術(shù)貢獻及角色的本體;FRAPO是用于描述研究項目信息的本體,如撥款申請、資助機構(gòu)、項目合等;BiDO是用于描述文獻數(shù)據(jù)中數(shù)字和分類的模塊本體,如期刊影響因子、H-指數(shù)、研究類型分類等;Five*是描述網(wǎng)絡(luò)期刊文章中五種屬性的本體。對于描述學術(shù)資源的數(shù)據(jù)的規(guī)范,學術(shù)文獻語義標注本體可在繼承現(xiàn)有元數(shù)據(jù)和標注本體的基礎(chǔ)上加以擴展。2
13、.3 學術(shù)文獻內(nèi)容提取相關(guān)研究目前,一些研究針對學術(shù)文獻中的元數(shù)據(jù)元素、文獻結(jié)構(gòu)以及引文的提取提出了方案。Constantin等14設(shè)計了基于規(guī)則的系統(tǒng)PDFX,利用設(shè)計的規(guī)則和特征集進行了元數(shù)據(jù)的抽取以及標注文本片段。Kovriguina等15研究采用規(guī)則和模板匹配的方法從會議文獻中提取元數(shù)據(jù)。Tkaczyk等16主要采用啟發(fā)式規(guī)則及支持向量機方法實現(xiàn)了基本結(jié)構(gòu)抽取,采用支持向量機以及簡單的規(guī)則進行元數(shù)據(jù)抽取,采用支持向量機及條件隨機場模型實現(xiàn)了引文抽取。Han等17研究了采用支持向量機進行學術(shù)文獻元數(shù)據(jù)(包括題名、機構(gòu)、地址、致謝、版權(quán)、引文、Email、出版時間、摘要、引言、聯(lián)系方式、關(guān)
14、鍵詞、URL、程度、出版號、頁面范圍等)的抽取,該方法通過預(yù)測類標簽進行迭代收斂來提升分類效果,再通過查找每行的塊邊界來進行元數(shù)據(jù)抽取。另一個采用支持向量機的學術(shù)文獻元數(shù)據(jù)抽取方法是等18提出的CRIS系統(tǒng)。引文內(nèi)容是學術(shù)文獻中引用的與之相關(guān)的資源。等19采用線性條件隨機場實現(xiàn)了參考文獻字符串的抽取。目前的研究主要是基于規(guī)則、模板和一些學習方法,但是這些方法主要是基于領(lǐng)域內(nèi)一些手工提取的特征,為了突破這一限制,An等20探索了采用序列標注的深度神經(jīng)網(wǎng)絡(luò)模型進行引文元數(shù)據(jù)抽取。2.4 相關(guān)研究綜合述評目前,針對學術(shù)文獻或?qū)W術(shù)資源進行語義標注的研究主要還是基于人工標注的方法,通過設(shè)計標注軟件或網(wǎng)頁
15、,利用社會標注方法來對學術(shù)文獻進行標注,這類標注方法目前僅對學術(shù)文獻的一些信息(如關(guān)鍵詞、信息、題名等)作淺層標注,并未涉及針對學術(shù)文獻進行語義標注。相關(guān)研究主要集中在對標注本體的設(shè)計、學術(shù)文獻中一些信息(包括關(guān)鍵詞、結(jié)構(gòu)信息等)進行機器自動抽取的研究。而如何實現(xiàn)對學術(shù)文獻的語義標注,即如何將學術(shù)文獻中的內(nèi)容與領(lǐng)域本體進行語義關(guān)聯(lián),目前的研究較少涉及,因此,本文提出了學術(shù)文獻的語義標注框架。3 學科領(lǐng)域語義標注框架整個學術(shù)文獻的標注流程如圖1所示,本文提出一種適合手工標注與機器自動標注的學科領(lǐng)域語義標注框架。整個語義標注流程如下:首先,計算機按照標注本體或者元數(shù)據(jù)對文獻中對應(yīng)項進行讀取并預(yù)處理
16、,抽取出對應(yīng)的信息,將計算機確定的條目(如期刊信息、題名等)抽取結(jié)果存入知識庫;其次,針對標注本體中的一些復(fù)雜項(如文獻主題、關(guān)鍵詞、研究問題、解決方案等),計算機將領(lǐng)域本體中的概念或關(guān)系與對應(yīng)的抽取項進行關(guān)聯(lián),并將抽取結(jié)果提交給專家(或用戶)選擇標注;有文獻閱讀需要的用戶在閱讀文獻后,可以利用標注工具對文獻中的某些標注項進行標注,對計算機的抽取結(jié)果進行篩選,最后標注工具將用戶的標注結(jié)果提交到知識庫。圖1 語義標注流程圖其中,知識庫包括本體庫、標注元數(shù)據(jù)以及文獻語義標注后的知識,知識庫可以輔助機器對文檔的自動標注與標注人員的手工標注。本體庫中包含標注本體和學科領(lǐng)域本體,例如生物醫(yī)學領(lǐng)域已有較多
17、的本體,在本體標注時可以借助已有本體進行使用,然后其他一些領(lǐng)域并不具備這種條件,沒有已構(gòu)建好的本體,因此,需要采用本體自動構(gòu)建技術(shù)對該領(lǐng)域進行構(gòu)建。為了實現(xiàn)學術(shù)文獻的語義標注,整個語義框架完成實現(xiàn)以下內(nèi)容:(1)面向?qū)W科領(lǐng)域的學術(shù)文獻,從獲取目前已有的元數(shù)據(jù)和標注本體出發(fā),整理學術(shù)文獻相關(guān)的概念和屬性,構(gòu)建標注本體。(2)構(gòu)建學科領(lǐng)域本體,獲取學術(shù)領(lǐng)域的專業(yè)術(shù)語及關(guān)系。(3)將學術(shù)文獻中標注中的標記與學科領(lǐng)域本體中的概念關(guān)聯(lián)。3.1 標注本體設(shè)計3.1.1 標注本體設(shè)計的目標標注本體是為了描述需要標注的對象(即學術(shù)文獻)中的元素、結(jié)構(gòu)等信息,包括學術(shù)文獻中的一些元數(shù)據(jù),如題名、等;學術(shù)文獻中的
18、一些科學論述,如陳述、假設(shè)等;學術(shù)文獻中的結(jié)構(gòu)元素,如章、節(jié)、段落等;學術(shù)文獻中的引文信息,如引用次數(shù),引用文獻等;某個領(lǐng)域的學術(shù)文獻中的概念(專業(yè)術(shù)語)與關(guān)系。3.1.2 標注本體中的元素本文的標注本體繼承了一些已有的本體(SPAR本體、FOAF、OA等),并在此基礎(chǔ)上進行了擴展。標注本體主要包含以下幾類概念及屬性:(1)學術(shù)文獻相關(guān)的個體(Agent):包括學術(shù)文獻在撰寫、出版過程、檢索利用中相關(guān)的人、機構(gòu)及軟件。(2)學術(shù)文獻相關(guān)的實體(Entity):不同種類的學術(shù)文獻,學術(shù)文獻中的科學論述以及學術(shù)文獻中的結(jié)構(gòu)部分,學術(shù)文獻參考文獻記錄及引文信息。(3)與學術(shù)文獻相關(guān)的活動(Activ
19、ity):如撰寫、修改、提交、印刷等活動,以及與這些活動相關(guān)的時間節(jié)點或時間區(qū)間。圖2展示了學術(shù)文獻標注本體的概念層級結(jié)構(gòu)。3.1.3 學術(shù)文獻相關(guān)的個體在學術(shù)文獻中,有一些個體作為參與者,如人、軟件、組織及機構(gòu)。針對這些元素,我們繼承了部分FOAF中的類,以一篇期刊文獻來舉例,可獲取文獻的,其在引用另一篇期刊文獻時,被引的文獻中包含的姓名也可被獲取,這些都作為FOAF本體中Person類的實例存在。3.1.4 學術(shù)文獻相關(guān)的實體1)學術(shù)文獻的種類本文對學術(shù)文獻的種類進行了分類并總結(jié),不同類型的學術(shù)文獻的撰寫規(guī)范、包含元素、結(jié)構(gòu)、內(nèi)容不一致,本文主要將學術(shù)文獻分為:書籍、文章、報告、會議文章等
20、13個大類,并在此基礎(chǔ)上又進行細分,例如,文章又可以分為綜述類文章、新聞類文章、雜志文章以及期刊文章。本文的學術(shù)文獻類型繼承了Fabio本體中的一些概念,其概念層次關(guān)系如圖3所示。圖2 學術(shù)文獻標注本體包含的概念圖3 學術(shù)文獻類型的概念層次關(guān)系2)學術(shù)文獻的科學論述及結(jié)構(gòu)元素學術(shù)文獻的科學論述元素是指單篇學術(shù)文獻所提的觀點,在國外稱為scientific discourse,包括斷言、提出問題、假設(shè)、支持的證據(jù)以及它們之間的論證關(guān)系,每個科學論述元素可以與學科領(lǐng)域本體或者社會標注中的術(shù)語或者斷言進行鏈接。斷言在學術(shù)文獻中通常指一些主觀性比較強的言論,例如對某個術(shù)語下的定義。提出問題通常是一個研
21、究或者實驗開展的主題。學術(shù)文獻中的參考文獻及引文就為科學論述元素提供支持的證據(jù)。學術(shù)文獻中的結(jié)構(gòu)元素是組成學術(shù)文獻的部分,包括引言、背景、相關(guān)研究、方法、討論、數(shù)據(jù)等期刊學術(shù)文獻的結(jié)構(gòu),也包括前言、后記、附錄等書籍修飾部分,以及章節(jié)、段落、句子等學術(shù)文獻粒度。為了本體的共享和重用,上述的元素繼承了doco本體、deo本體以及fabio本體,其主要概念層次關(guān)系如圖4所示。圖4 學術(shù)文獻中的科學論述及結(jié)構(gòu)元素圖3)學術(shù)文獻參考文獻及引文元素通常情況下,學術(shù)文獻中的參考文獻通常是與當前文章相關(guān)的研究,或者為學術(shù)文獻中的論述提供證據(jù)。關(guān)于參考文獻及引文元素主要包括參考文獻集合描述、引用行為(其屬性包括
22、引用意圖及情感傾向)以及引文計量。關(guān)于參考文獻及引文的集合、記錄、列表等元素繼承自biro本體中的概念及屬性。根據(jù)學者引用文獻的意圖可以將引用行為分為:作為權(quán)威描述引用、作為數(shù)據(jù)源引用、作為證據(jù)引用、作為潛在方案引用、作為推薦閱讀引用、作為相關(guān)文章引用、作為原始文檔引用、作為信息源引用等幾類。根據(jù)學者引用文獻時對文獻的情感傾向,可將引用行為分為:同意、不同意、認為正確、批判、嘲諷、奚落、駁斥這幾類。這些概念及屬性繼承自cito本體中的一些概念及屬性。關(guān)于引文計量的概念及屬性,如總被引次數(shù),主要繼承自c4o本體。3.1.5 學術(shù)文獻相關(guān)的活動與學術(shù)文獻相關(guān)的活動主要包括學術(shù)文獻創(chuàng)造、加工、修改、
23、使用過程中相關(guān)的活動,繼承PROV本體中的Activity類。這些活動主要有生產(chǎn)、提交、修改、接受、退回、出版、預(yù)印本發(fā)布、發(fā)行、撤回、勘誤等,主要繼承自Fabio本體。3.2 學科領(lǐng)域本體構(gòu)建為了將學術(shù)文獻中的專業(yè)術(shù)語與學科領(lǐng)域本體中的概念相關(guān)聯(lián),首先需要構(gòu)建學科領(lǐng)域本體,該領(lǐng)域本體中包含的概念是某一學科領(lǐng)域中的專業(yè)術(shù)語,這些術(shù)語也可以是領(lǐng)域詞表中的術(shù)語轉(zhuǎn)化而來,本節(jié)介紹一種學科領(lǐng)域本體半自動構(gòu)建方法。(1)定義需要獲取學科的范疇,收集該學科領(lǐng)域相關(guān)的本體、詞表,考慮復(fù)用的可能。(2)獲取領(lǐng)域內(nèi)的術(shù)語:首先確定領(lǐng)域內(nèi)術(shù)語的類型,如任務(wù)、方法、工具、資源這幾個類別。收集領(lǐng)域內(nèi)的語料,對語料進行
24、文本轉(zhuǎn)化、去噪、分詞(英文語料包括詞根化)、詞性標注等預(yù)處理。結(jié)合語言學、統(tǒng)計學或機器學習方法自動地從語料中抽取術(shù)語,語言學方法需要按照領(lǐng)域內(nèi)術(shù)語的規(guī)律提煉出詞性模板,機器學習方法首先需要獲取用于抽取術(shù)語的特征。最后抽取出領(lǐng)域內(nèi)的術(shù)語。(3)獲取術(shù)語間的等級關(guān)系:首先定義一些等級關(guān)系的規(guī)則模板(例如,A是一種B,則A是B的子類),從網(wǎng)頁或語料中獲取到等級關(guān)系概念對,再利用基于圖的方法獲取等級關(guān)系圖模型,最后利用圖剪枝方法去除冗余的關(guān)系。(4)獲取術(shù)語間的非等級關(guān)系:針對領(lǐng)域內(nèi)的知識,定義術(shù)語間非等級關(guān)系的類型(如部分-整體關(guān)系);再到語料中獲取具有非等級關(guān)系的三元組,采用統(tǒng)計學方法判定非等級關(guān)
25、系三元組中概念對、動詞與概念對之間的關(guān)聯(lián)程度,取閾值內(nèi)的非等級關(guān)系三元組;再提取特征,采用機器學習的方法判斷提取三元組的類型。最后對生成的本體進行評價,或者重復(fù)上述過程。4 學術(shù)文獻語義標注實例學術(shù)文獻的語義標注可以是手工標注或是機器自動標注,無論是采用何種標注方法,均是對學術(shù)文獻或者其中某一部分,添加解釋或者進行語義鏈接。本節(jié)針對學術(shù)文獻中語義標注的常見類型進行區(qū)分,并給出學術(shù)文獻語義標注的實例。根據(jù)OA本體21中的規(guī)定,標注實例可以描述為類oa:Annotation的成員(實例),包含標注主體(oa:hasBody)以及標注對象(oa:hasTarget)。針對標注實例,可以添加相關(guān)描述,
26、如標注者、創(chuàng)建時間等,標注者是FOAF本體中Person類的實例,如圖5左部分所示。同時,可以對標注動機進行描述,本文繼承了OA本體中的oa:motivatedBy,這些動機有評論、描述、分類、鏈接、標注等。標注對象是指學術(shù)文獻語義標注實例中需要進行標注的對象,可以是整個學術(shù)文獻或其部分。學術(shù)文獻的部分可以是學術(shù)文獻中的論述元素、某個結(jié)構(gòu)部分甚至是一個句子、一個詞語。例如,圖5中右圖采用OA本體中的片段選擇器指示到PDF學術(shù)文獻中的部分片段;又如,文本類型的文檔,可以定位到文本中的某個位置的字符中間的片段或者某個具體的詞,如圖6所示。圖5 學術(shù)文獻標注本體標注實例示意圖圖6 學術(shù)文獻標注對象位
27、置選擇及詞定位示意圖標注主體是標注本身,可以是一個文本類型的解釋,如圖5左部,還可以對標注主體進行描述,如文本方向、標注目的、語言、標注類型、值等。除了針對學術(shù)文獻進行解釋以外,還可將學術(shù)文獻的部分與領(lǐng)域本體或社會標注中的概念或?qū)I(yè)術(shù)語進行關(guān)聯(lián)。將文章的術(shù)語、論述元素、結(jié)構(gòu)片段或者全文鏈接到領(lǐng)域本體或者社會標注中的一個術(shù)語或概念。例如,圖7左部分將學術(shù)文獻與領(lǐng)域本體中的一個主題詞術(shù)語進行了關(guān)聯(lián),表明該術(shù)語是學術(shù)文獻的主題詞,右部分將學術(shù)文獻中的術(shù)語與領(lǐng)域本體中的一個概念進行了關(guān)聯(lián)。對學術(shù)文獻的方法流程進行語義標注時,本文將其作為流程類的一個實例,繼承pwo本體中的相關(guān)概念及屬性,流程中所含的步驟單
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 餐廳食品安全風險評估與防控合同
- 綜合體大樓特色主題空間裝修工程合同
- 汽車抵押貸款擔保協(xié)議
- 無人機傾斜攝影驗收專題報告
- 髕骨脫位的治療效果評估
- 教育培訓公關(guān)案例
- 超市商品盤點流程規(guī)范
- 腫瘤患者血凝管理
- 兒科心血管護理
- 人類遺傳資源管理培訓
- 云計算試題及答案
- 政治●湖北卷丨2024年湖北省普通高中學業(yè)水平選擇性考試政治試卷及答案
- 中醫(yī)醫(yī)院現(xiàn)代醫(yī)院管理制度章程
- 無錫市2024-2025學年四年級下學期數(shù)學期末試題一(有答案)
- 2024年醫(yī)生三基三嚴模擬習題(附答案解析)
- 2025春季學期國家安全教育期末考試-國開(XJ)-參考資料
- 醫(yī)學教育常識考試試題及答案
- 智能在線問卷調(diào)查系統(tǒng)開發(fā)合同
- 汽車4S店展廳布局設(shè)計
- 酒店客房經(jīng)理培訓
- 2025年廣東省珠海市香洲區(qū)5月中考模擬化學試題(含答案)
評論
0/150
提交評論