科技文獻多維語義索引的設計、實現(xiàn)及應用,文獻檢索論文_第1頁
科技文獻多維語義索引的設計、實現(xiàn)及應用,文獻檢索論文_第2頁
科技文獻多維語義索引的設計、實現(xiàn)及應用,文獻檢索論文_第3頁
科技文獻多維語義索引的設計、實現(xiàn)及應用,文獻檢索論文_第4頁
科技文獻多維語義索引的設計、實現(xiàn)及應用,文獻檢索論文_第5頁
已閱讀5頁,還剩13頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

科技文獻多維語義索引的設計、實現(xiàn)及應用,文獻檢索論文摘要:[目的/意義]文章從科技文獻檢索應用的背景出發(fā),提出了當前檢索系統(tǒng)沒有能知足廣大科研工作者的語義檢索需求,為了解決這一問題,提出了多維語義索引的新思路。[方式方法/經過]首先在總結歸納國內外相關研究中主要的語義索引構建方式方法的基礎上得出了要采用的構建方式方法,然后具體介紹了多維語義索引的設計思路和整體框架,最后以面向物理領域科技文獻為例,介紹了其詳細實現(xiàn)流程。[結果/結論]從怎樣針對科技文獻內部細粒度知識及其之間的關聯(lián)關系揭示的角度驗證了多維語義索引在語義檢索實際應用中的良好效果。本文關鍵詞語:科技文獻檢索;多維語義索引;細粒度;構建方式方法;本體;自然語言處理技術;Abstract:[Purpose/significance]Basedontheapplicationofscientificliteratureretrieval,wefoundthatcurrentscientificliteratureretrievalsystemcannotmeetthesemanticretrievalneedsofthemajorityofscientificresearchers.Inordertosolvethisproblem,weproposedanewideaformultidimensionalsemanticindexingofscientificliterature.[Method/process]Basedonpreviouslyprevalentmethodsofsemanticindexingconstruction,weproposedanewconstructionmethodandillustratedthedesignideaandtheoverallframeworkofthemultidimensionalsemanticindexingorientedtothescientificliterature.Finally,thespecificimplementationprocesswasintroducedwiththephysics-orientedscientificliteratureasanexample.[Result/conclusion]Thegoodeffectofmultidimensionalsemanticindexinginthepracticalapplicationofsemanticretrievalisverifiedfromtheperspectiveofhowtorevealfine-grainedknowledgewithinscientificliteratureandtheassociationrelationshipsbetweenthem.Keyword:scientificliteratureretrieval;multidimensionalsemanticindex;fine-grained;constructionmethod;ontology;naturallanguageprocessingtechnology;科技文獻檢索是廣大科研工作者研究經過中不可或缺的一項工作,在電子文獻資源高速增長的時代,傳統(tǒng)的文獻檢索系統(tǒng)查詢效果往往難以知足用戶的語義檢索需求。究其原因,這些檢索系統(tǒng)一般以整篇文獻為單位揭示文獻的粗粒度知識,沒有能對文獻內部細粒度知識進行深切進入語義理解與揭示,這樣導致其檢索結果不盡如人意。因而怎樣實現(xiàn)文獻內部細粒度知識的語義檢索成為學者們研究的重點問題,這個問題的解決能夠使科研工作者快速把握其主要知識內容,對于揭示華而不實的科學知識具有重大意義。為此,本文嘗試從揭示文獻內部細粒度知識的角度出發(fā),研究面向科技文獻的多維語義索引的構建思路及實現(xiàn)經過,并將其應用到語義檢索系統(tǒng)中。本文主要針對其設計思路、實現(xiàn)經過以及實際應用效果進行闡述。1、語義索引構建方式方法相關研究近年來,語義索引領域的相關研究得到國內外學者的廣泛關注。語義索引的研究牽涉信息檢索、人工智能、數(shù)據(jù)挖掘等諸多領域,相關的應用實踐較為豐富,綜合看來主要采用了3種實現(xiàn)方式方法:1〕基于詞表和知識管理技術。詞表和知識管理技術包括分類與詞表管理、本體管理、知識圖譜等。從資源組織的角度來看,基于詞表和知識管理技術構建語義索引就是基于已有的詞表、本體和知識圖譜對文檔進行語義描繪敘述,再對語義描繪敘述后的文檔構建語義索引。GoPubMed[1]利用Gene本體和MeSH詞表對PubMed文獻進行語義標引,為標引出來的生物醫(yī)學概念建立語義索引,在檢索經過中,用戶可通過閱讀與檢索詞相關的生物醫(yī)學概念來規(guī)范檢索輸入。Buscaldi等[2]介紹了一種通過本體標注文檔中概念的語義檢索系統(tǒng)YaSemIR,不同領域下的本體都適用這個系統(tǒng)。于曉巍結合本體和索引技術,設計出基于本體的文本標引系統(tǒng),并提出了基于本體的途徑索引和倒排索引結合的語義索引方式方法[3]。Google基于知識圖譜〔KnowledgeGraph〕里描繪敘述的人、地點、物體間的互相關系構建語義索引[4]。SpringerNature基于科研圖譜〔SciGraph〕里描繪敘述的科研贊助機構、科研項目、會議、科研單位和出版物的信息建立語義索引[5]。2〕基于隱語義索引。隱語義索引(LatentSemanticIndexing,LSI)又稱為潛在語義索引,它是利用統(tǒng)計方式方法計算得到文檔中詞匯之間的上下文語義關系,并為其構建語義索引。Roger等考慮了詞語對的關聯(lián)性,并根據(jù)關聯(lián)性強度快速地構建了一個潛在語義索引分析系統(tǒng)[6]。莫海波在支持向量機分類算法和改良的K-近鄰算法的基礎上,利用隱語義索引對文檔進行分類[7]。3〕基于自然語言處理技術。自然語言處理技術〔NLP)包括命名實體辨別、關系抽取、文本分類等。從智能化處理角度來看,基于自然語言處理技術構建語義索引通常指對文檔進行語義標注,然后再為語義標注后的文檔構建語義索引。Yan等提出了一種利用卷積神經網(wǎng)絡〔CNN〕學習語義表示來解決生物醫(yī)學抽象索引的新模型,并設計了生物醫(yī)學抽象文檔語義索引的比擬實驗,在MEDLINE數(shù)據(jù)集上的實驗結果表示清楚,該模型比傳統(tǒng)模型具有更好的性能[8]。Quertle[9]是一個關系驅動的生物醫(yī)學文獻檢索工具,它首先使用自然語言處理技術從生物醫(yī)學文獻中抽取生物醫(yī)學實體(如疾病、基因、藥物)以及實體之間的一般或特殊關系,然后建立語義關系索引、本文關鍵詞語索引和輔助索引三種索引,用于查找用戶輸入的檢索詞和提問,并返回檢索結果。NCBI,NLM,NIH推出的LitVar是基于2700萬PMC內容摘要和180萬PMC全文進行語義標注,利用BiocXML格式處理了全部PubMed內容摘要和PMC全文,然后使用實體標記提取所有變異及其相關實體〔即基因、疾病、化學和物種〕等信息,最后為提取的實體及歸一化關系構建語義索引[10]。倫敦大學/南京大學推出的SemEHR是基于自然語言處理技術標注電子健康檔案〔EHR〕數(shù)據(jù),然后針對這些數(shù)據(jù)開創(chuàng)建立SemEHR語義索引[11]。通過以上分析,國內外對構建語義索引方式方法的研究主要集中在基于本體和基于自然語言處理技術。這兩者都有其缺乏之處:基于本體的方式方法無法充分揭示蘊含在特定領域科技文獻內部的豐富語義信息;基于自然語言處理技術的方式方法成本比擬高,而且語義索引質量好壞取決于選用的自然語言處理技術。因而,本文決定結合這兩者構建語義索引,詳細思路是:通過自然語言處理技術對科技文獻進行語義標注,挖掘出本體中沒有描繪敘述的知識對象以及知識對象之間的知識關系,這對基于本體的方式方法是一個很好的補充。整個思路實際上是綜合考慮了兩者的優(yōu)勢互補,基于自然語言處理技術構建的語義索引能夠補充基于本體構建的語義索引,補充后的基于本體構建的語義索引又能夠更好地提升自然語言處理技術的性能,獲得愈加豐富的文獻內部語義信息,進而反過來更新基于自然語言處理技術構建的語義索引。這樣,兩者都得到不斷的補充、更新,構成互利互助,進而構建更細粒度、更豐富的語義索引。2、面向科技文獻的多維語義索引的設計科技文獻里蘊含著豐富的語義知識,科技文獻的知識組織能夠根據(jù)下面四個維度進行組織:文獻單維呈現(xiàn)無法揭示語義知識進而無法實現(xiàn)語義檢索的缺乏,根據(jù)上述四個維度設計的多維語義索引,將科技文獻內部豐富的語義知識以及知識之間豐富的關聯(lián)關系等深層信息,利用多維語義索引重新組織,在檢索結果中以多維分面的方式充分揭示出來。根據(jù)上述多維語義索引構建的科技文獻檢索系統(tǒng)詳細的檢索查詢思路是:遵循用戶使用流程,從檢索本文關鍵詞語出發(fā),查詢知識對象索引對輸入本文關鍵詞語進行語義辨別和語義消歧,確定文獻中的知識對象及其所屬的范疇和類型;然后查詢文獻索引得到包含元數(shù)據(jù)及相關知識內容的文獻信息;接著查詢句子索引確定知識對象所屬的語步類型以及句子共現(xiàn)術語;最后查詢知識關系索引,發(fā)現(xiàn)檢索詞和文中知識對象的組合搭配關系;這些索引之間并不是獨立的關系,每查詢一個索引就會得到一個特定的檢索結果集,最終返回給用戶一個檢索結果交集。根據(jù)以上思路,本文設計的面向科技文獻的多維語義索引整體框架如此圖2所示。圖2面向科技文獻的多維語義索引架構圖3、面向科技文獻的多維語義索引的實現(xiàn)3.1、工具的選型以及本體的選擇當下用于構建索引的工具主要有Solr和ElasticSearch兩種,Solr和ElasticSearch各有優(yōu)缺點。結合本文的實際應用場景分析,科技文獻檢索相對來講時效性要求不是那么高,更偏向于傳統(tǒng)搜索應用,另外Solr的分面搜索的優(yōu)點更能知足本文設計多維語義索引的需求,因而選擇利用Solr來構建多維語義索引。通過利用Solr的分面機制設計多維語義索引,能夠充分開掘揭示科技文獻內部的豐富語義知識,進而知足用戶對語義檢索的需求。在本體選擇上,由于筆者需要構建物理領域科技文獻語義檢索系統(tǒng),選取的是物理學本體ScienceWise。ScienceWise本體包含了物理學術語及其范疇〔分為4個一級范疇和47個二級范疇〕、16種語義關系〔分為通用語義關系和領域特定語義關系〕等。3.2、文獻索引的構造文獻索引構造的主要字段為paperId〔文章Id〕、title〔標題〕、author(作者〕、publishTime(發(fā)布時間〕、abstract〔內容摘要〕、objects〔包含的術語〕、methods〔方式方法〕、objectives〔目的〕、results〔結果〕、conclusions〔結論〕、background〔背景〕等。與傳統(tǒng)文獻索引的區(qū)別在于這里還包含了語步辨別內容,因而在檢索結果展示界面能夠進行傳統(tǒng)內容摘要和構造化內容摘要的雙重呈現(xiàn),能夠讓用戶迅速了解某篇文獻的整體內容。3.3、句子索引的構造句子索引構造的主要字段為paperId〔文章Id〕、content〔句子內容〕、moveType〔句子所屬語步類型〕、objects〔包含的術語〕、sentenceOrder〔在內容摘要中的順序〕等。與傳統(tǒng)的句子索引不同,這里的句子索引里包含了句子所屬語步類型,通過語步類型能夠在檢索結果界面揭示有哪些方式方法里包含了檢索本文關鍵詞語,哪些結論里包含了檢索本文關鍵詞語等,進而讓用戶迅速了解研究主題的整體研究脈絡。3.4、知識對象索引的構造知識對象索引的主要字段為paperId〔文章Id〕、objectName〔術語名稱〕、isScienceWise〔能否是ScienceWise本體規(guī)范術語〕、topCategory〔在ScienceWise中所屬的一級范疇〕、secondCategory〔在ScienceWise中所屬的二級范疇〕、weight(知識對象權重〕等。這里術語與一般的科技文獻檢索系統(tǒng)里的主題詞不同,它通過ScienceWise賦予了術語特定的語義信息,將這些術語劃分到其細粒度的物理領域。另外,知識對象權重是指知識對象在科技文獻中的所占比例,權重越高,這個知識對象就越能代表科技文獻。傳統(tǒng)的TF-IDF權重計算方式方法通過詞頻統(tǒng)計信息反映了知識對象對文檔的表示出,但它沒有考慮到知識對象的語義信息,而科技文獻中的知識對象之間存在著特定的知識關系,知識對象存在于哪種語步類型,這些都是知識對象語義信息要考慮的方面,因而計算知識對象權重應該是在傳統(tǒng)的TF-IDF權重計算方式方法的基礎上綜合考慮知識關系權重以及語步類型權重。它是對傳統(tǒng)TF-IDF權重計算方式方法的改良,彌補了TF-IDF權重計算方式方法在語義方面的缺乏,而且在檢索詞與知識對象無關時,能夠自動調整為傳統(tǒng)的本文關鍵詞語檢索。根據(jù)傳統(tǒng)的TF-IDF權重計算方式方法,知識對象在文檔中的權重為:式中,p表示知識對象在文檔中出現(xiàn)的次數(shù);q表示文檔的知識對象總數(shù);N表示文檔總數(shù);表示包含該知識對象的文檔數(shù),當所有文檔都不包含該知識對象時,分母為0,因而這里分母要加上1。在科技文獻中,知識對象間搭配關系的不同,比方連接、組合、修飾,它們對知識對象語義信息的奉獻大小也會不一樣。本文用知識對象間的知識關系權重來表示不同類型的知識關系對知識對象語義信息的奉獻比例,在[0,1]范圍內賦值。本文選取10萬篇來自arXiv數(shù)據(jù)庫的物理領域科研論文作為初始數(shù)據(jù)集進行語義標注,通過對語義標注結果進行統(tǒng)計分析,華而不實,修飾關系共有236051組,連接關系共有169962組,組合關系共有195928組,三者比例約為1:0.7:0.8,因而本文采用的知識關系類型及分配權重如表1所示。表1知識關系類型及分配權重在文檔中,知識對象有N個的知識關系,表示為,另外,的分配權重為,則知識對象的知識關系權重為。那么,知識對象在文檔中的知識關系權重能夠表示為:知識對象權重還要考慮語步類型權重,語步類型主要有目的、方式方法、結果、結論、背景這5種類型,每種語步類型對知識對象語義信息的奉獻大小也不一樣,同樣,在[0,1]范圍內賦值。同理,通過對語義標注結果進行統(tǒng)計分析,目的共有158692句,方式方法共有190964句,結果共有175898句,結論共有191195句,背景共有133837句,五者比例約為0.8:1:0.9:1:0.7,因而其語步類型及分配權重如表2所示。表2語步類型及分配權重在文檔中,知識對象有N個的語步類型,表示為,另外,的分配權重為,則知識對象的語步類型權重為。那么,知識對象在文檔中的語步類型權重能夠表示為:知識對象的知識關系權重和語步類型權重兩者在對知識對象權重的奉獻上同等重要。因而本文采用的知識對象權重的計算公式能夠表示為:3.5、知識關系索引的構造本文參考知識圖譜RDF三元組的表示出方式將知識關系用三元組S-P-O表示,華而不實,S代表三元組主語,P代表三元組謂語、O代表三元組賓語。為了揭示知識關系,本文在知識關系索引中增加了SP字段〔主語和謂語的搭配〕以及PO字段〔謂語和賓語的搭配〕,當輸入檢索詞為主語S時對PO字段分面揭示,當輸入檢索詞為賓語O時對SP字段分面揭示。另外,還增加一個知識關系類型字段relationType,通過這個字段能夠從檢索詞搭配角度多方位呈現(xiàn)知識對象之間的知識關系。知識關系索引構造如表3所示。表3知識關系索引構造3.6、多維語義索引的查詢以上內容分別講述了多維語義索引的構造,多維不是多個,這幾個索引之間并不是獨立的關系,它們都有一個共同的字段paperId。因而,要想實現(xiàn)多維語義索引的分面揭示,查詢的時候要對查詢結果根據(jù)共同字段paperId來進行綜合,其詳細實現(xiàn)步驟能夠分為五步:1〕查詢知識對象索引,獲取匹配的知識對象,并能夠得到一個paperId集合;2〕查詢文獻索引,獲取文獻元數(shù)據(jù)相關信息,并能夠得到一個paperId集合;3〕查詢句子索引及文獻索引,獲取句子共現(xiàn)術語以及文章共現(xiàn)術語,并能夠得到一個paperId集合;4〕查詢句子索引,獲取檢索詞在文章中的知識關系〔連接關系、修飾關系、組合關系、語法關系〕,并能夠得到一個paperId集合;5〕最終將上述paperId集合并取其交集,即為返回給用戶的最終結果。其實現(xiàn)步驟核心代碼如此圖3所示。圖3多維語義索引的查詢4、實際應用效果基于上述設計思路和實現(xiàn)經過,本文設計和實現(xiàn)了物理領域科研論文自動語義標注檢索系統(tǒng)。該系統(tǒng)選取10萬篇來自arXiv數(shù)據(jù)庫的物理領域科研論文作為初始數(shù)據(jù)集,華而不實,對于檢索詞darkmatter,一共發(fā)現(xiàn)4643篇文章,其檢索結果界面如此圖4所示。圖4檢索darkmatter結果頁面如此圖4左側分面導航所示,系統(tǒng)通過檢索詞的搭配關系分面揭示了檢索詞darkmatter的知識關系,能夠幫助發(fā)現(xiàn)潛在知識。還能夠通過檢索詞出如今內容摘要中的位置分面發(fā)現(xiàn)文章內容摘要中背景中包含檢索詞的句子有2138個,結論中包含檢索詞的句子有1427個,結果中包含檢索詞的句子有1292個,方式方法中包含檢索詞的句子有887個,目的中包含檢索詞的句子有905個。通過這個分面揭示了檢索詞darkmatter的整體研究脈絡,進而輔助用戶在科研選題時在目的、方式方法、結論等方面的創(chuàng)新性提供快速的參照。本文結合了基于本體和自然語言處理技術構建語義索引,圖4也具體表現(xiàn)出了這兩者的優(yōu)勢互補,前面兩個分面已經展示了基于自然語義處理技術構建的語義索引,本體概念范疇分面則從基于本體構建語義索引的角度揭示了檢索詞所屬的物理學科范疇,為用戶迅速了解其范疇提供了參考借鑒。另外通過內容摘要中高亮顯示的知識對象能夠跳轉到該知識對象在ScienceWise本體中的相關關系界面,如此圖5所示。該圖展示了該知識對象在本體中與其他物理學概念的相關關系,主要由兩類關系組成:入關系和出關系,華而不實入關系指入該概念的相關關系,出關系是該概念指出的相關關系。例如,對于知識對象darkmatter,華而不實一條出關系為DarkmatterisapartofBSMphysics,表示darkmatter與概念BSMphysics存在isapartof關系,該關系的方向是從darkmatter指向BSMphysics。通過構建這些相關關系語義索引能夠讓用戶通過本體里相關關系去發(fā)起下一步檢索,讓用戶發(fā)現(xiàn)更多相關的內容,這個是單獨基于自然語言處理技術構建語義索引無法知足的。圖5知識對象在本體中的相關關系下載原圖本文還從分面角度調研了幾種主流的科技文獻檢索系統(tǒng),它們大多從科技文獻的外部特征進行分面揭示,也有少部分檢索系統(tǒng)針對文獻中的相關主題進行分面揭示。而本文設計開發(fā)的物理領域科研論文自動語義標注檢索系統(tǒng)主要是從科技文獻內部的語義知識進行分面揭示,通太多維度的分面揭示方式能夠充分開掘揭示既有語義關系和潛在語義關聯(lián),進而知足科研工作者的語義檢索需求。5、結論在傳統(tǒng)的檢索系統(tǒng)不能知足科研工作者語義檢索需求的背景下,多維語義索引的構建對知足其語義檢索的迫切需求具有重要的實用價值。本文圍繞這個問題展開研究,給出了多維語義索引的設計思路和實現(xiàn)經過,驗證了其在語義檢索實際應用中的良好效果。在將來的工作中將進一步優(yōu)化索引,并推廣到其他不同的領域中。□作者奉獻聲明:張敏,論文撰寫及修改。丁良萍,論文校對。劉歡,數(shù)據(jù)整理。以下為參考文獻[1]DOMSA,SCHROEDERM.GoPubMed:exploringPubMedwiththegeneontology[J].Nucleicacidsresearch,2005,33(WebServerissue):783-786.[2]BUSCALDID,ZARGAYOUNAH.YaSemIR:yetanothersemanticinformationretrievalsystem[C].ProceedingsoftheSixthInternationalWorkshoponExploitingSemanticAnnotationsinInformationRetrieval.SanFrancisco,2020:13-16.[3]于曉巍.基于本體的文本標引的研究與實現(xiàn)[D].沈陽:沈陽工業(yè)大學,2018.[4]DAVIDA.谷歌語義搜索[M].程龔,譯.北京:人民郵電出版社,2021:156.[5]SpringerNatureSciGraph[EB/OL].[2021-01-05]..forest.naihescn/researchers/scigraph.[6]ROGERBB.Anempiricalstudyofrequireddimensionalityforlarge-scalelatentsemanticin

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論