


下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、改進的基于關系的IR技術分析 摘要:基于關系的信息檢索技術或基于語義的IR技術仍存在顯而易見的缺陷,即不能明確關系本身。本文介紹了一種改進的基于關系的IR技術,明確關系的取值和屬性,整合概念對和關系的信息為三元組表達式,通過適當?shù)钠ヅ浞椒ǐ@取未知信息。 關鍵詞:信息檢索技術;基于關系;IR 一、引言 在眾多的文本信息處理技術中,IR技術是最常用,也是大規(guī)模數(shù)據(jù)挖掘技術中的重要部分。隨著社會,IR幾乎涉及到了每一個人的每一天,如使用web搜索引擎或查找郵件。IR技術在巨大需求下迅猛發(fā)展,壓倒傳統(tǒng)的數(shù)據(jù)庫
2、搜索方式,成為占統(tǒng)治地位的信息獲取途徑。 二、基于語義的IR技術 隨著技術和通信技術的發(fā)展,人們開始重視符號背后代表的語義信息?,F(xiàn)實世界中每一個事物總存在著基于廣泛共識的本質(zhì)的區(qū)別于其它事物的特征和屬性,即一個事物的概念,用概念代表事物而不是用符號,可以避免通信或科研中由多詞同義和一詞多義帶來的歧義問題,有利于人們對事物達成統(tǒng)一的認識。事物、概念和符號的聯(lián)系和區(qū)別。 概念一般是公認的準確全面的描述,卻不易使用,如果給每個概念一個唯一的ID標識,則會帶來極大的方便?;谡Z義的IR技術使用UMLS, WordNet等本體庫作為語義的基礎和標準,在語義層面上理解和處理查詢或文本。例如,在一次信息檢索
3、過程中,用戶輸入的查詢是:機(符號),可知他的查詢本意是查找名叫“計算機”或“電腦”(符號)的“用來計算的儀器,尤指可進行高速數(shù)學或邏輯運算或匯編、存儲、整理或處理信息的可編程的機器”(概念)對應的相關文本。如果上述概念有一個公認的唯一的概念ID: 1234(概念與概念的ID的對應關系一般由本體庫收錄),則用戶輸入“計算機”作為初始查詢時,系統(tǒng)確定對應的概念ID,并應用這個唯一ID進行檢索。 三、改進的基于關系的IR技術 傳統(tǒng)的IR用詞匯項表示文本,后來改進為基于語義的方法,用概念(concept)表示文本,近年來的基于關系的IR技術有了重大突破,考慮了概念間的關系,把IR技術提高到新的層次。
4、但是這種被稱為基于關系的IR技術不是真正意義上的“基于關系”,因為系統(tǒng)根本不能提取出“關系”本身。關系獲取(capture)是極富挑戰(zhàn)性的。事實上,我們所有的工作都是基于對關系(relationship)的以下認識: 1)關系分為固有關系或長久關系(intemal/permanent relationship)和臨時關系(temporaryrelationship)。 2)IR領域的關系抽取有別于IE的關系抽取,由于二者的功能和目的不同,后者偏重于固有關系或者長久關系,在抽取出的實體的基礎上,在脫離文本的情況下,通過一定的手段,如知識庫或機器學習,獲取實體間的關系,其中關系的類型可采用ACE測
5、評給出的預先定義。 3)在LTMLS, WordNet中記錄的一般為固有關系,不同于文本中出現(xiàn)的概念之間的直接關系(一般由動詞表達),是經(jīng)過專家論證過的確實存在的知識。UMLS中的關系是定義在語義類型上的關系(如:ISA);WordNet中定義的關系是相對于詞性的(例如名詞存在反義、上下位、部分整體、屬性關系)。 4)在文本中多數(shù)的概念對(指在一個句子中的兩個概念)間的直接關系(指與概念在同一個句子中的關系)為臨時關系,這類關系還未得到專家的驗證,還未固化為長久或固有關系。IR主要用于發(fā)現(xiàn)和檢索后這一種關系,固有關系可以作為有益的補充。 (一)基于關系的查詢與文本的表示 (1)查詢與文本的類型
6、 1.查詢具有多樣性: 1)項查詢(term query):這種查詢方式還在普遍使用,其特點為多個(>=1)查詢項(term) 組成一個查詢,項之間可能會存在較強的關聯(lián)。 2)問句查詢(question query):問句查詢是近年來應用的趨勢,很多解釋敘述型查詢都可以轉(zhuǎn)化為問句形式。 (2)查詢與文本的三元組表示 1)概念的表示:鑒于基于關系的IR系統(tǒng)要在概念的基礎上定義關系,所以應該支持對概念的表示格式,其中CUI (Unique Identifier of concept)是概念的唯一識別碼, TUI(Unique Identifier of Semantic Type)是概念的語
7、義類型的唯一識別碼,STR(String)記錄文本中出現(xiàn)的字符串,Attribute記錄文本中概念的屬性(不同于UMLS定義的Attribute), Location用來記錄概念在文本語句中的偏移量,用以定位概念對(concept pair)之間的關系;是需要檢索的未知(unknown)信息,未列出的概念和關系的參數(shù)取值為空。 2)關系的表示:其中關系是原子關系(atomic relation),即關系中無并列成分,是保證完整語義的最小單位;RCUI(Unique Identifier of Relation)是關系作為某種意義上的概念在WordNet中的唯一識別碼,RCUI(Unique I
8、dentifier of Relation'sHypernymy)。 1 (二)關系的抽取與整合 1、抽取關系 首先,動詞也存在同義詞和近義詞,但是對于名詞的同義詞和近義詞,某些領域本體庫已經(jīng)給出了它們對應的概念及其編號(UMLS中記為CUD,大大減少了多詞同義、多詞近義而詞形不同帶來的麻煩,但是這些本體庫并不涉及動詞;其次,有些其他詞性的詞,如某些特殊的名詞代表某種動詞的涵義。如果將此類情況忽略,一定會影響檢索性能。但是,如果可以根據(jù)同義近義將關系歸類編號,壓縮為數(shù)量不多(UMLS中有50
9、多個)的語義關系,就可以很好的解決上述問題,這也是處理體現(xiàn)關系的動詞的最實用的方法。幸運的是WordNet提供了可以解決以上問題的機制,我們的系統(tǒng)就是將領域本體庫UMLS和廣泛本體庫WordNet結(jié)合起來用于概念和關系的抽取。 2、表示關系 獲取關系的工作完成后就要用適當?shù)姆绞奖硎娟P系,關系表示的正確性和簡便性直接影響了IRIR系統(tǒng)實現(xiàn)的復雜度,也關系到檢索的性能。 (三)關系的整合 首先概念對的中心位置;關于概念配對,我們采用關于實體一實體關系生成的方法。概念對(Concept Pair)與關系列表(Relation List)中第n個的關系組合形成三元組,即表明該關系與概念對在同一個句子中
10、,并且距離概念對的中心位置最近。在得到triple三個分量的值以后,就可以應用不同的策略界定與triple對應的文字段(passage)的偏移量和長度了。文字段的界定策略有多種,本文使用的是以句子為最小單位組成文字段的策略,即文字段的起始(offset)是關系所在的句子的偏移量,文字段的長度(length)是該句的長度。 (四)相關判定一排序機制 相關判定一排序原則:1)匹配最佳優(yōu)先原則:文本triple匹配上查詢triple的分量越多排序在前:2)概念匹配優(yōu)先原則:概念包含的專業(yè)信息更豐富,因此匹配時概念較多的文本triple排序在前,只有關系分量匹配上的不判定為相關;3)當topic處理為
11、多個triple,每個triple按相同權重(=1)分別進行檢索。 相關判定一排序(judginges ranking)方法將第k個文本triple比對第i個topic的第J個查詢triple,根據(jù)匹配上的分量類型和數(shù)量打分,概念分量匹配上多的分值較高(=文本triplek分值*加權值0.4,文本triple分值即為該triple在語料庫中出現(xiàn)的次數(shù)),關系分量匹配上的分值較低(-文本triplek分值*加權值0.2):對于查詢triple中關系是多義的情況,首詞義(a)或次詞義匹配上時文本triple的排序計算公式(見算法2中式(1)的加權值(weight)分別為1和0.4,對于關系是單義的情況,排序計算同(a);合并處在同一文字段的不同triple,累加其排序權值(rankValue),最后按分值高低提交triple對應的文字
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 飯店股份分配協(xié)議書
- 共建大數(shù)據(jù)學院協(xié)議書
- 金屬回收調(diào)價協(xié)議書
- 醉酒死亡補償協(xié)議書
- 銷戶車輛賣車協(xié)議書
- 解除制作合同協(xié)議書
- 尿痛護理措施
- 遣散員工補償協(xié)議書
- 酒店合作框架協(xié)議書
- 銀行終止扣款協(xié)議書
- 心理咨詢的面談技術
- DBJ∕T13-374-2021 福建省鋼筋桁架疊合樓板技術標準
- 事故池管理的有關規(guī)定
- (word完整版)污水處理廠安全評價報告
- DB50∕T 867.6-2019 安全生產(chǎn)技術規(guī)范 第6部分:黑色金屬冶煉企業(yè)
- 新產(chǎn)品開發(fā)流程課件
- 高中語文部編版選擇性必修下冊第四單元 單元學習導航 課件 (8張PPT)
- 化妝品原料-PPT課件
- 重慶市參加企業(yè)職工基本養(yǎng)老保險人員退休審批表
- 混凝土結(jié)構(gòu)課程設計244
- 跨國道防護棚方案
評論
0/150
提交評論