本體理念的信息檢索方案查詢與應(yīng)用初探_第1頁
本體理念的信息檢索方案查詢與應(yīng)用初探_第2頁
本體理念的信息檢索方案查詢與應(yīng)用初探_第3頁
本體理念的信息檢索方案查詢與應(yīng)用初探_第4頁
本體理念的信息檢索方案查詢與應(yīng)用初探_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、本體理念的信息檢索方案查詢與應(yīng)用初探摘 要:信息檢索是指根據(jù)用戶的需求,從已有的檢索工具或數(shù)據(jù)庫中查找所需信息的過程。本體作為一種客觀描繪,有著良好的概念層次構(gòu)造,可以利用公理對概念及概念間關(guān)系進(jìn)展推理,從而明確各種關(guān)系,建立知識間的概念模型。本體理念的信息檢索可對信息源進(jìn)展語義標(biāo)引,進(jìn)步查全率和查準(zhǔn)率,幫助用戶準(zhǔn)確的找到真正需要的信息。本文將從本體的根本概念出發(fā),對本體理念在信息檢索中的應(yīng)用進(jìn)展初步探析,建立基于本體的信息檢索系統(tǒng),進(jìn)步信息檢索效率。關(guān)鍵詞:本體;信息檢索;信息檢索系統(tǒng)中圖分類號:TP393.08隨著計算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)的不斷進(jìn)步和開展,互聯(lián)網(wǎng)進(jìn)入了人們生活的各個領(lǐng)域,檢索方

2、式也由原來的脫機(jī)檢索、聯(lián)機(jī)檢索開展為今天的網(wǎng)絡(luò)檢索。然而,網(wǎng)絡(luò)檢索給人們帶來方便的同時,也給信息檢索帶來了費(fèi)事。信息檢索是指根據(jù)用戶的需求,從已有的檢索工具或數(shù)據(jù)庫中查找所需信息的過程,如何快速、準(zhǔn)確地檢索到用戶所需要的信息是信息檢索面臨的問題。因此,進(jìn)步檢索效率,進(jìn)步查全率、查準(zhǔn)率,討論新的檢索形式是信息檢索開展的必然趨勢。本體理念有著良好的概念層次構(gòu)造,是近幾年學(xué)術(shù)研究的熱點(diǎn),它的應(yīng)用和推廣必然推動信息檢索的開展。1 本體的根本概念本體作為一種信息表達(dá)形式,有著良好的概念層次構(gòu)造,具有較強(qiáng)的表達(dá)才能。本體對邏輯推理的支持可以更好地表達(dá)概念之間的關(guān)系,使得信息具有一定的層次構(gòu)造。1.1 本體

3、的概念。本體是指對客觀存在物體的一種系統(tǒng)地描繪,它并不是詳細(xì)指某個人描繪該事物使用的詳細(xì)語言,而是將計算機(jī)的表達(dá)方式和人類的表達(dá)方式統(tǒng)一。Gruber認(rèn)為:本體就是指給出構(gòu)成相關(guān)領(lǐng)域詞匯的根本術(shù)語和關(guān)系,以及利用這些術(shù)語和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)那么。Borst Pim那么認(rèn)為:本體是概念模型的標(biāo)準(zhǔn)說明。Studer認(rèn)為:本體是指共享概念模型的形式化標(biāo)準(zhǔn)說明。第一,概念模型。所謂概念模型,是將客觀世界中一些現(xiàn)象抽象為形同概念而得到得到的,獨(dú)立于詳細(xì)的環(huán)境。第二,形式化。指本體是計算機(jī)可讀的。第三,共享。共享指本體是針對團(tuán)體所達(dá)成的共同認(rèn)可的知識。1.3 本體的分類。本體按照其研究范圍的分

4、類標(biāo)準(zhǔn)進(jìn)展分類,可以分為通用本體和領(lǐng)域本體。通用本體是指研究通用的概念、通用屬性,如空間、時間等等,并不局限在特定的領(lǐng)域。構(gòu)建通用本體的過程與構(gòu)造詞典相似,目前常用的通用本體有Wordnet 和 Hownet。領(lǐng)域本體是指描繪詳細(xì)領(lǐng)域知識的概念和屬性,描繪某個領(lǐng)域的知識。目前,領(lǐng)域本體比較匱乏,相對成熟的是生物學(xué)本體、醫(yī)學(xué)本體。領(lǐng)域本體庫的構(gòu)建需要領(lǐng)域?qū)<业膮⑴c,并且要與共同到達(dá)的學(xué)術(shù)一致。1.4 本體的構(gòu)建方法。根據(jù)目前認(rèn)可度較高的Gruber提出的本體構(gòu)建規(guī)那么,學(xué)界提出了多種構(gòu)建方法。認(rèn)可度最高的是斯坦福大學(xué)醫(yī)院開發(fā)的七步法:確定專業(yè)領(lǐng)域范圍;考察現(xiàn)有本體尋找復(fù)用時機(jī);列出該領(lǐng)域的術(shù)語;

5、對該領(lǐng)域事務(wù)進(jìn)展分類;定義類的屬性、類與類之間的關(guān)系;定義屬性的分娩;創(chuàng)立屬于該類的實(shí)例。1.5 本體描繪語言。本體描繪語言隨著網(wǎng)絡(luò)開展而開展,并且具備多種功能使得本體在不同系統(tǒng)之間互操作。本體描繪語言需要提供機(jī)器可讀的形式,可以實(shí)現(xiàn)自然語言與機(jī)器表達(dá)形式的轉(zhuǎn)化。目前,常用的本體描繪語言主要有RDF、OWL,本文介紹RDF模型,以下是對這種語言的詳細(xì)介紹。RDF包括3種實(shí)體:資源和實(shí)體、屬性、聲明。資源和實(shí)體是對資源進(jìn)展標(biāo)識;屬性是對資源的各個方面進(jìn)展定義,如特征等;聲明是指對已經(jīng)被命名的屬性且被賦值的特定資源,即RDF聲明。RDF模型的描繪方式通常有以下幾種方式:簡化三元組方式,用尖括號將三

6、元組的主語、位于、賓語隔離;RDF模型圖方式,是以圖形的方式將三元組描繪的聲明表現(xiàn)出來,資源、字符串節(jié)點(diǎn)、屬性分別用橢圓、方框、連線來表示;RDF/XML方式,這種表達(dá)方式是按照RDF/XML語法和編碼規(guī)那么描繪RDF模型,并將這種模型存放在計算機(jī)中。2 基于本體的信息檢索系統(tǒng)隨著互聯(lián)網(wǎng)技術(shù)的開展,傳統(tǒng)的信息檢索已無法滿足人們的需求。傳統(tǒng)的信息檢索主要采用構(gòu)造化信息表示方式,要求有較高的查準(zhǔn)率。但是,傳統(tǒng)的信息檢索存在一定局限性,如文檔的添加較為復(fù)雜,增加了工作人員的工作量;構(gòu)造化信息表達(dá)形式限制了用戶的輸入,只能輸入與數(shù)據(jù)庫一致的信息才能得到檢索結(jié)果,而非構(gòu)造化信息表達(dá)形式在一定程度上放寬了

7、用戶的輸入限制,采用關(guān)鍵字匹配的方式,但是不能滿足語義檢索的要求,因此,不能進(jìn)步查全率,出現(xiàn)漏檢的情況?;诒倔w的信息檢索系統(tǒng)可以主動理解用戶要求,通過邏輯推理后進(jìn)展檢索。同時,本體理念的信息檢索系統(tǒng)可以將計算機(jī)的表達(dá)方式與人類的表達(dá)方式統(tǒng)一,實(shí)現(xiàn)計算機(jī)與人類的同語言交流。基于本體的信息檢索包含以下幾個模塊:文檔預(yù)處理操作、構(gòu)建索引、擴(kuò)展合并用戶查詢詞、構(gòu)造檢索模型、排序算法。文檔預(yù)處理操作是指利用分詞技術(shù)將大段文字分割成詞語,經(jīng)過詞法分析后,刪除沒有語義的詞匯,減少文檔的冗余。利用倒排文檔可將索引與原文檔相連,檢索詞作為索引大大進(jìn)步了檢索效率。用戶輸入檢索詞后,系統(tǒng)需要通過一定的預(yù)處理、或者

8、是通過查詢處理算法,擴(kuò)展合并查詢詞,推理用戶的檢索需求,從而進(jìn)步查準(zhǔn)率。構(gòu)造檢索模型可以迅速匹配用戶查詢的相關(guān)信息,進(jìn)步檢索效率。排序算法是指利用某種算法將與檢索詞相關(guān)性最強(qiáng)的檢索結(jié)果放在前面,讓用戶先看到想要的結(jié)果。為了進(jìn)步檢索的查全率、查準(zhǔn)率,基于本體的信息檢索系統(tǒng)還可以提供多類型的檢索形式,本體檢索作為根底檢索,關(guān)系檢索和屬性檢索為用戶提供高級檢索,為用戶提供知識間的聯(lián)絡(luò),假設(shè)用戶需要個性化效勞,還可以提供回溯檢索。本體理念的信息檢索系統(tǒng)可以將關(guān)鍵詞進(jìn)展概念匹配,用戶在不具備專業(yè)檢索技能的情況下,也能迅速并準(zhǔn)確的檢索到所需要的的信息,給用戶帶來全新的極富人性化的體驗(yàn)。3 完畢語基于本體的信息檢索需要構(gòu)建本體領(lǐng)域知識庫,以本體的相關(guān)理論為根底。由于理論的復(fù)雜性和技術(shù)難關(guān)等原因,目前國內(nèi)外還沒有對本體信息檢索系統(tǒng)進(jìn)展大規(guī)模應(yīng)用。本體知識庫雖然在技術(shù)上較為先進(jìn),但是就目前的開展程度來看,本體信息檢索只能停留在研究的初期,還有許多技術(shù)難關(guān)要攻克。如何構(gòu)建本體知識庫、充分利用本體表示形式帶來的優(yōu)勢仍有待進(jìn)一步研究,使用本體直接進(jìn)展匹配,將文檔進(jìn)展本體化,實(shí)現(xiàn)文檔的自動標(biāo)引,提供以自然語言為主的概念檢索和關(guān)系檢索形式,提供更人性化的效勞??傊诒倔w的信息檢索,可以同時進(jìn)步查全率和查準(zhǔn)率,進(jìn)步檢索效率。本文的觀點(diǎn)仍有不成熟之處,希望諸位同仁對本體信息檢索系統(tǒng)形

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論