版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
本體論及語(yǔ)義搜索引擎分析
1引言網(wǎng)絡(luò)信息檢索已成為我們獲取信息主要手段。根據(jù)CNNIC的統(tǒng)計(jì)數(shù)據(jù)[1]:目前中國(guó)用戶上網(wǎng)的最主要目的中,信息獲取以42.3%位居榜首;有98.7%的人表示通過(guò)互聯(lián)網(wǎng)來(lái)獲取信息,其中有71.9%的人是通過(guò)搜索引擎來(lái)查找相關(guān)網(wǎng)站的。然而網(wǎng)絡(luò)信息檢索面臨兩個(gè)亟待解決的關(guān)鍵問(wèn)題:(1)搜索的結(jié)果相關(guān)度低,冗余信息太多;(2)搜索引擎無(wú)法對(duì)常識(shí)性問(wèn)題給予回答,智能化水平低。出現(xiàn)上述問(wèn)題的原因在于目前檢索技術(shù)主要依賴于編碼技術(shù),通過(guò)分類模式來(lái)描述給定的信息;通過(guò)基于字符串匹配的全文檢索技術(shù),來(lái)搜索用戶提交的關(guān)鍵詞。由于編碼描述只能反映出部分語(yǔ)義,因此不能保證語(yǔ)義的匹配;檢索過(guò)程是把用戶的查詢關(guān)鍵詞與全文中的每一個(gè)詞進(jìn)行比較,而不考慮查詢請(qǐng)求與文檔語(yǔ)義上的匹配。針對(duì)上述兩個(gè)關(guān)鍵問(wèn)題,本文運(yùn)用本體論的相關(guān)知識(shí),提出基于本體構(gòu)建的語(yǔ)義搜索引擎模型。該模型能夠根據(jù)用戶的查詢關(guān)鍵字或者詢問(wèn)問(wèn)題,進(jìn)行基于知識(shí)的推理,從而提高檢索結(jié)果的相關(guān)度,并且實(shí)現(xiàn)一定水平的語(yǔ)義檢索。2本體論2.1本體的概念本體這個(gè)術(shù)語(yǔ)來(lái)自于哲學(xué),根據(jù)韋氏詞典的解釋,本體是形而上學(xué)的一個(gè)分支。目前本體在人工智能領(lǐng)域得到廣泛研究和應(yīng)用,但尚未形成統(tǒng)一的定義,最廣為流傳的定義有[2]:定義1:本體是對(duì)共享概念模型的形式化明確說(shuō)明。它有幾個(gè)要點(diǎn):★概念模型(conceptualization):指通過(guò)抽象客觀世界中一些現(xiàn)象(Phenomenon)的相關(guān)概念而得到的模型,其表示的含義獨(dú)立于具體的環(huán)境狀態(tài);★明確(explicit):指所使用的概念及使用這些概念的約束都有明確的定義;★形式化(formal):指Ontology是計(jì)算機(jī)可讀的;★共享(share):指Ontology中體現(xiàn)的是共同認(rèn)可的知識(shí),反映的是相關(guān)領(lǐng)域中公認(rèn)的概念集,它所針對(duì)的是團(tuán)體而不是個(gè)體。簡(jiǎn)單地說(shuō),本體給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語(yǔ)和關(guān)系,以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成的確定詞匯外延的有關(guān)規(guī)則的定義;其目標(biāo)是捕獲相關(guān)的領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解,確定領(lǐng)域內(nèi)通用的詞匯,并給出這些詞匯(術(shù)語(yǔ))和詞匯之間相互關(guān)系的明確定義。定義2:本體論是關(guān)于詞匯或概念的理論,這些訶匯和概念用于構(gòu)建人工智能系統(tǒng)。該定義認(rèn)為,本體實(shí)際上是一種表示性的詞匯,這種詞匯可以應(yīng)用于特定領(lǐng)域。比如電子設(shè)備領(lǐng)域的本體,它包含一些描述基本概念的詞匯——晶體管,運(yùn)算放大器,電壓等;也包含這些基本詞匯間的關(guān)系——運(yùn)算放大器是電子設(shè)備的一種,而晶體管是運(yùn)算放大器的組件。一般來(lái)說(shuō),識(shí)別這種詞匯和潛在的概念需要仔細(xì)分析領(lǐng)域內(nèi)存在的各種對(duì)象和關(guān)系。這一定義描述的本體建設(shè)方法與面向?qū)ο蠓椒ㄓ幸欢ǖ墓餐ㄖ?。定義3:本體論是用來(lái)定義某一領(lǐng)域的知識(shí)主體。該定義認(rèn)為,本體是描述某個(gè)領(lǐng)域的知識(shí),它不僅僅是簡(jiǎn)單的詞匯表,而是整個(gè)上層知識(shí)庫(kù)(包括用于描述這個(gè)知識(shí)庫(kù)的詞匯)。綜上所述,本體是某個(gè)領(lǐng)域內(nèi)(可以是特定專業(yè)的,也可以是寬泛范疇的)不同主體(人、代理、機(jī)器等)之間進(jìn)行交流(對(duì)話、互操作、共享等)的一種語(yǔ)義基礎(chǔ),即由本體提供定義明確的詞匯表,描述概念和概念之間的關(guān)系,作為使用者之間達(dá)成的共識(shí)。2.2本體的作用本體的作用可歸結(jié)為通訊(communication)、互操作(interoperability)和系統(tǒng)工程(systemsengineering)。(1)所謂通訊是指本體為人與人之間或組織與組織之間的通訊提供共同的詞匯,即交流的基礎(chǔ)。(2)互操作說(shuō)明本體建立了在不同的建模方法、范式、語(yǔ)言和軟件工具之間進(jìn)行翻譯和映射的機(jī)制,以實(shí)現(xiàn)不同系統(tǒng)之間集成。(3)系統(tǒng)工程:本體分析能夠?yàn)橄到y(tǒng)工程提供以下方面的好處:★重用(reusability):本體是領(lǐng)域內(nèi)的重要實(shí)體、屬性、過(guò)程及其相互關(guān)系形式化描述的基礎(chǔ)。這種形式化描述可成為軟件系統(tǒng)中可重用和共享的組件(component)。★知識(shí)獲取(knowledgeacquisition):當(dāng)構(gòu)造基于知識(shí)的系統(tǒng)時(shí),用已有的本體作為起點(diǎn)和基礎(chǔ)來(lái)指導(dǎo)知識(shí)的獲取,可以提高其速度和可靠性?!锟煽啃?reliability):由于本體的描述是形式化的,形式化的表達(dá)使得自動(dòng)的一致性檢查成為可能,從而提高了軟件系統(tǒng)的可靠性。★規(guī)范描述(specification):本體分析有助于確定系統(tǒng)(如知識(shí)庫(kù))的需求和規(guī)范。3基于本體語(yǔ)義搜索引擎3.1基于本體搜索引擎的設(shè)計(jì)思想本體提供了人機(jī)交流的機(jī)制,使得機(jī)器可以理解語(yǔ)義,從而為搜索引擎提高效率奠定了基礎(chǔ)。基于本體的搜索引擎的基本設(shè)計(jì)思想:(1)在領(lǐng)域?qū)<业膸椭?,建立相關(guān)領(lǐng)域的本體(Ontology);(2)收集信息源中的數(shù)據(jù),并參照已建立的Ontology,把收集來(lái)的數(shù)據(jù)按規(guī)定的格式存儲(chǔ)在元數(shù)據(jù)庫(kù)(關(guān)系數(shù)據(jù)庫(kù)、知識(shí)庫(kù)等)中:(3)對(duì)用戶檢索界面獲取的查詢請(qǐng)求,查詢轉(zhuǎn)換器按照Ontology把查洵請(qǐng)求轉(zhuǎn)換成規(guī)定的格式,在Ontology的幫助下從元數(shù)據(jù)庫(kù)中匹配出符合條件的數(shù)據(jù)集合;(4)檢索的結(jié)果經(jīng)過(guò)定制處理后,返回給用戶。3.2知識(shí)庫(kù)實(shí)現(xiàn)基于本體的語(yǔ)義搜索引擎,建立知識(shí)庫(kù)是必需的。知識(shí)庫(kù)是語(yǔ)義搜索引擎進(jìn)行推理和知識(shí)積累的基礎(chǔ)和關(guān)鍵,而Ontology則是知識(shí)庫(kù)的基礎(chǔ)。一般來(lái)說(shuō),本體提供一組術(shù)語(yǔ)和概念來(lái)描述某個(gè)領(lǐng)域,知識(shí)庫(kù)則使用這些術(shù)語(yǔ)來(lái)表達(dá)該領(lǐng)域的事實(shí)。例如醫(yī)藥本體可能包含“白血病”、“皮膚病”等術(shù)語(yǔ)的定義,但它不會(huì)包含具體某一病人的診斷結(jié)果,而這正是知識(shí)庫(kù)所要表達(dá)的內(nèi)容。比如張三患有皮膚病、李四患有皮膚病和白血病、王五患有白血病,其中的皮膚病、白血病就是本體。而各個(gè)病癥的實(shí)例(張三、李四、王五)及其病癥描述就是知識(shí)庫(kù)的內(nèi)容。本體和知識(shí)庫(kù)的關(guān)系有幾個(gè)要點(diǎn):★Ontology為知識(shí)庫(kù)的建立提供一個(gè)基本的結(jié)構(gòu);★Ontology提供一套概念和術(shù)語(yǔ)來(lái)描述某一領(lǐng)域,并且獲取該領(lǐng)域的本質(zhì)的概念結(jié)構(gòu);★知識(shí)庫(kù)就運(yùn)用這些術(shù)語(yǔ)去表達(dá)現(xiàn)實(shí)或者虛擬世界中的正確知識(shí)。因此,建設(shè)一個(gè)知識(shí)庫(kù)的第一步就是對(duì)該領(lǐng)域進(jìn)行有效的Ontology分析。3.3構(gòu)造本體本體的構(gòu)造是整個(gè)基于Ontology的信息檢索系統(tǒng)的底層基石,決定著系統(tǒng)的性能、通用程度以及系統(tǒng)運(yùn)行的質(zhì)量。如何正確、有效、合乎邏輯的建立本體是這個(gè)系統(tǒng)建立的關(guān)鍵。(1)本體的構(gòu)造準(zhǔn)則對(duì)同一領(lǐng)域,同一事物,不同人往往會(huì)建立不同的本體。由于本體應(yīng)該是規(guī)范化的描述,因此遵循統(tǒng)一的構(gòu)造準(zhǔn)則是必要的。目前最為常用的是Gruber提出的指導(dǎo)本體構(gòu)造的5個(gè)準(zhǔn)則,[3]即:清晰(Clarity):本體必須有效的說(shuō)明所定義術(shù)語(yǔ)的意思。定義應(yīng)該是客觀的,與背景獨(dú)立的。當(dāng)定義可以用邏輯公理表達(dá)時(shí),它應(yīng)該是形式化的。定義應(yīng)該盡可能的完整。所有定義應(yīng)該用自然語(yǔ)言加以說(shuō)明。一致(Coherence):本體應(yīng)該是一致的,也就是說(shuō),它應(yīng)該支持與其定義相一致的推理。它所定義的公理以及用自然語(yǔ)言進(jìn)行說(shuō)明的文檔都應(yīng)該具有一致性。可擴(kuò)展性(Extendibility):本體應(yīng)該為可預(yù)料到的任務(wù)提供概念基礎(chǔ)。它應(yīng)該可以支持在已有的概念基礎(chǔ)上定義新的術(shù)語(yǔ),以滿足特殊的需求,而無(wú)須修改已有的概念定義。編碼偏好程度最小(Minimalencodingbias):概念的描述不應(yīng)該依賴于某一種特殊的符號(hào)層的表示方法。因?yàn)閷?shí)際的系統(tǒng)可能采用不同的知識(shí)表示方法。本體約定最小(Minimalontologicalcommitment):本體約定應(yīng)該最小,只要能夠滿足特定的知識(shí)共享需求即可。這可以通過(guò)定義約束最弱的公理以及只定義通訊所需的詞匯來(lái)保證。(2)本體的表示目前有兩種本體表示方法應(yīng)用比較廣泛,一是傳統(tǒng)的四元素表示方法、二是較新的六元組表示法。前者在世界范圍內(nèi)得到了比較高的認(rèn)同,但是形式過(guò)于靈活,不易掌握。后者因?yàn)槎x規(guī)范,可操作性強(qiáng),得到了廣大國(guó)內(nèi)研究者的歡迎?!锼脑乇硎痉椒ㄋ脑乇硎痉椒ǖ幕舅枷胧?;一個(gè)本體中的四個(gè)主要元素是:概念(concepts)、關(guān)系(relations)、實(shí)例(instances)和公理(axioms)。概念表示某個(gè)領(lǐng)域中一類實(shí)體或事物的集合。通常概念可以分成兩大類,一類是簡(jiǎn)單概念(primitiveconcepts),另一類是詳細(xì)概念(definedconcepts)。簡(jiǎn)單概念是那些只具備必要條件(即屬性)的類成員(注:英文原文:Primitiveconceptsarethosewhichonlyhavenecessaryconditions(intermsoftheirproperties)formembershipoftheclass.)。詳細(xì)概念是指對(duì)類成員的描述既充分又必要(注:英文原文:Definedconceptsarethosewhosedescriptionisbothnecessaryandsufficientforathingtobeamemberoftheclass.)。例如:“正方形是四個(gè)角都是直角的四邊形”就是一個(gè)簡(jiǎn)單概念。而“正方形是四個(gè)角都是直角的四個(gè)邊等長(zhǎng)的四邊形”就是一個(gè)詳細(xì)概念,因?yàn)樗膫€(gè)邊等長(zhǎng)是正方形的充分且必要條件。關(guān)系描述概念和概念屬性的交互。實(shí)例是概念表示的具體的事物,如對(duì)于大學(xué)這個(gè)概念,山東大學(xué)就是一個(gè)實(shí)例。嚴(yán)格的說(shuō),一個(gè)本體不應(yīng)該包括任何實(shí)例,因?yàn)樗患僭O(shè)為一個(gè)具體領(lǐng)域的概念化。一個(gè)本體與相關(guān)的實(shí)例的組合就是我們?nèi)缃袼Q呼的知識(shí)庫(kù)(knowledgebase)。公理是用來(lái)限制類和實(shí)例的取值范圍,公理中包括許多具體的規(guī)則和約束?!锪M表示法這種方法的基本思想就是用一個(gè)六元組來(lái)表示一個(gè)本體。AnOntology={C,AC,R,AR,H,X}其中C表示概念的集合。AC表示多個(gè)屬性集合組成的集合,其中每個(gè)屬性集合對(duì)應(yīng)于一個(gè)概念。R是一個(gè)關(guān)系集合。AR是由多個(gè)屬性集合組成的集合,其中每個(gè)屬性集合對(duì)應(yīng)于R中的一個(gè)關(guān)系。H表示概念之間的層次結(jié)構(gòu)關(guān)系,X表示公理集合。為了深入描述本體的表示方法,以下列出了一個(gè)家庭本體描述實(shí)例。Family_Ontology={Cfamily,ACfamily,Rfamily,ARfamily,Hfamily,Xfamily}whereCfamily={father,mother,children}ACfamily={ACfamily(father),ACfamily(mother),ACfamily(children)}ACfamily(father)={name,age,job,salary,……}ACfamily(mother)={name,age,job,salary,……}ACfamily(children)={name,age,sex,……}Rfamily={TakeCareOf(mother,mother,children),Educate(father,mother,children),Help(children,mother),……}ARfamily={ARfamily(TakeCareOf),ARfamily(Educate),ARfamily(Help),……}ARfamily(TakeCareOf)={feed,clothing,seeDoctor,……}ARfamily(Educate)={teach,exercise,……}……(3)本體的構(gòu)造的生命周期了解了本體建設(shè)的準(zhǔn)則和方法論之后,下一步就是要著手建立本體。而建立的過(guò)程可以用生命周期的概念來(lái)描述。Uschold&Gruninger提出了一個(gè)本體構(gòu)造的方法學(xué)框架[4](圖1),框架包括以下組成部分:首先要明確本體使用的目的和范圍,然后依次構(gòu)造本體。構(gòu)造本體過(guò)程可以分為三個(gè)階段:本體捕獲就是確定關(guān)鍵的概念和關(guān)系,給出精確定義,并確定其它相關(guān)的術(shù)語(yǔ);本體編碼即選擇合適的表示語(yǔ)言表達(dá)概念和術(shù)語(yǔ);已有本體的集成是對(duì)已有本體的重用和修改。這個(gè)階段也是一個(gè)循環(huán)往復(fù)的迭代過(guò)程。最后是評(píng)估階段,要根據(jù)需求描述、能力問(wèn)題(competencyquestion)等對(duì)本體以及軟件環(huán)境、相關(guān)文檔進(jìn)行評(píng)價(jià)。3.4基于本體的語(yǔ)義搜索引擎模型簡(jiǎn)介(OntoSSE,ontology-basedSemanticSearchEngine)OntoSSE是基于本體的搜索引擎,它能夠?qū)崿F(xiàn)語(yǔ)義搜索、知識(shí)檢索和一定的推理功能。本模型假設(shè)搜索引擎存在的環(huán)境是web網(wǎng)頁(yè),這些網(wǎng)頁(yè)并未自動(dòng)含有語(yǔ)義標(biāo)記。此系統(tǒng)也應(yīng)具備搜索引擎的各種基本的功能,比如網(wǎng)頁(yè)的遍歷和獲取、索引的建立、頁(yè)面查找算法等,都可以參考目前流行的搜索引擎的結(jié)構(gòu)和實(shí)現(xiàn)過(guò)程。OntoSSE的重要之處是信息庫(kù)和知識(shí)庫(kù)的交流。知識(shí)庫(kù)是實(shí)現(xiàn)智能搜索的核心,它如同人的大腦,其增長(zhǎng)也需要一種自然的循環(huán)。知識(shí)庫(kù)的豐富也決定著檢索能力和Question-Answer能力的高低。信息庫(kù)是知識(shí)庫(kù)存在和發(fā)展的空間,知識(shí)庫(kù)就是對(duì)信息庫(kù)的判斷、提取、分析和概括。智能搜索引擎就是通過(guò)知識(shí)庫(kù)把用戶的問(wèn)題提高到知識(shí)層面,然后利用這個(gè)知識(shí)檢索信息庫(kù)。[5]二者的有機(jī)結(jié)合離不開語(yǔ)義分析和知識(shí)管理。因此,Ontology作為語(yǔ)義分析和知識(shí)共享和重用的重要基礎(chǔ),與知識(shí)庫(kù)、信息庫(kù)一起構(gòu)成OntoSSE的三大支柱。展示了基于本體的語(yǔ)義搜索引擎OntoSSE的系統(tǒng)結(jié)構(gòu)及其工作流程。OntoSSE模型的工作原理和檢索步驟可以概括如下:(1)搜索引擎通過(guò)自動(dòng)網(wǎng)頁(yè)采集器(webspider)來(lái)抓取網(wǎng)頁(yè),參照特定詞表將網(wǎng)頁(yè)信息分類建立索引,加入索引庫(kù)中。OntoSSE的體系結(jié)構(gòu)及其工作流(2)由人工、自動(dòng)或者半自動(dòng)的方式,建立領(lǐng)域或者通用的本體。(3)參照本體,使用本體描述語(yǔ)言(DAML、RDF)對(duì)文檔進(jìn)行標(biāo)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 鄉(xiāng)鎮(zhèn)衛(wèi)生院工作經(jīng)驗(yàn)與發(fā)展建議計(jì)劃
- 機(jī)械制造行業(yè)安全規(guī)范
- 文化行業(yè)助理職責(zé)概述
- 文化藝術(shù)行業(yè)營(yíng)銷工作總結(jié)
- 機(jī)場(chǎng)前臺(tái)服務(wù)總結(jié)
- 2024年稅務(wù)師題庫(kù)【滿分必刷】
- 2024年認(rèn)位置的教案
- 2024年窮人教案6篇
- 農(nóng)村建筑構(gòu)建合同(2篇)
- 出租車包班合同(2篇)
- 金科新未來(lái)大聯(lián)考2025屆高三12月質(zhì)量檢測(cè)語(yǔ)文試題(含答案解析)
- 江蘇省2025年高中學(xué)業(yè)水平合格考?xì)v史試卷試題(含答案詳解)
- 《地下水環(huán)境背景值統(tǒng)計(jì)表征技術(shù)指南(試行)》
- 大學(xué)試卷(示范)
- 高職院校智能制造實(shí)驗(yàn)室實(shí)訓(xùn)中心建設(shè)方案
- 房產(chǎn)交易管理平臺(tái)行業(yè)發(fā)展預(yù)測(cè)分析
- 檔案工作人員分工及崗位責(zé)任制(4篇)
- 電商整年銷售規(guī)劃
- GB 4396-2024二氧化碳滅火劑
- 美麗的秋天景色作文500字小學(xué)
- 施工單位2025年度安全生產(chǎn)工作總結(jié)及計(jì)劃
評(píng)論
0/150
提交評(píng)論