領(lǐng)域本體建設(shè)的方法論和工具研究

上傳人：7*** IP屬地：湖北上傳時(shí)間：2022-02-18 格式：DOC 頁(yè)數(shù)：42 大小：122.50KB 積分：25 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩37頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、中國(guó)人民大學(xué) 碩士學(xué)位論文論文題目:(中文領(lǐng)域本體建設(shè)的方法論和工具研究 (英文 A Study on Methodologies and Tools作者:(中文名袁媛(英文名 Yuan Yuan所在院、系、所 :專業(yè) 名稱 :計(jì)算機(jī)應(yīng)用技術(shù)指導(dǎo) 教師姓名、職稱 :學(xué) 習(xí) 期限 :01年 9月至 04年 6月摘要作為 NSFC 資助項(xiàng)目 “通用網(wǎng)上知識(shí)編輯器及示范主題語(yǔ)義網(wǎng) 研究”的前期工作,本文著重研究領(lǐng)域本體建設(shè)的方法論和輔助工具。如今, Web 成為了網(wǎng)絡(luò)信息的主要平臺(tái), 是人們獲取知識(shí)的主要來(lái)源。但是,由于 Web 頁(yè)面的無(wú)結(jié)構(gòu)性、超鏈接的自由無(wú)序、以及

2、Web 內(nèi)容的海量性、多樣性和動(dòng)態(tài)變化,人們從 Web 上搜索真正想要的信息其實(shí)并不容易。從長(zhǎng)遠(yuǎn)看,解決上述矛盾的根本方法就是變無(wú)序數(shù)據(jù)為有序知識(shí), 讓計(jì)算機(jī)能夠理解 Web 信息, 同時(shí)理解使用這些信息的人。 Web 創(chuàng)始人 Tim Berners-Lee于 1998年提出了 Semantic Web(語(yǔ) 義 Web ,或語(yǔ)義網(wǎng)的構(gòu)想,它是當(dāng)前 Web 的擴(kuò)展,其中的信息被賦予定義良好的(well-defined 含義,使計(jì)算機(jī)可以理解, 從而和人更好的協(xié)作。為了將目前無(wú)序的 Web 改造成有序的計(jì)算機(jī)可理解的知識(shí)寶庫(kù),語(yǔ)義 Web 采用多層次的表示框架,本體位于從文檔描述到知識(shí)推

3、理轉(zhuǎn)折的層次, 因此本體的構(gòu)建是實(shí)現(xiàn)語(yǔ)義 Web 的關(guān)鍵環(huán)節(jié)。本體就是用來(lái)描述某個(gè)領(lǐng)域(領(lǐng)域本體甚至更廣范圍(通用本體內(nèi)的概念以及概念之間的聯(lián)系,使得這些概念和聯(lián)系在共享的范圍內(nèi)有著明確唯一的定義,達(dá)成一種共識(shí),這樣人和機(jī) 器之間就可以進(jìn)行交流。因此本體的建設(shè)是一個(gè)很重要的問(wèn)題,它是語(yǔ)義 Web 的語(yǔ)義基礎(chǔ),建立不好本體,語(yǔ)義 Web 也只是空談。這顯然是一個(gè)浩大的工程,但是目前還沒(méi)有成熟的方法論指導(dǎo),甚至建成什么樣子也只是初步的探索。本文認(rèn)為,本體的建設(shè)應(yīng)該是工程化生產(chǎn)。軟件工程使軟件生產(chǎn)從程序員的個(gè)人勞動(dòng)轉(zhuǎn)變?yōu)橛薪M織的、可控制的工程,從而在根本上大幅度提高軟件開發(fā)的效率和質(zhì)量

4、。與一般的軟件相比, 本體更強(qiáng)調(diào)共享、重用,它的出現(xiàn)就是為了給不同系統(tǒng)間提供一種統(tǒng)一的語(yǔ)義集成,因此它的工程性更為明顯。目前流行的各種方法論也都不同程度的借鑒了軟件工程的思想。但是, 本文認(rèn)為, 本體建設(shè)和傳統(tǒng)的軟件開發(fā)相比,更應(yīng)該強(qiáng)調(diào)進(jìn)化性,并通過(guò)方法論指導(dǎo)進(jìn)化的過(guò)程;其次,如何減少領(lǐng)域?qū)＜覅⑴c本體建設(shè)的程度,使建設(shè)過(guò)程更容易操作也是方法論中應(yīng)該重視的問(wèn)題。而現(xiàn)有方法論并沒(méi)有很好的考慮這兩個(gè)問(wèn)題。因此,本文并提出一種基于螺旋模型的原型化方法。和現(xiàn)有方法論相比,該原型法具有如下主要特色:突出領(lǐng)域的邊界模糊屬性,采用自底向上的建設(shè)過(guò)程。由于邊界模糊是領(lǐng)域的天然屬性,領(lǐng)域本體建

5、設(shè)就很難準(zhǔn)確的劃定范圍。該方法論采用自底向上的本體建設(shè)方法,在得不到領(lǐng)域?qū)＜掖罅χС值那闆r下,不求大而全,只求可用,先由知識(shí) 工人確定一些本體中的核心概念和關(guān)系,再通過(guò)后續(xù)的進(jìn)化階段擴(kuò)展本體。突出本體的進(jìn)化屬性,提出新的進(jìn)化方法。在軟件工程中,螺旋模型和原型法都是重視軟件進(jìn)化的。類似的,我們也采用了螺旋模型和基于該模型的原型法,強(qiáng)調(diào)本體進(jìn)化過(guò)程的螺旋上升。從實(shí)踐的可操作性出發(fā),該方法論又提出本體進(jìn)化的新思路,把文本半自動(dòng)標(biāo)注和本體建設(shè)相結(jié)合。知識(shí)工人手工或半自動(dòng)的利用本體對(duì)普通頁(yè)面進(jìn)行語(yǔ)義標(biāo)注時(shí),會(huì)不斷發(fā)現(xiàn)新的概念和關(guān)系。如果能把標(biāo)注過(guò)程和本體建設(shè) 過(guò)程結(jié)合起來(lái),就可以非常容易的

6、實(shí)現(xiàn)本體進(jìn)化。這種進(jìn)化過(guò)程比專家定義容易操作,比機(jī)器學(xué)習(xí)準(zhǔn)確規(guī)范。但是它需要有合適的工具支持。突出過(guò)程的規(guī)范化, 文檔化工作貫串領(lǐng)域本體建設(shè)的各個(gè) 階段。軟件工程的實(shí)踐已經(jīng)證明,文檔和程序一樣重要。本體建設(shè) 的現(xiàn)有方法論中也很重視文檔,把它作為一個(gè)獨(dú)立的階段。本文認(rèn)為, 文檔不只是事后的總結(jié), 它應(yīng)該貫串建設(shè)過(guò)程, 發(fā)揮規(guī)范、指導(dǎo)、總結(jié)等各方面的作用。有了方法論的指導(dǎo),本體建設(shè)的過(guò)程中還會(huì)存在大量重復(fù)性的工作,而這些費(fèi)時(shí)費(fèi)力的工作卻不是什么人都可以做的,就像字典也不是誰(shuí)都可以編纂的,需要更多領(lǐng)域?qū)＜液椭R(shí)工人的參與,因此開發(fā)出合適的輔助工具是非常必要的。現(xiàn)有的本體建設(shè)工具有很多值

7、得借鑒的地方。但是在方法論的研究中,我們提出了一些新的思路,特別是本體的進(jìn)化過(guò)程, 需要工具的支持。另外, 國(guó)內(nèi)研究機(jī)構(gòu)還沒(méi)有發(fā)布過(guò)自己的工具, 而國(guó)外工具對(duì)中文的支持較差。同時(shí), 項(xiàng)目本身也有特殊的需求, 因此自行設(shè)計(jì)開發(fā)本體建設(shè)工具是必須的。在“通用網(wǎng)上知識(shí)編輯器及示范主題語(yǔ)義網(wǎng)研究”項(xiàng)目中, 我們的目標(biāo)是建立起一個(gè)以經(jīng)濟(jì)學(xué)、法學(xué)的學(xué)科資源為例的示范語(yǔ)義網(wǎng),即通過(guò)領(lǐng)域本體的支持,對(duì)現(xiàn)有資源加工整理,進(jìn)行語(yǔ) 義標(biāo)注。因此,我們的本體建設(shè)工具有兩個(gè)明確的任務(wù),一是輔助領(lǐng)域本體的建設(shè),二是輔助文本標(biāo)注。這兩個(gè)任務(wù)是相輔相成的,利用建設(shè)好的本體可以對(duì)文本自動(dòng)標(biāo)注,自動(dòng)標(biāo)注的結(jié)果并不一

8、定準(zhǔn)確(和本體的規(guī)模有關(guān),知識(shí)工人對(duì)自動(dòng)標(biāo)注的結(jié)果進(jìn)行修正,修正的過(guò)程反過(guò)來(lái)影響本體,使本體不斷進(jìn)化。在整個(gè)系統(tǒng)的體系結(jié)構(gòu)中, 領(lǐng)域本體建設(shè)工具位于中間層次, 它包括文本抽取工具,本體構(gòu)建工具和文本標(biāo)注工具,其下是來(lái) 自于 Web 等信息源的各種文本。文本抽取工具對(duì)格式不規(guī)范的原始文本進(jìn)行加工, 本體構(gòu)建工具支持知識(shí)工人協(xié)同編輯領(lǐng)域本體, 文本標(biāo)注工具協(xié)助他們標(biāo)注資源,從而生成語(yǔ)義 Web 中的領(lǐng)域本體和經(jīng)過(guò)標(biāo)注的文本集,向上為用戶提供各種信息服務(wù)的 API 接口。和其他的本體建設(shè)工具相比,我們?cè)O(shè)計(jì)的工具具有如下主要特色:結(jié)合原型法, 提供一個(gè)集文本抽取工具、本體構(gòu)建工具和文本標(biāo)

9、注工具為一體的本體建設(shè)環(huán)境。支持領(lǐng)域本體編輯的協(xié)同工作。通過(guò)權(quán)限控制, 每個(gè)用戶在建設(shè)過(guò)程中可以充分表達(dá)自己的觀點(diǎn), 最后由一個(gè)相對(duì) 權(quán)威的人來(lái)對(duì)這個(gè)結(jié)果進(jìn)行審批。不同用戶通過(guò)不同的視圖瀏覽本體。輔助本體建設(shè)的進(jìn)化過(guò)程。在文本標(biāo)注工具中增加本體編輯的接口, 知識(shí)工人在標(biāo)注的同時(shí)可以對(duì)已有本體進(jìn)行編輯,從而使本體得到進(jìn)化。支持 OWL 語(yǔ)言,后臺(tái)采用數(shù)據(jù)庫(kù)存儲(chǔ)本體對(duì)象。支持中文的本體建設(shè)和文檔處理。在文章的最后,以經(jīng)濟(jì)學(xué)學(xué)科為應(yīng)用領(lǐng)域,建立了一個(gè)初步的本體,并用 OWL 文件描述,為進(jìn)一步的實(shí)踐工作打下基礎(chǔ)。關(guān)鍵詞 :語(yǔ)義 Web 領(lǐng)域本體方法論工具AbstractAs th

10、e preliminary work of “Research on General Knowledge Editors on the Web and Demonstrating Subject Semantic Web” supported by NSFC, this paper focuses on the study of methodologies and tools for building domain ontologies.Nowadays, web becomes the main information resource. However it is not easy for

11、 people to get the really interested information on the web, since web pages are semi-structure or non-structure, the hyperlinks are disordered and the data are massive and dynamic.In the long term, the essential method to solve the above contradiction is to change disorderly data into orderly knowl

12、edge, to make computers understand the web information and the need of people. Tim Berners-Lee proposed the concept of Semantic Web in 1998. It is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation.The Seman

13、tic Web uses a multi-level framework to achieve its goal. Ontology locates in the level from textual description to knowledge-based reasoning. So it is important to develop ontologies for the Semantic Web.An ontology is an explicit specification of a conceptualization. It defines the basic concepts

14、and relations comprising the vocabulary of a topic area. This makes these concepts and relations have explicit and exclusive definitions in certain scope. Then people can communicate with machines freely.Although building ontologies is a very important issue, there is no any mature methodology to gu

15、ide the development of ontologies at present.The development of ontologies should be an engineering process. Currently, the prevalent methodologies use the idea of software engineering for reference to some extent. However, compared with traditional software development, building ontologies emphasiz

16、es evolvement. Moreover, how to reduce the dependency on domain experts and make the procedure more operable is another key issue. But the existing methodologies didnt pay enough attention to the above issues. This paper puts forward a methodology of prototype based on spire model. It has the follow

17、ing features:Pinpoint the indefinite boundary of domain, and adopt bottom-up building procedure.Because the indefinite boundary is the natural property of domain, it is difficult to define the scope of work clearly. Without adequate supports from domain experts, knowledge workers can build core conc

18、epts and relations firstly, then extend the ontology in laterevolving phase.Pinpoint the evolvement of ontology, and propose a new approach.In the software engineering, spire model and prototype method both stress evolution. We adopt similar model and method, and emphasize the upswing of ontology ev

19、olvement. From the view of practical maneuverability, the methodology brings forward a new way to combine text semiautomatic annotating with ontologies constructing.When knowledge workers use ontologies to annotate normal web pages, they will find new concepts and relations occasionally. If combine

20、annotating with ontologies constructing, ontology evolvement will be easy. This process is easier than defining by experts, and is exacter than machine learning.Pinpoint standardization of process, and make documentation go through every stage.The practice of software engineering has proved that doc

21、uments are as important as codes. Those existing methodologies also stress documentation, and treat it as an independent phase. However, documents are not only the conclusion of procedure, but also the instructions and standards through the entire process.There is lots of repeated work in the develo

22、pment of ontologies. It needs participations of many domain experts and knowledge workers. So assistant tools are necessary.In our methodology, the evolvement of ontologies needs support from special tools. Moreover, there is no native developing tools, and overseas tools have poor support to Chines

23、e. Based on the above observations, design and implementation of our own tools is necessary.In our project, the goal is to build a demonstrating Semantic Web based on resource of economics and law. There are two objectives for our tools. First is to assist constructing domain ontologies, second is t

24、o assist annotating text. These two objectives benefit each other.Our developing tools include text extractor, ontology builder and text annotator. The text extractor processes original nonstandard text. The ontology builder supports knowledge workers to edit domain ontologies concurrently. The text

25、 annotator assists them annotate web pages. The features of the tools are listed as follows:Provide an integrated developing environment.It includes text extractor, ontology builder and text annotator.Support concurrent editing.With privileges control, each user can express his opinion freely throug

26、h the building procedure. An authority will confirm the result later. Different users browse ontologies through different views.Assist the evolvement of ontology.Edit interface is added into the text annotator. So knowledge workers can edit the existing ontologies while annotating text.Support OWL,

27、and store ontology objects in relational database.Support ontology development and document processing in Chinese.At the end of this paper, a preliminary ontology of economics is built, and decribed in OWL. This is the basis of our future implementation.Keywords :Semantic Web, Domain Ontology, Metho

28、dology, Tool目錄第一章引言 . 1第二章本體研究綜述 . 4 2.1 基本概念 .4 2.2 本體研究的熱點(diǎn)問(wèn)題 .7 2.3 本體描述語(yǔ)言 .9 2.3.1 基于 AI 的本體描述語(yǔ)言 .10 2.3.2 基于 Web 的本體描述語(yǔ)言 .11 2.4 本體建設(shè)的方法論 .16 2.4.1 IDEF-5方法 .16 2.4.2 骨架法 .17 2.4.3 企業(yè)建模法 .18 2.4.4 METHONTOLOGY.19 2.4.5 循環(huán)獲取法 .20 2.5 本體建設(shè)工具 .21 2.5.1 基于 AI 的本體描述語(yǔ)言的一類工具 .22 2.5.2 基于 Web 的本體描述語(yǔ)言

29、的一類工具 .25 第三章領(lǐng)域本體建設(shè)的方法論研究 . 30 3.1 研究思路與分析過(guò)程 .30 3.2 基于螺旋模型的原型法 .343.3 特色 .39第四章領(lǐng)域本體建設(shè)的工具研究 . 41 4.1 動(dòng)機(jī) .41 4.2 總體設(shè)計(jì) .41 4.2.1 設(shè)計(jì)思路 .41 4.2.2 功能設(shè)計(jì) .43 4.3 本體構(gòu)建工具的設(shè)計(jì) .48 4.3.1 模塊設(shè)計(jì) .48 4.3.2 數(shù)據(jù)庫(kù)設(shè)計(jì) .54 4.3.3 重要接口設(shè)計(jì) .57 4.4 特色 .59第五章經(jīng)濟(jì)學(xué)學(xué)科的本體建設(shè) . 60 5.1 需求分析與計(jì)劃 .60 5.2 核心本體建立 .62第六章結(jié)束語(yǔ) . 68 6.1 創(chuàng)新和貢

30、獻(xiàn) .68 6.2 下一步的工作 .68參考文獻(xiàn) . 70附錄 . 75致謝 . 77第一章引言通過(guò)利用超文本和多媒體技術(shù), Web 成為了網(wǎng)絡(luò)信息的主要平臺(tái),任何人都可以方便的瀏覽、獲取或者提供信息。僅僅十余年,互聯(lián)網(wǎng)的發(fā)展速度、網(wǎng)絡(luò)規(guī)模、技術(shù)水平、用戶數(shù)量、應(yīng)用領(lǐng)域及其對(duì)社會(huì)經(jīng)濟(jì)發(fā)展、信息文化的傳播和交流、對(duì)政府管理方式等方方面面產(chǎn)生的影響,都足以令世人震驚。目前,它已經(jīng) 成為人們獲取知識(shí)的主要手段。理論上,人們可以通過(guò) Web 搜索到幾乎所有方面的信息。但是,由于 Web 頁(yè)面的無(wú)結(jié)構(gòu)性、超鏈接的自由無(wú)序、 Web 規(guī)模的急劇膨脹以及 Web 內(nèi)容的海量性、多樣性和動(dòng)態(tài)變

31、化, 人們從 Web 上搜索真正想要的信息其實(shí)并不容易。這種困難具體表現(xiàn)為: 1.瀏覽器和搜索引擎的智能太低, 基本上還是采用關(guān)鍵字匹配的辦法;2.不能理解用戶的需要,只要是關(guān)鍵字一樣,查詢的結(jié)果總是一樣的;3.不能理解概念 , 從而進(jìn)行語(yǔ)義關(guān)聯(lián)。從數(shù)據(jù)管理和使用的角度,我們認(rèn)為現(xiàn)有互聯(lián)網(wǎng)數(shù)據(jù)管理的主要矛盾在于以下方面:1.數(shù)據(jù)管理的有序性要求與網(wǎng)上信息無(wú)序性的矛盾。2.搜索引擎的查全查準(zhǔn)要求與數(shù)據(jù)缺乏語(yǔ)義的矛盾。3.知識(shí)獲取的效率要求與海量數(shù)據(jù)的矛盾。從長(zhǎng)遠(yuǎn)看,解決上述矛盾的根本方法就是變無(wú)序數(shù)據(jù)為有序知識(shí), 讓計(jì)算機(jī)能夠理解 Web 信息, 同時(shí)理解使用這些信息的人?；ヂ?lián)網(wǎng)做不到這

32、一點(diǎn)的原因是,作為信息交流的平臺(tái), Web 僅僅是面向人類的,發(fā)布信息的作者只負(fù)責(zé)為人類創(chuàng)作,發(fā)布出來(lái)的信息也是由讀者本人分析、理解和使用。對(duì)于計(jì)算機(jī)來(lái)講, Web 上的信息只是通過(guò)超鏈接簡(jiǎn)單關(guān)聯(lián)起來(lái)的海量堆砌的字符串,計(jì)算機(jī)不能從它們中間發(fā)現(xiàn)任何語(yǔ)義關(guān)聯(lián),只能按照設(shè)計(jì)好的超鏈接把相關(guān)信息組織發(fā)布出來(lái),即使利用搜索引擎技術(shù),計(jì) 算機(jī)也只是在海量信息中進(jìn)行基于關(guān)鍵字(或者某種程度擴(kuò)展的字符串匹配。直接的想法就是讓計(jì)算機(jī)參與信息交流,幫助人們理解海量信息,使得 Web 成為一個(gè)真正的知識(shí)系統(tǒng),對(duì)最終用戶實(shí)現(xiàn)所得即所需(What you get is what you need。這就是

33、Web 創(chuàng)始人 Tim Berners-Lee于 1998年提出的 Semantic Web(語(yǔ)義 Web ,或語(yǔ)義網(wǎng)的構(gòu)想。簡(jiǎn)言之, Semantic Web和 Web 的根本區(qū)別在于它直接面向的對(duì)象不是人類,而是計(jì)算機(jī),發(fā)布在語(yǔ)義 Web 上的信息應(yīng)該是機(jī)器可理解的,從而為人類提供更好的信息服務(wù)。為了將目前無(wú)序的 Web 改造成有序的計(jì)算機(jī)可理解的知識(shí)寶庫(kù),語(yǔ)義 Web 采用多層次的表示框架,本體位于從文檔描述到知識(shí)推理轉(zhuǎn)折的位置, 因此本體的構(gòu)建是實(shí)現(xiàn)語(yǔ)義 Web 的關(guān)鍵環(huán)節(jié)。所謂本體, 最著名并被引用得最為廣泛的定義是由 Gruber 提出的 “本體是概念模型的明確的規(guī)范

34、說(shuō)明 1 ” 。通俗的講, 本體就是用來(lái)描述某個(gè)領(lǐng)域(領(lǐng)域本體甚至更廣范圍(通用本體內(nèi) 的概念以及概念之間的聯(lián)系,使得這些概念和聯(lián)系在共享的范圍內(nèi)有著明確唯一的定義,達(dá)成一種共識(shí),這樣人、機(jī)器之間就可以進(jìn)行交流?？梢哉J(rèn)為,最簡(jiǎn)單的本體形式有字典和分類樹,稍微復(fù)雜一些的有數(shù)據(jù)庫(kù)的關(guān)系模式(Relational Schema等。當(dāng) 然,本體的提出并不是為了人和人之間的交流,它是希望軟件系統(tǒng)之間能夠?qū)蚕砀拍钸_(dá)成統(tǒng)一的理解,就好像為機(jī)器提供一種用于交流的官方語(yǔ)言,從而避免雞同鴨講的情形。因此本體的建設(shè)是一個(gè)很重要的問(wèn)題,它是語(yǔ)義 Web 的語(yǔ)義基礎(chǔ),建立不好本體,語(yǔ)義 Web 也只是

35、空談。這顯然是一個(gè)浩大的工程,但是目前還沒(méi)有成熟的方法論指導(dǎo), 甚至建成什么樣子也只是初步的探索。作為一個(gè)工程,本體建設(shè)的過(guò)程中必然存在很多大量重復(fù)性的工作,而且這些費(fèi)時(shí)費(fèi)力的工作并不是什么人都可以做的(就像字典也不是誰(shuí)都可以編纂的,需要更多領(lǐng)域?qū)＜液椭R(shí)工程師的參與,因此開發(fā)出合適的輔助工具非常必要。作為 NSFC 資助項(xiàng)目 “通用網(wǎng)上知識(shí)編輯器及示范主題語(yǔ)義網(wǎng) 研究”的前期工作,本文著重研究領(lǐng)域本體建設(shè)的方法論和該過(guò) 程中的輔助工具。全文安排如下:第二部分著重對(duì)本體的研究現(xiàn) 狀進(jìn)行綜述,在介紹該領(lǐng)域的基本概念之后,首先提出本體研究中的熱點(diǎn)問(wèn)題,接著針對(duì)幾個(gè)主要的熱點(diǎn)問(wèn)題進(jìn)行調(diào)研

36、,包括本體描述語(yǔ)言、本體建設(shè)的方法論和本體建設(shè)工具;第三部分著重研究領(lǐng)域本體建設(shè)的方法論,提出基于螺旋模型的原型法,指導(dǎo) 本體的建設(shè)過(guò)程;第四部分研究本體建設(shè)工具,從項(xiàng)目的實(shí)際需求出發(fā),設(shè)計(jì)自己的領(lǐng)域本體建設(shè)工具,該工具最突出的特色在于本體的協(xié)同編輯和進(jìn)化過(guò)程;接下來(lái),在原型法的指導(dǎo)下,本文的第五部分選定經(jīng)濟(jì)學(xué)學(xué)科作為實(shí)踐領(lǐng)域,描述領(lǐng)域本體的建設(shè)過(guò)程; 最后, 在結(jié)束語(yǔ)中總結(jié)了本文的創(chuàng)新和未來(lái)的工作建議。中國(guó)人民大學(xué)碩士學(xué)位論文領(lǐng)域本體建設(shè)的方法論和工具研究第二章本體研究綜述 2.1 基本概念 1語(yǔ)義網(wǎng)（Semantic Web）在 W3C 的網(wǎng)站上，Tim Berners

37、-Lee 等人將語(yǔ)義 Web 定義為 “語(yǔ)義 Web 是當(dāng)前 Web 的擴(kuò)展，其中的信息被賦予定義良好的（well-defined）含義，使計(jì)算機(jī)和人能夠更好的協(xié)作。2”。文獻(xiàn)3中生動(dòng)形象的描繪了語(yǔ)義 Web 能夠提供給人類的服務(wù)。從這個(gè)定義可以看出，語(yǔ)義 Web 并不是要取代現(xiàn)有的 Web，而是擴(kuò) 展。擴(kuò)展的方式是對(duì)現(xiàn)有信息進(jìn)行形式化的描述，目的是機(jī)器可理解，以便計(jì)算機(jī)更好的提供信息服務(wù)。簡(jiǎn)單的說(shuō)，語(yǔ)義 Web 就是要給 Web 加上注釋，為了讓計(jì)算機(jī)能夠理解，這種注釋必須用一種形式化的語(yǔ)言進(jìn)行描述，并且支持推理。為了多個(gè)系統(tǒng)之間能夠交流，這種注釋還應(yīng)該遵循統(tǒng)一明確的詞匯表。

38、在 Tim 的構(gòu)想中，語(yǔ)義 Web 表現(xiàn)為圖 12所示的層次結(jié)構(gòu)。自底向上來(lái)看，第一層規(guī)定了文檔中字符的編碼方式和資源的統(tǒng) 一標(biāo)識(shí)，即 UNICODE 和 URI；第二層， XML、命名空間和 XML Schema，使用自定義的標(biāo)簽對(duì)文檔的結(jié)構(gòu)進(jìn)行標(biāo)注，規(guī)范文檔的語(yǔ)法格式，就可以方便的利用計(jì)算機(jī)處理文檔，在統(tǒng)一模式的定義下交換文檔。第三層，明確文檔中標(biāo)引對(duì)象之間的關(guān)系，即資源描述層 RDF+RDF Schema。RDF 定義了元素之間的關(guān)系，表現(xiàn)為元組的 4 中國(guó)人民大學(xué)碩士學(xué)位論文領(lǐng)域本體建設(shè)的方法論和工具研究集合（類似于句子的主語(yǔ)、謂語(yǔ)、賓語(yǔ)）。XML 加上 RDF(

39、S就相當(dāng)于建立了人工智能中的語(yǔ)義網(wǎng)絡(luò)（SEMENTIC NETWORK）,可以進(jìn) 行一定的推理。使用 XML+RDFS(S，人們可以建立各自的語(yǔ)義網(wǎng)，只要有一套自成體系的術(shù)語(yǔ)就可以了。第四層，明確標(biāo)引項(xiàng)的精確含義，要讓計(jì)算機(jī)相互理解對(duì)方的內(nèi)容，需要有一套共同的標(biāo) 準(zhǔn)的概念體系，這就是 Ontology（本體）。XML+RDF(S+Ontology 構(gòu)成了計(jì)算機(jī)相互理解的基礎(chǔ)。這樣每增加一個(gè)層次，計(jì)算機(jī)在知識(shí)處理上就多一份能力。在本體層之上進(jìn)一步要做一些邏輯推理的工作，接下來(lái)就是保證信息是可信賴的，這就構(gòu)成了一個(gè)多層次的語(yǔ)義網(wǎng)。圖 1. 語(yǔ)義網(wǎng)的層次結(jié)構(gòu) 語(yǔ)義網(wǎng)繪制的是一幅美好的藍(lán)

40、圖，最終得到一個(gè)可信任的 Web，每個(gè)人都可以在上面獲取知識(shí)、尋求幫助，就像詢問(wèn)值得信賴的好朋友一樣。但是，和任何一項(xiàng)偉大事業(yè)一樣，前途是光明 5 中國(guó)人民大學(xué)碩士學(xué)位論文領(lǐng)域本體建設(shè)的方法論和工具研究的，道路是曲折的，語(yǔ)義 Web 的實(shí)現(xiàn)還是一個(gè)長(zhǎng)期的過(guò)程。從目前的情況來(lái)看，語(yǔ)義網(wǎng)下面三層的研究已經(jīng)開展較長(zhǎng)時(shí) 間，研究成果相對(duì)較多，并推出了一系列的標(biāo)準(zhǔn)，可以說(shuō)打下了比較堅(jiān)實(shí)的基礎(chǔ)。本體層和邏輯層，正在引起更多的關(guān)注。作為語(yǔ)義 Web 中從語(yǔ)法處理向語(yǔ)義處理的轉(zhuǎn)折，這兩層起著至關(guān)重要的作用，相關(guān)研究正處在探索之中，已有很多有意義的嘗試和應(yīng) 用，卻還沒(méi)有成熟的技術(shù)和標(biāo)準(zhǔn)，因此成

41、為相關(guān)領(lǐng)域的研究熱點(diǎn)。頂部的兩層還沒(méi)有可靠論證，只是基于邏輯系統(tǒng)的一個(gè)構(gòu)想。 2本體（Ontology） Ontology1的概念起源于哲學(xué)領(lǐng)域，即“對(duì)世界上客觀存在物的系統(tǒng)地描述 4 ”。在人工智能界，最早給出本體定義的是 Neches 等人，他們將本體定義為“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本術(shù)語(yǔ)和關(guān)系，以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成的規(guī)定這些詞匯外延的規(guī)則的定義5”。后來(lái)在信息系統(tǒng)、知識(shí)管理等領(lǐng)域，越來(lái)越多的人研究本體，并給出了許多不同的定義。其中最著名并被引用得最為廣泛的定義是由 Gruber 提出的， “本體是概念模型的明確的規(guī)范說(shuō)明1” 。 Fensel 對(duì)這個(gè)定義進(jìn)行分析后

42、認(rèn)為本體的概念包括四個(gè)主要方面6：概念化（conceptualization）：客觀世界中現(xiàn)象的抽象模型；明確（explicit）：概念及它們之間聯(lián)系都被精確定義；形式化（formal）：精確的數(shù)學(xué)描述； 1 早期多譯作“本體論” ，強(qiáng)調(diào)大寫，作為抽象名詞。后來(lái)付諸實(shí)踐，多譯作“本體” ，既代表一種概念，也代表建設(shè)好的具體本體，可以用作復(fù)數(shù)。本文采用“本體” 。 6 中國(guó)人民大學(xué)碩士學(xué)位論文領(lǐng)域本體建設(shè)的方法論和工具研究共享（share）：本體中反映的知識(shí)是其使用者共同認(rèn)可的。雖然不同研究者對(duì)本體有不同的描述，但是從內(nèi)涵上來(lái)看，他們對(duì)本體的認(rèn)識(shí)是一致的，都是把本體當(dāng)作

43、某個(gè)領(lǐng)域內(nèi)（可以是特定領(lǐng)域的，也可以是更廣的范圍）不同主體（人、代理、機(jī) 器等）之間進(jìn)行交流（對(duì)話、互操作、共享等）的一種語(yǔ)義基礎(chǔ)，即由本體提供明確定義的詞匯表，描述概念和概念之間的關(guān)系，作為使用者之間達(dá)成的共識(shí)。因此，本體的用途包括交流、共享、互操作、重用等等。目前，本體已經(jīng)被廣泛應(yīng)用于知識(shí)工程、自然語(yǔ)言處理、數(shù) 字圖書館、信息檢索和 Web 異構(gòu)信息的處理、軟件復(fù)用、面向?qū)?象技術(shù)和語(yǔ)義 Web 等領(lǐng)域31,32。 2.2 本體研究的熱點(diǎn)問(wèn)題 1本體描述語(yǔ)言值得注意的是，機(jī)器并不能像人類一樣理解蘊(yùn)含在自然語(yǔ)言中的語(yǔ)義，計(jì)算機(jī)最終把所有的信息都當(dāng)作 0、1 串進(jìn)行處理。而本體

44、的目的是使信息成為機(jī)器可理解的，因此，在計(jì)算機(jī)領(lǐng)域討論本體，首先就面臨著本體究竟是如何描述的，也就是概念的形式化問(wèn)題。對(duì)應(yīng)的研究?jī)?nèi)容就是本體的描述語(yǔ)言。本體描述語(yǔ)言使得用戶為領(lǐng)域模型編寫清晰的、形式化的概念描述，因此它應(yīng)該滿足以下要求7：良好定義的語(yǔ)法（a well-defined syntax）良好定義的語(yǔ)義（a well-defined semantics） 7 中國(guó)人民大學(xué)碩士學(xué)位論文領(lǐng)域本體建設(shè)的方法論和工具研究有效的推理支持（efficient reasoning support）充分的表達(dá)能力（sufficient expressive power）表達(dá)的方便性

45、（convenience of expression） 2本體建設(shè)方法論本體建設(shè)的現(xiàn)狀可以和軟件工程發(fā)展的初期類比，還處于個(gè) 人（或小團(tuán)體）的手工作坊階段。從本體的概念來(lái)看，它的本質(zhì) 要求包括概念化、明確、形式化、共享、重用等特征，可以說(shuō)工程性是本體建設(shè)的天然屬性。并且，由于軟件工程對(duì)軟件產(chǎn)業(yè)的形成和發(fā)展起著決定性的推動(dòng)作用，已經(jīng)有人提出了本體工程的概念，也成為研究中的一個(gè)熱點(diǎn)問(wèn)題。如何才能大規(guī)模的建設(shè)本體？如何集成現(xiàn)有的不同本體？如何維護(hù)本體及其進(jìn)化過(guò)程？等等，這一系列的問(wèn)題都需要方法論作為指導(dǎo)，目前該領(lǐng)域研究還處于探索階段，沒(méi)有形成成熟的方法論，是一個(gè)有價(jià)值的研究方向。因此

46、作者也對(duì)這個(gè)問(wèn)題進(jìn)行了較為深入的研究，并在本文的第三部分著重論述研究成果。 3本體建設(shè)的輔助工具本體建設(shè)不僅需要理論上的探討和研究，還必須實(shí)實(shí)在在的構(gòu)建出本體。從人員上來(lái)看，本體建設(shè)的工作主要是領(lǐng)域?qū)＜液?知識(shí)工人來(lái)做，這是一項(xiàng)非常費(fèi)時(shí)、費(fèi)力又易于出錯(cuò)的工作，也是導(dǎo)致目前大規(guī)模建設(shè)本體的項(xiàng)目比較少的直接原因。如何能利用軟件系統(tǒng)輔助人們構(gòu)建本體？這些軟件能在哪些方面自動(dòng)化或者半自動(dòng)化的發(fā)揮作用？本體開發(fā)過(guò)程中如何支持 8 協(xié)同工作?不同軟件開發(fā)的本體如何集成?建設(shè)好的本體如何管理和維護(hù)?等等也成為該領(lǐng)域亟待解決的問(wèn)題。因此設(shè)計(jì)實(shí)現(xiàn)出靈活實(shí)用的本體建設(shè)工具具有很強(qiáng)的現(xiàn)實(shí)價(jià)值。4.本

47、體的應(yīng)用本體建設(shè)的目的是應(yīng)用,這方面的研究遍布人工智能、信息管理、知識(shí)管理相關(guān)的各個(gè)領(lǐng)域,典型的問(wèn)題有:(1 基于語(yǔ)義的信息檢索,特別是網(wǎng)絡(luò)搜索引擎和數(shù)字化圖書館 36,37。(2 基于本體的數(shù)據(jù)集成、機(jī)器學(xué)習(xí)等 38,39。(3 領(lǐng) 域本體的應(yīng) 用。比如 , 在生物信息學(xué) 中已建成的 GeneOntology , 盡管只包括了 partOf 等簡(jiǎn)單的關(guān)系 , 但是對(duì)生物信息學(xué)界已經(jīng)有巨大的影響 40。(4 語(yǔ)義 Web 服務(wù) 41。(5 在線元數(shù)據(jù)管理和自動(dòng)信息發(fā)布 37。2.3 本體描述語(yǔ)言自上個(gè)世紀(jì) 90年代以來(lái),一些基于 AI 的本體實(shí)現(xiàn)語(yǔ)言陸續(xù)

48、被提出,如 KIF 、 Ontolingua 、 CycL 、 Loom , OCML , FLogic 。后來(lái),隨著 Web 的發(fā)展,又出現(xiàn)了一系列基于 Web 的本體語(yǔ)言,也叫做本體標(biāo)記語(yǔ)言, 如 SHOE 、 XOL 、 RDF 、 RDF-S 、 OIL 、 DAML 、 DAML +OIL 、 OWL 。2.3.1 基于 AI 的本體描述語(yǔ)言1. KIF14KIF (Knowledge Interchange Format 是由斯坦福大學(xué)開發(fā) 的。它是一種在不同 KR 系統(tǒng)間交換知識(shí)的格式, 是基于一階邏輯的語(yǔ)言。其特點(diǎn)是:有公開的語(yǔ)義:它不再需要專門的解釋器。在邏輯上是全面

49、的:它可以對(duì)任意的邏輯語(yǔ)句進(jìn)行表達(dá)。提供對(duì)元知識(shí)的表現(xiàn)。2. Ontolingua4Ontolingua 是一種基于 KIF (knowledge interchange format 的, 提供統(tǒng)一的規(guī)范格式來(lái)構(gòu)建 Ontology 的語(yǔ)言。其特點(diǎn)是:為構(gòu)造和維護(hù) Ontology ,提供了統(tǒng)一的、計(jì)算機(jī)可讀的方式; 由其構(gòu)造的 Ontology 可以方便地轉(zhuǎn)換到各種知識(shí)表示和推理系統(tǒng)(Prolog 、 CORBA 的 IDL 、 CLIPS 、 LOOM 、 Epikit 、 Algernon 和 KIF ,從而將 Ontology 的維護(hù)與使用它的目標(biāo)系統(tǒng)分離。3. C

50、ycL4CycL 是 Cyc 系統(tǒng)的描述語(yǔ)言, 一種體系龐大而非常靈活的知識(shí)描述語(yǔ)言。其特點(diǎn)是:在一階謂詞演算的基礎(chǔ)上擴(kuò)充了等價(jià)推理、缺省推理等功能;具備一些二階謂詞演算的能力;其語(yǔ)言環(huán) 境中配有功能很強(qiáng)的可進(jìn)行推理的推理機(jī)。4. Loom4Loom 是一種基于一階謂詞邏輯的高級(jí)編程語(yǔ)言, 屬于描述邏輯體系。其特點(diǎn)是:提供表達(dá)能力強(qiáng)、聲明性的規(guī)范說(shuō)明語(yǔ)言; 提供強(qiáng)大的演繹推理能力;提供多種編程風(fēng)格和知識(shí)庫(kù)服務(wù)。該語(yǔ)言后來(lái)發(fā)展成為 PowerLoom 語(yǔ)言。 PowerLoom 是 KIF 的變體, 它是基于邏輯的 , 具備很強(qiáng) 的表達(dá) 能力 , 采用前后鏈規(guī) 則 (backward and forward chain

人人文庫(kù)> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

領(lǐng)域本體建設(shè)的方法論和工具研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

領(lǐng)域本體建設(shè)的方法論和工具研究

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔