




版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、中國(guó)人民大學(xué) 碩士學(xué)位論文論文題目:(中文 領(lǐng)域本體建設(shè)的方法論和工具研究 (英文 A Study on Methodologies and Tools作 者:(中文名 袁 媛(英文名 Yuan Yuan所在院、系、所 :專 業(yè) 名 稱 :計(jì)算機(jī)應(yīng)用技術(shù)指 導(dǎo) 教 師姓 名、職 稱 :學(xué) 習(xí) 期 限 :01年 9月至 04年 6月摘 要作為 NSFC 資助項(xiàng)目 “通用網(wǎng)上知識(shí)編輯器及示范主題語(yǔ)義網(wǎng) 研究”的前期工作,本文著重研究領(lǐng)域本體建設(shè)的方法論和輔助 工具。如今, Web 成為了網(wǎng)絡(luò)信息的主要平臺(tái), 是人們獲取知識(shí)的主 要來(lái)源。但是,由于 Web 頁(yè)面的無(wú)結(jié)構(gòu)性、超鏈接的自由無(wú)序、 以及
2、Web 內(nèi)容的海量性、多樣性和動(dòng)態(tài)變化,人們從 Web 上搜索 真正想要的信息其實(shí)并不容易。從長(zhǎng)遠(yuǎn)看,解決上述矛盾的根本方法就是變無(wú)序數(shù)據(jù)為有序 知識(shí), 讓計(jì)算機(jī)能夠理解 Web 信息, 同時(shí)理解使用這些信息的人。 Web 創(chuàng)始人 Tim Berners-Lee于 1998年提出了 Semantic Web(語(yǔ) 義 Web ,或語(yǔ)義網(wǎng)的構(gòu)想,它是當(dāng)前 Web 的擴(kuò)展,其中的信息 被賦予定義良好的(well-defined 含義,使計(jì)算機(jī)可以理解, 從而和人更好的協(xié)作。為了將目前無(wú)序的 Web 改造成有序的計(jì)算機(jī)可理解的知識(shí)寶 庫(kù),語(yǔ)義 Web 采用多層次的表示框架,本體位于從文檔描述到知 識(shí)推
3、理轉(zhuǎn)折的層次, 因此本體的構(gòu)建是實(shí)現(xiàn)語(yǔ)義 Web 的關(guān)鍵環(huán)節(jié)。 本體就是用來(lái)描述某個(gè)領(lǐng)域(領(lǐng)域本體甚至更廣范圍(通 用本體內(nèi)的概念以及概念之間的聯(lián)系,使得這些概念和聯(lián)系在 共享的范圍內(nèi)有著明確唯一的定義,達(dá)成一種共識(shí),這樣人和機(jī) 器之間就可以進(jìn)行交流。因此本體的建設(shè)是一個(gè)很重要的問(wèn)題,它是語(yǔ)義 Web 的語(yǔ)義 基礎(chǔ),建立不好本體,語(yǔ)義 Web 也只是空談。這顯然是一個(gè)浩大的工程,但是目前還沒(méi)有成熟的方法論指導(dǎo),甚至建成什么樣子 也只是初步的探索。本文認(rèn)為,本體的建設(shè)應(yīng)該是工程化生產(chǎn)。軟件工程使軟件 生產(chǎn)從程序員的個(gè)人勞動(dòng)轉(zhuǎn)變?yōu)橛薪M織的、可控制的工程,從而 在根本上大幅度提高軟件開發(fā)的效率和質(zhì)量
4、。 與一般的軟件相比, 本體更強(qiáng)調(diào)共享、重用,它的出現(xiàn)就是為了給不同系統(tǒng)間提供一 種統(tǒng)一的語(yǔ)義集成,因此它的工程性更為明顯。目前流行的各種 方法論也都不同程度的借鑒了軟件工程的思想。 但是, 本文認(rèn)為, 本體建設(shè)和傳統(tǒng)的軟件開發(fā)相比,更應(yīng)該強(qiáng)調(diào)進(jìn)化性,并通過(guò)方 法論指導(dǎo)進(jìn)化的過(guò)程;其次,如何減少領(lǐng)域?qū)<覅⑴c本體建設(shè)的 程度,使建設(shè)過(guò)程更容易操作也是方法論中應(yīng)該重視的問(wèn)題。而 現(xiàn)有方法論并沒(méi)有很好的考慮這兩個(gè)問(wèn)題。因此,本文并提出一 種基于螺旋模型的原型化方法。和現(xiàn)有方法論相比,該原型法具 有如下主要特色:突出領(lǐng)域的邊界模糊屬性,采用自底向上的建設(shè)過(guò)程。 由于邊界模糊是領(lǐng)域的天然屬性,領(lǐng)域本體建
5、設(shè)就很難準(zhǔn)確 的劃定范圍。該方法論采用自底向上的本體建設(shè)方法,在得不到 領(lǐng)域?qū)<掖罅χС值那闆r下,不求大而全,只求可用,先由知識(shí) 工人確定一些本體中的核心概念和關(guān)系,再通過(guò)后續(xù)的進(jìn)化階段 擴(kuò)展本體。突出本體的進(jìn)化屬性,提出新的進(jìn)化方法。在軟件工程中,螺旋模型和原型法都是重視軟件進(jìn)化的。類 似的,我們也采用了螺旋模型和基于該模型的原型法,強(qiáng)調(diào)本體 進(jìn)化過(guò)程的螺旋上升。從實(shí)踐的可操作性出發(fā),該方法論又提出 本體進(jìn)化的新思路,把文本半自動(dòng)標(biāo)注和本體建設(shè)相結(jié)合。 知識(shí)工人手工或半自動(dòng)的利用本體對(duì)普通頁(yè)面進(jìn)行語(yǔ)義標(biāo)注時(shí),會(huì)不斷發(fā)現(xiàn)新的概念和關(guān)系。如果能把標(biāo)注過(guò)程和本體建設(shè) 過(guò)程結(jié)合起來(lái),就可以非常容易的
6、實(shí)現(xiàn)本體進(jìn)化。這種進(jìn)化過(guò)程 比專家定義容易操作,比機(jī)器學(xué)習(xí)準(zhǔn)確規(guī)范。但是它需要有合適 的工具支持。突出過(guò)程的規(guī)范化, 文檔化工作貫串領(lǐng)域本體建設(shè)的各個(gè) 階段。軟件工程的實(shí)踐已經(jīng)證明,文檔和程序一樣重要。本體建設(shè) 的現(xiàn)有方法論中也很重視文檔,把它作為一個(gè)獨(dú)立的階段。本文 認(rèn)為, 文檔不只是事后的總結(jié), 它應(yīng)該貫串建設(shè)過(guò)程, 發(fā)揮規(guī)范、 指導(dǎo)、總結(jié)等各方面的作用。有了方法論的指導(dǎo),本體建設(shè)的過(guò)程中還會(huì)存在大量重復(fù)性 的工作,而這些費(fèi)時(shí)費(fèi)力的工作卻不是什么人都可以做的,就像 字典也不是誰(shuí)都可以編纂的,需要更多領(lǐng)域?qū)<液椭R(shí)工人的參 與,因此開發(fā)出合適的輔助工具是非常必要的。現(xiàn)有的本體建設(shè)工具有很多值
7、得借鑒的地方。但是在方法論 的研究中,我們提出了一些新的思路,特別是本體的進(jìn)化過(guò)程, 需要工具的支持。 另外, 國(guó)內(nèi)研究機(jī)構(gòu)還沒(méi)有發(fā)布過(guò)自己的工具, 而國(guó)外工具對(duì)中文的支持較差。 同時(shí), 項(xiàng)目本身也有特殊的需求, 因此自行設(shè)計(jì)開發(fā)本體建設(shè)工具是必須的。在“通用網(wǎng)上知識(shí)編輯器及示范主題語(yǔ)義網(wǎng)研究”項(xiàng)目中, 我們的目標(biāo)是建立起一個(gè)以經(jīng)濟(jì)學(xué)、法學(xué)的學(xué)科資源為例的示范 語(yǔ)義網(wǎng),即通過(guò)領(lǐng)域本體的支持,對(duì)現(xiàn)有資源加工整理,進(jìn)行語(yǔ) 義標(biāo)注。因此,我們的本體建設(shè)工具有兩個(gè)明確的任務(wù),一是輔 助領(lǐng)域本體的建設(shè),二是輔助文本標(biāo)注。這兩個(gè)任務(wù)是相輔相成 的,利用建設(shè)好的本體可以對(duì)文本自動(dòng)標(biāo)注,自動(dòng)標(biāo)注的結(jié)果并 不一
8、定準(zhǔn)確(和本體的規(guī)模有關(guān),知識(shí)工人對(duì)自動(dòng)標(biāo)注的結(jié)果進(jìn)行修正,修正的過(guò)程反過(guò)來(lái)影響本體,使本體不斷進(jìn)化。 在整個(gè)系統(tǒng)的體系結(jié)構(gòu)中, 領(lǐng)域本體建設(shè)工具位于中間層次, 它包括文本抽取工具,本體構(gòu)建工具和文本標(biāo)注工具,其下是來(lái) 自于 Web 等信息源的各種文本。文本抽取工具對(duì)格式不規(guī)范的原 始文本進(jìn)行加工, 本體構(gòu)建工具支持知識(shí)工人協(xié)同編輯領(lǐng)域本體, 文本標(biāo)注工具協(xié)助他們標(biāo)注資源,從而生成語(yǔ)義 Web 中的領(lǐng)域本 體和經(jīng)過(guò)標(biāo)注的文本集,向上為用戶提供各種信息服務(wù)的 API 接 口。和其他的本體建設(shè)工具相比,我們?cè)O(shè)計(jì)的工具具有如下主要 特色:結(jié)合原型法, 提供一個(gè)集文本抽取工具、 本體構(gòu)建工具和 文本標(biāo)
9、注工具為一體的本體建設(shè)環(huán)境。支持領(lǐng)域本體編輯的協(xié)同工作。 通過(guò)權(quán)限控制, 每個(gè)用戶 在建設(shè)過(guò)程中可以充分表達(dá)自己的觀點(diǎn), 最后由一個(gè)相對(duì) 權(quán)威的人來(lái)對(duì)這個(gè)結(jié)果進(jìn)行審批。 不同用戶通過(guò)不同的視 圖瀏覽本體。輔助本體建設(shè)的進(jìn)化過(guò)程。 在文本標(biāo)注工具中增加本體編 輯的接口, 知識(shí)工人在標(biāo)注的同時(shí)可以對(duì)已有本體進(jìn)行編 輯,從而使本體得到進(jìn)化。支持 OWL 語(yǔ)言,后臺(tái)采用數(shù)據(jù)庫(kù)存儲(chǔ)本體對(duì)象。支持中文的本體建設(shè)和文檔處理。在文章的最后,以經(jīng)濟(jì)學(xué)學(xué)科為應(yīng)用領(lǐng)域,建立了一個(gè)初步 的本體,并用 OWL 文件描述,為進(jìn)一步的實(shí)踐工作打下基礎(chǔ)。關(guān)鍵詞 :語(yǔ)義 Web 領(lǐng)域本體 方法論 工具AbstractAs th
10、e preliminary work of “Research on General Knowledge Editors on the Web and Demonstrating Subject Semantic Web” supported by NSFC, this paper focuses on the study of methodologies and tools for building domain ontologies.Nowadays, web becomes the main information resource. However it is not easy for
11、 people to get the really interested information on the web, since web pages are semi-structure or non-structure, the hyperlinks are disordered and the data are massive and dynamic.In the long term, the essential method to solve the above contradiction is to change disorderly data into orderly knowl
12、edge, to make computers understand the web information and the need of people. Tim Berners-Lee proposed the concept of Semantic Web in 1998. It is an extension of the current web in which information is given well-defined meaning, better enabling computers and people to work in cooperation.The Seman
13、tic Web uses a multi-level framework to achieve its goal. Ontology locates in the level from textual description to knowledge-based reasoning. So it is important to develop ontologies for the Semantic Web.An ontology is an explicit specification of a conceptualization. It defines the basic concepts
14、and relations comprising the vocabulary of a topic area. This makes these concepts and relations have explicit and exclusive definitions in certain scope. Then people can communicate with machines freely.Although building ontologies is a very important issue, there is no any mature methodology to gu
15、ide the development of ontologies at present.The development of ontologies should be an engineering process. Currently, the prevalent methodologies use the idea of software engineering for reference to some extent. However, compared with traditional software development, building ontologies emphasiz
16、es evolvement. Moreover, how to reduce the dependency on domain experts and make the procedure more operable is another key issue. But the existing methodologies didnt pay enough attention to the above issues. This paper puts forward a methodology of prototype based on spire model. It has the follow
17、ing features:Pinpoint the indefinite boundary of domain, and adopt bottom-up building procedure.Because the indefinite boundary is the natural property of domain, it is difficult to define the scope of work clearly. Without adequate supports from domain experts, knowledge workers can build core conc
18、epts and relations firstly, then extend the ontology in laterevolving phase.Pinpoint the evolvement of ontology, and propose a new approach.In the software engineering, spire model and prototype method both stress evolution. We adopt similar model and method, and emphasize the upswing of ontology ev
19、olvement. From the view of practical maneuverability, the methodology brings forward a new way to combine text semiautomatic annotating with ontologies constructing.When knowledge workers use ontologies to annotate normal web pages, they will find new concepts and relations occasionally. If combine
20、annotating with ontologies constructing, ontology evolvement will be easy. This process is easier than defining by experts, and is exacter than machine learning.Pinpoint standardization of process, and make documentation go through every stage.The practice of software engineering has proved that doc
21、uments are as important as codes. Those existing methodologies also stress documentation, and treat it as an independent phase. However, documents are not only the conclusion of procedure, but also the instructions and standards through the entire process.There is lots of repeated work in the develo
22、pment of ontologies. It needs participations of many domain experts and knowledge workers. So assistant tools are necessary.In our methodology, the evolvement of ontologies needs support from special tools. Moreover, there is no native developing tools, and overseas tools have poor support to Chines
23、e. Based on the above observations, design and implementation of our own tools is necessary.In our project, the goal is to build a demonstrating Semantic Web based on resource of economics and law. There are two objectives for our tools. First is to assist constructing domain ontologies, second is t
24、o assist annotating text. These two objectives benefit each other.Our developing tools include text extractor, ontology builder and text annotator. The text extractor processes original nonstandard text. The ontology builder supports knowledge workers to edit domain ontologies concurrently. The text
25、 annotator assists them annotate web pages. The features of the tools are listed as follows:Provide an integrated developing environment.It includes text extractor, ontology builder and text annotator.Support concurrent editing.With privileges control, each user can express his opinion freely throug
26、h the building procedure. An authority will confirm the result later. Different users browse ontologies through different views.Assist the evolvement of ontology.Edit interface is added into the text annotator. So knowledge workers can edit the existing ontologies while annotating text.Support OWL,
27、and store ontology objects in relational database.Support ontology development and document processing in Chinese.At the end of this paper, a preliminary ontology of economics is built, and decribed in OWL. This is the basis of our future implementation.Keywords :Semantic Web, Domain Ontology, Metho
28、dology, Tool目 錄第一章 引言 . 1第二章 本體研究綜述 . 4 2.1 基本概念 .4 2.2 本體研究的熱點(diǎn)問(wèn)題 .7 2.3 本體描述語(yǔ)言 .9 2.3.1 基于 AI 的本體描述語(yǔ)言 .10 2.3.2 基于 Web 的本體描述語(yǔ)言 .11 2.4 本體建設(shè)的方法論 .16 2.4.1 IDEF-5方法 .16 2.4.2 骨架法 .17 2.4.3 企業(yè)建模法 .18 2.4.4 METHONTOLOGY.19 2.4.5 循環(huán)獲取法 .20 2.5 本體建設(shè)工具 .21 2.5.1 基于 AI 的本體描述語(yǔ)言的一類工具 .22 2.5.2 基于 Web 的本體描述語(yǔ)言
29、的一類工具 .25 第三章 領(lǐng)域本體建設(shè)的方法論研究 . 30 3.1 研究思路與分析過(guò)程 .30 3.2 基于螺旋模型的原型法 .343.3 特色 .39第四章 領(lǐng)域本體建設(shè)的工具研究 . 41 4.1 動(dòng)機(jī) .41 4.2 總體設(shè)計(jì) .41 4.2.1 設(shè)計(jì)思路 .41 4.2.2 功能設(shè)計(jì) .43 4.3 本體構(gòu)建工具的設(shè)計(jì) .48 4.3.1 模塊設(shè)計(jì) .48 4.3.2 數(shù)據(jù)庫(kù)設(shè)計(jì) .54 4.3.3 重要接口設(shè)計(jì) .57 4.4 特色 .59第五章 經(jīng)濟(jì)學(xué)學(xué)科的本體建設(shè) . 60 5.1 需求分析與計(jì)劃 .60 5.2 核心本體建立 .62第六章 結(jié)束語(yǔ) . 68 6.1 創(chuàng)新和貢
30、獻(xiàn) .68 6.2 下一步的工作 .68參考文獻(xiàn) . 70附錄 . 75致謝 . 77第一章 引言通過(guò)利用超文本和多媒體技術(shù), Web 成為了網(wǎng)絡(luò)信息的主要 平臺(tái),任何人都可以方便的瀏覽、獲取或者提供信息。僅僅十余 年,互聯(lián)網(wǎng)的發(fā)展速度、網(wǎng)絡(luò)規(guī)模、技術(shù)水平、用戶數(shù)量、應(yīng)用 領(lǐng)域及其對(duì)社會(huì)經(jīng)濟(jì)發(fā)展、信息文化的傳播和交流、對(duì)政府管理 方式等方方面面產(chǎn)生的影響,都足以令世人震驚。目前,它已經(jīng) 成為人們獲取知識(shí)的主要手段。理論上,人們可以通過(guò) Web 搜索到幾乎所有方面的信息。但 是,由于 Web 頁(yè)面的無(wú)結(jié)構(gòu)性、超鏈接的自由無(wú)序、 Web 規(guī)模的 急劇膨脹以及 Web 內(nèi)容的海量性、 多樣性和動(dòng)態(tài)變
31、化, 人們從 Web 上搜索真正想要的信息其實(shí)并不容易。這種困難具體表現(xiàn)為: 1.瀏覽器和搜索引擎的智能太低, 基本上還是采用關(guān)鍵字匹 配的辦法;2.不能理解用戶的需要,只要是關(guān)鍵字一樣,查詢的結(jié)果總 是一樣的;3.不能理解概念 , 從而進(jìn)行語(yǔ)義關(guān)聯(lián)。從數(shù)據(jù)管理和使用的角度,我們認(rèn)為現(xiàn)有互聯(lián)網(wǎng)數(shù)據(jù)管理的 主要矛盾在于以下方面:1.數(shù)據(jù)管理的有序性要求與網(wǎng)上信息無(wú)序性的矛盾。2.搜索引擎的查全查準(zhǔn)要求與數(shù)據(jù)缺乏語(yǔ)義的矛盾。3.知識(shí)獲取的效率要求與海量數(shù)據(jù)的矛盾。從長(zhǎng)遠(yuǎn)看,解決上述矛盾的根本方法就是變無(wú)序數(shù)據(jù)為有序 知識(shí), 讓計(jì)算機(jī)能夠理解 Web 信息, 同時(shí)理解使用這些信息的人?;ヂ?lián)網(wǎng)做不到這
32、一點(diǎn)的原因是,作為信息交流的平臺(tái), Web 僅僅是面向人類的,發(fā)布信息的作者只負(fù)責(zé)為人類創(chuàng)作,發(fā)布出 來(lái)的信息也是由讀者本人分析、理解和使用。對(duì)于計(jì)算機(jī)來(lái)講, Web 上的信息只是通過(guò)超鏈接簡(jiǎn)單關(guān)聯(lián)起來(lái)的海量堆砌的字符 串,計(jì)算機(jī)不能從它們中間發(fā)現(xiàn)任何語(yǔ)義關(guān)聯(lián),只能按照設(shè)計(jì)好 的超鏈接把相關(guān)信息組織發(fā)布出來(lái),即使利用搜索引擎技術(shù),計(jì) 算機(jī)也只是在海量信息中進(jìn)行基于關(guān)鍵字(或者某種程度擴(kuò)展 的字符串匹配。直接的想法就是讓計(jì)算機(jī)參與信息交流,幫助人們理解海量 信息,使得 Web 成為一個(gè)真正的知識(shí)系統(tǒng),對(duì)最終用戶實(shí)現(xiàn)所得 即所需(What you get is what you need。這就是
33、Web 創(chuàng)始人 Tim Berners-Lee于 1998年提出的 Semantic Web(語(yǔ)義 Web ,或 語(yǔ)義網(wǎng)的構(gòu)想。簡(jiǎn)言之, Semantic Web和 Web 的根本區(qū)別在于 它直接面向的對(duì)象不是人類,而是計(jì)算機(jī),發(fā)布在語(yǔ)義 Web 上的 信息應(yīng)該是機(jī)器可理解的,從而為人類提供更好的信息服務(wù)。 為了將目前無(wú)序的 Web 改造成有序的計(jì)算機(jī)可理解的知識(shí)寶 庫(kù),語(yǔ)義 Web 采用多層次的表示框架,本體位于從文檔描述到知 識(shí)推理轉(zhuǎn)折的位置, 因此本體的構(gòu)建是實(shí)現(xiàn)語(yǔ)義 Web 的關(guān)鍵環(huán)節(jié)。 所謂本體, 最著名并被引用得最為廣泛的定義是由 Gruber 提出的 “本體是概念模型的明確的規(guī)范
34、說(shuō)明 1 ” 。 通俗的講, 本體就 是用來(lái)描述某個(gè)領(lǐng)域(領(lǐng)域本體甚至更廣范圍(通用本體內(nèi) 的概念以及概念之間的聯(lián)系,使得這些概念和聯(lián)系在共享的范圍 內(nèi)有著明確唯一的定義,達(dá)成一種共識(shí),這樣人、機(jī)器之間就可 以進(jìn)行交流??梢哉J(rèn)為,最簡(jiǎn)單的本體形式有字典和分類樹,稍 微復(fù)雜一些的有數(shù)據(jù)庫(kù)的關(guān)系模式(Relational Schema等。當(dāng) 然,本體的提出并不是為了人和人之間的交流,它是希望軟件系統(tǒng)之間能夠?qū)蚕砀拍钸_(dá)成統(tǒng)一的理解,就好像為機(jī)器提供一種 用于交流的官方語(yǔ)言,從而避免雞同鴨講的情形。因此本體的建 設(shè)是一個(gè)很重要的問(wèn)題,它是語(yǔ)義 Web 的語(yǔ)義基礎(chǔ),建立不好本 體,語(yǔ)義 Web 也只是
35、空談。這顯然是一個(gè)浩大的工程,但是目前 還沒(méi)有成熟的方法論指導(dǎo), 甚至建成什么樣子也只是初步的探索。 作為一個(gè)工程,本體建設(shè)的過(guò)程中必然存在很多大量重復(fù)性的工 作,而且這些費(fèi)時(shí)費(fèi)力的工作并不是什么人都可以做的(就像字 典也不是誰(shuí)都可以編纂的,需要更多領(lǐng)域?qū)<液椭R(shí)工程師的 參與,因此開發(fā)出合適的輔助工具非常必要。作為 NSFC 資助項(xiàng)目 “通用網(wǎng)上知識(shí)編輯器及示范主題語(yǔ)義網(wǎng) 研究”的前期工作,本文著重研究領(lǐng)域本體建設(shè)的方法論和該過(guò) 程中的輔助工具。全文安排如下:第二部分著重對(duì)本體的研究現(xiàn) 狀進(jìn)行綜述,在介紹該領(lǐng)域的基本概念之后,首先提出本體研究 中的熱點(diǎn)問(wèn)題,接著針對(duì)幾個(gè)主要的熱點(diǎn)問(wèn)題進(jìn)行調(diào)研
36、,包括本 體描述語(yǔ)言、本體建設(shè)的方法論和本體建設(shè)工具;第三部分著重 研究領(lǐng)域本體建設(shè)的方法論,提出基于螺旋模型的原型法,指導(dǎo) 本體的建設(shè)過(guò)程;第四部分研究本體建設(shè)工具,從項(xiàng)目的實(shí)際需 求出發(fā),設(shè)計(jì)自己的領(lǐng)域本體建設(shè)工具,該工具最突出的特色在 于本體的協(xié)同編輯和進(jìn)化過(guò)程;接下來(lái),在原型法的指導(dǎo)下,本 文的第五部分選定經(jīng)濟(jì)學(xué)學(xué)科作為實(shí)踐領(lǐng)域,描述領(lǐng)域本體的建 設(shè)過(guò)程; 最后, 在結(jié)束語(yǔ)中總結(jié)了本文的創(chuàng)新和未來(lái)的工作建議。中國(guó)人民大學(xué)碩士學(xué)位論文 領(lǐng)域本體建設(shè)的方法論和工具研究 第二章 本體研究綜述 2.1 基本概念 1語(yǔ)義網(wǎng)(Semantic Web) 在 W3C 的網(wǎng)站上,Tim Berners
37、-Lee 等人將語(yǔ)義 Web 定義為 “語(yǔ)義 Web 是當(dāng)前 Web 的擴(kuò)展,其中的信息被賦予定義良好的 (well-defined)含義,使計(jì)算機(jī)和人能夠更好的協(xié)作。2”。 文獻(xiàn)3中生動(dòng)形象的描繪了語(yǔ)義 Web 能夠提供給人類的服務(wù)。 從 這個(gè)定義可以看出,語(yǔ)義 Web 并不是要取代現(xiàn)有的 Web,而是擴(kuò) 展。擴(kuò)展的方式是對(duì)現(xiàn)有信息進(jìn)行形式化的描述,目的是機(jī)器可 理解,以便計(jì)算機(jī)更好的提供信息服務(wù)。簡(jiǎn)單的說(shuō),語(yǔ)義 Web 就 是要給 Web 加上注釋,為了讓計(jì)算機(jī)能夠理解,這種注釋必須用 一種形式化的語(yǔ)言進(jìn)行描述,并且支持推理。為了多個(gè)系統(tǒng)之間 能夠交流,這種注釋還應(yīng)該遵循統(tǒng)一明確的詞匯表。
38、 在 Tim 的構(gòu)想中,語(yǔ)義 Web 表現(xiàn)為圖 12所示的層次結(jié)構(gòu)。 自底向上來(lái)看,第一層規(guī)定了文檔中字符的編碼方式和資源的統(tǒng) 一標(biāo)識(shí), 即 UNICODE 和 URI; 第二層, XML、 命名空間和 XML Schema, 使用自定義的標(biāo)簽對(duì)文檔的結(jié)構(gòu)進(jìn)行標(biāo)注, 規(guī)范文檔的語(yǔ)法格式, 就可以方便的利用計(jì)算機(jī)處理文檔,在統(tǒng)一模式的定義下交換文 檔。第三層,明確文檔中標(biāo)引對(duì)象之間的關(guān)系,即資源描述層 RDF+RDF Schema。RDF 定義了元素之間的關(guān)系,表現(xiàn)為元組的 4 中國(guó)人民大學(xué)碩士學(xué)位論文 領(lǐng)域本體建設(shè)的方法論和工具研究 集合(類似于句子的主語(yǔ)、謂語(yǔ)、賓語(yǔ))。XML 加上 RDF(
39、S就相 當(dāng)于建立了人工智能中的語(yǔ)義網(wǎng)絡(luò)(SEMENTIC NETWORK),可以進(jìn) 行一定的推理。使用 XML+RDFS(S,人們可以建立各自的語(yǔ)義網(wǎng), 只要有一套自成體系的術(shù)語(yǔ)就可以了。第四層,明確標(biāo)引項(xiàng)的精 確含義,要讓計(jì)算機(jī)相互理解對(duì)方的內(nèi)容,需要有一套共同的標(biāo) 準(zhǔn)的概念體系,這就是 Ontology(本體)。XML+RDF(S+Ontology 構(gòu)成了計(jì)算機(jī)相互理解的基礎(chǔ)。這樣每增加一個(gè)層次,計(jì)算機(jī)在 知識(shí)處理上就多一份能力。在本體層之上進(jìn)一步要做一些邏輯推 理的工作,接下來(lái)就是保證信息是可信賴的,這就構(gòu)成了一個(gè)多 層次的語(yǔ)義網(wǎng)。 圖 1. 語(yǔ)義網(wǎng)的層次結(jié)構(gòu) 語(yǔ)義網(wǎng)繪制的是一幅美好的藍(lán)
40、圖,最終得到一個(gè)可信任的 Web,每個(gè)人都可以在上面獲取知識(shí)、尋求幫助,就像詢問(wèn)值得信 賴的好朋友一樣。但是,和任何一項(xiàng)偉大事業(yè)一樣,前途是光明 5 中國(guó)人民大學(xué)碩士學(xué)位論文 領(lǐng)域本體建設(shè)的方法論和工具研究 的,道路是曲折的,語(yǔ)義 Web 的實(shí)現(xiàn)還是一個(gè)長(zhǎng)期的過(guò)程。 從目前的情況來(lái)看,語(yǔ)義網(wǎng)下面三層的研究已經(jīng)開展較長(zhǎng)時(shí) 間,研究成果相對(duì)較多,并推出了一系列的標(biāo)準(zhǔn),可以說(shuō)打下了 比較堅(jiān)實(shí)的基礎(chǔ)。本體層和邏輯層,正在引起更多的關(guān)注。作為 語(yǔ)義 Web 中從語(yǔ)法處理向語(yǔ)義處理的轉(zhuǎn)折,這兩層起著至關(guān)重要 的作用,相關(guān)研究正處在探索之中,已有很多有意義的嘗試和應(yīng) 用, 卻還沒(méi)有成熟的技術(shù)和標(biāo)準(zhǔn), 因此成
41、為相關(guān)領(lǐng)域的研究熱點(diǎn)。 頂部的兩層還沒(méi)有可靠論證,只是基于邏輯系統(tǒng)的一個(gè)構(gòu)想。 2本體(Ontology) Ontology1的概念起源于哲學(xué)領(lǐng)域,即“對(duì)世界上客觀存在物 的系統(tǒng)地描述 4 ”。在人工智能界,最早給出本體定義的是 Neches 等人,他們將本體定義為“給出構(gòu)成相關(guān)領(lǐng)域詞匯的基本 術(shù)語(yǔ)和關(guān)系,以及利用這些術(shù)語(yǔ)和關(guān)系構(gòu)成的規(guī)定這些詞匯外延 的規(guī)則的定義5”。 后來(lái)在信息系統(tǒng)、 知識(shí)管理等領(lǐng)域, 越來(lái)越多的人研究本體, 并給出了許多不同的定義。其中最著名并被引用得最為廣泛的定 義是由 Gruber 提出的, “本體是概念模型的明確的規(guī)范說(shuō)明1” 。 Fensel 對(duì)這個(gè)定義進(jìn)行分析后
42、認(rèn)為本體的概念包括四個(gè)主要方 面6: 概念化(conceptualization) :客觀世界中現(xiàn)象的抽象模型; 明確(explicit) :概念及它們之間聯(lián)系都被精確定義; 形式化(formal) :精確的數(shù)學(xué)描述; 1 早期多譯作“本體論” ,強(qiáng)調(diào)大寫,作為抽象名詞。后來(lái)付諸實(shí)踐,多譯作“本體” , 既代表一種概念,也代表建設(shè)好的具體本體,可以用作復(fù)數(shù)。本文采用“本體” 。 6 中國(guó)人民大學(xué)碩士學(xué)位論文 領(lǐng)域本體建設(shè)的方法論和工具研究 共享(share) :本體中反映的知識(shí)是其使用者共同認(rèn)可的。 雖然不同研究者對(duì)本體有不同的描述,但是從內(nèi)涵上來(lái)看, 他們對(duì)本體的認(rèn)識(shí)是一致的,都是把本體當(dāng)作
43、某個(gè)領(lǐng)域內(nèi)(可以 是特定領(lǐng)域的,也可以是更廣的范圍)不同主體(人、代理、機(jī) 器等)之間進(jìn)行交流(對(duì)話、互操作、共享等)的一種語(yǔ)義基礎(chǔ), 即由本體提供明確定義的詞匯表,描述概念和概念之間的關(guān)系, 作為使用者之間達(dá)成的共識(shí)。因此,本體的用途包括交流、共享、 互操作、重用等等。 目前,本體已經(jīng)被廣泛應(yīng)用于知識(shí)工程、自然語(yǔ)言處理、數(shù) 字圖書館、信息檢索和 Web 異構(gòu)信息的處理、軟件復(fù)用、面向?qū)?象技術(shù)和語(yǔ)義 Web 等領(lǐng)域31,32。 2.2 本體研究的熱點(diǎn)問(wèn)題 1本體描述語(yǔ)言 值得注意的是,機(jī)器并不能像人類一樣理解蘊(yùn)含在自然語(yǔ)言 中的語(yǔ)義,計(jì)算機(jī)最終把所有的信息都當(dāng)作 0、1 串進(jìn)行處理。而 本體
44、的目的是使信息成為機(jī)器可理解的,因此,在計(jì)算機(jī)領(lǐng)域討 論本體,首先就面臨著本體究竟是如何描述的,也就是概念的形 式化問(wèn)題。對(duì)應(yīng)的研究?jī)?nèi)容就是本體的描述語(yǔ)言。 本體描述語(yǔ)言使得用戶為領(lǐng)域模型編寫清晰的、形式化的概 念描述,因此它應(yīng)該滿足以下要求7: 良好定義的語(yǔ)法(a well-defined syntax) 良好定義的語(yǔ)義(a well-defined semantics) 7 中國(guó)人民大學(xué)碩士學(xué)位論文 領(lǐng)域本體建設(shè)的方法論和工具研究 有效的推理支持(efficient reasoning support) 充分的表達(dá)能力(sufficient expressive power) 表達(dá)的方便性
45、(convenience of expression) 2本體建設(shè)方法論 本體建設(shè)的現(xiàn)狀可以和軟件工程發(fā)展的初期類比,還處于個(gè) 人(或小團(tuán)體)的手工作坊階段。從本體的概念來(lái)看,它的本質(zhì) 要求包括概念化、明確、形式化、共享、重用等特征,可以說(shuō)工 程性是本體建設(shè)的天然屬性。并且,由于軟件工程對(duì)軟件產(chǎn)業(yè)的 形成和發(fā)展起著決定性的推動(dòng)作用,已經(jīng)有人提出了本體工程的 概念,也成為研究中的一個(gè)熱點(diǎn)問(wèn)題。 如何才能大規(guī)模的建設(shè)本體?如何集成現(xiàn)有的不同本體?如 何維護(hù)本體及其進(jìn)化過(guò)程?等等,這一系列的問(wèn)題都需要方法論 作為指導(dǎo),目前該領(lǐng)域研究還處于探索階段,沒(méi)有形成成熟的方 法論,是一個(gè)有價(jià)值的研究方向。因此
46、作者也對(duì)這個(gè)問(wèn)題進(jìn)行了 較為深入的研究,并在本文的第三部分著重論述研究成果。 3本體建設(shè)的輔助工具 本體建設(shè)不僅需要理論上的探討和研究,還必須實(shí)實(shí)在在的 構(gòu)建出本體。從人員上來(lái)看,本體建設(shè)的工作主要是領(lǐng)域?qū)<液?知識(shí)工人來(lái)做,這是一項(xiàng)非常費(fèi)時(shí)、費(fèi)力又易于出錯(cuò)的工作,也 是導(dǎo)致目前大規(guī)模建設(shè)本體的項(xiàng)目比較少的直接原因。 如何能利用軟件系統(tǒng)輔助人們構(gòu)建本體?這些軟件能在哪些 方面自動(dòng)化或者半自動(dòng)化的發(fā)揮作用?本體開發(fā)過(guò)程中如何支持 8 協(xié)同工作?不同軟件開發(fā)的本體如何集成?建設(shè)好的本體如何管 理和維護(hù)?等等也成為該領(lǐng)域亟待解決的問(wèn)題。因此設(shè)計(jì)實(shí)現(xiàn)出 靈活實(shí)用的本體建設(shè)工具具有很強(qiáng)的現(xiàn)實(shí)價(jià)值。4.本
47、體的應(yīng)用本體建設(shè)的目的是應(yīng)用,這方面的研究遍布人工智能、信息 管理、知識(shí)管理相關(guān)的各個(gè)領(lǐng)域,典型的問(wèn)題有:(1 基于語(yǔ)義的信息檢索,特別是網(wǎng)絡(luò)搜索引擎和數(shù)字化圖書 館 36,37。(2 基于本體的數(shù)據(jù)集成、機(jī)器學(xué)習(xí)等 38,39。(3 領(lǐng) 域 本 體 的 應(yīng) 用 。 比 如 , 在 生 物 信 息 學(xué) 中 已 建 成 的 GeneOntology , 盡管只包括了 partOf 等簡(jiǎn)單的關(guān)系 , 但是 對(duì)生物信息學(xué)界已經(jīng)有巨大的影響 40。(4 語(yǔ)義 Web 服務(wù) 41。(5 在線元數(shù)據(jù)管理和自動(dòng)信息發(fā)布 37。2.3 本體描述語(yǔ)言自上個(gè)世紀(jì) 90年代以來(lái),一些基于 AI 的本體實(shí)現(xiàn)語(yǔ)言陸續(xù)
48、被提出,如 KIF 、 Ontolingua 、 CycL 、 Loom , OCML , FLogic 。后 來(lái),隨著 Web 的發(fā)展,又出現(xiàn)了一系列基于 Web 的本體語(yǔ)言,也 叫做本體標(biāo)記語(yǔ)言, 如 SHOE 、 XOL 、 RDF 、 RDF-S 、 OIL 、 DAML 、 DAML +OIL 、 OWL 。2.3.1 基于 AI 的本體描述語(yǔ)言1. KIF14KIF (Knowledge Interchange Format 是由斯坦福大學(xué)開發(fā) 的。 它是一種在不同 KR 系統(tǒng)間交換知識(shí)的格式, 是基于一階邏輯 的語(yǔ)言。其特點(diǎn)是:有公開的語(yǔ)義:它不再需要專門的解釋器。在邏輯上是全面
49、的:它可以對(duì)任意的邏輯語(yǔ)句進(jìn)行表達(dá)。 提供對(duì)元知識(shí)的表現(xiàn)。2. Ontolingua4Ontolingua 是 一 種 基 于 KIF (knowledge interchange format 的, 提供統(tǒng)一的規(guī)范格式來(lái)構(gòu)建 Ontology 的語(yǔ)言。 其特 點(diǎn)是:為構(gòu)造和維護(hù) Ontology ,提供了統(tǒng)一的、計(jì)算機(jī)可讀的方 式; 由其構(gòu)造的 Ontology 可以方便地轉(zhuǎn)換到各種知識(shí)表示和推理 系統(tǒng)(Prolog 、 CORBA 的 IDL 、 CLIPS 、 LOOM 、 Epikit 、 Algernon 和 KIF ,從而將 Ontology 的維護(hù)與使用它的目標(biāo)系統(tǒng)分離。3. C
50、ycL4CycL 是 Cyc 系統(tǒng)的描述語(yǔ)言, 一種體系龐大而非常靈活的知 識(shí)描述語(yǔ)言。其特點(diǎn)是:在一階謂詞演算的基礎(chǔ)上擴(kuò)充了等價(jià)推 理、缺省推理等功能;具備一些二階謂詞演算的能力;其語(yǔ)言環(huán) 境中配有功能很強(qiáng)的可進(jìn)行推理的推理機(jī)。4. Loom4Loom 是一種基于一階謂詞邏輯的高級(jí)編程語(yǔ)言, 屬于描述邏 輯體系。其特點(diǎn)是:提供表達(dá)能力強(qiáng)、聲明性的規(guī)范說(shuō)明語(yǔ)言; 提供強(qiáng)大的演繹推理能力;提供多種編程風(fēng)格和知識(shí)庫(kù)服務(wù)。該 語(yǔ)言后來(lái)發(fā)展成為 PowerLoom 語(yǔ)言。 PowerLoom 是 KIF 的變體, 它 是 基 于 邏 輯 的 , 具 備 很 強(qiáng) 的 表 達(dá) 能 力 , 采 用 前 后 鏈 規(guī) 則 (backward and forward chain
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 冷庫(kù)買賣拆除合同范本
- 剪力墻和伸縮縫施工方案
- 亞馬遜推廣服務(wù)合同范本
- 分包電氣合同范本
- 第七章各具特色的地區(qū)教學(xué)設(shè)計(jì)2023-2024學(xué)年商務(wù)星球版地理七年級(jí)下冊(cè)
- 中英文演出合同范本
- 農(nóng)作物安全生產(chǎn)合同范本
- 加盟燕窩店合同范例
- 加工面店轉(zhuǎn)讓合同范本
- 出口篷布采購(gòu)合同范本
- 一年級(jí)下冊(cè)《讀讀童謠和兒歌》試題及答案共10套
- CHZ 3002-2010 無(wú)人機(jī)航攝系統(tǒng)技術(shù)要求(正式版)
- 免拆底模鋼筋桁架樓承板圖集
- 尋夢(mèng)環(huán)游記(Coco)中英文臺(tái)詞對(duì)照
- 重點(diǎn)關(guān)愛學(xué)生幫扶活動(dòng)記錄表
- 改革后-topik考試作文紙
- 父母委托子女保管存款協(xié)議書
- 產(chǎn)品設(shè)計(jì)與開發(fā)的系統(tǒng)工程方法
- 初中物理核心素養(yǎng)培養(yǎng)
- 預(yù)防留置針脫落
- 痛風(fēng)護(hù)理疑難病例討論
評(píng)論
0/150
提交評(píng)論