通信學(xué)論文-面向Ontology適應(yīng)性的知識發(fā)現(xiàn)模型研究.doc_第1頁
通信學(xué)論文-面向Ontology適應(yīng)性的知識發(fā)現(xiàn)模型研究.doc_第2頁
通信學(xué)論文-面向Ontology適應(yīng)性的知識發(fā)現(xiàn)模型研究.doc_第3頁
通信學(xué)論文-面向Ontology適應(yīng)性的知識發(fā)現(xiàn)模型研究.doc_第4頁
通信學(xué)論文-面向Ontology適應(yīng)性的知識發(fā)現(xiàn)模型研究.doc_第5頁
已閱讀5頁,還剩2頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

通信學(xué)論文-面向Ontology適應(yīng)性的知識發(fā)現(xiàn)模型研究【內(nèi)容提要】文章從Ontology和文獻知識發(fā)現(xiàn)出發(fā),在整理現(xiàn)有Ontology系統(tǒng)的基礎(chǔ)上,分析了其存在的問題,針對問題中關(guān)鍵的適應(yīng)性問題,提出了分層的面向Ontology的知識發(fā)現(xiàn)模型。該模型將整個Ontology系統(tǒng)分成5個層次,以適應(yīng)不停變化的世界需要。文章最后提出了與模型相關(guān)的尚未進行研究的問題。【摘要題】信息化與網(wǎng)絡(luò)化建設(shè)【關(guān)鍵詞】本體/知識發(fā)現(xiàn)/適應(yīng)性/Ontology/模型【正文】Gruber提出“Ontology是概念化的一個形式化的規(guī)格說明”。所謂概念化可以理解為一組概念(如實體、屬性、過程)及其定義和相互關(guān)系。1Borst在Gruber定義基礎(chǔ)上引入了共享概念,認(rèn)為Ontology是被共享的概念化的一個形式化的規(guī)格說明。2在目前的知識發(fā)現(xiàn)領(lǐng)域中,知識之間的語義關(guān)系得到了重視,很多研究人員都將語義網(wǎng)的概念引入到知識發(fā)現(xiàn)過程中。各領(lǐng)域的Ontology被開發(fā),各專業(yè)的概念以及概念之間的關(guān)系被揭示出來,并且被投入到知識發(fā)現(xiàn)過程當(dāng)中去,對知識發(fā)現(xiàn)過程起到了至關(guān)重要的作用,但也存在不適應(yīng)變化等諸多問題。本文嘗試從目前生物信息學(xué)和商業(yè)領(lǐng)域知識發(fā)現(xiàn)系統(tǒng)入手,分析Ontology應(yīng)用于這些系統(tǒng)時所存在的問題,并針對這些問題提出一個適應(yīng)變化的基于Ontology的知識發(fā)現(xiàn)模型。1Ontology在知識發(fā)現(xiàn)領(lǐng)域中的應(yīng)用目前Ontology應(yīng)用廣泛,本文僅從生物信息學(xué)和商業(yè)領(lǐng)域?qū)贠ntology的知識發(fā)現(xiàn)系統(tǒng)進行研究,并提出應(yīng)用中存在的問題。1.1PadminiSrinivasan的基于文獻的知識發(fā)現(xiàn)方法基于文獻的知識發(fā)現(xiàn)方法最早是由Swanson提出,其目標(biāo)是通過挖掘文獻數(shù)據(jù)庫(如MEDLINE)發(fā)現(xiàn)概念和概念之間新的、潛在的、有意義的關(guān)系。3PadminiSrinivasan在Swanson的基礎(chǔ)上將基于文獻的知識發(fā)現(xiàn)的算法進行了改進。4他們使用了超越簡單詞頻統(tǒng)計范圍的詞頻權(quán)重,并且采用了基于UMLS語義過濾篩選機制,他們的研究算法還利用了文獻的元數(shù)據(jù)來代表文獻的主題。由于元數(shù)據(jù)是概念集合,所以可以利用元數(shù)據(jù)將非結(jié)構(gòu)化的文本生成結(jié)構(gòu)化的數(shù)據(jù),對非結(jié)構(gòu)化文本的復(fù)雜挖掘方法就簡化為對結(jié)構(gòu)化文本的知識挖掘。圖1面向ontology適應(yīng)性的知識發(fā)現(xiàn)模型1.2IBMMedTAKMI的知識發(fā)現(xiàn)IBM開發(fā)的用于挖掘生物醫(yī)學(xué)知識的軟件MedTAKMI利用醫(yī)學(xué)Ontology對生物醫(yī)學(xué)文獻數(shù)據(jù)庫進行動態(tài)和交互式挖掘。5它使用自然語言處理技術(shù)抽取深層次的生物醫(yī)學(xué)概念,對生物醫(yī)學(xué)概念(基因、蛋白質(zhì)、疾?。┑某槿∈悄壳盎谖墨I的知識發(fā)現(xiàn)領(lǐng)域中研究活躍的領(lǐng)域之一,在MedTAKMI系統(tǒng)中實現(xiàn)知識挖掘功能的主要為信息抽取和實體關(guān)系挖掘這兩個部分,其中實體抽取是對生物醫(yī)學(xué)文獻中基因、蛋白質(zhì)、化學(xué)物質(zhì)名稱的識別;關(guān)系抽取是抽取這些實體之間的關(guān)系。1.3GenesTrace基于整合Ontology的知識發(fā)現(xiàn)GenesTrace系統(tǒng)充分利用了UMLS、GeneOntology(GO)、GeneOntology相關(guān)數(shù)據(jù)庫(GODB)所提供的知識資源,將UMLS中的疾病概念與GO相關(guān)數(shù)據(jù)庫(GODB)中的基因產(chǎn)品相關(guān)聯(lián)起來,其中對UMLS和GeneOntology的整合是非常重要的一部分。6GenesTace的知識發(fā)現(xiàn)主要是借助整合的Ontology,并根據(jù)概念之間的共性關(guān)系,挖掘出新的知識。1.4UNSPESC中的知識發(fā)現(xiàn)DingYing利用UNSPSC(TheUnitedNationsStandardProductsandServicesCode)對非結(jié)構(gòu)化的文本數(shù)據(jù)進行挖掘。7當(dāng)然,在獲取商業(yè)知識的過程中,僅僅使用UNSPSC是完全不夠的,必須根據(jù)不同的需求,重用UNSPSC開發(fā)、界定適合各自需求的詞表、屬性和關(guān)聯(lián)規(guī)則,構(gòu)建面向應(yīng)用的商業(yè)Ontology。2存在的主要問題以上這些Ontology用不同的語言和系統(tǒng)開發(fā),概念的定義缺乏統(tǒng)一性,概念的等級關(guān)系也存在著混亂性,例如在生物醫(yī)學(xué)領(lǐng)域中,UMLS的基因類目和GeneOntology就存在著很大的不同。另外在競爭情報領(lǐng)域,有專門的進行網(wǎng)絡(luò)信息搜集的公司,信息被保存在專業(yè)的市場行情數(shù)據(jù)庫中,這些公司也為用戶提供各種知識挖掘的服務(wù),為了有效地進行知識發(fā)現(xiàn),他們也開發(fā)了適合競爭情報服務(wù)的Ontology來幫助確定不同公司之間的關(guān)系。目前在挖掘不同領(lǐng)域的知識的時候,出現(xiàn)了許多問題,主要表現(xiàn)在以下兩個方面:(1)現(xiàn)有的Ontology的整合方法并不完善。在前面介紹的Ontology在知識發(fā)現(xiàn)中的應(yīng)用中,可以看出研究人員已經(jīng)開始了進行Ontology的整合,現(xiàn)有Ontology的整合方式主要是將其它的Ontology直接按照某種規(guī)則移植進到一個相對全面的Ontology中,如GeneOntology與UMLS之間的整合。經(jīng)過整合后的中間集合的Ontology在語法、句法和各種規(guī)則上是相容的,各個Ontology之間是保持相對獨立的,對這些不兼容的Ontology采用不同的語言、不同的句法、不同的表現(xiàn)方式。生物醫(yī)學(xué)在知識發(fā)現(xiàn)方面,是一個特殊的領(lǐng)域,由美國國家醫(yī)學(xué)圖書館開發(fā)的UMLS包含了幾十個專業(yè)的詞表,并建立了各種概念之間的映射關(guān)系,是一個比較全面的Ontology,在生物醫(yī)學(xué)領(lǐng)域已經(jīng)被當(dāng)作公認(rèn)的Ontology,但是在其他領(lǐng)域,如商業(yè)領(lǐng)域同樣也包含了大量的面向不同應(yīng)用的Ontology,對這些Ontology的整合成為商業(yè)知識挖掘領(lǐng)域亟待解決的問題。Chimaera在這方面提供了一些有效的解決方案。8。(2)Ontology缺乏適應(yīng)性。隨著科學(xué)技術(shù)的快速發(fā)展,在各個領(lǐng)域產(chǎn)生了大量的新概念,那么為了充分挖掘各個領(lǐng)域的新知識,必須及時掌握各個領(lǐng)域的新的概念。現(xiàn)有的大部分Ontology都沒有適應(yīng)環(huán)境變化的要求對詞表和詞間的關(guān)系進行及時的更新。雖然UMLS現(xiàn)在已經(jīng)出版了幾版,但是這種更新速度是無法滿足各領(lǐng)域知識發(fā)掘的需要,所以O(shè)ntology的動態(tài)更新是進行知識發(fā)現(xiàn)的必要條件。另外一方面也表現(xiàn)出了Ontology缺乏穩(wěn)定性,過于頻繁的變化也會影響Ontology在知識發(fā)現(xiàn)中的應(yīng)用,從發(fā)展的角度衡量動態(tài)性和穩(wěn)定性也是Ontology發(fā)展過程中急需重視的問題之一。3面向Ontology適應(yīng)性的知識發(fā)現(xiàn)模型構(gòu)建為了適應(yīng)“變化”的需要,需要用一個能隨時改變業(yè)務(wù)流程和Ontology實體內(nèi)容的模型。本文嘗試就適應(yīng)性問題提出一個分層解決方案。如圖1所示,該圖展示了一種面向Ontology適應(yīng)性的知識發(fā)現(xiàn)模型。在該模型中,最高層為知識發(fā)現(xiàn)表示層,該層將知識發(fā)現(xiàn)以一定的方式表示,該表示應(yīng)為該模型系統(tǒng)可讀的。第二層為規(guī)則層或者知識發(fā)現(xiàn)過程層,在該層將知識發(fā)現(xiàn)的過程分解為各個活動,各個活動通過與Ontology實體層的互動來實現(xiàn)活動的功能,知識發(fā)現(xiàn)的完成依賴于全部活動的完成。針對不同的需求,通過重組活動,可以獲得不同的知識發(fā)現(xiàn)過程以適應(yīng)不同的實際需要。Ontology實體單獨成為一個層,該層通過接口與規(guī)則層和實現(xiàn)層實現(xiàn)訪問和調(diào)用。Ontology實體層可以實現(xiàn)對Ontology實體的即使插拔操作,只要按照規(guī)定好的接口描述Ontology實體,就可以將Ontology實體加入到以該模型為實現(xiàn)基礎(chǔ)的系統(tǒng)中,這樣可以方便地對Ontology實體進行增、刪、改操作,以適應(yīng)Ontology不斷變化的實際情況。實現(xiàn)層為Ontology實體和活動提供具體的實現(xiàn)支持,該層可以通過調(diào)用已存在的對象來簡化實現(xiàn),可以用不同的實現(xiàn)方式來實現(xiàn)同一功能。表示與實現(xiàn)的分開,可以在實現(xiàn)細節(jié)需要改變時無需更動系統(tǒng)框架,在不影響系統(tǒng)運行的情況下實現(xiàn)改變。對象層存放各個領(lǐng)域已開發(fā)的成熟對象、免費對象或自主開發(fā)的對象,該層主要對實現(xiàn)層進行對象調(diào)用的支持。在以上分層知識發(fā)現(xiàn)模型中,適應(yīng)變化是其一個最重要的特征,當(dāng)知識發(fā)現(xiàn)過程、Ontology實體、實現(xiàn)或?qū)ο蟀l(fā)生變化時,無需對整個系統(tǒng)進行更改,只需要在不影響整個系統(tǒng)的情況下對各個單獨的層進行相應(yīng)的更改即可。該適應(yīng)性也很好地體現(xiàn)了系統(tǒng)的可擴展性,新的需求可以很方便地增加到系統(tǒng)中。4總結(jié)基于文獻的知識發(fā)現(xiàn)方法從20世紀(jì)80年代被Swanson提出之后,很多研究人員都投身到知識發(fā)現(xiàn)領(lǐng)域中,并對Swanson的知識發(fā)現(xiàn)方法進行了改進。但各個領(lǐng)域的基于Ontology的文獻知識發(fā)現(xiàn)系統(tǒng)也存在不少問題,文本僅嘗試對系統(tǒng)的適應(yīng)性問題提出一個可能的解決模型,在該方案中,尚未對知識發(fā)現(xiàn)表示的方法、統(tǒng)一Ontology接口描述等問題進行研究,這些問題有待于進一步研究?!緟⒖嘉墨I】1ThomasRGruber.Ontolingua:ATranslationApproachtoPotableOntologySpecification.KnowledgeAcquisition,1993,5(2):199-2002BomtWN.ConstructionofEngineeringOntofogiesforKnowledgeSharingandReuse.PhDThesis,Enschede:UniversityofTwente,19973SwansonDR.Fishoil,Raynaudssyndrome,andundiscoveredpublicknowledge.PerspectivesinBiologyandMedline,1986,30(1):184PadminiSrinivasan.TextMining:GeneratingHypothesesFromMEDLINE.JASIST,2004,55(5):396-4135NUramoto.AText-miningSystemforKnowledgeDiscoveryfromBiomedicalDocuments.IBMSYSTEMSJOURNAL,2004,43(3):516-5336AnandKumar,BarrySmith.TheUnifiedMedicalLanguageSystemandtheGeneOntol

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論