




已閱讀5頁,還剩56頁未讀, 繼續(xù)免費閱讀
(模式識別與智能系統(tǒng)專業(yè)論文)一種基于邏輯的數(shù)據(jù)集成系統(tǒng)研究與實現(xiàn).pdf.pdf 免費下載
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
中田科學技術(shù)人學壩l j 論文種基于邏輯的數(shù)據(jù)集成系統(tǒng)研究與實現(xiàn) 摘要 如何充分利用現(xiàn)有各類應(yīng)用產(chǎn)生的數(shù)據(jù)資源,即如何在高度異構(gòu)的企業(yè)應(yīng)用環(huán)境下,建 立信息集成應(yīng)用系統(tǒng),為管理決策服務(wù),是當前企業(yè)信息化系統(tǒng)建毆發(fā)展的一個重點方向。 但這涉及數(shù)據(jù)規(guī)范、數(shù)據(jù)表示、數(shù)據(jù)分析,以及數(shù)據(jù)表現(xiàn)等諸多復雜的技術(shù)難題。從國內(nèi)外 這幾年在實施電子商務(wù)、e r p 或應(yīng)用集成等大型項目系統(tǒng)的效果看,僅基于傳統(tǒng)的數(shù)據(jù)庫 技術(shù),或僅依靠傳統(tǒng)軟件能力的提高,如采用組件、中間件或采用一些先進的軟件工具,來 實施數(shù)據(jù)集成,效果并不理想。在面向密集型數(shù)據(jù)或信息處理為核心應(yīng)用的領(lǐng)域,引進人工 智能的思想和方法,為解決傳統(tǒng)數(shù)據(jù)庫技術(shù)的缺】i f j 及傳統(tǒng)軟件能力的不足提供了一種新的手 段和方法。作為一種知識表達語言,描述邏輯( d e s c r i p t i o nl o g i c ,d l ) 早已被廣泛應(yīng)用于人工 智能、知識工程等領(lǐng)域,用作捕捉基于對象的概念知識之形式表示語言。將d l 應(yīng)用丁| 信息 集成領(lǐng)域,是目前數(shù)據(jù)集成應(yīng)用研究的一個新方向。該應(yīng)用的基本技術(shù)特點是:1 ) 用d l 描述數(shù)據(jù)集成系統(tǒng)的中介模式,并作為系統(tǒng)的信息使用入口;2 ) 利用d l 的有效推理服務(wù), 推理概念模式中概念間的包含關(guān)系層次結(jié)構(gòu)和相互關(guān)系,由此來輔助檢查概念模式的合理 性;3 ) 將d l 的推理服務(wù)用于支持數(shù)據(jù)集成系統(tǒng)的查詢處理任務(wù)。顯然,將d l 用于數(shù)據(jù) 集成,具有很大的技術(shù)優(yōu)勢,不僅有助于向用戶提供直觀、抽象和知識化的統(tǒng)一接口,而且 也為數(shù)據(jù)集成查詢處理提供了一種新的技術(shù)手段。 本論文工作,是項目小綢目前正在研發(fā)的“基于描述邏輯的數(shù)據(jù)集成系統(tǒng)”項目中的一 部分,主要包括基于d l 的中介模式管理和基于移動代理的數(shù)據(jù)抽取兩部分。在我們的集成 方案中,中介模式是應(yīng)用域概念術(shù)語知識和事實知識( 對象成員斷言知識) 的集合,它們構(gòu) 成了所謂的d l 知識庫。本文工作在這一部分的工作,主要是設(shè)計了一個以圖形界面方式工 作的d l 知識庫管理工具,可以很方便地編輯指定的d l 知識庫中的概念、角色、個體和斷言 ! j _ j 屬關(guān)系。它可以與d l 推理機交互,并利川d l 的推理服務(wù),計算知識庫中概念的滿足性以 及概念間的包含關(guān)系和層次結(jié)構(gòu)。 數(shù)據(jù)抽取是數(shù)據(jù)集成系統(tǒng)的一個基本環(huán)節(jié)。在復雜的網(wǎng)絡(luò)環(huán)境下,采用需要持續(xù)連接的 o d b c 、或遠程過程調(diào)用( r p c ) 等傳統(tǒng)的數(shù)據(jù)鏈接存取技術(shù),對網(wǎng)絡(luò)連接的穩(wěn)定性、帶寬要 求很高,無法克服抽取過程中經(jīng)常存在的大量冗余數(shù)據(jù)傳輸問題,網(wǎng)絡(luò)適應(yīng)能力很差。而采 用h t t p 協(xié)議結(jié)合x m l 技術(shù)來抽取數(shù)據(jù),雖然很靈活、網(wǎng)絡(luò)適應(yīng)能力也很好,但當主要針對 數(shù)據(jù)庫為數(shù)據(jù)源、需要抽取大量結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用場合時,也存在傳輸數(shù)據(jù)量大、抽取效率 低和組織困難等問題。而移動a g e n t 是基于代碼移動理論,它的基本思想是把計算過程移動數(shù) 據(jù)本地而不是把數(shù)據(jù)移動到計算本地,傳輸?shù)氖羌庸そY(jié)果而不是原始的相關(guān)數(shù)據(jù)。因此,從 本質(zhì)上,它能很好適應(yīng)復雜網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)抽取應(yīng)用,而且具有平臺無關(guān)特性。本文提出 并初步實現(xiàn)了一種基于移耐j a g e n t 技術(shù)的數(shù)據(jù)抽取解決方案:d a t ae x t r a c t i o nu s i n ga g e n t ,它 具有如r 一些特色:1 ) 與平臺無關(guān)性:2 ) 對網(wǎng)絡(luò)質(zhì)量要求較低;3 ) 1 1 有效節(jié)約網(wǎng)絡(luò)帶寬:4 ) 部署和維護代價比較低;5 ) 具有很好的分布并行計算能力和較高的抽取效率。 關(guān)鍵字:數(shù)據(jù)集成:描述邏輯;中介模式;自動推理;數(shù)據(jù)抽?。阂苿哟?中國科學技術(shù)大學碩士論文種基于邏輯的數(shù)據(jù)集成系統(tǒng)研究與實現(xiàn) a b s t r a c t h o wt om a k ef u l lu s eo fe x i s t i n gd a t ar e s o u r c e sg e n e r a t e db yv a r i o u sa p p l i c a t i o n sn a m e l y h o wt ob u i l di n f o r m a t i o ni n t e g r a t i o ns y s t e mu n d e rh i g hh e t e r o g e n e o u se n v i r o n m e n to fe n t e r p r i s e a p p l i c a t i o na n dt os e r v em a n a g e m e n td e c i s i o n - m a k i n gi sa ni m p o r t a n tr e s e a r c hd i r e c t i o no ft h e c u r r e n te n t e r p r i s ei n f o r m a t i o n i z a t i o nc o n s t r u c t i o n b u ti ti n v o l v e sm a n yc o m p l e xt e c h n o l o g i c a l p r o b l e m ss u c ha sd a t ac r i t e r i o n ,d a t ae x p r e s s i o n ,d a t aa n a l y s i s ,d a t ae x h i b i t i o n ,e t c a c c o r d i n gt o t h ep r a c t i c eo ft h e i m p l e m e n t a t i o no fi a r g ep r o j e c t s s u c ha se b u s i n e s s ,e r ei n f o r m a t i o n i n t e g r a t i o ns y s t e ma n ds oo ni nr e c e n ty e a r s ,t h ee f f e c to fi m p l e m e n t a t i o no f d a t ai n t e g r a t i o ni sn o t p e r f e c t ,o n l yb a s i n g o nt r a d i t i o n a ld a t a b a s e t e c h n o l o g y o rr e l y i n go nt r a d i t i o n a l s o f t w a r e t e c h n o l o g yi m p r o v e m e n t ,s u c ha st h eu s eo fc o m p o n e n t s ,m i d d l e w a r eo ru s i n ga d v a n c e ds o f t w a r e t o o l st h ei n t r o d u c t i o no ft h ei d e a sa n dm e t h o d so fa r t i f i c i a li n t e l l i g e n c et ot h ea p p l i c a t i o nf i e l d w h o s ek e m e | i si n t e n s i v ed a t aa n di n f o r m a t i o no r i e n t e dp r o c e s s i n gp r o v i d e san e wm e a n st os o l v e t h ed e f i c i e n c i e so ft r a d i t i o n a ld a t a b a s e t e c h n o l o g ya n d s o f t w a r et e c h n o l o g y a sak n o w l e d g e e x p r e s s i o nl a n g u a g e ,d e s c r i p t i o nl o g i c ( d l ) h a sb e e nw i d e l ya p p l i e df o ra r t i f i c i a li n t e l l i g e n c e , k n o w l e d g ee n g i n e e r i n g ,a n do t h e rf i e l d s ,u s e da saf o r m a le x p r e s s i v el a n g u a g et oc a t c ho nt h e c o n c e p tk n o w l e d g eb a s e d o no b j e c t i ti san e wd i r e c t i o nf o rd a t ai n t e g r a t i o nr e s e a r c ht oa p p l yd l t ot h ef i e l do fi n f o r m a t i o ni n t e g r a t i o n t h et e c h n o l o g yh a sm a n yb a s i cc h a r a c t e r i s t i c s :1 ) u s i n g d lt od e s c r i b et h em e d i a t e ds c h e m ao fd a t ai n t e g r a t i o ns y s t e m ,a n du s i n gi ta st h ee n t r a n c eo f i n f o r m a t i o ns y s t e m 2 ) u s i n gt h ee f f e c t i v er e a s o n i n gs e r v i c e so f d lt oc o m p u t ei n c l u s i v er e l a t i o n s a n dl e v e ls t r u c t u r eb e t w e e nc o n c e p t si nt h ec o n c e p tm o d e l ,t os u p p o r tc h e c k i n gt h er a t i o n a l i t yo f c o n c e p tm o d e l 3 ) u s i n gt h er e a s o n i n gs e r v i c e so f d lt os u p p o r tt h eq u e r yt a s ko f d a t ai n t e g r a t i o n s y s t e m a p p a r e n t l y ,i th a sg r e a tt e c h n o l o g i c a la d v a n t a g e su s i n gd li nd a t ai n t e g r a t i o ns y s t e m i t n o to n l yh e l p st op r o v i d eu s e r sw i t hv i s u a l ,a b s t r a c ta n di n t e l l e c t i v eu n i f i e di n t e r f a c e ,b u ta l s o p r o v i d e san e wm e a n sf o rq u e r yp r o c e s s i n gi ni n f o r m a t i o ni n t e g r a t i o ns y s t e m t h ea i mo ft h i sp a p e ri sp a r to ft h e ”d a t ai n t e g r a t i o ns y s t e mb a s e do nt h ed e s c r i p t i o nl o g i c ” p r o j e c tt h a to u rg r o u pa r ed e v e l o p i n g i tm a i n l yc o n t a i n st w op a r t s :t h em a n a g e m e n tm o d u l eo f m e d i a t e ds c h e m ab a s e do nd la n dd a t ae x t r a c t i o nm o d u l eb a s e do nm o b i l ea g e n t i no u rd a t a i n t e g r a t i o nr e s o l u t i o n ,m e d i a t e ds c h e m ai st h es e to fc o n c e p tt e r m i n o l o g yk n o w l e d g ea n df a c t s k n o w l e d g e ( o b j e c ta s s e r t i o nk n o w l e d g e ) i nt h ea p p l i c a t i o nd o m a i n ,a l l o fw h i c hc o n s t i t u t et h e s o - c a l l e dd lk n o w l e d g eb a s e i nt h i sp a r to ft h ep a p e r , m a i na i mi st od e s i g nam a n a g e m e n tt o o l f o rd lk n o w l e d g eb a s e ,w h i c hc a ne d i tc o n c e p t ,r o l e ,i n d i v i d u a la n da x i o mi na na p p o i n t e dd l k n o w l e d g eb a s ec o n v e n i e n t l y , a n dc a nc o m m u n i c a t ew i t hd lr e a s o n e rt om a k et h ec o n s i s t e n c y c h e c k s g e n e r a t ei n h e r i t a n c er e l a t i o n sb e t w e e nt h ec o n c e p t sa n ds oo n i tc a ni n t e r a c t 、v j t l ld l r e a s o n e r ,a n dm a k e su s eo fr e a s o ns e r v i c ep r o v i d e d b yd lt oc h e c kw h e t h e rc o n c e p t i n k n o w l e d g eb a s ei ss a t i s f i a b l ea n dc o m p u t et h eh i b e r a r c h yo fi n c l u s i v er e l a t i o nb e t w e e nc o n c e p t s a d a t ae x t r a c t i o ni sab a s i c p r o c e s s i nd a t a i n t e g r a t i o ns y s t e m i n c o m p l e xn e t w o r k e n v i r o n m e n t s ,t h et r a d i t i o n a l d a t al i n k i n ga n d v i s i t i n gt e c h o l o g i e ss u c h a so d b cn e e d i n g c o n t i n o u sc o n n e c t i o n sa n dr e m o t ep r o c e d u r ec a , ( p p c ) h a v eh i g hd e m a n d sf o r t h es t a b i i t yo ft h e n e t w o r kc o n n e c t i o na n db a n d w i d t h ,a n dc a r ln o to v e r c o m et h er e g u l a rl a r g er e d u n d a n td a t a t r a n s m i s s i o np r o b l e md u r i n ge x t r a c t i o n h a v ep o o rn e t w o r ka d a p t a b i l i t y u s i n gh t t pp r o t o c o lt o e x t r a c td a t ac o m b i n i n gx m lt e c h n o l o g yi sv e r yf l e x i b l ea n dh a sg o o dn e t w o r ka d a p t a b i l i t y ,b u t t h e r ea r et h ep r o b l e m ss u c ha sl a r g ev o l u m ed a t at r a n s m i s s i m ) ,l o we f f i c i e n c ya n dd i f f i c u l t i e st o o r g a n i z ew h e nm a i n l yi nt h ea p p l i c a t i o nf i e l d su s i n gd a t a b a s ea sd a t as o u r c ea n dh a v i n gl a r g e 中國科學技術(shù)大學碩士論文 一種基于邏輯的數(shù)據(jù)集成系統(tǒng)研究與實現(xiàn) s t r u c t u r e dd a t at ob ee x t r a c t e dm o b i l ea g e n ti sb a s e do nt h et h e o r yo f c o d em o v e m e n t ,i t sb a s i c i d e ai sm o v i n gt h ec o m p u t i n gt ot h el o c a t i o no fd a t ar a t h e rt h a nm o v i n gt h ed a t at ot h el o c a t i o no f c o m p u t i n g ,o n l yp r o c e s s e dr e s u l t r a t h e rt h a nt h ep r i m a r ya n dr e l e v a n t d a t ab e i n gt r a n s m i t t e d t h e r e f o r e ,e s s e n t i a l l y ,i tc a nw e l la d a p tt oa p p l i c a t i o no f d a t ae x t r a c t i o ni nc o m p l e xn e t w o r k k e y w o r d s :d a t ai n t e g r a t i o n ,d e s c r i p t i o nl o g i c ,m e d i a t e ds c h e m a , a u t o m a t e dr e a s o n i n g ,d a t a e x t r a c t i o n ,m o b i l ea g e n t 中國科學技術(shù)大學碩士論文 種基于邏輯的數(shù)據(jù)集成系統(tǒng)的研究和實現(xiàn) 1 1 研究背景及其意義 第一章緒論 經(jīng)過多年的信息化系統(tǒng)建設(shè),我國許多大中型企業(yè)都逐步建立了各類信息管理系統(tǒng),以 及自動化的數(shù)據(jù)采集系統(tǒng)。這些系統(tǒng)的應(yīng)用,不僅對企業(yè)規(guī)范管理和工作效率的提高起到了 很好的促進作用,而且也為企業(yè)積累了豐富的數(shù)據(jù)資料。但是,由于這些現(xiàn)有應(yīng)用系統(tǒng)大都 是由不同廠商用不同的技術(shù)平臺實施的,基本上都屬_ r 分立運行、異構(gòu)自治的系統(tǒng),數(shù)據(jù)資 料分散且存在一定的沖突和不一致,數(shù)據(jù)共享和數(shù)據(jù)資源的再利用率很低。目前,企業(yè)中應(yīng) 用環(huán)境異構(gòu)體現(xiàn)在多個方面,如地理分布不同、軟硬件平臺系統(tǒng)不同、或數(shù)據(jù)模式異構(gòu),既 可能有傳統(tǒng)的關(guān)系數(shù)據(jù)庫或面向?qū)ο髷?shù)據(jù)庫等結(jié)構(gòu)化數(shù)據(jù)源,也可能有e x c e l 電子表格、e d l 文檔和網(wǎng)頁等以文件形式存放的半結(jié)構(gòu)化數(shù)據(jù)。 企業(yè)中這種各個系統(tǒng)各白孤立運行的現(xiàn)象,目前被形象成為“信息孤島”?!靶畔⒐聧u” 究其根源是由于不同應(yīng)用系統(tǒng)間,尤其是不同部門間的數(shù)據(jù)信息不能共享,企業(yè)中設(shè)計、管理 和生產(chǎn)等不同職能部門之間不能進行有效的信息交流。主要問題表現(xiàn)包括:有些信息需要在 不同的系統(tǒng)中重復輸入;信息存在很大的冗余;有大量的垃圾信息;信息交換的一致性無法 保證。“信息孤島”的問題已經(jīng)嚴重地阻礙了企業(yè)信息化建設(shè)的整體進程,企業(yè)越來越多的 高級應(yīng)用或高層管理輔助決策,都需要對這些分布、異構(gòu)的各種數(shù)據(jù)資源進行整合,實現(xiàn)全 局、統(tǒng)一和高效的訪問。因此,目前如何充分利用這些異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)資源,建立信息 集成應(yīng)用系統(tǒng),為管理決策服務(wù),已成為當前企業(yè)信息化發(fā)展的新方向。構(gòu)建集成應(yīng)用的基 本目標是:在不影響現(xiàn)有應(yīng)州運行的情況1 f 集成這些應(yīng)用所產(chǎn)生的數(shù)據(jù)資料,并為用戶建 立一個一致且方便的信息使用入口,使用戶不必再去直接面對各類數(shù)據(jù)組織異構(gòu)、操縱使用 繁雜的應(yīng)用系統(tǒng)。 1 2 數(shù)據(jù)集成的研究現(xiàn)狀 1 2 1 數(shù)據(jù)集成方法概述 數(shù)據(jù)集成是對各種異構(gòu)數(shù)據(jù)提供統(tǒng)一的表示、存儲和管理,這些功能在異構(gòu)數(shù)據(jù)集成系 統(tǒng)中實現(xiàn)。數(shù)據(jù)集成屏蔽了各種異構(gòu)數(shù)據(jù)間的差異通過異構(gòu)數(shù)據(jù)集成系統(tǒng)進行統(tǒng)一操作。 中國科學技術(shù)大學碩士論文一種基于邏輯的數(shù)據(jù)集成系統(tǒng)的研究和實現(xiàn) 因此,集成后的異構(gòu)數(shù)據(jù)對用戶來說是統(tǒng)一的和無差異的。數(shù)據(jù)集成技術(shù)的研究始于七十年 代中期,至今已有二十多年了。從開始的多數(shù)據(jù)庫集成發(fā)展到現(xiàn)在的異構(gòu)數(shù)據(jù)源集成,數(shù) 據(jù)集成的范同和作用都在不斷擴大。 a m i tp s h e t h l 2 1 提出數(shù)據(jù)集成的發(fā)展可大約分為三個階段: i 7 0 年代n 8 0 年代中期:出現(xiàn)的主要技術(shù)有多數(shù)據(jù)庫系統(tǒng)和聯(lián)邦數(shù)據(jù)庫系統(tǒng),重點在于使 有著不同軟硬件設(shè)備的計算機系統(tǒng)進行互連和通信,解決了一定程度上的語法和結(jié)構(gòu) 異構(gòu),實現(xiàn)了地理分布、數(shù)據(jù)模式等的透明性,主要的產(chǎn)品有u n i s q l m ( u n i s q l ) 、 m e r m a i n 、d a t a l o i n e r ( i b m ) , f ( 1 0 m n i c o n n e c t ( s y b a s e ) 。 i i 8 0 年代中期到9 0 年代中期:隨著網(wǎng)絡(luò)的出現(xiàn)、i n t e r n e t 的發(fā)展以及多種類型的數(shù)據(jù)的形 成( 包括結(jié)構(gòu)化數(shù)據(jù)庫、半結(jié)構(gòu)化數(shù)據(jù)、數(shù)字多媒體等) ,出現(xiàn)了一些支持多種類型的 異構(gòu)數(shù)據(jù)集成的技術(shù),如m e t a d a t a 、m e d i a t o r 、中間件等,主要的系統(tǒng)有t s i m m i s 、 g a r l i c 、s 1 m s 、h e r m e s 和l n f o s l e u t h 等。 越9 0 年代中期到現(xiàn)在這個階段比較關(guān)注數(shù)據(jù)集成過程中的語義異構(gòu)的解決問題,更多的 運用知識領(lǐng)域的有關(guān)技術(shù)。主要有信息的智能集成、數(shù)字化圖書館等。 綜合這幾個階段的發(fā)展,期間出現(xiàn)的技術(shù)大致可分為以下兩類: ( 1 ) 虛擬視圖法:其中包括聯(lián)邦數(shù)據(jù)庫系統(tǒng)和中介系統(tǒng)。 聯(lián)邦數(shù)據(jù)庫系統(tǒng):是數(shù)據(jù)庫集成的最簡單結(jié)構(gòu)。它的構(gòu)成方式是將所有組件數(shù)據(jù)庫進 行一對一的連接,這種方式的數(shù)據(jù)集成是一個n 維問題。如果存在n 個數(shù)據(jù)庫,則每 個數(shù)據(jù)庫都需要與其它n 一1 個數(shù)據(jù)庫實現(xiàn) 互操作,即如果你有n 個不同的系統(tǒng)或數(shù) 據(jù)源需要集成,你就需要建立n ( n 一1 ) 個不 同的數(shù)據(jù)交互接口( 接近n 的二次方) ,開 發(fā)者就必須編寫n ( n - 1 ) 段代碼來支持兩 兩之間的查詢訪問。對于大的公司,n 可 能上百位,則n 的二次方則會超過1 0 0 0 0 , 這看起來是個不可能的問題,所以聯(lián)邦數(shù) 據(jù)庫集成系統(tǒng)適合于自治數(shù)據(jù)庫的數(shù)量 比較小的情況。聯(lián)邦數(shù)據(jù)庫系統(tǒng)的體系結(jié)構(gòu)如圖1 1 所示 中國科學技術(shù)大學碩士論文一種基于邏輯的數(shù)據(jù)集成系統(tǒng)的研究和實現(xiàn) 根據(jù)對聯(lián)邦數(shù)據(jù)庫的控制及操作方式,可以將聯(lián)邦數(shù)據(jù)庫分為松耦合聯(lián)邦數(shù)據(jù)庫和緊耦 臺聯(lián)邦數(shù)據(jù)庫。松耦合聯(lián)邦數(shù)據(jù)庫沒有全局數(shù)據(jù)模式存在,用戶必須通過特定的多數(shù)據(jù)庫操 作語言及自己對聯(lián)邦的定義、維護來實現(xiàn)數(shù)摒運營,這樣聯(lián)邦數(shù)據(jù)庫中的各數(shù)據(jù)庫就更具有 自治性。緊耦合聯(lián)邦數(shù)據(jù)庫擁有全局數(shù)據(jù)模式和全局數(shù)據(jù)庫管理員,由管理員負責創(chuàng)建和維 護全局數(shù)據(jù)模式,并向州戶提供統(tǒng)一的數(shù)據(jù)操縱接口,由于全局模式耍解決邏輯上的異構(gòu), 就需要領(lǐng)域?qū)<覜Q定數(shù)據(jù)庫模式間的對應(yīng)關(guān)系,所以不易增加或刪除系統(tǒng)中的數(shù)據(jù)庫。根據(jù) 全局模式的數(shù)量可以將緊耦臺聯(lián)邦數(shù)據(jù)庫分為單聯(lián)邦數(shù)據(jù)庫和多聯(lián)邦數(shù)據(jù)庫。單聯(lián)邦數(shù)據(jù)庫 只有一個全局模式存在而多聯(lián)邦數(shù)據(jù)庫則可以為不同用戶群建立多個全局模式。 中介系統(tǒng):一種軟件構(gòu)件,通過提供所有異構(gòu)數(shù)據(jù)源的虛擬視圖進行集成。數(shù)據(jù)源可 以是數(shù)據(jù)庫、遺留系統(tǒng)( 1 e g a c ys y s t e m ) ,w e b 數(shù)據(jù)源等。這種集成方式與數(shù)據(jù)倉庫中使 用物化方法集成數(shù)據(jù)源的方式相似,但它不存儲任何實際數(shù)據(jù)。系統(tǒng)提供給用戶一個 全局模式( 也稱為中介模式) ,用戶針對全局模式提交查詢而不必知道數(shù)據(jù)源的位置、 模式和訪問方法,系統(tǒng)將用戶查詢翻譯成一個或多個對數(shù)據(jù)源的查詢。然后將數(shù)據(jù)源 的查淘結(jié)構(gòu)進行綜合處理,并將它返回給用戶。中介系統(tǒng)中的數(shù)據(jù)源是完全自治的, 可以容易地增加或刪除數(shù)據(jù)源。中介系統(tǒng)一般由一個中介器和多個包裝器( w r 印p e r ) 組成。包裝器用于將數(shù)據(jù)源的數(shù)據(jù)轉(zhuǎn)換為集成系統(tǒng)可以處理的某種結(jié)構(gòu)化的數(shù)據(jù)。中 介器的功能是分析針對全局模式的查詢,分解為子查詢,并將它們轉(zhuǎn)換為針對相應(yīng)數(shù) 據(jù)源的查詢,最后臺并所有數(shù)據(jù)源的結(jié)果返回給用戶。 ( 2 ) 物化方法:主要指數(shù)據(jù)倉庫方法,該方法需要建立一個存儲數(shù)據(jù)的倉庫,將來自多個數(shù)據(jù) 源的數(shù)據(jù)副本都存儲在單一的數(shù)據(jù)庫中,f 1 e t l ( e x t r a c t ,t r a n s f o r m ,i o a d ) i 具定期從數(shù)據(jù)源 過濾數(shù)據(jù),然后裝載到數(shù)據(jù)倉庫,供用戶查詢。不足之處在于數(shù)據(jù)倉庫中的數(shù)據(jù)在存儲之前 要經(jīng)過一定的篩選處理,而且數(shù)據(jù)倉庫還需要定期更新,所以用戶查飼到的數(shù)據(jù)可能不是最 新的。 1 2 2 數(shù)據(jù)集成技術(shù)中的問題 在高度異構(gòu)的企業(yè)應(yīng)用環(huán)境下,設(shè)計信息集成系統(tǒng)是一項很復雜的任務(wù),需要考慮多方 面的技術(shù)和因素,包括: 1 ) 如何指定中介數(shù)據(jù)模式( 概念模式) 【3 4 】。為統(tǒng)一用戶接口,并能在較高的抽象層次 上表達剛戶查向,數(shù)據(jù)集成系統(tǒng)應(yīng)有一個獨立于現(xiàn)有數(shù)據(jù)源的、抽象層次較高的中介模式, 中國科學技術(shù)大學碩士論文一種基于邏輯的數(shù)據(jù)集成系統(tǒng)的研究和實現(xiàn) 應(yīng)能從全局的視角反映企業(yè)集成應(yīng)用需求。 2 ) o n l , ,l 處理中介模式和數(shù)據(jù)源的關(guān)系。目前主要有兩種方法”:第一種稱為 g l o b a l a s v i e w ( g a y ) ,是一種查詢基于的( q u e r y b a s e d ) 表示法,要求將中介模式中的每個模 式項用源模式中有關(guān)模式項來描述定義;第二種稱為l o c a l a s v i e w ( l a v ) ,是一種源基于的 ( s o u r c e b a s e d ) 方法,要求中介模式獨立于各數(shù)據(jù)源,將源模式中的各模式項用中介模式中 有關(guān)模式項來描述定義。g a v 方法的集成查向處理簡單直接,但擴展性差,一旦數(shù)據(jù)源變化 需修改中介模式的描述定義:而l a v 法的集成查詢處理是間接的,但提供了更好的可擴展性, 當源變化時,不需改變中介模式,只需增加或修改一些源描述即可,l a v 主要的缺點是可能 產(chǎn)生不完全的查詢結(jié)果。 3 ) 選用何種集成數(shù)據(jù)存儲方式。有物化和虛擬視圖兩種方式。物化法,也稱數(shù)據(jù)倉庫 ( d w ) t 6 1 法,需汁算中介模式的賦值擴展來取代現(xiàn)有數(shù)據(jù)源。虛擬法,數(shù)據(jù)始終只駐留在數(shù) 據(jù)源中,用戶查詢將最終轉(zhuǎn)為對源數(shù)據(jù)的存取。兩種方法各有利弊,物化法,要求事先按集 成查詢需求組織好所有可能的結(jié)果數(shù)據(jù),回答查詢響應(yīng)快,但數(shù)據(jù)集中存儲庫的定時刷新和 維護難度大,也難以靈活適應(yīng)用戶需求的變化。虛擬法由于每次回答用戶查詢都重新計算, 集成查詢較靈活且可免除對中間結(jié)果存儲庫進行更新維護的負擔,但這對那些可能涉及大量 數(shù)據(jù)計算的查詢( 每次查詢都要重新計算) 效率低f 。 4 ) 如何處理用戶基于中介模式提出的查詢。用戶基于圖形化的界面提出的查詢需要被 轉(zhuǎn)換成一種基于中介模式的規(guī)范化的形式。 5 ) 如何從各種異構(gòu)數(shù)據(jù)源中抽取數(shù)據(jù)。由于互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,大部分中小企業(yè) 的各個異地部門都采用廉價的互聯(lián)網(wǎng)來交換數(shù)據(jù),而不是租用昂貴的網(wǎng)絡(luò)專線來構(gòu)建遠程局 域網(wǎng)。在復雜的互聯(lián)網(wǎng)環(huán)境中,對數(shù)據(jù)集成系統(tǒng)提出了新的要求。 6 1 如何進行數(shù)據(jù)清潔和協(xié)調(diào)【”。因各數(shù)據(jù)源中數(shù)據(jù)存在不匹配、錯誤或表示法不一致 等問題,故對從數(shù)據(jù)源中抽取來的數(shù)據(jù)進行轉(zhuǎn)換協(xié)調(diào),合并等處理,也是數(shù)據(jù)集成的一項重 要任務(wù)。 傳統(tǒng)的數(shù)據(jù)庫技術(shù)由于缺乏語義及知識表達能力,從應(yīng)用域分析建模過渡到傳統(tǒng)數(shù)據(jù) 庫中的數(shù)據(jù)表示,不僅缺乏平滑性,而且會使語義知識丟失,存在天生的缺陷。國內(nèi)外大量 的工程項目實踐已表明,試圖僅依賴傳統(tǒng)數(shù)據(jù)庫技術(shù)和軟件能力的提高( 如采用o o 技術(shù)、 中間件技術(shù)、以及一些先進的開發(fā)和管理工具) 是無法從根本上解決這些技術(shù)難題的。 在數(shù)據(jù)庫應(yīng)用領(lǐng)域引進人工智能( a i ) 的思想和方法,為解決傳統(tǒng)的數(shù)據(jù)庫技術(shù)存在 的缺陷、不足和各種難題提供了一種新的方法和思路。作為一種知識表示語言,描述邏輯 一4 中國科學技術(shù)大學碩士論文 種基于邏輯的數(shù)據(jù)集成系統(tǒng)的研究和實現(xiàn) ( d e s c r i p t i o nl o g i c s ,d l ) 8 1 9 1 早已被廣泛應(yīng)用于人工智能、知識工程等領(lǐng)域,用作表示基于 對象的概念知識和語義的形式語言。目前,基于各類描述邏輯的相關(guān)推理問題,包括可滿足 性和蘊涵判定問題的算法以及計算復雜性的研究都已經(jīng)很充分。國外關(guān)于描述邏輯引入數(shù)據(jù) 庫應(yīng)用領(lǐng)域的研究也已經(jīng)有近十年的歷史,其中受到廣泛關(guān)注的一個研究熱點是將描述邏輯 應(yīng)用于信息集成。該技術(shù)的基本應(yīng)用特點有: a )利用d l 描述數(shù)據(jù)集成系統(tǒng)的概念模式,概念模式相關(guān)說明知識和應(yīng)用域的具體對 象成員斷言知識,構(gòu)成d l 系統(tǒng)的知識庫。 b )通過d l 的模型解釋機制,實現(xiàn)基于描述邏輯的知識庫和關(guān)系數(shù)據(jù)庫相結(jié)合。 c )利用d l 的推理服務(wù),計算知識庫中概念的滿足性和概念問的包含關(guān)系的層次結(jié) 構(gòu),由此來評價、檢查概念模式的合理性和正確性。 d ) 將描述邏輯的推理服務(wù)用于支持集成系統(tǒng)的查詢處理任務(wù)。 顯然,當用基于d l 描述的概念模式作為集成系統(tǒng)面向用戶的統(tǒng)一接口后,用戶就不需 要再去熟悉了解各個應(yīng)用系統(tǒng)及其數(shù)據(jù)源,從而可以減輕用戶的負擔;而利用d l 的推理能 力輔助檢查、評價企業(yè)數(shù)據(jù)的概念模型,對于構(gòu)建、完善企業(yè)統(tǒng)一面向全局應(yīng)用的數(shù)據(jù)模型, 指導企業(yè)數(shù)據(jù)規(guī)范都具有重要意義。 1 3 本論文的工作 工作 在項目組提出的基于描述邏輯的數(shù)據(jù)集成框架體系下,重點負責完成以下幾個方面的 1 1 深入研究和調(diào)研目前d l 推理器實現(xiàn)的有關(guān)技術(shù)標準、實現(xiàn)方案,以及目前可用的、 由第三方開發(fā)提供的d l 推理器資源。 2 )用j a v a 語言,設(shè)計了一個基于d l 的知識庫管理的、以圖形方式工作的管理工具 模塊,實現(xiàn)對數(shù)據(jù)集成系統(tǒng)中介模式的統(tǒng)一有效管理。 3 ) 改計并實現(xiàn)一種基丁移動a g e n t 技術(shù)的數(shù)據(jù)抽取方案( d e a ) 。它滿足以下一些基本 要求:1 ) 與平臺無關(guān)性:2 ) 對網(wǎng)絡(luò)質(zhì)量要求較低;3 ) 能有效節(jié)約網(wǎng)絡(luò)帶寬;4 ) 部署 和維護代價都比較低:5 ) 具有很好的分布并行計算能力和較高的抽取效率。 1 4 章節(jié)安排 第一章緒論主要介紹了數(shù)據(jù)集成研究的背景、意義,以及數(shù)據(jù)集成系統(tǒng)的研究現(xiàn)狀 中國科學披術(shù)大學碩士論文 種基于邏輯的數(shù)據(jù)集成系統(tǒng)的研究和實現(xiàn) 和研究中的一些難點問題。 第二章描述邏輯基礎(chǔ)介紹了描述邏輯的基本理論和它的標準d i g i 1 。 第二章數(shù)據(jù)集成系統(tǒng)應(yīng)j : j 框架 采用一個新的數(shù)據(jù)集成的構(gòu)建方案:以描述邏輯 ( d e s c r i p t i o n l o g i c ,d l ) 說明中介模式;采用l a y 方法處理數(shù)據(jù)源和中介模式的關(guān)系。集成查 詢處理器( q u e r ya n s w e r i n gp r o c e s s o q a p ) :是本集成體系的核心組件,本章給出q a p 的實現(xiàn) 算法。 第四章數(shù)據(jù)集成管理模塊的設(shè)計_ _ f 實現(xiàn)設(shè)計了一個基于描述邏輯的中介模式管理工 具,它可以有效的管理中介模式的d l 知識庫,更重要的是它能夠通過與描述邏輯推理機的 交互具備對知識庫的進行推理的功能,驗證中介模式的完備性。 第五章基于移動a g e n t 技術(shù)的數(shù)據(jù)抽取模塊提出了一種將移動a g e n t 技術(shù)應(yīng)用于復雜 的網(wǎng)絡(luò)環(huán)境中數(shù)據(jù)抽取的解決方案,并開發(fā)了一個數(shù)據(jù)抽取模塊,作為該集成系統(tǒng)的查詢處 理器中的子查詢處理模塊。 第六章結(jié)束語總結(jié)本論文的研究工作,并提出了下一步的工作目標。 最后是讀研期間本人發(fā)表的論文和參考文獻。 中國科學技術(shù)火學碩二l 論文 種基于邏輯的數(shù)據(jù)集成系統(tǒng)的研究和實現(xiàn) 2 1 描述邏輯簡介 第二章描述邏輯基礎(chǔ) 在知識表示的研究中,描述邏輯( d e s c r i p t i o nl o g i c ,d l ) i ”是基于對象的知識表示的形式 化工具,它吸取了k l o n e 的主要思想,是一階謂詞邏輯的一個可判定子集,能夠提供可判定 的推理服務(wù),并且具有語義特征。在經(jīng)過二十多年的研究與發(fā)展之后,描述邏輯已經(jīng)基本趨于 成熟并走向應(yīng)用。除了知識表示以外,描述邏輯還用在其它許多領(lǐng)域,如信息系統(tǒng)、數(shù)據(jù)庫、 軟仆l 群、網(wǎng)絡(luò)智能訪問和艦劃i l 。描述邏輯被認為是以對象為中心的表示語言的最為重 要的歸一形式。描述邏輯的重要特征是很強的表達能力和可判定性,它能保證推理算法總能 停止,并返回正確的結(jié)果。在眾多知識表示的形式化方法中,描述邏輯在十多年來受到人們的 特別關(guān)注,主要原因在于:它們有清晰的模型一理論機制;很適合于通過概念分類學來表示應(yīng) 用領(lǐng)域;并提供了很有用的推理服務(wù)。 在描述邏輯中,用戶感興趣的應(yīng)用被抽象為一組概念和概念問的關(guān)系的知識,其中:概 念被解釋為同類對象的集合,兩個概念之間聯(lián)系被稱為角色( r o l e ) 關(guān)系,則被解釋為屬于 兩類概念的實體對象問的二元關(guān)系( r e l a t i o n ) 集合。描述邏輯是建立在概念和角色之上, 由構(gòu)造算子( c o n s t r u c t o r ) 從原子概念和角色構(gòu)造出復雜概念和角色。概念對應(yīng)于邏輯中的一 元謂詞,角色對應(yīng)于二元謂詞,構(gòu)造算子決定著語言的表達能力,類似于邏輯連接詞的功能。 2 2 描述邏輯系統(tǒng)的體系結(jié)構(gòu) 描述邏輯系統(tǒng)是由兩個部分構(gòu)成:一是知識庫( k n o w l e d g eb a s e ) ,知識庫又能分成t b o x 和a b o x 兩個部分,一個t b o x 存取一個應(yīng)用域的概念知識。而一個a b o x 存取斷言 知識。二是推理引擎,推理引擎可以實現(xiàn)不同的推理服務(wù)。描述邏輯系統(tǒng)通過接口與應(yīng)用 程序交互。圖2i 是描述邏輯的基本結(jié)構(gòu): 中茸科學技術(shù)大學碩:t 論文 一種基于邏輯的數(shù)據(jù)集成系統(tǒng)的研究和實現(xiàn) 圖21 描述邏輯系統(tǒng)的結(jié)構(gòu) 2 2 1 描述邏輯的基本語法和語義 在描述邏輯中,用戶感興趣的應(yīng)用域被抽象為一組概念和概念間關(guān)系的知識。概念 ( c o n c e p t ) 是描述邏輯核,i i , ,概念被解釋為同類對象的集合,兩個概念間聯(lián)系被稱為角色承o l e ) 關(guān)系,則被解釋為屬于兩個概念類的對象間的二元關(guān)系( r e l a t i o n ) 集合。而描述邏輯語言則 可以在原子概念和角色關(guān)系的基礎(chǔ)上,通過有限的構(gòu)造算子構(gòu)造出復雜概念( c o m p l e x c o n c e p t ) 和知識庫規(guī)則。 有多種描述邏輯版本,它們一般是在最基本的描述邏輯a l c 基礎(chǔ)上,擴張一些構(gòu)造算子 而形成。構(gòu)造算子越多知識表達的能力越強,但相應(yīng)推理的復雜度會變大,應(yīng)根據(jù)需要折中 選擇。本方案使用a l c q ,它在a l c 基礎(chǔ)上擴展了兩個數(shù)量限制算子。a l c q 中概念描述( c 或d ) 的構(gòu)造語法是: c ,d atf 上fcndcud1 civrcf 了r cf nr cf nr c 其中,a 是原子概念,r 是角色關(guān)系,代表非空全域概念,即應(yīng)用域的任何概念,t 是 任何概念的父概念,也有文獻中用t o p 表示,1 是空概念即不能包含任何對象實例,是任 何概念的子概念,也有文獻中用b o t t o m 表示,cnd 是兩概念的合取,cud 是兩概念的 析取,一c 是概念的否定,即概念c 的補,vr c 是全稱量詞限定,3 r c 是存在量詞限定,! n r c 是最大數(shù)量限定,;nl c 是最小數(shù)量限定。 定義1 :一個解釋i 是一個二元組( a 1 ,o i ) ,其中是一個非空域,是一個解釋函數(shù)。 中國科學技術(shù)大學碩士論文一種基于邏輯的數(shù)據(jù)集成系統(tǒng)的研究和實現(xiàn) 將每個概念名c 映射為中的一個子集c 。,c 1 e a :對每個屬性名a ,a 1 是一個從1 映射到 l 偏函數(shù),角色名r 對應(yīng)為一組二元關(guān)系子集r 1 ,r 1 e 1 1 。 基于以上定義的下面的各方程是滿足的,它們分別給出了各相關(guān)項的語義,見下表 解釋語義 t li 上i o ( vl c ) 。 x ez x l v y ( x ,y ) r 一y c 1 ) ( jl c ) 1 x z x l i j y ( x ,y ) r 1ay c 1 ) c - nr c v ( x 1 拌( y :( x ,y ) r 1ay c 1 ) n ) ( 三n t c ) 1 x | 抖( y :( x ,y ) r 1ay c i ) 蔓n ) ( 一c ) 1 1 c 1 ( c 幾d ) 1 c 】n d 】 ( c u d ) 1 c j t a d l 表2 1 描述邏輯語義 如果一個解釋1 使得一個概念c 滿足c 1 0 則稱解釋1 是概念c 的一個模型,如果概 念c 存在一個這樣的解釋l ,則稱概念c 是滿足的。 當且僅當c 1 e _ d 1 時,稱解釋i 是包含斷言c e _ d 的一個模型,當且僅當對所有的解釋i 都有c 1 e _ d 1 則稱包含斷言c e d 是滿足的。 2 2 2 描述邏輯系統(tǒng)的知識庫 定義2 ( 知識庫r d 3 ) :知識庫是一個二元組( t ,a ) 。其中,t 是一個t b o x ,用來存儲 一個廊用域的術(shù)語概念及其相關(guān)的關(guān)系結(jié)構(gòu)知識;a 是一個a b o x ,用來描述實際世界的狀 態(tài),即存放個體成員斷言或?qū)嵗龜嘌灾R。 定義3 ( t b o x ) :一個t b o x 是有限的一組a l c q 概念定義。a l c q 概念定義的具體形 一9 中國科學技術(shù)大學碩士論文種基于邏輯的數(shù)據(jù)集成系統(tǒng)的研究和實現(xiàn) 式是c c _ d 或c d 。這里c 是被定義的概念名,d 是基于a l c q 的概念描述體。一個t b o x t 是無環(huán)的,如果t 中的每個概念描述名只被定義一次,且其唯一定義式右邊沒有直接或間 接包含左邊的定義名。c o d 這種形式引入了一個原始概念c ,因為只定義了概念c 的一些 必要條件。c 二d 這種形式引入了一個復雜概念c ,它精確說明的概念c 的充分必要條件。 顯然,對基于一個t b o xt 定義的概念,可在其定義描述體中引用t 中其它的概念名。 而不基于任何t b o x 定義的概念,其概念定義體中只能包含最基本的原子概念。 我們稱一個解釋i 是一個t b o x t 的模型,如果i 滿足t 中的所有概念定義。 定義4 ( a b o x ) :一個a b o x a 是一個關(guān)于斷言形式c ( a ) ( 概念斷言) 或“a ,b ) ( 角色關(guān) 系斷言) 的有限集,這里c 是一個概念描述,r 是一個角色名,a , b 是個體名。 解釋i 是a b o xa 的一個模型,如果a i c c l ,( a 1 ,b 1 ) ,對a 中的所有斷言c ( a ) r lr ( 曲) 都成立。 一個a b o xa 是一致的,如果它存在一個模型。稱個體a 是概念c 關(guān)于知識庫k b ( t , a ) 的一個實例,如果a c 對所有知識庫k b ( a ,b ) 的模型i 都成立。 2 2 3 描述邏輯系統(tǒng)的推理服務(wù) 可滿足性問題是描述邏輯推理中的核心問題,因為其它許多問題( 如包含檢測、一致性 問題等) 都可轉(zhuǎn)換為可滿足性問題。為了能t | _ | j 計算機自動判斷描述邏輯中可滿足性問題, s c h m i d t s c h a u b 和s m o l k a 首先建立了基于描述邏輯a l c 的t a b l e a u 算法【9 】,該算法能在多 項式時間內(nèi)判斷描述邏輯a l c 概念的可滿足性問題。目前,t a
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 車間使用轉(zhuǎn)讓協(xié)議書
- 醒獅團隊安全協(xié)議書
- 出資買房給兒子協(xié)議書
- 實踐性與理論相結(jié)合Python試題及答案
- 學習回顧計算機二級Python試題及答案
- 計算機二級Delphi編程難點試題及答案
- 銀行輿情和解協(xié)議書
- 上海市閔行區(qū)明星學校2024-2025學年七年級下學期數(shù)學月考卷
- Python與Excel的結(jié)合使用試題及答案
- 2025年二級MySQL知識掌握試題及答案
- 三年級下冊語文【課文說明道理及主人公品質(zhì)】歸納
- 熱力公司關(guān)于深刻把握國有經(jīng)濟和國有企業(yè)高質(zhì)量發(fā)展根本遵循研討發(fā)言提綱范文
- 國家開放大學《心理健康教育》形考任務(wù)1-9參考答案
- 第5課 中古時期的非洲和美洲(課件)
- 康美藥業(yè)審計風險分析
- 賽事承辦合同
- 《中醫(yī)常用護理技術(shù)基礎(chǔ)》課件-一般護理-第三節(jié)情志護理
- 空調(diào)負荷計算-空調(diào)負荷的計算(空調(diào)工程)
- DGTJ08-2093-2019 《電動汽車充電基礎(chǔ)設(shè)施建設(shè)技術(shù)標準》
- 測試計劃模板(完整版)
- 電子商務(wù)考證初級試題及答案
評論
0/150
提交評論