基于本體的XML語(yǔ)義集成和查詢的研究(全文)_第1頁(yè)
基于本體的XML語(yǔ)義集成和查詢的研究(全文)_第2頁(yè)
基于本體的XML語(yǔ)義集成和查詢的研究(全文)_第3頁(yè)
基于本體的XML語(yǔ)義集成和查詢的研究(全文)_第4頁(yè)
基于本體的XML語(yǔ)義集成和查詢的研究(全文)_第5頁(yè)
已閱讀5頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、基于本體的XML語(yǔ)義集成和查詢的研究XX:TP391XX:引言XML已經(jīng)成為Web上信息表達(dá)和數(shù)據(jù)交換的事實(shí)標(biāo)準(zhǔn)65377;它提供了一種非常靈活的方式來(lái)表達(dá)數(shù)據(jù):用戶可以制定自己的標(biāo)簽來(lái)表示他們的數(shù)據(jù),XML在描述數(shù)據(jù)內(nèi)容的同時(shí)能突出對(duì)結(jié)構(gòu)的描述,從而體現(xiàn)出數(shù)據(jù)之間的關(guān)系65377;但XML的一個(gè)重要不足是:XML規(guī)范只聲明了數(shù)據(jù)在結(jié)構(gòu)上的關(guān)系,不能表達(dá)出被標(biāo)簽標(biāo)記的數(shù)據(jù)在語(yǔ)義上的聯(lián)系65377;這造成兩個(gè)問題:1)同一種語(yǔ)義能夠用多種不同結(jié)構(gòu)的XML文檔表達(dá),而這些異構(gòu)的XML文檔之間很難實(shí)現(xiàn)相互操作;2)許多XML標(biāo)簽它們所表達(dá)出的含義是相同的,但是XML處理程序無(wú)法將其識(shí)別65377;本

2、體因其對(duì)概念的明確形式化描述,以及對(duì)概念的屬性和概念間的聯(lián)系的清楚表達(dá),為解決上面的問題提供一種有效的手段65377;相關(guān)知識(shí)和研究背景XML模式和語(yǔ)義定義1一個(gè)XML的模式可以被表示成下面的形式:S=(E,root,6的形式,其中E表示所有元素的集合,表示所有屬性的集合,root表示根元素65377;。和。是兩個(gè)映射,其中8:E2E表示元素與其子元素之間的映射,如果一個(gè)元素包含,則認(rèn)為這些元素表達(dá)的語(yǔ)義是相同的E2表示元素與其包含的屬性之間的映射65377;映射6和p體現(xiàn)了XML的結(jié)構(gòu)關(guān)系65377;XML的語(yǔ)義體現(xiàn)在XML的模式上65377;XML沒有提供任何對(duì)語(yǔ)義表達(dá)的約束,因此XML模

3、式只能表達(dá)語(yǔ)法而不能表達(dá)形式化語(yǔ)義,但是XML的元素與其屬性之間以及元素間的嵌套結(jié)構(gòu)中蘊(yùn)含著語(yǔ)義信息65377;語(yǔ)義Web和本體語(yǔ)義Web以XML作為語(yǔ)法基礎(chǔ),建立數(shù)據(jù)在更深層次D語(yǔ)義上的互操作65377;語(yǔ)義Web的主要特點(diǎn)是引入了本體的概念65377;本體是共享概念模型的形式化規(guī)范說(shuō)明,主要用來(lái)對(duì)描述屬性或類的術(shù)語(yǔ)的含義及術(shù)語(yǔ)間的關(guān)系進(jìn)行規(guī)約,為人和應(yīng)用程序系統(tǒng)之間在某個(gè)主題的交流上提供的共同理解65377;定義26桓鎏哦的本體被定義為七元組的形式:O=(C,C,R,R,H,C,H,R,X)其中C表示概念的集合65377;C表示多個(gè)屬性集合組成的集合,其中每個(gè)屬性集合對(duì)應(yīng)于一個(gè)概念6537

4、7;R是一個(gè)關(guān)系集合65377;R是由多個(gè)屬性集合組成的集合,其中每個(gè)屬性集合對(duì)應(yīng)于R中的一個(gè)關(guān)系65377;HC表示概念之間的層次結(jié)構(gòu)關(guān)系,HR表示關(guān)系間的層次關(guān)系,X表示公理集合65377;3XML模式的語(yǔ)義映射和集成3.1映射規(guī)則和算法映射的目的是在S和O中包含的術(shù)語(yǔ)之間建立一種關(guān)聯(lián),以實(shí)現(xiàn)XML在語(yǔ)義層上的互操作65377;雖然S和O覆蓋不同的層次,我們認(rèn)為它們有符合人們主觀認(rèn)識(shí)的對(duì)應(yīng)關(guān)系:1)S中定義的元素可以看作是O中定義的概念;2)元素包含的屬性(ttribute)可以看作是概念所具有的屬性(property);3)元素之間的嵌套結(jié)構(gòu)可以看作是概念之間的關(guān)系65377;定義3對(duì)模

5、式S中的任意元素e來(lái)說(shuō),當(dāng)8(e)為空并且r(e)也為空時(shí),稱e是simpletype元素;當(dāng)6(e)非空時(shí),稱e是complextype元素;其余情況則稱e是commontype元素65377;由于映射只涉及到概念65380;概念的屬性和概念間的關(guān)系,我們?cè)诒倔w完整定義的基礎(chǔ)上,給出簡(jiǎn)單本體的定義:Os=(C,c,R),用作與XML模式進(jìn)行相互映射65377;這里選擇OWLDL作為描述本體Os的語(yǔ)言,在OWL中概念用建模原語(yǔ)owl:Clss表示;概念的屬性用數(shù)據(jù)類型屬性owl:DttypeProperty表示,概念間的關(guān)系用對(duì)象屬性owl:ObjectProperty表示65377;下面是映

6、射規(guī)則以及在OWL中的表示形式:表1映射規(guī)則及本體表示:我們用下面的方式定義每個(gè)本體的基本命名空間:如果某個(gè)OWL本體o是由XML模式文件s映射而得到的,那么它的基本命名空間為:XX:/schemfile.owl,其中schemfile是s的文件名65377;下面具體的算法表示:算法:CreteOnto-by-Mpping輸入:已解析的XML模式Si輸出:根據(jù)映射規(guī)則生成OWL本體Oi步驟:1)使用Si構(gòu)建Oi的默認(rèn)命名空間前綴:prefixi;2)對(duì)Si中每個(gè)complextype類型的元素ex,執(zhí)行:在Oi中新建概念prefixi:cx;(2)對(duì)8(ex)中的所有元素en,執(zhí)行:如果en是

7、simpletype類型元素,則新建數(shù)據(jù)類型屬性prefixi:cxn,否則新建概念prefixi:en和對(duì)象屬性prefixi:contin(cx,cn);(3)對(duì)r(ex)中的所有屬性x,新建新的數(shù)據(jù)類型屬性prefixi:cxx;3)對(duì)Si中的每個(gè)commontype類型的元素ec,執(zhí)行:新建概念prefixi:cc;(2)對(duì)Hec)中的所有屬性j,新建數(shù)據(jù)類型屬性prefixi:ccj;3.2本體集成和語(yǔ)義補(bǔ)充經(jīng)過映射,每一個(gè)XML模式文件都對(duì)應(yīng)到一個(gè)用來(lái)注釋該文件語(yǔ)義的本體上,這些本體雖然描述的是同一個(gè)領(lǐng)域的知識(shí),但彼此之間卻并沒有聯(lián)系65377;另外本體中概念之間的真正關(guān)系通過上面

8、的規(guī)則并沒有體現(xiàn)出來(lái)65377;為解決這兩個(gè)問題,我們需要預(yù)先構(gòu)建一領(lǐng)域本體,里面定義該領(lǐng)域內(nèi)所涉及到的概念之間的復(fù)雜邏輯和語(yǔ)義關(guān)系65377;該領(lǐng)域本體稱作全局本體,與定義2中的本體定義相同,用OG表示;而XML模式映射得到的本體稱為局部本體,用OL表示65377;多個(gè)局部本體構(gòu)成一個(gè)集合,成為局部本體集,用OLSet表示65377;本文采納混合本體的方法對(duì)OLSet中的局部本體OL進(jìn)行集成,這種方法利用OG提供的建立在原語(yǔ)基礎(chǔ)上的共享詞匯合,使不同OL中的術(shù)語(yǔ)可以進(jìn)行相互比較65377;與傳統(tǒng)的方法不同,我們參考了WordNet和SUMO本體之間映射的思想,引入同義詞典這個(gè)概念,采取一種本

9、體加同義詞典的方法實(shí)現(xiàn)這種集成,并手工建立OG和同義詞典之間的映射65377;同義詞典的表示如下:定義4同義詞典T=(CSynseti,Synseti)i=1,2,3其中CSynset表示概念的同義詞集,包含了局部本體中可能出現(xiàn)的具有相同語(yǔ)義的概念65377;Synset集合表示概念的屬性的同義詞集,包含了局部本體中可能出現(xiàn)的具有相同語(yǔ)義的屬性65377;同義詞集在這里是指里面的詞匯在上下文中可以相互替換的集合65377;映射將一個(gè)CSynset對(duì)應(yīng)到全局本體中的某個(gè)概念,Synset對(duì)應(yīng)到某個(gè)屬性65377;這里我們只考慮同義關(guān)系映射,即同義詞集里面詞語(yǔ)的含義與它映射到的概念或?qū)傩缘暮x是相

10、同的65377;由于CSynset和Synset分別包含了所有OL中可能出現(xiàn)的概念和屬性,只要找出OL中的概念和屬性在T中對(duì)應(yīng)的同義詞集,再根據(jù)T與OG之間的映射關(guān)系,就可以得到所有OL中概念/屬性與OG中語(yǔ)義相同概念/屬性的對(duì)應(yīng)關(guān)系,最后只需保存OLSet與同義詞典T的集成關(guān)系即可65377;對(duì)OL中關(guān)系的集成我們采納不同的方法,通過每個(gè)關(guān)系在OWL語(yǔ)法中的domin值和rnge值來(lái)確定這些關(guān)系的語(yǔ)義,然后對(duì)語(yǔ)義相同的關(guān)系集成65377;具體做法是:(1)定義集合R,稱為關(guān)系集,OLSet中所有局部本體中的關(guān)系都保存在R中,每個(gè)關(guān)系都有代表命名空間的前綴來(lái)保證不會(huì)出現(xiàn)命名沖突65377;根據(jù)

11、前綴還可以找到該關(guān)系所屬的局部本體65377;定義作用在概念上的操作:mpc和hc,mpc(cl)返回OL中概念cl在OG中所對(duì)應(yīng)的概念表示;hc(cg)返回OG中概念cg自身及其所有的父概念65377;對(duì)R中的每個(gè)關(guān)系r:contin(Cdom,Crn),在OG中找到同時(shí)滿足r.domin6hcmpc(Cdom)和r.rnge6hcmpc(Crn)的關(guān)系65377;然后在兩關(guān)系之間建立映射65377;如果R中有多個(gè)關(guān)系映射到全局本體的同一個(gè)關(guān)系上,則將每個(gè)關(guān)系中的Cdom和Crn分別放入同一集合中,從而實(shí)現(xiàn)不同OL中關(guān)系的集成65377;本體集成及語(yǔ)義補(bǔ)充的過程中,OG65380;OL和OL

12、Set的關(guān)系如圖1所示:4基于映射集成的語(yǔ)義查詢實(shí)驗(yàn)查詢實(shí)驗(yàn)方法在上述映射與集成方法的基礎(chǔ)上,本文設(shè)計(jì)出一語(yǔ)義查詢系統(tǒng),實(shí)現(xiàn)對(duì)不同模式的XML數(shù)據(jù)進(jìn)行語(yǔ)義上的查詢,語(yǔ)義查詢利用全局本體對(duì)查詢語(yǔ)句中概念間的語(yǔ)義約束進(jìn)行DL推理,然后利用集成得到的豐富的語(yǔ)義信息對(duì)查詢進(jìn)行重構(gòu),最終轉(zhuǎn)換為針對(duì)不同XML模式的多個(gè)結(jié)構(gòu)查詢65377;語(yǔ)義查詢隱藏了底層數(shù)據(jù)格式的細(xì)節(jié),是一種面向多個(gè)異構(gòu)數(shù)據(jù)源的查詢,并且能夠利用本體找到隱藏的等價(jià)語(yǔ)義信息,實(shí)現(xiàn)對(duì)數(shù)據(jù)的內(nèi)容而不是關(guān)鍵字匹配的查詢65377;實(shí)驗(yàn)的整體框架如圖2所示:其中XML數(shù)據(jù)庫(kù)我們選擇eXist原生數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)中存放了全局本體65380;通過映射規(guī)

13、則得到的局部本體集和語(yǔ)義集成的結(jié)果,同義詞典以表的形式存儲(chǔ)在MySQL關(guān)系數(shù)據(jù)庫(kù)中,關(guān)系數(shù)據(jù)庫(kù)里面還包含了與全局本體之間的映射信息;為實(shí)現(xiàn)在全局本體中的推理,我們使用Jen2開發(fā)包中自帶的OWLMini推理機(jī)65377;整個(gè)框架建立在Jv1.5的運(yùn)行平臺(tái)上65377;圖2實(shí)驗(yàn)結(jié)構(gòu)框圖實(shí)驗(yàn)結(jié)果測(cè)試查詢是完全依賴與語(yǔ)義集成的,在語(yǔ)義查詢XML數(shù)據(jù)之前,必須先完成對(duì)模式文件的集成65377;因篇幅原因,我們僅給出測(cè)試結(jié)果,其中“uthor和“writer在相同CSynset中,“book和“script在另一CSynset中,“title,“cption和“heder在相同Synset中,“writ

14、e和“writtenby在全局本體中是一對(duì)逆關(guān)系65377;測(cè)試1:測(cè)試XML模式與本體之間映射是否符合常識(shí)65377;查詢語(yǔ)句:select?book.titlewherebook.publisher=“BC”查詢結(jié)果:“UMLforJv.測(cè)試2:測(cè)試本體集成和概念間關(guān)系的語(yǔ)義獵取是否正確65377;查詢語(yǔ)句:select?utor.nmewherewrittenby(book,uthor);book.heder=“XMLndJv查詢結(jié)果:“Hrold,“John.測(cè)試3:測(cè)試對(duì)條件子句中隱含知識(shí)的推理65377;查詢語(yǔ)句:select?book.titlewherewrite(uthor,

15、book)uthor.nme=“Robert查詢結(jié)果:“UMLforJv.測(cè)試4:測(cè)試語(yǔ)義查詢是否是基于數(shù)據(jù)之間的語(yǔ)義而數(shù)據(jù)本身的查詢65377;查詢語(yǔ)句:select?book.titlewherewrite(uthor,book)uthor.nme=“John查詢結(jié)果:“XMLndJv,“SemnticWeb.通過測(cè)試可以看出查詢結(jié)果與預(yù)期的一致,這說(shuō)明了這種基于本體的XML模式語(yǔ)義集成是一種可行的方法,同時(shí)也可以看出語(yǔ)義查詢與一般的結(jié)構(gòu)查詢相比,具有很大的優(yōu)勢(shì)65377;5結(jié)論本文利用語(yǔ)義Web中RDF和OWL等規(guī)范標(biāo)準(zhǔn),并借用WordNet和SUMO本體的映射思想,提出一種基于本體的XML語(yǔ)義集成和語(yǔ)義查詢的方法,并

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論