同類網(wǎng)站查詢接口的集成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)_第1頁(yè)
同類網(wǎng)站查詢接口的集成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)_第2頁(yè)
同類網(wǎng)站查詢接口的集成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)_第3頁(yè)
同類網(wǎng)站查詢接口的集成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)_第4頁(yè)
同類網(wǎng)站查詢接口的集成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)畢業(yè)設(shè)計(jì)_第5頁(yè)
已閱讀5頁(yè),還剩20頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、畢業(yè)論文(設(shè)計(jì))論文題目:同類查詢接口的集成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)學(xué)生:學(xué) 號(hào):所在院系:計(jì)算機(jī)與信息工程系專業(yè)名稱:計(jì)算機(jī)科學(xué)與技術(shù)屆 次:指導(dǎo)教師:師學(xué)院本科畢業(yè)論文(設(shè)計(jì))誠(chéng)信承諾書1.本人重承諾:所呈交的畢業(yè)論文(設(shè)計(jì)),題目同類查詢接口的集成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)是本人在指導(dǎo)教師指導(dǎo)下獨(dú)立完成的,沒有弄虛作假,沒有抄襲、剽竊別人的容; 2.畢業(yè)論文(設(shè)計(jì))所使用的相關(guān)資料、數(shù)據(jù)、觀點(diǎn)等均真實(shí)可靠,文中所有引用的他人觀點(diǎn)、材料、數(shù)據(jù)、圖表均已注釋說(shuō)明來(lái)源; 3. 畢業(yè)論文(設(shè)計(jì))中無(wú)抄襲、剽竊或不正當(dāng)引用他人學(xué)術(shù)觀點(diǎn)、思想和學(xué)術(shù)成果,偽造、篡改數(shù)據(jù)的情況; 4.本人已被告知并清楚:學(xué)院對(duì)畢業(yè)論文(設(shè)計(jì)

2、)中的抄襲、剽竊、弄虛作假等違反學(xué)術(shù)規(guī)的行為將嚴(yán)肅處理,并可能導(dǎo)致畢業(yè)論文(設(shè)計(jì))成績(jī)不合格,無(wú)常畢業(yè)、取消學(xué)士學(xué)位資格或注銷并追回已發(fā)放的畢業(yè)證書、學(xué)士學(xué)位證書等嚴(yán)重后果; 5.若在省教育廳、學(xué)院組織的畢業(yè)論文(設(shè)計(jì))檢查、評(píng)比中,被發(fā)現(xiàn)有抄襲、剽竊、弄虛作假等違反學(xué)術(shù)規(guī)的行為,本人愿意接受學(xué)院按有關(guān)規(guī)定給予的處理,并承擔(dān)相應(yīng)責(zé)任。 學(xué)生(簽名): 日期: 年 月 日目 錄21 / 25同類查詢接口的集成系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)學(xué)生:敏(指導(dǎo)老師:磊)(師學(xué)院計(jì)算機(jī)與信息工程系)摘 要:隨著Internet與網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,網(wǎng)上的信息以海量方式增長(zhǎng),然而我們卻不能快速而準(zhǔn)確獲取有效的信息。海量信息

3、只能通過(guò)查詢接口訪問(wèn)獲得,為了能夠同時(shí)訪問(wèn)同一領(lǐng)域多個(gè)Web數(shù)據(jù)庫(kù),需要對(duì)多個(gè)Web數(shù)據(jù)庫(kù)的查詢接口進(jìn)行集成通過(guò)實(shí)驗(yàn)分析,基于查詢條件的深網(wǎng)查詢接口集成方法不僅簡(jiǎn)化了模式匹配的復(fù)雜過(guò)程,而且很大程度上提高了模式集成的精度因此,此集成方法是高效可行的研究深度網(wǎng)的最終目的是為獲取隱藏于Web應(yīng)用之后的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)中的數(shù)據(jù),通過(guò)查詢接口在線訪問(wèn)后臺(tái)數(shù)據(jù)庫(kù),這改變對(duì)傳統(tǒng)的基于搜索引擎的查詢和獲取信息的方式帶來(lái)了巨大的挑戰(zhàn)。傳統(tǒng)的搜索引擎只能進(jìn)行靜態(tài)頁(yè)面的搜索,現(xiàn)有的接口集成方法主要集成各個(gè)提供的高級(jí)搜索接口,這樣建立的集成接口由于包含過(guò)多的屬性,面在一些屬性上可代用戶選擇的候選值更是繁雜,不便用戶使用,

4、于是設(shè)計(jì)了基于查詢條件的集成接口,避免了瀏覽復(fù)雜的查詢接口。關(guān)鍵詞:查詢接口;數(shù)據(jù)庫(kù);接口集成;搜索;屬性抽取Congener website query interface integration system design and implementationStudent: Wei Min (Faculty Adviser:Chen lei)(Department of computer and information engineering, Huainan Normal University)Abstract:With the rapid development of Interne

5、t and network technology, the information on the net growth in vast amounts of way, but we cant get effective information for accurate and fast. Can only be acquired through query interface to access vast amounts of information, in order to be able to access to the same field at the same time multip

6、le Web database, the need for multiple Web database query interface integration. Through the experimental analysis, based on the query conditions of deep Web query interface integration method not only simplifies the complex process of pattern matching, and largely enhances the precision of model in

7、tegration. Therefore, based on the query conditions of deep Web query interface integration method is efficient and feasible. The ultimate goal of network research depth is for hidden in the Web application after the network data in the database, through online access to background database query in

8、terface, which changed the traditional way based on search engine query and access to information brings great challenge. Traditional search engines can only carry on the static page search, the existing interface integration approach mainly integrated each site offers advanced search interface, so

9、that establish the integration of the interface due to contain too many attributes, face on some of the properties for the users choice of candidate values is more complex, inconvenient to users, so the integration interface design based on the query conditions, avoiding the browse complex query int

10、erface.Key word:Query interface; Database; The interface integration;Search; Attribute sampling前言論文主要任務(wù)是針對(duì)當(dāng)前同一領(lǐng)域的不同站點(diǎn)所提供的各個(gè)查詢接口進(jìn)行集成,為用戶提供一個(gè)統(tǒng)一的查詢接口,從而節(jié)省用戶的查詢時(shí)間。用戶在統(tǒng)一的查詢接口上輸入查詢條件,這個(gè)查詢條件會(huì)被分解并傳送到各個(gè)站點(diǎn),并被提交,從而得到站點(diǎn)的部分查詢結(jié)果,再將各站點(diǎn)得到的查詢結(jié)果進(jìn)行整合,最終為用戶返回一個(gè)完整的查詢結(jié)果。使用本體(ontology定義為用戶瀏覽和查詢處理領(lǐng)域知識(shí))的“橋梁”作用,設(shè)置屬性之間的映射關(guān)系不同

11、的接口模式,準(zhǔn)確地識(shí)別語(yǔ)義之間的關(guān)聯(lián)不同的界面特性,模型融合,根據(jù)模式匹配的結(jié)果,合并數(shù)據(jù)庫(kù)查詢接口設(shè)置在一樣的語(yǔ)義屬性,并且盡量保持查詢接口領(lǐng)域的結(jié)構(gòu)特點(diǎn)和屬性順序,以取得集成查詢界面?;ヂ?lián)網(wǎng)包含了大量的可獲取信息,它的容存儲(chǔ)在一個(gè)真正的在線數(shù)據(jù)庫(kù),但是這個(gè)信息獲得得通過(guò)查詢接口來(lái)訪問(wèn)。為了提供給用戶屬于網(wǎng)絡(luò)特定的區(qū)域根據(jù)去問(wèn)的途徑需要對(duì)網(wǎng)絡(luò)數(shù)據(jù)庫(kù)查詢接口集成。因此,同類查詢接口集成可以看作是同領(lǐng)域各本地查詢接口之上的全局視圖。同類查詢接口集成主要完成兩個(gè)方面的工作:模式的集成與模式的匹配。從模式匹配來(lái)看,傳統(tǒng)的模式匹配方法主要由對(duì)比匹配發(fā)現(xiàn)屬性相關(guān)性和統(tǒng)一的全局模型。然而,由于Web數(shù)據(jù)庫(kù)

12、的自治性導(dǎo)致查詢接口形式和容的多樣性,和最終所有可能的屬性組合的搜索空間很難,使模式匹配面臨更多的挑戰(zhàn)。使屬性之間高精度匹配,查詢接口模式匹配使用領(lǐng)域本體概念映射方法,遵循本體語(yǔ)義元信息,計(jì)算的模式統(tǒng)一,建立屬性之間的映射關(guān)系不同的接口模式,實(shí)施不同的深層網(wǎng)絡(luò)查詢接口屬性匹配。在模式融合方面,傳統(tǒng)模式融合方法沒用充分考慮屬性的模式信息,只是針對(duì)屬性標(biāo)簽,導(dǎo)致集成結(jié)果不夠完善和精確,因此,查詢接口模式融合通過(guò)定義模式融合規(guī)則對(duì)模式匹配結(jié)果進(jìn)行處理,以最終獲得源模式集的全局查詢接口。目前國(guó)在利用計(jì)算機(jī)實(shí)現(xiàn)集成的查詢接口集成系統(tǒng)設(shè)計(jì)和這一領(lǐng)域的研究還有很大可能的研究空間,所以選擇了這個(gè)主題,力求在這

13、個(gè)領(lǐng)域作出貢獻(xiàn)。 模式匹配方法模式匹配方法主要包括基于本體、基于統(tǒng)計(jì)模型和基于聚類。1.1模式匹配方法基于本體每個(gè)源接口形式化為XML架構(gòu),并產(chǎn)生相應(yīng)的XML架構(gòu)的基礎(chǔ),然后再定義一組規(guī)則,形成主體匹配的自定義域本體概念,產(chǎn)生集成接口。然而,由于這種方法的匹配精度依賴于所定義的匹配規(guī)則,需要大量的人工定義精確的規(guī)則?;诒倔w的關(guān)系數(shù)據(jù)庫(kù)模式匹配的方法,先計(jì)算輸入的單詞相似的本體,然后使用聚類方法和定義的概念聚集近似映射功能映射得到的最終結(jié)果。然而,在計(jì)算的輸入字和本體相似時(shí),考慮只有這兩個(gè)關(guān)鍵詞的相似性,沒有得到充分利用本體語(yǔ)義級(jí)別的功能?;诒倔w的集成方法,通過(guò)建立綜合查詢接口領(lǐng)域本體,然后

14、定義推理規(guī)則消除沖突,使每個(gè)查詢的界面和集成的查詢接口匹配。然而,這第一場(chǎng)比賽后可能使綜合查詢接口集成方法不能完全與本地查詢接口匹配,導(dǎo)致在一個(gè)綜合的結(jié)果是不可靠的,全面,準(zhǔn)確。在模式融合方面,提出并實(shí)現(xiàn)查詢接口集成的原型系統(tǒng)的首要條件是設(shè)計(jì)一種交互式聚類匹配算法,得到不同查詢接口屬性之間的對(duì)應(yīng)關(guān)系,將獲得匹配關(guān)系的屬性聚集到同一類中,并根據(jù)聚類規(guī)則選出每一類中的特征屬性。由于復(fù)雜的映射關(guān)系頻繁出現(xiàn),不能完全自動(dòng)化實(shí)現(xiàn)集成的過(guò)程,需要通過(guò)用戶交互方式指導(dǎo)解決映射過(guò)程中不確定的問(wèn)題,最后將每一類的特征屬性作為統(tǒng)一查詢接口的屬性。但是,該方法忽略了查詢接口中很多有用的信息,并且需要用戶交互來(lái)解決問(wèn)

15、題。由此可見,雖然同類查詢接口集成取得了一些研究成果,但是,仍然有很多關(guān)鍵問(wèn)題有待進(jìn)一步改善。在模式集成,綜合查詢界面,提出并實(shí)施了一個(gè)原型系統(tǒng)的首要條件是要設(shè)計(jì)一個(gè)互動(dòng)的聚類匹配算法,以獲得不同的查詢接口屬性之間的映射關(guān)系將被匹配到同一類物業(yè)聚集,根據(jù)規(guī)則選擇每個(gè)集群在要素屬性類。由于復(fù)雜的映射經(jīng)常發(fā)生,不能完全實(shí)現(xiàn)自動(dòng)化,從而實(shí)現(xiàn)集成的過(guò)程,需要通過(guò)用戶交互指導(dǎo)解決問(wèn)題的過(guò)程中的不確定性映射,最后是每類作為一個(gè)統(tǒng)一的查詢接口屬性的特性。然而,該方法忽略了很多有用的信息的查詢接口,需要用戶交互來(lái)解決問(wèn)題,并給用戶帶來(lái)不便,有一些關(guān)鍵問(wèn)題有待進(jìn)一步改進(jìn)。1.2模式匹配方法基于統(tǒng)計(jì)模型基于統(tǒng)計(jì)模

16、型:分析統(tǒng)計(jì)模型屬性名稱同時(shí)出現(xiàn)的頻率和模式,應(yīng)用“正關(guān)聯(lián)”和“負(fù)關(guān)聯(lián)”雙重算法同時(shí)處理簡(jiǎn)單的1:1匹配和復(fù)雜的M:N匹配,正相關(guān)”往往對(duì)應(yīng)元素之間的“群組關(guān)系”,而“負(fù)關(guān)聯(lián)”通常對(duì)應(yīng)于“同義關(guān)系”,然后把得到的相關(guān)知識(shí)應(yīng)用于輔助匹配。使用關(guān)聯(lián)搜索方法獲得屬性間的復(fù)雜匹配,該方法通過(guò)應(yīng)用關(guān)聯(lián)公式計(jì)算屬性間的關(guān)聯(lián)值,然后定義函數(shù)選擇、同義屬性匹配。然而,這種方法基于統(tǒng)計(jì)抽樣空間,沒有充分考慮屬性語(yǔ)義之間的關(guān)聯(lián)。1.3模式匹配方法基于聚類優(yōu)先選擇用于獲取相關(guān)的屬性的匹配方法,首先通過(guò)聚類相關(guān)的屬性的集合,然后用最大的選擇策略和貪婪策略和設(shè)計(jì)新的選擇策略相結(jié)合的策略,刪除不正確的屬性關(guān)聯(lián)。然而,該方

17、法只考慮查詢接口的屬性標(biāo)記,并忽略其它有用的信息,在同時(shí),不識(shí)別匹配的復(fù)雜性。然而,這種方法不考慮之間的語(yǔ)義關(guān)聯(lián)的屬性和屬性忽略了其他有用的信息。基于集群的模式匹配方法,先在小組賽使用的相關(guān)屬性,那么相似的概念來(lái)計(jì)算通過(guò)聚類的代名詞屬性終于可以用貪心算法來(lái)匹配選擇。然而,這種方法將查詢接口一組平圖案的屬性作為一個(gè)實(shí)體,忽略了豐富的結(jié)構(gòu)信息查詢接口。2 深網(wǎng)查詢接口集成分析屬性分析是查詢接口集成的最主要途徑,利用查詢接口的模式信息和語(yǔ)義信息識(shí)別不同查詢接口屬性之間的匹配關(guān)系,從而獲得一個(gè)集成的查詢接口,其框架如圖所示:圖 深網(wǎng)查詢接口集成框架2.1 模式匹配數(shù)據(jù)庫(kù)的自治性使得不同查詢接口語(yǔ)義相似

18、或一樣的屬性具有不同的標(biāo)簽、不同的數(shù)據(jù)格式與組織結(jié)構(gòu)。為了獲得統(tǒng)一的查詢接口,對(duì)不同的語(yǔ)義查詢接口要匹配的屬性一樣。因此,模式匹配是網(wǎng)絡(luò)的異構(gòu)信息集成的關(guān)鍵問(wèn)題。定義1:模式匹配(schema matching)??梢孕问交x為函數(shù)schema matching(I1,I2,),其中I1,I2為輸入信息,A為輔助信息,滿足如下條件:)I1S1,D1S1為輸入模式信息,D1為滿足模式S1的數(shù)據(jù)實(shí)例。)I2S2,D2S2為輸入模式信息,D2為滿足模式S2的數(shù)據(jù)實(shí)例。)A表示所有可利用的幫助更好理解模式語(yǔ)義并協(xié)助完成匹配任務(wù)的所有輔助信息,如字典、本體等。)匹配函數(shù)schema matching(

19、I1,I2,)在執(zhí)行過(guò)程中先產(chǎn)生模式元素間候選對(duì)應(yīng)關(guān)系集,經(jīng)輔助工具判斷最終生成模式元素間確定的對(duì)應(yīng)關(guān)系集作為輸出。候選對(duì)應(yīng)關(guān)系集(candidate correspondence set,CSS)的 形 式 化 描 述 為CSS S1i,S2j,similarysimilary,0,1,其中S1i表示模式S1中第i個(gè)元素按語(yǔ)義規(guī)則書寫的表達(dá)式。S1表示模式元素的個(gè)數(shù),如果S1m,那么0,m。S2j與S1i類似,表示S2中第j個(gè)元素按語(yǔ)義規(guī)則書寫的表達(dá)式,S2表示模式元素的個(gè)數(shù),如果S2n,那么j0,n。similary表示S1i與S2j的相似度,表示相似度閾值,如果S1i與S2j的相似度大于

20、(等于)閾值,那么意味著S1i與S2j相似,將相似關(guān)系記錄于確定的匹配對(duì)應(yīng)關(guān)系集 (matching correspondence set,MCS)中,最后,將作為匹配函數(shù)的輸出。通過(guò)模式匹配模式定義,根據(jù)現(xiàn)有的資料,發(fā)現(xiàn)語(yǔ)義對(duì)應(yīng)模式成員之間正確的映射,它包含2種類型匹配:簡(jiǎn)單的和復(fù)雜的匹配。簡(jiǎn)單的匹配是指以1:1的語(yǔ)義屬性之間的映射。不同于簡(jiǎn)單的1:1匹配,復(fù)雜匹配的是屬性頻繁1:M匹配或M:n匹配,即M模式屬性匹配另一個(gè)模式的N個(gè)屬性。目前的研究重點(diǎn)是1:1匹配,簡(jiǎn)化了復(fù)雜的匹配,主要由于在搜索空間的屬性的所有可能組合的消耗是非常困難的。2.2 模式融合匹配關(guān)系模型之間的融合性能,通過(guò)建立

21、統(tǒng)一的全局查詢接口,集成查詢接口。定義2 模式融合可以看作一個(gè)三元組(DS,IS,IS*):)DSdS1,dS2,DSn,DS表示在線數(shù)據(jù)庫(kù)集合,DSi(1in)為一個(gè)在線數(shù)據(jù)庫(kù);)ISIS1,IS2,ISM,IS表示查詢接口模式集合,IS(1jm)為一個(gè)數(shù)據(jù)庫(kù)的查詢接口模式;)IS*IS1IS2ISM,IS*表示在模式IS1,IS2,ISM匹配基礎(chǔ)上,合并了查詢接口集合中表示同一語(yǔ)義的屬性,同時(shí)盡可能地保持該領(lǐng)域查詢接口的屬性順序和結(jié)構(gòu)特征,產(chǎn)生的集成查詢接口頁(yè)面。一個(gè)設(shè)計(jì)良好的集成查詢接口應(yīng)具備以下3個(gè)特點(diǎn):)完備性(conciseness):在同一領(lǐng)域的深網(wǎng)查詢接口中,如果其他查詢接口中

22、的任何屬性與之都不相似,那么這個(gè)屬性應(yīng)該出現(xiàn)在集成查詢接口中。)一致性(coherence):源自不同查詢接口語(yǔ)義相似的屬性以統(tǒng)一的通用屬性顯示在集成查詢接口中,集成查詢接口中的屬性標(biāo)簽具有一定的共性,能夠傳遞不同查詢接口中同義屬性的含義。)用戶友好性(friendly):集成查詢接口的屬性標(biāo)簽應(yīng)該是該領(lǐng)域中最常用的詞匯,且屬性間的結(jié)構(gòu)合理,布局恰當(dāng),為用戶提供較好的可視化效果。3 基于本體的深網(wǎng)查詢接口集成3.1 本體構(gòu)建和本體概念模型為了提高本體的構(gòu)建效率,并在一定程度上能夠保證領(lǐng)域本體的質(zhì)量,提出了一種半自動(dòng)構(gòu)建本體的算法。Step1、通過(guò)本體構(gòu)建工具構(gòu)建核心本體:1)領(lǐng)域術(shù)語(yǔ)抽取。確定

23、領(lǐng)域類型,從特定領(lǐng)域深網(wǎng)查詢接口表單中對(duì)領(lǐng)域術(shù)語(yǔ)進(jìn)行抽取。2)領(lǐng)域概念抽取。領(lǐng)域核心本體要求領(lǐng)域概念必須是語(yǔ)義明確的,所以需要用領(lǐng)域最通用的語(yǔ)義來(lái)描述該類術(shù)語(yǔ)。3)概念間層次關(guān)系獲取。捕獲術(shù)語(yǔ)間的語(yǔ)義關(guān)系,例如同義(Synonymy)關(guān)系、繼承(ISA)關(guān)系、包含(part-of)關(guān)系等。4)領(lǐng)域本體精煉。本體工程師以本體工程學(xué)標(biāo)準(zhǔn)對(duì)已獲取的領(lǐng)域本體概念與概念間的語(yǔ)義關(guān)系進(jìn)行修正。5)領(lǐng)域本體描述。采用本體描述語(yǔ)言(如RDF,XML,OWL等)描述領(lǐng)域本體,本體描述語(yǔ)言提供了機(jī)器對(duì)文檔容可處理的機(jī)制。Step2、如果某個(gè)術(shù)語(yǔ)不存在于核心本體中,那么通過(guò)匹配方法確定術(shù)語(yǔ)和本體概念之間的語(yǔ)義關(guān)系。

24、Step3、如果相匹配,那么將匹配的概念加入到核心本體適當(dāng)位置,以完成本體的自動(dòng)擴(kuò)展。完成本體構(gòu)建后,本體可以形式化地表示為概念層次結(jié)構(gòu),用戶的查詢以與相關(guān)數(shù)據(jù)可以映射到概念空間,它可以看作是一個(gè)保存概念和概念之間關(guān)系的知識(shí)系統(tǒng)。定義3 :領(lǐng)域本體概念模型(domain ontology concept model,DOCM)。描述了特定領(lǐng)域?qū)嶓w的術(shù)語(yǔ)組織以與術(shù)語(yǔ)之間的關(guān)系,每個(gè)概念可以形式化為ClassAi,DTi,Si,CIi,CAi,SCi,nI1,nI2,nIk,Ni,表示與該概念相關(guān)的數(shù)據(jù)信息,其中:Ai表示概念主類,它是特定領(lǐng)域下通用的、人們易于理解的詞匯,該詞匯表示一類概念,可以

25、看作描述這類概念的關(guān)鍵字;DTi表示概念所屬的數(shù)據(jù)類型;Si表示概念主類的同義詞集合,即概念別名;CIi表示概念主類的實(shí)例集合;CAi表示與概念相關(guān)的條件屬性集合,主類與條件屬性表示包含關(guān)系;SCi表示概念主類的子類集合,主類與子類表示繼承關(guān)系;nI1,nI2,nIk表示概念主類的k個(gè)實(shí)例的計(jì)數(shù)器;Ni表示概念主類的計(jì)數(shù)器。DOCM具有良好的組織結(jié)構(gòu),能夠清晰地描述概念與概念之間的關(guān)系。本體構(gòu)建采用Protg(是一個(gè)史丹佛大學(xué)開發(fā)的本體編輯和知識(shí)獲取軟件,開發(fā)語(yǔ)言采用Java,屬于開放源碼軟件)作為本體編輯工具,并以O(shè)WL作為本體描述語(yǔ)言。通過(guò)對(duì)OWL文件的操作,可以很容易地實(shí)現(xiàn)對(duì)DOCM的調(diào)

26、用。3.2 基于本體的模式匹配基于本體的查詢接口模式匹配方式有屬性級(jí)和實(shí)例級(jí)2種匹配:定義4:本體的屬性級(jí)匹配。假設(shè)A*表示W(wǎng)eb數(shù)據(jù)庫(kù)查詢接口的屬性,Ai表示DOCM中概念節(jié)點(diǎn)的概念主類,Si表示Ai的同義詞集合,CAi表示Ai的條件屬性,SCi表示Ai的子類,Sim(A*,Ai)表示應(yīng)用基于本體的短語(yǔ)相似度算法。計(jì)算A*與Ai的相似度值,表示相似度閾值,Ni表示Ai的計(jì)數(shù)器。屬性級(jí)匹配存在以下幾種情況:)如果A*Si或者A*Ai,那么表示A*與Ai是1:1的屬性匹配,Ai的計(jì)數(shù)器加,即;)如 果A*Si,A*Ai,且Si(A*,Ai),那么表示A*與Ai是1:1的屬性匹配,同時(shí),將A*作為

27、Ai的一個(gè)同義詞加入同義詞集合Si中,Ai的計(jì)數(shù)器加1,即NiNi1;)如果A*CAiSCi,那么表示A*與Ai是M:1的屬性匹配,Ai的計(jì)數(shù)器加,即NiNi1;)如果A*DOCM,且Ai,Si(A*,Ai),表示A*與Ai不存在匹配關(guān)系,那么創(chuàng)建一個(gè)新類Class,將A*作為Class的主類加入DOCM中,并設(shè)置A*的計(jì)數(shù)器為。定義5:基于本體的短語(yǔ)相似度算法。給定短語(yǔ)P1和短語(yǔ)P2,通過(guò)預(yù)處理將短語(yǔ)P1和短語(yǔ)P2分別表示為詞集P1c1,c2,cm和P2cl1,cl2,cln,對(duì)于短語(yǔ)P1中的每個(gè)詞匯ci(1im,借助通用本體WordNet分別計(jì)算其與短語(yǔ)P2中每個(gè)詞匯clj(1jn)的相似

28、度,其計(jì)算如式(1)所示:其中,overlap(ci,clj)表示詞匯ci與詞匯clj的語(yǔ)義重合度,即在WordNet概念樹中,詞匯ci與詞匯clj之間包含一樣上位概念的個(gè)數(shù)。Depth(ci)表示詞匯ci的概念深度,即詞匯ci在WordNet概念樹中到達(dá)根節(jié)點(diǎn)的層次深度,同理,depth(clj)表示詞匯clj在WordNet概念樹中到達(dá)根節(jié)點(diǎn)的層次深度。如果短語(yǔ)P1中詞匯ci與短語(yǔ)P2中詞匯clj一樣,那么Sim(ci,clj)1。然后,在短語(yǔ)P2中找到與短語(yǔ)P1中詞匯ci相似度最大的值作為短語(yǔ)P1相似度值集中的一個(gè)值Si,從而獲得短語(yǔ)P1的相似度值集Sim1S1,S2,Sm,采樣同樣方法

29、獲得短語(yǔ)P2的相似度值集Sim2sl1,sl2,sln。短語(yǔ)P1和P2的最后相似度通過(guò)每個(gè)短語(yǔ)中詞匯各自的相似度占總單詞個(gè)數(shù)的比例獲得,其計(jì)算如式(2)所示:假設(shè)給定短語(yǔ)P3,為相似度閾值。如果Sim(P1,P2)Sim(P1,P3)成立,那么可以推測(cè)短語(yǔ)P2和短語(yǔ)P3是語(yǔ)義相似的,都應(yīng)記錄于匹配對(duì)應(yīng)關(guān)系集中。通過(guò)關(guān)鍵字屬性級(jí)匹配方法,可以準(zhǔn)確識(shí)別DOCM中類或?qū)傩耘c來(lái)自不同查詢接口屬性之間的匹配關(guān)系,不僅能夠識(shí)別簡(jiǎn)單匹配,而且能夠識(shí)別復(fù)雜匹配。相比于傳統(tǒng)模式匹配方法,大大提高了匹配精度并降低了模式匹配過(guò)程的復(fù)雜性。假設(shè)屬性來(lái)自查詢接口QI1,屬性來(lái)自查詢接口QI2,即eQI1,fQI2,同時(shí)

30、,在DOCM中存在主類g,該主類g包含2個(gè)同義詞匯e和f,那么,在比較查詢接口QI1中屬性e和查詢接口QI2中屬性f時(shí),首先比較查詢接口QI1中屬性e與DOCM中主類的相似度。通過(guò)比較,如果發(fā)現(xiàn)查詢接口QI1中屬性e與DOCM中主類g相似,并且在g的同義詞集合中包括同義詞f,那么DOCM中的主類g可以看作“橋接”,進(jìn)而推出查詢接口QI1中屬性e和查詢接口QI2中屬性f是相似的,此時(shí)查詢接口QI1中屬性e和查詢接口QI2中屬性f為1:1的簡(jiǎn)單匹配。對(duì)于M:N匹配,首先將其轉(zhuǎn)換為M1匹配和1:N匹配,進(jìn)而獲得M:N匹配。例如:某個(gè)源查詢接口中存在屬性“公共屬性”,它包含2個(gè)條件屬性“date fr

31、om”和“date to”,當(dāng)查找DOCM時(shí),DOCM中包含類屬性“from”和“to”,并且類屬性“from”和“tp”在DOCM中的概念主類為“出版日期,那么通過(guò)比較可知源查詢接口屬性“publication”與DOCM中主類“出版日期”是相似的,進(jìn)而可以推知“publication”與“from”和“to”為1:M匹配,“date from”與“publication date”為M1匹配,“from”和“to”與“date from”和“date to”為M:N匹配。定義6:基于本體的實(shí)例級(jí)匹配。假設(shè)A*表示W(wǎng)eb數(shù)據(jù)庫(kù)查詢接口的屬性,Ai表示DOCM中概念節(jié)點(diǎn)Ci的概念主類,CI*表

32、示A*的實(shí)例集合,CIi表示Ai的實(shí)例集合,NI1,NI2,Nik表示Ai的k個(gè)實(shí)例計(jì)數(shù)器集合。如果A*與Ai相似,那么SiM(A*,Ai)成立,其中表示A*和Ai的相似度閾值。對(duì)于查詢接口屬性A*的實(shí)例Ins*j,Ins*jCI*,存在以下幾種情況:1)如果IN*jCIi,那么NihjNij1;2)如果INs*jCIi,CIiINS1,INsk,SiM(Ins*j,INsM)MSiM(Ins*j,INS1),SiM(Ins*j,INS2),SiM(IN*j,INsk),1Mk,那么NiMNiM1,否則表示實(shí)例INs*j的概念不存在于Ai的實(shí)例中,那么將INs*j作為一個(gè)新實(shí)例加入DOCM中類

33、Ai的CIi中,同時(shí),將新實(shí)例的初始計(jì)數(shù)器設(shè)置為1。例、假設(shè)源查詢接口包含屬性“category”,其實(shí)例空間為“architecture and photograhy”,“philosophy”,“Biography”,DOCM中包含主類“subject”,其實(shí)例空間為“history”,“philosophy”,“architecture”。由于源查詢接口屬性“category”與DOCM中主類“subject”相似,因此,需要合并屬性值,以確定實(shí)例空間。通過(guò)基于本體的短語(yǔ)相似度算法計(jì)算“architecture and photograhy”與“architecture”是相似的,那么D

34、OCM中主類“subject”的實(shí)例“architecture”計(jì)數(shù)器加1;源查詢接口屬性實(shí)例“philosophy”在DOCM中主類“subject”的實(shí)例值中,那么DOCM中主類“subject”的實(shí)例“philosophy”計(jì)數(shù)器加1;源查詢接口屬性實(shí)例“Biography”與DOCM中主類“subject”的所有實(shí)例值均不相似,表明實(shí)例“Biography”不存在于DOCM中主類“subject”的實(shí)例值中,那么將“Biography”作為主類“subject”的一個(gè)新實(shí)例加入DOCM中主類“subject”的實(shí)例值中,并將計(jì)數(shù)器初始值設(shè)置為1,以豐富本體實(shí)例。查詢接口集成模式匹配詳細(xì)

35、流程如圖2所示:圖2 查詢接口集成模式匹配過(guò)程其過(guò)程可以分為3個(gè)階段:1)、數(shù)據(jù)預(yù)處理為了避免因?yàn)樾问缴系牟顒e導(dǎo)致丟失匹配,在執(zhí)行匹配過(guò)程之前,需要對(duì)查詢接口與DOCM進(jìn)行標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)化步驟:Step1、考察每個(gè)詞匯,如果詞匯中含有不屬于集合,0,9的字符,那么將其用空格字符替換。Step2、轉(zhuǎn)換所有的大寫字符為與之等價(jià)的小寫字符。Step3、停用詞移除。停用詞是指那些在語(yǔ)言中常常出現(xiàn)、但是可以忽略的單詞。它們作為句子的組成成分,卻不能表達(dá)文檔的任何容。Step4、轉(zhuǎn)換詞匯中的縮寫和簡(jiǎn)寫。Step5、通常,一個(gè)詞匯在不同的語(yǔ)境中有著不同的語(yǔ)法形式,詞干提取使得匹配過(guò)程能接受單詞的不同變化形

36、式,從而提高查全率。因此,需要對(duì)每個(gè)詞匯使用詞干分析算法提取詞干。2)、匹配發(fā)現(xiàn)Step1、依次遍歷每個(gè)源查詢接口的模式鏈表,獲取每個(gè)邏輯屬性的屬性標(biāo)簽;Step2、通過(guò)基于本體的屬性級(jí)匹配算法對(duì)該屬性標(biāo)簽進(jìn)行匹配;Step3、如果源查詢接口屬性含有實(shí)例集合,那么調(diào)用基于本體的實(shí)例級(jí)匹配算法;Step4、最后將匹配結(jié)果存儲(chǔ)于映射表中。3)、記錄匹配關(guān)系映射表結(jié)構(gòu)如圖3所示,它記錄了DOCM中每個(gè)本體概念與之相匹配的所有源查詢接口屬性之間的映射關(guān)系。映射表以鏈表形式表示,每個(gè)本體概念結(jié)點(diǎn)了與該結(jié)點(diǎn)相匹配的源查詢接口屬性信息,這些信息包括URL,Action,Name,type,label,val

37、ue,constraint。圖3映射表通過(guò)映射關(guān)系能夠自動(dòng)識(shí)別一樣語(yǔ)義查詢接口的不同表現(xiàn)形式,將異構(gòu)數(shù)據(jù)庫(kù)進(jìn)行整合。3.3 模式融合規(guī)則模式融合通過(guò)由模式匹配器識(shí)別出的屬性映射關(guān)系合并源查詢接口的模式,以構(gòu)造全局查詢接口。接口模式的融合包括4個(gè)方面:1)、查詢接口集成屬性標(biāo)簽的確定查詢接口集成以源查詢接口模式作為輸入,通過(guò)DOCM建立語(yǔ)義相近屬性間的映射關(guān)系,將多個(gè)數(shù)據(jù)庫(kù)模式生成為模式元素間屬性與DOCM中概念的映射,在不同查詢接口間發(fā)現(xiàn)1:1匹配和M:N匹配,使這些模式合并為統(tǒng)一的全局模式。由于不同查詢接口界面不同,并且對(duì)于同一查詢條件命名方式也不一樣,因此,通過(guò)基于本體的深網(wǎng)接口模式匹配,

38、將不同查詢接口的屬性標(biāo)簽映射為DOCM中的類(概念),用DOCM中的主類對(duì)不同查詢接口表示一樣語(yǔ)義的元素統(tǒng)一命名,作為集成查詢接口的屬性標(biāo)簽,同時(shí)保留集成查詢接口與各源查詢接口的映射關(guān)系。2)、查詢接口集成屬性類型的確定根據(jù)類型識(shí)別器識(shí)別各屬性的類型,屬性類型由以下兩個(gè)規(guī)則確定:規(guī)則1、如果所有已匹配同義屬性具有一樣的類型(MAiNe),那么全局屬性的屬性類型為該類型。規(guī)則2、如果各源查詢接口同義屬性的類型不完全一樣,那么分別記錄各源查詢接口同義屬性類型個(gè)數(shù),在集成查詢接口中,以出現(xiàn)次數(shù)最多的屬性類型作為集成查詢接口該屬性的類型。3)、查詢接口集成的屬性值(即搜索空間)的確定在查詢接口集成屬性

39、值的選擇過(guò)程中,根據(jù)屬性類型的不同,屬性值融合分為2種方式:字符類型屬性值融合和數(shù)值類型屬性值融合。對(duì)于不同查詢接口的同義屬性,如果該屬性的屬性值與DOCM中同義主類的實(shí)例相匹配,那么不作處理;如果該屬性的屬性值與DOCM中同義主類的實(shí)例不相匹配,那么,將源查詢接口屬性的屬性值作為該主類的新實(shí)例加入到DOCM中。字符類型值融合(Merging alphabetic domains):使用值之間的語(yǔ)義關(guān)系來(lái)合并它們并生成全局值集合。選擇方法包括以下2種:字符串匹配(approximatest string matching)。兩個(gè)屬性名字的一種近似字符串匹配是找出兩個(gè)名字字符串的編輯距離是否在一

40、個(gè)允許的閾值。編輯距離,即將一個(gè)字符串轉(zhuǎn)換成另一個(gè)字符串所需要插入、刪除和替換的字符數(shù)。例如,將NKN轉(zhuǎn)換成NIKON需要添加2個(gè)字符,而較長(zhǎng)的字串長(zhǎng)度為5,因此它們的編輯距離為2.5,即0.4。短語(yǔ)相似度匹配(phrase similarty matching)。即使用基于本體的短語(yǔ)相似度算法獲得兩個(gè)包含多個(gè)單詞的屬性值的相似度,如果相似則選擇最常用的值作為全局屬性值。例4、如圖4所示,屬性“subject”和屬性“category”來(lái)自2個(gè)不同的源查詢接口,DOCM中包含主類“subject”,因此,集成查詢接口中該同義屬性以DOCM中的主類為主,即為“subject”,經(jīng)過(guò)相似度計(jì)算,合

41、并每個(gè)查詢接口的實(shí)例值,得到集成查詢接口屬性“subject”的實(shí)例值。圖4合并字符型實(shí)例值例子數(shù)值類型值融合:分為離散型數(shù)值和區(qū)間型數(shù)值。對(duì)于離散型數(shù)值融合只需將各源查詢接口同義屬性的離散數(shù)值合并即可。對(duì)于區(qū)間型數(shù)值一般由數(shù)值和區(qū)間(range)修飾語(yǔ)聯(lián)合表示。例如,“baby”被解釋成“under 3 years”,“teen”表示“1318years”,“adult”表示“over 18 years”。此時(shí),需要建立一個(gè)語(yǔ)義詞典保存常用的range標(biāo)識(shí),并記錄range的含義,如表1所示:圍修飾符符號(hào)小于超于遠(yuǎn)超于表1 區(qū)間標(biāo)識(shí)符字典例5、如果2個(gè)源查詢接口的同義屬性的屬性值均含有數(shù)值區(qū)

42、間類型值,那么在合并值的過(guò)程,首先解析屬性值,對(duì)于未出現(xiàn)于區(qū)間標(biāo)識(shí)符字典中的字符(除數(shù)字外)用空格表示,出現(xiàn)過(guò)的字符,根據(jù)區(qū)間標(biāo)識(shí)符字典,將屬性值表示為數(shù)值區(qū)間。當(dāng)屬性的屬性值匹配完畢后,按照升序?qū)傩灾颠M(jìn)行排序,并在每?jī)蓚€(gè)相鄰值之間增加區(qū)間標(biāo)識(shí),如圖5所示:圖5 區(qū)間型數(shù)值合并過(guò)程4)、集成查詢接口布局的確定。一般情況下,用戶友好的、重要的、使用頻率高的屬性出現(xiàn)在查詢接口的前面位置。在源查詢接口中,每個(gè)屬性都有各自的位置,而屬性布局的位置反映了屬性的重要程度。通常,查詢接口的前幾個(gè)屬性的使用頻率比后面屬性的使用頻率高。為了保證重要的屬性仍然在全局查詢接口的前面位置,引入屬性位置平均值概念,用

43、于確定全局查詢接口屬性的排序。定義7、屬性位置平均值 (attribute average position)。集成查詢接口屬性的位置平均值等于該屬性在所有源查詢接口中位置的總和與其出現(xiàn)次數(shù)總和的比值,其計(jì)算如式(3)所示:其中M表示所有包含與ci匹配的源查詢接口個(gè)數(shù);lposk(ci)表示屬性ci在查詢接口k中的位置;lfeok(ci)表示屬性ci在查詢接口k中出現(xiàn)的次數(shù),如果是1:1匹配,則為1;如果是復(fù)雜匹配,則為查詢接口中復(fù)雜匹配的屬性個(gè)數(shù)。查詢接口集成的布局規(guī)則如下:規(guī)則1、當(dāng)布局集成查詢接口時(shí),首先按照全局屬性的位置平均值升序排序,值較小的屬性排列在前面。規(guī)則2、如果屬性位置平均值

44、一樣,那么按照全局屬性的出現(xiàn)頻率和的順序排列,頻率和較大說(shuō)明屬性較為重要,需要放在前面。規(guī)則3、如果集成查詢接口的屬性包括所有源查詢接口屬性,那么集成查詢接口屬性的數(shù)量可能會(huì)較多。為了消除一些不重要的屬性,可以考慮設(shè)置一個(gè)閾值,用來(lái)表示集成查詢接口中所期望的屬性個(gè)數(shù)。4 實(shí)驗(yàn)應(yīng)用Protg工具構(gòu)建領(lǐng)域本體,并通過(guò)java API對(duì)Protg進(jìn)行調(diào)用。在比較相似度的過(guò)程中,通過(guò)JWNL API調(diào)用WordNet,同時(shí),借助DOCM獲取所有接口間的模式匹配,實(shí)現(xiàn)查詢接口的集成。以圖書領(lǐng)域?yàn)槔绻刹樵兘涌趯傩詡€(gè)數(shù)閾值設(shè)置為10,相似度閾值設(shè)置為0.8。圖6深網(wǎng)集成查詢接口示例其中:區(qū)域1表示參

45、數(shù)設(shè)置;區(qū)域2表示源查詢接口的URL集合;區(qū)域3表示一個(gè)查詢接口界面;區(qū)域4表示集成查詢接口界面;區(qū)域5表示查詢接口間的匹配過(guò)程。如果用戶從區(qū)域2中選擇一些URL,那么經(jīng)過(guò)模式抽取和模式匹配后,將在區(qū)域4中產(chǎn)生這些的集成查詢接口;如果用戶需要比較某個(gè)源查詢接口和集成查詢接口的差異時(shí),用戶可以從區(qū)域2中選擇源查詢接口的URL,雙擊該URL,其接口結(jié)構(gòu)將在區(qū)域3中顯示。通過(guò)區(qū)域3和區(qū)域4,用戶可以很容易地了解不同查詢接口之間的差異。為了進(jìn)一步驗(yàn)證本文方法的可行性和高效性,分別進(jìn)行以下3個(gè)實(shí)驗(yàn):實(shí)驗(yàn)1、模式匹配采用信息檢索中的查全率、查準(zhǔn)率和FMeasure來(lái)評(píng)價(jià)查詢接口模式匹配的精度。查全率指由算

46、法所識(shí)別出的正確匹配占所有匹配的百分比,查準(zhǔn)率指由算法所識(shí)別出的正確匹配占所識(shí)別匹配的百分比,F(xiàn)Measure是一個(gè)把查全率和查準(zhǔn)率結(jié)合起來(lái)的指標(biāo),F(xiàn)Measure值越大系統(tǒng)性能越好。查詢接口集成的數(shù)據(jù)集來(lái)自UIUC集成知識(shí)庫(kù),從該數(shù)據(jù)集中選擇46個(gè)圖書領(lǐng)域查詢接口用以驗(yàn)證本文的方法。如果屬性匹配閾值設(shè)置為0.8,那么模式匹配結(jié)果如表2所示:數(shù)值屬性編號(hào)查全率查準(zhǔn)率F-Measure10860.9180.9290.923201400.9210.9350.928302060.9320.9320.932463060.9350.9410.938表2 基于本體的模式匹配結(jié)果實(shí)驗(yàn)結(jié)果表明,隨著查詢接口數(shù)

47、目的增加,查全率、查準(zhǔn)率和FMeasure逐漸提高。原因在于模式匹配的過(guò)程中,不斷地將未包含于本體中的概念加入到本體的適當(dāng)位置,使得領(lǐng)域本體不斷完善。由于模式匹配的精度在很大程度上依賴于本體知識(shí)庫(kù)的完備性。因此,一般來(lái)說(shuō),領(lǐng)域本體知識(shí)庫(kù)越完備屬性匹配精度越高。實(shí)驗(yàn)2、模式融合采用信息檢索中的查全率、查準(zhǔn)率和FMeasure來(lái)評(píng)價(jià)查詢接口模式融合的精度。查全率指由算法所識(shí)別出的正確融合屬性占所有融合屬性的百分比,查準(zhǔn)率指由算法所識(shí)別出的正確融合屬性占所識(shí)別融合屬性的百分比。由于屬性值級(jí)的合并精度主要取決于屬性類型為“select”和“text area”的值合并,因此,以46個(gè)表單為例,通過(guò)合并

48、實(shí)驗(yàn)1的匹配屬性,其屬性值的合并結(jié)果如表3所示:表3 屬性值合并結(jié)果域類型屬性編號(hào)查全率查準(zhǔn)率F-Measure字母的值660.8330.8730.853離散數(shù)值100.90.90.9連續(xù)性數(shù)值70.7140.8330.769屬性值的合并主要為字符類型值融合和數(shù)值類型值融合。從實(shí)驗(yàn)2可以看出,對(duì)于字符類型值融合和離散型數(shù)值融合其精度較高,而對(duì)于區(qū)間型數(shù)值融合由于通常包含修飾詞語(yǔ),需要查找區(qū)間標(biāo)識(shí)符字典才能準(zhǔn)確合并區(qū)間型數(shù)值,其精度主要取決于區(qū)間標(biāo)識(shí)符step字典,因此,相對(duì)于字符類型值融合和離散型數(shù)值融合,區(qū)間型數(shù)值融合精度較低。實(shí)驗(yàn)3、集成查詢接口集成查詢接口的集成精度可以定義為式(4):其中,I表示集成查詢接口,IA(I)表示集成查詢接口精度,M表示源查詢接口集合中的接口個(gè)數(shù),MI表示查詢接口I與集成

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論