版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第十章Web數(shù)據(jù)庫集成系統(tǒng)分布式數(shù)據(jù)庫系統(tǒng)原理與應(yīng)用動(dòng)機(jī)Web,我們廣泛應(yīng)用著,但還存在許多挑戰(zhàn)性問題?結(jié)構(gòu)化數(shù)據(jù)
豐富,然而卻很少被利用!Web信息分類Web上的信息可分為:SurfaceWeb和DeepWeb。SurfaceWeb是指可以通過超鏈接被傳統(tǒng)的搜索引擎索引到的頁面的集合;而DeepWeb是指Web中不能被傳統(tǒng)的搜索引擎索引到的那部分內(nèi)容,只能通過查詢接口動(dòng)態(tài)提交查詢來訪問Web中的內(nèi)容。
TheDeepWeb:Web上的數(shù)據(jù)庫目前,有關(guān)Web的挑戰(zhàn)是“雙重的”
Getting
access
tothe
structured
information!AccessStructure
SurfaceWebDeepWeb
以前Web上:
搜索通常是基于爬蟲和索引(crawlandindex)
當(dāng)前Web上:
搜索的最終目標(biāo)是實(shí)現(xiàn)數(shù)據(jù)集成DeepWeb數(shù)據(jù)集成案例應(yīng)用案例:Web信息集成系統(tǒng)
動(dòng)機(jī):
Web上信息以多種形式存在,但目前主要基于Google、yahoo、百度等搜索引擎進(jìn)行查詢,返回含有關(guān)鍵字的URI導(dǎo)航信息頁面(包括無用信息)。用戶通過逐一點(diǎn)擊獲取需要的信息,需要人們繁瑣的信息收集和識(shí)別過程,給人們帶來了許多不便。盡管如此,用戶得到的還是零散的、不完備的且非系統(tǒng)的信息。
目標(biāo):人們希望通過一個(gè)統(tǒng)一的獲取信息的門戶,能按需為用戶提供整合的信息??纱蟠蠊?jié)省大量的人力,提高查詢的效率和知識(shí)的利用率。購買一本書?Google上找書店對(duì)比最后確定要買的書太繁瑣!分別查詢各書店網(wǎng)頁返回優(yōu)化的結(jié)果自動(dòng)查找和集成多查詢統(tǒng)一界面人們希望:存在許多挑戰(zhàn)問題:!!!DeepWeb數(shù)據(jù)集成關(guān)鍵問題主要科學(xué)問題
如何從豐富的Web頁面中按需并正確地發(fā)現(xiàn)和抽取實(shí)體資源;
非結(jié)構(gòu)化信息、包含噪聲、存在異構(gòu)
如何發(fā)現(xiàn)不同類型實(shí)體資源的關(guān)聯(lián)關(guān)系;
各種類型資源獨(dú)立、異構(gòu)、自治存在
如何整合不同類型的資源;
多種類型資源、大數(shù)據(jù)量、資源質(zhì)量不同如:一本書,一輛車,一個(gè)人等如:同類書、同一作者的書、同事、合作者等如:按書的價(jià)值高低排序;找該書相關(guān)的資料,如出版社、作者、作者的單位等國(guó)內(nèi)外研究現(xiàn)狀-1
國(guó)內(nèi)外研究現(xiàn)狀-1
深層數(shù)據(jù)源模式抽取技術(shù)Web數(shù)據(jù)庫查詢接口模式抽取研究
基本思想:基于查詢頁面的標(biāo)簽布局確定接口模式,如書名:Web數(shù)據(jù)庫結(jié)果模式抽取研究
基本思想:基于結(jié)果標(biāo)簽布局和基于實(shí)例探測(cè)確定結(jié)果數(shù)據(jù)的模式,如“書名:數(shù)據(jù)庫原理”
國(guó)內(nèi)外研究現(xiàn)狀-2
國(guó)內(nèi)外研究現(xiàn)狀-2深層數(shù)據(jù)源發(fā)現(xiàn)技術(shù)
DeepWeb發(fā)現(xiàn)研究
基本思想:針對(duì)查詢接口頁面布局信息并結(jié)合查詢探測(cè)確定是否為DeepWeb資源,如具有文本框的頁面DeepWeb數(shù)據(jù)源分類研究
基本思想:基于文檔分類的算法對(duì)Web數(shù)據(jù)庫查詢結(jié)果頁面分類
基本思想:查詢接口所在頁面上的特征,如有書名為圖書類數(shù)據(jù)源DeepWeb選擇的研究
基本思想:主要考慮接口模式屬性和用戶查詢屬性間的匹配關(guān)系,沒有涉及數(shù)據(jù)源質(zhì)量、數(shù)據(jù)源的查詢選擇度等
國(guó)內(nèi)外研究現(xiàn)狀-3國(guó)內(nèi)外研究現(xiàn)狀-3實(shí)體關(guān)聯(lián)關(guān)系發(fā)現(xiàn)基于屬性文本特征獲取實(shí)體間的關(guān)聯(lián)關(guān)系
基本思想:若兩個(gè)實(shí)體記錄在描述屬性上越相似,它們就越有可能相互等價(jià),二者的語義關(guān)聯(lián)也就越強(qiáng)。基于上下文語義信息獲取實(shí)體間的關(guān)聯(lián)關(guān)系
基本思想:若實(shí)體的上下文語義信息之間存在著較多的聯(lián)系,則它們將具有較強(qiáng)的語義關(guān)聯(lián)。
國(guó)內(nèi)外研究現(xiàn)狀-4
國(guó)內(nèi)外研究現(xiàn)狀-4
DeepWeb數(shù)據(jù)整合技術(shù):主要是對(duì)相似重復(fù)記錄的識(shí)別半結(jié)構(gòu)化的XML模式上展開
基本思想:考慮樹結(jié)構(gòu)和節(jié)點(diǎn)內(nèi)容;基于實(shí)體表示形式轉(zhuǎn)換
基本思想:歸納出實(shí)體規(guī)則,并以DBLP和Wikipedia為標(biāo)準(zhǔn)進(jìn)行匹配;用聚類算法基本思想:基于聚類方法實(shí)現(xiàn)國(guó)內(nèi)外研究現(xiàn)狀-5
國(guó)內(nèi)外研究現(xiàn)狀-5
查詢松弛技術(shù)基于查詢屬性松弛
基本思想:依次去除不重要的查詢屬性基于實(shí)例的查詢松弛
基本思想:擴(kuò)大查詢謂詞的選擇范圍國(guó)內(nèi)外研究現(xiàn)狀-6
國(guó)內(nèi)外研究現(xiàn)狀-6
在DeepWeb研究領(lǐng)域中,已展開了相關(guān)的工作,典型的有:DeepWeb數(shù)據(jù)源發(fā)現(xiàn)與分類、查詢頁面接口抽取與查詢接口間映射和響應(yīng)頁面實(shí)例信息抽取等,并取得了一定的進(jìn)展。但總的來說,目前人們對(duì)DeepWeb的研究還只是處于探索性階段,還不存在一個(gè)比較成熟的DeepWeb數(shù)據(jù)庫集成和檢索系統(tǒng),付諸于應(yīng)用還有一段距離??梢姡瑸橹С諨eepWeb信息整合,還存在許多挑戰(zhàn)性工作。一個(gè)DeepWeb數(shù)據(jù)庫集成系統(tǒng)在該集成系統(tǒng)下的相關(guān)研究?jī)?nèi)容DeepWeb集成系統(tǒng)框架結(jié)構(gòu)數(shù)據(jù)源分類數(shù)據(jù)源選擇接口模式抽取數(shù)據(jù)抽取與模式識(shí)別松弛查詢
重復(fù)記錄識(shí)別結(jié)果實(shí)體Top-k一個(gè)面向圖書的DeepWeb數(shù)據(jù)庫集成系統(tǒng)18現(xiàn)有DeepWeb集成框架模型數(shù)據(jù)供應(yīng)模式(DataFeed)數(shù)據(jù)收集模式(DataCollection)元搜索模式(Metasearch)19Web數(shù)據(jù)庫集成框架設(shè)計(jì)思想面向特定領(lǐng)域應(yīng)用領(lǐng)域知識(shí)解決全局抽象和語義信息支持提供查詢探測(cè)實(shí)例基于元搜索模式能夠提供即時(shí)更新的數(shù)據(jù)記錄具有較好的伸縮性具有較低的維護(hù)代價(jià)20一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識(shí)用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫21一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識(shí)用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫接口模式抽取文本輸入框<inputtype=“text”name=“tn”>下拉框<selectnme=“sn”>單選按鈕<inputtype=“radio”name=“rn”>復(fù)選按鈕<inputtype=“checkbox”name=“rn”>值標(biāo)簽屬性標(biāo)簽HTML表單介紹接口模式抽取查詢接口設(shè)計(jì)規(guī)律-屬性標(biāo)簽匹配方向LeftUp接口模式抽取查詢接口設(shè)計(jì)規(guī)律-范圍詞的連接作用接口模式抽取查詢接口設(shè)計(jì)規(guī)律-元素與文本的分布規(guī)律按行分布接口模式抽取查詢接口設(shè)計(jì)規(guī)律-元素分組與標(biāo)簽匹配規(guī)律元素C1C2C3C4UpDownLeftRightQE-Extractor模型接口模式抽取28一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識(shí)用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫29基于領(lǐng)域主題的數(shù)據(jù)源分類Web數(shù)據(jù)庫分類的意義高效管理Web數(shù)據(jù)庫資源,輔助用戶搜索其所需的資源?;舅枷敫鶕?jù)領(lǐng)域中記錄的某一屬性將其分為不同的內(nèi)容主題,如圖書可以分為“計(jì)算機(jī)”,“小說”等;為每個(gè)內(nèi)容主題選擇匹配的樣本實(shí)例;使用內(nèi)容主題的樣本實(shí)例探測(cè)Web數(shù)據(jù)庫,根據(jù)返回的查詢結(jié)果數(shù)量判斷。要注意的特性對(duì)于不同的Web數(shù)據(jù)庫所包含的數(shù)據(jù)規(guī)模不同;不同主題包含的數(shù)據(jù)記錄數(shù)量存在很大的差異;查詢接口對(duì)應(yīng)的查詢方式不同30基于查詢探測(cè)的矩陣分類法基于領(lǐng)域主題的數(shù)據(jù)源分類31基于樣本實(shí)例的查詢探測(cè)樣本實(shí)例的訓(xùn)練在內(nèi)容主題內(nèi):去除關(guān)鍵字重復(fù)的樣本實(shí)例在內(nèi)容主題間:去除主題區(qū)分度低的樣本實(shí)例查詢結(jié)果數(shù)量的估計(jì)數(shù)據(jù)源的不同查詢處理類型AandB(A&B)AorB(A|B)Q(A&B)=Q(A)+Q(B)-Q(A|B)基于領(lǐng)域主題的數(shù)據(jù)源分類32例:在領(lǐng)域中包含三個(gè)主題分類分別標(biāo)記為C1、C2和C3,以及四個(gè)Web數(shù)據(jù)庫標(biāo)記為S1至S4
基于領(lǐng)域主題的數(shù)據(jù)源分類
基于主題的數(shù)據(jù)源分類例主題相對(duì)分區(qū)矩陣數(shù)據(jù)源相對(duì)規(guī)模矩陣主題規(guī)模數(shù)據(jù)源規(guī)模基于領(lǐng)域主題的數(shù)據(jù)源分類34查詢結(jié)果矩陣的二值化與合并基于參數(shù)
對(duì)矩陣單元二值化:
xij<xik
合并規(guī)則若x’ij=y’ij
,則Fij=x’ij=y’ij;若x’ij
y’ij
,則Fij=-1對(duì)于Fij=-1的項(xiàng),通過重新的查詢探測(cè)確認(rèn)其分類關(guān)系&基于領(lǐng)域主題的數(shù)據(jù)源分類35一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識(shí)用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫數(shù)據(jù)源選擇基于主要屬性的數(shù)據(jù)源Top-k基本思想:
AttributebasedFrequentPatterngrowth(AFP-growth)algorithm(獲得主要屬性集)
產(chǎn)生主要屬性矩陣:用Top-k算法基于互信息捕獲屬性關(guān)聯(lián)關(guān)系產(chǎn)生混合矩陣:數(shù)據(jù)源選擇構(gòu)建基于屬性的支配模式樹ADP-tree-找主要屬性DSID Attribute (ordered)frequentitems100 {f,a,c,d,g,i,m,p}
{f,c,a,m,p}200 {a,b,c,f,l,m,o}
{f,c,a,b,m}300
{b,f,h,j,o,w}
{f,b}400
{b,c,k,s,p}
{c,b,p}500
{a,f,c,e,l,p,m,n}
{f,c,a,m,p}{}f:4c:1b:1p:1b:1c:3a:3b:1m:2p:2m:1HTableItemfrequencyheadf 4c 4a 3b 3m 3p 3min_support=3HashTabled1d1
TOP-kInvertedIndexs(dsij1,wj1)=0.7…s(dsijk,wjk)=0.2…Repositoryds1,…,dsnQueryQA=(transportation,tunnel,disaster)……transportds780.9ds10.7ds880.2ds10.2ds780.1ds990.2ds340.1ds230.8ds100.8ds1tunnelds640.8ds230.6ds100.6disasterds100.7ds780.5ds640.4k=1Sortandrankds10Aggregatescores數(shù)據(jù)源選擇數(shù)據(jù)源選擇模式級(jí)接口模式搜索模式(全文or題目or摘要)實(shí)例級(jí)類別覆蓋度(主題)搜索準(zhǔn)確度(依據(jù)以前的查詢)質(zhì)量級(jí)用戶評(píng)價(jià)值平均響應(yīng)時(shí)間40一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識(shí)用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫結(jié)果數(shù)據(jù)抽取基于查詢結(jié)果模式的記錄抽取方法將查詢結(jié)果頁面轉(zhuǎn)換為DOM樹結(jié)構(gòu);利用查詢結(jié)果模式中的記錄節(jié)點(diǎn)路徑DA,在DOM中匹配符合路徑DA的節(jié)點(diǎn)集合;針對(duì)查詢結(jié)果模式中每個(gè)屬性RA的屬性值的訪問路徑P,抽取其中內(nèi)容作為查詢結(jié)果記錄在屬性RA上的屬性值?;诠?jié)點(diǎn)聚類的抽取方法基本方法查詢結(jié)果頁面DOM樹建模識(shí)別數(shù)據(jù)區(qū)域與查詢結(jié)果記錄
結(jié)果數(shù)據(jù)抽取復(fù)雜結(jié)構(gòu)頁面記錄識(shí)別屬性集合
{RA1,RA2,…,RAn}
屬性節(jié)點(diǎn)集合{RAx.1,RAx.2,…,RAx.m}
查詢結(jié)果記錄Ni={RA1.i,RA2.i,…,RAn.i}
結(jié)果數(shù)據(jù)抽取
基于關(guān)鍵字的數(shù)據(jù)抽取結(jié)果數(shù)據(jù)抽取結(jié)果數(shù)據(jù)抽取包裝器目的使用相同的規(guī)則抽取多個(gè)查詢結(jié)果頁面中的數(shù)據(jù)記錄;連續(xù)地訪問結(jié)果頁面并抽取記錄。方法:基于節(jié)點(diǎn)路徑規(guī)則對(duì)記錄抽取
查詢結(jié)果頁面
查詢結(jié)果記錄
自底向上的抽取方法結(jié)果數(shù)據(jù)抽取多頁面訓(xùn)練單頁面訓(xùn)練Web頁面集待抽取頁面集頁面中的同一位置可能是“折扣”或者“艙位”同種結(jié)構(gòu)包含不同屬性的數(shù)據(jù)構(gòu)成數(shù)據(jù)使用不同的結(jié)構(gòu)作為載體“出版時(shí)間”缺失結(jié)構(gòu)化數(shù)據(jù)類型不唯一頁面中兩種結(jié)構(gòu)的結(jié)構(gòu)化數(shù)據(jù)自底向上的抽取方法-結(jié)構(gòu)化數(shù)據(jù)異構(gòu)結(jié)果數(shù)據(jù)抽取嵌套結(jié)構(gòu)表結(jié)構(gòu)動(dòng)態(tài)增長(zhǎng)重復(fù)結(jié)構(gòu)重復(fù)結(jié)構(gòu)自底向上的抽取方法-衍生結(jié)構(gòu)結(jié)果數(shù)據(jù)抽取使用純文本表示結(jié)構(gòu)化數(shù)據(jù)使用特殊的文本符號(hào)分隔不同屬性的結(jié)構(gòu)化數(shù)據(jù)自底向上的抽取方法-結(jié)構(gòu)化數(shù)據(jù)文本化結(jié)果數(shù)據(jù)抽取實(shí)體抽取重復(fù)模式抽取數(shù)據(jù)抽取自底向上的抽取方法-數(shù)據(jù)抽取模型結(jié)果數(shù)據(jù)抽取對(duì)比項(xiàng)自底向上的抽取方法自頂向下的抽取方法核心思想基于頁面的語義特征基于頁面的結(jié)構(gòu)特征核心技術(shù)實(shí)體分析技術(shù)結(jié)構(gòu)解析技術(shù)訓(xùn)練方式重復(fù)模式抽取結(jié)構(gòu)相似性、相異性抽取方式抽取模式樹頁面定位(模板,包裝器)屬性標(biāo)注時(shí)機(jī)開始結(jié)束適合頁面包含結(jié)構(gòu)化數(shù)據(jù)的主題頁面結(jié)構(gòu)簡(jiǎn)單的記錄型頁面自底向上的抽取方法-自底向上與自頂向下對(duì)比結(jié)果數(shù)據(jù)抽取52一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識(shí)用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫查詢松弛當(dāng)用戶的原始查詢沒有結(jié)果或者只有很少的結(jié)果返回時(shí),應(yīng)該如何處理?
直接告訴用戶沒有查詢結(jié)果或者把很少量的查詢結(jié)果返回給用戶?
No.
在用戶原始查詢上進(jìn)行修改,進(jìn)行查詢松弛,將查詢松弛所得到的結(jié)果返回給用戶?Yes.
現(xiàn)有的查詢松弛方法大多數(shù)系統(tǒng)采用屬性松弛方法,然而,多關(guān)鍵字屬性采用值松弛的方法更好,若像其他屬性一樣采用屬性松弛方法,則會(huì)出現(xiàn)一些問題優(yōu)點(diǎn)缺點(diǎn)屬性松弛效率高某些情況下松弛粒度過粗值松弛松弛粒度較細(xì),可以得到更多合適的結(jié)果查詢探測(cè)花費(fèi)較大;且對(duì)于多關(guān)鍵字屬性,沒有較好的值松弛方法現(xiàn)有的查詢松弛方法問題1不支持多關(guān)鍵字搜索功能的數(shù)據(jù)源舉例
查詢q:書名=數(shù)據(jù)庫系統(tǒng)問題2需要?jiǎng)h減查詢?cè)~的舉例查詢q:書名=數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn),作者=王珊現(xiàn)有的查詢松弛方法查詢松弛思想松弛查詢思想:Foramultiplekeywordsquery(1)ExtendingQueryWords
forsinglekeywordsquery
(2)PruningtrivialwordsfromQueryWords
(3)ResultPageEvaluation
decidewhethertofetchthenextpageornot
BookName:DatabasesystemBookName:DatabasemanagementsystemBookName:Database查詢松弛執(zhí)行策略詳述數(shù)據(jù)源關(guān)系圖(DRG)的生成ABCDABCABDACDBCDABACADBCBDCDADBC屬性集{A,B,C,D}的全局?jǐn)?shù)據(jù)源關(guān)系圖
只包含屬性{A,B,C}的查詢Q的數(shù)據(jù)源關(guān)系圖查詢松弛執(zhí)行策略詳述轉(zhuǎn)移數(shù)據(jù)源ABCDABCABDACDBCDABACADBCBDCDADBC帶有確定屬性B的查詢Q的最終DRG查詢松弛執(zhí)行策略詳述確保查全率的查詢松弛過程ABBCBABC查詢Qscore∈(low,high)?查詢Q’查詢Q{A,B,C}查詢Q’{A,B}值松弛中的擴(kuò)展查詢?cè)~方法方法
利用支持多關(guān)鍵字查詢的數(shù)據(jù)源的返回結(jié)果,統(tǒng)計(jì)出現(xiàn)的除原始查詢?cè)~之外的詞,記錄出現(xiàn)在詞組之間的位置和詞頻,選出top-k個(gè)詞,插入原始詞組中例:查詢Q{書名=數(shù)據(jù)庫概論}書名作者出版社數(shù)據(jù)庫系統(tǒng)概論王珊,薩師煊高等教育出版社數(shù)據(jù)庫系統(tǒng)概論:學(xué)習(xí)指導(dǎo)與習(xí)題解析王珊高等教育出版社數(shù)據(jù)庫系統(tǒng)概論楊開英武漢理工大學(xué)出版社數(shù)據(jù)庫系統(tǒng)概論知識(shí)要點(diǎn)與習(xí)題解析徐樂竹,張澤寶哈爾濱工程大學(xué)出版社數(shù)據(jù)庫系統(tǒng)概論史嘉權(quán)清華大學(xué)出版社數(shù)據(jù)庫系統(tǒng)概論與應(yīng)用蘇中濱水利水電出版社數(shù)據(jù)庫系統(tǒng)概論—習(xí)題、實(shí)驗(yàn)與考試輔導(dǎo)史嘉權(quán),史紅星清華大學(xué)出版社大型數(shù)據(jù)庫系統(tǒng)概論朱輝生高等教育出版社值松弛中的刪減查詢?cè)~方法通用的無領(lǐng)域限制的方法
基于詞庫中查詢?cè)~的語義重要度,選出最重要的詞進(jìn)行保留查詢過程中的結(jié)果評(píng)價(jià)方法獲取下一頁的結(jié)果頁面評(píng)價(jià)
結(jié)果頁面評(píng)價(jià),是在查詢所返回的結(jié)果為多頁時(shí),對(duì)數(shù)據(jù)源的當(dāng)前結(jié)果頁進(jìn)行評(píng)價(jià)估計(jì),以評(píng)價(jià)值來決定是否獲取下一頁結(jié)果頁。頁面評(píng)價(jià)步驟:計(jì)算原始查詢和當(dāng)前結(jié)果頁中各結(jié)果記錄的相似度根據(jù)相似度為每個(gè)結(jié)果打分根據(jù)結(jié)果記錄得分計(jì)算當(dāng)前結(jié)果頁面得分,統(tǒng)計(jì)高分的結(jié)果數(shù)量當(dāng)結(jié)果頁面得分足夠高;或高分結(jié)果數(shù)量達(dá)到一定值時(shí),查詢結(jié)束64一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識(shí)用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫重復(fù)記錄識(shí)別目的:對(duì)重復(fù)記錄進(jìn)行識(shí)別,減少用戶對(duì)結(jié)果頁面的篩選和分類的負(fù)擔(dān)。
重復(fù)記錄識(shí)別離線與在線相結(jié)合離線獲取知識(shí)在線相似度估算二者相輔相成
重復(fù)記錄識(shí)別-實(shí)體關(guān)聯(lián)知識(shí)構(gòu)建三階段逐步求精策略文本匹配模型:語義分析模型:分組統(tǒng)計(jì)模型:多相似度估算器優(yōu)勢(shì)采用多相似度估算器使相似度計(jì)算更具有針對(duì)性采用多相似度估算器將有利于系統(tǒng)的擴(kuò)展
構(gòu)成估算器匹配算法相關(guān)函數(shù)文本類型相似度估算器編輯距離N-GramSmith-Waterman距離Jaro距離多相似度估算器估算器匹配算法相關(guān)函數(shù)數(shù)字類型相似度估算器精確距離、范圍距離日期類型相似度估算器日期匹配算法TimeSpan()價(jià)格類型相似度估算器價(jià)格匹配算法重復(fù)實(shí)體記錄的識(shí)別策略實(shí)體記錄相似度的衡量不確定重復(fù)記錄的處理重復(fù)記錄集生成算法71一種DeepWeb數(shù)據(jù)庫集成框架Web數(shù)據(jù)庫分類Web數(shù)據(jù)庫模式抽取Web數(shù)據(jù)庫發(fā)現(xiàn)Web數(shù)據(jù)庫元信息領(lǐng)域知識(shí)用戶接口統(tǒng)一接口結(jié)果頁面數(shù)據(jù)源選擇查詢轉(zhuǎn)換結(jié)果記錄抽取與標(biāo)注數(shù)據(jù)集成Web數(shù)據(jù)庫資源搜索查詢處理離線系統(tǒng)在線系統(tǒng)Web數(shù)據(jù)庫數(shù)據(jù)清洗-問題的提出Web數(shù)據(jù)庫集成數(shù)據(jù)的數(shù)據(jù)質(zhì)量數(shù)據(jù)中重復(fù)記錄記錄不完全、不精確、不正確等臟數(shù)據(jù)問題
數(shù)據(jù)源查詢結(jié)果模式的異構(gòu)性記錄抽取錯(cuò)誤基本思想利用數(shù)據(jù)質(zhì)量高的記錄修復(fù)數(shù)據(jù)質(zhì)量低的記錄解決方案分析全局模式中屬性間函數(shù)依賴關(guān)系。查詢結(jié)果記錄中基于模式屬性的實(shí)體識(shí)別。數(shù)據(jù)質(zhì)量的評(píng)估。數(shù)據(jù)清洗集成數(shù)據(jù)清洗流程全局模式分析階段數(shù)據(jù)源分析階段數(shù)據(jù)清洗階段全局模式分析階段基于函數(shù)依賴判斷集成模式可被修復(fù)的屬性對(duì)于一個(gè)給定的屬性Ai,如果記錄中在屬性Ai上的內(nèi)容可以被修復(fù),則全局模式GS中必須滿足:存在屬性集合X,有X
A,X
Ai;數(shù)據(jù)源分析查詢結(jié)果模式質(zhì)量屬性完整性函數(shù)依賴完整性查詢結(jié)果記錄集質(zhì)量數(shù)據(jù)規(guī)模每個(gè)屬性列中,具有完整屬性值的記錄數(shù)量查詢結(jié)果模式屬性值質(zhì)量屬性值精確度與分布數(shù)值類型文本類型集成數(shù)據(jù)記錄修復(fù)算法
增量式集成數(shù)據(jù)清洗算法高數(shù)據(jù)質(zhì)量低數(shù)據(jù)質(zhì)量排序高低修復(fù)修復(fù)前各
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年消防給水工程智能化施工及維護(hù)服務(wù)合同3篇
- 2025變頻器代理商銷售合同:產(chǎn)品價(jià)格調(diào)整與結(jié)算協(xié)議3篇
- 2025年度紡織行業(yè)新材料研發(fā)與應(yīng)用采購合同2篇
- 2025年度工業(yè)倉儲(chǔ)租賃及倉儲(chǔ)設(shè)施維護(hù)保養(yǎng)合同范本3篇
- 二零二五年房地產(chǎn)項(xiàng)目工程造價(jià)咨詢合同模板3篇
- 二零二四年員工自愿放棄社保及轉(zhuǎn)移待遇合同3篇
- 2025年度藝術(shù)展布展藝術(shù)品保護(hù)與搬運(yùn)合同3篇
- 二零二五版二手房交易中介服務(wù)合同模板2篇
- 2024虛擬現(xiàn)實(shí)內(nèi)容開發(fā)制作合同
- 2025年消防噴淋系統(tǒng)安裝及消防設(shè)施檢測(cè)與維保服務(wù)合同3篇
- 《FANUC-Oi數(shù)控銑床加工中心編程技巧與實(shí)例》教學(xué)課件(全)
- 微信小程序運(yùn)營(yíng)方案課件
- 抖音品牌視覺識(shí)別手冊(cè)
- 陳皮水溶性總生物堿的升血壓作用量-效關(guān)系及藥動(dòng)學(xué)研究
- 安全施工專項(xiàng)方案報(bào)審表
- 學(xué)習(xí)解讀2022年新制定的《市場(chǎng)主體登記管理?xiàng)l例實(shí)施細(xì)則》PPT匯報(bào)演示
- 好氧廢水系統(tǒng)調(diào)試、驗(yàn)收、運(yùn)行、維護(hù)手冊(cè)
- 中石化ERP系統(tǒng)操作手冊(cè)
- 五年級(jí)上冊(cè)口算+脫式計(jì)算+豎式計(jì)算+方程
- 氣體管道安全管理規(guī)程
- 《眼科學(xué)》題庫
評(píng)論
0/150
提交評(píng)論