檢索策略課件_第1頁
檢索策略課件_第2頁
檢索策略課件_第3頁
檢索策略課件_第4頁
檢索策略課件_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

VIP免費(fèi)下載

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、檢索策略第六章計(jì)算機(jī)信息檢索的基本策略檢索策略 一、檢索策略一、檢索策略v檢索策略檢索策略:為實(shí)現(xiàn)檢索目標(biāo)而實(shí)施的方法。:為實(shí)現(xiàn)檢索目標(biāo)而實(shí)施的方法。 計(jì)算機(jī)信息檢索,實(shí)質(zhì)上由計(jì)算機(jī)將輸入的計(jì)算機(jī)信息檢索,實(shí)質(zhì)上由計(jì)算機(jī)將輸入的檢檢索策略索策略與系統(tǒng)中存貯的文獻(xiàn)特征標(biāo)識及其邏輯組配與系統(tǒng)中存貯的文獻(xiàn)特征標(biāo)識及其邏輯組配關(guān)系進(jìn)行類比、匹配的過程。由于關(guān)系進(jìn)行類比、匹配的過程。由于信息需求信息需求本身具本身具有不確定性,加之對數(shù)據(jù)庫中的文獻(xiàn)特征標(biāo)識不能有不確定性,加之對數(shù)據(jù)庫中的文獻(xiàn)特征標(biāo)識不能充分了解,以及系統(tǒng)功能的某些限制,都會不同程充分了解,以及系統(tǒng)功能的某些限制,都會不同程度地影響檢索效果

2、。但是只要遵循一定的檢索步驟,度地影響檢索效果。但是只要遵循一定的檢索步驟,制定良好的制定良好的檢索策略檢索策略,便可以減少各種不利因素的,便可以減少各種不利因素的影響,盡可能地使檢索提問標(biāo)識與信息需求和檢索影響,盡可能地使檢索提問標(biāo)識與信息需求和檢索系統(tǒng)保持良好的一致性,從而在系統(tǒng)中檢索出滿足系統(tǒng)保持良好的一致性,從而在系統(tǒng)中檢索出滿足用戶需求的信息。用戶需求的信息。 檢索策略二二、檢索策略的實(shí)施技巧、檢索策略的實(shí)施技巧v信息需求信息需求是人們客觀上或主觀上對各種情報(bào)信息的是人們客觀上或主觀上對各種情報(bào)信息的一種需求。這種需求是人們索取情報(bào)信息的出發(fā)點(diǎn),一種需求。這種需求是人們索取情報(bào)信息的

3、出發(fā)點(diǎn),也是計(jì)算機(jī)信息檢索時(shí)選擇數(shù)據(jù)庫、確定檢索策略也是計(jì)算機(jī)信息檢索時(shí)選擇數(shù)據(jù)庫、確定檢索策略以及評價(jià)檢索效果的依據(jù)。以及評價(jià)檢索效果的依據(jù)。v不同類型的課題,其信息需求的范圍和程度也不盡不同類型的課題,其信息需求的范圍和程度也不盡相同。例如,申請發(fā)明、申報(bào)成果獎勵、鑒定及立相同。例如,申請發(fā)明、申報(bào)成果獎勵、鑒定及立項(xiàng)類的查新課題,往往需要全面地收集某一主題范項(xiàng)類的查新課題,往往需要全面地收集某一主題范圍的文獻(xiàn)信息,這類課題具有普查、追溯的特點(diǎn),圍的文獻(xiàn)信息,這類課題具有普查、追溯的特點(diǎn),應(yīng)著眼于應(yīng)著眼于查全查全;而對于科研、生產(chǎn)中為解決某一特;而對于科研、生產(chǎn)中為解決某一特定問題的攻關(guān)課

4、題,往往只要求檢出的信息對自己定問題的攻關(guān)課題,往往只要求檢出的信息對自己的研究有所幫助,而對查找的文獻(xiàn)范圍不需要很廣。的研究有所幫助,而對查找的文獻(xiàn)范圍不需要很廣。因此,這類課題則要求因此,這類課題則要求查準(zhǔn)查準(zhǔn)。 檢索策略v檢索策略制定的原則檢索策略制定的原則: (1)快,即從檢索請求的提出到檢索結(jié)果的快,即從檢索請求的提出到檢索結(jié)果的提交要快速:提交要快速: (2 2)準(zhǔn),即檢索結(jié)果要準(zhǔn)確,避免檢索出過)準(zhǔn),即檢索結(jié)果要準(zhǔn)確,避免檢索出過多無關(guān)內(nèi)容;多無關(guān)內(nèi)容; (3 3)全,檢索結(jié)果全面,滿足用戶的需求;)全,檢索結(jié)果全面,滿足用戶的需求; (4 4)效益原則,即以最低的費(fèi)用獲取所佳的

5、)效益原則,即以最低的費(fèi)用獲取所佳的信息。信息。檢索策略三、三、 計(jì)算機(jī)信息檢索的具體步驟計(jì)算機(jī)信息檢索的具體步驟 1 分析檢索課題,制定切實(shí)可行的檢索策略分析檢索課題,制定切實(shí)可行的檢索策略 ( (這是檢索的出發(fā)點(diǎn),依據(jù)這是檢索的出發(fā)點(diǎn),依據(jù)) )2 2 利用檢索系統(tǒng)特定的指令正確實(shí)施檢索利用檢索系統(tǒng)特定的指令正確實(shí)施檢索3 3 通過人通過人- -機(jī)對話的方式不斷調(diào)整、修改、機(jī)對話的方式不斷調(diào)整、修改、檢索策略檢索策略4 4 根據(jù)查找的文獻(xiàn)線索獲取原始文獻(xiàn)根據(jù)查找的文獻(xiàn)線索獲取原始文獻(xiàn)檢索策略檢索策略檢索策略檢索策略(檢索策略例例1 城市生活污染研究城市生活污染研究v關(guān)鍵詞:城市(都市、城區(qū)

6、)關(guān)鍵詞:城市(都市、城區(qū))v生活污染(生活污水、生活垃圾、電磁輻射生活污染(生活污水、生活垃圾、電磁輻射污染等)污染等)v檢索式檢索式(城市城市 or 都市都市 or 城區(qū))城區(qū))and(生活(生活污染污染 or 生活污水生活污水 or 生活垃圾生活垃圾 or 電磁輻射電磁輻射污染)污染)檢索詞的選擇及檢索式的構(gòu)建檢索策略例例2 了解有關(guān)國內(nèi)近十年來室內(nèi)裝修污染方面的研究了解有關(guān)國內(nèi)近十年來室內(nèi)裝修污染方面的研究v關(guān)鍵詞:室內(nèi)、裝修、污染關(guān)鍵詞:室內(nèi)、裝修、污染v同義詞或近義詞:同義詞或近義詞: 室內(nèi)(住宅、居室、房屋)室內(nèi)(住宅、居室、房屋) 污染(放射性、化學(xué)、氡氣、甲醛、苯等)污染(放

7、射性、化學(xué)、氡氣、甲醛、苯等)v確定學(xué)科范疇等輔助信息:環(huán)境科學(xué)。中文庫為主,確定學(xué)科范疇等輔助信息:環(huán)境科學(xué)。中文庫為主,十年期限。十年期限。v以室內(nèi)環(huán)境污染檢測,危害和處理等方面研究為主以室內(nèi)環(huán)境污染檢測,危害和處理等方面研究為主v選擇專業(yè)數(shù)據(jù)庫選擇專業(yè)數(shù)據(jù)庫 和各類型綜合數(shù)據(jù)庫為主,以和各類型綜合數(shù)據(jù)庫為主,以google等網(wǎng)絡(luò)資源為輔等網(wǎng)絡(luò)資源為輔 檢索策略:例例3:GPS在建筑事業(yè)中的應(yīng)用在建筑事業(yè)中的應(yīng)用 主題詞主題詞:A:全球定位系統(tǒng);:全球定位系統(tǒng);B:建筑測量;:建筑測量; 組配詞:組配詞: C:應(yīng)用:應(yīng)用 表達(dá)式表達(dá)式:A AND B AND C例例4:加拿大遙感活動展望:

8、加拿大遙感活動展望 主題詞主題詞:A:遙感;:遙感;B:測繪科技活動;:測繪科技活動; 組配詞:組配詞:C:加拿大;:加拿大;D:展望:展望 表達(dá)式:表達(dá)式:(A OR B)AND C AND D檢索策略例例5:Peter教授在測量平差理論方面的研究教授在測量平差理論方面的研究 主題詞主題詞:A:測量平差;:測量平差; 組配詞:組配詞:B:理論;:理論;C:研究;:研究;D:Peter 表達(dá)式表達(dá)式:A AND( B OR C ) AND D 例例6:Batson關(guān)于土地規(guī)劃與地籍測量方面的論述關(guān)于土地規(guī)劃與地籍測量方面的論述 主題詞主題詞:A:土地規(guī)劃;:土地規(guī)劃;B:地籍測量;:地籍測量;

9、 組配詞:組配詞:C:評論;:評論;D:Batson; 表達(dá)式表達(dá)式:(A OR B)AND C AND D 檢索策略例例7:專題測圖用于土地利用制圖和植被:專題測圖用于土地利用制圖和植被制圖制圖主題詞主題詞:A:專題測量儀;:專題測量儀;B:土地利用:土地利用制圖;制圖;C:植被制圖:植被制圖; D:測繪儀器;:測繪儀器;E:地圖制圖;:地圖制圖;F:專題制圖:專題制圖表達(dá)式表達(dá)式:(A OR D )AND (B OR C OR E OR F )檢索策略例例8:新型的自動化數(shù)字制圖軟件的開發(fā)與利:新型的自動化數(shù)字制圖軟件的開發(fā)與利用用主題詞主題詞:A:機(jī)助制圖系統(tǒng);:機(jī)助制圖系統(tǒng);B:系統(tǒng)軟

10、件;:系統(tǒng)軟件; C:軟件技術(shù);:軟件技術(shù);D:自動化測圖:自動化測圖組配詞組配詞:E:開發(fā);:開發(fā);F:應(yīng)用:應(yīng)用表達(dá)式表達(dá)式:(A OR D)AND (B OR C )AND (E OR F )檢索策略例例9:利用人造衛(wèi)星數(shù)據(jù)及地理信息分析森林:利用人造衛(wèi)星數(shù)據(jù)及地理信息分析森林 用途用途主題詞主題詞:A;衛(wèi)星影象;衛(wèi)星影象;B;衛(wèi)星遙感;衛(wèi)星遙感;C;地理信地理信息系統(tǒng);息系統(tǒng);D:森林遙感:森林遙感;E;森林判讀;森林判讀;F;森林調(diào)森林調(diào)查;查;G;森林監(jiān)測;森林監(jiān)測;H;數(shù)據(jù)處理數(shù)據(jù)處理表達(dá)式表達(dá)式:(A OR B)AND C AND(D OR E OR F OR G)AND H檢

11、索策略注意注意 在檢索過程中,由于可以隨時(shí)修改在檢索過程中,由于可以隨時(shí)修改檢索策略,因此一方面要以制定的檢索檢索策略,因此一方面要以制定的檢索式為基礎(chǔ),要服從檢索式,但不要過多式為基礎(chǔ),要服從檢索式,但不要過多地受構(gòu)造檢索式的限制,要把條件適當(dāng)?shù)厥軜?gòu)造檢索式的限制,要把條件適當(dāng)放寬一些,逐步縮小檢索范圍,多次試放寬一些,逐步縮小檢索范圍,多次試驗(yàn),以找到最佳檢索式驗(yàn),以找到最佳檢索式 檢索策略實(shí)例分析與說明實(shí)例分析與說明(以下選題均來源于學(xué)生作業(yè),分析并更正)(以下選題均來源于學(xué)生作業(yè),分析并更正)檢索策略 課題一課題一 GIS技術(shù)的可視化研究技術(shù)的可視化研究v課題分析:課題分析: 二十一世

12、紀(jì)是一個(gè)信息大爆炸的時(shí)代,隨二十一世紀(jì)是一個(gè)信息大爆炸的時(shí)代,隨著著“信息論信息論”,“控制論控制論”及及“認(rèn)知論認(rèn)知論”等理論等理論的產(chǎn)生,作為一門古老的學(xué)科的地圖學(xué)也在這些的產(chǎn)生,作為一門古老的學(xué)科的地圖學(xué)也在這些新興理論的指導(dǎo)下,在這個(gè)信息時(shí)代產(chǎn)生了新的新興理論的指導(dǎo)下,在這個(gè)信息時(shí)代產(chǎn)生了新的發(fā)展點(diǎn),發(fā)展點(diǎn),“數(shù)字地球數(shù)字地球”的提出為地圖科學(xué)提出了的提出為地圖科學(xué)提出了更新更高的要求,更新更高的要求,GIS作為處理地理信息的一種作為處理地理信息的一種技術(shù),應(yīng)運(yùn)而生。技術(shù),應(yīng)運(yùn)而生。檢索策略 GIS是一種采集,加工,分析,訪問是一種采集,加工,分析,訪問及表達(dá)空間數(shù)據(jù)的信息系統(tǒng)。作為數(shù)

13、據(jù)本及表達(dá)空間數(shù)據(jù)的信息系統(tǒng)。作為數(shù)據(jù)本身是抽象的,不易直觀接受的信息,因此身是抽象的,不易直觀接受的信息,因此研究如何對數(shù)據(jù)進(jìn)行加工和研究如何對數(shù)據(jù)進(jìn)行加工和可視化可視化表達(dá),表達(dá),對于用戶來說是十分必要的。對于用戶來說是十分必要的。檢索策略目前的目前的GIS可視化的研究正方興未艾,對可視化的研究正方興未艾,對DEM,DTM和和DLG等數(shù)據(jù)模型特別是等數(shù)據(jù)模型特別是DEM的研究進(jìn)展的研究進(jìn)展飛速,而飛速,而三維三維可視化的表達(dá)方式又成為其中最可視化的表達(dá)方式又成為其中最熱門的方向,通過熱門的方向,通過DEM生成的等高線,地貌暈生成的等高線,地貌暈渲土,三維透視景象,三維地形漫游及交互式渲土,

14、三維透視景象,三維地形漫游及交互式三維可視系統(tǒng)在地圖學(xué)界開始發(fā)揮其強(qiáng)大的效三維可視系統(tǒng)在地圖學(xué)界開始發(fā)揮其強(qiáng)大的效用,并將在用,并將在GIS技術(shù)中占有三分天。技術(shù)中占有三分天。檢索策略 數(shù)字高程模型數(shù)字高程模型(DEM)作為數(shù)字地形模作為數(shù)字地形模擬的重要成果已經(jīng)成為國家空間數(shù)據(jù)基礎(chǔ)擬的重要成果已經(jīng)成為國家空間數(shù)據(jù)基礎(chǔ)設(shè)施設(shè)施(NSDI)的基本內(nèi)容之一,其相關(guān)學(xué)科的基本內(nèi)容之一,其相關(guān)學(xué)科有數(shù)據(jù)庫,軟件工程,遙感與航測等。在有數(shù)據(jù)庫,軟件工程,遙感與航測等。在不久的將來,隨著不久的將來,隨著虛擬現(xiàn)實(shí)虛擬現(xiàn)實(shí)技術(shù)與技術(shù)與GIS的的融合,必然為地理信息學(xué)科帶來翻天覆地融合,必然為地理信息學(xué)科帶來翻

15、天覆地的變化。的變化。檢索策略檢索關(guān)鍵詞與表達(dá)式中文關(guān)鍵詞:地理信息系統(tǒng)或GIS(上位)數(shù)字高程模型,可視化,三維,虛擬現(xiàn)實(shí)(下位)基本表達(dá)式:關(guān)鍵詞=(地理信息系統(tǒng)OR GIS)AND (可視化)AND (三維 OR 虛擬現(xiàn)實(shí))英文Topic Words:GIS or Geography Information System3D,DEM,VR,visualizationBoolean Expression:kw= GIS AND visualization AND (3D OR DEM)檢索策略課題二課題二 檢索策略檢索策略檢索策略檢索策略 檢索策略檢索策略檢索策略檢索策略檢索策略 檢索策略

16、檢索策略課題五課題五 檢索策略檢索策略檢索策略檢索策略課題六課題六 檢索策略 檢索策略檢索策略檢索策略 課題七課題七 檢索策略檢索策略檢索策略四、四、 檢索效果的評價(jià)檢索效果的評價(jià)v查全率與查準(zhǔn)率是檢索質(zhì)量的兩個(gè)重要的評價(jià)指標(biāo)。查全率與查準(zhǔn)率是檢索質(zhì)量的兩個(gè)重要的評價(jià)指標(biāo)。v查全率查全率(recall ratio)=檢出的相關(guān)文獻(xiàn)量檢出的相關(guān)文獻(xiàn)量/檢索系統(tǒng)中檢索系統(tǒng)中相關(guān)文獻(xiàn)總量相關(guān)文獻(xiàn)總量即檢出文獻(xiàn)中合乎需要的文獻(xiàn)數(shù)量占數(shù)據(jù)庫中存在的即檢出文獻(xiàn)中合乎需要的文獻(xiàn)數(shù)量占數(shù)據(jù)庫中存在的合乎該需要的所有文獻(xiàn)的比例。查全率高說明有用的合乎該需要的所有文獻(xiàn)的比例。查全率高說明有用的東西都被你檢中了,但

17、對于數(shù)量巨大的數(shù)據(jù)庫而言,東西都被你檢中了,但對于數(shù)量巨大的數(shù)據(jù)庫而言,要達(dá)到要達(dá)到100%的查全率是不可能的,在網(wǎng)絡(luò)條件下尤的查全率是不可能的,在網(wǎng)絡(luò)條件下尤其如此。其如此。檢索策略v查準(zhǔn)率查準(zhǔn)率(precision ratio)=檢出的相關(guān)文獻(xiàn)量檢出的相關(guān)文獻(xiàn)量/檢出的檢出的文獻(xiàn)總量。指檢出文獻(xiàn)中合乎需要的文獻(xiàn)數(shù)量占檢文獻(xiàn)總量。指檢出文獻(xiàn)中合乎需要的文獻(xiàn)數(shù)量占檢出文獻(xiàn)全部數(shù)量的比例。出文獻(xiàn)全部數(shù)量的比例。 準(zhǔn)確率高說明你檢出的東西都是有用的東西。一般準(zhǔn)確率高說明你檢出的東西都是有用的東西。一般地說,很少能達(dá)到地說,很少能達(dá)到100%的查準(zhǔn)率。的查準(zhǔn)率。v在查全與查準(zhǔn)兩個(gè)方面一般難以兩全,為

18、了獲得很在查全與查準(zhǔn)兩個(gè)方面一般難以兩全,為了獲得很多有用的東西(達(dá)到高的查全率),需要較少的限多有用的東西(達(dá)到高的查全率),需要較少的限制檢索條件,但這樣檢出的無用的東西就會很多制檢索條件,但這樣檢出的無用的東西就會很多(查準(zhǔn)率不高),反之亦然。在計(jì)算機(jī)檢索中,一(查準(zhǔn)率不高),反之亦然。在計(jì)算機(jī)檢索中,一般認(rèn)為查準(zhǔn)率為般認(rèn)為查準(zhǔn)率為6070、查全率為、查全率為4060是較是較為理想的。為理想的。 檢索策略 n n為檢索系統(tǒng)中文獻(xiàn)總量,為檢索系統(tǒng)中文獻(xiàn)總量,m m為檢索輸出的文獻(xiàn)量,為檢索輸出的文獻(xiàn)量,a a為為n n中中與檢索課題有關(guān)的文獻(xiàn)量,與檢索課題有關(guān)的文獻(xiàn)量,b b為為m m中與檢索課題有關(guān)的文獻(xiàn)量中與檢索課題有關(guān)的文獻(xiàn)量( (檢準(zhǔn)文獻(xiàn)量檢準(zhǔn)文獻(xiàn)量) ),則,則n n、m m、a a、b b之間的關(guān)系如圖所示。之間的關(guān)系如圖所示。 圖1.4 文獻(xiàn)總量與檢出文獻(xiàn)之間的關(guān)系 檢索策略文獻(xiàn)總量與檢出文獻(xiàn)之間的關(guān)系文獻(xiàn)總量與檢出文獻(xiàn)之間的關(guān)系 令令R R表示查全率、表示查全率、P P表示查準(zhǔn)率、表示查準(zhǔn)率、M M表示漏檢率、表示漏檢率、N N表示誤檢率,則表示誤檢率,則R R、P P、M M、N N定義如下:定義如下:R=b/aR=b/a* *100100 P=b/mP=b/m* *100100 M=(1-b/a

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論