計(jì)算機(jī)信息檢索_第1頁(yè)
計(jì)算機(jī)信息檢索_第2頁(yè)
計(jì)算機(jī)信息檢索_第3頁(yè)
計(jì)算機(jī)信息檢索_第4頁(yè)
計(jì)算機(jī)信息檢索_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第一章互聯(lián)網(wǎng)信息資源

1、網(wǎng)絡(luò)上的信息內(nèi)容:

①政府信息(最有價(jià)值,權(quán)威性,可靠性、低廉);

②科研信息:

③救育信息(各大學(xué)所女立的網(wǎng)站及相關(guān)信息)?;ヂ?lián)網(wǎng)已經(jīng)發(fā)展成為一種市要的教育手段、學(xué)習(xí)環(huán)

境。

④媒體信息;網(wǎng)絡(luò)媒體受眾廣泛、關(guān)注度高、交互性強(qiáng)、價(jià)格低廉

⑤商務(wù)信息:(各種采購(gòu)、招標(biāo)、推廣與服務(wù)信息)

⑥休閑娛樂(lè)信息;(最成功)

2、互聯(lián)網(wǎng)的信息資源:

(1)特點(diǎn):廣泛性,多樣性,共享性,新潁性,互動(dòng)性,經(jīng)濟(jì)性:

(2)局限性:分散,無(wú)序,多變,信息質(zhì)量難以控制,信息安全難以保障。

3、互聯(lián)網(wǎng)上信息資源的種類:(網(wǎng)絡(luò)傳輸協(xié)議劃分)

⑴、Web信息資源:

Web是WorldWideWeb(WWW,3W)的縮寫(xiě),“全球信息網(wǎng)”“萬(wàn)維網(wǎng)”。它把各種類型的信息(如文本、聲音、

動(dòng)畫(huà)、錄像)和服務(wù)無(wú)縫鏈接,提供了豐富多彩的圖形界面,直觀方便。

①超文本傳輸協(xié)議HUB:

是瀏覽器與此b服務(wù)器之間相互通信、傳輸、響應(yīng)用戶請(qǐng)求的協(xié)議。Web服務(wù)器根據(jù)客戶提出的HTTP

請(qǐng)求,為用戶提供信息瀏覽、數(shù)據(jù)查詢、安全驗(yàn)證等方面的服務(wù);

②超文本標(biāo)記語(yǔ)言HTML:一種專門編程語(yǔ)言,具體規(guī)定和描述了文件顯示的具體格式。

③通用資源定位程序URL:又稱網(wǎng)絡(luò)資源的統(tǒng)一定位格式或統(tǒng)一資源定位器

④主頁(yè)HomePage:主頁(yè)是瀏覽器訪問(wèn)某個(gè)Web服務(wù)器上的信息時(shí)第一個(gè)鏈接到的文檔。

⑤鏈接Link:是腌b網(wǎng)頁(yè)的元素,是指向其他信息資源的指針,把Web頁(yè)捆綁在一起。

⑥瀏覽器:指Web服務(wù)客戶端的瀏覽程序,是顯示網(wǎng)頁(yè)服務(wù)器或檔案系統(tǒng)內(nèi)的文件,并讓用戶與這些

文件互動(dòng)的一種軟件。

(2)、Telnet(互聯(lián)網(wǎng)遠(yuǎn)程登錄服務(wù))資源的功能:

通過(guò)在遠(yuǎn)程計(jì)算機(jī)上登錄,使用戶正在使用的計(jì)算機(jī)暫時(shí)成為它所登錄的某?遠(yuǎn)程主機(jī)的仿真遠(yuǎn)程終端,

進(jìn)而實(shí)時(shí)訪問(wèn)、共享、使用到遠(yuǎn)程計(jì)算機(jī)系統(tǒng)中對(duì)用戶開(kāi)放的相應(yīng)資源。

Telnet曾經(jīng)是一個(gè)強(qiáng)有力的互聯(lián)網(wǎng)資源共享工具,通過(guò)Telnet方式提供的信息資源主要有:政府部門、

研究機(jī)構(gòu)對(duì)外開(kāi)放的數(shù)據(jù)庫(kù),某些商業(yè)性聯(lián)機(jī)檢索系統(tǒng),?些大學(xué)和研究機(jī)構(gòu)開(kāi)發(fā)的電子布告欄系統(tǒng)BBS,

還有許多大中型圖書(shū)館的在線公共檢索目錄。

(3)、通過(guò)FTP獲取文件的一般步驟:

①登錄:

②瀏覽目錄,找到所需文件;

③設(shè)置文件傳輸參數(shù),選擇文件的傳輸模式;如:Ascii模式一用于傳輸文本文件;二進(jìn)制模式一用于

傳輸非文本文件;

④下載所需文件。

互聯(lián)網(wǎng)使用的專門用來(lái)傳輸文件的協(xié)議,完成從一個(gè)系統(tǒng)到另一個(gè)系統(tǒng)完整的文件拷貝,即在互聯(lián)網(wǎng)計(jì)

算機(jī)之間傳輸文件。

(4)、用戶組信息資源:網(wǎng)上各種各樣的用戶新聞組、郵件群曾經(jīng)是互聯(lián)網(wǎng)上很流行的信息交流形式,

包括:新聞組、電子郵件群、專題討論組、興趣組、論壇。雖名稱各異,但實(shí)質(zhì)上都是由一組對(duì)某一特定

主題事物有共同興趣的網(wǎng)絡(luò)用戶組成的郵件群組或電子論壇,是一種有組織的電子郵件系統(tǒng),用戶在其間

通過(guò)電子郵件進(jìn)行一對(duì)多的交流。

特點(diǎn):直接交互、全球互聯(lián)、主題鮮明。

盡管由于近年來(lái)隨著互聯(lián)網(wǎng)的發(fā)展、寬帶的普及,出現(xiàn)了更多快速、便捷的實(shí)時(shí)交流方式,如RSS、

Blog、Twittoi?等,使用戶組的風(fēng)頭逐漸削弱.但在科研和教學(xué)方面,用戶組還是一種值得重視的、中宮的,

自由的、最具開(kāi)放性的資源。

4、互聯(lián)網(wǎng)信息資源的評(píng)價(jià)

(1)、評(píng)價(jià)的標(biāo)準(zhǔn):

目的、范圍、內(nèi)容(準(zhǔn)確性、權(quán)威性、新穎性、特征性、可靠性、鏈接、圖形和多媒體設(shè)計(jì)、信息的

展示與設(shè)計(jì)、可操作性【用戶友好性,檢索性能,交互性】)、費(fèi)用、評(píng)論

(2)、網(wǎng)絡(luò)信息資源質(zhì)量的評(píng)價(jià)方法:

①定性評(píng)價(jià):按照一定的評(píng)價(jià)標(biāo)準(zhǔn)對(duì)被評(píng)站點(diǎn)的各方面特征、質(zhì)量做出主觀評(píng)判,一般有問(wèn)卷調(diào)查、

專家評(píng)議等方式:

②定量評(píng)價(jià):利用數(shù)量分析方法,對(duì)相關(guān)數(shù)據(jù)進(jìn)行調(diào)查采集、統(tǒng)沖分析,進(jìn)而做出較系統(tǒng)、客觀的評(píng)

判。

(3)、網(wǎng)絡(luò)信息資源的一般評(píng)價(jià)方法:

①?gòu)腢RL中得到信息;

②查看網(wǎng)站描述和版權(quán)說(shuō)明;

③從鏈接中獲得信息;

④參考他人的評(píng)價(jià)。

第2章互聯(lián)網(wǎng)信息檢索概論

1、百聯(lián)網(wǎng)信息檢索的類型:

①“順鏈而行”的瀏覽;

②基于目錄型檢索工具的互聯(lián)網(wǎng)信息檢查:

③基于索引型檢索工具的互聯(lián)網(wǎng)信息檢索。

2、目錄型網(wǎng)絡(luò)檢索工具也被稱為網(wǎng)絡(luò)資源目錄或網(wǎng)絡(luò)主題指南,它是一種基于人工的檢索工具,由人工發(fā)

現(xiàn)、抓取、辨別互聯(lián)網(wǎng)信息,依靠編目、標(biāo)引人員的知識(shí),按照?qǐng)D書(shū)分類、學(xué)科分類或其他分類依據(jù)的體

系,建立主題樹(shù)分層目錄,將采集、篩選后的信息分門別類地放入各大類或子類下面,用戶通過(guò)逐級(jí)瀏覽

這些目錄來(lái)查尋自己所需要的內(nèi)容。

3、互聯(lián)網(wǎng)信息檢索的特點(diǎn):

①無(wú)限的檢索范圍,動(dòng)態(tài)的檢索對(duì)象:

②豐富的檢索內(nèi)容,新興的檢索領(lǐng)域:

③強(qiáng)大的檢索_L具,低廉的檢索費(fèi)用。

4、信息組織:就是把數(shù)據(jù)按照一定的結(jié)構(gòu)、順序、排列方式組織起來(lái),或者說(shuō)是按照信息查詢的需要,對(duì)

數(shù)據(jù)根據(jù)其特征進(jìn)行組織;信息組織的目的是服務(wù)于信息查詢。

5、信息查詢:就是通過(guò)搜索、定位以及取得數(shù)據(jù)的過(guò)程,也就是說(shuō)從大量數(shù)據(jù)集合中獲取用戶需要的相關(guān)

信息,信息查詢的效果和成敗極大地依賴于信息組織的水平。

6、建立索引:為了快速響應(yīng)檢索,在組織信息時(shí)就必須建立索引。索引是一種將關(guān)鍵詞詞目映射到相應(yīng)文

檔的數(shù)據(jù)結(jié)構(gòu)。

7、自動(dòng)分類方法又可分為:

①歸類一自動(dòng)歸類:是分析網(wǎng)頁(yè)的內(nèi)容特征,并與實(shí)現(xiàn)擬定的種類類別中的特征描述進(jìn)行比較,然后

將對(duì)象歸入為特征最接近的一類,并賦予相應(yīng)的分類號(hào);

②聚類一自動(dòng)聚類:則是從待分類網(wǎng)頁(yè)中提出特征,然后將提出的特征進(jìn)行比較,再根據(jù)一定的原則

或需要,將具有相同或相近特征的對(duì)象定義為一類,這個(gè)類目未必是事先擬定好的。

8、元數(shù)據(jù):描述數(shù)據(jù)的數(shù)據(jù)。編制目錄的目的在于描述數(shù)據(jù)的內(nèi)容或特色,進(jìn)而達(dá)成輔助信息檢索的目的。

而元數(shù)據(jù)就是用來(lái)揭示各類型電子文件的內(nèi)容和其他特征的有力工具,其典型的作業(yè)環(huán)境是互聯(lián)網(wǎng)。

9、較為普遍的查詢算法模型包括:

①布爾檢索模型:是最簡(jiǎn)單的模型,也是其他檢索模型的基礎(chǔ)。用戶根據(jù)所檢索關(guān)鍵詞在檢索結(jié)果中的邏

輯關(guān)系遞交檢索,檢索模塊根據(jù)布爾邏輯的基本運(yùn)算法來(lái)給出檢索結(jié)果。

優(yōu)點(diǎn):模型原理簡(jiǎn)單容易理解,容易在計(jì)算機(jī)上實(shí)現(xiàn),檢索速度快;

缺點(diǎn):最終給出的檢索結(jié)果沒(méi)有相關(guān)性排序,不夠精確,不能反映不同的索引項(xiàng)對(duì)一個(gè)文檔的重要程

度的差異。

②擴(kuò)展布爾模型:對(duì)布爾模型的改進(jìn),

優(yōu)點(diǎn):將非此即彼的相關(guān)判斷方式改為計(jì)算相似度,避免了“一刀切”的情況:

缺點(diǎn):最終給出的檢索結(jié)果沒(méi)有相關(guān)性排序,不夠精確,不能反映不同的索引項(xiàng)對(duì)一個(gè)文檔的重要程

度差異。

③向量空間檢索模型:它的基本思想是,文檔和檢索提問(wèn)都可以用向量表示,引用線性代數(shù)理論,檢索過(guò)

程就是計(jì)算文檔向量與槍索提問(wèn)向量之間的相似度,可以根據(jù)相似度值的不同,對(duì)檢索結(jié)果進(jìn)行排序;還

可以根據(jù)檢索結(jié)果,做進(jìn)一步的相關(guān)檢索。

優(yōu)點(diǎn):使用簡(jiǎn)單,并且在模型中有許多可調(diào)整的計(jì)算方式:

缺點(diǎn):欠缺理論的支持與驗(yàn)證。

④概率模型,

優(yōu)點(diǎn):有嚴(yán)格的數(shù)學(xué)理詒基礎(chǔ),采用了相關(guān)反饋原理克服不確定性推理的缺點(diǎn),

缺點(diǎn):參數(shù)估計(jì)的難度比較大,文件和檢索的表達(dá)也比較困難。

10、互聯(lián)網(wǎng)檢索工具的性能評(píng)價(jià):

(1)收錄范圍

(2)檢索功能(核心指標(biāo)i:

①檢索方式,單一還是多樣:

②檢索技術(shù)是否先進(jìn)、多樣:

③檢索限定,對(duì)所查信息是否有選擇與限定的自由。

(3)檢索效率(檢全率和檢準(zhǔn)率)

(4)檢索結(jié)果的處理和展示

(5)用戶界面設(shè)計(jì)。

11、檢全率:對(duì)于一項(xiàng)檢索,實(shí)際檢出的文件數(shù)目與所有應(yīng)該被檢出的文件數(shù)目的比率。

12、檢準(zhǔn)率:對(duì)于?項(xiàng)檢索,實(shí)際檢出的文件之中有多少比率是真正應(yīng)該被檢出的文件。

13、較高的檢準(zhǔn)率可以節(jié)省用戶從檢出的所有文檔中過(guò)濾掉無(wú)關(guān)信息的時(shí)間。

第3章互聯(lián)網(wǎng)檢索工具(一)?一搜索引擎

i.搜索引擎:是一種能夠通過(guò)互聯(lián)網(wǎng)接受用戶的杳詢指令,幫助用戶訊速地從網(wǎng)上查找所需要的信息,并

向用戶提供符合其查詢要求的搜索結(jié)果列表及相關(guān)信息的檢索系統(tǒng)。

2、Archie:是第一個(gè)互聯(lián)網(wǎng)信息檢索工具

3、從搜索技術(shù)層面上分析,搜索引擎的發(fā)展大致經(jīng)歷了以下3個(gè)階段:

①第一代搜索引擎是以文檔分類導(dǎo)航為特征,是基于文檔內(nèi)容的搜索引擎,代表:Yahoo。

②第二代搜索引擎產(chǎn)生于20世紀(jì)90年代中期,以關(guān)健詞匹配為特征,并基于超鏈接分析技術(shù),從而

實(shí)現(xiàn)網(wǎng)頁(yè)的自動(dòng)抓取、排序等。代表:Guv^le

③第三代搜索引擎是一種智能化的搜索引擎,可以實(shí)現(xiàn)自然語(yǔ)言的無(wú)障礙搜索。

4、搜索引擎的一般工作流程是:首先對(duì)互聯(lián)網(wǎng)上的網(wǎng)頁(yè)進(jìn)行搜集,其次對(duì)搜集來(lái)的網(wǎng)頁(yè)進(jìn)行預(yù)處理,建立

網(wǎng)頁(yè)索引庫(kù),實(shí)時(shí)響應(yīng)用戶的查詢請(qǐng)求,并對(duì)查找到的結(jié)果按某種規(guī)則進(jìn)行排序后返回給用戶。

5、搜索引擎的重要功能是對(duì)互聯(lián)網(wǎng)上的文本信息提供全文檢索。分步驟敘述搜索引擎的工作原理。

①抓取一從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè):搜索引擎的信息搜集基本上是自動(dòng)的.

②索引-建立索引數(shù)據(jù):此過(guò)程即為搜索引擎對(duì)搜集到的網(wǎng)頁(yè)信息進(jìn)行系統(tǒng)整埋的過(guò)程。

③搜索、排序一在索引數(shù)據(jù)庫(kù)中搜索排序:用戶輸入關(guān)鍵詞進(jìn)行檢索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引

數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。依據(jù)已經(jīng)計(jì)算好的所有網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度,按

照其數(shù)值高低進(jìn)行排序。

④顯示一對(duì)搜索結(jié)果進(jìn)行處理排序:搜索引擎定期對(duì)網(wǎng)頁(yè)進(jìn)行重新訪問(wèn),更新數(shù)據(jù)庫(kù)信息,同葉根據(jù)

網(wǎng)頁(yè)文字和鏈接關(guān)系的改變重新進(jìn)行排序。

6、搜索引擎的關(guān)鍵技術(shù)有哪些:

(1)信息收集和存儲(chǔ),

(2)信息預(yù)處理技術(shù):

①關(guān)鍵詞提取技術(shù);

②坨圾信息消除技術(shù)

③鏈接分析技術(shù)

④網(wǎng)頁(yè)重要性計(jì)算術(shù):

(3)信息索引技術(shù):

①順排文檔檢索

②倒排文檔索引

③后綴數(shù)組索引

7、搜索引擎技術(shù)的發(fā)展趨勢(shì):

①自然語(yǔ)言檢索技術(shù)

②目錄導(dǎo)航檢索與關(guān)鍵詞檢索相結(jié)合

③智能化和個(gè)性化檢索技術(shù)

④多媒體檢索技術(shù)

⑤3G移動(dòng)搜索

⑥交叉語(yǔ)言檢索技術(shù)

8、網(wǎng)絡(luò)檢索工具的分類:

(1)按檢索對(duì)象劃分:

①Web資源檢索工具;

②非Web資源檢索工具;

(2)按檢索機(jī)制劃分:

①目錄型Yahoo;

②索引型Google;

③混合型;

(3)按檢索領(lǐng)域劃分:

①綜合型網(wǎng)絡(luò)檢索工具;

②專業(yè)型網(wǎng)絡(luò)檢索工具;

@特殊型網(wǎng)絡(luò)檢索工具;

(4)按集成檢索工具數(shù)量劃分:

①獨(dú)立型網(wǎng)絡(luò)檢索工具;

②集合型網(wǎng)絡(luò)檢索工具;

(5)按運(yùn)行環(huán)境劃分:

①互聯(lián)網(wǎng)搜索工具;

②網(wǎng)站內(nèi)搜索工具;

③桌面搜索工具;

9、搜索引擎的主要類型:

①通用搜索引擎

②垂直搜索引擎

③元搜索引擎

10,Bing,是微軟公司于2009年5月發(fā)布的一款用以取代LiveSearch搜索弓|擎

11、AckJeeves因采用“自然語(yǔ)言搜索”而一舉成名。

12.Lycos是第?個(gè)在搜索結(jié)果中使用了網(wǎng)頁(yè)自動(dòng)摘要,曾以遠(yuǎn)性過(guò)其他搜索引擎的數(shù)據(jù)量著稱。

13、國(guó)內(nèi)通用搜索引擎:搜狗、百度。

14、垂直搜索:是針對(duì)某一特定領(lǐng)域、某一特定人群或某一特定需求提供的信息搜索和有一定價(jià)值的相關(guān)

信息服務(wù),

特點(diǎn):就是專、精、深,且具有行業(yè)色彩。

關(guān)鍵技術(shù):“主題爬蟲(chóng)”技術(shù)和Web信息提取技術(shù)。

15、“主題爬蟲(chóng)”技術(shù):與通用搜索引擎不同,是根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)漉與主題無(wú)關(guān)的鏈接,保留主

題相關(guān)的鏈接并將其放入待抓取的網(wǎng)頁(yè)URL,并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某?條件時(shí)才停止。

16、垂直搜索引擎的特征:

(1)信息采集,采用主動(dòng)采集與被動(dòng)采集相結(jié)合的方式,

(2)信息加工:對(duì)網(wǎng)頁(yè)信息進(jìn)行了結(jié)構(gòu)化信息提取加工,通用搜索引擎進(jìn)行檢索的最小單位為網(wǎng)頁(yè),而

垂直搜索引擎的最小單位是結(jié)構(gòu)化的數(shù)據(jù):

(3)信息檢索:不僅能夠?qū)W(wǎng)頁(yè)信息的結(jié)構(gòu)化信息進(jìn)行檢索,還能提供結(jié)構(gòu)化叮非結(jié)構(gòu)化相結(jié)合的方式

進(jìn)行檢索。

17、垂直搜索引擎常用工具介紹:

①酷訊:是國(guó)內(nèi)的第一個(gè)全旅游搜索引掌:

②智聯(lián)招聃網(wǎng):

③搜房網(wǎng);

④優(yōu)酷網(wǎng):視頻分享網(wǎng)篩。

18、元搜索引擎:又稱集合式搜索引擎、并行搜索引擎之搜索引擎。它是將多個(gè)搜索引擎集成在一起,并

提供一個(gè)統(tǒng)一的檢索界面。

19、元搜索引擎工作原理:將多個(gè)搜索引擎進(jìn)行集合,通過(guò)統(tǒng)一的檢索界面接受用戶的檢索提問(wèn),用戶只

需遞交?次檢索請(qǐng)求,元搜索引擎就可根據(jù)知識(shí)庫(kù)中的信息,將用戶的檢索請(qǐng)求轉(zhuǎn)換為多個(gè)搜索引擎所能

識(shí)別的格式,自動(dòng)地分發(fā)、提交給多個(gè)獨(dú)立的搜索引擎,同時(shí)進(jìn)吁多個(gè)數(shù)據(jù)庫(kù)的檢索,最后元搜索引擎再

把從各個(gè)搜索引擎返回的檢索結(jié)果收集起來(lái),進(jìn)行比較分析,合并冗余、去除重復(fù)信息,交以一定的格式

返回給用戶。

20、元搜索引擎與普通搜索引擎的區(qū)別:

①可以將一次提問(wèn)提交多個(gè)數(shù)據(jù)庫(kù);

②沒(méi)有自己獨(dú)立的數(shù)據(jù)庫(kù);

③結(jié)果是基于獨(dú)立搜索引擎的結(jié)果的二次加工;

④標(biāo)明結(jié)果記錄的來(lái)源搜索引擎及相關(guān)度。

21、元搜索引擎的優(yōu)點(diǎn):

①信息覆蓋面大,檢索效率高:

②檢索工具擴(kuò)展性能強(qiáng);

③服務(wù)多樣化;

④無(wú)需考慮網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)的建立和維護(hù)。

22、元搜索引擎的缺點(diǎn):

①檢索結(jié)果全面性和可靠性差;

②不能靈活控制結(jié)果的輸出?

③檢索結(jié)果排序不夠理想:

④信息搜索覆蓋面存在局限性:

⑤檢索式處理較復(fù)雜。

第4章互聯(lián)網(wǎng)檢索工具(二)--目錄型網(wǎng)絡(luò)檢索工具

1、互聯(lián)網(wǎng)黃頁(yè)是目錄型

目錄型檢索工具的特點(diǎn):

①面向用戶的易用性:

②提供準(zhǔn)確性較高的信息內(nèi)容;

③提供導(dǎo)航作用良好的檢索體系結(jié)構(gòu);

④以明確的主題和對(duì)象為中心設(shè)置確定類目:

⑤有兼容性強(qiáng)的多元類目。

2、目錄型網(wǎng)絡(luò)檢索工具的分類法:

①主題分類法,其特征是一個(gè)主題充當(dāng)一個(gè)類目,像主題詞表一樣按字順排列,而不是以邏輯排列:

②學(xué)科分類法,一般是以知識(shí)分類為基礎(chǔ),按照學(xué)科性質(zhì)及從屬、層次關(guān)系來(lái)組織網(wǎng)絡(luò)資源:

③圖書(shū)分類法,

④分面組配法,其原理是首先確定幾個(gè)分類標(biāo)準(zhǔn),再確定每個(gè)分類標(biāo)準(zhǔn)中的若干特征值,即類目,每

一分面的類目與其他分面的類目分別組配,形成許多組配類目,達(dá)到細(xì)分的目的。

3、目錄型網(wǎng)絡(luò)檢索工具的類理:

①網(wǎng)絡(luò)資源目錄,即以整個(gè)互聯(lián)網(wǎng)資源為檢索對(duì)象,將一些重要、優(yōu)質(zhì)的網(wǎng)絡(luò)資源組織成分類目錄,

提供給用戶查詢檢索:

②學(xué)科信息門戶.是經(jīng)過(guò)人工處理、專家排選、定期檢查處理的學(xué)科信息導(dǎo)航系統(tǒng),其主要功能是:

提供學(xué)科信息瀏覽檢索和有效資源的鏈接。

③搜索工具門戶,以信息檢索工具、查詢網(wǎng)站為檢索對(duì)象,專門為人們了解、選擇適用的信息查詢工

具提供推薦、引導(dǎo)服務(wù)[如haol23)。

4、目錄型網(wǎng)絡(luò)檢索工具的使月方法:

①采用廣度優(yōu)先查詢法;

②注意了解各個(gè)檢索工具的收錄特點(diǎn),選擇適當(dāng)?shù)墓ぞ撸?/p>

③掌握各目錄檢索工具的分類體系:

④關(guān)注熱門主題和常用目錄:

⑤關(guān)注開(kāi)放H錄型檢索工具。

5、目錄型檢索工具主要適用于:

①用戶進(jìn)行較籠統(tǒng)的主題瀏覽和檢索;

②當(dāng)用戶尚未形成很精確的檢索概念時(shí).,采用主題指南作為檢索起點(diǎn)非常有效。

國(guó)外:Yahoo.Galaxy;國(guó)內(nèi):搜狗網(wǎng)址導(dǎo)航、新浪分類目錄

7、BLBLLINK是一個(gè)覆蓋了所有學(xué)術(shù)領(lǐng)域的互聯(lián)網(wǎng)資源目錄。

8、目錄型網(wǎng)絡(luò)檢索工具與搜索引擎的區(qū)別:

①目錄結(jié)構(gòu)人工選擇:

②學(xué)術(shù)性強(qiáng);

③分類瀏覽直觀,適合新手:

④適合目的不明確的檢索;

⑤查準(zhǔn)率較高:

⑥數(shù)據(jù)庫(kù)的規(guī)模相對(duì)較小,檢索到的信息數(shù)量有限。

第5章多媒體信息檢索

i.圖像搜索:是通過(guò)搜索圖像的文木表示或者視覺(jué)特征,為用戶提供互聯(lián)網(wǎng)上相關(guān)圖像資料檢索服務(wù)的專

業(yè)搜索引擎系統(tǒng),是搜索引擎的一種類型。

圖像特征包括基于文本的特征(關(guān)健詞、注釋等)和視覺(jué)特征(如顏色、紋理、形狀等工

2、基于文本的圖像搜索:借助網(wǎng)絡(luò)圖像的文本上下文環(huán)境,可以在一定程度上為圖像分析、標(biāo)引提供依據(jù)。

可以用來(lái)幫助圖像分析、標(biāo)引的Web文檔內(nèi)容包括以下幾方面:

①圖像文件名及網(wǎng)址:

②圖像替代文字:

③圖像周圍的文字:

④圖像所在頁(yè)面的標(biāo)題:

⑤圖像的超鏈接;

⑥圖像所在網(wǎng)頁(yè)彼此間的鏈接

3、基于內(nèi)容的圖像搜索:對(duì)圖像的媒體視覺(jué)特征、內(nèi)容語(yǔ)義,如圖像的顏色、形狀、紋理和空間布局等可

視化內(nèi)容進(jìn)行分析和檢索的圖像檢索技術(shù),簡(jiǎn)稱CIHK技術(shù)。

可以用來(lái)處理圖像的主要特征包括以下幾點(diǎn):

①顏色,是在基于內(nèi)容圖像檢索中最廣泛使用的可視化特征;

②紋理,是圖像的重要特征之一,它代表了物體的視覺(jué)模式,包含了物體表面的組織結(jié)構(gòu)以及與周圍

環(huán)境之間的關(guān)系:

③形狀,是刻畫(huà)物體最本質(zhì)的特征,也足最難描述的圖像特征之一,主要難在對(duì)圖像中感興趣目標(biāo)的

分割。

4、谷歌圖像:

①概況,世界上最好用的圖像搜索工具:

②檢索功能:一般檢索和高級(jí)檢索兩種模式;

③結(jié)果顯示,檢索結(jié)果以縮略圖的方式顯示;

④評(píng)價(jià),無(wú)愧于“最佳圖像搜索引擎”的稱號(hào),它提供給用戶最精準(zhǔn)的搜索。

5、Flickr,被認(rèn)為是分眾分類法的典范,也是第一個(gè)使用標(biāo)簽云網(wǎng)站。

6、百度圖片,號(hào)稱是世界上最大的中文圖片搜索引擎。

7、基于內(nèi)容的圖像搜索引擎。查詢模式有以下3利1:

①按例查詢:用戶提供一個(gè)瓷詢圖片,在數(shù)據(jù)庫(kù)中搜索相似圖片;

②按繪查詢:用戶在類似的畫(huà)板的接口上面進(jìn)行簡(jiǎn)單的繪畫(huà),以此為標(biāo)準(zhǔn)進(jìn)行查詢:

③按描述查詢:指定一定的條件來(lái)進(jìn)行查詢。

8、QBIC:基于內(nèi)容圖像檢索系統(tǒng),商業(yè)化

9,ALLmusic,基于文本的音頻搜索引擎

10、OPERABASE是?個(gè)專門用來(lái)查找歌劇信息的網(wǎng)站

11、目前視頻檢索的方法主要有以下三種:

①基于關(guān)鍵幀的檢索:使用目標(biāo)特征的說(shuō)明:

②基于運(yùn)動(dòng)的檢索:基于鏡頭和視頻對(duì)象的時(shí)間特征:

③基于故事單元的瀏覽檢索:采用分層結(jié)構(gòu)和集束分類技術(shù)。

第6章學(xué)術(shù)信息的網(wǎng)上檢索與獲取

1、世界各地圖書(shū)館在開(kāi)發(fā)、建設(shè)數(shù)據(jù)圖書(shū)館系統(tǒng)的進(jìn)程中,已將傳統(tǒng)的圖書(shū)館目錄發(fā)展為“聯(lián)機(jī)圖書(shū)館公

共可檢索目錄”(OPAC),即一個(gè)基于網(wǎng)絡(luò)的開(kāi)放式書(shū)目檢索系統(tǒng),

2、互聯(lián)網(wǎng)WorIdeal是OCLC系統(tǒng)提供的一個(gè)在線聯(lián)合目錄數(shù)據(jù)庫(kù),是世界上最龐大、最完整、收錄圖書(shū)館

最多的聯(lián)合目錄。

3、方正Apabi數(shù)字圖書(shū)館是北京大學(xué)方正公司開(kāi)發(fā)的數(shù)字圖書(shū)系統(tǒng)。

4、古騰堡計(jì)劃,是互聯(lián)網(wǎng)上最早的免費(fèi)電子圖書(shū)生產(chǎn)者,現(xiàn)在它幾乎平均每一天都生產(chǎn)一部電/書(shū),

5、IEEE/1EE,簡(jiǎn)稱IEL,是一套由IEEE和[EE出版的全文數(shù)據(jù)庫(kù),是當(dāng)今世界信息量最大的電子、工程類

信息源之一。

6.HighWire是全球最大的提供免費(fèi)全文學(xué)術(shù)文獻(xiàn)的出版商。

7、中國(guó)學(xué)術(shù)會(huì)議在線,進(jìn)行會(huì)議檢索。

8、學(xué)位論文:指高等院?;?qū)W術(shù)研究機(jī)構(gòu)的學(xué)生為獲得某種學(xué)位而撰寫(xiě)的科學(xué)論文,包括學(xué)士論文、碩士

論文、博士論文等。

9、標(biāo)準(zhǔn):指按規(guī)定程序制訂,經(jīng)公認(rèn)權(quán)威機(jī)構(gòu)或主管機(jī)關(guān)批準(zhǔn)的?整套在特定領(lǐng)域內(nèi)必須執(zhí)行的規(guī)格、規(guī)

則、技術(shù)要求等規(guī)范性文獻(xiàn)。

10、中國(guó)標(biāo)準(zhǔn)服務(wù)網(wǎng),提供對(duì)標(biāo)準(zhǔn)信息的免費(fèi)查詢。

11、國(guó)際組織:亦稱國(guó)際團(tuán)體或國(guó)際機(jī)構(gòu),是具有國(guó)際性行為特征的組織,是3個(gè)或3個(gè)以上國(guó)家(或其

他國(guó)際法主體)為實(shí)現(xiàn)共同的政治經(jīng)濟(jì)目的,依據(jù)其締結(jié)的條約或其他正式法律文件建立的有一定規(guī)章制

度的常設(shè)性機(jī)構(gòu)。

12、會(huì)議文獻(xiàn)是在各種學(xué)術(shù)會(huì)議上所發(fā)表的論文、報(bào)告、講演等的統(tǒng)稱。其主要特點(diǎn)是時(shí)效性強(qiáng),反映新

成果較快,質(zhì)量較高,專業(yè)性較突出,往往代表著某一學(xué)科或?qū)I(yè)領(lǐng)域的最新研究水平。

13、圖書(shū)箱館藏目錄檢索途徑主要有:

①題名檢索,包括書(shū)名、從書(shū)名、并列書(shū)名、刊名:

②責(zé)任者檢索,包括著者、編者?、譯者、團(tuán)體著者(包括會(huì)議)名稱:

③分類檢索,從圖書(shū)所屬學(xué)科、領(lǐng)域分類的角度,按分類號(hào)進(jìn)行檢索:

④主題/關(guān)鍵詞檢索,以表征圖書(shū)內(nèi)容主題的主題詞或關(guān)鍵詞進(jìn)行檢索:

⑤號(hào)碼檢索,包括國(guó)際標(biāo)準(zhǔn)書(shū)號(hào)ISBN,國(guó)際標(biāo)準(zhǔn)刊號(hào)ISSN,中國(guó)書(shū)號(hào)或期刊號(hào):

⑥出版社名稱檢索。

第7章參考信息網(wǎng)上檢索

1、參考信息:即指人名、地名、機(jī)構(gòu)、時(shí)間、統(tǒng)計(jì)數(shù)據(jù)等一類數(shù)據(jù)、事實(shí)信息,是人們?cè)诠ぷ餮芯亢腿粘?/p>

生活中經(jīng)常要查考、引用的信息。

2、百科全書(shū)是人類一切門類知識(shí)或杲一門類知識(shí)的慨述性者述,集各種類型_L具之大成,被稱為“_L具書(shū)

之王”。

3、維基百科:是一個(gè)語(yǔ)言、內(nèi)容開(kāi)放的網(wǎng)絡(luò)百科全書(shū)計(jì)劃。

4、傳記資料:記錄歷史人物或當(dāng)代著名人物的生平資料等相關(guān)信息,這些信息一般包括生卒年、學(xué)歷、職

務(wù)、經(jīng)歷、家庭、政治背景、學(xué)術(shù)觀點(diǎn)、團(tuán)體、著述、評(píng)價(jià)、通信方式等。

5、網(wǎng)上白頁(yè):是專用于查找個(gè)人信息的特殊工具,這些個(gè)人信息包括電話號(hào)碼、EMail地址、郵政編碼、

通訊住址。

6、IAF:為用戶提供極為優(yōu)質(zhì)的黃白頁(yè)檢索服務(wù),是目前世界上最好的黃白頁(yè)信息咨詢工具之一。

7、地理信息查詢:與人民的生活密切相關(guān),用戶可以根據(jù)自身的查詢需求選擇適當(dāng)?shù)牡乩硇畔⒖荚础?/p>

8、地名工具書(shū)是地理信息的核心,可以用來(lái)查找古今中外的地名及所代表的地理、歷史、人文等簡(jiǎn)況。

9、SkyAuction是?個(gè)非常沅行的拍賣網(wǎng)站。

10、年鑒:是指“每年出版的統(tǒng)計(jì)數(shù)據(jù)和事實(shí)的匯編,兼有現(xiàn)期性和回溯性內(nèi)容。其包含的地區(qū)和學(xué)科領(lǐng)

域一般比較廣泛,也可能限于某?特定國(guó)家或特定的領(lǐng)域二

11、Infoplease是一個(gè)集百科全書(shū)、字典、地圖集合和年鑒與一體的網(wǎng)站。

12、機(jī)構(gòu)名錄又稱名錄、指南、便覽、行名錄,是用來(lái)查找機(jī)構(gòu)團(tuán)體相關(guān)信息的一類檢索工具。不同丁?黃

頁(yè)。

13、詞典:是根據(jù)一定的編撰目的匯集詞語(yǔ)(或詞語(yǔ)的某些成分),并加以描述、說(shuō)明,通常按字順排列,

供人們查找詞語(yǔ)信息的工具書(shū)。

14、黃頁(yè)信息:將定位地點(diǎn)周邊商業(yè)劃分為娛樂(lè)、教育、餐飲等15大類,用戶可以根據(jù)需要分類檢索周邊

商業(yè)設(shè)施。

第8章互聯(lián)網(wǎng)信息檢索策略、技巧與提高

信息需求的5W1H(whatwhovherewhenwhyhow)

1、關(guān)鍵詞的選取步驟:

①抽取基礎(chǔ)關(guān)鍵詞,排除常用詞:

②考慮基礎(chǔ)關(guān)鍵詞的同義詞:

③考慮上位詞(外延更廣)和下位詞(內(nèi)涵更窄);

④考慮相關(guān)詞:

⑤總結(jié)審視

2、常見(jiàn)的布爾邏輯操作符:

①AND操作符:

②OR操作符;

③“”引號(hào)操作符;

④NEAR操作符BEFORE和AFTER操作符:

⑤ANDNOR操作符;

⑥通配符(*和?):

⑦括號(hào)操作符

3、引號(hào)操作符:對(duì)應(yīng)英文關(guān)鍵詞即為詞組檢索方式,詞組檢索強(qiáng)制檢索結(jié)果必須與詞組的形式完全一致(順

序和間隔都不變),不允許拆分關(guān)鍵詞,這樣對(duì)檢索結(jié)果限制得更嚴(yán),檢準(zhǔn)率也更高。

4、截詞檢索:分為前截詞檢索,后裁詞檢索,中間截詞檢索、前后截同檢索。

同時(shí),各截?cái)嗖糠诌€可以分為精確截?cái)啵幢唤刈址淖址麛?shù)1是確定的,通常用通配符“?”表示,

“?”的個(gè)數(shù)即是被截字符串的字符數(shù))和模糊截?cái)啵幢唤刈址淖址麛?shù)目是不確定,通常用通配符

表示,被截字符串的字符數(shù)可以為零,亦可以是具有檢索意義的任何字符個(gè)數(shù),

5、檢索策略,包括如何選擇檢索工具,如何根據(jù)檢索結(jié)果調(diào)整檢索表達(dá)式,以及對(duì)信息資源、對(duì)檢索工具

的深入思考等。

完善周密的檢索策略可以幫助檢索者解決那些看起來(lái)很困難的問(wèn)題,而一個(gè)不成熟的檢索策略很可能導(dǎo)致

在一個(gè)簡(jiǎn)單的檢索上面浪費(fèi)大量的時(shí)間甚至造成檢索失敗。

實(shí)施檢索策略的步驟:

①判斷目標(biāo)信息可能存在的地方;

②了解互聯(lián)網(wǎng)信息檢索的特殊性:

③了解可用的檢索工具;

④仔細(xì)分析自己的信息需求并選擇合適的工具:

⑤根據(jù)檢索結(jié)果調(diào)整檢索策略

6、目前,通用的互聯(lián)網(wǎng)檢索二具大致分為:搜索引擎、元搜索引擎、網(wǎng)絡(luò)資源目錄和專門數(shù)據(jù)庫(kù)。

7、進(jìn)階檢索技巧:

①猜測(cè)URL;

②右截?cái)嗑W(wǎng)址:

③利用網(wǎng)頁(yè)快照:

④注意多義詞,

⑤避免拼寫(xiě)錯(cuò)誤;

⑥利用瀏覽器的“查找”功能;

⑦利用檢索工具的特殊切能;

⑧使用輔助關(guān)犍詞:

⑨順藤摸瓜;

⑩使用自然語(yǔ)言檢索:注意單詞的大小寫(xiě):垂直檢索:字段檢索:善丁利用錯(cuò)誤信息。

8、通用字段檢索語(yǔ)法意義P290

anchor:txt查詢網(wǎng)頁(yè)中包含特定字或詞組的超鏈接

applet:class限定查詢含特定Javaapplet的網(wǎng)頁(yè)

domin:domainname限定查詢特定領(lǐng)域名稱的網(wǎng)頁(yè)

Host:name

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論