




版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、網(wǎng)絡(luò)信息檢索與利用,主講人: 夏立新 教授 博士生導(dǎo)師 華中師范大學(xué)信息管理系,contents,信息檢索的過(guò)程,關(guān)于鋼鐵與冶金的網(wǎng)絡(luò)信息資源,檢索的方法及其選擇,信息檢索的定義及重要性,檢索過(guò)程的控制,檢索結(jié)果的評(píng)價(jià),1.1信息檢索的定義:,廣義的信息檢索全稱(chēng)為“信息存儲(chǔ)與檢索”,是指將信息按一定的方式組織和存儲(chǔ)起來(lái),并根據(jù)用戶(hù)的需要找出有關(guān)信息的過(guò)程。 狹義的信息檢索為“信息存儲(chǔ)與檢索”的后半部分,通常稱(chēng)為“信息查找”或“信息搜索”,是指從信息集合中找出用戶(hù)所需要的有關(guān)信息的過(guò)程。 狹義的信息檢索包括3個(gè)方面的含義:了解用戶(hù)的信息需求、信息檢索的技術(shù)或方法、滿足信息用戶(hù)的需求。,1.2 信
2、息檢索的重要性,任何一個(gè)人都有信息檢索的需求,無(wú)論是去圖書(shū)館看書(shū),還是網(wǎng)上搜索資料;無(wú)論是用百度還是用谷歌;無(wú)論是查閱期刊,還是從數(shù)據(jù)庫(kù)中下載文獻(xiàn),都是信息檢索的過(guò)程,信息檢索的重要性可見(jiàn)一斑。下面從科研和決策的角度來(lái)簡(jiǎn)要解釋信息檢索的重要性。,1.2.1科研方面: 選擇研究課題 無(wú)論哪方面的課題,都應(yīng)來(lái)源于人類(lèi)已有的科學(xué)技術(shù)知識(shí),也就是前人或他人的研究工作??萍紕?chuàng)新的研究工作都是把前人或他人研究的終點(diǎn)及取得的成果作為研究的起點(diǎn)。而找到這個(gè)終點(diǎn)與起點(diǎn)的唯一辦法就是搜集信息資料和積累知識(shí)。文獻(xiàn)信息檢索對(duì)課題選擇過(guò)程中找到研究的起點(diǎn)、避免重復(fù)性的研究工作,起著非常重要的作用。,提出研究的內(nèi)容及方案
3、 論述即將開(kāi)展研究課題的國(guó)內(nèi)外發(fā)展動(dòng)態(tài),實(shí)驗(yàn)手段和經(jīng)濟(jì)效益分析。第一步和第二步95%屬于信息調(diào)研工作。 進(jìn)行試驗(yàn)研究 我們?cè)谘芯空n題的同時(shí),可能別人也在研究,必須了解研究課題情況,廣集他人智慧,為我所用,才能使研究進(jìn)展更快,才能走在別人的前面。 撰寫(xiě)研究報(bào)告(或論文),同樣需要引用最新的資料。,1.2.2 決策方面: 信息是領(lǐng)導(dǎo)決策活動(dòng)的基礎(chǔ) 決策活動(dòng)是一個(gè)由信息系統(tǒng)、智囊系統(tǒng)、決策系統(tǒng)、和監(jiān)督系統(tǒng)組成的科學(xué)決策體系,而要完成一項(xiàng)科學(xué)決策,每個(gè)子系統(tǒng)都不同程度滲透著信息檢索工作。 決策的過(guò)程就是信息利用的過(guò)程,信息檢索工作貫穿決策的始終。,信息是領(lǐng)導(dǎo)科學(xué)決策的橋梁 采用科學(xué)思維和科學(xué)計(jì)算方法,
4、通過(guò)對(duì)大量前瞻性信息的檢索分析和利用以輔助決策,是科學(xué)決策化的主要手段。 信息是領(lǐng)導(dǎo)決策成功的重要依據(jù) 誰(shuí)檢索的信息多,檢索的快,檢索的準(zhǔn)確,誰(shuí)就能贏得決策工作的主動(dòng)權(quán)。,2.信息檢索的過(guò)程,2.1 分析用戶(hù)的信息需求 2.2 了解檢索工具或系統(tǒng)的基本情況 2.3 制定檢索策略 2.4擬定并執(zhí)行具體的檢索步驟 2.5 獲取并整理檢索結(jié)果 2.6 分析評(píng)價(jià)檢索結(jié)果,用戶(hù)的信息需求層次: 客觀信息需求(RIN:Real Information Need) 認(rèn)識(shí)到的信息需求(PIN : Perceived Information Need) 表達(dá)出來(lái)的信息需求(即檢索提問(wèn):Request) 以及檢索
5、提問(wèn)表達(dá)式(Query),2.1分析用戶(hù)的信息需求:,在圖中,學(xué)術(shù)研究人員在探索未知,解決實(shí)際問(wèn)題的過(guò)程中,總存在著一定的信息需求。這是一種完全由客觀條件決定,不以學(xué)術(shù)研究人員主觀認(rèn)識(shí)為轉(zhuǎn)移的需求狀態(tài)。我們稱(chēng)之為“客觀信息需求”(RIN)。認(rèn)識(shí)到的信息需求不同于客觀信息需求,它只是客觀信息需求的一種心理認(rèn)知狀態(tài)。由于主觀因素和意識(shí)的作用,學(xué)術(shù)研究人員認(rèn)識(shí)到的信息需求(PIN)可能僅僅只是客觀信息需求(RIN)的一部分,甚至有可能是對(duì)客觀信息需求產(chǎn)生錯(cuò)誤的認(rèn)識(shí)。,為了滿足自己的信息需求,學(xué)術(shù)研究人員試圖充分而準(zhǔn)確地表達(dá)認(rèn)識(shí)到的信息需求,于是,產(chǎn)生了檢索提問(wèn)(Request)。檢索提問(wèn)通常用人工語(yǔ)
6、言予以表達(dá),有時(shí)也用自然語(yǔ)言予以表達(dá)。在檢索提問(wèn)的基礎(chǔ)上,使用檢索用詞(如系統(tǒng)詞表中語(yǔ)詞、以及其他非受控語(yǔ)詞)和“系統(tǒng)”語(yǔ)言(如布爾邏輯算符、截詞算符、位置算符等)構(gòu)造檢索提問(wèn)表達(dá)式(Query)。相對(duì)于信息檢索對(duì)象信息集合,客觀信息需求(RIN)、認(rèn)識(shí)到的信息需求(PIN)、檢索提問(wèn)(Request)、以及檢索提問(wèn)表達(dá)式(Query)共同構(gòu)成學(xué)術(shù)信息需求集合,即Infoneed=RIN、PIN、Request、Query。,2.1.1信息需求的主題特征 對(duì)用戶(hù)提出的課題進(jìn)行主題概念分析,按主題概念的層次性從泛指到專(zhuān)指層層展開(kāi)、層層深入,將其分為一個(gè)或多個(gè)概念塊,我們稱(chēng)之為“概念組面”。在說(shuō)明
7、主題的結(jié)構(gòu)中,最常用的是“事物”、“部分”、“方面”和“類(lèi)稱(chēng)”、“特稱(chēng)”這個(gè)概念。,事物就是課題討論的對(duì)象,例如“汽車(chē)”; 部分是指所討論對(duì)象的一個(gè)組成部分,例如“輪胎”; 方面是指研究對(duì)象或其部分的某一方面問(wèn)題,例如“耐磨性”。 “類(lèi)稱(chēng)”與“特稱(chēng)”是屬種關(guān)系,如“輪胎”與“汽車(chē)輪胎”,前者是類(lèi)稱(chēng),后者是特稱(chēng)。 特稱(chēng)事物既可以直接表達(dá)(如“汽車(chē)輪胎”),也可以用“類(lèi)稱(chēng)特稱(chēng)限定詞”的方式表達(dá)(如“輪胎,汽車(chē)”),典型的主題結(jié)構(gòu)是:“事物,事物種類(lèi)(特稱(chēng))事物的部分部分的部分事物的方面方面的方面,地區(qū),時(shí)間,文獻(xiàn)類(lèi)型”。具體的主題,一般僅有上述典型結(jié)構(gòu)中的若干個(gè)構(gòu)成因素。同時(shí),各學(xué)科、專(zhuān)業(yè)也有具體
8、的典型主題結(jié)構(gòu),雖不盡相同,但大同小異。這樣比較典型的主題結(jié)構(gòu)可以為我們分析檢索課題的主題概念,形成概念組面提供框架。,2.2 了解檢索工具或系統(tǒng)的基本情況 檢索工具或系統(tǒng)的研制者情況 檢索工具或系統(tǒng)的收錄范圍 檢索工具或系統(tǒng)所提供的檢索途徑及相應(yīng)功能(檢索途徑按內(nèi)容可分為兩類(lèi),一類(lèi)是泛指性強(qiáng)、做選題時(shí)常用的分類(lèi)檢索,一類(lèi)是專(zhuān)指性強(qiáng)、選題成功時(shí)使用的主題檢索,2.3制定檢索策略 常用的聯(lián)機(jī)檢索策略有 積木型 相關(guān)詞、同義詞、近義詞用OR連接成子檢索式。 引文珠形增長(zhǎng) 從已知的相關(guān)課題的少數(shù)幾個(gè)檢索詞入手,找到新的檢索詞,補(bǔ)充到檢索式當(dāng)中去。 逐次分餾 逐漸提高專(zhuān)指度,2.4擬定并執(zhí)行具體的檢索
9、步驟,2.5 獲取并整理檢索結(jié)果 2.6 分析評(píng)價(jià)檢索結(jié)果 查全率(Recall Ratio ,R) 查準(zhǔn)率(Precision Ratio,P) R = 檢索出來(lái)的相關(guān)文獻(xiàn)數(shù)量/系統(tǒng)中所有的相關(guān)文獻(xiàn)數(shù)量 P = 檢索出來(lái)的相關(guān)文獻(xiàn)數(shù)量/ 檢索出來(lái)的文獻(xiàn)總量,比如我們需要一些與未來(lái)鋼鐵行業(yè)發(fā)展方向相關(guān)的文獻(xiàn)。我們選擇的數(shù)據(jù)庫(kù)是中國(guó)期刊網(wǎng),我們構(gòu)建的檢索詞為:鋼鐵行業(yè) + 發(fā)展趨勢(shì)。我們采用的策略是逐次分餾。,從圖中我們可以看到,我們能搜出316個(gè)結(jié)果,數(shù)量比較多。但是仔細(xì)看結(jié)果。有很多是04、05甚至是03年的文獻(xiàn),這些都很老舊了。,于是我們把文獻(xiàn)的發(fā)表時(shí)間限制為2009.12.19到2011
10、.12.19。再看一下檢索的結(jié)果會(huì)如何。,如下圖,雖然得到的結(jié)果只有78條,比前面少了,但是再來(lái)看一下文獻(xiàn)發(fā)表的時(shí)間:,可以很明顯的看到,所檢索到的結(jié)果時(shí)間都是最近一兩年的,更加符合我們的現(xiàn)實(shí)需求,從這些文獻(xiàn)中得到是的信息更加有參考價(jià)值。而且我們可以通過(guò)限制文獻(xiàn)的作者 、作者的單位、文獻(xiàn)的出版社以及國(guó)家和各級(jí)科研項(xiàng)目來(lái)逐步提高專(zhuān)指度來(lái)限制檢索的范圍,還可以更改或增加檢索詞來(lái)進(jìn)一步檢索,最后得到我們比較滿意的結(jié)果,3關(guān)于冶金方面的信息資源,3.1關(guān)于冶金方面的圖書(shū)資源 3.2關(guān)于冶金方面的論文資源 3.3關(guān)于冶金方面的專(zhuān)利資源 3.4關(guān)于冶金方面的標(biāo)準(zhǔn)資源,3.1關(guān)于冶金方面的圖書(shū)資源,圖書(shū)是一
11、種成熟定型的出版物,是迄今為止最主要的文獻(xiàn)類(lèi)型,也是圖書(shū)館藏書(shū)最主要的部分。 圖書(shū)是系統(tǒng)了解和掌握一門(mén)學(xué)科知識(shí)的最基本文獻(xiàn)。 圖書(shū)在專(zhuān)業(yè)領(lǐng)域知識(shí)的學(xué)習(xí)和科研中有著不可替代的作用。 圖書(shū)資源一般分為書(shū)目資源和圖書(shū)全文資源。,3.2.1書(shū)目信息資源,書(shū)目是圖書(shū)目錄的簡(jiǎn)稱(chēng)。一般而言,用戶(hù)都認(rèn)為圖書(shū)內(nèi)容很重要,而圖書(shū)書(shū)目似乎意義不大,其實(shí)不然。 首先,書(shū)目可以引導(dǎo)用戶(hù)學(xué)習(xí),若讀者要了解某專(zhuān)業(yè)領(lǐng)域的知識(shí),在正式閱讀相關(guān)圖書(shū)資源前,有必要通過(guò)書(shū)目來(lái)檢索需要閱讀哪些圖書(shū),決定圖書(shū)的閱讀順序,了解哪些圖書(shū)是這個(gè)領(lǐng)域最為重要和經(jīng)典的,這顯然有助于用戶(hù)的學(xué)習(xí)和研究。 其次,書(shū)目本身的編撰十分優(yōu)秀,具有很高的學(xué)術(shù)價(jià)
12、值和參考價(jià)值,通過(guò)閱讀書(shū)目,讀者可以了解某一時(shí)期內(nèi)某一學(xué)術(shù)領(lǐng)域的概貌。 因此,書(shū)目對(duì)于學(xué)習(xí)和研究具有重要的意義。,書(shū)目信息資源可以通過(guò)以下幾個(gè)個(gè)主要途徑來(lái)獲取: 傳統(tǒng)書(shū)目工具書(shū); 館藏書(shū)目檢索系統(tǒng); 圖書(shū)網(wǎng)站的網(wǎng)絡(luò)書(shū)目; 搜索引擎。,30,傳統(tǒng)書(shū)目工具書(shū),全國(guó)總書(shū)目-查找已經(jīng)出版的圖書(shū) 年鑒性編年總目。根據(jù)全國(guó)的呈繳本編輯成的目錄性工具??捎糜诹私馕覈?guó)解放后我國(guó)書(shū)刊的出版信息。 全國(guó)新書(shū)目-查找正在出版的圖書(shū) 收錄有全國(guó)各出版社近期出版的新書(shū) 。 新華書(shū)目報(bào)-查找將要出版的圖書(shū) (分社科新書(shū)目和科技新書(shū)目?jī)煞N)用于報(bào)道最近出版和即將出版的新書(shū) 中國(guó)圖書(shū)在版編目快報(bào)周刊 出版社目錄 報(bào)道本出版社
13、出版的圖書(shū),有圖書(shū)內(nèi)容簡(jiǎn)介和征訂目錄兩種 (如:內(nèi)部書(shū)征訂目錄),31,館藏書(shū)目信息檢索系統(tǒng),館藏書(shū)目檢索系統(tǒng)一般稱(chēng)為OPAC(Online Public Access Catalog,即聯(lián)機(jī)公共檢索目錄 ),介紹3種主要的聯(lián)機(jī)公共檢索目錄: 世界聯(lián)合書(shū)目數(shù)據(jù)庫(kù) 中國(guó)國(guó)家圖書(shū)館聯(lián)機(jī)公共目錄查詢(xún)系統(tǒng) CALIS聯(lián)合目錄,32,世界聯(lián)合書(shū)目數(shù)據(jù)庫(kù)簡(jiǎn)介,網(wǎng)絡(luò)地址:/ WorldCat 是由聯(lián)機(jī)計(jì)算機(jī)圖書(shū)館中心( Online Computer Library Center ,簡(jiǎn)稱(chēng) OCLC )組織、世界上上萬(wàn)圖書(shū)館參加的全球聯(lián)合編目數(shù)據(jù)庫(kù),創(chuàng)建于1971 年。 是
14、目前世界上最大的數(shù)據(jù)庫(kù)。 覆蓋了400 多種語(yǔ)言、4000 年來(lái)有記錄的知識(shí) 每10 秒鐘就有一個(gè)圖書(shū)館增加一條新紀(jì)錄到 WorldCat 數(shù)據(jù)庫(kù) 目前, WorldCat 包括7000 多萬(wàn)種圖書(shū)和其他資料的書(shū)目,以及這些資料的13億多個(gè)館藏地點(diǎn)。,33,WorldCat檢索界面,高級(jí)檢索入口,用戶(hù)登錄界面,34,高級(jí)檢索界面,檢索限制條件,檢索字段的選擇,結(jié)果顯示,二次檢索限制條件,點(diǎn)擊圖書(shū)名,獲得更詳細(xì)的信息,結(jié)果顯示的選擇,中國(guó)國(guó)家圖書(shū)館聯(lián)機(jī)公共目錄查詢(xún)系統(tǒng),網(wǎng)址: 中國(guó)國(guó)家圖書(shū)館是我國(guó)國(guó)家總書(shū)庫(kù),全面收藏了我國(guó)的正式出版物,是世界上收藏中文文獻(xiàn)最多的圖書(shū)館。,中國(guó)國(guó)家圖書(shū)館聯(lián)機(jī)公共目
15、錄查詢(xún)系統(tǒng)檢索主頁(yè),用戶(hù)登錄界面,匿名也可以登陸,但僅限于使用檢索功能,數(shù)據(jù)庫(kù)的選擇,檢索字段的選擇,高級(jí)檢索入口,結(jié)果顯示,圖書(shū)作者信息,圖書(shū)書(shū)名,圖書(shū)類(lèi)型,圖書(shū)出版時(shí)間,圖書(shū)館藏地點(diǎn),相關(guān)操作導(dǎo)航,CALIS簡(jiǎn)介,中國(guó)高等教育文獻(xiàn)保障系統(tǒng)(China Academic Library 二是指參考文獻(xiàn)(bibliographic references),是指為撰寫(xiě)或編輯論著而引用或參考的有關(guān)文獻(xiàn)資料,通常附在論文、圖書(shū)或每章、節(jié)之后,有時(shí)也以注釋(附注或腳注)形式出現(xiàn)在正文中。 國(guó)家標(biāo)準(zhǔn)文后參考文獻(xiàn)著錄規(guī)則2005年修訂版的定義則為:“文后參考文獻(xiàn),為撰寫(xiě)或編輯論文和著作而引用的有關(guān)文獻(xiàn)信息
16、資源?!敝袊?guó)圖書(shū)情報(bào)界及學(xué)術(shù)界普遍接受這種解釋。,4.4.2引文索引檢索的優(yōu)越性 引文索引是將來(lái)源文獻(xiàn)(發(fā)文)和被引文獻(xiàn)(引文)按照引證和被引證的關(guān)系進(jìn)行編制的二次文獻(xiàn)。它把一篇論文通過(guò)引文的關(guān)系,與其他論文聯(lián)系起來(lái),在不同的論文作者之間建立起學(xué)術(shù)聯(lián)系,從而形成一個(gè)龐大的資料庫(kù),不僅提供一般數(shù)據(jù)庫(kù)的檢索功能,還提供了從引文途徑檢索文獻(xiàn)的方法。相比一般的檢索方法,引文索引檢索有其獨(dú)特的優(yōu)越性:,(1)引文數(shù)據(jù)庫(kù)所錄入的數(shù)據(jù)客觀地記錄了科學(xué)發(fā)展進(jìn)程中研究論文的情況,反映出人類(lèi)科學(xué)研究中歷史的記載與現(xiàn)實(shí)研究之間繼承與發(fā)展的關(guān)系,從中可以追溯學(xué)科知識(shí)的進(jìn)化,揭示學(xué)科發(fā)展過(guò)程。 (2)國(guó)內(nèi)的文獻(xiàn)數(shù)據(jù)庫(kù)大
17、多為淺標(biāo)引,每篇文獻(xiàn)只有3-5個(gè)主題(關(guān)鍵)詞,許多重要內(nèi)容不一定都能在檢索詞中標(biāo)引出來(lái), 靠一般檢索就難以查到。若這些內(nèi)容被其它文獻(xiàn)所引用的 話,通過(guò)引文索引就可能獲得。,(3)引文數(shù)據(jù)庫(kù)比一般文獻(xiàn)題錄數(shù)據(jù)庫(kù)具有更多的檢索功能。如按刊名、卷期、機(jī)構(gòu)名、地區(qū)、基金項(xiàng)目、年代、出版社和雜志社等進(jìn)行檢索,可以了解論文被引用次數(shù)、引用期刊種數(shù)和引用作者人數(shù),從而對(duì)論文做出定量化的評(píng)價(jià)。 (4)引文所聯(lián)系的學(xué)科范圍廣,因?yàn)樵谶M(jìn)行學(xué)術(shù)研究中,經(jīng)常會(huì)從其他學(xué)科中的期刊論文中吸收有價(jià)值的思想和方法,用于解決本學(xué)科的實(shí)際問(wèn)題,這就是學(xué)科交叉行為。學(xué)科交叉是學(xué)術(shù)研究中必然出現(xiàn)的,而通過(guò)引文可以揭示學(xué)科之間相互的
18、影響和滲透。,(5)只要選好一篇論文或發(fā)現(xiàn)在某一主題或?qū)n}下難以用有限的關(guān)鍵詞表述的相關(guān)文章,即可進(jìn)行查詢(xún)工作,便于不熟悉分類(lèi)體系和主題詞表的用戶(hù)使用。 引文檢索體系不僅可以從文獻(xiàn)引證的角度評(píng)估文章的學(xué)術(shù)價(jià)值,還可以迅速方便地組建研究課題的參考文獻(xiàn)網(wǎng)絡(luò)。在進(jìn)行科研課題檢索時(shí),雖不宜單獨(dú)使用引文法,但對(duì)一個(gè)完善的課題設(shè)計(jì)方案來(lái)說(shuō),引文法已不可或缺。因其可以從文獻(xiàn)的引證關(guān)系角度來(lái)提供檢索途徑,這樣不僅能揭示某個(gè)課題某一時(shí)期的進(jìn)展情況,而且可以把該課題的過(guò)去、現(xiàn)在、未來(lái)的信息連到一起。課題檢索使用引文法,一般可與題錄型檢索工具結(jié)合,采用綜合檢索法。,4.4.3 幾種常見(jiàn)的引文數(shù)據(jù)庫(kù) 1Web of
19、Science 1997年,ISI推出了引文索引的網(wǎng)絡(luò)版Web of Science(簡(jiǎn)稱(chēng)WOS),囊括三大引文數(shù)據(jù)庫(kù)(SCI、SSCI和APQDD中的W/n (兩詞間距小于n個(gè)單詞,且前后位置任意),Pre/n (兩詞間距小于n個(gè)單詞,且前后位置一定),4.7 字段限制檢索 組成數(shù)據(jù)庫(kù)的最小單位是記錄,一條完整記錄中的每一個(gè)著錄事項(xiàng)為字段。獻(xiàn)書(shū)目型數(shù)據(jù)庫(kù)的記錄基本包括下列字段:(1) 存取號(hào)字段(AN, Access Number)這是計(jì)算機(jī)檢索系統(tǒng)為每個(gè)數(shù)據(jù)庫(kù)的每篇記錄規(guī)定的能被計(jì)算機(jī)識(shí)別的特定號(hào)碼。在同一數(shù)據(jù)庫(kù)中,每篇文獻(xiàn)記錄只有一個(gè)存取號(hào)。(2) 篇(題)名字段(Title Field
20、, /TI)(3) 文摘字段(Abstract Field, /AB),(4) 敘詞字段或受控詞字段(Destriptor Field, /DE; 或 Controlled term Field-SU) 這一字段是標(biāo)引人員給文獻(xiàn)標(biāo)引的反映其主題概念的詞,這些詞來(lái)自規(guī)范化的詞表。也稱(chēng)主題詞。 (5)自由詞字段或非受控詞字段(Identified Field, /ID; Keyword Field , /KY ;Uncontrolled term Field) 這一字段也是標(biāo)引人員給文獻(xiàn)標(biāo)引反映其主題概念的詞,但這些詞不是規(guī)范化詞表中的詞。,(6) 著者機(jī)構(gòu)子段(corporate source
21、, CS或AF) (7) 刊名字段(journal , JN或ST) (8) 出版年子段(publication ,year , PY) (9) 文獻(xiàn)類(lèi)型子段(document type , DT或TY) (10) 語(yǔ)種子段(language , LA) (11) 分類(lèi)號(hào)子段(classification , CC),注意事項(xiàng): 作者檢索的縮寫(xiě)形式:在SCI中, 姓 (全稱(chēng))空格 名(首字母并且連寫(xiě))如:LI DR;GONG JY。在EI中, 姓 名,全稱(chēng)(中文); 姓(全稱(chēng))名(縮寫(xiě))。機(jī)構(gòu)檢索中 ,SCI中有多個(gè)作者單位, 在同一字段中EI 只收入第一作者的單位,多字段檢索時(shí)要選所有字段(
22、all field),4.8 括號(hào)檢索 用于改變運(yùn)算的先后次序,括號(hào)內(nèi)的內(nèi)容做優(yōu)先運(yùn)算。用“()”可以表示優(yōu)先級(jí)。如比較 (GPSORGIS)ANDChina GPSORGIS ANDChinaEI 中的表示方法:Relevance AND( Aalbersberg within AU)OR (cool within AU),4.9 短語(yǔ)檢索即精確檢索 短語(yǔ)用“”表示,檢索出與“”內(nèi)形式完全相同的的短語(yǔ),以提高檢索的精確度和準(zhǔn)確度。 4.10自然語(yǔ)言檢索 直接采用自然語(yǔ)言中的字、詞、句進(jìn)行提問(wèn)式檢索,同一般口語(yǔ)一樣。這種基于自然語(yǔ)言的檢索方式又被稱(chēng)為“智能檢索”,適合不太熟悉網(wǎng)絡(luò)信息技術(shù)的人員
23、使用。支持自然語(yǔ)言檢索的有中文的悠游,英文的AltaVista, Excite , Infoseek , HotBot ,AskJeeves等。,4.11多種語(yǔ)言檢索 提供多種語(yǔ)言的檢索環(huán)境供用戶(hù)選擇,系統(tǒng)按用戶(hù)選定的語(yǔ)種進(jìn)行檢索并反饋結(jié)果,支持多語(yǔ)種檢索的 如:中文天網(wǎng),英文AltaVista , Google等。 4.12字母大小寫(xiě)檢索 如果用戶(hù)的檢索式用小寫(xiě)字母表示,搜索工具既匹配大寫(xiě)又匹配小寫(xiě),如:china(瓷器),china(中國(guó));如果用大寫(xiě)字母表示,搜索工具認(rèn)為用戶(hù)指定了只要大寫(xiě),就只會(huì)查找那些與用戶(hù)鍵入的輸入形式完全相同的結(jié)果,如:china,只檢索出china。Alta V
24、ista等搜索引擎支持區(qū)分大小寫(xiě)的檢索。,擴(kuò)檢與縮檢 在實(shí)際的檢索過(guò)程中,用戶(hù)在檢索結(jié)果的基礎(chǔ)上可能又有新的發(fā)現(xiàn),并進(jìn)而產(chǎn)生進(jìn)一步檢索的要求。這兩種情況都要求在原來(lái)檢索結(jié)果的基礎(chǔ)上采取擴(kuò)檢或縮檢的措施,使檢索結(jié)果盡可能達(dá)到預(yù)期的檢索效果。下面就簡(jiǎn)要?dú)w納下計(jì)算機(jī)信息檢索可以采取的擴(kuò)檢和縮檢的措施。,5 檢索過(guò)程的控制,5.1擴(kuò)檢措施 對(duì)查全率要求較高的檢索課題,檢索過(guò)程的控制主要從擴(kuò)檢入手: 5.1.1選用多個(gè)檢索系統(tǒng)(工具)或同一檢索系統(tǒng)中的多個(gè)數(shù)據(jù)庫(kù)(文檔) 因?yàn)椴煌臋z索系統(tǒng)有不同的收集范圍和準(zhǔn)則,選用多個(gè)檢索系統(tǒng),雖然檢索結(jié)果重復(fù)現(xiàn)象增多,但查全率也會(huì)相應(yīng)提高。對(duì)于同一學(xué)科領(lǐng)域的不同方面
25、或不同范圍的數(shù)據(jù),有的檢索系統(tǒng)采用不同的數(shù)據(jù)庫(kù)或文檔來(lái)組織。,5.1.2降低檢索詞的專(zhuān)指度,尤其對(duì)于采用受控語(yǔ)言檢索的系統(tǒng),可以從系統(tǒng)詞表(主題分類(lèi)表、敘詞表等)中或命中文獻(xiàn)中選一些上位詞檢索或者在上位類(lèi)目中檢索。受控語(yǔ)言是根據(jù)情報(bào)檢索的需要而創(chuàng)制和不斷改進(jìn)的,其發(fā)展過(guò)程是從分類(lèi)語(yǔ)言、標(biāo)題語(yǔ)言、敘詞語(yǔ)言,到為實(shí)現(xiàn)自然語(yǔ)言檢索而設(shè)計(jì)的后控制語(yǔ)言等。分類(lèi)標(biāo)識(shí)能提供族性檢索,有利于擴(kuò)檢和縮檢,從而實(shí)現(xiàn)不同范圍內(nèi)的查全。,5.1.3調(diào)節(jié)檢索提問(wèn)表達(dá)式的網(wǎng)絡(luò)度,可以刪除某個(gè)不重要的概念組面。 例如,在“不銹鋼的加工”這一檢索課題中,有兩個(gè)概念組面“不銹鋼”(stainless steel or rust
26、less steel)和“加工” (machining or process)。當(dāng)用完整的檢索提問(wèn)表達(dá)式(stainless steel or rustless steel)AND(machining or process)在數(shù)據(jù)庫(kù)中檢索時(shí),如果沒(méi)有相匹配的結(jié)果或者檢索的結(jié)果不理想,這時(shí)可以去掉一個(gè)概念組面“加工”,即采用提問(wèn)表達(dá)式 stainless steel OR rustless steel進(jìn)行檢索。,5.1.4采用截詞檢索截詞的形式通常有前方一致、后方一致和中間一致。有的檢索系統(tǒng)提供了截詞檢索功能,運(yùn)用這樣的檢索系統(tǒng)從事網(wǎng)絡(luò)信息檢索時(shí)可以采用系統(tǒng)規(guī)定的截詞算符將某一單元詞可能構(gòu)成的全
27、部復(fù)合詞進(jìn)行檢索,這肯定有助于增加命中文獻(xiàn)的數(shù)量。當(dāng)然,另一方面,采用截詞檢索也可能導(dǎo)致大量誤檢。,5.1.5利用布爾邏輯“或”,連接同義詞、近義詞或詞的不同拼寫(xiě)形式,即增加用“OR”邏輯連接的相關(guān)檢索詞。 在人類(lèi)語(yǔ)言中詞的同義關(guān)系普遍存在,有的研究人員將這種同義關(guān)系歸納為8種類(lèi)型,它們是: 同義詞之間的關(guān)系,如義務(wù)教育和普及教育; 俗稱(chēng)與學(xué)名之間,如西紅柿和蕃茄; 舊稱(chēng)與新稱(chēng)之間,如鈳與鈮; 簡(jiǎn)稱(chēng)與全稱(chēng)之間,如鄂與湖北; 同一產(chǎn)品的命名、綽號(hào)與型號(hào)之間,如“熊貓”飛機(jī)與F-14飛機(jī); 不同譯名之間,如公共小汽車(chē)與巴士,邏輯代數(shù)與布爾代數(shù); 不同拼寫(xiě)形式之間,如魚(yú)具與漁具,color和 col
28、our ,catalog 和catalogue; 倒置詞序與自然詞序的詞組之間,如“數(shù)學(xué),初等”與“初等數(shù)學(xué)”。,5.1.6增加檢索途徑用戶(hù)可盡可能地利用檢索系統(tǒng)所提供的各種檢索途徑,如題名、作者、出版者、關(guān)鍵字或詞、以及其它有檢索意義的單元,有的系統(tǒng)還提供了各種檢索途徑的邏輯運(yùn)算。如中國(guó)期刊網(wǎng)的高級(jí)檢索功能提供了篇名、作者、關(guān)鍵詞、全文、機(jī)構(gòu)、中文摘要、引文、基金、中文刊名、年、期等幾乎所有可能的檢索途徑,并且提供了任意四種檢索途徑的邏輯運(yùn)算(AND和OR)。,5.1.7取消某些過(guò)嚴(yán)的限制,適當(dāng)使用關(guān)鍵字或詞在標(biāo)題、文摘、甚至全文中查找。例如中國(guó)期刊網(wǎng),如果使用關(guān)鍵字或詞在關(guān)鍵詞字段中檢索,
29、效果不理想,可以考慮使用同樣的關(guān)鍵字或詞在篇名、中文摘要、甚至全文中檢索。 5.1.8分層次進(jìn)行檢索將要求檢索的內(nèi)容分析為不同層次及同一層次的不同方面,然后從這幾個(gè)層次和方面分別進(jìn)行檢索,再對(duì)各層次檢出的文獻(xiàn)進(jìn)行分析、綜合,得出完全相關(guān)的文獻(xiàn)。,5.2 對(duì)查準(zhǔn)率要求較高的檢索課題,檢索過(guò)程的控制主要從縮檢入手: 5.2.1提高檢索詞的專(zhuān)指度。如果說(shuō)降低檢索詞的專(zhuān)指度可以增大檢全率的話,提高檢索詞的專(zhuān)指度自然會(huì)提高檢準(zhǔn)率。,5.2.2提高檢索提問(wèn)表達(dá)式的網(wǎng)絡(luò)度,通常的做法是在檢索提問(wèn)表達(dá)式中增加概念組面。 例如“不銹鋼的加工”這一課題的檢索中,如果在相應(yīng)的數(shù)據(jù)庫(kù)中檢索,使用一個(gè)概念組面,輸入檢索
30、提問(wèn)表達(dá)式“stainless steel or rustless steel)”,命中記錄條數(shù)繁多或者其檢索結(jié)果與不銹鋼的加工方面相關(guān)的文獻(xiàn)很少。就可以使用兩個(gè)概念組面,輸入檢索提問(wèn)表達(dá)式(stainless steel or rustless steel)AND(machining or process),就可以減少命中記錄條數(shù),提高專(zhuān)指度,從而提高查準(zhǔn)率。,5.2.3.增加概念進(jìn)行限制,用邏輯乘連結(jié)主題詞來(lái)限定主題概念的相關(guān)檢索項(xiàng),利用NOT限制一些不相關(guān)的概念。 用AND連接的兩個(gè)檢索詞表示這兩個(gè)檢索詞必須同時(shí)出現(xiàn)在結(jié)果中才滿足檢索條件。檢索式A and B所表達(dá)的復(fù)合概念相當(dāng)于包含檢
31、索詞A的結(jié)果集與包含檢索詞B的結(jié)果集的重疊部分。 而用NOT連接的兩個(gè)檢索詞表示應(yīng)從第一個(gè)概念中排除第二個(gè)概念才滿足檢索條件。檢索式A not B所表達(dá)的復(fù)合概念相當(dāng)于包含檢索詞A的結(jié)果集中不包含檢索詞B的結(jié)果集的部分。很顯然,這樣的限定或連接可以縮小檢索范圍。,5.2.4利用某些檢索系統(tǒng)所提供的限定檢索功能 這是計(jì)算機(jī)情報(bào)檢索系統(tǒng)廣泛采用的一種檢索方法,它可以縮小檢索范圍,減少無(wú)關(guān)信息的輸出,從而實(shí)現(xiàn)縮檢的目標(biāo)。 5.2.5 利用某些檢索系統(tǒng)提供的二次檢索功能 例如在中國(guó)期刊網(wǎng)中檢索“不銹鋼的加工”方面的文獻(xiàn),我們先輸入不銹鋼,檢索的出來(lái)的文獻(xiàn)有85633條,再輸入“加工”,選擇在結(jié)果中檢索
32、,只得到391條結(jié)果,很明顯增加了查準(zhǔn)率。,5.2.6 利用某些檢索系統(tǒng)提供的短語(yǔ)檢索功 所謂的短語(yǔ)檢索是把組成詞組或短語(yǔ)的若干詞作為一個(gè)關(guān)鍵詞進(jìn)行檢索,它可以提高檢準(zhǔn)率,但有時(shí)會(huì)漏檢一些相關(guān)資源。通常的做法是,把組成詞組或短語(yǔ)的若干詞加上雙引號(hào)(“”),以示與單個(gè)詞的區(qū)別。 例如在利用InfoSeek檢索關(guān)于電子雜志方面的信息時(shí),可以鍵入“electronic magazine”,這樣可以把“electronic magazine”當(dāng)作一個(gè)關(guān)鍵詞來(lái)檢索,結(jié)果命中記錄54662條;相反,如果不加雙引號(hào),InfoSeek就會(huì)檢索出包含“electronic”(電子)及“magazine”(雜志)
33、的節(jié)點(diǎn),命中記錄1959634條,這些記錄中既關(guān)于“電子雜志”方面的,同時(shí)也有諸如電子產(chǎn)品、文學(xué)雜志等條目,從而嚴(yán)重偏離查詢(xún)主題。,5.3詞匯控制,現(xiàn)實(shí)生活中由于人類(lèi)自然語(yǔ)言存在著“一詞多義”、“一義多詞”、“單復(fù)數(shù)”以及“繁體與簡(jiǎn)體”等現(xiàn)象,這給信息的組織和檢索帶來(lái)了很大的困難,因此,詞匯控制被引進(jìn)信息的組織和檢索中。 詞匯控制的目的是通過(guò)對(duì)詞形、詞義和詞間關(guān)系等的控制,達(dá)到信息源語(yǔ)言、標(biāo)引語(yǔ)言和檢索語(yǔ)言三者之間的有效溝通,從而實(shí)現(xiàn)信息的有效組織以及用戶(hù)對(duì)信息的有效檢索和利用。,5.3.1詞匯控制的內(nèi)容,詞匯控制實(shí)質(zhì)上是把自然語(yǔ)言加工成情報(bào)檢索語(yǔ)言的情報(bào)控制過(guò)程,詞匯控制包括詞量控制、詞類(lèi)控
34、制、詞形控制、詞義控制、詞間關(guān)系等。,5.3.2詞量控制,詞量控制就是在對(duì)用戶(hù)語(yǔ)言使用進(jìn)行心理學(xué)研究的基礎(chǔ)上,將用戶(hù)不用于檢索的詞匯、文獻(xiàn)中不出現(xiàn)或極少出現(xiàn)的詞刪去或合并,以壓縮詞匯量。 詞量壓縮主要采用四種方法: 采用組配標(biāo)引法。 采用語(yǔ)義分解法,如:父親可以分解為“雙親+男性”,母親可以分解成“雙親+女性”,這樣詞表中有了“雙親”、“男性”、“女性”三個(gè)詞,就可以不收“父親”、“母親”這兩個(gè)詞,而是用他們的組配形式表達(dá)。 選詞時(shí),盡量多選核心詞和組配功能強(qiáng)的詞,少收先組式復(fù)合詞(如漢語(yǔ)中的詞組)。 采用上位詞置代。例如:用“球類(lèi)運(yùn)動(dòng)”取代“籃球”、“排球”、“足球”、“網(wǎng)球”等詞。,5.3
35、.3詞類(lèi)控制,此類(lèi)控制就是對(duì)詞表所收詞匯的種類(lèi)的控制。自然語(yǔ)言中的詞類(lèi)較多,如漢語(yǔ)中就包括名詞、動(dòng)詞、形容詞、嘆詞、介詞、副詞、數(shù)詞、量詞等多種詞類(lèi)。每種詞類(lèi)對(duì)文獻(xiàn)內(nèi)容揭示的深度和針對(duì)性各不相同,因此,在主題檢索語(yǔ)言中,為了便于標(biāo)引和檢索,必須對(duì)詞類(lèi)進(jìn)行嚴(yán)格的限制。詞類(lèi)控制的另一優(yōu)點(diǎn)是大大削減了詞表的收詞量,達(dá)到詞量控制的效果。 詞類(lèi)的控制主要有以下方法: 確定選詞范圍,如名詞、名詞性詞組最能夠表達(dá)學(xué)科和文獻(xiàn)的主題內(nèi)容; 設(shè)置停用詞表,將不具備標(biāo)引和檢索意義的詞類(lèi)如介詞、副詞、感嘆詞等集中列于停用詞表中。,5.3.4詞形控制,選詞時(shí),原則上規(guī)定每個(gè)概念只用一個(gè)語(yǔ)詞表達(dá),但真正要做到“一個(gè)概念只
36、有一個(gè)單獨(dú)的稱(chēng)謂、一種字面形式”,卻是不大可能的。因此,有必要對(duì)字面形式不同、但涵義相同的詞(包括同義詞、準(zhǔn)同義詞)進(jìn)行控制。 詞形控制包括對(duì)不同形體、拼寫(xiě)、次序以及單復(fù)數(shù)形態(tài)等方面的選擇和規(guī)范。同義詞和準(zhǔn)同義詞的控制包括對(duì)學(xué)名與俗名、系統(tǒng)名與商品名、新名與舊名、全稱(chēng)與簡(jiǎn)稱(chēng)以及不同譯名之間的選擇。,5.3.5詞間關(guān)系控制,主題檢索語(yǔ)言按主題詞的字順進(jìn)行排序,不可能像分類(lèi)語(yǔ)言那樣通過(guò)等級(jí)關(guān)系清楚地顯示主題之間的關(guān)系。絕大多數(shù)相互關(guān)聯(lián)的詞被分散在字順序列之中。 詞間關(guān)系控制的目的在于形成一個(gè)術(shù)語(yǔ)體系,有助于參照的系統(tǒng)編制,有助于揭示詞間關(guān)系和明確詞義,以及有助于擴(kuò)大、縮小或改變檢索的范圍。 詞間關(guān)
37、系控制的方法很多,可以分為兩大類(lèi): 一類(lèi)是運(yùn)用分類(lèi)方法,即把分類(lèi)法的因素引入主題法,諸如復(fù)分、倒置、截詞、建立詞族等,甚至直接引入一個(gè)詳細(xì)的或粗略的分類(lèi)表。 另一類(lèi)是運(yùn)用圖示方法,即直接繪制同心圓圖、箭頭圖、樹(shù)型結(jié)構(gòu)圖等圖表,直觀、清晰地顯示詞間關(guān)系。,5.3.6詞義控制,原則上規(guī)定每個(gè)詞匯只表示一個(gè)主題概念,但在檢索語(yǔ)言中仍存在著一詞多義現(xiàn)象。自然語(yǔ)言通常根據(jù)上下文來(lái)辯識(shí)同形異義或同音異義詞的含義。但檢索語(yǔ)言精練、簡(jiǎn)短,經(jīng)常脫離上下文而單獨(dú)使用。為了避免語(yǔ)義含混,就需要對(duì)同形異義詞進(jìn)行控制。 詞義控制的方法 加限義詞, 加含義及范圍注釋, 加定義等方法,5.3.7詞匯控制與檢索效率,各種詞匯
38、控制的內(nèi)容、方法和手段與情報(bào)檢索效率有密切的關(guān)系。評(píng)價(jià)檢索效率的兩個(gè)主要指標(biāo)是查全率和查準(zhǔn)率。不同的詞匯控制內(nèi)容和手段對(duì)查全率和查準(zhǔn)率影響的程度、方式不同。 同時(shí),由于詞量控制、詞義控制、詞形控制、詞類(lèi)控制、句法控制之間存在相互制約關(guān)系,因此,查全率和查準(zhǔn)率不能同時(shí)達(dá)到最大值,良好的檢索效果應(yīng)該是建立在查全率和查準(zhǔn)率的平衡上,通過(guò)適當(dāng)?shù)脑~匯控制手段,達(dá)到降低誤檢率和漏檢率的目的。,5.3.8詞匯控制對(duì)檢索效率的影響,5.3.9詞匯控制工具,詞匯控制工具包括: 分類(lèi)詞表 杜威十進(jìn)分類(lèi)法 國(guó)際十進(jìn)分類(lèi)法 中國(guó)圖書(shū)館分類(lèi)法 冒號(hào)分類(lèi)法 主題詞表 漢語(yǔ)主題詞表 分類(lèi)主題一體化詞表 中國(guó)分類(lèi)主題詞表 主要介紹下主題詞表,中國(guó)分類(lèi)主題詞表簡(jiǎn)介,中國(guó)分類(lèi)主題詞表(簡(jiǎn)稱(chēng)詞表)是在中國(guó)圖書(shū)館圖書(shū)分類(lèi)法和漢語(yǔ)主題詞表的基礎(chǔ)上編制的兩者兼容的分類(lèi)主題一體化情報(bào)檢索語(yǔ)言。 中國(guó)分類(lèi)主題詞表第二版是我國(guó)目前規(guī)模最大的分類(lèi)主題一體化標(biāo)引工具,共收錄分類(lèi)法類(lèi)目52,992個(gè),主題詞110,837條、主題詞串59,738條、入口詞35,690條,包括了哲學(xué)、社會(huì)科學(xué)和自然科學(xué)所有領(lǐng)域的學(xué)科和主題概念。,由于詞表
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 公司房租收取管理辦法
- 供水企業(yè)薪酬管理辦法
- 華僑職稱(chēng)管理暫行辦法
- 公益宣傳印章管理辦法
- 保健原料采購(gòu)管理辦法
- 辦公用房管理制度優(yōu)化與實(shí)施
- 新學(xué)制背景下哲學(xué)話語(yǔ)與教育權(quán)力的博弈
- 景區(qū)建筑維修管理辦法
- 租賃業(yè)務(wù)風(fēng)險(xiǎn)管理與防控策略探討
- 云計(jì)算管理平臺(tái)系統(tǒng)建設(shè)的策略與實(shí)踐
- 中國(guó)醫(yī)院質(zhì)量安全管理第2-13部分:患者服務(wù)臨床用血
- 《籃球原地運(yùn)球》教案 (共三篇)
- 思維模型之六頂思考帽
- DB34T 1708-2020 電站堵閥檢驗(yàn)規(guī)程
- 2025年高考化學(xué)復(fù)習(xí)備考策略講座
- 《網(wǎng)絡(luò)系統(tǒng)建設(shè)與運(yùn)維》課件-第3章 路由技術(shù)
- 常用建筑類(lèi)型疏散寬度計(jì)算表格
- 電氣設(shè)備經(jīng)典故障案例分析與處理
- QB/T 2660-2024 化妝水(正式版)
- GB/T 4074.1-2024繞組線試驗(yàn)方法第1部分:一般規(guī)定
- 《中國(guó)旅游地理》模塊一 項(xiàng)目一解讀中國(guó)旅游地理(教案) -《中國(guó)旅游地理》(高教版第一版)
評(píng)論
0/150
提交評(píng)論