文獻信息檢索基礎(chǔ)知識_理論部分講義.doc_第1頁
文獻信息檢索基礎(chǔ)知識_理論部分講義.doc_第2頁
文獻信息檢索基礎(chǔ)知識_理論部分講義.doc_第3頁
文獻信息檢索基礎(chǔ)知識_理論部分講義.doc_第4頁
文獻信息檢索基礎(chǔ)知識_理論部分講義.doc_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

文獻信息檢索基礎(chǔ)知識一基本概念1文獻:定義:文獻是記錄有知識或信息的一切載體。具體地說文獻是以文字、符號、圖形、聲頻、視頻等手段將信息、知識記錄在各種載體上所形成的物質(zhì)實體。即記錄有信息、知識的紙張、膠片、磁帶、磁盤、光盤及一些網(wǎng)絡(luò)資源都可以稱之為文獻。文獻的主要功能是存儲信息、傳遞信息。文獻的特征:包括文獻的內(nèi)容特征和文獻的外表特征兩個方面。2信息:定義:信息是事物運動的狀態(tài)與方式的反映。簡言之,信息就是事物發(fā)出的消息。人與人間傳遞信息可通過:肢體語言、口頭語言、書面語言等。信息的特征:普遍性;時效性;客觀性;可加工性;共享性;可變換性;傳遞性;可轉(zhuǎn)化性3知識:關(guān)于知識的定義亦有種種,西方20世紀60年代以來一直流行的說法是經(jīng)濟合作與發(fā)展組織(oecd)在以知識為基礎(chǔ)的經(jīng)濟專題報告中所提的知識定義:“4個w”: know what (知道是什么) 關(guān)于事實方面的知識。 know why(知道為什么) 關(guān)于自然原理和規(guī)律方面的知識。 know how(知道怎么做) 關(guān)于技能或能力方面的知識。 know who(知道誰有知識) 關(guān)于到哪里尋求知識的知識。定義:知識是人類認識的成果和結(jié)晶,是人類在認識和改造世界的社會實踐中獲得的對事物本質(zhì)的認識和經(jīng)驗的總和。這是廣義的知識概念。知識具有主觀性、抽象性、客觀性的特點。二文獻的基本類型與特征對文獻類型的劃分,由于所選標準以及分析方法不同,有各種不同的劃分方法,一般可按下面幾種情況來劃分。1根據(jù)載體材料、存儲技術(shù)和傳遞方式的不同: 印刷型(又稱紙制文獻、印本文獻)以紙張為載體,用印刷方式(雕版印刷、活字印刷、石印、照相影印、計算機排印)記錄知識的文獻,是傳統(tǒng)的文獻形式,也是現(xiàn)代的文獻信息資源的主要形式之一。印刷型文獻因方便實用,直觀性強,是人類交流和傳播信息的主要形式。缺點:存儲的信息密度低,占據(jù)空間大,難以實現(xiàn)加工和利用的自動化,不便于對其進行長期管理和長期保存。主要類型有:期刊、圖書等??s微型以感光材料為載體,用縮微照相的方式,將文字、圖形、影像等信息按比例縮小后存儲在感光材料上,并借助于專用閱讀器而使用的文獻。目前最常用的是縮微膠卷(microfilm)和縮徽平片(microfiche)。聲像型又稱音像型文獻或視聽型文獻,以磁性材料、光學材料等為載體,記錄聲音信息和圖像信息的文獻。它是人們最容易而且樂于接受的信息形式,主要特點:存儲信息密度高,內(nèi)容直觀、真切,表現(xiàn)力強,易于理解,尤其是適用于難以用文字、符號描述的復(fù)雜信息和自然現(xiàn)象。但需要專門設(shè)備對其進行制作和閱讀。主要類型:如唱片、錄音帶、錄像帶、電影膠片、幻燈片、激光視盤等。 機讀型 又稱電子型文獻、數(shù)字信息資源,即用計算機閱讀的文獻,并以光、電、磁性材料為存儲介質(zhì),采用計算機等高新技術(shù)為記錄手段,將信息存儲在磁帶、磁盤、光盤等載體中而形成的多種類型的電子出版物。機讀型文獻包括計算機文檔、光盤數(shù)據(jù)庫、電子圖書、電子期刊、電子報紙、電子郵件和電傳文本等。其優(yōu)點是存貯密度高,存取速度快、查找方便,信息共享性好、易復(fù)制,原有記錄可以改變、更新。除具有與印刷出版物相當?shù)奈墨I文本之外還可以提供多維的、有序化的可操作的功能。除檢索之外,還可以對文本進行有目的的抽取、排序、重新組合,從而產(chǎn)生新的信息產(chǎn)品。第一類文獻又稱紙質(zhì)文獻或紙版文獻,后三類文獻統(tǒng)稱為電子文獻,當前人們通常說的電子版文獻,大都指機讀型文獻。2按照文獻的出版形式劃分圖書定義:圖書:是指具有獨立的內(nèi)容體系、相當篇幅和完整裝幀形式的文獻。 圖書往往是以原始記錄為素材,對某領(lǐng)域進行系統(tǒng)闡述,或?qū)ΜF(xiàn)有研究成果、技術(shù)和經(jīng)驗進行歸納、概括而成,多為總結(jié)性。特點:內(nèi)容比較成熟、全面、系統(tǒng)、可靠且具有一定的新穎性。不足之處:出版周期長,傳遞信息速度慢。通過它可以全面、系統(tǒng)地了解一個學科或?qū)iT領(lǐng)域的研究歷史與現(xiàn)狀,在調(diào)查顯示的科研人員利用文獻的比重中,圖書只占15%左右。從信息檢索的角度看,圖書不構(gòu)成主要對象。科研人員一般不把它列為首選的使用對象。連續(xù)出版物(1)期刊:定義:又稱雜志,是定期或不定期連續(xù)出版的、有統(tǒng)一的名稱、固定的開本、版式、有連續(xù)的序號、匯集了多位作者分別撰寫的多篇文章,并由專門的機構(gòu)編輯出版的連續(xù)性出版物。期刊的種類很多,有學術(shù)性刊物,普通的快報、消息性刊物,數(shù)據(jù)性刊物、檢索刊物亦以期刊的形式出版。較圖書更新迅速、反映研究動態(tài)與前沿。目前,全世界每年出版的各類期刊中,科技期刊約占2/3。我國現(xiàn)有的期刊中,科技期刊占54%以上。據(jù)統(tǒng)計,科研人員從期刊中得到的信息約占65%以上,是十分重要的情報源。特點:內(nèi)容新穎、信息量大、出版周期短、傳遞信息快、傳播面廣、時效性強用途:獲取最新研究成果和動態(tài)核心期刊:某學科(或某領(lǐng)域)的核心期刊,是指那些發(fā)表該學科(或該領(lǐng)域)論文較多、使用率(含被引率、摘轉(zhuǎn)率和流通率)較高、學術(shù)影響較大的期刊。(2)報紙:有統(tǒng)一的名稱,定期連續(xù)出版,每期匯集許多篇新聞、報道、消息、評論等,多為對開或四開,以單張散頁形式出版。以傳播新聞和評論、提供娛樂或生活服務(wù)為主要內(nèi)容。具有時事性、普及性、大眾性、服務(wù)性和傳遞信息迅速、信息量大的特點,是一種十分重要的信息來源,有人稱之為“第一傳媒”。報道快、及時、新穎、發(fā)行量大,是圖書、期刊等無法比擬的。特種文獻通常指那些出版發(fā)行方式或獲取途徑比較特殊的文獻,非書非刊,形式多樣。(1)科技報告:也稱技術(shù)報告、研究報告,是科學研究工作和開發(fā)調(diào)查工作成果的記錄或正式報告。按研究階段可分為進展報告和最終報告。特點:信息新穎、敘述詳盡、保密性強、每份報告單獨成冊、有獨立的編號、有固定的機構(gòu)名稱和較嚴格的陳述形式,是獲取最新信息的重要信息來源??萍紙蟾鎯?nèi)容新穎、專業(yè)性強,技術(shù)數(shù)據(jù)具體詳盡,完整可靠,信息含量高,有數(shù)據(jù)、圖表、實驗記錄等相關(guān)資料,涉及領(lǐng)域十分廣泛。對于了解某項技術(shù)的研制試驗和評價結(jié)果,某項科學技術(shù)問題的現(xiàn)狀和發(fā)展,非常重要??萍紙蟾娴臄?shù)量很大,在全世界的科技報告中,美國占了80%以上。如:美國政府四大報告:pb、ad、nasa、doe報告,都有各自的檢索工具。(2)會議文獻:是了解有關(guān)領(lǐng)域發(fā)展情況的重要資源,有會前文獻、會中文獻、會后文獻之分(會議論文等:正式出版物)。(3)專利文獻:專利制度的產(chǎn)物,是實行專利制度的國家,在接受申請和審批發(fā)明過程中形成的有關(guān)出版物的總稱。包括專利說明書、專利公報、專利分類表、專利檢索工具以及與相關(guān)的法律性文件。 目前全世界有130多個國家建立了專利制度,我國的專利法是1984年3月通過,1985年4月開始實施的,它的目的在于通過保護發(fā)明人的合法權(quán)益推動技術(shù)的發(fā)展。目前專利制度已進入國際合作階段。各個國家的專利審批機構(gòu)、國際性專利組織都是獲取專利文獻的重要來源(另:專利網(wǎng)站、數(shù)據(jù)庫)。(4)技術(shù)標準:標準化的產(chǎn)物,是經(jīng)過公認的權(quán)威機構(gòu)(標準化組織或有關(guān)機構(gòu))以特定的文件形式出現(xiàn)的標準化工作成果。由技術(shù)標準、管理標準及其他具有標準化性質(zhì)的類似文件所組成,是從事生產(chǎn)和建設(shè)的一個共同依據(jù)。特點:具有權(quán)威性、規(guī)范性、法律性、時效性、陳舊性。目前,各個領(lǐng)域都在標準化的影響范圍之內(nèi)。技術(shù)標準按內(nèi)容可分為基本標準、產(chǎn)品標準、方法標準、安全衛(wèi)生標準。技術(shù)標準是各國推行技術(shù)政策的工具,一個國家的指標文獻可以反映其經(jīng)濟、技術(shù)政策、生產(chǎn)水平、資源情況和標準化水平。先進的標準可供研制新產(chǎn)品,改進工藝、操作水平提供參考;進口設(shè)施的組裝、維修、零部件的配制需要標準文獻在對外貿(mào)易中,技術(shù)標準常常構(gòu)成非關(guān)稅壁壘。(5)學位論文:是指高等學校或研究機構(gòu)的學生為取得某種(博士、碩士及學士)學位時,在導師的指導下撰寫并呈交的體現(xiàn)其學術(shù)研究水平,并供審查答辯用的研究論文。特點:具有一定的獨創(chuàng)性;一般不公開出版;質(zhì)量參差不齊。(6)政府出版物: 各國政府及其設(shè)立的專門機構(gòu)所頒發(fā)行政文件和科技文獻的總稱。就其性質(zhì)可分為行政性文獻和科技性文獻兩大類。行政性文獻包括國企記錄、政府法令、方針政策、規(guī)章制度、決議指示、調(diào)查報告、統(tǒng)計資料等;科技性文獻包括科技研究報告、科普材料、技術(shù)政策文件等。政府出版物具有正式性、權(quán)威性的特點。(7)技術(shù)檔案:是指科研生產(chǎn)活動中形成的,有具體事物對象的技術(shù)文件、圖紙、圖表、照片和原始記錄等的總稱。(8)產(chǎn)品樣本:產(chǎn)品樣本是對定型產(chǎn)品的性能、構(gòu)造原理、用途、使用方法和操作規(guī)程等所作的具體說明。 3按加工的深度劃分:零次文獻信息:(non-printed document)指未經(jīng)出版發(fā)行的或未進入社會交流的最原始的文獻。如:私人筆記、底稿、書稿、手稿、實驗記錄、會議記錄、個人通訊等。具有內(nèi)容新穎、不成熟不定型不公開交流、難以獲得的特點。零次文獻在內(nèi)容上有一定的價值,而且能彌補一般公開文獻從信息的客觀形成到公開傳播之間費時甚多的弊病,其新穎程度頗受關(guān)注。一次文獻信息:(primary document)又稱原始文獻,通常是指著者以自己的研究成果為基礎(chǔ)創(chuàng)作或撰寫的,已公開發(fā)行進入社會流通使用的文獻,如:專著、學術(shù)論文、專利說明、科技報告等。具有新穎性、創(chuàng)造性的特點,是科技人員參考得最多的基本材料,有很高的直接參考價值和借鑒使用價值,但數(shù)量龐大,儲存分散,不易直接查找利用。二次文獻信息:(secondary document)二次文獻的生成過程即是對知識信息有序化的二次加工過程。是把大量的、分散的、無序的文獻收集進來,按照一定的方法進行加工、整理、提煉、濃縮,使之系統(tǒng)化,便于查找而形成的文獻。如文摘、題錄、書目、索引等檢索工具。在現(xiàn)代社會信息量激增的形勢下,人們?yōu)榱丝焖俣?jīng)濟地傳遞信息、搜集和利用信息,更加關(guān)心和重視使用文摘雜志,具有濃縮性、匯集性、有序性的特點。三次文獻信息:(tertiary document)是選用大量有關(guān)的文獻,經(jīng)過綜合、分析、研究而編寫出來的文獻。通常是圍繞著某個專題,在利用二次文獻的基礎(chǔ)上,選用大量相關(guān)的一次文獻,采用科學的方法,對文獻的內(nèi)容進行深度加工、編寫而成的。如綜述、述評、字典、詞典、辭典、百科全書、類書、政書、手冊、年鑒、指南等?,F(xiàn)代技術(shù)的發(fā)展,使文獻的這種劃分界線變得模糊,大部分數(shù)據(jù)庫集文獻線索檢索與原文獻獲取為一體。四者的相互關(guān)系從零次文獻、一次文獻、二次文獻到三次文獻,它是一個由分散到集中,由無序到有序,由博而略地對知識信息進行不同層次的加工過程。零次和一次文獻是最基本的信息源,是文獻信息檢索和利用的主要對象;二次文獻是一次文獻的集中提煉和有序化,是文獻信息檢索的工具;三次文獻是把分散的零次、一次、二次文獻按照專題或者知識的門類進行綜合分析加工而成的成果,是高度濃縮的文獻信息,它既是文獻信息檢索和利用的對象,也可作為檢索文獻信息的工具。它主要有兩大類型:一是系統(tǒng)闡述某個領(lǐng)域的內(nèi)容、意義、歷史、現(xiàn)狀和發(fā)展趨勢的綜述性學科總結(jié),如綜述、評論、述評、進展、動態(tài)、教材等;二是把大量的定理、原理、數(shù)據(jù)、公式、方法等知識進行濃縮和概括,編寫成便于查閱的參考工具書,如百科全書、手冊、年鑒、指南等。三次文獻內(nèi)容更集中,針對性更強,系統(tǒng)性好,并有一定的檢索功能,有較高的參考價值。4根據(jù)出版形式和內(nèi)容公開程度劃分白色文獻 白色文獻是指一切正式出版并在社會成員中公開流通的文獻,包括圖書、報紙、期刊等。這類文獻多通過出版社、書店、郵局等正規(guī)渠道發(fā)行,向社會所有成員公開,其蘊涵的信息大白于天下,人人均可利用。是當今社會利用率最高的文獻?;疑墨I 灰色文獻指非公開發(fā)行的內(nèi)部文獻或限制流通的文獻。因從正規(guī)渠道難以獲得,故又被稱為“非常見文獻”或“特種文獻”。這類文獻出版量小,發(fā)行渠道復(fù)雜,流通范圍有一定限制,不易收集。其收錄和獲取成本較高,但是價值卻很大。黑色文獻 包括兩方面的情況:其一,人們未破譯或未識別其中信息的文獻,如考古出現(xiàn)的古老文字、未經(jīng)分析厘定的文獻;其二,處于保密狀態(tài)或不愿公布其內(nèi)容的文獻,如未解密的檔案、個人日記、私人信件等。這類文獻除作者及特定人員外,一般社會成員極難獲得和利用。三、文獻信息檢索基礎(chǔ)知識1信息檢索的相關(guān)概念:信息檢索:即信息查找,是人們利用特定的檢索技巧與方法,從信息集合中對目標資源進行快速定位、獲取與信息需求相關(guān)的那部分信息的過程。也就是:將信息按照一定的方式組織和存儲起來,并根據(jù)用戶的需求找出有關(guān)信息的過程。有廣義,狹義之分。完整的信息檢索概念包括兩項工作:(1)信息存儲過程,即搜集、篩選、整理、積累現(xiàn)有信息及檢索工具,建立信息檢索系統(tǒng);(2)信息檢索過程,即利用信息檢索工具查找所需要的信息。狹義的信息檢索即利用信息檢索工具查找所需要的信息。則僅指該過程的后半部分,即從信息集合中找出所需要的信息的過程,相當于人們通常所說的信息查詢。4著錄:也稱標引。所謂“標引”,是給這些文獻信息一個標識,引導我們使用這些標識把文獻納入到檢索系統(tǒng)或者利用這些標識檢索文獻。比如說我們圖書館的目錄,就是把圖書的書名,著名,分類號等項目著錄下來,并按分類號排列形成分類目錄,或按書名順序排列形成書名目錄。2文獻信息檢索的類型根據(jù)檢索方式(即依賴的檢索工具與檢索系統(tǒng))來劃分:手工檢索是利用檢索工具與工具書進行的,在檢索之前,要對檢索工具的編排、檢索方法,包含的內(nèi)容進行全面了解。計算機檢索是利用數(shù)據(jù)庫或檢索系統(tǒng)進行的,輸入指令由計算機自動匹配完成。因此擬定的檢索式應(yīng)該便于系統(tǒng)識別。3 文獻信息檢索系統(tǒng)31檢索系統(tǒng)的概念信息檢索系統(tǒng):又稱情報檢索系統(tǒng),是指按某種方式、方法建立起來的,以提供信息檢索為目的一種有層次的信息存儲與檢索系統(tǒng),是表征有序的信息特征的集合體。其中二次或三次文獻信息是文獻信息系統(tǒng)的核心和概括。信息檢索系統(tǒng)的建立是以對所收錄信息的組織為基礎(chǔ)的,是一定范圍文獻、信息的全部記錄的有序集合。功能:報道文獻信息、存儲文獻信息、檢索文獻信息32文獻信息檢索系統(tǒng)的主要類型嚴格地說,信息檢索系統(tǒng)是作為檢索工具存在的信息源集合,其功能側(cè)重于檢索。所以,在這里,我們把信息檢索系統(tǒng)的類型也稱作檢索工具的類型。1目錄型目錄也稱書目,是以一件或一種完整的出版物(如一本書、一種期刊等)作為著錄基本單位的檢索工具。按一定次序編排,僅提供檢索線索。主要描述文獻的外部特征。常見的目錄型檢索系統(tǒng)(檢索工具):國家書目:系統(tǒng)記錄一個國家某時期所出版的全部書籍的一種目錄,可以反映出一個國家書籍出版的現(xiàn)狀和歷史。比如:全國總書目。館藏目錄:主要提示某一圖書館或若干圖書館收藏書刊的信息。聯(lián)合目錄:是匯總?cè)舾蓤D書館或其它收藏單位所藏書刊的目錄。出版社目錄:根據(jù)出版社出版的圖書或書店發(fā)行的圖書館編制而成的目錄。2索引型索引:是根據(jù)一定的需要,把特定范圍內(nèi)的某些重要文獻中的有關(guān)款目或知識單元(如書名、刊名、人名、地名、語詞等),按照一定的方法編排,并指明出處,為用戶提供文獻線索的一種檢索工具。索引是一種常見的檢索工具,有些網(wǎng)絡(luò)數(shù)據(jù)庫便是以索引命名的,如十三經(jīng)索引、科學引文索引(sci)等。3題錄型:題錄是以單篇或單份文獻為著錄的基本單位的檢索工具,以文獻的題名、著者等特征信息為描述對象,提供對文獻出版的檢索工具。主要揭示、報道文獻的外表特征。4.文摘型文摘亦稱提要、內(nèi)容摘要等,是指在題錄的基礎(chǔ)上,在每條著錄款目后邊用簡練的語言文字,對文獻的內(nèi)容所做的簡略、準確的描述。不包括對原文的補充、解釋或評論。它不僅報道文獻的外部特征,也報道文獻的內(nèi)容特征,是二次文獻的核心,檢索工具的主體。著名的文摘有新華文摘、科學文摘等,工程索引雖以索引命名,卻是著名的文摘型檢索工具。5全文是一種面向全文、提供全文的新型檢索技術(shù)。它可以使用原文中任何一個有實際意義的詞作為檢索入口,得到的結(jié)果是源文獻而不是文獻的線索。四文獻信息檢索語言 1檢索語言的概述定義:檢索語言(information retrieval language)是信息存儲與檢索過程中用于描述信息特征和表達用戶信息提問的一種專門語言。也稱標引語言、索引語言、信息檢索語言。檢索語言獨立于具體的檢索工具或檢索系統(tǒng)之外,作為一種軟件被若干檢索工具或檢索系統(tǒng)所利用。檢索語言的作用:對文獻的外部征和內(nèi)容進行多層次描述,提供多種檢索途徑,以方便用戶從不同角度檢索查找。主要有以下兩種作用:加工與組織:對文獻中包含的知識內(nèi)容與外部特征進行規(guī)范化標引,對文獻的外部特征進行規(guī)范化描述。匹配檢索:提供對標引用語和檢索用語的相符性比較。2檢索語言的主要類型按檢索語言的結(jié)構(gòu)與產(chǎn)生原理分:分類語言、主題語言、代碼語言。1分類語言相關(guān)概念:分類語言:按知識門類的邏輯次序?qū)π畔⑦M行組織與檢索的語言,是從文獻內(nèi)容的學科屬性對文獻進行描述與揭示,建立在對文獻、信息所屬內(nèi)容的特征基礎(chǔ)上的檢索語言。按分類語言對檢索系統(tǒng)進行組織,具有按學科組織與檢索相關(guān)文獻信息的作用,這就是分類語言的族性檢索(從學科門類)功能。具有極好的擴檢與微檢功能。類目:是分類語言的基本語匯。一個特定類目由分類號與類目名稱共同構(gòu)成。分類號的主要功能是組織文獻與提供檢索。分類號的標記制度:純數(shù)字(如:科圖法)、字母與數(shù)字共同組成的混合制(如:中圖法)兩種。 類目名稱是用來說明特定類目所聚集的文獻、信息的學科范圍的一組文字。如“i247 中國現(xiàn)代長篇小說”(中國圖書館分類法)中的“i247”為分類號,“當代作品(1949-)”為類目名稱。 索取號或索書號:是文獻在目錄或書庫中的地址號,也就是圖書排架的號碼。由分類號+種次號(或著者號)構(gòu)成。如:i247.5/4-1。分類語言的類型:等級體系分類語言(等級體系分類法)、分析綜合型分類語言(組配分類語言)與混合分類語言。其中最常見的是等級體系分類語言。最常見的等級體系分類法:國內(nèi):中國圖書館圖書分類法(國家標準)簡稱中圖法,中國圖書資料分類法,簡稱資料法,中國科學院圖書館圖書分類法,簡稱科圖法。國外:杜威十進分類法(國際上使用范圍最廣的)、國際十進分類法、美國國會圖書館圖書分類法。目前各搜索引掣的網(wǎng)頁目錄采用的是等級體系結(jié)構(gòu),也就是采用了分類語言對網(wǎng)絡(luò)信息進行組織的通行方法,以便網(wǎng)絡(luò)用戶逐級點擊直到鎖定目標資源。分類語言的最大特色是它的族性檢索功能,使用它比較容易進行擴檢與縮檢。但這種檢索語言的局限亦十分明顯,即同一主題的文獻、信息常常被分散到不同的類目之下。中國圖書館分類法(中圖法)體系分類法是以科學分類為基礎(chǔ),依據(jù)概念的劃分與概括原理,把概括文獻內(nèi)容與事物的各種類目組成一個層層隸屬、詳細列舉的等級結(jié)構(gòu)體系的一種文獻分類法,亦稱列舉式分類法、枚舉式分類法。中國圖書館分類法中圖法是國家標準。共分五個基本部類:馬列主義、毛澤東思想;哲學;社會科學;自然科學和綜合性圖書。在五大部類的基礎(chǔ)上,社會科學展開為九大類,自然科學展開為十大類,共計22個基本大類,稱為一級類目,每個基本大類下又可劃分成若干個二級類目,二級類目下再劃分出若干個三級類目,這樣屢屢劃分,逐級展開,類目可細分至七級。1個字母或數(shù)字代表一級類目。如:h311.2一共有五級。 由于t類“工業(yè)技術(shù)”是一個龐大的體系,文獻數(shù)量巨大,因此又以雙字母標記展開了16個二級類,其重要程度不亞于基本大類。2主題語言定義:主題語言是表達文獻內(nèi)容中所涉及的核心事物與概念的檢索語言。主題法:用以自然語言中的詞語或規(guī)范化的詞語作為揭示文獻主題的標識,并以此標識編排組織和查找文獻的方法主題詞:指代特定概念與事物的語詞。主題詞有自然語言中的詞語,也有從自然語言中優(yōu)選出的規(guī)范化詞語。 主題語言的類型主題法在發(fā)展過程中,依選詞的不同,先后出現(xiàn)了標題詞法、單元詞法、關(guān)鍵詞法和敘詞法等多種文獻組織與檢索的方法。關(guān)鍵詞法:關(guān)鍵詞是指那些出現(xiàn)在文獻標題(篇名、章節(jié)名)、摘要和正文中,對表征文獻主題內(nèi)容具有實質(zhì)意義的詞語。關(guān)鍵詞語言是直接選用文獻中的自然語言作為基本詞匯,并將那些能夠揭示文獻主題的關(guān)鍵性詞匯作為關(guān)鍵詞進行標引和檢索的一種檢索語言。關(guān)鍵詞是非規(guī)范的,無需查閱標準詞表,不受詞表控制,快捷簡便,適于用計算機組織和檢索文獻信息。但由于關(guān)鍵詞法的詞語不規(guī)范,影響了文獻信息的查全率和查準率。如果你所使用的關(guān)鍵詞不規(guī)范,隨意性太強,就可能查不出相應(yīng)的文獻。所以選取關(guān)鍵詞時應(yīng)盡量考慮周全。首先由于名詞與名詞術(shù)語在取名上的多樣性,選詞時要對同義詞、近義詞、學名和俗名、不同譯名、簡稱與全稱、不同寫法等進行選擇;對多義詞、同形異義詞進行限定說明;其次由于英文構(gòu)詞的多樣性,選詞時也要注意英語的復(fù)合詞、派生詞、單復(fù)數(shù)以及英文單詞拼寫的變體等等,從而避免產(chǎn)生誤檢和漏檢。分類語言、敘詞語言和關(guān)鍵詞語言是目前檢索系統(tǒng)所使用的通用檢索語言,是我們認識和使用一種檢索工具與檢索系統(tǒng)的起點。目前大多數(shù)搜索引掣使用的都是關(guān)鍵詞語言,而學科信息門戶使用的基本是規(guī)范語言。五文獻信息檢索途徑1以文獻信息外表特征為檢索途徑:題名途徑:是以各種事物的名稱為檢索點來檢索文獻信息。主要用于檢索圖書,期刊與有關(guān)資料。著者途徑:以文獻著者的姓名字順為檢索點進行檢索的一種途徑。這類檢索工具有著者目錄、著者索引,機構(gòu)索引等。號碼途徑:是以文獻信息的號碼標識為檢索點來檢索文獻信息的途徑。在已知文獻代碼情況下,利用代碼途徑檢索文獻,可謂是一條既快又準的捷徑。2以文獻信息內(nèi)容特征為檢索途徑:關(guān)鍵詞途徑是以文章作者所列出的、反映自己文章主題內(nèi)容的關(guān)鍵詞作為檢索點來檢索文獻。這是機檢中使用頻率很高的一種檢索途徑。分類途徑是以文獻信息內(nèi)容所屬的學科類別為檢索點來檢索文獻的一條途徑。它是檢索文獻的主要途徑之一。常用的工具有分類目錄和分類索引。主題途徑這是以反映文獻內(nèi)容的有關(guān)主題詞作為檢索點檢索文獻的一條途徑,它也是文獻檢索的主要途徑之一。按主題途徑檢索的關(guān)鍵是選準主題詞,合理選擇和使用主題詞,對檢索結(jié)果的優(yōu)劣直接產(chǎn)生影響。主題檢索途徑是目前很受用戶歡迎的一種文獻信息檢索途徑。引文途徑利用被引文獻來查找原文獻的檢索方法。如: cnki中國期刊網(wǎng)被引用字段,維普中文期刊數(shù)據(jù)庫引文檢索途徑。 中文社會科學引文索引六、計算機信息檢索的基本技術(shù)與方法1 計算機文獻信息檢索的技術(shù)查全率(recall ratio)檢出相關(guān)文獻量/文獻庫內(nèi)相關(guān)文獻的總量 100%查準率(precision ratio)檢出相關(guān)文獻量/檢出文獻總量100%11布爾邏輯檢索(邏輯組配檢索)(boolean logical)指采用布爾邏輯表達式來表達用戶的檢索要求,并通過一定的算法和實現(xiàn)手段進行檢索的過程。布爾邏輯表達式是采用布爾運算符(邏輯與“and”、邏輯或“or”、邏輯非“not”等)來連接運算檢索詞,以及表示運算優(yōu)先級的括號組成的一種表達檢索要求的一種算式,簡稱提問邏輯式。l 邏輯與“ and ”運算符,也可用“*”表示,用來組配不同的概念的檢索詞。是一種概念相交和限定關(guān)系的組配。例如:“a and b”或“a * b”其含義是:檢出的信息中必須同時含有“a”和“b”兩個檢索詞?;咀饔檬菍z索范圍加以限定,逐步縮小檢索范圍,提高檢索結(jié)果的查準率。例如,檢索“計算機在圖書館中的應(yīng)用”方面的文獻,其提問式可寫成:計算機 and 圖書館 或 計算機*圖書館l 邏輯或“ or ”運算符,也可用“ + ”表示,是用來組配具有同義或同族概念的檢索詞。如:檢索提問式:“a or b”或“a + b”其含義是數(shù)據(jù)庫記錄中任何一條記錄,只要含有“a”或“b”中任何一個檢索詞即為命中的文獻?;咀饔檬菙U大檢索范圍,增加命中文獻量,提高文獻的查全率。如:“微機 + 電腦 + pc機”、 “微機 or 電腦 or pc機”l 邏輯非“ not ”運算符,也可用“-”表示,“not”算符是排除含有某些詞的記錄,其邏輯提問表達式為“a not b”或 “a - b”,即檢出的記錄中只能含有“not”算符前的檢索詞 a,但不能同時含有“not”后的檢索詞 b?;咀饔檬强s小檢索范圍,但并不一定能邏輯非提高文獻命中的準確性,一般只起到減少文獻輸出量的作用。在聯(lián)機檢索中可降低檢索費用。例如:“計算機 not 微機”應(yīng)注意,由于“not”算符有排除掉相關(guān)文獻的可能,因此,在實際檢索中應(yīng)慎重使用。12截詞檢索截詞檢索是在詞干的不同位置添加截詞符“?”、“*”或“$”,以此代表詞的可變部位,以檢索一組概念相關(guān)或同一詞根的詞,從而減少相同詞干的檢索詞的輸入數(shù)量,提高檢全率的一種常用檢索方法。這種檢索方式可以擴大檢索范圍,提高查全率,主要用于西文數(shù)據(jù)庫檢索。中文數(shù)據(jù)庫通常不使用這種技術(shù)。主要用于檢索詞的單復(fù)數(shù)、詞性的詞尾變化、詞根相同的一類詞,以及同一詞的拼法變異等。在不同的檢索系統(tǒng)里用不同的符號,一般為:*、?、!基本作用是提高查全率,防止漏檢。類型: 根據(jù)截詞的位置不同,分為前截斷、后截斷、中截斷 前截斷:又稱左截斷,截詞符放在被截詞的左邊,可與后截斷一同使用。目前這種檢索技術(shù)應(yīng)用已經(jīng)極少,例如:*magnetic。 中截詞:把截詞符放在詞的中間。這種方式查找英美不同拼法的概念最有效。例如:如:wom*n 可檢出woman,women 后截斷:是前方一致檢索,又稱右截斷,截詞符放在被截詞的右邊,是最常用的檢索技術(shù),例如:librar*。 根據(jù)截斷的數(shù)量不同,分為有限截斷和無限截斷。 有限截斷:限制被截斷的字符數(shù)量,例如輸入apple? ? 表示被截斷的字符只有兩個,可檢出apple、applet等結(jié)果。 無限截斷:不限制被截斷的字符數(shù)量。例如輸入educat?,可以檢索educator,educators,educated,educating,education,educational,等等。 注:不同的數(shù)據(jù)庫所用的截詞符不一樣,使用應(yīng)先查一下各數(shù)據(jù)庫的幫助加以確認。1.3位置算符檢索表示兩個檢索詞間的位置臨近關(guān)系,又叫鄰接檢索。這種檢索技術(shù)通常只出現(xiàn)在西文數(shù)據(jù)庫中,在全文檢索中應(yīng)用較多。布爾邏輯運算符表示兩個概念之間的邏輯關(guān)系,位置算符表示的是兩個概念在信息中的實際物理位置關(guān)系常用位置算符 w/n(with/n):兩詞相鄰,在一個標引字段中w/n表示兩個詞不可以互換順序,二者之間可插入0-n個詞。 如:智能機器人(w/3)控制,可檢出“智能機器人控制”,“智能機器人行為控制”等 n/n(near/n):兩詞相鄰,n/n表示兩個詞可以互換順序,二者之間可插入n個詞。 如:智能機器人(n/3)控制,可檢出“智能機器人控制”,“控制算法對智能機器人的影響”等 f(field):同字段檢索,被f連接的檢索詞必須出現(xiàn)在同一字段中。 s(sub-field/sentence):同句檢索, 要求參加檢索運算的兩個檢索詞必須在同一自然句中出現(xiàn)。1.4. 限制檢索通過設(shè)定相應(yīng)的檢索條件實現(xiàn)對檢索的優(yōu)化。是縮小或約束檢索結(jié)果的方法,最常用的是對特定字段的限定檢索。如:rice in ti(表示只在題目字段中查找文獻) rice in de(只在主題詞中查找) rice in ab(只在文摘中查找) au = smith,j.c (查作者為smith,j.c 的文章) py = 1998(只查1998年的文章) la =chinese (只查語種為中文的文獻)常用的限制檢索方式: 字段檢索將檢索限定在特定字段內(nèi)進行限制的方法。 字段限制范圍的大小順序是:題名關(guān)鍵詞摘要notandor1.7. 全文檢索:全文檢索是指對文獻全文內(nèi)容進行字符串匹配檢索,包括字符串檢索、截詞檢索和位置檢索等技術(shù)。全文檢索技術(shù)是一種面向全文、提供全文的新型檢索技術(shù)。它可以使用原文中任何一個有實際意義的詞作為檢索入口,得到的結(jié)果是源文獻而不是文獻的線索。全文檢索系統(tǒng)必須具有一個全文數(shù)據(jù)庫。在全文庫的基礎(chǔ)上,對其字、詞、句、段等的加工、檢索與編輯。系統(tǒng)除了可以用布爾邏輯運算式進行檢索外,還具有文本檢索功能,并具有同義詞控制、后控詞表對檢索策略的自動調(diào)整等功能。此外,系統(tǒng)還允許用戶以自然語言進行檢索,直接獲取原文中的有關(guān)章、節(jié)、段、句等。1.8. 擴檢:在試探性檢索所獲取的檢索結(jié)果過少,還不到檢索要求時,應(yīng)采取擴展檢索以擴大檢索范圍,保證檢索率。采用的方法可以是增加檢索詞:如將原檢索詞的所有同義詞、別名、俗名作為檢索詞進行組配檢索,使用截詞技術(shù)或擴大檢索的年代與文獻范圍。縮檢:亦稱二次檢索,當檢索結(jié)果數(shù)量過多,評價、篩選困難時,為保證檢索精度與檢準率,使用縮檢,即在原有檢索結(jié)果中進行篩選,這個措施可反復(fù)采用,直到檢索結(jié)果符合要求。2 文獻信息檢索的基本步驟與策略采用檢索工具檢索文獻信息一般要經(jīng)歷5個緊密相連的步驟 1.分析研究課題,明確檢索要求 分析研究檢索課題是整個檢索過程的關(guān)鍵,是信息檢索成功與否的關(guān)鍵,檢索者首先要對課題作綜合分析,通過分析明確如下要求,(1)明確課題的專業(yè)范圍及其關(guān)健點,選取主題詞。(2)明確所需文獻類型。(3)確定所需文獻的時間范圍與語種范圍(4)分析檢索目的:以科研攻關(guān),解決具體的技術(shù)難題為目的。(5)研究探索:密切跟蹤,了解國內(nèi)外某一研究領(lǐng)域的最新成果與動態(tài)。每一項理論或技術(shù)都有其發(fā)生、發(fā)展和形成的過程,檢索時就是根據(jù)研究課題相關(guān)知識發(fā)展的形成期、高峰期和穩(wěn)定期來確定檢索的時間范圍。檢索要求愈明確,檢索范圍愈具體,已知條件愈多,檢索效果愈好。因此,分析研究課題這一步進展得如何,對其后的檢索程序至關(guān)重要檢索者切忌情況不明就貿(mào)然開始檢索,這會導致走彎路或檢索失敗。檢索的目的與要求及檢索范圍作為選擇檢索工具與數(shù)據(jù)庫的依據(jù)。不同的數(shù)據(jù)庫其收集的文獻類型、學科范圍,對文獻的回溯期限不同。2選擇檢索工具(或數(shù)據(jù)庫)與檢索手段根據(jù)已經(jīng)明確的檢索要求與專業(yè)范圍,選擇合適的檢索工具或數(shù)據(jù)庫。確定檢索方法:追溯法、工具法(順查法,倒查法,抽查法)、綜合法中外文檢索工具與數(shù)據(jù)庫很多,檢索者要求對各種檢索工具或數(shù)據(jù)庫的性質(zhì),內(nèi)容和特點作深入了解,可借助于各種檢索工具指南,學科文獻指南或聯(lián)機數(shù)據(jù)庫目錄。機檢包括聯(lián)機檢索,脫機檢索,光盤檢索與網(wǎng)絡(luò)檢索,其中手工檢索基本上不花錢,機檢速度快,效率高,但費用也高。檢索者可根據(jù)時時間要求、設(shè)備狀況與經(jīng)費條件來選擇合適的檢索手段。3確定檢索途徑與擬定檢索式采用哪種方法與途徑,要結(jié)合課題檢索要求與檢索工具或數(shù)據(jù)庫的特點來確定。就檢索途徑而言,如果課題檢索要求泛指性較強的文獻資料,最好用分類途徑;如果課題檢索要求是專指度較高的文獻資料,最好選擇主題途徑,如果事先巳知文獻著者,分子式,專利號,標準號,報告號等條件,則利用著者途徑,分子式途徑與文獻代碼等途徑為好。必要時將這些途徑與分類、主題途徑配合使用,將會收到更好的檢索效果。檢索提問式是計算機信息檢索中用來表達用戶檢索提問的邏輯表達式,由檢索詞和各種布爾邏輯算符、位置算符、截詞符以及系統(tǒng)規(guī)定的其他組配連接符號組成。4實施試檢索操作用分類法與主題法檢索文獻時,要選準分類號與主題詞,在機檢中還要構(gòu)造機檢策略,即用布爾邏輯或其它符號將檢索詞連接起來,組成一種邏輯運算式。在檢索過程中,無論是手檢或機檢,均需視檢出結(jié)果,如果試檢索的結(jié)果與檢索需求存在差距,則需要對檢索課題進行再分析,不斷修改與完善檢索策略,以達到檢索的合理性與有效性。再分析的過程包括:重新選擇檢索系統(tǒng),選擇相關(guān)檢索詞,重新擬定檢索式,以及在原有檢索策略的基礎(chǔ)上進行擴檢、縮檢,設(shè)定較長的文獻回溯期等。閱讀檢出結(jié)果,決定取舍。在手檢中對切題的文獻要記錄文獻資料的篇名(書名),著者,文摘、文種、來源等,尤其是文獻來源切不可遺漏。倘若是機檢,可選擇打印格式,聯(lián)機或脫機打印輸出即可。5檢索結(jié)果的評價與獲取原始文獻評價檢索結(jié)果是結(jié)合多種標準對檢索結(jié)果進行評價、篩選,把真正符合需要的檢索結(jié)果保留下來。獲取原文是文獻檢索的最后一步,原文獲取可以通過多種途徑實現(xiàn)。全文數(shù)據(jù)庫的檢索與原文獲取可以一步完成,是檢索時的首選。而題錄與摘要信息檢索系統(tǒng)只能檢索到原文的線索,在這種情形下,應(yīng)盡可能通過本地資源獲取原文。如本地資源無法保障,則可以考慮使用電子文獻傳遞系統(tǒng)從其他圖書、情報機構(gòu)獲得原始文獻。目前大部分非全文數(shù)據(jù)庫多提供了原文的外鏈接,用戶可以根據(jù)需要選擇。3 計算機信息檢索的策略1分析研究課題,明確檢索要求檢索誤區(qū)1過分依賴搜索引擎。internet資源與專業(yè)的網(wǎng)絡(luò)數(shù)據(jù)庫來比,無論是質(zhì)量還是數(shù)量上都有很大的差距,檢索文獻目前來說最主要的來源還應(yīng)是專業(yè)數(shù)據(jù)庫,即正規(guī)的出版物上發(fā)表的文獻。檢索誤區(qū)2忽略摘要數(shù)據(jù)庫。摘要數(shù)據(jù)庫的數(shù)據(jù)量大,范圍廣,是查找文章線索極好的檢索工具。就目前的情況而言,不可能全部都能得到電子版的全文,先找到文章線索再根據(jù)線索查找印刷版的全文是一項不錯的組合。2選擇數(shù)據(jù)庫或網(wǎng)絡(luò)檢索工具選擇合適檢索工具的前提是對網(wǎng)絡(luò)資源有一個較全面的、清晰的了解,具體地說要對檢索工具的類型、內(nèi)容特點、時間范圍、學科范圍、甚至出版商的大體情況都要有一個了解。方法: 注重平時的積累 不要盲目檢索,應(yīng)養(yǎng)成檢索前了解一下數(shù)據(jù)庫的習慣 注重與他人的交流 重視圖書館主頁的資源3提煉檢索詞,制定檢索式檢索詞盡可能選用詞或詞組,然后用布爾邏輯運算符將檢索詞連接起來,切忌把整個題名輸入到檢索框中。如:網(wǎng)絡(luò)數(shù)據(jù)庫的安全性研究要提煉關(guān)鍵的、核心的詞作為檢索詞。去掉意義太泛或“無所謂有”的詞,有時不需要死摳字眼,意思匹配就可以了。漏檢:忽視了同義詞、相似詞等。檢索中不斷調(diào)整策略4實施試檢索操作檢索,再分析,再檢索,再分析。5檢索結(jié)果處理。七參考文獻著錄標準、范圍以及文后參考文獻的著錄格式1著錄標準(1)排列次序:依在正文中被首次引用的先后次序列出各條參考文獻。(2)具體要求:項目齊全,內(nèi)容完整,順序正確,標點無誤。(3)注意事項:只有3位及3位以內(nèi)作者的,其姓名全部列上,中外作者一律姓前名后; 共有3位以上作者的,只列前3位,其后加“,等”或“,et al”; 外文文獻中表示縮寫的實心句點“”一律略去; 原本就缺少某一項目時,可將該項連同與其對應(yīng)的標點符號一起略去; 頁碼不可省略,起止頁碼間用“-”相隔,不同的頁碼引用范圍之間用“,”相隔。 正文中參考文獻標引一律用上標形式的方括號內(nèi)數(shù)字表示,例如3,方括號和數(shù)字不必用粗體。2著錄范圍(共8類)(1)已在國內(nèi)外公開出版的學術(shù)期刊上發(fā)表的論文;(2)由國內(nèi)外出版公司或出版社正式出版的學術(shù)著作(有isbn號);(3)有isbn號的會議論文集及論文集中的析出論文;(4)博士和碩士學位論文;(5)專利文獻;(6)國際標準、國家標準和部頒標準;(7)報紙文章;(8)電子文獻。其他性質(zhì)的資料可以作為正文的隨文腳注。非紙張型電子文獻應(yīng)注明載體類型,見后述。 3參考文獻類型及其標志根據(jù)gb3469 規(guī)定,對參考文獻類型在文獻題名后應(yīng)該用方括號加以標引,以單字母方式標志以下各種參考文獻類型:文獻類型期刊論文專著會議論文學位論文專利標準報紙報告資料匯編標志代碼jmcdpsnrg4電子文獻類型標志對于數(shù)據(jù)庫(database)、計算機程序(computer program)及電子公告(electronic bulletin board)等電子文獻類型的參考文獻,以下列字母作為標志:電子參考文獻類型數(shù)據(jù)庫計算機程序電子公告電子文獻類型標志dbcpeb對于非紙張型載體的電子文獻,當被引用為參考文獻時需在參考文獻類型標志中同時標明其載體類型,采用雙字母表示電子文獻載體類型:磁帶(magnetic tape)mt; 磁盤(disk)dk; 光盤(cd-rom)cd; 聯(lián)機網(wǎng)絡(luò)(online)ol。以下列格式表示包括了文獻載體類型的參考文獻類型標示:電子文獻類型標示/載體類型標示,如:db/ol聯(lián)機網(wǎng)上數(shù)據(jù)庫(database online);db/mt磁帶數(shù)據(jù)庫(database on magnetic tape)m/cd光盤圖書 (monograph on cd-rom)cp/dk磁盤軟件 (computer program on disk)j/ol網(wǎng)上期刊 (journal serial online)eb/ol網(wǎng)上電子公告 (electronic bulletin board online)以紙張為載體的傳統(tǒng)文獻在引作參考文獻時可不必注明其載體類型。 5.各類參考文獻著錄格式編號文獻類型 格式與示例1學術(shù)期刊 序號作者題名j刊名, 出版年份, 卷號(期號): 起頁-止頁.1高景德,王祥珩交流電機的多回路理論j清華大學學報,1987,27(1):1-8.2高景德,王祥珩交流電機的多回路理論j清華大學學報,1987(1):1-8.3chen s,billing s a,cowan c f,et alpractical identification of marmax modelsjint j control,1990,52 (6):1327-1350.2 專著 序號作者書名m版次(首版免注)翻譯者出版地:出版社,出版. 起頁-止頁.4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論