電子信息檢索第一章-信息檢索概述演示教學_第1頁
電子信息檢索第一章-信息檢索概述演示教學_第2頁
電子信息檢索第一章-信息檢索概述演示教學_第3頁
電子信息檢索第一章-信息檢索概述演示教學_第4頁
電子信息檢索第一章-信息檢索概述演示教學_第5頁
已閱讀5頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

電子信息檢索第一章-信息檢索概述按系統(tǒng)中信息的組織方式分為:全文檢索指檢索系統(tǒng)中存儲的是整篇文章乃至整本書。超文本檢索從信息在系統(tǒng)中的組織方式不同而言,提供瀏覽式查詢。超媒體檢索對超文本檢索的補充,存儲對象超出了文本范疇,融入了靜、動態(tài)圖像(形)以及聲音等多媒體信息。2023/2/72三、信息檢索研究的核心問題檢索語言兼容與整合的研究數據庫與文檔的研究有關檢索系統(tǒng)的研究檢索策略的研究網絡搜索工具研究檢索服務的研究2023/2/73四、信息檢索的地位和作用促進信息資源的開發(fā)和利用協(xié)助管理者做出正確的決策便于繼承和借鑒前人的成果,避免重復研究或走彎路節(jié)省研究人員查找文獻的時間2023/2/74第二節(jié)信息檢索的原理一、信息檢索的原理就是檢索提問標識與存儲在檢索工具中的標引標識進行比較,兩者一致或者信息標引的標識包含著檢索提問標識,則具有該標識的信息就從檢索工具輸出,輸出的信息就是檢索命中的信息。簡單的講,就是匹配。

各檢索系統(tǒng)的檢索原理基本相同。2023/2/75信息檢索的全過程包括存儲和檢索兩個過程。存儲過程就是按照主題詞表或分類表及使用原則對原始信息進行處理,形成信息特征標識,為檢索提供經過整序的信息集合的過程。具體來說,信息的存儲包括對信息的著錄、標引以及編排正文和所附索引等。所謂信息的著錄是按照一定的規(guī)則對信息的外表特征和內容特征加以簡單明確的表述。信息外表特征包括信息的著者、題名、來源、卷期、頁次、年月、號碼、文種等。信息內容特征包括主題詞、關鍵詞和文摘。信息的標引就是就信息的內容按一定的分類表或主題詞表給出分類號或主題詞。檢索過程則是按照同樣的主題詞表或分類表及組配原則分析課題,形成檢索提問標識,根據存儲所提供的檢索途徑,從信息集合中查獲與檢索提問標識相符的信息特征標識的過程。2023/2/76信息存儲與檢索原理2023/2/77二、檢索語言定義:檢索語言,又稱標引語言、索引語言、信息檢索語言等,是根據檢索需要而編制的一種人工語言。世界上的檢索語言很多,如《中國圖書館分類法》、《杜威十進位分類法》、《中國科學院圖書館圖書分類法》、《INSPEC敘詞表》等。

2023/2/781.檢索語言的功能:簡單明了而又規(guī)范化地標引文獻的主題內容及其外表特征

對內容相同及相關的文獻信息加以集中或揭示其相關性,使大量分散的文獻存貯系統(tǒng)化、組織化,便于進行有規(guī)律的檢索

便于將標引用語與檢索用語進行相符性比較

2023/2/792.檢索語言的類型

根據是否規(guī)范化,分為規(guī)范化的語言(人工語言,如主題詞語言)和非規(guī)范化的語言(自然語言)。根據包括的專業(yè)范圍,分為綜合性和專用性語言。根據描述文獻的特征,分為表達文獻外表特征的檢索語言和表達文獻內容特征的檢索語言。2023/2/710

2023/2/7113.分類語言分類語言以學科體系為基礎,將各種概念按照學科性質進行分類和系統(tǒng)排列,并按分類編排組織成一個完整的體系。它按照知識門類的邏輯次序,運用概念劃分和歸屬的方法,由總到分,由一般到個別,由抽象到具體,由低級到高級,由簡單到復雜這樣層層劃分,逐級展開,形成一個嚴格有序的等級制體系。

2023/2/712(1)分類語言的特點體系分類語言是以學科劃分類目,符合人們認識事物的規(guī)律和處理事物的習慣

體系分類語言強調知識的系統(tǒng)性,方便人們按學科、專業(yè)系統(tǒng)檢索有關文獻資料,能夠達到族性檢索,可以獲得較高的查全率

便于組織圖書館資料排架2023/2/713不足之處檢索者檢索課題時首先必須了解課題的學科體系才能順利查找到相應的類目,如果不熟悉學科體系,會帶來一定的困難。體系分類語言采用盡量列舉類目的方法,但是受到類目數量的限制,缺乏專指性,查準率不高。

由于分類表的結構是固定的,不便于隨時修訂和增設新的類目。

體系分類語言采用分類號作為檢索標識,檢索文獻時,需要將檢索文獻的主題內容轉換成分類號,轉換過程中,容易產生誤差,造成誤檢。2023/2/714體系分類語言廣泛應用于圖書、資料的分類、排架和檢索,如在我國應用較廣的《中國圖書館圖書分類法》(簡稱中圖法)、《中國科學院圖書館圖書分類法》(簡稱科圖法)、《人民大學圖書館圖書分類法》(簡稱人大法)以及國外的《杜威十進分類法》(DeweyDecimalClassification,簡稱杜威法,DDC或DC)、《美國國會圖書館圖書分類法》(LibraryQfCongressClassification,簡稱國會法或LC分類法)都屬于這一類。2023/2/715

基本部類

基本大類馬克思主義、列寧主義毛澤東思想、鄧小平理論——A馬克思主義、列寧主義、毛澤東思想、鄧小平理論哲學———————------------B哲學、宗教社會科學—————------------C社會科學總論

D政治、法律

E軍事

F經濟

G文化、科學、教育、體育

H語言、文字

I文學

J藝術

K歷史、地理自然科學————————------N自然科學總論

O數理科學和化學

P天文學、地球科學

Q生物科學

R醫(yī)藥、衛(wèi)生

S農業(yè)科學

T工業(yè)技術

U交通運輸

V航空、航天

X環(huán)境科學、安全科學綜合性圖書————————--Z綜合性圖書2023/2/716《中圖法》Q生物科學………………一級類目Ql普通生物學…………二級類目Qll生物演化與發(fā)展……三級類目Q111進化論、生物系統(tǒng)發(fā)育…………四級類目Qlll.2達爾文學說與研究……………五級類目2023/2/717《杜威十進制分類法》《杜威十進分類法》(DeweyDecimalClassification)簡稱DDC或DC,由美國圖書館學家杜威(MelvilDewey)創(chuàng)制,是目前全世界使用最廣泛、影響最大的圖書資料分類法,至少有135個國家和地區(qū)的20多萬個圖書館在采用。

2023/2/718下面是杜威法的十個大類:

000Generalities(總論)100Philosophyandrelateddisciplines(哲學及相關科學)200Religion(宗教)300SocialScience(社會科學)400Language(語言)500Purescience(純科學)600Technologiesandappliedscience(技術或應用科學)700Thearts(藝術)800Literature(文學)·900Generalgeographyandhistory(普通地理和歷史)2023/2/719600類之下又分為:

600技術或應用科學610醫(yī)學620工程學630農業(yè)640家政650管理與輔助服務660化學工業(yè)670制造業(yè)680各用途產品制造690建筑工程2023/2/720在620類目之下,又分為許多小類目

620工程學621應用物理學621.1蒸汽工程621.2水力工程621.3電力工程2023/2/721四、主題語言

主題語言是一種描述語言,是用自然語言中的名詞、名詞性詞組或句子描述文獻所論述或研究的事物的概念。這些名詞或名詞性詞組就是主題詞。主題語言又可以分為標題詞語言、關鍵詞語言和敘詞語言等等。2023/2/7221.標題詞語言

標題詞是指從文獻的題目和內容中抽出來的,經過規(guī)范處理的表達文獻內容特征的詞或詞組。2.關鍵詞語言關鍵詞(keyword),又稱鍵詞,是指從文獻的題名、文摘甚至正文中抽出的具有檢索意義的詞,對揭示文獻內容比較關鍵。3.敘詞語言

敘詞語言是以自然語言為基礎的一種檢索語言,綜合了多種語言的優(yōu)點。2023/2/723例:查找“艾滋病的藥物療法”方面的文獻體系分類語言:R512.910.5敘詞語言:獲得性免疫缺陷綜合癥/藥物療法關鍵詞語言:AIDS,艾滋病,愛滋病,藥物2023/2/724第三節(jié)科技文獻概述一、文獻定義文獻,是用文字、符號或圖形等方式記錄人類活動或知識的一種信息載體,是人類腦力勞動成果的一種表現形式??萍嘉墨I就是記錄有科學技術信息或知識的一種載體,是人們從事科學技術活動的勞動成果的表現形式之一。

2023/2/7251.科技文獻的物質形式文獻以其載體的物理形態(tài)可分為四種類型,即:紙介型、縮微型、聲像型和電子型。紙介型(paper-based)文獻是以紙張為載體。它又可分為手抄型和印刷型兩種??s微型(microforms)文獻以感光材料為載體,通過光學攝影方式將文獻的影像固化在感光材料上形成的一類文獻。2023/2/726

聲像型(audio-visualform)文獻,也稱視聽型文獻,是指通過特定設備,使用聲、光、磁、電等技術將信息轉換為聲音、圖像、影視和動畫(sound,image,video&animadon)等形式,給人以直觀、形象感受的知識載體。電子型(electronicform)文獻,原稱機讀型(machinereadableform)文獻。它通過計算機對電子格式的信息進行存取和處理。

2023/2/727二、科技文獻的結構等級

一般來說,科技文獻劃分為兩個等級一次文獻:(primarydocument).是指作者以本人的研究成果為基本素材而創(chuàng)作的文獻,無論創(chuàng)作時是否參考或引用了他人的著作,也不管該文獻以何種物質形式出現。一般,一次文獻記錄的信息比較具體、詳盡和系統(tǒng)化。習慣上也稱一次文獻為原始文獻或第一手資料。閱讀性圖書、期刊論文、科技報告、會議論文、專利說明書、技術標準以及部分學位論文等公開發(fā)表的文獻,都屬于一次文獻。另外,他還包括一些不公開發(fā)表的文獻,如:實驗記錄、日記、備忘錄、內部報告、技術檔案、信件等等。

2023/2/728二次文獻(secondarydocument)

是指文獻工作者對一次文獻進行加工、提煉和壓縮之后得到的產物,是為了便于管理和利用一次文獻而編輯、出版和累積起來的工具性文獻。它一般包括:目錄、題錄、文摘、索引、百科年鑒、手冊、名錄等。2023/2/729其它分法:三次文獻(tertiarysources)零次文獻(non-printedsources)2023/2/730三、文獻的其他概念白色文獻是指一切正式出版并在社會上公開流通的文獻。包括圖書、報紙、期刊等。這類文獻通過出版社、書店、郵局等正規(guī)渠道公開發(fā)行,向社會所有成員公開,人人均可利用?;疑墨I是指非公開發(fā)行的內部文獻或限制流通的文獻。因從正常采購途徑難以獲得,故又稱為“非常見文獻”。其范圍包括社會非公開傳播的內部刊物、內部技術報告、內部教材和會議資料等。這類文獻出版量小、發(fā)行渠道復雜、流通范圍有一定限制,不易收集。黑色文獻包括兩個方面:一是人們未破譯或未辨識其中信息的文獻。二是處于保密狀態(tài)或不愿公布其內容的文獻。這類文獻除作者及特定人員外,一般社會成員極難獲得和利用。

2023/2/731四、核心文獻、相關文獻和邊緣文獻核心文獻通常只與本學科發(fā)展水平、發(fā)展動向的密切相關的一些文獻。

相關文獻和邊緣文獻使之所含內容與學科的關系相對疏遠一些的那些文獻。

根據相對利用率的多少來分類2023/2/732第四節(jié)科技信息檢索方法一、檢索方法1.直接法指科技人員直接閱讀原始論文,從中獲取所需資料的方法。

2.間接法(常用法)利用文摘、題錄、索引等各種檢索工具查找文獻信息的方法。它又分為順查法、倒查法和抽查法。

2023/2/733(1)順查法按照時間順序,由遠而近地利用檢索工具檢索的方法。

這種方法能收集到某一課題的系統(tǒng)文獻,適用于較大課題的檢索。優(yōu)點是所查資料系統(tǒng)、全面,漏檢、誤檢率低,但勞動量大,效率低。

2023/2/734(2)倒查法由近及遠,從新到舊,逆著時間順序利用檢索工具進行文獻信息檢索的方法。

使用這種方法可以最快地獲得新資料,而且近期資料廣泛均引用、論證和概述早期的技術資料,從而能夠了解課題早期的發(fā)展情況。方法靈活、節(jié)約時間、勞動量較小,但易造成漏檢,可以用于新課題立項前的調研。

2023/2/735(3)抽查法針對檢索課題的特點,選擇有關該課題的文獻、信息最可能出現或最多出現的時間段,利用檢索工具進行重點檢索的方法。

花費時間少,效率高,但前提是必須熟悉學科發(fā)展特點和發(fā)展年代,選準抽查年份。

2023/2/7363.追溯法(引文回溯法)從已有文獻后面所附參考文獻入手,逐一查找

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論