信息檢索導論課件_第1頁
信息檢索導論課件_第2頁
信息檢索導論課件_第3頁
信息檢索導論課件_第4頁
信息檢索導論課件_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

第一章信息檢索導論1.1信息素養(yǎng)與信息檢索1.2信息檢索的概念和類型1.3信息檢索的研究對象與研究方法1.4信息檢索的發(fā)展歷史1.5信息檢索需求1.6小結1

1.1信息素養(yǎng)與信息檢索一、信息、信息社會與信息素養(yǎng)二、信息檢索教學的主要意義三、信息檢索教學的基本內容2一、信息、信息社會與信息素養(yǎng)

信息社會的基本特征1、信息數量的激增2、信息職業(yè)的擴大3、信息資源的顯化4、信息應用的泛化5、信息意識的強化3信息信息的概念信息的基本特征信息的基本類型51、信息·

日常生活概念在日常生活中,信息與符號、數據、消息、事實、新聞、情報、知識等概念混用,核心義項是消息。李中(924~975)在《碧云集》之《暮春懷故人》一詩中最早提出了“信息”一詞?!皦魯嗝廊顺列畔?,目穿長路倚樓臺?!狈柺侵溉祟惛泄俳邮芡饨绱碳ず螅竽X中產生的刺激的組合;數據是各種事實、數字和字符等符號的集合;信息是指語法特征上相互關聯(lián)的數據對象的集合;知識是有語法、語義關聯(lián)的信息結構;而智能則是知識精華的集合。6數據知識信息智能信息與數據、知識和智能的關系7信息·科學概念科學概念根植于理性的理論框架中,并與不定性、概率、熵、有序化、變異度等概念密切相關。L.V.R.Hartley:信息是選擇的自由度(1928);C.E.Shannon:信息是用來減少隨機不定性的東西(1948);N.Wiener:信息是指人們適應外部世界,并使這種適應為外部世界所感知的過程中,同外部世界交換的東西的名稱(1948);L.Brillouin:信息就是負熵,是系統(tǒng)組織結構和有序程度的度量(1951);W.R.Ashby:信息是集合的變異度(1956)。

一般說來,設隨機事件X(x1,x2,…,xn),每個事件(狀態(tài))發(fā)生的概率為P(p1,p2,…,pn),那么這一隨機事件提供的信息量為I(xi)=﹣㏒Pi,而整個信源的信息熵為H(X)=﹣∑Pi㏒Pi。9信息·哲學概念在對信息進行哲學探討時,信息與物質、能量、運動、反映、意識等概念息息相關。信息是一切事物運動狀態(tài)和方式的表象或表征。這里,“事物”泛指一切可能的研究對象,可以是外部世界的物質客體,也可以是主觀世界的精神現象;“運動”泛指一切意義上的變化;“運動狀態(tài)”是指事物運動在空間上所展現的性狀和態(tài)勢,是事物的靜態(tài)特征;“運動方式”則是指事物運動在時間上所呈現的過程和規(guī)律,是事物的動態(tài)特征。“表象”說明信息并不是事物本身;而“表達”則是認識論上的主體所感知并能夠表示的、與人類生活有關的東西,這是上述本體論意義上的信息引入認識主體這一約束條件后的產物。10信息的基本特征和屬性

普遍性與無限性客觀性與相對性

抽象性與依附性

動態(tài)性與異步性傳遞性與共享性11客觀性。信息的客觀性源于客觀存在的物質運動的特征。信息不是虛無飄渺的東西,也不是可以隨意想象和“創(chuàng)造”的事物,它是現實世界各種事物運動的狀態(tài)和方式,有非常具體和真實的品格。各類信息的表達、存貯、傳遞、轉換和利用等都必須以客觀存在的物質載體為依托。相對性。由于認識能力、認識目的及其所儲備的先驗信息各不相同,各個認識主體從同一事物中獲取的信息及信息量(實得語法信息量、實得語義信息量和實得語用量)并不相同。假定事物X的實在信息量I(X)是常數,在這樣的條件下,第i個觀察者Ri的實得信息量I(X;Ri)就為:I(X;Ri)=I(X)-Io(X;Ri)。既然各個觀察者的先驗信息量Io(X;Ri)各不相同,它們的實得信息量當然也就各有差異。13抽象性。信息本身是看不見摸不著的,我們所能夠看得見摸得著的只是信息載體(包括語言、文字、圖畫、符號、紙張、磁帶和光盤等)而非信息內容。依附性。任何信息都必須以某種物質的特定的運動形式表現出來,即信息必須依附于一定的物質載體上,用文字、語言、圖像、符號等把信息記錄下來,并寄載在紙張、磁帶、膠卷和光盤等介質上,通過聲波、光波、電波等物質載體進行傳遞。信息的依附性是抽象性的延伸,是信息具有可傳遞性、可轉換性、可貯存性和可處理性的基礎,是信息能夠實際利用的前提;正是因為有了這些載體,信息才能變?yōu)橐环N廣泛的資源和財富。14動態(tài)性,或稱信息的時效性。信息的時效是指信息從產生、傳遞到接收利用的時間間隔及效率,而時效性就是指信息的內容和信息量大小都會隨時間的變化而不斷得到更新、充實、積累或取舍。在我們考察物質運動規(guī)律時,所取的空間界面和時間區(qū)段不同,所得到的有關信息的時效就會有所不同。異步性。異步性是動態(tài)性的延伸,包括滯后性和超前性兩個方面。信息脫離源物質后需要經過輸入、處理、傳遞和輸出等過程才能為人們所理解和掌握,而此時源物質已發(fā)生新的變化,這些信息因而就成為“過時”的信息,它們所反映的已是某一時刻之前的源物質運動的狀態(tài)和方式。換言之,任何信息總是產生、傳遞在事實之后,即先有事實而后有關于該事實方面的信息等,這是由于人的認識與客觀事物運動的異步性造成的,并導致信息都有一定的滯后性和不完全性。另一方面,人們在掌握大量信息的基礎上,又可以通過計劃、預測等方式測知未來的信息,超前于現實,因而信息又具有超前性。15信息的基本類型1以認識主體為依據對信息進行的劃分2以信息的生成領域對信息進行的劃分3以信息的媒體形式對信息進行的劃分4以信息的邏輯意義對信息進行的劃分171以認識主體為依據對信息進行的劃分客觀信息,是指對事物不加判斷的如實和公正的報道,即關于認識對象的信息。主觀信息,一般是依據事實和分析,闡明個人對論題的觀點和見解,是經過思維主體加工的信息。182以信息的生成領域對信息進行的劃分自然信息,非生命物質的自然信息,是無機界事物屬性及事物之間內在聯(lián)系的表征。自然信息是融合式的、特殊的、彌漫的。生物信息,包括生物與外界聯(lián)系時做出的反應以及生物體內傳遞的信息。生物信息是信號形態(tài)的信息。社會信息,人類活動和社會發(fā)展的信息以及人類接收并破譯的自然信息。它以符號信息為特征。思維信息,以人腦為載體,以語言為外殼,以各種感覺器官為接收器,對各種外界信息進行加工、轉換,并實現思維分析、語言表達的過程。思維信息是社會信息運動的主體源泉,而社會信息則是思維信息運動的外化和現實化的結果。194以信息的邏輯意義和利害關系劃分有益信息:對社會發(fā)展有積極作用的、能夠消除人們對未知事物不確定性的信息,它是人類社會的資源和財富。無用信息:指對信息使用者所從事的某種活動沒有作用的、多余的信息。衡量無用信息可以使用以下3個指標:一是德國文獻學家瓦斯提出的廢頁率。二是美國信息科學家彭德爾伯里和加菲爾德等提出的不引率。三是信息冗余度,即信息中超出完整要求而在傳遞中屬于多余的內容。信息的冗余度R=1-H/Hmax。有害信息:指對社會發(fā)展和信息用戶有消極和阻礙作用的不真實或庸俗、媚俗的信息,主要有虛假信息和色情信息等。21二、信息檢索教學的主要意義1、一個平臺:培養(yǎng)信息意識,提高自學能力和獨立研究能力。

1992年國家教委高教司在《文獻檢索課教學基本要求》的通知中指出:“文獻檢索課是培養(yǎng)學生掌握利用圖書文獻/情報檢索,不斷提高自學能力和科研能力的一門科學方法課?!?/p>

2、一個引擎:促進信息資源的開發(fā)利用,使文獻信息機構成為社會信息化發(fā)展的智力引擎。

信息資源是人類最寶貴的智慧資源,具有可再生性、可建設性、價值的潛在性等特征,是人類所有依賴的資源中最重要的資源。隨著自然資源的日益減少甚至枯竭,信息資源的重要性表現得更為明顯。3、一個工具:避免科研勞動的重復浪費,協(xié)助管理者做出正確的決策。22

1.1信息素養(yǎng)與信息檢索一、信息、信息社會與信息素養(yǎng)二、信息檢索教學的主要意義三、信息檢索教學的基本內容23

1.2信息檢索的概念和類型251.2.1信息檢索的若干基本概念信息檢索InformationRetrieval信息存儲與檢索InformationStorageandRetrieval信息存取InformationAccess信息發(fā)現InformationDiscovery

文獻檢索DocumentRetrieval事實檢索FactRetrieval數據檢索DataRetrieval

文本檢索數值檢索聲頻與視頻檢索26CalvinN.Mooers,1919~1994穆爾斯(CalvinN.Mooers,1919~1994)在1948年提出此術語時,把它定義為一種“延時性通訊形式”。其特點是:發(fā)信者在某一時刻發(fā)出信息,而接收者可以在晚一些時刻才收到該信息;發(fā)信者必須發(fā)出一切可能的信息,而接受者必須有某種檢索裝置以便從大量發(fā)送的信息中篩選出適合自己需要的信息。Mooerscoinedtheterms"informationretrieval"anddescriptors"inhisMITMaster'sthesisin1948.HethenwentontodeveloptheZatocodingsystemofsuperimposedrandomcoding.MooersfirstdevelopedtheTRACprogramminglanguagebetween1959-1964.Mooerswasanearlyadvocateoftheuseofintellectualpropertylaw,includingcopyrightandpatents,toprotectcomputerprogramminglanguages.291.2.3、信息檢索的類型1、按照存貯與檢索的對象進行劃分2、按照存儲的載體和查找的技術手段進行劃分3、按照存貯文獻的時間進行的劃分4、按照檢索系統(tǒng)的結構進行的劃分301、按照存貯與檢索的對象進行劃分1.1Documentretrieval:以文獻為檢索對象的信息檢索,是指將文獻按一定的方式存貯起來,然后根據需要從中查出有關課題或主題文獻的過程。書目檢索:以文獻線索為檢索對象。換言之,檢索系統(tǒng)存貯的是書目、專題書目、索引和文摘等二次文獻。全文檢索:以文獻所含的全部信息作為檢索內容,即檢索系統(tǒng)存貯的是整篇文章或整部圖書。1.2Dataretrieval:以具有數量性質并以數值形式表示的數據為檢索內容的信息檢索,或稱數值檢索。1.3Factretrieval:以文獻中抽取的事項為檢索內容的信息檢索,或稱“事項檢索”。312、按照存儲的載體和查找的技術手段進行劃分2.1Manualretrieval:用人工方式查找所需信息的檢索方式。2.2Mechanicalretrieval:利用某種機械裝置來處理和查找文獻的檢索方式。穿孔卡片檢索:Punchcard是一種由薄紙板制成的、用孔洞位置表示信息,通過穿孔或軋口方式記錄和存儲信息的方形卡片。縮微品檢索:把檢索標識變成黑白點矩陣或條形碼,存儲在縮微膠片或膠卷上,利用光電效應,通過檢索機查找。2.3Computer-basedretrieval322.3Computer-basedretrieval計算機檢索是指把信息及其檢索標識轉換成電子計算機可以閱讀的二進制編碼,存儲在磁性載體上,由計算機根據程序進行查找和輸出。脫機檢索:成批處理檢索提問的計算機檢索方式。聯(lián)機檢索:檢索者通過檢索終端和通信線路,直接查詢檢索系統(tǒng)數據庫的機檢方式。1964年,美國國家醫(yī)學圖書館開始MEDLARS聯(lián)機情報檢索系統(tǒng)商品服務。光盤檢索:以光盤數據庫為基礎的一種獨立的計算機檢索,包括單機光盤檢索和光盤網絡檢索兩種類型。1983年首張高密度只讀光盤存儲器誕生;1984年美國、日本和歐洲開始利用CD-ROM存貯科技文獻。網絡檢索:利用E-mail、、Archie、WAIS、Gopher、Veronica、WWW等檢索工具,在Internet等網絡上進行信息存取的行為。333、按照存貯文獻的時間進行的劃分3.1SelectiveDisseminationofInformation:它是預先把用戶需要的有關文獻存貯在計算機的存貯器中,定期按用戶提問要求從存貯器中檢索出用戶所需要的最新文獻,發(fā)給用戶,使用戶能定期得到所需要的文獻信息。(定題服務)3.2RetrospectiveSearch:它是根據用戶提出的課題,提供某一時間以前文獻的檢索方式。(回溯檢索)344、按照檢索系統(tǒng)的結構進行的劃分4、1Serial:它是以每篇文獻為單位,按照文獻號(如文摘號)的大小依次存貯在存貯介質上,構成順排文檔。檢索時,也是按文獻號的順序依次檢索。4、2Inverted:它是將順排文檔再按主題詞、分類號、文獻名稱、作者等檢索途徑編排成一個索引系統(tǒng),這個索引系統(tǒng)稱之為倒排文檔。檢索時,先查倒排文檔,然后再從順排文檔中抽出文獻內容。35

討論題Topic你了解哪些信息需求和信息系統(tǒng)?Topic你在學習方面的信息需求的分布狀況(按降序或升序排列)?Topic你查尋信息的基本途徑有哪些?36Topic你在學習方面的信息需求的分布狀況?類型上:教科書、專著、工具書、研究報告、專利文獻等;內容上:專業(yè)文獻、課外讀物(文學、管理、經濟、政治等)等;地域上:本單位、外單位、外地等;語種上:中文、外文、少數民族文字等。37Topic你查尋信息的基本途徑有哪些?檢索即是一種交流,它可以是內向的,也可以是外向的。2、同行同事3、中介4、技術5、已記載的知識1、生存環(huán)境38附錄:我國企業(yè)人員獲取信息的方式企業(yè)類型獲取方式大中小總體情況(利用比例)經濟管理人員技術人員經濟管理人員技術人員經濟管理人員技術人員經濟管理人員技術人員利用圖書情報部門7.6918.5018.9924.0412.6317.2713.1019.91國內參觀7.6910.008.868.2411.5810.999.389.74國內會議9.637.0010.138.9612.6313.1910.809.72自行閱讀文獻17.3110.007.608.979.749.8911.469.62通過相關人員15.399.5011.398.9610.539.8912.449.45通過單位情報服務5.7711.008.869.687.376.597.339.09國內調研3.858.002.537.894.2110.993.538.96通過情報信息網3.856.006.335.744.215.504.805.75國內信函11.545.508.864.305.266.598.555.46實地收集信息11.534.506.333.946.326.598.065.01利用技術市場1.923.003.803.238.4204.712.08國外信函01.001.272.531.90國外考察學習1.922.002.531.741.63國外(際)會議01.5001.080000.86其它方式1.922.502.530.722.1102.191.0739Chap1思考題與課題思考題:1、如何理解信息的概念、基本特征和主要類型?2、說明信息、情報、知識和文獻之間的相互關系。3、信息社會有哪些基本特征?4、如果理解信息檢索的概念和基本原理?5、談談信息檢索教學的主要內容和重要意義。6、什么是信息素質?如何提高個體和整個社會的信息素質?7、在信息檢索中,如果認識和解決信息污染的問題?8、談談信息檢索發(fā)展的主要階段及其內容。9、分析現代社會用戶信息需求的基本特征及其實現方式。10、如何理解信息檢索的基本類型及其特征。課題:山東師范大學本科一年級學生信息需求狀況調查報告401.3信息檢索的研究對象1.3.1主要研究問題◆信息檢索理論:例如檢索語言、檢索模型、標引理論、相關性理論、知識表示理論等;◆信息檢索工具/系統(tǒng):包括系統(tǒng)的結構、功能、設計開發(fā)、管理運營、應用評價等;◆信息資源及其收集、加工◆檢索技術與方法◆用戶研究(檢索需求、查詢行為等)◆其他411.3.2相關學科領域◆計算機科學(ComputerScience)◆數學(Mathematics)◆語言學(Linguistics)◆認知科學(CognitiveScience)42

1.4信息檢索的發(fā)展歷史431、文獻信息檢索階段(前兩千年~1954)。

公元前兩千年,類似文摘的東西首先出現在封裝美索不達米亞人用楔形文字寫成的文獻的陶制封套上。2、脫機信息檢索階段(1954~1964)。1954年,美國海軍軍械實驗站圖書館研制出計算機信息檢索試驗系統(tǒng)。3、

聯(lián)機信息檢索階段(1964~1972)。1964年,美國醫(yī)學圖書館開始了MEDLARS聯(lián)機信息檢索系統(tǒng)商業(yè)化服務,使計算機信息檢索進入了新的歷史發(fā)展階段。4、網絡信息檢索階段(1972~目前)。1972年,MEDLINE率先加入TYMNET通信網,然后又加入TELENET通信網。隨后,DIALOG、ORBIT等系統(tǒng)也相繼進入網絡,從而使信息檢索進入到網絡檢索階段。5、光盤信息檢索階段(1985~目前)。1985年,第一張商品化的CD-ROM數據庫Bibliofile,即美國會圖書館的MARC問世,標志著光盤信息檢索異軍突起,并大有與網絡信息檢索平分秋色之勢。

441.4信息檢索的發(fā)展歷史1.4.1手工檢索階段以印刷型文獻為主要檢索對象◆初創(chuàng)時期◆成熟穩(wěn)定時期(1830----1940s)◆全面發(fā)展時期(1940S----1970s)1.4.2計算機化檢索階段◆脫機批處理檢索時期Off-lineBatchProcessing(1954---1964)◆聯(lián)機實時檢索時期On-lineRealTime(1965---1975)◆聯(lián)機網絡化與多元化檢索時期(1976---1990)◆Internet網絡化檢索時期(1990---至今)45◆脫機批處理檢索時期-------輸入計算機的信息(文獻的題錄、文摘等)幾乎全部存儲在磁帶上,檢索提問穿成紙帶或卡片,檢索結果不能立即獲得,必須等待成批或定期檢索處理。

◆計算機技術背景硬件方面軟件方面

◆主要事件和系統(tǒng)NASA系統(tǒng)MEDLARS系統(tǒng)KWIC索引46◆聯(lián)機實時檢索時期-------信息中心的主機借助于電話線與遠距離終端相連,形成聯(lián)機實時檢索系統(tǒng)。用戶可在檢索終端進行人機對話或檢索。◆計算機技術背景集成電路時代分時處理技術磁盤與磁盤機的應用◆主要事件與系統(tǒng)DIALOG系統(tǒng)ORBIT系統(tǒng)BRS系統(tǒng)ESA/IRS系統(tǒng)47◆聯(lián)機網絡化與多元化檢索時期------聯(lián)機實時檢索系統(tǒng)利用世界上主要的數據通訊網,發(fā)展成為國際性的聯(lián)機檢索系統(tǒng),聯(lián)機網絡和檢索服務市場從北美擴展到歐亞大陸和拉美地區(qū)。PC機的出現,光盤的應用,更使得聯(lián)機檢索服務行業(yè)競爭加劇,呈現出多元化發(fā)展態(tài)勢。

◆計算機技術背景

●大規(guī)模集成電路和超大規(guī)模集成電路時代●微機作為智能終端出現(1981)●數據庫技術的發(fā)展●現代通訊技術的發(fā)展●光盤技術及其應用(1985)

48◆聯(lián)機網絡化與多元化檢索時期◆

主要事件和系統(tǒng)

●數據通訊網的商用TYMNET1977DATAPAC1976(加)TELENET1975EPSS1977(英)EURONET1980TRANSPAC1978(法)●家庭化檢索DIALOG系統(tǒng)的KnowledgeIndex(1982)BRS系統(tǒng)的AfterDark(1982)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論