第2章信息檢索原理與技術_第1頁
第2章信息檢索原理與技術_第2頁
第2章信息檢索原理與技術_第3頁
第2章信息檢索原理與技術_第4頁
第2章信息檢索原理與技術_第5頁
已閱讀5頁,還剩43頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2.信息檢索原理及技術2.1信息檢索概述2.2信息檢索原理2.3信息檢索方法2.4信息檢索技術2.1信息檢索概述2.1.1信息檢索的含義2.1.2信息檢索的本質2.1.3信息檢索的類型和特點2.1.1信息檢索的含義信息檢索通常是指從任何方式組成的信息集合中,查找特定用戶在特定時間和條件下所需信息的方法與過程。因此,完好的信息檢索應包括以下兩個方面:1.信息標引和存儲過程2.信息的檢索過程2.1.2信息檢索的本質將描畫特定用戶所需信息的提問特征,與信息存儲的檢索標識進展異同的比較,從中找出與提問特征一致或根本一致的信息。提問特征是指從欲檢索課題中選擇出能代表信息需求的主題詞、關鍵詞或分類號等。例如一區(qū)域開展中的生態(tài)環(huán)境特征研討提問特征〔關鍵詞〕1.區(qū)域開展生態(tài)環(huán)境2.區(qū)域生態(tài)環(huán)境例如二食品中常見病原菌快速檢測提問特征〔關鍵詞〕食品、食物病原菌檢測2.1.3信息檢索的類型和特點1.書目信息檢索2.全文信息檢索3.數(shù)據信息檢索4.現(xiàn)實信息檢索5.小結書目信息檢索以標題、作者、原文來源、摘要及收藏地點為檢索對象,是一種相關性檢索。特點:檢索結果不直接解答課題用戶提出的技術問題,只提供與之相關的線索。普通以目錄、索引、文摘數(shù)據庫為檢索工具。例如:查找有關“城市生態(tài)環(huán)境及可繼續(xù)開展〞方面的國內外信息有那些?檢索工具:中文科技期刊數(shù)據庫、萬方數(shù)據資源系統(tǒng)、EI等。全文信息檢索以論文或專利闡明書的全文為檢索對象,也是相關性檢索。特點:是在書目信息檢索根底上更深層次的內容檢索。例如:檢索由侯果山撰寫,發(fā)表在小說評論,2021,(S1)“淺談<紅樓夢>與<家>的類似之處〞一文。檢索工具:中國期刊全文數(shù)據庫數(shù)據信息檢索以具有數(shù)量性質并以數(shù)值方式表示的數(shù)據為檢索對象,是一種確定性檢索。檢索的結果是經過測試和評價過的各種數(shù)據,可用于比較分析和定量分析。它普通以數(shù)據大全、手冊、年鑒等為檢索工具。例如2021年懇求中國發(fā)明專利和獲得授權發(fā)明專利的國家有哪些?檢索工具中國統(tǒng)計年鑒現(xiàn)實信息檢索以事項為檢索對象,檢索結果是有關某一事物的詳細答案,也是一種確定性檢索。普通利用字詞典、年鑒、百科全書、手冊等為檢索工具。例如問題:國內計算機軟件的研討機構?檢索工具:中國企業(yè)、公司及產品數(shù)據庫中油油氣勘探軟件國家工程研討中心四川省嵌入式計算機軟件技術重點實驗室信息產業(yè)部實時計算機系統(tǒng)及運用重點實驗室電子科技大學嵌入式實時計算研討所黑龍江省計算機軟件工程技術研討中心江蘇省計算機軟件工程研討中心中山大學計算機軟件研討所云南省計算機軟件技術開發(fā)研討中心計算機軟件國家工程研討中心武漢大學計算機軟件工程研討所貴州大學計算機軟件與實際研討所浙江大學計算機軟件研討所小結:書目信息檢索是利用各種目錄、題錄和文摘工具獲取有關信息的線索。例如:各種圖書目錄、期刊目錄國內外著名的題錄和文摘有<全國報刊索引>、<工程索引>〔EI〕、<科學引文索引>〔SCI〕等。全文信息檢索是利用各種全文系統(tǒng)獲取有關的全文信息。例如:中國科技期刊全文數(shù)據庫數(shù)據和現(xiàn)實檢索是利用各種參考工具書獲取有關確實定性數(shù)據或現(xiàn)實信息。例如:各種百科全書、年鑒、手冊等。2.2信息檢索原理2.2.1信息檢索效率2.2.2信息檢索系統(tǒng)2.2.3信息檢索言語2.2.1信息檢索效率信息檢索效率是評價一個檢索系統(tǒng)性能優(yōu)劣的質量規(guī)范,它貫穿于信息的存儲和檢索的全過程。其評價目的主要是:查全率查準率2.2.2信息檢索系統(tǒng)信息檢索系統(tǒng)是擁有一定的存儲、檢索技術配備、存儲有各種信息,并能為用戶檢索所需信息的效力任務系統(tǒng)。目前常用的是手工檢索系統(tǒng)和計算機檢索系統(tǒng)。2.2.3信息檢索言語檢索言語又稱標引言語,是系統(tǒng)存儲和檢索時共同運用的一種商定言語,以到達信息存儲和檢索的一致性,提高檢索效率。檢索言語的類型體系分類言語分類言語組配分類言語混合分類言語標題詞言語主題言語關鍵詞言語敘詞言語單元詞言語體系分類言語體系分類言語是按學科邏輯分類的原理,運用概念劃分的方法,按知識門類從總到分,從上到下,層層劃分,逐級展開組成分類表,并以分類表來標引、存儲信息和檢索信息。特點是表達學科的系統(tǒng)性,反映事物的平行、隸屬和派生關系,有利于從學科的角度進展族性檢索,到達較高的查全率。<中圖法>第四版分類體系組成及構造<中圖法>T工業(yè)技術及環(huán)境科學大類簡表〔二級類目表〕TB普通工業(yè)技術TL原子能技術TD礦業(yè)工程TM電工技術TE石油、天然氣工業(yè)TN無線電電子學、電信技術TF冶金工業(yè)TP自動化技術、計算機技術TG金屬學與金屬工藝TQ化學工業(yè)TH機械、儀表工業(yè)TS輕工業(yè)、手工業(yè)TJ武器工業(yè)TU建筑科學TK能源與動力工程TV水利工程關鍵詞言語關鍵詞言語是一種主題言語〔采用表達某一事物或概念的名詞術語標引、存儲和檢索的一種言語〕。它是直接從原文的標題、摘要、全文中,研討課題中抽選出來的具有本質意義的、未經規(guī)范化處置的自然言語詞匯作為存儲和檢索根據的一種檢索言語。例如一海岸帶濕地變化及其對生態(tài)環(huán)境的影響關鍵詞:海岸帶濕地生態(tài)環(huán)境例如二高性能纖維的制備和研討關鍵詞:纖維制備2.3信息檢索方法

2.3.1信息需求分析2.3.2制定檢索戰(zhàn)略2.3.3實施檢索戰(zhàn)略2.3.1信息需求分析信息需求是人們在客觀或客觀上就課題所需信息的要求,是人們檢索信息的根本出發(fā)點,也是評價檢索效果的根據。它包括兩個方面〔參見教材24頁〕1.明確檢索的目的和要求2.對主題進展分析例如課題稱號:相變儲能纖維的制備一、檢索目的和要求:目的:科技立項要求:國內外有無1.相變儲能纖維制備的研討報道;2.已采用的制備方法有哪些?二、主題分析第一層面:相變儲能纖維—相變資料第二層面:制備—微膠囊化2.3.2制定檢索戰(zhàn)略檢索戰(zhàn)略是為了到達檢索目的而制定的詳細檢索方案。包括選擇檢索系統(tǒng)、確定檢索途徑或檢索詞、擬定檢索程序。按檢索手段分為手工檢索戰(zhàn)略和上機檢索戰(zhàn)略。2.3.3實施檢索戰(zhàn)略分獲取信息線索和索取原始信息兩步。獲取信息線索本質上是實現(xiàn)書目信息檢索。索取原始信息本質上是實現(xiàn)全文信息檢索。2.4信息檢索技術及其運用信息檢索技術是指利用現(xiàn)代信息檢索系統(tǒng),如聯(lián)機數(shù)據庫、光盤數(shù)據庫和網絡數(shù)據庫檢索有關信息而采用的相關技術,主要有布爾檢索、詞位檢索、截詞檢索和限制檢索。2.4.1布爾檢索布爾檢索技術運用的邏輯算符及含義〔1〕邏輯與〔2〕邏輯或〔3〕邏輯非邏輯與1.概念:邏輯與是一種具有概念交叉或概念限定關系的組配。2.算符:“*〞或“AND〞3.特點:加強專指度,提高查準率。4.舉例:“遙感技術〞AND“監(jiān)測〞,表示兩個概念應同時包含在一條記錄中。邏輯或1.概念:邏輯或是一種具有概念一樣、概念相關或概念并列關系的組配。2.算符:“+〞或“OR〞3.特點:擴展檢索范圍,提高了查全率。4.舉例:廢水OR污水,表示這兩個相關概念分別在一條記錄中出現(xiàn)或同時在一條記錄中出現(xiàn)。邏輯非1.概念:邏輯非是一種具有概念排除關系的組配。2.算符:“-〞或“NOT〞3.特點:提高查準率,影響查全率。4.舉例:制藥廢水NOT放射廢水,表示檢索出的記錄中要排除含有“放射廢水〞的記錄。2.4.2詞位檢索詞位檢索具有限定檢索詞詞間位置關系的功能,可彌補布爾邏輯算符只是定性規(guī)定檢索詞的范圍,到達提高檢準率的效果。臨近檢索用于網絡數(shù)據庫,常用的位置邏輯算符有:同句、同段、NERA、SAME。NERA表示兩詞之間不得多于9個詞,詞前后位置恣意,SAME要求檢索詞在同一個句子中,這里所指的同一個句子是兩個句號之間的字符串,檢索詞在句子中的順序恣意。例如:airNEARpollutionairSAMEpollution2.4.3截詞檢索截詞檢索是防止漏檢,提高查全率的一種常用檢索技術,大多數(shù)數(shù)據庫都提供了截詞檢索的功能。用*或?表示。截詞是在檢索詞的適當位置進展截斷,節(jié)省輸入的字符,到達較高的查全率,常用的有后截詞方式。例如:book??表示截一個字符,為有限截詞符。comput?Comput*表示截無限個字符,為無限截詞符。特殊情況:中截詞fib?r2.4.4限制檢索為了確定檢索詞在數(shù)據庫記錄中出現(xiàn)的字段位置,可采用字段限制查找的范圍。常用的字段代碼有標題〔TI〕、文摘〔AB〕、作者〔AU〕、語種〔LA〕、刊名〔JN〕等。限制檢索在光盤數(shù)據庫中普通用前、后綴表示,在網絡數(shù)據庫中普通運用下拉菜單進展選擇限制。2.4.5信息檢索方法及技術運用實例檢索課題:相變儲能纖維的制備1.信息需求分析〔1〕明確檢索目的與要求1〕檢索目的:學位論文開題查新2〕檢索要求:國內外相變儲能纖維的制備的相關信息?!?〕進展主題分析,確定主題范圍。根據檢索目的與要求,該課題涉及的主題范圍重點為:相變儲能纖維、制備。

2.制定檢索戰(zhàn)略〔1〕選擇檢索詞:相變資料—phasechangematerial相變纖維—phasechangefibers微膠囊化—microencapsulation制備—preparation〔2〕運用相關檢索技術構造提問式式1:〔相變資料or相變纖維〕and〔原位微膠囊化or微膠囊化〕and制備式2:phasechangematerialandmicroencapsulation式3:phasechangefibersandmicroencapsulation式4:phasechangematerialandpreparation式5:phasechangefibersandpreparation式6:phasechangematerial*andmicroencapsulation式7:phasechangefib?r*andmicroencapsulatio

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論