![[研究生入學考試]武漢大學 信息管理學基礎 考研 6 信息檢索理論課程_第1頁](http://file4.renrendoc.com/view/2e90e0378065b672869385a3d0264d11/2e90e0378065b672869385a3d0264d111.gif)
![[研究生入學考試]武漢大學 信息管理學基礎 考研 6 信息檢索理論課程_第2頁](http://file4.renrendoc.com/view/2e90e0378065b672869385a3d0264d11/2e90e0378065b672869385a3d0264d112.gif)
![[研究生入學考試]武漢大學 信息管理學基礎 考研 6 信息檢索理論課程_第3頁](http://file4.renrendoc.com/view/2e90e0378065b672869385a3d0264d11/2e90e0378065b672869385a3d0264d113.gif)
![[研究生入學考試]武漢大學 信息管理學基礎 考研 6 信息檢索理論課程_第4頁](http://file4.renrendoc.com/view/2e90e0378065b672869385a3d0264d11/2e90e0378065b672869385a3d0264d114.gif)
![[研究生入學考試]武漢大學 信息管理學基礎 考研 6 信息檢索理論課程_第5頁](http://file4.renrendoc.com/view/2e90e0378065b672869385a3d0264d11/2e90e0378065b672869385a3d0264d115.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、信 息 檢 索1圖6.1 信息檢索系統(tǒng)的體系結構 潛在的相關信息信息組織和檢索系統(tǒng)規(guī)范化的疑問式信息的組織概述的存貯比較/匹配索引(描述性的、受限制的)游戲規(guī)則主題索引規(guī)則辭典(包括詞匯表和索引語言)需求概述或疑問式信息或數(shù)據(jù)檢索流程組織流程存貯1:概述/搜索請求存貯2:信息的表示1、 信息檢索的基本原理2關于相關性 Saracevic認為,一個研究領域的歷史實則上就是一些重要思想和理念的歷史。Information science自產生至20世紀90年代末期,孕育了三個重要的思想:信息檢索、相關性和交互性。信息檢索為信息處理過程提供了邏輯基礎;相關性直接面向人類信息需求與評價過程;交互促成了
2、人機之間的交流與反饋。3 信息檢索的核心是用戶查詢行為與信息之間的相似性匹配。相關性是查尋表達式與文檔內容的一致性,亦即文檔所涵蓋的內容對查尋表達式的適合程度。 這一定義實際上包含3個基本假設: 查尋表達式中的主題詞能夠描述用戶真實的信息需求; 賦予文檔的主題詞足以概括文檔包含的內容; 檢索匹配的結果恰為用戶真實的情報需求相關的文檔集合。 關于相關性4關于相關性5四個階段 手工信息檢索階段 機械信息檢索階段 計算機信息檢索階段網絡信息檢索階段2、信息檢索的發(fā)展歷程6手工信息檢索階段 正規(guī)的參考咨詢工作是由美國的公共圖書館和大專院校圖書館于19世紀下半葉首先發(fā)展起來的?!皡⒖甲稍児ぷ鳌碑a生的標志
3、是1876年召開的美國圖書館協(xié)會第一屆大會。1883年,波士頓公共圖書館首次設置了專職參考館員和參考閱覽室;20世紀初,多數(shù)圖書館成立了參考咨詢部門,主要利用圖書館的書目工具來幫助讀者查找圖書、期刊或現(xiàn)成答案。逐漸發(fā)展到從多種文獻源中查找、分析、評價和重新組織信息;“索引”突破了以前的狹隘范疇,成為獨立的檢索工具;40年代進一步包括回答事實性咨詢,編制書目、文摘,進行專題文獻檢索,提供文獻代譯等。“信息檢索”從此成為一項獨立的用戶服務工作,并逐漸從單純的經驗工作向專業(yè)化方向發(fā)展。 7機械信息檢索兩種基本類型機電信息檢索系統(tǒng)光電信息檢索系統(tǒng) 機械信息檢索并沒有發(fā)展信息檢索語言,只是采用單一的方法
4、對固定的存貯形式進行檢索,而且過分依賴于設備,檢索復雜,成本較高,檢索效率和質量都不理想。 機械信息檢索階段 8計算機信息檢索系統(tǒng)三個階段:1971年以前建立的信息檢索系統(tǒng),是傳統(tǒng)的批處理檢索方式。 1971年以后,產生并發(fā)展的聯(lián)機信息檢索系統(tǒng),如OCLC、Dialog在線數(shù)據(jù)庫聯(lián)機檢索系統(tǒng)。 20世紀90年代以來,產生并發(fā)展的網絡信息檢索階段。 9網絡信息檢索: 以互聯(lián)網的出現(xiàn)為標志,信息資源分布無序,難于規(guī)范化和結構化,用戶界面要求高,體系結構從終端主機方式發(fā)展到客戶/服務器結構方式 搜索引擎、網絡數(shù)據(jù)庫等為代表103、信息檢索技術 信息檢索是一個具有濃重技術性色彩的研究領域,其技術經歷了
5、快速而巨大的演變和進步:檢索對象:結構化書目信息無結構化或半結構化全文文本多媒體信息信息組織方式:傳統(tǒng)的線性文本組織超文本/超媒體組織檢索匹配技術:關鍵詞(字面)匹配基于概念匹配概念語義匹配與推理檢索方式:手工檢索計算機化聯(lián)機實時網絡檢索環(huán)境:單機網絡平臺,集中網絡分布式網絡113.1 定性檢索技術 定性檢索技術主要指以布爾檢索為基礎和核心,包含截詞檢索、位置檢索、字段檢索等在內的一類檢索技術。 定性檢索技術主要建立并實現(xiàn)在經典的布爾邏輯模型理論基礎上,不僅適用于傳統(tǒng)的文本信息檢索,而且在當前的非文本檢索領域,也有較為廣泛的應用123.1 定性檢索技術3.1.1 布爾檢索布爾邏輯運算符: 與(
6、and / *)、或(or / +)、非(not / -)A and B(A*B): 同時含有A、B這兩個檢索詞才能被命中A or B(AB): 只要含有其中一個檢索詞或同時含有兩個檢索詞都將被命中A not B(AB): 含有檢索詞A但不含有檢索詞B才能被命中133.1 定性檢索技術3.1.2 截詞檢索 在檢索時使用詞的一個局部(某些位置上的字符被截去)進行檢索匹配。需要使用專門的截詞符,以制定截詞的具體位置和截斷字符的數(shù)量 右截詞:comput* 左截詞:*magnetic 中間截詞:sul?ur141516173.1 定性檢索技術3.1.3 位置檢索 位置檢索是一種增強的“邏輯與”檢索。
7、按照各檢索詞之間應滿足的位置關系要求的不同,可以有多種不同類型的位置檢索鄰近檢索: (nW),n是125之間的整數(shù) 中國(5W)大學同句檢索、同字段檢索:要求多個檢索詞在同一自然段或同一字段中出現(xiàn)183.1 定性檢索技術3.1.4 字段檢索 字段檢索屬于限制檢索技術的一種,目的是為了提 高查準率 例如:標題、關鍵詞、文摘、分類號、作者、發(fā)表 時間等193.2 量化檢索技術聚類檢索 主要基于文獻聚類文檔來進行,針對系統(tǒng)中全部文獻向量,使用一定的相似性(或相異性)度量指標聚類方法,計算出文獻與文獻之間的相似度,并把相似度較高的文獻聚集在一起,生成文獻的聚類文檔 進行聚類檢索時,首先將用戶的檢索問題
8、形成為與文獻向量等長的提問向量;然后將提問向量與聚類文檔中各文獻類的類向量進行相似度計算,確定與提問最相關的文獻類;最后,在最相關的文獻類中,將提問向量與其包含的文獻逐篇比較匹配,將相似度大于閾值的文獻排序輸出20212223243.3 概念檢索技術 概念檢索指的是檢索結果可能包含與檢索詞同義或近義的內容,但不一定包含檢索詞。 如:輸入“電腦”,結果: 輸入“西紅柿”,結果: 概念檢索的基礎是檢索系統(tǒng)有一個包含同義詞、近義詞、廣義詞、狹義詞和相關詞等語義關系的詞庫25 信息檢索策略是指在分析信息提問實質的基礎上,確定檢索途徑與檢索用詞,并且明確詞與詞之間邏輯關系與查找步驟的科學安排 檢索策略考
9、慮的主要有兩個因素: 查全率 查準率4 信息檢索策略26 信息檢索策略是指在分析信息提問實質的基礎上,確定檢索途徑與檢索用詞,并且明確詞與詞之間邏輯關系與查找步驟的科學安排 檢索策略考慮的主要有兩個因素: 查全率 查準率5 檢索效果評價27檢索效率是指全、準、快、便、省(檢全率、檢準率、檢索速度、檢索方便性、檢索成本與效益),最主要的是全和準。在評價信息檢索效率過程中,主要通過查全率、查準率、漏檢率和誤檢率四個評價指標進行評價,其中重點是查全率和查準率。 5 信息檢索效率的評價28查全率是指系統(tǒng)在進行某一檢索時,檢出的相關文獻量與系統(tǒng)文獻庫中相關文獻總量的比率,它反映該系統(tǒng)文獻庫中實有的相關文
10、獻量在多大程度上被檢索出來查全率(檢出的相關文獻量/文獻庫內相關文獻總量)1005 信息檢索效率的評價29影響查全率的因素信息收集和加工的角度來看,包括:文獻庫收錄文獻不全;索引詞匯缺乏控制和專指性;詞表結構不完整;詞間關系模糊或不正確;標引不詳;標引前后不一致;標引人員遺漏了原文的重要概念或用詞不當從檢索方面來看,包括:檢索策略過于簡單;選詞和進行邏輯組配不當;檢索途徑和方法太少;檢索系統(tǒng)不具備截詞功能和反饋功能,檢索時不能全面描述檢索要求等5 信息檢索效率的評價30查準率是指系統(tǒng)在進行某一檢索時,檢出的相關文獻量與檢出的文獻總量的比率,它反映該系統(tǒng)文獻庫中實際檢出的全部文獻中有多少是相關的
11、 查準率(檢出的相關文獻量/檢出文獻總量)1005 信息檢索效率的評價31影響查準率的因素信息收集和加工的角度來看,包括:索引詞不能準確描述文獻主題和檢索要求;組配規(guī)則不嚴密;選詞及詞間關系不正確;標引過于詳盡;組配錯誤從檢索方面來看,包括:檢索詞專指度不夠,檢索面寬于檢索要求;檢索系統(tǒng)不具備邏輯“非”功能和反饋功能;檢索式中允許容納的詞數(shù)量有限;截詞部位不當,檢索式中使用邏輯“或”不當?shù)? 信息檢索效率的評價32圖6.2 檢全率與檢準率的互逆相互曲線 1008040601008040202060檢全率 R檢準率 P336.1 搜索引擎的發(fā)展階段第一代:根據(jù)詞頻搜索的原理開發(fā)第二代: “超鏈分
12、析”技術第三代:以競價排名商業(yè)模式為特征下一代:社區(qū)化搜索 “知識共享社區(qū)搜索引擎”6 搜索引擎346.2 搜索引擎技術網絡信息自動采集技術:robot/spider搜索結果排序技術 基于web網頁內容特征 基于網頁鏈接結構 基于用戶信息需求與需求行為 基于關鍵詞競價排名6 搜索引擎35 主要考慮用戶所查詢的關鍵詞在結果網頁中的出現(xiàn)頻率和出現(xiàn)位置等因素,并以此來評價命中網頁與用戶查詢請求之間的相關度大小,作為排序依據(jù)基于web內容特征的排序技術網頁關鍵詞的出現(xiàn)位置排序權重第一、第二標題5第一段的第一句話5相近關鍵詞(多重關鍵詞)4句首關鍵詞1.5以黑體或斜體出現(xiàn)的關鍵詞1文章內容1主題屬性1高
13、亮標簽0.5描述標記0.5關鍵詞標記0.0536 最早出現(xiàn)在1998年,主要根據(jù)網頁被鏈接或被引用的情況來判斷頁面信息的權威性和質量,以此來優(yōu)化對搜索結果的排序,如Google中的PageRank算法基于網頁鏈接結構的排序技術3738 搜索引擎通過將關鍵詞拍賣,讓網站或網頁所有者對其價格進行競爭的辦法來產生搜索結果的排序基于關鍵詞競價的排名396.3 元搜索引擎 元搜索引擎(metasearch engine)是將用戶提交的檢索請求到多個獨立的搜索引擎上去搜索,并將檢索結果集中統(tǒng)一處理,以統(tǒng)一的格式提供給用戶,因此有搜索引擎之上的搜索引擎之稱。它的主要精力放在提高搜索速度、智能化處理搜索結果、
14、個性搜索功能的設置和用戶檢索界面的友好性上,查全率和查準率都比較高。目前比較成功的元搜索引擎有metacrawler、dopile、ixquick等。406.3 元搜索引擎 成員搜索引擎的選擇 提問式轉換 結果信息的選擇與融合 檢索結果的整合 去重,重新排序,結果聚類顯示41424344 Grasps the meaning of your content AdSense can deliver relevant ads because Google understands the meaning of a web page. Weve refined our technology, and
15、it keeps getting smarter all the time. For example, words can have several different meanings, depending on context. Google technology grasps these distinctions, so you get more targeted ads. 4546 Show only appropriate ads Googles ad review process ensures that the ads you serve are not only family-
16、friendly, but also comply with our strict editorial guidelines. We combine sensitive language filters, your input, and a team of linguists with good hard common sense to automatically filter out ads that may be inappropriate for your content. Whats more, you can block competitive ads and choose your own default ads. Its your show from start to finish. 47Competitive FilterEnables you to filter out specific competitorsor specific advertisers Contextual FilterEliminate delivery of ads
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 提高班級工作效率的實踐經驗計劃
- 期貨合約交易策略優(yōu)化考核試卷
- 私人房屋 合同范本
- 保險理賠部工作總結與患者投訴處理計劃
- 幕墻的合同范本
- 征兵體檢合同范本
- 科技產業(yè)未來趨勢與投資方向
- 修建護欄合同范本
- 小班環(huán)保知識宣傳與實踐計劃
- 如何進行市場需求分析計劃
- 精雕JDPaint快捷鍵大全
- 燈泡貫流式機組基本知識培訓ppt課件
- 小學數(shù)學四年級下冊培優(yōu)補差記錄
- 人教版三年級下冊體育與健康教案(全冊教學設計)
- DB61∕T 5006-2021 人民防空工程標識標準
- 土壤學習題與答案
- 產品結構設計(課堂PPT)
- 第九課_靜止的生命
- 尖尖的東西我不碰(課堂PPT)
- 工程勘察和設計承攬業(yè)務的范圍
- 數(shù)字化影像與PACS教學大綱
評論
0/150
提交評論