




版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、信息管理學信息管理學 王二威2022年4月13日第二部分:信息資源采集利用第二部分:信息資源采集利用第4章 信息獲取第5章 信息組織第6章 信息檢索案例:專利信息的采集與利用6.1 概述 信息組織信息組織是指按照一定的規(guī)則來描述信息資源是指按照一定的規(guī)則來描述信息資源 或信息對象,以便于能被需要它們的人高效地或信息對象,以便于能被需要它們的人高效地利用。利用。 信息檢索信息檢索則是指為了個人或他人的需要,去發(fā)則是指為了個人或他人的需要,去發(fā)現(xiàn)適當?shù)男畔①Y源或信息對象?,F(xiàn)適當?shù)男畔①Y源或信息對象。 信息組織和信息檢索是信息組織和信息檢索是一對互逆過程一對互逆過程。 什么是信息檢索 信息檢索(信息
2、檢索(Information Retrieval,IR)就是從數(shù)據(jù)源中)就是從數(shù)據(jù)源中找到滿足需求的信息的過程。找到滿足需求的信息的過程。 傳統(tǒng)信息檢索傳統(tǒng)信息檢索v根據(jù)筆畫從字典中查找某字的讀音和意思根據(jù)筆畫從字典中查找某字的讀音和意思v從三國演義中查找貂蟬出場的章節(jié)和地點從三國演義中查找貂蟬出場的章節(jié)和地點v從概率論中查找貝葉斯公式等等從概率論中查找貝葉斯公式等等 電子信息電子信息時代時代 的信息檢索的信息檢索v從手機通信錄中查找某條短信v從電子詞典中查找某單詞的例句v從某個網(wǎng)頁中查找某關鍵字出現(xiàn)的地方v從數(shù)據(jù)庫中查詢滿足檢索條件的記錄v本書重點要討論的信息檢索: 信息檢索是信息用戶為處理
3、解決各種問題而查信息檢索是信息用戶為處理解決各種問題而查找、識別、獲取相關的事實、數(shù)據(jù)、知識的活找、識別、獲取相關的事實、數(shù)據(jù)、知識的活動及過程。動及過程。 廣義:信息的存儲與檢索廣義:信息的存儲與檢索 狹義:檢索狹義:檢索 本質:用戶的信息需求與一定信息集合的匹配本質:用戶的信息需求與一定信息集合的匹配,潛在的相關信息是信息檢索系統(tǒng)輸出的結果,潛在的相關信息是信息檢索系統(tǒng)輸出的結果。6.1 概述 滿足信息用戶的信息需求而建立的、存貯經過滿足信息用戶的信息需求而建立的、存貯經過加工了的信息集合,擁有特定的存貯、檢索與加工了的信息集合,擁有特定的存貯、檢索與傳送的技術裝備,提供一定存貯與檢索方法
4、及傳送的技術裝備,提供一定存貯與檢索方法及檢索服務功能的一種相對獨立的服務實體檢索服務功能的一種相對獨立的服務實體(包包括人和檢索工作單位括人和檢索工作單位),統(tǒng)稱為信息檢索系統(tǒng),統(tǒng)稱為信息檢索系統(tǒng)(Information Retrieval System,簡稱簡稱IRS)。 信息檢索系統(tǒng)的三個基本要素信息檢索系統(tǒng)的三個基本要素:人、檢索工具人、檢索工具(包括設備包括設備)和信息資料和信息資料圖圖6.1 6.1 信息檢索系統(tǒng)的體系結構信息檢索系統(tǒng)的體系結構 潛在的相關信息信息組織和檢索系統(tǒng)規(guī)范化的疑問式信息的組織概述的存貯比較/匹配索引(描述性的、受限制的)游戲規(guī)則主題索引規(guī)則辭典(包括詞匯表
5、和索引語言)需求概述或疑問式信息或數(shù)據(jù)檢索流程組織流程存貯1:概述/搜索請求存貯2:信息的表示 6.1.2 類型類型 文獻檢索文獻檢索 數(shù)據(jù)檢索:比較分析、定量分析數(shù)據(jù)檢索:比較分析、定量分析 事實檢索事實檢索 文本檢索文本檢索 數(shù)值檢索數(shù)值檢索 音視頻檢索音視頻檢索 1.文獻信息檢索(文獻信息檢索(Document Retrieval) 利用二次信息查找事物的信息及信息出處,檢索結果是文獻信息。“設計人行天橋的參考文獻有哪些?” 2.數(shù)據(jù)信息檢索(數(shù)據(jù)信息檢索(Data Retrieval) 利用檢索工具(工具書、數(shù)據(jù)庫)檢索文獻中的數(shù)據(jù)、公式等。檢索結果是數(shù)據(jù), 23456韓元=?$ 3.
6、事實信息檢索(事實信息檢索(Fact Retrieval) 利用檢索工具從存儲事實的信息系統(tǒng)中查找出特定的事實。檢索結果是事實,“中國最古老的橋?”6.1 概述 6.1.2 類型類型 全文檢索全文檢索 多媒體檢索多媒體檢索 超媒體檢索超媒體檢索檢索對象:從文本到多媒體檢索 信息檢索的應用包含了帶有結構的多媒體文檔、有意義的文本內容和其他媒體 常見的信息媒體包括圖片、視頻、音頻(包括音樂和語音) 當前搜索非文本文檔的技術依賴于對這些內容的文本描述,而不是這些媒體自身的內容。對媒體內容的直接比較技術正在不斷進步,例如圖片的比較 TinEye 相似圖片搜索引擎(加拿大)相似圖片搜索引擎(加拿大) 過
7、濾:顏色、模式、形狀、過濾:顏色、模式、形狀、face 人立方:人物關系搜索引擎人立方:人物關系搜索引擎 R 關系可能性關系可能性 六度分割理論六度分割理論 搜索華爾茲。搜索華爾茲。按照規(guī)模分類 第一個級別是以 Web 搜索(搜索(web search)為代表的大規(guī)模級別,此時需要處理存儲在數(shù)百萬臺計算機上的數(shù)十億篇文檔:v如何采集到這種規(guī)模的文檔?v如何在這種大規(guī)模數(shù)據(jù)量的情況下建立高效運行的系統(tǒng)?v如何應對Web 特性所帶來的特殊問題(比如欺騙)? 第二個級別是小規(guī)模,第二個級別是小規(guī)模,個人信息檢索個人信息檢索(personal information retrieval):v操作系統(tǒng)中
8、已經融合操作系統(tǒng)中已經融合的的信息檢索的功能信息檢索的功能v桌面搜索桌面搜索(desktop search)v郵件程序中郵件程序中的的搜索功能搜索功能、分類分類 問題:問題:v如何處理個人計算機上各種格式的文檔?如何處理個人計算機上各種格式的文檔?v如何保證搜索系統(tǒng)的免維護?如何保證搜索系統(tǒng)的免維護?v如何在啟動搜索系統(tǒng)、處理信息和使用磁盤時保持簡單且占如何在啟動搜索系統(tǒng)、處理信息和使用磁盤時保持簡單且占用的系統(tǒng)資源足夠少而不至于對用戶的正常工作造成影響?用的系統(tǒng)資源足夠少而不至于對用戶的正常工作造成影響? 介于第一種大規(guī)模和第二種小規(guī)模之間的信息檢索主要面對的是中等規(guī)模的數(shù)據(jù),包括面向企業(yè)、
9、機構和特定領域的搜索(domain-specific search):v公司內部文檔v專利庫或生物醫(yī)學文獻v學術論文的搜索 這種情況下,文檔往往存儲在集中的文件系統(tǒng)中,由一臺或者多臺計算機提供搜索服務標引標引檢索檢索輸出輸出存儲存儲過程過程一次一次信息信息信息信息特征特征檢檢索索語語言言信息特信息特征標識征標識信信息息檢檢索索工工具具檢檢索索結結果果檢索檢索過程過程檢索檢索課題課題檢索檢索提問提問檢索提檢索提問標識問標識分析分析分析分析標引標引輸入輸入信息檢索原理信息檢索原理信息資源集合信息資源集合信息需求集合信息需求集合匹配匹配6.1.4 信息檢索的模型 20世紀世紀60-70年代年代v布爾
10、模型布爾模型v向量空間模型向量空間模型v概率模型概率模型v模糊檢索模型模糊檢索模型 20世紀世紀90年代后年代后v搜索引擎搜索引擎 商業(yè)性文獻數(shù)據(jù)庫的主流模型商業(yè)性文獻數(shù)據(jù)庫的主流模型 與查詢條件相關或無關與查詢條件相關或無關 查詢結果不進行排序查詢結果不進行排序 計算事物之間相似度的通用方法計算事物之間相似度的通用方法 多維空間,向量相似度多維空間,向量相似度 查詢向量查詢向量 文檔向量文檔向量 相似性相似性6.2 信息檢索的發(fā)展歷程 四個階段 手工信息檢索階段 機械信息檢索階段 計算機信息檢索階段 網(wǎng)絡信息檢索階段6.2 信息檢索的發(fā)展歷程 手工階段 正規(guī)的參考咨詢工作是由美國的公共圖書館
11、和大專院校圖書館于19世紀下半葉首先發(fā)展起來的?!皡⒖甲稍児ぷ鳌碑a生的標志是1876年召開的美國圖書館協(xié)會第一屆大會。1883年,波士頓公共圖書館首次設置了專職參考館員和參考閱覽室; 20世紀初,多數(shù)圖書館成立了參考咨詢部門,主要利用圖書館的書目工具來幫助讀者查找圖書、期刊或現(xiàn)成答案。逐漸發(fā)展到從多種文獻源中查找、分析、評價和重新組織信息;“索引”突破了以前的狹隘范疇,成為獨立的檢索工具; 40年代進一步包括回答事實性咨詢,編制書目、文摘,進行專題文獻檢索,提供文獻代譯等?!靶畔z索”從此成為一項獨立的用戶服務工作,并逐漸從單純的經驗工作向專業(yè)化方向發(fā)展。 6.2 信息檢索的發(fā)展歷程 機械檢索
12、階段 機械信息檢索兩種基本類型v機電信息檢索系統(tǒng)v光電信息檢索系統(tǒng) 機械信息檢索并沒有發(fā)展信息檢索語言,只是采用單一的方法對固定的存貯形式進行檢索,而且過分依賴于設備,檢索復雜,成本較高,檢索效率和質量都不理想。 6.2 信息檢索的發(fā)展歷程 計算機檢索階段 1971年以前建立的信息檢索系統(tǒng),是傳統(tǒng)的批處理檢索方式。 1971年以后,產生并發(fā)展的聯(lián)機信息檢索系統(tǒng),如OCLC、Dialog在線數(shù)據(jù)庫聯(lián)機檢索系統(tǒng)。 20世紀90年代以來,產生并發(fā)展的網(wǎng)絡信息檢索階段。 機讀數(shù)據(jù)庫成為檢索對象; 專業(yè)檢索向個人終端轉移。搜索引擎的鼻祖:Archie 1990年由Montreal的McGill Univ
13、ersity(麥吉爾大學)學生Alan Emtage、Peter Deutsch、Bill Wheelan發(fā)明的Archie(Archie FAQ) 實際上是一個可搜索的FTP文件名列表現(xiàn)代搜索引擎的起源:Wanderer 1993年MIT 的學生Matthew Gray開發(fā)了World Wide Web Wanderer,它是世界上第一個利用網(wǎng)頁之間的鏈接關系來監(jiān)測Web發(fā)展規(guī)模的機器人(Robot)程序。 最開始只是用來統(tǒng)計互聯(lián)網(wǎng)上的服務器數(shù)量,之后發(fā)展為也能捕獲網(wǎng)址。Yahoo 1994.4美籍華人Jerry Yang(楊致遠)和David Filo完成了一套搜索軟件。 最初Yahoo的
14、數(shù)據(jù)是手工輸入的,實際上只是一個可搜索的目錄。 1995年1月,正式成立Yahoo網(wǎng)站 第一個現(xiàn)代意義上的搜索引擎:Lycos 1994.7 Carnegie Mellon University 的Michael Mauldin 將 John Leavitt的蜘蛛程序接入到其索引程序中,創(chuàng)建了Lycos. 提供了前綴匹配和字符相近限制、網(wǎng)頁自動摘要、數(shù)據(jù)量相對較大。Infoseek 1994年底,Infoseek推出,沿襲Yahoo!和Lycos的概念。 友善的用戶界面、大量附加服務使其后來者居上。 1995.12與Netscape的戰(zhàn)略性協(xié)議使它變得很強勢 2001年2月,Infoseek改
15、用Overture的搜索結果第一個元搜索引擎: Metacrawler 元搜索引擎(A Meta Search Engine Roundup)。v用戶提交搜索后,由元搜索引擎負責轉換處理后提交給多個預先選定的獨立搜索引擎,并將從各獨立搜索引擎返回的所有查詢結果,集中起來處理后再返回給用戶。 第一個元搜索引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni開發(fā)的 Metacrawler(1995)。第一個支持自然語言搜索的搜索引擎: AltaVista 1995年12月出現(xiàn)(AltaVista Public Beta Press Release )。 A
16、ltaVista是第一個支持自然語言搜索的搜索引擎。 2003年AltaVista被Overture收購,后者是Yahoo的子公司。搜索引擎的后來之王:Google 1995年,佩奇來到斯坦福讀博士,開始網(wǎng)絡鏈接結構方面的研究項目BackRub。 之后,他和布林提出了PageRank技術,用于對網(wǎng)頁評級 之后用于搜索引擎,改寫了搜索引擎的定義,建立了Google。搜索引擎的后來之王:Google Google在斯坦福引起了人們的關注。 佩奇開始準備出售該技術,但是沒有成功。 Sun公司創(chuàng)始人的投資,隨后成立公司。 2000年和Yahoo合作,一飛沖天。 2004年7月上市,市值250億,增長速
17、度超過微軟。Google之特點 專注、進取、樸素、低調、神話般的創(chuàng)業(yè)故事中文搜索引擎老大:百度 2000.1李彥宏創(chuàng)立了百度。 2001.8發(fā)布百度測試版。 目前是最大的中文搜索引擎 MP3搜索特色百度的特點 專注于技術專注于技術 專注于中文搜索專注于中文搜索6.3 檢索工具檢索工具一、檢索工具定義一、檢索工具定義 1. 用來揭示、存儲和查找信息的工具用來揭示、存儲和查找信息的工具 主要指手工檢索工具主要指手工檢索工具2. 檢索系統(tǒng):檢索系統(tǒng): 檢索設備檢索設備+ +載體載體+ +信息構成的信息服務系統(tǒng)信息構成的信息服務系統(tǒng)6.3 檢索工具檢索工具二、檢索工具類型二、檢索工具類型 l 目錄目錄
18、(Catalogue)1.綜合性目錄: 2.專題目錄: 3.館藏目錄: 4.聯(lián)合目錄: l目錄款目以各學科門類的圖書或報刊文獻為揭示對象的目錄,如中國期刊目錄揭示與報道某一特定學科、某一研究方向或課題的圖書報刊文獻目錄揭示一個圖書情報機構收藏圖書報刊情況的目錄,如:上海圖書館館藏中文報紙目錄揭示地區(qū)、系統(tǒng)或全國的圖書文獻機構文獻收藏情況的目錄,如全國中文期刊聯(lián)合目錄U464.176WPL 汽車風冷發(fā)動機的構造原理 / 王平利,張虹主編. 2版.北京:高等教育出版社,2004.1 242頁:插圖;16開 ISBN 7-04-012789-X:22元館藏目錄款目格式館藏目錄款目格式6.3 檢索工具
19、檢索工具二、檢索工具類型二、檢索工具類型 l 索引索引(Index) Ewen-Smith, B. M. 23777 Ewing, M. 20974, 20976 Excell, P. S. 22613 Ezekiel, S. 01352 Faber, M. T. 20820 Fabjan, C. W. 05177 索引款目著錄格式索引款目著錄格式6.3 檢索工具檢索工具二、檢索工具類型二、檢索工具類型 l文摘文摘(Abstract) 對一份文獻的內容所進行的簡略而準確的描述,即內容摘要目錄目錄反映文獻的外部特征文摘文摘反映文獻的內部特征 提供文獻內容梗概,不加評論和補充解釋,4個要素: 研究
20、目的、方法、結研究目的、方法、結果、結論果、結論6.3 檢索工具檢索工具二、檢索工具類型二、檢索工具類型 分類法主題法科學文摘 化學文摘 新華文摘是人民出版社主辦的是一個大型的綜合性、學術性、資料性的文摘半月刊,其選登文章代表了諸領域的前沿思想。 1979年,在時任人民出版社副社長范用的大力支持下,新華月報文摘版創(chuàng)刊,1981年更名為新華文摘,2004年改版為半月刊,1999年1月起出版大字本新華文摘。 中國人民大學 復印報刊資料 該庫收錄從95年至今100多個專題的全文復印資料,所有全文都是由100多位專家、教授從國內公開出版的3000余種核心報刊中精選出來的,其門類覆蓋了全部社會科學和人文
21、科學領域,能夠代表學科研究前沿狀況,具有很高的學術價值和應用價值,為用戶所認可的優(yōu)秀數(shù)據(jù)庫。前情回顧 信息檢索:信息檢索:用戶的信息需求與一定信息集合的匹配,用戶的信息需求與一定信息集合的匹配,潛在的相關信息是信息檢索系統(tǒng)輸出的結果潛在的相關信息是信息檢索系統(tǒng)輸出的結果 滿足信息用戶的信息需求而建立的、存貯經過加工了滿足信息用戶的信息需求而建立的、存貯經過加工了的信息集合,擁有特定的存貯、檢索與傳送的技術裝的信息集合,擁有特定的存貯、檢索與傳送的技術裝備,提供一定存貯與檢索方法及檢索服務功能的一種備,提供一定存貯與檢索方法及檢索服務功能的一種相對獨立的服務實體相對獨立的服務實體(包括人和檢索工
22、作單位包括人和檢索工作單位),統(tǒng)稱為,統(tǒng)稱為信息檢索系統(tǒng)信息檢索系統(tǒng)(Information Retrieval System,簡稱簡稱IRS)。圖圖6.1 6.1 信息檢索系統(tǒng)的體系結構信息檢索系統(tǒng)的體系結構 潛在的相關信息信息組織和檢索系統(tǒng)規(guī)范化的疑問式信息的組織概述的存貯比較/匹配索引(描述性的、受限制的)游戲規(guī)則主題索引規(guī)則辭典(包括詞匯表和索引語言)需求概述或疑問式信息或數(shù)據(jù)檢索流程組織流程存貯1:概述/搜索請求存貯2:信息的表示6.3 檢索工具檢索工具二、檢索工具類型二、檢索工具類型 分類法主題法科學文摘 化學文摘信息檢索系統(tǒng)6.4 信息檢索的步驟與策略 分析檢索課題 選擇檢索工具
23、 選擇檢索途徑,確定檢索標識 選擇檢索方法 獲取原始文獻6.4 信息檢索的步驟與策略 分析檢索課題v1.分析主題內容: 學科范圍,關鍵問題;決定主題詞和關鍵詞v2.分析時間范圍: 最新進展/專利-近/遠v3.分析信息類型: 期刊/專著/會議論文/專利/標準文獻/科技報告6.4 信息檢索的步驟與策略 選擇檢索工具 選擇檢索途徑,確定檢索標識v1.選擇檢索途徑v分類途徑;主題途徑;題名途徑;著者途徑;信息代碼途徑v2. 確定檢索標識v1) 采用主題詞做檢索標識時,應考慮該詞的同義詞,近義詞,如互聯(lián)網(wǎng)/英特網(wǎng)v2) 根據(jù)檢索課題要求,選取恰當?shù)臋z索標識,適度確定其范圍的大小信息檢索步驟信息檢索步驟分
24、析檢索課題分析檢索課題1.主題內容2.時間范圍3.信息類型4.檢索語種主主題題概概念念確定檢索途徑確定檢索途徑1.分類途徑2.主題途徑3.題名途徑4.著者途徑5.其它途徑選擇檢索方法選擇檢索方法1.常規(guī)法2.追溯法3.交替法信信息息線線索索確定一次信息出處確定一次信息出處1.縮寫還原為全稱2.音譯轉換成原名3.信息類型選擇檢索工具選擇檢索工具1.館藏目錄2.圖書館信息檢索系統(tǒng)獲獲取取一一次次信信息息選擇檢索工具選擇檢索工具1.索引2.文摘 信息檢索策略信息檢索策略 信息檢索策略是針對檢索提問、運用檢索方法和技信息檢索策略是針對檢索提問、運用檢索方法和技術而設計的信息檢索方案,其目的是要達到一定
25、的術而設計的信息檢索方案,其目的是要達到一定的檢準率和檢全率檢準率和檢全率。 信息檢索策略信息檢索策略 目前在以下三方面取得進展: (1)以檢全為目標的檢索策略的調節(jié)與控制; (2)以檢準為目標的檢索策略的調節(jié)與控制; (3)以最小投入為目標的檢索策略的調節(jié)與控制。 對特定系統(tǒng)、特定數(shù)據(jù)以及某一類型課題的檢索策略的研究具體表現(xiàn)在以下兩方面: (1)是某一系統(tǒng)、某一數(shù)據(jù)庫檢索策略; (2)是某一類型課題檢索策略。信息檢索效率的評價 檢索效率是指全、準、快、便、省(檢全率、檢準率、檢索速度、檢索方便性、檢索成本與效益),最主要的是全和準。 在評價信息檢索效率過程中,主要通過檢全率、檢準率、漏檢率和
26、誤檢率四個評價指標進行評價,其中重點是檢全率和檢準率。 信息檢索效率的評價 檢全率R(Recall Ratio):檢出能力的指標v檢出相關文獻/相關文獻總量=a/(a+b) 檢準率P (Precision Ratio):檢索精度v檢出相關文獻/檢出文獻總量=a/(a+c)相關文獻相關文獻非相關文獻非相關文獻總計總計被檢出文獻被檢出文獻aca+c未檢出文獻未檢出文獻bdb+d總計總計a+bc+da+b+c+d信息檢索效率的評價 漏檢率O(Omission Ratio):檢出能力的指標v未檢出相關文獻/相關文獻總量=b/(a+b) 誤檢率E (Error Ratio)v檢出非相關文獻/檢出文獻總量
27、=c/(a+c)相關文獻相關文獻非相關文獻非相關文獻總計總計被檢出文獻被檢出文獻aca+c未檢出文獻未檢出文獻bdb+d總計總計a+bc+da+b+c+d6.5 搜索引擎 搜索引擎是信息檢索技術在大規(guī)模文本集合上搜索引擎是信息檢索技術在大規(guī)模文本集合上的實際應用。的實際應用。 “搜索引擎搜索引擎”一詞原來是指為文本搜索服務的一詞原來是指為文本搜索服務的特殊的硬件。特殊的硬件。 從從20世紀世紀80年代中期開始,在描述用來比較查年代中期開始,在描述用來比較查詢和文檔并生成文檔排序結果的軟件系統(tǒng)時,詢和文檔并生成文檔排序結果的軟件系統(tǒng)時,逐漸更多地使用逐漸更多地使用“搜索引擎搜索引擎”一詞,而不是
28、一詞,而不是“信息檢索系統(tǒng)信息檢索系統(tǒng)”或者或者“全文檢索系統(tǒng)全文檢索系統(tǒng)”。6.5 搜索引擎 網(wǎng)絡搜索引擎網(wǎng)絡搜索引擎,比如,比如Yahoo,必須能夠捕獲,或者說,必須能夠捕獲,或者說爬取爬取(crawl)TB級的數(shù)據(jù),并對每天收到的全世界數(shù)以級的數(shù)據(jù),并對每天收到的全世界數(shù)以百萬計的查詢提供亞秒級的響應時間。百萬計的查詢提供亞秒級的響應時間。 企業(yè)搜索引擎企業(yè)搜索引擎,比如,比如Autonomy,必須能夠處理一個公,必須能夠處理一個公司內部不同類型的信息源,使用與公司有關的特殊知司內部不同類型的信息源,使用與公司有關的特殊知識作為搜索和相關任務識作為搜索和相關任務(如數(shù)據(jù)挖掘如數(shù)據(jù)挖掘(d
29、ata mining)的一的一部分。數(shù)據(jù)挖掘指從數(shù)據(jù)中自動發(fā)現(xiàn)有趣的結構,也部分。數(shù)據(jù)挖掘指從數(shù)據(jù)中自動發(fā)現(xiàn)有趣的結構,也包括聚類包括聚類(clustering)技術。技術。 桌面搜索引擎桌面搜索引擎,比如,比如google和百度的桌面搜索引擎,和百度的桌面搜索引擎,必須能夠在人們制作和瀏覽新文檔、網(wǎng)頁和郵件時快必須能夠在人們制作和瀏覽新文檔、網(wǎng)頁和郵件時快速地合并,同時提供非常直觀的界面來搜索這些非常速地合并,同時提供非常直觀的界面來搜索這些非常異質的混合信息。異質的混合信息。6.5 搜索引擎 搜索引擎設計中的重要問題包括了信息檢索中搜索引擎設計中的重要問題包括了信息檢索中的各種問題:有效的
30、排序算法、評價及用戶交的各種問題:有效的排序算法、評價及用戶交互?;ァ?大規(guī)模數(shù)據(jù)給搜索引擎帶來了其他許多難題大規(guī)模數(shù)據(jù)給搜索引擎帶來了其他許多難題, 首要問題是搜索引擎的性能首要問題是搜索引擎的性能:v響應時間響應時間(response time)v查詢吞吐量查詢吞吐量(query throughput)v索引速度索引速度(indexing speed)。6.5 搜索引擎 搜索要處理動態(tài)持續(xù)變化的信息。另一個重要搜索要處理動態(tài)持續(xù)變化的信息。另一個重要的性能指標是把新數(shù)據(jù)合并到索引中的速度。的性能指標是把新數(shù)據(jù)合并到索引中的速度。v覆蓋率覆蓋率( coverage)衡量現(xiàn)存信息(比如在一衡量
31、現(xiàn)存信息(比如在一個企業(yè)信息環(huán)境中)有多少被索引和存儲在個企業(yè)信息環(huán)境中)有多少被索引和存儲在搜索引擎中。搜索引擎中。v新近性新近性(recency)或時新性或時新性(freshness)衡量所衡量所存信息的年齡存信息的年齡(age)。6.5 搜索引擎 Web搜索引擎搜索引擎v不僅在規(guī)模上史無前例,而且其創(chuàng)建過程中協(xié)調機制的缺乏也是空前的vWeb參與者的背景和動機的多樣性同樣也是空前的 以上的每一個因素都使得 Web 搜索有別于傳統(tǒng)的文檔搜索。6.5 搜索引擎 Web搜索引擎搜索引擎6.5 搜索引擎 Web搜索引擎搜索引擎Web 到底有多大? 到到 1995 年底,年底,Altavista聲稱
32、它采集并索引了大概聲稱它采集并索引了大概三千萬個靜態(tài)網(wǎng)頁。三千萬個靜態(tài)網(wǎng)頁。 動態(tài)頁面(動態(tài)頁面(dynamic page)通常是由應用服務器應)通常是由應用服務器應答數(shù)據(jù)庫的查詢需求時產生的。這種頁面的一個答數(shù)據(jù)庫的查詢需求時產生的。這種頁面的一個標志是標志是URL 中通常包含字符中通常包含字符“?”。 在在 1995 年時,由于大家相信每過幾個月靜態(tài)頁面年時,由于大家相信每過幾個月靜態(tài)頁面的數(shù)目就會翻番,所以早期的包括的數(shù)目就會翻番,所以早期的包括 Altavista 在內在內的的 Web 搜索引擎必須要經常增加硬件和帶寬來采搜索引擎必須要經常增加硬件和帶寬來采集和索引網(wǎng)頁。集和索引網(wǎng)頁。
33、Web圖 我們可以將整個靜態(tài)我們可以將整個靜態(tài) Web 看成是靜態(tài)看成是靜態(tài) HTML 網(wǎng)頁通過超網(wǎng)頁通過超鏈接互相連接而成的有向圖,鏈接互相連接而成的有向圖,其其中每個網(wǎng)頁是圖的頂點,中每個網(wǎng)頁是圖的頂點,而每個超鏈接則代表一個有向邊。而每個超鏈接則代表一個有向邊。 一個網(wǎng)頁的入鏈接數(shù)目被稱為這個網(wǎng)頁的入度(in-degree),在一系列研究中得到的。作弊網(wǎng)頁 Web 搜索引擎顯然是連接廣告商和顧客的一種重要途徑搜索引擎顯然是連接廣告商和顧客的一種重要途徑! 例如:例如:用戶在搜索用戶在搜索“Chicago golf real estate”時,他想時,他想做的不僅僅是搜索有關做的不僅僅是搜
34、索有關 Chicago的的高爾夫球場地產的新聞高爾夫球場地產的新聞或者娛樂信息,而且很可能要尋找并購買這樣的地產。或者娛樂信息,而且很可能要尋找并購買這樣的地產。: 即通過操作網(wǎng)頁內容即通過操作網(wǎng)頁內容來達到在某些關鍵詞的搜索結果中排名較高的目的。來達到在某些關鍵詞的搜索結果中排名較高的目的。 為了避免用戶對這些冗余和重復信息的極度反感,一些老為了避免用戶對這些冗余和重復信息的極度反感,一些老練的作弊者還會采用一些手段和技巧,比如將這些重復的練的作弊者還會采用一些手段和技巧,比如將這些重復的詞設置成和背景一樣的顏色。詞設置成和背景一樣的顏色。偽裝 作弊者也發(fā)展出了更多的作弊技術。一種技術被稱為
35、橋頁包含了精心挑選的文字和元信息,通過這些信息能夠針對某些選定的搜索關鍵詞來提高排名。當某個瀏覽器請求訪問橋頁時,它會重定向到一個更具商業(yè)性的網(wǎng)頁。 更復雜的作弊技術還包括及指向等?;啬夸?由于作弊的根源來自經濟利益的驅動,因此涌現(xiàn)了一個被稱為 ,搜索引擎優(yōu)化)的產業(yè)。 這些 SEO 能逐漸推斷出每個 Web 搜索引擎排名算法的特性,而搜索引擎公司則會不斷做出應對,他們之間的斗爭將永不停止。(adversarial information retrieval)。為了對抗作弊者通過操作網(wǎng)頁內容進行作弊的做法,人們開發(fā)出了一種利用 Web 中鏈接結構的被稱為的方法。 最早大規(guī)模使用鏈接分析方法的搜
36、索引擎是Google。6.5 搜索引擎 獨立搜素引擎獨立搜素引擎v搜索引擎的架構為搜索引擎提供組成部分并定義各搜索引擎的架構為搜索引擎提供組成部分并定義各個組件關系的高層描述。搜索引擎的兩個主要目標個組件關系的高層描述。搜索引擎的兩個主要目標是:是:- 效果:對于用戶的的查詢,返回最準確的相關性效果:對于用戶的的查詢,返回最準確的相關性排序文檔。排序文檔。- 效率:盡可能快速的返回滿足用戶的查詢的檢索效率:盡可能快速的返回滿足用戶的查詢的檢索結果。結果。v為了提供準確的效果,搜索引擎對網(wǎng)頁和日志等內為了提供準確的效果,搜索引擎對網(wǎng)頁和日志等內容進行深入的加工和處理;為了高效率的服務,搜容進行深
37、入的加工和處理;為了高效率的服務,搜索引擎采用特殊的數(shù)據(jù)結構和緩存技術索引擎采用特殊的數(shù)據(jù)結構和緩存技術. 元搜索引擎元搜索引擎6.5 搜索引擎索引組件6.5 搜索引擎查詢處理組件6.5 搜索引擎索引組件6.5 搜索引擎 文本采集組件用于發(fā)現(xiàn)文檔。文本采集組件用于發(fā)現(xiàn)文檔。 文本采集通常通過爬行(文本采集通常通過爬行(crawing),建立檢索的),建立檢索的文檔集合、元數(shù)據(jù)(文檔集合、元數(shù)據(jù)(metadata)庫。)庫。 元數(shù)據(jù)不表示文檔的文本內容,但是表示關于一元數(shù)據(jù)不表示文檔的文本內容,但是表示關于一篇文檔的信息。如文檔類型、文檔結構、來源、篇文檔的信息。如文檔類型、文檔結構、來源、日期
38、、長度等信息。日期、長度等信息。 爬蟲爬蟲 信息推送信息推送 文本轉換文本轉換 文檔數(shù)據(jù)庫文檔數(shù)據(jù)庫 6.5 搜索引擎 為快速生成摘要以及分析任務,有必要在搜索引為快速生成摘要以及分析任務,有必要在搜索引擎本地保存原始文檔的副本。擎本地保存原始文檔的副本。 文檔數(shù)據(jù)庫管理的數(shù)據(jù)包括非結構化的文檔內容文檔數(shù)據(jù)庫管理的數(shù)據(jù)包括非結構化的文檔內容和結構化的元數(shù)據(jù)。和結構化的元數(shù)據(jù)。 小規(guī)模的文檔集,可以采用關系數(shù)據(jù)庫存儲這些小規(guī)模的文檔集,可以采用關系數(shù)據(jù)庫存儲這些文檔和元數(shù)據(jù)。文檔和元數(shù)據(jù)。 大規(guī)模的場景中,通常采用專門設計的文檔數(shù)據(jù)大規(guī)模的場景中,通常采用專門設計的文檔數(shù)據(jù)庫,存儲大規(guī)模的文檔數(shù)
39、據(jù)庫,并提供高速的內庫,存儲大規(guī)模的文檔數(shù)據(jù)庫,并提供高速的內容存取。容存取。6.5 搜索引擎 文檔格式解析文檔格式解析 詞素切分詞素切分 去除停用詞去除停用詞 詞干提取詞干提取 超鏈接的抽取與分析超鏈接的抽取與分析 信息抽取信息抽取 文本分類器文本分類器6.5 搜索引擎 索引項索引項v文本轉換組件將文檔轉化為索引項(文本轉換組件將文檔轉化為索引項(index term)或者)或者“特征特征”(feature)。)。v最簡單的索引項是一個英語單詞或者一個漢語最簡單的索引項是一個英語單詞或者一個漢語字。字。 文檔統(tǒng)計文檔統(tǒng)計v文檔統(tǒng)計組件匯總和記錄詞、特征及文檔的統(tǒng)文檔統(tǒng)計組件匯總和記錄詞、特征及文檔的統(tǒng)計信息。排序組件使用該信息來計算文檔的分計信息。排序組件使用該信息來計算文檔的分值。值。 權重計算權重計算 倒排索引倒排索引 索引分派索引分派6.5 搜索引擎索引項索引項文檔統(tǒng)計文檔統(tǒng)計權重計算權重計算v索引項的權值(索引項的權值(weight)反映了文檔中詞的相對重要性)反映了文檔中詞的相對重要性,并且用于為排序計算分值。,并且用于為排序計算分值。v加權組件利用文檔統(tǒng)計結果計算權值,并將權值存儲在加權組件利用文檔統(tǒng)計結果計算權值,并將權值存儲在查找
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- T/DZJN 188-2023廢舊鋰離子電池回收利用先進裝備評價指南
- T/DZJN 178-2023洗碗機用直流變頻控制器
- T/DGGC 029-2024盾構法隧道施工機車司機技能鑒定要求
- T/DGGC 016-2022盾構始發(fā)、接收及空推施工技術規(guī)范
- 企業(yè)財務報表編制與代理服務協(xié)議
- 旅游景區(qū)場地承包與旅游服務合同協(xié)議書
- 滄州老城區(qū)古建筑使用權轉讓協(xié)議
- 生物醫(yī)藥研發(fā)加工與國內外銷售代理合作協(xié)議
- 餐飲行業(yè)食品安全保密管理協(xié)議
- 新能源汽車產業(yè)園區(qū)廠房租賃與充電設施協(xié)議
- 國際壓力性損傷-潰瘍預防和治療臨床指南(2025年版)解讀課件
- 2024年首都機場集團招聘筆試參考題庫附帶答案詳解
- 管道公稱直徑壁厚對照表
- 第四講 林分調查因子
- 幼兒園繪本故事:《神魚馱屈原》 PPT課件
- 超星爾雅學習通《藝術鑒賞》章節(jié)測試含答案
- 《電機定子、轉子沖片和鐵芯》團體標準(征求意見稿)
- 太原市普通高中學生學籍簿(準確打印)
- 食品經營設施空間布局圖
- 工會行政性資產管理暫行辦法
- 預制箱梁運輸及安裝質量保證體系及措施
評論
0/150
提交評論