




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、中文信息檢索專題Chinese Information Retrieval,蘇州大學計算機科學與技術(shù)學院,一、歷史,計算機信息檢索起源于20世紀50年代初。1954年美國海軍兵器中心圖書館利用IBM701機開發(fā)計算機信息檢索系統(tǒng),它標志著計算機信息檢索階段的開始。 計算機信息檢索技術(shù)已經(jīng)從脫機檢索、聯(lián)機檢索、光盤檢索發(fā)展到了網(wǎng)絡檢索階段。,一、歷史(續(xù)),中文文本信息檢索最早見于“748工程”中的漢字情報檢索。 80年代中期后,由于計算機處理能力的大大提高和應用的普及化,中文文本信息檢索的研究廣泛開展,各種漢字文本索引方法、檢索算法以及實用化系統(tǒng)開始出現(xiàn)。,二、信息檢索的定義,信息檢索是一門研
2、究從一定規(guī)模的文檔庫(Document Collection)中找出滿足用戶提出的信息需求(User Information Need)的技術(shù)。 文檔可以是Web網(wǎng)頁、郵件、文章、段落和句子等內(nèi)容。,三、信息檢索和數(shù)據(jù)庫檢索,信息檢索處理的主要數(shù)據(jù)往往是無結(jié)構(gòu)(Unstructured)或者半結(jié)構(gòu)的(Semi-structured),最典型的例子是無任何結(jié)構(gòu)的文章或者只有tag標記的Html文檔等; 另一方面,信息檢索的結(jié)果也往往是不精確的,不能像數(shù)據(jù)庫查詢那樣有100的正確率。如查找關(guān)于“雅典奧運會”,可能會漏掉有關(guān)“2004奧運會”的文章。,四、信息檢索相關(guān)技術(shù),自然語言處理 人工智能 模
3、式識別 機器學習 神經(jīng)網(wǎng)絡 數(shù)理統(tǒng)計 計算機網(wǎng)絡 內(nèi)容管理 ,五、信息檢索的對象,文本 圖像 音頻 視頻 ,六、結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化的數(shù)據(jù)包含了各種可以命名的部分,并按照一定的結(jié)構(gòu)對內(nèi)容進行組織。如數(shù)據(jù)庫中就包含了各種結(jié)構(gòu)化的記錄。 非結(jié)構(gòu)化數(shù)據(jù)無法用一定的格式對它進行組織和定義,搜索工具也無法根據(jù)特定的語義通過SQL的方法對它進行檢索。如一本小說中的一段文字,一份報紙中的一則廣告等都屬于非結(jié)構(gòu)化數(shù)據(jù)。 半結(jié)構(gòu)化數(shù)據(jù)是指部分有結(jié)構(gòu),部分沒有結(jié)構(gòu)的數(shù)據(jù)。,七、例子(結(jié)構(gòu)化數(shù)據(jù)),表11.1學生信息表,七、例子(非結(jié)構(gòu)化數(shù)據(jù)),播激勵網(wǎng)絡(Spreading Activation N
4、etworks)是一種最常見的基于神經(jīng)網(wǎng)絡的信息檢索模型,一般由概念層和文檔層組成,有時還有提問層。用戶提問的概念在概念層被激活,被激活的切題概念和關(guān)聯(lián)概念按權(quán)值不同傳送到文檔層,并到達潛在相關(guān)的概念和文檔,然后將最高度激活的文檔作為結(jié)果返回給用戶。而且,允許由文檔或文檔和概念結(jié)合形成初始提問。為了提高檢索質(zhì)量,用戶得到檢索結(jié)果時,可以就某些文檔做出相關(guān)性反饋,給它們分配一個相關(guān)值;也可以隨時改變一些高度激活的概念和文檔節(jié)點的相關(guān)性,評價和影響被激活的節(jié)點。系統(tǒng)在相關(guān)和不相關(guān)的文檔內(nèi)分析概念的分布,優(yōu)化用戶的提問。此外,當層間的激活傳送過幾次后,在相同文檔中經(jīng)常出現(xiàn)的概念也作為提問概念被激活,
5、這樣就可以自然地、靈活地進行概念擴展,讓用戶和系統(tǒng)相互作用。,七、例子(半結(jié)構(gòu)化數(shù)據(jù)),From: Subject: xxxx Date: Wed, 15 Sep 2004 07:24:01 +0800 MIME-Version: 1.0 Content-Type: text/plain;charset=gb-2312 Content-Transfer-Encoding: 7bit X-Priority: 3 X-MSMail-Priority: Normal X-Unsent: 1 X-MimeOLE: Produced By Microsoft MimeOLE V6.00.2800.116
6、5 在相同文檔中經(jīng)常出現(xiàn)的概念也作為提問概念被激活,這樣就可以自然地、靈活地進行概念擴展,讓用戶和系統(tǒng)相互作用。,八、信息檢索系統(tǒng)的模型,九、中文信息檢索特點,詞語切分和詞語詞法分析 進行詞性標注及相關(guān)的自然語言處理 信息擴展,十、信息檢索的評測,召回率(Recall,又稱查準率)和準確率(precision,又稱查全率)。 準確率是一個給定被檢索文檔的相似度的概率。 召回率是一個給定相關(guān)性文檔的被檢索的概率。,十、信息檢索的評測(續(xù)),其中,E(效率)用來指定準確率和召回率重要性。 P代表準確率,R表示召回率,是變量,值為01。如果取值是0,表示召回率更重要;取值1/2表示召回率和準確率同等
7、重要;取值1表示準確率更重要。,十一、信息檢索的模型,一般而言,有兩種信息檢索的模型:基于統(tǒng)計的模型和基于語義的模型。 基于統(tǒng)計的模型是應用某些統(tǒng)計的手段從被檢索文檔和高標注等級文檔中查詢與用戶需求匹配程度最好的文檔; 而基于語義的模型則嘗試對需求實現(xiàn)一定程度語法和語義的分析,即對用戶輸入的自然語言文本進行一定程度的理解并重新生成查詢。,十一、信息檢索的模型(續(xù)),基于統(tǒng)計的模型主要有: 布爾模型(Boolean Model) 擴展布爾模型(Extended Boolean Model) 向量空間模型(Vector Space Model) 概率模型(Probabilistic Model)
8、二元獨立模型(Binary Independency Model) 雙泊松模型(Two Poisson Model) 推理網(wǎng)絡模型(Inference Network Model) 信度網(wǎng)絡模型(Belief Network Model) 貝葉斯網(wǎng)絡模型(Bayesian Network Model),十一、信息檢索的模型(續(xù)),基于語義的模型主要有: 自然語言處理(Natural Language Process) 潛在語義索引模型(Latent Semantic Indexing Model) 神經(jīng)網(wǎng)絡(Neural Network),十二、索引項、檢索項、權(quán)值和停用詞,一般把檢索表達式和
9、文檔分成一個一個的項(Term),通常每個項就是在文檔和檢索條件中的一個字、詞或短語等,而且是經(jīng)過預處理的。 一般把檢索條件中的項稱為檢索項,把文檔中的項稱為索引項。然后為每個索引項和文檔確定一個權(quán)值(Weight),一般值為0和1,0表示相關(guān)而1則表示不相關(guān)。 索引項和檢索項不包括那些不具有區(qū)分度的普通字、詞和短語,如“我”、“的”“你好”和“基于”等,這些字詞有時稱為停用詞(Stop Words)。,十三、信息檢索系統(tǒng)介紹,LEXIS/NEXIS LEXIS/NEXIS 是一個用來獲取法律(LEXIS)或者新聞(NEXIS)文檔的商用系統(tǒng)。LEXIS/NEXIS支持傳統(tǒng)的嚴格匹配的布爾查詢
10、。它還特別支持以布爾算子形式提交的查詢。這些算子在LEXIS/NEXIS中被稱作聯(lián)接子(Connector),包括OR、AND和W/n等(W/n是用來表示接近查詢),并且它還支持通配符查詢。最近,LEXIS/NEXIS還提供了自然語言查詢的功能,被稱作FREESTYLETM搜索。這種查詢方式不需要布爾聯(lián)接子。LEXIS/NEXIS提供了一些對于自然語言特有的結(jié)果顯示選項。例如,用戶可以顯示“文本中權(quán)重最大的塊也即與查詢最相符的部分”。“WHY”這個選項用來表示“解釋你的搜索結(jié)果”等。,十三、信息檢索系統(tǒng)介紹(續(xù)),DIALOG DIALOG是一個用來搜索下列主題領(lǐng)域數(shù)據(jù)庫文檔的商用系統(tǒng)。這些主
11、題包括:商業(yè)、知識產(chǎn)權(quán)/法律/政府、醫(yī)藥、新聞、人文、科學、社會科學以及技術(shù)等。用戶選擇一個主題,然后選擇該主題下的一個(或者一組)數(shù)據(jù)庫。對于不同的數(shù)據(jù)庫有不同的搜索選項。例如對于新聞數(shù)據(jù)庫包括:主題(關(guān)鍵字),標題,作者和期刊等等。,十三、信息檢索系統(tǒng)介紹(續(xù)),Dow Jones News/Retrieval Dow Jones News Retrieval 是一個可以搜索多達1900個新聞來源的商用系統(tǒng)。例如,報紙、雜志等等。和上面介紹的系統(tǒng)相類似,它也支持嚴格布爾查詢以及一組算子,例如AND、OR、NOT、SAME、NEAR等。并且可以根據(jù)日期、領(lǐng)域、在文檔中的位置、主題、特定新聞源
12、等進一步限制搜索。,十三、信息檢索系統(tǒng)介紹(續(xù)),Topic 與上面三個商業(yè)文本檢索系統(tǒng)不同,Topic并不是利用自己擁有的文本集合提供信息服務而是一個單獨的文本檢索工具。用戶購買Topic,然后裝載自己的信息,利用Topic提供自己的信息服務。,十三、信息檢索系統(tǒng)介紹(續(xù)),SMART SMART是由康奈爾大學的Gerard Salton開發(fā)的,是最早的文本檢索系統(tǒng)之一。它具有以下特點:(1)自動建立索引;(2)自動生成聚類層次計算聚類中心;(3)進行查詢/文檔相似度計算并且根據(jù)文檔與查詢的相似程度對文檔排序;(4)將文檔以基于詞匯的向量空間表示;(5)根據(jù)用戶反饋自動提高對查詢的處理。,十
13、三、信息檢索系統(tǒng)介紹(續(xù)),INQUERY 這個系統(tǒng)是馬薩諸塞州大學智能信息檢索中心的產(chǎn)品。它是一個基于貝葉斯網(wǎng)絡結(jié)構(gòu)的概率模型,包括兩個部分:文本網(wǎng)絡與查詢網(wǎng)絡。給定一定的集合,文本網(wǎng)絡是靜態(tài)的,節(jié)點表示文本,它與表示單詞的節(jié)點相連。所以給定一個文本,INQUERY能計算一個特定單詞的概率。而查詢式中的單詞與那些應該與之有聯(lián)系的節(jié)點有一連線。,十四、Web信息檢索,傳統(tǒng)的數(shù)據(jù)庫是靜態(tài)和結(jié)構(gòu)化的,而且有嚴格的組織。而Web是自發(fā)形成和發(fā)展的,Web上的頁面是動態(tài)和半結(jié)構(gòu)化的,通過超鏈接彼此纏繞。因此對Web頁面的查詢和對數(shù)據(jù)庫的查詢是完全不同的。 據(jù)統(tǒng)計Web上每天大約要新增一百萬個網(wǎng)頁,目前
14、的網(wǎng)頁數(shù)目已經(jīng)達到上百億。這給信息的組織和檢索技術(shù)提出了十分嚴峻的挑戰(zhàn)。對如此海量的數(shù)據(jù)如何幾秒鐘內(nèi)就完成快而準的檢索,傳統(tǒng)的檢索技術(shù)顯得力不從心。 Web上的大部分網(wǎng)頁都是有一定格式的(如HTML),有豐富的標記。比如標題(Title)信息、字體(Font)信息、大小(Size)信息,以及META信息等等,所以網(wǎng)頁的信息實際上是半結(jié)構(gòu)化的。,十五、Web信息檢索系統(tǒng),一般的信息檢索系統(tǒng)需要有一個存儲檢索數(shù)據(jù)的文檔庫,然后才能針對這個庫進行檢索。一般而言絕大多數(shù)的文檔庫相對比較穩(wěn)定,更新不是很頻繁。而基于Web的信息檢索則是針對在Internet上的通過WWW協(xié)議發(fā)布的網(wǎng)頁進行檢索,和通常的信
15、息檢索是不一樣的。Web信息檢索系統(tǒng)一般被稱為搜索引擎(Search Engine)。 搜索引擎一般沒有自己的文檔庫,整個Web就是它的文檔庫!它需要建立一個索引來指向這個Web頁面。Web頁面具有數(shù)量龐大、在全世界分布以及更新迅速等特點。因此,搜索引擎面臨的第一個挑戰(zhàn)是如何及時、全面、正確地對Web網(wǎng)頁生成和維護索引 。 另外,使用搜索引擎的絕大多數(shù)人是計算機外行,所以如何為他們提供一個使用方便的操作界面和人性化的檢索方法是第二個挑戰(zhàn)。由于Web網(wǎng)頁的信息是包羅萬象的,不能像一般的信息檢索系統(tǒng)確定各個文檔集合,所以第三個挑戰(zhàn)是如何為用戶在數(shù)量龐大的網(wǎng)頁中找到他所關(guān)心的內(nèi)容。,十六、Web信息
16、檢索特點,數(shù)據(jù)分布 數(shù)據(jù)量巨大 數(shù)據(jù)的動態(tài)性 結(jié)構(gòu)性差且數(shù)據(jù)冗余 數(shù)據(jù)質(zhì)量不高 數(shù)據(jù)的異構(gòu) 多語種和多內(nèi)碼,十七、搜索引擎,搜索引擎是以Web頁面(也可以說是超鏈接)為檢索文檔的信息檢索系統(tǒng),它的核心就是信息檢索技術(shù)。另外,搜索引擎還需要進行Web頁面的抓取、分類、索引、存儲、更新等工作,所以它比一般的信息檢索系統(tǒng)更加復雜。,十八、搜索引擎結(jié)構(gòu),十八、搜索引擎結(jié)構(gòu)(續(xù)),搜索器 搜索器(一般稱為Spider或Crawler)的功能是在Internet遍歷網(wǎng)址,發(fā)現(xiàn)和搜集網(wǎng)頁信息。它常常是一個機器人(Robot)程序,日夜不停地運行。它要盡可能多、盡可能快地搜集Internet上的新網(wǎng)頁,還要定
17、期更新已經(jīng)搜集過的舊網(wǎng)頁,以避免死鏈接和無效鏈接。,十八、搜索引擎結(jié)構(gòu)(續(xù)),索引器 索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示網(wǎng)頁以及生成頁面庫的索引表。,十八、搜索引擎結(jié)構(gòu)(續(xù)),檢索器 檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出網(wǎng)頁,進行網(wǎng)頁與查詢的相似度評價,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。,十八、搜索引擎結(jié)構(gòu)(續(xù)),用戶接口 用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶接口的設計和實現(xiàn)使用人機交互的理論和方法,以充分適應人類
18、的思維習慣。,十九、Google的搜索機制,三個部分網(wǎng)頁抓取、索引入庫和用戶檢索。 網(wǎng)頁抓取主要負責網(wǎng)頁的抓取,由URL服務器(URL Server)、抓取器(Crawler)、存儲器(Store Server)、和URL解析器(URL Resolver)四個部件組成,抓取器是該模塊的核心。 索引入庫主要負責對網(wǎng)頁內(nèi)容進行分析,對網(wǎng)頁進行索引并存儲到數(shù)據(jù)庫里,由索引器(Indexer)和分類器(Sorter)兩個部件組成,該模塊涉及許多文件和數(shù)據(jù),有關(guān)于桶(Barrels)的操作是該部分的核心。 用戶檢索主要負責分析用戶輸入的檢索表達式,匹配相關(guān)網(wǎng)頁,把檢索結(jié)果返回給用戶,由查詢器(Searc
19、her)和網(wǎng)頁級別評定器(PageRank)兩個部件組成,其中網(wǎng)頁等級的計算是該模塊的核心。,十九、Google的搜索機制(續(xù)),二十、搜索引擎分類,目錄(Dictionary)搜索引擎 機器人(Robot)搜索引擎 元(Meta)搜索引擎,二十、搜索引擎分類(續(xù)),目錄(Dictionary)搜索引擎 以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能,所以信息準確、導航質(zhì)量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo、LookS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 云南省昆明市盤龍區(qū)2024-2025學年三年級數(shù)學第二學期期末質(zhì)量檢測試題含解析
- 田陽縣2025年小升初總復習數(shù)學測試題含解析
- 2025租房合同應該注意的事情 資料
- 2025版標準貿(mào)易合同模板
- 2025裝卸設備維護保養(yǎng)承包合同范文
- 2025品牌連鎖店合同模板
- 2025年普法知識競賽題庫及答案(共60題)
- 2025標準物業(yè)管理服務合同
- 2025年高考歷史概括題解題策略
- 2025智能家居電器安裝工程合同范本
- 小學民族團結(jié)工作計劃
- 2024年永康市第一人民醫(yī)院高層次衛(wèi)技人才招聘筆試歷年參考題庫頻考點附帶答案
- 2025年重慶市建筑安全員《A證》考試題庫及答案
- 國家安全教育大學生讀本教案第六章 堅持以經(jīng)濟安全為基礎
- 2025年甘肅農(nóng)墾集團招聘筆試參考題庫含答案解析
- 2024年01月湖南2024岳陽市農(nóng)商銀行系統(tǒng)招考員工筆試歷年參考題庫附帶答案詳解
- 尿酸高的中醫(yī)治療
- 弘揚法治精神構(gòu)建和諧校園
- 《制冷劑基本常識》課件
- 華中農(nóng)業(yè)大學《物聯(lián)網(wǎng)工程》2022-2023學年第一學期期末試卷
- 研發(fā)物料管理制度流程
評論
0/150
提交評論