WWW網(wǎng)絡信息檢索技術概述_第1頁
WWW網(wǎng)絡信息檢索技術概述_第2頁
WWW網(wǎng)絡信息檢索技術概述_第3頁
WWW網(wǎng)絡信息檢索技術概述_第4頁
免費預覽已結束,剩余1頁可下載查看

VIP免費下載

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、WWW網(wǎng)絡信息檢索技術概述摘要:本文針對網(wǎng)絡搜索引擎工作中的重點技術作出詳盡的闡述,它包括obot程序、索引數(shù)據(jù)庫、檢索程序三個方面。通過他們來概述WWW網(wǎng)絡信息檢索技術的發(fā)展狀況。關鍵詞:obot程序、數(shù)據(jù)索引、遍歷算法、相關性The abstracts of information retrievals on the world wide webAbstract: This scheduals decribe the details of fatal techniques about the information on the world wide website ,including

2、three aspects: Robot techniques,Indexing database and searching programmes .We can learn the developing states of information retrivals through them.Key words: Robot, Indces, Revelance, arithmetic隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡信息不斷爆炸式的擴張,網(wǎng)民怎么才能從這樣海量的信息中找到他們所需要的信息呢?搜索引擎,這是目前為止,世界上最流行的一種準確獲得信息的一種工具。象Google、Altavista、Info

3、seek 、Hotbot、Yahoo、網(wǎng)絡指南針、北大天網(wǎng)和華好網(wǎng)景的ChinaOK等等。這些都是世界上非常著名的搜索引擎。他們都是通過網(wǎng)絡機器人搜集網(wǎng)絡信息,建立索引數(shù)據(jù)庫,并且不但的更新,通過一定的相關性算法,對用戶提供的請求作出響應,并按一定的次序輸出高質(zhì)量的信息。它的主要由下面三個部分組成:蜘蛛程序、索引數(shù)據(jù)庫、檢索程序。三個部分協(xié)調(diào)一致,其工作原理(圖1)如下:1 obot技術程序obot是一種計算機的程序 ,可以自動地在網(wǎng)絡中穿梭 ,該程序最重要的功能是使用索引策略 ,也就是查找網(wǎng)站和網(wǎng)頁的次序??梢杂妙}目、關鍵詞進行索引 ,也可以是以上幾項的某種組合。由于的數(shù)據(jù)量大 ,在現(xiàn)有的機

4、器和網(wǎng)絡條件下 ,搜索引擎只能對部分上的資料進行采集 ;加上搜索的索引策略不同 ,所以對相同關鍵詞的搜索在不同的搜索器上可以有截然不同的結果。如果把整個看作是一個圖或一棵樹的話 ,可以發(fā)現(xiàn)技術的基本工作原理和人工智能中的搜索樹一樣 ,這在計算機中可以方便地使用遞歸方法實現(xiàn) ,具體如下:(1 )根據(jù)首頁進行搜索 ,相當于搜索樹的根 ;(2 )根據(jù)首頁的第 1個鏈接到下一個頁面 ;(3)重復 (1 )和 (2 );(4)到某頁已經(jīng)沒有鏈接 ,回退上一級頁面的下一個鏈接 ,如此循環(huán)往復。但若要建立全面的索引數(shù)據(jù)庫 ,必須對系統(tǒng)進行遍歷。我們可以進行這樣假設 :將作為一個有向圖處理 ,將頁面看作圖中的

5、節(jié)點 ,頁面中的超鏈看作圖中的有向邊。因此可以使用有向圖遍歷算法 (深度優(yōu)先或廣度優(yōu)先算法或啟發(fā)式方式 )對其進行遍歷。是個典型的 結構系統(tǒng) ,所以可在一臺主機上完成遍歷。遍歷一般采用以下 3種方法 :(1)定一個種子 ,obot從種子開始對遍歷 ; (2)定一組不同類別、被訪問頻率高的 ,obot從這些開始遍歷 ;(3)據(jù)域名或地址將空間劃分為多個子空間 ,運行多個obot程序并行地在不同子空間中進行遍歷。在實際使用中 ,一般是將這三種方法組合起來使用。按照上述遍歷算法 ,obot可以系統(tǒng)地、周期性地訪問 ,從而建立較為全面的索引庫 ,并能保持對庫的不斷更新。在遍歷算法中,一般用到了兩種方式

6、,深度優(yōu)先和廣度優(yōu)先兩種基本的搜索策略。Robit以URL列表存取的方式?jīng)Q定搜索策略:(1) 先進先出,則形成廣度優(yōu)先搜索。當起始列表包含有大量的服務器地址時,廣度優(yōu)先搜索將產(chǎn)生一個很好的初始結果,但很難深入到服務器中去。(2) 先進后出,則形成深度優(yōu)先搜索。這樣能產(chǎn)生較好的文檔分布,更容易發(fā)現(xiàn)文檔的結構,即找到最大數(shù)目的交叉引用在實際使用中 ,一般是將這三種方法組合起來使用。按照上述遍歷算法 ,obot可以系統(tǒng)地、周期性地訪問 ,從而建立較為全面的索引庫 ,并能保持對庫的不斷更新。在遍歷的過程中 ,為了提高其效率 ,可以融入人工智能的方法使其變得智能化 ,以下為可行的方法 :(1)搜索引擎基

7、本信息的采集??紤]網(wǎng)絡中海量的數(shù)據(jù) ,首先選取一些網(wǎng)絡的主要節(jié)點 ,使搜索引擎存放某些監(jiān)控程序到站點中 ,和站點之間建立一種通信聯(lián)系 ,使搜索引擎不必每次更新時都要一個個頁面地比較 ,而是智能地知道自上次訪問后哪些頁面已更新 ,直接采集新的頁面。 (2)搜索引擎數(shù)據(jù)庫的建立??紤]數(shù)據(jù)庫中數(shù)據(jù)的有用性 ,可以根據(jù)用戶的訪問頻度 ,建立站點的用戶訪問頻度表格 ,obot查找鏈接和頁面時 ,要查看該表格 ,從用戶訪問頻度高的站點開始查找 ,對上升速度和下降速度特別快的還要特別處理。搜索引擎的數(shù)據(jù)庫內(nèi)容是用戶經(jīng)常訪問并樂意訪問的 ,使搜索引擎越來越貼近用戶。2 索引技術索引技術的目的是理解obot所搜

8、索的信息 ,從中抽取索引項 ,用于表示文檔以及生成文檔庫的索引表。索引項有客觀索引項和內(nèi)容索引項兩種 :客觀項與文檔的語意內(nèi)容無關 ,如作者名、更新時間、編碼、長度、鏈接流行度 (Link Popularity)等等 ;內(nèi)容索引項是用來反映文檔內(nèi)容的 ,如關鍵詞及其權重、短語、單字等等。內(nèi)容索引項可以分為單索引項和多索引項 (或稱短語索引項 )兩種。單索引項對于英文來講是英語單詞 ,比較容易提取 ,因為單詞之間有天然的分隔符 (空格 );對于中文等連續(xù)書寫的語言 ,必須進行詞語的切分。在搜索引擎中 ,一般要給單索引項賦予一個權值 ,以表示該索引項對文檔的區(qū)分索引項的提取方法有統(tǒng)計法、概率法和語

9、言學法。索引表一般使用某種形式的倒排表 (Invers度 ,同時用來計算查詢結果的相關度。使用的方法一般有統(tǒng)計法、信息論法和概率法。短語索引,即由索引項查找相應的文檔。索引表要記錄索引項在文檔中出現(xiàn)的位置 ,以便檢索器計算索引項之間的相鄰或接近關系 (Proximity)。索引技術可以使用集中式索引算法或分布式索引算法。當數(shù)據(jù)量很大時 ,必須實現(xiàn)即時索引 (Instant Indexing),否則不能跟上信息量劇增的速度。索引算法對索引技術的性能 (如大規(guī)模峰值查詢時的響應速度 )有很大的影響。一個搜索引擎的有效性在很大程度上取決于索引的質(zhì)量 ,而索引的質(zhì)量由索引技術和索引策略來決定 ;但現(xiàn)行

10、的索引技術隨著數(shù)據(jù)量的增大 ,其耗費的資源指數(shù)速度飛速增長 ,極大地影響到搜索數(shù)據(jù)庫的容量和檢索 ;考慮用提高索引智能化的方式來提高索引的質(zhì)量。按建立索引的策略來看 ,應確定是全文關鍵字提取 ,還是內(nèi)容提取 ,根據(jù)不同的查詢目標會有不同的提取目標和提取范圍 ,最終將大大影響數(shù)據(jù)提取的速度和效果 ,這是索引技術所要考慮的首要問題 ;按內(nèi)容提取可以采用分類技術 ,把頁面的主題或內(nèi)容分類 ,進入到不同的數(shù)據(jù)庫中 ,在輸入關鍵詞查詢時 ,要求第個關鍵詞必須是內(nèi)容類別的詞 ,這樣第個關鍵詞就可以使搜索引擎知道到哪個內(nèi)容類別的數(shù)據(jù)庫中查找 ,再匹配后面的關鍵詞 ,這樣可以大大減少系統(tǒng)匹配的時間。這項技術要

11、求在相關詞庫的基礎上 ,還要統(tǒng)計使用頻度 ,再加上一定的算法方可實現(xiàn)。當然上述兩者應有機地結合才可提高整個系統(tǒng)的性能。3 檢索程序。當用戶檢索的時候,首先需要輸入關鍵詞,系統(tǒng)將對其進行語言分析,分解成多個詞或詞組,在去服務器的索引數(shù)據(jù)庫,根據(jù)檢索詞的相關性進行匹配,找到與檢索詞相關度逼近的網(wǎng)頁,按照相關度的高低進行排序輸出,關鍵詞出現(xiàn)了的越多的結果排得越靠前,越知名的站點排得越靠前。這里,相關性的設計相當?shù)闹匾?,它直接影響著搜索的效率。但“相關性”的概念一直非常模糊。一方面 ,人們觀察到特定文檔對特定查詢而言可以有多種“相關”的方式 ,比如用戶輸入一個關鍵詞作為查詢向系統(tǒng)提交 ,系統(tǒng)返回的文檔

12、列表中的文檔講述與此關鍵詞相關的事件 ,談論與此關鍵詞相關的人物等等 ,都可以說與這個關鍵詞“相關” ,但我們顯然覺得二者與查詢的相關并不屬于同一層次。另一方面 ,由于用戶本身的差異使其對檢出文檔是否真正相關的判斷也有諸多差異。但是在設計信息檢索系統(tǒng)的過程中 ,不可避免地要用到相關性這個概念 ;具體地說 ,設計者必須對怎樣才算是“相關”有一個比較明確的想法 ,在沒有弄清楚什么是相關性之前就談論怎樣區(qū)別相關和不相關文檔 ,的確令人覺得在邏輯上缺少了一個重要的環(huán)節(jié)。下面就相關性做詳盡的闡述:3.1相關性研究的理論框架3.1.1系統(tǒng)角度的相關信息檢索似乎從一開始就定位為一種單方向的過程 ,即系統(tǒng)輸出

13、結果 ,用戶是信息的接受者。這種理解置用戶于被動的地位 :基于這種理解 ,研究的重心自然落在系統(tǒng)本身。系統(tǒng)角度的相關一般有兩種比較方式。其一是在文檔本身固有的特征信息 ,如詞頻等等與用戶提交的查詢表達式中固有的特征信息之間進行比較。典型做法是在文檔集中尋找出現(xiàn)了查詢表達式中的索引項的文檔 ;其二是在從文檔中抽取的“主題”與用戶查詢表達式中體現(xiàn)的“主題”之間做比較 ,即首先計算文檔中各索引項的權值 ,再按權值大小進行排序 ,以此為依據(jù)確定文檔的主題詞。這種做法比較簡單明了 ,易于操作而且可以直接觀察 ,所以一直是信息檢索研究者們樂于接受的。3.1.2改進后的系統(tǒng)相關從系統(tǒng)角度定義的相關性 (即主

14、題性相關 )最突出的優(yōu)點 ,就是簡明和可操作性 ;而至少目前的系統(tǒng)還無法把握人的主觀感覺。這樣看來 ,采取主題性相關的態(tài)度就是唯一可行的做法。然而并不能把詞頻統(tǒng)計作為唯一的解決辦法。airthorne曾提出 :如果允許個人推論和個人理解介入相關性判斷 ,那么從某種角度來看 ,任何文本對任何請求都是相關的。所以 ,改進系統(tǒng)角度相關度計算方法似乎比較可以接受。基于此種看法 ,在這里可以做這樣一個設想 :如果主題詞提取算法能體現(xiàn)用戶的相關性判斷直覺 ,那么用戶的相關性判斷就可以被描述 ,而檢索系統(tǒng)的輸出就可能更加令人滿意 (見下圖 )。系統(tǒng)角度相關不能解決相關性判斷的不確定性。相關性判斷的不確定性基

15、本上集中于用戶的主觀因素上。信息檢索研究者的觀點往往局限在雖然簡單但引起很多爭議的系統(tǒng)角度相關。但是隨著檢索系統(tǒng)日益廣泛的應用 ,人們開始更多地思索人機交互過程中人的因素。 3.2相關反饋技術在信息檢索系統(tǒng)中的應用及局限從用戶角度討論相關大體上就是觀察用戶對檢索結果的反應 ,是系統(tǒng)輸出向用戶需求的投射。作為系統(tǒng)本身必須“知道”如何判斷相關性 ,而這種機制實際上是設計者對用戶判斷方式的模擬。最終的系統(tǒng)只能將用戶判斷有差異這一事實“忽略”過去。在檢索系統(tǒng)中 ,使用相關反饋技術的目的 ,是通過檢索策略的調(diào)整來增強對相關文獻的響應而抑制非相關文獻。許多年來 ,相關反饋被用來修正提問的問題。較復雜一些的檢索系統(tǒng)如以向量空間模型為基礎的和概率模型等等固然包含了某“相關反饋”技術 ,即以已經(jīng)得出的檢索結果和用戶的相關性評價為依據(jù) ,不斷修正查詢表達式和檢索結果集合 ;但是 ,系統(tǒng)賴以區(qū)分相關與不相關文檔集的算法卻只考慮文檔自身的特性。信息檢索的主要工作簡而言之就是提取文檔內(nèi)容特征項的過程。這就使得檢索系統(tǒng)不能跳出“系統(tǒng)中心”的局限而用戶判斷的不確定性不能得到本質(zhì)的運用。雖然從用戶角度討論相關性定義的文獻多如牛毛 ,卻從未有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論