【畢業(yè)學位論文】(Word原稿)第四代搜索引擎——主題搜索引擎的設(shè)計與實現(xiàn)_第1頁
【畢業(yè)學位論文】(Word原稿)第四代搜索引擎——主題搜索引擎的設(shè)計與實現(xiàn)_第2頁
【畢業(yè)學位論文】(Word原稿)第四代搜索引擎——主題搜索引擎的設(shè)計與實現(xiàn)_第3頁
【畢業(yè)學位論文】(Word原稿)第四代搜索引擎——主題搜索引擎的設(shè)計與實現(xiàn)_第4頁
【畢業(yè)學位論文】(Word原稿)第四代搜索引擎——主題搜索引擎的設(shè)計與實現(xiàn)_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

第四代搜索引擎 主題搜索引擎的設(shè)計與實現(xiàn) 4四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 1 指導老師對論文工作的評語 “面向主題的搜索引擎”,是我們“天網(wǎng)”搜索引擎下一步發(fā)展的重要方向之一。羅昶同學的畢業(yè)論文,是這一新方向的良好開端。 論文從系統(tǒng)實現(xiàn)的角度,較全面的闡述了實現(xiàn)一個高質(zhì)量主題搜索引擎系統(tǒng)的各個方面,著重分析了導向詞 、特征提取、權(quán)威和中心網(wǎng)頁、超鏈分析以及網(wǎng)頁評分等多種搜集策略的運用,并提出了“主題度”的概念,用以衡量主題搜索引擎的質(zhì)量,意在指明一個搜索引擎在一個主題下的主題度越高,則它越貼近這個主題,用戶就越容易找到跟這個主題相關(guān)的資料。特別地,將上述認識用于實踐中,高質(zhì)量地完成了一個面向影視主題的搜索引擎系統(tǒng),搜集了十多萬影視信息,在影視信息方面提供著比“天網(wǎng)”通用搜索引擎更有效的服務(wù);論文內(nèi)容豐富,所涉及的工作量很大,且有較強的系統(tǒng)性,是一篇很有參考價值的論文,為“天網(wǎng)”的發(fā)展做出了貢獻。 老師簽名 :_ 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 2 論文摘要 互聯(lián)網(wǎng)上的信息每天都以指數(shù)量級的速度爆炸性增長,面對如此浩瀚的資源,搜索引擎為所有網(wǎng)上沖浪的用戶提供了一個入口,毫不夸張的說,所有的用戶都可以從搜索引擎出發(fā)到達自己想去的網(wǎng)上任何一個地方。因此它也成為除了電子郵件以外最多人使用的網(wǎng)上服務(wù)。 但是,隨著信息多元化的增長,千篇一律的給 所有用戶提供同一個入口顯然已經(jīng)不能滿足特定用戶更深入的查詢需求。同時,這樣的通用搜索引擎在目前的硬件條件下,要及時更新以得到互聯(lián)網(wǎng)上較全面的信息是不太可能的。針對這種情況,我們需要一個分類細致精確、對硬件要求低,數(shù)據(jù)全面深入、更新及時的面向主題的搜索引擎。由于主題搜索運用了人工分類以及特征提取等智能化策略,因此它比前三代的搜索引擎將更加有效和準確,我們將這類完善的主題搜索引擎稱為第四代搜索引擎。 本文闡述了第四代搜索引擎天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn),并著重分析了導向詞、特征提取、權(quán)威和中心網(wǎng)頁、超鏈分析以及 網(wǎng)頁評分等多種搜集策略的運用。論文最后定義了獨創(chuàng)的“主題度”來衡量主題搜索引擎的性能,一個搜索引擎在一個主題下的主題度越高,證明這個搜索引擎越貼近這個主題,用戶就越容易找到跟這個主題相關(guān)的資料。 有了“主題度”,就可以很容易的比較使用多種搜集策略以后的天網(wǎng)主題搜索引擎與原天網(wǎng)通用搜索引擎的差別,說明了前者在特定的主題下要比后者更準確貼切。 關(guān)鍵詞: 互聯(lián)網(wǎng)、萬維網(wǎng)、搜索引擎、數(shù)據(jù)發(fā)掘、主題搜索、主題度 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 3 on on it an of to to in of In to it is to on we is a in it as it is th In th of In is is its to is 四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 4 目錄 指導老師對論文工作的評語 . 1 論文摘要 . 2 . 3 目錄 . 4 第一章 背景介紹 . 7 展現(xiàn)狀 . 7 發(fā)展歷程 . 7 . 7 信息分布 . 8 索引擎簡介 . 9 題搜索引擎 第四代搜索引擎 . 10 結(jié) . 10 第二章 天網(wǎng)搜索引擎系統(tǒng)結(jié)構(gòu) . 12 統(tǒng)簡介 . 12 統(tǒng)結(jié)構(gòu)及各部分功能 . 12 息存取和分析子系統(tǒng)(主控程序) . 13 息收集控制子系統(tǒng)(搜索器) . 13 源索引數(shù)據(jù)庫 . 13 息檢索子系統(tǒng) . 14 理和監(jiān)控子系統(tǒng) . 14 控程序及搜索器的實現(xiàn) . 14 控程序 . 14 索器 . 16 結(jié) . 17 第三章 主題搜索策略 . 18 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 5 向詞 . 18 向詞及權(quán)值的配置 . 18 據(jù)導向詞及權(quán)值改變搜索順序 . 19 頁評分 (. 19 用計數(shù) (. 19 頁評分 (. 20 威網(wǎng)頁 (中心網(wǎng)頁 (. 21 么是權(quán)威網(wǎng)頁和中心網(wǎng)頁 . 21 掘權(quán)威網(wǎng)頁的難度 . 23 威網(wǎng)頁和中心網(wǎng)頁的計算公式 . 23 算權(quán)威網(wǎng)頁和中心網(wǎng)頁的算法 . 24 鏈描述文本分析 (. 25 結(jié) . 25 第四章 天網(wǎng)主題搜索引擎的實現(xiàn) . 26 統(tǒng)模塊圖 . 26 儲結(jié)構(gòu) . 27 統(tǒng)數(shù)據(jù)庫 . 27 索器和主控程序之間的通訊 擴展 構(gòu) . 30 向詞的存貯 . 33 索器的實現(xiàn) . 34 向詞的加載分析 . 34 集策略的實現(xiàn) . 35 結(jié) . 38 第五章 系統(tǒng)現(xiàn)狀和性能 . 39 網(wǎng)主題搜索引擎系統(tǒng)現(xiàn)狀 . 39 題度的定義 . 39 網(wǎng)主題搜索引擎與通用搜索引擎的比較 . 40 第六章 總結(jié)展望 . 42 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 6 致謝 . 43 參考文獻 . 44 參考 . 45 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 7 第一章 背景介紹 展現(xiàn)狀 發(fā)展歷程 1983 年 P 成為 唯一的正式協(xié)議。 此后, 連接的網(wǎng)絡(luò)、機器和用戶快速增長。 1988 年 聯(lián),它的規(guī)模以指數(shù)增長,很多地區(qū)網(wǎng)絡(luò)開始加入,并且開始與加拿大、歐洲和太平洋地區(qū)的網(wǎng)絡(luò)連接。 后來形成 90年代初到現(xiàn)在,是 993 年, 增長速度是 341%。截止到 1996 年 7 月, 連接了 134336個網(wǎng)絡(luò),入網(wǎng)主機 1228萬臺,以及數(shù)以億計的用戶。到 1998 年 7月,27 萬個網(wǎng)址, 4300萬個域名, 個網(wǎng)頁,其規(guī)模大概每年翻一番。 全球性的網(wǎng)絡(luò)信息系統(tǒng)。一九八九年,位于瑞士的先開始了 后,許多其他的研究機構(gòu)、大學和公司也加入 相繼開發(fā)出各自的 些 此過程中, 時,為了保證不同 件之間的互操作性,一系列 善之中。 在最近幾年里, 到了長足的發(fā)展,不僅成為企業(yè)必不可少的組成部分,并且開始走進千家萬戶。根據(jù) 然上發(fā)布的數(shù)據(jù),截止到 1999年 2月, 600萬個,其中公開提供 80萬個;共有 頁大約 8 億頁,這些網(wǎng)頁包含了 15T 字節(jié)的數(shù)據(jù)。按照 2000 年4月在波士頓舉行的第 5屆搜索引擎年會的會議報告,我們可以知道現(xiàn)今的網(wǎng)頁數(shù)目已經(jīng)超過了 10億。 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 8 據(jù) 國互聯(lián)網(wǎng)絡(luò)信息中心 )2001年 1月 17日在京 發(fā)布的最新的中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告,截止到 2000年 12 月 31 日止,我國上網(wǎng)計算機數(shù)有約 892 萬臺。我國上網(wǎng)用戶人數(shù)約 2250萬人,除計算機外同時使用其它設(shè)備(移動終端、信息家電等)上網(wǎng)的用戶人數(shù)為 92 萬。 注 冊 的 域 名 總 數(shù) 為 122099 個, 點數(shù)(包括 的網(wǎng)站)約 265405 個,我國國際線路的總?cè)萘繛?799M。關(guān)于網(wǎng)頁的數(shù)目沒有具體的統(tǒng)計數(shù)據(jù),但根據(jù)科學雜志上提供的集合估計法,通過中國幾個主要搜索引擎獲得的搜索數(shù)據(jù)(天網(wǎng)、 浪、搜狐、網(wǎng)易),我們可以估計到當前中國擁有的網(wǎng)頁數(shù)已經(jīng)超過 3000萬。 信息分布 信息量大而且分散 自治性強 信息資源多種多樣 不一致和不完整性 這些特點對網(wǎng)絡(luò)軟件的性能提出了很高的要求。網(wǎng)絡(luò)的快速發(fā)展給信息挖掘帶來了挑戰(zhàn)。 時伴隨著上網(wǎng)經(jīng)驗不足、不太曉得如何查找信息的新用戶的加入。用戶很可能最大程度的運用超鏈來在網(wǎng)上沖浪,他們通常從以下兩類網(wǎng)站開始: 第一類是目錄 系統(tǒng),其典型代表是 ), 它通過有專業(yè)知識的網(wǎng)頁編輯人員對網(wǎng)上的網(wǎng)頁進行精選,建立一個索引目錄,來給用戶提供服務(wù)。這類 通過手工維護得很好的 系統(tǒng)的優(yōu)點是提供的網(wǎng)頁準確率高,可以有效的覆蓋所有熱門的主題,但它們的缺點是過于主觀,而且需要高昂的代價來建立和維護,更新改進的慢,同時不能很好的覆蓋所有深奧的主題 。 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 9 第二類是搜索引擎系統(tǒng), 比如天網(wǎng)( ), 它通過程序自動地從網(wǎng)上搜集和分析網(wǎng)頁,建立索引,為用戶服務(wù)。這類 通過關(guān)鍵詞匹配實現(xiàn)查找的自動更新的搜索引擎 優(yōu)點是涵蓋的網(wǎng)頁數(shù)量巨大,但 通常返回太多的低質(zhì)量相關(guān)性不大的結(jié)果。 索引擎簡介 面對浩瀚的網(wǎng)絡(luò)資源,搜索引擎為所有網(wǎng)上沖浪的用戶提供了一個入口,毫不夸張的說,所有的用戶都可以從搜索出發(fā)到達自己想去的網(wǎng)上任何一個地方。因此它也成為除了電子郵件以外最多人使用的網(wǎng)上服務(wù)。 搜索引擎技術(shù)伴隨著 發(fā)展是引人注目的。搜索引 擎大約經(jīng)歷了三代的更新發(fā)展: 第一代搜索引擎出現(xiàn)于 1994 年。這類搜索引擎一般都索引少于 1, 000, 000個網(wǎng)頁,極少重新搜集網(wǎng)頁并去刷新索引。而且其檢索速度非常慢,一般都要等待 10 秒甚至更長的時間。在實現(xiàn)技術(shù)上也基本沿用較為成熟的 網(wǎng)絡(luò)、數(shù)據(jù)庫等技術(shù),相當于利用一些已有技術(shù)實現(xiàn)的一個 1994 年 3 月到 4 月,網(wǎng)絡(luò)爬蟲 均每天承受大約 1500 次查詢。 大約在 1996 年出現(xiàn)的第二代搜索引擎系統(tǒng)大多采用分 布式方案(多個微型計算機協(xié)同工作)來提高數(shù)據(jù)規(guī)模、響應速度和用戶數(shù)量,它們一般都保持一個大約 50, 000, 000 網(wǎng)頁的索引數(shù)據(jù)庫,每天能夠響應 10, 000, 000 次用戶檢索請求。 1997 年 11 月,當時最先進的幾個搜索引擎號稱能建立從 2, 000, 000 到100, 000, 000 的網(wǎng)頁索引。 索引擎聲稱他們每天大概要承受 20, 000,000 次查詢。 自 1998 年到現(xiàn)在,出現(xiàn)了一個搜索引擎空前繁榮的時期,我們統(tǒng)稱這一時期的搜索引擎為第三代搜索引擎。第三代搜索引擎的發(fā)展有如下幾個特點: 1. 索引數(shù)據(jù)庫 的規(guī)模繼續(xù)增大,一般的商業(yè)搜索引擎都保持在幾千萬甚至上億個網(wǎng)頁。 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 10 2. 除了一般意義上的搜索以外,開始出現(xiàn)主題搜索和地域搜索。很多小型的垂直門戶站點開始使用該技術(shù)。 3. 由于搜索返回數(shù)據(jù)量過大,檢索結(jié)果相關(guān)度評價成為研究的焦點。相關(guān)的研究又可以分為兩類:一類是對超文本鏈的分析,在這方面 統(tǒng) 7和 統(tǒng) 8作出了很大的貢獻;另一類是用戶信息的反饋, 統(tǒng)采用的就是這種方法。 4. 開始使用自動分類技術(shù)。 在一定程度上使用了該技術(shù)。 2000 年搜索引擎 2000 年大會上,按照 司總裁 演講,在用 3,000 臺運行 統(tǒng)的個人電腦在搜集 的網(wǎng)頁,而且以每天 30 臺的速度向這個微機集群里添加電腦,以保持與網(wǎng)絡(luò)的發(fā)展相同步。每臺微機運行多個爬蟲程序搜集網(wǎng)頁的峰值速度是每秒 100 個網(wǎng)頁,平均速度是每秒 網(wǎng)頁,一天可以搜集超過 4, 000, 000 網(wǎng)頁。 題搜索引擎 第四代搜索引擎 隨著信息多元化的增長,千篇一律的給所有 用戶同一個入口顯然已經(jīng)不能滿足特定用戶更深入的查詢需求。同時,這樣的通用搜索引擎在目前的硬件條件下,要及時更新以得到互聯(lián)網(wǎng)上較全面的信息是不太可能的。針對這種情況,我們需要一個分類細致精確、數(shù)據(jù)全面深入、更新及時的面向主題的搜索引擎。 由于主題搜索運用了人工分類以及特征提取等智能化策略,因此它比上面提到的前三代的搜索引擎將更加有效和準確,我們將這類完善的主題搜索引擎稱為第四代搜索引擎。 結(jié) 這一章,概述了主題搜索引擎的產(chǎn)生背景以及它在搜索引擎歷史上的地位。 由于天網(wǎng)主題搜索是建立在原來天網(wǎng)搜 索系統(tǒng)的基礎(chǔ)上的,第二章將會介紹天網(wǎng)搜索引擎的系統(tǒng)結(jié)構(gòu),并著重剖析搜索器和主控程序的設(shè)計實現(xiàn),這是因為主題搜索需要對這兩部分做較大的改動。第三章將著重分析導向詞、特征提取、權(quán)威和中心網(wǎng)頁、超鏈分析以及網(wǎng)頁評分等多種主題搜集策略的運用。筆者將會第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 11 在第四章詳細介紹天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn)。最后是第五章的系統(tǒng)現(xiàn)狀性能以及第六章的總結(jié)展望,在這里筆者會比較一下使用了主題搜集策略以后的天網(wǎng)主題搜索引擎與使用以前的天網(wǎng)通用搜索引擎的差別,并展望以后的工作。 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 12 第二章 天網(wǎng)搜索引擎系統(tǒng)結(jié)構(gòu) 統(tǒng)簡介 天網(wǎng)由于采用了可 伸縮的分布式結(jié)構(gòu)、查詢 引數(shù)據(jù)庫和檢索數(shù)據(jù)庫分開等先進、有效的技術(shù),使得系統(tǒng)占用資源少、信息收集速度快、用戶查詢響應時間快(系統(tǒng)對 上的查詢可在 1 秒鐘之內(nèi)作出響應)、查準率和查全率較高,基本達到了實用化程度。 系統(tǒng)在設(shè)計和實現(xiàn)過程中,充分考慮到了用戶和管理員的使用習慣,提供了瀏覽器、電子郵件、中英文用戶接口和方便使用、功能豐富的管理工具,因而有很好的可用性和易用性。 由于“天網(wǎng)”功能全面、性能突出,軟件世界雜志年第 7 期將“天網(wǎng)”評價為國內(nèi)最好的中英文搜索引擎。 在 2001 年 4 月,天網(wǎng)累計訪問量和索引網(wǎng)頁數(shù)均突破了 10, 000, 000。 “天網(wǎng) ”從 1997 年 10 月在 提供服務(wù)以來,得到了用戶的歡迎和好評。下面是不同時間統(tǒng)計的系統(tǒng)的使用情況: 時間 1998年 9月 1999 年 9 月 2000 年 5 月 2001 年 5 月 平均每天訪問人次 2200 10113 31817 51368 統(tǒng)結(jié)構(gòu)及各部分功能 天網(wǎng)系統(tǒng)主要由 息存取和分析子系統(tǒng) (主控程序 )、 息收集控制子系統(tǒng) (搜索器 )、資源索引數(shù)據(jù)庫、信息檢索子系統(tǒng)、管理和監(jiān)控子系統(tǒng)等幾個部分組成。各 個部分的功能如 圖 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 13 息存取和分析子系統(tǒng)(主控程序) 根據(jù) 息收集控制子系統(tǒng)提供的 相關(guān)信息,使用 議,在 獲取相關(guān)資源,并能就對方主機返回的不同狀態(tài)碼作出相應處理。對取回的 面 (主要是 式 )進行分析,自動對中文編碼進行識別和轉(zhuǎn)化,對中文信息進行分詞、提取頁面的標題、關(guān)鍵詞、摘要以及其中的超鏈( 將分析的結(jié)果通過擴展 口提交給信息收集控制子系統(tǒng)。 息收集控制子系統(tǒng) (搜索器) 根據(jù)配置文件運用自然語言理解和知識獲取技術(shù)、引導信息收集系統(tǒng)優(yōu)先訪問特定知識領(lǐng)域和特定地域范圍內(nèi)的信息,向 取分析進程發(fā)送需訪問的 相關(guān)信息,接收其發(fā)回的訪問和分析結(jié)果。將相應的數(shù)據(jù)存入信息數(shù)據(jù)庫中。并對信息收集的頻度和流量加以控制。 源索引數(shù)據(jù)庫 存儲收集到的 息,以及分析的結(jié)果。并對其重新進行基于詞的分級檔 取、分析 收集控制子系統(tǒng) 信息檢索子系統(tǒng) 務(wù)器 資源索引數(shù)據(jù)庫 覽器 覽器 統(tǒng)總體結(jié)構(gòu)示意圖 理和監(jiān)控子系統(tǒng) 取、分析 四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 14 優(yōu)化索引,以加快查詢速度 息檢索子系統(tǒng) 提供基于 式的信息檢索服務(wù)。用戶通過任何標準的 覽器直接訪問。檢索系統(tǒng)可以支持在一次檢索中使用多個檢索詞 (中、英文 ),并支持檢索詞之間的邏輯關(guān)系(與、或)。還可以指定查詢的范圍和方式(精確、模糊)。檢索結(jié)果以 式返回給用戶。各項結(jié)果的標題與它所對應的 超鏈連接起來。用戶只需在瀏覽器中點中檢索結(jié)果項的標題,就能馬上取得相應頁面的實際內(nèi)容。命中的 面按它與用戶檢索關(guān)鍵詞的關(guān)聯(lián)程度排序,使用戶的檢索更有效率。系統(tǒng)還支持在上一次返回的結(jié)果中進行查詢。 理和監(jiān)控子系統(tǒng) 提供系統(tǒng)配置,啟動、停止、監(jiān)控、統(tǒng)計等管理功能。 信息收集控制 子系統(tǒng)與 取分析進程之間的信息交互是通過 接來實現(xiàn)的,因此各子系統(tǒng)可以分布運行于網(wǎng)絡(luò)中不同的主機上。 控程序及搜索器的實現(xiàn) 控程序 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 15 數(shù)據(jù)庫 取分析 取分析 主進程 . . . r o b o t s 存取分析進程 結(jié)果插入進程 期檢查進程 S O C K E T 接口 S O I F 數(shù)據(jù)格式 P I P E 接口 S O I F 數(shù)據(jù)格式 通過信號 S I G U S R 1 通知 N e w u r l 處理進程 未訪問 u r l 選取進程 U r l C a c h e N e w U r l C a c h e 圖 2 . 2 主控的系統(tǒng)結(jié)構(gòu) 主控程序 主控程序的系統(tǒng)結(jié)構(gòu)如圖 示,其中帶陰影的模塊是實現(xiàn)天網(wǎng)主題搜索引擎時候需要改動的部分,在第四章將會詳細介紹。 原主控程序的流程如圖 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 16 初始化工作 : 1 、 根據(jù)命令行參數(shù)設(shè)置部分環(huán)境變量,包括初始目錄、創(chuàng)建數(shù)據(jù)庫、訪問間隔; 2 、 讀配置文件; 3 、 初始化運行信息、 初始化共享內(nèi)存 (用于管理程序監(jiān)控主控狀態(tài)) 、 初 始 化 新 u r l c a c h e 及未訪問 u r l c a c h e ; 4 、 創(chuàng) 建 子 進 程 ,包 括 r o b o t 存取分析進程、 u r l 選 取 進 程 、新 u r l 插入進程、 4 個新 u r u r l 檢查進程等 d a e m o n ; 5 、 設(shè)置初始 u r l ; 6 、 打開數(shù)據(jù)庫、插入初始 u r l 、設(shè)置信號函數(shù); 7 、 建立主控監(jiān)聽套接字; 設(shè)置 s e l e c t ( ) 的描述符集和超時時間, s e l e c t ( ) 等待事件 超 時? 檢查是否有等待未訪問U R L 的搜索器,若有則選擇并發(fā)送 U R L 。 有新的連接到來? 接 受 連 接 , 分 配 一 個s t r u c t c o n n 的表項。 有數(shù)據(jù)到來? 調(diào)用函數(shù) P r o c e s s ( ) 處理數(shù)據(jù)包。 主循環(huán): 圖 2 . 3 主進程系統(tǒng)流程 索器 主控程序 搜索器 搜索器 程 共享內(nèi)存 圖 索器模塊圖 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 17 搜索器,負責收集主控進程指定的網(wǎng)頁, 分析網(wǎng)頁,提取網(wǎng)頁中的信息,將收集的信息回送給主控進程。主控進程和收集分析進程之間通過擴展的 口交換數(shù)據(jù)。搜索器在運行時會將它的進程號,正在收集的 前所處的狀態(tài),如正在與目標主機建立連接、正在等待主控進程分發(fā) ,記錄在共享內(nèi)存中,供管理程序使用。 搜索器在分析一個網(wǎng)頁的時候,可以得到這個網(wǎng)頁上的所有超鏈接 于每一個 索器都給它賦予一定的權(quán)值,才返回給主控程序,以便主控程序按照一定的順序在下一輪發(fā)給搜索器。 下面這個公式用來計算 權(quán)值(未考慮導向詞): = + 其中 示 各個域的權(quán)值。 示到目前為止,這個超鏈接被其他網(wǎng)頁引用的次數(shù)。 示它的上一級雙親 示這個 目錄的深度,越深的目錄,這個 結(jié) 這一章,簡單介紹了完整的天網(wǎng)搜索引擎的系統(tǒng)結(jié)構(gòu),并重點分析了其中的主控程序和搜索器的實現(xiàn)流程和 擇算法。在下面的兩章筆者將會闡述如何對這兩部分修改以實現(xiàn)主題搜索功能。第三章將著重分析導向詞、特征提取、權(quán)威和中心網(wǎng)頁、超鏈分析以及網(wǎng)頁評分等多種主題搜集策略的運用。第四章將會詳細介紹這些方法在天網(wǎng)主題搜索引擎的實現(xiàn)上的具體應用。 第四代搜索引擎 天網(wǎng)主題搜索引擎的設(shè)計與實現(xiàn) 北京大學學士論文 18 第三章 主題搜索策略 向詞 向詞及權(quán)值的配置 導向詞就是一組關(guān)鍵詞,它們會引導搜索器按照一定順序搜索整個網(wǎng)絡(luò),使得搜索引擎可以在最短的時 間里面得到最全面的跟某一個主題相關(guān)的信息。通過設(shè)置導向詞以及它們對應的不同權(quán)值,所有標題、作者、正文或超連接文本中含有某一導向詞的網(wǎng)頁都會被賦予較高的權(quán)值,在搜索的時候會優(yōu)先考慮。搜索器在向主控程序獲得 時候也是按照權(quán)值由高到低的順序。反之,搜索器在向主控程序提交新的 它的權(quán)值的時候,主控程序會按照權(quán)值預先排序,以便下一次有序的發(fā)給搜索器。 權(quán)值的設(shè)置有兩種方法,第一種是根據(jù)管理員的經(jīng)驗手工設(shè)置,第二種是給定一個跟主題有關(guān)的網(wǎng)頁集合,由程序自動提取這些網(wǎng)頁里面共同的特征,在這些網(wǎng)頁里面都出現(xiàn) 的很多的關(guān)鍵詞,它就被選作導向詞。我們把第二種方法稱為“特征提取”。手工設(shè)置的好處是實現(xiàn)簡單,同時人的經(jīng)驗一般比較準確,跟實際情況不會出現(xiàn)大的偏差,缺點是導向詞可能有缺漏,權(quán)值的量化定義不夠精確;特征提取的優(yōu)點是權(quán)值量化定義精確,但是它要求選取用來提取特征的網(wǎng)頁集合必須是非常有代表性而且是全面概括的,否則導向詞就可能實現(xiàn)很大的偏差。綜合這兩種方法的優(yōu)缺點,我們的系統(tǒng)采用了這兩種方法的結(jié)合策略: 1 手工設(shè)置好一組導向詞和它們對應的權(quán)值; 2 用這組導向詞到原搜索引擎中查找出對應的網(wǎng)頁; 3 按權(quán)值的比例選取一定數(shù)量的網(wǎng) 頁

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論