【畢業(yè)學(xué)位論文】（Word原稿）搜索引擎的日志分析：方法、技術(shù)和應(yīng)用-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)

上傳人：O*** IP屬地：四川上傳時(shí)間：2016-07-10 格式：DOC 頁數(shù)：61 大小：2.66MB 積分：20 舉報(bào) 版權(quán)申訴

【畢業(yè)學(xué)位論文】（Word原稿）搜索引擎的日志分析：方法、技術(shù)和應(yīng)用-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第2頁

【畢業(yè)學(xué)位論文】（Word原稿）搜索引擎的日志分析：方法、技術(shù)和應(yīng)用-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第3頁

【畢業(yè)學(xué)位論文】（Word原稿）搜索引擎的日志分析：方法、技術(shù)和應(yīng)用-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第4頁

【畢業(yè)學(xué)位論文】（Word原稿）搜索引擎的日志分析：方法、技術(shù)和應(yīng)用-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第5頁

已閱讀5頁，還剩56頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用 i 摘要搜索引擎技術(shù)的出現(xiàn)幫助為戶在浩如煙海的快速發(fā)現(xiàn)、定位信息帶來了福音，目前搜索引擎已經(jīng)是除外使用最多的服務(wù)。目前搜索引擎面臨的主要困難是檢索質(zhì)量不高，用戶滿意度不高。本文試圖通過分析“天網(wǎng)”搜索引擎的日志來得到用戶訪問“天網(wǎng)”系統(tǒng)的一般性規(guī)律，并從分析結(jié)果出發(fā)改造搜索引擎。為此，我們安排了兩組實(shí)驗(yàn)，一組實(shí)驗(yàn)是試探性的，我們統(tǒng)計(jì)了用戶訪問“天網(wǎng)”系統(tǒng)的查詢、翻頁、點(diǎn)擊行為，希望從中得到一些規(guī)律；另一組實(shí)驗(yàn)是針對(duì)性的，我們針對(duì) 統(tǒng)設(shè)計(jì)了一組實(shí)驗(yàn)，希望能驗(yàn)證統(tǒng)的必要性和可行性，并對(duì) 統(tǒng)的構(gòu)成、組織進(jìn)行模擬測試。通過這些工作，我們發(fā)現(xiàn)了用戶訪問“天網(wǎng)”系統(tǒng)的一些規(guī)律，發(fā)現(xiàn)了用戶的查詢?cè)~序列、點(diǎn)擊列、以及索引端的單詞訪問序列都具有較強(qiáng)的集中性、長期穩(wěn)定性以及短期相關(guān)性，它們從不同角度說明了訪問局部性，這個(gè)計(jì)算機(jī)科學(xué)中經(jīng)常討論的核心現(xiàn)象之一，在海量網(wǎng)絡(luò)信息環(huán)境下的具體體現(xiàn)。從實(shí)驗(yàn)分析結(jié)果出發(fā)，論文還報(bào)告了對(duì)“天網(wǎng)”系統(tǒng)三個(gè)方面的改進(jìn)：新增“位置相關(guān)性”模塊來提高查詢質(zhì)量；改造統(tǒng)來提高響應(yīng)速度；增加自動(dòng)目錄導(dǎo)航服務(wù)來引導(dǎo)用戶，從而全面提高了天網(wǎng)系統(tǒng)的能力和質(zhì)量。關(guān)鍵詞：搜索引擎，日志分析，位置相關(guān)性，目錄導(dǎo)航服務(wù) 北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用 to on it on of of of so to of to We of of of in so on We to is we of to of we We to to of to of 京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用錄摘要 . i . 一章引言 . 1 究背景 . 1 究方法 . 2 文主要貢獻(xiàn) . 3 文組織 . 4 第二章相關(guān)研究 . 5 索引擎 . 5 索引擎發(fā)展歷史 . 5 索引擎分類 . 6 索引擎發(fā)展趨勢 . 8 索引擎存在的問題 . 9 于搜索引擎基本原理 . 10 掘 . 11 容挖掘 . 12 問信息挖掘 . 12 構(gòu)挖掘 . 13 索引擎日志挖掘 . 14 第三章“天網(wǎng)”搜索引擎日志分析及其結(jié)論 . 16 驗(yàn)設(shè)置 . 16 天網(wǎng)”搜索引擎 . 16 天網(wǎng)”日志格式 . 17 驗(yàn)數(shù)據(jù) . 17 義和假設(shè) . 18 戶行為分析 . 18 戶信息統(tǒng)計(jì) . 19 詢?cè)~分析 . 21 頁行為分析 . 23 戶點(diǎn)擊行為分析 . 24 3.3 關(guān)實(shí)驗(yàn) . 26 北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用局部性分析 . 27 戶查詢內(nèi)容的局部性分析 . 27 戶點(diǎn)擊的局部性分析 . 32 詢中單詞的局部性分析 . 33 換算法模擬 . 35 章小結(jié) . 37 第四章 “天網(wǎng)”系統(tǒng)的改進(jìn) . 39 置相關(guān)性模塊 . 39 置相關(guān)性模塊的設(shè)計(jì) . 39 置相關(guān)性模塊的實(shí)現(xiàn) . 40 天網(wǎng)”搜索引擎統(tǒng)設(shè)計(jì) . 42 塊的設(shè)計(jì) . 42 統(tǒng)的實(shí)現(xiàn) . 43 天網(wǎng)”搜索引擎自動(dòng)目錄導(dǎo)航服務(wù) . 44 文網(wǎng)頁分類器 . 44 練集及分類體系 . 44 文網(wǎng)頁分類器的實(shí)現(xiàn) . 45 動(dòng)導(dǎo)航服務(wù)的設(shè)計(jì) . 48 章小結(jié) . 49 第五章總結(jié)與展望 . 51 結(jié) . 51 望 . 52 參考資料 . 53 作者參加的科研項(xiàng)目和取得的成果 . 56 致謝 . 57 北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用 1 第一章引言究背景萬維網(wǎng)（稱因特網(wǎng)上最成功的應(yīng)用，它最初由歐洲粒子實(shí)驗(yàn)室物理學(xué)家 1989 年 3 月提出，并于 1993 年 2 月，隨著第一個(gè)圖形界面瀏覽器發(fā)布而達(dá)到了其發(fā)展的高峰 1。 1995 年 4 月，網(wǎng)上的流量超過了其它服務(wù)的流量，成為的第一大應(yīng)用服務(wù)。到 1997 年 12 月，網(wǎng)上大約有 3 億 2000 萬網(wǎng)頁2。在最近幾年里，得到了長足的發(fā)展。根據(jù) 索引擎在 2000年的數(shù)據(jù)庫數(shù)據(jù)表明，網(wǎng)頁數(shù)目已經(jīng)超過了 10 億，共有點(diǎn) 4,951,2473。根據(jù) 索引擎在 2002 年 4 月索引網(wǎng)頁表明，網(wǎng)頁數(shù)已經(jīng)超過 20 億 4。 1994 年陸中國，在短短幾年的時(shí)間內(nèi)飛速發(fā)展。根據(jù) 國互聯(lián)網(wǎng)絡(luò)信息中心 )在 2003 年 1 月的統(tǒng)計(jì)信息表明 5，我國上網(wǎng)計(jì)算機(jī)數(shù)約 2083萬臺(tái)，其中專線上網(wǎng)計(jì)算機(jī)數(shù)為 403 萬臺(tái)，撥號(hào)上網(wǎng)計(jì)算機(jī)數(shù)為 1480 萬臺(tái)；我國上網(wǎng)用戶人數(shù)約 5910 萬人，其中專線上網(wǎng)的用戶人數(shù)為 2023 萬，撥號(hào)上網(wǎng)的用戶人數(shù)為 4080 萬，網(wǎng)的用戶人數(shù)為 432 萬，寬帶上網(wǎng)的用戶人數(shù)為 660萬（通過多種方式上網(wǎng)的用戶被重復(fù)計(jì)入各種上網(wǎng)方式中，故各種方式上網(wǎng)用戶數(shù)之和大于上網(wǎng)用戶總數(shù)）。除計(jì)算機(jī)外同時(shí)使用其它設(shè)備（移動(dòng)終端、信息家電）上網(wǎng)的用戶人數(shù)為 153 萬。點(diǎn)數(shù)約為 371,600 個(gè)（注冊(cè)數(shù)）。大陸址總數(shù)為 29,002,240 個(gè) 。“天網(wǎng)”搜索引擎 6在 2002 年底對(duì)中國國內(nèi)互聯(lián)網(wǎng)的一次搜集結(jié)果顯示 7，全國至少存在個(gè) 活躍網(wǎng)頁，涉及到 42,678 個(gè) 隨著迅速發(fā)展，網(wǎng)上的信息也飛速膨脹。用戶的主要問題不是信息不夠，而是信息過剩（如何幫助人們有效的利用海量信息資源就成為當(dāng)務(wù)之急，而首要的任務(wù)便是發(fā)現(xiàn)信息人們迫切需要有效的航工具，協(xié)助用戶找到所需的信息。目前提供航的系統(tǒng)主要分為兩大類。第一類是目錄導(dǎo)航系統(tǒng)。它主要是通過具有專業(yè)知識(shí)的網(wǎng)頁編輯人員人工地對(duì)網(wǎng)頁進(jìn)行精選，建立索引目錄，向用戶提供目錄導(dǎo)航服務(wù)。用戶可以沿著分類目錄的層次結(jié)構(gòu)，進(jìn)入自己感興趣的主題，進(jìn)而找到所需的信息。這類系統(tǒng)的特點(diǎn)是服務(wù)質(zhì)量較高，用戶能夠比較迅速地定位到他所關(guān)心的內(nèi)容，但系統(tǒng)維護(hù)的網(wǎng)頁數(shù)量有限，從而覆蓋的內(nèi)容范圍也有限。其典型代表是 8的目錄系統(tǒng)。第二類是搜索引擎系統(tǒng)。它通過被稱為程序自動(dòng)地在網(wǎng)上沿著超文本鏈遞歸地收集網(wǎng)頁，分析頁面的內(nèi)容，生成索引和摘要，并向用戶提供詢頁面，根據(jù)用戶的查詢請(qǐng)求在索引庫中查找相關(guān)信息在北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用 2 網(wǎng)上的位置，最后將查詢結(jié)果按照相關(guān)度排序后返回。這類系統(tǒng)的優(yōu)點(diǎn)是涵蓋的網(wǎng)頁數(shù)量巨大，但服務(wù)質(zhì)量相對(duì)比較低，用戶通常需要在一個(gè)長長的返回結(jié)果清單上，根據(jù)簡單的摘要，來判斷哪些條目是他所需要的。由于目錄系統(tǒng)覆蓋的信息范圍有限，在息爆炸式增長的形勢下，使用搜索引擎的人越來越多，顯示了取代目錄系統(tǒng)的趨勢，成功就是最好的例子。根據(jù) 2003 年 1 月的統(tǒng)計(jì)信息表明 5，用戶經(jīng)常使用搜索引擎服務(wù)，僅次于。搜索引擎已經(jīng)成為用戶得知新網(wǎng)站的最主要途徑（。并且，幾個(gè)著名的搜索引擎一直都穩(wěn)定的處于全球訪問量最大的 50 個(gè)網(wǎng)站之列 9。搜索引擎的典型代表 34 ，它提供對(duì) 30 億文檔 ( 其中包括2,073,418,204 張網(wǎng)頁 )的訪問，利用高效的算法和龐大的機(jī)器資源，向用戶提供高質(zhì)量的檢索服務(wù)。每天的查詢量超過 1 億。國內(nèi)的搜索引擎中，具代表性的是北京大學(xué)網(wǎng)絡(luò)與分布式實(shí)驗(yàn)室研究開發(fā)的“天網(wǎng)” (索引擎。自 1997年 10 月正式在提供查詢服務(wù)以來，受到學(xué)術(shù)界和用戶的廣泛好評(píng)。現(xiàn)在“天網(wǎng)”系統(tǒng)提供超過 1 億中文網(wǎng)頁的查詢服務(wù)。每天的查詢量接近 20 萬。究方法搜索引擎，作為一種信息檢索系統(tǒng)，衡量它的查詢質(zhì)量有兩個(gè)重要的標(biāo)準(zhǔn)，“查全率”和“查準(zhǔn)率” 10。查全率在信息檢索領(lǐng)域的定義是系統(tǒng)在進(jìn)行某一檢索時(shí)，檢出的相關(guān)文獻(xiàn)量與系統(tǒng)文獻(xiàn)庫中相關(guān)文獻(xiàn)總量的比率，它反映該系統(tǒng)文獻(xiàn)庫中實(shí)有的相關(guān)文獻(xiàn)量在多大程度上被檢索出來。對(duì)于搜索引擎，查全率是指搜索引擎返回的結(jié)果占所有相關(guān)網(wǎng)頁的比率。查準(zhǔn)率在信息檢索領(lǐng)域的定義是系統(tǒng)在進(jìn)行某一檢索時(shí)，檢出的相關(guān)文獻(xiàn)量與檢出文獻(xiàn)總量的比率，它反映每次從該系統(tǒng)文獻(xiàn)庫中實(shí)際檢出的全部文獻(xiàn)中有多少是相關(guān)的。對(duì)于搜索引擎，查準(zhǔn)率是指在返回結(jié)果中相關(guān)頁面占返回結(jié)果頁面總量的比率。其中查全率主要通過分布抓取、抓取動(dòng)態(tài)網(wǎng)頁來改進(jìn)。對(duì)于查準(zhǔn)率，因?yàn)榕袛嗑W(wǎng)頁是否相關(guān)是用戶的主觀感受，改進(jìn)查準(zhǔn)率并沒有普適的方法。用戶訪問搜索引擎的基本操作包括：提交查詢、瀏覽結(jié)果頁面和在結(jié)果頁面中點(diǎn)擊相關(guān)的網(wǎng)頁。用戶的查詢意圖以及對(duì)結(jié)果的滿意程度都體現(xiàn)在這些行為中。這些行為都記錄在搜索引擎的用戶日志中。分析用戶日志可以得到用戶使用搜索引擎的基本特征，以這些基本特征為依據(jù)改進(jìn)搜索引擎，可以提高搜索引擎的服務(wù)質(zhì)量。北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用 3 本文中，我們對(duì)“天網(wǎng)”搜索引擎的日志數(shù)據(jù)進(jìn)行分析，一方面，我們對(duì)日志數(shù)據(jù)進(jìn)行一些基本的統(tǒng)計(jì)并分析其結(jié)果，希望能從中獲得一般用戶訪問“天網(wǎng)”的模式，用戶的查詢特性等。另一方面，我們針對(duì)搜索引擎的統(tǒng)設(shè)計(jì)了一系列實(shí)驗(yàn)，希望能驗(yàn)證合理性和可行性，并對(duì) 換算法以日志數(shù)據(jù)為輸入進(jìn)行模擬實(shí)驗(yàn)，選擇最佳的替換算法。根據(jù)實(shí)驗(yàn)結(jié)果，我們對(duì)“天網(wǎng)”搜索引擎做了三處改進(jìn)： 1）位置相關(guān)性系統(tǒng)。在返回查詢結(jié)果進(jìn)行排序時(shí)不僅僅考慮查詢?cè)~中單詞出現(xiàn)的次數(shù)，還要考慮它們的位置相關(guān)關(guān)系，來提高搜索引擎的查詢質(zhì)量。 2）新的統(tǒng)。我們根據(jù)日志分析結(jié)果重新設(shè)計(jì)了查詢端新增了索引端高用戶查詢的響應(yīng)速度。 3）自動(dòng)目錄導(dǎo)航服務(wù)。調(diào)查顯示，很多用戶并不能準(zhǔn)確的用查詢?cè)~來表明自己的查詢意圖，需要進(jìn)一步的指導(dǎo)。所以我們?yōu)樘炀W(wǎng)系統(tǒng)設(shè)計(jì)并實(shí)現(xiàn)了自動(dòng)目錄導(dǎo)航服務(wù)，用戶可以沿目錄結(jié)構(gòu)到達(dá)自己感興趣的類別，在相關(guān)類別中瀏覽或者查詢。文主要貢獻(xiàn) 1提出了一套分析搜索引擎日志數(shù)據(jù)的方法本文以“天網(wǎng)”搜索引擎一個(gè)月的日志數(shù)據(jù)為例，發(fā)展了一套分析搜索引擎日志數(shù)據(jù)的方法，包括數(shù)據(jù)的采集，統(tǒng)計(jì)的測度，分析的角度等幾個(gè)方面。利用該方法，我們得到了查詢?nèi)罩緝?nèi)容的一些基本性質(zhì)，尤其是從高頻訪問比例、日志序列的長期穩(wěn)定性、日志序列的短期相關(guān)性三個(gè)角度定量刻畫了訪問搜索引擎的內(nèi)容局部性。這種局部性不僅是對(duì)網(wǎng)絡(luò)信息基本性質(zhì)的一種刻畫，也是對(duì)利用高搜索引擎訪問性能的一種理論基礎(chǔ)。 2 開發(fā)了一種利用位置相關(guān)性提高網(wǎng)絡(luò)信息查詢質(zhì)量的技術(shù) 本文提出了一套基于單詞位置相關(guān)關(guān)系進(jìn)行檢索和排序的技術(shù)，該技術(shù)涉及網(wǎng)頁的抓取、存儲(chǔ)、檢索、定序等多個(gè)方面，突破了傳統(tǒng)的搜索引擎只考慮關(guān)鍵詞出現(xiàn)的次數(shù)而不考慮它們之間的位置關(guān)系的檢索方法。該技術(shù)不僅適用于搜索引擎系統(tǒng)，還可以應(yīng)用于其他信息檢索系統(tǒng)來提高查詢質(zhì)量，目前這項(xiàng)技術(shù)已經(jīng)申請(qǐng)專利，并且成功的運(yùn)用在“天網(wǎng)”搜索引擎系統(tǒng)中。 3 實(shí)現(xiàn)了天網(wǎng)自動(dòng)目錄導(dǎo)航服務(wù) 北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用 4 本文提出了自動(dòng)目錄導(dǎo)航服務(wù)的實(shí)現(xiàn)方法，自動(dòng)目錄導(dǎo)航服務(wù)涉及網(wǎng)頁的存儲(chǔ)、分類、查詢等多個(gè)方面。利用這套方法，只需增加少量代碼，就可以在信息系統(tǒng)中方便快捷的添加自動(dòng)目錄導(dǎo)航服務(wù) 。文組織后面各章的內(nèi)容如下，第二章是相關(guān)研究，主要介紹一些搜索引擎、掘、搜索引擎日志挖掘的相關(guān)內(nèi)容；第三章講述對(duì)日志數(shù)據(jù)所做的實(shí)驗(yàn)及其結(jié)論；第四章講述根據(jù)實(shí)驗(yàn)結(jié)果對(duì)“天網(wǎng)”系統(tǒng)做的一些改進(jìn)；第五章是對(duì)文章內(nèi)容的總結(jié)與對(duì)未來工作的展望。北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用 5 第二章相關(guān)研究索引擎人們帶來了巨大的方便，使人們可以跨越時(shí)間和空間的界限共享大量的信息?？梢栽诩抑兄苯渔湹娇蒲袡C(jī)構(gòu)的網(wǎng)站上閱讀感興趣的文獻(xiàn)；可以足不出戶購買需要的東西；可以實(shí)時(shí)了解國內(nèi)外的新聞實(shí)事。但是，面對(duì)如此大量的信息，人們同時(shí)也開始感到無所適從。太多的信息使他們很難迅速定位到真正需要的信息，而跟隨超鏈在漫游則會(huì)浪費(fèi)大量的時(shí)間，而且很可能徒勞無功。因此，人們迫切需要有效的信息發(fā)現(xiàn)工具來為他們?cè)?進(jìn)行導(dǎo)航。這種需求導(dǎo)致了搜索引擎的問世。搜索引擎迅速成為人們網(wǎng)上搜索的有效工具。索引擎發(fā)展歷史如何在包含海量信息的互聯(lián)網(wǎng)上獲得有價(jià)值的信息一直是戶關(guān)注的焦點(diǎn) 問題。搜索技術(shù)的出現(xiàn)為用戶快速定位所需信息帶來了福音。 1993 年，覽器年出了覽器的發(fā)展促使到迅速推廣，同時(shí)也推動(dòng)著搜索引擎的發(fā)展。 1994 年春天出現(xiàn)了最早的真正意義上的搜索引擎當(dāng)時(shí) 序接入到其索引程序中，實(shí)現(xiàn)網(wǎng)頁的自動(dòng)發(fā)現(xiàn)和索引。隨后 , 相繼出現(xiàn)。這些搜索引擎主要出于研究目的，解決的主要問題是“查全率”。它們一般都索引少于 100 萬個(gè)網(wǎng)頁，響應(yīng)時(shí)間都在10 秒以上。我們稱之為第 0 代搜索引擎。 1996 年出現(xiàn)了第 1 代搜索引擎。這些搜索引擎一般每天能夠接受 1000 萬次檢索，并且能夠索引大約 5000 萬網(wǎng)頁。這一代搜索引擎的代表是們的實(shí)現(xiàn)方法大不相同。用大型的多處理器計(jì)算機(jī)來支持它們搜索引擎的運(yùn)轉(zhuǎn)；而采用分布式方案來解決搜索引擎對(duì)計(jì)算能力的要求。大約到了 1998 年，出現(xiàn)了第 2 代搜索引擎。此時(shí)，搜索引擎技術(shù)得到了空前的發(fā)展。這個(gè)時(shí)期搜索引擎發(fā)展的主要特點(diǎn)有： 1）開始出現(xiàn)了主題搜索和地域搜索。很多小型的垂直門戶站點(diǎn)開始使用這些技術(shù)。 2）隨著大型多處理器計(jì)算機(jī)以及分布式技術(shù)的應(yīng)用，搜索引擎搜集、索引網(wǎng)頁的能力得到空前的提高。這個(gè)時(shí)期的搜索引擎都試圖收集“整個(gè) “查全率”問題已不是主要矛盾。但是隨著索引網(wǎng)頁規(guī)模的擴(kuò)大，檢索結(jié)果的準(zhǔn)確性成北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用 6 了主要問題。檢索結(jié)果相關(guān)度評(píng)價(jià)或“查準(zhǔn)率”問題成為研究的焦點(diǎn)。其典型代表為關(guān)的研究又可以分為兩類：一類是對(duì)超文本鏈的分析，在這方面學(xué)的統(tǒng)和統(tǒng)作出了很大的貢獻(xiàn)；另一類是用戶信息的反饋，統(tǒng)采用的就是這種方法。索引擎分類盡管目前存在數(shù)量眾多的搜索引擎，但根據(jù)它們所基于的技術(shù)原理，可以把它們分成三大主要類型：基于機(jī)器人（的搜索引擎、目錄式（索引擎和元（搜索引擎。 1）基于機(jī)器人的搜索引擎這種搜索引擎的特點(diǎn)是利用一個(gè)稱為或程序以某種策略在互聯(lián)網(wǎng)中自動(dòng)搜集和發(fā)現(xiàn)信息，由索引器為搜集到的信息建立索引，由檢索器根據(jù)用戶的查詢輸入檢索索引庫，并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)?；?搜索引擎一般要定期訪問大多數(shù)以前搜集的網(wǎng)頁來刷新索引，以反映出網(wǎng)頁的更新情況。同時(shí)還要去除一些死鏈接和鏡像網(wǎng)頁。網(wǎng)頁部分內(nèi)容的變化情況將會(huì)反映到用戶查詢的結(jié)果中，這是基于搜索引擎的一個(gè)重要特征。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù)，缺點(diǎn)是返回信息過多，有很多無關(guān)信息，用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表國外有；國內(nèi) 有天網(wǎng)、百度、悠游等。 2）目錄式搜索引擎這種搜索引擎以人工方式或半自動(dòng)方式搜集信息。目錄式搜索引擎的數(shù)據(jù)庫是依靠專職編輯或志愿人員建立起來的。這些編輯人員在訪問了某個(gè) 點(diǎn)后撰寫一段對(duì)該站點(diǎn)的描述，并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別，把站點(diǎn)的描述放在這個(gè)類別中。信息大多面向網(wǎng)站，提供目錄瀏覽服務(wù)和直接檢索服務(wù)。很多目錄也接受用戶提交的網(wǎng)站和描述，當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后，就會(huì)將之添加到合適的類別中。目錄的用戶界面基本上都是分級(jí)結(jié)構(gòu)，首頁提供了最基本的幾個(gè)大類的入口，用戶可以按照目錄結(jié)構(gòu)層層向下訪問，直至找到自己感興趣的類別。另外，用戶也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞，該類搜索引擎因?yàn)榧尤肓巳说闹悄?，因此用戶從目錄搜索得到的結(jié)果往往比從基于搜索引擎得到的結(jié)果更具參考價(jià)值。缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表有。北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用 7 3）元搜索引擎元搜索引擎通常被稱為搜索引擎之上的搜索引擎。用戶只需遞交一次檢索請(qǐng) 求，由元搜索引擎負(fù) 責(zé) 轉(zhuǎn) 換處理后提交給多個(gè) 預(yù) 先選定的獨(dú) 立搜索引擎，并將所有查詢結(jié)果集中起來以整體統(tǒng)一的格式呈現(xiàn)到用戶面前。由于采用了一系列的優(yōu)化運(yùn)行機(jī)制，能夠在盡可能短的時(shí)間內(nèi)提供相對(duì)全面、準(zhǔn)確的信息，而且即使不能完全滿足用戶需求，仍可以作為相對(duì)可靠的參考源進(jìn)行擴(kuò)展搜索，因此成為倍受推崇的檢索首選入口。一個(gè)真正的元搜索引擎由三部分組成：檢索請(qǐng)求提交機(jī)制、檢索接口代理機(jī)制、檢索結(jié)果顯示機(jī)制?！罢?qǐng)求提交 ”負(fù)責(zé)實(shí)現(xiàn)用戶的檢索設(shè)置要求，包括調(diào)用哪些搜索引擎、檢索時(shí)間限制、結(jié)果數(shù)量限制等。 “接口代理 ”負(fù)責(zé)將用戶的檢索請(qǐng)求 “翻譯 ”成滿足不同搜索引擎 “本地化 ”要求的格式。 “結(jié)果顯示 ”負(fù)責(zé)所有源搜索引擎檢索結(jié)果的去重、合并、輸出處理等。這類搜索引擎的代表有：。這三類搜索引擎中，元搜索引擎是基于第 1 類和第 2 類搜索引擎的。第一類搜索引擎（基于搜索引擎）與第二類搜索引擎（目錄式搜索引擎）各有如下特點(diǎn)： 1）基于搜索引擎自動(dòng)收集、分析和處理網(wǎng)頁，因而它索引的網(wǎng)頁數(shù)多，信息量大，并且能夠定期重新收集網(wǎng)頁，更新索引庫的內(nèi)容，向用戶提供最新的頁信息。但是它只提供基于關(guān)鍵詞的檢索，用戶只有確切的知道自己感興趣的網(wǎng)頁含有哪些關(guān)鍵詞時(shí)，查詢的效果才比較理想。否則，返回的結(jié)果很可能和用戶的實(shí)際需求“風(fēng)馬牛不相及”。 2）目錄式搜索引擎支持基于分類目錄的查詢。目錄式搜索引擎對(duì)收集的網(wǎng)頁采用人工分類。由于這種人工方式對(duì)網(wǎng)頁內(nèi)容的理解比較準(zhǔn)確，因此查詢的準(zhǔn)確性優(yōu)于搜索引擎。當(dāng)用戶對(duì)某個(gè)領(lǐng)域感興趣但并不熟悉這個(gè) 領(lǐng) 域的關(guān) 鍵詞時(shí) ，這種查詢方式能為用戶提供更好的服務(wù)。由于人工分類效率低，網(wǎng)頁更新困難，目錄式搜索引擎在索引的網(wǎng)頁的規(guī)模上受到了很大的限制。搜索引擎索引的網(wǎng)頁數(shù)量早以突破十億級(jí)，而停留在千萬級(jí)的水平。由于目錄式搜索引擎完全采用人工進(jìn)行網(wǎng)頁的搜集和分類，其網(wǎng)頁規(guī)模和更新速度與網(wǎng)頁總量和網(wǎng)頁更新速度相差太遠(yuǎn)，其涵蓋的范圍無法滿足用戶的需要，已經(jīng)逐漸被基于搜索引擎代替。同時(shí)，基于搜索引擎在用戶的抱怨聲中不斷成長，不斷改進(jìn)檢索質(zhì)量，目前已經(jīng)成為戶發(fā)現(xiàn)網(wǎng)上信息必不可少的工具。北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用 8 索引擎發(fā)展趨勢目前正處于第 3 代搜索引擎的研發(fā)階段。這一代的搜索引擎沒有某個(gè)單一的目標(biāo)。它需要跟上發(fā)展速度，為用戶提供更快、更準(zhǔn)確的查詢結(jié)果。智能化、個(gè)性化、專業(yè)化成為其追求的目標(biāo)。下面簡單介紹一下第 3 代搜索引擎技術(shù) 的研究熱點(diǎn)。 1）多媒體搜索引擎。隨著寬帶技術(shù)的發(fā)展，未來的互聯(lián)網(wǎng)是多媒體數(shù)據(jù)的時(shí)代。音頻、視頻、圖像將取代文本成為互聯(lián)網(wǎng)上主要的信息。開發(fā) 基于內(nèi)容檢索的多媒體搜索引擎是一個(gè)新的發(fā)展方向。供了號(hào)稱“互聯(lián)網(wǎng)上最好用的”圖像搜索工具。瑞典的一家公司 (制出動(dòng)態(tài)的和有聲的多媒體搜索引擎。微軟中國研究院目前也在研究視頻文件搜索技術(shù)。 2）個(gè)性化搜索引擎。個(gè)性化的核心是根據(jù)用戶注冊(cè)的信息以及通過跟蹤分析用戶的搜索行為，充分利用這些信息來提高搜索引擎查準(zhǔn)率。通過積累用戶的搜索個(gè)性化數(shù)據(jù)，使用戶的搜索更加精確。這種搜索行為分析技術(shù)是一種正在發(fā)展中的搜索引擎人機(jī)界面技術(shù)。目前真正意義上的個(gè)性化搜索引擎產(chǎn)品還沒有出現(xiàn)。有些號(hào)稱“ 個(gè)性化 ” 的搜索引擎還停留在用戶“定制”這個(gè)階段。著名搜索引擎都開展了個(gè)性化搜索引擎的研制工作。 3）智能化搜索引擎傳統(tǒng)的搜索引擎對(duì)要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來實(shí)現(xiàn)，缺乏知識(shí)處理能力和理解能力，智能化搜索引擎把信息檢索從目前基于關(guān)鍵詞的層面提高到基于知識(shí)（或概念）的層面。智能搜索引擎對(duì)知識(shí)有一定的理解與處理能力，能夠?qū)崿F(xiàn) 智能分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識(shí)別以及機(jī)器翻譯技術(shù)等。它允許用戶采用自然語言進(jìn)行信息檢索，為他們提供更方便、更確切的搜索服務(wù)。知識(shí)庫是實(shí)現(xiàn)智能搜索的基礎(chǔ)和核心?；ヂ?lián)網(wǎng)是信息庫。要做到智能搜索還必須做到知識(shí)庫和信息庫結(jié)合的問題。同時(shí)，要做到兩個(gè)核心庫的有機(jī)結(jié)合要做到以下三點(diǎn)：語義分析、知識(shí)管理和知識(shí)檢索。由于采取了知識(shí)庫為基礎(chǔ)的語義分析，在進(jìn)行檢索過程中，采用的不是關(guān)鍵詞全文檢索，而是基于概念的檢索，因此檢索結(jié)果更加精確。此外，傳統(tǒng)的搜索引擎僅能提供被動(dòng)搜索服務(wù)。而智能化搜索引擎利用智能代理技術(shù)進(jìn)行主動(dòng)信息檢索。這類搜索引擎的國內(nèi)的代表有尤里卡（）等；國外的代表有）等。 4) 主題搜索引擎主題搜索的目標(biāo)是預(yù)先定義若干個(gè)主題，然后盡可能多的搜集與該主題相關(guān)的網(wǎng)頁。如果該網(wǎng)頁與預(yù)定義主題相關(guān)，就做進(jìn)一步的處理；如果不相關(guān)，則拋棄該網(wǎng)頁。這樣處理的結(jié)果是，系統(tǒng)最終只處理了北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用 9 所有網(wǎng)頁的一部分，也就是與預(yù)定義主題相關(guān)的網(wǎng)頁。它的目標(biāo)不是搜集所有的網(wǎng)頁，然后回答用戶的所有問題。而是僅僅處理與預(yù)定義主題相關(guān)的網(wǎng)頁。這樣處理的好處是可以節(jié)省大量的存儲(chǔ)空間和具有較高的更新頻率。在較短的時(shí)間內(nèi)就可以把主題領(lǐng)域內(nèi)的網(wǎng)頁全部更新一遍，這樣能夠跟上網(wǎng)頁變化。而且對(duì)用戶而言，如果她對(duì)該主題感興趣，那么系統(tǒng)在該領(lǐng)域的信息是最詳盡的。 5) 動(dòng) 態(tài)網(wǎng)頁抓取所謂動(dòng)態(tài)網(wǎng)頁是指在務(wù)器上并不存在實(shí)際的靜態(tài) 頁面。當(dāng)服務(wù)器接收到客戶端對(duì)一個(gè)動(dòng)態(tài)網(wǎng)頁的訪問請(qǐng)求時(shí)，務(wù)器通常通過調(diào)用相應(yīng)的序文件，并把包含在求中的程序參數(shù)傳遞給序，程序按照調(diào)用參數(shù)實(shí)時(shí)產(chǎn)生出，務(wù)器再將程序產(chǎn)生的出返回給用戶。通過序與據(jù)庫的結(jié)合，實(shí)時(shí)生成動(dòng)態(tài)網(wǎng)頁的數(shù)據(jù)規(guī)模比較龐大。因此，搜索引擎如何有效收集、索引動(dòng)態(tài)網(wǎng)頁成為研究熱點(diǎn)之一。索引擎存在的問題同第 1 代搜索引擎技術(shù)相比，第 2 代搜索引擎在各方面都得到了很大的提高，但是現(xiàn)有的搜索引擎技術(shù)仍然不能滿足用戶的需求。 2001 年，調(diào)查指出 35， 36%的互聯(lián)網(wǎng)用戶一個(gè)星期花了超過 2 個(gè)小時(shí)時(shí)間在網(wǎng)上搜索； 71%的用戶在使用搜索引擎的時(shí)候遇到過麻煩；平均搜索 12 分鐘以后發(fā)現(xiàn)搜索受挫；搜索受挫中 46%都是因?yàn)殒溄渝e(cuò)誤； 86%的互聯(lián)網(wǎng)用戶感到應(yīng)當(dāng)出現(xiàn)更有效的、準(zhǔn)確的信息搜索技術(shù)。另一項(xiàng)由做的調(diào)查顯示，人們平均每天有四個(gè)問題需要從外界獲取答案；其中 31%的人使用搜索引擎尋找答案；平均每周花費(fèi) 上查找答案的，半數(shù)以上都不成功。從這些調(diào)查數(shù)據(jù)中不難看出，目前的搜索引擎仍然存在不少的局限性。造成上述信息檢索困難的原因的實(shí)質(zhì)在于傳統(tǒng)的搜索引擎對(duì)要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來實(shí)現(xiàn)，缺乏知識(shí)處理能力和理解能力，也就是說搜索引擎無法處理在用戶看來是非常普通的常識(shí)性知識(shí)，更不能處理隨用戶不同而變化的個(gè)性化知識(shí)等。搜索引擎如何學(xué)習(xí)這些知識(shí)呢？因?yàn)樗阉饕鎻母旧险f是為搜索引擎的用戶提供服務(wù)，其根本目的是為了查詢結(jié)果得到用戶的許可。這樣就需要研究用戶們的行為，從中獲取用戶使用搜索引擎的一般性規(guī)律，這就等于學(xué)到一些用戶認(rèn)同的“普遍常識(shí)”，并用這些規(guī)律來對(duì)搜索引擎進(jìn)行有針對(duì)性的改進(jìn)。對(duì)于某些用戶（譬如經(jīng)常訪問搜速引擎的用戶），可以考察其特性，為其提供“量身訂做”的服務(wù)。搜索引擎的用戶日志中記錄了用戶訪問搜索引擎的大量數(shù)據(jù)，對(duì)其進(jìn)行分析可以得到用戶用戶訪問搜索引擎的一般性規(guī)律和某些用戶的特性。這對(duì)于改進(jìn)搜索引擎的檢索質(zhì)量是有幫助的。北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用 10 于搜索引擎基本原理因?yàn)楸疚闹械乃袑?shí)驗(yàn)和結(jié)論都是針對(duì)“天網(wǎng)”搜索引擎的，前文中提到，“天網(wǎng)”屬于基于搜索引擎。下面簡要介紹一下這類搜索引擎的基本工作原理。搜索引擎的通用結(jié)構(gòu)如圖所示。圖 2 . 4 搜索引擎的通用結(jié) 構(gòu) （摘自 1 4 ）圖 2索引擎通用結(jié)構(gòu)圖（摘自 11）搜索引擎的工作包括如下 3 個(gè)過程： 12 1）搜集息：發(fā)現(xiàn)、搜集的網(wǎng)頁信息。需要有高性能的搜集器自動(dòng)的在搜索信息。息搜集器是下載網(wǎng)頁的程序。它順著網(wǎng)頁之間的鏈接移動(dòng)，自動(dòng)下載所經(jīng)過的網(wǎng)頁。給定起始合 S，中移除載相應(yīng)的網(wǎng)頁，解析出網(wǎng)頁中的超鏈接未訪問過的入集合 S。集器也稱作器人或集器把所獲得的信息保存下來以備建立索引庫和用戶檢索。 2）索引庫的建立：對(duì)搜集到的息提取和組織，建立索引庫。這關(guān)系到用戶能否迅速找到準(zhǔn)確、廣泛的信息。對(duì)搜集器抓來的網(wǎng)頁信息快速建立索引，通常采用倒排表技術(shù)。如果在建立索引庫的過程中對(duì)用戶在檢索端搜北京大學(xué)碩士學(xué)位論文搜索引擎的日志分析：方法、技術(shù)和應(yīng)用 11 索的查詢串進(jìn)行跟蹤，并對(duì)查詢頻率高的查詢串建立以在檢索端請(qǐng)求時(shí)，加快索引庫的響應(yīng)速度。 3）檢索端的查詢：根據(jù)用戶輸入的查詢字串，在索引庫中快速檢索出文檔。采用基于網(wǎng)頁內(nèi)容分析和基于超鏈分析相結(jié)合的方法進(jìn)行相關(guān)度評(píng)價(jià)，對(duì)檢索出的網(wǎng)頁進(jìn)行客觀的排序，從而盡量保證搜索出的結(jié)果與用戶的查詢串相一致。然后將輸出的結(jié)果返回給用戶。為了加快檢索端的響應(yīng)速度，

人人文庫> 全部分類> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

【畢業(yè)學(xué)位論文】（Word原稿）搜索引擎的日志分析：方法、技術(shù)和應(yīng)用-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)

文檔簡介

溫馨提示

最新文檔

評(píng)論

【畢業(yè)學(xué)位論文】（Word原稿）搜索引擎的日志分析：方法、技術(shù)和應(yīng)用-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔

【畢業(yè)學(xué)位論文】（Word原稿）搜索引擎的日志分析：方法、技術(shù)和應(yīng)用-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)