【畢業(yè)學(xué)位論文】(Word原稿)搜索引擎的日志分析:方法、技術(shù)和應(yīng)用-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)搜索引擎的日志分析:方法、技術(shù)和應(yīng)用-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)搜索引擎的日志分析:方法、技術(shù)和應(yīng)用-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)搜索引擎的日志分析:方法、技術(shù)和應(yīng)用-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)搜索引擎的日志分析:方法、技術(shù)和應(yīng)用-計(jì)算機(jī)系網(wǎng)絡(luò)與分布式系統(tǒng)_第5頁
已閱讀5頁,還剩56頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 i 摘 要 搜索引擎技術(shù)的出現(xiàn)幫助為 戶在浩如煙海的 快速發(fā)現(xiàn)、定位信息帶來了福音,目前搜索引擎已經(jīng)是 除 外使用最多的服務(wù)。目前搜索引擎面臨的主要困難是檢索質(zhì)量不高,用戶滿意度不高。 本文試圖通過分析“天網(wǎng)”搜索引擎的日志來得到用戶訪問“天網(wǎng)”系統(tǒng)的一般性規(guī)律,并從分析結(jié)果出發(fā)改造搜索引擎。為此,我們安排了兩組實(shí)驗(yàn),一組實(shí)驗(yàn)是試探性的,我們統(tǒng)計(jì)了用戶訪問“天網(wǎng)”系統(tǒng)的查詢、翻頁、點(diǎn)擊行為,希望從中得到一些規(guī)律;另一組實(shí)驗(yàn)是針對(duì)性的,我們針對(duì) 統(tǒng)設(shè)計(jì)了一組實(shí)驗(yàn),希 望能驗(yàn)證 統(tǒng)的必要性和可行性,并對(duì) 統(tǒng)的構(gòu)成、組織進(jìn)行模擬測試。通過這些工作,我們發(fā)現(xiàn)了用戶訪問“天網(wǎng)”系統(tǒng)的一些規(guī)律,發(fā)現(xiàn)了用戶的查詢?cè)~序列、點(diǎn)擊 列、以及索引端的單詞訪問序列都具有較強(qiáng)的集中性、長期穩(wěn)定性以及短期相關(guān)性,它們從不同角度說明了訪問局部性,這個(gè)計(jì)算機(jī)科學(xué)中經(jīng)常討論的核心現(xiàn)象之一,在海量網(wǎng)絡(luò)信息環(huán)境下的具體體現(xiàn)。 從實(shí)驗(yàn)分析結(jié)果出發(fā),論文還報(bào)告了對(duì)“天網(wǎng)”系統(tǒng)三個(gè)方面的改進(jìn):新增“位置相關(guān)性”模塊來提高查詢質(zhì)量;改造 統(tǒng)來提高響應(yīng)速度;增加自動(dòng)目錄導(dǎo)航服 務(wù)來引導(dǎo)用戶,從而全面提高了天網(wǎng)系統(tǒng)的能力和質(zhì)量。 關(guān)鍵詞 :搜索引擎,日志分析,位置相關(guān)性,目錄導(dǎo)航服務(wù) 北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 to on it on of of of so to of to We of of of in so on We to is we of to of we We to to of to of 京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 錄 摘要 . i . 一章 引言 . 1 究背景 . 1 究方法 . 2 文主要貢獻(xiàn) . 3 文組織 . 4 第二章 相關(guān)研究 . 5 索引擎 . 5 索引擎發(fā)展歷史 . 5 索引擎分類 . 6 索引擎發(fā)展趨勢 . 8 索引擎存在的問題 . 9 于 搜索引擎基本原理 . 10 掘 . 11 容挖掘 . 12 問信息挖掘 . 12 構(gòu)挖掘 . 13 索引擎日志挖掘 . 14 第三章“天網(wǎng)”搜索引擎日志分析及其結(jié)論 . 16 驗(yàn)設(shè)置 . 16 天網(wǎng)”搜索引擎 . 16 天網(wǎng)”日志格式 . 17 驗(yàn)數(shù)據(jù) . 17 義和假設(shè) . 18 戶行為分析 . 18 戶信息統(tǒng)計(jì) . 19 詢?cè)~分析 . 21 頁行為分析 . 23 戶點(diǎn)擊行為分析 . 24 3.3 關(guān)實(shí)驗(yàn) . 26 北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 局部性分析 . 27 戶查詢內(nèi)容的局部性分析 . 27 戶點(diǎn)擊的局部性分析 . 32 詢中單詞的局部性分析 . 33 換算法模擬 . 35 章小結(jié) . 37 第四章 “天網(wǎng)”系統(tǒng)的改進(jìn) . 39 置相關(guān)性模塊 . 39 置相關(guān)性模塊的設(shè)計(jì) . 39 置相關(guān)性模塊的實(shí)現(xiàn) . 40 天網(wǎng)”搜索引擎 統(tǒng)設(shè)計(jì) . 42 塊的設(shè)計(jì) . 42 統(tǒng)的實(shí)現(xiàn) . 43 天網(wǎng)”搜索引擎自動(dòng)目錄導(dǎo)航服務(wù) . 44 文網(wǎng)頁分類器 . 44 練集及分類體系 . 44 文網(wǎng)頁分類器的實(shí)現(xiàn) . 45 動(dòng)導(dǎo)航服務(wù)的設(shè)計(jì) . 48 章小結(jié) . 49 第五章 總結(jié)與展望 . 51 結(jié) . 51 望 . 52 參考資料 . 53 作者參加的科研項(xiàng)目和取得的成果 . 56 致謝 . 57 北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 1 第一章 引言 究背景 萬維網(wǎng)( 稱 因特網(wǎng)上最成功的應(yīng)用,它最初由歐洲粒子實(shí)驗(yàn)室 物理學(xué)家 1989 年 3 月提出,并于 1993 年 2 月,隨著 第一個(gè)圖形界面瀏覽器 發(fā)布而達(dá)到了其發(fā)展的高峰 1。 1995 年 4 月, 網(wǎng)上的流量超過了 其它服務(wù)的流量,成為 的第一大應(yīng)用服務(wù)。到 1997 年 12 月,網(wǎng)上大約有 3 億 2000 萬網(wǎng)頁2。在最近幾年里, 得到了長足的發(fā)展。根據(jù) 索引擎在 2000年的數(shù)據(jù)庫數(shù)據(jù)表明,網(wǎng)頁數(shù)目已經(jīng)超過了 10 億,共有 點(diǎn) 4,951,2473。根據(jù) 索引擎在 2002 年 4 月索引網(wǎng)頁表明,網(wǎng)頁數(shù)已經(jīng)超過 20 億 4。 1994 年 陸中國, 在短短幾年的時(shí)間內(nèi)飛速發(fā)展。根據(jù) 國互聯(lián)網(wǎng)絡(luò)信息中心 )在 2003 年 1 月的統(tǒng)計(jì)信息表明 5,我國上網(wǎng)計(jì)算機(jī)數(shù)約 2083萬臺(tái),其中專線上網(wǎng)計(jì)算機(jī)數(shù)為 403 萬臺(tái),撥號(hào)上網(wǎng)計(jì)算機(jī)數(shù)為 1480 萬臺(tái);我國上網(wǎng)用戶人數(shù)約 5910 萬人,其中專線上網(wǎng)的用戶人數(shù)為 2023 萬,撥號(hào)上網(wǎng)的用戶人數(shù)為 4080 萬, 網(wǎng)的用戶人數(shù)為 432 萬,寬帶上網(wǎng)的用戶人數(shù)為 660萬( 通過多種方式上網(wǎng)的用戶被重復(fù)計(jì)入各種上網(wǎng)方式中,故各種方式上網(wǎng)用戶數(shù)之和大于上網(wǎng)用戶總數(shù)) 。除計(jì)算機(jī)外同時(shí)使用其它設(shè)備(移動(dòng)終端、信息家電)上網(wǎng)的 用戶人數(shù)為 153 萬。 點(diǎn)數(shù)約為 371,600 個(gè)(注冊(cè)數(shù))。 大陸 址總數(shù)為 29,002,240 個(gè) 。“天網(wǎng)”搜索引擎 6在 2002 年底對(duì)中國國內(nèi)互聯(lián)網(wǎng)的一次搜集結(jié)果顯示 7,全國至少存在 個(gè) 活躍網(wǎng)頁,涉及到 42,678 個(gè) 隨著 迅速發(fā)展,網(wǎng)上的信息也飛速膨脹。用戶的主要問題不是信息不夠,而是信息過剩( 如何幫助人們有效的利用 海量信息資源就成為當(dāng)務(wù)之急,而首要的任務(wù)便是發(fā)現(xiàn)信息 人們迫切需要有效的 航工具,協(xié)助用戶 找到所需的信息。目前提供 航的系統(tǒng)主要分為兩大類。第一類是目錄導(dǎo)航系統(tǒng)。它主要是通過具有專業(yè)知識(shí)的網(wǎng)頁編輯人員人工地對(duì)網(wǎng)頁進(jìn)行精選,建立索引目錄,向用戶提供目錄導(dǎo)航服務(wù)。用戶可以沿著分類目錄的層次結(jié)構(gòu),進(jìn)入自己感興趣的主題,進(jìn)而找到所需的信息。這類系統(tǒng)的特點(diǎn)是服務(wù)質(zhì)量較高,用戶能夠比較迅速地定位到他所關(guān)心的內(nèi)容,但系統(tǒng)維護(hù)的網(wǎng)頁數(shù)量有限,從而覆蓋的內(nèi)容范圍也有限。其典型代表是 8的目錄系統(tǒng)。第二類是 搜索引擎系統(tǒng)。它通過被稱為 程序自動(dòng)地在網(wǎng)上沿著超文本鏈遞歸地收 集網(wǎng)頁,分析頁面的內(nèi)容,生成索引和摘要,并向用戶提供 詢頁面,根據(jù)用戶的查詢請(qǐng)求在索引庫中查找相關(guān)信息在北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 2 網(wǎng)上的位置,最后將查詢結(jié)果按照相關(guān)度排序后返回。這類系統(tǒng)的優(yōu)點(diǎn)是涵蓋的網(wǎng)頁數(shù)量巨大,但服務(wù)質(zhì)量相對(duì)比較低,用戶通常需要在一個(gè)長長的返回結(jié)果清單上,根據(jù)簡單的摘要,來判斷哪些條目是他所需要的。 由于目錄系統(tǒng)覆蓋的信息范圍有限,在 息爆炸式增長的形勢下,使用搜索引擎的人越來越多,顯示了取代目錄系統(tǒng)的趨勢, 成功就是最好的例子。根據(jù) 2003 年 1 月的統(tǒng)計(jì)信息表明 5, 用戶經(jīng)常使用搜索引擎服務(wù),僅次于 。搜索引擎已經(jīng)成為用戶得知新網(wǎng)站的最主要途徑( 。并且,幾個(gè)著名的搜索引擎一直都穩(wěn)定的處于全球訪問量最大的 50 個(gè)網(wǎng)站之列 9。 搜 索 引 擎 的 典 型 代 表 34 ,它提供對(duì) 30 億 文 檔 ( 其 中 包 括2,073,418,204 張網(wǎng)頁 )的訪問,利用高效的算法和龐大的機(jī)器資源,向用戶提供高質(zhì)量的檢索服務(wù)。每天的查詢量超過 1 億。國內(nèi)的搜索引擎中,具代表性的是北京大學(xué)網(wǎng)絡(luò)與分布式實(shí)驗(yàn)室研究開發(fā)的“天網(wǎng)” (索引擎。自 1997年 10 月正式在 提供查詢服務(wù)以來,受到學(xué)術(shù)界和用戶的廣泛好評(píng)。現(xiàn)在“天網(wǎng)”系統(tǒng)提供超過 1 億中文網(wǎng)頁的查詢服務(wù)。每天的查詢量接近 20 萬 。 究方法 搜索引擎,作為一種信息檢索系統(tǒng),衡量它的查詢質(zhì)量有兩個(gè)重要的標(biāo)準(zhǔn),“查全率”和“查準(zhǔn)率” 10。查全率在信息檢索領(lǐng)域的定義是 系統(tǒng)在進(jìn)行某一檢索時(shí),檢出的相關(guān)文獻(xiàn)量與系統(tǒng)文獻(xiàn)庫中相關(guān)文獻(xiàn)總量的比率,它反映該系統(tǒng)文獻(xiàn)庫中實(shí)有的相關(guān)文獻(xiàn)量在多大程度上被檢索出來。對(duì)于搜索引擎,查全率是指搜索引擎返回的結(jié)果占 所有相關(guān)網(wǎng)頁的比率 。查準(zhǔn)率在信息檢索領(lǐng)域的定義是系統(tǒng)在進(jìn)行某一檢索時(shí),檢出的相關(guān)文獻(xiàn)量與檢出文獻(xiàn)總量的比率,它反映每次從該系統(tǒng)文獻(xiàn)庫中實(shí)際檢出的全部文獻(xiàn)中有多少是相關(guān)的。對(duì)于搜索引擎 ,查準(zhǔn)率是指在返回結(jié)果中相關(guān)頁面占返回結(jié)果頁面總量的比率。其中查全率主要通過分布抓取、抓取動(dòng)態(tài)網(wǎng)頁來改進(jìn)。對(duì)于查準(zhǔn)率,因?yàn)榕袛嗑W(wǎng)頁是否相關(guān)是用戶的主觀感受,改進(jìn)查準(zhǔn)率并沒有普適的方法。 用戶訪問搜索引擎的基本操作包括:提交查詢、瀏覽結(jié)果頁面和在結(jié)果頁面中點(diǎn)擊相關(guān)的網(wǎng)頁。用戶的查詢意圖以及對(duì)結(jié)果的滿意程度都體現(xiàn)在這些行為中。這些行為都記錄在搜索引 擎的用戶日志中。分析用戶日志可以得到用戶使用搜索引擎的基本特征,以這些基本特征為依據(jù)改進(jìn)搜索引擎,可以提高搜索引擎的服務(wù)質(zhì)量。 北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 3 本文中,我們對(duì)“天網(wǎng)”搜索引擎的日志數(shù)據(jù)進(jìn)行分析,一方面,我們對(duì)日志數(shù)據(jù)進(jìn)行一些基本的統(tǒng)計(jì)并分析其結(jié)果,希望能從中獲得一般用戶訪問“天網(wǎng)”的模式,用戶的查詢特性等。另一方面,我們針對(duì)搜索引擎的 統(tǒng)設(shè)計(jì)了一系列實(shí)驗(yàn),希望能驗(yàn)證 合理性和可行性,并對(duì) 換算法以日志數(shù)據(jù)為輸入進(jìn)行模擬實(shí)驗(yàn),選擇最佳的替換算法。 根據(jù)實(shí)驗(yàn)結(jié)果,我們對(duì)“天網(wǎng)”搜索引擎做了三處 改進(jìn): 1)位置相關(guān)性系統(tǒng)。在返回查詢結(jié)果進(jìn)行排序時(shí)不僅僅考慮查詢?cè)~中單詞出現(xiàn)的次數(shù),還要考慮它們的位置相關(guān)關(guān)系,來提高搜索引擎的查詢質(zhì)量。 2)新的 統(tǒng)。我們根據(jù)日志分析結(jié)果重新設(shè)計(jì)了查詢端 新增了索引端 高用戶查詢的響應(yīng)速度。 3)自動(dòng)目錄導(dǎo)航服務(wù)。調(diào)查顯示,很多用戶并不能準(zhǔn)確的用查詢?cè)~來表明自己的查詢意圖,需要進(jìn)一步的指導(dǎo)。所以我們?yōu)樘炀W(wǎng)系統(tǒng)設(shè)計(jì)并實(shí)現(xiàn)了自動(dòng)目錄導(dǎo)航服務(wù),用戶可以沿目錄結(jié)構(gòu)到達(dá)自己感興趣的類別,在相關(guān)類別中瀏覽或者查詢。 文主要貢獻(xiàn) 1提出了一套分析搜索引擎日志數(shù)據(jù)的方法 本文以“天網(wǎng)”搜索引擎一個(gè)月的日志數(shù)據(jù)為例,發(fā)展了一套分析搜索引擎日志數(shù)據(jù)的方法,包括數(shù)據(jù)的采集,統(tǒng)計(jì)的測度,分析的角度等幾個(gè)方面。利用該方法,我們得到了查詢?nèi)罩緝?nèi)容的一些基本性質(zhì),尤其是從高頻訪問比例、日志序列的長期穩(wěn)定性、日志序列的短期相關(guān)性三個(gè)角度定量刻畫了訪問搜索引擎的內(nèi)容局部性。這種局部性不僅是對(duì)網(wǎng)絡(luò)信息基本性質(zhì)的一種刻畫,也是對(duì)利用高搜索引擎訪問性能的一種理論基礎(chǔ)。 2 開發(fā)了一種利用位置相關(guān)性提高網(wǎng)絡(luò)信息查詢質(zhì)量的技術(shù) 本文提出了一套基于單 詞位置相關(guān)關(guān)系進(jìn)行檢索和排序的技術(shù),該技術(shù)涉及網(wǎng)頁的抓取、存儲(chǔ)、檢索、定序等多個(gè)方面,突破了傳統(tǒng)的搜索引擎只考慮關(guān)鍵詞出現(xiàn)的次數(shù)而不考慮它們之間的位置關(guān)系的檢索方法。該技術(shù)不僅適用于搜索引擎系統(tǒng),還可以應(yīng)用于其他信息檢索系統(tǒng)來提高查詢質(zhì)量,目前這項(xiàng)技術(shù)已經(jīng)申請(qǐng)專利,并且成功的運(yùn)用在“天網(wǎng)”搜索引擎系統(tǒng)中。 3 實(shí)現(xiàn)了天網(wǎng)自動(dòng)目錄導(dǎo)航服務(wù) 北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 4 本文提出了自動(dòng)目錄導(dǎo)航服務(wù)的實(shí)現(xiàn)方法,自動(dòng)目錄導(dǎo)航服務(wù)涉及網(wǎng)頁的存儲(chǔ)、分類、查詢等多個(gè)方面。利用這套方法,只需增加少量代碼,就可以在信息系統(tǒng)中方便快捷的添加自動(dòng)目錄導(dǎo)航服務(wù) 。 文組織 后面各章的內(nèi)容如下,第二章是相關(guān)研究,主要介紹一些搜索引擎、 掘、搜索引擎日志挖掘的相關(guān)內(nèi)容;第三章講述對(duì)日志數(shù)據(jù)所做的實(shí)驗(yàn)及其結(jié)論;第四章講述根據(jù)實(shí)驗(yàn)結(jié)果對(duì)“天網(wǎng)”系統(tǒng)做的一些改進(jìn);第五章是對(duì)文章內(nèi)容的總結(jié)與對(duì)未來工作的展望。 北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 5 第二章 相關(guān)研究 索引擎 人們帶來了巨大的方便,使人們可以跨越時(shí)間和空間的界限共享大量的信息??梢栽诩抑兄苯渔湹娇蒲袡C(jī)構(gòu)的網(wǎng)站上閱讀感興趣的文獻(xiàn);可以足不出戶購買需要的東西;可以實(shí)時(shí)了解國內(nèi)外的新聞實(shí)事。但是,面對(duì)如此大量的信息 ,人們同時(shí)也開始感到無所適從。太多的信息使他們很難迅速定位到真正需要的信息,而跟隨超鏈在 漫游則會(huì)浪費(fèi)大量的時(shí)間,而且很可能徒勞無功。因此,人們迫切需要有效的信息發(fā)現(xiàn)工具來為他們?cè)?進(jìn)行導(dǎo)航。這種需求導(dǎo)致了搜索引擎的問世。搜索引擎迅速成為人們網(wǎng)上搜索的有效工具。 索引擎發(fā)展歷史 如何在 包含海量信息 的互聯(lián)網(wǎng)上獲得有價(jià)值的信息 一直是 戶 關(guān)注的焦點(diǎn) 問題。搜索技術(shù)的出現(xiàn)為 用戶 快速 定位 所需信息帶來了福音。 1993 年, 覽器 年 出了 覽器的發(fā)展促使 到迅速推廣,同時(shí)也推動(dòng)著搜索引擎的發(fā)展。 1994 年春天 出現(xiàn)了最早的真正意義上的搜索引擎 當(dāng)時(shí) 序接入到其索引程序中 ,實(shí)現(xiàn)網(wǎng)頁的自動(dòng)發(fā)現(xiàn)和索引。隨后 , 相繼出現(xiàn)。 這些 搜索引擎主要出于研究目的,解決的主要問題是“查全率”。 它們一般都索引少于 100 萬個(gè)網(wǎng)頁,響應(yīng)時(shí)間都在10 秒以上。 我們稱之為第 0 代搜索引擎。 1996 年出現(xiàn)了第 1 代搜索引擎 。這些搜索引擎一般每天能夠接受 1000 萬次檢索,并且能夠索引大約 5000 萬網(wǎng)頁。這一代搜索引擎的代表是 們的實(shí)現(xiàn)方法大不相同。 用大型的多處理器計(jì)算機(jī)來支持它們搜索引擎的運(yùn)轉(zhuǎn);而 采用分布式方案來解決搜索引擎對(duì)計(jì)算能力的要求。 大約到了 1998 年,出現(xiàn)了第 2 代搜索引擎。此時(shí),搜索引擎技術(shù)得到了空前的發(fā)展。這個(gè)時(shí)期搜索引擎發(fā)展的主要特點(diǎn)有: 1)開始出現(xiàn)了主題搜索和地域搜索。很多小型的垂直門戶站點(diǎn)開始使用這些技術(shù)。 2) 隨著 大型多處理器計(jì)算 機(jī)以及分布式技術(shù)的應(yīng)用,搜索引擎搜集、索引網(wǎng)頁的能力得到空前的提高。這個(gè)時(shí)期的搜索引擎都試圖收集“整個(gè) “查全率”問題已不是主要矛盾。 但是隨著索引網(wǎng)頁規(guī)模的擴(kuò)大,檢索結(jié)果的準(zhǔn)確性成北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 6 了主要問題。檢索結(jié)果相關(guān)度評(píng)價(jià)或“查準(zhǔn)率”問題成為研究的焦點(diǎn)。其典型代表為 關(guān)的研究又可以分為兩類:一類是對(duì)超文本鏈的分析,在這方面 學(xué)的 統(tǒng)和 統(tǒng)作出了很大的貢獻(xiàn);另一類是用戶信息的反饋, 統(tǒng)采用的就是這種方法。 索引擎分類 盡管目前存在數(shù)量眾多的搜索引擎,但根據(jù)它們所基于的技術(shù)原理,可以把它們分成三大主要類型:基于機(jī)器人 ( 的搜索引擎、目錄式 ( 索引擎和元 ( 搜索引擎。 1) 基于機(jī)器人的搜索引擎 這種搜索引擎的特點(diǎn)是利用一個(gè)稱為 或 程序以某種策略在互聯(lián)網(wǎng)中自動(dòng)搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶。服務(wù)方式是 面向網(wǎng)頁的全文檢索服務(wù)?;?搜索引擎一般要定期訪問大多數(shù)以前搜集的網(wǎng)頁 來 刷新 索引 ,以反映出網(wǎng)頁的更新情況 。同時(shí)還要 去除一些死鏈接 和 鏡像 網(wǎng)頁 。網(wǎng)頁 部分內(nèi)容 的 變化情況將會(huì)反映到用戶查詢的結(jié)果中,這是基于 搜索引擎的一個(gè)重要特征。該類搜索引擎的優(yōu)點(diǎn)是信息量大、更新及時(shí)、毋需人工干預(yù),缺點(diǎn)是返回信息過多,有很多無關(guān)信息,用戶必須從結(jié)果中進(jìn)行篩選。這類搜索引擎的代表 國外有 ;國內(nèi) 有天網(wǎng)、 百度、悠游等。 2) 目錄式搜索引擎 這種搜索引擎以人工方式或半自動(dòng)方式搜集信息。目錄 式 搜索引擎的數(shù)據(jù)庫是依靠專職編輯或志愿人員建立起來的 。 這些編輯人員在訪問了某個(gè) 點(diǎn)后撰寫一段對(duì)該站點(diǎn)的描述,并根據(jù)站點(diǎn)的內(nèi)容和性質(zhì)將其歸為一個(gè)預(yù)先分好的類別,把站點(diǎn)的 描述放在這個(gè)類別中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。很多目錄也接受用戶提交的網(wǎng)站和描述,當(dāng)目錄的編輯人員認(rèn)可該網(wǎng)站及描述后,就會(huì)將之添加到合適的類別中。目錄的用戶界面基本上都是分級(jí)結(jié)構(gòu),首頁提供了最基本的 幾個(gè)大類的入口,用戶可以 按照目錄結(jié)構(gòu)層層向下訪問,直至找到自己感興趣的類別 。 另外,用戶也可以利用目錄提供的搜索功能直接查找一個(gè)關(guān)鍵詞,該類搜索引擎因?yàn)榧尤肓巳说闹悄?,因此用戶從目錄搜索得到的結(jié)果往往比從基于 搜索引擎得到的結(jié)果更具參考價(jià)值 。 缺點(diǎn)是需要人工介入、維護(hù)量大、信息量少、信息更新不及時(shí)。這類搜索引擎的代表有 。 北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 7 3) 元搜索引擎 元搜索引擎 通常 被稱為搜索引擎之上的搜索引擎。用戶只需遞交一次檢索 請(qǐng) 求 , 由 元 搜 索 引 擎 負(fù) 責(zé) 轉(zhuǎn) 換 處 理 后 提 交 給 多 個(gè) 預(yù) 先 選 定 的 獨(dú) 立 搜 索 引擎,并將所有查詢 結(jié)果集中起來以整體統(tǒng)一的格式呈現(xiàn)到用戶面前。由于采用了一系列的優(yōu)化運(yùn)行機(jī)制,能夠在盡可能短的時(shí)間內(nèi)提供相對(duì)全面、準(zhǔn)確的信息,而且即使不能完全滿足用戶需求,仍可以作為相對(duì)可靠的參考源進(jìn)行擴(kuò)展搜索,因此成為倍受推崇的檢索首選入口。一個(gè)真正的元搜索引擎由三部分組成:檢索請(qǐng)求提交機(jī)制、檢索接口代理機(jī)制、檢索結(jié)果顯示機(jī)制?!罢?qǐng)求提交 ”負(fù)責(zé)實(shí)現(xiàn)用戶的檢索設(shè)置要求,包括調(diào)用哪些搜索引擎、檢索時(shí)間限制、結(jié)果數(shù)量限制等。 “接口代理 ”負(fù)責(zé)將用戶的檢索請(qǐng)求 “翻譯 ”成滿足不同搜索引擎 “本地化 ”要求的格式。 “結(jié)果顯示 ”負(fù)責(zé)所有源搜索 引擎檢索結(jié)果的去重、合并、輸出處理等。這類搜索引擎的代表 有 : 。 這三類搜索引擎中,元搜索引擎是基于第 1 類和第 2 類搜索引擎的。第一類搜索引擎(基于 搜索引擎)與第二類搜索引擎(目錄式搜索引擎)各有如下特點(diǎn): 1)基于 搜索引擎自動(dòng)收集、分析和處理網(wǎng)頁,因而它索引的網(wǎng)頁數(shù)多,信息量大,并且能夠定期重新收集網(wǎng)頁,更新索引庫的內(nèi)容,向用戶提供最新的 頁信息。但是它只提供基于關(guān)鍵詞的檢索,用戶只有確切的知道自己 感興趣的網(wǎng)頁含有哪些關(guān)鍵詞時(shí),查詢的效果才比較理想。否則,返回的結(jié)果很可能和用戶的實(shí)際需求“風(fēng)馬牛不相及”。 2) 目錄式搜索引擎支持基于分類目錄的查詢。目錄式搜索引擎對(duì)收集的網(wǎng)頁采用人工分類。由于這種人工方式對(duì)網(wǎng)頁內(nèi)容的理解比較準(zhǔn)確,因此查詢的準(zhǔn)確性優(yōu)于 搜索引擎。當(dāng)用戶對(duì)某個(gè)領(lǐng)域感興趣但并 不 熟 悉 這 個(gè) 領(lǐng) 域 的 關(guān) 鍵 詞 時(shí) , 這 種 查 詢 方 式 能 為 用 戶 提 供 更 好 的 服務(wù)。由于人工分類效率低,網(wǎng)頁更新困難,目錄式搜索引擎在索引的網(wǎng)頁的規(guī)模上受到了很大的限制。 搜索引擎索引的網(wǎng)頁數(shù)量早以突 破十億級(jí),而 停留在千萬級(jí)的水平。 由于目錄式搜索引擎完全采用人工進(jìn)行網(wǎng)頁的搜集和分類,其網(wǎng)頁規(guī)模和更新速度與 網(wǎng)頁總量和網(wǎng)頁更新速度相差太遠(yuǎn),其涵蓋的范圍無法滿足用戶的需要,已經(jīng)逐漸被基于 搜索引擎代替。同時(shí),基于搜索引擎在用戶的抱怨聲中不斷成長,不斷改進(jìn)檢索質(zhì)量,目前已經(jīng)成為 戶發(fā)現(xiàn)網(wǎng)上信息必不可少的工具。 北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 8 索引擎發(fā)展趨勢 目前正處于第 3 代搜索引擎的研發(fā)階段。這一代的搜索引擎沒有某個(gè)單一的目標(biāo)。它 需要跟上 發(fā)展速度,為 用戶 提供 更快、 更準(zhǔn)確的查詢結(jié)果。 智能化、個(gè)性化、專業(yè)化成為其追求的目標(biāo)。下面簡單介紹一下 第 3 代搜索引擎 技術(shù) 的研究熱點(diǎn)。 1) 多媒體搜索引擎 。 隨著寬帶技術(shù)的發(fā)展,未來的互聯(lián)網(wǎng)是多媒體數(shù)據(jù)的時(shí)代。 音頻、 視頻 、 圖像將取代文本成為互聯(lián)網(wǎng)上主要的信息 。 開發(fā) 基于內(nèi)容檢索的多媒體搜索引擎 是一個(gè)新的 發(fā)展 方向。 供了號(hào)稱“互聯(lián)網(wǎng)上最好用的”圖像搜索工具。瑞典的 一家公司 (制出動(dòng)態(tài)的和有聲的多媒體搜索引擎。微軟中國研究院目前 也在研究 視頻文件搜索 技術(shù)。 2) 個(gè)性化搜索引擎 。 個(gè)性化的核心是 根 據(jù)用戶注冊(cè)的信息以及 通過跟蹤分析用戶的搜索行為,充分利用這些信息來提高搜索引擎 查準(zhǔn)率 。通過積累用戶的搜索個(gè)性化數(shù)據(jù),使用戶的搜索更加精確。這種搜索行為分析技術(shù)是一種正在發(fā)展中的搜索引擎人機(jī)界面技術(shù)。 目前真正意義上的個(gè)性化搜索引擎產(chǎn)品還沒有出現(xiàn)。有些號(hào)稱“ 個(gè)性化 ” 的 搜索引擎 還停留在用戶“定制”這個(gè)階段。 著名搜索引擎都開展了 個(gè)性化搜索引擎 的研制工作。 3) 智能化搜索引擎 傳統(tǒng)的搜索引擎對(duì)要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來實(shí)現(xiàn),缺乏知識(shí)處理能力和理解能力,智能 化 搜索引擎把信息檢索從 目前基于關(guān)鍵詞 的 層面提高到基于知識(shí)(或概念) 的 層面。智能搜索引擎對(duì)知識(shí)有一定的理解與處理能力,能夠?qū)崿F(xiàn) 智能 分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識(shí)別以及機(jī)器翻譯技術(shù)等。 它 允許 用戶 采用自然語言進(jìn)行信息檢索,為他們提供更方便、更確切的搜索服務(wù)。知識(shí)庫是實(shí)現(xiàn)智能搜索的基礎(chǔ)和核心?;ヂ?lián)網(wǎng)是信息庫。要做到智能搜索還必須做到知識(shí)庫和信息庫結(jié)合的問題。 同時(shí), 要做到兩個(gè)核心庫的有機(jī)結(jié)合要做到以下三點(diǎn):語義分析、知識(shí)管理 和 知識(shí)檢索 。 由于采取了知識(shí)庫為基礎(chǔ)的語義分析,在進(jìn)行檢索過程中,采用的不是關(guān)鍵詞全文檢索,而是基于概念的檢索 ,因此檢索結(jié)果更加精確。此外, 傳統(tǒng)的搜索引擎 僅能提供 被動(dòng)搜索 服務(wù)。而 智能化搜索引擎利用智能代理技術(shù)進(jìn)行主動(dòng)信息檢索。 這類搜索引擎的 國內(nèi)的 代表 有 尤里卡( ) 等 ; 國 外 的 代表 有 ) 等。 4) 主題搜索引擎 主題搜索的目標(biāo)是預(yù)先定義若干個(gè)主題,然 后盡可能多的搜集與該主題相關(guān)的網(wǎng)頁。如果該網(wǎng)頁與預(yù)定義主題相關(guān),就做進(jìn)一步的處理;如果不相關(guān),則拋棄該網(wǎng)頁。這樣處理的結(jié)果是,系統(tǒng)最終只處理了北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 9 所有網(wǎng)頁的一部分,也就是與預(yù)定義主題相關(guān)的網(wǎng)頁。它的目標(biāo)不是搜集所有的網(wǎng)頁,然后回答用戶的所有問題。而是僅僅處理與預(yù)定義主題相關(guān)的網(wǎng)頁。這樣處理的好處是可以節(jié)省大量的存儲(chǔ)空間和具有較高的更新頻率。在較短的時(shí)間內(nèi)就可以把主題領(lǐng)域內(nèi)的網(wǎng)頁全部更新一遍,這樣能夠跟上 網(wǎng)頁變化。而且對(duì)用戶而言,如果她對(duì)該主題感興趣,那么系統(tǒng)在該領(lǐng)域的信息是最詳盡的。 5) 動(dòng) 態(tài)網(wǎng)頁 抓取 所謂動(dòng)態(tài)網(wǎng)頁是指在 務(wù)器上并不存在實(shí)際 的靜態(tài) 頁面。當(dāng)服務(wù)器接收到客戶端對(duì)一個(gè)動(dòng)態(tài)網(wǎng)頁的訪問請(qǐng)求時(shí), 務(wù)器通常 通過調(diào)用相應(yīng)的 序文件,并把包含在 求中的程序參數(shù)傳遞給 序,程序按照調(diào)用參數(shù)實(shí)時(shí)產(chǎn)生 出, 務(wù)器再將程序產(chǎn)生的 出返回給用戶。通過 序與 據(jù)庫的結(jié)合 , 實(shí)時(shí)生成動(dòng)態(tài)網(wǎng)頁 的數(shù)據(jù)規(guī)模比較龐大。因此,搜索引擎如何有效收集、索引動(dòng)態(tài)網(wǎng)頁成為研究熱點(diǎn)之一。 索引擎存在的問題 同第 1 代搜索引擎技術(shù)相比,第 2 代搜索引擎在 各方面都得到了很大的提高,但是現(xiàn)有的搜索引擎技術(shù)仍然不能滿足用戶的需求。 2001 年, 調(diào)查指出 35, 36%的互聯(lián)網(wǎng)用戶一個(gè)星期花了超過 2 個(gè)小時(shí)時(shí)間在網(wǎng)上搜索; 71%的用戶在使用搜索引擎的時(shí)候遇到過麻煩;平均搜索 12 分鐘以后發(fā)現(xiàn)搜索受挫;搜索受挫中 46%都是因?yàn)殒溄渝e(cuò)誤; 86%的互聯(lián)網(wǎng)用戶感到應(yīng)當(dāng)出現(xiàn)更有效的、準(zhǔn)確的信息搜索技術(shù)。 另一項(xiàng)由 做的調(diào)查顯示,人們平均每天有四個(gè)問題需要從外界獲取答案;其中 31%的人使用搜索引擎尋找答案;平均每周花費(fèi) 上查找 答案的,半數(shù)以上都不成功。 從這些調(diào)查數(shù)據(jù)中不難看出,目前的搜索引擎仍然存在不少的局限性。造成上述信息檢索困難的原因的實(shí)質(zhì)在于傳統(tǒng)的搜索引擎對(duì)要檢索的信息僅僅采用機(jī)械的關(guān)鍵詞匹配來實(shí)現(xiàn),缺乏知識(shí)處理能力和理解能力,也就是說搜索引擎無法處理在用戶看來是非常普通的常識(shí)性知識(shí),更不能處理隨用戶不同而變化的個(gè)性化知識(shí)等。搜索引擎如何學(xué)習(xí)這些知識(shí)呢?因?yàn)樗阉饕鎻母旧险f是為搜索引擎的用戶提供服務(wù),其根本目的是為了查詢結(jié)果得到用戶的許可。這樣就需要研究用戶們的行為,從中獲取用戶使用搜索引擎的一般性規(guī)律,這就等于學(xué)到 一些用戶認(rèn)同的“普遍常識(shí)”,并用這些規(guī)律來對(duì)搜索引擎進(jìn)行有針對(duì)性的改進(jìn)。對(duì)于某些用戶(譬如經(jīng)常訪問搜速引擎的用戶),可以考察其特性,為其提供“量身訂做”的服務(wù)。搜索引擎的用戶日志中記錄了用戶訪問搜索引擎的大量數(shù)據(jù),對(duì)其進(jìn)行分析可以得到用戶用戶訪問搜索引擎的一般性規(guī)律和某些用戶的特性。這對(duì)于改進(jìn)搜索引擎的檢索質(zhì)量是有幫助的。 北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 10 于 搜索引擎基本原理 因?yàn)楸疚闹械乃袑?shí)驗(yàn)和結(jié)論都是針對(duì)“天網(wǎng)”搜索引擎的,前文中提到,“天網(wǎng)”屬于基于 搜索引擎。下面簡要介紹一下這類搜索引擎的基 本工作原理。搜索引擎的通用結(jié)構(gòu)如圖 所示。 圖 2 . 4 搜 索 引 擎 的 通 用 結(jié) 構(gòu) ( 摘 自 1 4 ) 圖 2索引擎通用結(jié)構(gòu)圖(摘自 11) 搜索引擎的工作包括如下 3 個(gè)過程: 12 1)搜集 息:發(fā)現(xiàn)、搜集 的網(wǎng)頁信息。需要有高性能的搜集器自動(dòng)的在 搜索信息。 息搜集器是下載 網(wǎng)頁的程序。它順著網(wǎng)頁之間的鏈接移動(dòng),自動(dòng)下載所經(jīng)過的網(wǎng)頁。給定起始 合 S, 中移除 載相應(yīng)的網(wǎng)頁,解析出網(wǎng)頁中的超鏈接未訪問過的 入 集合 S。 集器也稱作 器人或 集器把所獲得的信息保存下來以備建立索引庫和用戶檢索。 2)索引庫的建立:對(duì)搜集到的 息提取和組織,建立索引庫。這關(guān)系到用戶能否迅速找到準(zhǔn)確、廣泛的信息。對(duì)搜集器抓來的網(wǎng)頁信息快速建立索引,通常采用倒排表技術(shù)。如果在建立索引庫的過程中對(duì)用戶在檢索端搜北京大學(xué)碩士學(xué)位論文 搜索引擎的日志分析:方法、技術(shù)和應(yīng)用 11 索的查詢串進(jìn)行跟蹤,并對(duì)查詢頻率高的查詢串建立 以在檢索端請(qǐng)求時(shí),加快索引庫的響應(yīng)速度。 3)檢索端的查詢:根據(jù)用戶輸入的查詢字串,在索引庫中快速檢索出文檔。采用基于網(wǎng)頁內(nèi)容分析和基于超鏈 分析相結(jié)合的方法進(jìn)行相關(guān)度評(píng)價(jià),對(duì)檢索出的網(wǎng)頁進(jìn)行客觀的排序,從而盡量保證搜索出的結(jié)果與用戶的查詢串相一致。然后將輸出的結(jié)果返回給用戶。為了加快檢索端的響應(yīng)速度,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論