面向主題的網(wǎng)絡(luò)爬蟲系統(tǒng)功能模塊設(shè)計探析_第1頁
面向主題的網(wǎng)絡(luò)爬蟲系統(tǒng)功能模塊設(shè)計探析_第2頁
面向主題的網(wǎng)絡(luò)爬蟲系統(tǒng)功能模塊設(shè)計探析_第3頁
面向主題的網(wǎng)絡(luò)爬蟲系統(tǒng)功能模塊設(shè)計探析_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、面向主題的網(wǎng)絡(luò)爬蟲系統(tǒng)功能模塊設(shè)計探析主題的相關(guān)性是非常核心的模塊,它決定了抓取到網(wǎng)頁是否與主題相關(guān),抓取到網(wǎng)頁質(zhì)量好壞等,可以說主題的相關(guān)性算法決定了面向主題網(wǎng)絡(luò)爬蟲的好壞,下面簡單介紹一下各個模塊的設(shè)計。1頁面爬取模塊設(shè)計當(dāng)前的主題網(wǎng)絡(luò)爬蟲主要有基于內(nèi)容的Fish-Searh,Shark-Searh策略,以及基于鏈接分析的PageRank方法,HITS算法等。在這些算法的核心思想中,它們總是傾向于抓取有較高相關(guān)度頁面下的鏈接頁面,然后直接丟掉相關(guān)度較低的頁面,這樣導(dǎo)致的一個問題就是爬蟲會在一個部分的范圍內(nèi)跳轉(zhuǎn),無法覆蓋多的頁面。抓取的深度的不夠,無法覆蓋更多的信息,而且其沒有考慮鏈接的權(quán)重

2、的不同,導(dǎo)致爬蟲的效率比擬低下。1.1隧道問題通過我們對以上的爬蟲搜索策略算法的分析指出,對于與主題相關(guān)的網(wǎng)頁主要的爬取頁面的來源,而對于與主題無關(guān)的網(wǎng)頁,一般會選擇丟棄。從總體來說,這種策略可以迅速的抓取到與主題相關(guān)的頁面,但是其存在的一個風(fēng)險就是,可能會間接丟棄大量與主題相關(guān)的頁面。隧道現(xiàn)象會導(dǎo)致召回reall不夠理想,無法滿足信息的覆蓋程度,對應(yīng)垂直搜索引擎來說,可能會導(dǎo)致信息沒法全面搜集的問題,無法完全滿足用戶的需求。因此,如何在保證頁面相關(guān)度的情況下,高效的抓取到更多與主題相關(guān)的頁面是當(dāng)前的研究重點。1.2站點權(quán)重問題基于鏈接分析的搜索策略中,根據(jù)考慮了各個鏈接的,該算法給所有的網(wǎng)頁

3、的頁面設(shè)計了一個權(quán)值,作為該頁面的重要性的衡量。一般情況下都需要抓取足夠量的網(wǎng)頁以后,該權(quán)值才能客觀的反響該頁面權(quán)重。傳統(tǒng)的爬蟲策略中并沒有考慮站點或者子域名的級別特性,這樣有可能導(dǎo)致的問題,爬蟲程序沒法聚焦抓取相關(guān)主題的網(wǎng)頁。2頁面搜索模塊設(shè)計2.1算法思想改良通過分析如今爬蟲策略算法的思想,以及存在覆蓋率缺乏的問題,結(jié)合內(nèi)容以及鏈接分析提出一種高效的算法,通過改善當(dāng)前爬蟲策略中存在的覆蓋度不夠的問題,高效的抓取更多的與主題相關(guān)的頁面。下面講述我們改良后爬蟲搜索策略,在的算法主要解決兩個問題:1隧道問題,2如何抓取到更多與主題相關(guān)的頁面。我們以searh-fish的算法思想作為根底,通過引進

4、設(shè)定深度閾值D,給予主題低相關(guān)度或者沒相關(guān)的頁面的鏈接一定的深度訪問時機,來解決隧道問題。我們給初始的節(jié)點設(shè)置一個初始的深度閾值D,同時設(shè)定一個相關(guān)度閾值T,假如頁面i相關(guān)度relate大于T,那么該頁面的鏈接將會的深度閾值會提升,也就是說,后續(xù)從該頁面的鏈接出去的鏈接有更大的空間允許其鏈接到不相關(guān)的頁面;相反假如假如頁面i相關(guān)度relate低于T,那么該頁面的鏈接將會的深度閾值會降低,從該頁面的解析出去的鏈接有可以鏈接到不相干的頁面深度那么會降低,盡管如此,但是仍然有時機可以穿越隧道,找到隱藏在后面的網(wǎng)頁信息。權(quán)重表本質(zhì)上就是衡量該站點子站點與主題相關(guān)程度,假如該站點與主題越相關(guān),下一次遇到

5、該站點相關(guān)頁面,那么我們的算法會給該頁面有更優(yōu)先的爬取權(quán)重。同時我們借鑒了鏈接的分析方法,我們?nèi)哉J為一個站點的質(zhì)量同時也決定了該站點下的網(wǎng)頁的質(zhì)量,通過給了網(wǎng)站一定的置信值,確保不同站點有不同的衡量置信區(qū)間,因此可以保證在數(shù)據(jù)冷啟動的時候,爬取策略就有了一定的區(qū)分度。在爬蟲搜索算法策略中,包括:初始化設(shè)計URL列表種子;設(shè)計站點列表權(quán)重;設(shè)計改良搜索策略算法。2.2初始化URL列表種子URL種子搜集的目的在于給定主題的情況下,盡可能的爬取到高質(zhì)量的URL種子。URL種子是整個爬取過程的起始點,因此這些種子的質(zhì)量跟數(shù)量決定了接下來的整個爬蟲性能表現(xiàn)。在文獻認為,一個相關(guān)主題頁面所包含的鏈接比一般

6、的鏈接更加呈現(xiàn)相關(guān)性。因此種子初始化對整個爬蟲效果有著極為重要的意義。一般來說,初始化的種子集合就是主題爬蟲啟動時候使用抓取的頁面。初始種子集是面向領(lǐng)域主題爬蟲爬取主題頁面開場遍歷鏈接的集合,好的初始化種子集合可以大大的提升總體爬蟲的準確率以及效率,因此一般情況下,都會選取比擬知名的大型網(wǎng)站,這樣可以保證信息足夠豐富,更容易抓取到優(yōu)質(zhì)的資源。目前常用的方法有采用人工方法,搜集網(wǎng)絡(luò)上某個主題的鏈接,比方從門戶網(wǎng)站的各個網(wǎng)站,另外包括一些垂直的網(wǎng)站。在那么使用了半自動化的方式產(chǎn)生初始化列表種子,使用的方法如下:2.3建立站點級別的權(quán)重表站點權(quán)重表就是由一批主題相關(guān)的抓取站點所構(gòu)成的表,同時這張表要

7、支持快速的查詢以及更新,因此在本算法中,使用哈希表存儲權(quán)重表。權(quán)重表本質(zhì)上就是衡量該站點子站點與主題相關(guān)程度,假如該站點與主題越相關(guān),下一次遇到該站點相關(guān)頁面,那么我們的算法會給該頁面有更優(yōu)先的爬取權(quán)重。同時我們借鑒了鏈接的分析方法,我們?nèi)哉J為一個站點的質(zhì)量同時也決定了該站點下的網(wǎng)頁的質(zhì)量,通過給了網(wǎng)站一定的置信值,確保不同站點有不同的衡量置信區(qū)間,因此可以保證在數(shù)據(jù)冷啟動的時候,爬取策略就有了一定的區(qū)分度。哈希表也叫散列表,其將某個key值映射到哈希表中的存儲位置,實現(xiàn)數(shù)據(jù)快速查詢訪問。哈希表結(jié)合了鏈表及數(shù)組的優(yōu)點,在軟件設(shè)計領(lǐng)域有著極為重要的應(yīng)用。假如哈希表設(shè)計合理的話,可以在1的時間復(fù)雜

8、度內(nèi)實現(xiàn)數(shù)據(jù)的快速查找。哈希表設(shè)計的關(guān)鍵在于找到一個好的散列函數(shù),使散射地址足夠分散,最大程度的防止碰撞的發(fā)生。2.4鏈接的rank在頁面的鏈接中,往往都包含了錨文本以及鏈接信息,其本質(zhì)用簡短的語言對該鏈接進展描繪。我們以圖1的新浪體育的頁面為例,其中每個文本下面都是鏈接信息,因此在中,我們針對錨文本計算了與主題的相關(guān)度,從而防止了在同個頁面下,無法區(qū)分出各個鏈接的權(quán)重的問題。3主題相關(guān)性計算模塊設(shè)計向量空間模型fVetrSpaedels雖然將網(wǎng)頁表示成key-rd的空間向量,大大簡化了計算的復(fù)雜度,算法實現(xiàn)簡單,因此得到了大規(guī)模的應(yīng)用,在考慮實際的需求以后,沿用向量空間模型作為主題相關(guān)性算法,根據(jù)我們的研究發(fā)現(xiàn),該算法主要存在以下的問題:1向量空間模型只考慮了詞頻信息,它認為頁面的詞語對該文的主題的影響都是獨立的,而且其認為一個網(wǎng)頁中詞語的順序并不重要,而只與詞頻有關(guān)系。而向量空間模型的TF-IDF計算法方法只考慮了keyrd的頻次信息,沒有考慮位置因素,因此在表征主題信息上是有一定的缺陷的。2詞性問題,根據(jù)我們的常識,在一篇文章中,我們會發(fā)現(xiàn)形容詞跟名詞更能表達文章的主題,比方籃球,足球,踢球?qū)?yīng)體育類,而形容副詞那么對主題的意義不是很大,如很多,好不好,那么很難表達什么主題,因此假設(shè)可以知道每個key

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論