![計算機外文翻譯-基于網(wǎng)絡(luò)爬蟲的有效URL緩存_第1頁](http://file4.renrendoc.com/view/eb903f3b99b35e2313f10e3e7f9b17bc/eb903f3b99b35e2313f10e3e7f9b17bc1.gif)
![計算機外文翻譯-基于網(wǎng)絡(luò)爬蟲的有效URL緩存_第2頁](http://file4.renrendoc.com/view/eb903f3b99b35e2313f10e3e7f9b17bc/eb903f3b99b35e2313f10e3e7f9b17bc2.gif)
![計算機外文翻譯-基于網(wǎng)絡(luò)爬蟲的有效URL緩存_第3頁](http://file4.renrendoc.com/view/eb903f3b99b35e2313f10e3e7f9b17bc/eb903f3b99b35e2313f10e3e7f9b17bc3.gif)
![計算機外文翻譯-基于網(wǎng)絡(luò)爬蟲的有效URL緩存_第4頁](http://file4.renrendoc.com/view/eb903f3b99b35e2313f10e3e7f9b17bc/eb903f3b99b35e2313f10e3e7f9b17bc4.gif)
![計算機外文翻譯-基于網(wǎng)絡(luò)爬蟲的有效URL緩存_第5頁](http://file4.renrendoc.com/view/eb903f3b99b35e2313f10e3e7f9b17bc/eb903f3b99b35e2313f10e3e7f9b17bc5.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
iZBroderIBMTJWatsonResearchCenter19SkylineDrHawthorne,NY10532roderusibmcomMicrosoftResearch1065LaAvenidaMountainView,CA94043osoftcomJanetL.WienerHewlettPackardLabs1501PageMillRoadPaloAlto,CA94304janet.wiener@(dynamic)subsetofthe―seen‖URLs.Themaingoalofthispaperistocarefully ndmamassivedaywebcrawlthatissuedoveronebillionHTTP1.INTRODUCTIONArecentPewFoundationstudy[31]statesthat―SearchengineshavebecomeanindispensableutilityforInternetusers‖andestimatesthatasofmid-2002,slightlysds ddn 2.CRAWLINGgeURLstocrawlerprocessesisbasedonahashoftheURL’shostcomponent.ACPChoandGarcia-Molina’scrawler[13]issimilartoMercator.Thesystemis URL’shostpart),andhierarchical(assigninganURLtoaC-procbasedonsomecommunicatingcrawlingprocesses(the―ants‖).AnantthatdiscoversanURLforwhichitisnotresponsible,sendsthisURLtoadedicatedprocess(the―controller‖),ifferentcrawlercomponentsareimplementedasdifferentprocesses.A―crawlingapplication‖sthemtoapoolof―downloader‖processes.ThedownloaderprocessesfetchthepagesWebFountain[16],UbiCrawler[4],andChoandMolina’scrawler[13],are 3.CACHINGystheideaofstoringfrequentlyuseditemsfromaslowerlInourcontext,forinstance,isamuchmorecommonethanalinktotheauthorshomepages eefilllikelynotbeneededforalongtimeinthefutureand nmf ThesecondissueaboveistheveryreasonwedecidedtotestSTATIC:if4.EXPERIMENTALSETUPaTheURLstreamthenflowsintotheHostSplitter,whichassignsURLstocrawlingprocessesusingahashoftheURL’shostname.Sincemostlinksarere today’swebcontainsseveralbillionvalidURLs,thememoryrequirementstoegbyreducingthepenaltyimposedbydiskheascenarioeachcrawlerwouldberesponsibleforwebservers―closetoit‖.importantly,theschedulingofdownloadsismoderatedbyMercator’sserver.Mercator’spolitenesspolicyguaranteesthatnoservereverreceivesmultipleserverwillonlybeissuedafteramultiple(typically10_)ofthetimeittookto InternetExchange,quiteclosetotheInternet’sbackbone.hinesperformedbilliondownloadeuptoMBinsizeasettingthatissignificantlyhigherthanusual),makingitThelinksextractedfromtheseHTMLpages,plusabout38millionHTTPdMercator’sHostSplittercomponenttologallincomingURLstodisk.TheHost thisnumbertothenumberof5.SIMULATIONRESULTSfthecachingalgorithmslist.ForCLOCK,itisalistandaclockhandle,andtheitemsalsocontain―mark‖ WethereforedescribeMINinmoredetail.LetAbethetraceorsequenceofthetimewhenAtnextappearsinAIfthereisnofurtherrequestisonlyslightlyinferiortoCLOCKandLRU,whileSTATICisgenerallymuchomissratewouldbeofcourseworsethanMIN’s.6.CONCLUSIONSANDFUTUREDIRECTIONS performroughlythesamewerecommendusingeitherCLOCKorRANDOM,tntostareprobablycloserto 要在網(wǎng)絡(luò)上爬行非常簡單:基本的算法是:(a)取得一個網(wǎng)頁(b)解析它提取所有的鏈接URLs(c)對于所有沒有見過的URLs重復(fù)執(zhí)行(a)-(c)。但是,系統(tǒng)設(shè)計步驟(a)必須每秒鐘執(zhí)行大約1000次,因此,成員檢測(c)必須每秒鐘執(zhí)行URLs存入主內(nèi)存中的一個(動態(tài))子集中。這個論文最主要的成果就是仔細的一個搜索引擎的文集。 絡(luò)資源無法被訪問到。(估計有超過20%)蟲一般使用一個分布式的構(gòu)造來平行地爬行更多的網(wǎng)頁,這使成員檢測更為復(fù)回答了一個同行節(jié)點,而不是當(dāng)?shù)?。一個非常重要的方法加速這個檢測就是用cache(高速緩存),這個是把見過的URLs存入主內(nèi)存中的一個(動態(tài))子集中。這個論文最主要的成果就是仔細的億次的 部分描述和討論模擬的結(jié)果。第6部分是我們推薦的實際算法和數(shù)據(jù)結(jié)構(gòu)關(guān)于2.CRAWLING網(wǎng)絡(luò)爬蟲用網(wǎng)絡(luò)存檔雇員多個爬行進程,每個一次性完成一個徹底的爬行對于鍵字和超鏈接;URL解決進程將相對路徑轉(zhuǎn)換給絕對路徑。這些不同的進程通3.CACHING 下一個請求最遠的項目。這個理論的算法叫MIN,因為他達到了最小的數(shù)量關(guān)3.3最近被用到(LRU)3.4CLOCKK 。舉一個例子,每個工作現(xiàn)場在一個系統(tǒng)里用4個爬行進程。URL的主機名。直到大多數(shù)的超鏈接被關(guān)聯(lián),大部分的URL(在我們的實驗中 爬蟲進程維護URLs的子集時分配給它);但是DUE執(zhí)行(這個強制URLs成連接。每個機器定位于PaloAltoInternetExchange,十分接近于Internet的 供了3個解釋關(guān)于為什么我們每個頁面找到了更過的超鏈接。首先,我們認為顯著地大于平常),讓它可能遇到上萬個的超鏈接頁面.第三,大部分的論文報e也獲得了一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 45063-2024鞋類化學(xué)試驗樣品制備通則
- Prasugrel-hydroxy-thiolactone-生命科學(xué)試劑-MCE-3743
- 2-3-Dihydroxypropyl-pentadecanoate-生命科學(xué)試劑-MCE-1920
- 2025年度酒店客房客房設(shè)施設(shè)備維修承包經(jīng)營與備件儲備協(xié)議
- 2025年度二零二五年度玉米種植與農(nóng)業(yè)觀光旅游項目合作協(xié)議
- 二零二五年度汽車抵押貸款信用評級合同
- 二零二五年度張家界市別墅湖南商品房買賣合同
- 二零二五年度離婚協(xié)議書簡易版(離婚后子女教育協(xié)議)
- 跨界合作小區(qū)內(nèi)餐飲與其他行業(yè)的合作機會探索
- 個人房屋貸款抵押擔(dān)保合同樣本
- 寧夏“8·19”較大爆燃事故調(diào)查報告
- 中國高血壓防治指南(2024年修訂版)解讀課件
- 2024年員工規(guī)章制度具體內(nèi)容范本(三篇)
- 2024年浙江省中考科學(xué)試卷
- 初三科目綜合模擬卷
- 2024年全國高考新課標卷物理真題(含答案)
- 勞動合同薪酬與績效約定書
- 消除醫(yī)療歧視管理制度
- 柴油機油-標準
- 足療店營銷策劃方案
- 學(xué)校安全一崗雙責(zé)
評論
0/150
提交評論