網(wǎng)絡(luò)爬蟲(SQL數(shù)據(jù)庫)_第1頁
網(wǎng)絡(luò)爬蟲(SQL數(shù)據(jù)庫)_第2頁
網(wǎng)絡(luò)爬蟲(SQL數(shù)據(jù)庫)_第3頁
網(wǎng)絡(luò)爬蟲(SQL數(shù)據(jù)庫)_第4頁
網(wǎng)絡(luò)爬蟲(SQL數(shù)據(jù)庫)_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

網(wǎng)絡(luò)爬蟲(SQL數(shù)據(jù)庫)摘要:隨著信息的不斷膨脹,人們越來越離不開搜索引擎。通用搜索引擎如百度、Google給人們提供了很多便利,得到了極大的流行。但是隨著人們需求的多樣化,和對搜索結(jié)果質(zhì)量的要求越來越高,通用搜索引擎在一些專門化的領(lǐng)域己經(jīng)不能滿足人們的要求,于是垂直搜索引擎就應(yīng)運而生。盡管垂直搜索引擎很多技術(shù)與通用搜索引擎很類似,但是還是有很多自己獨特的技術(shù),和一些新的需要解決的問題,URL爬蟲就是其中的一個重點需要解決的問題。關(guān)鍵詞:搜索引擎,網(wǎng)絡(luò)爬蟲,URL提取目錄第一章關(guān)于web檢索URL相關(guān)問題1.1知識背景研究意義1.3國內(nèi)外發(fā)展概況本章小結(jié)第二章知識背景2.1經(jīng)濟可行性2.2技術(shù)可行性2.3操作可行性2.4法律可行性本章小結(jié)第三章總體設(shè)計3.1系統(tǒng)設(shè)計原理3.1.1系統(tǒng)功能設(shè)計配上類與類之間的UML圖3.2數(shù)據(jù)庫設(shè)計數(shù)據(jù)庫設(shè)計規(guī)則數(shù)據(jù)庫概念結(jié)構(gòu)3.2.4數(shù)據(jù)庫實體關(guān)系模型還有實體關(guān)系圖(ER圖)3.2.4數(shù)據(jù)庫邏輯結(jié)構(gòu)詳細(xì)設(shè)計3.3.1URL的提取第四章具體實現(xiàn)系統(tǒng)實現(xiàn)系統(tǒng)設(shè)計原理4.2功能模塊設(shè)計本章小結(jié)第五章評價自己的畢業(yè)設(shè)計實現(xiàn)的目標(biāo)5.2學(xué)到了哪些東西如果還有時間設(shè)計,今后你會添加哪些功能第六章關(guān)于軟件測試6.1軟件測試的目的和意義6.2軟件測試的步驟軟件測試的具體實現(xiàn)6.4軟件測試結(jié)論6.5評價本章小結(jié)總結(jié)謝辭參考文獻(xiàn)附錄功能模塊1、網(wǎng)絡(luò)爬蟲模塊網(wǎng)絡(luò)爬蟲實際上是一個基于web的程序。它從一個初始的網(wǎng)頁集出發(fā),遍歷Internet自動的采集網(wǎng)絡(luò)信息。當(dāng)爬蟲打開某個HTML頁面后,它會分析HTML標(biāo)記結(jié)構(gòu)來獲取信息,并獲取指向其它頁面的超級鏈接,然后通過既定的搜索策略選擇下一個要訪問的站點。從理論上講,如果為Spider指定個適當(dāng)?shù)某跏嘉臋n集和個適當(dāng)?shù)木W(wǎng)絡(luò)搜索策略,它就可以遍歷整個網(wǎng)絡(luò)。它的性能在很大程度上影響了搜索引擎站點的規(guī)模。2、索引模塊網(wǎng)絡(luò)爬蟲爬取的網(wǎng)頁上的信息以固定的格式獲取到本地后,索引建立程序?qū)π畔⑦M(jìn)行分析,針對頁面中出現(xiàn)的關(guān)鍵詞建立一種利于快速查找的數(shù)據(jù)結(jié)構(gòu),即索引,以供搜索引擎使用。搜索引擎在選擇索引數(shù)據(jù)結(jié)構(gòu)時通??紤]兩個因素:緊湊的數(shù)據(jù)結(jié)構(gòu)和高效的檢索能力。由于搜索引擎在建立索引的時候是面對海量的信息,因此在考慮記錄大小時要具體到字節(jié)中的位,這樣才能達(dá)到一種比較合理科學(xué)性的空間膨脹比。合理的數(shù)據(jù)結(jié)構(gòu)將使對關(guān)鍵詞的檢索更加迅速。通常有三種索引的建立基本技術(shù):倒排文件、后綴數(shù)組和簽名文件。倒排文件在當(dāng)前大多數(shù)信息獲取系統(tǒng)中得到應(yīng)用,它對于關(guān)鍵詞的搜索非常有效。后綴數(shù)組在短語查詢中具有較快的速度,但是該結(jié)構(gòu)在維護上相對比較麻煩。簽名文檔如今已被倒排索引技術(shù)替代。處理網(wǎng)頁的過程主要包括這幾部分:文檔特征向量提取、網(wǎng)頁篩選、相關(guān)度分析、文檔分類和入庫操作。以下是部分界面圖,如圖片不清,請直接點擊圖片,如需要看更詳細(xì)的資料,請直接聯(lián)系客服!用戶交互程序墾vpg-www.bysjhomexom用戶卍搜索般務(wù)器屮圖1(雙擊并最大化圖片,可看清晰圖片)那www.bysjhome^om^ystrmCatalogut"De?t= 弱infillURLLinkso.—■■■^gfln.lws?5.Aevii那www.bysjhome^om^ystrmCatalogut"De?t= 弱infillURLLinkso.—■■■^gfln.lws?5.Aevii丁 ] |IW就]三UFunflEc-n*Li.list^oorJs-匕,二■舒 Mii.ni.fla.aa*T:i“圖2(雙擊并最大化圖片,可看清晰圖片)則計T此是善九吟.站“r義取地點叩卍詞為域龍之JT-字風(fēng)畢設(shè)矽www.bysjhom?Tconi■■卜—略1iJlIY叩Im為序威名熬合判is記丁人陽.堆若為啟斥了字戦牛睜?臣ia下t曰盤

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論