索引數(shù)據(jù)庫與搜索引擎_第1頁
索引數(shù)據(jù)庫與搜索引擎_第2頁
索引數(shù)據(jù)庫與搜索引擎_第3頁
索引數(shù)據(jù)庫與搜索引擎_第4頁
索引數(shù)據(jù)庫與搜索引擎_第5頁
已閱讀5頁,還剩73頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第八章索引數(shù)據(jù)庫與搜索引擎索引數(shù)據(jù)庫與索引機(jī)制搜索引擎的誕生與發(fā)展搜索引擎的體系結(jié)構(gòu)搜索引擎實(shí)例引言互聯(lián)網(wǎng)信息的爆炸性增長表層網(wǎng)絡(luò)鏈接相連網(wǎng)站110,460,149深層網(wǎng)絡(luò)數(shù)據(jù)庫、動態(tài)信息約為表層網(wǎng)絡(luò)500倍搜索引擎成為最重要的Web信息檢索工具全面、準(zhǔn)確、快速注:引自NetCraft1索引數(shù)據(jù)庫與索引機(jī)制搜索引擎的核心是索引數(shù)據(jù)庫。索引數(shù)據(jù)庫的核心是倒排索引文件。倒排索引文件即“由文檔特征值指向文檔標(biāo)識”的文件2搜索引擎的誕生與發(fā)展2.1搜索引擎的誕生起源:FTP文件搜索(以Archie為代表)第一代搜索引擎:分類目錄(以雅虎為代表)第二代搜索引擎:關(guān)鍵詞搜索引擎(以Google為代表)2搜索引擎的誕生與發(fā)展2.2搜索引擎的分類根據(jù)檢索方式分類:分類目錄、關(guān)鍵詞搜索引擎、混合搜索引擎根據(jù)信息覆蓋范圍及適用用戶群分類:綜合搜索引擎、專用搜索引擎(垂直搜索引擎)根據(jù)搜索范圍分類:獨(dú)立搜索引擎、集成搜索引擎(元搜索引擎)元搜索引擎又稱集合式搜索引擎。即將多個搜索引擎集成在一起,并提供一個統(tǒng)一的檢索界面。

一個有趣的結(jié)合,實(shí)用強(qiáng)大免費(fèi)有趣的搜索引擎。它將兩大搜索引擎Google與Baidu融二為一。在它們之間平均85%鏈接均不相同。

是一個很有創(chuàng)意的網(wǎng)站,把google和baidu的搜索框結(jié)合成了一個可以選擇的搜索框。雖然看著有點(diǎn)頭暈,但是讓我們省了不少力氣.提高了搜索效率。2搜索引擎的誕生與發(fā)展2.3搜索引擎的發(fā)展趨勢個性化;智能化;整合化;垂直化;移動化;開放化2搜索引擎的誕生與發(fā)展2.3搜索引擎的發(fā)展趨勢(補(bǔ)充)檢索結(jié)果的后處理;基于內(nèi)容的多媒體搜索;即時搜索,如/instant;與LBS結(jié)合,如/xian

;基于P2P技術(shù)的搜索;語音搜索。3搜索引擎的系統(tǒng)結(jié)構(gòu)一個搜索引擎由以下五個部分組成:搜索器索引器索引數(shù)據(jù)庫檢索器用戶接口

www索引器檢索器用戶接口robot…robot文檔庫索引庫圖:搜索引擎的組成和結(jié)構(gòu)3.1搜索器搜索器(Spider)俗稱蜘蛛、網(wǎng)絡(luò)機(jī)器人、爬蟲,是一個自動收集網(wǎng)頁的系統(tǒng)程序。搜索器的功能是日夜不停地在互聯(lián)網(wǎng)中漫游,搜集信息。不光搜集各種類型的新信息,還要定期更新已經(jīng)搜集過的舊信息,以避免出現(xiàn)死鏈搜索器首先將文檔格式過濾掉,變成純文本文件信息送回,然后將其放到“網(wǎng)頁數(shù)據(jù)庫”中。該庫里還記錄了這些網(wǎng)頁的URL,整個網(wǎng)頁的HTML代碼,網(wǎng)頁標(biāo)題等等信息。

網(wǎng)頁存儲格式version:1.0 //versionnumberurl:/ //URLorigin:/ //originalURLdate:Tue,15Apr200308:13:06GMT //timeofharvestip:2 //IPaddressunzip-length:30233 //Ifincluded,thedatamustbecompressedlength:18133 //datalength

//ablanklineXXXXXXXX //thefollowingsaredatapartXXXXXXXX….XXXXXXXX //dataend

//insertanewline1)網(wǎng)頁選取策略廣度優(yōu)先:是指網(wǎng)絡(luò)蜘蛛會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。

深度優(yōu)先:

是指網(wǎng)絡(luò)蜘蛛會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。高權(quán)重優(yōu)先:是指對搜索到的文檔集合進(jìn)行評級,利用計算得到的結(jié)果從中挑選評級最高的鏈接作為下一個搜索的對象。2)重復(fù)爬取策略一致策略:即以一定的頻率對所有網(wǎng)頁進(jìn)行重復(fù)爬取,不區(qū)分變更頻率不同的網(wǎng)頁比率策略:即對于更新頻率較高的網(wǎng)頁,重復(fù)爬取的頻率也較高。3)友好性策略網(wǎng)站管理員可以通過設(shè)置網(wǎng)絡(luò)機(jī)器人排除協(xié)議設(shè)置網(wǎng)站是否允許蜘蛛爬取、可爬取的網(wǎng)頁范圍,進(jìn)而限制搜索器的爬取行為(在ROBOT.TXT文件中進(jìn)行設(shè)置,該文件必須放在網(wǎng)站根目錄下)。爬取行為的頻率主要有搜索引擎自身設(shè)定。4)并行爬取策略并行爬取策略是針對多個并行搜索器而言的。搜索引擎要采用一定的策略協(xié)調(diào)各個搜索器的行為。搜索器一般將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負(fù)責(zé)一個子空間的窮盡搜索。

搜索器的實(shí)現(xiàn)常用分布式、并行計算技術(shù),以提高信息發(fā)現(xiàn)和更新的速度。3.2索引器索引器的功能是理解搜索器所搜索的純文本信息,從中抽取出索引項(屬性),生成倒排索引文件,進(jìn)而建立索引數(shù)據(jù)庫。

倒排索引即由索引項查找相應(yīng)的文檔。索引項有客觀索引項和內(nèi)容索引項倒排索引具體步驟具體步驟分析網(wǎng)頁:提取正文信息并進(jìn)行分詞;統(tǒng)計詞出現(xiàn)的頻率及位置;提取其它相關(guān)信息,如被其他網(wǎng)頁鏈接次數(shù)等;建立倒排索引:形成由文檔號到索引詞的正向索引;重組正向索引,建立從關(guān)鍵詞到文檔號集合的倒排索引;相關(guān)度及重要性計算:通過關(guān)鍵詞頻率、位置、表面特征及超鏈分析等因素來決定某一個網(wǎng)頁針對某一個關(guān)鍵詞的重要性。單詞-文檔矩陣文檔集合例1簡單的倒排索引帶有單詞頻率的倒排索引帶有單詞頻率、文檔頻率和出現(xiàn)位置信息的倒排索引倒排表記錄索引項在文檔中出現(xiàn)的位置,以便檢索器計算索引項之間的相鄰或接近關(guān)系(proximity)正向索引例2倒

引詞

引索引表也可能要記錄索引項在文檔中出現(xiàn)的位置,以便檢索器計算索引項之間的相鄰或接近關(guān)系。

根據(jù)相關(guān)度算法,計算出網(wǎng)頁與關(guān)鍵詞的相關(guān)系數(shù)和權(quán)重值3.3索引數(shù)據(jù)庫索引數(shù)據(jù)庫是搜索引擎的核心,既是索引器提供的產(chǎn)品,又是搜索器進(jìn)行工作的基礎(chǔ)。索引數(shù)據(jù)庫由一個接口模塊和四類文件構(gòu)成。四類文件是:主索引(MIF)、倒排索引(IXF)、倒排地址表(IAL)、純文本文件。主索引多級倒排索引文件詞編號詞記錄地址1搜索100322核心100893組織100654信息10106詞倒排索引文件的存放位置指向IAL的相對地址指針AP倒排地址表3.4檢索器檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進(jìn)行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進(jìn)行排序。

檢索器的工作包括查詢匹配、結(jié)果排序和文檔摘要三個部分。查詢結(jié)果的文檔摘要主要有兩種生成機(jī)制:靜態(tài)摘要和動態(tài)摘要。一般現(xiàn)階段的搜索引擎運(yùn)用動態(tài)摘要生成技術(shù)。搜索結(jié)果排序技術(shù)(1)影響結(jié)果排序的主要因素(2)排序算法(1)影響結(jié)果排序的主要因素內(nèi)容相關(guān)度—基于相關(guān)度算法(搜索引擎怎么評價)網(wǎng)站或網(wǎng)頁權(quán)威度—基于鏈接分析(即其它網(wǎng)站怎么評價)網(wǎng)站或網(wǎng)頁的實(shí)用度—基于用戶訪問模式(即用戶怎么評價)

……(2)排序算法這里我們主要介紹Google的三種鏈接分析算法:PageRank算法HillTop算法Hits算法Pagerank算法PageRank(網(wǎng)頁等級):一種能夠自動判斷網(wǎng)頁重要性的技術(shù)。基本原理:

從許多優(yōu)質(zhì)的網(wǎng)頁鏈接過來的網(wǎng)頁,必定還是優(yōu)質(zhì)網(wǎng)頁決定因素:反向鏈接數(shù)(數(shù)量)反向鏈接源頁面的Pagerank值(質(zhì)量)反向鏈接源頁面的鏈接數(shù)(被選中的幾率指標(biāo))

具體算法:將某個頁面的PageRank除以這個頁面的正向鏈接數(shù),由此得到的值分別和正向鏈接所指向的頁面的PageRank相加,即得到了被鏈接的頁面的PageRank。Hits算法算法對返回的匹配頁面計算兩種值,一種是樞紐值(HubScores),另一種是權(quán)威值(AuthorityScores)這兩個值是相互依存、相互影響的。所謂樞紐值,指的是頁面上所有導(dǎo)出鏈接指向頁面的權(quán)威值之和。權(quán)威值指的是所有導(dǎo)入鏈接所在的頁面的樞紐值之和。HillTop算法:

HillTop也是一項搜索引擎結(jié)果排序的專利。HillTop算法的指導(dǎo)思想和PageRank的是一致的,都是通過網(wǎng)頁被鏈接的數(shù)量和質(zhì)量來確定搜索結(jié)果的排序權(quán)重。但HillTop認(rèn)為只計算來自具有相同主題的相關(guān)文檔鏈接對于搜索者的價值會更大:即主題相關(guān)網(wǎng)頁之間的鏈接對于權(quán)重計算的貢獻(xiàn)比主題不相關(guān)的鏈接價值要更高。用戶行為模式如何影響網(wǎng)站排名?例如:說一個用戶直接在Google主頁搜索某一個關(guān)鍵詞,用戶點(diǎn)擊了第一個結(jié)果,然后五秒鐘之內(nèi)點(diǎn)擊了瀏覽器的返回鍵,再次來到Google主頁,然后又點(diǎn)擊了第三個結(jié)果。再過30分鐘以后,這個用戶才再次回到Google主頁。那么Google就可以得出結(jié)論,第三個網(wǎng)站比第一個網(wǎng)站更能給用戶提供有用的信息。如果這種模式大量反復(fù),那么Google就有可能把這兩個網(wǎng)站的排名互換。3.5用戶接口

用戶接口的作用是輸入用戶查詢、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制。用戶接口的設(shè)計和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類的思維習(xí)慣。分為簡單接口和復(fù)雜接口。

當(dāng)前,這方面研究集中在對用戶信息需求的挖掘與發(fā)現(xiàn)、改進(jìn)用戶交互方式(信息可視化)等方面??偨Y(jié):搜索引擎工作流程搜集累計式搜集,增量式搜集;索引重復(fù)網(wǎng)頁消除;關(guān)鍵詞提?。绘溄臃治?;倒排索引檢索查詢匹配;結(jié)果排序;文檔摘要搜集索引檢索從具體運(yùn)行方式上說,系統(tǒng)根據(jù)站點(diǎn)/網(wǎng)頁的URL信息和網(wǎng)頁之間的鏈接關(guān)系,利用網(wǎng)絡(luò)蜘蛛在互聯(lián)網(wǎng)上收集數(shù)據(jù);收集的數(shù)據(jù)分別通過鏈接信息分析器和文本信息分析器處理,保存在鏈接數(shù)據(jù)庫和文本索引數(shù)據(jù)庫中,同時,網(wǎng)頁質(zhì)量評估器依據(jù)網(wǎng)頁的鏈接關(guān)系和頁面結(jié)構(gòu)特征對頁面質(zhì)量進(jìn)行評估,并將評估的結(jié)果保存在索引數(shù)據(jù)庫中;查詢服務(wù)器負(fù)責(zé)與用戶的交互,它根據(jù)用戶的檢索需求,從索引數(shù)據(jù)庫中讀取對應(yīng)的索引,并綜合考慮查詢相關(guān)性與頁面質(zhì)量評估結(jié)果之間的關(guān)系,給出查詢結(jié)果列表反饋給用戶。4搜索引擎實(shí)例GOOGLE百度案例:google網(wǎng)址:Google是由美國斯坦福大學(xué)的兩位博士生拉里·佩吉和謝爾蓋·布林于1998年創(chuàng)建的。目前是全球最大、最專業(yè)的搜索引擎1998年,當(dāng)時在加州門洛帕克(MenloPark),拉里·佩奇與謝爾蓋·布林租用了這間房子的車庫作為建立Google的據(jù)點(diǎn),每個月Google要交$1,700(£961)租金給房東SusanWojcicki.2000年11月11日:Google的聯(lián)合創(chuàng)始人,時任CEO的拉里·佩奇(LarryPage,左)和主席謝爾蓋·布林(SergeyBrin)在位于山景城的Google總部內(nèi),靠著懶人椅(beanbags

)2006年5月10日:一名Google雇員踩著一架腳踏滑板車(所有員工均可使用),穿越位于加州山景城的公司園區(qū).①檢索范圍②檢索方式簡單檢索高級檢索簡單檢索邏輯“與”:兩詞間加空格邏輯“或”:用“OR”表示邏輯“非”:兩詞間加“-”(“-”號前加空格)強(qiáng)制檢索:雙引號指定網(wǎng)域:site:指定文件類型:filetype:文件類型邏輯與功能邏輯非功能邏輯或功能強(qiáng)制檢索指定網(wǎng)域指定文件類型③特色直達(dá)與檢索詞最相關(guān)的網(wǎng)頁網(wǎng)址:

百度(Baidu)是目前全球最優(yōu)秀的中文信息檢索與傳遞技術(shù)供應(yīng)商。中國所有提供搜索引擎的門戶網(wǎng)站中,超過80%以上都由百度提供搜索引擎技術(shù)支持,現(xiàn)有客戶包括新浪、搜狐(Chianren)、央視國際、騰訊等。案例:百度①檢索范圍②檢索方式簡單檢索高級檢索簡單檢索邏輯“與”:兩詞間加空格邏輯“或”:兩詞間加“|”(前后加空格)邏輯“非”:兩詞間加“-”(“-”號前加空格)強(qiáng)制檢索:雙引號指定網(wǎng)域:site:指定文件類型:filetype:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論