版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大規(guī)模超文本網(wǎng)頁搜索引擎的分析
作為Google輝煌的起始,這篇文章非常有紀念價值,但是文中提到的內(nèi)容因年代久遠,已經(jīng)和時下最新的技術(shù)有了不少差異。但是文中的思想還是有很多借鑒價值。因本人水平有限,對文中內(nèi)容可能會有理解不當之處,請您查閱英文原版。大規(guī)模的超文本網(wǎng)頁搜索引擎的分析SergeyBrinandLawrencePage{sergey,page}@ComputerScienceDepartment,StanfordUniversity,Stanford,CA94305摘要在本文中我們討論Google,一個充分利用超文本文件結(jié)構(gòu)進行搜索的大規(guī)模搜索引擎的原型。Google可以有效地對網(wǎng)絡(luò)資源進行爬行搜索和索引,比目前已經(jīng)存在的系統(tǒng)有更令人滿意的搜索結(jié)果。該原型的數(shù)據(jù)庫包括2400萬頁面的全文和之間的鏈接,可通過/訪問。設(shè)計一個搜索引擎是一種具挑戰(zhàn)性的任務(wù)。搜索引擎索索引數(shù)以億計的不同類型的網(wǎng)頁并每天給出過千萬的查詢的答案。盡管大型搜索引擎對于網(wǎng)站非常重要,但是已完成的、對于大型搜索引擎的學(xué)術(shù)上的研究卻很少。此外,由于技術(shù)上的突飛猛進和網(wǎng)頁的急劇增加,在當前,創(chuàng)建一個搜索引擎和三年前已不可同日而語。本文提供了一種深入的描述,與Web增殖快速進展今日創(chuàng)建Web搜索引擎是三年前很大不同。本文提供了到目前為止,對于我們大型的網(wǎng)頁所搜引擎的深入的描述,這是第一個這樣詳細的公共描述。除了如何把傳統(tǒng)的搜索技術(shù)擴展到前所未有的海量數(shù)據(jù),還有新的技術(shù)挑戰(zhàn)涉及到了使用超文本中存在的其他附加信息產(chǎn)生更好的搜索結(jié)果。本文解決這樣一個問題,如何建立一個可以利用超文本中存在的其他附加信息的實用的大型系統(tǒng),同時我們也研究一下如何有效處理任何人都能發(fā)布他們想發(fā)布的包含任何信息的大量自由鏈接的問題。關(guān)鍵字:互聯(lián)網(wǎng),搜索引擎,文獻檢索,PageRank,Google1.簡介(注:本文由兩個版本--較長的完整版本和一個較短的印刷的版本。完整版本提供在網(wǎng)絡(luò)上和會議的CD-ROM上)。Web給信息檢索帶來了新的挑戰(zhàn)。Web上的信息量快速增長,同時不斷有毫無經(jīng)驗的新用戶來體驗Web這門藝術(shù)。人們喜歡用超級鏈接來網(wǎng)上沖浪,通常都以象Yahoo這樣重要的網(wǎng)頁或搜索引擎開始。人工維護的網(wǎng)站列表能有效的覆蓋受歡迎的流行的站點,但是它具有主觀性,建立和維護的代價高,升級慢,不能包括所有深奧的主題?;陉P(guān)鍵詞的自動搜索引擎通常返回太多的低質(zhì)量的匹配。使問題更遭的是,一些廣告為了贏得人們的關(guān)注想方設(shè)法誤導(dǎo)自動搜索引擎。我們建立了一個大型搜索引擎解決了現(xiàn)有系統(tǒng)中的很多問題。應(yīng)用超文本結(jié)構(gòu),提供高質(zhì)量的查詢結(jié)果,我們的系統(tǒng)命名為google,取名自googol的通俗拼法,即10的100次方,這和我們的目標建立一個大型搜索引擎較好的符合。1.1網(wǎng)絡(luò)搜索引擎—升級換代:1994-2000搜索引擎技術(shù)不得不快速升級跟上成倍增長的網(wǎng)站數(shù)量。1994年,第一個Web搜索引擎,WorldWideWebWorm(WWWW)擁有110,000個網(wǎng)頁和網(wǎng)站可訪問文檔的索引。到1994年11月,頂級的搜索引擎聲稱可以檢索到2萬(WebCrawler)100萬個網(wǎng)絡(luò)文件(來自搜索引擎監(jiān)視)??梢灶A(yù)見到2000年,可檢索到的網(wǎng)頁將超過10億。同時,搜索引擎的訪問量也會以驚人的速度增長。在1997年的三四月份,WorldWideWebWorm平均每天收到1500個查詢。在1997年11月,Altavista聲稱它每天要處理大約20’百萬個查詢。隨著網(wǎng)絡(luò)用戶的增長,可以預(yù)見到到2000年,自動搜索引擎每天將處理上億個查詢。我們系統(tǒng)的設(shè)計目標要解決許多問題,包括質(zhì)量和可升級性,引入升級搜索引擎技術(shù),把它升級到如此大量的數(shù)據(jù)上。1.2Google:升級與網(wǎng)絡(luò)建立一個能夠和當今web規(guī)模相適應(yīng)的搜索引擎會面臨許多挑戰(zhàn)。抓網(wǎng)頁技術(shù)必須足夠快并且保持是最新的版本。存儲空間必須高效的存儲索引和文檔。索引系統(tǒng)必須能夠高效地處理上百億GB的數(shù)據(jù)。處理查詢必須快,達到每秒能處理成百上千個查詢。隨著Web的不斷增長,這些任務(wù)變得越來越艱巨。然而硬件的性能和成本也在快速增長,可以部分抵消這些困難。然而,還有幾個值得例外,如磁盤的尋道時間,操作系統(tǒng)的效率。在設(shè)計Google的過程中,我們既考慮了網(wǎng)絡(luò)的增長速度,又考慮了技術(shù)的更新。Google的設(shè)計能夠很好的升級處理超大量數(shù)據(jù)集。它能夠高效地使用存儲空間來存儲索引。優(yōu)化的數(shù)據(jù)結(jié)構(gòu)能夠快速有效地存取(請參見4.2節(jié))。進一步,我們希望,相對于所抓取的文本文件和HTML網(wǎng)頁的數(shù)量而言,存儲和建立索引的代價盡可能的小(請參閱附錄B)。對于象Google這樣的集中式系統(tǒng),采取這些措施得到了良好的系統(tǒng)可升級性。1.3設(shè)計目標1.3.1改進搜索質(zhì)量。我們的主要目標是提高Web搜索引擎的質(zhì)量。1994年,有人認為建立全搜索索引就有可能很容易找到任何東西。根據(jù)BestoftheWeb1994--Navigators,“最佳導(dǎo)航服務(wù)應(yīng)更容易找到幾乎任何在網(wǎng)絡(luò)上(已經(jīng)輸入的所有數(shù)據(jù))?!?。然而1997年的Web就迥然不同。任何最近使用搜索引擎的用戶很容易證實索索引的完整性并不是唯一影響搜索引擎結(jié)果的因素。用戶感興趣的搜索結(jié)果往往被“垃圾結(jié)果”淹沒。實際上,到1997年11月為止,四大商業(yè)搜索引擎中只有一個能夠找到它自己(使用自己的搜索自己的名字時返回的前十個結(jié)果中有它自己)。導(dǎo)致這一問題的主要原因是文檔的索引數(shù)目增加了好幾個數(shù)量級,但是用戶能夠看的文檔數(shù)卻沒有增加。人們?nèi)匀恢幌M辞懊娴膸资畟€搜索結(jié)果。因此,當集合增大時,我們就需要高精確度的工具(在返回的前幾十個結(jié)果中,相關(guān)文檔的數(shù)量)。由于是從成千上萬個有點相關(guān)的文檔中選出幾十個,實際上,我們希望相關(guān)的概念就是指最好的文檔。高精確非常重要,甚至以響應(yīng)(系統(tǒng)能夠返回的有關(guān)文檔的總數(shù))為代價。令人十分樂觀的的是利用超文本鏈接提供的信息有助于改進搜索和其它應(yīng)用[Marchiori97][Spertus97][Weiss96][Kleinberg98]。尤其是鏈接結(jié)構(gòu)和鏈接文本,為相關(guān)性的判斷和高質(zhì)量篩選提供了大量的信息。Google既利用了鏈接結(jié)構(gòu)又用到了鏈接文本(請參見2.1和2.2節(jié))。1.3.2搜索引擎的學(xué)術(shù)研究除了發(fā)展迅速,Web越來越商業(yè)化。到1993年,只有1.5%的網(wǎng)絡(luò)服務(wù)是來自.com域名。到1997年,增長超過了60%。同時,搜索引擎從學(xué)術(shù)領(lǐng)域走進商業(yè)。到現(xiàn)在大多數(shù)搜索引擎被公司所有,很少發(fā)布技術(shù)細節(jié)。這就導(dǎo)致搜索引擎技術(shù)很大程度上仍然是暗箱操作,并傾向做廣告(請參閱附錄A)。對于Google來講我們有一個的主要目標是推動學(xué)術(shù)領(lǐng)域在此方面的發(fā)展和了解。另一個設(shè)計目標是給適合數(shù)目的人們一個實用的系統(tǒng)。對我們來說應(yīng)用十分重要,因為一些研究表明,現(xiàn)代網(wǎng)絡(luò)系統(tǒng)中存在大量的有用數(shù)據(jù)。例如,每天有數(shù)千萬個查詢被執(zhí)行。然而,獲得這些數(shù)據(jù)卻非常困難,主要因為它們被認為有商業(yè)價值。我們的最終設(shè)計目標是構(gòu)建一個體系結(jié)構(gòu),可以支持大型Web數(shù)據(jù)上的一種新的研究活動。為了支持新研究,Google以壓縮的形式保存了實際所抓到所有的文檔。我們設(shè)計Google的主要目標之一就是要建立一個環(huán)境使其他研究者能夠很快進入這個領(lǐng)域,處理海量網(wǎng)絡(luò)數(shù)據(jù),得到滿意的結(jié)果,而通過其它方法卻很難得到。系統(tǒng)在短時間內(nèi)被建立起來,已經(jīng)有幾篇論文用到了Google建立的數(shù)據(jù)庫,更多的在起步中。我們的另一個目標是建立一個宇宙空間實驗室似的環(huán)境,在這里研究人員甚至學(xué)生都可以對我們的海量網(wǎng)絡(luò)數(shù)據(jù)設(shè)計或做有趣的實驗。2.系統(tǒng)功能Google搜索引擎有兩個重要功能,幫助它產(chǎn)生高精度的搜索結(jié)果。首先,應(yīng)用Web的鏈接結(jié)構(gòu)計算每個網(wǎng)頁的質(zhì)量等級值,這個等級稱為PageRank,將在98頁詳細描述它。第二點,Google利用超鏈接改進搜索結(jié)果。2.1PageRank:帶來網(wǎng)頁排序網(wǎng)絡(luò)的引用(鏈接)圖形是重要的資源,卻沒有被現(xiàn)有的大多搜索引擎使用。我們建立了一個包含518百萬個超鏈接的圖,它是一個具有重要意義的樣本。這些圖能夠快速地計算網(wǎng)頁的PageRank值,它是一個客觀的標準,較好的符合人們主觀的對一個網(wǎng)頁重要程度的評價,由此對應(yīng)的是,PageRank值是一個較好的區(qū)分通過網(wǎng)絡(luò)搜索關(guān)鍵字獲得的結(jié)果的方法。建立的基礎(chǔ)是通過引用判斷重要性。對于大多數(shù)的主題,一個簡單的被限制為網(wǎng)頁標題的文本匹配搜索當使用PageRank區(qū)分時得到了極好的結(jié)果(從可以得到演示)。對于Google主系統(tǒng)中的全文搜索,PageRank也有很大的幫助。2.1.1PageRank計算的描述:文獻引用理論應(yīng)用到Web中,主要由引用或反向鏈接到給定頁來計數(shù)。這會反映了該網(wǎng)頁的重要性和質(zhì)量的近似值。PageRank擴展了這種思想,不平等的計算所有頁面上的鏈接并且通過一個頁面上的所有鏈接。PageRank定義如下:我們假設(shè)頁面T1…Tn指向網(wǎng)頁A(例如,被引用)。參數(shù)d是一個設(shè)定在0,1之間的制動因子。我們通常設(shè)置d為0.85。在下一節(jié)有更多關(guān)于d的詳情,C(A)定義為網(wǎng)頁A指向其它網(wǎng)頁的鏈接數(shù),網(wǎng)頁A的PageRank值由下式給出:PR(A)=(1-d)+d(PR(T1)/C(T1)+...+PR(Tn)/C(Tn))請注意PageRank涵蓋所有網(wǎng)頁的一個概率分布得來,因此所有網(wǎng)頁PageRank和是1。PageRank或PR(A)可使用一個簡單的迭代算法來計算,相應(yīng)對應(yīng)月網(wǎng)頁鏈接矩陣的主特征向量。中等規(guī)模的網(wǎng)站計算26萬網(wǎng)頁的PageRank值要花費幾小時。還有一些技術(shù)細節(jié)超出了本文論述的范圍。2.1.2直覺的解釋PageRank被看作用戶行為的模型。我們假想一個“隨機上網(wǎng)者”;隨機地給他一個網(wǎng)頁;他漫無目的地命中網(wǎng)頁的鏈接,而從來不點“返回鍵”;最終他覺得煩了,又從另一個隨機的網(wǎng)頁從新開始。隨機訪問一個網(wǎng)頁的可能性就是它的PageRank值。制動因子d是隨機訪問一個網(wǎng)頁煩了的可能性,隨機另選一個網(wǎng)頁。對單個網(wǎng)頁或一組網(wǎng)頁,一個重要的變量加入到制動因子d中。這允許個人可以故意地誤導(dǎo)系統(tǒng),以得到較高的PageRank值幾乎變成不可能的。我們還有其它的PageRank算法,見98頁。另外的直覺判斷是一個網(wǎng)頁有很多網(wǎng)頁指向它,或者一些PageRank值高的網(wǎng)頁指向它,則這個網(wǎng)頁很重要。直覺地,在Web中,一個網(wǎng)頁被很多網(wǎng)頁引用,那么這個網(wǎng)頁值得一看。一個網(wǎng)頁被象Yahoo這樣重要的主頁引用即使一次,也值得一看。如果一個網(wǎng)頁的質(zhì)量不高,或者是死鏈接,象Yahoo這樣的主頁不會鏈向它。PageRank處理了這兩方面因素,并通過網(wǎng)絡(luò)鏈接遞歸地傳遞。2.2鏈接描述文字我們的搜索引擎對鏈接文本進行了特殊的處理。大多數(shù)搜索引擎把鏈接文字和它所鏈向的網(wǎng)頁聯(lián)系起來。另外,把它和鏈接所指向的網(wǎng)頁聯(lián)系起來。這有幾點好處。第一,通常鏈接描述文字比網(wǎng)頁本身更精確地描述該網(wǎng)頁。第二,鏈接描述文字可能鏈向的文檔不能被文本搜索引擎檢索到,例如圖像,程序和數(shù)據(jù)庫。有可能使返回的網(wǎng)頁不能被抓到。注意那抓不到的網(wǎng)頁將會帶來一些問題。在返回給用戶前檢測不了它們的有效性。這種情況搜索引擎可能返回一個根本不存在的網(wǎng)頁,但是有超級鏈接指向它。然而這種結(jié)果可以被挑出來的,所以此類的問題很少發(fā)生。鏈接描述文字是對被引用網(wǎng)頁的描述這個思想被用在WorldWideWebWorm中,主要因為它有助于搜索非文本信息,能夠用少量的已下載文檔擴大搜索范圍。我們大量應(yīng)用鏈接描述文字,因為它有助于提高搜索結(jié)果的質(zhì)量。有效地利用鏈接描述文字技術(shù)上存在一些困難,因為必須處理大量的數(shù)據(jù)。現(xiàn)在我們能抓到24萬個網(wǎng)頁,已經(jīng)檢索到259萬多個鏈接描述文字。2.3其它功能除了PageRank和應(yīng)用鏈接描述文字外,Google還有其他幾個功能。一,它有所有命中數(shù)的位置信息,所以它可以在搜索中廣泛應(yīng)用鄰近性。第二,Google跟蹤一些可視化外表細節(jié),例如字的字體大小。更大的字的權(quán)重要高于其他的。第三,知識庫存儲了原始的全文html網(wǎng)頁。3相關(guān)的工作網(wǎng)絡(luò)檢索研究的歷史簡短。WorldWideWebWorm(WWWW)是最早的搜索引擎之一。后來出現(xiàn)了一些用于學(xué)術(shù)性的搜索引擎,現(xiàn)在它們中的大多數(shù)被上市公司擁有。與Web的增長和搜索引擎的重要性相比,有關(guān)當今搜索引擎技術(shù)的優(yōu)秀論文相當少。根據(jù)MichaelMauldin(LycosInc的首席科學(xué)家)),“各種各樣的服務(wù)(包括Lycos)非常關(guān)注這些數(shù)據(jù)庫的信息?!彪m然在搜索引擎的某些特點上做了大量工作。具有代表性的工作有,對現(xiàn)有商業(yè)搜索引擎的結(jié)果進行傳遞,或建立小型的個性化的搜索引擎。最后有關(guān)信息檢索系統(tǒng)的研究很多,尤其在有組織機構(gòu)集合方面。在下面兩節(jié),我們將討論在信息檢索系統(tǒng)中的哪些領(lǐng)域需要改進以便更好的工作在Web上。3.1信息檢索信息檢索系統(tǒng)誕生在幾年前,并發(fā)展很好。然而,大多數(shù)信息檢索系統(tǒng)的研究針對的是受控制的同質(zhì)集合,例如,主題相關(guān)的科學(xué)論文或新聞故事。實際上,信息檢索的主要基準,用小規(guī)模的、有組織結(jié)構(gòu)的集合作為它們的基準。大型文集基準只有20GB,相比之下,我們抓到的24萬個網(wǎng)頁占147GB。在TREC上工作良好的系統(tǒng),在Web上卻不一定產(chǎn)生好的結(jié)果。例如,標準向量空間模型企圖返回和查詢請求最相近的文檔,把查詢請求和文檔都看作由出現(xiàn)在它們中的詞匯組成的向量。在Web環(huán)境下,這種策略常常返回非常短的文檔,這
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 二零二五年防洪工程承包商建設(shè)借款合同3篇
- 事業(yè)單位人力資源聘用合同(2024版)版B版
- 2024離婚協(xié)議房產(chǎn)
- 2025年度高級軟件開發(fā)與技術(shù)服務(wù)合同2篇
- 二零二五版辣椒種子生產(chǎn)與辣椒苗代銷合作協(xié)議2篇
- 2024版工程協(xié)議監(jiān)管及進度記錄臺賬一
- 二零二五版航空航天設(shè)備研發(fā)與采購合同范本3篇
- 2024年版磚結(jié)構(gòu)建筑勞務(wù)合作模板協(xié)議版B版
- 二零二五年度燒烤餐飲業(yè)商鋪租賃合同書3篇
- 二零二五版寵物傷害賠償及責任承擔協(xié)議3篇
- 生物醫(yī)藥大數(shù)據(jù)分析平臺建設(shè)
- EPC總承包項目中的質(zhì)量管理體系
- 滬教版小學(xué)語文古詩(1-4)年級教材
- 外科醫(yī)生年終述職總結(jié)報告
- CT設(shè)備維保服務(wù)售后服務(wù)方案
- 重癥血液凈化血管通路的建立與應(yīng)用中國專家共識(2023版)
- 兒科課件:急性細菌性腦膜炎
- 柜類家具結(jié)構(gòu)設(shè)計課件
- 陶瓷瓷磚企業(yè)(陶瓷廠)全套安全生產(chǎn)操作規(guī)程
- 煤炭運輸安全保障措施提升運輸安全保障措施
- JTGT-3833-2018-公路工程機械臺班費用定額
評論
0/150
提交評論