下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
搜索引擎排序的標準是什么?
為了說明這個問題,我們來研究一個比搜索引擎更加古老的話題:求醫(yī)。比如,如果我牙疼,應該去看怎樣的醫(yī)生呢?假設我只有三種選擇:A醫(yī)生,既治眼病,又治胃??;B醫(yī)生,既治牙病,又治胃病,還治眼??;C醫(yī)生,專治牙病。A醫(yī)生肯定不在考慮之列。B醫(yī)生和C醫(yī)生之間,貌視更應該選擇C醫(yī)生,因為他更專注,更適合我的病情。假如再加一個條件:B醫(yī)生經(jīng)驗豐富,有二十年從醫(yī)經(jīng)歷,醫(yī)術高明,而C醫(yī)生只有五年從醫(yī)經(jīng)驗,這個問題就不那么容易判斷了,是優(yōu)先選擇更加專注的C醫(yī)生,還是優(yōu)先選擇醫(yī)術更加高明的B醫(yī)生,的確成了一個需要仔細權衡的問題。至少,我們得到了一個結論,擇醫(yī)需要考慮兩個條件:醫(yī)生的專長與病情的適配程度;醫(yī)生的醫(yī)術。大家肯定覺得這個結論理所當然,而且可以很自然地聯(lián)想到,搜索引擎排序不也是這樣嗎,既要考慮網(wǎng)頁內(nèi)容與用戶查詢的匹配程度,又要考慮網(wǎng)頁本身的質(zhì)量。但是,怎么把這兩種因素結合起來,得到一個,而不是兩個或多個排序標準呢?假如我們把這兩種因素表示成數(shù)值,最終的排序依據(jù)是把這兩個數(shù)值加起來,還是乘起來,或是按決策樹的辦法把它們組織起來?如果是加起來,是簡單相加,還是帶權重加呢?我們可以根據(jù)直覺和經(jīng)驗,通過試錯的辦法,把這兩個因素結合起來。但更好的辦法是我們能找到一個明確的依據(jù),最好能跟數(shù)學這樣堅實的學科聯(lián)系起來。說起來,依據(jù)樸素的經(jīng)驗,人類在古代就能建造出高樓;但要建造出高達數(shù)百米的摩天大廈,如果沒有建筑力學、材料力學這樣堅實的學科作為后盾,則是非常非常困難的。同理,依據(jù)樸素的經(jīng)驗構建的搜索引擎算法,用來處理上萬的網(wǎng)頁集合應該是沒問題的;但要檢索上億的網(wǎng)頁,則需要更為牢固的理論基礎。求醫(yī),病人會優(yōu)先選擇診斷準確、治療效果好的醫(yī)生;對于搜索引擎來說,一般按網(wǎng)頁滿足用戶需求的概率從大到小排序。如果用q表示用戶給出了一個特定的查詢,用d表示一個特定的網(wǎng)頁滿足了用戶的需求,那么排序的依據(jù)可以用一個條件概率來表示:P(dq)這個簡單的條件概率,將搜索引擎排序算法與概率論這門堅實的學科聯(lián)系了起來,這就像在大海中航行的船只裝備了指南針一樣。利用貝葉斯公式,這個條件概率可以表示為:可以清楚地看到,搜索引擎的排序標準,是由三個部分組成的:查詢本身的屬性P(q);網(wǎng)頁本身的屬性P(d);兩者的匹配關系P(qd)。對于同一次查詢來說,所有網(wǎng)頁對應的P(q)都是一樣的,因此排序時可以不考慮,即公式左邊,是已知用戶的查詢,求網(wǎng)頁滿足該用戶需求的概率。搜索引擎為了提高響應用戶查詢的性能,需要事先對所有待查詢的網(wǎng)頁做預處理。預處理時,只知道網(wǎng)頁,不知道用戶查詢,因此需要倒過來計算,即分析每個網(wǎng)頁能滿足哪些需求,該網(wǎng)頁分了多大比例來滿足該需求,即得到公式右邊的第一項P(qd),這相當于上文介紹的醫(yī)生的專門程度。比如,一個網(wǎng)頁專門介紹牙病,另一個網(wǎng)頁既介紹牙病又介紹胃病,那么對于“牙疼”這個查詢來說,前一個網(wǎng)頁的P(qd)值就會更高一些。公式右邊的第二項P(d),是一個網(wǎng)頁滿足用戶需求的概率,它反映了網(wǎng)頁本身的好壞,與查詢無關。假如要向一個陌生人推薦網(wǎng)頁(我們并不知道他需要什么),那么P(d)就相當于某個特定的網(wǎng)頁被推薦的概率。在傳統(tǒng)的信息檢索模型中,這一個量不太被重視,如傳統(tǒng)的向量空間模型、BM25模型,都試圖只根據(jù)查詢與文檔的匹配關系來得到排序的權重。而實際上,這個與查詢無關的量是非常重要的。假如我們用網(wǎng)頁被訪問的頻次來估計它滿足用戶需求的概率,可以看出對于兩個不同的網(wǎng)頁,這個量有著極其巨大的差異:有的網(wǎng)頁每天只被訪問一兩次,而有的網(wǎng)頁每天被訪問成千上萬次。能夠提供如此巨大差異的量,竟長期被傳統(tǒng)的搜索引擎忽略,直到Google發(fā)明了pagerank并讓它參與到排序中。Pagerank是對P(d)值的一個不錯的估計,這個因素的加入使搜索引擎的效果立即上升到了一個新的臺階。這個公式同樣回答了上文提出的問題,網(wǎng)頁與查詢的匹配程度,和網(wǎng)頁本身的好壞,這兩個因素應該怎樣結合起來參與排序。這個公式以不可辯駁的理由告訴我們,如果網(wǎng)頁與查詢的匹配程度用P(qd)來表示,網(wǎng)頁本身的好壞用P(d
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 家庭旅館員工培訓與激勵機制
- 小學數(shù)學基礎解題技巧與能力培養(yǎng)
- 教育技術下的小學數(shù)學與科學教育整合趨勢
- 人教版八年級 歷史與社會上冊 1.2.1 早期國家與社會 說課稿
- 2024-2025學年一年級上冊(第二、三、四單元說課稿)科學蘇教版
- 專題11:動力學中的臨界問題-2024-2025學年高中物理同步練習分類專題說課稿(人教版2019必修第一冊)
- 2025年度施工合同尾款預付擔保編制流程及要點3篇
- 粵教版 信息技術 必修 3.2.2 建立表格 說課稿
- 3 觀察葉 說課稿-2023-2024學年科學一年級上冊教科版
- Review Module 8(說課稿)-2023-2024學年外研版(一起)英語六年級下冊
- 2024光儲充一體化系統(tǒng)解決方案
- 建筑幕墻物理性能分級
- 河南省2024年道法中考熱點備考重難專題:發(fā)展航天事業(yè)建設航天強國(課件)
- 臨床診療規(guī)范與操作指南制度
- DLT 5285-2018 輸變電工程架空導線(800mm以下)及地線液壓壓接工藝規(guī)程
- 新員工入職培訓測試題附有答案
- 勞動合同續(xù)簽意見單
- 大學生國家安全教育意義
- 2024年保育員(初級)培訓計劃和教學大綱-(目錄版)
- 河北省石家莊市2023-2024學年高二上學期期末考試 語文 Word版含答案
- 企業(yè)正確認識和運用矩陣式管理
評論
0/150
提交評論