Google搜索引擎的工作原理秘密原來(lái)都在這里_第1頁(yè)
Google搜索引擎的工作原理秘密原來(lái)都在這里_第2頁(yè)
Google搜索引擎的工作原理秘密原來(lái)都在這里_第3頁(yè)
Google搜索引擎的工作原理秘密原來(lái)都在這里_第4頁(yè)
Google搜索引擎的工作原理秘密原來(lái)都在這里_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

Google搜索引擎的工作原理,秘密原來(lái)都在這里2020年9月的某個(gè)清晨,美國(guó)北加州地區(qū)的民眾一覺(jué)醒來(lái),發(fā)現(xiàn)野火濃煙后的西海岸上空一片橙紅。這種像是從《銀翼殺手》電影中走出來(lái)的景象,很多人在現(xiàn)實(shí)生活中可能從未見(jiàn)過(guò)。圖:LATimes到底發(fā)生了什么?自然而然地,就像國(guó)內(nèi)大多數(shù)網(wǎng)民會(huì)打開(kāi)百度甚至知乎搜索答案一樣,一時(shí)間加州人民也紛紛潮涌至Google,鍵入了類似「為什么天空是橙色的」這樣的搜索關(guān)鍵字——這些在搜索引擎眼里或許有點(diǎn)無(wú)厘頭的問(wèn)題,依然通過(guò)信息卡片、精選新聞資訊的方式得到了精準(zhǔn)而及時(shí)的解答。當(dāng)時(shí)的Google搜索頁(yè)面以上是Google不久前分享的一個(gè)案例。當(dāng)我們將Google搜索引擎從上面這個(gè)事件中剝離出來(lái)仔細(xì)審視時(shí),不少人應(yīng)該都會(huì)心生疑竇:Google是如何知道用戶要搜什么的,為什么針對(duì)加州地區(qū)的當(dāng)?shù)刭Y訊會(huì)排在頁(yè)面頂部,其它地區(qū)的人搜索同樣的問(wèn)題會(huì)得到類似的答案嗎,結(jié)果頁(yè)面左側(cè)的知識(shí)面板在這樣的搜索中發(fā)揮了怎樣的作用……為了讓你多了解一點(diǎn)這個(gè)世界上最受歡迎的搜索引擎,Google自2018年以來(lái)就開(kāi)始陸續(xù)在TheKeyword博客中分享關(guān)于Google搜索引擎的各種細(xì)節(jié)與原理。如果你也有上面這些疑問(wèn),不妨跟隨本文一起探究Google搜索引擎背后的秘密。搜索建議是怎么「蹦」出來(lái)的?每天我們都要和搜索引擎打交道,而每次使用Google搜索信息時(shí),鍵入搜索關(guān)鍵字的同時(shí)搜索框下方都會(huì)不斷「蹦」出各種各樣根據(jù)已輸入詞匯擴(kuò)展而來(lái)的搜索建議。是此時(shí)的Google「能掐會(huì)算」,早就知道了你心里的那點(diǎn)小心思嗎?這種「能掐會(huì)算」的背后是Google的一項(xiàng)名為自動(dòng)填充(autocomplete)的技術(shù)。從我們錄入開(kāi)始,Google就開(kāi)始在搜索框的下方顯示它所猜測(cè)的搜索關(guān)鍵字結(jié)果。只要有任意一條「猜測(cè)」命中,我們就能快速完成輸入。這種「猜測(cè)」(官方稱為「預(yù)測(cè)」)其實(shí)是系統(tǒng)在不斷使用我們鍵入的詞匯進(jìn)行聯(lián)想查詢,我們不斷輸入的同時(shí),搜索框下方提示的文字內(nèi)容也會(huì)根據(jù)「猜測(cè)」結(jié)果不斷調(diào)整。這其實(shí)也是為什么網(wǎng)絡(luò)環(huán)境不太好的時(shí)候搜索建議可能會(huì)表現(xiàn)得反應(yīng)遲滯甚至完全不會(huì)「蹦」出搜索建議的原因。為了提高這些搜索建議的命中率,Google還會(huì)進(jìn)一步引入相關(guān)因素來(lái)進(jìn)行預(yù)測(cè)校準(zhǔn),進(jìn)行搜索的用戶所處的地理位置、當(dāng)下的熱門甚至用戶所使用的設(shè)備……這些都會(huì)對(duì)自動(dòng)填充生成的搜索建議產(chǎn)生影響——當(dāng)然了,很多人應(yīng)該也知道,我們?cè)贕oogle上保存的搜索歷史和各種搜索設(shè)置同樣也會(huì)影響到具體的預(yù)測(cè)結(jié)果。搜索設(shè)置會(huì)影響搜索結(jié)果,但只是眾多影響因素的一部分舉個(gè)例子,在Google搜索引擎使用率更高的歐美地區(qū),Google往往會(huì)根據(jù)搜索用戶所處的地理位置預(yù)判他們使用的是英式英語(yǔ)還是美式英語(yǔ),進(jìn)而提供差異化的內(nèi)容顯示——在英式英語(yǔ)的語(yǔ)境下「football」通常會(huì)是足球,而在美式英語(yǔ)下往往是橄欖球,Google也會(huì)這么做;與之對(duì)應(yīng)的,Google還會(huì)在單詞拼寫上進(jìn)行建議,比如根據(jù)搜索者的所在地區(qū)對(duì)「center」和「centre」的寫法進(jìn)行區(qū)分。注意觀察圖中位置與單詞的拼寫由此其實(shí)也可以得出一個(gè)事實(shí):每個(gè)人在Google中進(jìn)行的每一次搜索都是高度個(gè)性化的,即便我們使用瀏覽器的隱私瀏覽模式排除個(gè)人搜索和瀏覽記錄的干擾,實(shí)際搜索結(jié)果還是會(huì)根據(jù)其它因素進(jìn)行調(diào)整。精選摘要:不用翻查、即問(wèn)即答我只是要找個(gè)答案而已,并不想點(diǎn)開(kāi)網(wǎng)頁(yè)。經(jīng)常使用搜索引擎獲取信息的人一定會(huì)有類似的想法,讓他們養(yǎng)成這個(gè)習(xí)慣的原因之一,很有可能就是Google經(jīng)常會(huì)在搜索結(jié)果頁(yè)面上方直接生成的那個(gè)信息卡片——直接、干脆,你問(wèn)、它答。這個(gè)答案是怎么來(lái)的?首先,這個(gè)卡片也有一個(gè)特定的名字:精選摘要(featuredsnippets),套用一句俗話,「生活就像水中的鴨子,表面上從容淡定,其實(shí)水底下在拼命劃水」。精選摘要的來(lái)源也是這樣——在我們鍵入、搜索的過(guò)程中,Google表面上只是從容淡定地搜索、跳轉(zhuǎn),背后的零點(diǎn)幾秒時(shí)間里,幕后其實(shí)也在「拼命劃水」。搜索系統(tǒng)算法會(huì)根據(jù)我們所搜索的問(wèn)題檢索一些相對(duì)具備權(quán)威性的高質(zhì)量網(wǎng)站頁(yè)面,然后從這些網(wǎng)站中提取關(guān)鍵內(nèi)容來(lái)生成摘要,最后把這份摘要呈送到我們眼前,即上面所說(shuō)的「精選摘要」。然而算法畢竟是算法,也會(huì)有陰溝翻船的時(shí)候,其中最著名的例子莫過(guò)于「古羅馬人夜間如何計(jì)時(shí)」這個(gè)問(wèn)題,最初Google給出的答案是:日晷。羅馬人最初使用日晷來(lái)測(cè)量時(shí)間流逝。通過(guò)這種方法他們不僅可以相對(duì)準(zhǔn)確地獲取日出、日落和正午時(shí)間,還能根據(jù)日影長(zhǎng)度估算一天中的其它時(shí)刻。日晷這種新工具的引入給了羅馬人一種更好的測(cè)量時(shí)間的方法……那么夜間沒(méi)有太陽(yáng)如何用日晷計(jì)時(shí)呢?Google的精選摘要那時(shí)也不知道。是不是有點(diǎn)你學(xué)生時(shí)代答非所問(wèn)但一定要把試題紙寫滿的味道了……知識(shí)圖譜:強(qiáng)力的信息補(bǔ)充上面我們已經(jīng)了解了「精選摘要」,也見(jiàn)識(shí)了它的「胡說(shuō)八道」,那當(dāng)我們意識(shí)到精選摘要似乎在「亂侃」的時(shí)候怎么辦?或者這個(gè)搜索頁(yè)面根本就沒(méi)有精選摘要……你可能已經(jīng)有這個(gè)習(xí)慣了:向右看。頁(yè)面右側(cè)可能會(huì)出現(xiàn)一個(gè)知識(shí)面板,它包含了當(dāng)前搜索話題相關(guān)的知識(shí)信息,沒(méi)準(zhǔn)也能在你的搜索中派上用場(chǎng)。這個(gè)知識(shí)面板(KnowledgePanel)與早年Google精心搭建的知識(shí)圖譜(KnowledgeGraph)體系密切相關(guān)。圖片來(lái)自于維基百科簡(jiǎn)單來(lái)說(shuō),知識(shí)圖譜是一個(gè)由各種不同頁(yè)面、不同來(lái)源的信息構(gòu)成的小「知識(shí)庫(kù)」,根據(jù)話題的不同,Google通過(guò)語(yǔ)義算法自動(dòng)整理、歸納不同內(nèi)容的相關(guān)信息,這些信息同時(shí)會(huì)隨著原始來(lái)源頁(yè)面的變化而自動(dòng)更新。因此當(dāng)我們?cè)谒阉魅宋?、地點(diǎn)、組織等信息的時(shí)候,知識(shí)面板可以直接將相關(guān)內(nèi)容匯總為一張知識(shí)面板放在搜索頁(yè)面右側(cè)。目前這個(gè)面板中所收納的內(nèi)容已經(jīng)相當(dāng)豐富了,以Apple的知識(shí)面板為例,我們可以直接在知識(shí)面板中找到Apple這家公司的基本信息介紹、股價(jià)信息、業(yè)務(wù)范圍、售后電話、社交賬戶頁(yè)面、熱門產(chǎn)品甚至換電池業(yè)務(wù)頁(yè)面……比起跳轉(zhuǎn)到某個(gè)互聯(lián)網(wǎng)犄角旮旯里才能找到官網(wǎng)的體驗(yàn)來(lái)說(shuō)這樣的知識(shí)面板能夠大幅提高話題信息的檢索效率。盡管知識(shí)面板偏居一隅,但是Google對(duì)它還挺上心的。按照Google的說(shuō)法,截至2020年5月,知識(shí)面板已經(jīng)收集了約50億個(gè)實(shí)體、超過(guò)5000億個(gè)名詞實(shí)例,說(shuō)它是一本藏在Google搜索引擎里的「百科全書」不過(guò)分吧?哪些結(jié)果排前面?不是錢說(shuō)了算精選摘要也好,知識(shí)面板也罷,這些都可以簡(jiǎn)單歸納到快速答案范疇內(nèi)。假如把整個(gè)搜索過(guò)程比作是一頓飽餐,精選摘要、知識(shí)面板只不過(guò)是餐前甜點(diǎn),頁(yè)面主體內(nèi)容里的搜索結(jié)果才是正餐。所以很多人在瀏覽Google搜索結(jié)果的時(shí)候,隨著鼠標(biāo)的滾輪不斷滑動(dòng)、藍(lán)色的搜索鏈接飛速掠過(guò),很自然地就會(huì)有一個(gè)不成熟的小想法:這么多的搜索結(jié)果是如何排序的,前面這幾個(gè)會(huì)不會(huì)跟某些搜索引擎一樣是收了錢的?「犯罪嫌疑人」是這樣說(shuō)的這個(gè)問(wèn)題就涉及到了搜索排名算法了。這里最為大眾所熟知的搜索排名算法應(yīng)該就是PageRank了。這也是Google最早使用的對(duì)網(wǎng)頁(yè)進(jìn)行的排名算法。對(duì),就是你的潛意識(shí)里的那個(gè)名字,拉里·佩奇(LarryPage),這個(gè)算法正是用Google創(chuàng)始人(之一)的名字命名。雖然Google主要靠廣告掙錢,影響搜索結(jié)果排名的主要還是算法本身,但金無(wú)足赤,算法同樣也有問(wèn)題。PageRank的缺陷就包括「舊的頁(yè)面的排名往往會(huì)比新頁(yè)面高」,也同樣因此成為了一些人「刷排名」的漏洞。因此Google在2016年關(guān)閉了PageRank數(shù)據(jù)開(kāi)放的大門。誠(chéng)所謂條條大路通羅馬,盡管時(shí)間在變、算法在變,不過(guò)Google表示保證搜索結(jié)果排名質(zhì)量的初心并沒(méi)有變。按照Google的說(shuō)法,目前Google搜索引擎的排名系統(tǒng)是以質(zhì)量為導(dǎo)向的,它由一系列算法組成,在搜索過(guò)程中,我們搜索的字詞、搜索目標(biāo)網(wǎng)頁(yè)的相關(guān)性、可用性、來(lái)源專業(yè)程度等等都會(huì)影響到算法和頁(yè)面的最終排名。用戶搜索話題的性質(zhì)不同也會(huì)影響頁(yè)面的內(nèi)容排序。所以從某種程度上來(lái)說(shuō),Google搜索引擎現(xiàn)階段的排名算法其實(shí)是有點(diǎn)「黑盒子」,它不像早年P(guān)ageRank那樣公開(kāi)透明,但依然維持著較高的搜索結(jié)果排名質(zhì)量——當(dāng)然,Google用來(lái)「養(yǎng)家糊口」的廣告往往還是會(huì)排在搜索結(jié)果的上面,好在它們和少數(shù)派網(wǎng)站一樣都標(biāo)注得蠻清楚。用人力保證搜索結(jié)果質(zhì)量沒(méi)錯(cuò),講了這么多預(yù)測(cè)、知識(shí)圖譜與算法,保證Google搜索結(jié)果質(zhì)量最后一環(huán)的竟然還是人。就像上面提到的那個(gè)「羅馬人夜間用日晷計(jì)時(shí)」的笑話一樣,搜索結(jié)果詞不達(dá)意甚至答非所問(wèn)的情況是有的,而算法很難自查。為了減少類似的情況發(fā)生,Google充分調(diào)動(dòng)這樣幾波人的智慧:專家、權(quán)威機(jī)構(gòu)。在搜索健康財(cái)務(wù)、公民信息(civic-information)和危機(jī)情況等話題的時(shí)候,我們能直接在搜索結(jié)果中優(yōu)先看到來(lái)自當(dāng)?shù)卣?、衛(wèi)健、選舉等權(quán)威機(jī)構(gòu)的信息。這樣我們就能從源頭上得到靠譜的信息。Google內(nèi)部團(tuán)隊(duì)。這當(dāng)中不得不提到的有兩支團(tuán)隊(duì):一支是專門的研究團(tuán)隊(duì),一支是內(nèi)容合規(guī)團(tuán)隊(duì)(enforcementteam)。前者通過(guò)對(duì)世界各地的具體情況進(jìn)行「實(shí)地考察」來(lái)改進(jìn)個(gè)性化搜索質(zhì)量;后者依照Google的政策處理那些系統(tǒng)沒(méi)有攔住的違規(guī)內(nèi)容。搜索質(zhì)量評(píng)分員(SearchQualityRater)。他們是對(duì)搜索質(zhì)量進(jìn)行E-A-T評(píng)級(jí)的人,E-A-T評(píng)級(jí)反映了搜索結(jié)果的專業(yè)性(Expertise)、權(quán)威性(Authoritativeness)和可信度(Trustworthiness);評(píng)分員同時(shí)也是幫助Google評(píng)估我們?cè)谒阉餍袨樯蠈?shí)際體驗(yàn)的人。根據(jù)Google的數(shù)據(jù),目前參與這些工作的評(píng)分員有10000多人。P.S.評(píng)分員在開(kāi)始提供評(píng)級(jí)服務(wù)之前,需要學(xué)習(xí)Google發(fā)布的《搜索質(zhì)量評(píng)分者指南》并且通過(guò)相應(yīng)考試。整個(gè)評(píng)估工作也要遵照該《指南》進(jìn)行。除了以人之智慧補(bǔ)算法之不足之外,Google同樣沒(méi)有放棄對(duì)算法優(yōu)化的努力。以「網(wǎng)頁(yè)的相關(guān)性和可用性」而言,Google擁有多種語(yǔ)言理解系統(tǒng)。這些語(yǔ)言理解系統(tǒng)中既有對(duì)應(yīng)拼寫錯(cuò)誤、同義詞等內(nèi)容系統(tǒng),又有基于AI的系統(tǒng)。通過(guò)這些系統(tǒng),Google得以了解與我們搜索最相關(guān)的結(jié)果并進(jìn)行改善。配合人為主導(dǎo)的并行實(shí)驗(yàn)、實(shí)時(shí)流量實(shí)驗(yàn)等一系列的工作,最終Google得以保證我們?cè)贕oogle搜索引擎中的實(shí)際體驗(yàn)。根據(jù)Google披露的數(shù)據(jù),2019年他們與搜索質(zhì)量評(píng)分者一共進(jìn)行了38

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論