搜索引擎概述_第1頁
搜索引擎概述_第2頁
搜索引擎概述_第3頁
搜索引擎概述_第4頁
搜索引擎概述_第5頁
已閱讀5頁,還剩47頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

SEO搜索引擎優(yōu)化:基礎、案例與實戰(zhàn)(第2版)第2章搜索引擎概述目錄Contents2.1認識搜索引擎2.2搜索引擎的工作原理2.3搜索引擎的使用方法2.4本章實訓2.1.1搜索引擎的定義搜索引擎(SearchEngine)指根據(jù)一定的策略,運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,再對信息進行組織和處理后,為用戶提供檢索服務,最后將用戶檢索的相關信息展示給用戶的網(wǎng)站系統(tǒng)。簡而言之,搜索引擎通過收集并整理互聯(lián)網(wǎng)上眾多網(wǎng)頁中的關鍵詞并進行索引,進而建立索引數(shù)據(jù)庫。當用戶搜索某個關鍵詞時,所有頁面內(nèi)容中包含該關鍵詞的網(wǎng)頁都將被作為搜索結(jié)果展現(xiàn)出來。搜索結(jié)果展現(xiàn)2.1.2搜索引擎的發(fā)展史1990年,加拿大麥吉爾大學(McGillUniversity)計算機學院的AlanEmtage研發(fā)了Archie。Archie可以定期搜集并分析FTP服務器上的文件名信息,為用戶提供查找分散保存在各個FTP主機中的文件的服務。Archie搜集的信息資源被公認為搜索引擎的雛形。工作原理自動搜集信息資源建立索引提供檢索服務2.1.2搜索引擎的發(fā)展史隨著互聯(lián)網(wǎng)的出現(xiàn),為了方便查詢互聯(lián)網(wǎng)中的網(wǎng)頁信息,真正的搜索引擎也應運而出,并隨著互聯(lián)網(wǎng)的發(fā)展不斷地發(fā)展和進步??傮w說來,搜索引擎分為4代。1234分類目錄時代用戶中心時代文本檢索時代整合分析時代2.1.3搜索引擎的分類全文搜索引擎(FullTextSearchEngine)是目前應用較廣泛的主流搜索引擎。1.全文搜索引擎全文搜索引擎從互聯(lián)網(wǎng)中提取各個網(wǎng)站的信息(以網(wǎng)頁文字為主),建立起網(wǎng)頁數(shù)據(jù)庫,并檢索與用戶搜索條件相匹配的記錄,按一定的排列順序返回結(jié)果。國外搜索引擎Google國內(nèi)的百度和360搜索2.1.3搜索引擎的分類全文搜索引擎又可以分為兩類。1.全文搜索引擎租用其他搜索引擎的數(shù)據(jù)庫這種搜索引擎不能夠創(chuàng)建自己的數(shù)據(jù)庫,無法滿足用戶的需求,現(xiàn)已逐漸被第一類搜索引擎所替代。擁有自己的檢索程序能夠自己從互聯(lián)網(wǎng)中抓取網(wǎng)頁建立數(shù)據(jù)庫,從自身的數(shù)據(jù)庫中調(diào)用搜索結(jié)果。2.1.3搜索引擎的分類目錄搜索引擎(SearchIndex/Directory)也被稱為“分類檢索”,是以人工方式或者半自動方式搜索網(wǎng)頁的內(nèi)容,并根據(jù)網(wǎng)頁的內(nèi)容和性質(zhì)將其歸納到不同層次的類目之下,形成一定的人工信息摘要,最終形成像圖書館目錄一樣的樹狀分類結(jié)構(gòu)索引。2.目錄搜索引擎目錄搜索引擎的結(jié)構(gòu)圖2.1.3搜索引擎的分類元搜索引擎(MetaSearchEngine)是為了彌補傳統(tǒng)搜索引擎的不足而出現(xiàn)的一種輔助搜索工具,它可以使用戶只搜索一次就得到在多個搜索引擎中搜索的結(jié)果。典型的元搜索引擎有以下幾個。3.元搜索引擎InfoSpaceDogpileVivisimo2.1.3搜索引擎的分類元搜索引擎由3個部分組成,分別是搜索請求處理模塊、搜索接口代理模塊、搜索結(jié)果顯示模塊。3.元搜索引擎元搜索引擎的工作原理2.1.3搜索引擎的分類4.垂直搜索引擎垂直搜索引擎(VerticalSearchEngines)更專注于特定的搜索領域和搜索需求,如圖片搜索、視頻搜索、法律搜索、專利搜索、論文搜索等,它是對通用搜索內(nèi)容的細分。在其特定的搜索領域有更好的用戶體驗,如百度學術、百度文庫、Google學術等都是垂直搜索引擎。垂直搜索引擎的工作原理2.1.3搜索引擎的分類4.垂直搜索引擎相比于其他無序化的搜索引擎,垂直搜索引擎更加專業(yè)和深入,進而保證所收錄信息的完整性和及時性,且其返回的結(jié)果重復率低、相關性強、查準率高。垂直搜索引擎最大的特點有如下幾點。最大特點精準深行業(yè)色彩2.1.4常用的搜索引擎介紹1.百度百度是全球知名的中文搜索引擎,致力于向人們提供“簡單,可依賴”的信息獲取方式。2000年1月,百度創(chuàng)立于北京中關村,百度的“百度”二字源于中國宋朝詞人辛棄疾的《青玉案》詩句:“眾里尋他千百度”,象征著百度對中文信息檢索技術的執(zhí)著追求。百度的服務器分布在全國各地,能直接從最近的服務器上把所搜索信息返回給當?shù)赜脩?,使用戶享受極快的搜索體驗。百度首頁2.1.4常用的搜索引擎介紹360搜索屬于全文搜索引擎,是目前廣泛應用的主流搜索引擎之一,360搜索包含網(wǎng)頁、新聞、影視等搜索產(chǎn)品,能為用戶帶來更安全、更真實的搜索服務體驗。360搜索不僅掌握通用搜索技術,而且獨創(chuàng)PeopleRank算法、拇指計劃等創(chuàng)新技術。目前,360搜索已建立由數(shù)百名工程師組成的核心搜索技術團隊,擁有上萬臺服務器,龐大的蜘蛛爬蟲系統(tǒng)每日抓取網(wǎng)頁數(shù)量高達十億,收錄的優(yōu)質(zhì)網(wǎng)頁數(shù)量超過數(shù)百億,網(wǎng)頁搜索速度和質(zhì)量都非常領先。2.360搜索360搜索首頁2.1.4常用的搜索引擎介紹搜狗搜索是搜狐公司于2004年推出的第三代互動式中文搜索引擎。其致力于中文互聯(lián)網(wǎng)信息的深度挖掘,幫助中國上億互聯(lián)網(wǎng)用戶加快信息獲取速度,為用戶創(chuàng)造價值。其中音樂搜索具有小于2%的死鏈率,圖片搜索具有獨特的組圖瀏覽功能,新聞搜索具有能夠及時反映互聯(lián)網(wǎng)熱點事件的看熱鬧首頁,地圖搜索具有全國無縫漫游功能。3.搜狗搜索搜狗搜索首頁2.1.4常用的搜索引擎介紹谷歌(Google)是目前被公認的全球最大的搜索引擎,是互聯(lián)網(wǎng)上最受歡迎的網(wǎng)站之一,在全球范圍內(nèi)擁有無數(shù)的用戶。Google允許以多種語言進行搜索,有多達30余種語言可供選擇。Google以簡單、干凈的頁面設計和最有關的搜索結(jié)果贏得了用戶的認同。但目前Google退出了中國市場,在國內(nèi)暫時無法訪問。4.谷歌谷歌首頁2.1.4常用的搜索引擎介紹雅虎(Yahoo!)是美國著名的門戶網(wǎng)站之一,其服務范圍包括搜索引擎、電子郵件、新聞等,服務業(yè)務遍及24個國家和地區(qū)。Yahoo是最早實行“分類目錄”的搜索數(shù)據(jù)庫,也是目前重要的搜索服務網(wǎng)站之一。5.雅虎雅虎首頁目錄Contents2.1認識搜索引擎2.2搜索引擎的工作原理2.3搜索引擎的使用方法2.4本章實訓2.2.1蜘蛛爬行數(shù)據(jù)抓取系統(tǒng)是搜索引擎最重要組成系統(tǒng)之一,主要負責互聯(lián)網(wǎng)信息的搜集、保存和更新等,它就像蜘蛛一樣在互聯(lián)網(wǎng)上爬來爬去,因此也被叫做網(wǎng)絡蜘蛛(spider)或機器人(bot)。搜索引擎抓取網(wǎng)頁時會同時運行多個蜘蛛程序,從一些重要的種子網(wǎng)址開始,通過其網(wǎng)頁上的超鏈接,不斷發(fā)現(xiàn)新的網(wǎng)址并抓取,并不斷重復這個過程,盡最大可能抓取到更多網(wǎng)頁。由于互聯(lián)網(wǎng)中每時每刻都存在網(wǎng)頁被修改、刪除或出現(xiàn)新的超鏈接的可能,所以對于百度這樣的大型搜索引擎來說,還要不斷地對過去抓取過的頁面進行更新。2.2.1蜘蛛爬行當網(wǎng)絡蜘蛛爬行到某個網(wǎng)站時,會首先檢查網(wǎng)站的根目錄下是否存在Robots文件,如果有,則會根據(jù)其約定不抓取禁止抓取的網(wǎng)頁。進入允許抓取的網(wǎng)站后,網(wǎng)絡蜘蛛會采用如下3種策略爬行網(wǎng)站中的所有網(wǎng)頁。最佳優(yōu)先寬度優(yōu)先深度優(yōu)先2.2.1蜘蛛爬行深度優(yōu)先策略是早期使用較多的網(wǎng)絡蜘蛛爬行策略。在網(wǎng)站中,當網(wǎng)絡蜘蛛發(fā)現(xiàn)一個鏈接后,網(wǎng)絡蜘蛛就會沿著這個鏈接爬到下一個網(wǎng)頁,然后在這個網(wǎng)頁中又沿著新發(fā)現(xiàn)的鏈接爬下去,直到?jīng)]有未爬行的鏈接,再返回到第一個網(wǎng)頁,沿著另一條鏈接繼續(xù)爬行。當不再有新的超鏈出現(xiàn)時,整個爬行過程結(jié)束。如圖所示,為深度優(yōu)先爬行策略,其中的數(shù)字為網(wǎng)絡蜘蛛爬行網(wǎng)頁的順序。1.深度優(yōu)先策略首頁12345678910111213142.2.1蜘蛛爬行寬度優(yōu)先策略指網(wǎng)絡蜘蛛來到一個網(wǎng)頁后,先爬行該網(wǎng)頁上的所有鏈接,然后再爬行下一層網(wǎng)頁的鏈接。如圖所示,為寬度優(yōu)先爬行策略,網(wǎng)絡蜘蛛首先爬行第1層的所有頁面,再爬行第2層的所有頁面,然后以此類推,直到爬行完所有頁面。2.寬度優(yōu)先策略首頁14101151226131437892.2.1蜘蛛爬行最佳優(yōu)先策略指網(wǎng)絡蜘蛛到達一個網(wǎng)頁時,將網(wǎng)頁中的所有鏈接收集到地址庫中,并對其進行分析,從中篩選出重要性較高的鏈接進行爬行。影響鏈接重要性的因素主要有網(wǎng)頁權(quán)重、網(wǎng)站規(guī)模和反應速度等。當某個鏈接的網(wǎng)頁權(quán)重值越高、網(wǎng)站規(guī)模越大、反應速度越快時,就會優(yōu)先被抓取。3.最佳優(yōu)先策略2.2.2抓取建庫網(wǎng)絡蜘蛛在經(jīng)過較長時間的爬行后,就可以爬行完互聯(lián)網(wǎng)上的所有網(wǎng)站,但這些網(wǎng)站資源極其龐大,而且其中還夾雜著大量的垃圾網(wǎng)站,再加上搜索引擎的資源有限,通常只會抓取其中的部分網(wǎng)頁到數(shù)據(jù)庫中。網(wǎng)絡蜘蛛到達一個網(wǎng)頁后,會對其內(nèi)容進行檢測,判斷其中的信息是否為垃圾信息,如大量的重復內(nèi)容、亂碼以及與已收錄的內(nèi)容高度重復等。檢測通過后,搜索引擎會對有價值的網(wǎng)頁進行收錄,將網(wǎng)頁的信息存儲到數(shù)據(jù)庫中。2.2.3網(wǎng)頁處理網(wǎng)絡蜘蛛抓取到的網(wǎng)頁數(shù)據(jù)中,除了用戶在瀏覽器上可以看到的可見文字外,還包含了HTML標簽、JavaScript程序、導航、友情鏈接、廣告等無法用于排名計算的內(nèi)容。結(jié)構(gòu)化網(wǎng)頁就是從網(wǎng)頁數(shù)據(jù)中去除這些內(nèi)容,保留可以用于排名的正文文本、Meta標簽、錨文本、圖片視頻的注釋等內(nèi)容。1.結(jié)構(gòu)化網(wǎng)頁如圖所示,這段HTML代碼,在經(jīng)過結(jié)構(gòu)化網(wǎng)頁后,剩下的用于排名的文字為“2019年新款運動鞋”。2.2.3網(wǎng)頁處理分詞是中文搜索引擎所特有的處理操作,這是因為英文等語言的單詞與單詞之間是有空格分隔的,而中文的詞與詞之間則沒有任何分隔符,所以搜索引擎必須首先將一句話分解成若干個詞語。2.分詞基于字典的分詞法基于理解的分詞法基于統(tǒng)計的分詞法分詞的方法2.2.3網(wǎng)頁處理無論是中文還是英文,出現(xiàn)頻率高,對頁面內(nèi)容沒有任何影響的詞,被稱為停止詞。因為它們對句子的主要意思沒什么影響,所以搜索引擎會去掉這些詞。這樣就可以使索引數(shù)據(jù)的主題更為突出,也可以減少一些無謂的計算量。3.去停止詞4.降噪與網(wǎng)頁主題完全不相關的內(nèi)容都屬于噪聲,而搜索引擎需要識別并消除這些噪聲,其基本方法是:根據(jù)HTML標簽對頁面分塊,區(qū)分出頁頭、導航、正文、頁腳、廣告等區(qū)域,剔除無關區(qū)域的內(nèi)容,剩下的就是頁面主體內(nèi)容。5.去重互聯(lián)網(wǎng)中還存在大量的重復內(nèi)容,這些重復內(nèi)容主要是由于網(wǎng)站之間的相互轉(zhuǎn)載以及使用網(wǎng)頁模板產(chǎn)生的。如果用戶的搜索結(jié)果中包含大量的相同內(nèi)容,則說明用戶體驗太差,因此需要搜索引擎只返回其中的一篇,這就要求搜索引擎在索引前對重復內(nèi)容進行識別和刪除,這個過程就稱為“去重”。2.2.3網(wǎng)頁處理搜索引擎會記錄每一個關鍵詞等信息,并根據(jù)這些信息計算出每個關鍵詞的重要性,再按照重要性對關鍵詞進行排序。然后搜索引擎會將頁面及其對應的關鍵詞構(gòu)建為正排索引并存儲到索引庫。6.建立索引庫文檔ID網(wǎng)頁內(nèi)容1小米手機22019年新款手機3華為手機4蘋果手機5小米手機評測6華為手機評測關鍵字ID關鍵詞1手機2小米3華為4蘋果5評測62019年7新款假設的6個頁面內(nèi)容對關鍵詞按照重要性進行排序后的結(jié)果2.2.3網(wǎng)頁處理在實際搜索中搜索引擎是通過關鍵詞來查找包含它的頁面,因此正排索引就需要掃描每一個頁面來判斷其是否包含該關鍵詞,這樣計算量就會非常大,因而搜索引擎還會將正排索引重新構(gòu)建為倒排索引,將頁面對應到關鍵詞的映射轉(zhuǎn)換為關鍵詞到頁面的映射。6.建立索引庫倒排索引簡化表關鍵字ID關鍵字文檔ID1文檔ID2文檔ID3文檔ID4文檔ID5文檔ID61手機1234562小米15

3華為36

4蘋果4

5評測56

62019年2

7新款2

2.2.3網(wǎng)頁處理搜索引擎在對頁面進行排序時,還需要引入網(wǎng)頁以外的標準來衡量網(wǎng)頁。在這些網(wǎng)頁以外的標準中,鏈接分析是最為重要的,搜索引擎會分析鏈接到這個網(wǎng)頁的所有外部鏈接,這些外部鏈接的數(shù)量和質(zhì)量都能反映該網(wǎng)頁的質(zhì)量,以及和關鍵詞的相關度。7.鏈接分析8.數(shù)據(jù)整合除了HTML文件外,搜索引擎通常還能抓取和索引以文字為基礎的多種文件類型。用戶在搜索結(jié)果中,但只能通過其說明性文本進行處理。不同的數(shù)據(jù)格式被分別存儲,但是在建立索引以及排序時,往往又會聯(lián)系與數(shù)據(jù)相關的內(nèi)容,以判斷其相關性與重要性,然后最終形成一個有利于搜索排名的檢索數(shù)據(jù)庫。2.2.4檢索服務搜索引擎建好檢索數(shù)據(jù)庫后,就可以為用戶提供檢索服務了。當用戶輸入一個查詢關鍵詞后,搜索引擎首先會處理搜索關鍵詞,將其進行過濾和拆分,然后從索引庫中將與之匹配的頁面提取出來,再通過不同的維度對頁面的得分進行綜合排序,最后再通過收集用戶搜索數(shù)據(jù)對結(jié)果進行優(yōu)化,此時就可以得到最終的搜索結(jié)果。如圖所示為基數(shù)服務基本流程。2.2.4檢索服務和處理頁面的關鍵詞一樣,對用戶輸入的搜索關鍵詞也需要進行拆分和降噪等操作,將其拆分為關鍵詞組,并剔除掉對搜索結(jié)果影響不大的詞。1.處理搜索關鍵詞拆分搜索關鍵詞2.2.4檢索服務確定好關鍵詞后,搜索引擎就會從檢索數(shù)據(jù)庫中提取出包含有這些關鍵詞的頁面。但要全部進行排名會使計算量非常大、速度非常慢。因此搜索引擎通常,只會顯示權(quán)重最高的幾百條搜索結(jié)果。2.提取頁面搜索結(jié)果頁數(shù)2.2.4檢索服務搜索引擎會根據(jù)不同方面的得分對參與排名的頁面進行綜合排序,以得到最終的搜索結(jié)果。3.綜合排序 相關性 權(quán)威性 時效性 豐富度 降權(quán) 加權(quán)降權(quán)指降低有作弊嫌疑的網(wǎng)頁的位置的做法。豐富度指頁面內(nèi)容的豐富程度。時效性指頁面是否為新出現(xiàn)的網(wǎng)頁,且頁面內(nèi)容是新鮮的加權(quán)指通過人工方式提高某些頁面(如官方網(wǎng)站、特殊通道頁面等)的排名。權(quán)威性更高的網(wǎng)站提供的內(nèi)容更真實可靠,所以其網(wǎng)頁排名越靠前相關性指頁面內(nèi)容與搜索關鍵詞的匹配程度。2.2.4檢索服務搜索引擎還會根據(jù)用的IP地址、搜索時間、以往的搜索記錄以及瀏覽過的網(wǎng)頁等信息對搜索結(jié)果進行優(yōu)化。通過IP地址可以獲取用戶所在的地區(qū),根服各地區(qū)用戶的搜索習慣,可以返回用戶特定地域的排名結(jié)果。通過搜索時間、以往的搜索記錄以及瀏覽過的網(wǎng)頁等信息可以了解用戶的搜索習慣、以及對哪些內(nèi)容更為關心,從而給出更準確化和個性化的搜索結(jié)果。4.檢索優(yōu)化2.2.5結(jié)果展現(xiàn)搜索結(jié)果的展現(xiàn)形式是多種多樣的,最簡單的展現(xiàn)形式由標題、摘要、網(wǎng)頁鏈接、“百度快照”超鏈接組成,這種展現(xiàn)形式也稱為摘要式。標題摘要網(wǎng)頁鏈接“百度快照”超鏈接2.2.5結(jié)果展現(xiàn)圖片式視頻式軟件下載式步驟式除了摘要式外,搜索結(jié)果的常見展現(xiàn)形式還有圖片式、視頻式、軟件下載式、步驟式等。目錄Contents2.1認識搜索引擎2.2搜索引擎的工作原理2.3搜索引擎的使用方法2.4本章實訓2.3.1基本查詢基本查詢指直接輸入搜索關鍵詞進行查詢。其具體操作如下。1搜索結(jié)果2輸入網(wǎng)址2.3.1基本查詢3選擇文件類型4搜索結(jié)果2.3.1基本查詢5選擇發(fā)布時間6搜索結(jié)果2.3.2高級查詢使用搜索引擎的高級查詢方法可以在搜索時實現(xiàn)包含完整的關鍵詞、包含任意的關鍵詞或不包含某些關鍵詞等功能。其具體操作如下。1高級搜索2搜索結(jié)果2.3.3使用搜索引擎指令site指令有兩種用法:一種是查詢某個網(wǎng)站中被搜索引擎收錄的頁面數(shù)量。1.site指令site+半角冒號“:”+網(wǎng)站域名一種是在指定的網(wǎng)站范圍內(nèi)搜索包含相應關鍵詞的網(wǎng)頁。site+半角冒號“:”+網(wǎng)站域名+空格+關鍵詞2.3.3使用搜索引擎指令1.site指令其具體操作如下。1京東網(wǎng)站被百度收錄的網(wǎng)頁數(shù)量2在京東網(wǎng)站中進行搜索2.3.3使用搜索引擎指令網(wǎng)頁URL中包含的某些信息常常具有某種特殊價值的含義。因此,使用inurl指令對搜索結(jié)果中的URL進行限定,就可以獲得比較精準的搜索結(jié)果。2.inurl指令inurl+半角冒號“:”+指定文本inurl+半角冒號“:”+指定文本+空格+關鍵詞2.3.3使用搜

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論