![搜索引擎優(yōu)化技術(shù)培訓(xùn)_第1頁](http://file4.renrendoc.com/view12/M00/1D/13/wKhkGWXkdgaAQ6MwAAC-k5bicak964.jpg)
![搜索引擎優(yōu)化技術(shù)培訓(xùn)_第2頁](http://file4.renrendoc.com/view12/M00/1D/13/wKhkGWXkdgaAQ6MwAAC-k5bicak9642.jpg)
![搜索引擎優(yōu)化技術(shù)培訓(xùn)_第3頁](http://file4.renrendoc.com/view12/M00/1D/13/wKhkGWXkdgaAQ6MwAAC-k5bicak9643.jpg)
![搜索引擎優(yōu)化技術(shù)培訓(xùn)_第4頁](http://file4.renrendoc.com/view12/M00/1D/13/wKhkGWXkdgaAQ6MwAAC-k5bicak9644.jpg)
![搜索引擎優(yōu)化技術(shù)培訓(xùn)_第5頁](http://file4.renrendoc.com/view12/M00/1D/13/wKhkGWXkdgaAQ6MwAAC-k5bicak9645.jpg)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
搜索引擎技術(shù)介紹
屈波
2007年8月目錄一、搜索引擎總體介紹二、爬蟲技術(shù)介紹三、中文分詞和排序算法介紹四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹六、移動(dòng)通信運(yùn)營商搜索引擎獨(dú)特優(yōu)勢一、搜索引擎總體介紹(一)搜索引擎定義
“搜索引擎〞技術(shù),完全來源于歷史悠久的全文檢索技術(shù)。 “搜索引擎〞從字面上可拆分為“搜〞、“索〞、“引擎〞三個(gè)含義。
“搜〞就是大量信息的抓取,抓取回來后的信息進(jìn)行智能提取、排重、質(zhì)量分析等處理。
“索〞就是大量處理后信息的存儲(chǔ)、信息排序、快速查詢等。
“引擎〞就是指系統(tǒng)不但能存儲(chǔ)億級(jí)的數(shù)據(jù),而且還能有巨大的并發(fā)處理能力,這樣的系統(tǒng)才有資格被叫著“引擎〞。一、搜索引擎總體介紹(二)搜索引擎和移動(dòng)搜索引擎
搜索引擎也可以看成為“專家系統(tǒng)〞,通過把數(shù)百億互聯(lián)網(wǎng)網(wǎng)頁所提供的信息,作為其龐大的“知識(shí)庫〞,通過用戶的輸入詞,找到相關(guān)信息。
從技術(shù)上來講,基于的移動(dòng)搜索引擎,在其技術(shù)上和搜索引擎是完全一樣的。 用戶查詢信息的媒體,由PC被替代,可以隨時(shí)隨地提供搜索效勞,用戶更方便地進(jìn)行信息查詢。并且,的用戶群體是遠(yuǎn)大于PC用戶群體,所以,移動(dòng)搜索引擎肯定是搜索引擎領(lǐng)域未來開展的重點(diǎn)和方向。
一、搜索引擎總體介紹(三)搜索引擎主要核心技術(shù): 搜索引擎主要核心技術(shù)為: (1)中英文分詞語言處理; (2)排序算法; (3)網(wǎng)絡(luò)爬蟲; (4)查詢/存儲(chǔ)技術(shù)
開發(fā)搜索引擎系統(tǒng)主要涉及到的具體技術(shù)為: (1)網(wǎng)絡(luò)協(xié)議. (2)多線程技術(shù). (3)socket通信. (4)高效效勞端程序開發(fā).一、搜索引擎總體介紹(四)系統(tǒng)圖:一、搜索引擎總體介紹(五)全文檢索系統(tǒng)和搜索引擎關(guān)系:1、搜索引擎技術(shù)來源于全文檢索系統(tǒng),搜索引擎是全文檢索技術(shù)最重要的一個(gè)運(yùn)用.2、搜索引擎在數(shù)據(jù)總量,最大并發(fā)處理能力,單次查詢速度方面,都遠(yuǎn)遠(yuǎn)強(qiáng)大于全文檢索系統(tǒng).3、搜索引擎為了最求最高的查詢速度,在搜索結(jié)果準(zhǔn)確性及搜索結(jié)果重現(xiàn)方面,都弱于全文檢索系統(tǒng).一、搜索引擎總體介紹(六)全文檢索系統(tǒng)和搜索引擎比較:類別全文檢索搜索引擎信息獲得信息獲得比較容易,被檢索內(nèi)容基本上都是規(guī)范化信息.信息獲得困難,特別是信息提取的準(zhǔn)確率受算法影響很大.信息總量支持的信息總量較少,搜索速度受信息總量增加而遞減.支持幾十億到幾百億的信息總量,搜索速度和信息總量基本無關(guān).分詞技術(shù)分詞準(zhǔn)確性較高,分詞速度中等,搜索結(jié)果比較滿意.詞庫更新慢.分詞速度極快,分詞準(zhǔn)確性中等.新詞補(bǔ)充及時(shí).存儲(chǔ)索引索引結(jié)果硬盤存儲(chǔ),系統(tǒng)內(nèi)存消耗較少,可和其他程序并存.索引結(jié)果,以內(nèi)存存儲(chǔ)為主,硬盤存儲(chǔ)為輔,大多獨(dú)占操作系統(tǒng).搜索耗時(shí)搜索用時(shí)為秒級(jí),只支持小用戶量并發(fā).搜索用時(shí)可達(dá)到毫秒級(jí),擁有超強(qiáng)并發(fā)處理能力.搜索結(jié)果搜索結(jié)果準(zhǔn)確,結(jié)果總數(shù)為實(shí)際數(shù)目,搜索結(jié)果能準(zhǔn)確重現(xiàn).結(jié)果不夠準(zhǔn)確,只提供全部結(jié)果的前面部分,搜索結(jié)果不保證重現(xiàn).系統(tǒng)規(guī)模系統(tǒng)簡單,服務(wù)器硬件投入較少,硬件管理比較輕松.系統(tǒng)龐大,服務(wù)器硬件投入巨大,幾百臺(tái)服務(wù)器到幾十萬臺(tái)服務(wù)器.二、爬蟲技術(shù)介紹(一)爬蟲技術(shù)總體介紹: 網(wǎng)絡(luò)爬蟲是一個(gè)自動(dòng)提取網(wǎng)頁的程序,它為搜索引擎從Internet網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。 網(wǎng)絡(luò)爬蟲使用多線程技術(shù),讓爬蟲具備更強(qiáng)大的抓取能力。通過DNSCache技術(shù),減少爬蟲對DNS的訪問頻率,防止DNS成為網(wǎng)絡(luò)瓶頸,提高抓取速度。 網(wǎng)絡(luò)爬蟲還要完成信息提取任務(wù),對于抓取回來的網(wǎng)頁提取出來:新聞、電子圖書、行業(yè)信息等。對于MP3、圖片、Flash等各種不同內(nèi)容,要實(shí)現(xiàn)自動(dòng)識(shí)別、自動(dòng)分類及相關(guān)屬性測試〔例如:MP3文件要包含的文件大小,下載速度等屬性〕。二、爬蟲技術(shù)介紹(二)抓取對象: 1.靜態(tài)網(wǎng)頁:爬蟲從一個(gè)或假設(shè)干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列,直到滿足系統(tǒng)的一定停止條件。2.動(dòng)態(tài)網(wǎng)頁:分析動(dòng)態(tài)網(wǎng)頁參數(shù),按照一定規(guī)章,“拼〞出所有要被抓取內(nèi)容URL,只抓取這些特定范圍內(nèi)動(dòng)態(tài)網(wǎng)頁。 3.特殊內(nèi)容:比方RSS、XML數(shù)據(jù),情況特殊需特殊處理。如新聞的滾動(dòng)新聞頁面,需要爬蟲不停地監(jiān)控掃描,發(fā)現(xiàn)新內(nèi)容馬上就進(jìn)行抓取。 4.文件對象:圖片,MP3、Flash、視頻等文件的抓取,都要特殊處理。比方說:圖片抓取出來后,要知道圖片文件類型、圖片文件的大小、圖片的像素大小,還要轉(zhuǎn)換出來縮略圖。二、爬蟲技術(shù)介紹(三)抓取策略: 1.深度優(yōu)先策略:對于一些大網(wǎng)站及靜態(tài)網(wǎng)頁為主的抓取內(nèi)容,采取深度策略抓取,便于在最短時(shí)間內(nèi)獲得最大量內(nèi)容。2.廣度優(yōu)先策略:對于一些動(dòng)態(tài)網(wǎng)頁或小網(wǎng)站,采取廣度策略抓取,同時(shí)對多個(gè)網(wǎng)站進(jìn)行抓取,減小對各個(gè)小網(wǎng)站的壓力,防止造成惡意攻擊。 3.合作抓取策略:由被抓取網(wǎng)站,提供可被抓取內(nèi)容的sitemap網(wǎng)站地圖,雙方協(xié)議好,只抓取這些特定內(nèi)容,在抓取速度及時(shí)間上雙方前期進(jìn)行協(xié)商。另外還可以完全由被抓取方,提供詳細(xì)內(nèi)容,抓取過程都可以省略一些步驟。二、爬蟲技術(shù)介紹(四)爬蟲程序介紹:
URL任務(wù)列表互聯(lián)網(wǎng)DNSCacheDNS內(nèi)容處理,分析出新的URL,URL檢查二、爬蟲技術(shù)介紹(四)爬蟲程序介紹:2.多線程模型〔省略掉DNSCache局部〕
URL任務(wù)列表互聯(lián)網(wǎng)......線程1臨界區(qū)線程2線程N(yùn)二、爬蟲技術(shù)介紹(四)爬蟲程序介紹:
URL任務(wù)列表互聯(lián)網(wǎng)......Spider管理器Spider1Spider2SpiderN二、爬蟲技術(shù)介紹(五)內(nèi)容提?。?內(nèi)容提取是?模式識(shí)別?學(xué)科范圍內(nèi)容,對獲得的信息進(jìn)行預(yù)處理后,按照特征值提前和選擇,最后進(jìn)行內(nèi)容的識(shí)別。內(nèi)容提取的準(zhǔn)確率受算法影響較大,尤其是新聞、圖片等內(nèi)容。動(dòng)態(tài)網(wǎng)頁比較容易的通過網(wǎng)頁比對,整理出其網(wǎng)頁設(shè)計(jì)模板,按照模板可以準(zhǔn)確率較高的完成提取。
網(wǎng)頁內(nèi)容的正確提取,對排序算法設(shè)計(jì),也有非常重要的影響。 判斷兩個(gè)內(nèi)容是否相同的排重算法,一般按照貝葉斯決策理論進(jìn)行處理,判斷兩個(gè)內(nèi)容的相似度,最常用于相同新聞的判斷。信息獲得預(yù)處理特征值提取和選擇訓(xùn)練過程分類器設(shè)計(jì)分類決策二、爬蟲技術(shù)介紹(五)內(nèi)容提?。?因?yàn)槟壳癢AP網(wǎng)頁數(shù)據(jù)總量過少,另外WAP網(wǎng)頁包含數(shù)據(jù)也過少,在基于WAP網(wǎng)頁的搜索引擎中,帶給用戶的信息總量過少,所以基于WAP內(nèi)容的搜索開展緩慢。
對Web網(wǎng)頁內(nèi)容如能進(jìn)行提取出最關(guān)鍵內(nèi)容,有一套高效的智能內(nèi)容提取程序。在移動(dòng)搜索引擎中,搜索內(nèi)容為智能提取出來的Web網(wǎng)頁內(nèi)容,這將大大加快移動(dòng)搜索效勞開展。 Web網(wǎng)頁內(nèi)容的智能提取,屬于復(fù)雜數(shù)據(jù)類型挖掘,其程序算法難度非常大。三、中文分詞和排序算法介紹(一)中文分詞: 自然語言理解和處理,是人工智能的重要的研究領(lǐng)域之一,是語言學(xué)、邏輯學(xué)、生理學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué)和數(shù)學(xué)等相關(guān)學(xué)科開展和結(jié)合而形成的一門交叉學(xué)科。 分詞作為搜索引擎的一項(xiàng)核心功能,和存儲(chǔ)和查詢有重大關(guān)系。但是不同的研究角度,不同的研究方向,帶來研究重點(diǎn)和研究結(jié)果都是不一樣的。 語言學(xué)方向研究的分詞算法,看重分詞的準(zhǔn)確性,不看重運(yùn)算速度;而搜索引擎的分次算法,特別看重分詞速度,分詞準(zhǔn)確性中等。
語言詞匯語法詞熟語詞素詞法句法造句法詞組構(gòu)造法構(gòu)形法構(gòu)詞法三、中文分詞和排序算法介紹(一)中文分詞: 以英文為代表的字母型文字,按照空格和標(biāo)點(diǎn)符號(hào)比較容易實(shí)現(xiàn)分詞,而以中文為代表的東亞語系文字,在分詞方面,卻存在巨大的困難。 據(jù)說百度〔也包括北大天網(wǎng)〕在早期時(shí),所有的中文文字,全部拆分為一個(gè)個(gè)的單字,搜索效果比較差。但也有特殊效果,比方說:搜“我為秋香〞,能夠搜到唐伯虎的著名藏頭文。
我康宣今年一十八歲,姑蘇人氏,身家清白,素?zé)o過犯。只為家況清貧,鬻身華相府中,充當(dāng)書僮。身價(jià)銀五十兩,自秋節(jié)起,暫存帳房,俟三年后支取。從此承值書房,每日焚香掃地,洗硯磨墨等事,聽?wèi){使喚。從頭做起,立契為憑。三、中文分詞和排序算法介紹(一)中文分詞: 搜索引擎的中文分詞,在算法上有兩種,一個(gè)用于后臺(tái)索引處理,一個(gè)用于前端對搜索詞進(jìn)行分詞處理。 比方說:有一條紀(jì)錄內(nèi)容為“中國人民解放軍〞。
在構(gòu)建后臺(tái)索引時(shí),可分詞為:“中國人民解放軍〞、“中國〞、“人民〞、“解放軍〞、“中〞、“國〞、“人〞、“民〞、“解〞、“放〞、“軍〞,對這11個(gè)字詞都要建立索引。這樣做的目的是為了,當(dāng)搜索詞為上面這11種中任何一個(gè)時(shí),都能在各自索引庫中找到“中國人民解放軍〞這條紀(jì)錄。 搜索詞為“中國人民解放軍〞,在其前端的分詞處理,就只分詞為:“中國人民解放軍〞或“中國+人民+解放軍〞或“中國+人民解放軍〞。
三、中文分詞和排序算法介紹(一)中文分詞:
因?yàn)橹形谋旧泶嬖谥艽蟮钠缌x性,同樣一句話,不同的斷句,表達(dá)的意思就不一樣。這對于計(jì)算機(jī)去做機(jī)器分析,就帶來了巨大的困難。 下面的中文斷句,來自百度廣告宣傳片: 「我知道你不知道我知道你不知道我知道你不知道」
「我知道,你不知道。我知道,你不知道我知道,你不知道」
「我知道你,不知道我。知道你不知道我,知道你不知道」
「我,知道你不知道我知道。你,不知道我知道你不知道」
三、中文分詞和排序算法介紹(一)中文分詞: 另外中文的具體含義,還必須放在具體的前后語言環(huán)境中去分析。 比方說: 「乒乓球拍賣完了」 我去學(xué)校商店,發(fā)現(xiàn)「乒乓球拍賣完了」 在今天的慈善拍賣會(huì)上,世界冠軍們奪冠時(shí)的「乒乓球拍賣完了」
中文分詞,在具體的算法實(shí)現(xiàn)上分為三種: 1.字符串匹配(正序、逆序、最少切分、最大切分等) 2.基于理解〔詞法,句法等方式處理〕 在中文搜索引擎中,目前根本上是這三種算法混合使用。第二種的算法實(shí)現(xiàn)起來過于復(fù)雜,所以以第一種和第三種算法為主。三、中文分詞和排序算法介紹(一)中文分詞: 語言本身也是在不停的進(jìn)化和開展的,新的詞語層出不窮,一些老的詞語漸漸被棄用。作為中文分詞的根底詞庫,其新詞補(bǔ)充和老詞刪除就是非常重要的工作。 “超級(jí)女聲〞、“超女〞、“李宇春〞、“八榮八恥〞、“非典〞,當(dāng)這些新詞的出現(xiàn)時(shí),搜索引擎需要快速捕捉到,并且馬上把其添加到分詞系統(tǒng)中去。
如何判斷那些詞是新詞,這就全部倚靠算法來實(shí)現(xiàn)。新詞捕捉主要來源于新聞和網(wǎng)絡(luò)BBS論壇,主要機(jī)制是依靠統(tǒng)計(jì)程序,統(tǒng)計(jì)上升速度最高的詞。另外作為搜索引擎公司,對眾多用戶的搜索詞進(jìn)行“用戶行為〞分析,也能提高其“新詞補(bǔ)充〞效果。
三、中文分詞和排序算法介紹(二)排序算法: 搜索引擎的排序算法〔rankingalgorithm〕,決定了各個(gè)網(wǎng)頁、圖片、MP3等數(shù)據(jù)的重要性排列順序,也決定了最終用戶查詢到的數(shù)據(jù)排序。搜索引擎的排序算法是人工智能的完滿表達(dá),它是對百億級(jí)數(shù)據(jù)進(jìn)行重要性分析的數(shù)學(xué)實(shí)現(xiàn)。 “PageRank〞是Google公司在排序算法上的專利技術(shù),也是Google能從眾多搜索引擎公司中脫穎而出的最核心技術(shù),作為其搜索效勞能夠超過其他競爭對手最有力的武器。 不同搜索引擎公司排序算法的優(yōu)劣,直接決定了廣闊搜索引擎用戶對搜索效勞的選擇,在互聯(lián)網(wǎng)上,一個(gè)普通用戶更換搜索效勞只需要5秒鐘,所以排序算法就成為了各個(gè)搜索引擎公司最核心機(jī)密。另外,每個(gè)搜索引擎公司也必須不停地改進(jìn)其排序算法。三、中文分詞和排序算法介紹(二)排序算法: 排序算法局部參考指標(biāo):指標(biāo)加分減分網(wǎng)站硬件指標(biāo)網(wǎng)站網(wǎng)絡(luò)好,系統(tǒng)穩(wěn)定網(wǎng)站系統(tǒng)不穩(wěn)定,網(wǎng)絡(luò)不好網(wǎng)站包含網(wǎng)頁數(shù)總網(wǎng)頁數(shù)目多總網(wǎng)頁數(shù)目少網(wǎng)頁大小網(wǎng)頁大小適中網(wǎng)頁多大或過小其他網(wǎng)頁鏈到本網(wǎng)頁數(shù)目多數(shù)目少網(wǎng)頁內(nèi)URL數(shù)數(shù)目適中過多或過少網(wǎng)頁相關(guān)性URL連接網(wǎng)頁是相關(guān)內(nèi)容URL連接網(wǎng)頁不是相關(guān)內(nèi)容網(wǎng)頁更新/生成日期日期近的日期遠(yuǎn)的網(wǎng)頁類型靜態(tài)網(wǎng)頁動(dòng)態(tài)網(wǎng)頁網(wǎng)頁內(nèi)樣式網(wǎng)頁設(shè)計(jì)樣式中等網(wǎng)頁設(shè)計(jì)樣式過于復(fù)雜或簡單網(wǎng)頁具體內(nèi)容分詞后,各個(gè)詞權(quán)重總和高分詞后,各個(gè)詞權(quán)重總和低用戶訪問行為點(diǎn)擊多的網(wǎng)頁點(diǎn)擊少的網(wǎng)頁三、中文分詞和排序算法介紹(二)排序算法: 排序算法雖然解決了網(wǎng)頁排序的問題,但是有時(shí)候有些搜索結(jié)果還是很難讓用戶滿意。為此,搜索引擎排序算法一項(xiàng)重要改進(jìn):“聚類〞,就被引進(jìn)來提高排序效果。 “聚類〞方法,是把網(wǎng)頁分類成各種不同類型,比方說:分類為“體育〞、“娛樂〞、“軍事〞、“旅游〞、“金融〞、“政治〞、“汽車〞、“房產(chǎn)〞等。針對每一種分類,各自有一套專用的排序算法。
當(dāng)查詢詞為“高爾夫〞時(shí),查詢結(jié)果為“體育〞+“汽車〞,排序算法為通用算法;但當(dāng)查詢詞為“高爾夫伍茲〞時(shí),其分類就能確定為“體育〞,其排序算法就采用“體育〞類別的算法。三、中文分詞和排序算法介紹四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹(一)查詢/存儲(chǔ)技術(shù): 存儲(chǔ)技術(shù)是搜索引擎在提供搜索效勞時(shí)的關(guān)鍵技術(shù),系統(tǒng)如何去存儲(chǔ)上百億的網(wǎng)頁數(shù)據(jù),如何科學(xué)高效地提供搜索結(jié)果,這些都會(huì)影響用戶的“搜索用時(shí)〞。
搜索引擎之所以能夠給同時(shí)給眾多用戶,在豪秒級(jí)的范圍內(nèi)就能提供搜索結(jié)果,其技術(shù)秘密就是絕大局部查詢結(jié)果都是提前完成運(yùn)算,搜索結(jié)果早已存儲(chǔ)在其效勞器上。 數(shù)據(jù)的存儲(chǔ),當(dāng)然會(huì)受硬件條件的影響,不能夠把所有數(shù)據(jù)都存儲(chǔ)在內(nèi)存中,局部數(shù)據(jù)還需存儲(chǔ)在硬盤中,這其中就有個(gè)存儲(chǔ)策略。存儲(chǔ)網(wǎng)頁數(shù)據(jù)時(shí),權(quán)值高的網(wǎng)頁數(shù)據(jù)存儲(chǔ)在內(nèi)存,權(quán)值低的存儲(chǔ)在硬盤。四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹(一)查詢/存儲(chǔ)技術(shù): 搜索引擎的數(shù)據(jù)存儲(chǔ)主要分為兩局部: 第一局部:網(wǎng)頁數(shù)據(jù),包含:網(wǎng)頁編號(hào)、URL、標(biāo)題、內(nèi)容摘要、網(wǎng)頁大小等。
第二局部:詞庫索引數(shù)據(jù),包含:中文詞庫中的字詞、英文單詞、每個(gè)字詞對應(yīng)網(wǎng)頁編號(hào)隊(duì)列等。 網(wǎng)頁編號(hào)是唯一編號(hào),不得重復(fù)。查詢時(shí),通過詞庫索引得到網(wǎng)頁編號(hào),然后在網(wǎng)頁數(shù)據(jù)中,得到各自網(wǎng)頁的相關(guān)數(shù)據(jù)。四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹(一)查詢/存儲(chǔ)技術(shù): 對于每一個(gè)網(wǎng)頁,包含:網(wǎng)頁編號(hào)、URL、標(biāo)題、內(nèi)容摘要、網(wǎng)頁大小等信息。可由下面結(jié)構(gòu)體來描述: (1)網(wǎng)頁編號(hào) char16 (2)URL char256 (3)標(biāo)題 char56 (4)內(nèi)容摘要 char256 (5)網(wǎng)頁大小 char8
這樣一來,每個(gè)網(wǎng)頁數(shù)據(jù)的存儲(chǔ)大小為592字節(jié)。網(wǎng)頁數(shù)據(jù)的網(wǎng)頁編號(hào)是連續(xù)的,所以網(wǎng)頁數(shù)據(jù)的存儲(chǔ)也可以連續(xù)存儲(chǔ)。四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹(一)查詢/存儲(chǔ)技術(shù): “網(wǎng)頁數(shù)據(jù)〞的存儲(chǔ)分為內(nèi)存存儲(chǔ)和硬盤文件存儲(chǔ)兩種方式: (1)內(nèi)存存儲(chǔ)方式時(shí),因?yàn)槊總€(gè)網(wǎng)頁數(shù)據(jù)都是大小一樣的,再加上數(shù)據(jù)存儲(chǔ)是連續(xù)的,所以在查詢時(shí),只要知道數(shù)據(jù)存儲(chǔ)的起始位置,就可直接算出網(wǎng)頁數(shù)據(jù)的開始及結(jié)束位置,從而獲得網(wǎng)頁數(shù)據(jù)信息。1G內(nèi)存大概能存儲(chǔ)180萬條網(wǎng)頁信息〔每條592字節(jié)〕。 (2)硬盤文件方式存儲(chǔ),把連續(xù)一定數(shù)量的網(wǎng)頁數(shù)據(jù)信息,寫入到一個(gè)文件中去,比方說10萬條存儲(chǔ)為一個(gè)文件,然后把全部硬盤存儲(chǔ)的網(wǎng)頁數(shù)據(jù)都存儲(chǔ)到硬盤文件系統(tǒng)中去。這樣一來,基于硬盤文件存儲(chǔ)的網(wǎng)頁數(shù)據(jù)在讀取時(shí),就要先算出來網(wǎng)頁數(shù)據(jù)存儲(chǔ)在那個(gè)文件,然后翻開文件讀去出來該網(wǎng)頁數(shù)據(jù)信息。硬盤文件方式存儲(chǔ),也是全文檢索系統(tǒng)中最主要的存儲(chǔ)方式。 內(nèi)存存儲(chǔ)查詢速度快,但信息存儲(chǔ)總量有限;硬盤文件方式存儲(chǔ)查詢速度慢,高并發(fā)查詢時(shí)還容易造成硬件快速損耗,但存儲(chǔ)容量巨大。四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹(一)查詢/存儲(chǔ)技術(shù): “詞庫索引數(shù)據(jù)〞的存儲(chǔ)采用內(nèi)存存儲(chǔ)方式: 對于每一篇網(wǎng)頁內(nèi)容,采用存儲(chǔ)的分詞算法進(jìn)行處理,分出來的詞為最多的分法,方便對各個(gè)相關(guān)字詞都能建立索引。 所有的網(wǎng)頁內(nèi)容都以按照排序算法從大到小的順序排列好,所以,每個(gè)字詞的網(wǎng)頁索引隊(duì)列也是按照排序算法從大到小的排列。 詞庫中所有字詞,都是按照Hash分布來排列,便于查詢詞分詞后能夠快速找個(gè)各個(gè)詞庫中字詞對于的網(wǎng)頁結(jié)果ID隊(duì)列。
四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹(一)查詢/存儲(chǔ)技術(shù): 搜索引擎常規(guī)存儲(chǔ)/查詢步驟如下: (1)對搜索詞進(jìn)行分詞處理,看能分出來多少個(gè)字詞; 舉例說明:
比方說用戶的搜索詞為“屈波搜索引擎〞,系統(tǒng)在接到這個(gè)查詢語句后,對其進(jìn)行查詢詞分詞處理,分詞后為“屈波〞+“搜索引擎〞。用戶查詢詞屈波搜索引擎屈波+搜索引擎查詢詞分詞后四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹(一)查詢/存儲(chǔ)技術(shù): 搜索引擎常規(guī)存儲(chǔ)/查詢步驟如下: (2)通過Hash查找到步驟(1)中各個(gè)字詞的網(wǎng)頁ID隊(duì)列; 舉例說明: 系統(tǒng)得到“屈波〞和“搜索引擎〞各自的Hash值,比方說Hash值“屈波〞為256,“搜索引擎〞為1024,然后找到這兩個(gè)詞各自的網(wǎng)頁ID隊(duì)列,如以下圖所示兩個(gè)隊(duì)列為“網(wǎng)頁ID隊(duì)列2〞和“網(wǎng)頁ID隊(duì)列4〞。 屈波256256屈原…………屈波網(wǎng)頁ID序列1網(wǎng)頁ID序列2……搜索引擎10241024搜索搜索引擎網(wǎng)頁ID序列3網(wǎng)頁ID序列4…………四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹(一)查詢/存儲(chǔ)技術(shù): 搜索引擎常規(guī)存儲(chǔ)/查詢步驟如下: (3)對步驟(2)中找到個(gè)各個(gè)網(wǎng)頁ID隊(duì)列做“與〞、“或〞、“非〞的邏輯運(yùn)算; (4)獲得最后的搜索結(jié)果網(wǎng)頁ID隊(duì)列。 舉例說明: “屈波〞和“搜索引擎〞對應(yīng)隊(duì)列為“網(wǎng)頁ID隊(duì)列2〞和“網(wǎng)頁ID隊(duì)列4〞,對這兩個(gè)隊(duì)列做“與〞運(yùn)算。
屈波網(wǎng)頁ID序列21,3,5,9,11搜索引擎網(wǎng)頁ID序列41,2,5,8,11與運(yùn)算1,5,11網(wǎng)頁ID序列四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹(一)查詢/存儲(chǔ)技術(shù): 搜索引擎常規(guī)存儲(chǔ)/查詢步驟如下: (5)完成分頁顯示處理,計(jì)算出最后要顯示的各個(gè)網(wǎng)頁ID隊(duì)列(互聯(lián)網(wǎng)搜索網(wǎng)頁時(shí)一般每頁顯示10條,所以,這個(gè)數(shù)目最多為10),通過這些網(wǎng)頁ID,查找到相關(guān)的網(wǎng)頁結(jié)構(gòu)體存儲(chǔ)內(nèi)容,顯示搜索結(jié)果給用戶。 舉例說明: “屈波〞和“搜索引擎〞是用戶查詢詞進(jìn)行分詞出來的兩個(gè)詞,在具體的網(wǎng)頁標(biāo)題和網(wǎng)頁內(nèi)容摘要中,分別對這兩個(gè)詞做紅色醒目標(biāo)記。四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹(二)CacheServer: WebServer在接受到搜索請求后,對搜索結(jié)果完成查詢時(shí)分詞處理,然后向“索引效勞器〞發(fā)出查詢請求,“索引效勞器〞返回結(jié)果;WebServer對結(jié)果進(jìn)行必要處理,然后向“網(wǎng)頁內(nèi)容〞效勞器通信,獲得各個(gè)網(wǎng)頁內(nèi)容;最后WebServer給用戶顯示搜索結(jié)果。
WebServer索引效勞器IndexServer網(wǎng)頁內(nèi)容效勞器PageContentServer用戶四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹(二)CacheServer: 在對用戶行為進(jìn)行分析后發(fā)現(xiàn),非常多的查詢詞經(jīng)常被用戶查詢,這些詞被稱為“搜索高頻詞〞。為此,設(shè)計(jì)出來CacheServer(CS)用于存儲(chǔ)這些高頻詞的搜索結(jié)果,每當(dāng)后臺(tái)系統(tǒng)更新后,這些高頻詞先進(jìn)行查詢,然后把查詢結(jié)果放到CS中,從而減少系統(tǒng)后臺(tái)壓力。
WebServer用戶CS索引效勞器IndexServer網(wǎng)頁內(nèi)容效勞器PageContentServer四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹(二)CacheServer: CS還可以部署在“索引效勞器〞、“網(wǎng)頁內(nèi)容效勞器〞和WebServer之間,提高這兩個(gè)后臺(tái)效勞器的效率。WebServerCSCS索引效勞器IndexServer網(wǎng)頁內(nèi)容效勞器PageContentServer四、查詢/存儲(chǔ)技術(shù)、CacheServer介紹(二)CacheServer:
CS自我定期更新策略: CS在其設(shè)計(jì)中,重點(diǎn)考慮其攔截率,所以,CS的自我定期更新策略就特別重要。CS在其初始化階段,其存儲(chǔ)數(shù)據(jù)主要來源于原來的日志統(tǒng)計(jì)結(jié)果;在CS運(yùn)行后,CS要實(shí)時(shí)監(jiān)控當(dāng)前數(shù)據(jù)流,并定期進(jìn)行自我更新,把那些沒有被訪問過或低訪問率的數(shù)據(jù)刪除,增加新增數(shù)據(jù)。
CS雖然可以提高數(shù)據(jù)訪問時(shí)的速度,但如果設(shè)計(jì)出來的CS命中率過低的話,對整個(gè)系統(tǒng)效率還反而帶來降低,所以CS不能濫用,要結(jié)合系統(tǒng)實(shí)際負(fù)荷來設(shè)計(jì)和部署CS系統(tǒng)。
五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹
(一)監(jiān)控系統(tǒng)介紹: 以數(shù)據(jù)庫為核心存儲(chǔ)的系統(tǒng),所有數(shù)據(jù)存儲(chǔ)任務(wù)根本上都由數(shù)據(jù)庫來承擔(dān),軟件系統(tǒng)的穩(wěn)定性很高,對硬件設(shè)備的穩(wěn)定性要求也高,為滿足高用戶并發(fā)量,硬件投入本錢驚人。 搜索引擎系統(tǒng)的數(shù)據(jù)存儲(chǔ),都由自己開發(fā)的存儲(chǔ)技術(shù)來存儲(chǔ),并且很多數(shù)據(jù)都存儲(chǔ)于內(nèi)存中,存儲(chǔ)系統(tǒng)相對硬盤存儲(chǔ)為主的數(shù)據(jù)庫系統(tǒng)而言比較脆弱。正因?yàn)槿绱怂阉饕娓嘁揽寇浖O(shè)計(jì)來提高系統(tǒng)的穩(wěn)定性,硬件系統(tǒng)多采用穩(wěn)定性較差的相對廉價(jià)硬件,通過數(shù)量來保證質(zhì)量,而不是依靠穩(wěn)定性高價(jià)格昂貴的硬件設(shè)備。
引入了多重的“內(nèi)部備份系統(tǒng)〞,搜索引擎系統(tǒng)就比傳統(tǒng)的其他互聯(lián)網(wǎng)、銀行、電信等系統(tǒng),要龐大和復(fù)雜很多,這也帶來了監(jiān)控工作的巨大困難。五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹
(一)監(jiān)控系統(tǒng)介紹: 以Google為例,它在全球建立了幾十個(gè)數(shù)據(jù)中心,每個(gè)數(shù)據(jù)中心運(yùn)行上萬臺(tái)效勞器,目前它在全球有幾十萬臺(tái)效勞器,因此它的搜索效勞能夠減少地震、火災(zāi)等自然災(zāi)害的影響。2006年底,中國因?yàn)楹5坠饫w損壞,眾多互聯(lián)網(wǎng)效勞都受到影響,而Google在中國的效勞,沒受到影響,就是因?yàn)槠浔椴既虻臄?shù)據(jù)中心和災(zāi)難應(yīng)急處理對策。五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹
(一)監(jiān)控系統(tǒng)介紹: 負(fù)載平衡一直是搜索引擎系統(tǒng)中最關(guān)鍵的技術(shù),通過一整套的“負(fù)載平衡〞軟、硬件解決方案,來確保整個(gè)搜索引擎系統(tǒng)的穩(wěn)定性及可靠性,才能給眾多用戶提供7X24小時(shí)的優(yōu)質(zhì)搜索效勞。 WebServer用戶IndexServer1提供效勞中…PageContentServer1提供效勞中…IndexServer2提供效勞中…PageContentServer2提供效勞中…IndexServer3準(zhǔn)備提供效勞中…IndexServer4數(shù)據(jù)更新過程中……………五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹
(一)監(jiān)控系統(tǒng)介紹: 搜索引擎系統(tǒng)的監(jiān)控系統(tǒng),分為內(nèi)部和外部兩局部。
(1)內(nèi)部監(jiān)控系統(tǒng): 內(nèi)部監(jiān)控系統(tǒng),以監(jiān)控效勞器硬件運(yùn)行狀況、網(wǎng)絡(luò)通信設(shè)備是否暢通、效勞器上各個(gè)程序是否運(yùn)行正常為主,屬于微觀監(jiān)控系統(tǒng)。 (2)外部監(jiān)控系統(tǒng): 外部監(jiān)控系統(tǒng),監(jiān)控網(wǎng)頁、新聞、圖片、MP3等搜索效勞是否運(yùn)行正常、是否存在大規(guī)模惡意攻擊、各個(gè)地區(qū)的總訪問量的變化趨勢等,屬于宏觀監(jiān)控系統(tǒng)。五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹
(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 內(nèi)部監(jiān)控程序管理效勞器系統(tǒng),也可叫為整個(gè)搜索引擎的“內(nèi)部管理系統(tǒng)〞,算是整個(gè)搜索引擎的中樞神經(jīng),它要實(shí)現(xiàn)自己管理、自我應(yīng)急處理、自我災(zāi)難恢復(fù)等多種任務(wù)。 內(nèi)部監(jiān)控系統(tǒng)的核心,是一個(gè)個(gè)運(yùn)行在每個(gè)效勞器上的監(jiān)控程序,這些程序常被叫為“心跳程序〞或“脈沖程序〞。這些程序按照一定周期向設(shè)定好的監(jiān)控程序管理效勞器程序,發(fā)送該臺(tái)效勞器及效勞器上程序的運(yùn)行狀況,它們的工作原理和木馬程序有些類似。
監(jiān)控程序管理效勞器程序,收集各個(gè)效勞器上監(jiān)控程序返回?cái)?shù)據(jù),了解各個(gè)效勞器硬件運(yùn)行情況,了解及各個(gè)效勞程序的運(yùn)行情況。當(dāng)一個(gè)程序或效勞器硬件出現(xiàn)問題時(shí),監(jiān)控程序管理效勞器程序要做出必要的反響,修改搜索引擎各個(gè)程序之間的內(nèi)部通信規(guī)那么,換上備用系統(tǒng)或調(diào)整負(fù)載平衡規(guī)那么,從而保證搜索效勞不受到影響。
五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹
(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運(yùn)行原理: 如以下圖所示,舉例IndexServer、WebServer、內(nèi)部監(jiān)控程序Monitor和內(nèi)部監(jiān)控程序管理效勞器程序MonitorServer它們之間處理危機(jī)時(shí)的流程。 IS:IndexServer,MS:MonitorServer,WS:WebServer。
WSMonitor4IS1Monitor1提供效勞中…MSIS2Monitor2提供效勞中…IS3Monitor3準(zhǔn)備提供效勞中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹
(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運(yùn)行原理: (1)IS2出現(xiàn)問題,不能繼續(xù)提供效勞,Monitor2發(fā)現(xiàn)錯(cuò)誤及時(shí)向MS發(fā)出錯(cuò)誤報(bào)告。
WSMonitor4IS1Monitor1提供效勞中…
MSIS2
Monitor2提供效勞中…IS3Monitor3準(zhǔn)備提供效勞中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹
(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運(yùn)行原理: (2)MS接收到Monitor2發(fā)來的錯(cuò)誤報(bào)告后,向WS發(fā)出修改內(nèi)部通信規(guī)那么,刪除WS和IS2的通信,增加WS和IS3的通信。
WSMonitor4IS1Monitor1提供效勞中…
MSIS2Monitor2提供效勞中…IS3Monitor3準(zhǔn)備提供效勞中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹
(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運(yùn)行原理: (3)WS中斷和IS2的通信,增加和IS3的通信。
WSMonitor4IS1Monitor1提供效勞中…MSIS2Monitor2停止效勞中…IS3Monitor3提供效勞中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹
(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運(yùn)行原理: (4)MS向IS2發(fā)出效勞恢復(fù)效勞,IS2效勞自動(dòng)恢復(fù)。 WSMonitor4IS1Monitor1提供效勞中…
MSIS2Monitor2程序效勞恢復(fù)中…IS3Monitor3提供效勞中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹
(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運(yùn)行原理: (5)IS2效勞完成恢復(fù),Monitor2向MS匯報(bào)效勞恢復(fù)成功,MS紀(jì)錄下IS2的目前狀態(tài),IS2成為效勞備份程序。 WSMonitor4IS1Monitor1提供效勞中…
MSIS2Monitor2準(zhǔn)備提供效勞中…IS3Monitor3提供效勞中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹
(二)內(nèi)部監(jiān)控系統(tǒng)介紹: 舉例說明內(nèi)部監(jiān)控系統(tǒng)運(yùn)行原理: 總結(jié):在整個(gè)的災(zāi)難處理過程中,完成了負(fù)載平衡策略從原來的IS1和IS2同時(shí)提供效勞,轉(zhuǎn)變?yōu)镮S1和IS3同時(shí)提供效勞,對用戶的搜索效勞訪問的影響降到最低。 WSMonitor4IS1Monitor1提供效勞中…MSIS2Monitor2準(zhǔn)備提供效勞中…IS3Monitor3提供效勞中…用戶五、內(nèi)部、外部監(jiān)控系統(tǒng)介紹
(三)外部監(jiān)控系統(tǒng)介紹: 內(nèi)部監(jiān)控系統(tǒng),可以
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- Pt-IV-M13-生命科學(xué)試劑-MCE-4429
- Frutinone-A-生命科學(xué)試劑-MCE-8513
- 2-Carbamimidoylsulfanyl-acetic-acid-hydrochloride-生命科學(xué)試劑-MCE-6335
- 二零二五年度茶葉品牌授權(quán)合作協(xié)議
- 2025年度籃球俱樂部賽事安全預(yù)案與責(zé)任承擔(dān)協(xié)議
- 二零二五年度中式餐廳合伙人合作協(xié)議
- 2025年度游艇碼頭租賃與船舶租賃稅務(wù)籌劃合同
- 二零二五年度表格合同管理系統(tǒng)在線培訓(xùn)及售后服務(wù)協(xié)議
- 施工現(xiàn)場施工防化學(xué)事故威脅制度
- 科技創(chuàng)新在小學(xué)生課余生活中的重要性
- 北京四合院介紹課件
- 頁眉和頁腳基本知識(shí)課件
- 《國有企業(yè)采購操作規(guī)范》【2023修訂版】
- 土法吊裝施工方案
- BLM戰(zhàn)略規(guī)劃培訓(xùn)與實(shí)戰(zhàn)
- GB/T 16475-2023變形鋁及鋁合金產(chǎn)品狀態(tài)代號(hào)
- 鎖骨遠(yuǎn)端骨折伴肩鎖關(guān)節(jié)脫位的治療
- 教育心理學(xué)智慧樹知到答案章節(jié)測試2023年浙江師范大學(xué)
- 理論力學(xué)-運(yùn)動(dòng)學(xué)課件
- 計(jì)算機(jī)輔助工藝設(shè)計(jì)課件
- 汽車銷售流程與技巧培訓(xùn)課件
評論
0/150
提交評論