搜索引擎技術(shù)原理-_第1頁
搜索引擎技術(shù)原理-_第2頁
搜索引擎技術(shù)原理-_第3頁
搜索引擎技術(shù)原理-_第4頁
搜索引擎技術(shù)原理-_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎(search engine是指根據(jù)一定的策略、運(yùn)用特定的計算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。 一、Web搜索引擎技術(shù)綜述 (一 、引子 隨著網(wǎng)絡(luò)技術(shù)的應(yīng)用與發(fā)展,互連網(wǎng)已經(jīng)成為信息的重要來源地。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的,互聯(lián)網(wǎng)用戶使用網(wǎng)絡(luò)獲取信息過程中,搜索引擎也成為必不可少的工具。調(diào)查表明,當(dāng)前的所有互連網(wǎng)應(yīng)用中,網(wǎng)絡(luò)信息搜索是僅次于電子郵件的第二大應(yīng)用,而這些搜索絕大多數(shù)是專門的,高度復(fù)雜的搜索引擎實現(xiàn)的。 按照信息搜集方法和服務(wù)提供方

2、式的不同,搜索引擎系統(tǒng)可以分為三大類: 目錄式搜索引擎,以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中,由于web信息的海量性和人工處理能力、經(jīng)濟(jì)代價的限制,這類搜索引擎信息的即時性和全面性難以保證,它的優(yōu)秀代表是Yahoo等。 機(jī)器人搜索引擎,由一個稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶,這類搜索引擎實現(xiàn)較為復(fù)雜,但能很好的實現(xiàn)信息的全面獲取和即時更新,它的優(yōu)秀代表是Google等。 元搜索引擎,這類搜索

3、引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶,這類搜索引擎兼集多個搜索引擎的信息,并且加入新的排序和信息過濾,可以很好的提高用戶滿意度。 (二 、web搜索引擎的原理和實現(xiàn) web搜索引擎的原理通常為:首先是用蜘蛛(Spider)進(jìn)行全網(wǎng)搜索,自動抓取網(wǎng)頁;然后將抓取的網(wǎng)頁進(jìn)行索引,同時也會記錄與檢索有關(guān)的屬性,中文搜索引擎中還需要首先對中文進(jìn)行分詞;最后,接受用戶查詢請求,檢索索引文件并按照各種參數(shù)進(jìn)行復(fù)雜的計算,產(chǎn)生結(jié)果并返回給用戶。 1.利用網(wǎng)絡(luò)蜘蛛獲取網(wǎng)絡(luò)資源 這是一種半自動化的資源(由于此時尚未對

4、資源進(jìn)行分析和理解,不能成為信息而僅是資源)獲取方式。所謂半自動化,是指搜索器需要人工指定起始網(wǎng)絡(luò)資源URL(Uniform Resource Locator),然后獲取該URL所指向的網(wǎng)絡(luò)資源,并分析該資源所指向的其他資源并獲取。如Google的在利用蜘蛛程序獲取網(wǎng)絡(luò)資源時,是由一個認(rèn) 為管理程序負(fù)責(zé)任務(wù)的分配和結(jié)果的處理,多個分布式的蜘蛛程序從管理程序活動任務(wù),然后將獲取的資源作為結(jié)果返回,并重新獲得任務(wù)。 2.利用索引器從搜索器獲取的資源中抽取信息,并建立利于檢索的索引表 當(dāng)用網(wǎng)絡(luò)蜘蛛獲取資源后,需要對這些進(jìn)行加工過濾,去掉控制代碼及無用信息,提取出有用的信息,并把信息用一定的模型表示,

5、使查詢結(jié)果更為準(zhǔn)確。Web上的信息一般表現(xiàn)為網(wǎng)頁,對每個網(wǎng)頁,須生成一摘要,此摘要將顯示在查詢結(jié)果的頁面中,告訴查詢用戶各網(wǎng)頁的內(nèi)容概要。模型化的信息將存放在臨時數(shù)據(jù)庫中,由于web數(shù)據(jù)的數(shù)據(jù)量極為龐大,為了提高檢索效率,須按照一定規(guī)則建立索引。不同搜索引擎在建立索引時會考慮不同的選項,如是否建立全文索引,是否過濾無用詞匯,是否使用meta信息等。 3.檢索及用戶交互 這部分的主要內(nèi)容包括:用戶查詢(query)理解,即最大可能貼近的理解用戶通過查詢串想要表達(dá)的查詢目的,并將用戶查詢轉(zhuǎn)換化為后臺檢索使用的信息模型;根據(jù)用戶查詢的檢索模型,在索引庫中檢索出結(jié)果集;結(jié)果排序:通過特定的排序算法,對

6、檢索結(jié)果集進(jìn)行排序。由于web數(shù)據(jù)的海量性和用戶初始查詢的模糊性,檢索結(jié)果集一般很大,而用戶一邊不會有足夠的耐性逐個查看所有的結(jié)果,所以怎樣設(shè)計結(jié)果集的排序算法,把用戶感興趣的結(jié)果排在前面就十分重要。 (三 、web搜索引擎的最新動態(tài) 當(dāng)前,搜索引擎技術(shù)已經(jīng)趨于成數(shù),用戶滿意度也保持在一個可以接受的水平。在信息搜集技術(shù),索引建立技術(shù),檢索技術(shù)和結(jié)果集排序技術(shù)方面,最近幾年,Google創(chuàng)造性的提出page rank技術(shù),并把他用于結(jié)果排序。而搜索引擎的研究與信息集成逐漸融合,在這方面的研究主要集中在兩個方面:查詢擴(kuò)展(query expansion)和結(jié)果集的動態(tài)分類。 二、Google技術(shù)

7、(一)Google技術(shù)概論 Google 秉持開發(fā)“完美的搜索引擎”的信念。所謂完美的搜索引擎,就如公司創(chuàng)始人之一 Larry Page 所定義的那樣,可以“確解用戶之意,切返用戶之需”。為了實現(xiàn)這一目標(biāo),Google 堅持不懈地追求創(chuàng)新,而不受現(xiàn)有模型的限制。因此,Google 開發(fā)了自己的服務(wù)基礎(chǔ)結(jié)構(gòu)和具有突破性的 Page Rank技術(shù),使得搜索方式發(fā)生了根本性變化。 Google 的開發(fā)人員從一開始就意識到:要以最快的速度提供最精確的搜索結(jié)果,則需要一種全新的服務(wù)器設(shè)置。大多數(shù)的搜索引擎依靠少量大型服務(wù)器,這樣,在訪問高峰期速度就會減慢,而 Google 卻利用相互鏈接的 PC 來快速

8、查找每個搜索的答案。 這一創(chuàng)新技術(shù)成功地縮短了 響應(yīng)時間,提高了可擴(kuò)展性,并降低了成本。這也是其他公司一直在效仿的技術(shù)。與此同時,Google 從未停止過對其后端技術(shù)的改進(jìn),以使其技術(shù)效率更高。 Google 搜索技術(shù)所依托的軟件可以同時進(jìn)行一系列的運(yùn)算,且只需片刻即可完成所有運(yùn)算。而傳統(tǒng)的搜索引擎在很大程度上取決于文字在網(wǎng)頁上出現(xiàn)的頻率。Google 使用Page Rank 技術(shù)檢查整個網(wǎng)絡(luò)鏈接結(jié)構(gòu),并確定哪些網(wǎng)頁重要性最高。然后進(jìn)行超文本匹配分析,以確定哪些網(wǎng)頁與正在執(zhí)行的特定搜索相關(guān)。在綜合考慮整體重要性以及與特定查詢的相關(guān)性之后,Google 可以將最相關(guān)最可靠的搜索結(jié)果放在首位。 1

9、、Page Rank 技術(shù): 通過對由超過 50,000 萬個變量和 20 億個詞匯組成的方程進(jìn)行計算,Page Rank 能夠?qū)W(wǎng)頁的重要性做出客觀的評價。Page Rank 并不計算直接鏈接的數(shù)量,而是將從網(wǎng)頁 A 指向網(wǎng)頁 B 的鏈接解釋為由網(wǎng)頁 A 對網(wǎng)頁 B 所投的一票。這樣,Page Rank 會根據(jù)網(wǎng)頁 B 所收到的投票數(shù)量來評估該頁的重要性。此外,Page Rank 還會評估每個投票網(wǎng)頁的重要性,因為某些網(wǎng)頁的投票被認(rèn)為具有較高的價值,這樣,它所鏈接的網(wǎng)頁就能獲得較高的價值。重要網(wǎng)頁獲得的 Page Rank(網(wǎng)頁排名)較高,從而顯示在搜索結(jié)果的頂部。Google 技術(shù)使用網(wǎng)上

10、反饋的綜合信息來確定某個網(wǎng)頁的重要性。搜索結(jié)果沒有人工干預(yù)或操縱,這也是為什么 Google 會成為一個廣受用戶信賴、不受付費(fèi)排名影響且公正客觀的信息來源。 2、超文本匹配分析: Google 的搜索引擎同時也分析網(wǎng)頁內(nèi)容。然而,Google 的技術(shù)并不采用單純掃描基于網(wǎng)頁的文本(網(wǎng)站發(fā)布商可以通過元標(biāo)記控制這類文本)的方式,而是分析網(wǎng)頁的全部內(nèi)容以及字體、分區(qū)及每個文字精確位置等因素。Google 同時還會分析相鄰網(wǎng)頁的內(nèi)容,以確保返回與用戶查詢最相關(guān)的結(jié)果。 Google 的創(chuàng)新并不限于臺式機(jī)。 為了確保通過便攜式設(shè)備訪問網(wǎng)絡(luò)的用戶能夠快速獲得精確的搜索結(jié)果,Google 還率先推出了業(yè)界

11、第一款無線搜索技術(shù),以便將 HTML 即時轉(zhuǎn)換為針對 WAP、I-mode、J-SKY 和 EZWeb 優(yōu)化的格式。 (二)Google 查詢的全過程 Google 查詢的全過程通常不超過半秒時間,但在這短短的時間內(nèi)需要完成多個步驟,然后才能將搜索結(jié)果交付給搜索信息的用戶。 1. 網(wǎng)絡(luò)服務(wù)器將查詢發(fā)送到索引服務(wù)器。索引服務(wù)器所包含的內(nèi)容與書本末尾的索引目錄相似,即說明哪些網(wǎng)頁包含與查詢匹配的文字。 2.查詢傳輸?shù)轿臋n服務(wù)器,由后者實際檢索所存儲的文檔。然后,生成描述每個搜索結(jié)果的摘錄。 3. 瞬間返回用戶需要的搜索結(jié)果。 三 、百度技術(shù) (一)、百度搜索引擎概論 百度搜索引擎由四部分組成:蜘蛛

12、程序、監(jiān)控程序、索引數(shù)據(jù)庫、檢索程序。百度搜索引擎使用了高性能的“網(wǎng)絡(luò)蜘蛛”程序自動的在互聯(lián)網(wǎng)中搜索信息,可定制、高擴(kuò)展性的調(diào)度算法使得搜索器能在極短的時間內(nèi)收集到最大數(shù)量的互聯(lián)網(wǎng)信息。百度在中國各地和美國均設(shè)有服務(wù)器,搜索范圍涵蓋了中國大陸、香港、臺灣、澳門、新加坡等華語地區(qū)以及北美、歐洲的部分站點。百度搜索引擎擁有目前世界上最大的中文信息庫。 (二)、百度搜索關(guān)鍵技術(shù) 1、查詢處理以及分詞技術(shù) 隨著搜索經(jīng)濟(jì)的崛起,人們開始越加關(guān)注全球各大搜索引擎的性能、技術(shù)和日流量。網(wǎng)絡(luò)離開了搜索將只剩下空洞雜亂的數(shù)據(jù),以及大量等待去費(fèi)力挖掘的金礦。 但是,如何設(shè)計一個高效的搜索引擎?我們可以以百度所采取

13、的技術(shù)手段來探討如何設(shè)計一個實用的搜索引擎.搜索引擎涉及到許多技術(shù)點,比如查詢處理,排序算法,頁面抓取算法,CACHE機(jī)制,ANTI-SPAM等等.這些技術(shù)細(xì)節(jié),作為商業(yè)公司的搜索引擎服務(wù)提供商比如百度、GOOGLE等是不會公之于眾的.我們可以將現(xiàn)有的搜索引擎看作一個黑盒,通過向黑盒提交輸入,判斷黑盒返回的輸出大致判斷黑盒里面不為人知的技術(shù)細(xì)節(jié)。 查詢處理與分詞是一個中文搜索引擎必不可少的工作,而百度作為一個典型的中文搜索引擎一直強(qiáng)調(diào)其“中文處理”方面具有其它搜索引擎所不具有的關(guān)鍵技術(shù)和優(yōu)勢。 2、Spelling Checker拼寫檢查錯誤提示(以及拼音提示功能 拼寫檢查錯誤提示是搜索引擎都

14、具備的一個功能,也就是說用戶提交查詢給搜索引擎,搜索引擎檢查看是否用戶輸入的拼寫有錯誤,對于中文用戶來說一般造成的錯誤是輸入法造成的錯誤。這就依賴于百度的拼寫檢查系統(tǒng),其大致運(yùn)行過程如下: 后臺作業(yè): (1百度分詞使用的詞典至少包含兩個詞典一個是普通詞典,另外一個是專用詞典(專名等,百度利用拼音標(biāo)注程序依次掃描所有詞典中的每個詞條,然后標(biāo)注拼音,如果是多音字則把多個音都標(biāo)上,比如“長大”,會被標(biāo)注為“zhang da /chang da”兩個詞條。(2通過標(biāo)注完的詞條,建立同音詞詞典,比如上面的“長大”,會有兩個詞條: zhang daà長大 , chang daà長大。(3利用用戶查詢LOG頻率信息給予每個中文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論