搜索引擎技術(shù)原理-

上傳人：7*** IP屬地：湖北上傳時間：2022-03-08 格式：DOC 頁數(shù)：5 大?。?8KB 積分：15 舉報 版權(quán)申訴

全文預(yù)覽已結(jié)束

 下載本文檔

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎(search engine是指根據(jù)一定的策略、運(yùn)用特定的計算機(jī)程序搜集互聯(lián)網(wǎng)上的信息，在對信息進(jìn)行組織和處理后，為用戶提供檢索服務(wù)的系統(tǒng)。一、Web搜索引擎技術(shù)綜述 (一、引子隨著網(wǎng)絡(luò)技術(shù)的應(yīng)用與發(fā)展，互連網(wǎng)已經(jīng)成為信息的重要來源地。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息，對信息進(jìn)行理解、提取、組織和處理，并為用戶提供檢索服務(wù)，從而起到信息導(dǎo)航的目的，互聯(lián)網(wǎng)用戶使用網(wǎng)絡(luò)獲取信息過程中，搜索引擎也成為必不可少的工具。調(diào)查表明，當(dāng)前的所有互連網(wǎng)應(yīng)用中，網(wǎng)絡(luò)信息搜索是僅次于電子郵件的第二大應(yīng)用，而這些搜索絕大多數(shù)是專門的，高度復(fù)雜的搜索引擎實現(xiàn)的。按照信息搜集方法和服務(wù)提供方

2、式的不同，搜索引擎系統(tǒng)可以分為三大類：目錄式搜索引擎，以人工方式或半自動方式搜集信息，由編輯員查看信息之后，人工形成信息摘要，并將信息置于事先確定的分類框架中，由于web信息的海量性和人工處理能力、經(jīng)濟(jì)代價的限制，這類搜索引擎信息的即時性和全面性難以保證，它的優(yōu)秀代表是Yahoo等。機(jī)器人搜索引擎，由一個稱為蜘蛛（Spider）的機(jī)器人程序以某種策略自動地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息，由索引器為搜集到的信息建立索引，由檢索器根據(jù)用戶的查詢輸入檢索索引庫，并將查詢結(jié)果返回給用戶，這類搜索引擎實現(xiàn)較為復(fù)雜，但能很好的實現(xiàn)信息的全面獲取和即時更新，它的優(yōu)秀代表是Google等。元搜索引擎，這類搜索

3、引擎沒有自己的數(shù)據(jù)，而是將用戶的查詢請求同時向多個搜索引擎遞交，將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后，作為自己的結(jié)果返回給用戶，這類搜索引擎兼集多個搜索引擎的信息，并且加入新的排序和信息過濾，可以很好的提高用戶滿意度。 (二、web搜索引擎的原理和實現(xiàn) web搜索引擎的原理通常為：首先是用蜘蛛（Spider）進(jìn)行全網(wǎng)搜索，自動抓取網(wǎng)頁；然后將抓取的網(wǎng)頁進(jìn)行索引，同時也會記錄與檢索有關(guān)的屬性，中文搜索引擎中還需要首先對中文進(jìn)行分詞；最后，接受用戶查詢請求，檢索索引文件并按照各種參數(shù)進(jìn)行復(fù)雜的計算，產(chǎn)生結(jié)果并返回給用戶。 1.利用網(wǎng)絡(luò)蜘蛛獲取網(wǎng)絡(luò)資源這是一種半自動化的資源（由于此時尚未對

4、資源進(jìn)行分析和理解，不能成為信息而僅是資源）獲取方式。所謂半自動化，是指搜索器需要人工指定起始網(wǎng)絡(luò)資源URL（Uniform Resource Locator），然后獲取該URL所指向的網(wǎng)絡(luò)資源，并分析該資源所指向的其他資源并獲取。如Google的在利用蜘蛛程序獲取網(wǎng)絡(luò)資源時，是由一個認(rèn) 為管理程序負(fù)責(zé)任務(wù)的分配和結(jié)果的處理，多個分布式的蜘蛛程序從管理程序活動任務(wù)，然后將獲取的資源作為結(jié)果返回，并重新獲得任務(wù)。 2.利用索引器從搜索器獲取的資源中抽取信息，并建立利于檢索的索引表當(dāng)用網(wǎng)絡(luò)蜘蛛獲取資源后，需要對這些進(jìn)行加工過濾，去掉控制代碼及無用信息，提取出有用的信息，并把信息用一定的模型表示，

5、使查詢結(jié)果更為準(zhǔn)確。Web上的信息一般表現(xiàn)為網(wǎng)頁，對每個網(wǎng)頁，須生成一摘要，此摘要將顯示在查詢結(jié)果的頁面中，告訴查詢用戶各網(wǎng)頁的內(nèi)容概要。模型化的信息將存放在臨時數(shù)據(jù)庫中，由于web數(shù)據(jù)的數(shù)據(jù)量極為龐大，為了提高檢索效率，須按照一定規(guī)則建立索引。不同搜索引擎在建立索引時會考慮不同的選項，如是否建立全文索引，是否過濾無用詞匯，是否使用meta信息等。 3.檢索及用戶交互這部分的主要內(nèi)容包括：用戶查詢（query）理解，即最大可能貼近的理解用戶通過查詢串想要表達(dá)的查詢目的，并將用戶查詢轉(zhuǎn)換化為后臺檢索使用的信息模型；根據(jù)用戶查詢的檢索模型，在索引庫中檢索出結(jié)果集；結(jié)果排序：通過特定的排序算法，對

6、檢索結(jié)果集進(jìn)行排序。由于web數(shù)據(jù)的海量性和用戶初始查詢的模糊性，檢索結(jié)果集一般很大，而用戶一邊不會有足夠的耐性逐個查看所有的結(jié)果，所以怎樣設(shè)計結(jié)果集的排序算法，把用戶感興趣的結(jié)果排在前面就十分重要。 (三、web搜索引擎的最新動態(tài) 當(dāng)前，搜索引擎技術(shù)已經(jīng)趨于成數(shù)，用戶滿意度也保持在一個可以接受的水平。在信息搜集技術(shù)，索引建立技術(shù)，檢索技術(shù)和結(jié)果集排序技術(shù)方面，最近幾年，Google創(chuàng)造性的提出page rank技術(shù)，并把他用于結(jié)果排序。而搜索引擎的研究與信息集成逐漸融合，在這方面的研究主要集中在兩個方面：查詢擴(kuò)展（query expansion）和結(jié)果集的動態(tài)分類。二、Google技術(shù)

7、（一）Google技術(shù)概論 Google 秉持開發(fā)“完美的搜索引擎”的信念。所謂完美的搜索引擎，就如公司創(chuàng)始人之一 Larry Page 所定義的那樣，可以“確解用戶之意，切返用戶之需”。為了實現(xiàn)這一目標(biāo)，Google 堅持不懈地追求創(chuàng)新，而不受現(xiàn)有模型的限制。因此，Google 開發(fā)了自己的服務(wù)基礎(chǔ)結(jié)構(gòu)和具有突破性的 Page Rank技術(shù)，使得搜索方式發(fā)生了根本性變化。 Google 的開發(fā)人員從一開始就意識到：要以最快的速度提供最精確的搜索結(jié)果，則需要一種全新的服務(wù)器設(shè)置。大多數(shù)的搜索引擎依靠少量大型服務(wù)器，這樣，在訪問高峰期速度就會減慢，而 Google 卻利用相互鏈接的 PC 來快速

8、查找每個搜索的答案。這一創(chuàng)新技術(shù)成功地縮短了響應(yīng)時間，提高了可擴(kuò)展性，并降低了成本。這也是其他公司一直在效仿的技術(shù)。與此同時，Google 從未停止過對其后端技術(shù)的改進(jìn)，以使其技術(shù)效率更高。 Google 搜索技術(shù)所依托的軟件可以同時進(jìn)行一系列的運(yùn)算，且只需片刻即可完成所有運(yùn)算。而傳統(tǒng)的搜索引擎在很大程度上取決于文字在網(wǎng)頁上出現(xiàn)的頻率。Google 使用Page Rank 技術(shù)檢查整個網(wǎng)絡(luò)鏈接結(jié)構(gòu)，并確定哪些網(wǎng)頁重要性最高。然后進(jìn)行超文本匹配分析，以確定哪些網(wǎng)頁與正在執(zhí)行的特定搜索相關(guān)。在綜合考慮整體重要性以及與特定查詢的相關(guān)性之后，Google 可以將最相關(guān)最可靠的搜索結(jié)果放在首位。 1

9、、Page Rank 技術(shù)：通過對由超過 50,000 萬個變量和 20 億個詞匯組成的方程進(jìn)行計算，Page Rank 能夠?qū)W(wǎng)頁的重要性做出客觀的評價。Page Rank 并不計算直接鏈接的數(shù)量，而是將從網(wǎng)頁 A 指向網(wǎng)頁 B 的鏈接解釋為由網(wǎng)頁 A 對網(wǎng)頁 B 所投的一票。這樣，Page Rank 會根據(jù)網(wǎng)頁 B 所收到的投票數(shù)量來評估該頁的重要性。此外，Page Rank 還會評估每個投票網(wǎng)頁的重要性，因為某些網(wǎng)頁的投票被認(rèn)為具有較高的價值，這樣，它所鏈接的網(wǎng)頁就能獲得較高的價值。重要網(wǎng)頁獲得的 Page Rank（網(wǎng)頁排名）較高，從而顯示在搜索結(jié)果的頂部。Google 技術(shù)使用網(wǎng)上

10、反饋的綜合信息來確定某個網(wǎng)頁的重要性。搜索結(jié)果沒有人工干預(yù)或操縱，這也是為什么 Google 會成為一個廣受用戶信賴、不受付費(fèi)排名影響且公正客觀的信息來源。 2、超文本匹配分析： Google 的搜索引擎同時也分析網(wǎng)頁內(nèi)容。然而，Google 的技術(shù)并不采用單純掃描基于網(wǎng)頁的文本（網(wǎng)站發(fā)布商可以通過元標(biāo)記控制這類文本）的方式，而是分析網(wǎng)頁的全部內(nèi)容以及字體、分區(qū)及每個文字精確位置等因素。Google 同時還會分析相鄰網(wǎng)頁的內(nèi)容，以確保返回與用戶查詢最相關(guān)的結(jié)果。 Google 的創(chuàng)新并不限于臺式機(jī)。為了確保通過便攜式設(shè)備訪問網(wǎng)絡(luò)的用戶能夠快速獲得精確的搜索結(jié)果，Google 還率先推出了業(yè)界

11、第一款無線搜索技術(shù)，以便將 HTML 即時轉(zhuǎn)換為針對 WAP、I-mode、J-SKY 和 EZWeb 優(yōu)化的格式。（二）Google 查詢的全過程 Google 查詢的全過程通常不超過半秒時間，但在這短短的時間內(nèi)需要完成多個步驟，然后才能將搜索結(jié)果交付給搜索信息的用戶。 1. 網(wǎng)絡(luò)服務(wù)器將查詢發(fā)送到索引服務(wù)器。索引服務(wù)器所包含的內(nèi)容與書本末尾的索引目錄相似，即說明哪些網(wǎng)頁包含與查詢匹配的文字。 2.查詢傳輸?shù)轿臋n服務(wù)器，由后者實際檢索所存儲的文檔。然后，生成描述每個搜索結(jié)果的摘錄。 3. 瞬間返回用戶需要的搜索結(jié)果。三、百度技術(shù) （一）、百度搜索引擎概論百度搜索引擎由四部分組成：蜘蛛

12、程序、監(jiān)控程序、索引數(shù)據(jù)庫、檢索程序。百度搜索引擎使用了高性能的“網(wǎng)絡(luò)蜘蛛”程序自動的在互聯(lián)網(wǎng)中搜索信息，可定制、高擴(kuò)展性的調(diào)度算法使得搜索器能在極短的時間內(nèi)收集到最大數(shù)量的互聯(lián)網(wǎng)信息。百度在中國各地和美國均設(shè)有服務(wù)器，搜索范圍涵蓋了中國大陸、香港、臺灣、澳門、新加坡等華語地區(qū)以及北美、歐洲的部分站點。百度搜索引擎擁有目前世界上最大的中文信息庫。（二）、百度搜索關(guān)鍵技術(shù) 1、查詢處理以及分詞技術(shù) 隨著搜索經(jīng)濟(jì)的崛起，人們開始越加關(guān)注全球各大搜索引擎的性能、技術(shù)和日流量。網(wǎng)絡(luò)離開了搜索將只剩下空洞雜亂的數(shù)據(jù)，以及大量等待去費(fèi)力挖掘的金礦。但是,如何設(shè)計一個高效的搜索引擎?我們可以以百度所采取

13、的技術(shù)手段來探討如何設(shè)計一個實用的搜索引擎.搜索引擎涉及到許多技術(shù)點,比如查詢處理,排序算法,頁面抓取算法,CACHE機(jī)制,ANTI-SPAM等等.這些技術(shù)細(xì)節(jié),作為商業(yè)公司的搜索引擎服務(wù)提供商比如百度、GOOGLE等是不會公之于眾的.我們可以將現(xiàn)有的搜索引擎看作一個黑盒,通過向黑盒提交輸入,判斷黑盒返回的輸出大致判斷黑盒里面不為人知的技術(shù)細(xì)節(jié)。查詢處理與分詞是一個中文搜索引擎必不可少的工作,而百度作為一個典型的中文搜索引擎一直強(qiáng)調(diào)其“中文處理”方面具有其它搜索引擎所不具有的關(guān)鍵技術(shù)和優(yōu)勢。 2、Spelling Checker拼寫檢查錯誤提示(以及拼音提示功能拼寫檢查錯誤提示是搜索引擎都

14、具備的一個功能,也就是說用戶提交查詢給搜索引擎,搜索引擎檢查看是否用戶輸入的拼寫有錯誤,對于中文用戶來說一般造成的錯誤是輸入法造成的錯誤。這就依賴于百度的拼寫檢查系統(tǒng)，其大致運(yùn)行過程如下：后臺作業(yè): (1百度分詞使用的詞典至少包含兩個詞典一個是普通詞典,另外一個是專用詞典(專名等,百度利用拼音標(biāo)注程序依次掃描所有詞典中的每個詞條,然后標(biāo)注拼音,如果是多音字則把多個音都標(biāo)上,比如“長大”,會被標(biāo)注為“zhang da /chang da”兩個詞條。(2通過標(biāo)注完的詞條,建立同音詞詞典,比如上面的“長大”,會有兩個詞條: zhang daà長大 , chang daà長大。(3利用用戶查詢LOG頻率信息給予每個中文

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

搜索引擎技術(shù)原理-

文檔簡介

溫馨提示

最新文檔

評論

搜索引擎技術(shù)原理-

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔