垂直搜索引擎原理及功能模塊設(shè)計,搜索引擎論文_第1頁
垂直搜索引擎原理及功能模塊設(shè)計,搜索引擎論文_第2頁
垂直搜索引擎原理及功能模塊設(shè)計,搜索引擎論文_第3頁
垂直搜索引擎原理及功能模塊設(shè)計,搜索引擎論文_第4頁
垂直搜索引擎原理及功能模塊設(shè)計,搜索引擎論文_第5頁
已閱讀5頁,還剩3頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

垂直搜索引擎原理及功能模塊設(shè)計,搜索引擎論文摘要:分析了搜索引擎原理及分類,闡述了垂直搜索引擎原理及功能模塊設(shè)計,以提高垂直搜索引擎對特定領(lǐng)域信息檢索的深度和完好度。本文關(guān)鍵詞語:垂直搜索引擎;主題網(wǎng)絡(luò)爬蟲;大數(shù)據(jù);在信息高度發(fā)達(dá)的今天,互聯(lián)網(wǎng)上的信息量以幾何級增長,人們怎樣從海量的數(shù)據(jù)中快速準(zhǔn)確地找到自個所需要的信息成為一個難點(diǎn)。通用搜索引擎雖能覆蓋所有的資源,但其本質(zhì)是檢索詞匹配,容易忽略用戶搜索的真實(shí)意圖。為了彌補(bǔ)通用搜索引擎的缺乏,實(shí)現(xiàn)對特定主題信息的檢索,又出現(xiàn)了垂直搜索引擎,它檢出的結(jié)果更準(zhǔn)確,挖掘信息的層次更深,無效信息更少,更能適應(yīng)垂直領(lǐng)域的服務(wù)。1、搜索引擎原理及分類1.1、搜索引擎原理搜索引擎的工作原理可分為三步,先從互聯(lián)網(wǎng)上發(fā)現(xiàn)并抓取網(wǎng)頁信息,接著對信息進(jìn)行提取并建立索引庫,最后一步是在索引庫中檢索并將結(jié)果排序后返回給用戶。搜索引擎的工作流程如此圖1所示。圖1搜索引擎工作流程抓取模塊主要是由網(wǎng)絡(luò)爬蟲組成,它根據(jù)一定的策略在互聯(lián)網(wǎng)上抓取站點(diǎn)頁面,并記錄下抓取到的每一個頁面的URL地址,將網(wǎng)頁內(nèi)容下載并保存到系統(tǒng)存儲庫里面。它的搜集經(jīng)過并不是在用戶提交本文關(guān)鍵詞語后進(jìn)行的及時搜索,而是預(yù)先將網(wǎng)頁搜集保存下來以備處理。索引模塊則是將抓取的數(shù)據(jù)進(jìn)行分詞、計算權(quán)重后排序存儲到索引數(shù)據(jù)庫中。檢索模塊則是在接到搜索請求后從索引數(shù)據(jù)庫中檢索出符合用戶檢索詞的信息,按用戶查詢相關(guān)性排序后展現(xiàn)給用戶。1.2、搜索引擎分類搜索引擎根據(jù)工作原理可分為全文搜索引擎、目錄搜索引擎和元搜索引擎三類[1]。全文搜索引擎是利用全文檢索技術(shù)提取各個網(wǎng)站頁面的文字內(nèi)容,對其加工后存儲到自個的索引數(shù)據(jù)庫中。用戶搜索時,全文搜索引擎根據(jù)用戶的檢索詞在自個的數(shù)據(jù)庫中進(jìn)行匹配,將匹配一致的記錄按一定的排列順序返回給用戶。Baidu、Google就是此類搜索引擎的代表。目錄搜索引擎是以人工方式或半自動方式搜集網(wǎng)站信息,由人工構(gòu)成信息內(nèi)容摘要并根據(jù)頁面資源類別的不同將其進(jìn)行分類。用戶只需要在目錄類別講明中查找內(nèi)容,整個搜索過成一目了然。雅虎、新浪、搜狐、網(wǎng)易搜索都屬于這一類。元搜索引擎也稱為多元搜索引擎、索引搜索引擎,它是一種調(diào)用其他獨(dú)立搜索引擎的引擎。它在接受用戶查詢請求時,同時在其他多個搜索引擎上進(jìn)行搜索,并按自定義的算法整合各個搜索引擎返回的檢索信息,把優(yōu)化后的結(jié)果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等[2]。2、垂直搜索引擎原理及功能模塊設(shè)計2.1、垂直搜索引擎原理垂直搜索引擎是面向特定領(lǐng)域?yàn)樘囟ㄓ脩舴?wù)的一種搜索引擎,是對專業(yè)領(lǐng)域信息的深層次挖掘,它將信息過濾、挑選、梳理后集成在一起,為用戶提供了面向?qū)I(yè)知識的檢索[3]。與普通搜索引擎相比,垂直搜索引擎檢索出的結(jié)果更專業(yè),更細(xì)致,挖掘信息的層次更深。垂直搜索引擎與全文搜索引擎工作原理類似,區(qū)別在于抓取模塊中的爬蟲程序與主題詞庫。垂直搜索引擎的主題爬蟲是對通用網(wǎng)絡(luò)爬蟲的擴(kuò)展,根據(jù)特定主題進(jìn)行網(wǎng)頁抓取,并計算主題相關(guān)度。主題爬蟲是垂直搜索引擎的核心技術(shù)之一,它并不期望高的覆蓋率,只抓取與特定主題相關(guān)度高的頁面,為特定用戶的查詢提供數(shù)據(jù)基礎(chǔ)[4]。2.2、采集模塊設(shè)計信息采集模塊的功能主要是從互聯(lián)網(wǎng)中抓取與主題內(nèi)容相關(guān)的信息數(shù)據(jù),是整個垂直搜索引擎中最為關(guān)鍵的模塊之一,它采集到的數(shù)據(jù)將直接決定了用戶檢索信息的準(zhǔn)確度,而數(shù)據(jù)的采集主要依靠主題爬蟲來實(shí)現(xiàn)。相對于普通網(wǎng)絡(luò)爬蟲的構(gòu)造,主題網(wǎng)絡(luò)爬蟲的構(gòu)造中添加了主題模塊、頁面相關(guān)度評價模塊和超鏈接評價模塊。主題網(wǎng)絡(luò)爬蟲構(gòu)造如以下圖2所示。主題模塊是用來限定主題網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁的范圍,對于其他與主題無關(guān)的頁面,直接丟棄或者不爬行。頁面相關(guān)度評價模塊直接決定主題爬蟲抓取信息的質(zhì)量和準(zhǔn)確率,是主題網(wǎng)絡(luò)爬蟲與通用爬蟲不同之處。相關(guān)度評價之前,要根據(jù)以前的經(jīng)歷體驗(yàn)及數(shù)據(jù)設(shè)定一個閾值,計算網(wǎng)頁相關(guān)度之后將結(jié)果與其比擬,假如計算結(jié)果小于所設(shè)定的閾值,表示此網(wǎng)頁與主題無關(guān),直接丟棄;假如計算結(jié)果大于閾值,則表示與主題相關(guān),則將其過濾后保存下來。超鏈接相關(guān)度評價模塊的功能是為主題相關(guān)頁面中的鏈接分配優(yōu)先級,主題相關(guān)頁面的類似度大小決定優(yōu)先級的先后,類似度結(jié)果越大的網(wǎng)頁表示清楚該網(wǎng)頁的內(nèi)容與主題越接近[5]。圖2主題網(wǎng)絡(luò)爬蟲構(gòu)造主題爬蟲首先根據(jù)初始種子鏈接進(jìn)行網(wǎng)頁抓取,然后根據(jù)主題模塊進(jìn)行頁面相關(guān)度判定,若該頁面信息與主題相關(guān),則將該頁面內(nèi)容存儲到網(wǎng)頁庫中;若頁面內(nèi)容與主題無關(guān),則將其舍棄。將所有抓取網(wǎng)頁的鏈接進(jìn)行提取,進(jìn)行超鏈接相關(guān)度評價后存入URL庫,以備主題爬蟲將來對所抓取的鏈接去重。2.3、索引模塊設(shè)計索引模塊的功能是將采集的數(shù)據(jù)有序處理后,構(gòu)建倒排索引庫,為將來的檢索提供數(shù)據(jù)基礎(chǔ)。索引模塊主要由數(shù)據(jù)預(yù)處理、構(gòu)建倒排索引庫以及索引庫更新三部分組成。數(shù)據(jù)預(yù)處理是對采集的數(shù)據(jù)進(jìn)行過濾和清洗,處理掉無關(guān)數(shù)據(jù)和重復(fù)數(shù)據(jù)。倒排索引庫是索引模塊的核心,而索引構(gòu)造與搜索引擎的查詢速度密切相關(guān)。采用倒排索引構(gòu)造能夠在較短時間內(nèi)定位到搜索結(jié)果的詳細(xì)位置。系統(tǒng)模塊首先從預(yù)處理好的數(shù)據(jù)中將搜索服務(wù)中檢索需要用到的字段從數(shù)據(jù)庫中提取出來,接著對數(shù)據(jù)信息進(jìn)行分詞處理,計算提取的本文關(guān)鍵詞語的權(quán)重,然后根據(jù)得到的本文關(guān)鍵詞語構(gòu)建索引并對其內(nèi)容進(jìn)行排序。最后通過文檔編號差值的方式對數(shù)據(jù)壓縮,將已經(jīng)壓縮的索引入庫[6]。倒排索引工作流程如此圖3所示。圖3倒排索引工作流程網(wǎng)絡(luò)上的數(shù)據(jù)每日都在增加,主題網(wǎng)絡(luò)爬蟲也在網(wǎng)絡(luò)上不停爬去相關(guān)頁面,索引庫的內(nèi)容也隨著增加。為了不影響搜索引擎的檢索速度,必須有一個合理的索引更新策略。筆者對索引庫的更新采用混合策略,將不同的索引更新策略混合,以構(gòu)成更高層次的效率?;旌喜呗砸话銜卧~根據(jù)其不同性質(zhì)進(jìn)行分類,不同類別的單詞,對其索引采取不同的索引更新策略[7]。這樣能節(jié)省系統(tǒng)開銷,對搜索引擎檢索速度的影響也不大。2.4、檢索模塊設(shè)計用戶檢索模塊包含兩個功能:搜索建議與搜索。搜索建議功能是用戶在檢索框內(nèi)輸入自個以為的檢索詞后,搜索引擎將該詞在索引數(shù)據(jù)庫中進(jìn)行模糊匹配,把類似或相關(guān)度很高的詞在檢索框中進(jìn)行提示,以方便用戶比擬后選擇,以提高檢索的準(zhǔn)確性。搜索功能是垂直搜索引擎來的核心。用戶在搜索框內(nèi)輸入檢索詞后,若采用搜索建議提供的詞,則系統(tǒng)直接在索引數(shù)據(jù)庫中按建議詞進(jìn)行檢索并輸出結(jié)果;若用戶不選擇建議詞,系統(tǒng)則根據(jù)用戶的檢索詞在索引數(shù)據(jù)庫中檢索并返回結(jié)果[8]。檢索模塊工作流程如下4圖所示。圖4檢索模塊工作流程3、結(jié)束語隨著互聯(lián)網(wǎng)上的信息爆炸式地增長,人們已經(jīng)進(jìn)入了大數(shù)據(jù)時代。無論是在工作還是生活中,人們對互聯(lián)網(wǎng)的依靠越來越深,對垂直搜索引擎的要求也越來越專業(yè),期望通過垂直搜索引擎檢索得到范圍更小、層次更深、粒度更細(xì)的資源。在垂直搜索領(lǐng)域里面還有很多值得提高的地方,比方隧道技術(shù),能夠過濾掉無關(guān)網(wǎng)頁連接兩個主題,主題相關(guān)度算法也需要愈加完善才能提高垂直搜索引擎檢索的完好性,這都需要在后續(xù)的工作中進(jìn)一步研究。以下為參考文獻(xiàn)[1]袁津生.搜索引擎原理與實(shí)踐[M].北京:北京郵電大學(xué)出版社,2008:6~7.[2]李鴻飛.網(wǎng)絡(luò)信息檢索工具的現(xiàn)在狀況分析與發(fā)展方向研究---以搜索引擎和網(wǎng)絡(luò)資源目錄為例[J].中國科技信息,2020,(8).[3]丁月.基于網(wǎng)絡(luò)爬蟲的垂直搜索引擎設(shè)計與實(shí)現(xiàn)[D].貴陽:貴州大學(xué),2022.[4]張亞鳳.垂直搜索引擎中關(guān)鍵技術(shù)的研究[D].長春:長春工業(yè)大學(xué),2021.[5]羅路天.垂直搜索引擎中主題網(wǎng)絡(luò)爬蟲算法的設(shè)計與研究[D].廣州:廣東工業(yè)大學(xué),2021.[6]張月.基于ElasticSearch的分布式搜索引擎的設(shè)計與實(shí)現(xiàn)[D].北京:北京交通大學(xué),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論