垂直搜索技術(shù)_第1頁
垂直搜索技術(shù)_第2頁
垂直搜索技術(shù)_第3頁
垂直搜索技術(shù)_第4頁
垂直搜索技術(shù)_第5頁
已閱讀5頁,還剩33頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、垂直搜索簡介2022-5-1主講內(nèi)容垂直搜所引擎發(fā)展方向垂直搜所引擎發(fā)展方向垂直搜索引擎核心技術(shù)垂直搜索引擎核心技術(shù)垂直搜索引擎特點(diǎn)垂直搜索引擎特點(diǎn)搜索引擎介紹搜索引擎介紹2022-5-1中國網(wǎng)民對(duì)各類網(wǎng)絡(luò)應(yīng)用的使用率截至2013年12月,中國網(wǎng)民規(guī)模達(dá)6.18億。 中國網(wǎng)民對(duì)各類網(wǎng)絡(luò)應(yīng)用的使用是什么樣的呢?2022-5-1搜索引擎簡介l搜索引擎是互聯(lián)網(wǎng)基礎(chǔ)服務(wù)之一。l幫助我們?cè)诤迫鐭熀5男畔⒑Q笾兴褜さ阶约核枰男畔ⅰ?2022-5-1通用搜索引擎u優(yōu)點(diǎn):信息量大、更新及時(shí)、無需人工干預(yù)。u缺點(diǎn):查詢結(jié)果相關(guān)度較低,返回信息過多,死鏈接較多,信息無序化。2022-5-1垂直搜索引擎垂直搜索

2、引擎(vertical search engine)也被稱為專業(yè)搜索引擎,或主題搜索引擎,它專門收錄某一方面、某一行業(yè)或某一主題內(nèi)的信息,專為查詢某一個(gè)學(xué)科或某一主題的信息提供檢索服務(wù)。定義定義2022-5-1垂直搜索引擎優(yōu)點(diǎn)優(yōu)點(diǎn)是搜索引擎領(lǐng)域的行業(yè)化分工;專、精、深,具有行業(yè)色彩;簡單 、直觀 、智能。 2022-5-1常見的垂直常見的垂直搜索引擎搜索引擎房產(chǎn)類:搜房網(wǎng)旅游類:去哪兒網(wǎng)IT信息類:搜我們招聘類:智聯(lián)招聘視頻類:優(yōu)酷網(wǎng)2022-5-1垂直搜索引擎特點(diǎn)只涉及某一個(gè)或幾個(gè)領(lǐng)域,詞匯和用語的一詞多義的可能性降低,可利用專業(yè)詞表進(jìn)行規(guī)范和控制,從而大大提高查全率和準(zhǔn)確率。信息采集量小,

3、網(wǎng)絡(luò)傳輸量小,有利于網(wǎng)絡(luò)帶寬的有效利用。索引數(shù)據(jù)庫的規(guī)模小,有利于縮短查詢響應(yīng)時(shí)間,還可采用復(fù)雜的查詢語法,提高用戶的查詢精度。2022-5-1垂直搜索核心技術(shù)網(wǎng)頁信息抽取2022-5-1爬蟲爬蟲:爬蟲:是一種自動(dòng)獲取網(wǎng)頁內(nèi)容的程序,是搜索引擎的重要組成部分。爬蟲按照搜索引擎的不同,又分為通用爬蟲通用爬蟲和主主題爬蟲題爬蟲。并且主題爬蟲是在通用爬蟲的基礎(chǔ)上改造而來,因此,在分析垂直搜索中的主題爬蟲原理技術(shù)之前,先介紹通用爬蟲的原理及技術(shù)。2022-5-1通用爬蟲系統(tǒng)結(jié)構(gòu)主要作用就是分析抓取下來的網(wǎng)頁頁面,提取頁面中的超鏈接 URL,繼續(xù)交給后續(xù)模塊處理;根據(jù)人工設(shè)定的URL種子,啟動(dòng)爬蟲;作為

4、爬蟲與因特網(wǎng)的通信接口,通過各種Web協(xié)議(通常是 HTTP)進(jìn)行網(wǎng)頁的抓取,而下載后的網(wǎng)頁交給后續(xù)模塊;由于頁面分析模塊得到的超鏈接可能存在重復(fù)或是無效的情況,因此,該模塊就是對(duì)這些鏈接進(jìn)行過濾;存放經(jīng)分析后的網(wǎng)頁頁面的地方。2022-5-1通用爬蟲缺點(diǎn) 通用爬蟲并不適合面向領(lǐng)域的垂直搜索系統(tǒng),這是因?yàn)橥ㄓ门老x的目標(biāo)在于盡可能多地全網(wǎng)抓取網(wǎng)頁,抓取的過程不太關(guān)注網(wǎng)頁的主題。而垂直搜索系統(tǒng)需要的并非是所有的網(wǎng)頁,因而垂直搜索系統(tǒng)的爬蟲一般采用的是主題爬蟲主題爬蟲。主題爬蟲也叫專業(yè)蜘蛛專業(yè)蜘蛛。2022-5-1主題網(wǎng)絡(luò)爬蟲定義 主題網(wǎng)絡(luò)爬蟲主題網(wǎng)絡(luò)爬蟲就是根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈

5、接,保留主題相關(guān)的鏈接并將其放入待抓取的URL隊(duì)列中,然后根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。2022-5-1主題爬蟲系統(tǒng)結(jié)構(gòu)2022-5-1主題爬蟲搜索策略第一代網(wǎng)絡(luò)爬蟲所用的搜索策略主要是基于傳統(tǒng)的圖圖算法算法,如寬度優(yōu)先或深度優(yōu)先算法來索引整個(gè)Web。 一個(gè)核心的URL集被用來作為一個(gè)種子集合,這種算法遞歸的跟蹤超鏈接到其它頁面,而通常不管頁面的內(nèi)容,因?yàn)樽罱K的目標(biāo)是這種跟蹤能覆蓋整個(gè)Web。寬度和深度優(yōu)先搜索策略通常用在通用搜索引擎中,因?yàn)橥ㄓ盟阉饕娅@得的網(wǎng)頁越多越好,無特定的要求。主題爬蟲的爬行策略只挑出某一個(gè)特定主

6、題的頁面。它依據(jù)“最好優(yōu)先原則”進(jìn)行訪問,能夠快速、有效地獲得更多的與主題相關(guān)的頁面。2022-5-1廣度優(yōu)先抓取流程2022-5-1深度優(yōu)先抓取流程2022-5-1主題爬蟲URL的處理流程2022-5-1爬蟲解析到的URL先保存到等待隊(duì)列中,在等待隊(duì)列中的URL按照特定的排序法則進(jìn)行排序,等候爬蟲的抓取。URL正在被抓取時(shí)放進(jìn)抓取隊(duì)列,目的是防止URL被同時(shí)多次抓取。在抓取過程中出錯(cuò)的url保存到錯(cuò)誤隊(duì)列。一個(gè)url被爬蟲完全抓取之后就將url放進(jìn)完成隊(duì)列。網(wǎng)頁信息抽取定義 信息抽取是指把信息源里包含的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,變成規(guī)范的組織形式。Web信息抽取則將 Web文檔作為信息源,從半結(jié)構(gòu)

7、化的 Web 文檔中抽取數(shù)據(jù)。2022-5-1目前互聯(lián)網(wǎng)中大部分?jǐn)?shù)據(jù)信息是以 HTML(超文本標(biāo)記語言)展現(xiàn)的,這種方式的優(yōu)點(diǎn)是方便顯示和適合瀏覽器瀏覽,但是 HTML 的不足之處在于數(shù)據(jù)和表現(xiàn)相混雜,缺乏對(duì)數(shù)據(jù)進(jìn)行描述。為使應(yīng)用程序或者用戶能更為方便地直接利用 Web中的數(shù)據(jù),通過將 HTML 網(wǎng)頁中包含的有用的半結(jié)構(gòu)化數(shù)據(jù)提取出來,然后以結(jié)構(gòu)化的形式表達(dá)出來,例如采用 XML 語言來描述,這就是 Web 信息抽取。2022-5-1搜索引擎對(duì)頁面的分析頁面分析首先是對(duì)頁面(下載到搜索引擎本地的頁面-網(wǎng)頁快照)建立索引,以實(shí)現(xiàn)對(duì)頁面的快速定位;然后,提取頁面的正文信息(過濾掉HTML標(biāo)簽),并

8、對(duì)正文信息進(jìn)行切詞以及為這些詞(即關(guān)鍵字)建立索引,從而得到頁面與關(guān)鍵字的之間對(duì)應(yīng)關(guān)系(一個(gè)頁面對(duì)應(yīng)多個(gè)關(guān)鍵字),最后,對(duì)所有關(guān)鍵字進(jìn)行重組,并建立關(guān)鍵字與網(wǎng)頁間對(duì)應(yīng)關(guān)系的反向索引列表(一個(gè)關(guān)鍵字對(duì)應(yīng)多個(gè)網(wǎng)頁URL),從而實(shí)現(xiàn)根據(jù)關(guān)鍵字快速定位至相應(yīng)的網(wǎng)頁。(包括:網(wǎng)頁索引表、切詞后形成的關(guān)鍵字索引表、頁面與關(guān)鍵字的一對(duì)多的關(guān)系列表、重組關(guān)鍵字與頁面的一對(duì)多的關(guān)系列表)。2022-5-1頁面分析處理流程2022-5-1頁面與關(guān)鍵字關(guān)系2022-5-1搜索引擎對(duì)頁面排序頁面排序: 搜索引擎結(jié)合頁面的內(nèi)外部因素計(jì)算出頁面與某個(gè)關(guān)鍵字的相關(guān)程度,從而得到與該關(guān)鍵字相關(guān)的頁面排序列表。 影響頁面排序因

9、素:頁面相關(guān)性、鏈接權(quán)重、用戶行為等。2022-5-1影響頁面排序因素頁面相關(guān)性:是指頁面內(nèi)容與用戶所查詢的關(guān)鍵字在意義上的接近程度。主要由關(guān)鍵字匹配度、關(guān)鍵字密度、關(guān)鍵字分布、關(guān)鍵字權(quán)重標(biāo)簽等決定。鏈接權(quán)重:鏈接主要分為內(nèi)部鏈接、外部鏈接兩種。某一頁面得到的鏈接(包括內(nèi)、外部鏈接)越多,那么該頁面的鏈接權(quán)重值就越高。 用戶行為:搜索引擎會(huì)根據(jù)用戶對(duì)搜索結(jié)果的點(diǎn)擊次數(shù)來對(duì)排序結(jié)果進(jìn)行定期改進(jìn)。2022-5-1索引介紹索引是搜索引擎的核心功能之一,它的結(jié)構(gòu)決定了搜索引擎檢索的速度,目前,無論是通用搜索還是垂直搜索,大多數(shù)使用的是倒排索引。倒排索引,也稱作反向索引,它是一種數(shù)據(jù)結(jié)構(gòu),存儲(chǔ)字或詞語在

10、單個(gè)文檔或多個(gè)文檔集合中出現(xiàn)的頻率和位置的映射。2022-5-1倒排索引結(jié)構(gòu)2022-5-1倒排索引倒排索引的主要流程為:p建立正向索引,分析網(wǎng)頁后,得到以網(wǎng)頁編號(hào)為主鍵的正向索引表;p創(chuàng)建反向索引,數(shù)據(jù)規(guī)模增大后可以采用分組索引;p再歸并索引的策略。2022-5-1分詞的意義 中文分詞作為搜索引擎的后臺(tái)核心功能之一,決定了搜索信息的索引和檢索的精度。在搜索引擎建立索引時(shí),寫入的索引是一個(gè)個(gè)的詞條。檢索也同樣如此,用戶在輸入檢索短語或語句后,首先進(jìn)行分詞處理,形成一個(gè)個(gè)的詞條,然后再在索引庫中進(jìn)行查找,是否存在相同的詞條。因而好的分詞工具將決定一個(gè)搜索系統(tǒng)的搜索準(zhǔn)確度和精度。2022-5-1中

11、文分詞中文分詞:指的是將一個(gè)漢字序列切分成漢語詞組序列。英語單詞之間是用空格作為分界符的,而中文在詞上無一個(gè)明顯的分隔符,只在字、句和段落間有分隔符來劃分,當(dāng)然英文中也存在短語劃分問題,不過在詞的層面上,中文相對(duì)于英文來說,劃分更復(fù)雜和困難。2022-5-1中文分詞方法基于字符串匹配的分詞方法基于統(tǒng)計(jì)模型的分詞方法基于理解的分詞方法2022-5-1比較成功的中分分詞系統(tǒng)ICTCLAS-即中科院計(jì)算所漢語詞法分析系統(tǒng),是最早的中文開源分詞項(xiàng)目之一。Paoding 分詞器-是一個(gè)開源中文分詞組件,使用 Java 語言編寫,并且提供對(duì) Lucene 和 solr 的接口,它采用面向?qū)ο笤O(shè)計(jì),具有高效

12、率和擴(kuò)展性。JE 分詞器-基于 Java 語言的開源工具,其接口簡單,功能強(qiáng)大,能較好地完成中文分詞,而且具有歧義分析功能,添加和刪除詞典等功能。2022-5-1目錄精細(xì)化目錄精細(xì)化向深度挖掘型搜索發(fā)展向深度挖掘型搜索發(fā)展向交易平臺(tái)發(fā)展向交易平臺(tái)發(fā)展垂直搜索引擎的發(fā)展方向2022-5-1目錄精細(xì)化 與早期的網(wǎng)址分類搜索引擎相似,但垂直搜索引擎只選定了某一特定行業(yè)或某一主題進(jìn)行目錄的細(xì)化分類,結(jié)合機(jī)器抓取行業(yè)相關(guān)站點(diǎn)的信息提供專業(yè)化的搜索服務(wù)。這種專業(yè)化的分類目錄(或稱主題指南、列表瀏覽),很容易讓用戶迅速知道自己要找的是什么,并且按目錄點(diǎn)擊就能找到。2022-5-1向深度挖掘型搜索發(fā)展 深度挖掘型垂直搜索引擎通過對(duì)元數(shù)據(jù)信息進(jìn)行深度NT,為用戶提供網(wǎng)頁搜索引擎無法做到的專業(yè)性、功能性、關(guān)聯(lián)性,有的加入了用戶信息管理以及信息發(fā)布互動(dòng)功能,能很好地滿足用戶對(duì)專業(yè)性、準(zhǔn)確性、功能性、個(gè)性化的需求。專業(yè)的元數(shù)據(jù)屬性構(gòu)造背后需要一個(gè)強(qiáng)大專業(yè)人士組成的團(tuán)隊(duì)。這些專業(yè)人士對(duì)該領(lǐng)域的元數(shù)據(jù)模型進(jìn)行專業(yè)的分析、關(guān)聯(lián)整合,再通過搜索技術(shù)按這些元數(shù)據(jù)模型把這些信息組織呈現(xiàn)給用戶。2022-5-1向搜索交易平臺(tái)發(fā)展 垂直搜索引擎由于自身對(duì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論