垂直搜索技術(shù)

上傳人：1*** IP屬地：湖北上傳時(shí)間：2022-05-01 格式：PPT 頁數(shù)：38 大?。?.87MB 積分：28 舉報(bào) 版權(quán)申訴

已閱讀5頁，還剩33頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、垂直搜索簡介2022-5-1主講內(nèi)容垂直搜所引擎發(fā)展方向垂直搜所引擎發(fā)展方向垂直搜索引擎核心技術(shù)垂直搜索引擎核心技術(shù)垂直搜索引擎特點(diǎn)垂直搜索引擎特點(diǎn)搜索引擎介紹搜索引擎介紹2022-5-1中國網(wǎng)民對(duì)各類網(wǎng)絡(luò)應(yīng)用的使用率截至2013年12月，中國網(wǎng)民規(guī)模達(dá)6.18億。中國網(wǎng)民對(duì)各類網(wǎng)絡(luò)應(yīng)用的使用是什么樣的呢？2022-5-1搜索引擎簡介l搜索引擎是互聯(lián)網(wǎng)基礎(chǔ)服務(wù)之一。l幫助我們?cè)诤迫鐭熀５男畔⒑Ｑ笾兴褜さ阶约核枰男畔ⅰ?2022-5-1通用搜索引擎u優(yōu)點(diǎn)：信息量大、更新及時(shí)、無需人工干預(yù)。u缺點(diǎn)：查詢結(jié)果相關(guān)度較低，返回信息過多，死鏈接較多，信息無序化。2022-5-1垂直搜索引擎垂直搜索

2、引擎(vertical search engine)也被稱為專業(yè)搜索引擎，或主題搜索引擎，它專門收錄某一方面、某一行業(yè)或某一主題內(nèi)的信息，專為查詢某一個(gè)學(xué)科或某一主題的信息提供檢索服務(wù)。定義定義2022-5-1垂直搜索引擎優(yōu)點(diǎn)優(yōu)點(diǎn)是搜索引擎領(lǐng)域的行業(yè)化分工；專、精、深，具有行業(yè)色彩；簡單、直觀、智能。 2022-5-1常見的垂直常見的垂直搜索引擎搜索引擎房產(chǎn)類：搜房網(wǎng)旅游類：去哪兒網(wǎng)IT信息類：搜我們招聘類：智聯(lián)招聘視頻類：優(yōu)酷網(wǎng)2022-5-1垂直搜索引擎特點(diǎn)只涉及某一個(gè)或幾個(gè)領(lǐng)域，詞匯和用語的一詞多義的可能性降低，可利用專業(yè)詞表進(jìn)行規(guī)范和控制，從而大大提高查全率和準(zhǔn)確率。信息采集量小，

3、網(wǎng)絡(luò)傳輸量小，有利于網(wǎng)絡(luò)帶寬的有效利用。索引數(shù)據(jù)庫的規(guī)模小，有利于縮短查詢響應(yīng)時(shí)間，還可采用復(fù)雜的查詢語法，提高用戶的查詢精度。2022-5-1垂直搜索核心技術(shù)網(wǎng)頁信息抽取2022-5-1爬蟲爬蟲：爬蟲：是一種自動(dòng)獲取網(wǎng)頁內(nèi)容的程序，是搜索引擎的重要組成部分。爬蟲按照搜索引擎的不同，又分為通用爬蟲通用爬蟲和主主題爬蟲題爬蟲。并且主題爬蟲是在通用爬蟲的基礎(chǔ)上改造而來，因此，在分析垂直搜索中的主題爬蟲原理技術(shù)之前，先介紹通用爬蟲的原理及技術(shù)。2022-5-1通用爬蟲系統(tǒng)結(jié)構(gòu)主要作用就是分析抓取下來的網(wǎng)頁頁面，提取頁面中的超鏈接 URL，繼續(xù)交給后續(xù)模塊處理；根據(jù)人工設(shè)定的URL種子，啟動(dòng)爬蟲；作為

4、爬蟲與因特網(wǎng)的通信接口，通過各種Web協(xié)議(通常是 HTTP)進(jìn)行網(wǎng)頁的抓取，而下載后的網(wǎng)頁交給后續(xù)模塊；由于頁面分析模塊得到的超鏈接可能存在重復(fù)或是無效的情況，因此，該模塊就是對(duì)這些鏈接進(jìn)行過濾；存放經(jīng)分析后的網(wǎng)頁頁面的地方。2022-5-1通用爬蟲缺點(diǎn) 通用爬蟲并不適合面向領(lǐng)域的垂直搜索系統(tǒng)，這是因?yàn)橥ㄓ门老x的目標(biāo)在于盡可能多地全網(wǎng)抓取網(wǎng)頁，抓取的過程不太關(guān)注網(wǎng)頁的主題。而垂直搜索系統(tǒng)需要的并非是所有的網(wǎng)頁，因而垂直搜索系統(tǒng)的爬蟲一般采用的是主題爬蟲主題爬蟲。主題爬蟲也叫專業(yè)蜘蛛專業(yè)蜘蛛。2022-5-1主題網(wǎng)絡(luò)爬蟲定義主題網(wǎng)絡(luò)爬蟲主題網(wǎng)絡(luò)爬蟲就是根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈

5、接，保留主題相關(guān)的鏈接并將其放入待抓取的URL隊(duì)列中,然后根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL，并重復(fù)上述過程，直到達(dá)到系統(tǒng)的某一條件時(shí)停止。2022-5-1主題爬蟲系統(tǒng)結(jié)構(gòu)2022-5-1主題爬蟲搜索策略第一代網(wǎng)絡(luò)爬蟲所用的搜索策略主要是基于傳統(tǒng)的圖圖算法算法，如寬度優(yōu)先或深度優(yōu)先算法來索引整個(gè)Web。一個(gè)核心的URL集被用來作為一個(gè)種子集合，這種算法遞歸的跟蹤超鏈接到其它頁面，而通常不管頁面的內(nèi)容，因?yàn)樽罱K的目標(biāo)是這種跟蹤能覆蓋整個(gè)Web。寬度和深度優(yōu)先搜索策略通常用在通用搜索引擎中，因?yàn)橥ㄓ盟阉饕娅@得的網(wǎng)頁越多越好，無特定的要求。主題爬蟲的爬行策略只挑出某一個(gè)特定主

6、題的頁面。它依據(jù)“最好優(yōu)先原則”進(jìn)行訪問，能夠快速、有效地獲得更多的與主題相關(guān)的頁面。2022-5-1廣度優(yōu)先抓取流程2022-5-1深度優(yōu)先抓取流程2022-5-1主題爬蟲URL的處理流程2022-5-1爬蟲解析到的URL先保存到等待隊(duì)列中，在等待隊(duì)列中的URL按照特定的排序法則進(jìn)行排序，等候爬蟲的抓取。URL正在被抓取時(shí)放進(jìn)抓取隊(duì)列，目的是防止URL被同時(shí)多次抓取。在抓取過程中出錯(cuò)的url保存到錯(cuò)誤隊(duì)列。一個(gè)url被爬蟲完全抓取之后就將url放進(jìn)完成隊(duì)列。網(wǎng)頁信息抽取定義信息抽取是指把信息源里包含的數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理，變成規(guī)范的組織形式。Web信息抽取則將 Web文檔作為信息源，從半結(jié)構(gòu)

7、化的 Web 文檔中抽取數(shù)據(jù)。2022-5-1目前互聯(lián)網(wǎng)中大部分?jǐn)?shù)據(jù)信息是以 HTML(超文本標(biāo)記語言)展現(xiàn)的，這種方式的優(yōu)點(diǎn)是方便顯示和適合瀏覽器瀏覽，但是 HTML 的不足之處在于數(shù)據(jù)和表現(xiàn)相混雜，缺乏對(duì)數(shù)據(jù)進(jìn)行描述。為使應(yīng)用程序或者用戶能更為方便地直接利用 Web中的數(shù)據(jù)，通過將 HTML 網(wǎng)頁中包含的有用的半結(jié)構(gòu)化數(shù)據(jù)提取出來，然后以結(jié)構(gòu)化的形式表達(dá)出來，例如采用 XML 語言來描述，這就是 Web 信息抽取。2022-5-1搜索引擎對(duì)頁面的分析頁面分析首先是對(duì)頁面（下載到搜索引擎本地的頁面-網(wǎng)頁快照）建立索引，以實(shí)現(xiàn)對(duì)頁面的快速定位；然后，提取頁面的正文信息（過濾掉HTML標(biāo)簽），并

8、對(duì)正文信息進(jìn)行切詞以及為這些詞（即關(guān)鍵字）建立索引，從而得到頁面與關(guān)鍵字的之間對(duì)應(yīng)關(guān)系（一個(gè)頁面對(duì)應(yīng)多個(gè)關(guān)鍵字），最后，對(duì)所有關(guān)鍵字進(jìn)行重組，并建立關(guān)鍵字與網(wǎng)頁間對(duì)應(yīng)關(guān)系的反向索引列表（一個(gè)關(guān)鍵字對(duì)應(yīng)多個(gè)網(wǎng)頁URL），從而實(shí)現(xiàn)根據(jù)關(guān)鍵字快速定位至相應(yīng)的網(wǎng)頁。（包括：網(wǎng)頁索引表、切詞后形成的關(guān)鍵字索引表、頁面與關(guān)鍵字的一對(duì)多的關(guān)系列表、重組關(guān)鍵字與頁面的一對(duì)多的關(guān)系列表）。2022-5-1頁面分析處理流程2022-5-1頁面與關(guān)鍵字關(guān)系2022-5-1搜索引擎對(duì)頁面排序頁面排序：搜索引擎結(jié)合頁面的內(nèi)外部因素計(jì)算出頁面與某個(gè)關(guān)鍵字的相關(guān)程度，從而得到與該關(guān)鍵字相關(guān)的頁面排序列表。影響頁面排序因

9、素：頁面相關(guān)性、鏈接權(quán)重、用戶行為等。2022-5-1影響頁面排序因素頁面相關(guān)性：是指頁面內(nèi)容與用戶所查詢的關(guān)鍵字在意義上的接近程度。主要由關(guān)鍵字匹配度、關(guān)鍵字密度、關(guān)鍵字分布、關(guān)鍵字權(quán)重標(biāo)簽等決定。鏈接權(quán)重：鏈接主要分為內(nèi)部鏈接、外部鏈接兩種。某一頁面得到的鏈接（包括內(nèi)、外部鏈接）越多，那么該頁面的鏈接權(quán)重值就越高。用戶行為：搜索引擎會(huì)根據(jù)用戶對(duì)搜索結(jié)果的點(diǎn)擊次數(shù)來對(duì)排序結(jié)果進(jìn)行定期改進(jìn)。2022-5-1索引介紹索引是搜索引擎的核心功能之一，它的結(jié)構(gòu)決定了搜索引擎檢索的速度，目前，無論是通用搜索還是垂直搜索，大多數(shù)使用的是倒排索引。倒排索引，也稱作反向索引，它是一種數(shù)據(jù)結(jié)構(gòu)，存儲(chǔ)字或詞語在

10、單個(gè)文檔或多個(gè)文檔集合中出現(xiàn)的頻率和位置的映射。2022-5-1倒排索引結(jié)構(gòu)2022-5-1倒排索引倒排索引的主要流程為:p建立正向索引，分析網(wǎng)頁后，得到以網(wǎng)頁編號(hào)為主鍵的正向索引表;p創(chuàng)建反向索引，數(shù)據(jù)規(guī)模增大后可以采用分組索引;p再歸并索引的策略。2022-5-1分詞的意義中文分詞作為搜索引擎的后臺(tái)核心功能之一，決定了搜索信息的索引和檢索的精度。在搜索引擎建立索引時(shí)，寫入的索引是一個(gè)個(gè)的詞條。檢索也同樣如此，用戶在輸入檢索短語或語句后，首先進(jìn)行分詞處理，形成一個(gè)個(gè)的詞條，然后再在索引庫中進(jìn)行查找，是否存在相同的詞條。因而好的分詞工具將決定一個(gè)搜索系統(tǒng)的搜索準(zhǔn)確度和精度。2022-5-1中

11、文分詞中文分詞：指的是將一個(gè)漢字序列切分成漢語詞組序列。英語單詞之間是用空格作為分界符的，而中文在詞上無一個(gè)明顯的分隔符，只在字、句和段落間有分隔符來劃分，當(dāng)然英文中也存在短語劃分問題，不過在詞的層面上，中文相對(duì)于英文來說，劃分更復(fù)雜和困難。2022-5-1中文分詞方法基于字符串匹配的分詞方法基于統(tǒng)計(jì)模型的分詞方法基于理解的分詞方法2022-5-1比較成功的中分分詞系統(tǒng)ICTCLAS-即中科院計(jì)算所漢語詞法分析系統(tǒng)，是最早的中文開源分詞項(xiàng)目之一。Paoding 分詞器-是一個(gè)開源中文分詞組件，使用 Java 語言編寫，并且提供對(duì) Lucene 和 solr 的接口，它采用面向?qū)ο笤O(shè)計(jì)，具有高效

12、率和擴(kuò)展性。JE 分詞器-基于 Java 語言的開源工具，其接口簡單，功能強(qiáng)大，能較好地完成中文分詞，而且具有歧義分析功能，添加和刪除詞典等功能。2022-5-1目錄精細(xì)化目錄精細(xì)化向深度挖掘型搜索發(fā)展向深度挖掘型搜索發(fā)展向交易平臺(tái)發(fā)展向交易平臺(tái)發(fā)展垂直搜索引擎的發(fā)展方向2022-5-1目錄精細(xì)化與早期的網(wǎng)址分類搜索引擎相似，但垂直搜索引擎只選定了某一特定行業(yè)或某一主題進(jìn)行目錄的細(xì)化分類，結(jié)合機(jī)器抓取行業(yè)相關(guān)站點(diǎn)的信息提供專業(yè)化的搜索服務(wù)。這種專業(yè)化的分類目錄(或稱主題指南、列表瀏覽)，很容易讓用戶迅速知道自己要找的是什么，并且按目錄點(diǎn)擊就能找到。2022-5-1向深度挖掘型搜索發(fā)展深度挖掘型垂直搜索引擎通過對(duì)元數(shù)據(jù)信息進(jìn)行深度NT，為用戶提供網(wǎng)頁搜索引擎無法做到的專業(yè)性、功能性、關(guān)聯(lián)性，有的加入了用戶信息管理以及信息發(fā)布互動(dòng)功能，能很好地滿足用戶對(duì)專業(yè)性、準(zhǔn)確性、功能性、個(gè)性化的需求。專業(yè)的元數(shù)據(jù)屬性構(gòu)造背后需要一個(gè)強(qiáng)大專業(yè)人士組成的團(tuán)隊(duì)。這些專業(yè)人士對(duì)該領(lǐng)域的元數(shù)據(jù)模型進(jìn)行專業(yè)的分析、關(guān)聯(lián)整合，再通過搜索技術(shù)按這些元數(shù)據(jù)模型把這些信息組織呈現(xiàn)給用戶。2022-5-1向搜索交易平臺(tái)發(fā)展垂直搜索引擎由于自身對(duì)

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

垂直搜索技術(shù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

垂直搜索技術(shù)

文檔簡介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔