信息組織存儲與檢索論文_第1頁
信息組織存儲與檢索論文_第2頁
信息組織存儲與檢索論文_第3頁
信息組織存儲與檢索論文_第4頁
信息組織存儲與檢索論文_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、南京理工大學(xué)泰州科技院課程論文課程名稱: 信息組織、存儲與檢索論文題目: 自動文摘技術(shù)的研究 班 級: 11信管 學(xué) 號: 1109120102 姓 名: 戴慧嫻 指導(dǎo)教師: 汪雪蔚 2014 年1 月6日自動文摘技術(shù)的研究(南京理工大學(xué)泰州科技學(xué)院 11信管 1109120102 戴慧嫻)【摘要】隨著互聯(lián)網(wǎng)的快速發(fā)展,搜索引擎的應(yīng)用已經(jīng)變得非常廣泛,Web是一個巨大的信息資源庫,提供了各種各樣的信息服務(wù),如何有效的從Web獲取所需信息變得越來越重要。為此,在Web這樣的分布式環(huán)境中找到有價值的信息,并從中提取出知識內(nèi)容已經(jīng)成為目前信息檢索、數(shù)據(jù)挖掘重要課題。用戶不僅希望得到相關(guān)的Web頁面外

2、,還希望檢索到的頁面具有高質(zhì)量,即找到權(quán)威頁面。網(wǎng)頁的超鏈接是一個重要的研究途徑,鏈接分析(即Web結(jié)構(gòu)挖掘)的引入和應(yīng)用為這些問題的解決提供了一條嶄新的思路。HTIS是一種應(yīng)用廣泛的基于鏈接分析的權(quán)威資源提取算法,具有很高的研究價值。本文在簡要介紹Web鏈接分析技術(shù)的基礎(chǔ)上,深入分析了HITS算法的優(yōu)缺點,通過對HITS主要缺點主題漂移的分析研究,通過對搜索引擎的算法設(shè)計思想及原理的了解,將更加有助于提供高我們的信息檢索能力【關(guān)鍵詞】HITS算法,搜索引擎,權(quán)威網(wǎng)頁,中心網(wǎng)頁;概述數(shù)據(jù)的預(yù)處理是對Web上的數(shù)據(jù)檢索后進行的數(shù)據(jù)預(yù)處理, 為數(shù)據(jù)挖掘模塊提供挖掘所需要的數(shù)據(jù)。確定挖掘主題后,可使

3、用Google的Web API, 利用JBuilder實現(xiàn)對Google的巨大Web索引的搜索。但是, 用戶的一個查詢請求往往會檢索出龐大的結(jié)果集, 而用戶所需要的只是其中很小一部分, 面對如此多的結(jié)果, 用戶仍然不知所措。所以必須用HITS算法來確定權(quán)威Web頁面, 這樣就可以有效地去除無效網(wǎng)頁。一.HITS (Hyperlink-Induced Topic Search)算法的提出基于商業(yè)或競爭因素考慮,很少有WEB網(wǎng)頁指向其競爭領(lǐng)域的權(quán)威網(wǎng)頁(“Microsoft” 和 “Netscape”都是瀏覽器的權(quán)威主頁,但并不互指),權(quán)威網(wǎng)頁很少具有顯式的描述(如Google主頁不會明確給出WE

4、B搜索引擎之類的描述信息),PageRank算法中對于向外鏈接的權(quán)值貢獻是平均的,HITS算法考慮了不同鏈接的重要性。二.HITS算法基本思想Kleinberg于1998年提出HITS算法:l Authority 頁面(權(quán)威頁面):是指與某個領(lǐng)域或者某個話題相關(guān)的高質(zhì)量網(wǎng)頁;l Hub頁面(樞紐頁面):指的是包含了很多指向高質(zhì)量“Authority”頁面鏈接的網(wǎng)頁。HITS算法對web的鏈接結(jié)構(gòu)進行挖掘,從而發(fā)現(xiàn)相關(guān)的web communities,包括Authorities和Hubs。Authorities是那些與給定查詢主題的上下文最為相關(guān)并具有權(quán)威性的網(wǎng)頁;而Hubs則是那些本身的內(nèi)容雖

5、然未必具有權(quán)威性、但卻包含了多個指向Authorities的超鏈接的網(wǎng)頁。對于大部分主題來說,最為有力的Authorities,其相互之間往往不存在任何鏈接,因此它們常常只被一些作為它們之間的中間層的、相對而言不怎么有名的Hubs網(wǎng)頁所鏈接。對這兩種類型的網(wǎng)頁的提取可以通過循環(huán)執(zhí)行以下操作來完成:一根集合(root set)將查詢q提交給基于關(guān)鍵字查詢的檢索系統(tǒng),從返回結(jié)果頁面的集合總?cè)∏皀個網(wǎng)頁作為根集合,記為root,則root滿足:1. root中的網(wǎng)頁數(shù)量較少;2. root中的網(wǎng)頁是與查詢q相關(guān)的網(wǎng)頁 ;3. root中的網(wǎng)頁包含較多的權(quán)威(Authority)網(wǎng)頁; 二擴展集合ba

6、se在根集root的基礎(chǔ)上,凡是與根集內(nèi)網(wǎng)頁有直接鏈接指向關(guān)系的網(wǎng)頁都被擴充到集合base。三計算擴展集base中所有頁面的Hub值(中心度)和Authority值(權(quán)威度)1. 網(wǎng)頁i的Authority值a (i) = h (i) ;2. 網(wǎng)頁i的Hub值h (i) = a (i) ;3. 對a (i)、h (i)進行規(guī)范化處理:a (i) = a (i)/|a(i)| ;h (i) = h (i)/ |h(i)| ;4. 不斷重復(fù),若權(quán)值沒有明顯變化,則結(jié)束計算;四輸出排序結(jié)果:將頁面根據(jù)Authority權(quán)值得分由高到低排序,取權(quán)值最高的若干頁面作為響應(yīng)用戶查詢的搜索結(jié)果輸出。基本思想

7、:一個好的” Authority”頁面會被很多好的” Hub ”頁面指向;一個好的” Hub”頁面會指向很多好的” Authority”頁面;合起來趨向于形成如圖:AuthoritiesHubs 三HITS算法中存在的問題HITS算法雖然在某些查詢主題下能夠較為準確地提取出權(quán)威網(wǎng)頁, 但仍存在在一些場合中會使得算法發(fā)生嚴重的“主題漂移”的現(xiàn)象 (authorities集中到一些鏈接稠密的非相關(guān)網(wǎng)頁的現(xiàn)象被稱為“主題漂移”問題)。該現(xiàn)象的出現(xiàn)說明在傳統(tǒng)HITS算法中仍存在一些缺點, 這就要求對傳統(tǒng)HITS算法進行改進, 以使其具有更為廣泛的適用性, 提高權(quán)威頁面搜索的效率。四 HITS算法的改進

8、迭代過程中盡量向根集投影:仔細觀察HITS算法的第(4)步和第(5)步, 便會發(fā)現(xiàn)傳統(tǒng)的HITS算法之所以會出現(xiàn)“主題漂移”現(xiàn)象, 就是因為它從主特征向量中所提取的權(quán)威網(wǎng)頁組, 雖然其內(nèi)部鏈接關(guān)系最為稠密, 但是該組網(wǎng)頁與根集的關(guān)系卻最小, 即和原查詢主題的關(guān)聯(lián)程度非常小。也就是說傳統(tǒng)的HITS算法是基于權(quán)威值迭代的算法, 如果根集中存在著與主題不相關(guān)的一組稠密網(wǎng)頁相連接的網(wǎng)頁, 那么, 那組內(nèi)部鏈接稠密的網(wǎng)頁就會使得該組網(wǎng)頁的權(quán)值在HITS算法的運行過程中不公平地迅速增加, 使得結(jié)果不可避免地向該組網(wǎng)頁集中。為了避免這種情形的發(fā)生, 就應(yīng)該考慮從其它非主特征向量中提取不同的、雖然內(nèi)部鏈接并不是最為稠密、但與根集關(guān)系卻更為密切的權(quán)威網(wǎng)頁組。五 結(jié)束語HITS算法是web結(jié)構(gòu)挖掘中的重要算法之一,針對該算法存在的一些問題,許多學(xué)者提出了各種改進算法,且這些改進算法還在不斷研究發(fā)展中。通過改進的HITS算法%可以獲得高的查詢精確度,當(dāng)然,也可能增加了算法的復(fù)雜度。如何改進HITS算法,使其具有較高查準率和查全率,同時又能降低算法的復(fù)雜度,這應(yīng)是HITS算法研究的方向。參考文獻:【1】 陳次白,丁晟春等.信息檢索與存儲技術(shù)(第二版).北京:國防工業(yè)出版社.2008【2】 黃如花.網(wǎng)絡(luò)信息的檢索與利用.武漢:武漢大學(xué)出版

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論