![Web結(jié)構(gòu)的數(shù)據(jù)挖掘HITS算法(共3591字).doc_第1頁](http://file3.renrendoc.com/fileroot_temp3/2022-4/28/a02453c2-1714-4601-836b-683a029a9917/a02453c2-1714-4601-836b-683a029a99171.gif)
![Web結(jié)構(gòu)的數(shù)據(jù)挖掘HITS算法(共3591字).doc_第2頁](http://file3.renrendoc.com/fileroot_temp3/2022-4/28/a02453c2-1714-4601-836b-683a029a9917/a02453c2-1714-4601-836b-683a029a99172.gif)
![Web結(jié)構(gòu)的數(shù)據(jù)挖掘HITS算法(共3591字).doc_第3頁](http://file3.renrendoc.com/fileroot_temp3/2022-4/28/a02453c2-1714-4601-836b-683a029a9917/a02453c2-1714-4601-836b-683a029a99173.gif)
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、Web結(jié)構(gòu)的數(shù)據(jù)挖掘HITS算法(共3591字)摘要:信息技術(shù)的發(fā)展催生了更多更先進的數(shù)據(jù)挖掘技術(shù),其中基于Web結(jié)構(gòu)的數(shù)據(jù)挖掘技術(shù)獲得業(yè)界普遍關(guān)注。文章從Web結(jié)構(gòu)挖掘深入研究運用Hyperlink-InducedTopicSearch(HITS)算法挖掘web數(shù)據(jù),從而準確判斷web鏈接頁面的重要性,分析了HITS算法的基本思想和存在的問題,并提出了HITS算法的改進方案。關(guān)鍵詞:Web結(jié)構(gòu)挖掘;HITS算法;數(shù)據(jù)挖掘Web擁有海量的信息,為人們提供豐富多樣的信息服務(wù)。隨著信息技術(shù)的發(fā)展和Web信息量的指數(shù)級增長,快速準確地從Web網(wǎng)絡(luò)中獲取信息變得愈發(fā)重要。因此,如何從海量的Web網(wǎng)絡(luò)中
2、尋找有價值的數(shù)據(jù)信息已然是現(xiàn)階段Web結(jié)構(gòu)挖掘的一個非常重要的研究課題。在實際應(yīng)用場景中,用戶往往需要在獲得Web頁面的基礎(chǔ)上快速找到高質(zhì)量的所謂權(quán)威頁面。在Web結(jié)構(gòu)挖掘中鏈接分析的作用非常重要,而以鏈接分析為基礎(chǔ)建立的HITS算法能夠高效地篩選出Web頁面中的權(quán)威資源。常常用于分析超鏈接以確定權(quán)威信息源。本文研究HITS算法,分析了傳統(tǒng)HITS算法存在的問題,并在此基礎(chǔ)上運用基本集縮減法優(yōu)化HITS算法,從而實現(xiàn)更有效率的權(quán)威網(wǎng)頁檢索,提高提高算法的效率和靈活性。一、HITS算法基本原理作為數(shù)據(jù)提起算法的典型算法之一,HITS算法的應(yīng)用和需要檢索的主題有直接關(guān)系。HITS算法的基本思想是先
3、提取出Web鏈接結(jié)構(gòu)中用戶需要檢索的相關(guān)頁面,組成Web鏈接結(jié)構(gòu)子圖,再運用HITS算法分析計算這個連接結(jié)構(gòu)子圖。而Web鏈接主要有以下幾點特征。其一,有些鏈接的作用是廣告或?qū)Ш?,只有具有注釋性的鏈接才能用于?quán)威性的評判。其二,商業(yè)競爭因素的影響下,權(quán)威網(wǎng)頁鏈接至Web網(wǎng)頁競爭領(lǐng)域的情況很少。其三,一般來說,權(quán)威網(wǎng)頁都缺少明顯的描述,如百度搜索主頁并不會將與Web信息檢索引擎有關(guān)的具體描述信息呈現(xiàn)給用戶??梢?,Web鏈接的實際情況與平均分配權(quán)值不相符。因此,在HITS算法中新增了一種新的網(wǎng)頁類型,也就是Hub網(wǎng)頁。Hub網(wǎng)頁集中了鏈接至權(quán)威網(wǎng)頁的鏈接。實際上,很少有網(wǎng)頁指向Hub網(wǎng)頁,但是Hu
4、b網(wǎng)頁中集中了鏈接至權(quán)威網(wǎng)頁的鏈接。如,排列在課本主頁上的一列參考文獻。在常規(guī)情況下,高質(zhì)量的Hub網(wǎng)頁指向了大量的權(quán)威網(wǎng)頁,而一個高質(zhì)量的權(quán)威網(wǎng)頁擁有許多指向它的Hub網(wǎng)頁,但是一個頁面的authority等于鏈接至這個頁面的全部hub的和;一個頁面的hub等于它指向的頁面的全部authority的和。而Hub和Authority網(wǎng)頁之間的關(guān)系是自動查詢權(quán)威網(wǎng)頁和Web結(jié)構(gòu)和資源的重要工具。這就是HITS算法的基本原理。二、傳統(tǒng)HITS算法存在的問題傳統(tǒng)的HITS算法主要存在以下幾個問題。第一,下載、分析網(wǎng)頁包含的鏈接,并且排除重復(fù)的鏈接需要耗費大量的時間,計算量比PageRank算法大。第
5、二,某些情況下,大量主機A上的網(wǎng)頁會指向另一臺主機B上的某一個特定網(wǎng)頁,從而使主機A上的網(wǎng)頁Hub值和主機B上網(wǎng)頁的Authority增加,反之也一樣。HITS算法假設(shè)決定某一個網(wǎng)頁權(quán)威值的組織和個人不同,上述情況對主機A和B上網(wǎng)頁的Hub和Authority的值有所影響。第三,網(wǎng)頁中的一些無關(guān)鏈接指向的網(wǎng)頁中包含的無關(guān)鏈接對Hub和Authority值的計算造成影響。網(wǎng)頁在制作的過程中往往會被加入一些無關(guān)鏈接,如廣告、友情鏈接都對HITS算法的精確度有影響。第四,主題漂移是HITS算法存在的最大問題。Web鏈接結(jié)構(gòu)的自組織性,使WWW中主題一樣或相關(guān)的頁面通過超鏈接形成一個個緊密鏈接區(qū)域。當
6、用戶查詢范圍較寬的定義主題或者多個主題時,鏈接結(jié)構(gòu)子圖會因為多個子主題對應(yīng)多個信息形成多個相對緊密鏈接區(qū)域。而HITS算法屬于迭代算法,因此,緊密鏈接區(qū)域的頁面權(quán)值必然會增大,從而干擾檢索的精確度,使用戶獲得的結(jié)果發(fā)生漂移,這種現(xiàn)象叫做主題漂移。第五,在查詢主題時采用HITS算法時有一定的幾率出現(xiàn)主題泛化的現(xiàn)象,也就是說結(jié)果中出現(xiàn)了新的與查詢無關(guān)的主題。三、利用基本集縮減法優(yōu)化HITS算法在HITS算法的基本集中含有很多互相之間毫無關(guān)聯(lián)的網(wǎng)頁,因此,需要對基本集進行精簡??梢酝ㄟ^剔除與根集沒什么關(guān)系的網(wǎng)頁,從而有效抑制主題偏移問題,同時大大降低運算量。為了實現(xiàn)這個目的,可以對HITS算法進行優(yōu)
7、化,以優(yōu)化獲取基本集的方式,產(chǎn)生新的HITS算法改進方案基本集縮減法。所謂基本集縮減法,是指通過考慮指向或來自根集中網(wǎng)頁的鏈接數(shù)目縮減基本集,再從提取適當?shù)腤ebCommunities?;炯s減法向S中加入被S引用的網(wǎng)頁和引用S的網(wǎng)頁將S擴展成一個更大的集合T。HITS算法改進:首先加入所有的根集網(wǎng)頁指向的網(wǎng)頁以及最多d個指向根集R中網(wǎng)頁的Web網(wǎng)頁,將根集R的規(guī)模擴展至n,構(gòu)建基本集S,再篩選已建立的基本集S,只選擇指向至少k個根集網(wǎng)頁以及被至少k個根集網(wǎng)頁鏈向的網(wǎng)頁,從而實現(xiàn)基本集的縮減。由此,可以總結(jié)出采用基本集縮減算法提取authorities網(wǎng)頁的步驟。第一步,輸入特定的關(guān)鍵詞,檢
8、索到的r個等級的結(jié)果網(wǎng)頁構(gòu)成根集R。第二步,擴展根集R的規(guī)模至n,構(gòu)建基本集S,加入所有的根集網(wǎng)頁指向的網(wǎng)頁以及最多d個指向根集R中網(wǎng)頁的Web網(wǎng)頁,將根集R的規(guī)模擴展至n,構(gòu)建基本集S,再篩選已建立的基本集S,只選擇指向至少k個根集網(wǎng)頁以及被至少k個根集網(wǎng)頁鏈向的網(wǎng)頁,從而實現(xiàn)基本集的縮減。第三步,用G(S)表示根據(jù)基本集S中的網(wǎng)頁鏈接關(guān)系推導(dǎo)而來的結(jié)構(gòu)子圖,則G(S)中包含內(nèi)鏈、外鏈兩種鏈接。所謂外鏈是指域名不同的Web網(wǎng)頁之間的鏈接,內(nèi)鏈是指相同域名的網(wǎng)頁之間的鏈接,在實際情況下,只考慮了外鏈,而忽略基本集S中的所有內(nèi)鏈。第四步,結(jié)合基本集S構(gòu)造鄰接矩陣矩陣A和轉(zhuǎn)置矩陣AT,計算其每個特
9、征值及所對應(yīng)的特征向量。第五步,特征向量歸一化后會以authorities值返回具有較大絕對值的元素??s減基本集可以減少鄰接矩陣階數(shù),降低特征值的計算量。縮減基本集方法中的計算量的預(yù)估方法如下:從與基本集S對應(yīng)的一個n*n鄰接矩陣中選取出鏈接至根集R中元素的多個網(wǎng)頁,從鄰接矩陣中從第n-r行中選擇前r個元素之和2的行,可預(yù)估其計算量為r(nr)。與之類似,選取多個根集網(wǎng)頁鏈接的網(wǎng)頁所需計算量一樣。運用該方法可以將基本集縮減為原先的一半,考慮到計算與Web數(shù)據(jù)挖掘中HITS算法有關(guān)的特征向量的計算量為n3,計算是加上2r(nr)的額外計算量,運用基本集縮減法還可以有效減少計算量,同時基本集縮減法
10、能夠有效抑制主題偏移問題。四、結(jié)語綜上所述,HITS算法雖然存在一些問題,但是相對于其他Web結(jié)構(gòu)挖掘算法來說,優(yōu)勢非常明顯。HITS算法的基本思想以頁面之間的鏈接關(guān)系為基礎(chǔ)。從Web結(jié)構(gòu)挖掘的本質(zhì)入手,分析了HITS算法的基本思想,探討了HITS算法的基本原理。但是由于篇幅限制無法進一步深入研究其算法,通過分析HITS算法的缺陷,找到相應(yīng)的改進方案,進而提高HITS算法的使用效果,促進其在信息檢索領(lǐng)域的運用。在研究改進HITS算法的過程中,應(yīng)該先深入研究傳統(tǒng)的HITS算法中存在的不足,針對主題偏移現(xiàn)象和減少基本集鄰接矩陣特征值和特征向量的計算量,提出使用基本集縮減法對HITS算法進行改進,根據(jù)網(wǎng)頁與根集元素之間的鏈接數(shù)量進一步提取基本集,使基本集規(guī)模進一步縮減,從而使搜索結(jié)果更加集中于根集,有效降低計算開銷,從而有效提升HITS算法的計算效率和精確度。參考文獻:1劉軍.基于Web結(jié)構(gòu)挖掘的HI
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年全球技術(shù)服務(wù)合同范例
- 2025年航空、航天設(shè)備相關(guān)專用設(shè)備項目提案報告模式
- 2025年國際會議服務(wù)提供商合同標準
- 2025年度公司股權(quán)策劃內(nèi)部轉(zhuǎn)讓協(xié)議
- 2025年宅基地共建住宅合同樣本
- 2025年人保租賃合同格式
- 2025年不銹鋼管材訂購合同樣本
- 2025年個人購置家居設(shè)施合同范文
- 2025年化學品倉庫消防隔離帶鋪設(shè)工程承包協(xié)議
- 2025年圖書策劃保密合同
- 項目合作備忘錄范文
- 2024年事業(yè)單位租車服務(wù)滿意度調(diào)查及改進協(xié)議3篇
- 婦產(chǎn)科醫(yī)生個人年終述職報告課件
- 2025年全國低壓電工作業(yè)證理論考試題庫(含答案)
- 運用PDCA提高吞咽障礙患者護理措施落實率
- JGJ-T188-2009施工現(xiàn)場臨時建筑物技術(shù)規(guī)范
- 教師資格考試高級中學美術(shù)學科知識與教學能力試題與參考答案(2024年)
- 2025年人教版高考生物一輪復(fù)習:綜合PCR的基因工程問題
- 鋼筋焊接工藝性試驗方案
- 2024年福建省新高考生物試卷真題(含答案解析)
- 自然科學基金項目申報書(模板)
評論
0/150
提交評論