用戶興趣模型在垂直搜索引擎檢索模塊中的應(yīng)用_第1頁(yè)
用戶興趣模型在垂直搜索引擎檢索模塊中的應(yīng)用_第2頁(yè)
用戶興趣模型在垂直搜索引擎檢索模塊中的應(yīng)用_第3頁(yè)
用戶興趣模型在垂直搜索引擎檢索模塊中的應(yīng)用_第4頁(yè)
用戶興趣模型在垂直搜索引擎檢索模塊中的應(yīng)用_第5頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、用戶興趣模型在垂直搜索引擎檢索模塊中的應(yīng)用用戶興趣模型在垂直搜索引擎檢索模塊中的應(yīng)用0引言搜索引擎作為網(wǎng)絡(luò)信息查詢的主要工具已經(jīng)在人類生活中占據(jù)了主導(dǎo)地位,搜索引擎的搜索質(zhì)量直接影響到用戶體驗(yàn)。垂直搜索在專業(yè)性上略勝與傳統(tǒng)的搜索引擎。本文主要改良垂直搜索引擎的檢索模塊,在傳統(tǒng)的Luene檢索模塊中參加Pagerank得分,關(guān)鍵詞得分,并特別參加了用戶興趣得分,建立了一個(gè)個(gè)性化的垂直搜索檢索模塊模型,從而使垂直搜索在個(gè)性化上更貼近用戶的使用習(xí)慣和興趣。1用戶興趣模型的建立用戶興趣作為垂直搜索引擎當(dāng)中的一項(xiàng)個(gè)性化效勞,直接影響到了用戶使用該垂直搜索的體驗(yàn)1。用戶興趣模型的建立應(yīng)從兩個(gè)方面分析:一是

2、用戶興趣模型能否反映用戶的真實(shí)興趣愛好;二是針對(duì)用戶查詢興趣的多變性,該模型是否能滿足變化的用戶興趣。1.1常用的用戶建模技術(shù)現(xiàn)今的用戶建模技術(shù)分為三類:用戶手工定制建模、例如用戶建模和自動(dòng)用戶建模。用戶手工定制建模用戶自己動(dòng)手在網(wǎng)頁(yè)上選擇或者手動(dòng)輸入自己的興趣愛好。該方法實(shí)現(xiàn)簡(jiǎn)單,得到的用戶興趣結(jié)果可靠。但是存在缺乏:影響用戶體驗(yàn),一般用戶對(duì)頻繁的輸入和選擇缺乏興趣;更新用戶模型困難,一旦用戶的興趣發(fā)生轉(zhuǎn)移,而又讓用戶重新提交網(wǎng)頁(yè)文檔會(huì)給用戶造成負(fù)擔(dān);反映用戶興趣不全面,提供應(yīng)用戶的選擇項(xiàng)本身就帶有主觀性,另外用戶選擇時(shí)也存在不能準(zhǔn)確表達(dá)的情況,這些將直接導(dǎo)致搜集的用戶興趣不夠準(zhǔn)確2。例如用

3、戶建模例如用戶模型的建模是用戶自己提供相關(guān)的興趣愛好例如及其類別屬性。用戶在閱讀網(wǎng)頁(yè)時(shí)標(biāo)注對(duì)頁(yè)面的感興趣程度即可得到用戶建模的例如。自動(dòng)用戶建模通過留意用戶閱讀網(wǎng)頁(yè)的內(nèi)容和閱讀網(wǎng)頁(yè)時(shí)的行為自動(dòng)為用戶構(gòu)建一個(gè)用戶模型5,這種建模無(wú)需用戶主動(dòng)參與,通過用戶上網(wǎng)時(shí)的行為采用數(shù)據(jù)挖掘技術(shù)自動(dòng)獲取用戶的興趣愛好。雖然這種方法會(huì)帶來(lái)一定的噪聲,影響用戶閱讀時(shí)的速度,對(duì)建立高質(zhì)量的用戶模型也有一定的影響,但是該方法無(wú)需用戶主動(dòng)提供信息,不干擾用戶的其他操作,從用戶體驗(yàn)的角度來(lái)說(shuō)是比擬好的建模方法。因此,將來(lái)建模技術(shù)的開展方向都會(huì)采用自動(dòng)建模技術(shù)。1.2用戶興趣行為的量化表示通過對(duì)自動(dòng)用戶建模的相關(guān)研究發(fā)現(xiàn),

4、用戶的興趣與用戶的行為是嚴(yán)密相連的。用戶興趣可以通過用戶閱讀該頁(yè)面的時(shí)間和拖動(dòng)滾動(dòng)條的時(shí)間來(lái)有效地反映。而通過用戶閱讀頁(yè)面平均速度能幫助建模時(shí)確定用戶興趣的等級(jí)。另外用戶查詢、標(biāo)記書簽、閱讀頁(yè)面、點(diǎn)擊鼠標(biāo)、反應(yīng)信息、拖動(dòng)滾動(dòng)條、后退、前進(jìn)等這些行為都可以暗示用戶的愛好。用戶訪問頁(yè)面時(shí)的停留時(shí)間、訪問次數(shù)、保存、編輯、修改等動(dòng)作都可以提醒用戶興趣3。通過以上分析,將用戶行為用二維表格來(lái)記錄,稱用戶行為數(shù)據(jù)表3。數(shù)據(jù)表又分為兩種類型:基于關(guān)鍵詞的用戶行為數(shù)據(jù)表和基于文檔的用戶行為數(shù)據(jù)表。前者描繪用戶在關(guān)鍵詞上的行為,其構(gòu)造如表1所示;后者描繪用戶在一篇文檔上的行為,其構(gòu)造如表2所示。表1中的數(shù)據(jù)為

5、:用戶id號(hào)uid、關(guān)鍵詞k、所屬主題t、關(guān)鍵詞因被選中而高亮顯示的次數(shù)hlt、關(guān)鍵詞被用戶圈住的次數(shù)ir和在該關(guān)鍵詞下畫下劃線的次數(shù)udl。表2中的數(shù)據(jù)為:文檔iddid、文檔所屬主題t、關(guān)鍵詞的單擊次數(shù)lk、閱讀該文檔時(shí)間tie、在該文檔中添加書簽的數(shù)目bk、批注次數(shù)ant。由于閱讀時(shí)間受一些客觀因素的影響,因此以上時(shí)間是修正后的時(shí)間。1.3用戶興趣度的計(jì)算由于用戶在閱讀網(wǎng)頁(yè)的過程中有自己固定的愛好和使用方法,本文由論文聯(lián)盟.Ll.搜集整理,因此可以針對(duì)不同的用戶用不同的權(quán)重值來(lái)表示用戶的不同行為4?;陉P(guān)鍵詞的用戶興趣計(jì)算用戶行為權(quán)重,表示用戶對(duì)某主題下n個(gè)關(guān)鍵詞的行為。兩者的乘積定義為

6、:kt=bk*bkt=k1,k2,knT基于關(guān)鍵詞的用戶興趣度為:基于文本的用戶興趣度計(jì)算方法類同。2檢索模塊設(shè)計(jì)與應(yīng)用將用戶興趣應(yīng)用到檢索模塊以改善用戶體驗(yàn),同時(shí)考慮了其他一些相關(guān)因素。主題相關(guān)性。Luene排序算法:以關(guān)鍵詞在文檔中出現(xiàn)的次數(shù)排序。關(guān)鍵詞在文檔中的位置??梢酝ㄟ^關(guān)鍵詞在文檔中出現(xiàn)的位置和頻率得出網(wǎng)頁(yè)或文檔的權(quán)重值。用戶興趣。網(wǎng)頁(yè)的重要性。網(wǎng)頁(yè)重要性的分值可以通過PageRank算法得到4。將這四個(gè)因素綜合考慮,可設(shè)計(jì)網(wǎng)頁(yè)的排序算法如下:Sre_f=d1*lueneSre+d2*PagerankSre+d3*keySre+d4*yhxqSreSre_f:文檔f總得分;luen

7、eSre:主題相關(guān)度得分;PagerankSre:網(wǎng)頁(yè)重要性得分;keySre:關(guān)鍵詞位置權(quán)值得分;yhxqSre:用戶興趣計(jì)算得分;d1,d2,d3,d4表示權(quán)重系數(shù),d1+d2+d3+d4=1。3實(shí)驗(yàn)將改良的檢索算法與原Luene檢索算法比照查全率,查準(zhǔn)率和系統(tǒng)響應(yīng)時(shí)間。其中改良算法的權(quán)值設(shè)置為d1=0.35,d2=0.2,d3=0.13,d4=0.32。加大了用戶興趣的得分權(quán)值。我們測(cè)試的數(shù)據(jù)量為20萬(wàn)條,得到如下結(jié)果:查全率估值計(jì)算,改良算法得到的結(jié)果為n1;Luene算法得到的結(jié)果為n2。Reall=n1n2/n1+n2查準(zhǔn)率查準(zhǔn)率的計(jì)算為:p=k0/kk0:正確的數(shù)據(jù);k:全部相似

8、數(shù)據(jù)。系統(tǒng)響應(yīng)時(shí)間Luene根底排序算法平均響應(yīng)時(shí)間在35s左右,而改良的搜索平均響應(yīng)時(shí)間在46s左右。兩種檢索在三個(gè)方面得到的結(jié)果比照方表3所示。4完畢語(yǔ)本文主要改良了垂直搜索引擎的檢索模塊,在該模塊中綜合了主題相關(guān)度得分、網(wǎng)頁(yè)重要性得分、用戶興趣計(jì)算得分、關(guān)鍵詞位置權(quán)值得分四個(gè)方面來(lái)計(jì)算網(wǎng)頁(yè)文檔得分。特別將用戶興趣得分局部設(shè)置了較重的權(quán)重值,使得本文的垂直搜索更具有個(gè)性化。通過實(shí)驗(yàn)證明,該模型從用戶的角度進(jìn)步了搜索質(zhì)量,改善了用戶體驗(yàn)。該模型還存在一定的局限性,在權(quán)重值的分配上還需要大量的實(shí)驗(yàn)來(lái)驗(yàn)證更合理地分配方案,以到達(dá)更合理的搜索效果。參考文獻(xiàn):1黃國(guó)華.基于相對(duì)高度的曲線特征提取算法J.邵陽(yáng)學(xué)院學(xué)報(bào)自然科學(xué)版,2022.1:29-332楊永毅.基于Luene的二手汽車交易信息垂直搜索引擎的研究與實(shí)現(xiàn)D.重慶大學(xué),2022:21-243LEANDSKID.Athree-yearstudynthefreshnessfebsearhenginedatabasesJ.J.Inf

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論