基于人工標(biāo)注的個性化檢索系統(tǒng)評測的研究.doc_第1頁
基于人工標(biāo)注的個性化檢索系統(tǒng)評測的研究.doc_第2頁
基于人工標(biāo)注的個性化檢索系統(tǒng)評測的研究.doc_第3頁
基于人工標(biāo)注的個性化檢索系統(tǒng)評測的研究.doc_第4頁
基于人工標(biāo)注的個性化檢索系統(tǒng)評測的研究.doc_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于人工標(biāo)注的個性化檢索系統(tǒng)評測的研究摘 要:個性化信息檢索可以根據(jù)用戶的檢索興趣返回個性化的檢索結(jié)果。本文構(gòu)建了個性化檢索標(biāo)注系統(tǒng)和個性化檢索評測系統(tǒng),生成個性化檢索系統(tǒng)所需的語料集;并提出了以用戶為中心的基于人工標(biāo)注的個性化檢索評價方法。個性化檢索評測系統(tǒng)采用了NIST所建立的評價體系,根據(jù)用戶的標(biāo)注結(jié)果對個性化檢索系統(tǒng)的性能進行自動評價,并給出量化、直觀的性能指標(biāo)。關(guān)鍵詞:個性化信息檢索,以用戶為中心,評價方法Research on Evaluation of Personalized Information Retrieval Based on Hand MarkingAbstract: Personalized information retrieval can grasp the users retrieval intention and find personalized results. A marking system and an evaluation system for personalized IR are built to generate the corpus for evaluating personalized IR system. User-centered hand marking evaluation method is proposed in this paper. Evaluation system provided by NIST is adopted in the evaluation, automatic evaluation can be achieved according to the results marking by users. Quantify and intuitive results can also be given through this method.Keywords: Personalized Information Retrieval; User-centered; Evaluation Method.1 引言隨著網(wǎng)絡(luò)的發(fā)展,Internet上存在大量不同類型的信息資源,搜索引擎作為網(wǎng)絡(luò)信息檢索工具而被人們廣泛使用,但是隨著網(wǎng)絡(luò)信息量的增加,面對用戶個性化的信息需求,傳統(tǒng)搜索引擎日益顯現(xiàn)其不足,具體表現(xiàn)在以下幾個方面:(1)大部分搜索引擎是基于關(guān)鍵詞匹配的,這種匹配完全是一種機械式的匹配,它既不能區(qū)分關(guān)鍵詞的同形異義,也不能聯(lián)想到相關(guān)同義詞,更不可能考慮到關(guān)鍵詞所處的特殊語言環(huán)境。因此,它不能有效地理解人們的查詢請求。(2)用戶在選擇關(guān)鍵詞或構(gòu)造查詢表達式表達其信息需求時往往面臨一些困難,對于許多無關(guān)信息,往往需要用戶花大量時間瀏覽與選擇。(3)傳統(tǒng)搜索引擎基本上都是“一個搜索適用所有用戶”,對所有用戶其檢索結(jié)果都是一樣,不能根據(jù)不同的用戶給出相應(yīng)的建議,無法滿足用戶的個性化需求。由此可見,目前所廣泛采用的信息檢索技術(shù)無法滿足不同背景、不同目的和不同時期用戶的查詢請求。Ask Jeeves公司負責(zé)搜索和產(chǎn)品管理的副總裁拉哈爾-拉霍伊(Rahul Lahiri)稱,“我們未來的產(chǎn)品不是由我們感覺用戶需要什么而確定,而是由用戶需要什么信息而確定。用戶使用我們的產(chǎn)品是需要一種特定的答案,我們的重點也不再是增加諸如音頻或是視頻等新鮮的玩藝兒,而是要提供用戶真正需要的東西?!币虼?,如何提高搜索引擎檢索結(jié)果的精度并向用戶提供個性化服務(wù)已成為搜索引擎技術(shù)的一個新的發(fā)展方向和研究熱點。個性化信息檢索是以用戶為中心的信息檢索技術(shù),它獲取以多種形式表達的用戶需求(包括顯式的、隱式的以及相關(guān)用戶的需求),并綜合利用這些用戶信息,提高信息檢索系統(tǒng)的性能。首先,不同的用戶通過各種途徑訪問Web資源;其次,系統(tǒng)學(xué)習(xí)用戶的特性,創(chuàng)建用戶訪問模型;最后,系統(tǒng)根據(jù)得到的知識調(diào)整服務(wù)內(nèi)容,以適應(yīng)不同用戶的個性化需求1。個性化檢索為不同用戶提供不同的服務(wù),并滿足同一用戶的不同時期的需求。個性化服務(wù)通過收集和分析用戶信息來學(xué)習(xí)用戶的興趣和行為,從而實現(xiàn)主動推薦的目的。個性化服務(wù)技術(shù)能充分提高站點的服務(wù)質(zhì)量和訪問效率,從而吸引更多的訪問者。所以對個性化檢索系統(tǒng)的建模效果及系統(tǒng)的評測、度量也是一個非常重要的問題。目前對個性化系統(tǒng)服務(wù)質(zhì)量的評價,不同的系統(tǒng)采用不同的方式和測試數(shù)據(jù),還沒有一個通用的標(biāo)準(zhǔn)來客觀的評價多個不同個性化系統(tǒng)服務(wù)質(zhì)量的優(yōu)劣。需要研究一種通用的性能指標(biāo)并開發(fā)相應(yīng)的Benchmark來評價各種不同的個性化檢索技術(shù)。另外,目前的評價方法大多是基于人工評價的,缺乏自動評價的方法。所以,對個性化信息檢索系統(tǒng)如何進行自動評價,也是目前需要解決的問題。本課題的研究不僅僅對個性化檢索有著很重要的意義,而且對其他相關(guān)研究也有著較大的參考價值。本文按照如下方式組織:第二節(jié)介紹個性化信息檢索評測的相關(guān)研究;第三節(jié)介紹個性化檢索評測系統(tǒng)的構(gòu)建;第四節(jié)提出以用戶為中心的信息檢索評價方法;第五節(jié)給出了實驗結(jié)果及分析,最后第六節(jié)總結(jié)全文并展望未來工作。2 相關(guān)研究由于個性化信息檢索系統(tǒng)針對不同背景用戶的查詢會給出不同的檢索結(jié)果,對于不同用戶的檢索結(jié)果很難給出統(tǒng)一的正確答案進行評價。因此個性化檢索的評測一般都需要人工參與,通過用戶對各個查詢結(jié)果的正確性進行人工標(biāo)注,綜合用戶對結(jié)果的正確性標(biāo)注來評測個性化檢索系統(tǒng)的性能。(1)準(zhǔn)確率評價方法。比薩大學(xué)的Paolo Ferragina和伊利諾伊大學(xué)香檳分校的Xuehua Shen分別在論文2、3中提到了使用排序靠前的檢索結(jié)果的準(zhǔn)確率(precision at N document,簡稱為PN)作為系統(tǒng)性能評測度量的人工評測方法。該評測方法只利用用戶每次查詢結(jié)果中排序靠前的結(jié)果來對系統(tǒng)性能進行評價,因此參與評測的用戶只對自己每個查詢返回的前N個結(jié)果的正確性進行標(biāo)注。系統(tǒng)利用每個查詢前N個結(jié)果中標(biāo)注為正確的結(jié)果所占比例作為系統(tǒng)性能的評價指標(biāo),此值越高則說明系統(tǒng)性能越好。PN方法與信息檢索中普遍使用的準(zhǔn)確率方法類似,其優(yōu)點在于計算公式簡單,根據(jù)普通用戶使用檢索系統(tǒng)的習(xí)慣只利用前N個結(jié)果的準(zhǔn)確率可以突出重點而且減少了評測用戶的工作量,實現(xiàn)起來較簡單。此方法的缺點是用戶的相關(guān)性標(biāo)注缺乏指導(dǎo)、隨意性較大。(2)用戶打分評測機制。漢諾威大學(xué)的Paul Alexandru Chirita在論文4中使用的利用用戶對查詢結(jié)果的打分來評測系統(tǒng)的性能也是使用比較廣泛的方法,此方法仍然只對查詢返回的前N個結(jié)果進行標(biāo)注和評價。每個用戶利用檢索結(jié)果與自己所需信息的符合程度對前N個結(jié)果進行打分,最后利用所有用戶對檢索結(jié)果打分的平均值作為系統(tǒng)性能的評價。用戶給檢索結(jié)果打分的評測機制由于可以將用戶對結(jié)果的評價劃分成很多不同的等級,并對每個等級事先給定將查詢結(jié)果標(biāo)注為此等級的詳細依據(jù),對用戶的評價行為做出一定的指導(dǎo),使用戶的標(biāo)注行為更加規(guī)范化。(3)DCG評測算法。麻省理工大學(xué)的Jaime Teevan在論文5中提出了利用人工對查詢結(jié)果打分的方式結(jié)合DCG(Discounted Cumulative Gain)公式來評測個性化檢索系統(tǒng)的方法。此方法依據(jù)不同網(wǎng)頁在檢索結(jié)果中排序的不同給其賦予不同的重要度,排序越高的檢索結(jié)果重要度越大,用戶對其的打分對系統(tǒng)性能的影響也越大,因此利用DCG公式將用戶對檢索結(jié)果的打分與結(jié)果的排序位置結(jié)合,計算出的值作為系統(tǒng)性能的評測指標(biāo)。實際使用中,用戶更加傾向于查看檢索結(jié)果中排序靠前的網(wǎng)頁,因此對于用戶來說檢索結(jié)果排序越靠前的網(wǎng)頁對于系統(tǒng)性能的影響也越大,DCG評測算法將用戶對查詢結(jié)果的打分與結(jié)果在系統(tǒng)檢索中的排序結(jié)合的做法更加符合用戶使用的習(xí)慣,對系統(tǒng)整體的評價更加符合實際情況。3 個性化信息檢索評測系統(tǒng)的建立為了實現(xiàn)個性化檢索系統(tǒng)的評價,首先需要讓評測用戶采用特定的標(biāo)注方式對結(jié)果進行標(biāo)注,然后設(shè)計出合適的方法通過用戶的標(biāo)注計算出針對每個用戶的系統(tǒng)性能指標(biāo),最后綜合所有用戶的指標(biāo)來給出系統(tǒng)整體性能。因此,需要解決以下問題:(1)用戶的標(biāo)注方式。個性化檢索系統(tǒng)的特點使得它很難使用傳統(tǒng)檢索系統(tǒng)的測試集進行系統(tǒng)性能評測,因此需要采用用戶參與的方式進行評測。評測的用戶可以采用構(gòu)建個性化測試集的方式進行人工參與。構(gòu)建個性化評測集的方法是讓每個用戶根據(jù)自己的興趣對固定的查詢給出與此相關(guān)的文檔集,這樣每個查詢就形成了針對不同用戶的相關(guān)文檔集。(2)綜合不同用戶標(biāo)注結(jié)果評價系統(tǒng)。由于人工標(biāo)注產(chǎn)生了針對不同用戶的相關(guān)標(biāo)注集合,因此怎樣利用這些不同的相關(guān)標(biāo)注集合來對系統(tǒng)進行評測是需要研究的一個問題。雖然個性化檢索系統(tǒng)與傳統(tǒng)檢索系統(tǒng)評測方法不同,但是固定的一個用戶給出了他的標(biāo)注集合,針對一個用戶對系統(tǒng)的評測方法和傳統(tǒng)評測方法可以相同。因此我們可以首先針對每個用戶和他給出的標(biāo)注采用傳統(tǒng)評測方法對系統(tǒng)進行評測,然后將針對不同用戶對系統(tǒng)的評測指標(biāo)綜合起來作為系統(tǒng)的總體評價指標(biāo)。根據(jù)上述研究內(nèi)容,需要構(gòu)建兩個子系統(tǒng),如圖1所示:個性化檢索標(biāo)注系統(tǒng)和個性化檢索評測系統(tǒng)。其中個性化檢索標(biāo)注系統(tǒng)需要用戶參與,系統(tǒng)會記錄用戶的檢索行為和標(biāo)注結(jié)果生成個性化檢索系統(tǒng)所需的語料集;個性化檢索評測系統(tǒng)會根據(jù)用戶的標(biāo)注結(jié)果對個性化檢索系統(tǒng)的性能進行評價。圖1 個性化檢索評測框圖Fig.1 The system architecture of Personalized IR本文對用戶信息的收集分為兩個方面,顯式信息的采集和隱式信息的采集,如圖2所示.(1)顯式信息的收集,指由用戶提供給系統(tǒng)來明確表達其興趣、偏好、檢索意圖以及對檢索結(jié)果做出的評價和反饋的信息。顯式信息是由用戶主觀能動提供給系統(tǒng)的信息,這些信息可能包括:用戶背景信息主要包括用戶提供的性別、年齡、學(xué)歷、職業(yè)、收入等。這些信息有利于了解用戶的興趣背景,并針對某些特定的領(lǐng)域,使用統(tǒng)計信息對用戶進行聚類或分類,來挖掘用戶潛在的檢索偏好和意圖。用戶興趣偏好在特定的興趣分類的體系框架下,由用戶選定的自己感興趣的信息類別。這種方法能夠快速的收集用戶的興趣信息,比較準(zhǔn)確地反映用戶的需要和興趣。圖2 個性化標(biāo)注系統(tǒng)的用戶信息采集Fig.2 Mining of users information in personalized marking system用戶檢索意圖用戶的檢索意圖不再僅僅局限在一個關(guān)鍵字或幾個關(guān)鍵字的邏輯組合,還可以引入更符合用戶習(xí)慣的自然語言查詢,增加用戶表述其檢索意圖的途徑,讓用戶提供盡可能多的語言信息。評價與反饋基于相關(guān)反饋的技術(shù),通過用戶對返回的部分結(jié)果進行標(biāo)定來確定用戶的興趣,從而對搜索結(jié)果重新整理和排序。(2)隱式信息的收集,指通過對用戶的瀏覽行為進行跟蹤而得到的隱含信息。隱式信息的收集需要監(jiān)視用戶在Web 頁面的行為,如采集用戶點擊了哪些網(wǎng)頁,在點擊頁面停留的時間、文檔的長度、用戶訪問的URL 地址、用戶的翻頁行為等數(shù)據(jù),通過分析該日志文件總結(jié)出用戶的特征數(shù)據(jù),研究表明一定時間段的Web訪問日志中蘊含了用戶的穩(wěn)定興趣。這種方法對用戶透明,但用戶數(shù)據(jù)的收集往往需要一段較長的時間。4 以用戶為中心的個性化信息檢索評價方法針對個性化信息檢索的特點,可以利用用戶人工標(biāo)注建立針對單個用戶的標(biāo)準(zhǔn)評測集,利用用戶標(biāo)準(zhǔn)評測集計算針對單個用戶的系統(tǒng)性能指標(biāo),最后綜合所有用戶的系統(tǒng)指標(biāo)計算出系統(tǒng)的總體性能評價指標(biāo)。為了有效的評價檢索系統(tǒng),需要構(gòu)造具有代表性的查詢集。重點研究從大規(guī)模用戶日志數(shù)據(jù)中進行有效采樣,以描述盡可能全面和主流的用戶查詢需求。在此基礎(chǔ)上,形成用戶主題(Topic),在主題中至少要包含用戶查詢及用戶查詢意圖的詳細描述。未來將根據(jù)用戶查詢意圖進行相關(guān)性判斷。傳統(tǒng)信息檢索系統(tǒng)的評測需要利用經(jīng)過人工標(biāo)注的測試集作為評判標(biāo)準(zhǔn),個性化檢索系統(tǒng)的評測也可以利用人工標(biāo)注的測試集來對系統(tǒng)的性能進行評測。但是由于傳統(tǒng)的信息檢索系統(tǒng)對不同用戶的相同query檢索結(jié)果固定不變,因此評測集的標(biāo)注是依據(jù)同一標(biāo)準(zhǔn)綜合不同標(biāo)注者的標(biāo)注結(jié)果對每個query給出固定的標(biāo)準(zhǔn)相關(guān)集。而個性化檢索系統(tǒng)對于相同query返回給不同用戶的結(jié)果是不同的,因此對測試集的標(biāo)注和傳統(tǒng)的標(biāo)注方法有所不同,對于同一query需要每個標(biāo)注者給出自己的標(biāo)準(zhǔn)相關(guān)集,之后分別利用每個標(biāo)注者的相關(guān)文檔集進行系統(tǒng)性能評測。系統(tǒng)首先需要獲取這些標(biāo)注者的背景信息,包括顯式和隱式獲取兩種方法。顯式獲取要求用戶直接提交自己的興趣愛好和背景信息,隱式獲取要求用戶事先使用系統(tǒng)一段時間使得系統(tǒng)可以通過用戶的查詢歷史、瀏覽記錄等獲取用戶的背景信息。用戶的標(biāo)注過程中如果直接讓用戶對測試集中的所有網(wǎng)頁進行相關(guān)性標(biāo)注會導(dǎo)致用戶工作量太大。我們可以事先利用傳統(tǒng)的檢索系統(tǒng)在測試集中利用query進行檢索,由于每個用戶認為相關(guān)的網(wǎng)頁必定是傳統(tǒng)檢索系統(tǒng)可以檢索到的,每個用戶的相關(guān)文檔集必定包含在傳統(tǒng)檢索系統(tǒng)的檢索結(jié)果中,因此可以直接讓用戶從傳統(tǒng)檢索系統(tǒng)檢索出的結(jié)果中標(biāo)注出自己的相關(guān)文檔集。通過上述方法構(gòu)建了針對每個用戶的相關(guān)文檔集合后,依據(jù)每個標(biāo)注者給出的標(biāo)準(zhǔn)相關(guān)文檔集,利用評測公式對結(jié)果計算出針對每個用戶的系統(tǒng)性能指標(biāo)。個性化信息檢索中對于單個用戶的系統(tǒng)評測與傳統(tǒng)信息檢索的評測方法完全相同,可以采用傳統(tǒng)信息檢索的各項評價指標(biāo),如:錯檢率、漏檢率、CDet值等計算出針對單個用戶的系統(tǒng)性能指標(biāo)。最后利用針對每個用戶的系統(tǒng)性能指標(biāo)的平均值作為整個系統(tǒng)的性能評價指標(biāo)。圖3給出了利用評測集對個性化信息檢索系統(tǒng)評測的方法。圖3 個性化信息檢索評測框架Fig.3 Evaluation of personalized IR5 實驗及結(jié)果分析5.1 實驗語料針對個性化信息檢索,我們建立了標(biāo)準(zhǔn)評測集,開發(fā)了基于天網(wǎng)100G語料的個性化評測語料標(biāo)注輔助系統(tǒng)6,標(biāo)注者利用此系統(tǒng)模擬正常的檢索行為,系統(tǒng)記錄下用戶在檢索過程中的各種隱式信息,包括query內(nèi)容,檢索結(jié)果,用戶查看的結(jié)果網(wǎng)頁,查看時間和翻頁信息等。針對用戶在每一個檢索對象中進行的查詢,按照檢索對象的不同將query劃分為不同段落,作為用戶新興趣發(fā)現(xiàn)任務(wù)的標(biāo)準(zhǔn)答案。同時,系統(tǒng)還將每個query返回的前二十個網(wǎng)頁,以及標(biāo)注者在查詢過程中點擊過的網(wǎng)頁提交給標(biāo)注者,由標(biāo)注者判斷這些網(wǎng)頁是否是檢索目標(biāo)的正確結(jié)果,標(biāo)注后的結(jié)果作為個性化檢索評價系統(tǒng)的標(biāo)準(zhǔn)答案。利用個性化檢索標(biāo)注輔助系統(tǒng),我們收集了9名標(biāo)注者的標(biāo)注結(jié)果。其中每個人對100個檢索問題進行檢索和標(biāo)注,平均每個人進行了230次檢索。用戶興趣發(fā)現(xiàn)任務(wù)的標(biāo)準(zhǔn)答案中,一個檢索問題對應(yīng)一個query段落,共100個query段落,每個query段落中query的平均個數(shù)為4.5個。本文將其中前50個query段落作為訓(xùn)練集,后50個query段落作為測試集。5.2 評測方法用戶新興趣發(fā)現(xiàn)任務(wù)的評價指標(biāo)借鑒話題跟蹤與檢測(Topic Detection and Tracking, 簡稱TDT)中的評價指標(biāo)。因為在TDT評測中,Ptarget描述了正確答案在語料總數(shù)中的比例,可以更好的反映不同語料上的實驗效果,而且DET曲線和(CDet)Norm值能夠更準(zhǔn)確地描述取不同相似度閾值時,系統(tǒng)性能的好壞?;赥DT2003的評測方法6,通過誤檢率和漏檢率對系統(tǒng)性能進行評測。其計算公式如下: (公式1)其中A、B、C、D如表1所示,A為系統(tǒng)判定是用戶新興趣的query且在標(biāo)準(zhǔn)答案也是新興趣query的個數(shù),B、C、D同理。PFA、PMiss是系統(tǒng)誤檢率和漏檢率,值越小則系統(tǒng)性能越好。表1 評測的參數(shù)Tab. 1 Parameters of evaluation系統(tǒng)判定相關(guān)系統(tǒng)判定不相關(guān)答案相關(guān)AB答案不相關(guān)CD之后,通過誤檢率和漏檢率計算總的評價指標(biāo)(CDet)Norm,公式如下: (公式2)其中,CMiss是系統(tǒng)進行一次漏檢的代價、CFA是系統(tǒng)進行一次誤檢的代價,由于實際中,錯誤的段落劃分和漏掉正確段落劃分對個性化檢索任務(wù)的影響基本等價,因此將CMiss和CFA都設(shè)為1;Ptarget是每個query為用戶新興趣的概率,Pnon-targe是非新興趣的概率,針對語料中的正確答案,將Ptarget和Pnon-target分別設(shè)為0.435與0.565。(CDet)Norm是系統(tǒng)性能損耗代價,此值越小則系統(tǒng)性能越好。為了使系統(tǒng)性能得到更直觀的體現(xiàn),本文引入TDT的中的決策錯誤權(quán)衡曲線(Decision Error Tradeoff curve,簡稱DET曲線)評測系統(tǒng)性能。橫坐標(biāo)是誤檢率,縱坐標(biāo)是漏檢率,曲線越靠近圖的左下角則性能越好,在圖中還標(biāo)出了最小性能損耗代價,此值越小則系統(tǒng)綜合性能越好。個性化檢索任務(wù)的評測采用相同的方法。5.3 實驗設(shè)計 個性化信息檢索是以用戶為中心的信息檢索技術(shù),它利用以多種形式表達的用戶需求(隱式和顯式信息),個性化檢索系統(tǒng)共分成:用戶新興趣發(fā)現(xiàn)、用戶興趣跟蹤、相似用戶群建立、個性化檢索4個部分,每個部分既有相對獨立的功能和輸入輸出,每一部分又是后一部分的輸入,緊密聯(lián)系成一個完整的系統(tǒng),給出針對用戶的個性化信息。 為了準(zhǔn)確、詳細的評價系統(tǒng)的性能,個性化檢索評測系統(tǒng)也將會分成4個部分,分別針對個性化檢索系統(tǒng)的4個部分進行評測,給出每個部分的獨立性能評價。5.3.1 用戶新興趣發(fā)現(xiàn)評測模塊 用戶新興趣發(fā)現(xiàn)模塊的主要功能:對query進行分析,發(fā)現(xiàn)用戶新的檢索需求,將檢索對象相同的query劃分為同一段落。例如用戶依次輸入query:數(shù)碼相機、佳能相機、佳能A720、西藏旅游、進藏鐵路,根據(jù)用戶的檢索需求,可以將數(shù)碼相機、佳能相機、佳能A720劃分成一個段落,將西藏旅游、進藏鐵路劃分成一個段落,所以數(shù)碼相機、西藏旅游就分別是用戶兩個新興趣的開始,如圖4所示:佳能相機數(shù)碼相機佳能A720西藏旅游進藏鐵路圖4 新興趣發(fā)現(xiàn)query劃分圖Fig. 4 Query division of new interest 用戶新興趣發(fā)現(xiàn)模塊的輸出(評測模塊的輸入)為:用戶輸入的query中所有相鄰兩個query的相似度。如圖5所示,第一行為用戶使用的query流,query之間用#號隔開,第二行依次為相鄰兩個query之間的相似度。例,鍛煉肌肉方法、啞鈴鍛煉方法兩個query的相似度為0.334714。圖5 新興趣發(fā)現(xiàn)輸出數(shù)據(jù)圖Fig. 5 Output data of new interest discovery5.3.2 用戶興趣跟蹤評測模塊用戶興趣跟蹤模塊的主要功能:找到與當(dāng)前query段落檢索對象領(lǐng)域相同的其它段落。本模塊為用戶新興趣發(fā)現(xiàn)模塊的下一步工作,此時query流已經(jīng)被劃分成不同的段落,如圖6中有3個query段落,系統(tǒng)會計算其中任兩個段落之間的相似度,可知段落3和段落1有相同的檢索需求,則段落1的歷史信息能夠幫助系統(tǒng)返回給用戶更加合適的結(jié)果,同樣能夠為同一用戶不同領(lǐng)域內(nèi)的興趣分別建模、同一領(lǐng)域中相似用戶群的建立提供幫助。 數(shù)碼相機湖人隊球衣運動服飾Nike球衣佳能相機圖6 用戶興趣跟蹤段落圖Fig. 6 Paragraph of users interest tracking 用戶興趣跟蹤模塊的輸出(評測模塊的輸入)為:當(dāng)前用戶任兩個query段落之間的相似度。如圖7所示,第一行顯示該用戶的query段落數(shù)為4,接下來6行中任兩個query段落用&隔開,如段落4.1.1和段落4.3.1的相似度為0.0878025。圖7 用戶興趣跟蹤輸出數(shù)據(jù)圖Fig. 7 Output data of users interest tracking 評測模塊的算法描述:(1) 讀入用戶所有的結(jié)果值作為閾值集合。(2) 針對當(dāng)前閾值,大于等于閾值的query段落對判斷為相關(guān),對比正確答案,計算出該用戶的錯檢率和漏檢率。(3) 針對當(dāng)前閾值,計算出所有用戶錯檢率和漏檢率的平均值。(4) 依次遞增閾值,直至計算出在所有閾值時的用戶的平均漏檢率和錯檢率。 針對每一個閾值,系統(tǒng)都會得出相應(yīng)的一對錯檢率(PFA)、漏檢率(PMiss),這時以錯檢率為橫坐標(biāo)、以漏檢率為縱坐標(biāo),在圖中畫出所有閾值的點并連線,就得出了該模塊的二維DET性能曲線。圖8為用戶新興趣發(fā)現(xiàn)的評價性能曲線,用叉標(biāo)記的點為系統(tǒng)的最佳性能。圖8用戶興趣跟蹤DET曲線Fig. 8 the DET curve of users interest tracking5.3.3 相似用戶群建立評測模塊 相似用戶群模塊的主要功能:在同一類別的檢索對象下,找到與當(dāng)前用戶興趣相同的用戶,當(dāng)此用戶查詢的此query塊再次出現(xiàn)時,則可以針對此query塊的用戶群中其他用戶的對應(yīng)query塊的隱式反饋信息用到此用戶的當(dāng)前query中。如圖9所示,在旅游這一話題中,用戶1和用戶2具有相同的信息需求,則用戶2的信息可以作為隱式反饋來輔助用戶1的信息檢索。 用戶1:北京電影院西藏旅游布達拉宮用戶2:GB2312布達拉宮西藏自助游進藏飛機圖9 相似用戶群query段落圖Fig. 9 paragraph of the users group 相似用戶群的輸出(評測模塊的輸入)為:在同一類別的檢索對象下,任意兩個用戶之間的相似度。如圖10所示,第一行為所有用戶名,用戶之間以空格隔開,余下的數(shù)據(jù)構(gòu)成一個方陣,方陣的行數(shù)和列數(shù)依次對應(yīng)不同用戶,每一列數(shù)據(jù)表示其他用戶和該用戶的相似度。例zw和hy的相似度為0.0895702。圖10相似用戶群輸出數(shù)據(jù)圖Fig. 10 Output data of users group 評測模塊的算法描述:(1) 讀入用戶所有的結(jié)果值作為閾值集合。(2) 針對當(dāng)前閾值,大于等于閾值的用戶對判斷為相關(guān),對比正確答案,計算出該類別的錯檢率和漏檢率。(3) 針對當(dāng)前閾值,計算出所有類別的錯檢率和漏檢率的平均值。(4) 依次遞增閾值,直至計算出在所有閾值時的類別的平均漏檢率和錯檢率。 圖11相似用戶群DET曲線Fig. 11 the DET curve of users group針對每一個閾值,系統(tǒng)都會得出相應(yīng)的一對錯檢率(PFA)、漏檢率(PMiss),這時以錯檢率為橫坐標(biāo)、以漏檢率為縱坐標(biāo),在圖中畫出所有閾值的點并連線,就得出了該模塊的二維DET性能曲線。圖11為用戶新興趣發(fā)現(xiàn)的評價性能曲線,用叉標(biāo)記的點為系統(tǒng)的最佳性能。5.3.4 個性化檢索評測模塊 評測模塊的算法描述:(1) 讀入用戶所有的結(jié)果值作為閾值集合。(2) 針對當(dāng)前閾值,大于等于閾值的網(wǎng)頁判斷為相關(guān),對比正確答案,計算出該query的錯檢率和漏檢率。(3) 再對query平均來計算每個object的錯檢率和漏檢率。(4) 再對object平均計算每個用戶的錯檢率和漏檢率。(5) 最后對用戶平均計算系統(tǒng)的錯檢率和漏檢率。圖12為個性化檢索的評價性能曲線,用叉標(biāo)記的點為系統(tǒng)的最佳性能。圖12個性化檢索DET曲線Fig. 12 the DET curve of Personalized IR6 結(jié)論與未來工作本文中,構(gòu)建了個性化檢索標(biāo)注系統(tǒng)和個性化檢索評測系統(tǒng)。其中個性化檢索標(biāo)注系統(tǒng)需要用戶參與,根據(jù)系統(tǒng)給出的檢索需求檢索出答案,在檢索過程中系統(tǒng)會自動記錄用戶的隱式信息和標(biāo)注結(jié)果,生成個性化檢索系統(tǒng)所需的語料集;個性化檢索評測系統(tǒng)會根據(jù)用戶的標(biāo)注結(jié)果對個性化檢索系統(tǒng)的性能進行自動評價。相比現(xiàn)有的個性化檢索評價方法,本文中所采用的評價方法,對顯示信息和隱式信息的獲取更加全面、準(zhǔn)確;使用了NIST建立的自動化評測方法,該評測標(biāo)準(zhǔn)是建立在檢驗系統(tǒng)漏檢

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論