信息檢索系統(tǒng)的評(píng)價(jià)_第1頁
信息檢索系統(tǒng)的評(píng)價(jià)_第2頁
信息檢索系統(tǒng)的評(píng)價(jià)_第3頁
信息檢索系統(tǒng)的評(píng)價(jià)_第4頁
信息檢索系統(tǒng)的評(píng)價(jià)_第5頁
已閱讀5頁,還剩30頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

信息檢索系統(tǒng)的評(píng)價(jià)第一頁,共三十五頁,2022年,8月28日評(píng)價(jià)評(píng)價(jià)一般是指評(píng)估某個(gè)系統(tǒng)的性能、某種產(chǎn)品的質(zhì)量、某項(xiàng)技術(shù)的價(jià)值,或者是某項(xiàng)政策的效果等等;競(jìng)技體育:世界記錄vs.世界最好成績(jī)110米欄世界記錄:梅里特,美國(guó),12’’80男子馬拉松世界最好成績(jī):保羅·特爾加特,肯尼亞,2小時(shí)4分55秒第二頁,共三十五頁,2022年,8月28日為什么要對(duì)IR進(jìn)行評(píng)價(jià)?信息檢索評(píng)價(jià)則是指對(duì)信息檢索系統(tǒng)的性能(主要是其滿足用戶信息需求的能力)進(jìn)行評(píng)估的活動(dòng);從信息檢索系統(tǒng)誕生以來,對(duì)檢索系統(tǒng)的評(píng)價(jià)就一直是推動(dòng)其研究、開發(fā)與應(yīng)用的一種主要力量;第三頁,共三十五頁,2022年,8月28日IR的評(píng)價(jià)指標(biāo)針對(duì)一個(gè)檢索系統(tǒng),可以從功能和性能兩個(gè)方面對(duì)其進(jìn)行分析評(píng)價(jià)功能評(píng)價(jià)可通過測(cè)試系統(tǒng)來判定是否支持某項(xiàng)功能,因此相對(duì)來說較容易性能評(píng)價(jià)對(duì)于檢索系統(tǒng)的性能來說,除了系統(tǒng)的時(shí)間和空間因素之外,要求檢索結(jié)果能夠按照相關(guān)度進(jìn)行排序第四頁,共三十五頁,2022年,8月28日

性能評(píng)價(jià)指標(biāo)

在評(píng)價(jià)和比較檢索系統(tǒng)的檢索性能需要以下條件:一個(gè)文檔集合C;系統(tǒng)將從該集合中按照查詢要求檢出相關(guān)文檔。一組用戶查詢要求{q1,q2,…,qn};每個(gè)查詢要求qi描述了用戶的信息需求。對(duì)應(yīng)每個(gè)用戶查詢要求的標(biāo)準(zhǔn)相關(guān)文檔集{R1,R2,…,Rn};該集合可由人工方式構(gòu)造。一組評(píng)價(jià)指標(biāo);這些指標(biāo)反映系統(tǒng)的檢索性能。通過比較系統(tǒng)實(shí)際檢出的結(jié)果文檔集和標(biāo)準(zhǔn)的相關(guān)文檔集,對(duì)它們的相似性進(jìn)行量化,得到這些指標(biāo)值。第五頁,共三十五頁,2022年,8月28日評(píng)價(jià)任務(wù)示例系統(tǒng)&查詢1234…系統(tǒng)1,查詢1d3d6d8d10系統(tǒng)1,查詢2d1d4d7d11系統(tǒng)2,查詢1d6d7d3d9系統(tǒng)2,查詢2d1d2d4d13第六頁,共三十五頁,2022年,8月28日整個(gè)文檔集合的劃分Ra未檢索出的不相關(guān)文檔檢索出的不相關(guān)文檔檢索出的相關(guān)文檔未檢索出的相關(guān)文檔檢索出(Retrieved)未檢索出(NotRetrieved)不相關(guān)(NotRelevant)相關(guān)(Relevant)整個(gè)文檔集合C第七頁,共三十五頁,2022年,8月28日四種關(guān)系的表示檢出且相關(guān)未檢出且相關(guān)檢出且不相關(guān)未檢出且不相關(guān)檢出未檢出相關(guān)不相關(guān)相關(guān)文本檢出相關(guān)文檔相關(guān)文檔檢出文檔檢出不相關(guān)文檔未檢出相關(guān)文檔第八頁,共三十五頁,2022年,8月28日準(zhǔn)確率和召回率正確率(Precision):檢出的相關(guān)文檔數(shù)與檢出文檔數(shù)的比值,也稱為查準(zhǔn)率;召回率(Recall):系統(tǒng)檢出的相關(guān)文檔數(shù)與實(shí)際相關(guān)文檔數(shù)目的比值,也稱為查全率。第九頁,共三十五頁,2022年,8月28日示例假設(shè)用戶查詢q為一個(gè)給定的查詢式,而包含q的相關(guān)文檔集合Rq為下面的文檔集合:Rq={d2,d5,d9,d12,d23}而針對(duì)q的檢出相關(guān)文檔集合為:Aq={d3,d4,d5,d6,d8,d10,d12,d19,d20,d23}求檢索的準(zhǔn)確率和召回率。10第十頁,共三十五頁,2022年,8月28日準(zhǔn)確率和召回率的關(guān)系11101準(zhǔn)確率召回率返回最相關(guān)的文本但是漏掉了很多相關(guān)文本理想情況返回了大多數(shù)相關(guān)文檔但是包含很多垃圾第十一頁,共三十五頁,2022年,8月28日準(zhǔn)確率/召回率曲線假設(shè)用戶查詢q為一個(gè)給定的查詢式,而包含q的相關(guān)文檔集合Rq為下面的文檔集合:Rq={d2,d5,d9,d12,d23}檢索系統(tǒng)對(duì)查詢q返回的前10個(gè)文檔Aq的排序?yàn)椋?.d23

2.d33.d44.d55.d66.d87.d108.d129.d1910.d20第十二頁,共三十五頁,2022年,8月28日準(zhǔn)確率/召回率曲線準(zhǔn)確率00.80.81召回率第十三頁,共三十五頁,2022年,8月28日11點(diǎn)標(biāo)準(zhǔn)召回率計(jì)算召回率分別為0、10%、20%…,100%下的準(zhǔn)確率準(zhǔn)確率00.80.81召回率第十四頁,共三十五頁,2022年,8月28日平均準(zhǔn)確率上述準(zhǔn)確率召回率的值對(duì)應(yīng)一個(gè)查詢每個(gè)查詢對(duì)應(yīng)不同的準(zhǔn)確/召回率曲線為了評(píng)價(jià)某一算法對(duì)于所有測(cè)試查詢的檢索性能,對(duì)每個(gè)召回率水平下的準(zhǔn)確率進(jìn)行平均化處理,公式如下:Nq:是使用的查詢總數(shù)Pi(r):是召回率為r時(shí)的第i個(gè)查詢的準(zhǔn)確率第十五頁,共三十五頁,2022年,8月28日單值評(píng)價(jià)方法已檢出相關(guān)文檔的平均準(zhǔn)確率均值(MAP)逐個(gè)考察檢出新的相關(guān)文獻(xiàn),將準(zhǔn)確率平均r為相關(guān)文檔數(shù)。第i個(gè)相關(guān)文檔的位置第十六頁,共三十五頁,2022年,8月28日計(jì)算MAP舉例假設(shè)有兩個(gè)查詢,查詢1有4個(gè)相關(guān)文檔,查詢2有5個(gè)相關(guān)文檔。某系統(tǒng)對(duì)于查詢1檢索出4個(gè)相關(guān)文檔,其排序分別為1,2,4,7;對(duì)于查詢2檢索出3個(gè)相關(guān)文檔,其排序分別為1,3,5。計(jì)算MAP的值。第十七頁,共三十五頁,2022年,8月28日單值評(píng)價(jià)方法P@10P@10是系統(tǒng)對(duì)于查詢返回的前10個(gè)結(jié)果的準(zhǔn)確率。例:檢索系統(tǒng)對(duì)查詢q返回的前10個(gè)文檔Aq的排序?yàn)椋?.d23

2.d33.d44.d55.d66.d87.d108.d129.d1910.d20P@10=30%(共有10篇檢出文檔,其中3篇為相關(guān)文檔)第十八頁,共三十五頁,2022年,8月28日單值評(píng)價(jià)方法R準(zhǔn)確率(R-Precision)單個(gè)查詢的R準(zhǔn)確率是檢索出R篇相關(guān)文檔時(shí)的準(zhǔn)確率;查詢集合中所有查詢的R準(zhǔn)確率是每個(gè)查詢的R準(zhǔn)確率的平均值。R-Precision=前R篇文檔中相關(guān)文檔數(shù)R第十九頁,共三十五頁,2022年,8月28日計(jì)算R準(zhǔn)確率舉例假設(shè)有兩個(gè)查詢,第1個(gè)查詢有50個(gè)相關(guān)文檔,第2個(gè)查詢有10個(gè)相關(guān)文檔。某個(gè)系統(tǒng)對(duì)于第1個(gè)查詢返回的前50個(gè)結(jié)果中有17個(gè)是相關(guān)的,對(duì)于第2個(gè)查詢返回的前10個(gè)結(jié)果中有7個(gè)事相關(guān)的。分別計(jì)算查詢1、查詢2和查詢集合的R準(zhǔn)確率。第二十頁,共三十五頁,2022年,8月28日單值評(píng)價(jià)方法準(zhǔn)確率直方圖多個(gè)查詢的R-Precision測(cè)度用來比較兩個(gè)算法的檢索紀(jì)錄RPA-B=0:對(duì)于第i個(gè)查詢,兩個(gè)算法有相同的性能RPA-B>0:對(duì)于第i個(gè)查詢,算法A有較好的性能RPA-B<0:對(duì)于第i個(gè)查詢,算法B有較好的性能第二十一頁,共三十五頁,2022年,8月28日單值概括0.00.51.01.5-0.5-1.0-1.512345678910QueryNumber28第二十二頁,共三十五頁,2022年,8月28日作業(yè)假設(shè)查詢q為一個(gè)給定的用戶查詢,與q相關(guān)的文檔集合Rq={d3,d5,d9,d25,d39,d44,d56,d71,d89,d123}通過某一個(gè)檢索算法得到的排序結(jié)果:1.d123

6.d9

11.d38

2.d84 7.d511 12.d48

3.d56

8.d129 13.d250

4.d6 9.d187 14.d113

5.d8 10.d25

15.d3

要求1.分別計(jì)算檢索到相關(guān)文檔時(shí)的召回率和準(zhǔn)確率,并繪制準(zhǔn)確率/召回率曲線;

2.采用11點(diǎn)標(biāo)準(zhǔn)召回率方法計(jì)算召回率和準(zhǔn)確率,并繪制插補(bǔ)后的準(zhǔn)確率/召回率曲線;3.計(jì)算MAP值;4.分別計(jì)算檢索返回前10個(gè)結(jié)果和返回前15個(gè)結(jié)果時(shí)的R準(zhǔn)確率。第二十三頁,共三十五頁,2022年,8月28日測(cè)試集(TestCollections)組成要素文件集(DocumentSet;DocumentCollection)查詢問題(Query;Topic)相關(guān)判斷(RelevantJudgment)用途設(shè)計(jì)與發(fā)展:系統(tǒng)測(cè)試評(píng)估:系統(tǒng)效能(Effectiveness)之測(cè)量比較:不同系統(tǒng)與不同技術(shù)間之比較評(píng)比根據(jù)不同的目的而有不同的評(píng)比項(xiàng)目量化的測(cè)量準(zhǔn)則,如Precision與Recall第二十四頁,共三十五頁,2022年,8月28日國(guó)外的評(píng)測(cè)TREC評(píng)測(cè)文本檢索會(huì)議(TextRetrievalConference,TREC)是信息檢索(IR)界為進(jìn)行檢索系統(tǒng)和用戶評(píng)價(jià)而舉行的活動(dòng),它由美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)協(xié)會(huì)(NIST)和美國(guó)高級(jí)研究計(jì)劃局(DARPA)(美國(guó)國(guó)防部)共同資助,開始于1992年。

NTCIR評(píng)測(cè)NTCIR(NACSISTestCollectionforIRSystems)始于1998年,是由日本國(guó)立信息學(xué)研究所(NationalInstituteofInformatics,簡(jiǎn)稱NII)主辦的搜索引擎評(píng)價(jià)型國(guó)際會(huì)議CLEF評(píng)測(cè)CLEF于2000年開始籌辦,是歐洲各國(guó)共同合作進(jìn)行的一項(xiàng)長(zhǎng)期研究計(jì)劃,主要想通過評(píng)測(cè)信息科技技術(shù),促進(jìn)歐洲語言中的各種單一語言以及多語言信息技術(shù)的發(fā)展,CLEF的目標(biāo)只在于跨語言信息檢索以及多語言信息檢索方面第二十五頁,共三十五頁,2022年,8月28日TREC評(píng)測(cè)TREC:TextREtrievalConference(/)1992年開始,每年一次由美國(guó)國(guó)防部DefenseAdvancedResearchProjectsAgency(DARPA)和美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所NationalInstituteofStandardsandTechnology(NIST)聯(lián)合發(fā)起參加者免費(fèi)獲得標(biāo)準(zhǔn)訓(xùn)練和開發(fā)數(shù)據(jù)參加者在參加比賽時(shí)收到最新的測(cè)試數(shù)據(jù),并在限定時(shí)間內(nèi)作出答案,返給組織者組織者對(duì)各參賽者的結(jié)果進(jìn)行評(píng)價(jià)包括檢索、過濾、問答等多個(gè)主題第二十六頁,共三十五頁,2022年,8月28日TREC測(cè)試集文檔集合英語文檔集合非英語文檔集合文檔內(nèi)容:主要來自報(bào)紙、新聞及政府文檔文檔格式:采用SGML標(biāo)記語言進(jìn)行標(biāo)記主題對(duì)檢索系統(tǒng)用戶的信息需求進(jìn)行仿真,稱為主題相關(guān)性判斷第二十七頁,共三十五頁,2022年,8月28日文檔格式<DOC><DOCNO>WSJ880406-0090</DOCNO><HL>AT&TUnveilsServicestoUpgradePhoneNetworksUnderGlobalPlan</HL><AUTHOR>JanetGuyon(WSJstaff)</AUTHOR><TEXT>AmericanTelephone&TelegraphCroducedthefirstofanewgenerationofphoneserviceswithbroadimplicationsforcomputerandcommunications..</TEXT></DOC>第二十八頁,共三十五頁,2022年,8月28日TREC評(píng)測(cè)的評(píng)價(jià)方法概括表統(tǒng)計(jì)準(zhǔn)確率-召回率平均值文獻(xiàn)級(jí)別平均值平均準(zhǔn)確率第二十九頁,共三十五頁,2022年,8月28日TREC評(píng)測(cè)的任務(wù)(Tracks)2013TRECTracks(8個(gè))ContextualSuggestionTrackMicroblogTrackWebTrackTemporalSummarizationTrack……30第三十頁,共三十五頁,2022年,8月28日國(guó)內(nèi)863評(píng)測(cè)介紹全名:863計(jì)劃中文信息處理與智能人機(jī)接口技術(shù)評(píng)測(cè)組織者:國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)方式通過網(wǎng)絡(luò)進(jìn)行各單位在自己的環(huán)境中運(yùn)行參評(píng)系統(tǒng)2005年11月召開研討會(huì)2005年度評(píng)測(cè)內(nèi)容機(jī)器翻譯信息檢索語音識(shí)別第三十一頁,共三十五頁,2022年,8月28日863評(píng)測(cè)介紹—信息檢索評(píng)測(cè)項(xiàng)目:相關(guān)網(wǎng)頁檢索任務(wù)定義:給定主題,返回?cái)?shù)據(jù)中與該主題相關(guān)的網(wǎng)頁。數(shù)據(jù):CWT100g(中文Web測(cè)試集100g)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論