第三章信息檢索系統(tǒng)評價(jià)_第1頁
第三章信息檢索系統(tǒng)評價(jià)_第2頁
第三章信息檢索系統(tǒng)評價(jià)_第3頁
第三章信息檢索系統(tǒng)評價(jià)_第4頁
第三章信息檢索系統(tǒng)評價(jià)_第5頁
已閱讀5頁,還剩30頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索第三章第三章 信息檢索系統(tǒng)的評價(jià)信息檢索系統(tǒng)的評價(jià)信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索評價(jià)評價(jià)n評價(jià)一般是指評估某個(gè)系統(tǒng)的性能、某種產(chǎn)品的質(zhì)量、某項(xiàng)技術(shù)的價(jià)值,或者是某項(xiàng)政策的效果等等;n競技體育:世界記錄 vs. 世界最好成績n110米欄世界記錄:梅里特,美國,1280n男子馬拉松世界最好成績:保羅 特爾加特,肯尼亞,2小時(shí)4分55秒信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索為什么要對為什么要對IR進(jìn)行評價(jià)?進(jìn)行評價(jià)?n信息檢索評價(jià)則是指對信息檢索系統(tǒng)的性能(主要是其滿足用戶信息需求的能力)進(jìn)行評估的活動(dòng);n從信息檢索系統(tǒng)誕生以來,對檢索系統(tǒng)的評價(jià)就

2、一直是推動(dòng)其研究、開發(fā)與應(yīng)用的一種主要力量;信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索IR的評價(jià)指標(biāo)的評價(jià)指標(biāo)n針對一個(gè)檢索系統(tǒng),可以從功能和性能兩個(gè)方面對其進(jìn)行分析評價(jià)n功能評價(jià)n可通過測試系統(tǒng)來判定是否支持某項(xiàng)功能,因此相對來說較容易n性能評價(jià)n對于檢索系統(tǒng)的性能來說,除了系統(tǒng)的時(shí)間和空間因素之外,要求檢索結(jié)果能夠按照相關(guān)度進(jìn)行排序信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索性能評價(jià)指標(biāo)性能評價(jià)指標(biāo)n 在評價(jià)和比較檢索系統(tǒng)的檢索性能需要以下條件:n 一個(gè)文檔集合C;n 系統(tǒng)將從該集合中按照查詢要求檢出相關(guān)文檔。n 一組用戶查詢要求q1, q2, , qn;n 每個(gè)查詢要求qi描述了用戶的信息需求

3、。n 對應(yīng)每個(gè)用戶查詢要求的標(biāo)準(zhǔn)相關(guān)文檔集R1, R2, Rn;n 該集合可由人工方式構(gòu)造。n 一組評價(jià)指標(biāo);n 這些指標(biāo)反映系統(tǒng)的檢索性能。通過比較系統(tǒng)實(shí)際檢出的結(jié)果文檔集和標(biāo)準(zhǔn)的相關(guān)文檔集,對它們的相似性進(jìn)行量化,得到這些指標(biāo)值。信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索評價(jià)任務(wù)示例評價(jià)任務(wù)示例系統(tǒng)&查詢1234系統(tǒng)1,查詢1d3d6d8d10系統(tǒng)1,查詢2d1d4d7d11系統(tǒng)2,查詢1d6d7d3d9系統(tǒng)2,查詢2d1d2d4d13信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索整個(gè)文檔集合的劃分整個(gè)文檔集合的劃分Ra未檢索出的不相關(guān)文檔檢索出的不相關(guān)文檔檢索出的相關(guān)文檔未檢索出的相關(guān)文

4、檔檢索出(Retrieved)未檢索出(Not Retrieved)不相關(guān)(Not Relevant)相關(guān)(Relevant)整個(gè)文檔集合C信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索四種關(guān)系的表示四種關(guān)系的表示檢出且相關(guān)未檢出且相關(guān)檢出且不相關(guān)未檢出且不相關(guān)檢出未檢出相關(guān)不相關(guān)相關(guān)文本相關(guān)文本檢出相關(guān)文檔相關(guān)文檔檢出文檔檢出不相關(guān)文檔未檢出相關(guān)文檔信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索準(zhǔn)確率和召回率準(zhǔn)確率和召回率n正確率正確率(Precision): 檢出的檢出的相關(guān)文檔數(shù)相關(guān)文檔數(shù)與與檢出檢出文檔數(shù)文檔數(shù)的比值,也稱為的比值,也稱為查準(zhǔn)率查準(zhǔn)率;n召回率召回率(Recall): 系統(tǒng)檢出的相

5、關(guān)文檔數(shù)相關(guān)文檔數(shù)與實(shí)實(shí)際相關(guān)文檔數(shù)目際相關(guān)文檔數(shù)目的比值,也稱為查全率查全率。ARaPRRaR信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索示例示例n假設(shè)用戶查詢q為一個(gè)給定的查詢式,而包含q的相關(guān)文檔集合Rq為下面的文檔集合: Rq=d2,d5,d9,d12,d23 而針對q的檢出相關(guān)文檔集合為: Aq=d3,d4,d5,d6,d8,d10,d12,d19,d20,d23求檢索的準(zhǔn)確率和召回率。10信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索準(zhǔn)確率和召回率的關(guān)系準(zhǔn)確率和召回率的關(guān)系11101準(zhǔn)確率召回率返回最相關(guān)的文本返回最相關(guān)的文本但是漏掉了很多但是漏掉了很多相關(guān)文本相關(guān)文本理想情況理想情況返回了

6、大多數(shù)相關(guān)文檔返回了大多數(shù)相關(guān)文檔但是包含很多垃圾但是包含很多垃圾信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索準(zhǔn)確率準(zhǔn)確率/召回率曲線召回率曲線n假設(shè)用戶查詢q為一個(gè)給定的查詢式,而包含q的相關(guān)文檔集合Rq為下面的文檔集合: Rq=d2,d5,d9,d12,d23 檢索系統(tǒng)對查詢q返回的前10個(gè)文檔Aq的排序?yàn)椋?. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d10 8.d12 9.d19 10.d20信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索準(zhǔn)確率準(zhǔn)確率/召回率曲線召回率曲線準(zhǔn)確率00.80.81召回率信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與

7、檢索11點(diǎn)標(biāo)準(zhǔn)召回率點(diǎn)標(biāo)準(zhǔn)召回率n計(jì)算召回率分別為0、10%、20%, 100%下的準(zhǔn)確率準(zhǔn)確率00.80.81召回率信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索平均準(zhǔn)確率平均準(zhǔn)確率n 上述準(zhǔn)確率召回率的值對應(yīng)一個(gè)查詢n 每個(gè)查詢對應(yīng)不同的準(zhǔn)確/召回率曲線n 為了評價(jià)某一算法對于所有測試查詢的檢索性能,對每個(gè)召回率水平下的準(zhǔn)確率進(jìn)行平均化處理,公式如下:1( )( )qNiiqP rP rNNq: 是使用的查詢總數(shù)Pi(r):是召回率為r時(shí)的第i個(gè)查詢的準(zhǔn)確率信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索單值評價(jià)方法單值評價(jià)方法n已檢出相關(guān)文檔的已檢出相關(guān)文檔的平均

8、準(zhǔn)確率均值(平均準(zhǔn)確率均值(MAP)n逐個(gè)考察檢出新的相關(guān)文獻(xiàn),將準(zhǔn)確率平均逐個(gè)考察檢出新的相關(guān)文獻(xiàn),將準(zhǔn)確率平均r為相關(guān)文檔數(shù)。riirMAP11?第i個(gè)相關(guān)文檔的位置信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索計(jì)算計(jì)算MAP舉例舉例n假設(shè)有兩個(gè)查詢,查詢假設(shè)有兩個(gè)查詢,查詢1有有4個(gè)相關(guān)文檔,查個(gè)相關(guān)文檔,查詢詢2有有5個(gè)相關(guān)文檔。某系統(tǒng)對于查詢個(gè)相關(guān)文檔。某系統(tǒng)對于查詢1檢索檢索出出4個(gè)相關(guān)文檔,其排序分別為個(gè)相關(guān)文檔,其排序分別為1,2,4,7;對;對于查詢于查詢2檢索出檢索出3個(gè)相關(guān)文檔,其排序分別為個(gè)相關(guān)文檔,其排序分別為1,3,5。計(jì)算的值。計(jì)算的值。信息組織、存儲(chǔ)與檢索信息組織、存

9、儲(chǔ)與檢索單值評價(jià)方法單值評價(jià)方法nP10nP10是是系統(tǒng)對于查詢返回的前系統(tǒng)對于查詢返回的前10個(gè)結(jié)果的個(gè)結(jié)果的準(zhǔn)確率。準(zhǔn)確率。n例:檢索系統(tǒng)對查詢q返回的前10個(gè)文檔Aq的排序?yàn)椋?. d23 2. d3 3.d4 4.d5 5.d6 6.d8 7.d10 8.d12 9.d19 10.d20nP10=30%(共有10篇檢出文檔,其中3篇為相關(guān)文檔)信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索單值評價(jià)方法單值評價(jià)方法nR準(zhǔn)確率(準(zhǔn)確率(R-Precision)n單個(gè)查詢的單個(gè)查詢的R準(zhǔn)確率是檢索出篇相關(guān)文檔時(shí)準(zhǔn)確率是檢索出篇相關(guān)文檔時(shí)的準(zhǔn)確率;的準(zhǔn)確率;n查詢集合中所有查詢的準(zhǔn)確率是每個(gè)查詢的查

10、詢集合中所有查詢的準(zhǔn)確率是每個(gè)查詢的準(zhǔn)確率的平均值。準(zhǔn)確率的平均值。nR-Precision前前R篇文檔中相關(guān)文檔數(shù)篇文檔中相關(guān)文檔數(shù)R信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索計(jì)算計(jì)算R準(zhǔn)確率舉例準(zhǔn)確率舉例n假設(shè)有兩個(gè)查詢,第1個(gè)查詢有50個(gè)相關(guān)文檔,第2個(gè)查詢有10個(gè)相關(guān)文檔。某個(gè)系統(tǒng)對于第1個(gè)查詢返回的前50個(gè)結(jié)果中有17個(gè)是相關(guān)的,對于第2個(gè)查詢返回的前10個(gè)結(jié)果中有7個(gè)事相關(guān)的。分別計(jì)算查詢1、查詢2和查詢集合的R準(zhǔn)確率。信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索單值評價(jià)方法單值評價(jià)方法n 準(zhǔn)確率直方圖n多個(gè)查詢的R-Precision測度n用來比較兩個(gè)算法的檢索紀(jì)錄nRPA-B=0:對

11、于第i個(gè)查詢,兩個(gè)算法有相同的性能nRPA-B0:對于第i個(gè)查詢,算法A有較好的性能nRPA-B0:對于第i個(gè)查詢,算法B有較好的性能)()()(iRPiRPiRPBABA信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索單值概括單值概括0.00.51.01.5-0.5-1.0-1.512345678910Query Number28信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索作業(yè)作業(yè)n 假設(shè)查詢q為一個(gè)給定的用戶查詢,與q相關(guān)的文檔集合Rq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n 通過某一個(gè)檢索算法得到的排序結(jié)果: 1. d123 6. d9 11. d382. d8

12、47. d511 12. d483. d56 8. d129 13. d2504. d69. d187 14. d1135. d8 10. d25 15. d3 要求1.分別計(jì)算檢索到相關(guān)文檔時(shí)的召回率和準(zhǔn)確率,并繪制準(zhǔn)確率/召回率曲線; 2.采用11點(diǎn)標(biāo)準(zhǔn)召回率方法計(jì)算召回率和準(zhǔn)確率,并繪制插補(bǔ)后的準(zhǔn)確率/召回率曲線; 3.計(jì)算MAP值; 4.分別計(jì)算檢索返回前10個(gè)結(jié)果和返回前15個(gè)結(jié)果時(shí)的R準(zhǔn)確率。信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索測試集測試集 (Test Collections)n 組成要素n文件集 (Document Set; Document Collection)n查詢問題

13、 (Query; Topic)n相關(guān)判斷 (Relevant Judgment)n 用途n設(shè)計(jì)與發(fā)展: 系統(tǒng)測試n評估: 系統(tǒng)效能(Effectiveness)之測量n比較: 不同系統(tǒng)與不同技術(shù)間之比較n 評比n根據(jù)不同的目的而有不同的評比項(xiàng)目n量化的測量準(zhǔn)則,如Precision與Recall信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索國外的評測國外的評測n TREC評測評測 n 文本檢索會(huì)議(文本檢索會(huì)議(Text Retrieval Conference,TREC)是信息檢索)是信息檢索( IR) 界為進(jìn)行檢索系統(tǒng)和用戶評價(jià)而舉行的活動(dòng)界為進(jìn)行檢索系統(tǒng)和用戶評價(jià)而舉行的活動(dòng), 它由美國國家標(biāo)

14、準(zhǔn)技它由美國國家標(biāo)準(zhǔn)技術(shù)協(xié)會(huì)術(shù)協(xié)會(huì)(NIST) 和美國高級研究計(jì)劃局和美國高級研究計(jì)劃局(DARPA)(美國國防部)(美國國防部) 共同共同資助,開始于資助,開始于1992年。年。 n NTCIR評測n NTCIR(NACSIS Test Collection for IR Systems)始于1998年,是由日本國立信息學(xué)研究所(National Institute of Informatics,簡稱NII)主辦的搜索引擎評價(jià)型國際會(huì)議 n CLEF評測n CLEF于2000年開始籌辦,是歐洲各國共同合作進(jìn)行的一項(xiàng)長期研究計(jì)劃,主要想通過評測信息科技技術(shù),促進(jìn)歐洲語言中的各種單一語言以及多語

15、言信息技術(shù)的發(fā)展, n CLEF的目標(biāo)只在于跨語言信息檢索以及多語言信息檢索方面 信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索TREC評測評測n TREC: Text REtrieval Conference (/)n1992年開始,每年一次n由美國國防部Defense Advanced Research Projects Agency (DARPA)和美國國家標(biāo)準(zhǔn)技術(shù)研究所National Institute of Standards and Technology (NIST)聯(lián)合發(fā)起n參加者免費(fèi)獲得標(biāo)準(zhǔn)訓(xùn)練和開發(fā)數(shù)據(jù)n參加者在參加比賽時(shí)收到最新的測試數(shù)據(jù),

16、并在限定時(shí)間內(nèi)作出答案,返給組織者n組織者對各參賽者的結(jié)果進(jìn)行評價(jià)n包括檢索、過濾、問答等多個(gè)主題信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索TREC測試集測試集n文檔集合n英語文檔集合n非英語文檔集合n文檔內(nèi)容:主要來自報(bào)紙、新聞及政府文檔n文檔格式:采用SGML標(biāo)記語言進(jìn)行標(biāo)記n主題n對檢索系統(tǒng)用戶的信息需求進(jìn)行仿真,稱為主題對檢索系統(tǒng)用戶的信息需求進(jìn)行仿真,稱為主題n相關(guān)性判斷信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索文檔格式文檔格式WSJ880406-0090AT&T Unveils Services to Upgrade Phone Networks Under Global Pl

17、an Janet Guyon (WSJ staff) American Telephone & Telegraph Co. introduced the first of a new generation of phone services with broad implications for computer and communications . .信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索TREC評測的評價(jià)方法評測的評價(jià)方法n概括表統(tǒng)計(jì)n準(zhǔn)確率-召回率平均值n文獻(xiàn)級別平均值n平均準(zhǔn)確率信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索TREC評測的任務(wù)(評測的任務(wù)(Tracks)n201

18、3 TREC Tracks(8個(gè))nContextual Suggestion TracknMicroblog TracknWeb TracknTemporal Summarization Trackn30信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索國內(nèi)國內(nèi)863評測介紹評測介紹n 全名:n863計(jì)劃中文信息處理與智能人機(jī)接口技術(shù)評測n 組織者:國家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)n 方式n通過網(wǎng)絡(luò)進(jìn)行n各單位在自己的環(huán)境中運(yùn)行參評系統(tǒng)n2005年11月召開研討會(huì)n 2005年度評測內(nèi)容n機(jī)器翻譯n信息檢索n語音識別信息組織、存儲(chǔ)與檢索信息組織、存儲(chǔ)與檢索863評測介紹評測介紹信息檢索評測信息檢索評測n項(xiàng)目:相關(guān)網(wǎng)頁

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論