【畢業(yè)學(xué)位論文】（Word原稿）一種構(gòu)建信息檢索系統(tǒng)評測集的方法-計(jì)算機(jī)科學(xué)與技術(shù)

上傳人：O*** IP屬地：四川上傳時(shí)間：2016-07-10 格式：DOC 頁數(shù)：37 大?。?.86MB 積分：20 舉報(bào) 版權(quán)申訴

【畢業(yè)學(xué)位論文】（Word原稿）一種構(gòu)建信息檢索系統(tǒng)評測集的方法-計(jì)算機(jī)科學(xué)與技術(shù)_第2頁

【畢業(yè)學(xué)位論文】（Word原稿）一種構(gòu)建信息檢索系統(tǒng)評測集的方法-計(jì)算機(jī)科學(xué)與技術(shù)_第3頁

【畢業(yè)學(xué)位論文】（Word原稿）一種構(gòu)建信息檢索系統(tǒng)評測集的方法-計(jì)算機(jī)科學(xué)與技術(shù)_第4頁

【畢業(yè)學(xué)位論文】（Word原稿）一種構(gòu)建信息檢索系統(tǒng)評測集的方法-計(jì)算機(jī)科學(xué)與技術(shù)_第5頁

已閱讀5頁，還剩32頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本科生學(xué)位論文題目：一種構(gòu)建信息檢索系統(tǒng)評測集的方法姓名：戴夢學(xué) 號： 00548145 院系：信息科學(xué)技術(shù)學(xué)院專業(yè)：計(jì)算機(jī)科學(xué) 導(dǎo) 師：閆宏飛教授二零零九年五月摘要隨著互聯(lián)網(wǎng)的飛速發(fā)展，信息檢索技術(shù)在實(shí)際生活中的作用越來越重要，在學(xué)術(shù)界也引起了研究學(xué)者的重視。參考國外測試集的構(gòu)建經(jīng)驗(yàn)，天網(wǎng)實(shí)驗(yàn)室構(gòu)建了大規(guī)模中文網(wǎng)頁信息檢索測試集組織了文網(wǎng)頁檢索評測，希望在國內(nèi)外各個(gè)研究小組的共同參與下建立并完善起推動(dòng)中文網(wǎng)頁信息檢索技術(shù)的發(fā)展。測試集是信息檢索評測的一項(xiàng)決定性因素之一。測試集包括查詢主題集、文檔集和相關(guān)文檔集。查詢主題集可以從網(wǎng)絡(luò)日志中獲取抑或由人工設(shè)定；文檔集是信息檢索系統(tǒng)返回的檢索結(jié)果的集合；而相關(guān)文檔集是對應(yīng)相應(yīng)的查詢主題相關(guān)的文檔的集合，一般相關(guān)文檔需要人工進(jìn)行判斷，由于文檔集的規(guī)模都不小，而相關(guān)文檔集是文檔集的子集，建造其工作量巨大，甚至有可能難以實(shí)施。所以我們想嘗試得出判斷兩個(gè)信息檢索系統(tǒng)孰優(yōu)孰劣最小的工作量，及所需的最小查詢主題集和相關(guān)文檔集。本論文通過變形式的表達(dá)方式，研究其與相關(guān)文檔集的關(guān)系，說明了在給定查詢主題的情況下，如何找到最小的相關(guān)文檔集，并作實(shí)驗(yàn)加以證明。結(jié)合查詢主題和相關(guān)文檔集合，利用得兩個(gè)集合共同最小化。關(guān)鍵詞：信息檢索，評測，測試集，文檔集，查詢主題，相關(guān)判斷，最小相關(guān)文檔集，算法 A is a in s it a by a is eb on a is of in it of of to be or by in of of of of is at at In we to up an in an as as We a of on of a of is on be as P ( we to a is at R in a of an 錄摘要 . 2 目錄 . 5 表目錄 . 6 圖目錄 . 7 第一章引言 . 8 究背景 . 8 文主要貢獻(xiàn) . 9 文組織 . 10 第二章相關(guān)研究 . 11 試集 . 11 期測試集 . 13 試集 . 14 他測試集 . 16 測標(biāo)準(zhǔn) . 16 全率（ . 16 準(zhǔn)率（ . 17 1 值 . 17 d) . 17 P (. 17 . 18 . 18 . 18 . 18 第三章評測集的構(gòu)建 . 19 步篩選過程 . 24 義有區(qū)分性的檢索詞 . 27 小評測集 . 28 第四章評測集的分析 . 31 驗(yàn)過程以及數(shù)據(jù) . 31 果分析 . 31 較 . 33 致謝 . 35 參考文獻(xiàn) . 36 表目錄表格 1 檢索詞頻率的重新分類 . 22 表格 2 用戶日志格式 . 24 表格 3 式變型舉例 . 28 表格 4 以往測代價(jià) . 31 表格 5 2000 個(gè)查詢主題 . 錯(cuò)誤 !未定義書簽。表格 6 500 個(gè)查詢主題 . 32 圖目錄圖 1 信息檢索評測示意圖 . 12 圖 2 程圖 . 13 圖 3 詢主題實(shí)例 . 15 圖 4 搜狗分類目錄 . 19 圖 5 搜索引擎用戶行為流程 . 20 圖 6 搜狗日志點(diǎn)擊分布 . 21 圖 7 實(shí)驗(yàn)數(shù)據(jù)的點(diǎn)擊分布 . 21 圖 8 搜狗日志檢索詞長度分布 . 21 圖 9 實(shí)驗(yàn)數(shù)據(jù)檢索詞長度分布 . 22 圖 10 搜狗日志檢索詞頻率分布 . 23 圖 11 實(shí)驗(yàn)數(shù)據(jù)檢索詞頻率分布 . 23 圖 12 查詢集初選流程圖 . 24 圖 13 頻率分布統(tǒng)計(jì)代碼 . 25 圖 14 采樣代碼 . 26 圖 15 篩選主要代碼 . 27 圖 16 信任程度隨判定文檔數(shù)而增加 . 33 第一章引言究背景長久以來，人們對信息的需求從未間斷過，自從 20 世紀(jì) 40 到 50 年代，人們開始了對信息進(jìn)行檢索的活動(dòng)。 1945 年出利用信息技術(shù)來解決“使大量信息更容易獲取的難題”； 1951 年次提出了“信息檢索（的概念息檢索是信息的潛在用戶將信息需求轉(zhuǎn)換為一張文獻(xiàn) 來源信息列表的過程或方法，而這些文獻(xiàn)包含有對其有用的信息” 1。隨后，信息檢索技術(shù) 蓬勃迅速地發(fā)展起來，其研究領(lǐng)域也從最初的科學(xué)技術(shù)領(lǐng)域擴(kuò)展到人類活動(dòng)的各個(gè)方面，并成為本世紀(jì)人類社會(huì)的一項(xiàng)重要技術(shù) 。 20 世紀(jì) 90 年代，萬維網(wǎng)得到了較快的發(fā)展，信息的獲取手段逐漸由媒體轉(zhuǎn)向網(wǎng)絡(luò)，社會(huì)信息量由于網(wǎng)絡(luò)的壯大而變得空前的豐富。以搜索引擎為代表的信息檢索技術(shù)已經(jīng)取得了巨大的成功，像百度等搜索引擎已經(jīng)深入到人們?nèi)粘W(xué)習(xí)和工作中，成為獲取信息不可或缺的工具。而息檢索技術(shù) 也成為研究者廣泛關(guān) 注的議題，如何評測這些檢索系統(tǒng)的性能，從而有的放矢地提高檢索系統(tǒng)的性能，受到了越來越多的關(guān)注。信息檢索系統(tǒng)誕生以來，信息檢索評測對系統(tǒng)的研究、設(shè)計(jì)與發(fā)展一直有著顯著的影響力。通過評測，研究者能夠驗(yàn)證系統(tǒng)的效益、比較各種檢索技術(shù)的優(yōu)劣，不斷改進(jìn)檢索系統(tǒng)，使系統(tǒng)的性能更加完善，能正確引導(dǎo)研究發(fā)展方向?；谟脩糁饔^使用感受的評測方法不客觀、不可靠，所以評測體系必須客觀公正，不受人主觀感覺的影響，并且評測結(jié)果通常都成立。一般的，這種評測體系具有以下特點(diǎn)：明確的形式化研究任務(wù)、公開的訓(xùn)練與測試數(shù)據(jù)、公開的評測比較。早期檢索系統(tǒng)評測最著名的研究是 1950 年代末期開始進(jìn)行的驗(yàn) 2。它開創(chuàng)了以測試集（合評測指標(biāo) 來評測系統(tǒng)的模式。所謂測試集，是一種在規(guī)范化環(huán)境中測試系統(tǒng)性能的機(jī)制，包括查詢問題（文檔集（及相關(guān)判斷（個(gè)部分。評測指標(biāo)則一般采用查準(zhǔn)率和查全率。驗(yàn)首開規(guī)范化評測之先河，它的評測模式為后續(xù)的評測研究奠定了基礎(chǔ)，至今仍占有舉足輕重的地位。為了促進(jìn)信息檢索技術(shù)的發(fā)展，美國國防部高級研究項(xiàng)目計(jì)劃局（稱美國國家標(biāo)準(zhǔn)與技術(shù)局（稱 1992 年共同舉辦了文本檢索會(huì)議（稱 3。過構(gòu)建大型的測試集，提出不同的評測項(xiàng)目和評測指標(biāo)等，提供不同檢索技術(shù)與檢索系統(tǒng)之間的標(biāo)準(zhǔn)評測環(huán)境。參加評測單位除了要提交系統(tǒng)的運(yùn)行結(jié)果之外，還可以參加研討會(huì)，與會(huì)者可以分享結(jié)果。得了國際性的威望，在信息檢索評測領(lǐng)域起到了很好的示范作用。除了有針對不同語言設(shè)計(jì)的類似機(jī)制開始運(yùn)作，如歐洲各國聯(lián)合舉辦的跨語言評測論壇 4、法國信息技術(shù)局構(gòu)建了法文的 5、日本國立情報(bào)學(xué)研究所（稱辦的測會(huì)議 6等等。反觀國內(nèi)，中文信息處理技術(shù)在最近幾十年取得了長足發(fā)展，但專門針對中文的評測項(xiàng)目的缺乏使中文信息處理技術(shù)不能得到有效檢驗(yàn)。缺乏大規(guī)模的中文測試集是制約中文網(wǎng)頁信息檢索技術(shù)前進(jìn)的障礙，因此，我們希望在國內(nèi)外各個(gè)研究小組的共同參與下建立并完善以中文為主的網(wǎng)頁信息檢索測試集一起推動(dòng)中文網(wǎng)頁信息檢索技術(shù)的發(fā)展 7。文主要貢獻(xiàn) 缺乏大規(guī)模的中文網(wǎng)頁測試集制約了中文檢索技術(shù)的發(fā)展，為了改變這種局面，參考年的成功經(jīng)驗(yàn)，我們構(gòu)建了大規(guī)模中文網(wǎng)頁信息檢索測試集 2004 年開始，在全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會(huì) (稱議上開始舉辦中文網(wǎng)頁檢索評測項(xiàng)目，即文網(wǎng)頁檢索評測。網(wǎng)頁檢索評測主要目的是通過網(wǎng)頁測試集研究各種檢索技術(shù)的優(yōu)劣，以改進(jìn)檢索系統(tǒng)在真實(shí)網(wǎng)頁環(huán)境下的性能。 2009 年的評測任務(wù)有一，海量查詢?nèi)蝿?wù) 。該任務(wù)是模仿 2007和 2008 年的給予檢索系統(tǒng)大規(guī)模的查詢集進(jìn)行測試。因?yàn)槲覀儼l(fā)現(xiàn)，很多研究機(jī)構(gòu)都做了類似測檢索系統(tǒng)的實(shí)驗(yàn)，構(gòu)建了一些測試集，但這些早期的測試集規(guī)模通常較小，與真實(shí)的檢索環(huán)境之間存在著較大差異?；谶@樣的測試集所開發(fā)的檢索系統(tǒng)，在實(shí)際應(yīng)用中往往受到極大的限制。這些測試集存在兩個(gè)根本缺陷：一是缺少在相同的測試數(shù)據(jù)上使用相同評測方法的跨系統(tǒng)公開評測；二是缺少真實(shí)的大規(guī)模測試集。本文在信息檢索評測領(lǐng)域主要有如下貢獻(xiàn)： 1. 構(gòu)建并實(shí)施了海量中文網(wǎng)頁信息檢索測試集 2. 探索能夠評測檢索信息性能的最小查詢主題和相關(guān)文檔集合的方法文組織本文第一章介紹了本文的研究背景及本文主要貢獻(xiàn) ；第二章是相關(guān)研究，介紹了信息檢索評測中的測試集及常用的評測指標(biāo)等；第三章介紹了中文網(wǎng)頁信息檢索海量查詢?nèi)蝿?wù)測試集的構(gòu)建方法，詳細(xì)介紹了文檔集、查詢集和相關(guān)文檔集的構(gòu)建過程及構(gòu)建結(jié)果，同時(shí)還有通過檢索結(jié)果來尋找最小查詢集和相關(guān)文檔集的方法；第四章對評測集以及實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了分析；最后一章是本文的總結(jié)和工作展望。第二章相關(guān)研究自計(jì)算機(jī)信息檢索問世以來，信息檢索評測就被賦予了一種具有同樣重要性的角色。在長期的實(shí)踐中，研究人員已經(jīng)總結(jié)出一些比較合理的評測方法和評測指標(biāo)，使得檢索評測研究的可行性明顯增強(qiáng)。系統(tǒng)評測有不同的評測研究類型，例如側(cè)重系統(tǒng)軟件功能的功能測試；側(cè)重系統(tǒng)的時(shí)間與空間復(fù)雜度的系統(tǒng)性能評測等。信息檢索任務(wù)的特點(diǎn)是，用戶輸入的查詢請求常常是模糊的，多義的。檢索結(jié)果往往不是確切的答案，需要檢索系統(tǒng)自行對其進(jìn)行解釋，并對檢索結(jié)果按照它們與查詢請求的相關(guān)度進(jìn)行排序。信息檢索系統(tǒng)需要對檢索結(jié)果的準(zhǔn)確度進(jìn)行評測，這種類型的評測叫做檢索性能評測（在各種類型的評測研究中，檢索性能評測是其中的研究重點(diǎn)和核心。檢索性能評測分為實(shí)驗(yàn)室評測和真實(shí)環(huán)境的評測，雖然基于真實(shí)環(huán)境的評測是一種趨勢，但由于實(shí)驗(yàn)室在封閉環(huán)境下測試的可重復(fù)性和可擴(kuò)展性，實(shí)驗(yàn)室評測仍然占主導(dǎo)地位。實(shí)驗(yàn)室評測通?；跍y試集和一定的評測指標(biāo)來完成。本章第一節(jié)介紹測試集的概念及幾個(gè)重要的測試集，包括早期測試集的代表 I、其它幾個(gè)規(guī)模較小的測試集及近年來規(guī)模較大且有影響力的測試集；第二節(jié)介紹常見的評測項(xiàng)目；第三節(jié)介紹常用的評測指標(biāo)。試集研究者為了評測系統(tǒng)性能，通常會(huì)進(jìn)行一系列的實(shí)驗(yàn)來驗(yàn)證，而實(shí)驗(yàn)所需的測試數(shù)據(jù) ，則依據(jù)各自的目的而獨(dú)立構(gòu)建。為了使系統(tǒng)能夠在統(tǒng)一的測試集上進(jìn)行驗(yàn)證，出現(xiàn)了很多公開的測試集，如 I、 10， 11， 12， 13測試集。他們的存在提高了評測的公平性，但由于早期的測試集規(guī)模較小，且同質(zhì)性高，在實(shí)際運(yùn)用中存在著較大的限制。 1992 年開始構(gòu)建大規(guī)模的測試集 3，在信息檢索評測領(lǐng)域起到了很好的示范作用。除了，已有針對不同語言設(shè)計(jì)的類似機(jī)制開始運(yùn)作，如歐洲各國聯(lián)合舉辦的語言評測論壇 4，法國信息技術(shù)局則構(gòu)建了法文的，日本國立情報(bào)學(xué)研究所（稱辦了測會(huì)議 6等，中國則于 2004 年構(gòu)建中文網(wǎng)頁信息檢索測試集。查詢主題集文檔集相關(guān) 文檔集信息檢索系統(tǒng)測試集檢索結(jié) 果P o o l i n gP o o 判斷評分程序圖 1 信息檢索評測示意圖信息檢索系統(tǒng) 測試集包括查詢集，文檔集和相關(guān)文檔三個(gè)部分。文檔集是一組文檔的集合，它是檢索系統(tǒng)評測的數(shù)據(jù)基礎(chǔ)；查詢主題集代表了用戶的信息需求，這些主題依據(jù)評測項(xiàng)目的需要，可以是一個(gè)或一組關(guān)鍵詞，也可以是一段描述。一般地，對相關(guān)判斷有如下假設(shè)：對于任何查詢主題，它們的相關(guān)判斷是獨(dú)立的、客觀的，并且不隨著時(shí)間和空間的變化而改變；相關(guān)文檔集是對應(yīng)主題集中主題所給出的一組標(biāo)準(zhǔn)答案的集合，需要評測人員人工相關(guān)判斷來構(gòu)建。整個(gè)信息檢索評測中的各個(gè) 角色關(guān)系可以從圖 1 中看出來。參與評測的檢索系統(tǒng)必須在統(tǒng)一的測試集上運(yùn)作，依據(jù)所指定的查詢主題，以文檔集作為檢索的對象，并將測試集提供的相關(guān)判斷結(jié)果視為標(biāo)準(zhǔn)答案，采用合適的評測指標(biāo)進(jìn)行檢索系統(tǒng)性能的評比。相關(guān)判斷在測試集構(gòu)建過程中是一件相當(dāng)困難的工作，需要花費(fèi)巨大的人力物力。早期測試集中的文件數(shù)量較小，因此評測人員可以對文檔集中的文件逐篇進(jìn)行判斷。但是隨著測試集規(guī)模的增大，如果針對每個(gè)主題都將文檔集中的每個(gè)文檔逐一與其進(jìn)行相關(guān)判斷，需要花費(fèi)的工作是相當(dāng)巨大的，因此 “ 法隨之而誕生 8. 法的假設(shè)是： 1）大多數(shù)與查詢主題相關(guān)的文檔會(huì)被聚集在 2）不在的文檔可以視為不相關(guān)文檔 . 詞r u nr u nr u 結(jié) 果取前 k 個(gè)得到結(jié) 果取前 k 個(gè)得到結(jié) 果取前 k 個(gè)形成 P o o 2 程圖術(shù)的具體實(shí)施過程為：針對每個(gè)查詢主題，在參與評測的檢索系統(tǒng)均能提供相關(guān)排序的情況下，抽取出各個(gè)檢索結(jié)果的前 k 個(gè)文檔，將這些結(jié)果合并形成一個(gè)集合，去除集合中的重復(fù)文件后，得到相關(guān)文檔候選集（再由相關(guān)判斷人員進(jìn)行人工判斷，最終得到相關(guān)文檔集。對每個(gè)查詢主題都需要構(gòu)建一個(gè) 的文檔按照文檔編號排序。法利用不同的檢索技術(shù)與系統(tǒng)，縮小了相關(guān)判斷的范圍，可以大大減少相關(guān)判斷人員的工作量。期測試集試集是早期比較具有代表性的測試集，他的實(shí)驗(yàn)標(biāo)志著檢索系統(tǒng)評測與測試集的標(biāo)準(zhǔn)模式的形成。驗(yàn)分為前后兩期，由別在 1957 年及 1966 年完成。 I 測試集 2包括文檔集、查詢問題和相關(guān)判斷三個(gè)部分。I 實(shí)驗(yàn)搜集了 1,400 篇有關(guān)太空動(dòng)力學(xué)的文章，并請每位作者根據(jù)這些文章與當(dāng)時(shí)研究的主題來提出問題，經(jīng)過篩選后產(chǎn)生了 200 多個(gè)查詢問題。 I 測試集中相關(guān)判斷的構(gòu)建有如下四個(gè)步驟：首先請查詢問題的構(gòu)建者對文章后所附引用及參考文獻(xiàn)進(jìn)行相關(guān)判斷；然后請五位該領(lǐng)域的研究生將查詢問題與文檔集中的每篇文章逐一進(jìn)行相關(guān)判斷，共用了 1,500 個(gè)小時(shí)進(jìn)行了 50 萬次以上的相關(guān)判斷，希望能找出所有的相關(guān)文檔；為了避免上述過程中出現(xiàn)遺漏，利用文件耦合技術(shù)計(jì)算了文章之間的相關(guān)性，發(fā)現(xiàn)更多可能的相關(guān)文檔；最后對以上找出的所有文檔，一并送回給原作者進(jìn)行判斷。 I 的主要目的是比較 33 種不同檢索方式的檢索效果，系統(tǒng)的目的是檢索出相關(guān)的文檔，拒絕不相關(guān)的文檔，因此采用了查全率和查準(zhǔn)率作為評測指標(biāo)。 I 相關(guān)判斷采用的方法比較全面，構(gòu)建的答案集比較完整。繼試集之后，又出現(xiàn)了很多的測試集，如 10， 11， 12， 13，它們的構(gòu)建各自針對著不同的測試目的和測試對象，存在不同的組織構(gòu)架方式。這些早期測試集存在規(guī)模較小、文檔集的同質(zhì)性比較高等缺陷，與真實(shí)的檢索環(huán)境存在著較大的差異，因此在這些測試集上評測的結(jié)果受到許多質(zhì)疑 9。 1980 年后陸續(xù)出現(xiàn)的一些測試集如，雖然規(guī)模稍大，但大體來說仍然與早期測試集相似，也存在著上述的缺陷。試集文本檢索會(huì)議（的簡稱，由美國國防部高級研究項(xiàng)目計(jì)劃局和美國國家標(biāo)準(zhǔn)與技術(shù)局于 1992 年共同發(fā)起舉辦的。一個(gè)程序委員會(huì)管理，它的核心評測項(xiàng)目是 ad 還有些特殊的評測項(xiàng)目，每個(gè)評測項(xiàng)目都有獨(dú)立的評測程序和評測指標(biāo) 。年度為周期運(yùn)行，它有一套非常規(guī)范的程序，包括籌備工作、公布評測項(xiàng)目和評測規(guī)范、邀請研究部門參加評測、參加者返回檢索結(jié)果、工作人員進(jìn)行評測、送回評測結(jié)果、舉辦年度會(huì)議等程序。與會(huì)者可以討論信息檢索系統(tǒng)的優(yōu)缺點(diǎn)、探討新的信息處理技術(shù)等。引了越來越多的國家和地區(qū)的研究人員的積極參與，在信息檢索領(lǐng)域的影響力越來越大，成為了國際文本檢索領(lǐng)域最具權(quán)威性的評測活動(dòng)，極大地推動(dòng)了信息檢索技術(shù)的發(fā)展。測機(jī)制基本上是按照驗(yàn)的評測模式擴(kuò)展而來的，因此試集也包含文檔集、查詢主題集及相關(guān)判斷三個(gè)部分。 T R E C - 2 0 0 3 查詢主題示例N u m b e r : 0 8 0S c i e n c eD e s c r i p t i o n :F i n d k e y g o v e r n m e n t w e b s i t e ( r e p r e s e n t e d b u y t h e i r h o m e p a g e ) o n t h e s u b j e c t o f S c i e n c e 圖 3 詢主題實(shí)例檔集主要是英文，也有部分的非英文文檔集。主要是新聞性文件，也有一些其它的雜志期刊。力于構(gòu)建大型的測試集，所以文檔集的規(guī)模隨著評測活動(dòng)的持續(xù)進(jìn)行越來越大。從最初的幾百 20 試集時(shí)規(guī)模已達(dá) 426方便檔集中的文檔一般采用標(biāo)準(zhǔn)通用標(biāo)記語言進(jìn)行簡單標(biāo)記。大多數(shù)文檔都包含有文檔編號檔內(nèi)容類型的通用字段。詢主題以結(jié)構(gòu)化的形式來呈現(xiàn)，常常含有多個(gè)以不同的角度陳述主題的域。有 150 個(gè)查詢主題，之后 0 個(gè)新的查詢主題，將它們順序編號。查詢主題的描述形式也會(huì)隨評測的需求不同而有微小變化。詢主題的域比較多，多達(dá) 10 個(gè)，主題的描述比較詳細(xì)且結(jié)構(gòu)比較復(fù)雜。研究者提交給檢索系統(tǒng)的查詢詞時(shí)，可以從查詢主題的各個(gè)域中組合構(gòu)建。查詢主題結(jié)構(gòu)過于復(fù)雜，因此化了主題的描述形式，保留了三個(gè)域，即，但是這樣的描述相對于用戶的檢索需求還是有些復(fù)雜，所以題縮得更短，只剩下了。通過實(shí)驗(yàn)結(jié)果，發(fā)現(xiàn)只有的主題描述無法達(dá)到預(yù)期的效益，并導(dǎo)致了一些處理上的困難，所以改為與似的形式，之后的變化都不大。用的是二元化的相關(guān)判斷方式，即將所有文檔分為相關(guān)與不相關(guān)兩個(gè)層次，一篇文檔或者與主題相關(guān)，或者與主題不相關(guān)。相關(guān)判斷采用了法來輔助完成。他測試集跨語言評測論壇 2000 年開始舉辦，是歐洲的學(xué)者專家合作建立的評測機(jī)制。該論壇側(cè)重于歐洲范圍內(nèi)跨語言檢索問題的評測，為研究跨語言檢索技術(shù)的學(xué)者們提供了一個(gè)交流的平臺。同評測機(jī)制相同，在很多評測項(xiàng)目的執(zhí)行委員會(huì)來負(fù) 責(zé)某個(gè)評測項(xiàng)目。測會(huì)議是由日本國立情報(bào)學(xué)研究所（稱辦的，自 1999 年開始籌辦。它的目的是建立一個(gè)日文標(biāo)準(zhǔn)測試集，同時(shí)它還研究亞洲語言的跨語言檢索問題，比如日語、中文、朝鮮語等，此外，該會(huì)議還包含其它的評測項(xiàng)目，如專利檢索、問答檢索、自動(dòng)摘要等，作為亞洲地區(qū)較重要的信息檢索評測機(jī)制，受到國際上信息檢索研究者的重視，參與的國家、地區(qū)和機(jī)構(gòu)持續(xù)增長。文檔集主要來源于術(shù)會(huì)議論文資料庫中的摘要與關(guān)鍵詞等資料，它的查詢主題也是以類似于主題格式結(jié)構(gòu)化組織起來的，相關(guān)判斷同樣采用了法，主題與相關(guān)文檔間的相關(guān)度分為三個(gè)層次：相關(guān)、部分相關(guān)和不相關(guān)。測標(biāo)準(zhǔn) 信息檢索中使用的評測指標(biāo)直接關(guān)系到檢索策略的最終評測結(jié)果，所以檢索系統(tǒng)的評測應(yīng)根據(jù)評測重點(diǎn)選擇合理的評測指標(biāo)。在長期的評測實(shí)踐中，研究人員已經(jīng)總結(jié)出一些比較合理的評測指標(biāo)。假設(shè)在一個(gè)文檔集上，有查詢請求 I 和與其相對應(yīng)的相關(guān)文檔集 R，設(shè)集合 R 中文檔的個(gè)數(shù)。給定一個(gè)檢索策略，它處理查詢請求 I，并返回一個(gè)結(jié)果文檔集 A，設(shè) 集合 A 中的文檔個(gè)數(shù)。同時(shí)，設(shè) 文檔集 R 和 A 的交集，集合個(gè)數(shù) 。對傳統(tǒng)的文件檢索來說，常用的就是查全率（查準(zhǔn)率（，以及結(jié)合兩者的。全率（查全率指檢索出的相關(guān)文檔數(shù)與相關(guān)文檔集合總數(shù)的比值。它考查系統(tǒng)找全答案的能力。計(jì)算公式如下： u u m 準(zhǔn)率（查準(zhǔn)率表示檢索出的結(jié)果集合中相關(guān)文檔的比例。它考查系統(tǒng)找準(zhǔn)答案的能力。計(jì)算公式如下： u mp r e c is io n N u m 1 值查全率和查準(zhǔn) 率兩者相輔相成，從兩個(gè)不同側(cè)面較為全面地反映了系統(tǒng)性能。是一個(gè)把查全率和查準(zhǔn) 率結(jié)合起來的指標(biāo)?？紤]到某些情況下不同系統(tǒng)的查全率和查準(zhǔn) 率互有高低，不便于直接比較，而使用就可以更直觀地對系統(tǒng)性能進(jìn)行排序。計(jì)算公式如下： 2 P r e c is io n R e c a r e c is io n R e c a 以上介紹的評價(jià) 公式僅適用于無排序的檢索結(jié)果，顯然并不適合于依據(jù)“相關(guān)程度”對文檔排序的檢索結(jié)果，下面介紹幾個(gè)用于評測已排序的檢索結(jié)果的評測指標(biāo)。 d) 表示在檢索出 d 篇文檔時(shí)的查準(zhǔn)率。例如， P10 表示檢索出 10 篇文檔時(shí)的查準(zhǔn)率， P20 表示檢索出 20 篇文檔時(shí)的查準(zhǔn)率等。考慮到用戶在查看搜索引擎結(jié)果時(shí)，往往希望在第一個(gè)頁面（通常為 10 個(gè)結(jié)果）就找到自己所需的信息，因此設(shè)置了這樣一個(gè)擬人化的指標(biāo)， P10 常常能比較有效地反映系統(tǒng)在真實(shí)應(yīng)用環(huán)境下所表現(xiàn)的性能。 P (平均查準(zhǔn)率，是指平均每篇相關(guān)文檔被檢索出來時(shí)的查準(zhǔn)率。計(jì)算公式如下： 1 ( ) p r e c i s i o n r a n k dN u m ( ( )()BN u mp r e c i s i o n r a n k d r a n k d) 其中，示在某一個(gè)單一查詢主題的相關(guān)文檔數(shù) ； d 表示返回結(jié)果中的一篇相關(guān)文檔； d)表示文檔 d 在返回結(jié)果中的排序，也即在該篇相關(guān)文檔被檢索出時(shí)，共檢索出的文檔數(shù)；示在文檔 d 之前（含文檔 d）相關(guān)文檔的個(gè)數(shù)。是一個(gè)單值指標(biāo)，它反映了系統(tǒng)在全部相關(guān)文檔上的性能。查詢主題集中每個(gè) 查詢主題分的平均值。 1 ( )| t i i i i j i jt t i j P A P c p c p 1m a x ( ) , ( ) r a n k i r a n k j當(dāng)只有部分文檔被進(jìn)行相關(guān)判定的時(shí)候，衡量系統(tǒng)性能的一個(gè)良好指標(biāo)。公式中的概率 p 表示文檔是否相關(guān)， 1 代表相關(guān)， 0 代表不相關(guān)，表未判斷。 i 是文檔編號， t 是查詢主題編號。個(gè)主題的示檢索出 R 篇文檔時(shí)的查準(zhǔn)率，其中， R 表示單個(gè)主題的相關(guān)文檔數(shù)。主題集的每個(gè)主題的平均值。第一個(gè)正確答案出現(xiàn)位置的倒數(shù)，多個(gè)主題的平均值。一般來說，不同的評測項(xiàng)目會(huì)根據(jù)自己特殊的需求采用不同的評測指標(biāo)。除了上述主要評測指標(biāo)，還有其它的評分方式，例如 13等。第三章評測集的構(gòu)建隨著網(wǎng)絡(luò)與信息資源的飛速發(fā)展，網(wǎng)絡(luò)搜索引擎已經(jīng)成為人們獲取網(wǎng)絡(luò)信息的主要途徑。實(shí)驗(yàn)室背景下的信息檢索研究的主要目的是為現(xiàn)實(shí)中的用戶提供一個(gè)更強(qiáng)大，更智能，更精準(zhǔn) ，更人性化的搜索系統(tǒng)。信息檢索的評估包括三個(gè)方面：文檔集、評測集和評測手段。我的畢設(shè)任務(wù)主要是為參加評測的系統(tǒng)建立一個(gè)能夠有效檢測出他們性能的評測集。如果說評測是一次考試，那么評測集就是試題。評測集是一次評測活動(dòng)的前提，再優(yōu)秀的檢索系統(tǒng)如果面對一張充滿偏題怪題的試卷，也可能打零分；但是如果考題全部都出的很簡單，就像沒有任何區(qū)分度的卷子，人人都能得高分。評測集要盡可能代表真實(shí) 戶的信息需求。以往的測是以查詢主題集的形式出現(xiàn)的，每年都會(huì)構(gòu)建一些新主題，從開始到現(xiàn)在，題編號已達(dá)到 258 和題也已經(jīng)達(dá)到 1,185，其中題各占一半。并且為了使得主題的描述方式等方面具有一定程度的一致性，主題集每年都會(huì)由專門的人員來構(gòu)建。圖 4 搜狗分類目錄首先確定計(jì)劃構(gòu)建的主題數(shù)目，平均分配給構(gòu)建人員。同時(shí)將主題劃分成多個(gè)領(lǐng)域類別，劃分類別參照了搜狗的網(wǎng)頁分類目錄 (), 將類別大致分為“娛樂”，“文學(xué)”，“新聞”，“科學(xué)”等等。通過研究分析搜狗用戶日志所記錄下來的用戶搜索情況，我們可以看到這樣幾種特點(diǎn)：信息檢索系統(tǒng)用戶建立 / 修改查詢?yōu)g 覽查詢結(jié) 果結(jié) 果滿意？查詢結(jié) 束5 搜索引擎用戶行為流程 1. 實(shí)驗(yàn)所使用日志包括搜過搜索引擎在 2007 年 03 月的日志中非空查詢?yōu)?44,430,803 個(gè)，含非重復(fù)查詢共 4,580,853 個(gè)，僅出現(xiàn)一次的查詢有 1,613,501，占不重復(fù)查詢的約 35%，占全部查詢的查詢次數(shù)在十次以下的查詢有 4,153,437 個(gè)，占到非重復(fù)查詢的這些次數(shù)數(shù)據(jù)，說明不同用戶之間的查詢還是比較獨(dú)立的。 04000008000001200000160000020000001 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49圖 6 搜狗日志點(diǎn)擊分布 05001000150020

人人文庫> 全部分類> 畢業(yè)設(shè)計(jì) > 畢業(yè)論文

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

【畢業(yè)學(xué)位論文】（Word原稿）一種構(gòu)建信息檢索系統(tǒng)評測集的方法-計(jì)算機(jī)科學(xué)與技術(shù)

文檔簡介

溫馨提示

最新文檔

評論