【畢業(yè)學(xué)位論文】(Word原稿)一種構(gòu)建信息檢索系統(tǒng)評測集的方法-計(jì)算機(jī)科學(xué)與技術(shù)_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)一種構(gòu)建信息檢索系統(tǒng)評測集的方法-計(jì)算機(jī)科學(xué)與技術(shù)_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)一種構(gòu)建信息檢索系統(tǒng)評測集的方法-計(jì)算機(jī)科學(xué)與技術(shù)_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)一種構(gòu)建信息檢索系統(tǒng)評測集的方法-計(jì)算機(jī)科學(xué)與技術(shù)_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)一種構(gòu)建信息檢索系統(tǒng)評測集的方法-計(jì)算機(jī)科學(xué)與技術(shù)_第5頁
已閱讀5頁,還剩32頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

本科生學(xué)位論文 題目: 一種構(gòu)建信息檢索系統(tǒng)評測集的方法 姓 名:戴 夢 學(xué) 號: 00548145 院 系:信息科學(xué)技術(shù)學(xué)院 專 業(yè):計(jì)算機(jī)科學(xué) 導(dǎo) 師:閆宏飛 教授 二零零九年五月 摘要 隨著互聯(lián)網(wǎng)的飛速發(fā)展,信息檢索技術(shù)在實(shí)際生活中的作用越來越重要,在學(xué)術(shù)界也引起了研究學(xué)者的重視。參考國外測試集的構(gòu)建經(jīng)驗(yàn),天網(wǎng)實(shí)驗(yàn)室 構(gòu)建了大規(guī)模中文網(wǎng)頁信息檢索測試集 組織了 文網(wǎng)頁檢索評測,希望在國內(nèi)外各個(gè)研究小組的共同參與下建立并完善 起推動(dòng)中文 網(wǎng)頁信息 檢索技術(shù)的發(fā)展。 測試集是信息檢索評測的一項(xiàng)決定性因素之一。測試集包括查詢主題集、文檔集和相關(guān)文檔集。查詢主題集可以從網(wǎng)絡(luò)日志中獲取抑或由人工設(shè)定;文檔集是信息檢索系統(tǒng)返回的檢索結(jié)果的集合;而相關(guān)文檔集是對應(yīng)相應(yīng)的查詢主題相關(guān)的文檔的集合,一般相關(guān)文檔需要人工進(jìn)行判斷,由于文檔集的規(guī)模都不小,而相關(guān)文檔集是文檔集的子集,建造其工作量巨大,甚至有可能難以實(shí)施。所以我們想 嘗試得出判斷兩個(gè)信息檢索系統(tǒng)孰優(yōu)孰劣最小的工作量,及所需的最小查詢主題集和相關(guān)文檔集。 本論文通過變形 式的表達(dá)方式,研究其與相關(guān)文檔集的關(guān)系,說明了在給定查詢主題的情況下,如何找到最小的相關(guān)文檔集,并作實(shí)驗(yàn)加以證明。 結(jié)合查詢主題和相關(guān)文檔集合,利用 得兩個(gè)集合共同最小化。 關(guān)鍵詞 : 信息檢索,評測,測試集,文檔集,查詢主題,相關(guān)判斷,最 小相關(guān)文檔集,算法 A is a in s it a by a is eb on a is of in it of of to be or by in of of of of is at at In we to up an in an as as We a of on of a of is on be as P ( we to a is at R in a of an 錄 摘要 . 2 目錄 . 5 表目錄 . 6 圖目錄 . 7 第一章 引言 . 8 究背景 . 8 文主要貢獻(xiàn) . 9 文組織 . 10 第二章 相關(guān)研究 . 11 試集 . 11 期測試集 . 13 試集 . 14 他測試集 . 16 測標(biāo)準(zhǔn) . 16 全率( . 16 準(zhǔn)率( . 17 1 值 . 17 d) . 17 P (. 17 . 18 . 18 . 18 . 18 第三章 評測集的構(gòu)建 . 19 步篩選過程 . 24 義有區(qū)分性的檢索詞 . 27 小評測集 . 28 第四章 評測集的分析 . 31 驗(yàn)過程以及數(shù)據(jù) . 31 果分析 . 31 較 . 33 致謝 . 35 參考文獻(xiàn) . 36 表目錄 表格 1 檢索詞頻率的重新分類 . 22 表格 2 用戶日志格式 . 24 表格 3 式變型舉例 . 28 表格 4 以往 測代價(jià) . 31 表格 5 2000 個(gè)查詢主題 . 錯(cuò)誤 !未定義書簽。 表格 6 500 個(gè)查詢主題 . 32 圖目錄 圖 1 信息檢索評測示意圖 . 12 圖 2 程圖 . 13 圖 3 詢主題實(shí)例 . 15 圖 4 搜狗分類目錄 . 19 圖 5 搜索引擎用戶行為流程 . 20 圖 6 搜狗日志點(diǎn)擊分布 . 21 圖 7 實(shí)驗(yàn)數(shù)據(jù)的點(diǎn)擊分布 . 21 圖 8 搜狗日志檢索詞長度分布 . 21 圖 9 實(shí)驗(yàn)數(shù)據(jù)檢索詞長度分布 . 22 圖 10 搜狗日志檢索詞頻率分布 . 23 圖 11 實(shí)驗(yàn)數(shù)據(jù)檢索詞頻率分布 . 23 圖 12 查詢集初選流程圖 . 24 圖 13 頻率分布統(tǒng)計(jì)代碼 . 25 圖 14 采樣代碼 . 26 圖 15 篩選主要代碼 . 27 圖 16 信任程度隨判定文檔數(shù)而增加 . 33 第一章 引言 究背景 長久以來,人們對信息的需求從未間斷過 ,自從 20 世紀(jì) 40 到 50 年代,人們開始了對信息進(jìn)行檢索的活動(dòng)。 1945 年 出利用信息技術(shù)來解決“使大量信息更容易獲取的難題”; 1951 年 次提出了“信息檢索( 的概念 息檢索是信息的潛在用戶將信息需求轉(zhuǎn)換為一張文獻(xiàn) 來源信息列表的過程或方法,而這些文獻(xiàn)包含有對其有用的信息” 1。隨后, 信息檢索技術(shù) 蓬勃 迅速 地 發(fā)展起來,其研究領(lǐng)域也從最初的科學(xué)技術(shù)領(lǐng)域擴(kuò)展到人類活動(dòng)的各個(gè)方面 ,并成為本世紀(jì)人類社會(huì)的一項(xiàng)重要技術(shù) 。 20 世紀(jì) 90 年代, 萬維網(wǎng)得到了較快的 發(fā)展, 信息的獲取手段 逐漸 由媒體轉(zhuǎn)向網(wǎng)絡(luò),社會(huì)信息量由于網(wǎng)絡(luò)的壯大而變得空前的 豐富 。以搜索引擎為代表的信息檢索技術(shù)已經(jīng)取得了巨大的成功,像 百度等搜索引擎已經(jīng)深入到人們?nèi)粘W(xué)習(xí)和工作中,成為獲取信息不可或缺的工具。而 息檢索技術(shù) 也 成為研究者廣泛關(guān) 注的議題, 如何評測這些檢索系統(tǒng)的性能 ,從而有的放矢地提高檢索系統(tǒng)的性能, 受到了越來越多的 關(guān)注。 信息檢索系統(tǒng)誕生以來, 信息檢索評測對系統(tǒng)的研究、設(shè)計(jì)與發(fā)展一直有著顯著的影響力。通過評測,研究者能夠驗(yàn)證系統(tǒng)的效益、比較各種檢索技術(shù)的優(yōu)劣,不斷改進(jìn)檢索系統(tǒng),使系統(tǒng)的性能更加完善,能正確引導(dǎo)研究發(fā)展方向?;谟脩糁饔^使用感受的評測方法不客觀、不可靠,所以 評測體系必須客觀公正, 不受人主觀感覺的影響,并且評測結(jié)果通常都成立。一般的,這種評測體系具有以下特點(diǎn):明確的形式化研究任務(wù)、公開的訓(xùn)練與測試數(shù)據(jù)、公開的評測比較。 早期檢索系統(tǒng)評測最著名的研究是 1950 年代末期開始進(jìn)行的 驗(yàn) 2。它開創(chuàng)了以測試集( 合評測指標(biāo) 來評測系統(tǒng)的模式。所謂測試集,是一種在規(guī)范化環(huán)境中測試系統(tǒng)性能的機(jī)制,包括查詢問題( 文檔集( 及相關(guān)判斷( 個(gè)部分。評測指標(biāo)則一般采用查準(zhǔn)率和查全率。 驗(yàn)首開規(guī)范化評測之先河,它的評測模式為后續(xù)的評測研究奠定了基礎(chǔ),至今仍占有舉足輕重的地位 。 為了促進(jìn)信息檢索技術(shù)的發(fā)展,美國國防部高級研究項(xiàng)目計(jì)劃局( 稱 美國國家標(biāo)準(zhǔn)與技術(shù)局( 稱 1992 年共同舉辦了文本檢索會(huì)議( 稱 3。 過構(gòu)建大型的測試集,提出不同的評測項(xiàng)目和評測指標(biāo)等,提供不同檢索技術(shù)與檢索系統(tǒng)之間的標(biāo)準(zhǔn)評測環(huán)境。 參加評測單位除了要提交系統(tǒng)的運(yùn)行結(jié)果之外,還可以參加研討會(huì),與會(huì)者可以分享結(jié)果。 得了國際性的威望,在信息檢索評測領(lǐng)域起到了很好的示范作用。除了 有針對不同語言設(shè)計(jì)的類似機(jī)制開始運(yùn)作,如歐洲各國聯(lián)合舉辦的跨語言評測論壇 4、法國信息技術(shù)局構(gòu)建了法文的 5、日本國立情報(bào)學(xué)研究所( 稱 辦的 測會(huì)議 6等等。 反觀國內(nèi),中文信息處理技術(shù)在最近幾十年取得了長足發(fā)展,但專門針對中文的評測項(xiàng)目的缺乏使中文信息處理技術(shù)不能得到有效檢驗(yàn)。缺乏大規(guī)模的中文測試集是制約中文網(wǎng)頁信息檢索技術(shù)前進(jìn)的障礙,因此,我們希望在國內(nèi)外各個(gè)研究小組的共同參與下建立并完善以中文為主的網(wǎng)頁信息檢索測試集 一起推動(dòng)中文網(wǎng)頁信息檢索技術(shù)的發(fā)展 7。 文主要貢獻(xiàn) 缺乏大規(guī)模的 中文網(wǎng)頁測試集制約了中文檢索技術(shù)的發(fā)展,為了改變這種局面,參考 年的成功經(jīng)驗(yàn),我們構(gòu)建了大規(guī)模中文網(wǎng)頁信息檢索測試集 2004 年開始, 在全國搜索引擎和網(wǎng)上信息挖掘?qū)W術(shù)研討會(huì) (稱 議上 開始舉辦中文網(wǎng)頁檢索評測項(xiàng)目,即 文網(wǎng)頁檢索評測。 網(wǎng)頁檢索評測主要目的是通過網(wǎng)頁測試集研究各種檢索技術(shù)的優(yōu)劣,以改進(jìn)檢索系統(tǒng)在真實(shí)網(wǎng)頁環(huán)境下的性能。 2009 年的評測任務(wù)有一,海量查詢?nèi)蝿?wù) 。該任務(wù)是模仿 2007和 2008 年的 給予檢索系統(tǒng)大規(guī)模的查詢集進(jìn)行測試。 因?yàn)槲覀儼l(fā)現(xiàn),很多研究機(jī)構(gòu)都做了類似 測檢索系統(tǒng)的實(shí)驗(yàn),構(gòu)建了一些測試集,但這些早期的測試集規(guī)模通常較小,與真實(shí)的檢索環(huán)境之間存在著較大差異?;谶@樣的測試集所開發(fā)的檢索系統(tǒng),在實(shí)際應(yīng)用中往往受到極大的限制。這些測試集存在兩個(gè)根本缺陷:一是缺少在相同的測試數(shù)據(jù)上使用相同評測方法的跨系統(tǒng)公開評測;二是缺少真實(shí)的大規(guī)模測試集。 本文在信息檢索評測領(lǐng)域主要有如下貢獻(xiàn): 1. 構(gòu)建并實(shí)施了海量 中文網(wǎng)頁信息檢索測試集 2. 探索能夠評測檢索信息性能的最小查詢主題和相關(guān)文檔 集合的方法 文組織 本文第一章介紹了本文的研究背景及本文主要貢獻(xiàn) ;第二章是相關(guān)研究,介紹了信息檢索評測中的測試集 及 常用的 評測指標(biāo)等;第三章介紹了中文網(wǎng)頁信息檢索 海量查詢?nèi)蝿?wù)測試集的構(gòu)建方法, 詳細(xì)介紹了文檔集、查詢集和相關(guān)文檔集的構(gòu)建過程及構(gòu)建結(jié)果 ,同時(shí)還有通過檢索結(jié)果來尋找最小查詢集和相關(guān)文檔集的方法 ;第四章對 評測集以及 實(shí)驗(yàn)數(shù)據(jù)進(jìn)行了分析 ; 最后一章是本文的總結(jié)和工作展望。 第二章 相關(guān)研究 自計(jì)算機(jī)信息檢索問世以來 ,信息檢索評測就被賦予了一種具有同樣重要性的角色。在長期的實(shí)踐中,研究人員已經(jīng)總結(jié)出一些比較合理的評測方法和評測指標(biāo),使得檢索評測研究的可行性明顯增強(qiáng)。系統(tǒng)評測有不同的評測研究類型,例如側(cè)重系統(tǒng)軟件功能的功能測試;側(cè)重系統(tǒng)的時(shí)間與空間復(fù)雜度的系統(tǒng)性能評測等。 信息檢索任務(wù)的特點(diǎn)是,用戶輸入的查詢請求常常是模糊的,多義的。檢索結(jié)果往往不是確切的答案,需要檢索系統(tǒng)自行對其進(jìn)行解釋,并對檢索結(jié)果按照它們與查詢請求的相關(guān)度進(jìn)行排序。信息檢索系統(tǒng)需要對檢索結(jié)果的準(zhǔn)確度進(jìn)行評測,這種類型的評測叫做檢索性能評測( 在各種類型的評測研究中,檢索性能評測是其中的研究重點(diǎn)和核心。 檢索性能評測分為實(shí)驗(yàn)室評測和真實(shí)環(huán)境的評測,雖然基于真實(shí)環(huán)境的評測是一種趨勢,但由于實(shí)驗(yàn)室在封閉環(huán)境下測試的可重復(fù)性和可擴(kuò)展性,實(shí)驗(yàn)室評測仍然占主導(dǎo)地位。實(shí)驗(yàn)室評測通?;跍y試集和一定的評測指標(biāo)來完成。 本章第一節(jié)介紹測試集的概念及幾個(gè)重要的測試集,包括早期測試集的代表 I、其它幾個(gè)規(guī)模較小的測試集及近年來規(guī)模較大且有影響力的測試集 ;第二節(jié)介紹常見 的評測項(xiàng)目;第三節(jié)介紹常用的評測指標(biāo)。 試集 研究者為了評測系統(tǒng)性能,通常會(huì)進(jìn)行一系列的實(shí)驗(yàn)來驗(yàn)證,而實(shí)驗(yàn)所需的測試數(shù)據(jù) ,則依據(jù)各自的目的而獨(dú)立構(gòu)建。 為了使系統(tǒng)能夠在統(tǒng)一的測試集上進(jìn)行驗(yàn)證,出現(xiàn)了很多公開的測試集,如 I、 10, 11, 12, 13測試集 。他們 的存在提高了評測的公平性,但 由于 早期的 測試集規(guī)模較小,且同質(zhì)性 高,在實(shí)際運(yùn)用中存在著較大的限制。 1992 年開始構(gòu)建大規(guī)模的測試集 3,在信息檢索評測領(lǐng)域起到了很好 的示范作用。除了 ,已有針對不同語言設(shè)計(jì)的類似機(jī)制開始運(yùn)作,如歐洲各國聯(lián)合舉辦的 語言評測論壇 4,法國信息技術(shù)局則構(gòu)建了法文的 ,日本國立情報(bào)學(xué)研究所( 稱 辦了 測會(huì)議 6等,中國 則 于 2004 年 構(gòu)建中文網(wǎng)頁信息檢索測試集 。 查 詢 主 題 集文 檔 集 相 關(guān) 文 檔 集信 息 檢 索 系 統(tǒng)測 試 集檢 索 結(jié) 果P o o l i n gP o o 判 斷評 分 程 序圖 1 信息檢索評測示意圖 信息檢索系統(tǒng) 測試集 包括查詢集,文檔集和 相關(guān)文檔三個(gè)部分。文檔集是一組文檔的集合,它是檢索系統(tǒng)評測的數(shù)據(jù)基礎(chǔ);查詢主題集代表了用戶的信息需求,這些主題依據(jù)評測項(xiàng)目的需要,可以是一個(gè)或一組關(guān)鍵詞,也可以是一段描述。一般地,對相關(guān)判斷有如下假設(shè):對于任何查詢主題,它們的相關(guān)判斷是獨(dú)立的、客觀的,并且不隨著時(shí)間和空間的變化而改變;相關(guān)文檔集是對應(yīng)主題集中主題所給出的一組標(biāo)準(zhǔn)答案的集合,需要評測人員人工相關(guān)判斷來構(gòu)建。 整個(gè)信息檢索評測中的 各個(gè) 角色 關(guān)系 可以從圖 1 中看出來。 參與評測的檢索系統(tǒng)必須在統(tǒng)一的測試集上運(yùn)作,依 據(jù)所指定的查詢主題,以文檔集作為檢索的對象,并將測試集提供的相關(guān)判斷結(jié)果視為標(biāo)準(zhǔn)答案,采用合適的評測指標(biāo)進(jìn)行檢索系統(tǒng)性能的評比。 相關(guān)判斷在測試集構(gòu)建過程中是一件相當(dāng)困難的工作,需要花費(fèi)巨大的人力物力。早期測試集中的文件數(shù)量較小,因此評測人員可以對文檔集中的文件逐篇進(jìn)行判斷。但是隨著測試集規(guī)模的增大,如果針對每個(gè)主題都將文檔集中的每個(gè)文檔逐一與其進(jìn)行相關(guān)判斷,需要花費(fèi)的工作是相當(dāng)巨大的,因此 “ 法 隨之而誕生 8. 法的假設(shè)是: 1)大多數(shù)與查詢主題相關(guān)的文檔會(huì)被聚 集在 2)不在 的文檔可以視為不相關(guān)文檔 . 詞r u nr u nr u 結(jié) 果 取 前 k 個(gè)得 到 結(jié) 果 取 前 k 個(gè)得 到 結(jié) 果 取 前 k 個(gè)形 成 P o o 2 程圖 術(shù)的具體實(shí)施過程為:針對每個(gè)查詢主題,在參與評測的檢索系統(tǒng)均能提供相關(guān)排序的情況下,抽取出各個(gè)檢索結(jié)果的前 k 個(gè)文檔,將這些結(jié)果合并形成一個(gè)集合,去除集合中的重復(fù)文件后,得到相關(guān)文檔候選集( 再由相關(guān)判斷人員進(jìn)行人工判斷,最終得到相關(guān)文檔集。對每個(gè)查詢主題都需要構(gòu)建一個(gè) 的 文檔按照文檔編號排序。 法利用不同的檢索技術(shù)與系統(tǒng),縮小了相關(guān)判斷的范圍,可以大大減少相關(guān)判斷人員的工作量。 期測試集 試集是早期比較具有代表性的測試集, 他的實(shí)驗(yàn)標(biāo)志著檢索系統(tǒng)評測與測試集的標(biāo)準(zhǔn)模式 的形成 。 驗(yàn)分為前后兩期,由 別在 1957 年及 1966 年完成。 I 測試集 2包括文檔集、查詢問題和相關(guān)判斷三個(gè)部分。I 實(shí)驗(yàn)搜集了 1,400 篇有關(guān)太空動(dòng)力學(xué)的文章,并請每位作者根據(jù)這些 文章與當(dāng)時(shí)研究的主題來提出問題,經(jīng)過篩選后產(chǎn)生了 200 多個(gè)查詢問題。 I 測試集中相關(guān)判斷的構(gòu)建有如下四個(gè)步驟:首先請查詢問題的構(gòu)建者對文章后所附引用及參考文獻(xiàn)進(jìn)行相關(guān)判斷;然后請五位該領(lǐng)域的研究生將查詢問題與文檔集中的每篇文章逐一進(jìn)行相關(guān)判斷,共用了 1,500 個(gè)小時(shí)進(jìn)行了 50 萬次以上的相關(guān)判斷,希望能找出所有的相關(guān)文檔;為了避免上述過程中出現(xiàn)遺漏, 利用文件耦合技術(shù)計(jì)算了文章之間的相關(guān)性,發(fā)現(xiàn)更多可能的相關(guān)文檔;最后對以上找出的所有文檔,一并送回給原作者進(jìn)行判斷。 I 的主要目的是比較 33 種不同檢索方式的檢索效果,系統(tǒng)的目的是檢索出相關(guān)的文檔,拒絕不相關(guān)的文檔,因此采用了查全率和查準(zhǔn)率作為評測指標(biāo)。 I 相關(guān)判斷采用的方法比較全面,構(gòu)建的答案集比較完整。 繼 試集之后,又出現(xiàn)了很多的測試集,如 10, 11, 12, 13,它們的構(gòu)建各自針對著不同的測試目的和測試對象,存在不同的組織構(gòu)架方式。這些早期測試集存在規(guī)模較小、文檔集的同質(zhì)性比較高等缺陷,與真實(shí)的檢索環(huán)境存 在著較大的差異,因此在這些測試集上評測的結(jié)果受到許多質(zhì)疑 9。 1980 年后陸續(xù)出現(xiàn)的一些測試集如 ,雖然 規(guī)模稍大,但大體來說仍然與早期測試集相似,也存在著上述的缺陷。 試集 文本檢索會(huì)議 ( 的簡稱,由美國國防部高級研究項(xiàng)目計(jì)劃局和美國國家標(biāo)準(zhǔn)與技術(shù)局于 1992 年共同發(fā)起舉辦的 。 一個(gè)程序委員會(huì)管理,它的核心評測項(xiàng)目 是 ad 還有些特殊的評測項(xiàng)目,每個(gè)評測項(xiàng)目都有獨(dú)立的評測程序和評測指標(biāo) 。 年度為周期運(yùn)行,它有一套非常規(guī)范的程序,包括籌備工作、公布評測項(xiàng)目和評測規(guī)范、邀請研究部門參加評測、參加者返回檢索結(jié)果、工作人員進(jìn)行評測、送回評測結(jié)果、舉辦年度會(huì)議等程序。與會(huì)者可以討論信息檢索系統(tǒng)的優(yōu)缺點(diǎn)、探討新的信息處理技術(shù)等。 引了越來越多的國家和地區(qū)的研究人員的積極參與,在信息檢索領(lǐng)域的影響力越來越大,成為了國際文本檢索領(lǐng)域最具權(quán)威性的評測活動(dòng),極大地推動(dòng)了信息檢索技術(shù)的發(fā)展。 測機(jī)制基本上是按照 驗(yàn)的評測模式擴(kuò)展而來的,因此 試集也包含文檔集、查詢主題集及相關(guān)判斷三個(gè)部分。 T R E C - 2 0 0 3 查 詢 主 題 示 例N u m b e r : 0 8 0S c i e n c eD e s c r i p t i o n :F i n d k e y g o v e r n m e n t w e b s i t e ( r e p r e s e n t e d b u y t h e i r h o m e p a g e ) o n t h e s u b j e c t o f S c i e n c e 圖 3 詢主題實(shí)例 檔集主要是英文,也有部分的非英文文檔集 。 主要是新聞性文件,也有一些其它的雜志期刊。 力于構(gòu)建大型的測試集,所以文檔集的規(guī)模隨著評測活動(dòng)的持續(xù)進(jìn)行越來越大。從最初的幾百 20 試集時(shí)規(guī)模已達(dá) 426方便 檔集中的文檔一般采用標(biāo)準(zhǔn)通用標(biāo)記語言 進(jìn)行簡單標(biāo)記。大多數(shù)文檔都包含有文檔編號 檔內(nèi)容 類型的通用字段。 詢主題 以結(jié)構(gòu)化的形式來呈現(xiàn),常常含有多個(gè)以 不同的角度陳述主題 的域 。 有 150 個(gè)查詢主題,之后 0 個(gè)新的查詢主題,將 它們順序 編號。查詢主題的描述形式也會(huì)隨評測的需求不同而有微小變化。 詢主題的域比較多,多達(dá) 10 個(gè),主題的描述比較詳細(xì)且結(jié)構(gòu)比較復(fù)雜。研究者 提交給檢索系統(tǒng)的查詢詞 時(shí),可以從查詢主題的各個(gè)域中組合構(gòu)建。 查詢主題結(jié)構(gòu)過于復(fù)雜,因此 化了主題的描述形式,保留了三個(gè)域,即 , 但是這樣的描述相對于用戶的檢索需求還是有些復(fù)雜,所以 題縮得更短,只剩下了 。通過 實(shí)驗(yàn)結(jié)果,發(fā)現(xiàn)只有的主題描述無法達(dá)到預(yù)期的效益,并導(dǎo)致了一 些處理上的困難,所以 改為與 似的形式,之后的變化都不大。 用的是二元化的相關(guān)判斷方式,即將所有文檔分為相關(guān)與不相關(guān)兩個(gè)層次,一篇文檔或者與主題相關(guān),或者與主題不相關(guān)。相關(guān)判斷采用了 法來輔助完成。 他測試集 跨語言評測論壇 2000 年開始舉辦,是歐洲的學(xué)者專家合作建立的評測機(jī)制。該論壇側(cè)重于歐洲范圍內(nèi)跨語言檢索問題的評測,為研究跨語言檢索技術(shù)的學(xué)者們提供了一個(gè)交流的平臺。同 評測機(jī)制相同, 在很多評測項(xiàng)目的執(zhí)行委員會(huì)來負(fù) 責(zé)某個(gè)評測項(xiàng)目。 測會(huì)議是由日本國立情報(bào)學(xué)研究所( 稱 辦的,自 1999 年開始籌辦。它的目的是建立一個(gè)日文標(biāo)準(zhǔn)測試集,同時(shí)它還研究亞洲語言的跨語言檢索問題,比如日語、中文、朝鮮語等,此外,該會(huì)議還包含其它的評測項(xiàng)目,如專利檢索、問答檢索、自動(dòng)摘要等,作為亞洲地區(qū)較重要的信息檢索評測機(jī)制,受到國際上信息檢索研究者的重視,參與的國家、地區(qū)和機(jī)構(gòu)持續(xù)增長。 文檔集主要來源于 術(shù)會(huì)議論文資料庫中的摘要與關(guān)鍵詞等資 料,它的查詢主題也是以類似于 主題格式結(jié)構(gòu)化組織起來的,相關(guān)判斷同樣采用了 法,主題與相關(guān)文檔間的相關(guān)度分為三個(gè)層次:相關(guān)、部分相關(guān)和不相關(guān)。 測標(biāo)準(zhǔn) 信息檢索 中使用的 評測指標(biāo)直接關(guān)系到 檢索策略 的最終 評測結(jié)果 , 所以檢索系統(tǒng)的評測應(yīng)根據(jù)評測重點(diǎn)選擇合理的評測指標(biāo)。 在長期的評測實(shí)踐中,研究人員已經(jīng)總結(jié)出一些比較合理的評測指標(biāo)。 假設(shè)在一個(gè)文檔集上,有查詢請求 I 和與其相對應(yīng)的相關(guān)文檔集 R, 設(shè)集合 R 中文檔的個(gè)數(shù)。給定一個(gè)檢索策略,它處理查詢請求 I,并返回一個(gè)結(jié)果文檔集 A,設(shè) 集合 A 中的文檔個(gè)數(shù)。同時(shí),設(shè) 文檔集 R 和 A 的交集, 集合 個(gè)數(shù) 。 對傳統(tǒng)的文件檢索來說,常用的就是查全率 ( 查準(zhǔn)率( ,以及結(jié)合兩者的 。 全率( 查全率指檢索出的相關(guān)文檔數(shù)與相關(guān)文檔集合總數(shù)的比值。它 考查系統(tǒng)找全答案的能力 。計(jì)算公式如下: u u m 準(zhǔn)率( 查準(zhǔn)率表示檢索出的結(jié)果集合中相關(guān)文檔的比例。它 考查系統(tǒng)找準(zhǔn)答案的能力 。計(jì)算公式如下: u mp r e c is io n N u m 1 值 查全 率 和查準(zhǔn) 率兩者相輔相成,從兩個(gè)不同側(cè)面較為全面地反映了系統(tǒng)性能。 是一個(gè)把 查全 率和 查準(zhǔn) 率結(jié)合起來的指標(biāo)??紤]到某些情況下不同系統(tǒng)的 查全 率和 查準(zhǔn) 率互有高低,不便于直接比較,而使用 就可以更直觀地對系統(tǒng)性能進(jìn)行排序。 計(jì)算公式如下: 2 P r e c is io n R e c a r e c is io n R e c a 以上介紹的評價(jià) 公式僅適用于無排序的檢索結(jié)果,顯然并不適合于依據(jù)“相關(guān)程度”對文檔排序的檢索結(jié)果,下面介紹幾個(gè)用于評測已 排序的檢索結(jié)果的評測指標(biāo)。 d) 表示在檢索出 d 篇文檔時(shí)的查準(zhǔn)率。例如, P10 表示檢索出 10 篇文檔時(shí)的查準(zhǔn)率, P20 表示檢索出 20 篇文檔時(shí)的查準(zhǔn)率等。 考慮到用戶在查看搜索引擎結(jié)果時(shí),往往希望在第一個(gè)頁面(通常為 10 個(gè)結(jié)果)就找到自己所需的信息,因此設(shè)置了這樣一個(gè)擬人化的指標(biāo), P10 常常能比較有效地反映系統(tǒng)在真實(shí)應(yīng)用環(huán)境下所表現(xiàn)的性能。 P (平均查準(zhǔn)率,是指平均每篇相關(guān)文檔被檢索出來時(shí)的查準(zhǔn)率。計(jì)算公式如下: 1 ( ) p r e c i s i o n r a n k dN u m ( ( )()BN u mp r e c i s i o n r a n k d r a n k d) 其中, 示 在某一個(gè)單一查詢 主題的相關(guān)文檔數(shù) ; d 表示返回結(jié)果中的一篇相關(guān)文檔; d)表示文檔 d 在返回結(jié)果中的排序,也即在該篇相關(guān)文檔被檢索出時(shí),共檢索出的文檔數(shù); 示 在文檔 d 之前(含文檔 d)相關(guān)文檔的個(gè)數(shù)。 是一個(gè)單值指標(biāo),它反映了系統(tǒng)在全部相關(guān)文檔上的性能。 查詢主題集中每個(gè) 查詢 主題 分的 平均值。 1 ( )| t i i i i j i jt t i j P A P c p c p 1m a x ( ) , ( ) r a n k i r a n k j當(dāng)只有部分文檔被進(jìn)行相關(guān)判定的時(shí)候, 衡量系統(tǒng)性能的一個(gè)良好指標(biāo)。公式中的概率 p 表示文檔是否相關(guān), 1 代表相關(guān), 0 代表不相關(guān), 表未判斷。 i 是文檔編號 , t 是查詢主題編號。 個(gè)主題的 示檢索出 R 篇文檔時(shí)的查準(zhǔn)率,其中, R 表示單個(gè)主題的相關(guān)文檔數(shù)。 主題集的 每個(gè)主題的 平均值 。 第一個(gè)正確答案出現(xiàn)位置的倒數(shù), 多個(gè)主題的 平均值。 一般來說,不同的評測項(xiàng)目會(huì)根據(jù)自己特殊的需求采用不同的評測指標(biāo)。除了上 述主要 評測指標(biāo), 還有 其它的評分方式 ,例如 13等。 第三章 評測集的構(gòu)建 隨著網(wǎng)絡(luò)與信息資源的飛速發(fā)展,網(wǎng)絡(luò)搜索引擎已經(jīng)成為人們獲取網(wǎng)絡(luò)信息的主要途徑。實(shí)驗(yàn)室背景下的信息檢索研究的主要目的是為現(xiàn)實(shí)中的用戶提供一個(gè)更強(qiáng)大,更智能,更精準(zhǔn) ,更人性化的搜索系統(tǒng)。信息檢索的評估包括三個(gè)方面:文檔集、評測集和評測手段。我的畢設(shè)任務(wù)主要是為參加評測的系統(tǒng)建立一個(gè)能夠有效檢測出他們性能的評測集。如果說評測是一次考試,那么評測集就是試題。評測集是一次評測活動(dòng)的前提,再優(yōu)秀的檢索系統(tǒng)如果面對一張充滿偏題怪題的試卷,也可能打零分;但是如果考題全部都出的很簡單,就像沒有任何區(qū)分度的卷子,人人都能得高分。 評測集要盡可能代表真實(shí) 戶的信息需求。以往的 測是以查詢主題集的形式出現(xiàn)的,每年都會(huì)構(gòu)建一些新主題, 從開始到現(xiàn)在, 題編號已達(dá)到 258 和 題 也已經(jīng)達(dá)到 1,185, 其中 題各占一半。并且為了使得主題的描述方式等方面具有一定程度的一致性,主題集每年都會(huì)由專門的人員來構(gòu)建。 圖 4 搜狗分類目錄 首先確定計(jì)劃構(gòu)建的主題數(shù)目,平均分配給構(gòu)建人員。同時(shí)將主題劃分成多個(gè)領(lǐng)域類別,劃分類別參照了搜狗的網(wǎng)頁分類目錄 (), 將類別大致分為“娛樂”,“文學(xué)”,“新 聞”,“科學(xué)”等等。 通過研究分析搜狗用戶日志所記錄下來的用戶搜索情況,我們可以看到這樣幾種特點(diǎn): 信息檢索系統(tǒng)用 戶建 立 / 修 改 查 詢?yōu)g 覽 查 詢 結(jié) 果結(jié) 果 滿 意 ?查 詢 結(jié) 束5 搜索引擎用戶行為流程 1. 實(shí)驗(yàn)所使用日志包括搜過搜索引擎在 2007 年 03 月的日志 中非空查詢?yōu)?44,430,803 個(gè),含非重復(fù)查詢共 4,580,853 個(gè),僅出現(xiàn)一次的查詢有 1,613,501,占不重復(fù)查詢的約 35%,占全部查詢的 查詢次數(shù)在十次以下的查詢有 4,153,437 個(gè),占到 非重復(fù)查詢的 這些次數(shù)數(shù)據(jù),說明不同用戶之間的查詢還是比較獨(dú)立的。 04000008000001200000160000020000001 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49圖 6 搜狗日志點(diǎn)擊分布 05001000150020

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論