【畢業(yè)學(xué)位論文】(Word原稿)基于SDD中文農(nóng)業(yè)網(wǎng)頁搜索系統(tǒng)的設(shè)計與實現(xiàn)管理科學(xué)與工程碩士論文_第1頁
【畢業(yè)學(xué)位論文】(Word原稿)基于SDD中文農(nóng)業(yè)網(wǎng)頁搜索系統(tǒng)的設(shè)計與實現(xiàn)管理科學(xué)與工程碩士論文_第2頁
【畢業(yè)學(xué)位論文】(Word原稿)基于SDD中文農(nóng)業(yè)網(wǎng)頁搜索系統(tǒng)的設(shè)計與實現(xiàn)管理科學(xué)與工程碩士論文_第3頁
【畢業(yè)學(xué)位論文】(Word原稿)基于SDD中文農(nóng)業(yè)網(wǎng)頁搜索系統(tǒng)的設(shè)計與實現(xiàn)管理科學(xué)與工程碩士論文_第4頁
【畢業(yè)學(xué)位論文】(Word原稿)基于SDD中文農(nóng)業(yè)網(wǎng)頁搜索系統(tǒng)的設(shè)計與實現(xiàn)管理科學(xué)與工程碩士論文_第5頁
已閱讀5頁,還剩64頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

密級: 論文編號: 中國農(nóng)業(yè)科學(xué)院 碩士 學(xué)位論文 基于 文農(nóng)業(yè)網(wǎng)頁 搜索 系統(tǒng) 的設(shè)計與實現(xiàn) of of I 摘 要 由于我國數(shù)字鴻溝的存在,農(nóng)業(yè)信息的獲得非常困難,特別是急需農(nóng)業(yè)科技信息和市場信息的企業(yè)、部門、農(nóng)戶,他們通過傳統(tǒng)的綜合 搜索引擎 ,在這些海量的信息中,搜索一個準(zhǔn)確的信息已非常困難,而使用通用的搜索引擎 則搜索到很多無關(guān)的信息 。 要實現(xiàn)信息的精確搜索,就需要研究專業(yè)的搜索引擎。因此,針對于中文農(nóng)業(yè)網(wǎng)頁,研發(fā)專業(yè)化的搜索引擎,實現(xiàn)農(nóng)業(yè)信息的精確搜索是本文研究的出發(fā)點。 本文通過研究背景的分析提出了一種“二次主題漂移”檢索模式。 詳細介紹了 全文檢索與語義檢索技術(shù),為后面的研究奠定技術(shù)基礎(chǔ),提出了基于 法的語義檢索技術(shù)實現(xiàn)方法。根據(jù) 法,構(gòu)建了一個實驗系統(tǒng) 來 驗證 法處理大規(guī)模文檔的能力, 同時 利用國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心 10 個主題數(shù)據(jù)庫中的 10 萬條記錄,來進一步驗證“ 二次主題漂移” 技術(shù)的可行性。最后介紹了 基于 文農(nóng)業(yè)網(wǎng)頁搜索系統(tǒng)的設(shè)計與實現(xiàn) ,包括系統(tǒng)的結(jié)構(gòu)與功能以及實際運行的情況。 本文的主要成果: ( 1)研究并實踐“二次主題漂移”檢索模式,可以有效提高用戶檢索應(yīng)用的體驗。 ( 2)研究分析 法,找出了該算法在 臺上的運行瓶頸,并提出了性能改進的具體方法。 ( 3)構(gòu)建了基于 法的中文農(nóng)業(yè)信息檢索實驗系統(tǒng),驗證大規(guī)模文檔集下 法的可行性和“二次主題漂移”模式的可行性。 ( 4)設(shè)計并實現(xiàn)了一個基于 文農(nóng)業(yè)網(wǎng)頁搜索系統(tǒng)。 關(guān)鍵詞 : 二次主題漂移 ,信息檢索 s in an an so an to of in is on DD on to of DD on of a of At we on in (1) of (2) DD (3)on DD on (4)on 錄 第一章 引 言 . 1 究背景 . 1 息檢索的相關(guān)性理論 . 2 向系統(tǒng)的相關(guān)性 . 2 向用戶的相關(guān)性 . 2 結(jié) . 3 究內(nèi)容和方法 . 3 題的提出 . 3 要研究內(nèi)容 . 4 究思路和方法 . 5 文的寫作框架 . 7 第二章 全文檢索與語義檢索 . 8 . 8 應(yīng)用、特點及優(yōu)勢 . 8 統(tǒng)結(jié)構(gòu)分析 . 9 用心得 . 10 文檢索的不足 . 11 檢索 . 12 統(tǒng)經(jīng)典信息檢索模型 . 12 含語義索引( 型 . 14 . 15 號 . 15 檔匹配 . 16 引項匹配 . 17 念空間 . 18 結(jié) . 18 第三章 法及其改進 . 19 . 19 . 19 計算 . 20 法的收斂性證明 . 22 . 23 據(jù)結(jié)構(gòu) . 23 用壓縮存儲的計 算 . 24 . 24 . 26 據(jù)壓縮 . 27 據(jù)過濾 . 27 征抽取 . 27 第四章 進算法及“二次主題漂移” 檢索模式驗證 . 28 . 28 . 29 . 30 . 31 . 33 統(tǒng)設(shè)計 . 33 統(tǒng)實現(xiàn) . 33 . 35 行向量空間模型( 矩陣分解后的索引文件比對 . 35 臺與 臺矩陣分解對比 . 36 4 7“二次主題漂移”檢索模式驗證 . 37 究方法 . 37 驗數(shù)據(jù) . 39 驗結(jié)果與分析 . 40 第五章 基于 文農(nóng)業(yè)網(wǎng)頁搜索系統(tǒng)的設(shè)計與實現(xiàn) . 47 . 47 . 49 國農(nóng)業(yè)網(wǎng)站名錄網(wǎng)頁集 . 49 采用的 主要技術(shù) . 50 統(tǒng)運行實例 . 52 據(jù)檢索情況 . 52 站直達 . 54 第六章 總結(jié)與展望 . 55 . 55 . 56 參考文獻 . 57 致 謝 . 61 作 者 簡 歷 . 62 V 英文縮略表 英文縮寫 英文全稱 中文名稱 用程序接口 步 ,己成為互聯(lián)網(wǎng)上非常重要的網(wǎng)絡(luò)導(dǎo)航服務(wù)。目前, 上擁有超 100 億的靜態(tài)網(wǎng)頁。而當(dāng)前的通用搜索引擎所能檢索的網(wǎng)頁一般不超過 的 30%40%,即使是用戶最多的 檢索的網(wǎng)頁也只在 30 億左右。另一方面, 術(shù)的發(fā)展使更多的網(wǎng)頁以動態(tài)形式存在,形成所謂的隱藏 估計這部分的信息是整個靜態(tài) 間的 500 倍以上,而且有遞增的趨勢。由于搜索引擎在 所具有的重要地位,它一直就是用戶關(guān)心的熱點之一,也是各家相關(guān)公司全力開發(fā)的技術(shù)焦點。 根據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心( 2005 年 7 月發(fā)布的第 16 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告,目前,國內(nèi)上網(wǎng)用戶總量已達到 ,而在“用戶經(jīng)常使用的網(wǎng)絡(luò)服務(wù) /功能”中,“搜索引擎”以 選擇率排在第三位,僅次于“電子郵件”( 和“瀏覽新聞”( 。 同時,搜索引擎還是“用戶得知新網(wǎng)站”的最主要的途徑( 和“用戶在互聯(lián)網(wǎng)上獲取信息”的最常用的方法( 。不僅在中國,放眼世界,互聯(lián)網(wǎng)搜索業(yè)務(wù)也呈現(xiàn)出 增勢。根據(jù)石城研究機構(gòu)的預(yù)測, 2005 年,全球收費搜索服務(wù)市場的規(guī)模將達到 40 億美元,而在未來三年內(nèi),市場規(guī)模每年將以 35%的速度增長(洪小文, 2005)。 由于我國數(shù)字鴻溝的存在,農(nóng)業(yè)信息的獲得非常困難,特別是急需農(nóng)業(yè)科技信息和市場信息的企業(yè)、部門、農(nóng)戶, 他們通過傳統(tǒng)的綜合 搜索引擎 ,如 度等,并不能迅速找到自己想要的信息。 據(jù)不完全統(tǒng)計,在農(nóng)業(yè)領(lǐng)域現(xiàn)有各種網(wǎng)站約 1 萬個, 涉及農(nóng)、林、牧、漁、水利、氣象、農(nóng)墾、鄉(xiāng)鎮(zhèn)企業(yè)、及其 他 農(nóng)業(yè)部門 ,網(wǎng)頁共計 150 萬篇,在這些海量的信息中,搜索一個準(zhǔn)確的信息已非常困難,而使用通用的搜索引擎則搜索到很多無關(guān)的信息,其根本原因在于網(wǎng)站中的大量信息是以非結(jié)構(gòu)化的形式存在,要實現(xiàn)信息的精確搜索,就需要研究專業(yè)的搜索引擎。因此,針對于中文農(nóng)業(yè)網(wǎng)頁,研發(fā)專業(yè)化的搜索引擎,實現(xiàn)農(nóng)業(yè)信息的精確搜索是本文研究的出發(fā)點之一。 “ 國家 農(nóng) 業(yè)科學(xué)數(shù)據(jù)中心 ” 是由國家科技部 “ 科 學(xué)數(shù)據(jù)共享工程” 支持建設(shè)的數(shù)據(jù)中心試點之一 , 由中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所主持 建設(shè) 。農(nóng)業(yè)科學(xué)數(shù)據(jù)中心是以滿足國家和社會對農(nóng)業(yè)科學(xué)數(shù)據(jù)共享服務(wù)需求為目的,立足于農(nóng)業(yè)部門,以數(shù)據(jù)源單位為主體,以數(shù)據(jù)中心為依托,通過集成、整合、引進、交換等方式匯集國內(nèi)外農(nóng)業(yè)科技數(shù)據(jù)資源,并進行規(guī)范化加工處理,分類存儲, 在 農(nóng)業(yè)領(lǐng)域 形成擁有 12 大類 60 個主體數(shù)據(jù)庫 600 個數(shù)據(jù)庫(集) 的 農(nóng)業(yè)科學(xué)數(shù)據(jù)資源中心,然后通過網(wǎng)絡(luò)向全社會提供共享服務(wù) 。 “ 農(nóng)業(yè)科學(xué)數(shù)據(jù)中心 ”的用戶主要通過農(nóng)業(yè)科學(xué)數(shù)據(jù)中心 的 網(wǎng)站來定 位、查詢和下載所需要的農(nóng)業(yè)科學(xué)數(shù)據(jù)。 由于 國家 農(nóng)業(yè)科學(xué)數(shù)據(jù)中心是通過 的數(shù)據(jù)庫來提供服務(wù)的,在這龐大的數(shù)據(jù)資源中,信息檢索是查詢和發(fā)現(xiàn)數(shù)據(jù)的重要手段,如何給用戶提供一個良好的 據(jù)庫群檢索手段是項目 小 組努力的目標(biāo),這也是本研究的 另外一個 出發(fā)點。 中國農(nóng)業(yè)科學(xué)院碩士學(xué)位論文 第一章 引言 2 息檢索的相關(guān)性理論 “利用搜索工具獲取有用信息”業(yè)已成為互聯(lián)網(wǎng)用戶的主流選擇。那么,是不是說,互聯(lián)網(wǎng)搜索技術(shù)與應(yīng)用、商業(yè)模式與用戶需求已然臻于成熟了呢?答案是否定的。事實上,自上個世紀(jì)末至今,在互聯(lián)網(wǎng)數(shù)據(jù)搜索與挖掘技術(shù)領(lǐng)域尚未出現(xiàn)那種足以測 定刷新用戶體驗的“革命性創(chuàng)新”(洪小文, 2005)。 信息檢索的核心是解決信息定位問題,而信息定位準(zhǔn)確與否與用戶的實際需求相關(guān),因此檢索性能的好壞是靠檢索結(jié)果與用戶“本身是否相關(guān)”的體驗來完成的,因此就不可能形成像其他行業(yè)那樣統(tǒng)一的信息檢索的評價標(biāo)準(zhǔn)。 目前信息檢索相關(guān)性的研究主要來自兩個學(xué)科,一個是以 及 為代表的計算機學(xué)界,他們的研究工作主要是圍繞檢索系統(tǒng)展開,包括系統(tǒng)的分析、設(shè)計、檢索算法以及性能評估等,尤其重視研究表征用戶信息需求的查詢表達式與文檔或文 檔替代品的匹配算法與模型,布爾模型、向量空間模型、概率模型、神經(jīng)網(wǎng)絡(luò)等是其主要的研究成果。 另一個是來自于圖書情報界,代表人物包括 及 ,他們的研究重點是用戶或者檢索中介在檢索過程中的認(rèn)知、交互以及情境等層面(孫建軍等,2004)。 現(xiàn)在學(xué)術(shù)界把這里兩支隊伍分別稱為系統(tǒng)中心( 派以及用戶中心( 派,前者以檢索系統(tǒng)的內(nèi)部機制為研究重點,后者則以用戶以及用戶與系統(tǒng)的交互 為研究重點。盡管二者的區(qū)分明顯,不過他們研究的目的是共同的,即都以提高檢索系統(tǒng)的性能以及用戶的滿意度為己任(孫建軍等, 2004)。 向系統(tǒng)的相關(guān)性 面向系統(tǒng)的相關(guān)性也稱之為系統(tǒng)觀的相關(guān)性,源于信息檢索系統(tǒng)的理論與實踐,概念上是指用戶信息需求的檢索語言描述與系統(tǒng)中文檔的檢索語言描述之間的匹配關(guān)系。系統(tǒng)觀的相關(guān)性必須接受 3 個基本假設(shè): 查詢表達式中的主題詞足以描述用戶真實的信息需求。 賦予文檔的主題詞足以概括文檔的主題內(nèi)容。 匹配的結(jié)果恰為與用戶真實的信息需求相關(guān)的文檔集合。 系統(tǒng)觀的相關(guān)性認(rèn) 為,相關(guān)性是系統(tǒng)的內(nèi)在機制,也就意味著所有檢索出的文檔都是和用戶相關(guān)的,同時主題詞在表示內(nèi)容或者意義方面必須精確一致,也就是說,甲和乙輸入相同的檢索問題,會得到完全相同的輸出信息, 目前 這種純以主題決定相關(guān)的做法,依然是信息檢索系統(tǒng)的主流(孫建軍等, 2004)。 向用戶的相關(guān)性 以用戶為中心的相關(guān)性主要研究用戶以及用戶或者檢索中介與系統(tǒng)之間的關(guān)系,該類型的相關(guān)性是主觀的,不過根據(jù)主觀程度的不同,現(xiàn)在學(xué)界又將其分為信息觀的相關(guān)性以及情境觀的相關(guān)性。 中國農(nóng)業(yè)科學(xué)院碩士學(xué)位論文 第一章 引言 3 信息觀的相關(guān)性是指查詢請求與文檔之間的概念關(guān)聯(lián)性判 斷,而判斷則主要是基于信息問題與信息外在表現(xiàn)間的關(guān)系,判斷的實質(zhì)是判斷者內(nèi)在的知識儲備,其基本假設(shè)是檢索中介能夠全權(quán)代表實際用戶完成文檔的相關(guān)性判斷,標(biāo)引者能代表用戶完成文檔“關(guān)于性”的判斷,主題專家或者研究者在信息檢索系統(tǒng)的測試中能夠代替用戶完成查詢與文檔間的評估等(孫建軍等,2004)。 情境觀的相關(guān)性描述了信息與用戶信息問題情境之間的關(guān)系。情境觀的相關(guān)性認(rèn)為只有用戶才能完成有效的相關(guān)性判斷,該觀點與信息觀的相關(guān)性相比,在主觀性方面更前進了一步(孫建軍等, 2004)。 結(jié) 盡管描述相關(guān)性的術(shù) 語存在差異,研究的角度也存在顯著的不同,但是學(xué)者們在相關(guān)性判斷方面已經(jīng)達成下列共識: 系統(tǒng)性,系統(tǒng)觀的相關(guān)性盡管是非常重要的,仍然是目前信息檢索系統(tǒng)主要的實現(xiàn)形式,但僅僅依賴它是顯然不夠的。 主觀性,即依賴于人(包括用戶以及非用戶)的判斷,并且它不是文獻或信息的內(nèi)在特征。 認(rèn)知性,即檢索結(jié)果總是依賴于人的知識以及理解。 情境性,即與個體用戶的信息問題緊密相連。 多維性,即受到多因素的影響。 動態(tài)性,即隨著時間的推移不斷變化。 可測度性,即在某個特定的時刻是可觀察的。 總而言之,相關(guān)性的評估是與 用戶的經(jīng)驗、認(rèn)知狀態(tài)以及思考緊密相連的,相關(guān)性判斷只能由最初的信息查詢者完成。用戶的信息需求情境是一個典型的動態(tài)變化的情境,獲得了新的信息之后,是可以更新以及修正的。相關(guān)性評估包括多個層面的交互,這些層面不僅僅包括用戶的情境以及目標(biāo)、用戶的知識水平以及信念、被評估的信息、信息的表達方式、環(huán)境中其他信息的可獲取性、時間、在獲得這些信息過程中的獲益 與 消耗等。 究內(nèi)容和方法 題的提出 目前最大的搜索引擎 索引的頁面數(shù)量占 量 30%40%,但人們發(fā)現(xiàn)仍然是很難(或不可能) 檢索到與他們的信息需求相關(guān)的信息,特別是通過對網(wǎng)絡(luò)上數(shù)據(jù)庫的檢索。網(wǎng)絡(luò)用戶通常不滿意他們所獲得的結(jié)果 , 就是一個很好的例證。 中國農(nóng)業(yè)科學(xué)院碩士學(xué)位論文 第一章 引言 4 圖 1統(tǒng) 統(tǒng)模型 R 題的癥結(jié)在于傳統(tǒng)的檢索模型性中(如圖 1示)的三個基本假設(shè)中的兩個環(huán)節(jié)出現(xiàn)了問題: 用戶以關(guān)鍵詞提交查詢請求。 采用關(guān)鍵詞匹配技術(shù)來生成結(jié)果文檔集。 這兩個部分方法雖然簡單,但是可能會導(dǎo)致信息檢索工作出現(xiàn)問題。 以關(guān)鍵詞作為用戶的查詢請求,排除了用戶個體的差異性,即只要 用戶使用了相同的關(guān)鍵詞作為查詢請求,便可認(rèn)為用戶具有相同的檢索意圖,把用戶認(rèn)為是靜態(tài)的,而根據(jù)用戶相關(guān)性的觀點,用戶的需求情境是一個典型的動態(tài)變化過程,用戶的檢索需求是跟用戶內(nèi)在的知識儲備、經(jīng)驗、認(rèn)知狀態(tài)以及情緒等緊密相連的。 以標(biāo)引詞為基礎(chǔ)的檢索通常會形成這樣一種觀念:文獻的語義和用戶信息需求的語義可以用標(biāo)引詞集合來表示。這就把問題過于簡單化了,因為用標(biāo)引詞集合來代替文檔的時候 會丟失很多原來的語義。 如何解決這個問題呢?本文提出要圍繞用戶信息需求,以用戶為中心,通過“ 二次主題漂移”技術(shù)來逼近 用戶檢索需求 。當(dāng) 然,要完全滿足用戶的信息需求,建立一個大而全、精而準(zhǔn)的檢索系統(tǒng)是一個非常難的過程,本文僅選取中文農(nóng)業(yè)網(wǎng)頁檢索作為研究的對象,并把“ 二次主題漂移”技術(shù)貫穿在系統(tǒng)設(shè)計和實現(xiàn)中,企望研究結(jié)果能夠?qū)χ形男畔z索研究起到一定的推動作用。 要研究內(nèi)容 本文的研究包括四個方面的內(nèi)容。 ( 1)提出以滿足用戶需求為中心的“ 二次主題漂移” 檢索模式實現(xiàn)路線圖 “ 二次主題漂移” 檢索模式是把全文檢索與語義檢索結(jié)合起來,以滿足用戶檢索需求為中心,通過逐步逼近的方法實現(xiàn)信息檢索的一種技術(shù)。 首先,利用全文檢索技術(shù)來實現(xiàn)第一次 主題漂移,即從“關(guān)鍵詞”到“文檔”的漂移,把用幾個關(guān)鍵詞來表示用戶信息檢索需求漂移到用一篇文檔來表示用戶的需求。全文檢索的優(yōu)勢在于統(tǒng) 索引集 文檔集 1、按 文檔邏輯模型 構(gòu)建索引 2、檢索需求轉(zhuǎn)換為 查詢關(guān)鍵詞 人機交互接口 3、按匹配模型計算 返回結(jié)果 4、返回數(shù)據(jù)匹配的結(jié)果 中國農(nóng)業(yè)科學(xué)院碩士學(xué)位論文 第一章 引言 5 具有較高的查全率,本文認(rèn)為如果文檔中含有檢索關(guān)鍵詞,則該文檔一定符合了某一個查詢請求,由于用戶查詢的情境點不同,則文檔是否接近當(dāng)前用戶的查詢請求,也理應(yīng)由用戶自身去判斷。 然后,利用語義檢索技術(shù)實現(xiàn)第二次主題漂移,即從“文檔”到“文檔”的漂移,用表示用戶需求的一篇文檔作為新的檢索起點,利用文檔相似性原理,檢索出更多符合用戶需求的新文檔。 ( 2)基于 法的語義檢索技術(shù)研究 要 實現(xiàn)“ 二次主題漂移” 檢索模式,就要建立全文檢索技術(shù)和語義檢索技術(shù),目前全文檢索技術(shù)已經(jīng)非常成熟,我們利用開源項目 實現(xiàn),所以本文重點研究基于 法的語義檢索技術(shù)。 法是潛在語義索引( 最新算法, 法目前在國外研究的比較普遍,但其實現(xiàn)部分主要是在 臺上,在國內(nèi)還處于起步階段,因此分析 法,將這套算法移植到 臺上,并根據(jù)中文的特殊性和運行平臺的特殊性,對算法進行改進,把改進的算法用在潛在語義索引上,實現(xiàn)文擋相關(guān)性的判斷,從而實現(xiàn)第二次主題漂移。 ( 3) 構(gòu)建 基于 法的 中文農(nóng)業(yè)信息檢索 實驗系統(tǒng),驗證大規(guī)模文檔集下 法的可行性和“ 二次主題漂移” 技術(shù)的可行性 一種檢索技術(shù)能否處理大規(guī)模文檔非常重要,也是一種理論或數(shù)學(xué)模型能夠走出實驗室成為實用化系統(tǒng)的重要標(biāo)志。 因此,通過構(gòu)建一個實驗系統(tǒng),驗證本文對 法的改進是否合理,其次是驗證 法處理大規(guī)模文檔的能力。 利用北京大學(xué) 試集作為大規(guī)模文檔集的測試用例,全面驗證 法。然后利用國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心 10 個主題數(shù)據(jù)庫中的 10 萬條記錄,利用 文檢索的開源項目和 術(shù)封裝 索引擎,利用兩種不同原理的引擎,在真實數(shù)據(jù)的基礎(chǔ)上進一步驗證“ 二次主題漂移” 技術(shù)的可行性。 ( 4) 基于 文農(nóng)業(yè)網(wǎng)頁搜索系統(tǒng)的設(shè)計與實現(xiàn) 利用作者所在研究室建立的中文農(nóng)業(yè)網(wǎng)址庫,利用網(wǎng)頁自動獲取程序定期訪問農(nóng)業(yè)網(wǎng)站的網(wǎng)頁,并采用網(wǎng)頁內(nèi)容自動分析工具和網(wǎng)頁自動分類工具將獲取的農(nóng)業(yè)網(wǎng)頁,并分別建立全文索引和 義 索引,最終實現(xiàn)一個專業(yè)化的 支持“二次主題漂移”檢索模式 中文農(nóng)業(yè)網(wǎng)頁搜索系統(tǒng) ( 系統(tǒng)簡稱: 農(nóng)搜)。 究思路和方法 ( 1) 用戶信息需求 是檢索的出發(fā)點 信息檢索( 對信息項進行表示、存儲、組織和存取。對信息項的表示和組織應(yīng)該為用戶提供其感興趣信息的方便存取(陳馥瑛, 1999)。遺憾的是,對用戶信息需求( 行描述不是一個簡單的問題。 例如,在萬維網(wǎng)環(huán)境中考慮這樣的用戶信息需求:找出包含能滿足以下兩個條件的學(xué)院足球隊有關(guān)信息的所有網(wǎng)頁:該網(wǎng)球隊隸屬于中國的一所大學(xué);該足球隊參加中國學(xué)生體育協(xié)會舉辦的足球聯(lián)賽。為了保證相關(guān),檢索到的網(wǎng)頁必須包括該網(wǎng)球隊在過去三年全國比賽中的名次及 其教練的電子郵件地址或電話號碼這樣的信息。 顯然,利用目前的互聯(lián)網(wǎng)搜索引擎,用戶不可能采用這種對用戶信息需求進行完整描述的方式檢索信息。取而代之的是,用戶必須首先將這些信息需求轉(zhuǎn)換為搜索引擎或 統(tǒng)能夠處理中國農(nóng)業(yè)科學(xué)院碩士學(xué)位論文 第一章 引言 6 的查詢語言。用戶在得到了初步的檢索結(jié)果之后只能采取調(diào)整關(guān)鍵詞的辦法來讓檢索系統(tǒng)搜索接近檢索主題的文檔 這種轉(zhuǎn)化以其最普遍的形式生成一組關(guān)鍵詞(或標(biāo)引詞),這些關(guān)鍵詞能夠?qū)τ脩粜畔⑿枨蟮拿枋鲞M行概括。給出用戶查詢后, 統(tǒng)的 首要目標(biāo) 就是檢索出可能對用戶有用或相關(guān)的信息,重點在信息檢索 (而不是數(shù)據(jù)檢索( 從文檔檢索的角度說,用戶檢索文檔的目的,最終是得到能夠滿足于自身需求相關(guān)的文檔,因此可以看出用戶的信息需求與系統(tǒng)檢索出的文檔是一一對應(yīng)的,也就是說雖然不可能知道每個獨立的檢索個體的需求是什么,但是可知系統(tǒng)所包含的文檔一定是能夠滿足某一個檢索用戶的需求,那么也就是說,用文檔作為查詢請求的而不是關(guān)鍵詞,更能趨近于用戶的信息需求,可是用戶在數(shù)據(jù)檢索所遺留的關(guān)鍵詞檢索習(xí)慣,使得信息檢索系統(tǒng)又不可能強迫用戶更改檢索習(xí)慣。 本文就從用戶信息檢索 需求出發(fā),研究信息的檢索技術(shù)。 ( 2) 數(shù)據(jù)檢索中融入信息(內(nèi)容)檢索才能更好滿足用戶的檢索需求 在 統(tǒng)環(huán)境下,數(shù)據(jù)檢索主要是確定某一集合中的 哪 些文檔包含用戶查詢中的關(guān)鍵詞,而這些關(guān)鍵詞通常不能滿足用戶的信息需求。事實上, 統(tǒng)的用戶更關(guān)心檢索有關(guān)某一主題的 信息 而不是檢索滿足給定查詢的 數(shù)據(jù) 。數(shù)據(jù)檢索語言的目的在于檢出所有明確滿足給定條件的對象,例如,檢出正規(guī)表達式或關(guān)系代數(shù)式中的對象。這樣,對于一個數(shù)據(jù)檢索系統(tǒng)來說,在檢出的 1000 個對象中,只要有一個是錯誤的,就意味著整體上的失敗。然而,對于信息檢 索系統(tǒng)來說,檢出的對象可以是不準(zhǔn)確的,并且很可能有察覺不出的錯誤。產(chǎn)生這種區(qū)別的主要原因是信息檢索系統(tǒng)處理的通常是自然語言文本,而人們總是不能使自然文本語言很好的結(jié)構(gòu)化,而且自然語言文本可能會有語義上的歧異。另一方面,數(shù)據(jù)檢索系統(tǒng)(如關(guān)系數(shù)據(jù)庫)處理的是那些已經(jīng)定義好結(jié)構(gòu)和語義的數(shù)據(jù)(王知津等, 2005)。 數(shù)據(jù)檢索可以為數(shù)據(jù)和系統(tǒng)的用戶提供某種方法,但無法解決檢索有關(guān)某個學(xué)科或主題的信息的問題。為了有效地滿足用戶信息需求, 統(tǒng)必須以某種方式“解釋”集合中信息項的內(nèi)容,并且根據(jù)與用戶查詢的相似度來排序。 這種對文獻內(nèi)容的“解釋”包括從文獻文本中提取語法和語義信息并將這些信息用于匹配用戶的信息需求。難點不僅在于如何提取這些信息,還在于如何運用它來確定相關(guān)性。因此,相關(guān)性( 概念就成為信息檢索的核心。事實上, 統(tǒng)的主要目標(biāo)就是檢索出所有與用戶查詢相關(guān)的文獻,并盡可能地避免檢索出不相關(guān)的文獻(王知津等, 2005)。 ( 3)采用“二次主題漂移” 檢索模式 可以逐步逼近用戶檢索需求 本文提出一種“二次主題漂移” 檢索模式 來快速趨近用戶需求,需要兩步走來完成 “ 關(guān)鍵詞 ” 到 “ 文檔 ” 第一次主題漂移 由于人的喜好各有不同,計算機應(yīng)用方面的能力參差不齊,寄希望于用戶自身提高用檢索詞來表達查詢意圖的做法是不可行的。這樣只有假設(shè)用戶在使用自然語言作為檢索詞 , 清楚 地 表達自己的檢索主題,而檢索系統(tǒng)通過自然語言處理( 手段來解決對用戶檢索需求的理解 。目前本體論( 自然語言的研究領(lǐng)域一直在做這方面的研究,但是由于中文語言歷史中國農(nóng)業(yè)科學(xué)院碩士學(xué)位論文 第一章 引言 7 悠久、內(nèi)涵豐富,自然語句歧義、縮略倒置等諸多語義結(jié)構(gòu)使得這方面的研究進展緩慢。而且這個問題即使使用人工智能等方法能夠解決,計算機所推理出的用戶檢索需求也是落后于當(dāng)前用戶的 情境點,因此本文把這類問題的解決直接交給用戶,首先使用全文檢索這種數(shù)據(jù)檢索的方式,根據(jù)用戶輸入的關(guān)鍵詞 , 匹配出能代表檢索主題的文檔集,在文檔集的基礎(chǔ)上由用戶根據(jù)自己當(dāng)前的情境點 , 來選擇文檔作為一個新的查詢請求,從用戶需求的角度上來說,當(dāng)用戶選擇了某一個文檔的時候,應(yīng)該說 , 這篇文檔一定程度上接近了用戶的檢索需求,本文認(rèn)為這是實現(xiàn)從 “ 關(guān)鍵詞 ” 到 “文檔” 的“第一次主題漂移” ,即認(rèn)為 用這個“文檔”可以更好地表示用戶當(dāng)前的檢索需求 。 “ 文檔 ” 到 “ 文檔 ” 第二次主題漂移 在完成了“第一次主題漂移”的基礎(chǔ)上,也就是說用 戶所選擇的文檔在一定程度上接近了用戶的檢索需求,那么通過把這篇具有完整語義的文檔作為新的查詢請求,通過文檔相似性的分析,檢索出與這個文 檔匹配的文檔 集,應(yīng)該說這個文 檔集中的文檔 更趨近于用戶的檢索需求,本文稱之 為“第二次主題漂移”。反復(fù)循環(huán)“二次漂移”這個過程,就能夠快速地 完成用戶的查詢請求?!暗诙沃黝}漂移”的核心是通過文擋邏輯視圖的不斷優(yōu)化,使得文檔的索引文件中的數(shù)學(xué)結(jié)構(gòu)能夠較好 地 體現(xiàn)文檔相關(guān)性這一重要特 性,從而在對代表用戶選擇的檢索文檔進行匹配運算時能夠較好 地 返回 文檔來。由于文檔邏輯視圖便于計算機實現(xiàn)且數(shù) 學(xué)模型構(gòu)建相對容易,目前這方面的進展很多 , 主要有布爾模型、向量模型和概率模型,這三種模型又稱為經(jīng)典模型。隨著時間的推移,經(jīng)典模型又發(fā)展出各自新的數(shù)學(xué)模型,其中潛在語義索引( 是 本文所感興趣的一種數(shù)學(xué)模型,研究該數(shù)學(xué)模型以及解決該模型當(dāng)前所面臨的問題也正是本文的切入點和主要工作。 文的寫作框架 首先通過研究背景的分析在緒論中提出“二次主題漂移”檢索 模式 。第二章綜述全文檢索與語義檢索技術(shù),為后面的研究奠定技術(shù)基礎(chǔ)。第三章提出基于 法的語義檢索技術(shù)實現(xiàn)方法,第四章 根據(jù) 第三章介紹的 法,構(gòu)建一個實驗系統(tǒng),驗證

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論