![情報檢索系統(tǒng)信息組織_第1頁](http://file4.renrendoc.com/view/22a147f167af2a7e429576edfd8dcda7/22a147f167af2a7e429576edfd8dcda71.gif)
![情報檢索系統(tǒng)信息組織_第2頁](http://file4.renrendoc.com/view/22a147f167af2a7e429576edfd8dcda7/22a147f167af2a7e429576edfd8dcda72.gif)
![情報檢索系統(tǒng)信息組織_第3頁](http://file4.renrendoc.com/view/22a147f167af2a7e429576edfd8dcda7/22a147f167af2a7e429576edfd8dcda73.gif)
![情報檢索系統(tǒng)信息組織_第4頁](http://file4.renrendoc.com/view/22a147f167af2a7e429576edfd8dcda7/22a147f167af2a7e429576edfd8dcda74.gif)
![情報檢索系統(tǒng)信息組織_第5頁](http://file4.renrendoc.com/view/22a147f167af2a7e429576edfd8dcda7/22a147f167af2a7e429576edfd8dcda75.gif)
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
情報檢索系統(tǒng)中的
信息組織第一頁,共十八頁。目標情報檢索定義:信息單元的表示、存儲、組織和存取旨在滿足用戶的信息需求用戶的信息需求例如:找到關于姚明在休斯敦火箭隊的所有文獻,包含(1)他與其他幾位中國球員的交往
或(2)他與女友的交往;重點在查找相關信息,而不是數(shù)據(jù)第二頁,共十八頁。數(shù)據(jù)檢索DataRetrieval文獻包含的關鍵詞是數(shù)據(jù)含義固定一點小錯誤會造成查找失敗情報檢索Informationretrieval關于一個主題或話題的信息含義常常比較寬松,有一定范圍允許一些錯誤,不影響查到相關內(nèi)容情報檢索系統(tǒng)IRsystem:對信息對象內(nèi)容的解釋排序反映了相關性相關性是最重要的概念第三頁,共十八頁。情報檢索時代的來臨情報檢索已不是圖書情報領域關心的課題,隨著萬維網(wǎng)的來臨,一躍成為受人關注的關鍵技術之一。第四頁,共十八頁?;灸P陀脩裟繕藱z索信息或數(shù)據(jù)有目的地瀏覽隨意沖浪F1;cars,LeMans,France,tourismRetrievalBrowsingDatabase第五頁,共十八頁?;靖拍钗募倪壿嬕晥D數(shù)字化文本可以用全文進行索引,而不必只取“關鍵詞”或“分類號”結構分詞禁用詞名詞
詞組詞干/同義詞人工標引文件結構提取全文索引詞第六頁,共十八頁。用戶界面文本操作提問式操作標引檢索排序索引文本提問用戶需求用戶反饋經(jīng)過排序文件獲取文件邏輯視圖邏輯視圖倒排檔數(shù)據(jù)庫管理模塊4,106,75828文本數(shù)據(jù)庫文本情報檢索流程第七頁,共十八頁。簡介情報檢索系統(tǒng)采用索引詞處理提問(匹配)索引詞:關鍵詞或者規(guī)范詞任意詞用到切分或截詞:connect:connecting,connection,connections倒排檔用于查檢操作第八頁,共十八頁。Introduction文件信息需求索引詞文件提問排序匹配第九頁,共十八頁。簡介排序是檢出文獻對于用戶提問的相關程度的順序以下原因造成問題:索引詞的匹配不太精確用戶常常會不滿足由于用戶沒有經(jīng)過提問式編寫的培訓,檢索效果會更糟Web上的情報檢索更是如此相關性的測度成為匹配與排序的關鍵問題第十頁,共十八頁。情報檢索模型非重疊列表最近節(jié)點結構化模型
檢索:
實際上是信息過濾瀏覽
用戶目的傳統(tǒng)模型
布爾模型矢量模型概率模型集合論
模糊理論
擴展的布爾邏輯概率論
推理網(wǎng)絡
信任網(wǎng)絡代數(shù)論
普通矢量
語義索引神經(jīng)網(wǎng)絡瀏覽
平面結構結構指南超文本第十一頁,共十八頁。情報檢索模型情報檢索模型,文件的邏輯視圖,以及檢索任務是情報檢索的三個不同方面第十二頁,共十八頁。經(jīng)典模型–基本概念每篇文獻用關鍵詞或索引詞來代表索引詞是特定文獻中有意義的或代表文獻主題的詞通常索引詞為名詞,因為只有名詞自身才有意義然而搜索引擎將所有詞都進行索引,成為全文索引第十三頁,共十八頁。但是并不是所有詞對于特定文獻都具有相等的代表性:低頻詞更能區(qū)分文獻(具有更小的命中文獻集合)索引詞的重要性由賦予它的權重決定如
ki為一索引詞dj為一文獻
wij為(ki,dj)的權重權重wij
代表了索引詞ki在文獻dj中的重要性經(jīng)典模型–基本概念第十四頁,共十八頁。ki為一索引詞dj為一文獻
t是檢索系統(tǒng)中文獻的總數(shù)K=(k1,k2,…,kt)索引詞集合wij>=0是與(ki,dj)相關的權重wij=0表示該詞不在某篇文獻dj中vec(dj)=(w1j,w2j,…,wtj)是關于文獻dj的權重矢量gi(vec(dj))=wijis是返回關于(ki,dj)權重的函數(shù)經(jīng)典模型–基本概念第十五頁,共十八頁。數(shù)字圖書館中的情報檢索一般認為數(shù)字圖書館是:數(shù)字對象的集合所構成的資源庫;描述這些數(shù)字對象的元數(shù)據(jù)庫;實用這些數(shù)字對象的目標用戶;提供各種服務(捕捉、標引、編目、查詢、瀏覽、檢索、傳遞、存檔、長期保存等)的系統(tǒng)第十六頁,共十八頁。數(shù)字圖書館與情報檢索情報檢索對于數(shù)字圖書館是至關重要的,可以使數(shù)字圖書館更為高效而且易于使用情報檢索同時是數(shù)字圖書館的一個很重要的研究領域和核心技術之一第十七頁,共十八頁。內(nèi)容總結情報檢索系統(tǒng)中的
信息組織。情報檢索定義:信息單元的表示、存儲、組織和存取。connect:connecting,connection,connections。排序是檢出文獻對于用戶提問的相關程度的順序。經(jīng)典模型–基本概念。經(jīng)典模型–基本概念。通常索引詞為名詞,因為只有名詞自身才有意義。但是并不是所有詞對于特定文獻都具有相等的代表性:低頻詞更能區(qū)分文獻(具有更小的命中文獻集合)。索引詞的重
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 活法讀后感(精彩5篇)
- 2025年云南省職教高考《職業(yè)適應性測試》考前沖刺模擬試題庫(附答案)
- 《內(nèi)容策劃與編輯》期末考試題庫及答案
- 第一章 地球(單元測試)(解析版)
- 2025年江西泰豪動漫職業(yè)學院高職單招職業(yè)技能測試近5年??及鎱⒖碱}庫含答案解析
- 陜西省寶雞市高三教學質(zhì)量檢測語文試題(含答案)
- 2025年民用航空運輸行業(yè)趨勢與市場潛力分析
- 勞務分包合同零工
- 假期守校合同協(xié)議書
- 合同范本之采購合同中英文對照
- 四川省自貢市2024-2025學年上學期八年級英語期末試題(含答案無聽力音頻及原文)
- 2025年上海用人單位勞動合同(4篇)
- 新疆烏魯木齊地區(qū)2025年高三年級第一次質(zhì)量監(jiān)測生物學試卷(含答案)
- 衛(wèi)生服務個人基本信息表
- 高中英語北師大版必修第一冊全冊單詞表(按單元編排)
- 技術交易系統(tǒng)的新概念
- 通用電子嘉賓禮薄
- 春節(jié)習俗中的傳統(tǒng)節(jié)日服飾與裝扮
- (完整word版)英語四級單詞大全
- 武裝押運操作規(guī)程完整
- 薪酬專員崗位月度KPI績效考核表
評論
0/150
提交評論