信息采集技術_第1頁
信息采集技術_第2頁
信息采集技術_第3頁
信息采集技術_第4頁
信息采集技術_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

信息采集技術信息產品的加工4/5一、周遍性信息的處理對一種或多種相關信息進行加工,并深入信息內部對檢索關鍵字詞進行周遍性或選擇性標引,使信息索引化使隱藏變顯現、使無序變系統(tǒng)、使封閉變開放形式有全文檢索系統(tǒng)、功能信息系統(tǒng)等1、全文檢索系統(tǒng)源自情報檢索系統(tǒng)情報檢索系統(tǒng)旨在加工、存儲、編排文獻,并為用戶的查詢提供相關的輸出給文獻資料賦予檢索標識是情報檢索的基礎全文檢索是一種內容索引源自語詞索引-將文獻中的字或詞作為標引對象,并指明其在文獻中的具體地址,使用戶能夠找到該字或詞在文獻中的具體出處全文檢索是在用戶不滿足僅查到簡單的書目信息的背景下產生的,用戶希望系統(tǒng)能夠找到所需的詞、字信息,并能提供檢索要求的原始文獻信息全文檢索系統(tǒng)美國的Dialog全文檢索系統(tǒng)-全文數據庫將文獻全文以機讀版的形式存儲起來,并可與相應的軟件配合提供文中檢索和全文輸出的數據庫-全文數據庫的各類出版方式:印刷型平行出版的全文庫/純電子出版物存儲內容:直接原文型/摘錄型應用領域:法律法規(guī)/期刊/商情/新聞消息/醫(yī)學等全文檢索系統(tǒng)綜上所述,其概念描述為:具有全文數據庫,具備全文編輯、加工和檢索功能,允許用戶以自然語言進行檢索并獲取原文的系統(tǒng)特點:檢索結果的直接性和可靠性檢索的詳盡性和徹底性用戶使用的便捷性標引方法簡單,具有較好的一致性和通用性全文檢索系統(tǒng)功能:位邏輯檢索/截詞檢索/字符串檢索/限定檢索/同義詞檢索/后控制表輔助檢索開發(fā):數據庫準備→全文數據庫的建立→文本檢索功能的實現文件組織形式/記錄分割技術/檢索標識的提取檢索模型的構造與選取/檢索算法的設計漢字全文檢索系統(tǒng)的模式-1單漢字無標引全文檢索系統(tǒng)基本思想:以單個漢字作為標引的基本單元。在檢索時,對不屬于停用詞范疇的單個漢字進行邏輯與運算,即對標引字所代表的概念層面進行后組配,從而獲得檢索結果。特點:以單漢字為標引單元,避免了分詞的障礙;組配靈活,標引深入;標引客觀且一致;隱含截詞功能;操作簡單,維護方便。檢索效率供,速度慢,浪費空間,用戶使用分析較困難。漢字全文檢索系統(tǒng)的模式-2全文后控檢索系統(tǒng)基本思想:針對完全自然語言檢索法存在的檢索策略困難和檢全率較低的問題提出的,充分發(fā)揮自然語言和受控語言的各自優(yōu)勢,通過采用后控詞表對系統(tǒng)加以控制,達到擴檢的作用。特點:以單漢字為標引單元,避免了分詞的障礙;組配靈活,標引深入;標引客觀且一致;隱含截詞功能;操作簡單,維護方便。檢索效率供,速度慢,浪費空間,用戶使用分析較困難。檢索詞不受限制,檢索方便,易用,標引簡便快速,統(tǒng)一性好詞間詞義清晰,選詞沒有限制漢字全文檢索系統(tǒng)的模式-2后控詞表:由一個概念之下的各種相關、近義、同義的詞組成的一個詞表片段,在各詞之間建立指引關系。類似于主題詞表或入口詞表,是一種轉換工具,一種擴檢工具,一種羅列自然語言檢索標識供選擇的工具。-搜狗拼音輸入法/智能狂拼輸入法等漢字全文檢索系統(tǒng)的模式-2例:后按詞表片段:Y:用-指向同義詞,正式詞匯,屬等同關系D:代-指向同義詞,非正式詞匯屬等同關系C:參-指向相關或近義詞,屬相關關系用戶檢索:”李太白+詩“執(zhí)行步驟:…{李白 D李太白,青蓮居士,詩仙}...{李太白 Y李白}{青蓮居士Y李白}...{詩 C詩作,詩集,詩選,詩評}...{詩集鑒賞Y詩評}{詩集 C詩,詩選,詩作}{詩評 C詩,詩作,詩選,詩集 D詩詞鑒賞}{詩仙 Y李白}{詩選 C詩,詩集,詩作}{詩作 C詩,詩集,詩選}漢字全文檢索系統(tǒng)的模式-3單漢字標引與后控詞表相結合的全文檢索系統(tǒng)全文檢索系統(tǒng)的發(fā)展單一→網絡化全文數據庫與全文檢索系統(tǒng)相分離向多媒體(文本、圖像、聲音)一體化發(fā)展文本技術與全文檢索技術相結合向智能化方向發(fā)展2、功能信息指文獻內部隱含的、潛在的各種有檢索和開發(fā)利用價值的信息深入文獻,挖掘新質信息特點:以文獻內部的單元信息為加工對象對文獻的加工具有系統(tǒng)性和周遍性作用:方便使用幫助用戶理順檢索課題的邏輯關系提供了系統(tǒng)開發(fā)利用深層次文獻信息的途徑完善了信息加工處理體系二、鑒選性信息的提取通過調查研究并根據需要對各種信息進行鑒別評價、篩選,聚其精華或錄其整篇或匯成系統(tǒng)其形式有文獻匯編、精粹節(jié)錄等1、信息匯編概念:是按一定的目的和方法,依據一定的時間和空間標準,就某一學科/專題、人物、事件范圍的相關原始文獻進行審讀、鑒評、聚合、結集、整理而成的信息加工產品1、信息匯編特點:以專題或學科為范圍,復印原文,一字不易,集萬冊為一集,質量高,信息含量大,針對性強,用戶對象明確是對一次文獻進行加工、整理的產物,因而具有二次文獻所特有的廣泛性、系統(tǒng)性、檢索性、動態(tài)性1、信息匯編作用:節(jié)約用戶瀏覽、尋覓、鑒選資料的時間便于學術交流和科學研究便于回顧、總結學術發(fā)展、把握學術動態(tài)便于用戶購買和收藏定題情報服務1、信息匯編信息匯編的編制原則:新穎性原則客觀性原則全面性原則價值取向性原則區(qū)別對待性原則連續(xù)性原則1、信息匯編信息匯編的步驟選題→選材→分類→系統(tǒng)編排編制實例:《WebofScience-SCIExpanded(2000年)收錄的中國期刊論文精品資料匯編》1、信息匯編信息匯編的現狀及發(fā)展趨勢呈現載體:印刷本與電子版共存覆蓋學科:社科類,自然科學類等匯編選題:新穎性,獨特性存在欠缺匯編選材:文獻類型單一、語種單一、時間感不強、材料陳舊,主觀性強、客觀性差匯編過程:注意版權問題2、精粹信息概念: 原始文本中隱含的有價值的觀點、方法、資料、事實、結論等片段語句信息加工處理方法:描述文獻的外表特征,提供文獻的出處線索揭示文獻的整體信息,提供文獻的內容梗概處理文獻中的詞語同內容,提供周遍性的信息鑒選文獻中的單元信息,提供文獻中的原始信息研究文獻的內容特點,提供參考決策信息鏈接文獻的相關信息,提供網狀的關聯信息2、精粹信息特點:過濾冗余信息,獲取精華信息是文獻中的片斷,而非全部智力含量較重,機械加工成分少作用:過濾信息,消除污染

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論