




下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、【標題】信息整流和知識增值服務 【內容提要】本文提出數(shù)字圖書館的主要功能目標是信息整流與知識增值服務;信息與知識轉換是數(shù)字圖書館的關鍵理論和技術問題。圖書館受到Internet的巨大沖擊、不再是文獻信息服務的唯一提供者,數(shù)字圖書館如何才能挽回失去的老用戶,吸引新用戶?知識管理工程將使數(shù)字圖書館成為21世紀學習的大平臺、文化知識的大平臺和知識資源中心?!菊?#160; 要 題】信息服務1數(shù)字圖書館的信息整流數(shù)字圖書館把傳統(tǒng)圖書館的功能由信息的查詢和圖書資料的借閱擴展到知識服務的新階段。實現(xiàn)這一宏偉目標需要解決許多技術和
2、社會問題,其中有兩個最關鍵的技術是信息的整流和知識的創(chuàng)新。前者涉及數(shù)字圖書館的知識鏈建立問題,后者涉及數(shù)字圖書館的信息變換成知識的知識增值服務問題。1.1數(shù)字圖書館的知識鏈數(shù)字圖書館是一個龐大的數(shù)字資料庫,包括所有資料的數(shù)字化存儲,在線網(wǎng)上資料、多媒體資料、電子出版物等。數(shù)字圖書館根據(jù)用戶對信息的不同需求,將文本、圖片等原件制作成不同數(shù)字形式。一般有純圖像形式,目錄文本形式,正文圖像形式,全文本形式和全文索引形式。但關鍵還是知識鏈的建立。為實現(xiàn)知識鏈信息,數(shù)字圖書館將資源分成為元數(shù)據(jù)和對象數(shù)據(jù)。對象數(shù)據(jù)指數(shù)字化的文本、圖像、聲言、影像等,元數(shù)據(jù)則指那些描述和管理對象的數(shù)據(jù)。對象數(shù)據(jù)分布式地存放
3、在各地的資源站點內,元數(shù)據(jù)則集中存放在數(shù)字圖書館中心的超大規(guī)模服務器上。用戶查詢時,中心調度系統(tǒng)通過元數(shù)據(jù)來調度各對象數(shù)據(jù)庫以提供服務。知識的控制單位長期停留在文獻這一級上,而人對知識的需求一般不是以文獻為單位的。早在20世紀70年代后期就有專家指出,知識的控制單位將從文獻深化到文獻中的數(shù)據(jù)、公式、事實、結論等最小的獨立的“知識元”。一旦實現(xiàn)知識的控制單位由文獻深化到“知識元”,大量文獻中所包含的“知識元”及相關信息間的鏈接將產(chǎn)生極大的知識增值,從而大大推進人類對知識的利用,促進新知識的創(chuàng)造,從而也將推動知識資源業(yè)的重大發(fā)展1。一篇文獻反映作者的科學研究成果,包含著作者的知識創(chuàng)新的過程。于是文
4、本結構本身就隱含著對某學科問題的知識鏈。假如我們把每篇文獻的知識看成是人類知識結構中的一個知識單元,知識單元與知識結構就組成了個性知識與共性知識的知識系統(tǒng)。個性知識體現(xiàn)在知識的創(chuàng)新上,共性知識結構則表現(xiàn)在知識的完整性上。于是我們就建立了個性知識與共性知識的知識鏈。事實上,專利文獻就明顯地表現(xiàn)了個性知識單元與人類知識結構的知識創(chuàng)新鏈關系2。數(shù)字圖書館對文本的知識標引,既體現(xiàn)了標引者應用學科知識結構的背景知識的能力,同時又體現(xiàn)了標引者識別和提煉作者的知識創(chuàng)新點的判斷和知識組織能力。因此,是一個知識鏈建立的知識增值過程。1.2數(shù)字圖書館的知識發(fā)現(xiàn)知識鏈的建立過程是知識發(fā)現(xiàn)和知識再組織的過程。知識發(fā)現(xiàn)
5、的主要目標是采用有效的算法,從大量現(xiàn)有或歷史數(shù)據(jù)集合中發(fā)現(xiàn)并找出最初未知、但最終可理解的有用知識,并用簡明的方式顯示出來。知識發(fā)現(xiàn)一般包含如下幾個步驟:(1)理解相應的問題領域;(2)準備相關數(shù)據(jù)子集;(3)發(fā)現(xiàn)模式(數(shù)據(jù)挖掘);(4)所發(fā)現(xiàn)模式的后處理;(5)應用發(fā)現(xiàn)結果。(1)文本知識結構分析技術盡管與多媒體信息相比,文本信息顯得比較普通,但文本仍然是記載和傳播信息的最主要媒體,因此對文本信息知識發(fā)現(xiàn)技術的研究具有十分重要的意義和廣泛的應用前景。文本結構分析的目的在于發(fā)現(xiàn)文本表達主題概念的物理組織結構,由物理結構自動重組主題概念的邏輯結構,實現(xiàn)對文本知識的抽象化和具體化推理檢索。文獻3把文
6、本結構分成物理結構和邏輯結構。物理結構=標題,段落,句子,詞匯,它表示了文本的組成情況。可采用向量空間模型表示文本及文本各個部分,進行文本結構分析,其中主要是文本的層次分析,從而得到文本的邏輯結構。邏輯結構=主題,層次,段落,句子,主題詞,它更著重于表示文本所包含的思想內容和表達的邏輯方式。(2)知識鏈結構文本的物理結構是文本的外表形式,邏輯結構體現(xiàn)了作者表達目的的邏輯順序,而文本的知識鏈結構則是作者的目的和靈魂,知識鏈結構=問題,已有解的優(yōu)缺點,新解的方案,性能評價,今后方向。研究文本的目的是為了獲得文本的知識鏈,以創(chuàng)建新的知識鏈。引文方法是一種很好的文獻鏈,表現(xiàn)了引用文獻與被引用文獻之間的
7、多種關系。但它并不完全直接表現(xiàn)知識鏈關系。文獻鏈是一種龐大的文獻引用系統(tǒng)。知識鏈則是一種巨大的知識引用系統(tǒng)。若能完成這一巨大的系統(tǒng),人類將可能進行更有效的知識學習。1.3信息整流的實現(xiàn)知識鏈是文本知識結構的普遍特性,是人類學習、創(chuàng)新的紐帶。信息整流與信息濾波不同。信息濾波的目的主要有兩點,即過濾掉不相關的文檔以及將相關文檔列表分為新的文檔和已經(jīng)查閱過的文檔,并按相似度大小排序,對已檢索的相關文檔,通知信息Agent不必返回全文文檔,以減少通信費用。信息整流的目的在于建立數(shù)字圖書館的知識鏈庫,提供知識鏈服務。信息整流是建立知識鏈的過程。從全文提取出知識單元,形成獨立的知識基礎,構成知識單元庫,把
8、各種知識單元庫進行鏈接,構成數(shù)字圖書館廣泛的知識網(wǎng)絡庫。知識網(wǎng)絡庫形成了學科橫向交叉和學科縱向延伸的科學知識體系。描述了人類知識學習和知識創(chuàng)新的知識網(wǎng)絡結點。把人類知識學習和創(chuàng)新活動之間的距離大大的縮短。在知識網(wǎng)絡庫中,用戶可以跨知識單元庫學習所感興趣的知識,更可以通過知識單元庫直接學習到解決問題的知識和辦法。知識單元庫的實現(xiàn)是知識網(wǎng)絡庫建立的基礎和關鍵。已有的信息置標語言HTML(Hyper Text Markup Language)的超級鏈接功能使Web技術從計算機世界走向社會、走向千家萬戶,實現(xiàn)Web與數(shù)據(jù)庫的超級鏈接。H
9、TML表現(xiàn)出Web顯示數(shù)據(jù)的通用方法,而XML提供了一個直接處理Web數(shù)據(jù)的通用方法。HTML著重描述Web頁面的顯示格式,而XML著重描述Web頁面的內容。XML是文檔的各種數(shù)字表示方式,用XML表示的數(shù)字文檔可以由計算機處理,也可以供人閱讀。XML文檔是一種純文本文檔,可以包含圖片、視頻或其他多媒體信息,可以是百科全書,也可以是一封電子郵件,或一則天氣預報、一張電子商務交易單等。如對商品的描述中,若在應用中的名稱、質量、價格還不足以描述一個商品的特征時,還可通過其他模式增加新特征,只要加入的元素在它們各自名域的前后關系中是有效的。這就為知識單元的描述提供了工具,通過XML標記將文本標記成知
10、識單元,繼而將知識單元鏈接成知識結構,實現(xiàn)知識鏈。與引文索引不同,在用XML實現(xiàn)知識單元的描述中,可以將被引文獻中的知識單元采用指針的方式加以直接標記,于是實現(xiàn)了知識鏈接的作用。鏈接(L inking)是Web實現(xiàn)關鍵。HTML的鏈接是單向的有兩個端點源端和目標端,源端通常是Web頁的一個片段,如一個詞語、一段文本或一幅圖像,目標端是一個“資源”。由統(tǒng)一資源標記(URI)地址指定。XML是描述結構化數(shù)據(jù)的底層文法,用這種簡單文法可以支持種類繁多的應用。預計XML將成為數(shù)字圖書館信息整流的基礎性語言。2數(shù)字圖書館的知識增值服務數(shù)字圖書館不僅是傳統(tǒng)圖書
11、館的數(shù)字化,而且是來源極其豐富的網(wǎng)上資源庫。通過對信息資源的深加工和合理、有效的組織,使之成為永久、有序的知識源泉。數(shù)字圖書館不僅要進行信息整流,而且還要進行知識增值服務。數(shù)字圖書館將構筑起信息與知識轉換的社會大平臺,為實現(xiàn)全民終身學習、自主學習、隨時隨地學習創(chuàng)造條件。2.1圖書館受到Internet巨大沖擊Internet正在成為世界上最大的“圖書館”。網(wǎng)絡信息資源的迅猛擴大,越來越加深了人們對網(wǎng)絡的依賴程度,影響和改變著人們選擇信息、使用信息的行為和方式。目前,Internet上已擁有各種日報、雜志及時事快報、新書報道,世界上大多數(shù)主要的檢索系統(tǒng)、數(shù)據(jù)庫都已上網(wǎng),并且向用戶提供信息服務。I
12、nternet信息服務商以其雄厚的資金投入和先進的技術設備優(yōu)勢,面向企業(yè)、面向市場開發(fā)信息產(chǎn)品,圖書館不再是信息服務的唯一提供者,圖書館傳統(tǒng)的信息產(chǎn)品受到巨大沖擊。2.2數(shù)字圖書館的知識增值服務數(shù)字圖書館如何才能挽回以前的老用戶,并吸引更多的新用戶?這是圖書館轉型的根本所在,是數(shù)字圖書館建設的核心。為此,數(shù)字圖書館的服務內容和質量要比目前網(wǎng)上的信息服務更加獨具一格,數(shù)字圖書館要向信息實體虛擬化、信息資源數(shù)字化、信息傳遞網(wǎng)絡化、信息利用共享化、信息提供的知識化方向轉型發(fā)展。數(shù)字圖書館發(fā)展的優(yōu)勢將在什么地方?知識增值服務是數(shù)字圖書館占領知識服務市場的優(yōu)勢所在。數(shù)字圖書館應用系統(tǒng)應是可擴展的知識服務
13、網(wǎng)絡系統(tǒng)。數(shù)字圖書館對于有高價值的圖像、文本、語言、音響、影像、影視、軟件和科學數(shù)據(jù)等多媒體信息進行高質量的加工,實現(xiàn)知識增值,并提供在廣域網(wǎng)上高速橫向跨庫的便捷的數(shù)字知識存取服務。由此,我們可以說,數(shù)字圖書館的興起是Internet網(wǎng)絡技術的巨大沖擊;數(shù)字圖書館的發(fā)展的強大推動力是人類知識需求速度的猛增。人類不僅需求更多的信息,而且需要更高質量的知識。數(shù)字圖書館將面向知識增值服務系統(tǒng)的轉型發(fā)展。2.3數(shù)字圖書館的知識創(chuàng)新國家創(chuàng)新體系的主要功能,是知識創(chuàng)新、知識傳播、知識交換和知識利用。大力促進和提高知識的生產(chǎn)、傳播、交換和利用的水平、規(guī)模和效率,是國家創(chuàng)新體系的基本任務。(1)知識創(chuàng)新過程知
14、識創(chuàng)新是數(shù)字圖書館發(fā)展的最主要的動力源泉。信息經(jīng)過加工和改造形成知識。知識是人腦創(chuàng)新的成果,是人類智慧的結晶。智慧是人類文明的源泉,是推動歷史發(fā)展的永恒動力,是生產(chǎn)力諸要素中的核心。知識一般可分為陳述性知識、過程性知識和控制性知識。陳述性知識提供概念和事實,描述系統(tǒng)狀態(tài)、環(huán)境和條件,使人們知道是什么。過程性知識提供有關狀態(tài)的變化、問題求解過程的操作、演算和動作的知識。個性知識單元由最小的知識元素“知識元”組成,知識元的不同排列構成了不同知識單元之間的差異,知識元也是知識結構的最小元素,在知識結構中可以由知識元直接組成新的知識單元,這就是知識學習與知識創(chuàng)新的過程。(2)知識創(chuàng)新的度量方法在考慮知
15、識創(chuàng)新度量問題時,我們應盡可能從知識單元與知識結構之間所表現(xiàn)的特征尋找描述度量的方法。就某一篇文獻而言,它的知識包含有兩個層次。一個是局部的,即是圍繞該文本主題有關方面的判斷、推理、結論等。另一個是全局的、總體的,即是相對該學科主題現(xiàn)狀的知識增量。比如,一篇綜述性文獻,由于采用知識的提煉與合成技術,它本身的(局部的)知識容量增加了,建立了新的知識鏈關系,就有知識創(chuàng)新產(chǎn)生。從知識度量角度講,我們所研究的知識是事實性的、靜態(tài)的知識,是關于事物的分類、屬性、事物間關系等的科學事實或客觀事實。具體到某一篇文獻而言,知識是指關于其所研究對象(主題)的結構、關系、屬性和取值等方面所做的概念、判斷、推理,即
16、有關該主題對象新有的結論。相對學科主題而言,它的知識則指的是新增加的那一部分,即知識創(chuàng)新的增量。知識是可學習的、可復制的,而智慧是不可復制的。目前對知識創(chuàng)新度量最簡單的方法是對產(chǎn)生新的知識增量及其效應的判別和估價。這種估價的結果表現(xiàn)為一種數(shù)量現(xiàn)象,實質上估價知識的增量隱含著對智慧的測度,因為實現(xiàn)知識創(chuàng)新的根源是智慧,但對智慧的度量目前則是太困難了。(3)信息與知識的變換科技發(fā)展史上的一條規(guī)律說明:當把兩門表面看來毫不相干的學科結合起來的時候,就可能形成一門新的學科;當把兩種似乎沒有任何聯(lián)系的現(xiàn)象聯(lián)系起來,就可能在科學技術上取得某些進展或突破。不同學科的文獻常有內在的聯(lián)系,包含隱含的知識或信息,
17、可以從中重組出全新的知識或信息,得出全新的推理或結論。·隱含信息的關聯(lián)隱含信息的重組是知識的外化和外延。一些信息本身沒有什么價值,但在它身后卻隱藏著另外一種很有價值的信息,這種延伸或潛在的信息單元、知識單元,有一定的隱蔽性,往往不易被人發(fā)現(xiàn),一旦被開發(fā)出來,并運用到實踐當中去,卻可產(chǎn)生不可估量的效益。美國芝加哥大學圖書館研究生院、信息中心的Swansan D.R.等一直在從事認知科學和文獻內容相互關系的研究,對信息重組和知識創(chuàng)新過程進行了不少研究。由于他們一直對文獻的隱含信息進行研究,并在研究過程中,利用現(xiàn)代的計算機技術,設計了一種新穎的計算機輔助信息檢索軟件(
18、ARROWSMITH算法),能辨別出生物醫(yī)學文獻中兩個詞語間的聯(lián)系,從而進一步發(fā)現(xiàn)隱含信息的關聯(lián),促進新知識的產(chǎn)生。·知識的消息通信知識元、知識單元、知識結構都以信息的方式在文獻中表現(xiàn),把隱含在文獻中的大量復雜知識元以消息通信的方式連接起來,提高隱含知識的明晰化程度,將是未來數(shù)字圖書館向知識創(chuàng)新努力的關鍵4。知識檢索是在知識結構中獲取知識的過程,用戶可以通過知識單元間接地獲取知識,更可以通過知識元直接獲取知識;信息檢索只能通過間接的知識單元信息獲取文獻。知識鏈接是數(shù)字圖書館的核心,是實現(xiàn)數(shù)字圖書館從信息服務向知識服務轉型的關鍵技術。因此,采用知識鏈研究知識標引與檢索是合理的,研究知識
19、元、知識單元、知識結構之間的信息與知識的變換是可實現(xiàn)的。從人工智能觀點看,知識是對事實的合理推理的結果。知識的表達與處理可以有多種方法,且已有許多優(yōu)秀成果,但最關鍵的是如何實現(xiàn)知識元與知識單元和知識結構之間的繼承性,以及如何有效地實現(xiàn)它們之間的消息通信。·信息轉換成知識從標引“知識元”層面研究,揭示單篇文獻的個體“知識元”信息與某領域共性“知識結構”的鏈接關系,從而找出信息與知識的轉換的普遍規(guī)律5,是提高用戶通過檢索系統(tǒng)直接獲取有效知識而不是一大堆文 獻的有效方法。傳統(tǒng)的信息服務只提供文獻的信息或提供作為知識素材的文獻,并沒有揭示文獻中的知識鏈。人們獲取的只是文獻數(shù)據(jù)信息本身,并不是知識。比如人們看到了題錄摘要,從中未必可以看到知識。即使讀完了一次文獻,也許仍不能準確了解其中的知識所在。數(shù)字圖書館中存在大量的文獻信息庫,文獻信息庫中的知識是非結構化的,知識元之間的關系是隱含的,需要一種能把文獻中的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)絡安全應急響應與安全設備采購合同
- 電商平臺數(shù)據(jù)同步補充協(xié)議
- 網(wǎng)店運營稅費代征代繳服務合同
- 觀光車維保合同范本
- 白名單授權協(xié)議書
- 淘寶店鋪銷售數(shù)據(jù)分析與運營決策支持合同
- 各工種承包協(xié)議書
- 零售加盟商權益保障協(xié)議
- 舊門窗拆除協(xié)議書
- 房屋共享權協(xié)議書
- 2025年公牛插座市場調研報告
- 無人機拍攝培訓課件
- 特崗教師科學試題及答案
- 抖音員工合同協(xié)議
- 銀行培訓中心管理制度
- 鋰電池基礎知識培訓單選題100道及答案
- 2025年陜西省八年級中考三模生物試題(原卷版+解析版)
- 高分子化學材料結構與性能試題及答案
- 客服質檢管理競聘述職報告
- 2025至2030年中國木瓜酶膠囊數(shù)據(jù)監(jiān)測研究報告
- 郵件分揀員(國內郵件分揀)中級
評論
0/150
提交評論