【標(biāo)題】信息整流和知識增值服務(wù)_第1頁
【標(biāo)題】信息整流和知識增值服務(wù)_第2頁
【標(biāo)題】信息整流和知識增值服務(wù)_第3頁
【標(biāo)題】信息整流和知識增值服務(wù)_第4頁
【標(biāo)題】信息整流和知識增值服務(wù)_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、【標(biāo)題】信息整流和知識增值服務(wù)    【內(nèi)容提要】本文提出數(shù)字圖書館的主要功能目標(biāo)是信息整流與知識增值服務(wù);信息與知識轉(zhuǎn)換是數(shù)字圖書館的關(guān)鍵理論和技術(shù)問題。圖書館受到Internet的巨大沖擊、不再是文獻(xiàn)信息服務(wù)的唯一提供者,數(shù)字圖書館如何才能挽回失去的老用戶,吸引新用戶?知識管理工程將使數(shù)字圖書館成為21世紀(jì)學(xué)習(xí)的大平臺、文化知識的大平臺和知識資源中心?!菊?#160; 要  題】信息服務(wù)1數(shù)字圖書館的信息整流數(shù)字圖書館把傳統(tǒng)圖書館的功能由信息的查詢和圖書資料的借閱擴(kuò)展到知識服務(wù)的新階段。實(shí)現(xiàn)這一宏偉目標(biāo)需要解決許多技術(shù)和

2、社會問題,其中有兩個最關(guān)鍵的技術(shù)是信息的整流和知識的創(chuàng)新。前者涉及數(shù)字圖書館的知識鏈建立問題,后者涉及數(shù)字圖書館的信息變換成知識的知識增值服務(wù)問題。1.1數(shù)字圖書館的知識鏈數(shù)字圖書館是一個龐大的數(shù)字資料庫,包括所有資料的數(shù)字化存儲,在線網(wǎng)上資料、多媒體資料、電子出版物等。數(shù)字圖書館根據(jù)用戶對信息的不同需求,將文本、圖片等原件制作成不同數(shù)字形式。一般有純圖像形式,目錄文本形式,正文圖像形式,全文本形式和全文索引形式。但關(guān)鍵還是知識鏈的建立。為實(shí)現(xiàn)知識鏈信息,數(shù)字圖書館將資源分成為元數(shù)據(jù)和對象數(shù)據(jù)。對象數(shù)據(jù)指數(shù)字化的文本、圖像、聲言、影像等,元數(shù)據(jù)則指那些描述和管理對象的數(shù)據(jù)。對象數(shù)據(jù)分布式地存放

3、在各地的資源站點(diǎn)內(nèi),元數(shù)據(jù)則集中存放在數(shù)字圖書館中心的超大規(guī)模服務(wù)器上。用戶查詢時,中心調(diào)度系統(tǒng)通過元數(shù)據(jù)來調(diào)度各對象數(shù)據(jù)庫以提供服務(wù)。知識的控制單位長期停留在文獻(xiàn)這一級上,而人對知識的需求一般不是以文獻(xiàn)為單位的。早在20世紀(jì)70年代后期就有專家指出,知識的控制單位將從文獻(xiàn)深化到文獻(xiàn)中的數(shù)據(jù)、公式、事實(shí)、結(jié)論等最小的獨(dú)立的“知識元”。一旦實(shí)現(xiàn)知識的控制單位由文獻(xiàn)深化到“知識元”,大量文獻(xiàn)中所包含的“知識元”及相關(guān)信息間的鏈接將產(chǎn)生極大的知識增值,從而大大推進(jìn)人類對知識的利用,促進(jìn)新知識的創(chuàng)造,從而也將推動知識資源業(yè)的重大發(fā)展1。一篇文獻(xiàn)反映作者的科學(xué)研究成果,包含著作者的知識創(chuàng)新的過程。于是文

4、本結(jié)構(gòu)本身就隱含著對某學(xué)科問題的知識鏈。假如我們把每篇文獻(xiàn)的知識看成是人類知識結(jié)構(gòu)中的一個知識單元,知識單元與知識結(jié)構(gòu)就組成了個性知識與共性知識的知識系統(tǒng)。個性知識體現(xiàn)在知識的創(chuàng)新上,共性知識結(jié)構(gòu)則表現(xiàn)在知識的完整性上。于是我們就建立了個性知識與共性知識的知識鏈。事實(shí)上,專利文獻(xiàn)就明顯地表現(xiàn)了個性知識單元與人類知識結(jié)構(gòu)的知識創(chuàng)新鏈關(guān)系2。數(shù)字圖書館對文本的知識標(biāo)引,既體現(xiàn)了標(biāo)引者應(yīng)用學(xué)科知識結(jié)構(gòu)的背景知識的能力,同時又體現(xiàn)了標(biāo)引者識別和提煉作者的知識創(chuàng)新點(diǎn)的判斷和知識組織能力。因此,是一個知識鏈建立的知識增值過程。1.2數(shù)字圖書館的知識發(fā)現(xiàn)知識鏈的建立過程是知識發(fā)現(xiàn)和知識再組織的過程。知識發(fā)現(xiàn)

5、的主要目標(biāo)是采用有效的算法,從大量現(xiàn)有或歷史數(shù)據(jù)集合中發(fā)現(xiàn)并找出最初未知、但最終可理解的有用知識,并用簡明的方式顯示出來。知識發(fā)現(xiàn)一般包含如下幾個步驟:(1)理解相應(yīng)的問題領(lǐng)域;(2)準(zhǔn)備相關(guān)數(shù)據(jù)子集;(3)發(fā)現(xiàn)模式(數(shù)據(jù)挖掘);(4)所發(fā)現(xiàn)模式的后處理;(5)應(yīng)用發(fā)現(xiàn)結(jié)果。(1)文本知識結(jié)構(gòu)分析技術(shù)盡管與多媒體信息相比,文本信息顯得比較普通,但文本仍然是記載和傳播信息的最主要媒體,因此對文本信息知識發(fā)現(xiàn)技術(shù)的研究具有十分重要的意義和廣泛的應(yīng)用前景。文本結(jié)構(gòu)分析的目的在于發(fā)現(xiàn)文本表達(dá)主題概念的物理組織結(jié)構(gòu),由物理結(jié)構(gòu)自動重組主題概念的邏輯結(jié)構(gòu),實(shí)現(xiàn)對文本知識的抽象化和具體化推理檢索。文獻(xiàn)3把文

6、本結(jié)構(gòu)分成物理結(jié)構(gòu)和邏輯結(jié)構(gòu)。物理結(jié)構(gòu)=標(biāo)題,段落,句子,詞匯,它表示了文本的組成情況。可采用向量空間模型表示文本及文本各個部分,進(jìn)行文本結(jié)構(gòu)分析,其中主要是文本的層次分析,從而得到文本的邏輯結(jié)構(gòu)。邏輯結(jié)構(gòu)=主題,層次,段落,句子,主題詞,它更著重于表示文本所包含的思想內(nèi)容和表達(dá)的邏輯方式。(2)知識鏈結(jié)構(gòu)文本的物理結(jié)構(gòu)是文本的外表形式,邏輯結(jié)構(gòu)體現(xiàn)了作者表達(dá)目的的邏輯順序,而文本的知識鏈結(jié)構(gòu)則是作者的目的和靈魂,知識鏈結(jié)構(gòu)=問題,已有解的優(yōu)缺點(diǎn),新解的方案,性能評價(jià),今后方向。研究文本的目的是為了獲得文本的知識鏈,以創(chuàng)建新的知識鏈。引文方法是一種很好的文獻(xiàn)鏈,表現(xiàn)了引用文獻(xiàn)與被引用文獻(xiàn)之間的

7、多種關(guān)系。但它并不完全直接表現(xiàn)知識鏈關(guān)系。文獻(xiàn)鏈?zhǔn)且环N龐大的文獻(xiàn)引用系統(tǒng)。知識鏈則是一種巨大的知識引用系統(tǒng)。若能完成這一巨大的系統(tǒng),人類將可能進(jìn)行更有效的知識學(xué)習(xí)。1.3信息整流的實(shí)現(xiàn)知識鏈?zhǔn)俏谋局R結(jié)構(gòu)的普遍特性,是人類學(xué)習(xí)、創(chuàng)新的紐帶。信息整流與信息濾波不同。信息濾波的目的主要有兩點(diǎn),即過濾掉不相關(guān)的文檔以及將相關(guān)文檔列表分為新的文檔和已經(jīng)查閱過的文檔,并按相似度大小排序,對已檢索的相關(guān)文檔,通知信息Agent不必返回全文文檔,以減少通信費(fèi)用。信息整流的目的在于建立數(shù)字圖書館的知識鏈庫,提供知識鏈服務(wù)。信息整流是建立知識鏈的過程。從全文提取出知識單元,形成獨(dú)立的知識基礎(chǔ),構(gòu)成知識單元庫,把

8、各種知識單元庫進(jìn)行鏈接,構(gòu)成數(shù)字圖書館廣泛的知識網(wǎng)絡(luò)庫。知識網(wǎng)絡(luò)庫形成了學(xué)科橫向交叉和學(xué)科縱向延伸的科學(xué)知識體系。描述了人類知識學(xué)習(xí)和知識創(chuàng)新的知識網(wǎng)絡(luò)結(jié)點(diǎn)。把人類知識學(xué)習(xí)和創(chuàng)新活動之間的距離大大的縮短。在知識網(wǎng)絡(luò)庫中,用戶可以跨知識單元庫學(xué)習(xí)所感興趣的知識,更可以通過知識單元庫直接學(xué)習(xí)到解決問題的知識和辦法。知識單元庫的實(shí)現(xiàn)是知識網(wǎng)絡(luò)庫建立的基礎(chǔ)和關(guān)鍵。已有的信息置標(biāo)語言HTML(Hyper  Text  Markup  Language)的超級鏈接功能使Web技術(shù)從計(jì)算機(jī)世界走向社會、走向千家萬戶,實(shí)現(xiàn)Web與數(shù)據(jù)庫的超級鏈接。H

9、TML表現(xiàn)出Web顯示數(shù)據(jù)的通用方法,而XML提供了一個直接處理Web數(shù)據(jù)的通用方法。HTML著重描述Web頁面的顯示格式,而XML著重描述Web頁面的內(nèi)容。XML是文檔的各種數(shù)字表示方式,用XML表示的數(shù)字文檔可以由計(jì)算機(jī)處理,也可以供人閱讀。XML文檔是一種純文本文檔,可以包含圖片、視頻或其他多媒體信息,可以是百科全書,也可以是一封電子郵件,或一則天氣預(yù)報(bào)、一張電子商務(wù)交易單等。如對商品的描述中,若在應(yīng)用中的名稱、質(zhì)量、價(jià)格還不足以描述一個商品的特征時,還可通過其他模式增加新特征,只要加入的元素在它們各自名域的前后關(guān)系中是有效的。這就為知識單元的描述提供了工具,通過XML標(biāo)記將文本標(biāo)記成知

10、識單元,繼而將知識單元鏈接成知識結(jié)構(gòu),實(shí)現(xiàn)知識鏈。與引文索引不同,在用XML實(shí)現(xiàn)知識單元的描述中,可以將被引文獻(xiàn)中的知識單元采用指針的方式加以直接標(biāo)記,于是實(shí)現(xiàn)了知識鏈接的作用。鏈接(L    inking)是Web實(shí)現(xiàn)關(guān)鍵。HTML的鏈接是單向的有兩個端點(diǎn)源端和目標(biāo)端,源端通常是Web頁的一個片段,如一個詞語、一段文本或一幅圖像,目標(biāo)端是一個“資源”。由統(tǒng)一資源標(biāo)記(URI)地址指定。XML是描述結(jié)構(gòu)化數(shù)據(jù)的底層文法,用這種簡單文法可以支持種類繁多的應(yīng)用。預(yù)計(jì)XML將成為數(shù)字圖書館信息整流的基礎(chǔ)性語言。2數(shù)字圖書館的知識增值服務(wù)數(shù)字圖書館不僅是傳統(tǒng)圖書

11、館的數(shù)字化,而且是來源極其豐富的網(wǎng)上資源庫。通過對信息資源的深加工和合理、有效的組織,使之成為永久、有序的知識源泉。數(shù)字圖書館不僅要進(jìn)行信息整流,而且還要進(jìn)行知識增值服務(wù)。數(shù)字圖書館將構(gòu)筑起信息與知識轉(zhuǎn)換的社會大平臺,為實(shí)現(xiàn)全民終身學(xué)習(xí)、自主學(xué)習(xí)、隨時隨地學(xué)習(xí)創(chuàng)造條件。2.1圖書館受到Internet巨大沖擊Internet正在成為世界上最大的“圖書館”。網(wǎng)絡(luò)信息資源的迅猛擴(kuò)大,越來越加深了人們對網(wǎng)絡(luò)的依賴程度,影響和改變著人們選擇信息、使用信息的行為和方式。目前,Internet上已擁有各種日報(bào)、雜志及時事快報(bào)、新書報(bào)道,世界上大多數(shù)主要的檢索系統(tǒng)、數(shù)據(jù)庫都已上網(wǎng),并且向用戶提供信息服務(wù)。I

12、nternet信息服務(wù)商以其雄厚的資金投入和先進(jìn)的技術(shù)設(shè)備優(yōu)勢,面向企業(yè)、面向市場開發(fā)信息產(chǎn)品,圖書館不再是信息服務(wù)的唯一提供者,圖書館傳統(tǒng)的信息產(chǎn)品受到巨大沖擊。2.2數(shù)字圖書館的知識增值服務(wù)數(shù)字圖書館如何才能挽回以前的老用戶,并吸引更多的新用戶?這是圖書館轉(zhuǎn)型的根本所在,是數(shù)字圖書館建設(shè)的核心。為此,數(shù)字圖書館的服務(wù)內(nèi)容和質(zhì)量要比目前網(wǎng)上的信息服務(wù)更加獨(dú)具一格,數(shù)字圖書館要向信息實(shí)體虛擬化、信息資源數(shù)字化、信息傳遞網(wǎng)絡(luò)化、信息利用共享化、信息提供的知識化方向轉(zhuǎn)型發(fā)展。數(shù)字圖書館發(fā)展的優(yōu)勢將在什么地方?知識增值服務(wù)是數(shù)字圖書館占領(lǐng)知識服務(wù)市場的優(yōu)勢所在。數(shù)字圖書館應(yīng)用系統(tǒng)應(yīng)是可擴(kuò)展的知識服務(wù)

13、網(wǎng)絡(luò)系統(tǒng)。數(shù)字圖書館對于有高價(jià)值的圖像、文本、語言、音響、影像、影視、軟件和科學(xué)數(shù)據(jù)等多媒體信息進(jìn)行高質(zhì)量的加工,實(shí)現(xiàn)知識增值,并提供在廣域網(wǎng)上高速橫向跨庫的便捷的數(shù)字知識存取服務(wù)。由此,我們可以說,數(shù)字圖書館的興起是Internet網(wǎng)絡(luò)技術(shù)的巨大沖擊;數(shù)字圖書館的發(fā)展的強(qiáng)大推動力是人類知識需求速度的猛增。人類不僅需求更多的信息,而且需要更高質(zhì)量的知識。數(shù)字圖書館將面向知識增值服務(wù)系統(tǒng)的轉(zhuǎn)型發(fā)展。2.3數(shù)字圖書館的知識創(chuàng)新國家創(chuàng)新體系的主要功能,是知識創(chuàng)新、知識傳播、知識交換和知識利用。大力促進(jìn)和提高知識的生產(chǎn)、傳播、交換和利用的水平、規(guī)模和效率,是國家創(chuàng)新體系的基本任務(wù)。(1)知識創(chuàng)新過程知

14、識創(chuàng)新是數(shù)字圖書館發(fā)展的最主要的動力源泉。信息經(jīng)過加工和改造形成知識。知識是人腦創(chuàng)新的成果,是人類智慧的結(jié)晶。智慧是人類文明的源泉,是推動歷史發(fā)展的永恒動力,是生產(chǎn)力諸要素中的核心。知識一般可分為陳述性知識、過程性知識和控制性知識。陳述性知識提供概念和事實(shí),描述系統(tǒng)狀態(tài)、環(huán)境和條件,使人們知道是什么。過程性知識提供有關(guān)狀態(tài)的變化、問題求解過程的操作、演算和動作的知識。個性知識單元由最小的知識元素“知識元”組成,知識元的不同排列構(gòu)成了不同知識單元之間的差異,知識元也是知識結(jié)構(gòu)的最小元素,在知識結(jié)構(gòu)中可以由知識元直接組成新的知識單元,這就是知識學(xué)習(xí)與知識創(chuàng)新的過程。(2)知識創(chuàng)新的度量方法在考慮知

15、識創(chuàng)新度量問題時,我們應(yīng)盡可能從知識單元與知識結(jié)構(gòu)之間所表現(xiàn)的特征尋找描述度量的方法。就某一篇文獻(xiàn)而言,它的知識包含有兩個層次。一個是局部的,即是圍繞該文本主題有關(guān)方面的判斷、推理、結(jié)論等。另一個是全局的、總體的,即是相對該學(xué)科主題現(xiàn)狀的知識增量。比如,一篇綜述性文獻(xiàn),由于采用知識的提煉與合成技術(shù),它本身的(局部的)知識容量增加了,建立了新的知識鏈關(guān)系,就有知識創(chuàng)新產(chǎn)生。從知識度量角度講,我們所研究的知識是事實(shí)性的、靜態(tài)的知識,是關(guān)于事物的分類、屬性、事物間關(guān)系等的科學(xué)事實(shí)或客觀事實(shí)。具體到某一篇文獻(xiàn)而言,知識是指關(guān)于其所研究對象(主題)的結(jié)構(gòu)、關(guān)系、屬性和取值等方面所做的概念、判斷、推理,即

16、有關(guān)該主題對象新有的結(jié)論。相對學(xué)科主題而言,它的知識則指的是新增加的那一部分,即知識創(chuàng)新的增量。知識是可學(xué)習(xí)的、可復(fù)制的,而智慧是不可復(fù)制的。目前對知識創(chuàng)新度量最簡單的方法是對產(chǎn)生新的知識增量及其效應(yīng)的判別和估價(jià)。這種估價(jià)的結(jié)果表現(xiàn)為一種數(shù)量現(xiàn)象,實(shí)質(zhì)上估價(jià)知識的增量隱含著對智慧的測度,因?yàn)閷?shí)現(xiàn)知識創(chuàng)新的根源是智慧,但對智慧的度量目前則是太困難了。(3)信息與知識的變換科技發(fā)展史上的一條規(guī)律說明:當(dāng)把兩門表面看來毫不相干的學(xué)科結(jié)合起來的時候,就可能形成一門新的學(xué)科;當(dāng)把兩種似乎沒有任何聯(lián)系的現(xiàn)象聯(lián)系起來,就可能在科學(xué)技術(shù)上取得某些進(jìn)展或突破。不同學(xué)科的文獻(xiàn)常有內(nèi)在的聯(lián)系,包含隱含的知識或信息,

17、可以從中重組出全新的知識或信息,得出全新的推理或結(jié)論。·隱含信息的關(guān)聯(lián)隱含信息的重組是知識的外化和外延。一些信息本身沒有什么價(jià)值,但在它身后卻隱藏著另外一種很有價(jià)值的信息,這種延伸或潛在的信息單元、知識單元,有一定的隱蔽性,往往不易被人發(fā)現(xiàn),一旦被開發(fā)出來,并運(yùn)用到實(shí)踐當(dāng)中去,卻可產(chǎn)生不可估量的效益。美國芝加哥大學(xué)圖書館研究生院、信息中心的Swansan  D.R.等一直在從事認(rèn)知科學(xué)和文獻(xiàn)內(nèi)容相互關(guān)系的研究,對信息重組和知識創(chuàng)新過程進(jìn)行了不少研究。由于他們一直對文獻(xiàn)的隱含信息進(jìn)行研究,并在研究過程中,利用現(xiàn)代的計(jì)算機(jī)技術(shù),設(shè)計(jì)了一種新穎的計(jì)算機(jī)輔助信息檢索軟件(

18、ARROWSMITH算法),能辨別出生物醫(yī)學(xué)文獻(xiàn)中兩個詞語間的聯(lián)系,從而進(jìn)一步發(fā)現(xiàn)隱含信息的關(guān)聯(lián),促進(jìn)新知識的產(chǎn)生。·知識的消息通信知識元、知識單元、知識結(jié)構(gòu)都以信息的方式在文獻(xiàn)中表現(xiàn),把隱含在文獻(xiàn)中的大量復(fù)雜知識元以消息通信的方式連接起來,提高隱含知識的明晰化程度,將是未來數(shù)字圖書館向知識創(chuàng)新努力的關(guān)鍵4。知識檢索是在知識結(jié)構(gòu)中獲取知識的過程,用戶可以通過知識單元間接地獲取知識,更可以通過知識元直接獲取知識;信息檢索只能通過間接的知識單元信息獲取文獻(xiàn)。知識鏈接是數(shù)字圖書館的核心,是實(shí)現(xiàn)數(shù)字圖書館從信息服務(wù)向知識服務(wù)轉(zhuǎn)型的關(guān)鍵技術(shù)。因此,采用知識鏈研究知識標(biāo)引與檢索是合理的,研究知識

19、元、知識單元、知識結(jié)構(gòu)之間的信息與知識的變換是可實(shí)現(xiàn)的。從人工智能觀點(diǎn)看,知識是對事實(shí)的合理推理的結(jié)果。知識的表達(dá)與處理可以有多種方法,且已有許多優(yōu)秀成果,但最關(guān)鍵的是如何實(shí)現(xiàn)知識元與知識單元和知識結(jié)構(gòu)之間的繼承性,以及如何有效地實(shí)現(xiàn)它們之間的消息通信。·信息轉(zhuǎn)換成知識從標(biāo)引“知識元”層面研究,揭示單篇文獻(xiàn)的個體“知識元”信息與某領(lǐng)域共性“知識結(jié)構(gòu)”的鏈接關(guān)系,從而找出信息與知識的轉(zhuǎn)換的普遍規(guī)律5,是提高用戶通過檢索系統(tǒng)直接獲取有效知識而不是一大堆文    獻(xiàn)的有效方法。傳統(tǒng)的信息服務(wù)只提供文獻(xiàn)的信息或提供作為知識素材的文獻(xiàn),并沒有揭示文獻(xiàn)中的知識鏈。人們獲取的只是文獻(xiàn)數(shù)據(jù)信息本身,并不是知識。比如人們看到了題錄摘要,從中未必可以看到知識。即使讀完了一次文獻(xiàn),也許仍不能準(zhǔn)確了解其中的知識所在。數(shù)字圖書館中存在大量的文獻(xiàn)信息庫,文獻(xiàn)信息庫中的知識是非結(jié)構(gòu)化的,知識元之間的關(guān)系是隱含的,需要一種能把文獻(xiàn)中的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論