一種多代理模式的數(shù)字圖書館定題情報服務(wù)模型_第1頁
一種多代理模式的數(shù)字圖書館定題情報服務(wù)模型_第2頁
一種多代理模式的數(shù)字圖書館定題情報服務(wù)模型_第3頁
一種多代理模式的數(shù)字圖書館定題情報服務(wù)模型_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

一種多代理模式的數(shù)字圖書館定題情報服務(wù)模型

1sdi服務(wù)機(jī)制信息服務(wù)(sdi)是滿足文獻(xiàn)信息個性化需求的重要服務(wù)形式,由ibm于20世紀(jì)50年代首次提出。SDI服務(wù)有兩種方式:一種是提供文獻(xiàn)跟蹤服務(wù),同時對課題研究進(jìn)程,根據(jù)國內(nèi)外相關(guān)文獻(xiàn)進(jìn)行關(guān)注;另一種是文獻(xiàn)跟蹤與專題情報研究相結(jié)合,對收集的資料進(jìn)行加工,生成進(jìn)展、動態(tài)等研究報告,指導(dǎo)課題的研究。本文分析了一個基于模糊語義建模技術(shù)的多代理模式的數(shù)字圖書館SDI模型,旨在幫助情報工作人員更好的進(jìn)行文獻(xiàn)信息管理,方便地與用戶溝通,及時為使用者提供準(zhǔn)確的信息。2相關(guān)技術(shù)介紹2.1信息篩選和推薦系統(tǒng)數(shù)字圖書館為了滿足不同用戶對信息的需求,需要對文獻(xiàn)信息進(jìn)行篩選和推薦。通常的做法是使用多代理系統(tǒng),根據(jù)已注冊用戶的信息偏好,對XML或Html形式的文本信息進(jìn)行評估篩選,并把結(jié)果推薦給用戶,以提高檢索信息的精確性。當(dāng)前對信息過濾和推薦的系統(tǒng)有兩種:一種是基于內(nèi)容的信息過濾推薦系統(tǒng),通過比較一組由某用戶定義的表示所需文獻(xiàn)的關(guān)鍵詞,對文獻(xiàn)進(jìn)行過濾,而忽略其他用戶的需求。另一種是聯(lián)合過濾系統(tǒng),同時分析多個用戶提供的請求信息的關(guān)鍵詞,生成推薦信息,而不考慮文獻(xiàn)內(nèi)容的特征。目前的研發(fā)趨勢是結(jié)合兩種方式的優(yōu)點(diǎn),開發(fā)混合型的信息過濾推薦系統(tǒng)。2.2語義技術(shù)網(wǎng)絡(luò)語義指的是文本的含義,也就是文本的意思和結(jié)構(gòu),語義網(wǎng)是一種能夠理解人類語言的智能化的計算機(jī)網(wǎng)絡(luò),使得人機(jī)交流變得非常容易。語義技術(shù)通過在信息中加入表示語義的內(nèi)容,改變目前網(wǎng)絡(luò)僅靠文字來共享資源的模式,提高網(wǎng)絡(luò)智能化的程度。語義網(wǎng)主要有兩個技術(shù)解決方案:一個是對資源進(jìn)行語義標(biāo)引,使信息可以同時被人類和計算機(jī)識別;另一個是發(fā)展智能代理,對資源進(jìn)行語義層次的開發(fā),推導(dǎo)出新的知識。將語義網(wǎng)技術(shù)應(yīng)用于數(shù)字圖書館,可以提高文獻(xiàn)信息檢索的精度和質(zhì)量,有利于信息的共享和交流。2.3模糊的語義模式語義網(wǎng)使用的是自然語言編寫的能被機(jī)器識別的結(jié)構(gòu)化的程序,因此最有效的方法是使用模糊語言技術(shù)建模。模糊語言建模需要用到模糊集技術(shù)處理方法,通常的做法是通過一系列奇數(shù)的標(biāo)簽集來定義標(biāo)簽的標(biāo)度值。每個語言標(biāo)度的語義根據(jù)事先定義的標(biāo)度集來確定,一般分配0-1之間的模糊值。為了對語義信息進(jìn)行綜合,還需要使用元加權(quán)平局(LWA)算法。本模型采用了詞庫作為輔助工具,來實(shí)現(xiàn)對敘詞表半自動化的自然語言處理。2.4自動建立敘詞表技術(shù)自然語言處理技術(shù),包含了語言技術(shù)、統(tǒng)計方法和機(jī)器學(xué)習(xí)算法(主要是群集技術(shù)),可以實(shí)現(xiàn)對文本文件自動翻譯、語音識別,并建立語音識別庫等功能。自動建立敘詞表技術(shù),是自然語言處理技術(shù)的典型應(yīng)用,可以自動對文本中的字詞進(jìn)行管理,提取更有代表性的表示文獻(xiàn)具體領(lǐng)域的詞。WordNet是一個功能強(qiáng)大的多語種詞匯數(shù)據(jù)庫??梢院芎玫闹С秩杭夹g(shù),方便地通過相似性分析從很多文獻(xiàn)中提取一組同義詞,或根據(jù)相似性收集特征詞相近的文獻(xiàn)。3圖書館文獻(xiàn)綜述基于語義的SDI服務(wù)模型主要由兩個代理組成:界面代理和任務(wù)代理,共分成四層結(jié)構(gòu):用戶層、界面層、任務(wù)層和資源層。模型的核心組件是數(shù)字圖書館的文獻(xiàn)全文數(shù)據(jù)庫和一系列基于RDF詞匯的基本元素。下面將系統(tǒng)介紹模型的主要組件和功能模塊。構(gòu)成SDI服務(wù)模型的主要模塊有四個,分別是詞庫管理模塊、用戶配置文件管理模塊、RSS發(fā)布管理模塊和文獻(xiàn)推薦管理模塊。3.1文本預(yù)處理階段作為SDI服務(wù)必不可少的組件,詞庫在傳統(tǒng)圖書館中起到了對專業(yè)領(lǐng)域概念的組織及定義它們的語義關(guān)系的作用。本模型中對詞庫進(jìn)行定義的作用是,建立RSS接口詞語索引和產(chǎn)生推薦信息。模型使用語義相似性計量和處理詞典,代替?zhèn)鹘y(tǒng)的詞匯匹配(如兩個字符串進(jìn)行比較)作為知識組織的工具。創(chuàng)建詞庫的技術(shù)分為四個步驟:對文本進(jìn)行預(yù)處理,進(jìn)行參數(shù)化,對詞匯進(jìn)行概念化,最后是對已經(jīng)確定的概念之間的關(guān)系通過圖標(biāo)進(jìn)行顯示。文本預(yù)處理階段的目標(biāo)是對文本進(jìn)行標(biāo)準(zhǔn)化并刪除多余元素。首先,將所收集文檔(HTML、XML等)的標(biāo)簽,然后將文檔進(jìn)行標(biāo)準(zhǔn)化,方便進(jìn)行參數(shù)化。所有文檔中出現(xiàn)的的首字母縮寫詞將被顯示在排除列表中,而其余符合規(guī)則的文本已經(jīng)被標(biāo)準(zhǔn)化了,日期和數(shù)值被替換為腳本標(biāo)識,所有的字詞都被變成小寫,標(biāo)簽被刪除。然后,自動刪除文檔中所有的虛詞,如限定詞、助動詞、連接詞、介詞、代詞、感嘆詞、副詞等。在參數(shù)化過程中,為了提高運(yùn)算速度,模型將所有的詞詞干化。模型采用了墨菲算法,利用了基于認(rèn)知語言的詞典。算法提供了一組函數(shù)檢測,是否文檔中有無需處理的詞,然后將剩下的所有詞轉(zhuǎn)換為基本詞性。為了定義各組詞語之間的關(guān)系,模型運(yùn)用了網(wǎng)格理論確定。一旦文件被參數(shù)化,就可以通過簡單知識組織系統(tǒng)(SKOS)對每個詞之間的聯(lián)系進(jìn)行提取。3.2生成相似性估計用戶配置文件是對用戶信息結(jié)構(gòu)化的描述,隨著用戶注冊完成便自動產(chǎn)生。用戶配置文件一般包含用戶公開的信息,包括用戶身份、特性和屬性以及用戶隱私信息,如興趣、愛好,訂閱的文獻(xiàn)提醒、圖書推薦等。用戶輸入喜好信息的關(guān)鍵詞之后,系統(tǒng)自動把這些詞與系統(tǒng)詞典自動比對,生成相似性估計算法樹,然后提供一些參考詞給用戶。如果用戶對提供的代表他們偏好的關(guān)鍵詞不滿意,可以進(jìn)行修改。模型允許用戶選擇對不同類型文獻(xiàn)的偏好程度,對文獻(xiàn)瀏覽量的模糊語言變量取值范圍為:總是、幾乎總是、經(jīng)常、偶爾、很少、幾乎不、從不,偶爾作為中間值也是默認(rèn)值。由于SDI服務(wù)功能的實(shí)現(xiàn),必須從儲存的用戶配置文件中獲取偏好信息,所以必須經(jīng)常對系統(tǒng)進(jìn)行升級。雖然用戶的偏好短時間不會發(fā)生大的變化,但系統(tǒng)也必須對微小變化產(chǎn)生響應(yīng),提供準(zhǔn)確的信息。模型既采用了使用模糊語言技術(shù)對用戶隱含的偏好進(jìn)行分析,也考慮了用戶提供的反饋信息。用戶對提供文獻(xiàn)推薦的滿意度有5個標(biāo)度:非常滿意、滿意、中等滿意、不太滿意、很不滿意。隨著用戶訪問資源的增加,系統(tǒng)會更精確。3.3通過半自動化技術(shù)實(shí)現(xiàn)個性化信息貿(mào)易RSS發(fā)布也叫聚合RSS,是在線共享內(nèi)容的一種簡易方式(也叫聚合內(nèi)容,ReallySimpleSyndication)。一個RSS文件就是一段規(guī)范的XML數(shù)據(jù),該文件一般以RSS、XML或者RDF作為后綴。通常在時效性比較強(qiáng)的內(nèi)容上使用RSS訂閱能更快速獲取信息,數(shù)字圖書館提供RSS發(fā)布,有利于讓用戶獲取文獻(xiàn)內(nèi)容的最新信息。而且隨著RSS文件發(fā)布,其中包含的信息可以被其他的數(shù)字圖書館調(diào)用,不同服務(wù)器相互交換彼此的RSS信息,會導(dǎo)致站內(nèi)信息更新加快,形成良性互動。由于模塊的配置文件中有關(guān)于用戶偏好的信息,因此系統(tǒng)會顯示滿足用戶需求的個性化信息提醒。這個過程包括4個步驟:(1)用戶通過用戶名、密碼登錄系統(tǒng)。(2)任務(wù)代理系統(tǒng)自動呈現(xiàn)給用戶符合他們偏好的資源的列表(如果存在超過一個RSS接口,所有的接口獲得的信息會累積成總的列表。如果沒有發(fā)現(xiàn)相關(guān)文獻(xiàn),系統(tǒng)將及時告知用戶)。(3)界面代理系統(tǒng)在網(wǎng)站首頁產(chǎn)生提醒,告知使用者他或她喜歡的新的文檔的存在。(4)用戶通過訪問列表,獲得自己所需的文獻(xiàn)的全文信息。模型使用RSS1.0技術(shù)建立信息發(fā)布公告欄,方便用戶及時得到需要的信息。為了加強(qiáng)對超鏈接的管理,采用RDF/XML語法和數(shù)據(jù)模型,易于擴(kuò)展和管理此表,能夠擴(kuò)展詞匯,不需要每次添加新詞匯都修改整個數(shù)據(jù)庫。模型中數(shù)字圖書館的RSS發(fā)布模塊(可能多于一個,具體根據(jù)數(shù)字圖書館需求而定)采用半自動化技術(shù)生成和升級。因此,系統(tǒng)管理員只需要通過輸入界面定義描述每個RSS發(fā)布內(nèi)容的簡單信息和本地或網(wǎng)絡(luò)數(shù)據(jù)庫的文獻(xiàn)的特征,系統(tǒng)會先自動對文獻(xiàn)進(jìn)行分析,產(chǎn)生一些對文獻(xiàn)的描述,如標(biāo)題、摘要、關(guān)鍵詞、語言數(shù)據(jù)等,然后由管理員對信息主題進(jìn)行核對,如果不正確,便手動進(jìn)行修改。3.4文獻(xiàn)推薦和被推薦的信息文獻(xiàn)推薦是對數(shù)據(jù)庫中的文獻(xiàn)進(jìn)行分析,找出符合用戶研究興趣的文章的過程。模塊通過使用一種基于數(shù)字圖書館用戶偏好和文獻(xiàn)信息相似度比較的文獻(xiàn)聯(lián)合推薦系統(tǒng),除了提供用戶的偏好之外還能顯示關(guān)于被推薦資源的其它信息。任務(wù)代理系統(tǒng)首先檢索每個文獻(xiàn)的摘要和相關(guān)的推薦,然后比較每個用戶的配置文件和當(dāng)前用戶的配置文件,類似于信息推送的過程(但只與偏好匹配而不是主題和偏好同時匹配)。最

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論