



下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
一種多代理模式的數(shù)字圖書館定題情報服務(wù)模型
1sdi服務(wù)機(jī)制信息服務(wù)(sdi)是滿足文獻(xiàn)信息個性化需求的重要服務(wù)形式,由ibm于20世紀(jì)50年代首次提出。SDI服務(wù)有兩種方式:一種是提供文獻(xiàn)跟蹤服務(wù),同時對課題研究進(jìn)程,根據(jù)國內(nèi)外相關(guān)文獻(xiàn)進(jìn)行關(guān)注;另一種是文獻(xiàn)跟蹤與專題情報研究相結(jié)合,對收集的資料進(jìn)行加工,生成進(jìn)展、動態(tài)等研究報告,指導(dǎo)課題的研究。本文分析了一個基于模糊語義建模技術(shù)的多代理模式的數(shù)字圖書館SDI模型,旨在幫助情報工作人員更好的進(jìn)行文獻(xiàn)信息管理,方便地與用戶溝通,及時為使用者提供準(zhǔn)確的信息。2相關(guān)技術(shù)介紹2.1信息篩選和推薦系統(tǒng)數(shù)字圖書館為了滿足不同用戶對信息的需求,需要對文獻(xiàn)信息進(jìn)行篩選和推薦。通常的做法是使用多代理系統(tǒng),根據(jù)已注冊用戶的信息偏好,對XML或Html形式的文本信息進(jìn)行評估篩選,并把結(jié)果推薦給用戶,以提高檢索信息的精確性。當(dāng)前對信息過濾和推薦的系統(tǒng)有兩種:一種是基于內(nèi)容的信息過濾推薦系統(tǒng),通過比較一組由某用戶定義的表示所需文獻(xiàn)的關(guān)鍵詞,對文獻(xiàn)進(jìn)行過濾,而忽略其他用戶的需求。另一種是聯(lián)合過濾系統(tǒng),同時分析多個用戶提供的請求信息的關(guān)鍵詞,生成推薦信息,而不考慮文獻(xiàn)內(nèi)容的特征。目前的研發(fā)趨勢是結(jié)合兩種方式的優(yōu)點(diǎn),開發(fā)混合型的信息過濾推薦系統(tǒng)。2.2語義技術(shù)網(wǎng)絡(luò)語義指的是文本的含義,也就是文本的意思和結(jié)構(gòu),語義網(wǎng)是一種能夠理解人類語言的智能化的計算機(jī)網(wǎng)絡(luò),使得人機(jī)交流變得非常容易。語義技術(shù)通過在信息中加入表示語義的內(nèi)容,改變目前網(wǎng)絡(luò)僅靠文字來共享資源的模式,提高網(wǎng)絡(luò)智能化的程度。語義網(wǎng)主要有兩個技術(shù)解決方案:一個是對資源進(jìn)行語義標(biāo)引,使信息可以同時被人類和計算機(jī)識別;另一個是發(fā)展智能代理,對資源進(jìn)行語義層次的開發(fā),推導(dǎo)出新的知識。將語義網(wǎng)技術(shù)應(yīng)用于數(shù)字圖書館,可以提高文獻(xiàn)信息檢索的精度和質(zhì)量,有利于信息的共享和交流。2.3模糊的語義模式語義網(wǎng)使用的是自然語言編寫的能被機(jī)器識別的結(jié)構(gòu)化的程序,因此最有效的方法是使用模糊語言技術(shù)建模。模糊語言建模需要用到模糊集技術(shù)處理方法,通常的做法是通過一系列奇數(shù)的標(biāo)簽集來定義標(biāo)簽的標(biāo)度值。每個語言標(biāo)度的語義根據(jù)事先定義的標(biāo)度集來確定,一般分配0-1之間的模糊值。為了對語義信息進(jìn)行綜合,還需要使用元加權(quán)平局(LWA)算法。本模型采用了詞庫作為輔助工具,來實(shí)現(xiàn)對敘詞表半自動化的自然語言處理。2.4自動建立敘詞表技術(shù)自然語言處理技術(shù),包含了語言技術(shù)、統(tǒng)計方法和機(jī)器學(xué)習(xí)算法(主要是群集技術(shù)),可以實(shí)現(xiàn)對文本文件自動翻譯、語音識別,并建立語音識別庫等功能。自動建立敘詞表技術(shù),是自然語言處理技術(shù)的典型應(yīng)用,可以自動對文本中的字詞進(jìn)行管理,提取更有代表性的表示文獻(xiàn)具體領(lǐng)域的詞。WordNet是一個功能強(qiáng)大的多語種詞匯數(shù)據(jù)庫??梢院芎玫闹С秩杭夹g(shù),方便地通過相似性分析從很多文獻(xiàn)中提取一組同義詞,或根據(jù)相似性收集特征詞相近的文獻(xiàn)。3圖書館文獻(xiàn)綜述基于語義的SDI服務(wù)模型主要由兩個代理組成:界面代理和任務(wù)代理,共分成四層結(jié)構(gòu):用戶層、界面層、任務(wù)層和資源層。模型的核心組件是數(shù)字圖書館的文獻(xiàn)全文數(shù)據(jù)庫和一系列基于RDF詞匯的基本元素。下面將系統(tǒng)介紹模型的主要組件和功能模塊。構(gòu)成SDI服務(wù)模型的主要模塊有四個,分別是詞庫管理模塊、用戶配置文件管理模塊、RSS發(fā)布管理模塊和文獻(xiàn)推薦管理模塊。3.1文本預(yù)處理階段作為SDI服務(wù)必不可少的組件,詞庫在傳統(tǒng)圖書館中起到了對專業(yè)領(lǐng)域概念的組織及定義它們的語義關(guān)系的作用。本模型中對詞庫進(jìn)行定義的作用是,建立RSS接口詞語索引和產(chǎn)生推薦信息。模型使用語義相似性計量和處理詞典,代替?zhèn)鹘y(tǒng)的詞匯匹配(如兩個字符串進(jìn)行比較)作為知識組織的工具。創(chuàng)建詞庫的技術(shù)分為四個步驟:對文本進(jìn)行預(yù)處理,進(jìn)行參數(shù)化,對詞匯進(jìn)行概念化,最后是對已經(jīng)確定的概念之間的關(guān)系通過圖標(biāo)進(jìn)行顯示。文本預(yù)處理階段的目標(biāo)是對文本進(jìn)行標(biāo)準(zhǔn)化并刪除多余元素。首先,將所收集文檔(HTML、XML等)的標(biāo)簽,然后將文檔進(jìn)行標(biāo)準(zhǔn)化,方便進(jìn)行參數(shù)化。所有文檔中出現(xiàn)的的首字母縮寫詞將被顯示在排除列表中,而其余符合規(guī)則的文本已經(jīng)被標(biāo)準(zhǔn)化了,日期和數(shù)值被替換為腳本標(biāo)識,所有的字詞都被變成小寫,標(biāo)簽被刪除。然后,自動刪除文檔中所有的虛詞,如限定詞、助動詞、連接詞、介詞、代詞、感嘆詞、副詞等。在參數(shù)化過程中,為了提高運(yùn)算速度,模型將所有的詞詞干化。模型采用了墨菲算法,利用了基于認(rèn)知語言的詞典。算法提供了一組函數(shù)檢測,是否文檔中有無需處理的詞,然后將剩下的所有詞轉(zhuǎn)換為基本詞性。為了定義各組詞語之間的關(guān)系,模型運(yùn)用了網(wǎng)格理論確定。一旦文件被參數(shù)化,就可以通過簡單知識組織系統(tǒng)(SKOS)對每個詞之間的聯(lián)系進(jìn)行提取。3.2生成相似性估計用戶配置文件是對用戶信息結(jié)構(gòu)化的描述,隨著用戶注冊完成便自動產(chǎn)生。用戶配置文件一般包含用戶公開的信息,包括用戶身份、特性和屬性以及用戶隱私信息,如興趣、愛好,訂閱的文獻(xiàn)提醒、圖書推薦等。用戶輸入喜好信息的關(guān)鍵詞之后,系統(tǒng)自動把這些詞與系統(tǒng)詞典自動比對,生成相似性估計算法樹,然后提供一些參考詞給用戶。如果用戶對提供的代表他們偏好的關(guān)鍵詞不滿意,可以進(jìn)行修改。模型允許用戶選擇對不同類型文獻(xiàn)的偏好程度,對文獻(xiàn)瀏覽量的模糊語言變量取值范圍為:總是、幾乎總是、經(jīng)常、偶爾、很少、幾乎不、從不,偶爾作為中間值也是默認(rèn)值。由于SDI服務(wù)功能的實(shí)現(xiàn),必須從儲存的用戶配置文件中獲取偏好信息,所以必須經(jīng)常對系統(tǒng)進(jìn)行升級。雖然用戶的偏好短時間不會發(fā)生大的變化,但系統(tǒng)也必須對微小變化產(chǎn)生響應(yīng),提供準(zhǔn)確的信息。模型既采用了使用模糊語言技術(shù)對用戶隱含的偏好進(jìn)行分析,也考慮了用戶提供的反饋信息。用戶對提供文獻(xiàn)推薦的滿意度有5個標(biāo)度:非常滿意、滿意、中等滿意、不太滿意、很不滿意。隨著用戶訪問資源的增加,系統(tǒng)會更精確。3.3通過半自動化技術(shù)實(shí)現(xiàn)個性化信息貿(mào)易RSS發(fā)布也叫聚合RSS,是在線共享內(nèi)容的一種簡易方式(也叫聚合內(nèi)容,ReallySimpleSyndication)。一個RSS文件就是一段規(guī)范的XML數(shù)據(jù),該文件一般以RSS、XML或者RDF作為后綴。通常在時效性比較強(qiáng)的內(nèi)容上使用RSS訂閱能更快速獲取信息,數(shù)字圖書館提供RSS發(fā)布,有利于讓用戶獲取文獻(xiàn)內(nèi)容的最新信息。而且隨著RSS文件發(fā)布,其中包含的信息可以被其他的數(shù)字圖書館調(diào)用,不同服務(wù)器相互交換彼此的RSS信息,會導(dǎo)致站內(nèi)信息更新加快,形成良性互動。由于模塊的配置文件中有關(guān)于用戶偏好的信息,因此系統(tǒng)會顯示滿足用戶需求的個性化信息提醒。這個過程包括4個步驟:(1)用戶通過用戶名、密碼登錄系統(tǒng)。(2)任務(wù)代理系統(tǒng)自動呈現(xiàn)給用戶符合他們偏好的資源的列表(如果存在超過一個RSS接口,所有的接口獲得的信息會累積成總的列表。如果沒有發(fā)現(xiàn)相關(guān)文獻(xiàn),系統(tǒng)將及時告知用戶)。(3)界面代理系統(tǒng)在網(wǎng)站首頁產(chǎn)生提醒,告知使用者他或她喜歡的新的文檔的存在。(4)用戶通過訪問列表,獲得自己所需的文獻(xiàn)的全文信息。模型使用RSS1.0技術(shù)建立信息發(fā)布公告欄,方便用戶及時得到需要的信息。為了加強(qiáng)對超鏈接的管理,采用RDF/XML語法和數(shù)據(jù)模型,易于擴(kuò)展和管理此表,能夠擴(kuò)展詞匯,不需要每次添加新詞匯都修改整個數(shù)據(jù)庫。模型中數(shù)字圖書館的RSS發(fā)布模塊(可能多于一個,具體根據(jù)數(shù)字圖書館需求而定)采用半自動化技術(shù)生成和升級。因此,系統(tǒng)管理員只需要通過輸入界面定義描述每個RSS發(fā)布內(nèi)容的簡單信息和本地或網(wǎng)絡(luò)數(shù)據(jù)庫的文獻(xiàn)的特征,系統(tǒng)會先自動對文獻(xiàn)進(jìn)行分析,產(chǎn)生一些對文獻(xiàn)的描述,如標(biāo)題、摘要、關(guān)鍵詞、語言數(shù)據(jù)等,然后由管理員對信息主題進(jìn)行核對,如果不正確,便手動進(jìn)行修改。3.4文獻(xiàn)推薦和被推薦的信息文獻(xiàn)推薦是對數(shù)據(jù)庫中的文獻(xiàn)進(jìn)行分析,找出符合用戶研究興趣的文章的過程。模塊通過使用一種基于數(shù)字圖書館用戶偏好和文獻(xiàn)信息相似度比較的文獻(xiàn)聯(lián)合推薦系統(tǒng),除了提供用戶的偏好之外還能顯示關(guān)于被推薦資源的其它信息。任務(wù)代理系統(tǒng)首先檢索每個文獻(xiàn)的摘要和相關(guān)的推薦,然后比較每個用戶的配置文件和當(dāng)前用戶的配置文件,類似于信息推送的過程(但只與偏好匹配而不是主題和偏好同時匹配)。最
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025-2030年中國茄尼醇行業(yè)風(fēng)險評估規(guī)劃研究報告
- 2025-2030年中國紅花籽油市場運(yùn)行狀況及未來發(fā)展趨勢預(yù)測報告
- 貴州應(yīng)用技術(shù)職業(yè)學(xué)院《傳熱學(xué)B》2023-2024學(xué)年第二學(xué)期期末試卷
- 伊犁師范大學(xué)《中學(xué)思想政治課程與教學(xué)論》2023-2024學(xué)年第二學(xué)期期末試卷
- 撫州職業(yè)技術(shù)學(xué)院《無機(jī)非金屬材料機(jī)械設(shè)備》2023-2024學(xué)年第二學(xué)期期末試卷
- 貴州工程應(yīng)用技術(shù)學(xué)院《經(jīng)濟(jì)寫作》2023-2024學(xué)年第二學(xué)期期末試卷
- 貴州中醫(yī)藥大學(xué)時珍學(xué)院《現(xiàn)代光學(xué)基礎(chǔ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 重慶交通職業(yè)學(xué)院《移動平臺開發(fā)技術(shù)》2023-2024學(xué)年第二學(xué)期期末試卷
- 福建電力職業(yè)技術(shù)學(xué)院《有機(jī)化學(xué)實(shí)驗(yàn)A(Ⅱ)》2023-2024學(xué)年第二學(xué)期期末試卷
- 江西應(yīng)用技術(shù)職業(yè)學(xué)院《東方民間文學(xué)概論》2023-2024學(xué)年第二學(xué)期期末試卷
- 初三物理常識試卷單選題100道及答案
- 高中英語新課程標(biāo)準(zhǔn)解讀課件
- 1.2《友邦驚詫論》教學(xué)設(shè)計-【中職專用】高二語文同步講堂(高教版2024·拓展模塊上冊)
- 潔凈室管理培訓(xùn)
- 晶體學(xué)之晶體的宏觀對稱PPT課件
- 質(zhì)量管理體系過程識別矩陣圖及與條款對照表
- 加班調(diào)休單(最新版)
- 智慧金字塔立體篇第四冊、第五冊答案全解
- 導(dǎo)論公共財政學(xué)概論.ppt
- 夢中的婚禮鋼琴簡譜(共6頁)
- 新生兒心理的發(fā)生
評論
0/150
提交評論