![分布式檢索及相關(guān)理論_第1頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/29/11f5b6d4-b58d-4065-be93-861309edb85f/11f5b6d4-b58d-4065-be93-861309edb85f1.gif)
![分布式檢索及相關(guān)理論_第2頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/29/11f5b6d4-b58d-4065-be93-861309edb85f/11f5b6d4-b58d-4065-be93-861309edb85f2.gif)
![分布式檢索及相關(guān)理論_第3頁](http://file3.renrendoc.com/fileroot_temp3/2021-12/29/11f5b6d4-b58d-4065-be93-861309edb85f/11f5b6d4-b58d-4065-be93-861309edb85f3.gif)
下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、分布式檢索及相關(guān)理論1 分布式檢索概述在信息檢索領(lǐng)域 ,特別是網(wǎng)絡(luò)信息檢索領(lǐng)域 , 一些采用集中 式信息方式的網(wǎng)絡(luò)信息檢索系統(tǒng)當(dāng)負(fù)載增大時(shí) , 用戶的查詢請求 往往難以得到及時(shí)響應(yīng)。為此 , 采用分布式信息方式構(gòu)建分布式 信息檢索系統(tǒng) , 可以在一定程度上解決所面臨的問題。 同時(shí), 由于 信息資源建設(shè)任務(wù)的龐大和繁重 , 很多檢索系統(tǒng)只能獨(dú)立完成某 領(lǐng)域或某方面的資源建設(shè)工作 , 但用戶卻往往需要全面的資源服 務(wù)。而分布式檢索系統(tǒng)可以提供一種整合不同信息資源 , 提供集 成信息服務(wù)的可能 ,即在信息資源分散建設(shè)的環(huán)境下 , 提供集成 的、全面的信息服務(wù)。1.1 分布式計(jì)算 所謂分布式計(jì)算就是兩
2、個(gè)或多個(gè)軟件互相共享信息 , 這些軟 件既可以在同一臺(tái)計(jì)算機(jī)上運(yùn)行 , 也可以在通過網(wǎng)絡(luò)連接起來的 多臺(tái)計(jì)算機(jī)上運(yùn)行。 它研究如何把一個(gè)需要非常巨大的計(jì)算能力 才能解決的問題分成許多小的部分 , 然后把這些部分分配給許多 計(jì)算機(jī)進(jìn)行處理 , 最后把這些計(jì)算結(jié)果綜合起來得到最終的結(jié) 果。分布式計(jì)算比其它算法具有以下幾個(gè)優(yōu)點(diǎn) :(1) 稀有資源可以 共享。 (2) 通過分布式計(jì)算可以在多臺(tái)計(jì)算機(jī)上平衡計(jì)算負(fù)載。 (3) 可以把程序放在最適合運(yùn)行它的計(jì)算機(jī)上。其中, 共享稀有資源和平衡負(fù)載是分布式計(jì)算的核心思想之o1.2 分布式檢索 利用分布式計(jì)算進(jìn)行信息檢索稱為分布式檢索 2 。與并行 檢索相比
3、, 分布式檢索的主要特點(diǎn)是 :(1) 分布式檢索通常處理的 是地理位置分散的異構(gòu)數(shù)據(jù) , 不同地理位置計(jì)算機(jī)系統(tǒng)間通訊的 開銷比較大 , 因此,分布式檢索中應(yīng)該盡量避免不同地理位置計(jì) 算機(jī)系統(tǒng)之間的通訊操作。就通訊本身而言 , 由于不同系統(tǒng)的異 構(gòu)性,分布式檢索系統(tǒng)中通常采用 TCP/IP 協(xié)議來實(shí)現(xiàn)通訊 ,而并 行檢索中處理器之間的通訊可以通過共享內(nèi)存來實(shí)現(xiàn)。 (2) 分布 式檢索的數(shù)據(jù)規(guī)模相對較大 , 每個(gè)節(jié)點(diǎn)的處理能力又不盡相同。 因此,分布式檢索通常只選擇某些數(shù)據(jù)子集進(jìn)行檢索 , 而不像并 行檢索那樣 ,需要返回每個(gè)數(shù)據(jù)子集的結(jié)果。 (3) 分布式檢索的對 象的異構(gòu)性使得統(tǒng)一描述和訪問
4、成為必須要考慮的問題 3 。2 分布式檢索系統(tǒng)結(jié)構(gòu) 分布式的總體結(jié)構(gòu)為如何并行的定義和解決問題 , 提供極大 的靈活性。檢索系統(tǒng)在分布式計(jì)算機(jī)網(wǎng)絡(luò)中實(shí)現(xiàn)的最簡單的方法 是通過多任務(wù)處理的使用。 分布式系統(tǒng)里的每個(gè)處理器都彼此分 開了 ,每個(gè)處理器上運(yùn)行獨(dú)立的搜索引擎系統(tǒng)。搜索引擎對單個(gè) 的查詢不進(jìn)行合作 , 但是他們可以共同擁有代碼庫和數(shù)據(jù)。對搜 索引擎的查詢請求是由檢索代理來管理 , 它接受終端用戶的查詢 要求 ,并將其分發(fā)給所有可利用的搜索引擎。分布式信息檢索系統(tǒng)在系統(tǒng)的結(jié)構(gòu)設(shè)計(jì)中充分考慮了信息 搜索的速度、信息服務(wù)的質(zhì)量 , 以及系統(tǒng)的管理、維護(hù)、更新等 因素,采取了有選擇的協(xié)作機(jī)制 ,
5、 并且利用用戶的反饋調(diào)整系統(tǒng) 的運(yùn)行。當(dāng)系統(tǒng)獲得用戶的查詢請求后 , 先查詢本地信息庫并返 回結(jié)果 , 如果用戶要求更多的信息 ,系統(tǒng)就會(huì)根據(jù)用戶對已有信 息的滿意程度選擇下一個(gè)查詢對象 ,可能是本地信息庫 , 也可能 是遠(yuǎn)程搜索引擎 5 。3 分布式檢索系統(tǒng)的實(shí)現(xiàn)框架分布式信息檢索系統(tǒng)的建立和實(shí)現(xiàn)需要以一個(gè)軟件結(jié)構(gòu)框 架為基礎(chǔ) 6 。目前, 有多個(gè)標(biāo)準(zhǔn)和產(chǎn)品支持這樣的大型信息系統(tǒng) 的開發(fā) , 這些產(chǎn)品主要有以下幾種。3.1 基于 Z39.50 的體系結(jié)構(gòu)基于 Z39.50 協(xié)議的分布式信息檢索系統(tǒng)的核心有兩個(gè)部 分:(1) 索引數(shù)據(jù)庫 :用來存放網(wǎng)上資源索引的數(shù)據(jù)庫 , 它具備 Z39.50
6、 協(xié)議訪問接口。 (2) 用戶訪問接口 :通過 Z39.50 網(wǎng)關(guān)把信 息提供給用戶的接口。該體系結(jié)構(gòu)的分布式檢索系統(tǒng)可以按照以下方式工作 : 用戶 的查詢請求由瀏覽器通過 HTTP!求發(fā)給 Web服務(wù)器;Web服務(wù)器 通過HTTP_Z39.50協(xié)議轉(zhuǎn)換網(wǎng)關(guān)把 HTTP請求轉(zhuǎn)換為Z39.50請求, 發(fā)給本域的 Z39.50 服務(wù)器,進(jìn)而訪問索引庫得到查詢結(jié)果。 如果 在本域的 Z39.50 服務(wù)器找不到所需信息或者用戶在最初的查詢 請求中就指定了查詢其他域,HTTP_Z39.50協(xié)議轉(zhuǎn)換網(wǎng)關(guān)會(huì)把 3950請求發(fā)給其他域的 Z39.50 服務(wù)器, 并負(fù)責(zé)收集所有 Z39.50 服務(wù)器返回的查詢結(jié)果,整合后統(tǒng)一以HTM頁面的形式返回給 用戶瀏覽器。3.2基于Java/CORBA的架構(gòu)Java/CORBA的架構(gòu)是組件技術(shù)的一種類型。組件技術(shù)是面向?qū)ο蠹夹g(shù)的最新發(fā)展 , 它具有開放性、集成性、靈活性、模塊 性、可管理性、安全性、透明性等特點(diǎn)。組件技術(shù)為分布式異構(gòu) 環(huán)境中的多
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 三年級(jí)數(shù)學(xué)下冊兩位數(shù)乘兩位數(shù)的口算乘法
- 第3課 聽覺(教案)-2023-2024學(xué)年六年級(jí)科學(xué)下冊同步備課(青島版)
- 2025至2030年中國擴(kuò)口測溫器數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025至2030年中國強(qiáng)對流光亮爐數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025至2031年中國溫式帶水廢料造粒擠出機(jī)行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2031年中國氨基烤漆涂料降溫催化劑行業(yè)投資前景及策略咨詢研究報(bào)告
- 2025至2030年中國膠帶用熱熔膠粘合劑數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025至2030年中國硅膠數(shù)碼相機(jī)套數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025至2030年中國清熱解毒苦茶數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025至2030年中國卷狀擦拭紙數(shù)據(jù)監(jiān)測研究報(bào)告
- 2025年魯泰集團(tuán)招聘170人高頻重點(diǎn)提升(共500題)附帶答案詳解
- 2024-2025學(xué)年成都高新區(qū)七上數(shù)學(xué)期末考試試卷【含答案】
- 企業(yè)員工食堂管理制度框架
- 《辣椒主要病蟲害》課件
- 電力溝施工組織設(shè)計(jì)-電纜溝
- 2024年煤礦安全生產(chǎn)知識(shí)培訓(xùn)考試必答題庫及答案(共190題)
- 《法律援助》課件
- 小兒肺炎治療與護(hù)理
- GB/T 36547-2024電化學(xué)儲(chǔ)能電站接入電網(wǎng)技術(shù)規(guī)定
- 學(xué)校物業(yè)管理投標(biāo)書范本
- 《高處作業(yè)安全》課件
評(píng)論
0/150
提交評(píng)論