




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
網(wǎng)絡(luò)信息檢索的原理及技術(shù)網(wǎng)絡(luò)信息檢索的原理及技術(shù)2用戶界面設(shè)計(jì)友好,利于信息用戶與檢索系統(tǒng)的交流現(xiàn)實(shí)的網(wǎng)絡(luò)異構(gòu),有很大物理差異,所以檢索途徑更加靈活是衡量信息檢索工具的重要指標(biāo)之一內(nèi)容新穎實(shí)時(shí)檢索主題廣泛功能完善友好檢索靈活多元跟進(jìn)internet的步伐,每時(shí)每刻出現(xiàn)新信息,更新內(nèi)容,隨時(shí)獲取最新信息用戶界面設(shè)計(jì)友好,利于信息用戶與檢索系統(tǒng)的交流現(xiàn)實(shí)的網(wǎng)絡(luò)異構(gòu)3網(wǎng)絡(luò)信息檢索的原理及技術(shù)4網(wǎng)絡(luò)信息檢索工具三提供給用戶檢索信息的軟件系統(tǒng),是網(wǎng)絡(luò)信息檢索的接口聯(lián)機(jī)檢索:一種受控的,其數(shù)據(jù)庫需注冊的,且有償?shù)南到y(tǒng)搜索引擎:一種開放式的網(wǎng)絡(luò)檢索工具,用戶可自由使用它網(wǎng)絡(luò)信息檢索工具三提供給用戶檢索信息的軟件系統(tǒng),是網(wǎng)絡(luò)信息檢59.2.1網(wǎng)絡(luò)信息檢索的基本原理Marchionini網(wǎng)絡(luò)信息檢索行為模型Choo網(wǎng)絡(luò)信息檢索行為模型Macpherson網(wǎng)絡(luò)信息檢索行為模型接受問題理解問題選擇系統(tǒng)構(gòu)造查詢思考/重復(fù)/停止提取信息評價(jià)結(jié)果執(zhí)行查詢9.2.1網(wǎng)絡(luò)信息檢索的基本原理Marchionini網(wǎng)絡(luò)信69.2.2網(wǎng)絡(luò)信息檢索技術(shù)海量數(shù)據(jù)的存儲(chǔ)和處理技術(shù)網(wǎng)頁搜索技術(shù)標(biāo)引技術(shù)檢索技術(shù)排序技術(shù)索引技術(shù)分類9.2.2網(wǎng)絡(luò)信息檢索技術(shù)海量數(shù)據(jù)的存儲(chǔ)和處理技術(shù)分類79.2.3網(wǎng)絡(luò)信息檢索系統(tǒng)……..體系結(jié)構(gòu)索引數(shù)據(jù)庫用戶界面數(shù)據(jù)過濾地址列表頁面分類信息資源采集人工收集自動(dòng)收集Internet用戶9.2.3網(wǎng)絡(luò)信息檢索系統(tǒng)……..體系結(jié)構(gòu)索引數(shù)據(jù)庫用戶界面8網(wǎng)絡(luò)信息檢索系統(tǒng)工作流程1.搜索引擎中的信息收集模塊在網(wǎng)絡(luò)環(huán)境下手機(jī)網(wǎng)絡(luò)信息資源,手機(jī)的方式包括人工收集和利用信息收集兩種。2.信息收集模塊完成信息收集任務(wù)后,將所收集的信息資源返還給搜索引擎,并對這些信息資源進(jìn)行頁面分類、建立索引,然后存放在已建立好的索引數(shù)據(jù)庫。3.搜索引擎為用戶提供統(tǒng)一的網(wǎng)絡(luò)信息檢索界面,用戶通過該檢索界面提交自己的檢索請求。4.搜索引擎根據(jù)用戶提供的檢索請求,在索引中查詢相關(guān)語句,并進(jìn)行必要的邏輯運(yùn)算操作,然后在索引數(shù)據(jù)庫中查找匹配的網(wǎng)頁。5.查詢完畢后,將最終的檢索結(jié)果以超文本鏈接等形式顯示給用戶,用戶根據(jù)這些鏈接去訪問相關(guān)的信息資源。網(wǎng)絡(luò)信息檢索系統(tǒng)工作流程1.搜索引擎中的信息收集模塊在網(wǎng)絡(luò)環(huán)9搜索引擎的基本結(jié)構(gòu)用戶網(wǎng)絡(luò)信息空間收集器標(biāo)引器標(biāo)引庫檢索引擎界面檢索過程收集標(biāo)引過程集中式搜索引擎的一般結(jié)構(gòu)搜索引擎的基本結(jié)構(gòu)用戶網(wǎng)絡(luò)信息空間收集器標(biāo)引器標(biāo)引庫檢索引擎10分布式搜索引擎的一般結(jié)構(gòu)復(fù)制管理器對象緩存
網(wǎng)絡(luò)空間中介器收集器中介器用戶………….分布式搜索引擎的一般結(jié)構(gòu)復(fù)制管理器對象緩存119.3.1網(wǎng)絡(luò)信息的采集定義:是實(shí)現(xiàn)網(wǎng)絡(luò)信息檢索的第一環(huán)節(jié),其主要任務(wù)是為網(wǎng)絡(luò)信息資源庫錄入信息源。廣義上:網(wǎng)絡(luò)信息采集包括網(wǎng)絡(luò)信息檢索系統(tǒng)的所有信息采集和錄入活動(dòng)。狹義上:是指網(wǎng)絡(luò)搜索引擎的信息采集。思考:網(wǎng)絡(luò)搜索引擎的信息怎么采集的呢?9.3.1網(wǎng)絡(luò)信息的采集定義:是實(shí)現(xiàn)網(wǎng)絡(luò)信息檢索的第一環(huán)節(jié),129.3.2網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛即WebSpider,是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個(gè)頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁,這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁都抓取完為止(大家可以想象下我們經(jīng)常使用PPT中的那個(gè)超級(jí)鏈接,個(gè)人覺得和那個(gè)很相似)9.3.2網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛即WebSpider,是一個(gè)很形13網(wǎng)絡(luò)蜘蛛的工作原理圖網(wǎng)絡(luò)蜘蛛的工作原理圖14在抓取網(wǎng)頁的時(shí)候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個(gè)鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。(速率)深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)從起始頁開始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁,繼續(xù)跟蹤鏈接。(簡單)在抓取網(wǎng)頁的時(shí)候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先159.3.3主題信息采集技術(shù)”主題“就是用戶所需要搜集信息的特征。主題可以是很多種類別:如Web的信息采集互聯(lián)網(wǎng)的信息采集語義分析的信息采集等等簡單點(diǎn)說就是我們跟王老師學(xué)習(xí)的信息檢索內(nèi)容主題信息采集技術(shù)就是基于下面的理念出現(xiàn)的
主題信息采集的任務(wù)就是在盡可能短的時(shí)間內(nèi),盡可能搜集多的主題相關(guān)信息。盡可能少的搜索與主題無關(guān)的信息。9.3.3主題信息采集技術(shù)”主題“就是用戶所需要搜集信息的特16主題信息采集策略基于內(nèi)容評價(jià)的搜索策略Yourtext基于綜合價(jià)值評估的搜索策略基于動(dòng)態(tài)價(jià)值評估的搜索策略基于鏈接構(gòu)的評價(jià)策略基于未來回報(bào)價(jià)值評價(jià)的搜索策略主要的主題信息采集策略主題信息采集策略基于內(nèi)容評價(jià)Yourtext基于綜合價(jià)值評179.4.1網(wǎng)絡(luò)信息的組織語法信息組織語法信息組織是以信息的形式特征為特征為依據(jù)序化信息的方法語義信息組織語義信息組織是以信息的內(nèi)容或本質(zhì)特征為依據(jù)序化信息的方法語用信息組織語用信息組織是以信息的效用特征為依據(jù)序化信息的方法9.4.1網(wǎng)絡(luò)信息的組織語法信息組織語義信息組織語用信息組織189.4.2網(wǎng)絡(luò)信息組織的規(guī)范元數(shù)據(jù)最本質(zhì)、最抽象的定義為:dataaboutdata。元數(shù)據(jù)被定義為:描述數(shù)據(jù)的數(shù)據(jù),對數(shù)據(jù)及信息資源的描述性信息。元數(shù)據(jù)的基本特點(diǎn)主要有:a)元數(shù)據(jù)一經(jīng)建立,便可共享。b)元數(shù)據(jù)首先是一種編碼體系。由于元數(shù)據(jù)也是數(shù)據(jù),因此可以用類似數(shù)據(jù)的方法在數(shù)據(jù)庫中進(jìn)行存儲(chǔ)和獲取。如果提供數(shù)據(jù)元的組織同時(shí)提供描述數(shù)據(jù)元的元數(shù)據(jù),將會(huì)使數(shù)據(jù)元的使用變得準(zhǔn)確而高效。用戶在使用數(shù)據(jù)時(shí)可以首先查看其元數(shù)據(jù)以便能夠獲取自己所需的信息。(隨便告訴大家元數(shù)據(jù)是元數(shù)據(jù)是一種二進(jìn)制信息,用以對存儲(chǔ)在公共語言運(yùn)行庫可移植可執(zhí)行文件(PE)或存儲(chǔ)在內(nèi)存中的程序進(jìn)行描述)9.4.2網(wǎng)絡(luò)信息組織的規(guī)范元數(shù)據(jù)最本質(zhì)、最抽象的定義為:d19MARC元數(shù)據(jù)的概念MARC元數(shù)據(jù):是利用計(jì)算機(jī)識(shí)讀和處理的目錄。MARC主要用于圖書館管理軟件中,采訪、編目、典藏等環(huán)節(jié)都有重要的作用,也方便館際之間的數(shù)據(jù)交流,是統(tǒng)一文獻(xiàn)著錄規(guī)范。我簡練點(diǎn)叫它“英文機(jī)讀目錄格式”,如果是“中國范”的CNMARC就叫“中國機(jī)讀目錄格式”《金碟圖書館管理系統(tǒng)》增強(qiáng)網(wǎng)絡(luò)版自帶150萬CNMARC格式書目庫,支持CNMARC格式書目數(shù)據(jù)的導(dǎo)入導(dǎo)出,可大大減少編目錄入工作量。MARC元數(shù)據(jù)的概念MARC元數(shù)據(jù):是利用計(jì)算機(jī)識(shí)讀和處理的20優(yōu)點(diǎn)作用1.具有標(biāo)準(zhǔn)的信息交換格式2.完整的書目描述,且具有多種檢索點(diǎn)3.各類信息資源在圖書館目錄中的集成4.兼容性強(qiáng)1.無法及時(shí)的處理大量的網(wǎng)絡(luò)信息資源2.對信息標(biāo)引的專業(yè)性很高,所以不適合大多數(shù)普通信息用戶3.編目的工作復(fù)雜,只能由專業(yè)的編目人員進(jìn)行操作4.所設(shè)項(xiàng)目繁雜且產(chǎn)生速度慢圖書采訪利用MARC數(shù)據(jù),就可以通過圖書的ISBN號(hào),調(diào)入正題名、責(zé)任者等圖書內(nèi)容,從而簡化圖書采購數(shù)據(jù)的錄入。是組織網(wǎng)絡(luò)信息資源的一種有效方式。231缺點(diǎn)MARC格式優(yōu)缺點(diǎn)優(yōu)點(diǎn)作用1.具有標(biāo)準(zhǔn)的信息交換格式1.無法及時(shí)的處理大量的網(wǎng)21DC元數(shù)據(jù)的來歷DC元數(shù)據(jù):即“都柏林核心(DublinCore)元數(shù)據(jù)”,由OCLC首倡于1994年,因創(chuàng)始地在美國俄亥俄(Ohio)首府都柏林而得名。其維護(hù)機(jī)構(gòu)為DCMI:DublinCoreMetadataInitiative。DC元數(shù)據(jù)規(guī)范最基本的內(nèi)容是包含十五個(gè)元素的元數(shù)據(jù)元素集合,用以描述資源對象的語義信息。題名Title創(chuàng)建者Creator日期Date主題Subject出版者Publisher類型Type描述Description其他責(zé)任者Contributor格式Format來源Source權(quán)限Rights標(biāo)識(shí)符Identifier語種Language關(guān)聯(lián)Relation覆蓋范圍CoverageDC元數(shù)據(jù)的來歷DC元數(shù)據(jù):即“都柏林核心(DublinC22簡單性靈活性兼容性擴(kuò)展性適應(yīng)性通用性優(yōu)勢可直接處理數(shù)據(jù)DC元數(shù)據(jù)的優(yōu)勢簡單性靈活性兼容性擴(kuò)展性適應(yīng)性通用性優(yōu)勢可直接處理數(shù)據(jù)DC元23RDF的概念RDF:資源描述框架,一種用于描述Web資源的標(biāo)記語言,是一個(gè)處理元數(shù)據(jù)的XML(標(biāo)準(zhǔn)通用標(biāo)記語言的子集)應(yīng)用。它的作用是為多種元數(shù)據(jù)的交互提供平臺(tái)RDF的概念RDF:資源描述框架,一種用于描述Web資源的標(biāo)24內(nèi)容01獨(dú)立性02使用XML作為其描述語法內(nèi)容它可嵌入DC元數(shù)據(jù)也可嵌入其他類型的元數(shù)據(jù),使元數(shù)據(jù)間的轉(zhuǎn)換成為可能它采用目前最具發(fā)展前景的標(biāo)記語言XML(可擴(kuò)展標(biāo)記語言),用XML作為自己的描述語言,自然就成為一種可攜帶多種元數(shù)據(jù)穿行于網(wǎng)絡(luò)上的框架工具RDF的兩大特點(diǎn)內(nèi)容01獨(dú)立性02使用XML作為其描述語法內(nèi)容它可嵌入DC元259.4.3網(wǎng)絡(luò)信息組織的方法1.數(shù)據(jù)庫組織方式:將所有獲得的信息資源按照固定的記錄格式存儲(chǔ)組織,用戶通過關(guān)鍵字及其組配可以知道所需要的信息線索2.超鏈接方式:把不定長的基本信息單元存放在節(jié)點(diǎn)上,這些基本信息單元可以使單個(gè)字,句子,章節(jié),文獻(xiàn),甚至是圖像,音樂或者錄像。3.主頁方式:通過各種頻道欄目,根據(jù)網(wǎng)站定位的用戶對象,需求的動(dòng)態(tài),一次信息等進(jìn)行全面的編輯,翻譯,報(bào)道,集中組織信息,提供信息服務(wù)。4.文件方式:采用主題法的思想,以文件名標(biāo)識(shí)信息內(nèi)容,用文件夾組織信息資源,通過網(wǎng)絡(luò)共享實(shí)現(xiàn)信息傳播,是成熟的文件操作技術(shù)和網(wǎng)絡(luò)傳輸技術(shù)相結(jié)合的產(chǎn)物。5.主題樹的方式:將信息資源按照某種事先確定的概念體系,分門別類的逐層加以組織,用戶先通過層層瀏覽的方式遍歷,知道找到所需要的資源。9.4.3網(wǎng)絡(luò)信息組織的方法1.數(shù)據(jù)庫組織方式:將所有獲得的269.5.1網(wǎng)絡(luò)信息的整合網(wǎng)絡(luò)信息整合可分為3個(gè)階段(1)面向網(wǎng)絡(luò)信息組織的整合階段(2)面向異構(gòu)數(shù)據(jù)源的數(shù)據(jù)整合方式(3)面向應(yīng)用的信息整合階段9.5.1網(wǎng)絡(luò)信息的整合網(wǎng)絡(luò)信息整合可分為3個(gè)階段(1)面向27Z39.50標(biāo)準(zhǔn)協(xié)議的作用及特點(diǎn)z39.50協(xié)議(應(yīng)用和服務(wù)定義與協(xié)議規(guī)范)
將各個(gè)系統(tǒng)的具體實(shí)現(xiàn)映射到抽象模型上,才能使不同的系統(tǒng)在一個(gè)相互理解的、標(biāo)準(zhǔn)的通信平臺(tái)上進(jìn)行交互,滿足互操作的需要。1.該協(xié)議是一種應(yīng)用層協(xié)議2.能夠提供一致性的檢索接口進(jìn)行多數(shù)據(jù)查詢3.該協(xié)議是一種面向連接的有狀態(tài)的協(xié)議4.該協(xié)議面向數(shù)據(jù)庫檢索Z39.50標(biāo)準(zhǔn)協(xié)議的作用及特點(diǎn)z39.50協(xié)議(應(yīng)用和服務(wù)28Z39.50標(biāo)準(zhǔn)協(xié)議提供的服務(wù)它包括了11種基本服務(wù):1.查詢;2.檢索;3.終止4.瀏覽;5.分類;6.解釋;7.初始化;8.存取控制;9.資源控制;10.刪除結(jié)果;11.擴(kuò)展服務(wù);Z39.50標(biāo)準(zhǔn)協(xié)議提供的服務(wù)它包括了11種基本服務(wù):29網(wǎng)絡(luò)信息資源集成網(wǎng)絡(luò)信息資源集成有什么意義:網(wǎng)絡(luò)信息集成技術(shù)用于網(wǎng)絡(luò)信息的查詢中,可以得到精確而完善的查詢結(jié)果。使internet網(wǎng)上繁雜的信息得到更好的整理與集成。網(wǎng)絡(luò)信息資源集成的階段和步驟1網(wǎng)頁文本數(shù)據(jù)抽取2.查詢重構(gòu)3.查詢優(yōu)化和執(zhí)行4.異構(gòu)數(shù)據(jù)的集成
信息資源集成網(wǎng)絡(luò)信息資源集成網(wǎng)絡(luò)信息資源集成有什么意義:1網(wǎng)頁文本數(shù)30
9.6網(wǎng)絡(luò)信息的搜索1.搜索引擎及其分類概念:是指在Internet上主動(dòng)搜索信息并能主動(dòng)索引、提供查詢服務(wù)的一類網(wǎng)站,這些網(wǎng)站通過網(wǎng)絡(luò)搜索Robot或網(wǎng)站登錄方式,將Internet上大量網(wǎng)站的頁面收集到本地,經(jīng)過加工處理而建成索引數(shù)據(jù)庫,從而能對用戶提出的各種查詢做出響應(yīng),提供用戶所需信息1.1搜索引擎綜合分類(1)全文搜索引擎(2)目錄搜索引擎(3)元搜索引擎9.6網(wǎng)絡(luò)信息的搜索1.搜索引擎及其分類概念:1.1搜索引31全文搜索引擎的工作原理全文搜索引擎的工作原理32常用的中文搜索引擎Google搜索引擎百度中文搜索引擎新浪搜索引擎北大天網(wǎng)中英文搜索引擎網(wǎng)易搜索引擎雅虎中國搜索引擎搜狐搜索引擎常用的中文搜索引擎百度中文搜索引擎北大天網(wǎng)中英文搜索引擎網(wǎng)易33PageRank算法PageRank算法的數(shù)學(xué)定義為:PR(A)=(1-d)+d(PR(Ti)/C(Ti)+...+PR(Tn)/C(Tn)例如在網(wǎng)頁A-網(wǎng)頁F中,B、C、D、E、F中都鏈接A。則說明A網(wǎng)頁是最為重要的,所以它的PageRank值最高。網(wǎng)頁A級(jí)別=(1-系數(shù))+系數(shù)×——————+——————...+——————網(wǎng)頁1級(jí)別網(wǎng)頁1鏈出個(gè)數(shù)網(wǎng)頁2級(jí)別網(wǎng)頁2鏈出個(gè)數(shù)網(wǎng)頁N級(jí)別網(wǎng)頁N鏈出個(gè)數(shù)PageRank算法PageRank算法的數(shù)學(xué)定義為:網(wǎng)頁1349.7網(wǎng)絡(luò)信息檢索的研究熱點(diǎn)9.7.1海量數(shù)據(jù)的存儲(chǔ)與處理(1)海量數(shù)據(jù)的磁盤列存儲(chǔ)技術(shù)(2)海量數(shù)據(jù)存儲(chǔ)模式(3)Google文件系統(tǒng)GFS簡介.A
GroupCGroupB
Group9.7網(wǎng)絡(luò)信息檢索的研究熱點(diǎn)9.7.1海量數(shù)據(jù)的存儲(chǔ)與359.7.2集群與分布式計(jì)算數(shù)據(jù)庫集群系統(tǒng)定義:
數(shù)據(jù)庫集群系統(tǒng)以集群技術(shù)與數(shù)據(jù)庫系統(tǒng)相結(jié)合。其核心思想是通過多機(jī)并行處理來隱藏對數(shù)據(jù)庫性能影響較大的延遲以獲得高并行處理性能。其優(yōu)勢1)高能性2)高應(yīng)用性3)高擴(kuò)張性9.7.2集群與分布式計(jì)算數(shù)據(jù)庫集群系統(tǒng)定義:其優(yōu)369.7.3.集群技術(shù)的分類集群技術(shù)一共分為三類:1.科學(xué)集群:科學(xué)集群對外就好像一個(gè)超級(jí)計(jì)算機(jī),這種超級(jí)計(jì)算機(jī)內(nèi)部由十至上萬個(gè)獨(dú)立處理器組成,并且在公共消息傳遞層上進(jìn)行通信以運(yùn)行并行應(yīng)用程序。2.負(fù)載均衡集群:與科學(xué)計(jì)算集群一樣,負(fù)載均衡集群也在多節(jié)點(diǎn)之間分發(fā)計(jì)算處理負(fù)載。它們之間的最大區(qū)別在于缺少跨節(jié)點(diǎn)運(yùn)行的單并行程序3.高可用性集群:當(dāng)集群中的一個(gè)系統(tǒng)發(fā)生故障時(shí),集群軟件迅速做出反應(yīng),將該系統(tǒng)的任務(wù)分配到集群中其它正在工作的系統(tǒng)上執(zhí)行,高可用性集群的主要目的是為了使集群的整體服務(wù)盡可能可用。9.7.3.集群技術(shù)的分類集群技術(shù)一共分為三類:379.7.4XML信息檢索XML查詢語言
(1)LOREL
(2)XML-QL
(3)XQueryXML查詢語言9.7.4XML信息檢索XML查詢語言(1)LO389.7.5XRANK搜索引擎框架XML/HTML文檔ElemRank算法XML元素(采用ElemRank算法)混合杜威倒排表查詢評估器關(guān)鍵詞查詢排序結(jié)果XRANK系統(tǒng)結(jié)構(gòu)圖9.7.5XRANK搜索引擎框架XML/HTML文檔Ele399.7.6.語義網(wǎng)信息檢索語義網(wǎng)本體語言語義索引及推理語義網(wǎng)信息檢索模型后向鏈推理前向鏈推理9.7.6.語義網(wǎng)信息檢索前向鏈推理40網(wǎng)絡(luò)信息檢索的原理及技術(shù)41網(wǎng)絡(luò)信息檢索的原理及技術(shù)網(wǎng)絡(luò)信息檢索的原理及技術(shù)43用戶界面設(shè)計(jì)友好,利于信息用戶與檢索系統(tǒng)的交流現(xiàn)實(shí)的網(wǎng)絡(luò)異構(gòu),有很大物理差異,所以檢索途徑更加靈活是衡量信息檢索工具的重要指標(biāo)之一內(nèi)容新穎實(shí)時(shí)檢索主題廣泛功能完善友好檢索靈活多元跟進(jìn)internet的步伐,每時(shí)每刻出現(xiàn)新信息,更新內(nèi)容,隨時(shí)獲取最新信息用戶界面設(shè)計(jì)友好,利于信息用戶與檢索系統(tǒng)的交流現(xiàn)實(shí)的網(wǎng)絡(luò)異構(gòu)44網(wǎng)絡(luò)信息檢索的原理及技術(shù)45網(wǎng)絡(luò)信息檢索工具三提供給用戶檢索信息的軟件系統(tǒng),是網(wǎng)絡(luò)信息檢索的接口聯(lián)機(jī)檢索:一種受控的,其數(shù)據(jù)庫需注冊的,且有償?shù)南到y(tǒng)搜索引擎:一種開放式的網(wǎng)絡(luò)檢索工具,用戶可自由使用它網(wǎng)絡(luò)信息檢索工具三提供給用戶檢索信息的軟件系統(tǒng),是網(wǎng)絡(luò)信息檢469.2.1網(wǎng)絡(luò)信息檢索的基本原理Marchionini網(wǎng)絡(luò)信息檢索行為模型Choo網(wǎng)絡(luò)信息檢索行為模型Macpherson網(wǎng)絡(luò)信息檢索行為模型接受問題理解問題選擇系統(tǒng)構(gòu)造查詢思考/重復(fù)/停止提取信息評價(jià)結(jié)果執(zhí)行查詢9.2.1網(wǎng)絡(luò)信息檢索的基本原理Marchionini網(wǎng)絡(luò)信479.2.2網(wǎng)絡(luò)信息檢索技術(shù)海量數(shù)據(jù)的存儲(chǔ)和處理技術(shù)網(wǎng)頁搜索技術(shù)標(biāo)引技術(shù)檢索技術(shù)排序技術(shù)索引技術(shù)分類9.2.2網(wǎng)絡(luò)信息檢索技術(shù)海量數(shù)據(jù)的存儲(chǔ)和處理技術(shù)分類489.2.3網(wǎng)絡(luò)信息檢索系統(tǒng)……..體系結(jié)構(gòu)索引數(shù)據(jù)庫用戶界面數(shù)據(jù)過濾地址列表頁面分類信息資源采集人工收集自動(dòng)收集Internet用戶9.2.3網(wǎng)絡(luò)信息檢索系統(tǒng)……..體系結(jié)構(gòu)索引數(shù)據(jù)庫用戶界面49網(wǎng)絡(luò)信息檢索系統(tǒng)工作流程1.搜索引擎中的信息收集模塊在網(wǎng)絡(luò)環(huán)境下手機(jī)網(wǎng)絡(luò)信息資源,手機(jī)的方式包括人工收集和利用信息收集兩種。2.信息收集模塊完成信息收集任務(wù)后,將所收集的信息資源返還給搜索引擎,并對這些信息資源進(jìn)行頁面分類、建立索引,然后存放在已建立好的索引數(shù)據(jù)庫。3.搜索引擎為用戶提供統(tǒng)一的網(wǎng)絡(luò)信息檢索界面,用戶通過該檢索界面提交自己的檢索請求。4.搜索引擎根據(jù)用戶提供的檢索請求,在索引中查詢相關(guān)語句,并進(jìn)行必要的邏輯運(yùn)算操作,然后在索引數(shù)據(jù)庫中查找匹配的網(wǎng)頁。5.查詢完畢后,將最終的檢索結(jié)果以超文本鏈接等形式顯示給用戶,用戶根據(jù)這些鏈接去訪問相關(guān)的信息資源。網(wǎng)絡(luò)信息檢索系統(tǒng)工作流程1.搜索引擎中的信息收集模塊在網(wǎng)絡(luò)環(huán)50搜索引擎的基本結(jié)構(gòu)用戶網(wǎng)絡(luò)信息空間收集器標(biāo)引器標(biāo)引庫檢索引擎界面檢索過程收集標(biāo)引過程集中式搜索引擎的一般結(jié)構(gòu)搜索引擎的基本結(jié)構(gòu)用戶網(wǎng)絡(luò)信息空間收集器標(biāo)引器標(biāo)引庫檢索引擎51分布式搜索引擎的一般結(jié)構(gòu)復(fù)制管理器對象緩存
網(wǎng)絡(luò)空間中介器收集器中介器用戶………….分布式搜索引擎的一般結(jié)構(gòu)復(fù)制管理器對象緩存529.3.1網(wǎng)絡(luò)信息的采集定義:是實(shí)現(xiàn)網(wǎng)絡(luò)信息檢索的第一環(huán)節(jié),其主要任務(wù)是為網(wǎng)絡(luò)信息資源庫錄入信息源。廣義上:網(wǎng)絡(luò)信息采集包括網(wǎng)絡(luò)信息檢索系統(tǒng)的所有信息采集和錄入活動(dòng)。狹義上:是指網(wǎng)絡(luò)搜索引擎的信息采集。思考:網(wǎng)絡(luò)搜索引擎的信息怎么采集的呢?9.3.1網(wǎng)絡(luò)信息的采集定義:是實(shí)現(xiàn)網(wǎng)絡(luò)信息檢索的第一環(huán)節(jié),539.3.2網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛即WebSpider,是一個(gè)很形象的名字。把互聯(lián)網(wǎng)比喻成一個(gè)蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁,從網(wǎng)站某一個(gè)頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁,這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁都抓取完為止(大家可以想象下我們經(jīng)常使用PPT中的那個(gè)超級(jí)鏈接,個(gè)人覺得和那個(gè)很相似)9.3.2網(wǎng)絡(luò)蜘蛛網(wǎng)絡(luò)蜘蛛即WebSpider,是一個(gè)很形54網(wǎng)絡(luò)蜘蛛的工作原理圖網(wǎng)絡(luò)蜘蛛的工作原理圖55在抓取網(wǎng)頁的時(shí)候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先廣度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個(gè)鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。(速率)深度優(yōu)先是指網(wǎng)絡(luò)蜘蛛會(huì)從起始頁開始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁,繼續(xù)跟蹤鏈接。(簡單)在抓取網(wǎng)頁的時(shí)候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先569.3.3主題信息采集技術(shù)”主題“就是用戶所需要搜集信息的特征。主題可以是很多種類別:如Web的信息采集互聯(lián)網(wǎng)的信息采集語義分析的信息采集等等簡單點(diǎn)說就是我們跟王老師學(xué)習(xí)的信息檢索內(nèi)容主題信息采集技術(shù)就是基于下面的理念出現(xiàn)的
主題信息采集的任務(wù)就是在盡可能短的時(shí)間內(nèi),盡可能搜集多的主題相關(guān)信息。盡可能少的搜索與主題無關(guān)的信息。9.3.3主題信息采集技術(shù)”主題“就是用戶所需要搜集信息的特57主題信息采集策略基于內(nèi)容評價(jià)的搜索策略Yourtext基于綜合價(jià)值評估的搜索策略基于動(dòng)態(tài)價(jià)值評估的搜索策略基于鏈接構(gòu)的評價(jià)策略基于未來回報(bào)價(jià)值評價(jià)的搜索策略主要的主題信息采集策略主題信息采集策略基于內(nèi)容評價(jià)Yourtext基于綜合價(jià)值評589.4.1網(wǎng)絡(luò)信息的組織語法信息組織語法信息組織是以信息的形式特征為特征為依據(jù)序化信息的方法語義信息組織語義信息組織是以信息的內(nèi)容或本質(zhì)特征為依據(jù)序化信息的方法語用信息組織語用信息組織是以信息的效用特征為依據(jù)序化信息的方法9.4.1網(wǎng)絡(luò)信息的組織語法信息組織語義信息組織語用信息組織599.4.2網(wǎng)絡(luò)信息組織的規(guī)范元數(shù)據(jù)最本質(zhì)、最抽象的定義為:dataaboutdata。元數(shù)據(jù)被定義為:描述數(shù)據(jù)的數(shù)據(jù),對數(shù)據(jù)及信息資源的描述性信息。元數(shù)據(jù)的基本特點(diǎn)主要有:a)元數(shù)據(jù)一經(jīng)建立,便可共享。b)元數(shù)據(jù)首先是一種編碼體系。由于元數(shù)據(jù)也是數(shù)據(jù),因此可以用類似數(shù)據(jù)的方法在數(shù)據(jù)庫中進(jìn)行存儲(chǔ)和獲取。如果提供數(shù)據(jù)元的組織同時(shí)提供描述數(shù)據(jù)元的元數(shù)據(jù),將會(huì)使數(shù)據(jù)元的使用變得準(zhǔn)確而高效。用戶在使用數(shù)據(jù)時(shí)可以首先查看其元數(shù)據(jù)以便能夠獲取自己所需的信息。(隨便告訴大家元數(shù)據(jù)是元數(shù)據(jù)是一種二進(jìn)制信息,用以對存儲(chǔ)在公共語言運(yùn)行庫可移植可執(zhí)行文件(PE)或存儲(chǔ)在內(nèi)存中的程序進(jìn)行描述)9.4.2網(wǎng)絡(luò)信息組織的規(guī)范元數(shù)據(jù)最本質(zhì)、最抽象的定義為:d60MARC元數(shù)據(jù)的概念MARC元數(shù)據(jù):是利用計(jì)算機(jī)識(shí)讀和處理的目錄。MARC主要用于圖書館管理軟件中,采訪、編目、典藏等環(huán)節(jié)都有重要的作用,也方便館際之間的數(shù)據(jù)交流,是統(tǒng)一文獻(xiàn)著錄規(guī)范。我簡練點(diǎn)叫它“英文機(jī)讀目錄格式”,如果是“中國范”的CNMARC就叫“中國機(jī)讀目錄格式”《金碟圖書館管理系統(tǒng)》增強(qiáng)網(wǎng)絡(luò)版自帶150萬CNMARC格式書目庫,支持CNMARC格式書目數(shù)據(jù)的導(dǎo)入導(dǎo)出,可大大減少編目錄入工作量。MARC元數(shù)據(jù)的概念MARC元數(shù)據(jù):是利用計(jì)算機(jī)識(shí)讀和處理的61優(yōu)點(diǎn)作用1.具有標(biāo)準(zhǔn)的信息交換格式2.完整的書目描述,且具有多種檢索點(diǎn)3.各類信息資源在圖書館目錄中的集成4.兼容性強(qiáng)1.無法及時(shí)的處理大量的網(wǎng)絡(luò)信息資源2.對信息標(biāo)引的專業(yè)性很高,所以不適合大多數(shù)普通信息用戶3.編目的工作復(fù)雜,只能由專業(yè)的編目人員進(jìn)行操作4.所設(shè)項(xiàng)目繁雜且產(chǎn)生速度慢圖書采訪利用MARC數(shù)據(jù),就可以通過圖書的ISBN號(hào),調(diào)入正題名、責(zé)任者等圖書內(nèi)容,從而簡化圖書采購數(shù)據(jù)的錄入。是組織網(wǎng)絡(luò)信息資源的一種有效方式。231缺點(diǎn)MARC格式優(yōu)缺點(diǎn)優(yōu)點(diǎn)作用1.具有標(biāo)準(zhǔn)的信息交換格式1.無法及時(shí)的處理大量的網(wǎng)62DC元數(shù)據(jù)的來歷DC元數(shù)據(jù):即“都柏林核心(DublinCore)元數(shù)據(jù)”,由OCLC首倡于1994年,因創(chuàng)始地在美國俄亥俄(Ohio)首府都柏林而得名。其維護(hù)機(jī)構(gòu)為DCMI:DublinCoreMetadataInitiative。DC元數(shù)據(jù)規(guī)范最基本的內(nèi)容是包含十五個(gè)元素的元數(shù)據(jù)元素集合,用以描述資源對象的語義信息。題名Title創(chuàng)建者Creator日期Date主題Subject出版者Publisher類型Type描述Description其他責(zé)任者Contributor格式Format來源Source權(quán)限Rights標(biāo)識(shí)符Identifier語種Language關(guān)聯(lián)Relation覆蓋范圍CoverageDC元數(shù)據(jù)的來歷DC元數(shù)據(jù):即“都柏林核心(DublinC63簡單性靈活性兼容性擴(kuò)展性適應(yīng)性通用性優(yōu)勢可直接處理數(shù)據(jù)DC元數(shù)據(jù)的優(yōu)勢簡單性靈活性兼容性擴(kuò)展性適應(yīng)性通用性優(yōu)勢可直接處理數(shù)據(jù)DC元64RDF的概念RDF:資源描述框架,一種用于描述Web資源的標(biāo)記語言,是一個(gè)處理元數(shù)據(jù)的XML(標(biāo)準(zhǔn)通用標(biāo)記語言的子集)應(yīng)用。它的作用是為多種元數(shù)據(jù)的交互提供平臺(tái)RDF的概念RDF:資源描述框架,一種用于描述Web資源的標(biāo)65內(nèi)容01獨(dú)立性02使用XML作為其描述語法內(nèi)容它可嵌入DC元數(shù)據(jù)也可嵌入其他類型的元數(shù)據(jù),使元數(shù)據(jù)間的轉(zhuǎn)換成為可能它采用目前最具發(fā)展前景的標(biāo)記語言XML(可擴(kuò)展標(biāo)記語言),用XML作為自己的描述語言,自然就成為一種可攜帶多種元數(shù)據(jù)穿行于網(wǎng)絡(luò)上的框架工具RDF的兩大特點(diǎn)內(nèi)容01獨(dú)立性02使用XML作為其描述語法內(nèi)容它可嵌入DC元669.4.3網(wǎng)絡(luò)信息組織的方法1.數(shù)據(jù)庫組織方式:將所有獲得的信息資源按照固定的記錄格式存儲(chǔ)組織,用戶通過關(guān)鍵字及其組配可以知道所需要的信息線索2.超鏈接方式:把不定長的基本信息單元存放在節(jié)點(diǎn)上,這些基本信息單元可以使單個(gè)字,句子,章節(jié),文獻(xiàn),甚至是圖像,音樂或者錄像。3.主頁方式:通過各種頻道欄目,根據(jù)網(wǎng)站定位的用戶對象,需求的動(dòng)態(tài),一次信息等進(jìn)行全面的編輯,翻譯,報(bào)道,集中組織信息,提供信息服務(wù)。4.文件方式:采用主題法的思想,以文件名標(biāo)識(shí)信息內(nèi)容,用文件夾組織信息資源,通過網(wǎng)絡(luò)共享實(shí)現(xiàn)信息傳播,是成熟的文件操作技術(shù)和網(wǎng)絡(luò)傳輸技術(shù)相結(jié)合的產(chǎn)物。5.主題樹的方式:將信息資源按照某種事先確定的概念體系,分門別類的逐層加以組織,用戶先通過層層瀏覽的方式遍歷,知道找到所需要的資源。9.4.3網(wǎng)絡(luò)信息組織的方法1.數(shù)據(jù)庫組織方式:將所有獲得的679.5.1網(wǎng)絡(luò)信息的整合網(wǎng)絡(luò)信息整合可分為3個(gè)階段(1)面向網(wǎng)絡(luò)信息組織的整合階段(2)面向異構(gòu)數(shù)據(jù)源的數(shù)據(jù)整合方式(3)面向應(yīng)用的信息整合階段9.5.1網(wǎng)絡(luò)信息的整合網(wǎng)絡(luò)信息整合可分為3個(gè)階段(1)面向68Z39.50標(biāo)準(zhǔn)協(xié)議的作用及特點(diǎn)z39.50協(xié)議(應(yīng)用和服務(wù)定義與協(xié)議規(guī)范)
將各個(gè)系統(tǒng)的具體實(shí)現(xiàn)映射到抽象模型上,才能使不同的系統(tǒng)在一個(gè)相互理解的、標(biāo)準(zhǔn)的通信平臺(tái)上進(jìn)行交互,滿足互操作的需要。1.該協(xié)議是一種應(yīng)用層協(xié)議2.能夠提供一致性的檢索接口進(jìn)行多數(shù)據(jù)查詢3.該協(xié)議是一種面向連接的有狀態(tài)的協(xié)議4.該協(xié)議面向數(shù)據(jù)庫檢索Z39.50標(biāo)準(zhǔn)協(xié)議的作用及特點(diǎn)z39.50協(xié)議(應(yīng)用和服務(wù)69Z39.50標(biāo)準(zhǔn)協(xié)議提供的服務(wù)它包括了11種基本服務(wù):1.查詢;2.檢索;3.終止4.瀏覽;5.分類;6.解釋;7.初始化;8.存取控制;9.資源控制;10.刪除結(jié)果;11.擴(kuò)展服務(wù);Z39.50標(biāo)準(zhǔn)協(xié)議提供的服務(wù)它包括了11種基本服務(wù):70網(wǎng)絡(luò)信息資源集成網(wǎng)絡(luò)信息資源集成有什么意義:網(wǎng)絡(luò)信息集成技術(shù)用于網(wǎng)絡(luò)信息的查詢中,可以得到精確而完善的查詢結(jié)果。使internet網(wǎng)上繁雜的信息得到更好的整理與集成。網(wǎng)絡(luò)信息資源集成的階段和步驟1網(wǎng)頁文本數(shù)據(jù)抽取2.查詢重構(gòu)3.查詢優(yōu)化和執(zhí)行4.異構(gòu)數(shù)據(jù)的集成
信息資源集成網(wǎng)絡(luò)信息資源集成網(wǎng)絡(luò)信息資源集成有什么意義:1網(wǎng)頁文本數(shù)71
9.6網(wǎng)絡(luò)信息的搜索1.搜索引擎及其分類概念:是指在Internet上主動(dòng)搜索信息并能主動(dòng)索引、提供查詢服務(wù)的一類網(wǎng)站,這些網(wǎng)站通過網(wǎng)絡(luò)搜索Robot或網(wǎng)站登錄方式,將Internet上大量網(wǎng)站的頁面收集到本地,經(jīng)過加工處理而建成索引數(shù)據(jù)庫,從而能對用戶提出的各種查詢做出響應(yīng),提供用戶所需信息1.1搜索引擎綜合分類(1)全文搜索引擎(2)目錄搜索引擎(3)元搜索引擎9.6網(wǎng)絡(luò)信息的搜索1.搜索引擎及其分類概念:1.1
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 班主任在班級(jí)活動(dòng)中的引導(dǎo)角色計(jì)劃
- 合同范本音樂app
- 股骨頸骨折護(hù)理查房
- 班級(jí)班規(guī)的制定與執(zhí)行計(jì)劃
- 2025年自然拼讀2級(jí)標(biāo)準(zhǔn)課件材料
- 學(xué)校周邊安全環(huán)境的構(gòu)建計(jì)劃
- 建立有效的會(huì)議記錄機(jī)制計(jì)劃
- 第3課 中華文明的起源2024-2025學(xué)年新教材七年級(jí)上冊歷史新教學(xué)設(shè)計(jì)(統(tǒng)編版2024)
- 以活動(dòng)促學(xué)習(xí)的班級(jí)實(shí)踐計(jì)劃
- 《貴州水城礦業(yè)股份有限公司水城縣米籮煤礦(新立一期)(延續(xù))礦產(chǎn)資源綠色開發(fā)利用方案(三合一)》評審意見
- (高清版)外墻外保溫工程技術(shù)標(biāo)準(zhǔn)JGJ144-2019
- 機(jī)電控制與可編程序控制器課程設(shè)計(jì)報(bào)告
- 簡版?zhèn)€人征信報(bào)告模板
- 森林防火主題教育班會(huì)PPT
- 船舶安檢缺陷處理建議表籍國內(nèi)航行海船
- 輻照交聯(lián)電線電纜型號(hào)說明
- 公路工程決算編制辦法(交公路發(fā)2004-507號(hào))附表
- 礦山機(jī)械無人駕駛項(xiàng)目可行性研究報(bào)告模板
- 預(yù)充氣競技步槍 標(biāo)準(zhǔn)A4靶紙
- 避免同業(yè)競爭承諾函
- 產(chǎn)品批量質(zhì)量事故追責(zé)管理規(guī)范
評論
0/150
提交評論