版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、信息檢索原理與技術(shù)第1章 信息檢索概論(1) 一次文獻(xiàn)信息:是指作者以自己的研究成果為基礎(chǔ)創(chuàng)作或撰寫的、未經(jīng)過(guò)加工的原始文獻(xiàn),如期刊論文、研究報(bào)告、學(xué)位論文等。(2) 二次文獻(xiàn)信息:是指對(duì)一次信息加工整理而成的文獻(xiàn),如目錄、文摘、索引等各種書目信息,具有匯集性、工具性、綜合性、系統(tǒng)性的特點(diǎn)。(3) 三次文獻(xiàn)信息:是對(duì)一、二次信息綜合、分析等深加工的產(chǎn)物,如評(píng)論、進(jìn)展報(bào)告、百科全書、期刊書目等。(4) 文獻(xiàn):記錄有知識(shí)的一切載體,即知識(shí)信息必須通過(guò)文獻(xiàn)載體進(jìn)行存儲(chǔ)和傳遞。(5) 構(gòu)成文獻(xiàn)的要素:構(gòu)成文獻(xiàn)內(nèi)核的知識(shí)信息、負(fù)載知識(shí)信息的物質(zhì)載體、記錄知識(shí)信息的符號(hào)和技術(shù)。(6) 文獻(xiàn)的特征:知識(shí)性(
2、文獻(xiàn)的本質(zhì),離開知識(shí)信息,文獻(xiàn)信息便不復(fù)存在);傳遞性(幫助人們克服時(shí)間與空間上的障礙,在時(shí)空中傳遞人類已有的知識(shí),使人類的知識(shí)得以流傳和發(fā)展);動(dòng)態(tài)性(其所蘊(yùn)含的知識(shí)隨著人類社會(huì)和科技的發(fā)展在不斷地、有規(guī)律地運(yùn)動(dòng)著)(7) 信息、知識(shí)和文獻(xiàn)的聯(lián)系:信息作為物質(zhì)的一種普遍屬性,是生物以及具有自動(dòng)控制系統(tǒng)的機(jī)器通過(guò)感覺器官和相應(yīng)的設(shè)備與外界進(jìn)行交換的一切內(nèi)容,它是有形的、獨(dú)立于行動(dòng)和決策、經(jīng)過(guò)處理改變形態(tài)、物質(zhì)產(chǎn)品、與環(huán)境無(wú)關(guān)、可以復(fù)制的;知識(shí)作為信息的一部分,是一種特定的人類信息,也是人類社會(huì)實(shí)踐經(jīng)驗(yàn)的總結(jié),是人的主觀世界對(duì)于客觀世界的概括和如實(shí)反映,它是無(wú)形的、與行動(dòng)和決策相關(guān)、經(jīng)過(guò)處理能改
3、變思維、精神產(chǎn)品、環(huán)境改變含義、經(jīng)過(guò)學(xué)習(xí)才能轉(zhuǎn)讓、無(wú)法復(fù)制的;文獻(xiàn)是知識(shí)的一部分,是進(jìn)入人類社會(huì)交流系統(tǒng)的活動(dòng)著的知識(shí)。(8) 文獻(xiàn)信息流有序化階段的三個(gè)環(huán)節(jié):替代。描述文獻(xiàn)特征,對(duì)一次文獻(xiàn)信息進(jìn)行不同程度的提煉或壓縮,形成目錄、文摘、索引等二次文獻(xiàn)信息。從文獻(xiàn)信息流的運(yùn)動(dòng)角度看,“替代”是文獻(xiàn)信息流的流量、流向得到測(cè)度并合理調(diào)節(jié)。改組。從一次文獻(xiàn)信息中提取數(shù)據(jù)、事實(shí)和有關(guān)結(jié)論,按照易于查閱的提醒重新組合,其改組的結(jié)果,產(chǎn)生了手冊(cè)、名錄、辭典、目錄等類型的文獻(xiàn)信息。其目的是使一次文獻(xiàn)信息更容易被理解和使用。綜合。利用二次文獻(xiàn)對(duì)一次文獻(xiàn)所包含的知識(shí)加以綜合并融入到現(xiàn)有知識(shí)體系中去,成為整個(gè)知識(shí)體
4、系的有機(jī)組成部分,產(chǎn)生的主要成果是不斷再版的百科全書、專著、教科書及綜述、評(píng)論性文章。 文獻(xiàn)信息流失一個(gè)以研究活動(dòng)為起點(diǎn)。按順時(shí)針的線性順序移動(dòng),是一次、二次、三次文獻(xiàn)信息的演變過(guò)程。對(duì)于“文獻(xiàn)信息鏈”的研究,有利于從整體的角度了解文獻(xiàn)信息的有序化、動(dòng)態(tài)性特征,從而探索文獻(xiàn)信息的產(chǎn)生、演變規(guī)律及其結(jié)構(gòu)形態(tài)。(9) 信息檢索:廣義理解分為信息的存儲(chǔ)與檢索。信息的存儲(chǔ)主要包括在某一專業(yè)領(lǐng)域范圍內(nèi)的信息選擇的基礎(chǔ)上對(duì)信息的內(nèi)外特征進(jìn)行描述、加工并使其有序化,形成信息集合。信息的檢索是指借助一定的設(shè)備與工具,采用一系列方法與策略從信息集合中查詢所需的信息。狹義的信息檢索僅指該過(guò)程的后一部分。存儲(chǔ)是檢索
5、的基礎(chǔ)、檢索是存儲(chǔ)的反過(guò)程。信息檢索的本質(zhì)是用戶的信息需求和一定的信息集合的匹配。(10) 信息檢索系統(tǒng):指為了滿足用戶的信息需求而建立的存儲(chǔ),經(jīng)過(guò)加工了的信息集合,擁有一定的輸入、匹配、輸出的技術(shù)設(shè)備,提供一定的檢索服務(wù)功能的一種相對(duì)獨(dú)立的實(shí)體。(11) 信息檢索入口:又稱檢索點(diǎn)或檢索知識(shí),是指用以標(biāo)識(shí)信息的外部特征和內(nèi)容特征的屬性值的集合。檢索知識(shí)包括主題詞、分類號(hào)、著者、標(biāo)題、機(jī)構(gòu)、代碼等。(12) 信息檢索的一般原理:P7(13) 檢索系統(tǒng)由物理構(gòu)成(硬件、軟件和數(shù)據(jù)庫(kù))和邏輯構(gòu)成(文獻(xiàn)與數(shù)據(jù)的選擇與抽取子系統(tǒng)、詞表子系統(tǒng)、標(biāo)引子系統(tǒng)、查詢子系統(tǒng)、用戶與系統(tǒng)交互子系統(tǒng)、匹配子系統(tǒng))(1
6、4) 檢索工具的構(gòu)成:編輯說(shuō)明與凡例、分類表與主題表、正文、輔助索引、資料來(lái)源目錄與附錄。(15) 檢索系統(tǒng)的功能:報(bào)道功能、存儲(chǔ)功能、檢索功能。(16) 信息檢索理論:標(biāo)引理論、檢索模型、檢索結(jié)果的可視化。(17) 現(xiàn)代信息檢索技術(shù)與方法:全文檢索、多媒體檢索、超文本及超媒體檢索、聯(lián)機(jī)檢索、網(wǎng)絡(luò)信息檢索、智能檢索、跨語(yǔ)言檢索、跨平臺(tái)檢索。第2章 信息檢索模型(1) 最初的信息檢索模型是以數(shù)學(xué)知識(shí)為基礎(chǔ)的原因:第一,數(shù)學(xué)是個(gè)有幾千年歷史的學(xué)科,被大家所熟知,并且通俗易懂。第二,人們的信息有很大的模糊性,甚至用文字不能表達(dá),而文字具有很大程度的抽象性和概括性,這樣就很容易表達(dá)出人們信息檢索的需求
7、,能夠很方便快捷地組建信息檢索模型。(2) 信息檢索模型的類型:P18(3) 布爾檢索模型:采用布爾代數(shù)和集合論的方法,用布爾表達(dá)式表示用戶提問,通過(guò)對(duì)文獻(xiàn)標(biāo)識(shí)與提問式的邏輯運(yùn)算來(lái)檢索文獻(xiàn)。(4) 布爾邏輯運(yùn)算符:邏輯與(AND)、邏輯或(OR)、邏輯非(NOT)(5) 布爾運(yùn)算的運(yùn)算次序:P24(6) 傳統(tǒng)布爾檢索模型的優(yōu)缺點(diǎn): 優(yōu)點(diǎn):1)邏輯運(yùn)算符較少,便于用戶學(xué)習(xí)。2)模式較易構(gòu)造,可以通過(guò)簡(jiǎn)單的關(guān)系來(lái)體現(xiàn)檢索項(xiàng)的聯(lián)系。 3)可以將復(fù)雜的檢索過(guò)程以簡(jiǎn)單的檢索式表達(dá)出來(lái)。4)檢索提問式較靈活,方便修改。 缺點(diǎn):1)布爾檢索中的關(guān)鍵詞沒有權(quán)重區(qū)別。2)檢索結(jié)果分輸出沒有重要性是排序。3)查全
8、率很難控制。 4)布爾檢索要求用戶具有很高的素質(zhì)和語(yǔ)義提取能力。(7) 向量空間模型:一種基于統(tǒng)計(jì)學(xué)方法的數(shù)學(xué)模型。(8) 向量空間模型的工作原理:P27(9) 向量空間模型的優(yōu)缺點(diǎn)優(yōu)點(diǎn):1)采用自動(dòng)標(biāo)引技術(shù)與文獻(xiàn)提供標(biāo)引詞。2) 采用部分匹配策略,使得在算法層面上的基于多值相關(guān)性的判斷處理得以實(shí)現(xiàn)。3) 改變了布爾檢索只有兩種情況0和1的簡(jiǎn)單判斷,標(biāo)引詞和文獻(xiàn)的相關(guān)程度可在0和1之間取值,使標(biāo)引者和檢索者都可以比較靈活地定義標(biāo)引詞與文獻(xiàn)的關(guān)系深度,改變了布爾檢索模型的僵化的缺點(diǎn)。4) 由于其相似的程度作為檢索的標(biāo)準(zhǔn),可從量的角度判斷命中與否,從而使檢索結(jié)果更趨合理。5) 檢索結(jié)果可以按照與提
9、問的相關(guān)度排序輸出,便于用戶通過(guò)相關(guān)反饋技術(shù)修正提問,控制檢索量。6) 布爾模型的邏輯關(guān)系依然可以使用,保留了直觀性和方便些。7) 向量空間模型的靈活性使它有很好的可擴(kuò)展性和可改進(jìn)性,為以后的更加完善奠定了基礎(chǔ)。缺點(diǎn):1)檢索過(guò)程轉(zhuǎn)化為向量的計(jì)算方法,不能反映出文獻(xiàn)之間的復(fù)雜關(guān)系。2) 由于對(duì)于任何一個(gè)提問度需要計(jì)算全部文獻(xiàn)庫(kù)中的每一篇文獻(xiàn),因此,計(jì)算量大,算法復(fù)雜性較高。3) 由于標(biāo)引加權(quán)和檢索加權(quán)是分離的,因此,隨意性較大,難以保證質(zhì)量。4) 有很多是假定的,在實(shí)際工作中有時(shí)會(huì)不能解決。(10) 擴(kuò)展布爾檢索模型:P31(11) 擴(kuò)展布爾檢索模型的工作原理:P32(12) 擴(kuò)展布爾檢索模型
10、的優(yōu)缺點(diǎn):優(yōu)點(diǎn):擁有矢量處理的思想,體現(xiàn)了加權(quán)的特點(diǎn);繼續(xù)保留布爾檢索的直觀的操作符,具有很強(qiáng)的描述能力;對(duì)于輸出結(jié)果可以很好的控制和排序;通過(guò)調(diào)整權(quán)重參數(shù)的取值,可以靈活選擇并得到不同的檢索結(jié)果;便于區(qū)分強(qiáng)制性短語(yǔ)和嚴(yán)格的同義解釋與試探性短語(yǔ)和較不嚴(yán)格的同義關(guān)系;與傳統(tǒng)倒排文檔一致,更易接受。缺點(diǎn):擴(kuò)展布爾模型由于是集成了兩種經(jīng)典模型的一種改進(jìn)的“集成化模型”,所以它不可避免的存在著臃腫、不夠自然簡(jiǎn)潔的缺點(diǎn),而且不是很普及,目前在信息檢索領(lǐng)域使用較少。(13) 概率模型:一種基于概率論原理的用以解決相對(duì)不確定性的信息檢索的信息檢索模型。(14) 貝葉斯定理:P37(15) 概率模型的優(yōu)缺點(diǎn):
11、優(yōu)點(diǎn):文檔可以按照他們相關(guān)概率遞減的順序來(lái)計(jì)算秩,還可以通過(guò)反復(fù)反饋結(jié)果和用戶需求,使結(jié)果得到很好的調(diào)整,相對(duì)合理得多。缺點(diǎn):索引詞權(quán)值計(jì)算方法沒有考慮到詞頻加權(quán)因素。沿用了索引詞之間相互獨(dú)立的基本假設(shè)。開始時(shí)需要猜想把文檔分為相關(guān)和不相關(guān)的兩個(gè)集合,過(guò)程比較煩瑣。(16) 概率模型在處理實(shí)際問題時(shí)的困難:初始檢索文件閥值比較大,由檢索式檢索的相關(guān)文件數(shù)量相對(duì)于精確估計(jì)的概率而言太小。(17) 古典邏輯模型的特點(diǎn):1)邏輯模型不是一個(gè)經(jīng)典模型。2)邏輯檢索要借助外部信息進(jìn)行評(píng)價(jià)。3)邏輯檢索對(duì)關(guān)鍵詞的語(yǔ)境更加重視。4)對(duì)信息的聯(lián)想法控制。5)邏輯檢索具有不確定性。6)對(duì)多詞一義的把握。7)適應(yīng)
12、信息的不完全性。(18) 邏輯模型的優(yōu)點(diǎn):邏輯理論具有很強(qiáng)的推理能力,將檢索過(guò)程邏輯化可以使人們能從新的角度認(rèn)識(shí)檢索,并在邏輯化的基礎(chǔ)之上建立演繹信息檢索系統(tǒng)。在演繹信息檢索系統(tǒng)中,用戶可以增減可用規(guī)則,可以擴(kuò)充或者縮小知識(shí)庫(kù),可以憎加或減少檢索目標(biāo)項(xiàng),從而實(shí)現(xiàn)擴(kuò)檢和縮檢。同時(shí),通過(guò)因入更多的謂詞、豐富系統(tǒng)的知識(shí)庫(kù)、允許查詢目標(biāo)語(yǔ)句中包含更多的謂詞,演繹信息檢索系統(tǒng)也容易被擴(kuò)展為用途更廣的專家系統(tǒng),使得信息檢索系統(tǒng)智能化程度更高,功能更強(qiáng),換句話說(shuō),基于邏輯模型,我們可以建立智能化的、提供多種檢索入口的、便于擴(kuò)展的信息檢索系統(tǒng)、(19) 邏輯模型的缺點(diǎn):在邏輯模型中,信息的重要程度這一特征并不
13、能很成功地被表達(dá)出來(lái)?;趯?shí)質(zhì)蘊(yùn)涵的情報(bào)檢索古典邏輯模型自然也并不能完全表達(dá)出文獻(xiàn)d與信息需求q之間的真實(shí)聯(lián)系。它關(guān)注的僅是前后件之間在真假方面的邏輯關(guān)系,而并不關(guān)心前件和后件中所涉及的信息延展性問題。由于查詢是依靠推理來(lái)獲得相關(guān)性的文獻(xiàn),因此推理過(guò)程越是不確定,獲得的相關(guān)性文獻(xiàn)就越少,而這樣的現(xiàn)象在傳統(tǒng)的邏輯檢索模型中屢有發(fā)生。(20) 限詞檢索模型:通過(guò)限制檢索范圍,達(dá)到優(yōu)化檢索結(jié)果的方法。(21) 字段檢索:把檢索詞限定在某個(gè)或某些字段中,如果記錄的相應(yīng)字段中含有輸入的檢索詞則為命中記錄,否則檢不中。第3章 自動(dòng)索引和文檔組織1、索引:著錄書刊中的題名、語(yǔ)詞、主題、人名、地名、事件及其他
14、事物名稱,并把它們按照一定的方式編排起來(lái),指明出處是一種檢索工具。2、索引的發(fā)展歷程:人工索引階段、機(jī)輔索引階段、自動(dòng)索引階段3、索引的功能:檢索功能、分解功能、梳理功能、聚類功能、追蹤功能、導(dǎo)航功能、預(yù)測(cè)功能4、常見索引的類型:主題索引、著者索引、名稱索引、地名索引、題名索引、數(shù)字或代碼索引、分類索引5、索引的過(guò)程:為了方便查詢而對(duì)信息指定索引款目的過(guò)程。包括信息采集、信息標(biāo)引、建立索引。6、索引建立的步驟:選題,建立主索引文件;對(duì)主索引關(guān)鍵詞進(jìn)行抽詞倒排,建立目標(biāo)格式文件;排序與歸并。7、信息標(biāo)引分為受控標(biāo)引和自然語(yǔ)言標(biāo)引。受控標(biāo)引指采用受控語(yǔ)言中的標(biāo)識(shí)表達(dá)主題概念的標(biāo)引方式,主要有分類標(biāo)
15、引和主題標(biāo)引;自然語(yǔ)言標(biāo)引是指采用自然語(yǔ)言語(yǔ)詞作為標(biāo)識(shí)來(lái)表達(dá)主題概念的標(biāo)引方式。8、分類標(biāo)引:依據(jù)一定的分類語(yǔ)言,對(duì)信息資源的內(nèi)容特征進(jìn)行分析、判斷和選擇,賦予分類標(biāo)識(shí)的過(guò)程。9、分類標(biāo)引的要求:準(zhǔn)確性、充分性、一致性、適用性。10、分類標(biāo)引規(guī)則:基本標(biāo)引規(guī)則、一般標(biāo)引規(guī)則、特殊標(biāo)引規(guī)則。11、主題標(biāo)引:對(duì)信息內(nèi)容進(jìn)行主題分析、確定主題概念,然后按照一定的詞匯控制方式,為標(biāo)引對(duì)象賦予恰當(dāng)?shù)恼Z(yǔ)詞標(biāo)識(shí)的過(guò)程。12、標(biāo)引方式:根據(jù)文獻(xiàn)或信息特點(diǎn)和使用需要確定的標(biāo)引和揭示主題的形成。包括整體標(biāo)引、全面標(biāo)引、對(duì)口標(biāo)引、綜合標(biāo)引和分析標(biāo)引等。13、標(biāo)引方法:標(biāo)題法、元詞法、敘詞法。14、標(biāo)引規(guī)則:(1)選
16、用標(biāo)引詞的基本規(guī)則:正式詞標(biāo)引規(guī)則;相對(duì)專指標(biāo)引規(guī)則;標(biāo)引方案優(yōu)先順序規(guī)則;適度標(biāo)引規(guī)則;一致標(biāo)引規(guī)則(2)敘詞組配標(biāo)引的基本規(guī)則:敘詞組配必須是概念組配;組配結(jié)果要求所表達(dá)的概念清楚;敘詞組配中要注意次序。15、自然語(yǔ)言標(biāo)引:是一種采用自然語(yǔ)言作為標(biāo)識(shí)表達(dá)主題概念的標(biāo)引方式。16、漢語(yǔ)語(yǔ)詞的切分方法:詞典分詞法、切分標(biāo)記的分詞法、基于語(yǔ)法語(yǔ)義理解的分詞方法、基于神經(jīng)網(wǎng)絡(luò)的分詞方法。17、自動(dòng)標(biāo)引:指利用計(jì)算機(jī)從各種文獻(xiàn)信息中自動(dòng)提取有關(guān)標(biāo)識(shí)的過(guò)程。18、層次聚類法:依據(jù)一種事先決定的相似性或非相似性度量和類間距離,經(jīng)過(guò)計(jì)算建立聚類圖,在根據(jù)聚類圖決定分類結(jié)果。19、文獻(xiàn)自動(dòng)分類:指首先分析被
17、分類對(duì)象中的特征,將其與各種類別中對(duì)象所具有的共同特征或一定的分類標(biāo)準(zhǔn)、分類參數(shù)進(jìn)行比較,然后將被分類對(duì)象劃歸為特征最相近的一類,并賦予相應(yīng)的分類好的過(guò)程。20、自動(dòng)分類的基本流程:文本的預(yù)處理、文本特征的選取、分類模型的構(gòu)建等。21、決策樹:P8222、順排文檔(主文檔):按照某一屬性(字段)的字符順序存入了數(shù)據(jù)庫(kù)的全部記錄。23、順排文檔的檢索:將用戶檢索表達(dá)式與順排文檔中的文獻(xiàn)記錄依次比較,就可以判斷是否有匹配的文獻(xiàn)記錄。檢索可以使順序檢索,也可以使分塊檢索和折半檢索。24、順排文檔組織方法在建立索引的時(shí)候結(jié)構(gòu)比較簡(jiǎn)單,建立比較方便且易于維護(hù)。但在查詢的時(shí)候需要對(duì)所有的文檔進(jìn)行掃描以確保
18、沒有遺漏,這樣就使得檢索時(shí)間大大延長(zhǎng),檢索效率低下。25、倒排文檔:將主文檔中的可檢字段(如主題詞、著者)抽出,按某種順序重新排列起來(lái)所形成的一種索引文檔。26、倒排文檔的建立:索引詞選擇;對(duì)抽出的內(nèi)容進(jìn)行排序,便于歸并相同內(nèi)容;對(duì)相同內(nèi)容進(jìn)行歸并,把合并后的內(nèi)容放入倒排文檔的主鍵字段,統(tǒng)計(jì)每一數(shù)據(jù)的頻次作為目長(zhǎng),把每一內(nèi)容后的記錄號(hào)順序放于記錄號(hào)集合字段。27、倒排文檔的更新:P86第4章 詞匯控制1、詞匯控制:通過(guò)對(duì)詞形、詞義和詞間關(guān)系等的控制,達(dá)到信息源語(yǔ)言、標(biāo)引語(yǔ)言和檢索語(yǔ)言三者之間的有效溝通,從而實(shí)現(xiàn)信息的有效組織以及用戶對(duì)信息的有效檢索和利用。2、詞匯控制的原則:正確性、單義性、簡(jiǎn)
19、明性、兼容性、系統(tǒng)性、穩(wěn)定性、族性3、詞匯控制的內(nèi)容:(1) 詞量控制:對(duì)詞表所收詞匯的數(shù)量的控制。(2) 詞量控制的方法:詞匯組配、詞匯替代、語(yǔ)義分解法、詞匯合理選擇(3) 詞類控制:對(duì)詞表所收詞匯的種類的控制。(4) 詞類控制的方法:確定選詞范圍、設(shè)置停用詞表(5) 詞形控制:根據(jù)主題標(biāo)引和檢索的需要對(duì)字面形式不同,但含義相同的詞匯加以控制使一個(gè)主題概念只具有一個(gè)語(yǔ)詞形式。(6) 詞形控制的方法:控制語(yǔ)詞形體、控制外來(lái)語(yǔ)和數(shù)字的用法、控制外文的詞形、控制詞序、控制語(yǔ)詞長(zhǎng)度。(7) 詞義控制:對(duì)多義詞或同形異義詞加以控制,使其意義明確,含義單一。(8) 詞義控制的方法:加限義詞、加注釋、加定
20、義(9) 詞間關(guān)系控制:對(duì)語(yǔ)詞之間的等同關(guān)系、屬分關(guān)系和相關(guān)關(guān)系等加以控制,以形成一個(gè)便于揭示詞間關(guān)系的語(yǔ)義網(wǎng)絡(luò)。(10) 先組度控制:對(duì)語(yǔ)詞先組程度的控制。(11) 句法關(guān)系控制:按照事先確定的句法關(guān)系,把若干詞匯組合起來(lái)表示某一特定的論題,以避免產(chǎn)生語(yǔ)義含混的現(xiàn)象。(12) 句法控制的方法:P944、詞匯控制工具包括分類詞表、主題詞表、分類主題一體化詞表。(1) 分類詞表:杜威十進(jìn)分類法、國(guó)際十進(jìn)分類法、冒號(hào)分類法、中國(guó)圖書館分類法(2) 主題詞表:醫(yī)學(xué)標(biāo)題表、漢語(yǔ)主題詞表(3) 分類主題一體化詞表:是指分類系統(tǒng)與主題系統(tǒng)實(shí)現(xiàn)完全兼容,既能充分發(fā)揮各自特有的功能,又能互相配合,發(fā)揮最佳的整
21、體效應(yīng)。5、詞表評(píng)價(jià)體系:P115/6、受控詞表的使用:P119第5章 自動(dòng)文摘技術(shù)(1)文摘:用濃縮、簡(jiǎn)明的短文,描述信息載體的主要內(nèi)容和原始數(shù)據(jù),向使用者報(bào)道、傳遞最新信息和信息查詢線索的一種工具。(2)自動(dòng)文獻(xiàn):利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘。按照文本分析方法的不同,自動(dòng)文摘分為基于統(tǒng)計(jì)分自動(dòng)文摘、基于理解的自動(dòng)文摘、基于結(jié)構(gòu)的自動(dòng)文摘、基于模板的自動(dòng)文摘。(3)自動(dòng)文摘的處理過(guò)程:第一步是文本分析,這個(gè)階段是自動(dòng)文獻(xiàn)的基礎(chǔ),主要是尋找最能代表原文內(nèi)容的成分;第二步是轉(zhuǎn)化過(guò)程,通過(guò)摘錄或概括的方法壓縮原文;第三步是重組原文內(nèi)容,生成文摘。(4)基于統(tǒng)計(jì)的自動(dòng)文摘(摘錄型文摘):根據(jù)
22、統(tǒng)計(jì)學(xué)的方法將權(quán)重高的句子作為文摘句。不足:摘要內(nèi)容不完整;摘要內(nèi)容不簡(jiǎn)潔;語(yǔ)句不連貫。(5)基于統(tǒng)計(jì)的自動(dòng)文摘一般步驟:待摘文本信息錄入;詞頻信息統(tǒng)計(jì);計(jì)算句子權(quán)重;選取候選句子;加工生成摘要。(6)基于理解的自動(dòng)文摘:建立在人工智能、自然語(yǔ)言處理的基礎(chǔ)上的,它利用語(yǔ)言學(xué)知識(shí)對(duì)文字進(jìn)行復(fù)雜的語(yǔ)法分析,語(yǔ)義分析和語(yǔ)用分析,獲取語(yǔ)言結(jié)構(gòu),還利用相關(guān)學(xué)科領(lǐng)域知識(shí)進(jìn)行分析、推理和判斷,最后生成文摘。優(yōu)點(diǎn):簡(jiǎn)潔精煉、全面準(zhǔn)確、可讀性強(qiáng)。不足:語(yǔ)料范圍限制;框架的擬定。P136(7)基于理解的自動(dòng)文摘步驟:待摘文本信息錄入;文本分析(語(yǔ)法分析、語(yǔ)義分析、運(yùn)用分析和信息提?。?;文摘初稿形成。(8)基于結(jié)構(gòu)
23、的自動(dòng)文摘;:將文本信息視為句子的關(guān)聯(lián)網(wǎng)絡(luò),選擇與很多句子都有聯(lián)系的中心句子即可侯成摘要。(9)基于結(jié)構(gòu)的自動(dòng)文摘不足:P140(10)自動(dòng)文獻(xiàn)的評(píng)價(jià)P140(11)自動(dòng)文獻(xiàn)技術(shù)的研究進(jìn)展P147第6章 用戶接口(1)用戶接口,全稱是系統(tǒng)-用戶接口,又稱用戶界面、人機(jī)界面或人機(jī)接口,是指用戶使用計(jì)算機(jī)系統(tǒng)的綜合操作環(huán)境,它是由人、計(jì)算機(jī)硬件和軟件三者結(jié)合而成,承擔(dān)用戶與系統(tǒng)之間的交流功能,是兩者之間實(shí)現(xiàn)通信不可缺少的模塊。(2)用戶接口模塊流程:識(shí)別用戶;接收提問;提問校驗(yàn);轉(zhuǎn)化問題;檢索;輸出結(jié)果。(3)用戶接口的特征:支持多種類型的用戶;支持多種用戶認(rèn)證方式;支持靈活的機(jī)構(gòu)管理;支持靈活的
24、用戶授權(quán)管理;支持靈活的用戶信息管理;支持對(duì)收費(fèi)用戶的計(jì)費(fèi)。(4)用戶接口的功能:自動(dòng)登錄功能;訪問多個(gè)數(shù)據(jù)庫(kù)的功能;數(shù)據(jù)庫(kù)選擇功能;幫助功能;檢索式構(gòu)造功能;查詢功擴(kuò)展;相關(guān)反饋功能;下載和上載功能;用戶視圖定義功能;后處理功能;自然語(yǔ)言處理功能。(5)用戶接口的組成:面向用戶部分(負(fù)責(zé)直接與用戶交互,也稱外部界面)、面向系統(tǒng)部分(負(fù)責(zé)與系統(tǒng)內(nèi)部各部分交互,也稱內(nèi)部界面)、轉(zhuǎn)換部分(負(fù)責(zé)內(nèi)部界面與外部界面之間的信息轉(zhuǎn)換)(6)用戶接口的主要形式:命令語(yǔ)言形式、菜單選擇方式、表格填充方式、直接操縱方式、自然語(yǔ)言的人機(jī)對(duì)話方式(7)用戶接口設(shè)計(jì)的原則:易用性、一致性、易學(xué)性、寬容性、有效性、美觀
25、性、針對(duì)性(8)用戶接口設(shè)計(jì)的內(nèi)容:用戶接口需求分析;用戶接口使用的便利性;用戶向系統(tǒng)提問的查詢方式;查詢中的交互性;用戶查詢接口的簡(jiǎn)易型和檢索能力的矛盾;多媒體查詢接口的特殊性。第7章 信息檢索系統(tǒng)的評(píng)價(jià)(1) 信息檢索的相關(guān)性:檢索系統(tǒng)針對(duì)用戶的信息需求從文檔集合中檢出的文檔與用戶需求之間的一種匹配關(guān)系。(2) 相關(guān)性的本質(zhì)特征:關(guān)系;直覺的;多維的;動(dòng)態(tài)的。(3) 相關(guān)性判斷:指信息檢索中判斷者在某一時(shí)刻對(duì)某種相關(guān)性的一種賦值操作。(4) 相關(guān)性判斷標(biāo)準(zhǔn):二元的判斷標(biāo)準(zhǔn)、多元的判斷標(biāo)準(zhǔn)、多維的判斷標(biāo)準(zhǔn)。(5) 相關(guān)性的影響因素:信息源、信息需求的表示、時(shí)間與環(huán)境、用戶判斷者的特性。(6)
26、 信息需求的表示的四個(gè)層次:真正的信息需求、感覺到的信息需求、查詢請(qǐng)求、查詢表達(dá)。(7) 信息檢索系統(tǒng)評(píng)價(jià)的步驟:確定系統(tǒng)評(píng)價(jià)對(duì)象及目的;選擇系統(tǒng)評(píng)價(jià)方式;制定系統(tǒng)評(píng)價(jià)方案;實(shí)施系統(tǒng)評(píng)價(jià)方案;評(píng)價(jià)結(jié)果生成評(píng)價(jià)。(8) 檢索試驗(yàn)評(píng)價(jià)法的實(shí)施過(guò)程:抽樣;測(cè)試;評(píng)價(jià)數(shù)據(jù)的收集和記錄;數(shù)據(jù)處理與分析。(9) 查全率:衡量系統(tǒng)在實(shí)現(xiàn)某一檢索作業(yè)時(shí)檢出相關(guān)文獻(xiàn)能力的一種測(cè)量指標(biāo)。(10) 查準(zhǔn)率:衡量系統(tǒng)在實(shí)施某一檢索作業(yè)時(shí)檢索精確度的一種測(cè)度指標(biāo)。(11) 影響查全率與查準(zhǔn)率的因素:相對(duì)值的的影響;檢索方式的影響;時(shí)限的影響;檢索過(guò)程中的影響因素。(12) 涵蓋率:用戶已知的相關(guān)文檔集合中被檢索出的相關(guān)
27、文檔所占比率。(13) 新穎率:用戶檢索出的相關(guān)文檔集合與以前未知的相關(guān)文檔所占比率。(14) 相對(duì)查全率:檢索系統(tǒng)檢出的相關(guān)文檔數(shù)量和用戶期望得到的相關(guān)文檔數(shù)量的比率。(15) 查全效果:用戶期望得到的相關(guān)文檔數(shù)量與為了得到這些相關(guān)文檔而在檢索結(jié)果中審查文檔數(shù)量的比率。(16) 搜索引擎的性能評(píng)價(jià)指標(biāo):P203(17) 信息檢索系統(tǒng)評(píng)價(jià)試驗(yàn):P206第8章 聯(lián)機(jī)信息檢索1、 聯(lián)機(jī)信息檢索:指用戶利用檢索終端,使用一些特定的指令和檢索語(yǔ)詞,提供通信網(wǎng)絡(luò)與存儲(chǔ)大量信息的檢索系統(tǒng)聯(lián)機(jī),以人機(jī)對(duì)話方式從檢索系統(tǒng)的數(shù)據(jù)庫(kù)中查找所需的特定信息的過(guò)程。2、 聯(lián)機(jī)檢索與其他計(jì)算機(jī)信息系統(tǒng)相比的特點(diǎn):信息質(zhì)量
28、好;檢索效率高;多、快、全的檢索功能;檢索功能強(qiáng)大;檢索結(jié)果輸出方式靈活多樣;檢索內(nèi)容新、實(shí)時(shí)性強(qiáng)。3、 聯(lián)機(jī)信息檢索系統(tǒng)的構(gòu)成:檢索終端、通信網(wǎng)絡(luò)、聯(lián)機(jī)信息檢索中心。P2264、 聯(lián)機(jī)信息檢索系統(tǒng)的服務(wù)范圍:回溯檢索;定題服務(wù);聯(lián)機(jī)訂購(gòu)原始文獻(xiàn);傳遞電子郵件。5、 DIALOG系統(tǒng)具有的顯著優(yōu)勢(shì):信息量大;數(shù)據(jù)庫(kù)的質(zhì)量比較高;檢索迅速方便;具有較強(qiáng)的回溯檢索功能。6、 DIALOG檢索實(shí)例:P2427、 聯(lián)機(jī)信息檢索系統(tǒng)的新發(fā)展:聯(lián)入Internet、推出光盤產(chǎn)品、調(diào)整收費(fèi)制度、利用網(wǎng)改進(jìn)用戶界面。8、 未來(lái)的信息檢索系統(tǒng)應(yīng)具有的特征:系統(tǒng)模式客戶機(jī)/服務(wù)器化;完善的網(wǎng)絡(luò)通信平臺(tái);智能化人機(jī)
29、接口;具有多媒體采集、存儲(chǔ)、加工、檢索、傳遞能力;具有較強(qiáng)的網(wǎng)絡(luò)互聯(lián)能力;提供多種信息服務(wù)功能。第9章 因特網(wǎng)信息檢索1、 因特網(wǎng)信息資源:以數(shù)字化形式記錄的,以多種媒體形式表達(dá)的,分布式存儲(chǔ)在因特網(wǎng)不同主機(jī)上的,并通話計(jì)算機(jī)網(wǎng)絡(luò)通信方式進(jìn)行傳遞的信息資源的集合,是從計(jì)算機(jī)技術(shù)、通信技術(shù)、多媒體技術(shù)相互融合而形成的、在因特網(wǎng)上可查找、可利用的資源。2、 網(wǎng)絡(luò)信息資源的種類:(1) 按人類信息交流方式分為非正式出版信息、半正式出版信息和正式出版信息。(2) 按時(shí)效性分為網(wǎng)上出版物、動(dòng)態(tài)信息、聯(lián)機(jī)館藏書目數(shù)據(jù)庫(kù)、國(guó)際聯(lián)機(jī)數(shù)據(jù)庫(kù)。(3) 按IDG Book Word Wide 1996年出版物的WW
30、W指南(4) 日本的戶田慎一把網(wǎng)絡(luò)信息資源分為7類。(5) 按因特網(wǎng)信息資源的組織應(yīng)用形式分為萬(wàn)維網(wǎng)(WWW)信息資源、電子郵件信息資源、FTP信息資源、Telnet信息資源等3、 因特網(wǎng)信息系統(tǒng)的組織形式:P250優(yōu)勢(shì)和劣勢(shì)(1) 文件方式:網(wǎng)上數(shù)字化信息資源的一種主要存儲(chǔ)形式,以文件方式組織的網(wǎng)上數(shù)據(jù)化信息主要有文檔文件、圖像文件、音頻文件與視頻文件等四種類型。(2) 超媒體方式:超文本與多媒體技術(shù)的結(jié)合,它將文字、表格、聲音、圖像和視頻等多媒體信息以超文本方式組織起來(lái),使人們可以通過(guò)高度鏈接的網(wǎng)絡(luò)結(jié)構(gòu)在各種信息庫(kù)自動(dòng)航行,找到所需要的任何媒體的信息。(3) 數(shù)據(jù)庫(kù)方式:就是將因特網(wǎng)信息資
31、源以固定的記錄格式存儲(chǔ),并提供一些檢索入口。用戶通過(guò)檢索入口,就可以找到所需要的信息線索,并利用超級(jí)鏈接功能直接鏈接到相關(guān)站點(diǎn)或一次信息本身。(4) 搜索引擎方式:因特網(wǎng)上對(duì)網(wǎng)上二次信息進(jìn)行組織的主要形式,其實(shí)質(zhì)是一種報(bào)道、存儲(chǔ)網(wǎng)上一次信息的檢索工具,(5) 主題樹方式:將所選定學(xué)科領(lǐng)域的所有已獲得的信息資源按照某種事先確定的概念體系結(jié)構(gòu),分門別類地逐層加以組織,用戶通過(guò)瀏覽的方式逐層加以選擇,層層遍歷。直到找到所需要的信息線索,進(jìn)而通過(guò)信息線索直接找到相應(yīng)的網(wǎng)絡(luò)信息資源。(6) 圖書館編目方式:圖書館人員搜索、識(shí)別和注釋那些對(duì)讀者有用的資源,再根據(jù)針對(duì)網(wǎng)上資源的選擇政策進(jìn)行選擇,然后編目成基
32、于MABC格式的記錄,使之成為圖書館集成管理系統(tǒng)的一部分。(7) 數(shù)字圖書館方式:P253(8) 虛擬圖書館方式:P2544、 因特網(wǎng)信息資源的特點(diǎn):信息存儲(chǔ)與傳遞的數(shù)字化和網(wǎng)絡(luò)化;數(shù)量巨大,增長(zhǎng)迅速;內(nèi)容豐富,形式多樣;變化頻繁,價(jià)值不一;結(jié)構(gòu)復(fù)雜,分布廣泛。5、 因特網(wǎng)信息檢索工具的結(jié)構(gòu):自動(dòng)索引程序;數(shù)據(jù)庫(kù);檢索代理軟件。6、 網(wǎng)絡(luò)信息檢索工具的原理:P2577、 因特網(wǎng)信息檢索工具的類型:(1) 按網(wǎng)絡(luò)信息資源類型劃分:WWW檢索工具、非WWW檢索工具(2) 按檢索機(jī)制劃分:關(guān)鍵詞檢索工具、分類目錄檢索工具、混合型檢索工具(3) 按包含檢索工具數(shù)量劃分:?jiǎn)我恍蜋z索工具;多元型檢索工具(
33、4) 按檢索內(nèi)容劃分:綜合型檢索工具、專題型檢索工具、特殊型信息檢索工具8、 因特網(wǎng)信息檢索工具的功能:(1) 基本檢索功能:布爾檢索、截詞檢索、鄰近檢索與短語(yǔ)檢索、字段檢索、區(qū)分大小寫檢索(2) 高級(jí)檢索功能:加權(quán)檢索、自然語(yǔ)言檢索、相關(guān)信息反饋檢索、模糊檢索、概念檢索、智能化檢索9、與檢索相關(guān)的功能:檢索提問的修改與限制;按相關(guān)度排列結(jié)果;檢索與瀏覽相結(jié)合;檢索結(jié)果的翻譯和多語(yǔ)種檢索。10、因特網(wǎng)信息檢索工具的局限性:搜索引擎對(duì)信息的標(biāo)引深度不夠;搜索引擎的信息占有量不足;搜索引擎的查準(zhǔn)率不高;搜索引擎自身的技術(shù)局限;檢索功能單一、缺乏靈活性;索引數(shù)據(jù)庫(kù)更新困難;大量擠占昂貴的網(wǎng)絡(luò)寬帶和C
34、PU資源;搜索引擎的分工協(xié)作有待加強(qiáng)。11、因特網(wǎng)信息資源檢索工具的發(fā)展方向:WWW檢索工具主流化;搜索引擎的集成化;服務(wù)區(qū)域的全球化;服務(wù)領(lǐng)域的兩極化;檢索語(yǔ)言的一體化;檢索功能的多樣化;檢索內(nèi)容的深入化;系統(tǒng)維護(hù)的動(dòng)態(tài)化;檢索技術(shù)的智能化;用戶界面的友好化。第10章 數(shù)字圖書館的信息檢索1、 跨庫(kù)檢索:也稱聯(lián)邦檢索、數(shù)據(jù)庫(kù)檢索、集成檢索,是以多個(gè)分布式異構(gòu)數(shù)據(jù)源為對(duì)象的檢索系統(tǒng),這種系統(tǒng)向用戶提供統(tǒng)一的檢索接口,將用戶的檢索要求轉(zhuǎn)化為不同數(shù)據(jù)源的檢索表達(dá)式并發(fā)地檢索本地和廣域網(wǎng)上多個(gè)分布式異構(gòu)數(shù)據(jù)源,并對(duì)檢索結(jié)果進(jìn)行整合,在經(jīng)過(guò)去重和排序等操作后,以統(tǒng)一結(jié)果呈現(xiàn)給用戶。2、 跨庫(kù)檢索的必要
35、性:數(shù)字資源數(shù)量的增加,增加了讀者選擇和熟悉數(shù)據(jù)庫(kù)的時(shí)間;數(shù)據(jù)庫(kù)內(nèi)容的交叉重復(fù),增加了讀者信息鑒別和去重的時(shí)間;數(shù)據(jù)庫(kù)知識(shí)的關(guān)聯(lián)度較低,增加讀者知識(shí)銜接的負(fù)擔(dān)。3、 跨庫(kù)檢索的技術(shù)模式與基本原理:運(yùn)用元搜集引擎的基本原理,即利用數(shù)據(jù)庫(kù)的Web客戶端進(jìn)行統(tǒng)一檢索;通過(guò)數(shù)據(jù)庫(kù)接口軟件與不同的數(shù)據(jù)庫(kù)直接連接,即通過(guò)數(shù)據(jù)庫(kù)接口軟件直接訪問異構(gòu)數(shù)據(jù)庫(kù);不同數(shù)據(jù)庫(kù)間的格式轉(zhuǎn)換,即將不同數(shù)據(jù)庫(kù)導(dǎo)入一個(gè)新的集成數(shù)據(jù)庫(kù)中并提供服務(wù);建立索引庫(kù),即將多個(gè)數(shù)據(jù)庫(kù)的索引數(shù)據(jù)整合到一個(gè)索引庫(kù)中;利用SFX實(shí)現(xiàn)數(shù)據(jù)庫(kù)的無(wú)縫鏈接。4、 跨庫(kù)檢索的相關(guān)技術(shù):(1)公共網(wǎng)關(guān)接口技術(shù)CGI (2)開放式數(shù)據(jù)庫(kù)互聯(lián)網(wǎng)技術(shù)ODBC
36、(3)JAVA數(shù)據(jù)庫(kù)互聯(lián)技術(shù)JDBC(4)ASP技術(shù)和JSP技術(shù) (5)CORBA技術(shù) (6)XML中間件技術(shù)5、 跨庫(kù)檢索的基本過(guò)程:(1) 用戶構(gòu)造并提交檢索式;(2) 提問等待過(guò)程,即系統(tǒng)依據(jù)用戶的檢索式對(duì)各異構(gòu)數(shù)據(jù)庫(kù)進(jìn)行查詢的過(guò)程;(3) 返回結(jié)果的加工策略,首先去除表面相關(guān)而本質(zhì)不相干或相關(guān)度不大的數(shù)據(jù),以提高檢索的精確度;其次去除重復(fù)信息;最后對(duì)返回的不同格式、結(jié)構(gòu)的數(shù)據(jù)進(jìn)行處理,并按照統(tǒng)一的、符合用戶需求的方式呈現(xiàn)給用戶。6、 跨庫(kù)檢索策略應(yīng)注意的方面:分析檢索目的;選擇信息資源;確定檢索詞;構(gòu)造檢索表達(dá)式;檢索策略的轉(zhuǎn)換;個(gè)性化服務(wù)的功能。7、 跨庫(kù)檢索實(shí)例分析:P2818、
37、跨語(yǔ)言信息檢索技術(shù)(CLIR):指用戶以自己所掌握的某一種語(yǔ)言構(gòu)造檢索提問式,計(jì)算機(jī)根據(jù)用戶的檢索要求在其他不同語(yǔ)種的信息中進(jìn)行自動(dòng)搜索,得到的檢索結(jié)果甚至可以翻譯成用戶指定的語(yǔ)種。9、 源語(yǔ)言:在跨語(yǔ)言信息檢索中,用戶用以表達(dá)自己的信息需求、構(gòu)造檢索提問式的語(yǔ)言。目標(biāo)語(yǔ)言:被檢索的信息資源所使用的語(yǔ)言。10、 跨語(yǔ)言信息檢索的類型:雙語(yǔ)言信息檢索、多語(yǔ)言信息檢索、特定領(lǐng)域的跨語(yǔ)言信息檢索、跨語(yǔ)言的多媒體信息檢索。11、 雙語(yǔ)言信息檢索:用戶用某種語(yǔ)言從另外一種語(yǔ)言表達(dá)的文獻(xiàn)集中檢索出所需文獻(xiàn)信息的方式。12、 多語(yǔ)言信息檢索:用戶用某種語(yǔ)言從另外多種語(yǔ)言表達(dá)的文獻(xiàn)信息集中檢索出所需文獻(xiàn)信息的
38、方式。13、 特定領(lǐng)域的跨語(yǔ)言信息檢索:檢索對(duì)象設(shè)定為某一學(xué)科或某一主題領(lǐng)域的跨語(yǔ)言信息檢索。14、 跨語(yǔ)言的多媒體信息檢索:如跨語(yǔ)言的語(yǔ)音信息檢索,其內(nèi)容不僅包括文獻(xiàn)信息檢索技術(shù)、跨語(yǔ)言翻譯技術(shù),還有語(yǔ)音識(shí)別技術(shù)等。15、 跨語(yǔ)言信息檢索在數(shù)字圖書館應(yīng)用的必要性:數(shù)字圖書館信息資源的多樣性;信息形式的多樣性;用戶的廣泛性;服務(wù)的便捷性。16、 跨語(yǔ)言信息檢索的主要方法:同源匹配、提問式翻譯、文獻(xiàn)翻譯、中間語(yǔ)言技術(shù)、不翻譯。17、 同源匹配:根據(jù)兩種語(yǔ)言的語(yǔ)詞拼寫形式或讀音相似度來(lái)判斷其中一種語(yǔ)言語(yǔ)詞的語(yǔ)義,不進(jìn)行任何翻譯。18、 提問式翻譯:將用戶提交的查詢請(qǐng)求翻譯成系統(tǒng)支持的多種語(yǔ)言,然后
39、對(duì)不同語(yǔ)言的信息集進(jìn)行查詢。19、 提問式翻譯的模式:基于詞典的模式;基于雙語(yǔ)語(yǔ)料庫(kù)模式;字典語(yǔ)料庫(kù)混合方法;提問式構(gòu)造方法;提問詞再賦權(quán)方法20、 跨語(yǔ)言信息檢索存在的主要問題:原始詢問的歧義性和目標(biāo)詢問的多義性;提問中詞的切分;檢索結(jié)果的合并;專有名詞的解釋;語(yǔ)言的識(shí)別;檢索結(jié)果的充分顯示。21、 數(shù)字圖書館中的跨語(yǔ)言檢索系統(tǒng)模型包括6個(gè)模塊:用戶查詢服務(wù)模塊、資源調(diào)度模塊、跨語(yǔ)言檢索模塊、信息資源數(shù)據(jù)庫(kù)模塊、信息數(shù)據(jù)加工模塊、元數(shù)據(jù)庫(kù)模塊。22、 數(shù)字圖書館中的跨語(yǔ)言檢索系統(tǒng)模型的特點(diǎn):(1) 元數(shù)據(jù)庫(kù)相對(duì)集中,提供數(shù)據(jù)標(biāo)準(zhǔn)協(xié)助各模塊完成相應(yīng)的功能。(2) 數(shù)據(jù)加工系統(tǒng)實(shí)現(xiàn)對(duì)原始圖書文獻(xiàn)
40、資料的采集、整理、數(shù)字化、標(biāo)準(zhǔn)化,最后將標(biāo)準(zhǔn)化多種語(yǔ)種數(shù)字存儲(chǔ)到信息資料數(shù)據(jù)庫(kù)中,形成有序的組織。(3) 信息資料數(shù)據(jù)庫(kù)中數(shù)據(jù)采用分布式存儲(chǔ),可以根據(jù)信息語(yǔ)種的不同將整個(gè)多語(yǔ)種信息數(shù)據(jù)庫(kù)劃分為下一層各語(yǔ)種信息庫(kù),各語(yǔ)種信息庫(kù)可以根據(jù)學(xué)科或研究領(lǐng)域進(jìn)一步劃分形成更下一層信息庫(kù)。(4) 用戶查詢服務(wù)系統(tǒng)則根據(jù)用戶提交的檢索請(qǐng)求或服務(wù)請(qǐng)求,實(shí)現(xiàn)數(shù)字化信息資料的分布和利用。(5) 資源調(diào)度系統(tǒng)則實(shí)現(xiàn)網(wǎng)絡(luò)環(huán)境下用戶提問式和數(shù)據(jù)庫(kù)中信息資料數(shù)據(jù)的識(shí)別統(tǒng)一調(diào)度。(6) 跨語(yǔ)言信息檢索系統(tǒng)通過(guò)資源調(diào)度系統(tǒng)得到源自用戶查詢服務(wù)系統(tǒng)的提問檢索式,首先實(shí)現(xiàn)提問式源語(yǔ)種的辨析,并選擇合理的翻譯器將提問語(yǔ)種檢索式轉(zhuǎn)化成信息語(yǔ)種提問式,然后在資源調(diào)度系統(tǒng)的調(diào)度下根據(jù)信息搜索引擎從多種語(yǔ)種信息數(shù)據(jù)庫(kù)中得到符合要求的結(jié)果提交給用戶,最后根據(jù)用戶的反饋進(jìn)一步提高翻譯的準(zhǔn)確性和完整性,進(jìn)而得到更有效、更能滿足用戶需求的結(jié)果數(shù)字化信息資料。23、 基于內(nèi)容的檢索技術(shù):利用媒體對(duì)象的語(yǔ)義、媒體的視覺特征進(jìn)行檢索,它利用圖像
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 起重機(jī)設(shè)計(jì)課程設(shè)計(jì)
- 2025年度港口航道疏浚灰渣處理合同3篇
- 路面施工課程設(shè)計(jì)
- 該不該學(xué)構(gòu)圖課程設(shè)計(jì)
- 二零二五年度房屋出售合同范本(含房屋交易售后服務(wù)承諾)3篇
- 2025年度校園文化節(jié)贊助商權(quán)益分配合同3篇
- 2025年廣告業(yè)務(wù)員個(gè)人工作計(jì)劃范文(2篇)
- 某加油站油品跑冒漏事故應(yīng)急預(yù)案模版(2篇)
- 二零二五年度文化產(chǎn)業(yè)發(fā)展知識(shí)產(chǎn)權(quán)戰(zhàn)略合作協(xié)議2篇
- 2025年集郵進(jìn)校園活動(dòng)業(yè)務(wù)校長(zhǎng)講話稿(2篇)
- 2024-2025學(xué)年遼寧省沈陽(yáng)市高一上學(xué)期1月期末質(zhì)量監(jiān)測(cè)數(shù)學(xué)試題(含解析)
- 物理(四川)-【八省聯(lián)考】河南、山西、陜西、內(nèi)蒙古、四川、云南、寧夏、青海八省2025年高考綜合改革適應(yīng)性演練聯(lián)考試題和答案
- 2025年西藏拉薩市柳梧新區(qū)城市投資建設(shè)發(fā)展集團(tuán)有限公司招聘筆試參考題庫(kù)附帶答案詳解
- DB51T 1069-2010 四川泡菜生產(chǎn)規(guī)范
- 斷絕關(guān)系協(xié)議書
- 2023-建筑施工技02課件講解
- 2025年部編版一年級(jí)語(yǔ)文上冊(cè)期末復(fù)習(xí)計(jì)劃
- 2024高考物理一輪復(fù)習(xí):觀察電容器的充、放電現(xiàn)象(練習(xí))(學(xué)生版+解析)
- 2024年度內(nèi)蒙古自治區(qū)國(guó)家電網(wǎng)招聘之電工類綜合練習(xí)試卷A卷附答案
- 零售服務(wù)質(zhì)量提升
- 2024-2030年中國(guó)電子郵箱行業(yè)市場(chǎng)運(yùn)營(yíng)模式及投資前景預(yù)測(cè)報(bào)告
評(píng)論
0/150
提交評(píng)論