第三章計(jì)算機(jī)檢索原理_第1頁(yè)
第三章計(jì)算機(jī)檢索原理_第2頁(yè)
第三章計(jì)算機(jī)檢索原理_第3頁(yè)
第三章計(jì)算機(jī)檢索原理_第4頁(yè)
第三章計(jì)算機(jī)檢索原理_第5頁(yè)
已閱讀5頁(yè),還剩41頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第三章計(jì)算機(jī)檢索原理計(jì)算機(jī)檢索概述1.計(jì)算機(jī)檢索的發(fā)展2.計(jì)算機(jī)檢索的原理3.文獻(xiàn)數(shù)據(jù)庫(kù)簡(jiǎn)介4.計(jì)算機(jī)檢索中常用的運(yùn)算符5.計(jì)算機(jī)檢索策略的制定及調(diào)整1.計(jì)算機(jī)檢索的發(fā)展歷史計(jì)算機(jī)檢索從產(chǎn)生到現(xiàn)在經(jīng)歷了4個(gè)階段:

(1)20世紀(jì)50年代,以批量處理、脫機(jī)檢索為特點(diǎn)的第一階段(美國(guó)海軍兵器中心NOTS,4000條記錄,“與”,不能人機(jī)對(duì)話);(2)20世紀(jì)60年代末,聯(lián)機(jī)檢索階段(出現(xiàn)網(wǎng)絡(luò),dialog,人機(jī)對(duì)話);(3)20世紀(jì)70-80年代,聯(lián)機(jī)檢索與光盤檢索共同發(fā)展階段;

前三階段以文獻(xiàn)數(shù)據(jù)庫(kù)檢索為主;(4)20世紀(jì)90年代,基于互連網(wǎng)的數(shù)據(jù)庫(kù)檢索和Internet網(wǎng)上信息檢索并重的第四階段。因特網(wǎng)成為重要的電子信息源.2.計(jì)算機(jī)檢索的原理

計(jì)算機(jī)檢索的原理就是利用計(jì)算機(jī)將用戶所提出的檢索標(biāo)識(shí)與檢索系統(tǒng)中的標(biāo)引標(biāo)識(shí)進(jìn)行比較,將匹配的文獻(xiàn)視為命中。

檢索標(biāo)識(shí)(檢索式)是檢索者根據(jù)對(duì)課題的分析,制定出的既能反映課題的要求,又符合計(jì)算機(jī)檢索要求的檢索語(yǔ)言,其中包括適當(dāng)?shù)臋z索詞,以及合適的邏輯算符和位置算符。例:朱萬(wàn)成2008年論文,題目是“動(dòng)態(tài)荷載作用下混凝土破裂的數(shù)值模擬”。AU=朱萬(wàn)成andTI=動(dòng)態(tài)荷載作用下混凝土破裂的數(shù)值模擬(CNKI)3.文獻(xiàn)數(shù)據(jù)庫(kù)簡(jiǎn)介3.1數(shù)據(jù)庫(kù)的定義和類型3.1.1定義:按一定方式存儲(chǔ)的相互關(guān)聯(lián)的數(shù)據(jù)集合。它是檢索工具的一種:CNKI/萬(wàn)方。3.1.2數(shù)據(jù)庫(kù)類型:文獻(xiàn)目錄型數(shù)據(jù)庫(kù)(bibliographicdatabase).也稱為書目數(shù)據(jù)庫(kù)或者目錄數(shù)據(jù)庫(kù),是二次文獻(xiàn)數(shù)據(jù)庫(kù),包含文摘數(shù)據(jù)庫(kù)、題錄數(shù)據(jù)庫(kù)、索引數(shù)據(jù)庫(kù)、各國(guó)的MARC格式的圖書目錄。如EI,SCIE等。指南數(shù)據(jù)庫(kù)(referencedatabases).也稱指示性數(shù)據(jù)庫(kù),其內(nèi)容是關(guān)于某些機(jī)構(gòu)、人物、出版物、項(xiàng)目、程序、活動(dòng)等對(duì)象的簡(jiǎn)要描述,是指引用戶從其他有關(guān)的信息源獲取更詳細(xì)的信息的一類數(shù)據(jù)庫(kù)。如中國(guó)人物數(shù)據(jù)庫(kù)、Dialog系統(tǒng)中的鄧白氏國(guó)際市場(chǎng)情報(bào)庫(kù)。數(shù)值數(shù)據(jù)庫(kù)(numericdatabase).又稱數(shù)據(jù)型數(shù)據(jù)庫(kù),此類數(shù)據(jù)庫(kù)存儲(chǔ)的均為數(shù)據(jù)信息。如中國(guó)統(tǒng)計(jì)年鑒\Dialog系統(tǒng)中的公司披露數(shù)據(jù)庫(kù)。全文型數(shù)據(jù)庫(kù)(full-textdatabase)。是指儲(chǔ)存的數(shù)據(jù)是文獻(xiàn)全文或者其主要部分是文獻(xiàn)全文的一種數(shù)據(jù)庫(kù)。如中國(guó)期刊全文數(shù)據(jù)庫(kù),重慶維普期刊全文庫(kù)。3.2數(shù)據(jù)庫(kù)的構(gòu)成

由文檔、記錄、字段構(gòu)成。(1)文檔(file),若干個(gè)邏輯記錄構(gòu)成的信息集合。文檔是書目數(shù)據(jù)庫(kù)和文獻(xiàn)檢索系統(tǒng)中數(shù)據(jù)組織的基本形式。根據(jù)數(shù)據(jù)庫(kù)的內(nèi)部結(jié)構(gòu),一個(gè)數(shù)據(jù)庫(kù)至少包含一個(gè)順排文檔和一個(gè)倒排文檔。順排文檔:是按文獻(xiàn)記錄的輸入順序(即文獻(xiàn)序號(hào))排列的文檔。在順排文檔中,記錄按順序一個(gè)接一個(gè)地存放,一個(gè)存取號(hào)對(duì)應(yīng)一條記錄,存取號(hào)愈大,對(duì)應(yīng)的記錄就愈新。由于它存貯有記錄的最完整的信息,所以,通常又把它稱之為主文檔(MasterFile)。倒排文檔:把順排文檔中的標(biāo)引詞抽出,按標(biāo)引詞的字母順序依次排列而成的文檔。倒排文檔實(shí)際上相當(dāng)于印刷型檢索工具中的輔助索引。(2)記錄(record),記錄是若干個(gè)字段組成的文獻(xiàn)單元。是對(duì)某一實(shí)體屬性進(jìn)行描述的結(jié)果。一個(gè)數(shù)據(jù)庫(kù)由若干條記錄構(gòu)成。在全文數(shù)據(jù)庫(kù)中,一個(gè)記錄相當(dāng)于一篇完整的文獻(xiàn);在書目數(shù)據(jù)庫(kù)中,一個(gè)記錄相當(dāng)于一條文摘或題錄。(3)字段(field),是文獻(xiàn)著錄的基本單元,用來(lái)描述文獻(xiàn)主題內(nèi)容相關(guān)的某種屬性。一個(gè)字段有時(shí)還可分為幾個(gè)子字段(Subfield)。數(shù)據(jù)庫(kù)的字段可分為基本字段和輔助字段:基本字段主要是描述文獻(xiàn)內(nèi)容特征的字段,如篇名、文摘、敘詞、自由標(biāo)引詞等字段;輔助字段主要是描述文獻(xiàn)外表特征的字段,如著者、機(jī)構(gòu)名稱、語(yǔ)種、文獻(xiàn)來(lái)源等字段。4.計(jì)算機(jī)檢索中常用的運(yùn)算符4.1邏輯算符4.1.1邏輯“與”。用“and”或者“*”表示,是用以組配不同的概念邏輯符號(hào),表示“and”連接的兩個(gè)詞在一個(gè)記錄中必須同時(shí)出現(xiàn)。如:LibraryandComputerLibraryComputer4.1.2邏輯“或”。用“or”或“+”表示。是用來(lái)組配相同或相近概念的邏輯算符,表示在記錄中出現(xiàn)其一即可作為命中。如:fiberorfibrefiberfibre4.1.3邏輯“非”。在系統(tǒng)中用“not”或者“-”表示,排除某個(gè)概念的邏輯算符,如:PatentnotJapan,表示檢中的記錄中包含Patent,不包含Japan。

PatentJapan4.2優(yōu)先算符

優(yōu)先算符用()表示,在含有多個(gè)運(yùn)算的檢索式中,可以用()將需要優(yōu)先運(yùn)算的部分括上,系統(tǒng)會(huì)優(yōu)先運(yùn)算()中的部分,然后在按照not,and,or的順序進(jìn)行運(yùn)算。如:S

(fiberorfibre)andoptical

4.3截詞符和屏蔽符4.3.1.截詞符:用“?”或者“*”,不同數(shù)據(jù)庫(kù)有不同的規(guī)定4.3.2

屏蔽符:“?”作為屏蔽符,加在單詞中間,可以代表1個(gè)字符的變化。如:wom?n,表示women和woman。詞中使用幾個(gè)屏蔽符,則代表有幾個(gè)字符的變化。有的數(shù)據(jù)庫(kù)使用“#”4.4位置算符位置算符是用來(lái)規(guī)定檢索詞之間的位置關(guān)系的算符:4.4.1.(w),(nW),意思是with,表示它連結(jié)的兩個(gè)詞前后位置確定,中間插詞不能超過(guò)0-n個(gè)。(w)也寫作(),實(shí)際上是(0W),表示連接的兩個(gè)詞必須緊密相連,中間不能插詞,但是中間可以加連字符。如:卡車S

motor(W)lorry可以檢出motor-lorry和motorlorry。4.4.2.(N),(nN),意思是near,表示它連結(jié)的兩個(gè)詞前后次序不限,中間可以插入n個(gè)詞。(N)實(shí)際上是(0N),表示連結(jié)的兩個(gè)詞中間不得插入其他詞。如:S

corrosion(N)resist?可以檢索出corrosionresistance;corrosionresistant;resistingcorrosion;

S

protect?(2N)forest可以檢出protectionofforest,forestprotection,protectingtheforest等。

4.4.3

(S),意思是subfield或sentence,它表示連結(jié)的兩個(gè)檢索詞要在同一個(gè)子字段或同一句話中出現(xiàn)。如:

S

computer(s)library要求computer和library在同一個(gè)句子中出現(xiàn)

Scs=shenyang(s)university

要求shenyang和university在cs字段中的同一個(gè)子字段出現(xiàn)。4.4.4(F),意思是field,表示連結(jié)的兩個(gè)詞要在同一個(gè)字段中出現(xiàn)。如:S

fieldbus(f)multimedia要求fieldbus和multimedia在同一個(gè)字段中出現(xiàn)。以上是計(jì)算機(jī)中常用的位置算符,但并非所有的系統(tǒng)都可用,不同的檢索系統(tǒng)有其自己的規(guī)定。5.計(jì)算機(jī)檢索策略的制定及調(diào)整1.概念的選?。?)核心概念的選取:

變溫條件下煤層損傷與瓦斯運(yùn)移的熱流固耦合模型

a.選取語(yǔ)言最小單位;b.切分詞(拆詞);C.同義詞、近義詞

(2)發(fā)掘隱含概念:石質(zhì)文物的保護(hù)—石雕、石刻、石碑…(3)考慮同義詞包括術(shù)語(yǔ)和俗稱:保護(hù)conservation,preservation,protection

(鋁礦or鋁土礦or鋁礦石or鋁土礦石or一水鋁石型鋁土礦or一水硬鋁石)(4)排除不必要的概念:使用專業(yè)數(shù)據(jù)庫(kù)或通用詞(5)使用準(zhǔn)確的代碼:標(biāo)準(zhǔn)號(hào)、專利號(hào)、產(chǎn)品代碼借助工具找出核心概念同義詞的方法在檢索出來(lái)的文獻(xiàn)中尋找中文同義詞:百度百科CNKI工具書與知識(shí)元搜索讀秀知識(shí)搜索英文翻譯:金山詞霸GoogleCNKI翻譯助手百度百科CNKI工具書與知識(shí)元搜索CNKI工具書與知識(shí)元搜索CNKI工具書與知識(shí)元搜索CNKI工具書與知識(shí)元搜索讀秀知識(shí)搜索讀秀知識(shí)搜索CNKI翻譯助手2.數(shù)據(jù)庫(kù)的選擇(1)合適的主題范疇(社科、工程技術(shù)、化學(xué)、醫(yī)學(xué)…)(2)合適的數(shù)據(jù)庫(kù)類型、年度范圍(專利、標(biāo)準(zhǔn)、期刊、書…)3.檢索策略的制定及調(diào)整(1)擬定檢索式:變溫條件下煤層損傷與瓦斯運(yùn)移的熱流固耦合模型

(非等溫or變溫)and(煤層or煤巖體)and(損傷or破壞or損壞)and

(瓦斯or煤層氣or煤氣)and(運(yùn)移or漂移or運(yùn)動(dòng))and熱流固(2)如果檢索結(jié)果太少,適當(dāng)調(diào)整策略,以擴(kuò)大檢索范圍(增加同義詞或隱含概念)a.熱流固有沒(méi)有同義詞熱-流-固;b.去掉熱流固;c.and改為or:((煤層or煤巖體)and

(損傷or破壞or損壞)or(瓦斯or煤層氣or煤氣)and

(運(yùn)移or漂移or運(yùn)動(dòng)))d.去掉第一個(gè)檢索詞(非等溫or變溫)注意:盡量從概念和邏輯關(guān)系上找原因,或者“精確”匹配改為“模糊”匹配(3)如果檢索結(jié)果太多,也要適當(dāng)調(diào)整策略,以縮小檢索范圍(增加概念(檢索詞)或用字段、年代等限制)。

(非等溫or變溫)and(煤層

/主題or煤巖體/主題)

and(損傷or破壞or損壞)and(瓦斯or煤層氣)/主題

and(運(yùn)移or漂移or運(yùn)動(dòng))and熱流固and(耦合模型or數(shù)學(xué)模型or仿真or數(shù)值模擬)要把檢索式變成數(shù)據(jù)庫(kù)認(rèn)識(shí)的檢索式:第一檢索式結(jié)果為0增加檢索詞熱-流-固,三個(gè)檢索式都是0去掉(變溫+非等溫)條件:2條?;蛘呷サ簟盁崃鞴獭备拍?/p>

SU=(非等溫+變溫)and(SU=(煤層+煤巖體)andSU=(損傷+破壞+損壞)orSU=(瓦斯+煤層氣+煤氣)andSU=(運(yùn)移+漂移+運(yùn)動(dòng)))5條同時(shí)去掉非等溫和熱流固概念

(SU=(煤層+煤巖體)andSU=(損傷+破壞+損壞)andSU=(瓦斯+煤層氣+煤氣)andSU=(運(yùn)移+漂移+運(yùn)動(dòng)))108條發(fā)現(xiàn)一個(gè)新詞:煤層變形把“變形”加進(jìn)去,結(jié)果變得非常多,251條

(SU=(煤層+煤巖體)andSU=(損傷+破壞+損壞+變形)andSU=(瓦斯+煤層氣+煤氣)andSU=(運(yùn)移+漂移+運(yùn)動(dòng)))再檢索(變溫+非等溫)*(煤層+煤巖體)*(瓦斯+煤層氣+煤氣):18條,發(fā)現(xiàn)有一個(gè)新詞:溫度變化把“溫度變化”加進(jìn)去,有79條記錄,用這種方法再找找有沒(méi)有“運(yùn)移”的同義詞。把“溫度變化”和“變形”同時(shí)加進(jìn)去SU=(非等溫+變溫+溫度

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論