版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第3講文獻檢索技術
2005.7一、布爾邏輯檢索技術
在檢索實際中,檢索提問涉及的概念往往不止一個,而同一個概念又往往涉及多個同義詞或相關詞。為了正確地表達檢索提問,系統(tǒng)中采用布爾邏輯運算符將不同的檢索詞組配起來,使一些具有簡單概念的檢索單元通過組配成為一個具有復雜概念的檢索式,用以表達用戶的信息檢索要求。
1邏輯“與”
含義:檢出的記錄必須同時含有所有的檢索詞?;咀饔茫阂环N用于交叉概念或限定關系的組配,可以縮小檢索范圍,有利于提高檢索的專指性。用and或*表示例如:查找同時含有概念A和概念B的文獻,可表示為:“AandB”或“A*B”
2邏輯“或”
含義:檢出的記錄中,至少含有兩個檢索詞中的一個?;咀饔茫河糜诰哂胁⒘懈拍铌P系的組配。這種組配可以擴大檢索范圍,提高查全率。可以避免了命中文獻的重復出現(xiàn)。用OR或“+”表示例如:檢索含有檢索項A或檢索項B的文獻,可表示為:“AORB”或“A+B”
3邏輯“非”
含義:排除含有某些詞的記錄的,即檢出的記錄中只能含有NOT算符前的檢索詞,但不能同時含有其后的詞。基本作用:用于從某一檢索范圍中排除不需要的概念。這種組配可以縮小檢索范圍。用“NOT”或“-”表示,但在檢索時建議使用NOT,以避免與詞間的分隔符“-”混淆。例如:在含有概念A的文獻集合中,排除同時含有概念B的文獻,可表示為:“ANOTB”或“A-B”。4運算優(yōu)先級運算優(yōu)選級順序為(),NOT,OR,AND;可以用括號改變它們之間的運算順序。通常在有括號的情況下,括號內的邏輯運算先執(zhí)行,有多層括號時,先執(zhí)行最內層的括號。例如:(AORD)ANDB,表示先執(zhí)行“AORD”的檢索,再與B進行AND運算。5注意事項1)有的檢索工具以符號形象地表達布爾檢索的功能,如“+”表示邏輯與,“-”表示邏輯非。有的檢索工具直接把布爾邏輯隱含在菜單中,例如,Lycos以“matchallterms”表示邏輯與,以“matchanyterm”表示邏輯或。絕大多數(shù)檢索工具的高級檢索完全用表格和文字來表達布爾關系,如,Excite以“必須包括(MUSTcontain)”表示邏輯與,用“一定不含”(MUSTNOTcontain)表示邏輯非。有的檢索工具部分支持布爾關系,如Yahoo!尚不支持邏輯非。2)用布爾邏輯表達檢索要求,除要掌握檢索課題的相關因素外,還應在布爾算符對檢索結果的影響方面引起注意。布爾算符使用正確但卻不能達到應有檢索效果的例子很多。OR邏輯有些檢索詞表達的概念,存在整體與部分的關系。在檢索中,這類關系如果處理不好,就不能得到滿意的檢索效果。對此,一般原則是,如果檢索詞涉及到表達整體的概念,就要針對具體情況分別列出每一個表達部分概念的檢索詞,否則將出現(xiàn)漏檢。NOT邏輯在檢索邏輯中使用NOT,能排除含有由NOT指定的檢索詞的文獻,協(xié)助檢索出更準確的文獻。但是,使用NOT必須慎重。因為,如果兩個關系緊密的檢索詞同在一個檢索邏輯中,對其中一個使用NOT邏輯會導致含另一個詞的文獻也被排除。6小結檢索中邏輯算符使用是最頻繁的,對邏輯算符使用的技巧決定檢索結果的滿意程度。用布爾邏輯表達檢索要求,除要掌握檢索課題的相關因素外,還應在布爾算符對檢索結果的影響方面引起注意。另外,對同一個布爾邏輯提問式來說,不同的運算次序會有不同的檢索結果。布爾算符使用正確但不能達到應有檢索效果的事情是很多的。示例:使用布爾邏輯運算符表明查詢結果中必須同時包含intelligentrobot和control表明查詢結果中至少包含兩個檢索詞中的任意一個,intelligentrobot或control表明檢索結果包含intelligentrobot,但同時必須去掉和control相關的內容Intelligentrobotandcontrol(intelligentrobot*control)Intelligentrobotorcontrol(intelligentrobot+control)Intelligentrobotnotcontrol(intelligentrobot-control)注:英文數(shù)據(jù)庫通常用字母,中文數(shù)據(jù)庫要用符號。二、位置檢索(鄰近檢索)技術表明兩或多個檢索詞之間關系的符號。適用于兩個檢索詞以指定間隔距離或者指定的順序出現(xiàn)的場合??梢钥闯商厥夤δ艿腁ND算符。AND算符不限制兩個檢索詞的位置和出現(xiàn)順序。例如:communicationANDsatellite命中的文獻可能有
communicationsatellite;
satellitecommunication;communicaticndevicesforsatellites;communicaticnlinkswithoutsatellites;
位置算符可以改進AND算符的這種不足,它是特殊功能的AND算符。按照兩個檢索詞出現(xiàn)的順序和距離,可以有多種位置算符,而且對同一位置算符,檢索系統(tǒng)不同,規(guī)定的位置算符也不同。1)“(W)”
含義:“(W)”算符中的W含義為“With”。表示其兩側的檢索詞必須緊密相連,除開空格和標點號外,不得插入其他詞或字母,兩詞的詞序不可顛倒。其簡略形式為()。例如:
communication(W)satellitecommunication()satellite兩者相同
2)“(nw)”
“(nW)”中的“W”的含義為“Word”,它允許兩詞間插入最多為n個其他詞,包括實詞和系統(tǒng)禁用詞,詞序不變。例如:
communication(2W)satellite則會檢出
communicationsatellitecommunicationthoughsatellitecommunicationonthesatellite3)“(N)”
含義:“(N)”中的N含義為“Near”。表示其兩側的檢索詞必須緊密相連,除開空格和標點符號外,不得插入其他詞或字母,兩詞的詞序可以顛倒。4)“(nN)”含義:“(nN)”是“(N)”算符的變形,不同之處為允許兩詞間插入最多為n個其他詞,包括實詞和系統(tǒng)禁用詞。例如:
COTTON(2N)PROCESSING則命中:
Cottonprocessing;processingofcotton;processingofEgyptiancotton5)“(F)”——同字段檢索含義:“(F)”算符中F的含義為“Field”。這個算符表示其兩側的檢索詞必須在同一個詞段中出現(xiàn),(例如;同在題目字段或文摘字段)詞序不限,中間可插任意檢索詞項。例如:
POLLUTION(F)CONTRON可命中
Contronandmanagementofindustrialpollution同在題目中
(F)鄰近算符與AND布爾邏輯主要區(qū)別在于:(F)使兩個檢索項在同一字段,AND布爾邏輯中兩個檢索詞會發(fā)生在不同字段中。6)“(s)”——同句檢索含義:“(s)”算符中的S含義為“Sentence”。這個算符表示其兩側的檢索詞必須在同一自然句子(子字段)中出現(xiàn),兩詞的詞序可以顛倒。放寬了詞位置檢索的要求,使表達同一概念但不滿足詞位置條件的文獻也可以被檢索出來,從而提高了查全率。
以上介紹的各種位置算符,按照限制程度的大小,(W)、(nW)最強,(N)、(nN)次之,(S)再次之。當(nN)的n≥10時,其作用已經相當于(S)。
三、截詞檢索技術
含義:用截斷的詞(詞的片段)的一個局部進行的檢索,并認為凡滿足這個詞局部中的所有字符(串)的文獻,都為命中的文獻。檢索者將檢索詞在合適的地方截斷,然后截出的片斷進行檢索。
原因:由于西文的構詞特性,在檢索中經常會遇到名詞的單復數(shù)形式不一致;同一個意思的詞,英美拼法不一致;詞干加上不同性質的前綴和后綴就可以派生出許多意義相近的詞等等。為了保證查全,就得在檢索式中加上這些具有各種變化形式的相關意義的檢索詞,這樣就會出現(xiàn)檢索式過于冗長,輸入檢索詞的時間太久,同時也占太多機時。
截詞的方式
(1)按截斷的字符數(shù)量來分:有限截斷和無限截斷有限截斷:有具體截去的字符數(shù)。無限截斷:不指明具體截去的字符數(shù)。(2)按截斷的位置區(qū)分:后截斷、前截斷以及中間截斷。(3)截斷常使用截斷符號,各檢索系統(tǒng)所使用的截斷符號有所不同,常用的符號有“?”,“$”,“?!币约啊?”。以下舉例中用“?”來表示有限截斷,用“*”表示無限截斷。注意:不同的數(shù)據(jù)庫所用的截詞符不一樣,使用應先查一下各數(shù)據(jù)庫的幫助加以確認。
1后方截詞(前方一致或右截斷)
含義:將截詞符放在一串字符的后面,用以表示以相同字符串開頭,而結尾不同的所有詞。(1)詞尾的有限截斷相同字符串后可能變化一個字符時,則在其后使用一個“?”、空格、再加一個“?”,常用來表示檢索詞的單復數(shù)變化。例如:用system??可以查出sytem和systems的文獻。相同字符串后可能變化兩個以上字符時,則在其后連續(xù)使用若干個“?”代替可能變化的字符。例如:??表示兩個字符,???表示三個字符,以此類推。
(2)詞尾的無限截斷
相同字符串后可能變化任何字符串時,則在其后使用一個“?”。這種方法可以查找出含有相同字符串的所有檢索詞。例如:
comput?可查出compute,computer,computing,computation,computerisation等。(3)后截詞主要使用在如下4個方面詞的單復數(shù),如book?,potato??;年代,如198?(80年代),19??(20世紀);作者,如用Lancaster*可檢出所有姓Lancaster的作者;同根詞,如用biolog*,可檢出biological、biologist、biology等同根詞。
注意(1)有限截斷比較精確,只檢索出用戶需要的詞匯;(2)使用時無限截斷必須注意:詞干不要太短,否則會檢出許多無關的文獻;(3)應盡量選用不會引起誤檢的截斷詞。
2中間截詞(中間屏蔽)
將提問字符串中間的字符用符號代替,主要用于英式美式不同拼法的英文單詞,或單復數(shù)不同的單詞。截詞符具有“OR”運算符的功能,能夠擴大檢索范圍,而且減少了輸入檢索詞的時間,節(jié)約了機時。例如:“
woman”
和“
women”
,可用“
wom?n”
代替;
“
defence”
和“
defense”
可用“defen?e”代替。
檢索時為防止漏檢可用中間屏蔽的檢索方法:
m?nwom?norgani?ationdefen?e
當然使用中間屏蔽的方法也要注意是否可能誤檢其它詞匯的文獻。3
前截斷(后方一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 【講練通】2021版高中歷史岳麓版必修1-單元質量評估(三)
- 六年級上冊數(shù)學教研組工作計劃范文評價
- 【學練考】2021-2022蘇教版化學必修1練習-專題3-從礦物到基礎材料
- 三年級數(shù)學(上)計算題專項練習附答案
- 五年級數(shù)學(小數(shù)乘除法)計算題專項練習及答案匯編
- 全程方略2021屆高考數(shù)學專項精析精煉:2014年考點48-隨機事件的概率、古典概型、幾何概型
- 家長進課堂小學生食品安演示教學
- 增塑劑聚酯薄膜行業(yè)分析
- 2018-2019學年高中生物-第三章-遺傳的分子基礎本章知識體系構建課件-浙科版必修2
- (期末押題卷)期末重難點高頻易錯培優(yōu)卷(試題)-2024-2025學年四年級上冊數(shù)學人教版
- 七年級第一學期地理知識點復習提綱(滬教版)
- 典范英語2a練習冊
- 2023-2024年全球及中國藍莓產業(yè)研究報告
- 汽車二級維護操作技術課件
- 視頻監(jiān)控系統(tǒng)用戶操作手冊
- 建筑與市政施工現(xiàn)場安全衛(wèi)生與職業(yè)健康通用規(guī)范培訓課件
- 《食品安全知識》課件
- 關于化工企業(yè)崗位人才及職業(yè)能力需求的調研
- 婚禮籌備日程表完整版(表格版)
- 部編版道德與法治小學四年級上冊全冊總復習課件
- 工作計劃進度表模板
評論
0/150
提交評論