數(shù)據(jù)庫檢索策略_第1頁
數(shù)據(jù)庫檢索策略_第2頁
數(shù)據(jù)庫檢索策略_第3頁
數(shù)據(jù)庫檢索策略_第4頁
數(shù)據(jù)庫檢索策略_第5頁
已閱讀5頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)庫檢索策略11 分析課題2 選擇檢索詞3 編制檢索式4 查全與查準5 利用各數(shù)據(jù)庫的功能6 檢索策略分析舉例2通常要解決以下問題:課題的范圍、類型及所屬的專業(yè)領域課題的主要內容和重點課題的核心概念和術語課題所需信息的時間范圍和語種課題對查全和查準的傾向性首選手冊、百科全書、專著等三次文獻作為分析課題的手段,在此基礎上去查詢新的文獻。1 分析課題3檢索詞的全稱、簡稱、俗稱與英文縮寫檢索詞的上下位類擴展外來詞的譯寫變化少用或不用對課題意義不大的詞深入課題尋找檢索詞外文檢索詞的多種寫法2 選擇檢索詞檢索詞是概括檢索需求的簡潔詞語用于檢索的所有詞匯都是檢索詞4 以用戶提供的關鍵詞為參考,根據(jù)檢索要

2、求復核、篩選、補充、精煉檢索用詞。 選定的檢索詞應符合檢索目的;確認檢索詞是否為規(guī)范詞;并列出常用中外文同義詞、縮寫詞, 以及核心詞的上下位類詞。 充分利用詞表、詞典、百度、谷歌、讀秀,并從已檢出的文獻中,擴展檢索用詞。檢索詞選擇技巧5(1) 立足規(guī)范詞,兼顧自由詞 膠粘劑: 黏合劑、粘合劑、粘固劑、粘結劑、粘附劑、 膠黏劑、膠合劑、粘接劑、粘膠劑(2) 注意詞的全稱、簡稱及縮寫字母 乙型病毒性肝炎(乙型肝炎、乙肝、HBV)(3)必要時應向上下位類詞擴檢 電阻焊(點焊、縫焊、凸焊)(4)注意外來詞的譯寫變化 波爾茲曼(玻耳茲曼、玻爾茲曼、波耳茲曼、波爾茨曼、Boltzmann ) 歐幾里德(歐

3、幾里得、歐基里德、歐幾理德、歐氏幾何、 Euclid )(5)同義詞的選擇方法 利用數(shù)據(jù)庫的同義詞選擇功能、利用搜索引擎尋找同義詞 從數(shù)據(jù)庫檢索結果中尋找同義詞、利用自己的專業(yè)知識 利用自己平時積累的知識6利用搜索引擎查找同義詞7檢索詞選擇要點81)切分 切分是對課題的語句以詞為單位進行拆分,轉換為檢索的最小單元。 例1:檢索“婦女吸煙與肺癌的關系研究”相關文獻。 直接切分:婦女|吸煙|與|肺癌|的|關系|研究 注意:當詞切分后將失去原來的意思時,不應再切分,即必須注意 保持意義的完整。 如“中國科學院”、“電子郵件”不可再切分。92)刪除 刪除是對自然語言中不具有實質性檢索意義的: 虛詞(如

4、介詞、連詞、副詞等), 使用頻率較低的詞, 專指性太高、過分寬泛的詞 過分具體的限定詞 不能表達課題實質的高頻詞(研究、發(fā)展等) 存在蘊含關系可以合并的詞(檢索詞重復或包含)10 英語或漢語中都有許多虛詞,不能作為檢索詞。 如:漢語中“的、地、得、了”等助詞 英語中的a about also and any as at be between by both for some so not this with等介詞或冠詞等11 例2:檢索“中國非常規(guī)天然氣工業(yè)的發(fā)展前景研究”方面的相關文獻。 進行拆分以后,工業(yè)、發(fā)展、前景、研究這四個自由詞具有一定的檢索意義,但是由于或者是意義過于寬泛、或者是不

5、能表達課題實質、或者是存在蘊含關系的原因,沒有必要全部作為檢索詞,根據(jù)需要可以保留1-2個作為檢索詞。 適合在“摘要”或“全文”字段使用! 本課題最主要的核心詞匯是“非常規(guī)”“天然氣”! 123)擴展 想查全應當將核心詞匯進行擴展(同義詞、近義詞、上下位詞)。 例1:檢索“婦女吸煙與肺癌的關系研究”相關文獻。 核心詞:吸煙,肺癌 擴展:抽煙,煙,癌癥,腫瘤,惡性腫瘤 例2:檢索“人工智能技術在計算機輔助教學中的應用與實現(xiàn)”相關文獻。 核心詞:人工智能、計算機輔助設計 擴展:同義詞:智能模擬 下位概念:模式識別、自然語言理解與生成、 專家系統(tǒng)、自動程序設計 、數(shù)據(jù)智能檢索, 計算機輔助教學系統(tǒng)

6、(computer Aided Instruction ,CAD ) 13英文檢索詞的選擇 (請參見后續(xù)課件)14 檢索策略是檢索前制定的檢索概念組配和執(zhí)行順序的方案,是表達用戶具體的檢索思想與檢索要求。 信息檢索成功與否,檢索的查全率與查準率能否實現(xiàn),都與檢索策略的關系及其密切。 在計算機檢索中,檢索策略具體表現(xiàn)為檢索式。 檢索式將各個檢索詞之間的邏輯關系、位置關系等用檢索系統(tǒng)規(guī)定的各種組配算符連接起來,成為計算機可識別和執(zhí)行的檢索命令形式。完整檢索式由檢索字段、檢索詞和邏輯算符構成。 檢索式中的算符包括:布爾邏輯算符、 位置算符、 截詞符、 限制算符、 系統(tǒng)規(guī)定的其他組配連接符號3 制定檢

7、索策略,編制檢索式151、構造的檢索式只是一個表達式,該表達式不一定就能在數(shù)據(jù)庫的專業(yè)檢索方式下直接復制到檢索框中檢索,要看每個數(shù)據(jù)庫的檢索式輸入要求;2、檢索詞的輸入以及邏輯算符的輸入或選擇要遵循所選擇的數(shù)據(jù)庫的邏輯運算順序,以避免輸入的經過檢索運算后得到的結果與構造的檢索表達式不符。3、查看每個數(shù)據(jù)庫的檢索幫助和字段代碼表。檢索式構造注意事項(具體檢索式構造請參見課件字段與檢索式)163.漏檢率 漏檢率=1查全率4.誤檢率 誤檢率=1查準率4 考慮查全與查準,調整檢索策略* 查全與查準相互制約、此消彼長* 檢索原則:兼顧查全與查準1.查全率2.查準率17ABCDD:檢索系統(tǒng)中所有信息的總量

8、A:在系統(tǒng)中存在著且能滿足信息檢索需求的相關信息總量B:本次檢索輸出信息量C:本次檢索輸出的且與需求相關信息數(shù)量 C=AB,即合理命中的信息量 查全率= C / A100% 查準率= C / B100%18選擇較大字段:如摘要、主題、全文、任意字段等盡量多用同義詞、近義詞、反義詞、縮寫詞、上下位類詞(增加邏輯或關系)減少邏輯與關系(限制條件)采用模糊匹配功能擴大檢索年限使用截詞符(*?$)提高查全率的方法19選擇較小字段:如篇名(題名)、題名或關鍵詞字段盡量增加核心檢索詞:從內容中挖掘核心詞使用詞位檢索采用精確匹配/精確短語功能采用“AND” 或“NOT”算符連接檢索詞或進行二次檢索。減少同義

9、詞、同族相關詞等相關性不強的檢索詞。提高查準率的方法20(1)未按數(shù)據(jù)庫檢索規(guī)定運算次序(將邏輯或誤填為邏輯與)高級檢索在檢索框中使用了邏輯算符初級檢索在檢索框中同時使用邏輯算符和精確匹配(2)檢索條件過于嚴格使用過多的邏輯與對字段限定太嚴(3)檢索詞不當選用了不規(guī)范的主題詞或某些產品的俗稱、商品名同義詞等沒能運用全多數(shù)數(shù)據(jù)庫難以實現(xiàn)對命名較復雜化合物的檢索檢索結果很少或為零的原因及解決方法21(4)望文生義,沒有發(fā)現(xiàn)隱含概念利用專著、綜述、網上資源仔細分析課題閱讀檢索到的文獻,不斷調整檢索策略(5)確實未曾有此方面研究的報道丟掉一些次要概念,用一兩個最核心的檢索詞進行檢索,然后人工篩選A物質

10、+B方法,可借鑒C物質+B方法或A物質+E方法,借鑒一切可以借鑒的前人文獻22(1)未按數(shù)據(jù)庫檢索規(guī)定運算次序(比如邏輯或的關系的檢索詞沒有列在前面)只允許用半角符號錯用了全角(2)對課題分析不到位,檢索策略不當主題太寬泛檢索詞太寬泛字段太寬泛縮寫引起多義性誤檢(3)該領域的文獻確實很多檢索結果太多的原因及解決方法235 利用各數(shù)據(jù)庫的功能(1)各種限制條件 (期刊范圍/年限/學科范圍/精確/模糊/詞頻/排序方式/文獻類型/語種選擇等等)(2)二次檢索(3)精煉功能 (哪個數(shù)據(jù)庫有精煉功能,以及可精煉的項目)(4)分析功能 (哪個數(shù)據(jù)庫有分析功能,以及可分析的項目)(5)有無自動截詞功能(6)

11、數(shù)據(jù)庫自帶的獨特功能24 檢索課題“抗糖尿病藥物羅格列酮的合成”1 分析課題 藥物合成領域,重點在于該藥物的合成而非應用2 選擇檢索詞 核心詞匯為羅格列酮和合成,根據(jù)搜索引擎或數(shù)據(jù)庫初步檢索或自己的專業(yè)知識知道羅格列酮屬于噻唑烷二酮類的化合物,俗稱TZDs。 還可以從其他結構相近的抗糖尿病藥物例如曲格列酮等列同類藥物的合成入手檢索到可以運用到羅格列酮的合成的方法; 6 檢索策略分析舉例得到還可以用的檢索詞為噻唑烷二酮、TZDs、列酮。25 而且“合成” 最主要的替代詞是“制備”,還可以衍生為“制造”、“生產”等; 如果還想擴大范圍,可將檢索主題擴大至“抗糖尿病藥物的合成”,糖尿病其實就是因為體內周圍組織對胰島素促進葡萄糖的吸收、轉化、利用發(fā)生了抵抗而使血糖升高)。 得到還可以用的檢索詞為制備、制造、生產;糖尿病、血糖、胰島素 。26 3 制定檢索策略,編制檢索式 羅格列酮*(合成+制備) (噻唑烷二酮+TZDs+列酮)*(合成+制備) (羅格列酮+噻唑烷二酮+TZDs+列酮)*(合成+制備+制造+生產) (噻唑烷二酮+TZDs+列酮)*(合成+制備+制造+生產) (糖尿病+血糖+胰島素 )*(合成+制備+制造+生產) 檢索式要根據(jù)自己的需求以及檢索結果不斷動態(tài)調整,兼顧查全與查準最終檢索到滿意的結果27(1)明確檢索目的(2)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論