信息檢索語(yǔ)言_第1頁(yè)
信息檢索語(yǔ)言_第2頁(yè)
信息檢索語(yǔ)言_第3頁(yè)
信息檢索語(yǔ)言_第4頁(yè)
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

第二節(jié)信息檢索語(yǔ)言計(jì)算機(jī)檢索的基本原理是將用戶的檢索提問(wèn)詞與數(shù)據(jù)庫(kù)文獻(xiàn)記錄中的標(biāo)引詞進(jìn)行對(duì)比,當(dāng)提問(wèn)詞與標(biāo)引詞匹配一致時(shí),即為命中,檢索成功。由此可見(jiàn),能否準(zhǔn)確地檢索出用戶所需信息,關(guān)鍵在于能否準(zhǔn)確地選擇檢索詞。這里所說(shuō)的“準(zhǔn)確”,是指用戶所選的檢索詞必須與數(shù)據(jù)庫(kù)中標(biāo)引文獻(xiàn)記錄所用的標(biāo)引詞一致。然而實(shí)際工作中,從事信息存儲(chǔ)的人員與從事信息檢索的人員絕大多數(shù)情況下不可能進(jìn)行直接的思想交流,因而會(huì)造成存儲(chǔ)信息與檢索信息所依據(jù)的規(guī)則不一致,導(dǎo)致存入的文獻(xiàn)檢不出。為了避免這種情況發(fā)生,在信息標(biāo)引人員與信息檢索人員之間必須制定一種共同遵守的規(guī)則,即一種約定的相同標(biāo)識(shí)和線路,這就是檢索語(yǔ)言。一檢索語(yǔ)言的含義及作用檢索語(yǔ)言的概念檢索語(yǔ)言(informationretrievallanguage),是信息存儲(chǔ)與檢索過(guò)程中用于描述信息特征和表達(dá)用戶信息提問(wèn)的一種專門語(yǔ)言。所謂檢索的運(yùn)算匹配就是通過(guò)檢索語(yǔ)言的匹配來(lái)實(shí)現(xiàn)的。檢索語(yǔ)言是人與檢索系統(tǒng)對(duì)話的基礎(chǔ)。有了這種規(guī)則,信息標(biāo)引人員在進(jìn)行信息存儲(chǔ)的過(guò)程中,就會(huì)對(duì)原始信息進(jìn)行分析,找出其能代表信息的特征與檢索語(yǔ)言(檢索標(biāo)識(shí)系統(tǒng))進(jìn)行對(duì)照標(biāo)引,然后納入檢索系統(tǒng);而信息檢索人員在進(jìn)行信息檢索的過(guò)程中,則先對(duì)待查課題進(jìn)行分析,歸納出各種信息特征,使之形成能代表需要的檢索提問(wèn),然后把這些提問(wèn)與檢索語(yǔ)言(檢索標(biāo)識(shí)系統(tǒng))進(jìn)行核對(duì),標(biāo)引成檢索提問(wèn)標(biāo)識(shí)。如果沒(méi)有檢索語(yǔ)言作為標(biāo)引人員和檢索人員的共同語(yǔ)言,就很難使得標(biāo)引人員對(duì)文獻(xiàn)信息內(nèi)容的表達(dá)和檢索人員對(duì)相同文獻(xiàn)信息內(nèi)容需求時(shí)的表達(dá)取得一致,信息檢索也就不可能順利實(shí)現(xiàn)。檢索語(yǔ)言的工作原理存儲(chǔ):檢索系統(tǒng)對(duì)文獻(xiàn)內(nèi)容進(jìn)行分析,概括分析出若干能代表文獻(xiàn)內(nèi)容的語(yǔ)詞,并賦予一定的標(biāo)識(shí),如題名、作者、主題詞等,作為存儲(chǔ)與檢索的依據(jù),然后納入到數(shù)據(jù)庫(kù)中。檢索:檢索人員首先要對(duì)檢索課題進(jìn)行分析,同樣形成若干能代表信息需求的語(yǔ)詞,然后通過(guò)檢索系統(tǒng)在數(shù)據(jù)庫(kù)中匹配具有同樣語(yǔ)詞和標(biāo)識(shí)的文獻(xiàn),找到自己所需的信息。檢索語(yǔ)言的作用保證不同標(biāo)引人員表征文獻(xiàn)信息的一致性。(2)使內(nèi)容相同及相關(guān)的文獻(xiàn)集中化。保證檢索提問(wèn)與文獻(xiàn)信息標(biāo)引的一致性。(4)保證檢索者按不同需求檢索文獻(xiàn)信息時(shí)都能獲得較高的查全率和查準(zhǔn)率。二檢索語(yǔ)言的類型1自然語(yǔ)言(naturallanguage)檢索用詞是從信息內(nèi)容本身抽取的,主要依賴于計(jì)算機(jī)自動(dòng)抽詞技術(shù)完成,輔以人工自由標(biāo)引(非依據(jù)詞表的標(biāo)引方法),是非規(guī)范詞(uncontrolledterm)。關(guān)鍵詞(keyword):直接從信息資源名稱、正文或文摘中抽出的代表信息主要內(nèi)容的重要語(yǔ)詞。題名:信息資源的名稱,如論文篇名、圖書書名、網(wǎng)站名稱等。全文:從資源的內(nèi)部?jī)?nèi)容中自動(dòng)抽取、查找,是目前網(wǎng)上各類搜索引擎使用的最多的方法。引文(quotation):將文獻(xiàn)所引用的參考文獻(xiàn)的作者、篇名、來(lái)源出版物抽取出來(lái)進(jìn)行標(biāo)引。自然語(yǔ)言的優(yōu)點(diǎn):新穎性強(qiáng):一旦文獻(xiàn)中出現(xiàn)某個(gè)新詞語(yǔ),即可直接使用這一詞語(yǔ)作為檢索入口,根本無(wú)需像受控語(yǔ)言那樣冥思苦想地將其轉(zhuǎn)換成另一規(guī)范詞用于檢索。檢索方便:它解除了人工語(yǔ)言的種種限制,不需要復(fù)雜的檢索規(guī)則,使用者能較快適應(yīng),易用性強(qiáng)。標(biāo)引準(zhǔn)確度高:自然語(yǔ)言采用從文獻(xiàn)中抽詞標(biāo)引的方式,不容易發(fā)生誤標(biāo)引,適用于計(jì)算機(jī)檢索。只要數(shù)據(jù)庫(kù)的文獻(xiàn)標(biāo)題中含有該檢索詞,即視為命中,健全率較高。自然語(yǔ)言的缺點(diǎn):詞匯量太大,給詞匯的存儲(chǔ)、加工和檢索帶來(lái)許多操作性方面的困難。當(dāng)文獻(xiàn)的主題很明白清楚地在標(biāo)題或主題詞中表達(dá)出來(lái)時(shí),檢索才會(huì)較成功,反之則失效。詞匯具有模糊性,另外多義、近義、同義現(xiàn)象較多,給標(biāo)引和檢索帶來(lái)困難。2人工語(yǔ)言由人工創(chuàng)制的,采用規(guī)范詞,用來(lái)專指某個(gè)概念或與之相應(yīng)的概念??梢詫⑼x詞、近義詞、相關(guān)詞、多義詞及縮略詞規(guī)范在一起,由人工控制。包括分類檢索語(yǔ)言、主題檢索語(yǔ)言、代碼檢索語(yǔ)言。(1)分類檢索語(yǔ)言按學(xué)科范疇及知識(shí)之間的關(guān)系列出類目,并用數(shù)字、字母符號(hào)對(duì)類目進(jìn)行標(biāo)識(shí)的一種語(yǔ)言體系,也稱分類法。中國(guó)圖書館圖書分類法美國(guó)國(guó)會(huì)圖書館分類法杜威十進(jìn)位分類法IPC國(guó)際專利分類表下面以《中圖法》為例說(shuō)明體系分類法的結(jié)構(gòu)與功能?!吨袌D法》是體系分類法的典型代表,是現(xiàn)今國(guó)內(nèi)圖書情報(bào)部門普遍使用的一部分類法?!吨袌D法》的類目表由基本大類、簡(jiǎn)表、詳表和復(fù)分表組成?;敬箢愂欠诸惙ㄖ械牡谝患?jí)類目,是對(duì)學(xué)科領(lǐng)域的基本劃分?!吨袌D法》共有二十二個(gè)基本大類,每個(gè)大類都用一個(gè)英文字母表示。如下所示:A馬克思主義、列寧主義、毛澤東思想、鄧小平理論B哲學(xué)宗教C社會(huì)科學(xué)總論D政治法律E軍事F經(jīng)濟(jì)G文化科學(xué)教育體育H語(yǔ)言文字I文學(xué)J藝術(shù)K歷史地理N自然科學(xué)總論O數(shù)理科學(xué)化學(xué)P天文學(xué)地球科學(xué)Q生物科學(xué)R醫(yī)藥衛(wèi)生S農(nóng)業(yè)科學(xué)T工業(yè)技術(shù)U交通運(yùn)輸V航空航天X環(huán)境科學(xué)勞動(dòng)保護(hù)科學(xué)Z綜合性圖書簡(jiǎn)表又稱為基本類目表,是分別對(duì)每個(gè)基本大類,依據(jù)它的某些屬性,作進(jìn)一步劃分后而形成的二、三級(jí)類目表。如Q生物科學(xué)Q1普通生物學(xué)Q2細(xì)胞學(xué)Q3遺傳學(xué)Q4生理學(xué)Q5生物化學(xué)III詳表又稱主表或正表,由簡(jiǎn)表進(jìn)一步細(xì)分而成的最小概念性分類表。如:I文學(xué)I0 文學(xué)理論I1 世界文學(xué)I2 中國(guó)文學(xué)I20I21 作品集I22 詩(shī)歌、韻文I23 戲劇文學(xué)I24 小說(shuō)I242古代至近代作品I246現(xiàn)代作品I247當(dāng)代作品I247.4章回小說(shuō)I247.5新體長(zhǎng)篇、中篇小說(shuō)I247.7新體短篇小說(shuō)I247.8故事、微型小說(shuō)I25 報(bào)告文學(xué)I26 散文I3/7各國(guó)文學(xué)復(fù)分表是供主表中某些類目共同細(xì)分而從主表中抽出的一部分類目表。使用體系分類檢索語(yǔ)言編制的分類表按學(xué)科或?qū)I(yè)集中文獻(xiàn)信息,以學(xué)科概念的上下左右關(guān)系反映事物的派生、隸屬平行的關(guān)系,較好地體現(xiàn)了學(xué)科的系統(tǒng)性,能較好地滿足族性檢索的要求。其次,體系分類法用字母和數(shù)字表示類目便于組織文獻(xiàn)排架及目錄系統(tǒng),又適于文獻(xiàn)信息的收集和編制手工檢索工具。但由于體系分類法使用的是號(hào)碼式語(yǔ)言作檢索標(biāo)識(shí),一方面不直觀,另一方面在檢索文獻(xiàn)信息時(shí),必須將文字主題轉(zhuǎn)換成分類標(biāo)識(shí),在轉(zhuǎn)換過(guò)程中,容易產(chǎn)生差錯(cuò),造成誤檢或漏檢,影響檢索效率。此外,體系分類法采用的是先組式檢索語(yǔ)言,因此,增補(bǔ)新概念困難,修改不及時(shí),不適應(yīng)新興學(xué)科和邊緣學(xué)科的檢索。(2)主題檢索語(yǔ)言:主題檢索語(yǔ)言是以詞語(yǔ)作為表達(dá)主題概念的標(biāo)識(shí),按字順編排的檢索語(yǔ)言。標(biāo)題詞語(yǔ)言是最早使用的一種主題語(yǔ)言。它以規(guī)范化的自然語(yǔ)義作為標(biāo)識(shí)來(lái)表達(dá)文獻(xiàn)涉及的主題概念,表達(dá)主題的詞語(yǔ)稱為標(biāo)題。單元詞語(yǔ)言是從文獻(xiàn)內(nèi)容中抽選出來(lái)的最基本的詞匯、將代表最一般、最基本的、不可再分割的概念的詞作為單獨(dú)標(biāo)引文獻(xiàn)的單位。敘詞語(yǔ)言是從自然語(yǔ)言中優(yōu)選出來(lái)并經(jīng)過(guò)規(guī)范化處理的名詞術(shù)語(yǔ)。采用表示單元概念的規(guī)范化語(yǔ)詞的組配對(duì)文獻(xiàn)內(nèi)容主題進(jìn)行描述,也是目前使用最廣泛的主題語(yǔ)言。主題語(yǔ)言舉例:下例為EBSCO出版公司BusinessSourcePremier數(shù)據(jù)庫(kù)中選定“建議主題語(yǔ)”(據(jù)2008年數(shù)據(jù))□魁^0切購(gòu)□ELECTRONI匚infunriBti曲怕sow"能am恤ig□□魁^0切購(gòu)□ELECTRONI匚infunriBti曲怕sow"能am恤ig□理FORMATIONst口rag&retriMnlsystemsIIFOFF二TIO【i 七□DNF0莊MATIQN.s匚iEneNarrov/erTerms□跑就;E律triEMl□斟FORM!ATIONservit^|UJTER口ET霽目「匚hingRelatedTermsScopeNoteBroaderTermsHereareenteredgeneralv;orksonwarchingforandretrievingdatafromaninformationstoragestructure,faciJjty,orservice.Useonlyif7anarrowertermdoesnotappEy(e.g,r"Databasesearchingr"■'Electronicinformationresourcesearching/''Imager-etrievalr""Siformaticinsendees/1"Informationstorage81retrieval"or"Internetwerching'1).[EPC]|負(fù)MESSt°infcirmation□DXUhlERTATIO口(3)代碼檢索語(yǔ)言就事物的某一方面特征,用某種代碼系統(tǒng)來(lái)加以標(biāo)引和排列,目前主要應(yīng)用于化學(xué)領(lǐng)域。例如。化合物的分子式索引系統(tǒng)、環(huán)狀化合物的環(huán)系索引系統(tǒng)等。3人工語(yǔ)言與自然語(yǔ)言的關(guān)系與自然語(yǔ)言相比較,人工語(yǔ)言的檢索效率要高于自然語(yǔ)言,查全率和差準(zhǔn)率都比較高,但人工語(yǔ)言是基于印刷性資源產(chǎn)生的,對(duì)標(biāo)引和檢索來(lái)說(shuō),標(biāo)引工作量大,需要不斷維護(hù),管理成本高,用戶也不易掌握。因此,在數(shù)字資源飛速發(fā)展的今天,僅使用人工語(yǔ)言是遠(yuǎn)遠(yuǎn)不夠的。自然語(yǔ)言由于主要由系統(tǒng)自動(dòng)標(biāo)引完成,靈活、新穎、檢索入口多、專

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論