計算機網(wǎng)絡(luò)畢業(yè)論文網(wǎng)絡(luò)信息分類系統(tǒng)的詞匯控制_第1頁
計算機網(wǎng)絡(luò)畢業(yè)論文網(wǎng)絡(luò)信息分類系統(tǒng)的詞匯控制_第2頁
計算機網(wǎng)絡(luò)畢業(yè)論文網(wǎng)絡(luò)信息分類系統(tǒng)的詞匯控制_第3頁
計算機網(wǎng)絡(luò)畢業(yè)論文網(wǎng)絡(luò)信息分類系統(tǒng)的詞匯控制_第4頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、網(wǎng)絡(luò)信息分類系統(tǒng)的詞匯控制所謂詞匯控制,是指根據(jù)信息資源標(biāo)引和檢索的需要,對自然語言中的詞匯進(jìn)行選擇、規(guī)范并揭示其相關(guān)性的過程。自然語言作為一種人際交流和思維的工具,其詞匯具有使用靈活、表達(dá)性強等特點,但相對檢索要求來說,含義不夠精確,缺乏明確的結(jié)構(gòu),詞匯量也過大。因此,必須根據(jù)檢索系統(tǒng)要求,對詞匯進(jìn)行選擇和處理。適度的詞匯控制對于建立一個高效的信息組織和檢索系統(tǒng)是十分必要的。 分類系統(tǒng)對詞匯的控制主要包括:同義控制、詞義控制和詞間關(guān)系控制三個方面 1 ,本文主要圍繞這三個方面進(jìn)行討論研究。1 傳統(tǒng)分類法詞匯控制傳統(tǒng)分類法的構(gòu)成原理中,詞匯控制是一個重要的方面。1.1同義控制即對字面形式不同、

2、涵義相同的詞進(jìn)行控制,使一個概念只用一個語詞表達(dá),目的是克服自然語言中的一義多詞現(xiàn)象。 分類法對詞匯的同義控制主要體現(xiàn)在類名的選擇上。類名即類目的名稱,規(guī)定著類目的含義和內(nèi)容范圍。當(dāng)遇到一義多詞情況時,傳統(tǒng)分類法的選詞原則一般是:采用能準(zhǔn)確反映其含義且比較通行的科學(xué)名詞,而不選擇其俗稱、舊稱、不能準(zhǔn)確表達(dá)全稱原義的簡稱、不通行的譯名或近義詞等2 。如有必要,也可將這些落選的同義詞、近義詞用括號加注于類名后,或設(shè)置交替類目、用代參照。1.2詞義控制即對同形異義詞和語義含糊的詞進(jìn)行控制,使得詞義明確,一個詞語只表示一個概念,克服自然語言中的一詞多義現(xiàn)象。傳統(tǒng)分類法主要通過類目注釋來對詞義進(jìn)行控制。

3、類目注釋有多種類型,包括內(nèi)容注釋、關(guān)系注釋、編列方法注釋、分類方法注釋、沿革注釋等。一般在類目內(nèi)容注釋中作詞義控制,對類目的涵義加以說明,或?qū)︻惸康膬?nèi)容范圍加以區(qū)分,指示某類包含與不包含的內(nèi)容。如中圖法第四版類目“ tb47 工業(yè)設(shè)計”的注釋:“工業(yè)設(shè)計是工程技術(shù)與美學(xué)藝術(shù)相結(jié)合的新學(xué)科”。1.3詞間關(guān)系控制指揭示詞匯之間的各種聯(lián)系使其成為一個語義相關(guān)的系統(tǒng),目的是用以滿足擴(kuò)檢、縮檢、改變檢索方向等的需要。詞匯之間的聯(lián)系,主要包括等同、等級、相關(guān)三種基本類型。 由于傳統(tǒng)分類法以分類標(biāo)記作為概念標(biāo)識,將系統(tǒng)展開的類目體系作為主要檢索途徑,因此,詞間關(guān)系控制成為其詞匯控制的中心。分類系統(tǒng)主要采用系

4、統(tǒng)方式展開,通過層層劃分,構(gòu)成其具有隸屬、并列關(guān)系的秩序井然的概念等級體系。將主題之間從屬、并列、相關(guān)等聯(lián)系加以系統(tǒng)展示,同時將類目之間的參照作為揭示類目之間橫向聯(lián)系的一種補充手段。類目參照一般用于內(nèi)容聯(lián)系具有揭示價值、但在分類體系中被分散了的類目之間,通常采用互逆的方式在相關(guān)門類下注明。2 網(wǎng)絡(luò)分類系統(tǒng)詞匯控制現(xiàn)狀以下從同義控制、詞義控制及詞間關(guān)系控制三個方面來對網(wǎng)絡(luò)分類系統(tǒng)詞匯控制的現(xiàn)狀與傳統(tǒng)分類法進(jìn)行對比分析。2.1同義控制在類目名稱上,傳統(tǒng)分類法的類名力求科學(xué)、準(zhǔn)確、規(guī)范,而網(wǎng)絡(luò)分類法在類名選擇上更注意面向各類網(wǎng)絡(luò)用戶,力求通俗易懂、時新,類名也更為簡練。因此,導(dǎo)致類名不規(guī)范的現(xiàn)象在各

5、網(wǎng)絡(luò)分類系統(tǒng)尤其是在其三級及以下類目中普遍存在,成為詞匯控制中一個突出的問題 3 。如雅虎中國的一個三級類目名“親子”,搜狐的一個三級類目名“拓展”。至于落選的同義詞,一般不建立用代參照或設(shè)置交替類目,但可作為入口詞。如在提供類目索引的雅虎中國中,在檢索框中輸入“腳踏車”,檢索結(jié)果會將你指引向“自行車”4 。2.2詞義控制網(wǎng)絡(luò)分類系統(tǒng)中,也普遍存在類名用語模糊導(dǎo)致難以判斷其外延的現(xiàn)象。傳統(tǒng)分類法中的詞義控制手段如含義注釋和范圍注釋也很少采用,一般只在一級大類下有選擇地列舉重點或熱點下位類來幫助明確其類名含義。如yahoo!中,在一級大類“ business & economy ”下列出部分一級

6、類“ b2b,finance,shopping,jobs”5 ;在一級大類“ business ”下列出部分二級類“estate,investinn”6 。open directory jobs,real中,2.3詞間關(guān)系控制與傳統(tǒng)分類法一樣,等級式類目體系也是網(wǎng)絡(luò)分類法進(jìn)行詞間關(guān)系控制的主要手段。傳統(tǒng)分類法基本上是采用線性形式揭示類目之間聯(lián)系的,這是文獻(xiàn)組織的需要和傳統(tǒng)檢索環(huán)境的特點所決定的。計算機的使用,特別是超文本技術(shù)的使用改變了這一狀況。超文本技術(shù)的特點是,可以通過節(jié)點之間的鏈接,以非線性的方式充分揭示和表達(dá)信息之間的聯(lián)系。這一特點極大地改進(jìn)了網(wǎng)絡(luò)分類法中類目之間各種關(guān)系的揭示,尤其是

7、多維關(guān)系的揭示。這是超文本技術(shù)的強項,也是傳統(tǒng)分類法中的一個薄弱環(huán)節(jié)。目前,網(wǎng)絡(luò)分類體系中對多維關(guān)系的揭示比較充分,一般均通過鏈接的方式,在相應(yīng)類下重復(fù)反映。但如在處理過程中缺乏一致性及對應(yīng)用范圍的適度控制,也會造成類目關(guān)系的混亂。此外,單一的重復(fù)反映并不能簡單代替相關(guān)關(guān)系的揭示 7 。 在從屬、并列關(guān)系的揭示上,網(wǎng)絡(luò)分類系統(tǒng)目前也存在一些問題,如類目歸屬存在著不合理現(xiàn)象,同位類排列不能揭示類間關(guān)系等。3 網(wǎng)絡(luò)分類系統(tǒng)詞匯控制改進(jìn)策略網(wǎng)絡(luò)分類目錄是因特網(wǎng)上用戶常用的兩種信息檢索工具之一,對網(wǎng)上海量的混雜無序的信息起著重要的導(dǎo)航作用。網(wǎng)絡(luò)分類系統(tǒng)詞匯控制的根本目的是提高檢索效率,因此,筆者認(rèn)為網(wǎng)絡(luò)分類系統(tǒng)的所有詞匯控制改進(jìn)策略都應(yīng)以提高檢索效率為前提。3.1繼續(xù)保持自然語言的主體檢索語言地位目前,在大多數(shù)信息存儲與檢索系統(tǒng)中,自然語言和人工受控語言處于并存狀態(tài),相互取長補短。隨著internet的普及發(fā)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論