




版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、網(wǎng)絡(luò)環(huán)境下新型漢語主題詞表的功能定位與發(fā)展曾建勛/常春2012-9-29 20:35:04來源:情報(bào)學(xué)報(bào)(京)2010年6期【英文標(biāo)題】Function Orientation and Development of New Edition of Chinese Thesaurus under Network Environment【作者簡介】曾建勛,男,1965年生,研究館員,武漢大學(xué)博士研究生,主要研究方向:知識鏈接與知識組織。E-mail:。武漢大學(xué)信息管理學(xué)院,武漢;中國科學(xué)技術(shù)信息研究所,北京常春,男,1966年生,博士,研究館員,主要研究方向:信息組織。
2、中國科學(xué)技術(shù)信息研究所,北京【內(nèi)容提要】網(wǎng)絡(luò)環(huán)境下,從信息服務(wù)向知識服務(wù)轉(zhuǎn)型過程中,對敘詞表的編制、使用及其作用的發(fā)揮提出了更高的要求。作為我國第一部大型綜合性敘詞表,網(wǎng)絡(luò)環(huán)境下的新型漢語主題詞表,其在表現(xiàn)形態(tài)、編制方式、功能定位和應(yīng)用方式上都將發(fā)生根本性的變化。作者基于對網(wǎng)絡(luò)時(shí)代敘詞表編制的探索性實(shí)踐,分析了網(wǎng)絡(luò)環(huán)境下新型漢語主題詞表的形態(tài)特征,提出了漢語主題詞表在網(wǎng)絡(luò)環(huán)境下編制和維護(hù)方式,并對其功能定位進(jìn)行了探索展望。Chinese Thesaurus is the first large-scale comprehensive thesaurus. Emergence of digita
3、l network environment has posed higher requirements on its construction, use and role. In the new information environment, new edition of Chinese Thesaurus is quite different from the old one in terms of presentation, construction methods, function orientation and application way. Institute of Scien
4、tific and Technical Information of China has made a lot explorations on how to construct thesaurus within networked environment, based on which characteristics of new Chinese Thesaurus were thoroughly analyzed, then its construction and maintenance ways within networked environment were proposed, an
5、d finally its function orientation was summarized.【關(guān) 鍵 詞】網(wǎng)絡(luò)環(huán)境/漢語主題詞表/功能定位Network environment; Chinese Thesaurus; Function orientation漢語主題詞表(以下簡稱漢表)是我國第一部大型綜合性敘詞表。1980年出版第一版,包括社會科學(xué)和自然科學(xué)部分1,1991年出版漢表(自然科學(xué)增訂本)。漢表是我國圖書情報(bào)界集體智慧的結(jié)晶,在我國圖書情報(bào)事業(yè)中發(fā)揮了重要作用,為此于1985年獲得國家科學(xué)技術(shù)進(jìn)步二等獎2。20世紀(jì)90年代,人類進(jìn)入網(wǎng)絡(luò)時(shí)代。在網(wǎng)絡(luò)環(huán)境下,信息存儲、加工、傳
6、播等發(fā)生顯著變化,具備了海量信息資源,擁有了突破時(shí)空限制的網(wǎng)絡(luò)技術(shù),用戶可以自由參與信息資源組織,由此,敘詞表的編制方法、應(yīng)用方式甚至表現(xiàn)形態(tài)等也發(fā)生了相應(yīng)的變化。在這種背景下,中國科學(xué)技術(shù)信息研究所近年來組織全國的情報(bào)檢索語言專家,對漢表的修訂工作進(jìn)行了多次咨詢和論證,于2009年正式啟動漢表在網(wǎng)絡(luò)環(huán)境下的修訂改造工作。這項(xiàng)工作將以漢表(工程技術(shù)版)為起點(diǎn),目前已經(jīng)完成編制方法的前期論證,編制規(guī)則制定、編制平臺研制、基礎(chǔ)詞庫建設(shè)、范疇類目修訂等相關(guān)工作正全面展開。網(wǎng)絡(luò)環(huán)境下,新型漢表的表現(xiàn)形態(tài)、編制維護(hù)方式和功能定位都將發(fā)生深刻的變化,漢表將隨著時(shí)代的發(fā)展而創(chuàng)新3。1 網(wǎng)絡(luò)環(huán)境下新型漢語主題
7、詞表的形態(tài)特征1.1系列詞匯概念集成的知識組織系統(tǒng)網(wǎng)絡(luò)環(huán)境下,新型漢表的總體形態(tài)特征將從一個(gè)包含敘詞和非敘詞的單一詞表,轉(zhuǎn)變?yōu)榘ɑA(chǔ)詞庫、核心詞庫、敘詞詞庫等在內(nèi)的知識組織系統(tǒng),包涵詞匯、術(shù)語、概念和實(shí)例數(shù)據(jù)庫。目前我們正在開展的相關(guān)工作包括:漢表基礎(chǔ)詞庫建設(shè)、專業(yè)核心候選詞庫建設(shè)、詞匯空間向概念空間的映射、詞間關(guān)系的自動構(gòu)建等。修訂改造的漢表,其表現(xiàn)形態(tài)將不再是10個(gè)分冊的紙質(zhì)版本,而是包含分類、主題和概念等不同語義級別的一系列詞匯和概念數(shù)據(jù)庫的集成知識組織系統(tǒng)。它有著以下的特點(diǎn):不再控制概念術(shù)語的數(shù)量,而是盡可能找全所有的專業(yè)術(shù)語。給出這些術(shù)語之間盡量多的詞間關(guān)系:不必刻意區(qū)分?jǐn)⒃~和非敘
8、詞,盡量窮盡所有的同義詞關(guān)系;通過計(jì)算機(jī)聚類和關(guān)聯(lián)分析盡量獲得相關(guān)關(guān)系。集中于如何抽取完整范圍的概念術(shù)語,以及全面的概念關(guān)系。在詞表詞匯組成方面,將從過去10萬個(gè)左右概念詞匯組成的單一詞表,轉(zhuǎn)變?yōu)閷淼膹幕A(chǔ)詞庫、核心詞庫、到敘詞庫,從百萬級到十萬級詞匯數(shù)量的一套詞匯概念知識體系。新型漢表還將包括系列實(shí)例知識數(shù)據(jù)庫,例如時(shí)間、空間、機(jī)構(gòu)、國家等通用實(shí)體知識數(shù)據(jù)庫,地理名稱、化學(xué)名稱、部件組成等專業(yè)實(shí)體知識庫,并涵蓋專有名詞實(shí)例數(shù)據(jù)。1.2呈立體結(jié)構(gòu)的概念語義網(wǎng)絡(luò)傳統(tǒng)敘詞表呈現(xiàn)出的是一種樹狀結(jié)構(gòu),它對知識采用從總到分,層層推進(jìn)的方式展開,有著很強(qiáng)的系統(tǒng)性。為了便于文獻(xiàn)標(biāo)引,傳統(tǒng)敘詞表一般將主題詞
9、平行分布在多個(gè)樹狀結(jié)構(gòu)內(nèi)。但是,在網(wǎng)絡(luò)環(huán)境下,各種信息技術(shù)手段的應(yīng)用,可以克服復(fù)雜的詞間關(guān)系在傳統(tǒng)的紙質(zhì)顯示中受空間因素制約的不足,以立體的方式展現(xiàn)分布在多個(gè)樹狀結(jié)構(gòu)中的敘詞,使整個(gè)概念體系呈現(xiàn)出立體網(wǎng)狀結(jié)構(gòu)。類似于語義網(wǎng)絡(luò)的概念圖,將某一領(lǐng)域內(nèi)的知識元素按其內(nèi)在關(guān)聯(lián)屬性,以可視化的形式展現(xiàn),揭示知識結(jié)構(gòu)及其細(xì)節(jié)變化。同時(shí)也為每個(gè)敘詞設(shè)置了超鏈接,從而揭示立體網(wǎng)狀結(jié)構(gòu)中的不同節(jié)點(diǎn)之間的關(guān)聯(lián)關(guān)系。1.3機(jī)器可讀的概念知識關(guān)系體系網(wǎng)絡(luò)環(huán)境下新型漢表將是機(jī)器可讀和可理解、表達(dá)適度概念關(guān)系的知識組織體系。傳統(tǒng)敘詞表主要通過人工標(biāo)引和檢索發(fā)揮作用,語義關(guān)系的制定和使用也由人工完成。在網(wǎng)絡(luò)環(huán)境下,新型漢表
10、的主要使用方式將轉(zhuǎn)入系統(tǒng)后臺,通過機(jī)器直接閱讀敘詞表的語義關(guān)系,用于機(jī)器標(biāo)引和智能推理與檢索。目前實(shí)現(xiàn)了基于XML數(shù)據(jù)格式,使用RDF或者OWL機(jī)器語言表達(dá)詞表概念關(guān)系4。用戶或系統(tǒng)管理者可以根據(jù)使用目的不同進(jìn)行相應(yīng)定制,達(dá)到最佳使用效果。概念關(guān)系將在傳統(tǒng)的等同關(guān)系、等級關(guān)系和相關(guān)關(guān)系基礎(chǔ)上,向簡約和細(xì)化兩個(gè)方向發(fā)展,構(gòu)成由簡到繁的知識地圖,甚至達(dá)到初級本體級別的語義關(guān)系。1.4基于用戶檢索和文獻(xiàn)語料的專業(yè)知識組織工具網(wǎng)絡(luò)環(huán)境下新型漢表,其詞匯來源將充分考慮用戶檢索用詞和文獻(xiàn)主題的準(zhǔn)確表達(dá),實(shí)現(xiàn)敘詞表詞庫與用戶檢索用詞最大限度的一致。目前的大型網(wǎng)絡(luò)數(shù)據(jù)庫,如萬方、維普等,為我們實(shí)現(xiàn)這樣的目標(biāo)提
11、供了可能。首先通過用戶對這些數(shù)據(jù)庫的檢索日志,來獲取用戶檢索用詞,并根據(jù)用戶專業(yè)等信息對這些檢索詞進(jìn)行標(biāo)準(zhǔn)化清洗,可獲得符合敘詞表標(biāo)準(zhǔn)的規(guī)范化詞匯。繼而通過詞頻統(tǒng)計(jì)和聚類等信息技術(shù),使用加權(quán)等選擇手段,從海量專業(yè)文獻(xiàn)中,選出敘詞表的系列概念詞匯。綜合用戶檢索詞和文獻(xiàn)語料庫詞匯信息,最終得到敘詞表系列數(shù)據(jù)庫詞匯系統(tǒng),具備用戶依據(jù)和文獻(xiàn)依據(jù),為新型漢表的有效利用奠定堅(jiān)實(shí)的基礎(chǔ)5。1.5用戶參與編制維護(hù)的知識表達(dá)工具網(wǎng)絡(luò)環(huán)境下新型漢表,無論是其編制還是其維護(hù)過程,都將充分發(fā)揮用戶的積極性,都將在用戶的全力參與下完成。沒有時(shí)空限制的網(wǎng)絡(luò)環(huán)境,為用戶參與敘詞表的編制提供了可能:通過在線的敘詞表編制平臺,
12、在專業(yè)概念分類、重點(diǎn)概念建議、詞間關(guān)系建立等多個(gè)方面,用戶可以與敘詞表編制人員或組織進(jìn)行互動,隨時(shí)修改和完善敘詞表的編制。在維護(hù)方面,更能體現(xiàn)用戶的參與作用,雖然新型漢表的直接應(yīng)用是通過機(jī)器實(shí)現(xiàn)的,但最終還是為用戶服務(wù),用戶在使用過程中,可以根據(jù)自己的領(lǐng)域知識在線參與修訂和維護(hù)敘詞表,充分體現(xiàn)用戶的需求,發(fā)揮用戶的積極作用。1.6智能化和可視化應(yīng)用的系統(tǒng)網(wǎng)絡(luò)環(huán)境下新型漢表將提供更多人性化的應(yīng)用方式。系統(tǒng)具備默認(rèn)的智能檢索方式,用戶無須查閱瀏覽敘詞表的概念知識體系,敘詞表在后臺系統(tǒng)中直接運(yùn)行默認(rèn)的詞表應(yīng)用,發(fā)揮敘詞表的查全查準(zhǔn)功能;此外,用戶檢索過程的不同階段都會有敘詞表的智能參與,如在用戶輸入
13、檢索詞過程中,檢索系統(tǒng)依據(jù)敘詞表的詞匯數(shù)據(jù)庫和概念語義關(guān)系,自動提供適合用戶專業(yè)背景的概念詞匯。同時(shí),還具備可視化特征,在用戶需要的時(shí)候,可通過合適的圖像或者多媒體的方式將敘詞表的概念關(guān)系形象直觀地層示給用戶,更利于用戶的學(xué)習(xí)使用,也利于知識的傳播,以區(qū)別于傳統(tǒng)敘詞表的不同應(yīng)用方式。1.7動態(tài)變化的專業(yè)知識體系更新工具修訂改造后的新型漢表是以系列詞匯概念數(shù)據(jù)庫為基本成分,學(xué)科分類相對集中的立體網(wǎng)狀知識體系。詞匯、概念系統(tǒng)具有縱橫動態(tài)更新變化的特點(diǎn)??v向變化表現(xiàn)為:基礎(chǔ)詞庫的自由詞始終處于動態(tài)更新中,專業(yè)核心詞庫隨時(shí)間變化相對穩(wěn)定,敘詞詞庫相對固定。橫向變化表現(xiàn)為:可以根據(jù)信息管理與專業(yè)領(lǐng)域的需
14、要,分解或從中提取任何一個(gè)專業(yè)領(lǐng)域的專業(yè)敘詞表,如基于基礎(chǔ)詞庫、核心詞庫、范疇分類等信息,構(gòu)建農(nóng)業(yè)科學(xué)敘詞表、建筑科學(xué)敘詞表等。新型漢表詞匯數(shù)據(jù)庫系統(tǒng),將具備機(jī)器可識別的專業(yè)核心概念、專業(yè)通用概念和通用概念等,概念關(guān)系在專業(yè)領(lǐng)域內(nèi)相對集中,在領(lǐng)域間互聯(lián)互通,可以根據(jù)信息組織需求,自動生成不同專業(yè)的敘詞表。2 網(wǎng)絡(luò)環(huán)境下新型漢語主題詞表的編制和維護(hù)2.1基于海量數(shù)據(jù)資源選用概念術(shù)語過去,敘詞表概念術(shù)語的選擇主要由領(lǐng)域?qū)<胰斯ご_定,雖然也要考慮文獻(xiàn)覆蓋、使用詞頻等因素,但當(dāng)時(shí)計(jì)算機(jī)應(yīng)用普及程度低,無法獲取海量的信息語料,造成在實(shí)際操作中無法準(zhǔn)確地獲取文獻(xiàn)覆蓋、術(shù)語詞頻等數(shù)據(jù),所以往往是領(lǐng)域?qū)<覜Q定
15、術(shù)語的選取數(shù)量和具體詞匯,由于人為因素占的比例大,很容易出現(xiàn)同一領(lǐng)域不同專家選用的術(shù)語不一致,導(dǎo)致敘詞表的應(yīng)用存在偏差和阻力。在數(shù)字化網(wǎng)絡(luò)化的信息環(huán)境下,我們已經(jīng)具備萬方數(shù)據(jù)、重慶維普、CNKI等這樣的大型文獻(xiàn)語料庫,已經(jīng)具備類似谷歌和百度等可以搜索因特網(wǎng)上主要信息的網(wǎng)絡(luò)搜索引擎,同時(shí),還可以通過日志獲取用戶使用檢索詞匯的種類和頻次5。所有這些語料,為敘詞表編制中基于概念覆蓋、基于詞頻統(tǒng)計(jì)、基于用戶使用的關(guān)鍵詞來選取規(guī)范的概念術(shù)語奠定了基礎(chǔ),為概念術(shù)語的選取提供了數(shù)據(jù)支持和科學(xué)依據(jù)。2.2基于知識關(guān)聯(lián)獲取詞間關(guān)系傳統(tǒng)敘詞表的詞間關(guān)系建立,同樣也是由領(lǐng)域?qū)<医⒉⒋_定的。由于專家領(lǐng)域知識的個(gè)體差
16、異和對敘詞表的不同理解,造成他們提供的詞間關(guān)系不一定適合專業(yè)敘詞表詞間關(guān)系的正確表達(dá),詞間關(guān)系以領(lǐng)域?qū)<伊D反映領(lǐng)域知識結(jié)構(gòu)為主,體現(xiàn)文獻(xiàn)知識真正關(guān)聯(lián)度有一定差異,這樣,不利于相關(guān)文獻(xiàn)的擴(kuò)檢。在網(wǎng)絡(luò)環(huán)境下,敘詞表詞間關(guān)系的建立,同樣可以利用海量的語料。以萬方數(shù)據(jù)和重慶維普的數(shù)據(jù)為例,在選定了某一領(lǐng)域一定數(shù)量的概念術(shù)語以后,將這些術(shù)語兩兩組合,統(tǒng)計(jì)在專業(yè)文獻(xiàn)的標(biāo)題、關(guān)鍵詞或文摘語料庫中的共現(xiàn)頻率6,通過術(shù)語前方一致、后方一致等語言處理7,還可以通過垂直搜索統(tǒng)計(jì)網(wǎng)絡(luò)專業(yè)信息中的共現(xiàn)頻次、共篇、同引、耦合等多種方法和手段,來確定詞間關(guān)系,也從建立詞間關(guān)系的源頭上保證了通過敘詞表可以實(shí)現(xiàn)相關(guān)知識文獻(xiàn)的
17、準(zhǔn)確獲取。2.3基于多表映射的集成融合漢表的建設(shè)帶動了我國眾多專業(yè)詞表的建設(shè)。網(wǎng)絡(luò)環(huán)境下新型漢表的建設(shè),需要對相關(guān)知識組織體系進(jìn)行轉(zhuǎn)化、映射或融合,一方面從技術(shù)角度達(dá)到互操作等知識共享應(yīng)用目的,另一方面不同程度地吸收相關(guān)詞表的詞匯概念及其詞間關(guān)系。根據(jù)知識本體、語義網(wǎng)絡(luò)的設(shè)計(jì)思想,建立語義類型(較寬泛的主題類目)與語義關(guān)系(術(shù)語概念間關(guān)系)相結(jié)合的基礎(chǔ)構(gòu)架,對傳統(tǒng)分類法、敘詞表、標(biāo)題表、術(shù)語詞典等進(jìn)行結(jié)構(gòu)改造和兼容;基于不同知識組織系統(tǒng)自身體系結(jié)構(gòu)建立映射,在不同的受控詞表之間或詞表與分類號之間建立等同詞聯(lián)系;或者根據(jù)同一元數(shù)據(jù)或編目記錄中同時(shí)出現(xiàn)的來自不同體系的術(shù)語建立鏈接關(guān)系,將詞匯與其他
18、詞匯根據(jù)語義關(guān)系,而不只是概念的等價(jià)性鏈接起來;利用各種語義工具、專家系統(tǒng)等建立起概念、術(shù)語間錯綜復(fù)雜的關(guān)系,使計(jì)算機(jī)系統(tǒng)理解用戶的檢索請求,幫助用戶實(shí)現(xiàn)語義檢索和知識挖掘。2.4基于網(wǎng)絡(luò)平臺的協(xié)同工作網(wǎng)絡(luò)時(shí)代新型漢表使用標(biāo)準(zhǔn)的數(shù)據(jù)格式,例如SKOS的數(shù)據(jù)格式8,或者使用OWL格式9,將有利于不同系統(tǒng)、不同操作平臺的數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)利用。這些語言都與具體的系統(tǒng)分離,可以單獨(dú)表達(dá)詞匯概念及詞間關(guān)系。機(jī)器可以理解其中的知識結(jié)構(gòu)和知識體系。在敘詞表的編制中,可以編制網(wǎng)絡(luò)可視化系統(tǒng),清晰表達(dá)各類知識結(jié)構(gòu)層次關(guān)系。在編制方面,系統(tǒng)支持不同地域的敘詞表編制者同時(shí)在一個(gè)網(wǎng)絡(luò)平臺上工作。不同編制者上傳的數(shù)據(jù)和詞
19、間關(guān)系,既可以保留編制者的數(shù)據(jù)信息,也可以展示所有編制者共同工作的集成成果,而且主要編制工作過程也在網(wǎng)上實(shí)現(xiàn)可視化,通過圖形清晰表達(dá)概念及詞間關(guān)系,通過拖動、鏈接、合并等界面簡單操作,隨時(shí)提出概念及詞間關(guān)系的建立或修改建議,其他編制者也可以在網(wǎng)上同步顯示相應(yīng)的工作過程及結(jié)果。同時(shí),還可以進(jìn)行概念邏輯關(guān)系的自動校驗(yàn)和修正,提升漢表的編制效率和質(zhì)量。2.5基于用戶體驗(yàn)的網(wǎng)絡(luò)維護(hù)網(wǎng)絡(luò)時(shí)代新型漢表的維護(hù)是其發(fā)展的生命源泉。在敘詞表編制理念的基礎(chǔ)上進(jìn)行詞及詞間關(guān)系的維護(hù),無論是新詞的選用、還是現(xiàn)有術(shù)語的更新,都需要建立相應(yīng)的更新機(jī)制,以推進(jìn)敘詞表的維護(hù)工作走向可持續(xù)化軌道。新型漢表的最終目的是為用戶服務(wù)
20、,因此,其維護(hù)更新和發(fā)展需要建立基于用戶體驗(yàn)的網(wǎng)絡(luò)化服務(wù)維護(hù)平臺。在網(wǎng)絡(luò)維護(hù)中,可利用Web 2.0技術(shù)中的社會標(biāo)記法(social tagging)10和自由分類法(folksonomy)的類似方法來改進(jìn)詞表的升級維護(hù)工作11,采集用戶在使用漢表時(shí)動態(tài)產(chǎn)生的修改意見;使用一些標(biāo)準(zhǔn)化自動工具發(fā)現(xiàn)新詞和詞間關(guān)系;設(shè)置公共討論區(qū),讓網(wǎng)絡(luò)用戶或?qū)I(yè)標(biāo)引人員,便利地在網(wǎng)上提出新增概念術(shù)語和相應(yīng)的詞間關(guān)系,或者上傳對現(xiàn)有術(shù)語的修訂意見。詞表維護(hù)人員既可以將修訂內(nèi)容分發(fā)給不同的編制者共同討論,也可以將修訂內(nèi)容在總體詞表環(huán)境下進(jìn)行顯示和檢查,理順新的詞間關(guān)系,核實(shí)所有互逆概念,剔除或調(diào)整已有的相同或相近概念
21、,使?jié)h表的維護(hù)制度化,保證漢表的可持續(xù)發(fā)展。3 網(wǎng)絡(luò)環(huán)境下新型漢語主題詞表的功能定位3.1知識揭示功能無論是傳統(tǒng)的信息組織工作,還是網(wǎng)絡(luò)環(huán)境下的知識組織實(shí)踐,都離不開信息描述和知識揭示。只有通過對文獻(xiàn)資源有效知識點(diǎn)的準(zhǔn)確信息描述,才能真正揭示知識,提供信息檢索和知識鏈接等服務(wù)。利用新型漢表建立知識庫的自動分類系統(tǒng),進(jìn)行基于統(tǒng)計(jì)分類與機(jī)器學(xué)習(xí)技術(shù)的文獻(xiàn)標(biāo)引,對海量科技文獻(xiàn)資源中的知識點(diǎn),如科技術(shù)語、內(nèi)容主題和相關(guān)科研對象等,進(jìn)行自動標(biāo)注,實(shí)現(xiàn)科技文獻(xiàn)有效組織、知識揭示和知識化關(guān)聯(lián),實(shí)現(xiàn)“分類號(類目詞)主題詞關(guān)鍵詞”的一體化應(yīng)用,達(dá)到自然語言到檢索語言的規(guī)范控制,可以提高查全率和查準(zhǔn)率,提升檢索
22、效率。3.2學(xué)科導(dǎo)航應(yīng)用在網(wǎng)絡(luò)環(huán)境下,通過信息獲取平臺系統(tǒng),用戶可以非常便利地使用主題和分類兩種方法獲取信息。修訂改造后的新型漢表,將會建成主題分類一體化敘詞表,用戶如果習(xí)慣從學(xué)科分類入口瀏覽查詢相關(guān)信息,則可以選擇范疇分類信息,從學(xué)科知識的頂層,逐層向下瀏覽,直到獲得自己需要的類目以及相應(yīng)的信息;用戶也可以通過敘詞表可視化技術(shù),瀏覽新型漢表詞族知識概念體系,推薦的概念知識體系,直接瀏覽檢索需要的信息。3.3智能檢索應(yīng)用網(wǎng)絡(luò)用戶的主要活動是檢索信息,通過網(wǎng)絡(luò)獲取信息已經(jīng)成為普通網(wǎng)絡(luò)用戶的常規(guī)方法。經(jīng)過修訂改造后的新型漢表,同時(shí)具備了分類表、敘詞表和本體的共同屬性,能夠?qū)崿F(xiàn)不同顆粒度的智能查詢與
23、檢索功能,可以是分類水平上的范疇類目體系的批量文獻(xiàn)信息獲取,也可以是主題詞匯概念級別的擴(kuò)檢與縮檢,甚至是知識本體意義上的概念關(guān)系級別智能推理檢索和語義相似度聚類,結(jié)合其他詞表映射融合等多種不同方法,實(shí)現(xiàn)不同目的和條件下的智能檢索。3.4知識學(xué)習(xí)應(yīng)用網(wǎng)絡(luò)環(huán)境下新型漢表將是領(lǐng)域?qū)<遗c在線用戶知識體系的最新成果。敘詞表本身就是領(lǐng)域知識的結(jié)晶,經(jīng)過向范疇分類、向概念關(guān)系細(xì)化、向定義注釋等多個(gè)方向發(fā)展,它甚至可以具備網(wǎng)絡(luò)百科的功能,成為網(wǎng)絡(luò)用戶日常工作中的必備知識工具。對知識管理機(jī)構(gòu)來說,可以利用可視化等多種信息技術(shù),將敘詞表用于研制開發(fā)智能知識機(jī)器人、甚至知識博物館等未來產(chǎn)品。從漢語規(guī)范化角度出發(fā),新
24、型敘詞表也是用戶查找和檢索規(guī)范專業(yè)詞匯、基礎(chǔ)詞匯和通用詞匯的常用工具,具備著詞典的功能。3.5文本信息處理應(yīng)用網(wǎng)絡(luò)環(huán)境下新型漢表由一系列詞匯庫組成,可根據(jù)不同目的,用于切詞、信息抽取、聚類、詞頻統(tǒng)計(jì)、情感分析等所有文本信息處理基礎(chǔ)工作,成為計(jì)算語言學(xué)的重要研究和應(yīng)用工具。反過來,文本語言處理技術(shù)的改進(jìn)又可以促進(jìn)敘詞表的維護(hù)和應(yīng)用。文本信息處理應(yīng)用還包括:在跨語言檢索和機(jī)器翻譯等方面的應(yīng)用;通過新型漢表的英漢雙語對照,實(shí)現(xiàn)英漢雙語檢索功能等。利用新型漢表詞匯的系列英漢對應(yīng)詞庫及詞間關(guān)系,也可以為英漢機(jī)器翻譯系統(tǒng)的開發(fā)提供基礎(chǔ)語料,提高機(jī)器翻譯的準(zhǔn)確性。利用新型漢表的詞匯、術(shù)語、概念等語料詞匯系統(tǒng)
25、,還可以開展研究熱點(diǎn)領(lǐng)域監(jiān)測、專業(yè)知識挖掘、領(lǐng)域知識聚類等計(jì)算語言學(xué)相關(guān)的系列應(yīng)用。4 結(jié)語歷史上的漢表在我國圖書情報(bào)界具有重大影響,是當(dāng)時(shí)信息組織與檢索的重要基礎(chǔ)工具。在網(wǎng)絡(luò)時(shí)代,修訂改造后的新型漢表將朝著數(shù)字化與網(wǎng)絡(luò)化、語義化、標(biāo)準(zhǔn)化、互操作化和可視化等方向發(fā)展。隨著時(shí)代的變遷,傳統(tǒng)漢表的應(yīng)用將成為經(jīng)典的方式,新型漢表的建設(shè)探索,將變成普及和主流的應(yīng)用。新型漢表將吸收不同知識組織體系的優(yōu)點(diǎn),在機(jī)器語言表達(dá)和概念關(guān)系細(xì)化等方面進(jìn)行改造,通過計(jì)算機(jī)化表達(dá)基于海量的數(shù)字信息數(shù)據(jù),更好地層現(xiàn)人類已經(jīng)獲得的領(lǐng)域知識;通過計(jì)算機(jī)的邏輯計(jì)算和推理,自動或半自動獲取概念以及概念關(guān)系,并邀請領(lǐng)域?qū)<覍ο嚓P(guān)知識進(jìn)行認(rèn)定和補(bǔ)充。從而,不斷發(fā)展和完善知識表達(dá),嵌入機(jī)器應(yīng)用,達(dá)到智能檢索、主題分類一體化和知識導(dǎo)航功能,同時(shí),概念關(guān)系和屬性實(shí)例將進(jìn)一步細(xì)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 企業(yè)員工招聘及培訓(xùn)合同
- 2025年元宇宙社交平臺虛擬現(xiàn)實(shí)社交平臺用戶增長與市場拓展報(bào)告
- 美麗的樹林350字13篇范文
- 走出校園作文500字簡短11篇范文
- 醫(yī)療設(shè)備進(jìn)銷存管理優(yōu)化服務(wù)合同
- 二零二五年度建筑工地安全管理與保安服務(wù)合同
- 二零二五年度茶園承包經(jīng)營與茶葉種植技術(shù)研發(fā)合同
- 2025版車隊(duì)加油與車輛救援服務(wù)合同
- 環(huán)保節(jié)能技術(shù)改造項(xiàng)目投資協(xié)議
- 二零二五版標(biāo)準(zhǔn)智能家居勞務(wù)分包合同模板(系統(tǒng)集成)
- 人教精通版五年級上學(xué)期Lesson25教學(xué)課件
- 魯教版九年級英語課文原文及翻譯Unit1
- 《工業(yè)固廢資源化技術(shù)及應(yīng)用》課程教學(xué)大綱
- 會計(jì)檔案案卷目錄
- [北京]輸變電工程標(biāo)準(zhǔn)工藝應(yīng)用圖冊(圖文并茂)
- 2020年雀巢公司北京總部十周年慶典暨雀巢家庭日活動策劃案ppt課件
- 潘通色卡電子版精品
- 1000MW機(jī)組鍋爐長伸縮式吹灰器檢修規(guī)程
- 清關(guān)發(fā)票裝箱單樣本
- 地下水八大離子-陰陽離子平衡計(jì)算公式
- 廣州人才綠卡申請表
評論
0/150
提交評論