數(shù)字環(huán)境下通用概念獲取方法_第1頁
數(shù)字環(huán)境下通用概念獲取方法_第2頁
數(shù)字環(huán)境下通用概念獲取方法_第3頁
數(shù)字環(huán)境下通用概念獲取方法_第4頁
數(shù)字環(huán)境下通用概念獲取方法_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

數(shù)字環(huán)境下通用概念獲取方法

[分類號]G254修回日期:2011-08-09概念的獲取與分類是知識組織體系構(gòu)建的重要工作。例如,敘詞表的選詞主要由普通名詞與專有名詞構(gòu)成[1],普通名詞主要包括具體事物名稱和抽象事物名稱,具體事物名稱例如“海洋”,抽象事物名稱例如“鑄造”;專有名詞通常為人名、地名、產(chǎn)品名等,例如“孫中山”。在本體構(gòu)建中,概念詞匯與實例詞匯也是本體構(gòu)建的主要成分[2-3],例如,可以用“城市”代表一個概念,而“北京市”則是一個實例。在所有這些概念詞匯的研究中,通用概念具有一定的特征和應(yīng)用價值,數(shù)量上也占有一定的份額。無論是綜合敘詞表,還是專業(yè)敘詞表,通常都有一個單獨的通用概念范疇,有的敘詞表命名為一般概念,有的敘詞表命名為通用詞,這些詞例如“研究”、“設(shè)計”、“應(yīng)用”等,是在不同專業(yè)都有應(yīng)用的泛指詞,在概念組配方面有重要價值[4]。在國內(nèi)圖書館學(xué)、情報學(xué)領(lǐng)域相關(guān)機構(gòu)及領(lǐng)域?qū)<业膮⑴c下,中國科學(xué)技術(shù)信息研究所2009年啟動了《漢語主題詞表》(工程技術(shù)版)的編制與修訂工作,通用概念的選詞與詞間關(guān)系的建立,是該項目的重要工作之一。1從傳統(tǒng)知識組織體系中繼承獲取1980年,《漢語主題詞表》(以下簡稱《漢表》)編制完成并出版,上世紀80年代至90年代,我國敘詞表的編制與應(yīng)用達到了巔峰時期,編制了上百部的綜合及專業(yè)性敘詞表[5]。人類知識總是在繼承中不斷發(fā)展的,這些敘詞表概念可以作為重要的原始語料或參考詞匯,經(jīng)過遴選直接納入候選詞庫,根據(jù)修訂和重新編制的原則,進行選詞、分類、建立詞間關(guān)系等敘詞表編制工作。原《漢表》通用概念分自然科學(xué)一般概念與社會科學(xué)一般概念[6-7]。自然科學(xué)一般概念的一級范疇號為92,下分為9個二級類目,其中92A是一般概念,例如機理、計算、結(jié)論、現(xiàn)狀等概念。其他二級類目包括92B形狀、尺寸,92C時間、方位等,共收集了475個通用概念。作為《漢表》修訂項目,這些詞在入選方面應(yīng)該占有較大的權(quán)重,甚至根據(jù)這些詞匯的統(tǒng)計數(shù)據(jù)屬性重新進行分類。例如,“計算”一詞,需要統(tǒng)計在各級大類中的詞頻情況,根據(jù)詞頻大小,確定是繼續(xù)放到通用概念下,還是放到O類(數(shù)理科學(xué)與化學(xué))或TP類(自動化技術(shù)、計算機技術(shù))。另外,還有大量的專業(yè)敘詞表,例如《農(nóng)業(yè)科學(xué)敘詞表》、《水利水電科技主題詞表》(以下簡稱《水表》)等[8],同樣有通用概念。《水表》一級范疇號20“通用詞”下設(shè)2個二級類目,20A為“復(fù)合通用詞”,例如“安全管理”、“分布規(guī)律”等;20B為“一般通用詞”,例如成分、利用、應(yīng)用等。2基于詞頻分布人工獲取通用概念首先觀察一個具體的例子,“設(shè)計”是一個公認的通用概念,以“設(shè)計”作為關(guān)鍵詞檢索萬方數(shù)據(jù)[9],在“工業(yè)技術(shù)”類文獻下,檢索結(jié)果如截圖1所示。圖1關(guān)鍵詞“設(shè)計”在工業(yè)技術(shù)類文獻中的詞頻分布從圖1可以看出,“設(shè)計”一詞作為關(guān)鍵詞,出現(xiàn)在所有工業(yè)技術(shù)下的二級類目中,而且詞頻數(shù)量巨大,對應(yīng)的文獻量巨大,有典型的通用概念特征。使用“水庫”一詞進行檢索,在“工業(yè)技術(shù)”類下檢索結(jié)果如截圖2所示。圖2關(guān)鍵詞“水庫”在工業(yè)技術(shù)類文獻中的詞頻分布從圖2可以看出,“水庫”一詞的詞頻特征也非常明顯,在“水利工程”類目中詞頻上萬次,而其他類目中詞頻都非常低,直觀感覺有顯著的差異。通過這樣的例子可以看出,“設(shè)計”是一個通用概念,“水庫”是一個屬于TV(水利工程)類的專業(yè)概念。雖然以上兩個例子簡單明了,但存在具體操作問題。在傳統(tǒng)的敘詞表編制中,概念的獲取主要通過領(lǐng)域?qū)<胰斯ぬ峁?,耗時長,過度依賴領(lǐng)域?qū)<覀€人隱性知識。雖然提供的概念本身是符合編制規(guī)范的,但不同人員可能會提供不同數(shù)量的概念,存在概念覆蓋面是否全面的問題。通過統(tǒng)計關(guān)鍵詞詞頻分布獲取通用概念,不僅工作量大,而且同樣存在閾值把握問題。例如,如果詞頻為漸變或等差數(shù)列式遞減,沒有顯著差異,則如何判斷?另外,關(guān)鍵詞詞頻與不同類目下文獻數(shù)量也有一定關(guān)系,假設(shè)萬方數(shù)據(jù)中“水利工程”類文獻收集的比較少,可以推斷“水庫”關(guān)鍵詞的詞頻也不會如此高,而萬方數(shù)據(jù)各類目下的文獻數(shù)肯定是不一樣的,所以基于詞頻會存在誤差。3基于類目間關(guān)鍵詞詞頻標(biāo)準(zhǔn)差大小機器輔助獲取針對以上問題,本文試驗了機器輔助獲取、消除詞頻誤差的相對詞頻與標(biāo)準(zhǔn)差方法,獲取通用概念,統(tǒng)計方法與試驗結(jié)果如下。3.1材料與方法試驗材料使用萬方數(shù)據(jù)學(xué)術(shù)論文庫,該庫基本采用《中國圖書館分類法》的分類體系,文獻共分22個一級大類。一級大類“工業(yè)技術(shù)”下分16個二級大類[10]。抽取1987-2009年所有學(xué)術(shù)論文文獻數(shù)據(jù),提取論文的關(guān)鍵詞,經(jīng)過去重、去掉詞頻為1的關(guān)鍵詞等數(shù)據(jù)清洗,得到總量約300多萬個關(guān)鍵詞,從這些詞中隨機抽取1萬個關(guān)鍵詞,用于完成本試驗。由于課題是《漢語主題詞表》(工程技術(shù)版)的編制,所以抽取的關(guān)鍵詞必須是在一級大類“工業(yè)技術(shù)”下的文獻中出現(xiàn)過的關(guān)鍵詞。為了探索一個概念通常情況下出現(xiàn)在幾個類目中,統(tǒng)計了這1萬個關(guān)鍵詞在16個二級類目文獻數(shù)據(jù)庫中的詞頻分布情況。包括:關(guān)鍵詞在各二級類目文獻中的詞頻;在工業(yè)技術(shù)一級類目下的總詞頻;計算了每個關(guān)鍵詞以上兩項統(tǒng)計值相除后的相對詞頻值;使用相對詞頻值,計算了每個關(guān)鍵詞相對詞頻值在16個二級類目間的標(biāo)準(zhǔn)差。3.2基于標(biāo)準(zhǔn)差排序獲取通用概念理論上講,關(guān)鍵詞首先應(yīng)該在16個二級類目文獻中都有詞頻,這樣的關(guān)鍵詞通常是通用概念,從試驗數(shù)據(jù)中提取的在所有類目文獻中都有關(guān)鍵詞分布的詞匯見表1。從表1數(shù)據(jù)可以看出,19個關(guān)鍵詞基本上都屬于通用概念或是工業(yè)技術(shù)中的專業(yè)通用概念,標(biāo)準(zhǔn)差比較小的“設(shè)計”(0.0697)、“優(yōu)化”(0.0566)、“調(diào)節(jié)”(0.0509)等,都是典型的通用概念。隨著標(biāo)準(zhǔn)差的增大,單個關(guān)鍵詞雖然可以應(yīng)用到所有文獻中,但還是相對集中地出現(xiàn)在某一類文獻中,例如,標(biāo)準(zhǔn)差為0.2121的“變壓器”,應(yīng)該屬于TM類(電工技術(shù)),標(biāo)準(zhǔn)差為0.1487的“可視化”應(yīng)該屬于TP類(自動化技術(shù)、計算機技術(shù))。對于在15個類目中都有分布的關(guān)鍵詞,同樣可以使用標(biāo)準(zhǔn)差分布表,從小到大排序,截取標(biāo)準(zhǔn)差比較小的關(guān)鍵詞,進行人工判斷,選擇常見的通用概念。使用試驗數(shù)據(jù),選出“解決辦法”(0.05)、“尺寸”(0.07)、“降溫”(0.07)等關(guān)鍵詞,也是非常典型的通用概念。同樣方法還可以考慮在14個類目、13個類目等文獻中分布的關(guān)鍵詞,具體考慮到多少個類目為止,需要根據(jù)具體數(shù)據(jù)獲取經(jīng)驗值,并在大規(guī)模數(shù)據(jù)中進行驗證與評價。3.3基于標(biāo)準(zhǔn)差與總詞頻二維信息獲取通用概念依據(jù)標(biāo)準(zhǔn)差判定通用概念時,重點考察了關(guān)鍵詞的均勻分布問題,總詞頻的特征沒有很好地體現(xiàn),以表1中數(shù)據(jù)為例,關(guān)鍵詞“熱傳導(dǎo)”(0.0438)、“沖擊力”(0.0529)的標(biāo)準(zhǔn)差非常小,但對應(yīng)的總詞頻分別為253、68,遠遠小于“設(shè)計”的總詞頻21252。從數(shù)據(jù)特征上看,在判斷優(yōu)質(zhì)通用概念時,應(yīng)該同時考慮標(biāo)準(zhǔn)差與總詞頻兩方面的信息,才能將在多數(shù)類目中具有關(guān)鍵詞分布的通用概念細分和分塊考慮。本文借鑒管理學(xué)SWOT分析方法解決這個問題[11],方法是制作關(guān)鍵詞二維分布圖,橫坐標(biāo)為總詞頻,縱坐標(biāo)為標(biāo)準(zhǔn)差,依據(jù)關(guān)鍵詞總體數(shù)據(jù)分布相對集中的區(qū)域,給定分區(qū)模型,如圖3所示。圖3通用概念詞頻與標(biāo)準(zhǔn)差模型根據(jù)經(jīng)驗判斷,圖3基本假設(shè)為Ⅰ區(qū),Ⅱ區(qū)偏向?qū)I(yè)分類,Ⅲ區(qū)、Ⅳ區(qū)偏向通用類。具體細分為:處于Ⅰ區(qū)的關(guān)鍵詞總詞頻低,標(biāo)準(zhǔn)差高,屬于概念專指度相對高的專業(yè)低頻概念,例如關(guān)鍵詞“分散”(628,0.1233);處于Ⅱ區(qū)的關(guān)鍵詞總詞頻高,標(biāo)準(zhǔn)差高,屬于使用范圍廣但更集中、可以歸入一個專業(yè)類的專業(yè)概念,例如關(guān)鍵詞“變壓器”(4114,0.2121);處于Ⅲ區(qū)的關(guān)鍵詞總詞頻低,標(biāo)準(zhǔn)差低,屬于概念專指度相對低、無法具體歸類的低頻通用概念,例如關(guān)鍵詞“熱傳導(dǎo)”(253,0.0438);處于Ⅳ區(qū)的關(guān)鍵詞總詞頻高,標(biāo)準(zhǔn)差低,屬于典型的通用概念,例如關(guān)鍵詞“設(shè)計”(21252,0.0697)等。對15個類目、14個類目等關(guān)鍵詞統(tǒng)計的具體數(shù)據(jù)進行觀察,發(fā)現(xiàn)總體特征符合以上規(guī)律。如果作為工程項目,在大規(guī)模數(shù)據(jù)計算實踐中,還需要進一步確定兩個方面的指導(dǎo)值或經(jīng)驗值:①區(qū)分4個區(qū)交點的坐標(biāo)點位置,而且不同的類目數(shù),交點位置也是變動的;②關(guān)鍵詞類目的適合數(shù),例如關(guān)鍵詞在5-8個類目中分布時是否還可以使用這樣的方法進行判斷。4討論4.1通用概念與概念應(yīng)用廣泛的區(qū)別在知識組織體系的概念分類中,通常會涉及學(xué)科和主題問題,也涉及學(xué)科與應(yīng)用問題,例如本文統(tǒng)計的關(guān)鍵詞“變壓器”,普遍應(yīng)用于所有工業(yè)技術(shù)中,但從分類角度看,放到TM類(電工技術(shù))更合理。也就是說,如果從應(yīng)用角度分,可以是通用概念,但從學(xué)科角度分應(yīng)該屬于專業(yè)概念。最典型的例子是“計算機”。當(dāng)今信息時代,計算機已經(jīng)成為各行業(yè)普遍使用的工具,統(tǒng)計文獻的關(guān)鍵詞詞頻,也會出現(xiàn)在所有分類文獻中,但按學(xué)科分類,“計算機”這一概念還是應(yīng)該放到TP(自動化技術(shù)、計算技術(shù))類更合適。這樣一些概念,例如“設(shè)計”,各學(xué)科都通用,無法具體歸到某一個專業(yè)學(xué)科分類中,是典型的通用概念;而類似“計算機”這樣的概念,只能說應(yīng)用廣泛,而不是通用概念,所以通用概念與概念應(yīng)用廣泛有著不同的含義。4.2通用概念、專業(yè)通用概念、專業(yè)概念之間的關(guān)系在數(shù)據(jù)處理中,通用概念與專業(yè)概念有時也不是涇渭分明的,在通用概念與專業(yè)概念間應(yīng)該有一類詞是專業(yè)通用概念,對應(yīng)交點附近的那些語詞。在傳統(tǒng)的知識組織體系中,這種現(xiàn)象也是普遍存在的。原《漢表》的范疇類目[7],除了一級大類“自然科學(xué)一般概念”、“社會科學(xué)一般概念”外,43個一級大類下,也同時設(shè)置了大類下的一般概念,例如一級大類“67機械工程”下設(shè)“67AA機械工程一般概念”,“69水利工程”下設(shè)“69A水利工程一般概念”。二級范疇“69B水文學(xué)”下有三級范疇“69BA水文學(xué)一般概念”,“地表水”是其一般概念。所以,在專業(yè)內(nèi)為通用概念,在專業(yè)間又趨向于專業(yè)概念,這類專業(yè)通用概念還是普遍存在的。知識組織體系應(yīng)該將這些概念進行明確區(qū)分,以有利于其分類與應(yīng)用。4.3通用概念選詞范圍由知識組織系統(tǒng)的應(yīng)用目的決定通常情況下,類似“研究”、“應(yīng)用”、“實踐”、“理論”等詞匯屬于典型的通用概念,這些詞的特征為專指度低、檢索意義不大,用戶檢索文獻時不會使用“研究”去檢索。但通用概念在概念組配方面具有重要意義,例如組成“問題研究”、“對策研究”、“經(jīng)濟研究”、“科學(xué)研究”、“理論研究”等先組概念,這些詞多數(shù)也是通用概念。由于知識組織體系的應(yīng)用不同,一些詞匯也可以放到專業(yè)范疇內(nèi),例如“經(jīng)濟問題”,可以放到經(jīng)濟類下作其專業(yè)通用概念,而不是與“研究”、“應(yīng)用”等典型通用概念聚到一起。為了加強分類導(dǎo)航功能,新版《漢表》范疇表主要參考了《中國圖書資料分類法》的分類體系,通用概念將時間、地區(qū)、民族、科學(xué)機構(gòu)、科學(xué)理論等相關(guān)術(shù)語都認定為通用概念。所以除了典型的通用概念外,還需要考慮獲取那些偏向于某一專業(yè)的通用概念。5結(jié)論在敘詞表、本體等知識組織體系構(gòu)建中,需要獲取并區(qū)分出通

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論